CN116541347A - 获得文档认知的方法、装置以及计算设备 - Google Patents

获得文档认知的方法、装置以及计算设备 Download PDF

Info

Publication number
CN116541347A
CN116541347A CN202310778334.0A CN202310778334A CN116541347A CN 116541347 A CN116541347 A CN 116541347A CN 202310778334 A CN202310778334 A CN 202310778334A CN 116541347 A CN116541347 A CN 116541347A
Authority
CN
China
Prior art keywords
cognitive
document
element set
file
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310778334.0A
Other languages
English (en)
Other versions
CN116541347B (zh
Inventor
黄湘阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shuchang Technology Co ltd
Original Assignee
Beijing Shuchang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shuchang Technology Co ltd filed Critical Beijing Shuchang Technology Co ltd
Priority to CN202310778334.0A priority Critical patent/CN116541347B/zh
Publication of CN116541347A publication Critical patent/CN116541347A/zh
Application granted granted Critical
Publication of CN116541347B publication Critical patent/CN116541347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种获得文档认知的方法、装置以及计算设备,该方法包括:获得基础事件;根据该基础事件和/或基础事件的组合,确定认知元,该认知元包括基础事件确定的认知关系信息和基础事件确定的认知属性信息;根据该认知关系信息和认知属性信息确定与认知元相关的至少一个认知元集合节点;选择性更新该至少一个认知元集合节点和/或认知元集合节点之间的关系。该方法能够获得对文档的认知。

Description

获得文档认知的方法、装置以及计算设备
技术领域
本申请涉及文档管理领域,并且更具体地,涉及一种获得文档认知的方法、装置以及计算设备。
背景技术
随着企业信息化水平的不断提高,数据已成为重要生产要素之一,企业在产业与服务、营销支持、业务运营、风险管控、信息披露和分析决策等经营管理活动中涉及到大量的业务数据,其中可能会包含企业的商业秘密、工作秘密,以及员工的隐私信息等。
数据管理的关键在于数据分类分级,包括数据与业务的关联,而数据分类分级的难点是数据的分类分级检测识别。数据的载体可以包括但不限于文档、图片、视频等,因此,如何对文档、图片、视频等按照其业务类型、价值程度进行管理成为业内亟需要解决的技术问题。
相关的对文档进行管理的技术方案可以包括:通过内容分析对文档、图片、视频等进行分级和分类;通过机器学习(machine learning)对文档、图片、视频等进行分级和分类;通过基于上下文的分类(context-based classification)对文档、图片、视频等进行分级和分类;通过手工对文档、图片、视频等进行分级和分类。其中,基于关键字、正则表达式的识别准确率不高。基于上下文分类法适用应用程序文件格式与类别强相关的场景,例如CAD应用程序生成的文档自动归类为设计类别,难以对doc\pdf这些文件格式与文档类别弱相关的场景,准确度不高。基于人工智能的分类方法依赖于大量的训练,而且只适合少量的场景,总体识别率不高。基于手工的分类分级,依赖于人的主动参与,对工作效率影响较大,企业IT管理员也难以强制用户去参与人工分级分类,用户往往不会主动标记,所以难以执行。
因此,如何能够准确且高效地对文档进行管理成为亟需要解决的技术问题。
发明内容
本申请提供一种获得文档认知的方法、装置以及计算设备,该方法能够获得对文档的认知。
第一方面,提供了一种能够获得对文档的认知方法,该方法包括:获得基础事件;根据该基础事件和/或该基础事件的组合,确定认知元,该认知元包括该基础事件确定的认知关系信息和该基础事件确定的认知属性信息;根据该基础事件确定的认知关系信息和该基础事件确定的认知属性信息确定与该认知元相关的至少一个认知元集合节点;根据该至少一个认知元集合节点,选择性更新该至少一个认知元集合节点和/或认知元集合节点之间的关系。
结合第一方面,在第一方面的某些实现方式中,该认知元还包括文档与该认知元集合节点之间的寻址数据。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:根据以下信息中的至少两种确定该基础事件确定的认知属性信息:该基础事件和/或所述基础事件的组合的应用属性、设备属性、用户属性、路径属性、文档扩展属性、时间属性。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:根据以下信息中的至少一种确定该基础事件确定的认知关系信息:文档镜像实体维持关系、文档镜像实体改变关系、文档镜像实体衍生关系、文档被网络传输关系。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:根据以下信息中的至少一种方式存储该文档与认知元集合节点之间的寻址数据:文档扩展元数据存储该文档与认知元集合节点之间的寻址数据、预定义数据库或文件存储文档属性与认知元集合节点之间的寻址数据。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:根据该基础事件的认知关系信息,有不能积累源文档对应的认知元集合节点认知的风险时,基于目的地文档的位置属性,确定文档扩展属性存储所述源文档对应的认知元集合节点的寻址数据方法。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:根据该基础事件和/或所述基础事件的组合,确定该文档镜像实体维持关系的认知元,更新源文档对应的认知元集合节点的认知属性信息。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:根据该基础事件和/或所述基础事件的组合,确定该文档镜像实体改变关系的认知元,创建新文档镜像的认知和\或更新源文档对应的认知元集合节点的认知属性信息。
结合第一方面,在第一方面的某些实现方式中,该创建的新文档镜像的认知,由该源文档镜像的认知和认知元的组合,基于决策确定。
结合第一方面,在第一方面的某些实现方式中,根据该基础事件和/或所述基础事件的组合,确定该文档镜像实体衍生关系的认知元,并基于决策,选择性更新该至少一个认知元集合节点的认知属性信息。
结合第一方面,在第一方面的某些实现方式中,根据该基础事件和/或所述基础事件的组合,确定该文档被网络传输关系的认知元,并基于决策,选择性更新该至少一个认知元集合节点的认知属性信息。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:基于文档镜像实体衍生关系的认知元和文档被网络传输关系的认知元,对一类认知元集合节点进行更新。
结合第一方面,在第一方面的某些实现方式中,同时更新该至少一个认知元集合节点和该认知元集合节点之间的关系,该认知元集合节点之间的关系包括关系的程度和\或关系的方向。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:按照认知元集合节点新建类别认知元、认知元集合节点维持类别认知元的顺序,根据认知元集合节点的寻址数据,更新寻址数据确定的认知元集合节点。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:如果认知元为认知元集合节点预定义的认知元类别组合中的任一种,根据认知元集合节点的寻址数据,更新寻址数据确定的认知元集合节点。
结合第一方面,在第一方面的某些实现方式中,该方法应用于对该文档进行分级分类。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:如果主体属性顺序符合决策,确定第一认知元集合节点为预定义级别类别和\或确定与第一认知元集合节点对应的文档为预定义的级别类别;或如果存储的多个类别认知元的组合符合决策,确定第一认知元集合节点为预定义级别类别和\或确定与第一认知元集合节点对应的文档为预定义的级别类别。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:如果第一认知元集合节点级别类别改变,并且第一认知元集合节点的级别类别的确定方法为预定义的级别类别确定方法,基于认知元集合节点间关系,更新第二认知元集合节点的级别类别和\或所述第二认知元集合节点对应的第二文档的级别类别;该第一认知元集合节点的级别类别的确定方法为预定义的级别类别确定方法,根据以下信息中的至少一种确定:认知元集合节点的主体属性顺序符合决策、认知元集合节点存储的多个类别认知元的组合符合决策、人工标记、从第三方应用程序获得的级别类别。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:如果第一认知元集合节点级别类别改变,并且第一认知元集合节点的级别类别的确定方法为预定义的级别类别确定方法,基于认知元集合节点间关系,更新第二认知元集合节点的级别类别和\或所述第二认知元集合节点对应的第二文档的级别类别,其中,该第一认知元集合节点的级别类别的确定过程中至少使用了第一类认知属性,该认知元集合节点间关系的确定过程中至少使用了第二类认知属性。
结合第一方面,在第一方面的某些实现方式中,响应于第一认知元集合节点级别类别的改变,改变第二文档或第二认知元集合节点的级别类别。
结合第一方面,在第一方面的某些实现方式中,通过比较确定该第一认知元集合节点的认知元类别组合、确定第二认知元集合节点的认知元类别组合,确定该第二文档或该第二认知元集合节点的级别类别。
结合第一方面,在第一方面的某些实现方式中,所述基于认知元集合节点间关系,更新第二文档和\或第二认知元集合节点的级别类别步骤中,该认知元集合节点间关系包括关系的程度和\或关系的方向。
结合第一方面,在第一方面的某些实现方式中,基于该第一认知元集合节点,确定该第二文档或该第二认知元集合节点的级别类别。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:基于第一文档与认知元集合节点之间的寻址数据、认知元集合节点认知属性,响应于第一文档的认知元,改变第二文档或第二认知元集合节点的级别类别。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:基于第一文档与认知元集合节点之间的寻址数据、认知元集合节点的认知属性、认知元集合节点间关系的程度,响应于第一文档的认知元,改变第二文档或第二认知元集合节点的级别类别。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:确定该文档的级别类别和文档被网络传输的网络数据的组合,并传输到预定义的网络设备。
结合第一方面,在第一方面的某些实现方式中,该方法应用于生成文档家族分布图。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:基于该认知元集合节点之间的关系,集合多个不同类别认知元集合节点,生成审计绘图,该审计绘图用于表示文档在用户设备上的分布。
结合第一方面,在第一方面的某些实现方式中,该方法应用于控制文档的访问,该文档访问,包括打开一个文件,写入文件,删除文件,更改文件权限,改变文件属性,在一个邮件存储打开一个电子邮件消息,在邮件存储在删除电子邮件,从文档管理系统检索文档,存储文档到文档管理系统,或是任何访问文档或文档存储库的行为。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:控制文档的访问或使用基于以下三者的组合:基于文档对应的第一认知元集合节点、第一认知元集合节点与第二认知元集合节点之间的关系、第二认知元集合节点的级别类别。
结合第一方面,在第一方面的某些实现方式中,该第二认知元集合节点的级别类别的确定方法可以为预定义的级别类别确定方法或者确定第二认知元集合节点为预定义认知元类别的组合。
第二方面,提供了一种获得文档认知的装置,包括:获取模块,处理模块,其中,获取模块,用于获得基础事件;处理模块用于根据该基础事件和/或所述基础事件的组合,确定认知元,该认知元包括该基础事件确定的认知关系信息和该基础事件确定的认知属性信息;根据该认知关系信息和认知属性信息确定与该认知元相关的至少一个认知元集合节点;根据该至少一个认知元集合节点,选择性更新该至少一个认知元集合节点和/或认知元集合节点之间的关系。
结合第二方面,在第二方面的某些实现方式中,该认知元还包括文档与该认知元集合节点之间的寻址数据。
结合第二方面,在第二方面的某些实现方式中,该处理模块,还用于根据以下信息中的至少两种确定该认知属性信息:该基础事件和/或所述基础事件的组合的应用属性、设备属性、用户属性、路径属性、文档扩展属性、时间属性。
结合第二方面,在第二方面的某些实现方式中,该处理模块,还用于根据以下信息中的至少一种确定该认知关系信息:文档镜像实体维持关系、文档镜像实体改变关系、文档镜像实体衍生关系、文档被网络传输关系。
结合第二方面,在第二方面的某些实现方式中,该处理模块,还用于根据以下信息中的至少一种方式存储该文档与认知元集合节点之间的寻址数据:文档扩展元数据存储该文档与认知元集合节点之间的寻址数据、预定义数据库或文件存储文档属性与认知元集合节点之间的寻址数据。
结合第二方面,在第二方面的某些实现方式中,该处理模块,还用于根据基础事件确定的认知关系信息,有不能积累源文档对应的认知元集合节点认知的风险时,基于目的地文档的位置属性,确定文档扩展属性存储所述源文档对应的认知元集合节点的寻址数据方法、基础事件确定的认知关系信息、基础事件确定的认知属性信息。
结合第二方面,在第二方面的某些实现方式中,该处理模块,还用于根据该基础事件和/或所述基础事件的组合,确定该文档镜像实体维持关系的认知元,更新源文档镜像的认知或者更新源文档对应的认知元集合节点的认知属性信息。
结合第二方面,在第二方面的某些实现方式中,该处理模块,还用于根据该基础事件和/或所述基础事件的组合,确定该文档镜像实体改变关系的认知元,创建新文档镜像的认知,和\或更新源文档对应的认知元集合节点的认知属性信息。
结合第二方面,在第二方面的某些实现方式中,该创建的新文档镜像的认知,由该源文档镜像的认知和认知元的组合,基于决策所确定。
结合第二方面,在第二方面的某些实现方式中,该处理模块具体用于:根据该基础事件和/或所述基础事件的组合,确定该文档镜像实体衍生关系的认知元,并基于决策,选择性更新该至少一个认知元集合节点的认知属性信息。
结合第二方面,在第二方面的某些实现方式中,该处理模块具体用于:根据该基础事件和/或所述基础事件的组合,确定该文档被网络传输关系的认知元,并基于决策,选择性更新该至少一个认知元集合节点的认知属性信息。
结合第二方面,在第二方面的某些实现方式中,该处理模块,还用于基于文档镜像实体衍生关系的认知元和文档被网络传输关系的认知元,对一类认知元集合节点进行更新。
结合第二方面,在第二方面的某些实现方式中,该处理模块具体用于:同时更新至少一个该认知元集合节点和该认知元集合节点之间的关系,该认知元集合节点之间的关系包括关系的程度和\或关系的方向。
结合第二方面,在第二方面的某些实现方式中,该处理模块,还用于按照认知元集合节点新建类别认知元、认知元集合节点维持类别认知元的顺序,根据认知元集合节点的寻址数据,更新寻址数据确定的认知元集合节点。
结合第二方面,在第二方面的某些实现方式中,该处理模块,还用于如果认知元为认知元集合节点预定义的认知元类别组合中的任一种,根据认知元集合节点的寻址数据,更新寻址数据确定的认知元集合节点。
结合第二方面,在第二方面的某些实现方式中,该装置应用于对该文档进行分级分类。
结合第二方面,在第二方面的某些实现方式中,该处理模块,还用于如果主体属性顺序符合决策确定第一认知元集合节点为预定义级别类别和\或确定与第一认知元集合节点对应的文档为 预定义的级别类别;或该处理模块,还用于如果存储的多个类别认知元的组合符合决策,确定第一认知元集合节点为预定义级别类别和\或确定与第一认知元集合节点对应的文档为预定义的级别类别。
结合第二方面,在第二方面的某些实现方式中,该处理模块,还用于如果第一认知元集合节点级别类别改变,并且第一认知元集合节点的级别类别的确定方法为预定义的级别类别确定方法,基于认知元集合节点间关系,更新第二认知元集合节点的级别类别和\或所述第二认知元集合节点对应的第二文档的级别类别;该第一认知元集合节点的级别类别的确定方法为预定义的级别类别确定方法,根据以下信息中的至少一种确定:认知元集合节点的主体属性顺序符合决策、认知元集合节点存储的多个类别认知元的组合符合决策、人工标记、从第三方应用程序获得的级别类别。
结合第二方面,在第二方面的某些实现方式中,该处理模块,还用于如果第一认知元集合节点级别类别改变,并且第一认知元集合节点的级别类别的确定方法为预定义的级别类别确定方法,基于认知元集合节点间关系,更新第二认知元集合节点的级别类别和\或所述第二认知元集合节点对应的第二文档的级别类别,其中,该第一认知元集合节点的级别类别的确定过程中至少使用了第一类认知属性,该认知元集合节点间关系的确定过程中至少使用了第二类认知属性。
结合第二方面,在第二方面的某些实现方式中,该处理模块具体用于:响应于第一认知元集合节点级别类别的改变,改变第二文档或第二认知元集合节点的级别类别。
结合第二方面,在第二方面的某些实现方式中,该处理模块具体用于:通过比较确定该第一认知元集合节点的认知元类别组合、第二认知元集合节点的认知元类别组合,确定该第二文档或该第二认知元集合节点的级别类别。
结合第二方面,在第二方面的某些实现方式中,该基于认知元集合节点间关系,更新第二文档和\或第二认知元集合节点的级别类别步骤中,该认知元集合节点间关系包括关系的程度和\或关系的方向。
结合第二方面,在第二方面的某些实现方式中,该处理模块具体用于:基于该第一认知元集合节点,确定该第二文档或该第二认知元集合节点的级别类别。
结合第二方面,在第二方面的某些实现方式中,该处理模块,还用于基于第一文档与认知元集合节点之间的寻址数据、认知元集合节点认知属性,响应于第一文档的认知元,改变第二文档或第二认知元集合节点的级别类别。
结合第二方面,在第二方面的某些实现方式中,该处理模块,还用于基于第一文档与认知元集合节点之间的寻址数据、认知元集合节点的认知属性、认知元集合节点间关系的程度,响应于第一文档的认知元,改变第二文档或第二认知元集合节点的级别类别。
结合第二方面,在第二方面的某些实现方式中,该处理模块,还用于确定该文档的级别类别和文档被网络传输的网络数据的组合,并传输到预定义的网络设备。
结合第二方面,在第二方面的某些实现方式中,该装置应用于生成文档家族分布图。
结合第二方面,在第二方面的某些实现方式中,该处理模块,还用于基于该认知元集合节点之间的关系,集合多个不同类别认知元集合节点,生成审计绘图,该审计绘图用于表示文档在用户设备上的分布。
结合第二方面,在第二方面的某些实现方式中,该装置应用于控制文档的访问,该文档访问,包括打开一个文件,写入文件,删除文件,更改文件权限,改变文件属性,在一个邮件存储打开一个电子邮件消息,在邮件存储在删除电子邮件,从文档管理系统检索文档,存储文档到文档管理系统,或是任何访问文档或文档存储库的行为。
结合第二方面,在第二方面的某些实现方式中,该控制文档的访问或使用基于以下三者的组合:基于文档对应的第一认知元集合节点、第一认知元集合节点与第二认知元集合节点之间的关系、第二认知元集合节点的级别类别。
第三方面,提供了一种计算设备,包括处理器和存储器,可选地,还包括输入输出接口。其中该处理器用于控制该输入输出接口收发信息,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得该执行第一方面或第一方面任意一种可能的实现方式中的方法。
可选地,该处理器可以是通用处理器,可以通过硬件来实现也可以通过软件来实现。当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于该处理器之外,独立存在。
第四方面,提供了一种芯片,该芯片获取指令并执行该指令来实现上述第一方面以及第一方面的任意一种实现方式中的方法。
可选地,作为一种实现方式,该芯片包括处理器与数据接口,该处理器通过该数据接口读取存储器上存储的指令,执行上述第一方面以及第一方面的任意一种实现方式中的方法。
可选地,作为一种实现方式,该芯片还可以包括存储器,该存储器中存储有指令,该处理器用于执行该存储器上存储的指令,当该指令被执行时,该处理器用于执行第一方面以及第一方面中的任意一种实现方式中的方法。
第五方面,提供了一种包含指令的计算机程序产品,当该指令被计算设备运行时,使得该计算设备执行如上述第一方面以及第一方面的任意一种实现方式中的方法。
第六方面,提供了一种计算机可读存储介质,包括计算机程序指令,当该计算机程序指令由计算设备执行时,该计算设备执行如上述第一方面以及第一方面的任意一种实现方式中的方法。
作为示例,这些计算机可读存储包括但不限于如下的一个或者多个:只读存储器(read-only memory,ROM)、可编程ROM(programmable ROM,PROM)、可擦除的PROM(erasablePROM,EPROM)、Flash存储器、电EPROM(electrically EPROM,EEPROM)以及硬盘驱动器(harddrive)。
可选地,作为一种实现方式,上述存储介质具体可以是非易失性存储介质。
附图说明
图1是本申请实施例提供的一种获得文档认知的方法的示意性流程图。
图2是一种基础级事件获取器200的示意性框图。
图3为本申请实施例提供的一种文档的审计绘图的示意图。
图4为本申请实施例提供的一种包含文档被新建的事件的认知元的方法的示意性流程图。
图5为本申请实施例提供的一种对保持文档和MultiRelationNode之间的对应关系的方法的示意性流程图。
图6为本申请实施例提供的一种包含文档被上传的事件的认知元的方法的示意性流程图。
图7是本申请实施例提供的一种如何确定具有关联关系的FileFlowNode的方法的示意性流程图。
图8是本申请实施例提供的一种家族树之间相互影响文档的分类结果的方法的示意性流程图。
图9是本申请实施例提供的一种获得文档认知的装置900的示意性框图。
图10是本申请实施例提供的一种计算设备1500的架构示意图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
本申请将围绕包括多个设备、组件、模块等的系统来呈现各个方面、实施例或特征。应当理解和明白的是,各个系统可以包括另外的设备、组件、模块等,并且/或者可以并不包括结合附图讨论的所有设备、组件、模块等。此外,还可以使用这些方案的组合。
另外,在本申请实施例中,“示例的”、“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用示例的一词旨在以具体方式呈现概念。
本申请实施例中,“相应的(corresponding,relevant)”和“对应的(corresponding)”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。
本申请实施例描述的业务场景是为了更加清楚地说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着网络架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:包括单独存在A,同时存在A和B,以及单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
本申请实施例提供了一种获得文档认知的方法,可以对文档进行管理的同时,还可以对根据其敏感程度、价值程度和安全需求等文档进行准确度高的分级和分类。
需要说明的是,文档认知包括文档对应的认知元集合节点的级别类别,文档对应的认知元集合节点所属的级别类别群组。
需要说明的是,本申请实施例提供的获得文档认知的方法同样也可以应用于对图片、视频等非结构化数据进行分级和分类的场景,根据图片、视频等的敏感程度、价值程度和安全需求等进行分级和分类。
需要说明的是,文档原有属性是指存储在PC机文件系统上文档自身的文档路径、文档大小、文件名等应用程序级别的非结构化数据的固有属性。
需要说明的是,基于决策确定,是指可以基于知识驱动模型、或者也可以是数据驱动模型,为了表达清楚,本申请实施例中使用了规则,来表达基于规则评估结果的选择性控制。
需要说明的是,选择性确定是指可以基于知识驱动模型、或者也可以是数据驱动模型,为了表达清楚,本申请实施例中使用了规则,来表达基于规则评估结果的选择性控制。
本申请实施例中,“家族树”和“文档家族”、“FileFlowNode”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。
图1是本申请实施例提供的一种获得文档认知的方法的示意性流程图。如图1所示,该方法可以包括步骤110-120,下面分别对步骤110-120进行详细描述。
步骤110:根据基础事件和/或基础事件的组合,选择性确定认知元。
所述认知元,包括基础事件确定的认知关系信息、基础事件确定的认知属性信息。可选的,由于认知元集合节点的寻址数据可以由基础事件确定的认知关系信息、基础事件确定的认知属性信息共同确定,所以另一种可能的实现方式中,认知元可以理解为:基础事件确定的认知关系信息、基础事件确定的认知属性信息以及认知元集合节点的寻址数据的组合。为了更好的说明认知元,本申请实施例引入文档操作事件概念。
本申请实施例中,上述文档操作事件是由用户在客户端的基础级事件或多个基础级事件进行组合后得到的。对该多个基础级事件的组合方式可以包括限不限于:对多个基础级事件进行合并、对多个基础级事件进行关联。
上述基础事件确定的认知关系信息:可以由基础事件和\或基础事件的组合确定,包括:文档镜像实体维持关系、文档镜像实体改变关系、文档镜像实体衍生关系、文档被网络传输关系等,可以由文档操作事件的类别表示。
举例说明,下面从不同的维度,对上述文档操作事件进行以下分类,以表达基础事件确定的认知关系信息。
应理解,为了形象表达基础事件确定的认知关系信息、基础事件确定的认知属性信息。本申请实施例所举例的文档操作事件可以包括但不限于:文件被新建、另存为新文件、文件被复制、文件被刻录、文件被压缩、文件被解压缩、文件被存档、文件被上传、文件被下载、文件被上传并获得网络信息、文件被下载并获得网络信息、文件被移动、文件被重命名、文件被编辑、文件被只读、内容被剪切板粘贴到、内容拖拽等。
一个示例,基础事件和\或基础事件的组合确定,符合决策,获得了一类基础事件确定的认知关系:文档镜像实体改变关系EntityMirrorChanged。表示所述关系的文档操作事件可以包括但不限于:文件被新建、另存为新文件、文件被复制、文件被刻录、文件被压缩、文件被解压缩、文件被存档、文件被上传、文件被下载、文件被上传并获得网络信息、文件被下载并获得网络信息。
另一个示例,基础事件和\或基础事件的组合确定,符合决策,获得了一类基础事件确定的认知关系:文档镜像实体维持关系EntityMirrorRemain,可以包括但不限于:文件被移动、文件被重命名、文件被编辑、文件被只读、内容被剪切板粘贴到、内容拖拽。
另一个示例,基础事件和\或基础事件的组合确定,符合决策,获得了一类基础事件确定的认知关系:文档被网络传输关系DataInMotion,即可表示为生成了操作数据包括传输状态的文档操作事件(DataInMotionAction),可以包括但不限于:文件被上传、文件被下载、文件被上传并获得网络信息、文件被下载并获得网络信息等。
另一个示例,基础事件和\或基础事件的组合确定,符合决策,获得了一类基础事件确定的认知关系:获得了文档镜像实体衍生关系FileDerived,即可表示为生成了文档实体衍生类别的文档操作事件(FileDerivedAction),可以包括但不限于:文件被复制、文件被刻录、文件被压缩、文件被解压缩、文件被存档、另存为新文件。
另一个示例,基础事件和\或基础事件的组合确定,符合决策,生成操作数据包括被使用状态的文档操作事件(DataInUseAction)可以包括但不限于:文件被编辑、文件被只读、内容被剪切板粘贴到、内容拖拽等。
另一个示例,基础事件和\或基础事件的组合确定,符合决策,生成操作数据包括静态存储状态的文档操作事件(DataAtRestAction)可以包括但不限于:文件被新建、文件被移动、另存为新文件、文件被重命名;文件被复制、文件被刻录、文件被压缩、文件被解压缩、文件被存档等。
另一个示例,基础事件和\或基础事件的组合确定,符合决策,生成内容引用关系的文档操作事件(CopyContentAction)可以包括但不限于:内容被剪切板粘贴到、内容拖拽。该类型的文档操作事件可以表达内容引用相关认知CopyContent。
上述基础事件确定的认知属性信息:由基础事件和\或基础事件的组合确定的认知属性,包括:AppBusiness、UserBusiness、DeviceBusiness、FolderBusiness、FileTagBusiness、TimeBusiness等,可以由文档操作事件的主体属性、客体属性、时间属性表示,基础事件确定的认知属性的确定方法即文档操作事件的主体属性、客体属性等属性确定方法。
认知元集合节点的寻址数据:基础事件确定的认知关系信息、基础事件确定的认知属性信息的组合,可以确定文档操作事件目的地文档的认知元集合节点的寻址数据。一种实施方式,文档的扩展元数据存储认知元集合节点的寻址数据,例如保存该文档和对应的MultiRelationNode之间的寻址数据。一种实施方式,基于基础事件确定的认知关系信息、基础事件确定的认知属性信息,在DB等预定义位置,确定文档原有属性与认知元集合节点的寻址关系。
文档ID是文档扩展元数据存储的确定EntityMirror识别符的信息,新文档则有新ID。文档扩展元数据容器存储文档ID,实际是建立了文档原有属性、文档镜像间的实体对应关系。维持基于ID寻址文档镜像EntityMirror的关系,一种可选的方法,响应文档实体不发生改变类型的事件,维持文档ID不变,维持EntityMirror.ID不变。一种可选的方法,响应文档实体不发生改变类型的事件,更新文档ID,基于更新后的文档ID确定EntityMirror.ID。即无论文档ID变或不变,核心是维持文档原有属性-文档镜像的寻址。
认知元含有基础事件确定的认知关系,即为该类别的认知元。例如含有文档镜像实体衍生关系FileDerived的认知元,即为文档镜像实体衍生关系FileDerived类别的认知元,含有文档镜像实体维持关系EntityMirrorRemain的认知元即为文档镜像实体维持关系EntityMirrorRemain的认知元。
基础事件确定的认知属性,如果包含一个或多个文档属性,由该基础事件确定的认知属性所确定的认知元,即可以称为该一个或多个文档的认知元。
预定义由多类认知关系信息、文档与认知元集合节点的寻址数据组合,选择性确定文档与认知元集合节点的寻址数据的新建或维持。按照认知元集合节点新建类别认知元、认知元集合节点维持类别认知元的顺序,根据认知元集合节点的寻址数据,更新寻址数据确定的认知元集合节点。例如:
预定义包含文档镜像实体改变关系EntityMirrorChanged,所确定的文档与文档镜像EntityMirror的寻址数据的新建。
如果认知元操作的文档已有文档与EntityMirror的寻址数据,文档镜像实体维持关系EntityMirrorRemain是EntityMirror维持类别认知元。
如果认知元操作的文档无FileFlowNode寻址数据,根据以下类别认知元的至少一种确定FileFlowNode新建类别认知元: 预定义文档镜像实体衍生关系FileDerived、文档被网络传输关系DataInMotion组合。
如果认知元已有文档与FileFlowNode的寻址数据,根据以下类别认知元的至少一种确定FileFlowNode维持类别认知元: 文档镜像实体衍生关系FileDerived类别认知元、文档镜像实体维持关系EntityMirrorRemain类别认知元、文档被网络传输关系DataInMotion类别认知元。
表1示出了一种文档操作事件目的地文档认知元集合节点的寻址数据确定方法说明。
表1
所述选择性,可以基于数据驱动模型,也可以基于知识驱动模型,例如规则。
一种可选的方式是,当源文档扩展元数据没有关联FileFlowNode,可以先以源文档的hash值作为FileFlowNode.ID值。例如当不同的用户从服务器下载同一文件时,例如获得10个副本,由于刚下载时文件没有对应FileFlowNode,以文档的hash值作为文档的FileFlowNode.ID值。这样的好处是这10个副本由于下载事件的源文档的hash值相同,所以其下载事件的目的地文档,关联同一FileFlowNode.ID值。FileFlowNode.ID值的确定方法,也可以考虑文档间的内容分析结果,包括但不限于文档的哈希、大小、内容分析结果。
需要说明的是,下文中的基础事件确定的认知属性信息包括基础事件和\或基础事件组合确定的属性,基础事件的认知关系信息包括基础事件和\或基础事件组合确定的关系。
可选的,在步骤110之前,需要获取用户在客户端的基础级事件。
为了便于描述,下面先结合图2,对如何获取用户在客户端的基础级事件的过程进行详细描述。
图2是一种基础级事件获取器200的示意性框图。参见图2,该基础级事件获取器200可以包括:文件列表过滤器210、文件事件输出器220、应用程序api监控器230、剪切板事件输出器240、网络事件输出器250、打印事件输出器260。
作为示例,可以通过在终端用户设备中安装程序,在终端用户对一个或多个文档进行访问时,利用hook、驱动等技术进行检测。
下面对基础级事件获取器200中包括的各个模块的功能进行详细描述。
文件列表过滤器210,用于自动过滤许多标准调用生成系统文件等无关紧要的事件。例如设置文件格式白名单列表,不在白名单中的文件格式,将不被送往基础级事件合并\集合阶段。
文件事件输出器220,用于监控应用文件的读写等操作,可以实现为驱动层模块和/或应用层的模块。
应用程序api监控器230,用于监控应用程序运行功能,例如通过Hook方式,或者通过插件或sdk或适配器或改造的方式监控程序行为。
网络事件输出器250,用于识别网络行为,例如windows可以通过Winsock, LSP,TDI,NDIS Driver等不同的方法监控网络事件。
本申请实施例中,用户通过应用程序和操作系统在使用某个文档时,通过监控应用程序和/或操作系统中使用基础级事件获取器200,可以输出一个或多个基础级事件。输出的基础级事件中可以包括但不限于以下信息:主体信息、事件信息、客体信息、时间信息等。
上述主体信息可以包括但不限于:设备属性信息、应用属性信息、用户属性信息。其中,设备属性信息可以包括但不限于:设备标识(例如,硬盘序列号、CPU序列号、MAC地址)、设备类型、设备元数据、端口类型、驱动类型、USB设备元数据等。应用属性信息可以包括但不限于:应用文件路径、应用名、应用版本、应用MD5哈希值、进程窗口标题、进程公司名、进程元数据、进程开始时间、进程结束时间、进程拥有者等。用户属性信息可以包括但不限于:用户ID、用户属性等。
上述事件信息可以包括但不限于:事件名、API名等。
上述客体信息主要为事件所操作的客体对象,该客体对象为应用程序级别的非结构化数据,授权用户可获得读写访问权限,因此,客体信息可以包括但不限于:源文档/目标文件名、文件扩展名、文件修改时间、大小、路径、网络操作源/目标地址、端口和主机名、文件的扩展属性等。还包括事件的源地址、目的地地址,包括网络操作信息:源文档/目标文件的地址、源端口、目的端口、和主机名、协议,获得发送和接收的字节(byte),TCPIP入栈、出栈事件时间及计数等。
上述时间信息可以包括例如年、月、日、时间等信息。
应理解,不同类别的基础级事件获取的信息可以相同,或者也可以不同,本申请实施例对此不做具体限定。
举例说明,下表2列举了一些可能的基础级事件,以及对该基础级事件的输出方式的举例和相关的描述。
表2
本申请实施例中,客户端可以将基础级事件报告给事件组合器程序,事件组合器程序分析处理基础级事件,基于预定义规则,得到基础事件确定的认知关系信息和所述基础事件确定的认知属性信息,即表示为文档操作事件。下面对几种可能的实现方式进行详细描述。
一种可能的实现方式,事件组合器对多个基础级事件进行合并,得到文档操作事件。例如应用程序打开一个文件时,例如设置时间阀值,如果监控到多个“读文件”基础级事件的序列是相同的进程,而且相同的可执行文件具备相同的线程,和相同的文件句柄,事件合并阶段将只计算一个单一的“读文件”事件。
另一种可能的实现方式,事件组合器对多个基础级事件进行关联,得到文档操作事件。例如,事件组合器可以分析应用程序的行为,考虑基础级事件中包括的主体特征、事件特征、客体特征等,选择性的将符合条件的基础级事件集合在一起,得到文档操作事件。
上述主体特征可以包括:基础级事件发生时的用户信息、应用信息、设备信息等主体信息。一个示例,本申请实施例中,可以使用主体及主体属性特征将不同的基础级事件进行关联集合在一起,包括基于界面特征的基础事件关联。在涉及用户网络操作的时候,应用的窗口名,浏览器的标签名、应用程序的标题栏等可以用于基础事件关联。
上述事件特征可以包括:基础级事件及基础级事件属性特征,具体的,包括:事件类别、事件计数、读取字节(byte)计数,写入字节(byte)计数,事件开始时间、事件结束时间、源位置信息。根据基础级事件的类型不同,也可能额外包含URI、UNC、URL等信息。
上述客体特征可以包括:基础级事件的文件及文件属性。
本申请实施例中,当事件组合器监测到基础级事件以预定规律组合,例如基础级事件发生的时间顺序符合预定义时间特征,则认为是一个特定的文档操作事件。所述预定义时间特征是指由多个基础级事件触发时间组成的一个时间序列。事件组合器还可以获得一序列的数据资产访问事件的监控结果,监控结果内容为获得一序列的数据资产访问事件及对应的主体、客体信息,具体包括:源位置、目的地位置、源文档、目的地文档、调用程序的ID,可执行程序的名称,开始时间,结束时间,登录或注销的用户操作,时间和用户身份识别、设备类型等信息。
下面对根据基础级事件得到的不同的文档操作事件进行举例说明。
示例1,文档操作事件为“文件被新建”。该文档操作事件组成的基础事件包括以下基础级事件: “打开文件”以及“写文件”。该文档操作事件的基础事件的组合特征可以理解为右键新建、应用内部新建。
下面对应用内部新建进行分析。例如office、WPS等有些比较复杂的应用,主进程仅负责界面的交互与绘制,而其内部的每个会话逻辑由一个或几个单独的子进程来负责实现。需要汇集每个子进程的基础事件,根据发生的时间戳、目标对象分类排序,统一处理。
场景1:子进程A上报了c:\test.docx文档的“打开文件”后进行了若干“读文件”,之后子进程B又对c:\test.docx文档进行了“写文件”基础事件,由于符合“文件被编辑”预定义的时间特征,且文档c:\test.docx关联的编辑窗口是存在的,则生成一个“文件被编辑”的文件内容关系事件。
场景2:子进程A上报了c:\test.docx文档的“打开文件”后进行了若干“读文件”,进程B“打开文件”新文档c:\test1.docx并进行了“写文件”基础事件,且文档c:\test.docx被解锁,文档c:\test1.docx被加锁,并且文档c:\test.docx关联的编辑窗口与新的文档c:\test1.docx建立了关联,则合并分析后,会产生该软件下对文档c:\test.docx到c:\test1.docx的 “另存为新文件”事件。
场景3:子进程A上报了c:\test.docx文档的“打开文件”后进行了若干“读文件”,若进程B“打开文件”文档c:\test1.docx,并仅进行了“写文件”基础事件,而且出现了新的编辑窗口与文档c:\test1.docx关联,且文档c:\test.docx未解锁,与其关联的窗口依然存在,则合并分析后,会产生该软件下对文档c:\test1.docx的新建事件。
在对基础级事件进行关联的过程中,涉及到以下实现方式:
方式1:当应用打开文件时,缓存“打开文件”路径和窗口标题,“写文件”作为另存为的目标文件,通过当前窗口标题获得文件信息并在缓存里找到对应的文件,作为另存为的源文档。
方式2:获得当前的窗口标题。
应理解,不同的应用程序标题格式可能不同,有的标题包含文件全路径,有的标题包含文件名,还有的标题只包含文件短名没有后缀名。一个示例,若包含文件全路径,可直接从标题获得的原文件。另一个示例,若是包含文件名的,查询缓存,匹配文件名,从而获得到对应的原文件。
举例说明,标题的格式主要有如下几种:
第一种:文件名在前的,如test.docx office;第二种:文件短名在前的,如testoffice;
第三种:文件全路径在前的,如 C:\test.docx office;第四种:文件名被[]包括起来的,如 [test.docx]office;第五种:文件全名被[]包括起来的,如: [C:\test.docx]office。
可选的,还有其他类型,需要针对这些格式提出去对应的文件名信息即可。
可选地,可以过滤掉不需要关注的一些后缀名文件,过滤掉一些临时和特定目录下的文件,这样应用程序读取的文件 被客户端缓存起来了。
wps和office应用都支持微软的文档COM组件二次开发技术,可以通过文档窗口的句柄获取到文档的COM组件对象,从而直接提取到文档窗口对应的文档完整路径,这样就可以有效地解决同名不同路径文档同时打开时,通过标题栏匹配可能出现混淆的问题。
下面介绍这种文档操作事件下,源文档\目的地文档的获取方法。文件在运行的磁盘不同路径间迁移的操作的源路径可以通过多种方式获得。每当一个文件被打开同时被读取,可以把这个打开的文件放入缓存中。大多数应用程序在操作文件时,文件会被应用程序占用,利用此特性可以改良将应用程序读取的文件被缓存的方式。
每当一个文件被打开且被读取时,监控程序把这个文件放入缓存中;当文件被关闭,监控程序把这个文件从缓存中删除。这样缓存中保存的是当前程序正在操作的文件,缓存大小一直处于可控的范围内。
有些应用在保存文件或在另存为文件发生之前会先关闭当前的文件,这样通过将应用程序占用当前文件存入缓存的方式,就会存在缓存中找不到此文件的问题。为了克服此问题,可以增加一个特殊的缓存,总是保存最后被关闭的N个文件,这样在具有应用程序占用当前文件存入缓存方式的优点同时不存在这个特殊的问题。
更有一些特殊的应用,当它打开文件时,会生成一个临时文件,然后打开这个临时文件同时关闭原文件,这种情况下缓存中是不存在原文件的。对于这种特殊的情况,可以通过临时文件的特征镜像找回原文件。例如临时文件总是在文档前面加一个特殊的$字符,当客户端监控在读取缓存时,发现首字符为$字符,“文件编辑”以此镜像找回原文件。
示例2,文档操作事件为“另存为新文件”。该文档操作事件组成的基础事件包括以下基础级事件:“读文件”、“又读又写文件”以及“写文件”。该文档操作事件关联的基础事件范围包括:基于主体属性的基础事件关联以及基于界面特征关联。该文档操作事件的基础事件的组合特征可以理解为一个应用“读文件”或“又读又写”一个文件,然后对一个新文件“写文件”。因此基础级事件的发生时序如果符合上述特征,可以获得“另存为新文件”的一个文档操作事件。
下面介绍这种文档操作事件下,源文档实体和目的地文档的获取方法。
方法1:基于界面特征关联组成的基础事件。
监控程序缓存基础事件“打开文件”打开的文件和该文件的关联窗口;一些应用程序“另存为新文件”操作需要写文件操作,监控程序获取到当发生“写文件”基础事件操作时,写的这个文件作为“另存为新文件”的目标文件(注意:临时目录下的文件不是保存文件操作,具有特定后缀的文件属于保存文件操作,具有特定格式的文件名属于保存文件操作),通过窗口、插件等方式获取当前的关联文件路径,如果窗口原本关联的是之前该进程“读文件”基础级事件或者“又读又写”基础级事件操作过的客体(文件),而现在关联的已经是“写文件”基础事件的目标文件了,则可以判断 “另存为新文件”操作事件源文档实体。
方法2:利用插件程序会准确获得源文件、目的地文件。
Office支持COM插件,接口为Extensibility,实现此接口,实现OnAddInsUpdate,OnBeginShutdown,OnConnection,OnDisconnection,OnStartupComplete方法,可以得到文档打开,关闭,保存,“内容另存为”等事件。
Adobe支持DLL插件,dll导出一个指定的函数PlugInMain,初始化上下文,接收文档打开,文档关闭,文档切换,文档“内容另存为”等事件。
Office/WPS等编辑软件在编辑文档时,会自发锁定当前编辑的文档,表现为其它第三方软件对该文档均不可再打开访问。(补充:某些特殊情况下,文档可能不是阅读或编辑的全程中被锁定的,此时就需要通过文档关联窗口是否存在来进行文档锁定的逻辑上的补充判定,而不是单单只靠文件锁定状态来判断)。因此,当另存为事件发生时,目标软件在行为上会表现出对当前文档的解锁,对新文件的加锁,并且会执行对新文件的写访问。所以结合此序列的基础事件将可联合推断出另存为事件的源和目的地文档。
方法3:利用应用间协同数据流来获得源文件、目的地文件。
多进程协作完成另存为的情况。有时候源文件的读取、格式的转换、目的文件的新建、数据的写入这些操作都是在不同的进程间协同完成的,并不局限在一个进程中。例如WPS提供了几个辅助编辑的小工具,用来完成各种文档格式间的格式的批量转换(主要是Office文档到PDF或图片格式的转换)。在这种情形下,单纯的使用方法1或方法2中提到的手段是不能满足事件捕获需求的。所以这时需要先从小工具中截获启动时传入的初始文档路径,并结合方法1,在多个进程间分别记录捕获到的源文件和目的地文件的基础读写事件和时间戳,最后在目的地文件的基础事件被捕获时,用时间戳查询其它进程里记录的基础事件信息来整合出源文件路径(用时间戳的目的是为了过滤掉那些较早发生的读事件),完成SaveAs事件信息的收集和上报。
示例3,文档操作事件为“文件被复制”。该文档操作事件组成的基础事件包括以下基础级事件:“读文件”、“写文件”、“又读又写文件”以及“复制文件”。该文档操作事件关联的基础事件范围为基于主体属性的基础事件关联,源文档:“读文件”基础事件所操作的文档。目的地文档:“写文件”基础事件所操作的文档或者“复制文件”基础事件所写的文件。该文档操作事件的基础事件的组合特征可以理解为是同一个线程,可以监控到交替的文件读、文件写的过程,文件读有一个相同的文件句柄,文件写有一个相同的文件句柄。
示例4,文档操作事件为“文件被刻录”。该文档操作事件组成的基础事件包括以下基础级事件:“打开文件”、“读文件”、“写文件”以及“重命名文件”。该文档操作事件的基础事件的组合特征可以理解为例如有些刻录文件可以由“打开文件”、“读文件”、“写文件”等基础级事件组成,基础事件的主体是刻录应用。涉及到的基础事件的客体,可能涉及到临时文件。基本上观察各种常用的刻录程序的行为特征,从而可以组成一个适用于几乎所有常用的刻录程序的预定义基础事件序列的逻辑。
示例5,文档操作事件为“文件被压缩(zip)”。该文档操作事件组成的基础事件包括以下基础级事件:“打开文件”、“读文件”、“写文件”以及“重命名文件”。该文档操作事件的基础事件的组合特征可以理解为观察各种压缩程序的行为特征,一个 “文件被压缩”事件由“打开文件”、“读文件”、“写文件”、“重命名文件”、“移动文件”等基础级事件组成,通过基础事件的主客体环境时间特征的关联,并且这些基础事件的发生符合预定义的时间序列。
下面对市场主流压缩软件的源文档、目的地文档特征进行分析:
Winrar:首先“打开文件”目的地文档(rar\zip等压缩类型文档)、然后“打开文件”“读文件”“文件被压缩”的doc\pdf等用户文件(作为“文件被压缩”的源文档)、然后“写文件”rar\zip等压缩类型文档(作为“文件被压缩”目的地文档)。
haozi、360zip:首先在目的地路径“打开文件”临时文件(*.tmp类型)、然后“打开文件”“读文件”被压缩的doc\pdf等用户文件(“文件被压缩”的源文档),然后“写文件”临时文件、然后“重命名”临时文件为rar\zip等压缩类型文档(“文件被压缩”目的地文档)。
Winzip:“打开文件”“读文件”doc\pdf等用户文件(作为“文件被压缩”的源文档)、然后“写文件”临时文件(随机文件、*.tmp文件)、然后“重命名”临时文件为临时路径的目的地文档(rar\zip等压缩类型文档)、然后将zip等文件从临时路径“移动文件”至用户指定的目标路径(作为“文件被压缩”目的地文档)。
分析程序行为,有时候可以使用特定的参数来判断,例如GENERIC_WRITE或者FILE_WRITE_DATA或者FILE_WRITE_ATTRIBUTES参数,这可以认为这是压缩后的目的文件名路径。
示例6,文档操作事件为“文件被解压缩(unzip)”。该文档操作事件组成的基础事件包括以下基础级事件:“打开文件”、“读文件”、“写文件”以及“重命名文件”。该文档操作事件的基础事件的组合特征可以理解为观察各种压缩程序的行为特征,一个 “文件被解压缩”事件由“打开文件”、“读文件”、“写文件”、“重命名文件”、“移动文件”等基础级事件组成,通过基础事件的主客体环境时间特征的关联,并且这些基础事件的发生符合预定义的时间序列。
例如winrar的监控,首先“打开文件”“读文件”rar\zip等压缩类型文档(作为“文件被解压缩”的源文件)、然后“打开文件”doc\pdf等用户文件类型(作为“文件被解压缩”的目的地文件)、然后“写文件”目的地文档。
分析程序行为,有时候可以使用特定的参数来判断,例如解压缩生成的文件,程序会设置文件参数。
示例7,文档操作事件为“文件被存档(archive)”。类似的,文件被存档等事件需要观察应用程序行为,特点包括存档的应用、以及存档操作的事件特征,例如由 “打开文件”、“读文件”、“写文件”、“重命名文件”等基础级事件组成及其序列,涉及的客体包括临时文件、用户文件等。
示例8,文档操作事件为“文件被上传”。策略中用JustUpload表示。该文档操作事件组成的基础事件包括以下基础级事件:“选择文件”。在网络应用“选择文件”等操作时,进行重定向,从而让网络应用获得的是临时路径中,存储新建的新文件。该操作事件无须获得网络信息。
示例9,文档操作事件为“文件被上传并获得网络信息”,策略中用Upload表示。该文档操作事件组成的基础事件包括以下基础级事件:“网络连接”、“选择文件”以及“窗口名发生变化”。该文档操作事件关联的基础事件范围包括基于主体属性的基础事件关联,基于界面特征关联。源文档为“选择文件”基础事件所操作的文档,目的地文档为重定向的文件,源位置为“选择文件”基础事件所操作的文档路径,目的地位置为“网络连接”基础事件所连接的网络地址。该文档操作事件的基础事件的组合特征包括由“网络连接”、“窗口名发生变化”、“选择文件”等基础事件序列组合而成。
第一步:“网络连接”基础事件和应用程序主体(界面特征)的关联。
本申请实施例通过设置时间间隔(例如设置为1秒),利用因果关系和时间间隔,可以实现网络IP地址与应用程序界面特征的关联。先发生“网络连接”基础事件,连接IP地址,传输内容是原因。应用程序界面内容(浏览器标签页\应用程序窗口标题)发生变化是结果,即发生了“窗口名发生变化”基础事件。
例如:Chrome浏览器的标签页名在p时刻发生了改变,则chrome.exe在此前P-1秒内Chrome浏览器新建立的一个或多个IP连接,是当前窗口的标签页名发生改变的原因,为该进程\线程对应的可能IP地址。可以将该标签页名 关联 对应的IP地址保存。例如Chrome浏览器标签页更新的时间为9点23分15秒,即09231500秒,往前推一个预定义时间间隔,则起始时间为9点23分14秒,即09231400秒,URL可以作为IP地址的一种辅助识别。
一种场景是浏览器判断内网IP。当浏览器或者应用访问内网服务器时,浏览器标签页在K时刻发生了变化,浏览器在K时刻的一秒前与多个IP地址建立了新连接,如果多个IP地址中有一个为内网IP地址,则该内网IP地址判断为浏览器该标签页访问的服务器IP地址。原因在于内网服务器业务比较纯粹,没有广告等业务,只有一个服务器与客户端通讯。如果该进程在时间间隔内,没有与内网IP发生了新的会话连接,则应用标签页或窗口连接的目的地可能是外网。值得说明的是,该方法判断应用连接的内网IP很准确,原因是企业内部服务器数量不多,业务纯粹,没有广告等业务,客户端连接服务器后直接传输内容。在连接判断外网IP地址时,需要根据不同的业务类型进行进一步的修正分析即可。
另一种场景是浏览器判断外网IP。当浏览器或者应用访问内网服务器时,浏览器标签页在K时刻发生了变化,浏览器在K时刻的一秒前与多个IP地址建立了新连接,如果多个IP地址中均为外网IP地址,则可选的根据应用程序特征分析,基于应用类型设置不同的判断模型,找出最可能的网页主要连接的服务器IP。1)例如经过分析,有些应用可以基于间隔时间最近来判断。例如建立连接的IP地址发生时间与浏览器标签页更新时间间隔最近的IP地址,作为标签页的IP地址。2)例如统计时间间隔内的下行数据计数,上行数据计数,经过分析,有些应用可以基于下行传输的数据包数量最多的IP地址作为服务器最主要的外网IP地址。3)例如有些浏览器可以获得URL进一步辅助判断标签页/窗口名对应的IP地址。在应用程序使用过程中,仍可以基于连接对IP进行修正,找出在多个IP地址中最可能的IP地址。
一种获取浏览器当前页面URL的辅助识别方法是:通过AccessibleObjectFromWindow系统调用,获取和浏览器窗口页面关联的IAccessible接口对象,通过它来遍历出当前页面地址栏中的内容,既是当前页面的URL;然后通过DNS协议解析URL中的服务器域名就可以获得当前页面的服务器IP。不过有些浏览器默认并不直接支持IAccessible接口获取真实的页面元素内容,需要通过启动参数来开启支持(例如chrome就需要使用启动命令行参数--force-renderer-accessibility来打开对这一功能的支持)。
另一种场景是内网的客户端-服务器应用程序(CS应用),该类型客户端大多连接一个服务器,“网络连接”基础事件与时间间隔内“窗口名发生变化”基础事件关联。从而使得IP地址和应用程序主体特征(标签页)关联。
第二步:应用程序主体(界面特征)和“选择文件”基础事件的关联。
“网络连接”基础事件生成时,将应用程序标题名\标签页名\窗口名和IP的对应关系缓存,作为应用程序窗口的IP地址,“选择文件”基础事件发生时,通过进程、当前窗口等事件属性,可以关联到选择文件所上传的应用程序当前窗口。
因此应用程序窗口关联的IP地址,可以作为目的地地址(IP地址)。“选择文件”基础事件所操作的文档是源文档。将重定向的文件,作为目的地文档。
示例10,文档操作事件为“文件被下载并获得网络信息”。策略中用download表示该文档操作事件组成的基础事件包括以下基础级事件:“网络连接”、“复制文件”、“移动文件”、“重命名文件”、“打开文件”、“读文件”以及“写文件”。下载源位置为“网络连接”基础事件所连接的网络地址,源文档为符合预定义的文件被下载逻辑基础事件,下载后的目标文件,目的地文档为下载完成后,并更新了文档的认知元后的文档。
判断下载的目标文件的实现方式有多种。本申请实施例对此不做具体限定。一个示例,文件操作序列可以 由“复制文件”、“移动文件”、“重命名文件”等基础事件组合而成,可以判断下载的目的地文档。另一个示例,通过监控“打开文件”、“重命名文件”、“移动文件”等基础事件,分析基础事件操作的临时文件夹、临时文件的特征,也可以用于判断<文件被下载并获得网络信息>的目的地文档。应理解,有的应用程序下载过程只会生成一类临时文件,有的应用程序下载过程会依次生成两类或者多类临时文件。
举例说明,下面介绍主流浏览器的文件操作序列。
Chrome、edge浏览器:下载会生成多种临时文件,因此下载逻辑流会经过多次针对临时文件的“打开文件”、“重命名文件”事件。“打开文件”(创建临时文件*.tmp)、“重命名文件”(*.tmp重命名为*.crdownload)、“重命名文件”(将crdownload临时文件重命名下载目标文件)。
360浏览器:“网络连接”、“打开文件”(创建临时文件*.dl)、“重命名文件”(将临时文件重命名为用户下载的目标文件,例如*.dl重命名为 123.doc,则123.doc为下载的目的地文档。
IE浏览器:“网络连接”、“打开文件”(创建临时文件*.partial)、“重命名文件”(将临时文件重命名为用户下载的目标文件,例如将*.partial重命名为344.xls,则344.xls为下载的目的地文档)。
QQ浏览器:“网络连接”、“打开文件”(创建临时文件*.qbl)、“重命名文件”(将临时文件重命名为用户下载的目标文件 *.qbl重命名为 kk.pdf,则kk.pdf为下载的目的地文档)。
Opera浏览器:“网络连接”、“打开文件”(创建临时文件*.opdownload)、“重命名文件”(将临时文件*.opdownload重命名为用户下载的目标文件)。
maxthon浏览器:“网络连接”、“打开文件”(创建临时文件*.crdownload)、“重命名文件”(将临时文件重命名为用户下载的目标文件*.crdownload)。
sogou浏览器:“网络连接”、“打开文件”(创建临时文件*.sgdownload)、“重命名文件”(将临时文件重命名为下载目标文件)。
上述“文件被下载并获得网络信息”的文档操作事件所含基础事件的组合特征如下所示:
第一类应用特征1:“网络连接”、“打开文件”、“重命名文件”事件序列。
第二类应用特征2:“网络连接”、“打开文件”、“重命名文件”、“打开文件”、“重命名文件”事件序列。
下面对基础事件的组合进行说明。
第一步:“网络连接”基础事件和应用程序主体的关联。
类似“文件被上传并获得网络信息”中的“网络连接”,通过将应用程序窗口\标题\标签等界面特征性(应用程序窗口更新事件或标签页名)与IP地址进行关联。
利用用户点击下载文件按钮时,可以马上观察到浏览器生成临时文件这一特性,将“打开文件”临时文件创建时间和应用程序当前窗口进行关联。从而将“网络连接”获得的IP地址\URL、对应的应用程序主体(界面特征)、“打开文件”所创建的临时文件进行关联。
一些应用可以利用主体的其他属性,例如进程号进行关联。例如“网络连接”的进程号,也是“打开文件”所创建的临时文件进程号。从而实现不同基础事件的关联组合。
第二步:应用程序主体(界面特征)与文件操作基础事件序列的关联。
用户在浏览网页时下载文件,浏览器的临时文件夹中新建临时文件,可以理解为新建的临时文件,是用户在当前标签页浏览时的操作。
“文件被下载并获得网络信息”的目的地文档判断方法主要是分析应用下载时特征:浏览器、网络应用程序下载文件时会执行特定的下载逻辑流。
通过“网络连接”基础事件,可以先将IP与“窗口名发生变化”的应用窗口名关联缓存,如果一些特定应用,该窗口发生了预定义临时文件夹的临时文件的“新建文件”基础事件,随后该临时文件发生了“重命名文件”为doc等用户常用文档格式,则生成 “文件被下载并获得网络信息”事件,其中源地址为该主窗口关联的IP地址,“重命名文件”基础事件的目的地文档作为该操作事件的目的地文档。
下面以Chrome浏览器为例,简述分析处理过程(其他浏览器类似)。
Chrome浏览器<文件被下载并获得网络信息>对应基础事件序列:“网络连接”、“打开文件”(*.tmp临时文件)、“打开文件”(*.crdownload临时文件)、“重命名文件”(tmp重命名为crdownload)、“打开文件”、“重命名文件”(将crdownload临时文件重命名下载目标文件)。
例如用户在Chrome浏览器中打开了多个标签页,tab1:yahoo网站、tab2:gmail网站、tab3:gmail-收件箱、tab4:facebook网站。通过“网络连接”获得了tab1的IP是34.54.98.4;tab2的IP是56.48.32.12;tab3的IP是56.48.32.12,tab4的IP是86.12.144.23。由于每一个标签页访问不同的网站,在应用程序界面点击下载文件按钮时,当前窗口显示访问的网页或应用程序是下载的文件的来源,即源IP地址。通过记录当前窗口的时间。例如当前窗口为tab3的时间是9时45分22秒---9时53分34秒,当前窗口为tab2的时间是9时43分1秒---9时55分21秒。
通过监控,发现chrome浏览器发生了一个预定义的基础事件序列(“网络连接”、“打开文件”、“重命名文件”、“打开文件”、“重命名文件”),符合“文件被下载并获得网络信息”的预定义的一类基础事件序列。其中“打开文件”*.tmp临时文件的事件是9时47分43秒,而通过当前窗口获得当前chrome浏览器对应为tab3,则tab3对应的IP地址56.48.32.12为“文件被下载并获得网络信息”的源IP,第二次“重命名文件”事件生成的demodownload.docx为目的地的文件。
下面对文件操作序列进行分析(C-S客户端软件)。
一些客户端-服务器类型的应用会先在用户选择的下载目的地所在的文件夹“创建文件”一个特定的临时文件、然后不断的“写文件”该临时文件,最后“重命名文件”该临时文件为目标文件。一些CS应用会在临时文件夹创建临时文件,然后再“重命名文件”为目标文件格式,再“移动文件”到最终的用户下载操作的目的地路径。
示例11,文档操作事件为“文件被下载(无须判断IP地址)”,策略中用“JustDownload”。该文档操作事件组成的基础事件包括以下基础级事件:“复制文件”、“移动文件”、“重命名文件”、“打开文件”、“读文件”以及“写文件”。判断下载的目的地文件,类似“文件被下载并获得网络信息”的目的地文件判断。
示例12,文档操作事件为“文件被移动”。该文档操作事件组成的基础事件包括以下基础级事件:“移动文件”。
示例13,文档操作事件为“文件被重命名”。该文档操作事件组成的基础事件包括以下基础级事件:“重命名文件”。
示例14,文档操作事件为“文件被编辑”。该文档操作事件组成的基础事件包括以下基础级事件:“读文件”、“写文件”、“又读又写文件”、“复制文件”以及“移动文件”。该文档操作事件关联的基础事件范围包括基于主体属性的基础事件关联,即“写文件”所操作的文档、“又读又写文件”所操作的文档。该文档操作事件所含基础事件的组合特征包括特征1和特征2,其中,特征1满足以下任一条件:同一个线程对同一个文件句柄“读文件”、“写文件”;同一个进程ID和同一个文件句柄,第一个读和最后一个写后,文件的哈希发生变化。特征2包括:有些应用打开一个文件会生成临时文件,编辑(edit)的内容会保存在内存或临时文件中。当应用保存此edit的内容时,会先把内容写到临时文件,再通过“复制文件”、“移动文件”等基础级事件操作,将临时文件的的内容保存到目的地文档中。
示例15,文档操作事件为“文件被只读”。该文档操作事件组成的基础事件包括以下基础级事件:“打开文件”、“读文件”以及“关闭文件”。该文档操作事件所含基础事件的组合特征包括:1、同一个程序启动的任意进程对同一个文件执行“打开文件”;2、随后该程序发生了“读文件”操作,那么该文件就记录第一次“读文件”事件的时间为“文件被只读”的开始时间;3、文件被标记为开始只读且有效后,在“文件关闭”事件发生(同一程序不同进程所有文件的打开计数清零)后,当文件不是被占用的(即“解锁文件”事件发生),则“文件被只读”事件结束。
需要说明的是,文件发生“读文件”后,需要判断文件是被占用的,且占用时间超过一定时长(如2秒),则确认“文件被只读”开始,且有效;否则该文件只是被应用临时访问(如加入最近访问列表,建立访问索引等等);所述判断文件被占用,包括被判定的文件不能被CreateFile以独占方式打开,即判定为占用;对于某些特殊的应用,文件被编辑时并不全程锁定文件,而是需要找到文件与应用界面对应的编辑窗口。当对应窗口存在时,判定文件被占用;当对应窗口不存在时,判定文件被解锁。
示例16,文档操作事件为“内容被剪切板粘贴到”。该文档操作事件组成的基础事件包括以下基础级事件:“剪切板复制内容”以及“剪切板粘贴内容”。该文档操作事件关联的基础事件范围为基于主体属性的基础事件关联。该文档操作事件所含基础事件的组合特征包括:“剪切板复制内容”、“剪切板粘贴内容”。当用户阅读或编辑文档时,发生了复制文档内容到剪贴板的行为,则记录下复制序列内容的特征码,并将特征码、时间戳和文档路径一起缓存到本机电脑的共享缓存区中;当粘贴事件发生时,就从剪贴板里取出内容,并生成特征码后到共享缓存区中检索其来源,若找到最近的一条复制匹配来源记录则找到粘贴行为的来源文档,就可以形成文档的“内容被剪切板粘贴到”事件行为的记录了。
下面结合不同的文档操作事件,对文档镜像实体衍生关系(FileDerive)进行举例说明。
示例1,文档操作事件为“文件被新建”。由于该文档操作事件代表文档镜像实体改变关系,需要创建新文档ID,与该目的地文件关联,该文档镜像实体衍生关系(FileDerive)可以表示为:(0:目的地文件的ID)。
示例2,文档操作事件为“另存为新文件”,由于该文档操作事件代表文档镜像实体改变关系,需要创建新文档ID,与目的地文件关联,该文档镜像实体衍生关系可以表示为:(源文件的ID:目的地文件的ID)。
示例3,文档操作事件为“文件被复制”,由于该文档操作事件代表文档镜像实体改变关系,创建新文档ID,与目的地文件关联,该文档镜像实体衍生关系可以表示为:(源文件的ID:目的地文件的ID)。
示例4,文档操作事件为“文件被刻录”,由于该文档操作事件代表文档镜像实体改变关系,创建新文档ID与目的地文件关联,该文档镜像实体衍生关系可以表示为:(源文件的ID:目的地文件的ID)。
示例5,文档操作事件为“文件被压缩(zip)”,由于该文档操作事件代表文档镜像实体改变关系,创建新文档ID与目的地文件关联,该文档镜像实体衍生关系可以表示为:(源文件的ID:目的地文件的ID)。其中,源文件的ID为磁盘上用户拟压缩的源文件的识别属性,目的地文件的ID为压缩程序实际获得的压缩文件的新的识别属性。
示例6,文档操作事件为“文件被解压缩(unzip)”,由于该文档操作事件代表文档镜像实体改变关系,创建新文档ID与目的地文件关联,该文档镜像实体衍生关系可以表示为:(源文件的ID:目的地文件的ID)。其中,源文件的ID为压缩程序解压后生成的doc等用户文件中存储的ID,目的地文件的ID为替换原来解压缩后生成的文件的ID。
下面结合不同的文档操作事件,对文档被网络传输关系DataInMotion举例说明。
示例1,文档操作事件为“文件被上传” ,由于该文档操作事件表示文档镜像实体改变关系,创建新文档ID,与目的地文件关联,该文档被网络传输关系类别可以表示为:(源文件的ID:目的地文件的ID)。其中,源文件的ID为“选择文件”基础事件所操作的文档存储的ID,目的地文件的ID为重定向后的文件的ID。该事件无须判断IP地址,被传输的是磁盘存储文件的副本。
示例2,文档操作事件为“文件被上传并获得网络信息”,由于该文档操作事件表示文档镜像实体改变关系,创建新文档ID与目的地文件关联,该文档被网络传输关系可以表示为:(源文件的ID:目的地文件的ID)。其中,源文件的ID为用户拟上传的文档存储的ID,目的地文件的ID为重定向后的文件中存储的ID。
示例3,文档操作事件为“文件被下载并获得网络信息”、“文件被下载(无须判断IP地址)”,由于该文档操作事件表示文档镜像实体改变关系,创建新文档ID,与目的地文件关联,该文档被网络传输关系可以表示为:(源文件的ID:目的地文件的ID)。其中,源文件的ID为文件被下载结束后的文档的ID,目的地文件的ID为在网络应用下载文件等操作结束时,进行替换,下载后存储在磁盘的新文件的ID。
例如某“文件被下载并获得网络信息”操作事件中的源文档ID是另外一个事件“文件被上传”中的目的地文档的ID,则两个文档属于同一个FileFlowNode认知元集合节点。
上述的subject信息可以对应于上文中的主体信息,包括但不限于:设备属性信息、应用属性信息、用户属性信息。具体的请参考上文中的描述,此处暂不赘述。
上述的folder信息可以通过目的文档的路径信息确定,例如,FilePath= c:\123\44.doc 则FolderPath=c:\123\。
获得基础事件认知关系、基础事件认知属性(可以表示为获得文档操作事件)后,可以确定认知元集合节点的寻址数据,并嵌入至文档操作事件操作的文档可扩展属性,基于文档位置,选择认知元集合节点的寻址数据的存储方法。
即基础事件的组合,除了更新认知元集合节点,可以基于决策中心,同时维持文档原有属性与认知元集合节点的寻址关系,使得文档与FileFlowNode等认知元集合节点的寻址关系能够跟随文档的流动而流动,不分离。例如基于文档存储位置,确定认知元集合节点的寻址数据的存储方式;采取多种存储方式组合存储认知元集合节点的寻址数据。例如文档原有属性-MultiRelationNode的关系存储方法,可以实现协作至企业内部多设备的文档认知的集合。
下面对存储文档原有属性与认知元集合节点的寻址数据的模块(或称为组件)进行详细描述。
作为示例,可以包括但不限于:ExtensiveTag、InvisibilityTag、UserEditTag、DatabaseTag、EncryptedTag、FileSystemTag,下面对上述各个模块的功能进行详细描述。
ExtensiveTag,表示将认知元集合节点的寻址数据嵌入至文件格式中的可扩展属性。ExtensiveTag具体的功能包括但不限于以下几点:
1)、使用国际组织或企业联盟制定的元数据存储规范存储、例如支持ODF、OOXML、XMP、UOF标准格式的文档,可以将认知元集合节点的寻址数据存储至文档格式预定义的(自定义属性)位置。例如OOXML支持docx、xlsx等微软系列的办公文档,ODF格式支持odt、ods、fods、odp、fodp、odg、fodg、odf格式,例如XMP标准格式(Extensible Metadata Platform),可以支持将认知元集合节点的寻址数据嵌入到pdf、jpg、DNG、GIF、JPEG、PNG、TIFF、MP3、MPEG-2、MPEG-4、SWF、HTML、XML等文件的文件格式中。
2)、应用程序厂商提供的应用程序接口API存储、例如WPS的api可以实现存储元数据至wps系列的文件格式中。
3)、存储认知元集合节点的寻址数据至PDF等公开的可存储元数据的文件格式。
4)、存储认知元集合节点的寻址数据至文件格式中的用户属性的位置,例如docx文件格式中可以存储作者属性。
InvisibilityTag,用于修改内容,存储元数据。具体的,用于根据载体的文件格式,例如音视频数据,可以通过以LSB替换隐写、MLSB替换隐写、随机调制隐写等存储认知元集合节点的寻址数据至音频、视频图像中,使得所做的修改对人类的视觉、听觉系统是不可感知的方法。
UserEditTag,用于修改内容,存储认知元集合节点的寻址数据。具体的,对于很多格式文档,用户可以通过该组件认知元集合节点的寻址数据至文档的备注属性。
DatabaseTag,表示将认知元集合节点的寻址数据存储元数据至数据库。本申请实施例中,可以将认知元集合节点的寻址数据组合关联,添加至DB,作为一个DB元组。
EncryptedTag,表示将认知元集合节点的寻址数据和正文文件,加密封装为一个文件。可选的,EncryptedTag还用于负责解密已经加密封装元数据。一个可选的实施方式是加密封装元数据记录格式可以包括三部分:头部、元数据部分和加密的数据,头部可以包含标识符,如密钥标识符或者文档标识符。
FileSystemTag,表示在文件系统可扩展属性部分存储认知元集合节点的寻址数据。例如windows ntfs的文件,有一个对应的ADS数据流(Alternate Data Streams)中。NTFS文件系统支持不限长度的可变异数据流,FAT、HPFS、NTFS、ext4,JFS等也支持文件系统扩展属性功能。
在一些实施例中,文档的操作,可能导致文档关联的元数据丢失,即有不能积累源文档与认知元集合节点认知的风险时,例如,当用户进行“另存为新文件”操作时,例如456.doc另存为999.pdf,新生成的文件会丢失源文件的认知元集合节点的寻址数据。因此可以在另存为动作操作后,存储源文档的FileFlowNode等寻址数据至目的地文档进行关联,从而克服不同类别的文档操作,导致文档的认知元集合节点认知不能持续积累的问题。并将“另存为新文件”认知关系信息、所述基础事件确定的认知属性信息传输至服务器,实现认知在认知元集合节点持续的积累。
一种可能的实现方式中,可以基于文档的位置的属性,选择认知元集合节点的寻址数据的存储方式。响应文档位置的改变,自动更新认知元集合节点的寻址数据的存储方法。
举例说明,下表3列举了文档所处位置和文档关联元数据的存储方法。
表3
例如文档所处位置是在企业网络内部,可以被监控程序监控的硬盘,可以选择将认知元集合节点的寻址数据同时存储在3个位置:1<FileSystemTag>文件系统扩展属性、2<ExtensiveTag>文件格式中的可扩展属性、3 DatabaseTag数据库。这样即使发生了“内容被加密”,虽然文件被加密了,认知元集合节点的寻址数据由于同时存储在DB中,或文件系统扩展属性中,仍然可以被识别文档。
有时候文件被编辑后保存时,例如一些特定的应用程序执行的是打开一个文件、读文件、写文件时,其逻辑是先删除文件,存储新的同名文件的操作,文件名和路径和原来一样。在文件被打开时(例如createfile时),即保存文件的认知元集合节点的寻址数据。当同名文件被删除、被创建时,可以恢复原来的认知元集合节点的寻址数据至文件的文件格式中的可扩展属性,文件系统扩展属性。
一种可选的方式是,上传文档至不能被监控程序监控的服务器(企业网络内部),可以将认知元集合节点的寻址数据等元数据,除了存储文档格式中的预定义位置(<ExtensiveTag>)后,认知元集合节点的寻址数据仍然嵌入在文件内部,仍然与文档关联。并且文档是明文方式,可以被ERP、CRM等软件识别。也可以编码后以<UserEditTag>,<InvisibilityTag>方式存储。当发生了“文件被下载并获得网络信息”事件,客户端获得目的地文档后,等待目的地文档的“文件被关闭”后,可以效验存储的认知元集合节点的寻址数据是否被修改,如未修改,可以删除<UserEditTag>。这样为了解决互联网环境中,少数不规范应用厂商,会把文件格式中存储用户自定义的元数据删除的问题。而大多数规范厂商,不会出现删除文档中用户的自定义元数据的问题。下载存储至磁盘后的文件,可以将认知元集合节点的寻址数据同时存储在两个位置:1文件系统扩展属性、2文件格式中的可扩展属性。
举例说明,下表4列举了文档响应文档存储位置改变,改变认知元集合节点的寻址数据存储方法。
表4
参见表4,当文档位置发生变化,可以基于位置变化,等文件位移改变后,更新认知元集合节点的寻址数据的存储方式。
在一些实施例中,当文档从企业内网位移至非企业内网的风险,本申请实施例可以通过监控文档访问事件,当识别出存在“另存为新文件”至USB设备、“文件被复制”至USB设备、“文件被移动”至USB设备等一些可能存储在移动介质。
在一些实施例中,如果文档是机密级等安全级别,当识别出存在“网络上传传输”动作,这一可能出预定义企业内网的使用文档风险时,重定向文件,以将加密封装元数据<EncryptedTag>的方式存储了更新认知元集合节点的寻址数据的文档交给应用访问。这样发至外网的文档处于加密封装态,即使非授权的人也无法获得文档内容,或者由于无法解密而难以将文档与元数据分离、难以篡改元数据。如果文档级别是非机密,则可以基于决策,选择不以<EncryptedTag>加密的方式,仅以<ExtensiveTag>方式。
步骤120:获得认知元,选择性更新认知元集合节点和/或认知元集合节点之间的关系。
选择性更新认知元集合节点,包括选择性更新认知元集合节点的级别类别;
选择性更新认知元集合节点之间的关系,包括更新认知元集合节点的关系程度、和\或 关系方向。
需要说明的是,认知元集合节点属性包括原有属性、认知属性;即认知元集合节点的认知是一类认知元集合节点属性.所述原有属性是文档原有属性的简单存储,例如EntityMirror的属性中存储了对应文档的大小、设备ID号、FilePath等;而认知元集合节点的认知由 基础事件确定的认知属性与基础事件确定的认知关系,基于规则所确定。
需要说明的是,认知元集合节点的级别类别是一类认知元集合节点认知属性。认知元集合节点认知属性和认知元集合节点的级别类别可以理解为量变引起质变的关系,认知元集合节点认知属性的改变,只有满足一定的条件才会更新级别类别。例如FileFlowNode的主体属性组合符合预定义,才会引起FileFlowNode级别类别的改变。
选择性更新认知元集合节点之间的关系,包括更新认知元集合节点的关系程度、和\或 关系方向。一个示例,不同类别的基础事件确定认知关系,基于规则,可以确定不同的认知元集合节点的关系程度。具体可以参见表10:认知元,更新认知元集合节点间关系示例。
一个示例 第一认知元集合节点级别类别改变,基于认知元集合节点间的关系程度、和\或 关系方向,选择性更新第二认知元集合的级别类别。
一个示例,获得一个认知元,选择性更新一个或多个认知元集合节点认知属性。
另一个示例,获得一个认知元,选择性更新认知元集合节点间关系。
所述选择性,包括基于认知元的认知元集合寻址数据,确定更新的认知元集合节点属性;包括基于认知元的认知元集合寻址数据和基础事件认知属性,确定更新的认知元集合节点间关系。例如FileDerived类别认知元,根据其操作文档关联了多类认知元集合寻址数据,所以可能同时更新EntityMirror.ActionBusiness、MultiRelationNode.ActionBusiness。
表5示出了多类别的基础事件的认知关系的组合,实现基础事件确定的认知属性在文档镜像全周期的积累。
表5
表5中,多维基础事件确定认知属性包括AppBusiness、UserBusiness、DeviceBusiness、FolderBusiness、FileTagBusiness、TimeBusiness等。
认知元集合节点定义:预定义位置(例如DB)存储的由多类别认知元基于决策确定的集合,各类认知元集合节点的组合方法有多种,本申请书实施例对此不作具体限定。所述选择性,是指在服务器动态的从所有关系中基于数据驱动模型或者知识驱动模型去动态的确定。为了说明,说明书中MultiRelationNode基于预定义规则去确定。下面介绍一种认知元集合节点:文档镜像EntityMirror,另一种认知元集合节点为FileFlowNode。
文档镜像EntityMirror.ActionBusiness可以理解为是对单个文档实体的多次操作认知的累积,文档镜像EntityMirror可称为镜像节点或EntityMirror,EntityMirror可以存储文档路径FilePath。例如文档镜像实体维持关系认知元、文档镜像实体改变关系认知元,且这些认知元寻址同一个预定义位置或一组属性组合(例如DB存储的一个EntityMirror),基于决策确定的集合。
例如文档镜像实体衍生关系FileDerive认知元、文档被网络传输关系DataInMotion认知元,文档镜像实体维持关系EntityMirrorRemain认知元,且这些认知元包含寻址同一个预定义位置或一组属性组合(例如DB存储的FileFlowNode),这些认知元基于决策确定的集合,可以理解为认知元所携带的多维认知属性(基础事件确定的认知属性)在同一个FileFlowNode.ActionBusiness持续的积累,可以反映用户大脑中基于文档的类别、业务类型,通过多用户协作体现类别的认知。即一个文档及其所有文档协作产生的副本的分布,基于主体属性组合等预定义体现的认知。
一个示例,通过文档扩展属性存储的FileID,服务端集合文档镜像EntityMirror,以及基于EntityMirror关联的多类主体属性、客体属性,集合 猜测文档在不同主体间的协作关系。FolderBusiness认知,AppBusiness、UserBusiness、DeviceBusiness认知,TimeBusiness认知,在同一认知元集合节点(EntityMirror)内的积累。
例如衍生目的地文档的EntityMirror.ActionBusiness部分内容与衍生源文档的EntityMirror.ActionBusiness相关,如表6所示。
对于不同类别的基础事件确定的认知属性,选择所对应的规则,确定MultiRelationNode.ActionBussiness。例如对于认知元的FilePath,基于FilePath规则,选择性确定MultiRelationNode.ActionBussiness的对应子属性,对于认知元的Time,基于Time规则,选择性确定MultiRelationNode.ActionBussiness的对应子属性。
表6为获得认知元,基于认知元的源文档镜像认知EntityMirror.ActionBusiness,基于决策,选择性确定认知元目的地文档镜像认知EntityMirror.ActionBusiness。
表6
下面结合表7,以多类认知元的组合,确定FileFlowNode.ActionBusiness为例进行说明。
表7:FileFlowNode的属性信息以及对应的属性说明
作为示例,如果基础事件的认知关系顺序组合符合预定义,确定认知元集合节点级别类别MultiRelationNode.ActionBusinessType。本申请的一个实施例是FileFlowNode的主体属性顺序符合预定义,确定一种认知元集合节点的级别类别;FileFlowNode的多类认知元组合符合预定义,确定一种认知元集合节点的级别类别。
认知元集合节点级别类别的改变,可以更新关联认知元集合节点的文档的级别类别。可以基于规则选择性更新,例如设置一个FileFlowNode内为同一个级别类别,则认知元集合节点级别类别改变,对应该FileFlowNode的文档级别类别都改变为更新后的级别类别。
下面结合表8,进行详细描述一种认知元集合节点的级别类别确定方法。
表8认知元的组合更新级别类别ActionBusinessType
下面结合表9,一个认知元,可能同时包含多类基础事件认知关系,同时修改多类认知元集合节点,可能同时修改认知元集合节点间关系。下面以文档家族FileFlowNode的多个文档操作进行举例说明。
表9
下面对获得认知元,基于决策,选择性修改认知元集合节点、认知元集合节点间关系的具体方式进行描述。
一种实现方式,获得认知元,可以通过有向图确定认知元集合节点、认知元集合节点间关系类别,同时更新G(V,E)的顶点和边。一种可选的存储格式(三元组)为:(Fi,Fj,w),例如其中,Fi表示 source MultiRelationNode,tj表示destination MultiRelationNode,W表示weight(权重)。应理解,一种有向图中,图的节点可以为文档镜像EntityMirror,边表示文档镜像间关系EntityMirror-EntityMirror。边的权重=预定义的基础事件认知关系。一个示例,计算模型为稀疏矩阵。基于认知元的<文档-EntityMirror>,找到文档图谱的节点EntityMirror。
另一种有向图中,图的节点可以为FileFlowNode,基于认知元,修改找到文档图谱的节点FileFlowNode,基于认知元类型,修改边(E)。
下面结合表10,认知元,不仅更新认知元集合节点属性,同时可能更新文档认知元集合节点间关系,下面进行举例说明:
表10:认知元,更新认知元集合节点间关系示例
一种可能的实现方式中,上述对获得文档认知的方法可以应用于对所述文档进行分级分类。例如,可以响应第一认知元集合节点级别类别的改变,如果第一认知元集合节点的级别类别确定方法为高可信度分类法,基于认知元集合节点间关系,更新低可信度分类法确定的第二文档或第二认知元集合节点的级别类别 。高可信度的级别类别分类方法可以包括:认知元集合节点的主体属性顺序符合决策、认知元集合节点存储的多个类别认知元的组合、人工标记、从第三方应用程序获得的级别类别。
所述确定第二文档或第二认知元集合节点的级别类别步骤中,比较了认知元集合节点的级别类别的确定方法。
下面对基于确定文档级别类别的方法,选择性更新MultiRelationNode的级别类别的具体实现方式进行详细描述。
一种实现方式中,一个第一文档级别类别的改变,改变第二文档的级别类别,所述步骤中考虑了第一文档第二文档间关系的程度;所述步骤中考虑了第一、第二文档的级别类别确定方法的可信度。
一种实现方式,第一文档、第二文档关联同一个MultiRelationNode,例如同一个FileFlowNode,根据关联FileFlowNode的某一成员文档的分级分类的结果改变,比较了关联FileFlowNode的不同文档的级别类别确定方法的可信度,进而选择性更新第二文档的级别类别。
一种实现方式中,第一文档、第二文档关联不同MultiRelationNode,考虑了第一文档关联MultiRelationNode与第二文档关联MultiRelationNode间关系的程度、方向,及第一、第二文档的级别类别确定方法的可信度,和\或 第一MultiRelationNode、第二MultiRelationNode的级别类别确定方法的可信度。
EntityMirror.IdentifyType=”ShareAPP”,可信度其次,例如可信度=80分。
EntityMirror.IdentifyType=”SubjectOrder”,可信度=70分。
例如当前FileFlowNode.IdentifyType为关键字识别,当关联FileFlowNode的一个文档的级别类别改变,且其分类方法IdentifyType为“人工标记”,由于预定义“人工标记”的可信度高于“关键字识别”,所以整个FileFlowNode类别被更新为人工标记。
一种改变家族树的某一成员(某一文档)的级别类别的方法:当文档上传至预定义App时,例如ShareBox类的协作应用,获得ShareBox等 App的数据传输的级别类别,(从第三方应用程序获得的级别类别),由于EntityMirror.IdentifyType=”ShareAPP”,可信度较高,可信度=80分。所以会更新可信度较低分类法确定的文档级别类别。
另一种可能的实现方式中,一个第一文档级别类别的改变,改变第二文档的级别类别,所述步骤中基于规则,考虑了可能影响的第二文档的范围。确定可能影响的第二文档或第二认知元集合节点范围的步骤中,使用了认知元集合节点间关系,包括基于关系的程度、关系的方向。例如可以定义ShareLevel=2的FileFlowNode的级别类别改变,只影响FolderBusiness关系程度为1(最短路径为1)的目标范围内其他FileFlowNode的文档级别类别(相邻节点),例如ShareLevel值更高的FileFlowNode的分类结果的改变,会影响到对应其的所有文档,并且与其所有文档的路径相关程度为1(例如同在一个文件夹内、最短路径为1),但ShareLevel低于其ShareLevel值家族树中文档,进而评估是否改变目标范围文档的级别类别。
另一种可能的实现方式中,确定可能影响的第二文档或第二认知元集合节点范围的步骤中,包括仅考虑与第一文档的关系程度,而不再考虑第二文档或第二认知元集合节点级别类别改变带来的后续影响。例如一个第一文档级别类别的改变,改变第二文档的级别类别,如果第二文档的级别类别改变,则不再评估第二文档的级别类别改变造成的后续影响,从而避免产生持续不断的影响。
另一个示例,ShareLevel=2的FileFlowNode的级别类别改变,只影响与该FileFlowNode关系权重范围内的,由同一个用户创建的、ShareLevel=1的FileFlowNode的级别类别(相邻节点。本申请实施例在研究过程中发现,PC机上(ShareLevel=1)的文档家族占整个文档家族比例90%以上,即大量的文档创建后并未协作。一种常见的情况是,用户为了编辑一个文档A.doc的内容可能需要多个文档的辅助,例如可能从外网下载了8个文档,从内网下载了2个文档,那么通过内容使用时间相关TimeBusiness认知,可能发现“文档A.doc”是该文件夹内入度InDegree最多的文档;同样通过“内容引用关系CopyContent”,发现用户从该文件夹内的5个文件中剪切板复制了内容到“文档A.doc”,即“文档A.doc”也是“内容引用关系CopyContent”入度最多的文档。
因此这10个文档(辅助文档)的存储使用,可能是为了支持主文档家族“文档A.doc”的编辑。因此以文件夹为范围,可以根据关系类型、入度、出度、权重,找到主文档、主文档家族,其支撑的文档可以理解为辅助文档家族、辅助文档家族。
“文档A.doc”所述的主FileFlowNode被用户协作后,由于通过SubjectOrder分级分类准确度高,例如分类为“知识产权”,所以通过FileFlowNode-FileFlowNode间关系,也可以大致确定这10个辅助文档家族的类别为“知识产权”。
例如,ID=9688的FileFlowNode.ActionBusinessType=“技术文档”(ShareLevel=1),与其密切相关(最短路径为1的FileFlowNode)的ID=3918的FileFlowNode.ActionBusinessType从“技术文档”变更为“人力文档”(ShareLevel=2),由于ShareLevel更高,其级别类别的分类方法可信度更高,所以ID=9688的FileFlowNode.ActionBusinessType也受影响,更改为“人力文档”。
又如,用户A起草的文档和多用户协作,将文档(类型为企业内控制度.docFileFlowNode.ID=65685 类别为“管理制度”)上传至企业OA,全公司共享。一个月后,用户B从OA下载了该文档,复制了部分内容作为新的文档(财务管理.doc FileFlowNode.ID=65995)的内容,并将该文档与多人协作。协作过程中,该FileFlowNode被标记为“财务类别”,由于FileFlowNode.ID=65995,其ShareLevel=2;FileFlowNode.ID=65685,其ShareLevel=2。所以FileFlowNode.ID=65685 类别仍为“管理制度”。与FileFlowNode.ID=65995相关的、ShareLevel=1的FileFlowNode文档才被影响,被更新为“财务类别”。
另一种可能的实现方式中,上述对获得文档认知的方法可以应用于集中控制文档的访问。例如控制文档的访问或使用基于以下三者的组合:基于文档对应的第一认知元集合节点、第一认知元集合节点第二认知元集合节点之间的关系、第二认知元集合节点的级别类别。
本申请的一个核心关键点是,不是直接识别文档的内容,基于内容识别结果来控制文档的访问。而是利用认知元集合、以及认知元集合间关系。例如控制多个辅助文档的访问,依靠与辅助文档关系最紧密的、级别类别为高可信度分类方法的主文档家族FileFlowNode的级别类别。
即控制文档的访问,依赖于三者的组合:1)文档对应的FileFlowNode(辅助FileFlowNode);2)FileFlowNode间关系(找到该辅助FileFlowNode关系程度最密切的高可信度分类方法的FileFlowNode),3)高可信度分类方法确定的主文档家族FileFlowNode的级别类别。
所述文档访问,包括打开一个文件,写入文件,删除文件,更改文件权限,改变文件属性,在一个邮件存储打开一个电子邮件消息,在邮件存储在删除电子邮件,从文档管理系统检索文档,存储文档到文档管理系统,或是任何访问文档或文档存储库的行为。
另一种可能的实现方式中,上述对获得文档认知的方法可以应用于生成文档家族分布图。作为示例,基于认知元集合节点间关系,集合多个不同类别认知元集合节点,生成一个审计绘图,该审计绘图代表不同类别的文档在企业PC机桌面的分布。例如构建辅助文档FileFlowNode、主FileFlowNode组成的文档审计绘图。假设一个企业有100台PC,则文档审计绘图可以显示100台PC总共存储有30,000,000个文档,对应100万个FileFlowNode,其中部门内协作的FileFlowNode有8万个、发生了跨部门协作的FileFlowNode有2万个。可以认为企业内重要的文档就是多人协作过的10万个主文档家族FileFlowNode对应的文档,并显示从未与他人协作过的有90万个辅助FileFlowNode与协作过的主文档家族FileFlowNode间的对应关系。从而体现这种不同级别、但相互具有密切关系的FileFlowNode对应的文档在用户设备上的分布及其之间的关系。
举例说明,图3为一种具体的文档的审计绘图的示意图。
可选的,在一些实施例中,还可以记录用户的兴趣,并根据文档分类的结果,自动为用户推荐合适的文档。
例如,基于时间,记录User的长期兴趣(User.LongInterest.ActionBusiness)、当前兴趣(User.NowInterest.ActionBusiness)。例如Leo用户当前一直在操作FileFlowNode=156898,FileFlowNode=565665,FileFlowNode=23645三类文档家族,都是“技术类”、“X项目”。则存储“技术类”、“X项目”至Leo用户的当前兴趣。当Leo用户打开企业内容管理“ECM”类文档协作类型的应用时,可能去搜寻“X项目”内容。一种可行的方法是,将存储的User.NowInterest.ActionBusiness交给“ECM”,这样用户无需搜索“X项目”内容,由ECM推荐“X项目”相关的内容给Leo用户,没有合适的,用户再去搜寻。这样可以提高用户体验,提高ECM的使用效率。
上述决策中心可以是知识驱动模型、或者也可以是数据驱动模型,本申请实施例对此不做具体限定。下面分别对知识驱动模型以及数据驱动模型进行详细描述。
知识驱动模型,基于机器学习、深度学习方法的关系抽取模型,可以自动地从专家和数据标注员事先标注好的数据中,学习知识,从而对文档操作事件进行选择性的控制,实现实体保存和关系保存。
数据驱动模型是领域专家基于自身积累,可以设计一些规则或者模式、添加到模型里,让模型快速获得知识,可以基于规则、模式、统计方法来实现。
本申请的示例中使用的控制规则包含了基于ABAC模型的控制规则。制规则遵从了XACML标准。例如文档操作事件发生时,可以查询决策中心,以实施对应用程序选择性的控制。
下面介绍应用程序的控制步骤中使用规则的评估过程:
1. 获得文档操作事件的监控结果并收集需要评估规则的事件的信息,包括事件名称、事件对应的主客体的值或属性的信息,以及任意评估规则需要的信息,例如时间信息、网络信息等环境信息。
2. 选择适用的策略。规则查询输入包括事件及事件的主体(用户、行为、应用)的识别信息及其属性信息、客体的识别信息及其属性信息(包括源路径、目标路径、所操作文档的扩展属性等多种信息)、环境等类别信息及相关的属性等信息来构成一个查询请求。
3. 评估遵从xacml标准的控制规则,根据所选择的控制子规则,获得完成规则评估所需的其他信息,如果控制规则中使用了特定的变量,则需要获得对应的控制规则变量解释的定义,按照控制规则变量解释的定义的描述,代入实体识别信息、实体属性信息,从而获得了完成使用了控制规则变量解释的规则评估所需的信息。按照规则中由属性及语法表达的条件代入以确定是否满足条件,满足条件则确定该规则相关,如果匹配某条含有条件表达式的规则,规则评估的结果将包括一条满足的包含条件表达式规则中的结果部分,规则中的结果部分常包括动作。
存储符合的决策中的所述动作,用于执行实现应用程序控制。所述动作可以包括但不限于:阻止或改变应用程序的功能,在用户直接或间接调用之后但在应用程序的功能被执行之前,例如通过控制内核的输入/输出请求包(IRP),用户和/或应用程序因此解读这种情况为特定操作系统服务失误或者硬件设备应用出了故障,该数据操作事件将不再执行;或者改变、替代、移除、隐藏、模糊要呈现给用户的结果的一个或多个部分(或全部),改变、替代、移除、隐藏、禁用、模糊一个或多个可操作的对象或文本片段,如变换认知元集合节点的寻址数据存储方式,或者实施某项指定的操作。
为了说明的目的,本实施例中可以仅评估一个规则。实际上,规则评估可以选择行为相关的1个或多个规则以确定应用程序行为是否需要继续执行或者采用额外的行为去控制。并且规则评估可以包含多于一个规则。如果符合规则的条件,则执行规则的控制结果。如果不满足,则对下一个控制子规则进行匹配。应当说明的是,有可能会出现多个控制子规则符合条件的情况。当规则评估中满足多于一个规则的前提条件时,必须使用一个或多个组合算法来组合所评估规则中的规则结果以形成最终规则结果。一种可选的实施方案是控制语言可以基于XACML(the eXtensible Access Control Markup Language)标准, XACML提供规则冲突解决方案,利用冲突避免算法保证规则控制系统评估结果的确定性。例如当一个应用访问文档的行为被监控到时,查询规则时同时有2条规则匹配该应用的访问行为,经过规则评估,并且其中有一个规则的结果是阻止(deny),有一个是允许(allow),那么根据规则冲突解决方案,返回给查询的结果是阻止(deny),从而解决了规则冲突的问题。最后的规则结果然后返回到规则查询模块,这种最终的政策结果通常包含一个效果<effect>,可选的0个或多个指令<obligation>。
举例说明,下面列举编号为1的控制策略的定义:
应用程序条件:任意 explorer.exe的程序(<application>image_path == [*explorer.exe]</application>)
文档操作事件类别:“文件被创建”(<event>event_name == [create]</event>)
客体条件:任意文档名(<resource>file.destination.path == [*]</resource>)
如果满足上述条件,
结果1是:允许应用程序继续执行(<result>allow</result>);
结果2是:执行指定的操作<文档原有属性-认知元集合节点的寻址数据>
<obligation_resource>file.destination</obligation_resource>
根据规则,创建FileFlowNode.ID:
<FileFlowNode>Create.FileFlowNode.ID</FileFlowNode.ID>
根据规则,创建EntityMirror.ID:<EntityMirror>Create.EntityMirror.ID</EntityMirror>
</文档原有属性-认知元集合节点的寻址数据>
结果3是:执行指定的操作:存储指定元数据<文档原有属性-认知元集合节点的寻址数据>,即将EntityMirror.ID、FileFlowNode.ID等寻址数据,存储至文档扩展属性中指定位置。
<FileTag>
<File.EntityMirror>File.destination.EntityMirror.ID</File.EntityMirror>
<File.FileFlowNode>File.destination.FileFlowNode.ID</File.FileFlowNode>
<obligation_resource>file.destination</obligation_resource>
</FileTag>
举例说明,下面列举控制策略的组合:
<--创建文档认知元>策略
<policy_file>
<policy>
<policy_type>文档实体改变类别的认知</policy_type>
<description>文档实体新建认知元</description>
<application>image_path == [*explorer.exe]</application>
<event>event_name == [create]</event>
<resource>file.destination.path == [*]</resource>
<result>allow</result>
<obligation>
<文档原有属性-认知元集合节点的寻址数据>
<EntityMirror>Create.EntityMirror.ID</EntityMirror>
<FileFlowNode>Create.FileFlowNode.ID</FileFlowNode>
<obligation_resource>file.destination</obligation_resource>
</文档原有属性-认知元集合节点的寻址数据>
<FileTag>
<File.EntityMirror>File.destination.EntityMirror.ID</File.EntityMirror>
<File.FileFlowNode>File.destination.FileFlowNode.ID</File.FileFlowNode>
<obligation_resource>file.destination</obligation_resource>
</FileTag>
</obligation>
<bubble>false</bubble>
<id>1</id>
</policy>
<policy_file>
<policy>
<policy_type>文档实体改变类别的认知元</policy_type>
<description>文档被复制认知元 或 文档被另存为认知元</description>
<application>image_path == [*explorer.exe]</application>
<event>(event_name == [copy]) or (event_name == [save_as])</event>
<resource>file.destination.path == [*]</resource>
<result>allow</result>
<obligation>
<文档原有属性-认知元集合节点的寻址数据>
<EntityMirror>Create.EntityMirror.ID</EntityMirror>
<FileFlowNode>Maintain.file.source.FileFlowNode.ID</FileFlowNode>
<obligation_resource>file.destination</obligation_resource>
</文档原有属性-认知元集合节点的寻址数据>
<FileTag>
<File.EntityMirror>File.destination.EntityMirror.ID</File.EntityMirror>
<File.FileFlowNode>File.destination.FileFlowNode.ID</File.FileFlowNode>
<obligation_resource>file.destination</obligation_resource>
</FileTag>
</obligation>
<bubble>false</bubble>
<id>2</id>
</policy>
<policy_file>
<policy>
<policy_type>文档实体没有发生改变的认知元</policy_type>
<description>文档移动认知元</description>
<application>image_path == [*explorer.exe]</application>
<event>(event_name == [move])</event>
<resource>file.source.path == [*]</resource>
<result>allow</result>
<obligation>
<文档原有属性-认知元集合节点的寻址数据>
<EntityMirror>Maintain.file.source.EntityMirror.ID</EntityMirror>
<FileFlowNode>Maintain.file.source.FileFlowNode.ID</FileFlowNode>
<obligation_resource>file.destination</obligation_resource>
</文档原有属性-认知元集合节点的寻址数据>
<FileTag>
<File.EntityMirror>File.destination.EntityMirror.ID</File.EntityMirror>
<File.FileFlowNode>File.destination.FileFlowNode.ID</File.FileFlowNode>
<obligation_resource>file.destination</obligation_resource>
</FileTag>
</obligation>
<bubble>false</bubble>
<id>3</id>
</policy>
<policy_file>
<policy>
<policy_type>文档实体没有发生改变的认知元</policy_type>
<description>文档的ActionBusinessType改变认知元</description>
<application>image_path == [*]</application>
<event>(event_name == [Edit])</event><resource>(file.source.ActionBusinessType!=file.destination.ActionBusinessType)</resource>
<result>allow</result>
<obligation>
<文档原有属性-认知元集合节点的寻址数据>
<EntityMirror>Maintain.file.source.EntityMirror.ID</EntityMirror>
<FileFlowNode>Maintain.file.source.FileFlowNode.ID</FileFlowNode>
<obligation_resource>file.destination</obligation_resource>
</文档原有属性-认知元集合节点的寻址数据>
<FileTag>
<File.EntityMirror>File.destination.EntityMirror.ID</File.EntityMirror>
<File.FileFlowNode>File.destination.FileFlowNode.ID</File.FileFlowNode>
<obligation_resource>file.destination</obligation_resource>
</FileTag>
</obligation>
<bubble>false</bubble>
<id>4</id>
</policy>
<policy_file>
<policy>
<policy_type>文档实体改变类别的认知</policy_type>
<description>文档被上传并获得网络信息认知元,文档被下载并获得网络信息认知元</description>
<application>image_path == [*explorer.exe]</application>
<event>(event_name == [upload]) or (event_name == [download])</event>
<resource>file.destination.path == [*]</resource>
<result>allow</result>
<obligation>
<文档原有属性-认知元集合节点的寻址数据>
<EntityMirror>Create.EntityMirror.ID</EntityMirror>
<FileFlowNode>Maintain.file.source.FileFlowNode.ID</FileFlowNode>
<obligation_resource>file.destination</obligation_resource>
</文档原有属性-认知元集合节点的寻址数据>
<FileTag>
<File.EntityMirror>File.destination.EntityMirror.ID</File.EntityMirror>
<File.FileFlowNode>File.destination.FileFlowNode.ID</File.FileFlowNode>
<obligation_resource>file.destination</obligation_resource>
</FileTag>
<IP-ActionBusiness>
<CommunicateIP>File.destination.ActionBusinessType</CommunicateIP>
<obligation_resource>file.destination</obligation_resource>
</IP-ActionBusiness>
</obligation>
<bubble>false</bubble>
<id>5</id>
</policy>
下面结合图4,以文档操作事件为文档被新建作为示例,结合上述控制策略,对认知元的一种具体的实现方式进行详细描述。
图4为本申请实施例提供的一种“文档被新建”认知元的方法的示意性流程图。如图4所示,该方法可以包括步骤410-460,下面分别对步骤410-460进行详细描述。
步骤410:客户在客户端执行新建文档的操作。
作为示例,被指定为经理的用户, 在windows上执行一个鼠标右键新建文档操作,新建了“C:\X-P\新建 doc文档.doc”。
步骤420:客户端输出“<文档被新建>”事件。
作为示例,安装在Windows系统客户端中的应用监控程序,输出了基础事件,基础事件的组合,输出了“<文档被新建>”文档操作事件,包括主体属性(应用名(这里是image_path == [explorer.exe]))、事件类别(这里是event_name == [create])、客体属性(这里是file.source.path == [], file.destination.path == [C:\X-P\新建 doc文档.doc]),并将收集到的数据,作为策略查询信息。
步骤430:决策中心接收到查询信息对存储的相关策略进行策略评估,输出策略效果。
作为示例,决策中心接收到查询信息,决策中心对存储的相关策略进行策略评估。在策略评估中,包括收集策略评估需要的相关数据。在此示例中,假设仅评估了上述几条策略。本例中,该查询匹配第一条策略中的条件(<id>1</id>,则将采纳策略中规定的策略后果。在这种情况下,策略评估产生 ALLOW 的策略效果(<result>allow</result>)和执行指定的Obligation。决策中心调用Obligation处理程序来执行策略中指定的Obligation任务:并将策略效果返回给应用监控事件模块。
步骤440:确定包含“<文档被新建>”认知元。
本例中,在这种情况下,<文档原有属性-认知元集合节点的寻址数据>obligation模块、<FileTag>模块分别被<obligation>处理器调用。其中,<文档原有属性-认知元集合节点的寻址数据>obligation按照规则,新建了EntityMirror.ID<FileTag>,将EntityMirror.ID、FileFlowNode.ID等认知元集合节点的寻址数据存储至目的地文档的扩展属性,基于目的地文档位置属性,采取相对应的元数据存储方式。具体的有关元数据的存储方式请参考上文中的描述,此处不再赘述。
步骤450:应用监控程序拦截器,从决策中心接收包含策略效果的策略后果。结果应用程序允许操作继续。
步骤 460 :执行实现文件新建操作的应用程序代码。
本申请示例中,explorer.exe执行实现文件新建操作的应用程序代码
服务器接收到认知元,包括EntityMirror.ID,FileFlowNode.ID,包括基础事件确定的认知属性、EntityMirrorChanged的认知关系后,执行以下操作:
1、在DB中,基于决策创建EntityMirror(包括确定EntityMirror.ActionBusiness),创建FileFlowNode(包括FileFlowNode.ActionBusiness)。可以将文档相关的关系,存储至EntityMirror关联的预定义关系存储位置。
2、在DB中,更新认知元集合间关系,例如更新FileFlowNode-FileFlowNode关系,例如同时更新G(V,E)的顶点和边。
下面结合图5,以“文件被复制”认知元作为示例,结合上述控制策略,对保持文档原有属性和MultiRelationNode等认知元集合节点之间的对应关系的一种具体的实现方式进行详细描述。
图5为本申请实施例提供的一种对保持文档和该MultiRelationNode之间的对应关系的方法的示意性流程图。如5所示,该方法可以包括步骤510-540,下面分别对步骤510-540进行详细描述。
步骤510:客户在客户端执行文件被复制的操作。
作为示例,被指定为经理的用户, 在windows上,将“C:\X-P\Demo1.doc”复制到了目的地文档:“D:\Knoo\Demo1.doc”。
步骤520:客户端输出“文档被复制”事件。
作为示例,应用监控程序输出了基础事件,基础事件的组合,输出了“<文档被复制>”文档操作事件,并将收集到的数据,作为策略查询信息。
步骤 530:决策中心接收到查询信息对存储的相关策略进行策略评估,输出策略效果。
类似的,决策中心接收到查询信息,选中了符合的策略,策略评估产生 ALLOW 的策略效果(<result>allow</result>)和执行指定的Obligation。决策中心调用Obligation处理程序来执行策略中指定的Obligation任务:并将策略效果返回给应用监控事件模块。
步骤 540 :存储并保持文档和该文档数据关系之间的对应关系。
作为示例,在这种情况下,<文档原有属性-认知元集合节点的寻址数据>obligation模块、<FileTag>模块分别被<obligation>处理器调用。其中,<文档原有属性-认知元集合节点的寻址数据>obligation新建了目的地文件的EntityMirror.ID(EntityMirror.ID=989665),<FileTag>,将认知元集合节点的寻址数据与目的地文件关联。
服务器接收到认知元,包括EntityMirror.ID、FileFlowNode.ID、包括基础事件确定认知属性等后,执行以下操作:
1)包括基于文档镜像实体衍生关系FileDerive=(656556:989665),基于源文档镜像EntityMirror.ActionBusiness,确定目的地文档镜像EntityMirror.ActionBusiness,EntityMirror.ID=989665等属性。
2)基于决策,确定<FileFlowNode-FileFlowNode>,更新FileFlowNode.ActionBusiness,
下面结合图6,以文档操作事件为文档被上传作为示例,结合上述控制策略,对包含文档操作事件的认知元的一种具体的实现方式进行详细描述。
图6为本申请实施例提供的一种包含文档被上传的认知元的方法的示意性流程图。如图5所示,该方法可以包括步骤610-650,下面分别对步骤610-650进行详细描述。
步骤610:客户在客户端执行文档被上传的操作。
作为示例,被指定为经理的用户,在Windows系统上将 D:\Rstt\Demo1.doc文件(File.Source.EntityMirror.ID=989665)上传至ShareBox.exe。
步骤620:客户端输出“<文档被上传并获得网络信息>”事件。
作为示例,用户操作导致的API调用被安装在Windows系统客户端中的应用监控程序拦截,输出了基础事件,进一步经过可能的合并、组合,输出了“文件被上传并获得网络信息”和事件相关的属性,包括主体(应用名,这里是image_path == [ShareBox.exe]))、事件(这里是event_name == [upload])、文档属性(这里是file.source.path == [D:\Rstt\Demo1.doc],file.destination.path == []),并将收集到的数据,作为策略查询信息转发到决策中心。
其中“选择文件”基础事件发生时,由于是网络应用调用该基础事件,实现文档重定向操作。即将源文件D:\Rstt\Demo1.doc拷贝到临时文件夹中,生成EntityMirror.ID=235656等确定MultiRelationNode需要的数据,将存储了认知元集合节点的寻址数据的新文档交给网络应用传输。
步骤630:决策中心接收到查询信息对存储的相关策略进行策略评估,输出策略效果。
作为示例,决策中心接收到查询信息,将查询提交的应用名、文档属性、事件属性和存储的相关策略进行策略评估。在此示例中,假设仅评估了上述几条策略。本例中,该查询匹配第5条策略的条件(<id>5</id>,将采用策略规定的策略后果。在这种情况下,策略评估产生 ALLOW 的策略效果(<result>allow</result>)和2条Obligation(<obligation>)。决策中心调用Obligation处理程序来执行策略中指定的Obligation任务:并将策略效果返回给应用监控事件模块。
步骤640 :确定“文档被上传”事件对应的元数据。
本例中,在这种情况下,<文档原有属性-认知元集合节点的寻址数据>obligation模块,<FileTag>模块分别被调用<obligation>处理器调用。由于网络应用“选择文件”时,已经执行了对应的重定向逻辑,即提前实现了新的EntityMirror.ID。
步骤650 :应用监控程序拦截器,从决策中心接收包含策略效果的策略后果,结果应用程序允许操作继续。
由于包含“文档被上传并获得网络信息”文档操作事件的认知元,具有多个类别的,所以服务器执行以下操作:
由于属于DataInMotion类别认知元,基于决策,基于认知元携带的AppBusiness、UserBusiness等多维的基础事件确定认知属性,基于决策中心,在DB中创建了新的EntityMirror,选择性更新了FileFlowNode.ActionBusiness、更新了<FileFlowNode-FileFlowNode>关系。
认知元与认知元集合节点的组合,只有在符合决策的情况下,才会改变ActionBusinessType。基于Demo1.doc的ActionBusinessType改变为高可信度的分类方式,基于规则,选择性改变关联同一个MultiRelationNode的多个文档的级别类别;以及选择性改变关联不同MultiRelationNode的多个文档的级别类别。下面以ShareAPP标记的场景为例,描述在第一文档的ActionBusinessType改变的情况下,如何基于决策中心,选择性更新第二文档的ActionBusinessType。
作为示例,当Demo1.doc文件(File.Source.EntityMirror.ID=235656)上传至ShareBox.exe时。由于客户端已经和第三方应用程序ShareBox.exe提前预定义好通信规则,获得了上传的路径及对应信息。例如获得“Demo1.doc产品文档\产品设计 、ActionBusinessType:产品文档、级别:内部、主文档家族”。即服务器获得了第一文档的ActionBusinessType改变,EntityMirror.IdentifyType=”ShareAPP”。
一种情况,关联EntityMirror.ID=235656对应的<文档-FileFlowNode>内所有文档的EntityMirror.IdentifyType=”关键字识别”,可信度=5分,由于改变文档Demo1.doc的IdentifyType=ShareAPP高于当前值,所以关联该FileFlowNode的所有文档的.ActionBusinessType更新为“产品文档、级别:内部、主文档家族”。
一种情况,预定义认知元集合节点间关系的程度、方向,确定第二文档的范围,基于<FileFlowNode-FileFlowNode>,更新该文档关联的FileFlowNode的成员文档FolderBusiness关系程度为1(最短路径为1),并且ShareLevel=1的多个FileFlowNode.ActionBusinessType和与这些FileFlowNode关联的文档的ActionBusinessType,则部分文档级别被更新为“产品文档、级别:内部、辅助文档家族”。
下面以手工标记的场景为例,描述在第一文档的ActionBusinessType改变的情况下,如何基于决策,选择性更新第二文档的ActionBusinessType。
类似的,例如当一个FileFlowNode内文档被用户手工标记为“K项目”类别后,如果该文档所属的FileFlowNode内其他文档都是被关键字识别方式分类的,由于可信度低于用户手工标记可信度,所以FileFlowNode内其他文档的ActionBusinessType改变为“K项目”。本方法可以提高效率,例如一个文档有20个副本,只需要手工标记一次,其他关联同一个FileFlowNode的19个文档衍生副本都可以被自动标记。类似的基于认知元集合节点间关系,此处是基于<FileFlowNode-FileFlowNode>,基于与该FileFlowNode的关系程度、关系方向符合预定义的其他FileFlowNode及其关联的多个文档,并更新这些文档的ActionBusinessType,与该FileFlowNode关系程度在预定义范围内的未分类过的几个文档也被更新为“K项目、辅助文档”。
下面结合图7,以FileFlowNode作为示例,对如何根据决策中心确定具有关联关系的FileFlowNode的一种具体的实现方式进行详细描述。
图7是本申请实施例提供的一种如何确定具有关联关系的FileFlowNode的方法的示意性流程图。如图7所示,该方法可以包括步骤710-760,下面分别对步骤710-760进行详细描述。
步骤710:文档被新建,确定<文档-文档家族(FileFlowNode)><FileFlowNode-FileFlowNode>。
作为示例,被指定为经理的用户,在Windows系统上新建一个文档 D:\ProjectDF\Craft1.doc文件,EntityMirror.ID=7565612,FileFlowNode.ID=8651651,并进行编辑。
步骤720:文档被下载,更新<文档-FileFlowNode><FileFlowNode-FileFlowNode>。
作为示例,同时为了更好的编辑该文档,从外网下载了2个文档,分别是:External1.doc、External2.ppt,从内网下载了1个文档,分别是:Internal1.doc。均存储至D:\Project DF\文件夹。
步骤730:应用监控程序,输出了“文件被下载”确定的认知元。
步骤740:服务器获得“文件被下载”确定的认知元,更新认知元集合节点,更新认知元集合节点关系。
确定<文档-FileFlowNode>上述下载的三个文档分别对应的FileFlowNode如下所示:
<D:\Project DF\External1.doc----FileFlowNode.ID=8686661>;
<D:\Project DF\External2.doc----FileFlowNode.ID=1246565>;
<D:\Project DF\Internal1.doc ----FileFlowNode.ID=343434>;
服务器获得“文件被下载”确定的认知元,属于DataInMotion类别认知元、
即获得了文档镜像实体改变关系EntityMirrorChanged,积累FolderBusiness认知,更新了FileFlowNode-FileFlowNode关系。基于FolderBusiness,确定FileFlowNode-FileFlowNode,由于都存储在一个文件夹D:\Project DF\,所以其文档镜像的最短路径为1,其FolderBusiness关系程度为1;
步骤750:应用监控程序,输出了“文件被编辑”确定的认知元。
例如用户编辑D:\Project DF\Craft1.doc文件,并同时编辑了D:\Project DF\的3个文档,则监控到“文件被编辑”确定的认知元,FileFlowNode.ID=8651651。并获得了“文件被编辑”确定的认知元,FileFlowNode.ID=8686661、FileFlowNode.ID=1246565、FileFlowNode.ID=343434。
步骤760:服务器获得“文件被编辑”确定的认知元,更新认知元集合节点,更新认知元集合节点关系。
服务器获得“文件被编辑”确定的认知元,基于认知元包含的TimeBusiness认知,更新<文档-FileFlowNode>,确定<FileFlowNode-FileFlowNode>。
下面结合图8,以图8所示的四个FileFlowNode为例,对FileFlowNode间相互影响文档的分类结果的一种具体的实现方式进行详细描述。
图8是本申请实施例提供的一种家族树之间相互影响文档的分类结果的方法的示意性流程图。如图8所示,该方法可以包括步骤810-850,下面分别对步骤810-850进行详细描述。
举例说明,表11列举了服务器预定义的FileFlowNode.ActionBusinessType。
表11 预定义的FileFlowNode.ActionBusinessType
步骤 810:第一客户执行文档被上传的操作。
作为示例,被指定为经理的用户Leo(第一用户),在Windows系统上将创建的文件D:\Project DF\Craft1.doc文件,FileFlowNode.ID=8651651,Leo(第一客户)通过wechat.exe用户发给“Jack” (第二用户)进行协作。
步骤820:基于第一客户的个人计算机(PC机)的应用监控程序,输出了“文件被上传并获得网络信息”文档操作事件。
作为示例,Leo用户的PC机应用监控程序,输出了“文件被上传并获得网络信息”认知元;
步骤830:服务器获得“文件被上传并获得网络信息”认知元,修改家族树(FileFlowNode)。
步骤840:Jack用户的个人计算机(PC机)的应用监控程序,输出了“文件被下载并获得网络信息”认知元。
步骤850:服务器获得“文件被下载并获得网络信息”认知元,修改家族树(FileFlowNode)。
由于该FileFlowNode与多用户进行了协作,所以ShareLevel从1变成了2。由于该FileFlowNode的用户的顺序符合预定义“FileFlowNode.UserOrder=“Leo”、“Jack””,则该FileFlowNode.ActionBusinessType=“X项目”。
由于FileFlowNode.ActionBusinessType=“X项目”改变了,基于<FileFlowNode-FileFlowNode>,由于与FileFlowNode.ID=8651651的关系程度在预定义范围内(例如由FolderBusiness最短路径为1等多因素综合确定),三个FileFlowNode(FileFlowNode.ID=8686661、FileFlowNode.ID=1246565、FileFlowNode.ID=343434都是ShareLevel=1。所以根据决策中心,可以更新这三个FileFlowNode.ActionBusiness=“X项目”。
另一种可能的实现方式中,上述对获得文档认知的方法可以应用于网络识别。作为示例,可以确定文档的级别类别和被网络传输的网络数据组合,并传输到预定义的网络设备。
可选的,在一些实施例中,由于https等加密协议和Wechat等应用私有协议。当前IDS、防火墙等设备难以获得IP数据包内传输的文档内容。本申请由于可以准确的获得文档的业务类型,例如文档关联的FileFlowNode.ActionBusinessType,以及文档被上传的URL、IP地址、应用名等信息。本申请可以构建一个“IP包内容”组合:(文档的ActionBusinessType、IP等网络数据),将“IP包内容”发送到网络设备。
一种实施方式是,与防火墙、IDS、IPS等网络设备进行通信,当文档被客户端上传至内部或外部服务器时。执行以下操作:
1):被指定为经理的用户,在Windows系统上将 D:\Rstt\Demo1.doc文件(File.Source.EntityMirror.ID=989665)上传至wechat.exe。
2):用户操作导致的API调用被安装在Windows系统客户端中的应用监控程序拦截,输出了基础事件,进一步经过可能的合并、组合,输出了“文件被上传并获得网络信息”和事件相关的属性,包括主体(应用名,这里是image_path == [ShareBox.exe])、事件(这里是event_name == [upload])、文档属性(这里是file.source.path == [D:\Rstt\Demo1.doc],file.destination.path == []),并将收集到的数据,作为策略查询信息转发到决策中心。
3):决策中心接收到 查询信息,将查询提交的应用名、文档属性、事件属性和存储的相关策略进行策略评估。在此示例中,假设仅评估了上述几条策略。本例中,该查询匹配第5条策略的条件(<id>5</id>,将采用策略规定的策略后果。在这种情况下,策略评估产生ALLOW 的策略效果(<result>allow</result>)和3条Obligation(<obligation>)。决策中心调用Obligation处理程序来执行策略中指定的Obligation任务:并将策略效果返回给应用监控事件模块。
4):在这种情况下,<文档原有属性-认知元集合节点的寻址数据>obligation模块,<FileTag>obligation模块,<IP-ActionBusiness>obligation模块分别被<obligation>处理器调用。其中<IP-ActionBusiness>被调用后,将向预定义的IP地址的网络设备传输数据,数据包括“文件被上传并获得网络信息”动作的目的地网络信息:URL、IP地址、应用名,以及上传的源文件的.ActionBusinessType等数据。IDS等网络设备收到传输的数据后,无需通过关键字、内容识别等方式识别文档的级别类别,也无需解析微信等私有协议,从而进行更精细的网络控制。
针对非结构化数据的识别,以及识别的关系管理这一复杂科学难题,本申请形成了较为完整的PC机上存储文档的认知组合管理系统、通过认知的多重组合去识别文档的科学发现、基础理论方法和工程实现体系,有三大科学发现:
一是认知元生成系统。针对非结构化数据(以下简称文档)异构、缺乏结构化、文档属性易变的特性,揭示了“应用程序基础事件层、认知元层”的多维认知汇集方法。用文档操作事件表示一类或多类认知元”。认知元本质是将多维认知的汇集。将UserBusiness、DeviceBusiness、AppBusiness、FolderBusiness、TimeBusiness等多维认知基于规则汇集至认知元集合节点的认知,汇集至认知元集合节点间关系,这种基于文档的认知元集合节点的寻址数据的汇集,实现了分散在不同PC设备的多维认知汇集至预定义位置服务器,实现了同一文档不同时间发生的认知的汇集,DataInMotion、DataInUse等不同类别的认知元实现了同一文档的不同时间发生的多维认知的有序汇集。
二是多类别认知元的选择性组合,确定认知元集合节点的级别类别确定系统。理论上,多类认知元集合节点,可以生成一个复杂庞大的图。本申请选择预定义类别认知元进行选择性组合,确定FileFlowNode等有意义的子图MultiRelationNode,例如FileDerive类别认知元实现了文档家族的多个不同文档认知的汇集,以及同一文档多类认知的差异化汇集方式,例如基于FolderBusiness的FileFlowNode.ActionBussiness确定规则、基于UserBusiness的认知元集合节点间关系确定规则等。如果确定级别类别ActionBusinessType,再更新关联的文档级别类别。一个认知元事件可以理解为关联了MultiRelationNode的、MultiRelationNode间关系的一个文档准确认知的零件,认知元组合本质:多类别的多个认知元(文档准确认知的零件)的有序组合,从而获得组合后的产品MultiRelationNode.ActionBusiness,进而量变引起质变,如果积累的基础事件认知关系越多,并且符合预定义,则生成越来越准确的级别类别MultiRelationNode.ActionBusinessType。
三是文档级别类别改变的关联影响系统,由高可信度的分类方法确定的第一MultiRelationNode的级别类别改变,会基于认知元集合节点间关系(关系程度、关系方向等),影响低可信度的第二MultiRelationNode的级别类别或第二文档的级别类别。并通过关系程度、控制这种级别类别改变,影响的文档范围。这种高可信度认知级别类别的传递,使用了不同类别的基础事件确定认知属性。例如由第一类基础事件确定认知属性(例如应用属性、设备属性、用户属性中的一种,例如协作的FileFlowNode的UserOrder)确定高可信度的级别类别,则使用第二类基础事件确定认知属性(例如路径属性、时间属性中的一种,例如FolderBusiness确定文档家族间关系)确定不同认知元集合节点间的关系,传递至第二认知元集合节点或者第二文档。
本申请设计的多类别认知元组合系统是一个正反馈系统,正反馈主要反映在,用户对文档不同类别操作生成不同类别的认知元。
1)文档识别现在不准没关系,未来识别准就行。例如确定MultiRelationNode由多种类别的认知元组成,其认知元关系类别越多,识别越准确。例如文档刚创建时,还未协作,由于累积的认知元关系类别不多,仅有创建类别认知元、衍生类别认知元,FileFlowNode识别不太准。随着编辑、与其他用户协作会更准确,例如进入多用户协作阶段的FileFlowNode,其构成的认知元类别增加了DataInMotion类别,比过去还未协作的FileFlowNode识别准确度有较大幅度的提高。
2)文档自己识别不准没关系,关联的识别准就行。本申请通过建立MultiRelationNode间关系,通过相关的其他MultiRelationNode准确的识别,从而关联识别不准的MultiRelationNode。例如为了编辑一个文档,而从外网下载的一些文档,属于辅助文档家族FileFlowNode,会被关系最紧密的主文档家族FileFlowNode的级别类别的更新所影响。
3)本申请设计了高可信度文档认知结果,影响与其相关的多个文档的级别类别的机制。例如手工标记的文档越多,一大批与其相关的文档也会跟着准。例如本系统如果接入OA、SharePoint、ERP等文档协作系统,上传协作的文档会获得比较准确的识别,从而带动与其关系密切相关的多个文档识别准确度进一步提升。
从而解决实际应用场景中,对PC机上的文档进行关系管理的难题。
上文结合图1至图8,详细描述了本申请实施例提供的方法,下面将结合图9-图10,详细描述本申请装置的实施例。应理解,方法实施例的描述与装置实施例的描述相互对应,因此,未详细描述的部分可以参见前面方法实施例。
图9是本申请实施例提供的一种获得文档认知的装置900的示意性框图。该装置900可以通过软件、硬件或者两者的结合实现。本申请实施例提供的装置900可以实现本申请实施例所示的方法流程,该装置900包括:获取模块910,处理模块920,其中,获取模块910用于获得基础事件;处理模块920根据该基础事件和/或所述基础事件的组合,确定认知元,该认知元包括该基础事件确定的认知关系信息和该基础事件确定的认知属性信息;根据该认知关系信息和认知属性信息确定与该认知元相关的至少一个认知元集合节点;根据该至少一个认知元集合节点,选择性更新该至少一个认知元集合节点和/或认知元集合节点之间的关系。
可选的,该认知元还包括文档与该认知元集合节点之间的寻址数据。
可选的,该处理模块920还用于根据以下信息中的至少两种确定该认知属性信息:该基础事件和/或所述基础事件的组合的应用属性、设备属性、用户属性、路径属性、文档扩展属性、时间属性。
可选的,该处理模块920还用于根据以下信息中的至少一种确定该认知关系信息:文档镜像实体维持关系、文档镜像实体改变关系、文档镜像实体衍生关系、文档被网络传输关系。
可选的,该处理模块920还用于根据以下信息中的至少一种方式存储该文档与认知元集合节点之间的寻址数据:文档扩展元数据存储该文档与认知元集合节点之间的寻址数据、预定义数据库或文件存储文档属性与认知元集合节点之间的寻址数据。
可选的,该处理模块920还用于根据基础事件确定的认知关系信息,有不能积累源文档与认知元集合节点认知的风险时,基于目的地文档的位置属性,确定文档扩展属性存储所述文档与认知元集合节点的寻址数据方法。
可选的,该处理模块920还用于根据该基础事件和/或所述基础事件的组合,确定该文档镜像实体维持关系的认知元,更新源文档镜像的认知或者更新源文档对应的认知元集合节点的认知属性信息。
可选的,该处理模块920还用于根据该基础事件和/或所述基础事件的组合,确定该文档镜像实体改变关系的认知元,创建新文档镜像的认知,和\或更新源文档对应的认知元集合节点的认知属性信息。
可选的,该创建的新文档镜像的认知与该源文档镜像的认知,由该源文档镜像的认知和认知元的组合,基于决策所确定。
可选的,该处理模块920具体用于:根据该基础事件和/或所述基础事件的组合,确定该文档镜像实体衍生关系的认知元,并基于决策,选择性更新该至少一个认知元集合节点的认知属性信息。
可选的,该处理模块920具体用于:根据该基础事件和/或所述基础事件的组合,确定该文档被网络传输关系的认知元,并基于决策,选择性更新该至少一个认知元集合节点的认知属性信息。
可选的,该处理模块920还用于基于文档镜像实体衍生关系的认知元和文档被网络传输关系的认知元,对一类认知元集合节点进行更新。
可选的,该处理模块920具体用于:同时更新至少一个该认知元集合节点和该认知元集合节点之间的关系,该认知元集合节点之间的关系包括关系的程度和\或关系的方向。
可选的,该处理模块920还用于按照认知元集合节点新建类别认知元、认知元集合节点维持类别认知元的顺序,根据认知元集合节点的寻址数据,更新寻址数据确定的认知元集合节点。
可选的,该处理模块920还用于如果认知元为认知元集合节点预定义的认知元类别组合中的任一种,根据认知元集合节点的寻址数据,更新寻址数据确定的认知元集合节点。
可选的,该装置900应用于对该文档进行分级分类。
可选的,该处理模块920还用于如果主体属性顺序符合决策确定第一认知元集合节点为预定义级别类别和\或确定与第一认知元集合节点对应的文档为 预定义的级别类别;或该处理模块920还用于如果存储的多个类别认知元的组合符合决策,确定第一认知元集合节点为预定义级别类别和\或确定与第一认知元集合节点对应的文档为预定义的级别类别。
可选的,该处理模块920还用于如果第一认知元集合节点级别类别改变,并且第一认知元集合节点的级别类别的确定方法为预定义的级别类别确定方法,基于认知元集合节点间关系,更新第二认知元集合节点为的级别类别和\或所述第二认知元集合节点对应的第二文档的级别类别;该第一认知元集合节点的级别类别的确定方法为预定义的级别类别确定方法,根据以下信息中的至少一种确定:认知元集合节点的主体属性顺序符合决策、认知元集合节点存储的多个类别认知元的组合符合决策、人工标记、从第三方应用程序获得的级别类别。
可选的,该处理模块920还用于如果第一认知元集合节点级别类别改变,并且第一认知元集合节点的级别类别的确定方法为预定义的级别类别确定方法,基于认知元集合节点间关系,更新第二认知元集合节点的级别类别和\或所述第二认知元集合节点对应的第二文档的级别类别,其中,所述第一认知元集合节点的级别类别的确定过程中至少使用了第一类认知属性,所述认知元集合节点间关系的确定过程中至少使用了第二类认知属性。
可选的,该处理模块920具体用于:响应于第一认知元集合节点级别类别的改变,改变第二文档或第二认知元集合节点的级别类别。
可选的,该处理模块920具体用于:通过比较确定该第一认知元集合节点的认知元类别组合、确定第二认知元集合节点的认知元类别组合,确定该第二文档或该第二认知元集合节点的级别类别。
可选的,该基于认知元集合节点间关系,更新第二文档和\或第二认知元集合节点的级别类别步骤中,该认知元集合节点间关系包括关系的程度和\或关系的方向。
可选的,该处理模块920具体用于:基于该第一认知元集合节点,确定该第二文档或该第二认知元集合节点的级别类别。
可选的,该处理模块920还用于基于第一文档与认知元集合节点之间的寻址数据、认知元集合节点属性,响应于第一文档的认知元,改变第二文档或第二认知元集合节点的级别类别。
可选的,该处理模块920还用于基于第一文档与认知元集合节点之间的寻址数据、认知元集合节点的属性、认知元集合节点间关系的程度,响应于第一文档的认知元,改变第二文档或第二认知元集合节点的级别类别。
可选的,该处理模块920还用于确定该文档的级别类别和文档被网络传输的网络数据的组合,并传输到预定义的网络设备。
可选的,该装置900应用于生成文档家族分布图。
可选的,该处理模块920还用于基于该认知元集合节点之间的关系,集合多个不同类别认知元集合节点,生成审计绘图,该审计绘图用于表示文档在用户设备上的分布。
可选的,该装置900应用于控制文档的访问,该文档访问,包括打开一个文件,写入文件,删除文件,更改文件权限,改变文件属性,在一个邮件存储打开一个电子邮件消息,在邮件存储在删除电子邮件,从文档管理系统检索文档,存储文档到文档管理系统,或是任何访问文档或文档存储库的行为。
可选的,该控制文档的访问或使用基于以下三者的组合:基于文档对应的第一认知元集合节点、第一认知元集合节点与第二认知元集合节点之间的关系、第二认知元集合节点的级别类别。
这里的装置900可以以功能模块的形式体现。这里的术语“模块”可以通过软件和/或硬件形式实现,对此不作具体限定。
例如,“模块”可以是实现上述功能的软件程序、硬件电路或二者结合,本申请实施例对此不做具体限定。
因此,在本申请的实施例中描述的各示例的模块,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
需要说明的是:上述实施例提供的装置在执行上述方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。例如,获取模块910可以用于执行上述方法中的任意步骤,处理模块920可以用于执行上述方法中的任意步骤。获取模块910、处理模块920负责实现的步骤可根据需要指定,通过获取模块910、处理模块920分别实现上述方法中不同的步骤来实现上述装置的全部功能。
另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见上文中的方法实施例,这里不再赘述。
本申请实施例提供的方法可以由计算设备执行,该计算设备也可以被称为计算机系统。包括硬件层、运行在硬件层之上的操作系统层,以及运行在操作系统层上的应用层。该硬件层包括处理单元、内存和内存控制单元等硬件,随后对该硬件的功能和结构进行详细说明。该操作系统是任意一种或多种通过进程(process)实现业务处理的计算机操作系统,例如,Linux操作系统、Unix操作系统、Android操作系统、iOS操作系统或windows操作系统等。该应用层包含浏览器、通讯录、文字处理软件、即时通信软件等应用程序。并且,可选地,该计算机系统是智能手机等手持设备,或个人计算机等终端设备,本申请并未特别限定,只要能够通过本申请实施例提供的方法即可。本申请实施例提供的方法的执行主体可以是计算设备,或者,是计算设备中能够调用程序并执行程序的功能模块。
下面结合图10,对本申请实施例提供的一种计算设备进行详细描述。
图10是本申请实施例提供的一种计算设备1500的架构示意图。该计算设备1500可以是服务器或者计算机或者其他具有计算能力的设备。图10所示的计算设备1500包括:至少一个处理器1510和存储器1520。
应理解,本申请不限定计算设备1500中的处理器、存储器的个数。
处理器1510执行存储器1520中的指令,使得计算设备1500实现本申请提供的方法。或者,处理器1510执行存储器1520中的指令,使得计算设备1500实现本申请提供的各功能模块,从而实现本申请提供的方法。
可选地,计算设备1500还包括通信接口1530。通信接口1530使用例如但不限于网络接口卡、收发器一类的收发模块,来实现计算设备1500与其他设备或通信网络之间的通信。
可选地,计算设备1500还包括系统总线1540,其中,处理器1510、存储器1520和通信接口1530分别与系统总线1540连接。处理器1510能够通过系统总线1540访问存储器1520,例如,处理器1510能够通过系统总线1540在存储器1520中进行数据读写或代码执行。该系统总线1540是快捷外设部件互连标准(peripheral component interconnectexpress,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。该系统总线1540分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
一种可能的实现方式,处理器1510的功能主要是解释计算机程序的指令(或者说,代码)以及处理计算机软件中的数据。其中,该计算机程序的指令以及计算机软件中的数据能够保存在存储器1520或者缓存1516中。
可选地,处理器1510可能是集成电路芯片,具有信号的处理能力。作为示例而非限定,处理器1510是通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(fieldprogrammable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其中,通用处理器是微处理器等。例如,该处理器1510是中央处理单元(central processing unit,CPU)。
可选地,每个处理器1510包括至少一个处理单元1512和内存控制单元1514。
可选地,处理单元1512也称为核心(core)或内核,是处理器最重要的组成部分。处理单元1512是由单晶硅以一定的生产工艺制造出来的,处理器所有的计算、接受命令、存储命令、处理数据都由核心执行。处理单元分别独立地运行程序指令,利用并行计算的能力加快程序的运行速度。各种处理单元都具有固定的逻辑结构,例如,处理单元包括例如,一级缓存、二级缓存、执行单元、指令级单元和总线接口等逻辑单元。
一种实现举例,内存控制单元1514用于控制存储器1520与处理单元1512之间的数据交互。具体地说,内存控制单元1514从处理单元1512接收内存访问请求,并基于该内存访问请求控制针对内存的访问。作为示例而非限定,内存控制单元是内存管理单元(memorymanagement unit,MMU)等器件。
一种实现举例,各内存控制单元1514通过系统总线进行针对存储器1520的寻址。并且在系统总线中配置仲裁器(图10中未示出),该仲裁器负责处理和协调多个处理单元1512的竞争访问。
一种实现举例,处理单元1512和内存控制单元1514通过芯片内部的连接线,例如地址线,通信连接,从而实现处理单元1512和内存控制单元1514之间的通信。
可选地,每个处理器1510还包括缓存1516,其中,缓存是数据交换的缓冲区(称作cache)。当处理单元1512要读取数据时,会首先从缓存中查找需要的数据,如果找到了则直接执行,找不到的话则从存储器中找。由于缓存的运行速度比存储器快得多,故缓存的作用就是帮助处理单元1512更快地运行。
存储器1520能够为计算设备1500中的进程提供运行空间,例如,存储器1520中保存用于生成进程的计算机程序(具体地说,是程序的代码)。计算机程序被处理器运行而生成进程后,处理器在存储器1520中为该进程分配对应的存储空间。进一步的,上述存储空间进一步包括文本段、初始化数据段、位初始化数据段、栈段、堆段等等。存储器1520在上述进程对应的存储空间中保存进程运行期间产生的数据,例如,中间数据,或过程数据等等。
可选地,存储器也称为内存,其作用是用于暂时存放处理器1510中的运算数据,以及与硬盘等外部存储器交换的数据。只要计算机在运行中,处理器1510就会把需要运算的数据调到内存中进行运算,当运算完成后处理单元1512再将结果传送出来。
作为示例而非限定,存储器1520是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasablePROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DRRAM)。应注意,本文描述的系统和方法的存储器1520旨在包括但不限于这些和任意其它适合类型的存储器。
以上列举的计算设备1500的结构仅为示例性说明,本申请并未限定于此,本申请实施例的计算设备1500包括现有技术中计算机系统中的各种硬件,例如,计算设备1500还包括除存储器1520以外的其他存储器,例如,磁盘存储器等。本领域的技术人员应当理解,计算设备1500还可以包括实现正常运行所必须的其他器件。同时,根据具体需要,本领域的技术人员应当理解,上述计算设备1500还可包括实现其他附加功能的硬件器件。此外,本领域的技术人员应当理解,上述计算设备1500也可仅仅包括实现本申请实施例所必须的器件,而不必包括图10中所示的全部器件。
在一些实施例中,计算设备也可以是台式机、笔记本电脑或者智能手机等终端设备。
本实施例中,还提供了一种包含指令的计算机程序产品,该计算机程序产品可以是包含指令的,能够运行在计算设备上或被储存在任何可用介质中的软件或程序产品。当其在计算设备上运行时,使得计算设备执行上述所提供的方法,或者使得该计算设备实现上述提供的装置的功能。
本实施例中,还提供了一种包含指令的计算机程序产品,该计算机程序产品可以是包含指令的,能够运行在计算设备集群上或被储存在任何可用介质中的软件或程序产品。当其由计算设备集群运行时,使得计算设备集群执行上述所提供的方法,或者使得该计算设备集群实现上述提供的装置的功能。
本实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。该计算机可读存储介质包括指令,当计算机可读存储介质中的指令在计算设备上被执行时,使得计算设备执行上述所提供的方法。
本实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。该计算机可读存储介质包括指令,当计算机可读存储介质中的指令由计算设备集群执行时,使得计算设备集群执行上述所提供的方法。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
该作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
该功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例该方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上该,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以该权利要求的保护范围为准。

Claims (64)

1.一种获得文档认知的方法,其特征在于,所述方法包括:
获得基础事件;
根据所述基础事件和/或所述基础事件的组合,确定认知元,所述认知元包括所述基础事件确定的认知关系信息和所述基础事件确定的认知属性信息;
根据所述认知关系信息和所述认知属性信息确定与所述认知元相关的至少一个认知元集合节点;
根据所述至少一个认知元集合节点,选择性更新所述至少一个认知元集合节点和/或认知元集合节点之间的关系。
2.根据权利要求1所述的方法,其特征在于,所述认知元还包括文档与所述认知元集合节点之间的寻址数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据以下信息中的至少两种确定所述认知属性信息:所述基础事件和/或所述基础事件的组合的应用属性、设备属性、用户属性、路径属性、文档扩展属性、时间属性。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据以下信息中的至少一种确定所述认知关系信息:文档镜像实体维持关系、文档镜像实体改变关系、文档镜像实体衍生关系、文档被网络传输关系。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据以下信息中的至少一种方式存储所述文档与认知元集合节点之间的寻址数据:文档扩展元数据存储所述文档与认知元集合节点之间的寻址数据、预定义数据库或文件存储文档属性与认知元集合节点之间的寻址数据。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述基础事件确定的认知关系信息,有不能积累源文档对应的认知元集合节点认知的风险时,基于目的地文档的位置属性,确定文档扩展属性存储源文档对应的认知元集合节点的寻址数据方法。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述基础事件和/或所述基础事件的组合,确定所述文档镜像实体维持关系的认知元,更新源文档对应的认知元集合节点的认知属性信息。
8.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述基础事件和/或所述基础事件的组合,确定所述文档镜像实体改变关系的认知元,创建新文档镜像的认知和或更新源文档对应的认知元集合节点的认知属性信息。
9.根据权利要求8所述的方法,其特征在于,所述创建的新文档镜像的认知,由源文档镜像的认知和认知元的组合,基于决策所确定。
10.根据权利要求4至9中任一项所述的方法,其特征在于,根据所述至少一个认知元集合节点,选择性更新所述至少一个认知元集合节点的认知属性信息,包括:
根据所述基础事件和/或所述基础事件的组合,确定所述文档镜像实体衍生关系的认知元,并基于决策,选择性更新所述至少一个认知元集合节点的认知属性信息。
11.根据权利要求4至9中任一项所述的方法,其特征在于,所述根据所述至少一个认知元集合节点,选择性更新所述至少一个认知元集合节点,包括:
根据所述基础事件和/或所述基础事件的组合,确定所述文档被网络传输关系的认知元,并基于决策,选择性更新所述至少一个认知元集合节点的认知属性信息。
12.根据权利要求1至9中任一项所述的方法,其特征在于,所述方法还包括:
基于文档镜像实体衍生关系的认知元和文档被网络传输关系的认知元,对一类认知元集合节点进行更新。
13.根据权利要求1至9中任一项所述的方法,其特征在于,所述选择性更新所述至少一个认知元集合节点和/或认知元集合节点之间的关系,包括:
同时更新所述至少一个认知元集合节点和所述认知元集合节点之间的关系,所述认知元集合节点之间的关系包括关系的程度和或关系的方向。
14.根据权利要求4至9中任一项所述的方法,其特征在于,所述方法还包括:
按照认知元集合节点新建类别认知元、认知元集合节点维持类别认知元的顺序,根据认知元集合节点的寻址数据,更新寻址数据确定的认知元集合节点。
15.根据权利要求4至9中任一项所述的方法,其特征在于,所述方法还包括:
如果认知元为认知元集合节点预定义的认知元类别组合中的任一种,根据认知元集合节点的寻址数据,更新寻址数据确定的认知元集合节点。
16.根据权利要求1至9中任一项所述的方法,其特征在于,所述方法应用于对所述文档进行分级分类。
17. 根据权利要求16所述的方法,其特征在于,所述方法还包括:
如果主体属性顺序符合决策,确定第一认知元集合节点为预定义级别类别和或确定与第一认知元集合节点对应的文档为预定义的级别类别;或
如果存储的多个类别认知元的组合符合决策,确定第一认知元集合节点为预定义级别类别和或确定与第一认知元集合节点对应的文档为预定义的级别类别。
18.根据权利要求16所述的方法,其特征在于,所述方法还包括:
如果第一认知元集合节点级别类别改变,并且第一认知元集合节点的级别类别的确定方法为预定义的级别类别确定方法,基于认知元集合节点间关系,更新第二认知元集合节点的级别类别和或所述第二认知元集合节点对应的第二文档的级别类别;
所述第一认知元集合节点的级别类别的确定方法为预定义的级别类别确定方法,根据以下信息中的至少一种确定:认知元集合节点的主体属性顺序符合决策、认知元集合节点存储的多个类别认知元的组合符合决策、人工标记、从第三方应用程序获得的级别类别。
19.根据权利要求16所述的方法,其特征在于,所述方法还包括:
如果第一认知元集合节点级别类别改变,并且第一认知元集合节点的级别类别的确定方法为预定义的级别类别确定方法,基于认知元集合节点间关系,更新第二认知元集合节点的级别类别和或所述第二认知元集合节点对应的第二文档的级别类别,其中,所述第一认知元集合节点的级别类别的确定过程中至少使用了第一类认知属性,所述认知元集合节点间关系的确定过程中至少使用了第二类认知属性。
20.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个认知元集合节点,选择性更新所述至少一个认知元集合节点和/或认知元集合节点之间的关系,包括:
响应于第一认知元集合节点级别类别的改变,改变第二文档或第二认知元集合节点的级别类别。
21.根据权利要求20所述的方法,其特征在于,所述改变第二文档或第二认知元集合节点的级别类别,包括:
通过比较确定所述第一认知元集合节点的认知元类别组合、确定第二认知元集合节点的认知元类别组合,确定所述第二文档或所述第二认知元集合节点的级别类别。
22.根据权利要求19所述的方法,其特征在于,所述基于认知元集合节点间关系,更新第二文档和或第二认知元集合节点的级别类别步骤中,所述认知元集合节点间关系包括关系的程度和或关系的方向。
23.根据权利要求19所述的方法,其特征在于,所述更新第二文档和或第二认知元集合节点的级别类别,包括:
基于所述第一认知元集合节点,确定所述第二文档或所述第二认知元集合节点的级别类别。
24.根据权利要求1至9中任一项所述的方法,其特征在于,所述方法还包括:
基于第一文档与认知元集合节点之间的寻址数据、认知元集合节点认知属性,响应于第一文档的认知元,改变第二文档或第二认知元集合节点的级别类别。
25.根据权利要求1至9中任一项所述的方法,其特征在于,所述方法还包括:
基于第一文档与认知元集合节点之间的寻址数据、认知元集合节点的认知属性、认知元集合节点间关系的程度,响应于第一文档的认知元,改变第二文档或第二认知元集合节点的级别类别。
26.根据权利要求1至9中任一项所述的方法,其特征在于,所述方法还包括:
确定文档的级别类别和文档被网络传输的网络数据的组合,并传输到预定义的网络设备。
27.根据权利要求1至9中任一项所述的方法,其特征在于,所述方法应用于生成文档家族分布图。
28.根据权利要求27所述的方法,其特征在于,所述方法还包括:
基于所述认知元集合节点之间的关系,集合多个不同类别认知元集合节点,生成审计绘图,所述审计绘图用于表示文档在用户设备上的分布。
29.根据权利要求1至9中任一项所述的方法,其特征在于,所述方法应用于控制文档的访问,所述文档的访问,包括打开一个文件,写入文件,删除文件,更改文件权限,改变文件属性,在一个邮件存储打开一个电子邮件消息,在邮件存储在删除电子邮件,从文档管理系统检索文档,存储文档到文档管理系统,或是任何访问文档或文档存储库的行为。
30.根据权利要求29所述的方法,其特征在于,所述方法还包括:
控制文档的访问或使用基于以下三者的组合:基于文档对应的第一认知元集合节点、第一认知元集合节点与第二认知元集合节点之间的关系、第二认知元集合节点的级别类别。
31.根据权利要求30所述的方法,其特征在于,所述第二认知元集合节点的级别类别的确定方法为预定义的级别类别确定方法或者确定第二认知元集合节点为预定义认知元类别的组合。
32.一种获得文档认知的装置,其特征在于,所述装置包括:
获取模块,用于获得基础事件;
处理模块,用于根据所述基础事件和/或所述基础事件的组合,确定认知元,所述认知元包括所述基础事件确定的认知关系信息和所述基础事件确定的认知属性信息;
所述处理模块,还用于根据所述认知关系信息和所述认知属性信息确定与所述认知元相关的至少一个认知元集合节点;
所述处理模块,还用于根据所述至少一个认知元集合节点,选择性更新所述至少一个认知元集合节点和/或认知元集合节点之间的关系。
33.根据权利要求32所述的装置,其特征在于,所述认知元还包括文档与所述认知元集合节点之间的寻址数据。
34.根据权利要求32所述的装置,其特征在于,
所述处理模块,还用于根据以下信息中的至少两种确定所述认知属性信息:所述基础事件和/或所述基础事件的组合的应用属性、设备属性、用户属性、路径属性、文档扩展属性、时间属性。
35.根据权利要求32所述的装置,其特征在于,
所述处理模块,还用于根据以下信息中的至少一种确定所述认知关系信息:文档镜像实体维持关系、文档镜像实体改变关系、文档镜像实体衍生关系、文档被网络传输关系。
36.根据权利要求33所述的装置,其特征在于,
所述处理模块,还用于根据以下信息中的至少一种方式存储所述文档与认知元集合节点之间的寻址数据:文档扩展元数据存储所述文档与认知元集合节点之间的寻址数据、预定义数据库或文件存储文档属性与认知元集合节点之间的寻址数据。
37.根据权利要求36所述的装置,其特征在于,
所述处理模块,还用于根据所述基础事件确定的认知关系信息,有不能积累源文档对应的认知元集合节点认知的风险时,基于目的地文档的位置属性,确定文档扩展属性存储源文档对应的所述认知元集合节点的寻址数据方法。
38.根据权利要求35所述的装置,其特征在于,
所述处理模块,还用于根据所述基础事件和/或所述基础事件的组合,确定所述文档镜像实体维持关系的认知元,更新源文档镜像的认知或者更新源文档对应的认知元集合节点的认知属性信息。
39.根据权利要求35所述的装置,其特征在于,
所述处理模块,还用于根据所述基础事件和/或所述基础事件的组合,确定所述文档镜像实体改变关系的认知元,创建新文档镜像的认知,和或更新源文档对应的认知元集合节点的认知属性信息。
40.根据权利要求39所述的装置,其特征在于,所述创建的新文档镜像的认知,由所述源文档镜像的认知和认知元的组合,基于决策所确定。
41.根据权利要求35至40中任一项所述的装置,其特征在于,所述处理模块具体用于:
根据所述基础事件和/或所述基础事件的组合,确定所述文档镜像实体衍生关系的认知元,并基于决策,选择性更新所述至少一个认知元集合节点的认知属性信息。
42.根据权利要求35至40中任一项所述的装置,其特征在于,所述处理模块具体用于:
根据所述基础事件和/或所述基础事件的组合,确定所述文档被网络传输关系的认知元,并基于决策,选择性更新所述至少一个认知元集合节点的认知属性信息。
43.根据权利要求32至40中任一项所述的装置,其特征在于,
所述处理模块,还用于基于文档镜像实体衍生关系的认知元和文档被网络传输关系的认知元,对一类认知元集合节点进行更新。
44.根据权利要求32至40中任一项所述的装置,其特征在于,所述处理模块具体用于:
同时更新所述至少一个认知元集合节点和所述认知元集合节点之间的关系,所述认知元集合节点之间的关系包括关系的程度和或关系的方向。
45.根据权利要求35至40中任一项所述的装置,其特征在于,
所述处理模块,还用于按照认知元集合节点新建类别认知元、认知元集合节点维持类别认知元的顺序,根据认知元集合节点的寻址数据,更新寻址数据确定的认知元集合节点。
46.根据权利要求35至40中任一项所述的装置,其特征在于,
所述处理模块,还用于如果认知元为认知元集合节点预定义的认知元类别组合中的任一种,根据认知元集合节点的寻址数据,更新寻址数据确定的认知元集合节点。
47.根据权利要求32至40中任一项所述的装置,其特征在于,所述装置应用于对文档进行分级分类。
48. 根据权利要求47所述的装置,其特征在于,
所述处理模块,还用于如果主体属性顺序符合决策,确定第一认知元集合节点为预定义级别类别和或确定与第一认知元集合节点对应的文档为 预定义的级别类别;或
所述处理模块,还用于如果存储的多个类别认知元的组合符合决策,确定第一认知元集合节点为预定义级别类别和或确定与第一认知元集合节点对应的文档为预定义的级别类别。
49.根据权利要求47所述的装置,其特征在于,
所述处理模块,还用于如果第一认知元集合节点级别类别改变,并且第一认知元集合节点的级别类别的确定方法为预定义的级别类别确定方法,基于认知元集合节点间关系,更新第二认知元集合节点的级别类别和或所述第二认知元集合节点对应的第二文档的级别类别;
所述第一认知元集合节点的级别类别的确定方法为预定义的级别类别确定方法,根据以下信息中的至少一种确定:认知元集合节点的主体属性顺序符合决策、认知元集合节点存储的多个类别认知元的组合符合决策、人工标记、从第三方应用程序获得的级别类别。
50.根据权利要求47所述的装置,其特征在于,
所述处理模块,还用于如果第一认知元集合节点级别类别改变,并且第一认知元集合节点的级别类别的确定方法为预定义的级别类别确定方法,基于认知元集合节点间关系,更新第二认知元集合节点的级别类别和或所述第二认知元集合节点对应的第二文档的级别类别,其中,所述第一认知元集合节点的级别类别的确定过程中至少使用了第一类认知属性,所述认知元集合节点间关系的确定过程中至少使用了第二类认知属性。
51.根据权利要求32所述的装置,其特征在于,所述处理模块具体用于:
响应于第一认知元集合节点级别类别的改变,改变第二文档或第二认知元集合节点的级别类别。
52.根据权利要求51所述的装置,其特征在于,所述处理模块具体用于:
通过比较确定所述第一认知元集合节点的认知元类别组合、确定第二认知元集合节点的认知元类别的组合,确定所述第二文档或所述第二认知元集合节点的级别类别。
53.根据权利要求50所述的装置,其特征在于,所述基于认知元集合节点间关系,更新第二文档和或第二认知元集合节点的级别类别步骤中,所述认知元集合节点间关系包括关系的程度和或关系的方向。
54.根据权利要求50所述的装置,其特征在于,所述处理模块具体用于:
基于所述第一认知元集合节点,确定所述第二文档或所述第二认知元集合节点的级别类别。
55.根据权利要求32至40中任一项所述的装置,其特征在于,
所述处理模块,还用于基于第一文档与认知元集合节点之间的寻址数据、认知元集合节点认知属性,响应于第一文档的认知元,改变第二文档或第二认知元集合节点的级别类别。
56.根据权利要求32至40中任一项所述的装置,其特征在于,
所述处理模块,还用于基于第一文档与认知元集合节点之间的寻址数据、认知元集合节点的认知属性、认知元集合节点间关系的程度,响应于第一文档的认知元,改变第二文档或第二认知元集合节点的级别类别。
57.根据权利要求32至40中任一项所述的装置,其特征在于,
所述处理模块,还用于确定文档的级别类别和文档被网络传输的网络数据的组合,并传输到预定义的网络设备。
58.根据权利要求32至40中任一项所述的装置,其特征在于,所述装置应用于生成文档家族分布图。
59.根据权利要求58所述的装置,其特征在于,
所述处理模块,还用于基于所述认知元集合节点之间的关系,集合多个不同类别认知元集合节点,生成审计绘图,所述审计绘图用于表示文档在用户设备上的分布。
60.根据权利要求32至40中任一项所述的装置,其特征在于,所述装置应用于控制文档的访问,所述文档的访问包括打开一个文件,写入文件,删除文件,更改文件权限,改变文件属性,在一个邮件存储打开一个电子邮件消息,在邮件存储在删除电子邮件,从文档管理系统检索文档,存储文档到文档管理系统,或是任何访问文档或文档存储库的行为。
61.根据权利要求60所述的装置,其特征在于,所述控制文档的访问或使用基于以下三者的组合:基于文档对应的第一认知元集合节点、第一认知元集合节点与第二认知元集合节点之间的关系、第二认知元集合节点的级别类别。
62.一种计算设备,其特征在于,包括处理器和存储器,所述处理器用于执行所述存储器中存储的指令,以使得所述计算设备执行如权利要求1至31中任一项所述的方法。
63.一种包含指令的计算机程序产品,其特征在于,当所述指令被计算设备运行时,使得所述计算设备执行如权利要求的1至31中任一项所述的方法。
64.一种计算机可读存储介质,其特征在于,包括计算机程序指令,当所述计算机程序指令由计算设备执行时,所述计算设备执行如权利要求1至31中任一项所述的方法。
CN202310778334.0A 2023-06-29 2023-06-29 获得文档认知的方法、装置以及计算设备 Active CN116541347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310778334.0A CN116541347B (zh) 2023-06-29 2023-06-29 获得文档认知的方法、装置以及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310778334.0A CN116541347B (zh) 2023-06-29 2023-06-29 获得文档认知的方法、装置以及计算设备

Publications (2)

Publication Number Publication Date
CN116541347A true CN116541347A (zh) 2023-08-04
CN116541347B CN116541347B (zh) 2023-12-01

Family

ID=87449090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310778334.0A Active CN116541347B (zh) 2023-06-29 2023-06-29 获得文档认知的方法、装置以及计算设备

Country Status (1)

Country Link
CN (1) CN116541347B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030163449A1 (en) * 2000-06-23 2003-08-28 Yuri Iwano File managing method
CN102799428A (zh) * 2012-06-28 2012-11-28 北京大学 交互式软件中的操作记录与回放方法
CN107085583A (zh) * 2016-10-27 2017-08-22 中国长城科技集团股份有限公司 一种基于内容的电子文档管理方法及装置
CN112732784A (zh) * 2020-12-31 2021-04-30 山东理工大学 基于过程挖掘的在线学习行为模型挖掘系统及其挖掘方法
CN113377850A (zh) * 2021-06-09 2021-09-10 深圳前海墨斯科技有限公司 认知物联网大数据技术平台
CN114564632A (zh) * 2022-02-18 2022-05-31 北京圣博润高新技术股份有限公司 文档操作行为审计方法、装置、电子设备及存储介质
CN114641736A (zh) * 2019-08-30 2022-06-17 第一卫士有限公司 用于通过记录内核级事件增强数据起源的系统和方法
CN114996216A (zh) * 2021-03-01 2022-09-02 北京字跳网络技术有限公司 一种基于树结构的文档处理方法、装置、设备和介质
CN116305275A (zh) * 2023-03-15 2023-06-23 平安壹钱包电子商务有限公司 一种本地文件管理方法、装置、存储介质以及电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030163449A1 (en) * 2000-06-23 2003-08-28 Yuri Iwano File managing method
CN1447939A (zh) * 2000-06-23 2003-10-08 夏普公司 文件管理方法
CN102799428A (zh) * 2012-06-28 2012-11-28 北京大学 交互式软件中的操作记录与回放方法
CN107085583A (zh) * 2016-10-27 2017-08-22 中国长城科技集团股份有限公司 一种基于内容的电子文档管理方法及装置
CN114641736A (zh) * 2019-08-30 2022-06-17 第一卫士有限公司 用于通过记录内核级事件增强数据起源的系统和方法
US20220327219A1 (en) * 2019-08-30 2022-10-13 First Watch Limited Systems and methods for enhancing data provenance by logging kernel-level events
CN112732784A (zh) * 2020-12-31 2021-04-30 山东理工大学 基于过程挖掘的在线学习行为模型挖掘系统及其挖掘方法
CN114996216A (zh) * 2021-03-01 2022-09-02 北京字跳网络技术有限公司 一种基于树结构的文档处理方法、装置、设备和介质
CN113377850A (zh) * 2021-06-09 2021-09-10 深圳前海墨斯科技有限公司 认知物联网大数据技术平台
CN114564632A (zh) * 2022-02-18 2022-05-31 北京圣博润高新技术股份有限公司 文档操作行为审计方法、装置、电子设备及存储介质
CN116305275A (zh) * 2023-03-15 2023-06-23 平安壹钱包电子商务有限公司 一种本地文件管理方法、装置、存储介质以及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TENG LI等: "T-trace: Constructing the APTs Provenance Graphs through Multiple Syslogs Correlation", 《IEEE TRANSACTIONS ON DEPENDABLE AND SECURE COMPUTING》 *
陈欣: "文档操作状态跟踪系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑 (月刊)》, no. 2020 *

Also Published As

Publication number Publication date
CN116541347B (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
US11777945B1 (en) Predicting suspiciousness of access between entities and resources
US12095778B2 (en) Streaming and filtering event objects into a data lake
JP6797290B2 (ja) メッセージングサービス向けのコンテンツ管理機能
Giudice et al. A classification engine for image ballistics of social data
RU2646334C2 (ru) Управление файлами с помощью заполнителей
JP5057640B2 (ja) アプリケーションファイルの監視・制御システム及び監視・制御方法
US20160330256A1 (en) Streaming content and placeholders
EP3133507A1 (en) Context-based data classification
US20070016575A1 (en) Consolidating local and remote taxonomies
US9614826B1 (en) Sensitive data protection
US8615477B2 (en) Monitoring relationships between digital items on a computing apparatus
US8423550B2 (en) Storage medium for electronic information processing program, electronic information processing system, and electronic information processing method
WO2013145125A1 (ja) コンピュータシステム及びセキュリティ管理方法
US20160191432A1 (en) Secure conversation and document binder
US11966462B2 (en) Malicious dependency prevention
WO2023064007A1 (en) Augmented threat investigation
US20230315846A1 (en) System and method for detecting leaked documents on a computer network
US20060206501A1 (en) Integration of annotations to dynamic data sets
Breitinger et al. DFRWS EU 10-year review and future directions in Digital Forensic Research
Raghavan et al. Eliciting file relationships using metadata based associations for digital forensics
CN116541347B (zh) 获得文档认知的方法、装置以及计算设备
US20150286808A1 (en) Marked image file security system and process
US20150286651A1 (en) Marked image file security system and process
US12132745B2 (en) Composite threat score
US12132746B2 (en) Incremental enrichment of threat data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant