CN111309683A - 扫描全盘数据的方法及装置 - Google Patents
扫描全盘数据的方法及装置 Download PDFInfo
- Publication number
- CN111309683A CN111309683A CN202010082771.5A CN202010082771A CN111309683A CN 111309683 A CN111309683 A CN 111309683A CN 202010082771 A CN202010082771 A CN 202010082771A CN 111309683 A CN111309683 A CN 111309683A
- Authority
- CN
- China
- Prior art keywords
- scanning
- text
- layer
- text object
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种扫描全盘数据的方法及装置。其中,该方法包括:对扫描文件进行格式转换,得到文本对象;对上述文本对象进行文本对象化分层,其中,上述文本对象化分层用于将上述文本对象构建为单层的文本对象,得到上述文本对象的多个对象层;基于上述扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果。本发明解决了现有技术的终端数据防泄漏系统中普遍采用全盘敏感数据扫描方式,由于该扫描方式效率低且协同能力差,导致识别数据速率慢的技术问题。
Description
技术领域
本发明涉及数据安全领域,具体而言,涉及一种扫描全盘数据的方法及装置。
背景技术
目前,终端数据防泄漏系统,作为传统、成熟的数据安全工具,也逐渐跟随市场需求,慢慢向智能化、协同化的方向发展,以实现更高的保护效率与更好的防护效果。成熟的终端数据防泄漏系统中均应用了全盘敏感数据扫描功能,提前对本地数据进行敏感属性识别,降低实时扫描造成的传输或应用延迟,优化用户的使用感受。现有终端数据防泄漏系统全盘敏感数据扫描功能的执行流程如图1所示,区别于网关式敏感数据扫描,终端数据防泄漏系统中的全盘扫描方式基本均在本地执行,依托终端的本地计算能力,在闲时进行数据识别与标记,从而避免影响用户的正常使用。
但是,现在应用的全盘敏感数据扫描方法存在一些缺陷,限制了扫描效率,对全盘扫描这种数据量非常大的识别流程造成了速度损失。第一点,目前的方法均针对完整文件进行扫描识别,并依靠文件哈希、修改时间等一些对象元数据进行索引,避免对相同文件进行二次扫描,从而形成类似扫描文件索引的机制,通过筛选扫描文件的方式提高了全盘扫描的速度。但该方式对具有历史记录的文件修改或相似文件不具有完善的索引识别能力,即索引元数据无法有效过滤这部分文件,全盘扫描时依然会扫描这部分文件内容,一定程度影响了扫描速度。第二点,终端间扫描结果的共享能力及扫描算力的协同能力较差。扫描结果共享仅针对一些静态的扫描文件开展,未能对一些内容动态变化的对象扫描结果进行更有效率的全局性共享。同时,考虑终端间可用算力与可扫描闲时的区别,目前使用的全盘扫描方法没有很好地利用终端间的协同能力,形成互帮互助的效果。因此,目前终端数据防泄漏系统中,针对全盘敏感数据扫描的协同能力总体而言是相对较差的,没有发挥终端的整体能力。
综合上述两点,现有的终端数据防泄漏系统中的全盘敏感数据扫描功能在部分指标,尤其是扫描速度指标上依然存在不足,特别是在全盘存在大量扫描文件的情况下,全盘扫描速度不理想,直接或间接影响了用户的正常使用,一定程度降低了使用感受,制约了生产力的持续提高,也在潜移默化中影响了数据安全防护工作的有效开展,较低的扫描效率可能导致用户产生抵触心理,影响数据防泄漏系统正常发挥效用。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种扫描全盘数据的方法及装置,以至少解决现有技术的终端数据防泄漏系统中普遍采用全盘敏感数据扫描方式,由于该扫描方式效率低且协同能力差,导致识别数据速率慢的技术问题。
根据本发明实施例的一个方面,提供了一种扫描全盘数据的方法,包括:对扫描文件进行格式转换,得到文本对象;对上述文本对象进行文本对象化分层,其中,上述文本对象化分层用于将上述文本对象构建为单层的文本对象,得到上述文本对象的多个对象层;基于上述扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果。
可选地,对扫描文件进行格式转换,得到文本对象,包括:识别上述扫描文件的格式;将上述扫描文件的格式转换为文本格式,得到上述文本对象。
可选地,对上述文本对象进行文本对象化分层,包括:获取上述文本对象的元数据信息;使用上述文本对象的元数据信息查找文件索引,获取上述文本对象的层信息以及扫描上述文本对象得到的扫描结果;基于上述文本对象的层信息分析上述文本对象,获取修改后的文本对象的对象层。
可选地,使用上述文本对象的元数据信息查找文件索引,获取上述文本对象的层信息以及扫描上述文本对象得到的扫描结果,包括:基于上述文本对象的元数据信息,查找是否存在与上述文本对象关联的层信息,其中,上述层信息为上述文本对象的历史文本对象层;若存在与上述文本对象关联的层信息,确定历史文本内容与当前的上述扫描文件的文本内容是否存在区别;若不存在与上述文本对象关联的层信息,或上述历史文本内容与当前的上述扫描文件的文本内容的区别内容超过预定范围,则确定上述扫描文件为一层。
可选地,如果上述历史文本内容与当前的上述扫描文件的文本内容的区别内容没有超过预定范围,确定上述区别内容为一层。
可选地,基于扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果,包括:基于上述扫描文件的元数据执行相似度算法,得到计算结果;基于上述计算结果,确定在上述多个对象层中存在变化的对象层中是否命中与上述扫描文件匹配的结果,得到上述扫描结果。
可选地,基于上述扫描文件的元数据执行相似度算法,得到计算结果,包括:基于上述相似度算法,对上述对象层包含的文本内容进行计算,获得对象层指纹;基于上述计算结果,确定在上述多个对象层中存在变化的对象层中是否命中与上述扫描文件匹配的结果,得到上述扫描结果,包括:基于全局对象层指纹索引,对上述对象层指纹进行匹配,在命中的情况下执行关键字匹配算法生成上述扫描结果。
可选地,在基于扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果之后,上述方法还包括:将对象层的上述扫描结果分发至分组内其他终端,并不断整合形成全局的扫描结果进行共享;将分层的文本对象层整合为单对象层,并在此基础上整合扫描结果并重新发布。
根据本发明实施例的另一方面,还提供了一种扫描全盘数据的装置,包括:转换模块,用于对扫描文件进行格式转换,得到文本对象;分层处理模块,用于对上述文本对象进行文本对象化分层,其中,上述文本对象化分层用于将上述文本对象构建为单层的文本对象,得到上述文本对象的多个对象层;扫描模块,用于基于上述扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果。
可选地,上述转换模块包括:识别模块,用于识别上述扫描文件的格式;格式转换模块,用于将上述扫描文件的格式转换为文本格式,得到上述文本对象。
可选地,上述分层处理模块包括:获取模块,用于获取上述文本对象的元数据信息;查找模块,用于使用上述文本对象的元数据信息查找文件索引,获取上述文本对象的层信息以及扫描上述文本对象得到的扫描结果;分析模块,用于基于上述文本对象的层信息分析上述文本对象,获取修改后的文本对象的对象层。
可选地,上述扫描模块包括:查找模块,用于基于上述文本对象的元数据信息,查找是否存在与上述文本对象关联的层信息,其中,上述层信息为上述文本对象的历史文本对象层;第一确定模块,用于若存在与上述文本对象关联的层信息,确定历史文本内容与当前的上述扫描文件的文本内容是否存在区别;第二确定模块,用于若不存在与上述文本对象关联的层信息,或上述历史文本内容与当前的上述扫描文件的文本内容的区别内容超过预定范围,则确定上述扫描文件为一层。
可选地,上述装置还包括:第三确定模块,用于如果上述历史文本内容与当前的上述扫描文件的文本内容的区别内容没有超过预定范围,确定上述区别内容为一层。
可选地,上述扫描模块包括:计算模块,用于基于上述扫描文件的元数据执行相似度算法,得到计算结果;匹配模块,用于基于上述计算结果,确定在上述多个对象层中存在变化的对象层中是否命中与上述扫描文件匹配的结果,得到上述扫描结果。
可选地,上述装置还包括:分发模块,用于将对象层的上述扫描结果分发至分组内其他终端,并不断整合形成全局的扫描结果进行共享;整合处理模块,用于将分层的文本对象层整合为单对象层,并在此基础上整合扫描结果并重新发布。
根据本发明实施例的另一方面,还提供了一种存储介质,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行任意一项上述扫描全盘数据的方法。
根据本发明实施例的另一方面,还提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行任意一项上述扫描全盘数据的方法。
在本发明实施例中,通过对扫描文件进行格式转换,得到文本对象;对上述文本对象进行文本对象化分层,其中,上述文本对象化分层用于将上述文本对象构建为单层的文本对象,得到上述文本对象的多个对象层;基于上述扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果,达到了提高全盘数据的扫描效率和协同能力的目的,从而实现了提升终端数据防泄漏系统的数据识别速率的技术效果,进而解决了现有技术的终端数据防泄漏系统中普遍采用全盘敏感数据扫描方式,由于该扫描方式效率低且协同能力差,导致识别数据速率慢技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据现有技术的一种终端数据防泄漏系统执行全盘敏感数据扫描功能的流程示意图;
图2是根据本发明实施例的一种扫描全盘数据的方法的流程图;
图3是根据本发明实施例的一种可选的扫描全盘数据的方法的流程图;
图4是根据本发明实施例的一种可选的扫描全盘数据的方法的流程图;
图5是根据本发明实施例的一种可选的全盘敏感数据扫描子系统的结构示意图;
图6是根据本发明实施例的一种可选的扫描文件文本对象层的结构示意图;
图7是根据本发明实施例的一种可选的终端数据防泄漏系统的结构示意图;
图8是根据本发明实施例的一种扫描全盘数据的装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种扫描全盘数据的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本发明实施例的一种扫描全盘数据的方法的流程图,如图2所示,该方法包括如下步骤:
步骤S102,对扫描文件进行格式转换,得到文本对象;
步骤S104,对上述文本对象进行文本对象化分层,其中,上述文本对象化分层用于将上述文本对象构建为单层的文本对象,得到上述文本对象的多个对象层;
步骤S106,基于上述扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果。
在本发明实施例中,通过对扫描文件进行格式转换,得到文本对象;对上述文本对象进行文本对象化分层,其中,上述文本对象化分层用于将上述文本对象构建为单层的文本对象,得到上述文本对象的多个对象层;基于上述扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果,达到了提高全盘数据的扫描效率和协同能力的目的,从而实现了提升终端数据防泄漏系统的数据识别速率的技术效果,进而解决了现有技术的终端数据防泄漏系统中普遍采用全盘敏感数据扫描方式,由于该扫描方式效率低且协同能力差,导致识别数据速率慢技术问题。
本申请实施例所提供的扫描全盘数据的方法,可以但不限于应用在基于终端数据防泄漏系统中,还可以应用于部署有终端数据防泄漏系统的PC终端(即数据防泄漏终端),其中,该终端数据防泄漏系统具备全盘敏感数据扫描功能。具体的,该扫描全盘数据的方法即为基于数据文本化对象分层、终端间智能协同共享与扫描的一种全盘敏感数据扫描方法,本申请实施例基于扫描文件、扫描过程两个核心的维度出发,优化扫描文件的数据量,提高终端的协同能力,以提高全盘敏感数据的扫描效率,优化数据防泄漏的核心功能。
可选的,上述扫描文件为内容可分割类型文件,在一种可选的实施例中,在获取扫描文件之后,通过识别该扫描文件的格式,将该扫描文件的格式转换为文本格式,得到文本对象,可选的,该扫描文件包括但不限于为:办公类文件(Microsoft Office、WPS)、文本类文件(PDF、XML、CSV)及压缩类文件(RAR、ZIP、7Z、TAR)等。
可选的,上述扫描对象的元数据信息可以为:文件哈希值、文件类型、文件所有者、文件修改时间、文件路径及文件大小等信息。
在得到该文本对象之后,可以将上述文本对象化分层用于将上述文本对象构建为单层的文本对象,得到上述文本对象的多个对象层;具体的,通过获取该文本对象的元数据信息,使用上述文本对象的元数据信息查找文件索引,获取上述文本对象的层信息以及扫描上述文本对象得到的扫描结果;基于上述文本对象的层信息分析上述文本对象,获取修改后的文本对象的对象层;并基于上述扫描文件的元数据执行相似度算法,得到计算结果;再基于上述计算结果,确定在上述多个对象层中存在变化的对象层中是否命中与上述扫描文件匹配的结果,得到上述扫描结果。
可选的,上述文本对象的元数据信息可以为:文件哈希值、文件类型、文件所有者、文件修改时间、文件路径及文件大小等信息。
可选的,上述相似度算法包括但不限于为:SimHash算法、Word2Vec及词向量类算法。
可选的,上述扫描结果包括对象层指纹、命中关键字、命中次数、快照等。
在一种可选的实施例中,对扫描文件进行格式转换,得到文本对象,包括:
步骤S202,识别上述扫描文件的格式;
步骤S204,将上述扫描文件的格式转换为文本格式,得到上述文本对象。
可选的,上述扫描文件为内容可分割类型文件,在一种可选的实施例中,在获取扫描文件之后,通过识别该扫描文件的格式,将该扫描文件的格式转换为文本格式,得到文本对象,可选的,该文本对象包括但不限于为:办公类文档(Microsoft Office、WPS)、文本类文档(PDF、XML、CSV)及压缩类文档(RAR、ZIP、7Z、TAR等)。
在一种可选的实施例中,图3是根据本发明实施例的一种可选的扫描全盘数据的方法的流程图,如图3所示,上述步骤S104,对上述文本对象进行文本对象化分层,包括:
步骤S302,获取上述文本对象的元数据信息;
步骤S304,使用上述文本对象的元数据信息查找文件索引,获取上述文本对象的层信息以及扫描上述文本对象得到的扫描结果;
步骤S306,基于上述文本对象的层信息分析上述文本对象,获取修改后的文本对象的对象层。
在得到该文本对象之后,可以将上述文本对象化分层用于将上述文本对象构建为单层的文本对象,得到上述文本对象的多个对象层;具体的,通过获取该文本对象的元数据信息,使用上述文本对象的元数据信息查找文件索引,获取上述文本对象的层信息以及扫描上述文本对象得到的扫描结果;基于上述文本对象的层信息分析上述文本对象,获取修改后的文本对象的对象层。
可选的,上述文本对象的元数据信息可以为:文件哈希值、文件类型、文件所有者、文件修改时间、文件路径及文件大小等信息。
在一种可选的实施例中,如图3所示,上述步骤S304,使用上述文本对象的元数据信息查找文件索引,获取上述文本对象的层信息以及扫描上述文本对象得到的扫描结果,包括:
步骤S402,基于上述文本对象的元数据信息,查找是否存在与上述文本对象关联的层信息,其中,上述层信息为上述文本对象的历史文本对象层;
步骤S404,若存在与上述文本对象关联的层信息,确定历史文本内容与当前的上述扫描文件的文本内容是否存在区别;
步骤S406,若不存在与上述文本对象关联的层信息,或上述历史文本内容与当前的上述扫描文件的文本内容的区别内容超过预定范围,则确定上述扫描文件为一层。
在一种可选的实施例中,如果上述历史文本内容与当前的上述扫描文件的文本内容的区别内容没有超过预定范围,确定上述区别内容为一层。
在本申请实施例中,基于上述文本对象的元数据信息,查找是否存在与上述文本对象关联的层信息,其中,上述层信息为上述文本对象的历史文本对象层;若存在与上述文本对象关联的层信息,确定历史文本内容与当前的上述扫描文件的文本内容是否存在区别;若不存在与上述文本对象关联的层信息,或上述历史文本内容与当前的上述扫描文件的文本内容的区别内容超过预定范围,则确定上述扫描文件为一层;如果上述历史文本内容与当前的上述扫描文件的文本内容的区别内容没有超过预定范围,确定上述区别内容为一层。
在一种可选的实施例中,仍如图3所示,上述步骤S106,基于扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果,包括:
步骤S502,基于上述扫描文件的元数据执行相似度算法,得到计算结果;
步骤S504,基于上述计算结果,确定在上述多个对象层中存在变化的对象层中是否命中与上述扫描文件匹配的结果,得到上述扫描结果。
在一种可选的实施例中,基于上述扫描文件的元数据执行相似度算法,得到计算结果,包括:基于上述相似度算法,对上述对象层包含的文本内容进行计算,获得对象层指纹;基于上述计算结果,确定在上述多个对象层中存在变化的对象层中是否命中与上述扫描文件匹配的结果,得到上述扫描结果,包括:基于全局对象层指纹索引,对上述对象层指纹进行匹配,在命中的情况下执行关键字匹配算法生成上述扫描结果。
作为一种可选的实施例,本申请实施例通过基于相似度算法对该对象层包含文本内容计算,获得对象层指纹;并基于全局对象层指纹索引,对上述对象层指纹进行匹配,确认是否命中;并在命中的情况下执行关键字匹配算法生成上述扫描结果。
另外,本申请实施例中,通过查询有限分组内终端全盘扫描子系统的系统状态,根据该终端全盘扫描子系统的系统状态,确定是否调度该指纹扫描操作至合适的其他终端全盘扫描子系统上。
可选的,可以但不限于基于网络架构自动形成上述有限分组,也可通过管理系统指定属性形成上述有限分组,该有限分组可以为部门、IP地址段等。
可选的,上述终端全盘扫描子系统的系统状态包括但不限于为以下至少之一:CPU指标、内存指标、网络通信指标、任务列表指标等。
在一种可选的实施例中,如图4所示,在步骤S106之后,即在基于扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果之后,上述方法还包括:
步骤S602,将对象层的上述扫描结果分发至分组内其他终端,并不断整合形成全局的扫描结果进行共享;
步骤S604,将分层的文本对象层整合为单对象层,并在此基础上整合扫描结果并重新发布。
在上述可选的实施例中,在得到扫描结果之后还可以发布扫描结果,将对象层指纹扫描结果分发至有限分组内其他终端,例如,终端全盘扫描子系统,并不断整合形成全局的扫描结果进行共享;并且,在存在归置需求的情况下,将分层的文本对象层整合为单对象层,确定参与构建单层的文本对象层列表;将参与前述构建的文本对象层列表扫描结果合并,并保留单层对象,删除其他所有历史文本对象层;并在此基础上整合扫描结果并重新向其他终端推送发布单层的扫描结果。
本申请实施例还提供了一种全盘敏感数据扫描子系统的实施例,该全盘敏感数据扫描子系统应用于终端数据防泄漏终端,图5是根据本发明实施例的一种可选的全盘敏感数据扫描子系统的结构示意图,如图5所示,该全盘敏感数据扫描子系统包括:文本对象转换模块、文本对象构建模块、对象层指纹计算模块、对象层指纹扫描模块、对象层扫描调度模块、扫描结果收集模块、扫描结果发布模块、文本对象层归置模块,其中:
文本对象转换模块,将支持的扫描文件的格式转换为纯文本对象;文本对象构建模块,基于扫描文件元数据,查找元数据索引定位,获得扫描文件已有的历史文本对象层及相应扫描结果;对象层指纹计算模块,基于输入的文本对象层,利用文本相似度算法进行对象层指纹计算操作;对象层指纹扫描模块,基于已有的全局对象层扫描结果及原始对象指纹进行指纹对比,判断是否命中已有结果或原始对象;对象层扫描调度模块,根据本地扫描任务状态,结合收集的其他终端扫描子系统状态,实时调度对象层指纹扫描操作终端;扫描结果收集模块,从本地扫描执行模块或其他终端扫描执行模块收集扫描结果并进行关联存储;扫描结果发布模块,向有限分组内其他终端推送发布本地扫描结果,同时,接收其他终端发布的扫描结果并整合;文本对象层归置模块,根据需求,将分层的文本对象整合为单个文本对象层,同时,整合原有对象层的扫描结果并通知扫描结果发布模块重新发布。
采用本申请实施例所提供的技术方案,终端数据防泄漏终端对转换的扫描文件进行文本对象化分层,基于文件对象的元数据,仅扫描存在变化的对象层,减少了需要扫描的数据量;同时,基于终端间智能协同机制,高效共享各对象层的扫描结果,避免有限分组内终端重复扫描相同数据;最后,基于终端状态,实时判断扫描执行终端,在较低的通信开销的前提下,确保空闲算力不浪费。通过本申请实施例,减少了全盘敏感数据扫描的对象数量与内容,相应提高了扫描速度,最终确保了全盘敏感数据扫描功能的有效性。
图6是根据本发明实施例的一种可选的扫描文件文本对象层的结构示意图,如图6所示,该示例中的扫描对象为.DOCX文档,经过多次编辑修改,经过文本转换后多次修改结果文本历史分别存储为关联的文本对象层。同时,经过多次扫描后产生的扫描结果和指纹也形成层级关系。
作为一种可选的实施例,若某小型银行客户已在部署的终端数据防泄漏系统中升级并应用基于本申请实施例中所提出的全盘敏感数据扫描子系统,并在部分分支机构开启终端协同功能,且该子系统完全基于PC终端,图7是根据本发明实施例的一种可选的终端数据防泄漏系统的结构示意图,如图7所示,该终端数据防泄漏系统包括:数据防泄漏系统服务器,与该数据防泄漏系统服务器连接的未启用终端协同模式终端,与该数据防泄漏系统服务器连接的终端协同有限分组终端,可选的,上述终端协同有限分组终端包括多个数据防泄漏系统终端,上述未启用终端协同模式终端也是数据防泄漏系统终端,其中,上述数据防泄漏系统终端包括:其他子系统和全盘敏感数据扫描子系统。
通过扫描文件文本对象化分层及终端间扫描结果与扫描算力的共享,实现了一定程度的全盘协同扫描方式。在该客户处部署的全盘敏感数据扫描子系统工作正常,并已与未应用本发明实施例的全盘敏感数据扫描子系统作性能对比,则结果显示:扫描准确性基本相同;本发明实施例中的子系统速度优于原子系统30%左右,且在部分场景,尤其是全盘文件较多,终端内、终端间相似文件较多的场景下,本申请实施例的度优势更加明显,仍需要说明的是,本申请实施例更加适用于批量化全盘扫描功能,针对实时扫描功能会影响扫描性能占用后者的扫描资源。
采用本申请技术方案,终端数据防泄漏系统仅需对全盘敏感数据扫描子系统进行升级,并在管理平台开启终端智能协同功能,从而使可限定终端间共享个体扫描结果作为全局索引,同时,针对大尺寸的文件,可将转换后的文本对象分层分布至具有空闲算力的其他终端全盘扫描子系统进行扫描,以分布式并行的方法实现多流水线作业,最终实现有效、快速的全盘敏感数据扫描,并且,在特定适用场景下,基于本发明实现的扫描子系统可获得一定程度的扫描速度提升。
实施例2
根据本发明实施例,还提供了一种用于实施上述扫描全盘数据的方法的装置实施例,图8是根据本发明实施例的一种扫描全盘数据的装置的结构示意图,如图8所示,上述扫描全盘数据的装置,包括:转换模块80、分层处理模块82和扫描模块84,其中:
转换模块80,用于对扫描文件进行格式转换,得到文本对象;分层处理模块82,用于对上述文本对象进行文本对象化分层,其中,上述文本对象化分层用于将上述文本对象构建为单层的文本对象,得到上述文本对象的多个对象层;扫描模块84,用于基于上述扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;或者,上述各个模块以任意组合的方式位于不同的处理器中。
此处需要说明的是,上述转换模块80、分层处理模块82和扫描模块84对应于实施例1中的步骤S102至步骤S106,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在计算机终端中。
在一种可选的实施例中,上述转换模块包括:识别模块,用于识别上述扫描文件的格式;格式转换模块,用于将上述扫描文件的格式转换为文本格式,得到上述文本对象。
在一种可选的实施例中,上述分层处理模块包括:获取模块,用于获取上述文本对象的元数据信息;查找模块,用于使用上述文本对象的元数据信息查找文件索引,获取上述文本对象的层信息以及扫描上述文本对象得到的扫描结果;分析模块,用于基于上述文本对象的层信息分析上述文本对象,获取修改后的文本对象的对象层。
在一种可选的实施例中,上述扫描模块包括:查找模块,用于基于上述文本对象的元数据信息,查找是否存在与上述文本对象关联的层信息,其中,上述层信息为上述文本对象的历史文本对象层;第一确定模块,用于若存在与上述文本对象关联的层信息,确定历史文本内容与当前的上述扫描文件的文本内容是否存在区别;第二确定模块,用于若不存在与上述文本对象关联的层信息,或上述历史文本内容与当前的上述扫描文件的文本内容的区别内容超过预定范围,则确定上述扫描文件为一层。
在一种可选的实施例中,上述装置还包括:第三确定模块,用于如果上述历史文本内容与当前的上述扫描文件的文本内容的区别内容没有超过预定范围,确定上述区别内容为一层。
在一种可选的实施例中,上述扫描模块包括:计算模块,用于基于上述扫描文件的元数据执行相似度算法,得到计算结果;匹配模块,用于基于上述计算结果,确定在上述多个对象层中存在变化的对象层中是否命中与上述扫描文件匹配的结果,得到上述扫描结果。
在一种可选的实施例中,上述装置还包括:分发模块,用于将对象层的上述扫描结果分发至分组内其他终端,并不断整合形成全局的扫描结果进行共享;整合处理模块,用于将分层的文本对象层整合为单对象层,并在此基础上整合扫描结果并重新发布。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
上述的扫描全盘数据的装置还可以包括处理器和存储器,上述转换模块80、分层处理模块82和扫描模块84等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元,上述内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本申请实施例,还提供了一种存储介质实施例。可选地,在本实施例中,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行上述任意一种扫描全盘数据的方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中,上述存储介质包括存储的程序。
可选地,在程序运行时控制存储介质所在设备执行以下功能:对扫描文件进行格式转换,得到文本对象;对上述文本对象进行文本对象化分层,其中,上述文本对象化分层用于将上述文本对象构建为单层的文本对象,得到上述文本对象的多个对象层;基于上述扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果。
根据本申请实施例,还提供了一种处理器实施例。可选地,在本实施例中,上述处理器用于运行程序,其中,上述程序运行时执行上述任意一种扫描全盘数据的方法。
本申请实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:对扫描文件进行格式转换,得到文本对象;对上述文本对象进行文本对象化分层,其中,上述文本对象化分层用于将上述文本对象构建为单层的文本对象,得到上述文本对象的多个对象层;基于上述扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:对扫描文件进行格式转换,得到文本对象;对上述文本对象进行文本对象化分层,其中,上述文本对象化分层用于将上述文本对象构建为单层的文本对象,得到上述文本对象的多个对象层;基于上述扫描文件的元数据,扫描上述多个对象层中存在变化的对象层,得到扫描结果。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (17)
1.一种扫描全盘数据的方法,其特征在于,包括:
对扫描文件进行格式转换,得到文本对象;
对所述文本对象进行文本对象化分层,其中,所述文本对象化分层用于将所述文本对象构建为单层的文本对象,得到所述文本对象的多个对象层;
基于所述扫描文件的元数据,扫描所述多个对象层中存在变化的对象层,得到扫描结果。
2.根据权利要求1所述的方法,其特征在于,对扫描文件进行格式转换,得到文本对象,包括:
识别所述扫描文件的格式;
将所述扫描文件的格式转换为文本格式,得到所述文本对象。
3.根据权利要求2所述的方法,其特征在于,对所述文本对象进行文本对象化分层,包括:
获取所述文本对象的元数据信息;
使用所述文本对象的元数据信息查找文件索引,获取所述文本对象的层信息以及扫描所述文本对象得到的扫描结果;
基于所述文本对象的层信息分析所述文本对象,获取修改后的文本对象的对象层。
4.根据权利要求3所述的方法,其特征在于,使用所述文本对象的元数据信息查找文件索引,获取所述文本对象的层信息以及扫描所述文本对象得到的扫描结果,包括:
基于所述文本对象的元数据信息,查找是否存在与所述文本对象关联的层信息,其中,所述层信息为所述文本对象的历史文本对象层;
若存在与所述文本对象关联的层信息,确定历史文本内容与当前的所述扫描文件的文本内容是否存在区别;
若不存在与所述文本对象关联的层信息,或所述历史文本内容与当前的所述扫描文件的文本内容的区别内容超过预定范围,则确定所述扫描文件为一层。
5.根据权利要求4所述的方法,其特征在于,如果所述历史文本内容与当前的所述扫描文件的文本内容的区别内容没有超过预定范围,确定所述区别内容为一层。
6.根据权利要求1-5中任意一项所述的方法,其特征在于,基于扫描文件的元数据,扫描所述多个对象层中存在变化的对象层,得到扫描结果,包括:
基于所述扫描文件的元数据执行相似度算法,得到计算结果;
基于所述计算结果,确定在所述多个对象层中存在变化的对象层中是否命中与所述扫描文件匹配的结果,得到所述扫描结果。
7.根据权利要求6所述的方法,其特征在于,
基于所述扫描文件的元数据执行相似度算法,得到计算结果,包括:基于所述相似度算法,对所述对象层包含的文本内容进行计算,获得对象层指纹;
基于所述计算结果,确定在所述多个对象层中存在变化的对象层中是否命中与所述扫描文件匹配的结果,得到所述扫描结果,包括:基于全局对象层指纹索引,对所述对象层指纹进行匹配,在命中的情况下执行关键字匹配算法生成所述扫描结果。
8.根据权利要求1所述的方法,其特征在于,在基于扫描文件的元数据,扫描所述多个对象层中存在变化的对象层,得到扫描结果之后,所述方法还包括:
将对象层的所述扫描结果分发至分组内其他终端,并不断整合形成全局的扫描结果进行共享;
将分层的文本对象层整合为单对象层,并在此基础上整合扫描结果并重新发布。
9.一种扫描全盘数据的装置,其特征在于,包括:
转换模块,用于对扫描文件进行格式转换,得到文本对象;
分层处理模块,用于对所述文本对象进行文本对象化分层,其中,所述文本对象化分层用于将所述文本对象构建为单层的文本对象,得到所述文本对象的多个对象层;
扫描模块,用于基于所述扫描文件的元数据,扫描所述多个对象层中存在变化的对象层,得到扫描结果。
10.根据权利要求9所述的装置,其特征在于,所述转换模块包括:
识别模块,用于识别所述扫描文件的格式;
格式转换模块,用于将所述扫描文件的格式转换为文本格式,得到所述文本对象。
11.根据权利要求10所述的装置,其特征在于,所述分层处理模块包括:
获取模块,用于获取所述文本对象的元数据信息;
查找模块,用于使用所述文本对象的元数据信息查找文件索引,获取所述文本对象的层信息以及扫描所述文本对象得到的扫描结果;
分析模块,用于基于所述文本对象的层信息分析所述文本对象,获取修改后的文本对象的对象层。
12.根据权利要求11所述的装置,其特征在于,所述扫描模块包括:
查找模块,用于基于所述文本对象的元数据信息,查找是否存在与所述文本对象关联的层信息,其中,所述层信息为所述文本对象的历史文本对象层;
第一确定模块,用于若存在与所述文本对象关联的层信息,确定历史文本内容与当前的所述扫描文件的文本内容是否存在区别;
第二确定模块,用于若不存在与所述文本对象关联的层信息,或所述历史文本内容与当前的所述扫描文件的文本内容的区别内容超过预定范围,则确定所述扫描文件为一层。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:第三确定模块,用于如果所述历史文本内容与当前的所述扫描文件的文本内容的区别内容没有超过预定范围,确定所述区别内容为一层。
14.根据权利要求9-13中任意一项所述的装置,其特征在于,所述扫描模块包括:
计算模块,用于基于所述扫描文件的元数据执行相似度算法,得到计算结果;
匹配模块,用于基于所述计算结果,确定在所述多个对象层中存在变化的对象层中是否命中与所述扫描文件匹配的结果,得到所述扫描结果。
15.根据权利要求9述的装置,其特征在于,所述装置还包括:
分发模块,用于将对象层的所述扫描结果分发至分组内其他终端,并不断整合形成全局的扫描结果进行共享;
整合处理模块,用于将分层的文本对象层整合为单对象层,并在此基础上整合扫描结果并重新发布。
16.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述的扫描全盘数据的方法。
17.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的扫描全盘数据的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010082771.5A CN111309683B (zh) | 2020-02-07 | 2020-02-07 | 扫描全盘数据的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010082771.5A CN111309683B (zh) | 2020-02-07 | 2020-02-07 | 扫描全盘数据的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111309683A true CN111309683A (zh) | 2020-06-19 |
CN111309683B CN111309683B (zh) | 2023-04-14 |
Family
ID=71150831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010082771.5A Active CN111309683B (zh) | 2020-02-07 | 2020-02-07 | 扫描全盘数据的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111309683B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819592A (zh) * | 2012-08-08 | 2012-12-12 | 河海大学 | 一种基于Lucene的桌面搜索系统及方法 |
US20130104191A1 (en) * | 2002-10-30 | 2013-04-25 | Portauthority Technologies Inc. | Method and system for managing confidential information |
US8572758B1 (en) * | 2009-03-30 | 2013-10-29 | Symantec Corporation | DLP-enforced loss scanning, sequestering, and content indexing |
US8949371B1 (en) * | 2011-09-29 | 2015-02-03 | Symantec Corporation | Time and space efficient method and system for detecting structured data in free text |
CN108009430A (zh) * | 2017-12-22 | 2018-05-08 | 北京明朝万达科技股份有限公司 | 一种敏感数据快速扫描方法及装置 |
CN108734149A (zh) * | 2018-05-29 | 2018-11-02 | 阿里巴巴集团控股有限公司 | 一种文本数据扫描方法和装置 |
CN109033313A (zh) * | 2018-07-17 | 2018-12-18 | 北京明朝万达科技股份有限公司 | 一种应用usn实现全盘扫描功能的方法和终端设备 |
-
2020
- 2020-02-07 CN CN202010082771.5A patent/CN111309683B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130104191A1 (en) * | 2002-10-30 | 2013-04-25 | Portauthority Technologies Inc. | Method and system for managing confidential information |
US8572758B1 (en) * | 2009-03-30 | 2013-10-29 | Symantec Corporation | DLP-enforced loss scanning, sequestering, and content indexing |
US8949371B1 (en) * | 2011-09-29 | 2015-02-03 | Symantec Corporation | Time and space efficient method and system for detecting structured data in free text |
CN102819592A (zh) * | 2012-08-08 | 2012-12-12 | 河海大学 | 一种基于Lucene的桌面搜索系统及方法 |
CN108009430A (zh) * | 2017-12-22 | 2018-05-08 | 北京明朝万达科技股份有限公司 | 一种敏感数据快速扫描方法及装置 |
CN108734149A (zh) * | 2018-05-29 | 2018-11-02 | 阿里巴巴集团控股有限公司 | 一种文本数据扫描方法和装置 |
CN109033313A (zh) * | 2018-07-17 | 2018-12-18 | 北京明朝万达科技股份有限公司 | 一种应用usn实现全盘扫描功能的方法和终端设备 |
Non-Patent Citations (1)
Title |
---|
李强 等: "指挥信息系统数据泄露防护问题研究", 《第六届中国指挥控制大会论文集(下册)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111309683B (zh) | 2023-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10354348B2 (en) | Digital evidence management | |
CN107391502B (zh) | 时间间隔的数据查询方法、装置及索引构建方法、装置 | |
KR20130049111A (ko) | 분산 처리를 이용한 포렌식 인덱스 방법 및 장치 | |
CN104239377A (zh) | 跨平台的数据检索方法及装置 | |
CN106534784A (zh) | 一种用于视频分析数据结果集的采集分析存储统计系统 | |
CN108287901A (zh) | 用于生成信息的方法和装置 | |
CN113297269A (zh) | 数据查询方法及装置 | |
CN110362596A (zh) | 一种文本抽取信息结构化数据处理的控制方法及装置 | |
CN111625342B (zh) | 一种数据溯源方法、装置及服务器 | |
CN111400033B (zh) | 平台资源成本分摊方法、装置、存储介质及计算机设备 | |
CN114356712B (zh) | 数据处理方法、装置、设备、可读存储介质及程序产品 | |
CN113486983A (zh) | 一种用于反欺诈处理的大数据办公信息分析方法及系统 | |
CN116383189A (zh) | 业务数据的处理方法、装置、计算机设备、存储介质 | |
CN115544050A (zh) | 操作日志记录方法、装置、设备及存储介质 | |
CN102932421A (zh) | 云备份方法及装置 | |
CN116414801A (zh) | 数据迁移方法、装置、计算机设备和存储介质 | |
CN116756298B (zh) | 面向云数据库的ai会话信息优化方法及大数据优化服务器 | |
CN117874166A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
CN111309683B (zh) | 扫描全盘数据的方法及装置 | |
CN117251490A (zh) | 数据查询方法、装置、计算机设备及存储介质 | |
CN111666263A (zh) | 一种数据湖环境下异构数据管理的实现方法 | |
CN115454947A (zh) | 一种非结构化数据的存储方法、装置、设备及存储介质 | |
CN106469086B (zh) | 事件处理方法和装置 | |
CN113590372A (zh) | 基于日志的链路追踪方法、装置、计算机设备及存储介质 | |
CN114495138A (zh) | 一种智能文档识别与特征提取方法、装置平台和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |