CN108009430B

CN108009430B - 一种敏感数据快速扫描方法及装置

Info

Publication number: CN108009430B
Application number: CN201711403790.8A
Authority: CN
Inventors: 王小军; 喻波; 王志海; 秦凯; 吴宏毅
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2020-04-10
Anticipated expiration: 2037-12-22
Also published as: CN108009430A

Abstract

本发明公开了一种敏感数据快速扫描方法和装置，该方法包括以下步骤：获取终端的CPU信息，确定多线程扫描的最大有效线程数；对待扫描文件进行解析，得到待扫描的内容信息；根据最大有效线程数和文件大小，确定对待扫描文件进行分块的分块数量；根据最大有效线程数和文件分块数量，确定需要创建的线程数量；根据所述线程数量创建扫描线程，对分块后的文件分块进行扫描，以确定文件包含的敏感数据。通过本发明的技术方案，充分利用了CPU的多核并行处理能力，提高了数据扫描的效率。

Description

一种敏感数据快速扫描方法及装置

技术领域

本发明涉及数据安全领域，具体涉及一种针对数据防泄漏系统终端的快速敏感文件扫描的方法及装置。

背景技术

随着信息科学与互联网技术的飞跃发展，数据安全问题愈演愈烈，网络与信息安全已获得到前所未有的关注。数据防泄漏系统作为数据安全的终端防护手段，得到了广泛的关注和使用，其中的敏感文件扫描模块作为该系统的重要组成之一，对整个系统的使用和发展也起着关键性的作用。对此，申请人提出了一种针对数据防泄漏系统终端，快速扫描其敏感文件的方法。

目前，数据防泄漏系统构建有敏感文件的扫描组件，对终端的数据进行内容的解析，转码和扫描。终端的数据以不同的格式保存，需要对不同类型的文件进行特定的解析，获取相关的文件内容信息，之后再把获取到的内容转换成特定的编码格式，保存到临时文件，扫描时加载临时文件，检查相关的敏感信息，最后汇总输出相关的敏感信息结果。

现有的敏感文件扫描过程中涉及到了临时文件的存取，增加了处理过程中的IO压力，另外在扫描过程中，通常都是对整个文件内容直接进行遍历扫描，这样的单线程处理不能充分的利用多核CPU的效能，无法达到更优的扫描速率。

发明内容

为解决上述技术问题，本发明提供了一种敏感数据快速扫描方法，该方法包括以下步骤：

获取终端的CPU信息，确定多线程扫描的最大有效线程数；

对待扫描文件进行解析，得到待扫描的内容信息；

根据最大有效线程数和文件大小，确定对待扫描文件内容信息进行分块的分块数量；

根据最大有效线程数和文件分块数量，确定需要创建的线程数量；

根据所述线程数量创建扫描线程，对分块后的文件分块进行扫描，以确定文件包含的敏感数据。

根据本发明的方法，优选的，所述CPU为多核CPU，所述最大有效线程数等于所述CPU的内核数量。

根据本发明的方法，优选的，在对文件分块进行扫描之前，需要加载扫描的相关配置信息，包括敏感信息关键字、匹配规则信息、文件敏感度信息。

根据本发明的方法，优选的，所述文件分块的数量不大于所述最大有效线程数。

根据本发明的方法，优选的，所述对待扫描文件进行解析，得到待扫描的内容信息包括：

对不同类型的文件进行解析，得到待扫描的内容信息；

对解析得到的文件内容信息进行编码转换，以得到指定编码的内容信息。

根据本发明的方法，优选的，所述文件分块的数量大于1，各文件分块之间存在交集。

为解决上述技术问题，本发明提供了一种敏感数据快速扫描装置，该装置包括：

最大有效线程确定模块，获取终端的CPU信息，确定多线程扫描的最大有效线程数；

文件内容解析模块，对待扫描文件进行解析，得到待扫描的内容信息；

文件分块数量确定模块，根据最大有效线程数和文件大小，确定对待扫描文件内容信息进行分块的分块数量；

线程数量确定模块，根据最大有效线程数和文件分块数量，确定需要创建的线程数量；

文件分块扫描模块，根据所述线程数量创建扫描线程，对分块后的文件分块进行扫描，以确定文件包含的敏感数据。

根据本发明的装置，优选的，所述CPU为多核CPU，所述最大有效线程数等于所述CPU的内核数量。

根据本发明的装置，优选的，该装置还包括：配置信息加载模块，在对文件分块进行扫描之前，需要加载扫描的相关配置信息，包括敏感信息关键字、匹配规则信息、文件敏感度信息。

根据本发明的装置，优选的，所述文件分块的数量不大于所述最大有效线程数。

根据本发明的装置，优选的，所述文件内容解析模块，对待扫描文件进行解析，得到待扫描的内容信息包括：

对不同类型的文件进行解析，得到待扫描的内容信息；

根据本发明的装置，优选的，所述文件分块的数量大于1，各文件分块之间存在交集。

为解决上述技术问题，本发明提供了一种计算机可读存储介质，该介质存储有计算机程序指令，当执行所述计算机程序指令时，实现如上述之一的方法。

本发明在整个实现过程中，被扫描的数据在解析时加载到内存中后，到扫描结束的整个过程都常驻内存，数据处理的过程中，内容信息的传递直接通过内存地址的方式传递，不进行临时文件的缓存和读取，以避免由于数据频繁IO过程所增加的时间负担，从而有效的提高整个扫描的处理效能。当然如果需要，也可以添加相关的临时文件存储过程。

在数据分块多线程扫描时，需要对文件的大小和可用线程数(CPU内核数)进行综合的考虑，避免过多的并行扫描线程或过大的待扫描数据块，从而可以以一个更合理的并行分块线程数进行数据块的扫描过程，

附图说明

图1为本发明的总体扫描流程图。

图2为扫描引擎初始化的具体执行流程图。

图3为扫描引擎的文件扫描调用的具体处理流程图。

具体实施方式

如图1，描述了本发明的扫描总体过程，包括：

步骤1，扫描开始。

步骤2，对扫描引擎进行初始化。

步骤3，调用扫描引擎，对文件进行扫描。

步骤4，完成扫描，保存扫描结果。

如图2，描述了本发明的具体扫描过程，包括：

步骤1，扫描开始。

步骤2，加载扫描配置文件。

步骤3，配置分析处理生成敏感信息哈希表和数据块交集值。

步骤4，获取CPU核数量得到有效线程数。

步骤5，完成扫描，保存扫描结果。

如图3，描述了本发明的又一扫描过程，包括：

步骤1，扫描开始。

步骤2，解析待扫描文件。

步骤3，待扫描文件编码是否符合扫描要求，如果否则对文件编码进行转换，转换成扫描引擎支持的文件编码。

步骤4，分析最大有效线程数和待扫描内容大小，得到具体文件分块数，确定需要创建的并行线程数。

步骤5，根据确定并行线程数创建线程，对分块后文件分块进行并行扫描(如果文件分块数量为1，则进行单线程扫描)，记录扫描命中的信息。

步骤6，汇总民众结果信息，处理得到敏感信息结果。

步骤7，扫描结束。

结合图1-3，下面根据上述步骤对文件分块多线并行扫描方法进行具体描述，具体扫描方法包括：

扫描配置信息加载，加载扫描的相关配置信息，包括关键字信息，匹配规则信息，文件敏感度等信息。

扫描规则处理，对扫描的关键字和匹配规则(通常为一些正则表达式)信息进行相关处理，得到扫描匹配规则的哈希表，减少扫描过程中的信息比较的代价。

另外为了扫描结果的准确和完整，待扫描数据分块时，各数据分块间会有一定的交集。通过分析匹配信息的长度，以得到数据分块交集的数据大小参数值，该值优选为所有匹配信息长度的最大值减1。由于分块的可能导致待扫描内容中的敏感词被拆分到不同的块中，导致拆分的敏感词不能命中，所以需要在分块处有一段重复数据，避免漏扫的情况，而重复数据的长度为所有关键字的最大值减1时，就可以避免漏扫敏感数据。

系统状态处理，获取终端的CPU信息。该终端的CPU为多核CPU，通过获得终端的CPU信息，可以确定CPU型号、物理CPU颗数(CPU核数量)、CPU运行模式、CPU是否支持64位还是只支持32位以及CPU信息概要等。根据所述CPU信息可以确定能够创建的多线程扫描的有效线程参数值，即最大有效线程数量。该最大有效线程数量优选为CPU内核数，该值是之后的分线程扫描的并行线程数的最大值。

客户端文件内容解析，对不同类型的文件进行特定的解析，比如将Word文档、PDF文档、PPT文档、EXCEL文档等各种文本文档，均转换为TXT文本文档，得到其待扫描的内容信息。在此仅为对文档转换进行示例，并非对本发明保护范围的限定，还可以包括对其他文档的转换，比如图像文档，音频文档，视频文档等。

内容信息转码，对解析获取到的文件内容信息进行编码转换，以得到特定编码的内容信息，供扫描接口使用。比如现有技术中常见的文件编码包括：Unicode编码，ansi编码，utf-8编码，unicode big endian编码等。可以指定最后的进行的扫描编码格式为Unicode编码，通过编码转化工具，或者相应的算法，将其他ansi编码，utf-8编码，unicodebig endian编码均转换为Unicode编码，便于提高文件扫描的效率和兼容性。

分块信息处理，对文件大小，文件分块数(线程数)，文件分块交集数进行统一的分析处理，以得到一个合理的文件分块数(线程数)。

由于创建线程也有一定的开销，所以最好是有一个最小的数据块大小值，小于该值的不进行文件分块，直接单线扫，文件大于该值时进行分块数处理。

当文件分块的数量大于1时，执行以下操作：

当文件分块的数量不大于CPU最大有效线程数量(CPU内核数量)时，创建于文件分块数量相等的线程数，由每个CPU内核执行一个扫描线程，多个扫描线程对多个文件分块进行并行扫描，提高扫描的效率。

当文件较大，文件分块的数量N大于CPU最大有效线程数量Tmax(CPU内核数量)时，此时创建CPU所能支持的最大有效线程数Tmax，由每个CPU内核执行一个扫描线程，开启多个扫描线程对多个文件分块进行并行扫描。当对这一批文件分开扫描结束后，还剩余N-Tmax个数据分开未扫描，如果N-Tmax>Tmax，此时换下一批Tmax个文件分块进行多线程并行扫描，以此类推，当N-k*Tmax<Tmax(k为多线程扫描的批次数，每一批次扫描Tmax个文件分块)，采用N-k*Tmax个线程对剩余的所有文件分块进行并行扫描。当该N-k*Tmax个文件分块扫描结束后，完成对整个文件分块的扫描。

创建线程扫描数据块，创建扫描线程，分别扫描不同的文件数据块，扫描命中结果统一记录到全局的命中结果列表中。

当文件分块数量为1时候，创建1个线程对文件分块进行单线程扫描。

当文件分块数量不大于Tmax时候，创建与文件分块数量相等的线程数量。

当文件分块数量大于Tmax时，创建Tmax个线程。

结果汇总生成，根据扫描的配置信息，汇总处理命中结果中的信息，得到文件的敏感度信息。

上述的描述中，扫描的多线程数需根据具体的客户端CPU内核数来确定，为了充分的发挥多核CPU的性能，提高效率，线程数的最大值优选为CPU内核数，下称：最大有效线程数。

上述描述中，待扫描数据分块处理时，需对最大有效的线程数(终端的支持的最大并行线程数，优选为CPU内核数)和文件大小进行综合的判断和处理，以避免不必要的线程或者过大的数据块，从而得到一个相对平衡和高效的数据分块数(即实际的并行线程数)，优选的数据分块数小于等于最大有效线程数。另外为了扫描结果的准确和完整，待扫描数据分块时，各数据块间会有一定的交集，分块的交集大小在扫描规则处理时得到的。

数据分块数建议是小于等于CPU内核数，该方案的原理是文件分块后由CPU的每个内核分别并行扫描，以提高多核CPU的使用率。该终端的CPU为多核CPU，通过获得终端的CPU信息，可以确定CPU型号、物理CPU颗数(CPU核数量)、CPU运行模式、CPU是否支持64位还是只支持32位以及CPU信息概要等。根据所述CPU信息可以确定能够创建的多线程扫描的有效线程参数值，即最大有效线程数量。该最大有效线程数量优选为CPU内核数，该值是之后的分线程扫描的并行线程数的最大值。

关于文件快速扫描，本发明还提供了一种文件分块多线并行扫描方案实现的装置，该装置包括：

扫描配置加载模块，读取相关的扫描配置文件，解析加载相关的扫描配置信息。

扫描配置处理模块，对扫描的配置进相应的运算和处理，以得到待扫描敏感信息的哈希表和数据分块交集大小的相关参数。

系统信息采集模块，获取终端的相关硬件配置信息，以得到扫描的可用有效线程数。

文件解析模块，解析不同格式的文件内容，获取待扫描文件的相关内容信息。

比如将Word文档、PDF文档、PPT文档、EXCEL文档等各种文本文档，均转换为TXT文本文档，得到其待扫描的内容信息。在此仅为对文档转换进行示例，并非对本发明保护范围的限定，还可以包括对其他文档的转换，比如图像文档，音频文档，视频文档等。

内容信息转码模块，对不同的文件内容信息进行相应的编码转换，以得到一个统一编码的待扫描内容。比如现有技术中常见的文件编码包括：Unicode编码，ansi编码，utf-8编码，unicode big endian编码等。可以指定最后的进行的扫描编码格式为Unicode编码，通过编码转化工具，或者相应的算法，将其他ansi编码，utf-8编码，unicode big endian编码均转换为Unicode编码，便于提高文件扫描的效率和兼容性。

扫描内容分块预处理模块，对文件内容的大小，可用有效线程数和分块交集值进行统一的分析处理，以得到一个合理的文件分块数，即扫描并行线程数。

当文件分块的数量大于1时，执行以下操作：

多线程扫描处理模块，创建扫描线程，分别对不同的文件块进行敏感信息扫描，记录命中结果。

当文件分块数量大于Tmax时，创建Tmax个线程。

结果汇总输出模块，依据扫描的配置信息，对扫描的命中结果进行分析汇总处理，得到相关的敏感度信息结果，输出文件敏感度信息

该方案在整个实现过程中，被扫描的数据在解析时加载到内存中后，到扫描结束的整个过程都常驻内存，数据处理的过程中，内容信息的传递直接通过内存地址的方式传递，不进行临时文件的缓存和读取，以避免由于数据频繁IO过程所增加的时间负担，从而有效的提高整个扫描的处理效能。当然如果需要，也可以添加相关的临时文件存储过程。在数据分块多线程扫描时，需要对文件的大小和可用线程数(CPU内核数)进行综合的考虑，避免过多的并行扫描线程或过大的待扫描数据块，从而可以以一个更合理的并行分块线程数进行数据块的扫描过程，

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式发送机或其他可编程数据发送终端设备的发送器以产生一个机器，使得通过计算机或其他可编程数据发送终端设备的发送器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据发送终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据发送终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的发送，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种数据处理方法及装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据防泄漏系统终端中敏感数据快速扫描方法，其特征在于，该方法包括以下步骤：

获取终端的CPU信息，确定多线程扫描的最大有效线程数；

对待扫描文件进行解析，得到待扫描的内容信息；

根据所述线程数量创建扫描线程，对分块后的文件分块进行扫描，以确定文件包含的敏感数据；分块后的各数据分块间具有交集，交集的数据大小为所有匹配信息长度的最大值减1。

2.根据权利要求1所述的方法，所述CPU为多核CPU，所述最大有效线程数等于所述CPU的内核数量。

3.根据权利要求1所述的方法，在对文件分块进行扫描之前，需要加载扫描的相关配置信息，包括敏感信息关键字、匹配规则信息、文件敏感度信息。

4.根据权利要求1所述的方法，所述文件分块的数量不大于所述最大有效线程数。

5.根据权利要求1所述的方法，所述对待扫描文件进行解析，得到待扫描的内容信息包括：

对不同类型的文件进行解析，得到待扫描的内容信息；

6.根据权利要求1-5之一所述的方法，所述文件分块的数量大于1，各文件分块之间存在交集。

7.一种数据防泄漏系统终端中敏感数据快速扫描装置，其特征在于，该装置包括：

文件分块扫描模块，根据所述线程数量创建扫描线程，对分块后的文件分块进行扫描，以确定文件包含的敏感数据；分块后的各数据分块间具有交集，交集的数据大小为所有匹配信息长度的最大值减1。

8.根据权利要求7所述的装置，所述CPU为多核CPU，所述最大有效线程数等于所述CPU的内核数量。

9.根据权利要求7所述的装置，该装置还包括：配置信息加载模块，在对文件分块进行扫描之前，需要加载扫描的相关配置信息，包括敏感信息关键字、匹配规则信息、文件敏感度信息。

10.根据权利要求7所述的装置，所述文件分块的数量不大于所述最大有效线程数。

11.根据权利要求7所述的装置，所述文件内容解析模块，对待扫描文件进行解析，得到待扫描的内容信息包括：

对不同类型的文件进行解析，得到待扫描的内容信息；

12.根据权利要求7-11之一所述的装置，所述文件分块的数量大于1，各文件分块之间存在交集。

13.一种计算机可读存储介质，该介质存储有计算机程序指令，其特征在于，当执行所述计算机程序指令时，实现如权利要求1-6之一所述的方法。