CN111581328A

CN111581328A - 一种数据比对检测方法及系统

Info

Publication number: CN111581328A
Application number: CN202010317277.2A
Authority: CN
Inventors: 刘维炜; 谢永胜
Original assignee: Zhejiang Vamtoo Information Safety Technology Co ltd
Current assignee: Zhejiang Vamtoo Information Safety Technology Co ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-25

Abstract

本发明披露一种数据比对检测方法及系统，包括：有海量数据集，制定数据集检测策略，根据数据集检测策略生成检测数据集；对被检测对象进行分词，生成分词表；在检测数据集中确定比对关键词及其数据类型，在分词表中查找所述比对关键词的数据类型，并提取所有符合该数据类型的比对值；通过哈希方式，在海量数据集字段集合中查找并提取所有匹配的比对值，生成比对数据集；判断分词表中是否有比对数据集中n个字段的组合数据集，本发明是一种基于哈希方式进行海量数据精确查找和匹配的方法和系统，运用于海量数据防泄漏技术中，提高海量数据精确比对效率，降低存储和计算开销。

Description

一种数据比对检测方法及系统

技术领域

本发明涉及数据安全技术领域，尤其涉及海量数据精确比对技术领域，针对数据安全中的防泄漏技术。

背景技术

传统上，使用诸如信息安全策略之类的安全过程以及诸如防火墙，虚拟专用网络和入侵检测系统之类的传统安全机制来保持数据的机密性。然而，这些机制缺乏对保护机密数据的积极性和主动性，并且在大多数情况下，它们需要预定义的规则采取保护措施。这可能导致严重后果，因为机密数据可能以不同形式出现在不同的泄漏渠道中。因此，一直希望使用更有效的机制来减轻这些缺点。最近，引入数据泄漏防护系统(DLPS)作为检测和预防的专用机制，防止用户在数据传输时泄露机密数据。DLPS使用不同的技术来分析机密数据的内容和上下文，以检测或防止泄漏。DLPS技术的核心是要首先检测出敏感数据，如果没有准确的检测，数据安全系统就会生成许多误报(将并未违规的消息或文件标识为违规)以及漏报(未将违反策略的消息或文件标识为违规)。目前常用的检测技术包括：正则表达式检测(标识符)；关键字和关键字对检测；文档属性检测；指纹文档对比IDM；精确数据比对EDM；向量分类比对SVM；

但是随着大数据的迅速发展，企业掌握的海量数据达到亿级，现有DLPS技术针对海量数据的检测效率低下，耗费大量的存储资源和计算资源，难以满足用户的使用要求。

发明内容

本发明针对现有技术中的缺点，提供了一种基于哈希方式进行海量数据精确查找和匹配的方法。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

一种数据比对检测方法，包括：

s01有海量数据集，制定数据集检测策略，根据数据集检测策略生成检测数据集；

s02对被检测对象进行分词，生成分词表；

s03在检测数据集中确定比对关键词及其数据类型，在分词表中查找所述比对关键词的数据类型，并提取所有符合该数据类型的比对值；

s04通过哈希方式，在海量数据集字段集合中查找并提取所有匹配的比对值，生成比对数据集；

s05判断分词表中是否有比对数据集中n个字段的组合数据集，其中n＝1,2,3……n。

可选的，确定检测数据集中比对关键词及其数据类型，在分词表中查找所述比对关键词的数据类型，若不存在所述比对关键词的数据类型，则流程结束；若存在，则提取所述比对关键词的数据类型的字段所有的比对值；

若分词表中提取的比对值数量大于1，则循环执行s04和s05步骤，直至所有比对值查找结束。

可选的，计算分词表中提取的比对值的哈希值，并查找海量数据集中的比对关键词的数据类型字段中是否存在相同的哈希值，若没有匹配，则流程结束；

若海量数据集中存在哈希匹配，则从海量数据集中提取匹配的其他比对值，生成比对数据集，返回待用。

可选的，比对数据集中n个字段的任意组合数据集Ni，i为数据集编号；

分别比较分词表和Ni，若所有的Ni都没有包含在分词表中，则被检测对象不满足制定的数据集检测策略，标记该检测对象为无匹配，流程结束；

若有任意组合数据集Ni包含在分词表中，则被检测对象符合制定的数据集检测策略，对检测对象进行下一步处理。

可选的，通过哈希方式，在海量数据集字段集合中查找步骤如下：

当存储记录时，通过散列函数计算出记录的散列地址；海量数据集中将检测数据集中的所述比对关键词的数据类型的比对值存到哈希表中；

当查找记录时，通过同样散列函数计算记录的散列地址，并按此散列地址访问该记录；检查哈希表中是否存在所述比对值的哈希值。

可选的，通过基于词频度统计的分词方法获得待检测内容的分词表。

可选的，利用正则表达式在分词表中查找所述比对关键词的数据类型。

可选的，采用BitSet对被检测对象进行标记。

可选的，哈希方式处理过程中采用布隆过滤器过滤数据。

本发明还提供了一种数据比对检测系统，包括：

海量数据库，内有海量数据集；

检测策略输入单元，输入制定的检测策略，生成检测数据集，确定检测数据集中的数据类型K；

分词计算单元，用于生成被检测对象的分词表；

第一检测单元，判断分词表中是否有数据类型K的字段值k，生成比对数据集；

哈希运算单元，用哈希方式进行海量数据集的查找；

第二检测单元，用于比对被检测对象的分词表和比对数据集；

输出单元，用于输出比对结果。

本发明的有益效果：

1、采用哈希方式行海量数据精确查找和匹配，运用于海量数据防泄漏技术中，提高海量数据精确比对效率，降低存储和计算开销；

2、采用BitSet来实现对数据的标记，占用较少的存储空间；

3、采用布隆过滤器(BloomFiler)，避免哈希冲突：布隆过滤器通过多个hash，增大随机性，通过扩大数组范围，使hash值均匀分布，进一步减少了hash碰撞的概率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是数据对比检测方法流程图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

实施例1：

本实施例提供一种海量数据比对检测方法包括以下步骤：

s01有海量数据集，制定数据集检测策略，根据数据集检测策略生成检测数据集。

s02对被检测对象进行分词，通过基于词频度统计的分词方法获得待检测内容的分词表P。

具体的，确定检测数据集中比对关键词及其数据类型，利用正则表达式在分词表中查找所述比对关键词的数据类型，若不存在所述比对关键词的数据类型，则流程结束；若存在，则提取所述比对关键词的数据类型的字段所有的比对值。

计算分词表中提取的比对值的哈希值，并查找海量数据集中的比对关键词的数据类型字段中是否存在相同的哈希值，若没有匹配，则流程结束；

s05判断分词表中是否有比对数据集中n个字段的组合数据集，其中n＝1,2,3……n；

具体的，比对数据集中n个字段的任意组合数据集Ni，i为数据集编号；

s06若分词表中提取的比对值数量大于1，则循环执行s04和s05步骤，直至所有比对值查找结束。

其中，通过哈希方式，在海量数据集字段集合中查找步骤如下：

本实施例提供一种海量数据比对检测方法及系统

其中，数据比对检测系统，包括：

海量数据库，内有海量数据集；

分词计算单元，用于生成被检测对象的分词表；

哈希运算单元，用哈希方式进行海量数据集的查找；

输出单元，用于输出比对结果。

实施例2:

本实施例以数据防泄漏技术为例，其中海量数据集中的检测数据集是机密数据，为了判断截取的数据或文本是否为机密数据，本实施例提供一种海量数据精确比对方法及系统：如图1所示，包括：

步骤1：现有企业数据库，内有海量数据集，制定海量数据保护策略：

为了保护企业数据资产的机密性，业务或者系统管理员首先制定策略，将海量数据中的包含机密信息的表和字段标志出来加以保护。

为保护海量数据库中的机密数据，允许检测数据集中的任何数据字段组合进行检测，也就是检测m个字段中的n个字段，设为集合N和M，N包含在M中，M为海量数据中提取的m个需要保护的字段集合。例如，管理员可以用制定一条策略，当被检测内容含中同时出现“姓”、“名”、“身份证号码”、“帐号”或“电话号码”中的任意三个相对应的记录，则判定该检测内容为机密信息。

步骤2：对被检测对象进行分词，获取分词表集合：

检测内容可以为一段文本消息或者其他任意类型的电子文档，通过基于词频度统计的分词方法获得待检测内容的分词表集合P；

步骤3：根据制定数据集检测策略提取比对关键词的数据类型并比对。在检测数据集中确定比对关键词及其数据类型，在分词表中查找所述比对关键词的数据类型，并提取所有符合该数据类型的比对值；

根据制定数据集检测策略，确定M中的一个关键词为数据类型K的字段作为关键词类型，例如，身份证号码(ID)为数据类型设为K。利用正则表达式从步骤2中得到的分词表中查找关键词的数据类型K的数据类型是否存在，如果不存在该关键词的数据类型，则流程结束，标记该检测对象为安全。如果存在该类型字段，则提取该类型字段所有k值，进行步骤4；

步骤4：通过哈希方式，在海量数据集字段集合中查找并提取所有匹配的比对值，生成比对数据集；

计算步骤3获得的k值的哈希值，并查找海量数据集中的K类型字段中是否存在相同的哈希值。如果没有匹配，则流程结束，标记该检测对象为安全。如果海量数据存在和k值的哈希匹配，则从海量数据集中提取该k值对应的其他m个数据字段值集合M’，返回待用。

步骤5：比较海量数据字段集合和分词列表。判断分词表中是否有比对数据集中n个字段的组合数据集，其中n＝1,2,3……n。

根据海量数据中提取的m个字段集合M(包括M’)，根据制定数据集检测策略，计算所有n个字段的组合Ni(N1，N2……)，分别比较检测分词表P和N1，N2……，如果所有的N都没有包含在P中，则不满足用户指定的策略，标记该检测对象为安全，流程结束。如果集合N包含在P中，则说明P的内容为机密，应该对检测对象予以处理(告警、阻断等)。

步骤5：循环执行

如果文档的分词列表中含有多个k值,则循环执行步骤4、5，直至全部执行查找比对完毕

其中，利用散列表进行海量数据查找比对的步骤为：

1.当存储记录时，通过散列函数计算出记录的散列地址；海量数据中将受保护数据中的K类型数据存到哈希表中。

2.当查找记录时，通过同样散列函数计算记录的散列地址，并按此散列地址访问该记录；检查哈希表中是否存在k值的哈希值。

为了处理海量数据，本实施例哈希表尽量占用较少的存储空间，用BitSet来实现对数据的标记，为了避免哈希冲突采用布隆过滤器，布隆过滤器通过多个hash，增大随机性，通过扩大数组范围，使hash值均匀分布，进一步减少了hash碰撞的概率。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

本发明实施例提供一种计算机存储介质，包括指令，执行上述方法步骤。具体的各个步骤之间的执行顺序详见上述实施例，本申请在此不再赘述。

本发明实施例提供一种计算机程序产品，该计算机程序产品包括计算机执行指令，该计算机执行指令存储在计算机可读存储介质中；至少一个处理器执行该计算机执行指令使得上述实施例的方法步骤执行。需要说明的是，上述步骤的具体执行顺序可以参见上述实施例中的描述，本申请在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。

所述单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何在本发明揭露的技术范围内的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据比对检测方法，其特征在于，包括：

s02对被检测对象进行分词，生成分词表；

2.根据权利要求1所述的数据比对检测方法，其特征在于，

确定检测数据集中比对关键词及其数据类型，在分词表中查找所述比对关键词的数据类型，若不存在所述比对关键词的数据类型，则流程结束；若存在，则提取所述比对关键词的数据类型的字段所有的比对值；

3.根据权利要求1所述的数据比对检测方法，其特征在于，

4.根据权利要求1或2所述的数据比对检测方法，其特征在于，比对数据集中n个字段的任意组合数据集Ni，i为数据集编号；

5.根据权利要求1或3所述的数据比对检测方法，其特征在于，通过哈希方式，在海量数据集字段集合中查找步骤如下：

6.根据权利要求1或2或3所述的数据比对检测方法，其特征在于，通过基于词频度统计的分词方法获得待检测内容的分词表。

7.根据权利要求1或2或3所述的数据比对检测方法，其特征在于，利用正则表达式在分词表中查找所述比对关键词的数据类型。

8.根据权利要求1所述的数据比对检测方法，其特征在于，采用BitSet对被检测对象进行标记。

9.根据权利要求1或3所述的数据比对检测方法，其特征在于，哈希方式处理过程中采用布隆过滤器过滤数据。

10.一种数据对比检测系统，其特征在于，包括：

海量数据库，内有海量数据集；

分词计算单元，用于生成被检测对象的分词表；

哈希运算单元，用哈希方式进行海量数据集的查找；

输出单元，用于输出比对结果。