CN107391671B

CN107391671B - 一种文档泄露检测方法及系统

Info

Publication number: CN107391671B
Application number: CN201710600710.1A
Authority: CN
Inventors: 路松峰; 廖泽翔; 王同洋
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-07-21
Filing date: 2017-07-21
Publication date: 2019-11-26
Anticipated expiration: 2037-07-21
Also published as: CN107391671A

Abstract

本发明公开了一种文档泄露检测方法及系统，将企业内部文档构建倒排索引文件，通过相同词语检索可能存在相似的句子，然后对这些句子中的词语进行word2vec词向量的映射，通过词向量之间的相似度计算句子之间的相似度，从而判定文档是否属于泄露信息。本发明通过对企业内部的文本进行倒排索引，提高文本检索效率；通过对文档中的词语进行词向量映射，能够更加准确的计算两个句子之间相似度，从而更加准确的判定是否属于泄露文档，从而可以帮助管理员控制那些企业内部员工可以发送的文档，同时也可以帮助企业保护内部机密文档的安全，提高企业竞争力，避免因内部机密文档泄漏给企业带来的重大损失。

Description

一种文档泄露检测方法及系统

技术领域

本发明属于计算机技术领域，更具体地，涉及一种文档泄露检测方法及系统。

背景技术

文档防泄漏是通过专业的方式，预防企业的机密文档通过以违背安全规定的方式传输到企业外部的一种方法。同时，现阶段主流的技术都是以控制类、加密类以及过滤类技术来解决文档的防泄漏问题。通过给文档进行权限设定，或者给文档加密从而限制文档的访问，或者只是简单的通过文档传统的哈希方法对文档进行数字指纹的计算，通过一个数字指纹代表一个文档。这些方法都不能够检测从企业内部发送到外部的文档中是否包含一部分的泄露信息。

其中，基础泄露检测方法利用常规的检测技术对从企业内部发送到外部的数据进行内容的搜索和匹配，通常采用正则表达式、关键字匹配和文档的属性检测等方式。正则表达式和关键字匹配可以对不加修改的机密信息文档进行检测，但是对于使用同义词等修改手段进行修改的文档，检测效果并不好。文档属性检测主要是利用文档的格式、大小等文档基本信息对待检测文档进行检测，但是如果泄露的文档以不同于企业机密文档库中文档的格式存储，然后发送到企业外部，则这种方法也不能有效的检测出泄露文档。

基于特征的近似文档检测主要是考虑文档中的词语特征信息，将文档表示成由一系列特征向量表示的模型，通过计算这些特征向量之间的距离信息来表示文档之间的相似性。在文档信息检索领域最为经典的向量空间模型(Vector Space Model)就是这种方法。向量空间模型是一个把文档文件表示为多维特征向量的代数模型，多维向量中的每一维表示一个文档特征(通常是词语)，这一维对应的值表示这个特征在文档中的权重，这个特征的权重可以仅仅用词频表示，也可以利用词频-逆文档频率(TF-IDF)模型计算。得到空间向量模型之后，一般通过余弦相似度来衡量两个向量空间的相似程度。但是在实际的文档中，词语之间通常包含有一定的语义联系，向量空间模型对于词语之间相互之间并无关联的要求很难实现。另外，当文档内容比较长时，向量空间模型的维度将变得十分巨大，此时向量空间模型的相似度将消耗非常多的时间资源。

基于字符串匹配的文档相似计算方法是将文档作为一个字符串，挑选这个字符串中的一些子字符串加入到一个集合中，并用这个集合来代表文档。对于不同的文档，计算字符串集合中相同字符串的个数占集合中所有字符串的个数的比例来表示这两个文档的相似度。这个度量方式一般是用Jaccard相似度来计算。例如，在公共开放策略服务(CommonOpen Policy Service，COPS)系统中，以句子为单位提取文档的指纹，计算每个句子的数字指纹。在Winnowing算法中，算法先将文档表示成n-gram字符串，计算这些字符串的映射值，通过窗口的滑动来选择部分映射作为文档的指纹。得到字符串集合或者指纹集合之后，通过比较两个文档中相同指纹的个数来衡量文档的相似度。然而基于字符串匹配的文档泄露检测方法只能准确的识别含有相同字符串的文档，对于包含同义词语的句子，这种方法并不能有效的检测出泄露的文档。

基于语义的文档相似度计算方法主要考虑的文档的语义特征，根据这些语义特征来衡量文档之间的相似性。但是汉语的语法结构比较复杂，加上词语的一词多义、同义词等情况，提取文档的语义特征比较复杂。现有的一些中文知识概念库中一般只是能够获取到词语的语义信息，例如董振东先生创立的《知网》是一个描述词语语义信息的中文知识概念库。

发明内容

针对现有技术的以上缺陷或改进需求，本发明目的在于提供了一种文档泄露检测方法及系统，由此解决现有的文档防泄露检测技术不能有效的检测出泄露文档的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种文档泄露检测方法，包括：

对待检测文档中的每条待检语句，将所述待检语句进行预处理得到所述待检语句的词序列，从预设倒排索引数据库中采用倒排索引检索出与所述待检语句的词序列存在相同词语个数大于第一预设阈值的相似词序列；

依次计算所述待检语句的词序列中各词语的词向量与所述相似词序列中每个词语的词向量之间的相似度，根据相似度值依次选出所述待检语句的词序列与所述相似词序列中的配对词语(w_i，w_j)，其中，(w_i，w_j)表示在所述待检语句的词序列中的第i个词语与在所述相似词序列中的第j个词语配对，i∈(1,...,M),j∈(1,...,M)，M表示配对词语的数量；

从所述待检语句的词序列中选出第一目标词序列，从所述相似词序列中选出与所述第一目标词序列对应的第二目标词序列，其中，所述第一目标词序列中邻近w_i的距离值小于等于第二预设阈值，所述第二目标词序列中邻近w_j的距离值小于等于所述第二预设阈值，且在所述第一目标词序列与所述第二目标词序列中的配对词语个数大于所述第一预设阈值；

根据所述第一目标词序列与所述第二目标词序列中的配对词语的相似度计算所述第一目标词序列与所述第二目标词序列的句子相似度，若所述句子相似度大于第三预设阈值，则判定所述待检语句为泄露语句。

优选地，在所述从预设倒排索引数据库中检索出与所述待检语句存在相同词语个数大于第一预设阈值的相似语句之前，所述方法还包括：

对机密文档库中的文档进行预处理，并对预处理后的文档构建倒排索引文件，在所述倒排索引文件中保存有词语的标识值、词语的内容、词语长度、词性、指向倒排列表的指针信息、词语所属文档的标识值、词语在文档中出现的次数以及词语在文档中出现的位置信息；

存储所述倒排索引文件构成预设倒排索引数据库。

优选地，所述依次计算所述待检语句的词序列中各词语的词向量与所述相似词序列中每个词语的词向量之间的相似度，包括：

由依次计算所述待检语句的词序列中各词语的词向量与所述相似词序列中每个词语的词向量之间的相似度，其中，w_p表示所述待检语句的词序列中的第p个词语，w_q表示所述相似词序列中的第q个词语，v_pm表示w_p对应的词向量中第m维的值，v_qm表示w_q对应的词向量中第m维的值，n表示词向量的维数。

优选地，所述根据所述第一目标词序列与所述第二目标词序列中的配对词语的相似度计算所述第一目标词序列与所述第二目标词序列的句子相似度，包括：

由计算所述第一目标词序列与所述第二目标词序列的句子相似度，其中，S₁表示所述第一目标词序列，S₂表示所述第二目标词序列，l表示所述第一目标词序列与所述第二目标词序列中的配对词语的数量，(w_1k,w_2k)表示语句S₁与语句S₂中第k个配对词语，sim(w_1k,w_2k)表示配对词语(w_1k,w_2k)之间的相似度。

按照本发明的另一方面，提供了一种文档泄露检测系统，包括：

预处理模块，用于对待检测文档中的每条待检语句，将所述待检语句进行预处理得到所述待检语句的词序列；

检索模块，用于从预设倒排索引数据库中采用倒排索引检索出与所述待检语句的词序列存在相同词语个数大于第一预设阈值的相似词序列；

词语相似度计算模块，用于依次计算所述待检语句的词序列中各词语的词向量与所述相似词序列中每个词语的词向量之间的相似度；

第一选取模块，用于根据相似度值依次选出所述待检语句的词序列与所述相似词序列中的配对词语(w_i，w_j)，其中，(w_i，w_j)表示在所述待检语句的词序列中的第i个词语与在所述相似词序列中的第j个词语配对，i∈(1,...,M),j∈(1,...,M)，M表示配对词语的数量；

第二选取模块，用于从所述待检语句的词序列中选出第一目标词序列，从所述相似词序列中选出与所述第一目标词序列对应的第二目标词序列，其中，所述第一目标词序列中邻近w_i的距离值小于等于第二预设阈值，所述第二目标词序列中邻近w_j的距离值小于等于所述第二预设阈值，且在所述第一目标词序列与所述第二目标词序列中的配对词语个数大于所述第一预设阈值；

句子相似度计算模块，用于根据所述第一目标词序列与所述第二目标词序列中的配对词语的相似度计算所述第一目标词序列与所述第二目标词序列的句子相似度；

判定模块，用于在所述句子相似度大于第三预设阈值时，判定所述待检语句为泄露语句。

优选地，所述系统还包括：

倒排索引构建模块，用于对机密文档库中的文件构建倒排索引文件，在所述倒排索引文件中保存有词语的标识值、词语的内容、词语长度、词性、指向倒排列表的指针信息、词语所属文档的标识值、词语在文档中出现的次数以及词语在文档中出现的位置信息；

存储模块，用于存储所述倒排索引文件构成预设倒排索引数据库。

优选地，所述词语相似度计算模块，具体用于由依次计算所述待检语句的词序列中各词语的词向量与所述相似词序列中每个词语的词向量之间的相似度，其中，w_p表示所述待检语句的词序列中的第p个词语，w_q表示所述相似词序列中的第q个词语，v_pm表示w_p对应的词向量中第m维的值，v_qm表示w_q对应的词向量中第m维的值，n表示词向量的维数。

优选地，所述句子相似度计算模块，具体用于由计算所述第一目标词序列与所述第二目标词序列的句子相似度，其中，S₁表示所述第一目标词序列，S₂表示所述第二目标词序列，l表示所述第一目标词序列与所述第二目标词序列中的配对词语的数量，(w_1k,w_2k)表示语句S₁与语句S₂中第k个配对词语，sim(w_1k,w_2k)表示配对词语(w_1k,w_2k)之间的相似度。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：对预设倒排索引数据库中文档进行倒排索引，提高文本检索效率；对文档中的词语进行词向量映射，根据词语之间的相似度能够更加准确的计算两个句子之间相似度，从而更加准确的判定是否属于泄露文档。

附图说明

图1是本发明实施例公开的一种文档泄露检测方法流程示意图；

图2是本发明实施例公开的一种机密文档注册流程示意图；

图3是本发明实施例公开的一种根据相同词语检索可能相似的句子的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明公开了一种文档泄露检测方法及系统，通过倒排索引将企业内部的机密文件进行有效的组织，然后在获取到的企业内部发送到外部的文档中利用相同词语进行可能泄露文档初始集检索。利用Word2Vec进行句子中词语的词向量映射，然后计算词语之间的相似度。根据各词语之间的相似度找出配对词语，最后进行加权平均得到句子的相似度，如果超过阈值就判定待检测的文档中包含有泄露的文档信息。

如图1所示是本发明实施例公开的一种文档泄露检测方法的流程示意图，包括以下步骤：

S1、对待检测文档中的每条待检语句，将待检语句进行预处理得到待检语句的词序列，从预设倒排索引数据库中采用倒排索引检索出与待检语句的词序列存在相同词语个数大于第一预设阈值的相似词序列；

S2、依次计算待检语句的词序列中各词语的词向量与相似词序列中每个词语的词向量之间的相似度，根据相似度值依次选出待检语句的词序列与相似词序列中的配对词语(w_i，w_j)，其中，(w_i，w_j)表示在待检语句的词序列中的第i个词语与在相似词序列中的第j个词语配对，i∈(1,...,M),j∈(1,...,M)，M表示配对词语的数量；

S3、从待检语句的词序列中选出第一目标词序列，从相似词序列中选出与第一目标词序列对应的第二目标词序列，其中，第一目标词序列中邻近w_i的距离值小于等于第二预设阈值，第二目标词序列中邻近w_j的距离值小于等于第二预设阈值，且在第一目标词序列与第二目标词序列中的配对词语个数大于第一预设阈值；

S4、根据第一目标词序列与第二目标词序列中的配对词语的相似度计算第一目标词序列与第二目标词序列的句子相似度，若句子相似度大于第三预设阈值，则判定待检语句为泄露语句。

在步骤S2中计算完词语的相似度之后，根据相似度值依次选出待检语句的词序列与相似词序列中的配对词语，例如可以将满足相似度值要求的词语对挑选出来。然后通过步骤S3分别从待检语句的词序列中选出第一目标词序列，从相似词序列中选出与第一目标词序列对应的第二目标词序列，然后由计算第一目标词序列与第二目标词序列的句子相似度，其中，S₁表示第一目标词序列，S₂表示第二目标词序列，l表示第一目标词序列与第二目标词序列中的配对词语的数量，(w_1k,w_2k)表示语句S₁与语句S₂中第k个配对词语，sim(w_1k,w_2k)表示配对词语(w_1k,w_2k)之间的相似度。

如图2所示，作为一种可选的实施方式，在步骤S1之前，还包括构建预设倒排索引数据库的步骤，包括：

对机密文档库中的文档进行预处理，并对预处理后的文档构建倒排索引文件，在倒排索引文件中保存有词语的标识值、词语的内容、词语长度、词性、指向倒排列表的指针信息、词语所属文档的标识值、词语在文档中出现的次数以及词语在文档中出现的位置信息；

其中，文档是企业中保存重要资料的基本单位，文档中敏感信息的检测也就成为了企业敏感文档防泄漏检测的重要部分，同时，文档是通过许多的句子构成的，而句子又是由词语构成，所以中文的分词是分析文档内容的前提。

同时，由于中文文档中存在大量的对句子的实际意义没有影响，但是出现频率比较高的词语，如“的”、“啊”，即中文停用词。这些词语在程序判断两句子是否相似时会引入较大误差，所以在文档预处理过程中必须去除。可以通过建立停用词库，在分词之后对比停用词库，如果是停用词，则可以删去，对中文文档进行初步降维。

由于本发明方法要求能够找到泄漏文档的出处，这就需要我们在保存企业机密文档库中的文件时，需要保存文档词语特征的位置，即词语的位置信息。但是以文件形式保存的形式难以获取到这些信息，所以需要对企业机密文档库中的文件构建倒排索引文件。

在倒排文件的构建中，保存词语的内容、词语长度、词性以及指向倒排列表的指针信息。在倒排文件中，每一个词语索引存储了所属文档的标识值，词语在文档中出现了多少次，以及词语在文档中出现的位置列表信息。例如，倒排索引文件中详细保存的信息为：

wordID：词语ID

word：词语内容

length：词语长度

POS：词性

docs：包含该词语的文档

docID：文档ID

tf：出现次数

poses：位置信息

Wordpos：偏移值

senpos：所属句子

由于倒排文件中保存了许多文档的标识值以及词语在文档中的位置，而且倒排文件的中记录个数不能确定，同时关系型数据库在存储这种类型的数据上面没有优势，所以需要采用其他非结构化的数据库存储倒排列表信息。

存储倒排索引文件构成预设倒排索引数据库。

作为一种可选的实施方式，MongoDB是一个被使用得非常多的Nosql数据库，数据在MongoDB中保存的是文档内容，而且可以在文档中保存新的文档内容，所以可以方便的存储倒排索引信息。同时，MongoDB支持包含内部对象在内的索引，可以提高文档、词语的查询速度。因此，本发明中可以采用MongoDB数据库作为倒排索引的存储介质。

作为一种可选的实施方式，在步骤S1中，对于获取的从企业内部发送到企业外部的待检测文档信息，为了检测这个文档信息是否包含有泄漏的信息，需要从企业文档中获取到两个可能相似的句子，然后计算这两个句子之间的相似度，以此作为判定待检测文档是否包含泄漏信息的标准。

如图3所示，为了能够检索到存在泄漏的句子信息，首先需要从企业合法的文档库中利用倒排索引文件检索得到可能相似的句子的作为计算句子之间相似度的初始集。本发明实施例中采取了利用相同词语个数的方法来选取可能泄漏的句子的初始集，例如可以认为由预处理进行分词之后的两个语句的词序列中相同词语个数超过第一预设阈值时，则认为这两个句子相似，将这个句子加入到可能泄漏的句子初始集，其中，第一预设阈值可以根据需要进行确定。

作为一种可选的实施方式，判定句子是否是泄漏的句子最终归结到计算两个句子之间的相似度情况，如果两个句子相似度大于某个阈值，则可以将这个待检测文档判定为泄漏句子信息，否则可以视为安全文档。

通过相同词语的倒排索引检索到可能泄露句子的初始集之后，利用Word2Vec算法对企业内部预先建立的倒排索引数据库进行训练，利用一个三层的神经网络(输入层-隐层-输出层)将每个词映射成n维实数向量(n一般为模型中的超参数)，得到预设倒排索引数据库中所有词语的词向量。

因此，可以循环遍历两个句子中的词语，由依次计算待检语句的词序列中各词语的词向量与相似词序列中每个词语的词向量之间的相似度，其中，w_p表示待检语句的词序列中的第p个词语，w_q表示相似词序列中的第q个词语，v_pm表示w_p对应的词向量中第m维的值，v_qm表示w_q对应的词向量中第m维的值，n表示词向量的维数。

为了便于对本发明的理解，下面以一个具体实施例说明本发明的文档泄露检测方法的实现方式。

例如待检测语句为：

待检测语句

中国很可能将重点放在新式空中力量上。

对待检测语句进行中文分词以及停用词去除等过程之后得到了词语的集合为：

待检测语句词序列

中国，可能，重点，放在，新式，空中，力量

从预设倒排索引数据库中检索出的相似词序列为：

相似词序列

中国，可能，重心，放在，新型，空中，力量

经过遍历循环计算上述两个词序列中的词语相似度之后，选出的配对的相似词语为：<中国，中国>、<重点，重心>、<空中力量，空中力量>。

在上述两个词序列中，若第二预设阈值设置为3，则“重点”(重心)和“空中力量”的距离值均为3个词语，小于等于第二预设阈值，所以可以将“重点放在新式空中力量”和“重心放在新型的空中力量”看成相似的句子部分。也即将“重点放在新式空中力量”作为第一目标词序列，将“重心放在新型的空中力量”作为第二目标词序列。句子部分“中国很可能将重点放在新式空中力量上。”和“中国很可能把重心放在新型的空中力量上。”中配对词语的距离值均小于第二预设阈值，且这部分句子中包含的配对词语个数大于第一预设阈值，所以可以将这两个句子中的部分挑选出来作为相似句子处理。从而可以根据挑选出的部分语句的相似度判断待检文档是否是泄露文档。

在本发明的另一个实施例中，提供了一种文档泄露检测系统，包括：

预处理模块，用于对待检测文档中的每条待检语句，将待检语句进行预处理得到待检语句的词序列；

检索模块，用于从预设倒排索引数据库中采用倒排索引检索出与待检语句的词序列存在相同词语个数大于第一预设阈值的相似词序列；

词语相似度计算模块，用于依次计算待检语句的词序列中各词语的词向量与相似词序列中每个词语的词向量之间的相似度；

第一选取模块，用于根据相似度值依次选出待检语句的词序列与相似词序列中的配对词语(w_i，w_j)，其中，(w_i，w_j)表示在待检语句的词序列中的第i个词语与在相似词序列中的第j个词语配对，i∈(1,...,M),j∈(1,...,M)，M表示配对词语的数量；

第二选取模块，用于从待检语句的词序列中选出第一目标词序列，从相似词序列中选出与第一目标词序列对应的第二目标词序列，其中，第一目标词序列中邻近w_i的距离值小于第二预设阈值，第二目标词序列中邻近w_j的距离值小于第二预设阈值，且在第一目标词序列与第二目标词序列中的配对词语个数大于第一预设阈值；

句子相似度计算模块，用于根据第一目标词序列与第二目标词序列中的配对词语的相似度计算第一目标词序列与第二目标词序列的句子相似度；

判定模块，用于在句子相似度大于第三预设阈值时，判定待检语句为泄露语句。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文档泄露检测方法，其特征在于，包括：

依次计算所述待检语句的词序列中各词语的词向量与所述相似词序列中每个词语的词向量之间的相似度，根据相似度值依次选出所述待检语句的词序列与所述相似词序列中的配对词语(w_i,w_j)，其中，(w_i,w_j)表示在所述待检语句的词序列中的第i个词语与在所述相似词序列中的第j个词语配对，i∈(1,...,M),j∈(1,...,M)，M表示配对词语的数量；

将所述待检语句的词序列中配对成功的词语w_i之间的距离值小于等于第二预设阈值的部分选为第一目标词序列，将所述相似词序列中配对成功的词语w_j之间的距离值小于等于第二预设阈值的部分选为第二目标词序列，且在所述第一目标词序列与所述第二目标词序列中的配对词语个数大于所述第一预设阈值；

2.根据权利要求1所述的方法，其特征在于，在所述从预设倒排索引数据库中检索出与所述待检语句存在相同词语个数大于第一预设阈值的相似语句之前，所述方法还包括：

存储所述倒排索引文件构成预设倒排索引数据库。

3.根据权利要求1或2所述的方法，其特征在于，所述依次计算所述待检语句的词序列中各词语的词向量与所述相似词序列中每个词语的词向量之间的相似度，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一目标词序列与所述第二目标词序列中的配对词语的相似度计算所述第一目标词序列与所述第二目标词序列的句子相似度，包括：

5.一种文档泄露检测系统，其特征在于，包括：

第一选取模块，用于根据相似度值依次选出所述待检语句的词序列与所述相似词序列中的配对词语(w_i,w_j)，其中，(w_i,w_j)表示在所述待检语句的词序列中的第i个词语与在所述相似词序列中的第j个词语配对，i∈(1,...,M),j∈(1,...,M)，M表示配对词语的数量；

第二选取模块，用于将所述待检语句的词序列中配对成功的词语w_i之间的距离值小于等于第二预设阈值的部分选为第一目标词序列，将所述相似词序列中配对成功的词语w_j之间的距离值小于等于第二预设阈值的部分选为第二目标词序列，且在所述第一目标词序列与所述第二目标词序列中的配对词语个数大于所述第一预设阈值；

6.根据权利要求5所述的系统，其特征在于，所述系统还包括：

7.根据权利要求5或6所述的系统，其特征在于，所述词语相似度计算模块，具体用于由依次计算所述待检语句的词序列中各词语的词向量与所述相似词序列中每个词语的词向量之间的相似度，其中，w_p表示所述待检语句的词序列中的第p个词语，w_q表示所述相似词序列中的第q个词语，v_pm表示w_p对应的词向量中第m维的值，v_qm表示w_q对应的词向量中第m维的值，n表示词向量的维数。

8.根据权利要求7所述的系统，其特征在于，所述句子相似度计算模块，具体用于由计算所述第一目标词序列与所述第二目标词序列的句子相似度，其中，S₁表示所述第一目标词序列，S₂表示所述第二目标词序列，l表示所述第一目标词序列与所述第二目标词序列中的配对词语的数量，(w_1k,w_2k)表示语句S₁与语句S₂中第k个配对词语，sim(w_1k,w_2k)表示配对词语(w_1k,w_2k)之间的相似度。