CN111159115A

CN111159115A - 相似文件检测方法、装置、设备及存储介质

Info

Publication number: CN111159115A
Application number: CN201911399396.0A
Authority: CN
Inventors: 郭少佳
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-15

Abstract

本发明公开了一种相似文件检测方法、装置、设备及存储介质，通过对待检测文件中出现的字符进行统计，获得各字符的出现频率；将各字符的出现频率作为所述待检测文件的目标文件指纹；将所述目标文件指纹与文件指纹库中的各文件指纹进行对比，获得所述目标文件指纹与各文件指纹的相似度；将相似度最高的文件指纹作为匹配文件指纹，并将所述目标文件指纹与所述匹配文件指纹的相似度作为文件相似度，能够提高文档相似度识别的准确率，降低了文档相似度的误判，减少了内存占用和时间的消耗，提高了文档相似度识别的速度和效率，提升了用户体验。

Description

相似文件检测方法、装置、设备及存储介质

技术领域

本发明涉及文档数据安全领域，尤其涉及一种相似文件检测方法、装置、设备及存储介质。

背景技术

机密文档检测是保证文档数据安全的核心技术，在传统业务场景中，它主要部署于终端数据泄密防护系统(Data leakage prevention，DLP)和网路DLP，负责识别出带测文档中包含的机密信息，并交由后续模块采取阻断、报警等相应处理措施。

传统方案一般使用的机密文档检测的方法都均局限在语义层面，即使用一些自然语言处理(Natural Language Processing，NLP)的方法，通过分析比较文章语义主题的相似性来检测机密文档；但此方法在实际应用场景中存在较大的缺陷：语义的相似并不能判断机密文档之间是真的相似，即语义的相似并不代表两份文档的内容相似；

而通过直接比较文档的字/字符来判断相似度，则计算成本是非常高的，不论从内存占用还是时间消耗上都不可接受。

发明内容

本发明的主要目的在于提供一种相似文件检测方法、装置、设备及存储介质，旨在解决现有技术中单纯以语义判断机密文档的相似程度准确度不高，且单纯以字符判断相似度运算成本较高的技术问题。

为实现上述目的，本发明提供一种相似文件检测方法，所述相似文件检测方法包括以下步骤：

对待检测文件中出现的字符进行统计，获得各字符的出现频率；将各字符的出现频率作为所述待检测文件的目标文件指纹；

将所述目标文件指纹与文件指纹库中的各文件指纹进行对比，获得所述目标文件指纹与各文件指纹的相似度；

将相似度最高的文件指纹作为匹配文件指纹，并将所述目标文件指纹与所述匹配文件指纹的相似度作为文件相似度。

优选地，所述对待检测文件中出现的字符进行统计，获得各字符的出现频率；将各字符的出现频率作为所述待检测文件的目标文件指纹之前，所述相似文件检测方法还包括：

获取用户标记文件；

获取所述用户标记文件的各字符，统计各字符的出现频率，将各出现频率上传至数据防泄密分析系统中，生成文件指纹库。

优选地，所述获取所述用户标记文件的各字符，统计各字符的出现频率，将各出现频率上传至数据防泄密分析系统中，生成文件指纹库，包括：

获取所述用户标记文件的各字符；

将各字符的格式转换为预设编码格式，并统计转换后各字符在所述用户标记文件中出现的次数，获得各字符对应的出现频率；

将所述出现频率和所述用户标记文件对应的文件信息上传至数据防泄密分析系统中，生成文件指纹库。

优选地，所述对待检测文件中出现的字符进行统计，获得各字符的出现频率；将各字符的出现频率作为所述待检测文件的目标文件指纹，包括：

获取待检测文件对应的各目标中文字符；

将各目标中文字符的格式转换为预设编码格式，并统计转换后各目标中文字符在所述待检测文件中出现的次数，获得各目标中文字符对应的目标出现频率；

根据所述目标出现频率生成与所述待检测文件对应的目标文件指纹。

优选地，所述将所述目标文件指纹与文件指纹库中的各文件指纹进行对比，获得所述目标文件指纹与各文件指纹的相似度，包括：

获取所述目标文件指纹中目标出现频率最高的前K个字符的目标集合；

获取所述文件指纹库中各文件指纹中出现频率最高的前K个字符的各样本集合，K为正整数；

分别获取所述目标集合和各样本集合的并集；

获得各并集中所述目标集合和所述各样本集合的概率分布系数，根据各概率分布系数确定所述目标文件指纹与各文件指纹的相似度。

优选地，所述获得各并集中所述目标集合和所述各样本集合的概率分布系数，根据各概率分布系数确定所述目标文件指纹与各文件指纹的相似度，包括：

获取所述目标集合在当前并集中的目标概率分布系数，并获取当前样本集合在所述当前并集中的样本概率分布系数；

根据所述目标概率分布系数和所述样本概率分布系数确定所述目标文件指纹与当前文件指纹的相似度；

遍历各样本集合，直至获得所述目标文件指纹与各文件指纹的相似度。

优选地，所述根据所述目标概率分布系数和所述样本概率分布系数确定所述目标文件指纹与当前文件指纹的相似度，包括：

根据所述目标概率分布系数和所述样本概率分布系数利用下述公式计算获得所述目标文件指纹与当前文件指纹的相似度：

其中，similarity为所述目标文件指纹与当前文件指纹的相似度，p_i为所述目标概率分布系数，q_i为所述样本概率分布系数，n为所述当前并集中元素的数量。

优选地，所述将相似度最高的文件指纹作为匹配文件指纹，并将所述目标文件指纹与所述匹配文件指纹的相似度作为文件相似度之后，所述相似文件检测方法还包括：

将所述文件相似度与预设相似度阈值进行对比，判断所述文件相似度是否小于所述预设相似度阈值；

若所述文件相似度小于所述预设相似度阈值，则将所述待检测文件作为待外发文件；

若所述文件相似度大于或等于所述预设相似度阈值，则对所述待检测文件进行阻断或拦截，禁止所述待检测文件外发。

优选地，若所述文件相似度小于所述预设相似度阈值，则将所述待检测文件作为待外发文件之后，所述相似文件检测方法还包括：

根据预设监控策略对所述待外发文件进行监控，并根据监控结果对所述待外发文件进行处理。

此外，为实现上述目的，本发明还提出一种相似文件检测设备，所述相似文件检测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的相似文件检测程序，所述相似文件检测程序配置为实现如上文所述的相似文件检测方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有相似文件检测程序，所述相似文件检测程序被处理器执行时实现如上文所述的相似文件检测方法的步骤。

此外，为实现上述目的，本发明还提供一种相似文件检测装置，所述相似文件检测装置包括：

指纹生成模块，用于对待检测文件中出现的字符进行统计，获得各字符的出现频率；将各字符的出现频率作为所述待检测文件的目标文件指纹；

比对模块，用于将所述目标文件指纹与文件指纹库中的各文件指纹进行对比，获得所述目标文件指纹与各文件指纹的相似度；

输出模块，用于将相似度最高的文件指纹作为匹配文件指纹，并将所述目标文件指纹与所述匹配文件指纹的相似度作为文件相似度。

本发明提出的相似文件检测方法，通过对待检测文件中出现的字符进行统计，获得各字符的出现频率；将各字符的出现频率作为所述待检测文件的目标文件指纹；将所述目标文件指纹与文件指纹库中的各文件指纹进行对比，获得所述目标文件指纹与各文件指纹的相似度；将相似度最高的文件指纹作为匹配文件指纹，并将所述目标文件指纹与所述匹配文件指纹的相似度作为文件相似度，能够提高文档相似度识别的准确率，降低了文档相似度的误判，减少了内存占用和时间的消耗，提高了文档相似度识别的速度和效率，提升了用户体验。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的相似文件检测设备结构示意图；

图2为本发明相似文件检测方法第一实施例的流程示意图；

图3为本发明相似文件检测方法的应用场景图；

图4为本发明相似文件检测方法第二实施例的流程示意图；

图5为本发明相似文件检测方法的指纹库生成示例图；

图6为本发明相似文件检测方法第三实施例的流程示意图；

图7为本发明相似文件检测方法第三实施例的流程示意图；

图8为本发明相似文件检测装置第一实施例的功能模块图；

图9为本发明相似文件检测装置第二实施例的功能模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的解决方案主要是：本发明通过对待检测文件中出现的字符进行统计，获得各字符的出现频率；将各字符的出现频率作为所述待检测文件的目标文件指纹；将所述目标文件指纹与文件指纹库中的各文件指纹进行对比，获得所述目标文件指纹与各文件指纹的相似度；将相似度最高的文件指纹作为匹配文件指纹，并将所述目标文件指纹与所述匹配文件指纹的相似度作为文件相似度，能够提高文档相似度识别的准确率，降低了文档相似度的误判，减少了内存占用和时间的消耗，提高了文档相似度识别的速度和效率，提升了用户体验，解决了现有技术中单纯以语义判断机密文档的相似程度准确度不高，且单纯以字符判断相似度运算成本较高的技术问题。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的相似文件检测设备结构示意图。

如图1所示，该相似文件检测设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory，RAM)存储器，也可以是稳定的存储器(Non-volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的相似文件检测设备结构并不构成对该相似文件检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作装置、网络通信模块、用户端接口模块以及相似文件检测程序。

本发明相似文件检测设备通过处理器1001调用存储器1005中存储的相似文件检测程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的相似文件检测程序，还执行以下操作：

获取用户标记文件；

获取所述用户标记文件的各字符；

获取待检测文件对应的各目标中文字符；

分别获取所述目标集合和各样本集合的并集；

获取所述目标集合在当前并集中的目标概率分布系数；

获取当前样本集合在所述当前并集中的样本概率分布系数；

本实施例通过上述方案，通过对待检测文件中出现的字符进行统计，获得各字符的出现频率；将各字符的出现频率作为所述待检测文件的目标文件指纹；将所述目标文件指纹与文件指纹库中的各文件指纹进行对比，获得所述目标文件指纹与各文件指纹的相似度；将相似度最高的文件指纹作为匹配文件指纹，并将所述目标文件指纹与所述匹配文件指纹的相似度作为文件相似度，能够提高文档相似度识别的准确率，降低了文档相似度的误判，减少了内存占用和时间的消耗，提高了文档相似度识别的速度和效率，提升了用户体验。

基于上述硬件结构，提出本发明相似文件检测方法实施例。

参照图2，图2为本发明相似文件检测方法第一实施例的流程示意图。

在第一实施例中，所述相似文件检测方法包括以下步骤：

步骤S10、对待检测文件中出现的字符进行统计，获得各字符的出现频率。

可以理解的是，通过对待检测文件中出现的字符统计，进而可以通过统计的字符次数生成各字符的出现频率。

步骤S20、将各字符的出现频率作为所述待检测文件的目标文件指纹。

需要说明的是，所述待检测文件为需要进行检测的文件，所述待检测文件可以是用户准备外发的文件，也可以是指定某一存储空间内的文件，还可以是外部输入的文件，当然也可以是其他需要进行检测的文件，本实施例对此不加以限制，所述目标文件指纹为包含所述待检测文件的文件属性和文件详细信息的标识性信息，不同的待检测文件对应不同的文件指纹。

进一步地，所述步骤S20具体包括以下步骤：

获取待检测文件对应的各目标中文字符；

应当理解的是，通过将所述待检测文件对应的各目标中文字符转换为统一码预设编码格式，可以快速统计出各字符在所述待检测文件中出现的次数，即出现频率，进而根据目标出现频率可以生成对应的目标文件指纹。

步骤S30、将所述目标文件指纹与文件指纹库中的各文件指纹进行对比，获得所述目标文件指纹与各文件指纹的相似度。

可以理解的是，所述文件指纹库为预先设置的存储有大量不同文件的文件指纹的数据库，通过将所述目标文件指纹与文件指纹库中的各文件指纹进行对比，可以确定所述目标文件指纹与各文件指纹匹配的相似度。

在具体实现中，所述文件指纹库一般支持多个文件，多个文件指纹保存在同一个文件形成指纹库，所述文件指纹库的指纹库结构可以是[文件名1]；[字符1][字符1出现次数][字符2][字符2出现次数]；以及[文件名2]；[字符1][字符1出现次数][字符2][字符2出现次数]，当然还可以是其他不同结构，例如添加不同字符的关联度，显示字符出现次数排行等更多或更少的指纹库结构，本实施例对此不加以限制。

步骤S40、将相似度最高的文件指纹作为匹配文件指纹，并将所述目标文件指纹与所述匹配文件指纹的相似度作为文件相似度。

应当理解的是，在所述目标文件指纹与各文件指纹进行对比，并获得对应的相似度后，可以进行相似度的排序，从中挑选出相似度最高的文件指纹作为匹配文件指纹，并将所述目标文件指纹与所述匹配文件指纹的相似度作为文件相似度，一般的可以通过相似机密文档的列表输出文件相似度，且本实施例的待检测文件不限于中文，还可以是英文等其他语言的文件，本实施例对此不加以限制。

在具体实现中，如图3所示，所述图3为本发明相似文件检测方法的应用场景图，参见图3，检测设备100从网络端200获得待检测文件，通过获得所述待检测文件的文件相似度、通过所述文件相似度确定是否将所述待检测文件作为外发文件进行外发，若可以作为外发文件进行外发，则将所述外发文件发送至所述网络端200，并通过所述网络端200将所述外发文件发送至用户端300。

进一步地，图4为本发明相似文件检测方法第二实施例的流程示意图，如图4所示，基于第一实施例提出本发明相似文件检测方法第二实施例，在本实施例中，所述步骤S10之前，所述相似文件检测方法还包括以下步骤：

步骤S001、获取用户标记文件。

需要说明的是，所述用户标记文件一般为非常敏感的文件，例如公司内部的研发文档，通过获取用户标记文件可以为后续文件指纹库的建立做准备；一般的通过用户将机密文件样本上传到数据防泄密分析系统(Data leakage analytics，DLA)再通过相应标识来获得用户标记文件，进一步缩减了文档相似度识别的时间成本和运算成本。

步骤S002、获取所述用户标记文件的各字符，统计各字符的出现频率，将各出现频率上传至数据防泄密分析系统中，生成文件指纹库。

可以理解的是，所述用户标记文件中包含对应的大量中文字符，通过将所述用户标记文件的中文字符上传至数据防泄密分析系统中，可以换生成文件指纹库，机密文件上传到系统后一般以文件形式保存在系统中。

进一步地，所述步骤S002具体包括以下步骤：

获取所述用户标记文件的各字符；

应当理解的是，所述用户标记文件中包含着大量的中文字符，通过对各字符进行格式转换，能够方便统计各字符对应的出现频率，具体是通过将各字符的格式转换为统一码预设编码格式，并统计转换后各字符在所述用户标记文件中出现的次数，从而根据出现的次数确定各字符对应的出现频率，将所述出现频率和所述用户标记文件对应的文件信息上传至DLA中，可以生成文件指纹库。

在具体实现中，如图5所示，图5为本发明相似文件检测方法的指纹库生成示例图，参见图5，通过将文件内容“中国人在中国”进行翻译，对应的指纹可以翻译成：./test.txt；.20013.2.22269.2.20154.1；相应的指纹库结构可以为[文件名1]；[字符1][字符1出现次数][字符2][字符2出现次数]；[文件名2]；[字符1][字符1出现次数][字符2][字符2出现次数]，当然还可以是其他不同结构，本实施例对此不加以限制对此不加以限制。

本实施例通过上述方案，通过获取用户标记文件；获取所述用户标记文件的各字符，统计各字符的出现频率，将各出现频率上传至数据防泄密分析系统中，生成文件指纹库，能够进一步缩减文档相似度识别的时间成本和运算成本，提高文档相似度识别的准确率，降低了文档相似度的误判，减少了内存占用和时间的消耗，提高了文档相似度识别的速度和效率，提升了用户体验。

进一步地，图6为本发明相似文件检测方法第三实施例的流程示意图，如图6所示，基于第二实施例提出本发明相似文件检测方法第三实施例，在本实施例中，所述步骤S30具体包括以下步骤：

步骤S31、获取所述目标文件指纹中目标出现频率最高的前K个字符的目标集合。

可以理解的是，每篇文章频率最高的前K个字符是不一致的，通过获取所述目标文件指纹中目标出现频率最高的前K个字符的目标集合可以为后续文件相似度检测做准备。

步骤S32、获取所述文件指纹库中各文件指纹中出现频率最高的前K个字符的各样本集合，K为正整数。

应当理解的是，不同的文件指纹中频率最高的前K个字符是不一样的，通过获取所述文件指纹库中各文件指纹的各样本集合可以为后续文件相似度检测做准备。

步骤S33、分别获取所述目标集合和各样本集合的并集。

可以理解的是，通过获取所述目标集合和各样本集合的并集可以作为比较两篇文章的基准，即获取待检测文件与所述文件指纹库中各文件指纹对应的各样本文件之间的相似度。

步骤S34、获得各并集中所述目标集合和所述各样本集合的概率分布系数，根据各概率分布系数确定所述目标文件指纹与各文件指纹的相似度。

应当理解的是，通过各并集中所述目标集合和各样本集合的概率分布，即各并集中在目标集合的元素占有比例，各并集中对应的样本集合的元素占有比例，通过相应的概率分布系数可以确定所述目标文件指纹与各文件指纹的相似度。

进一步地，所述步骤S34具体包括以下步骤：

获取所述目标集合在当前并集中的目标概率分布系数；

获取当前样本集合在所述当前并集中的样本概率分布系数；

需要说明的是，所述目标概率分布系数为所述目标集合在当前并集中的元素占有比例，所述样本概率分布系数为所述当前样本集合在当前并集中的元素占有比例，通过所述目标概率分布系数和所述样本概率分布系数可以确定所述目标文件指纹与当前文件指纹的相似度，不同的并集对应不同的样本集合，通过遍历各样本集合可以获得不同样本集合与所述待检测文件的相似度，即所述目标文件指纹与各文件指纹的相似度。

进一步地，所述步骤根据所述目标概率分布系数和所述样本概率分布系数确定所述目标文件指纹与当前文件指纹的相似度，具体包括以下步骤：

在具体实现中，通过对每个外发文件与指纹库的对比，能得出外发文件与指纹库文件的相似度，进而找出相似度高的机密文件，相似度指数支持配置，默认达到70％为高相似度，当然也可以是其他相似度指数作为高相似度指标，一般的取A中出现次数最多的前K个字符和B中出现次数最多的前K个字符，取他们的并集U，那么U中元素的数量n在K和2K之间；对U中的字符，其在A中出现的频率为a1，a2，......,an，定义A在U上的概率分布为p1＝a1/sum，p2＝a2/sum，......，pn＝an/sum；同理B在U上的概率分布为q1,q2,......,qn；此时，若两篇文档完全一致，那么U中有20个元素，A、B在U上的分布相同，即Similarity＝1，同样地，若完全不一致，则U有40个元素，且其中A的20个元素在B中出现次数为0，B的20个元素在A中出现次数为0，因此此时Similarity＝0。

本实施例通过上述方案，通过获取所述目标文件指纹中目标出现频率最高的前K个字符的目标集合；获取所述文件指纹库中各文件指纹中出现频率最高的前K个字符的各样本集合，K为正整数；分别获取所述目标集合和各样本集合的并集；获得各并集中所述目标集合和所述各样本集合的概率分布系数，根据各概率分布系数确定所述目标文件指纹与各文件指纹的相似度，能够提高文档相似度识别的准确率，降低了文档相似度的误判，减少了内存占用和时间的消耗，提高了文档相似度识别的速度和效率，提升了用户体验。

进一步地，图7为本发明相似文件检测方法第三实施例的流程示意图，如图7所示，基于第一实施例提出本发明相似文件检测方法第四实施例，在本实施例中，所述步骤S40之后，所述相似文件检测方法还包括以下步骤：

步骤S50、将所述文件相似度与预设相似度阈值进行对比，判断所述文件相似度是否小于所述预设相似度阈值。

需要说明的是，所述预设相似度阈值为预先设置的相似度阈值，可以根据大量实验数据训练获得的相似度阈值，也可以是根据技术人员的实际操作经验确定的相似度阈值，当然还可以是通过其他方式确定的相似度阈值，通过将所述文件相似度与预设相似度阈值进行对比，判断所述文件相似度是否小于所述预设相似度阈值，可以为后续所述待检测文件是否进行外发操作做准备。

步骤S60、若所述文件相似度小于所述预设相似度阈值，则将所述待检测文件作为待外发文件。

可以理解的是，通过将所述文件相似度小于所述预设相似度阈值，可以确定所述待检测文件不是用户标记文件，即不是机密文件，此时可以将所述待检测文件进行待外发文件。

步骤S70、若所述文件相似度大于或等于所述预设相似度阈值，则对所述待检测文件进行阻断或拦截，禁止所述待检测文件外发。

应当理解的是，在所述文件相似度大于或等于所述预设相似度阈值，则可以对所述待检测文件进行阻断或拦截，从而禁止所述待检测文件外发，即避免了机密文件被外发从而导致用户数据被泄露的风险，从而保障了用户数据的安全性。

进一步地，所述步骤S60之后，所述相似文件检测方法还包括以下步骤：

应当理解的是，所述预设监控策略为预先设置的监控策略，通过所述预设监控策略可以对所述待外发文件进行监控，所述预设监控策略可以为实时监控策略，也可以为周期性监控策略，本实施例对此不加以限制；根据监控结果对所述待外发文件进行处理，即根据监控结果可以对所述待外发文件进行阻断、报警或生成文件报告等处理措施。

本实施例通过上述方案，通过将所述文件相似度与预设相似度阈值进行对比，判断所述文件相似度是否小于所述预设相似度阈值；若所述文件相似度小于所述预设相似度阈值，则将所述待检测文件作为待外发文件；若所述文件相似度大于或等于所述预设相似度阈值，则对所述待检测文件进行阻断或拦截，禁止所述待检测文件外发；能够避免了机密文件被外发从而导致用户数据被泄露的风险，从而保障了用户数据的安全性。

基于上述相似文件检测方法的实施例，本发明进一步提供一种相似文件检测装置。

参照图8，图8为本发明相似文件检测装置第一实施例的功能模块图。

本发明相似文件检测装置第一实施例中，该相似文件检测装置包括：

统计模块10，用于对待检测文件中出现的字符进行统计，获得各字符的出现频率。

指纹生成模块20，用于将各字符的出现频率作为所述待检测文件的目标文件指纹。

比对模块30，用于将所述目标文件指纹与文件指纹库中的各文件指纹进行对比，获得所述目标文件指纹与各文件指纹的相似度。

在具体实现中，所述文件指纹库一般支持多个文件，多个文件指纹保存在同一个文件形成指纹库，所述文件指纹库的指纹库结构可以是[文件名1]；[字符1][字符1出现次数][字符2][字符2出现次数]；[文件名2]；[字符1][字符1出现次数][字符2][字符2出现次数]，当然还可以是其他不同结构，例如添加不同字符的关联度，显示字符出现次数排行等更多或更少的指纹库结构，本实施例对此不加以限制。

输出模块40，用于将相似度最高的文件指纹作为匹配文件指纹，并将所述目标文件指纹与所述匹配文件指纹的相似度作为文件相似度。

应当理解的是，在所述目标文件指纹与各文件指纹进行对比，并获得对应的相似度后，可以进行相似度的排序，从中挑选出相似度最高的文件指纹作为匹配文件指纹，并将所述目标文件指纹与所述匹配文件指纹的相似度作为文件相似度。

其中，相似文件检测装置的各个功能模块实现的步骤可参照本发明相似文件检测方法的各个实施例，此处不再赘述。

进一步地，本发明数据代理装置第一实施例，提出本发明相似文件检测装置第二实施例，参照图9，图9为本发明相似文件检测装置第二实施例的功能模块图，基于本发明相似文件检测装置第一实施例，该相似文件检测装置还包括：

判断模块50，用于将所述文件相似度与预设相似度阈值进行对比，判断所述文件相似度是否小于所述预设相似度阈值。

外发模块60，用于若所述文件相似度小于所述预设相似度阈值，则将所述待检测文件作为待外发文件。

处理模块70，用于若所述文件相似度大于或等于所述预设相似度阈值，则对所述待检测文件进行阻断或拦截，禁止所述待检测文件外发。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有相似文件检测程序，所述相似文件检测程序被处理器执行时实现如下操作：

进一步地，所述相似文件检测程序被处理器执行时还实现如下操作：

获取用户标记文件；

获取所述用户标记文件的各字符；

获取待检测文件对应的各目标中文字符；

分别获取所述目标集合和各样本集合的并集；

获取所述目标集合在当前并集中的目标概率分布系数；

获取当前样本集合在所述当前并集中的样本概率分布系数；

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种相似文件检测方法，其特征在于，所述相似文件检测方法，包括：

对待检测文件中出现的字符进行统计，获得各字符的出现频率；

将各字符的出现频率作为所述待检测文件的目标文件指纹；

2.如权利要求1所述的相似文件检测方法，其特征在于，所述将各字符的出现频率作为所述待检测文件的目标文件指纹之前，所述相似文件检测方法还包括：

获取用户标记文件；

3.如权利要求2所述的相似文件检测方法，其特征在于，所述获取所述用户标记文件的各字符，统计各字符的出现频率，将各出现频率上传至数据防泄密分析系统中，生成文件指纹库，包括：

获取所述用户标记文件的各字符；

4.如权利要求3所述的相似文件检测方法，其特征在于，所述对待检测文件中出现的字符进行统计，获得各字符的出现频率；将各字符的出现频率作为所述待检测文件的目标文件指纹，包括：

获取待检测文件对应的各目标中文字符；

5.如权利要求4所述的相似文件检测方法，其特征在于，所述将所述目标文件指纹与文件指纹库中的各文件指纹进行对比，获得所述目标文件指纹与各文件指纹的相似度，包括：

分别获取所述目标集合和各样本集合的并集；

6.如权利要求5所述的相似文件检测方法，其特征在于，所述获得各并集中所述目标集合和所述各样本集合的概率分布系数，根据各概率分布系数确定所述目标文件指纹与各文件指纹的相似度，包括：

7.如权利要求6所述的相似文件检测方法，其特征在于，所述根据所述目标概率分布系数和所述样本概率分布系数确定所述目标文件指纹与当前文件指纹的相似度，包括：

8.如权利要求1-7中任一项所述的相似文件检测方法，其特征在于，所述将相似度最高的文件指纹作为匹配文件指纹，并将所述目标文件指纹与所述匹配文件指纹的相似度作为文件相似度之后，所述相似文件检测方法还包括：

9.如权利要求8所述的相似文件检测方法，其特征在于，所述若所述文件相似度小于所述预设相似度阈值，则将所述待检测文件作为待外发文件之后，所述相似文件检测方法还包括：

10.一种相似文件检测装置，其特征在于，所述相似文件检测装置包括：

11.一种相似文件检测设备，其特征在于，所述相似文件检测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的相似文件检测程序，所述相似文件检测程序配置为实现如权利要求1-9中任一项所述的相似文件检测方法的步骤。

12.一种存储介质，其特征在于，所述存储介质上存储有相似文件检测程序，所述相似文件检测程序被处理器执行时实现如权利要求1-9中任一项所述的相似文件检测方法的步骤。