CN107491424B

CN107491424B - 一种基于多权重体系的中文文档基因匹配方法

Info

Publication number: CN107491424B
Application number: CN201610416852.8A
Authority: CN
Inventors: 李岩
Original assignee: Beijing Universal Cloud Data Analytics Technology Co ltd
Current assignee: Beijing Universal Cloud Data Analytics Technology Co ltd
Priority date: 2016-06-12
Filing date: 2016-06-12
Publication date: 2020-11-06
Anticipated expiration: 2036-06-12
Also published as: CN107491424A

Abstract

本发明针对中文文档基因匹配，面向文档逃避检查场景，提出了面向28种混合文档基因特征的匹配方法，特别是首次引入多权重体系，体现体系间与体系内的基因差异化考虑，形成了统一的相似度计算公式。基于本发明的文档基因匹配方法，可精细化配置权重，减少算法条件跳转过程，可实现性和实际应用性较强。

Description

一种基于多权重体系的中文文档基因匹配方法

技术领域

本发明属于文档相似度与去重技术领域，具体涉及一种基于多权重体系的中文文档基因匹配方法。

背景技术

互联网高速、海量的数据中包含着错综复杂、种类繁多的文档。同一个文档在互联网传播的过程中，会存在对文档内容进行增删等部分修改的情况，也就产生了针对相同内容的文档变种。这对文档的匹配、溯源和传播分析等问题都造成了一定程度的障碍和挑战。

文档基因是解决上述问题的一个重要技术手段，它主要指通过对文档抽取若干特征并进行有效组合，形成为文档本质刻画的相对唯一的表征。目前对文档基因的特征分类，主要有几种：第一类是文档载体特征，主要指文件名称、文件大小、文件创建时间、文件修改时间和文件哈希值（包括MD5、SHA1、SHA265和SHA512）特征；第二类是文档属性特征，主要指固有属性和统计属性，固有属性包括文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号和文档最后一次保存者，统计属性包括文档字数、文档句数和文档段数；第三类是文档内容特征，主要是指语义要素和顺序关系，语义要素包括摘要、分词、关键词、短语、命名实体、依存句法和局部敏感哈希（包括MinHash和SimHash），顺序关系包括段间关系、句间关系。

由于具体应用的不同，目前存在的文档基因匹配算法并未利用以上所有28种基因特征。此外，文档基因相似度计算方法中，大多采用相似度加权和的方法。换句话说，虽然各种特征的权重不同，但是仍然属于一种权重体系，即

。然而在部分实际应用中，有些因子起到决定性的匹配作用，不能归属一个统一的权重体系来计算。例如，文件Hash特征的权重应该独立为1，而不是与其他特征在一个权重体系内共享

。

因此，本发明针对中文文档基因匹配，面向文档逃避检查场景，提出了面向28种混合文档基因特征的匹配方法，特别是首次引入多权重体系，体现体系间与体系内的基因差异化考虑，形成了统一的相似度计算公式。基于本发明的文档基因匹配方法，可精细化配置权重，减少算法条件跳转过程，可实现性和实际应用性较强。

发明内容

本发明的内容主要包括以下几个方面。

第一，在权重选取上，本发明提出了一种多权重体系。如表1所示。

表1 多权重体系

权重体系编号	权重体系	基因特征
			1	文件名称、文件创建时间、文件修改时间、文件大小
2		MD5
			3	SHA1
4		SHA256
			5	SHA512
6		文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号、文档最后一次保存者、文档字数、文档句数、文档段数
			7	摘要、分词、关键词、短语、命名实体、依存句法、MinHash、SimHash、段间顺序、句间顺序

第二，在文档匹配上，本发明提出了一个通过文档基因文件计算两个文档配匹配的计算方法。计算公式如下：

设

用来表示两个基因特征中的对应元素p与q的匹配度。如果p，q为数值型元素（如文件大小元素）或字符串元素（如文件名称元素），则计算方法如公式1所示。

（公式1）。

如果p，q为字符串向量元素（如关键词），则计算方法如公式2所示，

（其中|p|为p向量的长度，|q|为q向量的长度）（公式2）。

设

为第n个权重体系的匹配度（n=1,2,3,4,5,6,7），

为两文档匹配的文档基因匹配度，计算方法如公式6-10所示。

（公式3）。

（公式4）。

（公式5）。

（公式6）。

（公式7）。

（公式8）。

（公式9）。

（公式10）。

最终匹配结果，与现有技术相比，本发明的有益效果如下：

1）差异化权重类别，便于精细化配置权重，有利于匹配方法的权重细粒度调整。

2）统一多权重体系的计算公式，可大大减少算法条件跳转过程。

3）对于存在对多体系权重敏感的应用，可有效提高文档基因匹配准确率。

附图说明

图1是本发明方法的文档基因组成要素。

图2是本发明方法的文档基因提取并生成文档基因的流程图。

图3是本发明方法的文档基因文件进行文档匹配的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步说明。

图1 为文档基因组成要素示意图。文档基因由文档载体特征、文档属性特征和文档内容特征组成。文档载体特征是由文件名称、文件大小、文件创建时间、文件修改时间和文件哈希值（包括MD5、SHA1、SHA265和SHA512）组成；文档属性特征是由固有属性和统计属性组成，固有属性包括文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号、文档最后一次保存者，统计属性包括文档字数、文档句数和文档段数；文档内容特征是由语义要素和顺序关系组成，语义要素包括摘要、分词、关键词、短语、命名实体识别、依存句法分析和局部敏感哈希（包括MinHash和SimHash），顺序关系包括段间顺序和句间顺序。

图2描述了文档基因提取并生成文档基因的流程图。其主要包括以下核心步骤。

（1）接受需要处理的文档文件；

（2）获取文档文件的类型，判断是否可以处理，如果不可以处理，跳转到步骤（20）；

（3）对文档文件进行预处理，解决文档字符编码问题；

（4）调用操作系统的API获取文件名称、文件大小、文件创建时间、文件修改时间等文件基本的特征属性；

（5）使用MD5、SHA1、SHA256和SHA512哈希算法计算文档文件的哈希值；

（6）汇总文件名称、文件大小、文件创建时间、文件修改时间和文件哈希值（包括MD5、SHA1、SHA256和SHA512），综合形成文档文件的载体特征；

（7）读取文档获取文档的附加信息，包括文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号和文档最后一次保存者等文档固有属性信息；

（8）读取文档统计文档内容的信息，包括统计字数、句数和段数；

（9）汇总固有属性（包括文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号和文档最后一次保存者等）和统计属性（包括文档字数、文档句数和文档段数）综合形成文档文件的属性特征；

（10）使用N-最短路径算法来进行获取分词，得到文档的分词结果；

（11）使用步骤（10）的分词结果，通过TextRank算法获取摘要；

（12）使用步骤（10）的分词结果，通过TextRank算法获取关键词；

（13）使用步骤（10）的分词结果，通过基于互信息和左右信息熵提取识别短语；

（14）使用步骤（10）的分词结果，使用基于层叠隐马尔可夫模型的方法，提取命名实体；

（15）对文档进行基于CRF序列标注的中文依存句法分析；

（16）使用MinHash和SimHash算法分别计算文档MinHash值和SimHash值，组合形成局部敏感哈希；

（17）使用步骤（13）的短语结果，使用短语顺序组来标识一个段落或者一个句子，按照出现顺序为每个段落短语顺序组和句子短语顺序组赋予一个顺序值。使用段落短语顺序组和顺序值来表示段间顺序；使用句子短语顺序组和顺序值来表示句间顺序。

（18）汇总文档语义要素（包括分词、摘要、关键词、短语、命名实体、依存句法和局部敏感哈希值等）和顺序关系（包括段间顺序和句间顺序），综合形成文档的内容特征；

（19）将获取到的文档载体特征、文档属性特征和文档内容特征进行组合，形成文档基因；

（20）流程结束；

图3描述了通过文档基因文件进行文档匹配的流程图。其主要包括以下核心步骤。

（1）获取源文件的文档基因文件；

（2）获取匹配文件的文档基因文件；

（3）对获取到的文档基因文件进行校验；

（4）判断获取到的文档基因文件是否校验成功，如果失败，跳转到步骤（15）；

（5）获取一个文档基因特征的两文档基因的数据，分别记为q和p；

（6）判断p和q是否为数值型，如果是，跳转到步骤（9）；

（7）判断p和q是否为向量型，如果是，跳转到步骤（15）；

（8）使用公式2计算

，跳转到步骤（10）；

（9）使用公式1计算

；

（10）判断是否为最后一个基因特征，如果否，跳转到步骤（5）；

（11）查询多权重体系表，获取到文档基因特征的权重体系，记其编号为i；

（12）查询多权重体系计算公式，获取到计算公式

；

（13）通过公式10统计计算文档基因匹配度；

（14）输出结果；

（15）流程结束；

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于多权重体系的中文文档基因匹配方法，其步骤包括：

步骤1)将文档载体特征、文档属性特征、文档内容特征组成的28种混合特征分为7类特征组；

7类特征组中，第一类：文件名称、文件创建时间、文件修改时间和文件大小；第二类：文件哈希值MD5；第三类：文件哈希值SHA1；第四类：文件哈希值SHA256；第五类：文件哈希值SHA512；第六类：文档类型、文档标题、文档类别、文档备注、文档作者、文档修订号、文档最后一次保存者、文档字数、文档句数和文档段数；第七类：摘要、分词、关键词、短语、命名实体、依存句法、局部敏感哈希MinHash、局部敏感哈希SimHash、段间顺序和句间顺序；

步骤2)对7类特征组分别构建独立的权重体系；

步骤3)基于多权重体系，对两个文档的中文文档基因进行匹配，具体包括：

(1)获取源文件的文档基因文件；

(2)获取匹配文件的文档基因文件；

(3)对获取到的文档基因文件进行校验；

(4)判断获取到的文档基因文件是否校验成功，如果失败，跳转到步骤(13)；

(5)获取一类特征组的文档基因特征的两文档基因的数据，分别记为p和q；

(6)判断p和q是否为数值型，如果是，跳转到步骤(8)；

(7)判断p和q是否为向量型，如果是，跳转到步骤(9)；

(8)使用公式(1)计算p和q的匹配度：