CN104216968A

CN104216968A - 一种基于文件相似度的排重方法及系统

Info

Publication number: CN104216968A
Application number: CN201410421951.6A
Authority: CN
Inventors: 易乔治; 管晏
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2014-08-25
Filing date: 2014-08-25
Publication date: 2014-12-17

Abstract

本发明公开了一种基于文件相似度的排重方法及系统，涉及文字相似度的计算和检测领域。该方法包括以下步骤：抽取需要比对的文件，生成纯文字；对纯文字进行规范化处理，生成规范文字单元；将规范文字单元进行编码，通过编码算法生成一种固定长度、且不可逆转的代表码；对需要比对的文件的代表码的关键词进行抽取，生成关键词序列；根据需要比对的句子的关键词序列，计算需要比对的句子的词形相似度和词序相似度；根据需要比对的句子的词形相似度和词序相似度，计算需要比对的句子的相似度；根据句子的相似度计算需要比对的文件的相似度。本发明不仅能够适用于中国文字，便于国内用户使用，而且比对相似文件的精准度较高。

Description

一种基于文件相似度的排重方法及系统

技术领域

本发明涉及文字相似度的计算和检测领域，具体涉及一种基于文件相似度的排重方法及系统。

背景技术

文件相似度计算方法是一种利用文件自身的信息(文件内容和连接信息)，进行分析和计算出文件的相似度方法。随着时代的进步，文件相似度计算方法已经广泛的应用到各个领域(例如信息检索、协同推荐系、图书馆分类系统等相关领域)。

现有的检测文件相似度的方法一般包括以下步聚：

(1)对提交的文件集合中每个文件进行基本简化处理后，将每个文件分割成连续的标记块；在标记块中保留一定数量的代表性标记块；将代表性标记块制成独有的代表指纹，利用不同的代表指纹对不同的文件进行签名。

(2)判断2份文件的签名的指纹是否相同，若是，则所述2份文件相互关联，属于相似文件，否则所述2份文件没有关联，不属于相似文件。

但是，现有的检测文件相似度的方法使用时，存在以下缺陷：

现有的检测文件相似度的方法主要针对西方语言(例如英文)，由于进行标记块的分割时，中文的中文词组的分割完全不同于英文，因此，现有的检测文件相似度的方法无法对东方语言(例如中文)进行处理，其适用范围比较单一，我国无法使用。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种基于文件相似度的排重方法及系统，不仅能够适用于中国文字，便于国内用户使用，而且比对相似文件的精准度较高。

为达到以上目的，本发明采取的技术方案是：一种基于文件相似度的排重方法，包括以下步骤：

A、抽取需要比对的文件，生成纯文字；

B、对纯文字进行规范化处理，生成规范文字单元；文字单元包括段落、句子和关键词；

C、将规范文字单元进行编码，通过编码算法生成一种固定长度、且不可逆转的代表码；

D、对需要比对的文件的代表码的关键词进行抽取，生成关键词序列；根据需要比对的句子的关键词序列，计算需要比对的句子的词形相似度和词序相似度；根据需要比对的句子的词形相似度和词序相似度，计算需要比对的句子的相似度；根据句子的相似度计算需要比对的文件的相似度。

在上述技术方案的基础上，步骤B中所述对纯文字进行规范化处理，生成规范文字单元包括以下步骤：

B1、将纯文字分拆为文字单元；

B2、对文字单元进行规范化处理；

B3、去除规范化处理后的文字单元中的无意义信息，生成规范文字单元。

在上述技术方案的基础上，步骤B3中所述无意义信息包括没有实质意义的文字。

在上述技术方案的基础上，步骤C中的编码算法包括单向散列MD5算法、数据加密SHA-1算法和杂凑函数SHA-2算法中的至少一种。

在上述技术方案的基础上，步骤D中所述对需要比对的文件的代表码的关键词进行抽取，生成关键词序列时，包括以下步骤：

D1、选择代表码的句子中的任一关键词；

D2、判断该关键词是否为名词、代词、动词和形容词中的任意一种，若是，抽取w，转到步骤D3；否则选择下一个关键词，并重新执行步骤D2；

D3、将所有抽取的关键词组成当前句子的关键词序列。

在上述技术方案的基础上，步骤D中所述根据需要比对的句子的关键词序列，计算需要比对的句子的词形相似度的计算公式如下：

Sim_word(S1,S2)＝2·(Same_word(S1,S2)/(LenS1+LenS2)；

其中Sim_word(S1,S2)为需要比对的句子S1、S2的词形相似度，Same_word(S1,S2)为S1、S2中所含相同词或同义词的个数，LenS1为S1中所含关键词的个数，LenS2为S2中所含关键词的个数。

在上述技术方案的基础上，步骤D中计算需要比对的句子的词序相似度的计算公式如下：

S {im}_{ord} (S_{1}, S_{2}) = \begin{matrix} \{\begin{matrix} 1 - (\frac{RevOrd (S_{1}, S_{2})}{| OnceWord (S_{1}, S_{2}) | - 1}) & | OnceWord (S_{1}, S_{2}) | > 1 \\ 1 & | OnceWord (S_{1}, S_{2}) | = 1 \\ 0 & | OnceWord (S_{1}, S_{2}) | = 0 \end{matrix} \end{matrix}

其中Sim_ord(s₁,s₂)为需要比对的句子S1、S2的词序相似度，OnceWord(s₁,s₂)为S1、S2中所含仅一次的相同词或同义词的集合，P_first(s₁,s₂)为OnceWord(s₁,s₂)中的词在S1中的位置序号构成的向量，P_second(s₁,s₂)为P_first(s₁,s₂)中的分量按对应词在S2中的次序排序生成的向量，RevOrd(s₁,s₂)为P_second(s₁,s₂)各相邻分量的逆序数。

在上述技术方案的基础上，步骤D中根据需要比对的句子的词形相似度和词序相似度，计算需要比对的句子的相似度的计算公式如下：

Sim(s₁,s₂)＝μ₁·Sim_word(s1,s2)+μ₂·Sim_ord(s₁,s₂)；

其中Sim(s₁,s₂)为S1、S2的相似度，μ₁、μ₂为常数，且μ₁+μ₂＝1。

一种上述方法的基于文件相似度的排重系统，包括文本抽取模块、文字处理模块、文字编码模块和文字比对模块；

所述文本抽取模块用于：抽取需要比对的文件，生成纯文字；向文字处理模块发送文字处理信号；

所述文字处理模块用于：收到文字处理信号后，对纯文字进行规范化处理，生成规范文字单元；向文字编码模块发送文字编码信号；

文字编码模块用于：收到文字编码信号后，将规范文字单元进行编码，通过编码算法生成一种固定长度、且不可逆转的代表码；向文字比对模块发送文字比对信号；

文字比对模块用于：收到文字比对信号后，对需要比对的文件的代表码的关键词进行抽取，生成关键词序列；根据需要比对的句子的关键词序列，计算需要比对的句子的词形相似度和词序相似度；根据需要比对的句子的词形相似度和词序相似度，计算需要比对的句子的相似度；根据句子的相似度计算需要比对的文件的相似度。

在上述技术方案的基础上，所述文字处理模块包括文字分拆模块、文字规范化模块和高频字去除模块；

所述文字分拆模块用于：收到文字处理信号后，将纯文字分拆为文字单元，向文字规范化模块发送文字规范信号；

所述文字规范化模块用于：收到文字规范信号后，对文字单元进行规范化处理，向高频字去除模块发送高频字去除信号；

所述高频字去除模块用于：收到高频字去除信号后，去除规范化处理后的文字单元中无意义信息，生成规范文字单元，向文字编码模块发送文字编码信号。

与现有技术相比，本发明的优点在于：

(1)本发明比较相似文件时，将进行抽取需要比对的文件生成纯文字；将纯文字拆分为包括段落、句子和关键词的文字单元，将文字单元进行编码计算生成代表码，将代表码进行比对得到不同文件的相似度。与现有技术中针对西方语言的检测文件相似度的方法相比，本发明能够通过包括段落、句子和关键词的文字单元进行比对，能够适用于中国文字，便于国内用户使用。

(2)本发明将文字单元进行编码之前，会对对文字单元进行规范化处理，以降低文件的纯文字在表达上差异，从而提高文件比对的准确度；本发明还会去除规范化处理后的文字单元中无意义信息，生成规范文字单元，以提高后期比对相似文件的精准度。

附图说明

图1为本发明实施例中基于文件相似度的排重系统的结构框图。

具体实施方式

以下结合附图及实施例对本发明作进一步详细说明。

本发明实施例中的基于文件相似度的排重方法依据以下三个基本假设得来：

(1)通过文字内容判断文件的相似度：在分析和确定文件相似度时，只考虑文件中的文字内容而忽略非文字内容。

(2)通过基本单元判断文件的相似度：在文件的文字内容中，将句子作为计算文件相似度的基本单元，即2份文件中“相似”的基本单元越多，它们的相对相似度越高。进一步，若1份文件中的多个基本单元与其它文件集合中的基本单元相似，则当前份文件相对于当前文件集合的相似度越高。

(3)基于意念(文件表达的实际意思)判断文件的相似度：该基本假设主要对于一些在意念上相似但表达上有所差异(例如英文语法上的单数名词和复数名词、动词的词态、英语字符的大小写、中文的繁体字和简体字、以及不同的字符编码等)的文件。

本发明实施例中的基于文件相似度的排重方法，包括以下步骤：

S1：抽取需要比对的文件，生成纯文字。

S2：对纯文字进行规范化处理，生成规范文字单元；文字单元包括段落、句子和关键词等。

对纯文字进行规范化处理，生成规范文字单元时，将纯文字分拆为文字单元；对文字单元进行一系列的规范化处理，以降低文件的纯文字在表达上差异，从而提高文件比对的准确度；去除规范化处理后的文字单元中无意义信息，生成规范文字单元，无意义信息包括经常出现、且没有实质意义的文字。

S3：将规范文字单元进行编码，通过编码算法生成一种固定长度、且不可逆转的代表码，将代表码存储在资料库中。编码算法包括MD5算法(单向散列算法)、SHA-1(数据加密算法)算法和SHA-2算法(杂凑函数算法)中的至少一种。

S4：对需要比对的文件的代表码的关键词进行抽取，生成关键词序列；根据需要比对的句子的关键词序列，计算需要比对的句子的词形相似度和词序相似度；根据需要比对的句子的词形相似度和词序相似度，计算需要比对的句子的相似度；根据句子的相似度计算需要比对的文件的相似度。

步骤S4包括以下步骤：

S401：选择代表码的句子S中的任一关键词w。

S402：判断w是否为名词、代词、动词和形容词中的任意一种，若是，抽取w，转到步骤S403；否则选择下一个关键词w，并转到步骤S401。

S403：将所有抽取的关键词组成当前句子S的关键词序列S＇。

S404：根据需要比对的句子的关键词序列，计算需要比对的句子的词形相似度，词形相似度计算公式如下：

Sim_word(S1,S2)＝2·(Same_word(S1,S2)/(LenS1+LenS2)

词形相似度计算公式中Sim_word(S1,S2)为需要比对的句子S1、S2的词形相似度，Same_word(S1,S2)为S1、S2中所含相同词或同义词的个数，LenS1为S1中所含关键词的个数，LenS2为S2中所含关键词的个数。

S405：计算需要比对的句子的词序相似度，词序相似度计算公式如下：

S {im}_{ord} (S_{1}, S_{2}) = \begin{matrix} \{\begin{matrix} 1 - (\frac{RevOrd (S_{1}, S_{2})}{| OnceWord (S_{1}, S_{2}) | - 1}) & | OnceWord (S_{1}, S_{2}) | > 1 \\ 1 & | OnceWord (S_{1}, S_{2}) | = 1 \\ 0 & | OnceWord (S_{1}, S_{2}) | = 0 \end{matrix} \end{matrix}

词序相似度计算公式中Sim_ord(s₁,s₂)为需要比对的句子S1、S2的词序相似度，OnceWord(s₁,s₂)为S1、S2中所含仅一次的相同词或同义词的集合，P_first(s₁,s₂)为OnceWord(s₁,s₂)中的词在S1中的位置序号构成的向量，P_second(s₁,s₂)为P_first(s₁,s₂)中的分量按对应词在S2中的次序排序生成的向量，RevOrd(s₁,s₂)为P_second(s₁,s₂)各相邻分量的逆序数。

S406：根据需要比对的句子的词形相似度和词序相似度，计算需要比对的句子的相似度，其相似度计算公式为：

Sim(s₁,s₂)＝μ₁·Sim_word(s₁,s₂)+μ₂·Sim_ord(s₁,s₂)；

相似度计算公式中Sim(s₁,s₂)为S1、S2的相似度，μ₁、μ₂为常数，且μ₁+μ₂＝1；本发明实施例中的μ₁＝0.8，μ₂＝0.2。

S408：根据句子的相似度计算需要比对的文件的相似度，文件相似度计算公式如下：

Sim (VA, VB) = \frac{Σ_{i = 1}^{| R |} X_{A, i} X_{B, i}}{\sqrt{Σ_{i = 1}^{| R |} X_{A, i}^{2} Σ_{i = 1}^{| R |} X_{B, i}^{2}}} \frac{Σ X_{1, i} + Σ X_{2, i}}{L (X_{1}) + L (X_{2})}

文件相似度计算公式中，VA,VB为用空间向量模型表示的需要比对的2份文件A、B中有效句子的最大相似度向量，Sim(VA,VB)为需要比对的文件VA、VB的文件相似度。

R的定义为R＝VA∪VB＝{a_R,1，a_R,2…a_R,k}，其中i表示A、B中相似句子的数量，a表示A、B中相似句子经归一化后的向量；归一化公式如下：X_A,i表示有效句子中第i个句子a_R,i的权重，即该有效句子的最大相似度。

本实施例中的实现上述方法的基于文件相似度的排重系统，包括文本抽取模块、文字处理模块、文字编码模块和文字比对模块。

所述文本抽取模块用于：抽取需要比对的文件，生成纯文字；向文字处理模块发送文字处理信号。

所述文字处理模块用于：收到文字处理信号后，对纯文字进行规范化处理，生成规范文字单元；向文字编码模块发送文字编码信号。

文字编码模块用于：收到文字编码信号后，将规范文字单元进行编码，通过编码算法生成一种固定长度、且不可逆转的代表码；向文字比对模块发送文字比对信号。

文字处理模块包括文字分拆模块、文字规范化模块和高频字去除模块。

文字分拆模块用于：收到文字处理信号后，将纯文字分拆为文字单元，向文字规范化模块发送文字规范信号。

文字规范化模块用于：收到文字规范信号后，对文字单元进行规范化处理，向高频字去除模块发送高频字去除信号。

高频字去除模块用于：收到高频字去除信号后，去除规范化处理后的文字单元中无意义信息，生成规范文字单元，向文字编码模块发送文字编码信号。

本发明实施例中的基于文件相似度的排重方法的工作原理如下：

由于进行文件比对时会涉及大量的句子比对，因此需要利用一种特殊的文字编码和数据库索引方式来减低比对所需的时间。由于文字编码模块生成的代表码具有特定的长度，而且能代表不同长度的句子，因此，若以代表码作为数据库的索引方式，能更有利于检索搜寻。

文件比对模块在进行比对时，根据基本假设(2)，即句子是用作文件相似度比对的基本单元。因此，根据本发明的一个实施方式，文件比对模块以一种改进的方法来比对句子之间的相似度。任何句子都是由关键成分(主、谓、宾等)和修饰成分(定、状、补等)构成的。关键成分对句子起主要作用，修饰成分对句子起次要作用。进行句子相似度计算时，只要考虑句中的关键成分。对于特定句中的某个名词、代词、动词或形容词，不一定就是该句中的主语、宾语或谓语成分，但相对于句中所有的词构成的词序列而言，关键词序列却具有一定的句法结构信息表达能力，至少可以了解句子中的哪些词在组成句子框架结构方面是比较重要的。在此基础上进行相似度计算，比一般基于词的方法准些。

该归一化公式是改进的余弦公式。在以前余弦的基础上乘上一因子，是为了解决这样的问题：如果两篇文档最后用向量表示的结果为VA＝(0.5,0.3,0.2,0.1)，VB＝(0.5,0.3,0.2,0.1)，把向量VA,VB同时扩大2倍即VC＝(1,0.6,0.4,0.2)，VD＝(1,0.6,0.4,0.2)，若只用余弦法来计算相似度的话，会得出sim(VA,VB)＝sim(VC,VD)＝1，即文档A与文档B完全相同，文档C与文档D也完全相同；显然这种方法计算的结果不准确。因此，本发明在余弦的基础上乘上一因子，分母是两向量的维数之和，分子是各向量的元素之和，因为每一项元素都是在[0,1]之间，所以此因子也是在[0,1]的一个数，当且仅当每个向量全为1的时候，此公式的结果才为1，全为0的时候，此公式的结果才为0。

本发明将对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。

首先，我们来解决文档相关性的问题。在本发明中我们使用向量空间模型来表示一篇文档。在向量空间模型中，每篇文档被表示为一个向量，向量的每一维是由这篇文档中的term的特征构成的。在这个模型的简单表示形式中，每篇文档可以被表示成为TF(TermFrequency，词频向量)：d_tf＝(tf₁,tf₂,tf₃,tf₄,…,tf_n)

其中tf_i为文档的第i个term在所在文档中的词频。对于该模型的比较常用的改进方法是：对与每一个term进行加权，所加权值是IDF(Inverse Document Frequency，倒序文档频度)。这样改进的目的是：如果一个term在很多文档中均出现过，那么该term在文档中的重要性就没有那些仅在几个文档出现过的term高。所以这样的term在表示一篇文档的时候需要加以相应的惩罚因子。一般的做法是将tf_i与相乘，其中N代表文档集合中的所有文档数目，df_i代表包含第i个term的文档数目。这样我们就得到了一篇文档tf-idf的表示：

经过归一处理后，文档的长度为1(||d_tf-idf||＝1)。

有了一篇文档的向量表示，我们就可以利用各种距离来计算文档之间的相关性。在多年的研究中有两种距离经常被用来计算两篇文档之间的相似度。第一种是余弦距离：cos(d_i,d_j＝d^t _id_j/||d_i||×||d_j||；

由于文档的长度为1，公式可以简化为cos(di,d_j)＝d^l _id_j。当两篇文档相同的时候，该距离的取值为1，当两篇文档完全不同的时候，该距离的取值为0。

另一种是欧式距离：

dis (d_{i}, d_{j}) = \sqrt{{(d_{i} - d_{j})}^{t} (d_{i} - d_{j})} = | | d_{i} - d_{j} | |;

当两篇文档完全相同的时候，该距离的取值为0：当两篇文档的完全不相同的时候，该距离的取值为。我们在本发明中采用了余弦距离来衡量文档之间的相关性。

本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于文件相似度的排重方法，其特征在于，包括以下步骤：

A、抽取需要比对的文件，生成纯文字；

2.如权利要求1所述的基于文件相似度的排重方法，其特征在于：步骤B中所述对纯文字进行规范化处理，生成规范文字单元包括以下步骤：

B1、将纯文字分拆为文字单元；

B2、对文字单元进行规范化处理；

3.如权利要求2所述的基于文件相似度的排重方法，其特征在于：步骤B3中所述无意义信息包括没有实质意义的文字。

4.如权利要求1至3任一项所述的基于文件相似度的排重方法，其特征在于：步骤C中的编码算法包括单向散列MD5算法、数据加密SHA-1算法和杂凑函数SHA-2算法中的至少一种。

5.如权利要求1至3任一项所述的基于文件相似度的排重方法，其特征在于：步骤D中所述对需要比对的文件的代表码的关键词进行抽取，生成关键词序列时，包括以下步骤：

D1、选择代表码的句子中的任一关键词；

D3、将所有抽取的关键词组成当前句子的关键词序列。

6.如权利要求1至3任一项所述的基于文件相似度的排重方法，其特征在于：步骤D中所述根据需要比对的句子的关键词序列，计算需要比对的句子的词形相似度的计算公式如下：

Sim_word(S1,S2)＝2·(Same_word(S1,S2)/(LenS1+LenS2)；

7.如权利要求6所述的基于文件相似度的排重方法，其特征在于：步骤D中计算需要比对的句子的词序相似度的计算公式如下：

S {im}_{ord} (S_{1}, S_{2}) = \begin{matrix} \{\begin{matrix} 1 - (\frac{RevOrd (S_{1}, S_{2})}{| OnceWord (S_{1}, S_{2}) | - 1}) & | OnceWord (S_{1}, S_{2}) | > 1 \\ 1 & | OnceWord (S_{1}, S_{2}) | = 1 \\ 0 & | OnceWord (S_{1}, S_{2}) | = 0 \end{matrix} \end{matrix}

8.如权利要求7所述的基于文件相似度的排重方法，其特征在于：步骤D中根据需要比对的句子的词形相似度和词序相似度，计算需要比对的句子的相似度的计算公式如下：

Sim(s₁,s₂)＝μ₁·Sim_word(s₁,s₂)+μ₂·Sim_ord(s₁,s₂)；

9.一种实现权利要求1至8任一项所述方法的基于文件相似度的排重系统，其特征在于：包括文本抽取模块、文字处理模块、文字编码模块和文字比对模块；

10.如权利要求9所述的基于文件相似度的排重系统，其特征在于：所述文字处理模块包括文字分拆模块、文字规范化模块和高频字去除模块；