CN106372043A

CN106372043A - 一种基于改进的Jaccard系数确定文档相似度的方法

Info

Publication number: CN106372043A
Application number: CN201610807202.6A
Authority: CN
Inventors: 林劼; 俞婷婷; 江育娥
Original assignee: Fujian Normal University
Current assignee: Fujian Normal University
Priority date: 2016-09-07
Filing date: 2016-09-07
Publication date: 2017-02-01
Anticipated expiration: 2036-09-07
Also published as: CN106372043B

Abstract

本发明公开一种基于改进的Jaccard系数确定文档相似度的方法，步骤1：分别确定文档X中长度为K的每个元素w_i对应的数量和文档Y中长度为K的每个元素w_j对应的数量，步骤2：计算每个元素w_i在文档X中所占的比重步骤3：计算每个元素w_j在文档Y中所占的比重步骤4：计算文档X和文档Y关于共同元素w_h的Jaccard相似度步骤5：计算元素w_h在文档X和文档Y所有n‑Gram长度为K的元素中的所占的比重ε(w_h)，步骤6：计算元素w_h在文档X和文档Y是否同时出现的参数F(w_h)，步骤7：设定为文档X和文档Y的相似度。本发明通过考虑各元素、样本在文档中的权重及其对多个文档相似度的贡献程度，有效地解决现有技术中存在的文档间相似度计算不精的问题。

Description

一种基于改进的Jaccard系数确定文档相似度的方法

技术领域

本发明涉及信息检索领域，尤其涉及一种基于改进的Jaccard系数确定文档相似度的方法。

背景技术

随着现代计算机技术的快速发展与网络的飞速普及，网上数据资源也在急速增加，这丰富的数据资源为人们的生活提供了便利，也提高了人们的工作效率。在这些数据资源给人们提供便利的同时，也出现了不少问题，如学术论文抄袭、新闻转载等。在这样的背景下，查重检测应运而生。相似度计算具有广泛的应用前景，目前主要应用于学术论文查重检测、电子档版权、文本聚类、问卷调查整理、搜索引擎去重等。

相似性数据的检测数据量十分庞大。在百度百科上，以中国学位论文全文数据库收录的学位论文为例，截止2011年10月，论文总量达200万篇以上，每年增长约30万篇。再如，2016年5月份中国50所高校在线发表论文数量高达62000多篇，其中大部分的科研论文都需要进行相似性检测。如此庞大的数据，借助一种基于改进的Jaccard系数确定多个文档相似度的方法进行检测，实现多个文档之间的相似性比对是很有必要的。一个好的确定文档相似度的方法在学术论文相似性检测、文本聚类、舆情调查等领域上具有重要意义。

文本相似度是指在两篇或者多篇文档中出现的词语、句子、段落或者篇章的匹配程度。两篇文档在词语、句子、段落或者篇章上越匹配，代表着这两篇文档的相似度越高。文档相同是特殊的相似，即相似度为100％。目前已有的文本相似度度量方法有很多，如：欧式距离和马氏距离。欧式距离是最简单、最易于理解的一种距离测量方法。在二维平面内，两点间的欧氏距离为相应的，在多维空间内，两点间的欧氏距离为：该方法虽然操作简单，但它将每个样本的属性公平对待，不考虑各属性之间存在的差异及其对欧氏距离的贡献程度。相反地，马氏距离正是通过考虑各特性之间的联系，有效地对未知样本进行相似度计算，如一条关于身高的信息会带来一条关于体重的信息，因为二者是有关联的，但它有时会夸大变化微小的变量的作用。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于改进的Jaccard系数确定文档相似度的方法，通过考虑各元素、样本在文档中的权重及其对多个文档相似度的贡献程度，有效地解决现有技术中存在的文档间相似度计算不精的问题。

本发明采用的技术方案是：

一种基于改进的Jaccard系数确定文档相似度的方法，其包括以下步骤：

步骤1：给定文档X和文档Y，文档X的文档长度为m，文档Y的文档长度为n；分别确定文档X中长度为K的每个元素w_i对应的数量和文档Y中长度为K的每个元素w_j对应的数量其中i＝1,2,...,m-K+1，j＝1,2,...,n-K+1；

步骤2：计算文档X中每个元素w_i所占的比重即：

步骤3：计算文档Y中每个元素w_j所占的比重即：

步骤4：根据Jaccard相似度原理，文档X和文档Y的Jaccard相似度等于文档X和文档Y的交集大小与并集大小的比例；设定元素w_h同时存在于文档X和文档Y中，则文档X和文档Y的Jaccard相似度为元素w_h在文档X中的权重与元素w_h在文档Y中的权重的比值采用如下公式计算

C_{J} (X_{w_{h}}, Y_{w_{h}}) = \frac{| X_{w_{h}} \cap Y_{w_{h}} |}{| X_{w_{h}} \cup Y_{w_{h}} |} = \frac{\min (| X_{w_{h}} |, | Y_{w_{h}} |)}{\max (| X_{w_{h}} |, | Y_{w_{h}} |)} = \frac{\min ({NX}_{w_{h}}, {NY}_{w_{h}})}{\max ({NX}_{w_{h}}, {NY}_{w_{h}})} - - - (3);

步骤5：设定ε(w_h)代表元素w_h在文档X和文档Y所有n-Gram长度为K的元素中的所占的比重ε(w_h)，

步骤6：设定F(w_h)代表元素w_h在文档X和文档Y是否同时出现，则

F (w_{h}) = \{\begin{matrix} 1 (w_{h} &Element; X \cap Y) \\ 0 (w_{h} &NotElement; X \cap Y) \end{matrix} - - - (5);

步骤7：设定为文档X和文档Y的相似度，采用如下公式计算

{Similarity}_{c_{J}} (X, Y) = \frac{Σ_{w_{h} &Element; Σ^{K}} C_{J} (X_{w_{h}}, Y_{w_{h}}) ϵ (w_{h})}{Σ_{w_{h} &Element; Σ^{K}} F (w_{h}) ϵ (w_{h})} - - - (6) .

本发明采用以上技术方案，根据Jaccard相似度的原理：集合间相似度大小等于交集大小与并集大小的比值，建立起判断多文档相似度的模型；将该方法运用到多文档相似度的确定，准确有效地得到了精度较高的文档相似度；由于该方法考虑到了每个词在各个文档中所占的比重，这样所获得的相似度是比较准确的。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1为本发明一种基于改进的Jaccard系数确定文档相似度的方法的流程图。

具体实施方式

以下将结合附图对本发明提供的方法进行详细的说明，并将结合实例及实验数据对根据本发明的方法的优势进行具体的说明。

如图1所示，本发明公开一种基于改进的Jaccard系数确定文档相似度的方法，其包括以下步骤：

步骤1：给定文档X和文档Y，文档X的文档长度为m，文档Y的文档长度为n；分别确定文档X中长度为K的每个元素w_i对应的数量和文档Y中长度为K的每个元素w_j对应的数量其中i＝1,2,...,m-K+1，j＝1,2,...,n-K+1；具体地，文档X中含有m个长度为1的元素w₁，含有(m-1)个长度为2的元素w₂，依此类推含有1个长度为m的元素，这些元素即n-Gram，是由大小为m的滑动窗口从文本起始位置开始滑向终止位置所形成。那么在文档X和文档Y中所有n-Gram长度为K的元素个数：文档X有m-K+1个，文档Y有n-K+1个，其中m≥K,n≥K。对于文档X，令i从文本起始位置1滑向终止位置m-K+1，读取第i至m-K+1位置的元素并保存在temp1中。所以当i滑向终止位置时，temp1中有m-K+1个n-Gram长度为K的元素；类似地，对于文档Y，令j从文本起始位置1滑向终止位置n-K+1，读取第j至n-K+1位置的元素并保存在temp2中。所以当j滑向终止位置时，temp2中有n-K+1个n-Gram长度为K的元素。

例如在文档X＝“abcabc123”与文档Y＝“123abc”中，他们的文档长度分别为m＝9和n＝6。假设n-Gram长度K＝3，那么在文档X中含有7个n-Gram长度为3的元素：{abc,bca,cab,abc,bc1,c12,123},在文档Y中含有4个n-Gram长度为3的元素:{123,23a,3ab,abc}。

将文档X中的元素数量的初始值设为0，在大小为m的滑动窗口从起始位置滑向终止位置的过程中,一边读取n-Gram长度为K的元素，一边将对应元素的数量加1；将文档Y中的元素数量的初始值设为0，在大小为n的滑动窗口从起始位置滑向终止位置的过程中,一边读取n-Gram长度为K的元素，一边将对应元素的数量加1。所以，在文档X中n-Gram长度为3的元素为{abc,bca,cab,bc1,c12,123}，对应的数量分别为{2,1,1,1,1,1}；在文档Y中n-Gram长度为3的元素为{123,23a,3ab,abc}，对应的数量分别为{1,1,1,1}。

步骤2：计算每个元素w_i在文档X中所占的比重即：

由步骤1可知，在长度为m的文档X中，n-Gram长度为K的元素数量为m-K+1，那么每个元素w_i在文档中出现的次数与m-K+1的比值即每个元素在文档X中所占的比重。

因此，就上述例子而言，在文档X中，每个元素{w_abc,w_bca,w_cab,w_bc1,w_c12,w₁₂₃}所占的比重分别是

步骤3：计算每个元素w_j在文档Y中所占的比重即：

由步骤1可知，在长度为n的文档Y中，n-Gram长度为K的元素数量为n-K+1，那么每个元素w_j在文档中出现的次数与n-K+1的比值即每个元素在文档Y中所占的比重。

因此，就上述例子而言，在文档Y中，每个元素{w₁₂₃,w_23a,w_3ab,w_abc}所占的比重分别是

步骤4：根据Jaccard相似度原理，文档X和文档Y的Jaccard相似度等于文档X和文档Y的交集大小与并集大小的比值；设定元素w_h同时存在于文档X和文档Y中，则文档X和文档Y的Jaccard相似度为元素w_h在文档X中的权重与元素w_h在文档Y中的权重的比值采用如下公式计算

C_{J} (X_{w_{h}}, Y_{w_{h}}) = \frac{| X_{w_{h}} \cap Y_{w_{h}} |}{| X_{w_{h}} \cup Y_{w_{h}} |} = \frac{\min (| X_{w_{h}} |, | Y_{w_{h}} |)}{\max (| X_{w_{h}} |, | Y_{w_{h}} |)} = \frac{\min ({NX}_{w_{h}}, {NY}_{w_{h}})}{\max ({NX}_{w_{h}}, {NY}_{w_{h}})} - - - (3);

就上述例子而言，文档X的元素集合为a，文档Y的元素集合为b，令i从集合a的起始位置滑向终止位置，令j从集合b的起始位置滑向终止位置。(1)若集合a中第h个元素的行名与集合b中第h个元素的行名相等，说明该元素同时存在于两个文档中。此时，该元素对应的两文档改进的Jaccard相似度即与的比值。基于此，上述例子中，元素w_abc和w₁₂₃同时存在于文档X和文档Y中，所以X、Y两文档改进的Jaccard相似度为：

C_{J} (X_{w_{a b c}}, Y_{w_{a b c}}) = \frac{| X_{w_{a b c}} \cap Y_{w_{a b c}} |}{| X_{w_{a b c}} \cup Y_{w_{a b c}} |} = \frac{\min (| X_{w_{a b c}} |, | Y_{w_{a b c}} |)}{\max (| X_{w_{a b c}} |, | Y_{w_{a b c}} |)} = \frac{\min ({NX}_{w_{a b c}}, {NY}_{w_{a b c}})}{\max ({NX}_{w_{a b c}}, {NY}_{w_{a b c}})} = \frac{1 / 4}{2 / 7} = \frac{7}{8}

C_{J} (X_{w_{123}}, Y_{w_{123}}) = \frac{| X_{w_{123}} \cap Y_{w_{123}} |}{| X_{w_{123}} \cup Y_{w_{123}} |} = \frac{\min (| X_{w_{123}} |, | Y_{w_{123}} |)}{\max (| X_{w_{123}} |, | Y_{w_{123}} |)} = \frac{\min ({NX}_{w_{123}}, {NY}_{w_{123}})}{\max ({NX}_{w_{123}}, {NY}_{w_{123}})} = \frac{1 / 7}{1 / 4} = \frac{4}{7} .

(2)在i从集合a的起始位置滑向终止位置，j从集合b的起始位置滑向终止位置的过程中，若集合a中第h个元素的行名与集合b中任一元素的行名都不相等，说明该元素不是同时存在于两个文档中，那么该元素对应的两文档改进的Jaccard相似度为0。基于此：

具体地，由步骤1可知，temp1中保存的是文档X中m-K+1个n-Gram长度K为3的元素，temp2中保存的是文档Y中n-K+1个n-Gram长度K为3的元素，将temp1和temp2中所有的元素及其相应的数量拼接起来，并且建立列联表，此时表中显示的是文档X和Y所有的元素及数量。

就上述例子而言，文档X、Y中所有元素为：{w_abc,w_bca,w_cab,w_bc1,w_c12,w₁₂₃,w_23a,w_3ab}，那么这些元素在文档X和文档Y所有n-Gram长度为3的元素中的所占的比重是：

ϵ (w_{a b c}) = \frac{3}{11}, ϵ (w_{b c a}) = \frac{1}{11}, ϵ (w_{c a b}) = \frac{1}{11}, ϵ (w_{b c 1}) = \frac{1}{11}

ϵ (w_{c 12}) = \frac{1}{11}, ϵ (w_{123}) = \frac{2}{11}, ϵ (w_{23 a}) = \frac{1}{11}, ϵ (w_{3 a b}) = \frac{1}{11} .

F (w_{h}) = \{\begin{matrix} 1 (w_{h} &Element; X \cap Y) \\ 0 (w_{h} &NotElement; X \cap Y) \end{matrix} - - - (5);

具体地，就上述例子而言，

(1)若集合a中第h个元素的行名与集合b中第h个元素的行名相等，说明该元素同时存在于两个文档中，并且该元素对文档X和Y的文档相似度有贡献，此时，F(w_h)＝1。基于此，由于元素w_abc和w₁₂₃同时存在于文档X和文档Y中，所以：F(w_abc)＝1,F(w₁₂₃)＝1。

(2)若集合a中第h个元素的行名与集合b中任一元素的行名都不相等，说明该元素不是同时存在于两个文档中，则该元素对文档X和Y的文档相似度无贡献，此时，F(w_h)＝0。基于此，由于元素{w_bca,w_cab,w_bc1,w_c12,w_23a,w_3ab}不是同时存在于文档X和文档Y中，所以：F(w_bca)＝F(w_cab)＝F(w_bc1)＝F(w_c12)＝F(w_23a)＝F(w_3ab)＝0。

步骤7：设定为文档X和文档Y的相似度，采用如下公式计算

{Similarity}_{c_{J}} (X, Y) = \frac{Σ_{w_{h} &Element; Σ^{K}} C_{J} (X_{w_{h}}, Y_{w_{h}}) ϵ (w_{h})}{Σ_{w_{h} &Element; Σ^{K}} F (w_{h}) ϵ (w_{h})} - - - (6) .

具体地，就上述例子而言，文档X和文档Y的相似度为：

{Similarity}_{c_{J}} (X, Y) = \frac{Σ_{w_{h} &Element; Σ^{K}} C_{J} (X_{w_{h}}, Y_{w_{h}}) ϵ (w_{h})}{Σ_{w_{h} &Element; Σ^{K}} F (w_{h}) ϵ (w_{h})} = \frac{C_{J} (X_{w_{a b c}}, Y_{w_{a b c}}) ϵ (w_{a b c}) + C_{J} (X_{w_{123}}, Y_{w_{123}}) ϵ (w_{123})}{F (w_{a b c}) ϵ (w_{a b c}) + F (w_{123}) ϵ (w_{123})} \approx 0.75.

本发明采用以上技术方案，根据Jaccard相似度的原理：集合间相似度大小等于交集大小与并集大小的比例，建立起判断多文档相似度的模型；将该方法运用到多文档相似度的确定，准确有效地得到了精度较高的文档相似度；由于该方法考虑到了每个词在各个文档中所占的比重，这样所获得的相似度是比较准确的。

Claims

1.一种基于改进的Jaccard系数确定文档相似度的方法，其特征在于：其包括以下步骤：

步骤2：计算文档X中每个元素w_i所占的比重即：

步骤3：计算文档Y中每个元素w_j所占的比重即：

步骤4：根据Jaccard相似度原理，文档X和文档Y的Jaccard相似度等于文档X和文档Y的交集大小与并集大小的比值；当元素w_h同时存在于文档X和文档Y中，则文档X和文档Y的Jaccard相似度为元素w_h在文档X中的权重与元素w_h在文档Y中的权重的比值采用如下公式计算

C_{J} (X_{w_{h}}, Y_{w_{h}}) = \frac{| X_{w_{h}} \cap Y_{w_{h}} |}{| X_{w_{h}} \cup Y_{w_{h}} |} = \frac{\min (| X_{w_{h}} |, | Y_{w_{h}} |)}{\max (| X_{w_{h}} |, | Y_{w_{h}} |)} = \frac{\min ({NX}_{w_{h}}, {NY}_{w_{h}})}{\max ({NX}_{w_{h}}, {NY}_{w_{h}})} - - - (3);

F (w_{h}) = \{\begin{matrix} 1 (w_{h} &Element; X \cap Y) \\ 0 (w_{h} &NotElement; X \cap Y) \end{matrix} - - - (5);

步骤7：设定为文档X和文档Y的相似度，采用如下公式计算

{Similarity}_{c_{J}} (X, Y) = \frac{Σ_{w_{h} &Element; Σ^{K}} C_{J} (X_{w_{h}}, Y_{w_{h}}) ϵ (w_{h})}{Σ_{w_{h} &Element; Σ^{K}} F (w_{h}) ϵ (w_{h})} - - - (6) .

2.根据权利要求1所述的一种基于改进的Jaccard系数确定文档相似度的方法，其特征在于：所述步骤4中当文档X和文档Y不存在相同元素时，则文档X和文档Y的Jaccard相似度为0。