CN110175328B

CN110175328B - 一种基于关键词序列结构的文档相似度度量方法及系统

Info

Publication number: CN110175328B
Application number: CN201910406178.9A
Authority: CN
Inventors: 陆介平; 倪巍伟; 杨春立; 李爱东
Original assignee: Zhenjiang College
Current assignee: Zhenjiang College
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2023-02-17
Anticipated expiration: 2039-05-16
Also published as: CN110175328A

Abstract

本发明公开了一种基于关键词序列结构的文档相似度度量方法，该方法包括：存储两篇文档W₁与W₂并设置关键词序列，在文档W₁与W₂内分别查找所述关键词序列中的所有关键词出现的位置集合；根据关键词出现的位置生成关于关键词序列分别在文档W₁与W₂中的特征集合，进而得到所述关键词序列分别在W₁与W₂中的结构特征值；根据所述关键词序列在W₁与W₂中的结构特征值计算文档W₁与W₂关于所述关键词序列的相似度。本发明有利于规避文档词句语义角度度量相似性的偏差，本发明也可以规避已有方法中的从关键词角度度量相似性时，忽视一组关键词前后因果关系在文档分布结构特征提取中影响的不足，实用性更强，准确率更高。

Description

一种基于关键词序列结构的文档相似度度量方法及系统

技术领域

本发明涉及文档相似度度量技术领域，具体涉及一种基于关键词序列结构的文档相似度度量方法及系统。

背景技术

文档间相似性分析计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。常见的文档相似度计算方法简介如下：余弦相似性，基于关键词将文档转换为向量模型，通过计算文档的余弦相似度进行度量；简单共有词法，通过计算两篇文档共有的词的总字符数除以最长文档字符数来评估文档相似度。编辑距离，又称Levenshtein距离，利用将文档中两个字串，由一个转成另一个所需的最少编辑操作次数进行度量。SimHash+汉明距离，将文档转换成64位的字节，然后通过判断两个字节的汉明距离计算相似度。Jaccard相似性系数法，通过比较样本集中的相似性和分散性的概率进行度量。但上述方法均会存在文档词句语义角度度量相似性的偏差以及关键词在文档全文分布结构特征提取的不足的问题。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于关键词序列结构的文档相似度度量方法，该方法可以解决文档词句语义角度度量相似性的偏差的问题；也可以规避已有方法从关键词角度度量相似性时，对关键词在文档全文分布结构特征提取的不足的问题，本发明还提供一种基于关键词序列结构的文档相似度度量系统。

技术方案：本发明所述的基于关键词序列结构的文档相似度度量方法，该方法包括：

(1)存储两篇文档W₁与W₂，所述文档W₁与W₂均具有多个自然段，将所述存储的两篇文档W₁与W₂分别进行分词和停用词处理；

(2)设置关键词序列，在文档W₁与W₂内分别查找所述关键词序列中的所有关键词出现的位置集合；

(3)根据关键词出现的位置生成关于关键词序列分别在文档W₁与W₂中的特征集合，进而得到所述关键词序列分别在W₁与W₂中的结构特征值；

(4)根据所述关键词序列在W₁与W₂中的结构特征值计算文档W₁与W₂关于所述关键词序列的相似度。

优选的，所述步骤(3)中，根据关键词出现的位置生成关于关键词序列分别在文档W₁与W₂中的特征集合，分别表示为：

其中，关键词序列表示为S＝{s₁→s₂...→s_m}，q₁与q_m为关键词序列S在W₁中某次出现中关键词s₁和关键词s_m在W₁中的出现位置，|W₁|表示文档W₁包含的总字符数，(q_m-q₁)对应关键词序列中关键词s_m与关键词s₁在W₁中出现位置间相隔距离，q'₁与q'_m为关键词序列S在W₂中某次出现中关键词s₁和关键词s_m在W₂中的出现位置，|W₂|表示文档W₂包含的总字符数，(q'_m-q'₁)对应关键词序列中关键词s_m与关键词s₁在W₂中出现位置间相隔距离。

优选的，所述步骤(3)中，得到所述关键词序列分别在W₁与W₂中的结构特征值，表示为：

其中，

和

分别为所述文档W₁关于关键词序列S的特征集合的第一项之和与第二项之和，

和

分别为所述文档W₂关于关键词序列S的特征集合的第一项之和与第二项之和，{q_i,...,q_im}为S关于W₁的出现位置集合中的一次出现位置，{q'_i,...,q'_im}为S关于W₂的出现位置集合中的一次出现位置。

优选的，所述步骤(4)中，所述文档W₁与W₂关于所述关键词序列的相似度表示为：

SeqDist(S,W₁,W₂)＝|SCV(S,W₁)-SCV(S,W₂)|/max{SCV(S,W₁),SCV(S,W₂)}，该公式的数值越小，表明两个文档关于所述关键词序列S表现出的相似性越高，反之，相似性越低。

另一方面，本发明还提供一种基于关键词序列结构的文档相似度度量系统，包括：

文档预处理模块，用于存储两篇文档W₁与W₂，所述文档W₁与W₂均具有多个自然段，将所述存储的两篇文档W₁与W₂分别进行分词和停用词处理；

出现位置统计模块，用于设置关键词序列，并在文档W₁与W₂内分别查找所述关键词序列中的所有关键词出现的位置集合；

结构特征计算模块，用于根据关键词出现的位置生成关于关键词序列分别在文档W₁与W₂中的特征集合，进而得到所述关键词序列分别在W₁与W₂中的结构特征值；

文档相似度计算模块，用于根据所述关键词序列在W₁与W₂中的结构特征值计算文档W₁与W₂关于所述关键词序列的相似度。

优选的，所述结构特征计算模块包括特征集合表示单元，用于根据关键词出现的位置生成关于关键词序列分别在文档W₁与W₂中的特征集合，分别表示为：

优选的，所述结构特征计算模块还包括特征值计算单元，用于得到所述关键词序列分别在W₁与W₂中的结构特征值，表示为：

其中，

和

和

优选的，所述文档相似度计算模块中，所述文档W₁与W₂关于所述关键词序列的相似度表示为：

有益效果：本发明与现有技术相比，其显著优点是：本发明考虑关键词序列在文档中连续出现位置分布关系，在一定意义上体现了该文档与相应关键词序列的关联，有利于规避文档词句语义角度度量相似性的偏差，本发明也可以规避已有方法中的从关键词角度度量相似性时，忽视一组关键词前后因果关系在文档分布结构特征提取中影响的不足，实用性更强，准确率更高。

附图说明

图1为本发明一实施例所述的方法流程图；

图2为本发明一实施例所述的系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

实施例1

本发明提供一种基于关键词位置结构分布的文档相似性度量方法，该方法包括：

S1存储两篇文档W₁与W₂，所述文档W₁与W₂均具有多个自然段，将所述存储的两篇文档W₁与W₂分别进行分词和停用词处理。

S2设置关键词序列，在文档W₁与W₂内分别查找所述关键词序列中的所有关键词出现的位置集合；

关键词序列S在W₁中的某次出现指序列S中的m个关键词在文档W₁中依次出现一次。在文档W₁中查找关键词序列S的某次出现，可记为：获取m个关键词的出现位置Ponit＝{p₁,p₂,...,p_m}，所有出现位置组成S在文档中的出现位置集合，其中，p_i为关键词s_i在文档W₁中的某个出现位置，该位置为s_i在W₁中该出现位置之前的字符数。若s₁为文档的首字符，p₁＝1。

S3根据关键词出现的位置生成关于关键词序列分别在文档W₁与W₂中的特征集合，进而得到所述关键词序列分别在W₁与W₂中的结构特征值；

首先，根据关键词出现的位置生成关于关键词序列分别在文档W₁与W₂中的特征集合，分别表示为：

其中，关键词序列表示为S＝{s₁→s₂...→s_m}，q₁与q_m为关键词序列S在W₁中某次出现中关键词s₁和关键词s_m在W₁中的出现位置，|W₁|表示文档W₁包含的总字符数，(q_m-q₁)对应关键词序列中关键词s_m与关键词s₁在W₁中出现位置间相隔距离；(q_m-q₁)/|W₁|数值为[0,1]，数值越大，表明关键词序列S中m个关键词在文档中位置分布越稀疏。

q'₁与q'_m为关键词序列S在W₂中某次出现中关键词s₁和关键词s_m在W₂中的出现位置，|W₂|表示文档W₂包含的总字符数，(q'_m-q'₁)对应关键词序列中关键词s_m与关键词s₁在W₂中出现位置间相隔距离，(q'_m-q'₁)/|W₂|数值为[0,1]，数值越大，表明关键词序列S中m个关键词在该文档中位置分布越稀疏。

其次，得到所述关键词序列分别在W₁与W₂中的结构特征值，表示为：

其中，

和

和

S4根据所述关键词序列在W₁与W₂中的结构特征值计算文档W₁与W₂关于所述关键词序列的相似度。

所述文档W₁与W₂关于所述关键词序列的相似度表示为：

实施例2

本发明还提供一种基于关键词序列结构的文档相似度度量系统，包括：

文档预处理模块1，用于存储两篇文档W₁与W₂，所述文档W₁与W₂均具有多个自然段，将所述存储的两篇文档W₁与W₂分别进行分词和停用词处理；

出现位置统计模块2，用于设置关键词序列，并在文档W₁与W₂内分别查找所述关键词序列中的所有关键词出现的位置集合；

关键词序列S在W₁中的某次出现指序列S中的m个关键词在文档W₁中依次出现一次。在文档W₁中查找关键词序列S的某次出现，获取m个关键词的出现位置Ponit＝{p₁,p₂,...,p_m}，所有出现位置组成S在文档中的出现位置集合，其中，p_i为关键词s_i在文档W₁中的某个出现位置，该位置为s_i在W₁中该出现位置之前的字符数。若s₁为文档的首字符，p₁＝1。

结构特征计算模块3，用于根据关键词出现的位置生成关于关键词序列分别在文档W₁与W₂中的特征集合，进而得到所述关键词序列分别在W₁与W₂中的结构特征值；

所述结构特征计算模块3包括特征集合表示单元31，用于根据关键词出现的位置生成关于关键词序列分别在文档W₁与W₂中的特征集合，分别表示为：

所述结构特征计算模块3包括特征值计算单元32，用于得到所述关键词序列分别在W₁与W₂中的结构特征值，表示为：

其中，

和

和

文档相似度计算模块4，用于根据所述关键词序列在W₁与W₂中的结构特征值计算文档W₁与W₂关于所述关键词序列的相似度。

所述文档相似度计算模块4中，所述文档W₁与W₂关于所述关键词序列的相似度表示为：

本发明从关键词序列在文档中出现分布结构特征角度，提出文档相似性度量方法，有利于规避文档词句语义角度度量相似性的偏差；也可以规避已有方法从关键词角度度量相似性时，忽视一组关键词前后因果关系在文档分布结构特征提取中影响的不足。

为了更加体现本发明文档相似度的准确和实用，做出以下程序的计算，首先从中文期刊网节选两篇文章的相应段落如下，从两篇论文的关键词中选出如下关键词序列S＝{云存储→安全→加密机制}。

文档W1：

“随着云存储的迅猛发展，越来越多的用户选择使用云存储存放自己的资料.云存储的最大特点在于存储即服务，用户可以通过公有API将自己的数据上传到云端保存.但由于用户丧失了对数据的绝对控制权，一些数据安全的隐患也由此产生.为了消除安全隐患，并在保证安全性的同时尽可能地提高系统的服务质量，近年来国内外机构作了大量研究，从而开启了云存储中的一个研究方向——安全云存储系统.首先介绍了云存储系统的安全需求，然后阐述了安全云存储系统的研究现状，并总结了现有安全云存储系统中的一些关键技术的现状与不足之处，其中包括密钥分发与管理、基于属性的加密机制、基于数据密文的搜索机制与删冗机制、数据的持有性证明与恢复以及数据的可信删除等；最后指出了安全云存储系统未来的研究方向.”

文档W2：

“云存储是一种新型的数据存储体系结构，云存储中数据安全性、易管理性等也面临着新的挑战.首先，云存储系统需要为用户提供安全可靠的数据访问服务，并确保云端数据的安全性.为此，研究者们针对云存储中数据结构复杂、数据存储量大等特点提出了属性加密机制，为云储存系统提供细粒度的密文访问控制机制.在该机制中，数据所有者使用访问策略表示数据的访问权限并对数据进行加密.但数据的访问权限常会因各种原因发生改变，从而导致云中存储密文的频繁更新，进而影响数据的易管理性.为避免访问权限管理造成大量的计算和通信开销，提出了一种高效、便捷、易管理的云存储体系结构：利用ABE加密机制实现对密文的访问控制，通过高效的动态授权方法实现访问权限的管理，并提出了不同形式的访问策略之间的转换方法，使得动态授权方法更为通用，不依赖于特定的访问策略形式；针对授权执行者的不同，制定了更新授权、代理授权和临时授权3种动态授权形式，使得动态授权更为灵活、快捷；特别地，在该动态授权方法中，授权执行者根据访问策略的更改计算出最小增量集合，并根据该增量集合更新密文以降低密文更新代价.理论分析和实验结果表明，该动态授权方法能减小资源的耗费、优化系统执行效率、提高访问控制机制灵活性。”

实施步骤如下：

(1)对关键词序列S＝{云存储→安全→加密机制}：

计算文档W₁关于关键词序列S的特征集合：

CLS(S,W₁)＝{(2/322,((258-2))/322),(22/322,(258-22)/322),(33/322,(258-33)/322),(158/322,(258-158)/322),(171/322,(258-171)/322),(182/322,(258-182)/322)}＝{(0.0062,0.795),(0.0683,0.733),(0.1025,0.6988),(0.4907,0.3106),(0.5311,0.2702),(0.5652,0.2360)}

计算文档W₂关于关键词序列S的特征集合：

CLS(S,W₂)＝{(1/517,((115-1))/517),(1/517,(272-1)/517),(18/517,(115-18)/517),(18/517,(272-18)/517),(45/517,(115-45)/517),(45/517,(272-45)/517)}＝{(0.0019,0.2205),(0.0019,0.5242),(0.0348,0.1876),(0.0348,0.4913),(0.0870,0.1354),(0.0870,0.4391)}

计算CLS(S,W₁)中各坐标特征，第一项之和：

第二项之和

生成文档W₁关于S的结构特征值：

相同的，生成文档W₂关于S的结构特征值：CLS(S,W₂)中各坐标特征，第一项之和为0.2474，第二项之和为1.9981，生成文档W₂关于S的结构特征值：

SCV(S,W₂)＝0.5373+1.2774+0.18415+0.48227+0.07082+0.2297＝2.7816

两文档关于关键词序列的相似度表示为：SeqDist(S,W₁,W₂)＝|3.3249-2.7816|/3.3249＝0.1634。以上计算均保留小数点后四位。

该计算值越小，表明两个文档关于关键词序列S表现出的相似性越高，反之相似性越低。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于关键词序列结构的文档相似度度量方法，其特征在于，该方法包括：

步骤(3)中，根据关键词出现的位置生成关于关键词序列分别在文档W₁与W₂中的特征集合，分别表示为：

其中，关键词序列表示为S＝{s₁→s₂...→s_m}，q₁与q_m为关键词序列S在W₁中某次出现中关键词s₁和关键词s_m在W₁中的出现位置，|W₁|表示文档W₁包含的总字符数，(q_m-q₁)对应关键词序列中关键词s_m与关键词s₁在W₁中出现位置间相隔距离，q'₁与q'_m为关键词序列S在W₂中某次出现中关键词s₁和关键词s_m在W₂中的出现位置，|W₂|表示文档W₂包含的总字符数，(q'_m-q'₁)对应关键词序列中关键词s_m与关键词s₁在W₂中出现位置间相隔距离；

所述步骤(3)中，得到所述关键词序列分别在W₁与W₂中的结构特征值，表示为：

其中，

和

和

分别为所述文档W₂关于关键词序列S的特征集合的第一项之和与第二项之和，{q_i,...,q_im}为S关于W₁的出现位置集合中的一次出现位置，{q'_i,...,q'_im}为S关于W₂的出现位置集合中的一次出现位置；(4)根据所述关键词序列在文档W₁与W₂中的结构特征值计算文档W₁与W₂关于所述关键词序列的相似度；

所述步骤(4)中，所述文档W₁与W₂关于所述关键词序列的相似度表示为：

SeqDist(S,W₁,W₂)＝|SCV(S,W₁)-SCV(S,W₂)|/max{SCV(S,W₁),SCV(S,W₂)}，公式的数值越小，表明两个文档关于所述关键词序列S表现出的相似性越高，反之，相似性越低。

2.一种根据权利要求1所述的基于关键词序列结构的文档相似度度量方法实现的系统，其特征在于，包括：

结构特征计算模块包括特征集合表示单元，用于根据关键词出现的位置生成关于关键词序列分别在文档W₁与W₂中的特征集合，分别表示为：

所述结构特征计算模块还包括特征值计算单元，用于得到所述关键词序列分别在W₁与W₂中的结构特征值，表示为：

其中，

和

和

分别为所述文档W₂关于关键词序列S的特征集合的第一项之和与第二项之和，{q_i,...,q_im}为S关于W₁的出现位置集合中的一次出现位置，{q'_i,...,q'_im}为S关于W₂的出现位置集合中的一次出现位置；

文档相似度计算模块，用于根据所述关键词序列在W₁与W₂中的结构特征值计算文档W₁与W₂关于所述关键词序列的相似度；

文档相似度计算模块中，所述文档W₁与W₂关于所述关键词序列的相似度表示为：