CN110175328B - 一种基于关键词序列结构的文档相似度度量方法及系统 - Google Patents
一种基于关键词序列结构的文档相似度度量方法及系统 Download PDFInfo
- Publication number
- CN110175328B CN110175328B CN201910406178.9A CN201910406178A CN110175328B CN 110175328 B CN110175328 B CN 110175328B CN 201910406178 A CN201910406178 A CN 201910406178A CN 110175328 B CN110175328 B CN 110175328B
- Authority
- CN
- China
- Prior art keywords
- keyword
- document
- sequence
- similarity
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 abstract description 8
- 238000000605 extraction Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 3
- 230000001364 causal effect Effects 0.000 abstract description 2
- 238000007796 conventional method Methods 0.000 abstract description 2
- 230000002349 favourable effect Effects 0.000 abstract 1
- 238000003860 storage Methods 0.000 description 12
- 238000013475 authorization Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 238000005259 measurement Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000000691 measurement method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于关键词序列结构的文档相似度度量方法,该方法包括:存储两篇文档W1与W2并设置关键词序列,在文档W1与W2内分别查找所述关键词序列中的所有关键词出现的位置集合;根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合,进而得到所述关键词序列分别在W1与W2中的结构特征值;根据所述关键词序列在W1与W2中的结构特征值计算文档W1与W2关于所述关键词序列的相似度。本发明有利于规避文档词句语义角度度量相似性的偏差,本发明也可以规避已有方法中的从关键词角度度量相似性时,忽视一组关键词前后因果关系在文档分布结构特征提取中影响的不足,实用性更强,准确率更高。
Description
技术领域
本发明涉及文档相似度度量技术领域,具体涉及一种基于关键词序列结构的文档相似度度量方法及系统。
背景技术
文档间相似性分析计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。常见的文档相似度计算方法简介如下:余弦相似性,基于关键词将文档转换为向量模型,通过计算文档的余弦相似度进行度量;简单共有词法,通过计算两篇文档共有的词的总字符数除以最长文档字符数来评估文档相似度。编辑距离,又称Levenshtein距离,利用将文档中两个字串,由一个转成另一个所需的最少编辑操作次数进行度量。SimHash+汉明距离,将文档转换成64位的字节,然后通过判断两个字节的汉明距离计算相似度。Jaccard相似性系数法,通过比较样本集中的相似性和分散性的概率进行度量。但上述方法均会存在文档词句语义角度度量相似性的偏差以及关键词在文档全文分布结构特征提取的不足的问题。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种基于关键词序列结构的文档相似度度量方法,该方法可以解决文档词句语义角度度量相似性的偏差的问题;也可以规避已有方法从关键词角度度量相似性时,对关键词在文档全文分布结构特征提取的不足的问题,本发明还提供一种基于关键词序列结构的文档相似度度量系统。
技术方案:本发明所述的基于关键词序列结构的文档相似度度量方法,该方法包括:
(1)存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理;
(2)设置关键词序列,在文档W1与W2内分别查找所述关键词序列中的所有关键词出现的位置集合;
(3)根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合,进而得到所述关键词序列分别在W1与W2中的结构特征值;
(4)根据所述关键词序列在W1与W2中的结构特征值计算文档W1与W2关于所述关键词序列的相似度。
优选的,所述步骤(3)中,根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合,分别表示为:
其中,关键词序列表示为S={s1→s2...→sm},q1与qm为关键词序列S在W1中某次出现中关键词s1和关键词sm在W1中的出现位置,|W1|表示文档W1包含的总字符数,(qm-q1)对应关键词序列中关键词sm与关键词s1在W1中出现位置间相隔距离,q'1与q'm为关键词序列S在W2中某次出现中关键词s1和关键词sm在W2中的出现位置,|W2|表示文档W2包含的总字符数,(q'm-q'1)对应关键词序列中关键词sm与关键词s1在W2中出现位置间相隔距离。
优选的,所述步骤(3)中,得到所述关键词序列分别在W1与W2中的结构特征值,表示为:
其中,和分别为所述文档W1关于关键词序列S的特征集合的第一项之和与第二项之和,和分别为所述文档W2关于关键词序列S的特征集合的第一项之和与第二项之和,{qi,...,qim}为S关于W1的出现位置集合中的一次出现位置,{q'i,...,q'im}为S关于W2的出现位置集合中的一次出现位置。
优选的,所述步骤(4)中,所述文档W1与W2关于所述关键词序列的相似度表示为:
SeqDist(S,W1,W2)=|SCV(S,W1)-SCV(S,W2)|/max{SCV(S,W1),SCV(S,W2)},该公式的数值越小,表明两个文档关于所述关键词序列S表现出的相似性越高,反之,相似性越低。
另一方面,本发明还提供一种基于关键词序列结构的文档相似度度量系统,包括:
文档预处理模块,用于存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理;
出现位置统计模块,用于设置关键词序列,并在文档W1与W2内分别查找所述关键词序列中的所有关键词出现的位置集合;
结构特征计算模块,用于根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合,进而得到所述关键词序列分别在W1与W2中的结构特征值;
文档相似度计算模块,用于根据所述关键词序列在W1与W2中的结构特征值计算文档W1与W2关于所述关键词序列的相似度。
优选的,所述结构特征计算模块包括特征集合表示单元,用于根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合,分别表示为:
其中,关键词序列表示为S={s1→s2...→sm},q1与qm为关键词序列S在W1中某次出现中关键词s1和关键词sm在W1中的出现位置,|W1|表示文档W1包含的总字符数,(qm-q1)对应关键词序列中关键词sm与关键词s1在W1中出现位置间相隔距离,q'1与q'm为关键词序列S在W2中某次出现中关键词s1和关键词sm在W2中的出现位置,|W2|表示文档W2包含的总字符数,(q'm-q'1)对应关键词序列中关键词sm与关键词s1在W2中出现位置间相隔距离。
优选的,所述结构特征计算模块还包括特征值计算单元,用于得到所述关键词序列分别在W1与W2中的结构特征值,表示为:
其中,和分别为所述文档W1关于关键词序列S的特征集合的第一项之和与第二项之和,和分别为所述文档W2关于关键词序列S的特征集合的第一项之和与第二项之和,{qi,...,qim}为S关于W1的出现位置集合中的一次出现位置,{q'i,...,q'im}为S关于W2的出现位置集合中的一次出现位置。
优选的,所述文档相似度计算模块中,所述文档W1与W2关于所述关键词序列的相似度表示为:
SeqDist(S,W1,W2)=|SCV(S,W1)-SCV(S,W2)|/max{SCV(S,W1),SCV(S,W2)},该公式的数值越小,表明两个文档关于所述关键词序列S表现出的相似性越高,反之,相似性越低。
有益效果:本发明与现有技术相比,其显著优点是:本发明考虑关键词序列在文档中连续出现位置分布关系,在一定意义上体现了该文档与相应关键词序列的关联,有利于规避文档词句语义角度度量相似性的偏差,本发明也可以规避已有方法中的从关键词角度度量相似性时,忽视一组关键词前后因果关系在文档分布结构特征提取中影响的不足,实用性更强,准确率更高。
附图说明
图1为本发明一实施例所述的方法流程图;
图2为本发明一实施例所述的系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
实施例1
本发明提供一种基于关键词位置结构分布的文档相似性度量方法,该方法包括:
S1存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理。
S2设置关键词序列,在文档W1与W2内分别查找所述关键词序列中的所有关键词出现的位置集合;
关键词序列S在W1中的某次出现指序列S中的m个关键词在文档W1中依次出现一次。在文档W1中查找关键词序列S的某次出现,可记为:获取m个关键词的出现位置Ponit={p1,p2,...,pm},所有出现位置组成S在文档中的出现位置集合,其中,pi为关键词si在文档W1中的某个出现位置,该位置为si在W1中该出现位置之前的字符数。若s1为文档的首字符,p1=1。
S3根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合,进而得到所述关键词序列分别在W1与W2中的结构特征值;
首先,根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合,分别表示为:
其中,关键词序列表示为S={s1→s2...→sm},q1与qm为关键词序列S在W1中某次出现中关键词s1和关键词sm在W1中的出现位置,|W1|表示文档W1包含的总字符数,(qm-q1)对应关键词序列中关键词sm与关键词s1在W1中出现位置间相隔距离;(qm-q1)/|W1|数值为[0,1],数值越大,表明关键词序列S中m个关键词在文档中位置分布越稀疏。
q'1与q'm为关键词序列S在W2中某次出现中关键词s1和关键词sm在W2中的出现位置,|W2|表示文档W2包含的总字符数,(q'm-q'1)对应关键词序列中关键词sm与关键词s1在W2中出现位置间相隔距离,(q'm-q'1)/|W2|数值为[0,1],数值越大,表明关键词序列S中m个关键词在该文档中位置分布越稀疏。
其次,得到所述关键词序列分别在W1与W2中的结构特征值,表示为:
其中,和分别为所述文档W1关于关键词序列S的特征集合的第一项之和与第二项之和,和分别为所述文档W2关于关键词序列S的特征集合的第一项之和与第二项之和,{qi,...,qim}为S关于W1的出现位置集合中的一次出现位置,{q'i,...,q'im}为S关于W2的出现位置集合中的一次出现位置。
S4根据所述关键词序列在W1与W2中的结构特征值计算文档W1与W2关于所述关键词序列的相似度。
所述文档W1与W2关于所述关键词序列的相似度表示为:
SeqDist(S,W1,W2)=|SCV(S,W1)-SCV(S,W2)|/max{SCV(S,W1),SCV(S,W2)},该公式的数值越小,表明两个文档关于所述关键词序列S表现出的相似性越高,反之,相似性越低。
实施例2
本发明还提供一种基于关键词序列结构的文档相似度度量系统,包括:
文档预处理模块1,用于存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理;
出现位置统计模块2,用于设置关键词序列,并在文档W1与W2内分别查找所述关键词序列中的所有关键词出现的位置集合;
关键词序列S在W1中的某次出现指序列S中的m个关键词在文档W1中依次出现一次。在文档W1中查找关键词序列S的某次出现,获取m个关键词的出现位置Ponit={p1,p2,...,pm},所有出现位置组成S在文档中的出现位置集合,其中,pi为关键词si在文档W1中的某个出现位置,该位置为si在W1中该出现位置之前的字符数。若s1为文档的首字符,p1=1。
结构特征计算模块3,用于根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合,进而得到所述关键词序列分别在W1与W2中的结构特征值;
所述结构特征计算模块3包括特征集合表示单元31,用于根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合,分别表示为:
其中,关键词序列表示为S={s1→s2...→sm},q1与qm为关键词序列S在W1中某次出现中关键词s1和关键词sm在W1中的出现位置,|W1|表示文档W1包含的总字符数,(qm-q1)对应关键词序列中关键词sm与关键词s1在W1中出现位置间相隔距离,q'1与q'm为关键词序列S在W2中某次出现中关键词s1和关键词sm在W2中的出现位置,|W2|表示文档W2包含的总字符数,(q'm-q'1)对应关键词序列中关键词sm与关键词s1在W2中出现位置间相隔距离。
所述结构特征计算模块3包括特征值计算单元32,用于得到所述关键词序列分别在W1与W2中的结构特征值,表示为:
其中,和分别为所述文档W1关于关键词序列S的特征集合的第一项之和与第二项之和,和分别为所述文档W2关于关键词序列S的特征集合的第一项之和与第二项之和,{qi,...,qim}为S关于W1的出现位置集合中的一次出现位置,{q'i,...,q'im}为S关于W2的出现位置集合中的一次出现位置。
文档相似度计算模块4,用于根据所述关键词序列在W1与W2中的结构特征值计算文档W1与W2关于所述关键词序列的相似度。
所述文档相似度计算模块4中,所述文档W1与W2关于所述关键词序列的相似度表示为:
SeqDist(S,W1,W2)=|SCV(S,W1)-SCV(S,W2)|/max{SCV(S,W1),SCV(S,W2)},该公式的数值越小,表明两个文档关于所述关键词序列S表现出的相似性越高,反之,相似性越低。
本发明从关键词序列在文档中出现分布结构特征角度,提出文档相似性度量方法,有利于规避文档词句语义角度度量相似性的偏差;也可以规避已有方法从关键词角度度量相似性时,忽视一组关键词前后因果关系在文档分布结构特征提取中影响的不足。
为了更加体现本发明文档相似度的准确和实用,做出以下程序的计算,首先从中文期刊网节选两篇文章的相应段落如下,从两篇论文的关键词中选出如下关键词序列S={云存储→安全→加密机制}。
文档W1:
“随着云存储的迅猛发展,越来越多的用户选择使用云存储存放自己的资料.云存储的最大特点在于存储即服务,用户可以通过公有API将自己的数据上传到云端保存.但由于用户丧失了对数据的绝对控制权,一些数据安全的隐患也由此产生.为了消除安全隐患,并在保证安全性的同时尽可能地提高系统的服务质量,近年来国内外机构作了大量研究,从而开启了云存储中的一个研究方向——安全云存储系统.首先介绍了云存储系统的安全需求,然后阐述了安全云存储系统的研究现状,并总结了现有安全云存储系统中的一些关键技术的现状与不足之处,其中包括密钥分发与管理、基于属性的加密机制、基于数据密文的搜索机制与删冗机制、数据的持有性证明与恢复以及数据的可信删除等;最后指出了安全云存储系统未来的研究方向.”
文档W2:
“云存储是一种新型的数据存储体系结构,云存储中数据安全性、易管理性等也面临着新的挑战.首先,云存储系统需要为用户提供安全可靠的数据访问服务,并确保云端数据的安全性.为此,研究者们针对云存储中数据结构复杂、数据存储量大等特点提出了属性加密机制,为云储存系统提供细粒度的密文访问控制机制.在该机制中,数据所有者使用访问策略表示数据的访问权限并对数据进行加密.但数据的访问权限常会因各种原因发生改变,从而导致云中存储密文的频繁更新,进而影响数据的易管理性.为避免访问权限管理造成大量的计算和通信开销,提出了一种高效、便捷、易管理的云存储体系结构:利用ABE加密机制实现对密文的访问控制,通过高效的动态授权方法实现访问权限的管理,并提出了不同形式的访问策略之间的转换方法,使得动态授权方法更为通用,不依赖于特定的访问策略形式;针对授权执行者的不同,制定了更新授权、代理授权和临时授权3种动态授权形式,使得动态授权更为灵活、快捷;特别地,在该动态授权方法中,授权执行者根据访问策略的更改计算出最小增量集合,并根据该增量集合更新密文以降低密文更新代价.理论分析和实验结果表明,该动态授权方法能减小资源的耗费、优化系统执行效率、提高访问控制机制灵活性。”
实施步骤如下:
(1)对关键词序列S={云存储→安全→加密机制}:
计算文档W1关于关键词序列S的特征集合:
CLS(S,W1)={(2/322,((258-2))/322),(22/322,(258-22)/322),(33/322,(258-33)/322),(158/322,(258-158)/322),(171/322,(258-171)/322),(182/322,(258-182)/322)}={(0.0062,0.795),(0.0683,0.733),(0.1025,0.6988),(0.4907,0.3106),(0.5311,0.2702),(0.5652,0.2360)}
计算文档W2关于关键词序列S的特征集合:
CLS(S,W2)={(1/517,((115-1))/517),(1/517,(272-1)/517),(18/517,(115-18)/517),(18/517,(272-18)/517),(45/517,(115-45)/517),(45/517,(272-45)/517)}={(0.0019,0.2205),(0.0019,0.5242),(0.0348,0.1876),(0.0348,0.4913),(0.0870,0.1354),(0.0870,0.4391)}
相同的,生成文档W2关于S的结构特征值:CLS(S,W2)中各坐标特征,第一项之和为0.2474,第二项之和为1.9981,生成文档W2关于S的结构特征值:
SCV(S,W2)=0.5373+1.2774+0.18415+0.48227+0.07082+0.2297=2.7816
两文档关于关键词序列的相似度表示为:SeqDist(S,W1,W2)=|3.3249-2.7816|/3.3249=0.1634。以上计算均保留小数点后四位。
该计算值越小,表明两个文档关于关键词序列S表现出的相似性越高,反之相似性越低。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (2)
1.一种基于关键词序列结构的文档相似度度量方法,其特征在于,该方法包括:
(1)存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理;
(2)设置关键词序列,在文档W1与W2内分别查找所述关键词序列中的所有关键词出现的位置集合;
(3)根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合,进而得到所述关键词序列分别在W1与W2中的结构特征值;
步骤(3)中,根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合,分别表示为:
其中,关键词序列表示为S={s1→s2...→sm},q1与qm为关键词序列S在W1中某次出现中关键词s1和关键词sm在W1中的出现位置,|W1|表示文档W1包含的总字符数,(qm-q1)对应关键词序列中关键词sm与关键词s1在W1中出现位置间相隔距离,q'1与q'm为关键词序列S在W2中某次出现中关键词s1和关键词sm在W2中的出现位置,|W2|表示文档W2包含的总字符数,(q'm-q'1)对应关键词序列中关键词sm与关键词s1在W2中出现位置间相隔距离;
所述步骤(3)中,得到所述关键词序列分别在W1与W2中的结构特征值,表示为:
其中,和分别为所述文档W1关于关键词序列S的特征集合的第一项之和与第二项之和,和分别为所述文档W2关于关键词序列S的特征集合的第一项之和与第二项之和,{qi,...,qim}为S关于W1的出现位置集合中的一次出现位置,{q'i,...,q'im}为S关于W2的出现位置集合中的一次出现位置;(4)根据所述关键词序列在文档W1与W2中的结构特征值计算文档W1与W2关于所述关键词序列的相似度;
所述步骤(4)中,所述文档W1与W2关于所述关键词序列的相似度表示为:
SeqDist(S,W1,W2)=|SCV(S,W1)-SCV(S,W2)|/max{SCV(S,W1),SCV(S,W2)},公式的数值越小,表明两个文档关于所述关键词序列S表现出的相似性越高,反之,相似性越低。
2.一种根据权利要求1所述的基于关键词序列结构的文档相似度度量方法实现的系统,其特征在于,包括:
文档预处理模块,用于存储两篇文档W1与W2,所述文档W1与W2均具有多个自然段,将所述存储的两篇文档W1与W2分别进行分词和停用词处理;
出现位置统计模块,用于设置关键词序列,并在文档W1与W2内分别查找所述关键词序列中的所有关键词出现的位置集合;
结构特征计算模块,用于根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合,进而得到所述关键词序列分别在W1与W2中的结构特征值;
结构特征计算模块包括特征集合表示单元,用于根据关键词出现的位置生成关于关键词序列分别在文档W1与W2中的特征集合,分别表示为:
其中,关键词序列表示为S={s1→s2...→sm},q1与qm为关键词序列S在W1中某次出现中关键词s1和关键词sm在W1中的出现位置,|W1|表示文档W1包含的总字符数,(qm-q1)对应关键词序列中关键词sm与关键词s1在W1中出现位置间相隔距离,q'1与q'm为关键词序列S在W2中某次出现中关键词s1和关键词sm在W2中的出现位置,|W2|表示文档W2包含的总字符数,(q'm-q'1)对应关键词序列中关键词sm与关键词s1在W2中出现位置间相隔距离;
所述结构特征计算模块还包括特征值计算单元,用于得到所述关键词序列分别在W1与W2中的结构特征值,表示为:
其中,和分别为所述文档W1关于关键词序列S的特征集合的第一项之和与第二项之和,和分别为所述文档W2关于关键词序列S的特征集合的第一项之和与第二项之和,{qi,...,qim}为S关于W1的出现位置集合中的一次出现位置,{q'i,...,q'im}为S关于W2的出现位置集合中的一次出现位置;
文档相似度计算模块,用于根据所述关键词序列在W1与W2中的结构特征值计算文档W1与W2关于所述关键词序列的相似度;
文档相似度计算模块中,所述文档W1与W2关于所述关键词序列的相似度表示为:
SeqDist(S,W1,W2)=|SCV(S,W1)-SCV(S,W2)|/max{SCV(S,W1),SCV(S,W2)},该公式的数值越小,表明两个文档关于所述关键词序列S表现出的相似性越高,反之,相似性越低。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910406178.9A CN110175328B (zh) | 2019-05-16 | 2019-05-16 | 一种基于关键词序列结构的文档相似度度量方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910406178.9A CN110175328B (zh) | 2019-05-16 | 2019-05-16 | 一种基于关键词序列结构的文档相似度度量方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110175328A CN110175328A (zh) | 2019-08-27 |
CN110175328B true CN110175328B (zh) | 2023-02-17 |
Family
ID=67691174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910406178.9A Active CN110175328B (zh) | 2019-05-16 | 2019-05-16 | 一种基于关键词序列结构的文档相似度度量方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110175328B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733005B (zh) * | 2021-03-31 | 2021-06-25 | 江苏智谋科技有限公司 | 一种基于微平台实时推送全域信息的系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324664A (zh) * | 2013-04-27 | 2013-09-25 | 国家电网公司 | 一种基于傅里叶变换的文档相似判别方法 |
CN105630751A (zh) * | 2015-12-28 | 2016-06-01 | 厦门优芽网络科技有限公司 | 一种快速比对文本内容的方法与系统 |
CN106951411A (zh) * | 2017-03-24 | 2017-07-14 | 福州大学 | 一种云计算中保护数据隐私的快速多关键词语义排序搜索方法 |
US9785833B1 (en) * | 2016-03-17 | 2017-10-10 | Relativity Oda Llc | System and method for textual near-duplicate grouping of documents |
CN108132929A (zh) * | 2017-12-25 | 2018-06-08 | 上海大学 | 一种海量非结构化文本的相似性计算方法 |
-
2019
- 2019-05-16 CN CN201910406178.9A patent/CN110175328B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324664A (zh) * | 2013-04-27 | 2013-09-25 | 国家电网公司 | 一种基于傅里叶变换的文档相似判别方法 |
CN105630751A (zh) * | 2015-12-28 | 2016-06-01 | 厦门优芽网络科技有限公司 | 一种快速比对文本内容的方法与系统 |
US9785833B1 (en) * | 2016-03-17 | 2017-10-10 | Relativity Oda Llc | System and method for textual near-duplicate grouping of documents |
CN106951411A (zh) * | 2017-03-24 | 2017-07-14 | 福州大学 | 一种云计算中保护数据隐私的快速多关键词语义排序搜索方法 |
CN108132929A (zh) * | 2017-12-25 | 2018-06-08 | 上海大学 | 一种海量非结构化文本的相似性计算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110175328A (zh) | 2019-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815487B (zh) | 文本质检方法、电子装置、计算机设备及存储介质 | |
CN108573045B (zh) | 一种基于多阶指纹的比对矩阵相似度检索方法 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
WO2020259280A1 (zh) | 日志管理方法、装置、网络设备和可读存储介质 | |
CN106339495A (zh) | 一种基于层次增量聚类的话题检测方法及系统 | |
CN111651552B (zh) | 结构化信息确定方法、装置和电子设备 | |
CN111488732B (zh) | 一种变形关键词检测方法、系统及相关设备 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN112528653B (zh) | 短文本实体识别方法和系统 | |
Godin et al. | Explaining character-aware neural networks for word-level prediction: Do they discover linguistic rules? | |
CN118096452B (zh) | 一种案件辅助审判方法、装置、终端设备及介质 | |
CN117076636A (zh) | 一种智能客服的信息查询方法、系统和设备 | |
CN110175328B (zh) | 一种基于关键词序列结构的文档相似度度量方法及系统 | |
CN117745482A (zh) | 合同条款的确定方法、装置、设备和介质 | |
CN117828042A (zh) | 用于金融服务的问答处理方法、装置、设备及介质 | |
CN113935387A (zh) | 文本相似度的确定方法、装置和计算机可读存储介质 | |
CN111062208A (zh) | 一种文件审核的方法、装置、设备及存储介质 | |
CN116361681A (zh) | 基于人工智能的文档分类方法、装置、计算机设备及介质 | |
CN103678355B (zh) | 文本挖掘方法和文本挖掘装置 | |
CN106919565A (zh) | 一种基于MapReduce的文档检索方法及系统 | |
CN114706927A (zh) | 基于人工智能的数据批量标注方法及相关设备 | |
CN110175220B (zh) | 一种基于关键词位置结构分布的文档相似性度量方法及系统 | |
Xiao et al. | Fast Text Comparison Based on ElasticSearch and Dynamic Programming | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
Zhang et al. | The incremental knowledge acquisition based on hash algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |