CN100412869C - 一种改进的基于文档结构的文档相似性度量方法 - Google Patents

一种改进的基于文档结构的文档相似性度量方法 Download PDF

Info

Publication number
CN100412869C
CN100412869C CNB2006100725887A CN200610072588A CN100412869C CN 100412869 C CN100412869 C CN 100412869C CN B2006100725887 A CNB2006100725887 A CN B2006100725887A CN 200610072588 A CN200610072588 A CN 200610072588A CN 100412869 C CN100412869 C CN 100412869C
Authority
CN
China
Prior art keywords
sub
document
topics
sigma
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2006100725887A
Other languages
English (en)
Other versions
CN1828610A (zh
Inventor
万小军
彭宇新
杨建武
吴於茜
陈晓鸥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIDA FANGZHENG TECHN INST Co Ltd BEIJING, Peking University, Peking University Founder Group Co Ltd filed Critical BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Priority to CNB2006100725887A priority Critical patent/CN100412869C/zh
Publication of CN1828610A publication Critical patent/CN1828610A/zh
Application granted granted Critical
Publication of CN100412869C publication Critical patent/CN100412869C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种改进的基于文档子主题结构的文档相似性度量方法,属于语言的计算机处理和信息检索技术领域。针对传统相似性度量方法丢失了词语在文档各个部分的分布信息这个缺点以及利用最优匹配的基于文档子主题结构的方法只允许子主题之间一对一匹配的缺点。本发明所述的方法利用文档结构分析方法分别得到所述两个文档A和B的子主题结构,然后通过构建一个带权二部图G并根据求解线性规划的方法求解其货物运输距离EMD(A,B),最后根据1-EMD(A,B)得到文档A和B之间的相似度值。本发明允许文档子主题之间在一定约束条件下进行多对多匹配,从而提高了文档相似性判断的准确度,同时,该方法具有更好的鲁棒性。

Description

一种改进的基于文档结构的文档相似性度量方法
技术领域
本发明属于计算机语言处理及信息检索技术领域,具体涉及一种改进的基于文档结构的文档相似性度量方法。
背景技术
文档相似性度量是文本信息处理领域的一个核心问题,很多文本应用包括文档聚类、文档检索、文档过滤等,都依赖于文档相似性的精确度量。目前已经有许多文档相似性度量方法被提出和应用,例如余弦度量法(cosinemeasure)、Jaccard度量法、Dice度量法(参考文献:W.B.Frakes and R.Baeza-Yates:Information Retrieval,Data Structure and Algorithms,1992)、基于信息论的方法(参考文献:J.A.Aslam and M.Frost:AnInformation-theoretic Measure for Document Similarity.In Proceedingsof SIGIR 2003)等,其中应用最广的是余弦度量法。
在以下文献中记载了文档相似性度量方法:
Dice度量法:作者:W.B.Frakes and R.Baeza-Yates,著作名称:Information Retrieval,Data Structure and Algorithms,出版日期:1992年。
基于信息论的方法:作者:J.A.Aslam、M.Frost,题目:AnInformation-theoretic Measure for Document Similarity,期刊名称:Proceedings of SIGIR’2003,出版日期:2003年。
基于最优匹配的考虑文档结构的方法:作者:X.J.Wan,Y.X.Peng,题目:A New Retrieval Model Based on TextTiling for Document SimilaritySearch,期刊名称:Journal of Computer Science and Technology,出版日期:2005年。
现有的文档相似性度量方法都是基于向量空间模型。在向量空间模型中,文档被看作一个词袋,并被表示为一个向量,词袋中的每一个词被表示为该向量的一维,向量的每一维对应的权值为其所代表的词的tf×idf值,tf为该词在文档中出现的频率,idf为该词的倒排文档频率。一般通过log(N/n)来计算某个词的idf,其中N为文档集合中的文档总数,n为文档集合中出现过该词的文档数目。
得到文档的向量表示之后,余弦度量法(cosine measure)是通过以下余弦公式计算得到两文档的相似度值:
sim cos ine ( x , y ) = x ρ · y ρ | x ρ | × | y ρ |
其中
Figure C20061007258800052
分别是文档x和y的向量表示,·表示向量的点积,“||”表示取模计算。其他度量方法与余弦度量法的主要区别在于采用了不同的计算公式。
在以上文档相似性度量方法中,文档被压缩成向量表示,因此失去了文档自身的结构信息,即丢失了词语在文档各个部分的分布信息。极端情况下,两个表示为同一向量的文档可以由不同的句子所组成,而使用现有的度量方法将这两个文档分别与某个给定文档计算相似度时,计算结果会得到相同的相似度,但是实际上由于这两个文档是由不同的句子组成,这两个文档与给定文档之间应该具有不同的相似度值。因此,现有的度量方法的精确度不高。
为了克服以上文档相似性度量方法的缺点,基于最优匹配的考虑文档结构的方法则假定每一个文档都由围绕一个中心主题的若干个子主题组成,每一个子主题反映在文档上为一个文本块,也就是一组反映某个子主题的词串或句子。词在子主题上不同的分布情况将会影响文档之间的相似性。对于两个文档来说,词在子主题上的分布越相似,这两个文档之间相似程度越高。该方法利用文本分析技术得到文档子主题序列之后,对两个文档对应的子主题序列建立一个带权二部图,然后对此带权二部图通过Kuhn-Munkres算法(也叫匈牙利算法The Hungarian Method)求解最优匹配,所得到的最优匹配进行规范化后即得这两个文档的相似度值。实验表明了该方法相对传统方法的优越性。
但以上基于文档结构的方法存在一个缺点,那就是所采用的最优匹配模型只允许一个文档的一个子主题对应于另一个文档的一个子主题,也就是只允许文档子主题之间的一一对应。现实应用中,一个子主题应该能和多个子主题相似,也就是说不同子主题之间应该允许多对多的对应关系,从而允许一个文档中的某个子主题对应于另一个文档中的多个子主题。为了克服以上缺点,我们提出了利用线性规划中的运输问题对相似性度量问题建模,通过求解货物运输距离(Earth Mover’s Distance)来获得文档之间的相似度值。
发明内容
针对现有技术中存在的缺陷,本发明的目的是提供一种新的基于允许文档子主题多对多匹配的文档相似性度量方法,能够更准确地计算文档之间的相似性,并具有更好的鲁棒性。
为达到以上目的,本发明采用的技术方案是:一种新的基于文档结构的文档相似性度量方法,包括以下步骤:
(1)对于需要比较的两个文档A和B,分别使用文档结构分析方法得出每个文档的子主题序列;
(2)根据文档A和B的子主题结构信息构建一个带权二部图G,该带权二部图G的每个顶点带有自身的权重,任意两个分属A和B的子主题之间利用传统相似性度量方法计算语义距离;
进一步,按以下方式对A和B建立一个带权二部图G.:
令A={(ta1,wa1),(ta2,wa2),...,(tam,wam)}表示文档A对应的子主题结构,其中tai代表文档A中的一个子主题,也就是一个文本块,权重wai代表子主题tai中文本的所有词语的数量;
令B={(tb1,wb1),(tb2,wb2),...,(tbn,wbn)}表示文档B对应的子主题结构,其中tbj代表文档B中的一个子主题,也就是一个文本块,权重wbj代表子主题tbj中文本的所有词语的数量;m和n分别表示文档A中子主题的个数和文档B中子主题的个数,1≤i≤m,1≤j≤n;
令D={dij}为子主题之间的距离矩阵,其中dij表示子主题tai和tbj之间的语义距离,在这里,dij=1-sij,其中sij为子主题tai和tbj所对应的文本块之间的余弦相似度值;
令G={A,B,D}为根据A,B,D建立的带权二部图,V=A∪B为点集,D={dij}为边集。
进一步,所述的步骤(2)中计算两个子主题之间语义距离的相似性度量方法为余弦度量法、Jaccard度量法或Dice度量法。
(3)在建立的带权图G中,根据求解线性规划的方法求解下面这个货物运输距离EMD(A,B):
寻找一个流动F={fij},其中表示子主题tai和tbi之间的流动,使得下面的总耗费最小:
WORK ( A , B , F ) = Σ i = 1 m Σ j = 1 n f ij d ij
并且满足下面的约束条件:
(a)fij≥0 1≤i≤m 1≤j≤n
(b) Σ j = 1 n f ij ≤ w ai 1≤i≤m
(c) Σ i = 1 m f ij ≤ w bj 1≤j≤n
(d) Σ i = 1 m Σ j = 1 n f ij = min ( Σ i = 1 m w ai · Σ j = 1 n w bj )
约束(a)只允许词语从A向B流动,反之则不成立;约束(b)限制A中某个子主题能够发送的词语数量最多为其对应的权重;约束(c)限制B中某个子主题能够接受的词语数量最多为其对应的权重;约束(d)使得尽可能从A移动最多数量的词语到B。
求得最优流动F之后,货物运输距离(Earth Mover’s Distance)定义为规范化的工作耗费,根据下式计算得到:
EMD ( A , B ) = Σ i = 1 m Σ j = 1 n f ij d ij Σ i = 1 m Σ j = 1 n f ij
进一步,所述的求解线性规划的方法为单纯形算法,包括以下步骤:
①通过形式变换和添加松弛变量,将该问题转化为标准线性规划形式:
MinWORK ( A , B , F ) = Σ i = 1 m Σ j = 1 n f ij d ij
s.t.:
Σ j = 1 n f ij + x i = w ai 1≤i≤m
Σ i = 1 m f ij + y j = w bj 1≤j≤n
Σ i = 1 m Σ j = 1 n f ij = min ( Σ i = 1 m w ai , Σ j = 1 n w bj )
fij≥0,xi≥0,yj≥0 1≤i≤m  1≤j≤n
其中fij,xi,yj为变量;
F={fij}表示流动;fij表示子主题tai和tbj之间的流动;xi、yj为松弛变量;WORK(A,B,F)是目标函数,表示A与B之间基于流动F的总耗费大小;
②计算上面标准线性规划的初始基可行解,如果当前基可行解是最优解,那么输出该解,算法终止;否则转③;
③根据典式寻找新的基可行解,新的基与原有的基只有一个变量不同,将原有基中的变量用新基中的变量替换,即得新基;
④如果当前基可行解是最优解,或者循环次数达到预先规定的数目,算法停止,输出当前解,否则转③;
求得最优流动F之后,货物运输距离(Earth Mover’s Distance)定义为规范化的工作耗费,根据下式计算得到:
EMD ( A , B ) = Σ i = 1 m Σ j = 1 n f ij d ij Σ i = 1 m Σ j = 1 n f ij .
(4)得到货物运输距离EMD(A,B)之后,通过下式计算文档A与B之间的相似度值:
SimEMD(A,B)=1-EMD(A,B)
其中,所述的文档结构分析方法为文本块分割方法(TextTiling)。
其中,所述的文档结构分析方法为聚类方法。
本发明的效果在于:本发明提出的基于货物运输距离的文档相似性度量方法,自然地将单个子主题之间的相似度值扩展到文档之间的相似度值,允许子主题之间满足一定约束条件下的多对多匹配,也就是允许子主题之间的部分匹配,克服了利用最优匹配只允许子主题只见一对一的全部匹配这个缺点,从而提高了文档相似性判断的准确度及其鲁棒性。
附图说明
图1是本发明所述方法的流程图;
图2是使用本发明提出的方法进行文档相似搜索的示意图;
图3是使用本发明提出的方法进行文档聚类的示意图;
图4是文档子主题结构的例子;
图5是一个文档子主题之间多对多匹配的例子;
图6是不同文档分析方法基础上最优匹配方法和本发明的MAP对比图;
图7是不同文档分析方法基础上最优匹配方法和本发明的P@5对比图;
图8是不同文档分析方法基础上最优匹配方法和本发明的P@10对比图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步的描述。
如图4所示,每一个文档都由围绕一个中心主题的若干个子主题组成,每一个子主题反映在文档上为一个文本块,也就是一组反映某个子主题的词串或句子。获得文档子主题的方法有多种,例如文本块分割方法和句子聚类方法等,本发明优选实施例一,采用文本块分割方法(TextTiling)对文档结构进行分析,流程如图1所示包括以下步骤:
1、读入需要比较的两个文档X和Y,对于需要比较的两个文档X和Y,分别使用文本块分割方法(TextTiling)得出每个文档的子主题序列X={x1,x2,...,xn}和Y={y1,y2,...ym},具体步骤为:
①对读入的文档X进行分词,每20个词划分成1个词串,词串的大小可根据需要选择。
②为每两个词串之间的位置通过下列方法计算一个相似度值:对于词串i和词串i+1之间的位置,计算由词串i-k到词串i组成的文本块与由词串i+1到i+k+1组成的文本块之间的余弦相似度值,这个值就是词串i和词串i+1之间位置的相似度值xi,然后对每一个位置的相似度值利用其两侧位置的相似度值的平均值进行平滑处理。其中k通常为6。
③对每两个词串i和i+1之间的位置计算其深度值si=(xi-1-xi)+(xi+1-xi),深度值越大,越有可能成为子主题分界点。只保留si>0的位置,对这些位置按照深度值从大到小排序。如果某个位置的深度值大于s-σ/2(其中s为平均深度值,σ位深度值的标准差),那么这个位置为一个子主题的分界点。所有的子主题分界点确定之后,就能得到文档X的子主题序列{x1,x2,...,xn},如图4所示,文档被划分为一个子主题序列。
对文档Y同样进行①-③步骤处理,得到文档Y的子主题序列{y1,y2,...ym};
2、根据文档A和B的子主题结构信息构建一个带权二部图G,其中每个顶点带有自身的权重,任两个分属A和B的子主题之间利用传统相似性度量方法计算语义距离;
按以下方式对A和B建立一个带权图G.:
令A={(ta1,wa1),(ta2,wa2),...,(tam,wam)}表示文档A对应的子主题结构,其中tai代表文档A中的一个子主题,也就是一个文本块,权重wai代表子主题tai中文本的所有词语的数量;
令B={(tb1,wb1),(tb2,wb2),...,(tbn,wbn)}表示文档B对应的子主题结构,其中tbj代表文档B中的一个子主题,也就是一个文本块,权重wbj代表子主题tbj中文本的所有词语的数量;
令D={dij}为子主题之间的距离矩阵,其中dij表示子主题tai和tbj之间的语义距离,在这里,dij=1-sij,其中sij为子主题tai和tbj所对应的文本块之间的余弦相似度值;
令G={A,B,D}为根据A,B,D建立的加权图,V=A∪B为点集,D={dij}为边集。
3、在建立的带权图G中,我们利用单纯形算法求解下面这个运输问题:寻找一个流动F={fij},其中表示子主题tai和tbj之间的流动,使得下面的总耗费最小:
WORK ( A , B , F ) = Σ i = 1 m Σ j = 1 n f ij d ij
并且满足下面的的约束条件:
(a)fij≥0 1≤i≤m 1≤j≤n
(b) Σ j = 1 n f ij ≤ w ai 1≤i≤m
(c) Σ i = 1 m f ij ≤ w bj 1≤j≤n
(d) Σ i = 1 m Σ j = 1 n f ij = min ( Σ i = 1 m w ai , Σ j = 1 n w bj )
约束(a)只允许词语从A向B流动,反之则不成立;约束(b)限制A中某个子主题能够发送的词语数量最多为其对应的权重;约束(c)限制B中某个子主题能够接受的词语数量最多为其对应的权重;约束(d)使得尽可能从A移动最多数量的词语到B。
单纯形算法的主要步骤如下:
①通过形式变换和添加松弛变量,将该问题转化为标准线性规划形式:
MinWORK ( A , B , F ) = Σ i = 1 m Σ j = 1 n f ij d ij
s.t.:
Σ j = 1 n f ij + x i = w ai 1≤i≤m
Σ i = 1 m f ij + y j = w bj 1≤j≤n
Σ i = 1 m Σ j = 1 n f ij = min ( Σ i = 1 m w ai , Σ j = 1 n w bj )
fij≥0,xi≥0,yj≥0 1≤i≤m 1≤j≤n
其中fij,xi,yj为变量;
②计算上面标准线性规划的初始基可行解,如果当前基可行解是最优解,那么输出该解,算法终止;否则转③;
③根据典式寻找新的基可行解,新的基与原有的基只有一个变量不同,将该变量用新挑选的变量替换,即得新基;
④如果当前基可行解是最优解,或者循环次数达到预先规定的数目,算法停止,输出当前解,否则转③;
求得最优流动F之后,货物运输距离(Earth Mover’s Distance)定义为规范化的工作耗费,根据下式计算得到:
EMD ( A , B ) = Σ i = 1 m Σ j = 1 n f ij d ij Σ i = 1 m Σ j = 1 n f ij
4、得到货物运输距离EMD(A,B)之后,通过下式计算文档A与B之间的相似度值:
SimEMD(A,B)=1-EMD(A,B)。
本发明优选实施例二,采用聚类技术对文档结构分析,包括以下步骤:
1、读入需要比较的两个文档X和Y,对于两个文档X和Y分别利用聚类方法获得文档子主题序列,具体算法步骤为:
①对读入的文档进行分词,并将文档划分为n个句子;
②计算任意两个句子之间的余弦相似度值;
③采用数据聚类方法对句子进行聚类,每一类中的所有句子组成的文本块即为一个子主题。本实施例采用聚集式聚类方法来对句子进行聚类,步骤为:
a.初始每个句子成一类,共有k个类簇;
b.现有k个类簇中具有最大相似度值的两个类簇c1和c2,通过如下公式计算c1和c2之间的相似度值s12
s 12 = Σ i = 1 m Σ j = 1 n sim ( p i , p j ) m × n
其中pi表示c1中的句子,pj表示c2中的句子,sim(pi,pj)表示句子pi和pj之间的余弦相似度值;m,n分别为c1和c2中句子的个数。
如果c1和c2之间的相似度值s12大于设定的合并阈值t=0.10,那么合并这两类成为一个新类,此时类簇个数k=k-1,如果k=1,则算法终止,否则返回步骤b继续进行新一轮类簇合并。
如果c1和c2之间的相似度值s12小于等于设定的合并阈值t=0.10,那么算法终止。
2、按以下方式对A和B建立一个带权图G:
令A={(ta1,wa1),(ta2,wa2),...,(tam,wam)}表示文档A对应的子主题结构,其中tai代表文档A中的一个子主题,也就是一个文本块,权重wai代表子主题tai中文本的所有词语的数量。
令B={(tb1,wb1),(tb2,wb2),...,(tbn,wbn)}表示文档B对应的子主题结构,其中tbj代表文档B中的一个子主题,也就是一个文本块,权重wbj代表子主题tbj中文本的所有词语的数量。
令D={dij}为子主题之间的距离矩阵,其中dij表示子主题tai和tbj之间的语义距离。在这里,dij=1-sij,其中sij为子主题tai和tbj所对应的文本块之间的余弦相似度值。
令G={A,B,D}为根据A,B,D建立的加权图,V=A∪B为点集,D={dij}为边集。
3、在建立的带权图G中,我们利用单纯形算法求解下面这个运输问题:
寻找一个流动F={fij},其中表示子主题tai和tbj之间的流动,使得下面的总耗费最小:
WORK ( A , B , F ) = Σ i = 1 m Σ j = 1 n f ij d ij
并且满足下面的的约束条件:
(a)fij≥0 1≤i≤m 1≤j≤n
(b) Σ j = 1 n f ij ≤ w ai 1≤i≤m
(c) Σ i = 1 m f ij ≤ w bj 1≤j≤n
(d) Σ i = 1 m Σ j = 1 n f ij = min ( Σ i = 1 m w ai , Σ j = 1 n w bj )
约束(a)只允许词语从A向B流动,反之则不成立;约束(b)限制A中某个子主题能够发送的词语数量最多为其对应的权重;约束(c)限制B中某个子主题能够接受的词语数量最多为其对应的权重;约束(d)使得尽可能从A移动最多数量的词语到B。
单纯形算法的主要步骤如下:
①通过形式变换和添加松弛变量,将该问题转化为标准线性规划形式:
MinWORK ( A , B , F ) = Σ i = 1 m Σ j = 1 n f ij d ij
s.t.:
Σ j = 1 n f ij + x i = w ai 1≤i≤m
Σ i = 1 m f ij + y j = w bj 1≤j≤n
Σ i = 1 m Σ j = 1 n f ij = min ( Σ i = 1 m w ai , Σ j = 1 n w bj )
fij≥0,xi≥0,yj≥0 1≤i≤m 1≤j≤n
其中fij,xi,yj为变量;
②计算上面标准线性规划的初始基可行解,如果当前基可行解是最优解,那么输出该解,算法终止;否则转③;
③根据典式寻找新的基可行解,新的基与原有的基只有一个变量不同,将该变量用新挑选的变量替换,即得新基;
④如果当前基可行解是最优解,或者循环次数达到预先规定的数目,算法停止,输出当前解。否则转③;
我们求得最优流动F之后,货物运输距离(Earth Mover’s Distance)定义为规范化的工作耗费,根据下式计算得到:
EMD ( A , B ) = Σ i = 1 m Σ j = 1 n f ij d ij Σ i = 1 m Σ j = 1 n f ij
4、得到货物运输距离EMD(A,B)之后,通过下式计算文档A与B之间的相似度值:
SimEMD(A,B)=1-EMD(A,B)。
如图2所示为利用本发明进行对相似文档的搜索。如图3所示为利用本发明进行文档聚类。
为了验证本发明的有效性和鲁棒性,采用主题检测与追踪(TDT)大会的数据(TDT-3)进行了比较。在TDT-3数据集中一共有120个主题,每个主题下有人工标注的若干个文档。根据TDT的定义,属于同一主题中的文档之间比属于不同主题之间的文档之间更相似。对于给定的文档,通过不同的相似性度量方法从文档集合中找出最相似的200个文档,然后将这个列表跟答案比较,根据效果的好坏来比较各种文档相似性度量方法,包括最流行的余弦度量法(cosine),Smart系统中的对文档长度规范化的向量空间方法PivotedVSM,Okapi系统中的BM25方法以及利用最优匹配的考虑文档结构的方法。采用文档检索中常用的前5个结果中的准确率P@5,前10个结果中的准确率P@10,平均准确率(MAP)来比较不同相似性度量方法的性能。实验结果如表1所示:
表1.不同相似性度量方法的性能比较
  Cosine   PivotedVSM   BM25   最优匹配   本发明
  MAP   0.82   0.723   0.757   0.85   0.87
  P@5   0.83   0.81   0.82   0.87   0.88
  P@10   0.72   0.71   0.72   0.773   0.773
表1的结果表明,本发明的方法能够更好地度量文档相似性,提高文档检索性能,在几乎所有指标上都优于传统方法和基于最优匹配的考虑文档结构的方法。
同时,我们利用不同的文档分析方法得到的文档子主题结构作为基础来对比了基于最优匹配的方法和本发明的方法。图6、图7和图8分别显示了在不同文档分析方法得到文档子主题结构的基础上利用最优匹配的方法和本发明的方法的性能对比。所示的图6、图7和图8中,OM为最优匹配的方法,EMD为本发明的方法。TextTiling表示根据文本块分割方法得到文档子主题结构,cluster(0.005)表示利用句子聚类的方法得到文本子主题结构,0.005为聚类合并阈值,其余类似。
从图中可以看出,本发明的方法(EMD)的性能在不同文档分析基础上表现比较稳定,性能没有大幅波动,但是基于最优匹配的方法(OM)则表现不稳定,基于文本块分割方法获得的文档子主题时表现较好,基于句子聚类方法获得的文档子主题时表现则较差,性能波动明显。可见本发明提出的基于货物运输距离的文档相似性度量方法,自然地将单个子主题之间的相似度值扩展到文档之间的相似度值,允许子主题之间满足一定约束条件下的多对多匹配,如图5所示,也就是允许子主题之间的部分匹配,克服了利用最优匹配只允许子主题只见一对一的全部匹配这个缺点,从而提高了文档相似性判断的准确度及其鲁棒性。
本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。

Claims (7)

1. 一种改进的基于文档结构的文档相似性度量方法,该方法包括以下步骤:
(1)对于待比较的两个文档A和B,利用文档结构分析方法分别得到所述两个文档A和B的子主题结构;
(2)根据文档A和B的子主题结构信息构建一个带权二部图G,该带权二部图G的每个顶点带有自身的权重,任意两个分属A和B的子主题之间利用传统相似性度量方法计算语义距离;
(3)在建立的带权二部图G中,根据求解线性规划的方法求解A与B之间货物运输距离EMD(A,B);
(4)根据1-EMD(A,B)得到文档A和B之间的相似度值。
2. 如权利要求1所述的一种改进的基于文档结构的文档相似性度量方法,其特征在于,所述的步骤(1)中文档结构分析方法为文本块分割方法。
3. 如权利要求1所述的一种改进的基于文档结构的文档相似性度量方法,其特征在于,所述的步骤(1)中文档结构分析方法为聚类方法。
4. 如权利要求1所述的改进的基于文档结构的文档相似性度量方法,其特征在于,所述的步骤(2)巾顶点的权重为该顶点表示的文本中词语的数量。
5. 如权利要求1所述的一种改进的基于文档结构的文档相似性度量方法,其特征在于,所述的步骤(2)中按以下方式对A和B建立一个带权二部图G:
令A={(ta1,wa1),(ta2,wa2),...,(tam,wam)}表示文档A对应的子主题结构,其中tai代表文档A中的一个子主题,也就是一个文本块,权重wai代表子主题tai中文本的所有词语的数量;
令B={(tb1,wb1),(tb2,wb2),...,(tbn,wbn)}表示文档B对应的子主题结构,其中tbj代表文档B中的一个子主题,也就是一个文本块,权重wbj代表子主题tbj中文本的所有词语的数量;
m和n分别表示文档A中子主题的个数和文档B中子主题的个数,1≤i≤m,1≤j≤n;
令D={dij}为子主题之间的距离矩阵,其中dij表示子主题tai和tbj之间的语义距离,在这里,dij=1-sij,其中sij为子主题tai和tbj所对应的文本块之间的余弦相似度值;
令G={A,B,D}为根据A,B,D建立的带权二部图,V=A∪B为点集,D={dij}为边集。
6. 如权利要求1、2、3、4或5所述的一种改进的基于文档结构的文档相似性度量方法,其特征在于,所述的步骤(2)中计算两个子主题之间语义距离的相似性度量方法为余弦度量法、Jaccard度量法或Dice度量法。
7. 如权利要求5所述的一种改进的基于文档结构的文档相似性度量方法,其特征在于,所述的步骤(3)中求解线性规划的方法为单纯形算法,包括以下步骤:
①通过形式变换和添加松弛变量,将货物运输距离转化为标准线性规划形式:
Min WORK ( A , B , F ) = Σ i = 1 m Σ j = 1 n f ij d ij
满足以下约束条件:
Σ j = 1 n f ij + x i = w ai 1≤i≤m
Σ i = 1 m f ij + y j = w bj 1≤j≤n
Σ i = 1 m Σ j = 1 n f ij = min ( Σ i = 1 m w ai , Σ j = 1 n w bj )
fij≥0,xi≥0,yj≥01≤i≤m 1≤j≤n
其中fij,xi,yj为变量;
F={fij}表示流动;fij表示子主题tai和tbj之间的流动;xi、yj为松弛变量;WORK(A,B,F)是目标函数,表示A与B之间基于流动F的总耗费大小;
②计算上面标准线性规划的初始基可行解,如果当前基可行解是最优解,那么输出该解,算法终止;否则转③;
③根据典式寻找新的基可行解,新的基与原有的基只有一个变量不同,将原有基中的变量用新基中的变量替换,即得新基;
④如果当前基可行解是最优解,或者循环次数达到预先规定的数目,算法停止,输出当前解,否则转③;
求得最优流动F之后,货物运输距离定义为规范化的工作耗费,根据下式计算得到:
EMD ( A , B ) = Σ i = 1 m Σ j = 1 n f ij d ij Σ i = 1 m Σ j = 1 n f ij .
CNB2006100725887A 2006-04-13 2006-04-13 一种改进的基于文档结构的文档相似性度量方法 Expired - Fee Related CN100412869C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100725887A CN100412869C (zh) 2006-04-13 2006-04-13 一种改进的基于文档结构的文档相似性度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100725887A CN100412869C (zh) 2006-04-13 2006-04-13 一种改进的基于文档结构的文档相似性度量方法

Publications (2)

Publication Number Publication Date
CN1828610A CN1828610A (zh) 2006-09-06
CN100412869C true CN100412869C (zh) 2008-08-20

Family

ID=36947002

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100725887A Expired - Fee Related CN100412869C (zh) 2006-04-13 2006-04-13 一种改进的基于文档结构的文档相似性度量方法

Country Status (1)

Country Link
CN (1) CN100412869C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11176186B2 (en) 2020-03-27 2021-11-16 International Business Machines Corporation Construing similarities between datasets with explainable cognitive methods

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013421B (zh) * 2007-02-02 2012-06-27 清华大学 基于规则的汉语基本块自动分析方法
CN102789452A (zh) * 2011-05-16 2012-11-21 株式会社日立制作所 类似内容提取方法
CN102279893B (zh) * 2011-09-19 2015-07-22 索意互动(北京)信息技术有限公司 文献群组多对多自动分析
CN103389987A (zh) * 2012-05-09 2013-11-13 阿里巴巴集团控股有限公司 文本相似性比较方法及系统
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103399900B (zh) * 2013-07-25 2016-12-28 北京京东尚科信息技术有限公司 基于位置服务的图片推荐方法
CN103823838B (zh) * 2013-12-18 2018-07-20 国网江苏省电力有限公司常州供电分公司 一种多格式文档录入并比对的方法
CN107644079A (zh) * 2015-05-22 2018-01-30 广东欧珀移动通信有限公司 一种应用推荐方法及装置和相关介质产品
CN105955965A (zh) * 2016-06-21 2016-09-21 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5835893A (en) * 1996-02-15 1998-11-10 Atr Interpreting Telecommunications Research Labs Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity
CN1403957A (zh) * 2001-09-06 2003-03-19 联想(北京)有限公司 通过主题词矫正基于向量空间模型文本相似度计算的方法
US6542889B1 (en) * 2000-01-28 2003-04-01 International Business Machines Corporation Methods and apparatus for similarity text search based on conceptual indexing
US6578031B1 (en) * 1998-09-30 2003-06-10 Canon Kabushiki Kaisha Apparatus and method for retrieving vector format data from database in accordance with similarity with input vector

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5835893A (en) * 1996-02-15 1998-11-10 Atr Interpreting Telecommunications Research Labs Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity
US6578031B1 (en) * 1998-09-30 2003-06-10 Canon Kabushiki Kaisha Apparatus and method for retrieving vector format data from database in accordance with similarity with input vector
US6542889B1 (en) * 2000-01-28 2003-04-01 International Business Machines Corporation Methods and apparatus for similarity text search based on conceptual indexing
CN1403957A (zh) * 2001-09-06 2003-03-19 联想(北京)有限公司 通过主题词矫正基于向量空间模型文本相似度计算的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
用于Web文档聚类的基于相似度的软聚类算法. 姜亚莉,关泽群.计算机工程,第32卷第2期. 2006
用于Web文档聚类的基于相似度的软聚类算法. 姜亚莉,关泽群.计算机工程,第32卷第2期. 2006 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11176186B2 (en) 2020-03-27 2021-11-16 International Business Machines Corporation Construing similarities between datasets with explainable cognitive methods

Also Published As

Publication number Publication date
CN1828610A (zh) 2006-09-06

Similar Documents

Publication Publication Date Title
CN100412869C (zh) 一种改进的基于文档结构的文档相似性度量方法
CN101231634B (zh) 一种多文档自动文摘方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN104699763B (zh) 多特征融合的文本相似性度量系统
CN105653706B (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN100543735C (zh) 基于文档结构的文档相似性度量方法
CN105095477A (zh) 一种基于多指标评分的推荐算法
CN106250412A (zh) 基于多源实体融合的知识图谱构建方法
CN103235772A (zh) 一种文本集人物关系自动提取方法
CN104408153A (zh) 一种基于多粒度主题模型的短文本哈希学习方法
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN102402561B (zh) 一种搜索方法和装置
CN104484380A (zh) 个性化搜索方法及装置
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN104636325B (zh) 一种基于极大似然估计确定文档相似度的方法
CN101882136A (zh) 文本情感倾向性分析方法
CN104317838A (zh) 一种基于耦合鉴别性字典的跨媒体哈希索引方法
CN101382962B (zh) 一种考虑概念抽象度的浅层分析自动文档综述方法
CN103034726A (zh) 文本过滤系统及方法
CN106095791A (zh) 一种基于上下文的抽象样本信息检索系统及其抽象样本特征化表示方法
CN102737112A (zh) 基于表现语义分析的概念相关度计算方法
CN104008187A (zh) 一种基于最小编辑距离的半结构化文本匹配方法
CN107391482A (zh) 一种基于句模进行模糊匹配与剪枝的方法
CN107301169A (zh) 离题作文检测方法、装置和终端设备
CN114139634A (zh) 一种基于成对标签权重的多标签特征选择方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220914

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: PEKING University FOUNDER R & D CENTER

Address before: 100871, fangzheng building, 298 Fu Cheng Road, Beijing, Haidian District

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: PEKING University FOUNDER R & D CENTER

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230403

Address after: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Patentee after: Peking University

Address before: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee before: New founder holdings development Co.,Ltd.

Patentee before: Peking University

Patentee before: PEKING University FOUNDER R & D CENTER

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080820