CN1828610A - 一种改进的基于文档结构的文档相似性度量方法 - Google Patents

一种改进的基于文档结构的文档相似性度量方法 Download PDF

Info

Publication number
CN1828610A
CN1828610A CN 200610072588 CN200610072588A CN1828610A CN 1828610 A CN1828610 A CN 1828610A CN 200610072588 CN200610072588 CN 200610072588 CN 200610072588 A CN200610072588 A CN 200610072588A CN 1828610 A CN1828610 A CN 1828610A
Authority
CN
China
Prior art keywords
sub
topics
sigma
document
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200610072588
Other languages
English (en)
Other versions
CN100412869C (zh
Inventor
万小军
彭宇新
杨建武
吴於茜
陈晓鸥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIDA FANGZHENG TECHN INST Co Ltd BEIJING, Peking University, Peking University Founder Group Co Ltd filed Critical BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Priority to CNB2006100725887A priority Critical patent/CN100412869C/zh
Publication of CN1828610A publication Critical patent/CN1828610A/zh
Application granted granted Critical
Publication of CN100412869C publication Critical patent/CN100412869C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种改进的基于文档子主题结构的文档相似性度量方法,属于语言的计算机处理和信息检索技术领域。针对传统相似性度量方法丢失了词语在文档各个部分的分布信息这个缺点以及利用最优匹配的基于文档子主题结构的方法只允许子主题之间一对一匹配的缺点。本发明所述的方法利用文档结构分析方法分别得到所述两个文档A和B的子主题结构,然后通过构建一个带权二部图G并根据求解线性规划的方法求解其货物运输距离EMD(A,B),最后根据1-EMD(A,B)得到文档A和B之间的相似度值。本发明允许文档子主题之间在一定约束条件下进行多对多匹配,从而提高了文档相似性判断的准确度,同时,该方法具有更好的鲁棒性。

Description

一种改进的基于文档结构的文档相似性度量方法
技术领域
本发明属于计算机语言处理及信息检索技术领域,具体涉及一种改进的基于文档结构的文档相似性度量方法。
背景技术
文档相似性度量是文本信息处理领域的一个核心问题,很多文本应用包括文档聚类、文档检索、文档过滤等,都依赖于文档相似性的精确度量。目前已经有许多文档相似性度量方法被提出和应用,例如余弦度量法(cosinemeasure)、Jaccard度量法、Dice度量法(参考文献:W.B.Frakes and R.Baeza-Yates:Information Retrieval,Data Structure and Algorithms,1992)、基于信息论的方法(参考文献:J.A.Aslam and M.Frost:AnInformation-theoretic Measure for Document Similarity.In Proceedingsof SIGIR 2003)等,其中应用最广的是余弦度量法。
在以下文献中记载了文档相似性度量方法:
Dice度量法:作者:W.B.Frakes and R.Baeza-Yates,著作名称:Information Retrieval,Data Stfucture and Algorithms,出版日期:1992年。
基于信息论的方法:作者:J.A.Aslam、M.Frost,题目:AnInformation-theoretic Measure for Document Similarity,期刊名称:Proceedings of SIGIR’2003,出版日期:2003年。
基于最优匹配的考虑文档结构的方法:作者:X.J.Wan,Y.X.Peng,题目:A New Retrieval Model Based on TextTiling for Document SimilaritySearch,期刊名称:Journal of Computer Science and Technology,出版日期:2005年。
现有的文档相似性度量方法都是基于向量空间模型。在向量空间模型中,文档被看作一个词袋,并被表示为一个向量,词袋中的每一个词被表示为该向量的一维,向量的每一维对应的权值为其所代表的词的tf×idf值,tf为该词在文档中出现的频率,idf为该词的倒排文档频率。一般通过log(N/n)来计算某个词的idf,其中N为文档集合中的文档总数,n为文档集合中出现过该词的文档数目。
得到文档的向量表示之后,余弦度量法(cosine measure)是通过以下余弦公式计算得到两文档的相似度值:
sim cos ine ( x , y ) = x ρ · y ρ | x ρ | × | y ρ |
其中 分别是文档x和y的向量表示,·表示向量的点积,“||”表示取模计算。其他度量方法与余弦度量法的主要区别在于采用了不同的计算公式。
在以上文档相似性度量方法中,文档被压缩成向量表示,因此失去了文档自身的结构信息,即丢失了词语在文档各个部分的分布信息。极端情况下,两个表示为同一向量的文档可以由不同的句子所组成,而使用现有的度量方法将这两个文档分别与某个给定文档计算相似度时,计算结果会得到相同的相似度,但是实际上由于这两个文档是由不同的句子组成,这两个文档与给定文档之间应该具有不同的相似度值。因此,现有的度量方法的精确度不高。
为了克服以上文档相似性度量方法的缺点,基于最优匹配的考虑文档结构的方法则假定每一个文档都由围绕一个中心主题的若干个子主题组成,每一个子主题反映在文档上为一个文本块,也就是一组反映某个子主题的词串或句子。词在子主题上不同的分布情况将会影响文档之间的相似性。对于两个文档来说,词在子主题上的分布越相似,这两个文档之间相似程度越高。该方法利用文本分析技术得到文档子主题序列之后,对两个文档对应的子主题序列建立一个带权二部图,然后对此带权二部图通过Kuhn-Munkres算法(也叫匈牙利算法The Hungarian Method)求解最优匹配,所得到的最优匹配进行规范化后即得这两个文档的相似度值。实验表明了该方法相对传统方法的优越性。
但以上基于文档结构的方法存在一个缺点,那就是所采用的最优匹配模型只允许一个文档的一个子主题对应于另一个文档的一个子主题,也就是只允许文档子主题之间的一一对应。现实应用中,一个子主题应该能和多个子主题相似,也就是说不同子主题之间应该允许多对多的对应关系,从而允许一个文档中的某个子主题对应于另一个文档中的多个子主题。为了克服以上缺点,我们提出了利用线性规划中的运输问题对相似性度量问题建模,通过求解货物运输距离(Earth Mover’s Distance)来获得文档之间的相似度值。
发明内容
针对现有技术中存在的缺陷,本发明的目的是提供一种新的基于允许文档子主题多对多匹配的文档相似性度量方法,能够更准确地计算文档之间的相似性,并具有更好的鲁棒性。
为达到以上目的,本发明采用的技术方案是:一种新的基于文档结构的文档相似性度量方法,包括以下步骤:
(1)对于需要比较的两个文档A和B,分别使用文档结构分析方法得出每个文档的子主题序列;
(2)根据文档A和B的子主题结构信息构建一个带权二部图G,其中每个顶点带有自身的权重,任两个分属A和B的子主题之间利用传统相似性度量方法计算语义距离;
进一步,按以下方式对A和B建立一个带权二部图G.:
令A={(ta1,wa1),(ta2,wa2),...,(tam,wam}表示文档A对应的子主题结构,其中tai代表文档A中的一个子主题,也就是一个文本块,权重wai代表子主题tai中文本的所有词语的数量;
令B={(tb1,wb1),(tb2,wb2),...,(tbn,wbn)}表示文档B对应的子主题结构,其中tbi代表文档B中的一个子主题,也就是一个文本块,权重wbi代表子主题tbi中文本的所有词语的数量;
令D={dij}为子主题之间的距离矩阵,其中dij表示子主题tai和tbi之间的语义距离,在这里,dij=1-sij,其中Sij为子主题tai和tbi所对应的文本块之间的余弦相似度值;
令G={A,B,D}为根据A,B,D建立的加权图,V=AYB为点集,D={dij}为边集。
进一步,所述的步骤(2)中计算两个子主题之间语义距离的相似性度量方法为余弦度量法、Jaccard度量法或Dice度量法。
(3)在建立的带权图G中,根据求解线性规划的方法求解下面这个货物运输距离EMD(A,B):
寻找一个流动F={fij},其中表示子主题tai和tbi之间的流动,使得下面的总耗费最小:
WORK ( A , B , F ) = Σ i = 1 m Σ j = 1 n f ij d ij
并且满足下面的的约束条件:
                         (a)fij≥0    1≤i≤m     1≤j≤n
( b ) Σ j = 1 n f ij ≤ w ai , 1 ≤ i ≤ m
( c ) Σ i = 1 m f ij ≤ w bj , 1 ≤ j ≤ n
( d ) Σ i = 1 m Σ j = 1 n f ij = min ( Σ i = 1 m w ai , Σ j = 1 n w bj )
约束(a)只允许词语从A向B流动,反之则不成立;约束(b)限制A中某个子主题能够发送的词语数量最多为其对应的权重;约束(c)限制B中某个子主题能够接受的词语数量最多为其对应的权重;约束(d)使得尽可能从A移动最多数量的词语到B。
求得最优流动F之后,货物运输距离(Earth Mover’s Distance)定义为规范化的工作耗费,根据下式计算得到:
EMD ( A , B ) = Σ i = 1 m Σ j = 1 n f ij d ij Σ i = 1 m Σ j = 1 n f ij
进一步,所述的求解线性规划的方法为单纯形算法,包括以下步骤:
①通过形式变换和添加松弛变量,将该问题转化为标准线性规划形式:
Min WORK ( A , B , F ) = Σ i = 1 m Σ j = 1 n f ij d ij
s.t.:
Σ j = 1 n f ij + x i = w ai , 1 ≤ i ≤ m
Σ i = 1 m f ij + y j = w bj , 1 ≤ j ≤ n
Σ i = 1 m Σ j = 1 n f ij = min ( Σ i = 1 m w ai , Σ j = 1 n w bj )
f ij ≥ 0 , x i ≥ 0 , y j ≥ 0 , 1 ≤ i ≤ m , 1 ≤ j ≤ n
其中fij,xi,yj为变量;
②计算上面标准线性规划的初始基可行解,如果当前基可行解是最优解,那么输出该解,算法终止;否则转③;
③根据典式寻找新的基可行解,新的基与原有的基只有一个变量不同,将该变量用新挑选的变量替换,即得新基;
④如果当前基可行解是最优解,或者循环次数达到预先规定的数目,算法停止,输出当前解,否则转③;
求得最优流动F之后,货物运输距离(Earth Mover’s Distance)定义为规范化的工作耗费,根据下式计算得到:
EMD ( A , B ) = Σ i = 1 m Σ j = 1 n f ij d ij Σ i = 1 m Σ j = 1 n f ij .
(4)得到货物运输距离EMD(A,B)之后,通过下式计算文档A与B之间的相似度值:
                  SimEMD(A,B)=1-EMD(A,B)
其中,所述的文档结构分析方法为文本块分割方法(TextTiling)。
其中,所述的文档结构分析方法为聚类方法。
本发明的效果在于:本发明提出的基于货物运输距离的文档相似性度量方法,自然地将单个子主题之间的相似度值扩展到文档之间的相似度值,允许子主题之间满足一定约束条件下的多对多匹配,也就是允许子主题之间的部分匹配,克服了利用最优匹配只允许子主题只见一对一的全部匹配这个缺点,从而提高了文档相似性判断的准确度及其鲁棒性。
附图说明
图1是本发明所述方法的流程图;
图2是使用本发明提出的方法进行文档相似搜索的示意图;
图3是使用本发明提出的方法进行文档聚类的示意图;
图4是文档子主题结构的例子;
图5是一个文档子主题之间多对多匹配的例子;
图6是不同文档分析方法基础上最优匹配方法和本发明的MAP对比图;
图7是不同文档分析方法基础上最优匹配方法和本发明的P@5对比图;
图8是不同文档分析方法基础上最优匹配方法和本发明的P@10对比图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步的描述。
如图4所示,每一个文档都由围绕一个中心主题的若干个子主题组成,每一个子主题反映在文档上为一个文本块,也就是一组反映某个子主题的词串或句子。获得文档子主题的方法有多种,例如文本块分割方法和句子聚类方法等,本发明优选实施例一,采用文本块分割方法(TextTiling)对文档结构进行分析,流程如图1所示包括以下步骤:
1、读入需要比较的两个文档X和Y,对于需要比较的两个文档X和Y,分别使用文本块分割方法(TextTiling)得出每个文档的子主题序列X={x1,x2,...,xn}和Y={y1,y2,...ym},具体步骤为:
①对读入的文档X进行分词,每20个词划分成1个词串,词串的大小可根据需要选择。
②为每两个词串之间的位置通过下列方法计算一个相似度值:对于词串i和词串i+1之间的位置,计算由词串i-k到词串i组成的文本块与由词串i+1到i+k+1组成的文本块之间的余弦相似度值,这个值就是词串i和词串i+1之间位置的相似度值xi,然后对每一个位置的相似度值利用其两侧位置的相似度值的平均值进行平滑处理。其中k通常为6。
③对每两个词串i和i+1之间的位置计算其深度值si=(xi-1-xi)+(xi+1-xi),深度值越大,越有可能成为子主题分界点。只保留si>0的位置,对这些位置按照深度值从大到小排序。如果某个位置的深度值大于 s-σ/2(其中 s为平均深度值,σ位深度值的标准差),那么这个位置为一个子主题的分界点。所有的子主题分界点确定之后,就能得到文档X的子主题序列{x1,x2,...,xn},如图4所示,文档被划分为一个子主题序列。
对文档Y同样进行①-③步骤处理,得到文档Y的子主题序列{y1,y2,...ym};
2、根据文档A和B的子主题结构信息构建一个带权二部图G,其中每个顶点带有自身的权重,任两个分属A和B的子主题之间利用传统相似性度量方法计算语义距离;
按以下方式对A和B建立一个带权图G.:
令A={(ta1,wa1),(ta2,wa2),...,(tam,wam}表示文档A对应的子主题结构,其中tai代表文档A中的一个子主题,也就是一个文本块,权重wai代表子主题tai中文本的所有词语的数量;
令B={(tb1,wb1),(tb2,wb2),...,(tbn,wbn)}表示文档B对应的子主题结构,其中tbi代表文档B中的一个子主题,也就是一个文本块,权重wbi代表子主题tbi中文本的所有词语的数量;
令D={dij}为子主题之间的距离矩阵,其中dij表示子主题tai和tbi之间的语义距离,在这里,dij=1-sij,其中Sij为子主题tai和tbi所对应的文本块之间的余弦相似度值;
令G={A,B,D}为根据A,B,D建立的加权图,V=AYB为点集,D={dij}为边集。
3、在建立的带权图G中,我们利用单纯形算法求解下面这个运输问题:寻找一个流动F={fij},其中表示子主题tai和tbi之间的流动,使得下面的总耗费最小:
WORK ( A , B , F ) = Σ i = 1 m Σ j = 1 n f ij d ij
并且满足下面的的约束条件:
                         (a)fij≥0    1≤i≤m    1≤j≤n
( b ) Σ j = 1 n f ij ≤ w ai , 1 ≤ i ≤ m
( c ) Σ i = 1 m f ij ≤ w bj , 1 ≤ j ≤ n
( d ) Σ i = 1 m Σ j = 1 n f ij = min ( Σ i = 1 m w ai , Σ j = 1 n w bj )
约束(a)只允许词语从A向B流动,反之则不成立;约束(b)限制A中某个子主题能够发送的词语数量最多为其对应的权重;约束(c)限制B中某个子主题能够接受的词语数量最多为其对应的权重;约束(d)使得尽可能从A移动最多数量的词语到B。
单纯形算法的主要步骤如下:
①通过形式变换和添加松弛变量,将该问题转化为标准线性规划形式:
Min WORK ( A , B , F ) = Σ i = 1 m Σ j = 1 n f ij d ij
s.t.:
Σ j = 1 n f ij + x i = w ai , 1 ≤ i ≤ m
Σ i = 1 m f ij + y j = w bj , 1 ≤ j ≤ n
Σ i = 1 m Σ j = 1 n f ij = min ( Σ i = 1 m w ai , Σ j = 1 n w bj )
f ij ≥ 0 , x i ≥ 0 , y j ≥ 0,1 ≤ i ≤ m , 1 ≤ j ≤ n
其中fij,xi,yj为变量;
②计算上面标准线性规划的初始基可行解,如果当前基可行解是最优解,那么输出该解,算法终止;否则转③;
③根据典式寻找新的基可行解,新的基与原有的基只有一个变量不同,将该变量用新挑选的变量替换,即得新基;
④如果当前基可行解是最优解,或者循环次数达到预先规定的数目,算法停止,输出当前解,否则转③;
求得最优流动F之后,货物运输距离(Earth Mover’s Distance)定义为规范化的工作耗费,根据下式计算得到:
EMD ( A , B ) = Σ i = 1 M Σ j = 1 n f ij d ij Σ i = 1 m Σ j = 1 n f ij
4、得到货物运输距离EMD(A,B)之后,通过下式计算文档A与B之间的相似度值:
                 SimEMD(A,B)=1-EMD(A,B)。
本发明优选实施例二,采用聚类技术对文档结构分析,包括以下步骤:
1、读入需要比较的两个文档X和Y,对于两个文档X和Y分别利用聚类方法获得文档子主题序列,具体算法步骤为:
①对读入的文档进行分词,并将文档划分为n个句子;
②计算任意两个句子之间的余弦相似度值;
③采用数据聚类方法对句子进行聚类,每一类中的所有句子组成的文本块即为一个子主题。本实施例采用聚集式聚类方法来对句子进行聚类,步骤为:
a.初始每个句子成一类,共有k个类簇;
b.现有k个类簇中具有最大相似度值的两个类簇c1和c2,通过如下公式计算c1和c2之间的相似度值s12
s 12 = Σ i = 1 m Σ j = 1 n sim ( p i , p j ) m × n
其中pi表示c1中的句子,pj表示c2中的句子,sim(pi,pj)表示句子pi和pj之间的余弦相似度值;m,n分别为c1和c2中句子的个数。
如果c1和c2之间的相似度值s12大于设定的合并阈值t=0.10,那么合并这两类成为一个新类,此时类簇个数k=k-1,如果k=1,则算法终止,否则返回步骤b继续进行新一轮类簇合并。
如果c1和c2之间的相似度值s12小于等于设定的合并阈值t=0.10,那么算法终止。
2、按以下方式对A和B建立一个带权图G:
令A={(ta1,wa1),(ta2,wa2),...,(tam,wam)}表示文档A对应的子主题结构,其中tai代表文档A中的一个子主题,也就是一个文本块,权重wai代表子主题tai中文本的所有词语的数量。
令B={(tb1,wb1),(tb2,wb2),...,(tbn,wbn}表示文档B对应的子主题结构,其中tbi代表文档B中的一个子主题,也就是一个文本块,权重wbi代表子主题tbi中文本的所有词语的数量。
令D={dij}为子主题之间的距离矩阵,其中dij表示子主题tai和tbi之间的语义距离。在这里,dij=1-sij,其中Sij为子主题tai和tbi所对应的文本块之间的余弦相似度值。
令G={A,B,D}为根据A,B,D建立的加权图,V=AYB为点集,D={dij}为边集。
3、在建立的带权图G中,我们利用单纯形算法求解下面这个运输问题:
寻找一个流动F={fij},其中表示子主题tai和tbi之间的流动,使得下面的总耗费最小:
WORK ( A , B , F ) = Σ i = 1 m Σ j = 1 n f ij d ij
并且满足下面的的约束条件:
               (a)fij≥0    1≤i≤m    1≤j≤n
( b ) Σ j = 1 n f ij ≤ w ai , 1 ≤ i ≤ m
( c ) Σ i = 1 m f ij ≤ w bj , 1 ≤ j ≤ n
( d ) Σ i = 1 m Σ j = 1 n f ij = min ( Σ i = 1 m w ai , Σ j = 1 n w bj )
约束(a)只允许词语从A向B流动,反之则不成立;约束(b)限制A中某个子主题能够发送的词语数量最多为其对应的权重;约束(c)限制B中某个子主题能够接受的词语数量最多为其对应的权重;约束(d)使得尽可能从A移动最多数量的词语到B。
单纯形算法的主要步骤如下:
①通过形式变换和添加松弛变量,将该问题转化为标准线性规划形式:
Min WORK ( A , B , F ) = Σ i = 1 m Σ j = 1 n f ij d ij
s.t.:
Σ j = 1 n f ij + x i = w ai , 1 ≤ i ≤ m
Σ i = 1 m f ij + y j = w bj , 1 ≤ j ≤ n
Σ i = 1 m Σ j = 1 n f ij = min ( Σ i = 1 m w ai , Σ j = 1 n w bj )
f ij ≥ 0 , x i ≥ 0 , y j ≥ 0 , 1 ≤ i ≤ m , 1 ≤ j ≤ n
其中fij,xi,yi为变量;
②计算上面标准线性规划的初始基可行解,如果当前基可行解是最优解,那么输出该解,算法终止;否则转③;
③根据典式寻找新的基可行解,新的基与原有的基只有一个变量不同,将该变量用新挑选的变量替换,即得新基;
④如果当前基可行解是最优解,或者循环次数达到预先规定的数目,算法停止,输出当前解。否则转③;
我们求得最优流动F之后,货物运输距离(Earth Mover’s Distance)定义为规范化的工作耗费,根据下式计算得到:
EMD ( A , B ) = Σ i = 1 m Σ j = 1 n f ij d ij Σ i = 1 m Σ j = 1 n f ij
4、得到货物运输距离EMD(A,B)之后,通过下式计算文档A与B之间的相似度值:
                 SimEMD(A,B)=1-EMD(A,B)。
如图2所示为利用本发明进行对相似文档的搜索。如图3所示为利用本发明进行文档聚类。
为了验证本发明的有效性和鲁棒性,采用主题检测与追踪(TDT)大会的数据(TDT-3)进行了比较。在TDT-3数据集中一共有120个主题,每个主题下有人工标注的若干个文档。根据TDT的定义,属于同一主题中的文档之间比属于不同主题之间的文档之间更相似。对于给定的文档,通过不同的相似性度量方法从文档集合中找出最相似的200个文档,然后将这个列表跟答案比较,根据效果的好坏来比较各种文档相似性度量方法,包括最流行的余弦度量法(cosine),Smart系统中的对文档长度规范化的向量空间方法PivotedVSM,Okapi系统中的BM25方法以及利用最优匹配的考虑文档结构的方法。采用文档检索中常用的前5个结果中的准确率P@5,前10个结果中的准确率P@10, 平均准确率(MAP)来比较不同相似性度量方法的性能。实验结果如表1所示:
                      表1.不同相似性度量方法的性能比较
  Cosine   PivotedVSM   BM25   最优匹配   本发明
  MAP   0.82   0.723   0.757   0.85   0.87
  P@5   0.83   0.81   0.82   0.87   0.88
  P@10   0.72   0.71   0.72   0.773   0.773
表1的结果表明,本发明的方法能够更好地度量文档相似性,提高文档检索性能,在几乎所有指标上都优于传统方法和基于最优匹配的考虑文档结构的方法。
同时,我们利用不同的文档分析方法得到的文档子主题结构作为基础来对比了基于最优匹配的方法和本发明的方法。图6、图7和图8分别显示了在不同文档分析方法得到文档子主题结构的基础上利用最优匹配的方法和本发明的方法的性能对比。所示的图6、图7和图8中,OM为最优匹配的方法,EMD为本发明的方法。TextTiling表示根据文本块分割方法得到文档子主题结构,cluster(0.005)表示利用句子聚类的方法得到文本子主题结构,0.005为聚类合并阈值,其余类似。
从图中可以看出,本发明的方法(EMD)的性能在不同文档分析基础上表现比较稳定,性能没有大幅波动,但是基于最优匹配的方法(OM)则表现不稳定,基于文本块分割方法获得的文档子主题时表现较好,基于句子聚类方法获得的文档子主题时表现则较差,性能波动明显。可见本发明提出的基于货物运输距离的文档相似性度量方法,自然地将单个子主题之间的相似度值扩展到文档之间的相似度值,允许子主题之间满足一定约束条件下的多对多匹配,如图5所示,也就是允许子主题之间的部分匹配,克服了利用最优匹配只允许子主题只见一对一的全部匹配这个缺点,从而提高了文档相似性判断的准确度及其鲁棒性。
本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。

Claims (7)

1、一种改进的基于文档结构的文档相似性度量方法,该方法包括以下步骤:
(1)对于待比较的两个文档A和B,利用文档结构分析方法分别得到所述两个文档A和B的子主题结构;
(2)根据文档A和B的子主题结构信息构建一个带权二部图G,其中每个顶点带有自身的权重,任两个分属A和B的子主题之间利用传统相似性度量方法计算语义距离;
(3)在建立的带权图G中,根据求解线性规划的方法求解其货物运输距离EMD(A,B);
(4)根据1-EMD(A,B)得到文档A和B之间的相似度值。
2.如权利要求1所述的一种改进的基于文档结构的文档相似性度量方法,其特征在于,所述的步骤(1)中文档结构分析方法为文本块分割方法。
3.如权利要求1所述的一种改进的基于文档结构的文档相似性度量方法,其特征在于,所述的步骤(1)中文档结构分析方法为聚类方法。
4.如权利要求1所述的改进的基于文档结构的文档相似性度量方法,其特征在于,所述的步骤(2)中顶点的权重为该顶点表示的文本中词语的数量。
5.如权利要求1所述的一种改进的基于文档结构的文档相似性度量方法,其特征在于,所述的步骤(2)中按以下方式对A和B建立一个带权二部图G:
令A={(ta1,wa1),(ta2,wa2),...,(tam,wam)}表示文档A对应的子主题结构,其中tai代表文档A中的一个子主题,也就是一个文本块,权重wai代表子主题tai中文本的所有词语的数量;
令B={(tb1,wb1),(tb2,wb2),...,(tbn,wbn)}表示文档B对应的子主题结构,其中tbi代表文档B中的一个子主题,也就是一个文本块,权重wbi代表子主题tbi中文本的所有词语的数量;
令D={dij}为子主题之间的距离矩阵,其中dij表示子主题tai和tbi之间的语义距离,在这里,dij=1-sij,其中Sij为子主题tai和tbi所对应的文本块之间的余弦相似度值;
令G={A,B,D}为根据A,B,D建立的加权图,V=AYB为点集,D={dij}为边集。
6.如权利要求1、2、3、4或5所述的一种改进的基于文档结构的文档相似性度量方法,其特征在于,所述的步骤(2)中计算两个子主题之间语义距离的相似性度量方法为余弦度量法、Jaccard度量法或Dice度量法。
7.如权利要求1、2、3、4或5所述的一种改进的基于文档结构的文档相似性度量方法,其特征在于,所述的步骤(3)中求解线性规划的方法为单纯形算法,包括以下步骤:
①通过形式变换和添加松弛变量,将该问题转化为标准线性规划形式:
Min WORK ( A , B , F ) = Σ i = 1 m Σ j = 1 n f ij d ij
s.t.:
Σ j = 1 n f ij + x i = w ai 1≤i≤m
Σ i = 1 m f ij + y j = w bj 1≤j≤n
Σ i = 1 m Σ j = 1 n f ij = min ( Σ i = 1 m w ai , Σ j = 1 n w bj )
       fij≥0,xi≥0,yj≥0  1≤i≤m  1≤j≤n
其中fij,xi,yj为变量;
②计算上面标准线性规划的初始基可行解,如果当前基可行解是最优解,那么输出该解,算法终止;否则转③;
③根据典式寻找新的基可行解,新的基与原有的基只有一个变量不同,将该变量用新挑选的变量替换,即得新基;
④如果当前基可行解是最优解,或者循环次数达到预先规定的数目,算法停止,输出当前解,否则转③;
求得最优流动F之后,货物运输距离(Earth Mover’s Distance)定义为规范化的工作耗费,根据下式计算得到:
EMD ( A , B ) = Σ i = 1 m Σ j = 1 n f ij d ij Σ i = 1 m Σ j = 1 n f ij .
CNB2006100725887A 2006-04-13 2006-04-13 一种改进的基于文档结构的文档相似性度量方法 Expired - Fee Related CN100412869C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100725887A CN100412869C (zh) 2006-04-13 2006-04-13 一种改进的基于文档结构的文档相似性度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100725887A CN100412869C (zh) 2006-04-13 2006-04-13 一种改进的基于文档结构的文档相似性度量方法

Publications (2)

Publication Number Publication Date
CN1828610A true CN1828610A (zh) 2006-09-06
CN100412869C CN100412869C (zh) 2008-08-20

Family

ID=36947002

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100725887A Expired - Fee Related CN100412869C (zh) 2006-04-13 2006-04-13 一种改进的基于文档结构的文档相似性度量方法

Country Status (1)

Country Link
CN (1) CN100412869C (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279893A (zh) * 2011-09-19 2011-12-14 索意互动(北京)信息技术有限公司 文献群组多对多自动分析
CN101013421B (zh) * 2007-02-02 2012-06-27 清华大学 基于规则的汉语基本块自动分析方法
CN102789452A (zh) * 2011-05-16 2012-11-21 株式会社日立制作所 类似内容提取方法
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103389987A (zh) * 2012-05-09 2013-11-13 阿里巴巴集团控股有限公司 文本相似性比较方法及系统
CN103399900A (zh) * 2013-07-25 2013-11-20 北京京东尚科信息技术有限公司 基于位置服务的图片推荐方法
CN104899266A (zh) * 2015-05-22 2015-09-09 广东欧珀移动通信有限公司 一种应用推荐方法及装置
CN105955965A (zh) * 2016-06-21 2016-09-21 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN108959203A (zh) * 2013-12-18 2018-12-07 国网江苏省电力有限公司常州供电分公司 一种文挡录入并比对的方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11176186B2 (en) 2020-03-27 2021-11-16 International Business Machines Corporation Construing similarities between datasets with explainable cognitive methods

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5835893A (en) * 1996-02-15 1998-11-10 Atr Interpreting Telecommunications Research Labs Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity
US6578031B1 (en) * 1998-09-30 2003-06-10 Canon Kabushiki Kaisha Apparatus and method for retrieving vector format data from database in accordance with similarity with input vector
US6542889B1 (en) * 2000-01-28 2003-04-01 International Business Machines Corporation Methods and apparatus for similarity text search based on conceptual indexing
CN1162789C (zh) * 2001-09-06 2004-08-18 联想(北京)有限公司 通过主题词矫正基于向量空间模型文本相似度计算的方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013421B (zh) * 2007-02-02 2012-06-27 清华大学 基于规则的汉语基本块自动分析方法
CN102789452A (zh) * 2011-05-16 2012-11-21 株式会社日立制作所 类似内容提取方法
CN102279893A (zh) * 2011-09-19 2011-12-14 索意互动(北京)信息技术有限公司 文献群组多对多自动分析
CN102279893B (zh) * 2011-09-19 2015-07-22 索意互动(北京)信息技术有限公司 文献群组多对多自动分析
CN103389987A (zh) * 2012-05-09 2013-11-13 阿里巴巴集团控股有限公司 文本相似性比较方法及系统
CN103049569A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 基于向量空间模型的文本相似性匹配方法
CN103399900A (zh) * 2013-07-25 2013-11-20 北京京东尚科信息技术有限公司 基于位置服务的图片推荐方法
CN103399900B (zh) * 2013-07-25 2016-12-28 北京京东尚科信息技术有限公司 基于位置服务的图片推荐方法
CN108959203A (zh) * 2013-12-18 2018-12-07 国网江苏省电力有限公司常州供电分公司 一种文挡录入并比对的方法
CN104899266A (zh) * 2015-05-22 2015-09-09 广东欧珀移动通信有限公司 一种应用推荐方法及装置
CN104899266B (zh) * 2015-05-22 2017-10-24 广东欧珀移动通信有限公司 一种应用推荐方法及装置
CN105955965A (zh) * 2016-06-21 2016-09-21 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置

Also Published As

Publication number Publication date
CN100412869C (zh) 2008-08-20

Similar Documents

Publication Publication Date Title
CN1828610A (zh) 一种改进的基于文档结构的文档相似性度量方法
CN103049501B (zh) 基于互信息和条件随机场模型的中文领域术语识别方法
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN1977261A (zh) 用于字序列处理的方法和系统
CN101055588A (zh) 获取限制词信息的方法、优化输出的方法和输入法系统
CN1573926A (zh) 用于文本和语音分类的区别性语言模型训练
CN1920820A (zh) 基于标注重要性次序的图像语义自动标注方法
CN1758263A (zh) 基于得分差加权融合的多模态身份识别方法
CN1475907A (zh) 基于例子的机器翻译系统
CN1612134A (zh) 分类评估系统、方法和程序
CN1193779A (zh) 中文语句分词方法及其在中文查错系统中的应用
CN1922632A (zh) 参考数据优化学习方法及模式识别系统
CN1871597A (zh) 利用一套消歧技术处理文本的系统和方法
CN1177407A (zh) 基于速度的手写体识别方法和系统
CN1828632A (zh) 目标检测装置、学习装置、目标检测系统及目标检测方法
CN1918578A (zh) 具有自动校正的手写及语音输入
CN1910573A (zh) 用来识别并分类命名实体的系统
CN1877566A (zh) 基于现有本体产生新概念的系统和方法
CN105046289B (zh) 一种文字域类型识别方法和文字域类型识别系统
CN1822000A (zh) 一种自动检测新闻事件的方法
CN1656371A (zh) 判定表面缺陷的方法
CN110765266B (zh) 一种裁判文书相似争议焦点合并方法及系统
CN1091905C (zh) 文字辨识系统数据库的组建方法
CN1223985C (zh) 语音识别置信度评价方法和系统及应用该方法的听写装置
CN109918483B (zh) 匹配招聘职位与求职简历的装置和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220914

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: PEKING University FOUNDER R & D CENTER

Address before: 100871, fangzheng building, 298 Fu Cheng Road, Beijing, Haidian District

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: PEKING University FOUNDER R & D CENTER

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230403

Address after: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Patentee after: Peking University

Address before: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee before: New founder holdings development Co.,Ltd.

Patentee before: Peking University

Patentee before: PEKING University FOUNDER R & D CENTER

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080820