CN100543735C

CN100543735C - 基于文档结构的文档相似性度量方法

Info

Publication number: CN100543735C
Application number: CNB2005101174124A
Authority: CN
Inventors: 万小军; 彭宇新; 杨建武; 吴於茜; 陈晓鸥
Original assignee: BEIDA FANGZHENG TECHN INST Co Ltd BEIJING; Peking University; Peking University Founder Group Co Ltd
Current assignee: Peking University
Priority date: 2005-10-31
Filing date: 2005-10-31
Publication date: 2009-09-23
Anticipated expiration: 2025-10-31
Also published as: CN1959671A

Abstract

本发明公开了一种基于文档结构的文档相似性度量方法，涉及一种自然语言的处理方法。针对度量方法中丢失了词语在文档各个部分的分布信息，本发明提出的方法包括以下步骤：(1)对于需要比较的两个文档X和Y，分别使用文档结构分析方法找出每个文档的子主题序列；(2)利用相似性度量方法计算任意两个分别属于不同文档的子主题之间的相似度值；(3)对步骤(1)及步骤(2)得到的子主题序列及子主题之间的相似度值，建立一个带权二部图G＝{X，Y，E}；(4)对带权二部图G＝{X，Y，E}求解最优匹配，对最优匹配的总权值进行规范化处理，即得到文档X与Y的相似度值。本发明提出的方法，提高了文档相似性判断的准确度。

Description

基于文档结构的文档相似性度量方法

技术领域

本发明涉及一种文档结构相似性度量的数据处理方法。

背景技术

文档相似性度量是文本信息处理领域的一个核心问题，很多文本应用包括文档聚类、文档检索、文档过滤等，都依赖于文档相似性的精确度量。目前已经有许多文档相似性度量方法被提出和应用，例如余弦度量法(cosine measure)、Jaccard度量法、Dice度量法(参考文献：W.B.Frakes andR.Baeza-Yates：Information Retrieval，Data Structure and Algorithms，1992)、基于信息论的方法(参考文献：J.A.Aslam and M.Frost：AnInformation-theoretic Measure for Document Similarity.In Proceedings ofSIGIR 2003)等，其中应用最广的是余弦度量法。

在以下文献中记载了文档相似性度量方法：

Dice度量法：作者：W.B.Frakes and R.Baeza-Yates，著作名称：Information Retrieval，Data Structure and Algorithms，出版日期：1992年。

基于信息论的方法：作者：J.A.Aslam、M.Frost，题目：AnInformati on-theoretic Measure for Document Similarity，期刊名称：Proceedings of SIGIR’2003，出版日期：2003年。

现有的文档相似性度量方法都是基于向量空间模型。在向量空间模型中，文档被看作一个词袋，并被表示为一个向量，词袋中的每一个词被表示为该向量的一维，向量的每一维对应的权值为其所代表的词的tf×idf值，tf为该词在文档中出现的频率，idf为该词的倒排文档频率。一般通过log(N/n)来计算某个词的idf，其中N为文档集合中的文档总数，n为文档集合中出现过该词的文档数目。

得到文档的向量表示之后，余弦度量法(cosine measure)是通过以下余弦公式计算得到两文档的相似度值：

{sim}_{\cos ine} (x, y) = \frac{\overset{&RightArrow;}{x} \cdot \overset{&RightArrow;}{y}}{| \overset{&RightArrow;}{x} | \times | \overset{&RightArrow;}{y} |}

其中和

分别是文档x和y的向量表示，·表示向量的点积，“‖”表示取模计算。其他度量方法与余弦度量法的主要区别在于采用了不同的计算公式。

在以上文档相似性度量方法中，文档被压缩成向量表示，因此失去了文档自身的结构信息，即丢失了词语在文档各个部分的分布信息。极端情况下，两个表示为同一向量的文档可以由不同的句子所组成，而使用现有的度量方法将这两个文档分别与某个给定文档计算相似度时，计算结果会得到相同的相似度，但是实际上由于这两个文档是由不同的句子组成，这两个文档与给定文档之间应该具有不同的相似度值。因此，现有的度量方法的精确度不高。

每一个文档都由围绕一个中心主题的若干个子主题组成，每一个子主题反映在文档上为一个文本块，也就是一组反映某个子主题的词串或句子。词在子主题上不同的分布情况将会影响文档之间的相似性。对于两个文档来说，词在子主题上的分布越相似，这两个文档之间相似程度越高。在计算文档之间的相似度时，可以使用图论的最优匹配的算法，例如Kuhn-Munkres算法(也叫匈牙利算法The Hungarian Method)。

在以下文献中记载了Kuhn-Munkres算法：

作者：W.S.Xiao著作：Graph Theoryand Its Algorithms，出版日期：1993年。

发明内容

针对上述现有的文档相似性度量方法中存在的问题和不足，本发明的目的是提供一种基于文档结构的文档相似性度量方法，能够更准确地计算文档之间的相似性。

本发明是这样实现的：一种基于文档结构的文档相似性度量方法，包括以下步骤：

(1)对于需要比较的两个文档X和Y，分别使用文档结构分析方法得出每个文档的子主题序列X＝{x₁，x₂，...，x_n}和Y＝{y₁，y₂，...y_m}；

(2)对文档X的子主题序列中的每一子主题x_i，分别与文档Y子主题序列中的每一子主题y_j利用相似性度量方法计算相似度值w_ij；

(3)对步骤(1)得到的两个文档的子主题序列及步骤(2)得到的相似度w_ij，建立一个带权二部图G＝{X，Y，E}，其中点集X，Y分别为两个文档中的子主题序列，边集E中的边e_ij联系子主题x_i和y_j，该边的权重为步骤(2)算得到的x_i和y_j的相似度值w_ij；

(4)对带权二部图G＝{X，Y，E}求解最优匹配，对最优匹配的总权值进行规范化处理，即得到文档X与Y的相似度值。

其中，所述的文档结构分析方法为文本块分割方法(TextTiling)。

其中，所述的文档结构分析方法为聚类方法。

其中，所述的相似性度量方法为余弦度量法(cosine measure)。

其中，所述的相似性度量方法为Jaccard度量法。

其中，所述的相似性度量方法为Dice度量法

其中，所述的相似性度量方法为基于信息论的方法。

其中，所述的求解最优匹配的方法为Kuhn-Munkres算法。

本发明提出的基于文档结构的文档相似性度量方法，解决了现有文档相似性度量技术中丢失了词语在文档各个部分的分布信息的问题，提高了文档相似性判断的准确度。

附图说明

图1是本发明流程示意图；

图2是使用本发明提出的方法进行文档相似搜索的示意图；

图3是使用本发明提出的方法进行文档聚类的示意图；

图4是文档子主题结构的例子；

图5所示是一个最优匹配的例子。

具体实施方式

每一个文档都由围绕一个中心主题的若干个子主题组成，每一个子主题反映在文档上为一个文本块，也就是一组反映某个子主题的词串或句子。词在子主题上不同的分布情况将会影响文档之间的相似性。对于两个文档来说，词在子主题上的分布越相似，这两个文档之间相似程度越高。

本发明优选实施例一，采用文本块分割方法(TextTiling)对文档结构进行分析，流程如图1所示包括以下步骤：

1、读入需要比较的两个文档X和Y，对于需要比较的两个文档X和Y，分别使用文本块分割方法(TextTiling)得出每个文档的子主题序列X＝{x₁，x₂，...，x_n}和Y＝{y₁，y₂，...y_m}，具体步骤为：

①对读入的文档X进行分词，每20个词划分成1个词串，词串的大小可根据需要选择。

②为每两个词串之间的位置通过下列方法计算一个相似度值：对于词串i和词串i+1之间的位置，计算由词串i-k到词串i组成的文本块与由词串i+1到i+k+1组成的文本块之间的余弦相似度值，这个值就是词串i和词串i+1之间位置的相似度值x_i，然后对每一个位置的相似度值利用其两侧位置的相似度值的平均值进行平滑处理。其中k通常为6。

③对每两个词串i和i+1之间的位置计算其深度值s_i＝(x_i-1-x_i)+(x_i+1-x_i)，深度值越大，越有可能成为子主题分界点。只保留s_i>0的位置，对这些位置按照深度值从大到小排序。如果某个位置的深度值大于s-σ/2(其中s为平均深度值，σ位深度值的标准差)，那么这个位置为一个子主题的分界点。所有的子主题分界点确定之后，就能得到文档X的子主题序列{x₁，x₂，...，x_n}，如图4所示，文档被划分为一个子主题序列。

对文档Y同样进行①—③步骤处理，得到文档Y的子主题序列{y₁，y₂，...y_m}；

2、对文档X的子主题序列中的每一子主题x_i，分别与文档Y的每一子主题y_j利用余弦度量法计算相似度值w_ij；

3、建立一个带权二部图G＝{X，Y，E}，其中点集X，Y分别为两个文档中的子主题序列，边集E中的边e_ij联系子主题x_i和y_j，该边的权重为步骤(2)算得到的x_i和y_j的相似度值w_ij；

4、如图5所示，对带权二部图G采用Kuhn-Munkres算法求解最优匹配，得到最优匹配的总权重optmatch(X，Y)，包括以下步骤：

①给出初始标号，l(x_i)＝max_je_ij；l(y_j)＝0；i＝1，2...，t；j＝1，2.....，t；其中t＝max(n，m)；

②求出边集E_l＝{(x_i，y_j)|l(x_i)+l(y_j)＝e_ij}、G_l＝(X，Y，E_l)及G_l中的一个匹配M；

③如M已饱和X的所有结点，则M即是G的最优匹配，计算结束，否则进行下一步；

④在X中找一M非饱和点x₀，令A←{x₀}，B←φ，A，B是两个集合；

⑤若

N_{G_{l}} (A) = B,

则进行第⑨步，否则进行下一步，其中，

N_{G_{l}} (A) &SubsetEqual; Y,

是与A中结点邻接的结点集合；

⑥找一结点

y &Element; N_{G_{l}} (A) - B;

⑦若y是M饱和点，则找出y的配对点z，令A←A∪{z}，B←B∪{y}，转第⑤步，否则进行下一步；

⑧存在一条从x₀到y的可增广路径P，令

M &LeftArrow; M &CirclePlus; E (P),

转第③步；

⑨按下式计算a值：

a = \min_{x_{i} &Element; A, y_{j} &NotElement; N_{G_{l}} (A)} {l (x_{i}) + l (y_{j}) - e_{ij}},

修改标号：

根据l′求E_l′及G_l′

⑩l←l′，G_l←G_l′，转第⑥步。

5、对最优匹配的总权重按照下式进行规范化处理，从而得到文档X和Y之间的相似度值：

{sim}_{normized} (X, Y) = \frac{optmatch (X, Y)}{\min (length (X), length (Y))}

其中optmatch(X，Y)表示求得的最优匹配的总权重，length(X)表示文档中子主题的个数，min(length(X)，length(Y))为返回length(X)和length(Y)之中的较小的值。

本发明优选实施例二，采用聚类技术对文档结构分析，包括以下步骤：

1、读入需要比较的两个文档X和Y，对于两个文档X和Y分别利用聚类方法获得文档子主题序列，具体算法步骤为：

①对读入的文档进行分词，并将文档划分为n个句子；

②计算任意两个句子之间的余弦相似度值；

③采用数据聚类方法对句子进行聚类，每一类中的所有句子组成的文本块即为一个子主题。本实施例采用聚集式聚类方法来对句子进行聚类，步骤为：

a.初始每个句子成一类，共有k个类簇；

b.现有k个类簇中具有最大相似度值的两个类簇c₁和c₂，通过如下公式计算c₁和c₂之间的相似度值s₁₂：

s_{12} = \frac{Σ_{i = 1}^{m} Σ_{j = 1}^{n} sim (p_{i}, p_{j})}{m \times n}

其中p_i表示c₁中的句子，p_j表示c₂中的句子，sim(p_i，p_j)表示句子p_i和p_j之间的余弦相似度值；m，n分别为c₁和c₂中句子的个数。

如果c₁和c₂之间的相似度值s₁₂大于设定的合并阈值t＝0.10，那么合并这两类成为一个新类，此时类簇个数k＝k-1，如果k＝1，则算法终止，否则返回步骤b继续进行新一轮类簇合并。

如果c₁和c₂之间的相似度值s₁₂小于等于设定的合并阈值t＝0.10，那么算法终止。

①给出初始标号，l(x_i)＝max_je_ij；l(y_j)＝0；i＝1，2...，t；j＝1，2.....，t；其中t＝max(n，m)

⑤若

N_{G_{l}} (A) = B,

则进行第⑨步，否则进行下一步，其中，

N_{G_{l}} (A) &SubsetEqual; Y,

是与A中结点邻接的结点集合；

⑥找一结点

y &Element; N_{G_{l}} (A) - B;

⑧存在一条从x₀到y的可增广路径P，令

M &LeftArrow; M &CirclePlus; E (P),

转第③步；

⑨按下式计算a值：

a = \min_{x_{i} &Element; A, y_{j} &NotElement; N_{G_{l}} (A)} {l (x_{i}) + l (y_{j}) - e_{ij}},

修改标号：

根据l′求E_l′及G_l′

⑩l←l′，G_l←G_l′，转第⑥步。

{sim}_{normized} (X, Y) = \frac{optmatch (X, Y)}{\min (length (X), length (Y))}

如图2所示为利用本发明进行对相似文档的搜索。如图3所示为利用本发明进行文档聚类。

为了验证本发明的有效性，采用主题检测与追踪(TDT)大会的数据(TDT-3)进行了比较。在TDT-3数据集中一共有120个主题，每个主题下有人工标注的若干个文档。根据TDT的定义，属于同一主题中的文档之间比属于不同主题之间的文档之间更相似。对于给定的文档，通过不同的相似性度量方法从文档集合中找出最相似的200个文档，然后将这个列表跟答案比较，根据效果的好坏来比较各种文档相似性度量方法，包括最流行的余弦度量法(cosine)，Smart系统中的对文档长度规范化的向量空间方法PivotedVSM，Okapi系统中的BM25方法。采用文档检索中常用的前5个结果中的准确率P@5，前10个结果中的准确率P@10，平均准确率(AverageP)来比较不同相似性度量方法的性能。实验结果如表1所示：

表1.不同相似性度量方法的性能比较

	Cosine	PivotedVSM	BM25	本发明
	Cosine	PivotedVSM	BM25	本发明	AverageP	0.82	0.723	0.757	0.85
P@5	0.83	0.81	0.82	0.87	AverageP	0.82	0.723	0.757	0.85
P@5	0.83	0.81	0.82	0.87	P@10	0.72	0.71	0.72	0.773

实验表明，本发明的方法能够更好地度量文档相似性，提高文档检索性能，在三个指标上都优于传统方法。

Claims

1、一种基于文档结构的文档相似性度量方法，其特征在于，该方法包括以下步骤：

(1)对于待比较的两个文档X和Y，利用文档结构分析方法分别得到所述两个文档X和Y的子主题序列{x₁，x₂，...，x_n}和{y₁，y₂，...y_m}；

(3)对步骤(1)得到的两个文档的子主题序列及步骤(2)得到的相似度值w_ij，建立一个带权二部图G＝{X，Y，E}，其中点集X、Y分别为两个文档中的子主题序列，边集E中的边e_ij联系子主题x_i和y_j，该边的权重为步骤(2)算得到的x_i和y_j的相似度值w_ij；

2、根据权利要求1所述的基于文档结构的文档相似性度量方法，其特征在于，所述的步骤(1)中文档结构分析方法为文本块分割方法。

3、根据权利要求1所述的基于文档结构的文档相似性度量方法，其特征在于，所述的步骤(1)中文档结构分析方法为聚类方法。

4、根据权利要求1所述的基于文档结构的文档相似性度量方法，其特征在于，所述的步骤(2)中相似性度量方法为余弦度量法。

5、根据权利要求1所述的基于文档结构的文档相似性度量方法，其特征在于，所述的步骤(2)中相似性度量方法为Jaccard度量法。

6、根据权利要求1所述的基于文档结构的文档相似性度量方法，其特征在于，所述的步骤(2)中相似性度量方法为Dice度量法。

7、根据权利要求1所述的基于文档结构的文档相似性度量方法，其特征在于，所述的步骤(2)中相似性度量方法为基于信息论的方法。

8、根据权利要求1所述的基于文档结构的文档相似性度量方法，其特征在于，所述的步骤(4)中求解最优匹配所使用的方法为Kuhn-Munkres算法。