CN100412869C

CN100412869C - 一种改进的基于文档结构的文档相似性度量方法

Info

Publication number: CN100412869C
Application number: CNB2006100725887A
Authority: CN
Inventors: 万小军; 彭宇新; 杨建武; 吴於茜; 陈晓鸥
Original assignee: BEIDA FANGZHENG TECHN INST Co Ltd BEIJING; Peking University; Peking University Founder Group Co Ltd
Current assignee: Peking University
Priority date: 2006-04-13
Filing date: 2006-04-13
Publication date: 2008-08-20
Anticipated expiration: 2026-04-13
Also published as: CN1828610A

Abstract

本发明涉及一种改进的基于文档子主题结构的文档相似性度量方法，属于语言的计算机处理和信息检索技术领域。针对传统相似性度量方法丢失了词语在文档各个部分的分布信息这个缺点以及利用最优匹配的基于文档子主题结构的方法只允许子主题之间一对一匹配的缺点。本发明所述的方法利用文档结构分析方法分别得到所述两个文档A和B的子主题结构，然后通过构建一个带权二部图G并根据求解线性规划的方法求解其货物运输距离EMD(A，B)，最后根据1-EMD(A，B)得到文档A和B之间的相似度值。本发明允许文档子主题之间在一定约束条件下进行多对多匹配，从而提高了文档相似性判断的准确度，同时，该方法具有更好的鲁棒性。

Description

一种改进的基于文档结构的文档相似性度量方法

技术领域

本发明属于计算机语言处理及信息检索技术领域，具体涉及一种改进的基于文档结构的文档相似性度量方法。

背景技术

文档相似性度量是文本信息处理领域的一个核心问题，很多文本应用包括文档聚类、文档检索、文档过滤等，都依赖于文档相似性的精确度量。目前已经有许多文档相似性度量方法被提出和应用，例如余弦度量法(cosinemeasure)、Jaccard度量法、Dice度量法(参考文献：W.B.Frakes and R.Baeza-Yates：Information Retrieval，Data Structure and Algorithms，1992)、基于信息论的方法(参考文献：J.A.Aslam and M.Frost：AnInformation-theoretic Measure for Document Similarity.In Proceedingsof SIGIR 2003)等，其中应用最广的是余弦度量法。

在以下文献中记载了文档相似性度量方法：

Dice度量法：作者：W.B.Frakes and R.Baeza-Yates，著作名称：Information Retrieval，Data Structure and Algorithms，出版日期：1992年。

基于信息论的方法：作者：J.A.Aslam、M.Frost，题目：AnInformation-theoretic Measure for Document Similarity，期刊名称：Proceedings of SIGIR’2003，出版日期：2003年。

基于最优匹配的考虑文档结构的方法：作者：X.J.Wan，Y.X.Peng，题目：A New Retrieval Model Based on TextTiling for Document SimilaritySearch，期刊名称：Journal of Computer Science and Technology，出版日期：2005年。

现有的文档相似性度量方法都是基于向量空间模型。在向量空间模型中，文档被看作一个词袋，并被表示为一个向量，词袋中的每一个词被表示为该向量的一维，向量的每一维对应的权值为其所代表的词的tf×idf值，tf为该词在文档中出现的频率，idf为该词的倒排文档频率。一般通过log(N/n)来计算某个词的idf，其中N为文档集合中的文档总数，n为文档集合中出现过该词的文档数目。

得到文档的向量表示之后，余弦度量法(cosine measure)是通过以下余弦公式计算得到两文档的相似度值：

{sim}_{\cos ine} (x, y) = \frac{\overset{ρ}{x} \cdot \overset{ρ}{y}}{| \overset{ρ}{x} | \times | \overset{ρ}{y} |}

其中

和分别是文档x和y的向量表示，·表示向量的点积，“||”表示取模计算。其他度量方法与余弦度量法的主要区别在于采用了不同的计算公式。

在以上文档相似性度量方法中，文档被压缩成向量表示，因此失去了文档自身的结构信息，即丢失了词语在文档各个部分的分布信息。极端情况下，两个表示为同一向量的文档可以由不同的句子所组成，而使用现有的度量方法将这两个文档分别与某个给定文档计算相似度时，计算结果会得到相同的相似度，但是实际上由于这两个文档是由不同的句子组成，这两个文档与给定文档之间应该具有不同的相似度值。因此，现有的度量方法的精确度不高。

为了克服以上文档相似性度量方法的缺点，基于最优匹配的考虑文档结构的方法则假定每一个文档都由围绕一个中心主题的若干个子主题组成，每一个子主题反映在文档上为一个文本块，也就是一组反映某个子主题的词串或句子。词在子主题上不同的分布情况将会影响文档之间的相似性。对于两个文档来说，词在子主题上的分布越相似，这两个文档之间相似程度越高。该方法利用文本分析技术得到文档子主题序列之后，对两个文档对应的子主题序列建立一个带权二部图，然后对此带权二部图通过Kuhn-Munkres算法(也叫匈牙利算法The Hungarian Method)求解最优匹配，所得到的最优匹配进行规范化后即得这两个文档的相似度值。实验表明了该方法相对传统方法的优越性。

但以上基于文档结构的方法存在一个缺点，那就是所采用的最优匹配模型只允许一个文档的一个子主题对应于另一个文档的一个子主题，也就是只允许文档子主题之间的一一对应。现实应用中，一个子主题应该能和多个子主题相似，也就是说不同子主题之间应该允许多对多的对应关系，从而允许一个文档中的某个子主题对应于另一个文档中的多个子主题。为了克服以上缺点，我们提出了利用线性规划中的运输问题对相似性度量问题建模，通过求解货物运输距离(Earth Mover’s Distance)来获得文档之间的相似度值。

发明内容

针对现有技术中存在的缺陷，本发明的目的是提供一种新的基于允许文档子主题多对多匹配的文档相似性度量方法，能够更准确地计算文档之间的相似性，并具有更好的鲁棒性。

为达到以上目的，本发明采用的技术方案是：一种新的基于文档结构的文档相似性度量方法，包括以下步骤：

(1)对于需要比较的两个文档A和B，分别使用文档结构分析方法得出每个文档的子主题序列；

(2)根据文档A和B的子主题结构信息构建一个带权二部图G，该带权二部图G的每个顶点带有自身的权重，任意两个分属A和B的子主题之间利用传统相似性度量方法计算语义距离；

进一步，按以下方式对A和B建立一个带权二部图G.：

令A＝{(t_a1，w_a1)，(t_a2，w_a2)，...，(t_am，w_am)}表示文档A对应的子主题结构，其中t_ai代表文档A中的一个子主题，也就是一个文本块，权重w_ai代表子主题t_ai中文本的所有词语的数量；

令B＝{(t_b1，w_b1)，(t_b2，w_b2)，...，(t_bn，w_bn)}表示文档B对应的子主题结构，其中t_bj代表文档B中的一个子主题，也就是一个文本块，权重w_bj代表子主题t_bj中文本的所有词语的数量；m和n分别表示文档A中子主题的个数和文档B中子主题的个数，1≤i≤m，1≤j≤n；

令D＝{d_ij}为子主题之间的距离矩阵，其中d_ij表示子主题t_ai和t_bj之间的语义距离，在这里，d_ij＝1-s_ij，其中s_ij为子主题t_ai和t_bj所对应的文本块之间的余弦相似度值；

令G＝{A，B，D}为根据A，B，D建立的带权二部图，V＝A∪B为点集，D＝{d_ij}为边集。

进一步，所述的步骤(2)中计算两个子主题之间语义距离的相似性度量方法为余弦度量法、Jaccard度量法或Dice度量法。

(3)在建立的带权图G中，根据求解线性规划的方法求解下面这个货物运输距离EMD(A，B)：

寻找一个流动F＝{f_ij}，其中表示子主题t_ai和t_bi之间的流动，使得下面的总耗费最小：

WORK (A, B, F) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} d_{ij}

并且满足下面的约束条件：

(a)f_ij≥0 1≤i≤m 1≤j≤n

(b)

Σ_{j = 1}^{n} f_{ij} \leq w_{ai}

1≤i≤m

(c)

Σ_{i = 1}^{m} f_{ij} \leq w_{bj}

1≤j≤n

(d)

Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} = \min (Σ_{i = 1}^{m} w_{ai} \cdot Σ_{j = 1}^{n} w_{bj})

约束(a)只允许词语从A向B流动，反之则不成立；约束(b)限制A中某个子主题能够发送的词语数量最多为其对应的权重；约束(c)限制B中某个子主题能够接受的词语数量最多为其对应的权重；约束(d)使得尽可能从A移动最多数量的词语到B。

求得最优流动F之后，货物运输距离(Earth Mover’s Distance)定义为规范化的工作耗费，根据下式计算得到：

EMD (A, B) = \frac{Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} d_{ij}}{Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij}}

进一步，所述的求解线性规划的方法为单纯形算法，包括以下步骤：

①通过形式变换和添加松弛变量，将该问题转化为标准线性规划形式：

MinWORK (A, B, F) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} d_{ij}

s.t.：

Σ_{j = 1}^{n} f_{ij} + x_{i} = w_{ai}

1≤i≤m

Σ_{i = 1}^{m} f_{ij} + y_{j} = w_{bj}

1≤j≤n

Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} = \min (Σ_{i = 1}^{m} w_{ai}, Σ_{j = 1}^{n} w_{bj})

f_ij≥0，x_i≥0，y_j≥0 1≤i≤m 1≤j≤n

其中f_ij，x_i，y_j为变量；

F＝{f_ij}表示流动；f_ij表示子主题t_ai和t_bj之间的流动；x_i、y_j为松弛变量；WORK(A，B，F)是目标函数，表示A与B之间基于流动F的总耗费大小；

②计算上面标准线性规划的初始基可行解，如果当前基可行解是最优解，那么输出该解，算法终止；否则转③；

③根据典式寻找新的基可行解，新的基与原有的基只有一个变量不同，将原有基中的变量用新基中的变量替换，即得新基；

④如果当前基可行解是最优解，或者循环次数达到预先规定的数目，算法停止，输出当前解，否则转③；

EMD (A, B) = \frac{Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} d_{ij}}{Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij}} .

(4)得到货物运输距离EMD(A，B)之后，通过下式计算文档A与B之间的相似度值：

Sim_EMD(A，B)＝1-EMD(A，B)

其中，所述的文档结构分析方法为文本块分割方法(TextTiling)。

其中，所述的文档结构分析方法为聚类方法。

本发明的效果在于：本发明提出的基于货物运输距离的文档相似性度量方法，自然地将单个子主题之间的相似度值扩展到文档之间的相似度值，允许子主题之间满足一定约束条件下的多对多匹配，也就是允许子主题之间的部分匹配，克服了利用最优匹配只允许子主题只见一对一的全部匹配这个缺点，从而提高了文档相似性判断的准确度及其鲁棒性。

附图说明

图1是本发明所述方法的流程图；

图2是使用本发明提出的方法进行文档相似搜索的示意图；

图3是使用本发明提出的方法进行文档聚类的示意图；

图4是文档子主题结构的例子；

图5是一个文档子主题之间多对多匹配的例子；

图6是不同文档分析方法基础上最优匹配方法和本发明的MAP对比图；

图7是不同文档分析方法基础上最优匹配方法和本发明的P@5对比图；

图8是不同文档分析方法基础上最优匹配方法和本发明的P@10对比图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步的描述。

如图4所示，每一个文档都由围绕一个中心主题的若干个子主题组成，每一个子主题反映在文档上为一个文本块，也就是一组反映某个子主题的词串或句子。获得文档子主题的方法有多种，例如文本块分割方法和句子聚类方法等，本发明优选实施例一，采用文本块分割方法(TextTiling)对文档结构进行分析，流程如图1所示包括以下步骤：

1、读入需要比较的两个文档X和Y，对于需要比较的两个文档X和Y，分别使用文本块分割方法(TextTiling)得出每个文档的子主题序列X＝{x₁，x₂，...，x_n}和Y＝{y₁，y₂，...y_m}，具体步骤为：

①对读入的文档X进行分词，每20个词划分成1个词串，词串的大小可根据需要选择。

②为每两个词串之间的位置通过下列方法计算一个相似度值：对于词串i和词串i+1之间的位置，计算由词串i-k到词串i组成的文本块与由词串i+1到i+k+1组成的文本块之间的余弦相似度值，这个值就是词串i和词串i+1之间位置的相似度值x_i，然后对每一个位置的相似度值利用其两侧位置的相似度值的平均值进行平滑处理。其中k通常为6。

③对每两个词串i和i+1之间的位置计算其深度值s_i＝(x_i-1-x_i)+(x_i+1-x_i)，深度值越大，越有可能成为子主题分界点。只保留s_i＞0的位置，对这些位置按照深度值从大到小排序。如果某个位置的深度值大于s-σ/2(其中s为平均深度值，σ位深度值的标准差)，那么这个位置为一个子主题的分界点。所有的子主题分界点确定之后，就能得到文档X的子主题序列{x₁，x₂，...，x_n}，如图4所示，文档被划分为一个子主题序列。

对文档Y同样进行①-③步骤处理，得到文档Y的子主题序列{y₁，y₂，...y_m}；

2、根据文档A和B的子主题结构信息构建一个带权二部图G，其中每个顶点带有自身的权重，任两个分属A和B的子主题之间利用传统相似性度量方法计算语义距离；

按以下方式对A和B建立一个带权图G.：

令B＝{(t_b1，w_b1)，(t_b2，w_b2)，...，(t_bn，w_bn)}表示文档B对应的子主题结构，其中t_bj代表文档B中的一个子主题，也就是一个文本块，权重w_bj代表子主题t_bj中文本的所有词语的数量；

令G＝{A，B，D}为根据A，B，D建立的加权图，V＝A∪B为点集，D＝{d_ij}为边集。

3、在建立的带权图G中，我们利用单纯形算法求解下面这个运输问题：寻找一个流动F＝{f_ij}，其中表示子主题t_ai和t_bj之间的流动，使得下面的总耗费最小：

WORK (A, B, F) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} d_{ij}

并且满足下面的的约束条件：

(a)f_ij≥0 1≤i≤m 1≤j≤n

(b)

Σ_{j = 1}^{n} f_{ij} \leq w_{ai}

1≤i≤m

(c)

Σ_{i = 1}^{m} f_{ij} \leq w_{bj}

1≤j≤n

(d)

Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} = \min (Σ_{i = 1}^{m} w_{ai}, Σ_{j = 1}^{n} w_{bj})

单纯形算法的主要步骤如下：

MinWORK (A, B, F) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} d_{ij}

s.t.：

Σ_{j = 1}^{n} f_{ij} + x_{i} = w_{ai}

1≤i≤m

Σ_{i = 1}^{m} f_{ij} + y_{j} = w_{bj}

1≤j≤n

Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} = \min (Σ_{i = 1}^{m} w_{ai}, Σ_{j = 1}^{n} w_{bj})

f_ij≥0，x_i≥0，y_j≥0 1≤i≤m 1≤j≤n

其中f_ij，x_i，y_j为变量；

③根据典式寻找新的基可行解，新的基与原有的基只有一个变量不同，将该变量用新挑选的变量替换，即得新基；

EMD (A, B) = \frac{Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} d_{ij}}{Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij}}

4、得到货物运输距离EMD(A，B)之后，通过下式计算文档A与B之间的相似度值：

Sim_EMD(A，B)＝1-EMD(A，B)。

本发明优选实施例二，采用聚类技术对文档结构分析，包括以下步骤：

1、读入需要比较的两个文档X和Y，对于两个文档X和Y分别利用聚类方法获得文档子主题序列，具体算法步骤为：

①对读入的文档进行分词，并将文档划分为n个句子；

②计算任意两个句子之间的余弦相似度值；

③采用数据聚类方法对句子进行聚类，每一类中的所有句子组成的文本块即为一个子主题。本实施例采用聚集式聚类方法来对句子进行聚类，步骤为：

a.初始每个句子成一类，共有k个类簇；

b.现有k个类簇中具有最大相似度值的两个类簇c₁和c₂，通过如下公式计算c₁和c₂之间的相似度值s₁₂：

s_{12} = \frac{Σ_{i = 1}^{m} Σ_{j = 1}^{n} sim (p_{i}, p_{j})}{m \times n}

其中p_i表示c₁中的句子，p_j表示c₂中的句子，sim(p_i，p_j)表示句子p_i和p_j之间的余弦相似度值；m，n分别为c₁和c₂中句子的个数。

如果c₁和c₂之间的相似度值s₁₂大于设定的合并阈值t＝0.10，那么合并这两类成为一个新类，此时类簇个数k＝k-1，如果k＝1，则算法终止，否则返回步骤b继续进行新一轮类簇合并。

如果c₁和c₂之间的相似度值s₁₂小于等于设定的合并阈值t＝0.10，那么算法终止。

2、按以下方式对A和B建立一个带权图G：

令A＝{(t_a1，w_a1)，(t_a2，w_a2)，...，(t_am，w_am)}表示文档A对应的子主题结构，其中t_ai代表文档A中的一个子主题，也就是一个文本块，权重w_ai代表子主题t_ai中文本的所有词语的数量。

令B＝{(t_b1，w_b1)，(t_b2，w_b2)，...，(t_bn，w_bn)}表示文档B对应的子主题结构，其中t_bj代表文档B中的一个子主题，也就是一个文本块，权重w_bj代表子主题t_bj中文本的所有词语的数量。

令D＝{d_ij}为子主题之间的距离矩阵，其中d_ij表示子主题t_ai和t_bj之间的语义距离。在这里，d_ij＝1-s_ij，其中s_ij为子主题t_ai和t_bj所对应的文本块之间的余弦相似度值。

3、在建立的带权图G中，我们利用单纯形算法求解下面这个运输问题：

寻找一个流动F＝{f_ij}，其中表示子主题t_ai和t_bj之间的流动，使得下面的总耗费最小：

WORK (A, B, F) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} d_{ij}

并且满足下面的的约束条件：

(a)f_ij≥0 1≤i≤m 1≤j≤n

(b)

Σ_{j = 1}^{n} f_{ij} \leq w_{ai}

1≤i≤m

(c)

Σ_{i = 1}^{m} f_{ij} \leq w_{bj}

1≤j≤n

(d)

Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} = \min (Σ_{i = 1}^{m} w_{ai}, Σ_{j = 1}^{n} w_{bj})

单纯形算法的主要步骤如下：

MinWORK (A, B, F) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} d_{ij}

s.t.：

Σ_{j = 1}^{n} f_{ij} + x_{i} = w_{ai}

1≤i≤m

Σ_{i = 1}^{m} f_{ij} + y_{j} = w_{bj}

1≤j≤n

Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} = \min (Σ_{i = 1}^{m} w_{ai}, Σ_{j = 1}^{n} w_{bj})

f_ij≥0，x_i≥0，y_j≥0 1≤i≤m 1≤j≤n

其中f_ij，x_i，y_j为变量；

④如果当前基可行解是最优解，或者循环次数达到预先规定的数目，算法停止，输出当前解。否则转③；

我们求得最优流动F之后，货物运输距离(Earth Mover’s Distance)定义为规范化的工作耗费，根据下式计算得到：

EMD (A, B) = \frac{Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} d_{ij}}{Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij}}

Sim_EMD(A，B)＝1-EMD(A，B)。

如图2所示为利用本发明进行对相似文档的搜索。如图3所示为利用本发明进行文档聚类。

为了验证本发明的有效性和鲁棒性，采用主题检测与追踪(TDT)大会的数据(TDT-3)进行了比较。在TDT-3数据集中一共有120个主题，每个主题下有人工标注的若干个文档。根据TDT的定义，属于同一主题中的文档之间比属于不同主题之间的文档之间更相似。对于给定的文档，通过不同的相似性度量方法从文档集合中找出最相似的200个文档，然后将这个列表跟答案比较，根据效果的好坏来比较各种文档相似性度量方法，包括最流行的余弦度量法(cosine)，Smart系统中的对文档长度规范化的向量空间方法PivotedVSM，Okapi系统中的BM25方法以及利用最优匹配的考虑文档结构的方法。采用文档检索中常用的前5个结果中的准确率P@5，前10个结果中的准确率P@10，平均准确率(MAP)来比较不同相似性度量方法的性能。实验结果如表1所示：

表1.不同相似性度量方法的性能比较

	Cosine	PivotedVSM	BM25	最优匹配	本发明
	Cosine	PivotedVSM	BM25	最优匹配	本发明	MAP	0.82	0.723	0.757	0.85	0.87
P@5	0.83	0.81	0.82	0.87	0.88	MAP	0.82	0.723	0.757	0.85	0.87
P@5	0.83	0.81	0.82	0.87	0.88	P@10	0.72	0.71	0.72	0.773	0.773

表1的结果表明，本发明的方法能够更好地度量文档相似性，提高文档检索性能，在几乎所有指标上都优于传统方法和基于最优匹配的考虑文档结构的方法。

同时，我们利用不同的文档分析方法得到的文档子主题结构作为基础来对比了基于最优匹配的方法和本发明的方法。图6、图7和图8分别显示了在不同文档分析方法得到文档子主题结构的基础上利用最优匹配的方法和本发明的方法的性能对比。所示的图6、图7和图8中，OM为最优匹配的方法，EMD为本发明的方法。TextTiling表示根据文本块分割方法得到文档子主题结构，cluster(0.005)表示利用句子聚类的方法得到文本子主题结构，0.005为聚类合并阈值，其余类似。

从图中可以看出，本发明的方法(EMD)的性能在不同文档分析基础上表现比较稳定，性能没有大幅波动，但是基于最优匹配的方法(OM)则表现不稳定，基于文本块分割方法获得的文档子主题时表现较好，基于句子聚类方法获得的文档子主题时表现则较差，性能波动明显。可见本发明提出的基于货物运输距离的文档相似性度量方法，自然地将单个子主题之间的相似度值扩展到文档之间的相似度值，允许子主题之间满足一定约束条件下的多对多匹配，如图5所示，也就是允许子主题之间的部分匹配，克服了利用最优匹配只允许子主题只见一对一的全部匹配这个缺点，从而提高了文档相似性判断的准确度及其鲁棒性。

本发明所述的方法并不限于具体实施方式中所述的实施例，本领域技术人员根据本发明的技术方案得出其他的实施方式，同样属于本发明的技术创新范围。

Claims

1. 一种改进的基于文档结构的文档相似性度量方法，该方法包括以下步骤：

(1)对于待比较的两个文档A和B，利用文档结构分析方法分别得到所述两个文档A和B的子主题结构；

(3)在建立的带权二部图G中，根据求解线性规划的方法求解A与B之间货物运输距离EMD(A，B)；

(4)根据1-EMD(A，B)得到文档A和B之间的相似度值。

2. 如权利要求1所述的一种改进的基于文档结构的文档相似性度量方法，其特征在于，所述的步骤(1)中文档结构分析方法为文本块分割方法。

3. 如权利要求1所述的一种改进的基于文档结构的文档相似性度量方法，其特征在于，所述的步骤(1)中文档结构分析方法为聚类方法。

4. 如权利要求1所述的改进的基于文档结构的文档相似性度量方法，其特征在于，所述的步骤(2)巾顶点的权重为该顶点表示的文本中词语的数量。

5. 如权利要求1所述的一种改进的基于文档结构的文档相似性度量方法，其特征在于，所述的步骤(2)中按以下方式对A和B建立一个带权二部图G：

m和n分别表示文档A中子主题的个数和文档B中子主题的个数，1≤i≤m，1≤j≤n；

6. 如权利要求1、2、3、4或5所述的一种改进的基于文档结构的文档相似性度量方法，其特征在于，所述的步骤(2)中计算两个子主题之间语义距离的相似性度量方法为余弦度量法、Jaccard度量法或Dice度量法。

7. 如权利要求5所述的一种改进的基于文档结构的文档相似性度量方法，其特征在于，所述的步骤(3)中求解线性规划的方法为单纯形算法，包括以下步骤：

①通过形式变换和添加松弛变量，将货物运输距离转化为标准线性规划形式：

Min  WORK (A, B, F) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} d_{ij}

满足以下约束条件：

Σ_{j = 1}^{n} f_{ij} + x_{i} = w_{ai}

1≤i≤m

Σ_{i = 1}^{m} f_{ij} + y_{j} = w_{bj}

1≤j≤n

Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} = \min (Σ_{i = 1}^{m} w_{ai}, Σ_{j = 1}^{n} w_{bj})

f_ij≥0，x_i≥0，y_j≥01≤i≤m 1≤j≤n

其中f_ij，x_i，y_j为变量；

求得最优流动F之后，货物运输距离定义为规范化的工作耗费，根据下式计算得到：

EMD (A, B) = \frac{Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij} d_{ij}}{Σ_{i = 1}^{m} Σ_{j = 1}^{n} f_{ij}} .