CN103092828B

CN103092828B - 基于语义分析和语义关系网络的文本相似度度量方法

Info

Publication number: CN103092828B
Application number: CN201310046975.3A
Authority: CN
Inventors: 吴国华; 尤金朋; 张祯; 王玉娟; 邵根富
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Zhongfu Information Co Ltd
Priority date: 2013-02-06
Filing date: 2013-02-06
Publication date: 2015-08-12
Anticipated expiration: 2033-02-06
Also published as: CN103092828A

Abstract

本发明公开了基于语义分析和语义关系网络的文本相似度度量方法：一、输入两个文本并对这两个文本进行预处理，预处理的结果为词汇的集合；二、计算所述两个文本预处理结果的词汇语义相似度，并根据计算结果分别构建语义关系网络；三、分别计算语义关系网络中每个节点的流介数值，获得两个文本的特征集合；四、根据两个文本的特征集合构建二分图，并设置二分图两部分之间的路径权值；五、利用二分图最优匹配法计算两个文本之间的相似度。本发明基于语义分析和语义关系网络的文本相似度度量方法，可用于数据挖掘和信息检索技术领域，例如文本聚类、信息检索等，其与现有的其他文本相似度计算方法相比，极大地提高了文本相似度计算的准确程度。

Description

基于语义分析和语义关系网络的文本相似度度量方法

技术领域

本发明属于文本相似度度量方法技术领域，特别是涉及一种基于语义分析和语义关系网络的文本相似度度量方法。

背景技术

随着网络信息的迅速发展，如何在海量的文本信息资源中快捷且准确地获取有用的信息已成为数据挖掘和信息检索技术领域亟待解决的问题。

文本相似度的度量可用于数据挖掘和信息检索技术领域，如文本相似度计算是文本聚类、信息检索、自动问答中的关键步骤。目前，较为典型的文本相似度方法主要有基于语义理解和基于数理统计两种，但这两种方法都存在的问题是：没有考虑词汇对文本相似度度量所具有作用与地位。因此，度量的准确性不高。

发明内容

本发明提供了一种基于语义分析和语义关系网络的文本相似度度量方法，其用于数据挖掘和信息检索过程中，将文本转化为语义关系网络以提取文本特征，并最终转化为二分图以实现文本相似度的计算，极大地提高了计算结果的准确程度。

为了实现上述目的，本发明公开了基于语义分析和语义关系网络的文本相似度度量方法，其按如下步骤进行：

一、输入两个文本并对这两个文本进行预处理，预处理的结果为词汇的集合；

二、计算所述两个文本预处理结果的词汇语义相似度，并根据计算结果分别构建语义关系网络；

三、分别计算语义关系网络中每个节点的流介数值，获得两个文本的特征集合；

四、根据两个文本的特征集合构建二分图，并设置二分图两部分（即二分图的两个点集）之间的路径权值；

五、利用二分图最优匹配法计算两个文本之间的相似度。

优选的，步骤一，预处理包括中文分词和去除停用词。

优选的，步骤二，构建语义关系网络的节点由步骤一的结果组成，构建语义关系网络的边的权值由词汇之间的语义相似度计算得到，表示为w(i，j)，i和j为步骤一预处理结果中的不同词汇，w(i，j)的计算式如下：

w(i,j)=1-sim(i,j)

i：预处理结果中的一个词汇；

j：预处理结果中的另一个词汇；

sim(i，j)：两个词汇的语义相似度。

优选的，步骤二，两个词汇之间的语义相似度可以根据具体的语义词典或语义库来计算，但结果要进行归一化处理。

优选的，步骤三，计算每个节点的流介数值，按照流介数值排序，取前m大的流介数值所对应的词汇作为该文本特征；节点u的流介数值是指网络中所有路径中经过该节点的路径的数目占所有路径总数的比例，用B_fu表示，计算式为：

B_{fu} = \underset{i < j}{Σ} \frac{Σ δ_{l}^{u}}{| P_{ij} |}

|P_ij|：从节点i到节点j之间的所有路径数；

表示经过节点u是否在从节点i到节点j之间某个路径上，是则为1，否则为0。

优选的，步骤三，在获得文本特征之后需要将每个文本特征的流介数值进行归一化处理，公式如下：

B_{Fu} (i) = \frac{B_{fu} (i)}{Σ_{j = 1}^{m} B_{fu} (i)}

i：一个文本特征词汇对应的节点；

m：文本特征的个数，为输入值；

B_fu：节点流介数值；

B_Fu：归一化流介数值。

优选的，步骤四，构建二分图的两部分(X,Y)分别为步骤三的两个文本的特征集合，两部分之间的边的权值为所述的路径权值w(x_i,y_j)，计算公式为：

w (x_{i}, y_{j}) = \sqrt{B_{Fu} (x_{i}) \times B_{Fu} (y_{j})} \times sim (W_{xi}, W_{yj})

x_i:二分图X部分的一个节点；

y_j:二分图Y部分的一个节点；

sim(W_xi,W_yj):二分图中节点xi与yj对应词汇的语义相似度；

B_Fu:节点对应的归一化流介数值。

优选的，步骤五，设利用二分图最优匹配算法求得的一个最优匹配M为：

M={(X_i1,Y_j1),(X_i2,Y_j2),...,(X_im，Y_jm)}

步骤一输入的两个文本的相似度计算式为：

sim (D 1, D 2) = \frac{Σ_{k = 1}^{m} w (X_{ik}, Y_{jk})}{m}

w:步骤四中二分图边的权值；

m:文本特征的个数，为输入值；

sim(D1,D2):两个文本的相似度。

本发明基于语义分析和语义关系网络的文本相似度度量方法，可用于数据挖掘和信息检索技术领域，例如文本聚类、信息检索等，其与现有的其他文本相似度度量方法相比，极大地提高了文本相似度度量的准确程度。

附图说明

图1为本发明基于语义分析和语义关系网络的文本相似度度量方法的流程图。

图2为语义关系网络示意图。

图3为二分图的结构示意图。

具体实施方式

下面结合附图对本发明实施例作详细说明。

参见图1、2、3，本实施例基于语义分析和语义关系网络的文本相似度度量方法，其按如下步骤进行：

一、输入两个文本并对这两个文本进行预处理，预处理包括中文分词和去除停用词，预处理的结果为词汇的集合。

二、计算两个文本预处理结果的词汇语义相似度，并根据计算结果分别构建语义关系网络。两个词汇之间的语义相似度可以根据具体的语义词典或语义库来计算，但结果要进行归一化处理。

此步中，如图2所示，构建语义关系网络的节点由步骤一预处理的结果组成，若两个词汇的语义相似度为0，则这两个词汇对应的节点之间没有路径可达，否则可达。若两个节点之间有路径可达，则构建语义关系网络的边的权值由步骤二的词汇语义相似度计算得到，表示为w(i，j)，i和j为步骤一预处理结果中的不同词汇，w(i，j)的计算公式如下：

w(i,j)=1-sim(i,j)

i：预处理结果中的一个词汇；

j：预处理结果中的另一个词汇；

sim(i，j)：两个词汇的语义相似度。

三、分别计算语义关系网络中每个节点的流介数值，获得两个文本的特征集合。

此步骤中，计算每个节点的流介数值，按照流介数值排序，取前m大的流介数值所对应的词汇作为该文本特征，其中，m为输入值；节点u的流介数值是指网络中所有路径中经过该节点的路径的数目占所有路径总数的比例，用B_fu表示，计算式为：

B_{fu} = \underset{i < j}{Σ} \frac{Σ δ_{l}^{u}}{| P_{ij} |}

|P_ij|：从节点i到节点j之间的所有路径数；

在获得文本特征之后需要将每个文本特征的流介数值进行归一化处理，公式如下：

B_{Fu} (i) = \frac{B_{fu} (i)}{Σ_{j = 1}^{m} B_{fu} (i)}

i：一个文本特征；

m：文本特征的个数，为输入值；

B_fu：步骤三的节点流介数值；

B_Fu：归一化流介数值。

四、根据两个文本的特征集合构建二分图，并设置二分图两部分（即二分图的两个点集）之间的路径权值，如图3所示。

此步骤中，构建二分图的两部分(X,Y)分别为步骤三的两个文本的特征集合，两部分之间的边的权值为所述的路径权值w(x_i,y_j)，计算公式为：

w (x_{i}, y_{j}) = \sqrt{B_{Fu} (x_{i}) \times B_{Fu} (y_{j})} \times sim (W_{xi}, W_{yj})

x_i:二分图X部分的一个节点；

y_j:二分图Y部分的一个节点；

sim(W_xi,W_yj):二分图中节点x_i与y_j对应词汇的语义相似度；

B_Fu:节点对应的归一化流介数值。

五、利用二分图最优匹配法计算两个文本之间的相似度。

此步骤，设利用二分图最优匹配算法求得的一个最优匹配M为：

M={(X_i1,Y_j1),(X_i2,Y_j2),...,(X_im,Y_jm)}

步骤一输入的两个文本的相似度计算式为：

sim (D 1, D 2) = \frac{Σ_{k = 1}^{m} w (X_{ik}, Y_{jk})}{m}

w:步骤四中二分图边的权值；

m:文本特征的个数，为输入值；

sim(D1,D2):两个文本的相似度。

本技术领域中的普通技术人员应当认识到，以上实施例仅是用来说明本发明，而并非作为对本发明的限定，只要在本发明的范围内，对以上实施例的变化、变形都将落在本发明的保护范围。

Claims

1.基于语义分析和语义关系网络的文本相似度度量方法，其特征是按如下步骤进行：

二、计算所述两个文本预处理结果的词汇语义相似度，并根据计算结果分别构建语义关系网络；构建语义关系网络的节点由步骤一预处理的结果组成，构建语义关系网络的边的权值由步骤二的词汇语义相似度计算得到，表示为w(i,j)，i和j为步骤一预处理结果中的不同词汇，w(i,j)的计算式如下：

w(i,j)＝1-sim(i,j)

i：预处理结果中的一个词汇；

j：预处理结果中的另一个词汇；

sim(i,j)：两个词汇的语义相似度；

三、分别计算语义关系网络中每个节点的流介数值，获得两个文本的特征集合；计算每个节点的流介数值，按照流介数值排序，取前m大的流介数值所对应的词汇作为该文本特征，其中，m为输入值；节点u的流介数值是指网络中所有路径中经过该节点的路径的数目占所有路径总数的比例，用B_fu表示，计算式为：

B_{fu} = \underset{i < j}{Σ} \frac{Σ δ_{l}^{u}}{| P_{ij} |}

|P_ij|：从节点i到节点j之间的所有路径数；

表示经过节点u是否在从节点i到节点j之间某个路径上，是则为1，否则为0；步骤三，在获得文本特征之后将每个文本特征的流介数值进行归一化处理，公式如下：

B_{Fu} (i) = \frac{B_{fu} (i)}{Σ_{j = 1}^{m} B_{fu} (i)}

i：一个文本特征；

m：文本特征的个数，为输入值；

Bfu：步骤三的节点流介数值；

BFu：归一化流介数值；

四、根据两个文本的特征集合构建二分图，并设置二分图两部分之间的路径权值；构建二分图的两部分(X,Y)分别为步骤三的两个文本的特征集合，两部分之间的边的权值为所述的路径权值w(xi,yj)，计算式为：

w (xi, yi) = \sqrt{B_{Fu} (xi) \times B_{Fu} (yi)} \times sim (W_{xi}, W_{yi})

xi:二分图X部分的一个节点；

yj:二分图Y部分的一个节点；

sim(Wxi,Wyj):二分图中节点xi与yj对应词汇的语义相似度；

BFu:节点对应的归一化流介数值；

五、利用二分图最优匹配法得到两个文本之间的相似度；设利用二分图最优匹配求得结果为：

M＝{(X_i1,Y_j1),(X_i2,Y_j2),...,(X_im,Y_jm)}

步骤一输入的两个文本的相似度计算式为：

sim (D 1, D 2) = \frac{Σ_{k = 1}^{m} w (X_{ik}, Y_{jk})}{m}

w:步骤四中二分图边的权值；

m:文本特征的个数，为输入值；

sim(D1,D2):步骤一输入两个文本的相似度。

2.根据权利要求1所述基于语义分析和语义关系网络的文本相似度度量方法，其特征在于，步骤一，预处理包括中文分词和去除停用词。

3.根据权利要求1所述基于语义分析和语义关系网络的文本相似度度量方法，其特征在于，步骤二，根据具体的语义词典或语义库计算两个词汇之间的语义相似度。