CN104699763A

CN104699763A - 多特征融合的文本相似性度量系统

Info

Publication number: CN104699763A
Application number: CN201510072955.2A
Authority: CN
Inventors: 马博; 李晓; 蒋同海; 周喜; 王磊; 杨雅婷; 赵凡
Original assignee: Xinjiang Technical Institute of Physics and Chemistry of CAS
Current assignee: Xinjiang Technical Institute of Physics and Chemistry of CAS
Priority date: 2015-02-11
Filing date: 2015-02-11
Publication date: 2015-06-10
Anticipated expiration: 2035-02-11
Also published as: CN104699763B

Abstract

本发明提供了一种涉及智能信息处理领域的基于多特征融合的文本相似性度量系统，该系统融合了基于词频、词向量和维基百科标签多种特征对文本相似性进行度量，其目的在于解决常规文本相似性度量系统存在的未考虑文本上下文而造成的语义缺失问题，以及文本长度相差较大时所带来的相似性结果精度低的问题。本发明所述系统包括以下步骤：对训练文本进行分词、去停用词等预处理；将处理好的训练文本语料训练成词向量模型；对于输入的待计算文本对，分别度量它们之间的基于词频的相似性、基于词向量的相似性以及基于维基百科标签的相似性，并通过加权求和，得到最终的文本语义相似性度量结果。本发明所述的系统能够提高文本相似性度量精度，从而满足智能信息处理需求。

Description

多特征融合的文本相似性度量系统

技术领域

本发明涉及信息技术领域中的智能信息处理技术领域，尤其涉及基于语义的文本相似性度量方法及系统。

背景技术

语义相似性是智能信息处理领域中的一项核心技术，可应用于查询扩展、词义消歧、问答系统和信息检索等。评估语义相似性也是众多研究领域的一项重要任务，如心理学、认知科学、人工智能等。

监督式方法和非监督方法是语义相似性度量的两种主流方法，监督式方法需要先验知识，如知识库系统或本体资源，如DBPedia、WordNet、HowNet等；非监督方法则主要通过统计学习方法获取上下文信息和规律，完成语义相似性度量过程。

基于路径的相似性度量是监督式方法中的一种经典方法，以本体结构为参照，根据本体概念间的连接关系计算语义相似性，两个概念间的连接路径越短，则相似性越高，反之亦然。

sim (c_{i}, c_{j}) = \{\begin{matrix} e^{- αl} \frac{e^{βh} - e^{- βh}}{e^{βh} + e^{- βh}}, & c_{i} &NotEqual; c_{j} \\ 1 & c_{i} = c_{j} \end{matrix} - - - (1)

其中，l是c_i和c_j之间的路径距离，h是c_i和c_j之间的本体概念树中的层次距离，根据经验，一般取α＝0.2，β＝0.6。

基于互信息的相似性度量是非监督方法中的一种常用方法，通过词汇w_i与w_j在上下文中的共现关系，计算两个词汇间的相似性：

I (X, Y) = \log^{\frac{| D | w_{i}, w_{j} |}{| D |}} / \frac{| D | w_{i} |}{| D |} \cdot \frac{| D | w_{j} |}{| D |} - - - (2)

Cilibrasi和Vitanyi提出了基于搜索引擎的相似性度量方法，将要计算相似性的一组词汇作为搜索关键字输入到搜索引擎中，利用返回的搜索结果进行相似性计算：

NGD (w_{i}, w_{j}) = \frac{\max {\log f (w_{i}), \log f (w_{j})} - \log f (w_{i}, w_{j})}{\log N - \min {\log f (w_{i}), \log f (w_{j})}} - - - (3)

其中，f(w_i)和f(w_j)表示搜索引擎返回的包含词汇w_i与w_j的搜索结果数量，f(w_i，w_j)表示搜索引擎返回的同时包含w_i与w_j的搜索结果数量。

在现有的文本相似性度量系统存在以下问题：

1)在计算过程中一般只考虑基于词频的特征，将输入文本作为无序词袋进行处理，忽略了词间顺序和其中蕴含的语义关系；

2)对于短文本，本身蕴含的语义信息较少，需要采用方法对其进行语义扩充，从而才能较好完成相似性计算过程；

为解决常规的文本相似性度量中的问题，本发明提供了一种基于多特征融合的文本相似性度量系统。

发明内容

本发明提供了一种基于多特征融合的文本相似性度量系统，该系统融合了基于词频、词向量和维基百科标签多种特征对文本相似性进行度量，其目的在于解决常规文本相似性度量系统存在的未考虑文本上下文而造成的语义缺失问题，以及文本长度相差较大时所带来的相似性结果精度低的问题。本发明所述系统包括以下步骤：对训练文本进行分词、去停用词等预处理；将处理好的训练文本语料训练成词向量模型；对于输入的待计算文本对，分别度量它们之间的基于词频的相似性、基于词向量的相似性以及基于维基百科标签的相似性，并通过加权求和，得到最终的文本语义相似性度量结果。本发明所述的系统能够提高文本相似性度量精度，从而满足智能信息处理需求。

本发明所述的一种基于多特征融合的文本相似性度量系统，该系统融合了基于词频、词向量和维基百科标签多种特征对文本相似性进行度量，具体操作按下列步骤进行：

a.训练文本预处理模块：对训练文本进行预处理，分词，去停用词，去标点符号；

b.词向量模型训练模块：获取文本内词间语义特征，使用深度学习方法进行多次迭代，通过逻辑回归的方法对文本进行训练，采用二次抽样的方法来平衡训练语料中的频繁词汇和非频繁词汇的不对称，将训练文本集合内的每个词汇表示成为200维的特征向量，通过度量向量之间的余弦相似度，获取词汇间的语义关联；

c.基于词频的相似性度量模块：使用基于词频的方法，计算两个文本间的相似程度；首先获取两个输入文本的词汇并计算词频，存储到向量中，然后度量两个向量的余弦相似度，两个向量之间的余弦相似度越高，则表示两个词汇的上下文越近似，也就表示两个词汇在语义上的相似程度越高；

d.基于词向量的语义相似性度量模块：使用步骤b模块训练好的词向量模型，度量两个文本间的相似性；其中包括首先对两个文本中的词汇进行基于对齐的消歧操作，具体是根据词向量计算得到的相似性，将两个文本间相似性最高的词作为词对保存，然后计算两个文本间所有词对间的语义相似性，并进行汇总；

e.基于维基百科标签的相似性度量模块：使用维基百科标签作为中间媒介，计算两个文本间的相似性；首先计算所有维基百科标签与输入文本的相似性，并从结果中选取相似性最高的一个子集，然后直接计算两个输入文件所对应的维基百科标签集之间的相似性，从而获取相似性结果；

f.融合词频特征、词向量特征和维基百科标签特征的相似性度量模块：为三种融合词频特征、词向量特征和维基百科标签特征分配权重，并将三种相似性度量结果汇总，得到两个输入文本的最终相似性结果。

步骤b中通过采用层次逻辑回归方法，将计算量从输入节点的线性计算开销降低到对数计算开销，并获得近似的概率分布，从而提高计算效率。

步骤d中所述的基于对齐的消歧方法：对于给定的两个词汇序列1和2，对于词汇序列1中的任一词汇，依次计算该词汇与词汇序列2中词汇的相似性，并选择相似性最高的词汇形成词对，以此类推，遍历词汇序列1中的所有词汇，找到所有的词对，进而完成两个输入词汇序列的对齐和消歧过程。

步骤e中所述的文本所对应的词向量采用该文本所包含词汇的词向量的平均值进行表示。

本发明所述的一种基于多特征融合的文本相似性度量系统，该系统是通过以下技术方案实现的：

融合了词频、词向量和维基百科标签多种特征和方法对文本相似性进行度量，具体包括如下步骤：

a、训练文本预处理：对训练文本进行预处理，分词，去停用词，去标点符号；

b、词向量模型训练：为了获取文本内词间语义特征，使用深度学习方法进行多次迭代，对文本进行训练，将训练文本集合内的每个词汇表示成为200维的向量特征，进而可以通过度量向量之间的余弦相似度，获取词汇间的语义关联；

词向量模型训练的目的是发现和预测一个词汇在其上下文中的词汇序列，更加形式化地，给定一个训练词序列：w₁w₂,w₃,Λ,w_T，目标是最大化如公式：

\frac{1}{T} Σ_{t = 1}^{T} \underset{- c \leq j \leq c, j &NotEqual; 0}{Σ} \log p (w_{t + j} | w_{t}) - - - (1)

其中c表示训练上下文窗口的大小，p(w_t+j|w_t)由逻辑回归(softmax)定义，如下所示：

p (w_{O} | w_{I}) = \frac{\exp (v_{w_{O}}^{'} T v_{w_{I}})}{Σ_{w = 1}^{W} \exp (v_{w}^{'} T v_{w_{I}})} - - - (2)

其中v_w和v'_w是词w的输入和输出向量化表示，W表示训练语料中包含的词汇总量；

softmax的计算采用了一种更有效率的近似计算方式：层次逻辑回归(hierarchical sof tmax)，softmax需要计算W个节点的神经网络从而获得概率分布，而层次逻辑回归hierarch ical softmax使用二元树的结构来表示输出层的W个节点，从而只需计算log₂(W)个节点，便获得近似的概率分布：

p (w | w_{I}) = Π_{j = 1}^{L (w) - 1} σ (| | n (w, j + 1) = ch (n (w, j)) | | \cdot v_{n (w, j)}^{'} T v_{w_{I}}) - - - (3)

其中σ(x)＝1/(1+exp(-x))；

对于训练语料中的词汇不平衡问题，采用二次抽样的方法来进行解决，训练语料中词汇w_i的概率通过如下公式进行计算：

P (w_{i}) = 1 - \sqrt{\frac{t}{f (w_{i})}} - - - (4)

其中f(w_i)表示词汇w_i的频率，t表示阈值，根据经验，一般设置为10^-5。

c、基于词频的相似性度量：主要使用基于词频的方法，度量两个文本间的相似程度，该步骤主要包括两个部分：首先获取两个输入文本的词汇，计算词频并存储到向量中A和B中：[A₁,A₂,...,A_n]和[B₁,B₂,...,B_n]；然后计算两个向量的余弦相似度：

\cos θ = \frac{A \cdot B}{| A | \times | B |} - - - (5)

d、基于词向量的语义相似性度量：使用训练好的词向量模型，度量两个文本间的相似性，该步骤主要包括两个部分：首先对两个文本中的词汇进行对齐消歧操作，具体是根据词向量计算得到的相似性，将两个文本间相似性最高的词作为词对保存；然后计算两个文本间所有词对间的语义相似性，并进行汇总；

基于对齐的消歧方法包括：对于给定的两个词汇序列T₁和T₂，对于T₁中的任一词汇w_i，依次计算w_i与T₂中词汇的相似性，并选择相似性最高的词汇w_j与w_i形成词对(w_i,w_j)，以此类推，遍历T₁中的所有词汇，找到所有的词对，进而完成两个输入词汇序列的对齐和消歧过程；

e、基于维基百科标签的相似性度量，使用维基百科标签作为中间媒介，度量两个文本间的相似性，该步骤主要包括两个部分：首先计算所有维基百科标签与输入文本的相似性，并从结果中选取相似性最高的一个子集；然后直接计算两个输入文本所对应的维基百科标签集之间的相似性，从而获取相似性结果；

基于维基百科标签的相似性计算包括：对于词汇w_i，表示其词向量，整个文本的词向量用如下公式表示：

v_{S} = Σ_{i = 1}^{n} v_{w_{i}} / n - - - (6)

其中S表示文本，n表示S中的词汇数量。

T＝{t₁,t₂,Λ,t_n}表示维基百科标签集合，t_i表示其中的一个标签，对于输入文本的词向量表示v_S，遍历计算v_S与t_i的相似性，并最终选出相似性最高的一个子集作为输入文本S的维基百科标签。

f、融合词频特征、词向量特征和维基百科标签特征的相似性度量：为三种融合词频特征、词向量特征和维基百科标签特征分配权重，并将三种相似性计算结果汇总，得到两个输入文本的最终相似性结果。

融合词频特征、词向量特征和维基百科标签特征的相似性计算方法如下：

Sim(t_i,t_j)＝α·Sim_BOW(t_i,t_j)+β·Sim_w2v(t_i,t_j)+χ·Sim_wiki(t_i,t_j) (7)

其中Sim_BOW表示基于词频的相似性，Sim_w2v表示基于词向量的相似性，Sim_wiki表示基于维基百科标签的相似性。

α,β,χ表示权重，α+β+χ＝1，根据长期测试经验，α＝0.2，β＝0.4，χ＝0.4。

采用归一化方法，将相似性度量结果归一化到的[0,1]区间：

Sim (t_{i}, t_{j}) = \frac{Sim (t_{i}, t_{j}) - Sim {(t_{i}, t_{j})}_{\min}}{Sim {(t_{i}, t_{j})}_{\max} - Sim {(t_{i}, t_{j})}_{\min}} - - - (8)

本发明所述的一种基于多特征融合的文本相似性度量系统，该系统所提供的技术方案的积极效果是：融合了词频、词向量和维基百科标签多种语义特征，并在相似性度量前进行基于对齐的消歧处理，将文本表示成基于词汇间语义关系的词向量形式，以达到充分发现词间上下文中蕴含的潜在语义关联的效果。基于维基百科标签的语义扩充和词向量的200维统一表示方式，也克服了文本长度相差较大时所带来的相似性结果精度低的问题。

附图说明

图1为本发明流程图；

图2为本发明与两个参照系统在英文数据集上的准确率对比图，其中—●—为本发明中所用系统，—○—为基线系统1，—▲—为基线系统2；

图3为本发明与两个参照系统在英文数据集上的召回率对比图，其中—●—为本发明中所用系统，—○—为基线系统1，—▲—为基线系统2；

图4为本发明与两个参照系统在中文数据集上的准确率对比图，其中—●—为本发明中所用系统，—○—为基线系统1，—▲—为基线系统2；

图5为本发明与两个参照系统在中文数据集上的召回率对比图，其中—●—为本发明中所用系统，—○—为基线系统1，—▲—为基线系统2；

图6为本发明实施例中展示了两个句子A：[领导，训斥，职员]和B：[员工，老板，批评]图。

具体实施方式

实施例

为了使本技术领域的人员更好地理解本发明方案，下面结合附图对本发明做进一步的详细说明：

如附图1所示，本发明包括如下几个步骤：

训练文本预处理：对训练文本进行预处理，分词，去停用词，去标点符号；例如，对于句子A：“领导训斥了职员”和句子B：“员工被老板批评了”，经过分词，去停用词，去标点符号的处理后，表示为A：[领导，训斥，职员]和B：[员工，老板，批评]；

词向量模型训练：为了获取文本内词间语义特征，使用深度学习方法进行多次迭代，对文本进行训练，将训练文本集合内的每个词汇表示成为200维的向量特征，进而可以通过计算向量之间的余弦相似度，获取词汇间的语义关联；

词向量模型训练的目的是发现和预测一个词汇在句子或上下文中的词汇序列，更加形式化地，给定一个训练词序列：w₁w₂,w₃,Λ,w_T，目标是最大化如下公式：

\frac{1}{T} Σ_{t = 1}^{T} \underset{- c \leq j \leq c, j &NotEqual; 0}{Σ} \log p (w_{t + j} | w_{t}) - - - (1)

p (w_{O} | w_{I}) = \frac{\exp (v_{w_{O}}^{'} T v_{w_{I}})}{Σ_{w = 1}^{W} \exp (v_{w}^{'} T v_{w_{I}})} - - - (2)

其中v_w和v'_w是词w的输入和输出向量化表示，W表示训练语料中包含的词汇总量。

softmax的计算采用了一种更有效率的近似计算方式：层次逻辑回归(hierarchical sof tmax)，softmax需要计算W个节点的神经网络从而获得概率分布，而层次逻辑回归(hierar chical softmax)使用二元树的结构来表示输出层的W个节点，从而只需计算log₂(W)个节点，便获得近似的概率分布：

p (w | w_{I}) = Π_{j = 1}^{L (w) - 1} σ (| | n (w, j + 1) = ch (n (w, j)) | | \cdot v_{n (w, j)}^{'} T v_{w_{I}}) - - - (3)

其中σ(x)＝1/(1+exp(-x))；

P (w_{i}) = 1 - \sqrt{\frac{t}{f (w_{i})}} - - - (4)

其中f(w_i)表示词汇w_i的频率，t表示阈值，根据经验，一般设置为10^-5；

基于词频的相似性度量：主要使用基于词频的方法，度量两个文本间的相似程度，该步骤主要包括两个部分：首先获取两个输入文本的词汇并计算词频，存储到向量中；然后计算两个向量的余弦相似度；例如，对于句子A：[领导，训斥，职员]和句子B：[员工，老板，批评]，在基于词频的相似性度量方法中，只有句子A中的“职员”和句子B中的“员工”具有相同的“员”字，具有较低的相似性；

基于词向量的语义相似性度量：使用训练好的词向量模型，度量两个文本间的相似性，该步骤主要包括两个部分：首先对两个文本中的词汇进行对齐消歧操作，具体是根据词向量计算得到的相似性，将两个文本间相似性最高的词作为词对保存；然后计算两个文本间所有词对间的语义相似性，并进行汇总；

基于对齐的消歧方法包括：对于给定的两个词汇序列T₁和T₂，对于T₁中的任一词汇w_i，依次计算w_i与T₂中词汇的相似性，并选择相似性最高的词汇w_j与w_i形成词对(w_i,w_j)，以此类推，遍历T₁中的所有词汇，找到所有的词对，进而完成两个输入词汇序列的对齐和消歧过程，图6中展示了两个句子A：[领导，训斥，职员]和B：[员工，老板，批评]，预处理后进行对齐消歧操作的示例，经过消歧处理，建立了(领导，老板)、(训斥，批评)、(职员，员工)的词汇对，这样在进一步进行相似性计算时，就可以直接计算词汇对间的相似性，并进行汇总，在减少计算量的同时，提高计算结果准确率；

基于维基百科标签的相似性度量，使用维基百科标签作为中间媒介，度量两个文本间的相似性，该步骤主要包括两个部分：首先计算所有维基百科标签与输入文本的相似性，并从结果中选取相似性最高的一个子集；然后直接计算两个输入文本所对应的维基百科标签集之间的相似性，从而获取相似性结果；

v_{S} = Σ_{i = 1}^{n} v_{w_{i}} / n - - - (5)

其中S表示文本，n表示S中的词汇数量；

T＝{t₁,t₂,Λ,t_n}表示维基百科标签集合，t_i表示其中的一个标签，对于输入文本的词向量表示v_S，遍历计算v_S与t_i的相似性，并最终选出相似性最高的一个子集作为输入文本S的维基百科标签；

融合词频特征、词向量特征和维基百科标签特征的相似性计算：为三种融合词频特征、词向量特征和维基百科标签特征分配权重，并将三种相似性计算结果汇总，得到两个输入文本的最终相似性结果；

Sim(t_i,t_j)＝α·Sim_BOW(t_i,t_j)+β·Sim_w2v(t_i,t_j)+χ·Sim_wiki(t_i,t_j) (6)

其中Sim_BOW表示基于词频的相似性，Sim_w2v表示基于词向量的相似性，Sim_wiki表示基于维基百科标签的相似性；

采用归一化方法，将相似性计算结果归一化到的[0,1]区间：

Sim (t_{i}, t_{j}) = \frac{Sim (t_{i}, t_{j}) - Sim {(t_{i}, t_{j})}_{\min}}{Sim {(t_{i}, t_{j})}_{\max} - Sim {(t_{i}, t_{j})}_{\min}} - - - (7)

为了验证本发明中多特征融合的文本相似性度量系统的性能，将本系统应用到相似性度量问题中，在中英文数据集上与基线系统进行对比实验：

数据集：英文数据集采用微软篇章数据集，其中包括5800对从新闻中抽取的句子，每对句子标注了是否相似的对应关系；中文数据集包括10000对教学类资源与课文的对应关系，两个数据集如表1和表2所示；

表1微软英文篇章数据集

	微软英文篇章数据集	训练集	测试集
				总数	5801	4076	1725
语义相似	3900	2753	1147
				非语义相似	1901	1323	578

表2中文数据集

	中文数据集	训练集	测试集
				总数	10000	7500	2500
语义相似	8000	6000	2000
				非语义相似	2000	1500	500

基线方法：选取基于知识库的相似性度量系统(基线系统1)和基于词向量的相似性度量系统(基线系统2)作为两个对比的基线系统，基线系统1采用wordNet作为知识库，计算文档间的相似性；基线系统2则只采用词向量的方法，对文档间相似性进行衡量；

评价指标：选择准确率(Precision)和召回率(Recall)作为三个系统的评价指标，如下所示：

Precision＝TP/(TP+FP) (8)

Recall＝TP/(TP+FN) (9)

附图4和附图5展示了阿尔法(阿尔法用来表示阈值)从0.0到1.0变化过程中，三个系统在英文数据集表1上的准确率和召回率，从附图4和附图5中可以看出，本发明的系统的准确率和召回率略高于基线系统1，二者都明显高于基线系统2，这是由于本发明的系统和基线系统1都使用了知识库来增强相似性计算效果，同时本发明的系统还使用了词向量作为其中的一项语义特征；

附图6展示了阿尔法从0.0到1.0变化过程中，三个系统在中文数据集表2上的准确率和召回率，从附图6中可以看出，本发明的系统取得了最好的实验结果，基线系统1的效果最差，这是由于基线系统1所使用的知识库wordNet无法应用于中文数据集，所以实验结果最差；基线系统2优于基线系统1是由于词向量方法是语言无关的，因此基线系统2性能较为稳定。

本发明未详细阐述的部分属于本领域公知技术。显然，本领域的技术人员应该意识到，在本发明的范围内和精神指导下，各种改进、添加和替换都是可能的，如改变数据格式和内容、调整接口调用次序、使用不同编程语言(如Python、C、C++、Java等)实现等。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于多特征融合的文本相似性度量系统，其特征在于该系统融合了基于词频、词向量和维基百科标签多种特征对文本相似性进行度量，具体操作按下列步骤进行：

e.基于维基百科标签的相似性度量模块：使用维基百科标签作为中间媒介，计算两个文本所对应的词向量的相似性；首先计算所有维基百科标签与输入文本的相似性，并从结果中选取相似性最高的一个子集，然后直接计算两个输入文件所对应的维基百科标签集之间的相似性，从而获取相似性结果；

2.根据权利要求1所述的基于多特征融合的文本相似性度量系统，其特征在于步骤b中通过采用层次逻辑回归方法，将计算量从输入节点的线性计算开销降低到对数计算开销，并获得近似的概率分布，从而提高计算效率。

3.根据权利要求1所述的基于多特征融合的文本相似性度量系统，其特征在于步骤d中所述的基于对齐的消歧方法：对于给定的两个词汇序列1和2，对于词汇序列1中的任一词汇，依次计算该词汇与词汇序列2中词汇的相似性，并选择相似性最高的词汇形成词对，以此类推，遍历词汇序列1中的所有词汇，找到所有的词对，进而完成两个输入词汇序列的对齐和消歧过程。

4.根据权利要求1所述的基于多特征融合的文本相似性度量系统，其特征在于步骤e中所述的文本所对应的词向量采用该文本所包含词汇的词向量的平均值进行表示。