CN109766545A

CN109766545A - 基于多特征融合的文本相似度计算方法

Info

Publication number: CN109766545A
Application number: CN201811579480.6A
Authority: CN
Inventors: 高翊; 冯韬; 李淼; 胡泽林; 曹宜超; 付莎; 李华龙; 杨选将; 刘先旺; 郭盼盼; 曾伟辉
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-05-17
Anticipated expiration: 2038-12-24
Also published as: CN109766545B

Abstract

本发明涉及自然语言处理技术领域，特别涉及一种基于多特征融合的文本相似度计算方法，包括以下步骤：(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度；(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。根据文档的特点，在比较文档正文相似度的基础上还进行其他特征的比对，然后通过加权线性组合的方式得到文本相似度并对其进行排序，选择相似度最大的可比语料对加入到可比语料库中，该方法无需平行语料库和跨语言词典，因此其泛化能力较强，可以适用于多种不同语言的跨语言文本相似度计算。

Description

基于多特征融合的文本相似度计算方法

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于多特征融合的文本相似度计算方法。

背景技术

跨语言文本相似度计算是量化不同语言文档之间的相似程度，是互联网新闻可比语料挖掘系统中十分重要的一个模块；另外在文本分类、信息检索、文本摘要自动生成、情感分析等领域，文本相似度计算也有着广泛的应用基础。目前，跨语言文本相似度计算常用的方法主要有基于机器翻译、基于多语言词典和基于平行语料库等方法。

基于机器翻译的跨语言文本相似度计算方法将机器翻译技术和单语文本相似度计算技术结合来实现不同语言文本的相似度度量，它首先将两种不同的语言翻译成同一种中间语言，然后在中间语言向量空间中进行不同语言文本之间的相似度计算，这种方法简单直接，但是该方法严重的依赖于机器翻译系统性能。目前，机器翻译的性能与人工翻译的效果还有很大的差距，尤其是像汉蒙这样具有少量的平行语料对的语言对。因此，该方法只适用于机器翻译性能较好的语言对之间，普适性不强。

基于多语言词典的跨语言文本相似度计算方法利用多语言词典统计两篇不同语言文档中的互相翻译的词语数量来计算双语文档的相似度，它是将两篇文档中的互译词词向量作为特征值，然后进行文本相似度计算，但是该方法需要高质量的跨语言词典。当跨语言词典中词汇的数量较少或者质量较差时，该方法的性能会急剧下降。且该方法中使用互译的词汇作为相似度计算的基本单元，这种方式有两个缺点：其一，在句子中有许多无意义的助词，如“的”，“吧”等，这类词语会严重的干扰跨语言相似度的计算；其二，孤立的、单个词的词汇无法充分的表示句子的含义，这样会造成相似度计算的准确率下降。

基于平行语料库的跨语言相似度计算方法，主要利用平行语料的语义相似性，将平行语句分别映射到各自的词向量空间，然后根据平行语句的词向量进行相似度计算，但是这种方法需要大量的平行语料库。平行语料库的构建费事耗力，需要人工进行校对，大多数语言对的平行语料库的数量是很少的甚至不存在平行语料库。因此，该方法在实际应用中的可行性不高。

发明内容

本发明的目的在于提供一种基于多特征融合的文本相似度计算方法，容错率和准确度都非常高。

为实现以上目的，本发明采用的技术方案为：一种基于多特征融合的文本相似度计算方法，包括以下步骤：(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度；(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。

与现有技术相比，本发明存在以下技术效果：根据文档的特点，在比较文档正文相似度的基础上还进行其他特征的比对，然后通过加权线性组合的方式得到文本相似度并对其进行排序，选择相似度最大的可比语料对加入到可比语料库中，该方法无需平行语料库和跨语言词典，因此其泛化能力较强，可以适用于多种不同语言的跨语言文本相似度计算。

附图说明

图1是本发明的流程示意图。

具体实施方式

下面结合图1，对本发明做进一步详细叙述。

参阅图1，一种基于多特征融合的文本相似度计算方法，包括以下步骤：(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度；(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。根据文档的特点，在比较文档正文相似度的基础上还进行其他特征的比对，本实施例中，其他特征包括日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种，然后通过加权线性组合的方式得到文本相似度并对其进行排序，选择相似度最大的可比语料对加入到可比语料库中，该方法无需平行语料库和跨语言词典，因此其泛化能力较强，可以适用于多种不同语言的跨语言文本相似度计算。在实际选择时，可以根据需要选择合适的特征。

该步骤A中，包括很多方案：正文相似度和其他任一特征的组合；正文相似度和其他任意二个特征的组合；正文相似度和其他任意三个特征的组合；正文相似度和所有特征的组合，这些方案都是可行的，这里就不再一一阐述。

优选地，所述的源语言文档和目标语言文档为新闻，对于新闻文档来说，其发布日期是很重要的，一般来说，相同的新闻文档，不论何种语言，其发布日期的时间差都不会相隔太远，故本发明中优选地，步骤A中，计算源语言文档和目标语言文档的正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及日期相似度和正文相似度。

这里只是以新闻文档进行举例，对于不同的文档，日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中，有些特征影响大，有些特征影响小或基本没有影响，根据实际的需求来选择合适的特征组合即可。为了进一步详细的对本发明进行详细说明，下面以网页新闻文档为例，列出五个相似度计算的具体方案。

本发明中优选地，所述的步骤A中，计算源语言文档和目标语言文档的日期相似度S_dd、正文长度相似度S_dl、正文中阿拉伯数字相似度SN、标题相似度ST以及正文相似度SC；所述的步骤B中，按以下公式计算两个文档的相似度Sim：

Sim＝W_dd*S_dd+W_dl*S_dl+W_sn*SN+W_ST*ST+W_sc*SC；

其中，W_dd，W_dl，W_sn，W_st，W_sc为各相似度的加权值，且W_dd+W_dl+W_sn+W_st+W_sc＝1。各相似度的加权值要根据该相似度对总的相似度的贡献比例来进行设置，可以预先设定好。这样在计算源语言文档和目标语言文档相似度的时候，只需要计算日期相似度S_dd、正文长度相似度S_dl、正文中阿拉伯数字相似度SN、标题相似度ST以及正文相似度SC然后代入以上公式中即可。

优选地，所述的步骤A中，按以下公式计算日期相似度S_dd：

式中，DS和DT分别表示源语言和目标语言的发布时间，α＝1是平滑因子。不同语言新闻对同一事件的描述往往在事件发生后的一段时间内，新闻可比语料文档对的发布日期应临近，因此可将日期差异转化为源语言和目标语言新闻发布日期的相似度。

优选地，所述的步骤A中，按以下公式计算正文长度相似度S_dl：

式中，len(CS)和len(CT)分别表示源语言和目标语言的文本长度，β是长度关系阈值，γ是斜率控制值，防止DL有微小变化时S_dl变化过大，这里可以取γ＝10。可比语料的不同语言文档对同一件事的描述应该基本一致，对于任意两种语言，长度关系阈值β都可以预先设定好，以蒙语和汉语为例，蒙汉文本的内容长度比约为3.5。

若两种语言间未设定长度关系阈值β，我们也可以按照如下步骤计算出长度关系阈值β：(S1)选择若干篇源语言文本，并计算每篇源语言文本的长度len(CS)_i；(S2)将源语言文本翻译成目标语言文本，并计算每篇目标语言文本的长度len(CT)_i；(S3)计算每篇文本的源语言文本长度和目标语言文本长度比值得到β_i＝len(CS)_i/len(CT)_i；(S4)对所有的β_i求平均值即得到该源语言和目标语言长度关系阈值β。比如，对于蒙语来说，首先可以选择100篇蒙语文本，然后将这100篇蒙语文本翻译成汉语，然后分别计算出蒙语和汉语文本的长度，最后分别计算出每篇文章的长度比值，再求平均值即可得到蒙语和汉语的长度关系阈值β。当然，在计算时，可以同时翻译成多种语言，同时计算出蒙语和其他所有语言的长度关系阈值β。

优选地，所述的步骤A中，按以下公式计算正文中阿拉伯数字相似度SN：

SN＝euclidean(NS，NT)；

式中，NS和NT分别源语言文档和目标语言文档中出现的阿拉伯数字集合，euclidean()表示欧几里得距离。在可比语料中，蒙语新闻和汉语新闻出现在正文中的量词等阿拉伯数字基本上一致。因此可以使用欧式距离计算蒙汉网页新闻可比语料的相似度。

优选地，所述的步骤A中，按如下公式计算标题相似度ST：

式中，TStrans()表示经预处理后的源语言标题翻译，TT表示预处理后的目标语言标题，commonstr()表示两个字符串中公共的字符数，len()表示文本长度，max()表示最大值。新闻标题是对内容的概要，可比语料的源语言标题经翻译后应与目标语言标题基本一致，即二者有较多相同的词汇。

所述的步骤A中，按如下公式计算正文相似度SC：

式中，CStrans表示预处理后的源语言文档正文翻译，CT表示预处理后的目标语言正文，commonstr()表示两个字符串中公共的字符数，len()表示文本长度，max()表示最大值。两种语言的可比语料文档对同一事件的描述基本一致，源语言新闻正文经过翻译后的文本应与目标语言的新闻文本相似，即两篇文档中有较多相同的词汇和语义相同的句子。

将上述的启发信息进行归一化之后，采用加权线性组合的方式将所有的启发信息进行融合，本发明利用神经网络获得各启发信息对相似度计算的权重，将权重和各相似度代入公式中即可计算源语言文档和目标语言文档之间的相似程度。优选地，所述的步骤B中，0.1≤W_dd≤0.2，0.01≤W_dl≤0.1，0.01≤W_sn≤0.15，0.4≤W_st≤0.5，0.2≤W_sc≤0.3。经过试验验证，当权值取以下数值时最后计算出的文档相似程度更精确：W_dd＝0.17；W_dl＝0.05；W_sn＝0.08；W_st＝0.45；W_sc＝0.25。

利用启发信息的权值进行加权计算，将所有的计算结果进行排序，取相似度最大的文档对作为候选可比语料，如果候选可比语料的相似度的值大于阈值，则加入到可比语料库中。该方法利用多种特征信息对源语言文档和目标语言文档相似度进行计算，比利用单一特征信息的方法容错率更强，准确率更高。

Claims

1.一种基于多特征融合的文本相似度计算方法，其特征在于：包括以下步骤：

(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度；

(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。

2.如权利要求1所述的基于多特征融合的文本相似度计算方法，其特征在于：所述的源语言文档和目标语言文档为新闻，步骤A中，计算源语言文档和目标语言文档的正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及日期相似度和正文相似度。

3.如权利要求1所述的基于多特征融合的文本相似度计算方法，其特征在于：所述的步骤A中，计算源语言文档和目标语言文档的日期相似度S_dd、正文长度相似度S_dl、正文中阿拉伯数字相似度SN、标题相似度ST以及正文相似度SC；所述的步骤B中，按以下公式计算两个文档的相似度Sim：

Sim＝W_dd*S_dd+W_dl*S_dl+W_sn*SN+W_st*ST+W_sc*SC；

其中，W_dd，W_dl，W_sn，W_st，W_sc为各相似度的加权值，且W_dd+W_dl+W_sn+W_st+W_sc＝1。

4.如权利要求3所述的基于多特征融合的文本相似度计算方法，其特征在于：所述的步骤A中，按以下公式计算日期相似度S_dd：

式中，DS和DT分别表示源语言和目标语言的发布时间，α是平滑因子。

5.如权利要求3所述的基于多特征融合的文本相似度计算方法，其特征在于：所述的步骤A中，按以下公式计算正文长度相似度S_dl：

式中，len(CS)和len(CT)分别表示源语言和目标语言的文本长度，β是长度关系阈值，γ是斜率控制值。

6.如权利要求3所述的基于多特征融合的文本相似度计算方法，其特征在于：所述的步骤A中，按以下公式计算正文中阿拉伯数字相似度SN：

SN＝euclidean(NS，NT)；

式中，NS和NT分别源语言文档和目标语言文档中出现的阿拉伯数字集合，euclidean()表示欧几里得距离。

7.如权利要求3所述的基于多特征融合的文本相似度计算方法，其特征在于：所述的步骤A中，按如下公式计算标题相似度ST：

式中，TStrans()表示经预处理后的源语言标题翻译，TT表示预处理后的目标语言标题，commonstr()表示两个字符串中公共的字符数，len()表示文本长度，max()表示最大值。

8.如权利要求3所述的基于多特征融合的文本相似度计算方法，其特征在于：所述的步骤A中，按如下公式计算正文相似度SC：

式中，CStrans表示预处理后的源语言文档正文翻译，CT表示预处理后的目标语言正文，commonstr()表示两个字符串中公共的字符数，len()表示文本长度，max()表示最大值。

9.如权利要求3所述的基于多特征融合的文本相似度计算方法，其特征在于：所述的步骤B中，0.1≤W_dd≤0.2，0.01≤W_dl≤0.1，0.01≤W_sn≤0.15，0.4≤W_st≤0.5，0.2≤W_sc≤0.3。

10.如权利要求5所述的基于多特征融合的文本相似度计算方法，其特征在于：所述的长度关系阈值β按以下步骤计算得到：

(S1)选择若干篇源语言文本，并计算每篇源语言文本的长度len(CS)_i；

(S2)将源语言文本翻译成目标语言文本，并计算每篇目标语言文本的长度len(CT)_i；

(S3)计算每篇文本的源语言文本长度和目标语言文本长度比值得到β_i＝len(CS)_i/len(CT)_i；

(S4)对所有的β_i求平均值即得到该源语言和目标语言长度关系阈值β。