CN109766545A - 基于多特征融合的文本相似度计算方法 - Google Patents
基于多特征融合的文本相似度计算方法 Download PDFInfo
- Publication number
- CN109766545A CN109766545A CN201811579480.6A CN201811579480A CN109766545A CN 109766545 A CN109766545 A CN 109766545A CN 201811579480 A CN201811579480 A CN 201811579480A CN 109766545 A CN109766545 A CN 109766545A
- Authority
- CN
- China
- Prior art keywords
- similarity
- text
- language
- document
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及自然语言处理技术领域,特别涉及一种基于多特征融合的文本相似度计算方法,包括以下步骤:(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度;(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。根据文档的特点,在比较文档正文相似度的基础上还进行其他特征的比对,然后通过加权线性组合的方式得到文本相似度并对其进行排序,选择相似度最大的可比语料对加入到可比语料库中,该方法无需平行语料库和跨语言词典,因此其泛化能力较强,可以适用于多种不同语言的跨语言文本相似度计算。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于多特征融合的文本相似度计算方法。
背景技术
跨语言文本相似度计算是量化不同语言文档之间的相似程度,是互联网新闻可比语料挖掘系统中十分重要的一个模块;另外在文本分类、信息检索、文本摘要自动生成、情感分析等领域,文本相似度计算也有着广泛的应用基础。目前,跨语言文本相似度计算常用的方法主要有基于机器翻译、基于多语言词典和基于平行语料库等方法。
基于机器翻译的跨语言文本相似度计算方法将机器翻译技术和单语文本相似度计算技术结合来实现不同语言文本的相似度度量,它首先将两种不同的语言翻译成同一种中间语言,然后在中间语言向量空间中进行不同语言文本之间的相似度计算,这种方法简单直接,但是该方法严重的依赖于机器翻译系统性能。目前,机器翻译的性能与人工翻译的效果还有很大的差距,尤其是像汉蒙这样具有少量的平行语料对的语言对。因此,该方法只适用于机器翻译性能较好的语言对之间,普适性不强。
基于多语言词典的跨语言文本相似度计算方法利用多语言词典统计两篇不同语言文档中的互相翻译的词语数量来计算双语文档的相似度,它是将两篇文档中的互译词词向量作为特征值,然后进行文本相似度计算,但是该方法需要高质量的跨语言词典。当跨语言词典中词汇的数量较少或者质量较差时,该方法的性能会急剧下降。且该方法中使用互译的词汇作为相似度计算的基本单元,这种方式有两个缺点:其一,在句子中有许多无意义的助词,如“的”,“吧”等,这类词语会严重的干扰跨语言相似度的计算;其二,孤立的、单个词的词汇无法充分的表示句子的含义,这样会造成相似度计算的准确率下降。
基于平行语料库的跨语言相似度计算方法,主要利用平行语料的语义相似性,将平行语句分别映射到各自的词向量空间,然后根据平行语句的词向量进行相似度计算,但是这种方法需要大量的平行语料库。平行语料库的构建费事耗力,需要人工进行校对,大多数语言对的平行语料库的数量是很少的甚至不存在平行语料库。因此,该方法在实际应用中的可行性不高。
发明内容
本发明的目的在于提供一种基于多特征融合的文本相似度计算方法,容错率和准确度都非常高。
为实现以上目的,本发明采用的技术方案为:一种基于多特征融合的文本相似度计算方法,包括以下步骤:(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度;(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。
与现有技术相比,本发明存在以下技术效果:根据文档的特点,在比较文档正文相似度的基础上还进行其他特征的比对,然后通过加权线性组合的方式得到文本相似度并对其进行排序,选择相似度最大的可比语料对加入到可比语料库中,该方法无需平行语料库和跨语言词典,因此其泛化能力较强,可以适用于多种不同语言的跨语言文本相似度计算。
附图说明
图1是本发明的流程示意图。
具体实施方式
下面结合图1,对本发明做进一步详细叙述。
参阅图1,一种基于多特征融合的文本相似度计算方法,包括以下步骤:(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度;(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。根据文档的特点,在比较文档正文相似度的基础上还进行其他特征的比对,本实施例中,其他特征包括日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种,然后通过加权线性组合的方式得到文本相似度并对其进行排序,选择相似度最大的可比语料对加入到可比语料库中,该方法无需平行语料库和跨语言词典,因此其泛化能力较强,可以适用于多种不同语言的跨语言文本相似度计算。在实际选择时,可以根据需要选择合适的特征。
该步骤A中,包括很多方案:正文相似度和其他任一特征的组合;正文相似度和其他任意二个特征的组合;正文相似度和其他任意三个特征的组合;正文相似度和所有特征的组合,这些方案都是可行的,这里就不再一一阐述。
优选地,所述的源语言文档和目标语言文档为新闻,对于新闻文档来说,其发布日期是很重要的,一般来说,相同的新闻文档,不论何种语言,其发布日期的时间差都不会相隔太远,故本发明中优选地,步骤A中,计算源语言文档和目标语言文档的正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及日期相似度和正文相似度。
这里只是以新闻文档进行举例,对于不同的文档,日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中,有些特征影响大,有些特征影响小或基本没有影响,根据实际的需求来选择合适的特征组合即可。为了进一步详细的对本发明进行详细说明,下面以网页新闻文档为例,列出五个相似度计算的具体方案。
本发明中优选地,所述的步骤A中,计算源语言文档和目标语言文档的日期相似度Sdd、正文长度相似度Sdl、正文中阿拉伯数字相似度SN、标题相似度ST以及正文相似度SC;所述的步骤B中,按以下公式计算两个文档的相似度Sim:
Sim=Wdd*Sdd+Wdl*Sdl+Wsn*SN+WST*ST+Wsc*SC;
其中,Wdd,Wdl,Wsn,Wst,Wsc为各相似度的加权值,且Wdd+Wdl+Wsn+Wst+Wsc=1。各相似度的加权值要根据该相似度对总的相似度的贡献比例来进行设置,可以预先设定好。这样在计算源语言文档和目标语言文档相似度的时候,只需要计算日期相似度Sdd、正文长度相似度Sdl、正文中阿拉伯数字相似度SN、标题相似度ST以及正文相似度SC然后代入以上公式中即可。
优选地,所述的步骤A中,按以下公式计算日期相似度Sdd:
式中,DS和DT分别表示源语言和目标语言的发布时间,α=1是平滑因子。不同语言新闻对同一事件的描述往往在事件发生后的一段时间内,新闻可比语料文档对的发布日期应临近,因此可将日期差异转化为源语言和目标语言新闻发布日期的相似度。
优选地,所述的步骤A中,按以下公式计算正文长度相似度Sdl:
式中,len(CS)和len(CT)分别表示源语言和目标语言的文本长度,β是长度关系阈值,γ是斜率控制值,防止DL有微小变化时Sdl变化过大,这里可以取γ=10。可比语料的不同语言文档对同一件事的描述应该基本一致,对于任意两种语言,长度关系阈值β都可以预先设定好,以蒙语和汉语为例,蒙汉文本的内容长度比约为3.5。
若两种语言间未设定长度关系阈值β,我们也可以按照如下步骤计算出长度关系阈值β:(S1)选择若干篇源语言文本,并计算每篇源语言文本的长度len(CS)i;(S2)将源语言文本翻译成目标语言文本,并计算每篇目标语言文本的长度len(CT)i;(S3)计算每篇文本的源语言文本长度和目标语言文本长度比值得到βi=len(CS)i/len(CT)i;(S4)对所有的βi求平均值即得到该源语言和目标语言长度关系阈值β。比如,对于蒙语来说,首先可以选择100篇蒙语文本,然后将这100篇蒙语文本翻译成汉语,然后分别计算出蒙语和汉语文本的长度,最后分别计算出每篇文章的长度比值,再求平均值即可得到蒙语和汉语的长度关系阈值β。当然,在计算时,可以同时翻译成多种语言,同时计算出蒙语和其他所有语言的长度关系阈值β。
优选地,所述的步骤A中,按以下公式计算正文中阿拉伯数字相似度SN:
SN=euclidean(NS,NT);
式中,NS和NT分别源语言文档和目标语言文档中出现的阿拉伯数字集合,euclidean()表示欧几里得距离。在可比语料中,蒙语新闻和汉语新闻出现在正文中的量词等阿拉伯数字基本上一致。因此可以使用欧式距离计算蒙汉网页新闻可比语料的相似度。
优选地,所述的步骤A中,按如下公式计算标题相似度ST:
式中,TStrans()表示经预处理后的源语言标题翻译,TT表示预处理后的目标语言标题,commonstr()表示两个字符串中公共的字符数,len()表示文本长度,max()表示最大值。新闻标题是对内容的概要,可比语料的源语言标题经翻译后应与目标语言标题基本一致,即二者有较多相同的词汇。
所述的步骤A中,按如下公式计算正文相似度SC:
式中,CStrans表示预处理后的源语言文档正文翻译,CT表示预处理后的目标语言正文,commonstr()表示两个字符串中公共的字符数,len()表示文本长度,max()表示最大值。两种语言的可比语料文档对同一事件的描述基本一致,源语言新闻正文经过翻译后的文本应与目标语言的新闻文本相似,即两篇文档中有较多相同的词汇和语义相同的句子。
将上述的启发信息进行归一化之后,采用加权线性组合的方式将所有的启发信息进行融合,本发明利用神经网络获得各启发信息对相似度计算的权重,将权重和各相似度代入公式中即可计算源语言文档和目标语言文档之间的相似程度。优选地,所述的步骤B中,0.1≤Wdd≤0.2,0.01≤Wdl≤0.1,0.01≤Wsn≤0.15,0.4≤Wst≤0.5,0.2≤Wsc≤0.3。经过试验验证,当权值取以下数值时最后计算出的文档相似程度更精确:Wdd=0.17;Wdl=0.05;Wsn=0.08;Wst=0.45;Wsc=0.25。
利用启发信息的权值进行加权计算,将所有的计算结果进行排序,取相似度最大的文档对作为候选可比语料,如果候选可比语料的相似度的值大于阈值,则加入到可比语料库中。该方法利用多种特征信息对源语言文档和目标语言文档相似度进行计算,比利用单一特征信息的方法容错率更强,准确率更高。
Claims (10)
1.一种基于多特征融合的文本相似度计算方法,其特征在于:包括以下步骤:
(A)计算源语言文档和目标语言文档的日期相似度、正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及正文相似度;
(B)将步骤A中计算的相似度进行加权线性组合得到两个文档的相似度。
2.如权利要求1所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的源语言文档和目标语言文档为新闻,步骤A中,计算源语言文档和目标语言文档的正文长度相似度、正文中阿拉伯数字相似度、标题相似度中的一种或多种以及日期相似度和正文相似度。
3.如权利要求1所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的步骤A中,计算源语言文档和目标语言文档的日期相似度Sdd、正文长度相似度Sdl、正文中阿拉伯数字相似度SN、标题相似度ST以及正文相似度SC;所述的步骤B中,按以下公式计算两个文档的相似度Sim:
Sim=Wdd*Sdd+Wdl*Sdl+Wsn*SN+Wst*ST+Wsc*SC;
其中,Wdd,Wdl,Wsn,Wst,Wsc为各相似度的加权值,且Wdd+Wdl+Wsn+Wst+Wsc=1。
4.如权利要求3所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的步骤A中,按以下公式计算日期相似度Sdd:
式中,DS和DT分别表示源语言和目标语言的发布时间,α是平滑因子。
5.如权利要求3所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的步骤A中,按以下公式计算正文长度相似度Sdl:
式中,len(CS)和len(CT)分别表示源语言和目标语言的文本长度,β是长度关系阈值,γ是斜率控制值。
6.如权利要求3所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的步骤A中,按以下公式计算正文中阿拉伯数字相似度SN:
SN=euclidean(NS,NT);
式中,NS和NT分别源语言文档和目标语言文档中出现的阿拉伯数字集合,euclidean()表示欧几里得距离。
7.如权利要求3所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的步骤A中,按如下公式计算标题相似度ST:
式中,TStrans()表示经预处理后的源语言标题翻译,TT表示预处理后的目标语言标题,commonstr()表示两个字符串中公共的字符数,len()表示文本长度,max()表示最大值。
8.如权利要求3所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的步骤A中,按如下公式计算正文相似度SC:
式中,CStrans表示预处理后的源语言文档正文翻译,CT表示预处理后的目标语言正文,commonstr()表示两个字符串中公共的字符数,len()表示文本长度,max()表示最大值。
9.如权利要求3所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的步骤B中,0.1≤Wdd≤0.2,0.01≤Wdl≤0.1,0.01≤Wsn≤0.15,0.4≤Wst≤0.5,0.2≤Wsc≤0.3。
10.如权利要求5所述的基于多特征融合的文本相似度计算方法,其特征在于:所述的长度关系阈值β按以下步骤计算得到:
(S1)选择若干篇源语言文本,并计算每篇源语言文本的长度len(CS)i;
(S2)将源语言文本翻译成目标语言文本,并计算每篇目标语言文本的长度len(CT)i;
(S3)计算每篇文本的源语言文本长度和目标语言文本长度比值得到βi=len(CS)i/len(CT)i;
(S4)对所有的βi求平均值即得到该源语言和目标语言长度关系阈值β。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811579480.6A CN109766545B (zh) | 2018-12-24 | 2018-12-24 | 基于多特征融合的文本相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811579480.6A CN109766545B (zh) | 2018-12-24 | 2018-12-24 | 基于多特征融合的文本相似度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109766545A true CN109766545A (zh) | 2019-05-17 |
CN109766545B CN109766545B (zh) | 2022-11-18 |
Family
ID=66450926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811579480.6A Active CN109766545B (zh) | 2018-12-24 | 2018-12-24 | 基于多特征融合的文本相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109766545B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473280A (zh) * | 2013-08-28 | 2013-12-25 | 中国科学院合肥物质科学研究院 | 一种网络可比语料的挖掘方法及装置 |
CN104572634A (zh) * | 2014-12-25 | 2015-04-29 | 中国科学院合肥物质科学研究院 | 一种交互式抽取可比语料与双语词典的方法及其装置 |
WO2015079591A1 (en) * | 2013-11-27 | 2015-06-04 | Nec Corporation | Crosslingual text classification method using expected frequencies |
-
2018
- 2018-12-24 CN CN201811579480.6A patent/CN109766545B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473280A (zh) * | 2013-08-28 | 2013-12-25 | 中国科学院合肥物质科学研究院 | 一种网络可比语料的挖掘方法及装置 |
WO2015079591A1 (en) * | 2013-11-27 | 2015-06-04 | Nec Corporation | Crosslingual text classification method using expected frequencies |
CN104572634A (zh) * | 2014-12-25 | 2015-04-29 | 中国科学院合肥物质科学研究院 | 一种交互式抽取可比语料与双语词典的方法及其装置 |
Non-Patent Citations (1)
Title |
---|
郭月江等: "融合主题和要素的汉柬可比语料获取方法", 《云南大学学报(自然科学版)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109766545B (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Maekawa et al. | Balanced corpus of contemporary written Japanese | |
Schneider et al. | SemEval-2016 Task~ 10: Detecting Minimal Semantic Units and their Meanings (DiMSUM) | |
TWI536181B (zh) | 在多語文本中的語言識別 | |
Dingare et al. | A system for identifying named entities in biomedical text: how results from two evaluations reflect on both the system and the evaluations | |
Forsyth et al. | Document dissimilarity within and across languages: a benchmarking study | |
Erdmann et al. | Improving the extraction of bilingual terminology from Wikipedia | |
Napoles et al. | Paraphrastic sentence compression with a character-based metric: Tightening without deletion | |
Hollenstein et al. | A resource for natural language processing of Swiss German dialects | |
KR101377447B1 (ko) | 태그간 의미 분석을 이용한 다중 문서 요약 방법 및 시스템 | |
U Rahman | Towards Sindhi corpus construction | |
Ye et al. | Part-of-speech tagging based on dictionary and statistical machine learning | |
CN110334362B (zh) | 一种基于医学神经机器翻译的解决产生未翻译单词的方法 | |
Rabbani et al. | A new verb based approach for English to Bangla machine translation | |
Mori et al. | Language Resource Addition: Dictionary or Corpus? | |
CN109766545A (zh) | 基于多特征融合的文本相似度计算方法 | |
CN110705285A (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
MacKinlay et al. | The effects of semantic annotations on precision parse ranking | |
US9311302B2 (en) | Method, system and medium for character conversion between different regional versions of a language especially between simplified chinese and traditional chinese | |
Imamura et al. | Japanese dependency parsing using sequential labeling for semi-spoken language | |
Calle-Martín et al. | ‘The Egiptians adored the Sun, and called it the visible sone of the invisible God’: Clausal Boundaries in Early Modern English Scientific Handwritten Texts | |
US20160070692A1 (en) | Determining segments for documents | |
Hanu et al. | Aspects Revealing the Orthography and Punctuation Impact in Printed Romanian: A Literary Corpus Based Study | |
Tryfou et al. | Web image context extraction based on semantic representation of web page visual segments | |
Petrovčič | Distribution of “Young Words” in the Chinese Web 2011. Corpus and the Hanku Corpus | |
Liu et al. | Zipf’s law and statistical data on modern Tibetan |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |