CN109213995B - 一种基于双语词嵌入的跨语言文本相似度评估技术 - Google Patents

一种基于双语词嵌入的跨语言文本相似度评估技术 Download PDF

Info

Publication number
CN109213995B
CN109213995B CN201810869704.0A CN201810869704A CN109213995B CN 109213995 B CN109213995 B CN 109213995B CN 201810869704 A CN201810869704 A CN 201810869704A CN 109213995 B CN109213995 B CN 109213995B
Authority
CN
China
Prior art keywords
text
language
bilingual
similarity
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810869704.0A
Other languages
English (en)
Other versions
CN109213995A (zh
Inventor
刘刚
张翰墨
左权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201810869704.0A priority Critical patent/CN109213995B/zh
Publication of CN109213995A publication Critical patent/CN109213995A/zh
Application granted granted Critical
Publication of CN109213995B publication Critical patent/CN109213995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于语言处理领域,具体涉及一种基于双语词嵌入的跨语言文本相似度评估技术。基于双语词嵌入的跨语言文本相似度评估技术的技术路线及工作流程分为以下三个阶段:双语词嵌入模型的构建、多神经网络结合的文本相似度计算框架构建、跨语言相似度计算。通过该模型可以生成双语共享的词嵌入表示,基于词向量相关理论和Skip‑Gram模型,在人工构造的伪双语语料上进行词向量训练。其次,为了尽可能使生成的词嵌入空间完备,还使用单语语料作为补充以学习额外的词嵌入知识。通过融合多种神经网络结构用于句子的语义表示学习,最后输出句子的相似度得分。通过将短文本分割成段落,将段落看作长句子作为序列输入,可以实现更大规模上的相似度迭代计算。

Description

一种基于双语词嵌入的跨语言文本相似度评估技术
技术领域
本发明属于语言处理领域,具体涉及一种基于双语词嵌入的跨语言文本相似度评估技术。
背景技术
基于统计机器学习的方法是目前自然语言处理领域研究的主流,这些方法通常从训练数据中自动或半自动地获取语言的统计知识,可以有效地建立语言的表示模型。但是,基于统计机器学习的方法在很大程度上依赖于训练数据的规模、代表性、正确性以及加工深度,训练的语言数据越多、领域性越强,则语言模型的拟合度越好。可以说,训练数据的质量在很大程度上决定了基于统计机器学习方法的效果,因此通过扩大语料库的办法来不断提高自然语言处理系统的性能,在实际操作中可能很快就触碰瓶颈。
跨语言相似度评估需要跨越语言的障碍进行文本相似度对比。跨语言相似度评估往往需要依赖语料库和词典。基于平行语料库的方法,其准确性取决于平行语料库的规模和质量;基于统计翻译模型的方法依赖于翻译概率词典,不同的语言之间则需要多种概率词典,鲁棒性差。而机器翻译技术则通常适用于语言语法对比性高的语言,如德语-英语,因此可扩展性不高。如果使用“中间语言”,比如将文本内容都翻译为中文,由于经过两次翻译,因为使用翻译工具或翻译模型,必然会引入额外的噪声,会使得对比结果更加不准确。
深度学习作为一种表示学习方法,它通过对数据进行多层的建模来获得关于数据特征的层次结构以及数据的分布表示。深度学习可以避免繁琐的人工特征抽取,有效的利用无监督数据,并且具有优秀的泛化能力。目前的基于深度学习的自然语言处理的研究中主要集中在英文领域,中文领域的研究刚刚起步。由于语系的不同,中文与英文的语言单位有着各自的特点。因此,在英文领域的许多研究结果无法被直接应用到中英文跨语言领域,而需要总结两种语言的特点重新建立新的模型。研究跨语言相似度评估技术,尤其是中英文文本之间相似度评估技术的开发,有着很重要的现实意义,不仅有利于提高科研水平,规范学术风气,同时可以避免网络资源的浪费,增强互联网时代的用户体验。
在统计自然语言处理中,通常采用离散形式的符号化特征表示和浅层学习模型。这些符号表示和浅层模型没有刻画数据中蕴涵的语义信息,因而也无法充分表达不同语言数据之间的语义关联,很难使用统一有效的方法进行多任任务、多标注规范以及多语言的学习。深度学习通常基于一种深层非线性网络结构,从生理学的角度讲,深度学习技术类似人类大脑皮层的工作原理,通过分层对输入的数据进行处理,抽取其在不同层的信息,最终获得数据的本质特征。深度学习强大的建模和知识抽取能力,主要原因之一就是它对观测样本采用的有效的表示方式。在深度学习领域内,表示是指对输入观测样本采取有效且公正的方法进行符号化的表达。表示学习(Representation Learning)指学习对观测样本有效的表示,它是深度学习在NLP领域一种常用的研究方法,通过特征工程方法获得数学化的文本内容向量表达,常用于文本分类、实体识别、信息抽取等任务。这种方法不仅克服了传统的one-hot表示方法带来的数据稀疏和维度灾难问题,而且可以通过多层的数据处理挖掘文本深层次的信息。
深度学习的目标是探索计算机如何利用数据来开发适合复杂解释任务的特征和表示。利用深度学习模型,基于双语平行语料库,将源语言与目标语言数据映射到同一向量空间,训练获得双语词汇表示。这种方法已被广泛用于语言建模、POS标记、命名实体识别、情感分析和释义检测等NLP任务。
发明内容
本发明的目的在于提供一种基于双语词嵌入的跨语言文本相似度评估技术。
基于双语词嵌入的跨语言文本相似度评估技术的技术路线及工作流程分为以下三个阶段:
(1)双语词嵌入模型的构建:利用双语平行语料进行双语词嵌入模型的构建,通过该模型生成的词向量反应词语携带的语义信息,根据双语词之间的空间位置直接计算他们之间的语义相似度;
(2)多神经网络结合的文本相似度计算框架构建:通过融合多神经网络,以词向量表示为输入,将词语的语义信息和上下文信息融合到句子本身对句子语义进行特征表示;
(3)跨语言相似度计算:在进行跨语言文本相似度计算时,以段落为单位进行分割,将段落看作长句子,得到更大文本单元粒度下的相似度迭代计算。
阶段(1)所述的双语词嵌入模型允许将来自两种语言的词汇投影到共享的嵌入空间去,利用自然语言处理技术对中英双语文本进行预处理,建立空间向量模型,将不同语言看作不同的任务,利用共享表示学习机制,使它们互相帮助以提高各自的分析精度;通过将文本相似度评估分为词语层级和句子层级,在这两个层级分别以词语作为文本单元和以句子作文文本单元,通过结合深度学习技术进行更加精确的特征表达和相似度计算。
将双语平行语料记为:
Figure BDA0001751840760000021
其中
Figure BDA0001751840760000022
表示第一语言L1和第二语言L2之间一对平行的文本,N表示平行语料库的规模,用V1表示与第一语言L1关联的第一词汇集合,用V2表示与第二语言L2关联的第二词汇集合;
双语平行语料库C的规模有限,覆盖的第一词汇集合V1和第二词汇集合V2规模也较小,因此本文将训练模型的数据进行拓展,分为伪双语语料和单语语料两大部分,具体表示为:
Figure BDA0001751840760000031
其中C1表示来自第一语言L1单语的语料,和C2表示来自第二语言L2单语的语料,来自第一语言L1的第一单语语料C1和来自第二语言L2的第二单语语料C2并不是来自双语平行语料
Figure BDA0001751840760000032
表示将双语平行语料
Figure BDA0001751840760000033
对齐的文本进行随机合并得到的伪双语语料,组成
Figure BDA0001751840760000034
的文本全部来自于双语平行语料
Figure BDA0001751840760000035
将来自第一语言L1的第一文本
Figure BDA0001751840760000036
和第二语言L2的第二文本
Figure BDA0001751840760000037
合并得到的伪双语文本d′i,此时伪双语文本d′i已经携带了来自第一文本
Figure BDA0001751840760000038
和第二文本
Figure BDA0001751840760000039
的全部词语信息,伪双语文本d′i初始时是空的,根据分词后词汇序列长度的比例将第一文本
Figure BDA00017518407600000310
和第二文本
Figure BDA00017518407600000311
中的词依次插入伪双语文本d′i中,并保存词语之间相对顺序不变;
对于每个待嵌入词的表示最终还要依赖基于负采样的Skip-Gram模型在这些伪双语文本d′i上进行训练,该模型在第一语言L1和第二语言L2之间依赖双语平行语料
Figure BDA00017518407600000312
以及人工构建的伪双语文本d′i最终学习到了对于单词w在d维共享空间上的词向量表示,也即不管单词w究竟源自何种语言,单词w都表示为一个d维向量:
w={a1,...,ak,...,ad}
ak表示在d维共享空间中第k个共享的内在双语特征。
阶段(2)所述的多神经网络结合的文本相似度计算框架分为4层,分别是预处理层、Bi-LSTM表示层、高阶语义抽取层和输出层,以孪生神经网络作为权值共享的网络框架,融合双语词嵌入,并通过双向长短期记忆神经网络Bi-LSTM对输入序列进行编码表示,在此基础上,利用全连接网络全局建模的能力进行高阶语义抽取,共同构建句子的分布式语义向量表示,最终的输出部分为双语句子的相似度,并通过损失函数对框架中的各层参数进行优化选择。
跨语言相似度计算框架SCLSE框架,其理论支撑部分为孪生神经网络和双向长短期记忆神经网络Bi-LSTM用于语义表达,同时使用注意力机制和余弦相似度进行结构改进,提升语义表达的精度,使用全连接网络用于高阶语义抽取,通过幂指函数进行输出计算作为相似度结果;数据支撑部分为双语平行语料,并以此语料为训练集进行参数训练和模型调优,该跨语言相似度计算框架SCLSE框架直接用于句子相似度计算,在进行短文本相似度计算时,以段落为计算单元,将段落作为长句子作为序列输入从而计算跨语言短文本的相似度。
对于双语平行语料库,记为:
Figure BDA0001751840760000041
其中
Figure BDA0001751840760000042
表示第一语言L1和第二语言L2之间一对平行的文本,N表示平行语料库的规模,第一语言L1的第一文本
Figure BDA0001751840760000043
和第二语言L2的第二文本
Figure BDA0001751840760000044
句子数目不相同,但是不论第一文本
Figure BDA0001751840760000045
和第二文本
Figure BDA0001751840760000046
属于何种语言,只要它们各自都是信息完备的,即清楚的表述一个事物、现象,且双语对齐,那么第一文本
Figure BDA0001751840760000047
和第二文本
Figure BDA0001751840760000048
段落的个数就是相同的,段落看作是句子语义表达作用的叠加,对于文本相似度的计算看作是对文本段落之间相似度的计算,而段落则当作长句子进行处理,在实践中,一个较大型的双向长短期记忆神经网络Bi-LSTM模型经常使用250-500个步长作为限制
第一文本
Figure BDA0001751840760000049
由3个段落:第一段落A、第二段落B和第三段落C,即{A,B,C},组成,第二文本
Figure BDA00017518407600000410
由3个段落:第四段落D、第五段落E和第六段落F,即{D,E,F},组成,对第一文本
Figure BDA00017518407600000411
和第二文本
Figure BDA00017518407600000412
进行相似度对比时,就变为依次对第一段落A和第四段落D:A-D,第二段落B和第五段落E:B-E,第三段落C和第六段落F:C-F,进行比较;
第一文本
Figure BDA00017518407600000413
与第二文本
Figure BDA00017518407600000414
的跨语言相似度用下式表示:
Figure BDA00017518407600000415
其中||paragraph||表示段落的个数,sclse(·)表示使用跨语言相似度计算框SCLSE框架进行计算。
本发明的有益效果在于:
使用自然语言处理技术将文本进行分词和去停留词等预处理操作,将词语作为文本单元,进行词向量表示学习和双语词嵌入模型的构建。通过该模型可以生成双语共享的词嵌入表示,利用词与词之间的空间距离来度量它们之间的语义相似度。基于词向量相关理论和Skip-Gram模型,在人工构造的伪双语语料上进行词向量训练。其次,为了尽可能使生成的词嵌入空间完备,还使用单语语料作为补充以学习额外的词嵌入知识。通过将词语的语义信息和每个词的上下文信息融合起来,将整个句子表征为一个向量进行跨语言文本相似度的计算。对此,以词嵌入作为底层向量表示,通过融合多种神经网络结构用于句子的语义表示学习,最后输出句子的相似度得分。通过将短文本分割成段落,将段落看作长句子作为序列输入,可以实现更大规模上的相似度迭代计算。
附图说明
图1(a)是单语词嵌入空间示意图。
图1(b)是双语词嵌入空间示意图。
图2是双语词嵌入模型构建过程。
图3是在伪双语文本上进行词嵌入训练。
图4是文本相似度计算框架图。
图5是文本相似度计算示意图。
图6是跨语言相似度计算流程图。
具体实施方式
下面结合附图对本发明的主要处理过程做更详细得描述。
本发明描述的是一种基于双语词嵌入的跨语言文本相似度评估技术。使用自然语言处理技术将文本进行分词和去停留词等预处理操作,将词语作为文本单元,进行词向量表示学习和双语词嵌入模型的构建。通过该模型可以生成双语共享的词嵌入表示,利用词与词之间的空间距离来度量它们之间的语义相似度。基于词向量相关理论和Skip-Gram模型,在人工构造的伪双语语料上进行词向量训练。其次,为了尽可能使生成的词嵌入空间完备,还使用单语语料作为补充以学习额外的词嵌入知识。通过将词语的语义信息和每个词的上下文信息融合起来,将整个句子表征为一个向量进行跨语言文本相似度的计算。对此,以词嵌入作为底层向量表示,通过融合多种神经网络结构用于句子的语义表示学习,最后输出句子的相似度得分。通过将短文本分割成段落,将段落看作长句子作为序列输入,可以实现更大规模上的相似度迭代计算。
本发明的技术路线及工作流程可以分为三个阶段。第一阶段,利用双语平行语料进行双语词嵌入模型的构建,通过该模型生成的词向量可以反应词语携带的语义信息,从而根据双语词之间的空间位置可以直接计算他们之间的语义相似度;第二阶段,通过融合多神经网络,以词向量表示为输入,将词语的语义信息和上下文信息融合到句子本身对句子语义进行特征表示;第三阶段,在进行跨语言文本相似度计算时,以段落为单位进行分割,将段落看作长句子作为从而实现更大文本单元粒度下的相似度迭代计算。
(1)双语词嵌入模型的构建
双语词嵌入允许将来自两种语言的词汇投影到共享的嵌入空间去。与单语词嵌入相比,双语词嵌入不仅可以抓住单语言词语之间的空间嵌入关系,也可以抓住不同语言词语之间的空间嵌入关系。它的这种属性使得双语词嵌入空间模型可以很好地定义短语对之间的语义相似性关系。在此空间内,不论词wx和wy究竟来自何种语言,只要它们具有相似的语义,他们在该共享的词嵌入空间内就会有彼此靠近的位置,也就可以通过词与词之间的距离(比如余弦距离、欧氏距离等)来度量它们之间的语义相似度。
(2)多神经网络结合的文本相似度计算框架构建
传统的基于机器学习的方法以及一些浅层的神经网络表示方法,大多都是利用简单的特征信息进行文本相似度对比。判断文本相似度应该是从多个层面进行综合考虑的,如词语语义信息、上下文语义信息等。深度学习通常基于一种深层非线性网络结构,通过分层对输入的数据进行处理,抽取其在不同层次的信息,最终获得数据的本质表示。利用深度学习技术与不同的特征工程方法结合可获得词向量表示、句子向量表示和文档向量表示。
(3)跨语言相似度计算
以双语词嵌入模型为基础,结合深度学习中的多神经网络,以双语平行语料作为数据集与训练集进而构成本发明所提出的跨语言相似度计算框架SCLSE。该框架将全连接层的输出结果通过激活函数进而得到两种语言句子语义相似度计算的输出。其输出结果是两个句子向量的一阶范数的指数函数值,可直接用于句子相似度计算。在进行短文本相似度计算时,以段落为计算单元,将段落作为长句子作为序列输入从而计算跨语言短文本的相似度,进而实现更大规模上的相似度迭代计算。
一种基于双语词嵌入的跨语言文本相似度评估技术,包括:利用自然语言处理技术对中英双语文本进行预处理,建立空间向量模型,通过深度学习强大的建模和知识抽取能力,可以实现对文本进行更好的特征抽取和语义表示。世界上存在多种语言,虽然各种语言的词汇甚至语法结构等都不尽相同,但是既然语言都是表达人类思想的工具,它们之间也存在一定的共性。因此可以将不同语言看作不同的任务,利用共享表示学习机制,使它们互相帮助以提高各自的分析精度。通过将文本相似度评估分为词语层级和句子层级,在这两个层级分别以词语作为文本单元和以句子作文文本单元,通过结合深度学习技术进行更加精确的特征表达和相似度计算。
以词语为文本单元,基于词嵌入模型和预处理语料,将源语言和目标语言的表示学习过程合并为一个双语词表示的学习过程,构建双语共享的词嵌入语义空间。在此空间内,词语之间的语义相似性体现为空间位置的彼此靠近。
句子层级的研究即句子语义表示学习。本部分的研究内容以句子作为相似度计算单元,以双语词嵌入向量作为底层语义支撑,通过结合多神经网络特性构造了用于文本相似度计算的框架。通过把上下文的语义信息融合到句子本身对句子语义进行更好的表征。此外,段落可以看作是较长的句子,在进行文本相似度计算时,可以看作是对文本段落之间相似度的计算,而段落则可以当作长句子进行处理。这样,通过该计算框架就可以实现对自由长度的文本进行跨语言相似度评估的目的。
1.双语词嵌入模型的构建
将双语平行语料记为
Figure BDA0001751840760000071
其中
Figure BDA0001751840760000072
表示语言L1和语言L2之间一对平行的文本,N表示平行语料库的规模。用V1和V2分别表示与语言L1和语言L2关联的词汇集合。
在双语平行数据中,相互对齐的两个词语通常互为翻译词(语义一致),那么它们的分布表示在相同的空间内应该彼此靠近。然而实际情况是,一个词语往往对应着多个翻译词。如中文词“进步”在不同的平行语料中会以一定的概率翻译为“progress”,“improve”和“advance”。此外,双语平行语料库C的规模通常较为有限,可覆盖的词汇表V1和V2规模也相对较小。为了增强跨语言分布表示词映射的健壮性,本文将训练模型的数据进行拓展,分为伪双语语料和单语语料两大部分,具体表示为:
Figure BDA0001751840760000073
其中C1和C2分别表示来自语言L1和语言L2各自单语的语料,它们并不是来自双语平行语料
Figure BDA0001751840760000074
表示将双语平行语料
Figure BDA0001751840760000075
对齐的文本进行随机合并得到的伪双语语料。使用
Figure BDA0001751840760000076
语料的意义在于Skip-Gram模型本来就是用在单语言词嵌入向量的生成,通过该混合语料将双语词嵌入转换为单一语言词嵌入。
组成
Figure BDA0001751840760000077
的文本全部来自于
Figure BDA0001751840760000078
本文将分别来自语言L1和语言L2的文本
Figure BDA0001751840760000079
Figure BDA00017518407600000710
合并得到的伪双语文本,用符号表示为d′i,此时d′i已经携带了来自
Figure BDA00017518407600000711
Figure BDA00017518407600000712
的全部词语信息。d′i初始时是空的,根据分词后词汇序列长度的比例将
Figure BDA00017518407600000713
Figure BDA00017518407600000714
中的词依次插入d′i中,并保存词语之间相对顺序不变。
对于每个待嵌入词的表示最终还要依赖基于负采样的Skip-Gram模型在这些伪双语文本上进行训练。该模型在语言L1和语言L2之间依赖平行语料以及人工构建的伪双语文本最终学习到了对于w在d维共享空间上的词向量表示,也即不管w究竟源自何种语言,它都可以表示为一个d维向量w={a1,...,ak,...,ad}。ak表示在d维共享空间中第k个共享的内在双语特征。由于所有的单词都享有一个共同的嵌入空间,所以无论单语言还是跨语言,词语之间的语义相似度都可以进行计算。
2.多神经网络结合的文本相似度计算框架构建
本发明将整个框架分为4层,分别是预处理层、Bi-LSTM表示层、高阶语义抽取层和输出层。以孪生神经网络(Siamese Network)作为权值共享的网络框架,融合双语词嵌入,并通过双向长短期记忆神经网络(Bi-LSTM)对输入序列进行编码表示,在此基础上,利用全连接网络全局建模的能力进行高阶语义抽取,共同构建句子的分布式语义向量表示。最终的输出部分为双语句子的相似度,并通过损失函数对框架中的各层参数进行优化选择。本文提出的SCLSE框架,其理论支撑部分为孪生神经网络和Bi-LSTM用于语义表达,同时使用注意力机制和余弦相似度进行结构改进,提升语义表达的精度。使用全连接网络用于高阶语义抽取,通过幂指函数进行输出计算作为相似度结果。数据支撑部分为双语平行语料,并以此语料为训练集进行参数训练和模型调优。该框架可用直接于句子相似度计算,在进行短文本相似度计算时,以段落为计算单元,将段落作为长句子作为序列输入从而计算跨语言短文本的相似度。
3.文本相似度计算
对于双语平行语料库,记为
Figure BDA0001751840760000081
其中
Figure BDA0001751840760000082
表示语言L1和语言L2之间一对平行的文本,N表示平行语料库的规模。通常意义来讲,由于表述方式的差异,
Figure BDA0001751840760000083
Figure BDA0001751840760000084
句子数目一般不相同。比如英文中存在大量的前置和后置修饰成分,而中文句子通常短小精悍,因此在表述同一个事物时,英文可能只使用一个句子,而中文会使用三个句子。如果此时直接使用句子对来对
Figure BDA0001751840760000085
Figure BDA0001751840760000086
进行相似度评估,因为句子数目的不平衡,理所当然会造成最终的计算结果不准确。因此可以认为,不论
Figure BDA0001751840760000087
Figure BDA0001751840760000088
属于何种语言,只要它们各自都是信息完备的(可以清楚的表述一个事物、现象等)且双语对齐,那么
Figure BDA0001751840760000089
Figure BDA00017518407600000810
段落的个数就应该是相同的。此外,段落也可以被看作是句子语义表达作用的叠加。鉴于此,对于文本相似度的计算可以看作是对文本段落之间相似度的计算,而段落则可以当作长句子进行处理。在实践中,一个较大型的Bi-LSTM模型经常使用250-500个步长作为限制,这完全满足一个段落的大小要求。
假设
Figure BDA00017518407600000811
由3个段落{A,B,C}组成,
Figure BDA00017518407600000812
由3个段落{D,E,F}组成。对
Figure BDA00017518407600000813
Figure BDA00017518407600000814
进行相似度对比时,就变为依次对A-D,B-E,C-F进行比较。
可用公式表示为:
Figure BDA00017518407600000815
其中||paragraph||表示段落的个数,sclse(·)表示使用SCLSE框架进行计算。

Claims (7)

1.一种基于双语词嵌入的跨语言文本相似度评估技术,其特征在于,本技术的技术路线及工作流程分为以下三个阶段:
(1)双语词嵌入模型的构建:利用双语平行语料进行双语词嵌入模型的构建,通过该模型生成的词向量反应词语携带的语义信息,根据双语词之间的空间位置直接计算他们之间的语义相似度;
(2)多神经网络结合的文本相似度计算框架构建:通过融合多神经网络,以词向量表示为输入,将词语的语义信息和上下文信息融合到句子本身对句子语义进行特征表示;
(3)跨语言相似度计算:在进行跨语言文本相似度计算时,以段落为单位进行分割,将段落看作长句子,得到更大文本单元粒度下的相似度迭代计算。
2.根据权利要求1所述的一种基于双语词嵌入的跨语言文本相似度评估技术,其特征在于:阶段(1)所述的双语词嵌入模型允许将来自两种语言的词汇投影到共享的嵌入空间去,利用自然语言处理技术对中英双语文本进行预处理,建立空间向量模型,将不同语言看作不同的任务,利用共享表示学习机制,使它们互相帮助以提高各自的分析精度;通过将文本相似度评估分为词语层级和句子层级,在这两个层级分别以词语作为文本单元和以句子作文文本单元,通过结合深度学习技术进行更加精确的特征表达和相似度计算。
3.根据权利要求2所述的一种基于双语词嵌入的跨语言文本相似度评估技术,其特征在于,将双语平行语料记为:
Figure FDA0001751840750000011
其中
Figure FDA0001751840750000012
表示第一语言L1和第二语言L2之间一对平行的文本,N表示平行语料库的规模,用V1表示与第一语言L1关联的第一词汇集合,用V2表示与第二语言L2关联的第二词汇集合;
双语平行语料库C的规模有限,覆盖的第一词汇集合V1和第二词汇集合V2规模也较小,因此本文将训练模型的数据进行拓展,分为伪双语语料和单语语料两大部分,具体表示为:
Figure FDA0001751840750000013
其中C1表示来自第一语言L1单语的语料,和C2表示来自第二语言L2单语的语料,来自第一语言L1的第一单语语料C1和来自第二语言L2的第二单语语料C2并不是来自双语平行语料
Figure FDA0001751840750000014
表示将双语平行语料
Figure FDA0001751840750000015
对齐的文本进行随机合并得到的伪双语语料,组成
Figure FDA0001751840750000016
的文本全部来自于双语平行语料
Figure FDA0001751840750000017
将来自第一语言L1的第一文本
Figure FDA0001751840750000021
和第二语言L2的第二文本
Figure FDA0001751840750000022
合并得到的伪双语文本d′i,此时伪双语文本d′i已经携带了来自第一文本
Figure FDA0001751840750000023
和第二文本
Figure FDA0001751840750000024
的全部词语信息,伪双语文本d′i初始时是空的,根据分词后词汇序列长度的比例将第一文本
Figure FDA0001751840750000025
和第二文本
Figure FDA0001751840750000026
中的词依次插入伪双语文本d′i中,并保存词语之间相对顺序不变;
对于每个待嵌入词的表示最终还要依赖基于负采样的Skip-Gram模型在这些伪双语文本d′i上进行训练,该模型在第一语言L1和第二语言L2之间依赖双语平行语料
Figure FDA0001751840750000027
以及人工构建的伪双语文本d′i最终学习到了对于单词w在d维共享空间上的词向量表示,也即不管单词w究竟源自何种语言,单词w都表示为一个d维向量:
w={a1,...,ak,...,ad}
ak表示在d维共享空间中第k个共享的内在双语特征。
4.根据权利要求1所述的一种基于双语词嵌入的跨语言文本相似度评估技术,其特征在于:阶段(2)所述的多神经网络结合的文本相似度计算框架分为4层,分别是预处理层、Bi-LSTM表示层、高阶语义抽取层和输出层,以孪生神经网络作为权值共享的网络框架,融合双语词嵌入,并通过双向长短期记忆神经网络Bi-LSTM对输入序列进行编码表示,在此基础上,利用全连接网络全局建模的能力进行高阶语义抽取,共同构建句子的分布式语义向量表示,最终的输出部分为双语句子的相似度,并通过损失函数对框架中的各层参数进行优化选择。
5.根据权利要求4所述的一种基于双语词嵌入的跨语言文本相似度评估技术,其特征在于:跨语言相似度计算框架SCLSE框架,其理论支撑部分为孪生神经网络和双向长短期记忆神经网络Bi-LSTM用于语义表达,同时使用注意力机制和余弦相似度进行结构改进,提升语义表达的精度,使用全连接网络用于高阶语义抽取,通过幂指函数进行输出计算作为相似度结果;数据支撑部分为双语平行语料,并以此语料为训练集进行参数训练和模型调优,该跨语言相似度计算框架SCLSE框架直接用于句子相似度计算,在进行短文本相似度计算时,以段落为计算单元,将段落作为长句子作为序列输入从而计算跨语言短文本的相似度。
6.根据权利要求5所述的一种基于双语词嵌入的跨语言文本相似度评估技术,其特征在于:对于双语平行语料库,记为:
Figure FDA0001751840750000028
其中
Figure FDA0001751840750000029
表示第一语言L1和第二语言L2之间一对平行的文本,N表示平行语料库的规模,第一语言L1的第一文本
Figure FDA0001751840750000031
和第二语言L2的第二文本
Figure FDA0001751840750000032
句子数目不相同,但是不论第一文本
Figure FDA0001751840750000033
和第二文本
Figure FDA0001751840750000034
属于何种语言,只要它们各自都是信息完备的,即清楚的表述一个事物、现象,且双语对齐,那么第一文本
Figure FDA0001751840750000035
和第二文本
Figure FDA0001751840750000036
段落的个数就是相同的,段落看作是句子语义表达作用的叠加,对于文本相似度的计算看作是对文本段落之间相似度的计算,而段落则当作长句子进行处理,在实践中,一个较大型的双向长短期记忆神经网络Bi-LSTM模型经常使用250-500个步长作为限制。
7.根据权利要求6所述的一种基于双语词嵌入的跨语言文本相似度评估技术,其特征在于:第一文本
Figure FDA0001751840750000037
由3个段落:第一段落A、第二段落B和第三段落C,即{A,B,C},组成,第二文本
Figure FDA0001751840750000038
由3个段落:第四段落D、第五段落E和第六段落F,即{D,E,F},组成,对第一文本
Figure FDA0001751840750000039
和第二文本
Figure FDA00017518407500000310
进行相似度对比时,就变为依次对第一段落A和第四段落D:A-D,第二段落B和第五段落E:B-E,第三段落C和第六段落F:C-F,进行比较;
第一文本
Figure FDA00017518407500000311
与第二文本
Figure FDA00017518407500000312
的跨语言相似度用下式表示:
Figure FDA00017518407500000313
其中||paragraph||表示段落的个数,sclse(·)表示使用跨语言相似度计算框SCLSE框架进行计算。
CN201810869704.0A 2018-08-02 2018-08-02 一种基于双语词嵌入的跨语言文本相似度评估技术 Active CN109213995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810869704.0A CN109213995B (zh) 2018-08-02 2018-08-02 一种基于双语词嵌入的跨语言文本相似度评估技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810869704.0A CN109213995B (zh) 2018-08-02 2018-08-02 一种基于双语词嵌入的跨语言文本相似度评估技术

Publications (2)

Publication Number Publication Date
CN109213995A CN109213995A (zh) 2019-01-15
CN109213995B true CN109213995B (zh) 2022-11-18

Family

ID=64988030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810869704.0A Active CN109213995B (zh) 2018-08-02 2018-08-02 一种基于双语词嵌入的跨语言文本相似度评估技术

Country Status (1)

Country Link
CN (1) CN109213995B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885671B (zh) * 2019-02-28 2022-10-14 重庆邮电大学 基于多任务学习的问答方法
CN111680119B (zh) * 2019-03-11 2023-04-18 阿里巴巴集团控股有限公司 数据处理方法及计算设备
CN110008723B (zh) * 2019-03-27 2022-11-15 东南大学 一种基于词嵌入技术的加解密方法
CN110008482B (zh) * 2019-04-17 2021-03-09 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质和计算机设备
CN110084440B (zh) * 2019-05-15 2022-12-23 中国民航大学 基于联合相似度的民航旅客不文明等级预测方法及系统
CN110134962A (zh) * 2019-05-17 2019-08-16 中山大学 一种基于内部注意力的跨语言纯文本反讽识别方法
CN110223324B (zh) * 2019-06-05 2023-06-16 东华大学 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法
CN110297903B (zh) * 2019-06-11 2021-04-30 昆明理工大学 一种基于不对等语料的跨语言词嵌入方法
CN110413988B (zh) * 2019-06-17 2023-01-31 平安科技(深圳)有限公司 文本信息匹配度量的方法、装置、服务器及存储介质
CN110362820B (zh) * 2019-06-17 2022-11-01 昆明理工大学 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN110414009B (zh) * 2019-07-09 2021-02-05 昆明理工大学 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN110348014B (zh) * 2019-07-10 2023-03-24 电子科技大学 一种基于深度学习的语义相似度计算方法
CN110309268B (zh) * 2019-07-12 2021-06-29 中电科大数据研究院有限公司 一种基于概念图的跨语言信息检索方法
CN110472047B (zh) * 2019-07-15 2022-12-13 昆明理工大学 一种多特征融合的汉越新闻观点句抽取方法
CN110489551B (zh) * 2019-07-16 2023-05-30 哈尔滨工程大学 一种基于写作习惯的作者识别方法
CN110532328B (zh) * 2019-08-26 2023-04-07 哈尔滨工程大学 一种文本概念图构造方法
CN111104478A (zh) * 2019-09-05 2020-05-05 李轶 一种领域概念语义漂移探究方法
CN110705274B (zh) * 2019-09-06 2023-03-24 电子科技大学 基于实时学习的融合型词义嵌入方法
CN110781680B (zh) * 2019-10-17 2023-04-18 江南大学 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN111090985B (zh) * 2019-11-28 2023-04-28 华中师范大学 一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法
CN111126037B (zh) * 2019-12-18 2021-10-29 昆明理工大学 一种基于孪生循环神经网络的泰文句子切分方法
CN111539228B (zh) * 2020-04-29 2023-08-08 支付宝(杭州)信息技术有限公司 向量模型训练方法及装置、相似度确定方法及装置
CN111553168A (zh) * 2020-05-09 2020-08-18 识因智能科技(北京)有限公司 一种双语短文本匹配方法
CN111737954B (zh) * 2020-06-12 2023-07-28 百度在线网络技术(北京)有限公司 文本相似度确定方法、装置、设备和介质
CN111950281B (zh) * 2020-07-02 2023-03-21 中国科学院软件研究所 一种基于深度学习和上下文语义的需求实体共指检测方法和装置
CN111914710B (zh) * 2020-07-24 2024-02-13 合肥工业大学 一种铁路机务段场景描述方法及系统
CN112215017B (zh) * 2020-10-22 2022-04-29 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN112818697A (zh) * 2021-01-26 2021-05-18 山西三友和智慧信息技术股份有限公司 一种基于自然语言处理和语义相似任务的元嵌入系统
CN113157865B (zh) * 2021-04-25 2023-06-23 平安科技(深圳)有限公司 跨语言词向量生成方法、装置、电子设备及存储介质
CN113220845B (zh) * 2021-05-26 2022-05-17 鲁东大学 基于深度语义的多语言文本细粒度精准对齐方法
CN113779978B (zh) * 2021-09-26 2024-05-24 上海一者信息科技有限公司 一种无监督跨语言句对齐实现方法
CN113987115A (zh) * 2021-09-26 2022-01-28 润联智慧科技(西安)有限公司 一种文本相似度计算方法、装置、设备及存储介质
CN114003726B (zh) * 2021-12-31 2022-04-08 山东大学 一种基于子空间嵌入的学术论文差异性分析方法
CN114896394B (zh) * 2022-04-18 2024-04-05 桂林电子科技大学 基于多语言预训练模型的事件触发词检测与分类方法
CN115828931B (zh) * 2023-02-09 2023-05-02 中南大学 面向段落级文本的中英文语义相似度计算方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9779085B2 (en) * 2015-05-29 2017-10-03 Oracle International Corporation Multilingual embeddings for natural language processing
CN105843801B (zh) * 2016-03-25 2018-05-11 北京语言大学 多译本平行语料库的构建系统
CN106372187B (zh) * 2016-08-31 2019-12-17 中译语通科技股份有限公司 一种面向大数据的跨语言检索方法

Also Published As

Publication number Publication date
CN109213995A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN109213995B (zh) 一种基于双语词嵌入的跨语言文本相似度评估技术
Gulcehre et al. On integrating a language model into neural machine translation
Yao et al. Bi-directional LSTM recurrent neural network for Chinese word segmentation
Qiu et al. DGeoSegmenter: A dictionary-based Chinese word segmenter for the geoscience domain
JP6720764B2 (ja) テキスト解析装置及びプログラム
CN115860006B (zh) 一种基于语义句法的方面级情感预测方法及装置
Zhang et al. A multi-feature fusion model for Chinese relation extraction with entity sense
Han et al. CNN-BiLSTM-CRF model for term extraction in Chinese corpus
Li et al. Low-resource text classification via cross-lingual language model fine-tuning
Chauhan et al. Improved unsupervised neural machine translation with semantically weighted back translation for morphologically rich and low resource languages
Lyons A review of Thai–English machine translation
Mahata et al. Simplification of English and Bengali sentences for improving quality of machine translation
Tien et al. Long sentence preprocessing in neural machine translation
CN112507717A (zh) 融合实体关键字特征的医疗领域实体分类方法
Gamal et al. Survey of arabic machine translation, methodologies, progress, and challenges
Rajan et al. Survey of nlp resources in low-resource languages nepali, sindhi and konkani
Andrabi et al. A Comprehensive Study of Machine Translation Tools and Evaluation Metrics
Zhang Research on English machine translation system based on the internet
Naranpanawa et al. Analyzing subword techniques to improve english to sinhala neural machine translation
Acharjee et al. Sequence-to-sequence learning-based conversion of pseudo-code to source code using neural translation approach
Kirsch et al. Noise reduction in distant supervision for relation extraction using probabilistic soft logic
Maw et al. Aspect based Sentiment Analysis for travel and tourism in Myanmar Language using LSTM
Yadav et al. Image Processing-Based Transliteration from Hindi to English
Bolshakova et al. Building a combined morphological model for Russian word forms
Li et al. Cross-Lingual semantic textual similarity modeling using neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant