CN109213995A

CN109213995A - 一种基于双语词嵌入的跨语言文本相似度评估技术

Info

Publication number: CN109213995A
Application number: CN201810869704.0A
Authority: CN
Inventors: 刘刚; 张翰墨; 左权
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2019-01-15
Anticipated expiration: 2038-08-02
Also published as: CN109213995B

Abstract

本发明属于语言处理领域，具体涉及一种基于双语词嵌入的跨语言文本相似度评估技术。基于双语词嵌入的跨语言文本相似度评估技术的技术路线及工作流程分为以下三个阶段：双语词嵌入模型的构建、多神经网络结合的文本相似度计算框架构建、跨语言相似度计算。通过该模型可以生成双语共享的词嵌入表示，基于词向量相关理论和Skip‑Gram模型，在人工构造的伪双语语料上进行词向量训练。其次，为了尽可能使生成的词嵌入空间完备，还使用单语语料作为补充以学习额外的词嵌入知识。通过融合多种神经网络结构用于句子的语义表示学习，最后输出句子的相似度得分。通过将短文本分割成段落，将段落看作长句子作为序列输入，可以实现更大规模上的相似度迭代计算。

Description

一种基于双语词嵌入的跨语言文本相似度评估技术

技术领域

本发明属于语言处理领域，具体涉及一种基于双语词嵌入的跨语言文本相似度评估技术。

背景技术

基于统计机器学习的方法是目前自然语言处理领域研究的主流，这些方法通常从训练数据中自动或半自动地获取语言的统计知识，可以有效地建立语言的表示模型。但是，基于统计机器学习的方法在很大程度上依赖于训练数据的规模、代表性、正确性以及加工深度，训练的语言数据越多、领域性越强，则语言模型的拟合度越好。可以说，训练数据的质量在很大程度上决定了基于统计机器学习方法的效果，因此通过扩大语料库的办法来不断提高自然语言处理系统的性能，在实际操作中可能很快就触碰瓶颈。

跨语言相似度评估需要跨越语言的障碍进行文本相似度对比。跨语言相似度评估往往需要依赖语料库和词典。基于平行语料库的方法，其准确性取决于平行语料库的规模和质量；基于统计翻译模型的方法依赖于翻译概率词典，不同的语言之间则需要多种概率词典，鲁棒性差。而机器翻译技术则通常适用于语言语法对比性高的语言，如德语-英语，因此可扩展性不高。如果使用“中间语言”，比如将文本内容都翻译为中文，由于经过两次翻译，因为使用翻译工具或翻译模型，必然会引入额外的噪声，会使得对比结果更加不准确。

深度学习作为一种表示学习方法，它通过对数据进行多层的建模来获得关于数据特征的层次结构以及数据的分布表示。深度学习可以避免繁琐的人工特征抽取，有效的利用无监督数据，并且具有优秀的泛化能力。目前的基于深度学习的自然语言处理的研究中主要集中在英文领域，中文领域的研究刚刚起步。由于语系的不同，中文与英文的语言单位有着各自的特点。因此，在英文领域的许多研究结果无法被直接应用到中英文跨语言领域，而需要总结两种语言的特点重新建立新的模型。研究跨语言相似度评估技术，尤其是中英文文本之间相似度评估技术的开发，有着很重要的现实意义，不仅有利于提高科研水平，规范学术风气，同时可以避免网络资源的浪费，增强互联网时代的用户体验。

在统计自然语言处理中，通常采用离散形式的符号化特征表示和浅层学习模型。这些符号表示和浅层模型没有刻画数据中蕴涵的语义信息，因而也无法充分表达不同语言数据之间的语义关联，很难使用统一有效的方法进行多任任务、多标注规范以及多语言的学习。深度学习通常基于一种深层非线性网络结构，从生理学的角度讲，深度学习技术类似人类大脑皮层的工作原理，通过分层对输入的数据进行处理，抽取其在不同层的信息，最终获得数据的本质特征。深度学习强大的建模和知识抽取能力，主要原因之一就是它对观测样本采用的有效的表示方式。在深度学习领域内，表示是指对输入观测样本采取有效且公正的方法进行符号化的表达。表示学习(Representation Learning)指学习对观测样本有效的表示，它是深度学习在NLP领域一种常用的研究方法，通过特征工程方法获得数学化的文本内容向量表达，常用于文本分类、实体识别、信息抽取等任务。这种方法不仅克服了传统的one-hot表示方法带来的数据稀疏和维度灾难问题，而且可以通过多层的数据处理挖掘文本深层次的信息。

深度学习的目标是探索计算机如何利用数据来开发适合复杂解释任务的特征和表示。利用深度学习模型，基于双语平行语料库，将源语言与目标语言数据映射到同一向量空间，训练获得双语词汇表示。这种方法已被广泛用于语言建模、POS标记、命名实体识别、情感分析和释义检测等NLP任务。

发明内容

本发明的目的在于提供一种基于双语词嵌入的跨语言文本相似度评估技术。

基于双语词嵌入的跨语言文本相似度评估技术的技术路线及工作流程分为以下三个阶段：

(1)双语词嵌入模型的构建：利用双语平行语料进行双语词嵌入模型的构建，通过该模型生成的词向量反应词语携带的语义信息，根据双语词之间的空间位置直接计算他们之间的语义相似度；

(2)多神经网络结合的文本相似度计算框架构建：通过融合多神经网络，以词向量表示为输入，将词语的语义信息和上下文信息融合到句子本身对句子语义进行特征表示；

(3)跨语言相似度计算：在进行跨语言文本相似度计算时，以段落为单位进行分割，将段落看作长句子，得到更大文本单元粒度下的相似度迭代计算。

阶段(1)所述的双语词嵌入模型允许将来自两种语言的词汇投影到共享的嵌入空间去，利用自然语言处理技术对中英双语文本进行预处理，建立空间向量模型，将不同语言看作不同的任务，利用共享表示学习机制，使它们互相帮助以提高各自的分析精度；通过将文本相似度评估分为词语层级和句子层级，在这两个层级分别以词语作为文本单元和以句子作文文本单元，通过结合深度学习技术进行更加精确的特征表达和相似度计算。

将双语平行语料记为：

其中表示第一语言L₁和第二语言L₂之间一对平行的文本，N表示平行语料库的规模，用V¹表示与第一语言L₁关联的第一词汇集合，用V²表示与第二语言L₂关联的第二词汇集合；

双语平行语料库C的规模有限，覆盖的第一词汇集合V¹和第二词汇集合V²规模也较小，因此本文将训练模型的数据进行拓展，分为伪双语语料和单语语料两大部分，具体表示为：

其中C₁表示来自第一语言L₁单语的语料，和C₂表示来自第二语言L₂单语的语料，来自第一语言L₁的第一单语语料C₁和来自第二语言L₂的第二单语语料C₂并不是来自双语平行语料表示将双语平行语料对齐的文本进行随机合并得到的伪双语语料，组成的文本全部来自于双语平行语料

将来自第一语言L₁的第一文本和第二语言L₂的第二文本合并得到的伪双语文本d′_i，此时伪双语文本d′_i已经携带了来自第一文本和第二文本的全部词语信息，伪双语文本d′_i初始时是空的，根据分词后词汇序列长度的比例将第一文本和第二文本中的词依次插入伪双语文本d′_i中，并保存词语之间相对顺序不变；

对于每个待嵌入词的表示最终还要依赖基于负采样的Skip-Gram模型在这些伪双语文本d′_i上进行训练，该模型在第一语言L₁和第二语言L₂之间依赖双语平行语料以及人工构建的伪双语文本d′_i最终学习到了对于单词w在d维共享空间上的词向量表示，也即不管单词w究竟源自何种语言，单词w都表示为一个d维向量：

w＝{a₁,...,a_k,...,a_d}

a_k表示在d维共享空间中第k个共享的内在双语特征。

阶段(2)所述的多神经网络结合的文本相似度计算框架分为4层，分别是预处理层、Bi-LSTM表示层、高阶语义抽取层和输出层，以孪生神经网络作为权值共享的网络框架，融合双语词嵌入，并通过双向长短期记忆神经网络Bi-LSTM对输入序列进行编码表示，在此基础上，利用全连接网络全局建模的能力进行高阶语义抽取，共同构建句子的分布式语义向量表示，最终的输出部分为双语句子的相似度，并通过损失函数对框架中的各层参数进行优化选择。

跨语言相似度计算框架SCLSE框架，其理论支撑部分为孪生神经网络和双向长短期记忆神经网络Bi-LSTM用于语义表达，同时使用注意力机制和余弦相似度进行结构改进，提升语义表达的精度，使用全连接网络用于高阶语义抽取，通过幂指函数进行输出计算作为相似度结果；数据支撑部分为双语平行语料，并以此语料为训练集进行参数训练和模型调优，该跨语言相似度计算框架SCLSE框架直接用于句子相似度计算，在进行短文本相似度计算时，以段落为计算单元，将段落作为长句子作为序列输入从而计算跨语言短文本的相似度。

对于双语平行语料库，记为：

其中表示第一语言L₁和第二语言L₂之间一对平行的文本，N表示平行语料库的规模，第一语言L₁的第一文本和第二语言L₂的第二文本句子数目不相同，但是不论第一文本和第二文本属于何种语言，只要它们各自都是信息完备的，即清楚的表述一个事物、现象，且双语对齐，那么第一文本和第二文本段落的个数就是相同的，段落看作是句子语义表达作用的叠加，对于文本相似度的计算看作是对文本段落之间相似度的计算，而段落则当作长句子进行处理，在实践中，一个较大型的双向长短期记忆神经网络Bi-LSTM模型经常使用250-500个步长作为限制

第一文本由3个段落：第一段落A、第二段落B和第三段落C，即{A,B,C}，组成，第二文本由3个段落：第四段落D、第五段落E和第六段落F，即{D,E,F}，组成，对第一文本和第二文本进行相似度对比时，就变为依次对第一段落A和第四段落D：A-D，第二段落B和第五段落E：B-E，第三段落C和第六段落F：C-F，进行比较；

第一文本与第二文本的跨语言相似度用下式表示：

其中||paragraph||表示段落的个数，sclse(·)表示使用跨语言相似度计算框SCLSE框架进行计算。

本发明的有益效果在于：

使用自然语言处理技术将文本进行分词和去停留词等预处理操作，将词语作为文本单元，进行词向量表示学习和双语词嵌入模型的构建。通过该模型可以生成双语共享的词嵌入表示，利用词与词之间的空间距离来度量它们之间的语义相似度。基于词向量相关理论和Skip-Gram模型，在人工构造的伪双语语料上进行词向量训练。其次，为了尽可能使生成的词嵌入空间完备，还使用单语语料作为补充以学习额外的词嵌入知识。通过将词语的语义信息和每个词的上下文信息融合起来，将整个句子表征为一个向量进行跨语言文本相似度的计算。对此，以词嵌入作为底层向量表示，通过融合多种神经网络结构用于句子的语义表示学习，最后输出句子的相似度得分。通过将短文本分割成段落，将段落看作长句子作为序列输入，可以实现更大规模上的相似度迭代计算。

附图说明

图1(a)是单语词嵌入空间示意图。

图1(b)是双语词嵌入空间示意图。

图2是双语词嵌入模型构建过程。

图3是在伪双语文本上进行词嵌入训练。

图4是文本相似度计算框架图。

图5是文本相似度计算示意图。

图6是跨语言相似度计算流程图。

具体实施方式

下面结合附图对本发明的主要处理过程做更详细得描述。

本发明描述的是一种基于双语词嵌入的跨语言文本相似度评估技术。使用自然语言处理技术将文本进行分词和去停留词等预处理操作，将词语作为文本单元，进行词向量表示学习和双语词嵌入模型的构建。通过该模型可以生成双语共享的词嵌入表示，利用词与词之间的空间距离来度量它们之间的语义相似度。基于词向量相关理论和Skip-Gram模型，在人工构造的伪双语语料上进行词向量训练。其次，为了尽可能使生成的词嵌入空间完备，还使用单语语料作为补充以学习额外的词嵌入知识。通过将词语的语义信息和每个词的上下文信息融合起来，将整个句子表征为一个向量进行跨语言文本相似度的计算。对此，以词嵌入作为底层向量表示，通过融合多种神经网络结构用于句子的语义表示学习，最后输出句子的相似度得分。通过将短文本分割成段落，将段落看作长句子作为序列输入，可以实现更大规模上的相似度迭代计算。

本发明的技术路线及工作流程可以分为三个阶段。第一阶段，利用双语平行语料进行双语词嵌入模型的构建，通过该模型生成的词向量可以反应词语携带的语义信息，从而根据双语词之间的空间位置可以直接计算他们之间的语义相似度；第二阶段，通过融合多神经网络，以词向量表示为输入，将词语的语义信息和上下文信息融合到句子本身对句子语义进行特征表示；第三阶段，在进行跨语言文本相似度计算时，以段落为单位进行分割，将段落看作长句子作为从而实现更大文本单元粒度下的相似度迭代计算。

(1)双语词嵌入模型的构建

双语词嵌入允许将来自两种语言的词汇投影到共享的嵌入空间去。与单语词嵌入相比，双语词嵌入不仅可以抓住单语言词语之间的空间嵌入关系，也可以抓住不同语言词语之间的空间嵌入关系。它的这种属性使得双语词嵌入空间模型可以很好地定义短语对之间的语义相似性关系。在此空间内，不论词w_x和w_y究竟来自何种语言，只要它们具有相似的语义，他们在该共享的词嵌入空间内就会有彼此靠近的位置，也就可以通过词与词之间的距离(比如余弦距离、欧氏距离等)来度量它们之间的语义相似度。

(2)多神经网络结合的文本相似度计算框架构建

传统的基于机器学习的方法以及一些浅层的神经网络表示方法，大多都是利用简单的特征信息进行文本相似度对比。判断文本相似度应该是从多个层面进行综合考虑的，如词语语义信息、上下文语义信息等。深度学习通常基于一种深层非线性网络结构，通过分层对输入的数据进行处理，抽取其在不同层次的信息，最终获得数据的本质表示。利用深度学习技术与不同的特征工程方法结合可获得词向量表示、句子向量表示和文档向量表示。

(3)跨语言相似度计算

以双语词嵌入模型为基础，结合深度学习中的多神经网络，以双语平行语料作为数据集与训练集进而构成本发明所提出的跨语言相似度计算框架SCLSE。该框架将全连接层的输出结果通过激活函数进而得到两种语言句子语义相似度计算的输出。其输出结果是两个句子向量的一阶范数的指数函数值，可直接用于句子相似度计算。在进行短文本相似度计算时，以段落为计算单元，将段落作为长句子作为序列输入从而计算跨语言短文本的相似度，进而实现更大规模上的相似度迭代计算。

一种基于双语词嵌入的跨语言文本相似度评估技术，包括：利用自然语言处理技术对中英双语文本进行预处理，建立空间向量模型，通过深度学习强大的建模和知识抽取能力，可以实现对文本进行更好的特征抽取和语义表示。世界上存在多种语言，虽然各种语言的词汇甚至语法结构等都不尽相同，但是既然语言都是表达人类思想的工具，它们之间也存在一定的共性。因此可以将不同语言看作不同的任务，利用共享表示学习机制，使它们互相帮助以提高各自的分析精度。通过将文本相似度评估分为词语层级和句子层级，在这两个层级分别以词语作为文本单元和以句子作文文本单元，通过结合深度学习技术进行更加精确的特征表达和相似度计算。

以词语为文本单元，基于词嵌入模型和预处理语料，将源语言和目标语言的表示学习过程合并为一个双语词表示的学习过程，构建双语共享的词嵌入语义空间。在此空间内，词语之间的语义相似性体现为空间位置的彼此靠近。

句子层级的研究即句子语义表示学习。本部分的研究内容以句子作为相似度计算单元，以双语词嵌入向量作为底层语义支撑，通过结合多神经网络特性构造了用于文本相似度计算的框架。通过把上下文的语义信息融合到句子本身对句子语义进行更好的表征。此外，段落可以看作是较长的句子，在进行文本相似度计算时，可以看作是对文本段落之间相似度的计算，而段落则可以当作长句子进行处理。这样，通过该计算框架就可以实现对自由长度的文本进行跨语言相似度评估的目的。

1.双语词嵌入模型的构建

将双语平行语料记为其中表示语言L₁和语言L₂之间一对平行的文本，N表示平行语料库的规模。用V¹和V²分别表示与语言L₁和语言L₂关联的词汇集合。

在双语平行数据中，相互对齐的两个词语通常互为翻译词(语义一致)，那么它们的分布表示在相同的空间内应该彼此靠近。然而实际情况是，一个词语往往对应着多个翻译词。如中文词“进步”在不同的平行语料中会以一定的概率翻译为“progress”，“improve”和“advance”。此外，双语平行语料库C的规模通常较为有限，可覆盖的词汇表V¹和V²规模也相对较小。为了增强跨语言分布表示词映射的健壮性，本文将训练模型的数据进行拓展，分为伪双语语料和单语语料两大部分，具体表示为：

其中C₁和C₂分别表示来自语言L₁和语言L₂各自单语的语料，它们并不是来自双语平行语料表示将双语平行语料对齐的文本进行随机合并得到的伪双语语料。使用语料的意义在于Skip-Gram模型本来就是用在单语言词嵌入向量的生成，通过该混合语料将双语词嵌入转换为单一语言词嵌入。

组成的文本全部来自于本文将分别来自语言L₁和语言L₂的文本和合并得到的伪双语文本，用符号表示为d′_i，此时d′_i已经携带了来自和的全部词语信息。d′_i初始时是空的，根据分词后词汇序列长度的比例将和中的词依次插入d′_i中，并保存词语之间相对顺序不变。

对于每个待嵌入词的表示最终还要依赖基于负采样的Skip-Gram模型在这些伪双语文本上进行训练。该模型在语言L₁和语言L₂之间依赖平行语料以及人工构建的伪双语文本最终学习到了对于w在d维共享空间上的词向量表示，也即不管w究竟源自何种语言，它都可以表示为一个d维向量w＝{a₁,...,a_k,...,a_d}。a_k表示在d维共享空间中第k个共享的内在双语特征。由于所有的单词都享有一个共同的嵌入空间，所以无论单语言还是跨语言，词语之间的语义相似度都可以进行计算。

2.多神经网络结合的文本相似度计算框架构建

本发明将整个框架分为4层，分别是预处理层、Bi-LSTM表示层、高阶语义抽取层和输出层。以孪生神经网络(Siamese Network)作为权值共享的网络框架，融合双语词嵌入，并通过双向长短期记忆神经网络(Bi-LSTM)对输入序列进行编码表示，在此基础上，利用全连接网络全局建模的能力进行高阶语义抽取，共同构建句子的分布式语义向量表示。最终的输出部分为双语句子的相似度，并通过损失函数对框架中的各层参数进行优化选择。本文提出的SCLSE框架，其理论支撑部分为孪生神经网络和Bi-LSTM用于语义表达，同时使用注意力机制和余弦相似度进行结构改进，提升语义表达的精度。使用全连接网络用于高阶语义抽取，通过幂指函数进行输出计算作为相似度结果。数据支撑部分为双语平行语料，并以此语料为训练集进行参数训练和模型调优。该框架可用直接于句子相似度计算，在进行短文本相似度计算时，以段落为计算单元，将段落作为长句子作为序列输入从而计算跨语言短文本的相似度。

3.文本相似度计算

对于双语平行语料库，记为其中表示语言L₁和语言L₂之间一对平行的文本，N表示平行语料库的规模。通常意义来讲，由于表述方式的差异，和句子数目一般不相同。比如英文中存在大量的前置和后置修饰成分，而中文句子通常短小精悍，因此在表述同一个事物时，英文可能只使用一个句子，而中文会使用三个句子。如果此时直接使用句子对来对和进行相似度评估，因为句子数目的不平衡，理所当然会造成最终的计算结果不准确。因此可以认为，不论和属于何种语言，只要它们各自都是信息完备的(可以清楚的表述一个事物、现象等)且双语对齐，那么和段落的个数就应该是相同的。此外，段落也可以被看作是句子语义表达作用的叠加。鉴于此，对于文本相似度的计算可以看作是对文本段落之间相似度的计算，而段落则可以当作长句子进行处理。在实践中，一个较大型的Bi-LSTM模型经常使用250-500个步长作为限制，这完全满足一个段落的大小要求。

假设由3个段落{A,B,C}组成，由3个段落{D,E,F}组成。对和进行相似度对比时，就变为依次对A-D，B-E，C-F进行比较。

可用公式表示为：

其中||paragraph||表示段落的个数，sclse(·)表示使用SCLSE框架进行计算。

Claims

1.一种基于双语词嵌入的跨语言文本相似度评估技术，其特征在于，本技术的技术路线及工作流程分为以下三个阶段：

2.根据权利要求1所述的一种基于双语词嵌入的跨语言文本相似度评估技术，其特征在于：阶段(1)所述的双语词嵌入模型允许将来自两种语言的词汇投影到共享的嵌入空间去，利用自然语言处理技术对中英双语文本进行预处理，建立空间向量模型，将不同语言看作不同的任务，利用共享表示学习机制，使它们互相帮助以提高各自的分析精度；通过将文本相似度评估分为词语层级和句子层级，在这两个层级分别以词语作为文本单元和以句子作文文本单元，通过结合深度学习技术进行更加精确的特征表达和相似度计算。

3.根据权利要求2所述的一种基于双语词嵌入的跨语言文本相似度评估技术，其特征在于，将双语平行语料记为：

w＝{a₁,...,a_k,...,a_d}

a_k表示在d维共享空间中第k个共享的内在双语特征。

4.根据权利要求1所述的一种基于双语词嵌入的跨语言文本相似度评估技术，其特征在于：阶段(2)所述的多神经网络结合的文本相似度计算框架分为4层，分别是预处理层、Bi-LSTM表示层、高阶语义抽取层和输出层，以孪生神经网络作为权值共享的网络框架，融合双语词嵌入，并通过双向长短期记忆神经网络Bi-LSTM对输入序列进行编码表示，在此基础上，利用全连接网络全局建模的能力进行高阶语义抽取，共同构建句子的分布式语义向量表示，最终的输出部分为双语句子的相似度，并通过损失函数对框架中的各层参数进行优化选择。

5.根据权利要求4所述的一种基于双语词嵌入的跨语言文本相似度评估技术，其特征在于：跨语言相似度计算框架SCLSE框架，其理论支撑部分为孪生神经网络和双向长短期记忆神经网络Bi-LSTM用于语义表达，同时使用注意力机制和余弦相似度进行结构改进，提升语义表达的精度，使用全连接网络用于高阶语义抽取，通过幂指函数进行输出计算作为相似度结果；数据支撑部分为双语平行语料，并以此语料为训练集进行参数训练和模型调优，该跨语言相似度计算框架SCLSE框架直接用于句子相似度计算，在进行短文本相似度计算时，以段落为计算单元，将段落作为长句子作为序列输入从而计算跨语言短文本的相似度。

6.根据权利要求5所述的一种基于双语词嵌入的跨语言文本相似度评估技术，其特征在于：对于双语平行语料库，记为：

其中表示第一语言L₁和第二语言L₂之间一对平行的文本，N表示平行语料库的规模，第一语言L₁的第一文本和第二语言L₂的第二文本句子数目不相同，但是不论第一文本和第二文本属于何种语言，只要它们各自都是信息完备的，即清楚的表述一个事物、现象，且双语对齐，那么第一文本和第二文本段落的个数就是相同的，段落看作是句子语义表达作用的叠加，对于文本相似度的计算看作是对文本段落之间相似度的计算，而段落则当作长句子进行处理，在实践中，一个较大型的双向长短期记忆神经网络Bi-LSTM模型经常使用250-500个步长作为限制。

7.根据权利要求6所述的一种基于双语词嵌入的跨语言文本相似度评估技术，其特征在于：第一文本由3个段落：第一段落A、第二段落B和第三段落C，即{A,B,C}，组成，第二文本由3个段落：第四段落D、第五段落E和第六段落F，即{D,E,F}，组成，对第一文本和第二文本进行相似度对比时，就变为依次对第一段落A和第四段落D：A-D，第二段落B和第五段落E：B-E，第三段落C和第六段落F：C-F，进行比较；

第一文本与第二文本的跨语言相似度用下式表示：