CN113591496A

CN113591496A - 一种双语词语对齐方法及系统

Info

Publication number: CN113591496A
Application number: CN202110801838.0A
Authority: CN
Inventors: 张勇; 赵旭; 王子豪; 李欣; 李超
Original assignee: Tsinghua University; Beijing Tsinghua Changgeng Hospital
Current assignee: Tsinghua University; Beijing Tsinghua Changgeng Hospital
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-11-02

Abstract

本发明提供一种双语词语对齐方法及系统，该方法包括：获取源语种词向量和目标语种词向量；将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中，获取正交变换矩阵；其中，所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的，所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的，所述有监督模块是由样本种子词典对第二神经网络进行训练得到的，所述样本种子词典是基于源语种和目标语种确定的；根据所述正交变换矩阵，对所述源语种词向量和目标语种词向量进行对齐处理，获取双语词语对齐结果。本发明可以实现高质量的双语词语对齐，提高了词语翻译的精度。

Description

一种双语词语对齐方法及系统

技术领域

本发明涉及机器翻译技术领域，尤其涉及一种双语词语对齐方法及系统。

背景技术

利用单语种语料以及人工标注词典进行跨语种词语对齐，对构建机器翻译模型、融合跨语种语义信息、缩减“信息语言鸿沟”均具有重要意义，是近年来自然语言处理的热点研究方向。

然而，目前的跨语种词语对齐模型，主要依赖于人工标注词典进行训练，这不仅效率低下，而且带来了巨大的培训和标注成本；同时，每个语种的单语种语料库都蕴含着丰富的语义信息，且不同语种的语义信息具有一定的相似性，导致词语对齐准确性较低。因此，亟需一种双语词语对齐方法及系统来解决上述问题。

发明内容

针对现有技术存在的问题，本发明提供一种双语词语对齐方法及系统。

本发明提供一种双语词语对齐方法，包括：

获取源语种词向量和目标语种词向量；

将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中，获取正交变换矩阵；其中，所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的，所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的，所述样本先验分布矩阵是通过所述有监督模块输出的样本优化正交变换矩阵，对样本源语种词向量进行转换，并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放距离获取得到的；所述有监督模块是由样本种子词典对第二神经网络进行训练得到的，所述样本种子词典是基于源语种和目标语种确定的；

根据所述正交变换矩阵，对所述源语种词向量和目标语种词向量进行对齐处理，获取双语词语对齐结果。

根据本发明提供的一种双语词语对齐方法，所述词语对齐优化模型通过以下步骤训练得到：

S201，根据样本先验分布矩阵，对第一神经网络进行训练，输出得到第一样本优化正交矩阵，并得到预训练的无监督模块；

S202，根据所述第一样本优化正交矩阵、样本源语种词向量和样本目标语种词向量，对样本种子词典进行双向词典扩充，得到双向词典扩充后的样本种子词典；

S203，将所述双向词典扩充后的样本种子词典和所述第一样本优化正交矩阵输入到第二神经网络进行训练，得到预训练的有监督模块和第二样本优化正交矩阵；

S204，根据所述第二样本优化正交矩阵，生成新的样本先验分布矩阵；

S205，将所述新的样本先验分布矩阵和所述第二样本优化矩阵输入到所述预训练的无监督模块中进行训练，得到当前训练轮次的无监督模块和当前训练轮次的第一样本优化正交矩阵，重复步骤S202至S205，得到训练好的词语对齐优化模型。

根据本发明提供的一种双语词语对齐方法，所述训练好的词语对齐优化模型还通过以下步骤训练得到：

S301，根据样本先验分布矩阵，对第一神经网络进行训练，输出得到第一样本优化正交矩阵，并得到预训练的无监督模块；

S302，根据所述第一样本优化正交矩阵、样本源语种词向量和样本目标语种词向量，对样本种子词典进行双向词典扩充，得到双向词典扩充后的样本种子词典；

S303，将所述双向词典扩充后的样本种子词典输入到第二神经网络进行训练，得到预训练的有监督模块和第二样本优化正交矩阵；

S3041，根据所述第二样本优化正交矩阵，生成新的样本先验分布矩阵；将所述第一样本优化正交矩阵和所述新的样本先验分布矩阵输入到所述预训练的无监督模块中进行训练，得到当前训练轮次的无监督模块和当前训练轮次的第一样本优化正交矩阵，重复步骤302至步骤3041，得到训练好的无监督模块，至步骤S305；

S3042，将所述第二样本优化正交矩阵和所述双向词典扩充后的样本种子词典输入到预训练的有监督模块中进行训练，得到当前训练轮次的有监督模块和当前训练轮次的第二样本优化正交矩阵；根据所述当前训练轮次的第二样本优化正交矩阵，生成下一轮次的样本先验分布矩阵，重复步骤S301、步骤S302、步骤S303和步骤S3042，得到训练好的有监督模块；

S305，根据训练好的无监督模块和训练好的有监督模块，获取训练好的词语对齐优化模型。

根据本发明提供的一种双语词语对齐方法，所述根据样本先验分布矩阵，对第一神经网络进行训练，输出得到第一样本优化正交矩阵，并得到预训练的无监督模块，包括：

将所述样本先验分布矩阵输入到所述第一神经网络中，根据松弛匹配算法，基于所述第一神经网络，对所述样本源语种到所述样本目标语种，以及从所述样本目标语种到所述样本源语种两个方向的词向量进行求解，得到样本匹配矩阵；

根据梯度下降法，对所述样本匹配矩阵进行求解，获取样本转换矩阵；

对所述样本转换矩阵进行正交化处理，输出得到第一样本优化正交矩阵，并得到预训练的无监督模块。

根据本发明提供的一种双语词语对齐方法，所述根据所述第一样本优化正交矩阵、样本源语种词向量和样本目标语种词向量，对样本种子词典进行双向词典扩充，得到双向词典扩充后的样本种子词典，包括：

根据所述第一样本优化正交矩阵，对所述样本源语种到所述样本目标语种方向的词向量进行转换，获取前向距离矩阵；

对所述第一样本优化正交矩阵进行转置，获取转置后的第一样本优化正交矩阵，并根据所述转置后的第一样本优化正交矩阵，对所述样本目标语种到所述样本源语种方向的词向量进行转换，获取后向距离矩阵；

根据所述前向距离矩阵和所述后向距离矩阵，生成候选翻译对集合；

根据所述候选翻译对集合，获取所述候选翻译对集合中每个翻译对的置信度；

根据所述置信度，对所述候选翻译对集合中每个翻译对进行排序，并根据排序结果，获取双向词典扩充种子词典。

根据本发明提供的一种双语词语对齐方法，在所述根据训练好的无监督模块和训练好的有监督模块，获取训练好的词语对齐优化模型之前，所述方法还包括：

根据所述无监督模块输出的第一样本优化正交矩阵，对样本源语种词向量和样本目标语种词向量进行对齐，获取所述样本源语种词向量和所述样本目标语种词向量之间的第一距离；

根据所述有监督模块输出的第二样本优化正交矩阵，对所述样本源语种词向量和所述样本目标语种词向量进行对齐，获取所述样本源语种词向量和所述样本目标语种词向量之间的第二距离；所述第一距离和所述第二距离为所述样本源语种词向量和所述样本目标语种词向量之间的Wasserstein距离；

对所述第一距离和所述第二距离进行判断，若判断获知所述第一距离小于第二距离，则将所述第一样本优化正交矩阵作为输出变换矩阵；若判断获知所述第一距离大于等于第二距离，将所述第二样本优化正交矩阵作为输出变换矩阵。

本发明还提供一种双语词语对齐系统，包括：

词向量获取模块，用于获取源语种词向量和目标语种词向量；

正交变换矩阵获取模块，用于将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中，获取正交变换矩阵；其中，所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的，所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的，所述样本先验分布矩阵是通过所述有监督模块输出的样本优化正交变换矩阵，对样本源语种词向量进行转换，并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放距离获取得到的；所述有监督模块是由样本种子词典对第二神经网络进行训练得到的，所述样本种子词典是基于源语种和目标语种确定的；

词语对齐模块，用于根据所述正交变换矩阵，对所述源语种词向量和目标语种词向量进行对齐处理，获取双语词语对齐结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述双语词语对齐方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述双语词语对齐方法的步骤。

本发明提供的双语词语对齐方法及系统，通过样本先验分布矩阵指导无监督模块进行训练，同时通过扩充后的样本种子词典训练有监督模块，对无监督模块和有监督模块进行交替训练得到训练好的词语对齐优化模型，实现有监督模块和无监督模块的相互受益、相互增强；将源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中，得到正交变换矩阵，以根据正交变换矩阵实现词语对齐，与现有的技术相比，本发明可以实现高质量的双语词语对齐，提高了词语翻译的精度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的双语词语对齐方法的流程示意图；

图2为本发明提供的基于循环优化策略的词语对齐优化模型框架的示意图；

图3为本发明提供的基于平行优化策略的词语对齐优化模型框架的示意图；

图4为本发明提供的双语词语对齐系统的结构示意图；

图5为本发明提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的双语词语对齐方法的流程示意图，如图1所示，本发明提供了一种双语词语对齐方法，包括：

步骤101，获取源语种词向量和目标语种词向量。

在本发明中，对待处理的源语种文本和待处理的目标语种文本进行编码处理，分别获取源语种词向量和目标语种词向量。源语种和目标语种为两种不同的跨语种语言。可选地，源语种词向量可以是英文词向量，相对应的目标语种词向量可以为中文词向量；源语种词向量可以是中文词向量，相对应的目标语种词向量可以为英文词向量。需要说明的是，本发明对语种不作具体限定。

考虑到每个语种中都存在着大量超低频词汇可以忽略，可以认为两种语种词向量具有相同的词表长度n和相同的词向量维度d。

步骤102，将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中，获取正交变换矩阵；其中，所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的，所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的，所述样本先验分布矩阵是通过所述有监督模块输出的样本优化正交变换矩阵，对样本源语种词向量进行转换，并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放距离获取得到的；所述有监督模块是由样本种子词典对第二神经网络进行训练得到的，所述样本种子词典是基于源语种和目标语种确定的。

在本发明中，无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的，第一神经网络为无监督模块中的神经网络。具体地，通过对有监督模型进行训练得到有监督模型的优化正交变换矩阵，根据有监督模型的优化正交变换矩阵，对样本源语种词向量进行转换，并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放(Cross-domain Similarity Local Scaling,，简称CSLS)距离，获取得到样本源语种词向量和样本目标语种词向量的距离矩阵，根据该距离矩阵生成样本先验分布矩阵，通过样本先验分布矩阵指导无监督模块进行训练。

进一步地，有监督模块是样本种子词典对第二神经网络进行训练得到的。优选地，有监督模块优化时使用的样本种子词典是经过双向词典扩充(Bidirectional LexiconUpdating，简称BLU)后的样本种子词典。具体地，根据源语种和目标语种，确定已标注的样本种子词典在源语种和目标语种上分别对应的词向量矩阵，对源语种和目标语种上分别对应的词向量矩阵进行BLU处理，生成扩充后的样本种子词典用于有监督模块的训练。

进一步地，训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的。可选地，交替训练可以是通过循环优化策略，在词语对齐时无监督模块和有监督模块交替对同一词向量空间中的两片词云进行对齐训练，无监督模块和有监督模块同时进行双向信息传递；也可以是通过平行优化策略，在词语对齐时无监督模块和有监督模块分别在两个词向量空间中进行对齐训练，无监督模块和有监督模块之间仅通过双向信息传递进行信息交互。

可以理解的是，词典表示两种语言之间的词语翻译关系的对照表，词向量空间是指蕴含语种语义信息的高维欧几里得空间，空间中的距离度量可用于衡量语义的相似度。无监督模块是只利用两个语种的单语种语料进行对齐的词语对齐方法，有监督模块是同时利用人工标注种子词典，基于最小化种子词典中翻译对之间的距离构建损失函数的词语对齐方法。

步骤103，根据所述正交变换矩阵，对所述源语种词向量和目标语种词向量进行对齐处理，获取双语词语对齐结果。

在本发明中，通过正交变换矩阵，将源语种词向量映射到目标语种词向量的语义空间中，实现源语种词向量和目标语种词向量的对齐处理，得到双语词语对齐结果。

需要说明的是，在双语种词语对齐任务中，涉及从源语种到目标语种以及从目标语种到源语种两个方向。定义源语种词向量为X^s，目标语种词向量为X^t，从源语种到目标语种方向的正交变换矩阵为Q^s→t，从目标语种到源语种方向的正交变换矩阵为Q^t→s。在常规的词语对齐方法中，一般将这两个方向的对齐过程分别看作两个独立的任务，例如，单独学习一个变换Q^s→t来对齐X^sQ^s→t与X^t，单独学习一个Q^t→s对齐X^s与X^tQ^t→s。

优选地，在本发明中，采用双向匹配算法，仅学习一个正交变换矩阵Q同时对两个方向进行匹配Q^s→t＝Q，即有且Q^t→s＝Q^T，则可实现双语词语对齐。

本发明提供的双语词语对齐方法，通过样本先验分布矩阵指导无监督模块进行训练，同时通过扩充后的样本种子词典训练有监督模块，对无监督模块和有监督模块进行交替训练得到训练好的词语对齐优化模型，实现有监督模块和无监督模块的相互受益、相互增强；将源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中，得到正交变换矩阵，以根据正交变换矩阵实现词语对齐，与现有的技术相比，本发明可以实现高质量的双语词语对齐，提高了词语翻译的精度。

在上述实施例的基础上，所述词语对齐优化模型通过以下步骤训练得到：

在本发明中，根据样本先验分布矩阵，指导无监督模块进行训练，得到第一样本优化正交矩阵Q_unsup，作为无监督模块输出的优化结果，用于训练有监督模块。进一步地，通过双向词典扩充，将第一样本优化正交矩阵Q_unsup、样本源语种词向量和样本目标语种词向量输入到样本种子词典中进行扩充，生成双向词典扩充后的样本种子词典，利用无监督模型的对齐结果来进行词典扩充，从而为有监督模块提供高质量种子词典。

进一步地，将双向词典扩充后的样本种子词典和第一样本优化正交矩阵Q_unsup输入到第二神经网络中进行训练，得到第二样本优化正交矩阵Q_sup。根据第二样本优化正交矩阵Q_sup，计算经过Q_sup转换的源语种词向量和目标语种词向量之间的CSLS距离，根据CSLS距离来构建新的样本先验分布矩阵，该新的样本先验分布矩阵在下一轮迭代计算时用于继续指导无监督模块的训练。

进一步地，将新的样本先验分布矩阵和第二样本优化矩阵Q_sup输入无监督模块中继续进行训练，得到当前训练轮次的第一样本优化正交矩阵Q_unsup，继续重复上述步骤，轮流对无监督模块和有监督模块进行训练，获取无监督模块损失函数和有监督模块损失函数之和，直至两者损失函数之和达到预设的收敛条件，则得到训练好的词语对齐优化模型。

可选地，在一实施例中，以种子词典对有监督模块进行训练为起始点，有监督模块和无监督模块交替进行训练。

图2为本发明提供的基于循环优化策略的词语对齐优化模型框架的示意图，如图2所示，本发明提供了一种循环优化策略(Cyclic Semi-Supervision，简称CSS)，无监督模块和有监督模块交替对正交变换进行优化。在交替优化的过程中，采用CSS会在每次无监督模块迭代优化时通过先验信息传递(Prior Message Passing，简称PMP)引入先验，而PMP的输入来自于有监督模块的优化结果Q_sup，有监督模块优化时使用的种子词典是经过BLU扩充后的种子词典，而BLU的输入来自于无监督模块的优化结果Q_unsup。

需要说明的是，本发明提出的循环优化策略类似于多任务学习中的“硬参数共享”机制，即直接使用一个模型的参数替代另一个模型的参数以实现不同模型间的参数共享。这种参数共享的方式让不同的模型在同一条路径上进行优化。如果不同模型的优化方向分歧较大，那么优化路径会在两个优化方向间“震荡”从而难以收敛。CSS中引入的PMP和BLU可以减弱这种现象。

在一实施例中，无监督模块和有监督模块均优化同一个正交变换矩阵。基于循环优化策略训练词语对齐优化模型的步骤具体如下：

对正交变换过程进行初始化，分别求取源语种词向量的离散概率分布和目标语种词向量的离散概率分布：

其中，μ_init表示源语种词向量的初始离散概率分布，v_init表示目标语种词向量的初始离散概率分布，L表示两个分布之间点对距离缩放或者拉伸的度量，

表示源语种的词向量矩阵，

表示目标语种的词向量矩阵。

通过Gromov-Wasserstein(GW)度量来衡量源语种词向量的离散概率分布和目标语种词向量的离散概率分布这两个分布之间的距离，得到样本先验分布矩阵：

Γ＝GW(μ_init,v_init,∈_init)；

其中，∈_init表示初始化正则项系数，Γ表示样本先验分布矩阵。

通过普鲁克分析法(Procrutes)，得到变换矩阵：

其中，

表示源语种词表的前L个词语对应的词向量矩阵，

表示目标语种词表的前L个词语对应的词向量矩阵。

对于每一次词语对齐优化模型(可视为半监督模型)的迭代更新，都需引入PMP先验信息：

Q＝PMP(,X^t,T₀,λ₁,λ₂,δ,∈,I_unsup,b,η,Q_init,Q_sup)；

其中，T₀表示先验分布生成温度，δ表示匹配阈值系数，λ₁,和λ₂表示KL散度项系数，η表示学习率，I_unsup表示无监督迭代次数，b表示单次迭代采样个数，∈表示正则项系数，Q_init表示待优化正交变换矩阵的初始化，Q_sup表示有监督模块的优化结果。

同时对种子词典进行扩充，得到扩充后的种子词典：

S*,T*＝BLU(X^s,X^t,Q,S,T,K,A)；

其中，S*表示扩充后的源语种词向量，T*表示扩充后的目标语种词向量，K表示置信值最近邻范围，A表示扩充种子词典大小，S表示已标注种子词典对应源语种的词向量矩阵，T表示表示已标注种子词典对应目标语种的词向量矩阵。

需要说明的是，在词典扩充过程中，每个迭代周期通过BLU产生的翻译对在下一次迭代中会被清除。因而，种子词典的扩充不是累加的，每个迭代周期中有监督模块输入的种子词典大小均为L+A。

对于有监督模型进行迭代更新，每一次执行以下步骤：

从S*与T*中按行抽取大小为b的样本

和

通过扩充后的种子词典S*与T*作为输入，计算有监督模块正则熵的损失函数：

其中，

表示有监督模块正则熵的损失函数，

表示扩充后的源语种的词向量样本，

表示扩充后的目标语种的词向量样本。

根据梯度下降法，对转换矩阵Q进行优化：

其中，η表示学习率。

对转换矩阵进行正交化处理：

U,D,V←SV D(Q),Q＝UV^T；

其中，UDV表示SVD的分解结果，其中U、V均为酉矩阵。

输出最终得到的正交变换矩阵Q，即获取从源语种到目标语种的正交变换矩阵。

可以理解的是，由于词语对齐优化模型有已标注种子词典作为输入，因此也可用通过有监督模块基于种子词典进行初始化，但也可能由于已标注种子词典规模太小无法给出较好的初始化，为了叙述的统一性，可用统一使用GW方法进行初始化。

在上述实施例的基础上，所述训练好的词语对齐优化模型还通过以下步骤训练得到：

在本发明中，无监督模块和有监督模块分别在两个词向量空间中进行对齐，无监督模块和有监督模块之间仅通过双向信息传递进行信息交互。具体地，根据第二样本优化正交矩阵，生成新的样本先验分布矩阵；将第一样本优化正交矩阵和所述新的样本先验分布矩阵输入到第一神经网络中进行训练，得到当前训练轮次的无监督模块和当前训练轮次的第一样本优化正交矩阵，然后再根据第一样本优化正交矩阵对样本种子词典进行双向词典扩充，将扩充后的样本种子词典输入第二神经网络中进行训练，继续上述步骤，直到满足无监督模块的训练收敛条件，则得到训练好的无监督模块。

进一步地，根据所述第一样本优化正交矩阵、样本源语种词向量和样本目标语种词向量，对样本种子词典进行双向词典扩充，得到双向词典扩充后的样本种子词典；将双向词典扩充后的样本种子词典和第二样本优化正交矩阵Q_unsup输入到第二神经网络中进行训练，得到第二样本优化正交矩阵Q_sup。根据第二样本优化正交矩阵Q_sup，计算经过Q_sup转换的源语种词向量和目标语种词向量之间的CSLS距离，根据CSLS距离来构建新的样本先验分布矩阵，该新的样本先验分布矩阵在下一轮迭代计算时用于继续指导无监督模块的训练；然后根据新的样本先验分布矩阵对第一神经网络进行训练，得到第一样本优化正交矩阵，根据第一样本优化正交矩阵，用于对样本种子词典进行双向词典扩充，继续上述步骤，直到满足有监督模块的训练收敛条件，则得到训练好的有监督模块。

进一步地，无监督模块和有监督模块分别独立完成优化训练，同时两者定期进行信息交互传递，能够减弱两者优化方向上的互相干扰。根据训练好的无监督模块和有监督模块，得到训练好的词语对齐优化模型。

图3为本发明提供的基于平行优化策略的词语对齐优化模型框架的示意图，如图3所示，有监督模块与无监督模块平行优化，没有参数传递的机制，两者只通过BLU与PMP进行信息传递，因此，本发明将该策略定义为平行优化策略(Parallel Semi-Supervision，简称PSS)。常规的模型只考虑到基于有监督模块的对齐结果进行词典更新，而没有考虑到通过无监督模块的对齐结果进行词典扩充。从多任务学习的角度来讲，相比于CSS，PSS采用了一种“软参数共享”机制，这使得PSS适用于一些有监督优化方向与无监督优化方向分歧较大的情况。PSS可以让二者分别优化，定期进行信息交互，从而减弱二者优化方向的互相干扰。

在一实施例中，有监督模块和无监督模块分布独立优化Q_unsup和Q_sup,不进行直接的参数传递，且每一轮优化后都会进行一次双向信息传递。基于平行优化策略训练词语对齐优化模型的步骤具体如下：

对正交变换过程进行初始化，分别求取源语种词向量的离散概率分布和目标语种词向量的离散概率分布，再计算样本先验分布矩阵，具体可参考循环优化策略中关于离散概率分布矩阵和样本先验分布矩阵的计算。

通过普鲁克分析法(Procrutes)，分别得到有监督模块和无监督模块的变换矩阵：

其中，

表示源语种词表的前L个词语对应的词向量矩阵，

表示目标语种词表的前L个词语对应的词向量矩阵。

Q_unsup＝PMP(Xs,Xt,T0，λ1,λ2,δ,∈,Iunsup，b，η，Q_init,Q_sup)；

其中，T₀表示先验分布生成温度，δ表示匹配阈值系数，λ₁和λ₂表示KL散度项系数，η表示学习率，I_unsup表示无监督迭代次数，b表示单次迭代采样个数。Q_init表示待优化正交变换矩阵的初始化，Q_sup表示有监督模块的优化结果。

同时对种子词典进行扩充，得到扩充后的种子词典：

S*,T*＝BLU(X^s,X^t,Q_unsup,S,T,K，A)；

对于有监督模型进行迭代更新，每一次执行以下步骤：

从S*与T*中按行抽取大小为b的样本

和

其中，

表示有监督模块正则熵的损失函数，

表示扩充后的源语种的词向量样本，

表示扩充后的目标语种的词向量样本。

根据梯度下降法，对转换矩阵Q_sup进行优化：

对转换矩阵进行正交化处理：

U,D,V←SV(Q_sup),Q_sup＝UV^T；

最后无监督模块和有监督模块分别输出Q_unsup和Q_sup。

在上述实施例的基础上，所述根据样本先验分布矩阵，对第一神经网络进行训练，输出得到第一样本优化正交矩阵，并得到预训练的无监督模块，包括：

在本发明中，提供了先验最优输运信息传递方法，在每一次迭代过程中计算输运矩阵时都需要引入先验。令某一次迭代过程中从源语种和目标语种中采样得到的词向量分别为

和

通过先验最优输运信息传递方法包括以下步骤：

将待优化正交变换矩阵值Q_input赋值给变量Q；

计算经过有监督模块优化结果Q_sup转换的源语种词向量与目标语种词向量之间的CSLS距离：

其中，

表示

在源语种词向量空间X^s中的k个最近邻的集合，

表示

在目标语种词向量空间X^t中的k个最近邻的集合，源语种的词向量矩阵X^s∈R^n×d，目标语种的词向量矩阵X^t∈R^n×d。

根据距离矩阵C_ij生成Boltzmann分布，使用带温度的softmax函数来构建先验分布矩阵Γ_ij，先验分布矩阵Γ_ij的计算公式为：

其中，Γ_ij表示源语种词语

与目标语种词语

互为翻译的概率。需要说明的是，来自两个语种的词语间的距离越小，两者互为翻译的概率则越高。

无监督模块的总迭代次数为I，对于每次迭代，执行如下步骤：

X^s与X^t中按行抽取大小为b的点云样本S^s，S^t；

根据抽样处理的点云样本，得到对应离散点云分布为：

其中，

表示源语种词向量中抽取的点云样本，

表示目标语种词向量种抽取的点云样本，μ表示源语种词向量点云样本对应离散点云分布，v表示目标语种词向量点云样本对应离散点云分布，b表示单词迭代采样个数。

对两个离散点云分布之间的距离进行计算，并赋值给C_ij：

其中，δ表示匹配阈值系数，cos₊(x)定义为：

需要说明的是，使用cos₊函数后，即两个分布中的两个点

和

之间的距离小于或等于πδ时，才会将两者匹配。δ为一个超参数，通过调节δ可以控制该阈值的大小，以控制匹配的精度要求，使用cos₊函数可以有效地消除噪声，过滤掉大量错误的匹配。

从源语种到目标语种以及从目标语种到源语种两个方向进行双向匹配，以实现双语种词语对齐。具体地，从源语种到目标语种方向的样本匹配矩阵计算公式为：

P^s→t＝GSinkhorn(μ,v,C,∈,λ₁,λ₂)；

其中，λ₁和λ₂为KL散度松弛系数，GSinkhorn为广义的Sinkhorn方法，P^s→t表示从源语种到目标语种方向的样本匹配矩阵，C表示源语种词向量样本与目标语种词向量样本之间的距离。

从目标语种到源语种方向的样本匹配矩阵计算公式为：

P^t→s＝GSinkh(v,μ,C^T,∈,λ₂,λ₁)；

其中，P^t→s表示从目标语种方向到源语种方向的样本匹配矩阵，C^T表示目标语种词向量样本与源语种词向量样本之间的距离。

将从源语种到目标语种以及从目标语种到源语种两个方向的样本匹配矩阵的均值P作为最终匹配方案，即：

P＝(P^s→t+P^t→s)/2；

采用样本匹配矩阵P固定Q，通过梯度下降法对Q进行梯度下降：

其中，η表示学习率，

表示损失函数对正交变换矩阵的梯度。

对样本转换矩阵Q进行SVD奇异值分解，进行正交化处理，得到最终输出的第一样本优化正交矩阵：

U,D,V←SVD(Q),Q＝UV^T；

其中，U，D，V表示SVD分解结果，其中U、V均为酉矩阵。

在上述实施例的基础上，所述根据所述第一样本优化正交矩阵、样本源语种词向量和样本目标语种词向量，对样本种子词典进行双向词典扩充，得到双向词典扩充后的样本种子词典，包括：

在本发明中，令无监督训练得到的正交变换为Q_unsup，源语种词向量矩阵为X^s，目标语种词向量矩阵为X^t，己标注种子词典在源语种和目标语种上对应的词向量矩阵分别为S和T，BLU的核心步骤是生成额外的种子词典S'与T'以补充己标注的种子词典，将

和

作为扩充后的种子词典用于有监督部分的训练，其中符号

表示对矩阵按行拼接的操作。

根据X^s、X^t、Q_unsup生成S'与T'。具体步骤如下：

计算前向距离矩阵

与后向距离矩阵

前向距离矩阵中保存的是经过Q_unsup转换的源语种词向量与目标语种词向量间的距离，即为：

其中，Q_unsup表示无监督模块优化结果，

表示源语种的词向量矩阵，

表示目标语种的词向量矩阵。

后向距离矩阵中保存的是经过Q^T _unsup转换的源语种词向量与目标语种词向量间的距离，即为：

其中，

表示Q_unsup的转置矩阵。

生成候选翻译对集合B。首先，生成前向翻译对集合

与后向翻译对集合

前向翻译对集合定义为：

其中，

表示前向距离矩阵。按行取

最小值作为翻译。

后向翻译对集合定义为：

其中，按行取最小值

作为翻译，(i，j)表示源语种的词语

与目标语种中词语

互为翻译。候选翻译对集合定义为

与

的交集，即

通过交集的方式来筛选两个方向中的翻译对以求提高扩充翻译对的质量。

计算B中每个翻译对(i,j)∈B的置信值CS(i,j)。首先定义下标集

由距离矩阵

第i行最小的K个值对应下标组成，同理可以定义

定义前向置信值

其中，K表示置信值最近邻范围。

定义后向置信值

将两个方向置信值之和定义为最终置信值，即

最终置信值为：

根据置信值选出最终翻译对。具体地，根据置信值CS(i,j)对B中每个翻译对进行降序排序，选择置信值较高的A个翻译对作为最终翻译对，从而得到S'与T'。

通过以上步骤可以将置信值较高的翻译对补充到原有的己标注种子词典中，需要说明的是，即使扩充种子词典中有翻译错误的情况，由于其置信值较高，这些错误的翻译对也不会为优化过程带来过大噪声而扰乱有监督的优化方向。以上四个步骤中每一步都是通过提取双向的信息来进行计算的，这样可以更大程度保证最终提取到的扩充种子词典的质量，本质上也可以看作是一种降噪的过程。

在上述实施例的基础上，在所述根据训练好的无监督模块和训练好的有监督模块，获取训练好的词语对齐优化模型之前，所述方法还包括：

根据所述无监督模块输出的第一样本优化正交矩阵，对样本源语种词向量和样本目标语种词向量进行对齐，获取所述样本源语种词向量和所述样本目标语种词向量分布之间的第一距离；

在本发明中，在有监督模块和无监督模块完成优化后，需要从两者中选出一个作为最终的输出Q^s→t，优选地，采用Wasserstein度量来进行筛选。在自然语言处理领域中，词向量之间的距离常被用来衡量两个词语的语义相似度，因此采用Wasserstein度量将词语之间的距离同整个词向量分布之间的距离联系起来无论是从词语对齐还是从语义融合的角度来讲都是合理的。

选择经过转换矩阵对齐后的源语种词向量分布与目标语种词向量分布间Wasserstein距离更小的一个作为最终的输出。具体地，如果Wasserstein(X^sQ_sup,X^t)≥Wasserstein(X^sQ_unsup,X^t)，则输出Q_unsup；如果Wasserstein(X^sQ_sup,X^t)<Wasserstein(X^sQ_unsup,X^t)，则输出Q_sup。

可选地，可以涉及类似标准从Q_sup与Q_unsup中进行选择，比如已标注种子词典上的词语翻译准确率、经过转换的源语种词向量分布与目标语种词向量分布的KL散度指标等。

图4为本发明提供的双语词语对齐系统的结构示意图，如图4所示，本发明提供了一种双语词语对齐系统，包括词向量获取模块401、正交变换矩阵获取模块402和词语对齐模块403，其中，词向量获取模块401用于获取源语种词向量和目标语种词向量；正交变换矩阵获取模块402用于将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中，获取正交变换矩阵；其中，所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的，所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的，所述样本先验分布矩阵是通过所述有监督模块输出的样本优化正交变换矩阵，对样本源语种词向量进行转换，并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放距离获取得到的；所述有监督模块是由样本种子词典对第二神经网络进行训练得到的，所述样本种子词典是基于源语种和目标语种确定的；词语对齐模块403用于根据所述正交变换矩阵，对所述源语种词向量和目标语种词向量进行对齐处理，获取双语词语对齐结果。

本发明提供的双语词语对齐系统，通过样本先验分布矩阵指导无监督模块进行训练，同时通过扩充后的样本种子词典训练有监督模块，对无监督模块和有监督模块进行交替训练得到训练好的词语对齐优化模型，实现有监督模块和无监督模块的相互受益、相互增强；将源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中，得到正交变换矩阵，以根据正交变换矩阵实现词语对齐，与现有的技术相比，本发明可以实现高质量的双语词语对齐，提高了词语翻译的精度。

本发明提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图5为本发明提供的一种电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令，以执行双语词语对齐方法，该方法包括：获取源语种词向量和目标语种词向量；将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中，获取正交变换矩阵；其中，所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的，所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的，所述样本先验分布矩阵是通过所述有监督模块输出的样本优化正交变换矩阵，对样本源语种词向量进行转换，并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放距离获取得到的；所述有监督模块是由样本种子词典对第二神经网络进行训练得到的，所述样本种子词典是基于源语种和目标语种确定的；根据所述正交变换矩阵，对所述源语种词向量和目标语种词向量进行对齐处理，获取双语词语对齐结果。

此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的双语词语对齐方法，该方法包括：获取源语种词向量和目标语种词向量；将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中，获取正交变换矩阵；其中，所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的，所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的，所述样本先验分布矩阵是通过所述有监督模块输出的样本优化正交变换矩阵，对样本源语种词向量进行转换，并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放距离获取得到的；所述有监督模块是由样本种子词典对第二神经网络进行训练得到的，所述样本种子词典是基于源语种和目标语种确定的；根据所述正交变换矩阵，对所述源语种词向量和目标语种词向量进行对齐处理，获取双语词语对齐结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的双语词语对齐方法，该方法包括：获取源语种词向量和目标语种词向量；将所述源语种词向量和目标语种词向量输入到训练好的词语对齐优化模型中，获取正交变换矩阵；其中，所述训练好的词语对齐优化模型是由无监督模块和有监督模块进行交替训练得到的，所述无监督模块是由样本先验分布矩阵对第一神经网络进行训练得到的，所述样本先验分布矩阵是通过所述有监督模块输出的样本优化正交变换矩阵，对样本源语种词向量进行转换，并根据转换后的样本源语种词向量和样本目标语种词向量之间的跨域相似度局部缩放距离获取得到的；所述有监督模块是由样本种子词典对第二神经网络进行训练得到的，所述样本种子词典是基于源语种和目标语种确定的；根据所述正交变换矩阵，对所述源语种词向量和目标语种词向量进行对齐处理，获取双语词语对齐结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种双语词语对齐方法，其特征在于，包括：

获取源语种词向量和目标语种词向量；

2.根据权利要求1所述的双语词语对齐方法，其特征在于，所述词语对齐优化模型通过以下步骤训练得到：

3.根据权利要求1所述的双语词语对齐方法，其特征在于，所述训练好的词语对齐优化模型还通过以下步骤训练得到：

4.根据权利要求2或3所述的双语词语对齐方法，其特征在于，所述根据样本先验分布矩阵，对第一神经网络进行训练，输出得到第一样本优化正交矩阵，并得到预训练的无监督模块，包括：

5.根据权利要求2或3所述的双语词语对齐方法，其特征在于，所述根据所述第一样本优化正交矩阵、样本源语种词向量和样本目标语种词向量，对样本种子词典进行双向词典扩充，得到双向词典扩充后的样本种子词典，包括：

6.根据权利要求3所述的双语词语对齐方法，其特征在于，在所述根据训练好的无监督模块和训练好的有监督模块，获取训练好的词语对齐优化模型之前，所述方法还包括：

7.一种双语词语对齐系统，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述双语词语对齐方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述双语词语对齐方法的步骤。