CN113779978A

CN113779978A - 一种无监督跨语言句对齐实现方法

Info

Publication number: CN113779978A
Application number: CN202111130753.0A
Authority: CN
Inventors: 陈件; 潘丽婷
Original assignee: Shanghai Yizhe Information Technology Co ltd
Current assignee: Shanghai Yizhe Information Technology Co ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2021-12-10
Anticipated expiration: 2041-09-26
Also published as: CN113779978B

Abstract

本发明公开了一种无监督跨语言句对齐实现方法，包括如下步骤：S100、无监督生成句向量；S110、将不同语言文本进行分词，使得原文、译文中的句子被分割为多个独立的词；S120、根据分词结果，获取句子的向量；S200、相似度计算；S300、句匹配。本发明的句对齐是基于无监督生成句向量，根据句子的语义相似度、句长相似度和位置相似度等，进行句子匹配，该方法支持104种语言之间的句子对齐。本发明不再利用规则和机器翻译，相对来说，成本更低，准确率更高。本发明支持多语言，之前针对于不同的语言都要调用机器翻译(调用机器翻译需要额外费用或者投入)，现在利用多语言蒸馏后的模型，成本大大降低，根据我们的测试数据，准确率提高25％。

Description

一种无监督跨语言句对齐实现方法

技术领域

本发明涉及翻译技术，特别是涉及一种无监督跨语言句对齐实现方法。

背景技术

一般的双语句子对齐方法依赖于机器翻译模型，通过机器翻译模型将原文和译文映射到同一种语言(源语言或者目标语言)，计算文本相似度，最后进行匹配。这种对齐方法的数据成本和训练成本较高，不同语言的双语对齐都需要对应的机器翻译模型。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种无监督跨语言句对齐实现方法，其成本低且支持多种语言。

为实现上述目的，本发明提供了一种无监督跨语言句对齐实现方法，包括如下步骤：

S100、无监督生成句向量

S110、将不同语言文本进行分词，使得原文、译文中的句子被分割为多个独立的词；

S120、根据分词结果，获取句子的向量；

S200、相似度计算

相似度是语义相似度、位置相似度和句长相似度的乘积(公式3)，语义相似度为原文句向量和译文句向量的余弦距离(公式4)，位置相似度为原文的句子位置和译文的句子位置的相对距离(公式5)，句长相似度是原文句长占比和译文句子占比的差距(公式6)：

SIM_ij＝SEM_ij*POS_ij*LEN_ij (3)

其中，SIM_ij表示原文第i个句向量和译文第j个句向量的相似度，SEM_ij表示原文第i个句向量和译文第j个句向量的语义相似度；

POS_ij表示原文第i个句向量和译文第j个句向量的位置相似度，v_i表示原文第i个句向量，v_j表示译文第j个句向量，c_s表示原文的句数，c_t表示译文的句数；α为超参数，限制位置相似度的权重，α的经验取值为0.5。

LEN_ij表示原文第i个句子的长度占比和译文第j个句子的长度占比的句长相似度，l_s是原文所有句子的长度，l_t是译文所有句子的长度，l_si是原文第i个句子的长度，l_tj是译文第j个句子的长度；

S300、句匹配

S310、原文句向量和译文句向量使用双向最优匹配，即当原文第i个句向量的相似度最高是译文第j个句向量，同时译文第j个句向量的相似度最高是原文第i个句向量时，第i个原文句向量与第j个译文句向量匹配(公式7)：

作为本发明的改进技术方案，S110中，使用wordpiece算法对不同语言文本进行分词。

作为本发明的改进技术方案，S120还包括：根据分词结果，加载distil-mBERT预训练模型，使用multi-head和self-attention输出6层隐藏向量，由于低层隐藏向量包含语法信息，高层隐藏向量包含语义信息，因此选取低层次隐藏向量和高层次隐藏向量的均值作为词向量(公式1)；所有词向量相加，再除以词数得到词向量均值，作为句子的向量(公式2)：

其中v_w是词向量，v_s是句子的向量，h_low是低层次隐藏向量，h_high是高层次隐藏向量，c是词数、w是句子第w个单词或者字。

作为本发明的改进技术方案，S300中还包括：

S320、双向最优匹配无法一次性将所有的原文句子和译文句子，为了匹配剩下的句向量，需要不断更新相似度矩阵SIM_ij(公式10)，不断进行双向匹配；

根据已匹配的句对集合M^*(公式8)，构建遮罩矩阵MASK_ij(公式9)，遮罩矩阵将未匹配句子的匹配范围从全局约束到局部，不断双向最优匹配，得到新的匹配句对，缩小原文和译文的匹配范围；

根据遮罩矩阵，更新局部位置相似度矩阵(公式10)，把语义相似度矩阵与局部位置相似度矩阵相乘，更新相似度矩阵，进行下一次双向最优匹配；不断重复公式7-11的操作，直到所有原文和译文句子匹配：

LOCAL_POS_ij＝POS_ij*MASK_ij (10)

SIM′_ij＝LOCAL_POS_ij*SEM_ij (11)

其中，M_ij为句对匹配矩阵，1为匹配，0为不匹配；M^*为已匹配句对集合；MASK_ij为遮罩矩阵，1为不遮罩，0为遮罩。

本发明的有益效果是：

1、本发明的句对齐是基于distilbert-base-multilingual-cased(distil-mBERT)的词向量，无监督生成句向量，根据句子的语义相似度、句长相似度和位置相似度等，进行句子匹配，该方法支持104种语言之间的句子对齐。

2、本发明不再利用规则和机器翻译，相对来说，成本更低，准确率更高。

3、本发明支持多语言，之前针对于不同的语言都要调用机器翻译(调用机器翻译需要额外费用或者投入)，现在利用多语言蒸馏后的模型，成本大大降低，准确率也有显著提高。

附图说明

图1是最优匹配运行流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

一种无监督跨语言句对齐实现方法，包括如下步骤：

S100、无监督生成句向量

S110、使用wordpiece算法对不同语言文本进行分词，比如原文：“我爱中国”和译文：“I love China”，分词后分别得到“我”，“爱”，“中”，“国”和“I”，“love”，“China“。

S120、根据分词结果，加载distil-mBERT预训练模型，使用multi-head和self-attention输出6层隐藏向量，由于低层隐藏向量包含语法信息，高层隐藏向量包含语义信息，因此选取低层次隐藏向量和高层次隐藏向量的均值作为词向量(公式1)；所有词向量相加，再除以词数得到词向量均值，作为句子的向量(公式2)：

S200、相似度计算

SIM_ij＝SEM_ij*POS_ij*LEN_ij (3)

其中，SIM_ij表示原文第i个句向量和译文第j个句向量的相似度，SEM_ij表示原文第i个句向量和译文第j个句向量的语义相似度。POS_ij表示原文第i个句向量和译文第j个句向量的位置相似度，v_i表示原文第i个句向量，v_j表示译文第j个句向量，c_s表示原文的句数，c_t表示译文的句数；α为超参数，限制位置相似度的权重，α的经验取值为0.5。LEN_ij表示原文第i个句子的长度占比和译文第j个句子的长度占比的句长相似度，l_s是原文所有句子的长度，l_t是译文所有句子的长度，l_si是原文第i个句子的长度，l_tj是译文第j个句子的长度。

S300、句匹配

根据已匹配的句对集合M^*(公式8)，构建遮罩矩阵MASK_ij(公式9)，遮罩矩阵的目的是为了将未匹配句子的匹配范围从全局约束到局部，比如20句原文和25句译文，第一*次匹配后得到原文第4句和译文第7句匹配，那么生成遮罩矩阵将原文和译文切分为2段，使得原文第1-4句只和译文第1-7句匹配，原文第4-20句只和译文第7-25句匹配，不断双向最优匹配，得到新的匹配句对，可以缩小原文和译文的匹配范围；

根据遮罩矩阵，更新局部位置相似度矩阵(公式10)，把语义相似度矩阵与局部位置相似度矩阵相乘，更新相似度矩阵，进行下一次双向最优匹配(如图1)。不断重复公式7-11的操作，直到所有原文和译文句子匹配：

LOCAL_POS_ij＝POS_ij*MASK_ij (10)

SIM′_ij＝LOCAL_POS_ij*SEM_ij (11)

其中，M_ij为句对匹配矩阵，1为匹配，0为不匹配。M^*为已匹配句对集合。MASK_ij为遮罩矩阵，1为不遮罩，0为遮罩。

本发明未详述之处，均为本领域技术人员的公知技术。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种无监督跨语言句对齐实现方法，其特征在于，包括如下步骤：

S100、无监督生成句向量；

S200、相似度计算

SIM_ij＝SEM_ij*POS_ij*LEN_ij (3)

POS_ij表示原文第i个句向量和译文第j个句向量的位置相似度，v_i表示原文第i个句向量，v_j表示译文第j个句向量，c_s表示原文的句数，c_t表示译文的句数；α为超参数，限制位置相似度的权重；

S300、句匹配

2.如权利要求1所述的无监督跨语言句对齐实现方法，其特征在于，S100还包括：

S120、根据分词结果，获取句子的向量。

3.如权利要求2所述的无监督跨语言句对齐实现方法，其特征在于，S110中，使用wordpiece算法对不同语言文本进行分词。

4.如权利要求2所述的无监督跨语言句对齐实现方法，其特征在于，S120还包括：

根据分词结果，加载distil-mBERT预训练模型，使用multi-head和self-attention输出6层隐藏向量，由于低层隐藏向量包含语法信息，高层隐藏向量包含语义信息，因此选取低层次隐藏向量和高层次隐藏向量的均值作为词向量(公式1)；所有词向量相加，再除以词数得到词向量均值，作为句子的向量(公式2)：

5.如权利要求1所述的无监督跨语言句对齐实现方法，其特征在于，α取值为0.5。

6.如权利要求1所述的无监督跨语言句对齐实现方法，其特征在于，S300中还包括：

LOCAL_POS_ij＝POS_ij*MASK_ij (10)

SIM′_ij＝LOCAL_POS_ij*SEM_ij (11)