CN114357975A

CN114357975A - 一种多语言的术语识别和双语术语对齐方法

Info

Publication number: CN114357975A
Application number: CN202210018101.6A
Authority: CN
Inventors: 陈件; 潘丽婷; 张井
Original assignee: Shanghai Yizhe Information Technology Co ltd
Current assignee: Shanghai Yizhe Information Technology Co ltd
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2022-04-15

Abstract

一种多语言的术语识别和双语术语对齐方法，包括如下步骤：步骤S1：数据集获取；步骤S2：分词标注；步骤S3：模型训练，输出每个词是否为术语；步骤S4：词向量加载；步骤S5：词向量相似度计算；步骤S6：词对齐：步骤S7：术语对齐；根据词对齐结果，查询对应的术语译文。本发明克服了现有技术的不足，不再依赖多语言术语库，相对来说，成本更低，准确率更高。并且本发明支持多语言，之前针对于不同的语言都要调用机器翻译，现在利用多语言蒸馏后的模型，成本大大降低，准确率也有显著提高。

Description

一种多语言的术语识别和双语术语对齐方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种多语言的术语识别和双语术语对齐方法。

背景技术

现有方法的基本思路是基于术语库，识别原文中的术语，通过机器翻译将原文术语翻译为目标语言，利用机翻术语在译文中查询最匹配的字符串，例如识别原文“我爱中国”中的“中国”，使用机器翻译模型将“中国”翻译成“China”，利用“China”匹配译文中最相似的字符串。现有方法有以下缺陷：(1)术语识别依赖术语库，无法识别术语库以外的术语，尤其是多语言业务场景下，多语言术语库时间和人力成本较高；(2)双语术语对齐依赖机翻质量，会出现机翻术语无法在译文中匹配相似字符串的情况，而且在多语言业务场景下，需要部署不同语言方向的机翻模型或者调用外部机翻引擎，运行和维护成本高。

发明内容

针对现有技术的不足，本发明提供了一种多语言的术语识别和双语术语对齐方法，克服了现有技术的不足，设计合理，不再依赖多语言术语库，相对来说，成本更低，准确率更高。并且本发明支持多语言，之前针对于不同的语言都要调用机器翻译，现在利用多语言蒸馏后的模型，成本大大降低，准确率也有显著提高。

为实现以上目的，本发明通过以下技术方案予以实现：

一种多语言的术语识别和双语术语对齐方法，包括以下步骤：

步骤S1：数据集获取：从Wikidata多语言知识库中获取数据集，并筛选出500万个含有术语的句子；

步骤S2：分词：将不同语言文本进行分词，对分词后的文本进行标注；

步骤S3：模型训练：使用预训练模型作为文本特征提取器，接入一层全连接层，最后输出每个词是否为术语；

步骤S4：词向量加载：使用预训练模型中自带的分词器对不同语言文本进行分词；根据分词结果，使用预训练模型作为文本特征提取器，输出词向量；

步骤S5：词向量相似度计算：

词向量相似度是语义相似度和位置相似度的乘积(公式1)，语义相似度为原文句向量和译文句向量的余弦距离(公式2)，位置相似度为原文的句子位置和译文的句子位置的相对距离(公式3)：

S_ij＝SEM_ij*POS_ij (1)

其中，S_ij表示原文第i个词向量和译文第j个词向量的相似度，SEM_ij表示原文第i个词向量和译文第j个词向量的语义相似度，POS_ij表示原文第i个词向量和译文第j个词向量的位置相似度，v_i表示原文第i个词向量，v_j表示译文第j个词向量，l_s表示原文的词数，l_t表示译文的词数，α为超参数，经过实验取0.5，限制位置相似度的权重；

步骤S6：词对齐：

原文词向量和译文词向量使用双向最优匹配，，即当原文第i个词向量的相似度最高是译文第j个词向量，同时译文第j个词向量的相似度最高是原文第i个词向量时，第i个原文词向量与第j个译文词向量匹配(公式4)：

其中，M_ij为词对匹配矩阵，1为匹配，0为不匹配；

步骤S7：术语对齐；使用多语言术语识别模型识别原文中的术语，根据词对齐结果，查询对应的术语译文。

优选地，所述步骤S3模型训练中，训练集和测试集的比例为8：2。

优选地，所述步骤S6词对齐中，还包括：

步骤S61：双向最优匹配无法一次性将所有的原文句子和译文句子，为了匹配剩下的句向量，需要在每一次双向最优匹配后更新相似度矩阵S'_ij(公式5)；

S'_ij＝(1-M_ij)*S_ij (5)

将已匹配的词对(M_ij＝1)的相似度变为0(S'_ij＝0)，进行下一次双向最优匹配，并不断重复公式4和公式5的操作，直到所有原文和译文单词匹配。

本发明提供了一种多语言的术语识别和双语术语对齐方法。具备以下有益效果：本发明不再依赖多语言术语库，相对来说，成本更低，准确率更高。并且本发明支持多语言，之前针对于不同的语言都要调用机器翻译，现在利用多语言蒸馏后的模型，成本大大降低，准确率也有显著提高。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对现有技术描述中所需要使用的附图作简单地介绍。

图1本发明的运行流程示意图；

图2本发明中术语识别模型的流程图；

图3是分词示意图；

图4是词向量加载示意图；

图5是双向最优匹配和相似度更新示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述。

如图1-5所示，一种多语言的术语识别和双语术语对齐方法，包括以下步骤：

步骤S2：分词：将不同语言文本进行分词，对分词后的文本进行标注；T表示术语词组，O表示非术语，标注示例如图2所示；

步骤S3：模型训练：使用预训练模型作为文本特征提取器，接入一层全连接层，最后输出每个词是否为术语；在本申请中，预训练模型是谷歌公司开源的distilbert-base-multilingual-cased模型，该模型支持104种语言的预训练词向量，因此本方法支持104种语言的术语识别和双语术语提取；

步骤S4：词向量加载：使用预训练模型中自带的分词器对不同语言文本进行分词；在本申请中，distilbert-base-multilingual-cased模型的分词器使用的是BPE算法，建立词表，以词表中的单词或者字作为最小分词单位，对文本进行分词，比如原文“我爱中国”和译文“I love China”，分词后分别得到“我”，“爱”，“中”，“国”和“I”，“love”，“China”；如图3所示；

再根据分词结果，使用distilbert-base-multilingual-cased预训练模型作为文本特征提取器，输出词向量；如图4所示；

步骤S5：词向量相似度计算：

S_ij＝SEM_ij*POS_ij (1)

步骤S6：词对齐：

其中，M_ij为词对匹配矩阵，1为匹配，0为不匹配；

其中，所述步骤S3模型训练中，训练集和测试集的比例为8：2，在测试集上的召回率为0.80，准确率为0.72，f1分数为0.75。

并且由于双向最优匹配无法一次性将所有的原文单词和译文单词匹配，如图5中，“中”和“国”相似度最高是“China”，但是“China”相似度最高是“国”，其次是“中”，根据双向最优匹配原则，“国”和“China”形成匹配，“中”没有匹配。因此为了匹配剩下的句向量，所述步骤S6词对齐中，还包括：

步骤S61：在每一次双向最优匹配后更新相似度矩阵S'_ij(公式5)；

S'_ij＝(1-M_ij)*S_ij (5)

将已匹配的词对(M_ij＝1)的相似度变为0(S'_ij＝0)，进行下一次双向最优匹配，如图5中将“国”和“China”的相似度变为0后，“China”的相似度最高变成了“中”，“中”与“China”形成匹配；并不断重复公式4和公式5的操作，直到所有原文和译文单词匹配。

本发明不再依赖多语言术语库，相对来说，成本更低，准确率更高。并且本发明支持多语言，之前针对于不同的语言都要调用机器翻译(调用机器翻译需要额外费用或者投入)，现在利用多语言蒸馏后的模型，成本大大降低，准确率也有显著提高。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。