CN114357975A - 一种多语言的术语识别和双语术语对齐方法 - Google Patents

一种多语言的术语识别和双语术语对齐方法 Download PDF

Info

Publication number
CN114357975A
CN114357975A CN202210018101.6A CN202210018101A CN114357975A CN 114357975 A CN114357975 A CN 114357975A CN 202210018101 A CN202210018101 A CN 202210018101A CN 114357975 A CN114357975 A CN 114357975A
Authority
CN
China
Prior art keywords
word
term
word vector
similarity
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210018101.6A
Other languages
English (en)
Inventor
陈件
潘丽婷
张井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yizhe Information Technology Co ltd
Original Assignee
Shanghai Yizhe Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yizhe Information Technology Co ltd filed Critical Shanghai Yizhe Information Technology Co ltd
Priority to CN202210018101.6A priority Critical patent/CN114357975A/zh
Publication of CN114357975A publication Critical patent/CN114357975A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

一种多语言的术语识别和双语术语对齐方法,包括如下步骤:步骤S1:数据集获取;步骤S2:分词标注;步骤S3:模型训练,输出每个词是否为术语;步骤S4:词向量加载;步骤S5:词向量相似度计算;步骤S6:词对齐:步骤S7:术语对齐;根据词对齐结果,查询对应的术语译文。本发明克服了现有技术的不足,不再依赖多语言术语库,相对来说,成本更低,准确率更高。并且本发明支持多语言,之前针对于不同的语言都要调用机器翻译,现在利用多语言蒸馏后的模型,成本大大降低,准确率也有显著提高。

Description

一种多语言的术语识别和双语术语对齐方法
技术领域
本发明涉及人工智能技术领域,具体涉及一种多语言的术语识别和双语术语对齐方法。
背景技术
现有方法的基本思路是基于术语库,识别原文中的术语,通过机器翻译将原文术语翻译为目标语言,利用机翻术语在译文中查询最匹配的字符串,例如识别原文“我爱中国”中的“中国”,使用机器翻译模型将“中国”翻译成“China”,利用“China”匹配译文中最相似的字符串。现有方法有以下缺陷:(1)术语识别依赖术语库,无法识别术语库以外的术语,尤其是多语言业务场景下,多语言术语库时间和人力成本较高;(2)双语术语对齐依赖机翻质量,会出现机翻术语无法在译文中匹配相似字符串的情况,而且在多语言业务场景下,需要部署不同语言方向的机翻模型或者调用外部机翻引擎,运行和维护成本高。
发明内容
针对现有技术的不足,本发明提供了一种多语言的术语识别和双语术语对齐方法,克服了现有技术的不足,设计合理,不再依赖多语言术语库,相对来说,成本更低,准确率更高。并且本发明支持多语言,之前针对于不同的语言都要调用机器翻译,现在利用多语言蒸馏后的模型,成本大大降低,准确率也有显著提高。
为实现以上目的,本发明通过以下技术方案予以实现:
一种多语言的术语识别和双语术语对齐方法,包括以下步骤:
步骤S1:数据集获取:从Wikidata多语言知识库中获取数据集,并筛选出500万个含有术语的句子;
步骤S2:分词:将不同语言文本进行分词,对分词后的文本进行标注;
步骤S3:模型训练:使用预训练模型作为文本特征提取器,接入一层全连接层,最后输出每个词是否为术语;
步骤S4:词向量加载:使用预训练模型中自带的分词器对不同语言文本进行分词;根据分词结果,使用预训练模型作为文本特征提取器,输出词向量;
步骤S5:词向量相似度计算:
词向量相似度是语义相似度和位置相似度的乘积(公式1),语义相似度为原文句向量和译文句向量的余弦距离(公式2),位置相似度为原文的句子位置和译文的句子位置的相对距离(公式3):
Sij=SEMij*POSij (1)
Figure BDA0003460864010000021
Figure BDA0003460864010000022
其中,Sij表示原文第i个词向量和译文第j个词向量的相似度,SEMij表示原文第i个词向量和译文第j个词向量的语义相似度,POSij表示原文第i个词向量和译文第j个词向量的位置相似度,vi表示原文第i个词向量,vj表示译文第j个词向量,ls表示原文的词数,lt表示译文的词数,α为超参数,经过实验取0.5,限制位置相似度的权重;
步骤S6:词对齐:
原文词向量和译文词向量使用双向最优匹配,,即当原文第i个词向量的相似度最高是译文第j个词向量,同时译文第j个词向量的相似度最高是原文第i个词向量时,第i个原文词向量与第j个译文词向量匹配(公式4):
Figure BDA0003460864010000031
其中,Mij为词对匹配矩阵,1为匹配,0为不匹配;
步骤S7:术语对齐;使用多语言术语识别模型识别原文中的术语,根据词对齐结果,查询对应的术语译文。
优选地,所述步骤S3模型训练中,训练集和测试集的比例为8:2。
优选地,所述步骤S6词对齐中,还包括:
步骤S61:双向最优匹配无法一次性将所有的原文句子和译文句子,为了匹配剩下的句向量,需要在每一次双向最优匹配后更新相似度矩阵S'ij(公式5);
S'ij=(1-Mij)*Sij (5)
将已匹配的词对(Mij=1)的相似度变为0(S'ij=0),进行下一次双向最优匹配,并不断重复公式4和公式5的操作,直到所有原文和译文单词匹配。
本发明提供了一种多语言的术语识别和双语术语对齐方法。具备以下有益效果:本发明不再依赖多语言术语库,相对来说,成本更低,准确率更高。并且本发明支持多语言,之前针对于不同的语言都要调用机器翻译,现在利用多语言蒸馏后的模型,成本大大降低,准确率也有显著提高。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对现有技术描述中所需要使用的附图作简单地介绍。
图1本发明的运行流程示意图;
图2本发明中术语识别模型的流程图;
图3是分词示意图;
图4是词向量加载示意图;
图5是双向最优匹配和相似度更新示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述。
如图1-5所示,一种多语言的术语识别和双语术语对齐方法,包括以下步骤:
步骤S1:数据集获取:从Wikidata多语言知识库中获取数据集,并筛选出500万个含有术语的句子;
步骤S2:分词:将不同语言文本进行分词,对分词后的文本进行标注;T表示术语词组,O表示非术语,标注示例如图2所示;
步骤S3:模型训练:使用预训练模型作为文本特征提取器,接入一层全连接层,最后输出每个词是否为术语;在本申请中,预训练模型是谷歌公司开源的distilbert-base-multilingual-cased模型,该模型支持104种语言的预训练词向量,因此本方法支持104种语言的术语识别和双语术语提取;
步骤S4:词向量加载:使用预训练模型中自带的分词器对不同语言文本进行分词;在本申请中,distilbert-base-multilingual-cased模型的分词器使用的是BPE算法,建立词表,以词表中的单词或者字作为最小分词单位,对文本进行分词,比如原文“我爱中国”和译文“I love China”,分词后分别得到“我”,“爱”,“中”,“国”和“I”,“love”,“China”;如图3所示;
再根据分词结果,使用distilbert-base-multilingual-cased预训练模型作为文本特征提取器,输出词向量;如图4所示;
步骤S5:词向量相似度计算:
词向量相似度是语义相似度和位置相似度的乘积(公式1),语义相似度为原文句向量和译文句向量的余弦距离(公式2),位置相似度为原文的句子位置和译文的句子位置的相对距离(公式3):
Sij=SEMij*POSij (1)
Figure BDA0003460864010000051
Figure BDA0003460864010000052
其中,Sij表示原文第i个词向量和译文第j个词向量的相似度,SEMij表示原文第i个词向量和译文第j个词向量的语义相似度,POSij表示原文第i个词向量和译文第j个词向量的位置相似度,vi表示原文第i个词向量,vj表示译文第j个词向量,ls表示原文的词数,lt表示译文的词数,α为超参数,经过实验取0.5,限制位置相似度的权重;
步骤S6:词对齐:
原文词向量和译文词向量使用双向最优匹配,,即当原文第i个词向量的相似度最高是译文第j个词向量,同时译文第j个词向量的相似度最高是原文第i个词向量时,第i个原文词向量与第j个译文词向量匹配(公式4):
Figure BDA0003460864010000053
其中,Mij为词对匹配矩阵,1为匹配,0为不匹配;
步骤S7:术语对齐;使用多语言术语识别模型识别原文中的术语,根据词对齐结果,查询对应的术语译文。
其中,所述步骤S3模型训练中,训练集和测试集的比例为8:2,在测试集上的召回率为0.80,准确率为0.72,f1分数为0.75。
并且由于双向最优匹配无法一次性将所有的原文单词和译文单词匹配,如图5中,“中”和“国”相似度最高是“China”,但是“China”相似度最高是“国”,其次是“中”,根据双向最优匹配原则,“国”和“China”形成匹配,“中”没有匹配。因此为了匹配剩下的句向量,所述步骤S6词对齐中,还包括:
步骤S61:在每一次双向最优匹配后更新相似度矩阵S'ij(公式5);
S'ij=(1-Mij)*Sij (5)
将已匹配的词对(Mij=1)的相似度变为0(S'ij=0),进行下一次双向最优匹配,如图5中将“国”和“China”的相似度变为0后,“China”的相似度最高变成了“中”,“中”与“China”形成匹配;并不断重复公式4和公式5的操作,直到所有原文和译文单词匹配。
本发明不再依赖多语言术语库,相对来说,成本更低,准确率更高。并且本发明支持多语言,之前针对于不同的语言都要调用机器翻译(调用机器翻译需要额外费用或者投入),现在利用多语言蒸馏后的模型,成本大大降低,准确率也有显著提高。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (3)

1.一种多语言的术语识别和双语术语对齐方法,其特征在于,包括以下步骤:
步骤S1:数据集获取:从Wikidata多语言知识库中获取数据集,并筛选出500万个含有术语的句子;
步骤S2:分词:将不同语言文本进行分词,对分词后的文本进行标注;
步骤S3:模型训练:使用预训练模型作为文本特征提取器,接入一层全连接层,最后输出每个词是否为术语;
步骤S4:词向量加载:使用预训练模型中自带的分词器对不同语言文本进行分词;根据分词结果,使用预训练模型作为文本特征提取器,输出词向量;
步骤S5:词向量相似度计算:
词向量相似度是语义相似度和位置相似度的乘积(公式1),语义相似度为原文句向量和译文句向量的余弦距离(公式2),位置相似度为原文的句子位置和译文的句子位置的相对距离(公式3):
Sij=SEMij*POSij (1)
Figure FDA0003460864000000011
Figure FDA0003460864000000012
其中,Sij表示原文第i个词向量和译文第j个词向量的相似度,SEMij表示原文第i个词向量和译文第j个词向量的语义相似度,POSij表示原文第i个词向量和译文第j个词向量的位置相似度,vi表示原文第i个词向量,vj表示译文第j个词向量,ls表示原文的词数,lt表示译文的词数,α为超参数,经过实验取0.5,限制位置相似度的权重;
步骤S6:词对齐:
原文词向量和译文词向量使用双向最优匹配,,即当原文第i个词向量的相似度最高是译文第j个词向量,同时译文第j个词向量的相似度最高是原文第i个词向量时,第i个原文词向量与第j个译文词向量匹配(公式4):
Figure FDA0003460864000000021
其中,Mij为词对匹配矩阵,1为匹配,0为不匹配;
步骤S7:术语对齐;使用多语言术语识别模型识别原文中的术语,根据词对齐结果,查询对应的术语译文。
2.根据权利要求1所述的一种多语言的术语识别和双语术语对齐方法,其特征在于:所述步骤S3模型训练中,训练集和测试集的比例为8:2。
3.根据权利要求1所述的一种多语言的术语识别和双语术语对齐方法,其特征在于:所述步骤S6词对齐中,还包括:
步骤S61:双向最优匹配无法一次性将所有的原文句子和译文句子,为了匹配剩下的句向量,需要在每一次双向最优匹配后更新相似度矩阵S'ij(公式5);
S'ij=(1-Mij)*Sij (5)
将已匹配的词对(Mij=1)的相似度变为0(S'ij=0),进行下一次双向最优匹配,并不断重复公式4和公式5的操作,直到所有原文和译文单词匹配。
CN202210018101.6A 2022-01-07 2022-01-07 一种多语言的术语识别和双语术语对齐方法 Pending CN114357975A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210018101.6A CN114357975A (zh) 2022-01-07 2022-01-07 一种多语言的术语识别和双语术语对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210018101.6A CN114357975A (zh) 2022-01-07 2022-01-07 一种多语言的术语识别和双语术语对齐方法

Publications (1)

Publication Number Publication Date
CN114357975A true CN114357975A (zh) 2022-04-15

Family

ID=81106451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210018101.6A Pending CN114357975A (zh) 2022-01-07 2022-01-07 一种多语言的术语识别和双语术语对齐方法

Country Status (1)

Country Link
CN (1) CN114357975A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822517A (zh) * 2023-08-29 2023-09-29 百舜信息技术有限公司 一种多语言翻译的术语识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116822517A (zh) * 2023-08-29 2023-09-29 百舜信息技术有限公司 一种多语言翻译的术语识别方法
CN116822517B (zh) * 2023-08-29 2023-11-10 百舜信息技术有限公司 一种多语言翻译的术语识别方法

Similar Documents

Publication Publication Date Title
CN108959242B (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN108549637A (zh) 基于拼音的语义识别方法、装置以及人机对话系统
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
Singh et al. A decision tree based word sense disambiguation system in Manipuri language
CN114416979A (zh) 一种文本查询方法、设备和存储介质
Kišš et al. AT-ST: self-training adaptation strategy for OCR in domains with limited transcriptions
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
Chen et al. Integrating natural language processing with image document analysis: what we learned from two real-world applications
Romero et al. Modern vs diplomatic transcripts for historical handwritten text recognition
CN111553157A (zh) 一种基于实体替换的对话意图识别方法
CN114357975A (zh) 一种多语言的术语识别和双语术语对齐方法
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN115860015B (zh) 一种基于翻译记忆的转写文本翻译方法和计算机设备
CN111859934A (zh) 一种中文语句隐喻识别系统
Bensalah et al. Arabic machine translation based on the combination of word embedding techniques
CN109960782A (zh) 一种基于深度神经网络的藏文分词方法及装置
CN112528679B (zh) 一种意图理解模型训练方法及装置、意图理解方法及装置
CN113868389A (zh) 基于自然语言文本的数据查询方法、装置及计算机设备
CN109446537B (zh) 一种针对机器翻译的译文评估方法及装置
Brugués i Pujolràs et al. A multilingual approach to scene text visual question answering
Lin et al. Design and implementation of intelligent scoring system for handwritten short answer based on deep learning
CN111597827A (zh) 一种提高机器翻译准确度的方法及其装置
Yadav et al. Different Models of Transliteration-A Comprehensive Review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination