CN115906878A - 一种基于提示的机器翻译方法 - Google Patents

一种基于提示的机器翻译方法 Download PDF

Info

Publication number
CN115906878A
CN115906878A CN202211347974.8A CN202211347974A CN115906878A CN 115906878 A CN115906878 A CN 115906878A CN 202211347974 A CN202211347974 A CN 202211347974A CN 115906878 A CN115906878 A CN 115906878A
Authority
CN
China
Prior art keywords
translation
noun
text
model
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211347974.8A
Other languages
English (en)
Inventor
迟雨桐
冯少辉
李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Iplus Teck Co ltd
Original Assignee
Beijing Iplus Teck Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Iplus Teck Co ltd filed Critical Beijing Iplus Teck Co ltd
Priority to CN202211347974.8A priority Critical patent/CN115906878A/zh
Publication of CN115906878A publication Critical patent/CN115906878A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种基于提示的机器翻译方法,属于自然语言处理技术领域,解决了现有技术中机器翻译模型对于名词和专有名词翻译不准,漏翻、错翻的问题。通过构建待翻译文本中的名词集合及名词译文集合,进一步得到翻译模型的输入文本及翻译模型的调节矩阵;使用翻译模型对翻译模型的输入文本进行翻译,使用调节矩阵M调节模型的注意力计算,最终输出译文。基于包含名词译文提示的输入数据以及调节矩阵的调节,一定程度上保证了翻译模型名词翻译的准确性,解决了名词漏译和错译的问题,实现了机器翻译模型名词翻译准确性的提高。

Description

一种基于提示的机器翻译方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于提示的机器翻译方法。
背景技术
机器翻译是人工智能的重要方向之一,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。随着经济全球化及互联网的飞速发展,机器翻译技术在促进各国之间政治、经济、文化交流等方面起到越来越重要的作用,因此,研究机器翻译技术具有重要现实意义。
机器翻译技术提出之初,使用的方法是基于统计学的统计机器翻译(SMT,Statistics-based Machine Translation),这种方法把翻译看作一个概率问题,直接根据统计结果进行歧义消解处理和译文选择,从而避开了语言理解的难题。但是由于语料的选择和处理工程量巨大,通用领域的机器翻译系统很少以统计方法为主。近年来,被广泛使用的基于深度学习网络的神经网络机器翻译(NMT,Neural Machine Translation),多层的网络结构可以很好地学习原文本的上下文信息、提取语义特征,生成更加流畅、规范的译文,使得机器翻译质量实现了“跃进式”的提升。
然而,基于深度学习的方法也存在一些缺陷,其中最主要的就是名词和专有名词翻译不准的问题。名词和专有名词翻译不准包括两方面,漏译(即直接跳过某个或某段名词不翻译)和错译(即翻译错误),其中,漏译问题在翻译小语种及训练样本较少时尤其严重。由于目前的机器翻译模型均存在对于名词和专有名词翻译不准,漏翻、错翻的问题,因此亟需确保名词翻译准确性的机器翻译模型。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种基于提示的机器翻译方法,用以解决现有机器翻译模型对于名词和专有名词翻译不准,漏翻、错翻的问题。
一方面,本发明实施例提供了一种基于提示的机器翻译方法,包括以下步骤:
获取待翻译文本x,识别得到待翻译文本中包括的名词集合Sword
获得所述名词集合Sword中所有名词对应的名词译文,组成译文集合Sword-trans
待翻译文本x、名词集合Sword和名词译文集合Sword-trans通过数据构建,得到翻译模型的输入文本xinput及翻译模型的调节矩阵M;其中,所述输入文本包括提示,所述提示为名词译文集合Sword-trans中的所有译文;
使用翻译模型对xinput进行翻译,使用调节矩阵M调节模型的注意力计算,最终输出译文。
进一步的,所述数据构建,包括如下步骤:
对所述待翻译文本进行数据清洗,得到清洗后的文本x0
所述文本x0其后依次拼接名词译文集合Sword-trans中的所有译文,得到翻译模型的输入文本xinput
构建所述输入文本xinput的对应位置关系的列表Listindex,根据所述列表Listindex确定构建调节矩阵中元素的取值Mij,起始和终止行列插入特殊符号,得到所述调节矩阵M。
进一步的,所述翻译模型,通过如下步骤训练得到:
获取所需翻译的两个语种的平行语料数据,得到数据集D;
识别得到所述数据集D中的原文和译文,得到原文名词集合Sword和译文名词集合Sword-trans
通过数据构建得到D中所有数据的训练样本Xinput和所有数据对应的调节矩阵Mtrain,其中,Xinput=[x1,x2,…,xg],Mtrain=[M1,M2,…,Mg],单条训练样本xi,i∈[1,2,…,g]是增加译文提示后文本xinput和目标译文xgold的文本对,g为数据条数;
将Xinput划分为训练集Dtrain、验证集Dvalid、测试集Dtest,所述调节矩阵Mtrain导入所述翻译模型,用Dtrain训练模型,每轮训练结束用Dvalid进行验证,取验证结果最好的一轮模型作为最终模型。
进一步的,构建所述文本的对应位置关系的列表Listindex,包括如下步骤:
将所述翻译模型的输入文本xinput中每一对名词和名词译文在xinput中的位置用一对元组表示;
每个名词-译文位置元组对组成一个子列表;
将所有名词-译文位置元组对所在的子列表连接起来,构成所述文本的对应位置关系的列表Listindex
进一步的,所述调节矩阵元素Mij的取值及约束如下:
Figure BDA0003918866780000031
其中,len(x0)代表清洗后、增加翻译提示前的原始文本x0的长度,len(Listindex)代表所述列表Listindex的长度,Listindex[z][0]代表Listindex中第z个子列表中的第一个元组,Listindex[z][1]代表Listindex中第z个子列表中的第二个元组。
进一步的,利用如下函数计算导入调节矩阵M后模型的注意力:
Figure BDA0003918866780000041
其中,Q、K、V分别是自注意力机制中的Query,Key,Value矩阵,dk是Q或K的维度。
进一步的,所述导入调节矩阵M,包括:
根据所述模型预设的可输入最大长度Lmax,通过增加0值元素,将所述调节矩阵M向右、向下扩展至大小为Lmax×Lmax,得到M’;
将M’导入所述模型编码层。
进一步的,利用如下函数计算导入所述调节矩阵Mtrain后模型的注意力:
Figure BDA0003918866780000042
其中Qi、Ki、Vi是计算xi注意力时的Query,Key,Value矩阵,
Figure BDA0003918866780000044
是Qi或Ki的维度(二者相同),一般取dk=64;
利用如下函数计算预测结果xpred和目标结果xgold之间的损失:
Loss=CrossEntropy(xpred,xgold)
最小化损失Loss并更新模型权重,训练至Loss不再下降为止;
利用如下函数计算模型翻译的准确率:
Figure BDA0003918866780000043
其中,pn为预测结果xpred中预测正确的n-gram比例,即
Figure BDA0003918866780000051
BP是惩罚因子,惩罚当预测结果xpred的长度比xgold长度小情况:
Figure BDA0003918866780000052
进一步的,获取名词集合Sword,包括:
利用内置词性的标注工具;以及
使用根据需求训练好的名词识别模型。
进一步的,获取译文集合Sword-trans,包括:
1)获取待匹配名词w;
2)以w为键名,直接查询字典dictnoun中是否存在相应的值,如存在,直接取该值为译文,若不存在,进行下一步;
3)计算所述待匹配的名词w与所述字典dictnoun中的所有键key={key1,key2,…,keyx}的相似度得分,得到得分集合S={s1,s2,…,sx},x为dictnoun的长度
4)找到所述得分集合S中取值最大的元素位置,如果S中最大元素个数大于1,则随机取其中某一个元素作为取值最大元素;
5)根据取值最大的元素位置找到对应字典dictnoun中的键值对keymax和valuemax,使用valuemax作为译文。
与现有技术相比,本发明至少可实现如下有益效果之一:
1、通过构建包含名词译文提示的输入数据和调节矩阵,使翻译模型能够准确翻译名词,解决了现有翻译模型对于名词和专有名词翻译不准,漏翻、错翻的问题。
2、通过构建调节矩阵调节模型的注意力计算,使模型不再计算名词译文与其他原文字符之间的注意力,只计算名词译文与原文中名词之间的注意力,提高了模型的准确性。
3、通过事先构建包含名词译文提示的训练集和调节矩阵对翻译模型进行训练,使模型学习到名词与名词译文的内在联系,提高了翻译模型对基于提示的名词翻译的准确性。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例的基于提示的机器翻译方法流程图;
图2为本发明实施例的基于提示的机器翻译方法的模块结构示意图;
图3为本发明实施例的构建调节矩阵方法示意图;
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体实施例,如图1所示,公开了一种基于提示的机器翻译方法,包括:
步骤S110、获取待翻译文本x,识别得到待翻译文本中包括的名词集合Sword;具体的,可以通过将待翻译文本输入名词识别模块进行名词识别,得到名词集合Sword。
步骤S120、获得所述名词集合Sword中所有名词对应的名词译文,组成译文集合Sword-trans;具体的,可以通过名词查询模块内置的名词互译词典,检索出Sword中所有名词对应的名词译文。
步骤S130、待翻译文本x、名词集合Sword和名词译文集合Sword-trans通过数据构建,得到翻译模型的输入文本xinput及翻译模型的调节矩阵M;其中,所述输入文本包括提示,所述提示为名词译文集合Sword-trans中的所有译文。
步骤S140、使用翻译模型对xinput进行翻译,使用调节矩阵M调节模型的注意力计算,最终输出译文。具体的,通过所述调节矩阵调节后,所述翻译模型在注意力计算时,不计算名词译文与其他原文字符之间的注意力,仅计算名词与原文中名词之间的注意力。
本发明实施例通过事先构建待翻译语种的名词互译词典,翻译前先找到待翻译文本中的名词,并在词典中找到阈值对应的译文词加入其后,作为待翻译文本的输入提示,构建了使翻译模型准确翻译名词所需的数据集;训练时,使用了调节矩阵防止模型学习译文词之间的关系,使模型更专注于翻译任务,通过名词翻译的提示,一定程度上保证了名词翻译的准确性,解决了名词漏译和错译的问题。
在一个具体的实施例中,上述步骤S110中的名词识别模块为内置词性的标注工具或根据需求训练好的名词识别模型。可选的,所述内置词性的标注工具为jieba分词工具包。
在一个具体的实施例中,上述步骤S120中的名词查询模块包括名词词典和查询程序;
其中,所述名词词典是一个包含使用者所需要用到的全部名词的字典(dict),字典的键是用待翻译语种表示的名词,值是用目标语种表示的对应的名词;
示例性的,字典的数据结构(中译英)为:
dictnoun={"中国":"China","美国":"America",……}
可选的,使用者可以通过使用已有资源、自行构建等方法构建名词词典。
所述查询程序的匹配方式采用非精确匹配;优选的,使用文本相似度算法进行匹配;
进一步的,所述文本相似度算法匹配步骤包括:
1.以任意一个待匹配的名词w为键名,直接查询字典dictnoun中是否存在相应的值,如存在,直接取该值为译文,若不存在,进行下一步;
2.计算所述待匹配的名词w与所述字典dictnoun中的所有键key={key1,key2,…,keyx}的相似度得分,得到得分集合S={s1,s2,…,sx},x为dictnoun的长度;所述相似度得分计算公式为:
Figure BDA0003918866780000081
其中,len(w)为词w的长度,len(keyi)为第i个键的长度,exp(·)为求期望的函数,countsame为w与keyi在n-gram下的重合的gram数,countn-gram为w在n-gram下的gram数,n取1-3。
3.找到所述得分集合S中取值最大的元素位置,如果S中最大元素个数大于1,则随机取其中某一个元素作为取值最大元素。
4.根据取值最大的元素位置找到对应字典dictnoun中的键值对keymax和valuemax,使用valuemax作为译文。
在一个具体的实施例中,上述步骤S130所述数据构建包括:数据清洗、构建翻译模型的输入文本和构建调节矩阵;
其中,所述数据清洗是对原始待翻译文本进行数据清洗得到清洗后的文本x0,清洗包括:去除空格及多余的无效字符;统一繁简体(如涉及到中文);
所述构建翻译模型的输入文本,包括:在所述清洗后的文本x0后依次拼接名词译文集合Sword-trans中的所有译文,译文之间用空格分割,得到翻译模型的输入文本xinput
所述构建调节矩阵,包括:构建输入文本的对应位置关系的列表;根据所述列表构建L×L的调节矩阵M;
其中,所述构建输入文本的对应位置关系的列表Listindex,步骤包括:
将所述翻译模型的输入文本xinput中每一个名词或名词译文在xinput中的位置用一个元组表示;每个名词-译文位置元组对组成一个子列表;将所有名词-译文位置元组对连接起来组成一个大列表,即为Listindex。示例性的,表1展示了构建输入文本和对应位置关系列表的方法。
表1构建输入文本和位置对应关系列表的示例
Figure BDA0003918866780000091
Figure BDA0003918866780000101
需要说明的是,以上Listindesx中的位置仅是示例,实际操作中还需要根据Xinput的分词结果进行调整,这里默认中文文本按单字分词、英文文本按单词分词,其中英文单词之间的空格不计入分词。
所述构建L×L的调节矩阵M,如图3所示,包括:根据所述列表Listindex确定所述调节矩阵M中元素的取值;所述矩阵的起始行列和终止行列分别插入特殊符号,使L=len(xinput)+2;可选的,所述矩阵的起始行列和终止行列分别插入的特殊符号为[CLS]和[SEP];
进一步的,M中某第i行第j列的元素Mi,j的取值及约束如下:
(1)当i,j分别满足以下条件的任意一种时,Mi,j=0;
条件1:小于等于len(x0)+1
条件2:等于L
(2)当i,j分别属于Listindex中某一子列表Listone中的两个元组Listone[0]和Listone[1]时,Mi,j=0;
(3)其余情况,Mi,j为负无穷(-∞);
可选的,使用1e-4或1e-9代替负无穷(-∞);
可选的,使用1e-4代替负无穷(-∞)时,Mi,j的取值的表达式如下:
Figure BDA0003918866780000102
其中,len(x0)代表清洗后、增加提示前的原始文本x0的长度,len(Listindex)代表Listindex的长度(子列表的个数),Listindex[z][0]代表Listindex中第z个子列表中的第一个元组,Listindex[z][1]代表Listindex中第z个子列表中的第二个元组。
在一个具体的实施例中,翻译模型采用神经机器翻译模型NPTrans。如图2所示,上述步骤S140还可以优化为以下步骤:
步骤S210:将所述调节矩阵M导入神经机器翻译模型NPTrans的编码层,对模型内参数的计算进行调整;
具体的,所述调节矩阵M导入所述神经机器翻译模型NPTrans的编码层,包括:根据所述神经机器翻译模型NPTrans预设的可输入最大长度Lmax,通过增加0值元素,将所述调节矩阵M向右、向下扩展至大小为Lmax×Lmax,得到M’;将M’导入所述编码层;
具体的,所述神经机器翻译模型NPTrans使用transformers框架进行构建,包括一个编码器和一个解码器,所述编码器和解码器中都包含多层相同的自注意力残差结构,加入调节矩阵计算自注意力(Attention),计算公式为:
Figure BDA0003918866780000111
其中,Q、K、V分别是自注意力机制中的Query,Key,Value矩阵,dk是Q或K的维度(二者相同)。
优选的,所述编码器和解码器均包含12层相同的自注意力残差结构;
优选的,所述自注意力机制中的Query或Key的维度取值为dk=64。
示例性的,如图3,增加了调节矩阵M’后,所述神经机器翻译模型NPTrans将不计算名词译文与其他原文字符之间的注意力(灰色部分),只计算名词译文与原文中名词之间的注意力(图中为a1,11,a2,11,a4,12,a4,12四个),其余白色的部分为原始本x0之间的注意力。
具体的,所述神经机器翻译模型NPTrans通过以下步骤训练得到:
1)获取所需翻译的两个语种的平行语料数据,得到数据集D;
2)使用名词识别模块识别D中的原文和译文,得到原文名词集合Sword和译文名词集合Sword-trans;具体的,可以通过名词查询模块内置的名词互译词典,检索出Sword中所有名词对应的名词译文,再通过在所述数据集D中平行语料的译文中查找是否存在与所述名词译文匹配的词,若存在将其加入所述译文名词集合Sword-trans,若不存在将其从所述原文名词集合Sword中删除;优选的,通过人工识别的方式筛选出与所述名词译文不匹配的词中重要的原文名词,以及与其对应平行语料中的译文名词,作为生词加入词典。
3)使用数据构建模块构建D中所有数据的训练样本Xinput和所有数据对应的调节矩阵Mtrain,Xinput=[x1,x2,…,xg],Mtrain=[M1,M2,…,Mg],单条训练样本xi(i∈[1,2,…,g])是增加提示后文本xinput和目标译文xgold的文本对,g为数据条数。
4)将Xinput划分为训练集Dtrain、验证集Dvalid、测试集Dtest,所述调节矩阵Mtrain导入所述翻译模型,用Dtrain训练模型,每轮训练结束用Dvalid进行验证,取验证结果最好的一轮模型作为最终模型。优选的,所述训练集Dtrain、验证集Dvalid、测试集Dtest的比例为8:1:1。
进一步的,训练时,针对每一条文本xi,使用下式计算该条文本在编码器的注意力:
Figure BDA0003918866780000121
其中Qi、Ki、Vi是计算xi注意力时的Query,Key,Value矩阵,
Figure BDA0003918866780000122
是Qi或Ki的维度(二者相同),一般取dk=64。
预测结果xpred和目标结果xgold之间的损失函数表达式为:
Loss=CrossEntropy(xpred,xgold)
最小化损失Loss并更新模型权重,训练至Loss不再下降为止。
验证时,使用BLEU得分计算模型翻译的准确率:
Figure BDA0003918866780000131
其中,pn为预测结果xpred中预测正确的n-gram比例,即
Figure BDA0003918866780000132
BP是惩罚因子,惩罚当预测结果xpred的长度比xgold长度小情况:
Figure BDA0003918866780000133
获得验证结果最好的一轮模型作为最终模型后,可以使用Dtest进行测试。
步骤S220:将所述翻译模型的输入文本xinput输入所述神经机器翻译模型NPTrans,得到最终输出译文。
与现有技术相比,本实施例提供的基于提示的机器翻译方法,通过事先构建待翻译语种的名词互译词典,翻译前先找到待翻译文本中的名词,并在词典中找到对应的译文词加入其后,作为待翻译文本的输入提示,构建了使翻译模型准确翻译名词所需的数据集;训练时,使用了调节矩阵防止模型学习译文词之间的关系,使模型更专注于翻译任务,通过名词翻译的提示,一定程度上保证了名词翻译的准确性,解决了名词漏译和错译的问题。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于提示的机器翻译方法,其特征在于,包括如下步骤:
获取待翻译文本x,识别得到待翻译文本中包括的名词集合Sword
获得所述名词集合Sword中所有名词对应的名词译文,组成译文集合Sword-trans
待翻译文本x、名词集合Sword和名词译文集合Sword-trans通过数据构建,得到翻译模型的输入文本xinput及翻译模型的调节矩阵M;其中,所述输入文本包括提示,所述提示为名词译文集合Sword-trans中的所有译文;
使用翻译模型对xinput进行翻译,使用调节矩阵M调节模型的注意力计算,最终输出译文。
2.根据权利要求1的方法,其特征在于,所述数据构建,包括如下步骤:
对所述待翻译文本进行数据清洗,得到清洗后的文本x0
所述文本x0其后依次拼接名词译文集合Sword-trans中的所有译文,得到翻译模型的输入文本xinput
构建所述输入文本xinput的对应位置关系的列表Listindex,根据所述列表Listindex确定构建调节矩阵中元素的取值Mij,起始和终止行列插入特殊符号,得到所述调节矩阵M。
3.根据权利要求1或2的方法,所述翻译模型,通过如下步骤训练得到:
获取所需翻译的两个语种的平行语料数据,得到数据集D;
识别所述数据集D中的原文和译文,得到原文名词集合Sword和译文名词集合Sword-trans
通过数据构建得到D中所有数据的训练样本Xinput和所有数据对应的调节矩阵Mtrain,其中,Xinput=[x1,x2,…,xg],Mtrain=[M1,M2,…,Mg],单条训练样本xi(i∈[1,2,…,g])是增加译文提示后文本xinput和目标译文xgold的文本对,g为数据条数;
将Xinput划分为训练集Dtrain、验证集Dvalid、测试集Dtest,所述调节矩阵Mtrain导入所述翻译模型,用Dtrain训练模型,每轮训练结束用Dvalid进行验证,取验证结果最好的一轮模型作为最终模型。
4.根据权利要求2的方法,其特征在于,构建所述文本的对应位置关系的列表Listindex,包括如下步骤:
将所述翻译模型的输入文本xinput中每一对名词和名词译文在xinput中的位置用一对元组表示;
每个名词-译文位置元组对组成一个子列表;
将所有名词-译文位置元组对所在的子列表连接起来,构成所述文本的对应位置关系的列表Listindex
5.根据权利要求2或4的方法,其特征在于,所述调节矩阵元素Mij的取值及约束如下:
Figure FDA0003918866770000021
其中,len(x0)代表清洗后、增加翻译提示前的原始文本x0的长度,len(Listindex)代表所述列表Listindex的长度即子列表个数,Listindex[z][0]代表Listindex中第z个子列表中的第一个元组,Listindex[z][1]代表Listindex中第z个子列表中的第二个元组。
6.根据权利要求1的方法,其特征在于,使用调节矩阵M调节模型的注意力计算,包括将调节矩阵M导入翻译模型;利用如下函数计算导入调节矩阵M后模型的注意力:
Figure FDA0003918866770000022
其中,Q、K、V分别是自注意力机制中的Query,Key,Value矩阵,dk是Q或K的维度。
7.根据权利要求6的方法,其特征在于,所述将调节矩阵M导入翻译模型,包括:
根据所述模型预设的可输入最大长度Lmax,通过增加0值元素,将所述调节矩阵M向右、向下扩展至大小为Lmax×Lmax,得到M’;
将M’导入所述翻译模型的编码层。
8.根据权利要求3的方法,其特征在于,利用如下函数计算导入所述调节矩阵Mtrain后模型的注意力:
Figure FDA0003918866770000031
其中Qi、Ki、Vi是计算xi注意力时的Query,Key,Value矩阵,
Figure FDA0003918866770000032
是Qi或Ki的维度;
利用如下函数计算预测结果xpred和目标结果xgold之间的损失:
Loss=CrossEntropy(xpred,xgold)
最小化损失Loss并更新模型权重,训练至Loss不再下降为止;
利用如下函数计算模型翻译的准确率:
Figure FDA0003918866770000033
其中,pn为预测结果xpred中预测正确的n-gram比例,BP是惩罚因子。
9.根据权利要求1的方法,其特征在于,识别得到待翻译文本中包括的名词集合Sword,包括:
利用内置词性的标注工具对待翻译文本中的名词进行标注;或者
使用根据需求训练好的名词识别模型对待翻译文本进行名词识别。
10.根据权利要求1的方法,其特征在于,获得所述名词集合Sword中所有名词对应的名词译文,包括:
1)获取名词集合中的待匹配名词w;
2)以w为键名,直接查询字典dictnoun中是否存在相应的值,如存在,直接取该值为译文,若不存在,进行下一步;
3)计算所述待匹配名词w与所述字典dictnoun中的所有键key={key1,key2,…,keyx}的相似度得分,得到得分集合S={s1,s2,…,sx},x为dictnoun的长度
4)找到所述得分集合S中取值最大的元素位置,如果S中最大元素个数大于1,则随机取其中某一个元素作为取值最大元素;
5)根据取值最大的元素位置找到对应字典dictnoun中的键值对keymax和valuemax,使用valuemax作为译文。
CN202211347974.8A 2022-10-31 2022-10-31 一种基于提示的机器翻译方法 Pending CN115906878A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211347974.8A CN115906878A (zh) 2022-10-31 2022-10-31 一种基于提示的机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211347974.8A CN115906878A (zh) 2022-10-31 2022-10-31 一种基于提示的机器翻译方法

Publications (1)

Publication Number Publication Date
CN115906878A true CN115906878A (zh) 2023-04-04

Family

ID=86492405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211347974.8A Pending CN115906878A (zh) 2022-10-31 2022-10-31 一种基于提示的机器翻译方法

Country Status (1)

Country Link
CN (1) CN115906878A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116911321A (zh) * 2023-06-21 2023-10-20 三峡高科信息技术有限责任公司 一种前端自动翻译字典值的方法及组件

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116911321A (zh) * 2023-06-21 2023-10-20 三峡高科信息技术有限责任公司 一种前端自动翻译字典值的方法及组件
CN116911321B (zh) * 2023-06-21 2024-05-14 三峡高科信息技术有限责任公司 一种前端自动翻译字典值的方法及组件

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
US5680511A (en) Systems and methods for word recognition
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN102982021B (zh) 用于消除语言转换中的多个读法的歧义的方法
CN109800414B (zh) 语病修正推荐方法及系统
JP2005529386A (ja) 単語関連付け方法及び装置
CN111553159B (zh) 一种问句生成方法及系统
CN111709242A (zh) 一种基于命名实体识别的中文标点符号添加方法
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN118093834B (zh) 一种基于aigc大模型的语言处理问答系统及方法
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
CN115906878A (zh) 一种基于提示的机器翻译方法
CN114492396A (zh) 用于汽车专有名词的文本错误纠正方法及可读存储介质
CN114185573A (zh) 一种人机交互机器翻译系统的实现和在线更新系统及方法
CN117973372A (zh) 一种基于拼音约束的中文语法纠错方法
CN113705207A (zh) 语法错误识别方法及装置
Villegas et al. Exploiting existing modern transcripts for historical handwritten text recognition
CN114896966B (zh) 一种中文文本语法错误定位方法、系统、设备及介质
CN115831117A (zh) 实体识别方法、装置、计算机设备和存储介质
CN115688904B (zh) 一种基于名词译文提示的翻译模型构建方法
CN115238705A (zh) 语义解析结果重排序方法及系统
CN111090720B (zh) 一种热词的添加方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination