CN114492469A - 一种翻译方法、翻译装置和计算机可读存储介质 - Google Patents

一种翻译方法、翻译装置和计算机可读存储介质 Download PDF

Info

Publication number
CN114492469A
CN114492469A CN202111630203.5A CN202111630203A CN114492469A CN 114492469 A CN114492469 A CN 114492469A CN 202111630203 A CN202111630203 A CN 202111630203A CN 114492469 A CN114492469 A CN 114492469A
Authority
CN
China
Prior art keywords
corpus
original
training
translation
monolingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111630203.5A
Other languages
English (en)
Inventor
刘晨璇
李小喜
张为泰
刘俊华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202111630203.5A priority Critical patent/CN114492469A/zh
Publication of CN114492469A publication Critical patent/CN114492469A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本申请公开了一种翻译方法、翻译装置和计算机可读存储介质,该翻译方法包括:获取待处理数据,将待处理数据输入第一翻译模型,得到翻译数据;其中,第一翻译模型的训练方法包括:获取训练完的第二翻译模型、原始平行语料以及多个新词集,新词集包括第一新词以及至少一个第二新词,第二新词为第一新词的译文;对新词集进行处理,得到包含新词集的第一训练平行语料;对第一训练平行语料进行清洗处理,得到第二训练平行语料;采用原始平行语料与第二训练平行语料,对第二翻译模型进行更新训练,得到第一翻译模型。通过上述方式,本申请能够提升新词的翻译效果。

Description

一种翻译方法、翻译装置和计算机可读存储介质
技术领域
本申请涉及机器翻译技术领域,具体涉及一种翻译方法、翻译装置和计算机可读存储介质。
背景技术
现在信息的传播速度极快,经常会形成一些网络新词,由于网络新词在历史的训练语料中从未出现过或意义发生变化,而机器翻译模型的翻译效果直接来自于训练语料的知识,无法将未出现的网络新词正确地翻译出来,因此机器翻译模型在面对层出不穷的新词显得尤其乏力;而针对网络新词构建出新的训练平行语料的难度较大,能获取到的包含新词的语料数目有限,如果挨个标注平行语料,成本较高,并且标注周期较久,很难跟上网络新词的更新速度,因此如何低成本、高效地更新迭代机器翻译模型,让机器翻译模型准确翻译出新词成为一大难题。
发明内容
本申请提供一种翻译方法、翻译装置和计算机可读存储介质,能够提升新词的翻译效果。
为解决上述技术问题,本申请采用的技术方案是:提供一种翻译方法,该翻译方法包括:获取待处理数据,将待处理数据输入第一翻译模型,得到翻译数据;其中,第一翻译模型的训练方法包括:获取训练完的第二翻译模型、原始平行语料以及多个新词集,新词集包括第一新词以及至少一个第二新词,第二新词为第一新词的译文;对新词集进行处理,得到包含新词集的第一训练平行语料;对第一训练平行语料进行清洗处理,得到第二训练平行语料;采用原始平行语料与第二训练平行语料,对第二翻译模型进行更新训练,得到第一翻译模型。
为解决上述技术问题,本申请采用的另一技术方案是:提供一种翻译装置,该翻译装置包括互相连接的存储器和处理器,其中,存储器用于存储计算机程序,计算机程序在被处理器执行时,用于实现上述技术方案中的翻译方法。
为解决上述技术问题,本申请采用的又一技术方案是:提供一种计算机可读存储介质,其用于存储计算机程序,计算机程序在被处理器执行时,用于实现上述技术方案中的翻译方法。
通过上述方案,本申请的有益效果是:先获取训练完的第二翻译模型、原始平行语料以及多个新词集,然后利用新词集对原始平行语料进行更新,得到包含新词集的第一训练平行语料,降低构建包含新词的训练平行语料的成本,提高构建训练平行语料的效率;而且对第一训练平行语料进行清洗处理,筛选出质量好的第二训练平行语料,提高训练平行语料的质量,能够进一步提升翻译模型的训练效果以及翻译模型的鲁棒性;然后采用原始平行语料与第二训练平行语料,对第二翻译模型进行更新训练,得到第一翻译模型,实现对翻译模型的增长式迭代优化,使得翻译模型不断学习新词知识,大幅提升已有的翻译模型对新词的翻译效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的翻译方法一实施例的流程示意图;
图2是本申请提供的第一翻译模型的训练方法一实施例的流程示意图;
图3是本申请提供的第一翻译模型的训练方法另一实施例的流程示意图;
图4是本申请提供的步骤32一实施例的流程示意图;
图5是对齐关系的示意图;
图6是构建第一训练平行语料的示意图;
图7是本申请提供的步骤32另一实施例的流程示意图;
图8是替换实体词组的示意图;
图9是质量筛选第一训练平行语料的示意图;
图10是本申请提供的翻译装置一实施例的结构示意图;
图11是本申请提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面结合附图和实施例,对本申请作进一步的详细描述。特别指出的是,以下实施例仅用于说明本申请,但不对本申请的范围进行限定。同样的,以下实施例仅为本申请的部分实施例而非全部实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
需要说明的是,本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本申请提供的翻译方法一实施例的流程示意图,该方法包括:
步骤11:获取待处理数据。
待处理数据为待翻译的数据,其可为文本或语音等类型的数据;可以理解地,在待处理数据为语音数据时,可先将语音数据转换为文本数据,然后再对文本数据进行翻译。
步骤12:将待处理数据输入第一翻译模型,得到翻译数据。
将待处理数据输入第一翻译模型中,能够得到包含目标语言的翻译数据;具体地,待处理数据可为单语数据,即只包含一门语言的语句、词组或单词,可利用第一翻译模型将待处理数据翻译为目标语言下的翻译数据,常见的语言种类为中文或英文,可利用第一翻译模型实现中/英文翻译或者英/中文翻译;可以理解地,待处理数据的语种以及目标语言的语种可根据实际情况进行设置,包含但不限于上述中/英文翻译或者英/中文翻译,实现各种不同语种间的翻译,待处理数据还可包括两门及两门以上的语言,可利用第一翻译模型将两门及两门以上的语言翻译为同一目标语言。
进一步地,待处理数据可包含新词,能够利用本实施例中的第一翻译模型实现对新词的准确翻译,其中,新词是指随时代发展而新出现或旧词新用的词,其可包含新生的网络流行词或专有词汇等,如“凡尔赛”、“光盘行动”或“新冠病毒”等;下面请参阅图2,图2是本申请提供的第一翻译模型的训练方法一实施例的流程示意图,可利用下述训练方法对第一翻译模型进行训练,使得第一翻译模型学习新词知识,以利用第一翻译模型对包含新词的待处理数据进行准确翻译,提升对新词的翻译效果,该第一翻译模型的训练方法包括:
步骤21:获取训练完的第二翻译模型、原始平行语料以及多个新词集。
平行语料包含原始文本和原始文本对应的翻译文本,其中,原始文本的语种与待处理数据的语种一致,翻译文本的语言与目标语言的语种一致,可根据实际翻译需求选择对应语种的平行语料来训练翻译模型,以利用训练得到的翻译模型实现待处理数据的翻译。
第二翻译模型为采用原始平行语料进行训练得到的翻译模型,新词集包括第一新词以及至少一个第二新词,第二新词为第一新词的译文,例如:第一新词可为“新冠病毒”,对应的第二新词可包含“COVID-19”以及其他语种下的“新冠病毒”;可以理解地,可从网络搜集得到新词集,第一新词可为名词或者形容词等,在此不对词性以及用法进行限定,可利用本实施例中的训练方法实现对翻译模型不同词性以及不同用法的新词的学习训练。
进一步地,原始平行语料为不包含新词的平行语料,利用原始平行语料进行训练得到的第二翻译模型无法实现对新词的准确翻译,可能存在对新词误译的情况,则此时可利用包含新词的平行语料对第二翻译模型进行训练,以提升第二翻译模型对新词的翻译效果,下面描述具体的实现方案。
步骤22:对新词集进行处理,得到包含新词集的第一训练平行语料。
可利用新词集对原始平行语料进行更新,得到包含新词集的第一训练平行语料,在原始平行语料的基础上进行更新,能够节省重新构建包含新词的训练平行语料的成本以及时间,提高构建新的训练平行语料的效率,同时还能够保证新的训练平行语料的数量,进而保证第二翻译模型的训练效果。
步骤23:对第一训练平行语料进行清洗处理,得到第二训练平行语料。
第一训练平行语料中可能出现语义或语法等方面的问题,例如:语句不通顺或者语法错误等,此时可对第一训练平行语料进行清洗处理,将第一训练平行语料中存在错误的语料过滤掉,筛选出质量好的语料作为第二训练平行语料,以保证包含新词的训练平行语料的质量。
步骤24:采用原始平行语料与第二训练平行语料,对第二翻译模型进行更新训练,得到第一翻译模型。
可将原始平行语料与第二训练平行语料进行混合,采用混合后的原始平行语料与第二训练平行语料对第二翻译模型进行更新训练,得到第一翻译模型,以使得第一翻译模型学习新词的知识,从而提升第一翻译模型的新词翻译效果;利用包含新词集的第二训练平行语料对第二翻译模型进行训练的同时,将原始平行语料共同参与第二翻译模型的训练,使得翻译模型能够在上一次模型训练的基础上进一步进行新词的训练,实现对翻译模型的增长式迭代优化,同时还能够保证训练语料的数量,进而提升第一翻译模型的训练效果以及翻译模型的鲁棒性。
本实施例可利用新词集对原始平行语料进行更新,得到包含新词集的第一训练平行语料,降低构建包含新词的训练平行语料的成本,提高构建训练平行语料的效率;而且,还可对第一训练平行语料进行清洗处理,筛选出质量好的第二训练平行语料,提高训练平行语料的质量,能够进一步提升翻译模型的训练效果以及翻译模型的鲁棒性;此外,还采用原始平行语料与第二训练平行语料对第二翻译模型进行更新训练,得到第一翻译模型,能够实现对翻译模型的增长式迭代优化,使得翻译模型不断学习新词知识,保证模型训练效果,大幅提升第一翻译模型对新词的翻译效果,而且不限制新词的词性以及用法,适用于所有新词的更新优化,适用性较广。
请参阅图3,图3是本申请提供的第一翻译模型的训练方法另一实施例的流程示意图,该方法包括:
步骤31:获取训练完的第二翻译模型、原始平行语料以及多个新词集。
上述步骤31与上述实施例中的步骤21相同,在此不作限定。
步骤32:对新词集进行处理,得到包含新词集的第一训练平行语料。
对新词集进行处理,得到包含新词集的第一训练平行语料的步骤可包括:1)获取原始平行语料的独立关键词组;2)基于独立关键词组与新词集,对原始平行语料进行更新处理,得到第一训练平行语料。
在一具体的实施方式中,原始平行语料可包括第一原始单语语料以及与第一原始单语语料对应的第二原始单语语料,第二原始单语语料为第一原始单语语料的译文,以中/英文翻译为例,第一原始单语语料可为中文的“小明在北京约见小红”,对应的第二原始单语语料便为英文的“Xiaoming meets Xiaohong in Beijing”。
请参阅图4,获取原始平行语料的独立关键词组,然后基于独立关键词组与新词集,对原始平行语料进行更新处理,得到第一训练平行语料的方法如下述步骤41~43所示:
步骤41:获取第一原始单语语料的独立关键词组,得到第一独立关键词组。
可先对第一原始单语语料以及第二原始单语语料进行对齐处理,得到对齐结果,然后基于对齐结果,从第一词组中筛选出第一独立关键词组;具体地,可利用mgiza++对齐工具对第一原始单语语料以及第二原始单语语料进行对齐处理,得到对齐结果,可以理解地,对齐工具包含但不限于 mgiza++,可根据实际情况选择合适的对齐工具执行对齐操作,在此不做限定。
进一步地,对齐结果可包括第一原始单语语料中的第一词组、第二原始单语语料中的第二词组以及第一词组与第二词组的对应关系,可先划分出第一原始单语语料中的至少一个第一词组,以及第二原始单语语料中的至少一个第二词组,然后建立第一词组与第二词组间的对应关系。例如:第一原始单语语料“小明在北京约见小红”对应的多个第一词组可包含“小明”、“北京”、“小红”,第二原始单语语料“Xiaoming meets Xiaohong inBeijing”对应的多个第二词组可包含“Xiaoming”、“Beijing”、“Xiaohong”,其中“Xiaoming”与“小明”对应,“Beijing”与“北京”对应,“Xiaohong”与“小红”对应。
独立关键词组中的“独立”指的是第一词组与第二词组的对齐关系之间不存在交叉,在一具体的实施方式中,可根据对齐结果判断的第一词组对应的第二词组之间是否存在不与该第一词组对应的其他词组,从而筛选出第一独立关键词组,以避免在下述得到包含第一新词的第一单语语料的步骤中,出现第一单语语料语法或语义错误的情况,具体筛选步骤可包括: 1)判断第二词组中的词语之间是否存在其他词组;2)若第二词组中的词语之间不存在其他词组,则确定第一词组为第一独立关键词组;3)若第二词组中的词语之间存在其他词组,则判断其他词组是否与第一词组存在对应关系;4)若其他词组与第一词组存在对应关系,则确定第一词组为第一独立关键词组。
如图5所示,以第一原始单语语料为“我是一名来自科大讯飞的智能助手晓译”,第二原始单语语料为“I am Xiaoyi,an intelligent assistant from iFLY@@TEK”为例对上述筛选出第一独立关键词组的步骤进行说明,其中,第一词组以及第二词组在图中用黑色边框示出,用连线标识第一词组与第二词组之间的对应关系。
对于第一词组“科大讯飞”来说,其对应的第二词组为“iFLY@@”和“TEK”,这两个词组之间不存在其他词组,则说明“iFLY@@”和“TEK”对应的“科大讯飞”是“独立”的,则此时可将“科大讯飞”作为一个第一独立关键词组;对于第一词组“智能助理”来说,其对应的第二词组为“intelligent assistant”,中间也没有其他词组,则说明“intelligentassistant”对应的“智能助理”是“独立”的,则此时可将“智能助理”作为一个第一独立关键词组;而如果第一词组为“智能助理晓译”,则其对应的第二词组为“Xiaoyi”与“intelligent assistant”,可知两者之前存在一个“,”和“an”,则此时不能将“智能助理晓译”作为“独立”的第一独立关键词组。
步骤42:基于第一独立关键词组与新词集,对第一原始单语语料进行更新处理,得到包含第一新词的第一单语语料。
可利用关键词预测模型对第一原始单语语料进行更新处理,得到包含第一新词的第一单语语料;具体地,可在利用上述步骤41筛选出第一原始单语语料中的第一独立关键词组之后,采用掩盖标识随机对预设数量个第一独立关键词组进行掩盖处理,即将随机选中的第一独立关键词组用掩盖标识替换掉,然后将掩盖处理后的第一原始单语语料输入关键词预测模型中,以使得关键词预测模型将掩盖标识替换成新词集中的第一新词,其中,随机掩盖的第一独立关键词组的数量一般为第一原始单语语料的总词组数量的15%,第一关键词预测模型可根据第一原始单语语料的语义以及语法将对合适的掩盖标识替换成第一新词,关键词预测模型还可将不适合的其他掩盖标识替换成出第一新词外的其他词组或者保留掩盖处理之前的原始词组,从而保证得到的第一单语语料不仅包含第一新词,且质量较好。
例如,第一新词为“新冠病毒”,而第一原始单语语料中的被掩盖掉的第一独立关键词组为“科大讯飞”,则该掩盖标识在第一原始单语语料的语句中为意为公司信息的名词词组,与第一新词“新冠病毒”表达病毒的名词词组的语义不一致,则此时可选择将“科大讯飞”对应的掩盖标识替换为“腾讯”等意为公司信息的名词词组或者保留“科大讯飞”。
可以理解地,在利用关键词预测模型对第一原始单语语料进行更新处理之前,需要先对关键词预测模型进行训练,以使得关键词预测模型学会预测新词的能力,然后再利用关键词预测模型基于第一原始单语语料生成包含第一新词的第一单语语料;具体地,从网络上获取包含第一新词的单语语料,然后对包含第一新词的单语语料进行词组划分并进行掩盖处理,其中,被掩盖的词组可包含第一新词以及随机抽取的预设数量个其他词组,其他词组的数量一般为第一新词的单语语料的总词组数量的15%;可以理解地,在对包含第一新词的单语语料进行词组划分时,可能存在将一个第一新词划分为两个词组的情况,在对第一新词进行掩盖处理时采用一个掩盖标识掩盖上述两个词组,在其他词组发生相似的划分情况时,也可执行相同的操作,在此不再赘述。
在一具体的实施方式中,可基于多语言翻译预训练模型(如mbart模型)对关键词预测模型进行训练,对关键词预测模型的参数进行微调,以提升关键词训练模型的预测效果。
在其他实施方式中,可采用自回归式的关键词预测模型,无需利用 mbart模型在训练过程中对关键词预测模型的参数进行微调,直接输入掩盖处理之后的包含第一新词的单语语料至关键词预测模型,以实现对关键词预测模型的训练。
步骤43:基于第一单语语料与第二原始单语语料,构建第一训练平行语料。
构建第一训练平行预料的流程步骤可如图6所示,在得到包含第一新词的第一单语语料之后,可根据第一单语语料将第二原始单语语料中对应的词组进行更新,得到第二单语语料,然后根据第一单语语料与第二单语语料构建第一训练平行语料;具体地,可基于对齐结果获取第一独立关键词组在第二原始单语语料中对应的第二独立关键词组;将第二独立关键词组替换为第二新词,得到第二单语语料;然后将第一单语语料与第二单语语料对齐,得到第一训练平行语料;其中,第二新词的语言与第二原始单语语料的语言相同。
可以理解地,上述步骤中的第一独立关键词组指的是被更新为第一新词的第一独立关键词组,然后将第二原始单语语料中对应的第二独立关键词组替换为第二新词,而对于更新为除了第一新词之外的其他词组(以下用“其他更新词组”来指代)的第一独立关键词组来说,可将第二原始单语语料中对应的第二独立关键词组替换为其他更新词组的译文,以与第一单语语料保持对应。
在一具体的实施方式中,还可在将第二独立关键词组替换为第二新词,得到第二单语语料的步骤之前,可先对第一单语语料进行筛选;具体地,可提取第一原始单语语料中除独立关键词组之外的其他词组,得到第一其他词组;提取第一单语语料中除第一新词之外的其他词组,得到第二其他词组;然后判断第一单语语料是否包含第一新词,且第一其他词组是否与第二其他词组一致;若第一单语语料不包含第一新词或者第一其他词组与第二其他词组不一致的其中一个情况发生,则删除第一单语语料,以防止第一单语语料中除独立关键词组之外的其他词组出现格式不一致的情况,将格式不一致或者不包含第一新词的无效第一单语语料删除,以管控后续用于训练的第一单语语料的质量,进而提升训练效果。
可以理解地,在对第一原始单语语料的独立关键词组进行更新处理的过程中,存在将独立关键词组更新为除第一新词之外的其他词组(即其他更新词组)的情况,则此时在判断格式一致性时,从第一单语语料中提取出除第一新词以及其他更新词组之外的其他词组,作为第二其他词组。
在另一实施方式中,如图7所示,上述步骤32还可包括:
步骤71:对原始平行语料进行命名实体识别,得到实体词组。
对原始平行语料进行命名实体识别(Named Entity Recognition,NER),可识别得到原始平行语料中实体词组,该实体词组可包括人名、地名或者公司名等。
步骤72:将实体词组替换为第一新词集,得到第一训练平行语料。
如图8所示,在得到原始平行语料中实体词组之后,可用特殊标记 (UNK1-3)替换实体词组,得到术语平行语料,然后再将实体词组对应的特殊标记替换为第一新词集,将第一原始单语语料中的特殊标记替换为第一新词,将第二原始单语语料中的特殊标记替换为第二新词,从而得到第一训练平行语料。
在上述采用NER的识别方法来得到第一训练平行语料的实施方式中,直接将原始平行语料更新为包含第一新词集的第一训练平行语料,对第一训练平行语料的更新效率较高,操作方便。
步骤33:对第一单语语料与第二单语语料进行评分,得到质量评分。
如图9所示,在得到包含新词集的第一训练平行语料,可利用语言模型(包含第一语言模型以及第二语言模型)对第一训练平行语料中的第一单语语料与第二单语语料进行语义评价,得到质量评分,然后再基于质量评分来判断第一单语语料与第二单语语料是否语义通顺,以筛选出质量较好的第一训练平行语料。
步骤34:基于质量评分,判断当前是否满足预设筛选条件。
可利用第一语言模型对第一单语语料进行语义评分,得到第一质量评分;然后利用第二语言模型对第二单语语料进行语义评分,得到第二质量评分;再将第一质量评分与第二质量评分相加,得到质量评分;判断质量评分是否超过预设阈值;若质量评分超过预设阈值,则确定满足预设筛选条件。
在其他实施方式中,可利用第一语言模型对第一单语语料进行语义评分,得到第一质量评分;然后利用第二语言模型对第二单语语料进行语义评分,得到第二质量评分;判断第一质量评分以及第二质量评分是否均超过预设阈值;若第一质量评分以及第二质量评分均超过预设阈值,则确定满足预设筛选条件,将第一训练平行语料确定为第二训练平行语料。
可以理解地,预设阈值可根据实际情况进行设置,在此不作限定,在其他实施方式中,还可通过对第一质量评分与第二质量评分进行加权求和或者对第一质量评分与第二质量评进行均值计算等评分方式来判断当前是否满足预设筛选条件,在此不一一举例说明。
步骤35:若不满足预设筛选条件,则将第一单语语料与第二单语语料删除,并返回对第一单语语料与第二单语语料进行评分,得到质量评分的步骤。
在质量评分没有超过预设阈值时,说明第一训练平行语料不满足预设筛选条件,该第一训练平行语料的质量较差,将该第一训练平行语料删除,并返回对第一单语语料与第二单语语料进行评分,得到质量评分的步骤。
步骤36:若满足预设筛选条件,则将第一训练平行语料确定为第二训练平行语料。
在质量评分超过预设阈值时,说明第一训练平行语料的质量较好,则此时可将第一训练平行语料确定为第二训练平行语料,继续对其他的第一训练平行语料进行质量评分,直至将所有第一训练平行语料都筛选完毕,得到第二训练平行语料。
步骤37:将第二训练平行语料与原始平行语料混合,得到第三训练平行语料。
第三训练平行语料中的第二训练平行语料的语料数量与原始平行语料的语料数量的比例为预设比例值,预设比例值可根据实际情况进行设置,其可为1:1或1:2等,在此不作限定,通过将第二训练平行语料与原始平行语料混合的方式,能够保证对第二翻译模型进行训练的语料数量,提升训练效果以及模型训练的鲁棒性。
步骤38:采用第三训练平行语料对第二翻译模型进行更新训练,得到第一翻译模型。
将第三训练平行语料输入第二翻译模型中,使得第二翻译模型学习新词的相关知识,得到第一翻译模型,以利用第一翻译模型对包含对新词的待处理数据进行翻译,得到准确的翻译结果,从而大大提升对新词的翻译效果和准确度,对第一翻译模型实现增长式迭代更新。
本实施例可利用包含新词集的平行语料对关键词预测模型进行训练,使得关键词预测模型学习新词知识,在原始平行语料中提取出独立关键词组;然后,利用关键词预测模型对原始平行语料进行更新处理,将独立关键词组替换为新词集,从而得到包含新词集的第一训练平行语料;再利用语言模型(包含第一语言模型以及第二语言模型)对第一训练平行语料进行质量筛选,得到质量较好的第二训练平行语料,提升构建训练平行语料的质量,从而提升训练效果,进而提升翻译模型对网络新词的翻译效果;此外,本实施例中的训练方法无需耗费大量的人力物力,采用的关键词预测模型、语言模型以及翻译模型都能够实现迭代优化,在上一次训练的基础上进行增长式迭代更新,能够不断学习新词知识,大大提高训练效率以及翻译效果。
请参阅图10,图10是本申请提供的翻译装置一实施例的结构示意图,翻译装置100包括互相连接的存储器101和处理器102,存储器101用于存储计算机程序,计算机程序在被处理器102执行时,用于实现上述实施例中的翻译方法。
请参阅图11,图11是本申请提供的计算机可读存储介质一实施例的结构示意图,计算机可读存储介质110用于存储计算机程序111,计算机程序 111在被处理器执行时,用于实现上述实施例中的翻译方法。
计算机可读存储介质110可以是服务端、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的几个实施方式中,应该理解到,所揭露的方法以及设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (14)

1.一种翻译方法,其特征在于,包括:
获取待处理数据,将所述待处理数据输入第一翻译模型,得到翻译数据;
其中,所述第一翻译模型的训练方法包括:
获取训练完的第二翻译模型、原始平行语料以及多个新词集,所述新词集包括第一新词以及至少一个第二新词,所述第二新词为所述第一新词的译文;
对所述新词集进行处理,得到包含所述新词集的第一训练平行语料;
对所述第一训练平行语料进行清洗处理,得到第二训练平行语料;
采用所述原始平行语料与所述第二训练平行语料,对所述第二翻译模型进行更新训练,得到所述第一翻译模型。
2.根据权利要求1所述的翻译方法,其特征在于,所述对所述新词集进行处理,得到包含所述新词集的第一训练平行语料的步骤,包括:
获取所述原始平行语料的独立关键词组;
基于所述独立关键词组与所述新词集,对所述原始平行语料进行更新处理,得到所述第一训练平行语料。
3.根据权利要求2所述的翻译方法,其特征在于,所述原始平行语料包括第一原始单语语料以及与所述第一原始单语语料对应的第二原始单语语料;所述第二原始单语语料为所述第一原始单语语料的译文,所述方法还包括:
获取所述第一原始单语语料的独立关键词组,得到第一独立关键词组;
基于所述第一独立关键词组与所述新词集,对所述第一原始单语语料进行更新处理,得到包含所述第一新词的第一单语语料;
基于所述第一单语语料与所述第二原始单语语料,构建所述第一训练平行语料。
4.根据权利要求3所述的翻译方法,其特征在于,所述获取所述第一原始单语语料的独立关键词组,得到第一独立关键词组的步骤,包括:
对所述第一原始单语语料以及所述第二原始单语语料进行对齐处理,得到对齐结果;所述对齐结果包括所述第一原始单语语料中的第一词组、所述第二原始单语语料中的第二词组以及所述第一词组与所述第二词组的对应关系;
基于所述对齐结果,从所述第一词组中筛选出所述第一独立关键词组。
5.根据权利要求4所述的翻译方法,其特征在于,所述基于所述对齐结果,从所述第一词组中筛选出所述第一独立关键词组的步骤,包括:
判断所述第二词组中的词语之间是否存在其他词组;
若所述第二词组中的词语之间不存在所述其他词组,则确定所述第一词组为所述第一独立关键词组;
若所述第二词组中的词语之间存在所述其他词组,则判断所述其他词组是否与所述第一词组存在对应关系;
若所述其他词组与所述第一词组存在对应关系,则确定所述第一词组为所述第一独立关键词组。
6.根据权利要求4所述的翻译方法,其特征在于,所述基于所述第一单语语料与所述第二原始单语语料,构建所述第一训练平行语料的步骤,包括:
基于所述对齐结果,获取所述第一独立关键词组在所述第二原始单语语料中对应的第二独立关键词组;
将所述第二独立关键词组替换为所述第二新词,得到第二单语语料,所述第二新词的语言与所述第二原始单语语料的语言相同;
将所述第一单语语料与所述第二单语语料对齐,得到所述第一训练平行语料。
7.根据权利要求6所述的翻译方法,其特征在于,所述对所述第一训练平行语料进行清洗处理,得到第二训练平行语料的步骤,包括:
对所述第一单语语料与所述第二单语语料进行评分,得到质量评分;
基于所述质量评分,判断当前是否满足预设筛选条件;
若是,则将所述第一训练平行语料确定为所述第二训练平行语料;
若否,则将所述第一单语语料与所述第二单语语料删除,并返回所述对所述第一单语语料与所述第二单语语料进行评分,得到质量评分的步骤。
8.根据权利要求7所述的翻译方法,其特征在于,所述对所述第一单语语料与所述第二单语语料进行评分,得到质量评分的步骤,包括:
利用第一语言模型对所述第一单语语料进行语义评分,得到第一质量评分;
利用第二语言模型对所述第二单语语料进行语义评分,得到第二质量评分;
将所述第一质量评分与所述第二质量评分相加,得到所述质量评分;
判断所述质量评分是否超过预设阈值;
若是,则确定满足所述预设筛选条件。
9.根据权利要求7所述的翻译方法,其特征在于,所述对所述第一单语语料与所述第二单语语料进行评分,得到质量评分的步骤,还包括:
利用第一语言模型对所述第一单语语料进行语义评分,得到第一质量评分;
利用第二语言模型对所述第二单语语料进行语义评分,得到第二质量评分;
判断所述第一质量评分以及所述第二质量评分是否均超过预设阈值;
若是,则确定满足所述预设筛选条件,将所述第一训练平行语料确定为所述第二训练平行语料。
10.根据权利要求3所述的翻译方法,其特征在于,所述方法还包括:
提取所述第一原始单语语料中除所述独立关键词组之外的其他词组,得到第一其他词组;
提取所述第一单语语料中除所述第一新词之外的其他词组,得到第二其他词组;
判断所述第一单语语料是否包含所述第一新词,且所述第一其他词组是否与所述第二其他词组一致;
若否,则删除所述第一单语语料。
11.根据权利要求1所述的翻译方法,其特征在于,所述对所述新词集进行处理,得到包含所述新词集的第一训练平行语料的步骤,还包括:
对所述原始平行语料进行命名实体识别,得到实体词组;
将所述实体词组替换为所述新词集,得到所述第一训练平行语料。
12.根据权利要求1所述的翻译方法,其特征在于,所述采用所述原始平行语料与所述第二训练平行语料,对所述第二翻译模型进行更新训练,得到所述第一翻译模型的步骤,包括:
将所述第二训练平行语料与所述原始平行语料混合,得到第三训练平行语料;所述第三训练平行语料中的第二训练平行语料的语料数量与所述原始平行语料的语料数量的比例为预设比例值;
采用所述第三训练平行语料对所述第二翻译模型进行更新训练,得到所述第一翻译模型。
13.一种翻译装置,其特征在于,包括互相连接的存储器和处理器,其中,所述存储器用于存储计算机程序,所述计算机程序在被所述处理器执行时,用于实现权利要求1-12中任一项所述的翻译方法。
14.一种计算机可读存储介质,用于存储计算机程序,其特征在于,所述计算机程序在被处理器执行时,用于实现权利要求1-12中任一项所述的翻译方法。
CN202111630203.5A 2021-12-28 2021-12-28 一种翻译方法、翻译装置和计算机可读存储介质 Pending CN114492469A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111630203.5A CN114492469A (zh) 2021-12-28 2021-12-28 一种翻译方法、翻译装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111630203.5A CN114492469A (zh) 2021-12-28 2021-12-28 一种翻译方法、翻译装置和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114492469A true CN114492469A (zh) 2022-05-13

Family

ID=81496310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111630203.5A Pending CN114492469A (zh) 2021-12-28 2021-12-28 一种翻译方法、翻译装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114492469A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230316004A1 (en) * 2022-03-31 2023-10-05 Logistics and Supply Chain MultiTech R&D Centre Limited Natural language translation model training and deployment

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230316004A1 (en) * 2022-03-31 2023-10-05 Logistics and Supply Chain MultiTech R&D Centre Limited Natural language translation model training and deployment

Similar Documents

Publication Publication Date Title
US7672832B2 (en) Standardized natural language chunking utility
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
CN109840331B (zh) 一种基于用户词典的神经机器翻译方法
CN1871597B (zh) 利用一套消歧技术处理文本的系统和方法
CN110852117B (zh) 一种提升神经机器翻译效果的有效数据增强方法
Brill A report of recent progress in transformation-based error-driven learning
CN101667177B (zh) 双语文本的对齐方法及装置
CN111310470B (zh) 一种融合字词特征的中文命名实体识别方法
KR20040044176A (ko) 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법 및장치
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
Matuschek et al. Multilingual knowledge in aligned Wiktionary and OmegaWiki for translation applications
Kang Spoken language to sign language translation system based on HamNoSys
CN114492469A (zh) 一种翻译方法、翻译装置和计算机可读存储介质
Shamsfard Challenges and opportunities in processing low resource languages: A study on persian
Gerber et al. Systran MT dictionary development
CN110162615A (zh) 一种智能问答方法、装置、电子设备和存储介质
CN107168950B (zh) 一种基于双语语义映射的事件短语学习方法及装置
CN115310433A (zh) 一种针对中文文本校对的数据增强方法
Wu et al. Transfer-based statistical translation of Taiwanese sign language using PCFG
CN114861628A (zh) 训练机器翻译模型的系统、方法、电子设备及存储介质
CN114330376A (zh) 一种计算机辅助翻译系统及方法
CN111090720B (zh) 一种热词的添加方法和装置
CN114492396A (zh) 用于汽车专有名词的文本错误纠正方法及可读存储介质
CN112149428A (zh) 基于语义分析和深度学习的智能写作辅助系统
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination