CN115114939B - 翻译模型的训练方法、语句翻译方法、装置、设备、程序 - Google Patents

翻译模型的训练方法、语句翻译方法、装置、设备、程序 Download PDF

Info

Publication number
CN115114939B
CN115114939B CN202210470894.5A CN202210470894A CN115114939B CN 115114939 B CN115114939 B CN 115114939B CN 202210470894 A CN202210470894 A CN 202210470894A CN 115114939 B CN115114939 B CN 115114939B
Authority
CN
China
Prior art keywords
translation
sentence
sample
training
translation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210470894.5A
Other languages
English (en)
Other versions
CN115114939A (zh
Inventor
陈巍华
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210470894.5A priority Critical patent/CN115114939B/zh
Publication of CN115114939A publication Critical patent/CN115114939A/zh
Application granted granted Critical
Publication of CN115114939B publication Critical patent/CN115114939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种翻译模型的训练方法包括:对所述源端语句和目标语句进行拼接处理,得到第一翻译语句样本;对所述源端语句和目标语句进行随机替换处理,得到第二翻译语句样本;对篇章级单语数据进行反向翻译处理,得到第三翻译语句样本;将所述第一翻译语句样本、所述第二翻译语句样本和所述第三翻译语句样本组成训练样本集合;响应于翻译模型的初始参数,通过所述翻译模型对所述训练样本集合中的不同训练样本进行处理,确定所述翻译模型的更新参数。本发明还提供了装置、设备、软件程序及存储介质。本发明能够使得经过训练翻译模型的精确度更高,翻译效果更好,发明实施例还可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。

Description

翻译模型的训练方法、语句翻译方法、装置、设备、程序
技术领域
本发明涉及机器翻译(MT,Machine Translation)技术,尤其涉及翻译模型的训练方法、语句翻译方法、装置、设备、软件程序及存储介质。
背景技术
目前,在人们的工作、生活中经常需要将文本或语音进行翻译,一般情况下可以利用专门的翻译应用或者通过翻译网页进行机器翻译(MT,Machine Translation),但是机器翻译有时会出现翻译错误的情况,因此在行业内使用机器翻译技术时,结合机器辅助翻译(CAT,Computer-Aided Translation)是一种被广泛使用的做法。随着MT系统的进步和完善,出现了各种高效的CAT交互方式。
随着机器翻译的发展,神经网络机器翻译(NMT,Neural Machine Translation)作为新一代的翻译技术得到普通应用。神经网络机器翻译系统基于编码器-解码器框架搭建,然而,在神经网络机器翻译系统的翻译过程中,对于小语种或者缺乏训练样本的语种来说,由于训练样本数量的不足,以及现有训练样本存在大量的噪声干扰,影响了翻译模型的训练精度与训练速度,导致对翻译模型的训练效果差,进一步导致根据训练后的本翻译模型进行文本翻译的准确性低,影响了用户的正常使用。
发明内容
有鉴于此,本发明实施例提供一种翻译模型的训练方法、装置、设备、软件程序及存储介质,能够减小了传统技术中预测-估计(predictor-estimator)模型需要大量平行语句来构建翻译模型所需要的代价,可以更加适应小语种(缺少训练样本的目标语种)的翻译场景,提升翻译模型的训练精度与训练速度,同时可以减少相关技术中额外的记忆网络带来的网络结构复杂,影响训练速度的问题以及使用时翻译时间过长的问题,提升训练样本的多样性,使得经过训练翻译模型的精确度更高,翻译效果更好,提升用户的使用体验。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种翻译模型的训练方法,包括:
获取篇章级初始翻译语句样本,其中,所述篇章级初始翻译语句样本包括至少两个源端语句和至少两个目标语句;
对所述源端语句和目标语句进行拼接处理,得到第一翻译语句样本;
对所述源端语句和目标语句进行随机替换处理,得到第二翻译语句样本;
获取篇章级单语数据,并且对所述篇章级单语数据进行反向翻译处理,得到第三翻译语句样本;
将所述第一翻译语句样本、所述第二翻译语句样本和所述第三翻译语句样本组成训练样本集合;
响应于翻译模型的初始参数,通过所述翻译模型对所述训练样本集合中的不同训练样本进行处理,确定所述翻译模型的更新参数;
根据所述翻译模型的更新参数,通过所述训练样本集合中的不同训练样本对所述翻译模型的编码器参数和解码器参数进行迭代更新。
上述方案中,所述方法还包括:
确定与所述翻译模型的使用环境相匹配的动态噪声阈值;
根据所述动态噪声阈值对所述训练样本集合进行去噪处理,以形成与所述动态噪声阈值相匹配的去噪训练样本集合;或者,
确定与所述翻译模型相对应的固定噪声阈值,并根据所述固定噪声阈值对所述训练样本集合进行去噪处理,以形成与所述固定噪声阈值相匹配的去噪训练样本集合。
上述方案中,所述方法还包括:
对所述训练样本集合进行负例处理,以形成与所述训练样本集合相对应的负例样本集合,其中,所述负例样本集合用于对所述翻译模型的编码器参数和解码器参数调整。
上述方案中,所述对所述训练样本集合进行负例处理,包括:
将所述翻译模型的解码器中待输出语句进行随机组合,以形成与所述训练样本集合相对应的负例样本集合;或者,
对所述翻译模型的解码器中待输出语句进行随机删除处理或替换处理以形成与所述训练样本集合相对应的负例样本集合。
上述方案中,所述响应于所述翻译模型的初始参数,通过所述翻译模型对所述训练样本集合中的不同训练样本进行处理,确定所述翻译模型的更新参数,包括:
将所述训练样本集合中不同训练样本,代入由所述翻译模型的编码器和所述解码器构成的自编码网络对应的损失函数;
确定所述损失函数满足收敛条件时对应所述翻译模型中编码器的参数和相应的解码器参数作为所述翻译模型的更新参数。
本发明实施例提供了一种语句翻译方法,包括:
通过翻译模型的编码器,确定与待翻译语句所对应的至少一个词语级的隐变量;
通过所述翻译模型的解码器,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的翻译词语以及所述翻译词语的被选取概率;
根据所述翻译结果的被选取概率,选取至少一个翻译词语组成与所述待翻译语句相对应的翻译结果;
输出所述翻译结果。
本发明实施例还提供了一种翻译模型的训练装置,所述训练装置包括:
数据传输模块,用于获取篇章级初始翻译语句样本,其中,所述篇章级初始翻译语句样本包括至少两个源端语句和至少两个目标语句;
翻译模型训练模块,用于对所述源端语句和目标语句进行拼接处理,得到第一翻译语句样本;
所述翻译模型训练模块,用于对所述源端语句和目标语句进行随机替换处理,得到第二翻译语句样本;
所述翻译模型训练模块,用于获取篇章级单语数据,并且对所述篇章级单语数据进行反向翻译处理,得到第三翻译语句样本;
所述翻译模型训练模块,用于将所述第一翻译语句样本、所述第二翻译语句样本和所述第三翻译语句样本组成训练样本集合;
所述翻译模型训练模块,用于响应于翻译模型的初始参数,通过所述翻译模型对所述训练样本集合中的不同训练样本进行处理,确定所述翻译模型的更新参数;
所述翻译模型训练模块,用于根据所述翻译模型的更新参数,通过所述训练样本集合中的不同训练样本对所述翻译模型的编码器参数和解码器参数进行迭代更新。
上述方案中,所述翻译模型训练模块,用于根据所述翻译模型的应用环境,确定所述篇章级初始翻译语句样本的语言种类标识;
所述翻译模型训练模块,用于根据所述语言种类标识,查询与所述语言种类标识相对应的视频字幕信息;
所述翻译模型训练模块,用于对所述视频字幕信息进行文本提取处理,得到所述篇章级初始翻译语句样本;或者
所述翻译模型训练模块,用于根据所述语言种类标识,查询与所述语言种类标识相对应的游戏程序展示信息;
所述翻译模型训练模块,用于对所述视频字幕信息进行文本识别处理,得到所述篇章级初始翻译语句样本。
上述方案中,所述翻译模型训练模块,用于为所述源端语句和目标语句配置拼接语句数量;
所述翻译模型训练模块,用于根据所述拼接语句数量,对所述源端语句和目标语句进行顺序拼接处理,得到顺序拼接翻译语句样本;
所述翻译模型训练模块,用于将所述顺序拼接翻译语句样本作为所述第一翻译语句样本。
上述方案中,所述翻译模型训练模块,用于为所述源端语句和目标语句配置拼接语句数量;
所述翻译模型训练模块,用于根据所述拼接语句数量,对所述源端语句和目标语句进行随机旋转拼接处理,得到随机旋转拼接翻译语句样本;
所述翻译模型训练模块,用于将所述随机旋转拼接翻译语句样本作为所述第一翻译语句样本。
上述方案中,所述翻译模型训练模块,用于为所述源端语句和目标语句配置拼接语句数量;
所述翻译模型训练模块,用于根据所述拼接语句数量,对所述源端语句和目标语句进行顺序拼接处理,得到顺序拼接翻译语句样本;
所述翻译模型训练模块,用于根据所述拼接语句数量,对所述源端语句和目标语句进行随机旋转拼接处理,得到随机旋转拼接翻译语句样本;
所述翻译模型训练模块,用于对所述顺序拼接翻译语句样本,和所述随机旋转拼接翻译语句样本进行组合,得到所述第一翻译语句样本。
上述方案中,所述翻译模型训练模块,用于当对所述源端语句和目标语句进行顺序拼接处理时,对所述源端语句进行随机替换,并保持所述目标语句的顺序不变,得到第一随机替换语句样本;
所述翻译模型训练模块,用于将所述第一随机替换语句样本作为所述第二翻译语句样本。
上述方案中,所述翻译模型训练模块,用于当对所述源端语句和目标语句进行旋转拼接处理时,对所述源端语句进行随机替换,并基于所述源端语句的随机替换结果,对所述目标语句的顺序进行调整,得到第二随机替换语句样本;
所述翻译模型训练模块,用于将所述第二随机替换语句样本作为所述第二翻译语句样本。
上述方案中,所述翻译模型训练模块,用于当对所述源端语句和目标语句进行顺序拼接处理时,对所述源端语句进行随机替换,并保持所述目标语句的顺序不变,得到第一随机替换语句样本;
所述翻译模型训练模块,用于当对所述源端语句和目标语句进行旋转拼接处理时,对所述源端语句进行随机替换,并基于所述源端语句的随机替换结果,对所述目标语句的顺序进行调整,得到第二随机替换语句样本;
所述翻译模型训练模块,用于对所述第一随机替换语句样本,和所述第二随机替换语句样本进行组合,得到所述第二翻译语句样本。
上述方案中,所述翻译模型训练模块,用于根据所述翻译模型的应用环境,确定不同语言类型的篇章级初始翻译语句样本和篇章级单语数据;
所述翻译模型训练模块,用于基于所述篇章级初始翻译语句样本和篇章级单语数据,对所述训练样本集合进行扩增,以实现与所述翻译模型的应用环境相匹配。
上述方案中,所述翻译模型训练模块,用于确定与所述翻译模型的使用环境相匹配的动态噪声阈值;
所述翻译模型训练模块,用于根据所述动态噪声阈值对所述训练样本集合进行去噪处理,以形成与所述动态噪声阈值相匹配的去噪训练样本集合;或者,
所述翻译模型训练模块,用于确定与所述翻译模型相对应的固定噪声阈值,并根据所述固定噪声阈值对所述训练样本集合进行去噪处理,以形成与所述固定噪声阈值相匹配的去噪训练样本集合。
上述方案中,所述翻译模型训练模块,用于对所述训练样本集合进行负例处理,以形成与所述训练样本集合相对应的负例样本集合,其中,所述负例样本集合用于对所述翻译模型的编码器参数和解码器参数调整。
上述方案中,所述翻译模型训练模块,用于将所述翻译模型的解码器中待输出语句进行随机组合,以形成与所述训练样本集合相对应的负例样本集合;或者,所述翻译模型训练模块,用于对所述翻译模型的解码器中待输出语句进行随机删除处理或替换处理以形成与所述训练样本集合相对应的负例样本集合。
上述方案中,所述翻译模型训练模块,用于将所述训练样本集合中不同训练样本,代入由所述翻译模型的编码器和所述解码器构成的自编码网络对应的损失函数;
所述翻译模型训练模块,用于所述翻译模型训练模块,用于确定所述损失函数满足收敛条件时对应所述翻译模型中编码器的参数和相应的解码器参数作为所述翻译模型的更新参数。
本发明实施例还提供了一种语句翻译装置,装置包括:
编码器模块,用于通过翻译模型的编码器,确定与待翻译语句所对应的至少一个词语级的隐变量;
解码器模块,用于通过所述翻译模型的解码器,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的翻译词语以及所述翻译词语的被选取概率;
所述解码器模块,用于根据所述翻译结果的被选取概率,选取至少一个翻译词语组成与所述待翻译语句相对应的翻译结果;
所述解码器模块,用于输出所述翻译结果。
本发明实施例还提供了一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前序的翻译模型的训练方法。
本发明实施例还提供了一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现前序的翻译模型的训练方法,或者前序的语句翻译方法。
本发明实施例具有以下有益效果:
本发明所提供的技术方案通过获取篇章级初始翻译语句样本,其中,所述篇章级初始翻译语句样本包括至少两个源端语句和至少两个目标语句;对所述源端语句和目标语句进行拼接处理,得到第一翻译语句样本;对所述源端语句和目标语句进行随机替换处理,得到第二翻译语句样本;获取篇章级单语数据,并且对所述篇章级单语数据进行反向翻译处理,得到第三翻译语句样本;将所述第一翻译语句样本、所述第二翻译语句样本和所述第三翻译语句样本组成训练样本集合;响应于翻译模型的初始参数,通过所述翻译模型对所述训练样本集合中的不同训练样本进行处理,确定所述翻译模型的更新参数;根据所述翻译模型的更新参数,通过所述训练样本集合中的不同训练样本对所述翻译模型的编码器参数和解码器参数进行迭代更新,由此,能够减小了传统技术中预测-估计(predictor-estimator)模型需要大量平行语句来构建翻译模型所需要的代价,可以更加适应小语种(缺少训练样本的目标语种)的翻译场景,提升翻译模型的训练精度与训练速度,同时可以减少相关技术中额外的记忆网络带来的网络结构复杂,影响训练速度的问题以及使用时翻译时间过长的问题,提升训练样本的多样性,使得经过训练翻译模型的精确度更高,翻译效果更好,提升用户的使用体验,使得翻译模型能够适应不同的小语种的翻译场景。
附图说明
图1为本发明实施例提供的翻译模型训练方法的使用场景示意图;
图2为本发明实施例提供的翻译模型的训练装置的组成结构示意图;
图3为本发明实施例提供的翻译模型的训练方法一个可选的流程示意图;
图4为本发明实施例中篇章级初始翻译语句样本的显示状态示意图;
图5为本发明实施例提供的翻译模型的训练方法一个可选的流程示意图;
图6本发明实施例中翻译模型一个可选的框架示意图;
图7为本发明实施例中翻译模型一个可选的结构示意图;
图8为本发明实施例中翻译模型一个可选的翻译过程示意图;
图9为本发明实施例中翻译模型中编码器一个可选的结构示意图;
图10为本发明实施例中翻译模型中编码器的向量拼接示意图;
图11为本发明实施例中翻译模型中编码器的编码过程示意图;
图12为本发明实施例中翻译模型中解码器的解码过程示意图;
图13为本发明实施例提供的翻译模型的文本语句处理方法一个可选的流程示意图;
图14为本发明实施例提供的翻译模型的训练方法一个可选的流程示意图;
图15为本发明实施例中视频字幕信息翻译效果示意图;
图16为本发明实施例中翻译模型工作示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)待翻译语句,在进行语言转换之前输入翻译模型的对应某种自然语言的语句。
2)翻译结果,翻译模型输出的对源语句进行语言转换之后的对应某种自然语言的语句。
3)参考语句,预先设置的对源语句进行语言转换之后的对应某种自然语言的参考标准。
4)忠实度,表征目标语句的内容与源语句内容接近程度的介于0和1之间的参数,作为评价对源语句翻译准确度高低的标准,值越大表明目标语句的内容与源语句内容接近程度越高,即翻译的准确度越高。
5)翻译,将一种自然语言的语句转换成另一种自然语言的语句。
6)神经网络(Neural Network,NN):人工神经网络(Artificial Neural Network,ANN),简称神经网络或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。
7)机器翻译(Machine Translation,MT):属于计算语言学的范畴,其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。神经网络机器翻译(Neural Machine Translation,NMT)是使用神经网络技术进行机器翻译的一种技术。
9)编码器-解码器结构:机器翻译技术常用的网络结构。由编码器和解码器两部分组成,编码器将输入的文本转换为一系列能够表达输入文本特征的上下文向量,解码器接收编码器输出的结果作为自己的输入,输出对应的另一种语言的文本序列。
10)源端句子:机器翻译待翻译的句子(视频字幕翻译场景下,汉语、英语端)目标端句子:机器翻译中翻译译文(字幕翻译场景下,泰语、印尼语端);平行语料/平行句对:源端句子与对应的目标端句子,构成的训练样本,可用于训练翻译模型。
图1为本发明实施例提供的翻译模型训练方法的使用场景示意图,参考图1,终端(包括终端10-1和终端10-2)上设置有翻译软件的客户端,用户通过所设置的翻译软件客户端可以输入相应的待翻译语句,聊天客户端也可以接收相应的翻译结果,并将所接收的翻译结果向用户进行展示;也可以设置有视频播放软件的客户端,视频服务器中部署经过训练的翻译模型,对视频字幕中的文本信息进行翻译,视频客户端将翻译结果向用户进行展示,以方便用户理解视频内容;终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
作为一个示例,服务器200用于布设所述翻译模型并对所述翻译模型进行训练,以更新所述翻译模型中编码器网络的参数和解码器网络的参数,以实现将通过翻译模型中编码器网络和解码器网络生成针对目标待翻译语句的翻译结果,并通过终端(终端10-1和/或终端10-2)展示翻译模型所生成的与待翻译语句相对应的翻译结果。为了更好地理解本申请实施例提供的方法,首先对人工智能、人工智能的各个分支,以及本申请实施例提供的方法所涉及的应用领域、云技术和人工智能云服务进行说明。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。以下对各个方向分别进行说明。
自然语言处理(NLP,Nature Language processin)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(ML,Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
所谓人工智能云服务,一般也被称作是AI即服务(AIaaS,AI as a Service),是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自己专属的云人工智能服务。
本申请实施例提供的方案涉及人工智能的自然语言处理、机器学习、人工智能云服务等技术,具体通过如下实施例进行说明。
将结合本申请实施例提供的终端的示例性应用和实施,说明本申请实施例提供的基于翻译模型训练方法。
当然在通过翻译模型对目标待翻译语句进行处理以生成相应的翻译结果之前,还需要对翻译模型进行训练,具体包括:获取篇章级初始翻译语句样本,其中,所述篇章级初始翻译语句样本包括至少两个源端语句和至少两个目标语句;对所述源端语句和目标语句进行拼接处理,得到第一翻译语句样本;对所述源端语句和目标语句进行随机替换处理,得到第二翻译语句样本;获取篇章级单语数据,并且对所述篇章级单语数据进行反向翻译处理,得到第三翻译语句样本;将所述第一翻译语句样本、所述第二翻译语句样本和所述第三翻译语句样本组成训练样本集合;响应于翻译模型的初始参数,通过所述翻译模型对所述训练样本集合中的不同训练样本进行处理,确定所述翻译模型的更新参数;根据所述翻译模型的更新参数,通过所述训练样本集合中的不同训练样本对所述翻译模型的编码器参数和解码器参数进行迭代更新。
下面对本发明实施例的翻译模型的训练装置的结构做详细说明,翻译模型的训练装置可以各种形式来实施,如本申请实施例中的电子设备可以为带有翻译模型训练功能的专用终端,也可以为设置有翻译模型训练功能的服务器,例如前序图1中的服务器200。图2为本发明实施例提供的翻译模型的训练装置的组成结构示意图,可以理解,图2仅仅示出了翻译模型的训练装置的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
本发明实施例提供的翻译模型的训练装置包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。翻译模型的训练装置中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的翻译模型的训练装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的翻译模型训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的翻译模型训练方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable LogicDevice)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的翻译模型的训练装置采用软硬件结合实施的示例,本发明实施例所提供的翻译模型的训练装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的翻译模型训练方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的翻译模型的训练装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的翻译模型训练方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持翻译模型的训练装置的操作。这些数据的示例包括:用于在翻译模型的训练装置上操作的任何可执行指令,如可执行指令,实现本发明实施例的从翻译模型训练方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的翻译模型的训练装置可以采用软件方式实现,图2示出了存储在存储器202中的翻译模型的训练装置,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括翻译模型的训练装置,翻译模型的训练装置中包括以下的软件模块:数据传输模块2081,翻译模型训练模块2082。当翻译模型的训练装置中的软件模块被处理器201读取到RAM中并执行时,将实现本发明实施例提供的翻译模型训练方法,下面介绍本发明实施例中翻译模型的训练装置中各个软件模块的功能,其中,
数据传输模块2081,用于获取篇章级初始翻译语句样本,其中,所述篇章级初始翻译语句样本包括至少两个源端语句和至少两个目标语句。
翻译模型训练模块2082,用于对所述源端语句和目标语句进行拼接处理,得到第一翻译语句样本。
所述翻译模型训练模块2082,用于对所述源端语句和目标语句进行随机替换处理,得到第二翻译语句样本。
所述翻译模型训练模块2082,用于获取篇章级单语数据,并且对所述篇章级单语数据进行反向翻译处理,得到第三翻译语句样本。
所述翻译模型训练模块2082,用于将所述第一翻译语句样本、所述第二翻译语句样本和所述第三翻译语句样本组成训练样本集合。
所述翻译模型训练模块2082,用于响应于翻译模型的初始参数,通过所述翻译模型对所述训练样本集合中的不同训练样本进行处理,确定所述翻译模型的更新参数。
所述翻译模型训练模块2082,用于根据所述翻译模型的更新参数,通过所述训练样本集合中的不同训练样本对所述翻译模型的编码器参数和解码器参数进行迭代更新。
在本发明的一些实施例中,经过训练的翻译模型进行部署时,实施例中的电子设备还可以包括语句翻译装置,具体来说,语句翻译装置包括:
编码器模块,用于通过翻译模型的编码器,确定与待翻译语句所对应的至少一个词语级的隐变量。解码器模块,用于通过所述翻译模型的解码器,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的翻译词语以及所述翻译词语的被选取概率。所述解码器模块,用于根据所述翻译结果的被选取概率,选取至少一个翻译词语组成与所述待翻译语句相对应的翻译结果。所述解码器模块,用于输出所述翻译结果。
结合图2示出的翻译模型的训练装置说明本发明实施例提供的翻译模型的训练方法,在介绍本发明实施例提供的翻译模型的训练方法之前,首先介绍相关技术中对小语种文本的翻译过程中,相关技术的处理方式包括:1)机器翻译的模型每次模型的训练都是从随机初始化的参数开始,对于小语种文本的翻译,由于缺少有效的训练样本,因此,将多语言平行语料混合在一起进行端到端的训练;2)对翻译模型的结构进行调整,在端到端系统中引入多个编码器(encoder)和多个解码器(decoder)的方案来利用上下文的信息来提升篇章级别的翻译效果,但是无论哪一种方式,在使用时拉近不同语种但意思相同的词间的高维空间表示,对于词在不同句子中的表达方式不同的情况缺乏考虑;而多个encoder和多个decoder组合的方案模型参数更大,需要更多的数据来进行驱动,但由于小语种训练样本的匮乏,效果改善不明显,影响翻译模型的训练速度和精确度。
为解决这一相关技术中的缺陷,参考图3,图3为本发明实施例提供的翻译模型的训练方法一个可选的流程示意图,可以理解地,图3所示的步骤可以由运行翻译模型训练装置的各种电子设备执行,例如可以是如带有模型训练功能的专用终端、带有翻译模型训练功能的服务器或者服务器集群。下面针对图3示出的步骤进行说明。
步骤301:翻译模型训练装置获取篇章级初始翻译语句样本,其中,所述篇章级初始翻译语句样本包括至少两个源端语句和至少两个目标语句。
在本发明的一些实施例中,获取篇章级初始翻译语句样本,可以通过以下方式实现:
根据所述翻译模型的应用环境,确定所述篇章级初始翻译语句样本的语言种类标识;根据所述语言种类标识,查询与所述语言种类标识相对应的视频字幕信息;对所述视频字幕信息进行文本提取处理,得到所述篇章级初始翻译语句样本;或者根据所述语言种类标识,查询与所述语言种类标识相对应的游戏程序展示信息;对所述视频字幕信息进行文本识别处理,得到所述篇章级初始翻译语句样本。其中,图4为本发明实施例中篇章级初始翻译语句样本的显示状态示意图,游戏程序展示信息根据用户的不同使用需求可以进行调整,图4分别示出了同一游戏程序的展示信息在中文应用环境与泰文应用环境中的不同显示状态,对游戏程序展示信息进行文本识别处理,得到篇章级初始翻译语句样本,包括了两个源端语句和两个目标语句,分别为“XX荣耀第一关;”、“XX荣耀英雄选择;”以及“XX荣耀的角色技能介绍,”。
在本发明的一些实施例中,以游戏显示界面中的语句翻译为例,例如对于A游戏中显示界面所呈现的的泰文语句,以及经过翻译的中文语句,可以作为目标翻译记忆语句和对应的源端语句,并保存在翻译记忆库中,当需要对B游戏中显示界面所呈现的的泰文语句记性翻译时,可以在翻译记忆库中获取与B游戏中的待翻译语句相匹配的目标翻译记忆语句以及对应的源端语句完成对翻译模型的训练。
步骤302:对所述源端语句和目标语句进行拼接处理,得到第一翻译语句样本。
在本发明的一些实施例中,对所述源端语句和目标语句进行拼接处理,得到第一翻译语句样本,可以通过以下方式实现:
为所述源端语句和目标语句配置拼接语句数量;根据所述拼接语句数量,对所述源端语句和目标语句进行顺序拼接处理,得到顺序拼接翻译语句样本;根据所述拼接语句数量,对所述源端语句和目标语句进行随机旋转拼接处理,得到随机旋转拼接翻译语句样本;对所述顺序拼接翻译语句样本,和所述随机旋转拼接翻译语句样本进行组合,得到所述第一翻译语句样本。其中,结合前序实施例,以源端语句和目标语句配置拼接语句数量为3为例,源端语句的标识分别为1/2/3,目标语句的标识分别为11/22/33,进行顺序拼接处理时,分别将源端语句1/2/3和目标语句11/22/33进行拼接,得到“XX荣耀第一关;、“XX荣耀英雄选择、XX荣耀的角色技能介绍”; 进一步地,进行随机旋转拼接处理时,源端语句进行随机旋转,目标端语句也跟着旋转,得到“XX荣耀第一关、“XX荣耀的角色技能介绍、XX荣耀英雄选择”;
在本发明的一些实施例中,为了节省翻译模型的训练时间,在得到第一翻译语句样本时,还可以为所述源端语句和目标语句配置拼接语句数量;根据所述拼接语句数量,对所述源端语句和目标语句进行顺序拼接处理,得到顺序拼接翻译语句样本;将所述顺序拼接翻译语句样本作为所述第一翻译语句样本。例如源端语句的标识分别为1/2/3/4,目标语句的标识分别为11/22/33/44,进行顺序拼接处理时,分别将源端语句1/2/3和目标语句11/22/33/44进行拼接,得到“XX荣耀第一关、XX荣耀英雄选择、XX荣耀的角色技能介绍,XX荣耀的角色购买; 以及/>由此,可以提升翻译模型的训练速度,并保证对在线实时对战游戏中东南亚语言的翻译效果的准确性,使得用户获得更好的翻译使用体验。
在本发明的一些实施例中,为了节省翻译模型的训练时间,同时保证翻译样本语句的复杂性,在得到第一翻译语句样本时,为所述源端语句和目标语句配置拼接语句数量;根据所述拼接语句数量,对所述源端语句和目标语句进行随机旋转拼接处理,得到随机旋转拼接翻译语句样本;将所述随机旋转拼接翻译语句样本作为所述第一翻译语句样本。例如:进行随机旋转拼接处理时,源端语句进行随机旋转,目标端语句也跟着旋转,得到随机旋转拼接翻译语句样本“XX荣耀第一关、“XX荣耀的角色技能介绍、XX荣耀英雄选择”; 可以直接作为第一翻译语句样本,由此,可以实现对语法复杂的东南亚语言的翻译,使得用户获得更好的翻译使用体验。由此,可以提升翻译模型的训练速度,并保证对在线实时对战游戏中东南亚语言的翻译效果的准确性,使得用户获得更好的翻译使用体验。
步骤303:对所述源端语句和目标语句进行随机替换处理,得到第二翻译语句样本。
参考图5,图5为本发明实施例提供的翻译模型的训练方法一个可选的流程示意图,可以实现语句样本的随机替换处理,可以理解地,图5所示的步骤可以由运行翻译模型训练装置的各种电子设备执行,例如可以是如带有模型训练功能的专用终端、带有翻译模型训练功能的服务器或者服务器集群。下面针对图5示出的步骤进行说明。
步骤501:当对所述源端语句和目标语句进行顺序拼接处理时,对所述源端语句进行随机替换,并保持所述目标语句的顺序不变,得到第一随机替换语句样本。
步骤502:当对所述源端语句和目标语句进行旋转拼接处理时,对所述源端语句进行随机替换,并基于所述源端语句的随机替换结果,对所述目标语句的顺序进行调整,得到第二随机替换语句样本。
步骤503:对所述第一随机替换语句样本,和所述第二随机替换语句样本进行组合,得到所述第二翻译语句样本。
其中,结合前序实施例,以源端语句和目标语句配置拼接语句数量为3为例,源端语句的标识分别为1/2/3,目标语句的标识分别为11/22/33,进行顺序拼接处理时,分别将源端语句1/2/3和目标语句11/22/33进行拼接,得到“XX荣耀第一关、“XX荣耀英雄选择、XX荣耀的角色技能介绍”; 进一步地,进行随机替换处理时,源端语句进行随机替换,目标端语句可以不变,也可以基于源端语句的随机替换结果,对目标语句的顺序进行调整,达到丰富训练样本数量的效果。经过随机替换处理,可以得到“XX荣耀第一关、XX荣耀英雄选择”;/>XX荣耀的角色技能介绍、也可以得到“XX荣耀第一关、XX荣耀英雄选择”;
在本发明的一些实施例中,得到第二翻译语句样本时,为了减少翻译模型的训练时间,当对源端语句和目标语句进行顺序拼接处理时,可以对源端语句进行随机替换,并保持目标语句的顺序不变,得到第一随机替换语句样本;将第一随机替换语句样本作为第二翻译语句样本。例如第一随机替换语句样本“XX荣耀第一关、“XX荣耀英雄选择、XX荣耀的角色技能介绍”; 可以直接作为第二翻译语句样本,由此,可以提升翻译模型的训练速度,节省翻译模型的训练成本。
在本发明的一些实施例中,得到第二翻译语句样本时,为了减少翻译模型的训练时间,同时保证模型能够对语序出现错误的东南亚语言进行准确的翻译,当对源端语句和目标语句进行旋转拼接处理时,对源端语句进行随机替换,并基于源端语句的随机替换结果,对目标语句的顺序进行调整,得到第二随机替换语句样本;将第二随机替换语句样本直接作为第二翻译语句样本,例如第一随机替换语句样本“XX荣耀第一关、“XX荣耀英雄选择、XX荣耀的角色技能介绍”; 可以直接作为第二翻译语句样本,由此,可以压缩模型训练过程中所使用的样本数量,节省翻译模型的训练成本,同时也可以保证翻译模型对语序出现错误的东南亚语言进行准确翻译。
步骤304:获取篇章级单语数据,并且对所述篇章级单语数据进行反向翻译处理,得到第三翻译语句样本。
在本发明的一些实施例中,获取翻译模型的初始参数之前,还可以进行以下操作:
根据所述翻译模型的应用环境,确定不同语言类型的篇章级初始翻译语句样本和篇章级单语数据;基于所述篇章级初始翻译语句样本和篇章级单语数据,对所述训练样本集合进行扩增,以实现与所述翻译模型的应用环境相匹配。例如,为了丰富样本容量,还可以扩充语言类型包括:菲律宾语(XX荣耀的角色技能,Kapayahan sa papel ngkaluwalhatian ng Hari);越南语(XX荣耀的角色技能,);老挝语(XX荣耀的角色技能,/>)。
步骤305:将所述第一翻译语句样本、所述第二翻译语句样本和所述第三翻译语句样本组成训练样本集合。
在本发明的一些实施例中,由于第三翻译语句样本是通过多语种翻译模型进行反向翻译所得到的,因此,第三翻译语句样本的准确性较高,可以直接作为训练样本集合的组成部分,当翻译模型需要对复杂语法的东南亚语言(例如印尼文)进行翻译时,由于缺少有效的训练样本,为了进一步的扩大训练样本集合中的样本多样性,保证翻译模型能够对复杂语法的东南亚语言进行准确翻译,可以对第三翻译语句样本的源端语句和目标语句进行顺序拼接和或随机旋转拼接处理,得到第四翻译语句样本,第四翻译语句样本可以直接加入训练样本集合中,形成新的训练样本集合;同时,第四翻译语句样本中的源端语句和目标语句的拼接顺序也可以进行调整,并将经过调整的第四翻译语句样本加入训练样本集合中,形成新的训练样本集合,以进一步地提升训练样本集的丰富性,保证翻译模型的翻译结果准确。
在本发明的一些实施例中,当训练样本集合中的训练样本数量超过训练样本数量阈值时,还需要对训练样本集合进行除噪,具体包括:
确定与所述翻译模型的使用环境相匹配的动态噪声阈值;
根据所述动态噪声阈值对所述训练样本集合进行去噪处理,以形成与所述动态噪声阈值相匹配的去噪训练样本集合;或者,确定与所述翻译模型相对应的固定噪声阈值,并根据所述固定噪声阈值对所述训练样本集合进行去噪处理,以形成与所述固定噪声阈值相匹配的去噪训练样本集合。其中由于翻译模型的使用环境不同,与所述翻译模型的使用环境相匹配的动态噪声阈值也不相同,例如,学术翻译的使用环境中,与所述翻译模型的使用环境相匹配的动态噪声阈值需要小于文章阅读环境中的动态噪声阈值。
在本发明的一些实施例中,当翻译模型固化于相应的硬件机构中,使用环境为口语化翻译时,通过固定翻译模型相对应的固定噪声阈值,能够有效提神翻译模型的训练速度,减少用户的等待时间。
确定训练样本集合之后,继续执行步骤306。
步骤306:响应于翻译模型的初始参数,通过所述翻译模型对所述训练样本集合中的不同训练样本进行处理,确定所述翻译模型的更新参数。
在本发明的一些实施例中,初始化所述解码器网络以更新所述解码器网络的参数,可以通过以下方式实现:
通过所述解码器网络的编码器对所述待翻译语句进行编码,形成所述待翻译语句的编码结果;通过所述解码器网络的解码器,对所述待翻译语句的编码结果进行解码;当解码得到与所述待翻译语句相对应的翻译结果的被选取概率时,确定所述解码器络的参数。例如:初始化训练训练后的翻译模型的解码器网络根据相应的待翻译语句生成了3个生成翻译结果词语,分别是翻译结果a(概率为0.45)、翻译结果b(概率为0.5)以及翻译结果c(概率为0.45),那么概率分布为{0.45,0.5,0.45}。
由此,可以实现所述翻译模型能够根据相应的待翻译语句输出损失值最小的翻译结果。
在本发明的一些实施例中,响应于所述翻译模型的初始参数,通过所述翻译模型对所述训练样本集合中的不同训练样本进行处理,确定所述翻译模型的更新参数,可以通过以下方式实现:
将所述训练样本集合中不同训练样本,代入由所述翻译模型的编码器和所述解码器构成的自编码网络对应的损失函数;确定所述损失函数满足收敛条件时对应所述翻译模型中编码器的参数和相应的解码器参数作为所述翻译模型的更新参数。其中,编码器网络的损失函数表示为:
loss_A=∑(decoder_A(encoder(warp(x1)))-x1)2;具体来说,decoder_A为解码器A,warp为待翻译语句的函数,x1为待翻译语句,encoder为编码器。
在迭代训练的过程中,通过将待翻译语句代入编码器网络的损失函数,求解损失函数按照梯度(例如最大梯度)下降时编码器A和解码器A的参数,当损失函数收敛时(即确定能够形成与所述待翻译语句所对应的词语级的隐变量时),结束训练。
对编码器网络的训练过程中,编码器网络的损失函数表示为:loss_B=∑(decoder_B(encoder(warp(x2)))-x2)2;其中,decoder_B为解码器B,warp为待翻译语句的函数,x2为待翻译语句,encoder为编码器。
在迭代训练的过程中,通过将待翻译语句代入编码器网络的损失函数,求解损失函数按照梯度(例如最大梯度)下降时编码器B和解码器B的参数;当损失函数收敛时(即当解码得到与所述待翻译语句相对应的翻译结果的被选取概率时),结束训练。
由此,可以实现所述翻译模型能够根据相应的待翻译语句输出损失值最小的翻译结果,保证翻译结果的精确性。
在本发明的一些实施例中,所述方法还包括:
对所述训练样本集合进行负例处理,以形成与所述训练样本集合相对应的负例样本集合,其中,所述负例样本集合用于调整所述翻译模型的编码器参数和解码器参数调整。对所述训练样本集合进行负例处理,可以通过以下方式实现:
将所述翻译模型的解码器中待输出语句进行随机组合,以形成与所述训练样本集合相对应的负例样本集合;或者,对所述翻译模型的解码器中待输出语句进行随机删除处理或替换处理以形成与所述训练样本集合相对应的负例样本集合。
步骤307:根据所述翻译模型的更新参数,通过所述训练样本集合中的不同训练样本对所述翻译模型的编码器参数和解码器参数进行迭代更新。
下面结合具体的翻译模型的结构,对本发明实施例所提供的翻译模型使用过程进行说明,其中,由于东南亚地区的游戏用户普遍使用泰文或者印度尼西亚文,如果仅显示中文往往不能使得该地区用户及时理解游戏汇总虚拟对象和虚拟场景的含义,因此,通过翻译模型,可以及时的获取虚拟对象和虚拟场景的外文含义,经过训练的翻译模型可以对日本游戏服务器的游戏场景中的文字信息进行翻译,翻译模型为transformer结构。
图6本发明实施例中翻译模型一个可选的框架示意图,通过图6所示的预训练-微调框架。预训练阶段,不同于传统预训练模型大量堆叠无监督单语数据的方式,可以采用了多语言(东南亚小语种)平行数据作为预训练的主要目标,将几十种语言的平行数据放到同一个模型进行联合训练。神经网络结构采用Transformer结构,加上语言标识符(Languagetoken)标识源语言和目标语言。为了保证不同语言的句子和词语能嵌入到同一个空间,同一个意思的句子无论中文还是英文说得都应该是对应同一个向量表示,又引入了随机替换对齐技术RAS,来制造更丰富的上下文,实现样本数量的丰富。
继续参考图7,图7本发明实施例中翻译模型一个可选的结构示意图,其中,Encoder包括:N=6个相同的layers组成,每一层包含两个sub-layers。第一个sub-layer就是多头注意力层(multi-head attention layer)然后是一个简单的全连接层。其中每个sub-layer都加了残差连接(residual connection)和归一化(normalisation)。
Decoder包括:由N=6个相同的Layer组成,其中layer和encoder并不相同,这里的layer包含了三个sub-layers,其中有一个self-attention layer,encoder-decoderattention layer最后是一个全连接层。前两个sub-layer都是基于multi-head attentionlayer。具体的,左侧的Nx表示编码器的其中一层的结构,这一层中包括两个子层,第一个子层为多头注意力层,第二个子层为前向传播层。每个子层的输入和输出都存在关联,当前子层的输出作为下一个子层的一个输入数据。每个子层的后面紧接着一个归一化操作,归一化操作能够提高模型的收敛速度。右侧的Nx表示解码器的其中一层的结构,解码器的一层中包括三个子层,第一个子层为mask矩阵控制的多头注意力子层,用来建模已经生成的目标端句子向量,在训练的过程中,需要一个mask矩阵来控制,使得每次多头注意力计算的时候,只计算到前t-1个词。第二个子层是多头注意力子层,是编码器和解码器之间的注意力机制,也就是在源文本中查找相关的语义信息,该层的计算使用了点积的方式。第三个子层是前向传播子层,与编码器中的前向传播子层的计算方式一致。解码器的每个子层之间也都存在着关联,当前子层的输出作为下一个子层的一个输入数据。并且解码器的每个子层之后同样紧接着一个归一化操作,以加快模型收敛。
继续参考图8,图8为本发明实施例中翻译模型一个可选的翻译过程示意图,其中,其中,encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的inputs结合embedding和positional embedding。通过了6个encoder之后,输出到了decoder部分的每一个decoder中;输入待翻译语句为“無双の魔呂布は言った。「これから戦場は私一人で支配します。私と戦う人がいます。经过翻译模型的处理,翻译记忆库中保存有原始翻译语句“蒼天翔竜趙雲は言います。「勇者の誓いは、生死よりも甚だしい!恐れないと心に抱いて、空を飛べます。”;以及源端语句“苍天翔龙赵云说:“勇者之誓,甚于生死!心怀不惧,方能翱翔于天际!”;在翻译记忆库中获取与同样是日语的目标翻译记忆语句对应的中文源端语句后,对翻译模型进行训练,最终通过翻译模型所输出的翻译结果为:“无双之魔吕布说:“从此刻开始,战场由我一人主宰!可有人敢与我一战!”
继续参考图9,图9为本发明实施例中翻译模型中编码器一个可选的结构示意图,其中,其输入由维度为d的查询(Q)和键(K)以及维度为d的值(V)组成,所有键计算查询的点积,并应用softmax函数获得值的权重。
继续参考图9,图9为本发明实施例中翻译模型中编码器的向量示意图,其中Q,K和V的是通过输入encoder的向量x与W^Q,W^K,W^V相乘得到Q,K和V。W^Q,W^K,W^V在文章的维度是(512,64),然后假设可以inputs的维度是(m,512),其中m代表了字的个数。所以输入向量与W^Q,W^K,W^V相乘之后得到的Q、K和V的维度就是(m,64)。
继续参考图10,图10为本发明实施例中翻译模型中编码器的向量拼接示意图,其中,Z0到Z7就是对应的8个并行的head(维度是(m,64)),然后concat这个8个head之后就得到了(m,512)维度。最后与W^O相乘之后就到了维度为(m,512)的输出的矩阵,那么这个矩阵的维度就和进入下一个encoder的维度保持一致。
继续参考图11,图11为本发明实施例中翻译模型中编码器的编码过程示意图,其中,通过self-attetion的张量还需要进过残差网络和Later Norm的处理,然后进入到全连接的前馈网络中,前馈网络需要进行同样的操作,进行的残差处理和正规化。最后输出的张量才可以的进入到了下一个encoder之中,然后这样的操作,迭代经过了6次,迭代处理的结果进入到decoder中。
继续参考图12,图12为本发明实施例中翻译模型中解码器的解码过程示意图,其中,decoder的输入输出和解码过程:
输出:对应i位置的输出词的概率分布;
输入:encoder的输出&对应i-1位置decoder的输出。所以中间的attention不是self-attention,它的K,V来自encoder,Q来自上一位置decoder的输出。
结合图2示出的翻译模型训练装置继续说明本发明实施例提供的翻译模型的文本语句处理方法,参见图13,图13为本发明实施例提供的翻译模型的文本语句处理方法一个可选的流程示意图,可以理解地,图13示的步骤可以由运行翻译模型训练装置的各种电子设备执行,例如可以是如带有待翻译语句处理功能的专用终端、带有待翻译语句处理功能的服务器或者服务器集群。下面针对图13示出的步骤进行说明。
步骤1301:通过翻译模型的编码器,确定与待翻译语句所对应的至少一个词语级的隐变量。
步骤1302:通过所述翻译模型的解码器,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的翻译词语以及所述翻译词语的被选取概率。
步骤1303:根据所述翻译结果的被选取概率,选取至少一个翻译词语组成与所述待翻译语句相对应的翻译结果。
步骤1304:输出所述翻译结果。
在对经过训练的翻译模型进行测试时,使用3000个双语字幕和50000个单语字幕进行了篇章翻译数据的生成,并用生成的数据进行了翻译模型的训练,并在经过训练的翻译模型的基础上进行了多语种翻译模型的训练,得到更加针对某一小语种的翻译模型,其中,测试效果参考表1,
表1
为了更好的说明本申请提供的翻译模型的训练方法的处理过程,下面以对视频中的字幕进行翻译为例说明翻译模型的训练方法,参考图14,图14为本发明实施例提供的翻译模型的训练方法一个可选的流程示意图,具体包括以下步骤:
步骤1401:获取篇章级双语数据(中印尼、中泰、英泰、英印尼等)。
步骤1402:对源端语句和目标端语句进行按顺序拼接,得到篇章训练双语数据。
步骤1403:对拼接好源端语句和目标端语句的各个拼接前的单句进行随机替换,生成新的篇章级训练双语数据。
步骤1404:对源端语句和目标端语句进行随机旋转拼接,如:1、2、3的顺序拼接修改成1、3、2,得到篇章训练双语数据。
步骤1405:对拼接好源端和目标端各个拼接前的单句进行随机替换,并调整目标端语序,生成新的篇章级训练双语数据。
步骤1406:通过多语种翻译模型进行反向翻译,将目标端的数据进行翻译得到源端翻译的数据。
步骤1407:输入篇章级单语数据(印尼语、泰语)。
步骤1408:循环执行步骤1401-步骤407,得到训练样本集合。
步骤1409:对翻译模型进行训练,确定翻译模型参数。
图15为本发明实施例中视频字幕信息翻译效果示意图,结合图14所示的步骤,下面通过表2,说明视频字幕信息翻译的过程:
表2
/>
/>
翻译模型训练完成后,可以部署在视频服务器中,对图15所呈现的视频字幕进行翻译,参考图16,图16为本发明实施例中翻译模型工作示意图,翻译模型的输入为源端长句,翻译模型的输出为目标端长句,使得翻译模型能够适应印尼语的翻译场景。
综上所述,本发明实施例具有以下技术效果:
本发明所提供的技术方案通过获取篇章级初始翻译语句样本,其中,所述篇章级初始翻译语句样本包括至少两个源端语句和至少两个目标语句;对所述源端语句和目标语句进行拼接处理,得到第一翻译语句样本;对所述源端语句和目标语句进行随机替换处理,得到第二翻译语句样本;获取篇章级单语数据,并且对所述篇章级单语数据进行反向翻译处理,得到第三翻译语句样本;将所述第一翻译语句样本、所述第二翻译语句样本和所述第三翻译语句样本组成训练样本集合;响应于翻译模型的初始参数,通过所述翻译模型对所述训练样本集合中的不同训练样本进行处理,确定所述翻译模型的更新参数;根据所述翻译模型的更新参数,通过所述训练样本集合中的不同训练样本对所述翻译模型的编码器参数和解码器参数进行迭代更新,由此,能够减小了传统技术中预测-估计(predictor-estimator)模型需要大量平行语句来构建翻译模型所需要的代价,可以更加适应小语种(缺少训练样本的目标语种)的翻译场景,提升翻译模型的训练精度与训练速度,同时可以减少相关技术中额外的记忆网络带来的网络结构复杂,影响训练速度的问题以及使用时翻译时间过长的问题,提升训练样本的多样性,使得经过训练翻译模型的精确度更高,翻译效果更好,提升用户的使用体验,使得翻译模型能够适应不同的小语种的翻译场景。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种翻译模型的训练方法,其特征在于,所述训练方法包括:
获取篇章级初始翻译语句样本,其中,所述篇章级初始翻译语句样本包括至少两个源端语句和至少两个目标语句;
对所述源端语句和目标语句进行拼接处理,得到第一翻译语句样本;
对所述源端语句和目标语句进行随机替换处理,得到第二翻译语句样本;
获取篇章级单语数据,并且对所述篇章级单语数据进行反向翻译处理,得到第三翻译语句样本;
将所述第一翻译语句样本、所述第二翻译语句样本和所述第三翻译语句样本组成训练样本集合;
响应于翻译模型的初始参数,通过所述翻译模型对所述训练样本集合中的不同训练样本进行处理,确定所述翻译模型的更新参数;
根据所述翻译模型的更新参数,通过所述训练样本集合中的不同训练样本对所述翻译模型的编码器参数和解码器参数进行迭代更新。
2.根据权利要求1所述的方法,其特征在于,所述获取篇章级初始翻译语句样本,包括:
根据所述翻译模型的应用环境,确定所述篇章级初始翻译语句样本的语言种类标识;
根据所述语言种类标识,查询与所述语言种类标识相对应的视频字幕信息;
对所述视频字幕信息进行文本提取处理,得到所述篇章级初始翻译语句样本;或者
根据所述语言种类标识,查询与所述语言种类标识相对应的游戏程序展示信息;
对所述游戏程序展示信息进行文本识别处理,得到所述篇章级初始翻译语句样本。
3.根据权利要求1所述的方法,其特征在于,对所述源端语句和目标语句进行拼接处理,得到第一翻译语句样本,包括:
为所述源端语句和目标语句配置拼接语句数量;
根据所述拼接语句数量,对所述源端语句和目标语句进行顺序拼接处理,得到顺序拼接翻译语句样本;
将所述顺序拼接翻译语句样本作为所述第一翻译语句样本。
4.根据权利要求1所述的方法,其特征在于,对所述源端语句和目标语句进行拼接处理,得到第一翻译语句样本,包括:
为所述源端语句和目标语句配置拼接语句数量;
根据所述拼接语句数量,对所述源端语句和目标语句进行随机旋转拼接处理,得到随机旋转拼接翻译语句样本;
将所述随机旋转拼接翻译语句样本作为所述第一翻译语句样本。
5.根据权利要求1所述的方法,其特征在于,对所述源端语句和目标语句进行拼接处理,得到第一翻译语句样本,包括:
为所述源端语句和目标语句配置拼接语句数量;
根据所述拼接语句数量,对所述源端语句和目标语句进行顺序拼接处理,得到顺序拼接翻译语句样本;
根据所述拼接语句数量,对所述源端语句和目标语句进行随机旋转拼接处理,得到随机旋转拼接翻译语句样本;
对所述顺序拼接翻译语句样本,和所述随机旋转拼接翻译语句样本进行组合,得到所述第一翻译语句样本。
6.根据权利要求3所述的方法,其特征在于,对所述源端语句和目标语句进行随机替换处理,得到第二翻译语句样本,包括:
当对所述源端语句和目标语句进行顺序拼接处理时,对所述源端语句进行随机替换,并保持所述目标语句的顺序不变,得到第一随机替换语句样本;
将所述第一随机替换语句样本作为所述第二翻译语句样本。
7.根据权利要求3所述的方法,其特征在于,对所述源端语句和目标语句进行随机替换处理,得到第二翻译语句样本 ,包括 :
当对所述源端语句和目标语句进行旋转拼接处理时,对所述源端语句进行随机替换,并基于所述源端语句的随机替换结果,对所述目标语句的顺序进行调整,得到第二随机替换语句样本;
将所述第二随机替换语句样本作为所述第二翻译语句样本。
8.根据权利要求3所述的方法,其特征在于,对所述源端语句和目标语句进行随机替换处理,得到第二翻译语句样本,包括:
当对所述源端语句和目标语句进行顺序拼接处理时,对所述源端语句进行随机替换,并保持所述目标语句的顺序不变,得到第一随机替换语句样本;
当对所述源端语句和目标语句进行旋转拼接处理时,对所述源端语句进行随机替换,并基于所述源端语句的随机替换结果,对所述目标语句的顺序进行调整,得到第二随机替换语句样本;
对所述第一随机替换语句样本,和所述第二随机替换语句样本进行组合,得到所述第二翻译语句样本。
9.根据权利要求1所述的方法,其特征在于,获取翻译模型的所述初始参数之前,所述方法还包括:
根据所述翻译模型的应用环境,确定不同语言类型的篇章级初始翻译语句样本和篇章级单语数据;
基于所述篇章级初始翻译语句样本和篇章级单语数据,对所述训练样本集合进行扩增,以实现与所述翻译模型的应用环境相匹配。
10.一种语句翻译方法,其特征在于,所述方法包括:
通过翻译模型的编码器,确定与待翻译语句所对应的至少一个词语级的隐变量;
通过所述翻译模型的解码器,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的翻译词语以及所述翻译词语的被选取概率;
根据所述翻译词语的被选取概率,选取至少一个翻译词语组成与所述待翻译语句相对应的翻译结果;
输出所述翻译结果;
其中,所述翻译模型基于权利要求1至9任一项所述的方法训练得到。
11.一种翻译模型的训练装置,其特征在于,所述训练装置包括:
数据传输模块,用于获取篇章级初始翻译语句样本,其中,所述篇章级初始翻译语句样本包括至少两个源端语句和至少两个目标语句;
翻译模型训练模块,用于对所述源端语句和目标语句进行拼接处理,得到第一翻译语句样本;
所述翻译模型训练模块,用于对所述源端语句和目标语句进行随机替换处理,得到第二翻译语句样本;
所述翻译模型训练模块,用于获取篇章级单语数据,并且对所述篇章级单语数据进行反向翻译处理,得到第三翻译语句样本;
所述翻译模型训练模块,用于将所述第一翻译语句样本、所述第二翻译语句样本和所述第三翻译语句样本组成训练样本集合;
所述翻译模型训练模块,用于响应于翻译模型的初始参数,通过所述翻译模型对所述训练样本集合中的不同训练样本进行处理,确定所述翻译模型的更新参数;
所述翻译模型训练模块,用于根据所述翻译模型的更新参数,通过所述训练样本集合中的不同训练样本对所述翻译模型的编码器参数和解码器参数进行迭代更新。
12.一种语句翻译装置,其特征在于,所述装置包括:
编码器模块,用于通过翻译模型的编码器,确定与待翻译语句所对应的至少一个词语级的隐变量;
解码器模块,用于通过所述翻译模型的解码器,根据所述至少一个词语级的隐变量,生成与所述词语级的隐变量相对应的翻译词语以及所述翻译词语的被选取概率;
所述解码器模块,用于根据所述翻译词语的被选取概率,选取至少一个翻译词语组成与所述待翻译语句相对应的翻译结果;
所述解码器模块,用于输出所述翻译结果;
其中,所述翻译模型基于权利要求1至9任一项所述的方法训练得到。
13.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至9任一项所述的翻译模型的训练方法,或者实现权利要求10所述的语句翻译方法。
14.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时,实现权利要求1至9任一项所述的翻译模型的训练方法,或者实现权利要求10所述的语句翻译方法。
15.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至9任一项所述的翻译模型的训练方法,或者实现权利要求10所述的语句翻译方法。
CN202210470894.5A 2022-04-28 2022-04-28 翻译模型的训练方法、语句翻译方法、装置、设备、程序 Active CN115114939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210470894.5A CN115114939B (zh) 2022-04-28 2022-04-28 翻译模型的训练方法、语句翻译方法、装置、设备、程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210470894.5A CN115114939B (zh) 2022-04-28 2022-04-28 翻译模型的训练方法、语句翻译方法、装置、设备、程序

Publications (2)

Publication Number Publication Date
CN115114939A CN115114939A (zh) 2022-09-27
CN115114939B true CN115114939B (zh) 2024-03-22

Family

ID=83327078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210470894.5A Active CN115114939B (zh) 2022-04-28 2022-04-28 翻译模型的训练方法、语句翻译方法、装置、设备、程序

Country Status (1)

Country Link
CN (1) CN115114939B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992894B (zh) * 2023-09-26 2024-01-16 北京澜舟科技有限公司 一种机器翻译模型的训练方法和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631772A (zh) * 2012-08-29 2014-03-12 阿里巴巴集团控股有限公司 机器翻译方法及装置
CN110457719A (zh) * 2019-10-08 2019-11-15 北京金山数字娱乐科技有限公司 一种翻译模型结果重排序的方法及装置
CN111027333A (zh) * 2019-12-20 2020-04-17 北京百度网讯科技有限公司 篇章翻译方法和装置
CN111931517A (zh) * 2020-08-26 2020-11-13 腾讯科技(深圳)有限公司 文本翻译方法、装置、电子设备以及存储介质
CN113239708A (zh) * 2021-04-28 2021-08-10 华为技术有限公司 一种模型训练的方法、翻译的方法以及装置
CN114065778A (zh) * 2020-07-31 2022-02-18 北京搜狗科技发展有限公司 篇章级翻译方法、翻译模型训练方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631772A (zh) * 2012-08-29 2014-03-12 阿里巴巴集团控股有限公司 机器翻译方法及装置
CN110457719A (zh) * 2019-10-08 2019-11-15 北京金山数字娱乐科技有限公司 一种翻译模型结果重排序的方法及装置
CN111027333A (zh) * 2019-12-20 2020-04-17 北京百度网讯科技有限公司 篇章翻译方法和装置
CN114065778A (zh) * 2020-07-31 2022-02-18 北京搜狗科技发展有限公司 篇章级翻译方法、翻译模型训练方法及装置
CN111931517A (zh) * 2020-08-26 2020-11-13 腾讯科技(深圳)有限公司 文本翻译方法、装置、电子设备以及存储介质
CN113239708A (zh) * 2021-04-28 2021-08-10 华为技术有限公司 一种模型训练的方法、翻译的方法以及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Document Context Neural Machine Translation with Memory Networks;Sameen Maruf等;Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Long Papers);第1275–1284页 *
Neural Machine Translation with Monolingual Translation Memory;Deng Cai等;Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing;第7307–7318页 *
篇章级神经机器翻译研究;张培;中国优秀硕士学位论文全文数据库,信息科技辑(第2期);全文 *

Also Published As

Publication number Publication date
CN115114939A (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
JP7072585B2 (ja) 文脈固有の単語ベクトルを用いた自然言語処理
CN111738025B (zh) 基于人工智能的翻译方法、装置、电子设备和存储介质
CN110598224A (zh) 翻译模型的训练方法、文本处理方法、装置及存储介质
CN110140133A (zh) 机器学习任务的隐式桥接
CN112214591B (zh) 一种对话预测的方法及装置
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
CN115795009A (zh) 基于生成式多语言模型的跨语言问答系统构建方法和装置
CN112084295A (zh) 跨语言的任务训练
CN110705273B (zh) 基于神经网络的信息处理方法及装置、介质和电子设备
Dewangan et al. Experience of neural machine translation between Indian languages
CN114757210A (zh) 翻译模型的训练方法、语句翻译方法、装置、设备、程序
CN115114939B (zh) 翻译模型的训练方法、语句翻译方法、装置、设备、程序
CN115827838A (zh) 基于故事续写和动态知识库的对话生成方法及系统
CN117034951A (zh) 基于大语言模型的具有特定语言风格的数字人
CN114970666B (zh) 一种口语处理方法、装置、电子设备及存储介质
JP7327647B2 (ja) 発話生成装置、発話生成方法、プログラム
CN116029261A (zh) 中文文本语法纠错方法及相关设备
CN113705251A (zh) 机器翻译模型的训练方法、语言翻译方法及设备
CN110909142B (zh) 一种问答模型的问题语句处理方法、装置、电子设备及存储介质
CN113555006B (zh) 一种语音信息识别方法、装置、电子设备及存储介质
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
Kawabe et al. Braille Translation System Using Neural Machine Translation Technology II–Code Conversion of Kana-Kanji Mixed Sentences
CN117876940B (zh) 视频语言任务执行及其模型训练方法、装置、设备、介质
CN111988673B (zh) 视频描述语句的生成方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant