CN116595999A - 一种机器翻译模型训练方法和装置 - Google Patents

一种机器翻译模型训练方法和装置 Download PDF

Info

Publication number
CN116595999A
CN116595999A CN202310872256.0A CN202310872256A CN116595999A CN 116595999 A CN116595999 A CN 116595999A CN 202310872256 A CN202310872256 A CN 202310872256A CN 116595999 A CN116595999 A CN 116595999A
Authority
CN
China
Prior art keywords
machine translation
translation model
parallelism
vector
target language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310872256.0A
Other languages
English (en)
Other versions
CN116595999B (zh
Inventor
蒋敏
暴宇健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xumi Yuntu Space Technology Co Ltd
Original Assignee
Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xumi Yuntu Space Technology Co Ltd filed Critical Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority to CN202310872256.0A priority Critical patent/CN116595999B/zh
Publication of CN116595999A publication Critical patent/CN116595999A/zh
Application granted granted Critical
Publication of CN116595999B publication Critical patent/CN116595999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及机器翻译技术领域,提供了一种机器翻译模型训练方法和装置。该方法包括:获取包括多个平行语料的训练集;其中平行语料包括具有对应关系的源语言语句序列和目标语言语句序列;将配置特定标记的多个源语言语句序列输入至机器翻译模型,以便获得对应的目标语言翻译结果;依据第一损失函数迭代更新机器翻译模型的参数,直至达到预设的迭代终止条件,以便获得经训练的机器翻译模型;其中第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。本申请在传统损失函数基础上加入语句向量间平行关系并进行正则化处理,提高了模型泛化能力,使模型更好地适用于新语料或复杂语料。

Description

一种机器翻译模型训练方法和装置
技术领域
本申请涉及机器翻译技术领域,尤其涉及一种机器翻译模型训练方法和装置。
背景技术
早期的机器翻译模型主要是基于规则的机器翻译方法,该方法需要人来书写规则,虽然对少部分句子具有较高的翻译精度,但是对翻译现象的覆盖度有限,而且对规则或者模板中的噪声非常敏感,模型的鲁棒性较差。而基于数据驱动的机器翻译方法不依赖人书写的规则,机器翻译的建模、训练和推断都可以自动地从数据中学习,特别是统计机器翻译很快成了当时机器翻译研究与应用的代表性方法。随着机器学习的进步,特别是基于神经网络的深度学习方法在机器视觉、语音识别中被成功应用,同时也广泛应用于机器翻译。
现有的机器翻译模型大多数都依赖于大量的有标签的平行语料进行训练。然而该方法在遇到新的语言或者语料时难以获得良好的翻译效果,在翻译语言结构复杂的句子时也往往表现不佳。因此,如何能够使模型在遇到新的语言或者语料时具有更强的泛化能力,提高翻译效果,是亟待解决的技术问题。
发明内容
有鉴于此,本申请实施例提供了一种机器翻译模型训练方法、装置、电子设备及计算机可读存储介质,以解决现有技术在遇到新的语言或者语料时泛化能力有限的问题。
本申请实施例的第一方面,提供了一种机器翻译模型训练方法,包括:
获取包括多个平行语料的训练集;其中所述平行语料包括具有对应关系的源语言语句序列和目标语言语句序列;
将配置特定标记的多个所述源语言语句序列输入至机器翻译模型,以便获得对应的目标语言翻译结果;
依据第一损失函数迭代更新所述机器翻译模型的参数,直至达到预设的迭代终止条件,以便获得经训练的所述机器翻译模型;其中所述第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。
本申请实施例的第二方面,提供了一种机器翻译模型训练装置,适用于第一方面所述的机器翻译模型训练方法,包括:
训练集获取模块,能够获取包括多个平行语料的训练集;其中所述平行语料包括具有对应关系的源语言语句序列和目标语言语句序列;
目标语言翻译模块,能够将配置特定标记的多个所述源语言语句序列输入至机器翻译模型,以便获得对应的目标语言翻译结果;
机器翻译模型训练模块,能够依据第一损失函数迭代更新所述机器翻译模型的参数,直至达到预设的迭代终止条件,以便获得经训练的所述机器翻译模型;其中所述第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现第一方面所述方法的步骤。
本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现第一方面所述方法的步骤。
本申请实施例与现有技术相比存在的有益效果至少包括:本申请实施例获取包括多个平行语料的训练集,平行语料包括具有对应关系的源语言语句序列和目标语言语句序列,将配置特定标记的多个源语言语句序列输入至机器翻译模型,获得对应的目标语言翻译结果,依据第一损失函数迭代更新该机器翻译模型的参数,获得经训练的机器翻译模型,该第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。本申请实施例的机器翻译模型训练方法,在传统损失函数基础上加入了语句向量间平行关系并进行正则化处理,提高模型的泛化能力,使得模型能够很好地适用于新语料或者复杂语料。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例提供的一种机器翻译模型训练方法的流程示意图之一;
图2是本申请实施例提供的机器翻译模型结构示意图;
图3是本申请实施例提供的一种机器翻译模型训练方法的流程示意图之二;
图4是本申请实施例提供的一种机器翻译模型训练方法的流程示意图之三;
图5是本申请实施例提供的一种机器翻译模型训练方法的流程示意图之四;
图6是本申请实施例提供的机器翻译模型训练的一种实现方式示意图;
图7是本申请实施例提供的一种机器翻译模型训练装置的结构示意图;
图8是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
下面将结合附图详细说明根据本申请实施例的一种机器翻译模型训练方法、装置、电子设备和计算机可读存储介质。
如背景技术所述,基于规则的机器翻译实现了翻译的机器化,提出了机器翻译最基本的工作原理及运行模式,但由于词典及转换法则无法更好地应对深层次复杂信息而逐渐退出历史舞台。基于实例的机器翻译技术的诞生及应用取决于互联网的发展,大量免费的平行文本、多语料文本为机器翻译提供了可靠的翻译实例,但由于数据及低资源语种实例的稀缺,最终被基于统计的机器翻译取代。基于统计的机器翻译首次用算法来表示人类大脑的认知过程,在词汇、句法、语义、篇章层面力图应用数学知识逐个得出能被机器处理的运算公式,可以说是人类在计算机、因特网、认知科学、数学、计算语言学、语料库翻译学等各类领域齐头并进发展后的一种必然。
但传统的基于统计的机器翻译无法有效突破其在建模上的局限,因而在应对复杂语言问题时显得力不从心。深度学习技术很好地弥补了传统的基于统计的机器翻译在算法及建模上的不足,不仅可以更好地处理深层次语言信息,更能够实现自动的数据存储及技术升级。但由于对神经机器翻译进行数据训练的难度较大,且无法完全依靠机器的自我学习,深度学习技术支持下的神经机器翻译同样面临着诸多挑战。
基于神经网络的深度学习方法在机器视觉、语音识别中被成功应用,带来性能的飞跃式提升。深度学习方法也被用于机器翻译,在训练算法、先验约束、模型架构、受限词汇量及低资源语种翻译等方面都有长足的进展。现有的机器翻译模型大多数都依赖于大量的有标签的平行语料进行训练,主要问题集中在长句子的处理上。神经机器翻译在调序上更加复杂耗时,因而对其进行数据训练的难度更大。由于编码器在处理长句子时依然会按照固定纬度的向量编码,因而会出现误翻或漏翻的情况。为解决神经机器翻译在长句子处理上的困境,“注意力”机制作为一种可行的解决方案被引入。“注意力”机制通过同时应用正向神经循环和逆向神经循环,将两个循环的端到端“编码-解码”过程链接起来进行向量表示。这一链接可以使解码器在目标语言端有效捕捉相关的源语言上下文,使得信息传递的方式得到有效改善,通过提高机器对主要信息与次要信息的分析与区别,达到更加关注重要信息传达的准确度与流畅性。
与本申请最相近的技术方案是基于词向量的机器翻译模型训练方法。词向量模型是一种表示文本内容的高效可靠的方法,根据句子中的词组成向量空间,类似于空间中点与点之间的距离表示相似度,用来表示句子或词语的相似度,可以有效地反映文本概念的相关性。它可以将每个词映射到一个固定维度的实数向量,用来描述词语的意义和语义关系。由于词语的语义关系是一种低维的表示方式,词向量模型可以减少特征数量,消除那些不重要的特征。目前,词向量模型已被广泛用于信息检索、语言理解、机器翻译和文本分析等多种应用领域,主要用于表示文本内容的相似度。此外,词向量模型也可用于预测未登录词、文本分类和机器翻译等。
但该方法主要面临的问题包括:遇到新的语言、语料或者小语料时难以获得良好的翻译效果;现有的机器翻译模型往往需要较大的计算资源才能获得较好的效果;在翻译语言结构复杂的句子时往往表现不佳。因此,本申请使用语句向量代替词向量,即利用语句向量之间的平行性,计算句向量之间的内积,并进行正则化,加入到损失函数的优化目标当中,提升模型的泛化能力,使其在新语料或者复杂语料上得到更好的翻译效果。
如图1所示,为本申请的一种机器翻译模型训练方法流程图。上述方法包括:
S101:获取包括多个平行语料的训练集,其中上述平行语料包括具有对应关系的源语言语句序列和目标语言语句序列。
S102:将配置特定标记的多个上述源语言语句序列输入至机器翻译模型,以便获得对应的目标语言翻译结果。
S103:依据第一损失函数迭代更新上述机器翻译模型的参数,直至达到预设的迭代终止条件,以便获得经训练的上述机器翻译模型,其中上述第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。
具体地,假定从训练集中选出三句平行语料,每句平行语料的源语言语句序列和目标语言语句序列,其中,源语言为英文的语句序列为:{“It israining.”; “It issunny.”; “Goodbye.” } ,目标语言为中文的语句序列为:{“正在下雨。”; “现在晴天。”;“再见。”}。
在一些实施例中,如图2所示,上述机器翻译模型包括编码器和解码器。需要说明的是,基于神经网络的机器翻译模型,它通过编码器和解码器两个部分实现翻译功能。编码器将源语言句了转换为一个固定长度的向量表示,解码器则将这个向量作为输入,生成目标语言句子的翻译结果。此外,上述机器翻译模型还包括线性分类器;上述线性分类器能够将上述目标语言潜向量和上述第二标记向量分别转化为上述目标语言翻译结果和上述特定标记。
在一些实施例中,上述机器翻译模型包括BART、T5、GPT2、GPT3中任一种预训练语言模型。具体地,本申请实施例以BART模型为例进行说明。但应当理解的是,凡能够在图2所示的机器翻译模型框架下,基于编码器-解码器结构实现机器翻译功能的预训练语言模型,都符合本申请实施例的技术特征。具体地,BART是一种采用序列到序列模型构建的降噪自编码器,适用于各种最终任务。它使用基于标准Transformer的神经机器翻译架构。BART架构由两个主要组件组成:编码器和解码器。他们使用BERT的编码器组件,该组件用于从两个方向对输入语句进行编码,以获得更多上下文信息。BART使用了来自GPT的解码器组件,该解码器组件用于重构噪声输入。然而,单词只能在leftward上下文使用,所以它不能学习双向互动。
将配置特定标记的多个上述源语言语句序列输入至机器翻译模型,以便获得对应的目标语言翻译结果的过程,如图3所示,包括:
S311:将配置特定标记的多个上述源语言语句序列输入至上述编码器,分别获得多个对应于上述源语言语句序列的源语言潜向量以及多个对应于上述特定标记的第一标记向量。
S312:将多个上述源语言潜向量和多个上述第一标记向量输入至上述解码器,分别获得多个对应的目标语言潜向量以及多个对应于上述目标语言潜向量的第二标记向量。
在一些实施例中,由基于跨语言语句向量差的平行程度的正则项确定上述第一损失函数的过程,如图4所示,包括:
S411:依次获得与多个对应于上述平行语料的上述第一标记向量与上述第二标记向量的向量差。
S412:确定任意多个上述向量差的平行程度表征,以及获得相应的平行程度正则项
S413:依据上述平行程度正则项,修正上述机器翻译模型的监督损失函数/>,以便获得上述第一损失函数:/>;其中/>为修正因子。
需要说明的是,假定BART机器翻译模型的监督损失函数为,通过平行程度正则项对BART机器翻译模型的损失函数进行修正。在一种实施方式中,该修正因子/>的取值范围为/>,经验性地/>取为0.1左右可以用于修正原有BART机器翻译模型的监督损失函数为/>,以便形成第一损失函数。
在一些实施例中,确定多个上述向量差的平行程度表征,并获得相应的平行程度正则项,如图5所示,包括:
S511:当有个上述向量差时,至少选择其中1个上述向量差作为参照向量差,与其余上述向量差,共同确定平行程度表征。
S512:获得对应于上述平行程度表征的正则项
在一些实施例中,上述平行程度表征包括任意两个向量差之间的夹角余弦值或者任意两个向量差之间的内积。
图6为本申请一种实施例的实现方式,结合从训练集中选出三句平行语料,具体说明本申请技术方案的详细过程。如图6所示,对上述训练集的三句平行语料使用BART机器翻译模型进行翻译训练,在每一句源语言语句的末尾加入一个特定标记。本申请实施例使用<EOS>标记符号。通常地,<EOS>代表一个序列的结束,作为判断终止的标签。
如图6所示,当平行语料的每一句源语言语句输入至该BART机器翻译模型后,首先会经过编码器生成对应的源语言潜向量表示。假设句子“It is raining.”的源语言语句中三个单词生成的词潜向量为,最后字符<EOS>的潜向量表示为/>;句子“It issunny.”的源语言语句中三个单词生成的词潜向量为/>,最后字符<EOS>的潜向量表示为/>,句子“Goodbye.”的源语言语句中一个单词生成的词潜向量为/>最后字符<EOS>的潜向量表示为/>
其次,源语言语句潜向量表示经过解码器网络生成目标语言语句潜向量表示。假设句子“It is raining.”的目标语言语句中三个单词生成的词潜向量为,最后字符<EOS>的潜向量表示为/>;句子“It is sunny.”的源语言语句中三个单词生成的词潜向量为/>,最后字符<EOS>的潜向量表示为/>,句子“Goodbye.”的源语言语句中一个单词生成的词潜向量为/>最后字符<EOS>的潜向量表示为/>。最后,经过一个线性分类器转化为目标语言单词或单字,即通过BART机器翻译模型生成目标语言语句的末尾也会生成一个<EOS>标记符号。
在得到目标语言语句输出后,求出每一句平行语料的跨语言语句向量差:
当选择平行程度表征包括任意两个向量差之间的夹角余弦值时,此时平行程度表征的正则项可以定义为:
当选择平行程度表征包括任意两个向量差之间的内积时,此时平行程度表征的正则项可以定义为:
需要说明的,无论是选择任意两个向量差之间的夹角余弦值或者任意两个向量差之间的内积来表征平行程度,需要选择其中一个向量差作为参照向量差,以便获得其余向量差与该选定向量差之间的夹角余弦值或者内积。因此,假定上述3个向量差中,以/>作为参照向量差,可以通过/>与/>、/>与/>,分别求得上述的平行程度表征的正则项。应当理解的是,除了选择其中一个向量差作为参照向量差,也可以选择多个向量差作为参照向量差。选择参照向量差的数量由描述平行程度表征的正则项及其对损失函数的修正贡献和修正效果决定。但是,无论选择一个参照向量差还是多个参照向量差,均在本申请实施例技术方案的保护范围内。
本申请实施例获取包括多个平行语料的训练集,平行语料包括具有对应关系的源语言语句序列和目标语言语句序列,将配置特定标记的多个源语言语句序列输入至机器翻译模型,获得对应的目标语言翻译结果,依据第一损失函数迭代更新该机器翻译模型的参数,获得经训练的机器翻译模型,该第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。本申请实施例的机器翻译模型训练方法,在传统损失函数基础上加入了语句向量间平行关系并进行正则化处理,提高模型的泛化能力,使得模型能够很好地适用于新语料或者复杂语料。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本申请系统实施例,可以用于执行本申请方法实施例。对于本申请系统实施例中未披露的细节,请参照本申请方法实施例。
图7是本申请实施例提供的一种机器翻译模型训练装置的示意图。如图7所示,该机器翻译模型训练装置包括:
训练集获取模块701,能够获取包括多个平行语料的训练集;其中上述平行语料包括具有对应关系的源语言语句序列和目标语言语句序列;
目标语言翻译模块702,能够将配置特定标记的多个上述源语言语句序列输入至机器翻译模型,以便获得对应的目标语言翻译结果;
机器翻译模型训练模块703,能够依据第一损失函数迭代更新上述机器翻译模型的参数,直至达到预设的迭代终止条件,以便获得经训练的上述机器翻译模型;其中上述第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。
应理解,本说明书实施例的一种机器翻译模型训练装置还可执行图1至图6中机器翻译模型训练装置执行的方法,并实现机器翻译模型训练装置在图1至图6所示实例的功能,在此不再赘述。同时,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图8是本申请实施例提供的电子设备8的示意图。如图8所示,该实施例的电子设备8包括:处理器801、存储器802以及存储在该存储器802中并且可在处理器801上运行的计算机程序803。处理器801执行计算机程序803时实现上述各个方法实施例中的步骤。或者,处理器801执行计算机程序803时实现上述各装置实施例中各模块/单元的功能。
电子设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备8可以包括但不仅限于处理器801和存储器802。本领域技术人员可以理解,图8仅仅是电子设备8的示例,并不构成对电子设备8的限定,可以包括比图示更多或更少的部件,或者不同的部件。
存储器802可以是电子设备8的内部存储单元,例如,电子设备8的硬盘或内存。存储器802也可以是电子设备8的外部存储设备,例如,电子设备8上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器802还可以既包括电子设备8的内部存储单元也包括外部存储设备。存储器802用于存储计算机程序以及电子设备所需的其它程序和数据。
处理器801可以是中央处理单元(CentralProcessing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-ProgrammableGate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器801从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成共享资源访问控制装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取包括多个平行语料的训练集;其中上述平行语料包括具有对应关系的源语言语句序列和目标语言语句序列;
将配置特定标记的多个上述源语言语句序列输入至机器翻译模型,以便获得对应的目标语言翻译结果;
依据第一损失函数迭代更新上述机器翻译模型的参数,直至达到预设的迭代终止条件,以便获得经训练的上述机器翻译模型;其中上述第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。
上述如本说明书图1至图6所示实施例揭示的机器翻译模型训练方法可以应用于处理器801中,或者由处理器801实现。处理器801可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以实现或者执行本说明书实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
当然,除了软件实现方式之外,本说明书实施例的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1至图6所示实施例的机器翻译模型训练方法,并具体用于执行以下方法:
获取包括多个平行语料的训练集;其中上述平行语料包括具有对应关系的源语言语句序列和目标语言语句序列;
将配置特定标记的多个上述源语言语句序列输入至机器翻译模型,以便获得对应的目标语言翻译结果;
依据第一损失函数迭代更新上述机器翻译模型的参数,直至达到预设的迭代终止条件,以便获得经训练的上述机器翻译模型;其中上述第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。
总之,以上该仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种机器翻译模型训练方法,其特征在于,包括:
获取包括多个平行语料的训练集,其中所述平行语料包括具有对应关系的源语言语句序列和目标语言语句序列;
将配置特定标记的多个所述源语言语句序列输入至机器翻译模型,以便获得对应的目标语言翻译结果;
依据第一损失函数迭代更新所述机器翻译模型的参数,直至达到预设的迭代终止条件,以便获得经训练的所述机器翻译模型,其中所述第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。
2.根据权利要求1所述的方法,其特征在于,所述机器翻译模型包括编码器和解码器;和/或,将配置特定标记的多个所述源语言语句序列输入至机器翻译模型,以便获得对应的目标语言翻译结果的过程,包括:
将配置特定标记的多个所述源语言语句序列输入至所述编码器,分别获得多个对应于所述源语言语句序列的源语言潜向量以及多个对应于所述特定标记的第一标记向量;
将多个所述源语言潜向量和多个所述第一标记向量输入至所述解码器,分别获得多个对应的目标语言潜向量以及多个对应于所述目标语言潜向量的第二标记向量。
3.根据权利要求2所述的方法,其特征在于,由基于跨语言语句向量差的平行程度的正则项确定所述第一损失函数的过程,包括:
依次获得与多个对应于所述平行语料的所述第一标记向量与所述第二标记向量的向量差;
确定任意多个所述向量差的平行程度表征,以及获得相应的平行程度正则项
依据所述平行程度正则项,修正所述机器翻译模型的监督损失函数/>,以便获得所述第一损失函数:/>;其中/>为修正因子。
4.根据权利要求3所述的方法,其特征在于,确定多个所述向量差的平行程度表征,并获得相应的平行程度正则项,包括:
当有个所述向量差时,至少选择其中1个所述向量差作为参照向量差,与其余所述向量差,共同确定平行程度表征;
获得对应于所述平行程度表征的正则项
5.根据权利要求4所述的方法,其特征在于,所述平行程度表征包括任意两个向量差之间的夹角余弦值或者任意两个向量差之间的内积。
6.根据权利要求2所述的方法,其特征在于,所述机器翻译模型还包括线性分类器;所述线性分类器能够将所述目标语言潜向量和所述第二标记向量分别转化为所述目标语言翻译结果和所述特定标记。
7.根据权利要求1所述的方法,其特征在于,所述机器翻译模型包括BART、T5、GPT2、GPT3中任一种预训练语言模型。
8.一种机器翻译模型训练装置,其特征在于,适用于权利要求1至7任一项所述的机器翻译模型训练方法,包括:
训练集获取模块,能够获取包括多个平行语料的训练集,其中所述平行语料包括具有对应关系的源语言语句序列和目标语言语句序列;
目标语言翻译模块,能够将配置特定标记的多个所述源语言语句序列输入至机器翻译模型,以便获得对应的目标语言翻译结果;
机器翻译模型训练模块,能够依据第一损失函数迭代更新所述机器翻译模型的参数,直至达到预设的迭代终止条件,以便获得经训练的所述机器翻译模型,其中所述第一损失函数由基于跨语言语句向量差的平行程度的正则项进行确定。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器在执行所述计算机程序时,实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
CN202310872256.0A 2023-07-17 2023-07-17 一种机器翻译模型训练方法和装置 Active CN116595999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310872256.0A CN116595999B (zh) 2023-07-17 2023-07-17 一种机器翻译模型训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310872256.0A CN116595999B (zh) 2023-07-17 2023-07-17 一种机器翻译模型训练方法和装置

Publications (2)

Publication Number Publication Date
CN116595999A true CN116595999A (zh) 2023-08-15
CN116595999B CN116595999B (zh) 2024-04-16

Family

ID=87606570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310872256.0A Active CN116595999B (zh) 2023-07-17 2023-07-17 一种机器翻译模型训练方法和装置

Country Status (1)

Country Link
CN (1) CN116595999B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034968A (zh) * 2023-10-10 2023-11-10 中国科学院自动化研究所 神经机器翻译方法、装置、电子设备及介质
CN117251555A (zh) * 2023-11-17 2023-12-19 深圳须弥云图空间科技有限公司 一种语言生成模型训练方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213851A (zh) * 2018-07-04 2019-01-15 中国科学院自动化研究所 对话系统中口语理解的跨语言迁移方法
CN110188331A (zh) * 2019-06-03 2019-08-30 腾讯科技(深圳)有限公司 模型训练方法、对话系统评价方法、装置、设备及存储介质
US20200117715A1 (en) * 2018-10-10 2020-04-16 Electronics And Telecommunications Research Institute Method and device for training neural machine translation model for improved translation performance
CN111179207A (zh) * 2019-12-05 2020-05-19 浙江工业大学 一种基于并联生成网络的跨模态医学图像合成方法
CN111460838A (zh) * 2020-04-23 2020-07-28 腾讯科技(深圳)有限公司 智能翻译模型的预训练方法、装置和存储介质
US20210157991A1 (en) * 2019-11-25 2021-05-27 National Central University Computing device and method for generating machine translation model and machine-translation device
CN113240079A (zh) * 2021-04-29 2021-08-10 华为技术有限公司 一种模型训练方法及装置
WO2022116841A1 (zh) * 2020-12-04 2022-06-09 北京有竹居网络技术有限公司 文本翻译方法、装置、设备及存储介质
WO2023051148A1 (zh) * 2021-09-28 2023-04-06 北京有竹居网络技术有限公司 用于多语言处理的方法和装置
CN115983372A (zh) * 2022-11-30 2023-04-18 哲库科技(上海)有限公司 一种神经网络训练方法、装置、计算设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213851A (zh) * 2018-07-04 2019-01-15 中国科学院自动化研究所 对话系统中口语理解的跨语言迁移方法
US20200117715A1 (en) * 2018-10-10 2020-04-16 Electronics And Telecommunications Research Institute Method and device for training neural machine translation model for improved translation performance
CN110188331A (zh) * 2019-06-03 2019-08-30 腾讯科技(深圳)有限公司 模型训练方法、对话系统评价方法、装置、设备及存储介质
US20210157991A1 (en) * 2019-11-25 2021-05-27 National Central University Computing device and method for generating machine translation model and machine-translation device
CN111179207A (zh) * 2019-12-05 2020-05-19 浙江工业大学 一种基于并联生成网络的跨模态医学图像合成方法
CN111460838A (zh) * 2020-04-23 2020-07-28 腾讯科技(深圳)有限公司 智能翻译模型的预训练方法、装置和存储介质
WO2022116841A1 (zh) * 2020-12-04 2022-06-09 北京有竹居网络技术有限公司 文本翻译方法、装置、设备及存储介质
CN113240079A (zh) * 2021-04-29 2021-08-10 华为技术有限公司 一种模型训练方法及装置
WO2023051148A1 (zh) * 2021-09-28 2023-04-06 北京有竹居网络技术有限公司 用于多语言处理的方法和装置
CN115983372A (zh) * 2022-11-30 2023-04-18 哲库科技(上海)有限公司 一种神经网络训练方法、装置、计算设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
INIGO JAUREGI UNANUE ET.AL: "Regressing Word and Sentence Embeddings for Regularization of Neural Machine Translation", 《ARXIV:1909.13466V1》, pages 1 - 12 *
杨云 等: "EM算法在神经机器翻译模型中的应用研究", 计算机应用与软件, vol. 37, no. 08, pages 250 - 255 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034968A (zh) * 2023-10-10 2023-11-10 中国科学院自动化研究所 神经机器翻译方法、装置、电子设备及介质
CN117034968B (zh) * 2023-10-10 2024-02-02 中国科学院自动化研究所 神经机器翻译方法、装置、电子设备及介质
CN117251555A (zh) * 2023-11-17 2023-12-19 深圳须弥云图空间科技有限公司 一种语言生成模型训练方法和装置
CN117251555B (zh) * 2023-11-17 2024-04-16 深圳须弥云图空间科技有限公司 一种语言生成模型训练方法和装置

Also Published As

Publication number Publication date
CN116595999B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
WO2022007823A1 (zh) 一种文本数据处理方法及装置
US20200410396A1 (en) Implicit bridging of machine learning tasks
CN116595999B (zh) 一种机器翻译模型训练方法和装置
US11501089B2 (en) Electronic device and method for controlling the electronic device thereof based on determining intent of a user speech in a first language machine translated into a predefined second language
CN111611798A (zh) 一种词向量处理方法及装置
WO2022188584A1 (zh) 基于预训练语言模型的相似语句生成方法和装置
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN113590761B (zh) 文本处理模型的训练方法、文本处理方法及相关设备
CN108874765B (zh) 词向量处理方法及装置
CN116628198A (zh) 一种文本生成模型的训练方法、装置、介质及电子设备
CN113255328A (zh) 语言模型的训练方法及应用方法
US11798549B2 (en) Generating action items during a conferencing session
CN113268996A (zh) 用于扩充语料的方法和用于翻译模型的训练方法及产品
Lin et al. Chinese story generation of sentence format control based on multi-channel word embedding and novel data format
CN115129826B (zh) 电力领域模型预训练方法、精调方法、装置及设备
WO2023116572A1 (zh) 一种词句生成方法及相关设备
CN107562715B (zh) 词向量处理方法、装置以及电子设备
CN116306690A (zh) 机器翻译质量评估方法、装置、设备及存储介质
CN113887234B (zh) 一种模型训练以及推荐方法及装置
US20230042683A1 (en) Identifying and transforming text difficult to understand by user
Slim et al. Low Resource Arabic Dialects Transformer Neural Machine Translation Improvement through Incremental Transfer of Shared Linguistic Features
Almansor et al. Transferring informal text in arabic as low resource languages: State-of-the-art and future research directions
Yadav et al. Image Processing-Based Transliteration from Hindi to English
Liu et al. Mongolian word segmentation based on three character level seq2seq models
CN117251555B (zh) 一种语言生成模型训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant