CN114239608A - 翻译方法、模型训练方法、装置、电子设备及存储介质 - Google Patents

翻译方法、模型训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114239608A
CN114239608A CN202111353074.XA CN202111353074A CN114239608A CN 114239608 A CN114239608 A CN 114239608A CN 202111353074 A CN202111353074 A CN 202111353074A CN 114239608 A CN114239608 A CN 114239608A
Authority
CN
China
Prior art keywords
translation
model
translating
training
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111353074.XA
Other languages
English (en)
Other versions
CN114239608B (zh
Inventor
张睿卿
王曦阳
刘辉
何中军
李芝
吴华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111353074.XA priority Critical patent/CN114239608B/zh
Publication of CN114239608A publication Critical patent/CN114239608A/zh
Priority to JP2022116365A priority patent/JP7472421B2/ja
Priority to US17/951,216 priority patent/US20230153543A1/en
Application granted granted Critical
Publication of CN114239608B publication Critical patent/CN114239608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种翻译方法、模型训练方法、装置、电子设备及存储介质,涉及机器学习与信息处理等人工智能技术领域。具体实现方案为:基于待翻译的指定语句和预先训练的赋权模型,获取预先训练的至少两个翻译模型中各所述翻译模型翻译所述指定语句对应的权重;基于各所述翻译模型翻译所述指定语句的权重,采用所述至少两个翻译模型对所述指定语句进行翻译。本公开的技术,能够有效地提高翻译的准确性。

Description

翻译方法、模型训练方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,具体涉及机器学习与信息处理等人工智能技术领域,尤其涉及一种翻译方法、模型训练方法、装置、电子设备及存储介质。
背景技术
翻译是一项技术性和专业性非常强的工作,传统技术中依靠专业的翻译人员来完成翻译。
近年来,随着人工智能的发展,基于人工智能实现的翻译模型能够极大地提高翻译的效率。翻译模型可以采用神经网络模型来实现。使用时,可以采用人工标注的训练数据,对翻译模型进行有监督地训练。使用时,向翻译模型输入待翻译的语句,该翻译模型可以输出翻译后的语句。
发明内容
本公开提供了一种翻译方法、模型训练方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种翻译方法,其中,包括:
基于待翻译的指定语句和预先训练的赋权模型,获取预先训练的至少两个翻译模型中各所述翻译模型翻译所述指定语句对应的权重;
基于各所述翻译模型翻译所述指定语句的权重,采用所述至少两个翻译模型对所述指定语句进行翻译。
根据本公开的另一方面,提供了一种模型训练方法,包括:
采集训练语句;
基于所述训练语句、预先训练的至少两个翻译模型以及预设的随机权重分配器,对赋权模型进行训练。
根据本公开的再一方面,提供了一种翻译装置,其中,包括:
权重获取模块,用于基于待翻译的指定语句和预先训练的赋权模型,获取预先训练的至少两个翻译模型中各所述翻译模型翻译所述指定语句对应的权重;
翻译模块,用于基于各所述翻译模型翻译所述指定语句的权重,采用所述至少两个翻译模型对所述指定语句进行翻译。
根据本公开的又一方面,提供了一种模型训练装置,包括:
采集模块,用于采集训练语句;
训练模块,用于基于所述训练语句、预先训练的至少两个翻译模型以及预设的随机权重分配器,对赋权模型进行训练。
根据本公开的再另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。
根据本公开的又另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。
根据本公开的再又另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。
根据本公开的技术,能够有效地提高翻译的准确性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开提供的一种机器翻译示意图;
图2是根据本公开第一实施例的示意图;
图3是根据本公开第二实施例的示意图;
图4是本实施例提供一种翻译方法的架构图;
图5是根据本公开第三实施例的示意图;
图6是根据本公开第四实施例的示意图;
图7是本实施例提供一种模型训练方法的架构图;
图8是本实施例提供的赋权模型的原理图;
图9是根据本公开第五实施例的示意图;
图10是根据本公开第六实施例的示意图;
图11是用来实现本公开实施例的上述方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
需要说明的是,本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(TabletComputer)等智能设备;显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
机器翻译(Machine Translation:MT)模型的任务,可以描述为:
输入:含有n个字的源语言句子
Figure BDA0003356573750000031
输出:X对应的翻译结果:
Figure BDA0003356573750000032
yi表示目标端翻译得到的第i个词,在神经网络模型中也可以称为第i个token。
自回归的推理方式,可以表示为
p(yt|x)=p(yt|y1,2,...,t-1,x) (1)
即目标翻译结果中的第t个词的生成,取决于源语言句子X,以及目标端该第t个词之前已生成的t-1个词。
为了提升MT模型的翻译效果,通常会训练多个MT模型,通过模型融合(ensemble)实现装置的整体翻译效果,
图1是本公开提供的一种机器翻译示意图。如图1所示,以翻译装置中包括三个翻译模型MT1、MT2和MT3为例。MT1、MT2和MT3每个模型单独的翻译结果都不正确,但可以通过模型融合产生正确的翻译结果。如图1所示,对于源语言句子“whenever did you findtime to do all that cooking?”,MT1翻译的结果为:什么时候你有时间,做这些饭吧?MT2的翻译结果为:你什么时候有时间做所有的烹饪?MT3的翻译结果为:你什么时候找到了这些时间做这些饭的?而经过模型ensemble后的翻译结果为:你什么时候有时间做这些饭的?经过对比可以得知,模型融合后的翻译结果更加准确。
假设翻译装置中融合了K个MT模型,这K个模型可以是同一个翻译架构下的不同模型,也可以属于不同的翻译架构;其中翻译架构可以为循环神经网络(Recurrent NeuralNetwork;RNN)、卷积神经网络(Convolutional Neural Networks,CNN)、或者Transformer网络。
在模型推理时,将K个模型同时加载到图形处理器(Graphics Processing Unit;GPU)中;翻译过程中,每生成一个目标词如第t个目标词时,采用如下公式(2),计算K个模型的推理概率的平均,推理概率的平均最大的词即为该位置的目标词。
Figure BDA0003356573750000041
如上所述,在翻译装置中各个MT模型在融合时,各MT模型概率是相同的,如上述公式(2)所示,都是1/K。这忽略了模型之间的差异性:有的模型适合短query,有的模型适合长query,各模型所擅长的翻译领域可能也不同,所以该融合方式会导致翻译装置的翻译结果仍然不够准确。
图2是根据本公开第一实施例的示意图;如图2所示,本实施例提供一种翻译方法,可以应用在MT的翻译装置中,具体可以包括如下步骤:
S101、基于待翻译的指定语句和预先训练的赋权模型,获取预先训练的至少两个翻译模型中各翻译模型翻译指定语句对应的权重;
S102、基于各翻译模型翻译指定语句的权重,采用至少两个翻译模型对指定语句进行翻译。
翻译方法本实施例的翻译方法所应用的翻译装置的架构中,可以包括至少两个翻译模型以及一个赋权模型。其中翻译模型的数量可以基于实际需求来设置,可以为2个、3个或者其他数量个。
翻译不同的句子,赋权模型为至少两个翻译模型中的各翻译模型赋予不同的权重。也就是说,赋权模型具体如何为各翻译模型配置权重,还需要参考待翻译的句子。
例如,在本公开的一个实施例中,有些翻译模型在翻译长语句时有较强的优势,赋权模型可以赋予其较高的权重,而对于有些翻译模型不太擅长翻译的长语句时,赋权模型可以赋予其较低的权重。由于各翻译模型为预先训练的,
再例如,在本公开的一个实施例中,各个翻译模型可能擅长翻译的领域并不相同,对于擅长领域的语句的翻译,赋权模型可以赋予该翻译模型较高的权重。而对于不太擅长的领域的翻译,赋权模型可以赋予该翻译模型较低的权重。
具体使用时,将待翻译的指定语句输入至预先训练好的赋权模型中,该赋权模型基于待翻译的指定句子,可以输出至少两个翻译模型中各翻译模型翻译该指定句子的权重。具体地,赋权模型的输出可以为一个包括各翻译模型的对应的权重的权重向量。然后可以基于各翻译模型翻译指定语句的权重,采用至少两个翻译模型对指定语句进行翻译。
本实施例的翻译方法,通过采用上述技术方案,可以基于赋权模型为至少两个翻译模型中各翻译模型配置翻译指定语句的权重,进而可以使得至少两个翻译模型基于配置的权重对指定语句进行翻译,由于权重不同,使得对指定语句的翻译有优势的翻译模型对翻译结果的影响更大,进而可以进一步提高翻译的准确性。
图3是根据本公开第二实施例的示意图;如图3所示,本实施例的翻译方法,在上述图2所示实施例的技术方案的基础上,进一步更加详细地描述本公开的技术方案。如图3所示,本实施例的翻译方法,具体可以包括如下步骤:
S301、基于待翻译的指定语句和预先训练的赋权模型,获取预先训练的至少两个翻译模型中各翻译模型翻译指定语句对应的权重;
S302、基于各翻译模型翻译指定语句的权重,获取至少两个翻译模型翻译指定语句的过程中,生成的各个位置的目标词;
本实施例中,至少两个翻译模型在翻译指定语句时,是按照从前至后的顺序,一个目标词一个目标词来生成。对于任一位置k的目标词的确定过程,先由至少两个翻译模型中每个翻译模型可以生成该第k个位置的一个、两个或者多个候选词,其中各候选词就可以为词典中的任意一个词。然后结合至少两个翻译模型翻译该指定语句的权重,确定该第k位置的目标词。
例如,对应每个位置的目标词的生成方式,具体可以采用如下步骤来实现:
(1)对于各位置,获取至少两个翻译模型中各翻译模型翻译指定语句的过程中,预测的该位置上的数个候选词以及各候选词对应的概率;
例如,对于第k个位置,各翻译模型可以预测并输出词典中任意一个、两个或者多个能够出现在该位置的候选词、以及各候选词对应的概率。本实施例中,每个翻译模型预测的每个位置的数个候选词的数量可以为一个、两个或者多个,在此不做限定。
另外,不同的翻译模型预测的同一位置的数个候选词之间可以有交集,但是可以不完全相同。例如,第一个翻译模型预测的第k个位置的候选词可以为“有”,概率0.8;“做”,概率0.2,其他概率较小的可以不做参考,也就是说,本实施例中,对于每个翻译模型预测的每个位置的候选词,可以仅考虑概率大于预设概率阈值的候选词,而对于概率较小的候选词,不予考虑。其中该预设概率阈值可以根据实际经验来选取,可以为0.1、0.05或者其他概率值。
或者对于每个翻译模型预测的每个位置的候选词,也可以仅考虑概率位于前N的候选词。也就是说,无论概率大小,取前N个候选词,作为该翻译模型预测的该位置的候选词。
(2)对于该位置上的各候选词,基于至少两个翻译模型中各翻译模型翻译时预测的候选词对应的概率、以及各翻译模型翻译指定语句的权重,计算候选词在位置上的推理概率;
例如,对于该位置上的各个候选词,可以取各翻译模型翻译时预测的候选词对应的概率、与对应的翻译模型翻译指定语句的权重的乘积之和,作为候选词在位置上的推理概率,具体可以采用如下公式(3)来表示:
Figure BDA0003356573750000071
该公式以至少两个翻译模型的数量以K为例,其中wk表示该赋权模型为第k个翻译模型赋予的权重。
(3)基于该位置上的数个候选词中各候选词在该位置上的推理概率,确定该位置的目标词;
例如,从该位置上的多个候选词中获取推理概率最高的候选词,作为该位置的目标词。
采用本实施例的上述方式,能够准确地确定每个位置的目标词。
S303、将各个位置的目标词,按照从前至后的顺序拼接,生成指定语句的翻译。
在得到所有位置的目标词之后,将各个位置的目标词按照从前之后的顺序拼接在一起,就是指定语句的翻译。
本实施例的步骤S302-S303为上述图1所示实施例的步骤S102的一种实现方式,该实现方式中,各翻译模型对指定语句的权重直接影响每一个位置的目标词的生成。可选地,实际应用中,各翻译模型对指定语句的权重也可以直接影响整个指定语句的翻译,在此不做限定。
例如,图4是本实施例提供一种翻译方法的架构图。如图4所示,以翻译装置中融合了三个翻译模型MT1、MT2和MT3为例,p(θ|x)为赋权模型。p(θ|x)可以根据源语言句子x,给出这三个翻译模型的权重向量θ1,如图4所示,θ1可以表示为(0.5,0.2,0.3),最终得到的翻译结果可以表示为:p(yt|y1,2,...t-1,x;θ1)。那么各翻译模型在推理时,就可以根据差异化的权重进行推理,能有效地提高翻译的准确性。
本实施例的翻译方法,通过采用上述技术方案,能够充分利用各翻译模型翻译指定语句的权重,更加准确地生成指定语句的翻译中的各位置上的目标词,进而生成指定语句的翻译,能够有效地提高翻译的准确性。
图5是根据本公开第三实施例的示意图;如图5所示,本实施例提供一种模型训练方法,可以应用于模型训练装置中,具体可以包括如下步骤:
S501、采集训练语句;
S502、基于训练语句、预先训练的至少两个翻译模型以及预设的随机权重分配器,对赋权模型进行训练。
本实施例的训练语句为任意一个待翻译的语句。
本实施例的赋权模型用于对预先训练的至少两个翻译模型配置翻译训练语句的权重。随机权重分配器是随机为至少两个翻译模型配置翻译训练语句的权重。基于随机权重分配器和训练语句,可以实现对赋权模型的训练。
本实施例的模型训练方法,可以实现对赋权模型进行训练,使得赋权模型能够准确、合理地为至少两个翻译模型配置权重。
图6是根据本公开第四实施例的示意图;如图6所示,本实施例的模型训练方法,在上述图5所示实施例的技术方案的基础上,进一步更加详细地介绍本公开的技术方案。如图6所示,本实施例的模型训练方法,具体可以包括如下步骤:
S601、采集多条训练语句;
S602、从多条训练语句中选择一条训练语句,准备开始训练赋权模型;
具体地,可以按照顺序选择一条训练语句,也可以催记选择一条训练语句。
S603、基于赋权模型,获取至少两个翻译模型对训练语句翻译得到的第一翻译结果;
例如,具体地,可以先采用赋权模型,为至少两个翻译模型配置翻译训练语句的第一权重;然后基于至少两个翻译模型的第一权重,采用多个翻译对训练语句进行翻译,得到第一翻译结果。
其中赋权模型为至少两个翻译模型配置的翻译训练语句的第一权重,可以采用向量形式,为一个包括每个翻译模型对应的权重的向量。其中基于至少两个翻译模型的第一权重,采用多个翻译对训练语句进行翻译,得到第一翻译结果的过程可以参考上述图3所示实施例的方式,在此不再赘述。
S504、基于随机权重分配器,获取至少两个翻译模型对训练语句翻译得到的第二翻译结果;
同理,可以先采用随机权重分配器,为至少两个翻译模型配置翻译训练语句的第二权重;然后基于至少两个翻译模型的第二权重,采用多个翻译对训练语句进行翻译,得到第二翻译结果。
本实施例的随机权重分配器适用于为至少两个翻译模型随机分配翻译训练语句的权重。该第二权重的表示方式与第一权重相同。同理,基于至少两个翻译模型的第二权重,采用多个翻译对训练语句进行翻译,得到第二翻译结果的过程,也可以参考上述图3所示实施例的方式,在此不再赘述。
S605、分别获取第一翻译结果的质量打分和第二翻译结果的质量打分;
本实施例中,对第一翻译结果的质量打分和第二翻译结果的质量打分,可以采用一个基于神经网络构建的打分模型来实现,例如,向打分模型输入两个翻译结果以及训练语句,该打分模型可以打出这两个翻译结果的质量高低。此时,打分模型可以打出具体分数,也可以不打出具体分数,只要打出来两个翻译结果的质量高低即可。例如可以给高的翻译结果打分为1,而给低的翻译结果打分为0,能够区分即可。
或者,在本公开的一个实施例中,也可以将第一翻译结果和第二翻译结果展示给专业的翻译人员。由专业的翻译人员给出第一翻译结果的质量打分和第二翻译结果的质量打分。同理,也可以不打出真是的分数,只打出两个翻译结果的质量高低即可。
S606、检测第二翻译结果的质量打分是否高于第一翻译结果的质量打分;若是,执行步骤S607;否则,若不是,执行步骤S608;
S607、让赋权模型学习随机权重分配器基于训练语句,对至少两个翻译模型分配权重的结果;返回步骤S602,获取下一条训练语句继续训练;
若第二翻译结果的质量打分高于第一翻译结果的质量打分,则说明随机权重分配器分配的权重更加合理,能够获取更加准确地翻译结果,此时可以控制赋权模型学习随机权重分配器基于该训练语句,对至少两个翻译模型分配的权重结果。具体地学习过程中,可以通过调整赋权模型的参数,使得赋权模型在基于训练语句为至少两个翻译模型配置权重的时候,可以配置出随机权重分配器此次配置的权重,进而学习到随机权重分配器此次的权重配置。
S608、检测在连续预设轮数的训练中,第二翻译结果的质量打分是否始终不高于第一翻译结果的质量打分;若是,训练结束,确定赋权模型的参数;否则,返回步骤S602,获取下一条训练语句继续训练。
该步骤S608为训练截止条件。其中预设轮数可以根据实际场景来设置,例如可以为10、20、30、50或者其他轮数。具体地,通过按照上述方式不断地训练,若在连续预设轮数的训练中,第二翻译结果的质量打分始终不高于第一翻译结果的质量打分,则说明赋权模型对至少两个翻译模型配置的权重更合理,能够获取到更高的打分,此时可以认为赋权模型已经训练完毕。
例如,图7是本实施例提供一种模型训练方法的架构图。如图7所示,与图4相同,本实施例的架构中,仍以翻译装置中融合了三个机器翻译模型MT1、MT2和MT3为例,p(θ|x)为赋权模型。第一权重θ1为(0.5,0.2,0.3),第一翻译结果为p(yt|y1,2,...t-1,x;θ1)。Random表示随机权重分配器θ2,在该示例中,随机权重分配器为三个翻译模型分配的第二权重θ2,可以表示为:θ2=(0.1,0.7,0.2)。基于第二权重θ2,三个机器翻译模型翻译得到的第二翻译结果可以表示p(yt|y1,2,...t-1,x;θ2),score1表示第一翻译结果的质量打分,score2表示第二翻译结果的质量打分。
图8是本实施例提供的赋权模型的原理图。如图8所示,以源语言句子“wheneverdid you find time to do all that cooking?”为例,描述赋权模型的实现原理。本实施例的赋权模型p(θ|x)可以是一个分类模型,通过一个编码器(encoder)对x进行编码,得到n*d的编码结果。本实施例的d维可以选择128、256、512等维度。然后将编码结果按序列维度进行平均,得到d维的句子表示,通过一个全连接层将这个d维向量进行K类分类,并通过一个softmax层得到K类分类的概率,对应于K个MT模型的权重θ。例如,对于图7所示的翻译装置,赋权模型p(θ|x)分配的第一权重为(0.5,0.2,0.3)。若第二翻译结果的质量打分score2高于第一翻译结果的质量打分score1时,就将score2对应的权重作为监督信息让赋权模型进行学习,其中的损失函数可以采用L2回归loss,即让赋权模型的输出去拟合score2对应的θ2
本实施例的模型训练方法,通过采用上述方法,能够在随机权重分配器分配的权重对应的翻译结果质量更高时,可以让赋权模型充分学习随机权重分配器分配的权重,进而能够使得赋权模型能够更加准确地为翻译装置中融合的翻译模型配置权重;进而能够进一步提高融合了至少两个翻译模型的翻译装置的翻译准确性。
图9是根据本公开第五实施例的示意图;如图9所示,本实施例提供一种翻译装置900,包括:
权重获取模块9001,用于基于待翻译的指定语句和预先训练的赋权模型,获取预先训练的至少两个翻译模型中各翻译模型翻译指定语句对应的权重;
翻译模块902,用于基于各翻译模型翻译指定语句的权重,采用至少两个翻译模型对指定语句进行翻译。
本实施例的翻译装置900,通过采用上述模块实现翻译的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
进一步可选地,在本公开的一个实施例中,翻译模块902,用于:
基于各翻译模型翻译指定语句的权重,获取至少两个翻译模型翻译指定语句的过程中,生成的各个位置的目标词;
将各个位置的目标词,按照从前至后的顺序拼接,生成指定语句的翻译。
进一步可选地,在本公开的一个实施例中,翻译模块902,用于:
对于各位置,获取至少两个翻译模型中各翻译模型翻译指定语句的过程中,预测的位置上的数个候选词以及各候选词对应的概率;
对于位置上的各候选词,基于至少两个翻译模型中各翻译模型翻译时预测的候选词对应的概率、以及各翻译模型翻译指定语句的权重,计算候选词在位置上的推理概率;
基于位置上的数个候选词中各候选词在位置上的推理概率,确定位置的目标词。
进一步可选地,在本公开的一个实施例中,翻译模块902,用于:
对于位置上的各个候选词,取各翻译模型翻译时预测的候选词对应的概率、与对应的翻译模型翻译指定语句的权重的乘积之和,作为候选词在位置上的推理概率。
图10是根据本公开第六实施例的示意图;如图10所示,本实施例提供一种模型训练装置1000,包括:
采集模块1001,用于采集训练语句;
训练模块1002,用于基于训练语句、预先训练的至少两个翻译模型以及预设的随机权重分配器,对赋权模型进行训练。
本实施例的模型训练装置1000,通过采用上述模块实现翻译的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
进一步可选地,在本公开的一个实施例中,训练模块1002,用于:
基于赋权模型,获取至少两个翻译模型对训练语句翻译得到的第一翻译结果;
基于随机权重分配器,获取至少两个翻译模型对训练语句翻译得到的第二翻译结果;
分别获取第一翻译结果的质量打分和第二翻译结果的质量打分;
检测第二翻译结果的质量打分是否高于第一翻译结果的质量打分;
若是,让赋权模型学习随机权重分配器基于训练语句,对至少两个翻译模型分配权重的结果。
进一步可选地,在本公开的一个实施例中,训练模块1002,用于:
采用赋权模型,为至少两个翻译模型配置翻译训练语句的第一权重;
基于至少两个翻译模型的第一权重,采用多个翻译对训练语句进行翻译,得到第一翻译结果。
进一步可选地,在本公开的一个实施例中,训练模块1002,用于:
采用随机权重分配器,为至少两个翻译模型配置翻译训练语句的第二权重;
基于至少两个翻译模型的第二权重,采用多个翻译对训练语句进行翻译,得到第二翻译结果。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如本公开的上述方法。例如,在一些实施例中,本公开的上述方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行上文描述的本公开的上述方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开的上述方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种翻译方法,其中,包括:
基于待翻译的指定语句和预先训练的赋权模型,获取预先训练的至少两个翻译模型中各所述翻译模型翻译所述指定语句对应的权重;
基于各所述翻译模型翻译所述指定语句的权重,采用所述至少两个翻译模型对所述指定语句进行翻译。
2.根据权利要求1所述的方法,其中,基于各所述翻译模型翻译所述指定语句的权重,采用所述至少两个翻译模型对所述指定语句进行翻译,包括:
基于各所述翻译模型翻译所述指定语句的权重,获取所述至少两个翻译模型翻译所述指定语句的过程中,生成的各个位置的目标词;
将所述各个位置的目标词,按照从前至后的顺序拼接,生成所述指定语句的翻译。
3.根据权利要求2所述的方法,其中,基于各所述翻译模型翻译所述指定语句的权重,获取所述至少两个翻译模型翻译所述指定语句的过程中,生成的各个位置的目标词,包括:
对于各所述位置,获取所述至少两个翻译模型中各所述翻译模型翻译所述指定语句的过程中,预测的所述位置上的数个候选词以及各所述候选词对应的概率;
对于所述位置上的各所述候选词,基于所述至少两个翻译模型中各所述翻译模型翻译时预测的所述候选词对应的所述概率、以及各所述翻译模型翻译所述指定语句的权重,计算所述候选词在所述位置上的推理概率;
基于所述位置上的所述数个候选词中各所述候选词在所述位置上的推理概率,确定所述位置的目标词。
4.根据权利要求3所述的方法,其中,对于所述位置上的各所述候选词,基于所述至少两个翻译模型中各所述翻译模型翻译时预测的所述候选词对应的所述概率、以及各所述翻译模型翻译所述指定语句的权重,计算所述候选词在所述位置上的推理概率,包括:
对于所述位置上的各个所述候选词,取各所述翻译模型翻译时预测的所述候选词对应的所述概率、与对应的所述翻译模型翻译所述指定语句的权重的乘积之和,作为所述候选词在所述位置上的推理概率。
5.一种模型训练方法,包括:
采集训练语句;
基于所述训练语句、预先训练的至少两个翻译模型以及预设的随机权重分配器,对赋权模型进行训练。
6.根据权利要求5所述的方法,其中,基于所述训练语句、预先训练的至少两个翻译模型以及预设的随机权重分配器,对赋权模型进行训练,包括:
基于所述赋权模型,获取所述至少两个翻译模型对所述训练语句翻译得到的第一翻译结果;
基于所述随机权重分配器,获取所述至少两个翻译模型对所述训练语句翻译得到的第二翻译结果;
分别获取所述第一翻译结果的质量打分和所述第二翻译结果的质量打分;
检测所述第二翻译结果的质量打分是否高于所述第一翻译结果的质量打分;
若是,让所述赋权模型学习所述随机权重分配器基于所述训练语句,对所述至少两个翻译模型分配权重的结果。
7.根据权利要求6所述的方法,其中,基于所述赋权模型,获取所述至少两个翻译模型对所述训练语句翻译得到的第一翻译结果,包括:
采用所述赋权模型,为所述至少两个翻译模型配置翻译所述训练语句的第一权重;
基于所述至少两个翻译模型的第一权重,采用所述多个翻译对所述训练语句进行翻译,得到所述第一翻译结果。
8.根据权利要求6所述的方法,其中,基于所述随机权重分配器,获取所述至少两个翻译模型对所述训练语句翻译得到的第二翻译结果,包括:
采用所述随机权重分配器,为所述至少两个翻译模型配置翻译所述训练语句的第二权重;
基于所述至少两个翻译模型的第二权重,采用所述多个翻译对所述训练语句进行翻译,得到所述第二翻译结果。
9.一种翻译装置,其中,包括:
权重获取模块,用于基于待翻译的指定语句和预先训练的赋权模型,获取预先训练的至少两个翻译模型中各所述翻译模型翻译所述指定语句对应的权重;
翻译模块,用于基于各所述翻译模型翻译所述指定语句的权重,采用所述至少两个翻译模型对所述指定语句进行翻译。
10.根据权利要求9所述的装置,其中,所述翻译模块,用于:
基于各所述翻译模型翻译所述指定语句的权重,获取所述至少两个翻译模型翻译所述指定语句的过程中,生成的各个位置的目标词;
将所述各个位置的目标词,按照从前至后的顺序拼接,生成所述指定语句的翻译。
11.根据权利要求10所述的装置,其中,所述翻译模块,用于:
对于各所述位置,获取所述至少两个翻译模型中各所述翻译模型翻译所述指定语句的过程中,预测的所述位置上的数个候选词以及各所述候选词对应的概率;
对于所述位置上的各所述候选词,基于所述至少两个翻译模型中各所述翻译模型翻译时预测的所述候选词对应的所述概率、以及各所述翻译模型翻译所述指定语句的权重,计算所述候选词在所述位置上的推理概率;
基于所述位置上的所述数个候选词中各所述候选词在所述位置上的推理概率,确定所述位置的目标词。
12.根据权利要求11所述的装置,其中,所述翻译模块,用于:
对于所述位置上的各个所述候选词,取各所述翻译模型翻译时预测的所述候选词对应的所述概率、与对应的所述翻译模型翻译所述指定语句的权重的乘积之和,作为所述候选词在所述位置上的推理概率。
13.一种模型训练装置,包括:
采集模块,用于采集训练语句;
训练模块,用于基于所述训练语句、预先训练的至少两个翻译模型以及预设的随机权重分配器,对赋权模型进行训练。
14.根据权利要求13所述的装置,其中,所述训练模块,用于:
基于所述赋权模型,获取所述至少两个翻译模型对所述训练语句翻译得到的第一翻译结果;
基于所述随机权重分配器,获取所述至少两个翻译模型对所述训练语句翻译得到的第二翻译结果;
分别获取所述第一翻译结果的质量打分和所述第二翻译结果的质量打分;
检测所述第二翻译结果的质量打分是否高于所述第一翻译结果的质量打分;
若是,让所述赋权模型学习所述随机权重分配器基于所述训练语句,对所述至少两个翻译模型分配权重的结果。
15.根据权利要求14所述的装置,其中,所述训练模块,用于:
采用所述赋权模型,为所述至少两个翻译模型配置翻译所述训练语句的第一权重;
基于所述至少两个翻译模型的第一权重,采用所述多个翻译对所述训练语句进行翻译,得到所述第一翻译结果。
16.根据权利要求14所述的装置,其中,所述训练模块,用于:
采用所述随机权重分配器,为所述至少两个翻译模型配置翻译所述训练语句的第二权重;
基于所述至少两个翻译模型的第二权重,采用所述多个翻译对所述训练语句进行翻译,得到所述第二翻译结果。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4、或5-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-4、或5-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-4、或5-8中任一项所述的方法。
CN202111353074.XA 2021-11-16 2021-11-16 翻译方法、模型训练方法、装置、电子设备及存储介质 Active CN114239608B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111353074.XA CN114239608B (zh) 2021-11-16 2021-11-16 翻译方法、模型训练方法、装置、电子设备及存储介质
JP2022116365A JP7472421B2 (ja) 2021-11-16 2022-07-21 翻訳方法、モデル訓練方法、装置、電子デバイス及び記憶媒体
US17/951,216 US20230153543A1 (en) 2021-11-16 2022-09-23 Translation method, model training method, electronic devices and storage mediums

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111353074.XA CN114239608B (zh) 2021-11-16 2021-11-16 翻译方法、模型训练方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114239608A true CN114239608A (zh) 2022-03-25
CN114239608B CN114239608B (zh) 2022-11-25

Family

ID=80749496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111353074.XA Active CN114239608B (zh) 2021-11-16 2021-11-16 翻译方法、模型训练方法、装置、电子设备及存储介质

Country Status (3)

Country Link
US (1) US20230153543A1 (zh)
JP (1) JP7472421B2 (zh)
CN (1) CN114239608B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829550A (zh) * 2019-02-01 2019-05-31 北京金山数字娱乐科技有限公司 模型评价方法和装置、模型评价系统及其训练方法和装置
WO2019114695A1 (zh) * 2017-12-15 2019-06-20 腾讯科技(深圳)有限公司 基于翻译模型的训练方法、翻译方法、计算机设备及存储介质
CN109960814A (zh) * 2019-03-25 2019-07-02 北京金山数字娱乐科技有限公司 模型参数搜索方法以及装置
CN110162800A (zh) * 2019-05-08 2019-08-23 北京百度网讯科技有限公司 翻译模型的训练方法和装置
CN112329482A (zh) * 2020-10-28 2021-02-05 北京嘀嘀无限科技发展有限公司 机器翻译方法、装置、电子设备和可读存储介质
CN112733552A (zh) * 2020-12-30 2021-04-30 科大讯飞股份有限公司 机器翻译模型构建方法、装置以及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009064051A (ja) 2007-09-04 2009-03-26 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019114695A1 (zh) * 2017-12-15 2019-06-20 腾讯科技(深圳)有限公司 基于翻译模型的训练方法、翻译方法、计算机设备及存储介质
CN109829550A (zh) * 2019-02-01 2019-05-31 北京金山数字娱乐科技有限公司 模型评价方法和装置、模型评价系统及其训练方法和装置
CN109960814A (zh) * 2019-03-25 2019-07-02 北京金山数字娱乐科技有限公司 模型参数搜索方法以及装置
CN110162800A (zh) * 2019-05-08 2019-08-23 北京百度网讯科技有限公司 翻译模型的训练方法和装置
CN112329482A (zh) * 2020-10-28 2021-02-05 北京嘀嘀无限科技发展有限公司 机器翻译方法、装置、电子设备和可读存储介质
CN112733552A (zh) * 2020-12-30 2021-04-30 科大讯飞股份有限公司 机器翻译模型构建方法、装置以及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李业刚 等: "多策略机器翻译研究综述", 《中文信息学报》 *

Also Published As

Publication number Publication date
US20230153543A1 (en) 2023-05-18
CN114239608B (zh) 2022-11-25
JP7472421B2 (ja) 2024-04-23
JP2023073951A (ja) 2023-05-26

Similar Documents

Publication Publication Date Title
CN113239157B (zh) 对话模型的训练方法、装置、设备和存储介质
CN112580733B (zh) 分类模型的训练方法、装置、设备以及存储介质
CN113836278B (zh) 通用对话模型的训练与对话生成方法、装置
CN115640520B (zh) 跨语言跨模态模型的预训练方法、设备和存储介质
JP2022529268A (ja) 音声を認識する方法及び装置
US20220398834A1 (en) Method and apparatus for transfer learning
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
US11281867B2 (en) Performing multi-objective tasks via primal networks trained with dual networks
CN114547244A (zh) 用于确定信息的方法和装置
CN114511743A (zh) 检测模型训练、目标检测方法、装置、设备、介质及产品
CN113468857A (zh) 风格转换模型的训练方法、装置、电子设备以及存储介质
CN113360683A (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN114239608B (zh) 翻译方法、模型训练方法、装置、电子设备及存储介质
CN114282551B (zh) 翻译方法、装置、电子设备及存储介质
CN116521832A (zh) 对话交互方法、装置及系统、电子设备和存储介质
CN114937478B (zh) 用于训练模型的方法、用于生成分子的方法和装置
CN114970666B (zh) 一种口语处理方法、装置、电子设备及存储介质
CN114239559B (zh) 文本纠错和文本纠错模型的生成方法、装置、设备和介质
CN115906921A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN116030235A (zh) 目标检测模型训练方法、目标检测方法、装置和电子设备
CN114707638A (zh) 模型训练、对象识别方法及装置、设备、介质和产品
CN113806541A (zh) 情感分类的方法和情感分类模型的训练方法、装置
CN113657466A (zh) 预训练模型的生成方法、装置、电子设备和存储介质
CN115169549B (zh) 人工智能模型更新方法、装置、电子设备及存储介质
CN116257611B (zh) 问答模型的训练方法、问答处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant