CN114077843A - 翻译模型训练方法、翻译方法、电子设备和存储介质 - Google Patents
翻译模型训练方法、翻译方法、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114077843A CN114077843A CN202210000662.3A CN202210000662A CN114077843A CN 114077843 A CN114077843 A CN 114077843A CN 202210000662 A CN202210000662 A CN 202210000662A CN 114077843 A CN114077843 A CN 114077843A
- Authority
- CN
- China
- Prior art keywords
- translation model
- training data
- translation
- bilingual
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种翻译模型训练方法、翻译方法、电子设备和存储介质。翻译模型训练方法,包括:基于预先训练的第一翻译模型,生成第一双语训练数据,所述第一翻译模型用于目标语言到源语言的文本翻译;基于所述第一双语训练数据,对第二翻译模型进行训练,所述第二翻译模型用于所述源语言到所述目标语言的文本翻译;基于预先训练的第二翻译模型,生成第二双语训练数据。本发明实施例提高了双语训练的可靠性,使得训练后的第一翻译模型和第二翻译模型的翻译能力更加可靠,提高了术语级翻译的可靠性。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种翻译模型训练方法、翻译方法、电子设备和存储介质。
背景技术
机器翻译(Machine Translation,MT)是一种用于将一段文本从一种语言自动翻译为另一种语言的计算机技术。机器翻译可以分别神经机器翻译(Neural MachineTranlation, NMT)和统计机器翻译(Statistical Machine Translation,SMT)。
现有的机器翻译大部分在使用预先指定的双语术语来进行句子级的机器翻译,并不直接研究术语级翻译本身。术语翻译在诸如电商领域等应用场景中具有很关键的作用,预先指定的双语术语在句子中的可靠性不足以满足一些应用场景的需求。
因此,需要一种能够可靠执行术语翻译的机器翻译方案。
发明内容
有鉴于此,本发明实施例提供一种翻译模型训练方法、翻译方法、电子设备和存储介质,以至少部分解决上述问题。
根据本发明实施例的第一方面,提供了一种翻译模型训练方法。所述翻译模型训练方法包括:基于预先训练的第一翻译模型,生成第一双语训练数据,所述第一翻译模型用于目标语言到源语言的文本翻译;基于所述第一双语训练数据,对第二翻译模型进行训练,所述第二翻译模型用于所述源语言到所述目标语言的文本翻译;基于所述第二翻译模型,生成第二双语训练数据。
根据本发明实施例的第二方面,提供了一种翻译方法。所述翻译方法包括:获取源语言文本,所述源语言文本包括源语言术语;将所述源语言文本输入到第二翻译模型,得到包括目标语言术语的目标语言文本,其中,所述目标语言术语对应于所述源语言术语,第二翻译模型通过根据翻译模型训练方法训练得到。
根据本发明实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面或第二方面所述的方法对应的操作。
根据本发明实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第二方面所述的方法。
在本发明实施例中,由于基于第一双语训练数据训练得到的第二翻译模型能够生成第二双语训练数据,第二双语训练数据反过来能够进一步训练生成第一双语训练数据的第一翻译模型,从而通过第二双语训练数据和第一双语训练数据的迭代训练,提高了双语训练的可靠性,使得训练后的第一翻译模型和第二翻译模型的翻译能力更加可靠,提高了术语级翻译的可靠性,也避免了人工辅助带来的训练低效。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为一个示例的翻译方法所适用的示意性架构。
图2A为根据本发明的一个实施例的翻译模型训练方法的步骤流程图。
图2B为根据本发明的另一实施例的翻译模型训练方法的示意性框图。
图2C为根据本发明的另一实施例的翻译方法的步骤流程图。
图3为根据本发明的另一实施例的模型训练装置的结构框图。
图4为根据本发明的另一实施例的翻译装置的结构框图。
图5为根据本发明的另一实施例的电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
图1为一个示例的翻译方法所适用的示意性架构。图1的架构包括用户设备110、应用服务器120和模型服务器130。用户设备110包括用户界面111和文本获取模块112。具体地,用户界面111可以获取用户输入的指令,通过文本获取模块112从作为后天的应用服务器120获取相应的文本,以在用户界面111中展示。应用服务器120包括文本处理模块121和翻译模块122。文本处理模块121用于响应文本获取模块112发送的文本请求,且返回相应的文本。在需要进行文本翻译的情况下,文本处理模块121可以调用部署在翻译模块122处的翻译模型执行文本翻译,且获取翻译结果。然后,文本处理模块121可以将翻译结果返回到文本获取模块112,以提供多语言的服务。例如,通过翻译模块122中的翻译模型,使应用服务器120能够用于跨境电子商务服务等多语言应用场景。
另外,翻译模型可以在应用服务器120处执行训练,也可以在作为第三方服务器的模型服务器130执行训练和部署。例如,模型服务器130包括翻译模型训练模块131和翻译模型部署模块132。翻译模型训练模块131用于获取诸如双语训练数据的数据集,基于数据集对翻译模型进行训练。翻译模型部署模块132能够将训练完成的翻译模型部署到翻译模块122中。
应理解,上述的示意性架构仅仅为一个示例,也可以采用其他的架构执行上述的用户服务场景。
还应理解,本发明实施例的机器翻译模型可以为基于序列到序列(Sequence toSequence, Seq2Seq)的框架,具体而言,可以基于编码器解码器(Encoder-Decoder)实现。作为一些示例,机器翻译模型包括但不限于长短期记忆网络(Long Short-Term Memory,LSTM)、循环神经网络(Recurrent Neural Network,RNN)、指针生成网络(Pointer-Generator-Network,PGN)、自注意力机制神经网络(Transformer)以及基于Transformer的各种衍生神经网络等。
图2A为根据本发明的一个实施例的翻译模型训练方法的步骤流程图。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。例如,在模型训练(training)阶段,可以利用配置有CPU(处理单元的示例)+GPU(加速单元的示例)架构的计算设备(例如,数据中心)基于训练样本对编码器解码器模型进行训练。诸如数据中心的计算设备可以部署在诸如专有云、私有云、或混合云的云服务器中。相应地,在推理(inference)阶段,也可以利用配置有CPU(处理单元的示例)+GPU(加速单元的示例)架构的计算设备进行推理运算。作为一个示例,图2A的翻译模型训练方法可以适用于图1所述的架构。
本实施例的翻译模型训练方法包括:
S210:基于预先训练的第一翻译模型,生成基于源语言和目标语言的第一双语训练数据,第一翻译模型用于目标语言到源语言的文本翻译。
应理解,源语言与目标语言为不同语言,例如,源语言和目标语言为不同语系的语言,或者,源语言和目标语言可以为相同语系中的不同语言。不同的语系包括罗曼语系、汉藏语系、拉丁语系等。源语言和目标语言包括但不限于英文、中文、德文、日文、韩文、意大利文、马来文、藏文、满文、回文等。在本发明的各个实施例中,源语言与目标语言仅仅为了区分不同语言,在多语言场景中,任意两种语言都可以被理解本发明实施例中的源语言和目标语言,本领域技术人员能够理解,本发明实施例的方案能够适用于两种语言以上的多语言场景。
还应理解,第一翻译模型可以为第一神经机器翻译模型或第一统计机器翻译模型。
还应理解,第一双语训练数据包括基于源语言的训练数据和基于目标语言的训练数据,例如,第一双语训练数据包括基于源语言的文本和基于目标语言的文本。
S220:基于第一双语训练数据,对第二翻译模型进行训练,第二翻译模型用于源语言到目标语言的文本翻译。
应理解,训练过程可以为监督训练,也可以为无监督训练,也可以为包括监督训练和无监督训练在内的训练。在执行监督训练时,第一双语训练数据中基于目标语言的训练数据作为监督条件。
还应理解,第二翻译模型可以为第二神经机器翻译模型或第二统计机器翻译模型。作为一个示例,第一翻译模型为第一神经机器翻译模型,第二翻译模型为第二神经机器翻译模型。作为另一示例,第一翻译模型为第一统计机器翻译模型,第二翻译模型为第二统计机器翻译模型。
S230:基于第二翻译模型,生成基于源语言和目标语言的第二双语训练数据。
应理解,第二双语训练数据包括基于源语言的训练数据和基于目标语言的训练数据,例如,第二双语训练数据包括基于源语言的文本和基于目标语言的文本。
还应理解,第二双语训练数据中包括的基于源语言的文本与第一双语训练数据中包括的基于源语言的文本不同,第二双语训练数据中包括的基于目标语言的文本与第一双语训练数据中包括的基于目标语言的文本不同。
还应理解,本文中的文本(例如,单语训练数据)包括但不限于篇章、段落、句子、短语、字词等。双语训练数据包括篇章对、段落对、句子对、短语对、字词对等。优选地,双语训练数据包括基于源语言和目标语言的句子对。另外,单语术语语料包括基于目标语言或源语言的短语或字词,双语术语语料包括基于目标语言和源语言的短语或字词。
还应理解,可以基于利用第一双语训练数据训练后的第二翻译模型,生成第二双语训练数据。
应理解,在第一翻译模型和第二翻译模型的训练中,第一翻译模型和第二翻译模型均可以为序列到序列的模型,可以将训练数据执行词向量嵌入处理(embedding),得到训练数据中的文本词向量。
在本发明实施例中,由于基于第一双语训练数据训练得到的第二翻译模型能够生成第二双语训练数据,第二双语训练数据反过来能够进一步训练生成第一双语训练数据的第一翻译模型,从而通过第二双语训练数据和第一双语训练数据的迭代训练,提高了双语训练的可靠性,使得训练后的第一翻译模型和第二翻译模型的翻译能力更加可靠,提高了术语级翻译的可靠性。
换言之,在本发明实施例中,进一步训练后的第一翻译模型还可以用于生成第一双语训练数据,更新先前的第一双语训练数据。基于更新后的第一双语训练数据,训练得到更新的第二翻译模型,第二翻译模块进一步生成更新的第二双语训练数据,进而,更新的第二双语训练数据能够对第一翻译模型进行进一步训练。在上述的迭代训练过程中,可以在任一步骤中停止,相应地获得第一翻译模型和第二翻译模型,也可以基于预设的收敛条件,停止上述的迭代训练过程。
作为一个示例,在迭代训练过程中,对第一翻译模型的性能进行估算,当第一翻译模型的性能不再提升时,得到第二翻译模型。作为另一示例,在迭代训练过程中,对第二翻译模型的性能进行估算,当第二翻译模型的性能不再提升时,得到第一翻译模型。
作为另一示例,训练完成的第一翻译模型和第二翻译模型均可以用于执行翻译推理(Inference),当需要对基于源语言的文本执行翻译时,可以调用第二翻译模型。类似地,当需要对基于目标语言的文本执行翻译时,可以调用第一翻译模型。
在另一些示例中,基于预先训练的第一翻译模型,生成第一双语训练数据,包括:获取第一目标语言文本;将第一目标语言文本输入到预先训练的第一翻译模型,输出第一源语言文本;将第一目标语言文本和第一源语言文本确定为第一双语训练数据。由此,基于作为单语训练数据的第一目标语言文本构建了作为双语训练数据的第一双语训练数据,提高了训练数据的生成效率。
在另一些示例中,基于第一双语训练数据,对第二翻译模型进行训练,包括:基于第一源语言文本作为输入,基于第一目标语言文本作为监督条件,对第二翻译模型进行训练。由此,基于监督条件的监督训练提高了第二翻译模型的训练效率。
在另一些示例中,基于预先训练的第二翻译模型,生成第二双语训练数据,包括:获取第二源语言文本;将第二源语言文本输入到预先训练的第二翻译模型中,输出第二目标语言文本;将第二源语言文本和第二目标语言文本确定为第二双语训练数据。由此,基于作为单语训练数据的第二源语言文本构建了作为双语训练数据的第二双语训练数据,提高了训练数据的生成效率。
应理解,在翻译模型训练方法中,除了可以基于预先训练的第二翻译模型,生成第二双语训练数据,还可以基于任意训练阶段的第二翻译模型,生成第二双语训练数据。类似地,除了可以基于预先训练的第一翻译模型,生成第一双语训练数据,还可以基于任意训练阶段的第一翻译模型,生成第一双语训练数据。
在另一些示例中,翻译模型训练方法还包括:基于第二双语训练数据,进一步训练第一翻译模型。例如,基于第二目标语言文本作为输入,第二源语言文本作为监督条件,进一步训练第一翻译模型。由此,基于监督条件的监督训练提高了第一翻译模型的训练效率。应理解,训练过程可以为监督训练,也可以为无监督训练,也可以为包括监督训练和无监督训练在内的训练。在执行监督训练时,第二双语训练数据中基于源语言的训练数据作为监督条件。
在另一些示例中,翻译模型训练方法还包括:获取第三双语训练数据;基于第三双语训练数据,预先训练第一翻译模型和第二翻译模型。
应理解,第三双语训练数据包括基于源语言的训练数据和基于目标语言的训练数据,例如,第三双语训练数据包括基于源语言的文本和基于目标语言的文本。
在另一些示例中,所述第三双语训练数据包括基于所述源语言和所述目标语言的通用语料、和/或、基于所述源语言和所述目标语言的双语术语语料。应理解,通用语料可以为通用平行语料,例如,通用平行句子对,其特点是适用于各个领域;双语术语语料可以为诸如电商领域等多语言应用领域的领域术语语料,其特点是专业性较强,领域依赖性较强。
在另一些示例中,基于第一双语训练数据,对第二翻译模型进行训练,包括:确定第一双语训练数据和第三双语训练数据的第一混合语料;基于第一混合语料,对第二翻译模型进行训练。由此,混合语料提高了翻译模型的泛化能力。
在另一些示例中,翻译模型训练方法还包括:基于第二双语训练数据,进一步训练第一翻译模型。例如,确定第二双语训练数据和第三双语训练数据的第二混合语料;基于第二混合语料,进一步训练第一翻译模型。由此,混合语料提高了翻译模型的泛化能力。
图2B为根据本发明的另一实施例的翻译模型训练方法的示意性框图。
首先,基于第三双语训练数据,对第一翻译模型和第二翻译模型进行训练。第三双语训练数据包括基于源语言和目标语言的通用语料以及双语术语语料中的至少一者。
此外,将第一目标语言文本输入到第一翻译模型中,得到第一源语言文本,还可以将第二源语言文本输入到第二翻译模型中,得到第二目标语言文本。应理解,第一目标语言文本和第二源语言文本可以属于单语训练数据。
此外,将第一源语言文本和第一目标语言文本作为第一双语训练数据,还可以将第二源语言文本和第二目标语言文本作为第二双语训练数据。
此外,基于第一双语训练数据和至少部分第三双语训练数据组合的第一混合语料、或者、基于第一双语训练数据,训练第二翻译模型。还可以基于第二双语训练数据和至少部分第三双语训练数据组合的第二混合语料、或者、基于第二双语训练数据,训练第一翻译模型。
应理解,第一混合语料中的部分第三双语训练数据与第二混合语料中的部分第三双语训练数据可以相同,也可以不同。
还应理解,在第一混合语料中的第三双语训练数据不包括双语术语语料时,实际上是对第二翻译模型执行了无监督训练。在第一混合语料中的第三双语训练数据包括双语术语语料时,实际上是对第二翻译模型执行了监督训练。类似地,在第二混合语料中的第三双语训练数据不包括双语术语语料时,实际上是对第一翻译模型执行了没有双语数据语料的无监督训练。在第二混合语料中的第三双语训练数据包括双语术语语料时,实际上是对第一翻译模型执行了监督训练。
应理解,本发明实施例的第一翻译模型和第二翻译模型是一种端到端的生成式方法,能够避免术语向量稀疏等问题,同时具有翻译新术语、生成新术语对的能力。
在一个示例中,在有监督训练的情况下能够充分利用诸如电商领域等场景的双语术语语料对以及通用语料的基础上,使用诸如电商领域的单语句子等单语训练数据形成诸如伪平行语料的第一双语训练数据和第二双语训练数据,从而进一步提升了术语级翻译能力。
在另一示例中,在无监督训练的情况下能够在充分利用通用领域平行句子对来训练神经机器翻译模型的基础上,使用诸如电商领域的单语句子等单语训练数据形成诸如伪平行语料的第一双语训练数据和第二双语训练数据,从而进一步提升了术语级翻译能力。
图2C为根据本发明的另一实施例的翻译方法的步骤流程图。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。例如,在模型训练(training)阶段,可以利用配置有CPU(处理单元的示例)+GPU(加速单元的示例)架构的计算设备(例如,数据中心)基于训练样本对编码器解码器模型进行训练。诸如数据中心的计算设备可以部署在诸如专有云、私有云、或混合云的云服务器中。相应地,在推理(inference)阶段,也可以利用配置有CPU(处理单元的示例)+GPU(加速单元的示例)架构的计算设备进行推理运算。图2C的翻译方法包括:
S280:获取源语言文本,源语言文本包括源语言术语。
S290:将源语言文本输入到第二翻译模型,得到包括目标语言术语的目标语言文本,目标语言术语对应于源语言术语,第二翻译模型通过根据翻译模型训练方法训练得到。
在本实施例的方案中,由于基于第一双语训练数据训练得到的第二翻译模型能够生成第二双语训练数据,第二双语训练数据反过来能够进一步训练生成第一双语训练数据的第一翻译模型,从而通过第二双语训练数据和第一双语训练数据的迭代训练,提高了双语训练的可靠性,使得训练后的第一翻译模型和第二翻译模型的翻译能力更加可靠。
此外,在实施例中,源语言术语对应于目标语言术语,源语言句子和目标语言句子中的各个句子成分之间的对应性更可靠,提高了术语级翻译的可靠性。
此外,在第三双语训练数据包括源语言和所述目标语言的双语术语语料时,能够进一步地提高了术语级翻译的可靠性。
经过测试本发明实施例的方案的翻译表现效果,针对电商领域的有监督术语翻译任务以及无监督术语翻译任务,分别构建相应的数据集来进行实验。例如,在源语言-目标语言为中文-英语、英语-法语、以及英语-西班牙语的各个例子中,分别验证服饰类、玩具类以及户外工具类的术语翻译效果,都取得到比现有其他方案的术语级翻译更加可靠和准确。
图3为根据本发明的另一实施例的模型训练装置的结构框图。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。例如,在模型训练(training)阶段,可以利用配置有CPU(处理单元的示例)+GPU(加速单元的示例)架构的计算设备(例如,数据中心)基于训练样本对编码器解码器模型进行训练。诸如数据中心的计算设备可以部署在诸如专有云、私有云、或混合云的云服务器中。相应地,在推理(inference)阶段,也可以利用配置有CPU(处理单元的示例)+GPU(加速单元的示例)架构的计算设备进行推理运算。图3的模型训练装置包括:
第一生成模块310,基于预先训练的第一翻译模型,生成第一双语训练数据,所述第一翻译模型用于目标语言到源语言的文本翻译。
第一训练模块320,基于所述第一双语训练数据,对第二翻译模型进行训练,所述第二翻译模型用于所述源语言到所述目标语言的文本翻译。
第二生成模块330,基于预先训练的第二翻译模型,生成第二双语训练数据。
在本发明实施例中,由于基于第一双语训练数据训练得到的第二翻译模型能够生成第二双语训练数据,第二双语训练数据反过来能够进一步训练生成第一双语训练数据的第一翻译模型,从而通过第二双语训练数据和第一双语训练数据的迭代训练,提高了双语训练的可靠性,使得训练后的第一翻译模型和第二翻译模型的翻译能力更加可靠,提高了术语级翻译的可靠性。
在另一些示例中,第一生成模块具体用于:获取第一目标语言文本;将所述第一目标语言文本输入到预先训练的第一翻译模型,输出第一源语言文本;将所述第一目标语言文本和所述第一源语言文本确定为所述第一双语训练数据。
在另一些示例中,模型训练装置还包括第二训练模块,基于所述第二双语训练数据,进一步训练所述第一翻译模型。
在另一些示例中,第一训练模块具体用于:基于所述第一源语言文本作为输入,基于所述第一目标语言文本作为监督条件,对第二翻译模型进行训练。
在另一些示例中,第二生成模块具体用于:获取第二源语言文本;将所述第二源语言文本输入到训练后的第二翻译模型中,输出第二目标语言文本;将所述第二源语言文本和所述第二目标语言文本确定为所述第二双语训练数据。
在另一些示例中,第二训练模块具体用于:基于所述第二目标语言文本作为输入,所述第二源语言文本作为监督条件,进一步训练所述第一翻译模型。
在另一些示例中,翻译装置还包括:获取模块,获取第三双语训练数据;第三训练模块,基于所述第三双语训练数据,预先训练所述第一翻译模型和所述第二翻译模型。
在另一些示例中,所述第三双语训练数据包括基于第一语言和第二语言的平行语料。
在另一些示例中,所述第三双语训练数据还包括双语术语训练数据。
在另一些示例中,第一训练模块具体用于:确定所述第一双语训练数据和所述第三双语训练数据的第一混合语料;基于所述第一混合语料,对第二翻译模型进行训练。
在另一些示例中,第二训练模块具体用于:确定所述第二双语训练数据和所述第三双语训练数据的第二混合语料;基于所述第二混合语料,进一步训练第一翻译模型。
在另一些示例中,所述第一翻译模型为第一神经机器翻译模型或第一统计机器翻译模型,所述第二翻译模型为第二神经机器翻译模型或第二统计机器翻译模型。
本实施例的装置用于实现前述多个方法实施例中相应的方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
图4为根据本发明的另一实施例的翻译装置的结构框图。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。例如,在模型训练(training)阶段,可以利用配置有CPU(处理单元的示例)+GPU(加速单元的示例)架构的计算设备(例如,数据中心)基于训练样本对编码器解码器模型进行训练。诸如数据中心的计算设备可以部署在诸如专有云、私有云、或混合云的云服务器中。相应地,在推理(inference)阶段,也可以利用配置有CPU(处理单元的示例)+GPU(加速单元的示例)架构的计算设备进行推理运算。图4的翻译装置包括:
获取模块410,获取源语言文本,源语言文本包括源语言术语。
翻译模块420,将源语言文本输入到第二翻译模型,得到包括目标语言术语的目标语言文本,目标语言术语对应于源语言术语,第二翻译模型通过根据翻译模型训练方法训练得到。
在本实施例的方案中,由于基于第一双语训练数据训练得到的第二翻译模型能够生成第二双语训练数据,第二双语训练数据反过来能够进一步训练生成第一双语训练数据的第一翻译模型,从而通过第二双语训练数据和第一双语训练数据的迭代训练,提高了双语训练的可靠性,使得训练后的第一翻译模型和第二翻译模型的翻译能力更加可靠。
此外,在实施例中,源语言术语对应于目标语言术语,源语言句子和目标语言句子中的各个句子成分之间的对应性更可靠,提高了术语级翻译的可靠性。
此外,在第三双语训练数据包括源语言和所述目标语言的双语术语语料时,能够进一步地提高了术语级翻译的可靠性。
参照图5,示出了根据本发明的另一实施例的电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图5所示,该电子设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。其中:
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它电子设备或服务器进行通信。
处理器502,用于执行程序510,具体可以执行上述方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:基于预先训练的第一翻译模型,生成第一双语训练数据,所述第一翻译模型用于目标语言到源语言的文本翻译;基于所述第一双语训练数据,对第二翻译模型进行训练,所述第二翻译模型用于所述源语言到所述目标语言的文本翻译;基于预先训练的第二翻译模型,生成第二双语训练数据。
可替代地,程序510具体可以用于使得处理器502执行以下操作:获取源语言文本,所述源语言文本包括源语言术语;将所述源语言文本输入到第二翻译模型,得到包括目标语言术语的目标语言文本,其中,所述目标语言术语对应于所述源语言术语,所述第二翻译模型通过根据翻译模型训练方法训练得到。
此外,程序510中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的方法。此外,当通用计算机访问用于实现在此示出的方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。
Claims (13)
1.一种翻译模型训练方法,包括:
基于预先训练的第一翻译模型,生成基于源语言和目标语言的第一双语训练数据,所述第一翻译模型用于所述目标语言到所述源语言的文本翻译;
基于所述第一双语训练数据,对第二翻译模型进行训练,所述第二翻译模型用于所述源语言到所述目标语言的文本翻译;
基于所述第二翻译模型,生成基于所述源语言和所述目标语言的第二双语训练数据。
2.根据权利要求1所述的方法,其中,所述基于预先训练的第一翻译模型,生成基于源语言和目标语言的第一双语训练数据,包括:
获取第一目标语言文本;
将所述第一目标语言文本输入到预先训练的第一翻译模型,输出第一源语言文本;
将所述第一目标语言文本和所述第一源语言文本确定为所述第一双语训练数据。
3.根据权利要求2所述的方法,其中,所述基于所述第一双语训练数据,对第二翻译模型进行训练,包括:
基于所述第一源语言文本作为输入,基于所述第一目标语言文本作为监督条件,对第二翻译模型进行训练。
4.根据权利要求1所述的方法,其中,所述基于所述第二翻译模型,生成基于所述源语言和所述目标语言的第二双语训练数据,包括:
获取第二源语言文本;
将所述第二源语言文本输入到所述第二翻译模型中,输出第二目标语言文本;
将所述第二源语言文本和所述第二目标语言文本确定为所述第二双语训练数据。
5.根据权利要求4所述的方法,其中,所述方法还包括:
基于所述第二目标语言文本作为输入,所述第二源语言文本作为监督条件,进一步训练所述第一翻译模型。
6.根据权利要求1所述的方法,其中,所述方法还包括:
获取基于所述源语言和所述目标语言的第三双语训练数据;
基于所述第三双语训练数据,预先训练所述第一翻译模型和所述第二翻译模型。
7.根据权利要求6所述的方法,其中,所述第三双语训练数据包括基于所述源语言和所述目标语言的通用语料、和/或、基于所述源语言和所述目标语言的双语术语语料。
8.根据权利要求6所述的方法,其中,所述基于所述第一双语训练数据,对第二翻译模型进行训练,包括:
确定所述第一双语训练数据和所述第三双语训练数据的第一混合语料;
基于所述第一混合语料,对第二翻译模型进行训练。
9.根据权利要求6所述的方法,其中,所述方法还包括:
确定所述第二双语训练数据和所述第三双语训练数据的第二混合语料;
基于所述第二混合语料,进一步训练第一翻译模型。
10.根据权利要求1所述的方法,其中,所述方法还包括:
基于所述第二双语训练数据,进一步训练所述第一翻译模型。
11.一种翻译方法,包括:
获取源语言文本,所述源语言文本包括源语言术语;
将所述源语言文本输入到第二翻译模型,得到包括目标语言术语的目标语言文本,其中,所述目标语言术语对应于所述源语言术语,所述第二翻译模型通过根据权利要求1-10中任一项所述的翻译模型训练方法训练得到。
12.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-11中任一项所述的方法对应的操作。
13.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210000662.3A CN114077843A (zh) | 2022-01-04 | 2022-01-04 | 翻译模型训练方法、翻译方法、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210000662.3A CN114077843A (zh) | 2022-01-04 | 2022-01-04 | 翻译模型训练方法、翻译方法、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114077843A true CN114077843A (zh) | 2022-02-22 |
Family
ID=80284642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210000662.3A Pending CN114077843A (zh) | 2022-01-04 | 2022-01-04 | 翻译模型训练方法、翻译方法、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114077843A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115983294A (zh) * | 2023-01-06 | 2023-04-18 | 北京有竹居网络技术有限公司 | 翻译模型的训练方法、翻译方法及设备 |
CN116805004A (zh) * | 2023-08-22 | 2023-09-26 | 中国科学院自动化研究所 | 零资源跨语言对话模型训练方法、装置、设备和介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630776A (zh) * | 2015-12-25 | 2016-06-01 | 清华大学 | 一种双向词语对齐方法及装置 |
US20190005020A1 (en) * | 2017-06-30 | 2019-01-03 | Elsevier, Inc. | Systems and methods for extracting funder information from text |
CN110543643A (zh) * | 2019-08-21 | 2019-12-06 | 语联网(武汉)信息技术有限公司 | 文本翻译模型的训练方法及装置 |
CN111259676A (zh) * | 2020-01-10 | 2020-06-09 | 苏州交驰人工智能研究院有限公司 | 翻译模型的训练方法、装置、电子设备、及存储介质 |
CN111738025A (zh) * | 2020-08-20 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 基于人工智能的翻译方法、装置、电子设备和存储介质 |
CN112766000A (zh) * | 2021-01-11 | 2021-05-07 | 语联网(武汉)信息技术有限公司 | 基于预训练模型的机器翻译方法及系统 |
CN113204979A (zh) * | 2021-05-28 | 2021-08-03 | 北京金山数字娱乐科技有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
-
2022
- 2022-01-04 CN CN202210000662.3A patent/CN114077843A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630776A (zh) * | 2015-12-25 | 2016-06-01 | 清华大学 | 一种双向词语对齐方法及装置 |
US20190005020A1 (en) * | 2017-06-30 | 2019-01-03 | Elsevier, Inc. | Systems and methods for extracting funder information from text |
CN110543643A (zh) * | 2019-08-21 | 2019-12-06 | 语联网(武汉)信息技术有限公司 | 文本翻译模型的训练方法及装置 |
CN111259676A (zh) * | 2020-01-10 | 2020-06-09 | 苏州交驰人工智能研究院有限公司 | 翻译模型的训练方法、装置、电子设备、及存储介质 |
CN111738025A (zh) * | 2020-08-20 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 基于人工智能的翻译方法、装置、电子设备和存储介质 |
CN112766000A (zh) * | 2021-01-11 | 2021-05-07 | 语联网(武汉)信息技术有限公司 | 基于预训练模型的机器翻译方法及系统 |
CN113204979A (zh) * | 2021-05-28 | 2021-08-03 | 北京金山数字娱乐科技有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
张志锐: "《面向神经机器翻译的数据增强方法及应用》", 《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115983294A (zh) * | 2023-01-06 | 2023-04-18 | 北京有竹居网络技术有限公司 | 翻译模型的训练方法、翻译方法及设备 |
CN115983294B (zh) * | 2023-01-06 | 2024-01-02 | 北京有竹居网络技术有限公司 | 翻译模型的训练方法、翻译方法及设备 |
WO2024146328A1 (zh) * | 2023-01-06 | 2024-07-11 | 北京有竹居网络技术有限公司 | 翻译模型的训练方法、翻译方法及设备 |
CN116805004A (zh) * | 2023-08-22 | 2023-09-26 | 中国科学院自动化研究所 | 零资源跨语言对话模型训练方法、装置、设备和介质 |
CN116805004B (zh) * | 2023-08-22 | 2023-11-14 | 中国科学院自动化研究所 | 零资源跨语言对话模型训练方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114077843A (zh) | 翻译模型训练方法、翻译方法、电子设备和存储介质 | |
US20130197896A1 (en) | Resolving out-of-vocabulary words during machine translation | |
CN112560510B (zh) | 翻译模型训练方法、装置、设备及存储介质 | |
US9575965B2 (en) | Translation assessment based on computer-generated subjective translation quality score | |
CN110083819B (zh) | 拼写纠错方法、装置、介质及电子设备 | |
CN110309516B (zh) | 机器翻译模型的训练方法、装置与电子设备 | |
US8612204B1 (en) | Techniques for reordering words of sentences for improved translation between languages | |
US11288460B2 (en) | Translation support system, etc | |
CN107526742B (zh) | 用于处理多语言文本的方法和设备 | |
CN113139390A (zh) | 一种应用于代码字符串的语言转换方法和装置 | |
CN109032612B (zh) | 混合型应用的接口调用方法、装置及计算机可读存储介质 | |
CN112380876A (zh) | 基于多语言机器翻译模型的翻译方法、装置、设备和介质 | |
CN115640815A (zh) | 翻译方法、装置、可读介质及电子设备 | |
KR20210080150A (ko) | 번역 방법, 장치, 전자 기기 및 판독 가능 저장 매체 | |
US10936827B1 (en) | Machine evaluation of translation accuracy | |
US20180314683A1 (en) | Method and device for processing natural language | |
CN116011433A (zh) | 应用测试的方法、设备和计算机程序产品 | |
CN113591498A (zh) | 翻译处理方法、装置、设备及介质 | |
CN111443979B (zh) | 文档处理方法、装置、计算机设备及存储介质 | |
CN112686021A (zh) | 文本特征提取方法、文本特征提取装置及存储介质 | |
CN115936020A (zh) | 文本翻译的方法、装置、电子设备和介质 | |
CN115620726A (zh) | 语音文本生成方法、语音文本生成模型的训练方法、装置 | |
CN114372481A (zh) | 一种基于意群的翻译方法、装置、设备及介质 | |
Nanayakkara et al. | Context aware back-transliteration from english to sinhala | |
CN112149417A (zh) | 词性标注方法和装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220222 |