CN110298046A - 一种翻译模型训练方法、文本翻译方法及相关装置 - Google Patents
一种翻译模型训练方法、文本翻译方法及相关装置 Download PDFInfo
- Publication number
- CN110298046A CN110298046A CN201910595220.6A CN201910595220A CN110298046A CN 110298046 A CN110298046 A CN 110298046A CN 201910595220 A CN201910595220 A CN 201910595220A CN 110298046 A CN110298046 A CN 110298046A
- Authority
- CN
- China
- Prior art keywords
- text
- sample text
- words
- translation model
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种翻译模型训练方法、文本翻译方法及相关装置,在该方法中,将至少一个样本文本中输入双向翻译模型,以便根据双向翻译模型的输出结果对双向翻译模型进行参数更新,其中,双向翻译模型的输出结果包括每一样本文本的预测翻译文本以及每一样本文本对应的预测词袋,且该预测词袋是朝着对应样本文本的实际词袋的方向预测得到的,该实际词袋包括对应样本文本的实际翻译文本中的各个不同词,因此,在对模型进行参数更新时,需要基于每一样本文本的预测词袋与其实际词袋之间的差异进行参数更新,使得该实际词袋可以用于指导翻译方向,故而,训练完成的双向翻译模型能够朝着输入样本文本的实际词袋的方向进行准确翻译。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种翻译模型训练方法、文本翻译方法及相关装置。
背景技术
近年来,自然语言处理的研究已经成为热点,而机器翻译是自然语言研究领域的一个重要分支,也是人工智能领域的一个重要课题。机器翻译,是利用计算机将一种源语言自动转换为另一种目标语言的过程,历史上出现过很多机器翻译方法,例如,基于规则的机器翻译方法、基于统计的机器翻译方法、以及基于神经网络的机器翻译方法等。
目前,为了实现机器翻译,需要针对特定的翻译方向训练对应的翻译模型,例如,针对中译英翻译训练一个中译英翻译模型、针对英译中翻译再训练一个英译中翻译模型。即,对于中英互译系统来说,需要训练优化两个不同方向的翻译模型,这对于人力和服务器计算资源来说,都是一种消耗和浪费。
发明内容
本申请实施例的主要目的在于提供一种翻译模型训练方法、文本翻译方法及相关装置,能够训练得到一个实现双向翻译的单一模型,从而节省了人力和计算机资源的消耗和浪费。
本申请实施例提供了一种翻译模型训练方法,包括:
将至少一个样本文本输入双向翻译模型,所述至少一个样本文本包括双向翻译方向中的至少一个语种类型下的文本数据;
获取所述双向翻译模型的输出结果,所述输出结果包括每一样本文本的预测翻译文本以及每一样本文本对应的预测词袋,所述预测词袋是朝着对应样本文本的实际词袋的方向预测得到的,所述实际词袋包括对应样本文本的实际翻译文本中的各个不同词;
根据所述输出结果对所述双向翻译模型进行参数更新,以完成本轮训练。
可选的,所述方法还包括:
收集所述双向翻译方向中的每一语种类型下的文本语料;
从所述每一语种类型下的文本语料中提取高频词,利用每一高频词以及该高频词的表示结果构成一个双语词典;
则,所述将至少一个样本文本输入双向翻译模型,包括:
确定所述至少一个样本文本中的属于所述双语词典的词,并将所确定的词的表示结果输入双向翻译模型。
可选的,所述获取所述双向翻译模型的输出结果,包括:
对于每一样本文本,利用所述双向翻译模型,生成所述样本文本的预测翻译文本,并且,根据所述双向翻译模型的解码层输出的对应于所述样本文本的各个隐状态表示结果,生成所述样本文本的预测词袋。
可选的,所述根据所述双向翻译模型的解码层输出的对应于所述样本文本的各个隐状态表示结果,生成所述样本文本的预测词袋,包括:
将所述双向翻译模型的解码层输出的对应于所述样本文本的各个隐状态表示结果进行线性计算,得到线性计算结果;
根据所述线性计算结果,生成所述样本文本对应的预测词袋。
可选的,所述根据所述输出结果对所述双向翻译模型进行参数更新,包括:
根据所述输出结果以及目标函数,对所述双向翻译模型进行参数更新;
其中,所述目标函数包括第一概率分布和第二概率分布;所述第一概率分布包括在已知所述样本文本的情况下、得到所述样本文本的预测翻译文本中的每个词的概率;所述第二概率分布包括在已知所述样本文本和所述样本文本对应的实际词袋的情况下、得到所述样本文本对应的预测词袋中的每个词的概率。
可选的,所述根据所述输出结果以及目标函数,对所述双向翻译模型进行参数更新,包括:
对于每一样本文本,确定该样本文本的预测翻译文本与实际翻译文本之间的差异、以及该样本文本对应的预测词袋与实际词袋之间的差异;
根据确定的差异以及所述目标函数,对所述双向翻译模型的参数进行更新。
本申请实施例还提供了一种文本翻译方法,包括:
利用预先构建的双向翻译模型,对待翻译的目标文本进行翻译,得到所述目标文本的预测翻译文本;
其中,所述目标文本的语种类型为所述双向翻译模型支持的两个翻译方向上的任一语种类型,所述双向翻译模型为根据上述提供的翻译模型训练方法的任一实施方式训练得到的。
本申请实施例提供了一种翻译模型训练装置,包括:
输入单元,用于将至少一个样本文本输入双向翻译模型,所述至少一个样本文本包括双向翻译方向中的至少一个语种类型下的文本数据;
输出单元,用于获取所述双向翻译模型的输出结果,所述输出结果包括每一样本文本的预测翻译文本以及每一样本文本对应的预测词袋,所述预测词袋是朝着对应样本文本的实际词袋的方向预测得到的,所述实际词袋包括对应样本文本的实际翻译文本中的各个不同词;
更新单元,用于根据所述输出结果对所述双向翻译模型进行参数更新,以完成本轮训练。
可选的,所述装置还包括:
收集单元,用于收集所述双向翻译方向中的每一语种类型下的文本语料;
提取单元,用于从所述每一语种类型下的文本语料中提取高频词,利用每一高频词以及该高频词的表示结果构成一个双语词典;
则,所述输入单元,具体用于:
确定所述至少一个样本文本中的属于所述双语词典的词,并将所确定的词的表示结果输入双向翻译模型。
可选的,所述输出单元,具体用于:
对于每一样本文本,利用所述双向翻译模型,生成所述样本文本的预测翻译文本,并且,根据所述双向翻译模型的解码层输出的对应于所述样本文本的各个隐状态表示结果,生成所述样本文本的预测词袋。
可选的,所述输出单元,包括:
计算子单元,用于将所述双向翻译模型的解码层输出的对应于所述样本文本的各个隐状态表示结果进行线性计算,得到线性计算结果;
生成子单元,用于根据所述线性计算结果,生成所述样本文本对应的预测词袋。
可选的,所述更新单元,具体用于:
根据所述输出结果以及目标函数,对所述双向翻译模型进行参数更新;
其中,所述目标函数包括第一概率分布和第二概率分布;所述第一概率分布包括在已知所述样本文本的情况下、得到所述样本文本的预测翻译文本中的每个词的概率;所述第二概率分布包括在已知所述样本文本和所述样本文本对应的实际词袋的情况下、得到所述样本文本对应的预测词袋中的每个词的概率。
可选的,所述更新单元,包括:
确定子单元,用于对于每一样本文本,确定该样本文本的预测翻译文本与实际翻译文本之间的差异、以及该样本文本对应的预测词袋与实际词袋之间的差异;
更新子单元,用于根据确定的差异以及所述目标函数,对所述双向翻译模型的参数进行更新。
本申请实施例提供了一种文本翻译装置,包括:
翻译单元,用于利用预先构建的双向翻译模型,对待翻译的目标文本进行翻译,得到所述目标文本的预测翻译文本;
其中,所述目标文本的语种类型为所述双向翻译模型支持的两个翻译方向上的任一语种类型,所述双向翻译模型为利用上述提供的翻译模型训练装置的任一实施方式训练得到的。
本申请实施例提供了一种翻译模型训练设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述提供的翻译模型训练方法的任一实施方式。
本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述提供的翻译模型训练方法的任一实施方式。
本申请实施例提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述提供的翻译模型训练方法的任一实施方式。
本申请实施例还提供了一种文本翻译设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述提供的文本翻译方法的任一实施方式。
本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述提供的文本翻译方法的任一实施方式。
本申请实施例提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述提供的文本翻译方法的任一实施方式。
基于上述技术方案,本申请具有以下有益效果:
本申请提供的翻译模型训练方法、文本翻译方法及相关装置中,翻译模型的一轮训练过程为:将至少一个样本文本输入双向翻译模型,并获取双向翻译模型的输出结果,以便根据该输出结果对双向翻译模型进行参数更新,其中,双向翻译模型的输出结果不仅包括每一样本文本的预测翻译文本,还包括每一样本文本对应的预测词袋,且该预测词袋是朝着对应样本文本的实际词袋的方向预测得到的,该实际词袋包括对应样本文本的实际翻译文本中的各个不同词,但每一样本文本的预测词袋与实际词袋中的词可能相同、也可能不同。因此,在对模型进行参数更新时,需要基于每一样本文本的预测词袋与其实际词袋之间的差异进行参数更新,使得该实际词袋可以用于指导翻译方向,故而,训练完成的双向翻译模型能够朝着输入样本文本的实际词袋的方向进行准确翻译,使得双向翻译模型能够进行双向翻译,无需训练不同方向的翻译模型,从而节省了模型训练过程所花费的人力和计算机资源。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的双向翻译方法的流程图;
图2为本申请实施例提供的第一种双向翻译方法的流程图;
图3为本申请实施例提供的第二种双向翻译方法的流程图;
图4为本申请方法实施例一提供的翻译模型训练方法的流程图;
图5为本申请实施例提供的词典构建方法的流程图;
图6为本申请实施例提供的双向翻译模型的结构示意图;
图7为本申请方法实施例二提供的文本翻译方法的流程图;
图8为本申请装置实施例一提供的翻译模型训练装置的结构示意图;
图9为本申请装置实施例二提供的文本翻译装置的结构示意图。
具体实施方式
在一些双向翻译方法中,需要针对两个特定的翻译方向分别训练对应的翻译模型,以便后续能够根据不同翻译方向选择不同翻译模型进行翻译,如图1所示。
为了便于解释和理解上述双向翻译方法,下面以包括中译英和英译中这两个翻译方向的双向翻译方法进行说明。
作为第一种双向翻译方法,如图2所示,该双向翻译方法的翻译过程具体为:首先,根据人为指定的待翻译文本的翻译方向(例如,英译中方向或中译英方向),选择目标翻译模型,即,若人为指定的待翻译文本的翻译方向为中译英,则将中译英翻译模型作为目标翻译模型,若人为指定的待翻译文本的翻译方向为英译中,则将英译中翻译模型作为目标翻译模型;然后,利用目标翻译模型对待翻译文本进行翻译,得到翻译文本。
作为第二种双向翻译方法,如图3所示,该双向翻译方法的翻译过程具体为:首先,利用预设语种识别算法,识别待翻译文本的语种类型(例如,英文或中文);然后,根据识别出的待翻译文本的语种类型,确定待翻译文本的翻译方向(例如,英译中方向或中译英方向);再然后,根据待翻译文本的翻译方向,选择目标翻译模型,即,若待翻译文本的翻译方向为中译英,则将中译英翻译模型作为目标翻译模型,若待翻译文本的翻译方向为英译中,则将英译中翻译模型作为目标翻译模型;最后,利用目标翻译模型对待翻译文本进行翻译,得到翻译文本。
经过研究发现,上述两种双向翻译方法存在以下技术问题:
在上述两种双向翻译方法中,无论是人为指定翻译方向还是机器识别翻译方向,均要求训练、配置中译英和英译中两个方向的不同翻译模型,需要研究人员训练优化两个不同方向的翻译模型,这对于人力和服务器计算资源来说,都是一种消耗和浪费。
为了解决上述技术问题,本申请提供了一种翻译模型训练方法、文本翻译方法及相关装置,仅需要训练优化一个翻译模型,该翻译模型可以实现双向翻译,从而节省了人力和计算机资源的消耗和浪费。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
方法实施例一
参见图4,该图为本申请方法实施例一提供的翻译模型训练方法的流程图。
本申请实施例提供的翻译模型训练方法,包括:
S41:将至少一个样本文本输入双向翻译模型,该至少一个样本文本包括双向翻译方向中的至少一个语种类型下的文本数据。
S42:获取双向翻译模型的输出结果,该输出结果包括每一样本文本的预测翻译文本以及每一样本文本对应的预测词袋,该预测词袋是朝着对应样本文本的实际词袋的方向预测得到的,该实际词袋包括对应样本文本的实际翻译文本中的各个不同词。
S43:根据输出结果对双向翻译模型进行参数更新,以完成本轮训练。
以上为本申请方法实施例一提供的翻译模型训练方法的具体执行步骤,为了便于理解和解释本申请方法实施例一提供的翻译模型训练方法,下面将依次介绍S41-S43的具体实施方式。
首先介绍S41的具体实施方式。
在步骤S41中,至少一个样本文本是双向翻译模型的输入文本,而且,至少一个样本文本可以包括双向翻译方向中的至少一个语种类型下的文本数据。
例如,若双向翻译模型可用于中英双向翻译,则该至少一个样本文本可以包括中文的文本数据、也可以包括英文的文本数据,还可以包括中文的文本数据和英文的文本数据。需要说明的是,一个样本文本即为一个中文的文本数据或一个英文的文本数据。
为了实现数据处理,步骤S41通常是将至少一个样本文本中的各个词的表示结果输入双向翻译模型。其中,一个样本文本中的各个词的表示结果可以是向量表示形式,也可以是其它表示形式,本申请对此不做具体限定。
需要说明的是,为了便于理解和解释,下文中将以一个样本文本中的各个词的表示结果采用向量形式为例进行说明。此时,当至少一个样本文本包括N(N≥1)个样本文本时,则每一样本文本中的各个词的表示结果可以为:
式中,xi为第i个样本文本中的各个词的表示结果的集合;i为正整数,且1≤i≤N;为第i个样本文本中的第1个词的表示结果;为第i个样本文本中的第2个词的表示结果;……;为第i个样本文本中的第Li个词的表示结果;Li为第i个样本文本中的词个数,且Li为正整数。
在本申请中不限定一个样本文本的各个词的表示结果的获取方法,可以采用现有或未来出现的任一种获取方法来获取每一样本文本的各个词的表示结果。为了便于解释和理解,下面结合示例进行说明。
作为示例,一个样本文本的各个词的表示结果的获取方法具体可以为:首先,利用预设分词方法将一个样本文本进行分词,得到一个样本文本的各个词汇;然后,利用预设的词向量生成方法(比如Word2vec方法),生成该样本文本的各个词的表示结果。
另外,在本申请中,为了提高双向翻译模型的训练效率,还可以从预先构建的双语词典中直接查询各个词的表示结果,因而,作为一种实施方式,S41具体可以为:确定至少一个样本文本中的属于双语词典的高频词,并将所确定的词的表示结果输入双向翻译模型。
在S41的上述实施方式中,双语词典需要预先构建,如图5所示,双语词典的构建过程具体可以包括步骤S51-S52:
S51:收集双向翻译方向中的每一语种类型下的文本语料。
为便于描述,将双向翻译模型的双向翻译方向下的两个语种定义为第一语种和第二语种,基于此,需要收集第一语种下的大量的文本语料和第二语种下的大量的文本语料。需要说明的是,本申请不限定文本语料的来源,比如,可以从互联网中爬取等。
S52:从每一语种类型下的文本语料中提取高频词,利用每一高频词以及该高频词的表示结果构成一个双语词典。
为了构建双语词典,具体来讲,S52可以包括S521-S524:
S521:基于第一语种下的文本语料,确定第一语种下的各个词汇的词频,并选择第一预设数目的词汇;其中,被选择词汇的词频均高于未被选择词汇的词频。
作为示例,当第一语种为中文时,则S51具体可以为:利用大量的中文文本语料,确定该语料中的各个中文词汇的词频,并根据词频从高到低选择词频较高的T个中文词汇,使得被选择的T个中文词汇的词频均高于未被选择的中文词汇的词频。例如,T个中文词汇可以包括“的”、“你”、“我”、“吃饭”、……。
S522:基于第二语种下的文本语料,确定第二语种下的各个词汇的词频,并选择第二预设数目的词汇;其中,被选择词汇的词频均高于未被选择词汇的词频。
作为示例,当第二语种为英文时,则S53具体可以为:利用大量的英文文本语料,获取该语料中的各个英文词汇的词频,并根据词频从高到低选择词频较高的M个英文词汇,使得被选择的M个英文词汇的词频均高于未被选择的英文词汇的词频。例如,M个英文词汇可以是包括“is”、“are”、“I”、“am”、……。
S523:利用第一语种下的第一预设数目的词汇与第二语种下的第二预设数目的词汇,构建初始词典。
可以按照词频从高到低的顺序,交叉着混合排列第一语种下的第一预设数目的词汇与第二语种下的第二预设数目的词汇,得到初始词典。
作为示例,假设当按照词频从高到低的顺序对第一预设数目的词汇进行排列时,则第一预设数目的词汇依次为词汇W1 first、词汇W2 first、……、词汇WT first;并且,当按照词频从高到低的顺序对第二预设数目的词汇进行排列时,则第二预设数目的词汇依次为词汇W1 second、词汇W2 second、……、词汇WM second,此时,初始词典中的词汇排列顺序可以为:词汇W1 first、词汇W1 second、词汇W2 first、词汇W2 second、……。
S524:生成该初始词典中每一词的表示结果,使该初始词典中每一词以及每一词的表示结果,构成双语词典。
本申请不限定该初始词典中的每一词的表示结果的生成方法,例如,当该词的表示结果为向量形式时,可以采用任一种能够将词进行向量化的算法,比如Word2vec算法。
需要说明的是,在上述提供的词典的构建过程中,步骤S521和步骤S522之间没有固定的执行顺序。可以先执行步骤S521,再执行步骤S522;也可以先执行步骤S522,再执行步骤S521;还可以同时执行步骤S521和S522。
以上为双语词典的相关内容。
因此,在S41的具体实施方式中,若至少一个样本文本中的全部词均属于双语词典,则利用双语词典中的各个词与该各个词的表示结果之间的对应关系,获取该至少一个样本文本中各个词的表示结果;但若至少一个样本文本中的部分词属于双语词典,则利用双语词典中的各个词与该各个词的表示结果之间的对应关系,获取该至少一个样本文本中属于双语词典的各个词的表示结果,同时,还需要获取至少一个样本文本中不属于双语词典的各个词的表示结果,这些词的表示结果可以是预先设置的统一的固定表示结果,该固定表示结果可以预存在双语词典中或是预存在其他位置。如此,后续可以将至少一个样本中各个词的表示结果输入到双向翻译模型进行翻译。
另外,本申请不限定双语词典中各个词与该各个词的表示结果之间的对应关系的表示方式,为了便于解释和理解,下面以各个词的表示结果为词向量为例进行说明。
作为示例,在双语词典中,各个词汇可以利用词汇标识进行区分,并将各个词汇的词汇标识与该各个词向量进行对应,使得每一词汇标识均对应于一个词向量。例如,在双语词典中,“我”的词汇标识为“0001”,且“0001”对应“第一词向量”,此时,“第一词向量”就是“我”的词向量。
在后续利用上述示例提供的双语词典进行词汇查询时,可以根据双语词典获取待查询词汇的词汇标识,再利用词汇标识与词向量的对应关系,获取该待查询词汇的词汇标识对应的词向量,并将获取的词向量作为待查询词汇的词向量。例如,当利用词典查询“我”的词向量时,则其过程可以为:先在双语词典中查到“我”的词汇标识“0001”,再根据词汇标识“0001”获取“第一词向量”,此时,可以得到“我”的词向量为“第一词向量”。
以上为步骤S41的一种具体实施方式。
另外,在步骤S41中,双向翻译模型能够将双向翻译方向中的一个语种类型下的文本数据翻译成另一个语种类型下的翻译文本进行输出。例如,若双向翻译模型用于进行中英双向翻译,则双向翻译模型能够将中文的文本数据翻译为英文的文本数据,还能够将英文的文本数据翻译为中文的文本数据。
在本申请中,S41中的双向翻译模型可以是进行初始配置后的双向翻译模型,也可以是进行了至少一轮训练后的双向翻译模型,本申请对此不做具体限定。
此外,本申请不限定双向翻译模型的网络框架,双向翻译模型可以采用任一种现有或未来出现的神经机器翻译模型的网络框架。例如,双向翻译模型可以采用卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)、深度学习的transformer模型等网络框架。
以上为S41的具体实施方式。
下面介绍步骤S42的具体实施方式。
在步骤S42中,双向翻译模型的输出结果可以包括每一样本文本的预测翻译文本以及每一样本文本对应的预测词袋。
本申请不限定双向翻译模型的输出结果的具体形式,例如,双向翻译模型的输出结果具体可以包括每一样本文本的预测翻译文本中的各个词的表示结果以及每一样本文本对应的预测词袋中的各个词的表示结果。
其中,一个样本文本的预测翻译文本中的各个词的表示结果是指利用双向翻译模型对该样本文本进行预测翻译得到的内容。
一个样本文本的预测翻译文本中的各个词的表示结果可以是向量表示形式,也可以是其它表示形式,本申请对此不做具体限定。
作为示例,假设在步骤S41中将N个样本文本的各个词的表示结果输入到双向翻译模型中,则双向翻译模型的输出结果将包括N个预测翻译文本的各个词的表示结果;而且,当各个预测翻译文本均采用向量形式进行表示时,则每一预测翻译文本中的各个词的表示结果可以为:
式中,yi为第i个预测翻译文本中的各个词的表示结果的集合;i为正整数,且1≤i≤N;为第i个预测翻译文本中的第1个词的表示结果;为第i个预测翻译文本中的第2个词的表示结果;……;为第i个预测翻译文本中的第Mi个词的表示结果;Mi为第i个预测翻译文本中的词个数,且Li为正整数。
在本申请中,每一样本文本均对应一个预测词袋,需要说明的是,预测词袋是双向翻译模型根据对应样本文本,朝着对应样本文本的实际词袋的方向预测得到的,且该实际词袋包括对应样本文本的实际翻译文本中的各个不同词,但由于预测词袋是根据对应样本文本预测得到的,这使得该预测词袋中的各个不同词与实际词袋中的各个不同词,可能完全相同、也可能部分相同、甚至可能完全不同。此外,双向翻译模型通常需要先得到预测词袋中的各个词的表示结果,然后才能基于这些表示结果确定预测词袋中的各个具体词,本申请不限定预测词袋中的各个词的表示结果的形式,可以是向量形式或是其他形式。
作为示例,假设在步骤S41中将N个样本文本的各个词的表示结果输入到双向翻译模型中,则双向翻译模型的输出结果将包括N个预测词袋的表示结果;而且,当各个预测词袋均采用向量形式进行表示时,则每一预测词袋中的各个词的表示结果可以为:
式中,bi为第i个预测词袋中的各个词的表示结果的集合;i为正整数,且1≤i≤N;为第i个预测词袋中的第1个词的表示结果;为第i个预测词袋中的第2个词的表示结果;……;为第i个预测词袋中的第Ki个词的表示结果;Ki为第i个预测词袋中的词个数,且Ki为正整数,1≤Ki≤Mi,Mi为第i个样本文本的预测翻译文本中的词个数。
需要说明的是,在对双向翻译模型进行训练之前,通常需要预先收集大量的样本文本以及与每一样本文本所对应的实际翻译文本,并根据每一样本文本所对应的实际翻译文本中的各个不同词,得到每一样本文本所对应的实际词袋,以便使得每一样本文本所对应的实际翻译文本以及每一样本文本所对应的实际词袋,能够用于对双向翻译模型的参数更新。如此,使得在模型训练过程中引入了“实际词袋”,能够增强双向翻译模型的学习能力,使得双向翻译模型能够朝着受“实际词袋”约束的方向进行翻译,从而提升模型的翻译结果的准确性;而且,在模型训练过程中引入“实际词袋”,还能够加强双向翻译模型的双向翻译能力,使得训练得到的双向翻译模型能够朝着输入文本的实际词袋的方向进行准确翻译,使得双向翻译模型能够进行双向翻译,无需训练不同方向的翻译模型,从而节省了模型训练过程所花费的人力和计算机资源。
现举例说明实际词袋,假设一个样本文本的实际翻译文本为“我和你,我和他”,对该实际翻译文本中的词去重后,得到该样本文本对应的实际词袋包括“我”“和”“你”“他”这四个不同词。
在本申请中,步骤S42可以采用多种实施方式,为了便于解释和理解,下面将以S42的一种实施方式为例进行说明。
作为一种实施方式,S42具体可以包括步骤S421-S422:
S421:对于每一样本文本,利用双向翻译模型,生成该样本文本的预测翻译文本。
为了实现S421,需要预先利用双向翻译模型,生成该样本文本的预测翻译文本中的各个词的表示结果。
双向翻译模型可以同时生成至少一个样本文本的预测翻译文本中的各个词的表示结果,而且,利用双向翻译模型生成每一样本文本的预测翻译文本中的各个词的表示结果的过程是相互独立的。
为了便于解释和理解,下面将结合两个示例进行说明。
作为第一示例,当将一个样本文本输入到双向翻译模型时,则S421具体可以为:利用双向翻译模型,生成该输入的样本文本的预测翻译文本中的各个词的表示结果。
作为第二示例,当将第1个样本文本至第3个样本文本同时输入到双向翻译模型时,则S421具体可以包括S421A1-S421A3:
S421A1:利用双向翻译模型,生成第1个样本文本的预测翻译文本中的各个词的表示结果。
S421A2:利用双向翻译模型,生成第2个样本文本的预测翻译文本中的各个词的表示结果。
S421A3:利用双向翻译模型,生成第3个样本文本的预测翻译文本中的各个词的表示结果。
需要说明的是,步骤S421A1、S421A2和S421A3之间没有固定的执行顺序。
根据上述两个示例可知,双向翻译模型可以处理一个或同时处理多个输入的样本文本,而且在处理过程中,双向翻译模型将分别采用相同的处理过程对各个样本文本进行独立处理。
由于双向翻译模型处理各个样本文本的过程相同且相互独立,因而,为了便于解释和理解S421,下面将结合图6并以一个样本文本的处理过程为例对S421进行说明。
作为一种实施方式,在步骤S421中,双向翻译模型可以利用步骤S421B1-S421B4来对每一个样本文本进行独立处理,且步骤S421B1-S421B4具体可以为:
S421B1:对样本文本中的各个词的表示结果进行编码,得到编码结果。
作为示例,当词的表示结果利用向量进行表示,且第i个样本文本中的各个词的表示结果为xi时,则步骤S421B1具体可以包括步骤S421B11-S421B12:
S421B11:对第i个样本文本中的每一词向量,利用公式(4)进行编码计算,得到第i个样本文本中的每一词向量对应的隐状态表示结果。
式中,为第i个样本文本xi中的第t个词对应的隐状态表示结果;Fencoder(·)为编码算法;为第i个样本文本xi中的第t个词的表示结果;t为正整数,且1≤t≤Li;xi为第i个样本文本中的各个词的表示结果的集合,且xi的参数详情请参照公式(1);i为正整数,且1≤i≤N;Li为第i个样本文本中的词个数。
需要说明的是,本申请不限定公式(4)中所使用的编码算法Fencoder(·),可以采用现有或未来出现的任一种编码算法对各个词向量进行编码计算,以便得到各个词向量对应的隐状态表示结果。例如,公式(4)中所使用的编码算法Fencoder(·),可以是基于CNN的编码网络的算法,也可以是基于RNN的编码网络的算法,还可以是基于自注意力机制(self-attention)的编码网络的算法。
S421B12:根据第i个样本文本中的各个词向量对应的隐状态表示结果,得到第i个样本文本的编码结果。
作为一种实施方式,S421B12具体可以为:将第i个样本文本中的各个词向量对应的隐状态表示结果的集合,作为第i个样本文本的编码结果hi:。
式中,hi为第i个样本文本xi的编码结果;为第i个样本文本xi中的第1个词对应的隐状态表示结果;为第i个样本文本xi中的第2个词对应的隐状态表示结果;……;为第i个样本文本xi中的第Li个词对应的隐状态表示结果;i为正整数,且1≤i≤N;Li为第i个样本文本xi中的词个数。
以上为步骤S421B1的具体实施方式。
S421B2:对编码结果中的各个编码单元以及上一个解码单元进行注意力计算,得到编码结果中的各个编码单元对应的权重值。
一个编码单元对应的权重值用于衡量该编码单元对应的词在解码过程中的贡献程度。如果一个编码单元对应的权重值越大,则该编码单元对应的词在解码过程中的贡献程度越大,则该编码单元对应的词越利于提高解码准确率。
编码结果中的各个编码单元是指对应样本文本中各个词对应的编码结果。例如,当第i个样本文本的编码结果为公式(5)所示的hi时,则隐状态表示结果均是编码单元。
作为示例,当在步骤S421B1中得到了第i个样本文本的编码结果hi时,则S421B2具体可以为:根据第t-1个解码单元和编码结果中的各个编码单元,利用公式(6),得到编码结果中的各个编码单元对应的权重值:
式中,为第i个样本文本xi的编码结果hi中的各个编码单元对应的权重值;Fattention(·)为注意力算法;为上一个解码单元的隐状态表示结果,中的t满足1≤t≤Mi,Mi为第i个样本文本xi的解码结果中的解码单元的总个数;hi为第i个样本文本xi的编码结果,且hi的参数详情请参见公式(5)。
需要说明的是,本申请不限定公式(6)中所使用的注意力算法Fattention(·),可以采用任一种注意力算法对各个编码单元进行权重值计算,以便得到各个编码单元对应的权重值。
以上为S421B2的具体实施方式。
S421B3:根据上一个解码单元以及编码结果中的各个编码单元对应的权重值,生成当前解码单元。
作为示例,当上一解码单元的隐状态表示结果为且第i个样本文本的编码结果中的各个编码单元对应的权重值为时,则S421B3具体可以为:根据第t-1个解码单元的隐状态表示结果和第i个样本文本的编码结果中的各个编码单元对应的权重值利用公式(7),得到当前解码单元的隐状态表示结果
式中,为第t个解码单元(即当前解码单元)的隐状态表示结果;Fdecoder(·)为解码算法;为第t-1个解码单元的隐状态表示结果;为第i个样本文本xi的编码结果hi中的各个编码单元对应的权重值。
需要说明的是,本申请不限定公式(7)中所使用的解码算法Fdecoder(·),可以采用任一种解码算法进行解码计算。例如,在公式(7)中所使用的解码算法Fdecoder(·)可以是基于CNN的解码网络的算法,也可以是基于RNN的解码网络的算法,还可以是基于注意力机制self-attention的解码网络的算法。
S421B4:根据各个解码单元,得到样本文本的预测翻译文本中的各个词的表示结果。
作为一种实施方式,当在步骤S421B3中得到了第1个解码单元的隐状态表示结果第2个解码单元的隐状态表示结果……、第Mi个解码单元的隐状态表示结果时,则步骤S421B4具体可以为:将第1个解码单元的隐状态表示结果第2个解码单元的隐状态表示结果……、第Mi个解码单元的隐状态表示结果进行进一步处理,比如通过全连接层进行处理,可以得到第i样本文本的预测翻译文本中的第1个词的表示结果至第Mi个词的表示结果,即,得到
以上为S421的具体实施方式。
S422:对于每一样本文本,利用双向翻译模型,生成该样本文本的预测词袋。
对于每一样本文本,可以根据双向翻译模型的解码层输出的对应于该样本文本的各个隐状态表示结果,生成该样本文本的预测词袋,具体地,可以根据双向翻译模型的解码层输出的对应于该样本文本的各个隐状态表示结果,生成该样本文本的预测词袋中的各个词的表示结果,即,根据上述S421B4中的第1个解码单元的隐状态表示结果第2个解码单元的隐状态表示结果……、第Mi个解码单元的隐状态表示结果生成上述公式(3)中的预测词袋中的各个词的表示结果进而,可以基于该样本文本的预测词袋中的各个词的表示结果,得到该样本文本对应的预测词袋中的各个词。
需要说明的是,双向翻译模型可以同时生成至少一个样本文本对应的预测词袋的表示结果,且利用双向翻译模型生成每一样本文本对应的预测词袋的表示结果的过程是相互独立的。
为了便于解释和理解,下面将结合示例进行说明。
作为示例,当通过步骤S421B3解码得到对应于第1个样本文本的各个隐状态表示结果至对应于第3个样本文本的各个隐状态表示结果时,则S422具体可以包括S422A1-S422A3:
S422A1:根据对应于第1个样本文本的各个隐状态表示结果,生成第1个样本文本对应的预测词袋的表示结果。
S422A2:根据对应于第2个样本文本的各个隐状态表示结果,生成第2个样本文本对应的预测词袋的表示结果。
S422A3:根据对应于第3个样本文本的各个隐状态表示结果,生成第3个样本文本对应的预测词袋的表示结果。
需要说明的是,步骤S422A1、S422A2和S422A3之间没有固定的执行顺序。
由于各个样本文本对应的预测词袋的表示结果的过程相同且相互独立,因而,为了便于解释和理解S422,下面将以一个样本文本的处理过程为例对S422进行说明。
作为一种实施方式,在步骤S422中,可以利用步骤S422B1-S422B2来生成每一样本文本对应的预测词袋的表示结果,且步骤S422B1-S422B2具体可以为:
S422B1:对于每一样本文本,将双向翻译模型的解码层输出的对应于该样本文本的各个隐状态表示结果进行线性计算,得到该样本文本对应的线性计算结果。
作为示例,当基于第i个样本文本解码得到的各个隐状态表示结果为时,则S422B1的具体可以为:利用公式(9)对该各个隐状态表示结果进行线性计算,得到第i个样本文本对应的线性计算结果。
式中,为第i个样本文本对应的线性计算结果;i为正整数,且1≤i≤N;N为输入到双向翻译模型中的样本文本总个数,且N为正整数;为基于第i个样本文本解码得到的各个隐状态表示结果中的第t个隐状态表示结果;t为正整数,且1≤t≤Mi。
需要说明的是,利用公式(9)进行线性计算时,可以将至中相同维度中的数值进行加和。
S422B2:根据该样本文本对应的线性计算结果,生成该样本文本对应的预测词袋。
作为一种实施方式,S422B2具体可以为:根据样本文本的线性计算结果,生成该样本文本对应的预测词袋的表示结果。
本申请提供了S422B2的一种实施方式,在该实施方式中,S422B2具体可以包括步骤S422B21-S422B22:
S422B21:根据该样本文本对应的线性计算结果,利用全连接进行处理,得到样本文本对应的预测词袋的初始表示结果。
作为示例,当第i个样本文本对应的线性计算结果为时,则S422B21具体可以为:基于公式(10),利用预设全连接算法对第i个样本文本对应的线性计算结果进行处理,得到第i个样本文本对应的预测词袋的初始表示结果
式中,为第i个样本文本对应的预测词袋的初始表示结果;FFN(·)为预设全连接算法;为第i个样本文本对应的线性计算结果;i为正整数,且1≤i≤N;N为输入到双向翻译模型中的样本文本总个数,且N为正整数。
S422B22:根据样本文本对应的预测词袋的初始表示结果,利用预设分类算法进行处理,得到该样本文本对应的预测词袋的最终表示结果。
预设分类算法可以预先设定,例如,预设分类算法可以是基于Sigmoid函数的分类算法。
作为示例,当预设分类算法为基于Sigmoid函数的分类算法,且第i个样本文本对应的预测词袋的初始表示结果为时,则S422B22具体可以为:基于公式(11),利用预设分类算法对第i个样本文本对应的预测词袋的初始表示结果进行处理,得到第i个样本文本对应的预测词袋的最终表示结果为bi:
式中,bi为第i个样本文本对应的预测词袋的最终表示结果;为第i个样本文本对应的预测词袋的初始表示结果;sigmoid(·)为基于Sigmoid函数的分类算法;i为正整数,且1≤i≤N。
以上为S422的一种实施方式,需要说明的是,在上述步骤S422B1-S422B2中是以获取一个样本文本对应的预测词袋的表示结果为例进行说明的。然而,在本申请中可以根据至少一个样本文本的预测翻译文本中的各个词的表示结果,分别独立地利用上述步骤S422B1-S422B2,来获取该至少一个样本文本对应的预测词袋的表示结果。
以上为步骤S42的具体实施方式。
下面介绍步骤S43的具体实施方式。
在步骤S43中,为了提高双向翻译模型的翻译能力,可以利用双向翻译模型所输出的各个样本文本的预测翻译文本中的各个词的表示结果、以及预测词袋的表示结果,来对双向翻译模型进行参数更新,以便使得更新后的双向翻译模型能够更好地进行双向翻译。
作为第一种实施方式,S43具体可以为:根据双向翻译模型的输出结果以及目标函数,对双向翻译模型进行参数更新。
其中,目标函数包括第一概率分布和第二概率分布;该第一概率分布包括在已知样本文本的情况下、得到该样本文本的预测翻译文本中的每个词的概率;该第二概率分布包括在已知样本文本和该样本文本对应的实际词袋的情况下、得到该样本文本对应的预测词袋中的每个词的概率。
具体来讲,目标函数包括第一概率分布和第二概率分布;该第一概率分布包括在已知样本文本和当前词之前每个词翻译结果的情况下、得到该样本文本的预测翻译文本中的当前词的概率;该第二概率分布包括在已知样本文本和该样本文本对应的实际词袋的情况下、得到该样本文本对应的预测词袋中的每个词的概率。
为了便于理解和解释目标函数,下面结合目标函数的计算公式(12)进行具体说明。
式中,X为上述的第i个样本文本;B为第i个样本文本X对应的实际词袋;Y为第i个样本文本X对应的实际翻译文本;y为第i个样本文本X对应的预测翻译文本;Mi为预测翻译文本y中的词的总个数;b为第i个样本文本X对应的预测词袋;yt为预测翻译文本y中的第t个词;y<t为预测翻译文本y中的第1个词至第t-1个词的集合;P(yt|y<t,X)为在已知第i个样本文本X和第t个词之前每个词翻译结果的情况下,得到预测翻译文本y中的第t个词的概率;P(b|B,X)为在已知第i个样本文本X和第i个样本文本X对应的实际词袋B的情况下,得到第i个样本文本X对应的预测词袋b中每个词的概率;P(Y|X,B)为在已知第i个样本文本X以及第i个样本文本X对应的实际词袋的情况下、预测翻译文本y作为实际翻译文本Y时的概率大小。
在本申请中,对双向翻译模型进行参数更新的方向是使得预测翻译文本能够更接近实际翻译文本以及使得预测词袋能够更接近实际词袋,也就是,对双向翻译模型进行参数更新的方向是使得目标函数值最大化。
基于上述目标函数的相关内容,本申请还提供了S43的第二种实施方式,在该实施方式中,S43具体可以包括步骤S43A1-S43A2:
S43A1:对于每一样本文本,确定该样本文本的预测翻译文本与实际翻译文本之间的差异、以及该样本文本对应的预测词袋与实际词袋之间的差异。
本申请中不限定样本文本的预测翻译文本与实际翻译文本之间的差异的具体表示形式,比如可以采用向量进行表示。本申请也不限定样本文本的预测词袋与实际词袋之间的差异的具体表示形式,比如可以采用向量进行表示。
S43A2:根据确定的差异以及目标函数,对双向翻译模型的参数进行更新。
在对模型进行参数更新时,可以进行反向的梯度更新,本申请不对具体的更新方法进行限定。
以上为S43的具体实施方式。
可以理解的是,为了提高双向翻译模型的翻译能力,需要对双向翻译模型进行多轮训练,直至达到预设的训练结束条件为止,比如,该训练结束条件为目标函数的变化量小于预设阈值。
以上为本申请方法实施例一提供的翻译模型训练方法的具体实施方式,在该实施方式中,将至少一个样本文本输入双向翻译模型,并获取双向翻译模型的输出结果,以便根据该输出结果对双向翻译模型进行参数更新,其中,双向翻译模型的输出结果不仅包括每一样本文本的预测翻译文本,还包括每一样本文本对应的预测词袋,且该预测词袋是朝着对应样本文本的实际词袋的方向预测得到的,该实际词袋包括对应样本文本的实际翻译文本中的各个不同词,但每一样本文本的预测词袋与实际词袋中的词可能相同、也可能不同。因此,在对模型进行参数更新时,需要基于每一样本文本的预测词袋与其实际词袋之间的差异进行参数更新,使得该实际词袋可以用于指导翻译方向,故而,训练完成的双向翻译模型能够朝着输入样本文本的实际词袋的方向进行准确翻译,使得双向翻译模型能够进行双向翻译,无需训练不同方向的翻译模型,从而节省了模型训练过程所花费的人力和计算机资源。
方法实施例二
在双向翻译模型训练完成后,可以利用该双向翻译模型进行翻译,因而,基于上述利用方法实施例一提供的翻译模型训练方法训练获得的双向翻译模型,本申请还提供了一种文本翻译方法,该方法包括:利用预先构建的双向翻译模型,对待翻译的目标文本进行翻译,得到该目标文本的预测翻译文本。需要说明的是,在文本翻译方法中,当利用双向翻译模型对待翻译的目标文本进行翻译时,该双向翻译模型只输出该目标文本的预测翻译文本,并不会输出该目标文本的预测词袋,也就是说,图6所示的“词袋”预测的流程将不再工作。
其中,目标文本的语种类型为双向翻译模型支持的两个翻译方向上的任一语种类型;而且,双向翻译模型可以利用上述方法实施例一提供的翻译模型训练方法的任一实施方式进行训练得到的。
为了便于解释和理解,下面结合示例对文本翻译方法进行说明。
作为示例,假设双向翻译模型用于进行中英双向翻译,则当目标文本为中文文本时,文本翻译方法可以为:利用双向翻译模型对中文文本进行翻译,以便得到该中文文本对应的预测英文文本;当目标文本为英文文本时,文本翻译方法可以为:利用双向翻译模型对英文文本进行翻译,以便得到该英文文本对应的预测中文文本。
另外,本申请还提供了上述文本翻译方法的另一种实施方式,下面结合图7进行解释和说明。
作为一种实施方式,文本翻译方法具体可以包括步骤S71-S72:
S71:利用预先构建的双向翻译模型,生成目标文本的预测翻译文本中的各个词的表示结果。
步骤S71中的“预测翻译文本中的各个词的表示结果”与上述方法实施例一种提供的“预测翻译文本中的各个词的表示结果”的生成方法相同,详情请参照上述方法实施例一。
S72:根据词典中的各个词与该各个词的表示结果之间的对应关系,获取目标文本的预测翻译文本中的各个词。
其中,词典可以为上述方法实施例一的步骤S411中提供的词典,详情请参照上述方法实施例一的步骤S411。
为了便于解释和理解S82,下面结合示例进行说明。
假设词典中的“第一词向量”对应于词汇标识“0001”,且词汇标识“0001”对应于“我”,则当在步骤S81中得到了目标文本的预测翻译文本中的第一个词的表示结果为“第一词向量”时,S82具体可以为:先在词典中找到“第一词向量”对应的词汇标识“0001”,再根据词汇标识“0001”找到“我”,以便将“我”作为目标文本的预测翻译文本中的第一个词。
以上为本申请方法实施例二提供的文本翻译方法的具体实施方式,在该实施方式中,由于双向翻译模型是利用上述方法实施例一提供的翻译模型训练方法获得的,因而,该双向翻译模型能够朝着目标文本的实际词袋的方向进行准确翻译,使得双向翻译模型能够进行双向翻译,无需训练不同方向的翻译模型,从而节省了模型训练过程所花费的人力和计算机资源。
装置实施例一
本实施例将对一种翻译模型训练装置进行介绍,相关内容请参见上述方法实施例一。
参见图8,该图为本申请装置实施例一提供的翻译模型训练装置的结构示意图。
本申请实施例提供的翻译模型训练装置80,包括:
输入单元81,用于将至少一个样本文本输入双向翻译模型,所述至少一个样本文本包括双向翻译方向中的至少一个语种类型下的文本数据;
输出单元82,用于获取所述双向翻译模型的输出结果,所述输出结果包括每一样本文本的预测翻译文本以及每一样本文本对应的预测词袋,所述预测词袋是朝着对应样本文本的实际词袋的方向预测得到的,所述实际词袋包括对应样本文本的实际翻译文本中的各个不同词;
更新单元83,用于根据所述输出结果对所述双向翻译模型进行参数更新,以完成本轮训练。
作为一种实施方式,为了提高双向翻译模型的训练效果,所述装置80还包括:
收集单元,用于收集所述双向翻译方向中的每一语种类型下的文本语料;
提取单元,用于从所述每一语种类型下的文本语料中提取高频词,利用每一高频词以及该高频词的表示结果构成一个双语词典;
则,所述输入单元81,具体用于:
确定所述至少一个样本文本中的属于所述双语词典的词,并将所确定的词的表示结果输入双向翻译模型。
作为一种实施方式,为了提高双向翻译模型的训练效果,所述输出单元82,具体用于:
对于每一样本文本,利用所述双向翻译模型,生成所述样本文本的预测翻译文本,并且,根据所述双向翻译模型的解码层输出的对应于所述样本文本的各个隐状态表示结果,生成所述样本文本的预测词袋。
作为一种实施方式,为了提高双向翻译模型的训练效果,所述输出单元82,包括:
计算子单元,用于将所述双向翻译模型的解码层输出的对应于所述样本文本的各个隐状态表示结果进行线性计算,得到线性计算结果;
生成子单元,用于根据所述线性计算结果,生成所述样本文本对应的预测词袋。
作为一种实施方式,为了提高双向翻译模型的训练效果,所述更新单元83,具体用于:
根据所述输出结果以及目标函数,对所述双向翻译模型进行参数更新;
其中,所述目标函数包括第一概率分布和第二概率分布;所述第一概率分布包括在已知所述样本文本的情况下、得到所述样本文本的预测翻译文本中的每个词的概率;所述第二概率分布包括在已知所述样本文本和所述样本文本对应的实际词袋的情况下、得到所述样本文本对应的预测词袋中的每个词的概率。
作为一种实施方式,为了提高双向翻译模型的训练效果,所述更新单元83,包括:
确定子单元,用于对于每一样本文本,确定该样本文本的预测翻译文本与实际翻译文本之间的差异、以及该样本文本对应的预测词袋与实际词袋之间的差异;
更新子单元,用于根据确定的差异以及所述目标函数,对所述双向翻译模型的参数进行更新。
进一步地,本申请实施例提供了一种翻译模型训练设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述方法实施例一提供的翻译模型训练方法的任一实施方式。
进一步地,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述方法实施例一提供的翻译模型训练方法的任一实施方式。
进一步地,本申请实施例提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述方法实施例一提供的翻译模型训练方法的任一实施方式。
装置实施例二
本实施例将对一种文本翻译装置进行介绍,相关内容请参见上述方法实施例二。
参见图9,该图为本申请装置实施例二提供的文本翻译装置的结构示意图。
本申请实施例提供的文本翻译装置90,包括:
翻译单元91,用于利用预先构建的双向翻译模型,对待翻译的目标文本进行翻译,得到所述目标文本的预测翻译文本;
其中,所述目标文本的语种类型为所述双向翻译模型支持的两个翻译方向上的任一语种类型,所述双向翻译模型为利用上述装置实施例二提供的翻译模型训练装置的任一实施方式训练得到的。
进一步地,本申请实施例还提供了一种文本翻译设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述方法实施例二提供的文本翻译方法的任一实施方式。
进一步地,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述方法实施例二提供的文本翻译方法的任一实施方式。
进一步地,本申请实施例提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述方法实施例二提供的文本翻译方法的任一实施方式。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (15)
1.一种翻译模型训练方法,其特征在于,包括:
将至少一个样本文本输入双向翻译模型,所述至少一个样本文本包括双向翻译方向中的至少一个语种类型下的文本数据;
获取所述双向翻译模型的输出结果,所述输出结果包括每一样本文本的预测翻译文本以及每一样本文本对应的预测词袋,所述预测词袋是朝着对应样本文本的实际词袋的方向预测得到的,所述实际词袋包括对应样本文本的实际翻译文本中的各个不同词;
根据所述输出结果对所述双向翻译模型进行参数更新,以完成本轮训练。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
收集所述双向翻译方向中的每一语种类型下的文本语料;
从所述每一语种类型下的文本语料中提取高频词,利用每一高频词以及该高频词的表示结果构成一个双语词典;
则,所述将至少一个样本文本输入双向翻译模型,包括:
确定所述至少一个样本文本中的属于所述双语词典的词,并将所确定的词的表示结果输入双向翻译模型。
3.根据权利要求1所述的方法,其特征在于,所述获取所述双向翻译模型的输出结果,包括:
对于每一样本文本,利用所述双向翻译模型,生成所述样本文本的预测翻译文本,并且,根据所述双向翻译模型的解码层输出的对应于所述样本文本的各个隐状态表示结果,生成所述样本文本的预测词袋。
4.根据权利要求3所述的方法,其特征在于,所述根据所述双向翻译模型的解码层输出的对应于所述样本文本的各个隐状态表示结果,生成所述样本文本的预测词袋,包括:
将所述双向翻译模型的解码层输出的对应于所述样本文本的各个隐状态表示结果进行线性计算,得到线性计算结果;
根据所述线性计算结果,生成所述样本文本对应的预测词袋。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述输出结果对所述双向翻译模型进行参数更新,包括:
根据所述输出结果以及目标函数,对所述双向翻译模型进行参数更新;
其中,所述目标函数包括第一概率分布和第二概率分布;所述第一概率分布包括在已知所述样本文本的情况下、得到所述样本文本的预测翻译文本中的每个词的概率;所述第二概率分布包括在已知所述样本文本和所述样本文本对应的实际词袋的情况下、得到所述样本文本对应的预测词袋中的每个词的概率。
6.根据权利要求5所述的方法,其特征在于,所述根据所述输出结果以及目标函数,对所述双向翻译模型进行参数更新,包括:
对于每一样本文本,确定该样本文本的预测翻译文本与实际翻译文本之间的差异、以及该样本文本对应的预测词袋与实际词袋之间的差异;
根据确定的差异以及所述目标函数,对所述双向翻译模型的参数进行更新。
7.一种文本翻译方法,其特征在于,包括:
利用预先构建的双向翻译模型,对待翻译的目标文本进行翻译,得到所述目标文本的预测翻译文本;
其中,所述目标文本的语种类型为所述双向翻译模型支持的两个翻译方向上的任一语种类型,所述双向翻译模型为根据权利要求1至7任一项所述方法训练得到的。
8.一种翻译模型训练装置,其特征在于,包括:
输入单元,用于将至少一个样本文本输入双向翻译模型,所述至少一个样本文本包括双向翻译方向中的至少一个语种类型下的文本数据;
输出单元,用于获取所述双向翻译模型的输出结果,所述输出结果包括每一样本文本的预测翻译文本以及每一样本文本对应的预测词袋,所述预测词袋是朝着对应样本文本的实际词袋的方向预测得到的,所述实际词袋包括对应样本文本的实际翻译文本中的各个不同词;
更新单元,用于根据所述输出结果对所述双向翻译模型进行参数更新,以完成本轮训练。
9.根据权利要求8所述的装置,其特征在于,所述输出单元,具体用于:
对于每一样本文本,利用所述双向翻译模型,生成所述样本文本的预测翻译文本,并且,根据所述双向翻译模型的解码层输出的对应于所述样本文本的各个隐状态表示结果,生成所述样本文本的预测词袋。
10.根据权利要求8至9任一项所述的装置,其特征在于,所述更新单元,具体用于:
根据所述输出结果以及目标函数,对所述双向翻译模型进行参数更新;
其中,所述目标函数包括第一概率分布和第二概率分布;所述第一概率分布包括在已知所述样本文本的情况下、得到所述样本文本的预测翻译文本中的每个词的概率;所述第二概率分布包括在已知所述样本文本和所述样本文本对应的实际词袋的情况下、得到所述样本文本对应的预测词袋中的每个词的概率。
11.一种文本翻译装置,其特征在于,包括:
翻译单元,用于利用预先构建的双向翻译模型,对待翻译的目标文本进行翻译,得到所述目标文本的预测翻译文本;
其中,所述目标文本的语种类型为所述双向翻译模型支持的两个翻译方向上的任一语种类型,所述双向翻译模型为利用权利要求8至10任一项所述装置训练得到的。
12.一种翻译模型训练设备,其特征在于,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-6任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-6任一项所述的方法。
14.一种文本翻译设备,其特征在于,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求7所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求7所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910595220.6A CN110298046B (zh) | 2019-07-03 | 2019-07-03 | 一种翻译模型训练方法、文本翻译方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910595220.6A CN110298046B (zh) | 2019-07-03 | 2019-07-03 | 一种翻译模型训练方法、文本翻译方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110298046A true CN110298046A (zh) | 2019-10-01 |
CN110298046B CN110298046B (zh) | 2023-04-07 |
Family
ID=68030071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910595220.6A Active CN110298046B (zh) | 2019-07-03 | 2019-07-03 | 一种翻译模型训练方法、文本翻译方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110298046B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144137A (zh) * | 2019-12-17 | 2020-05-12 | 语联网(武汉)信息技术有限公司 | 机器翻译后编辑模型语料的生成方法及装置 |
CN113486681A (zh) * | 2021-08-02 | 2021-10-08 | 科大讯飞股份有限公司 | 一种同传翻译方法、装置、设备及存储介质 |
RU2790026C2 (ru) * | 2020-12-22 | 2023-02-14 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для обучения алгоритма машинного обучения для перевода |
CN117313656A (zh) * | 2023-09-21 | 2023-12-29 | 成都明途科技有限公司 | 文本生成方法、训练方法、模型、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015079591A1 (en) * | 2013-11-27 | 2015-06-04 | Nec Corporation | Crosslingual text classification method using expected frequencies |
CN104731774A (zh) * | 2013-12-24 | 2015-06-24 | 哈尔滨工业大学 | 面向通用机译引擎的个性化翻译方法及装置 |
CN108536756A (zh) * | 2018-03-16 | 2018-09-14 | 苏州大学 | 基于双语信息的情绪分类方法及系统 |
CN109190126A (zh) * | 2018-09-17 | 2019-01-11 | 北京神州泰岳软件股份有限公司 | 词嵌入模型的训练方法及装置 |
CN109785824A (zh) * | 2019-03-15 | 2019-05-21 | 科大讯飞股份有限公司 | 一种语音翻译模型的训练方法及装置 |
-
2019
- 2019-07-03 CN CN201910595220.6A patent/CN110298046B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015079591A1 (en) * | 2013-11-27 | 2015-06-04 | Nec Corporation | Crosslingual text classification method using expected frequencies |
CN104731774A (zh) * | 2013-12-24 | 2015-06-24 | 哈尔滨工业大学 | 面向通用机译引擎的个性化翻译方法及装置 |
CN108536756A (zh) * | 2018-03-16 | 2018-09-14 | 苏州大学 | 基于双语信息的情绪分类方法及系统 |
CN109190126A (zh) * | 2018-09-17 | 2019-01-11 | 北京神州泰岳软件股份有限公司 | 词嵌入模型的训练方法及装置 |
CN109785824A (zh) * | 2019-03-15 | 2019-05-21 | 科大讯飞股份有限公司 | 一种语音翻译模型的训练方法及装置 |
Non-Patent Citations (1)
Title |
---|
潘一荣等: "面向汉维机器翻译的调序表重构模型", 《计算机应用》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144137A (zh) * | 2019-12-17 | 2020-05-12 | 语联网(武汉)信息技术有限公司 | 机器翻译后编辑模型语料的生成方法及装置 |
CN111144137B (zh) * | 2019-12-17 | 2023-09-05 | 语联网(武汉)信息技术有限公司 | 机器翻译后编辑模型语料的生成方法及装置 |
RU2790026C2 (ru) * | 2020-12-22 | 2023-02-14 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для обучения алгоритма машинного обучения для перевода |
CN113486681A (zh) * | 2021-08-02 | 2021-10-08 | 科大讯飞股份有限公司 | 一种同传翻译方法、装置、设备及存储介质 |
WO2023011125A1 (zh) * | 2021-08-02 | 2023-02-09 | 科大讯飞股份有限公司 | 一种同传翻译方法、装置、设备及存储介质 |
CN117313656A (zh) * | 2023-09-21 | 2023-12-29 | 成都明途科技有限公司 | 文本生成方法、训练方法、模型、装置、设备及存储介质 |
CN117313656B (zh) * | 2023-09-21 | 2024-05-07 | 成都明途科技有限公司 | 文本生成方法、训练方法、模型、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110298046B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107844469A (zh) | 基于词向量查询模型的文本简化方法 | |
CN112288075B (zh) | 一种数据处理方法及相关设备 | |
CN110968660B (zh) | 基于联合训练模型的信息抽取方法和系统 | |
CN108959246A (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN108829684A (zh) | 一种基于迁移学习策略的蒙汉神经机器翻译方法 | |
CN110895559B (zh) | 模型训练、文本处理方法、装置以及设备 | |
CN112464676B (zh) | 机器翻译结果打分方法和装置 | |
CN113128232B (zh) | 一种基于albert与多重词信息嵌入的命名实体识别方法 | |
CN110298046A (zh) | 一种翻译模型训练方法、文本翻译方法及相关装置 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN116579339B (zh) | 任务执行方法和优化任务执行方法 | |
CN113987169A (zh) | 基于语义块的文本摘要生成方法、装置、设备及存储介质 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN113656563B (zh) | 一种神经网络搜索方法及相关设备 | |
CN114926150A (zh) | 一种变压器技术符合性评估数字化智能审核方法与装置 | |
CN112100375A (zh) | 文本信息生成方法、装置、存储介质及设备 | |
CN112507337A (zh) | 基于语义分析的恶意JavaScript代码检测模型的实现方法 | |
CN117648429B (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN110852089A (zh) | 基于智能分词与深度学习的运维项目管理方法 | |
CN114168754A (zh) | 一种基于句法依赖和融合信息的关系抽取方法 | |
CN116341564A (zh) | 基于语义理解的问题推理方法和装置 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
CN108875024B (zh) | 文本分类方法、系统、可读存储介质及电子设备 | |
CN112989803B (zh) | 一种基于主题向量学习的实体链接预测方法 | |
CN112989829B (zh) | 一种命名实体识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |