CN105117389B - 翻译方法和装置 - Google Patents

翻译方法和装置 Download PDF

Info

Publication number
CN105117389B
CN105117389B CN201510450967.4A CN201510450967A CN105117389B CN 105117389 B CN105117389 B CN 105117389B CN 201510450967 A CN201510450967 A CN 201510450967A CN 105117389 B CN105117389 B CN 105117389B
Authority
CN
China
Prior art keywords
candidate word
word
queue
translated
highest scoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510450967.4A
Other languages
English (en)
Other versions
CN105117389A (zh
Inventor
李伟
胡晓光
蓝翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510450967.4A priority Critical patent/CN105117389B/zh
Publication of CN105117389A publication Critical patent/CN105117389A/zh
Application granted granted Critical
Publication of CN105117389B publication Critical patent/CN105117389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提出一种翻译方法和装置,该翻译方法包括:获取队列中得分最高的候选词,对所述得分最高的候选词进行扩展;从所述得分最高的候选词的扩展结果与所述得分最高的候选词对应栈的下一栈已有的候选词中,选择得分最高的N个候选词,N≥2,N为整数;将选择的N个候选词保存在所述得分最高的候选词对应栈的下一栈中,并更新所述队列中的候选词。本发明可以改进RNN的搜索过程,减少扩展的候选词的个数,从而提升搜索速度,减少翻译用时。

Description

翻译方法和装置
技术领域
本发明涉及语言处理技术领域,尤其涉及一种翻译方法和装置。
背景技术
机器翻译的目标是给定某种语言的文本,由机器将其自动翻译成另一种语言的形式。比如,用户输入了一段中文:“北京的出租车司机很热情”,机器翻译系统可以将其自动翻译为英文或其它语言的文字。
现有技术中,存在很多机器翻译的方法,循环神经网络(Recurrent NeuralNetwork;以下简称:RNN)是其中的一种。RNN是一种统计翻译的方法,其翻译的主体过程可以被视为一个搜索过程:机器通过某种方式“理解”了用户的输入之后,在英文词空间中搜索:找到多种可能的翻译候选,并为每个翻译候选给出一个概率得分。最后,选择其中得分最高的一个或多个候选,将其作为翻译结果返回。
相比其他的机器翻译方法,RNN的翻译质量较好,但RNN存在的问题是计算量大,需要相对较长的时间才能完成翻译。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种翻译方法。该方法可以改进RNN的搜索过程,减少扩展的候选词的个数,从而提升搜索速度,减少翻译用时。
本发明的第二个目的在于提出一种翻译装置。
为了实现上述目的,本发明第一方面实施例的翻译方法,包括:获取队列中得分最高的候选词,对所述得分最高的候选词进行扩展;从所述得分最高的候选词的扩展结果与所述得分最高的候选词对应栈的下一栈已有的候选词中,选择得分最高的N个候选词,N≥2,N为整数;将选择的N个候选词保存在所述得分最高的候选词对应栈的下一栈中,并更新所述队列中的候选词。
本发明实施例的翻译方法,获取队列中得分最高的候选词,对得分最高的候选词进行扩展,从所述得分最高的候选词的扩展结果与上述得分最高的候选词对应栈的下一栈已有的候选词中,选择得分最高的N个候选词,然后将选择的N个候选词保存在上述得分最高的候选词对应栈的下一栈中,并更新上述队列中的候选词,由于每次仅对队列中得分最高的候选词进行扩展,因此可以改进RNN的搜索过程,减少扩展的候选词的个数,提升了搜索速度,减少了翻译用时。
为了实现上述目的,本发明第二方面实施例的翻译装置,包括:获取模块,用于获取队列中得分最高的候选词;扩展模块,用于对所述获取模块获取的得分最高的候选词进行扩展;选择模块,用于从所述得分最高的候选词的扩展结果与所述得分最高的候选词对应栈的下一栈已有的候选词中,选择得分最高的N个候选词,N≥2,N为整数;保存模块,用于将所述选择模块选择的N个候选词保存在所述得分最高的候选词对应栈的下一栈中;更新模块,用于更新所述队列中的候选词。
本发明实施例的翻译装置,获取模块获取队列中得分最高的候选词,扩展模块对得分最高的候选词进行扩展,选择模块从上述得分最高的候选词的扩展结果与上述得分最高的候选词对应栈的下一栈已有的候选词中,选择得分最高的N个候选词,然后保存模块将选择的N个候选词保存在上述得分最高的候选词对应栈的下一栈中,并由更新模块更新上述队列中的候选词,由于每次仅对队列中得分最高的候选词进行扩展,因此可以改进RNN的搜索过程,减少扩展的候选词的个数,提升了搜索速度,减少了翻译用时。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明翻译方法一个实施例的流程图;
图2为本发明翻译方法另一个实施例的流程图;
图3为本发明翻译方法再一个实施例的流程图;
图4为本发明翻译方法的翻译过程一个实施例的示意图;
图5为本发明翻译装置一个实施例的结构示意图;
图6为本发明翻译装置另一个实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1为本发明翻译方法一个实施例的流程图,如图1所示,该翻译方法可以包括:
步骤101,获取队列中得分最高的候选词,对上述得分最高的候选词进行扩展。
本实施例中,在RNN原有的栈结构的基础上引入一个队列,上述队列用于保存所有待扩展的候选词,上述队列中的候选词按照得分由高到低的顺序排列。
步骤102,从上述得分最高的候选词的扩展结果与上述得分最高的候选词对应栈的下一栈已有的候选词中,选择得分最高的N个候选词。
其中,N≥2,N为整数。
步骤103,将选择的N个候选词保存在上述得分最高的候选词对应栈的下一栈中,并更新上述队列中的候选词。
具体地,更新上述队列中的候选词可以为:将上述得分最高的候选词从上述队列中删除,并将上述选择的N个候选词保存在上述队列中;以及从上述队列中删除上述得分最高的候选词对应栈的下一栈原有的候选词中未包含在上述选择的N个候选词中的候选词。
也就是说,本实施例中,在对第一个词的候选词进行扩展之后,在以后的每次扩展时,只获取上述队列中得分最高的候选词,仅对上述队列中得分最高的候选词进行扩展,如果当前得分最高的候选词所对应的栈为i,那么当前得分最高的候选词的扩展结果将与栈i+1中已有的候选词放在一起,从中选择得分最高的N个候选词重新放入栈i+1中,同时将已扩展的候选词(即上述当前得分最高的候选词)从上述队列中删除,并将上述选择的N个候选词保存在上述队列中;以及从上述队列中删除栈i+1已有的候选词中未包含在上述选择的N个候选词中的候选词,这是由于从当前得分最高的候选词的扩展结果与栈i+1中已有的候选词中选择N个得分最高的候选词时,有可能删除栈i+1中原有的候选词,所以需要从上述队列中删除栈i+1原有的候选词中未包含在上述选择的N个候选词中的候选词。
进一步地,更新上述队列中的候选词之后,如果从上述队列中获取的得分最高的候选词为结束标记,则确定获得了上述待翻译文本的一个候选翻译结果,并结束扩展。也就是说,当从上述队列中获取的得分最高的候选词为EOS,即当前要扩展的得分最高的候选词为句子结束标记时,可以确定获得了上述待翻译文本的一个候选翻译结果,并结束扩展。
本实施例中,使用栈的结构描述候选词间的关系。位于栈1中的是第一个词的候选,位于栈i中的是第i个词的候选。候选词之间的连线表示了每个词的前缀。当扩展到“EOS”时,可以通过候选词之间的连线由后至前找出组成上述待翻译文本的一个候选翻译结果的所有候选词。
上述翻译方法中,获取队列中得分最高的候选词,对得分最高的候选词进行扩展,从所述得分最高的候选词的扩展结果与上述得分最高的候选词对应栈的下一栈已有的候选词中,选择得分最高的N个候选词,然后将选择的N个候选词保存在上述得分最高的候选词对应栈的下一栈中,并更新上述队列中的候选词,由于每次仅对队列中得分最高的候选词进行扩展,因此可以改进RNN的搜索过程,减少扩展的候选词的个数,提升了搜索速度,减少了翻译用时。
图2为本发明翻译方法另一个实施例的流程图,本实施例中,步骤101之前,还可以包括:
步骤201,通过获得的高维向量进行计算,为每个目标语言的候选词进行打分,获取得分最高的N个候选词作为待翻译文本中第一个词的候选词。
其中,N≥2,N为整数。上述目标语言是指要将待翻译文本翻译成的语言。
本实施例中,为每个目标语言的候选词进行打分具体为:为每个目标语言得候选词进行概率打分,分值一般为0~1之间的数值。
步骤202,将第一个词的候选词保存到队列和上述第一个词对应的栈中。
本实施例中,在原有的栈结构的基础上引入一个队列,上述队列用于保存所有待扩展的候选词,上述队列中的候选词按照得分由高到低的顺序排列。
图3为本发明翻译方法再一个实施例的流程图,本实施例中,步骤201之前,还可以包括:
步骤301,接收用户输入的翻译请求。
具体地,上述翻译请求可以包括文本翻译请求、语音翻译请求和图片翻译请求;也就是说,用户可以输入文本形式的翻译请求,也可以输入语音形式的翻译请求,还可以输入图片形式的翻译请求。
步骤302,从上述翻译请求中获得待翻译文本。
具体地,从上述翻译请求中获得待翻译文本可以为:当上述翻译请求为文本翻译请求时,直接从上述文本翻译请求中获得待翻译文本;
当上述翻译请求为语音翻译请求时,从上述语音翻译请求中获得待翻译的语音,对上述待翻译的语音进行语音识别,将上述待翻译的语音转换为待翻译文本;
当上述翻译请求为图片翻译请求时,从上述图片翻译请求中获得待翻译的图片,对上述待翻译的图片进行识别,获得待翻译文本。
本实施例中,当上述翻译请求为语音翻译请求时,可以从用户输入的语音翻译请求中获得待翻译的语音,然后对上述待翻译的语音进行语音识别,将上述待翻译的语音转换为待翻译文本,然后按照本发明提供的翻译方法将上述待翻译文本翻译为目标语言的文本,接下来还可以通过语音合成将翻译的目标语言的文本朗读出来,以实现更加便捷地交流。
步骤303,将待翻译文本中的每个词转换成相应的标识,根据每个词对应的标识进行计算,获得高维向量。
RNN的主要计算用时在搜索过程,假定最后得到的最优候选所对应的就是每个栈中的第一个词,那么对每个栈中除第一个词之外的其他词所进行的扩展完全是不必要的。假定N=10,那么如果只需要扩展每个栈的第一个词,这与扩展每个栈中的所有词相比,速度能提升10倍。因此,本发明提供的方法可以有效改进RNN的搜索过程,减少扩展的候选词的个数,提升了搜索速度,减少了翻译用时。
下面以图4为例,说明获得待翻译文本的最优候选翻译结果的具体流程,这里以N=3为例进行说明。图4为本发明翻译方法的翻译过程一个实施例的示意图。
1、首先扩展出栈1(Stack-1)中的“the”,“beijing”,“taxi”这三个词;其中“the”的得分最高;
2、由于“the”的得分最高,因此对“the”进行扩展,扩展出的3个结果放到Stack-2中。
3、接下来假设Stack-1中的“beijing”得分最高,对“beijing”进行扩展获得3个词,与Stack-2中的已有词进行比较,将得分较高的3个词放到Stack-2中。
4、依次类推,直到当前要扩展的词是“EOS”时,结束扩展。
事实上,上述翻译方法可以很容易地推广到获得最优K候选的过程:每扩展到一个EOS相当于得到了一个候选,扩展出K个EOS时,算法结束。
本发明提供的翻译方法通过调整候选词的扩展方案,能够减少翻译(解码搜索)过程中扩展的候选词的个数,从而显著降低计算量,提高系统运行速度。
以图4为例,假设N=10,最终产生的句子长度为20,那么使用原有的方法,需要对20×10=200个候选词进行扩展。如果希望获得的是最优1候选,同时极端情况下这个候选就是来源于每个栈中得分最高的候选词组成的路径,那么使用本发明提供的翻译方法只需要扩展20个候选词,其计算量为原来的1/10。
同时可以证明:如果要找的是得分最高的候选,随着句子的扩展,句子的得分越来越低(因为引入的新词概率为0~1之间,与句子前面的部分相乘得分会下降),那么本发明提供的翻译方法与原有的RNN算法在逻辑上是等价的。
进一步,还可以根据候选词所在的栈和/或得分等其他特征作为特征信息(feature),计算出要扩展的候选词,这在一些情况下能够进一步减少计算量。
图5为本发明翻译装置一个实施例的结构示意图,本实施例中的翻译装置可以实现本发明图1~图3所示实施例的流程,如图5所示,上述翻译装置可以包括:获取模块51、扩展模块52、选择模块53、保存模块54和更新模块55;
其中,获取模块51,用于获取队列中得分最高的候选词;本实施例中,在RNN原有的栈结构的基础上引入一个队列,上述队列用于保存所有待扩展的候选词,上述队列中的候选词按照得分由高到低的顺序排列。
扩展模块52,用于对获取模块51获取的得分最高的候选词进行扩展;
选择模块53,用于从上述得分最高的候选词的扩展结果与上述得分最高的候选词对应栈的下一栈已有的候选词中,选择得分最高的N个候选词,N≥2,N为整数;
保存模块54,用于将选择模块53选择的N个候选词保存在上述得分最高的候选词对应栈的下一栈中;
更新模块55,用于更新上述队列中的候选词。
本实施例中,更新模块55,具体用于将上述得分最高的候选词从上述队列中删除,并将选择的N个候选词保存在上述队列中;以及从上述队列中删除上述得分最高的候选词对应栈的下一栈原有的候选词中未包含在上述选择的N个候选词中的候选词。
也就是说,本实施例中,在对第一个词的候选词进行扩展之后,在以后的每次扩展时,获取模块51只获取上述队列中得分最高的候选词,扩展模块52仅对上述队列中得分最高的候选词进行扩展,如果当前得分最高的候选词所对应的栈为i,那么当前得分最高的候选词的扩展结果将与栈i+1中已有的候选词放在一起,选择模块53从中选择得分最高的N个候选词重新放入栈i+1中,同时更新模块55将已扩展的候选词(即上述当前得分最高的候选词)从上述队列中删除,并将上述选择的N个候选词保存在上述队列中;以及从上述队列中删除栈i+1已有的候选词中未包含在上述选择的N个候选词中的候选词,这是由于从当前得分最高的候选词的扩展结果与栈i+1中已有的候选词中选择N个得分最高的候选词时,有可能删除栈i+1中原有的候选词,所以更新模块55需要从上述队列中删除栈i+1原有的候选词中未包含在上述选择的N个候选词中的候选词。
上述翻译装置中,获取模块51获取队列中得分最高的候选词,扩展模块52对得分最高的候选词进行扩展,选择模块53从上述得分最高的候选词的扩展结果与上述得分最高的候选词对应栈的下一栈已有的候选词中,选择得分最高的N个候选词,然后保存模块54将选择的N个候选词保存在上述得分最高的候选词对应栈的下一栈中,并由更新模块55更新上述队列中的候选词,由于每次仅对队列中得分最高的候选词进行扩展,因此可以改进RNN的搜索过程,减少扩展的候选词的个数,提升了搜索速度,减少了翻译用时。
图6为本发明翻译装置另一个实施例的结构示意图,与图5所示的翻译装置相比,不同之处在于,图6所示的翻译装置中还可以包括:
打分模块56,用于在获取模块51获取队列中得分最高的候选词之前,通过获得的高维向量进行计算,为每个目标语言的候选词进行打分;上述目标语言是指要将待翻译文本翻译成的语言。本实施例中,打分模块56为每个目标语言的候选词进行打分具体为:打分模块56为每个目标语言得候选词进行概率打分,分值一般为0~1之间的数值。
获取模块51,还用于获取得分最高的N个候选词作为待翻译文本中第一个词的候选词,N≥2,N为整数。
保存模块54,还用于将上述第一个词的候选词保存到队列和上述第一个词对应的栈中。本实施例中,在原有的栈结构的基础上引入一个队列,上述队列用于保存所有待扩展的候选词,上述队列中的候选词按照得分由高到低的顺序排列。
进一步地,上述翻译装置中还可以包括:
确定模块57,用于在从上述队列中获取的得分最高的候选词为结束标记时,确定获得了待翻译文本的一个候选翻译结果,并结束扩展。也就是说,当从上述队列中获取的得分最高的候选词为EOS,即当前要扩展的得分最高的候选词为句子结束标记时,确定模块57可以确定获得了上述待翻译文本的一个候选翻译结果,并结束扩展。
本实施例中,使用栈的结构描述候选词间的关系。位于栈1中的是第一个词的候选,位于栈i中的是第i个词的候选。候选词之间的连线表示了每个词的前缀。当扩展到“EOS”时,可以通过候选词之间的连线由后至前找出组成上述待翻译文本的一个候选翻译结果的所有候选词。
进一步地,上述翻译装置中还可以包括:
接收模块58,用于在打分模块56通过获得的高维向量进行计算之前,接收用户输入的翻译请求;
获得模块59,用于从接收模块58接收的翻译请求中获得待翻译文本;以及将上述待翻译文本中的每个词转换成相应的标识,根据每个词对应的标识进行计算,获得上述高维向量。
本实施例中,接收模块58接收的翻译请求包括文本翻译请求、语音翻译请求和图片翻译请求;
获得模块59,具体用于当上述翻译请求为文本翻译请求时,直接从上述文本翻译请求中获得待翻译文本;当上述翻译请求为语音翻译请求时,从上述语音翻译请求中获得待翻译的语音,对上述待翻译的语音进行语音识别,将上述待翻译的语音转换为待翻译文本;当上述翻译请求为图片翻译请求时,从上述图片翻译请求中获得待翻译的图片,对上述待翻译的图片进行识别,获得待翻译文本。
上述翻译装置可以有效改进RNN的搜索过程,减少扩展的候选词的个数,提升了搜索速度,减少了翻译用时。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (14)

1.一种翻译方法,其特征在于,包括:
获取队列中得分最高的候选词,对所述得分最高的候选词进行扩展;
从所述得分最高的候选词的扩展结果与所述得分最高的候选词对应栈的下一栈已有的候选词中,选择得分最高的N个候选词,N≥2,N为整数;
将选择的N个候选词保存在所述得分最高的候选词对应栈的下一栈中,并更新所述队列中的候选词。
2.根据权利要求1所述的方法,其特征在于,所述获取队列中得分最高的候选词之前,还包括:
通过获得的高维向量进行计算,为每个目标语言的候选词进行打分,获取得分最高的N个候选词作为待翻译文本中第一个词的候选词,N≥2,N为整数;
将所述第一个词的候选词保存到队列和所述第一个词对应的栈中。
3.根据权利要求1或2所述的方法,其特征在于,所述队列用于保存所有待扩展的候选词,所述队列中的候选词按照得分由高到低的顺序排列。
4.根据权利要求3所述的方法,其特征在于,所述更新所述队列中的候选词包括:
将所述得分最高的候选词从所述队列中删除,并将所述选择的N个候选词保存在所述队列中;以及从所述队列中删除所述得分最高的候选词对应栈的下一栈原有的候选词中未包含在所述选择的N个候选词中的候选词。
5.根据权利要求2所述的方法,其特征在于,所述更新所述队列中的候选词之后,还包括:
如果从所述队列中获取的得分最高的候选词为结束标记,则确定获得了所述待翻译文本的一个候选翻译结果,并结束扩展。
6.根据权利要求2所述的方法,其特征在于,所述通过获得的高维向量进行计算之前,还包括:
接收用户输入的翻译请求;
从所述翻译请求中获得待翻译文本;
将所述待翻译文本中的每个词转换成相应的标识,根据每个词对应的标识进行计算,获得所述高维向量。
7.根据权利要求6所述的方法,其特征在于,所述翻译请求包括文本翻译请求、语音翻译请求和图片翻译请求;
所述从所述翻译请求中获得待翻译文本包括:
当所述翻译请求为文本翻译请求时,直接从所述文本翻译请求中获得待翻译文本;
当所述翻译请求为语音翻译请求时,从所述语音翻译请求中获得待翻译的语音,对所述待翻译的语音进行语音识别,将所述待翻译的语音转换为待翻译文本;
当所述翻译请求为图片翻译请求时,从所述图片翻译请求中获得待翻译的图片,对所述待翻译的图片进行识别,获得待翻译文本。
8.一种翻译装置,其特征在于,包括:
获取模块,用于获取队列中得分最高的候选词;
扩展模块,用于对所述获取模块获取的得分最高的候选词进行扩展;
选择模块,用于从所述得分最高的候选词的扩展结果与所述得分最高的候选词对应栈的下一栈已有的候选词中,选择得分最高的N个候选词,N≥2,N为整数;
保存模块,用于将所述选择模块选择的N个候选词保存在所述得分最高的候选词对应栈的下一栈中;
更新模块,用于更新所述队列中的候选词。
9.根据权利要求8所述的装置,其特征在于,还包括:
打分模块,用于在所述获取模块获取队列中得分最高的候选词之前,通过获得的高维向量进行计算,为每个目标语言的候选词进行打分;
所述获取模块,还用于获取得分最高的N个候选词作为待翻译文本中第一个词的候选词,N≥2,N为整数;
所述保存模块,还用于将所述第一个词的候选词保存到队列和所述第一个词对应的栈中。
10.根据权利要求8或9所述的装置,其特征在于,所述队列用于保存所有待扩展的候选词,所述队列中的候选词按照得分由高到低的顺序排列。
11.根据权利要求10所述的装置,其特征在于,
所述更新模块,具体用于将所述得分最高的候选词从所述队列中删除,并将所述选择的N个候选词保存在所述队列中;以及从所述队列中删除所述得分最高的候选词对应栈的下一栈原有的候选词中未包含在所述选择的N个候选词中的候选词。
12.根据权利要求9所述的装置,其特征在于,还包括:
确定模块,用于在从所述队列中获取的得分最高的候选词为结束标记时,确定获得了所述待翻译文本的一个候选翻译结果,并结束扩展。
13.根据权利要求9所述的装置,其特征在于,还包括:
接收模块,用于在所述打分模块通过获得的高维向量进行计算之前,接收用户输入的翻译请求;
获得模块,用于从所述接收模块接收的翻译请求中获得待翻译文本;以及将所述待翻译文本中的每个词转换成相应的标识,根据每个词对应的标识进行计算,获得所述高维向量。
14.根据权利要求13所述的装置,其特征在于,所述接收模块接收的翻译请求包括文本翻译请求、语音翻译请求和图片翻译请求;
所述获得模块,具体用于当所述翻译请求为文本翻译请求时,直接从所述文本翻译请求中获得待翻译文本;当所述翻译请求为语音翻译请求时,从所述语音翻译请求中获得待翻译的语音,对所述待翻译的语音进行语音识别,将所述待翻译的语音转换为待翻译文本;当所述翻译请求为图片翻译请求时,从所述图片翻译请求中获得待翻译的图片,对所述待翻译的图片进行识别,获得待翻译文本。
CN201510450967.4A 2015-07-28 2015-07-28 翻译方法和装置 Active CN105117389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510450967.4A CN105117389B (zh) 2015-07-28 2015-07-28 翻译方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510450967.4A CN105117389B (zh) 2015-07-28 2015-07-28 翻译方法和装置

Publications (2)

Publication Number Publication Date
CN105117389A CN105117389A (zh) 2015-12-02
CN105117389B true CN105117389B (zh) 2018-01-19

Family

ID=54665383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510450967.4A Active CN105117389B (zh) 2015-07-28 2015-07-28 翻译方法和装置

Country Status (1)

Country Link
CN (1) CN105117389B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6618884B2 (ja) * 2016-11-17 2019-12-11 株式会社東芝 認識装置、認識方法およびプログラム
CN107066456A (zh) * 2017-03-30 2017-08-18 唐亮 一种多语言智能预处理实时统计机器翻译系统的接收模块
CN108460027A (zh) * 2018-02-14 2018-08-28 广东外语外贸大学 一种口语即时翻译方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1465018A (zh) * 2000-05-11 2003-12-31 南加利福尼亚大学 机器翻译技术
CN102945231A (zh) * 2012-10-19 2013-02-27 中国科学院计算技术研究所 一种面向增量式翻译的结构化语言模型构建方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1465018A (zh) * 2000-05-11 2003-12-31 南加利福尼亚大学 机器翻译技术
CN102945231A (zh) * 2012-10-19 2013-02-27 中国科学院计算技术研究所 一种面向增量式翻译的结构化语言模型构建方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Learning Phrase Representations using RNN Encoder–Decoder》;Kyunghyun Cho et al;《arXiv preprint 》;20141231;1-15 *

Also Published As

Publication number Publication date
CN105117389A (zh) 2015-12-02

Similar Documents

Publication Publication Date Title
US11145292B2 (en) Method and device for updating language model and performing speech recognition based on language model
CN107301860B (zh) 基于中英文混合词典的语音识别方法及装置
Gemello et al. Linear hidden transformations for adaptation of hybrid ANN/HMM models
CN105117389B (zh) 翻译方法和装置
CN110210029A (zh) 基于垂直领域的语音文本纠错方法、系统、设备及介质
WO2017101450A1 (zh) 语音识别方法和装置
CN104133561B (zh) 基于输入法的辅助信息展现方法和装置
CN111612103A (zh) 结合抽象语义表示的图像描述生成方法、系统及介质
US20170270391A1 (en) Pruning and label selection in hidden markov model-based ocr
CN109726385A (zh) 词义消歧方法和设备、词义扩展方法和装置
US20100100379A1 (en) Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method
US11645447B2 (en) Encoding textual information for text analysis
CN110222328B (zh) 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN105206264B (zh) 语音合成方法和装置
CN101057274B (zh) 用于从可预先确定的词汇表中识别口头输入的方法
CN106843523B (zh) 基于人工智能的文字输入方法和装置
KR100481598B1 (ko) 복합 형태소 분석 장치 및 방법
JP2018206261A (ja) 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム
CN107408110A (zh) 含意配对扩展装置、用于其的计算机程序以及提问应答系统
US11893813B2 (en) Electronic device and control method therefor
JP2020024277A (ja) データ・セグメンテーション装置
CN107133271B (zh) 语义脑图实时表达系统及其操作方法
JP2008225963A (ja) 機械翻訳装置、置換辞書生成装置、機械翻訳方法、置換辞書生成方法、及びプログラム
CN105161112B (zh) 语音识别方法和装置
CN107992479A (zh) 基于转移方法的字级别中文组块分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant