CN109145309B

CN109145309B - 一种实时语音翻译的方法、及用于实时语音翻译的装置

Info

Publication number: CN109145309B
Application number: CN201710457757.7A
Authority: CN
Inventors: 程善伯; 王宇光; 姜里羊; 施亮亮; 陈伟; 王砚峰
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-06-16
Filing date: 2017-06-16
Publication date: 2022-11-01
Anticipated expiration: 2037-06-16
Also published as: CN109145309A

Abstract

本发明公开了一种实时语音翻译的方法，包括：对当前采集到的第一语音词汇进行语音识别，获得第一文本词汇；确定所述第一文本词汇的状态；在所述第一文本词汇为更新状态时，读取第一存储区域中的第二文本词汇，其中，所述第二文本词汇是对第二语音词汇进行语音识别所获得的文本词汇，采集到所述第二语音词汇的时间早于采集到所述第一语音词汇的时间；将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果。本发明解决了现有技术中在进行实时语音翻译时，存在翻译质量较低的技术问题，实现了提高翻译质量的技术效果。

Description

一种实时语音翻译的方法、及用于实时语音翻译的装置

技术领域

本发明涉及电子信息技术领域，尤其涉及一种实时语音翻译方法、及用于实时语音翻译的装置。

背景技术

随着经济全球化的发展，跨语言的翻译需求非常巨大，导致了自动化翻译技术(即机器翻译技术)的需求日益增长。而随着语音识别等技术的不断发展，人们不再满足于文本的机器翻译，语音的翻译需求也日益增多。在很多场合中，更是需要同声传译的辅助。由于同声传译非常昂贵，代价高，所以人们开始研究自动同声传译的方法，即在用户输入语音(多数情况下是用户直接说话)的同时，翻译系统根据用户语音直接生成翻译结果。

目前的实时语音翻译技术通常使用了两个状态，“读”状态和“写”状态来控制翻译系统生成翻译的过程，这种方法虽然能够使翻译系统生成一个可以接受的译文，但是，由于翻译系统得不到全局信息，所以可能导致翻译质量低下。尤其是在实时语音翻译初期，用户刚开始输入时，这种问题更加严重，进而对后续翻译造成负面影响，容易造成错误累积。

发明内容

本发明实施例通过提供一种实时语音翻译方法、及用于实时翻译的装置，解决了现有技术中在进行实时语音翻译时，存在翻译质量较低的技术问题，实现了提高翻译质量的技术效果。

第一方面，本发明通过本发明的一实施例提供如下技术方案：

一种实时语音翻译的方法，包括：

对当前采集到的第一语音词汇进行语音识别，获得第一文本词汇；

确定所述第一文本词汇的状态；

在所述第一文本词汇为更新状态时，读取第一存储区域中的第二文本词汇，其中，所述第二文本词汇是对采集到的第二语音词汇进行语音识别所获得的文本词汇，采集到所述第二语音词汇的时间早于采集到所述第一语音词汇的时间；

将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果。

优选地，所述第一文本词汇的状态，包括：

读状态，或写状态，或所述更新状态。

优选地，所述确定所述第一文本词汇的状态，包括：

基于所述读状态、所述写状态和所述更新状态中每种状态出现的规律，确定所述第一文本词汇的状态。

优选地，所述确定所述第一文本词汇的状态，包括：

获取采集到所述第一语音词汇与采集到下一个语音词汇之间的时间间隔；

基于所述时间间隔，确定所述第一文本词汇的状态。

优选地，所述确定所述第一文本词汇的状态，包括：

基于预先训练的第一神经网络确定所述第一文本词汇的状态。

优选地，所述基于预先训练好的第一神经网络确定所述第一文本词汇的状态，包括：

通过所述第一神经网络，确定所述第一文本词汇为所述更新状态的概率、所述读状态的概率和所述写状态的概率，并将其中概率最高的状态确定为所述第一文本词汇的状态。

优选地，所述将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果，包括：

通过第二神经网络对所述第二文本词汇和所述第一文本词汇进行整体翻译，获得所述第一翻译结果。

优选地，所述将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果之后，还包括：

输出所述第一翻译结果，其中，在输出所述第一翻译结果时，将所述第一翻译结果替换原翻译结果进行输出，所述原翻译结果是在所述第二文本词汇中的部分文本词汇处于所述写状态时输出的翻译结果。

优选地，所述读取第一存储区域中的第二文本词汇之后，还包括：

清空所述第一存储区域。

优选地，所述确定所述第一文本词汇的状态之后，还包括：

在所述第一文本词汇为所述读状态时，将所述第一文本词汇存储在所述第一存储区域中；

对所述第一文本词汇进行翻译，获得第二翻译结果；

将所述第二翻译结果存储在第二存储区域中。

优选地，所述确定所述第一文本词汇的状态之后，还包括：

在所述第一文本词汇为所述写状态时，将所述第一文本词汇存储在所述第一存储区域中；

对所述第一文本词汇进行翻译，获得第二翻译结果；

读取第二存储区域中的第三翻译结果，其中，所述第三翻译结果是在所述第二文本词汇中的部分文本词汇处于所述读状态时获得的翻译结果；

将所述第三翻译结果和所述第二翻译结果一起进行输出。

优选地，所述读取第二存储区域中的第三翻译结果之后，还包括：

清空所述第二存储区域。

第二方面，本发明通过本发明的一实施例，提供如下技术方案：

一种用于实时语音翻译的装置，包括：

语音识别模块，用于对当前采集到的第一语音词汇进行语音识别，获得第一文本词汇；

确定模块，用于确定所述第一文本词汇的状态；

第一读取模块，用于在所述第一文本词汇为更新状态时，读取第一存储区域中的第二文本词汇，其中，所述第二文本词汇是对采集到的第二语音词汇进行语音识别所获得的文本词汇，采集到所述第二语音词汇的时间早于采集到所述第一语音词汇的时间；

第一翻译模块，用于将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果。

优选地，所述第一文本词汇的状态，包括：

读状态，或写状态，或所述更新状态。

优选地，所述确定模块，包括：

第一确定子模块，用于基于所述读状态、所述写状态和所述更新状态中每种状态出现的规律，确定所述第一文本词汇的状态。

优选地，所述确定模块，包括：

第二确定子模块，用于获取采集到所述第一语音词汇与采集到下一个语音词汇之间的时间间隔；基于所述时间间隔，确定所述第一文本词汇的状态。

优选地，所述确定模块，包括：

第三确定子模块，用于基于预先训练的第一神经网络确定所述第一文本词汇的状态。

优选地，所述第三确定子模块，具体用于：

优选地，所述第一翻译模块，具体用于：

优选地，所述的用于实时语音翻译的装置，还包括：

第一输出模块，用于所述将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果之后，输出所述第一翻译结果，其中，在输出所述第一翻译结果时，将所述第一翻译结果替换原翻译结果进行输出，所述原翻译结果是在所述第二文本词汇中的部分文本词汇处于所述写状态时输出的翻译结果。

优选地，所述的用于实时语音翻译的装置，还包括：

第一清空模块，用于所述读取第一存储区域中的第二文本词汇之后，清空所述第一存储区域。

优选地，所述的用于实时语音翻译的装置，还包括：

第一存储模块，用于所述确定所述第一文本词汇的状态之后，在所述第一文本词汇为所述读状态时，将所述第一文本词汇存储在所述第一存储区域中；

第二翻译模块，用于对所述第一文本词汇进行翻译，获得第二翻译结果；

第二存储模块，用于将所述第二翻译结果存储在第二存储区域中。

优选地，所述的用于实时语音翻译的装置，还包括：

第三存储模块，用于所述确定所述第一文本词汇的状态之后，在所述第一文本词汇为所述写状态时，将所述第一文本词汇存储在所述第一存储区域中；

第三翻译模块，用于对所述第一文本词汇进行翻译，获得第二翻译结果；

第二读取模块，用于读取第二存储区域中的第三翻译结果，其中，所述第三翻译结果是在所述第二文本词汇中的部分文本词汇处于所述读状态时获得的翻译结果；

第二输出模块，用于将所述第三翻译结果和所述第二翻译结果一起进行输出。

优选地，所述的用于实时语音翻译的装置，还包括：

第二清空模块，用于所述读取第二存储区域中的第三翻译结果之后，清空所述第二存储区域。

第三方面，本发明通过本发明的一实施例，提供如下技术方案：

一种用于实时语音翻译的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对当前采集到的第一语音词汇进行语音识别，获得第一文本词汇；确定所述第一文本词汇的状态；在所述第一文本词汇为更新状态时，读取第一存储区域中的第二文本词汇，其中，所述第二文本词汇是对采集到的第二语音词汇进行语音识别所获得的文本词汇，采集到所述第二语音词汇的时间早于采集到所述第一语音词汇的时间；将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果。

第四方面，本发明通过本发明的一实施例，提供如下技术方案：

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

对当前采集到的第一语音词汇进行语音识别，获得第一文本词汇；确定所述第一文本词汇的状态；在所述第一文本词汇为更新状态时，读取第一存储区域中的第二文本词汇，其中，所述第二文本词汇是对采集到第二语音词汇进行语音识别所获得的文本词汇，采集到所述第二语音词汇的时间早于采集到所述第一语音词汇的时间；将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

在本发明实施例中，公开了一种实时语音翻译的方法，包括：对当前采集到的第一语音词汇进行语音识别，获得第一文本词汇；确定所述第一文本词汇的状态；在所述第一文本词汇为更新状态时，读取第一存储区域中的第二文本词汇，其中，所述第二文本词汇是对采集到的第二语音词汇进行语音识别所获得的文本词汇，采集到所述第二语音词汇的时间早于采集到所述第一语音词汇的时间；将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果。由于，在实时语音翻译过程中，新增了更新状态，在第一文本词汇为更新状态时，读取存储在第一存储区域中的第二文本词汇，第一文本词汇和第二文本词汇构成了一个比较全局的待翻译文本，这样，在将第二文本词汇和第一文本词汇进行整体翻译时，翻译结果的准确性得以显著提高，从而解决了现有技术中在进行实时语音翻译时，存在翻译质量较低的技术问题，实现了提高实时语音翻译质量的技术效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种实时语音翻译的方法的流程图；

图2为本发明实施例中用到的神经网络模型的示意图；

图3为本发明实施例中一种用于实时语音翻译的装置的结构框图；

图4为本发明实施例中一种用于实时语音翻译的装置800的结构框图。

具体实施方式

本发明实施例通过提供一种实时翻译方法、及用于实时翻译的装置，解决了现有技术中在进行实时语音翻译时，存在翻译质量较低的技术问题，实现了提高翻译质量的技术效果。

本发明实施例的技术方案为解决上述技术问题，总体思路如下：

一种实时语音翻译的方法，包括：对当前采集到的第一语音词汇进行语音识别，获得第一文本词汇；确定所述第一文本词汇的状态；在所述第一文本词汇为更新状态时，读取第一存储区域中的第二文本词汇，其中，所述第二文本词汇是对采集到的第二语音词汇进行语音识别所获得的文本词汇，采集到所述第二语音词汇的时间早于采集到所述第一语音词汇的时间；将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

首先说明，本文中出现的术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

实施例一

本实施例提供了一种实时语音翻译的方法，可以应用于电子设备中，所述电子设备可以是：智能手机、或PC(Personal Computer，个人电脑)、或智能电视、或数字广播终端、或消息收发设备、或游戏控制台、或平板设备、或医疗设备、或健身设备、或PDA(PersonalDigital Assistant，个人数字助理)等。对于所述电子设备具体是何种设备，本实施例不做具体限定。

如图1所示，所述实时语音翻译的方法，包括：

步骤S101：对当前采集到的第一语音词汇进行语音识别，获得第一文本词汇。

在具体实施过程中，所述电子设备具有一声音采集装置(例如：话筒)，在用户讲话时，电子设备可以通过该声音采集装置实时采集用户的讲话内容，并进行实时语音翻译。在进行实时语音翻译时，电子设备不会等用户说完一整句或一整段话后再进行翻译，而是会实时获取用户说出的每一个语音词汇，并根据获取到的语音词汇实时进行翻译，同时，将翻译结果实时进行输出。实时语音翻译具有即时性更强的优点。

在具体实施过程中，所述第一语音词汇就是电子设备当前采集到的一个语音词汇。在采集到第一语音词汇时，可以利用语音识别技术对第一语音词汇进行语音识别，从而获得对应的第一文本词汇。此处，可以采用现有成熟的语音识别技术，此处不再赘述。

在具体实施过程中，第一语音词汇可以是任一语言下的语音词汇。例如，在第一语音词汇是英语语音词汇时，第一文本词汇即为英语文本词汇；在第一语音词汇是汉语语音词汇时，第一文本词汇即为汉语文本词汇；在第一语音词汇是法语语音词汇时，第一文本词汇即为法语文本词汇；等等。

在具体实施过程中，用户可以预先设置翻译方式。例如，将英语翻译成汉语(简称：“英译汉”)，或将法语翻译成汉语(简称：“法译汉”)，或将汉语翻译成英语(简称：“汉译英”)，或将汉语翻译成法语(简称：“汉译法”)，等等。

步骤S102：确定第一文本词汇的状态。

在本发明实施例中，对于电子设备当前获得的每个文本词汇，可以有三种状态，分别为：“读”状态、“写”状态和“更新”状态。也就是说，第一文本词汇可能是“读”状态、“写”状态、“更新”状态中的一种状态。

在具体实施过程中，在进行实时语音翻译时，电子设备获得的每个文本词汇，都会有上述三种状态中的一种状态。此处需要知道，在获得的文本词汇为“读”状态或“写”状态时，会将该文本词汇存储在第一存储区域中，随着翻译的进行，第一存储区域中的文本词汇会越来越多，直到获得某一处于“更新”状态的文本词汇后，则将存储在第一存储区域中的文本词汇与该处于“更新”状态的文本词汇进行整体翻译。其中，处于“更新”状态的文本词汇的出现，代表第一存储区域中已经存储了足够多的文本词汇，这些文本词汇可以构成一个比较全局的待翻译文本，在进行上述整体翻译时，翻译结果的准确性能得以显著提高。

具体来讲，在确定第一文本词汇的状态时，具体可以有以下三种方法：

第一种，基于“读”状态、“写”状态和“更新”状态中每种状态出现的规律，确定第一文本词汇的状态。

在具体实施过程中，可以设置一规律，即：每确定M个“读”状态后，确定一个“写”状态；每确定N个“写”状态后，确定一个“更新”状态；M、N为正整数。

以M＝3，N＝2为例，可以将获得的第1～3个文本词汇确定为“读”状态，将第4个文本词汇确定为“写”状态，将第5～7个文本词汇确定为“读”状态，将第8个文本词汇确定为“写“状态，将第9个文本词汇确定为”更新“状态。

其中，M和N的取值可以适当大一些，从而保证第一存储区域中可以存储足够多的文本词汇，这些文本词汇可以构成一个比较全局的待翻译文本。

第二种，获取采集到第一语音词汇与采集到下一个语音词汇之间的时间间隔；基于该时间间隔，确定第一文本词汇的状态。

在具体实施过程中，一个完整的句子一般由多个句子成分组成，例如，主语、谓语、宾语、状语、等等。人们在讲话时，同一个句子成分内的相邻两个语音词汇之间的时间间隔会稍短，同一个句子内的相邻两个句子成分之间的时间间隔会稍长，相邻的两个句子之间的时间间隔会更长。所以，通过识别采集到的相邻两个语音词汇之间的时间间隔的长短，即可判断出哪些语音词汇构成一个句子成分，哪些语音词汇构成一个句子。

举例来讲，获取采集到第一语音词汇与采集到下一个语音词汇之间的时间间隔，若该时间间隔小于第一预设时间(代表一个句子成分尚未结束)，则可以将第一文本词汇确定为“读”状态；若该时间间隔大于第一预设时间但小于第二预设时间(代表一个句子成分结束)，则可以将第一文本词汇确定为“写”状态；若该时间间隔大于第二预设时间(代表一个句子结束)，则可以将第一文本词汇确定为“更新”状态。

其中，可以将一个句子中的最后一个文本词汇确定为“更新”状态，该句子中的其他文本词汇为“读”状态或“写”状态，这样，第一存储区域中就存储了该句子的全部或大部分文本词汇，这些文本词汇也就可以构成一个比较全局的待翻译文本。

第三种，如图2所示，基于预先训练的第一神经网络201确定第一文本词汇的状态。

在具体实施过程中，可以通过第一神经网络201，确定第一文本词汇为“读”状态的概率、“写”状态的概率、“更新”状态的概率，并将其中概率最高的状态确定为第一文本词汇的状态。也就是说，若第一文本词汇为“读”状态的概率最大，则第一文本词汇为“读”状态；若第一文本词汇为“写”状态的概率最大，则第一文本词汇为“写”状态；若第一文本词汇为“更新”状态的概率最大，则第一文本词汇为“更新“状态。

在具体实施过程中，第一神经网络201可以基于之前获得的每个第二文本词汇以及每个第二文本词汇的状态，确定第一文本词汇的状态。或者，第一神经网络201还可以学习上述两种方式来确定第一文本词汇的状态。同时，第一神经网络201可以采用强化学习算法，不断强化自身，使得在判断第一存储区域中是否已经存储了足够多的文本词汇(这些文本词汇可以构成一个比较全局的待翻译文本)的准确性更高。

以上三种确定第一文本词汇状态的方法，宗旨都在于判断第一存储区域中存储的多个第二文本词汇和当前获取的第一文本词汇是否已经构成比较全局的待翻译文本，在确定已经构成比较全局的待翻译文本后，则将第一文本词汇确定为更新状态，否则，将第一文本词汇确定为“读”状态或“写”状态。

进一步，在确定第一文本词汇的状态之后，即可基于第一文本词汇的状态，对第一文本词汇进行翻译。

由于第一文本词汇可能具有三种状态(即：“读”状态、“写”状态和“更新”状态)，下面将分别就这三种情况进行介绍。

(1)在第一文本词汇为“读”状态时，将第一文本词汇存储在第一存储区域中；对第一文本词汇进行翻译，获得第二翻译结果；将第二翻译结果存储在第二存储区域中。

在具体实施过程中，在第一文本词汇为“读”状态时，则对第一文本词汇这个词汇进行翻译，获得的翻译结果(即：第二翻译结果)后，将该翻译结果存储在第二存储区域中，但不输出该翻译结果。其中，第二存储区域可以是内存或缓存中的一个区域。

其中，在对第一文本词汇进行翻译时，可以先利用第三神经网络203对第一文本词汇进行编码，再利用第四神经网络204对获得的编码进行解码，从而获得第二翻译结果。其中，第三神经网络203和第四神经网络204均为RNN(Recurrent Neural Networks，循环神经网络)，且第三神经网络203为单向RNN，此处，由于尚未获得比较全局的待翻译文本，所以仅能使用单向RNN。

举例来讲，在进行“英译汉”的实时语音翻译，在获得的第一文本词汇为英语“I”时，若第一文本词汇为“读”状态，则利用第三神经网络203(即：单向RNN)对第一文本词汇进行编码，再利用第四神经网络204进行解码，得到翻译结果“我”，将翻译结果“我”保存在第二存储区域中，不进行显示输出。

举例来讲，在进行“英译汉”的实时语音翻译时，在获得的第一文本词汇为英语“am”时，若第一文本词汇为“读”状态时，则利用第三神经网络203(即：单向RNN)对第一文本词汇进行编码，再利用第四神经网络204进行解码，得到翻译结果“是”，将翻译结果“是”保存在第二存储区域中，不进行显示输出。

此处，“读”状态的意义在于：可以节约一部分系统资源，节约出的资源可以用于后续的翻译过程中。

此外，在第一文本词汇为“读”状态时，需要将第一文本词汇存储在第一存储区域中，从而在第一存储区域中累积一个比较全局的待翻译文本。其中，第一存储区域可以为内存或缓存中的另一个区域，第一存储区域与第二存储区域不同。

(2)在第一文本词汇为“写”状态时，将第一文本词汇存储在第一存储区域中；对第一文本词汇进行翻译，获得第二翻译结果；读取第二存储区域中的第三翻译结果，其中，第三翻译结果是第二文本词汇中的部分文本词汇处于“读”状态时获得的翻译结果，第二文本词汇是对之前采集到的第二语音词汇进行语音识别所获得的文本词汇；将第三翻译结果和第二翻译结果一起进行输出。

其中，在对第一文本词汇进行翻译时，可以先利用第三神经网络203对第一文本词汇进行编码，再利用第四神经网络对获得的编码进行解码，从而获得第二翻译结果。其中，第三神经网络203和第四神经网络均为RNN，且第三神经网络203为单向RNN，此处，由于尚未获得比较全局的待翻译文本，所以仅能使用单向RNN。

举例来讲，在进行“英译汉”的实时语音翻译时，在获得的第一文本词汇为英语“Steven”，若第一文本词汇为“写”状态时，则利用第三神经网络203(即：单向RNN)对第一文本词汇进行编码，再利用第四神经网络204进行解码，获得第二翻译结果“史蒂文”，再读取第二存储区域中存储的第三翻译结果(例如：第三翻译结果为“我”，“是”)，并将第三翻译结果和第二翻译结果一起输出，则输出“我是史蒂文”。其中，由于此时输出的翻译结果是在“读”状态或“写”状态下利用第三神经网络203(即：单向RNN)对每个文本词汇进行翻译所获得的，准确性可能不高，仅可作为参考，所以输出方式建议为通过屏幕显示输出，不建议将其转化为语音通过扬声器输出。

其中，“写”状态的意义在于：在进行整体翻译之前先输出一部分翻译结果，从而达到实时语音翻译对于即时性的要求。

在具体实施过程中，在第二存储区域中读取第三翻译结果后，还需要清空第二存储区域，从而方便后续数据的存储。

此外，在第一文本词汇为“写”状态时，也需要将第一文本词汇存储在第一存储区域中，从而在第一存储区域中累积一个比较全局的待翻译文本。

(3)在第一文本词汇为“更新”状态时，过程如下：

步骤S103：在第一文本词汇为“更新”状态时，读取第一存储区域中的第二文本词汇，其中，第二文本词汇是对采集到的第二语音词汇进行语音识别所获得的文本词汇，采集到第二语音词汇的时间早于采集到第一语音词汇的时间。

步骤S104：将第二文本词汇和第一文本词汇进行整体翻译，获得第一翻译结果。

作为一种可选的实施例，步骤S104，包括：

通过第二神经网络202对第二文本词汇和第一文本词汇进行整体翻译，获得第一翻译结果，其中，第二神经网络可以为双向RNN。

在具体实施过程中，在第一文本词汇为“更新”状态时，则读取存储第一存储区域中的第二文本词汇，其中，第二文本词汇的数量一般为多个，这些文本词汇的状态为“读“状态或”写“状态，所以被存储在第一存储区域中。这些第二文本词汇的翻译结果可能已被输出，但是该翻译结果是利用第三神经网络(即：单向RNN)对每个第二文本词汇进行翻译获得的，由于尚未获得比较全局的待翻译文本，所以无法对待翻译文本的全局性进行考虑，可能存在翻译错误的情况。此处，由于第一文本词汇为“更新”状态，表明存储在第一存储区域中的多个第二文本词汇连同当前得到的第一文本词汇已经组成比较全局的待翻译文本，这时即可利用第二神经网络202(即：双向RNN)对这个比较全局的待翻译文本进行编码，再利用第四神经网络204进行解码，获得的翻译结果(即：第一翻译结果)的准确性将大大提高。

在具体实施过程中，在读取存储在第一存储区域中的第二文本词汇后，需要清空第一存储区域。

作为一种可选的实施例，在步骤S104之后，还包括：

输出第一翻译结果，其中，在输出第一翻译结果时，将第一翻译结果替换原翻译结果进行输出，原翻译结果是在所述第二文本词汇中的部分文本词汇处于“写”状态时输出的翻译结果。

在具体实施过程中，原翻译结果是在“读”状态或“写”状态下，利用第三神经网络(即：单向RNN)对每个文本词汇进行翻译获得的，其准确性不高；而第一翻译结果准确性更高，所以用第一翻译结果代替原翻译结果显示在屏幕上，当然，也可以将第一翻译结果转化为语音通过扬声器输出。

为了更好地理解本实时语音翻译的方法，下面将提供几个例子：

【例1】

汉译英：“我来自中国”。.

在现有技术中，由于仅有“读”状态和“写”状态，在进行翻译时，无法获得比较全局的待翻译文本，仅能使用单向RNN进行翻译，相当于是对每个文本词汇进行依次单独翻译，再进行拼接输出，其翻译结果为“I from China”，这显然不准确，不符合英语的使用习惯。

在本实施例中，设置了“读”状态、“写”状态和“更新”状态，在遇到“更新”状态时，会利用第二神经网络(即：双向RNN)将第一存储区域中的文本词汇(即：第二文本词汇)与当前获得的文本词汇(即：第一文本词汇)进行整体翻译，从而提高了翻译结果的准确性。具体来讲，翻译过程如下：

在第0时刻，第一文本词汇为“我”，其状态为“读”状态，则将“我”翻译成“I”，并将“I”存入第二存储区域，此时，第二存储区域中为[“I”]；然后，将“我”存入第一存储区域，此时，第一存储区域中为[“我”]。

在第1时刻，第一文本词汇为“来自”，其为“写”状态，则将“来自”翻译成“from”，并将第二存储区域中的翻译结果一起输出，显示“I from”，并且清空第二存储区域；然后，将“来自”存入第一存储区域，此时，第一存储区域中为[“我”，“来自”]。

在2时刻，第一文本词汇为“中国”，其为“更新”状态，则读取第一存储区域中的文本词汇，并与第一文本词汇整体进行翻译，也就是说，将“我来自中国”进行整体翻译，获得“I am from China”。并且，将“I am from China”替换“I from”进行显示输出。另外，在读取第一存储区域中的[“我”，“来自”]后，还需要清空第一存储区域。

在该例子中，将“I from China”优化为“I am from China”，得到了质量更高的翻译结果。

【例2】

汉译英：“他每天都工作”。

在现有技术中，由于仅有“读”状态和“写”状态，在进行翻译时，无法获得比较全局的待翻译文本，仅能使用单向RNN进行翻译，相当于是对每个文本词汇进行单独翻译，再进行拼接输出，其翻译结果为“He every day all work”，这显然不准确，不符合英语的使用习惯。

在本实施例中，设置了“读”状态、“写”状态和“更新”状态，在遇到“更新”状态时，会将第一存储区域中的文本词汇(即：第二文本词汇)与当前获得的文本词汇(即：第一文本词汇)进行整体翻译，从而提高了翻译结果的准确性。具体来讲，翻译过程如下：

在第0时刻，获得第一文本词汇“他”，其为“读”状态，则对该文本词汇进行翻译，获得翻译结果“He”，并将“He”存储在第二存储区域，此时，第二存储区域中为[“He”]；然后，将“他”存储在第一存储区域，此时，第一存储区域中为[“他”]。

在第1时刻，获得第一文本词汇“每天”，其为“读”状态，则对该文本词汇进行翻译，获得翻译结果“every day”，并将“every day”存储在第二存储区域，此时，第二存储区域中为[“He”，“every day”]；然后，将“每天”存储在第一存储区域，此时，第一存储区域中为[“他”，“每天”]。

在第2时刻，获得第一文本词汇“都”，其为“写”状态，则对该文本词汇进行翻译，获得翻译结果“all”，并将第二存储区域中的“He”，“every day”连同“all”一起输出“Heevery day all”；然后，将“都”存储在第一存储区域，此时，第一存储区域中为[“他”，“每天”，“都”]。其中，可以清空第二存储区域，以方便在翻译下个句子时，存储相应的翻译结果。

在第3时刻，获得第一文本词汇“工作”，其为“更新”状态，则读取第一存储区域中的文本词汇“他”，“每天”，“都”，再和新获得的第一文本词汇“工作”进行整体翻译，获得整体翻译后的结果“He works every day”，再将该翻译结果“He works every day”替换之前的翻译结果“He every day all”进行输出。其中，在读取第一存储区域中的文本词汇“他”，“每天”，“都”之后，可以清空第一存储区域，以方便在翻译下个句子时，存储相关的文本词汇。

在该例子中，将“He every day all work”优化为“He works every day”，得到了质量更高的翻译结果。

上述本发明实施例中的技术方案，至少具有如下的技术效果或优点：

在本发明实施例中，公开了一种实时语音翻译的方法，包括：对当前采集到的第一语音词汇进行语音识别，获得第一文本词汇；确定所述第一文本词汇的状态；在所述第一文本词汇为更新状态时，读取第一存储区域中的第二文本词汇，其中，所述第二文本词汇是对采集到的第二语音词汇进行语音识别所获得的文本词汇，采集到第二语音词汇的时间早于采集到第一语音词汇的时间；将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果。由于，在实时语音翻译过程中，新增了更新状态，在第一文本词汇为更新状态时，读取存储在第一存储区域中的第二文本词汇，第一文本词汇和第二文本词汇构成了一个比较全局的待翻译文本，这样，在将第二文本词汇和第一文本词汇进行整体翻译时，翻译结果的准确性得以显著提高，从而解决了现有技术中在进行实时语音翻译时，存在翻译质量较低的技术问题，实现了提高实时语音翻译质量的技术效果。

实施例二

基于同一发明构思，本发明另一实施例提供一种实施本发明实施例中所述实时语音翻译的方法的装置。

如图3所示，本实施例提供了一种用于实时语音翻译的装置，包括：

语音识别模块301，用于对当前采集到的第一语音词汇进行语音识别，获得第一文本词汇；

确定模块302，用于确定第一文本词汇的状态；

第一读取模块303，用于在第一文本词汇为更新状态时，读取第一存储区域中的第二文本词汇，其中，第二文本词汇是对采集到的第二语音词汇进行语音识别所获得的文本词汇，采集到第二语音词汇的时间早于采集到第一语音词汇的时间；

第一翻译模块304，用于将第二文本词汇和第一文本词汇进行整体翻译，获得第一翻译结果。

作为一种可选的实施例，第一文本词汇的状态，包括：读状态，或写状态，或更新状态。

作为一种可选的实施例，确定模块302，包括：

第一确定子模块，用于基于读状态、写状态和更新状态中每种状态出现的规律，确定第一文本词汇的状态。

作为一种可选的实施例，确定模块302，包括：

第二确定子模块，用于获取采集到第一语音词汇与采集到下一个语音词汇之间的时间间隔；基于时间间隔，确定第一文本词汇的状态。

作为一种可选的实施例，确定模块302，包括：

第三确定子模块，用于基于预先训练的第一神经网络确定第一文本词汇的状态。

作为一种可选的实施例，第三确定子模块，具体用于：

通过第一神经网络，确定第一文本词汇为更新状态的概率、读状态的概率和写状态的概率，并将其中概率最高的状态确定为第一文本词汇的状态。

作为一种可选的实施例，第一翻译模块304，具体用于：

通过第二神经网络对第二文本词汇和第一文本词汇进行整体翻译，获得第一翻译结果。

作为一种可选的实施例，所述用于实时语音翻译的装置，还包括：

第一输出模块，用于将第二文本词汇和第一文本词汇进行整体翻译，获得第一翻译结果之后，输出第一翻译结果，其中，在输出第一翻译结果时，将第一翻译结果替换原翻译结果进行输出，原翻译结果是在所述第二文本词汇中的部分文本词汇处于所述写状态时输出的翻译结果。

第一清空模块，用于读取第一存储区域中的第二文本词汇之后，清空第一存储区域。

第一存储模块，用于确定第一文本词汇的状态之后，在第一文本词汇为读状态时，将第一文本词汇存储在第一存储区域中；

第二翻译模块，用于对第一文本词汇进行翻译，获得第二翻译结果；

第二存储模块，用于将第二翻译结果存储在第二存储区域中。

第三存储模块，用于确定第一文本词汇的状态之后，在第一文本词汇为写状态时，将第一文本词汇存储在第一存储区域中；

第三翻译模块，用于对第一文本词汇进行翻译，获得第二翻译结果；

第二读取模块，用于读取第二存储区域中的第三翻译结果，其中，第三翻译结果是在所述第二文本词汇中的部分文本词汇处于所述读状态时获得的翻译结果；

第二输出模块，用于将第三翻译结果和第二翻译结果一起进行输出。

第二清空模块，用于读取第二存储区域中的第三翻译结果之后，清空第二存储区域。

由于本实施例所介绍的用于实时语音翻译的装置为实施本发明实施例中实时语音翻译的方法所采用的电子设备，故而基于本发明实施例中所介绍的实时语音翻译的方法，本领域所属技术人员能够了解本实施例的用于实时语音翻译的装置的具体实施方式以及其各种变化形式，所以在此对于该用于实时语音翻译的装置如何实现本发明实施例中的方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中实时语音翻译的方法所采用的电子设备，都属于本发明所欲保护的范围。

在本发明实施例中，公开了一种用于实时语音翻译的装置，包括：语音识别模块，用于对当前采集到的第一语音词汇进行语音识别，获得第一文本词汇；确定模块，用于确定所述第一文本词汇的状态；第一读取模块，用于在所述第一文本词汇为更新状态时，读取第一存储区域中的第二文本词汇，其中，所述第二文本词汇是对采集到的第二语音词汇进行语音识别所获得的文本词汇，采集到第二语音词汇的时间早于采集到第一语音词汇的时间；第一翻译模块，用于将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果。由于，在实时语音翻译过程中，新增了更新状态，在第一文本词汇为更新状态时，读取存储在第一存储区域中的第二文本词汇，第一文本词汇和第二文本词汇构成了一个比较全局的待翻译文本，这样，在将第二文本词汇和第一文本词汇进行整体翻译时，翻译结果的准确性得以显著提高，从而解决了现有技术中在进行实时语音翻译时，存在翻译质量较低的技术问题，实现了提高实时语音翻译质量的技术效果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种用于实时语音翻译的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种实时语音翻译的方法(具体请参考实施例一)，所述方法包括：对当前采集到的第一语音词汇进行语音识别，获得第一文本词汇；确定所述第一文本词汇的状态；在所述第一文本词汇为更新状态时，读取第一存储区域中的第二文本词汇，其中，所述第二文本词汇是对采集到的第二语音词汇进行语音识别所获得的文本词汇，采集到第二语音词汇的时间早于采集到第一语音词汇的时间；将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实时语音翻译的方法，其特征在于，包括：

确定所述第一文本词汇的状态，所述第一文本词汇的状态包括读状态，或写状态，或更新状态；

在所述第一文本词汇为所述更新状态时，读取第一存储区域中的第二文本词汇，其中，所述第二文本词汇是采集到的第二语音词汇进行语音识别所获得的文本词汇，采集到所述第二语音词汇的时间早于采集到所述第一语音词汇的时间；将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果；

在所述第一文本词汇为所述读状态时，将所述第一文本词汇存储在所述第一存储区域中；对所述第一文本词汇进行翻译，获得第二翻译结果；将所述第二翻译结果存储在第二存储区域中；

在所述第一文本词汇为所述写状态时，将所述第一文本词汇存储在所述第一存储区域中；对所述第一文本词汇进行翻译，获得第二翻译结果；读取第二存储区域中的第三翻译结果，其中，所述第三翻译结果是在所述第二文本词汇中的部分文本词汇处于所述读状态时获得的翻译结果；将所述第三翻译结果和所述第二翻译结果一起进行输出；

所述确定所述第一文本词汇的状态，包括：

基于所述读状态、所述写状态和所述更新状态中每种状态出现的规律，确定所述第一文本词汇的状态；或者，获取采集到所述第一语音词汇与采集到下一个语音词汇之间的时间间隔，基于所述时间间隔，确定所述第一文本词汇的状态；或者，通过第一神经网络，确定所述第一文本词汇为所述更新状态的概率、所述读状态的概率和所述写状态的概率，并将其中概率最高的状态确定为所述第一文本词汇的状态。

2.如权利要求1所述的实时语音翻译的方法，其特征在于，所述将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果，包括：

通过第二神经网络对所述第二文本词汇和所述第一文本词汇进行整体翻译，获得所述第一翻译结果，所述第二神经网络为双向循环神经网络。

3.如权利要求1~2任一所述的实时语音翻译的方法，其特征在于，所述将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果之后，还包括：

4.一种用于实时语音翻译的装置，其特征在于，包括：

确定模块，用于确定所述第一文本词汇的状态，所述第一文本词汇的状态包括读状态，或写状态，或更新状态；

第一读取模块，用于在所述第一文本词汇为所述更新状态时，读取第一存储区域中的第二文本词汇，其中，所述第二文本词汇是对采集到的第二语音词汇进行语音识别所获得的文本词汇，采集到所述第二语音词汇的时间早于采集到所述第一语音词汇的时间；

第一翻译模块，用于将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果；

所述确定所述第一文本词汇的状态，包括：基于所述读状态、所述写状态和所述更新状态中每种状态出现的规律，确定所述第一文本词汇的状态；或者，获取采集到所述第一语音词汇与采集到下一个语音词汇之间的时间间隔，基于所述时间间隔，确定所述第一文本词汇的状态；或者，通过第一神经网络，确定所述第一文本词汇为所述更新状态的概率、所述读状态的概率和所述写状态的概率，并将其中概率最高的状态确定为所述第一文本词汇的状态。

5.一种用于实时语音翻译的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对当前采集到的第一语音词汇进行语音识别，获得第一文本词汇，所述第一文本词汇的状态包括读状态，或写状态，或更新状态；确定所述第一文本词汇的状态；在所述第一文本词汇为所述更新状态时，读取第一存储区域中的第二文本词汇，其中，所述第二文本词汇是对采集到的第二语音词汇进行语音识别所获得的文本词汇，采集到所述第二语音词汇的时间早于采集到所述第一语音词汇的时间；将所述第二文本词汇和所述第一文本词汇进行整体翻译，获得第一翻译结果；在所述第一文本词汇为所述读状态时，将所述第一文本词汇存储在所述第一存储区域中；对所述第一文本词汇进行翻译，获得第二翻译结果；将所述第二翻译结果存储在第二存储区域中；

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可以实现如权利要求1~3任一权项所述的方法步骤。