CN110147554B

CN110147554B - 同声翻译方法、装置和计算机设备

Info

Publication number: CN110147554B
Application number: CN201810975682.6A
Authority: CN
Inventors: 孟凡东; 翟俊杰; 杨月奎; 王迪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2023-08-22
Anticipated expiration: 2038-08-24
Also published as: CN110147554A

Abstract

本申请提供一种同声翻译方法、装置和计算机设备，其中方法包括：获取待翻译的源语言语音信号；对源语言语音信号进行语音识别，生成源语言词汇序列和源语言拼音序列；将源语言词汇序列和源语言拼音序列分别输入对应的编码器，获取与源语言语音信号对应的词汇向量序列和拼音向量序列；将词汇向量序列和拼音向量序列输入解码器，生成源语言语音信号对应的目标语言序列，由于源语言拼音序列一般不会出错，结合源语言拼音序列来确定源语言语音信号对应的目标语言序列，能够校正源语言词汇序列中的部分错误，从而提高同声翻译效率，提高对语音识别错误的容错能力。

Description

同声翻译方法、装置和计算机设备

技术领域

本申请涉及同声翻译技术领域，尤其涉及一种同声翻译方法、装置和计算机设备。

背景技术

目前的同声翻译方法中，对待翻译的源语言语音信号进行语音识别，获取源语言词汇序列，对源语言词汇序列进行机器翻译，获取目标语言序列。然而上述方案中，当语音识别错误时，例如将“发言”识别为“发炎”时，会导致后续的翻译错误，降低了同声翻译效率，降低了对语音识别错误的容错能力。

发明内容

为克服相关技术中存在的问题，本申请提供一种同声翻译方法、装置和计算机设备。

为达到上述目的，本申请的实施例采用如下技术方案：

第一方面，本申请实施例提供一种同声翻译方法，包括：

获取待翻译的源语言语音信号；

对所述源语言语音信号进行语音识别，生成源语言词汇序列和源语言拼音序列；

将所述源语言词汇序列和所述源语言拼音序列分别输入对应的编码器，获取与源语言语音信号对应的词汇向量序列和拼音向量序列；

将所述词汇向量序列和所述拼音向量序列输入解码器，生成所述源语言语音信号对应的目标语言序列。

其中在一种具体的实施方式中，所述将所述词汇向量序列和所述拼音向量序列输入解码器，生成所述源语言语音信号对应的目标语言序列，包括：

针对所述目标语言序列中待生成的当前目标词语，将所述词汇向量序列、所述拼音向量序列以及当前目标词语的前一目标词语对应的解码器状态输入注意力模型，确定与所述当前目标词语对应的词汇上下文向量序列和拼音上下文向量序列；

将所述词汇上下文向量序列和所述拼音上下文向量序列输入解码神经网络，确定与所述当前目标词语对应的解码器状态；

将所述词汇上下文向量序列、所述拼音上下文向量序列以及所述当前目标词语对应的解码器状态输入输出层神经网络，生成所述当前目标词语。

其中在另一种具体的实施方式中，所述将所述词汇向量序列、所述拼音向量序列以及当前目标词语的前一目标词语对应的解码器状态输入注意力模型，确定与所述当前目标词语对应的词汇上下文向量序列和拼音上下文向量序列，包括：

针对所述词汇向量序列中的各个词汇向量，获取所述拼音向量序列中对应位置的拼音向量，将所述词汇向量与所述拼音向量进行拼接，得到组合向量；

根据所述词汇向量序列中各个词汇向量对应的组合向量，生成组合向量序列；

将所述组合向量序列以及所述前一目标词语对应的解码器状态输入注意力模型，确定与所述当前目标词语对应的组合上下文向量序列。

其中在另一种具体的实施方式中，所述注意力模型包括：词汇注意力模型和拼音注意力模型；

所述将所述词汇向量序列、所述拼音向量序列以及当前目标词语的前一目标词语对应的解码器状态输入注意力模型，确定与所述当前目标词语对应的词汇上下文向量序列和拼音上下文向量序列，包括：

将所述词汇向量序列以及所述前一目标词语对应的解码器状态输入词汇注意力模型，确定与所述当前目标词语对应的词汇上下文向量序列；

将所述拼音向量序列以及所述前一目标词语对应的解码器状态输入拼音注意力模型，确定与所述当前目标词语对应的拼音上下文向量序列。

其中在另一种具体的实施方式中，所述将所述源语言词汇序列和所述源语言拼音序列分别输入对应的编码器，获取与源语言语音信号对应的词汇向量序列和拼音向量序列之前，还包括：

获取训练数据；所述训练数据中包括：超过预设数量阈值的训练样本；所述训练样本中包括：目标语言序列样本，以及与所述目标语言序列样本对应的源语言词汇序列样本和源语言拼音序列样本；

采用所述训练数据对所述编码器和所述解码器进行训练。

其中在另一种具体的实施方式中，所述采用所述训练数据对所述编码器和所述解码器进行训练之前，还包括：

针对所述源语言词汇序列样本中的词汇，获取所述词汇对应的同音词汇；

根据所述源语言词汇序列样本，以及所述词汇对应的同音词汇，生成与所述源语言词汇序列样本对应的扩展词汇序列样本；

根据所述扩展词汇序列样本，以及所述源语言词汇序列样本对应的源语言拼音序列样本和目标语言序列样本，生成扩展训练样本；

将所述扩展训练样本添加到所述训练数据中。

本申请实施例提供的技术方案可以包括以下有益效果：通过获取待翻译的源语言语音信号；对源语言语音信号进行语音识别，生成源语言词汇序列和源语言拼音序列；将源语言词汇序列和源语言拼音序列分别输入对应的编码器，获取与源语言语音信号对应的词汇向量序列和拼音向量序列；将词汇向量序列和拼音向量序列输入解码器，生成源语言语音信号对应的目标语言序列，由于源语言拼音序列一般不会出错，结合源语言拼音序列来确定源语言语音信号对应的目标语言序列，能够校正源语言词汇序列中的部分错误，从而提高同声翻译效率，提高对语音识别错误的容错能力。

第二方面，本申请实施例提供一种同声翻译装置，包括：

获取模块，用于获取待翻译的源语言语音信号；

识别模块，用于对所述源语言语音信号进行语音识别，生成源语言词汇序列和源语言拼音序列；

所述获取模块，还用于将所述源语言词汇序列和所述源语言拼音序列分别输入对应的编码器，获取与源语言语音信号对应的词汇向量序列和拼音向量序列；

所述获取模块，还用于将所述词汇向量序列和所述拼音向量序列输入解码器，生成所述源语言语音信号对应的目标语言序列。

其中在一种具体的实施方式中，所述获取模块具体用于，

其中在另一种具体的实施方式中，所述获取模块具体用于，

对应的，所述获取模块具体用于，

其中在另一种具体的实施方式中，所述的装置还包括：训练模块；

所述获取模块，还用于获取训练数据；所述训练数据中包括：超过预设数量阈值的训练样本；所述训练样本中包括：目标语言序列样本，以及与所述目标语言序列样本对应的源语言词汇序列样本和源语言拼音序列样本；

所述训练模块，用于采用所述训练数据对所述编码器和所述解码器进行训练。

其中在另一种具体的实施方式中，所述的装置还包括：生成模块和添加模块；

所述获取模块，还用于针对所述源语言词汇序列样本中的词汇，获取所述词汇对应的同音词汇；

所述生成模块，用于根据所述源语言词汇序列样本，以及所述词汇对应的同音词汇，生成与所述源语言词汇序列样本对应的扩展词汇序列样本；

所述生成模块，还用于根据所述扩展词汇序列样本，以及所述源语言词汇序列样本对应的源语言拼音序列样本和目标语言序列样本，生成扩展训练样本；

所述添加模块，用于将所述扩展训练样本添加到所述训练数据中。

第三方面，本申请实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如上所述的方法。

第四方面，本申请实施例提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请同声翻译方法一个实施例的流程图；

图2为本申请同声翻译方法另一个实施例的流程图；

图3为本申请同声翻译方法另一个实施例的流程图；

图4为本申请同声翻译装置一个实施例的结构示意图；

图5为本申请同声翻译装置另一个实施例的结构示意图；

图6为本申请同声翻译装置另一个实施例的结构示意图；

图7为本申请计算机设备一个实施例的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1为本申请同声翻译方法一个实施例的流程图，本实施例中的同声翻译方法可以由同声翻译装置实现，同声翻译装置具体可以为硬件设备或者硬件设备中安装的软件。硬件设备例如，移动终端、服务器等。如图1所示，上述同声翻译方法可以包括以下步骤：

S101、获取待翻译的源语言语音信号。

本实施例中，待翻译的源语言语音信号可以为一段语音信号，例如一句话或者多句话对应的语音信号。源语言例如可以为中文等可以标注拼音的语言。

S102、对源语言语音信号进行语音识别，生成源语言词汇序列和源语言拼音序列。

其中，源语言词汇序列例如可以为“首先是总办会发言和媒体叙一叙过去的一年”。对应的源语言拼音序列例如可以为“shouxian shi zongban hui fayan he meitixuyixu guoqu de yinian”。

本实施例中，可以将源语言语音信号输入语音识别模型，由语音识别模型对源语言语音信号进行语音识别，生成源语言词汇序列和源语言拼音序列。其中，语音识别模型可以为神经网络模型。语音识别模型的训练过程例如可以为，获取大量的源语言语音信号以及对应的源语言词汇序列和源语言拼音序列；采用大量的源语言语音信号以及对应的源语言词汇序列和源语言拼音序列对初始的语音识别模型进行训练，得到训练好的语音识别模型。另外，语音识别模型还可以为2个，其中一个对源语言语音信号进行语音识别，生成源语言词汇序列；另一个对源语言语音信号进行语音识别，生成源语言拼音序列。

本实施例中，源语言词汇序列具体可以为词语序列、字序列或者子词序列。其中，子词序列中包括字和词语。

S103、将源语言词汇序列和源语言拼音序列分别输入对应的编码器，获取与源语言语音信号对应的词汇向量序列和拼音向量序列。

其中，源语言词汇序列对应的编码器为词汇编码器，源语言拼音序列对应的编码器为拼音编码器。词汇编码器和拼音编码器例如可以为循环神经网络(Recurrent NeuralNetwork，RNN)。本实施例中，循环神经网络RNN例如可以为单向神经网络、双向神经网络、卷积神经网络、单层神经网络、多层神经网络、或者上述各种神经网络的变种等。可以根据实际需要选择合适的循环神经网络，此处不对循环神经网络的类别和拓扑结果做限定。

本实施例中，将源语言词汇序列输入词汇编码器后，针对源语言词汇序列中的各个词汇，词汇编码器可以结合该词汇对应的初始向量，以及上下文词汇对应的向量，来确定该词汇对应的向量。

S104、将词汇向量序列和拼音向量序列输入解码器，生成源语言语音信号对应的目标语言序列。

其中，目标语言序列为对源语言语音信号进行翻译得到的序列。例如，在源语言语音信号为“这个现场的语音识别可以识别双语”时，目标语言序列例如可以为“This sceneof speech recognition can recognize bilingual”。

本实施例中，解码器的结构具体可以为注意力模型+解码神经网络+输出层神经网络。对应的，结合参考图2，在图1所示实施例的基础上，同声翻译装置执行步骤104的过程具体可以包括以下步骤：

S1041、针对目标语言序列中待生成的当前目标词语，将词汇向量序列、拼音向量序列以及当前目标词语的前一目标词语对应的解码器状态输入注意力模型，确定与当前目标词语对应的词汇上下文向量序列和拼音上下文向量序列。

本实施例中，在第一种实施场景中，同声翻译装置执行步骤1041的过程具体可以为，针对词汇向量序列中的各个词汇向量，获取拼音向量序列中对应位置的拼音向量，将词汇向量与拼音向量进行拼接，得到组合向量；根据词汇向量序列中各个词汇向量对应的组合向量，生成组合向量序列；将组合向量序列以及前一目标词语对应的解码器状态输入注意力模型，确定与当前目标词语对应的组合上下文向量序列。

其中，若词汇向量序列中每个向量的维度为100维，拼音向量序列中每个向量的维度为100维，则对应的组合向量序列中每个向量的维度为200维，前100维为词汇向量的各个维度，后100维为拼音向量的各个维度。本实施例中，注意力模型确定组合上下文向量序列的公式具体可以如以下公式(1)、公式(2)和公式(3)所示。

其中，s_t-1表示前一目标词语对应的解码器状态；HP表示组合向量序列；为系数；a_t'表示向量序列E_t'中各个向量的概率；c_t'表示组合上下文向量序列。

在第二种实施场景中，注意力模型可以包括：词汇注意力模型和拼音注意力模型。对应的，同声翻译装置执行步骤1041的过程具体可以为，将词汇向量序列以及前一目标词语对应的解码器状态输入词汇注意力模型，确定与当前目标词语对应的词汇上下文向量序列；将拼音向量序列以及前一目标词语对应的解码器状态输入拼音注意力模型，确定与当前目标词语对应的拼音上下文向量序列。

本实施例中，词汇注意力模型确定词汇上下文向量序列的公式可以如以下公式(4)、公式(5)、公式(6)所示。

其中，H表示词汇向量序列；表示系数；a_t表示向量序列E_t中各个向量的概率；c_t表示词汇上下文向量序列。

本实施例中，拼音注意力模型确定拼音上下文向量序列的公式可以如以下公式(7)、公式(8)、公式(9)所示。

其中，P表示拼音向量序列；表示系数；β_t表示向量序列G_t中各个向量的概率；p_t表示拼音上下文向量序列。

S1042、将词汇上下文向量序列和拼音上下文向量序列输入解码神经网络，确定与当前目标词语对应的解码器状态。

本实施例中，在词汇向量序列和拼音向量序列拼接成组合向量序列的情况下，解码神经网络确定当前目标词语对应的解码器状态的公式可以如以下公式(10)所示。

其中，s_t表示当前目标词语对应的解码器状态；y_t-1表示前一目标词语。

本实施例中，在词汇向量序列和拼音向量序列未拼接的情况下，解码神经网络确定当前目标词语对应的解码器状态的公式可以如以下公式(11)所示。

S1043、将词汇上下文向量序列、拼音上下文向量序列以及当前目标词语对应的解码器状态输入输出层神经网络，生成当前目标词语。

本实施例中，在词汇向量序列和拼音向量序列拼接成组合向量序列的情况下，输出层神经网络确定当前目标词语的公式可以如以下公式(12)、公式(13)所示。

y_t＝soft max(Wo_t+b) (13)

其中，y_t表示o_t词语序列中各个词语的概率，其中，概率最大的词语为当前目标词语。

本实施例中，在词汇向量序列和拼音向量序列未拼接的情况下，输出层神经网络确定当前目标词语的公式可以如以下公式(14)、公式(15)所示。

y_t＝soft max(Wo_t+b) (15)

图3为本申请同声翻译方法另一个实施例的流程图，如图3所示，在图1所示实施例的基础上，步骤103之前，所述的方法还可以包括以下步骤：

S105、获取训练数据；训练数据中包括：超过预设数量阈值的训练样本；训练样本中包括：目标语言序列样本，以及与目标语言序列样本对应的源语言词汇序列样本和源语言拼音序列样本。

S106、针对源语言词汇序列样本中的词汇，获取词汇对应的同音词汇。

其中，在词汇为“发言”的情况下，对应的同音词汇例如可以为“发炎”等。在词汇为“双语”的情况下，对应的同音词汇例如可以为“双鱼”、“双宇”等。

S107、根据源语言词汇序列样本，以及词汇对应的同音词汇，生成与源语言词汇序列样本对应的扩展词汇序列样本。

其中，在源语言词汇序列样本为“这个现场的语音识别可以识别双语”的情况下，对应的扩展词汇序列样本可以为“这个现场的语音识别可以识别双鱼”、“这个现场的语音识别可以识别双宇”等。

S108、根据扩展词汇序列样本，以及源语言词汇序列样本对应的源语言拼音序列样本和目标语言序列样本，生成扩展训练样本。

其中，扩展训练样本中包括：目标语言序列样本，以及对应的扩展词汇序列样本和源语言拼音序列样本。

S109、将扩展训练样本添加到训练数据中。

S110、采用训练数据对编码器和解码器进行训练。

本实施例中，可以通过优化参数来确定编码器和解码器是否训练完成。其中，优化参数根据编码器和解码器中的系数确定。优化参数的确定公式可以如以下公式(16)所示。

本实施例中，通过获取训练数据，训练数据中包括：超过预设数量阈值的训练样本；训练样本中包括：目标语言序列样本，以及与目标语言序列样本对应的源语言词汇序列样本和源语言拼音序列样本；对源语言词汇序列样本中的词汇进行同义词汇扩展，生成与源语言词汇序列样本对应的扩展词汇序列样本，进而得到扩展训练样本，将扩展训练样本添加到训练数据中，由于扩展训练样本中扩展词汇序列样本有误，但目标语言序列样本和源语言拼音序列样本无误，因此，结合扩展训练样本对编码器和解码器进行训练，能够提高解码器对语音识别错误的容错能力，进一步提高同声翻译效率。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图4为本申请同声翻译装置一个实施例的结构示意图，本实施例中的同声翻译装置具体可以为硬件设备或者硬件设备中安装的软件。硬件设备例如，移动终端、服务器等，实现本申请图1、图2或者图3所示实施例提供的同声翻译方法，上述同声翻译装置可以包括：获取模块41和识别模块42。

其中，获取模块41，用于获取待翻译的源语言语音信号；

识别模块42，用于对所述源语言语音信号进行语音识别，生成源语言词汇序列和源语言拼音序列；

所述获取模块41，还用于将所述源语言词汇序列和所述源语言拼音序列分别输入对应的编码器，获取与源语言语音信号对应的词汇向量序列和拼音向量序列；

所述获取模块41，还用于将所述词汇向量序列和所述拼音向量序列输入解码器，生成所述源语言语音信号对应的目标语言序列。

本实施例中，源语言词汇序列对应的编码器为词汇编码器，源语言拼音序列对应的编码器为拼音编码器。词汇编码器和拼音编码器例如可以为循环神经网络(RecurrentNeural Network，RNN)。本实施例中，循环神经网络RNN例如可以为单向神经网络、双向神经网络、卷积神经网络、单层神经网络、多层神经网络、或者上述各种神经网络的变种等。可以根据实际需要选择合适的循环神经网络，此处不对循环神经网络的类别和拓扑结果做限定。

其中，将源语言词汇序列输入词汇编码器后，针对源语言词汇序列中的各个词汇，词汇编码器可以结合该词汇对应的初始向量，以及上下文词汇对应的向量，来确定该词汇对应的向量。

本实施例中，解码器的结构具体可以为注意力模型+解码神经网络+输出层神经网络。对应的，获取模块41具体可以用于，针对目标语言序列中待生成的当前目标词语，将词汇向量序列、拼音向量序列以及当前目标词语的前一目标词语对应的解码器状态输入注意力模型，确定与当前目标词语对应的词汇上下文向量序列和拼音上下文向量序列；将词汇上下文向量序列和拼音上下文向量序列输入解码神经网络，确定与当前目标词语对应的解码器状态；将词汇上下文向量序列、拼音上下文向量序列以及当前目标词语对应的解码器状态输入输出层神经网络，生成当前目标词语。

本实施例中，在第一种实施场景中，获取模块41获取当前目标词语对应的词汇上下文向量序列和拼音上下文向量序列的过程具体可以为，针对词汇向量序列中的各个词汇向量，获取拼音向量序列中对应位置的拼音向量，将词汇向量与拼音向量进行拼接，得到组合向量；根据词汇向量序列中各个词汇向量对应的组合向量，生成组合向量序列；将组合向量序列以及前一目标词语对应的解码器状态输入注意力模型，确定与当前目标词语对应的组合上下文向量序列。

在第二种实施场景中，注意力模型可以包括：词汇注意力模型和拼音注意力模型。对应的，获取模块41获取当前目标词语对应的词汇上下文向量序列和拼音上下文向量序列的过程具体可以为，将词汇向量序列以及前一目标词语对应的解码器状态输入词汇注意力模型，确定与当前目标词语对应的词汇上下文向量序列；将拼音向量序列以及前一目标词语对应的解码器状态输入拼音注意力模型，确定与当前目标词语对应的拼音上下文向量序列。

结合参考图5，在图4所示实施例的基础上，所述的装置还可以包括：训练模块43；

所述获取模块41，还用于获取训练数据；所述训练数据中包括：超过预设数量阈值的训练样本；所述训练样本中包括：目标语言序列样本，以及与目标语言序列样本对应的源语言词汇序列样本和源语言拼音序列样本；

所述训练模块43，用于采用所述训练数据对所述编码器和所述解码器进行训练。

进一步的，结合参考图6，在图5所示实施例的基础上，所述的装置还可以包括：生成模块44和添加模块45；

所述获取模块41，还用于针对所述源语言词汇序列样本中的词汇，获取所述词汇对应的同音词汇；

所述生成模块44，用于根据所述源语言词汇序列样本，以及所述词汇对应的同音词汇，生成与源语言词汇序列样本对应的扩展词汇序列样本；

所述生成模块44，还用于根据所述扩展词汇序列样本，以及所述源语言词汇序列样本对应的源语言拼音序列样本和目标语言序列样本，生成扩展训练样本；

所述添加模块45，用于将所述扩展训练样本添加到所述训练数据中。

图7为本申请计算机设备一个实施例的结构示意图，本实施例中的计算机设备可以实现同声翻译功能，上述计算机设备可以包括：一个或多个处理器；存储器，用于存储一个或多个程序；当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器获取待翻译的源语言语音信号；对源语言语音信号进行语音识别，获取源语言词汇序列和源语言拼音序列；将源语言词汇序列和源语言拼音序列输入对应的编码器，获取词汇向量序列和拼音向量序列；将词汇向量序列和拼音向量序列输入解码器，获取源语言语音信号对应的目标语言序列。

图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块52的程序/实用工具50，可以存储在例如存储器28中，这样的程序模块52包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块52通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图7所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图7中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本申请图1、图2或者图3所示实施例提供的同声翻译方法。

本实施例还提供一种非临时性计算机可读存储介质，当上述存储介质中的计算机可执行指令在由计算机处理器执行时，用于执行本申请图1、图2或者图3所示实施例提供的同声翻译方法。

本实施例还提供一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，实现本申请图1、图2或者图3所示实施例提供的同声翻译方法。

上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(Programmable Gate Array；以下简称：PGA)，现场可编程门阵列(Field ProgrammableGate Array；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种同声翻译方法，其特征在于，包括：

获取待翻译的源语言语音信号；

将所述词汇向量序列输入词汇注意力模型，确定与所述源语言语音信号对应的目标语言序列中待生成的当前目标词语对应的词汇上下文向量序列；

将所述拼音向量序列输入拼音注意力模型，确定与所述当前目标词语对应的拼音上下文向量序列；

将所述词汇上下文向量序列和所述拼音上下文向量序列输入解码器，生成所述当前目标词语；

其中，所述将所述词汇向量序列输入词汇注意力模型，确定与所述源语言语音信号对应的目标语言序列中待生成的当前目标词语对应的词汇上下文向量序列，包括：

将所述词汇向量序列以及所述当前目标词语的前一目标词语对应的解码器状态输入所述词汇注意力模型，确定与所述当前目标词语对应的词汇上下文向量序列；

其中，所述将所述拼音向量序列输入拼音注意力模型，确定与所述当前目标词语对应的拼音上下文向量序列，包括：

将所述拼音向量序列以及所述前一目标词语对应的解码器状态输入所述拼音注意力模型，确定与所述当前目标词语对应的拼音上下文向量序列。

2.根据权利要求1所述的方法，其特征在于，所述将所述词汇上下文向量序列和所述拼音上下文向量序列输入解码器，生成所述当前目标词语，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述源语言词汇序列和所述源语言拼音序列分别输入对应的编码器，获取与源语言语音信号对应的词汇向量序列和拼音向量序列之前，还包括：

采用所述训练数据对所述编码器和所述解码器进行训练。

4.根据权利要求3所述的方法，其特征在于，所述采用所述训练数据对所述编码器和所述解码器进行训练之前，还包括：

将所述扩展训练样本添加到所述训练数据中。

5.一种同声翻译装置，其特征在于，包括：

获取模块，用于获取待翻译的源语言语音信号；

所述获取模块，还用于将所述词汇向量序列输入词汇注意力模型，确定与所述源语言语音信号对应的目标语言序列中待生成的当前目标词语对应的词汇上下文向量序列；将所述拼音向量序列输入拼音注意力模型，确定与所述当前目标词语对应的拼音上下文向量序列；将所述词汇上下文向量序列和所述拼音上下文向量序列输入解码器，生成所述当前目标词语；

其中，所述获取模块具体用于，

6.根据权利要求5所述的装置，其特征在于，所述获取模块具体用于，

7.根据权利要求5所述的装置，其特征在于，还包括：训练模块；

8.根据权利要求7所述的装置，其特征在于，还包括：生成模块和添加模块；

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现如权利要求1-4中任一所述的方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的方法。