CN107886940B

CN107886940B - 语音翻译处理方法及装置

Info

Publication number: CN107886940B
Application number: CN201711107222.3A
Authority: CN
Inventors: 刘俊华; 魏思; 胡国平; 柳林; 王建社; 方昕; 李永超; 孟廷
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2021-10-08
Anticipated expiration: 2037-11-10
Also published as: CN107886940A

Abstract

本发明实施例提供一种语音翻译处理方法及装置，属于语言处理技术领域。该方法包括：若判断获知上一轮次的第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型，则基于第一语音信号对应的文本数据对第二语音信号对应的文本数据进行调整，得到第二语音信号对应调整后的文本数据；获取调整后的文本数据对应的合成语音信号，并播报合成语音信号。由于上一轮次的第一语音信号与当前轮次待翻译的第二语音信号在内容上可能是有关联的，从而基于第一语音信号对应的文本数据对第二语音信号对应的文本数据进行调整，可使得翻译结果会更加切合场景且更加精准。

Description

语音翻译处理方法及装置

技术领域

本发明实施例涉及语言处理技术领域，更具体地，涉及一种语音翻译处理方法及装置。

背景技术

目前，语言沟通成为不同种族群体在相互交流时所面临的一个重要课题。例如，在双人或多人会议中，可通过自动语音翻译系统实现语音翻译。其中，自动语音翻译系统通常由语音识别、机器翻译和语音合成三部分组成。源语种的语音信号通过语音识别得到源语种的文本数据，然后通过机器翻译将源语种文本数据翻译成目标语种的文本数据，最后通过对目标语种的文本数据进行语音合成，得到目标语种的合成语音信号并进行播报。目前进行在语音翻译时，通常是直接对语音识别后得到的识别文本进行翻译。由于人讲话的上下文通常是互相关联的，而基于单一的识别文本进行翻译会丢失很多关联信息，从而导致翻译结果不够切合场景且不够精准。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的语音翻译处理方法及装置。

根据本发明实施例的第一方面，提供了一种语音翻译处理方法，该方法包括：

若判断获知上一轮次的第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型，则基于第一语音信号对应的文本数据对第二语音信号对应的文本数据进行调整，得到第二语音信号对应调整后的文本数据；

获取调整后的文本数据对应的合成语音信号，并播报合成语音信号。

本发明实施例提供的方法，通过在判断获知上一轮次的第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型时，基于第一语音信号对应的文本数据对第二语音信号对应的文本数据进行调整，得到第二语音信号对应调整后的文本数据。获取调整后的文本数据对应的合成语音信号，并播报合成语音信号。由于上一轮次的第一语音信号与当前轮次待翻译的第二语音信号在内容上可能是有关联的，从而基于第一语音信号对应的文本数据对第二语音信号对应的文本数据进行调整，可使得翻译结果会更加切合场景且更加精准。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，第一语音信号为上一轮次待翻译的语音信号；

相应地，第一语音信号对应的文本数据为对第一语音信号进行语音识别后的识别文本数据，第二语音信号对应的文本数据为对第二语音信号进行语音识别后的识别文本数据。

结合第一方面的第一种可能的实现方式，在第三种可能的实现方式中，第一语音信号为上一轮次待翻译的语音信号；

相应地，第一语音信号对应的文本数据为对第一语音信号进行语音识别以及翻译后得到的目标文本数据，第二语音信号对应的文本数据为对第二语音信号进行语音识别以及翻译后得到的目标文本数据。

结合第一方面的第一种可能的实现方式，在第四种可能的实现方式中，第一语音信号为经由上一轮次翻译以及语音合成后所得到的合成语音信号；

相应地，第一语音信号对应的文本数据为翻译后的目标文本数据，第二语音信号对应的文本数据为对第二语音信号进行语音识别后的识别文本数据。

结合第一方面的第一种可能的实现方式，在第五种可能的实现方式中，第一语音信号为经由上一轮次翻译以及语音合成后所得到的合成语音信号；

相应地，第一语音信号对应的文本数据为翻译前的识别文本数据，第二语音信号对应的文本数据为对第二语音信号进行语音识别以及翻译后得到的目标文本数据。

结合第一方面的第二种可能的实现方式，在第六种可能的实现方式中，获取调整后的文本数据对应的合成语音信号，包括：

若第一语音信号对应的识别文本数据与调整后的识别文本数据中存在相同的关键词，则基于关键词在第一语音信号对应的目标文本数据中的翻译结果，对调整后的识别文本数据进行翻译，得到第二语音信号对应的目标文本数据；

对第二语音信号对应的目标文本数据进行语音合成，得到合成语音信号。

结合第一方面的第一种可能的实现方式，在第七种可能的实现方式中，第一语音信号为经由上一轮次翻译以及语音合成后所得到的合成语音信号；相应地，方法还包括：

在对第一语音信号进行播报的过程中，若接收到包含有部分第一语音信号的混合语音信号，则停止播报第一语音信号；

从混合语音信号过滤掉部分第一语音信号，得到当前轮次待翻译的第二语音信号。

根据本发明实施例的第二方面，提供了一种语音翻译处理装置，该装置包括：

调整模块，用于当判断获知上一轮次的第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型时，则基于第一语音信号对应的文本数据对第二语音信号对应的文本数据进行调整，得到第二语音信号对应调整后的文本数据；

播报模块，用于获取调整后的文本数据对应的合成语音信号，并播报合成语音信号。

根据本发明实施例的第三方面，提供了一种语音翻译处理设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的语音翻译处理方法。

根据本发明的第四方面，提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的语音翻译处理方法。

应当理解的是，以上的一般描述和后文的细节描述是示例性和解释性的，并不能限制本发明实施例。

附图说明

图1为本发明实施例的一种语音翻译处理方法的流程示意图；

图2为本发明实施例的一种语音翻译处理方法的流程示意图；

图3为本发明实施例的一种语音翻译处理方法的流程示意图；

图4为本发明实施例的一种语音翻译处理方法的流程示意图；

图5为本发明实施例的一种语音翻译处理装置的框图；

图6为本发明实施例的一种语音翻译处理设备的框图。

具体实施方式

下面结合附图和实施例，对本发明实施例的具体实施方式作进一步详细描述。以下实施例用于说明本发明实施例，但不用来限制本发明实施例的范围。

目前，不同语种的人在进行沟通交流时，通常是通过自动语音翻译系统实现。其中，自动语音翻译系统通常由语音识别、机器翻译和语音合成三部分组成。源语种的语音信号通过语音识别得到源语种的文本数据，然后通过机器翻译将源语种的文本数据翻译成目标语种的文本数据，最后通过对目标语种的文本数据进行语音合成，得到目标语种的合成语音信号并进行播报。由于翻译准确度决定了后续播报时的用户体验，从而如何对文本数据进行翻译处理是人们关注的问题。

针对上述问题，本发明实施例提供了一种语音翻译处理方法。该方法可应用于带有语音采集、翻译、合成及播报功能的终端或系统，并可应用于两人或者多人沟通场景，本发明实施例对此不作具体限定。参见图1，该方法包括：101、若判断获知上一轮次的第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型，则基于第一语音信号对应的文本数据对第二语音信号对应的文本数据进行调整，得到第二语音信号对应调整后的文本数据；102、获取调整后的文本数据对应的合成语音信号，并播报合成语音信号。

其中，每一轮次的语音处理流程均可以包括如下几个部分：获取待翻译的语音信号(也即用户讲话时的语音信号)、对待翻译的语音信号进行语音识别并得到识别文本数据、对识别文本数据进行翻译并得到目标文本数据、对目标文本数据进行语音合成得到合成语音信号以及播报合成语音信号。

基于上述语音处理流程，每一轮次的语音信号可以为待翻译的语音信号，还可以为合成语音信号。相应地，上一轮次的第一语音信号可以为上一轮次待翻译的语音信号，还可以为经由上一轮次翻译以及语音合成后所得到的合成语音信号，本发明实施例对此不作具体限定。在执行上述步骤101之前，可先判断上一轮次的第一语音信号与当前轮次待翻译的第二语音信号是否对应相同的语种类型。当上一轮次的第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型时，则认为上一轮次的第一语音信号与当前轮次待翻译的第二语音信号在内容上可能是有关联的，从而可顺序执行步骤101及步骤102。

当上一轮次的第一语音信号与当前轮次待翻译的第二语音信号对应不同的语种类型，且第二语音信号对应的文本数据为识别文本数据时，可采用基于神经网络的编解码模型将第二语音信号对应的识别文本数据翻译成相应的目标文本数据。具体地，可将第二语音信号对应的识别文本数据输入至编解码模型，输出目标文本数据。其中，每种语种类型均可以对应一种编解码模型，每种编解码模型可预先使用大量数据构建得到。

由上述实施例的内容可知，第一语音信号可以为上一轮次待翻译的语音信号，还可以为经由上一轮次翻译以及语音合成后所得到的合成语音信号。作为一种可选实施例，当第一语音信号为上一轮次待翻译的语音信号且第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型时，相应地，第一语音信号对应的文本数据为对第一语音信号进行语音识别后的识别文本数据，第二语音信号对应的文本数据为对第二语音信号进行语音识别后的识别文本数据。

其中，可分别将第一语音信号及第二语音信号输入至语种识别模型，根据两者的输出结果确定第一语音信号及第二语音信号是否均对应相同的语种类型，本发明实施例对此不作具体限定。本发明实施例不对确定语音信号对应的语种类型的方式作具体限定，以第二语音信号为例，包括但不限于如下两种方式。

第一种方式：基于第二语音信号的声学特征确定。

具体地，可提取第二语音信号的声学特征，如频谱特征梅尔倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)、感知线性预测系数(Linear PredictiveCoding，PLP)等，将声学特征输入至语种识别模型，对第二语音信号进行语种预测。语种识别模型的输出结果即为第二语音信号为每个语种类型的概率，选择概率最大的语种作为第二语音信号对应的语种，也即确定了识别文本数据对应的源语种类型。其中，语种识别模型一般为模式识别中常用分类模型，具体可以通过预先收集大量语音信号，提取每条语音信号的声学特征，标注每条语音信号的语种类型构建得到。

第二种方式，基于第二语音信号的识别结果确定。

具体地，分别利用当前涉及的每个语种对应的语音识别模型对第二语音信号进行语音识别，得到第二语音信号对应每个语种的识别文本数据及相应的识别置信度，选择识别置信度最大的识别文本数据对应语种作为第二语音信号的语种。其中，语音识别过程一般为：先对第二语音信号进行端点检测，得到有效语音段的起始点和结束点。然后对端点检测得到的有效语音段进行特征提取，再利用提取的特征数据及预先训练的声学模型和语言模型进行解码，得到当前语音数据对应识别文本及相应识别文本的置信度。

例如，假设第二语音信号对应语种为中文；当前涉及的语种为中文和英文。对第二语音信号进行语种识别时，分别利用中文语音识别模型和英文语音识别模型对第二语音信号进行语音识别，得到第二语音信号对应的中文识别文本数据及相应识别置信度0.9，英文识别文本数据和相应识别置信度0.2。选择识别置信度较大的识别文本数据对应语种，即中文作为第二语音信号对应语种。进一步地，还可以将每个语种对应识别文本数据的识别置信度及语言模型得分进行融合，选择融合得分最大的识别文本数据所应的语种作为第二语音信号对应的语种。其中，融合方法可以为线性加权方法，本发明实施例对此不作具体限定。

基于上述内容，在上述步骤101中，可基于第一语音信号对应的识别文本数据对第二语音信号对应的识别文本数据进行调整。相应地，上述调整过程可适用于不同的应用场景，具体可分为如下应用场景：

第一种应用场景：第一语音信号与第二语音信号均对应同一用户所讲的话，也即某一用户在讲完话后，该用户又使用相同的语种讲话。

例如，用户A与用户B之间沟通交流，用户A讲英语，用户B讲汉语。用户A讲一句英语，过了一会儿，用户A用英语讲话。

第二种应用场景：第一语音信号与第二语音信号对应不同用户所讲的话，也即某一用户在讲完话后，另一用户使用相同的语种又讲话。

例如，用户A、用户B及用户C之间沟通交流，用户A讲英语，用户B讲英语，用户C讲汉语。用户A讲一句英语，过了一会儿，用户B也用英语讲话。

在上述两种场景中，可通过自动声纹识别技术判断第一语音信号与第二语音信号是否对应同一用户所讲的话。在实际场景中，某一用户在讲完话后，若在短时间内该用户或者其它用户又使用相同的语种讲话，则前面讲完的那句话在内容上与后面讲的那句话可能会有关联。例如，某一用户在上一轮次说了“订一张明天合肥到北京的车票”，而该用户或者其它用户在当前轮次又补充了一句“不对，到南京的”，则两句话在内容上是有关联的。

由上述说明可知，当前轮次所讲的话与在上一轮次所讲的话在内容上可能会有很大关联，从而基于第一语音信号对应的识别文本数据对第二语音信号对应的识别文本数据进行调整是有必要的。而在上述情形中，调整操作可以由以下触发条件触发。具体地，在基于第一语音信号对应的识别文本数据对第二语音信号对应的识别文本数据进行调整之前，可以判断上一轮次的第一语音信号与当前轮次待翻译的第二语音信号是否均对应同一用户，且还可以判断上一轮次的第一语音信号与当前轮次待翻译的第二语音信号之间的采集时间间隔是否小于预设阈值(此时，当前轮次待翻译的第二语音信号可能会打断上一轮次合成语音信号的播报过程)，从而确定第一语音信号对应的识别文本数据与第二语音信号对应的识别文本数据之间是否语义相关。

当满足上述两个触发条件时，也即上一轮次的第一语音信号与当前轮次待翻译的第二语音信号均对应同一用户，且上一轮次的第一语音信号与当前轮次待翻译的第二语音信号之间的采集时间间隔小于预设阈值，则可确定第一语音信号对应的识别文本数据与第二语音信号对应的识别文本数据之间语义相关，并可基于第一语音信号对应的识别文本数据对第二语音信号对应的识别文本数据进行调整。

当然，由上述两种应用场景可知，在基于第一语音信号对应的识别文本数据对第二语音信号对应的识别文本数据进行调整时，也可以不用满足上述两个触发条件，本发明实施例对此不作具体限定。如在第二种应用场景中，上一轮次的第一语音信号与当前轮次待翻译的第二语音信号均对应不同用户。另外，上一轮次的第一语音信号与当前轮次待翻译的第二语音信号之间的采集时间间隔也可以不小于预设阈值。例如，某一用户在上一轮次说了“订一张明天合肥到北京的车票”，过了一会儿(时长可大于预设阈值)，另一用户在当前轮次又补充了一句“不对，到南京的”。

无论是否满足上述两个触发条件，由上述两种应用场景及相关说明可知，第一语音信号对应的识别文本数据与第二语音信号对应的识别文本数据均存在内容关联的可能性。依据上述原理，可基于第一语音信号对应的识别文本数据对第二语音信号对应的识别文本数据进行调整。具体地，可将第一语音信号对应的识别文本数据与第二语音信号对应的识别文本数据进行拼接，重新进行文本顺滑、纠错或断句处理，从而得到第二语音信号对应调整后的识别文本数据。其中，文本顺滑一般为对识别文本数据去口语化的过程，删除识别文本数据中的口语化描述，使得识别文本数据更加书面语化；纠错主要用于确定当前轮次的识别文本数据中对上一轮次的识别文本数据进行补充或修改的内容，并添加到上一轮次的识别文本数据中合适的位置；当顺滑和\或纠错后的识别文本数据较长或存在歧义时，可使用断句将得到的识别文本数据分为多个短句。

例如，若上一轮次的第一语音信号对应的识别文本数据为“订一张明天合肥到北京的车票”，当前轮次的第二语音信号对应的识别文本数据为“不对，到南京的”。将两段识别文本数据进行拼接，可得到“订一张明天合肥到北京的车票，不对，到南京的”。对拼接后的文本数据进行顺滑、纠错和断句后，可得到第二语音信号对应调整后的识别文本数据，即为“订一张明天合肥到南京的车票”。

需要说明的是，由上述内容可知，当满足上述两个触发条件时，则说明第一语音信号对应的识别文本数据与第二语音信号对应的识别文本数据在内容可能存在很大可能的关联性，从而更有进行调整的必要。因此，可判断上一轮次的第一语音信号与当前轮次的第二语音信号是否均对应同一用户，且还可判断上一轮次的第一语音信号与当前轮次的第二语音信号之间的采集时间间隔是否小于预设阈值。当满足上述两个触发条件时，再执行上述调整过程。

本发明实施例提供的方法，通过基于上一轮次的第一语音信号对应的识别文本数据对当前轮次的第二语音信号对应的识别文本数据进行调整，并对调整后的文本数据进行翻译。由于在翻译得到第二语音信号对应的目标文本数据之前，可以上一轮次的识别文本数据为依据，对当前轮次的识别文本数据进行调整，从而使得两者在内容上的关联性更高，进而使得后续翻译结果更加精准。

由上述内容可知，调整后的识别文本数据与上一轮次的第一语音信号对应的识别文本数据在内容上是有关联的，从而在翻译调整后的识别文本数据时，可参考上一轮次的目标文本数据，也即可参考上一轮次的识别文本数据所对应的翻译结果。基于上述原理，作为一种可选实施例，本发明实施例还提供了一种获取调整后的文本数据对应的合成语音信号的方法。参见图2，该方法包括：201、若第一语音信号对应的识别文本数据与调整后的识别文本数据中存在相同的关键词，则基于关键词在第一语音信号对应的目标文本数据中的翻译结果，对调整后的识别文本数据进行翻译，得到第二语音信号对应的目标文本数据；202、对第二语音信号对应的目标文本数据进行语音合成，得到合成语音信号。

在上述步骤201中，当确定第一语音信号对应的识别文本数据与调整后的识别文本数据中存在相同的关键词时，则可确定上一轮次的第一语音信号与当前轮次的第二语音信号在语义上相关，从而可以记录关键词在第一语音信号对应的目标文本数据中的翻译结果，以供后续对调整后的识别文本数据进行翻译时作参考。

本发明实施例提供的方法，通过确定第一语音信号对应的识别文本数据与调整后的识别文本数据中相同的关键词，并基于相同的关键词在第一语音信号对应的识别文本数据中的翻译结果，对调整后的识别文本数据进行翻译，从而使得调整后的识别文本数据对应的翻译结果与第一语音信号对应的翻译结果一致，进而使得翻译结果更加精准。

在上述实施例的内容中，主要是基于上一轮次的识别文本数据对当前轮次的识别文本数据进行调整，并对调整后的识别文本数据进行翻译的过程。除上述情形之外，当第一语音信号为上一轮次待翻译的语音信号且第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型时，还可以在翻译过程结束后再调整。基于此，作为一种可选实施例，第一语音信号为上一轮次待翻译的语音信号时，相应地，第一语音信号对应的文本数据为对第一语音信号进行语音识别以及翻译后得到的目标文本数据，第二语音信号对应的文本数据为对第二语音信号进行语音识别以及翻译后得到的目标文本数据。

同理，本发明实施例的调整过程同样可适用于上述实施例中第一种与第二种应用场景。本发明实施例与上述实施例的区别在于，本发明实施例是基于上一轮次的目标文本数据对当前轮次的目标文本数据进行调整，也即基于上一轮次的翻译结果调整当前轮次的翻译结果，以得到第二语音信号对应调整后的目标文本数据。而具体调整过程以及判定是否满足触发条件等相关过程，可参考上述实施例的内容，此处不再赘述。在得到第二语音信号对应调整后的目标文本数据之后，可对目标文本数据进行语音合成，从而得到对应的合成语音信号，并播报该合成语音信号。

本发明实施例提供的方法，通过基于上一轮次翻译后得到的目标文本数据对当前轮次翻译后得到的目标文本数据进行调整，并对调整后的目标文本数据进行语音合成，从而得到对应的合成语音信号，并播报该合成语音信号。由于可以上一轮次翻译后得到的目标文本数据为依据，对当前轮次翻译后得到的目标文本数据进行调整，从而使得两者在内容上的关联性更高，进而使得翻译结果更加精准。

在上述实施例中，主要是对第一语音信号为上一轮次待翻译的语音信号时的调整过程进行说明。而第一语音信号为上一轮次待翻译的语音信号之外，还可以为经由上一轮次翻译以及语音合成后所得到的合成语音信号。作为一种可选实施例，当第一语音信号为经由上一轮次翻译以及语音合成后所得到的合成语音信号，且第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型时，相应地，第一语音信号对应的文本数据为翻译后的目标文本数据，第二语音信号对应的文本数据为对第二语音信号进行语音识别后的识别文本数据。

由上述内容可知，第一语音信号对应的目标文本数据与第二语音信号对应的识别文本数据均对应相同的语种类型。相应地，在上述步骤101中，可基于第一语音信号对应的目标文本数据对第二语音信号对应的识别文本数据进行调整。上述调整过程可适用于如下第三种应用场景。

第三种应用场景：上一轮次的第一语音信号与当前轮次的第二语音信号对应不同用户所讲的话，也即某一用户在使用某一语种讲完话后，系统对该用户讲的话进行语音识别、翻译以及语音合成得到第一语音信号，并播报第一语音信号后，另一用户又使用第一语音信号对应的语种讲话。

例如，用户A与用户B之间沟通交流，用户A讲英语，用户B讲汉语。用户A讲一句英语，经过翻译以及语音合成的过程得到一句汉语并进行播报后，过了一会儿，用户B使用汉语讲话。

结合上述第三种应用场景中，在对用户A讲的英语进行翻译播报后，也即通过汉语进行播报后，若在短时间内用户B使用汉语讲话，则汉语播报内容与用户B使用汉语讲的话在内容上可能会有关联。例如，上一轮次的汉语播报内容为“订一张明天合肥到北京的车票”，而其它用户在当前轮次又用汉语补充了一句“不对，到南京的”。

由上述说明可知，上一轮次的第一语音信号与当前轮次待翻译的第二语音信号在内容上可能会有很大关联，从而基于第一语音信号对应的目标文本数据对第二语音信号对应的识别文本数据进行调整是有必要的。而在上述情形中，调整操作可以由以下触发条件触发。具体地，在基于第一语音信号对应的目标文本数据对第二语音信号对应的识别文本数据进行调整之前，可确定自播报上一轮次的第一语音信号起至获取到当前轮次待翻译的第二语音信号之间的时间差(其中，当前轮次待翻译的第二语音信号可能会打断上一轮次第一语音信号的播报过程)，并判断该时间差是否小于预设阈值，从而确定第一语音信号对应的目标文本数据与第二语音信号对应的识别文本数据之间是否语义相关。当满足上述触发条件时，也即时间差小于预设阈值，则可确定第一语音信号对应的目标文本数据与第二语音信号对应的识别文本数据之间语义相关，并可基于第一语音信号对应的目标文本数据对第二语音信号对应的识别文本数据进行调整。

当然，在基于第一语音信号对应的识别文本数据对第二语音信号对应的识别文本数据进行调整时，也可不用满足上述触发条件，本发明实施例对此不作具体限定。例如，上一轮次的汉语播报内容为“订一张明天合肥到北京的车票”，过了一会儿(时长可大于预设阈值)，其它用户在当前轮次又用汉语补充了一句“不对，到南京的”。

无论是否满足上述触发条件，由上述第三种场景及相关说明可知，第一语音信号对应的目标文本数据与第二语音信号对应的识别文本数据均存在内容关联的可能性。依据上述原理，可基于第一语音信号对应的目标文本数据对第二语音信号对应的识别文本数据进行调整。具体调整过程可参考上述实施例，如先拼接，再做顺滑、纠错或断句处理，此处不再赘述。通过调整后，可得到第二语音信号对应调整后的识别文本数据。

通过上述调整过程，在得到第二语音信号对应调整后的识别文本数据之后，可翻译调整后的识别文本数据。由上述内容可知，调整后的识别文本数据与上一轮次的第一语音信号对应的目标文本数据在内容上是有关联的，从而在翻译调整后的识别文本数据时，可参考上一轮次翻译前的识别文本数据。基于上述原理，作为一种可选实施例，本发明实施例还提供了一种获取调整后的文本数据对应的合成语音信号的方法。参见图3，该方法包括：301、若第一语音信号对应的目标文本数据与调整后的识别文本数据中存在相同的关键词，则基于关键词在第一语音信号对应的识别文本数据中翻译前的源数据，对调整后的识别文本数据进行翻译，得到第二语音信号对应的目标文本数据；302、对第二语音信号对应的目标文本数据进行语音合成，得到合成语音信号。

在上述步骤301中，当确定第一语音信号对应的目标文本数据与调整后的识别文本数据中存在相同的关键词时，则可确定上一轮次的第一语音信号与当前轮次的第二语音信号在语义上相关，从而可以记录该关键词在第一语音信号对应的识别文本数据中翻译前的源数据，后续在对调整后的识别文本数据进行翻译时，可使得该关键词的翻译结果与该关键词在第一语音信号对应的识别文本数据中翻译前的源数据一致，进而使得翻译结果更加精准。

本发明实施例提供的方法，通过确定第一语音信号对应的目标文本数据与调整后的识别文本数据中相同的关键词，并基于该关键词在第一语音信号对应的识别文本数据中翻译前的源数据，对调整后的识别文本数据进行翻译，从而使得该关键词的翻译结果与该关键词在第一语音信号对应的识别文本数据中翻译前的源数据一致，并可使得调整后的识别文本数据对应的翻译结果更加贴切第一语音信号对应的识别文本数据，进而使得翻译结果更加精准。

在上述实施例的内容中，主要是基于上一轮次的目标文本数据对当前轮次的识别文本数据进行调整，并对调整后的识别文本数据进行翻译的过程。除上述情形之外，当第一语音信号为经由上一轮次翻译以及语音合成后所得到的合成语音信号，且第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型时，还可以在翻译过程结束后再调整。基于此，作为一种可选实施例，第一语音信号对应的文本数据为翻译前的识别文本数据，第二语音信号对应的文本数据为对第二语音信号进行语音识别以及翻译后得到的目标文本数据。

同理，本发明实施例的调整过程同样可适用于上述实施例中第三种应用场景。本发明实施例与上述实施例的区别在于，本发明实施例是基于上一轮次翻译前的识别文本数据对当前轮次的目标文本数据进行调整，也即基于上一轮次翻译前的识别文本数据调整当前轮次的翻译结果，以得到第二语音信号对应调整后的目标文本数据。而具体调整过程以及判定是否满足触发条件等相关过程，可参考上述实施例的内容，此处不再赘述。在得到第二语音信号对应调整后的目标文本数据之后，可对目标文本数据进行语音合成，从而得到对应的合成语音信号，并播报该合成语音信号。

本发明实施例提供的方法，通过基于上一轮次翻译前的识别文本数据对当前轮次翻译后得到的目标文本数据进行调整，并对调整后的目标文本数据进行语音合成，从而得到对应的合成语音信号，并播报该合成语音信号。由于可以上一轮次翻译前的识别文本数据为依据，对当前轮次翻译后得到的目标文本数据进行调整，从而使得两者在内容上的关联性更高，进而使得翻译结果更加精准。

在目前的语音翻译播报流程中，需要等到上一轮次的目标语种语音信号播报完后，才可以进行下一轮次的翻译、语音合成及播报。例如，用户A与用户B之间沟通交流，用户A讲英语，用户B讲汉语。用户A讲一句英语，经过翻译以及语音合成的过程得到一句汉语，并进行播报。完成整句播报后，用户A可继续讲一句英语或者由用户B讲一句汉语，并重复上述翻译、语音合成以及播报的过程。也即，用户A与用户B需要等到系统播报结束后，才能接收新的语音数据，并进行翻译、语音合成及播报。

考虑到用户讲完一句话后，可能需要对刚讲的话进行补充或修改。另外，在播报合成语音信号时，听播报的用户可能不需要听完就能够明白讲话用户的意图。对于上述情形，若按照上述流程完成上一轮次的整句播报，再进行下一轮次的翻译、语音合成及播报，则会比较耗费时间。针对上述问题，当第一语音信号为经由上一轮次翻译以及语音合成后所得到的合成语音信号时，本发明实施例提供了一种获取当前轮次待翻译的第二语音信号的方法。参见图4，该方法包括：401、在对第一语音信号进行播报的过程中，若接收到包含有部分第一语音信号的混合语音信号，则停止播报第一语音信号；402、从混合语音信号过滤掉部分第一语音信号，得到当前轮次待翻译的第二语音信号。

在上述步骤401中，在对第一语音信号进行播报的过程中，可同时监听是否有新的待翻译的语音信号，也即监听是否有用户又讲了需要翻译播报的话。具体地，可通过开启一个监听线程监听是否有新的待翻译的语音信号，本发明实施例对此不作具体限定。如果在监听过程中，除了上一轮次播报的第一语音信号之外，还监听到了新的待翻译的语音信号。此时，接收到的语音信号除了包含有新的待翻译的语音信号(即用户新发的言)之外，还存在部分第一语音信号。也即，接收到的是包含有部分第一语音信号的混合语音信号。此时，可能是上一轮次发言的用户或者其它用户出于补充对话内容、或者跳过播报等目的打断了第一语音信号的播报过程。

由于混合语音信号中除了包含有部分第一语音信号的混合语音信号之外，还包含当前轮次待翻译的语音信号，从而在上述步骤402中，需要从混合语音信号中过滤掉部分第一语音信号，从而得到当前轮次待翻译的语音信号。本发明实施例不对从混合语音信号中过滤掉部分第一语音信号的方式作具体限定，包括但不限于通过回声消除的方式从混合语音信号中过滤掉部分第一语音信号。其中，回声消除的计算过程可如下所示：

以监听设备为麦克风为例，假设播报的部分第一语音信号为s(t)，第m个麦克风接收的信道传输函数为h_m(t)，用户新输入的待翻译的语音信号为x_m(t)，则麦克风接收到的观测信号y_m(t)，如下列公式所示：

y_m(t)＝s(t)*h_m(t)+x_m(t)

当没有新输入的待翻译的语音信号为x_m(t)时，可提前估计出信道传输函数h_m(t)。当有新输入的待翻译的语音信号为x_m(t)时，可对混合语音信号进行回声消除。由于y_m(t)，s(t)，h_m(t)已知，从而可以通过如下公式计算得到当前轮次待翻译的语音信号，也即第二语音信号，具体公式如下：

x′_m(t)＝y(t)-s(t)*h_m(t)

在得到当前轮次待翻译的第二语音信号后，可对第二语音信号对应的文本数据进行调整，具体过程可参考上述实施例的内容。

本发明实施例提供的方法，通过在对第一语音信号进行播报的过程中，若接收到包含有部分第一语音信号的混合语音信号，则停止播报第一语音信号。从混合语音信号过滤掉部分第一语音信号，得到当前轮次待翻译的第二语音信号。由于沟通过程中的任意一方，均可按照全双工模式随时打断播报过程，而不用每次都等到一轮播报过程结束，从而在提高沟通效率的同时，还可使得不同语种用户之间沟通更加自然流畅。

另外，本发明实施例在进行语音合成时，可以选择一个固定发音人模型进行合成，如可以使用一个声音中性、浑厚的声音的合成模型。当然，还可以选择个性化的发音人模型进行合成。具体地，语音翻译系统中可包含多种不同音色的声音，用户可以自己选择，也可以由系统根据当前用户的用户信息来进行选择，本发明实施例对此不作具体限定。其中，用户信息包括但不限于用户的性别、年龄、音色等。例如，若听播报的用户为男性，系统可自动选择女性发音人模型，以合成女性发声的第二合成语音信号。当然，还可以利用声音转换，将合成的声音转换成与用户音色相近的声音进行播报。例如，在得到合成语音信号后，播报该合成语音信号时使用的声音可以与用户A的音色相近。

通过基于上一轮次的第一语音信号对应的识别文本数据对当前轮次的第二语音信号对应的识别文本数据进行调整，并对调整后的文本数据进行翻译。由于在翻译得到第二语音信号对应的目标文本数据之前，可以上一轮次的识别文本数据为依据，对当前轮次的识别文本数据进行调整，从而使得两者在内容上的关联性更高，进而使得后续翻译结果更加精准。

通过确定第一语音信号对应的识别文本数据与调整后的识别文本数据中相同的关键词，并基于相同的关键词在第一语音信号对应的识别文本数据中的翻译结果，对调整后的识别文本数据进行翻译，从而使得调整后的识别文本数据对应的翻译结果与第一语音信号对应的翻译结果一致，进而使得翻译结果更加精准。

通过基于上一轮次翻译后得到的目标文本数据对当前轮次翻译后得到的目标文本数据进行调整，并对调整后的目标文本数据进行语音合成，从而得到对应的合成语音信号，并播报该合成语音信号。由于可以上一轮次翻译后得到的目标文本数据为依据，对当前轮次翻译后得到的目标文本数据进行调整，从而使得两者在内容上的关联性更高，进而使得翻译结果更加精准。

通过确定第一语音信号对应的目标文本数据与调整后的识别文本数据中相同的关键词，并基于该关键词在第一语音信号对应的识别文本数据中翻译前的源数据，对调整后的识别文本数据进行翻译，从而使得该关键词的翻译结果与该关键词在第一语音信号对应的识别文本数据中翻译前的源数据一致，并可使得调整后的识别文本数据对应的翻译结果更加贴切第一语音信号对应的识别文本数据，进而使得翻译结果更加精准。

通过基于上一轮次翻译前的识别文本数据对当前轮次翻译后得到的目标文本数据进行调整，并对调整后的目标文本数据进行语音合成，从而得到对应的合成语音信号，并播报该合成语音信号。由于可以上一轮次翻译前的识别文本数据为依据，对当前轮次翻译后得到的目标文本数据进行调整，从而使得两者在内容上的关联性更高，进而使得翻译结果更加精准。

通过在对第一语音信号进行播报的过程中，若接收到包含有部分第一语音信号的混合语音信号，则停止播报第一语音信号。从混合语音信号过滤掉部分第一语音信号，得到当前轮次待翻译的第二语音信号。由于沟通过程中的任意一方，均可按照全双工模式随时打断播报过程，而不用每次都等到一轮播报过程结束，从而在提高沟通效率的同时，还可使得不同语种用户之间沟通更加自然流畅。

需要说明的是，上述所有可选实施例，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

基于上述实施例的内容，本发明实施例提供了一种语音翻译处理装置，该语音翻译处理装置用于执行上述方法实施例中的语音翻译处理方法。参见图5，该装置包括：

调整模块501，用于当判断获知上一轮次的第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型时，则基于第一语音信号对应的文本数据对第二语音信号对应的文本数据进行调整，得到第二语音信号对应调整后的文本数据；

播报模块502，用于获取调整后的文本数据对应的合成语音信号，并播报合成语音信号。

作为一种可选实施例，第一语音信号为上一轮次待翻译的语音信号；

作为一种可选实施例，第一语音信号为经由上一轮次翻译以及语音合成后所得到的合成语音信号；

作为一种可选实施例，播报模块502，用于当第一语音信号对应的识别文本数据与调整后的识别文本数据中存在相同的关键词时，则基于关键词在第一语音信号对应的目标文本数据中的翻译结果，对调整后的识别文本数据进行翻译，得到第二语音信号对应的目标文本数据；对第二语音信号对应的目标文本数据进行语音合成，得到合成语音信号。

作为一种可选实施例，第一语音信号为经由上一轮次翻译以及语音合成后所得到的合成语音信号；相应地，该装置还包括：

停止播报模块，用于在对第一语音信号进行播报的过程中，若接收到包含有部分第一语音信号的混合语音信号，则停止播报第一语音信号；

过滤模块，用于从混合语音信号过滤掉部分第一语音信号，得到当前轮次待翻译的第二语音信号。

本发明实施例提供的装置，通过在判断获知上一轮次的第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型时，基于第一语音信号对应的文本数据对第二语音信号对应的文本数据进行调整，得到第二语音信号对应调整后的文本数据。获取调整后的文本数据对应的合成语音信号，并播报合成语音信号。由于上一轮次的第一语音信号与当前轮次待翻译的第二语音信号在内容上可能是有关联的，从而基于第一语音信号对应的文本数据对第二语音信号对应的文本数据进行调整，可使得翻译结果会更加切合场景且更加精准。

本发明实施例提供了一种语音翻译处理设备。参见图6，该设备包括：处理器(processor)601、存储器(memory)602和总线603；

其中，处理器601及存储器602分别通过总线603完成相互间的通信；

处理器601用于调用存储器602中的程序指令，以执行上述实施例所提供的语音翻译处理方法，例如包括：若判断获知上一轮次的第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型，则基于第一语音信号对应的文本数据对第二语音信号对应的文本数据进行调整，得到第二语音信号对应调整后的文本数据；获取调整后的文本数据对应的合成语音信号，并播报合成语音信号。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的语音翻译处理方法，例如包括：若判断获知上一轮次的第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型，则基于第一语音信号对应的文本数据对第二语音信号对应的文本数据进行调整，得到第二语音信号对应调整后的文本数据；获取调整后的文本数据对应的合成语音信号，并播报合成语音信号。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的语音翻译处理设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明实施例的保护范围。凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种语音翻译处理方法，其特征在于，包括：

若判断获知上一轮次的第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型，则基于所述第一语音信号对应的文本数据对所述第二语音信号对应的文本数据进行调整，得到所述第二语音信号对应调整后的文本数据；其中，所述上一轮次的第一语音信号为上一轮次待翻译的语音信号，或为经由上一轮次翻译以及语音合成后所得到的合成语音信号；

获取所述调整后的文本数据对应的合成语音信号，并播报所述合成语音信号；

所述第一语音信号与所述第二语音信号对应不同用户或者相同用户。

2.根据权利要求1所述的方法，其特征在于，所述第一语音信号为上一轮次待翻译的语音信号；

相应地，所述第一语音信号对应的文本数据为对所述第一语音信号进行语音识别后的识别文本数据，所述第二语音信号对应的文本数据为对所述第二语音信号进行语音识别后的识别文本数据。

3.根据权利要求1所述的方法，其特征在于，所述第一语音信号为上一轮次待翻译的语音信号；

相应地，所述第一语音信号对应的文本数据为对所述第一语音信号进行语音识别以及翻译后得到的目标文本数据，所述第二语音信号对应的文本数据为对所述第二语音信号进行语音识别以及翻译后得到的目标文本数据。

4.根据权利要求1所述的方法，其特征在于，所述第一语音信号为经由上一轮次翻译以及语音合成后所得到的合成语音信号；

相应地，所述第一语音信号对应的文本数据为翻译后的目标文本数据，所述第二语音信号对应的文本数据为对所述第二语音信号进行语音识别后的识别文本数据。

5.根据权利要求1所述的方法，其特征在于，所述第一语音信号为经由上一轮次翻译以及语音合成后所得到的合成语音信号；

相应地，所述第一语音信号对应的文本数据为翻译前的识别文本数据，所述第二语音信号对应的文本数据为对所述第二语音信号进行语音识别以及翻译后得到的目标文本数据。

6.根据权利要求2所述的方法，其特征在于，所述获取所述调整后的文本数据对应的合成语音信号，包括：

若所述第一语音信号对应的识别文本数据与所述调整后的识别文本数据中存在相同的关键词，则基于所述关键词在所述第一语音信号对应的目标文本数据中的翻译结果，对所述调整后的识别文本数据进行翻译，得到所述第二语音信号对应的目标文本数据；

对所述第二语音信号对应的目标文本数据进行语音合成，得到所述合成语音信号。

7.根据权利要求1所述的方法，其特征在于，所述第一语音信号为经由上一轮次翻译以及语音合成后所得到的合成语音信号；相应地，所述方法还包括：

在对所述第一语音信号进行播报的过程中，若接收到包含有部分所述第一语音信号的混合语音信号，则停止播报所述第一语音信号；

从所述混合语音信号过滤掉部分所述第一语音信号，得到当前轮次待翻译的第二语音信号。

8.一种语音翻译处理装置，其特征在于，包括：

调整模块，用于当判断获知上一轮次的第一语音信号与当前轮次待翻译的第二语音信号均对应相同的语种类型时，则基于所述第一语音信号对应的文本数据对所述第二语音信号对应的文本数据进行调整，得到所述第二语音信号对应调整后的文本数据；其中，所述上一轮次的第一语音信号为上一轮次待翻译的语音信号，或为经由上一轮次翻译以及语音合成后所得到的合成语音信号；

播报模块，用于获取所述调整后的文本数据对应的合成语音信号，并播报所述合成语音信号；

9.一种语音翻译处理设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。