CN109274831B

CN109274831B - 一种语音通话方法、装置、设备及可读存储介质

Info

Publication number: CN109274831B
Application number: CN201811295591.4A
Authority: CN
Inventors: 汪向飞; 翟吉博
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2021-08-13
Anticipated expiration: 2038-11-01
Also published as: CN109274831A

Abstract

本申请公开了一种语音通话方法、装置、设备及可读存储介质，本申请可以获取语音通话过程中，对端设备发送的通话音频数据，进一步可以获取所述通话音频数据的翻译文本，所述翻译文本为将所述通话音频数据翻译为目标语种的文本结果，所述目标语种为本端设备的使用对象所能够识别的语种，在此基础上可以播放所述通话音频数据，且输出所述翻译文本。由此可见，在用户语音通话过程中，本申请可以播放通话音频数据，并且可以输出与通话音频数据对应的翻译文本，也即用户既可以听到播放的通话音频数据，也可以得到通话音频数据对应的翻译文本，大大提高了用户对通话内容的理解，进而提高了语音通话过程的沟通效率。

Description

一种语音通话方法、装置、设备及可读存储介质

技术领域

本申请涉及语音信号处理技术领域，更具体地说，涉及一种语音通话方法、装置、设备及可读存储介质。

背景技术

随着国际化进度的日益推进，全球化的交流越来越频繁，尤其在人们的工作、生活中，涉及到许多需要跨语言交流的场景，如语音通话场景。

目前的语音通话系统，若双方使用不同的语言通话，可能会因为一方或双方外语水平有限而造成沟通上的障碍。举例来说，中国用户想要到国外旅游，由于不了解景点情况，无法制定游玩计划，此时可以通过终端设备，如手机、平板等，向当地服务中心询问景点的收费、特色等情况，工作人员以英文告知景点具体情况，然而该中国用户可能会因为英文水平不足，如在通话过程中没有听懂某个单词或短语，因而需要工作人员将一句话重复多遍，导致沟通障碍，语音通话过程效率低。

发明内容

有鉴于此，本申请提供了一种语音通话方法、装置、设备及可读存储介质，用于解决现有语音通话沟通障碍，语音通话过程效率低的问题。

为了实现上述目的，现提出的方案如下：

一种语音通话方法，包括：

获取语音通话过程中，对端设备发送的通话音频数据；

获取所述通话音频数据的翻译文本，所述翻译文本为将所述通话音频数据翻译为目标语种的文本结果，所述目标语种为本端设备的使用对象所能够识别的语种；

播放所述通话音频数据，且输出所述翻译文本。

优选地，还包括：

响应本端设备的使用对象发起的通话语音翻译指令，确定所述通话语音翻译指令所指示的翻译后的目标语种。

所述响应本端设备的使用对象发起的通话语音翻译指令，确定所述通话语音翻译指令所指示的翻译后的目标语种，包括：

响应本端设备的使用对象在拨号界面或语音通话界面发起的通话语音翻译指令，确定所述通话语音翻译指令所指示的翻译后的目标语种。

优选地，还包括：

根据本端设备的历史语音通话信息，确定本次语音通话过程所需将通话音频数据翻译成的目标语种；

和/或，

根据本端设备的位置信息，确定本次语音通话过程所需将通话音频数据翻译成的目标语种；

和/或，

根据本端设备关联的使用对象的对象信息，确定本次语音通话过程所需将通话音频数据翻译成的目标语种。

优选地，所述获取所述通话音频数据的翻译文本，包括：

从存储通话音频数据的第一缓冲区中读取通话音频数据至第二缓冲区；

从第二缓冲区中读取通话音频数据；

获取对所读取的通话音频数据按照所述目标语种翻译后的翻译文本。

优选地，在所述获取对所读取的通话音频数据按照所述目标语种翻译后的翻译文本之前，该方法还包括：

将读取的通话音频数据划分为多个通话音频段；

预测每一通话音频段的翻译耗时；

根据所述翻译耗时，调整从第一缓冲区中读取通话音频数据至第二缓冲区的速率。

优选地，所述播放所述通话音频数据，且输出所述翻译文本，包括：

参考每一通话音频段的翻译耗时，对每一通话音频段的播放时间进行延迟，以使每一通话音频段的播放时间，与对应通话音频段的翻译文本的输出时间同步。

优选地，所述获取对所读取的通话音频数据按照所述目标语种翻译后的翻译文本，包括：

将所述通话音频数据识别为对应的通话文本；

将所述通话文本翻译成所述目标语种，得到翻译文本。

将所述通话音频数据及所述目标语种发送至翻译终端；

接收所述翻译终端反馈的按照所述目标语种对所述通话音频数据的翻译文本。

优选地，所述输出所述翻译文本，包括：

将所述翻译文本输出至所述本端设备的显示屏，以通过所述显示屏显示所述翻译文本；

和/或，

将所述翻译文本发送至与所述本端设备关联的显示终端，以通过所述显示终端显示所述翻译文本。

一种语音通话装置，其特征在于，包括：

通话音频数据获取单元，用于获取语音通话过程中，对端设备发送的通话音频数据；

翻译文本获取单元，用于获取所述通话音频数据的翻译文本，所述翻译文本为将所述通话音频数据翻译为目标语种的文本结果，所述目标语种为本端设备的使用对象所能够识别的语种；

输出控制单元，用于播放所述通话音频数据，且输出所述翻译文本。

优选地，还包括：

第一目标语种确定单元，用于响应本端设备的使用对象发起的通话语音翻译指令，确定所述通话语音翻译指令所指示的翻译后的目标语种。

优选地，还包括：

第二目标语种确定单元，用于根据本端设备的历史语音通话信息，确定本次语音通话过程所需将通话音频数据翻译成的目标语种；

和/或，

第三目标语种确定单元，用于根据本端设备的位置信息，确定本次语音通话过程所需将通话音频数据翻译成的目标语种；

和/或，

第四目标语种确定单元，用于根据本端设备关联的使用对象的对象信息，确定本次语音通话过程所需将通话音频数据翻译成的目标语种。

优选地，所述翻译文本获取单元包括：

第一翻译文本获取子单元，用于从存储通话音频数据的第一缓冲区中读取通话音频数据至第二缓冲区；

第二翻译文本获取子单元，用于从第二缓冲区中读取通话音频数据；

第三翻译文本获取子单元，用于获取对所读取的通话音频数据按照所述目标语种翻译后的翻译文本。

优选地，还包括：

通话音频段划分单元，用于在所述获取对所读取的通话音频数据按照所述目标语种翻译后的翻译文本之前，将读取的通话音频数据划分为多个通话音频段；

翻译耗时预测单元，用于预测每一通话音频段的翻译耗时；

速率调整单元，用于根据所述翻译耗时，调整从第一缓冲区中读取通话音频数据至第二缓冲区的速率。

优选地，所述输出控制单元，包括：

同步单元，用于参考每一通话音频段的翻译耗时，对每一通话音频段的播放时间进行延迟，以使每一通话音频段的播放时间，与对应通话音频段的翻译文本的输出时间同步。

优选地，所述第三翻译文本获取子单元包括：

通话文本识别单元，用于将所述通话音频数据识别为对应的通话文本；

通话文本翻译单元，用于将所述通话文本翻译成所述目标语种，得到翻译文本。

优选地，所述第三翻译文本获取子单元包括：

信息发送单元，用于将所述通话音频数据及所述目标语种发送至翻译终端；

翻译文本接收单元，用于接收所述翻译终端反馈的按照所述目标语种对所述通话音频数据的翻译文本。

优选地，所述输出控制单元输出所述翻译文本的过程，包括：

和/或，

一种语音通话设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的语音通话方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如上所述的语音通话方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的语音通话方法，可以适用于语音通话的场景。在用户进行语音通话时，本申请不仅可以对获取的通话音频数据进行播放，还可以在获取与通话音频数据对应的翻译文本后，将该翻译文本输出。相比于现有语音通话过程仅播放通话音频数据，本申请可以播放通话音频数据，还可以输出与通话音频数据对应的翻译文本，也即用户既可以听到播放的通话音频数据，也可以得到通话音频数据对应的翻译文本，大大提高了用户对通话内容的理解，进而提高了语音通话过程的沟通效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种语音通话方法流程图；

图2a-2b示例了在本端设备显示屏输出显示翻译文本的示意图；

图3a-3b示例了在拨号界面发起通话语音翻译指令示意图；

图4a-4b示例了在通话界面发起通话语音翻译指令示意图；

图5a-5b示例了在呼入等待界面发起通话语音翻译指令示意图；

图6a-6b示例了在呼出等待界面发起通话语音翻译指令示意图；

图7示例了第一缓冲区与第二缓冲区的关系示意图；

图8为本申请实施例公开的一种语音通话装置结构示意图；

图9为本申请实施例公开的一种语音通话设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的语音通话方法，可以适用于包含两个用户通过终端设备进行语音通话的场景下，为了将两个用户进行区分，分别定义该两个用户为用户A和用户B。以用户A的角度为例进行阐述，则对于两个用户使用相同的语种进行语音通话的场景下，由于用户B语速快，或用户A注意力不集中等原因，可能出现用户A没有听清用户B的通话语音的情况，此时本申请可以播放用户B通话语音，并可以输出用户B通话语音的翻译结果，以保证用户A可以正确理解通话内容。另外一种场景下，用户A和用户B可能使用不同的语种进行语音通话，由于用户A外语水平有限，可能出现无法听懂用户B的通话语音的情况，此时本申请可以播放用户B通话语音，并可以输出用户B通话语音的翻译结果，以使得用户A能够理解通话内容。再一种场景下，用户B与用户A语音通话过程中，若用户A未接通用户B的语音通话，此时用户B可以通过语音信箱给用户A发送语音留言，该语音留言作为通话语音，则用户A在看到语音信箱的留言提醒后，可以通过本端设备播放用户B的通话语音，并可以输出通话语音的翻译结果。由于本申请可以播放用户B的通话语音，并且可以输出通话语音的翻译结果，极大地提高了用户A对通话内容的理解，进而提高了与用户B进行语音通话时的沟通效率。

进一步的，本申请方法可以应用于具有语音通话功能的终端设备。接下来，结合附图1对本申请语音通话方法进行介绍，如图1示例了一种语音通话方法流程图，该方法详细包括：

步骤S100、获取语音通话过程中，对端设备发送的通话音频数据。

具体地，语音通话过程中，通话音频数据可以基于终端操作系统从下而上的架构完成传输，也即，可以从音频传输底层抓取语音通话过程中，对端设备通过通话网络传输过来的通话音频数据。则当用户进行语音通话时，本步骤中可以获取语音通话过程中，对端设备发送的通话音频数据。这里，对端设备是为了与本端设备进行区分而定义，本端设备是指用户A所使用的设备，对端设备是指与用户A进行语音通话的对象，如用户B所使用的设备。可以理解的是，本端设备和对端设备是一对相对概念。

步骤S110、获取所述通话音频数据的翻译文本。

具体地，在语音通话过程中，为了加强用户对通话音频数据的理解，可以将通话音频数据按照目标语种进行翻译，则本步骤可以获取将通话音频数据进行翻译后的翻译文本。这里，目标语种是指本端设备的使用对象所能识别的语种，翻译文本是指将通话音频数据翻译为目标语种时得到的文本结果。

示例如，用户A在与用户B语音通话过程中，由于用户A对用户B所说的英语不理解，则为了加强用户A对用户B通话音频数据的理解，本步骤可以获取将通话音频数据按照用户A所能够识别的目标语种进行翻译的翻译文本。

步骤S120、播放所述通话音频数据，且输出所述翻译文本。

具体地，在语音通话过程中，本步骤可以播放通话音频数据，还可以输出通话音频数据按照目标语种翻译后的翻译文本。

本申请实施例提供的语音通话方法，可以适用于语音通话的场景。在用户进行语音通话时，本申请不仅可以对获取的通话音频数据进行播放，还可以在获取与通话音频数据对应的翻译文本后，将该翻译文本输出。相比于现有语音通话过程仅播放通话音频数据，本申请可以播放通话音频数据，还可以输出与通话音频数据对应的翻译文本，也即用户既可以听到播放的通话音频数据，也可以得到通话音频数据对应的翻译文本，大大提高了用户对通话内容的理解，进而提高了语音通话过程的沟通效率。

进一步，本实施例介绍了上述步骤S120中，输出所述翻译文本的过程的可选实施方式。

一种可选的方式下，可以通过本端设备的显示屏输出显示翻译文本。也即，本申请可以将所述翻译文本输出至所述本端设备的显示屏，以通过所述显示屏显示所述翻译文本。

参见图2a-2b所示，其示例了在本端设备显示屏输出显示翻译文本的示意图。如图2a所示，在进行语音通话时，可以将通话音频数据按照目标语种翻译后的翻译文本，在本端设备显示屏的语音通话界面上进行输出显示。而对于不能完全显示的翻译文本，可以通过响应用户的触摸下拉滚动条操作，跳转至图2b所示的界面，将翻译文本输出显示完全。

另一种可选的方式下，可以将所述翻译文本发送至与所述本端设备关联的显示终端，以通过所述显示终端显示所述翻译文本。

具体地，与本端设备关联的显示终端可以是通过局域网、蓝牙、数据传输线等方式与本端设备建立连接的电子设备，如手机、平板、笔记本电脑等，则可以将翻译文本发送至与本端设备关联的显示终端，进而通过显示终端显示翻译文本。

示例如，用户A使用本端设备与用户B进行语音通话，则当用户A接通用户B的语音通话后，可以将与用户A使用的本端设备处于同一局域网的电子设备，如IPAD，作为与手机关联的显示终端，则用户A可以通过本端设备接听语音通话，还可以通过显示终端来显示翻译文本。通过上述通过显示终端显示翻译文本的方式，用户A在接听语音通话的同时，可以更方便地阅读通话音频数据的翻译文本。

需要说明的是，本申请可以通过本端设备的显示屏输出显示翻译文本，或者可以将翻译文本发送至与本端设备关联的显示终端，以通过显示终端显示翻译文本。除此之外，还可以在本端设备显示屏输出显示翻译文本的同时，将翻译文本发送至与本端设备关联的显示终端，以通过显示终端显示翻译文本。

进一步地，对于上述步骤S110所获取的通话音频数据的翻译文本，其是按照目标语种进行翻译的。本实施例中，介绍了几种可选的确定目标语种的方式，具体实施方式可以包括：

一种可选的方式下，可以由用户主动发出通话语音翻译指令，则本申请可以响应本端设备的使用对象发起的通话语音翻译指令，确定所述通话语音翻译指令所指示的翻译后的目标语种。

需要说明的是，本申请中本端设备的使用对象一般可以是用户。该用户语音通话过程中，可以主动发起通话语音翻译指令，则本申请可以响应用户发起的通话语音翻译指令，确定该指令所指示的翻译后的目标语种。

这里，通过响应用户主动发起通话语音翻译指令，确定通话翻译指令所指示的翻译后的目标语种的方式可以有多种，接下来介绍几种可选的方式，具体可以包括：

第一种：

通过响应用户语音发起的通话语音翻译指令，确定通话翻译指令所指示的翻译后的目标语种。

示例如，用户可以通过语音“将通话音频数据翻译成汉语”，来发起通话语音翻译指令，则本申请可以响应该语音发起的通话语音翻译指令，进而将汉语确定为通话翻译指令所指示的翻译后的目标语种。

第二种：

通过响应用户点击终端设备的指令按键发起的通话语音翻译指令，确定通话翻译指令所指示的翻译后的目标语种。

具体地，用户可以通过点击翻译对应的终端设备指令按键，发起通话语音翻译指令，则本申请可以响应该指令按键发起的通话语音翻译指令，确定通话翻译指令所指示的翻译后的目标语种。

需要说明的是，终端设备的指令按键可以设置在拨号界面，用户可以通过点击拨号界面的指令按键发起通话语音翻译指令，则本申请可以响应用户在拨号界面发起的通话语音翻译指令，确定通话语音翻译指令所指示的翻译后的目标语种。

参见图3a-3b所示，其示例了在拨号界面发起通话语音翻译指令示意图。参见图3a中，当用户打开拨号界面时，可以在拨号界面设置“是否开启翻译？”指令按键，并给出“是”和“否”两个可选的选项，当用户点击拨号界面中的“是”选项时，表示用户想要看到通话音频数据按照目标语种翻译后的翻译文本，则终端设备会响应用户点击“是”的操作，跳转至图3b所示的界面。进而在图3b中，用户在给出的所有可选语种中确定目标语种。

此外，终端设备的指令按键还可以设置在语音通话界面，用户可以通过点击语音通话界面的指令按键发起通话语音翻译指令，则本申请可以响应用户在语音通话界面发起的通话语音翻译指令，确定通话语音翻译指令所指示的翻译后的目标语种。这里，语音通话界面可以包括通话界面、呼入等待界面及呼出等待界面。

当语音通话界面为通话界面时，可以参见图4a-4b所示，其示例了在通话界面发起通话语音翻译指令示意图。当接通语音通话后，可以在图4a所示的通话界面设置“开启翻译”指令按键，当用户点击通话界面中的指令按键时，表示用户想要看到通话音频数据按照目标语种翻译后的翻译文本，则终端设备会响应用户点击“开启翻译”的操作，跳转至图4b所示的界面。进而在图4b所示的通话界面中，用户可以在给出的所有可选语种中确定目标语种。

当语音通话界面为呼入等待界面时，可以参见图5a-5b所示，其示例了在呼入等待界面发起通话语音翻译指令示意图。当有语音通话呼入时，可以在图5a所示的呼入等待界面设置“开启翻译”指令按键，当用户点击呼入等待界面中的指令按键时，表示用户想要看到通话音频数据按照目标语种翻译后的翻译文本，则终端设备会响应用户点击“开启翻译”的操作，跳转至图5b所示的界面。进而在图5b所示的呼入等待界面中，用户可以在给出的所有可选语种中确定目标语种。

当语音通话界面为呼出等待界面时，可以参见图6a-6b所示，其示例了在呼出等待界面发起通话语音翻译指令示意图。当用户拨出语音通话且未接通时，可以在图6a中的呼出等待界面设置“开启翻译”指令按键，当用户点击呼出等待界面中的指令按键时，表示用户想要看到通话音频数据按照目标语种翻译后的翻译文本，则终端设备会响应用户点击“开启翻译”的操作，跳转至图6b所示的界面。进而在图6b所示的呼出等待界面中，用户可以在给出的所有可选语种中确定目标语种。

另一种可选的方式下，还可以根据本端设备的信息，确定目标语种，这里，根据本端设备的信息，确定目标语种的方式可以有多种，接下来介绍几种可选的方式，具体可以包括：

第一种：

根据本端设备的历史语音通话信息，确定本次语音通话过程所需将通话音频数据翻译成的目标语种。

具体地，用户使用本端设备时会产生历史语音通话信息，则可以分析该历史语音通话信息，确定本次语音通话过程所需将通话音频数据翻译成的目标语种。这里，历史语音通话信息可以包括历史确定的目标语种，及历史语音通话对象、内容等。本申请可以统计历史语音通话中，用户所确定的目标语种，当发现用户将某语种作为目标语种的概率高于预定概率时，可以将该语种确定为本次语音通话过程中，所需将通话音频数据翻译成的目标语种。此外可以统计历史语音通话中，与本端设备进行通话的对象所使用的语种，或本端设备的使用用户在历史语音通话中所使用的语种，当发现某语种的使用概率高于预设概率时，可以将该语种确定为本次语音通话过程中，所需将通话音频数据翻译成的目标语种。

示例如，预设概率为90％，则当统计到本端设备历史语音通话中所勾选的目标语种为汉语的概率大于90％时，或者当与本端设备进行通话的对象使用汉语交流的概率大于90％时，可以将汉语作为本次语音通话过程所需将通话音频数据翻译成的目标语种。

第二种：

根据本端设备的位置信息，确定本次语音通话过程所需将通话音频数据翻译成的目标语种。

具体地，本端设备所处的位置由使用对象所处的位置决定，因此可以检测本端设备的位置信息，进而基于此确定使用本端设备的对象所能识别的语种，确定为本次语音通话过程所需将通话音频数据翻译成的目标语种。

示例如，检测到本端设备的位置处于为中国，则本端设备很可能是被中国人所使用，因此可以将中国人所使用的汉语语种确定为本次语音通话过程所需将通话音频数据翻译成的目标语种。

第三种：

具体地，对象信息可以是使用对象的用户画像，可以包括兴趣爱好、朋友圈信息、职业、等信息。对象信息与使用对象本次语音通话中所想听到的目标语种可能存在关联，因此本实施例可以基于使用对象的对象信息，来确定本次语音通话过程所需将通话音频数据翻译成的目标语种。

示例如，通过分析对象信息，发现使用对象最近发表的朋友圈信息都是使用英文，因此可以将英文确定为本次语音通话过程所需将通话音频数据翻译成的目标语种。

第四种：

根据本端设备出厂时设置的目标语种，确定本次语音通话过程所需将通话音频数据翻译成的目标语种。

具体地，可以在本端设备出厂时即设置好需要翻译成的目标语种，进而可以将检测到的出厂设置的目标语种，作为本次语音通话过程所需将通话音频数据翻译成的目标语种。

示例如，生产本端设备时，即指定本端设备在语音通话中需要翻译成的目标语种为汉语，则本端设备出厂后的每次语音通话，均需将通话音频数据翻译成汉语。

需要说明的是，可以采用上述介绍的四种确定目标语种的方式中的任意一种来确定目标语种，还可以将上述四种方式进行结合，确定目标语种，也即同时考虑历史语音通话信息、位置信息、关联的使用对象的对象信息及出厂时设置的目标语种等四种方式中的至少两种方式，根据该至少两种方式来确定目标语种。可以理解的是，上述实施例仅仅示例了四种可选的方式，除此之外，本申请还可以采用其他方式，确定目标语种，这里不再一一介绍。

在本申请的另一个实施例中，介绍上述步骤S110，获取所述通话音频数据的翻译文本的过程。

首先，对本申请实施例提供的一种数据存储架构进行介绍。

本实施例可以提供一个缓冲区用于存储获取的通话音频数据，这里可以将该缓冲区定义为第一缓冲区。也即，本端设备中可以设置一第一缓冲区，用于存储对端设备发送的通话音频数据。而考虑到在对通话音频数据进行翻译的过程中存在翻译耗时，因此可以提供另一个缓冲区用于从第一缓冲区中拷贝通话音频数据至该缓冲区，并将拷贝的通话音频数据进行存储，该存储的通话音频数据用于供翻译使用，这里可以将该另一个缓冲区定义为第二缓冲区。

基于此，上述步骤S110的具体实施方式可以包括：

S1、从存储通话音频数据的第一缓冲区中读取通话音频数据至第二缓冲区。

具体地，为了完成通话音频数据的传输及翻译，可以设置第一缓冲区，用于存储语音通话过程中传输过来的通话音频数据。则本步骤中可以将第一缓冲区中的通话音频数据读取至第二缓冲区，以供后续对第二缓冲区中的通话音频数据进行翻译时使用。

参见图7所示，其示例了第一缓冲区与第二缓冲区的关系示意图。显然，第一缓冲区与第二缓冲区间可以进行数据传输，也即可以将第一缓冲区中的通话音频数据读入第二缓冲区。

S2、从第二缓冲区中读取通话音频数据。

具体地，考虑到对通话音频数据进行翻译需要一定的翻译耗时，因此还可以提供第二缓冲区，用于拷贝第一缓冲区的通话音频数据，并将拷贝的通话音频数据进行存储。则本步骤中可以读取第二缓冲区中的通话音频数据，以供有翻译需要时将通话音频数据送入翻译。

仍参见图7所示，显然，第二缓冲区可以与翻译服务模块进行数据传输，也即可以从第二缓冲区中读取通话音频数据，并通过翻译服务模块对读取的通话音频数据进行翻译。

S3、获取对所读取的通话音频数据按照所述目标语种翻译后的翻译文本。

具体地，可以通过翻译服务模块对从第二缓冲区中读取的通话音频数据按照目标语种进行翻译，得到翻译文本，则本步骤可以获取对所读取的通话音频数据按照目标语种翻译后的翻译文本。

进一步，考虑到通话音频数据不同，对其进行翻译的耗时时长也不同。可以理解的是，通话音频数据越短且越简单，翻译该通话音频数据的耗时时长越短；反之，通话音频数据越长且越复杂，翻译该通话音频数据的耗时时长越长。而当翻译通话语音数据的耗时时长较长时，如果从第一缓冲区中读取通话音频数据至第二缓冲区的速率过快，则第二缓冲区中存储的未被翻译的通话音频数据将持续增多。由于第二缓冲区的内存空间有限，未被翻译的通话音频数据可能被覆盖，导致翻译文本出错。基于此，本申请还可以在S3，获取对所读取的通话音频数据按照所述目标语种翻译后的翻译文本之前，根据翻译通话音频数据所消耗的时长，实时调整从第一缓冲区中读取通话音频数据至第二缓冲区的速率，该实施过程具体可以包括：

A1、将读取的通话音频数据划分为多个通话音频段。

具体地，可以通过语音活动检测(Voice Activity Detection，VAD)技术对读取的通话音频数据进行端点检测，将其划分为多个通话音频段。

A2、预测每一通话音频段的翻译耗时。

具体地，通话音频段不同时，翻译耗时也不同，则可以针对每一通话音频段，先对其进行预处理，去除其中的干扰音频数据，如停顿、口语语气词等，并对去除干扰音频数据后的剩余通话音频段进行频谱分析，进一步基于通话音频段的频谱分析，预测通话音频段的翻译耗时。

A3、根据所述翻译耗时，调整从第一缓冲区中读取通话音频数据至第二缓冲区的速率。

具体地，在得到每一通话音频段的翻译耗时后，可以根据该翻译耗时，实时调整从第一缓冲区中读取通话音频数据至第二缓冲区的速率。其中，调整原则可以包括：每一通话音频段的翻译耗时越长，从第一缓冲区读取通话音频数据至第二缓冲区的速率越慢；反之，每一通话音频段的翻译耗时越短，从第一缓冲区读取通话音频数据至第二缓冲区的速率越快。

需要说明的是，本申请中，S1-S3及A1至A3的实施过程可以同时进行，也即本申请中，从第一缓冲区中拷贝通话音频数据至第二缓冲区的过程，对通话音频段进行预处理的过程，及通过翻译服务模块对从第二缓冲区中读取的通话音频数据按照目标语种进行翻译的过程可以是三个并行的阶段，即可以同时进行。通过上述并行的实施过程，可以有效减少本申请翻译过程的总耗时，进而提高翻译过程的效率。

进一步的，考虑到播放的通话音频数据可能会出现与输出的翻译文本不同步的情况，而用户更希望在播放通话音频数据的同时，实时输出对应的翻译文本。因此可以根据翻译通话音频数据的耗时，实时调整通话音频数据的播放时间，基于此，本申请实施例介绍了上述步骤S120，播放所述通话音频数据，且输出所述翻译文本的可选实施过程，该实施过程具体可以包括：

具体地，每一通话音频段都存在翻译耗时，则为了在播放每一通话音频段的同时，实时输出对应的翻译文本，需要根据每一通话音频段的翻译耗时，将每一通话音频段的播放时间进行延迟，从而使每一通话音频段的播放时间，与对应的翻译文本的输出时间同步。

本申请的另一个实施例介绍了上述S3，获取对所读取的通话音频数据按照所述目标语种翻译后的翻译文本的几种可选实施方式，具体实施过程可以包括：

第一种：

本端设备可以具备翻译功能，具体地可以是本端设备包含的翻译服务模块，因此可以由本端设备对通话音频数据进行翻译，得到翻译文本，该过程具体可以包括：

B1、将所述通话音频数据识别为对应的通话文本。

可以理解的是，直接对通话音频数据进行翻译较为复杂，因此在对通话音频数据按照目标语种进行翻译前，本步骤首先由本端设备将通话音频数据进行语音识别，得到通话音频数据的文本结果，作为与通话音频数据对应的通话文本。

B2、将所述通话文本翻译成所述目标语种，得到翻译文本。

具体地，目标语种为用户所能识别的语种，则本端设备可以按照目标语种，对与通话音频数据对应的通话文本进行翻译，得到用户所能识别的文本结果，作为与通话文本对应的翻译文本。

第二种：

本端设备不进行具体翻译操作，而是将通话音频数据送往具备翻译功能的翻译终端，由后者对通话音频数据进行翻译，得到翻译结果，并将该翻译结果反馈至正在进行语音通话的本端设备，该过程具体可以包括：

C1、将所述通话音频数据及所述目标语种发送至翻译终端。

具体地，翻译终端在对通话音频数据进行翻译时，需要得到该通话音频数据及要翻译成的目标语种，因此可以将需要进行翻译的通话音频数据及需要翻译成的目标语种发送至翻译终端，以供在后续步骤中，由翻译终端按照目标语种，将通话音频数据翻译成用户所能识别目标语种的文本结果。

C2、接收所述翻译终端反馈的按照所述目标语种对所述通话音频数据的翻译文本。

具体地，当翻译终端对获取的通话音频数据进行翻译后，可以得到与通话音频数据对应的翻译文本，进而可以将该翻译文本发送至本端设备。则本步骤中可以接收翻译终端反馈的翻译文本，该翻译文本即为按照目标语种对通话音频数据进行翻译得到的文本结果。

下面对本申请实施例提供的语音通话装置进行描述，下文描述的语音通话装置与上文描述的语音通话方法可相互对应参照。

参见图8，图8为本申请实施例公开的一种语音通话装置结构示意图。

如图8所示，该装置可以包括：

通话音频数据获取单元11，用于获取语音通话过程中，对端设备发送的通话音频数据；

翻译文本获取单元12，用于获取所述通话音频数据的翻译文本，所述翻译文本为将所述通话音频数据翻译为目标语种的文本结果，所述目标语种为本端设备的使用对象所能够识别的语种；

输出控制单元13，用于播放所述通话音频数据，且输出所述翻译文本。

可选的，上述输出控制单元输出所述翻译文本的过程，可以包括：

和/或，

可选的，本申请实施例公开的语音通话装置还可以确定目标语种，本申请的一个实施例示例了几种可选的确定目标语种的装置结构，分别如下：

第一种，语音通话装置还可以包括：

第二种，语音通话装置还可以包括：

第二目标语种确定单元，用于根据本端设备的历史语音通话信息，确定本次语音通话过程所需将通话音频数据翻译成的目标语种。

第三种，语音通话装置还可以包括：

第三目标语种确定单元，用于根据本端设备的位置信息，确定本次语音通话过程所需将通话音频数据翻译成的目标语种。

第四种，语音通话装置还可以包括：

需要说明的是，语音通话装置还可以包括上述第一目标语种确定单元、第二目标语种确定单元、第三目标语种确定单元及第四目标语种确定单元中的一个或多个。也即，语音通话装置还可以包括第一目标语种确定单元，和/或，第二目标语种确定单元，和/或，第三目标语种确定单元，和/或，第四目标语种确定单元。

可选的，本申请的另一个实施例对上述翻译文本获取单元进行介绍，具体可以包括：

可选的，本申请的语音通话装置还可以包括：

通话音频段划分单元，用于在所述获取对所读取的通话音频数据按照所述目标语种翻译后的翻译文本之前，读取的通话音频数据划分为多个通话音频段；

翻译耗时预测单元，用于预测每一通话音频段的翻译耗时；

可选的，考虑到用户更希望在播放通话音频数据的同时，实时输出对应的翻译文本，因此上述输出控制单元可以包括：

本申请中可以通过用户所使用的本端设备对通话音频数据进行翻译，也可以通过第三方的翻译终端对通话音频数据进行翻译，则：

可选的，当通过用户所使用的本端设备对通话音频数据进行翻译时，上述第三翻译文本获取子单元可以包括：

进一步地，当通过第三方的翻译终端对通话音频数据进行翻译时，上述第三翻译文本获取子单元可以包括：

本申请实施例提供的语音通话装置可应用于语音通话设备，如PC终端、云平台、服务器及服务器集群等。可选的，图9示出了语音通话设备的硬件结构框图，参照图9，语音通话设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取语音通话过程中，对端设备发送的通话音频数据；

播放所述通话音频数据，且输出所述翻译文本。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取语音通话过程中，对端设备发送的通话音频数据；

播放所述通话音频数据，且输出所述翻译文本。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音通话方法，其特征在于，包括：

获取语音通话过程中，对端设备发送的通话音频数据；

播放所述通话音频数据，且输出所述翻译文本；

在所述获取所述通话音频数据的翻译文本之前，还包括确定所述目标语种的过程，确定目标语种的过程包括：

响应本端设备的使用对象发起的通话语音翻译指令，确定所述通话语音翻译指令所指示的翻译后的目标语种；

和/或，

根据本端设备关联的使用对象的对象信息，确定本次语音通话过程所需将通话音频数据翻译成的目标语种；

其中，所述获取所述通话音频数据的翻译文本，包括：从存储通话音频数据的第一缓冲区中读取通话音频数据至第二缓冲区；从第二缓冲区中读取通话音频数据；获取对所读取的通话音频数据按照所述目标语种翻译后的翻译文本；

其中，在所述获取对所读取的通话音频数据按照所述目标语种翻译后的翻译文本之前，该方法还包括：将读取的通话音频数据划分为多个通话音频段；预测每一通话音频段的翻译耗时；根据所述翻译耗时，调整从第一缓冲区中读取通话音频数据至第二缓冲区的速率，其中，调整原则可以包括：每一通话音频段的翻译耗时越长，从第一缓冲区读取通话音频数据至第二缓冲区的速率越慢；反之，每一通话音频段的翻译耗时越短，从第一缓冲区读取通话音频数据至第二缓冲区的速率越快；

其中，所述播放所述通话音频数据，且输出所述翻译文本，包括：参考每一通话音频段的翻译耗时，对每一通话音频段的播放时间进行延迟，以使每一通话音频段的播放时间，与对应通话音频段的翻译文本的输出时间同步。

2.根据权利要求1所述的方法，其特征在于，所述获取对所读取的通话音频数据按照所述目标语种翻译后的翻译文本，包括：

将所述通话音频数据识别为对应的通话文本；

将所述通话文本翻译成所述目标语种，得到翻译文本。

3.根据权利要求1所述的方法，其特征在于，所述获取对所读取的通话音频数据按照所述目标语种翻译后的翻译文本，包括：

将所述通话音频数据及所述目标语种发送至翻译终端；

4.根据权利要求1所述的方法，其特征在于，所述输出所述翻译文本，包括：

和/或，

5.一种语音通话装置，其特征在于，包括：

输出控制单元，用于播放所述通话音频数据，且输出所述翻译文本；

所述语音通话装置还包括：

第一目标语种确定单元，用于响应本端设备的使用对象发起的通话语音翻译指令，确定所述通话语音翻译指令所指示的翻译后的目标语种；

和/或，

第四目标语种确定单元，用于根据本端设备关联的使用对象的对象信息，确定本次语音通话过程所需将通话音频数据翻译成的目标语种；

其中，所述翻译文本获取单元包括：

第三翻译文本获取子单元，用于获取对所读取的通话音频数据按照所述目标语种翻译后的翻译文本；

其中，还包括：

翻译耗时预测单元，用于预测每一通话音频段的翻译耗时；

速率调整单元，用于根据所述翻译耗时，调整从第一缓冲区中读取通话音频数据至第二缓冲区的速率；

其中，所述输出控制单元，包括：

6.根据权利要求5所述的装置，其特征在于，所述第三翻译文本获取子单元包括：

7.根据权利要求5所述的装置，其特征在于，所述第三翻译文本获取子单元包括：

8.根据权利要求5所述的装置，其特征在于，所述输出控制单元输出所述翻译文本的过程，包括：

和/或，

9.一种语音通话设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-4中任一项所述的语音通话方法的各个步骤。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-4中任一项所述的语音通话方法的各个步骤。