CN114267358B

CN114267358B - 音频处理方法、装置、设备及存储介质

Info

Publication number: CN114267358B
Application number: CN202111555800.6A
Authority: CN
Inventors: 郝伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2023-12-12
Anticipated expiration: 2041-12-17
Also published as: CN114267358A

Abstract

本公开提供了音频处理方法、装置、设备、存储介质及程序，涉及人工智能领域，尤其涉及语音技术、自然语言处理技术领域。具体实现方案为：终端设备获取待翻译的第一音频段，所述第一音频段为第一语言的音频段；若所述第一音频段为首个音频段或者已接收到第二音频段对应的第二翻译结果，则通过websocket连接向服务器发送所述第一音频段，所述第二音频段为所述第一音频段的前一个音频段；通过所述websocket连接接收所述服务器发送的所述第一音频段对应的第一翻译结果，所述第一翻译结果为第二语言的音频段、或者为所述第二语言的文本段。上述过程可以提高翻译实时性。

Description

音频处理方法、装置、设备及存储介质

技术领域

本公开涉及人工智能领域中的语音技术、自然语言处理技术领域，尤其涉及一种音频处理方法、装置、设备、存储介质及程序。

背景技术

随着人工智能技术的发展，越来越多的终端设备支持翻译功能。

通常，由于终端设备的计算能力有限，翻译功能需要终端设备与服务器进行交互实现。示例性的，终端设备将待翻译的音频发送至服务器，服务器对音频进行识别处理以及翻译处理，得到翻译结果，并将翻译结果提供给终端设备。

然而，实际应用中，翻译的实时性较低。如何提高翻译的实时性，是亟待解决的技术问题。

发明内容

本公开提供了一种音频处理方法、装置、设备、存储介质及程序。

根据本公开的第一方面，提供了一种音频处理方法，包括：

获取待翻译的第一音频段，所述第一音频段为第一语言的音频段；

若所述第一音频段为首个音频段或者已接收到第二音频段对应的第二翻译结果，则通过websocket连接向服务器发送所述第一音频段，所述第二音频段为所述第一音频段的前一个音频段；

通过所述websocket连接接收所述服务器发送的所述第一音频段对应的第一翻译结果，所述第一翻译结果为第二语言的音频段、或者为所述第二语言的文本段。

根据本公开的第二方面，提供了一种音频处理方法，包括：

通过websocket连接接收终端设备发送的待翻译的第一音频段，所述第一音频段为第一语言的音频段；

将所述第一音频段转换为所述第一语言的文本段；

将所述第一语言的文本段翻译为第二语言的文本段；

将所述第二语言的文本段确定为所述第一音频段对应的第一翻译结果，或者，将所述第二语言的文本段转换为所述第二语言的音频段，将所述第二语言的音频段确定为所述第一音频段对应的第一翻译结果；

通过所述websocket连接向所述终端设备发送所述第一翻译结果。

根据本公开的第三方面，提供了一种音频处理装置，包括：

获取模块，用于获取待翻译的第一音频段，所述第一音频段为第一语言的音频段；

发送模块，用于若所述第一音频段为首个音频段或者已接收到第二音频段对应的第二翻译结果，则通过websocket连接向服务器发送所述第一音频段，所述第二音频段为所述第一音频段的前一个音频段；

接收模块，用于通过所述websocket连接接收所述服务器发送的所述第一音频段对应的第一翻译结果，所述第一翻译结果为第二语言的音频段、或者为所述第二语言的文本段。

根据本公开的第四方面，提供了一种音频处理装置，包括：

接收模块，用于通过websocket连接接收终端设备发送的待翻译的第一音频段，所述第一音频段为第一语言的音频段；

识别处理模块，用于将所述第一音频段转换为所述第一语言的文本段；

翻译处理模块，用于将所述第一语言的文本段翻译为第二语言的文本段；

确定模块，用于将所述第二语言的文本段确定为所述第一音频段对应的第一翻译结果，或者，将所述第二语言的文本段转换为所述第二语言的音频段，将所述第二语言的音频段确定为所述第一音频段对应的第一翻译结果；

发送模块，用于通过所述websocket连接向所述终端设备发送所述第一翻译结果。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法，或者，执行第二方面所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面所述的方法，或者，执行第二方面所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的一种应用场景的示意图；

图2为本公开实施例提供的一种通信链路的示意图；

图3为本公开实施例提供的一种音频翻译过程示意图；

图4为本公开实施例提供的另一种通信链路的示意图；

图5为本公开实施例提供的一种音频处理方法的流程示意图；

图6为本公开实施例提供的另一种音频处理方法的流程示意图；

图7为本公开实施例提供的又一种音频处理方法的流程示意图；

图8为本公开实施例提供的音频处理过程中缓存队列的示意图；

图9为本公开实施例提供的又一种音频处理方法的流程示意图；

图10为本公开实施例提供的一种显示界面的示意图；

图11为本公开实施例提供的一种音频处理装置的结构示意图；

图12为本公开实施例提供的另一种音频处理装置的结构示意图；

图13为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

为了便于理解本公开的技术方案，首先结合图1对本公开的应用场景进行说明。

图1为本公开实施例提供的一种应用场景的示意图。如图1所示，该应用场景中包括：终端设备和服务器。终端设备将待翻译音频发送至服务器。服务器对接收到的音频进行识别处理和翻译处理，得到翻译结果，并将翻译结果发送至终端设备。进而，终端设备可以向用户展示翻译结果。

本公开实施例中，终端设备也可以称为用户端设备，包括但不限于：智能手机、笔记本电脑、平板电脑、手持终端、车载终端、智能家居设备、智能穿戴设备等。服务器为用于向终端设备提供语音识别服务、翻译服务等的电子设备。服务器可以是普通服务器或者云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

一种可能的实现方式中，终端设备与服务器之间可以采用超文本传输协议(HyperText Transfer Protocol，HTTP)进行通信。终端设备作为HTTP协议的客户端，服务器作为HTTP协议的服务端。下面结合图2和图3对终端设备和服务器之间的交互方式进行详细说明。

示例性的，图2为本公开实施例提供的一种通信链路的示意图。如图2所示，终端设备和服务器之间建立有两条HTTP连接，分别为第一HTTP连接和第二HTTP连接。其中，第一HTTP连接用于终端设备向服务器发送待翻译音频。第二HTTP连接用于服务器向终端设备发送翻译结果。

图3为本公开实施例提供的一种音频翻译过程示意图。如图3所示，交互过程包括：

S301：终端设备通过第一HTTP连接向服务器发送待翻译的音频1。

服务器接收到音频1之后，对音频1进行识别处理以及翻译处理，得到音频1的翻译结果。

S302：终端设备通过第二HTTP连接向服务器发送结果请求，结果请求中包括音频1的标识。

S303：服务器通过第二HTTP连接向终端设备发送音频1的翻译结果。

应理解，由于HTTP协议规定只能由客户端发起通信，因此，服务器在得到音频1的翻译结果之后，不能主动向终端设备发送该翻译结果，而需要终端设备先向服务器发送音频1对应的结果请求，服务器接收到该结果请求后，才能向终端设备发送音频1的翻译结果。

S304：终端设备通过第一HTTP连接向服务器发送待翻译的音频2。

服务器接收到音频2之后，对音频2进行识别处理以及翻译处理，得到音频2的翻译结果。

S305：终端设备通过第二HTTP连接向服务器发送结果请求，结果请求中包括音频2的标识。

S306：服务器通过第二HTTP连接向终端设备发送音频2的翻译结果。

上述方式中，第一HTTP连接用于终端设备向服务器发送待翻译的音频。第二HTTP连接用于服务器向终端设备发送音频的翻译结果。由于两条HTTP链路相互独立互不影响，因此，终端设备在通过第一HTTP连接向服务器发送待翻译的音频1(即执行S301)之后，可以立即向服务器发送待翻译的音频2(即执行S304)，即S304可以在S302之前执行，或者与S302同时执行。

由于HTTP协议规定只能由客户端发起通信。因此，上述交互过程中，服务器得到音频的翻译结果之后，不能立即向终端设备发送翻译结果，而是需要对该翻译结果进行缓存，在等待接收到终端设备发送的结果请求之后，根据结果请求中携带的音频标识，将对应的翻译结果发送至终端设备。可见，上述交互过程使得翻译的实时性较低。

一些可能的实现方式中，为了尽可能保证翻译过程的实时性，终端设备通过第一HTTP连接向服务器发送音频1之后，需要及时地通过第二HTTP连接向服务器发送音频1对应的结果请求。

一些场景中，由于服务器对音频1进行识别和翻译处理需要一定的时间，当服务器接收到音频1对应的结果请求时，有可能还没有得到音频1的翻译结果。因此，终端设备还需要再次通过第二HTTP连接向服务器发送音频1的结果请求。这样，有可能出现音频1的结果请求和音频2的结果请求出现交叉的情况，即服务器先接收到音频2对应的结果请求，再接收到重发的音频1对应的结果请求。

另一些场景中，由于网络中不可避免地存在抖动和/或延迟，也可能出现音频1的结果请求和音频2的结果请求出现交叉的情况，即服务器先接收到音频2对应的结果请求，再接收到音频1对应的结果请求。

上述场景中，为了保证翻译时序的准确性，服务器除了需要对各音频的翻译结果进行缓存之外，还需要对各音频的翻译结果的发送时序进行维护，这样，导致服务器的实现复杂度较高。

另外，由于终端设备与服务器之间需要维护两条HTTP链路，当其中任意一条HTTP链路出现问题时，均会导致翻译过程中断，使得翻译过程通信链路的可靠性较低。

由此可见，采用如图2和图3所示的交互方式，为了保证翻译的实时性，服务器的实现复杂度较高，并且，翻译过程通信链路的可靠性较低。

本公开实施例提供一种音频处理方法、装置、设备、存储介质以及程序，应用于人工智能领域中的语音技术、自然语言处理技术领域，能够以低复杂度的实现方式提高翻译的实时性，并提高翻译过程通信链路的可靠性。

本公开技术方案中，终端设备和服务器之间可以采用websocket协议进行通信。图4为本公开实施例提供的另一种通信链路的示意图。如图4所示，终端设备和服务器之间建立一条websocket连接。终端设备可以通过该websocket连接向服务器发送待翻译音频，服务器在得到翻译结果后，可以通过该websocket连接主动向终端设备推送翻译结果。

由于websocke连接为双工链路，使得服务器在得到翻译结果之后，可以及时向终端设备发送翻译结果，提高了实时性；这样，服务器无需对各音频的翻译结果进行缓存，也无需额外维护各音频的翻译结果的发送时序，从而，降低了服务器的实现复杂度。另外，由于终端设备和服务器之间只需要建立一条链路，降低了链路故障的风险，还提高了通信链路的可靠性。

下面结合实施例对本公开提供的技术方案进行详细描述。下面几个具体的实施例可以相互结合，对于相同或者相似的概念或过程，在某些实施例中可能不再赘述。

图5为本公开实施例提供的一种音频处理方法的流程示意图。如图5所示，本实施例的方法包括：

S501：终端设备获取待翻译的第一音频段，第一音频段为第一语言的音频段。

本实施例应用于翻译场景，例如，将第一语言翻译为第二语言，第二语言与第一语言不同。例如，第一语言可以为中文，第二语言可以英文。又例如，第一语言可以为英文，第二语言可以为中文。又例如，第一语言可以为中文，第二语言可以为日文。应理解，本实施例对于第一语言和第二语言不做限定，只要第一语言和第二语言不同即可。

本实施例中，待翻译的内容为音频形式。例如，待翻译的内容可以是终端设备采集到的用户的一段语音，或者，待翻译的内容可以是存储在终端设备中的一段音频，或者，待翻译的内容还可以是终端设备从其他设备接收到的一段音频。

本实施例中，可以对待翻译的内容进行分段翻译。示例性的，将待翻译的内容划分为多个音频段，终端设备依次将每个音频段发送给服务器进行翻译处理，这样可以提高翻译的实时性。

应理解的是，本实施例S501至S505描述的是其中一个音频段的处理过程。当存在多个音频段时，需要针对每个音频段循环执行本实施例的方法，直至所有音频段均处理完成。为了描述方便，本公开实施例中，将本轮所需处理的音频段称为第一音频段。第一音频段可以为多个音频段中的任意一个音频段。

本公开实施例中，将一个文字或者单词对应的音频称为一个音节。第一音频段中可以包括多个音节。例如，第一音频段为可以一句话对应的语音，比如：今天天气怎么样？

下面结合几种可能的场景，详细说明终端设备如何获取第一音频段。

第一种可能的场景中，终端设备可以对其存储的音频文件进行翻译。具体而言，终端设备在预设存储空间中获取待翻译的音频文件；在音频文件中获取第一音频段，第一音频段的时长为预设时长，或者，第一音频段的大小为预设大小。

示例性的，终端设备可以按照预设时长(例如3s或者5s或者10s等)将音频文件划分为多个音频段，按照多个音频段在音频文件中的顺序，依次将每个音频段确定为第一音频段。或者，终端设备可以按照预设大小(例如1k字节或者2k字节)将音频文件划分为多个音频段，按照多个音频段在音频文件中的顺序，依次将每个音频段确定为第一音频段。

第二种可能的场景中，终端设备可以采集用户的语音，并对用户的语音进行实时翻译。具体而言，终端设备设置有麦克风。终端设备可以通过麦克风接收用户输入音频信息。终端设备根据音频信息中每两个相邻的音节之间的停顿时长，在音频信息中确定第一音频段。其中，假设第二音频段为第一音频段的前一个音频段，第三音频段为第一音频段的后一个音频音段，第一音频段与第二音频段之间的停顿时长大于或等于预设阈值，第一音频段与第三音频段之间的停顿时长大于或者等于预设阈值。第一音频段内部各音节之间的停顿时长小于预设阈值。

示例性的，终端设备在接收用户输入的音频信息的过程中，对各音节之间的停顿时长进行检测，根据检测出的停顿时长，将音频信息划分为多个音频段。举例而言，假设用户输入的音频信息为：“今天天气怎么样？会下雨吗？”当终端设备接收到“今天天气怎么样？会”时，终端设备检测到“样”与“会”之间的停顿时长大于或者等于预设时长，因此，将“样”与“会”之间设置为分割点，也就是说，将“今天天气怎么样”作为第一音频段。

第三种可能的场景中，终端设备可以从预设设备接收音频，并对接收到的音频进行实时翻译。示例性的，上述预设设备可以为耳机、手机、音箱等。终端设备与预设设备通信连接，终端设备可以接收预设设备发送的音频信息。终端设备根据音频信息中每两个相邻的音节之间的停顿时长，在音频信息中确定第一音频段。应理解，该场景的实现方式与上述第二种场景类似，此处不做赘述。

S502：若第一音频段为首个音频段或者已接收到第二音频段对应的第二翻译结果，则终端设备通过websocket连接向服务器发送第一音频段，第二音频段为第一音频段的前一个音频段。

相应的，服务器通过websocket连接接收终端设备发送的第一音频段。

本实施例中，终端设备和服务器之间的通信链路如图4所示，即，终端设备和服务器之间建立一条websocket连接。终端设备可以通过该websocket连接向服务器发送第一音频段。

其中，首个音频段是指一个翻译场景中的第一个音频段。终端设备在一个翻译场景中可以连续翻译多个音频段。例如，首个音频段可以是用户打开终端设备的翻译功能(例如点击“开始翻译”按钮)之后终端设备获取的第一个音频段。

本实施例中，若第一音频段为本次翻译场景的首个音频段，则终端设备直接通过websocket连接向服务器发送第一音频段。若第一音频段不是本次翻译场景的首个音频段，说明终端设备曾向服务器发送过其他音频段。将终端设备向服务器发送的最近一个音频段称为第二音频段，即，第二音频段为第一音频段的前一个音频段。若终端设备已接收到第二音频段对应的第二翻译结果，则通过websocket连接向服务器发送第一音频段。

本实施例中，终端设备获取到第一音频段之后，若第一音频段不是首个音频段，则在接收到上一个音频段对应的第二翻译结果的情况下，才通过websocket连接向服务器发送第一音频段。这样，保证了各音频段之间翻译结果的时序性。

S503：服务器将第一音频段转换为第一语言的文本段。

示例性的，服务器可以采用自然语言处理技术，对第一音频段进行语音识别处理，得到第一语言的文本段。

S504：服务器将第一语言的文本段翻译为第二语言的文本段。

举例而言，假设第一语言为中文，第二语言为英文，第一音频段为“今天天气怎么样”。服务器对第一音频段进行语音识别处理，得到第一语言的文本段“今天天气怎么样”。进一步的，服务器对该文本段进行翻译处理，得到第二语言的文本段“What's the weatherlike today”。该第二语言的文本段即为第一音频段对应的第一翻译结果。

S505：服务器通过websocket连接向终端设备发送第二语言的文本段。

相应的，终端设备通过websocket连接接收第二语言的文本段。

一些可能的实现方式中，终端设备接收到第二语言的文本段之后，可以显示第二语言的文本段，或者，对第二语言的文本段进行语音转换处理，得到第二语言的音频段，播放所述第二语言的音频段。这样，用户可以看到或者听到第一音频段对应的第一翻译结果。

本实施例提供的音频处理方法中，终端设备和服务器之间通过websocket连接进行交互，由于websocke连接为双工链路，使得服务器在得到翻译结果之后，可以及时向终端设备发送翻译结果，提高了翻译实时性；这样，服务器无需对各音频的翻译结果进行缓存，也无需额外维护各音频的翻译结果的发送时序，从而，降低了服务器的实现复杂度。另外，由于终端设备和服务器之间只需要建立一条通信链路，降低了链路故障的风险，还提高了通信链路的可靠性。

图6为本公开实施例提供的另一种音频处理方法的流程示意图。如图6所示，本实施例的方法包括：

S601：终端设备获取待翻译的第一音频段，第一音频段为第一语言的音频段。

S602：若第一音频段为首个音频段或者已接收到第二音频段对应的第二翻译结果，则终端设备通过websocket连接向服务器发送第一音频段，第二音频段为第一音频段的前一个音频段。

S603：服务器将第一音频段转换为第一语言的文本段。

S604：服务器将第一语言的文本段翻译为第二语言的文本段。

S605：服务器将第二语言的文本段转换为第二语言的音频段。

S606：服务器通过websocket连接向终端设备发送第二语言的音频段。

相应的，终端设备通过websocket连接接收服务器发送的第二语言的音频段。终端设备可以播放该第二语言的音频段，从而，用户可以听到第一音频段的翻译结果。

本实施例与图5所示实施例类似，不同之处在于，服务器接收到第一音频段，将第一音频段转换为第一语言的文本段，将第一语言的文本段翻译为第二语言的文本段之后，还需要将第二语言的文本段转换为第二语言的音频段。示例性的，服务器可以采用从文本到语音(Text To Speech，TTS)技术，将第二语言的文本段转换为第二语言的音频段。这样，服务器将第二语言的音频段发送至终端设备，终端设备对第二语言的音频段进行播放。

本实施例的技术效果与图5所示实施例类似，此处不做赘述。

在图5和图6所示实施例的基础上，下面结合一个具体的实施例对本公开技术方案进行更详细的说明。

图7为本公开实施例提供的又一种音频处理方法的流程示意图。本实施例的方法可以由终端设备执行，主要介绍终端设备对各音频段的发送时序进行控制。如图7所示，本实施例的方法包括：

S701：获取待翻译的第一音频段。

S702：判断第一音频段是否为首个音频段。

若是，则执行S703。

若否，则执行S704至S709

S703：将第一音频段存储至缓存队列中，并通过websocket连接向服务器发送第一音频段。

本实施例中，终端设备按序向服务器发送各音频段，并且，在向服务器发送一个音频段之后，等待从服务器接收到该音频段的翻译结果之后，才发送下一个音频段，这样可以保证各音频段之间翻译结果的时序性。其中，上述时序性可以通过缓存队列来实现。

具体而言，终端设备维护一个缓存队列，缓存队列用于存储未翻译完成的音频段。其中，未翻译完成的音频段包括：待向服务器发送的音频段，以及已向服务器发送但是还未接收到翻译结果的音频段。终端设备获取到待翻译的音频段之后，将该音频段存储至缓存队列的队尾。当从服务器接收到某个音频段的翻译结果之后，从缓存队列中删除该音频段，并且将缓存队列中位于队首的音频段发送至服务器。

S704：将第一音频段缓存至缓存队列中。

S705：判断第一音频段是否位于缓存队列的队首。

若是，则说明已接收到第二音频段对应的第二翻译结果，执行S706。

若否，则说明还未接收到第二音频段对应的第二翻译结果，执行S707。

S706：通过websocket连接向服务器发送第一音频段。

S707：等待直至接收到第二音频段对应的第二翻译结果时，在缓存队列中删除第二音频段，以使第一音频段位于缓存队列的队首，并通过websocket连接向服务器发送第一音频段，第二音频段为第一音频段的前一个音频段。

本实施例中，当终端设备通过websocket连接接收服务器发送的第一音频段对应的第一翻译结果之后，在缓存队列中删除第一音频段。

为了便于理解，下面结合图8对缓存队列的处理过程进行举例说明。

图8为本公开实施例提供的音频处理过程中缓存队列的示意图。如图8所示，本实施例的音频处理过程包括：

(1)终端设备获取到待翻译的音频1，假设音频1为首个音频段，则将音频1存储至缓存队列中，并通过websocket连接向服务器发送音频1。此时缓存队列的状态如801所示。

(2)终端设备获取到待翻译的音频2，则将音频2存储至缓存队列中，此时缓存队列的状态如802所示。由于缓存队列的队首为音频1，说明还未接收到音频1对应的翻译结果，因此，暂不发送音频2。

(3)终端设备从服务器接收到音频1对应的翻译结果，则将音频1从缓存队列中删除，此时缓存队列的状态如803所示。删除音频1之后，缓存队列的队首为音频2，终端设备通过websocket连接向服务器发送音频2。

(4)终端设备获取到待翻译的音频3，则将音频3存储至缓存队列中，此时缓存队列的状态如804所示。由于缓存队列的队首为音频2，说明还未接收到音频2对应的翻译结果，因此，暂不发送音频3。

(5)终端设备从服务器接收到音频2对应的翻译结果，则将音频2从缓存队列中删除，此时缓存队列的状态如805所示。删除音频2之后，缓存队列的队首为音频3，终端设备通过websocket连接向服务器发送音频3。

(6)终端设备从服务器接收到音频3对应的翻译结果，则将音频3从缓存队列中删除，此时缓存队列为空。

本实施例中，终端设备通过维护缓存队列，实现了终端设备按序向服务器发送各音频段，并且，在向服务器发送一个音频段之后，等待从服务器接收到该音频段的翻译结果之后，才发送下一个音频段，这样可以保证各音频段之间翻译结果的时序性。基于上述，服务器侧不会出现多个音频段同时处理的情况，服务器侧无需对多个音频段的翻译结果的发送时序进行维护，降低了服务器侧的实现复杂度。

图9为本公开实施例提供的又一种音频处理方法的流程示意图。如图9所示，本实施例的方法包括：

S901：终端设备获取音频翻译请求，音频翻译请求中包括第二语言的标识。

一个示例中，图10为本公开实施例提供的一种显示界面的示意图。如图10所示，在终端设备的显示界面中，显示有第一语言和第二语言。用户可以根据自己的翻译需求，在该显示界面中对第一语言和第二语言进行设置。例如，参见图10，将第一语言设置为中文，将第二语言设置为英文。终端设备的显示界面中还包括开始翻译控件(例如“开始翻译”按钮)，响应于用户对开始翻译控件输入的点击操作，终端设备获取音频翻译请求，音频翻译请求中包括第二语言的标识，用于指示本次翻译的目标语言为第二语言。

S902：终端设备根据音频翻译请求，向服务器发送websocket连接请求消息。

相应的，服务器接收终端设备发送的websocket连接请求消息。

S903：服务器根据websocket连接请求消息，向终端设备发送websocket连接响应消息。

相应的，终端设备接收服务器发送的websocket连接响应消息。

通过S902和S903的交互过程，使得终端设备与服务器之间建立了websocket连接。websocket连接建立完成之后，终端设备和服务器之间可以通过websocket连接进行交互。该websocket连接为长连接，在终端设备和服务器的多次交互中，可以复用同一websocket连接。

S904：终端设备获取待翻译的第一音频段。

S905：若第一音频段为首个音频段或者已接收到第二音频段对应的第二翻译结果，则终端设备通过websocket连接向服务器发送第一音频段，第二音频段为第一音频段的前一个音频段。

S906：服务器将第一音频段转换为第一语言的文本段。

S907：服务器将第一语言的文本段翻译为第二语言的文本段。

S908：服务器将第二语言的文本段确定为第一音频段对应的第一翻译结果，或者，将第二语言的文本段转换为第二语言的音频段，将第二语言的音频段确定为第一音频段对应的第一翻译结果。

S909：服务器通过websocket连接向终端设备发送第一翻译结果。

应理解，上述的S904至S909可以循环执行多次，从而实现对多个音频段的翻译。本实施例中S904至S909的具体实现方式可以参见前述实施例的相关描述，此处不做赘述。

S910：终端设备获取翻译结束指令。

一个示例中，终端设备的显示界面中可以包括结束翻译控件(例如“结束翻译按钮”)，响应于用户对结束翻译控件的点击操作，终端设备获取到翻译结束指令。

S911：终端设备根据翻译结束指令，向服务器发送websocket关闭请求消息。

S912：服务器根据websocket关闭请求消息，向终端设备发送websocket关闭响应消息。

通过上述的S911和S912的交互过程，使得终端设备与服务器之间的websocket连接断开。

本实施例中，多个音频段可以复用同一个websocket连接，从而避免了websocket连接的反复建立和断开，降低了网络开销，提高了翻译实时性，以及通信链路的稳定性。

图11为本公开实施例提供的一种音频处理装置的结构示意图。本实施例提供的音频处理装置可以为终端设备，或者为设置在终端设备中的装置。如图11所示，本实施例提供的音频处理装置1100包括：获取模块1101、发送模块1102和接收模块1103。其中，

获取模块1101，用于获取待翻译的第一音频段，所述第一音频段为第一语言的音频段；

发送模块1102，用于若所述第一音频段为首个音频段或者已接收到第二音频段对应的第二翻译结果，则通过websocket连接向服务器发送所述第一音频段，所述第二音频段为所述第一音频段的前一个音频段；

接收模块1103，用于通过所述websocket连接接收所述服务器发送的所述第一音频段对应的第一翻译结果，所述第一翻译结果为第二语言的音频段、或者为所述第二语言的文本段。

一种可能的实现方式中，所述发送模块1102包括：

第一发送单元，用于若所述第一音频段为首个音频段，则将所述第一音频段存储至缓存队列中，并通过所述websocket连接向所述服务器发送所述第一音频段；

第二发送单元，用于若所述第一音频段为非首个音频段，则将所述第一音频段存储至缓存队列中，直至接收到所述第二翻译结果后，通过所述websocket连接向所述服务器发送所述第一音频段。

一种可能的实现方式中，所述第二发送单元包括：

存储子单元，用于将所述第一音频段存储至缓存队列中；

判断子单元，用于判断所述第一音频段是否位于所述缓存队列的队首；

发送子单元，用于若是，则通过所述websocket连接向所述服务器发送所述第一音频段；

所述发送子单元，还用于若否，则等待直至接收到所述第二翻译结果时，在所述缓存队列中删除所述第二音频段，以使所述第一音频段位于所述缓存队列的队首，并通过所述websocket连接向所述服务器发送所述第一音频段。

一种可能的实现方式中，所述发送模块1102还包括：

删除单元，用于在通过所述websocket连接接收所述服务器发送的所述第一音频段对应的第一翻译结果之后，在所述缓存队列中删除所述第一音频段。

一种可能的实现方式中，所述获取模块1101包括：

第一获取单元，用于在预设存储空间中获取待翻译的音频文件；

第二获取单元，用于在所述音频文件中获取所述第一音频段，所述第一音频段的时长为预设时长，或者所述第一音频段的大小为预设大小。

一种可能的实现方式中，所述获取模块1101包括：

接收单元，用于接收预设设备发送的音频信息，或者通过麦克风接收用户输入的音频信息；

确定单元，用于根据所述音频信息中每两个相邻的音节之间的停顿时长，在所述音频信息中确定所述第一音频段；

其中，所述第一音频段与所述第二音频段之间的停顿时长大于或等于预设阈值，所述第一音频段与第三音频段之间的停顿时长大于或等于所述预设阈值，所述第三音频段为所述第一音频段之后的音频段。

一种可能的实现方式中，所述第一翻译结果为所述第二语言的音频段；所述装置还包括：

播放模块，用于播放所述第二语言的音频段。

一种可能的实现方式中，所述第一翻译结果为所述第二语言的文本段；所述装置还包括：

显示模块，用于显示所述第二语言的文本段；

或者，

处理模块，用于对所述第二语言的文本段进行语音转换处理，得到所述第二语言的音频段；以及播放模块，用于播放所述第二语言的音频段。

一种可能的实现方式中，所述获取模块1101还用于：获取音频翻译请求，所述音频翻译请求中包括所述第二语言的标识；

所述发送模块1102还用于：根据所述音频翻译请求，向所述服务器发送websocket连接请求消息；

所述接收模块1103还用于：接收所述服务器发送的所述websocket连接请求消息对应的websocket连接响应消息，以实现与所述服务器建立所述websocket连接。

本实施例提供的音频处理装置，可用于执行上述方法实施例中由终端设备执行的技术方案，其实现原理和技术效果类似，此处不做赘述。

图12为本公开实施例提供的另一种音频处理装置的结构示意图。本实施例提供的音频处理装置可以为服务器，或者为设置在服务器中的装置。如图12所示，本实施例提供的音频处理装置1200，包括：接收模块1201、识别处理模块1202、翻译处理模块1203、确定模块1204、发送模块1205。

其中，接收模块1201，用于通过websocket连接接收终端设备发送的待翻译的第一音频段，所述第一音频段为第一语言的音频段；

识别处理模块1202，用于将所述第一音频段转换为所述第一语言的文本段；

翻译处理模块1203，用于将所述第一语言的文本段翻译为第二语言的文本段；

确定模块1204，用于将所述第二语言的文本段确定为所述第一音频段对应的第一翻译结果，或者，将所述第二语言的文本段转换为所述第二语言的音频段，将所述第二语言的音频段确定为所述第一音频段对应的第一翻译结果；

发送模块1205，用于通过所述websocket连接向所述终端设备发送所述第一翻译结果。

一种可能的实现方式中，所述接收模块1201还用于：接收所述终端设备发送的websocket连接请求消息；

所述发送模块1202还用于：根据所述websocket连接请求消息，向所述终端设备发送websocket连接响应消息，以实现与所述终端设备建立所述websocket连接。

本实施例提供的音频处理装置，可用于执行上述任意方法实施例中由服务器执行的技术方案，其实现原理和技术效果类似，此处不做赘述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，设备1300包括计算单元1301，其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理，例如音频处理方法。例如，在一些实施例中，音频处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时，可以执行上文描述的音频处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行音频处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种音频处理方法，应用于终端设备，包括：

若已接收到第二音频段对应的第二翻译结果，则通过websocket连接向服务器发送所述第一音频段，所述第二音频段为所述第一音频段的前一个音频段；

通过所述websocket连接接收所述服务器发送的所述第一音频段对应的第一翻译结果，所述第一翻译结果为第二语言的音频段、或者为所述第二语言的文本段；

其中，若已接收到第二音频段对应的第二翻译结果，则通过websocket连接向服务器发送所述第一音频段，包括：

将所述第一音频段存储至缓存队列中；

判断所述第一音频段是否位于所述缓存队列的队首；

若是，则通过所述websocket连接向所述服务器发送所述第一音频段；

若否，则等待直至接收到所述第二翻译结果时，在所述缓存队列中删除所述第二音频段，以使所述第一音频段位于所述缓存队列的队首，并通过所述websocket连接向所述服务器发送所述第一音频段。

2.根据权利要求1所述的方法，通过所述websocket连接接收所述服务器发送的所述第一音频段对应的第一翻译结果之后，还包括：

在所述缓存队列中删除所述第一音频段。

3.根据权利要求1或2所述的方法，其中，获取待翻译的第一音频段，包括：

在预设存储空间中获取待翻译的音频文件；

在所述音频文件中获取所述第一音频段，所述第一音频段的时长为预设时长，或者所述第一音频段的大小为预设大小。

4.根据权利要求1或2所述的方法，所述第一翻译结果为所述第二语言的音频段；通过所述websocket连接接收所述服务器发送的所述第一音频段对应的第一翻译结果之后，还包括：

播放所述第二语言的音频段。

5.根据权利要求1或2所述的方法，所述第一翻译结果为所述第二语言的文本段；通过所述websocket连接接收所述服务器发送的所述第一音频段对应的第一翻译结果之后，还包括：

显示所述第二语言的文本段；

或者，

对所述第二语言的文本段进行语音转换处理，得到所述第二语言的音频段，播放所述第二语言的音频段。

6.根据权利要求1或2所述的方法，获取待翻译的第一音频段之前，还包括：

获取音频翻译请求，所述音频翻译请求中包括所述第二语言的标识；

根据所述音频翻译请求，向所述服务器发送websocket连接请求消息；

接收所述服务器发送的所述websocket连接请求消息对应的websocket连接响应消息，以实现与所述服务器建立所述websocket连接。

7.根据权利要求1或2所述的方法，其中，获取待翻译的第一音频段，包括：

接收预设设备发送的音频信息，或者通过麦克风接收用户输入的音频信息；

根据所述音频信息中每两个相邻的音节之间的停顿时长，在所述音频信息中确定所述第一音频段；

8.一种音频处理方法，应用于服务器，包括：

通过websocket连接接收终端设备发送的待翻译的第一音频段，所述第一音频段为第一语言的音频段；所述第一音频段为所述终端设备在接收到第二音频段对应的第二翻译结果后发送的音频段，所述第二音频段为所述第一音频段的前一个音频段；

将所述第一音频段转换为所述第一语言的文本段；

将所述第一语言的文本段翻译为第二语言的文本段；

通过所述websocket连接向所述终端设备发送所述第一翻译结果，以使得所述终端设备在接收到所述第一翻译结果之后发送下一个音频段。

9.根据权利要求8所述的方法，通过websocket连接接收终端设备发送的待翻译的第一音频段之前，还包括：

接收所述终端设备发送的websocket连接请求消息；

根据所述websocket连接请求消息，向所述终端设备发送websocket连接响应消息，以实现与所述终端设备建立所述websocket连接。

10.一种音频处理装置，应用于终端设备，包括：

发送模块，用于若已接收到第二音频段对应的第二翻译结果，则通过websocket连接向服务器发送所述第一音频段，所述第二音频段为所述第一音频段的前一个音频段；

接收模块，用于通过所述websocket连接接收所述服务器发送的所述第一音频段对应的第一翻译结果，所述第一翻译结果为第二语言的音频段、或者为所述第二语言的文本段；

其中，所述发送模块包括：

存储子单元，用于将所述第一音频段存储至缓存队列中；

11.根据权利要求10所述的装置，所述发送模块还包括：

12.根据权利要求10或11所述的装置，其中，所述获取模块包括：

13.根据权利要求10或11所述的装置，所述第一翻译结果为所述第二语言的音频段；所述装置还包括：

播放模块，用于播放所述第二语言的音频段。

14.根据权利要求10或11所述的装置，所述第一翻译结果为所述第二语言的文本段；所述装置还包括：

显示模块，用于显示所述第二语言的文本段；

或者，

15.根据权利要求10或11所述的装置，所述获取模块还用于：获取音频翻译请求，所述音频翻译请求中包括所述第二语言的标识；

所述发送模块还用于：根据所述音频翻译请求，向所述服务器发送websocket连接请求消息；

所述接收模块还用于：接收所述服务器发送的所述websocket连接请求消息对应的websocket连接响应消息，以实现与所述服务器建立所述websocket连接。

16.根据权利要求10或11所述的装置，其中，所述获取模块包括：

17.一种音频处理装置，应用于服务器，包括：

接收模块，用于通过websocket连接接收终端设备发送的待翻译的第一音频段，所述第一音频段为第一语言的音频段；所述第一音频段为所述终端设备在接收到第二音频段对应的第二翻译结果后发送的音频段，所述第二音频段为所述第一音频段的前一个音频段；

发送模块，用于通过所述websocket连接向所述终端设备发送所述第一翻译结果，以使得所述终端设备在接收到所述第一翻译结果之后发送下一个音频段。

18.根据权利要求17所述的装置，所述接收模块还用于：接收所述终端设备发送的websocket连接请求消息；

所述发送模块还用于：根据所述websocket连接请求消息，向所述终端设备发送websocket连接响应消息，以实现与所述终端设备建立所述websocket连接。

19. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法，或者，执行权利要求8或9所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1至7中任一项所述的方法，或者，执行权利要求8或9所述的方法。