CN113555024B

CN113555024B - 实时通信音频处理方法、装置、电子设备和存储介质

Info

Publication number: CN113555024B
Application number: CN202110869115.4A
Authority: CN
Inventors: 陈翔宇; 张晨; 邢文浩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2024-02-27
Anticipated expiration: 2041-07-30
Also published as: CN113555024A

Abstract

本公开关于一种实时通信音频处理方法、装置、电子设备和存储介质，实时通信音频处理方法包括：在实时通信的第一模式下，接收开启实时通信的第二模式的指令；响应于指令，从第一模式切换至第二模式，在第二模式下执行音频处理；发送处理后的音频数据；其中，在第二模式下执行音频处理，包括：根据比在第一模式下采集音频数据的采样率更高的采样率采集待处理音频数据；根据比在第一模式下对音频数据进行编码的采样率更高的采样率对待处理音频数据进行编码。通过对现有的实时通信做出包括提高采集音频数据的采样率和编码的采样率在内的调整，能够有效降低处理过程中的音质损失，提升处理后的音频数据的音质，满足特定场景下的高音质需求。

Description

实时通信音频处理方法、装置、电子设备和存储介质

技术领域

本公开涉及音频技术领域，尤其涉及一种实时通信音频处理方法、装置、电子设备和存储介质。

背景技术

在线教育中经常会遇到例如音乐教学之类对音质要求较高的场景，通常在线教育都是使用RTC(Real-Time Communication，实时通信)的方案。RTC方案一般提供16K采样率单声道音频，然后配合关闭降噪功能，来实现这种场景下的使用。但是现有RTC方案对于音质的损失是比较大的，难以满足高音质要求的场景。

发明内容

本公开提供一种实时通信音频处理方法、装置、电子设备和存储介质，以至少解决相关技术中的实时通信的音质损失较大的问题，也可不解决任何上述问题。

根据本公开的第一方面，提供了一种实时通信音频处理方法，应用于发送端，所述实时通信音频处理方法包括：在实时通信的第一模式下，接收开启实时通信的第二模式的指令；响应于所述指令，从所述第一模式切换至所述第二模式，在所述第二模式下执行音频处理；发送处理后的音频数据；其中，所述在所述第二模式下执行音频处理，包括：根据比在所述第一模式下采集音频数据的采样率更高的采样率采集待处理音频数据；根据比在所述第一模式下对音频数据进行编码的采样率更高的采样率对所述待处理音频数据进行编码。

可选地，所述在所述第二模式下执行音频处理，还包括：采集至少两个通道的所述待处理音频数据；对所述待处理音频数据进行立体声编码。

可选地，所述在所述第二模式下执行音频处理，还包括以下项中的至少一项：关闭所述第一模式中的非线性回声消除功能；限制所述第一模式中的非线性回声消除功能的消除量；关闭所述第一模式中的降噪功能。

可选地，在关闭所述第一模式中的非线性回声消除功能的情况下，所述实时通信音频处理方法还包括：发送闭麦指令或提示信息，其中，所述闭麦指令用于关闭接收端的麦克风，所述提示信息用于提示所述接收端的用户关闭麦克风。

可选地，所述发送处理后的音频数据，还包括：发送指示所述第二模式的标识。

可选地，所述标识是通过网络传输协议增加的。

根据本公开的第二方面，提供了一种实时通信音频处理方法，应用于接收端，所述实时通信音频处理方法包括：接收发送端在第二模式下执行音频处理后的音频数据，其中，所述音频数据是在实时通信从第一模式切换至所述第二模式的情况下，通过比所述第一模式更高的采样率采集并通过比所述第一模式更高的采样率编码得到的；在所述第二模式下对接收的所述音频数据进行处理；播放处理后的所述音频数据；其中，所述在所述第二模式下对所述音频数据进行处理，包括：将用于存储所述音频数据的抖动缓冲区调整为比所述第一模式下的抖动缓冲区更大；根据所述第二模式相应的采样率对所述音频数据进行解码。

可选地，所述在所述第二模式下对所述音频数据进行处理，还包括：对所述音频数据进行立体声解码。

可选地，所述实时通信音频处理方法还包括：接收闭麦指令，根据所述闭麦指令关闭麦克风；或接收并输出提示信息，所述提示信息用于提示用户关闭麦克风。

可选地，所述接收在第二模式下执行音频处理后的音频数据，还包括：接收指示所述第二模式的标识；所述在所述第二模式下对所述音频数据进行处理，包括：响应于接收到所述标识，在所述第二模式下对所述音频数据进行处理。

可选地，所述标识是通过网络传输协议增加的。

根据本公开的第三方面，提供了一种实时通信音频处理装置，应用于发送端，所述实时通信音频处理装置包括：接收单元，被配置为：在实时通信的第一模式下，接收开启实时通信的第二模式的指令；处理单元，被配置为：响应于所述指令，从所述第一模式切换至所述第二模式，在所述第二模式下执行音频处理；发送单元，被配置为：发送所述处理单元处理后的音频数据；其中，所述处理单元还被配置为：根据比在所述第一模式下采集音频数据的采样率更高的采样率采集待处理音频数据；根据比在所述第一模式下对音频数据进行编码的采样率更高的采样率对所述待处理音频数据进行编码。

可选地，所述处理单元还被配置为：采集至少两个通道的所述待处理音频数据；对所述待处理音频数据进行立体声编码。

可选地，所述处理单元还被配置为执行以下项中的至少一项：关闭所述第一模式中的非线性回声消除功能；限制所述第一模式中的非线性回声消除功能的消除量；关闭所述第一模式中的降噪功能。

可选地，在所述处理单元关闭所述第一模式中的非线性回声消除功能的情况下，所述发送单元还被配置为：发送闭麦指令或提示信息，其中，所述闭麦指令用于关闭接收端的麦克风，所述提示信息用于提示所述接收端的用户关闭麦克风。

可选地，所述发送单元还被配置为：发送指示所述第二模式的标识。

可选地，所述标识是通过网络传输协议增加的。

根据本公开的第四方面，提供了一种实时通信音频处理装置，应用于接收端，所述实时通信音频处理装置包括：接收单元，被配置为：接收发送端在第二模式下执行音频处理后的音频数据，其中，所述音频数据是在实时通信从第一模式切换至所述第二模式的情况下，通过比所述第一模式更高的采样率采集并通过比所述第一模式更高的采样率编码得到的；处理单元，被配置为：在所述第二模式下对接收的所述音频数据进行处理；播放单元，被配置为：播放处理后的所述音频数据；其中，所述处理单元还被配置为：将用于存储所述音频数据的抖动缓冲区调整为比所述第一模式下的抖动缓冲区更大；根据所述第二模式相应的采样率对所述音频数据进行解码。

可选地，所述处理单元还被配置为：对所述音频数据进行立体声解码。

可选地，所述接收单元还被配置为：接收闭麦指令，所述实时通信音频处理装置还包括闭麦单元，被配置为：根据所述闭麦指令关闭麦克风；或所述接收单元还被配置为：接收提示信息，所述实时通信音频处理装置还包括输出单元，被配置为：输出所述提示信息，所述提示信息用于提示用户关闭麦克风。

可选地，所述接收单元还被配置为：接收指示所述第二模式的标识；所述处理单元还被配置为：响应于接收到所述标识，在所述第二模式下对所述音频数据进行处理。

可选地，所述标识是通过网络传输协议增加的。

根据本公开的第五方面，提供了一种电子设备，所述电子设备包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的实时通信音频处理方法。

根据本公开的第六方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的实时通信音频处理方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现根据本公开的实时通信音频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的实施例的实时通信音频处理方法和实时通信音频处理装置，通过对现有的实时通信的第一模式做出包括提高采集音频数据的采样率和编码的采样率在内的调整，得到第二模式，并在第二模式下执行音频处理，能够有效降低处理过程中的音质损失，提升处理后的音频数据的音质，满足特定场景下的高音质需求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的应用于发送端和接收端的实时通信音频处理方法的流程图。

图2是示出根据本公开的示例性实施例的应用于发送端的实时通信音频处理方法的流程图。

图3是示出根据本公开的示例性实施例的应用于接收端的实时通信音频处理方法的流程图。

图4是示出根据本公开的示例性实施例的应用于发送端的实时通信音频处理装置的框图。

图5是示出根据本公开的示例性实施例的应用于接收端的实时通信音频处理装置的框图。

图6是根据本公开的示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

在线教育因其使用的便利性，逐渐受到越来越多的用户青睐，涵盖的教学内容类型也随之增加。对于普通的教学，常规的RTC方案(例如手机的通话模式)足以满足需求。而对于音乐教育这类对通话音质要求较高的场景，现有的解决方案通常仅是配合关闭了降噪功能(降噪功能的代价就是损失音质)，并不能很好地满足这类场景的高音质需求。

本公开的示例性实施例基于RTC，提出了一种新的通信模式(例如可命名为音乐模式)，能够从发送端的采集、前处理、编码以及接收端的接收、解码各个环节做出改进，从而充分降低音质损失，满足高音质场景的需求。

参照图1，整体来说，当开启音乐模式后，整个通信过程会发生以下变化：发送端首先完成高采样率立体声采集，接着对采集到的待处理音频数据进行前处理，并在前处理时关闭AEC(Acoustic Echo Cancellation，声学回声消除)的非线性处理部分和降噪，再对前处理后的待处理音频数据进行高采样率立体声编码，得到音频包，最后通过网络将音频包传输至接收端。具体可在网络传输协议中增加音乐模式的标识，以便于通知接收端。接收端接收到音乐模式的音频包后，可调整Jitter Buffer(抖动缓冲器)的设置，增大缓冲区，再对接收的音频包进行高采样率立体声解码并播放。此外，由于音乐模式关闭了AEC的非线性处理部分，牺牲了一定的回声消除性能，所以在使用中如果接收端有比较大的声音，会有泄露回声的可能，这个时候可以配合闭麦功能使用，变成单工模式。

接下来分别从发送端和接收端描述本公开的示例性实施例的实时通信音频处理方法和实时通信音频处理装置。

参照图2，在步骤201，在实时通信的第一模式下，接收开启实时通信的第二模式的指令。其中，第一模式是实时通信下的常规通信模式，第二模式则是针对高音质场景新开发的模式，即前述的音乐模式。具体地，用户可根据对音质的需求自行调整选用哪种模式，设备则可配置相应的第二模式的触发/退出按钮，可为实体按钮，也可为虚拟按钮，还可通过语音指令来实现第二模式的触发和退出，本公开的示例性实施例在此不作限制。

在步骤202，响应于指令，从第一模式切换至第二模式，在第二模式下执行音频处理。对于发送端，执行音频处理主要包括三个阶段，一是采集阶段，二是前处理阶段，三是编码阶段，而采集阶段的动作往往与编码阶段的动作相对应。

对于采集阶段，在第二模式下执行的操作包括：在根据比在第一模式下采集音频数据的采样率更高的采样率采集待处理音频数据。在第一模式下，采集音频数据的采样率通常为16KHz，在第二模式下，通过提高采样率，例如提高到44.1KHz或48KHz，可确保采集到更多的声音细节，从而为后续的其他处理打下基础，能够从根本上减少音质损失。与之对应地，在编码阶段，根据比在第一模式下对音频数据进行编码的采样率更高的采样率对待处理音频数据进行编码，可确保最后编码得到的音频包也具有更多的声音细节，保证最终发送到接收端的音频包具有较高的音质。举例来说，在第一模式下，编码器的采样率一般为8KHz、16KHz，码率一般为16Kbps至48Kbps，第二模式下则可选择采样率44.1KHz、48KHz，码率可在64Kbps至96Kbps，甚至更高。由于采集和编码待处理音频数据的具体方法是已经成熟的技术，在此不再赘述。可以理解的是，由于后续在前处理阶段会对部分频段的数据进行调整甚至删除，因此在同一模式下，编码时的采样率往往会小于采集时的采样率。

在一些实施例中，在第二模式下采集阶段执行的操作还包括：采集至少两个通道的待处理音频数据。在第一模式下，采集的是单声道音频，在第二模式下，通过在两个或两个以上的通道分别以比第一模式更高的采样率进行音频采集，可实现高采样率立体声采集，确保采集到音频在空间内的分布细节，有助于接收端播放时还原音频的现场感，更适合音乐类型的音频，可减少音质损失。与之对应地，在编码阶段，对待处理音频数据进行立体声编码，可确保最后编码得到的音频包也具有空间分布细节，保证最终发送到接收端的音频包具有较高的音质。

可以理解的是，待处理音频数据的采集可以由发送端直接执行，例如发送端为手机端或桌面端，可以切换到44.1KHz或者48KHz采样率，执行立体声采集，也就是在采集待处理音频数据时从系统的通话模式切换到媒体模式，可以理解为视频录制的模式。待处理音频数据也可以支持外部高采样率立体声输入，例如使用USB声卡，这都是本公开的示例性实施例的实现方式。

对于前处理阶段，第二模式则是在第一模式的前处理方案基础上，对其中损伤音质的部分功能予以关闭或弱化，对其他功能予以保留。具体来说，可以执行以下三项中的至少一项：

第一，关闭第一模式中的非线性回声消除功能。也就是关闭AEC的非线性处理部分。这部分功能对于非线性回声信号的处理效果好，但是代价是对音质有损失。关闭会牺牲非线性回声的处理效果，但是达到音质要求。对此，为减少回声影响，还可向接收端发送闭麦指令或提示信息，其中，闭麦指令用于关闭接收端的麦克风，提示信息用于提示接收端的用户关闭麦克风，使得接收端能够配合使用闭麦功能，从而切换为单工模式。可以理解的是，本公开的示例性实施例可以在关闭非线性回声消除功能时自动切换为单工模式，也可以由用户手动触发或关闭单工模式，以提升使用的灵活性。单工模式下，虽然发送端和接收端的用户无法通过语音实现互动交流，但仍可以配合视频或者文字实现交流，因而仍然能够保证互动性。

第二，限制第一模式中的非线性回声消除功能的消除量。关闭AEC的非线性处理部分会对音频中残留的回声尽可能地消除，通过不关闭该部分功能，而限制其消除量，例如限制在语音的各个频段的消除量不能超过6dB(当然这个值是可以按需调整的，例如也可以为12dB)，可以实现仅清除少量回声残留，从而既达到一定的非线性回声消除效果，又能够减少对音质的损伤。

第三，关闭第一模式中的降噪功能。无论是基于深度学习的降噪还是传统的降噪，都会对音质有损失。通过关闭降噪功能，可以减少音质损失。

在步骤203，发送处理后的音频数据。

经过前述的采集、前处理和编码阶段后，就可得到音频数据，即前述的音频包。通过将音频包发送至接收端，就可以完成音频数据的传递，实现语音通信。具体地，为了便于区分第一模式和第二模式，还可在发送音频数据时发送指示第二模式的标识，以供接收端做出相应的调整，有助于保证最终播放的是高音质的音频。可选地，指示第二模式的标识是通过网络传输协议增加的，例如在网络传输协议中增加一个标识位，用0代表第一模式，用1代表第二模式。进一步地，对于前述的单工模式，也可增加一个标识位，例如用0代表半双工模式和双工模式，用1代表单工模式。

参照图3，在步骤301，接收发送端在第二模式下执行音频处理后的音频数据。其中，音频数据是在实时通信从第一模式切换为第二模式的情况下，通过比第一模式更高的采样率采集并通过比第一模式更高的采样率编码得到的。由于接收到的音频数据是经过高采样率采样并编码，因而可保留更到的声音细节，能够从根本上减少音质损失。

具体地，在接收音频数据时，还可接收指示该第二模式的标识，有助于接收端了解当前接收到的音频数据是在何种模式下处理得到的，便于接收端做出相应的、合适的处理，既可对第二模式下的高质量音频数据执行相应的高质量处理，确保最终播放的音频具有较佳的音质，又可以对第一模式下的普通音频数据执行相应的常规处理，减少不必要的计算负荷。可选地，指示第二模式的标识是通过网络传输协议增加的，例如在网络传输协议中增加一个标识位，用0代表第一模式，用1代表第二模式。

此外，对于发送端关闭了第一模式中的非线性回声消除功能的情况，接收端还可能接收到发送端发来的闭麦指令或提示信息，以运行单工模式，减少接收端的回声。对此，接收端若接收到闭麦指令，则根据闭麦指令关闭麦克风。接收端若接收到提示信息，则输出该提示信息，以提示用户关闭麦克风。提示信息可以语音的形式输出，也可以文字的形式输出，以便于明确传达要提示的内容。可选地，参照前述指示第二模式的标识，也可以在网络传输协议增加一个单工模式的标识位，例如用0代表半双工模式和双工模式，用1代表单工模式。根据系统设置的不同，标识位1可以是接收端接收到的闭麦指令，也可以是接收端接收到的提示信息。对于后者，为便于用户识别，此时不宜直接输出该标识位，而可以输出前述的语音或文字，因而接收的提示信息和最终输出的提示信息的形式可以有所不同，但本质内容是一致的，都是提示用户关闭麦克风。当然，接收端的用户也可在没有提示的情况下主动闭麦，这与本公开的示例性实施例并不矛盾。

在步骤302，在第二模式下对接收的音频数据进行处理。具体地，响应于接收到指示第二模式的标识，接收端可执行步骤302。对于接收端，执行音频处理主要包括两个阶段，一是将接收到的音频数据存入抖动缓冲区，二是解码器从抖动缓冲区中获取音频数据并进行解码。本领域技术人员均了解，对于实时通信，音频数据是按帧传输的，因而会持续接收到一系列的音频包。若解码器直接对接收到的音频包逐个解码，则可能由于无法及时获取到后续的音频包，造成播放延迟和卡顿，稳定性较差。抖动缓冲区就是一个临时存储空间，用于临时存放接收的音频包，待抖动缓冲区存满后，解码器再从抖动缓冲区中获取这些音频包进行解码，抖动缓冲区再继续存放新接收的音频包，如此循环。抖动缓冲区越小，则等待其存满音频包的时间就越短，可降低播放延迟，但由于数据量较小，对网络抖动较为敏感，且容易出现丢包，造成无法及时、顺利解码。对此，常规的解决办法是采用FEC(ForwardError Correction，向前纠错)技术或PLC(Packet Loss Concealment，丢包补偿)技术，利用已经接收到的音频包来估算丢失的音频包，从而降低延迟和网络抖动，但这些技术由于是估算得到丢失的音频包，准确性有限，对音质存在损失。

对于第一阶段，第二模式可对第一模式下的抖动缓冲区的设置进行调整，将用于存储音频数据的抖动缓冲区调整为比第一模式更大，也就是增大抖动缓冲区，此时可降低丢包风险，也就无需使用或仅需少量使用FEC这类技术，有助于提升音质。在实时通信的第一模式下，抖动缓冲区大概在200毫秒以内，第二模式下可适当增大，但一般也不宜超过1秒，具体的调整幅度可按需设置，本公开的示例性实施例不做限制。经试验验证，采用该方式虽然会造成一定的延迟，但一般最多达到几百毫秒，对于音乐教学、现场演奏这类发送端和接收端交互较少的场景，基本可以忽略其影响，也就是用不易被感知的延迟换来音质的提升，有助于获得较佳的综合体验。

对于第二阶段，第二模式下，解码器可根据第二模式相应的采样率来对音频数据进行解码，从而解出更多的音频细节，得到高音质的音频。需说明的是，目前有的解码器无需调整参数即可完成第二模式的解码动作，有的解码器则需要调整，本公开的示例性实施例对于是否调整解码器的参数不做限制，只要保证解码器能够根据第二模式相应的采样率进行解码即可。对于需要调整参数的解码器，为了保证在常规的第一模式下正常运行，则需要在接收到带有第二模式的标识的音频数据时调整其参数，在第二模式结束后将参数调整回原来的状态。

除调整解码器的采样率外，对应于接收端进行了立体声编码的情况，解码器还可对音频数据进行立体声解码，以解出更多的空间分布细节，得到音质更佳的立体声音频。

在步骤303，播放处理后的所述音频数据。最终将解出的音频数据进行播放，接收端的用户即可听到高质量的音频。

参照图4，实时通信音频处理装置400包括接收单元401、处理单元402和发送单元403。

接收单元401可在实时通信的第一模式下，接收开启实时通信的第二模式的指令。其中，第一模式是实时通信下的常规通信模式，第二模式则是针对高音质场景新开发的模式，即前述的音乐模式。具体地，用户可根据对音质的需求自行调整选用哪种模式，设备则可配置相应的第二模式的触发/退出按钮，可为实体按钮，也可为虚拟按钮，还可通过语音指令来实现第二模式的触发和退出，本公开的示例性实施例在此不作限制。

处理单元402可响应于指令，从第一模式切换至第二模式，在第二模式下执行音频处理。对于发送端，执行音频处理主要包括三个阶段，一是采集阶段，二是前处理阶段，三是编码阶段，而采集阶段的动作往往与编码阶段的动作相对应。

对于采集阶段，处理单元402执行的操作包括：在根据比在第一模式下采集音频数据的采样率更高的采样率采集待处理音频数据。在第一模式下，采集音频数据的采样率通常为16KHz，在第二模式下，通过提高采样率，例如提高到44.1KHz或48KHz，可确保采集到更多的声音细节，从而为后续的其他处理打下基础，能够从根本上减少音质损失。与之对应地，在编码阶段，处理单元402可根据比在第一模式下对音频数据进行编码的采样率更高的采样率对待处理音频数据进行编码，可确保最后编码得到的音频包也具有更多的声音细节，保证最终发送到接收端的音频包具有较高的音质。由于采集和编码待处理音频数据的具体方法是已经成熟的技术，在此不再赘述。可以理解的是，由于后续在前处理阶段会对部分频段的数据进行调整甚至删除，因此在同一模式下，编码时的采样率往往会小于采集时的采样率。

在一些实施例中，处理单元402在采集阶段执行的操作还包括：采集至少两个通道的待处理音频数据。在第一模式下，采集的是单声道音频，在第二模式下，通过在两个或两个以上的通道分别以比第一模式更高的采样率进行音频采集，可实现高采样率立体声采集，确保采集到音频在空间内的分布细节，有助于接收端播放时还原音频的现场感，更适合音乐类型的音频，可减少音质损失。与之对应地，在编码阶段，处理单元402对待处理音频数据进行立体声编码，可确保最后编码得到的音频包也具有空间分布细节，保证最终发送到接收端的音频包具有较高的音质。

对于前处理阶段，处理单元402则是在第一模式的前处理方案基础上，对其中损伤音质的部分功能予以关闭或弱化，对其他功能予以保留。具体来说，可以执行以下三项中的至少一项：

第二，限制第一模式中的非线性回声消除功能的消除量。关闭AEC的非线性处理部分会对音频中残留的回声尽可能地消除，通过不关闭该部分功能，而限制其消除量，可以实现仅清除少量回声残留，从而既达到一定的非线性回声消除效果，又能够减少对音质的损伤。

发送单元403可发送处理后的音频数据。

参照图5，实时通信音频处理装置500包括接收单元501、处理单元502和播放单元503。

接收单元501可接收发送端在第二模式下执行音频处理后的音频数据。其中，音频数据是在实时通信从第一模式切换为第二模式的情况下，通过比第一模式更高的采样率采集并通过比第一模式更高的采样率编码得到的。由于接收到的音频数据是经过高采样率采样并编码，因而可保留更到的声音细节，能够从根本上减少音质损失。

具体地，在接收音频数据时，接收单元501还可接收指示该第二模式的标识，有助于接收端了解当前接收到的音频数据是在何种模式下处理得到的，便于接收端做出相应的、合适的处理，既可对第二模式下的高质量音频数据执行相应的高质量处理，确保最终播放的音频具有较佳的音质，又可以对第一模式下的普通音频数据执行相应的常规处理，减少不必要的计算负荷。可选地，指示第二模式的标识是通过网络传输协议增加的，例如在网络传输协议中增加一个标识位，用0代表第一模式，用1代表第二模式。

此外，对于发送端关闭了第一模式中的非线性回声消除功能的情况，接收单元501还可能接收到发送端发来的闭麦指令或提示信息，以运行单工模式，减少接收端的回声。对此，接收端若接收到闭麦指令，则根据闭麦指令关闭麦克风。接收端若接收到提示信息，则输出该提示信息，以提示用户关闭麦克风。提示信息可以语音的形式输出，也可以文字的形式输出，以便于明确传达要提示的内容。可选地，参照前述指示第二模式的标识，也可以在网络传输协议增加一个单工模式的标识位，例如用0代表半双工模式和双工模式，用1代表单工模式。根据系统设置的不同，标识位1可以是接收端接收到的闭麦指令，也可以是接收端接收到的提示信息。对于后者，为便于用户识别，此时不宜直接输出该标识位，而可以输出前述的语音或文字，因而接收的提示信息和最终输出的提示信息的形式可以有所不同，但本质内容是一致的，都是提示用户关闭麦克风。当然，接收端的用户也可在没有提示的情况下主动闭麦，这与本公开的示例性实施例并不矛盾。

处理单元502可在第二模式下对接收的音频数据进行处理。具体地，响应于接收到指示第二模式的标识，处理单元502可被触发。对于接收端，执行音频处理主要包括两个阶段，一是将接收到的音频数据存入抖动缓冲区，二是解码器从抖动缓冲区中获取音频数据并进行解码。本领域技术人员均了解，对于实时通信，音频数据是按帧传输的，因而会持续接收到一系列的音频包。若解码器直接对接收到的音频包逐个解码，则可能由于无法及时获取到后续的音频包，造成播放延迟和卡顿，稳定性较差。抖动缓冲区就是一个临时存储空间，用于临时存放接收的音频包，待抖动缓冲区存满后，解码器再从抖动缓冲区中获取这些音频包进行解码，抖动缓冲区再继续存放新接收的音频包，如此循环。抖动缓冲区越小，则等待其存满音频包的时间就越短，可降低播放延迟，但由于数据量较小，对网络抖动较为敏感，且容易出现丢包，造成无法及时、顺利解码。对此，常规的解决办法是采用FEC(ForwardError Correction，向前纠错)技术或PLC(Packet Loss Concealment，丢包补偿)技术，利用已经接收到的音频包来估算丢失的音频包，从而降低延迟和网络抖动，但这些技术由于是估算得到丢失的音频包，准确性有限，对音质存在损失。

对于第一阶段，处理单元502可对第一模式下的抖动缓冲区的设置进行调整，将用于存储音频数据的抖动缓冲区调整为比第一模式更大，也就是增大抖动缓冲区，此时可降低丢包风险，也就无需使用或仅需少量使用FEC这类技术，有助于提升音质。在实时通信的第一模式下，抖动缓冲区大概在200毫秒以内，第二模式下可适当增大，但一般也不宜超过1秒，具体的调整幅度可按需设置，本公开的示例性实施例不做限制。经试验验证，采用该方式虽然会造成一定的延迟，但一般最多达到几百毫秒，对于音乐教学、现场演奏这类发送端和接收端交互较少的场景，基本可以忽略其影响，也就是用不易被感知的延迟换来音质的提升，有助于获得较佳的综合体验。

对于第二阶段，处理单元502可控制解码器根据第二模式相应的采样率来对音频数据进行解码，从而解出更多的音频细节，得到高音质的音频。需说明的是，目前有的解码器无需调整参数即可完成第二模式的解码动作，有的解码器则需要调整，本公开的示例性实施例对于是否调整解码器的参数不做限制，只要保证解码器能够根据第二模式相应的采样率进行解码即可。对于需要调整参数的解码器，为了保证在常规的第一模式下正常运行，则需要在接收到带有第二模式的标识的音频数据时调整其参数，在第二模式结束后将参数调整回原来的状态。

除调整解码器的采样率外，对应于接收端进行了立体声编码的情况，处理单元502还可控制解码器对音频数据进行立体声解码，以解出更多的空间分布细节，得到音质更佳的立体声音频。

播放单元503可播放处理后的所述音频数据。最终将解出的音频数据进行播放，接收端的用户即可听到高质量的音频。

图6是根据本公开的示例性实施例的电子设备的框图。

参照图6，电子设备600包括至少一个存储器601和至少一个处理器602，所述至少一个存储器601中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器602执行时，执行根据本公开的示例性实施例的语音增强模型的训练方法或语音增强方法。

作为示例，电子设备600可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备600并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备600还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备600中，处理器602可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器602可运行存储在存储器601中的指令或代码，其中，存储器601还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器601可与处理器602集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器601可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器601和处理器602可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器602能够读取存储在存储器中的文件。

此外，电子设备600还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备600的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种计算机可读存储介质，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的音频处理方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品包括计算机指令，计算机指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的音频处理方法。

根据本公开的示例性实施例的实时通信音频处理方法和实时通信音频处理装置，通过对现有的实时通信的第一模式做出包括提高采集音频数据的采样率和编码的采样率在内的调整，得到第二模式，并在第二模式下执行音频处理，能够有效降低处理过程中的音质损失，提升处理后的音频数据的音质，满足特定场景下的高音质需求。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种实时通信音频处理方法，应用于发送端，其特征在于，所述实时通信音频处理方法包括：

在实时通信的第一模式下，接收开启实时通信的第二模式的指令，其中，所述第一模式是实时通信下的常规通信模式，所述第二模式是针对高音质场景的模式；

响应于所述指令，从所述第一模式切换至所述第二模式，在所述第二模式下执行音频处理；

发送处理后的音频数据；

其中，所述在所述第二模式下执行音频处理，包括：

根据比在所述第一模式下采集音频数据的采样率更高的采样率采集待处理音频数据；

根据比在所述第一模式下对音频数据进行编码的采样率更高的采样率对所述待处理音频数据进行编码；

所述在所述第二模式下执行音频处理，还包括以下项中的至少一项：关闭所述第一模式中的非线性回声消除功能、限制所述第一模式中的非线性回声消除功能的消除量、关闭所述第一模式中的降噪功能；

所述实时通信音频处理方法还包括：在关闭非线性回声消除功能且确定存在泄露回声的可能的情况下，或在用户触发单工模式的情况下，发送闭麦指令或提示信息，其中，所述闭麦指令用于关闭接收端的麦克风，所述提示信息用于提示所述接收端的用户关闭麦克风。

2.如权利要求1所述的实时通信音频处理方法，其特征在于，所述在所述第二模式下执行音频处理，还包括：

采集至少两个通道的所述待处理音频数据；

对所述待处理音频数据进行立体声编码。

3.如权利要求1或2所述的实时通信音频处理方法，其特征在于，所述发送处理后的音频数据，还包括：发送指示所述第二模式的标识。

4.如权利要求3所述的实时通信音频处理方法，其特征在于，所述标识是通过网络传输协议增加的。

5.一种实时通信音频处理方法，应用于接收端，其特征在于，所述实时通信音频处理方法包括：

接收发送端在第二模式下执行音频处理后的音频数据，其中，所述音频数据是在实时通信从第一模式切换至所述第二模式的情况下，通过比所述第一模式更高的采样率采集并通过比所述第一模式更高的采样率编码得到的，所述第一模式是实时通信下的常规通信模式，所述第二模式是针对高音质场景的模式，所述发送端在所述第二模式下执行的音频处理还包括以下项中的至少一项：关闭所述第一模式中的非线性回声消除功能、限制所述第一模式中的非线性回声消除功能的消除量、关闭所述第一模式中的降噪功能；

在所述第二模式下对接收的所述音频数据进行处理；

播放处理后的所述音频数据；

其中，所述在所述第二模式下对所述音频数据进行处理，包括：

将用于存储所述音频数据的抖动缓冲区调整为比所述第一模式下的抖动缓冲区更大；

根据所述第二模式相应的采样率对所述音频数据进行解码；

所述实时通信音频处理方法还包括：

接收闭麦指令，根据所述闭麦指令关闭麦克风，其中，所述闭麦指令是所述发送端在关闭非线性回声消除功能且确定存在泄露回声的可能的情况下发送的，或是所述发送端在用户触发单工模式的情况下发送的；或

接收并输出提示信息，所述提示信息用于提示用户关闭麦克风，其中，所述提示信息是所述发送端在关闭非线性回声消除功能且确定存在泄露回声的可能的情况下发送的，或是所述发送端在用户触发单工模式的情况下发送的。

6.如权利要求5所述的实时通信音频处理方法，其特征在于，所述在所述第二模式下对所述音频数据进行处理，还包括：对所述音频数据进行立体声解码。

7.如权利要求5或6所述的实时通信音频处理方法，其特征在于，

所述接收在第二模式下执行音频处理后的音频数据，还包括：接收指示所述第二模式的标识；

所述在所述第二模式下对所述音频数据进行处理，包括：响应于接收到所述标识，在所述第二模式下对所述音频数据进行处理。

8.如权利要求7所述的实时通信音频处理方法，其特征在于，所述标识是通过网络传输协议增加的。

9.一种实时通信音频处理装置，应用于发送端，其特征在于，所述实时通信音频处理装置包括：

接收单元，被配置为：在实时通信的第一模式下，接收开启实时通信的第二模式的指令，其中，所述第一模式是实时通信下的常规通信模式，所述第二模式是针对高音质场景的模式；

处理单元，被配置为：响应于所述指令，从所述第一模式切换至所述第二模式，在所述第二模式下执行音频处理；

发送单元，被配置为：发送所述处理单元处理后的音频数据；

其中，所述处理单元还被配置为：

所述处理单元还被配置为执行以下项中的至少一项：关闭所述第一模式中的非线性回声消除功能、限制所述第一模式中的非线性回声消除功能的消除量、关闭所述第一模式中的降噪功能；

所述发送单元还被配置为：在关闭非线性回声消除功能且确定存在泄露回声的可能的情况下，或在用户触发单工模式的情况下，发送闭麦指令或提示信息，其中，所述闭麦指令用于关闭接收端的麦克风，所述提示信息用于提示所述接收端的用户关闭麦克风。

10.如权利要求9所述的实时通信音频处理装置，其特征在于，所述处理单元还被配置为：

采集至少两个通道的所述待处理音频数据；

对所述待处理音频数据进行立体声编码。

11.如权利要求9或10所述的实时通信音频处理装置，其特征在于，所述发送单元还被配置为：发送指示所述第二模式的标识。

12.如权利要求11所述的实时通信音频处理装置，其特征在于，所述标识是通过网络传输协议增加的。

13.一种实时通信音频处理装置，应用于接收端，其特征在于，所述实时通信音频处理装置包括：

接收单元，被配置为：接收发送端在第二模式下执行音频处理后的音频数据，其中，所述音频数据是在实时通信从第一模式切换至所述第二模式的情况下，通过比所述第一模式更高的采样率采集并通过比所述第一模式更高的采样率编码得到的，所述第一模式是实时通信下的常规通信模式，所述第二模式是针对高音质场景的模式，所述发送端在所述第二模式下执行的音频处理还包括以下项中的至少一项：关闭所述第一模式中的非线性回声消除功能、限制所述第一模式中的非线性回声消除功能的消除量、关闭所述第一模式中的降噪功能；

处理单元，被配置为：在所述第二模式下对接收的所述音频数据进行处理；

播放单元，被配置为：播放处理后的所述音频数据；

其中，所述处理单元还被配置为：

根据所述第二模式相应的采样率对所述音频数据进行解码；

所述接收单元还被配置为：接收闭麦指令，其中，所述闭麦指令是所述发送端在关闭非线性回声消除功能且确定存在泄露回声的可能的情况下发送的，或是所述发送端在用户触发单工模式的情况下发送的，

所述实时通信音频处理装置还包括闭麦单元，被配置为：根据所述闭麦指令关闭麦克风；或

所述接收单元还被配置为：接收提示信息，其中，所述提示信息是所述发送端在关闭非线性回声消除功能且确定存在泄露回声的可能的情况下发送的，或是所述发送端在用户触发单工模式的情况下发送的，

所述实时通信音频处理装置还包括输出单元，被配置为：输出所述提示信息，所述提示信息用于提示用户关闭麦克风。

14.如权利要求13所述的实时通信音频处理装置，其特征在于，所述处理单元还被配置为：对所述音频数据进行立体声解码。

15.如权利要求13或14所述的实时通信音频处理装置，其特征在于，

所述接收单元还被配置为：接收指示所述第二模式的标识；

所述处理单元还被配置为：响应于接收到所述标识，在所述第二模式下对所述音频数据进行处理。

16.如权利要求15所述的实时通信音频处理装置，其特征在于，所述标识是通过网络传输协议增加的。

17.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到8中的任一权利要求所述的实时通信音频处理方法。

18.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到8中的任一权利要求所述的实时通信音频处理方法。