CN111583952B

CN111583952B - 音频处理方法、装置、电子设备及存储介质

Info

Publication number: CN111583952B
Application number: CN202010425552.2A
Authority: CN
Inventors: 陈翔宇; 张晨; 邢文浩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2024-05-07
Anticipated expiration: 2040-05-19
Also published as: CN111583952A

Abstract

本公开关于一种音频处理方法、装置、电子设备及存储介质，本公开的方法通过获取采集的外部音频信号以及终端内部播放多媒体的播放数据的音频参考信号，其中，外部音频信号中包括第一音频信号以及终端播放多媒体的音频通过音频输出设备扩散后所产生的第二音频信号，并根据音频参考信号对采集的外部音频信号进行回声消除处理，以得到消除回声后的第三音频信号，进而根据第三音频信号输出目标音频信号，使得远端终端的观众能够获得较好的音质效果。

Description

音频处理方法、装置、电子设备及存储介质

技术领域

本公开涉及音频处理技术领域，尤其涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的不断发展，网络直播已成为一种新兴的网络社交方式。目前，很多直播类平台为了提高直播间的互动性提供了共同观剧，即在直播时，主播通过多人聊天室与观众连麦，以在不同的终端上通过连麦实现共同观剧。

在直播共同观剧时，主播端的本地终端的音频采集设备(如麦克风)不仅会采集主播的人声，同时还会采集本地终端扬声器外放的剧集音频，由于剧集音频通过扬声器扩散后再由音频采集设备采集，因此会产生回声信号，使得在直播给观众(即通过直播端传输至远端终端)时会产生回声问题，导致直播音质差。

发明内容

本公开提供一种音频处理方法、装置、电子设备及存储介质，以至少解决相关技术中直播共同观剧时的回声导致直播音质差的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频处理方法，包括：

获取采集的外部音频信号，其中，外部音频信号中包括第一音频信号以及终端播放多媒体的音频通过音频输出设备扩散后所产生的第二音频信号，其中，第一音频信号为终端采集的近端语音信号；

获取终端内部播放多媒体的播放数据的音频参考信号；

根据音频参考信号对采集的外部音频信号进行回声消除处理，得到消除回声后的第三音频信号；

根据第三音频信号输出目标音频信号。

在其中一个实施例中，播放数据是根据多媒体的资源数据得到的；若多媒体的资源数据为终端的本地数据；则根据第三音频信号输出目标音频信号，包括：获取对多媒体的资源数据进行音视频解码并缓冲后得到的播放数据，所述播放数据中包括播放音频信号；将第三音频信号和播放数据中的播放音频信号进行叠加混音，以得到目标音频信号；输出目标音频信号。

在其中一个实施例中，获取对多媒体的资源数据进行音视频解码并缓冲后得到的播放数据，包括：对多媒体的资源数据进行音视频解码，得到解码后的播放帧画面以及与播放帧画面对应的播放音频信号；对播放帧画面以及与播放帧画面对应的播放音频信号进行缓冲处理，得到播放时间戳以及与播放时间戳对应的播放帧画面和播放音频信号。

在其中一个实施例中，音频参考信号具有对应的播放时间戳；将第三音频信号和播放数据中的播放音频信号进行叠加混音，以得到目标音频信号，包括：根据音频参考信号的播放时间戳，将第三音频信号和与播放时间戳对应的播放音频信号进行叠加混音，以得到目标音频信号。

在其中一个实施例中，所述方法还包括：在输出目标音频信号时，根据目标音频信号中播放音频信号的播放时间戳，输出与播放时间戳对应的播放帧画面。

在其中一个实施例中，播放数据是根据多媒体的资源数据得到的；若多媒体的资源数据为网络拉流数据；则根据第三音频信号输出目标音频信号，包括：将第三音频信号作为目标音频信号，并输出目标音频信号。

在其中一个实施例中，音频参考信号具有对应的播放时间戳；所述输出目标音频信号，包括：根据当前播放的音频参考信号对应的播放时间戳输出目标音频信号。

在其中一个实施例中，所述播放数据是对多媒体的资源数据进行音视频解码并缓冲后得到的；所述获取终端内部播放所述多媒体的播放数据的音频参考信号，包括：当缓冲内存对应播放数据的播放时长小于第一阈值时，则降低终端内部播放所述播放数据的播放速度，根据播放速度获取所述终端内部播放所述播放数据的音频参考信号；当缓冲内存对应播放数据的播放时长大于第二阈值时，则提高终端内部播放所述播放数据的播放速度，根据播放速度获取所述终端内部播放所述播放数据的音频参考信号。

根据本公开实施例的第二方面，提供一种音频处理装置，包括：

音频信号获取模块，被配置为执行获取采集的外部音频信号，其中，外部音频信号中包括第一音频信号以及终端播放多媒体的音频通过音频输出设备扩散后产生的第二音频信号，其中，第一音频信号为终端采集的近端语音信号。

参考信号获取模块，被配置为执行获取终端内部播放多媒体播放数据的音频参考信号。

回声处理模块，被配置为执行根据音频参考信号对采集的外部音频信号进行回声消除处理，得到消除回声后的第三音频信号。

输出模块，被配置为执行根据第三音频信号输出目标音频信号。

在其中一个实施例中，播放数据是根据多媒体的资源数据得到的；若多媒体的资源数据为终端的本地数据；则输出模块包括：获取单元，被配置为执行获取对多媒体的资源数据进行音视频解码并缓冲后得到的播放数据，所述播放数据中包括播放音频信号；混音单元，被配置为执行将第三音频信号和播放数据中的播放音频信号进行叠加混音，以得到目标音频信号；第一输出单元，被配置为执行输出目标音频信号。

在其中一个实施例中，获取单元包括：解码子单元，被配置为执行对多媒体的资源数据进行音视频解码，得到解码后的播放帧画面以及与播放帧画面对应的播放音频信号；缓冲处理子单元，被配置为执行对播放帧画面以及与播放帧画面对应的播放音频信号进行缓冲处理，得到播放时间戳以及与播放时间戳对应的播放帧画面和播放音频信号。

在其中一个实施例中，音频参考信号具有对应的播放时间戳；则混音单元被配置为执行：根据音频参考信号的播放时间戳，将第三音频信号和与播放时间戳对应的播放音频信号进行叠加混音，以得到目标音频信号。

在其中一个实施例中，输出模块还包括第二输出单元：被配置为执行在第一输出单元输出目标音频信号时，根据目标音频信号中播放音频信号的播放时间戳，输出与播放时间戳对应的播放帧画面。

在其中一个实施例中，播放数据是根据多媒体的资源数据得到的；若多媒体的资源数据为网络拉流数据；则输出模块被配置为执行：将第三音频信号作为目标音频信号，并输出目标音频信号。

在其中一个实施例中，音频参考信号具有对应的播放时间戳；则输出模块被配置为执行：根据当前播放的音频参考信号对应的播放时间戳输出目标音频信号。

在其中一个实施例中，播放数据是对多媒体的资源数据进行音视频解码并缓冲后得到的；所述参考信号获取模块被配置为执行：当缓冲内存对应播放数据的播放时长小于第一阈值时，则降低终端内部播放所述播放数据的播放速度，根据播放速度获取终端内部播放所述播放数据的音频参考信号；当缓冲内存对应播放数据的播放时长大于第二阈值时，则提高终端内部播放所述播放数据的播放速度，根据播放速度获取终端内部播放所述播放数据的音频参考信号。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，使得电子设备执行第一方面的任一项实施例中所述的音频处理方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行第一方面的任一项实施例中所述的音频处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一项实施例中所述的音频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：通过获取采集的外部音频信号以及终端内部播放多媒体的播放数据的音频参考信号，并根据音频参考信号对采集的外部音频信号进行回声消除处理，以得到消除回声后的第三音频信号，进而根据第三音频信号输出目标音频信号，使得远端终端的观众能够获得较好的音质效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频处理方法的应用环境图。

图2是根据一示例性实施例示出的一种音频处理方法的流程图。

图3是根据一示例性实施例示出的输出目标音频信号的步骤的流程示意图。

图4是根据一示例性实施例示出的获取音频参考信号的步骤的流程示意图。

图5A是根据一示例性实施例示出的音频处理方法的原理图。

图5B是根据另一示例性实施例示出的音频处理方法的原理图。

图6是根据一示例性实施例示出的一种音频处理装置的框图。

图7是根据一示例性实施例示出的一种电子设备的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的音频处理方法，可以应用于如图1所示的应用环境中。其中，终端102和终端104与服务器106通过网络进行通信，当终端102为本地终端(即进行直播的终端)时，终端104则为远端终端(即观众终端)，而当终端104为本地终端时，终端102则为远端终端。具体的，终端102和终端104可以是各种个人计算机、笔记本电脑、智能手机、平板电脑等中的至少一种，服务器106可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本实施例中的音频处理方法，以终端102为本地终端(即主播终端)、终端104为远端终端(即观众终端)为例进行说明，通过主播终端的音频处理引擎采集主播终端的外部音频信号以及终端内部播放多媒体的播放数据的音频参考信号，其中，该外部音频信号中包括第一音频信号(即主播的语音)以及终端播放多媒体的音频通过音频输出设备扩散后所产生的第二音频信号。音频处理引擎用于根据音频参考信号对采集的外部音频信号进行回声消除处理，得到消除回声后的第三音频信号，并根据第三音频信号输出目标音频信号，即通过网络将该目标音频信号传输至远端终端，使得远端终端的观众能够获得较好的音质效果。其中，音频处理引擎可以是为终端提供的音频处理SDK(Software Development Kit，软件开发工具包)，也可以是为直播软件提供的插件。

图2是根据一示例性实施例示出的一种音频处理方法的流程图，如图2所示，以该方法用于图1中的终端102为例进行说明，包括以下步骤。

在步骤S210中，获取采集的外部音频信号。

其中，外部音频信号中包括第一音频信号以及终端播放多媒体的音频通过音频输出设备扩散后所产生的第二音频信号。具体的，第一音频信号可以是终端采集的近端语音信号，如主播端的说话声或唱歌声；第二音频信号则是终端播放多媒体的音频通过音频输出设备(如扬声器)扩散后又被音频采集设备采集的声音信号，其中，多媒体是指主播终端通过连麦与远端终端共同收听及收看的音频、视频等，视频则包括但不限于电视剧、游戏比赛或微视频等。终端具体可以是进行直播的主播终端。由于该第二音频信号与终端播放多媒体的音频之间存在一定的延时，若直接传输给远端终端，则会使得远端终端在收看直播时形成极大的回声，导致音质效果较差，因此，在本实施例中，需要对采集的外部音频信号进行回声消除处理，以提高直播的音质效果。

在步骤S220中，获取终端内部播放多媒体的播放数据的音频参考信号。

其中，播放数据是根据多媒体的资源数据得到的。音频参考信号则是指终端内部播放多媒体资源的原始音频信号，在本实施例中，通过采集该原始音频信号，并将其作为音频参考信号来对上述采集的外部音频信号进行回声消除处理，从而提升直播的音质效果。

在步骤S230中，根据音频参考信号对采集的外部音频信号进行回声消除处理，得到消除回声后的第三音频信号。

其中，回声消除是基于AEC(Acoustic Echo Cancellation)原理进行的，第三音频信号则是基于AEC原理对采集的外部音频信号进行回声消除处理后得到的音频信号。具体的，本实施例根据音频参考信号对采集的外部音频信号进行回声消除处理，从而去除掉外部音频信号中的第二音频信号，以达到消除回声的目的。

在步骤S240中，根据第三音频信号输出目标音频信号。

其中，目标音频信号是向远端终端传输的音频信号。具体的，通过消除回声后的第三音频信号而输出目标音频信号，以达到提升直播的音质效果。

上述音频处理方法中，通过获取采集的外部音频信号以及终端内部播放多媒体的播放数据的音频参考信号，并根据音频参考信号对采集的外部音频信号进行回声消除处理，以得到消除回声后的第三音频信号，进而根据第三音频信号输出目标音频信号，使得远端终端的观众能够获得较好的音质效果。

在一示例性实施例中，播放数据是根据多媒体的资源数据得到的，若多媒体的资源数据为终端的本地数据，即多媒体的资源数据是存储在终端本地的数据，则如图3所示，在步骤S240中，根据第三音频信号输出目标音频信号，具体可以通过以下步骤实现：

在步骤S310中，获取对多媒体的资源数据进行音视频解码并缓冲后得到的播放数据。

具体的，终端一般通过播放软件播放多媒体，播放软件在播放多媒体时，会对多媒体的资源数据进行音视频解码，以得到待播放数据，在本实施例中，通过对待播放数据进行缓冲，以得到播放数据，其中，播放数据中包括播放音频信号以及播放帧画面，通过缓冲以对齐播放音频信号以及播放帧画面，从而实现音画同步。

在步骤S320中，将第三音频信号和播放数据中的播放音频信号进行叠加混音，以得到目标音频信号。

由于多媒体的资源数据是存储在终端本地的数据，也就是说只有主播端有该多媒体的资源数据，而远端终端并没有该多媒体的资源数据。因此，终端在通过连麦与远端终端共同收听及收看多媒体时，除了要与远端终端共享当前的播放帧画面，还要将与当前的播放帧画面对应的播放音频信号以及主播端的语音传输至远端终端，以使得远端终端能够共同收听及收看该多媒体。基于此，本实施例通过将已进行回声消除处理的第三音频信号和播放数据中的播放音频信号进行叠加混音，以得到目标音频信号。

在步骤S330中，输出目标音频信号。

具体的，终端可以通过网络向连麦的远端终端输出上述目标音频信号，从而使得远端终端能够共同收听及收看该多媒体，且达到较好的音质效果。

在一示例性实施例中，如图4所示，在步骤S220中，获取终端内部播放多媒体的播放数据的音频参考信号，具体可以通过以下步骤实现：

在步骤S221中，对多媒体的资源数据进行音视频解码，得到解码后的播放帧画面以及与播放帧画面对应的播放音频信号。

其中，音视频解码是指对已编码多媒体的资源数据进行还原解码操作，并将其转换为播放软件可以识别的格式。又由于播放软件在播放多媒体时，通常以帧的形式读取数据，因此，在本实施例中，通过对多媒体的资源数据进行音视频解码，以得到解码后的播放帧画面以及与播放帧画面对应的播放音频信号。

在步骤S222中，对播放帧画面以及与播放帧画面对应的播放音频信号进行缓冲处理，得到播放时间戳以及与播放时间戳对应的播放帧画面和播放音频信号。

其中，缓冲处理是为了减少播放的卡顿现象，且实现音画同步的效果，而在播放多媒体前，对相应的播放帧画面以及与播放帧画面对应的播放音频信号进行的处理。播放时间戳(Presentation Time Stamp，简称PTS)则是指规定播放的时间。具体的，通过对多媒体的播放帧画面以及与播放帧画面对应的播放音频信号进行缓冲处理，从而得到播放时间戳以及与该播放时间戳对应的播放帧画面和播放音频信号，在播放多媒体时，则通过该播放时间戳控制对应的播放帧画面与播放音频信号的同步。

在一示例性实施例中，由于音频参考信号是终端内部播放多媒体的播放数据得到的，因此，根据播放数据中播放帧画面与播放音频信号对应的播放时间戳，可以确定该音频参考信号对应的播放时间戳。在本实施例中，为了使得向远端传输的目标音频信号能够与当前播放的音频参考信号相匹配，在将第三音频信号和播放数据中的播放音频信号进行叠加混音时，可以根据当前播放的音频参考信号的播放时间戳，将第三音频信号和与播放时间戳对应的播放音频信号进行叠加混音，从而得到与当前播放的音频参考信号相匹配的目标音频信号。

在一示例性实施例中，为了实现输出的音画同步，在输出目标音频信号时，还可以根据目标音频信号中播放音频信号的播放时间戳，输出与播放时间戳对应的播放帧画面，从而实现向远端终端的输出能够保持音画同步。

在一示例性实施例中，若多媒体的资源数据为网络拉流数据，即多媒体的资源数据是存储在网络服务器中，参与共同收听及收看多媒体的各终端需要通过网络拉流的方式获取对应多媒体的资源数据，因此，直播终端无需再向远端终端传输该多媒体对应的播放音频信号，而只需要传输主播端的语音即可。基于此，根据第三音频信号输出目标音频信号，其具体可以是将第三音频信号作为目标音频信号输出，即通过对外部音频信号进行回声消除处理，以去除掉外部音频信号中的第二音频信号，并得到第三音频信号，将该第三音频信号作为目标音频信号输出，以达到消除回声、提高音质的目的。

进一步的，由于在共同收听及收看多媒体时，主播可能会基于当前看到的播放帧画面，或基于当前听到的播放音频信号进行进一步的解读或点评，因此，为了保持主播的解读或点评与对应的播放帧画面或播放音频信号相匹配，在输出上述目标音频信号时，可以根据当前播放的音频参考信号对应的播放时间戳输出目标音频信号，从而使得目标音频信号与对应的播放帧画面或播放音频信号相匹配，即保证主播的解读或点评与对应的播放帧画面或播放音频信号同步，从而提高了直播中共同收听及收看多媒体的效果。

在一示例性实施例中，为了降低解码或者播放的抖动对播放的影响，本实施例通过对解码后的数据进行缓冲处理，并控制缓冲长度，以保证播放的延时。具体的，通过控制缓冲内存的大小来达到内存的稳定，通常解码模块向缓冲内存中输入数据，播放模块从缓冲内存中取出数据。例如若某段缓冲内存对应播放数据的大小对应的播放时长是100ms,假定输入和输出都是均匀的，那么这个缓冲内存的时间是固定的。但实际情况输入和输出不是均匀的，如果缓冲内存过大则需要加速播放，缓冲内存太小就会慢放，因此，本实施例通过设定播放时长阈值的方式动态调整缓冲区大小，并采用加速播放或者减速播放来实现音画同步。当缓冲内存对应播放数据的播放时长小于第一阈值时，则降低终端内部播放所述播放数据的播放速度，当缓冲内存对应播放数据的播放时长大于第二阈值时，则提高终端内部播放所述播放数据的播放速度。例如，若第一阈值是50ms，第二阈值是150ms，则当缓冲内存播放数据的大小对应的播放时长小于50ms时，播放模块就降低播放速度，当缓冲内存播放数据的大小对应的播放时长大于150ms时，播放模块就提高播放速度，具体可以在播放的时候通过输出重新计算的PTS来实现音画同步，从而避免产生抖动现象。

进一步的，由于当缓冲内存对应播放数据的播放时长小于第一阈值时，则降低终端内部播放所述播放数据的播放速度，当缓冲内存对应播放数据的播放时长大于第二阈值时，则提高终端内部播放所述播放数据的播放速度，因此，在本实施例中可以根据播放速度获取终端内部播放所述播放数据的音频参考信号，并根据获取的音频参考信号对采集的外部音频信号进行回声消除处理，从而实现在音画同步的情况下进行回声消除，以实现更好的直播效果。

在一示例性实施例中，为了更加清楚地描述本公开所提出的音频处理方法的具体过程，下面以一个具体的实施例进一步来描述本公开的音频处理方法。如图5A所示，本实施例以多媒体的资源数据为主播终端的本地数据为例进行说明，当主播通过连麦与远端终端共同收听及收看多媒体时，主播终端通过播放模块播放该多媒体，同时终端通过采集模块(如麦克风)采集直播用户的近端语音信号(即第一音频信号，如主播端的说话声或唱歌声)，同时采集扬声器播放多媒体后经过室内环境的反射并重新由麦克风采集的第二音频信号，因此，终端的音频处理引擎可以获得麦克风采集的包含有第一音频信号和第二音频信号的外部音频信号，同时，由于终端内部在播放多媒体，因此，终端的音频处理引擎还可以获得播放模块播放多媒体的播放数据的音频参考信号。

进一步的，终端的音频处理引擎通过AEC模块进行回声消除处理，即AEC模块根据音频参考信号对采集的外部音频信号进行回声消除处理，从而去除掉外部音频信号中的第二音频信号，并输出处理后的第三音频信号，以达到消除回声的目的。但是，由于多媒体的资源数据是存储在终端本地的数据，也就是说只有主播端有该多媒体的资源数据，而远端终端并没有该多媒体的资源数据。因此，终端在通过连麦与远端终端共同收听及收看多媒体时，除了要与远端终端共享当前的播放帧画面，还要将与当前的播放帧画面对应的播放音频信号以及主播端的语音信号传输至远端终端，以使得远端终端能够共同收听及收看该多媒体。基于此，终端的音频处理引擎通过混音模块将AEC模块输出的第三音频信号和播放数据中的播放音频信号进行叠加混音，以得到目标音频信号，并通过通信模块向远端终端输出该目标音频信号，以得到较好的直播音质。其中，播放数据中的播放音频信号是通过播放软件对多媒体的资源数据进行音视频解码并由缓冲模块进行缓冲处理后得到的，通过缓冲模块对解码后的资源数据进行缓冲处理后再播放，可以实现音画同步的效果。

在一示例性实施例中，如图5B所示，本实施例以多媒体的资源数据为网络拉流数据为例进行说明，当主播通过连麦与远端终端共同收听及收看多媒体时，共同收听及收看多媒体的各终端可以通过网络拉流的方式获取对应多媒体的资源数据，因此，直播终端无需再向远端终端传输该多媒体对应的播放音频信号，而只需要传输主播端的语音即可。

主播终端通过播放模块播放该多媒体，同时终端通过采集模块(如麦克风)采集直播用户的近端语音信号(即第一音频信号，如主播端的说话声或唱歌声)，同时采集扬声器播放多媒体后经过室内环境的反射并重新由麦克风采集的第二音频信号，因此，终端的音频处理引擎可以获得麦克风采集的包含有第一音频信号和第二音频信号的外部音频信号，同时，由于终端内部在播放多媒体，因此，终端的音频处理引擎还可以获得播放模块播放多媒体的播放数据的音频参考信号。进一步的，终端的音频处理引擎通过AEC模块进行回声消除处理，即AEC模块根据音频参考信号对采集的外部音频信号进行回声消除处理，从而去除掉外部音频信号中的第二音频信号，并输出处理后的第三音频信号，由于直播终端只需要向远端终端传输主播端的语音信号，因此，可以将第三音频信号作为目标音频信号输出，即通过通信模块向远端终端输出该第三音频信号，从而得到较好的直播音质效果。

应该理解的是，虽然图1-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-5中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图6是根据一示例性实施例示出的一种音频处理装置框图。参照图6，该装置包括音频信号获取模块601，参考信号获取模块602、回声处理模块603和输出模块604。

音频信号获取模块601，被配置为执行获取采集的外部音频信号，其中，外部音频信号中包括第一音频信号以及终端播放多媒体的音频通过音频输出设备扩散后产生的第二音频信号，其中，第一音频信号为终端采集的近端语音信号。

参考信号获取模块602，被配置为执行获取终端内部播放多媒体播放数据的音频参考信号。

回声处理模块603，被配置为执行根据音频参考信号对采集的外部音频信号进行回声消除处理，得到消除回声后的第三音频信号。

输出模块604，被配置为执行根据第三音频信号输出目标音频信号。

在一示例性实施例中，播放数据是根据多媒体的资源数据得到的；若多媒体的资源数据为终端的本地数据；则输出模块604包括：获取单元，被配置为执行获取对多媒体的资源数据进行音视频解码并缓冲后得到的播放数据，所述播放数据中包括播放音频信号；混音单元，被配置为执行将第三音频信号和播放数据中的播放音频信号进行叠加混音，以得到目标音频信号；第一输出单元，被配置为执行输出目标音频信号。

在一示例性实施例中，获取单元包括：解码子单元，被配置为执行对多媒体的资源数据进行音视频解码，得到解码后的播放帧画面以及与播放帧画面对应的播放音频信号；缓冲处理子单元，被配置为执行对播放帧画面以及与播放帧画面对应的播放音频信号进行缓冲处理，得到播放时间戳以及与播放时间戳对应的播放帧画面和播放音频信号。

在一示例性实施例中，音频参考信号具有对应的播放时间戳；则混音单元被配置为执行：根据音频参考信号的播放时间戳，将第三音频信号和与播放时间戳对应的播放音频信号进行叠加混音，以得到目标音频信号。

在一示例性实施例中，输出模块还包括第二输出单元：被配置为执行在第一输出单元输出目标音频信号时，根据目标音频信号中播放音频信号的播放时间戳，输出与播放时间戳对应的播放帧画面。

在一示例性实施例中，播放数据是根据多媒体的资源数据得到的；若多媒体的资源数据为网络拉流数据；则输出模块被配置为执行：将第三音频信号作为目标音频信号，并输出目标音频信号。

在一示例性实施例中，音频参考信号具有对应的播放时间戳；则输出模块被配置为执行：根据当前播放的音频参考信号对应的播放时间戳输出目标音频信号。

在一示例性实施例中，播放数据是对多媒体的资源数据进行音视频解码并缓冲后得到的；所述参考信号获取模块被配置为执行：当缓冲内存对应播放数据的播放时长小于第一阈值时，则降低终端内部播放所述播放数据的播放速度，根据播放速度获取终端内部播放所述播放数据的音频参考信号；当缓冲内存对应播放数据的播放时长大于第二阈值时，则提高终端内部播放所述播放数据的播放速度，根据播放速度获取终端内部播放所述播放数据的音频参考信号。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种用于音频处理的设备Z00的框图。例如，设备Z00可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图7，设备Z00可以包括以下一个或多个组件：处理组件Z02、存储器Z04、电力组件Z06、多媒体组件Z08、音频组件Z10、输入/输出(I/O)的接口Z12、传感器组件Z14以及通信组件Z16。

处理组件Z02通常控制设备Z00的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件Z02可以包括一个或多个处理器Z20来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件Z02可以包括一个或多个模块，便于处理组件Z02和其他组件之间的交互。例如，处理组件Z02可以包括多媒体模块，以方便多媒体组件Z08和处理组件Z02之间的交互。

存储器Z04被配置为存储各种类型的数据以支持在设备Z00的操作。这些数据的示例包括用于在设备Z00上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器Z04可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。

电源组件Z06为设备Z00的各种组件提供电力。电源组件Z06可以包括电源管理系统，一个或多个电源，及其他与为设备Z00生成、管理和分配电力相关联的组件。

多媒体组件Z08包括在所述设备Z00和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件Z08包括一个前置摄像头和/或后置摄像头。当设备Z00处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件Z10被配置为输出和/或输入音频信号。例如，音频组件Z10包括一个麦克风(MIC)，当设备Z00处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器Z04或经由通信组件Z16发送。在一些实施例中，音频组件Z10还包括一个扬声器，用于输出音频信号。

I/O接口Z12为处理组件Z02和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件Z14包括一个或多个传感器，用于为设备Z00提供各个方面的状态评估。例如，传感器组件Z14可以检测到设备Z00的打开/关闭状态，组件的相对定位，例如所述组件为设备Z00的显示器和小键盘，传感器组件Z14还可以检测设备Z00或设备Z00一个组件的位置改变，用户与设备Z00接触的存在或不存在，设备Z00方位或加速/减速和设备Z00的温度变化。传感器组件Z14可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件Z14还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件Z14还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件Z16被配置为便于设备Z00和其他设备之间有线或无线方式的通信。设备Z00可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件Z16经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件Z16还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备Z00可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器Z04，上述指令可由设备Z00的处理器Z20执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理方法，其特征在于，包括：

获取采集的外部音频信号，所述外部音频信号中包括第一音频信号以及终端播放多媒体的音频通过音频输出设备扩散后所产生的第二音频信号，所述第一音频信号为所述终端采集的近端语音信号；

获取终端内部播放所述多媒体的播放数据的音频参考信号；

根据所述音频参考信号对采集的所述外部音频信号进行回声消除处理，得到消除回声后的第三音频信号，所述回声消除是基于AEC原理进行的，所述第三音频信号是基于AEC原理对采集的外部音频信号进行回声消除处理，去除掉所述外部音频信号中第二音频信号后得到的信号；

根据所述第三音频信号输出目标音频信号；

所述播放数据是根据多媒体的资源数据得到的，所述多媒体的资源数据是所述终端通过连麦与远端终端共同收听及收看的音频或视频；若所述多媒体的资源数据为网络拉流数据，所述根据所述第三音频信号输出目标音频信号包括：将所述第三音频信号作为目标音频信号，并输出所述目标音频信号；

所述播放数据是对所述多媒体的资源数据进行音视频解码并缓冲后得到的；所述获取终端内部播放所述多媒体的播放数据的音频参考信号，包括：当缓冲内存对应播放数据的播放时长小于第一阈值时，则降低所述终端内部播放所述播放数据的播放速度，根据所述播放速度获取所述终端内部播放所述播放数据的音频参考信号；当缓冲内存对应播放数据的播放时长大于第二阈值时，则提高所述终端内部播放所述播放数据的播放速度，根据所述播放速度获取所述终端内部播放所述播放数据的音频参考信号，所述第二阈值大于所述第一阈值。

2.根据权利要求1所述的音频处理方法，其特征在于，若所述多媒体的资源数据为所述终端的本地数据；则所述根据所述第三音频信号输出目标音频信号，包括：

获取对所述多媒体的资源数据进行音视频解码并缓冲后得到的播放数据，所述播放数据中包括播放音频信号；

将所述第三音频信号和所述播放数据中的播放音频信号进行叠加混音，以得到目标音频信号；

输出所述目标音频信号。

3.根据权利要求2所述的音频处理方法，其特征在于，所述获取对所述多媒体的资源数据进行音视频解码并缓冲后得到的播放数据，包括：

对所述多媒体的资源数据进行音视频解码，得到解码后的播放帧画面以及与所述播放帧画面对应的播放音频信号；

对所述播放帧画面以及与所述播放帧画面对应的播放音频信号进行缓冲处理，得到播放时间戳以及与所述播放时间戳对应的播放帧画面和播放音频信号。

4.根据权利要求3所述的音频处理方法，其特征在于，所述音频参考信号具有对应的播放时间戳；所述将所述第三音频信号和所述播放数据中的播放音频信号进行叠加混音，以得到目标音频信号，包括：

根据所述音频参考信号的播放时间戳，将所述第三音频信号和与所述播放时间戳对应的播放音频信号进行叠加混音，以得到目标音频信号。

5.根据权利要求3所述的音频处理方法，其特征在于，所述方法还包括：

在所述输出所述目标音频信号时，根据所述目标音频信号中所述播放音频信号的播放时间戳，输出与所述播放时间戳对应的播放帧画面。

6.根据权利要求1所述的音频处理方法，其特征在于，所述音频参考信号具有对应的播放时间戳；所述输出所述目标音频信号，包括：

根据当前播放的所述音频参考信号对应的播放时间戳输出所述目标音频信号。

7.一种音频处理装置，其特征在于，包括：

音频信号获取模块，被配置为执行获取采集的外部音频信号，所述外部音频信号中包括第一音频信号以及终端播放多媒体的音频通过音频输出设备扩散后产生的第二音频信号，所述第一音频信号为所述终端采集的近端语音信号；

参考信号获取模块，被配置为执行获取终端内部播放所述多媒体播放数据的音频参考信号；

回声处理模块，被配置为执行根据所述音频参考信号对采集的所述外部音频信号进行回声消除处理，得到消除回声后的第三音频信号，所述回声消除是基于AEC原理进行的，所述第三音频信号是基于AEC原理对采集的外部音频信号进行回声消除处理，去除掉所述外部音频信号中第二音频信号后得到的信号；

输出模块，被配置为执行根据所述第三音频信号输出目标音频信号；

所述播放数据是根据多媒体的资源数据得到的，所述多媒体的资源数据是所述终端通过连麦与远端终端共同收听及收看的音频或视频；若所述多媒体的资源数据为网络拉流数据，所述输出模块还被配置为执行：将所述第三音频信号作为目标音频信号，并输出所述目标音频信号；

所述播放数据是对所述多媒体的资源数据进行音视频解码并缓冲后得到的；所述参考信号获取模块被配置为执行：当缓冲内存对应播放数据的播放时长小于第一阈值时，则降低所述终端内部播放所述播放数据的播放速度，根据所述播放速度获取所述终端内部播放所述播放数据的音频参考信号；当缓冲内存对应播放数据的播放时长大于第二阈值时，则提高所述终端内部播放所述播放数据的播放速度，根据所述播放速度获取所述终端内部播放所述播放数据的音频参考信号，所述第二阈值大于所述第一阈值。

8.根据权利要求7所述的音频处理装置，其特征在于，若所述多媒体的资源数据为所述终端的本地数据；则所述输出模块包括：

获取单元，被配置为执行获取对所述多媒体的资源数据进行音视频解码并缓冲后得到的播放数据，所述播放数据中包括播放音频信号；

混音单元，被配置为执行将所述第三音频信号和所述播放数据中的播放音频信号进行叠加混音，以得到目标音频信号；

第一输出单元，被配置为执行输出所述目标音频信号。

9.根据权利要求8所述的音频处理装置，其特征在于，所述获取单元包括：

解码子单元，被配置为执行对所述多媒体的资源数据进行音视频解码，得到解码后的播放帧画面以及与所述播放帧画面对应的播放音频信号；

缓冲处理子单元，被配置为执行对所述播放帧画面以及与所述播放帧画面对应的播放音频信号进行缓冲处理，得到播放时间戳以及与所述播放时间戳对应的播放帧画面和播放音频信号。

10.根据权利要求9所述的音频处理装置，其特征在于，所述音频参考信号具有对应的播放时间戳；所述混音单元被配置为执行：

11.根据权利要求9所述的音频处理装置，其特征在于，所述输出模块还包括第二输出单元：

被配置为执行在所述第一输出单元输出所述目标音频信号时，根据所述目标音频信号中所述播放音频信号的播放时间戳，输出与所述播放时间戳对应的播放帧画面。

12.根据权利要求7所述的音频处理装置，其特征在于，所述音频参考信号具有对应的播放时间戳；则所述输出模块被配置为执行：

13.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的音频处理方法。

14.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至6中任一项所述的音频处理方法。