CN110970045A

CN110970045A - 混音处理方法、装置、电子设备和存储介质

Info

Publication number: CN110970045A
Application number: CN201911119174.9A
Authority: CN
Inventors: 张晨; 邢文浩; 郭亮
Original assignee: Reach Best Technology Co Ltd
Current assignee: Reach Best Technology Co Ltd; Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-04-07
Anticipated expiration: 2039-11-15
Also published as: CN110970045B

Abstract

本公开涉及一种混音处理方法、装置、电子设备和存储介质，其中方法包括：通过获取采集的外部音频信号，并根据播放信号对采集的外部音频信号进行自适应回声滤波处理，得到消除了线性回声的第二声音信号，并对第二声音信号进行语音信号检测，当没有检测到语音信号时才对第二声音信号进行非线性残余回声处理，以得到消除残余回声的第三声音信号，进而根据播放信号与外部音频信号的延时将第三声音信号和播放信号进行叠加混音，得到目标音频信号。由于本公开只有在没有检测到语音信号时才进一步进行非线性残余回声抑制处理，从而不存在损坏语音信号的情况，且通过对去除了线性和非线性回声的第三声音信号与播放信号的对齐叠加，得到了优质的音质效果。

Description

混音处理方法、装置、电子设备和存储介质

技术领域

本公开涉及音频信号处理技术领域，特别是涉及一种混音处理方法、装置、电子设备和存储介质。

背景技术

随着互联网技术的不断发展，网络直播已成为一种新兴的网络社交方式，由于网络直播可以同一时间透过网络系统并在不同的交流平台进行现场直播，其具有直观、快速以及交互性强的特点。

在进行网络直播时，一般主播会通过播放背景音乐(Background Music，BGM)来调节直播间气氛，以提升观众体验。而对于如何在直播过程中将BGM播放给观众收听，目前一般采用的方式如图1所示：主播通过本地终端的扬声器播放BGM，并利用本地终端的音频采集设备(如麦克风)采集外放的BGM，再混合主播的人声，一起直播给观众(即远端终端)，然而，BGM经过扬声器播放后再由音频采集设备采集，使得原本的立体声已变成了单声道，其音质下降明显。

发明内容

基于此，有必要针对上述直播过程中BGM音质较差的问题，提供一种能够有效改善BGM音质的混音处理方法、装置、电子设备和存储介质。

为了实现上述目的，根据本公开实施例的第一方面，提供了一种混音处理方法，所述方法包括：

获取采集的外部音频信号，其中，外部音频信号为采集的外部环境中的第一声音信号，具体的，第一声音信号中包括终端内部播放的背景音乐通过扬声器扩散后产生的该背景音乐的回声信号；

根据播放信号对采集的外部音频信号进行自适应回声滤波处理，得到滤除部分回声后的第二声音信号，其中，播放信号为终端内部播放背景音乐的原始信号；

对所述第二声音信号进行语音信号检测；

若在第二声音信号中没有检测到语音信号，则对第二声音信号进行非线性残余回声抑制处理，得到消除残余回声后的第三声音信号；

根据播放信号与外部音频信号的延时将第三声音信号和播放信号进行叠加混音，以得到目标音频信号。

在其中一个实施例中，在对第二声音信号进行语音信号检测之后，上述方法还包括：若在第二声音信号中检测到语音信号，则根据播放信号与外部音频信号的延时将第二声音信号和播放信号进行叠加混音，以得到目标音频信号。

在其中一个实施例中，若在第二声音信号中检测到语音信号，则进一步检测播放信号的音量大小；若音量大小超过预设阈值，则将播放信号的音量大小减弱至预设阈值；进而根据播放信号与外部音频信号的延时，将第二声音信号和减弱音量的播放信号进行叠加混音，以得到目标音频信号。

在其中一个实施例中，根据播放信号对采集的外部音频信号进行自适应回声滤波处理之前，还包括：检测终端内部是否正在播放背景音乐；若检测到终端内部正在播放背景音乐，则获取终端内部当前播放的背景音乐的原始信号。

在其中一个实施例中，获取播放信号与背景音乐的回声信号之间的第一延时；将该第一延时确定为播放信号与外部音频信号的延时。

在其中一个实施例中，根据播放信号与外部音频信号的延时将第三声音信号和播放信号进行对齐；将对齐后的第三声音信号和播放信号进行叠加，以得到目标音频信号。

根据本公开实施例的第二方面，提供了一种混音处理装置，包括：

采集模块，用于获取采集的外部音频信号，其中，外部音频信号为采集的外部环境中的第一声音信号，具体的，第一声音信号中包括终端内部播放的背景音乐通过扬声器扩散后产生的该背景音乐的回声信号；

第一回声处理模块，用于根据播放信号对采集的外部音频信号进行自适应回声滤波处理，得到滤除部分回声后的第二声音信号，其中，播放信号为终端内部播放背景音乐的原始信号；

语音信号检测模块，用于对所述第二声音信号进行语音信号检测；

第二回声处理模块，用于若在第二声音信号中没有检测到语音信号，则对第二声音信号进行非线性残余回声抑制处理，得到消除残余回声后的第三声音信号；

混音模块，用于根据播放信号与外部音频信号的延时将第三声音信号和播放信号进行叠加混音，以得到目标音频信号。

在其中一个实施例中，混音模块还用于：若在第二声音信号中检测到语音信号，则根据播放信号与外部音频信号的延时将第二声音信号和播放信号进行叠加混音，以得到目标音频信号。

根据本公开实施例的第三方面，提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

根据本公开实施例的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

上述混音处理方法、装置、电子设备和存储介质，通过获取采集的外部音频信号，并根据播放信号对采集的外部音频信号进行自适应回声滤波处理，得到消除了线性回声的第二声音信号，并对第二声音信号进行语音信号检测，当没有检测到语音信号时，则对第二声音信号进行非线性残余回声抑制处理，以得到消除残余回声后的第三声音信号，进而根据播放信号与外部音频信号的延时将第三声音信号和播放信号进行叠加混音，以得到目标音频信号。由于本公开只有在没有检测到语音信号时才进一步进行非线性残余回声抑制处理，从而不存在损坏语音信号的情况，且通过对去除了线性和非线性回声的第三声音信号与播放信号的对齐叠加，得到了优质的直播音质效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

图1为采用传统技术直播时BGM的混音原理图；

图2(A)为一个实施例中混音处理方法的应用环境图；

图2(B)为一个实施例中混音处理方法的原理图；

图3为一个实施例中混音处理方法的流程示意图；

图4为另一个实施例中混音处理方法的流程示意图；

图5为一个实施例中步骤304的流程示意图；

图6为一个实施例中回声抵消原理示意图；

图7为另一个实施例中步骤310的流程示意图；

图8为一个实施例中语音处理引擎进行混音处理的流程示意图；

图9为一个实施例中混音处理装置的结构框图；

图10为另一个实施例中混音处理装置的结构框图；

图11为一个实施例中电子设备的内部结构图。

具体实施方式

为了使本公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本公开进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本公开，并不用于限定本公开。

本公开提供的混音处理方法，可以应用于如图2(A)所示的应用环境中。其中，终端102和终端104与服务器106通过网络进行通信，当终端102为本地终端(即进行直播的终端)时，终端104则为远端终端(即观众终端)，而当终端104为本地终端时，终端102则为远端终端。具体的，终端102和终端104可以是各种个人计算机、笔记本电脑、智能手机、平板电脑等中的至少一种，服务器106可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本实施例中混音处理方法的原理如图2(B)所示，以终端102为本地终端(即主播终端)、终端104为远端终端(即观众终端)为例进行说明，通过主播终端的语音处理引擎采集主播终端的播放信号，即主播终端播放的BGM(即内混BGM，也为参考信号)，并采集通过主播终端的麦克风采集的外部音频信号，该外部音频信号为采集的外部环境中的第一声音信号(包括主播终端的扬声器播放BGM后反射至麦克风后采集的外混BGM以及主播的人声)，语音处理引擎用于根据播放信号对采集的音频信号进行自适应回声滤波处理，得到自适应回声滤波处理后的第二声音信号，并对第二声音信号进行语音信号检测，若在第二声音信号中没有检测到语音信号(即主播的人声)，则对第二声音信号进行非线性残余回声抑制处理，得到消除残余回声后的第三声音信号，进而根据播放信号与外部音频信号的延时将第三声音信号和播放信号进行叠加混音，从而形成直播的目标音频信号，以通过网络传输至远端终端，使得远端终端的观众能够获得较好的音质效果。其中，语音处理引擎可以是为主播终端提供的SDK(Software Development Kit，软件开发工具包)，也可以是为直播软件提供的插件。

在一个实施例中，如图3所示，提供了一种混音处理方法，以该方法应用于如图2中的终端102为例进行说明，包括以下步骤：

步骤302，获取采集的外部音频信号。

其中，外部音频信号为采集的外部环境中的第一声音信号。具体的，第一声音信号中包括终端内部播放的背景音乐通过扬声器扩散后产生的该背景音乐的回声信号(以下简称外混BGM)以及终端采集的近端语音信号(主播端的说话声或唱歌声)。在本实施例中，终端具体可以是进行直播的主播终端。

步骤304，根据播放信号对采集的外部音频信号进行自适应回声滤波处理，得到滤除部分回声后的第二声音信号。

其中，播放信号是指终端内部播放背景音乐的原始信号(以下简称内混BGM)。而终端采集的外部音频信号中的外混BGM，是通过终端的扬声器播放内混BGM，然后在室内环境中经过传播和反射，最后和语音信号一起被终端的音频采集模块采集进去的。由于外混BGM是由内混BGM传播并反射后的回声信号，因此，外混BGM和内混BGM之间存在一定的延迟时间，如果没有做回声消除处理，则外混BGM将会和内混BGM一起直接传输到远端终端，使得远端终端在收看直播时形成极大的回声，导致音质效果较差。因此，在本实施例中，根据播放信号对采集的外部音频信号进行线性的自适应回声滤波处理，从而消除外部音频信号中外混BGM所造成的线性回声，得到消除线性回声后的第二声音信号，以达到去除外部音频信号中线性回声的目的。其中，第二声音信号是指消除线性回声后的音频信号。

步骤306，对第二声音信号进行语音信号检测，也即语音活动检测(VoiceActivity Detection,简称VAD)。

在本实施例中，通过对第二声音信号进行VAD检测，即检测第二声音信号中是否存在语音信号(即主播端的说话声或唱歌声)，并根据检测结果进行混音处理，从而得到更好的直播音质效果。

步骤308，当没有检测到语音信号时，对第二声音信号进行非线性残余回声抑制处理，得到消除残余回声后的第三声音信号。

由于自适应回声滤波处理是线性处理，其只能消除外部音频信号中的线性回声，而终端中采集的外部音频信号还会存在一定的非线性问题，但是，若直接对该外部音频信号做非线性残余回声抑制处理，则会损坏外部音频信号中的语音信号，从而导致观众端听不清主播端的说话声或唱歌声。因此，在本实施例中，通过对第二声音信号进行VAD检测，若在第二声音信号中没有检测到语音信号，则进一步对第二声音信号进行非线性残余回声抑制处理，以得到消除残余回声后的第三声音信号，从而进一步提高对外部音频信号的回声抑制效果。具体的，非线性残余回声抑制处理可以采用NLP(Non-linear Process,非线性处理)滤波处理。

步骤310，根据播放信号与外部音频信号的延时将第三声音信号和播放信号进行叠加混音，以得到目标音频信号。

由于外混BGM是由内混BGM传播并反射后的信号，因此，外混BGM和内混BGM之间存在一定的延迟时间，也即播放信号与外部音频信号之间存在一定的延时。在本实施例中，根据播放信号与外部音频信号之间的延时，将进行消除线性回声和非线性回声后的第三声音信号与播放信号进行对齐，并叠加混合在一起，从而形成直播的目标音频信号，并通过网络传输至远端终端，使得远端终端的观众能够获得较好的音质效果。

上述混音处理方法，通过获取采集的外部音频信号，并根据播放信号对采集的外部音频信号进行自适应回声滤波处理，得到消除了线性回声的第二声音信号，并对第二声音信号进行语音信号检测，当没有检测到语音信号时，则对第二声音信号进行非线性残余回声抑制处理，以得到消除残余回声后的第三声音信号，进而根据播放信号与外部音频信号的延时将第三声音信号和播放信号进行叠加混音，以得到目标音频信号，从而实现优质的直播音质效果。

在一个实施例中，如图4所示，在对第二声音信号进行语音信号检测之后，上述混音处理方法还可以包括如下步骤：

步骤312，当检测到语音信号时，则根据播放信号与外部音频信号的延时将第二声音信号和播放信号进行叠加混音。

本实施例通过对第二声音信号进行VAD检测，若在第二声音信号中检测到语音信号，为了不损坏第二声音信号中的语音信号，本实施例在检测到语音信号时，则不进行非线性残余回声抑制处理，从而避免损坏第二声音信号中的语音信号。并根据播放信号与外部音频信号之间的延时，将进行消除线性回声后的第二声音信号与播放信号进行对齐，并叠加混合在一起，从而形成音质较高的直播目标音频信号，并通过网络传输至远端终端。

上述混音处理方法，根据播放信号对采集的外部音频信号进行自适应回声滤波处理，得到消除了线性回声的第二声音信号，并对第二声音信号进行VAD检测，从而根据检测结果而执行不同的混音处理，以得到最优的直播音质效果。

在一个实施例中，为了避免消除线性回声后的第二声音信号与播放信号叠加混合后BGM音量过大，而导致BGM与语音信号的比例失调的问题，则在第二声音信号中检测到语音信号后，还可以对播放信号的音量大小进行检测，并在检测到播放信号的音量大小超过预设阈值时，将播放信号的音量大小减弱至预设阈值，然后根据播放信号与外部音频信号之间的延时，将第二声音信号与减弱音量后的播放信号进行叠加混音，以得到直播的目标音频信号。具体的，将第二声音信号和减弱音量后的播放信号进行对齐，并叠加混合在一起，从而形成直播的目标音频信号，并通过网络传输至远端终端，从而避免观众听不到主播端的说话声或唱歌声的情况，以进一步提高直播的音质效果。

在一个实施例中，由于播放信号为终端内部播放背景音乐的原始信号，因此，在根据播放信号对采集的外部音频信号进行自适应回声滤波处理之前，需要先检测终端内部是否正在播放背景音乐，当检测到终端内部正在播放背景音乐时，则获取终端内部当前播放的背景音乐的原始信号，进而根据播放信号对采集的外部音频信号进行自适应回声滤波。

具体的，终端内部播放的背景音乐可以是终端的伴奏软件通过扬声器播放的，也可以是直播软件中的伴奏模块通过扬声器播放的，播放信号则是指终端的伴奏软件或直播软件中的伴奏模块播放的背景音乐的原始信号(即内混BGM)。在本实施例中，通过检测终端内部是否正在播放背景音乐，当检测到终端内部正在播放背景音乐时，则获取终端内部当前播放的背景音乐的原始信号，并将终端内部当前播放的背景音乐的原始信号作为参考信号，以进一步对终端采集的外部音频信号进行回声抑制处理，从而得到较好的直播音质效果。

在一个实施例中，播放信号与外部音频信号的延时可以根据采集的外部音频信号和播放信号中背景音乐的时域相关性确定。具体的，由于终端采集的外部音频信号中的外混BGM，是通过终端的扬声器播放的内混BGM，然后在室内环境中经过传播和反射后产生的BGM的回声信号，最后和语音信号一起被终端的音频采集模块所采集，其中，音频采集模块可以是麦克风，因此，外混BGM和内混BGM之间存在一定的延迟时间，从而导致产生回声。在本实施例中，可以通过外混BGM和内混BGM的时域自相关性估计出播放信号与BGM的回声信号之间的第一延时，进而可以将该第一延时确定为播放信号与外部音频信号之间的延时，并根据该延时进行后续的回声抑制处理。

在一个实施例中，如图5所示，根据播放信号对采集的外部音频信号进行自适应回声滤波处理，得到滤除部分回声后的第二声音信号，具体可以包括如下步骤：

步骤502，根据播放信号与外部音频信号的延时将播放信号与外部音频信号进行对齐，得到对齐后的播放信号。

具体的，若根据时域自相关性估计的播放信号与采集的外部音频信号之间的延迟时间为100ms，也即终端播放的内混BGM经过扬声器再由麦克风采集的延时是100ms。则可以对正在播放的内混BGM延迟100ms，使其在时域上与麦克风采集到的音频数据中的外混BGM同步，从而得到与外部音频信号对齐后的播放信号。

步骤504，获取对齐后的播放信号的线性回声信号。

基于上述回声产生的原理，在本实施例中，如图6所示，通过回声抵消原理将播放信号y(n)(即终端内部播放的内混BGM)输入自适应回声滤波模块进行线性处理，从而得到线性回声信号r1(n)。其中，自适应回声滤波模块可以是自适应回声滤波器或具有回声滤波功能的软件模块。具体的，即将通过上述步骤进行对齐后的播放信号输入自适应回声滤波模块进行线性处理，以得到线性回声信号。本实施例通过对播放信号进行对齐处理后再由自适应回声滤波模块进行线性处理，从而增强了自适应回声滤波模块处理的有效性，以达到更好的消除干扰信号的目的。

步骤506，对线性回声信号进行反相处理，将反相处理后的线性回声信号与外部音频信号进行叠加，得到消除了线性回声的第二声音信号。

具体的，通过如图6所示的由自适应回声滤波模块模拟回声形成的反馈回路对线性回声信号进行反相处理，从而得到反相处理后的线性回声信号，进而将反相处理后的线性回声信号与外部音频信号叠加。具体的，终端通过扬声器播放内混BGM y(n)，经过室内环境的反射，麦克风采集到由y(n)经过反射后的信号r(n)，同时采集到近端语音信号x(n)(即主播端的说话声或唱歌声)，r(n)与x(n)则构成音频信号。通过将采集的外部音频信号与线性回声信号进行叠加，从而获得叠加后的第二声音信号u(n)＝(r(n)+x(n))-r1(n)，以抵消麦克风采集外部音频信号时产生的回声信号，得到消除了线性回声的第二声音信号。

在一个实施例中，如图7所示，根据播放信号与外部音频信号的延时将第三声音信号和播放信号进行叠加混音，以得到目标音频信号，具体可以包括如下步骤：

步骤702，根据播放信号与外部音频信号的延时将第三声音信号和播放信号进行对齐。

具体的，由于第三声音信号是对采集的外部音频信号进行线性滤波和非线性滤波处理后得到的，因此，第三声音信号与采集的外部音频信号之间在时域上具有一致性。则可以根据播放信号与采集的外部音频信号之间的延时对正在播放的内混BGM进行延迟，使其在时域上与麦克风采集到的外部音频信号同步，也即使得播放信号与第三声音信号对齐，从而得到与第三声音信号对齐后的播放信号。

步骤704，将对齐后的第三声音信号和播放信号进行叠加，以得到目标音频信号。

具体的，将通过上述步骤进行对齐后的播放信号与第三声音信号进行叠加，从而获得叠加后的目标音频信号，该目标音频信号中不仅去除了线性回声，还去除了非线性回声，且通过对齐叠加能够得到更优质的直播效果。

为了更加清楚描述本公开所提出的混音处理方法的具体过程，下面以一个具体的实施例来描述本公开的混音处理方法。如图8所示，当直播用户通过终端的外放模式播放BGM并进行直播时，终端通过麦克风采集直播用户的近端语音信号(即主播端的说话声或唱歌声)，同时采集扬声器播放BGM后经过室内环境的反射并重新由麦克风采集的外混BGM，因此，终端的语音处理引擎可以获得包含有近端语音信号和外混BGM的音频信号以及终端内部播放BGM的播放信号(内混BGM)。

进一步的，终端的语音处理引擎通过比对播放信号(即内混BGM)和麦克风采集的外部音频信号中的外混BGM的时域相关性，从而估计出播放信号和采集的外部音频信号之间的延时。进而根据该延时进行AEC(Acoustic Echo Cancellation，回声消除)自适应滤波处理，即通过该延时对齐播放信号和采集的外部音频信号，从而消除外部音频信号中的线性回声，以输出第二声音信号。

进一步的，终端进而对第二声音信号进行VAD检测，即检测第二声音信号中是否存在语音信号(即主播端的说话声或唱歌声)，如果没有检测到语音信号，则进一步对第二声音信号进行AEC NLP(非线性回声消除)处理，即消除音频信号中的非线性回声，从而得到消除了线性回声和非线性回声后的第三声音信号，并根据上述估计的延时叠加播放信号(即内混BGM)进行混音后输出目标音频信号，从而使得收听直播的观众得到更好的直播音质。

为了避免AEC NLP处理时连带消弱音频信号中的语音信号，在本实施例中，当检测到语音信号时，则不进行AEC NLP处理，而是根据上述估计的延时将第二声音信号(即消除了音频信号中的线性回声的信号)与播放信号进行叠加混音后输出，以得到目标音频信号，从而提升直播给观众的BGM音质。

应该理解的是，虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种混音处理装置，包括：采集模块901、第一回声处理模块902、语音信号检测模块903、第二回声处理模块904和混音模块905，其中：

采集模块901，用于获取采集的外部音频信号，其中，外部音频信号为采集的外部环境中的第一声音信号，具体的，该第一声音信号中包括终端内部播放的背景音乐通过扬声器扩散后产生的该背景音乐的回声信号；

第一回声处理模块902，用于根据播放信号对采集的外部音频信号进行自适应回声滤波处理，得到滤除部分回声后的第二声音信号，其中，播放信号为终端内部播放背景音乐的原始信号；

语音信号检测模块903，用于对第二声音信号进行语音信号检测；

第二回声处理模块904，用于若在第二声音信号中没有检测到语音信号，则对第二声音信号进行非线性残余回声抑制处理，得到消除残余回声后的第三声音信号；

混音模块905，用于根据播放信号与外部音频信号的延时将第三声音信号和播放信号进行叠加混音，以得到目标音频信号。

在一个实施例中，混音模块905还可以用于：若在第二声音信号中检测到语音信号，则根据播放信号与外部音频信号的延时将第二声音信号和播放信号进行叠加混音，以得到目标音频信号。

在一个实施例中，如图10所示，上述装置还可以包括音量检测模块1001和音量处理模块1002，其中，音量检测模块1001用于在第二声音信号中检测到语音信号后，检测播放信号的音量大小；音量处理模块1002用于在检测到的音量大小超过预设阈值时，将播放信号的音量大小减弱至预设阈值。则混音模块905还可以用于：根据播放信号与外部音频信号的延时，将第二声音信号和减弱音量的播放信号进行叠加混音，以得到目标音频信号。

在一个实施例中，上述装置还包括背景音乐检测模块1003，用于检测终端内部是否正在播放背景音乐；若检测到终端内部正在播放背景音乐，则获取终端内部当前播放的背景音乐的原始信号。

在一个实施例中，上述装置还包括延时确定模块1004，用于获取播放信号与背景音乐的回声信号之间的第一延时，并将该第一延时确定为播放信号与外部音频信号的延时。

在一个实施例中，上述混音模块905具体可以包括对齐单元9051和叠加单元9052，其中，对齐单元用于根据播放信号与外部音频信号的延时将第三声音信号和播放信号进行对齐；叠加单元用于将对齐后的第三声音信号和播放信号进行叠加，以得到目标音频信号。

关于混音处理装置的具体限定可以参见上文中对于混音处理方法的限定，在此不再赘述。上述混音处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中，也可以以软件形式存储于电子设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备，该电子设备可以是终端，其内部结构图可以如图11所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种混音处理方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

根据播放信号对采集的外部音频信号进行自适应回声滤波处理，得到自适应回声滤波处理后的第二声音信号；

对第二声音信号进行语音信号检测；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：若在第二声音信号中检测到语音信号，则根据播放信号与外部音频信号的延时将第二声音信号和播放信号进行叠加混音，以得到目标音频信号。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：若在第二声音信号中检测到语音信号，则进一步检测播放信号的音量大小；若音量大小超过预设阈值，则将播放信号的音量大小减弱至预设阈值；进而根据播放信号与外部音频信号的延时，将第二声音信号和减弱音量的播放信号进行叠加混音，以得到目标音频信号。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在根据播放信号对采集的外部音频信号进行自适应回声滤波处理之前，检测终端内部是否正在播放背景音乐；若检测到终端内部正在播放背景音乐，则获取终端内部当前播放的背景音乐的原始信号。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取播放信号与背景音乐的回声信号之间的第一延时；将该第一延时确定为播放信号与外部音频信号的延时。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据播放信号与外部音频信号的延时将第三声音信号和播放信号进行对齐；将对齐后的第三声音信号和播放信号进行叠加，以得到目标音频信号。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

对第二声音信号进行语音信号检测；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：若在第二声音信号中检测到语音信号，则根据播放信号与外部音频信号的延时将第二声音信号和播放信号进行叠加混音，以得到目标音频信号。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：若在第二声音信号中检测到语音信号，则进一步检测播放信号的音量大小；若音量大小超过预设阈值，则将播放信号的音量大小减弱至预设阈值；进而根据播放信号与外部音频信号的延时，将第二声音信号和减弱音量的播放信号进行叠加混音，以得到目标音频信号。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：在根据播放信号对采集的外部音频信号进行自适应回声滤波处理之前，检测终端内部是否正在播放背景音乐；若检测到终端内部正在播放背景音乐，则获取终端内部当前播放的背景音乐的原始信号。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取播放信号与背景音乐的回声信号之间的第一延时；将该第一延时确定为播放信号与外部音频信号的延时。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据播放信号与外部音频信号的延时将第三声音信号和播放信号进行对齐；将对齐后的第三声音信号和播放信号进行叠加，以得到目标音频信号。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本公开的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本公开构思的前提下，还可以做出若干变形和改进，这些都属于本公开的保护范围。因此，本公开专利的保护范围应以所附权利要求为准。

Claims

1.一种混音处理方法，其特征在于，所述方法包括：

获取采集的外部音频信号，所述外部音频信号为采集的外部环境中的第一声音信号，所述第一声音信号中包括终端内部播放的背景音乐通过扬声器扩散后产生的所述背景音乐的回声信号；

根据播放信号对采集的所述外部音频信号进行自适应回声滤波处理，得到滤除部分回声后的第二声音信号，所述播放信号为终端内部播放所述背景音乐的原始信号；

对所述第二声音信号进行语音信号检测；

若在所述第二声音信号中没有检测到语音信号，则对所述第二声音信号进行非线性残余回声抑制处理，得到消除残余回声后的第三声音信号；

根据所述播放信号与所述外部音频信号的延时将所述第三声音信号和所述播放信号进行叠加混音，以得到目标音频信号。

2.根据权利要求1所述的混音处理方法，其特征在于，所述对所述第二声音信号进行语音信号检测之后，所述方法还包括：

若在所述第二声音信号中检测到语音信号，则根据所述播放信号与所述外部音频信号的延时将所述第二声音信号和所述播放信号进行叠加混音，以得到目标音频信号。

3.根据利要求2所述的混音处理方法，其特征在于，若在所述第二声音信号中检测到语音信号之后，所述方法还包括：

检测所述播放信号的音量大小；

若所述音量大小超过预设阈值，则将所述播放信号的音量大小减弱至预设阈值；

所述根据所述播放信号与所述外部音频信号的延时将所述第二声音信号和所述播放信号进行叠加混音，包括：

根据所述播放信号与所述外部音频信号的延时，将所述第二声音信号和减弱音量的所述播放信号进行叠加混音，以得到目标音频信号。

4.根据权利要求1所述的混音处理方法，其特征在于，所述根据播放信号对采集的所述外部音频信号进行自适应回声滤波处理之前，所述方法还包括：

检测所述终端内部是否正在播放背景音乐；

若检测到所述终端内部正在播放背景音乐，则获取所述终端内部当前播放的背景音乐的原始信号。

5.根据权利要求4所述的混音处理方法，其特征在于，所述播放信号与所述外部音频信号的延时通过如下方法确定：

获取所述播放信号与所述背景音乐的回声信号之间的第一延时；

将所述第一延时确定为所述播放信号与所述外部音频信号的延时。

6.根据权利要求1所述的混音处理方法，其特征在于，所述根据所述播放信号与所述外部音频信号的延时将所述第三声音信号和所述播放信号进行叠加混音，以得到目标音频信号，包括：

根据所述播放信号与所述外部音频信号的延时将所述第三声音信号和所述播放信号进行对齐；

将对齐后的所述第三声音信号和所述播放信号进行叠加，以得到目标音频信号。

7.一种混音处理装置，其特征在于，所述装置包括：

采集模块，用于获取采集的外部音频信号，所述外部音频信号为采集的外部环境中的第一声音信号，所述第一声音信号中包括终端内部播放的背景音乐通过扬声器扩散后产生的所述背景音乐的回声信号；

第一回声处理模块，用于根据播放信号对采集的所述外部音频信号进行自适应回声滤波处理，得到滤除部分回声后的第二声音信号，所述播放信号为终端内部播放所述背景音乐的原始信号；

第二回声处理模块，用于若在所述第二声音信号中没有检测到语音信号，则对所述第二声音信号进行非线性残余回声抑制处理，得到消除残余回声后的第三声音信号；

混音模块，用于根据所述播放信号与所述外部音频信号的延时将所述第三声音信号和所述播放信号进行叠加混音，以得到目标音频信号。

8.根据权利要求7所述的混音处理装置，其特征在于，所述混音模块还用于：若在所述第二声音信号中检测到语音信号，则根据所述播放信号与所述外部音频信号的延时将所述第二声音信号和所述播放信号进行叠加混音，以得到目标音频信号。

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。