CN110956969B

CN110956969B - 直播音频处理方法、装置、电子设备和存储介质

Info

Publication number: CN110956969B
Application number: CN201911191671.XA
Authority: CN
Inventors: 张晨; 邢文浩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2022-06-10
Anticipated expiration: 2039-11-28
Also published as: EP4068284A1; WO2021103710A1; US20220270638A1; EP4068284A4; CN110956969A

Abstract

本公开涉及一种直播音频处理方法、装置、电子设备和存储介质。所述方法应用于主播端，包括：获取根据嘉宾音频信号和主播端的背景音频信号进行混合形成的第一音频信号进行回声消除；根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，检测嘉宾端的语音活动状态；根据不同的语音活动状态和第一音频信号，对混合音频信号进行回声消除；将回声消除后的第一音频信号和混合音频信号进行合成并推送至嘉宾端。采用本方法能够通过使用两路回声消除协同工作，根据嘉宾端的语音活动状态调整对主播端麦克风采集到的声音信号的回声处理方式，使得主播音频信号不被过度的处理，提高了嘉宾端听到的主播声音音质。

Description

直播音频处理方法、装置、电子设备和存储介质

技术领域

本公开涉及音频处理技术领域，尤其涉及一种直播音频处理方法、装置、电子设备和存储介质。

背景技术

直播伴侣指的是直播平台、直播软件的辅助直播工具。随着直播平台、直播软件的类型越来越多，各种直播伴侣也伴随着出现。直播伴侣可以很好的辅助直播，可提供桌面音效、屏幕捕捉、画质调整、画中画、高清大屏、海量歌库、智能特效、音视频录制等功能，让直播轻松顺畅。

直播伴侣中加入连麦功能可以实现主播与其他嘉宾的连麦，从而将主播端声音信号推送给连麦嘉宾端。有些场景下，若主播端播放背景音乐，还需要将背景音乐一起推送给连麦嘉宾端。当主播端使用麦克风采集主播声音信号和背景音乐时，同时会采集到扬声器外放的连麦嘉宾声音信号，使得连麦嘉宾能够听到自己的声音。因此，在推送过程中需要将主播端麦克风获取的连麦嘉宾声音信号进行回声消除。但是，传统的回声消除方式往往会将主播声音信号过度消除，从而使得连麦嘉宾端听到的主播声音音质较差。

发明内容

本公开提供一种直播音频处理方法、装置、电子设备和存储介质，以至少解决相关技术中连麦嘉宾端听到的主播声音音质较差的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种直播音频处理方法，应用于主播端，包括：

获取根据嘉宾音频信号和主播端的背景音频信号进行混合形成的第一音频信号；

对第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号；

根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，检测嘉宾端的语音活动状态；

根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号；

将处理后的第一音频信号，和处理后的混合音频信号进行合成并推送至嘉宾端。

在其中一个实施例中，根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，检测嘉宾端的语音活动状态，包括：

根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，分别计算得到嘉宾音频能量、第一音频能量和处理后的第一音频能量；

当判断嘉宾音频能量小于第一阈值，且处理后的第一音频能量和第一音频能量的比值大于第二阈值时，则检测语音活动状态为静音状态；

当判断嘉宾音频信号能量大于第一阈值，或者处理后的第一音频能量和第一音频能量的比值小于第二阈值时，则检测语音活动状态为语音状态。

在其中一个实施例中，根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号，包括：

当检测语音活动状态为静音状态时，以第一音频信号为参考信号，对混合音频信号进行自适应滤波处理，过滤混合音频信号中的第一音频信号。

当检测语音活动状态为语音状态时，以第一音频信号为参考信号，对混合音频信号进行自适应滤波处理，得到过滤后的混合音频信号；

对过滤后的混合音频信号进行非线性处理，消除过滤后的混合音频信号中的残余回声信号。

在其中一个实施例中，对第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号，包括：

以嘉宾音频信号为参考信号，对第一音频信号进行自适应滤波处理，得到处理后的第一音频信号。

在其中一个实施例中，根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号之后，还包括：

将第一音频信号和处理后的混合音频信号进行合成并推送至观众端。

根据本公开实施例的第二方面，提供一种直播音频处理装置，包括：

第一音频信号获取模块，被配置为执行获取根据嘉宾音频信号和主播端的背景音频信号进行混合后的第一音频信号；

第一回声消除模块，被配置为执行对第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号；

语音活动状态检测模块，被配置为执行根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，检测嘉宾端的语音活动状态；

第二回声消除模块，被配置为执行根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号；

第二音频信号合成模块，被配置为执行将处理后的第一音频信号，和处理后的混合音频信号进行合成并推送至嘉宾端。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现如上方法的步骤。

根据本公开实施例的第四方面，提供一种存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上方法的步骤。

根据本公开实施例的第五方面，提供一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化方法步骤的程序。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过将获取的嘉宾音频信号和主播端的背景音频信号合成的第一音频信号进行回声消除。然后，根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，检测嘉宾端的语音活动状态。根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除。最后，将处理后的第一音频信号，和处理后的混合音频信号进行合成并推送至嘉宾端。通过使用两路回声消除协同工作，根据嘉宾端不同的语音活动状态调整对主播端麦克风采集到的声音信号的回声处理方式，使得主播端的主播音频信号能够不被过度的处理，从而保护了主播音频信号，提高了嘉宾端听到的主播声音音质。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1为一个实施例中直播音频处理方法的应用环境图；

图2为一个实施例中直播音频处理方法的流程示意图；

图3为一个实施例中判断嘉宾端语音活动状态的流程示意图；

图4为一个实施例中当嘉宾端为语音状态时，主播端声音信号的回声消除方式的流程示意图；

图5为一个实施例中直播音频处理方法的流程示意图；

图6为一个实施例中直播音频处理装置的结构框图；

图7为一个实施例中电子设备的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“混合”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开提供的直播音频处理方法，可以应用于如图1所示的应用环境中。该应用环境包括主播端110、服务器120和嘉宾端130。其中，主播端110通过网络与服务器120进行通信，嘉宾端130通过网络与服务器120进行通信。主播端110可以事先安装直播伴侣等应用或者插件，使得主播端110可以通过这些应用或者插件进行娱乐直播或者游戏直播。在直播过程中，直播端110安装的应用或者插件可以根据嘉宾端130的实时语音活动状态，调整对主播端110麦克风采集到的声音信号进行回声消除的方式，使主播端110的音频信号能够不被过度消除，从而保护了主播端110的声音音质。具体地，主播端110将获取的嘉宾音频信号和主播端的背景音频信号进行混合形成第一音频信号。主播端110对第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号。然后，根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，检测嘉宾端的语音活动状态。通过根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号。主播端110将处理后的第一音频信号，和处理后的混合音频信号进行合成并推送至嘉宾端130。其中，主播端110和嘉宾端130可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种直播音频处理方法，以该方法应用于图1中的主播端110为例进行说明，包括以下步骤：

步骤202，获取根据嘉宾音频信号和主播端的背景音频信号进行混合形成的第一音频信号。

其中，嘉宾音频信号可以为嘉宾人声信号。主播端的背景音频信号可以是通过主播端本地播放的背景音乐，例如游戏音乐或者连麦K歌音乐等。具体地，主播端接收到嘉宾音频信号和本地播放的背景音频信号后，可以将嘉宾音频信号和背景音频信号进行混合，形成第一音频信号。

步骤204，对第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号。

具体地，由于通过播放器获取的背景音频信号不能被直接用于推送给嘉宾端，因此，在得到第一音频信号后，可以对第一音频信号进行回声消除，消除第一音频信号中的嘉宾音频信号，得到背景音频信号。在本实施例中，可以通过声学回声消除的方式对第一音频信号进行回声消除。

步骤206，根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，检测嘉宾端的语音活动状态。

其中，嘉宾端的语音活动状态的检测(Voice Activity Detection，VAD)可以是指检测当前嘉宾端是否有语音，例如连麦嘉宾是否在说话。若当前在说话状态，可以认为语音活动状态为语音状态；若当前不在说话状态，可以认为语音活动状态为静音状态。具体地，语音活动状态可以通过门限判别类算法、模型匹配类算法等方式检测得到。以门限判别类算法为例，可以通过检测接收到的一定时长的嘉宾音频帧中的音频能量，判断嘉宾端的语音活动状态。同时，还可以进一步检测一定时长回声消除前的第一音频帧能量(即嘉宾音频信号和主播端的背景音频信号合成的音频)和回声消除后的第一音频帧能量(即回声消除后得到的背景音频信号)，来判断嘉宾端的语音活动状态，从而可以提高判断语音活动状态的准确性。

步骤208，根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号。

具体地，由于主播端麦克风采集声音信号中的回声主要是第一音频信号产生的。第一音频信号中的背景音频信号回声如果消除不彻底可以用内混的背景音频信号掩蔽，因此第一音频信号中的嘉宾音频信号回声是主要需要彻底消除的回声。因此，可以根据嘉宾端的语音活动状态，对麦克风采集的混合音频信号进行不同程度的回声消除。当检测嘉宾端的语音活动状态为不说话或者静音状态时，可以对混合音频信号采用较轻程度的回声消除方式，消除混合音频信号中的第一音频信号，得到主播音频信号；当检测嘉宾端的语音活动状态为说话或者语音状态时，为了完全消除嘉宾音频信号回声，可以对混合音频信号采用强度较强的回声消除方式。

步骤210，将处理后的第一音频信号，和处理后的混合音频信号进行合成并推送至嘉宾端。

具体地，在通过对第一音频信号进行回声消除得到背景音频信号，并通过对主播端麦克风采集的混合音频信号进行回声消除得到主播音频信号后，可以将得到的背景音频信号和主播音频信号进行混音推送至嘉宾端。

上述直播音频处理方法，通过根据嘉宾端不同的语音活动状态，调整对主播端麦克风采集的第一音频信号和主播音频信号组成的混合音频信号进行回声消除的方式，并使用该方式对混合音频信号中的第一音频信号进行回声消除，使得主播端的主播信号能够不被过度的处理，从而保护了主播音频信号，提高了嘉宾端听到的主播声音音质。

在一个实施例中，如图3所示，根据所述嘉宾音频信号、所述第一音频信号和所述处理后的第一音频信号，检测嘉宾端的语音活动状态，包括以下步骤：

步骤302，根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，分别计算得到嘉宾音频能量、第一音频能量和处理后的第一音频能量。

在本实施例中，可以使用门限判别类算法检测嘉宾端的语音活动状态。具体地，可以采用以下公式测量一个音频帧的嘉宾音频能量、第一音频能量和处理后的第一音频能量(即回声消除后得到的背景音频能量)：

其中，E(n)代表第n个音频帧的能量；L代表音频帧的长度，可以但不限于设定L为20ms；S代表音频信号。

步骤304，当判断嘉宾音频能量小于第一阈值，且处理后的第一音频能量和第一音频能量的比值大于第二阈值时，则检测语音活动状态为静音状态。

具体地，假设测量第n个音频帧的嘉宾音频能量为E₁，第一音频能量为E_in，处理后的第一音频能量为E_out，第一阈值为Th₁，第二阈值为Th₂。若判断E₁＜Th₁，可以认为此时嘉宾端处于静音状态。进一步地，继续判断处理后的第一音频能量E_out和第一音频能量E_in的比值E_out/E_in＞Th₂，可以认为第一音频信号中的嘉宾音频信号占比很少，即主播端接收到的嘉宾音频信号很少。因此，可以判断此时嘉宾端处于静音状态。

步骤306，当判断嘉宾音频信号能量大于第一阈值，或者处理后的第一音频能量和第一音频能量的比值小于第二阈值时，则检测语音活动状态为语音状态。

具体地，若判断E₁＞Th₁，可以认为此时嘉宾端处于语音状态。进一步地，继续判断处理后的第一音频能量E_out和第一音频能量E_in的比值E_out/E_in＜Th₂，可以认为第一音频信号中的嘉宾音频信号占比较大，即主播端接收到的嘉宾音频信号较多。因此，可以判断此时嘉宾端处于语音状态。在本实施例中，第一阈值为Th₁可以但不限于是0.001，Th₂可以但不限于是0.9。

本实施例中，通过根据嘉宾音频能量、主播播放端接收到的消除前和回声消除后的音频能量判断嘉宾端的语音活动状态，可以提高语音活动状态检测的准确性。

在一个实施例中，根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号，包括：当检测语音活动状态为静音状态时，以第一音频信号为参考信号，对混合音频信号进行自适应滤波处理，过滤混合音频信号中的第一音频信号。

具体地，若检测嘉宾端为静音状态，可以认为此时主播端麦克风采集的混合音频信号中没有或者有很少的嘉宾音频信号回声，那么可以使用自适应滤波器对混合音频信号进行一个程度较轻的回声消除。将第一音频信号作为参考信号，通过线性叠加的方式获得麦克风采集到的回声信号的估计值。从麦克风采集到的混合音频信号中减去该回声信号的估计值，就可以实现对混合音频信号进行回声消除，得到主播音频信号。进一步地，若主播端采集的混合音频信号中有很少的嘉宾音频信号回声，由于通过线性叠加的方式获得的回声信号估计值与麦克风采集到的嘉宾音频信号存在偏差，所以通过自适应滤波的方式无法将嘉宾音频信号回声完全消除掉。这种情况下，可以对过滤后的混合音频信号采用一个轻度的非线性处理(Non-linear Process，NLP)，既能彻底消除嘉宾音频信号回声，同时又能保护主播端声音音质。本实施例中，当嘉宾端为静音状态时，通过对麦克风采集到的声音信号进行轻量级的回声消除，可以保护主播端音频信号，从而改善嘉宾端听到的主播声音音质。

在一个实施例中，如图4所示，根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号，包括：

步骤402，当检测语音活动状态为语音状态时，以第一音频信号为参考信号，对混合音频信号进行自适应滤波处理，得到过滤后的混合音频信号。

具体地，若检测嘉宾端为语音状态，可以认为此时主播端麦克风采集的混合音频信号中有程度较强的嘉宾音频信号回声，那么可以使用对混合音频信号进行一个程度较强的回声消除。首先，可以将第一音频信号作为参考信号，通过自适应滤波线性叠加的方式获得麦克风采集到的回声信号的估计值。从麦克风采集到的混合音频信号中减去该回声信号的估计值，对混合音频信号进行过滤。

步骤404，对过滤后的混合音频信号进行非线性处理，消除过滤后的混合音频信号中的残余回声信号。

具体地，由于通过线性叠加的方式获得的回声信号估计值与麦克风采集到的嘉宾音频信号存在偏差，所以通过自适应滤波的方式无法将嘉宾音频信号回声完全消除掉，会有残余回声。可以进一步通过对过滤后的混合音频信号进行非线性处理，消除残余回声信号。非线性处理的输入包含两路信号，一路是经过自适应滤波线性处理后的残余回声信号，可以记为err，另一路是自适应滤波估计的回声信号，可以记为echo。将err和echo通过傅里叶FFT变换到频域信号，即Err＝FFT(err),Echo＝FFT(echo)。接着，可以计算Err和Echo幅度谱的信噪比Snr(k)，Snr(k)＝|Err(k)|/|Echo(k)|。若某个频点k的信噪比Snr(k)较低，可以认为输入的主要是残余回声信号，则Err(k)加权一个低增益；若某个频点k的Snr(k)较高，可以认为输入的主要是主播端音频信号，则Err(k)加权一个高增益。最后，将加权后得到的Err’通过傅里叶反变换到时域，即err'＝IFFT(Err')，输出的err’信号里进一步去除了残余回声。

本实施例中，当嘉宾端为语音状态时，通过对麦克风采集到的声音信号进行程度较强的回声消除，可以彻底消除嘉宾音频信号回声的干扰。

在一个实施例中，对第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号，包括：以嘉宾音频信号为参考信号，对第一音频信号进行自适应滤波处理，得到处理后的第一音频信号。

具体地，可以使用自适应滤波器对主播端播放器接收到的第一音频信号进行回声消除。将嘉宾音频信号作为参考信号，可以通过线性叠加的方式获得获取到的回声信号的估计值。从获取到的第一音频信号中减去该回声信号的估计值，就可以实现对第一音频信号进行回声消除，从而分离得到背景音频信号。

在一个实施例中，根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号之后，还包括：将第一音频信号和处理后的混合音频信号进行合成并推送至观众端。

具体地，在直播场景中还包括观众端。可以将处理后的混合音频信号(即回声消除得到的主播音频信号)和第一音频信号(即嘉宾音频信号和主播端的背景音频信号)进行混音，得到推送给观众端的音频信号。这样不仅可以使观众能够同时听到主播音频信号，嘉宾音频信号和主播端的背景音频信号，还可以改善观众听到的声音音质。

在一个实施例中，如图5所示，通过一个具体实施例说明直播音频处理方法，包括以下步骤：

步骤501，获取嘉宾音频信号。

步骤502，获取主播端播放器播放的背景音频信号。

步骤503，将获取的嘉宾音频信号和背景音频信号进行混合形成第一音频信号。

步骤504，使用外放扬声器播放第一音频信号。

步骤505，使用麦克风采集第一音频信号和主播音频信号，得到混合音频信号。

步骤506，对第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号，即背景音频信号。

具体地，以嘉宾音频信号为参考信号，对第一音频信号进行自适应滤波处理，得到处理后的第一音频信号。

步骤507，检测嘉宾端的语音活动状态。根据不同的语音活动状态，调整对麦克风采集的第一音频信号和主播音频信号组成的混合音频信号进行回声消除的方式。

具体地，可以根据嘉宾音频能量、第一音频能量和处理后的第一音频能量，检测嘉宾端的语音活动状态。当判断嘉宾音频能量小于第一阈值，且处理后的第一音频能量和第一音频能量的比值大于第二阈值时，则检测语音活动状态为静音状态；当判断嘉宾音频信号能量大于第一阈值，或者处理后的第一音频能量和第一音频能量的比值小于第二阈值时，则检测语音活动状态为语音状态。

步骤508，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号。

具体地，当检测语音活动状态为静音状态时，以第一音频信号为参考信号，对混合音频信号进行自适应滤波处理，过滤混合音频信号中的第一音频信号。当检测语音活动状态为语音状态时，以第一音频信号为参考信号，对混合音频信号进行自适应滤波处理，得到过滤后的混合音频信号；对过滤后的混合音频信号进行非线性处理，消除过滤后的混合音频信号中的残余回声信号。

步骤509，将处理后的第一音频信号，和处理后的混合音频信号进行合成并推送至所述嘉宾端。

步骤510，将第一音频信号和处理后的混合音频信号进行合成并推送至观众端。

应该理解的是，虽然图1-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种直播音频处理装置600，包括：第一音频信号获取模块601、第一回声消除模块602、语音活动状态检测模块603、第二回声消除模块604和第二音频信号合成模块605，其中：

第一音频信号获取模块601，被配置为执行获取根据嘉宾音频信号和主播端的背景音频信号进行混合形成的第一音频信号；

第一回声消除模块602，被配置为执行对第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号；

语音活动状态检测模块603，被配置为执行根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，检测嘉宾端的语音活动状态；

第二回声消除模块604，被配置为执行根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号；

第二音频信号合成模块605，被配置为执行将处理后的第一音频信号，和处理后的混合音频信号进行合成并推送至嘉宾端。

在一个实施例中，语音活动状态检测模块603还被配置为执行根据嘉宾音频信号、述第一音频信号和处理后的第一音频信号，分别计算得到嘉宾音频能量，第一音频能量和处理后的第一音频能量；当判断嘉宾音频能量小于第一阈值，且处理后的第一音频能量和第一音频能量的比值大于第二阈值时，则检测语音活动状态为静音状态；当判断嘉宾音频信号能量大于第一阈值，或者处理后的第一音频能量和第一音频能量的比值小于第二阈值时，则检测语音活动状态为语音状态。

在一个实施例中，第二回声消除模块604被配置为执行当检测所述语音活动状态为静音状态时，以所述第一音频信号为参考信号，对所述混合音频信号进行自适应滤波处理，过滤所述混合音频信号中的第一音频信号。

在一个实施例中，第二回声消除模块604被配置为执行当检测语音活动状态为语音状态时，以第一音频信号为参考信号，对混合音频信号进行自适应滤波处理，得到过滤后的混合音频信号；对过滤后的混合音频信号进行非线性处理，消除过滤后的混合音频信号中的残余回声信号。

在一个实施例中，第一回声消除模块602被配置为执行以嘉宾音频信号为参考信号，对第一音频信号进行自适应滤波处理，得到处理后的第一音频信号。

在一个实施例中，直播音频处理装置600还包括第三音频信号合成模块，被配置为执行将第一音频信号和处理后的混合音频信号进行合成并推送至观众端。

关于直播音频处理装置的具体限定可以参见上文中对于直播音频处理方法的限定，在此不再赘述。上述直播音频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备，该电子设备可以是终端，其内部结构图可以如图7所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和指令。该内存储器为非易失性存储介质中的操作系统和指令的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该指令被处理器执行时以实现一种直播音频处理方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种电子设备，包括存储器和处理器，存储器中存储有处理器可执行指令，该处理器执行指令时实现以下步骤：

获取根据嘉宾音频信号和主播端的背景音频信号进行混合形成的第一音频信号；对第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号；根据嘉宾音频信号、第一音频信号和处理后的第一音频信号，检测嘉宾端的语音活动状态；根据不同的语音活动状态和第一音频信号，对混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号；将处理后的第一音频信号，和处理后的混合音频信号进行合成并推送至嘉宾端。

在一个实施例中，处理器执行指令时还实现以下步骤：

根据嘉宾音频信号、述第一音频信号和处理后的第一音频信号，分别计算得到嘉宾音频能量、第一音频能量和处理后的第一音频能量；当判断嘉宾音频能量小于第一阈值，且处理后的第一音频能量和第一音频能量的比值大于第二阈值时，则检测语音活动状态为静音状态；当判断嘉宾音频信号能量大于第一阈值，或者处理后的第一音频能量和第一音频能量的比值小于第二阈值时，则检测语音活动状态为语音状态。

在一个实施例中，处理器执行指令时还实现以下步骤：

当检测语音活动状态为语音状态时，以第一音频信号为参考信号，对混合音频信号进行自适应滤波处理，得到过滤后的混合音频信号；对过滤后的混合音频信号进行非线性处理，消除过滤后的混合音频信号中的残余回声信号。

在一个实施例中，处理器执行指令时还实现以下步骤：

在一个实施例中，提供了一种存储介质，其上存储有处理器可执行指令，指令被处理器执行时实现以下步骤：

在一个实施例中，指令被处理器执行时还实现以下步骤：

在一个实施例中，还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过指令来完成，所述的指令可存储于一非易失性计算机可读取存储介质中，该指令在执行时，可包括如上述各方法的实施例的流程。其中，本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本公开的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本公开构思的前提下，还可以做出若干变形和改进，这些都属于本公开的保护范围。因此，本公开专利的保护范围应以所附权利要求为准。

Claims

1.一种直播音频处理方法，应用于直播连麦场景下的主播端，其特征在于，所述方法包括：

获取根据嘉宾音频信号和所述主播端的背景音频信号进行混合形成的第一音频信号并播放；

通过麦克风采集播放的所述第一音频信号和主播音频信号，得到混合音频信号；

根据所述嘉宾音频信号对所述第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的所述第一音频信号；

根据所述嘉宾音频信号、所述第一音频信号和所述处理后的第一音频信号，检测嘉宾端的语音活动状态；

根据不同的所述语音活动状态和所述第一音频信号，对所述混合音频信号中的第一音频信号进行回声消除，得到处理后的所述混合音频信号；

将处理后的所述第一音频信号和处理后的所述混合音频信号进行合成并推送至所述嘉宾端；

将所述第一音频信号和处理后的所述混合音频信号进行合成并推送至观众端。

2.根据权利要求1所述的方法，其特征在于，所述根据所述嘉宾音频信号、所述第一音频信号和处理后的所述第一音频信号，检测嘉宾端的语音活动状态，包括：

根据所述嘉宾音频信号、所述第一音频信号和处理后的所述第一音频信号，分别计算得到嘉宾音频能量、第一音频能量和处理后的第一音频能量；

当判断所述嘉宾音频能量小于第一阈值，且处理后的所述第一音频能量和所述第一音频能量的比值大于第二阈值时，则检测所述语音活动状态为静音状态；

当判断所述嘉宾音频信号能量大于所述第一阈值，或者处理后的所述第一音频能量和所述第一音频能量的比值小于所述第二阈值时，则检测所述语音活动状态为语音状态。

3.根据权利要求2所述的方法，其特征在于，所述根据不同的所述语音活动状态和所述第一音频信号，对所述混合音频信号中的第一音频信号进行回声消除，得到处理后的所述混合音频信号，包括：

当检测所述语音活动状态为静音状态时，以所述第一音频信号为参考信号，对所述混合音频信号进行自适应滤波处理，过滤所述混合音频信号中的第一音频信号。

4.根据权利要求2所述的方法，其特征在于，所述根据不同的所述语音活动状态和所述第一音频信号，对所述混合音频信号中的第一音频信号进行回声消除，得到处理后的所述混合音频信号，包括：

当检测所述语音活动状态为语音状态时，以所述第一音频信号为参考信号，对所述混合音频信号进行自适应滤波处理，得到过滤后的混合音频信号；

对过滤后的所述混合音频信号进行非线性处理，消除所述过滤后的混合音频信号中的残余回声信号。

5.根据权利要求1所述的方法，其特征在于，所述对所述第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号，包括：

以所述嘉宾音频信号为参考信号，对所述第一音频信号进行自适应滤波处理，得到所述处理后的第一音频信号。

6.一种直播音频处理装置，应用于直播连麦场景下的主播端，其特征在于，所述装置包括：

第一音频信号获取模块，被配置为执行获取根据嘉宾音频信号和所述主播端的背景音频信号进行混合形成的第一音频信号并播放；通过麦克风采集播放的所述第一音频信号和主播音频信号，得到混合音频信号；

第一回声消除模块，被配置为执行根据所述嘉宾音频信号对所述第一音频信号中的嘉宾音频信号进行回声消除，得到处理后的第一音频信号；

语音活动状态检测模块，被配置为执行根据所述嘉宾音频信号、所述第一音频信号和所述处理后的第一音频信号，检测嘉宾端的语音活动状态；

第二回声消除模块，被配置为执行根据不同的所述语音活动状态和所述第一音频信号，对所述混合音频信号中的第一音频信号进行回声消除，得到处理后的混合音频信号；

第二音频信号合成模块，被配置为执行将处理后的所述第一音频信号和处理后的所述混合音频信号进行合成并推送至所述嘉宾端；

第三音频信号合成模块，被配置为执行将所述第一音频信号和处理后的所述混合音频信号进行合成并推送至观众端。

7.根据权利要求6所述的装置，其特征在于，所述语音活动状态检测模块还被配置为执行：

根据所述嘉宾音频信号、所述第一音频信号和处理后的所述第一音频信号，分别计算得到嘉宾音频能量，第一音频能量和处理后的所述第一音频能量；

8.根据权利要求6所述的装置，其特征在于，第二回声消除模块，被配置为执行当检测所述语音活动状态为静音状态时，以所述第一音频信号为参考信号，对所述混合音频信号进行自适应滤波处理，过滤所述混合音频信号中的第一音频信号。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的直播音频处理方法。

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至5中任一项所述的直播音频处理方法。