CN107533849B

CN107533849B - 基于麦克风音频信号来处理输入耳机音频信号的音频信号处理装置

Info

Publication number: CN107533849B
Application number: CN201580079128.4A
Authority: CN
Inventors: 克里斯托弗·富勒; 亚历克西斯·法夫罗; 彼得·格罗舍; 郎玥
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-04-23
Filing date: 2015-04-23
Publication date: 2021-06-29
Anticipated expiration: 2035-04-23
Also published as: WO2016169604A1; CN107533849A; EP3274993A1; EP3274993B1; US10403301B2; US20180040335A1

Abstract

本发明涉及一种基于麦克风音频信号(y)来处理输入耳机音频信号(x)的音频信号处理装置(100)，所述音频信号处理装置(100)包括：语音活动检测器(101)，用于基于所述输入耳机音频信号(x)来确定语音活动指示信号(x_vad)；噪声幅度确定器(103)，用于基于所述麦克风音频信号(y)来确定麦克风噪声幅度指示信号(w_y)；增益因子确定器(105)，用于基于所述语音活动指示信号(x_vad)和所述麦克风噪声幅度指示信号(w_y)来确定增益因子信号(Δ_G)；加权器(107)，用于通过所述增益因子信号(Δ_G)对所述输入耳机音频信号(x)进行加权，以获得输出耳机音频信号。

Description

基于麦克风音频信号来处理输入耳机音频信号的音频信号处理装置

技术领域

本发明涉及音频信号处理领域，尤其涉及移动通信设备中的耳机音频信号增强。

背景技术

移动通信设备可以在不同的环境条件下进行通信。这些环境条件可以很大程度上影响通信质量，通常会考虑到两种类型的噪声源。在远端侧，远端麦克风将噪声连同所需的语义分量一起采集并传输到近端侧。在近端侧，语音清晰度可能会受到近端噪声的影响，即附近的噪声源掩蔽了耳机音频信号。

通常是在远端侧通过使用如噪声消除、噪声抑制、波束成形等不同的音频信号处理技术进行处理来增强噪声干扰下的对话质量。然而这些技术的缺点在于，这种增强仅适用于远端侧的麦克风信号，该信号传输到近端侧后，参与者可以感受到增强效果，但在另一侧，增强效果可能并不明显。

此外，自适应增益或均衡控制技术可以应用于近端侧。这些技术使得耳机音频信号的自适应增益或均衡控制作为本地背景噪声幅度和耳机音频信号统计数据的函数，其中耳机音频信号的响度以频率相关的方式进行调整，使得耳机音频信号不被本地背景噪声掩蔽。然而，为了比较耳机音频信号和本地背景噪声两者的频谱分量，对人类感知和语音清晰度做出了假设，这样，在适应各种变化的噪声幅度的同时，这些技术变得复杂且发展缓慢。另外，为了仅在近端参与者沉默时估计背景噪声幅度，对麦克风音频信号进行了复杂的语音活动检测(voice activity detection，VAD)。

F.Felber在2011年第34届IEEE萨诺夫研讨会上的“保持清晰度的自动音量控制(An automatic volume control for preserving intelligibility)”中描述了一种用于耳机音频信号的自适应增益技术。

A.Goldin、M.Tzur Zibulski在2001年的音频工程协会公约110的“嘈杂环境中的声音均衡(Sound equalization in a noisy environment)”中描述了一种用于耳机音频信号的均衡控制技术。

B.Sauert、F.Heese、P.Vary在2014年的IEEE国际声学、语音和信号处理会议上的“手机的实时近端听力增强(Real-time near-end listening enhancement for mobilephones)”中描述了又一种用于耳机音频信号的均衡控制技术。

发明内容

本发明的目的是提供一种基于麦克风音频信号来处理输入耳机音频信号的有效概念。

该目的由独立权利要求的特征来实现。更多实施方式从从属权利要求、描述内容和附图中显而易见。

本发明基于以下发现：为了在远端侧参与者说话时进行检测并且在远端侧参与者说话时基于麦克风音频信号来确定近端侧的噪声估计，可以对耳机音频信号进行语音活动检测(voice activity detection，VAD)。当远端侧参与者说话时，近端侧参与者通常沉默，因为双方同时说话通常很少见。因此，实现了近端侧耳机音频信号的自适应增强。

根据第一方面，本发明涉及一种基于麦克风音频信号来处理输入耳机音频信号的音频信号处理装置，所述输入耳机音频信号与所述麦克风音频信号相关联，所述音频信号处理装置包括：语音活动检测器，用于基于所述输入耳机音频信号来确定语音活动指示信号，其中所述语音活动指示信号指示所述输入耳机音频信号内的语音分量的幅度；噪声幅度确定器，用于基于所述麦克风音频信号来确定麦克风噪声幅度指示信号，其中所述麦克风噪声幅度指示信号指示所述麦克风音频信号内的噪声分量的幅度；增益因子确定器，用于基于所述语音活动指示信号和所述麦克风噪声幅度指示信号来确定增益因子信号，其中所述增益因子信号指示与所述输入耳机音频信号相关联的增益；加权器，用于通过所述增益因子信号对所述输入耳机音频信号加权，以获得输出耳机音频信号，从而实现了一种基于所述麦克风音频信号来处理所述输入耳机音频信号的有效概念。所述音频信号处理装置能够基于所述麦克风音频信号来有效地调整所述输入耳机音频信号的幅度并且能够有效地减轻近端侧噪声影响。幅度可等同地称为电平。加权可以包括乘法。

根据如上所述第一方面，在所述音频信号处理装置的第一实施形式中，所述语音活动检测器还用于基于所述输入耳机音频信号来确定耳机噪声幅度指示信号，其中所述耳机噪声幅度指示信号指示所述输入耳机音频信号内的噪声分量的幅度；所述语音活动检测器还用于基于所述耳机噪声幅度指示信号来确定所述语音活动指示信号，从而稳健且有效地确定所述语音活动指示信号。

可以对所述输入耳机音频信号使用最小统计方法和双侧时间平滑。可以在一个预定时长的时间窗口上评估所述最小统计数据。可以使用递归无限脉冲响应(infiniteimpulse response，IIR)低通滤波器来实现所述双侧时间平滑。

根据如上所述第一方面或所述第一方面的任意前述实施形式，在所述音频信号处理装置的第二实施形式中，所述语音活动检测器还用于确定第一包络指示信号和第二包络指示信号，其中所述第一包络指示信号指示所述输入耳机音频信号的第一包络的幅度，所述第二包络指示信号指示所述输入耳机音频信号的第二包络的幅度；所述语音活动检测器还用于基于所述第一包络指示信号和所述第二包络指示信号来确定所述语音活动指示信号，从而稳健且有效地确定所述语音活动指示信号。

可以对所述输入耳机音频信号使用两侧时间平滑。可以使用递归无限脉冲响应(infinite impulse response，IIR)低通滤波器来实现所述双侧时间平滑。

所述第一包络指示信号可以涉及所述输入耳机音频信号的慢包络。所述第二包络指示信号可以涉及所述输入耳机音频信号的快包络。

根据如上所述的第一方面或所述第一方面的任意前述实施形式，在所述音频信号处理装置的第三实施形式中，所述语音活动检测器还用于按照预定语音活动指示限制范围对所述语音活动指示信号进行限制，从而稳健地提供所述语音活动指示信号。

所述预定语音活动指示限制范围可以是范围[0；1]等。对所述语音活动指示信号的限制可以包括对所述语音活动指示信号的归一化。

根据如上所述的第一方面或所述第一方面的任意前述实施形式，在所述音频信号处理装置的第四实施形式中，所述语音活动检测器还用于基于预定平滑滤波函数及时对所述语音活动指示信号进行滤波，从而有效地减轻所述语音活动指示信号的快速波动值。

所述预定平滑滤波函数可以是低通滤波函数。

根据如上所述的第一方面或所述第一方面的任意前述实施形式，在所述音频信号处理装置的第五实施形式中，所述噪声幅度确定器还用于基于所述语音活动指示信号来确定所述麦克风噪声幅度指示信号，从而稳健且有效地确定所述麦克风噪声幅度指示信号。

所述输入耳机音频信号内的高语音分量可以对应于所述麦克风音频信号内的低语音分量。

可以使用递归无限脉冲响应(infinite impulse response，IIR)低通滤波器来实现单侧时间平滑。所述语音活动指示信号可以用作时间相关滤波器系数。

根据如上所述第一方面或所述第一方面的任意前述实施形式，在所述音频信号处理装置的第六实施形式中，所述增益因子确定器还用于将所述麦克风噪声幅度指示信号与预定噪声幅度阈值进行比较；所述增益因子确定器还用于：如果所述麦克风噪声幅度指示信号大于所述预定噪声幅度阈值，确定所述增益因子信号。因此，如果所述麦克风噪声幅度指示信号超过所述预定噪声幅度阈值，则对所述输入耳机音频信号进行加权。

所述预定噪声幅度阈值可能涉及关于近端噪声的烦扰阈值。

根据如上所述第一方面或所述第一方面的任意前述实施形式，在所述音频信号处理装置的第七实施形式中，所述增益因子确定器还用于将所述语音活动指示信号与预定语音活动阈值进行比较；所述增益因子确定器还用于：如果所述语音活动指示信号大于所述预定语音活动阈值，确定所述增益因子信号。因此，如果所述语音活动指示信号超过所述预定语音活动阈值，则对所述输入耳机音频信号进行加权。

所述预定语音活动阈值可能涉及语音分量存在于所述输入耳机音频信号内的阈值。

根据如上所述第一方面或所述第一方面的任一前述实施形式，在所述信号处理装置的第八实施形式中，所述增益因子确定器还用于根据以下等式确定所述增益因子信号：

其中Δ_G表示所述增益因子信号，w_y表示所述麦克风噪声幅度指示信号，η_wy表示预定噪声幅度阈值，x_vad表示所述语音活动指示信号，n表示样本索引，从而有效地确定所述增益因子信号。

根据如上所述的第一方面或所述第一方面的任意前述实施形式，在所述音频信号处理装置的第九实施形式中，所述增益因子确定器还用于按照预定增益因子限制范围对所述增益因子信号进行限制，从而有效地提供所述增益因子信号。

所述预定增益因子限制范围可以是范围[1；Δ_G0]等，其中Δ_G0表示所述增益因子信号的预定最大值。对所述增益因子信号进行限制可以包括对所述增益因子信号进行归一化。

根据如上所述的第一方面或所述第一方面的任意前述实施形式，在所述音频信号处理装置的第十实施形式中，所述增益因子确定器还用于基于又一预定平滑滤波函数及时对所述增益因子信号进行滤波，从而有效地减轻所述增益因子信号的快速波动值。

所述又一预定平滑滤波函数可以是又一低通滤波函数。

根据如上所述第一方面或所述第一方面的任一前述实施形式，在所述信号处理装置的第十一实施形式中，所述加权器还用于通过预定用户增益因子对所述输入耳机音频信号进行加权，从而有效地应用由用户确定的增益因子。

根据如上所述第一方面或所述第一方面的任意前述实施形式，在所述音频信号处理装置的第十二实施形式中，所述音频信号处理装置还包括通信接口，所述通信接口用于：通过通信网络接收所述输入耳机音频信号，通过所述通信网络传输所述麦克风音频信号，从而由所述音频信号处理装置形成了用于通过所述通信网络进行通信的通信设备。

所述音频信号处理装置还可以包括耳机，所述耳机用于发出所述输出耳机音频信号。所述音频信号处理装置还可以包括麦克风，所述麦克风用于提供所述麦克风音频信号。

根据第二方面，本发明涉及一种基于麦克风音频信号来处理输入耳机音频信号的音频信号处理方法，其中所述输入耳机音频信号与所述麦克风音频信号相关联，所述音频信号处理方法包括：语音活动检测器基于所述输入耳机音频信号来确定语音活动指示信号，其中所述语音活动指示信号指示所述输入耳机音频信号内的语音分量的幅度；噪声幅度确定器基于所述麦克风音频信号来确定麦克风噪声幅度指示信号，其中所述麦克风噪声幅度指示信号指示所述麦克风音频信号内的噪声分量的幅度；增益因子确定器基于所述语音活动指示信号和所述麦克风噪声幅度指示信号来确定增益因子信号，其中所述增益因子信号指示与所述输入耳机音频信号相关联的增益；加权器通过所述增益因子信号对所述输入耳机音频信号进行加权，以获得输出耳机音频信号。从而实现了一种基于所述麦克风音频信号处理所述输入耳机音频信号的有效概念。

所述音频信号处理方法可以由所述音频信号处理装置执行。所述音频信号处理方法的更多特征直接由所述音频信号处理装置的功能产生。

根据如上所述第二方面，在所述音频信号处理方法的第一实施形式中，所述方法还包括：所述语音活动检测器基于所述输入耳机音频信号来确定耳机噪声幅度指示信号，其中所述耳机噪声幅度指示信号指示所述输入耳机音频信号中的噪声分量的幅度；所述语音活动检测器基于所述耳机噪声幅度指示信号来确定所述语音活动指示信号，从而有效地确定所述语音活动指示信号。

根据如上所述第二方面或所述第二方面的任意前述实施形式，在所述音频信号处理方法的第二实施形式中，所述方法还包括：所述语音活动检测器确定第一包络指示信号和第二包络指示信号，其中所述第一包络指示信号指示所述输入耳机音频信号的第一包络的幅度，所述第二包络指示信号指示所述输入耳机音频信号的第二包络的幅度；所述语音活动检测器基于所述第一包络指示信号和所述第二包络指示信号来确定所述语音活动指示信号，从而有效地确定所述语音活动指示信号。

根据如上所述的第二方面或所述第二方面的任意前述实施形式，在所述音频信号处理方法的第三实施形式中，所述方法还包括所述语音活动检测器按照预定语音活动指示限制范围对所述语音活动指示信号进行限制，从而有效地提供所述语音活动指示信号。

根据如上所述的第二方面或所述第二方面的任意前述实施形式，在所述音频信号处理方法的第四实施形式中，所述方法还包括所述语音活动检测器基于预定平滑滤波函数及时对所述语音活动指示信号进行滤波，从而有效地减轻所述语音活动指示信号的快速波动值。

根据如上所述的第二方面或所述第二方面的任意前述实施形式，在所述音频信号处理方法的第五实施形式中，所述方法还包括所述噪声幅度确定器基于所述语音活动指示信号确定所述麦克风噪声幅度指示信号，从而有效地确定所述麦克风噪声幅度指示信号。

根据如上所述第二方面或所述第二方面的任意前述实施形式，在所述音频信号处理方法的第六实施形式中，所述方法还包括：所述增益因子确定器将所述麦克风噪声幅度指示信号与预定噪声幅度阈值进行比较；如果所述麦克风噪声幅度指示信号大于所述预定噪声幅度阈值，所述增益因子确定器确定所述增益因子信号。因此，如果所述麦克风噪声幅度指示信号超过所述预定噪声幅度阈值，则对所述输入耳机音频信号进行加权。

根据如上所述第二方面或所述第二方面的任意前述实施形式，在所述音频信号处理方法的第七实施形式中，所述方法还包括：所述增益因子确定器将所述语音活动指示信号与预定语音活动阈值进行比较；如果所述语音活动指示信号大于所述预定语音活动阈值，所述增益因子确定器确定所述增益因子信号。因此，如果所述语音活动指示信号超过所述预定语音活动阈值，则对所述输入耳机音频信号进行加权。

根据如上所述第二方面或所述第二方面的任一前述实施形式，在所述信号处理方法的第八实施形式中，所述方法还包括所述增益因子确定器根据以下等式确定所述增益因子信号：

根据如上所述的第二方面或所述第二方面的任意前述实施形式，在所述音频信号处理方法的第九实施形式中，所述方法还包括所述增益因子确定器按照预定增益因子限制范围对所述增益因子信号进行限制，从而有效地提供所述增益因子信号。

根据如上所述的第二方面或所述第二方面的任意前述实施形式，在所述音频信号处理方法的第十实施形式中，所述方法还包括所述增益因子确定器基于又一预定平滑滤波函数及时对所述增益因子信号进行滤波，从而有效地减轻所述增益因子信号的快速波动值。

根据如上所述第二方面或所述第二方面的任意前述实施形式，在所述信号处理方法的第十一实施形式中，所述方法还包括所述加权器通过预定用户增益因子对所述输入耳机音频信号进行加权，从而有效地应用由用户确定的增益因子。

根据如上所述第二方面或所述第二方面的任意前述实施形式，在所述音频信号处理方法的第十二实施形式中，所述方法还包括：通信接口通过通信网络接收所述输入耳机音频信号，所述通信接口通过所述通信网络传输所述麦克风音频信号，从而通过所述音频信号处理方法执行通过所述通信网络的通信。

根据第三方面，本发明涉及一种包括程序代码的计算机程序，用于在计算机上执行时执行所述方法，从而以自动且可重复的方式执行所述音频信号处理方法。

所述音频信号处理装置可以可编程地设置以执行所述计算机程序。

本发明可以在硬件和/或软件中实施。

附图说明

本发明的是实施例将结合以下附图进行描述，其中：

图1示出了根据一实施例的基于麦克风音频信号来处理输入耳机音频信号的音频信号处理装置的图；

图2示出了根据一实施例的基于麦克风音频信号来处理输入耳机音频信号的音频信号处理方法的图；

图3示出了根据一实施例的基于麦克风音频信号来处理输入耳机音频信号的音频信号处理装置的图。

具体实施方式

图1示出了根据一实施例的基于麦克风音频信号y处理输入耳机音频信号x的音频信号处理装置100的图。输入耳机音频信号x与麦克风音频信号y相关联。

音频信号处理装置100包括：语音活动检测器101，用于基于输入耳机音频信号x确定语音活动指示信号x_vad，其中语音活动指示信号x_vad指示输入耳机音频信号x内的语音分量的幅度；噪声幅度确定器103，用于基于麦克风音频信号y确定麦克风噪声幅度指示信号w_y，其中麦克风噪声幅度指示信号w_y指示麦克风音频信号y内的语音分量的幅度；增益因子确定器105，用于基于语音活动指示信号x_vad和麦克风噪声幅度指示信号w_y确定增益因子信号Δ_G，其中增益因子信号Δ_G表示与输入耳机音频信号x相关联的增益；加权器107，用于通过增益因子信号Δ_G对输入耳机音频信号x进行加权，以获得输出耳机音频信号。

图2示出了根据一实施例的基于麦克风音频信号y处理输入耳机音频信号x的音频信号处理方法200的图。输入耳机音频信号x与麦克风音频信号y相关联。

音频信号处理方法200包括：基于输入耳机音频信号x确定201语音活动指示信号x_vad，其中语音活动指示信号x_vad指示输入耳机音频信号x内的语音分量的幅度；基于麦克风音频信号y确定203麦克风噪声幅度指示信号w_y，其中麦克风噪声幅度指示信号w_y指示麦克风音频信号y内的噪声分量的幅度；基于语音活动指示信号x_vad和麦克风噪声幅度指示信号w_y确定205增益因子信号Δ_G，其中增益因子信号Δ_G指示与输入耳机音频信号x相关联的增益；通过增益因子信号Δ_G对输入耳机音频信号x进行加权207，以获得输出耳机音频信号

在下文中，描述了音频信号处理装置100和音频信号处理方法200的更多实施形式和实施例。

音频信号处理装置100和音频信号处理方法200可以应用于耳机音频信号的自适应增强。音频信号处理装置100和音频信号处理方法200可以特别用于适应由内置麦克风记录的环境噪声的耳机音频信号的自适应增益增强。本发明实施例用于电信移动通信设备内。

使用通信设备进行会话期间的本地背景噪声可能变得很大，使得参与者可能无法清晰地获知耳机音频信号，而另一侧的谈话参与者不受干扰。

由于麦克风309接近嘴巴，可能会使麦克风音频信号具有高的信噪比(signal-to-noise ratio，SNR)，而且对耳机音频信号的清晰度的限制往往比对麦克风音频信号y本身的清晰度的限制要高很多。当近端侧的背景噪声幅度高时，难以保持耳机音频信号清晰。在安静环境中，可以合理地减小耳机音频信号的幅度。音频信号处理可以有助于增强耳机音频信号以获得更好的清晰度并且可以使耳机音频信号的幅度适应于不断变化的环境噪声幅度。

因此，在背景噪声幅度不断变化的环境中，例如城市或街道噪声环境中，参与者可能必须不断地调整耳机音频信号的幅度，才能确保舒适的聆听条件和高的语音清晰度。因此，可以通过修改所接收到的耳机音频信号来提高本地参与者的聆听舒适度，而不对麦克风音频信号y进行额外处理。耳机音频信号可以动态地适应于对话，例如基于本地背景噪声的烦扰程度和耳机音频信号是否向本地参与者传输有用信息等问题。

当环境噪声干扰通信时，本发明实施例使用一种低复杂度方式来放大输入耳机音频信号x。仅在环境噪声干扰通信时放大输入耳机音频信号x。通过对输入耳机音频信号x进行加权来实现放大。

放大可以应用于以下条件成立的情况下：当输入耳机音频信号x活动时，即远端侧参与者正在说话时；当本地背景噪声干扰近端侧的清晰度时。

本发明实施例旨在模拟作为通信设备用户的参与者的行为，该参与者在不断改变的环境噪声的情况下手动调整耳机音频信号的幅度。可以应用两个连续音频信号处理步骤，以便使用麦克风音频信号y确定本地环境噪声幅度，并且当确定的麦克风噪声幅度超过预定噪声幅度阈值η_wy时，将偏移添加到形成耳机增益的预定用户增益因子中。形成耳机增益的预定用户增益因子可以由参与者或用户预先选择。

使用内置麦克风309进行本地噪声估计可以基于语音活动检测(voice activitydetection，VAD)，因为背景噪声仅在参与者不说话时确定。试图在参与者正在说话时确定背景噪声幅度可能会导致噪声估计不正确。这种语音活动检测可能容易出错并且可能无法实施为低复杂度时域方法，尤其是对于嘈杂环境而言。为了实现期望的有益性能，本发明实施例基于以下假设：当远端侧的参与者说话时，近端侧参与者通常沉默，即同时说话通常很少见。

本发明实施例对输入耳机音频信号x稳健地执行语音活动检测，以便检测远端侧的参与者何时说话，并且仅在远端侧的参与者说话时从麦克风音频信号y中获得麦克风噪声幅度指示信号w_y。

由此，可以实现以下优点。通过考虑第一步骤中的输入耳机音频信号x的统计数据，可以假设活动的耳机音频信号很有可能对应于安静的本地参与者，从而可以更可靠地确定麦克风噪声幅度指示信号w_y。在第二步骤中，输入耳机音频信号x的增益仅在以下情况下增加：输入耳机音频信号x是有效的，即包含有用信息而不仅仅包含噪声分量。此外，仅在本地背景噪声干扰通信时调整耳机音频信号的幅度。而且，由于在噪声音频信号上进行语音活动检测结果可能容易出错，所以对输入耳机音频信号x执行语音活动检测可以更加稳健。在具体场景中，可以假设麦克风音频信号y很嘈杂。

由作为通信设备用户的参与者为耳机音频信号定义的音量可以不修改。仅可以使用一个偏移，从而使所描述方法的效果与用户想要与其通信设备交互的方式不相关。本发明实施例中本地耳机音频信号的质量受到本地背景噪声幅度的影响。音频信号处理可以直接有益于参与者，而不是对话另一侧的对应参与者。

图3示出了根据一实施例的用于基于麦克风音频信号y处理输入耳机音频信号x的音频信号处理装置100的图。输入耳机音频信号x与麦克风音频信号y相关联。该图示出了麦克风音频信号y的噪声估计和耳机音频信号x的增益偏移调整。

音频信号处理装置100包括：语音活动检测器101，用于基于输入耳机音频信号x确定语音活动指示信号x_vad，其中语音活动指示信号x_vad指示输入耳机音频信号x内的语音分量的幅度；噪声幅度确定器103，用于基于麦克风音频信号y确定麦克风噪声幅度指示信号w_y，其中麦克风噪声幅度指示信号w_y指示麦克风音频信号y内的语音分量的幅度；增益因子确定器105，用于基于语音活动指示信号x_vad和麦克风噪声幅度指示信号w_y确定增益因子信号Δ_G，其中增益因子信号Δ_G表示与输入耳机音频信号x相关联的增益；加权器107，用于通过增益因子信号Δ_G对输入耳机音频信号x进行加权，以获得输出耳机音频信号。噪声幅度确定器103还用于基于语音活动指示信号x_vad确定麦克风噪声幅度指示信号w_y。语音活动检测器101可以确定输入耳机音频信号x的信号统计。噪声幅度确定器103可以执行麦克风音频信号y的噪声电平估计或噪声幅度估计。增益因子确定器105可以确定增益偏移。

增益因子确定器105还用于将麦克风噪声幅度指示信号w_y与预定噪声幅度阈值η_wy进行比较。增益因子确定器105还用于：如果麦克风噪声幅度指示信号w_y大于预定噪声幅度阈值η_wy，确定增益因子信号Δ_G。

加权器107包括第一乘法器301和第二乘法器303。第一乘法器301用于将输入耳机音频信号x乘以预定用户增益因子，第二乘法器303用于通过增益因子信号Δ_G对该结果进行加权。音频信号处理装置100还可包括通信接口，该通信接口用于通过通信网络305接收输入耳机音频信号x并且通过通信网络305传输麦克风音频信号y。音频信号处理装置100还包括：耳机307，用于发出输出耳机音频信号；麦克风309，用于提供麦克风音频信号y。

指示本地背景噪声分量的麦克风噪声幅度指示信号w_y从麦克风音频信号y中确定，而基于麦克风噪声幅度指示信号w_y来计算形成耳机增益偏移的增益因子信号Δ_G。基于输入耳机音频信号x而不是基于嘈杂的麦克风音频信号y来确定实现语音活动检测的统计。这会使噪声估计更稳健，尤其是在嘈杂环境中，因为噪声幅度仅在远端侧参与者正在说话时估计，并且输入耳机音频信号x的幅度仅在远端侧参与者正在说话且近端侧噪声幅度高时增加。

噪声幅度估计可以如下执行。噪声幅度估计可以采集静止噪声信号并且能够对变化的噪声条件作出反应。假设y是时域麦克风音频信号，那么对应的噪声幅度估计可以使用包括最小统计法和双侧时间平滑的两种机制来执行。

首先，最小统计方案如下执行：

y_min(n)＝min_0≤p≤Py(n-p). (1)

最小统计方案根据下式在具有时长P的时间窗口上产生麦克风音频信号y的最小值：

P＝τ_Pf_s, (2)

其中f_s表示采样率，τ_P表示物理时间，单位可以是秒。物理时间τ_P可以在1s和2s之间选择等。其次，噪声估计可以使用双侧时间平滑法获得：

其中α_att和α_rel分别是用于攻击和释放的两个平滑时间常数。它们可以根据下式获得：

α_att,rel＝τ_att,relf_s, (4)

其中τ_att和τ_rel分别是选择为约100ms和约10s的物理值。

同时，对耳机音频信号的语音活动检测可以由语音活动检测器101进行，从而可以从耳机音频信号中获得统计数据，以便描述对话的特征并且识别哪侧是有效的。对耳机音频信号进行的语音活动检测可以用来根据下式指导麦克风音频信号y的噪声幅度估计：

其中x_min表示根据等式(1)的x的最小统计数据估计。例如，可以仅使用语音活动检测器101。类似地，对于等式(3)中描述的麦克风音频信号y，可以获得输入耳机音频信号x的噪声估计w_x。

另外，还可以分别获得对应于x的慢和快包络的其它两个统计数据。指示慢包络的第一包络指示信号x_s可以确定为：

指示快包络的第二包络指示信号x_f可以确定为：

平滑时间常数α_satt、α_srel、α_fatt和α_frel可以在给定物理时间值τ_satt、τ_srel、τ_fatt和τ_frel的等式(4)中获得。这时可以根据下式通过将耳机噪声幅度指示信号

与包络指示信号x_s和x_f进行比较来执行语音活动检测：

其中β是应用于噪声幅度估计的过度估计因子。语音活动指示信号x_vad还可限制于预定语音活动指示限制范围，例如范围[0；1]并且进行平滑以便避免产生快速浮动值。

噪声幅度估计可能不能区分来自近端侧参与者的背景噪声和语音分量。语音分量因此可能会破坏噪声幅度估计。合并语音活动检测和噪声幅度估计可以提高噪声幅度估计的稳健性。这一步骤是可选的，还可以设置：

有利地，麦克风音频信号y的麦克风噪声幅度指示信号w_y在假设有效输入耳机音频信号x对应于安静的本地参与者，即双方同时说话不太可能的时候确定。为此，可以考虑耳机音频信号的统计数据，以便确定麦克风音频信号y是否仅包括噪声分量，产生更可靠的本地环境麦克风噪声幅度指示信号w_y：

其中可以根据等式(7)按照先前获得的耳机音频信号统计数据对更新率α_vad编索引。例如，只需应用：

α_vad＝x_vad(n), (9)

或x_vad的任何其它函数。因此，可以更快速和更稳健地执行对本地环境噪声幅度的跟踪。最后，甚至可以将其与关于麦克风音频信号y的统计数据结合起来，以进一步提高稳健性。

可以基于噪声幅度估计来确定形成耳机增益偏移的增益因子信号Δ_G。当在本地没有检测到背景噪声分量或者输入耳机音频信号x无效时，增益因子信号可以保持为0dB。只要在本地所检测到的背景噪声幅度达到形成烦扰阈值的预定噪声幅度阈值η_wy并且输入耳机音频信号x有效，即可增加增益因子信号。

当指示本地环境噪声幅度的麦克风噪声幅度指示信号w_y超过预定噪声幅度阈值η_wy，即烦扰阈值时，根据下式将耳机音频信号的增益增加一个偏移：

为了避免产生高度和快速浮动值，可以按照预定增益因子限制范围将所得增益因子信号Δ_G限制到间隔[1；Δ_G0]内的最大值，并且可以随时间进行平滑。

此外，通过考虑输入耳机音频信号x的统计数据，增益可以得以控制，使得增益偏移仅应用于输入耳机音频信号x有效时，以避免加强仅噪声输入耳机音频信号。由于增益偏移的附加性质，作为通信设备用户的参与者可以在任何时间对耳机音频信号的所得音量或幅度进行完全控制。

本发明实施例实现了多种优点。音频信号处理装置100和音频信号处理方法200提供了一种直接增强耳机音频信号的方式，从而给通信设备的本地参与者而不是对话另一侧的对应参与者带来好处。可以仅在耳机音频信号有效时对其修改，并且可以仅在耳机音频信号无效时执行噪声幅度估计。

可以独立于参与者如何设置通信设备的音量来应用增益偏移。可以直接使用麦克风309来提供用于噪声幅度估计的麦克风音频信号y，可以不使用额外硬件。可以不修改由耳机307的用户预定的用户增益因子。仅可以使用一个偏移，从而使所描述方法的效果与用户想要与其通信设备交互的方式不相关。

此外，可以提供增强的稳健性，因为语音活动检测可以基于无杂质的耳机音频信号，而不是嘈杂的麦克风音频信号y。而且，可以实现复杂度降低，因为可以使用简单的时域语音活动检测器101作为稳健性增强的结果。

所描述的方法可以模拟用户在噪声幅度增加到高于形成烦扰阈值的预定噪声幅度阈值η_wy时改变耳机音频信号的音量或幅度的行为。增益偏移仅应用于远端侧参与者正在说话且近端侧的噪声幅度高于预定噪声幅度阈值η_wy的情况。因此，可以有效地避免加强仅噪声输入耳机音频信号。

本发明实施例涉及一种通信设备，例如电话，其中使用麦克风309确定本地环境噪声幅度。当所确定的本地环境噪声幅度超过预定噪声幅度阈值η_wy时，可以将耳机音频信号的用户选择的音量增加一个偏移。考虑到输入耳机音频信号x的统计数据，语音活动检测可以用于：当有效输入耳机音频信号x指示安静的本地参与者时，触发麦克风噪声幅度估计，从而产生增强的稳健性。当输入耳机音频信号x有效时，对输入耳机音频信号x进行的语音活动检测可以应用增益偏移。

本发明实施例可以在用于在计算机系统上运行的计算机程序中实施，至少包括当在诸如计算机系统等可编程装置上运行时用于执行根据本发明的方法步骤的代码部分，或者使得可编程装置执行根据本发明的设备或系统的功能的代码部分。

计算机程序是指令列表，例如，特定的应用程序和/或操作系统。计算机程序例如可以包括以下中的一个或多个：子例程、函数、流程、对象方法、对象实现、可执行应用、小程序、服务器小程序、源代码、目标代码、共享库/动态加载库和/或设计用于在计算机系统上执行的其它指令序列。

计算机程序可以存储在计算机可读存储介质内部或通过计算机可读传输介质传输到计算机系统。全部或部分计算机程序可以在永久地、可移除地或远程地耦合至信息处理系统的瞬时性或非瞬时性计算机可读介质上提供。计算机可读介质可以包括，例如但不限于，任意数量的以下示例：磁存储介质，包括磁盘和磁带存储介质；光存储介质，例如光盘介质(例如，CD-ROM、CD-R等)和数字视频光盘存储介质；非易失性存储器存储介质，包括基于半导体的存储器单元，例如闪存、EEPROM、EPROM、ROM；铁磁数字存储器；MRAM；易失性存储介质，包括寄存器、缓冲器或缓存、主存储器、RAM等；以及数据传输介质，包括计算机网络、点对点电信设备、载波传输介质，此处仅举几例。

计算机进程通常包括执行或运行程序或程序的一部分、当前程序值和状态信息，以及操作系统用来管理进程的执行的资源。操作系统(Operating System，OS)是管理计算机资源共享的软件，并为程序员提供用于访问这些资源的接口。操作系统处理系统数据和用户输入，并通过分配及管理任务和内部系统资源作为服务对系统的用户和程序进行响应。

计算机系统例如可以包括至少一个处理单元、关联存储器和多个输入/输出(input/output，简称I/O)设备。当执行计算机程序时，计算机系统根据计算机程序处理信息并通过I/O设备生成合成的输出信息。

此处讨论的连接可以是适用于例如通过中间设备从或向相应节点、单元或设备传递信号的任意类型的连接。因此，除非另有所指或所述，该连接例如可以是直接连接或间接连接。可以结合单个连接、多个连接、单向连接或双向连接对该连接进行说明或描述。然而，不同的实施例可能会使该连接的实现发生变化。例如，可以使用单独的单向连接而不是双向连接，反之亦然。此外，多个连接可以被替换为以串行或时间复用方式传递多个信号的单个连接。同样地，携带多个信号的单个连接可以被分离成携带这些信号的子集的各种不同的连接。因此，存在许多用于传递信号的选择。

本领域技术人员将意识到，各逻辑块之间的界限仅仅是说明性的，并且替代实施例可以合并逻辑块或电路元件，或者可以在各种逻辑块或电路元件上实行功能的替代分解。因此，应当理解，此处所描述的架构仅仅是示例性的，并且实际上，许多其它实现相同功能的架构也能够实现。

因此，实现相同功能的组件的任意布置是有效地“关联”，从而实现了所期望的功能。因此，不论是架构或是中间组件，此处组合以实现某个特定功能的任意两个组件可被视为相互“关联”，从而实现了所期望的功能。同样地，任意两个如此关联的组件也可被视为相互“可操作地连接”或“可操作地耦合”，以实现所期望的功能。

此外，本领域技术人员将意识到，以上所描述的操作之间的界限仅仅是说明性的。多个操作可以组合成单个操作，单个操作可以分布在附加操作中，操作可以以在时间上至少部分重叠的方式来执行。另外，替代实施例可以包括某个特定操作的多个示例，在各种其它实施例中可以改变操作的顺序。

此外，例如，示例或示例中的部分可以，例如以任意合适类型的硬件描述语言，实现为物理电路的或可转换成物理电路的逻辑表示的软或代码表示。

此外，本发明不限于在不可编程硬件中实现的物理设备或单元，也可以应用于能够通过根据合适的程序代码进行操作来执行所期望的设备功能的可编程设备或单元，例如，大型主机、小型计算机、服务器、工作站、个人计算机、记事本、个人数字助理、电子游戏、汽车和其它嵌入式系统、蜂窝电话和各种其它无线设备，在本申请中通常表示为计算机系统。

然而，其它修改、变形和替代也是可能的。应认为本说明书和附图具有说明性意义而非限制性意义。

Claims

1.一种基于麦克风音频信号(y)来处理输入耳机音频信号(x)的音频信号处理装置(100)，其特征在于，所述输入耳机音频信号(x)与所述麦克风音频信号(y)相关联，所述音频信号处理装置(100)包括：

语音活动检测器(101)，用于基于所述输入耳机音频信号(x)来确定语音活动指示信号(x_vad)，其中所述语音活动指示信号(x_vad)指示所述输入耳机音频信号(x)内的语音分量的幅度；

噪声幅度确定器(103)，用于基于所述麦克风音频信号(y)来确定麦克风噪声幅度指示信号(w_y)，其中所述麦克风噪声幅度指示信号(w_y)指示所述麦克风音频信号(y)内的噪声分量的幅度；

增益因子确定器(105)，用于基于所述语音活动指示信号(x_vad)和所述麦克风噪声幅度指示信号(w_y)来确定增益因子信号(Δ_G)，其中所述增益因子信号(Δ_G)指示与所述输入耳机音频信号(x)相关联的增益；

加权器(107)，用于通过所述增益因子信号(Δ_G)对所述输入耳机音频信号(x)进行加权，以获得输出耳机音频信号；

其中，所述语音活动检测器(101)还用于基于所述输入耳机音频信号(x)来确定耳机噪声幅度指示信号

其中所述耳机噪声幅度指示信号

指示所述输入耳机音频信号(x)内的噪声分量的幅度；所述语音活动检测器(101)还用于基于所述耳机噪声幅度指示信号

来确定所述语音活动指示信号(x_vad)。

2.根据权利要求1所述的音频信号处理装置(100)，其特征在于，所述语音活动检测器(101)还用于确定第一包络指示信号(x_s)和第二包络指示信号(x_f)，其中所述第一包络指示信号(x_s)指示所述输入耳机音频信号(x)的第一包络的幅度，所述第二包络指示信号(x_f)指示所述输入耳机音频信号(x)的第二包络的幅度；所述语音活动检测器(101)还用于基于所述第一包络指示信号(x_s)和所述第二包络指示信号(x_f)来确定所述语音活动指示信号(x_vad)。

3.根据权利要求1或2所述的音频信号处理装置(100)，其特征在于，所述语音活动检测器(101)还用于按照预定语音活动指示限制范围对所述语音活动指示信号(x_vad)进行限制。

4.一种音频信号处理装置(100)，其特征在于，所述音频信号处理装置(100)具有权利要求1至3任意一项所述的装置的全部特征，其中，所述语音活动检测器(101)还用于基于预定平滑滤波函数及时对所述语音活动指示信号(x_vad)进行滤波。

5.一种音频信号处理装置(100)，其特征在于，所述音频信号处理装置(100)具有权利要求1至4任意一项所述的装置的全部特征，其中，所述噪声幅度确定器(103)还用于基于所述语音活动指示信号(x_vad)来确定所述麦克风噪声幅度指示信号(w_y)。

6.一种音频信号处理装置(100)，其特征在于，所述音频信号处理装置(100)具有权利要求1至5任意一项所述的装置的全部特征，其中，所述增益因子确定器(105)还用于将所述麦克风噪声幅度指示信号(w_y)与预定噪声幅度阈值(η_wy)进行比较；所述增益因子确定器(105)还用于：如果所述麦克风噪声幅度指示信号(w_y)大于所述预定噪声幅度阈值(η_wy)，确定所述增益因子信号(Δ_G)。

7.一种音频信号处理装置(100)，其特征在于，所述音频信号处理装置(100)具有权利要求1至6任意一项所述的装置的全部特征，其中，所述增益因子确定器(105)还用于将所述语音活动指示信号(x_vad)与预定语音活动阈值进行比较；所述增益因子确定器(105)还用于：如果所述语音活动指示信号(x_vad)大于所述预定语音活动阈值，确定所述增益因子信号(Δ_G)。

8.一种音频信号处理装置(100)，其特征在于，所述音频信号处理装置(100)具有权利要求1至7任意一项所述的装置的全部特征，其中，所述增益因子确定器(105)还用于根据以下等式确定所述增益因子信号(Δ_G)：

其中Δ_G表示所述增益因子信号，w_y表示所述麦克风噪声幅度指示信号，η_wy表示预定噪声幅度阈值，x_vad表示所述语音活动指示信号，n表示样本索引。

9.一种音频信号处理装置(100)，其特征在于，所述音频信号处理装置(100)具有权利要求1至8任意一项所述的装置的全部特征，其中，所述增益因子确定器(105)还用于按照预定增益因子限制范围对所述增益因子信号(Δ_G)进行限制。

10.一种音频信号处理装置(100)，其特征在于，所述音频信号处理装置(100)具有权利要求1至9任意一项所述的装置的全部特征，其中，所述增益因子确定器(105)还用于基于又一预定平滑滤波函数及时对所述增益因子信号(Δ_G)进行滤波。

11.一种音频信号处理装置(100)，其特征在于，所述音频信号处理装置(100)具有权利要求1至10任意一项所述的装置的全部特征，其中，所述加权器(107)还用于通过预定用户增益因子对所述输入耳机音频信号(x)进行加权。

12.一种音频信号处理装置(100)，其特征在于，所述音频信号处理装置(100)具有权利要求1至11任意一项所述的装置的全部特征，其中，还包括：

通信接口，用于通过通信网络(305)接收所述输入耳机音频信号(x)，通过所述通信网络(305)传输所述麦克风音频信号(y)。

13.一种基于麦克风音频信号(y)来处理输入耳机音频信号(x)的音频信号处理装置(100)，其特征在于，所述输入耳机音频信号(x)与所述麦克风音频信号(y)相关联，所述音频信号处理装置(100)包括：

其中，所述语音活动检测器(101)还用于确定第一包络指示信号(x_s)和第二包络指示信号(x_f)，其中所述第一包络指示信号(x_s)指示所述输入耳机音频信号(x)的第一包络的幅度，所述第二包络指示信号(x_f)指示所述输入耳机音频信号(x)的第二包络的幅度；所述语音活动检测器(101)还用于基于所述第一包络指示信号(x_s)和所述第二包络指示信号(x_f)来确定所述语音活动指示信号(x_vad)。

14.一种基于麦克风音频信号(y)来处理输入耳机音频信号(x)的音频信号处理装置(100)，其特征在于，所述输入耳机音频信号(x)与所述麦克风音频信号(y)相关联，所述音频信号处理装置(100)包括：

其中，所述语音活动检测器(101)还用于按照预定语音活动指示限制范围对所述语音活动指示信号(x_vad)进行限制。

15.一种基于麦克风音频信号(y)来处理输入耳机音频信号(x)的音频信号处理装置(100)，其特征在于，所述输入耳机音频信号(x)与所述麦克风音频信号(y)相关联，所述音频信号处理装置(100)包括：

其中，所述语音活动检测器(101)还用于基于预定平滑滤波函数及时对所述语音活动指示信号(x_vad)进行滤波。

16.一种基于麦克风音频信号(y)来处理输入耳机音频信号(x)的音频信号处理装置(100)，其特征在于，所述输入耳机音频信号(x)与所述麦克风音频信号(y)相关联，所述音频信号处理装置(100)包括：

其中，所述噪声幅度确定器(103)还用于基于所述语音活动指示信号(x_vad)来确定所述麦克风噪声幅度指示信号(w_y)。

17.一种基于麦克风音频信号(y)来处理输入耳机音频信号(x)的音频信号处理装置(100)，其特征在于，所述输入耳机音频信号(x)与所述麦克风音频信号(y)相关联，所述音频信号处理装置(100)包括：

其中，所述增益因子确定器(105)还用于将所述麦克风噪声幅度指示信号(w_y)与预定噪声幅度阈值(η_wy)进行比较；所述增益因子确定器(105)还用于：如果所述麦克风噪声幅度指示信号(w_y)大于所述预定噪声幅度阈值(η_wy)，确定所述增益因子信号(Δ_G)。

18.一种基于麦克风音频信号(y)来处理输入耳机音频信号(x)的音频信号处理装置(100)，其特征在于，所述输入耳机音频信号(x)与所述麦克风音频信号(y)相关联，所述音频信号处理装置(100)包括：

其中，所述增益因子确定器(105)还用于将所述语音活动指示信号(x_vad)与预定语音活动阈值进行比较；所述增益因子确定器(105)还用于：如果所述语音活动指示信号(x_vad)大于所述预定语音活动阈值，确定所述增益因子信号(Δ_G)。

19.一种基于麦克风音频信号(y)来处理输入耳机音频信号(x)的音频信号处理装置(100)，其特征在于，所述输入耳机音频信号(x)与所述麦克风音频信号(y)相关联，所述音频信号处理装置(100)包括：

其中，所述增益因子确定器(105)还用于根据以下等式确定所述增益因子信号(Δ_G)：

20.一种基于麦克风音频信号(y)来处理输入耳机音频信号(x)的音频信号处理装置(100)，其特征在于，所述输入耳机音频信号(x)与所述麦克风音频信号(y)相关联，所述音频信号处理装置(100)包括：

其中，所述增益因子确定器(105)还用于按照预定增益因子限制范围对所述增益因子信号(Δ_G)进行限制。

21.一种基于麦克风音频信号(y)来处理输入耳机音频信号(x)的音频信号处理装置(100)，其特征在于，所述输入耳机音频信号(x)与所述麦克风音频信号(y)相关联，所述音频信号处理装置(100)包括：

其中，所述增益因子确定器(105)还用于基于又一预定平滑滤波函数及时对所述增益因子信号(Δ_G)进行滤波。

22.一种基于麦克风音频信号(y)来处理输入耳机音频信号(x)的音频信号处理装置(100)，其特征在于，所述输入耳机音频信号(x)与所述麦克风音频信号(y)相关联，所述音频信号处理装置(100)包括：

其中，所述加权器(107)还用于通过预定用户增益因子对所述输入耳机音频信号(x)进行加权。

23.一种基于麦克风音频信号(y)来处理输入耳机音频信号(x)的音频信号处理装置(100)，其特征在于，所述输入耳机音频信号(x)与所述麦克风音频信号(y)相关联，所述音频信号处理装置(100)包括：

其中，还包括：

24.一种基于麦克风音频信号(y)来处理输入耳机音频信号(x)的音频信号处理方法(200)，其特征在于，所述输入耳机音频信号(x)与所述麦克风音频信号(y)相关联，所述音频信号处理方法(200)包括：

基于所述输入耳机音频信号(x)来确定(201)语音活动指示信号(x_vad)，其中所述语音活动指示信号(x_vad)指示所述输入耳机音频信号(x)内的语音分量的幅度；

基于所述麦克风音频信号(y)来确定(203)麦克风噪声幅度指示信号(w_y)，其中所述麦克风噪声幅度指示信号(w_y)指示所述麦克风音频信号(y)内的噪声分量的幅度；

基于所述语音活动指示信号(x_vad)和所述麦克风噪声幅度指示信号(w_y)来确定(205)增益因子信号(Δ_G)，其中所述增益因子信号(Δ_G)指示与所述输入耳机音频信号(x)相关联的增益；

通过所述增益因子信号(Δ_G)对所述输入耳机音频信号(x)进行加权(207)，以获得输出耳机音频信号；

其中，

基于所述输入耳机音频信号(x)来确定耳机噪声幅度指示信号

所述耳机噪声幅度指示信号

指示所述输入耳机音频信号(x)内的噪声分量的幅度；基于所述耳机噪声幅度指示信号

来确定所述语音活动指示信号(x_vad)；

或者使用通信接口通过通信网络(305)接收所述输入耳机音频信号(x)，通过所述通信网络(305)传输所述麦克风音频信号(y)。

25.一种计算机可读存储介质，所述计算机可读存储介质存储有包括程序代码的计算机程序，其特征在于，当所述计算机程序在计算机上执行时，用于执行权利要求24的方法(200)。