CN107004427B

CN107004427B - 增强多声道音频信号内语音分量的信号处理装置

Info

Publication number: CN107004427B
Application number: CN201480083921.7A
Authority: CN
Inventors: 尤尔根·盖革; 彼得·格罗舍
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-12-12
Filing date: 2014-12-12
Publication date: 2020-04-14
Anticipated expiration: 2034-12-12
Also published as: US20170154636A1; AU2014413559B2; CA2959090C; CN107004427A; AU2014413559A1; US10210883B2; EP3204945B1; KR20170042709A; BR112017003218A2; CA2959090A1; ZA201701038B; KR101935183B1; MX2017003698A; EP3204945A1; WO2016091332A1; JP6508491B2; JP2017533459A; MX363414B; RU2673390C1

Abstract

本发明涉及一种信号处理装置，所述多声道音频信号包括左声道音频信号L、中心声道音频信号C和右声道音频信号R，所述信号处理装置包括滤波器和合路器；其中，所述滤波器用于：依据所述音频信号L、C和R确定代表频率上所述多声道音频信号的整体量级的测量，基于所述音频信号C的量级测量与所述整体量级的所述测量之间的比率来获得增益函数G，以及通过G加权所述音频信号L以获得L_E，加权所述音频信号C以获得C_E,加权所述音频信号R以获得R_E；所述合路器用于合并所述音频信号L与L_E以获得合路左声道音频信号L_EV，合并所述音频信号C与C_E以获得合路中心声道音频信号C_EV，以及合并所述音频信号R与R_E以获得合路右声道音频信号R_EV。

Description

增强多声道音频信号内语音分量的信号处理装置

技术领域

本发明涉及音频信号处理领域，具体而言涉及多声道音频信号内的语音增强。

背景技术

对于增强娱乐音频信号等多声道音频信号内的语音分量，目前使用不同的方法。

增强语音分量的一种简单方法是加强多声道音频信号中包括的中心声道音频信号，或者相应地削弱其它声道的所有音频信号。该方法利用以下假设：语音通常分配在中心声道音频信号。然而，该方法通常存在语音增强性能较低的问题。

一种更复杂的方式尝试分析各个声道的音频信号。在这一方面，关于中心声道音频信号与其它声道的音频信号之间的关系的信息可以与立体声缩混一起提供，以便能够进行语音增强。然而，该方法无法应用于立体声音频信号，并且要求单独的语音音频声道。

提高软语音分量的电平并削弱多声道音频信号内的高音非语音分量的另一种方法是动态范围压缩(dynamic range compression，DRC)。首先，该方法包括削弱高音分量。然后，提高整体响度水平，这会引起语音或对话加强。然而，该方法未考虑多声道音频信号的本质，并且修改仅与响度水平有关。

发明内容

本发明的目的是提供一种增强多声道音频信号内的语音分量的有效概念。

该目的由独立权利要求的特征来实现。另外的实施形式在从属权利要求、描述内容和附图中显而易见。

本发明是基于以下发现：所述多声道音频信号可以依据增益函数进行滤波，所述增益函数可以根据所述多声道音频信号的所有声道来确定。所述滤波可以基于维纳滤波方法，其中，所述多声道音频信号的中心声道音频信号可以视为包括所述语音分量，所述多声道音频信号的其它声道可以视为包括非语音分量。为了考虑所述多声道音频信号内的所述语音分量在不同时间而发生的变化，还可以执行语音活动监测，其中，可以处理所述多声道音频信号的所有声道以便提供语音活动指示符。所述多声道音频信号可以是输入立体声音频信号的立体声上混过程的结果。因此，可以实现所述多声道音频信号内的所述语音分量的有效增强。

根据第一方面，本发明涉及一种用于增强多声道音频信号内的语音分量的信号处理装置，所述多声道音频信号包括左声道音频信号、中心声道音频信号和右声道音频信号，所述信号处理装置包括滤波器和合路器，其中，所述滤波器用于：依据所述左声道音频信号、所述中心声道音频信号和所述右声道音频信号确定代表频率上所述多声道音频信号的整体量级的测量，基于所述中心声道音频信号的量级测量与代表所述多声道音频信号的所述整体量级的所述测量之间的比率获得增益函数，以及通过所述增益函数加权所述左声道音频信号以获得加权左声道音频信号，通过所述增益函数加权所述中心声道音频信号以获得加权中心声道音频信号，并且通过所述增益函数加权所述右声道音频信号以获得加权右声道音频信号，所述合路器用于：合并所述左声道音频信号与所述加权左声道音频信号以获得合路左声道音频信号，合并所述中心声道音频信号与所述加权中心声道音频信号以获得合路中心声道音频信号，以及合并所述右声道音频信号与所述加权右声道音频信号以获得合路右声道音频信号。因此，实现了用于增强多声道音频信号内的语音分量的有效概念。

多声道音频信号包括左声道音频信号、中心声道音频信号和右声道音频信号。多声道音频信号还可以包括左环绕声道音频信号和右环绕声道音频信号。多声道音频信号可以是LCR/3.0立体声音频信号或5.1环绕音频信号。确定代表频率上多声道音频信号的整体量级的测量包括确定代表频域中多声道音频信号的整体量级的测量。

增益函数可以指示语音分量的量级与多声道音频信号的整体量级的比率，其中假设中心声道音频信号包括语音分量。可以在频率上相加多声道音频信号内的语音分量和非语音分量来确定多声道音频信号的整体量级。增益函数可以与频率相关。

根据如上所述第一方面，在所述信号处理装置的第一实施形式中，所述滤波器用于将代表所述多声道音频信号的所述整体量级的所述测量确定为所述中心声道音频信号的所述量级测量和所述左声道音频信号与所述右声道音频信号的差的量级测量之和。因此，代表所述多声道音频信号的所述整体量级的所述测量得以有效地确定并且将以更合适的方式来获取所述滤波增益函数，因为所述左声道音频信号与所述右声道音频信号的所述差代表残差信号，所述残差信号不包括所述中心声道音频信号的分量。

根据如上所述第一方面或所述第一方面的任一前述实施形式，在所述信号处理装置的第二实施形式中，所述滤波器用于根据以下等式确定所述增益函数：

P_C(m,k)＝|C(m,k)|²

P_S(m,k)＝|L(m,k)-R(m,k)|²

其中，G表示所述增益函数，L表示所述左声道音频信号，C表示所述中心声道音频信号，R表示所述右声道音频信号，P_C将所述中心声道音频信号的能量表示为代表所述中心声道音频信号的量级的所述测量，P_S表示所述左声道音频信号与所述右声道音频信号之间的差的能量，P_C与P_S之和表示代表所述多声道音频信号的所述整体量级的所述测量，m表示采样时间索引，k表示频率点索引。因此，以有效、有力的方式确定了所述增益函数。

增益函数根据维纳滤波方法确定。中心声道音频信号被视为包括语音分量。基于语音分量分配在中心声道音频信号的假设，左声道音频信号与右声道音频信号之间的差被视为包括非语音分量声道。通过以这种方式定义维纳滤波器的分量，避免了采用昂贵的方法来估计信号的信噪比或噪声功率频谱密度。

可以采用量级或对数能量而非使用等式内的能量来确定增益函数。左声道音频信号与右声道音频信号之间的差可以指包括非中心声道音频信号的组合的残差音频信号，其中除中心声道音频信号之外的所有音频信号都可指非中心声道音频信号。残差音频信号可以是左声道音频信号与右声道音频信号之间的差。

左声道音频信号和右声道音频信号的量级之和对应波束成形并可用于本发明的实施例中，其中波束成形是中心声道提取的特定形式。然而，左声道音频信号与右声道音频信号的量级差对应中心声道的分量移除。因此，定义为左声道音频信号与右声道音频信号之间的差的残差音频信号带来改进的滤波增益估计。

根据如上所述第一方面或所述第一方面的任一前述实施形式，在所述信号处理装置的第三实施形式中，所述多声道音频信号还包括左环绕声道音频信号和右环绕声道音频信号，其中所述滤波器用于：还依据所述左环绕声道音频信号和所述右环绕声道音频信号确定代表频率上所述多声道音频信号的所述整体量级的所述测量，以及将代表所述多声道音频信号的所述整体量级的所述测量确定为所述中心声道音频信号的量级测量、所述左声道音频信号与所述右声道音频信号的差的量级测量以及所述左环绕声道音频信号与所述右环绕声道音频信号的差的量级测量之和。因此，通过从所述左环绕声道音频信号与所述右环绕声道音频信号的所述差获得所述量级来有效地处理所述多声道音频信号内的环绕声道。差信号为所述中心声道音频信号提供了较好的区分。

根据如上所述第一方面或所述第一方面的任一前述实施形式，在所述信号处理装置的第四实施形式中，所述滤波器用于：通过所述增益函数的频率点加权所述左声道音频信号的频率点以获得所述加权左声道音频信号的频率点，通过所述增益函数的频率点加权所述中心声道音频信号的频率点获得所述加权中心声道音频信号的频率点，以及通过所述增益函数的频率点加权所述右声道音频信号的频率点已获得所述加权右声道音频信号的频率点。因此，在频域中有效地处理了所述多声道音频信号。使用同一滤波器加权所有信号具有以下优势：立体声图像中的音频源位置不发生移位。此外，通过这种方式，从所有信号中提取所述语音分量。

滤波器还可以用于根据Mel频标对频率点进行分组以获得频段。因此，索引k可以对应频段索引。滤波器还可以用于仅处理设置在预定频率范围，例如100Hz到8kHz内的频率点或频段。这样，仅处理包括人类语音的频率。

根据如上所述第一方面或所述第一方面的任一前述实施形式，在所述信号处理装置的第五实施形式中，所述信号处理装置还包括语音活动检测器，用于依据所述左声道音频信号、所述中心声道音频信号和所述右声道音频信号确定语音活动指示符，所述语音活动指示符指示所述多声道音频信号内的所述语音分量在不同时间的量级，其中所述合路器还用于：合并所述加权左声道音频信号与所述语音活动指示符以获得所述合路左声道音频信号，合并所述加权中心声道音频信号与所述语音活动指示符以获得所述合路中心声道音频信号，以及合并所述加权右声道音频信号与所述语音活动指示符以获得所述合路右声道音频信号。因此，实现了所述多声道音频信号内的时变语音分量的有效增强，并抑制了非语音信号。

语音活动指示符指示时域中多声道音频信号内的语音分量的量级。例如，当信号中不存在语音分量时，语音活动指示符等于零；当存在语音分量时，语音活动指示符等于一。零与一之间的值可以解释为语音可能存在，并且有助于获得平滑输出信号。

根据所述第一方面的所述第五实施形式，在所述信号处理装置的第六实施形式中，所述语音活动检测器用于：依据所述左声道音频信号、所述中心声道音频信号和所述右声道音频信号确定代表所述多声道音频信号的整体频谱变化的测量，以及基于所述中心声道音频信号的频谱变化测量与代表所述多声道音频信号的所述整体频谱变化的所述测量之间的比率获得所述语音活动指示符。因此，通过利用所述频谱变化测量之间的关系有效地确定了所述语音活动指示符。

代表整体频谱变化的测量可以是频谱通量或时间导数。频谱通量可以使用不同的归一化方法来确定。频谱通量可以计算为两个或更多音频信号帧之间的功率谱差。代表整体频谱变化的测量可以是F_C与F_S之和，其中，F_C表示中心声道音频信号的频谱变化测量，F_S表示左声道音频信号与右声道音频信号之间的差的频谱变化测量。

根据所述第一方面的所述第六实施形式，在所述信号处理装置的第七实施形式中，所述语音活动检测器用于根据以下等式确定所述语音活动指示符：

其中，V表示所述语音活动指示符，F_C表示所述中心声道音频信号的所述频谱变化测量，F_S表示所述左声道音频信号与所述右声道音频信号之间的差的频谱变化测量，F_C与F_S之和表示代表所述多声道音频信号的所述整体频谱变化的所述测量，a表示预定缩放因子。因此，有效地确定了所述语音活动指示符。具有相同F_C和F_S值的信号导致值为零的语音活动指示符。F_C值越高，所述语音活动指示符的值越高。所述缩放因子a能够控制所述语音活动指示符的量级。

语音活动指示符的值可以独立于测量的在先归一化。语音活动指示符的值可以限制在区间[0；1]。

根据所述第一方面的所述第七实施形式，在所述信号处理装置的第八实施形式中，所述语音活动检测器用于：根据以下等式将所述中心声道音频信号的所述频谱变化测量确定为所述频谱通量并将所述左声道音频信号与所述右声道音频信号之间的所述差的所述频谱变化测量确定为所述频谱通量：

其中，F_C表示所述中心声道音频信号的所述频谱通量，F_S表示所述所述左声道音频信号与所述右声道音频信号之间的所述差的所述频谱通量，C表示所述中心声道音频信号，S表示所述左声道音频信号与所述右声道音频信号之间的所述差，m表示采样时间索引，k表示频率点索引。因此，有效地确定了所述频谱通量。

根据所述第一方面的所述第五实施形式至所述第八实施形式，在所述信号处理装置的第九实施形式中，所述语音活动检测器用于依据预定的低通滤波函数按时对所述语音活动指示符进行滤波。因此，实现了所述多声道音频信号内失真的有效缓解和/或所述语音活动指示符的有效时间平滑。

预定的低通滤波函数可以通过一触式有限脉冲响应(finite impulse response，FIR)低通滤波器来实现。

根据所述第一方面的所述第五实施形式至所述第九实施形式，在所述信号处理装置的第十实施形式中，所述合路器还用于：通过预定输入增益因子加权所述左声道音频信号、所述中心声道音频信号和所述右声道音频信号，以及通过预定语音增益因子加权所述语音活动指示符。因此，实现了所述语音分量的所述量级相对于非语音分量的量级的有效控制。

根据所述第一方面的所述第五实施形式至所述第十实施形式，在所述信号处理装置的第十一实施形式中，所述合路器用于：将所述左声道音频信号添加到所述加权左声道音频信号与所述语音活动指示符的所述组合中以获得所述合路左声道音频信号，将所述中心声道音频信号添加到所述加权左声道音频信号与所述语音活动指示符的所述组合中以获得所述合路中心声道音频信号，以及将所述右声道音频信号添加到所述加权左声道音频信号与所述语音活动指示符的所述组合中以获得所述合路右声道音频信号。因此，有效地实施了所述合路器。将提取的语音分量与原始信号合并来增强输出信号中的语音分量。

根据所述第一方面的所述第五实施形式至所述第十一实施形式，在所述信号处理装置的第十二实施形式中，所述多声道音频信号还包括左环绕声道音频信号和右环绕声道音频信号，其中所述语音活动检测器用于还依据所述左环绕声道音频信号和所述右环绕声道音频信号确定所述语音活动指示符。因此，在确定所述语音活动指示符时还考虑所述多声道音频信号内的环绕声道，从而更好地估计所述语音活动指示符。

根据如上所述第一方面或所述第一方面的任一前述实施形式，在所述信号处理装置的第十三实施形式中，所述信号处理装置还包括变换器，用于将所述左声道音频信号、所述中心声道音频信号和所述右声道音频信号从时域变换到频域中。因此，实现了所述音频信号到频域中的有效变换。在以下情况中可能需要这样：语音增强和语音活动检测会在所述频域中执行。

变换器可以用于执行左声道音频信号、中心声道音频信号和右声道音频信号的短时离散傅立叶变换(discrete Fourier transform，STFT)。

根据如上所述第一方面或所述第一方面的任一前述实施形式，在所述信号处理装置的第十四实施形式中，所述信号处理装置还包括逆变器，用于将所述合路左声道音频信号、所述合路中心声道音频信号和所述合路右声道音频信号从频域逆变换到时域中。因此，实现了所述音频信号到时域中的有效逆变换，并获得了时域中的输出信号。

逆变器可以用于执行合路左声道音频信号、合路中心声道音频信号和合路右声道音频信号的逆向短时离散傅立叶变换(inverse short-time discrete Fouriertransform，ISTFT)。

根据如上所述第一方面或所述第一方面任一前述实施形式，在所述信号处理装置的第十五实施形式中，所述信号处理装置还包括上混频器，用于依据输入左声道立体声音频信号和输入右声道立体声音频信号确定所述左声道音频信号、所述中心声道音频信合和所述右声道音频信号。这样，所述信号处理装置能够用于处理双声道，即，左和右声道，输入立体声音频信号。

根据所述第一方面的所述第十五实施形式，在所述信号处理装置的第十六实施形式中，所述上混频器用于根据以下等式确定所述左声道音频信号、所述中心声道音频信号和所述右声道音频信号：

C＝α×(L_in+R_in)

L＝L_in-C

R＝R_in-C

其中，L_r表示所述输入左声道立体声音频信号的实部，R_r表示所述输入右声道立体声音频信号的实部，L_i表示所述输入左声道立体声音频信号的虚部，R_i表示所述输入右声道立体声音频信号的虚部，α表示正交参数，L_in表示所述输入左声道立体声音频信号，R_in表示所述输入右声道立体声音频信号，L表示所述左声道音频信号，C表示所述中心声道音频信号，R表示所述右声道音频信号。因此，使用正交分解实现了所述输入立体声音频信号的有效的中心声道提取。得到的左声道音频信号和右声道音频信号相互正交。

根据如上所述第一方面或所述第一方面任一前述实施形式，在所述信号处理装置的第十七实施形式中，所述信号处理装置还包括下混频器，用于依据所述合路左声道音频信号、所述合路中心声道音频信号和所述合路右声道音频信号确定输出左声道立体声音频信号和输出右声道立体声音频信号。因此，有效地提供了双声道，即，左和右声道，输出立体声音频信号。

根据如上所述第一方面或所述第一方面的任一前述实施形式，在所述信号处理装置的第十八实施形式中，所述量级测量包括信号的能量、对数能量、量级或对数量级。因此，所述量级测量可以指示不同量度下的不同值。

多声道音频信号的量级包括多声道音频信号的能量、对数能量、量级或对数量级。左声道音频信号与右声道音频信号的差的量级测量包括左声道音频信号与右声道音频信号的差的能量、对数能量、量级或对数量级。中心声道音频信号的量级包括中心声道音频信号的能量、对数能量、量级或对数量级。信号可以指信号处理装置处理的任何信号。

根据如上所述第一方面或所述第一方面的任一前述实施形式，在所述信号处理装置的第十九实施形式中，所述合路器还用于：通过预定输入增益因子加权所述左声道音频信号、所述中心声道音频信号和所述右声道音频信号，以及通过预定语音增益因子加权所述加权左声道音频信号、所述加权中心声道音频信号和所述加权右声道音频信号。因此，实现了所述语音分量的所述量级相对于非语音分量的量级的有效控制。

加权音频信号C_E、L_E和R_E可以通过预定语音增益因子G_S加权。加权可以在不使用语音活动检测器的情况下执行。

根据第二方面，本发明涉及一种用于增强多声道音频信号内的语音分量的信号处理方法，所述多声道音频信号包括左声道音频信号、中心声道音频信号和右声道音频信号，所述信号处理方法包括：滤波器依据所述左声道音频信号、所述中心声道音频信号和所述右声道音频信号确定代表频率上所述多声道音频信号的整体量级的测量，所述滤波器基于所述中心声道音频信号的量级测量与代表所述多声道音频信号的所述整体量级的所述测量之间的比率获得增益函数，所述滤波器通过所述增益函数加权所述左声道音频信号以获得加权左声道音频信号，所述滤波器通过所述增益函数加权所述中心声道音频信号以获得加权中心声道音频信号，所述滤波器通过所述增益函数加权所述右声道音频信号以获得加权右声道音频信号，合路器合并所述左声道音频信号与所述加权左声道音频信号以获得合路左声道音频信号，所述合路器合并所述中心声道音频信号与所述加权中心声道音频信号以获得合路中心声道音频信号，所述合路器合并所述右声道音频信号与所述加权右声道音频信号以获得合路右声道音频信号。因此，实现了用于增强多声道音频信号内的语音分量的有效概念。

信号处理方法可以由信号处理装置执行。信号处理方法的其它特征直接来自信号处理装置的功能。

根据如上所述第二方面，在所述信号处理方法的第一实施形式中，所述方法包括：所述滤波器将代表所述多声道音频信号的所述整体量级的所述测量确定为所述中心声道音频信号的量级测量和所述左声道音频信号与所述右声道音频信号的差的量级测量之和。因此，代表所述多声道音频信号的所述整体量级的所述测量得以有效地确定并且将以更合适的方式来获取所述滤波增益函数，因为所述左声道音频信号与所述右声道音频信号的所述差代表残差信号，所述残差信号不包括所述中心声道音频信号的分量。

根据如上所述第二方面或所述第二方面的任一前述实施形式，在所述信号处理方法的第二实施形式中，所述方法包括：所述滤波器根据以下等式确定所述增益函数：

P_C(m,k)＝|C(m,k)|²

P_S(m,k)＝|L(m,k)-R(m,k)|²

根据如上所述第二方面或所述第二方面的任一前述实施形式，在所述信号处理方法的第三实施形式中，所述多声道音频信号还包括左环绕声道音频信号和右环绕声道音频信号，其中所述方法包括：所述滤波器还依据所述左环绕声道音频信号和所述右环绕声道音频信号确定代表频率上所述多声道音频信号的所述整体量级的所述测量，以及所述滤波器将代表所述多声道音频信号的所述整体量级的所述测量确定为所述中心声道音频信号的量级测量、所述左声道音频信号与所述右声道音频信号的差的量级测量以及所述左环绕声道音频信号与所述右环绕声道音频信号的差的量级测量之和。因此，通过从所述左环绕声道音频信号与所述右环绕声道音频信号的所述差获得所述量级来有效地处理所述多声道音频信号内的环绕声道。差信号为所述中心声道音频信号提供了较好的区分。

根据如上所述第二方面或所述第二方面的任一前述实施形式，在所述信号处理方法的第四实施形式中，所述方法包括：所述滤波器通过所述增益函数的频率点加权所述左声道音频信号的频率点以获得所述加权左声道音频信号的频率点，所述滤波器通过所述增益函数的频率点加权所述中心声道音频信号的频率点获得所述加权中心声道音频信号的频率点，以及所述滤波器通过所述增益函数的频率点加权所述右声道音频信号的频率点已获得所述加权右声道音频信号的频率点。因此，在频域中有效地处理了所述多声道音频信号。使用同一滤波器加权所有信号具有以下优势：立体声图像中的音频源位置不发生移位。此外，通过这种方式，从所有信号中提取所述语音分量。

根据如上所述第二方面或所述第二方面的任一前述实施形式，在所述信号处理方法的第五实施形式中，所述方法包括：语音活动检测器依据所述左声道音频信号、所述中心声道音频信号和所述右声道音频信号确定语音活动指示符，所述语音活动指示符指示所述多声道音频信号内的所述语音分量在不同时间的量级，合路器合并所述加权左声道音频信号与所述语音活动指示符以获得所述合路左声道音频信号，所述合路器合并所述加权中心声道音频信号与所述语音活动指示符以获得所述合路中心声道音频信号，以及合路器合并所述加权右声道音频信号与所述语音活动指示符以获得所述合路右声道音频信号。因此，实现了所述多声道音频信号内的时变语音分量的有效增强，并抑制了非语音信号。

根据所述第二方面的所述第五实施形式，在所述信号处理方法的第六实施形式中，所述方法包括：所述语音活动检测器依据所述左声道音频信号、所述中心声道音频信号和所述右声道音频信号确定代表所述多声道音频信号的整体频谱变化的测量，以及所述语音活动检测器基于所述中心声道音频信号的频谱变化测量与代表所述多声道音频信号的所述整体频谱变化的所述测量之间的比率获得所述语音活动指示符。因此，通过利用所述频谱变化测量之间的关系有效地确定了所述语音活动指示符。

根据所述第二方面的所述第六实施形式，在所述信号处理方法的第七实施形式中，所述方法包括：所述语音活动检测器根据以下等式确定所述语音活动指示符：

根据所述第二方面的所述第七实施形式，在所述信号处理方法的第八实施形式中，所述方法包括：所述语音活动检测器根据以下等式将所述中心声道音频信号的所述频谱变化测量确定为频谱通量并将所述左声道音频信号与所述右声道音频信号之间的所述差的所述频谱变化测量确定为所述频谱通量：

根据所述第二方面的所述第五实施形式至所述第八实施形式，在所述信号处理方法的第九实施形式中，所述方法包括：所述语音活动检测器依据预定低通滤波函数按时对所述语音活动指示符进行滤波。因此，实现了所述多声道音频信号内失真的有效缓解和/或所述语音活动指示符的有效时间平滑。

根据所述第二方面的所述第五实施形式至所述第九实施形式，在所述信号处理方法的第十实施形式中，所述方法包括：所述合路器通过预定输入增益因子加权所述左声道音频信号、所述中心声道音频信号和所述右声道音频信号，以及所述合路器通过预定语音增益因子加权所述语音活动指示符。因此，实现了所述语音分量的所述量级相对于非语音分量的量级的有效控制。

根据所述第二方面的所述第五实施形式至所述第十实施形式，在所述信号处理方法的第十一实施形式中，所述方法包括：所述合路器将所述左声道音频信号添加到所述加权左声道音频信号与所述语音活动指示符的所述组合中以获得所述合路左声道音频信号，所述合路器将所述中心声道音频信号添加到所述加权左声道音频信号与所述语音活动指示符的所述组合中以获得所述合路中心声道音频信号，以及所述合路器将所述右声道音频信号添加到所述加权左声道音频信号与所述语音活动指示符的所述组合中以获得所述合路右声道音频信号。因此，有效地执行了合并。将提取的语音分量与原始信号合并来增强输出信号中的语音分量。

根据所述第二方面的所述第五实施形式至所述第十一实施形式，在所述信号处理方法的第十二实施形式中，所述多声道音频信号还包括左环绕声道音频信号和右环绕声道音频信号，其中所述方法包括：所述语音活动检测器还依据所述左环绕声道音频信号和所述右环绕声道音频信号确定所述语音活动指示符。因此，在确定所述语音活动指示符时还考虑所述多声道音频信号内的环绕声道，从而更好地估计所述语音活动指示符。

根据如上所述第二方面或所述第二方面的任一前述实施形式，在所述信号处理方法的第十三实施形式中，所述方法包括：变换器将所述左声道音频信号、所述中心声道音频信号和所述右声道音频信号从时域变换到频域中。因此，实现了所述音频信号到频域中的有效变换。例如如果语音增强和语音活动检测在所述频域中执行时，需要这样。

根据如上所述第二方面或所述第二方面的任一前述实施形式，在所述信号处理方法的第十四实施形式中，所述方法包括：逆变器将所述合路左声道音频信号、所述合路中心声道音频信号和所述合路右声道音频信号从频域逆变换到时域中。因此，实现了所述音频信号到时域中的有效逆变换，并获得了时域中的输出信号。

根据如上所述第二方面或所述第二方面任一前述实施形式，在所述信号处理方法的第十五实施形式中，所述方法包括：上混频器依据输入左声道立体声音频信号和输入右声道立体声音频信号确定所述左声道音频信号、所述中心声道音频信合和所述右声道音频信号。这样，所述信号处理方法能够用于处理输入立体声音频信号。

根据所述第二方面的所述第十五实施形式，在所述信号处理方法的第十六实施形式中，所述方法包括：所述上混频器根据以下等式确定所述左声道音频信号、所述中心声道音频信号和所述右声道音频信号：

C＝α×(L_in+R_in)

L＝L_in-C

R＝R_in-C

根据如上所述第二方面或所述第二方面任一前述实施形式，在所述信号处理方法的第十七实施形式中，所述方法包括：下混频器依据所述合路左声道音频信号、所述合路中心声道音频信号和所述合路右声道音频信号确定输出左声道立体声音频信号和输出右声道立体声音频信号。因此，有效地提供了双声道，即，左和右声道，输出立体声音频信号。

根据如上所述第二方面或所述第二方面的任一前述实施形式，在所述信号处理方法的第十八实施形式中，所述量级测量包括信号的能量、对数能量、量级或对数量级。因此，所述量级测量可以指示不同量度下的不同值。

根据如上所述第二方面或所述第二方面的任一前述实施形式，在所述信号处理方法的第十九实施形式中，所述方法包括：所述合路器通过预定输入增益因子加权所述左声道音频信号、所述中心声道音频信号和所述右声道音频信号，以及所述合路器通过预定语音增益因子加权所述加权左声道音频信号、所述加权中心声道音频信号和所述加权右声道音频信号。因此，实现了所述语音分量的所述量级相对于非语音分量的量级的有效控制。

根据第三方面，本发明涉及一种包括程序代码的计算机程序，当所述程序代码在计算机上执行时，用于执行根据如上所述第二方面或所述第二方面的任一实施形式的方法。因此，所述方法能够自动执行。

信号处理装置可以程序化地布置以执行计算机程序和/或程序代码。

本发明可以在硬件和/或软件中实施。

附图说明

本发明的实施例将结合以下附图进行描述，其中：

图1所示为根据实施例的用于增强多声道音频信号内的语音分量的信号处理装置的图；

图2所示为根据实施例的用于增强多声道音频信号内的语音分量的信号处理方法的图；

图3所示为根据实施例的用于增强多声道音频信号内的语音分量的信号处理装置的图；

图4所示为根据实施例的信号处理装置的上混频器的图；

图5所示为根据实施例的信号处理装置的滤波器的图；

图6所示为根据实施例的信号处理装置的语音活动检测器的图；

图7所示为根据实施例的用于增强多声道音频信号内的语音分量的信号处理装置的图。

相同附图标记用于相同或等效特征。

具体实施方式

图1所示为根据实施例的用于增强多声道音频信号内的语音分量的信号处理装置100的图。多声道音频信号包括左声道音频信号L、中心声道音频信号C和右声道音频信号R。信号处理装置100包括滤波器101和合路器103。

滤波器101用于：依据左声道音频信号L、中心声道音频信号C和右声道音频信号R确定代表频率上多声道音频信号的整体量级的测量，基于中心声道音频信号C的量级测量与代表多声道音频信号的整体量级的测量之间的比率获得增益函数G，以及通过增益函数G加权左声道音频信号L以获得加权左声道音频信号L_E、通过增益函数G加权中心声道音频信号C以获得加权中心声道音频信号C_E并通过增益函数G加权右声道音频信号R以获得加权右声道音频信号R_E。

合路器103用于：合并左声道音频信号L与加权左声道音频信号L_E以获得合路左声道音频信号L_EV，合并中心声道音频信号C与加权中心声道音频信号C_E以获得合路中心声道音频信号C_EV，以及合并右声道音频信号R与加权右声道音频信号R_E以获得合路右声道音频信号R_EV。

多声道音频信号可包括：例如三声道立体声音频信号，其仅包括左声道音频信号L、右声道音频信号和中心声道音频信号C，其还可称为LCR立体声或3.0立体声音频信号；5.1多声道音频信号，其包括左声道音频信号L、右声道音频信号R、中心声道音频信号C、左环绕声道音频信号L_S、右环绕声道音频信号R_S和低音声道信号B；或具有中心声道音频信号和至少两个其它声道音频信号的其它多声道信号。除了中心声道音频信号C之外的音频信号，例如左声道音频信号L、右声道音频信号R、左环绕声道音频信号L_S、右环绕声道音频信号R_S和低音声道信号B还可称为非中心声道音频信号。在5.1多声道音频信号的情况下，代表多声道音频信号的整体量级的测量可以作为以下测量之和获得：中心声道音频信号的量级测量、左声道音频信号与右声道音频信号的差的量级测量、左环绕声道音频信号与右环绕声道音频信号的差的量级测量，和低频效应声道音频信号的量级测量。在5.1多声道音频信号的情况下，获得的滤波器可以用于加权所有包括的音频信号。

图2所示为根据实施例的用于增强多声道音频信号内的语音分量的信号处理方法200的图。多声道音频信号包括左声道音频信号L、中心声道音频信号C和右声道音频信号R。

信号处理方法200包括：依据左声道音频信号L、中心声道音频信号C和右声道音频信号R确定201代表频率上多声道音频信号的整体量级的测量，基于中心声道音频信号C的量级测量与代表多声道音频信号的整体量级的测量之间的比率获得203增益函数G，通过增益函数G加权205左声道音频信号L以获得加权左声道音频信号L_E，通过益函数G加权207中心声道音频信号C以获得加权中心声道音频信号C_E，通过益函数G加权209右声道音频信号R以获得加权右声道音频信号R_E，合并211左声道音频信号L与加权左声道音频信号L_E以获得合路左声道音频信号L_EV，合并213中心声道音频信号C与加权中心声道音频信号C_E以获得合路中心声道音频信号C_EV，以及合并215右声道音频信号R与加权右声道音频信号R_E以获得合路右声道音频信号R_EV。

信号处理方法200可以由滤波器101和合路器103等信号处理装置100执行。

在下文中，将描述信号处理装置100和信号处理方法200的其它实施形式和实施例。

本发明涉及音频信号处理领域。信号处理装置100和信号处理方法200可以用于立体声音频信号等音频信号内的语音增强，例如对话增强。具体而言，信号处理装置100和信号处理方法200可以与上混频器301联合或与上混频器301和下混频器303联合用于处理立体声音频信号，以便提高对话清晰度。

存在具有两个扬声器的不同设备，例如电视机、笔记本电脑、平板电脑、移动电话和智能手机。在使用这类设备播放立体声音频信号时，例如电影配音的语音分量等对于普通和听力受损的听众来说可能难以理解。在嘈杂环境中或当语音分量被音乐或音响效果等非语音分量或声音叠加时尤其如此。

具体而言，本发明的实施例旨在增强立体声音频信号的语音分量以便提高对话清晰度。一个潜在假设是，语音，或等效语音，在多声道音频信号中是中心平行的，通常对于大多数立体声音频信号来说都是这样的。一个目的是在不影响语音质量的情况下增强语音分量的响度，而非语音分量保持不变。在同时有语音和非语音分量的时间间隔中，这应该特别有可能。本发明的实施例支持例如仅使用立体声音频信号且不需要或采用来自单独语音音频声道或原始5.1多声道音频信号的其它认知。目标通过以下方式实现：提取虚拟中心声道音频信号，并使用描述的信号处理装置100或信号处理方法200增强该中心声道音频信号以及其它音频信号。此外，可以采用语音活动检测方法以便确保非语音分量可不受处理影响。本发明的其它实施例可以用于处理其它多声道音频信号，例如5.1多声道音频信号。

本发明的实施例基于以下方法，其中使用上混方法从立体声音频信号记录中提取中心声道音频信号。还可以使用语音增强和语音活动检测来处理该中心声道音频信号，以便获得原始语音分量的估计。该方法的一个特征可以是，语音分量不仅可从中心声道音频信号中提取，还可从剩下的声道音频信号中提取。因为上混过程效果可能并不完美，所以这些剩下的声道音频信号可能仍然包括语音分量。当该语音分量也被提取并加强时，得到语音质量和宽度有所提高的输出音频信号。

在下文中，基于图3至图7描述特别是本发明的用于增强多声道音频信号LCR(包括中心声道音频信号、左声道音频信号和右声道音频信号)的语音分量的实施例，该语音分量通过2至3上混从双声道立体声音频信号获得。

然而，本发明的实施例不限于此类多声道音频信号，还可包括例如从其它设备接收的LCR三声道音频信号的处理，或者例如5.1或7.1多声道信号等包括中心声道音频信号的其它多声道信号的处理。其它实施例甚至可用于：在使用或不使用语音活动检测的情况下，在应用语音或对话增强之前，通过上混多声道信号获得虚拟中心声道音频信号来处理不包括中心声道音频信号的多声道信号，例如包括左和右音频声道信号以及左和右环绕声道信号的4.0多声道信号。

图3所示为根据实施例的用于增强多声道音频信号内的语音分量的信号处理装置100的图。信号处理装置100包括滤波器101、合路器103、上混频器301和下混频器303。滤波器101和合路器103包括左声道处理器305、中心声道处理器307和右声道处理器309。

上混频器301用于依据输入左声道立体声音频信号L_in和输入右声道立体声音频信号R_in确定左声道音频信号L、中心声道音频信号C和右声道音频信号R。换言之，上混频器301提供2至3上混，这将基于图4更详细地示例性说明。

左声道处理器305用于处理左声道音频信号L以便提供合路左声道音频信号L_EV。中心声道处理器307用于处理中心声道音频信号C以便提供合路中心声道音频信号C_EV。右声道处理器309用于处理右声道音频信号R以便提供合路右声道音频信号R_EV。左声道处理器305、中心声道处理器307和右声道处理器309用于执行语音增强(enhancement，ENH)，这将基于图5更详细地示例性说明。左声道处理器305、中心声道处理器307和右声道处理器309还可用于处理语音活动检测(voice activity detection，VAD)提供的语音活动指示符，这将基于图6更详细地示例性说明。

下混频器303用于依据合路左声道音频信号L_EV、合路中心声道音频信号C_EV和合路右声道音频信号R_EV确定输出左声道立体声音频信号L_out和输出右声道立体声音频信号R_out。换言之，下混频器303提供3至2缩混。

因此，语音增强音频信号以这样一种方式处理：缩混的双声道立体声信号L_out和R_out能够直接输出到常规双声道立体声播放设备，例如常规立体声电视机。

在本发明的一项实施例中，上混频器301使用一般方法从包括输入左声道立体声音频信号L_in和输入右声道立体声音频信号R_in的输入立体声音频信号中提取中心声道。这得到左、中心和右声道音频信号，表示为L、C和R。本发明的其它实施例可以使用其它上混方法。本发明的其它实施例是可能的，其中，例如5.1多声道音频信号可用，并且包括的左、中心和右声道被直接使用。

左、中心和右声道音频信号L、C和R通过改进的方式处理以估计时间和/或频率相关的语音增强滤波器101，语音增强滤波器101然后可应用于多声道音频信号的所有声道。该滤波器101用于削弱非语音分量，非语音分量可与语音分量同时存在。相对于其它方法的不同点在于，不仅中心声道音频信号，而且其它音频信号，例如图3描绘的LCR情况下的左声道音频信号和右声道音频信号，都使用同一滤波器101处理。本发明的实施例使用改进的方法来定义语音增强滤波器101。

此外，可以使用改进的方法，利用来自多声道音频信号的所有声道的信息，执行语音活动检测。语音活动检测器的输出，例如语音活动指示符，可以是能够指示语音活动的软决策。语音增强和语音活动检测的结合提供了仅或至少几乎仅包括语音分量的多声道音频信号。该语音分量多声道音频信号可以被加强并通过合路器103添加到原始多声道音频信号中，以便获得合路声道音频信号L_EV、C_EV和R_EV。下混频器303可以执行到立体声的缩混以便提供最终的输出声道立体声音频信号L_out和R_out。

图4所示为根据实施例的信号处理装置100的上混频器301的图。上混频器301用于依据输入左声道立体声音频信号L_in和输入右声道立体声音频信号R_in确定左声道音频信号L、中心声道音频信号C和右声道音频信号R。上混频器301提供2至3上混。上混频器301用于使用上混方法从输入双声道立体声音频信号中提取中心声道音频信号C。

从双声道输入立体声音频信号等获得虚拟中心声道音频信号C的过程还可称为中心提取。这在当仅记录的常规立体声音频信号可用时是需要的。实现中心提取有不同的方法。上混方法家族是基于矩阵解码。这些方法是用于上混的线性信号独立的方法。它们可以与矩阵解码器耦合并适用于时域。另一方面，几何方法是信号相关的。这些方法可以依赖于以下假设：左声道音频信号L与右声道音频信号R彼此不相关。这些方法适用于频域。

在下文中，描述了作为中心提取的示例的特定方法，其可在本发明的任意实施例中使用。该方法在频域中执行。这意味着，例如通过在短时窗口应用离散傅里叶变换(discrete Fourier transform，DFT)算法，将输入立体声音频信号变换到频域中。当使用48000Hz的采样频率时，离散傅里叶变换(discrete Fourier transform，DFT)的块大小的合适选择可以是1024。

该方法建立在以下假设上：左和右声道音频信号L和R相互正交。该理念是获得如下中心声道音频信号：

C＝α×(L_in+R_in) (1)

其中α是确定的参数。然后，可以从得到的中心声道音频信号C得出如下左和右声道音频信号L和R：

L＝L_in-C (2)

R＝R_in-C (3)

参数α可以通过一种满足约束的方式来优化

L×R*＝0 (4)

其描述了音频信号的正交性。可以得到该问题的一种数学解答，产生结果

其中L_r、L_i、R_r和R_i分别表示输入左和右立体声音频信号L_in和R_in的频谱分量的实和虚部。参数α是时间相关和频率相关的，因此可以针对音频信号样本的给定帧的所有频率点计算。

可以应用用于中心提取的其它特定几何方法。其它特定方法使用例如主分量分析来进行中心提取。

图5所示为根据实施例的信号处理装置100的滤波器101的图。滤波器101包括减法器501、确定器503、确定器505、确定器507、加权器509、加权器511和加权器513。本图示出了语音增强方法。

减法器501用于将右声道音频信号R从左声道音频信号L中减去以便获得残差音频信号S。

确定器503用于确定中心声道音频信号C的平方量级或能量，以便获得中心声道音频信号C的量级测量P_C。确定器505用于确定残差音频信号S的平方量级或能量，以便获得残差音频信号S的量级测量P_S。

确定器507用于确定中心声道音频信号C的量级测量P_C与代表多声道音频信号的整理量级的测量之间的比率以获得增益函数G。代表多声道音频信号的整理量级的测量由中心声道音频信号C的量级测量P_C与残差音频信号S的量级测量P_S之和组成。增益函数G可以是时间相关的和/或频率相关的。采样时间索引表示为m。频率点索引表示为k。

加权器509用于通过增益函数G加权左声道音频信号L以获得加权左声道音频信号L_E。加权器511用于通过增益函数G加权中心声道音频信号C以获得加权中心声道音频信号C_E。加权器513用于通过增益函数G加权右声道音频信号R以获得加权右声道音频信号R_E。

本发明的实施例使用来自左、中心和右声道音频信号L、C和R的信息根据用于语音增强的维纳滤波方法来估计增益函数G。维纳滤波方法可以应用于多声道音频信号的所有声道，以便移除非语音分量。在中心声道音频信号C包括语音分量的情况下，维纳滤波方法(几乎)仅保留多声道音频信号的所有声道的语音分量。

一般而言，采用的语音增强方法可以处理加性噪声。因此，任何声道的输入信号Y都可以被视为Y＝X+N，其中X包括净语音分量，N可以被视为加性噪声。假设X与N彼此不相关。为了从观测到的音频信号Y中移除N，可以估计加性噪声N的噪声功率频谱密度或先验信噪比X/N。然后，可以获得频率相关的如下增益函数G或G(m,k)：

包括净语音分量的音频信号的估计可以确定为

适用于音频信号的所有频率点。

语音增强方法利用以下假设：中心声道音频信号C主要包括语音。因为通常没有中心提取方法会提供完美的中心提取，所以中心声道音频信号C可以包括非语音分量，并且多声道音频信号的其它声道可包括语音分量。因此，一个目标是移除中心声道音频信号C中的非语音分量并且隔离多声道音频信号的其它声道中的语音分量。为了实现该目标，可以应用维纳滤波方法以便估计增益函数G。针对维纳滤波方法，使用一种简单但有效的方法来定义X和N，如等式(7)、(8)和(9)所定义，而非使用复杂的方法来估计加性噪声N的噪声功率频谱密度。中心声道音频信号C被视为包括语音分量，对应于X，而多声道音频信号的其它声道的内容被视为包括噪声，对应于N。

在实施例中，减法器501，例如根据S＝L-R，从左和右声道音频信号获得残差音频信号S。这样，中心分量从残差信号移除。根据以下等式，能量可以由确定器503从中心声道音频信号C的频谱确定以及由确定器505从残差音频信号S的频谱确定：

P_C(m,k)＝|C(m,k)|² (7)

P_S(m,k)＝|L(m,k)-R(m,k)|² (8)

其中，m是采样时间索引，k是频率点索引。另一种可能方法是使用量级而非能量，或者对数量级或能量。在其它实施例，可以在不同时间平滑能量，以便降低处理失真。

然后，确定器507根据以下等式根据维纳滤波方法确定增益函数G：

加权器509至513随后将增益函数G分别应用到左、中心和右声道音频信号L、C和R。这得到加权左声道音频信号L_E、加权中心声道音频信号C_E和加权右声道音频信号R_E。

在原始中心声道音频信号C仅包括语音分量的情况下，增强的加权音频信号也仅包括语音分量。

在本发明的一实施例中，使用一种不同的多声道音频信号。对于示例性5.1多声道音频信号，一个确定残差音频信号S的选项为：

S＝L–R+L_S-R_S， (10)

其中，L表示左声道音频信号，R表示右声道音频信号，L_S表示左环绕声道音频信号，R_S表示右环绕声道音频信号。在另一实施例中，能量P_S可以确定为L-R的能量与L_S–R_S的能量之和。

因此可以使用其它多声道音频信号格式，例如7.1多声道音频信号格式，确定残差音频信号S和残差音频信号的能量P_S。

为了进一步降低计算复杂度，可以例如根据Mel频标将音频信号的频率点一起分组为频段。在这种情况下，可以为每个频率点确定增益函数G。

此外，仅处理100Hz至8000Hz频率范围等中可能包括人类语音的频率有助于过滤掉非语音分量。

语音增强的实施例移除在上混过程中漏入中心声道音频信号C的多余非语音分量。此外，其加强漏入多声道音频信号的其它声道中的直接分量。

图6所示为根据实施例的信号处理装置100的语音活动检测器601的图。语音活动检测器601用于依据左声道音频信号L、中心声道音频信号C和右声道音频信号R确定语音活动指示符V，其中语音活动指示符V指示多声道音频信号内的语音分量在不同时间的量级。语音活动检测器601包括减法器603、确定器605、确定器607、延时器609、延时器611、减法器613、减法器615、确定器617、确定器619和确定器621。

减法器603用于将右声道音频信号R从左声道音频信号L中减去以便获得残差音频信号S。确定器605用于确定中心声道音频信号C的量级以得到|C(m,k)|，其中，m表示采样时间索引，k表示频率点索引。确定器607用于确定残差音频信号S的量级以得到|S(m,k)|，其中，m表示采样时间索引，k表示频率点索引。延时器609用于将|C(m,k)|延时一个采样时间周期以得到|C(m-1,k)|。延时器611用于将|S(m,k)|延时一个采样时间周期以得到|S(m-1,k)|。减法器613用于将|C(m-1,k)|从|C(m,k)|中减去，以便得到|C(m,k)|-|C(m-1,k)|。减法器615用于将|S(m-1,k)|从|S(m,k)|中减去，以便得到|S(m,k)|-|S(m-1,k)|。

确定器617用于，例如依据|C(m,k)|-|C(m-1,k)|上所有频率点上的平方和Σ²，确定中心声道音频信号C的频谱变化测量F_C，例如频谱通量。确定器619用于，例如依据|S(m,k)|-|S(m-1,k)|上所有频率点上的平方和Σ²，确定左声道音频信号L与右声道音频信号R之间的差的频谱变化测量F_S，例如频谱通量。确定器621用于依据频谱变化测量F_C和频谱变化测量F_S确定，例如依据商F_C/(F_C+F_S)，确定语音活动指示符V。

语音活动检测包括语音的时间检测和分割过程。语音活动检测的目标是检测静音或其它声音中的语音。这一方法对于几乎任何类型的语音技术来说都是适宜的。

在本发明的实施例中可以应用用于语音活动检测的各种其它方法。一种简单的方法是例如基于能量的。能量阈值可以用于检测语音。通常，这一方法仅对静音有效。其它方法包括基于统计模型的方法，它们基于信噪比(signal-to-noise ratio，SNR)估计并与统计语音增强方法类似。基于参数模型的方法通常通过将高斯混合模型等分类器与低层音频特征耦合。可能的音频特征为4Hz调制能量、零通过率、频谱矩心或频谱通量。

在本发明的实施例中，采用语音活动检测来确保仅语音或对话分量被加强，非语音分量保持不变。图6给出了语音增强方法的概况。

语音活动指示符V从中心声道音频信号C和残差音频信号S＝L–R得出，如可在语音增强方法内进行的。频谱通量从这些音频信号中提取。频谱通量是频谱的时间变化的测量。DFT或频域信号X的频谱通量可以定义为：

在本发明的其它实施例中还可以采用频谱通量的其它类似定义。频谱通量指示频谱能量分布的变化并代表在不同时间的时间导数。替代于在等式(11)中的定义，在等式(11)中确定了两个连续音频信号帧的差，还可以将频谱通量确定为包含多个音频信号帧的两个连续块的差。对于具有语音分量的音频信号，与音乐和其它声音相比，预期有更高的频谱通量。

在本发明的实施例中，利用特定声道设置，其中例如多声道音频信号的一个声道主要包括语音，以便得到频率无关的连续语音活动指示符V。然后，可以根据等式(11)确定中心声道音频信号C的频谱通量F_C和残差音频信号S的频谱通量F_S。

为了获得独立于任何归一化过程的语音活动指示符V，语音活动指示符V可以按如下计算：

语音活动指示符V的这个定义确保在F_C＝F_S的情况下V＝0。最后，将V限制为V∈[0；1]。参数a表示预定缩放因子，其控制V的动态范围，其中a＝4是可接受的值，其产生：

此外，在F_C不超过某一阈值t的情况下，语音活动指示符V可以设置为V＝0。为了获得在不同时间的平滑语音活动指示符曲线，可以将时间平滑应用到V。

与语音增强方法类似，语音活动检测方法也可以在例如根据Mel频标将频率点分组为频段时执行。此外，将考虑的频率限制到人类语音的频率范围，例如100Hz至8000Hz，进一步提高了性能。

语音活动检测方法的结果是频率无关的连续决策，其使用简单且有效的算法获得。了解模型等可仅采用少数可调参数并可不使用任何其它数据。该方法可以稳健地区分语音和音乐等其它声音。

图7所示为根据实施例的用于增强多声道音频信号内的语音分量的信号处理装置100的图。该图示出了混频过程。信号处理装置100形成如结合图1描述的信号处理装置的可能实施方式。信号处理装置100包括滤波器101、合路器103和语音活动检测器601。

滤波器101提供结合图5中的滤波器101描述的功能。语音活动检测器601提供结合图6中的语音活动检测器601描述的功能。

在实施例中，合路器103用于：合并左声道音频信号L与加权左声道音频信号L_E以获得合路左声道音频信号L_EV，合并中心声道音频信号C与加权中心声道音频信号C_E以获得合路中心声道音频信号C_EV，以及合并右声道音频信号R与加权右声道音频信号R_E以获得合路右声道音频信号R_EV。合路器包括加法器701、加法器703、加法器705、加权器707、加权器709、加权器711和加权器713。

在实施例中，加权器713用于通过预定语音增益因子G_S加权语音活动指示符V(m)以获得加权语音活动指示符V_G＝G_S V(m)，其中m表示采样时间索引。合路器可以包括未在图中示出的其它加权器，用于通过预定输入增益因子G_in加权左声道音频信号L、中心声道音频信号C和右声道音频信号R。

加权器707用于通过加权语音活动指示符V_G＝G_S V(m)对加权左声道音频信号L_E进行加权，加法器701用于将结果添加到左声道音频信号L中以获得合路左声道音频信号L_EV。加权器709用于通过加权语音活动指示符V_G＝G_S V(m)对加权中心声道音频信号C_E进行加权，加法器703用于将结果添加到中心声道音频信号C中以获得合路中心声道音频信号C_EV。加权器711用于通过加权语音活动指示符V_G＝G_S V(m)对加权右声道音频信号R_E进行加权，加法器705用于将结果添加到右声道音频信号R中以获得合路右声道音频信号R_EV。

在实施例中，加权器713用于通过预定语音增益因子G_S对加权左声道音频信号L_E、加权中心声道音频信号C_E和加权右声道音频信号R_E加权。合路器103可以包括未在图中示出的其它加权器，用于通过预定输入增益因子G_in加权左声道音频信号L、中心声道音频信号C和右声道音频信号R。

预定语音增益因子G_S还可以在未使用语音活动检测器601的情况下应用。为简单起见，在图中，加权器713示为单个加权器713。在可能实施方法中，加权器713被使用三次，具体而言是在加权器709与加法器703之间、加权器707与加法器701之间以及加权器711与加法器705之间使用。在未使用语音活动检测器601的情况下，可以假设V＝1，且G_S可以用于修改V。

因此，语音增强和语音活动检测的结果可以合并，以便获得净语音音频信号的估计。语音增强和语音活动检测可以如前所述并行执行。加权器713可以使用语音增益因子G_S加权或乘以语音活动指示符V，其中V_G＝V G_S可以用于控制语音加强。根据以下等式，加权器707、709、711可以通过乘法方式合并V_G与加权音频信号L_E、C_E和R_E，加法器701、703、705可以将得到的音频信号添加到原始音频信号L、C和R中，以便获得信号处理装置100的最终合路音频信号L_EV、C_EV和R_EV：

C_EV(m,k)＝G_in×C+G_S×V(m)×G(m,k)×C(m,k) (14)

L_EV(m,k)＝G_in×L+G_S×V(m)×G(m,k)×L(m,k) (15)

R_EV(m,k)＝G_in×R+G_S×V(m)×G(m,k)×R(m,k) (16)

其中G_in是应用于原始音频信号的输入增益因子。该因子控制多声道音频信号包括的非语音分量的增益。G_in和G_S的特定组合，例如G_in＝1且G_S＝-1，可以用于从多声道音频信号移除语音分量。加强语音分量的合适设置可以是G_in＝1而G_S可在1至4之间的范围中。然后，最终合路音频信号L_EV、C_EV和R_EV可以转变回时域，并且可以用于创建立体声缩混。

因此，提供了一种计算成本低但有效的方案来解决语音或对话增强的问题。所有分量都可以在DFT频域中操作。与5.1环绕音频信号等中的中心声道音频信号C被加强且中心声道音频信号C内的所有声音都被增强的简单方法相比，在本发明的实施例中，仅中心声道音频信号C中的语音分量由于语音活动检测等被加强。此外，本发明的实施例还处理同时存在的语音和非语音分量，其中仅语音分量由于语音增强方法等被加强。

不仅中心声道音频信号C，而且其它音频信号(例如L和R)都使用语音增强和语音活动检测进行处理的事实确保最终音频信号包括高质量的空间广阔的语音分量。当仅中心声道音频信号C被处理时，情况就不是这样了。本发明的实施例独立于特定编解码器、混频或5.1环绕音频信号等多声道音频信号格式，并且可以扩展到不同的声道配置。

本发明的，具体而言是信号处理装置的实施例可包括单个或多个处理器，用于实施本文描述的装置和方法，例如滤波器101、合路器103和/或本文基于图1至图7描述的其它单元和步骤，的各种功能。

根据发明方法的某些实施要求，发明方法可以在硬件中或软件中或它们的任意组合中实施。

这些实施可以使用数字存储介质执行，例如软盘、CD、DVD、蓝光光盘、ROM、PROM、EPROM、EEPROM或闪存，其上存储有电子可读控制信号，这些控制信号与或能够与可编程计算机系统合作，从而执行至少一种发明方法的实施例。

因此，本发明的又一实施例是或包括计算机程序产品，其具有存储在机器可读载体上的程序代码，当该计算机程序产品在计算机上运行时，该程序代码可用于执行至少一种发明方法。

换言之，因此，发明方法的实施例是或包括具有程序代码的计算机程序，当该计算机程序在计算机、处理器等上运行时，该程序代码用于执行至少一种发明方法。

因此，本发明的又一实施例是或包括机器可读数字存储介质，其包括存储在其上的计算机程序，当计算机程序产品在计算机、处理器等上运行时，该计算机程序可用于执行至少一种发明方法。

因此，本发明的又一实施例是或包括代表计算机程序的信号的数据流或序列，当计算机程序产品在计算机、处理器等上运行时，该计算机程序可用于执行至少一种发明方法。

因此，本发明的又一实施例是或包括适于执行至少一种发明方法的计算机、处理器或任何其它可编程逻辑设备。

因此，本发明的又一实施例是或包括其上存储有计算机程序的计算机、处理器或任何其它可编程逻辑设备，当计算机程序产品在计算机、处理器或任何其它可编程逻辑设备，例如现场可编程门阵列(field programmable gate array，FPGA)或特定应用集成电路(application specific integrated circuit，ASIC)，上运行时，该计算机程序可用于执行至少一种发明方法。

虽然前述内容结合其特定实施例具体示出并描述，但是本领域技术人员应理解，可对形式和细节进行各种其它变更而不脱离其精神和范围。因此，应理解，可适应于不同实施例进行各种变更而不脱离本文公开的以及所附权利要求包含的更广泛的概念。

Claims

1.一种用于增强多声道音频信号内的语音分量的信号处理装置(100)，其特征在于，所述多声道音频信号包括左声道音频信号(L)、中心声道音频信号(C)和右声道音频信号(R)，所述信号处理装置(100)包括滤波器(101)和合路器(103)，

其中所述滤波器(101)用于：

依据所述左声道音频信号(L)、所述中心声道音频信号(C)和所述右声道音频信号(R)确定代表频率上所述多声道音频信号的整体量级的测量，

基于所述中心声道音频信号(C)的量级测量与代表所述多声道音频信号的所述整体量级的所述测量之间的比率获得增益函数(G)，以及

通过所述增益函数(G)加权所述左声道音频信号(L)以获得加权左声道音频信号(L_E)，通过所述增益函数(G)加权所述中心声道音频信号(C)以获得加权中心声道音频信号(C_E)并通过所述增益函数(G)加权所述右声道音频信号(R)以获得加权右声道音频信号(R_E)；以及

其中所述合路器(103)用于：

合并所述左声道音频信号(L)与所述加权左声道音频信号(L_E)以获得合路左声道音频信号(L_EV)，合并所述中心声道音频信号(C)与所述加权中心声道音频信号(C_E)以获得合路中心声道音频信号(C_EV)，以及合并所述右声道音频信号(R)与所述加权右声道音频信号(R_E)以获得合路右声道音频信号(R_EV)。

2.根据权利要求1所述的信号处理装置(100)，其特征在于，所述滤波器(101)用于将代表所述多声道音频信号的所述整体量级的所述测量确定为所述中心声道音频信号(C)的所述量级测量和所述左声道音频信号(L)与所述右声道音频信号(R)的差的量级测量之和。

3.根据任一前述权利要求所述的信号处理装置(100)，其特征在于，所述滤波器(101)用于根据以下等式确定所述增益函数(G)：

P_C(m,k)＝|C(m,k)|²

P_S(m,k)＝|L(m,k)-R(m,k)|²

其中，G表示所述增益函数，L表示所述左声道音频信号，C表示所述中心声道音频信号，R表示所述右声道音频信号，P_C将所述中心声道音频信号(C)的能量表示为代表所述中心声道音频信号(C)的量级的所述测量，P_S表示所述左声道音频信号(L)与所述右声道音频信号(R)之间的差的能量，P_C与P_S之和表示代表所述多声道音频信号的所述整体量级的所述测量，m表示采样时间索引，k表示频率点索引。

4.根据权利要求1或2所述的信号处理装置(100)，其特征在于，所述多声道音频信号还包括左环绕声道音频信号LS和右环绕声道音频信号RS，

其中所述滤波器(101)用于：

还依据所述左环绕声道音频信号LS和所述右环绕声道音频信号RS确定代表频率上所述多声道音频信号的所述整体量级的所述测量，以及

将代表所述多声道音频信号的所述整体量级的所述测量确定为所述中心声道音频信号(C)的所述量级测量、所述左声道音频信号(L)与所述右声道音频信号(R)的差的量级测量以及所述左环绕声道音频信号LS与所述右环绕声道音频信号RS的差的量级测量之和。

5.根据权利要求1或2所述的信号处理装置(100)，其特征在于，还包括：

语音活动检测器(601)用于依据所述左声道音频信号(L)、所述中心声道音频信号(C)和所述右声道音频信号(R)确定语音活动指示符(V)，所述语音活动指示符(V)指示所述多声道音频信号内的所述语音分量在不同时间的量级，

其中所述合路器(103)还用于合并所述加权左声道音频信号(L_E)与所述语音活动指示符(V)以获得所述合路左声道音频信号(L_EV)，合并所述加权中心声道音频信号(C_E)与所述语音活动指示符(V)以获得所述合路中心声道音频信号(C_EV)，以及合并所述加权右声道音频信号(R_E)与所述语音活动指示符(V)以获得所述合路右声道音频信号(R_EV)。

6.根据权利要求5所述的信号处理装置(100)，其特征在于，所述语音活动检测器(601)用于：

依据所述左声道音频信号(L)、所述中心声道音频信号(C)和所述右声道音频信号(R)确定代表所述多声道音频信号的整体频谱变化的测量，以及

基于所述中心声道音频信号(C)的频谱变化测量(F_c)与代表所述多声道音频信号的所述整体频谱变化的所述测量之间的比率获得所述语音活动指示符(V)。

7.根据权利要求6所述的信号处理装置(100)，其特征在于，所述语音活动检测器(601)用于根据以下等式确定所述语音活动指示符(V)：

其中，V表示所述语音活动指示符，F_C表示所述中心声道音频信号(C)的所述频谱变化测量，F_S表示所述左声道音频信号(L))与所述右声道音频信号(R)之间的差的频谱变化测量，F_C与F_S之和表示代表所述多声道音频信号的所述整体频谱变化的所述测量，a表示预定缩放因子。

8.根据权利要求7所述的信号处理装置(100)，其特征在于，所述语音活动检测器(601)用于根据以下等式将所述中心声道音频信号(C)的所述频谱变化测量(F_c)确定为频谱通量并将所述左声道音频信号(L)与所述右声道音频信号(R)之间的所述差的所述频谱变化测量(F_S)确定为所述频谱通量：

其中，F_C表示所述中心声道音频信号(C)的所述频谱通量，F_S表示所述左声道音频信号(L)与所述右声道音频信号(R)之间的所述差的所述频谱通量，C表示所述中心声道音频信号，S表示所述左声道音频信号(L)与所述右声道音频信号(R)之间的所述差，m表示采样时间索引，k表示频率点索引。

9.根据权利要求5所述的信号处理装置(100)，其特征在于，所述语音活动检测器(601)用于依据预定低通滤波函数按时对所述语音活动指示符(V)进行滤波。

10.根据权利要求5所述的信号处理装置(100)，其特征在于，所述合路器(103)还用于通过预定输入增益因子G_in加权所述左声道音频信号(L)、所述中心声道音频信号(C)和所述右声道音频信号(R)，以及通过预定语音增益因子G_S加权所述语音活动指示符(V)。

11.根据权利要求5所述的信号处理装置(100)，其特征在于，所述合路器(103)用于将所述左声道音频信号(L)添加到所述加权左声道音频信号(L_E)与所述语音活动指示符(V)的组合中以获得所述合路左声道音频信号(L_EV)，将所述中心声道音频信号(C)添加到所述加权中心声道音频信号(L_E)与所述语音活动指示符(V)的组合中以获得所述合路中心声道音频信号(C_EV)，以及将所述右声道音频信号(R)添加到所述加权右声道音频信号(L_E)与所述语音活动指示符(V)的组合中以获得所述合路右声道音频信号(R_EV)。

12.根据权利要求1或2所述的信号处理装置(100)，其特征在于，还包括：

上混频器(301)，用于依据输入左声道立体声音频信号(L_in)和输入右声道立体声音频信号(R_in)确定所述左声道音频信号(L)、所述中心声道音频信号(C)和所述右声道音频信号(R)，和/或

下混频器(303)，用于依据所述合路左声道音频信号(L_EV)、所述合路中心声道音频信号(C_EV)和所述合路右声道音频信号(R_EV)确定输出左声道立体声音频信号(L_out)和输出右声道立体声音频信号(R_out)。

13.根据权利要求1或2所述的信号处理装置(100)，其特征在于，所述量级测量包括信号的能量、对数能量、量级或对数量级。

14.一种用于增强多声道音频信号内的语音分量的信号处理方法(200)，其特征在于，所述多声道音频信号包括左声道音频信号(L)、中心声道音频信号(C)和右声道音频信号(R)，所述信号处理方法(200)包括：

依据所述左声道音频信号(L)、所述中心声道音频信号(C)和所述右声道音频信号(R)确定(201)代表频率上所述多声道音频信号的整体量级的测量，

基于所述中心声道音频信号(C)的量级测量与代表所述多声道音频信号的所述整体量级的所述测量之间的比率获得(203)增益函数(G)，

通过所述增益函数(G)加权(205)所述左声道音频信号(L)以获得加权左声道音频信号(L_E)，

通过所述增益函数(G)加权(207)所述中心声道音频信号(C)以获得加权中心声道音频信号(C_E)，

通过所述增益函数(G)加权(209)所述右声道音频信号(R)以获得加权右声道音频信号(R_E)，

合并(211)所述左声道音频信号(L)与所述加权左声道音频信号(L_E)以获得合路左声道音频信号(L_EV)，

合并(213)所述中心声道音频信号(C)与所述加权中心声道音频信号(C_E)以获得合路中心声道音频信号(C_EV)，以及

合并(215)所述右声道音频信号(R)与所述加权右声道音频信号(R_E)以获得合路右声道音频信号(R_EV)。