CN108831493B

CN108831493B - 一种音频处理方法和装置

Info

Publication number: CN108831493B
Application number: CN201810488589.2A
Authority: CN
Inventors: 汪法兵; 李健; 张连毅; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2020-11-06
Anticipated expiration: 2038-05-21
Also published as: CN108831493A

Abstract

本发明提供了一种音频处理方法和装置，涉及音频技术领域。本发明提供的音频处理方法，包括针对待处理语音信号，获取语音增强模型的增益函数；对所述增益函数进行变换处理，得到目标增益函数；依据所述目标增益函数，对所述待处理语音信号的频谱数据进行处理，得到估计信号频谱数据；依据所述估计信号频谱数据生成目标语音信号。本发明实施例提供的音频处理方法和装置通过对增益函数进行变换处理，能够减少对语音的衰减，且保留保护语音不被过度衰减，提升语音增强效果。

Description

一种音频处理方法和装置

技术领域

本发明涉及音频技术领域，特别是涉及一种音频处理方法和装置。

背景技术

随着科学技术的快速发展，诸如手机、平板电脑等设备越来越普及，给人们的生活、学习、工作带来了极大的便利。这些设备通常可以使用语音增强技术，对获取到的语音信号进行处理，以降低噪声干扰的影响。

在现有语音增强技术中，单通道语音增强或多通道语音增强的后处理技术，都涉及在变换域计算增益函数，如在增益函数是一个Gain函数时，可以通过该Gain函数对原始信号频谱进行处理，得到估计信号的频谱，以依据该估计信号的频谱进行反变换，得到时域上的目标语音信号。其中，Gain函数的计算是现有大部分语音增强技术的核心内容。但是，Gain函数的计算依据语音处理中的中间变量，如信噪比(Signal-Noise Ratio，SNR)、信号功率谱等难以精确估计的参数，导致Gain函数对欲抑制的噪声的抑制能力较弱，影响语音增强效果。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种音频处理方法和一种音频处理装置。

依据本发明的第一方面，提供了一种音频处理方法，该方法包括：

针对待处理语音信号，获取语音增强模型的增益函数；

对所述增益函数进行变换处理，得到目标增益函数；

依据所述目标增益函数，对所述待处理语音信号的频谱数据进行处理，得到估计信号频谱数据；

依据所述估计信号频谱数据生成目标语音信号。

可选地，所述对所述增益函数进行变换处理，得到目标增益函数，包括：

基于所述增益函数，确定所述待处理语音信号各时频点上增益函数的取值；

基于所述取值对所述增益函数进行变换，得到目标增益函数，其中，所述目标增益函数在所述值域范围内为连续函数。

可选地，所述待处理语音信号包括语音状态信号和/或非语音状态信号；

所述取值包括：所述语音状态信号对应的第一取值和所述非语音状态信号对应的第二取值；

所述目标增益函数在第一抑制范围内为凸函数，在第二抑制范围内为凹函数，其中，所述第一抑制范围为依据所述第一取值确定的，所述第二抑制范围为依据所述第二取值确定的。

可选地，依据所述目标增益函数，对所述待处理语音信号的频谱数据进行处理，包括：

基于所述凸函数，对所述语音状态信号的频谱数据进行处理；

基于所述凹函数，对所述非语音状态信号的频谱数据进行衰减处理。

可选地，还包括：对所述待处理语音信号进行频域变换，得到所述待处理语音信号的频谱数据。其中，所述依据所述估计信号频谱数据生成目标语音信号，包括：采用所述估计信号频谱数据进行反变换，得到目标语音信号。

依据本发明的第二方面，提供了一种音频处理装置，该装置包括：

增益函数获取模块，用于针对待处理语音信号，获取语音增强模型的增益函数；

增益函数变换模块，用于对所述增益函数进行变换处理，得到目标增益函数；

频谱数据处理模块，用于依据所述目标增益函数，对所述待处理语音信号的频谱数据进行处理，得到估计信号频谱数据；

目标语音信号生成模块，用于依据所述估计信号频谱数据生成目标语音信号。

可选地，所述增益函数变换模块包括：

值域范围确定子模块，用于基于所述增益函数，确定所述待处理语音信号各时频点上增益函数的取值；

增益函数变换子模块，用于基于所述取值范围对所述增益函数进行变换，得到目标增益函数，其中，所述目标增益函数在所述值域范围内为连续函数。

可选地，所述频谱数据处理模块包括：

第一处理子模块，用于基于所述凸函数，对所述语音状态信号的频谱数据进行处理；

第二处理子模块，用于基于所述凹函数，对所述非语音状态信号的频谱数据进行衰减处理。

可选地，还包括：频域变换模块，用于对所述待处理语音信号进行频域变换，得到所述待处理语音信号的频谱数据。其中，所述目标语音信号生成模块，具体用于采用所述估计信号频谱数据进行反变换，得到目标语音信号。

本发明实施例提供的一种音频处理方法和装置，在确定语音增强模型的增益函数后，可以对该增益函数进行变换，使得变换后得到的目标增益函数的特性曲线更符合语音增强模型的预期特性，能够显著地抑制噪声，且保留保护语音不被过度衰减，达到较好的语音增强效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明的一种音频处理方法实施例的步骤流程图；

图2是本发明一个示例中的一种目标增益函数的曲线特性示意图；

图3是本发明的一种音频处理装置实施例的结构框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

参照图1，示出了本发明的一种音频处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102，针对待处理语音信号，获取语音增强模型的增益函数。

在本发明实施例中，可以基于不同的语音模型和/或语音增强方案，如可以基于不同的语音增强模型，得到一个增益函数，并且可以将得到的增益函数作为语音增强模型的增益函数，以便后续可以使用该增益函数对输入到语音增强模型的待处理语音信号进行语音增强处理。其中，待处理语音信号可以表征需要进行语音处理的语音信号，如可以是需要进行语音增强的语音信号等，具体可以包括语音状态信号和非语音状态信号。语音状态信号可以表征语音状态下的语音；非语音状态信号可包括非语音状态下的干扰信号，如可以包括静音状态下的静音信号、噪声状态下的噪声信号等，本发明实施例对此不作具体限制。

具体而言，在接收到待处理语音信号时，可以针对当前接收到的待处理语音信号，获取预先训练的语音增强模型的增益函数，或，获取预先计算得到的语音增强模型的增益函数。该增益函数可以用于对待处理语音信号的频谱数据进行处理，如可以是一个Gain函数等。

步骤104，对所述增益函数进行变换处理，得到目标增益函数。

本发明实施例在获取到增益函数后，可以对该增益函数进行变换，使得变换后的增益函数的特性曲线能够符合预期的特性条件，并可将变换后得到的增益函数确定为目标增益函数，以便后续可以采用该目标增益函数对输入到增强模型的待处理语音信号的频谱数据进行处理。

其中，预期的特性条件可以依据语音处理需求设置的，如可以设置对语音状态信号的抑制量尽可能少，而对非语音状态信号的抑制量尽可能多，从而减少语音状态信号的衰减并增强对需要抑制的非语音状态信号的抑制能力。例如，当某一个时频单元(t，k)对应的待处理语音信号属于语音状态H_1时，增益函数在时频单元(t，k)的函数取值可以为预设的增益值，如预设的增益值可以是1，以避免语音增强处理造成语音状态信号的衰减；而在某一个时频单元(t，k)对应的待处理语音信号属于非语音状态H_0时，增益函数在时频单元(t，k)的函数取值可以为预设的衰减值∈，如预设的衰减值∈可以是一个接近于0的数值，以基于衰减值∈对非语音状态信号进行衰减。其中，t可以是时间指标，k可以是频点指标。

在本发明的一个可选实施例中，所述对所述增益函数进行变换处理，得到目标增益函数，可以包括：基于所述增益函数，确定所述待处理语音信号各时频点上增益函数的取值；基于所述取值对所述增益函数进行变换，得到目标增益函数，其中，所述目标增益函数在所述值域范围内为连续函数。

在具体实现中，增益函数的取值可以在介于0到1之间的范围内。在基于语音增强模型得到增益函数后，可以确定待处理语音信号各时频点上增益函数的取值，如可以将该增益函数对语音状态信号做较少的衰减所对应的取值称为第一取值，而将该增益函数对干扰信号做较多的衰减所对应的取值称为第二取值。该第一取值可以大于第二取值，如第一取值可以是1，第二取值可以是0。随后，可以基于待处理语音信号各时频点上增益函数的取值，对所述增益函数进行变换，使得变换后得到的目标增益函数能够满足语音增强模型的理想状态下的特性，如可以将非语音状态信号衰减为接近于或等于零，达到抑制待语音增强信号中的干扰信号；并保证语音状态信号的音质和音量，如将语音状态信号对应的增益因子取值为接近于或等于1，以避免对语音状态信号造成较大衰减。

在本发明实施例中，可选地，所述待处理语音信号包括语音状态信号和/或非语音状态信号；所述待处理语音信号各时频点上增益函数的取值包括：所述语音状态信号对应的第一取值和所述非语音状态信号对应的第二取值；所述目标增益函数在第一抑制范围内为凸函数，在第二抑制范围内为凹函数。其中，第一抑制范围可以依据第一取值确定的，可选的，第一取值可以是该第一抑制范围内的最大值。第二抑制范围可以依据第二取值确定的，可选的，该第二取值可以是第二抑制范围内的最小值。

作为本发明的一个示例，在语音增强模型的增益函数是一个Gain函数g(k)的情况下，可以基于该Gain函数g(k)的取值，对Gain函数g(k)进行变换，得到Gain函数g(k)变换后的目标增益函数f(g)。其中，Gain函数g(k)中的k可以是频率指标。当该目标增益函数f(g)满足以下特性时，能得到更好的语音增强效果。

特性一：在增益函数g(k)的取值在数据范围[0，1]内的情况下，目标增益函数f(g)是g∈[0,1]内的连续函数；

特性二：在第一抑制范围为[b，1]，第二抑制范围为[0，a]的情况下，如图2所示，目标增益函数f(g)在g∈[0，a]可以为凹函数，而在g∈[b,1]内为凸函数，其中a和b属于值域范围(0，1)内，且a可以小于或等于b。

例如，在a和b均为0.5的情况下，即在a＝b＝0.5时，当增益函数g(k)的值g小于0.5时，f(g)的值可以等于0.5减去

的差值，即

g<0.5；当增益函数g(k)的值g大于0.5时，f(g)的值可以为0.5加上

的和，即

g>0.5。

步骤106，依据目标增益函数，对所述待处理语音信号的频谱数据进行处理，得到估计信号频谱数据。

具体而言，本发明实施例可以采用得到的目标增益函数对待处理语音信号的频谱数据进行语音处理，如对该待处理语音信号的频谱数据进行语音增强处理等，以抑制该待处理语音信号中的干扰信号，使得处理后得到的估计信号频谱数据可以包含比较少的干扰信号频谱数据，甚至估计信号频谱数据中所包含的干扰信号频谱数据可以忽略不计，达到衰减干扰信号的目的。

在本发明的一个可选实施例中，依据所述目标增益函数，对所述待处理语音信号的频谱数据进行处理，可以包括：基于所述凸函数，对所述语音状态信号的频谱数据进行处理；基于所述凹函数，对所述非语音状态信号的频谱数据进行衰减处理。

具体而言，对于某一时刻t的频点k，其对应的信号状态可以是语音状态，也可以是非语音状态，如可以是静音状态或噪音状态。当某一时刻t的频点k对应的信号状态为语音状态时，即在某频点的待处理语音信号为语音状态信号X(t，k)时，可以基于凸函数对语音状态信号X(t，k)进行处理；当某一时刻t的频点k对应的信号状态为静音状态或噪音状态时，即在某频点的待处理语音信号为静音状态信号或噪音状态信号D(t，k)时，可以基于凹函数对静音状态信号或噪音状态信号D(t，k)进行处理；从而，可以得到语音增强后的估计信号频谱数据。需要说明的是，衰减后的静音状态信号和/或噪音状态信号的频谱数据可以等于或者接近于零。

在具体实现中，在得到估计信号频谱数据后，可以基于该估计信号频谱数据进行反变换，以将得到的估计信号从频域变换到时域，得到时域上的目标语音信号。

在本发明的一个可选实施例中，该音频处理方法还可包括：对所述待处理语音信号进行频域变换，得到所述待处理语音信号的频谱数据。具体而言，在需要对某一段时间内的音频信号进行语音处理时，可以将这段时间内的语音信号确定为待处理语音信号，并可以通过诸如傅里叶变换等频域变换，将这段时间内的音频信号从时域信号变换到频域信号，以便后续采用频域信号的频谱数据进行语音处理。

作为本发明的一个示例，在时域信号y(t，n)包括干扰信号d(，n)和语音信号x(t，n)时，可以将时域信号记录为：y(t，n)＝x(t，n)+d(，n)；其中，t可以是时间指标，n可以是样本指标。干扰信号d(t，n)可以包括加性噪声或干扰噪声等，本示例对此不作限制。

通过短时傅里叶变换，可以将时域信号y(t，n)变换到频域信号Y(t，k)。该频域信号Y(t，k)可以表征频域上的待处理语音信号，具体包括变换后得到的语音频域信号X(t，k)和干扰频域信号D(t，k)，如变换后得到的频域信号可以记录为Y(t，k)＝X(t，k)+D(t，k)。其中，语音频域信号X(t，k)可以用于确定征语音状态下干净的语音信号的频谱，干扰频域信号D(t，k)可以用于确定非语音状态下的干扰信号的频谱。

本示例在使用语音增强技术对待处理语音信号进行语音增强时，可以基于不同的语音增强模型得到一个增益函数——Gain函数g(k)。在理想状态下，Gain函数g(k)在语音状态H_1下的取值可以为1，即g(t，k)＝1，(t，k)∈H_1；而Gain函数g(k)在非语音状态H_0下的取值可以为0，即g(t，k)＝0，(t，k)∈H_0。但在实际应用中，Gain函数g(k)的取值往往介于(0，1)之间，如Gain函数g(k)在语音状态H_1下的取值小于为1，即g(t，k)＜1，(t，k)∈H_1；而Gain函数g(k)在非语音状态H_0下的取值大于∈，即g(t，k)＞∈。若直接采用该Gain函数g(k)对待处理语音信号进行语音增强，则会导致对该待处理语音信号中的噪声的抑制量过小，且对该待处理语音信号中的语音的抑制量过大，影响语音增强效果。

应用本发明实施例，可以对Gain函数g(k)进行变换处理，如对Gain函数g(k)进行二次计算，得到变换后的Gain函数g′，并可以将变换后的Gain函数g'确定为目标增益函数f(g)，即g'＝f(g)。随后续可以采用该目标增益函数f(g)号乘以待处理语音信号的频谱数据Y(t，k)，得到估计信频谱数据

如下公式3：

公式3：

其中，在Gain函数的值g趋近于0的情况下，经过变换后的目标增益函数的值g′更趋近于0，从而能够增加对噪声的衰减，即能够显著地抑制噪声；而在Gain函数的值g趋近于1的情况下，经过变换后的目标增益函数的值g′更趋近于1，从而能够减少对语音的衰减，保留保护语音不被过度衰减，达到较好的语音增强效果。

其中，所述依据所述估计信号频谱数据生成目标语音信号，包括：采用所述估计信号频谱数据进行反变换，得到目标语音信号。具体的，在得到估计信号后，可以通过反变换，将得到的估计信号从频域变换到时域，得到时域上的目标语音信号。例如，结合上述示例，在得到估计信频谱数据

后，可以通过反变换，采用该估计信频谱数据

生成目标语音信号

该目标语音信号

可以表征时域上估计得到的语音信号。

综上，本发明实施例在确定语音增强模型的增益函数后，可以对该增益函数进行变换，使得变换后得到的目标增益函数的特性曲线更符合语音增强模型的预期特性，能够显著地抑制噪声，且保留保护语音不被过度衰减，达到较好的语音增强效果。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了本发明的一种音频处理装置实施例的结构框图，具体可以包括如下模块：

增益函数获取模块302，用于针对待处理语音信号，获取语音增强模型的增益函数；

增益函数变换模块304，用于对所述增益函数进行变换处理，得到目标增益函数；

频谱数据处理模块306，用于依据所述目标增益函数，对所述待处理语音信号的频谱数据进行处理，得到估计信号频谱数据；

目标语音信号生成模块308，用于依据所述估计信号频谱数据生成目标语音信号。

在本发明的一个可选实施例中，所述增益函数变换模块304可以包括如下子模块：

增益函数变换子模块，用于基于所述取值对所述增益函数进行变换，得到目标增益函数，其中，所述目标增益函数在所述值域范围内为连续函数。

在本发明实施例中，可选地，所述待处理语音信号包括语音状态信号和/或非语音状态信号；所述值域范围包括：所述语音状态信号对应的第一取值和所述非语音状态信号对应的第二取值；所述目标增益函数在第一抑制范围内为凸函数，在第二抑制范围内为凹函数，其中，所述第一抑制范围为依据所述第一取值确定的，所述第二抑制范围为依据所述第二取值确定。

在本发明的一个可选实施例中，所述频谱数据处理模块306可以包括如下子模块：

在本发明的一个可选实施例中，音频处理装置还可以包括：频域变换模块。该频域变换模块，用于对所述待处理语音信号进行频域变换，得到所述待处理语音信号的频谱数据。其中，所述目标语音信号生成模块，具体可以用于采用所述估计信号频谱数据进行反变换，得到目标语音信号。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

针对待处理语音信号，获取语音增强模型的增益函数；

对所述增益函数进行变换处理，得到目标增益函数；

依据所述估计信号频谱数据生成目标语音信号；

其中，所述对所述增益函数进行变换处理，得到目标增益函数，包括：

基于所述取值对所述增益函数进行变换，得到目标增益函数，其中，所述目标增益函数在值域范围内为连续函数；

其中，所述目标增益函数在第一抑制范围内为凸函数，在第二抑制范围内为凹函数；

所述依据所述目标增益函数，对所述待处理语音信号的频谱数据进行处理，包括：

基于所述凸函数，对语音状态信号的频谱数据进行语音增强处理；

基于所述凹函数，对非语音状态信号的频谱数据进行衰减处理。

2.根据权利要求1所述的方法，其特征在于，

所述待处理语音信号包括语音状态信号和/或非语音状态信号；

其中，所述第一抑制范围为依据所述第一取值确定的，所述第一取值是所述第一抑制范围内的最大值，所述第二抑制范围为依据所述第二取值确定的，所述第二取值是所述第二抑制范围内的最小值。

3.根据权利要求1至2任一所述的方法，其特征在于，还包括：

对所述待处理语音信号进行频域变换，得到所述待处理语音信号的频谱数据；

其中，所述依据所述估计信号频谱数据生成目标语音信号，包括：采用所述估计信号频谱数据进行反变换，得到目标语音信号。

4.一种音频处理装置，其特征在于，所述装置包括：

目标语音信号生成模块，用于依据所述估计信号频谱数据生成目标语音信号；

其中，所述增益函数变换模块包括：

增益函数变换子模块，用于基于所述取值范围对所述增益函数进行变换，得到目标增益函数，其中，所述目标增益函数在值域范围内为连续函数；

所述频谱数据处理模块包括：

第一处理子模块，用于基于所述凸函数，对语音状态信号的频谱数据进行语音增强处理；

第二处理子模块，用于基于所述凹函数，对非语音状态信号的频谱数据进行衰减处理。

5.根据权利要求4所述的装置，其特征在于，

6.根据权利要求4至5任一所述的装置，其特征在于，还包括：

频域变换模块，用于对所述待处理语音信号进行频域变换，得到所述待处理语音信号的频谱数据；

其中，所述目标语音信号生成模块，具体用于采用所述估计信号频谱数据进行反变换，得到目标语音信号。