CN104575511B

CN104575511B - 语音增强方法及装置

Info

Publication number: CN104575511B
Application number: CN201310499826.2A
Authority: CN
Inventors: 陈卓; 席金苗
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-10-22
Filing date: 2013-10-22
Publication date: 2019-05-10
Anticipated expiration: 2033-10-22
Also published as: CN104575511A

Abstract

本发明公开了一种语音增强方法及装置，该方法包括步骤：从多个不同的空间位置采集多路带噪语音信号，根据采集到的带噪语音信号得到初步增强语音信号和噪声参考信号，再将初步增强语音信号和噪声参考信号进行特征值的对比，以对比的比值为依据，对初步增强语音信号进行掩蔽处理，并得到最终的增强语音信号，用于输出。本发明实现了语音信号的360°的全面覆盖，并且信噪比相比于传统的噪声抑制方法（如广义旁瓣对消）提升了5‑10dB，在多噪声环境下，能更加有效的对噪声掩蔽，对目标声源的语音信号进行增强，保证较高的语音质量。

Description

语音增强方法及装置

[技术领域]

本发明涉及到语音增强领域，尤其涉及一种语音增强方法及装置。

[背景技术]

用户使用听觉设备需要面对各种各样复杂的环境，目标语音随时在发生变化，如有时是人声，有时候是音乐声，而且目标语音的强度，方位等，都随时在变化。同时，不可避免受到噪声的干扰。

不同场景中噪音种类千差万别。可能是稳态噪声，也可能是动态噪声，可能是冲击噪声，也可能是风噪声。噪声可能是单频音，也可能是窄带噪声，甚至是宽带噪声。

而且，不同的用户在不同的场景中对于目标语音的要求也是有差异的，举例说，在相对安静的环境中，用户需要更加清晰的语音。而在相对嘈杂的环境中，则需要提高语音的可懂度。

[发明内容]

本发明提供了一种语音增强方法，以及和该方法对应的语音增强装置；用于在多噪声环境下，能更加有效的对噪声掩蔽，对目标声源的语音信号进行增强，从而得到去噪的语音，保证较高的语音质量。

本发明的技术方案是：

语音增强方法，包括：

步骤一、从多个不同的空间位置采集多路带噪语音信号；

步骤二、对所述带噪语音信号进行初步语音增强，以获得初步增强语音信号,然后对所述初步增强语音信号进行分频和加窗逐帧处理，将其分割为N个语音T-F单元，并提取每个语音T-F单元中的特征值；

同时，对所述带噪语音信号进行分频和加窗逐帧处理，以得到N个噪声T-F单元，提取每个噪声T-F单元的特征值并将其和设定值进行对比，根据比值确定各个噪声T-F单元对应的掩蔽值，然后进行相应的掩蔽处理，以获得噪声参考信号；

所述语音T-F单元和噪声T-F单元具有一一对应关系；

步骤三、将每个语音T-F单元的特征值和其对应的经掩蔽后的噪声T-F单元的特征值进行比较，并以比值为依据得到每个语音T-F语音单元相对应的掩蔽值，然后根据得到的掩蔽值进行相应的掩蔽处理；

步骤四、对经过掩蔽处理后的N个语音T-F单元进行合成，以获得最终的增强语音信号。

以及和上述方法对应的语音增强装置，包括：

语音采集模块：用于从多个不同的空间位置采集多路带噪语音信号；

语音增强模块：用于对所述语音采集模块采集到的带噪语音信号进行初步语音增强，获得初步增强语音信号；

第一人耳滤波模块：用于对所述语音增强模块中输出的初步增强语音信号进行分频和加窗逐帧处理，形成N个语音T-F单元；

第一特征提取模块：用于提取每个语音T-F单元的特质值；

噪声参考模块：包括第二人耳滤波模块、第二特征提取模块、第二特征比较模块及第二掩蔽模块；所述第二人耳滤波模块用于对带噪语音信号进行分频和加窗逐帧处理，以形成N个噪声T-F单元，所述第二特征提取模块用于提取每个噪声T-F单元的特征值，所述第二特征比较模块用于将每个噪声T-F单元的特征值和设定值进行对比，并根据比值确定每个噪声T-F单元对应的掩蔽值，所述第二掩蔽模块用于对各噪声T-F单元进行掩蔽处理，以获得噪声参考信号；

第一特征比较模块：对语音T-F单元的特征值和所述噪声参考信号中的相应的噪声T-F单元的特征值进行比较，根据比值确定每个语音T-F单元对应的掩蔽值；

第一掩蔽模块：根据所述第一特征比较模块得到的掩蔽值，对相应的语音T-F单元进行掩蔽处理；

语音信号重建模块：对经过第一掩蔽模块处理后的N个语音T-F单元进行合并，形成增强后的语音信号用于输出。

本发明实现了语音信号的360°的全面覆盖，并且信噪比相比于传统的噪声抑制方法（如广义旁瓣对消）提升了5-10dB，在多噪声环境下，能更加有效的对噪声掩蔽，对目标声源的语音信号进行增强，保证较高的语音质量。

[附图说明]

图1是本发明的语音增强方法在一实施例中的流程图；

图2是现有技术的阻塞矩阵的方向性图；

图3是现有技术的阻塞矩阵的方向性图；

图4是本发明的语音增强装置在一实施例中的结构框图。

[具体实施方式]

为了使本发明更加清晰明白，下面结合附图对本发明的具体实施例做一详细的阐述。

实施例1

如图1所示，语音增强方法，方法包括：

S100、从不同的空间位置采集两路带噪语音信号；当然，也可以是两路以上；

S200、所述S200步骤用于对步骤S100中得到的带噪语音信号进行处理，具体的处理步骤包括并行的S210和S220，它们均是以S100中的带噪语音信号为基础，其中，S210是从带噪语音信号中分离得到初步增强语音信号，并做进一步的处理，S220是从带噪语音信号中分离出噪声，得到噪声参考信号；为便于描述，S210步骤进一步细化为S211、S212和S213，在S220步骤进一步细化为S221、S222、S223和S224，具体如下：

S210：

S211：对步骤S100中得到的带噪语音信号进行初步语音增强，以获得初步增强语音信号；

S212：对步骤S211中得到的初步增强语音信号进行分频和加窗逐帧处理，将其分割为N个语音T-F单元；

S213：从步骤S212中得到的N个语音T-F单元中分别提取特征值；

S220：

S221：对步骤S100中得到的带噪语音信号进行分频和加窗逐帧处理，以得到N个噪声T-F单元；

S222：从步骤S221中得到的N个噪声T-F单元中分别提取特征值；

S223：将步骤S222中得到的每个噪声T-F单元的特征值和设定值进行对比，根据比值确定每个个噪声T-F单元相应的掩蔽值；需要说明的是，所述设定值是根据目标声源和各个采集点之间的相对位置关系来确定；

S224：以各个噪声T-F单元所对应的掩蔽值为加权参数，对各噪声T-F单元进行相应的掩蔽处理，即抑制目标声源的语音信号，以获得噪声参考信号；

举例说明，假设某个噪声T-F单元的特征值和设定值的比值为x，而x所对应的掩蔽值为y，则得出该噪声T-F单元对应的掩蔽值为y，然后根据该y值，对该噪声T-F单元进行掩蔽处理；

所述语音T-F单元和噪声T-F单元具有一一对应关系；

S300、将各个语音T-F单元的特征值和经掩蔽后的噪声T-F单元的特征值进行比较，并以比值为依据得到各个语音T-F语音单元相对应的掩蔽值，然后根据得到的掩蔽值进行相应的掩蔽处理；进行对比的语音T-F单元和噪声T-F单元具有一一对应关系；

S400、对经过掩蔽处理后的N个语音T-F单元进行合成，以获得最终的增强语音信号。

具体实施时，所述步骤S200中所述的特征值包括IID、ITD中的至少一种,下面对IID和ITD详细阐述：

ITD，即双耳延时差（interaural time differences），指的是到达两个采集点的语音在延时上存在的差异，当采集到的为带噪语音信号时，只要不是相对于麦克在同一个方位，那么目标声源的语音信号和周围的环境噪声到达两个采集点的延时差异则不相同。若只有目标声源的语音信号时，从两个采集点采集到的延时差由目标声源的语音信号造成，同样，若只有噪声时，从两个采集点采集到的延时差由噪声造成。若信号为目标声源的语音信号和周围环境噪声混杂时，那么从两个采集点采集到的延时差主要体现较强的那一路信号的延时差。

ITD的计算公式如下：

其中l_i(j-k)代表从第一个采集点采集到的带噪语音信号，r_i(j-k-τ)代表从二个采集点采集到的带噪语音信号延时τ。和分别代表从第一个采集点和第二个采集点采集到的信号的均值。分母项是为了对该T-F单元的ITD值做归一化。对不同的延时τ计算完毕以后，取最大的互相关函数值做为该帧信号的ITD值。

若目标声源和各个采集点之间的相对位置固定，则可以计算出目标声源的语音信号的ITD，并作为设定值使用，和实际采集到的带噪语音信号的ITD值对比，根据比值得出带噪语音信号是以目标声源的语音信号为主，还是以周围的环境噪声为主，根据需要得到相应的掩蔽值。

当目标声源的语音信号强度占优时，ITD值主要体现的是目标声源的语音信号到两个采集点的ITD值，即实际的ITD值会偏向目标声源的语音信号单独作用时的ITD值（即设定值）；反之，ITD会偏向背景噪声单独作用时的ITD值。据此关系，我们给定加权掩蔽值的原则是，对于某个噪声T-F单元或语音T-F单元，若它们的ITD越接近设定值，我们给予较大的掩蔽值；若是ITD值越远离设定值时，我们给予较小的掩蔽值。所述的掩蔽即抑制掉一部分不需要的信号。

例如，步骤S220：为了得到噪声参考信号，把采集到的带噪语音信号分割成N个噪声T-F单元后，某个噪声T-F单元中的ITD值和设定值的比值越接近1，表明该噪声T-F单元主要以目标声源的语音信号为主，则其对应的掩蔽值越接近1，即将该噪声T-F单元中的信号都抑制掉；某个噪声T-F单元中的ITD值和设定值的比值越接近0，表明该噪声T-F单元主要以周围的环境噪声为主，则其对应的掩蔽值越接近0，即将该噪声T-F单元中的信号加以保留；将这种方法用于每个噪声T-F单元中，可以有效的抑制目标声源的语音信号，保留环境噪声，从而得到噪声参考信号。

IID，即双耳能量差（interaural intensity difference），指的是语音到达人两耳的能量差；可以将在空间方位上，强度上存在差异的目标声源的语音信号和周围环境的噪声区分开。

IID的计算公式如下：

IID_i表示第i个时帧、第j个频带的IID值，l_i,j(t)代表的初步增强语音信号，r_i,j(t)代表噪声参考信号。

IID和ITD的作用相同，因此可以参照ITD，在此不做进一步的赘述。

作为一种优选实施方案，所述步骤S200中的特征值可以IID和ITD同时采用，根据人耳听觉特性，在低频时对ITD更敏感，在高频时对IID更敏感，因此在提取特征值的时候，若语音T-F单元或噪声T-F单元处理高频段时，则提取IID，若语音T-F单元或噪声T-F单元处理低频段时，则提取ITD，所述的高频段和低频段的分界线为1.5KHz。实施该优选方案一方面更符合人耳的听觉特性，另一方面减小了的计算量。

如果采用IID或在高频段采用IID作为特征值，为了达到高质量的掩蔽效果，步骤S300及S220中的IID和掩蔽值Mask gram的关系为：

Mask gram(i,j)=1,if IID＞2

Mask gram(i,j)=0.5,if 1.2＜IID＜2

Mask gram(i,j)=0.3,if 1＜IID＜1.2

Mask gram(i,j)=0.01,else

其中，Mask gram(i,j)表示第i个时帧、第j个频带的噪声/语音T-F单元所对应的掩蔽值。

在所述步骤一中还包括对目标声源进行追踪定位的步骤，该步骤使得在目标声源和采集点之间的相对位置发生变化的情况下，能自动的调整S220中的设定值，保持最优的掩蔽效果。

另外，S100和S200之间有A/D转换的步骤，S400之后还有D/A转换的步骤。

该实施例1相比于现有技术，有以下技术效果：

现有技术一般通过阻塞矩阵得到噪声参考信号，即将零陷对准目标声源，最大化获取周围的环境噪声，但如图2和3所示，采用该种方式获取周围的环境噪声时会存在范围上的制约，其范围约束在180°-270°之间，不能实现360°全方位覆盖，而本实施例采用步骤S220得到噪声参考信号，无方向性的限制，只需要把采集到的带噪语音信号的每个噪声T-F单元的特征值和设定值比较，根据比值进行掩蔽，抑制掉目标声源的语音信号，就能得到噪声参考信号。可知，本发明相对于现有技术，具有多方向性；

相比于现有技术的噪声抑制方法（如广义旁瓣对消），由于两级掩蔽（见于步骤S224和S300），使得经步骤S400后最终的增强语音信号的信噪比上升了5-10dB。

实施例2

语音增强装置，所述装置包括：

语音采集模块：用于从多个不同的空间位置采集多路带噪语音信号，具体可采用麦克；

语音增强模块：用于获得初步增强语音信号，具体可采用固定波束形成器；

第一特征提取模块：用于提取每个语音T-F单元的特质值；

噪声参考模块：包括第二人耳滤波模块、第二特征提取模块、第二特征值比较模块及第二掩蔽模块；具体为，通过第二人耳滤波模块对带噪语音信号进行分频和加窗逐帧处理后，形成N个噪声T-F单元，通过第二特征提取模块提取每个噪声T-F单元的特征值，并通过第二特征比较模块将其和设定值进行对比，根据比值确定每个噪声T-F单元对应的掩蔽值，然后通过第二掩蔽模块进行相应的掩蔽处理，将目标声源的语音信号抑制掉后，获得噪声参考信号；

其中：

人耳滤波模块（第一人耳滤波模块，第二人耳滤波模块）是一种模拟人耳对声音进行滤波和分频的带通滤波器组。具体可以采用128通道的伽玛通滤波器（gammatonefilters），第i阶滤波器的冲击响应函数如下：

g_i(t)=t³exp(-2πb_it)cos(2πf_it+φ_i),ift≥0

g_i(t)=0,otherwise

其中，b_i代表冲击相应的衰减率，该衰减率与滤波器的带宽相关，f_i代表滤波器的中心频带，φ_i代表相位（取0）。b_i的计算如下：

ERB(f_i)=24.7(4.37f_i/1000+1)

b_i=1.019ERB(f_i)

ERB，equivalent rectangular bandwidth，用于衡量心理感知的刻度，其中心频率f_i在ERB刻度范围内（从80HZ到5kHZ）均匀分布。

例如，带噪语音信号经第一人耳滤波模块滤波后，可以得到128个频带的单元，然后进行加窗逐帧处理，可以得到每帧语音内的128个语音T-F单元（也可称为语音时频单元），若每秒分为50帧，则每秒得到50*128个语音T-F单元；噪声T-F单元的形成可以参考语音T-F单元，在此不做进一步叙述；以形成的语音T-F单元、噪声T-F单元为基础，进行下一步的处理，若特征值的提取等。

特征提取模块（第一特征提取模块，第二特征提取模块），用于提取特征值，如IID和ITD，IID和ITD来源于声学场景分析，其中，ITD指的是语音到达人两耳（此处为两路麦克）的延时差，IID（interaural intensity difference）指的是语音到达人两耳的能量差；通过检测IID和ITD等的信息，可以将在空间方位上，强度上存在差异的目标声源和噪声源区分开来。IID和ITD的具体介绍在实施例1中。所提取的特征值用于推断掩蔽值。

特征比较模块（第一特征比较模块，第二特征比较模块），进行特征值的比较，并根据比值得到每个T-F单元（语音T-F单元，噪声T-F单元）对应的掩蔽值。

掩蔽模块（第一掩蔽模块，第二掩蔽模块），用于抑制掉一部分不需要的语音信号。根据人耳听觉的特点，对某个声音的听力感知会随着周围同时存在的其他声音而发生变化，更强的音会掩蔽相对较弱的音，该现象称为听觉掩蔽。听觉掩蔽又分为时域掩蔽和频域掩蔽，时域掩蔽包括前时掩蔽（大约20ms）和后时掩蔽（大约150ms），指的是掩蔽音会将之前和之后发生的短暂音段掩蔽掉；频域掩蔽又称为同时掩蔽，指的是在同一个时间段和频域段内，强音倾向于将较弱的音掩蔽掉。人耳听到的只有强音或者只能听到很少的弱音。

通过IID或ITD判断出每个T-F单元（噪声T-F单元，语音T-F单元）是以目标声源的语音为主还是以周围的环境噪声为主，即在单个的T-F单元中两种信号的所占比重，并依此得出每个T-F单元的掩蔽值，通过掩蔽模块进行掩蔽处理。

例如，对每个语音T-F单元都进行相应的掩蔽处理，其总体效果就是目标声源的语音信号得到保留或是增强，噪声得到了抑制，从而将目标声源的语音信号从带噪语音信号中分离出来，达到了去噪效果。

语音信号重建模块，通过重叠相加的方法，将N个通道内各路语音信号重建。该重建过程也是通过利用掩蔽值对信号进行加权的过程。对语音T-F单元进行加权重建语音信号，最终得到去除噪后的语音输出。

特征值包括IID、ITD中的至少一种，也可以参照实施例1，根据频段选择性的提取IID或ITD。

优选的，还包括目标声源追踪模块，用于确定目标声源的位置。

需要说明的是，实施例1中含有A/D转换和D/A转换的步骤，其中A/D转换的步骤设置在S100和S200之间，D/A转换的步骤设置在S400之后；实施例2中包括A/D转换模块，用于将采集到的带噪语音信号转换为数字信号；和D/A转换模块，用于将语音信号重建模块输出的数字信号转化为模拟信号。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

1.语音增强方法，其特征在于，包括：

步骤一、从多个不同的空间位置采集多路带噪语音信号；

所述语音T-F单元和噪声T-F单元具有一一对应关系；

2.根据权利要求1所述的语音增强方法，其特征在于，所述步骤二中所述的特征值包括IID和/或ITD。

3.根据权利要求2所述的语音增强方法，其特征在于，处于高频段的噪声/语音T-F单元提取IID，处于低频段的噪声/语音T-F单元提取ITD，所述的高频段和低频段的分界线为1.5KHz。

4.根据权利要求2或3所述的语音增强方法，其特征在于，所述IID和掩蔽值的关系为：

Mask gram(i,j)＝1,if IID＞2

Mask gram(i,j)＝0.5,if 1.2＜IID＜2

Mask gram(i,j)＝0.3,if 1＜IID＜1.2

Mask gram(i,j)＝0.01,else

5.根据权利要求1、2或3所述的语音增强方法，其特征在于，在所述步骤一中还包括追踪定位目标声源的步骤。

6.语音增强装置，其特征在于，包括：

第一特征提取模块：用于提取每个语音T-F单元的特质值；

7.根据权利要求6所述的语音增强装置，其特征在于，所述特征值包括IID和/或ITD。

8.根据权利要求7所述的语音增强装置，其特征在于，处于高频段的噪声/语音T-F单元提取IID，处于低频段的噪声/语音T-F单元提取ITD，所述的高频段和低频段的分界线为1.5KHz。

9.根据权利要求7或8所述的语音增强装置，其特征在于，所述IID和掩蔽值的关系为：

Mask gram(i,j)＝1,if IID＞2

Mask gram(i,j)＝0.5,if 1.2＜IID＜2

Mask gram(i,j)＝0.3,if 1＜IID＜1.2

Mask gram(i,j)＝0.01,else

10.根据权利要求6所述的语音增强装置，其特征在于，还包括目标声源追踪模块，用于确定目标声源的位置。