CN101483416B

CN101483416B - 一种语音的响度均衡处理方法

Info

Publication number: CN101483416B
Application number: CN2009100957248A
Authority: CN
Inventors: 金旖青; 宋钦梅
Original assignee: HANGZHOU HOLINE SCIENCE AND TECHNOLOGY Co Ltd
Current assignee: HANGZHOU HOLINE SCIENCE AND TECHNOLOGY Co Ltd
Priority date: 2009-01-20
Filing date: 2009-01-20
Publication date: 2011-09-14
Anticipated expiration: 2029-01-20
Also published as: CN101483416A

Abstract

本发明公开了一种语音的响度均衡处理方法，包括以下步骤：(1)语音输入信号数据段进行类型判断，将数据段标记为需要响度调整的第一类型数据段或不需要响度调整的第二类型数据段；(2)对数据段进行上下文标志判断，初始时上下文标志设为0，若上文的上下文标志为0，则第一类型数据段的上下文标志置1，并加起始窗函数，响度调整后输出；第二类型数据段的上下文标志仍为0，直接输出；若上文的上下文标志为1，则第一类型数据段进行响度调整后输出；第二类型数据段则将上下文标志置0，并加结束窗，响度调整后输出。本发明消除了语音输出的不稳定的因素，提供一个相对稳定的感知语音强度，提高了语音的感知质量。

Description

一种语音的响度均衡处理方法

技术领域

本发明涉及一种语音信号的处理方法，具体地说是一种语音的响度均衡处理方法。

背景技术

响度均衡是相对于人的感知而言，对于变化的语音，一般情况下会感知到响度的忽大忽小的变化，长时间的不稳定响度，容易造成人听觉的疲劳和情绪的烦躁，影响语音通信的主观质量和效率。其次，在一般情况下，限于用户录音所采用的麦克风不可能都是专业级的硬件设备，最终拾取的话音收用户的经验影响造成强度参差不齐，在较差的情况下，往往会造成通信伙伴听不清对方在讲什么，严重影响通信的整体质量。

现有技术中对语音信号的响度控制一般都是简单的对信号电平进行增益，将语音信息全部放大，但这种响度控制无法解决响度忽大忽小的变化。

中国发明专利“控制包含语音和其他类型音频素材的信号中的语音响度”，专利号03819918.1公开了一种获得响度指示的方法。该响度指示用于控制音频信号的响度以减少语音段响度的变化。

该发明专利的技术方案为：接收输入信号并从输入信号中获得代表音频信号片段的音频信息，检查该音频信息以划分音频信息段是属于语音段还是非语音段，检查该音频信息以获得语音段的估计响度，并通过生成比对于非语音段代表的音频信号部分的响度更响应于语音段估计响度的控制信息来提供该音频信号片段的响度指示。

该发明的技术方案主要应用于语音输出领域，调整同时刻输出的语音段与非语音段(背景音)的响度变化，但无法在声音输入或输出时调整时间轴上不同时刻声音响度的忽大忽小。

发明内容

本发明提供一种语音的响度均衡处理方法，将语音信号中响度较小的语音段适当放大，而正常的语音段保持不变，使语音的输入输出更平滑。

本发明的语音的响度均衡处理方法，包括以下步骤：

(1)语音输入信号数据段进行类型判断，将数据段标记为需要响度调整的第一类型数据段或不需要响度调整的第二类型数据段；

(2)对数据段进行上下文标志判断，初始时上下文标志设为0，若上文的上下文标志为0，则第一类型数据段的上下文标志置1，并加起始窗函数，响度调整后输出；第二类型数据段的上下文标志仍为0，直接输出；若上文的上下文标志为1，则第一类型数据段的上下文标志仍为1，进行响度调整后输出；第二类型数据段则将上下文标志置0，并加结束窗，响度调整后输出。

作为上述技术方案的进一步改进，使输出时更平滑，在步骤(2)的判断中，若上文的上下文标志为0，则第一类型数据段的帧计数，当第一类型数据段的帧数小于第一帧数阈值时，直接输出，当第一类型数据段的帧数等于第一帧数阈值时，该第一类型数据段的上下文标志置1，加起始窗函数，响度调整后输出；第二类型数据段的上下文标志仍为0，帧计数清零后直接输出；若上文的上下文标志为1，则第一类型数据段的上下文标志仍为1，并帧计数，响度调整后输出；第二类型数据段在帧数小于第二帧数阈值时，第二类型数据段的上下文标志仍为1，直接输出并帧计数，第二类型数据段在帧数大于等于第二帧数阈值时，帧计数归零，上下文标志设置0，加结束窗，响度调整后输出。

优选地，上述的第一帧数阈值为3-10帧，第二帧数阈值为50-80帧。

更具体地，上述步骤(1)中的数据段在频域时，将数据段根据心理声学模型划分多个子带，计算各个子带的能量，将高低频子带的能量比值与第一阈值比较；

若能量比值小于等于第一阈值，将数据段标记为第一类型数据段；

若能量比值大于第一阈值，将数据段的响度与第二阈值比较，小于等于第二阈值的为第一类型数据段，大于第二阈值的为第二类型数据段。

上述数据段划分的子带在低频部分的分辨率高于高频部分的分辨率。

划分的子带数量优选为2-5个。

当步骤(1)中的数据段在时域时，通过短时信号能量和短时过零率判断第一类型数据段或第二类型数据段。

上述的响度调整包括以下步骤：

(4)将数据段在频域内根据心理声学模型划分多个子带；

(5)计算各个子带的能量；

(6)累加各个子带的能量得到数据段的响度；

(7)通过增益因子改变数据段后的响度后输出。

步骤(4)的数据段在时域中时，先通过数据段长度补充到2的整数次方，然后经傅立叶变换变换到频域中。

上述的起始窗函数为：

w(n)＝0.5*(1-cos(2πn/2N))

其中N为当前数据段的长度，n为0到(N-1)之间的取值；

结束窗函数为：

w(n-N)＝0.5*(1-cos(2πn/2N))

其中N为当前数据段的长度，n为N到2N之间的取值。

本发明的优点是：消除了语音输出的不稳定的因素，提供一个相对稳定的感知语音强度，提高了语音的感知质量。

附图说明

附图1是本发明的频域类型判断示意图；

附图2是本发明的流程示意图；

附图3是本发明的实验效果示意图；

附图4是本发明的时域类型判断示意图。

具体实施方式

实施例1

本发明的语音的响度均衡处理方法主要应用于电话会议、视频会议和VOIP中的语音输出，以解决实际应用中输出语音响度时大时小的现象。

本实施例以VOIP中的语音输出为例。在本实施例中，对于解码输出语音进行响度均衡。

如图1所示，在类型判断时，通过基二的FFT变换对输入信号进行时频变换，然后根据心理声学模型划分2个子带，即把信号分为高低频两个频带。分别在高低频带范围内进行信号能量的计算，并计算高低频能量的比值，将高低频能量比值与第一阈值比较，第一阈值取值为6。能量比值小于等于第一阈值的，数据段标记为第一类型数据段。若能量比值大于第一阈值，根据前面划分好的子带进行子带的响度计算，那么当前数据段的响度值就是各个子带的响度之和，将该数据段的响度与第二阈值比较，小于等于第二阈值的标记为第一类型数据段，大于第二阈值的为第二类型数据段。第二阈值的取值为11000。所述的第一类型数据段标记为1，对应着低响度；第二类型数据段标记为0，对应着高响度。

如图2所示，进行类型判断后，判断数据段的上下文环境，此处所说的上下文环境是指判断在信号处理过程中相对于当前帧的上一帧或者上几帧是否进行了响度调整。在本实施例中判断的是上一帧的情况，若上帧进行了响度调整则上下文标记设为1，否则设为0，初始时上下文标记设为0。

具体的调整过程如下：

若上一帧的上下文标志为0，即上一帧未进行响度调整，则根据当前数据段类型。若为第二类型数据段则帧计数清零，然后直接输出不进行调整。若为第一类型数据段，进行帧计数，若检测其帧数等于第一帧数阈值时，则将上下文标志设为1，并对该数据段加起始窗函数startWin[n]：

w(n)＝0.5*(1-cos(2πn/2N))

其中，其中N为当前数据段的长度，n为0到(N-1)之间的取值。

然后进行响度调整：

y(n)＝x(n)*(1.0+DB_FAC*startWin[n])

其中，N为当前数据段的长度，DB_FAC为当前段增益因子，startWin[n]为起始窗，n为0到(N-1)之间的取值；

若第一类型数据段的帧数小于第一帧数阈值时，第一类型数据段直接输出。

若上一帧的上下文标志为1，即上一帧进行了响度调整，首先也要判断当前数据段类型。若为第一类型数据段，则帧计数同时进行响度调整后输出。若为第二类型数据段，就需要判断帧数，若帧数小于第二帧数阈值，则直接输出同时进行帧计数，若帧数大于等于第二帧数阈值，则帧计数归零，上下文标志设为0，然后该第二类型数据段加结束窗函数endWin[n]：

w(n-N)＝0.5*(1-cos(2πn/2N))

其中，N为当前数据段的长度，n为N到2N之间的取值；

然后进行响度调整：

y(n)＝x(n)*(1.0+DB_FAC*endWin[n])

其中，N为当前数据段的长度，DB_FAC为增益因子，endWin[n]为结束窗函数，n为N到2N之间的取值；

若第二类型数据段的帧数小于第二帧数阈值60，则直接输出。

上述响度调整中的增益调整因子DB_FAC为1.5，第一帧数阈值取6帧，第二帧数阈值取60帧。

如图3所示的实验效果图，通过图3a和图3b对比可以看出，在原始语音较小的地方，本发明进行了较大的调整，而对于响度满足要求的地方，基本上没有改动，尽可能的不影响原始语音，以避免噪声的引入。

实施例2

本实施例的信号类型判断是在时域中进行的，类型判断后具体的调整过程同实施例1。数据段在时域是采用计算短时信号能量和短时过零率的方法进行的。

如图4所示，对输入信号数据段先进行高通滤波，减弱以噪声为主的信号能量。接着进行加窗处理，然后计算该帧的平均能量，再利用短时能量进行音行为检测语音行为检测(VAD)初判。若平均能量大于门限则判为第二类型数据，若平均能量小于门限则判为低能量数据。对于判为低能量数据的帧再进行VAD平滑，即参考前三帧的情况：如果前三帧中至少包含一帧非平滑过的第二类型数据，则将该帧平滑为第二类型数据帧，同时记录下该帧为平滑所得的第二类型数据帧；反之，则仍判断为低能量据帧。如果平滑结果仍为低能量数据帧，且当前帧的过零率介于30～70之间时，则改判为第二类型数据帧；反之则判为第一类型数据帧。同时设置当前帧标志：第一类型标志(1)和第二类型标志(0)。

Claims

1.一种语音的响度均衡处理方法，其特征在于：包括以下步骤：

(2)对数据段进行上下文标志判断，初始时上下文标志设为0，若上文的上下文标志为0，则第一类型数据段的帧计数，当第一类型数据段的帧数小于第一帧数阈值时，直接输出，当第一类型数据段的帧数等于第一帧数阈值时，该第一类型数据段的上下文标志置1，加起始窗函数，响度调整后输出；第二类型数据段的上下文标志仍为0，帧计数清零后直接输出；若上文的上下文标志为1，则第一类型数据段的上下文标志仍为1，并帧计数，响度调整后输出；第二类型数据段在帧数小于第二帧数阈值时，第二类型数据段的上下文标志仍为1，直接输出并帧计数，第二类型数据段在帧数大于等于第二帧数阈值时，帧计数归零，上下文标志设置0，加结束窗，响度调整后输出。

2.根据权利要求1所述的方法，其特征在于：所述的第一帧数阈值为3-10帧，第二帧数阈值为50-80帧。

3.根据权利要求1所述的方法，其特征在于：步骤(1)中的数据段在频域内根据心理声学模型划分多个子带，计算各个子带的能量，将高低频子带的能量比值与第一阈值比较；

若能量比值大于阈值，将数据段的响度与第二阈值比较，小于等于第二阈值的为第一类型数据段，大于第二阈值的为第二类型数据段。

4.根据权利要求3所述的方法，其特征在于：数据段划分的子带在低频部分的分辨率高于高频部分的分辨率。

5.根据权利要求3所述的方法，其特征在于：划分的子带数量为2-5个。

6.根据权利要求1所述的方法，其特征在于：步骤(1)中的数据段在时域中通过短时信号能量和短时过零率判断第一类型数据段或第二类型数据段。

7.根据权利要求3所述的方法，其特征在于：所述的响度调整包括以下步骤：

(1)将数据段在频域内根据心理声学模型划分多个子带；

(2)计算各个子带的能量；

(3)累加各个子带的能量得到数据段的响度；

(4)通过增益因子改变数据段的响度后输出。

8.根据权利要求7所述的方法，其特征在于：在步骤(4)，时域中的数据段通过将数据段长度补充到2的整数次方，然后经傅立叶变换变换到频域中。

9.根据权利要求1所述的方法，其特征在于：所述的起始窗函数为：

w(n)＝0.5*(1-cos(2πn/2N))

其中N为当前数据段的长度，n为0到(N-1)之间的取值；

结束窗函数为：

w(n-N)＝0.5*(1-cos(2πn/2N))

其中N为当前数据段的长度，n为N到2N之间的取值。