CN104517614A

CN104517614A - 基于各子带特征参数值的清浊音判决装置及其判决方法

Info

Publication number: CN104517614A
Application number: CN201310461580.XA
Authority: CN
Inventors: 须泽中; 郝飞; 卢家义
Original assignee: SHANGHAI AILIAO INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI AILIAO INFORMATION TECHNOLOGY Co Ltd
Priority date: 2013-09-30
Filing date: 2013-09-30
Publication date: 2015-04-15

Abstract

本发明公开了一种基于各子带特征参数值的清浊音判决装置，包括语音信号分帧模块、离散高通滤波模块、提取编码的特征参数模块、分割K个频带模块、统计特征参数的特性值模块和清浊音判决模块；本发明还提供了一种基于各子带特征参数值的清浊音判决方法。本发明的判断装置及其判断方法基于当前帧统计特征参数的特性，分析各子带特征参数的相关性来判定各子带的清浊音，能够完全取代IMBE中的判决方进行清浊音判决，能更加精确的获得各个子带的清浊音判定结果，进一步来支持高质量的语音合成；并且，能应用于低码率的移动互联网环境中。

Description

基于各子带特征参数值的清浊音判决装置及其判决方法

技术领域

本发明涉及语音编码技术领域，特别涉及一种基于各子带特征参数值的清浊音判决装置。本发明还涉及一种基于各子带特征参数值的清浊音判决方法

背景技术

在许多音频应用中需要数字地传送或存储，例如语音信号；音频数字地传送或存储不是试图采样然后再直接复制一语音信号，而是应用一语音编码器，它构造一包含该音频信号的关键特性的合成语音信号，该合成语音信号然后被解码以供复制，所以语音编码在通信系统、语音存储回放系统、具有语音功能的消费类产品中有广泛的应用。

近些年来国际电信联盟（ITU）、一些区域组织和一些国家相继制定了一系列语音压缩编码标准，在编码速率为3.6kbit/s到16kbit/s上得到了令人满意的语音质量；例如自适应多速率（Adaptive Multi Rate,AMR）是由3GPP（3rd Generation PartnershipProject）制定的第三代移动通讯系统中的语音编解码技术。窄带自适应多速率(AMR-NB)编解码器支持八种速率：12.2kbit/s,10.2kbit/s,7.95kbit/s,7.40kbit/s,6.7kbit/s,5.9kbit/s,5.15kbit/s,4.75kbit/s。目前国内外的研究主要集中在3.6kbit/s速率以下高质量语音压缩编码上，主要用于无线通信、保密通信、大容量语音存储回放等。低速率语音编码中激励信号的合成非常重要，而多带激励信号合成是目前激励信号合成的重要手段。其中称作“多带激励（MBE）模型”的一种语音模型首次在Griffin和Lim的论文“多带激励语音编码器（Multi-Band Excitation Vocoder）”中提出。该MBE模型将语音信号分成多个帧，这些帧被独立地分析以产生描述该帧的语音信号的一个参数集合，这些参数然后被编码以供传输和存储。每帧中的语音信号被分成一定数目的频带，对于每个频带判断该频谱部分是发声的还是不发声的，然后表示为对于发声判定的周期性能量或对于不发声判定的类噪声能量。利用该模型，每帧中的语音信号的特征信息包括：该帧中的语音信号的基本频率、各频带的清浊音判定和每一频带内的各谐音的对应幅度，整个分析的框架如图1所示。这些信息于是被变换及矢量量化以提供编码器输出。该输出以相反过程被解码，语音信号的合成框图如图2所示。从编码和解码的框架图可以看出，要实现这样一个语音编解码器，清浊音判决的精确度显的尤为重要。

在现有专利US5216747“语音信号的清浊音评估算法”中，提出了一种清浊音判决的方法，该方法被应用于DVSI（Digital Voice System,Inc.,)公司的IMBE(ImprovedMulti-Band Excitation“增强的多带激励语音编解码算法”)声码器中，该专利中求取带通浊音度参数主要步骤如下：

1).对输入语音信号样点按时间顺序分帧；

2).使当前帧通过一个离散的高通滤波器来滤除任何残差能量获得其值为s(n)，高通滤波器如公式（1）所示；

3).对加窗后的当前帧s(n)WI(n)进行基音的初始估计获取基音粗估值如图3所示；

4).利用步骤2获得的高通滤波后信号s(n)和步骤3获得的基音粗估值来进行基音细估，获得当前帧的基音周期参数

5).将当前帧语音信号分割为个频带，频带数目取决于谐波的数目如公式（2）所示；

6).利用步骤4获得的当前帧的基音周期参数来对每个频带进行清浊音判决获得每个频带的图4给出了IMBE整个清浊音的判定流程框图；

上述已有的清浊音判决技术以被DVSI专利保护，且该专利中抽取的参数，如多重的清浊音判决和基音，他们不能足够的精确来支持高质量的语音合成。例如，基音的粗估和精估是MBE的一部分算法，但是IMBE的基音评估算法对短时的语音帧关心很少，此外，在短时语音帧中，高次谐波的谱峰值总是宽于基频的谱峰值。IMBE的基音评估和清浊音判算法没有考虑这些情况。

从量化的角度考虑，在编码速率进一步降低时，用于子带清浊音参数量化的比特数减少，从而无法高效量化子带清浊音参数，进一步使合成语音质量受到较大影响。实际上，连续语音帧的子带清浊音参数具有较强的相关性，因而连续超帧的子带清浊音参数间也具有较强的相关性，现有技术并未考虑或利用这种相关性，从而无法进一步提高子带清浊音参数的量化效率。

发明内容

本发明要解决的技术问题是提供一种能应用于低码率的移动互联网环境中基于各子带特征参数值的清浊音判决装置。本发明还提供了一种基于各子带特征参数值的清浊音判决方法。

为解决上述技术问题，基于各子带特征参数值的清浊音判决装置，包括：

语音信号分帧模块，将输入的语音信号编码采样分帧，将分帧后的每一语音帧发送至离散高通滤波模块；

离散高通滤波模块，使当前帧通过一个离散的高通滤波器来滤除任何残差能量获得其值为s(n)；

提取编码的特征参数模块，其包括5个子模块提取编码的特征参数，将提取出的提取编码的特征参数发送分割K个频带模块：

所述提取编码的特征参数模块包括：

子带能量计算模块,为将经过离散高通滤波后语音信号s(n)通过一个截止频率为0到500Hz的低通滤波器后的信号s_l(n)来计算子带的能量，其子带的能量计算如下：

其中s_l(n)是将经过离散高通滤波后的语音信号s(n)通过一个低通滤波器产生的信号；

过零率计算模块，直接将经过离散高通滤波后语音信号s(n)来计算过零率，其过零率的计算公式如下：

其中当x(i)与x(i+1)相乘的值为负，代表过零率产生，判定结果为1，否则其他结果为0，x(i)为经过离散高通滤波后的语音信号s(n)；

能量比率计算模块，将输入信号的能量谱S_w(ω)被截止频率ω_cv分割成两个带，所以能量比率的计算为低带能量和高带能量之比计算公式如下：

其中，低带能量E_l计算公式如下：

其中，高带能量E_h计算公式：

其中输入信号的能量谱S_w(ω)定义为对s(n)·w_R(n)做256个的离散傅里叶变换获得。

基音的误差函数值计算模块，利用误差函数E(P)来计算E(P_I)，基音的误差函数值计算公式如下，其中P_I为基音粗估的结果；

pitchError＝E(P_I)

平均的Yin值计算模块，利用Yin值来计算平均的Yin值，其中Yin值的计算采用：

输入参数：

w0：基音值

sig(n)：高通滤波的当前帧信号值

sig_len：当前帧信号值长度

返回值:

Yin值；

所以平均的Yin值计算公式如下：

meanYin＝[Yin(ω₀)+Yin(ω₀/2)]·ω₀/2

分割K个频带模块，将当前帧语音信号分割为个频带，频带数目取决于谐波的数目将频带数目发送到统计特征参数的特性值模块；

统计特征参数的特性值模块，在不同的清浊音情况下用原始的IMBE清浊音判断结果作为基准参数来获取统计特征参数；

清浊音判决模块，基于低次谐波带的重要性高于高次谐波带，将分离低次谐波带和其他的高次谐波带来各自判决，其中高次谐波带中k的取值为

本发明基于各子带特征参数值的清浊音判决方法，包括：

一、对输入语音信号样点按时间顺序分帧；

二、使当前帧通过一个离散的高通滤波器来滤除任何残差能量获得其值为s(n)；

三、基于步骤二中计算的s(n)来抽取编码时的特征参数，抽取编码时的特征参数采用：

1）用低通滤波器对当前帧的信号值s(n)进行低通滤波，然后计算子带能量；

2）利用经过高通滤波器后获得的信号值s(n)来计算当前帧的过零率；

3）计算当前帧的低频带能量和高频带能量，获取两个能量比率；

4）利用IMBE标准中的误差函数E(P)来计算当前帧基音的误差函数值；

5）计算当前帧的平均的Yin值；

四、将当前帧语音信号分割为个频带，频带数目取决于谐波的数目采用下述公式计算；

五、根据步骤三中抽取的特征参数来统计个频段的特征值，通过测试统计至少1000帧语音帧来获得个频段的特征参数特征值的统计数据；

六、利用步骤五中统计的特征参数特性来进行清浊音判决，基于低次谐波带的重要性高于高次谐波带，分离低次谐波带和其他的高次谐波带进行分别判决，其中高次谐波带中k的取值范围

本发明基于当前帧统计特征参数的特性，分析各子带特征参数的相关性来判定各子带的清浊音。本发明的清浊音判决方法能够完全取代IMBE中的判决方进行清浊音判决，能更加精确的获得各个子带的清浊音判定结果，进一步来支持高质量的语音合成；并且，能应用于低码率的移动互联网环境中。

附图说明

下面结合附图与具体实施方式对本发明作进一步详细的说明：

图1是多带激励模型中语音信号分析框图；

图2是多带激励模型中语音信号合成框图；

图3是IMBE基音粗估的框图；

图4是IMBE清浊音判决的框图；

图5是本发明清浊音判决装置工作流程示意图；

具体实施方式

如图5所示，本发明清浊音判决方法一实施例，利用语音信号分帧模块501，离散高通滤波模块502，提取编码的特征参数模块503，分割K个频带模块504，统计特征参数的特性值模块505，清浊音判决模块506。

语音信号分帧模块501，该模块将输入的语音信号编码操作以20ms的语音为一帧，即160个采样点，分帧后的每一语音帧供离散高通滤波模块502使用。

离散高通滤波502模块，该模块使当前帧通过一个离散的高通滤波器来滤除任何残差能量获得其值为s(n)，高通滤波器如公式（1）所示。

提取编码的特征参数模块503，该模块包括5个子模块提取编码的特征参数：计算子带能量模块503-1，计算过零率模块503-2，计算能量比模块503-3，计算误差函数值模块503-4，计算平均Yin值模块503-5。

子带能量计算模块503-1,

在标准的MELP（Mixed-Excitation Linear Predictive“混合激励线性预测编码”)规范中，浊音的分析是通过五个带通滤波器来实现的。本发明采用了第一个滤波器(低通滤波器），其截止通过的频率为0到500Hz。子带的能量计算如公式（3）

其中s_l(n)是将经过离散高通滤波后的语音信号s(n)通过一个低通滤波器产生的信号。

过零率计算模块503-2.

直接将经过离散高通滤波后语音信号s(n)来计算过零率，过零率的计算如公式（4）

其中当x(i)与x(i+1)相乘的值为负，代表过零率产生，判定结果为1，否则其他结果为0，x(i)为经过离散高通滤波后的语音信号s(n)。

能量比率计算模块503-3，输入信号的能量谱S_w(ω)被截止频率ω_cv分割成两个带，所以能量比率的计算为低带能量和高带能量之比如公式（5）所示，

其中低带能量E_l如公式（6）所示，

其中高带能量E_h如公式（7）所示，

其中输入信号的能量谱S_w(ω)定义在电子电信工业联盟制定的项目25声码器说明书（Project25Vocoder Description TIA/EIA102.BABA）第5.1.5章节中，即对s(n)·w_R(n)做256个的离散傅里叶变换获得S_w(ω)。

基音的误差函数值计算模块503-4，

在标准的IMBE（增强的多带激励语音编解码算法）中，误差函数E(P)被定义在在电子电信工业联盟制定的项目25声码器说明书（Project25Vocoder DescriptionTIA/EIA102.BABA）第5.1.1章节中，E(P_I)基音的误差函数值如公式（8）所示，其中P_I为基音粗估的结果。

pitchError＝E(P_I) （8）

平均的Yin值计算模块503-5，

其中Yin值的计算采用：

输入参数：

w0：基音值

sig(n)：高通滤波的当前帧信号值

sig_len：当前帧信号值长度

返回值:

Yin值

整个Yin值计算的代码如下：

其平均Yin值计算如公式（9）所示：

meanYin＝[Yin(ω₀)+Yin(ω₀/2)]·ω₀/2 （9）

分割K个频带模块504，该模块将当前帧语音信号分割为个频带，频带数目取决于谐波的数目如公式（2）所示，其中的计算方法被定义在在电子电信工业联盟制定的项目25声码器说明书（Project25Vocoder Description TIA/EIA102.BABA）第5.1.5章节中；

统计特征参数的特性值模块505，本发明是在不同的清浊音情况下，用原始的IMBE清浊音判断结果作为基准参数来获取上述的统计特征参数。

在IMBE标准中，清浊音判决被侦测于划分的个频段频谱中，其中k的取值范围为且每一帧的数目是变化的，即，的取值范围为所以当分析特征参数的统计特征时将导致一些困难。此外，对于一整帧的清浊音状态，不同的有不同贡献作用，总的来说，低次谐波带的重要性高于高次谐波带。基于这个原因，公式（10）和公式（11）将计算一帧的浊音等级，

其中weight_i是如下数组的第i项，

{0.1131,0.1131,0.1041,0.0905,0.086,0.086,0.0792,0.0792,0.0679,0.0679,0.0679,0.0452}

浊音等级voiceLevel代表了一帧的浊音的等级度，如果voiceLevel=0表示为清音帧，如果voiceLevel=12表示为重要的浊音帧。

表1给出了各个不同的浊音等级下的特征参数的平均值。这里的统计数据是基于10000帧语音帧计算而得到的。观察表1，我们能发现在各个浊音等级下定义的特征参数的平均值有一定的相关性，这些特征参数的变化趋势随着浊音等级的增加变化非常明显，所以，新的清浊音判决算法将直接使用这些特征参数来获得个频带的清浊音判决值。

voiceLevel	subEnergy	zeroCrossRate	pitchError	meanYin	energyRatio
						0	93.5058	73.9089	0.7870	0.1262	4.4500
1	98.5754	49.9391	0.6460	0.0549	7.0875
						2	97.2120	53.5785	0.3724	0.0474	7.5589
3	109.0699	43.3194	0.4035	0.0652	12.4787
						4	106.4609	38.5164	0.2948	0.0443	14.9856
5	111.8591	32.9318	0.2668	0.0373	18.0347
						6	114.9657	34.3885	0.2416	0.0370	16.7147
7	120.0719	30.4749	0.1930	0.0336	21.7979
						8	120.8640	29.9328	0.1765	0.0324	19.5938
9	123.2531	28.3811	0.1656	0.0318	22.8729
						10	124.4426	28.6647	0.1445	0.0305	19.7314
11	124.8115	30.0574	0.1297	0.0322	17.6272
						12	125.1095	33.5003	0.0999	0.0256	12.8442

表1特征参数的统计特性值

清浊音判决模块506，基于低次谐波带的重要性高于高次谐波带，本发明清浊音判决算法将分离低次谐波带和另外的高次谐波带来各自判决。该模块包括低次谐波带判决506-1和其他高次谐波带判决506-2；

低次谐波带判决506-1

低次谐波带的判决方法采用：

判决时的常量值被获得如下：

1）用IMBE的清浊音判决模块作为一个基准，测试每种条件状态下精确的比率值；调整每种条件状态下的常量值，使其确保85%的低次谐波带的判决值与IMBE的结果相同，该步的测试帧超过5000帧，确保统计的精确性；

2）用主观测试和客观测试来微调整每个条件状态下的常量值。

其他高次谐波带判决506-2

如下流程显示了其他高次谐波带的判决方法，

判决方法的基本思想是找到一个截止值c如公式12所示，

表1中表示的特征参数的平均Yin（meanYin），基音错误值（pitchError）和子带能量（subEnergy）基本为浊音等级（voiceLevel）的单调函数，因此，利用这个特性将找到截止值c。其中矩阵uvThresh的获得方法与低次谐波带判决506-1中描述的方法相似。

在本发明的实施例中，提供了一种全新的清浊音判决的方法，该方法是基于当前帧统计特征参数的特性，分析各子带特征参数的相关性来判定各子带的清浊音。该清浊音判决方法能够完全取代IMBE中的判决方法，经过6个语音文件客观pesq（语音质量评估）测试，测试值比原始的IMBE高出0.015，主观语音质量有所改善。

以上通过具体实施方式和实施例对本发明进行了详细的说明，但这些并非构成对本发明的限制。在不脱离本发明原理的情况下，本领域的技术人员还可做出许多变形和改进，这些也应视为本发明的保护范围。

Claims

1.一种基于各子带特征参数值的清浊音判决装置，其特征是，包括：

提取编码的特征参数模块，其包括5个子模块提取编码的特征参数，将提取出的编码的特征参数发送到分割K个频带模块：

所述提取编码的特征参数模块包括：

过零率计算模块，为直接将经过离散高通滤波后语音信号s(n)来计算过零率，其过零率的计算公式如下：

其中，低带能量E_l计算公式如下：

其中，高带能量E_h计算公式：

pitchError＝E(P_I)

输入参数：

w0：基音值

sig(n)：高通滤波的当前帧信号值

sig_len：当前帧信号值长度

返回值:

Yin值；

所以平均的Yin值计算公式如下：

meanYin＝[Yin(ω₀)+Yin(ω₀/2)]·ω₀/2

2.一种基于各子带特征参数值的清浊音判决方法，其特征是，包括：

一、对输入语音信号样点按时间顺序分帧；

5）计算当前帧的平均的Yin值；