CN101527141A

CN101527141A - 基于径向基神经网络的耳语音转换为正常语音的方法

Info

Publication number: CN101527141A
Application number: CN200910025321A
Authority: CN
Inventors: 陶智; 赵鹤鸣; 顾济华; 韩韬; 陈大庆; 许宜申; 吴迪; 张晓俊
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2009-03-10
Filing date: 2009-03-10
Publication date: 2009-09-09
Anticipated expiration: 2029-03-10
Also published as: CN101527141B

Abstract

本发明公开了一种基于径向基神经网络的耳语音转换为正常语音的方法。包括训练以及转换两个步骤：训练时分别提取耳语音、正常语音的线谱对参数，使用径向基神经网络捕获耳语音、正常语音频谱包络的映射关系；转换时对耳语音预处理、提取线谱对参数，然后使用已训练好的径向基神经网络转换耳语音的线谱对参数，最后以语音的基频平均值作为基音频率生成语音的激励源，通过线谱对参数合成器转换出正常语音。本发明转换的耳语音在可懂度以及音质方面都达到了很好的效果。

Description

基于径向基神经网络的耳语音转换为正常语音的方法

技术领域

本发明属于语音信号处理技术领域，特别涉及耳语音转换为正常语音技术。

背景技术

耳语音是一种有别于正常语音的发音模式，其主要特点是发音时音量低且声带完全不振动。在某些场合说话时，人们为了不影响他人或为了对话的保密性，常常使用耳语方式。然而由于耳语发音的特殊性和受对话环境的影响，这种方式下的语音信号不仅信噪比低而且可懂度、清晰度都较差，特别是在通过通讯设备进行交流时，既影响通话质量，又易使人产生疲劳。另外一些嗓音病人或发音功能不正常者交流时也只能使用耳语方式，影响了交流。

目前国内外关于耳语音转换的研究较少，已有的方法有：1、使用线性预测法(LPC)实现耳语音的重建，通过提取耳语音的偏相关系数构成斜格型合成滤波器进行合成，其遇到的问题，一是耳语音的共振峰不易提取，二是在该方法中，认为耳语音与正常语音的共振峰结构大致不变，但实际上耳语音的共振峰频率是向高频偏移的，所以恢复出的语音往往不能让人准确听辨；2、采用混合激励线性预测模型(MELP)重建耳语音，将语音分为五个频带，并将四个低频带作为浊音段激励，高频段作为清音段激励，这样重建的语音带有明显的失真；3、基于同态信号处理方法并结合相对熵声韵分割的耳语重建系统，在对耳语音声韵分割后，使用同态信号处理方法得到声道响应序列，根据音调加入基频，由于耳语音传输函数有别于正常语音，虽然经过了一些后处理但是转换语音的自然度不高。

发明内容

本发明目的是提供一种将耳语音转换为正常语音的方法，使得恢复的语音在可懂度以及音质上均达到比较好的效果，以更方便人们的交流。

为达到上述目的，本发明采用的技术方案是：一种基于径向基神经网络的耳语音转换为正常语音的方法，包括训练步骤和转换步骤，

所述训练步骤为，分别提取出相同发音内容的耳语音和正常语音的线谱对参数，使用径向基神经网络对耳语音、正常语音的线谱对参数进行训练，捕获耳语音、正常语音频谱包络的映射关系；

所述转换步骤为，提取待转换的耳语音的线谱对参数，使用已训练好的径向基神经网络进行转换，获得对应于正常语音的线谱对参数，并使用线谱对参数合成器转换出正常语音。

上文中，通过使用径向基神经网络，创造性地提出了利用耳语音和正常语音的线谱对参数间的关联性，实现耳语音和正常语音的转换。其中，在获得正常语音的线谱对参数后，用线谱对参数合成器进行合成转换出正常语音是现有技术。进行语音合成时，需要提供激励源，激励源分为浊音源和清音源两种，发浊音时声带不断张开和关闭，将产生间歇的脉冲波。这个脉冲的波形类似于斜三角的脉冲。它的数学表达式如下：

式中，N₁＝0.5N为斜三角波上升部分的时间，N₂＝0.35N为其下降部分的时间，N为语音基音周期的时间。选取语音基频平均值为基音频率。

发清音时，无论是发阻塞音或摩擦音，声道都被阻碍形成湍流。所以，可以把清音激励模拟成随机白噪声。实际情况下一般使用均值为0的、方差为1的，并在时间或/和幅值上为白色分布的序列。

利用上述激励源，将经过已训练径向基神经网络转换后的耳语音线谱对参数构成合成器，通过线谱对参数合成器转换出正常语音。

上述技术方案中，所述训练步骤中，获取耳语音的线谱对参数的方法为，获取采样率不低于10KHz的音频文件，进行下列处理，

(1)预处理：先采用一阶数字滤波器进行预加重处理，所述一阶数字滤波器为H(z)＝1-uz^-1，式中，H是传递函数，z是z变换，u为预加重系数，其取值为0.9＜u＜1；

再进行分帧加窗处理，每帧时间长度为20～30毫秒，帧长取2的整数次方，帧移与帧长的比值为1/4～1/2，采用汉明窗进行加窗处理，

式中，n为加窗点，N为汉明窗的窗长，w为汉明窗；

(2)线谱对分析：对经过预处理后的耳语音提取线谱对参数(w_i、θ_i)，并且w_i、θ_i按下式关系排列：

0＜w₁＜θ₁＜…＜w_p/2＜θ_p/2＜π，

其中p为线性预测误差滤波器传递函数

A (z) = 1 + Σ_{k = 1}^{p} a_{k} z^{- k}

的阶数，a_k为线性预测系数，z为z变换，A为线性预测误差滤波器；

获取正常语音的线谱对参数时，其步骤与上述耳语音的处理步骤相同。

优选的技术方案，所述步骤(1)中，u的取值为0.937。

所述音频文件的采样率为10KHz，所述步骤(1)中，帧长为256点，帧移为128点。

所述步骤(2)中，p的取值为10～15的整数。

上述技术方案中，所述训练步骤中，使用径向基神经网络，将耳语音的线谱对参数(w_i耳、θ_i耳)作为径向基神经网络输入值x，正常语音的线谱对参数(w_i _正、θ_i正)作为导师信号d，径向基神经网络的实际输出为y，通过径向基神经网络的学习，得到基函数的中心和方差以及隐含层与输出层间的权值，最后得到耳语音、正常语音频谱包络的映射关系。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

1.本发明创造性地提出了耳语音和正常语音的线谱对参数之间存在对应关系，并利用径向基神经网络经过训练将耳语音的线谱对参数转换成对应于正常语音的线谱对参数，再使用线谱对参数合成器转换为正常语音，实现了耳语音的转换。

2.实验表明，采用本发明的方法对耳语音进行转换，恢复的语音在可懂度以及音质上均达到了比较好的效果。

3.利用本发明的方法可以实现保密通话，并方便嗓音病人或发音功能不正常者的交流。

附图说明

图1为本发明实施例一中耳语音转换为正常语音方法的框图；

图2为具有单隐层的径向基三层前馈网络；

图3为单个斜三角波形；

图4为线谱对参数合成器；

图5为实施例二中正常语音“a”的波形图以及语谱图；

图6为使用线性预测法转换后的语音“a”的波形图以及语谱图；

图7为使用本发明方法转换后的语音“a”的波形图以及语谱图；

图8为使用本发明方法以及线性预测法转换后语音“a、o、e、i、u、v”的频谱距离比较。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例一：参见附图1至4所示，

耳语音没有基音周期，其能量比正常语音低20dB，信噪比更低。这种语音信号不仅信噪比低而且可懂度、清晰度都较差，这既影响通话质量，又易使人产生疲劳。本实施例选取了采样率为10KHz的wav格式音频文件，下面具体说明各步骤的工作流程。

如图1所示，本实施例的方法包括以下步骤：

步骤11：对耳语音进行预处理。首先对耳语音进行预加重处理。预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便用于频谱分析或声道参数的分析。所用的预加重数字滤波器是一阶的数字滤波器：

H(z)＝1-uz^-1

式中，u的值接近于1。

进行过预加重数字滤波器处理后，接下来要进行分帧加窗处理。帧长取256点，帧移取帧长的一半128点，这样是为了使帧与帧之间平滑过渡，保持其连续性。加窗选用的窗是汉明窗(Hamming)，使得语音短时参数更好地反映语音信号的特性变化：

式中，n为加窗点，N为窗长。

步骤12：线谱对分析，对经过预处理后的耳语音提取线谱对参数(w_i、θ_i)。线谱对是频域参数，因而和语音信号谱包络的峰有着更紧密的关系，它具有良好的量化特性和插值特性。并且w_i、θ_i按下式关系排列：

0＜w₁＜θ₁＜…＜w_p/2＜θ_p/2＜π，其中p为线性预测误差滤波器传递函数

A (z) = 1 + Σ_{k = 1}^{p} a_{k} z^{- k}

的阶数。a_k为线性预测系数。

由于P(z)＝1-(a₁+a_p)z^-1-(a₂+a_p-1)z^-2…-(a_p+a₁)z^-p+z^-(p+1)

Q(z)＝1-(a₁-a_p)z^-1-(a₂-a_p-1)z^-2…-(a_p-a₁)z^-p-z^-(p+1)

其中a_i，1≤i≤p为线性预测系数。设P(z)的零点为

Q(z)的零点为

那么P(z)和Q(z)可写成下列形式：

\begin{matrix} P (z) = (1 + z^{- 1}) \overset{p / 2}{Π} (1 - 2 \cos w_{i} z^{- 1} + z^{- 2}) \\ Q (z) = (1 - z^{- 1}) \overset{p / 2}{Π} (1 - 2 \cos θ_{i} z^{- 1} + z^{- 2}) \end{matrix}\}

Π_{j = 1}^{m} (1 - 2 z^{- 1} \cos w_{j} + z^{- 2}) = {(2 z^{- 1})}^{m} Π_{j = 1}^{m} (\frac{z + z^{- 1}}{2} - \cos w_{j})

且

(z + z^{- 1}) / 2 |_{z = e^{jw}} = \cos w = x,

所以P(z)/(1+x^-1)＝0是关于x的一个p/2次代数方程。同理Q(z)/(1+z^-1)＝0也是关于x的一个p/2次代数方程。联立解此代数方程组求得x，再由w_i＝cos^-1x_i就可以得到线谱对参数(w_i、θ_i)。

步骤15：对正常语音进行预处理。

步骤14：线谱对分析，对经过预处理后的正常语音提取线谱对参数。

步骤13：径向基神经网络训练，使用径向基神经网络对耳语音、正常语音的线谱对参数进行训练，捕获耳语音、正常语音频谱包络的映射关系。

径向基是具有单隐层的三层前馈网络如图2示。它能够以任意精度逼近任意连续函数。它包括隐含层和输出层。输入层有M个神经元，其中任一神经元用m表示；隐含层有N个神经元，任一神经元用i表示，Φ(X，X_i)为“基函数”，它是第i个隐单元的激励输出；输出层有J个神经元，其中任一神经元用j表示。隐含层与输出层突触权值用w_ij(i＝1，2，…，N；j＝1，2，…，J)表示。

当网络输入训练样本X_k时，网络第j个输出神经元的实际输出为

，j＝1，2，…，J

其中“基函数”一般选用格林函数

当“基函数”为高斯函数(一种特殊的格林函数)

(σ＞0，r∈R)

式中，t为高斯函数的中心，σ为方差。

此步训练时将耳语音的线谱对参数(w_i耳、θ_i耳)作为径向基神经网络输入值x，正常语音的线谱对参数(w_i正、θ_i正)作为导师信号d，径向基神经网络的实际输出为y。通过径向基神经网络的学习，得到基函数的中心和方差以及隐含层与输出层间的权值，最后得到耳语音、正常语音频谱包络的映射关系。

步骤21：对要转换的耳语音进行预处理。

步骤22：对预处理后的耳语音线谱对分析。

步骤23：使用经过训练后的径向基神经网络转换耳语音的线谱对参数，使得耳语音的线谱对参数接近于正常语音线谱对参数的数值。

将需要转换的耳语音线谱对参数(w_i、θ_i)输入到经过训练后的径向基神经网络(频谱包络的映射关系)，经过转换后径向基神经网络的输出值为(w_i转、θ_i转)。

步骤24：以语音基频平均值作为基音频率生成语音的激励源。

激励源一般分为浊音激励和清音激励。

发浊音时声带不断张开和关闭，将产生间歇的脉冲波。这个脉冲的波形类似于斜三角的脉冲。如下图3示，它的数学表达式如下：

步骤25：将转换后的耳语音线谱对参数(w_i转、θ_i转)输入到线谱对参数合成器中，使用线谱对参数合成器转换出正常语音。

线谱对参数合成器如图4示。线谱对合成滤波器传递函数表达式为：

H (z) = \frac{1}{1 + \frac{1}{2} {[P (z) - 1] + [Q (z) - 1]}}

线谱对参数为(w_i转、θ_i转)有：

令a_i＝-2cosw_i转，b_i＝-2cosθ_i转有：

\begin{matrix} P (z) = (1 + z^{- 1}) \overset{p / 2}{Π} (1 - a_{i} z^{- 1} + z^{- 2}) \\ Q (z) = (1 - z^{- 1}) \overset{p / 2}{Π} (1 - b_{i} z^{- 1} + z^{- 2}) \end{matrix}\}

进一步推得：

P (z) - 1 = z^{- 1} [(a_{1} + z^{- 1}) + Σ_{i = 1}^{p / 2 - 1} (a_{i + 1} + z^{- 1}) Π_{j = 1}^{i} (1 + a_{j} z^{- 1} + z^{- 2}) + Π_{j = 1}^{p / 2} (1 + a_{j} z^{- 1} + z^{- 2})]

Q (z) - 1 = z^{- 1} [(b_{1} + z^{- 1}) + Σ_{i = 1}^{p / 2 - 1} (b_{i + 1} + z^{- 1}) Π_{j = 1}^{i} (1 + b_{j} z^{- 1} + z^{- 2}) + Π_{j = 1}^{p / 2} (1 + b_{j} z^{- 1} + z^{- 2})]

以上两式所表示的声道滤波器结构即为线谱对参数合成器，将生成的激励源输入到此合成器，最后转换出正常语音。

实施例二：参见附图5至8所示，

对采样率为10KHz的wav格式音频文件耳语音“a、o、e、i、u、v”分别进行如下处理：(1)使用线性预测法(LPC)转换耳语音；(2)使用本发明方法转换耳语音。图5～7分别给出了正常语音以及通过上述两种算法处理后语音“a”的波形图和语谱图。可以看出本发明方法转换语音的语谱图更接近于正常语音的语谱图。

对两种方法转换后的语音分别进行了主观和客观测试。主观可懂度评价采用DRT(Diagnostic Rhyme Test)方法，质量度量采用主观平均判分方法(MeanOpinion Score，MOS)。

表1为DRT以及MOS评价的评分标准。

表1

DRT	质量级别	MOS	质量级别	失真级别
DRT	质量级别	MOS	质量级别	失真级别	＞＝95％	优(Excellent)	5.0	优(Excellent)	不察觉
85％-94％	良(Good)	4.0	良(Good)	刚有察觉	＞＝95％	优(Excellent)	5.0	优(Excellent)	不察觉
85％-94％	良(Good)	4.0	良(Good)	刚有察觉	75％-84％	中(Fair)	3.0	中(Fair)	有察觉稍觉可厌
65％-75％	差(Poor)	2.0	差(Poor)	明显察觉且可厌但可忍受	75％-84％	中(Fair)	3.0	中(Fair)	有察觉稍觉可厌
65％-75％	差(Poor)	2.0	差(Poor)	明显察觉且可厌但可忍受	＜65％	劣(Bad)	1.0	劣(Bad)	不可忍受

共挑选了10名实验者对转换后的语音进行听力测试，测试耳机为：BOSE-QC-1，然后分别给出音频质量的主观评分，表2给出了对两种方法转换语音的评分结果。

表2

	线性预测法(LPC)	本发明方法
	线性预测法(LPC)	本发明方法	DRT	65％	80％
MOS	2.5	3.5	DRT	65％	80％

客观评价采用改进型巴克谱失真测度(MBSD)测量频谱距离，MBSD的计算公式为：

\begin{matrix} MBSD = \frac{1}{N} Σ_{n = 1}^{N} [Σ_{i = 4}^{18} M (n, i) | L_{x} (n, i) - L_{y} (n, i) |] \\ M (n, i) = \{\begin{matrix} 0 & | L_{x} (n, i) - L_{y} (n, i) | \leq T (n, i) \\ 1 & | L_{x} (n, i) - L_{y} (n, i) | > T (n, i) \end{matrix} \end{matrix}

式中：N为处理语音的总帧数；L_x(n，i)和L_y(n，i)分别为原始语音和失真语音第n帧第i个巴克带的响度值；M(n，i)为掩蔽效应；T(n，i)为第n帧第i个巴克带的掩蔽门限值。在MBSD中取第4～18个巴克带的失真测度进行计算。图8给出了对转换语音频谱距离的评价结果。可以看出本发明方法转换语音的频谱失真距离小于LPC方法，更接近于正常语音。实验结果表明使用本发明方法转换后语音的可懂度以及音质均达到了比较好的效果。

Claims

1.一种基于径向基神经网络的耳语音转换为正常语音的方法，包括训练步骤和转换步骤，其特征在于：

2.根据权利要求1所述的基于径向基神经网络的耳语音转换为正常语音的方法，其特征在于：所述训练步骤中，获取耳语音的线谱对参数的方法为，获取采样率不低于10KHz的音频文件，进行下列处理，

式中，n为加窗点，N为汉明窗的窗长，w为汉明窗；

0＜w₁＜θ₁＜…＜w_p/2＜θ_p/2＜π，

其中p为线性预测误差滤波器传递函数

A (z) = 1 + Σ_{k = 1}^{p} a_{k} z^{- k}

3.根据权利要求2所述的基于径向基神经网络的耳语音转换为正常语音的方法，其特征在于：所述步骤(1)中，u的取值为0.937。

4.根据权利要求2所述的基于径向基神经网络的耳语音转换为正常语音的方法，其特征在于：所述音频文件的采样率为10KHz，所述步骤(1)中，帧长为256点，帧移为128点。

5.根据权利要求2所述的基于径向基神经网络的耳语音转换为正常语音的方法，其特征在于：所述步骤(2)中，p的取值为10～15的整数。

6.根据权利要求1所述的基于径向基神经网络的耳语音转换为正常语音的方法，其特征在于：所述训练步骤中，使用径向基神经网络，将耳语音的线谱对参数(w_i耳、θ_i耳)作为径向基神经网络输入值x，正常语音的线谱对参数(w_i _正、θ_i正)作为导师信号d，径向基神经网络的实际输出为y，通过径向基神经网络的学习，得到基函数的中心和方差以及隐含层与输出层间的权值，最后得到耳语音、正常语音频谱包络的映射关系。