CN102737628A

CN102737628A - 一种基于lpc及rbf神经网络的声音转换的方法

Info

Publication number: CN102737628A
Application number: CN2012102295408A
Authority: CN
Inventors: 张钦宇; 潘振鹏; 林威; 王喆; 付东松; 张勇勇; 黄立伟
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2012-07-04
Filing date: 2012-07-04
Publication date: 2012-10-17

Abstract

本发明涉及语音信号处理领域，尤其涉及一种基于LPC及RBF神经网络的声音转换的方法，包括以下步骤A、对语音进行预处理；B、对浊音帧进行基频检测；C、对基频检测后的浊音帧进行转换；D、对转换后的基频进行浊音帧参量的提取；E、对提取到的浊音帧参量进行计算，求得一帧浊音帧，然后对该一帧浊音帧进行合成，得到转换后的浊音帧。本发明的有益效果是设计出一种高质量、计算量适中语音转换技术方案，可用于保密通信中进行语音个性化的伪装，应用在多媒体娱乐中，用于语音增强系统，尤其对于声带等发音器官存在病变或者损伤。

Description

一种基于LPC及RBF神经网络的声音转换的方法

技术领域

本发明涉及语音信号处理领域，尤其涉及一种基于LPC及RBF神经网络的声音转换的方法。

背景技术

对语音信号的处理，主要有三种方案：

1、基于矢量量化的码本映射技术实现方案

用矢量量化算法将源说话人和目标说话人的声学特征空间进行划分，用动态时间规整算法将源-目标特征矢量相关联，从而训练出一个源到目标说话人的映射码本。缺陷：尽管计算量较低，但是由于矢量量化作用造成的频谱的不连续性，转换语音质量还很低。

2、基于线性多变量回归的局部函数转换技术实现方案

说话人语音频谱空间由矢量量化划分成许多不同的子空间，每一个空间都训练一个局部函数，每个局部函数都表述了某一个声学空间源-目标说话人特征之间的关系，这样码本映射方案中的全局映射就被这些局部函数来近似。缺陷：这种局部空间转换的方法可以产生无穷多目标特征量。然而由于选择单个局部转换函数的离散性还存在，不连贯性仍然出现在输出语音中。

3、基于高斯混合模型的联合概率分布技术实现方案

通过概率的方法，采用高斯混合模型描述源-目标特征的联合概率分布，寻找转换函数来预测目标语音特征。这种技术比码本映射和局部函数变换有效性、鲁棒性也较好，理论上能使回归问题的混合成分得到更合理的配置。缺陷：这种技术在进行运算时计算量较大,而且存在转换语音频谱过分光滑现象,影响了转换语音目标说话人特征的倾向性。

发明内容

本发明解决的技术问题是：在已有的语音转换技术方案中，要么转换语音质量较低，要么计算量过大，本发明设计出一种高质量、计算量适中的语音转换技术方案。

本发明解决现有技术中存在的问题所采用的技术方案为：提供一种基于LPC及RBF神经网络的声音转换的方法，所述方法包括以下步骤：

A、对语音进行预处理；

B、对浊音帧进行基频检测；

C、对基频检测后的浊音帧进行转换；

D、对转换后的基频进行浊音帧参量的提取；

E、对提取到的浊音帧参量进行计算，求得一帧浊音帧，然后对该一帧浊音帧进行合成，得到转换后的浊音帧。

本发明的进一步技术方案是：所述A步骤还包括以下分步骤：

A1：从待转换语音中进行分帧；

A2: 运用判断方法对该帧进行清音和浊音的判断。

本发明的进一步技术方案是：所述A2步骤中，所述判断方法包括帧能量和帧过零率，帧能量的计算公式如下：

Figure 2012102295408100002DEST_PATH_IMAGE001

其中：x(m)为帧中第m个语音点的值，N为该帧的点数，E为帧能量， Ta为此函数的定义域m的阀值；

帧过零率的计算公式为：

Figure 2012102295408100002DEST_PATH_IMAGE002

其中：z为帧过零率，Tb为此函数的定义域m的阀值；计算出每帧的能量和过零率。通过此公式计算出每帧的能量和过零率，若帧能量大于一定的阀值Ta且过零率小于一定的阀值Tb，判定为浊音帧；否则，判定为清音帧。例如，假设Ta为语音的最大帧能量的10%，Tb约为120。当某一帧的能量大于Ta，过零率小于Tb时，判别为浊音帧，否则，为清音帧。由于语音信号具有清音部分能量低、浊音部分能量高，清音部分过零率高、浊音部分过零率低的特点。

本发明的进一步技术方案是：所述B步骤中，对浊音帧进行基频检测是运用平均幅度差函数AMDF来检测的，其计算公式为：

Figure 2012102295408100002DEST_PATH_IMAGE003

其中： l为偏移量。为避免偏移量过小，l的最小取值可设为10，最大取值原则上不超过该帧的点数的一半，可设为N/2；当l等于基频整数倍时，其平均幅度差函数AMDF值r(l)将达到极小值，尤其是当l等于基频时，取得最小值；因此，通过求得l的最小值，从而检测基频。

本发明的进一步技术方案是：所述D步骤中，对浊音帧进行参量的提取，是用自相关法从最低价线性预测器开始，由低阶到高阶进行逐阶递推计算，求得浊音帧第P阶LPC系数，根据该浊音帧LPC系数求得该浊音帧LSF系数。

本发明的进一步技术方案是：对源说话者与目标说话者的多个相同训练语音的浊音帧，分别提取出多组相对应LSF系数，获得转换后的LSF系数，再求得转换后的LPC系数。

本发明的进一步技术方案是：在求解所述转换后LPC系数的过程中求得预测误差能量E _p。

本发明的进一步技术方案是：用所述预测误差能量E _p进行开方，得到增益G。

本发明的进一步技术方案是：根据所述转换后的LPC系数、所述增益G，对一帧浊音帧进行合成，计算公式如下：

式中t(m)为一串冲激，周期为该帧的基频，转换后的LPC系数阶数为p，系数值为

Figure 2012102295408100002DEST_PATH_IMAGE005

，增益为G， m 为帧中第 m 个语音点，合成得到的语音为 y(m) ，得到转换后的浊音帧，将所述转换后的浊音帧和所述的清音帧进行拼接合成，得到转换后的语音。

本发明的有益效果是：可用于保密通信中进行语音个性化的伪装，例如，通过语音转换技术，按确定的一种规则改变话者语音的某些参数，再在接收端进行反变换，合成出原来的语音，如果在传输过程中，被侦听，则听到的是另外一个说话人的声音，达到说话人伪装效能；应用在多媒体娱乐中，例如，在电影配音中，尤其是用另外一种语言进行配音时，往往配音演员不是演员本人，常常使配音与原演员的个性特征相差很大，配音效果不理想，但如果将配音再进行声音转换，使之重新具有演员本人的个性特征，那么配音效果就会理想的多；用于语音增强系统，尤其对于声带等发音器官存在病变或者损伤,其话音的质量也严重受损,对方难以听懂,严重地影响了正常的沟通与交流,如果能将这样严重受损的话音转换成一个清晰可懂的声音,则极大的方便了这类患者的正常生活。

附图说明

图1是本发明基于LPC及RBF神经网络的声音转换的方法的流程图。

具体实施方式

下面结合附图说明及具体实施方式对本发明进一步说明。

如图1所示，本发明提供一种基于LPC及RBF神经网络的声音转换的方

法，包括以下步骤A、对语音进行预处理； B、对浊音帧进行基频检测S03；

C、对基频检测后的浊音帧进行转换；D、对转换后的基频进行浊音帧参量的提取；E、对提取到的浊音帧参量进行计算，求得一帧浊音帧，然后对该一帧浊音帧进行合成，得到转换后的浊音帧。所述A步骤还包括以下分步骤：A1：从待转换语音中进行分帧S01；A2: 运用判断方法对该帧进行清音和浊音的判断S02。

所述A2步骤中，所述判断方法包括帧能量和帧过零率，帧能量的计算公式如下：

帧过零率的计算公式为：

其中：z为帧过零率，Tb为此函数的定义域m的阀值；计算出每帧的能量和过零率。

所述B步骤中，对浊音帧进行基频检测S03是运用平均幅度差函数AMDF来检测的，其计算公式为：

其中：l为偏移量。

所述C步骤中, 对基频检测后的浊音帧进行转换,转换规则采用基频转换规则S04。

所述D步骤中，对浊音帧进行参量的提取，是用自相关法从最低价线性预测器开始，由低阶到高阶进行逐阶递推计算，求得浊音帧第P阶LPC系数，根据该浊音帧LPC系数求得该浊音帧LSF系数S06。第P阶LPC系数的计算过程伪代码如下：

Figure 2012102295408100002DEST_PATH_IMAGE006

其中，r(i)是该帧偏移量为i的自相关系数。E_i是第i阶预测误差功率， a_j ⁽ⁱ⁾表示第阶预测器的第j个预测系数。该帧第p阶LPC系数为

Figure 2012102295408100002DEST_PATH_IMAGE007

该帧的LSF系数可用该帧的LPC系数来求出。首先设第p阶LPC系数为

又设

Figure 2012102295408100002DEST_PATH_IMAGE008

,

Figure 2012102295408100002DEST_PATH_IMAGE009

,

Figure 2012102295408100002DEST_PATH_IMAGE010

。

当p为偶数时，

Figure 2012102295408100002DEST_PATH_IMAGE011

，

Figure 2012102295408100002DEST_PATH_IMAGE012

。

当p为奇数时，

Figure 2012102295408100002DEST_PATH_IMAGE014

。

求出G ₁ (z)和 G ₂ (z)的根，这些根是复数根，将这些根转换为角频率，再按从小到大顺序排序后即为该帧LSF系数。

对源说话者与目标说话者的多个相同训练语音的浊音帧，分别提取出多组相对应LSF系数，获得转换后的LSF系数，再求得转换后的LPC系数S08。语音可分为训练语音和转换语音。源说话者和目标说话者发出相同的一个语音，那么这两个语音就可作为一对训练语音。训练语音是用来获取源语音到目标语音的转换规则。基频转换又可分为基频转换规则和声道参数转换规则。用多对训练语音来获得基频转换规则时，相应的一对训练语音的基频进行简单的匹配，组成了匹配表的一条目录。匹配表就是基频转换规则。再用匹配表去处理待转换语音的基频得到转换后的基频。比如说，源和目标同时说出“i”这个音，这就是一对训练语音，分别提取基频，假如分别是1000Hz和1200Hz，将两个基频进行匹配，组成匹配表的一条目录。那么在转换待转换语音时，遇到基频为1000Hz的语音，根据基频的匹配，将其转换为1200Hz的基频。声道参数转换规则：对源说话者与目标说话者的多个相同训练语音的浊音帧，分别提取出多组相对应LSF系数。将源说话者的多组LSF系数作为神经网络的输入，将目标说话者的多组LSF系数作为神经网络的输出，对神经网络进行训练，经过训练后的神经网络即为声道参数转换规则。然后将待转换的多组LSF系数作为训练过的神经网络的输入，输出就是需要的多组LSF系数。转换后的LPC及LSF系数：转换后的LPC系数可由转换后的LSF系数求得。过程如下：

先设一组LSF系数为,i=1,…,j=i,…1计算

Figure 2012102295408100002DEST_PATH_IMAGE015

，初始值

Figure 2012102295408100002DEST_PATH_IMAGE016

，

Figure 2012102295408100002DEST_PATH_IMAGE017

代码为：

Figure 2012102295408100002DEST_PATH_IMAGE018

把上面递推关系中的替换为

Figure 2012102295408100002DEST_PATH_IMAGE020

，就可以得到

Figure 2012102295408100002DEST_PATH_IMAGE021

。

又得

Figure 2012102295408100002DEST_PATH_IMAGE022

，

最后得到LPC系数为：

Figure 2012102295408100002DEST_PATH_IMAGE023

在求解所述转换后LPC系数的过程中求得预测误差能量E _P S09。E_p就是Ei（i=p）时的值，计算过程如下：

用所述预测误差能量E _p进行开方

Figure 2012102295408100002DEST_PATH_IMAGE024

，得增益G(S10)。

根据所述转换后的LPC系数、所述增益G(S10)，对一帧浊音帧进行合成S11，计算公式如下：

式中t（m）为一串冲激，周期为该帧的基频，转换后的LPC系数阶数为p，系数值为

，增益为G，m为帧中第m个语音点，合成得到的语音为y(m)，得到转换后的浊音帧S12，将所述转换后的浊音帧和所述的清音帧进行拼接合成，得到转换后的语音。语音合成S13：将转换后的语音帧进行拼接合成时，这个过程与分帧过程恰好相反。如果在分帧时，帧与帧有交迭，那么在合成时，交迭点的值为：两帧在该点的值求和再除以2，即；

Figure 2012102295408100002DEST_PATH_IMAGE025

,式中：y ₁：第一帧在交迭点的值，y ₂：第二帧在交迭点的值。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。