CN102737628A - 一种基于lpc及rbf神经网络的声音转换的方法 - Google Patents
一种基于lpc及rbf神经网络的声音转换的方法 Download PDFInfo
- Publication number
- CN102737628A CN102737628A CN2012102295408A CN201210229540A CN102737628A CN 102737628 A CN102737628 A CN 102737628A CN 2012102295408 A CN2012102295408 A CN 2012102295408A CN 201210229540 A CN201210229540 A CN 201210229540A CN 102737628 A CN102737628 A CN 102737628A
- Authority
- CN
- China
- Prior art keywords
- frame
- lpc
- unvoiced
- voice
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明涉及语音信号处理领域,尤其涉及一种基于LPC及RBF神经网络的声音转换的方法,包括以下步骤A、对语音进行预处理;B、对浊音帧进行基频检测;C、对基频检测后的浊音帧进行转换;D、对转换后的基频进行浊音帧参量的提取;E、对提取到的浊音帧参量进行计算,求得一帧浊音帧,然后对该一帧浊音帧进行合成,得到转换后的浊音帧。本发明的有益效果是设计出一种高质量、计算量适中语音转换技术方案,可用于保密通信中进行语音个性化的伪装,应用在多媒体娱乐中,用于语音增强系统,尤其对于声带等发音器官存在病变或者损伤。
Description
技术领域
本发明涉及语音信号处理领域,尤其涉及一种基于LPC及RBF神经网络的声音转换的方法。
背景技术
对语音信号的处理,主要有三种方案:
1、基于矢量量化的码本映射技术实现方案
用矢量量化算法将源说话人和目标说话人的声学特征空间进行划分,用动态时间规整算法将源-目标特征矢量相关联,从而训练出一个源到目标说话人的映射码本。缺陷:尽管计算量较低,但是由于矢量量化作用造成的频谱的不连续性,转换语音质量还很低。
2、基于线性多变量回归的局部函数转换技术实现方案
说话人语音频谱空间由矢量量化划分成许多不同的子空间,每一个空间都训练一个局部函数,每个局部函数都表述了某一个声学空间源-目标说话人特征之间的关系,这样码本映射方案中的全局映射就被这些局部函数来近似。缺陷:这种局部空间转换的方法可以产生无穷多目标特征量。然而由于选择单个局部转换函数的离散性还存在,不连贯性仍然出现在输出语音中。
3、基于高斯混合模型的联合概率分布技术实现方案
通过概率的方法,采用高斯混合模型描述源-目标特征的联合概率分布,寻找转换函数来预测目标语音特征。这种技术比码本映射和局部函数变换有效性、鲁棒性也较好,理论上能使回归问题的混合成分得到更合理的配置。缺陷:这种技术在进行运算时计算量较大,而且存在转换语音频谱过分光滑现象,影响了转换语音目标说话人特征的倾向性。
发明内容
本发明解决的技术问题是:在已有的语音转换技术方案中,要么转换语音质量较低,要么计算量过大,本发明设计出一种高质量、计算量适中的语音转换技术方案。
本发明解决现有技术中存在的问题所采用的技术方案为:提供一种基于LPC及RBF神经网络的声音转换的方法,所述方法包括以下步骤:
A、对语音进行预处理;
B、对浊音帧进行基频检测;
C、对基频检测后的浊音帧进行转换;
D、对转换后的基频进行浊音帧参量的提取;
E、对提取到的浊音帧参量进行计算,求得一帧浊音帧,然后对该一帧浊音帧进行合成,得到转换后的浊音帧。
本发明的进一步技术方案是:所述A步骤还包括以下分步骤:
A1:从待转换语音中进行分帧;
A2: 运用判断方法对该帧进行清音和浊音的判断。
本发明的进一步技术方案是:所述A2步骤中,所述判断方法包括帧能量和帧过零率,帧能量的计算公式如下:
其中:x(m)为帧中第m个语音点的值,N为该帧的点数,E为帧能量, Ta为此函数的定义域m的阀值;
帧过零率的计算公式为:
其中:z为帧过零率,Tb为此函数的定义域m的阀值;计算出每帧的能量和过零率。通过此公式计算出每帧的能量和过零率,若帧能量大于一定的阀值Ta且过零率小于一定的阀值Tb,判定为浊音帧;否则,判定为清音帧。例如,假设Ta为语音的最大帧能量的10%,Tb约为120。当某一帧的能量大于Ta,过零率小于Tb时,判别为浊音帧,否则,为清音帧。由于语音信号具有清音部分能量低、浊音部分能量高,清音部分过零率高、浊音部分过零率低的特点。
本发明的进一步技术方案是:所述B步骤中,对浊音帧进行基频检测是运用平均幅度差函数AMDF来检测的,其计算公式为:
其中: l为偏移量。为避免偏移量过小,l的最小取值可设为10,最大取值原则上不超过该帧的点数的一半,可设为N/2;当l等于基频整数倍时,其平均幅度差函数AMDF值r(l)将达到极小值,尤其是当l等于基频时,取得最小值;因此,通过求得l的最小值,从而检测基频。
本发明的进一步技术方案是:所述D步骤中,对浊音帧进行参量的提取,是用自相关法从最低价线性预测器开始,由低阶到高阶进行逐阶递推计算,求得浊音帧第P阶LPC系数,根据该浊音帧LPC系数求得该浊音帧LSF系数。
本发明的进一步技术方案是:对源说话者与目标说话者的多个相同训练语音的浊音帧,分别提取出多组相对应LSF系数,获得转换后的LSF系数,再求得转换后的LPC系数。
本发明的进一步技术方案是:在求解所述转换后LPC系数的过程中求得预测误差能量E p 。
本发明的进一步技术方案是:用所述预测误差能量E p 进行开方,得到增益G。
本发明的进一步技术方案是:根据所述转换后的LPC系数、所述增益G,对一帧浊音帧进行合成,计算公式如下:
式中t(m)为一串冲激,周期为该帧的基频,转换后的LPC系数阶数为p,系数值为,增益为G, m 为帧中第 m 个语音点,合成得到的语音为 y(m) ,得到转换后的浊音帧,将所述转换后的浊音帧和所述的清音帧进行拼接合成,得到转换后的语音。
本发明的有益效果是:可用于保密通信中进行语音个性化的伪装,例如,通过语音转换技术,按确定的一种规则改变话者语音的某些参数,再在接收端进行反变换,合成出原来的语音,如果在传输过程中,被侦听,则听到的是另外一个说话人的声音,达到说话人伪装效能;应用在多媒体娱乐中,例如,在电影配音中,尤其是用另外一种语言进行配音时,往往配音演员不是演员本人,常常使配音与原演员的个性特征相差很大,配音效果不理想,但如果将配音再进行声音转换,使之重新具有演员本人的个性特征,那么配音效果就会理想的多;用于语音增强系统,尤其对于声带等发音器官存在病变或者损伤,其话音的质量也严重受损,对方难以听懂,严重地影响了正常的沟通与交流,如果能将这样严重受损的话音转换成一个清晰可懂的声音,则极大的方便了这类患者的正常生活。
附图说明
图1是本发明基于LPC及RBF神经网络的声音转换的方法的流程图。
具体实施方式
下面结合附图说明及具体实施方式对本发明进一步说明。
如图1所示,本发明提供一种基于LPC及RBF神经网络的声音转换的方
法,包括以下步骤A、对语音进行预处理; B、对浊音帧进行基频检测S03;
C、对基频检测后的浊音帧进行转换;D、对转换后的基频进行浊音帧参量的提取;E、对提取到的浊音帧参量进行计算,求得一帧浊音帧,然后对该一帧浊音帧进行合成,得到转换后的浊音帧。所述A步骤还包括以下分步骤:A1:从待转换语音中进行分帧S01;A2: 运用判断方法对该帧进行清音和浊音的判断S02。
所述A2步骤中,所述判断方法包括帧能量和帧过零率,帧能量的计算公式如下:
其中:x(m)为帧中第m个语音点的值,N为该帧的点数,E为帧能量, Ta为此函数的定义域m的阀值;
帧过零率的计算公式为:
其中:z为帧过零率,Tb为此函数的定义域m的阀值;计算出每帧的能量和过零率。
所述B步骤中,对浊音帧进行基频检测S03是运用平均幅度差函数AMDF来检测的,其计算公式为:
其中:l为偏移量。
所述C步骤中, 对基频检测后的浊音帧进行转换,转换规则采用基频转换规则S04。
所述D步骤中,对浊音帧进行参量的提取,是用自相关法从最低价线性预测器开始,由低阶到高阶进行逐阶递推计算,求得浊音帧第P阶LPC系数,根据该浊音帧LPC系数求得该浊音帧LSF系数S06。第P阶LPC系数的计算过程伪代码如下:
其中,r(i)是该帧偏移量为i的自相关系数。Ei是第i阶预测误差功率, aj (i)表示第阶预测器的第j个预测系数。该帧第p阶LPC系数为
该帧的LSF系数可用该帧的LPC系数来求出。首先设第p阶LPC系数为
当p为偶数时,
当p为奇数时,
求出G 1 (z)和 G 2 (z)的根,这些根是复数根,将这些根转换为角频率,再按从小到大顺序排序后即为该帧LSF系数。
对源说话者与目标说话者的多个相同训练语音的浊音帧,分别提取出多组相对应LSF系数,获得转换后的LSF系数,再求得转换后的LPC系数S08。语音可分为训练语音和转换语音。源说话者和目标说话者发出相同的一个语音,那么这两个语音就可作为一对训练语音。训练语音是用来获取源语音到目标语音的转换规则。基频转换又可分为基频转换规则和声道参数转换规则。用多对训练语音来获得基频转换规则时,相应的一对训练语音的基频进行简单的匹配,组成了匹配表的一条目录。匹配表就是基频转换规则。再用匹配表去处理待转换语音的基频得到转换后的基频。比如说,源和目标同时说出“i”这个音,这就是一对训练语音,分别提取基频,假如分别是1000Hz和1200Hz,将两个基频进行匹配,组成匹配表的一条目录。那么在转换待转换语音时,遇到基频为1000Hz的语音,根据基频的匹配,将其转换为1200Hz的基频。声道参数转换规则:对源说话者与目标说话者的多个相同训练语音的浊音帧,分别提取出多组相对应LSF系数。将源说话者的多组LSF系数作为神经网络的输入,将目标说话者的多组LSF系数作为神经网络的输出,对神经网络进行训练,经过训练后的神经网络即为声道参数转换规则。然后将待转换的多组LSF系数作为训练过的神经网络的输入,输出就是需要的多组LSF系数。转换后的LPC及LSF系数:转换后的LPC系数可由转换后的LSF系数求得。过程如下:
又得
最后得到LPC系数为:
在求解所述转换后LPC系数的过程中求得预测误差能量E P S09。Ep就是Ei(i=p)时的值,计算过程如下:
根据所述转换后的LPC系数、所述增益G(S10),对一帧浊音帧进行合成S11,计算公式如下:
式中t(m)为一串冲激,周期为该帧的基频,转换后的LPC系数阶数为p,系数值为,增益为G,m为帧中第m个语音点,合成得到的语音为y(m),得到转换后的浊音帧S12,将所述转换后的浊音帧和所述的清音帧进行拼接合成,得到转换后的语音。语音合成S13:将转换后的语音帧进行拼接合成时,这个过程与分帧过程恰好相反。如果在分帧时,帧与帧有交迭,那么在合成时,交迭点的值为:两帧在该点的值求和再除以2,即;
,式中:y 1 :第一帧在交迭点的值,y 2 :第二帧在交迭点的值。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于LPC及RBF神经网络的声音转换的方法,其特征在于:包括以下步骤:
A、对语音进行预处理;
B、对浊音帧进行基频检测;
C、对基频检测后的浊音帧进行转换;
D、对转换后的基频进行浊音帧参量的提取;
E、对提取到的浊音帧参量进行计算,求得一帧浊音帧,然后对该一帧浊音帧进行合成,得到转换后的浊音帧。
2.根据权利要求1所述的基于LPC及RBF神经网络的声音转换的方法,其特征在于:所述A步骤还包括以下分步骤:
A1:从待转换语音中进行分帧;
A2: 运用判断方法对该帧进行清音和浊音的判断。
5.根据权利要求1所述的基于LPC及RBF神经网络的声音转换的方法,其特征在于:所述C步骤中, 对基频检测后的浊音帧进行转换,转换规则采用基频转换规则。
6.根据权利要求1所述的基于LPC及RBF神经网络的声音转换的方法,其特征在于:所述D步骤中,对浊音帧进行参量的提取,是用自相关法从最低价线性预测器开始,由低阶到高阶进行逐阶递推计算,求得浊音帧第P阶LPC系数,根据该浊音帧LPC系数求得该浊音帧LSF系数。
7.根据权利要求1至6任一项所述的基于LPC及RBF神经网络的声音转换的方法,其特征在于: 对源说话者与目标说话者的多个相同训练语音的浊音帧,分别提取出多组相对应LSF系数,获得转换后的LSF系数,再求得转换后的LPC系数。
8.根据权利要求7所述的,其特征在于:在求解所述转换后LPC系数的过程中求得预测误差能量E p 。
9.根据权利要求8所述的基于LPC及RBF神经网络的声音转换的方法,其特征在于:用所述预测误差能量E p 进行开方,得到增益G。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102295408A CN102737628A (zh) | 2012-07-04 | 2012-07-04 | 一种基于lpc及rbf神经网络的声音转换的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102295408A CN102737628A (zh) | 2012-07-04 | 2012-07-04 | 一种基于lpc及rbf神经网络的声音转换的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102737628A true CN102737628A (zh) | 2012-10-17 |
Family
ID=46993003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012102295408A Pending CN102737628A (zh) | 2012-07-04 | 2012-07-04 | 一种基于lpc及rbf神经网络的声音转换的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102737628A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767755A (zh) * | 2019-03-01 | 2019-05-17 | 广州多益网络股份有限公司 | 一种语音合成方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1534595A (zh) * | 2003-03-28 | 2004-10-06 | 中颖电子(上海)有限公司 | 语音转换合成装置及其方法 |
CN101188637A (zh) * | 2006-11-15 | 2008-05-28 | 林晓良 | 一种将耳语转换为正常语音的装置和方法 |
US20090083038A1 (en) * | 2007-09-21 | 2009-03-26 | Kazunori Imoto | Mobile radio terminal, speech conversion method and program for the same |
CN101751921A (zh) * | 2009-12-16 | 2010-06-23 | 南京邮电大学 | 一种在训练数据量极少条件下的实时语音转换方法 |
-
2012
- 2012-07-04 CN CN2012102295408A patent/CN102737628A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1534595A (zh) * | 2003-03-28 | 2004-10-06 | 中颖电子(上海)有限公司 | 语音转换合成装置及其方法 |
CN101188637A (zh) * | 2006-11-15 | 2008-05-28 | 林晓良 | 一种将耳语转换为正常语音的装置和方法 |
US20090083038A1 (en) * | 2007-09-21 | 2009-03-26 | Kazunori Imoto | Mobile radio terminal, speech conversion method and program for the same |
CN101751921A (zh) * | 2009-12-16 | 2010-06-23 | 南京邮电大学 | 一种在训练数据量极少条件下的实时语音转换方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767755A (zh) * | 2019-03-01 | 2019-05-17 | 广州多益网络股份有限公司 | 一种语音合成方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109671442B (zh) | 基于STARGAN和x向量的多对多说话人转换方法 | |
CN108847249A (zh) | 声音转换优化方法和系统 | |
Tang et al. | Avqvc: One-shot voice conversion by vector quantization with applying contrastive learning | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN111128211B (zh) | 一种语音分离方法及装置 | |
CN105023580A (zh) | 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法 | |
CN104123933A (zh) | 基于自适应非平行训练的语音转换方法 | |
CN109599091A (zh) | 基于STARWGAN-GP和x向量的多对多说话人转换方法 | |
CA2737142C (en) | Method for creating a speech model | |
CN110164463A (zh) | 一种语音转换方法、装置、电子设备及存储介质 | |
CN110675891A (zh) | 一种基于多层注意力机制的语音分离方法、模块 | |
Al-Kaltakchi et al. | Study of statistical robust closed set speaker identification with feature and score-based fusion | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
Mohammadi et al. | A Voice Conversion Mapping Function Based on a Stacked Joint-Autoencoder. | |
CN101178895A (zh) | 基于生成参数听感误差最小化的模型自适应方法 | |
Wu et al. | Denoising Recurrent Neural Network for Deep Bidirectional LSTM Based Voice Conversion. | |
CN111599339B (zh) | 具有高自然度的语音拼接合成方法、系统、设备及介质 | |
Luo et al. | Emotional Voice Conversion Using Neural Networks with Different Temporal Scales of F0 based on Wavelet Transform. | |
CN103886859A (zh) | 基于一对多码书映射的语音转换方法 | |
Badeau et al. | Expectation-maximization algorithm for multi-pitch estimation and separation of overlapping harmonic spectra | |
CN102737628A (zh) | 一种基于lpc及rbf神经网络的声音转换的方法 | |
Ai et al. | Denoising-and-dereverberation hierarchical neural vocoder for statistical parametric speech synthesis | |
Sautter et al. | Feature selection for DNN-based bandwidth extension | |
Xie et al. | Pitch transformation in neural network based voice conversion | |
Wang et al. | Improve gan-based neural vocoder using pointwise relativistic leastsquare gan |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20121017 |