CN103886859A - 基于一对多码书映射的语音转换方法 - Google Patents

基于一对多码书映射的语音转换方法 Download PDF

Info

Publication number
CN103886859A
CN103886859A CN201410050758.6A CN201410050758A CN103886859A CN 103886859 A CN103886859 A CN 103886859A CN 201410050758 A CN201410050758 A CN 201410050758A CN 103886859 A CN103886859 A CN 103886859A
Authority
CN
China
Prior art keywords
voice
code book
target
source
characteristic parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410050758.6A
Other languages
English (en)
Other versions
CN103886859B (zh
Inventor
徐宁
胡芳
鲍静益
刘小峰
汤一彬
蒋爱民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN201410050758.6A priority Critical patent/CN103886859B/zh
Publication of CN103886859A publication Critical patent/CN103886859A/zh
Application granted granted Critical
Publication of CN103886859B publication Critical patent/CN103886859B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于一对多码书映射的语音转换方法,对源语音码书与目标语音码书的一对多映射关系的建立,从平行数据库中随机提取一部分语音,对齐并提取声道参数后快速建立源与目标语音码书;估算用于训练的数据中源与目标特征参数对应于其各自码书的权重,通过统计与分析二者的关系来建立源与目标语音的权重映射关系,进而掌握个性特征的映射规则,实现高质量、快速的语音转换,能够解决实际环境中语音转换系统的实时性、转换后相似度的问题,最终在对语音转换实时性追求的过程中减小转换效果的代价,从而提高转换结果与目标语音的相似度,具有良好的应用前景。

Description

基于一对多码书映射的语音转换方法
技术领域
本发明涉及一种基于一对多码书映射的语音转换方法,属于语音转换技术领域。
背景技术
语音转换技术是将某人(称之为源)的语音作为输入,对其进行特征参数的修改,使其输出语义相同但具有另一说话人(称之为目标)声音个性的语音的技术。简单地说就是将一个说话人的声音,通过某种手段进行变换,使其听起来仿佛是另一个说话人说的话,语音转换是音信号处理领域一个较新的分支,属于交叉性的学科分支,其内容既涵盖语音的分析与合成、说话人识别、语音编码和增强等语音处理领域的各方面又涉及到语音学、语义学及心理声学等领域的知识。
近年来,语音转换技术在许多语音研究者的努力下已经初成一些体系,如隐马尔可夫模型、人工神经网络、统计映射法等,早年,Stylianou等人通过高斯混合模型实现了对特征参数的映射,继而该方法也成为了当前较为主流的方法之一,语音转换的最终目标是实时化、智能化,因此转换速度与转换效果是语音转换技术最主要的追求目标。然而,以高斯混合模型训练为代表的现阶段的转换技术需要对每一段输入的语音进行进行映射规则的训练,其计算量大、消耗时间较多,很难满足语音转换的实时性要求。
针对上述问题,目前已存在一些应对方案,例如,针对“训练过程的时间消耗”问题,早期有学者提出矢量量化算法:先对用于训练的平行数据进行线性预测分析,利用矢量量化运算将平行数据的的声道包络参数划分为若干码本,然后对数据进行动态时间规整对齐并计算统计直方图,最后将统计的直方图作为加权因子建立转换规则。针对矢量量化算法的转换结果两帧之间有间断性的缺点,Shikano等人提出模糊矢量量化算法,该算法在转换时考虑到了所有源和目标码字之间的关系,然后将其加权叠加,以达到对参数进行平滑的效果,但是语音转换后相似度低。除此之外,Arslan等人提出基于分段码书的说话人映射算法,他们对输入的语音帧首先按照所属的音素类别进行分类,并采用了线性谱频率作为特征参数建立源与目标语音一对一映射的码书,但此过程复杂,处理时间长。
发明内容
本发明的目的是克服现有技术存在的不足,本发明的基于一对多码书映射的语音转换方法,能够解决实际环境中语音转换系统的实时性、转换后相似度的问题,最终在对语音转换实时性追求的过程中减小转换效果的代价,从而提高转换结果与目标语音的相似度,具有良好的应用前景。
为了达到上述目的,本发明所采用的技术方案是:
基于一对多码书映射的语音转换方法,其特征在于:包括以下步骤,
步骤(1),训练阶段,用于建立源码书与目标码书的一对多关系,包括以下步骤,
(A)对平行的语音数据采用谐波随机模型进行语音分析;
(B)从语音分析得到的模型参数中提取声道特征参数和基音频率;
(C)利用动态时间规整算法将源和目标的声道特征参数进行对齐;
(D)从对齐的特征参数中随机提取部分数据作为码书,码书包括源语音码书和目标码书;
(E)将剩余与码书不重叠的对齐数据作为训练数据,分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重,分析统计源语音与对应目标语音的权重的映射关系;
(F)通过分析统计的权重关系,建立源语音与目标码书的一对多映射关系;
步骤(2),转换阶段,用于实现语音特征的映射,合成转换后的语音,以下步骤,
(H)根据建立源语音与目标码书的一对多映射关系,实现对语音特征的映射;
(G)进行参数内插和相位补偿,合成转换后的语音。
前述的基于一对多码书映射的语音转换方法,其特征在于:(A)对平行的语音数据采用谐波随机模型进行语音分析的方法,包括如下步骤,
(A1),对语音数据进行固定时长的分帧,用互相关法对基音频率进行估计并根据基音频率划分清音信号帧与浊音信号帧;
(A2),在浊音信号帧部分设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域,再利用最小二乘算法估计得到离散的谐波幅度值和相位值;
(A3),在清音信号帧部分,利用经典的线性预测分析法对其进行分析,得到线性预测系数。
前述的基于一对多码书映射的语音转换方法,其特征在于:(B)从语音分析得到的模型参数中提取声道特征参数和基音频率的方法,包括以下步骤,
(B1),对(A2)得到的离散的谐波幅度值求取平方;
(B2),根据功率谱密度函数和自相关函数的一一对应关系,得到(A3)线性预测系数的托普里茨矩阵方程,求解该方程,将线性预测系数转换为线性谱频率系数。
前述的基于一对多码书映射的语音转换方法,其特征在于:(C)利用动态时间规整算法将源和目标的声道特征参数进行对齐,对齐准则为:对于两个不等长的特征参数序列,利用动态时间规整算法将其中一者的时间轴非线性的映射到另一者的时间轴上,实现一一对应的匹配关系;在现参数集合的对齐过程中,通过迭代优化,最终获得时间匹配函数。
前述的基于一对多码书映射的语音转换方法,其特征在于:(D)从对齐的特征参数中随机提取部分数据作为目标码书的过程是从对齐后的特征参数对中随机提取出特征参数对,将其中每一个源语音特征参数的矢量作为一个源语音码字,组合成源语音码书;其对应的目标语音特征参数组合成目标码书。
前述的基于一对多码书映射的语音转换方法,其特征在于:(E)将剩余与码书不重叠的对齐数据作为训练数据,分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重,分析统计源语音与对应目标语音的权重的映射关系的方法,包括以下步骤,
(E1),分别估算源语音与目标语音的线性谱频率参数矢量与其对应码书中每个码字的距离;
(E2),根据其与码书中每个码字的距离,计算出其对应于码书中各码字的权重;
(E3),分析统计源语音与对应目标语音的权重的映射关系。
前述的基于一对多码书映射的语音转换方法,其特征在于:(G)进行参数内插和相位补偿,合成转换后的语音的方法,包括以下步骤,
(G1),根据浊音信号帧部分转换后的线性谱频率参数估算其谐波参数;
(G2),将浊音信号帧部分的离散谐波幅度值和相位值用作正弦信号的幅度值和相位值,并进行叠加,运用内插和相位进行补偿,得到补偿后浊音信号帧部分;
(G3),将清音信号帧部分的白噪声信号通过全极点滤波器,得到滤波后清音信号帧部分;
(G4),将补偿后浊音信号帧部分和滤波后清音信号帧部分进行叠加,得到合成转换的重构语音信号。
本发明的有益效果是:本发明的基于一对多码书映射的语音转换方法,对源语音码书与目标语音码书的一对多映射关系的建立,从平行数据库中随机提取一部分语音,对齐并提取声道参数后快速建立源与目标语音码书;然后,估算用于训练的数据中源与目标特征参数对应于其各自码书的权重,通过统计与分析二者的关系来建立源与目标语音的权重映射关系,进而掌握个性特征的映射规则,实现高质量、快速的语音转换,能够解决实际环境中语音转换系统的实时性、转换后相似度的问题,最终在对语音转换实时性追求的过程中减小转换效果的代价,从而提高转换结果与目标语音的相似度,具有良好的应用前景。
附图说明
图1是本发明的训练阶段的流程示意图。
图2是本发明的转换阶段的流程示意图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
本发明的基于一对多码书映射的语音转换方法,包括训练阶段和转换阶段,训练阶段,首先,利用已建立的源与目标码书对平行数据分别进行权重估算并统计分析,然后通过源与目标的权重关系建立源码书与目标码书的一对多关系。转换阶段,首先,获得待转换的源语音的权重,然后由源语音码书与目标码书的一对多关系获得映射的特征参数,具体包括如下步骤:
步骤(1),如图1所示,训练阶段,用于建立源码书与目标码书的一对多关系,包括以下步骤,
(A)对平行的语音数据采用谐波随机模型进行语音分析,包括如下步骤,
A1),对语音数据进行固定时长的分帧,用互相关法对基音频率进行估计并根据基音频率划分清音信号帧与浊音信号帧;
A2),在浊音信号帧部分设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域,再利用最小二乘算法估计得到离散的谐波幅度值和相位值;
A3),在清音信号帧部分,利用经典的线性预测分析法对其进行分析,得到线性预测系数;
(B)从语音分析得到的模型参数中提取声道特征参数和基音频率,包括如下步骤,;
B1),对A2)得到的离散的谐波幅度值求取平方;
B2),根据功率谱密度函数和自相关函数的一一对应关系,得到A3)线性预测系数的托普里茨矩阵方程,求解该方程,将线性预测系数转换为线性谱频率系数;
C)利用动态时间规整算法将源和目标的声道特征参数进行对齐,对齐准则为:对于两个不等长的特征参数序列,利用动态时间规整算法将其中一者的时间轴非线性的映射到另一者的时间轴上,实现一一对应的匹配关系;在现参数集合的对齐过程中,通过迭代优化一个预设的累积失真函数,并限制搜索区域,最终获得时间匹配函数;
(D)从对齐的特征参数中随机提取部分数据作为码书,码书包括源语音码书和目标码书,过程是从对齐后的特征参数对中随机提取出特征参数对,将其中每一个源语音特征参数的矢量作为一个源语音码字,组合成源语音码书;其对应的目标语音特征参数组合成目标码书;
(E)将剩余与码书不重叠的对齐数据作为训练数据,分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重,分析统计源语音与对应目标语音的权重的映射关系,包括以下步骤,
E1),分别估算源语音与目标语音的线性谱频率参数矢量与其对应码书中每个码字的距离;
E2),根据其与码书中每个码字的距离,计算出其对应于码书中各码字的权重;
E3),分析统计源语音与对应目标语音的权重的映射关系;
(F)通过分析统计的权重关系,建立源语音与目标码书的一对多映射关系;
步骤(2),如图2所示,转换阶段,用于实现语音特征的映射,合成转换后的语音,以下步骤,
(H)根据建立源语音与目标码书的一对多映射关系,实现对语音特征的映射;
(G)进行参数内插和相位补偿,合成转换后的语音,包括以下步骤,
G1),根据浊音信号帧部分转换后的线性谱频率参数估算其谐波参数;
G2),将浊音信号帧部分的离散谐波幅度值和相位值用作正弦信号的幅度值和相位值,并进行叠加,运用内插和相位进行补偿,得到补偿后浊音信号帧部分;
G3),将清音信号帧部分的白噪声信号通过全极点滤波器,得到滤波后清音信号帧部分;
G4),将补偿后浊音信号帧部分和滤波后清音信号帧部分进行叠加,得到合成转换的重构语音信号。
下面介绍按照本发明的语音转换方法的一具体实施例,具体如下,
步骤(1),训练阶段:
(A)源和目标人的语音通过谐波加随机模型进行分解,得到基音频率轨迹和谐波声道谱参数的幅度值和相位值。具体细节描述如下:
A1)对语音信号进行分帧,帧长20ms,帧重叠间隔10ms,在每帧中,用自相关法估计基频,若该帧为清音帧,则设置基频等于零;
A2)对于浊音帧(即基频不为零的帧),假设语音信号sh(n)可以由一系列的正弦波叠加而成:
s h ( n ) = Σ l = - L L C l e j ω 0 n - - - ( 1 )
其中,L为正弦波的个数,{Cl}为正弦波的复幅度,ω0为基音频率,n表示语音的第n个样点,令sh表示sh(n)在一帧内的样点所组成的矢量,则公式(1)可以改写成:
sh=BΔ,
Figure BDA0000465934210000092
Δ = C - L C - L + 1 . . . C L
(2)
其中,N表示一帧语音总的样点数,通过最小二乘算法确定上述{Cl},即
ϵ = Σ n = - N 2 N 2 w 2 ( n ) · ( s ( n ) - s h ( n ) ) 2 - - - ( 3 )
其中,s(n)是真实语音信号,w(n)是窗函数,取汉明窗,ε表示误差,将窗函数也改写成矩阵形式:
最优值为,
WBΔ = Ws ⇒ Δ pot = B H W H Ws - - - ( 5 )
其中,上标H表示共轭复转置,BΔ=s,Δopt为最优值,s为真实语音信号s(n)在一帧的范围内的样点所组成的矢量,得到了{Cl},则谐波幅度和相位值如下:
AMl=2|Cl|=2|C-l|,θl=argCl=-argC-l     (6)
A3),对于清音帧,用经典的线性预测分析方法对原始语音帧信号进行分析,得到对应的线性预测系数;
(B)由于原始谐波加噪声模型参数维数较高,不便于后续计算,因此必须对其进行降维,由于基频轨迹是一维参数,因此,降维的主要对象是声道幅度谱参数和相位参数。同时,降维的目标是将声道参数转化为经典的线性预测参数,进而产生适用于语音转换系统的线性谱频率参数,求解步骤如下:
B1)分别求取离散的L个幅度值AMl的平方,并将其认为是离散功率谱的采样值PW(ωl),ωl表示在基频整数倍上(l倍)的频率值;
B2)根据帕斯卡定律,自相关函数和功率谱密度函数是一对傅立叶变换对,即
Figure BDA0000465934210000111
其中,Rn为自相关函数在第n个时刻的值、PW(ωl)为连续功率谱密度函数,因此通过求解下式得到对线性预测参数系数的初步估值:
Figure BDA0000465934210000112
其中,a1,a2,…,ap是p阶线性预测滤波器A(z)的系数,R0~Rp分别为自相关函数前p个整数离散点上的值;将p阶线性预测参数系数代表的全极点模型转换成时域冲激响应函数h*[n]:
h * ( n ) = 1 L Re { Σ l 1 A ( e j ω l ) e j ω l n } - - - ( 8 )
其中, A ( e j ω l ) = A ( z ) | z = e j ω l = 1 + a 1 z - 1 + a 2 z - 2 + . . . + a p z - p , 可以证明,h*和估计得到的自相关序列R*满足:
Σ i = 0 p a i R * ( n - i ) = h * [ - n ] - - - ( 9 )
在满足板仓-斋田距离最小化的情况下,有真实的R和估计的R*的关系如下:
Σ i = 0 p a i R * ( n - i ) = Σ i = 0 p a i R ( n - i ) - - - ( 10 )
于是将(9)式代替(10)式,并重估计(7)式有:
用板仓-斋田准则评估误差,如果误差大于设定的阈值,则重复迭代,反之,则停止迭代,得到的线性预测参数系数通过联立求解下面两个等式,转化为线性谱频率参数,
P(z)=A(z)+z-(p+1)A(z-1)
Q(z)=A(z)-z-(p+1)A(z-1)     (12)
(C)将得到的源和目标的线性谱频率参数,用动态时间规整算法进行对齐,对齐是指:使得对应的源和目标的线性谱频率在设定的失真准则上具有最小的失真距离,这样做的目的是:使得源和目标人的特征序列在参数的层面上关联,便于后续统计模型学习其中的映射规律。动态时间规整算法步骤简要概述如下:
对于同一个语句的发音,假定源说话人的声学个性特征参数序列为
Figure BDA0000465934210000121
而目标说话人的特征参数序列为
Figure BDA0000465934210000122
且Nx≠Ny,设定源说话人的特征参数序列为参考模板,则动态时间规整算法就是要寻找时间规整函数
Figure BDA0000465934210000123
使得目标特征序列的时间轴ny非线性地映射到源特征参数序列的时间轴nx,从而使得总的累积失真量最小,在数学上可以表示为:
Figure BDA0000465934210000124
其中,
Figure BDA0000465934210000125
表示第ny帧的目标说话人特征参数和第
Figure BDA0000465934210000126
帧源说话人特征参数之间的某种测度距离。在动态时间规整的规整过程中,规整函数
Figure BDA0000465934210000127
是要满足以下的约束条件的,有边界条件和连续性条件分别为:
Figure BDA0000465934210000128
Figure BDA0000465934210000131
动态时间规整是一种最优化算法,它把一个多阶段决策过程化为多个单阶段的决策过程,也就是转化为逐一做出决策的多个子问题,以便简化计算。动态时间规整的过程一般是从最后一个阶段开始进行,也即它是一个逆序过程,其递推过程可以表示为:
D(ny+1,nx)=d(ny+1,nx)+min[D(ny,nx)g(ny,nx),D(ny,nx-1),D(ny,nx-2)]
(16)
其中,
Figure BDA0000465934210000132
g(ny,nx)是为了ny,nx的取值满足时间规整函数的约束条件;
(D)建立源与目标语音码书,从对齐后的特征参数对中随机选取出N(一般情况下N>2000)对特征参数对,将其中每一个源语音特征参数矢量都看作一个源语音码字组合成源语音码书,将对应的每一个目标语音特征参数矢量都看作一个目标语音码字组合成目标语音码书;
(E)将与码书不重叠的对齐数据作为训练数据,通过训练数据的计算与分析建立权重关系统计矢量集合B=[b1,b2,.....,bN],N为码书的尺度,即码书所包含的码字个数,在对码书映射关系的训练前,默认源语音码书与目标语音码书为一一对应关系,即设定B的初值为N×N的单位矩阵,然后,对训练数据逐帧进行如下操作:
E1)分别计算源语音与目标语音的线性谱频率参数矢量每一维的感知系数,
h k = 1 w k - w k - 1 + 1 w k + 1 - w k , k = 1,2,3 . . . p - - - ( 17 )
w=[w1,w2,.....,wp]为输入帧的线性谱频率矢量,p为线性谱频率矢量的维数;
E2)分别计算源语音与目标语音的线性谱频率参数对应于码书中各码字的权重,源语音线性谱频率参数与源语音码书中各码字的距离为:
d i s = Σ k = 1 p h k | ω k - m ik s | , i = 1,2 , . . . N ; - - - ( 18 )
其中,ωk为源语音线性谱频率参数第k维的数值,hk为源语音线性谱频率参数第k维数值对应的感知系数,
Figure BDA0000465934210000143
为源语音码书第i个码字的第k维的数值。
同理与源语音权重的计算,目标语音线性谱频率参数与目标音码书中各码字的距离为:
d i t = Σ k = 1 p h k | ω k - m ik t | , i = 1,2 , . . . N ; - - - ( 19 )
其中,ωk为目标语音线性谱频率参数第k维的数值,hk为目标语音线性谱频率参数第k维数值对应的感知系数,为目标语音码书第i个码字的第k维的数值,利用线性谱频率参数矢量与码字的距离我们可以求得它对应于此码字的权重;
v i = e - γd i Σ l = 1 L e - γd l , i = 1,2 , . . . , N ; - - - ( 20 )
其中,di为步骤b中计算出的线性谱频率参数矢量与第i个码字的距离,γ为一个范围在0.2--2的常数,将公式(18)带入公式(20)得到源语音线性谱频率矢量对应于源语音码书的权重;将公式(19)带入公式(20)得到目标语音线性谱频率矢量对应于目标语音码书的权重;
E3)分析统计源语音与对应目标语音的最大权重的映射关系并修正映射关系矢量集合B:记录源语音线性谱频率最大权重对应的源码字的序列js(1≤js≤N)和目标语音线性谱频率最大权重对应的目标码字的序列jt(1≤jt≤N),在统计矩阵相应位置增加一个权重量,即矢量集合B中矢量bjs第jt维位置的数值累加1,经过对所有训练数据帧进行计算与统计后所获得映射矢量集合B,对B中各矢量进行归一化:
b i = b i Σ k = 1 N b ik , i = 1,2 . . . . . N , k = 1,2 . . . . . N - - - ( 21 )
即求得的码书映射关系;
(F)建立基频转换函数:认为源语音基频与目标语音基频为线性关系,建立一个线性函数对每一帧的基音频率进行转换,基频转换函数的建立步骤具体如下:利用训练数据计算源说话人基音频率的均值μs和方差
Figure BDA0000465934210000152
以及目标说话人基音频率的均值μt和方差
Figure BDA0000465934210000153
建立线性转换函数:
f 0 i t = a f 0 i s + b ,
(22)
其中,代表源语音第i帧的基频,
Figure BDA0000465934210000161
b=μt-aμs
在转换阶段:
(H)根据训练阶段训练出的矢量集合B估算转换后的线性谱频率对应于目标码书的权重矢量:
v ^ t = Bv S - - - ( 23 )
其中,vS=[v1 S,v2 S,......vL S]为源权重矢量,由上式构建的线性谱频率对应于目标码书权重
Figure BDA0000465934210000163
获得转换后的线性谱频率参数,
w ^ = v ^ t M t
其中,Mt=[mt 1,mt 2,mt 3,......mN t]为训练阶建立的目标码书;
(G)将转换后的目标线性谱频率参数反变换为谐波加噪声模型系数,然后和修改后的基频轨迹一起合成转换后的语音,步骤如下:
G1)将获得的AMl,f0l用正弦模型的定义合成第k帧的语音s(k)(·),即:
s ( k ) ( n ) = Σ l = 1 L ( k ) AM l ( k ) cos ( 2 πl f 0 ( k ) n + θ l ( k ) ) - - - ( 24 )
G2)为了减少帧间交替时产生的误差,采用叠接相加法合成整个语音s(·),即对于任意相邻的两帧,有:
s ( kN + m ) = ( N - m N ) · s ( k ) ( m ) + ( m n ) · s ( k + 1 ) ( m - N ) , 0 ≤ m ≤ N - - - ( 25 )
其中N表示一帧语音中包含的样点数;
G3)对于清音帧,将白噪声信号通过一个全极点滤波器(滤波器系数为训练阶段中分析得到的线性预测系数),可得到近似重构信号;
G4)将浊音信号和清音信号相加,即可得到合成语音。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.基于一对多码书映射的语音转换方法,其特征在于:包括以下步骤,
步骤(1),训练阶段,用于建立源码书与目标码书的一对多关系,包括以下步骤,
(A)对平行的语音数据采用谐波随机模型进行语音分析;
(B)从语音分析得到的模型参数中提取声道特征参数和基音频率;
(C)利用动态时间规整算法将源和目标的声道特征参数进行对齐;
(D)从对齐的特征参数中随机提取部分数据作为码书,码书包括源语音码书和目标码书;
(E)将剩余与码书不重叠的对齐数据作为训练数据,分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重,分析统计源语音与对应目标语音的权重的映射关系;
(F)通过分析统计的权重关系,建立源语音与目标码书的一对多映射关系;
 步骤(2),转换阶段,用于实现语音特征的映射,合成转换后的语音,以下步骤,
(H)根据建立源语音与目标码书的一对多映射关系,实现对语音特征的映射;
(G)进行参数内插和相位补偿,合成转换后的语音。
2.根据权利要求1所述的基于一对多码书映射的语音转换方法,其特征在于:(A)对平行的语音数据采用谐波随机模型进行语音分析的方法,包括如下步骤,
(A1),对语音数据进行固定时长的分帧,用互相关法对基音频率进行估计并根据基音频率划分清音信号帧与浊音信号帧;
(A2),在浊音信号帧部分设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域,再利用最小二乘算法估计得到离散的谐波幅度值和相位值;
(A3),在清音信号帧部分,利用经典的线性预测分析法对其进行分析,得到线性预测系数。
3.根据权利要求1或2所述的基于一对多码书映射的语音转换方法,其特征在于:(B)从语音分析得到的模型参数中提取声道特征参数和基音频率的方法,包括以下步骤,
(B1),对(A2)得到的离散的谐波幅度值求取平方;
(B2),根据功率谱密度函数和自相关函数的一一对应关系,得到(A3)线性预测系数的托普里茨矩阵方程,求解该方程,将线性预测系数转换为线性谱频率系数。
4.根据权利要求1所述的基于一对多码书映射的语音转换方法,其特征在于:(C)利用动态时间规整算法将源和目标的声道特征参数进行对齐,对齐准则为:对于两个不等长的特征参数序列,利用动态时间规整算法将其中一者的时间轴非线性的映射到另一者的时间轴上,实现一一对应的匹配关系;在现参数集合的对齐过程中,通过迭代优化,最终获得时间匹配函数。
5.根据权利要求1所述的基于一对多码书映射的语音转换方法,其特征在于:(D)从对齐的特征参数中随机提取部分数据作为目标码书的过程是从对齐后的特征参数对中随机提取出特征参数对,将其中每一个源语音特征参数的矢量作为一个源语音码字,组合成源语音码书;其对应的目标语音特征参数组合成目标码书。
6.根据权利要求1所述的基于一对多码书映射的语音转换方法,其特征在于:(E)将剩余与码书不重叠的对齐数据作为训练数据,分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重,分析统计源语音与对应目标语音的权重的映射关系的方法,包括以下步骤,
(E1),分别估算源语音与目标语音的线性谱频率参数矢量与其对应码书中每个码字的距离;
(E2),根据其与码书中每个码字的距离,计算出其对应于码书中各码字的权重;
(E3),分析统计源语音与对应目标语音的权重的映射关系。
7.根据权利要求1所述的基于一对多码书映射的语音转换方法,其特征在于:(G)进行参数内插和相位补偿,合成转换后的语音的方法,包括以下步骤,
(G1),根据浊音信号帧部分转换后的线性谱频率参数估算其谐波参数;
(G2),将浊音信号帧部分的离散谐波幅度值和相位值用作正弦信号的幅度值和相位值,并进行叠加,运用内插和相位进行补偿,得到补偿后浊音信号帧部分;
(G3),将清音信号帧部分的白噪声信号通过全极点滤波器,得到滤波后清音信号帧部分;
(G4),将补偿后浊音信号帧部分和滤波后清音信号帧部分进行叠加,得到合成转换的重构语音信号。
CN201410050758.6A 2014-02-14 2014-02-14 基于一对多码书映射的语音转换方法 Expired - Fee Related CN103886859B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410050758.6A CN103886859B (zh) 2014-02-14 2014-02-14 基于一对多码书映射的语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410050758.6A CN103886859B (zh) 2014-02-14 2014-02-14 基于一对多码书映射的语音转换方法

Publications (2)

Publication Number Publication Date
CN103886859A true CN103886859A (zh) 2014-06-25
CN103886859B CN103886859B (zh) 2016-08-17

Family

ID=50955717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410050758.6A Expired - Fee Related CN103886859B (zh) 2014-02-14 2014-02-14 基于一对多码书映射的语音转换方法

Country Status (1)

Country Link
CN (1) CN103886859B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109637551A (zh) * 2018-12-26 2019-04-16 出门问问信息科技有限公司 语音转换方法、装置、设备及存储介质
CN110164414A (zh) * 2018-11-30 2019-08-23 腾讯科技(深圳)有限公司 语音处理方法、装置及智能设备
CN111445903A (zh) * 2020-03-27 2020-07-24 中国工商银行股份有限公司 企业名称识别方法及装置
CN112071325A (zh) * 2020-09-04 2020-12-11 中山大学 一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5327521A (en) * 1992-03-02 1994-07-05 The Walt Disney Company Speech transformation system
WO2001078064A1 (fr) * 2000-04-03 2001-10-18 Sharp Kabushiki Kaisha Dispositif de conversion de caractere vocal
CN101572093A (zh) * 2008-04-30 2009-11-04 北京工业大学 一种转码方法和装置
CN102930863A (zh) * 2012-10-19 2013-02-13 河海大学常州校区 一种基于简化自适应内插加权谱模型的语音转换及重构方法
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN103021418A (zh) * 2012-12-13 2013-04-03 南京邮电大学 一种面向多时间尺度韵律特征的语音转换方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5327521A (en) * 1992-03-02 1994-07-05 The Walt Disney Company Speech transformation system
WO2001078064A1 (fr) * 2000-04-03 2001-10-18 Sharp Kabushiki Kaisha Dispositif de conversion de caractere vocal
CN101572093A (zh) * 2008-04-30 2009-11-04 北京工业大学 一种转码方法和装置
CN102930863A (zh) * 2012-10-19 2013-02-13 河海大学常州校区 一种基于简化自适应内插加权谱模型的语音转换及重构方法
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN103021418A (zh) * 2012-12-13 2013-04-03 南京邮电大学 一种面向多时间尺度韵律特征的语音转换方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐宁,杨震: "高合成质量的语音转换系统", 《应用科学学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110164414A (zh) * 2018-11-30 2019-08-23 腾讯科技(深圳)有限公司 语音处理方法、装置及智能设备
CN110164414B (zh) * 2018-11-30 2023-02-14 腾讯科技(深圳)有限公司 语音处理方法、装置及智能设备
CN109637551A (zh) * 2018-12-26 2019-04-16 出门问问信息科技有限公司 语音转换方法、装置、设备及存储介质
CN111445903A (zh) * 2020-03-27 2020-07-24 中国工商银行股份有限公司 企业名称识别方法及装置
CN111445903B (zh) * 2020-03-27 2023-09-12 中国工商银行股份有限公司 企业名称识别方法及装置
CN112071325A (zh) * 2020-09-04 2020-12-11 中山大学 一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法
CN112071325B (zh) * 2020-09-04 2023-09-05 中山大学 一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法

Also Published As

Publication number Publication date
CN103886859B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
Dave Feature extraction methods LPC, PLP and MFCC in speech recognition
CN103531205B (zh) 基于深层神经网络特征映射的非对称语音转换方法
Ganapathy et al. Robust feature extraction using modulation filtering of autoregressive models
CN101751921A (zh) 一种在训练数据量极少条件下的实时语音转换方法
CN103035236B (zh) 基于信号时序特征建模的高质量语音转换方法
Bharti et al. Real time speaker recognition system using MFCC and vector quantization technique
CN102664003A (zh) 基于谐波加噪声模型的残差激励信号合成及语音转换方法
CN102496363A (zh) 一种用于汉语语音合成的音调修正方法
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
US20230282202A1 (en) Audio generator and methods for generating an audio signal and training an audio generator
Ganapathy et al. Feature extraction using 2-d autoregressive models for speaker recognition.
CN106782599A (zh) 基于高斯过程输出后滤波的语音转换方法
Gamit et al. Isolated words recognition using mfcc lpc and neural network
CN103886859A (zh) 基于一对多码书映射的语音转换方法
CN114495969A (zh) 一种融合语音增强的语音识别方法
Oura et al. Deep neural network based real-time speech vocoder with periodic and aperiodic inputs
Zorilă et al. Improving the quality of standard GMM-based voice conversion systems by considering physically motivated linear transformations
Wu et al. Denoising Recurrent Neural Network for Deep Bidirectional LSTM Based Voice Conversion.
Luo et al. Emotional Voice Conversion Using Neural Networks with Different Temporal Scales of F0 based on Wavelet Transform.
Li et al. A Convolutional Neural Network with Non-Local Module for Speech Enhancement.
Zhao et al. Research on voice cloning with a few samples
Tao et al. Reconstruction of normal speech from whispered speech based on RBF neural network
Othmane et al. Enhancement of esophageal speech using voice conversion techniques
CHEN et al. High-quality voice conversion system based on GMM statistical parameters and RBF neural network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160817

Termination date: 20190214