CN102063899A - 一种非平行文本条件下的语音转换方法 - Google Patents
一种非平行文本条件下的语音转换方法 Download PDFInfo
- Publication number
- CN102063899A CN102063899A CN2010105201070A CN201010520107A CN102063899A CN 102063899 A CN102063899 A CN 102063899A CN 2010105201070 A CN2010105201070 A CN 2010105201070A CN 201010520107 A CN201010520107 A CN 201010520107A CN 102063899 A CN102063899 A CN 102063899A
- Authority
- CN
- China
- Prior art keywords
- frame
- speaker
- target speaker
- vowel
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供一种非平行文本条件下的语音转换方法,属于语音信号处理技术领域。该方法首先对语音音素分类,其次对分类后的语音帧基于谐波加噪声模型进行分解,提取特征矢量;接着在每类音素集合中建立特征参数的转换函数,通过对每一类音素的频谱特征矢量,基于主成分语音分析建立非平行文本条件下的频谱转换模型;最后在转换阶段,形成目标说话人的估计特征,得到转换后的语音。本发明不仅能够有效分离语音信号中的语义信息和话者身份信息,增强转换语音中的话者信息,而且克服了训练阶段要求平行语料的限制,实现了非平行文本条件下的语音转换,同时降低了对语料数据量的依赖。
Description
技术领域:
本发明涉及一种语音转换技术,尤其是一种非平行文本条件下的语音转换方法,属于语音信号处理技术领域。
背景技术:
语音转换是语音信号处理领域近年来新兴的研究分支,是在说话人识别和语音合成的研究基础上进行的,同时也是这两个分支内涵的丰富和延拓。
语音转换的目标是改变源说话人语音中的个性特征信息,使之具有目标说话人的个性特征,从而使转换后的语音听起来就像是目标说话人的声音,而其中的语义信息保持不变。
语音转换的关键问题在于说话人个性特征的提取以及转换模型的建立,经过近二十年的发展,涌现出大量的研究成果,但这些方法大多要求训练语音是平行文本,即源说话人和目标说话人的语音在语音内容,语音时长方面都必须相同,因此在训练之前一般需要先采用动态时间规整算法对源说话人和目标说话人的语音进行强制对齐,这样必然会引入失真;并且从实际应用的角度考虑,要求大量的平行训练文本很不方便,甚至不可满足,例如在跨语种的语音转换中,源和目标说话人的语音存在语种的不同,根本不可能获得平行文本。无论从方便高效的角度分析,还是从经济实用方面考虑,非平行文本条件下语音转换方法的研究都具有极大的实际意义和应用价值。
目前非平行文本条件下的语音转换算法主要有两种,基于语音聚类的方法和基于参数自适应的方法。基于语音聚类的方法,是通过对语音帧之间距离的度量或者在音素信息的指导下选择相对应的语音单元进行转换,其本质是一定条件下将非平行文本转化为平行文本进行处理。这类方法原理简单,但需要对语音文本内容进行预提取,预提取的结果会直接影响语音的转换质量;(1.Meng Zhang, Jiaohua Tao, Jani Nurminen. Phoneme cluster based state mapping for text-independent voice conversion. ICASSP, 2009: 4281-4284. 2. Helenca Duxans, Daniel Erro, Javier Perez. Voice conversion of non-aligned data using unit selection. TC-Star Workshop on Speech to Speech Translation, 2006: 237-242.)基于参数自适应的方法,是采用语音识别中的说话人归一化或自适应方法对转换模型的参数进行处理,其本质是使得预先建立的模型向基于目标说话人的模型进行转化。这类方法能够合理利用预存储的说话人信息,但自适应过程会引起频谱的平滑,导致转换语音中的说话人个性信息不强。(1. Yamato Ohtani. Techniques for improving voice conversion based on eigenvoices. Doctoral Thesis, Nara Institute of Science and Technology, March 31, 2010. 2. D. Sundermann, H.Ney, H. Hoge. VTLN-based cross-language voice conversion. ASRU 2003: 676-681.)。
发明内容
本发明所要解决的技术问题是提供一种结合汉语语言结构特点和说话人自适应思想的非平行文本条件下的语音转换方法,达到增强转换语音中的说话人个性特征的同时提高转换语音的听觉质量。
本发明为实现上述发明目的采用如下技术方案:
一种非平行文本条件下的语音转换方法,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:
步骤A,语音信号预处理步骤:分别对输入语音信号依次进行预加重、分帧和加窗处理,所述输入语音信号分别包括目标说话人、源说话人、参考目标说话人的语音信号;
步骤B,元音帧提取步骤:根据频域能量分布特征,分别判定经步骤A预处理后的目标说话人、源说话人、参考目标说话人的语音信号中元音的位置,分别提取目标说话人、源说话人、参考目标说话人的语音信号中的元音帧;
步骤C,元音帧的音素分类,对步骤B提取到的目标说话人、源说话人、参考目标说话人的元音帧,根据汉语元音映射表分别进行音素分类;
步骤D,元音帧的语音特征提取:基于谐波加噪声模型对分类后的元音帧分别进行分解,分别求取目标说话人、源说话人、参考目标说话人的元音帧中的谐波成分和噪声成分,然后对谐波加噪声模型的参数进一步降维,提取元音帧中线性谱频率参数,最终分别得到目标说话人、源说话人、参考目标说话人的元音帧的特征矢量,所述特征矢量包括频谱特征和韵律特征;
步骤E,对于步骤D提取到的源说话人的元音帧的特征矢量,训练HMM音素分类模型;
步骤F,对于频谱特征矢量,建立频谱特征转换模型:
F1,对步骤D所述源说话人的频谱特征和参考目标说话人的频谱特征分别建立高斯混合模型,分别以各自高斯混合模型的均值矢量构成超矢量,然后对所有超矢量进行主成分分析,提取基矢量和偏移量,从而建立主成分语音模型;
F2,模型自适应:采用步骤D所述目标说话人的频谱特征对步骤F1得到的主成分语音模型进行模型自适应,得到源说话人与目标说话人的频谱特征转换模型;
步骤G,对步骤D得到的源说话人和目标说话人的韵律特征采用单高斯建模,得到各自的均值和方差;
所述转换阶段包括如下步骤:
步骤H,输入源说话人新的语音信号,对源说话人输入的新的语音信号依次进行上述步骤A-步骤D所述的操作,得到源说话人新的语音信号中元音帧的特征矢量,采用上述步骤E得到的HMM音素分类模型进行音素分类;
步骤I,采用步骤F2得到的源说话人与目标说话人的频谱特征转换模型进行语音频谱转换,得到转换后的目标说话人的频谱特征;
步骤J,对于步骤H中得到的源说话人的韵律特征,采用步骤G得到的单高斯模型进行韵律转换,得到转换后的目标说话人的韵律特征;
步骤K,对步骤F将转换后的频谱特征和韵律特征经过谐波加噪声模型进行合成,最终得到转换后的语音。
进一步的,本发明非平行文本条件下的语音转换方法,所述步骤A的预处理步骤中,所述预加重处理的预加重系数为0.96,分帧处理按20ms分帧,帧交叠为35%,所述加窗处理采用汉明窗进行加窗处理;
进一步的,本发明非平行文本条件下的语音转换方法,所述步骤B的元音帧提取步骤如下:
B-3,令当前帧的接受系数为,其中是短时能量的约束阈值,是短时平均过零率的约束阈值;当所述两个约束阈值分别存在,则计算当前帧的短时能量和短时平均过零率进行帧提取,直接进入B-5步;当所述两个约束阈值不存在,进入B-4步;
B-4,对当前帧进行傅里叶变换,根据公式,,分别计算低频段能量和高频段能量,其中代表低频段能量、代表高频段能量,代表第点频率的能量,是第点频率处能量的贡献度,表示低频高频分界点;当帧内无声时令,预先求出的值;当,判定当前帧为元音帧;然后计算当前帧的短时能量和短时平均过零率进行帧提取,给出短时能量和短时平均过零率的约束阈值,指导后续帧的时域检测中的阈值选择;返回步骤B-2;
B-5,
若抽样检测结果判定当前帧是元音帧,返回步骤B-2继续进行下一帧的判定;
若当前帧在上述抽样检测中不被接受,丢弃当前帧并按比例修改阈值;将当前短时能量和短时平均过零率的阈值分别与步骤B-3步的所述的两个约束阈值进行比较,将比较结果中两者较大的短时能量阈值、较小的短时平均过零率的阈值分别作为新的约束阈值;
若检测结果表示当前帧不是元音帧,则丢弃该当前帧,结束检测;
若检测结果表示当前帧是元音帧,则接受当前帧,并将当前短时能量和短时平均过零率的阈值分别与步骤B-3步的所述的两个约束阈值进行比较,将比较结果中两者较小的短时能量阈值、较大的短时平均过零率的阈值分别作为新的约束阈值;转至B-2步骤;
重复上述B-2至B-5步,直至所有元音帧提取完毕。
进一步的,本发明非平行文本条件下的语音转换方法,所述步骤F建立频谱特征转换模型的具体实现过程如下:
第一步,首先建立高斯混合模型,采用源说话人和个参考目标说话人的语音以平行文本的方式训练高斯混合模型,得到与参考目标说话人无关的高斯混合模型。接着基于最大似然准则,使用第个参考目标说话人的语音对得到的高斯混合模型进行对应的均值自适应,得到与参考目标说话人有关的高斯混合模型;其中,表示参考目标说话人总数,的取值范围是20~100;
第二步,用目标说话人的训练语音对主成分语音模型进行均值自适应,先构造辅助函数,将辅助函数对权值矢量的每一分量求解差分,接着采用期望最大化算法迭代求解非线性方程组,最终得到优化后的目标说话人对应的权值矢量;
第三步,采用自适应后的权值矢量来确定源说话人和目标说话人的频谱特征转换函数,,其中下标表示第个混合成分,,高斯混合模型混合数共为,是待转换的当前帧,是训练阶段得到的主成分语音模型,是基矢量,为偏移量,是目标说话人对应的权值矢量,是的协方差矩阵,是与的互协方差矩阵。
本发明与现有技术相比,其显著优点:
1、在汉语元音映射理论的指导下将输入语音分类为不同的音素分别进行转换,不仅克服了转换系统要求语料内容相同的限制,而且符合汉语语言的结构特点,使得转换生成的语音具有良好的自然度;
2、对于每一个转换模型而言,处理的语音帧的语义信息是相同的,主要差异表现在话者信息方面,转换函数的建立可以避免语义信息的干扰,保证了重构语音中的说话人个性特征。
附图说明:
图1是本发明基于汉语元音映射和主成分语音的非平行文本语音转换的示意图;
图2是元音帧提取示意图;
图4是基于主成分语音的频谱转换算法示意图。
具体实施方案:
下面结合附图对技术方案的实施作进一步的详细描述:
如图1,本发明非平行文本语音转换方法,步骤如下:
第一步,对输入语音信号进行预加重、分帧和加窗等预处理后,如图2所示,根据频域能量分布特征判定元音的位置,接着计算已判定为元音帧的短时能量和平均过零率,指导后续帧在时域检测中的阈值选择。为适应连续语音帧的短时能量的不断变化,系统按概率对时域判断中的接受帧和丢弃帧进行抽样检测,并根据检测结果修正阈值。完成元音帧的检测与提取,具体过程如下:
(1)对语音信号进行预处理,预加重系数为0.96,按20ms分帧,帧交叠35%,之后使用汉明窗进行加窗处理;
(2)计算各频率点处能量的贡献度,根据公式 ,计算表示人耳对音高的主观感知,其中为当前频率。接着计算第点频率处能量的贡献度,表示采样频率,为帧长,频率分辨率为,表示人耳对第点频率处的主观感知,公式为 ;
(3)依次取帧,计算短时能量和短时平均过零率,计算当前帧的短时能量,公式为 。一般为消除小的随机噪声的影响,设一个门限,将平均过零率的含义修改为跨过正负门限的次数,根据公式 计算短时平均过零率,其中为窗长,为窗函数,为标记函数,定义为,式中为第个语音帧,代表语音信号的总帧数。判定是否接受为元音帧,若是短时能量的约束阈值,是短时平均过零率的约束阈值,传统判定中满足条件且则接受该帧为元音帧。由于发声过程会受到环境、身体状态、情绪、发声方式及发声内容的影响,声音能量相差较大,针对能量和过零率的变化不断自适应调整阈值,令当前帧的接受系数为。当短时能量和短时平均过零率的阈值和存在,则计算当前帧的短时能量和短时平均过零率进行帧提取,直接进入(5)步;当短时能量和短时过零率的阈值不存在,进入(4)步;
(4)对当前帧进行傅里叶变换,根据公式,,分别计算低频段能量和高频段能量,其中代表低频段能量、代表高频段能量,代表第频率点的能量,是第点频率处能量的贡献度,表示低频高频分界点,表示频率点总数。一般认为语音信号开始的几帧为无声的,当帧内无声时令,可以预先求出的值。当,判定当前帧为元音帧;然后计算当前帧的短时能量和短时平均过零率,修改原有阈值,指导后续帧的时域检测中的阈值选择。返回步骤(3);
(5)如果当前帧被接受为元音帧,则依照(4)步骤按概率抽样检测,当检测结果判定当前帧是元音帧,返回步骤(3)。如果当前帧在抽样检测中不被接受,丢弃当前帧并用当前阈值与原有阈值的较大能量值和较小过零率值作为新的阈值;若当前帧被丢弃,当时,全部进行检测;否则按抽样检测,若检测结果相符结束,否则接受当前帧,并用当前阈值与原有阈值的较小能量值和较大过零率值作为新的阈值;转至(4)步骤;
重复(3)至(5)步,直至所有元音帧提取完毕。
第二步,进行音素分类和语音帧特征提取,包括频谱特征和韵律特征。在本发明中,首先从汉语语音的特点出发,对汉语拼音结构、发音特点进行分析,通过元音频谱对比、音素滑动分析、韵母分解实验和共振峰分析等,结合大量语音学知识构建了汉语元音映射表,从短时帧的角度将韵母中的元音部分分解为单元音音素的组合,然后主要从音素的能量分布相似性,对说话人个性信息的贡献以及在音节中出现的频度与时长三个角度进行考虑,实现音素的分类。对于映射后的每一类元音分别构成一类音素,所有的辅音构成一类音素,辅音不参与转换。然后基于谐波加噪声模型对语音帧进行分解,求取其中的谐波成分和噪声成分,紧接着对谐波幅度参数进一步降维,提取线性谱频率参数,最终得到语音信号的频谱特征矢量和基音轨迹,具体过程如下:
(1)对提取到的元音帧,根据建立的汉语元音映射表进行音素分类,在训练阶段,由于是离线操作,对音素的分类是通过人工标注结合元音映射表进行;同时对源说话人经过分类后的元音音素建立隐马尔科夫模型(Hidden Markov Model, HMM),每一个状态代表一类音素,在转换阶段,待转换的源说话人语音通过在训练阶段建立的HMM模型实现音素分类;
(2)得到每类元音音素帧后,将每类音素的语音帧通过谐波加噪声模型(Harmonic Plus Noise Model, HNM)进行分解,得到基音频率轨迹和谐波声道谱参数的幅度值和相位值;
(3)将声道幅度谱参数进行降维处理,转化为线性谱频率参数(Linear Spectrum Frequency, LSF)。
第三步,频谱特征转换模型的建立,如图3所示,对第二步得到的每类音素的特征矢量分别进行建模,对训练阶段的源说话人语音和参考目标说话人的语音建立高斯混合模型,以每个高斯混合模型的均值矢量分别构成超矢量,然后对所有超矢量进行主成分分析,提取基矢量和偏移量,从而建立主成分语音模型,具体过程如下:
(1)如图4所示,采用动态时间规整算法(Dynamic Time Warping, DTW)对源说话人和预存储的个参考目标说话人的每类音素的频谱特征和分别进行对齐,构成联合特征矢量,个参考目标说话人与源说话人的语音是平行的,即语音内容相同;
(2)对源说话人和预存储的个参考目标说话人建立联合高斯混合模型(Gaussian Mixture Model, GMM),,其中是总的帧数,是与参考目标说话人无关的高斯混合模型(Target-speaker Independent GMM, TI-GMM ),概率密度函数为:,为高斯混合度,为混合权值,和分别为第个混合成分对应的均值和协方差矩阵;
(3)基于极大似然(Maximum Likelihood, ML)准则,使用第个参考目标说话人的语音对中相应的均值进行更新,得到与参考目标说话人相关的联合高斯混合模型(Target-speaker Dependent GMM, TD-GMM)为:,其中为(2)中得到的高斯混合模型;
(5)采用主成分分析法(Principal Component Analysis, PCA)对个超矢量进行主成分分析,得到主特征分量(也称基矢量)和偏移矢量,此时每个超矢量可以近似表示为:,,是第个说话人的维基矢量对应的权值矢量;
(6)至此,非平行文本条件下源说话人和目标说话人的联合概率分布可以由来表示,其中,其本质在于说话人的特征可以通过多个参考说话人的特征的不同权值组合来逼近,即目标说话人的均值矢量可以由基矢量和偏移矢量的线性组合来表示。
第四步,模型自适应,如图4所示,从第三步中得到主成分语音模型后,采用目标说话人的语音对进行自适应,可以得到源说话人与目标说话人的频谱特征转换模型。本发明中的频谱转换模型与现有的转换模型相比有两大优势:一方面由于可以采用任意目标说话人的语音对模型进行无监督自适应,因此可以灵活地实现源说话人与任意目标说话人之间的语音转换;另一方面自适应的过程不仅对语音内容没有限制,即目标说话人与源说话人的语音内容可以不同,可以在非平行文本条件下进行,而且由于自适应过程需要估计的参数较少,对目标说话人的自适应语音时长的要求较低,降低了对语音数据量的依赖。基于极大似然准则(Maximum Likelihood, ML)对权值矢量进行优化估计,估计过程如下:
(1)设转换阶段源说话人时刻频谱特征为,基于最小均方误差算法(Minimum Mean Square Error Estimation, MMSE),根据高斯混合模型转换规则,转换后的目标说话人频谱特征为:,其中是条件概率密度函数,,其中,,和分别表示第个条件概率密度函数的均值和方差,表示为:, ;
第六步,韵律特征转换和语音合成,对第二步得到的基频进行单高斯建模,分析其均值和方差,实现韵律特征的转换;将转换后的频谱特征和韵律特征经过谐波加噪声模型进行合成,得到转换后的语音,具体过程如下:
Claims (4)
1.一种非平行文本条件下的语音转换方法,其特征在于,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:
步骤A,语音信号预处理步骤:分别对输入语音信号依次进行预加重、分帧和加窗处理,所述输入语音信号分别包括目标说话人、源说话人、参考目标说话人的语音信号;
步骤B,元音帧提取步骤:根据频域能量分布特征,分别判定经步骤A预处理后的目标说话人、源说话人、参考目标说话人的语音信号中元音的位置,分别提取目标说话人、源说话人、参考目标说话人的语音信号中的元音帧;
步骤C,元音帧的音素分类,对步骤B提取到的目标说话人、源说话人、参考目标说话人的元音帧,根据汉语元音映射表分别进行音素分类;
步骤D,元音帧的语音特征提取:基于谐波加噪声模型对分类后的元音帧分别进行分解,分别求取目标说话人、源说话人、参考目标说话人的元音帧中的谐波成分和噪声成分,然后对谐波加噪声模型的参数进一步降维,提取元音帧中线性谱频率参数,最终分别得到目标说话人、源说话人、参考目标说话人的元音帧的特征矢量,所述特征矢量包括频谱特征和韵律特征;
步骤E,对于步骤D提取到的源说话人的元音帧的特征矢量,训练HMM音素分类模型;
步骤F,对于频谱特征矢量,建立频谱特征转换模型:
F1,对步骤D所述源说话人的频谱特征和参考目标说话人的频谱特征分别建立高斯混合模型,分别以各自高斯混合模型的均值矢量构成超矢量,然后对所有超矢量进行主成分分析,提取基矢量和偏移量,从而建立主成分语音模型;
F2,模型自适应:采用步骤D所述目标说话人的频谱特征对步骤F1得到的主成分语音模型进行模型自适应,得到源说话人与目标说话人的频谱特征转换模型;
步骤G,对步骤D得到的源说话人和目标说话人的韵律特征采用单高斯建模,得到各自的均值和方差;
所述转换阶段包括如下步骤:
步骤H,输入源说话人新的语音信号,对源说话人输入的新的语音信号依次进行上述步骤A-步骤D所述的操作,得到源说话人新的语音信号中元音帧的特征矢量,采用上述步骤E得到的HMM音素分类模型进行音素分类;
步骤I,采用步骤F2得到的源说话人与目标说话人的频谱特征转换模型进行语音频谱转换,得到转换后的目标说话人的频谱特征;
步骤J,对于步骤H中得到的源说话人的韵律特征,采用步骤G得到的单高斯模型进行韵律转换,得到转换后的目标说话人的韵律特征;
步骤K,对步骤F将转换后的频谱特征和韵律特征经过谐波加噪声模型进行合成,最终得到转换后的语音。
2.根据权利要求1所述的非平行文本条件下的语音转换方法,其特征在于,所述步骤A的预处理步骤中,所述预加重处理的预加重系数为0.96,分帧处理按20ms分帧,帧交叠为35%,所述加窗处理采用汉明窗进行加窗处理。
3.根据权利要求1所述的非平行文本条件下的语音转换方法,其特征在于,所述步骤B的元音帧提取步骤如下:
B-3,令当前帧的接受系数为,其中是短时能量的约束阈值,是短时平均过零率的约束阈值;当所述两个约束阈值分别存在,则计算当前帧的短时能量和短时平均过零率进行帧提取,直接进入B-5步;当所述两个约束阈值不存在,进入B-4步;
B-4,对当前帧进行傅里叶变换,根据公式,,分别计算低频段能量和高频段能量,其中代表低频段能量、代表高频段能量,代表第点频率的能量,是第点频率处能量的贡献度,表示低频高频分界点;当帧内无声时令,预先求出的值;当,判定当前帧为元音帧;然后计算当前帧的短时能量和短时平均过零率进行帧提取,给出短时能量和短时平均过零率的约束阈值,指导后续帧的时域检测中的阈值选择;返回步骤B-2;
B-5,
若抽样检测结果判定当前帧是元音帧,返回步骤B-2继续进行下一帧的判定;
若当前帧在上述抽样检测中不被接受,丢弃当前帧并按比例修改阈值;将当前短时能量和短时平均过零率的阈值分别与步骤B-3步的所述的两个约束阈值进行比较,将比较结果中两者较大的短时能量阈值、较小的短时平均过零率的阈值分别作为新的约束阈值;
若检测结果表示当前帧不是元音帧,则丢弃该当前帧,结束检测;
若检测结果表示当前帧是元音帧,则接受当前帧,并将当前短时能量和短时平均过零率的阈值分别与步骤B-3步的所述的两个约束阈值进行比较,将比较结果中两者较小的短时能量阈值、较大的短时平均过零率的阈值分别作为新的约束阈值;转至B-2步骤;
重复上述B-2至B-5步,直至所有元音帧提取完毕。
4.根据权利要求1所述的非平行文本条件下的语音转换方法,其特征在于,所述步骤F建立频谱特征转换模型的具体实现过程如下:
第一步,首先建立高斯混合模型,采用源说话人和个参考目标说话人的语音以平行文本的方式训练高斯混合模型,得到与参考目标说话人无关的高斯混合模型;接着基于最大似然准则,使用第个参考目标说话人的语音对得到的高斯混合模型进行对应的均值自适应,得到与参考目标说话人有关的高斯混合模型;其中,表示参考目标说话人总数,的取值范围是20~100;
第二步,用目标说话人的训练语音对主成分语音模型进行均值自适应,先构造辅助函数,将辅助函数对权值矢量的每一分量求解差分,接着采用期望最大化算法迭代求解非线性方程组,最终得到优化后的目标说话人对应的权值矢量;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105201070A CN102063899B (zh) | 2010-10-27 | 2010-10-27 | 一种非平行文本条件下的语音转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105201070A CN102063899B (zh) | 2010-10-27 | 2010-10-27 | 一种非平行文本条件下的语音转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102063899A true CN102063899A (zh) | 2011-05-18 |
CN102063899B CN102063899B (zh) | 2012-05-23 |
Family
ID=43999146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010105201070A Expired - Fee Related CN102063899B (zh) | 2010-10-27 | 2010-10-27 | 一种非平行文本条件下的语音转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102063899B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102664003A (zh) * | 2012-04-24 | 2012-09-12 | 南京邮电大学 | 基于谐波加噪声模型的残差激励信号合成及语音转换方法 |
CN102968988A (zh) * | 2012-11-27 | 2013-03-13 | 河海大学常州校区 | 训练数据匮乏下的鲁棒性语音转换方法 |
CN102982809A (zh) * | 2012-12-11 | 2013-03-20 | 中国科学技术大学 | 一种说话人声音转换方法 |
CN103280224A (zh) * | 2013-04-24 | 2013-09-04 | 东南大学 | 基于自适应算法的非对称语料库条件下的语音转换方法 |
CN104123933A (zh) * | 2014-08-01 | 2014-10-29 | 中国科学院自动化研究所 | 基于自适应非平行训练的语音转换方法 |
CN104735461A (zh) * | 2015-03-31 | 2015-06-24 | 北京奇艺世纪科技有限公司 | 视频中语音关键词广告的更换方法及装置 |
CN107134277A (zh) * | 2017-06-15 | 2017-09-05 | 深圳市潮流网络技术有限公司 | 一种基于gmm模型的语音激活检测方法 |
CN107301859A (zh) * | 2017-06-21 | 2017-10-27 | 南京邮电大学 | 基于自适应高斯聚类的非平行文本条件下的语音转换方法 |
CN107507619A (zh) * | 2017-09-11 | 2017-12-22 | 厦门美图之家科技有限公司 | 语音转换方法、装置、电子设备及可读存储介质 |
CN108597493A (zh) * | 2018-03-28 | 2018-09-28 | 孔繁泽 | 语言语义的音频交换方法和音频交换系统、编码图形 |
CN108766450A (zh) * | 2018-04-16 | 2018-11-06 | 杭州电子科技大学 | 一种基于谐波冲激分解的语音转换方法 |
CN108777140A (zh) * | 2018-04-27 | 2018-11-09 | 南京邮电大学 | 一种非平行语料训练下基于vae的语音转换方法 |
WO2018209556A1 (en) * | 2017-05-16 | 2018-11-22 | Beijing Didi Infinity Technology And Development Co., Ltd. | System and method for speech synthesis |
CN109671423A (zh) * | 2018-05-03 | 2019-04-23 | 南京邮电大学 | 训练数据有限情形下的非平行文本语音转换方法 |
CN110060657A (zh) * | 2019-04-04 | 2019-07-26 | 南京邮电大学 | 基于sn的多对多说话人转换方法 |
CN110164463A (zh) * | 2019-05-23 | 2019-08-23 | 北京达佳互联信息技术有限公司 | 一种语音转换方法、装置、电子设备及存储介质 |
CN110232907A (zh) * | 2019-07-24 | 2019-09-13 | 出门问问(苏州)信息科技有限公司 | 一种语音合成方法、装置、可读存储介质及计算设备 |
CN110363141A (zh) * | 2019-07-15 | 2019-10-22 | 郑州大学 | 用于诊断燃气调压器故障的方法 |
CN110580910A (zh) * | 2018-06-08 | 2019-12-17 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
CN111862939A (zh) * | 2020-05-25 | 2020-10-30 | 北京捷通华声科技股份有限公司 | 一种韵律短语标注方法和装置 |
CN111968617A (zh) * | 2020-08-25 | 2020-11-20 | 云知声智能科技股份有限公司 | 一种非平行数据的语音转换方法及系统 |
CN112331183A (zh) * | 2020-10-27 | 2021-02-05 | 中科极限元(杭州)智能科技股份有限公司 | 基于自回归网络的非平行语料语音转换方法及系统 |
CN113555007A (zh) * | 2021-09-23 | 2021-10-26 | 中国科学院自动化研究所 | 语音拼接点检测方法及存储介质 |
CN114882873A (zh) * | 2022-07-12 | 2022-08-09 | 深圳比特微电子科技有限公司 | 一种语音识别模型训练方法、装置和可读存储介质 |
CN117275458A (zh) * | 2023-11-20 | 2023-12-22 | 深圳市加推科技有限公司 | 智能客服的语音生成方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1606792A1 (fr) * | 2003-03-27 | 2005-12-21 | France Telecom | Procede d analyse d informations de frequence fondament ale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d analyse |
US20070213987A1 (en) * | 2006-03-08 | 2007-09-13 | Voxonic, Inc. | Codebook-less speech conversion method and system |
CN101064104A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于语音转换的情感语音生成方法 |
CN101399044A (zh) * | 2007-09-29 | 2009-04-01 | 国际商业机器公司 | 语音转换方法和系统 |
CN101751922A (zh) * | 2009-07-22 | 2010-06-23 | 中国科学院自动化研究所 | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 |
-
2010
- 2010-10-27 CN CN2010105201070A patent/CN102063899B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1606792A1 (fr) * | 2003-03-27 | 2005-12-21 | France Telecom | Procede d analyse d informations de frequence fondament ale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d analyse |
US20070213987A1 (en) * | 2006-03-08 | 2007-09-13 | Voxonic, Inc. | Codebook-less speech conversion method and system |
CN101064104A (zh) * | 2006-04-24 | 2007-10-31 | 中国科学院自动化研究所 | 基于语音转换的情感语音生成方法 |
CN101399044A (zh) * | 2007-09-29 | 2009-04-01 | 国际商业机器公司 | 语音转换方法和系统 |
CN101751922A (zh) * | 2009-07-22 | 2010-06-23 | 中国科学院自动化研究所 | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102664003B (zh) * | 2012-04-24 | 2013-12-04 | 南京邮电大学 | 基于谐波加噪声模型的残差激励信号合成及语音转换方法 |
CN102664003A (zh) * | 2012-04-24 | 2012-09-12 | 南京邮电大学 | 基于谐波加噪声模型的残差激励信号合成及语音转换方法 |
CN102968988A (zh) * | 2012-11-27 | 2013-03-13 | 河海大学常州校区 | 训练数据匮乏下的鲁棒性语音转换方法 |
CN102968988B (zh) * | 2012-11-27 | 2015-09-16 | 河海大学常州校区 | 训练数据匮乏下的鲁棒性语音转换方法 |
CN102982809B (zh) * | 2012-12-11 | 2014-12-10 | 中国科学技术大学 | 一种说话人声音转换方法 |
CN102982809A (zh) * | 2012-12-11 | 2013-03-20 | 中国科学技术大学 | 一种说话人声音转换方法 |
CN103280224B (zh) * | 2013-04-24 | 2015-09-16 | 东南大学 | 基于自适应算法的非对称语料库条件下的语音转换方法 |
CN103280224A (zh) * | 2013-04-24 | 2013-09-04 | 东南大学 | 基于自适应算法的非对称语料库条件下的语音转换方法 |
CN104123933A (zh) * | 2014-08-01 | 2014-10-29 | 中国科学院自动化研究所 | 基于自适应非平行训练的语音转换方法 |
CN104735461A (zh) * | 2015-03-31 | 2015-06-24 | 北京奇艺世纪科技有限公司 | 视频中语音关键词广告的更换方法及装置 |
CN104735461B (zh) * | 2015-03-31 | 2018-11-02 | 北京奇艺世纪科技有限公司 | 视频中语音关键词广告的更换方法及装置 |
WO2018209556A1 (en) * | 2017-05-16 | 2018-11-22 | Beijing Didi Infinity Technology And Development Co., Ltd. | System and method for speech synthesis |
CN107134277A (zh) * | 2017-06-15 | 2017-09-05 | 深圳市潮流网络技术有限公司 | 一种基于gmm模型的语音激活检测方法 |
CN107301859A (zh) * | 2017-06-21 | 2017-10-27 | 南京邮电大学 | 基于自适应高斯聚类的非平行文本条件下的语音转换方法 |
CN107301859B (zh) * | 2017-06-21 | 2020-02-21 | 南京邮电大学 | 基于自适应高斯聚类的非平行文本条件下的语音转换方法 |
CN107507619B (zh) * | 2017-09-11 | 2021-08-20 | 厦门美图之家科技有限公司 | 语音转换方法、装置、电子设备及可读存储介质 |
CN107507619A (zh) * | 2017-09-11 | 2017-12-22 | 厦门美图之家科技有限公司 | 语音转换方法、装置、电子设备及可读存储介质 |
CN108597493A (zh) * | 2018-03-28 | 2018-09-28 | 孔繁泽 | 语言语义的音频交换方法和音频交换系统、编码图形 |
CN108597493B (zh) * | 2018-03-28 | 2019-04-12 | 孔繁泽 | 语言语义的音频交换方法和音频交换系统 |
WO2019184942A1 (zh) * | 2018-03-28 | 2019-10-03 | 孔繁泽 | 语言语义的音频交换方法和音频交换系统、编码图形 |
CN108766450A (zh) * | 2018-04-16 | 2018-11-06 | 杭州电子科技大学 | 一种基于谐波冲激分解的语音转换方法 |
CN108766450B (zh) * | 2018-04-16 | 2023-02-17 | 杭州电子科技大学 | 一种基于谐波冲激分解的语音转换方法 |
CN108777140A (zh) * | 2018-04-27 | 2018-11-09 | 南京邮电大学 | 一种非平行语料训练下基于vae的语音转换方法 |
CN109671423A (zh) * | 2018-05-03 | 2019-04-23 | 南京邮电大学 | 训练数据有限情形下的非平行文本语音转换方法 |
CN110580910B (zh) * | 2018-06-08 | 2024-04-26 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
CN110580910A (zh) * | 2018-06-08 | 2019-12-17 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
CN110060657A (zh) * | 2019-04-04 | 2019-07-26 | 南京邮电大学 | 基于sn的多对多说话人转换方法 |
CN110164463A (zh) * | 2019-05-23 | 2019-08-23 | 北京达佳互联信息技术有限公司 | 一种语音转换方法、装置、电子设备及存储介质 |
CN110164463B (zh) * | 2019-05-23 | 2021-09-10 | 北京达佳互联信息技术有限公司 | 一种语音转换方法、装置、电子设备及存储介质 |
CN110363141A (zh) * | 2019-07-15 | 2019-10-22 | 郑州大学 | 用于诊断燃气调压器故障的方法 |
CN110232907A (zh) * | 2019-07-24 | 2019-09-13 | 出门问问(苏州)信息科技有限公司 | 一种语音合成方法、装置、可读存储介质及计算设备 |
CN110232907B (zh) * | 2019-07-24 | 2021-11-02 | 出门问问(苏州)信息科技有限公司 | 一种语音合成方法、装置、可读存储介质及计算设备 |
CN111862939A (zh) * | 2020-05-25 | 2020-10-30 | 北京捷通华声科技股份有限公司 | 一种韵律短语标注方法和装置 |
CN111968617A (zh) * | 2020-08-25 | 2020-11-20 | 云知声智能科技股份有限公司 | 一种非平行数据的语音转换方法及系统 |
CN111968617B (zh) * | 2020-08-25 | 2024-03-15 | 云知声智能科技股份有限公司 | 一种非平行数据的语音转换方法及系统 |
CN112331183A (zh) * | 2020-10-27 | 2021-02-05 | 中科极限元(杭州)智能科技股份有限公司 | 基于自回归网络的非平行语料语音转换方法及系统 |
US11410685B1 (en) | 2021-09-23 | 2022-08-09 | Institute Of Automation, Chinese Academy Of Sciences | Method for detecting voice splicing points and storage medium |
CN113555007A (zh) * | 2021-09-23 | 2021-10-26 | 中国科学院自动化研究所 | 语音拼接点检测方法及存储介质 |
CN114882873A (zh) * | 2022-07-12 | 2022-08-09 | 深圳比特微电子科技有限公司 | 一种语音识别模型训练方法、装置和可读存储介质 |
CN117275458A (zh) * | 2023-11-20 | 2023-12-22 | 深圳市加推科技有限公司 | 智能客服的语音生成方法、装置、设备及存储介质 |
CN117275458B (zh) * | 2023-11-20 | 2024-03-05 | 深圳市加推科技有限公司 | 智能客服的语音生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102063899B (zh) | 2012-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102063899B (zh) | 一种非平行文本条件下的语音转换方法 | |
Tan et al. | rVAD: An unsupervised segment-based robust voice activity detection method | |
Kinnunen et al. | An overview of text-independent speaker recognition: From features to supervectors | |
CN101136199B (zh) | 语音数据处理方法和设备 | |
Chen et al. | Speaker verification against synthetic speech | |
Koolagudi et al. | Speech emotion recognition using segmental level prosodic analysis | |
Mouaz et al. | Speech recognition of moroccan dialect using hidden Markov models | |
JP2001503154A (ja) | 音声認識システムにおける隠れマルコフ音声モデルの適合方法 | |
Van Segbroeck et al. | Rapid language identification | |
Razak et al. | Quranic verse recitation recognition module for support in j-QAF learning: A review | |
Le et al. | First steps in fast acoustic modeling for a new target language: application to Vietnamese | |
Quan et al. | Reduce the dimensions of emotional features by principal component analysis for speech emotion recognition | |
Ben Othmane et al. | Enhancement of esophageal speech obtained by a voice conversion technique using time dilated fourier cepstra | |
Fu et al. | A survey on Chinese speech recognition | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
Furui | Speaker recognition in smart environments | |
Rao et al. | Robust features for automatic text-independent speaker recognition using Gaussian mixture model | |
Ma et al. | Statistical formant descriptors with linear predictive coefficients for accent classification | |
Roh et al. | Novel acoustic features for speech emotion recognition | |
Lệ Thủy et al. | GMM for emotion recognition of Vietnamese | |
Sam et al. | Speech modulation features for robust nonnative speech accent detection | |
Govender et al. | HMM adaptation for child speech synthesis. | |
Huang et al. | Learning virtual HD model for bi-model emotional speaker recognition | |
Chao et al. | Two-stage Vocal Effort Detection Based on Spectral Information Entropy for Robust Speech Recognition. | |
Samouelian | Frame-level phoneme classification using inductive inference |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190424 Address after: Room 412, 1220 Tongpu Road, Putuo District, Shanghai, 2003 Patentee after: Baoge (Shanghai) Financial Information Service Co., Ltd. Address before: 210003 new model road, Nanjing, Nanjing, Jiangsu Patentee before: Nanjing Post & Telecommunication Univ. |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120523 Termination date: 20191027 |