CN104091592A - 一种基于隐高斯随机场的语音转换系统 - Google Patents

一种基于隐高斯随机场的语音转换系统 Download PDF

Info

Publication number
CN104091592A
CN104091592A CN201410313485.XA CN201410313485A CN104091592A CN 104091592 A CN104091592 A CN 104091592A CN 201410313485 A CN201410313485 A CN 201410313485A CN 104091592 A CN104091592 A CN 104091592A
Authority
CN
China
Prior art keywords
gaussian random
parameter
random field
speech
hidden
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410313485.XA
Other languages
English (en)
Other versions
CN104091592B (zh
Inventor
鲍静益
徐宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Institute of Technology
Original Assignee
Changzhou Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Institute of Technology filed Critical Changzhou Institute of Technology
Priority to CN201410313485.XA priority Critical patent/CN104091592B/zh
Publication of CN104091592A publication Critical patent/CN104091592A/zh
Application granted granted Critical
Publication of CN104091592B publication Critical patent/CN104091592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于隐高斯随机场的语音转换系统。该系统包括语音分析模块、语音合成模块、语音参数预处理模块、语音参数转换映射模块。语音分析与合成模块,用于对原始语音信号进行分解与重组。语音参数预处理模块,用于对说话人A和B的特征参数进行整理和筛选,得到在时间上同步的特征参数集合。语音参数转换映射模块,用于捕捉A、B两个特征参数集合之间的映射关系,从而得到映射规律。该系统的核心技术点围绕高斯随机场理论展开,通过对基本高斯随机场结构进行变更,产生一种新型的隐高斯随机场模型,从而使系统在数据量匮乏的环境下产生理想的效果。

Description

一种基于隐高斯随机场的语音转换系统
技术领域
本发明涉及一种语音信号处理系统,即通过改变一个说话人A的声音特征,使其听起来仿佛是另一个说话人B的声音,该技术被称为语音转换。
背景技术
语音转换技术作为语音信号处理领域的一个重要分支,其目的在于改变任意一个说话人的话音个性特征,使其听起来像另一个指定的目标人的声音。该技术有着重要的应用价值,例如用于文语转换器末端,从而使机器产生惟妙惟肖的各种语音,又如用于电影娱乐配音,涉密安全等领域。目前较为成熟的语音转换方法,一般是基于高斯混合模型构建起来的。该类方法能从概率分布的角度对语音数据进行建模和分析,具有(1)充分利用数据的统计特性,(2)预测结果符合严格的数学理论等优势。然而,由于语音参数一般为高维矢量,因此在数据量相对匮乏条件下,传统语音转换方法易出现“维数灾难”问题,从而导致系统产生不稳定因素。
发明内容
为了克服以上不足,本发明提供了一种对数据量匮乏因素较为鲁棒的语音转换方案,其本质是实现可靠的高维矢量的映射和转换。本发明的核心技术点围绕语音参数转换映射模块展开,通过构建一种新型的具有隐层结构的高斯随机场模型,一方面用来对高维矢量进行降维,另一方面,实现特征参数的非线性映射,达到语音转换的目的。
为了达到以上目的,本发明的主要技术内容如下:
一种基于隐高斯随机场的语音转换系统,包含语音分析模块、语音合成模块、语音参数预处理模块、语音参数转换映射模块;
所述语音分析模块与语音合成模块,用于对原始语音信号进行分解与重组,分解与重组所涉及到的中间参数,被称为特征参数;
所述语音参数预处理模块,用于对说话人A和B的特征参数进行整理和筛选,得到在时间上同步的特征参数集合;
所述语音参数转换映射模块,用于捕捉A、B两个特征参数集合之间的映射关系,从而得到映射规律。
上述语音分析模块与语音合成模块分别由如下操作步骤组成:
语音分析:
(a1)对语音信号进行固定时长的分帧,用互相关法对基音频率进行估计;
(a2)在浊音信号部分设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域;再利用最小二乘算法估计得到离散的谐波幅度值和相位值;
(a3)在清音信号部分,利用经典的线性预测分析法对其进行分析,从而得到线性预测系数。
语音合成:
(b1)将浊音信号的离散谐波幅度和相位值用作正弦信号的幅度值和相位值,并进行叠加;运用内插技术和相位补偿技术使得重构信号在时域波形上不产生失真;
(b2)将清音信号的白噪声信号通过一个全极点滤波器,可得到近似重构信号;
(b3)将浊音信号和清音信号进行叠加,可得到重构的语音信号。
上述语音参数预处理模块包含两个子模块,分别为特征参数提取和特征参数对齐,其操作步骤分别如下,
特征参数提取:
(c1)对(a2)中得到的离散谐波幅度求取平方;
(c2)根据功率谱密度函数和自相关函数的一一对应关系,得到关于线性预测系数的托普里茨矩阵方程,求解该方程;
(c3)将线性预测系数转换为线性谱频率系数,该系数即为特征参数。
特征参数对齐:
(d1)对于说话人A和B的两个不等长的特征参数序列,利用动态时间规整算法将其中一者的时间轴非线性的映射到另一者的时间轴上,实现一一对应的匹配关系;
(d2)在参数集合的对齐的过程中,通过迭代优化一个预设的累积失真函数,并限制搜索区域,最终获得时间匹配函数。
上述语音参数转换映射模块以隐高斯随机场为主要框架,包含两种阶段,训练阶段和转换阶段,具体操作步骤如下,
训练阶段:
(e1)构建包含隐层结构的高斯随机场模型,设观测向量(特征参数)为D维向量,在给定K维隐层向量的条件下(K<D),观测向量组成的序列是一个高斯随机过程,该随机过程的性状由均值参数序列和方差参数序列唯一确定;
(e2)用马尔科夫链蒙特卡洛方法来近似估计隐层向量和模型参数(即均值参数和方差参数)的联合后验概率密度函数;
(e3)对联合概率密度函数进行边缘化,分别得到对隐层向量概率分布和模型参数的概率分布的估计,至此,隐高斯随机场模型结构被确定;
转换阶段:
(f1)在给定输入观测向量集合的条件下,根据训练好的隐高斯随机场模型结构,求取隐层向量概率分布函数;
(f2)求取隐层向量集合的后验条件期望,得到映射输出;
(f3)在给定映射输出向量的条件下,根据隐高斯随机场的定义,可以产生出新的观测向量集合,该集合里的参数,即为映射后的语音特征参数。
借由上述技术方案,本发明至少具有下列优点:
1、其语音转换系统适合用于数据量匮乏的特殊环境。
在数据量匮乏的条件下,由于语音特征参数一般为高维矢量,因此容易陷入“维数灾难”问题,导致系统输出不稳定,甚至引起崩溃。通过采用本发明的方法,将高维矢量通过非线性投影至低维空间,可以有效解决该问题。
2、其语音转换系统非线性映射能力强,系统性能优异。
通过构建基于高斯随机场的语音转换方法,能充分利用高斯随机场的非线性映射的能力,对于语音信号这类变化性复杂的信号格外适用。根据初步实验结果,基于高斯随机场模型及其衍生模型(隐高斯随机场)的语音转换系统,其性能能达到目前国际领先水平。尤其是在数据量匮乏的条件下,其性能格外优异。
附图说明
图1为本发明的语音转换系统框图。
具体实施方式
下面结合附图对本发明进一步说明。
如图1所示,一种基于隐高斯随机场的语音转换系统,包括语音分析模块、语音合成模块、语音参数预处理模块、语音参数转换映射模块。所述语音分析模块与语音合成模块,用于对原始语音信号进行分解与重组。分解与重组所涉及到的中间参数,被称为特征参数;所述语音参数预处理模块,用于对说话人A和B的特征参数进行整理和筛选,得到在时间上同步的特征参数集合;所述语音参数转换映射模块,用于捕捉A、B两个特征参数集合之间的映射关系,从而得到映射规律。
语音分析模块包含如下操作:
(a1)对语音信号进行固定时长的分帧,帧长20ms,帧移10ms。在一帧语音中,求解该语音的自相关函数,利用自相关函数的第一旁瓣峰值来近似估计基音周期,基音周期的倒数即为基音频率;
(a2)根据(a1)步骤中得到的基音频率值(清音为0,浊音为非0),确定该帧语音为清音或浊音。若为浊音,则为其设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域。在最大浊音频率以下的频段,对信号进行建模——利用若干个正弦波的叠加来拟合信号。利用最小二乘算法来约束求解正弦波的离散幅度值和相位值;对于大于最大浊音频率的信号频段,不做处理;
(a3)若该帧信号为在清音,则利用经典的线性预测分析法对其进行分析,建立一个全极点模型,并利用最小二乘方法约束求解模型系数,从而得到线性预测系数。
语音合成模块包含如下操作:
(b1)对于浊音信号,将其离散谐波幅度和相位值用作正弦信号的幅度值和相位值,并进行叠加;运用内插技术和相位补偿技术使得重构信号在时域波形上不产生失真;
(b2)对于清音信号,将白噪声信号通过一个全极点滤波器,可得到近似重构信号;
(b3)将浊音信号和清音信号进行叠加,可得到重构的语音信号。
语音参数预处理模块包含两个子模块,分别为特征参数提取和特征参数对齐。
特征参数提取:
(c1)对(a2)中得到的离散正弦波的幅度求取平方,该数值被近似认为是离散功率谱函数;
(c2)根据功率谱密度函数和自相关函数的一一对应关系,对(c1)的离散功率谱数值反变换,可以得到近似自相关函数,根据线性预测分析方法,利用自相关函数可以求解得到线性预测系数;
(c3)线性预测系数构成的对偶函数,其在Z频域上的根,即为线性谱频率系数,该系数即为特征参数。
特征参数对齐:
(d1)对于两个不等长的特征参数序列,利用动态时间规整算法将其中一者的时间轴非线性的映射到另一者的时间轴上,实现一一对应的匹配关系;
(d2)在参数集合的对齐的过程中,通过迭代优化一个预设的累积失真函数,并限制搜索区域,最终获得时间匹配函数。
语音参数转换映射模块以高斯随机场为理论平台,并在基本的结构上增加了一个隐层,用于将高维特征参数投影到低维空间,避免“维数灾难”问题。同时,在隐层空间利用高斯随机场的非线性映射特点,实现特征参数的转换。整个运作工程包含两个阶段,训练阶段和转换阶段,操作步骤如下。
训练阶段:
(e1)构建包含隐层结构的高斯随机场模型,设观测向量(特征参数)为D维向量,隐层向量为K维向量(K<D),在给定K维隐层向量的条件下,观测向量的每一维数据组成的序列是一个高斯随机过程,该随机过程的性状由均值参数序列和方差参数序列唯一确定;
(e2)用马尔科夫链蒙特卡洛方法来近似估计隐层向量和模型参数的联合后验概率密度函数,即首先假设隐层向量和模型参数之间满足相互独立特性,然后通过迭代的方式逐步估计两者的概率密度函数,每次迭代过程中,先固定一种未知变量,然后对另一种未知变量进行采样,用大量采样数据来近似其概率分布,最后将隐层向量和模型参数的概率分布函数相乘,可得到联合后验概率函数;
(e3)对联合概率密度函数进行边缘化,分别得到对隐层向量概率分布和模型参数的概率分布的估计,至此,隐高斯随机场模型结构被确定;
转换阶段:
(f1)在给定输入观测向量集合的条件下,根据训练好的隐高斯随机场模型结构,求取隐层向量概率分布函数(将已知观测数据代入训练好的隐层向量概率分布即可);
(f2)根据贝叶斯公式,求取隐层向量集合的后验条件期望,得到映射输出,此输出指的是转换后的隐层向量;
(f3)在给定映射输出向量的条件下(转换后的隐层向量),根据隐高斯随机场的定义,可以产生出新的观测向量集合,该集合里的参数,即为映射后的语音特征参数。
以上所述,仅是本发明的优选实施而已,并非对本发明作任何形式上的限制,虽然本发明已以优选实施揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (9)

1.一种基于隐高斯随机场的语音转换系统,其特征在于:包含语音分析模块、语音合成模块、语音参数预处理模块、语音参数转换映射模块;
所述语音分析模块与语音合成模块,用于对原始语音信号进行分解与重组,分解与重组所涉及到的中间参数,被称为特征参数;
所述语音参数预处理模块,用于对说话人A和B的特征参数进行整理和筛选,得到在时间上同步的特征参数集合;
所述语音参数转换映射模块,用于捕捉A、B两个特征参数集合之间的映射关系,从而得到映射规律。
2.根据权利要求1所述的一种基于隐高斯随机场的语音转换系统,其特征在于:所述语音分析模块的操作步骤如下:
(a1)对语音信号进行固定时长的分帧,用互相关法对基音频率进行估计;
(a2)在浊音信号部分设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域;再利用最小二乘算法估计得到离散的谐波幅度值和相位值;
(a3)在清音信号部分,利用经典的线性预测分析法对其进行分析,从而得到线性预测系数。
3.根据权利要求1所述的一种基于隐高斯随机场的语音转换系统,其特征在于:所述语音合成模块的操作步骤如下:
(b1)将浊音信号的离散谐波幅度和相位值用作正弦信号的幅度值和相位值,并进行叠加;运用内插技术和相位补偿技术使得重构信号在时域波形上不产生失真;
(b2)将清音信号的白噪声信号通过一个全极点滤波器,得到近似重构信号;
(b3)将浊音信号和清音信号进行叠加,得到重构的语音信号。
4.根据权利要求1所述的一种基于隐高斯随机场的语音转换系统,其特征在于:所述语音参数预处理模块包含两个子模块,分别为特征参数提取模块和特征参数对齐模块。
5.根据权利要求4所述的一种基于隐高斯随机场的语音转换系统,其特征在于:所述特征参数提取模块的操作步骤如下:
(c1)对(a2)中得到的离散谐波幅度求取平方;
(c2)根据功率谱密度函数和自相关函数的一一对应关系,得到关于线性预测系数的托普里茨矩阵方程,求解该方程;
(c3)将线性预测系数转换为线性谱频率系数,该系数即为特征参数。
6.根据权利要求4所述的一种基于隐高斯随机场的语音转换系统,其特征在于:所述特征参数对齐模块的操作步骤如下:
(d1)对于说话人A和B的两个不等长的特征参数序列,利用动态时间规整算法将其中一者的时间轴非线性的映射到另一者的时间轴上,实现一一对应的匹配关系;
(d2)在参数集合的对齐的过程中,通过迭代优化一个预设的累积失真函数,并限制搜索区域,最终获得时间匹配函数。
7.根据权利要求1所述的一种基于隐高斯随机场的语音转换系统,其特征在于:所述语音参数转换映射模块以隐高斯随机场为主要框架,包含两种阶段,训练阶段和转换阶段。
8.根据权利要求7所述的一种基于隐高斯随机场的语音转换系统,其特征在于:所述训练阶段操作步骤如下:
(e1)构建包含隐层结构的高斯随机场模型,设观测向量为D维向量,在给定K维隐层向量的条件下,观测向量组成的序列是一个高斯随机过程,该随机过程的性状由均值参数序列和方差参数序列唯一确定;
(e2)用马尔科夫链蒙特卡洛方法来近似估计隐层向量和模型参数的联合后验概率密度函数;
(e3)对联合概率密度函数进行边缘化,分别得到对隐层向量概率分布和模型参数的概率分布的估计,至此,隐高斯随机场模型结构被确定。
9.根据权利要求7所述的一种基于隐高斯随机场的语音转换系统,其特征在于:所述转换阶段操作步骤如下:
(f1)在给定输入观测向量集合的条件下,根据训练好的隐高斯随机场模型结构,求取隐层向量概率分布函数;
(f2)求取隐层向量集合的后验条件期望,得到映射输出;
(f3)在给定映射输出向量的条件下,根据隐高斯随机场的定义,产生出新的观测向量集合,该集合里的参数,即为映射后的语音特征参数。
CN201410313485.XA 2014-07-02 2014-07-02 一种基于隐高斯随机场的语音转换系统 Active CN104091592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410313485.XA CN104091592B (zh) 2014-07-02 2014-07-02 一种基于隐高斯随机场的语音转换系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410313485.XA CN104091592B (zh) 2014-07-02 2014-07-02 一种基于隐高斯随机场的语音转换系统

Publications (2)

Publication Number Publication Date
CN104091592A true CN104091592A (zh) 2014-10-08
CN104091592B CN104091592B (zh) 2017-11-14

Family

ID=51639302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410313485.XA Active CN104091592B (zh) 2014-07-02 2014-07-02 一种基于隐高斯随机场的语音转换系统

Country Status (1)

Country Link
CN (1) CN104091592B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392717A (zh) * 2014-12-08 2015-03-04 常州工学院 一种基于声道谱高斯混合建模的快速语音转换系统及其方法
CN104464744A (zh) * 2014-11-19 2015-03-25 河海大学常州校区 一种基于混合高斯随机过程的分簇语音转换方法及系统
CN104990553A (zh) * 2014-12-23 2015-10-21 上海安悦四维信息技术有限公司 一种手持车机C-Pad智能导航系统及工作方法
CN106356055A (zh) * 2016-09-09 2017-01-25 华南理工大学 基于正弦模型的可变频语音合成系统及方法
CN106773692A (zh) * 2016-12-21 2017-05-31 北京金控数据技术股份有限公司 基于高斯分布的设备运行控制系统和方法
CN107785030A (zh) * 2017-10-18 2018-03-09 杭州电子科技大学 一种语音转换方法
CN107910011A (zh) * 2017-12-28 2018-04-13 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
CN108062866A (zh) * 2015-01-29 2018-05-22 邹玉华 根据图像判断道路通行能力的导航系统、汽车及工作方法
CN108806716A (zh) * 2018-06-15 2018-11-13 想象科技(北京)有限公司 用于基于情感框架的计算机化匹配的方法与装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751921B (zh) * 2009-12-16 2011-09-14 南京邮电大学 一种在训练数据量极少条件下的实时语音转换方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NING XU,ET AL.: "Voice conversion based on Gaussian processes by coherent and asymmetric training with limited training data", 《SPEECH COMMUNICATION》 *
王志卫等: "一种基于码书映射的高效语音转换方法", 《微处理机》 *
王秀美等: "一种基于高斯隐变量模型的分类算法", 《计算机学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464744A (zh) * 2014-11-19 2015-03-25 河海大学常州校区 一种基于混合高斯随机过程的分簇语音转换方法及系统
CN104392717A (zh) * 2014-12-08 2015-03-04 常州工学院 一种基于声道谱高斯混合建模的快速语音转换系统及其方法
CN104990553A (zh) * 2014-12-23 2015-10-21 上海安悦四维信息技术有限公司 一种手持车机C-Pad智能导航系统及工作方法
CN108062866A (zh) * 2015-01-29 2018-05-22 邹玉华 根据图像判断道路通行能力的导航系统、汽车及工作方法
CN108062866B (zh) * 2015-01-29 2020-12-22 四川蜀天信息技术有限公司 根据图像判断道路通行能力的导航系统、汽车及工作方法
CN106356055B (zh) * 2016-09-09 2019-12-10 华南理工大学 基于正弦模型的可变频语音合成系统及方法
CN106356055A (zh) * 2016-09-09 2017-01-25 华南理工大学 基于正弦模型的可变频语音合成系统及方法
CN106773692A (zh) * 2016-12-21 2017-05-31 北京金控数据技术股份有限公司 基于高斯分布的设备运行控制系统和方法
CN107785030A (zh) * 2017-10-18 2018-03-09 杭州电子科技大学 一种语音转换方法
CN107785030B (zh) * 2017-10-18 2021-04-30 杭州电子科技大学 一种语音转换方法
CN107910011A (zh) * 2017-12-28 2018-04-13 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
CN107910011B (zh) * 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
US11064296B2 (en) 2017-12-28 2021-07-13 Iflytek Co., Ltd. Voice denoising method and apparatus, server and storage medium
CN108806716A (zh) * 2018-06-15 2018-11-13 想象科技(北京)有限公司 用于基于情感框架的计算机化匹配的方法与装置

Also Published As

Publication number Publication date
CN104091592B (zh) 2017-11-14

Similar Documents

Publication Publication Date Title
CN104091592A (zh) 一种基于隐高斯随机场的语音转换系统
CN105023580B (zh) 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法
Mysore et al. A non-negative approach to semi-supervised separation of speech from noise with the use of temporal dynamics
CN111261183B (zh) 一种语音去噪的方法及装置
US8977551B2 (en) Parametric speech synthesis method and system
JP5631915B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
CN109256118B (zh) 基于生成式听觉模型的端到端汉语方言识别系统和方法
CN104538028A (zh) 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN101751921A (zh) 一种在训练数据量极少条件下的实时语音转换方法
Pan et al. An FPGA-based embedded robust speech recognition system designed by combining empirical mode decomposition and a genetic algorithm
CN104464744A (zh) 一种基于混合高斯随机过程的分簇语音转换方法及系统
CN103021418A (zh) 一种面向多时间尺度韵律特征的语音转换方法
CN105488466A (zh) 一种深层神经网络和水声目标声纹特征提取方法
Su et al. Convolutional neural network for robust pitch determination
CA3195582A1 (en) Audio generator and methods for generating an audio signal and training an audio generator
CN104392717A (zh) 一种基于声道谱高斯混合建模的快速语音转换系统及其方法
CN106782599A (zh) 基于高斯过程输出后滤波的语音转换方法
CN114495969A (zh) 一种融合语音增强的语音识别方法
CN103886859A (zh) 基于一对多码书映射的语音转换方法
Li et al. A Convolutional Neural Network with Non-Local Module for Speech Enhancement.
CN102231275B (zh) 一种基于加权混合激励的嵌入式语音合成方法
Li et al. Robust automatic speech recognition
Huang et al. Reconstruction of whisper in Chinese by modified MELP
CN102968988B (zh) 训练数据匮乏下的鲁棒性语音转换方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant