CN104091592A

CN104091592A - 一种基于隐高斯随机场的语音转换系统

Info

Publication number: CN104091592A
Application number: CN201410313485.XA
Authority: CN
Inventors: 鲍静益; 徐宁
Original assignee: Changzhou Institute of Technology
Current assignee: Changzhou Institute of Technology
Priority date: 2014-07-02
Filing date: 2014-07-02
Publication date: 2014-10-08
Anticipated expiration: 2034-07-02
Also published as: CN104091592B

Abstract

本发明公开了一种基于隐高斯随机场的语音转换系统。该系统包括语音分析模块、语音合成模块、语音参数预处理模块、语音参数转换映射模块。语音分析与合成模块，用于对原始语音信号进行分解与重组。语音参数预处理模块，用于对说话人A和B的特征参数进行整理和筛选，得到在时间上同步的特征参数集合。语音参数转换映射模块，用于捕捉A、B两个特征参数集合之间的映射关系，从而得到映射规律。该系统的核心技术点围绕高斯随机场理论展开，通过对基本高斯随机场结构进行变更，产生一种新型的隐高斯随机场模型，从而使系统在数据量匮乏的环境下产生理想的效果。

Description

一种基于隐高斯随机场的语音转换系统

技术领域

本发明涉及一种语音信号处理系统，即通过改变一个说话人A的声音特征，使其听起来仿佛是另一个说话人B的声音，该技术被称为语音转换。

背景技术

语音转换技术作为语音信号处理领域的一个重要分支，其目的在于改变任意一个说话人的话音个性特征，使其听起来像另一个指定的目标人的声音。该技术有着重要的应用价值，例如用于文语转换器末端，从而使机器产生惟妙惟肖的各种语音，又如用于电影娱乐配音，涉密安全等领域。目前较为成熟的语音转换方法，一般是基于高斯混合模型构建起来的。该类方法能从概率分布的角度对语音数据进行建模和分析，具有(1)充分利用数据的统计特性，(2)预测结果符合严格的数学理论等优势。然而，由于语音参数一般为高维矢量，因此在数据量相对匮乏条件下，传统语音转换方法易出现“维数灾难”问题，从而导致系统产生不稳定因素。

发明内容

为了克服以上不足，本发明提供了一种对数据量匮乏因素较为鲁棒的语音转换方案，其本质是实现可靠的高维矢量的映射和转换。本发明的核心技术点围绕语音参数转换映射模块展开，通过构建一种新型的具有隐层结构的高斯随机场模型，一方面用来对高维矢量进行降维，另一方面，实现特征参数的非线性映射，达到语音转换的目的。

为了达到以上目的，本发明的主要技术内容如下：

一种基于隐高斯随机场的语音转换系统，包含语音分析模块、语音合成模块、语音参数预处理模块、语音参数转换映射模块；

所述语音分析模块与语音合成模块，用于对原始语音信号进行分解与重组，分解与重组所涉及到的中间参数，被称为特征参数；

所述语音参数预处理模块，用于对说话人A和B的特征参数进行整理和筛选，得到在时间上同步的特征参数集合；

所述语音参数转换映射模块，用于捕捉A、B两个特征参数集合之间的映射关系，从而得到映射规律。

上述语音分析模块与语音合成模块分别由如下操作步骤组成：

语音分析：

(a1)对语音信号进行固定时长的分帧，用互相关法对基音频率进行估计；

(a2)在浊音信号部分设置一个最大浊音频率分量，用来划分谐波成分和随机成分的主能量区域；再利用最小二乘算法估计得到离散的谐波幅度值和相位值；

(a3)在清音信号部分，利用经典的线性预测分析法对其进行分析，从而得到线性预测系数。

语音合成：

(b1)将浊音信号的离散谐波幅度和相位值用作正弦信号的幅度值和相位值，并进行叠加；运用内插技术和相位补偿技术使得重构信号在时域波形上不产生失真；

(b2)将清音信号的白噪声信号通过一个全极点滤波器，可得到近似重构信号；

(b3)将浊音信号和清音信号进行叠加，可得到重构的语音信号。

上述语音参数预处理模块包含两个子模块，分别为特征参数提取和特征参数对齐，其操作步骤分别如下，

特征参数提取：

(c1)对(a2)中得到的离散谐波幅度求取平方；

(c2)根据功率谱密度函数和自相关函数的一一对应关系，得到关于线性预测系数的托普里茨矩阵方程，求解该方程；

(c3)将线性预测系数转换为线性谱频率系数，该系数即为特征参数。

特征参数对齐：

(d1)对于说话人A和B的两个不等长的特征参数序列，利用动态时间规整算法将其中一者的时间轴非线性的映射到另一者的时间轴上，实现一一对应的匹配关系；

(d2)在参数集合的对齐的过程中，通过迭代优化一个预设的累积失真函数，并限制搜索区域，最终获得时间匹配函数。

上述语音参数转换映射模块以隐高斯随机场为主要框架，包含两种阶段，训练阶段和转换阶段，具体操作步骤如下，

训练阶段：

(e1)构建包含隐层结构的高斯随机场模型，设观测向量(特征参数)为D维向量，在给定K维隐层向量的条件下(K<D)，观测向量组成的序列是一个高斯随机过程，该随机过程的性状由均值参数序列和方差参数序列唯一确定；

(e2)用马尔科夫链蒙特卡洛方法来近似估计隐层向量和模型参数(即均值参数和方差参数)的联合后验概率密度函数；

(e3)对联合概率密度函数进行边缘化，分别得到对隐层向量概率分布和模型参数的概率分布的估计，至此，隐高斯随机场模型结构被确定；

转换阶段：

(f1)在给定输入观测向量集合的条件下，根据训练好的隐高斯随机场模型结构，求取隐层向量概率分布函数；

(f2)求取隐层向量集合的后验条件期望，得到映射输出；

(f3)在给定映射输出向量的条件下，根据隐高斯随机场的定义，可以产生出新的观测向量集合，该集合里的参数，即为映射后的语音特征参数。

借由上述技术方案，本发明至少具有下列优点：

1、其语音转换系统适合用于数据量匮乏的特殊环境。

在数据量匮乏的条件下，由于语音特征参数一般为高维矢量，因此容易陷入“维数灾难”问题，导致系统输出不稳定，甚至引起崩溃。通过采用本发明的方法，将高维矢量通过非线性投影至低维空间，可以有效解决该问题。

2、其语音转换系统非线性映射能力强，系统性能优异。

通过构建基于高斯随机场的语音转换方法，能充分利用高斯随机场的非线性映射的能力，对于语音信号这类变化性复杂的信号格外适用。根据初步实验结果，基于高斯随机场模型及其衍生模型(隐高斯随机场)的语音转换系统，其性能能达到目前国际领先水平。尤其是在数据量匮乏的条件下，其性能格外优异。

附图说明

图1为本发明的语音转换系统框图。

具体实施方式

下面结合附图对本发明进一步说明。

如图1所示，一种基于隐高斯随机场的语音转换系统，包括语音分析模块、语音合成模块、语音参数预处理模块、语音参数转换映射模块。所述语音分析模块与语音合成模块，用于对原始语音信号进行分解与重组。分解与重组所涉及到的中间参数，被称为特征参数；所述语音参数预处理模块，用于对说话人A和B的特征参数进行整理和筛选，得到在时间上同步的特征参数集合；所述语音参数转换映射模块，用于捕捉A、B两个特征参数集合之间的映射关系，从而得到映射规律。

语音分析模块包含如下操作：

(a1)对语音信号进行固定时长的分帧，帧长20ms，帧移10ms。在一帧语音中，求解该语音的自相关函数，利用自相关函数的第一旁瓣峰值来近似估计基音周期，基音周期的倒数即为基音频率；

(a2)根据(a1)步骤中得到的基音频率值(清音为0，浊音为非0)，确定该帧语音为清音或浊音。若为浊音，则为其设置一个最大浊音频率分量，用来划分谐波成分和随机成分的主能量区域。在最大浊音频率以下的频段，对信号进行建模——利用若干个正弦波的叠加来拟合信号。利用最小二乘算法来约束求解正弦波的离散幅度值和相位值；对于大于最大浊音频率的信号频段，不做处理；

(a3)若该帧信号为在清音，则利用经典的线性预测分析法对其进行分析，建立一个全极点模型，并利用最小二乘方法约束求解模型系数，从而得到线性预测系数。

语音合成模块包含如下操作：

(b1)对于浊音信号，将其离散谐波幅度和相位值用作正弦信号的幅度值和相位值，并进行叠加；运用内插技术和相位补偿技术使得重构信号在时域波形上不产生失真；

(b2)对于清音信号，将白噪声信号通过一个全极点滤波器，可得到近似重构信号；

语音参数预处理模块包含两个子模块，分别为特征参数提取和特征参数对齐。

特征参数提取：

(c1)对(a2)中得到的离散正弦波的幅度求取平方，该数值被近似认为是离散功率谱函数；

(c2)根据功率谱密度函数和自相关函数的一一对应关系，对(c1)的离散功率谱数值反变换，可以得到近似自相关函数，根据线性预测分析方法，利用自相关函数可以求解得到线性预测系数；

(c3)线性预测系数构成的对偶函数，其在Z频域上的根，即为线性谱频率系数，该系数即为特征参数。

特征参数对齐：

(d1)对于两个不等长的特征参数序列，利用动态时间规整算法将其中一者的时间轴非线性的映射到另一者的时间轴上，实现一一对应的匹配关系；

语音参数转换映射模块以高斯随机场为理论平台，并在基本的结构上增加了一个隐层，用于将高维特征参数投影到低维空间，避免“维数灾难”问题。同时，在隐层空间利用高斯随机场的非线性映射特点，实现特征参数的转换。整个运作工程包含两个阶段，训练阶段和转换阶段，操作步骤如下。

训练阶段：

(e1)构建包含隐层结构的高斯随机场模型，设观测向量(特征参数)为D维向量，隐层向量为K维向量(K<D)，在给定K维隐层向量的条件下，观测向量的每一维数据组成的序列是一个高斯随机过程，该随机过程的性状由均值参数序列和方差参数序列唯一确定；

(e2)用马尔科夫链蒙特卡洛方法来近似估计隐层向量和模型参数的联合后验概率密度函数，即首先假设隐层向量和模型参数之间满足相互独立特性，然后通过迭代的方式逐步估计两者的概率密度函数，每次迭代过程中，先固定一种未知变量，然后对另一种未知变量进行采样，用大量采样数据来近似其概率分布，最后将隐层向量和模型参数的概率分布函数相乘，可得到联合后验概率函数；

转换阶段：

(f1)在给定输入观测向量集合的条件下，根据训练好的隐高斯随机场模型结构，求取隐层向量概率分布函数(将已知观测数据代入训练好的隐层向量概率分布即可)；

(f2)根据贝叶斯公式，求取隐层向量集合的后验条件期望，得到映射输出，此输出指的是转换后的隐层向量；

(f3)在给定映射输出向量的条件下(转换后的隐层向量)，根据隐高斯随机场的定义，可以产生出新的观测向量集合，该集合里的参数，即为映射后的语音特征参数。

以上所述，仅是本发明的优选实施而已，并非对本发明作任何形式上的限制，虽然本发明已以优选实施揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于隐高斯随机场的语音转换系统，其特征在于：包含语音分析模块、语音合成模块、语音参数预处理模块、语音参数转换映射模块；

2.根据权利要求1所述的一种基于隐高斯随机场的语音转换系统，其特征在于：所述语音分析模块的操作步骤如下：

3.根据权利要求1所述的一种基于隐高斯随机场的语音转换系统，其特征在于：所述语音合成模块的操作步骤如下：

(b2)将清音信号的白噪声信号通过一个全极点滤波器，得到近似重构信号；

(b3)将浊音信号和清音信号进行叠加，得到重构的语音信号。

4.根据权利要求1所述的一种基于隐高斯随机场的语音转换系统，其特征在于：所述语音参数预处理模块包含两个子模块，分别为特征参数提取模块和特征参数对齐模块。

5.根据权利要求4所述的一种基于隐高斯随机场的语音转换系统，其特征在于：所述特征参数提取模块的操作步骤如下：

(c1)对(a2)中得到的离散谐波幅度求取平方；

6.根据权利要求4所述的一种基于隐高斯随机场的语音转换系统，其特征在于：所述特征参数对齐模块的操作步骤如下：

7.根据权利要求1所述的一种基于隐高斯随机场的语音转换系统，其特征在于：所述语音参数转换映射模块以隐高斯随机场为主要框架，包含两种阶段，训练阶段和转换阶段。

8.根据权利要求7所述的一种基于隐高斯随机场的语音转换系统，其特征在于：所述训练阶段操作步骤如下：

(e1)构建包含隐层结构的高斯随机场模型，设观测向量为D维向量，在给定K维隐层向量的条件下，观测向量组成的序列是一个高斯随机过程，该随机过程的性状由均值参数序列和方差参数序列唯一确定；

(e2)用马尔科夫链蒙特卡洛方法来近似估计隐层向量和模型参数的联合后验概率密度函数；

(e3)对联合概率密度函数进行边缘化，分别得到对隐层向量概率分布和模型参数的概率分布的估计，至此，隐高斯随机场模型结构被确定。

9.根据权利要求7所述的一种基于隐高斯随机场的语音转换系统，其特征在于：所述转换阶段操作步骤如下：

(f2)求取隐层向量集合的后验条件期望，得到映射输出；

(f3)在给定映射输出向量的条件下，根据隐高斯随机场的定义，产生出新的观测向量集合，该集合里的参数，即为映射后的语音特征参数。