CN108447470A

CN108447470A - 一种基于声道和韵律特征的情感语音转换方法

Info

Publication number: CN108447470A
Application number: CN201711454427.9A
Authority: CN
Inventors: 陈明义; 杨婧
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-08-24

Abstract

本发明提供一种基于声道和韵律特征转换的情感语音转换的方法，主要解决未来人与机器的交流方式问题。包括：首先进行情感语音训练，对中性与其它情感语音进行预处理，然后提取其声道和韵律特征参数，建立匹配模型；其次再进行情感语音转换，将中性语音的声道和韵律特征参数输入到转换模型中，并将模型输出参数用到语音合成中，来合成目标情感语音。本发明采用的方法不再局限于中性语音的对话，在相同语义和说话人信息的情况下，能够实现中性向不同情感之间的语音转换，获得具有情感表现力的语音，有利于未来更好的人机交互。

Description

一种基于声道和韵律特征的情感语音转换方法

技术领域

本发明属于音频信号处理领域，涉及一种基于声道和韵律特征的情感语音转换方法。

背景技术

随着人工智能技术和机器人的发展，人类的生活日益丰富，听演唱会，看电影和电视剧，玩直播、手机游戏和虚拟现实逐渐成为大众喜欢的娱乐方式，人们为了得到更好的听觉体验，对语音的要求也越来越高。现今人与计算机最常见的交流方式就是使用中性语言，而未来人与机器人的对话不再局限于中性语音的对话。在情感计算和智能交互领域中，为了赋予计算机观察、理解和表达情感的能力，情感语音转换将成为一项重要的研究。

情感语音转换属于语音转换的一种，语音转换是指改变源说话人的语音个性化信息，从而带上目标说话人的语音个性化信息，其中个性化信息很广泛，包括性别，情感，年龄等信息。通过对语音转换的研究，可以进一步探究人类语音的发音机制，更好地掌握语音的参数特征，让人们可以通过操控这些关键的参数信息而改变语音信息，来达到自己的目的。语音转换的意义不仅仅局限于转换本身，还和语音分析、识别、编码、增强、隐藏等技术相关。首先，语音转换的研究离不开这些相关技术的研究理论和成果；其次，语音转换技术的研究推动了这些相关技术领域的发展。

语音转换最常见的做法是基于语音特征的统计分布来实现声音转换，有的采用高斯混合模型(GMM)描述源与目标特征参数的概率分布，将利用给定源特征参数预测目标特征参数的问题变为求解一个线性回归函数的问题；有的采用码本加权叠加的方法来得到目标说话人的参数特征；有的采用声道长度归一化技术调整语音频谱，从而进行语音转换；还有基于固定长度帧的非基音同步的方法和信号相关的方法，激励源信号采用脉冲信号、三角波信号、噪音源等信号，通过线性频谱搬移和分析合成法进行男女之间的语音转换。

发明内容

本发明提出了一种基于声道和韵律特征的情感语音转换方案，可以解决医疗领域中的效率安全问题，例如应用在智能机器人心理医生上，不仅避免了人类心理医生免受暴力或精神异常患者的伤害，还缩短了患者诊断时间，提高了工作效率；在交通安全方面，本发明能降低交通事故发生概率，大大减少交通事故死亡率。情感语音转换意味着在相同语音的情况下，将语音从一种情感换成另一种情感。

为了达到上述目的，本发明的方法包括为：

S1:情感语音训练阶段，先对中性和其他情感语音进行预处理，然后提取其声道和韵律特征参数，建立转换模型。

S2:情感语音转换阶段，将中性语音的声道和韵律特征参数输入转换模型中，将模型输出参数进行语音合成，合成目标情感语音。

进一步，所述步骤S1中，所述的预处理是指设置一系列参数，对语音进行分帧加窗预处理。参数包括：帧长、帧移、窗函数，LSP系数的阶数。

其中，所述帧长，是指经过数字化的音频信号实际上是一个时变信号，为了能对音频信号进行分析，可以假设音频信号在几十毫秒的时间内是平稳的。为了得到短时音频信号，将语音信号分为一段一段地来分析其特征，其中每一段称为“一帧”，分帧是连续的，帧长一般取10～30毫秒，此时方案将分帧定为 20毫秒。

其中，所述帧移，是指后一帧对前一帧的位移量，这样相邻两帧之间存在重叠部分。在分帧处理中，往往设置在相邻两帧之间有一部分重叠，如果相邻两帧之间不重叠，给出的基音可能有一个跳变，特征参数有可能变化较大，为了使特征参数平滑地变化，在两个不重叠的帧之间插一些帧来提取特征参数，此时方案的帧移为5毫秒。

其中，所述窗函数，是指为了减少频谱能量泄漏，可采用不同的截取函数对信号进行截断，截断函数称为窗函数。不同的窗函数对信号频谱的影响不一样，可根据信号的性质和处理要求选择不同的窗函数。如果仅要求精确读出主瓣频率，而不考虑幅值精度，则可选用主瓣宽度比较窄而便于分辨的矩形窗，例如测量物体的自振频率等；如果分析窄带信号，且有较强的干扰噪声，则应选用旁瓣幅度小的窗函数，如汉宁窗、三角窗等；对于随时间按指数衰减的函数，可采用指数窗来提高信噪比。此时方案将窗函数定为海明窗。

其中，所述LSP(linear spectrum pair)系数，是线性预测编码 LPC(LinearPrediction Coding)系数的等效系数，其阶数选择的范围是8～24，此时方案将LSP系数的阶数定为10。LSP不仅具有良好的动态范围和滤波稳定性，还具有误差独立性，即某个频率点上的LSP的偏差只对该频率附近的语音频率产生影响，LSP良好的内插特性和量化特性比LPC系数能更好地代表音谱信息。LSP系数作为LPC系数的推演，广泛应用于中低速编码中。

进一步，所述步骤S1中，所述的声道特征参数提取中进行LSP分析，是用n个离散频率的分布式密度来表示语音信号频谱特征的一种方法；而在LSP 计算中，采用线性预测分析法，通过使实际采样值和线性预测采样值之间差值的二次方和达到最小值，即进行最小均方误差的逼近，直接决定一组线性预测系数，求出LSP系数。

进一步，所述步骤S1中，所述的韵律特征提取中，本发明采用了主体-延伸法获取基音周期T，进一步包括：

S11:对语音信号序列x(n)加窗分帧预处理，得到第i帧的语音信号x_i(n)，对序列x_i(n)进行端点检测和元音主体检测，然后对序列x(n)进行带通滤波，得到序列再进行一次加窗分帧预处理，得到第i帧的语音信号

S12：求出元音主体的延伸区间和长度，提取元音主体的基音周期，往前后延伸对过渡区间进行基音检测。

进一步，所述步骤S11中，第一次加窗分帧的目的是端点检测和元音主体检测，利用用能量和谱熵的比值进行端点检测和元音主体检测。第二次加窗分帧是为了进行基音检测，通过滤波，减少共振峰对基音检测的影响。

进一步，所述步骤S12中，会求出每个元音主体属于哪一个有话段。在一个有话段中可能包含多个元音主体，所以要划出每个元音主体需要延伸进行端点检测的区间，以及它向前向后需要检测的帧数。用自相关函数的方法提取元音主体的基音周期，以元音主体的基音周期为基准，延伸向前向后区域进行基音检测。

进一步，所述步骤S1中，所述建立转换模型中，分别通过BP(Back Propagation)神经网络和GRNN(General Regression Neural Network)神经网络找出声道特征参数LSP和韵律特征参数T的非线性转换关系。BP神经网络具有很强的非线性映射能力和柔性的网络结构，能够有效地获得声道特征参数LSP 系数的非线性转换规则；GRNN神经网络具有很强的非线性映射能力和学习速度，样本数据少时，预测效果很好，还可以处理不稳定数据，能够有效地获得韵律特征参数T的非线性转换规则。

所述步骤S2中，进一步包括：

S21：获得中性语音的声道参数LSP和韵律特征参数T；

S22：将中性语音的LSP和T输出到转换模型中，得到转换后的目标情感语音的声道参数LSP和韵律特征参数T；

S23：将目标情感语音的声道参数LSP和韵律特征参数T进行语音合成，最后输出并画出语音声纹图。

基于上述技术方案，本发明提出的基于声道和韵律特征的情感语音转换方法可以更有效地将中性语音转换为生气、开心和悲伤的语音。

有益效果

本发明提出了一种基于声道和韵律特征的情感语音转换方案，利用神经网络获得中性与不同情感的LSP系数和基音周期T的特征转换模型，在说话内容保持不变的前提下，用所求得的转换模型实现不同情感之间的语音转换。本发明可以创造出具有所希望情感的语音，解决医疗领域中的困难，例如心理医生机器人在为患者诊病时，可以切换不同的情感语音开导患者，一方面可以缩短问诊时间，提高工作效率，另一方面机器人心理医生也避免了人类心理医生受到暴力或精神异常患者的伤害；在交通安全方面，情感语音技术能降低交通事故发生概率，大大减少交通事故死亡率，当司机处于各种不同的危险负面情绪是，智能车载语音系统会警告司机，转换不同情感的语音来调整司机的状态，以免交通事故的发生；在娱乐应用方面，语音转换技术可以用于网络音乐直播或有声贺卡等网络娱乐中，为人们的生活增添了乐趣。

附图说明

图1是基于声道和韵律特征的情感语音转换方案框图

图2是男女中性-生气声道特征参数LSP的均方误差对比图

图3是男女中性-开心声道特征参数LSP的均方误差对比图

图4是男女中性-悲伤声道特征参数LSP的均方误差对比图

图5是女性中性-生气语音转换的语谱图

图6是男性中性-生气语音转换的语谱图

图7是女性中性-开心语音转换的语谱图

图8是男性中性-开心语音转换的语谱图

图9是女性中性-悲伤语音转换的语谱图

图10是男性中性-悲伤语音转换的语谱图

图11是男女情感语音转换韵律特征参数T的均方误差对比结果

具体实施方式

下面将结合附图和实施例对本发明做进一步的说明。

本发明的优先实施例所用到的语料库为CAISA汉语情感语料库，该语料库由中国科学院自动化研究所建立，由四位专业人士录制(两男两女)，包含：开心，悲伤，生气等多种情感语音，选取其中中性、生气、开心、悲伤四种情感，采用MATLAB对情感语音转换方案进行仿真。在仿真中输入中性语音，在说话内容不变的条件下，实现中性到生气、开心、悲伤不同情感之间的语音转换，最后输出语音。

根据图1所示的基于声道和韵律特征的情感语音转换方案框图，具体实施步骤如下：

步骤A.情感语音训练阶段。

先对中性和其他情感语音进行预处理，然后提取其声道和韵律特征参数，建立转换模型。预处理是指设置一系列参数，对语音进行分帧加窗预处理。参数包括：帧长、帧移、窗函数，LSP系数的阶数。采用线性预测分析法提取声道特征特征参数LSP系数，采用主体-延伸法提取韵律特征参数基音周期T。分别通过BP神经网络和GRNN神经网络找出声道特征参数LSP和韵律特征参数T的非线性转换关系，建立转换模型。

其中，为了减少频谱能量泄漏，可采用不同的截取函数对信号进行截断，截断函数称为窗函数。使用窗函数对原始信号进行调制，不同的窗函数对信号频谱的影响不一样，此时方案将窗函数定为海明窗。海明窗的作用是分析带宽加宽，但是降低了频率分辨率。海明窗的数学定义如下，x(n)是原始信号，n的范围是 [0，N-1]，对于其他范围的值，w(n)＝0。

其中，线性预测分析法是用预测系数表示声道模型，声道模型表达式如下， G为增益常数，a_i为预测系数，p为LSP系数的阶数，A(z)为预测误差滤波器。

LSP系数可通过求解p+1阶对称与反对称多项式的共轭复根得到，p+1阶对称与反对称多项式表示如下：

P(z)＝A(z)+Z^-(p+1)A(z^-1)

Q(z)＝A(z)-z^-(p+1)A(z^-1)

如果p是偶数，P(z)和Q(z)各有一个实根，其中P(z)有一个实根z＝-1， Q(z)有一个实根z＝1。如果p是奇数，则Q(z)有±1两个实根，P(z)没有实根。假设p是偶数，P(z)和Q(z)各有p/2个共轭复根位于单位圆上，共轭复根的形式为设P(z)的零点为Q(z)的零点为则满足

0<w₁<θ₁<…<w_p/2<θ_p/2<π

w_i和θ_i分别为P(z)和Q(z)的第i个根。求解LSP系数，就是求解下列公式等于0时的cosw_i和cosθ_i的值。

其中，短时自相关法是通过比较原始信号和它延迟后的信号之间的类似性来确定基音周期T。语音信号的时间序列为x(n)，加窗分帧预处理后得到第i 帧语音信号x_i(m)，每帧的帧长为N，则短时自相关函数定义如下，k为延迟量，当k＝0，±T，±2T，±3T，…时，周期信号的自相关函数达到最大值。

其中，BP神经网络具有很强的非线性映射能力和柔性的网络结构，能够有效地获得声道特征参数LSP的非线性转换模型。输入层信号X_i通过隐含层节点作用于输出层节点，经过非线形变换，产生输出信号Y_k。网络训练的每个样本包括输入向量X和期望输出量T，依据网络输出值Y与期望输出值T之间的偏差来调整输入节点与隐含层节点的权值W_ij和阈值b_j以及隐层节点与输出节点之间的权值T_jk和阈值b_k，使误差沿梯度方向下降，经过反复学习训练，确定与最小误差相对应的网络参数(权值和阈值)，训练即停止。此时经过训练的神经网络即能对类似样本的输入信息，自行处理输出误差最小的经过非线形转换的信息。BP 网络模型包括节点输出模型、作用函数模型、误差计算模型和自学习模型。

1.节点输出模型

隐含层节点输出：

输出层节点输出：

m是输入层节点数，n是输出层节点数，b为神经元阈值，f为激活函数。

2.激活函数模型,

选取sigmoid函数，表达式为：

3.误差计算模型

误差计算模型是反映神经网络期望输出与计算输出之间误差大小的函数，表达式如下，t_pj是第i个节点的期望输出值，O_pj是第i个节点的计算输出值。

4.自学习模型

神经网络的学习过程，是连接上下层节点之间权重W和阈值b的修正过程，自学习模型为：

输入层和隐含层之间的权值和阈值调整：

隐含层和输出层之间的权值和阈值调整：

因为时域上的基音周期T没有频域上的LSP那么复杂，两者关联度不大，所以使用GRNN神经网络来获得基音周期T的转换模型。GRNN神经网络具有很强的非线性映射能力和学习速度，样本数据少时，预测效果很好，还可以处理不稳定数据，能够有效地获得基音周期T的转换模型。

GRNN是四层网络结构：输入层，模式层，求和层和输出层。输入层直接将输入变量传递给模式层，输入变量通过模式层的传递函数传递到求和层，求和层有两个节点，第一个节点是所有模式层神经元的输出进行算术求和，第二个节点是所有模式层神经元进行加权求和。第二个节点除以第一个节点就是输出层的输出。

模式层的传递函数:

求和层第一个节点的传递函数：

求和层第二个节点的传递函数：j＝1,2,...,n

步骤B.情感语音转换阶段

选取中性语音测试样本，根据情感语音训练阶段设置好的参数进行相同语音的预处理，提取其LSP系数和基音周期T，用求得的转换模型将中性语音的 LSP系数和基音周期T转换成目标情感语音的LSP系数和基音周期T，然后进行语音合成，最后输出。

本实施例选用中性、生气、开心、悲伤语音，每种情感随机选取了80句作为训练集，20句作为测试集来评价实现效果。在声道特征参数LSP转换中，提取了10阶LSP系数进行模型转换，对于图2、图3和图4的结果，采用均方误差(MSE)的评判方法将BP和传统的GMM的转换效果进行了对比，前者的均方误差普遍低于后者，表明了BP神经网络能更好实现LSP系数的匹配拟合。在韵律特征参数T的转换中，对于表1的结果，同样采用均方误差的评判方法将GRNN 和常用的RBF的转换效果进行了对比，GRNN的均方误差明显低于RBF，表明GRNN 神经网络能更好实现T的匹配拟合。

对于情感语音转换，随机展示了不同情感语音转换的结果。语谱图反应了语音信号的动态频谱特征，在语音分析中具有重要的实用价值，被称作可视化语音，语谱图中因不同的灰度，形成不同的纹路，这些纹路叫做“声纹”，因人而异。图5-图10是男女生从中性-生气、开心和悲伤语音转换的语谱图，可从图中看到，转换后的实际情感与目标情感语音的声纹一致，该结果表明，在相同语义的情况下，从中性-生气、开心和悲伤语音转换是可以实现的。上面结合附图对本发明进行了示例性描述，显然本发明具体实现不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行各种改进，或未经过改进直接应用于其他场合，均在本发明的保护范围之内。

Claims

1.一种基于声道和韵律特征的情感语音转换方法，其特征在于，所述方法是利用神经网络得到中性和其他情感语音声道和韵律特征的转换模型，在说话内容保持不变的前提下，实现中性到情感之间的语音转换，转换方法的好坏直接反映在用户对转换后音频的听觉感受以及可视化的声纹中。

2.根据权利要求1所述的方法，其特征在于，包括：

S1:情感语音训练阶段，先对中性和其他情感语音进行预处理，然后提取其声道和韵律特征参数，建立转换模型；

S2：情感语音转换阶段，将中性语音的声道和韵律特征参数输入转换模型中，将模型输出参数进行语音合成，合成目标情感语音。

3.根据权利要求2所述的方法，其特征在于，所述步骤S1中，所述的预处理是指设置一系列参数，对语音进行分帧加窗预处理。

4.根据权利要求2所述的方法，其特征在于，所述步骤S1中，所述的声道特征参数提取中进行LSP(linear spectrum pair)分析，是用n个离散频率的分布式密度来表示语音信号频谱特征的一种方法；而在LSP系数计算中，采用线性预测分析法，通过使实际采样值和线性预测采样值之间差值的二次方和达到最小值，即进行最小均方误差的逼近，直接决定一组线性预测系数，求出LSP系数。

5.根据权利要求2所述的方法，其特征在于，所述步骤S1中，所述的韵律特征提取中，本发明采用了主体-延伸法获取基音周期T，进一步包括：

S12:求出元音主体的延伸区间和长度，提取元音主体的基音周期，往前后延伸对过渡区间进行基音检测。

6.根据权利要求5所述的方法，其特征在于，所述步骤S11中，第一次加窗分帧的目的是端点检测和元音主体检测，利用用能量和谱熵的比值进行端点检测和元音主体检测。第二次加窗分帧是为了进行基音检测，通过滤波，减少共振峰对基音检测的影响。

7.根据权利要求5所述的方法，其特征在于，所述步骤S12中，会求出每个元音主体属于哪一个有话段。在一个有话段中可能包含多个元音主体，所以要划出每个元音主体需要延伸进行端点检测的区间，以及它向前向后需要检测的帧数。用自相关函数的方法提取元音主体的基音周期，以元音主体的基音周期为基准，延伸向前向后区域进行基音检测。

8.根据权利要求2所述的方法，其特征在于，所述步骤S1中，所述建立转换模型中，分别通过BP(Back Propagation)神经网络和GRNN(General Regression Neural Network)神经网络找出声道特征参数LSP和韵律特征参数T的非线性转换关系。

9.根据权利要求2所述的方法，其特征在于，所述步骤S2中，进一步包括：

S21：获得中性语音的声道参数LSP和韵律特征参数T；

S22：将中性语音的声道参数LSP和韵律特征参数T输入到转换模型中，得到转换后的目标情感语音的声道参数LSP和韵律特征参数T；