CN112951201A

CN112951201A - 一种营业厅环境下端到端的情感语音合成方法

Info

Publication number: CN112951201A
Application number: CN202110174057.3A
Authority: CN
Inventors: 李韫莛; 梁东贵; 曾宪毅; 李紫楠; 梁哲辉; 陈敏; 顾安朋; 熊伟; 陈光辉; 李莹
Original assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-06-11

Abstract

本发明提供了一种营业厅环境下端到端的情感语音合成方法，涉及多人环境下带有情感的语音合成领域，包括(1)营业厅环境下对用户语音输入进行情感识别，构建应答语音的情感特征向量；(2)构建文本编码器，根据情感特征对应答文本进行编码；(3)构建注意力机制模型，提取数据的上下文特征；(4)构建解码器，根据上下文特征循环预测输出的声谱图；(5)对预测的声谱图进行优化，提高合成语音的质量；(6)对神经网络框架进行训练。本发明能够实现营业厅环境下根据用户的情绪快速而且具有针对性地合成对应情感的语音，实现与用户流利而富有情感的对话，提高用户体验。

Description

一种营业厅环境下端到端的情感语音合成方法

技术领域

本发明涉及语音合成领域，具体是一种在营业厅环境下，根据用户语音和应答文本实现情感语音合成的方法。

背景技术

在营业厅环境下，希望使用智能机器人代替人来完成一些工作。其中与用户进行自然流畅的语音对话是一个重点。传统的语音合成方法合成的语音语调机器感较强，缺少正常对话中所带有的情感，用户体验不佳。同时针对用户当前的情绪，合成带有合适情绪的语音能够更好地回答用户的问题，将内容和情绪结合来进行对话有助于提高信息交流的准确程度。

发明内容

本发明的目的在于解决营业厅环境下机器人与用户对话时合成的语音缺少情感，导致用户体验不佳或理解错误的问题，提出一种针对用户输入语音的情感进行情感语音合成的方法，实现营业厅的机器人根据用户情绪进行高效的情感语音合成，输出带合适情绪的语音进行对话的目的。

本发明的目的通过下述的技术方案实现：

1、一种营业厅环境下端到端的情感语音合成方法，包括以下步骤：

(1)营业厅环境下对预处理后的用户语音输入进行情感识别，构建应答语音的情感特征向量；

(2)构建文本编码器，根据情感特征对应答文本进行编码；

(3)构建注意力机制模型，提取数据的上下文特征；

(4)构建解码器，根据上下文特征循环预测声谱图；

(5)对预测的声谱图进行优化，提高合成语音的质量；

(6)对神经网络框架进行训练。

2、在步骤(1)中，营业厅环境下对预处理后的用户语音输入进行情感识别并构建应答语音的情感特征向量的具体方法为：

对收集的语音进行预处理，通过声纹识别模块去噪后提取用户的语音；通过情感特征提取模块从用户语音中提取情感特征，生成衡量用户情绪的情感特征向量，该情感特征向量处于从多个维度衡量情绪的情感特征空间中，情感特征空间能够描述情绪的强烈程度；通过情绪映射模块将生成的情感特征向量映射为适合应答语音的情感特征向量，实现智能化的情感语音合成。

3、在步骤(2)中，构建文本编码器，根据情感特征对应答文本进行编码的具体方法为：

对于问答系统生成的应答文本，通过词嵌入算法将文本映射为字符序列X＝[x₁,x₂,x₃,...,x_i]；词嵌入过程就是把一个维数为所有词数量的高维空间嵌入到一个低维度的连续向量空间中，每个单词或词组被映射为实数域上的向量，词嵌入的结果就生成了词向量；通过编码器模块根据应答语音的情感特征向量重编码该字符序列，生成新的字符序列Y＝[y₁,y₂,y₃,...,y_j]，即通过情感特征将其更改为更符合情绪特点但表达意思的不变的文本。

4、在步骤(3)中，构建注意力机制模型，提取数据的上下文特征的具体方法为：

注意力机制能够在当前预测时从大量信息中筛选出少量重要信息并聚焦于这些重要信息上，根据权重分配来衡量信息的重要程度，从而提高解码器预测的效果；对常规语音合成的注意力机制模型进行修改，在混合注意力机制考虑位置、内容的基础上引入计算情感距离的函数；当两个词语所附带的情绪在情感特征空间中距离较近时，其情感距离接近0；当两个词在两个词语所附带的情绪在情感特征空间中距离较远时，其情感距离接近负无穷。

5、在步骤(4)中，构建解码器，根据上下文特征循环预测输出的声谱图的具体方法为：

将编码器生成的隐状态序列或上一轮预测的声谱图与注意力机制模型生成的上下文信息拼接后由解码器循环预测声谱图；在每次迭代中循环预测解码结束的概率，值为[0,1]，若概率大于等于设定的阈值，则解码结束；若小于设定的阈值则继续进入下一轮循环进行解码。

6、在步骤(6)中，对神经网络框架进行训练的具体方法为：

使用目标函数进行优化。

其中，第一项是真实声谱y_real,i与解码器预测声谱y_i之间的误差；第二项是真实声谱与后处理残差网络间的误差；第三项是目标情感特征向量emotion_target,i与生成的情感特征向量emotion_i间的误差；n为样本数，λ为正则化参数，w为神经网络中的参数，p为参数的数量，第四项是神经网络的训练误差。训练的目的是最小化损失函数，达到一定轮次直到收敛可停止训练。

7、进一步地，训练完成后的模型能在一定的时间的合成情感语音，从而实现与用户流利地进行对话；通过阈值的设定来实现语音合成的时间和语音合成的质量之间的取舍；根据用户的情绪动态调节阈值，达到自适应合成情感语音的效果；若用户情绪较急躁则减低阈值，加快语音合成的速度；若用户情绪较平和则增大阈值，增加语音合成的质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为实施例提供的一种营业厅环境下端到端的情感语音合成方法的总体流程图。

图2为实施例提供的一种营业厅环境下端到端的情感语音合成方法的注意力机制模型。

具体实施方式

下面结合实施例及附图对本发明作进一步的描述，此处描述的具体实施例仅用于解释本发明，并不局限于此。

实施例

如图1所示，描述的是一种营业厅环境下端到端的情感语音合成方法的主要流程和组成部分，总体的方法包括如下步骤：

(1)营业厅环境下对预处理后的用户语音输入进行情感识别，构建应答语音的情感特征向量。

(2)构建文本编码器，根据情感特征对应答文本进行编码。

(3)构建注意力机制模型，提取数据的上下文特征。

(4)构建解码器，根据上下文特征循环预测声谱图。

(5)对预测的声谱图进行优化，提高合成语音的质量。

(6)对神经网络框架进行训练。

在步骤(1)中，营业厅环境下对预处理后的用户语音输入进行情感识别并构建应答语音的情感特征向量的具体方法为：

对收集的语音进行预处理，通过声纹识别模块去噪后提取用户的语音；

优选地，使用基于X-VECTORS模型的声纹识别算法，从收集的语音中提取处属于用户输入的部分：

audio＝X-VECTORS(raw_audio)

其中，audio是提取后得到的用户语音；raw_audio是麦克风收集到的原始语音。

通过神经网络构成的情感特征提取模块从用户语音中提取情感特征，生成衡量用户情绪的情感特征向量，该情感特征向量处于从多个维度衡量情绪的情感特征空间中，情感特征空间能够描述情绪的强烈程度；

input_emotion＝Extract(audio)

其中，input_emotion是提取的情感特征向量；Extract的神经网络。

通过情绪映射模块将生成的情感特征向量映射为适合应答语音的情感特征向量，实现智能化的情感语音合成。

output_emotion＝M×input_emotion

其中，output_emotion是适合应答语音的情感特征向量；M是训练好映射矩阵，将情感特征向量映射到合适的应答情感特征向量。

在步骤(2)中，构建文本编码器，根据情感特征对应答文本进行编码的具体方法为：

对于问答系统生成的应答文本，通过词嵌入算法将文本映射为字符序列X＝[x₁,x₂,x₃,...,x_i]；词嵌入过程就是把一个维数为所有词数量的高维空间嵌入到一个低维度的连续向量空间中，每个单词或词组被映射为实数域上的向量，词嵌入的结果就生成了词向量。

优选地，使用word2vec算法进行词嵌入：

X＝word2vec(text)

其中，text是问答系统提供的原始文本。

通过编码器模块根据应答语音的情感特征向量重编码该字符序列，生成新的字符序列Y＝[y₁,y₂,y₃,...,y_j]，即通过情感特征将其更改为更符合情绪特点但表达意思的不变的文本。

最后编码器将新生成的字符序列Y＝[y₁,y₂,y₃,...,y_j]编码成代表隐状态的序列H＝[h₁,h₂,h₃,...,h_j]，h_m之于相邻分量h_n包含的信息等价于y_m之于y_n所包含的信息。

在步骤(3)中，构建注意力机制模型，提取数据的上下文特征的具体方法如图2所示：

注意力机制能够在当前预测时从大量信息中筛选出少量重要信息并聚焦于这些重要信息上，根据权重分配来衡量信息的重要程度，从而提高解码器预测的效果；

f_i＝F*cα_i-1

其中，α_i是生成的注意力权重；N是编码器生成的隐状态的个数；e_ij是得分函数，不同的得分函数决定了不同类型的注意力机制；s_i是当前解码器隐状态，表示内容特征；h_j是当前编码器隐状态，表示输入的序列；V_a、W、V、U、Z、F是神经网络中的待训练参数；tanh是神经网络的激活函数；f_i,j表示位置特征；β表示情感特征；b是偏置值初始化为0。

对常规语音合成的注意力机制模型进行修改，在混合注意力机制考虑位置、内容的基础上引入计算情感距离的函数；当两个词语所附带的情绪在情感特征空间中距离较近时，其情感距离接近0；当两个词在两个词语所附带的情绪在情感特征空间中距离较远时，其情感距离接近负无穷。

优选地，使用余弦相似度来计算两个情感特征向量的情感距离：

其中，两个vector是计算情感距离的情感特征向量。

步骤(4)中，构建解码器，根据上下文特征循环预测输出的声谱图的具体方法为：

将编码器生成的隐状态序列或上一轮预测的声谱图与注意力机制模型生成的上下文信息拼接后由解码器循环预测声谱图；

Mel_i＝Decoder(concat(c_i,Mel_i-1))

其中，c_i是注意力机制网络生成的上下文向量；concat将多个向量拼接起来；Mel_i是当前预测的梅尔频谱图。

在每次迭代中循环预测解码结束的概率,值为[0,1]，若概率大于等于设定的阈值，则解码结束；若小于设定的阈值则继续进入下一轮循环进行解码。

在步骤(5)中，对声谱图进行优化，提高语音质量。具体地，使用卷积神经网络提高预测得到的声谱图的质量。通过残差块进行计算。

y_fianl＝y+y_r

y_r＝PostNet(y)＝W_psf_ps+b_ps

f_ps＝F_ps,i*x

其中，y是原始声谱图；w_ps是待训练参数；F_ps,i是卷积层；x是上一个卷积层的输出或解码器的输出；b_ps是偏置值。

在步骤(6)中，对神经网络框架进行训练。具体地，使用目标函数进行优化。

5、进一步地，训练完成后的模型能在一定的时间的合成情感语音，，从而实现与用户流利地进行对话；通过阈值的设定来实现语音合成的时间和语音合成的质量之间的取舍；根据用户的情绪动态调节阈值，达到自适应合成情感语音的效果；若用户情绪较急躁则减低阈值，加快语音合成的速度；若用户情绪较平和则增大阈值，增加语音合成的质量。

Claims

1.一种营业厅环境下端到端的情感语音合成方法，其特征在于包括以下步骤：

(2)构建文本编码器，根据情感特征对应答文本进行编码；

(3)构建注意力机制模型，提取数据的上下文特征；

(4)构建解码器，根据上下文特征循环预测声谱图；(5)对预测的声谱图进行优化，提高合成语音的质量；

(6)对神经网络框架进行训练。

2.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法，其特征在于，步骤(1)中，营业厅环境下对预处理后的用户语音输入进行情感识别并构建应答语音的情感特征向量的具体方法为：

对收集的语音进行预处理，通过声纹识别模块去噪后提取用户的语音；从用户语音中提取情感特征，生成衡量用户情绪的情感特征向量，该情感特征向量处于从多个维度衡量情绪的情感特征空间中；将生成的情感特征向量映射为适合应答语音的情感特征向量。

3.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法，其特征在于，步骤(2)中，构建文本编码器，根据情感特征对应答文本进行编码的具体方法为：

对于问答系统生成的应答文本，通过词嵌入算法将文本映射为字符序列，即把文本转换为词向量；根据应答语音的情感特征向量重编码该词向量，生成新的字符序列，即通过情感特征将其更改为更符合情绪特点但表达的意思不变的文本。

4.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法，其特征在于，步骤(3)中，构建注意力机制模型，提取数据的上下文特征的具体方法为：

对常规语音合成的注意力机制模型进行修改，引入计算情感距离的函数；当两个词语所附带的情绪在情感特征空间中距离较近时，其情感距离接近0；当两个词在两个词语所附带的情绪在情感特征空间中距离较远时，其情感距离接近负无穷。

5.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法，其特征在于，步骤(4)中，构建解码器，根据上下文特征循环预测声谱图的具体方法为：

将编码器生成的隐状态序列或上一轮预测的声谱图与注意力机制模型生成的上下文信息拼接后由解码器循环预测声谱图；在每次迭代中循环预测解码结束的概率,值为[0,1]，若概率大于等于设定的阈值，则解码结束；若小于设定的阈值则继续进入下一轮循环进行解码。

6.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法，其特征在于，步骤(6)中，对神经网络框架进行训练的具体方法为：

使用目标函数进行优化，

其中，第一项是真实声谱与解码器预测声谱之间的误差；第二项是真实声谱与后处理残差网络间的误差；第三项是目标情感特征向量与生成的情感特征向量间的误差；为样本数，为正则化参数，为神经网络中的参数，为参数的数量，第四项是神经网络的训练误差，训练的目的是最小化损失函数，达到一定轮次直到收敛可停止训练。

7.如权利要求1所述一种营业厅环境下端到端的情感语音合成方法，其特征在于训练完成后的模型能在一定的时间的合成情感语音，从而实现与用户流利地进行对话；能够通过调节判断解码是否结束的阈值来调节情感语音合成的速度；根据用户的情绪动态调节阈值，达到自适应合成情感语音的效果。