CN109559736A

CN109559736A - 一种基于对抗网络的电影演员自动配音方法

Info

Publication number: CN109559736A
Application number: CN201811483459.6A
Authority: CN
Inventors: 章东平; 王都洋
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2019-04-02
Anticipated expiration: 2038-12-05
Also published as: CN109559736B

Abstract

本发明公开了一种电影演员自动配音方法，其目的在于利用深度学习方法提升电影演员自动配音的真实性。利用语音识别技术和对抗网络实现电影演员的自动配音，其技术关键在于（1）利用QCNN方法实现对输入语音的识别，并转换成文本信息；（2）利用GAN对抗网络生成说话者不同年龄段的语音信息；（3）通过声纹识别判断生成后的语音和输入的语音是否为同一说话人。本发明所采用的深度学习方法能够很好的进行语音识别以及音色生成，极大提高了电影演员自动配音的真实性。

Description

一种基于对抗网络的电影演员自动配音方法

技术领域

本发明属于语音识别领域，涉及到GAN对抗网络。

背景技术

随着科技的发展以及人们生活水平的提高，电影作为大众广为熟知的娱乐项目，有着不可代替的重要地位。然而，电影中演员可能参演一个年龄跨度较大的角色，角色的不同年龄段的声音有着很大的不同，不同配音演员对同一角色不同年龄段的配音又不具备真实性。所以，利用深度学习完成演员对不同年龄的自己配音就成了一个可待解决的问题。

发明内容

本发明克服了现有技术的不足之处，提出了一种电影演员自动配音方法，意在利用卷积神经网络训练出适用于电影演员自动配音模型，提高电影演员对不同年龄的自己配音时的真实性。

本发明为达到上述发明目的，采用如下技术方案：

一种基于对抗网络的电影演员自动配音方法，其特征在于包括如下步骤：

步骤1、语音数据准备：从互联网上搜集明星语音数据，建立一个语音数据集，数据集中包括多位明星不同年龄段的语音，每段音频数据的标注为说话明星以及该明星的年龄信息；然后将转换成声谱图；

步骤2、电影演员自动配音总体流程：首先将电影演员A的N岁语音声谱图输入至预训练的语音识别模型中，输出原始语音产生的文本；同时将声谱图输入至对抗网络，计算出损失L_GAN.D，输出电影演员A的M岁语音声谱图；然后将输出的M岁声谱图输入至预训练的语音识别模型中，生成语音文本；将生成的文本与原始语音文本同时输入至文本比对模型中，将M岁的电影演员A的语音的文本和N岁电影演员A的语音的文本计算出损失L_T；同时将输出的M岁声谱图和原始的N岁声谱图输入至说话人识别模型中，判断M岁的电影演员A的语音和N岁电影演员A的语音是否为同一说话者，计算出损失L_V；最后选定的损失函数为：

L＝λ_DL_GAN.D+λ_VL_v+λ_TL_T

步骤3、训练：将处理完的声谱图数据送入卷积神经网络，网络输入批量大小(batch size)设置为64，随机初始化各层的连接权值W和偏执b，给定学习速率η；

步骤4、测试：将电影演员A的N岁语音数据转成声谱图，输入至训练好的模型，同时给定年龄M岁，生成电影演员A的M岁语音声谱图；最后生成的声谱图经过傅里叶逆变换，转换成音频信号，最终得到电影演员A的M岁语音。

进一步的，使用傅里叶变换将语音数据转换成声谱图，作为语音识别和说话人识别的输入。

进一步的，步骤2中所述的语音识别、说话人识别、文本比对、生成对抗方法如下：

(1)所述语音识别方法，使用QCNN(Quaternion Convolutional NeuralNetworks)端到端开源语音识别算法训练语音转文本信息语音模型；所述QCNN算法是基于深度学习的语音识别算法，利用训练的模型识别输入的语音声谱图，输出语音对应的文本信息；

(2)所述文本比对方法，即训练一个文本比对模型，用于电影演员原始语音文本和电影演员不同年龄语音生成后的文本比对；计算两者损失，使用的损失函数为：

其中：x和y分别代表原始语音产生的文本和生成的语音产生的文本，m表示文本字符的个数，i＝1,2,…,m；

(3)所述说话人识别方法，首先从网络搜集K个明星不同年龄的语音数据，同一说话人的语音数据具有同一标签，此标签可标识说话人的ID，则标签可以表示为{ID₀，ID₁，ID₂，...，ID_k}；再对语音数据进行预处理，将k个明星的语音数据转成声谱图；接着将数据进行归一化处理，去除数据的单位机制，将数据转为无量纲数值，提高模型收敛速度和准确度，标准化后，像素点取值区间为【0，1】；再通过CNN和DeepRNN网络实现语音信号的个性特征提取及分类；同时利用BP及BPTT算法计算梯度，最后使用softmax分类器进行分类，使输出层的节点对应于说话人，从而完成样本数据的训练；最后将M岁的电影演员A的语音数据和N岁电影演员A的语音数据输入至训练好的声纹识别网络中，计算是否为同一个人的损失；所用损失函数为：

其中，y_i表示M岁的电影演员A的语音，y′_i表示N岁电影演员A的语音,I表示样本数量；

(4)所述生成对抗方法，是指采用对抗学习方法由一个年龄的语音数据生成另一个年龄的语音数据的生成对抗网络模块；首先将语音进行预处理，将语音转换为声谱图，获得声谱图后进行归一化灰度处理；接着利用Gabor滤波器对声谱图特征进行再提取；Gabor滤波器核函数定义为：

上式中：u和v分别表示Gabor的方向和尺度；z＝(x，y)表示像素点坐标；σ为高斯半径；k_u,v控制高斯窗宽度、震波长及方向，k_v为滤波采样率； σ＝2π、选取5个尺度8个方向的Gabor滤波器，可以计算得40个复系数Gabor图谱，取幅值后分别与m×n的声谱灰度图S进行卷积,得到m×n的矩阵S_u,v(z),其中z＝{1，2，…,40}；分别将40个m×n的矩阵S_u,v(z)化成m×n维的向量，构成特征矩阵S_Q，即：

S_Q＝[vec(S_0,0),...,vec(S_4,7)]

用分块PCA对特征矩阵S_Q进行降维：采用分块采样PCA降维处理，增加计算效率；先将S_u,v(z)分块，对每块最大值降采样，再将矩阵化为均值为0、方差为1的正态分布矩阵，最后作为独立样本进行PCA降维处理；最后将处理后的数据输入至对抗网络中进行对抗训练，对抗网络选用卷积神经网络，包括两种不同的递归深度神经网络，即生成器(G)和判别器(D)；损失函数定义为：

其中：m为训练样本的个数，z表示一个随机的噪声，G(z⁽ⁱ⁾)表示第i个样本通过噪声生成的图片，x表示输入的样本数据，D(x⁽ⁱ⁾)表示第i个样本为真实图片的概率。

进一步的，步骤3中首先将步骤1中收集到语音数据，标注为说话明星和该明星说话时的年龄信息；接着采用傅里叶变换，将语音数据转成声谱图；将处理完的声谱图数据送入卷积神经网络，网络输入批量大小(batch size)设置为64，随机初始化各层的连接权值W和偏执b，给定学习速率η；通过训练，不断更新该参数，使L_G达到最小；最后生成器G学习了所需的语音变换，D成为了一个可靠的鉴别器；

进一步的，首先将电影演员A的N岁语音数据转成声谱图；接着将声谱图输入至训练好的生成器中，同时给定年龄N岁，生成电影演员A的M岁语音声谱图；最后生成的声谱图经过傅里叶逆变换，转换成音频信号，最终得到电影演员A的M岁语音。

附图说明

图1为本发明的一种生成不同年龄语音的网络结构图。

图2为本发明的一种电影演员自动配音的主要流程图。

具体实施方式

下面结合附图对本发明的具体实施方式做详细的说明。

如图1和2所示，本发明的基于对抗网络的电影演员自动配音方法，包括如下步骤：

步骤1、语音数据准备：此步骤从互联网上搜集明星语音数据，建立一个语音数据集，数据集中包括1000位明星不同年龄段的语音，每段音频数据的标注为说话明星以及该明星的年龄信息；然后将转换成声谱图；

步骤2、电影演员自动配音总体流程：首先将电影演员A的语音声谱图(10岁)输入至预训练的语音识别模型中，输出原始语音产生的文本；同时将声谱图输入至对抗网络，计算出损失L_GAN.D，输出电影演员A的语音声谱图(20岁)；然后将输出的声谱图(20岁)输入至预训练的语音识别模型中，生成语音文本；将生成的文本与原始语音文本同时输入至文本比对模型中，判断20岁的电影演员A的语音的文本和N岁电影演员A的语音的文本是否一致，计算出损失L_T；同时将输出的声谱图(20岁)和原始的声谱图(10岁)输入至说话人识别模型中，判断20岁的电影演员A的语音和10岁电影演员A的语音是否为同一说话者，计算出损失L_V；最后选定的损失函数为：

L＝λ_DL_GAN.D+λ_VL_v+λ_TL_T

步骤3、训练：将处理完的声谱图数据送入卷积神经网络，网络输入批量大小(batch size)设置为64，随机初始化各层的连接权值W和偏执b，给定学习速率η＝0.01；

步骤4、测试：将电影演员A的语音数据(10岁)转成声谱图，输入至训练好的模型，同时给定年龄20岁，生成电影演员A的语音声谱图(20)岁；最后生成的声谱图经过傅里叶逆变换，转换成音频信号，最终得到电影演员A的语音(20岁)；

其中，使用傅里叶变换将语音数据转换成声谱图，作为语音识别和说话人识别的输入。

步骤2所述的语音识别、说话人识别、文本比对、生成对抗方法，采用如下方法：

其中：x和y分别代表原始语音产生的文本和生成的语音产生的文本，m表示文本字符的个数，i＝1,2,…

(3)所述说话人识别方法，首先从网络搜集K个明星不同年龄的语音数据，同一说话人的语音数据具有同一标签，此标签可标识说话人的ID，则标签可以表示为{ID₀，ID₁，ID₂，...，ID_k}；再对语音数据进行预处理，将k个明星的语音数据转成声谱图；接着将数据进行归一化处理，去除数据的单位机制，将数据转为无量纲数值，提高模型收敛速度和准确度，标准化后，像素点取值区间为[0，1]；再通过CNN和DeepRNN网络实现语音信号的个性特征提取及分类；同时利用BP及BPTT算法计算梯度，最后使用softmax分类器进行分类，使输出层的节点对应于说话人，从而完成样本数据的训练；最后将20岁的电影演员A的语音数据和10岁电影演员A的语音数据输入至训练好的声纹识别网络中，计算是否为同一个人的损失；所用损失函数为：

其中，y_i表示20岁的电影演员A的语音，y′_i表示1 0岁电影演员A的语音,I表示样本数量；

S_Q＝[vec(S_0,0),...,vec(S_4,7)]

骤1中收集到语音数据，标注为说话明星和该明星说话时的年龄信息；接着采用傅里叶变换，将语音数据转成声谱图；将处理完的声谱图数据送入卷积神经网络，网络输入批量大小(batch size)设置为64，随机初始化各层的连接权值W和偏执b，给定学习速率η；通过训练，不断更新该参数，使L_G达到最小；最后生成器G学习了所需的语音变换，D成为了一个可靠的鉴别器。

步骤4中首先将电影演员A的语音数据(1 0岁)转成声谱图；接着将声谱图输入至训练好的生成器中，同时给定年龄20岁，生成电影演员A的语音声谱图(20岁)；最后生成的声谱图经过傅里叶逆变换，转换成音频信号，最终得到电影演员A的语音(20岁)。

Claims

1.一种基于对抗网络的电影演员自动配音方法，其特征在于包括如下步骤：

L＝λ_DL_GAN.D+λ_VL_v+λ_TL_T

步骤3、训练：将处理完的声谱图数据送入卷积神经网络，网络输入批量大小(batchsize)设置为64，随机初始化各层的连接权值W和偏执b，给定学习速率η；

2.如权利要求1所述的基于对抗网络的电影演员自动配音方法，其特征在于：使用傅里叶变换将语音数据转换成声谱图，作为语音识别和说话人识别的输入。

3.如权利要求1所述的基于对抗网络的电影演员自动配音方法，其特征在于：步骤2中所述的语音识别、说话人识别、文本比对、生成对抗方法如下：

(1)所述语音识别方法，使用QCNN(Quaternion Convolutional Neural Networks)端到端开源语音识别算法训练语音转文本信息语音模型；所述QCNN算法是基于深度学习的语音识别算法，利用训练的模型识别输入的语音声谱图，输出语音对应的文本信息；

S_Q＝[vec(S_0,0),...,vec(S_4,7)]

4.如权利要求1所述的基于对抗网络的电影演员自动配音方法，其特征在于：步骤3中首先将步骤1中收集到语音数据，标注为说话明星和该明星说话时的年龄信息；接着采用傅里叶变换，将语音数据转成声谱图；将处理完的声谱图数据送入卷积神经网络，网络输入批量大小(batch size)设置为64，随机初始化各层的连接权值W和偏执b，给定学习速率η；通过训练，不断更新该参数，使L_G达到最小；最后生成器G学习了所需的语音变换，D成为了一个可靠的鉴别器。

5.如权利要求1所述的基于对抗网络的电影演员自动配音方法，其特征在于：

首先将电影演员A的N岁语音数据转成声谱图；接着将声谱图输入至训练好的生成器中，同时给定年龄N岁，生成电影演员A的M岁语音声谱图；最后生成的声谱图经过傅里叶逆变换，转换成音频信号，最终得到电影演员A的M岁语音。