CN109559736A - 一种基于对抗网络的电影演员自动配音方法 - Google Patents
一种基于对抗网络的电影演员自动配音方法 Download PDFInfo
- Publication number
- CN109559736A CN109559736A CN201811483459.6A CN201811483459A CN109559736A CN 109559736 A CN109559736 A CN 109559736A CN 201811483459 A CN201811483459 A CN 201811483459A CN 109559736 A CN109559736 A CN 109559736A
- Authority
- CN
- China
- Prior art keywords
- voice
- years old
- performer
- text
- sonograph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013135 deep learning Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000005611 electricity Effects 0.000 claims 1
- 230000008901 benefit Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种电影演员自动配音方法,其目的在于利用深度学习方法提升电影演员自动配音的真实性。利用语音识别技术和对抗网络实现电影演员的自动配音,其技术关键在于(1)利用QCNN方法实现对输入语音的识别,并转换成文本信息;(2)利用GAN对抗网络生成说话者不同年龄段的语音信息;(3)通过声纹识别判断生成后的语音和输入的语音是否为同一说话人。本发明所采用的深度学习方法能够很好的进行语音识别以及音色生成,极大提高了电影演员自动配音的真实性。
Description
技术领域
本发明属于语音识别领域,涉及到GAN对抗网络。
背景技术
随着科技的发展以及人们生活水平的提高,电影作为大众广为熟知的娱乐项目,有着不可代替的重要地位。然而,电影中演员可能参演一个年龄跨度较大的角色,角色的不同年龄段的声音有着很大的不同,不同配音演员对同一角色不同年龄段的配音又不具备真实性。所以,利用深度学习完成演员对不同年龄的自己配音就成了一个可待解决的问题。
发明内容
本发明克服了现有技术的不足之处,提出了一种电影演员自动配音方法,意在利用卷积神经网络训练出适用于电影演员自动配音模型,提高电影演员对不同年龄的自己配音时的真实性。
本发明为达到上述发明目的,采用如下技术方案:
一种基于对抗网络的电影演员自动配音方法,其特征在于包括如下步骤:
步骤1、语音数据准备:从互联网上搜集明星语音数据,建立一个语音数据集,数据集中包括多位明星不同年龄段的语音,每段音频数据的标注为说话明星以及该明星的年龄信息;然后将转换成声谱图;
步骤2、电影演员自动配音总体流程:首先将电影演员A的N岁语音声谱图输入至预训练的语音识别模型中,输出原始语音产生的文本;同时将声谱图输入至对抗网络,计算出损失LGAN.D,输出电影演员A的M岁语音声谱图;然后将输出的M岁声谱图输入至预训练的语音识别模型中,生成语音文本;将生成的文本与原始语音文本同时输入至文本比对模型中,将M岁的电影演员A的语音的文本和N岁电影演员A的语音的文本计算出损失LT;同时将输出的M岁声谱图和原始的N岁声谱图输入至说话人识别模型中,判断M岁的电影演员A的语音和N岁电影演员A的语音是否为同一说话者,计算出损失LV;最后选定的损失函数为:
L=λDLGAN.D+λVLv+λTLT
步骤3、训练:将处理完的声谱图数据送入卷积神经网络,网络输入批量大小(batch size)设置为64,随机初始化各层的连接权值W和偏执b,给定学习速率η;
步骤4、测试:将电影演员A的N岁语音数据转成声谱图,输入至训练好的模型,同时给定年龄M岁,生成电影演员A的M岁语音声谱图;最后生成的声谱图经过傅里叶逆变换,转换成音频信号,最终得到电影演员A的M岁语音。
进一步的,使用傅里叶变换将语音数据转换成声谱图,作为语音识别和说话人识别的输入。
进一步的,步骤2中所述的语音识别、说话人识别、文本比对、生成对抗方法如下:
(1)所述语音识别方法,使用QCNN(Quaternion Convolutional NeuralNetworks)端到端开源语音识别算法训练语音转文本信息语音模型;所述QCNN算法是基于深度学习的语音识别算法,利用训练的模型识别输入的语音声谱图,输出语音对应的文本信息;
(2)所述文本比对方法,即训练一个文本比对模型,用于电影演员原始语音文本和电影演员不同年龄语音生成后的文本比对;计算两者损失,使用的损失函数为:
其中:x和y分别代表原始语音产生的文本和生成的语音产生的文本,m表示文本字符的个数,i=1,2,…,m;
(3)所述说话人识别方法,首先从网络搜集K个明星不同年龄的语音数据,同一说话人的语音数据具有同一标签,此标签可标识说话人的ID,则标签可以表示为{ID0,ID1,ID2,...,IDk};再对语音数据进行预处理,将k个明星的语音数据转成声谱图;接着将数据进行归一化处理,去除数据的单位机制,将数据转为无量纲数值,提高模型收敛速度和准确度,标准化后,像素点取值区间为【0,1】;再通过CNN和DeepRNN网络实现语音信号的个性特征提取及分类;同时利用BP及BPTT算法计算梯度,最后使用softmax分类器进行分类,使输出层的节点对应于说话人,从而完成样本数据的训练;最后将M岁的电影演员A的语音数据和N岁电影演员A的语音数据输入至训练好的声纹识别网络中,计算是否为同一个人的损失;所用损失函数为:
其中,yi表示M岁的电影演员A的语音,y′i表示N岁电影演员A的语音,I表示样本数量;
(4)所述生成对抗方法,是指采用对抗学习方法由一个年龄的语音数据生成另一个年龄的语音数据的生成对抗网络模块;首先将语音进行预处理,将语音转换为声谱图,获得声谱图后进行归一化灰度处理;接着利用Gabor滤波器对声谱图特征进行再提取;Gabor滤波器核函数定义为:
上式中:u和v分别表示Gabor的方向和尺度;z=(x,y)表示像素点坐标;σ为高斯半径;ku,v控制高斯窗宽度、震波长及方向,kv为滤波采样率; σ=2π、选取5个尺度8个方向的Gabor滤波器,可以计算得40个复系数Gabor图谱,取幅值后分别与m×n的声谱灰度图S进行卷积,得到m×n的矩阵Su,v(z),其中z={1,2,…,40};分别将40个m×n的矩阵Su,v(z)化成m×n维的向量,构成特征矩阵SQ,即:
SQ=[vec(S0,0),...,vec(S4,7)]
用分块PCA对特征矩阵SQ进行降维:采用分块采样PCA降维处理,增加计算效率;先将Su,v(z)分块,对每块最大值降采样,再将矩阵化为均值为0、方差为1的正态分布矩阵,最后作为独立样本进行PCA降维处理;最后将处理后的数据输入至对抗网络中进行对抗训练,对抗网络选用卷积神经网络,包括两种不同的递归深度神经网络,即生成器(G)和判别器(D);损失函数定义为:
其中:m为训练样本的个数,z表示一个随机的噪声,G(z(i))表示第i个样本通过噪声生成的图片,x表示输入的样本数据,D(x(i))表示第i个样本为真实图片的概率。
进一步的,步骤3中首先将步骤1中收集到语音数据,标注为说话明星和该明星说话时的年龄信息;接着采用傅里叶变换,将语音数据转成声谱图;将处理完的声谱图数据送入卷积神经网络,网络输入批量大小(batch size)设置为64,随机初始化各层的连接权值W和偏执b,给定学习速率η;通过训练,不断更新该参数,使LG达到最小;最后生成器G学习了所需的语音变换,D成为了一个可靠的鉴别器;
进一步的,首先将电影演员A的N岁语音数据转成声谱图;接着将声谱图输入至训练好的生成器中,同时给定年龄N岁,生成电影演员A的M岁语音声谱图;最后生成的声谱图经过傅里叶逆变换,转换成音频信号,最终得到电影演员A的M岁语音。
附图说明
图1为本发明的一种生成不同年龄语音的网络结构图。
图2为本发明的一种电影演员自动配音的主要流程图。
具体实施方式
下面结合附图对本发明的具体实施方式做详细的说明。
如图1和2所示,本发明的基于对抗网络的电影演员自动配音方法,包括如下步骤:
步骤1、语音数据准备:此步骤从互联网上搜集明星语音数据,建立一个语音数据集,数据集中包括1000位明星不同年龄段的语音,每段音频数据的标注为说话明星以及该明星的年龄信息;然后将转换成声谱图;
步骤2、电影演员自动配音总体流程:首先将电影演员A的语音声谱图(10岁)输入至预训练的语音识别模型中,输出原始语音产生的文本;同时将声谱图输入至对抗网络,计算出损失LGAN.D,输出电影演员A的语音声谱图(20岁);然后将输出的声谱图(20岁)输入至预训练的语音识别模型中,生成语音文本;将生成的文本与原始语音文本同时输入至文本比对模型中,判断20岁的电影演员A的语音的文本和N岁电影演员A的语音的文本是否一致,计算出损失LT;同时将输出的声谱图(20岁)和原始的声谱图(10岁)输入至说话人识别模型中,判断20岁的电影演员A的语音和10岁电影演员A的语音是否为同一说话者,计算出损失LV;最后选定的损失函数为:
L=λDLGAN.D+λVLv+λTLT
步骤3、训练:将处理完的声谱图数据送入卷积神经网络,网络输入批量大小(batch size)设置为64,随机初始化各层的连接权值W和偏执b,给定学习速率η=0.01;
步骤4、测试:将电影演员A的语音数据(10岁)转成声谱图,输入至训练好的模型,同时给定年龄20岁,生成电影演员A的语音声谱图(20)岁;最后生成的声谱图经过傅里叶逆变换,转换成音频信号,最终得到电影演员A的语音(20岁);
其中,使用傅里叶变换将语音数据转换成声谱图,作为语音识别和说话人识别的输入。
步骤2所述的语音识别、说话人识别、文本比对、生成对抗方法,采用如下方法:
(1)所述语音识别方法,使用QCNN(Quaternion Convolutional NeuralNetworks)端到端开源语音识别算法训练语音转文本信息语音模型;所述QCNN算法是基于深度学习的语音识别算法,利用训练的模型识别输入的语音声谱图,输出语音对应的文本信息;
(2)所述文本比对方法,即训练一个文本比对模型,用于电影演员原始语音文本和电影演员不同年龄语音生成后的文本比对;计算两者损失,使用的损失函数为:
其中:x和y分别代表原始语音产生的文本和生成的语音产生的文本,m表示文本字符的个数,i=1,2,…
(3)所述说话人识别方法,首先从网络搜集K个明星不同年龄的语音数据,同一说话人的语音数据具有同一标签,此标签可标识说话人的ID,则标签可以表示为{ID0,ID1,ID2,...,IDk};再对语音数据进行预处理,将k个明星的语音数据转成声谱图;接着将数据进行归一化处理,去除数据的单位机制,将数据转为无量纲数值,提高模型收敛速度和准确度,标准化后,像素点取值区间为[0,1];再通过CNN和DeepRNN网络实现语音信号的个性特征提取及分类;同时利用BP及BPTT算法计算梯度,最后使用softmax分类器进行分类,使输出层的节点对应于说话人,从而完成样本数据的训练;最后将20岁的电影演员A的语音数据和10岁电影演员A的语音数据输入至训练好的声纹识别网络中,计算是否为同一个人的损失;所用损失函数为:
其中,yi表示20岁的电影演员A的语音,y′i表示1 0岁电影演员A的语音,I表示样本数量;
(4)所述生成对抗方法,是指采用对抗学习方法由一个年龄的语音数据生成另一个年龄的语音数据的生成对抗网络模块;首先将语音进行预处理,将语音转换为声谱图,获得声谱图后进行归一化灰度处理;接着利用Gabor滤波器对声谱图特征进行再提取;Gabor滤波器核函数定义为:
上式中:u和v分别表示Gabor的方向和尺度;z=(x,y)表示像素点坐标;σ为高斯半径;ku,v控制高斯窗宽度、震波长及方向,kv为滤波采样率; σ=2π、选取5个尺度8个方向的Gabor滤波器,可以计算得40个复系数Gabor图谱,取幅值后分别与m×n的声谱灰度图S进行卷积,得到m×n的矩阵Su,v(z),其中z={1,2,…,40};分别将40个m×n的矩阵Su,v(z)化成m×n维的向量,构成特征矩阵SQ,即:
SQ=[vec(S0,0),...,vec(S4,7)]
用分块PCA对特征矩阵SQ进行降维:采用分块采样PCA降维处理,增加计算效率;先将Su,v(z)分块,对每块最大值降采样,再将矩阵化为均值为0、方差为1的正态分布矩阵,最后作为独立样本进行PCA降维处理;最后将处理后的数据输入至对抗网络中进行对抗训练,对抗网络选用卷积神经网络,包括两种不同的递归深度神经网络,即生成器(G)和判别器(D);损失函数定义为:
其中:m为训练样本的个数,z表示一个随机的噪声,G(z(i))表示第i个样本通过噪声生成的图片,x表示输入的样本数据,D(x(i))表示第i个样本为真实图片的概率。
骤1中收集到语音数据,标注为说话明星和该明星说话时的年龄信息;接着采用傅里叶变换,将语音数据转成声谱图;将处理完的声谱图数据送入卷积神经网络,网络输入批量大小(batch size)设置为64,随机初始化各层的连接权值W和偏执b,给定学习速率η;通过训练,不断更新该参数,使LG达到最小;最后生成器G学习了所需的语音变换,D成为了一个可靠的鉴别器。
步骤4中首先将电影演员A的语音数据(1 0岁)转成声谱图;接着将声谱图输入至训练好的生成器中,同时给定年龄20岁,生成电影演员A的语音声谱图(20岁);最后生成的声谱图经过傅里叶逆变换,转换成音频信号,最终得到电影演员A的语音(20岁)。
Claims (5)
1.一种基于对抗网络的电影演员自动配音方法,其特征在于包括如下步骤:
步骤1、语音数据准备:从互联网上搜集明星语音数据,建立一个语音数据集,数据集中包括多位明星不同年龄段的语音,每段音频数据的标注为说话明星以及该明星的年龄信息;然后将转换成声谱图;
步骤2、电影演员自动配音总体流程:首先将电影演员A的N岁语音声谱图输入至预训练的语音识别模型中,输出原始语音产生的文本;同时将声谱图输入至对抗网络,计算出损失LGAN.D,输出电影演员A的M岁语音声谱图;然后将输出的M岁声谱图输入至预训练的语音识别模型中,生成语音文本;将生成的文本与原始语音文本同时输入至文本比对模型中,将M岁的电影演员A的语音的文本和N岁电影演员A的语音的文本计算出损失LT;同时将输出的M岁声谱图和原始的N岁声谱图输入至说话人识别模型中,判断M岁的电影演员A的语音和N岁电影演员A的语音是否为同一说话者,计算出损失LV;最后选定的损失函数为:
L=λDLGAN.D+λVLv+λTLT
步骤3、训练:将处理完的声谱图数据送入卷积神经网络,网络输入批量大小(batchsize)设置为64,随机初始化各层的连接权值W和偏执b,给定学习速率η;
步骤4、测试:将电影演员A的N岁语音数据转成声谱图,输入至训练好的模型,同时给定年龄M岁,生成电影演员A的M岁语音声谱图;最后生成的声谱图经过傅里叶逆变换,转换成音频信号,最终得到电影演员A的M岁语音。
2.如权利要求1所述的基于对抗网络的电影演员自动配音方法,其特征在于:使用傅里叶变换将语音数据转换成声谱图,作为语音识别和说话人识别的输入。
3.如权利要求1所述的基于对抗网络的电影演员自动配音方法,其特征在于:步骤2中所述的语音识别、说话人识别、文本比对、生成对抗方法如下:
(1)所述语音识别方法,使用QCNN(Quaternion Convolutional Neural Networks)端到端开源语音识别算法训练语音转文本信息语音模型;所述QCNN算法是基于深度学习的语音识别算法,利用训练的模型识别输入的语音声谱图,输出语音对应的文本信息;
(2)所述文本比对方法,即训练一个文本比对模型,用于电影演员原始语音文本和电影演员不同年龄语音生成后的文本比对;计算两者损失,使用的损失函数为:
其中:x和y分别代表原始语音产生的文本和生成的语音产生的文本,m表示文本字符的个数,i=1,2,…,m;
(3)所述说话人识别方法,首先从网络搜集K个明星不同年龄的语音数据,同一说话人的语音数据具有同一标签,此标签可标识说话人的ID,则标签可以表示为{ID0,ID1,ID2,...,IDk};再对语音数据进行预处理,将k个明星的语音数据转成声谱图;接着将数据进行归一化处理,去除数据的单位机制,将数据转为无量纲数值,提高模型收敛速度和准确度,标准化后,像素点取值区间为【0,1】;再通过CNN和DeepRNN网络实现语音信号的个性特征提取及分类;同时利用BP及BPTT算法计算梯度,最后使用softmax分类器进行分类,使输出层的节点对应于说话人,从而完成样本数据的训练;最后将M岁的电影演员A的语音数据和N岁电影演员A的语音数据输入至训练好的声纹识别网络中,计算是否为同一个人的损失;所用损失函数为:
其中,yi表示M岁的电影演员A的语音,y′i表示N岁电影演员A的语音,I表示样本数量;
(4)所述生成对抗方法,是指采用对抗学习方法由一个年龄的语音数据生成另一个年龄的语音数据的生成对抗网络模块;首先将语音进行预处理,将语音转换为声谱图,获得声谱图后进行归一化灰度处理;接着利用Gabor滤波器对声谱图特征进行再提取;Gabor滤波器核函数定义为:
上式中:u和v分别表示Gabor的方向和尺度;z=(x,y)表示像素点坐标;σ为高斯半径;ku,v控制高斯窗宽度、震波长及方向,kv为滤波采样率; σ=2π、选取5个尺度8个方向的Gabor滤波器,可以计算得40个复系数Gabor图谱,取幅值后分别与m×n的声谱灰度图S进行卷积,得到m×n的矩阵Su,v(z),其中z={1,2,…,40};分别将40个m×n的矩阵Su,v(z)化成m×n维的向量,构成特征矩阵SQ,即:
SQ=[vec(S0,0),...,vec(S4,7)]
用分块PCA对特征矩阵SQ进行降维:采用分块采样PCA降维处理,增加计算效率;先将Su,v(z)分块,对每块最大值降采样,再将矩阵化为均值为0、方差为1的正态分布矩阵,最后作为独立样本进行PCA降维处理;最后将处理后的数据输入至对抗网络中进行对抗训练,对抗网络选用卷积神经网络,包括两种不同的递归深度神经网络,即生成器(G)和判别器(D);损失函数定义为:
其中:m为训练样本的个数,z表示一个随机的噪声,G(z(i))表示第i个样本通过噪声生成的图片,x表示输入的样本数据,D(x(i))表示第i个样本为真实图片的概率。
4.如权利要求1所述的基于对抗网络的电影演员自动配音方法,其特征在于:步骤3中首先将步骤1中收集到语音数据,标注为说话明星和该明星说话时的年龄信息;接着采用傅里叶变换,将语音数据转成声谱图;将处理完的声谱图数据送入卷积神经网络,网络输入批量大小(batch size)设置为64,随机初始化各层的连接权值W和偏执b,给定学习速率η;通过训练,不断更新该参数,使LG达到最小;最后生成器G学习了所需的语音变换,D成为了一个可靠的鉴别器。
5.如权利要求1所述的基于对抗网络的电影演员自动配音方法,其特征在于:
首先将电影演员A的N岁语音数据转成声谱图;接着将声谱图输入至训练好的生成器中,同时给定年龄N岁,生成电影演员A的M岁语音声谱图;最后生成的声谱图经过傅里叶逆变换,转换成音频信号,最终得到电影演员A的M岁语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811483459.6A CN109559736B (zh) | 2018-12-05 | 2018-12-05 | 一种基于对抗网络的电影演员自动配音方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811483459.6A CN109559736B (zh) | 2018-12-05 | 2018-12-05 | 一种基于对抗网络的电影演员自动配音方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109559736A true CN109559736A (zh) | 2019-04-02 |
CN109559736B CN109559736B (zh) | 2022-03-08 |
Family
ID=65869017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811483459.6A Active CN109559736B (zh) | 2018-12-05 | 2018-12-05 | 一种基于对抗网络的电影演员自动配音方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109559736B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109903774A (zh) * | 2019-04-12 | 2019-06-18 | 南京大学 | 一种基于角度间隔损失函数的声纹识别方法 |
CN110675881A (zh) * | 2019-09-05 | 2020-01-10 | 北京捷通华声科技股份有限公司 | 一种语音校验方法和装置 |
CN111081259A (zh) * | 2019-12-18 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 基于说话人扩充的语音识别模型训练方法及系统 |
CN112289324A (zh) * | 2020-10-27 | 2021-01-29 | 湖南华威金安企业管理有限公司 | 声纹身份识别的方法、装置和电子设备 |
CN112382268A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN112382273A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN112652292A (zh) * | 2020-11-13 | 2021-04-13 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN113113023A (zh) * | 2021-04-16 | 2021-07-13 | 中国人民解放军陆军工程大学 | 面向自动声纹识别系统的黑盒定向对抗攻击方法及系统 |
WO2021159902A1 (zh) * | 2020-02-12 | 2021-08-19 | 深圳壹账通智能科技有限公司 | 年龄识别方法、装置、设备及计算机可读存储介质 |
WO2021179714A1 (zh) * | 2020-10-21 | 2021-09-16 | 平安科技(深圳)有限公司 | 人工合成语音检测方法、装置、计算机设备及存储介质 |
CN115064177A (zh) * | 2022-06-14 | 2022-09-16 | 中国第一汽车股份有限公司 | 基于声纹编码器的语音转换方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102016983A (zh) * | 2008-03-04 | 2011-04-13 | 弗劳恩霍夫应用研究促进协会 | 用于对多个输入数据流进行混合的设备 |
CN102194452A (zh) * | 2011-04-14 | 2011-09-21 | 西安烽火电子科技有限责任公司 | 复杂背景噪声中的语音激活检测方法 |
WO2015180368A1 (zh) * | 2014-05-27 | 2015-12-03 | 江苏大学 | 一种半监督语音特征可变因素分解方法 |
CN105654954A (zh) * | 2016-04-06 | 2016-06-08 | 普强信息技术(北京)有限公司 | 一种云端语音识别系统及方法 |
CN107293289A (zh) * | 2017-06-13 | 2017-10-24 | 南京医科大学 | 一种基于深度卷积生成对抗网络的语音生成方法 |
-
2018
- 2018-12-05 CN CN201811483459.6A patent/CN109559736B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102016983A (zh) * | 2008-03-04 | 2011-04-13 | 弗劳恩霍夫应用研究促进协会 | 用于对多个输入数据流进行混合的设备 |
CN102194452A (zh) * | 2011-04-14 | 2011-09-21 | 西安烽火电子科技有限责任公司 | 复杂背景噪声中的语音激活检测方法 |
WO2015180368A1 (zh) * | 2014-05-27 | 2015-12-03 | 江苏大学 | 一种半监督语音特征可变因素分解方法 |
CN105654954A (zh) * | 2016-04-06 | 2016-06-08 | 普强信息技术(北京)有限公司 | 一种云端语音识别系统及方法 |
CN107293289A (zh) * | 2017-06-13 | 2017-10-24 | 南京医科大学 | 一种基于深度卷积生成对抗网络的语音生成方法 |
Non-Patent Citations (1)
Title |
---|
KAIHANG XU: "Person Re-identification Based On Group Context Strategy", 《2015 8TH INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTATION TECHNOLOGY AND AUTOMATION》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109903774A (zh) * | 2019-04-12 | 2019-06-18 | 南京大学 | 一种基于角度间隔损失函数的声纹识别方法 |
CN110675881A (zh) * | 2019-09-05 | 2020-01-10 | 北京捷通华声科技股份有限公司 | 一种语音校验方法和装置 |
CN111081259A (zh) * | 2019-12-18 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 基于说话人扩充的语音识别模型训练方法及系统 |
CN111081259B (zh) * | 2019-12-18 | 2022-04-15 | 思必驰科技股份有限公司 | 基于说话人扩充的语音识别模型训练方法及系统 |
WO2021159902A1 (zh) * | 2020-02-12 | 2021-08-19 | 深圳壹账通智能科技有限公司 | 年龄识别方法、装置、设备及计算机可读存储介质 |
WO2021179714A1 (zh) * | 2020-10-21 | 2021-09-16 | 平安科技(深圳)有限公司 | 人工合成语音检测方法、装置、计算机设备及存储介质 |
CN112289324A (zh) * | 2020-10-27 | 2021-01-29 | 湖南华威金安企业管理有限公司 | 声纹身份识别的方法、装置和电子设备 |
CN112289324B (zh) * | 2020-10-27 | 2024-05-10 | 湖南华威金安企业管理有限公司 | 声纹身份识别的方法、装置和电子设备 |
CN112652292A (zh) * | 2020-11-13 | 2021-04-13 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN112382273A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN112382268A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN113113023A (zh) * | 2021-04-16 | 2021-07-13 | 中国人民解放军陆军工程大学 | 面向自动声纹识别系统的黑盒定向对抗攻击方法及系统 |
CN113113023B (zh) * | 2021-04-16 | 2023-09-26 | 中国人民解放军陆军工程大学 | 面向自动声纹识别系统的黑盒定向对抗攻击方法及系统 |
CN115064177A (zh) * | 2022-06-14 | 2022-09-16 | 中国第一汽车股份有限公司 | 基于声纹编码器的语音转换方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109559736B (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109559736A (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN110189769B (zh) | 基于多个卷积神经网络模型结合的异常声音检测方法 | |
CN109524014A (zh) | 一种基于深度卷积神经网络的声纹识别分析方法 | |
CN102509547B (zh) | 基于矢量量化的声纹识别方法及系统 | |
CN110610708B (zh) | 一种基于布谷鸟搜索算法的声纹识别攻击防御方法 | |
CN108305616A (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN108777140A (zh) | 一种非平行语料训练下基于vae的语音转换方法 | |
CN109493874A (zh) | 一种基于卷积神经网络的生猪咳嗽声音识别方法 | |
CN110534132A (zh) | 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法 | |
CN112581979B (zh) | 一种基于语谱图的语音情绪识别方法 | |
CN110111797A (zh) | 基于高斯超矢量和深度神经网络的说话人识别方法 | |
CN107039036B (zh) | 一种基于自动编码深度置信网络的高质量说话人识别方法 | |
CN108876951A (zh) | 一种基于声音识别的教学考勤方法 | |
CN108806694A (zh) | 一种基于声音识别的教学考勤方法 | |
CN108597542A (zh) | 一种基于深度音频特征的构音障碍严重程度估计方法 | |
CN115424620A (zh) | 一种基于自适应触发器的声纹识别后门样本生成方法 | |
CN110136746B (zh) | 一种基于融合特征的加性噪声环境下手机来源识别方法 | |
Zheng et al. | MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios | |
CN114428234A (zh) | 基于gan和自注意力的雷达高分辨距离像降噪识别方法 | |
CN109545198A (zh) | 一种基于卷积神经网络的英语口语母语度判断方法 | |
Li et al. | Research on environmental sound classification algorithm based on multi-feature fusion | |
CN115565540A (zh) | 一种侵入式脑机接口汉语发音解码方法 | |
CN113516987B (zh) | 一种说话人识别方法、装置、存储介质及设备 | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 | |
CN108629024A (zh) | 一种基于声音识别的教学考勤方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |