CN113628635A - 一种基于教师学生网络的语音驱动说话人脸视频生成方法 - Google Patents
一种基于教师学生网络的语音驱动说话人脸视频生成方法 Download PDFInfo
- Publication number
- CN113628635A CN113628635A CN202110811278.7A CN202110811278A CN113628635A CN 113628635 A CN113628635 A CN 113628635A CN 202110811278 A CN202110811278 A CN 202110811278A CN 113628635 A CN113628635 A CN 113628635A
- Authority
- CN
- China
- Prior art keywords
- network
- face
- training
- teacher
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 6
- 238000009795 derivation Methods 0.000 claims description 6
- 238000004880 explosion Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 239000004576 sand Substances 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000001815 facial effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/18—Details of the transformation process
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明涉及一种基于教师学生网络的语音驱动说话人脸视频生成方法。首先利用教师网络压缩出视频数据中的动态信息,接着利用学生网络学习语音到动态信息的预测,然后使用预训练好的教师网络提取的人脸动态信息作为监督,结合人脸身份信息实现语音驱动人脸的说话任务。相比于传统的任意说话人脸视频生成技术,本发明首次挖掘视频信号中的动态信息,在人脸生成、图片清晰度和生成说话人脸的视频唇形的准确度上有较大的提升。
Description
技术领域
本发明涉及多媒体领域和人工智能领域,特别是涉及一种基于教师学生网络的语音驱动说话人脸视频生成方法。
背景技术
任意说话人脸视频生成技术是指输入任意一个人的一张正脸照片和其一段说话语音,然后生成该人正脸说话的视频,且生成的视频有准确的唇动和表情变化。由单张人脸图片和说话语音生成自然流畅的说话人脸视频十分具有挑战性,其需要生成保留身份特征的多帧人脸,而且要求人脸变化尤其是唇形变化在时域上要与输入的语音一致。说话人脸视频生成技术在虚拟主播、智能家居、游戏电影人物制作等领域具有十分广阔的应用前景和潜力。
说话人脸生成任务最早可以追溯到上个世纪九十年代,当时是使用稀疏网格建模人脸,然后使用语音信号驱动人脸网格运动。20世纪初,麻省理工的EZZAT提出“make ittalk”的方案,通过收集单人一定数量的说话人脸视频形成单人视频库,然后将文本信号转换成音素信号,再将音素信号在单人视频库中搜索最合适的视素,最后使用光流计算这些视素的中间帧来生成视频。近年来,随着计算机计算能力的增长、大规模数据集的构建以及深度学习的兴起,2016年VGG组的Joon Son Chung在其论文《you said that?》中首次实现了使用编解码学习结构在大规模数据集LRW上训练,只使用单张人脸照片和说话音频就可以生成单张人脸说话视频。随后的技术都是使用视频帧作为真值来对网络进行自监督学习,但是这些方法都没有充分挖掘视频信息的动态信息。
发明内容
本发明针对现有技术的不足,在深度学习自编码器生成模型的基础上,融入生成对抗网络和知识蒸馏在图像生成方面的优良特性,提出了一种基于教师学生网络的语音驱动说话人脸视频生成方法。首先利用教师网络压缩出视频数据中的动态信息,接着利用学生网络学习语音到动态信息的预测,然后使用预训练好的教师网络提取的人脸动态信息作为监督,结合人脸身份信息实现语音驱动人脸的说话任务。
为了达到上述目的,本发明提供的技术方案是一种基于教师学生网络的语音驱动说话人脸视频生成方法,包括以下步骤:
步骤1,获取大量的说话人脸视频数据集;
步骤2,使用ffmpeg工具从步骤1获取的数据集中提取视频帧和语音数据;
步骤3,使用dlib库提供的人脸检测工具提取步骤2视频帧中的人脸照片,并将其转换成正脸照片,然后剪裁成N×N尺寸的正脸照片I1,使用语音处理工具库python_speech_features提取步骤2语音信号的MFCC特征;
步骤4,使用face_alignment提供的人脸对齐工具,检测步骤3剪裁好的正脸照片I1中的人脸特征点;
步骤5,构建并训练教师网络;
步骤6,构建并训练学生网络;
步骤7,级联学生网络训练;
步骤8,将步骤3提取的MFCC特征序列和任意人脸照片I输入到步骤7训练好的级联学生网络中,即可得到对应的图片序列,然后使用ffmpeg将图片序列合成视频。
而且,所述步骤5中构建并训练教师网络包括以下几个步骤:
步骤5.1,整个网络采取自监督学习的方式,分别对步骤4检测出的人脸特征点l1、l2和剪裁好的正脸照片I1使用三个编码器f1、f2、f3进行编码,生成隐变量z1、z2、z3;
步骤5.2,令z4=concat((z2-z1),z3),用解码器fD对z4进行解码,得到表现剪裁好的正脸照片I1变化的区域范围m和变化区域内像素值的变化信息c,动态特征m和c的计算方式如下:
(m,c)=fD(z4) (1)
步骤5.3,利用步骤5.2计算得到的参数m和c,结合剪裁好的正脸照片I1,得到合成照片I1′:
I1′=m×c+(1-m)×I1 (2)
步骤5.4,使用W-GAN-gp算法的网络架构对教师网络进行训练。
而且,所述步骤5.4中使用W-GAN-gp算法的网络架构对教师网络进行训练包括生成器训练阶段和判别器训练阶段:
步骤5.4.1,生成器训练阶段,给定预处理好的人脸特征点l1、l2和剪裁好的正脸照片I1,使用步骤5.1-5.3的计算流程,网络通过预测的运动信息m和c生成图片I1′,并计算生成器的损失函数lloss:
lloss=lrec+lreg+lgen (3)
lrec=||I1-I1′||1 (4)
lreg=||m||1 (5)
lgen=-DI([I1′,m]) (6)
式中,lrec为重建损失,lreg为稀疏正则化损失,lgen为对抗损失,DI(·)表示判别器,||||1表示L1范数。
生成阶段和判别阶段交替训练直到算法收敛,教师网络训练结束。
而且,所述步骤6中构建并训练学生网络包括以下几个步骤:
步骤6.1,使用步骤3提取到的语音信号的MFCC特征,以视频帧的时间点为中心,加上一个10ms的时间窗提取MFCC信号;
步骤6.2,使用步骤5训练好的教师网络,输入人脸特征点l1、l2和剪裁好的正脸照片I1,得到变化区域m和变化区域内像素值的变化信息c;
步骤6.3,输入步骤6.1切割好的语音信号10ms的MFCC特征amfcc和一张剪裁好的正脸照片I1,分别使用语音编码器f4和身份信息编码器f5进行编码,生成隐变量z5和z6,然后令z7=concat(z5,z6);
步骤6.5,利用步骤6.4计算得到的参数ms和cs,结合剪裁好的正脸照片I1,得到合成照片I′1s:
I1s′=ms×cs+(1-ms)×I1 (9)
步骤6.6,使用W-GAN-gp算法的网络架构对学生网络进行训练。
而且,所述步骤6.6中使用W-GAN-gp算法的网络架构对学生网络进行训练包括生成器训练阶段和判别器训练阶段:
步骤6.6.1,生成器训练阶段,给定MFCC特征amfcc和剪裁好的正脸照片I1,使用步骤6.2-6.5的计算流程,学生网络通过预测的运动信息ms和cs生成图片I′1s,并计算生成器的损失函数l′loss:
l′loss=l′rec+l′reg+l′gen+lmot (10)
l′rec=||I1-I1′s||1 (11)
l′reg=||m||1 (12)
l′gen=-DI([I1s′,m]) (13)
lmot=||ms-m||1+||cs-c||1 (14)
式中,l′rec为重建损失,l′reg为稀疏正则化损失,l′gen为对抗损失,lmot为监督运动信息损失,DI(·)表示判别器,||||1表示L1范数。
生成阶段和判别阶段交替训练直到算法收敛,学生网络训练结束。
而且,所述步骤7中级联学生网络训练包括以下几个步骤:
步骤7.1,将步骤3提取的MFCC特征序列{a1,a2,...an}依次通过步骤6.3中的语音编码器f4得到语音隐变量序列{a′1,a′2,...a′n};
步骤7.2,输入人脸身份照片I1,通过步骤6.3中的身份编码器f5得到身份隐变量z,通过广播机制将隐变量z与语音隐变量序列{a′1,a′2,...a′n}拼接得到隐变量序列{b1,b2,...bn};
步骤7.3,为了建模时序序列的时序性,将隐变量序列{b1,b2,...bn}输入LSTM网络得到包含时序信息的隐变量序列{b′1,b′2,...b′n},然后再将隐变量序列{b′1,b′2,...b′n}中的每一个隐变量分别按照步骤6.4-6.6进行训练,生成图片序列{I1a,I2a,...Ina}。
与现有技术相比,本发明具有如下优点:相比于传统的任意说话人脸视频生成技术,本发明首次挖掘视频信号中的动态信息,在人脸生成、图片清晰度和生成说话人脸的视频唇形的准确度上有较大的提升。
附图说明
图1为本发明实施例的网络结构图。
图2为本实施例基于对抗网络的教师网络模型框图。
图3为本实施例基于对抗网络的学生网络模型框图。
图4为本实施例基于对抗网络的级联学生网络模型框图。
具体实施方式
本发明提供一种基于教师学生网络的语音驱动说话人脸视频生成方法,首先利用教师网络压缩出视频数据中的动态信息,接着利用学生网络学习语音到动态信息的预测,然后使用预训练好的教师网络提取的人脸动态信息作为监督,结合人脸身份信息实现语音驱动人脸的说话任务。
下面结合附图和实施例对本发明的技术方案作进一步说明。
如图1所示,本发明实施例的流程包括以下步骤:
步骤1,获取大量的说话人脸视频数据集。
步骤2,使用ffmpeg工具从步骤1获取的数据集中提取视频帧和语音数据。
步骤3,使用dlib库提供的人脸检测工具提取步骤2视频帧中的人脸照片,并将其转换成正脸照片,然后剪裁成N×N尺寸(N可以取64、128、256等值)的正脸照片I1,使用语音处理工具库python_speech_features提取步骤2语音信号的MFCC特征。
步骤4,使用face_alignment提供的人脸对齐工具,检测步骤3剪裁好的正脸照片I1中的人脸特征点。
步骤5,构建并训练教师网络。
步骤5.1,整个网络采取自监督学习的方式,首先分别对步骤4检测出的人脸特征点l1、l2和剪裁好的正脸照片I1使用三个编码器f1、f2、f3进行编码,生成隐变量z1、z2、z3。
步骤5.2,令z4=concat((z2-z1),z3),用解码器fD对z4进行解码,得到表现剪裁好的正脸照片I1变化区域m和变化区域内像素值的变化信息c。
动态特征m和c的计算方式如下:
(m,c)=fD(z4) (1)
步骤5.3,利用步骤5.2计算得到的参数m和c,结合剪裁好的正脸照片I1,得到合成照片I1′。
合成照片I1′的计算方式如下:
I1′=m×c+(1-m)×I1 (2)
步骤5.4,使用W-GAN-gp算法的网络架构对教师网络进行训练。
步骤5.4.1,生成器训练阶段,给定预处理好的人脸特征点l1、l2和剪裁好的正脸照片I1,使用步骤5.1-5.3的计算流程,网络通过预测的运动信息m和c生成图片I1′,生成器的损失函数lloss包含重建损失lrec、稀疏正则化损失lreg和对抗损失lgen三个损失函数,计算方式如下:
lloss=lrec+lreg+lgen (3)
lrec=||I1-I1′||1 (4)
lreg=||m||1 (5)
lgen=-DI([I1′,m]) (6)
式中,DI(·)表示判别器,||||1表示L1范数。
生成阶段和判别阶段交替训练直到算法收敛,教师网络训练结束。
步骤6,构建并训练学生网络。
步骤6.1,使用步骤3提取到的语音信号的MFCC特征,以视频帧的时间点为中心,加上一个10ms的时间窗提取MFCC信号。
步骤6.2,使用步骤5预训练好的教师网络,输入人脸特征点l1、l2和剪裁好的正脸照片I1,得到变化区域m和变化区域内像素值的变化信息c。
步骤6.3,输入步骤6.1切割好的语音信号10ms的MFCC特征amfcc和一张剪裁好的正脸照片I1,分别使用语音编码器f4和身份信息编码器f5进行编码,生成隐变量z5和z6,然后令z7=concat(z5,z6)。
步骤6.5,利用步骤6.4计算得到的参数ms和cs,结合剪裁好的正脸照片I1,得到合成照片I′1s。
合成照片I′1s的计算方式如下:
I1s′=ms×cs+(1-ms)×I1 (9)
步骤6.6,使用W-GAN-gp算法的网络架构对学生网络进行训练。
步骤6.6.1,生成器训练阶段,给定MFCC特征amfcc和剪裁好的正脸照片I1,使用步骤6.2-6.5的计算流程,学生网络通过预测的运动信息ms和cs生成图片I′1s,生成器的损失函数l′loss包含重建损失lrec、稀疏正则化损失lreg、对抗损失lgen和监督运动信息损失lmot四个损失函数,计算方式如下:
l′loss=l′rec+l′reg+l′gen+lmot (10)
l′rec=||I1-I1s′||1 (11)
l′reg=||m||1 (12)
l′gen=-DI([I1s′,m]) (13)
lmot=||ms-m||1+||cs-c||1 (14)
式中,DI(·)表示判别器,||||1表示L1范数。
生成阶段和判别阶段交替训练直到算法收敛,学生网络训练结束。
步骤7,级联学生网络训练。
步骤7.1,将步骤3提取的MFCC特征序列{a1,a2,...an}依次通过步骤6.3中的语音编码器f4得到语音隐变量序列{a′1,a′2,...a′n};
步骤7.2,输入人脸身份照片I1,通过步骤6.3中的身份编码器f5得到身份隐变量z,通过广播机制将其与语音隐变量序列{a′1,a′2,...a′n}拼接得到隐变量序列{b1,b2,...bn};
步骤7.3,为了建模时序序列的时序性,将隐变量序列{b1,b2,...bn}输入LSTM网络得到包含时序信息的隐变量序列{b′1,b′2,...b′n},将隐变量序列{b′1,b′2,...b′n}中的每一个隐变量分别按照步骤6.4-6.6进行训练,生成图片序列{I1a,I2a,...Ina}。
步骤8,将步骤3提取的MFCC特征序列{a1,a2......an}和任意人脸照片I输入到步骤7训练好的级联学生网络中,即可得到对应的图片序列{I1a,I2a,...Ina},然后使用ffmpeg将图片序列合成视频。
具体实施时,以上流程可采用计算机软件技术实现自动运行流程。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (8)
1.一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于,包括如下步骤:
步骤1,获取大量的说话人脸视频数据集;
步骤2,从步骤1获取的数据集中提取视频帧和语音数据;
步骤3,提取步骤2视频帧中的人脸照片,并将其转换成正脸照片,然后剪裁成N×N尺寸的正脸照片I1,提取步骤2语音信号的MFCC特征;
步骤4,检测步骤3剪裁好的正脸照片I1中的人脸特征点;
步骤5,构建并训练教师网络;
步骤6,构建并训练学生网络;
步骤7,级联学生网络训练;
步骤8,将步骤3提取的MFCC特征序列和任意人脸照片I输入到步骤7训练好的级联学生网络中,即可得到对应的图片序列,然后使用ffmpeg将图片序列合成视频。
2.如权利要求1所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于:所述步骤5中构建并训练教师网络包括以下几个步骤:
步骤5.1,整个网络采取自监督学习的方式,分别对步骤4检测出的人脸特征点l1、l2和剪裁好的正脸照片I1使用三个编码器f1、f2、f3进行编码,生成隐变量z1、z2、z3;
步骤5.2,令z4=concat((z2-z1),z3),用解码器fD对z4进行解码,得到表现剪裁好的正脸照片I1变化的区域范围m和变化区域内像素值的变化信息c,动态特征m和c的计算方式如下:
(m,c)=fD(z4) (1)
步骤5.3,利用步骤5.2计算得到的参数m和c,结合剪裁好的正脸照片I1,得到合成照片I1′:
I1′=m×c+(1-m)×I1 (2)
步骤5.4,使用W-GAN-gp算法的网络架构对教师网络进行训练。
3.如权利要求2所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于:所述步骤5.4中使用W-GAN-gp算法的网络架构对教师网络进行训练包括生成器训练阶段和判别器训练阶段,生成阶段和判别阶段交替训练直到算法收敛,教师网络训练结束,其中生成器训练阶段,给定预处理好的人脸特征点l1、l2和剪裁好的正脸照片I1,使用步骤5.1-5.3的计算流程,网络通过预测的运动信息m和c生成图片I1′,并计算生成器的损失函数lloss:
lloss=lrec+lreg+lgen (3)
lrec=||I1-I1′||1 (4)
lreg=||m||1 (5)
lgen=-DI([I1′,m]) (6)
式中,lrec为重建损失,lreg为稀疏正则化损失,lgen为对抗损失,DI(·)表示判别器,|| ||1表示L1范数。
5.如权利要求1所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于:所述步骤6中构建并训练学生网络包括以下几个步骤:
步骤6.1,使用步骤3提取到的语音信号的MFCC特征,以视频帧的时间点为中心,加上一个10ms的时间窗提取MFCC信号;
步骤6.2,使用步骤5训练好的教师网络,输入人脸特征点l1、l2和剪裁好的正脸照片I1,得到变化区域m和变化区域内像素值的变化信息c;
步骤6.3,输入步骤6.1切割好的语音信号10ms的MFCC特征amfcc和一张剪裁好的正脸照片I1,分别使用语音编码器f4和身份信息编码器f5进行编码,生成隐变量z5和z6,然后令z7=concat(z5,z6);
步骤6.5,利用步骤6.4计算得到的参数ms和cs,结合剪裁好的正脸照片I1,得到合成照片I1′s:
I1s′=ms×cs+(1-ms)×I1 (9)
步骤6.6,使用W-GAN-gp算法的网络架构对学生网络进行训练。
6.如权利要求5所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于:所述步骤6.6中使用W-GAN-gp算法的网络架构对学生网络进行训练包括生成器训练阶段和判别器训练阶段,生成阶段和判别阶段交替训练直到算法收敛,学生网络训练结束,其中生成器训练阶段,给定MFCC特征amfcc和剪裁好的正脸照片I1,使用步骤6.2-6.5的计算流程,学生网络通过预测的运动信息ms和cs生成图片I′1s,并计算生成器的损失函数l′loss:
l′loss=l′rec+l′reg+l′gen+lmot (10)
l′rec=||I1-I1s′|| (11)
l′reg=||m||1 (12)
l′gen=-DI([I1s′,m]) (13)
lmot=||ms-m||1+||cs-c||1 (14)
式中,l′rec为重建损失,l′reg为稀疏正则化损失,l′gen为对抗损失,lmot为监督运动信息损失,DI(·)表示判别器,|| ||1表示L1范数。
8.如权利要求1所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于:所述步骤7中级联学生网络训练包括以下几个步骤:
步骤7.1,将步骤3提取的MFCC特征序列{a1,a2,...an}依次通过步骤6.3中的语音编码器f4得到语音隐变量序列{a′1,a′2,...a′n};
步骤7.2,输入人脸身份照片I1,通过步骤6.3中的身份编码器f5得到身份隐变量z,通过广播机制将隐变量z与语音隐变量序列{a′1,a′2,...a′n}拼接得到隐变量序列{b1,b2,...bn};
步骤7.3,为了建模时序序列的时序性,将隐变量序列{b1,b2,...bn}输入LSTM网络得到包含时序信息的隐变量序列{b′1,b′2,...b′n},然后再将隐变量序列{b′1,b′2,...b′n}中的每一个隐变量分别按照步骤6.4-6.6进行训练,生成图片序列{I1a,I2a,...Ina}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110811278.7A CN113628635B (zh) | 2021-07-19 | 2021-07-19 | 一种基于教师学生网络的语音驱动说话人脸视频生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110811278.7A CN113628635B (zh) | 2021-07-19 | 2021-07-19 | 一种基于教师学生网络的语音驱动说话人脸视频生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113628635A true CN113628635A (zh) | 2021-11-09 |
CN113628635B CN113628635B (zh) | 2023-09-15 |
Family
ID=78380055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110811278.7A Active CN113628635B (zh) | 2021-07-19 | 2021-07-19 | 一种基于教师学生网络的语音驱动说话人脸视频生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113628635B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704084A (zh) * | 2023-08-01 | 2023-09-05 | 苏州浪潮智能科技有限公司 | 人脸动画生成网络的训练方法、人脸动画生成方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308731A (zh) * | 2018-08-24 | 2019-02-05 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
CN111243626A (zh) * | 2019-12-30 | 2020-06-05 | 清华大学 | 一种说话视频生成方法及系统 |
CN111783566A (zh) * | 2020-06-15 | 2020-10-16 | 神思电子技术股份有限公司 | 一种基于唇语同步和神态适配效果增强的视频合成方法 |
CN112115783A (zh) * | 2020-08-12 | 2020-12-22 | 中国科学院大学 | 基于深度知识迁移的人脸特征点检测方法、装置及设备 |
WO2021023869A1 (en) * | 2019-08-08 | 2021-02-11 | Universite De Lorraine | Audio-driven speech animation using recurrent neutral network |
CN112381040A (zh) * | 2020-11-27 | 2021-02-19 | 天津大学 | 一种基于语音和人脸图像的跨膜态生成方法 |
CN112562722A (zh) * | 2020-12-01 | 2021-03-26 | 新华智云科技有限公司 | 基于语义的音频驱动数字人生成方法及系统 |
CN112562720A (zh) * | 2020-11-30 | 2021-03-26 | 清华珠三角研究院 | 一种唇形同步的视频生成方法、装置、设备及存储介质 |
CN112927712A (zh) * | 2021-01-25 | 2021-06-08 | 网易(杭州)网络有限公司 | 视频生成方法、装置和电子设备 |
CN113012712A (zh) * | 2021-03-03 | 2021-06-22 | 华北理工大学 | 一种基于生成对抗网络的人脸视频合成方法及装置 |
-
2021
- 2021-07-19 CN CN202110811278.7A patent/CN113628635B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308731A (zh) * | 2018-08-24 | 2019-02-05 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
WO2021023869A1 (en) * | 2019-08-08 | 2021-02-11 | Universite De Lorraine | Audio-driven speech animation using recurrent neutral network |
CN111243626A (zh) * | 2019-12-30 | 2020-06-05 | 清华大学 | 一种说话视频生成方法及系统 |
CN111783566A (zh) * | 2020-06-15 | 2020-10-16 | 神思电子技术股份有限公司 | 一种基于唇语同步和神态适配效果增强的视频合成方法 |
CN112115783A (zh) * | 2020-08-12 | 2020-12-22 | 中国科学院大学 | 基于深度知识迁移的人脸特征点检测方法、装置及设备 |
CN112381040A (zh) * | 2020-11-27 | 2021-02-19 | 天津大学 | 一种基于语音和人脸图像的跨膜态生成方法 |
CN112562720A (zh) * | 2020-11-30 | 2021-03-26 | 清华珠三角研究院 | 一种唇形同步的视频生成方法、装置、设备及存储介质 |
CN112562722A (zh) * | 2020-12-01 | 2021-03-26 | 新华智云科技有限公司 | 基于语义的音频驱动数字人生成方法及系统 |
CN112927712A (zh) * | 2021-01-25 | 2021-06-08 | 网易(杭州)网络有限公司 | 视频生成方法、装置和电子设备 |
CN113012712A (zh) * | 2021-03-03 | 2021-06-22 | 华北理工大学 | 一种基于生成对抗网络的人脸视频合成方法及装置 |
Non-Patent Citations (1)
Title |
---|
SHIJING SI ETC: ""Speech2Video: Cross-Modal Distillation for Speech to Video Generation"", 《INTER SPEECH 2021》, pages 1 - 5 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704084A (zh) * | 2023-08-01 | 2023-09-05 | 苏州浪潮智能科技有限公司 | 人脸动画生成网络的训练方法、人脸动画生成方法及装置 |
CN116704084B (zh) * | 2023-08-01 | 2023-11-03 | 苏州浪潮智能科技有限公司 | 人脸动画生成网络的训练方法、人脸动画生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113628635B (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325817B (zh) | 一种虚拟人物场景视频的生成方法、终端设备及介质 | |
CN112562722A (zh) | 基于语义的音频驱动数字人生成方法及系统 | |
CN113378697A (zh) | 一种基于卷积神经网络的说话人脸视频生成方法及装置 | |
CN112001992A (zh) | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 | |
CN112151030A (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
CN115588224A (zh) | 一种人脸关键点的预测方法、虚拟数字人生成方法及装置 | |
CN116051692B (zh) | 一种基于语音驱动的三维数字人脸部动画生成方法 | |
CN113470170A (zh) | 一种利用语音信息的实时视频人脸区域时空一致合成方法 | |
Liu et al. | Synthesizing talking faces from text and audio: an autoencoder and sequence-to-sequence convolutional neural network | |
CN115100329A (zh) | 基于多模态驱动的情感可控面部动画生成方法 | |
Lu et al. | Double-dcccae: Estimation of body gestures from speech waveform | |
CN113628635A (zh) | 一种基于教师学生网络的语音驱动说话人脸视频生成方法 | |
CN117671764A (zh) | 基于Transformer的动态说话人脸图像生成系统及方法 | |
CN116828129B (zh) | 一种超清2d数字人生成方法及系统 | |
CN117409121A (zh) | 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质 | |
Wang et al. | Speech Driven Talking Head Generation via Attentional Landmarks Based Representation. | |
CN113033283A (zh) | 一种改进的视频分类系统 | |
Kikuchi et al. | Watch, listen once, and sync: Audio-visual synchronization with multi-modal regression CNN | |
CN113450824B (zh) | 一种基于多尺度视频特征融合的语音唇读方法及系统 | |
WO2024124680A1 (zh) | 一种语音信号驱动的个性化三维人脸动画生成方法及其应用 | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 | |
CN114882590B (zh) | 一种基于事件相机的多粒度时空特征感知的唇读方法 | |
CN117315765A (zh) | 一种增强时空特征的动作识别方法 | |
Li et al. | A novel speech-driven lip-sync model with CNN and LSTM | |
Wang et al. | Robust Wake Word Spotting With Frame-Level Cross-Modal Attention Based Audio-Visual Conformer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |