CN113628635A - 一种基于教师学生网络的语音驱动说话人脸视频生成方法 - Google Patents

一种基于教师学生网络的语音驱动说话人脸视频生成方法 Download PDF

Info

Publication number
CN113628635A
CN113628635A CN202110811278.7A CN202110811278A CN113628635A CN 113628635 A CN113628635 A CN 113628635A CN 202110811278 A CN202110811278 A CN 202110811278A CN 113628635 A CN113628635 A CN 113628635A
Authority
CN
China
Prior art keywords
network
face
training
teacher
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110811278.7A
Other languages
English (en)
Other versions
CN113628635B (zh
Inventor
熊盛武
陈燚雷
曾瑞
林承德
马宜祯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202110811278.7A priority Critical patent/CN113628635B/zh
Publication of CN113628635A publication Critical patent/CN113628635A/zh
Application granted granted Critical
Publication of CN113628635B publication Critical patent/CN113628635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/18Details of the transformation process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明涉及一种基于教师学生网络的语音驱动说话人脸视频生成方法。首先利用教师网络压缩出视频数据中的动态信息,接着利用学生网络学习语音到动态信息的预测,然后使用预训练好的教师网络提取的人脸动态信息作为监督,结合人脸身份信息实现语音驱动人脸的说话任务。相比于传统的任意说话人脸视频生成技术,本发明首次挖掘视频信号中的动态信息,在人脸生成、图片清晰度和生成说话人脸的视频唇形的准确度上有较大的提升。

Description

一种基于教师学生网络的语音驱动说话人脸视频生成方法
技术领域
本发明涉及多媒体领域和人工智能领域,特别是涉及一种基于教师学生网络的语音驱动说话人脸视频生成方法。
背景技术
任意说话人脸视频生成技术是指输入任意一个人的一张正脸照片和其一段说话语音,然后生成该人正脸说话的视频,且生成的视频有准确的唇动和表情变化。由单张人脸图片和说话语音生成自然流畅的说话人脸视频十分具有挑战性,其需要生成保留身份特征的多帧人脸,而且要求人脸变化尤其是唇形变化在时域上要与输入的语音一致。说话人脸视频生成技术在虚拟主播、智能家居、游戏电影人物制作等领域具有十分广阔的应用前景和潜力。
说话人脸生成任务最早可以追溯到上个世纪九十年代,当时是使用稀疏网格建模人脸,然后使用语音信号驱动人脸网格运动。20世纪初,麻省理工的EZZAT提出“make ittalk”的方案,通过收集单人一定数量的说话人脸视频形成单人视频库,然后将文本信号转换成音素信号,再将音素信号在单人视频库中搜索最合适的视素,最后使用光流计算这些视素的中间帧来生成视频。近年来,随着计算机计算能力的增长、大规模数据集的构建以及深度学习的兴起,2016年VGG组的Joon Son Chung在其论文《you said that?》中首次实现了使用编解码学习结构在大规模数据集LRW上训练,只使用单张人脸照片和说话音频就可以生成单张人脸说话视频。随后的技术都是使用视频帧作为真值来对网络进行自监督学习,但是这些方法都没有充分挖掘视频信息的动态信息。
发明内容
本发明针对现有技术的不足,在深度学习自编码器生成模型的基础上,融入生成对抗网络和知识蒸馏在图像生成方面的优良特性,提出了一种基于教师学生网络的语音驱动说话人脸视频生成方法。首先利用教师网络压缩出视频数据中的动态信息,接着利用学生网络学习语音到动态信息的预测,然后使用预训练好的教师网络提取的人脸动态信息作为监督,结合人脸身份信息实现语音驱动人脸的说话任务。
为了达到上述目的,本发明提供的技术方案是一种基于教师学生网络的语音驱动说话人脸视频生成方法,包括以下步骤:
步骤1,获取大量的说话人脸视频数据集;
步骤2,使用ffmpeg工具从步骤1获取的数据集中提取视频帧和语音数据;
步骤3,使用dlib库提供的人脸检测工具提取步骤2视频帧中的人脸照片,并将其转换成正脸照片,然后剪裁成N×N尺寸的正脸照片I1,使用语音处理工具库python_speech_features提取步骤2语音信号的MFCC特征;
步骤4,使用face_alignment提供的人脸对齐工具,检测步骤3剪裁好的正脸照片I1中的人脸特征点;
步骤5,构建并训练教师网络;
步骤6,构建并训练学生网络;
步骤7,级联学生网络训练;
步骤8,将步骤3提取的MFCC特征序列和任意人脸照片I输入到步骤7训练好的级联学生网络中,即可得到对应的图片序列,然后使用ffmpeg将图片序列合成视频。
而且,所述步骤5中构建并训练教师网络包括以下几个步骤:
步骤5.1,整个网络采取自监督学习的方式,分别对步骤4检测出的人脸特征点l1、l2和剪裁好的正脸照片I1使用三个编码器f1、f2、f3进行编码,生成隐变量z1、z2、z3
步骤5.2,令z4=concat((z2-z1),z3),用解码器fD对z4进行解码,得到表现剪裁好的正脸照片I1变化的区域范围m和变化区域内像素值的变化信息c,动态特征m和c的计算方式如下:
(m,c)=fD(z4) (1)
步骤5.3,利用步骤5.2计算得到的参数m和c,结合剪裁好的正脸照片I1,得到合成照片I1′:
I1′=m×c+(1-m)×I1 (2)
步骤5.4,使用W-GAN-gp算法的网络架构对教师网络进行训练。
而且,所述步骤5.4中使用W-GAN-gp算法的网络架构对教师网络进行训练包括生成器训练阶段和判别器训练阶段:
步骤5.4.1,生成器训练阶段,给定预处理好的人脸特征点l1、l2和剪裁好的正脸照片I1,使用步骤5.1-5.3的计算流程,网络通过预测的运动信息m和c生成图片I1′,并计算生成器的损失函数lloss
lloss=lrec+lreg+lgen (3)
lrec=||I1-I1′||1 (4)
lreg=||m||1 (5)
lgen=-DI([I1′,m]) (6)
式中,lrec为重建损失,lreg为稀疏正则化损失,lgen为对抗损失,DI(·)表示判别器,||||1表示L1范数。
步骤5.4.2,判别器训练阶段,使用W-GAN-gp的判别器部分,判别器损失函数
Figure BDA0003168302610000031
计算方式为:
Figure BDA0003168302610000032
Figure BDA0003168302610000034
式中,
Figure BDA0003168302610000033
表示求导,DI(·)表示判别器,||||表示L2范数,λ=10,lgp表示Lipschitz惩罚系数,为了解决梯度爆炸。
生成阶段和判别阶段交替训练直到算法收敛,教师网络训练结束。
而且,所述步骤6中构建并训练学生网络包括以下几个步骤:
步骤6.1,使用步骤3提取到的语音信号的MFCC特征,以视频帧的时间点为中心,加上一个10ms的时间窗提取MFCC信号;
步骤6.2,使用步骤5训练好的教师网络,输入人脸特征点l1、l2和剪裁好的正脸照片I1,得到变化区域m和变化区域内像素值的变化信息c;
步骤6.3,输入步骤6.1切割好的语音信号10ms的MFCC特征amfcc和一张剪裁好的正脸照片I1,分别使用语音编码器f4和身份信息编码器f5进行编码,生成隐变量z5和z6,然后令z7=concat(z5,z6);
步骤6.4,使用解码器
Figure BDA0003168302610000043
预测运动信息(ms,cs),
Figure BDA0003168302610000044
步骤6.5,利用步骤6.4计算得到的参数ms和cs,结合剪裁好的正脸照片I1,得到合成照片I′1s
I1s′=ms×cs+(1-ms)×I1 (9)
步骤6.6,使用W-GAN-gp算法的网络架构对学生网络进行训练。
而且,所述步骤6.6中使用W-GAN-gp算法的网络架构对学生网络进行训练包括生成器训练阶段和判别器训练阶段:
步骤6.6.1,生成器训练阶段,给定MFCC特征amfcc和剪裁好的正脸照片I1,使用步骤6.2-6.5的计算流程,学生网络通过预测的运动信息ms和cs生成图片I′1s,并计算生成器的损失函数l′loss
l′loss=l′rec+l′reg+l′gen+lmot (10)
l′rec=||I1-I1s||1 (11)
l′reg=||m||1 (12)
l′gen=-DI([I1s′,m]) (13)
lmot=||ms-m||1+||cs-c||1 (14)
式中,l′rec为重建损失,l′reg为稀疏正则化损失,l′gen为对抗损失,lmot为监督运动信息损失,DI(·)表示判别器,||||1表示L1范数。
步骤6.6.2,判别器训练阶段,使用W-GAN-gp的判别器部分,判别器损失函数
Figure BDA0003168302610000041
为:
Figure BDA0003168302610000042
Figure BDA0003168302610000051
式中,
Figure BDA0003168302610000052
表示求导,DI(·)表示判别器,||||表示L2范数,λ=10,l′gp表示Lipschitz惩罚系数,为了解决梯度爆炸。
生成阶段和判别阶段交替训练直到算法收敛,学生网络训练结束。
而且,所述步骤7中级联学生网络训练包括以下几个步骤:
步骤7.1,将步骤3提取的MFCC特征序列{a1,a2,...an}依次通过步骤6.3中的语音编码器f4得到语音隐变量序列{a′1,a′2,...a′n};
步骤7.2,输入人脸身份照片I1,通过步骤6.3中的身份编码器f5得到身份隐变量z,通过广播机制将隐变量z与语音隐变量序列{a′1,a′2,...a′n}拼接得到隐变量序列{b1,b2,...bn};
步骤7.3,为了建模时序序列的时序性,将隐变量序列{b1,b2,...bn}输入LSTM网络得到包含时序信息的隐变量序列{b′1,b′2,...b′n},然后再将隐变量序列{b′1,b′2,...b′n}中的每一个隐变量分别按照步骤6.4-6.6进行训练,生成图片序列{I1a,I2a,...Ina}。
与现有技术相比,本发明具有如下优点:相比于传统的任意说话人脸视频生成技术,本发明首次挖掘视频信号中的动态信息,在人脸生成、图片清晰度和生成说话人脸的视频唇形的准确度上有较大的提升。
附图说明
图1为本发明实施例的网络结构图。
图2为本实施例基于对抗网络的教师网络模型框图。
图3为本实施例基于对抗网络的学生网络模型框图。
图4为本实施例基于对抗网络的级联学生网络模型框图。
具体实施方式
本发明提供一种基于教师学生网络的语音驱动说话人脸视频生成方法,首先利用教师网络压缩出视频数据中的动态信息,接着利用学生网络学习语音到动态信息的预测,然后使用预训练好的教师网络提取的人脸动态信息作为监督,结合人脸身份信息实现语音驱动人脸的说话任务。
下面结合附图和实施例对本发明的技术方案作进一步说明。
如图1所示,本发明实施例的流程包括以下步骤:
步骤1,获取大量的说话人脸视频数据集。
步骤2,使用ffmpeg工具从步骤1获取的数据集中提取视频帧和语音数据。
步骤3,使用dlib库提供的人脸检测工具提取步骤2视频帧中的人脸照片,并将其转换成正脸照片,然后剪裁成N×N尺寸(N可以取64、128、256等值)的正脸照片I1,使用语音处理工具库python_speech_features提取步骤2语音信号的MFCC特征。
步骤4,使用face_alignment提供的人脸对齐工具,检测步骤3剪裁好的正脸照片I1中的人脸特征点。
步骤5,构建并训练教师网络。
步骤5.1,整个网络采取自监督学习的方式,首先分别对步骤4检测出的人脸特征点l1、l2和剪裁好的正脸照片I1使用三个编码器f1、f2、f3进行编码,生成隐变量z1、z2、z3
步骤5.2,令z4=concat((z2-z1),z3),用解码器fD对z4进行解码,得到表现剪裁好的正脸照片I1变化区域m和变化区域内像素值的变化信息c。
动态特征m和c的计算方式如下:
(m,c)=fD(z4) (1)
步骤5.3,利用步骤5.2计算得到的参数m和c,结合剪裁好的正脸照片I1,得到合成照片I1′。
合成照片I1′的计算方式如下:
I1′=m×c+(1-m)×I1 (2)
步骤5.4,使用W-GAN-gp算法的网络架构对教师网络进行训练。
步骤5.4.1,生成器训练阶段,给定预处理好的人脸特征点l1、l2和剪裁好的正脸照片I1,使用步骤5.1-5.3的计算流程,网络通过预测的运动信息m和c生成图片I1′,生成器的损失函数lloss包含重建损失lrec、稀疏正则化损失lreg和对抗损失lgen三个损失函数,计算方式如下:
lloss=lrec+lreg+lgen (3)
lrec=||I1-I1′||1 (4)
lreg=||m||1 (5)
lgen=-DI([I1′,m]) (6)
式中,DI(·)表示判别器,||||1表示L1范数。
步骤5.4.2,判别器训练阶段,使用W-GAN-gp的判别器部分,判别器损失函数
Figure BDA0003168302610000071
计算方式为:
Figure BDA0003168302610000072
Figure BDA0003168302610000076
式中,
Figure BDA0003168302610000073
表示求导,DI(·)表示判别器,||||表示L2范数,λ=10,lgp表示Lipschitz惩罚系数,为了解决梯度爆炸。
生成阶段和判别阶段交替训练直到算法收敛,教师网络训练结束。
步骤6,构建并训练学生网络。
步骤6.1,使用步骤3提取到的语音信号的MFCC特征,以视频帧的时间点为中心,加上一个10ms的时间窗提取MFCC信号。
步骤6.2,使用步骤5预训练好的教师网络,输入人脸特征点l1、l2和剪裁好的正脸照片I1,得到变化区域m和变化区域内像素值的变化信息c。
步骤6.3,输入步骤6.1切割好的语音信号10ms的MFCC特征amfcc和一张剪裁好的正脸照片I1,分别使用语音编码器f4和身份信息编码器f5进行编码,生成隐变量z5和z6,然后令z7=concat(z5,z6)。
步骤6.4,使用解码器
Figure BDA0003168302610000074
预测运动信息(ms,cs),
Figure BDA0003168302610000075
步骤6.5,利用步骤6.4计算得到的参数ms和cs,结合剪裁好的正脸照片I1,得到合成照片I′1s
合成照片I′1s的计算方式如下:
I1s′=ms×cs+(1-ms)×I1 (9)
步骤6.6,使用W-GAN-gp算法的网络架构对学生网络进行训练。
步骤6.6.1,生成器训练阶段,给定MFCC特征amfcc和剪裁好的正脸照片I1,使用步骤6.2-6.5的计算流程,学生网络通过预测的运动信息ms和cs生成图片I′1s,生成器的损失函数l′loss包含重建损失lrec、稀疏正则化损失lreg、对抗损失lgen和监督运动信息损失lmot四个损失函数,计算方式如下:
l′loss=l′rec+l′reg+l′gen+lmot (10)
l′rec=||I1-I1s′||1 (11)
l′reg=||m||1 (12)
l′gen=-DI([I1s′,m]) (13)
lmot=||ms-m||1+||cs-c||1 (14)
式中,DI(·)表示判别器,||||1表示L1范数。
步骤6.6.2,判别器训练阶段,使用W-GAN-gp的判别器部分,判别器损失函数
Figure BDA0003168302610000081
为:
Figure BDA0003168302610000082
Figure BDA0003168302610000083
式中,
Figure BDA0003168302610000084
表示求导,DI(·)表示判别器,||||表示L2范数,λ=10,l′gp表示Lipschitz惩罚系数,为了解决梯度爆炸。
生成阶段和判别阶段交替训练直到算法收敛,学生网络训练结束。
步骤7,级联学生网络训练。
步骤7.1,将步骤3提取的MFCC特征序列{a1,a2,...an}依次通过步骤6.3中的语音编码器f4得到语音隐变量序列{a′1,a′2,...a′n};
步骤7.2,输入人脸身份照片I1,通过步骤6.3中的身份编码器f5得到身份隐变量z,通过广播机制将其与语音隐变量序列{a′1,a′2,...a′n}拼接得到隐变量序列{b1,b2,...bn};
步骤7.3,为了建模时序序列的时序性,将隐变量序列{b1,b2,...bn}输入LSTM网络得到包含时序信息的隐变量序列{b′1,b′2,...b′n},将隐变量序列{b′1,b′2,...b′n}中的每一个隐变量分别按照步骤6.4-6.6进行训练,生成图片序列{I1a,I2a,...Ina}。
步骤8,将步骤3提取的MFCC特征序列{a1,a2......an}和任意人脸照片I输入到步骤7训练好的级联学生网络中,即可得到对应的图片序列{I1a,I2a,...Ina},然后使用ffmpeg将图片序列合成视频。
具体实施时,以上流程可采用计算机软件技术实现自动运行流程。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (8)

1.一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于,包括如下步骤:
步骤1,获取大量的说话人脸视频数据集;
步骤2,从步骤1获取的数据集中提取视频帧和语音数据;
步骤3,提取步骤2视频帧中的人脸照片,并将其转换成正脸照片,然后剪裁成N×N尺寸的正脸照片I1,提取步骤2语音信号的MFCC特征;
步骤4,检测步骤3剪裁好的正脸照片I1中的人脸特征点;
步骤5,构建并训练教师网络;
步骤6,构建并训练学生网络;
步骤7,级联学生网络训练;
步骤8,将步骤3提取的MFCC特征序列和任意人脸照片I输入到步骤7训练好的级联学生网络中,即可得到对应的图片序列,然后使用ffmpeg将图片序列合成视频。
2.如权利要求1所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于:所述步骤5中构建并训练教师网络包括以下几个步骤:
步骤5.1,整个网络采取自监督学习的方式,分别对步骤4检测出的人脸特征点l1、l2和剪裁好的正脸照片I1使用三个编码器f1、f2、f3进行编码,生成隐变量z1、z2、z3
步骤5.2,令z4=concat((z2-z1),z3),用解码器fD对z4进行解码,得到表现剪裁好的正脸照片I1变化的区域范围m和变化区域内像素值的变化信息c,动态特征m和c的计算方式如下:
(m,c)=fD(z4) (1)
步骤5.3,利用步骤5.2计算得到的参数m和c,结合剪裁好的正脸照片I1,得到合成照片I1′:
I1′=m×c+(1-m)×I1 (2)
步骤5.4,使用W-GAN-gp算法的网络架构对教师网络进行训练。
3.如权利要求2所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于:所述步骤5.4中使用W-GAN-gp算法的网络架构对教师网络进行训练包括生成器训练阶段和判别器训练阶段,生成阶段和判别阶段交替训练直到算法收敛,教师网络训练结束,其中生成器训练阶段,给定预处理好的人脸特征点l1、l2和剪裁好的正脸照片I1,使用步骤5.1-5.3的计算流程,网络通过预测的运动信息m和c生成图片I1′,并计算生成器的损失函数lloss
lloss=lrec+lreg+lgen (3)
lrec=||I1-I1′||1 (4)
lreg=||m||1 (5)
lgen=-DI([I1′,m]) (6)
式中,lrec为重建损失,lreg为稀疏正则化损失,lgen为对抗损失,DI(·)表示判别器,|| ||1表示L1范数。
4.如权利要求3所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于:所述步骤5.4中判别器训练阶段,使用W-GAN-gp的判别器部分,判别器损失函数
Figure FDA0003168302600000021
计算方式为:
Figure FDA0003168302600000022
Figure FDA0003168302600000023
式中,
Figure FDA0003168302600000024
表示求导,DI(·)表示判别器,|| ||表示L2范数,λ=10,lgp表示Lipschitz惩罚系数,为了解决梯度爆炸。
5.如权利要求1所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于:所述步骤6中构建并训练学生网络包括以下几个步骤:
步骤6.1,使用步骤3提取到的语音信号的MFCC特征,以视频帧的时间点为中心,加上一个10ms的时间窗提取MFCC信号;
步骤6.2,使用步骤5训练好的教师网络,输入人脸特征点l1、l2和剪裁好的正脸照片I1,得到变化区域m和变化区域内像素值的变化信息c;
步骤6.3,输入步骤6.1切割好的语音信号10ms的MFCC特征amfcc和一张剪裁好的正脸照片I1,分别使用语音编码器f4和身份信息编码器f5进行编码,生成隐变量z5和z6,然后令z7=concat(z5,z6);
步骤6.4,使用解码器
Figure FDA0003168302600000031
预测运动信息(ms,cs),
Figure FDA0003168302600000032
步骤6.5,利用步骤6.4计算得到的参数ms和cs,结合剪裁好的正脸照片I1,得到合成照片I1s
I1s′=ms×cs+(1-ms)×I1 (9)
步骤6.6,使用W-GAN-gp算法的网络架构对学生网络进行训练。
6.如权利要求5所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于:所述步骤6.6中使用W-GAN-gp算法的网络架构对学生网络进行训练包括生成器训练阶段和判别器训练阶段,生成阶段和判别阶段交替训练直到算法收敛,学生网络训练结束,其中生成器训练阶段,给定MFCC特征amfcc和剪裁好的正脸照片I1,使用步骤6.2-6.5的计算流程,学生网络通过预测的运动信息ms和cs生成图片I′1s,并计算生成器的损失函数l′loss
l′loss=l′rec+l′reg+l′gen+lmot (10)
l′rec=||I1-I1s′|| (11)
l′reg=||m||1 (12)
l′gen=-DI([I1s′,m]) (13)
lmot=||ms-m||1+||cs-c||1 (14)
式中,l′rec为重建损失,l′reg为稀疏正则化损失,l′gen为对抗损失,lmot为监督运动信息损失,DI(·)表示判别器,|| ||1表示L1范数。
7.如权利要求6所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于:所述步骤6.6中判别器训练阶段,使用W-GAN-gp的判别器部分,判别器损失函数
Figure FDA0003168302600000041
为:
Figure FDA0003168302600000042
Figure FDA0003168302600000043
式中,
Figure FDA0003168302600000044
表示求导,DI(·)表示判别器,|| ||表示L2范数,λ=10,l′gp表示Lipschitz惩罚系数,为了解决梯度爆炸。
8.如权利要求1所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于:所述步骤7中级联学生网络训练包括以下几个步骤:
步骤7.1,将步骤3提取的MFCC特征序列{a1,a2,...an}依次通过步骤6.3中的语音编码器f4得到语音隐变量序列{a′1,a′2,...a′n};
步骤7.2,输入人脸身份照片I1,通过步骤6.3中的身份编码器f5得到身份隐变量z,通过广播机制将隐变量z与语音隐变量序列{a′1,a′2,...a′n}拼接得到隐变量序列{b1,b2,...bn};
步骤7.3,为了建模时序序列的时序性,将隐变量序列{b1,b2,...bn}输入LSTM网络得到包含时序信息的隐变量序列{b′1,b′2,...b′n},然后再将隐变量序列{b′1,b′2,...b′n}中的每一个隐变量分别按照步骤6.4-6.6进行训练,生成图片序列{I1a,I2a,...Ina}。
CN202110811278.7A 2021-07-19 2021-07-19 一种基于教师学生网络的语音驱动说话人脸视频生成方法 Active CN113628635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110811278.7A CN113628635B (zh) 2021-07-19 2021-07-19 一种基于教师学生网络的语音驱动说话人脸视频生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110811278.7A CN113628635B (zh) 2021-07-19 2021-07-19 一种基于教师学生网络的语音驱动说话人脸视频生成方法

Publications (2)

Publication Number Publication Date
CN113628635A true CN113628635A (zh) 2021-11-09
CN113628635B CN113628635B (zh) 2023-09-15

Family

ID=78380055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110811278.7A Active CN113628635B (zh) 2021-07-19 2021-07-19 一种基于教师学生网络的语音驱动说话人脸视频生成方法

Country Status (1)

Country Link
CN (1) CN113628635B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116704084A (zh) * 2023-08-01 2023-09-05 苏州浪潮智能科技有限公司 人脸动画生成网络的训练方法、人脸动画生成方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
CN111243626A (zh) * 2019-12-30 2020-06-05 清华大学 一种说话视频生成方法及系统
CN111783566A (zh) * 2020-06-15 2020-10-16 神思电子技术股份有限公司 一种基于唇语同步和神态适配效果增强的视频合成方法
CN112115783A (zh) * 2020-08-12 2020-12-22 中国科学院大学 基于深度知识迁移的人脸特征点检测方法、装置及设备
WO2021023869A1 (en) * 2019-08-08 2021-02-11 Universite De Lorraine Audio-driven speech animation using recurrent neutral network
CN112381040A (zh) * 2020-11-27 2021-02-19 天津大学 一种基于语音和人脸图像的跨膜态生成方法
CN112562722A (zh) * 2020-12-01 2021-03-26 新华智云科技有限公司 基于语义的音频驱动数字人生成方法及系统
CN112562720A (zh) * 2020-11-30 2021-03-26 清华珠三角研究院 一种唇形同步的视频生成方法、装置、设备及存储介质
CN112927712A (zh) * 2021-01-25 2021-06-08 网易(杭州)网络有限公司 视频生成方法、装置和电子设备
CN113012712A (zh) * 2021-03-03 2021-06-22 华北理工大学 一种基于生成对抗网络的人脸视频合成方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308731A (zh) * 2018-08-24 2019-02-05 浙江大学 级联卷积lstm的语音驱动唇形同步人脸视频合成算法
WO2021023869A1 (en) * 2019-08-08 2021-02-11 Universite De Lorraine Audio-driven speech animation using recurrent neutral network
CN111243626A (zh) * 2019-12-30 2020-06-05 清华大学 一种说话视频生成方法及系统
CN111783566A (zh) * 2020-06-15 2020-10-16 神思电子技术股份有限公司 一种基于唇语同步和神态适配效果增强的视频合成方法
CN112115783A (zh) * 2020-08-12 2020-12-22 中国科学院大学 基于深度知识迁移的人脸特征点检测方法、装置及设备
CN112381040A (zh) * 2020-11-27 2021-02-19 天津大学 一种基于语音和人脸图像的跨膜态生成方法
CN112562720A (zh) * 2020-11-30 2021-03-26 清华珠三角研究院 一种唇形同步的视频生成方法、装置、设备及存储介质
CN112562722A (zh) * 2020-12-01 2021-03-26 新华智云科技有限公司 基于语义的音频驱动数字人生成方法及系统
CN112927712A (zh) * 2021-01-25 2021-06-08 网易(杭州)网络有限公司 视频生成方法、装置和电子设备
CN113012712A (zh) * 2021-03-03 2021-06-22 华北理工大学 一种基于生成对抗网络的人脸视频合成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHIJING SI ETC: ""Speech2Video: Cross-Modal Distillation for Speech to Video Generation"", 《INTER SPEECH 2021》, pages 1 - 5 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116704084A (zh) * 2023-08-01 2023-09-05 苏州浪潮智能科技有限公司 人脸动画生成网络的训练方法、人脸动画生成方法及装置
CN116704084B (zh) * 2023-08-01 2023-11-03 苏州浪潮智能科技有限公司 人脸动画生成网络的训练方法、人脸动画生成方法及装置

Also Published As

Publication number Publication date
CN113628635B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN111325817B (zh) 一种虚拟人物场景视频的生成方法、终端设备及介质
CN112562722A (zh) 基于语义的音频驱动数字人生成方法及系统
CN113378697A (zh) 一种基于卷积神经网络的说话人脸视频生成方法及装置
CN112001992A (zh) 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统
CN112151030A (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN115588224A (zh) 一种人脸关键点的预测方法、虚拟数字人生成方法及装置
CN116051692B (zh) 一种基于语音驱动的三维数字人脸部动画生成方法
CN113470170A (zh) 一种利用语音信息的实时视频人脸区域时空一致合成方法
Liu et al. Synthesizing talking faces from text and audio: an autoencoder and sequence-to-sequence convolutional neural network
CN115100329A (zh) 基于多模态驱动的情感可控面部动画生成方法
Lu et al. Double-dcccae: Estimation of body gestures from speech waveform
CN113628635A (zh) 一种基于教师学生网络的语音驱动说话人脸视频生成方法
CN117671764A (zh) 基于Transformer的动态说话人脸图像生成系统及方法
CN116828129B (zh) 一种超清2d数字人生成方法及系统
CN117409121A (zh) 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质
Wang et al. Speech Driven Talking Head Generation via Attentional Landmarks Based Representation.
CN113033283A (zh) 一种改进的视频分类系统
Kikuchi et al. Watch, listen once, and sync: Audio-visual synchronization with multi-modal regression CNN
CN113450824B (zh) 一种基于多尺度视频特征融合的语音唇读方法及系统
WO2024124680A1 (zh) 一种语音信号驱动的个性化三维人脸动画生成方法及其应用
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及系统
CN114882590B (zh) 一种基于事件相机的多粒度时空特征感知的唇读方法
CN117315765A (zh) 一种增强时空特征的动作识别方法
Li et al. A novel speech-driven lip-sync model with CNN and LSTM
Wang et al. Robust Wake Word Spotting With Frame-Level Cross-Modal Attention Based Audio-Visual Conformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant