CN108550173A - 基于语音生成口型视频的方法 - Google Patents
基于语音生成口型视频的方法 Download PDFInfo
- Publication number
- CN108550173A CN108550173A CN201810285279.0A CN201810285279A CN108550173A CN 108550173 A CN108550173 A CN 108550173A CN 201810285279 A CN201810285279 A CN 201810285279A CN 108550173 A CN108550173 A CN 108550173A
- Authority
- CN
- China
- Prior art keywords
- layer
- convolution kernel
- convolutional
- sizes
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 9
- 230000001815 facial effect Effects 0.000 claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims abstract description 6
- 230000009466 transformation Effects 0.000 claims abstract description 5
- 239000012634 fragment Substances 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000003475 lamination Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 abstract description 5
- 238000011282 treatment Methods 0.000 abstract 1
- 238000012549 training Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于语音生成口型视频的方法。首先,截取视频卡顿时的静止画面,并检测得到其中的人脸图像,计算其MFCC系数矩阵;然后,利用训练好的深度网络Speech2Vid模型处理得到与口型对应的人脸图像;最后,利用相似变换将人脸图像对齐,并进行替换得到新的静态图像,将得到的新的静态图像作为视频的下一帧。由于不依赖已有的讲话视频片段,直接通过学习原始音频和视频图像中口型变化的关系,生成包含对应口型人脸的静止图像作为视频的下一帧图像,可以有效缓解视频卡顿现象,提升人们视频通话体验。
Description
技术领域
本发明属计算机视觉、图形处理技术领域,具体涉及一种基于语音生成口型视频的方法。
背景技术
随着视频聊天逐渐替代了传统的语音交流方式,人们在享受着面对面谈话乐趣的同时,也催生出了一些新的问题。受限于不同地区的不同网络环境,视频聊天在网络条件较差的情况下稳定性较差,这给用户带来了很不好的体验。其中音频文件较小,即使在较差的网络环境下也可以获得流畅的通讯体验,而视频信息却由于文件相对较大会出现画面卡顿的现象。为解决这个问题,可以通过分析讲话者的音频信息,生成与之相对应的口型,让不连贯的画面得到补偿,尽可能地改善低网络速率下的视频聊天体验。Fan等人在文献“B.Fan,L.Wang,F.K.Soong and L.Xie,“Photo-real talking head with deepbidirectional LSTM”,ICASSP 2015,pp.4884-4888,2015”中介绍了一种通过双向LSTM(Long short-term memory)重新连接人脸下半部分的方法,以重新复制来自不同音频源的目标视频。LSTM从保存的目标帧的字典中选择一个目标口型区域,而不是生成图像,因此需要数据量庞大的唯一目标身份的视频帧,以从中进行选择,这需要视频聊天的设备拥有海量的存储空间和强劲的性能,这在实际生活中是很难被满足的。而且这种方法只是从已经存在图像信息中进行筛选后补偿画面,如果遇到没有可供挑选的图像信息时显得无能为力。Garrido等人在文献“P.Garrido,L.Valgaerts,H.Sarmadi,et al.“VDub:ModifyingFace Video of Actors for Plausible Visual Alignment to a Dubbed Audio Track”,Computer Graphics Forum,pp.193-204,2015.”中改进了上述方法,将配音者视频中的口形转移到目标视频,从而合成目标说话人的人脸,但是这种方法要求视频当中的配音者说出语音片段,这样就无法保证实时性,无法满足视频聊天的基本要求。
发明内容
为了克服现有技术的不足,本发明提供一种基于语音生成口型视频的方法,即利用人的音频和面部图像来生成讲话时的人脸视频的方法。在视频卡顿时使用音素生成与音频同步的脸部图像,不依赖已有的讲话视频片段,直接通过学习原始音频和视频图像中口型变化的关系,利用语音音频生成包含对应口型人脸的静止图像,作为视频的下一帧图像,从而缓解视频卡顿现象,提升人们视频通话体验。
一种基于语音生成口型视频的方法,其步骤如下:
步骤1:检测当前视频通话流畅度,若视频发生卡顿,则截取当前视频通话的静止画面,并提取前0.35秒至当前的音频片段;
步骤2:使用由King提出的基于HOG的DLIB人脸检测器对所截取的静止画面进行检测,得到静止画面中的人脸图像;以100Hz的采样频率对所提取的音频片段进行采样,得到35个离散的样本,再分别计算其MFCC系数,得到MFCC系数矩阵,矩阵的每一列即为每个样本的特征;
步骤3:对改进的深度网络Speech2Vid模型进行训练,然后,将步骤2得到的人脸图像和MFCC系数矩阵输入到训练好的Speech2Vid模型中,得到与音频对应口型的人脸图像;
所述的改进的Speech2Vid模型由生成模块和去模糊模块构成;生成模块分别提取人脸图像和MFCC系数矩阵的256维特征,再对其进行解码生成对应口型的人脸图像,共包括三个分支:第一个分支包含5个卷积层、2个池化层以及2个全连接层,其第一层卷积层Conv1-1、第二层卷积层Conv1-2、第二层池化层Pool1-2、第三层卷积层Conv1-3、第四层卷积层Conv1-4、第五层卷积层Conv1-5、第五层池化层Pool1-5、第六层全连接层FC1-6及第七层全连接层FC1-7顺序相连,第一层卷积层Conv1-1包含64个3*3大小的卷积核,第二层卷积层Conv1-2包含128个3*3大小的卷积核,第二层池化层Pool1-2包含一个3*3大小的卷积核且卷积核移动步长为2,第三层卷积层Conv1-3包含256个3*3大小的卷积核,第四层卷积层Conv1-4包含256个3*3大小的卷积核,第五层卷积层Conv1-5包含512个3*3大小的卷积核,第五层池化层Pool1-5包含512个的卷积核且卷积核移动步长为2,第六层全连接层FC1-6包含512个卷积核,第七层全连接层FC1-7包含256个卷积核;第二分支包含5个卷积层、2个池化层以及2个全连接层,其第一层卷积层Conv2-1、第一层池化层Pool2-1、第二层卷积层Conv2-2、第二层池化层Pool2-2、第三层卷积层Conv2-3、第四层卷积层Conv2-4、第五层卷积层Conv2-5、第六层全连接层FC2-6及第七层全连接层FC2-7顺序相连,第一层卷积层Conv2-1包含96个7*7大小的卷积核且卷积核移动步长为2,第一层池化层Pool2-1包含1个3*3大小的卷积核且卷积核移动步长为2,第二层卷积层Conv2-2包含256个5*5的卷积核且卷积核移动步长为2,第二层池化层Pool2-2包含一个3*3大小的卷积核且卷积核移动步长为2,第三层卷积层Conv2-3包含512个3*3大小的卷积核,第四层卷积层Conv2-4包含512个3*3大小的卷积核,第五层卷积层Conv2-5包含512个3*3大小的卷积核,第六层全连接层FC2-6包含512个卷积核,第七层全连接层FC2-7包含256个卷积核;第三分支包含6个卷积层以及1个全连接层,其第一层全连接层FC3-1、第二层卷积层Conv3-2、第三层卷积层Conv3-3、第四层卷积层Conv3-4、第五层卷积层Conv3-5、第六层卷积层Conv3-6及第七层卷积层Conv3-7顺序相连,第一层全连接层FC3-1包含128个卷积核,第二层卷积层Conv3-2包含512个6*6大小的卷积核且卷积核移动步长为2,第三层卷积层Conv3-3包含256个5*5大小的卷积核且卷积核移动步长为2,第四层卷积层Conv3-4包含96个5*5大小的卷积核且卷积核移动步长为2,第五层卷积层Conv3-5包含96个5*5大小的卷积核且卷积核移动步长为2,第六层卷积层Conv3-6包含64个5*5大小的卷积核且卷积核移动步长为2,第七层卷积层Conv3-7包含3个5*5大小的卷积核;其中,生成模块的第二分支的第二层卷积层Conv2-2的输出结果输入到其第三分支的第四层卷积层Conv3-4,第二分支的第一层池化层Pool2-1的输出结果输入到第三分支的第五层卷积层Conv3-5;
去模糊模块对生成的人脸图像进行锐化,共包括9个顺序连接的卷积层,每个卷积层都包含64个3*3大小的卷积核;
步骤4:利用相似变换对步骤3得到的人脸图像与步骤1得到的静止画面中人脸的眼睛和鼻子进行对齐,点对点替换步骤1得到静止画面中面部图像像素,得到新的静态图像,将得到的新的静态图像作为视频的下一帧,输出到视频通话中;
步骤5:判断视频是否结束,若视频未结束,返回步骤1,否则,结束处理。
本发明的有益效果是:利用Speech2Vid模型生成与音频对应口型的人脸图像而不是从口型字典库匹配对应口型图片,因此无须存储庞大的口型字典库,占用内存小;该模型直接学习音素(语音的最小单位)和口型之间的对应关系,只输入音素和人脸图像就可以直接生成相应的口型的面部图像,不需要完整的音节,也不需要提前获取语音片段;由于只利用视频中讲话者的语音部分和其对应人脸图像,生成与语音部分对应口型人脸图像,并将其替代初始静止图像的人脸,成为视频的下一帧,该过程无需考虑视频中背景等其它区域,计算量小,生成对应音频的视频更加实时,短时间内即可输出与音频同步的视频画面。
附图说明
图1是本发明的一种基于语音生成口型视频的方法流程图
图2是本发明的Speech2Vid模型网络结构示意图
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
本发明提供了一种基于语音生成口型视频的方法,如图1所示,主要包括以下步骤:
1、首先,检测当前视频通话流畅度,判断视频画面是否出现卡顿。由于说话者的口型只取决于当前所说的音素(语音中的最小单位),0.35秒的音频片段可以获取足够口型信息。再者,网络视频一般不会低于25帧,考虑到人的口型并不可能一秒变化25次。因此,把时间间隔设置为0.35秒,即比较当前画面与0.35秒前的画面,若完全一致,则可以判断视频卡顿,此时,截取当前视频通话的静止画面,并提取前0.35秒至当前的音频片段。
2、使用由King提出的基于HOG的DLIB人脸检测器对所截取的静止画面进行检测,得到静止画面中的人脸图像。同时,对所提取的音频片段以100Hz的采样率进行采样,得到35个离散的样本,分别计算其MFCC系数,生成12*35维的MFCC系数矩阵,矩阵的每列是每个样本的MFCC特征。
所述的由King提出的基于HOG的DLIB人脸检测器记录在文献“Davis E.King,“Dlib-ml:A Machine Learning Toolkit”,Journal of Machine Learning Research 10,pp.1755-1758,2009”中。MFCC系数计算方法记录在文献“S.B.Davis,and P.Mermelstein,"Comparison of Parametric Representations for Monosyllabic Word Recognition inContinuously Spoken Sentences,"in IEEE Transactions on Acoustics,Speech,andSignal Processing,vol.28(4),pp.357–366,1980.”中。
3、对改进的深度网络Speech2Vid模型进行训练,然后,将步骤2得到的人脸图像和MFCC系数矩阵输入到训练好的Speech2Vid模型中,得到与音频对应口型的人脸图像。
深度网络Speech2Vid模型由生成模块和去模糊模块构成,如图2所示。其中:
生成模块共包括三个分支:
第一个分支的作用是提取MFCC特征矩阵的256维特征,包含5个卷积层、2个池化层以及2个全连接层,其第一层卷积层Conv1-1、第二层卷积层Conv1-2、第二层池化层Pool1-2、第三层卷积层Conv1-3、第四层卷积层Conv1-4、第五层卷积层Conv1-5、第五层池化层Pool1-5、第六层全连接层FC1-6及第七层全连接层FC1-7顺序相连,第一层卷积层Conv1-1包含64个3*3大小的卷积核,第二层卷积层Conv1-2包含128个3*3大小的卷积核,第二层池化层Pool1-2包含一个3*3大小的卷积核且卷积核移动步长为2,第三层卷积层Conv1-3包含256个3*3大小的卷积核,第四层卷积层Conv1-4包含256个3*3大小的卷积核,第五层卷积层Conv1-5包含512个3*3大小的卷积核,第五层池化层Pool1-5包含512个的卷积核且卷积核移动步长为2,第六层全连接层FC1-6包含512个卷积核,第七层全连接层FC1-7包含256个卷积核。将MFCC特征矩阵输入第一分支即可得到其256维特征。
第二分支的作用是提取人脸图像的256维特征,包含5个卷积层、2个池化层以及2个全连接层,其第一层卷积层Conv2-1、第一层池化层Pool2-1、第二层卷积层Conv2-2、第二层池化层Pool2-2、第三层卷积层Conv2-3、第四层卷积层Conv2-4、第五层卷积层Conv2-5、第六层全连接层FC2-6及第七层全连接层FC2-7顺序相连,第一层卷积层Conv2-1包含96个7*7大小的卷积核且卷积核移动步长为2,第一层池化层Pool2-1包含1个3*3大小的卷积核且卷积核移动步长为2,第二层卷积层Conv2-2包含256个5*5的卷积核且卷积核移动步长为2,第二层池化层Pool2-2包含一个3*3大小的卷积核且卷积核移动步长为2,第三层卷积层Conv2-3包含512个3*3大小的卷积核,第四层卷积层Conv2-4包含512个3*3大小的卷积核,第五层卷积层Conv2-5包含512个3*3大小的卷积核,第六层全连接层FC2-6包含512个卷积核,第七层全连接层FC2-7包含256个卷积核。将人脸图像输入第二分支即可得到其256维特征。
第三分支的作用是生成与语音对应口型的人脸图像,包含6个卷积层以及1个全连接层,其第一层全连接层FC3-1、第二层卷积层Conv3-2、第三层卷积层Conv3-3、第四层卷积层Conv3-4、第五层卷积层Conv3-5、第六层卷积层Conv3-6及第七层卷积层Conv3-7顺序相连,第一层全连接层FC3-1包含128个卷积核,第二层卷积层Conv3-2包含512个6*6大小的卷积核且卷积核移动步长为2,第三层卷积层Conv3-3包含256个5*5大小的卷积核且卷积核移动步长为2,第四层卷积层Conv3-4包含96个5*5大小的卷积核且卷积核移动步长为2,第五层卷积层Conv3-5包含96个5*5大小的卷积核且卷积核移动步长为2,第六层卷积层Conv3-6包含64个5*5大小的卷积核且卷积核移动步长为2,第七层卷积层Conv3-7包含3个5*5大小的卷积核。由于提取面部高层语义信息会丢失大量的面部细节信息,所以通过两个跳跃式连将第二分支提取的面部细节的底层特征加入第三分支,即生成模块的第二分支的第二层卷积层Conv2-2的输出结果输入到其第三分支的第四层卷积层Conv3-4,第二分支的第一层池化层Pool2-1的输出结果输入到第三分支的第五层卷积层Conv3-5。
将第一分支和第二分支输出的两个256维特征矩阵按列拼接成的矩阵输入到第三分支即可得到与语音对应口型的人脸图像。
去模糊模块共包括9个顺序连接的卷积层,其作用是对生成的人脸图像进行锐化。由于深度卷积网络生成的图像分辨率普遍较低,利用去模糊模块,可以有效的锐化图像,使图像更加清晰。9个卷积层都包含64个3*3大小的卷积核,通过九个卷积层提取人脸图像的细节信息,最后将九个卷积层输出结果与输入的人脸图像点对点相加,得到更加锐化的人脸图像。
为达到好的图像生成效果,需事先对网络模型进行训练,具体为:
(1)数据集预处理。使用由Chung和Zisserman在文献“J.S.Chung,A.Zisserman,“Out of Time:Automated Lip Sync in the Wild”,ACCV Workshops(2)2016,pp.251-263,2016”提出的SyncNet网络对VoxCeleb和LRW数据集进行处理,确定数据集里视频中讲话的人物,然后利用基于HOG的DLIB人脸检测器检测讲话人物的人脸序列,所得到的人物的人脸序列与原数据集中与人物对应的语音即构成了预处理后数据集。这种处理不需要手动标注人脸,节省了大量的人力物力。
其中,VoxCeleb数据集来自“Arsha Nagrani,Joon Son Chung,AndrewZisserman,“VoxCeleb:A Large-Scale Speaker Identification Dataset”,INTERSPEECH2017,pp.2616-2620,2017”,LRW数据集来自“Joon Son Chung,Andrew Zisserman,“LipReading in the Wild”,ACCV(2)2016,pp.87-103,2016”。两个数据集由名人访谈和广播新闻视频组成,视频中大部分视频中的面孔是面向镜头、说话清晰、没有背景噪音,是进行网络训练的理想数据集。
(2)生成模块训练。将预处理后的数据集的80%作为生成模块的训练集,剩下的20%作为生成模块的测试集。将训练集中成对的人脸和音频输入到生成模块,并利用随机梯度下降法进行训练,得到初步训练后的生成模块。
(3)生成模块测试。将测试集中成对的人脸和音频成输入至步骤(2)得到的生成模块,计算生成图像C与真实图像T的L1损失值,如果损失值小于10-3,则认为网络达到收敛,步骤(2)得到的生成模块即为最终的生成模块,否则,返回步骤(2)继续进行训练。
L1损失值的计算公式为:
其中,cijk表示表示生成图像C矩阵(i,j,k)位置的元素,tijk表示真实图像T矩阵(i,j,k)位置的元素。
(4)去模糊模块训练。将步骤(1)预处理后数据集中成对的人脸和音频输入步骤(3)得到的生成模块中,生成相应口型的面部图像,以所得到面部图像的80%作为去模糊模块的训练集,剩下的20%作为去模糊模块的测试集。将训练集中的面部图像输入到去模糊模块,并利用随机梯度下降法进行训练,得到初步训练后的去模糊模块。
(5)去模糊测试。将去模糊测试集中的面部图像输入到去模糊模块进行测试,如果生成图像与真实图像的L1损失值小于10-3,则认为网络达到收敛,步骤(4)得到的去模糊模块即为最终的去模糊模块,否则,返回步骤(4)继续进行训练。
至此,即得到训练好的网络,将上一步骤检测得到的人脸图像和计算得到的MFCC系数矩阵输入到训练好网络中,即得到与音频对应口型的人脸图像。
4、利用相似变换将Speech2Vid模型生成的人脸图像与步骤1得到的静止画面中人脸的眼睛和鼻子对齐,点对点替换步骤1得到静止画面中面部图像像素,得到新的静态图像,将得到的新的静态图像作为视频的下一帧,输出到视频通话中;所述的相似变换主要包括缩放、旋转、平移。
5、判断视频通话是否结束,如果未结束,则返回步骤1,若视频结束,则结束算法。
Claims (1)
1.一种基于语音生成口型视频的方法,其步骤如下:
步骤1:检测当前视频通话流畅度,若视频发生卡顿,则截取当前视频通话的静止画面,并提取前0.35秒至当前的音频片段;
步骤2:使用由King提出的基于HOG的DLIB人脸检测器对所截取的静止画面进行检测,得到静止画面中的人脸图像;以100Hz的采样频率对所提取的音频片段进行采样,得到35个离散的样本,再分别计算其MFCC系数,得到MFCC系数矩阵,矩阵的每一列即为每个样本的特征;
步骤3:对改进的深度网络Speech2Vid模型进行训练,然后,将步骤2得到的人脸图像和MFCC系数矩阵输入到训练好的Speech2Vid模型中,得到与音频对应口型的人脸图像;
所述的改进的Speech2Vid模型由生成模块和去模糊模块构成;生成模块分别提取人脸图像和MFCC系数矩阵的256维特征,再对其进行解码生成对应口型的人脸图像,共包括三个分支:第一个分支包含5个卷积层、2个池化层以及2个全连接层,其第一层卷积层Conv1-1、第二层卷积层Conv1-2、第二层池化层Pool1-2、第三层卷积层Conv1-3、第四层卷积层Conv1-4、第五层卷积层Conv1-5、第五层池化层Pool1-5、第六层全连接层FC1-6及第七层全连接层FC1-7顺序相连,第一层卷积层Conv1-1包含64个3*3大小的卷积核,第二层卷积层Conv1-2包含128个3*3大小的卷积核,第二层池化层Pool1-2包含一个3*3大小的卷积核且卷积核移动步长为2,第三层卷积层Conv1-3包含256个3*3大小的卷积核,第四层卷积层Conv1-4包含256个3*3大小的卷积核,第五层卷积层Conv1-5包含512个3*3大小的卷积核,第五层池化层Pool1-5包含512个的卷积核且卷积核移动步长为2,第六层全连接层FC1-6包含512个卷积核,第七层全连接层FC1-7包含256个卷积核;第二分支包含5个卷积层、2个池化层以及2个全连接层,其第一层卷积层Conv2-1、第一层池化层Pool2-1、第二层卷积层Conv2-2、第二层池化层Pool2-2、第三层卷积层Conv2-3、第四层卷积层Conv2-4、第五层卷积层Conv2-5、第六层全连接层FC2-6及第七层全连接层FC2-7顺序相连,第一层卷积层Conv2-1包含96个7*7大小的卷积核且卷积核移动步长为2,第一层池化层Pool2-1包含1个3*3大小的卷积核且卷积核移动步长为2,第二层卷积层Conv2-2包含256个5*5的卷积核且卷积核移动步长为2,第二层池化层Pool2-2包含一个3*3大小的卷积核且卷积核移动步长为2,第三层卷积层Conv2-3包含512个3*3大小的卷积核,第四层卷积层Conv2-4包含512个3*3大小的卷积核,第五层卷积层Conv2-5包含512个3*3大小的卷积核,第六层全连接层FC2-6包含512个卷积核,第七层全连接层FC2-7包含256个卷积核;第三分支包含6个卷积层以及1个全连接层,其第一层全连接层FC3-1、第二层卷积层Conv3-2、第三层卷积层Conv3-3、第四层卷积层Conv3-4、第五层卷积层Conv3-5、第六层卷积层Conv3-6及第七层卷积层Conv3-7顺序相连,第一层全连接层FC3-1包含128个卷积核,第二层卷积层Conv3-2包含512个6*6大小的卷积核且卷积核移动步长为2,第三层卷积层Conv3-3包含256个5*5大小的卷积核且卷积核移动步长为2,第四层卷积层Conv3-4包含96个5*5大小的卷积核且卷积核移动步长为2,第五层卷积层Conv3-5包含96个5*5大小的卷积核且卷积核移动步长为2,第六层卷积层Conv3-6包含64个5*5大小的卷积核且卷积核移动步长为2,第七层卷积层Conv3-7包含3个5*5大小的卷积核;其中,生成模块的第二分支的第二层卷积层Conv2-2的输出结果输入到其第三分支的第四层卷积层Conv3-4,第二分支的第一层池化层Pool2-1的输出结果输入到第三分支的第五层卷积层Conv3-5;
去模糊模块对生成的人脸图像进行锐化,共包括9个顺序连接的卷积层,每个卷积层都包含64个3*3大小的卷积核;
步骤4:利用相似变换对步骤3得到的人脸图像与步骤1得到的静止画面中人脸的眼睛和鼻子进行对齐,点对点替换步骤1得到静止画面中面部图像像素,得到新的静态图像,将得到的新的静态图像作为视频的下一帧,输出到视频通话中;
步骤5:判断视频是否结束,若视频未结束,返回步骤1,否则,结束处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810285279.0A CN108550173A (zh) | 2018-04-03 | 2018-04-03 | 基于语音生成口型视频的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810285279.0A CN108550173A (zh) | 2018-04-03 | 2018-04-03 | 基于语音生成口型视频的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108550173A true CN108550173A (zh) | 2018-09-18 |
Family
ID=63513817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810285279.0A Pending CN108550173A (zh) | 2018-04-03 | 2018-04-03 | 基于语音生成口型视频的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108550173A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110189394A (zh) * | 2019-05-14 | 2019-08-30 | 北京字节跳动网络技术有限公司 | 口型生成方法、装置及电子设备 |
CN111212245A (zh) * | 2020-01-15 | 2020-05-29 | 北京猿力未来科技有限公司 | 一种合成视频的方法和装置 |
CN112102177A (zh) * | 2020-07-27 | 2020-12-18 | 中山大学 | 基于压缩与激励机制神经网络的图像去模糊方法 |
CN112188304A (zh) * | 2020-09-28 | 2021-01-05 | 广州酷狗计算机科技有限公司 | 视频生成方法、装置、终端及存储介质 |
CN112911192A (zh) * | 2021-01-28 | 2021-06-04 | 维沃移动通信有限公司 | 视频处理方法、装置和电子设备 |
CN115022655A (zh) * | 2022-05-19 | 2022-09-06 | 咪咕文化科技有限公司 | 直播卡顿处理方法、装置、电子设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751692A (zh) * | 2009-12-24 | 2010-06-23 | 四川大学 | 语音驱动唇形动画的方法 |
CN103218842A (zh) * | 2013-03-12 | 2013-07-24 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
CN106803069A (zh) * | 2016-12-29 | 2017-06-06 | 南京邮电大学 | 基于深度学习的人群高兴程度识别方法 |
-
2018
- 2018-04-03 CN CN201810285279.0A patent/CN108550173A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751692A (zh) * | 2009-12-24 | 2010-06-23 | 四川大学 | 语音驱动唇形动画的方法 |
CN103218842A (zh) * | 2013-03-12 | 2013-07-24 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
CN106803069A (zh) * | 2016-12-29 | 2017-06-06 | 南京邮电大学 | 基于深度学习的人群高兴程度识别方法 |
Non-Patent Citations (1)
Title |
---|
JOON SON CHUNG等: ""You said that?"", 《BMVC2017》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110189394A (zh) * | 2019-05-14 | 2019-08-30 | 北京字节跳动网络技术有限公司 | 口型生成方法、装置及电子设备 |
CN110189394B (zh) * | 2019-05-14 | 2020-12-29 | 北京字节跳动网络技术有限公司 | 口型生成方法、装置及电子设备 |
CN111212245A (zh) * | 2020-01-15 | 2020-05-29 | 北京猿力未来科技有限公司 | 一种合成视频的方法和装置 |
CN112102177A (zh) * | 2020-07-27 | 2020-12-18 | 中山大学 | 基于压缩与激励机制神经网络的图像去模糊方法 |
CN112102177B (zh) * | 2020-07-27 | 2022-06-21 | 中山大学 | 基于压缩与激励机制神经网络的图像去模糊方法 |
CN112188304A (zh) * | 2020-09-28 | 2021-01-05 | 广州酷狗计算机科技有限公司 | 视频生成方法、装置、终端及存储介质 |
CN112911192A (zh) * | 2021-01-28 | 2021-06-04 | 维沃移动通信有限公司 | 视频处理方法、装置和电子设备 |
CN115022655A (zh) * | 2022-05-19 | 2022-09-06 | 咪咕文化科技有限公司 | 直播卡顿处理方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108550173A (zh) | 基于语音生成口型视频的方法 | |
CN110473164B (zh) | 一种基于注意力机制的图像美学质量评价方法 | |
CN108648746B (zh) | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 | |
Korshunov et al. | Speaker inconsistency detection in tampered video | |
Sadjadi et al. | The 2019 NIST Audio-Visual Speaker Recognition Evaluation. | |
Zhang et al. | Study on CNN in the recognition of emotion in audio and images | |
CN110428820B (zh) | 一种中英文混合语音识别方法及装置 | |
CN110659573B (zh) | 一种人脸识别方法、装置、电子设备及存储介质 | |
CN109087258A (zh) | 一种基于深度学习的图像去雨方法及装置 | |
CN111598979A (zh) | 虚拟角色的面部动画生成方法、装置、设备及存储介质 | |
CN116205222A (zh) | 一种基于多通道注意力融合的方面级情感分析系统及方法 | |
Blanchard et al. | Getting the subtext without the text: Scalable multimodal sentiment classification from visual and acoustic modalities | |
CN115187704A (zh) | 虚拟主播生成方法、装置、设备及存储介质 | |
CN112861805A (zh) | 一种基于内容特征和风格特征的人脸图像生成方法 | |
CN111813894A (zh) | 一种基于深度学习的自然语言情感识别方法 | |
Ma et al. | Feature extraction for visual speaker authentication against computer-generated video attacks | |
CN115129934A (zh) | 一种多模态视频理解方法 | |
CN113420179B (zh) | 基于时序高斯混合空洞卷积的语义重构视频描述方法 | |
Wang et al. | Fastlts: Non-autoregressive end-to-end unconstrained lip-to-speech synthesis | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
Huang et al. | CALLip: Lipreading using contrastive and attribute learning | |
CN112364225B (zh) | 一种结合用户评论的司法舆情文本摘要方法 | |
CN109635303A (zh) | 特定领域意义改变词的识别方法 | |
CN113239903A (zh) | 一种跨模态唇读的对抗性双重对比自监督学习方法 | |
CN116958343A (zh) | 面部动画生成方法、装置、设备、介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180918 |