CN111666831B - 一种基于解耦表示学习的说话人脸视频生成方法 - Google Patents
一种基于解耦表示学习的说话人脸视频生成方法 Download PDFInfo
- Publication number
- CN111666831B CN111666831B CN202010420200.8A CN202010420200A CN111666831B CN 111666831 B CN111666831 B CN 111666831B CN 202010420200 A CN202010420200 A CN 202010420200A CN 111666831 B CN111666831 B CN 111666831B
- Authority
- CN
- China
- Prior art keywords
- video
- audio
- features
- emotion
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000008451 emotion Effects 0.000 claims abstract description 222
- 230000009977 dual effect Effects 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims description 50
- 238000012549 training Methods 0.000 claims description 42
- 230000002996 emotional effect Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 3
- 239000007787 solid Substances 0.000 claims description 2
- 230000036651 mood Effects 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000008909 emotion recognition Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于解耦表示学习的说话人脸视频生成方法,采用分类对抗的方法将音频中的人物身份特征、语音特征及情绪特征解耦,并且用分类对抗的方法将视频中的人物身份特征、语音特征及情绪特征解耦,这些特征的解耦提高了本方法对生成说话视频的可操控性。采用对偶学习对音频中的语音特征和静音视频中的语音特征进行映射,对音频中的情绪特征和静音视频中的情绪特征进行映射,实现了音频和视频的跨模态特征转换,极大提高了从音频生成说话人脸视频的便利性,也提高了生成说话人脸视频的连贯与自然程度。本发明可以根据任意单张人脸图片及音频生成真实自然的说话视频,无需大量特定人脸视频,提高了易用性。
Description
技术领域
本发明涉及深度学习与多媒体跨模态生成,具体涉及一种基于解耦表示学习的说话人脸视频生成方法。
背景技术
说话人脸视频生成是指给定单张人脸图片和一段单人说话语音,生成这个人的说话人脸视频,而且该视频中人脸的说话内容与输入语音一致。说话人脸视频生成技术在虚拟主播、人机交互及影视动画制作等领域具有广阔应用前景。
由单张人脸图片和说话语音生成自然流畅的说话人脸视频十分具有挑战性,一方面需要实现保留身份特征的多帧人脸生成,而且要求人脸变化尤其是唇形变化在时域上要与输入语音一致。为此,已有研究者提出基于深度学习的说话人脸视频生成,虽然取得一定效果,但是存在一些问题。说话音频中包含由说话者人物身份特征、情绪及语音特征(说话内容)等多种特征空间,类似的,说话视频也包括说话人物身份特征、情绪及语音特征(说话引起的面部动作)等多种特征空间。现有说话人脸视频生成方法由于未能很好的将音频中的身份特征、语音特征和情绪特征以及视频中的说话人身份特征、语音特征和情绪特征解耦,生成说话视频存在以下问题:(1)音频中语音特征及情绪特征之外的特征以及是视频中人物身份特征之外的信息会严重干扰说话人脸视频生成效果,使得生成视频中唇形与语音不一致,给人不够真实的感觉;(2)由于未能将语音及视频中的情绪特征分离出来,因此生成的说话人脸视频面无表情,情绪上与语音不对应,整体效果不够自然。这些问题的存在极大的影响了说话人脸视频的实际应用。
发明内容:
本发明的目的是为了解决上述背景技术存在的不足,而提出一种基于解耦表示学习的说话人脸视频生成方法。
本发明包括三个方面:使用分类对抗方法对输入音频中的音频人物身份特征、音频语音特征及音频情绪特征进行解耦,得到干净的音频人物身份特征、音频语音特征及音频情绪特征;使用分类对抗方法对输入视频中的视频人物身份特征、视频语音特征及音频情绪特征进行解耦,得到干净的视频人物身份特征、视频语音特征及音频情绪特征;使用对偶学习方法实现音频语音特征和视频语音特征这两个不同隐空间的相互映射,并使用对偶学习方法实现音频情绪特征和视频情绪特征这两个不同隐空间的相互映射;联合视频人物身份特征和映射到该空间的音频语音特征及音频情绪特征,实现由单张图片和说话音频共同生成说话人脸视频。
本发明在训练阶段,采用分类对抗的方法将音频中的人物身份特征、语音特征以及情绪特征解耦,并且用分类对抗的方法将视频中的人物身份息、语音特征及情绪特征解耦,然后采用对偶学习将音频中的语音特征映射到视频中的语音特征,并采用对偶学习将音频中的情绪特征映射到视频中的情绪特征,最后综合视频中的人物身份特征共同完成说话人脸视频的生成。在测试阶段,将给定任意单张人脸图片和说话音频,即可生成该人脸符合音频情绪特征的说话视频。由于对人物身份、语音及情绪等关键信息实施了解耦,可以根据任意单张人脸图片及音频生成真实自然的说话视频。不仅避免了音频和视频中不同隐空间特征对生成说话视频结果的干扰,且视频画面所展现的情绪与输入音频的情绪保持一致,较好的解决现有方法存在的上述两个问题。
为了实现上述目的,本发明所采用的技术方案为:
一种基于解耦表示学习的说话人脸视频生成方法,该方法包括如下步骤:步骤一,用分类对抗的方法将静音视频中的人物身份特征、语音特征及情绪特征解耦;步骤二,采用分类对抗的方法将音频中的人物身份特征、语音特征及情绪特征解耦;步骤三,然后采用对偶学习的方法将音频中的语音特征映射到静音视频中的语音特征所在空间,并将音频中的情绪特征映射到静音视频中的情绪特征所在空间,步骤四,综合视频中的人物身份特征共同完成说话人脸视频的生成。
较佳地,步骤一中的分类对抗采用长短记忆神经网络从视频中提取人物身份特征,要求该人物身份特征对于人物身份识别有效,但是对语音识别(唇读)和情绪识别无效;而且采用长短记忆神经网络从视频中提取语音特征,并要求该语音特征对于语音识别(唇读)有效,对于人物身份及情绪的识别无效;采用长短记忆神经网络从视频中提取情绪特征,并要求该情绪特征对于情绪识别有效,对于人物身份及语音的识别无效,从而对视频实现人物身份特征、语音特征及情绪特征的解耦。
进一步的,所述步骤一分类对抗的解耦表示学习方法,包括3个编码器以及6个分类器,对于输入视频,第一阶段:先固编码器,训练更新分类器对编码器输出的视频人物身份特征进行视频语音及视频情绪分类;然后固定该分类器,训练更新编码器,使其输出的视频人物身份特征无法对视频样本进行视频语音及视频情绪的分类,从而迫使编码器学习出不包含视频语音特征及视频情绪特征的干净视频人物身份特征;第二阶段:先固编码器,训练更新分类器对编码器输出的视频语音特征对视频样本进行人物身份及视频情绪的分类;然后固定该分类器,训练更新编码器,使其输出的视频语音特征无法对视频样本进行人物身份及视频情绪的分类,从而迫使编码器学习出不包含视频人物身份特征及视频情绪特征的干净视频语音特征;第三阶段:先固编码器,训练更新分类器对编码器输出的视频情绪特征进行视频语音及视频人物身份分类;然后固定该分类器,训练更新编码器,使其输出的视频情绪特征无法对视频样本进行视频语音及视频人物身份的分类,从而迫使编码器学习出不包含视频语音特征及视频人物身份特征的干净视频情绪特征。
进一步的,所述步骤一的具体实现方式如下,
所述的分类对抗的解耦表示学习方法包括3个编码器和以及6个分类器/>及编码器/>从说话视频Video中提取视频中说话人物的视频人物身份特征分类器/>和/>对上述视频人物身份特征/>进行视频语音及视频情绪的分类,该过程表示为:
为实现步骤一中所述的视频身份特征以及视频语音特征的解耦,步骤一中的分类对抗分为三阶段:
第一阶段,剔除视频人物身份特征中包含的视频语音特征和视频情绪特征,得到单纯的视频人物身份特征,具体迭代实施如下:首先固定视频人物身份特征编码器训练更新分类器/>和分类器/>用视频人物身份特征对视频分别进行视频说话语音及视频情绪的分类,以训练分类器/>和分类器/>的分类能力,损失函数如下:
然后,固定分类器和/>迭代更新视频人物身份特征编码器要求每一个视频的说话词语类别都是一样的,使得编码器/>提取出来的人物身份特征不能对视频语音和视频情绪进行分类,进而剔除视频人物身份特征中所包含的视频语音特征和视频情绪特征,从而达到提取纯净的视频人物身份特征的目的;损失函数如下:
第二阶段,剔除视频语音特征中包含的视频人物身份特征和情绪特征,得到单纯的视频语音特征,具体迭代实施如下:首先固定视频语音特征编码器训练更新分类器/>和/>用视频说话语音特征对视频进行视频人物身份特征及视频情绪特征的分类,损失函数如下:
然后,固定分类器和/>迭代更新视频语音特征编码器要求每一个视频的人物身份分类结果以及情绪分类结果都是一样的,从而迫使编码器/>提取出来的视频语音特征不能对视频人物身份和视频情绪进行分类,进而剔除视频语音特征中包含的视频人物身份特征和视频情绪特征,从而达到获取纯净的视频语音特征的目的;
第三阶段,剔除视频人物情绪特征中包含的视频身份特征和视频语音特征,得到单纯的视频情绪特征,具体迭代实施如下:首先固定视频人物情绪特征编码器训练更新分类器/>和分类器/>用视频情绪特征对视频分别进行视频说话语音及视频人物身份的分类,以训练分类器/>和分类器/>的分类能力,损失函数如下:
其中,λe为权重,取值0~1;
然后,固定分类器和/>迭代更新视频情绪特征编码器要求每一个视频的说话词语类别都是一样的,使得编码器/>提取出来的情绪特征不能对视频语音和视频人物身份进行分类,进而剔除视频情绪特征中所包含的视频语音特征和视频人物身份特征,从而达到提取纯净的视频情绪特征的目的;损失函数如下:
较佳地,步骤二中的分类对抗采用长短记忆神经网络从音频中提取人物身份特征,要求该人物身份特征对于人物身份识别有效,但是对语音(说话内容)识别及情绪识别无效;而且采用长短记忆神经网络从音频中提取语音特征,并要求该语音特征对于语音识别有效,对于人物身份及情绪的识别无效;采用长短记忆神经网络从音频中提取情绪特征,并要求该情绪特征对于情绪识别有效,对于人物身份及语音的识别无效;从而对音频实现人物身份特征、语音特征及情绪特征的解耦。
进一步的,所述步骤二分类对抗的解耦表示学习方法,包括3个编码器以及6个分类器,对于输入音频,第一阶段:先固编码器,训练更新分类器对编码器输出的音频人物身份特征进行音频语音及音频情绪分类;然后固定该分类器,训练更新编码器,使其输出的音频人物身份特征无法对音频样本进行音频语音及音频情绪的分类,从而迫使编码器学习出不包含音频语音特征及音频情绪特征的干净音频人物身份特征;第二阶段:先固编码器,训练更新分类器对编码器输出的音频语音特征对音频样本进行人物身份和音频情绪分类;然后固定该分类器,训练更新编码器,使其输出的音频语音特征无法对音频样本进行人物身份及音频情绪的分类,从而迫使编码器学习出不包含音频人物身份特征和音频情绪特征的干净音频语音特征;第三阶段:先固编码器,训练更新分类器对编码器输出的音频情绪特征进行音频语音及音频人物身份分类;然后固定该分类器,训练更新编码器,使其输出的音频情绪特征无法对音频样本进行音频语音及音频人物身份的分类,从而迫使编码器学习出不包含音频语音特征及音频人物身份特征的干净音频情绪特征。
所述步骤二的具体实现方式如下,
所述的分类对抗的解耦表示学习方法包括3个编码器和以及6个分类器/>和编码器/>从说话音频Audio中提取说话人物的音频人物身份特征分类器/>和/>分别对上述音频人物身份特征/>进行音频语音及音频情绪分类;该过程表示为:
为实现步骤二中所述的视频人物身份特征以及视频语音特征的解耦,步骤二中的分类对抗分为三个阶段:
第一阶段,剔除音频人物身份特征中包含的音频语音特征和音频情绪特征,得到单纯的音频人物身份特征,具体迭代实施如下:首先固定音频人物身份特征编码器训练更新分类器/>和/>用音频人物身份特征对音频进行音频语音及音频情绪的分类,以训练分类器/>和/>根据音频人物身份特征对音频进行音频说话语音及音频情绪的分类能力,损失函数如下:
然后,固定分类器和和/>迭代更新音频人物身份特征编码器要求每一个音频的说话词语类别都是一样的,使得编码器/>提取出来的人物身份特征不能对音频语音及音频情绪进行分类,进而剔除音频人物身份特征中所包含的音频语音特征及音频情绪特征,从而达到提取纯净的音频人物身份特征的目的;损失函数如下:
第二阶段,剔除音频语音特征中包含的音频人物身份特征和音频情绪特征,得到单纯的音频语音特征,具体迭代实施如下:首先固定音频语音特征编码器训练更新分类器/>和/>用音频说话语音特征对音频进行音频人物身份特征及音频情绪特征的分类,以训练分类器/>和/>根据音频说话语音特征对音频进行音频人物身份及音频情绪进行分类能力,损失函数如下:
然后,固定分类器和/>迭代更新音频语音特征编码器要求每一个视频的人物身份及音频情绪的分类结果都是一样的,从而迫使编码器/>提取出来的音频语音特征不能对音频人物身份及音频情绪进行分类,进而剔除音频语音特征中包含的音频人物身份特征及音频情绪特征,从而达到获取纯净的音频语音特征的目的;损失函数如下:
第三阶段,剔除音频情绪特征中包含的音频语音特征和音频人物身份特征,得到单纯的音频情绪特征,具体迭代实施如下:首先固定音频情绪特征编码器训练更新分类器/>和/>用音频情绪特征对音频进行音频语音及音频人物身份分类的能力,损失函数如下:
其中,λe为权重,取值0~1;
然后,固定分类器和/>迭代更新音频人物身份特征编码器要求每一个音频的情绪类别都是一样的,使得编码器/>提取出来的情绪特征不能对音频语音及音频人物身份进行分类,进而剔除音频情绪特征中所包含的音频语音特征及音频人物身份特征。从而达到提取纯净的音频情绪特征的目的;损失函数如下:
较佳地,步骤三根据说话视频中语音特征(面部特征变化)和对应音频中语音特征之间存在的一致性,将由音频语音特征生成视频语音特征这一问题建模为由视频语音特征生成音频语音特征(唇读问题)的反问题,构建对偶学习模型利用对偶一致性误差及生成误差共同对对偶生成过程进行约束,实现音频语音特征和视频语音特征这两个不同隐空间的相互映射,从而将音频语音特征映射到视频语音特征空间。
步骤三的具体实现方式如下,
对偶一致性损失函数
最终DualGAN的损失函数如下:
L(G,F,DA,DV)=LGAN(G,Dv,A,V)+LGAN(F,Da,V,A)+λLDual(G,F)
其中,λ表示权重,取值0~0.5。
较佳地,步骤四将步骤三转换音频中的语音特征得到为视频中的语音特征和视频或者图片中的人物身份特征结合,采用时序对抗生成网络生成同时满足该语音特征、情绪特征及人物身份特征的说话人脸视频。
步骤四的具体实现方式如下,
将步骤3由音频语音特征转换得到的视频语音特征/>及视频情绪特征/>和步骤2中得到的视频人物身份特征结合,视频人物身份特征记为利用序列生成模型GV生成说话人脸视频,对应的真实说话人脸视频groundtruth为GTV,判别器为DV,则重构误差损失为:
视频序列生成误差损失为:
最终总的损失函数为:
LT=Lrec+λTLGAN
其中,λT为生成损失的权重,取值0~0.5。
采用分类对抗的方法将音频中的人物身份特征、语音特征及情绪特征解耦,并且用分类对抗的方法将视频中的人物身份特征、语音特征及情绪特征解耦,这些特征的解耦提高了本方法对生成说话视频的可操控性。采用对偶学习对音频中的语音特征和静音视频中的语音特征进行映射,对音频中的情绪特征和静音视频中的情绪特征进行映射,实现了音频和视频的跨模态特征转换,极大提高了从音频生成说话人脸视频的便利性,也提高了生成说话人脸视频的连贯与自然程度。由于对人物身份及语音等关键信息实施了解耦及跨模态的转换,故可以根据任意单张人脸图片及音频生成真实自然的说话视频,无需大量特定人脸视频,提高了易用性。
附图说明
图1为本发明实施模型的训练流程图;
图2为本发明实施模型的测试及使用流程图;
图3为本发明实施对偶学习模型结构图。
具体实施方式
下面结合附图和实施例对本发明做进一步的说明。
本发明提出了一种基于解耦表示学习的说话人脸视频生成方法,通过对音频及视频中关键特征的解耦,获取干净的生成说话人脸视频所需的音频语音特征、视频人物身份特征及视频情绪特征,不仅避免了其他特征的干扰,提高了生成说话人脸视频的质量,而且能够减少对说话人物面部图像的需求量,即使单张图片也能生成说话人脸视频,极大拓宽了说话人脸视频生成方法的应用场景。首先使用分类对抗方法对输入音频中的音频人物身份特征、音频语音特征及音频情绪特征进行解耦,得到干净的音频人物身份特征、音频语音特征及音频情绪特征,避免了音频中的身份特征对生成说话视频的干扰;然后使用分类对抗方法对输入视频中的视频人物身份特征、视频语音特征及视频情绪特征进行解耦,得到干净的视频人物身份特征、视频语音特征及视频情绪特征,避免了视频中的语音特征及情绪特征对生成说话视频的干扰;接下来使用对偶学习方法将音频语音特征隐空间映射到视频语音特征隐空间,并将音频情绪特征隐空间映射到视频情绪特征隐空间,最后联合视频人物身份特征、映射到该空间的音频语音特征及音频情绪特征,共同生成说话人脸视频。利用该方法,即使输入单证人脸图片和一段说话音频,也能生成符合该图片人物身份特征的且与该音频语音内容及情绪对应的清晰自然的说话人脸视频。
如图1所示,一种基于解耦表示学习的说话人脸视频生成方法,该方法主要包括音频特征解耦、视频特征解耦、音频语音特征及情绪特征到视频语音特征及情绪特征的转换,由音频语音特征及视频人物特征生成说话人脸视频等四个步骤。
步骤1:通过分类对抗的解耦表示学习方法从说话视频中提取说话人物的视频人物身份特征、视频语音特征以及视频情绪特征,实现说话人脸视频关键特征的解耦。
步骤1中所述的说话视频是指包含一个人的说话脸部画面的静音视频,说话内容为一个词语,每个说话视频Video均包含一个视频人物身份类标签、一个视频说话词语类标签和一个情绪类标签;
所述的分类对抗的解耦表示学习方法包括3个编码器和以及6个分类器/>及编码器/>从说话视频Video中提取视频中说话人物的视频人物身份特征分类器/>和/>对上述视频人物身份特征/>进行视频语音及视频情绪的分类。该过程可以表示为:
为实现步骤1中所述的视频身份特征以及视频语音特征的解耦,步骤1中的分类对抗分为三阶段:
第一阶段,剔除视频人物身份特征中包含的视频语音特征和视频情绪特征,得到单纯的视频人物身份特征,具体迭代实施如下:首先固定视频人物身份特征编码器训练更新分类器/>和分类器/>用视频人物身份特征对视频分别进行视频说话语音及视频情绪的分类,以训练分类器/>和分类器/>的分类能力,损失函数如下:
然后,固定分类器和/>迭代更新视频人物身份特征编码器要求每一个视频的说话词语类别都是一样的,使得编码器/>提取出来的人物身份特征不能对视频语音和视频情绪进行分类,进而剔除视频人物身份特征中所包含的视频语音特征和视频情绪特征。从而达到提取纯净的视频人物身份特征的目的。损失函数如下:
第二阶段,剔除视频语音特征中包含的视频人物身份特征和情绪特征,得到单纯的视频语音特征,具体迭代实施如下:首先固定视频语音特征编码器训练更新分类器/>和/>用视频说话语音特征对视频进行视频人物身份特征及视频情绪特征的分类,损失函数如下:
然后,固定分类器和/>迭代更新视频语音特征编码器要求每一个视频的人物身份分类结果以及情绪分类结果都是一样的,从而迫使编码器/>提取出来的视频语音特征不能对视频人物身份和视频情绪进行分类,进而剔除视频语音特征中包含的视频人物身份特征和视频情绪特征。从而达到获取纯净的视频语音特征的目的。
第三阶段,剔除视频人物情绪特征中包含的视频身份特征和视频语音特征,得到单纯的视频情绪特征,具体迭代实施如下:首先固定视频人物情绪特征编码器训练更新分类器/>和分类器/>用视频情绪特征对视频分别进行视频说话语音及视频人物身份的分类,以训练分类器/>和分类器/>的分类能力,损失函数如下:
其中,λe为权重,取值0~1;
然后,固定分类器和/>迭代更新视频情绪特征编码器要求每一个视频的说话词语类别都是一样的,使得编码器/>提取出来的情绪特征不能对视频语音和视频人物身份进行分类,进而剔除视频情绪特征中所包含的视频语音特征和视频人物身份特征。从而达到提取纯净的视频情绪特征的目的。损失函数如下:/>
步骤2:通过分类对抗的解耦表示学习方法从说话音频中提取说话人的音频人物身份特征、音频语音特征以及音频情绪特征,实现音频关键特征的解耦。
步骤2中所述的说话音频是指包含一个人的说话音频,说话内容为一个词语,每个说话音频Audio均包含一个音频人物身份类标签、一个音频说话词语类标签和一个音频情绪类标签;
所述的分类对抗的解耦表示学习方法包括3个编码器和以及6个分类器/>和编码器/>从说话音频Audio中提取说话人物的音频人物身份特征分类器/>和/>分别对对上述音频人物身份特征/>进行音频语音及音频情绪分类。该过程可以表示为:
为实现步骤2中所述的视频人物身份特征以及视频语音特征的解耦,步骤2中的分类对抗分为三个阶段:
第一阶段,剔除音频人物身份特征中包含的音频语音特征和音频情绪特征,得到单纯的音频人物身份特征,具体迭代实施如下:首先固定音频人物身份特征编码器训练更新分类器/>和/>用音频人物身份特征对音频进行音频语音及音频情绪的分类,以训练分类器/>和/>根据音频人物身份特征对音频进行音频说话语音及音频情绪的分类能力,损失函数如下:/>
然后,固定分类器和和/>迭代更新音频人物身份特征编码器要求每一个音频的说话词语类别都是一样的,使得编码器/>提取出来的人物身份特征不能对音频语音及音频情绪进行分类,进而剔除音频人物身份特征中所包含的音频语音特征及音频情绪特征。从而达到提取纯净的音频人物身份特征的目的。损失函数如下:
第二阶段,剔除音频语音特征中包含的音频人物身份特征和音频情绪特征,得到单纯的音频语音特征,具体迭代实施如下:首先固定音频语音特征编码器训练更新分类器/>和/>用音频说话语音特征对音频进行音频人物身份特征及音频情绪特征的分类,以训练分类器/>和/>根据音频说话语音特征对音频进行音频人物身份及音频情绪进行分类能力,损失函数如下:
然后,固定分类器和/>迭代更新音频语音特征编码器要求每一个视频的人物身份及音频情绪的分类结果都是一样的,从而迫使编码器/>提取出来的音频语音特征不能对音频人物身份及音频情绪进行分类,进而剔除音频语音特征中包含的音频人物身份特征及音频情绪特征。从而达到获取纯净的音频语音特征的目的。
第三阶段,剔除音频情绪特征中包含的音频语音特征和音频人物身份特征,得到单纯的音频情绪特征,具体迭代实施如下:首先固定音频情绪特征编码器训练更新分类器/>和/>用音频情绪特征对音频进行音频语音及音频人物身份分类的能力,损失函数如下:
其中,λe为权重,取值0~1;
然后,固定分类器和/>迭代更新音频人物身份特征编码器要求每一个音频的情绪类别都是一样的,使得编码器/>提取出来的情绪特征不能对音频语音及音频人物身份进行分类,进而剔除音频情绪特征中所包含的音频语音特征及音频人物身份特征。从而达到提取纯净的音频情绪特征的目的。损失函数如下:
步骤3:由步骤2可以将说话音频解耦为音频人物身份特征和音频语音特征/>并且可以将说话视频解耦为视频人物身份特征/>和视频语音特征接下来需要根据视频人物身份特征/>和音频语音特征/>重构说话人脸视频,但是/>和/>属于不同的隐空间,难以直接用于视频生成。对此,提出用对偶对抗生成模型DualGAN学习这两类特征到彼此隐空间的映射,从而将/>转换到/>所在隐空间。假设A和V分别为音频语音特征/>和视频语音特征/>则对偶对抗生成模型DualGAN的损失函数结构如下:
对偶一致性损失函数
最终DualGAN的损失函数如下:
L(G,F,DA,DV)=LGAN(G,Dv,A,V)+LGAN(F,Da,V,A)+λLDual(G,F)
其中,λ表示权重,取值0~0.5。
步骤4:将步骤3由音频语音特征转换得到的视频语音特征/>及视频情绪特征/>和步骤2中得到的视频人物身份特征/>结合,利用序列生成模型GV生成说话人脸视频,对应的真实说话人脸视频groundtruth为GTV,判别器为DV。则重构误差损失为:
视频序列生成误差损失为:
最终总的损失函数为:
LT=Lrec+λTLGAN
λT为生成损失的权重,取值0~0.5。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (6)
1.一种基于解耦表示学习的说话人脸视频生成方法,其特征在于,该方法包含如下步骤:
步骤一,通过分类对抗的解耦表示学习方法从说话视频Video中提取说话人物的视频人物身份特征、视频语音特征以及视频情绪特征,实现说话人脸视频关键特征的解耦;
步骤二,通过分类对抗的解耦表示学习方法从说话音频Audio中提取说话人的音频人物身份特征、音频语音特征以及音频情绪特征,实现音频关键特征的解耦;
步骤三,使用对偶学习模型实现音频语音特征和视频语音特征这两个不同隐空间的相互映射,并使用对偶学习模型实现音频情绪特征和视频情绪特征这两个不同隐空间的相互映射;
步骤三的具体实现方式如下,
对偶一致性损失函数
最终DualGAN的损失函数如下:
L(G,F,DA,DV)=LGAN(G,Dv,A,V)+LGAN(F,Da,V,A)+λLDual(G,F)
其中,λ表示权重,取值0~0.5;
步骤四,最后联合视频人物身份特征、映射到该空间的音频语音特征及音频情绪特征,共同生成说话人脸视频。
2.根据权利要求1所述的一种基于解耦表示学习的说话人脸视频生成方法,其特征在于:
所述步骤二分类对抗的解耦表示学习方法,包括3个编码器以及6个分类器,对于输入视频,第一阶段:先固编码器,训练更新分类器对编码器输出的视频人物身份特征进行视频语音及视频情绪分类;然后固定该分类器,训练更新编码器,使其输出的视频人物身份特征无法对视频样本进行视频语音及视频情绪的分类,从而迫使编码器学习出不包含视频语音特征及视频情绪特征的干净视频人物身份特征;第二阶段:先固编码器,训练更新分类器对编码器输出的视频语音特征对视频样本进行人物身份及视频情绪的分类;然后固定该分类器,训练更新编码器,使其输出的视频语音特征无法对视频样本进行人物身份及视频情绪的分类,从而迫使编码器学习出不包含视频人物身份特征及视频情绪特征的干净视频语音特征;第三阶段:先固编码器,训练更新分类器对编码器输出的视频情绪特征进行视频语音及视频人物身份分类;然后固定该分类器,训练更新编码器,使其输出的视频情绪特征无法对视频样本进行视频语音及视频人物身份的分类,从而迫使编码器学习出不包含视频语音特征及视频人物身份特征的干净视频情绪特征。
3.根据权利要求2所述的一种基于解耦表示学习的说话人脸视频生成方法,其特征在于:所述步骤一的具体实现方式如下,
所述的分类对抗的解耦表示学习方法包括3个编码器和/>以及6个分类器/>及/>编码器/>从说话视频Video中提取视频中说话人物的视频人物身份特征/>分类器/>和/>对上述视频人物身份特征/>进行视频语音及视频情绪的分类,具体过程表示为:
为实现步骤一中所述的视频身份特征以及视频语音特征的解耦,步骤一中的分类对抗分为三阶段:
第一阶段,剔除视频人物身份特征中包含的视频语音特征和视频情绪特征,得到单纯的视频人物身份特征,具体迭代实施如下:首先固定视频人物身份特征编码器训练更新分类器/>和分类器/>用视频人物身份特征对视频分别进行视频说话语音及视频情绪的分类,以训练分类器/>和分类器/>的分类能力,损失函数如下:
然后,固定分类器和/>迭代更新视频人物身份特征编码器要求每一个视频的说话词语类别都是一样的,使得编码器/>提取出来的人物身份特征不能对视频语音和视频情绪进行分类,进而剔除视频人物身份特征中所包含的视频语音特征和视频情绪特征,从而达到提取纯净的视频人物身份特征的目的;损失函数如下:
第二阶段,剔除视频语音特征中包含的视频人物身份特征和情绪特征,得到单纯的视频语音特征,具体迭代实施如下:首先固定视频语音特征编码器训练更新分类器和/>用视频说话语音特征对视频进行视频人物身份特征及视频情绪特征的分类,损失函数如下:
然后,固定分类器和/>迭代更新视频语音特征编码器/>要求每一个视频的人物身份分类结果以及情绪分类结果都是一样的,从而迫使编码器提取出来的视频语音特征不能对视频人物身份和视频情绪进行分类,进而剔除视频语音特征中包含的视频人物身份特征和视频情绪特征,从而达到获取纯净的视频语音特征的目的;
第三阶段,剔除视频人物情绪特征中包含的视频身份特征和视频语音特征,得到单纯的视频情绪特征,具体迭代实施如下:首先固定视频人物情绪特征编码器训练更新分类器/>和分类器/>用视频情绪特征对视频分别进行视频说话语音及视频人物身份的分类,以训练分类器/>和分类器/>的分类能力,损失函数如下:
其中,λe为权重,取值0~1;
然后,固定分类器和/>迭代更新视频情绪特征编码器/>要求每一个视频的说话词语类别都是一样的,使得编码器/>提取出来的情绪特征不能对视频语音和视频人物身份进行分类,进而剔除视频情绪特征中所包含的视频语音特征和视频人物身份特征,从而达到提取纯净的视频情绪特征的目的;损失函数如下:
4.根据权利要求1所述的一种基于解耦表示学习的说话人脸视频生成方法,其特征在于:
所述步骤一分类对抗的解耦表示学习方法,包括3个编码器以及6个分类器,对于输入音频,第一阶段:先固编码器,训练更新分类器对编码器输出的音频人物身份特征进行音频语音及音频情绪分类;然后固定该分类器,训练更新编码器,使其输出的音频人物身份特征无法对音频样本进行音频语音及音频情绪的分类,从而迫使编码器学习出不包含音频语音特征及音频情绪特征的干净音频人物身份特征;第二阶段:先固编码器,训练更新分类器对编码器输出的音频语音特征对音频样本进行人物身份和音频情绪分类;然后固定该分类器,训练更新编码器,使其输出的音频语音特征无法对音频样本进行人物身份及音频情绪的分类,从而迫使编码器学习出不包含音频人物身份特征和音频情绪特征的干净音频语音特征;第三阶段:先固编码器,训练更新分类器对编码器输出的音频情绪特征进行音频语音及音频人物身份分类;然后固定该分类器,训练更新编码器,使其输出的音频情绪特征无法对音频样本进行音频语音及音频人物身份的分类,从而迫使编码器学习出不包含音频语音特征及音频人物身份特征的干净音频情绪特征。
5.根据权利要求4所述的一种基于解耦表示学习的说话人脸视频生成方法,其特征在于:所述步骤二的具体实现方式如下,
所述的分类对抗的解耦表示学习方法包括3个编码器和/>以及6个分类器/>和/>编码器/>从说话音频Audio中提取说话人物的音频人物身份特征/>分类器和/>分别对上述音频人物身份特征/>进行音频语音及音频情绪分类;具体过程表示为:
为实现步骤二中所述的视频人物身份特征以及视频语音特征的解耦,步骤二中的分类对抗分为三个阶段:
第一阶段,剔除音频人物身份特征中包含的音频语音特征和音频情绪特征,得到单纯的音频人物身份特征,具体迭代实施如下:首先固定音频人物身份特征编码器训练更新分类器/>和/>用音频人物身份特征对音频进行音频语音及音频情绪的分类,以训练分类器/>和/>根据音频人物身份特征对音频进行音频说话语音及音频情绪的分类能力,损失函数如下:
然后,固定分类器和/>迭代更新音频人物身份特征编码器要求每一个音频的说话词语类别都是一样的,使得编码器/>提取出来的人物身份特征不能对音频语音及音频情绪进行分类,进而剔除音频人物身份特征中所包含的音频语音特征及音频情绪特征,从而达到提取纯净的音频人物身份特征的目的;损失函数如下:
第二阶段,剔除音频语音特征中包含的音频人物身份特征和音频情绪特征,得到单纯的音频语音特征,具体迭代实施如下:首先固定音频语音特征编码器训练更新分类器/>和/>用音频说话语音特征对音频进行音频人物身份特征及音频情绪特征的分类,以训练分类器/>和/>根据音频说话语音特征对音频进行音频人物身份及音频情绪进行分类能力,损失函数如下:
然后,固定分类器和/>迭代更新音频语音特征编码器/>要求每一个视频的人物身份及音频情绪的分类结果都是一样的,从而迫使编码器/>提取出来的音频语音特征不能对音频人物身份及音频情绪进行分类,进而剔除音频语音特征中包含的音频人物身份特征及音频情绪特征,从而达到获取纯净的音频语音特征的目的;损失函数如下:
第三阶段,剔除音频情绪特征中包含的音频语音特征和音频人物身份特征,得到单纯的音频情绪特征,具体迭代实施如下:首先固定音频情绪特征编码器训练更新分类器/>和/>用音频情绪特征对音频进行音频语音及音频人物身份分类的能力,损失函数如下:
其中,λe为权重,取值0~1;
然后,固定分类器和/>迭代更新音频人物身份特征编码器要求每一个音频的情绪类别都是一样的,使得编码器/>提取出来的情绪特征不能对音频语音及音频人物身份进行分类,进而剔除音频情绪特征中所包含的音频语音特征及音频人物身份特征,从而达到提取纯净的音频情绪特征的目的;损失函数如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010420200.8A CN111666831B (zh) | 2020-05-18 | 2020-05-18 | 一种基于解耦表示学习的说话人脸视频生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010420200.8A CN111666831B (zh) | 2020-05-18 | 2020-05-18 | 一种基于解耦表示学习的说话人脸视频生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666831A CN111666831A (zh) | 2020-09-15 |
CN111666831B true CN111666831B (zh) | 2023-06-20 |
Family
ID=72383916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010420200.8A Active CN111666831B (zh) | 2020-05-18 | 2020-05-18 | 一种基于解耦表示学习的说话人脸视频生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666831B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735373B (zh) * | 2020-12-31 | 2024-05-03 | 科大讯飞股份有限公司 | 语音合成方法、装置、设备及存储介质 |
CN112989935A (zh) * | 2021-02-05 | 2021-06-18 | 北京百度网讯科技有限公司 | 一种视频生成方法、装置、设备以及存储介质 |
CN113449590B (zh) * | 2021-05-14 | 2022-10-28 | 网易(杭州)网络有限公司 | 说话视频生成方法及装置 |
CN115205949B (zh) * | 2022-09-05 | 2022-12-06 | 腾讯科技(深圳)有限公司 | 图像生成方法以及相关设备 |
CN116152885B (zh) * | 2022-12-02 | 2023-08-01 | 南昌大学 | 一种基于特征解耦的跨模态异质人脸识别和原型修复方法 |
CN116091668B (zh) * | 2023-04-10 | 2023-07-21 | 广东工业大学 | 一种基于情绪特征指导的说话头视频生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014001095A1 (en) * | 2012-06-26 | 2014-01-03 | Thomson Licensing | Method for audiovisual content dubbing |
CN105760852A (zh) * | 2016-03-14 | 2016-07-13 | 江苏大学 | 一种融合脸部表情和语音的驾驶员情感实时识别方法 |
CN110263865A (zh) * | 2019-06-24 | 2019-09-20 | 北方民族大学 | 一种半监督多模态多类别的图像翻译方法 |
CN110880315A (zh) * | 2019-10-17 | 2020-03-13 | 深圳市声希科技有限公司 | 一种基于音素后验概率的个性化语音和视频生成系统 |
-
2020
- 2020-05-18 CN CN202010420200.8A patent/CN111666831B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014001095A1 (en) * | 2012-06-26 | 2014-01-03 | Thomson Licensing | Method for audiovisual content dubbing |
CN105760852A (zh) * | 2016-03-14 | 2016-07-13 | 江苏大学 | 一种融合脸部表情和语音的驾驶员情感实时识别方法 |
CN110263865A (zh) * | 2019-06-24 | 2019-09-20 | 北方民族大学 | 一种半监督多模态多类别的图像翻译方法 |
CN110880315A (zh) * | 2019-10-17 | 2020-03-13 | 深圳市声希科技有限公司 | 一种基于音素后验概率的个性化语音和视频生成系统 |
Non-Patent Citations (3)
Title |
---|
Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, Xiaogang Wang.Talking Face Generation by Adversarially Disentangled Audio-Visual Representation:Talking Face Generation by Adversarially Disentangled Audio-Visual Representation.《Proceedings of the AAAI Conference on Artificial Intelligence》.2019,第1-8页. * |
Zili Yi, Hao Zhang, Ping Tan, Minglun Gong.DualGAN: Unsupervised Dual Learning for Image-To-Image Translation.《arXiv》.2017,第2849-2857页. * |
唐郅.语音驱动虚拟说话人研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2017,第1-62页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111666831A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111666831B (zh) | 一种基于解耦表示学习的说话人脸视频生成方法 | |
Li et al. | Direct speech-to-image translation | |
CN111885414B (zh) | 一种数据处理方法、装置、设备及可读存储介质 | |
CN111488489A (zh) | 视频文件的分类方法、装置、介质及电子设备 | |
CN113592985B (zh) | 混合变形值的输出方法及装置、存储介质、电子装置 | |
CN113205793B (zh) | 音频生成方法、装置、存储介质及电子设备 | |
CN111354246A (zh) | 一种用于帮助聋哑人交流的系统及方法 | |
CN113593601A (zh) | 基于深度学习的视听多模态语音分离方法 | |
CN113327619B (zh) | 一种基于云—边缘协同架构的会议记录方法及系统 | |
CN112489636A (zh) | 一种智能语音播报助手选择方法和系统 | |
CN117115310A (zh) | 一种基于音频和图像的数字人脸生成方法及系统 | |
CN114360491B (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 | |
KR20210055464A (ko) | 기계학습 기반의 화자 분리 방법 및 그를 위한 장치 | |
CN114155321B (zh) | 一种基于自监督和混合密度网络的人脸动画生成方法 | |
CN113450824B (zh) | 一种基于多尺度视频特征融合的语音唇读方法及系统 | |
CN113658582B (zh) | 一种音视协同的唇语识别方法及系统 | |
Sunder et al. | Reliable and Trustworthy Virtual Production Workflow for Surround and Atmos | |
CN115908661A (zh) | 一种基于gan网络将戏剧人物图片生成演唱视频的方法 | |
CN110807370B (zh) | 一种基于多模态的会议发言人身份无感确认方法 | |
Mahavidyalaya | Phoneme and viseme based approach for lip synchronization | |
Krokotsch et al. | Generative adversarial networks and simulated+ unsupervised learning in affect recognition from speech | |
Javeri et al. | Predicting Personalized Head Related Transfer Functions using Acoustic Scattering Neural Networks | |
Kadam et al. | A Survey of Audio Synthesis and Lip-syncing for Synthetic Video Generation | |
Mezza et al. | Improving Domain Generalization Via Event-Based Acoustic Scene Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |