CN111666831A - 一种基于解耦表示学习的说话人脸视频生成方法 - Google Patents

一种基于解耦表示学习的说话人脸视频生成方法 Download PDF

Info

Publication number
CN111666831A
CN111666831A CN202010420200.8A CN202010420200A CN111666831A CN 111666831 A CN111666831 A CN 111666831A CN 202010420200 A CN202010420200 A CN 202010420200A CN 111666831 A CN111666831 A CN 111666831A
Authority
CN
China
Prior art keywords
video
audio
voice
emotion
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010420200.8A
Other languages
English (en)
Other versions
CN111666831B (zh
Inventor
熊盛武
林承德
路雄博
陈燚雷
刘锋
陈如意
曹丹凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Shuixiang Electronic Technology Co ltd
Wuhan University of Technology WUT
Original Assignee
Wuhan Shuixiang Electronic Technology Co ltd
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Shuixiang Electronic Technology Co ltd, Wuhan University of Technology WUT filed Critical Wuhan Shuixiang Electronic Technology Co ltd
Priority to CN202010420200.8A priority Critical patent/CN111666831B/zh
Publication of CN111666831A publication Critical patent/CN111666831A/zh
Application granted granted Critical
Publication of CN111666831B publication Critical patent/CN111666831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于解耦表示学习的说话人脸视频生成方法,采用分类对抗的方法将音频中的人物身份特征、语音特征及情绪特征解耦,并且用分类对抗的方法将视频中的人物身份特征、语音特征及情绪特征解耦,这些特征的解耦提高了本方法对生成说话视频的可操控性。采用对偶学习对音频中的语音特征和静音视频中的语音特征进行映射,对音频中的情绪特征和静音视频中的情绪特征进行映射,实现了音频和视频的跨模态特征转换,极大提高了从音频生成说话人脸视频的便利性,也提高了生成说话人脸视频的连贯与自然程度。本发明可以根据任意单张人脸图片及音频生成真实自然的说话视频,无需大量特定人脸视频,提高了易用性。

Description

一种基于解耦表示学习的说话人脸视频生成方法
技术领域
本发明涉及深度学习与多媒体跨模态生成,具体涉及一种基于解耦表示学习的说话人脸视频生成方法。
背景技术
说话人脸视频生成是指给定单张人脸图片和一段单人说话语音,生成这个人的说话人脸视频,而且该视频中人脸的说话内容与输入语音一致。说话人脸视频生成技术在虚拟主播、人机交互及影视动画制作等领域具有广阔应用前景。
由单张人脸图片和说话语音生成自然流畅的说话人脸视频十分具有挑战性,一方面需要实现保留身份特征的多帧人脸生成,而且要求人脸变化尤其是唇形变化在时域上要与输入语音一致。为此,已有研究者提出基于深度学习的说话人脸视频生成,虽然取得一定效果,但是存在一些问题。说话音频中包含由说话者人物身份特征、情绪及语音特征(说话内容)等多种特征空间,类似的,说话视频也包括说话人物身份特征、情绪及语音特征(说话引起的面部动作)等多种特征空间。现有说话人脸视频生成方法由于未能很好的将音频中的身份特征、语音特征和情绪特征以及视频中的说话人身份特征、语音特征和情绪特征解耦,生成说话视频存在以下问题:(1)音频中语音特征及情绪特征之外的特征以及是视频中人物身份特征之外的信息会严重干扰说话人脸视频生成效果,使得生成视频中唇形与语音不一致,给人不够真实的感觉;(2)由于未能将语音及视频中的情绪特征分离出来,因此生成的说话人脸视频面无表情,情绪上与语音不对应,整体效果不够自然。这些问题的存在极大的影响了说话人脸视频的实际应用。
发明内容:
本发明的目的是为了解决上述背景技术存在的不足,而提出一种基于解耦表示学习的说话人脸视频生成方法。
本发明包括三个方面:使用分类对抗方法对输入音频中的音频人物身份特征、音频语音特征及音频情绪特征进行解耦,得到干净的音频人物身份特征、音频语音特征及音频情绪特征;使用分类对抗方法对输入视频中的视频人物身份特征、视频语音特征及音频情绪特征进行解耦,得到干净的视频人物身份特征、视频语音特征及音频情绪特征;使用对偶学习方法实现音频语音特征和视频语音特征这两个不同隐空间的相互映射,并使用对偶学习方法实现音频情绪特征和视频情绪特征这两个不同隐空间的相互映射;联合视频人物身份特征和映射到该空间的音频语音特征及音频情绪特征,实现由单张图片和说话音频共同生成说话人脸视频。
本发明在训练阶段,采用分类对抗的方法将音频中的人物身份特征、语音特征以及情绪特征解耦,并且用分类对抗的方法将视频中的人物身份息、语音特征及情绪特征解耦,然后采用对偶学习将音频中的语音特征映射到视频中的语音特征,并采用对偶学习将音频中的情绪特征映射到视频中的情绪特征,最后综合视频中的人物身份特征共同完成说话人脸视频的生成。在测试阶段,将给定任意单张人脸图片和说话音频,即可生成该人脸符合音频情绪特征的说话视频。由于对人物身份、语音及情绪等关键信息实施了解耦,可以根据任意单张人脸图片及音频生成真实自然的说话视频。不仅避免了音频和视频中不同隐空间特征对生成说话视频结果的干扰,且视频画面所展现的情绪与输入音频的情绪保持一致,较好的解决现有方法存在的上述两个问题。
为了实现上述目的,本发明所采用的技术方案为:
一种基于解耦表示学习的说话人脸视频生成方法,该方法包括如下步骤:步骤一,用分类对抗的方法将静音视频中的人物身份特征、语音特征及情绪特征解耦;步骤二,采用分类对抗的方法将音频中的人物身份特征、语音特征及情绪特征解耦;步骤三,然后采用对偶学习的方法将音频中的语音特征映射到静音视频中的语音特征所在空间,并将音频中的情绪特征映射到静音视频中的情绪特征所在空间,步骤四,综合视频中的人物身份特征共同完成说话人脸视频的生成。
较佳地,步骤一中的分类对抗采用长短记忆神经网络从视频中提取人物身份特征,要求该人物身份特征对于人物身份识别有效,但是对语音识别(唇读)和情绪识别无效;而且采用长短记忆神经网络从视频中提取语音特征,并要求该语音特征对于语音识别(唇读)有效,对于人物身份及情绪的识别无效;采用长短记忆神经网络从视频中提取情绪特征,并要求该情绪特征对于情绪识别有效,对于人物身份及语音的识别无效,从而对视频实现人物身份特征、语音特征及情绪特征的解耦。
进一步的,所述步骤一分类对抗的解耦表示学习方法,包括3个编码器以及6个分类器,对于输入音频,第一阶段:先固编码器,训练更新分类器对编码器输出的音频人物身份特征进行音频语音及音频情绪分类;然后固定该分类器,训练更新编码器,使其输出的音频人物身份特征无法对音频样本进行音频语音及音频情绪的分类,从而迫使编码器学习出不包含音频语音特征及音频情绪特征的干净音频人物身份特征;第二阶段:先固编码器,训练更新分类器对编码器输出的音频语音特征对音频样本进行人物身份和音频情绪分类;然后固定该分类器,训练更新编码器,使其输出的音频语音特征无法对音频样本进行人物身份及音频情绪的分类,从而迫使编码器学习出不包含音频人物身份特征和音频情绪特征的干净音频语音特征;第三阶段:先固编码器,训练更新分类器对编码器输出的音频情绪特征进行音频语音及音频人物身份分类;然后固定该分类器,训练更新编码器,使其输出的音频情绪特征无法对音频样本进行音频语音及音频人物身份的分类,从而迫使编码器学习出不包含音频语音特征及音频人物身份特征的干净音频情绪特征。
进一步的,所述步骤一的具体实现方式如下,
所述的分类对抗的解耦表示学习方法包括3个编码器
Figure BDA0002496589640000031
Figure BDA0002496589640000032
以及6个分类器
Figure BDA0002496589640000033
Figure BDA0002496589640000034
编码器
Figure BDA0002496589640000035
从说话视频Video中提取视频中说话人物的视频人物身份特征
Figure BDA0002496589640000036
分类器
Figure BDA0002496589640000037
Figure BDA0002496589640000038
对上述视频人物身份特征
Figure BDA0002496589640000039
进行视频语音及视频情绪的分类,该过程表示为:
Figure BDA00024965896400000310
Figure BDA00024965896400000311
Figure BDA00024965896400000312
视频语音特征编码器
Figure BDA00024965896400000313
从说话视频Video中提取说话的视频语音特征
Figure BDA00024965896400000314
分类器
Figure BDA00024965896400000315
对上述视频语音特征
Figure BDA00024965896400000316
进行视频人物身份及视频情绪的分类,该过程表示为:
Figure BDA00024965896400000317
Figure BDA00024965896400000318
Figure BDA00024965896400000319
视频情绪特征编码器
Figure BDA00024965896400000320
从说话视频Video中提取说话的视频情绪特征
Figure BDA00024965896400000321
分类器
Figure BDA00024965896400000322
Figure BDA00024965896400000323
对上述视频情绪特征Featuree v进行视频人物身份及视频语音分类,该过程表示为:
Figure BDA00024965896400000324
Figure BDA0002496589640000041
Figure BDA0002496589640000042
为实现步骤一中所述的视频身份特征以及视频语音特征的解耦,步骤一中的分类对抗分为三阶段:
第一阶段,剔除视频人物身份特征中包含的视频语音特征和视频情绪特征,得到单纯的视频人物身份特征,具体迭代实施如下:首先固定视频人物身份特征编码器
Figure BDA0002496589640000043
训练更新分类器
Figure BDA0002496589640000044
和分类器
Figure BDA0002496589640000045
用视频人物身份特征对视频分别进行视频说话语音及视频情绪的分类,以训练分类器
Figure BDA0002496589640000046
和分类器
Figure BDA0002496589640000047
的分类能力,损失函数如下:
Figure BDA0002496589640000048
其中,
Figure BDA0002496589640000049
是第i个样本的语音分类标签,
Figure BDA00024965896400000410
是第i个样本的情绪分类标签,λp为权重,取值0~1,N是训练数据集中说话单词的数量;
然后,固定分类器
Figure BDA00024965896400000411
Figure BDA00024965896400000412
迭代更新视频人物身份特征编码器
Figure BDA00024965896400000413
要求每一个视频的说话词语类别都是一样的,使得编码器
Figure BDA00024965896400000414
提取出来的人物身份特征不能对视频语音和视频情绪进行分类,进而剔除视频人物身份特征中所包含的视频语音特征和视频情绪特征,从而达到提取纯净的视频人物身份特征的目的;损失函数如下:
Figure BDA00024965896400000415
第二阶段,剔除视频语音特征中包含的视频人物身份特征和情绪特征,得到单纯的视频语音特征,具体迭代实施如下:首先固定视频语音特征编码器
Figure BDA00024965896400000416
训练更新分类器
Figure BDA00024965896400000417
Figure BDA00024965896400000418
用视频说话语音特征对视频进行视频人物身份特征及视频情绪特征的分类,损失函数如下:
Figure BDA00024965896400000419
其中,
Figure BDA00024965896400000420
为第i个样本的语音分类标签,λw为权重,取值0~1,M是训练数据集中说话人的个数;
然后,固定分类器
Figure BDA00024965896400000421
Figure BDA00024965896400000422
迭代更新视频语音特征编码器
Figure BDA00024965896400000423
要求每一个视频的人物身份分类结果以及情绪分类结果都是一样的,从而迫使编码器
Figure BDA0002496589640000051
提取出来的视频语音特征不能对视频人物身份和视频情绪进行分类,进而剔除视频语音特征中包含的视频人物身份特征和视频情绪特征,从而达到获取纯净的视频语音特征的目的;
Figure BDA0002496589640000052
第三阶段,剔除视频人物情绪特征中包含的视频身份特征和视频语音特征,得到单纯的视频情绪特征,具体迭代实施如下:首先固定视频人物情绪特征编码器
Figure BDA0002496589640000053
训练更新分类器
Figure BDA0002496589640000054
和分类器
Figure BDA0002496589640000055
用视频情绪特征对视频分别进行视频说话语音及视频人物身份的分类,以训练分类器
Figure BDA0002496589640000056
和分类器
Figure BDA0002496589640000057
的分类能力,损失函数如下:
Figure BDA0002496589640000058
其中,λe为权重,取值0~1;
然后,固定分类器
Figure BDA0002496589640000059
Figure BDA00024965896400000510
迭代更新视频情绪特征编码器
Figure BDA00024965896400000511
要求每一个视频的说话词语类别都是一样的,使得编码器
Figure BDA00024965896400000512
提取出来的情绪特征不能对视频语音和视频人物身份进行分类,进而剔除视频情绪特征中所包含的视频语音特征和视频人物身份特征,从而达到提取纯净的视频情绪特征的目的;损失函数如下:
Figure BDA00024965896400000513
较佳地,步骤二中的分类对抗采用长短记忆神经网络从音频中提取人物身份特征,要求该人物身份特征对于人物身份识别有效,但是对语音(说话内容)识别及情绪识别无效;而且采用长短记忆神经网络从音频中提取语音特征,并要求该语音特征对于语音识别有效,对于人物身份及情绪的识别无效;采用长短记忆神经网络从音频中提取情绪特征,并要求该情绪特征对于情绪识别有效,对于人物身份及语音的识别无效;从而对音频实现人物身份特征、语音特征及情绪特征的解耦。
进一步的,所述步骤二对抗分类的解耦表示学习方法,包括3个编码器以及6个分类器,对于输入视频,第一阶段:先固编码器,训练更新分类器对编码器输出的视频人物身份特征进行视频语音及视频情绪分类;然后固定该分类器,训练更新编码器,使其输出的视频人物身份特征无法对视频样本进行视频语音及视频情绪的分类,从而迫使编码器学习出不包含视频语音特征及视频情绪特征的干净视频人物身份特征;第二阶段:先固编码器,训练更新分类器对编码器输出的视频语音特征对视频样本进行人物身份及视频情绪的分类;然后固定该分类器,训练更新编码器,使其输出的视频语音特征无法对视频样本进行人物身份及视频情绪的分类,从而迫使编码器学习出不包含视频人物身份特征及视频情绪特征的干净视频语音特征;第三阶段:先固编码器,训练更新分类器对编码器输出的视频情绪特征进行视频语音及视频人物身份分类;然后固定该分类器,训练更新编码器,使其输出的视频情绪特征无法对视频样本进行视频语音及视频人物身份的分类,从而迫使编码器学习出不包含视频语音特征及视频人物身份特征的干净视频情绪特征。
所述步骤二的具体实现方式如下,
所述的分类对抗的解耦表示学习方法包括3个编码器
Figure BDA0002496589640000061
Figure BDA0002496589640000062
以及6个分类器
Figure BDA0002496589640000063
Figure BDA0002496589640000064
编码器
Figure BDA0002496589640000065
从说话音频Audio中提取说话人物的音频人物身份特征
Figure BDA0002496589640000066
分类器
Figure BDA0002496589640000067
Figure BDA0002496589640000068
分别对上述音频人物身份特征
Figure BDA0002496589640000069
进行音频语音及音频情绪分类;该过程表示为:
Figure BDA00024965896400000610
Figure BDA00024965896400000611
Figure BDA00024965896400000612
音频语音特征编码器
Figure BDA00024965896400000613
从说话音频Audio中提取音频语音特征
Figure BDA00024965896400000614
分类器
Figure BDA00024965896400000615
Figure BDA00024965896400000616
对上述音频语音特征
Figure BDA00024965896400000617
进行音频人物身份及音频情绪的分类,该过程表示为:
Figure BDA00024965896400000618
Figure BDA00024965896400000619
Figure BDA00024965896400000620
音频语音情绪编码器
Figure BDA00024965896400000621
从说话音频Audio中提取音频情绪特征
Figure BDA00024965896400000622
分类器
Figure BDA00024965896400000623
Figure BDA00024965896400000624
对上述音频情绪特征
Figure BDA00024965896400000625
进行音频人物身份及音频语音的分类,该过程表示为:
Figure BDA00024965896400000626
Figure BDA0002496589640000071
Figure BDA0002496589640000072
为实现步骤二中所述的视频人物身份特征以及视频语音特征的解耦,步骤二中的分类对抗分为三个阶段:
第一阶段,剔除音频人物身份特征中包含的音频语音特征和音频情绪特征,得到单纯的音频人物身份特征,具体迭代实施如下:首先固定音频人物身份特征编码器
Figure BDA0002496589640000073
训练更新分类器
Figure BDA0002496589640000074
Figure BDA0002496589640000075
用音频人物身份特征对音频进行音频语音及音频情绪的分类,以训练分类器
Figure BDA0002496589640000076
Figure BDA0002496589640000077
根据音频人物身份特征对音频进行音频说话语音及音频情绪的分类能力,损失函数如下:
Figure BDA0002496589640000078
其中,
Figure BDA0002496589640000079
是第i个样本的语音分类标签,
Figure BDA00024965896400000710
是第i个样本的情绪分类标签,λp为权重,取值0~1,N是训练数据集中说话单词的数量;
然后,固定分类器
Figure BDA00024965896400000711
和和
Figure BDA00024965896400000712
迭代更新音频人物身份特征编码器
Figure BDA00024965896400000713
要求每一个音频的说话词语类别都是一样的,使得编码器
Figure BDA00024965896400000714
提取出来的人物身份特征不能对音频语音及音频情绪进行分类,进而剔除音频人物身份特征中所包含的音频语音特征及音频情绪特征,从而达到提取纯净的音频人物身份特征的目的;损失函数如下:
Figure BDA00024965896400000715
第二阶段,剔除音频语音特征中包含的音频人物身份特征和音频情绪特征,得到单纯的音频语音特征,具体迭代实施如下:首先固定音频语音特征编码器
Figure BDA00024965896400000716
训练更新分类器
Figure BDA00024965896400000717
Figure BDA00024965896400000718
用音频说话语音特征对音频进行音频人物身份特征及音频情绪特征的分类,以训练分类器
Figure BDA00024965896400000719
Figure BDA00024965896400000720
根据音频说话语音特征对音频进行音频人物身份及音频情绪进行分类能力,损失函数如下:
Figure BDA00024965896400000721
其中,
Figure BDA00024965896400000722
为第i个样本的语音分类标签,λw为权重,取值0~1,M是训练数据集中说话人的个数;
然后,固定分类器
Figure BDA00024965896400000723
Figure BDA00024965896400000724
迭代更新音频语音特征编码器
Figure BDA00024965896400000725
要求每一个视频的人物身份及音频情绪的分类结果都是一样的,从而迫使编码器
Figure BDA0002496589640000081
提取出来的音频语音特征不能对音频人物身份及音频情绪进行分类,进而剔除音频语音特征中包含的音频人物身份特征及音频情绪特征,从而达到获取纯净的音频语音特征的目的;损失函数如下:
Figure BDA0002496589640000082
第三阶段,剔除音频情绪特征中包含的音频语音特征和音频人物身份特征,得到单纯的音频情绪特征,具体迭代实施如下:首先固定音频情绪特征编码器
Figure BDA0002496589640000083
训练更新分类器
Figure BDA0002496589640000084
Figure BDA0002496589640000085
用音频情绪特征对音频进行音频语音及音频人物身份分类的能力,损失函数如下:
Figure BDA0002496589640000086
其中,λe为权重,取值0~1;
然后,固定分类器
Figure BDA0002496589640000087
Figure BDA0002496589640000088
迭代更新音频人物身份特征编码器
Figure BDA0002496589640000089
要求每一个音频的情绪类别都是一样的,使得编码器
Figure BDA00024965896400000810
提取出来的情绪特征不能对音频语音及音频人物身份进行分类,进而剔除音频情绪特征中所包含的音频语音特征及音频人物身份特征。从而达到提取纯净的音频情绪特征的目的;损失函数如下:
Figure BDA00024965896400000811
较佳地,步骤三根据说话视频中语音特征(面部特征变化)和对应音频中语音特征之间存在的一致性,将由音频语音特征生成视频语音特征这一问题建模为由视频语音特征生成音频语音特征(唇读问题)的反问题,构建对偶学习模型利用对偶一致性误差及生成误差共同对对偶生成过程进行约束,实现音频语音特征和视频语音特征这两个不同隐空间的相互映射,从而将音频语音特征映射到视频语音特征空间。
步骤三的具体实现方式如下,
假设A和V分别为音频语音特征和视频语音特征,其中音频语音特征记为
Figure BDA00024965896400000812
视频语音特征记为
Figure BDA00024965896400000813
则对偶对抗生成模型DualGAN的损失函数结构如下:
假设生成器G将
Figure BDA00024965896400000814
生成
Figure BDA00024965896400000815
生成结果记为
Figure BDA00024965896400000816
则其损失函数:
Figure BDA00024965896400000817
其中,
Figure BDA00024965896400000818
表示v采样于说话视频中的语音特征空间,Dv为视频语音真假判别器,
Figure BDA0002496589640000091
表示a采样于音频中的语音特征
Figure BDA0002496589640000092
G(a)表示由a生成
Figure BDA0002496589640000093
假设生成器F将
Figure BDA0002496589640000094
生成
Figure BDA0002496589640000095
则其损失函数:
Figure BDA0002496589640000096
其中,Da为音频语音真假判别器,F(v)表示生成器将
Figure BDA0002496589640000097
生成
Figure BDA0002496589640000098
对偶一致性损失函数
Figure BDA0002496589640000099
最终DualGAN的损失函数如下:
L(G,F,DA,DV)=LGAN(G,Dv,A,V)+LGAN(F,Da,V,A)+λLDual(G,F)
其中,λ表示权重,取值0~0.5。
同理,利用对偶学习模型完成音频情绪特征
Figure BDA00024965896400000910
到视频情绪特征
Figure BDA00024965896400000911
的转换,转换结果记为
Figure BDA00024965896400000912
较佳地,步骤四将步骤三转换音频中的语音特征得到为视频中的语音特征和视频或者图片中的人物身份特征结合,采用时序对抗生成网络生成同时满足该语音特征、情绪特征及人物身份特征的说话人脸视频。
步骤四的具体实现方式如下,
将步骤3由音频语音特征
Figure BDA00024965896400000913
转换得到的视频语音特征
Figure BDA00024965896400000914
及视频情绪特征
Figure BDA00024965896400000915
和步骤2中得到的视频人物身份特征结合,视频人物身份特征记为
Figure BDA00024965896400000916
利用序列生成模型GV生成说话人脸视频,对应的真实说话人脸视频groundtruth为GTV,判别器为DV,则重构误差损失为:
Figure BDA00024965896400000917
视频序列生成误差损失为:
Figure BDA00024965896400000918
最终总的损失函数为:
LT=LrecTLGAN
其中,λT为生成损失的权重,取值0~0.5。
采用分类对抗的方法将音频中的人物身份特征、语音特征及情绪特征解耦,并且用分类对抗的方法将视频中的人物身份特征、语音特征及情绪特征解耦,这些特征的解耦提高了本方法对生成说话视频的可操控性。采用对偶学习对音频中的语音特征和静音视频中的语音特征进行映射,对音频中的情绪特征和静音视频中的情绪特征进行映射,实现了音频和视频的跨模态特征转换,极大提高了从音频生成说话人脸视频的便利性,也提高了生成说话人脸视频的连贯与自然程度。由于对人物身份及语音等关键信息实施了解耦及跨模态的转换,故可以根据任意单张人脸图片及音频生成真实自然的说话视频,无需大量特定人脸视频,提高了易用性。
附图说明
图1为本发明实施模型的训练流程图;
图2为本发明实施模型的测试及使用流程图;
图3为本发明实施对偶学习模型结构图。
具体实施方式
下面结合附图和实施例对本发明做进一步的说明。
本发明提出了一种基于解耦表示学习的说话人脸视频生成方法,通过对音频及视频中关键特征的解耦,获取干净的生成说话人脸视频所需的音频语音特征、视频人物身份特征及视频情绪特征,不仅避免了其他特征的干扰,提高了生成说话人脸视频的质量,而且能够减少对说话人物面部图像的需求量,即使单张图片也能生成说话人脸视频,极大拓宽了说话人脸视频生成方法的应用场景。首先使用分类对抗方法对输入音频中的音频人物身份特征、音频语音特征及音频情绪特征进行解耦,得到干净的音频人物身份特征、音频语音特征及音频情绪特征,避免了音频中的身份特征对生成说话视频的干扰;然后使用分类对抗方法对输入视频中的视频人物身份特征、视频语音特征及视频情绪特征进行解耦,得到干净的视频人物身份特征、视频语音特征及视频情绪特征,避免了视频中的语音特征及情绪特征对生成说话视频的干扰;接下来使用对偶学习方法将音频语音特征隐空间映射到视频语音特征隐空间,并将音频情绪特征隐空间映射到视频情绪特征隐空间,最后联合视频人物身份特征、映射到该空间的音频语音特征及音频情绪特征,共同生成说话人脸视频。利用该方法,即使输入单证人脸图片和一段说话音频,也能生成符合该图片人物身份特征的且与该音频语音内容及情绪对应的清晰自然的说话人脸视频。
如图1所示,一种基于解耦表示学习的说话人脸视频生成方法,该方法主要包括音频特征解耦、视频特征解耦、音频语音特征及情绪特征到视频语音特征及情绪特征的转换,由音频语音特征及视频人物特征生成说话人脸视频等四个步骤。
步骤1:通过分类对抗的解耦表示学习方法从说话视频中提取说话人物的视频人物身份特征、视频语音特征以及视频情绪特征,实现说话人脸视频关键特征的解耦。
步骤1中所述的说话视频是指包含一个人的说话脸部画面的静音视频,说话内容为一个词语,每个说话视频Video均包含一个视频人物身份类标签、一个视频说话词语类标签和一个情绪类标签;
所述的分类对抗的解耦表示学习方法包括3个编码器
Figure BDA0002496589640000111
Figure BDA0002496589640000112
以及6个分类器
Figure BDA0002496589640000113
Figure BDA0002496589640000114
编码器
Figure BDA0002496589640000115
从说话视频Video中提取视频中说话人物的视频人物身份特征
Figure BDA0002496589640000116
分类器
Figure BDA0002496589640000117
Figure BDA0002496589640000118
对上述视频人物身份特征
Figure BDA0002496589640000119
进行视频语音及视频情绪的分类。该过程可以表示为:
Figure BDA00024965896400001110
Figure BDA00024965896400001111
Figure BDA00024965896400001112
视频语音特征编码器
Figure BDA00024965896400001113
从说话视频Video中提取说话的视频语音特征
Figure BDA00024965896400001114
分类器
Figure BDA00024965896400001115
对上述视频语音特征
Figure BDA00024965896400001116
进行视频人物身份及视频情绪的分类,该过程可以表示为:
Figure BDA00024965896400001117
Figure BDA00024965896400001118
Figure BDA00024965896400001119
视频情绪特征编码器
Figure BDA00024965896400001120
从说话视频Video中提取说话的视频情绪特征
Figure BDA00024965896400001121
分类器
Figure BDA00024965896400001122
Figure BDA00024965896400001123
对上述视频情绪特征
Figure BDA00024965896400001124
进行视频人物身份及视频语音分类,该过程可以表示为:
Figure BDA00024965896400001125
Figure BDA00024965896400001126
Figure BDA00024965896400001127
为实现步骤1中所述的视频身份特征以及视频语音特征的解耦,步骤1中的分类对抗分为三阶段:
第一阶段,剔除视频人物身份特征中包含的视频语音特征和视频情绪特征,得到单纯的视频人物身份特征,具体迭代实施如下:首先固定视频人物身份特征编码器
Figure BDA0002496589640000121
训练更新分类器
Figure BDA0002496589640000122
和分类器
Figure BDA0002496589640000123
用视频人物身份特征对视频分别进行视频说话语音及视频情绪的分类,以训练分类器
Figure BDA0002496589640000124
和分类器
Figure BDA0002496589640000125
的分类能力,损失函数如下:
Figure BDA0002496589640000126
其中,
Figure BDA0002496589640000127
是第i个样本的语音分类标签,
Figure BDA0002496589640000128
是第i个样本的情绪分类标签,λp为权重,取值0~1,N是训练数据集中说话单词的数量。
然后,固定分类器
Figure BDA0002496589640000129
Figure BDA00024965896400001210
迭代更新视频人物身份特征编码器
Figure BDA00024965896400001211
要求每一个视频的说话词语类别都是一样的,使得编码器
Figure BDA00024965896400001212
提取出来的人物身份特征不能对视频语音和视频情绪进行分类,进而剔除视频人物身份特征中所包含的视频语音特征和视频情绪特征。从而达到提取纯净的视频人物身份特征的目的。损失函数如下:
Figure BDA00024965896400001213
第二阶段,剔除视频语音特征中包含的视频人物身份特征和情绪特征,得到单纯的视频语音特征,具体迭代实施如下:首先固定视频语音特征编码器
Figure BDA00024965896400001214
训练更新分类器
Figure BDA00024965896400001215
Figure BDA00024965896400001216
用视频说话语音特征对视频进行视频人物身份特征及视频情绪特征的分类,损失函数如下:
Figure BDA00024965896400001217
其中,
Figure BDA00024965896400001218
为第i个样本的语音分类标签,λw为权重,取值0~1,M是训练数据集中说话人的个数。
然后,固定分类器
Figure BDA00024965896400001220
迭代更新视频语音特征编码器
Figure BDA00024965896400001221
要求每一个视频的人物身份分类结果以及情绪分类结果都是一样的,从而迫使编码器
Figure BDA00024965896400001222
提取出来的视频语音特征不能对视频人物身份和视频情绪进行分类,进而剔除视频语音特征中包含的视频人物身份特征和视频情绪特征。从而达到获取纯净的视频语音特征的目的。
Figure BDA00024965896400001223
第三阶段,剔除视频人物情绪特征中包含的视频身份特征和视频语音特征,得到单纯的视频情绪特征,具体迭代实施如下:首先固定视频人物情绪特征编码器
Figure BDA0002496589640000131
训练更新分类器
Figure BDA0002496589640000132
和分类器
Figure BDA0002496589640000133
用视频情绪特征对视频分别进行视频说话语音及视频人物身份的分类,以训练分类器
Figure BDA0002496589640000134
和分类器
Figure BDA0002496589640000135
的分类能力,损失函数如下:
Figure BDA0002496589640000136
其中,λe为权重,取值0~1;
然后,固定分类器
Figure BDA0002496589640000137
Figure BDA0002496589640000138
迭代更新视频情绪特征编码器
Figure BDA0002496589640000139
要求每一个视频的说话词语类别都是一样的,使得编码器
Figure BDA00024965896400001310
提取出来的情绪特征不能对视频语音和视频人物身份进行分类,进而剔除视频情绪特征中所包含的视频语音特征和视频人物身份特征。从而达到提取纯净的视频情绪特征的目的。损失函数如下:
Figure BDA00024965896400001311
步骤2:通过分类对抗的解耦表示学习方法从说话音频中提取说话人的音频人物身份特征、音频语音特征以及音频情绪特征,实现音频关键特征的解耦。
步骤2中所述的说话音频是指包含一个人的说话音频,说话内容为一个词语,每个说话音频Audio均包含一个音频人物身份类标签、一个音频说话词语类标签和一个音频情绪类标签;
所述的分类对抗的解耦表示学习方法包括3个编码器
Figure BDA00024965896400001312
和Encodere a以及6个分类器
Figure BDA00024965896400001313
Figure BDA00024965896400001314
编码器
Figure BDA00024965896400001315
从说话音频Audio中提取说话人物的音频人物身份特征
Figure BDA00024965896400001316
分类器
Figure BDA00024965896400001317
Figure BDA00024965896400001318
分别对对上述音频人物身份特征
Figure BDA00024965896400001319
进行音频语音及音频情绪分类。该过程可以表示为:
Figure BDA00024965896400001320
Figure BDA00024965896400001321
Figure BDA00024965896400001322
音频语音特征编码器
Figure BDA00024965896400001323
从说话音频Audio中提取音频语音特征
Figure BDA00024965896400001324
分类器
Figure BDA0002496589640000141
Figure BDA0002496589640000142
对上述音频语音特征
Figure BDA0002496589640000143
进行音频人物身份及音频情绪的分类,该过程可以表示为:
Figure BDA0002496589640000144
Figure BDA0002496589640000145
Figure BDA0002496589640000146
音频语音情绪编码器
Figure BDA0002496589640000147
从说话音频Audio中提取音频情绪特征
Figure BDA0002496589640000148
分类器
Figure BDA0002496589640000149
Figure BDA00024965896400001410
对上述音频情绪特征
Figure BDA00024965896400001411
进行音频人物身份及音频语音的分类,该过程可以表示为:
Figure BDA00024965896400001412
Figure BDA00024965896400001413
Figure BDA00024965896400001414
为实现步骤2中所述的视频人物身份特征以及视频语音特征的解耦,步骤1中的分类对抗分为三个阶段:
第一阶段,剔除音频人物身份特征中包含的音频语音特征和音频情绪特征,得到单纯的音频人物身份特征,具体迭代实施如下:首先固定音频人物身份特征编码器
Figure BDA00024965896400001415
训练更新分类器
Figure BDA00024965896400001416
Figure BDA00024965896400001417
用音频人物身份特征对音频进行音频语音及音频情绪的分类,以训练分类器
Figure BDA00024965896400001418
Figure BDA00024965896400001419
根据音频人物身份特征对音频进行音频说话语音及音频情绪的分类能力,损失函数如下:
Figure BDA00024965896400001420
然后,固定分类器
Figure BDA00024965896400001421
和和
Figure BDA00024965896400001422
迭代更新音频人物身份特征编码器
Figure BDA00024965896400001423
要求每一个音频的说话词语类别都是一样的,使得编码器
Figure BDA00024965896400001424
提取出来的人物身份特征不能对音频语音及音频情绪进行分类,进而剔除音频人物身份特征中所包含的音频语音特征及音频情绪特征。从而达到提取纯净的音频人物身份特征的目的。损失函数如下:
Figure BDA00024965896400001425
第二阶段,剔除音频语音特征中包含的音频人物身份特征和音频情绪特征,得到单纯的音频语音特征,具体迭代实施如下:首先固定音频语音特征编码器
Figure BDA00024965896400001426
训练更新分类器
Figure BDA0002496589640000151
Figure BDA0002496589640000152
用音频说话语音特征对音频进行音频人物身份特征及音频情绪特征的分类,以训练分类器
Figure BDA0002496589640000153
Figure BDA0002496589640000154
根据音频说话语音特征对音频进行音频人物身份及音频情绪进行分类能力,损失函数如下:
Figure BDA0002496589640000155
然后,固定分类器
Figure BDA0002496589640000156
Figure BDA0002496589640000157
迭代更新音频语音特征编码器
Figure BDA0002496589640000158
要求每一个视频的人物身份及音频情绪的分类结果都是一样的,从而迫使编码器
Figure BDA0002496589640000159
提取出来的音频语音特征不能对音频人物身份及音频情绪进行分类,进而剔除音频语音特征中包含的音频人物身份特征及音频情绪特征。从而达到获取纯净的音频语音特征的目的。
Figure BDA00024965896400001510
第三阶段,剔除音频情绪特征中包含的音频语音特征和音频人物身份特征,得到单纯的音频情绪特征,具体迭代实施如下:首先固定音频情绪特征编码器
Figure BDA00024965896400001511
训练更新分类器
Figure BDA00024965896400001512
Figure BDA00024965896400001513
用音频情绪特征对音频进行音频语音及音频人物身份分类的能力,损失函数如下:
Figure BDA00024965896400001514
其中,λe为权重,取值0~1;
然后,固定分类器
Figure BDA00024965896400001515
Figure BDA00024965896400001516
迭代更新音频人物身份特征编码器
Figure BDA00024965896400001517
要求每一个音频的情绪类别都是一样的,使得编码器
Figure BDA00024965896400001518
提取出来的情绪特征不能对音频语音及音频人物身份进行分类,进而剔除音频情绪特征中所包含的音频语音特征及音频人物身份特征。从而达到提取纯净的音频情绪特征的目的。损失函数如下:
Figure BDA00024965896400001519
步骤3:由步骤2可以将说话音频解耦为音频人物身份特征
Figure BDA00024965896400001520
和音频语音特征
Figure BDA00024965896400001521
并且可以将说话视频解耦为视频人物身份特征
Figure BDA00024965896400001522
和视频语音特征
Figure BDA00024965896400001523
接下来需要根据视频人物身份特征
Figure BDA00024965896400001524
和音频语音特征
Figure BDA00024965896400001525
重构说话人脸视频,但是
Figure BDA00024965896400001526
Figure BDA00024965896400001527
属于不同的隐空间,难以直接用于视频生成。对此,提出用对偶对抗生成模型DualGAN学习这两类特征到彼此隐空间的映射,从而将
Figure BDA00024965896400001528
转换到
Figure BDA00024965896400001529
所在隐空间。假设A和V分别为音频语音特征
Figure BDA00024965896400001530
和视频语音特征
Figure BDA00024965896400001531
则对偶对抗生成模型DualGAN的损失函数结构如下:
假设生成器G将
Figure BDA0002496589640000161
生成
Figure BDA0002496589640000162
生成结果标记为
Figure BDA0002496589640000163
则其损失函数:
Figure BDA0002496589640000164
其中,
Figure BDA0002496589640000165
表示v采样于说话视频中的语音特征空间,Dv为视频语音真假判别器,
Figure BDA0002496589640000166
表示a采样于音频中的语音特征
Figure BDA0002496589640000167
G(a)表示由a生成
Figure BDA0002496589640000168
假设生成器F将
Figure BDA0002496589640000169
生成
Figure BDA00024965896400001610
则其损失函数:
Figure BDA00024965896400001611
其中,Da为音频语音真假判别器,F(v)表示生成器将
Figure BDA00024965896400001612
生成
Figure BDA00024965896400001613
对偶一致性损失函数
Figure BDA00024965896400001614
最终DualGAN的损失函数如下:
L(G,F,DA,DV)=LGAN(G,Dv,A,V)+LGAN(F,Da,V,A)+λLDual(G,F)
其中,λ表示权重,取值0~0.5。
同理,利用对偶学习模型可以完成音频情绪特征
Figure BDA00024965896400001615
到视频情绪特征
Figure BDA00024965896400001616
的转换,转换结果记为
Figure BDA00024965896400001617
步骤4:将步骤3由音频语音特征
Figure BDA00024965896400001618
转换得到的视频语音特征
Figure BDA00024965896400001619
及视频情绪特征
Figure BDA00024965896400001620
和步骤2中得到的视频人物身份特征
Figure BDA00024965896400001621
结合,利用序列生成模型GV生成说话人脸视频,对应的真实说话人脸视频groundtruth为GTV,判别器为DV。则重构误差损失为:
Figure BDA00024965896400001622
视频序列生成误差损失为:
Figure BDA00024965896400001623
最终总的损失函数为:
LT=LrecTLGAN
λT为生成损失的权重,取值0~0.5。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (7)

1.一种基于解耦表示学习的说话人脸视频生成方法,其特征在于,该方法包含如下步骤:
步骤一,通过分类对抗的解耦表示学习方法从说话视频Video中提取说话人物的视频人物身份特征、视频语音特征以及视频情绪特征,实现说话人脸视频关键特征的解耦;
步骤二,通过分类对抗的解耦表示学习方法从说话音频Audio中提取说话人的音频人物身份特征、音频语音特征以及音频情绪特征,实现音频关键特征的解耦;
步骤三,使用对偶学习模型实现音频语音特征和视频语音特征这两个不同隐空间的相互映射,并使用对偶学习模型实现音频情绪特征和视频情绪特征这两个不同隐空间的相互映射;
步骤四,最后联合视频人物身份特征、映射到该空间的音频语音特征及音频情绪特征,共同生成说话人脸视频。
2.根据权利要求1所述的一种基于解耦表示学习的说话人脸视频生成方法,其特征在于:
所述步骤一分类对抗的解耦表示学习方法,包括3个编码器以及6个分类器,对于输入音频,第一阶段:先固编码器,训练更新分类器对编码器输出的音频人物身份特征进行音频语音及音频情绪分类;然后固定该分类器,训练更新编码器,使其输出的音频人物身份特征无法对音频样本进行音频语音及音频情绪的分类,从而迫使编码器学习出不包含音频语音特征及音频情绪特征的干净音频人物身份特征;第二阶段:先固编码器,训练更新分类器对编码器输出的音频语音特征对音频样本进行人物身份和音频情绪分类;然后固定该分类器,训练更新编码器,使其输出的音频语音特征无法对音频样本进行人物身份及音频情绪的分类,从而迫使编码器学习出不包含音频人物身份特征和音频情绪特征的干净音频语音特征;第三阶段:先固编码器,训练更新分类器对编码器输出的音频情绪特征进行音频语音及音频人物身份分类;然后固定该分类器,训练更新编码器,使其输出的音频情绪特征无法对音频样本进行音频语音及音频人物身份的分类,从而迫使编码器学习出不包含音频语音特征及音频人物身份特征的干净音频情绪特征。
3.根据权利要求2所述的一种基于解耦表示学习的说话人脸视频生成方法,其特征在于:所述步骤一的具体实现方式如下,
所述的分类对抗的解耦表示学习方法包括3个编码器
Figure FDA0002496589630000011
Figure FDA0002496589630000012
以及6个分类器
Figure FDA0002496589630000013
Figure FDA0002496589630000014
编码器
Figure FDA0002496589630000015
从说话视频Video中提取视频中说话人物的视频人物身份特征
Figure FDA0002496589630000016
分类器
Figure FDA0002496589630000021
Figure FDA0002496589630000022
对上述视频人物身份特征
Figure FDA0002496589630000023
进行视频语音及视频情绪的分类,该过程表示为:
Figure FDA0002496589630000024
Figure FDA0002496589630000025
Figure FDA0002496589630000026
视频语音特征编码器
Figure FDA0002496589630000027
从说话视频Video中提取说话的视频语音特征
Figure FDA0002496589630000028
分类器
Figure FDA0002496589630000029
对上述视频语音特征
Figure FDA00024965896300000210
进行视频人物身份及视频情绪的分类,该过程表示为:
Figure FDA00024965896300000211
Figure FDA00024965896300000212
Figure FDA00024965896300000213
视频情绪特征编码器
Figure FDA00024965896300000214
从说话视频Video中提取说话的视频情绪特征
Figure FDA00024965896300000215
分类器
Figure FDA00024965896300000216
Figure FDA00024965896300000217
对上述视频情绪特征
Figure FDA00024965896300000218
进行视频人物身份及视频语音分类,该过程表示为:
Figure FDA00024965896300000219
Figure FDA00024965896300000220
Figure FDA00024965896300000221
为实现步骤一中所述的视频身份特征以及视频语音特征的解耦,步骤一中的分类对抗分为三阶段:
第一阶段,剔除视频人物身份特征中包含的视频语音特征和视频情绪特征,得到单纯的视频人物身份特征,具体迭代实施如下:首先固定视频人物身份特征编码器
Figure FDA00024965896300000222
训练更新分类器
Figure FDA00024965896300000223
和分类器
Figure FDA00024965896300000224
用视频人物身份特征对视频分别进行视频说话语音及视频情绪的分类,以训练分类器
Figure FDA00024965896300000225
和分类器
Figure FDA00024965896300000226
的分类能力,损失函数如下:
Figure FDA00024965896300000227
其中,
Figure FDA00024965896300000228
是第i个样本的语音分类标签,
Figure FDA00024965896300000229
是第i个样本的情绪分类标签,λp为权重,取值0~1,N是训练数据集中说话单词的数量;
然后,固定分类器
Figure FDA0002496589630000031
Figure FDA0002496589630000032
迭代更新视频人物身份特征编码器
Figure FDA0002496589630000033
要求每一个视频的说话词语类别都是一样的,使得编码器
Figure FDA0002496589630000034
提取出来的人物身份特征不能对视频语音和视频情绪进行分类,进而剔除视频人物身份特征中所包含的视频语音特征和视频情绪特征,从而达到提取纯净的视频人物身份特征的目的;损失函数如下:
Figure FDA0002496589630000035
第二阶段,剔除视频语音特征中包含的视频人物身份特征和情绪特征,得到单纯的视频语音特征,具体迭代实施如下:首先固定视频语音特征编码器
Figure FDA0002496589630000036
训练更新分类器
Figure FDA0002496589630000037
Figure FDA0002496589630000038
用视频说话语音特征对视频进行视频人物身份特征及视频情绪特征的分类,损失函数如下:
Figure FDA0002496589630000039
其中,
Figure FDA00024965896300000310
为第i个样本的语音分类标签,λw为权重,取值0~1,M是训练数据集中说话人的个数;
然后,固定分类器
Figure FDA00024965896300000311
Figure FDA00024965896300000312
迭代更新视频语音特征编码器
Figure FDA00024965896300000313
要求每一个视频的人物身份分类结果以及情绪分类结果都是一样的,从而迫使编码器
Figure FDA00024965896300000314
提取出来的视频语音特征不能对视频人物身份和视频情绪进行分类,进而剔除视频语音特征中包含的视频人物身份特征和视频情绪特征,从而达到获取纯净的视频语音特征的目的;
Figure FDA00024965896300000315
第三阶段,剔除视频人物情绪特征中包含的视频身份特征和视频语音特征,得到单纯的视频情绪特征,具体迭代实施如下:首先固定视频人物情绪特征编码器
Figure FDA00024965896300000316
训练更新分类器
Figure FDA00024965896300000317
和分类器
Figure FDA00024965896300000318
用视频情绪特征对视频分别进行视频说话语音及视频人物身份的分类,以训练分类器
Figure FDA00024965896300000319
和分类器
Figure FDA00024965896300000320
的分类能力,损失函数如下:
Figure FDA00024965896300000321
其中,λe为权重,取值0~1;
然后,固定分类器
Figure FDA0002496589630000041
Figure FDA0002496589630000042
迭代更新视频情绪特征编码器
Figure FDA0002496589630000043
要求每一个视频的说话词语类别都是一样的,使得编码器
Figure FDA0002496589630000044
提取出来的情绪特征不能对视频语音和视频人物身份进行分类,进而剔除视频情绪特征中所包含的视频语音特征和视频人物身份特征,从而达到提取纯净的视频情绪特征的目的;损失函数如下:
Figure FDA0002496589630000045
4.根据权利要求1所述的一种基于解耦表示学习的说话人脸视频生成方法,其特征在于:
所述步骤二对抗分类的解耦表示学习方法,包括3个编码器以及6个分类器,对于输入视频,第一阶段:先固编码器,训练更新分类器对编码器输出的视频人物身份特征进行视频语音及视频情绪分类;然后固定该分类器,训练更新编码器,使其输出的视频人物身份特征无法对视频样本进行视频语音及视频情绪的分类,从而迫使编码器学习出不包含视频语音特征及视频情绪特征的干净视频人物身份特征;第二阶段:先固编码器,训练更新分类器对编码器输出的视频语音特征对视频样本进行人物身份及视频情绪的分类;然后固定该分类器,训练更新编码器,使其输出的视频语音特征无法对视频样本进行人物身份及视频情绪的分类,从而迫使编码器学习出不包含视频人物身份特征及视频情绪特征的干净视频语音特征;第三阶段:先固编码器,训练更新分类器对编码器输出的视频情绪特征进行视频语音及视频人物身份分类;然后固定该分类器,训练更新编码器,使其输出的视频情绪特征无法对视频样本进行视频语音及视频人物身份的分类,从而迫使编码器学习出不包含视频语音特征及视频人物身份特征的干净视频情绪特征。
5.根据权利要求4所述的一种基于解耦表示学习的说话人脸视频生成方法,其特征在于:所述步骤二的具体实现方式如下,
所述的分类对抗的解耦表示学习方法包括3个编码器
Figure FDA0002496589630000046
Figure FDA0002496589630000047
以及6个分类器
Figure FDA0002496589630000048
Figure FDA0002496589630000049
编码器
Figure FDA00024965896300000410
从说话音频Audio中提取说话人物的音频人物身份特征
Figure FDA00024965896300000411
分类器
Figure FDA00024965896300000412
Figure FDA00024965896300000413
分别对上述音频人物身份特征
Figure FDA00024965896300000414
进行音频语音及音频情绪分类;该过程表示为:
Figure FDA00024965896300000415
Figure FDA00024965896300000416
Figure FDA0002496589630000051
音频语音特征编码器
Figure FDA0002496589630000052
从说话音频Audio中提取音频语音特征
Figure FDA0002496589630000053
分类器
Figure FDA0002496589630000054
Figure FDA0002496589630000055
对上述音频语音特征
Figure FDA0002496589630000056
进行音频人物身份及音频情绪的分类,该过程表示为:
Figure FDA0002496589630000057
Figure FDA0002496589630000058
Figure FDA0002496589630000059
音频语音情绪编码器
Figure FDA00024965896300000510
从说话音频Audio中提取音频情绪特征
Figure FDA00024965896300000511
分类器
Figure FDA00024965896300000512
Figure FDA00024965896300000513
对上述音频情绪特征
Figure FDA00024965896300000514
进行音频人物身份及音频语音的分类,该过程表示为:
Figure FDA00024965896300000515
Figure FDA00024965896300000516
Figure FDA00024965896300000517
为实现步骤二中所述的视频人物身份特征以及视频语音特征的解耦,步骤二中的分类对抗分为三个阶段:
第一阶段,剔除音频人物身份特征中包含的音频语音特征和音频情绪特征,得到单纯的音频人物身份特征,具体迭代实施如下:首先固定音频人物身份特征编码器
Figure FDA00024965896300000518
训练更新分类器
Figure FDA00024965896300000519
Figure FDA00024965896300000520
用音频人物身份特征对音频进行音频语音及音频情绪的分类,以训练分类器
Figure FDA00024965896300000521
Figure FDA00024965896300000522
根据音频人物身份特征对音频进行音频说话语音及音频情绪的分类能力,损失函数如下:
Figure FDA00024965896300000523
其中,
Figure FDA00024965896300000524
是第i个样本的语音分类标签,
Figure FDA00024965896300000525
是第i个样本的情绪分类标签,λp为权重,取值0~1,N是训练数据集中说话单词的数量;
然后,固定分类器
Figure FDA00024965896300000526
和和
Figure FDA00024965896300000527
迭代更新音频人物身份特征编码器
Figure FDA00024965896300000528
要求每一个音频的说话词语类别都是一样的,使得编码器
Figure FDA00024965896300000529
提取出来的人物身份特征不能对音频语音及音频情绪进行分类,进而剔除音频人物身份特征中所包含的音频语音特征及音频情绪特征,从而达到提取纯净的音频人物身份特征的目的;损失函数如下:
Figure FDA0002496589630000061
第二阶段,剔除音频语音特征中包含的音频人物身份特征和音频情绪特征,得到单纯的音频语音特征,具体迭代实施如下:首先固定音频语音特征编码器
Figure FDA0002496589630000062
训练更新分类器
Figure FDA0002496589630000063
Figure FDA0002496589630000064
用音频说话语音特征对音频进行音频人物身份特征及音频情绪特征的分类,以训练分类器
Figure FDA0002496589630000065
Figure FDA0002496589630000066
根据音频说话语音特征对音频进行音频人物身份及音频情绪进行分类能力,损失函数如下:
Figure FDA0002496589630000067
其中,
Figure FDA0002496589630000068
为第i个样本的语音分类标签,λw为权重,取值0~1,M是训练数据集中说话人的个数;
然后,固定分类器
Figure FDA0002496589630000069
Figure FDA00024965896300000610
迭代更新音频语音特征编码器
Figure FDA00024965896300000611
要求每一个视频的人物身份及音频情绪的分类结果都是一样的,从而迫使编码器
Figure FDA00024965896300000612
提取出来的音频语音特征不能对音频人物身份及音频情绪进行分类,进而剔除音频语音特征中包含的音频人物身份特征及音频情绪特征,从而达到获取纯净的音频语音特征的目的;损失函数如下:
Figure FDA00024965896300000613
第三阶段,剔除音频情绪特征中包含的音频语音特征和音频人物身份特征,得到单纯的音频情绪特征,具体迭代实施如下:首先固定音频情绪特征编码器
Figure FDA00024965896300000614
训练更新分类器
Figure FDA00024965896300000615
Figure FDA00024965896300000616
用音频情绪特征对音频进行音频语音及音频人物身份分类的能力,损失函数如下:
Figure FDA00024965896300000617
其中,λe为权重,取值0~1;
然后,固定分类器
Figure FDA00024965896300000618
Figure FDA00024965896300000619
迭代更新音频人物身份特征编码器
Figure FDA00024965896300000620
要求每一个音频的情绪类别都是一样的,使得编码器
Figure FDA00024965896300000621
提取出来的情绪特征不能对音频语音及音频人物身份进行分类,进而剔除音频情绪特征中所包含的音频语音特征及音频人物身份特征。从而达到提取纯净的音频情绪特征的目的;损失函数如下:
Figure FDA0002496589630000071
6.根据权利要求1所述的一种基于解耦表示学习的说话人脸视频生成方法,其特征在于:步骤三的具体实现方式如下,
假设A和V分别为音频语音特征和视频语音特征,其中音频语音特征记为
Figure FDA0002496589630000072
视频语音特征记为
Figure FDA0002496589630000073
则对偶对抗生成模型DualGAN的损失函数结构如下:
假设生成器G将
Figure FDA0002496589630000074
生成
Figure FDA0002496589630000075
生成结果记为
Figure FDA0002496589630000076
则其损失函数:
Figure FDA0002496589630000077
其中,
Figure FDA0002496589630000078
表示v采样于说话视频中的语音特征空间,Dv为视频语音真假判别器,
Figure FDA0002496589630000079
表示a采样于音频中的语音特征
Figure FDA00024965896300000710
G(a)表示由a生成
Figure FDA00024965896300000711
假设生成器F将
Figure FDA00024965896300000712
生成
Figure FDA00024965896300000713
则其损失函数:
Figure FDA00024965896300000714
其中,Da为音频语音真假判别器,F(v)表示生成器将
Figure FDA00024965896300000715
生成
Figure FDA00024965896300000716
对偶一致性损失函数
Figure FDA00024965896300000717
最终DualGAN的损失函数如下:
L(G,F,DA,DV)=LGAN(G,Dv,A,V)+LGAN(F,Da,V,A)+λLDual(G,F)
其中,λ表示权重,取值0~0.5;
同理,利用对偶学习模型完成音频情绪特征
Figure FDA00024965896300000718
到视频情绪特征
Figure FDA00024965896300000719
的转换,转换结果记为
Figure FDA00024965896300000720
7.根据权利要求6所述的一种基于解耦表示学习的说话人脸视频生成方法,其特征在于:步骤四的具体实现方式如下,
将步骤3由音频语音特征
Figure FDA00024965896300000721
转换得到的视频语音特征
Figure FDA00024965896300000722
及视频情绪特征
Figure FDA00024965896300000723
和步骤2中得到的视频人物身份特征结合,视频人物身份特征记为
Figure FDA00024965896300000724
利用序列生成模型GV生成说话人脸视频,对应的真实说话人脸视频groundtruth为GTV,判别器为DV,则重构误差损失为:
Figure FDA00024965896300000725
视频序列生成误差损失为:
Figure FDA0002496589630000081
最终总的损失函数为:
LT=LrecTLGAN
其中,λT为生成损失的权重,取值0~0.5。
CN202010420200.8A 2020-05-18 2020-05-18 一种基于解耦表示学习的说话人脸视频生成方法 Active CN111666831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010420200.8A CN111666831B (zh) 2020-05-18 2020-05-18 一种基于解耦表示学习的说话人脸视频生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010420200.8A CN111666831B (zh) 2020-05-18 2020-05-18 一种基于解耦表示学习的说话人脸视频生成方法

Publications (2)

Publication Number Publication Date
CN111666831A true CN111666831A (zh) 2020-09-15
CN111666831B CN111666831B (zh) 2023-06-20

Family

ID=72383916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010420200.8A Active CN111666831B (zh) 2020-05-18 2020-05-18 一种基于解耦表示学习的说话人脸视频生成方法

Country Status (1)

Country Link
CN (1) CN111666831B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735373A (zh) * 2020-12-31 2021-04-30 科大讯飞股份有限公司 语音合成方法、装置、设备及存储介质
CN112989935A (zh) * 2021-02-05 2021-06-18 北京百度网讯科技有限公司 一种视频生成方法、装置、设备以及存储介质
CN113449590A (zh) * 2021-05-14 2021-09-28 网易(杭州)网络有限公司 说话视频生成方法及装置
CN115205949A (zh) * 2022-09-05 2022-10-18 腾讯科技(深圳)有限公司 图像生成方法以及相关设备
CN116091668A (zh) * 2023-04-10 2023-05-09 广东工业大学 一种基于情绪特征指导的说话头视频生成方法
CN116152885A (zh) * 2022-12-02 2023-05-23 南昌大学 一种基于特征解耦的跨模态异质人脸识别和原型修复方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014001095A1 (en) * 2012-06-26 2014-01-03 Thomson Licensing Method for audiovisual content dubbing
CN105760852A (zh) * 2016-03-14 2016-07-13 江苏大学 一种融合脸部表情和语音的驾驶员情感实时识别方法
CN110263865A (zh) * 2019-06-24 2019-09-20 北方民族大学 一种半监督多模态多类别的图像翻译方法
CN110880315A (zh) * 2019-10-17 2020-03-13 深圳市声希科技有限公司 一种基于音素后验概率的个性化语音和视频生成系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014001095A1 (en) * 2012-06-26 2014-01-03 Thomson Licensing Method for audiovisual content dubbing
CN105760852A (zh) * 2016-03-14 2016-07-13 江苏大学 一种融合脸部表情和语音的驾驶员情感实时识别方法
CN110263865A (zh) * 2019-06-24 2019-09-20 北方民族大学 一种半监督多模态多类别的图像翻译方法
CN110880315A (zh) * 2019-10-17 2020-03-13 深圳市声希科技有限公司 一种基于音素后验概率的个性化语音和视频生成系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HANG ZHOU, YU LIU, ZIWEI LIU, PING LUO, XIAOGANG WANG: "Talking Face Generation by Adversarially Disentangled Audio-Visual Representation" *
HANG ZHOU, YU LIU, ZIWEI LIU, PING LUO, XIAOGANG WANG: "Talking Face Generation by Adversarially Disentangled Audio-Visual Representation:Talking Face Generation by Adversarially Disentangled Audio-Visual Representation" *
ZILI YI, HAO ZHANG, PING TAN, MINGLUN GONG: "DualGAN: Unsupervised Dual Learning for Image-To-Image Translation" *
唐郅: "语音驱动虚拟说话人研究" *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735373A (zh) * 2020-12-31 2021-04-30 科大讯飞股份有限公司 语音合成方法、装置、设备及存储介质
CN112735373B (zh) * 2020-12-31 2024-05-03 科大讯飞股份有限公司 语音合成方法、装置、设备及存储介质
CN112989935A (zh) * 2021-02-05 2021-06-18 北京百度网讯科技有限公司 一种视频生成方法、装置、设备以及存储介质
US11836837B2 (en) 2021-02-05 2023-12-05 Beijing Baidu Netcom Science Technology Co., Ltd. Video generation method, device and storage medium
CN113449590A (zh) * 2021-05-14 2021-09-28 网易(杭州)网络有限公司 说话视频生成方法及装置
CN115205949A (zh) * 2022-09-05 2022-10-18 腾讯科技(深圳)有限公司 图像生成方法以及相关设备
CN116152885A (zh) * 2022-12-02 2023-05-23 南昌大学 一种基于特征解耦的跨模态异质人脸识别和原型修复方法
CN116152885B (zh) * 2022-12-02 2023-08-01 南昌大学 一种基于特征解耦的跨模态异质人脸识别和原型修复方法
CN116091668A (zh) * 2023-04-10 2023-05-09 广东工业大学 一种基于情绪特征指导的说话头视频生成方法

Also Published As

Publication number Publication date
CN111666831B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN111666831A (zh) 一种基于解耦表示学习的说话人脸视频生成方法
Chen et al. Audio-visual integration in multimodal communication
Li et al. Direct speech-to-image translation
CN113554737A (zh) 目标对象的动作驱动方法、装置、设备及存储介质
JP2014519082A (ja) 文字に基づく映像生成
CN108962216A (zh) 一种说话视频的处理方法及装置、设备和存储介质
CN113838174B (zh) 一种音频驱动人脸动画生成方法、装置、设备与介质
CN113077537A (zh) 一种视频生成方法、存储介质及设备
CN101930619A (zh) 基于协同过滤算法的实时语音驱动人脸唇部同步动画系统
CN110459232A (zh) 一种基于循环生成对抗网络的语音转换方法
CN112785671A (zh) 虚假人脸动画合成方法
Si et al. Speech2video: Cross-modal distillation for speech to video generation
CN114360491B (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN115908661A (zh) 一种基于gan网络将戏剧人物图片生成演唱视频的方法
CN113450824B (zh) 一种基于多尺度视频特征融合的语音唇读方法及系统
Jadhav et al. Speech to ISL (Indian sign language) translator
CN115529500A (zh) 动态影像的生成方法和装置
Mahavidyalaya Phoneme and viseme based approach for lip synchronization
CN114155321B (zh) 一种基于自监督和混合密度网络的人脸动画生成方法
Kadam et al. A Survey of Audio Synthesis and Lip-syncing for Synthetic Video Generation
CN114155321A (zh) 一种基于自监督和混合密度网络的人脸动画生成方法
Zoric et al. Automated gesturing for virtual characters: speech-driven and text-driven approaches
Reddy et al. A Review on the Human Face Generation Approaches
Sangya et al. Speech to ISL Translator
CN117115310A (zh) 一种基于音频和图像的数字人脸生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant