CN111666831B - 一种基于解耦表示学习的说话人脸视频生成方法 - Google Patents

一种基于解耦表示学习的说话人脸视频生成方法 Download PDF

Info

Publication number
CN111666831B
CN111666831B CN202010420200.8A CN202010420200A CN111666831B CN 111666831 B CN111666831 B CN 111666831B CN 202010420200 A CN202010420200 A CN 202010420200A CN 111666831 B CN111666831 B CN 111666831B
Authority
CN
China
Prior art keywords
video
audio
features
emotion
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010420200.8A
Other languages
English (en)
Other versions
CN111666831A (zh
Inventor
熊盛武
林承德
路雄博
陈燚雷
刘锋
陈如意
曹丹凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Shuixiang Electronic Technology Co ltd
Wuhan University of Technology WUT
Original Assignee
Wuhan Shuixiang Electronic Technology Co ltd
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Shuixiang Electronic Technology Co ltd, Wuhan University of Technology WUT filed Critical Wuhan Shuixiang Electronic Technology Co ltd
Priority to CN202010420200.8A priority Critical patent/CN111666831B/zh
Publication of CN111666831A publication Critical patent/CN111666831A/zh
Application granted granted Critical
Publication of CN111666831B publication Critical patent/CN111666831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于解耦表示学习的说话人脸视频生成方法,采用分类对抗的方法将音频中的人物身份特征、语音特征及情绪特征解耦,并且用分类对抗的方法将视频中的人物身份特征、语音特征及情绪特征解耦,这些特征的解耦提高了本方法对生成说话视频的可操控性。采用对偶学习对音频中的语音特征和静音视频中的语音特征进行映射,对音频中的情绪特征和静音视频中的情绪特征进行映射,实现了音频和视频的跨模态特征转换,极大提高了从音频生成说话人脸视频的便利性,也提高了生成说话人脸视频的连贯与自然程度。本发明可以根据任意单张人脸图片及音频生成真实自然的说话视频,无需大量特定人脸视频,提高了易用性。

Description

一种基于解耦表示学习的说话人脸视频生成方法
技术领域
本发明涉及深度学习与多媒体跨模态生成,具体涉及一种基于解耦表示学习的说话人脸视频生成方法。
背景技术
说话人脸视频生成是指给定单张人脸图片和一段单人说话语音,生成这个人的说话人脸视频,而且该视频中人脸的说话内容与输入语音一致。说话人脸视频生成技术在虚拟主播、人机交互及影视动画制作等领域具有广阔应用前景。
由单张人脸图片和说话语音生成自然流畅的说话人脸视频十分具有挑战性,一方面需要实现保留身份特征的多帧人脸生成,而且要求人脸变化尤其是唇形变化在时域上要与输入语音一致。为此,已有研究者提出基于深度学习的说话人脸视频生成,虽然取得一定效果,但是存在一些问题。说话音频中包含由说话者人物身份特征、情绪及语音特征(说话内容)等多种特征空间,类似的,说话视频也包括说话人物身份特征、情绪及语音特征(说话引起的面部动作)等多种特征空间。现有说话人脸视频生成方法由于未能很好的将音频中的身份特征、语音特征和情绪特征以及视频中的说话人身份特征、语音特征和情绪特征解耦,生成说话视频存在以下问题:(1)音频中语音特征及情绪特征之外的特征以及是视频中人物身份特征之外的信息会严重干扰说话人脸视频生成效果,使得生成视频中唇形与语音不一致,给人不够真实的感觉;(2)由于未能将语音及视频中的情绪特征分离出来,因此生成的说话人脸视频面无表情,情绪上与语音不对应,整体效果不够自然。这些问题的存在极大的影响了说话人脸视频的实际应用。
发明内容:
本发明的目的是为了解决上述背景技术存在的不足,而提出一种基于解耦表示学习的说话人脸视频生成方法。
本发明包括三个方面:使用分类对抗方法对输入音频中的音频人物身份特征、音频语音特征及音频情绪特征进行解耦,得到干净的音频人物身份特征、音频语音特征及音频情绪特征;使用分类对抗方法对输入视频中的视频人物身份特征、视频语音特征及音频情绪特征进行解耦,得到干净的视频人物身份特征、视频语音特征及音频情绪特征;使用对偶学习方法实现音频语音特征和视频语音特征这两个不同隐空间的相互映射,并使用对偶学习方法实现音频情绪特征和视频情绪特征这两个不同隐空间的相互映射;联合视频人物身份特征和映射到该空间的音频语音特征及音频情绪特征,实现由单张图片和说话音频共同生成说话人脸视频。
本发明在训练阶段,采用分类对抗的方法将音频中的人物身份特征、语音特征以及情绪特征解耦,并且用分类对抗的方法将视频中的人物身份息、语音特征及情绪特征解耦,然后采用对偶学习将音频中的语音特征映射到视频中的语音特征,并采用对偶学习将音频中的情绪特征映射到视频中的情绪特征,最后综合视频中的人物身份特征共同完成说话人脸视频的生成。在测试阶段,将给定任意单张人脸图片和说话音频,即可生成该人脸符合音频情绪特征的说话视频。由于对人物身份、语音及情绪等关键信息实施了解耦,可以根据任意单张人脸图片及音频生成真实自然的说话视频。不仅避免了音频和视频中不同隐空间特征对生成说话视频结果的干扰,且视频画面所展现的情绪与输入音频的情绪保持一致,较好的解决现有方法存在的上述两个问题。
为了实现上述目的,本发明所采用的技术方案为:
一种基于解耦表示学习的说话人脸视频生成方法,该方法包括如下步骤:步骤一,用分类对抗的方法将静音视频中的人物身份特征、语音特征及情绪特征解耦;步骤二,采用分类对抗的方法将音频中的人物身份特征、语音特征及情绪特征解耦;步骤三,然后采用对偶学习的方法将音频中的语音特征映射到静音视频中的语音特征所在空间,并将音频中的情绪特征映射到静音视频中的情绪特征所在空间,步骤四,综合视频中的人物身份特征共同完成说话人脸视频的生成。
较佳地,步骤一中的分类对抗采用长短记忆神经网络从视频中提取人物身份特征,要求该人物身份特征对于人物身份识别有效,但是对语音识别(唇读)和情绪识别无效;而且采用长短记忆神经网络从视频中提取语音特征,并要求该语音特征对于语音识别(唇读)有效,对于人物身份及情绪的识别无效;采用长短记忆神经网络从视频中提取情绪特征,并要求该情绪特征对于情绪识别有效,对于人物身份及语音的识别无效,从而对视频实现人物身份特征、语音特征及情绪特征的解耦。
进一步的,所述步骤一分类对抗的解耦表示学习方法,包括3个编码器以及6个分类器,对于输入视频,第一阶段:先固编码器,训练更新分类器对编码器输出的视频人物身份特征进行视频语音及视频情绪分类;然后固定该分类器,训练更新编码器,使其输出的视频人物身份特征无法对视频样本进行视频语音及视频情绪的分类,从而迫使编码器学习出不包含视频语音特征及视频情绪特征的干净视频人物身份特征;第二阶段:先固编码器,训练更新分类器对编码器输出的视频语音特征对视频样本进行人物身份及视频情绪的分类;然后固定该分类器,训练更新编码器,使其输出的视频语音特征无法对视频样本进行人物身份及视频情绪的分类,从而迫使编码器学习出不包含视频人物身份特征及视频情绪特征的干净视频语音特征;第三阶段:先固编码器,训练更新分类器对编码器输出的视频情绪特征进行视频语音及视频人物身份分类;然后固定该分类器,训练更新编码器,使其输出的视频情绪特征无法对视频样本进行视频语音及视频人物身份的分类,从而迫使编码器学习出不包含视频语音特征及视频人物身份特征的干净视频情绪特征。
进一步的,所述步骤一的具体实现方式如下,
所述的分类对抗的解耦表示学习方法包括3个编码器
Figure SMS_2
Figure SMS_5
以及6个分类器/>
Figure SMS_7
Figure SMS_3
编码器/>
Figure SMS_6
从说话视频Video中提取视频中说话人物的视频人物身份特征
Figure SMS_8
分类器/>
Figure SMS_9
和/>
Figure SMS_1
对上述视频人物身份特征/>
Figure SMS_4
进行视频语音及视频情绪的分类,该过程表示为:
Figure SMS_10
Figure SMS_11
Figure SMS_12
视频语音特征编码器
Figure SMS_13
从说话视频Video中提取说话的视频语音特征
Figure SMS_14
分类器/>
Figure SMS_15
和/>
Figure SMS_16
对上述视频语音特征/>
Figure SMS_17
进行视频人物身份及视频情绪的分类,该过程表示为:
Figure SMS_18
Figure SMS_19
Figure SMS_20
视频情绪特征编码器
Figure SMS_21
从说话视频Video中提取说话的视频情绪特征
Figure SMS_22
分类器/>
Figure SMS_23
及/>
Figure SMS_24
对上述视频情绪特征/>
Figure SMS_25
进行视频人物身份及视频语音分类,该过程表示为:
Figure SMS_26
Figure SMS_27
Figure SMS_28
为实现步骤一中所述的视频身份特征以及视频语音特征的解耦,步骤一中的分类对抗分为三阶段:
第一阶段,剔除视频人物身份特征中包含的视频语音特征和视频情绪特征,得到单纯的视频人物身份特征,具体迭代实施如下:首先固定视频人物身份特征编码器
Figure SMS_29
训练更新分类器/>
Figure SMS_30
和分类器/>
Figure SMS_31
用视频人物身份特征对视频分别进行视频说话语音及视频情绪的分类,以训练分类器/>
Figure SMS_32
和分类器/>
Figure SMS_33
的分类能力,损失函数如下:
Figure SMS_34
其中,
Figure SMS_35
是第i个样本的语音分类标签,/>
Figure SMS_36
是第i个样本的情绪分类标签,λp为权重,取值0~1,N是训练数据集中说话单词的数量;
然后,固定分类器
Figure SMS_37
和/>
Figure SMS_38
迭代更新视频人物身份特征编码器
Figure SMS_39
要求每一个视频的说话词语类别都是一样的,使得编码器/>
Figure SMS_40
提取出来的人物身份特征不能对视频语音和视频情绪进行分类,进而剔除视频人物身份特征中所包含的视频语音特征和视频情绪特征,从而达到提取纯净的视频人物身份特征的目的;损失函数如下:
Figure SMS_41
第二阶段,剔除视频语音特征中包含的视频人物身份特征和情绪特征,得到单纯的视频语音特征,具体迭代实施如下:首先固定视频语音特征编码器
Figure SMS_42
训练更新分类器/>
Figure SMS_43
和/>
Figure SMS_44
用视频说话语音特征对视频进行视频人物身份特征及视频情绪特征的分类,损失函数如下:
Figure SMS_45
其中,
Figure SMS_46
为第i个样本的语音分类标签,λw为权重,取值0~1,M是训练数据集中说话人的个数;
然后,固定分类器
Figure SMS_47
和/>
Figure SMS_48
迭代更新视频语音特征编码器
Figure SMS_49
要求每一个视频的人物身份分类结果以及情绪分类结果都是一样的,从而迫使编码器/>
Figure SMS_50
提取出来的视频语音特征不能对视频人物身份和视频情绪进行分类,进而剔除视频语音特征中包含的视频人物身份特征和视频情绪特征,从而达到获取纯净的视频语音特征的目的;
Figure SMS_51
第三阶段,剔除视频人物情绪特征中包含的视频身份特征和视频语音特征,得到单纯的视频情绪特征,具体迭代实施如下:首先固定视频人物情绪特征编码器
Figure SMS_52
训练更新分类器/>
Figure SMS_53
和分类器/>
Figure SMS_54
用视频情绪特征对视频分别进行视频说话语音及视频人物身份的分类,以训练分类器/>
Figure SMS_55
和分类器/>
Figure SMS_56
的分类能力,损失函数如下:
Figure SMS_57
其中,λe为权重,取值0~1;
然后,固定分类器
Figure SMS_58
和/>
Figure SMS_59
迭代更新视频情绪特征编码器
Figure SMS_60
要求每一个视频的说话词语类别都是一样的,使得编码器/>
Figure SMS_61
提取出来的情绪特征不能对视频语音和视频人物身份进行分类,进而剔除视频情绪特征中所包含的视频语音特征和视频人物身份特征,从而达到提取纯净的视频情绪特征的目的;损失函数如下:
Figure SMS_62
较佳地,步骤二中的分类对抗采用长短记忆神经网络从音频中提取人物身份特征,要求该人物身份特征对于人物身份识别有效,但是对语音(说话内容)识别及情绪识别无效;而且采用长短记忆神经网络从音频中提取语音特征,并要求该语音特征对于语音识别有效,对于人物身份及情绪的识别无效;采用长短记忆神经网络从音频中提取情绪特征,并要求该情绪特征对于情绪识别有效,对于人物身份及语音的识别无效;从而对音频实现人物身份特征、语音特征及情绪特征的解耦。
进一步的,所述步骤二分类对抗的解耦表示学习方法,包括3个编码器以及6个分类器,对于输入音频,第一阶段:先固编码器,训练更新分类器对编码器输出的音频人物身份特征进行音频语音及音频情绪分类;然后固定该分类器,训练更新编码器,使其输出的音频人物身份特征无法对音频样本进行音频语音及音频情绪的分类,从而迫使编码器学习出不包含音频语音特征及音频情绪特征的干净音频人物身份特征;第二阶段:先固编码器,训练更新分类器对编码器输出的音频语音特征对音频样本进行人物身份和音频情绪分类;然后固定该分类器,训练更新编码器,使其输出的音频语音特征无法对音频样本进行人物身份及音频情绪的分类,从而迫使编码器学习出不包含音频人物身份特征和音频情绪特征的干净音频语音特征;第三阶段:先固编码器,训练更新分类器对编码器输出的音频情绪特征进行音频语音及音频人物身份分类;然后固定该分类器,训练更新编码器,使其输出的音频情绪特征无法对音频样本进行音频语音及音频人物身份的分类,从而迫使编码器学习出不包含音频语音特征及音频人物身份特征的干净音频情绪特征。
所述步骤二的具体实现方式如下,
所述的分类对抗的解耦表示学习方法包括3个编码器
Figure SMS_64
Figure SMS_67
以及6个分类器/>
Figure SMS_70
Figure SMS_65
编码器/>
Figure SMS_66
从说话音频Audio中提取说话人物的音频人物身份特征
Figure SMS_69
分类器/>
Figure SMS_71
和/>
Figure SMS_63
分别对上述音频人物身份特征/>
Figure SMS_68
进行音频语音及音频情绪分类;该过程表示为:
Figure SMS_72
Figure SMS_73
Figure SMS_74
音频语音特征编码器
Figure SMS_75
从说话音频Audio中提取音频语音特征/>
Figure SMS_76
分类器/>
Figure SMS_77
和/>
Figure SMS_78
对上述音频语音特征/>
Figure SMS_79
进行音频人物身份及音频情绪的分类,该过程表示为:
Figure SMS_80
Figure SMS_81
Figure SMS_82
音频语音情绪编码器
Figure SMS_83
从说话音频Audio中提取音频情绪特征/>
Figure SMS_84
分类器/>
Figure SMS_85
和/>
Figure SMS_86
对上述音频情绪特征/>
Figure SMS_87
进行音频人物身份及音频语音的分类,该过程表示为:
Figure SMS_88
Figure SMS_89
Figure SMS_90
为实现步骤二中所述的视频人物身份特征以及视频语音特征的解耦,步骤二中的分类对抗分为三个阶段:
第一阶段,剔除音频人物身份特征中包含的音频语音特征和音频情绪特征,得到单纯的音频人物身份特征,具体迭代实施如下:首先固定音频人物身份特征编码器
Figure SMS_91
训练更新分类器/>
Figure SMS_92
和/>
Figure SMS_93
用音频人物身份特征对音频进行音频语音及音频情绪的分类,以训练分类器/>
Figure SMS_94
和/>
Figure SMS_95
根据音频人物身份特征对音频进行音频说话语音及音频情绪的分类能力,损失函数如下:
Figure SMS_96
其中,
Figure SMS_97
是第i个样本的语音分类标签,/>
Figure SMS_98
是第i个样本的情绪分类标签,λp为权重,取值0~1,N是训练数据集中说话单词的数量;
然后,固定分类器
Figure SMS_99
和和/>
Figure SMS_100
迭代更新音频人物身份特征编码器
Figure SMS_101
要求每一个音频的说话词语类别都是一样的,使得编码器/>
Figure SMS_102
提取出来的人物身份特征不能对音频语音及音频情绪进行分类,进而剔除音频人物身份特征中所包含的音频语音特征及音频情绪特征,从而达到提取纯净的音频人物身份特征的目的;损失函数如下:
Figure SMS_103
第二阶段,剔除音频语音特征中包含的音频人物身份特征和音频情绪特征,得到单纯的音频语音特征,具体迭代实施如下:首先固定音频语音特征编码器
Figure SMS_104
训练更新分类器/>
Figure SMS_105
和/>
Figure SMS_106
用音频说话语音特征对音频进行音频人物身份特征及音频情绪特征的分类,以训练分类器/>
Figure SMS_107
和/>
Figure SMS_108
根据音频说话语音特征对音频进行音频人物身份及音频情绪进行分类能力,损失函数如下:
Figure SMS_109
其中,
Figure SMS_110
为第i个样本的语音分类标签,λw为权重,取值0~1,M是训练数据集中说话人的个数;
然后,固定分类器
Figure SMS_111
和/>
Figure SMS_112
迭代更新音频语音特征编码器
Figure SMS_113
要求每一个视频的人物身份及音频情绪的分类结果都是一样的,从而迫使编码器/>
Figure SMS_114
提取出来的音频语音特征不能对音频人物身份及音频情绪进行分类,进而剔除音频语音特征中包含的音频人物身份特征及音频情绪特征,从而达到获取纯净的音频语音特征的目的;损失函数如下:
Figure SMS_115
第三阶段,剔除音频情绪特征中包含的音频语音特征和音频人物身份特征,得到单纯的音频情绪特征,具体迭代实施如下:首先固定音频情绪特征编码器
Figure SMS_116
训练更新分类器/>
Figure SMS_117
和/>
Figure SMS_118
用音频情绪特征对音频进行音频语音及音频人物身份分类的能力,损失函数如下:
Figure SMS_119
其中,λe为权重,取值0~1;
然后,固定分类器
Figure SMS_120
和/>
Figure SMS_121
迭代更新音频人物身份特征编码器
Figure SMS_122
要求每一个音频的情绪类别都是一样的,使得编码器/>
Figure SMS_123
提取出来的情绪特征不能对音频语音及音频人物身份进行分类,进而剔除音频情绪特征中所包含的音频语音特征及音频人物身份特征。从而达到提取纯净的音频情绪特征的目的;损失函数如下:
Figure SMS_124
较佳地,步骤三根据说话视频中语音特征(面部特征变化)和对应音频中语音特征之间存在的一致性,将由音频语音特征生成视频语音特征这一问题建模为由视频语音特征生成音频语音特征(唇读问题)的反问题,构建对偶学习模型利用对偶一致性误差及生成误差共同对对偶生成过程进行约束,实现音频语音特征和视频语音特征这两个不同隐空间的相互映射,从而将音频语音特征映射到视频语音特征空间。
步骤三的具体实现方式如下,
假设A和V分别为音频语音特征和视频语音特征,其中音频语音特征记为
Figure SMS_125
视频语音特征记为/>
Figure SMS_126
则对偶对抗生成模型DualGAN的损失函数结构如下:
假设生成器G将
Figure SMS_127
生成/>
Figure SMS_128
生成结果记为/>
Figure SMS_129
则其损失函数:
Figure SMS_130
其中,
Figure SMS_131
表示v采样于说话视频中的语音特征/>
Figure SMS_132
Dv为视频语音真假判别器,/>
Figure SMS_133
表示a采样于音频中的语音特征/>
Figure SMS_134
G(a)表示由a生成/>
Figure SMS_135
假设生成器F将
Figure SMS_136
生成/>
Figure SMS_137
则其损失函数:
Figure SMS_138
其中,Da为音频语音真假判别器,F(v)表示生成器将
Figure SMS_139
生成/>
Figure SMS_140
对偶一致性损失函数
Figure SMS_141
最终DualGAN的损失函数如下:
L(G,F,DA,DV)=LGAN(G,Dv,A,V)+LGAN(F,Da,V,A)+λLDual(G,F)
其中,λ表示权重,取值0~0.5。
同理,利用对偶学习模型完成音频情绪特征
Figure SMS_142
到视频情绪特征/>
Figure SMS_143
的转换,转换结果记为/>
Figure SMS_144
较佳地,步骤四将步骤三转换音频中的语音特征得到为视频中的语音特征和视频或者图片中的人物身份特征结合,采用时序对抗生成网络生成同时满足该语音特征、情绪特征及人物身份特征的说话人脸视频。
步骤四的具体实现方式如下,
将步骤3由音频语音特征
Figure SMS_145
转换得到的视频语音特征/>
Figure SMS_146
及视频情绪特征/>
Figure SMS_147
和步骤2中得到的视频人物身份特征结合,视频人物身份特征记为
Figure SMS_148
利用序列生成模型GV生成说话人脸视频,对应的真实说话人脸视频groundtruth为GTV,判别器为DV,则重构误差损失为:
Figure SMS_149
视频序列生成误差损失为:
Figure SMS_150
最终总的损失函数为:
LT=LrecTLGAN
其中,λT为生成损失的权重,取值0~0.5。
采用分类对抗的方法将音频中的人物身份特征、语音特征及情绪特征解耦,并且用分类对抗的方法将视频中的人物身份特征、语音特征及情绪特征解耦,这些特征的解耦提高了本方法对生成说话视频的可操控性。采用对偶学习对音频中的语音特征和静音视频中的语音特征进行映射,对音频中的情绪特征和静音视频中的情绪特征进行映射,实现了音频和视频的跨模态特征转换,极大提高了从音频生成说话人脸视频的便利性,也提高了生成说话人脸视频的连贯与自然程度。由于对人物身份及语音等关键信息实施了解耦及跨模态的转换,故可以根据任意单张人脸图片及音频生成真实自然的说话视频,无需大量特定人脸视频,提高了易用性。
附图说明
图1为本发明实施模型的训练流程图;
图2为本发明实施模型的测试及使用流程图;
图3为本发明实施对偶学习模型结构图。
具体实施方式
下面结合附图和实施例对本发明做进一步的说明。
本发明提出了一种基于解耦表示学习的说话人脸视频生成方法,通过对音频及视频中关键特征的解耦,获取干净的生成说话人脸视频所需的音频语音特征、视频人物身份特征及视频情绪特征,不仅避免了其他特征的干扰,提高了生成说话人脸视频的质量,而且能够减少对说话人物面部图像的需求量,即使单张图片也能生成说话人脸视频,极大拓宽了说话人脸视频生成方法的应用场景。首先使用分类对抗方法对输入音频中的音频人物身份特征、音频语音特征及音频情绪特征进行解耦,得到干净的音频人物身份特征、音频语音特征及音频情绪特征,避免了音频中的身份特征对生成说话视频的干扰;然后使用分类对抗方法对输入视频中的视频人物身份特征、视频语音特征及视频情绪特征进行解耦,得到干净的视频人物身份特征、视频语音特征及视频情绪特征,避免了视频中的语音特征及情绪特征对生成说话视频的干扰;接下来使用对偶学习方法将音频语音特征隐空间映射到视频语音特征隐空间,并将音频情绪特征隐空间映射到视频情绪特征隐空间,最后联合视频人物身份特征、映射到该空间的音频语音特征及音频情绪特征,共同生成说话人脸视频。利用该方法,即使输入单证人脸图片和一段说话音频,也能生成符合该图片人物身份特征的且与该音频语音内容及情绪对应的清晰自然的说话人脸视频。
如图1所示,一种基于解耦表示学习的说话人脸视频生成方法,该方法主要包括音频特征解耦、视频特征解耦、音频语音特征及情绪特征到视频语音特征及情绪特征的转换,由音频语音特征及视频人物特征生成说话人脸视频等四个步骤。
步骤1:通过分类对抗的解耦表示学习方法从说话视频中提取说话人物的视频人物身份特征、视频语音特征以及视频情绪特征,实现说话人脸视频关键特征的解耦。
步骤1中所述的说话视频是指包含一个人的说话脸部画面的静音视频,说话内容为一个词语,每个说话视频Video均包含一个视频人物身份类标签、一个视频说话词语类标签和一个情绪类标签;
所述的分类对抗的解耦表示学习方法包括3个编码器
Figure SMS_153
Figure SMS_157
以及6个分类器/>
Figure SMS_159
Figure SMS_152
编码器/>
Figure SMS_155
从说话视频Video中提取视频中说话人物的视频人物身份特征
Figure SMS_156
分类器/>
Figure SMS_158
和/>
Figure SMS_151
对上述视频人物身份特征/>
Figure SMS_154
进行视频语音及视频情绪的分类。该过程可以表示为:
Figure SMS_160
Figure SMS_161
Figure SMS_162
视频语音特征编码器
Figure SMS_163
从说话视频Video中提取说话的视频语音特征
Figure SMS_164
分类器/>
Figure SMS_165
和/>
Figure SMS_166
对上述视频语音特征/>
Figure SMS_167
进行视频人物身份及视频情绪的分类,该过程可以表示为:
Figure SMS_168
Figure SMS_169
Figure SMS_170
视频情绪特征编码器
Figure SMS_171
从说话视频Video中提取说话的视频情绪特征
Figure SMS_172
分类器/>
Figure SMS_173
及/>
Figure SMS_174
对上述视频情绪特征/>
Figure SMS_175
进行视频人物身份及视频语音分类,该过程可以表示为:
Figure SMS_176
Figure SMS_177
Figure SMS_178
为实现步骤1中所述的视频身份特征以及视频语音特征的解耦,步骤1中的分类对抗分为三阶段:
第一阶段,剔除视频人物身份特征中包含的视频语音特征和视频情绪特征,得到单纯的视频人物身份特征,具体迭代实施如下:首先固定视频人物身份特征编码器
Figure SMS_179
训练更新分类器/>
Figure SMS_180
和分类器/>
Figure SMS_181
用视频人物身份特征对视频分别进行视频说话语音及视频情绪的分类,以训练分类器/>
Figure SMS_182
和分类器/>
Figure SMS_183
的分类能力,损失函数如下:
Figure SMS_184
其中,
Figure SMS_185
是第i个样本的语音分类标签,/>
Figure SMS_186
是第i个样本的情绪分类标签,λp为权重,取值0~1,N是训练数据集中说话单词的数量。
然后,固定分类器
Figure SMS_187
和/>
Figure SMS_188
迭代更新视频人物身份特征编码器
Figure SMS_189
要求每一个视频的说话词语类别都是一样的,使得编码器/>
Figure SMS_190
提取出来的人物身份特征不能对视频语音和视频情绪进行分类,进而剔除视频人物身份特征中所包含的视频语音特征和视频情绪特征。从而达到提取纯净的视频人物身份特征的目的。损失函数如下:
Figure SMS_191
第二阶段,剔除视频语音特征中包含的视频人物身份特征和情绪特征,得到单纯的视频语音特征,具体迭代实施如下:首先固定视频语音特征编码器
Figure SMS_192
训练更新分类器/>
Figure SMS_193
和/>
Figure SMS_194
用视频说话语音特征对视频进行视频人物身份特征及视频情绪特征的分类,损失函数如下:
Figure SMS_195
其中,
Figure SMS_196
为第i个样本的语音分类标签,λw为权重,取值0~1,M是训练数据集中说话人的个数。
然后,固定分类器
Figure SMS_197
和/>
Figure SMS_198
迭代更新视频语音特征编码器
Figure SMS_199
要求每一个视频的人物身份分类结果以及情绪分类结果都是一样的,从而迫使编码器/>
Figure SMS_200
提取出来的视频语音特征不能对视频人物身份和视频情绪进行分类,进而剔除视频语音特征中包含的视频人物身份特征和视频情绪特征。从而达到获取纯净的视频语音特征的目的。
Figure SMS_201
第三阶段,剔除视频人物情绪特征中包含的视频身份特征和视频语音特征,得到单纯的视频情绪特征,具体迭代实施如下:首先固定视频人物情绪特征编码器
Figure SMS_202
训练更新分类器/>
Figure SMS_203
和分类器/>
Figure SMS_204
用视频情绪特征对视频分别进行视频说话语音及视频人物身份的分类,以训练分类器/>
Figure SMS_205
和分类器/>
Figure SMS_206
的分类能力,损失函数如下:
Figure SMS_207
其中,λe为权重,取值0~1;
然后,固定分类器
Figure SMS_208
和/>
Figure SMS_209
迭代更新视频情绪特征编码器
Figure SMS_210
要求每一个视频的说话词语类别都是一样的,使得编码器/>
Figure SMS_211
提取出来的情绪特征不能对视频语音和视频人物身份进行分类,进而剔除视频情绪特征中所包含的视频语音特征和视频人物身份特征。从而达到提取纯净的视频情绪特征的目的。损失函数如下:/>
Figure SMS_212
步骤2:通过分类对抗的解耦表示学习方法从说话音频中提取说话人的音频人物身份特征、音频语音特征以及音频情绪特征,实现音频关键特征的解耦。
步骤2中所述的说话音频是指包含一个人的说话音频,说话内容为一个词语,每个说话音频Audio均包含一个音频人物身份类标签、一个音频说话词语类标签和一个音频情绪类标签;
所述的分类对抗的解耦表示学习方法包括3个编码器
Figure SMS_215
Figure SMS_218
以及6个分类器/>
Figure SMS_219
Figure SMS_214
编码器/>
Figure SMS_217
从说话音频Audio中提取说话人物的音频人物身份特征
Figure SMS_220
分类器/>
Figure SMS_221
和/>
Figure SMS_213
分别对对上述音频人物身份特征/>
Figure SMS_216
进行音频语音及音频情绪分类。该过程可以表示为:
Figure SMS_222
Figure SMS_223
Figure SMS_224
音频语音特征编码器
Figure SMS_225
从说话音频Audio中提取音频语音特征/>
Figure SMS_226
分类器/>
Figure SMS_227
和/>
Figure SMS_228
对上述音频语音特征/>
Figure SMS_229
进行音频人物身份及音频情绪的分类,该过程可以表示为:
Figure SMS_230
Figure SMS_231
Figure SMS_232
音频语音情绪编码器
Figure SMS_233
从说话音频Audio中提取音频情绪特征/>
Figure SMS_234
分类器/>
Figure SMS_235
和/>
Figure SMS_236
对上述音频情绪特征/>
Figure SMS_237
进行音频人物身份及音频语音的分类,该过程可以表示为:
Figure SMS_238
Figure SMS_239
Figure SMS_240
为实现步骤2中所述的视频人物身份特征以及视频语音特征的解耦,步骤2中的分类对抗分为三个阶段:
第一阶段,剔除音频人物身份特征中包含的音频语音特征和音频情绪特征,得到单纯的音频人物身份特征,具体迭代实施如下:首先固定音频人物身份特征编码器
Figure SMS_241
训练更新分类器/>
Figure SMS_242
和/>
Figure SMS_243
用音频人物身份特征对音频进行音频语音及音频情绪的分类,以训练分类器/>
Figure SMS_244
和/>
Figure SMS_245
根据音频人物身份特征对音频进行音频说话语音及音频情绪的分类能力,损失函数如下:/>
Figure SMS_246
然后,固定分类器
Figure SMS_247
和和/>
Figure SMS_248
迭代更新音频人物身份特征编码器
Figure SMS_249
要求每一个音频的说话词语类别都是一样的,使得编码器/>
Figure SMS_250
提取出来的人物身份特征不能对音频语音及音频情绪进行分类,进而剔除音频人物身份特征中所包含的音频语音特征及音频情绪特征。从而达到提取纯净的音频人物身份特征的目的。损失函数如下:
Figure SMS_251
第二阶段,剔除音频语音特征中包含的音频人物身份特征和音频情绪特征,得到单纯的音频语音特征,具体迭代实施如下:首先固定音频语音特征编码器
Figure SMS_252
训练更新分类器/>
Figure SMS_253
和/>
Figure SMS_254
用音频说话语音特征对音频进行音频人物身份特征及音频情绪特征的分类,以训练分类器/>
Figure SMS_255
和/>
Figure SMS_256
根据音频说话语音特征对音频进行音频人物身份及音频情绪进行分类能力,损失函数如下:
Figure SMS_257
然后,固定分类器
Figure SMS_258
和/>
Figure SMS_259
迭代更新音频语音特征编码器
Figure SMS_260
要求每一个视频的人物身份及音频情绪的分类结果都是一样的,从而迫使编码器/>
Figure SMS_261
提取出来的音频语音特征不能对音频人物身份及音频情绪进行分类,进而剔除音频语音特征中包含的音频人物身份特征及音频情绪特征。从而达到获取纯净的音频语音特征的目的。
Figure SMS_262
第三阶段,剔除音频情绪特征中包含的音频语音特征和音频人物身份特征,得到单纯的音频情绪特征,具体迭代实施如下:首先固定音频情绪特征编码器
Figure SMS_263
训练更新分类器/>
Figure SMS_264
和/>
Figure SMS_265
用音频情绪特征对音频进行音频语音及音频人物身份分类的能力,损失函数如下:
Figure SMS_266
其中,λe为权重,取值0~1;
然后,固定分类器
Figure SMS_267
和/>
Figure SMS_268
迭代更新音频人物身份特征编码器
Figure SMS_269
要求每一个音频的情绪类别都是一样的,使得编码器/>
Figure SMS_270
提取出来的情绪特征不能对音频语音及音频人物身份进行分类,进而剔除音频情绪特征中所包含的音频语音特征及音频人物身份特征。从而达到提取纯净的音频情绪特征的目的。损失函数如下:
Figure SMS_271
步骤3:由步骤2可以将说话音频解耦为音频人物身份特征
Figure SMS_273
和音频语音特征/>
Figure SMS_276
并且可以将说话视频解耦为视频人物身份特征/>
Figure SMS_280
和视频语音特征
Figure SMS_274
接下来需要根据视频人物身份特征/>
Figure SMS_277
和音频语音特征/>
Figure SMS_282
重构说话人脸视频,但是/>
Figure SMS_283
和/>
Figure SMS_272
属于不同的隐空间,难以直接用于视频生成。对此,提出用对偶对抗生成模型DualGAN学习这两类特征到彼此隐空间的映射,从而将/>
Figure SMS_278
转换到/>
Figure SMS_279
所在隐空间。假设A和V分别为音频语音特征/>
Figure SMS_281
和视频语音特征/>
Figure SMS_275
则对偶对抗生成模型DualGAN的损失函数结构如下:
假设生成器G将
Figure SMS_284
生成/>
Figure SMS_285
生成结果标记为/>
Figure SMS_286
则其损失函数:
Figure SMS_287
其中,
Figure SMS_288
表示v采样于说话视频中的语音特征/>
Figure SMS_289
Dv为视频语音真假判别器,/>
Figure SMS_290
表示a采样于音频中的语音特征/>
Figure SMS_291
G(a)表示由a生成/>
Figure SMS_292
假设生成器F将
Figure SMS_293
生成/>
Figure SMS_294
则其损失函数:
Figure SMS_295
其中,Da为音频语音真假判别器,F(v)表示生成器将
Figure SMS_296
生成/>
Figure SMS_297
对偶一致性损失函数
Figure SMS_298
最终DualGAN的损失函数如下:
L(G,F,DA,DV)=LGAN(G,Dv,A,V)+LGAN(F,Da,V,A)+λLDual(G,F)
其中,λ表示权重,取值0~0.5。
同理,利用对偶学习模型可以完成音频情绪特征
Figure SMS_299
到视频情绪特征
Figure SMS_300
的转换,转换结果记为/>
Figure SMS_301
步骤4:将步骤3由音频语音特征
Figure SMS_302
转换得到的视频语音特征/>
Figure SMS_303
及视频情绪特征/>
Figure SMS_304
和步骤2中得到的视频人物身份特征/>
Figure SMS_305
结合,利用序列生成模型GV生成说话人脸视频,对应的真实说话人脸视频groundtruth为GTV,判别器为DV。则重构误差损失为:
Figure SMS_306
视频序列生成误差损失为:
Figure SMS_307
最终总的损失函数为:
LT=LrecTLGAN
λT为生成损失的权重,取值0~0.5。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (6)

1.一种基于解耦表示学习的说话人脸视频生成方法,其特征在于,该方法包含如下步骤:
步骤一,通过分类对抗的解耦表示学习方法从说话视频Video中提取说话人物的视频人物身份特征、视频语音特征以及视频情绪特征,实现说话人脸视频关键特征的解耦;
步骤二,通过分类对抗的解耦表示学习方法从说话音频Audio中提取说话人的音频人物身份特征、音频语音特征以及音频情绪特征,实现音频关键特征的解耦;
步骤三,使用对偶学习模型实现音频语音特征和视频语音特征这两个不同隐空间的相互映射,并使用对偶学习模型实现音频情绪特征和视频情绪特征这两个不同隐空间的相互映射;
步骤三的具体实现方式如下,
假设A和V分别为音频语音特征和视频语音特征,其中音频语音特征记为
Figure FDA0004199625070000011
视频语音特征记为/>
Figure FDA0004199625070000012
则对偶对抗生成模型DualGAN的损失函数结构如下:
假设生成器G将
Figure FDA0004199625070000013
生成/>
Figure FDA0004199625070000014
生成结果记为/>
Figure FDA0004199625070000015
则其损失函数:
Figure FDA0004199625070000016
其中,
Figure FDA0004199625070000017
表示v采样于说话视频中的语音特征/>
Figure FDA0004199625070000018
Dv为视频语音真假判别器,/>
Figure FDA0004199625070000019
表示a采样于音频中的语音特征/>
Figure FDA00041996250700000110
G(a)表示由a生成/>
Figure FDA00041996250700000111
假设生成器F将
Figure FDA00041996250700000112
生成/>
Figure FDA00041996250700000113
则其损失函数:
Figure FDA00041996250700000114
其中,Da为音频语音真假判别器,F(v)表示生成器将
Figure FDA00041996250700000115
生成/>
Figure FDA00041996250700000116
对偶一致性损失函数
Figure FDA00041996250700000117
最终DualGAN的损失函数如下:
L(G,F,DA,DV)=LGAN(G,Dv,A,V)+LGAN(F,Da,V,A)+λLDual(G,F)
其中,λ表示权重,取值0~0.5;
同理,利用对偶学习模型完成音频情绪特征
Figure FDA00041996250700000118
到视频情绪特征/>
Figure FDA00041996250700000119
的转换,转换结果记为/>
Figure FDA00041996250700000120
步骤四,最后联合视频人物身份特征、映射到该空间的音频语音特征及音频情绪特征,共同生成说话人脸视频。
2.根据权利要求1所述的一种基于解耦表示学习的说话人脸视频生成方法,其特征在于:
所述步骤二分类对抗的解耦表示学习方法,包括3个编码器以及6个分类器,对于输入视频,第一阶段:先固编码器,训练更新分类器对编码器输出的视频人物身份特征进行视频语音及视频情绪分类;然后固定该分类器,训练更新编码器,使其输出的视频人物身份特征无法对视频样本进行视频语音及视频情绪的分类,从而迫使编码器学习出不包含视频语音特征及视频情绪特征的干净视频人物身份特征;第二阶段:先固编码器,训练更新分类器对编码器输出的视频语音特征对视频样本进行人物身份及视频情绪的分类;然后固定该分类器,训练更新编码器,使其输出的视频语音特征无法对视频样本进行人物身份及视频情绪的分类,从而迫使编码器学习出不包含视频人物身份特征及视频情绪特征的干净视频语音特征;第三阶段:先固编码器,训练更新分类器对编码器输出的视频情绪特征进行视频语音及视频人物身份分类;然后固定该分类器,训练更新编码器,使其输出的视频情绪特征无法对视频样本进行视频语音及视频人物身份的分类,从而迫使编码器学习出不包含视频语音特征及视频人物身份特征的干净视频情绪特征。
3.根据权利要求2所述的一种基于解耦表示学习的说话人脸视频生成方法,其特征在于:所述步骤一的具体实现方式如下,
所述的分类对抗的解耦表示学习方法包括3个编码器
Figure FDA0004199625070000021
和/>
Figure FDA0004199625070000022
以及6个分类器/>
Figure FDA0004199625070000023
及/>
Figure FDA0004199625070000024
编码器/>
Figure FDA0004199625070000025
从说话视频Video中提取视频中说话人物的视频人物身份特征/>
Figure FDA0004199625070000026
分类器/>
Figure FDA0004199625070000027
和/>
Figure FDA0004199625070000028
对上述视频人物身份特征/>
Figure FDA0004199625070000029
进行视频语音及视频情绪的分类,具体过程表示为:
Figure FDA00041996250700000210
Figure FDA00041996250700000211
Figure FDA00041996250700000212
视频语音特征编码器
Figure FDA00041996250700000213
从说话视频Video中提取说话的视频语音特征/>
Figure FDA00041996250700000214
分类器/>
Figure FDA00041996250700000215
和/>
Figure FDA00041996250700000216
对上述视频语音特征/>
Figure FDA00041996250700000217
进行视频人物身份及视频情绪的分类,具体过程表示为:
Figure FDA00041996250700000218
Figure FDA0004199625070000031
Figure FDA0004199625070000032
视频情绪特征编码器
Figure FDA0004199625070000033
从说话视频Video中提取说话的视频情绪特征/>
Figure FDA0004199625070000034
分类器/>
Figure FDA0004199625070000035
及/>
Figure FDA0004199625070000036
对上述视频情绪特征/>
Figure FDA0004199625070000037
进行视频人物身份及视频语音分类,具体过程表示为:
Figure FDA0004199625070000038
Figure FDA0004199625070000039
Figure FDA00041996250700000310
为实现步骤一中所述的视频身份特征以及视频语音特征的解耦,步骤一中的分类对抗分为三阶段:
第一阶段,剔除视频人物身份特征中包含的视频语音特征和视频情绪特征,得到单纯的视频人物身份特征,具体迭代实施如下:首先固定视频人物身份特征编码器
Figure FDA00041996250700000311
训练更新分类器/>
Figure FDA00041996250700000312
和分类器/>
Figure FDA00041996250700000313
用视频人物身份特征对视频分别进行视频说话语音及视频情绪的分类,以训练分类器/>
Figure FDA00041996250700000314
和分类器/>
Figure FDA00041996250700000315
的分类能力,损失函数如下:
Figure FDA00041996250700000316
其中,
Figure FDA00041996250700000317
是第i个样本的语音分类标签,/>
Figure FDA00041996250700000318
是第i个样本的情绪分类标签,λp为权重,取值0~1,N是训练数据集中说话单词的数量;
然后,固定分类器
Figure FDA00041996250700000319
和/>
Figure FDA00041996250700000320
迭代更新视频人物身份特征编码器
Figure FDA00041996250700000321
要求每一个视频的说话词语类别都是一样的,使得编码器/>
Figure FDA00041996250700000322
提取出来的人物身份特征不能对视频语音和视频情绪进行分类,进而剔除视频人物身份特征中所包含的视频语音特征和视频情绪特征,从而达到提取纯净的视频人物身份特征的目的;损失函数如下:
Figure FDA00041996250700000323
第二阶段,剔除视频语音特征中包含的视频人物身份特征和情绪特征,得到单纯的视频语音特征,具体迭代实施如下:首先固定视频语音特征编码器
Figure FDA00041996250700000324
训练更新分类器
Figure FDA0004199625070000041
和/>
Figure FDA0004199625070000042
用视频说话语音特征对视频进行视频人物身份特征及视频情绪特征的分类,损失函数如下:
Figure FDA0004199625070000043
其中,
Figure FDA0004199625070000044
为第i个样本的语音分类标签,λw为权重,取值0~1,M是训练数据集中说话人的个数;
然后,固定分类器
Figure FDA0004199625070000045
和/>
Figure FDA0004199625070000046
迭代更新视频语音特征编码器/>
Figure FDA0004199625070000047
要求每一个视频的人物身份分类结果以及情绪分类结果都是一样的,从而迫使编码器
Figure FDA0004199625070000048
提取出来的视频语音特征不能对视频人物身份和视频情绪进行分类,进而剔除视频语音特征中包含的视频人物身份特征和视频情绪特征,从而达到获取纯净的视频语音特征的目的;
Figure FDA0004199625070000049
第三阶段,剔除视频人物情绪特征中包含的视频身份特征和视频语音特征,得到单纯的视频情绪特征,具体迭代实施如下:首先固定视频人物情绪特征编码器
Figure FDA00041996250700000410
训练更新分类器/>
Figure FDA00041996250700000411
和分类器/>
Figure FDA00041996250700000412
用视频情绪特征对视频分别进行视频说话语音及视频人物身份的分类,以训练分类器/>
Figure FDA00041996250700000413
和分类器/>
Figure FDA00041996250700000414
的分类能力,损失函数如下:
Figure FDA00041996250700000415
其中,λe为权重,取值0~1;
然后,固定分类器
Figure FDA00041996250700000416
和/>
Figure FDA00041996250700000417
迭代更新视频情绪特征编码器/>
Figure FDA00041996250700000418
要求每一个视频的说话词语类别都是一样的,使得编码器/>
Figure FDA00041996250700000419
提取出来的情绪特征不能对视频语音和视频人物身份进行分类,进而剔除视频情绪特征中所包含的视频语音特征和视频人物身份特征,从而达到提取纯净的视频情绪特征的目的;损失函数如下:
Figure FDA00041996250700000420
4.根据权利要求1所述的一种基于解耦表示学习的说话人脸视频生成方法,其特征在于:
所述步骤一分类对抗的解耦表示学习方法,包括3个编码器以及6个分类器,对于输入音频,第一阶段:先固编码器,训练更新分类器对编码器输出的音频人物身份特征进行音频语音及音频情绪分类;然后固定该分类器,训练更新编码器,使其输出的音频人物身份特征无法对音频样本进行音频语音及音频情绪的分类,从而迫使编码器学习出不包含音频语音特征及音频情绪特征的干净音频人物身份特征;第二阶段:先固编码器,训练更新分类器对编码器输出的音频语音特征对音频样本进行人物身份和音频情绪分类;然后固定该分类器,训练更新编码器,使其输出的音频语音特征无法对音频样本进行人物身份及音频情绪的分类,从而迫使编码器学习出不包含音频人物身份特征和音频情绪特征的干净音频语音特征;第三阶段:先固编码器,训练更新分类器对编码器输出的音频情绪特征进行音频语音及音频人物身份分类;然后固定该分类器,训练更新编码器,使其输出的音频情绪特征无法对音频样本进行音频语音及音频人物身份的分类,从而迫使编码器学习出不包含音频语音特征及音频人物身份特征的干净音频情绪特征。
5.根据权利要求4所述的一种基于解耦表示学习的说话人脸视频生成方法,其特征在于:所述步骤二的具体实现方式如下,
所述的分类对抗的解耦表示学习方法包括3个编码器
Figure FDA0004199625070000051
和/>
Figure FDA0004199625070000052
以及6个分类器/>
Figure FDA0004199625070000053
和/>
Figure FDA0004199625070000054
编码器/>
Figure FDA0004199625070000055
从说话音频Audio中提取说话人物的音频人物身份特征/>
Figure FDA0004199625070000056
分类器
Figure FDA0004199625070000057
和/>
Figure FDA0004199625070000058
分别对上述音频人物身份特征/>
Figure FDA0004199625070000059
进行音频语音及音频情绪分类;具体过程表示为:
Figure FDA00041996250700000510
Figure FDA00041996250700000511
Figure FDA00041996250700000512
音频语音特征编码器
Figure FDA00041996250700000513
从说话音频Audio中提取音频语音特征/>
Figure FDA00041996250700000514
分类器
Figure FDA00041996250700000515
和/>
Figure FDA00041996250700000516
对上述音频语音特征/>
Figure FDA00041996250700000517
进行音频人物身份及音频情绪的分类,具体过程表示为:
Figure FDA00041996250700000518
Figure FDA00041996250700000519
Figure FDA00041996250700000520
音频语音情绪编码器
Figure FDA00041996250700000521
从说话音频Audio中提取音频情绪特征/>
Figure FDA00041996250700000522
分类器
Figure FDA00041996250700000523
和/>
Figure FDA00041996250700000524
对上述音频情绪特征/>
Figure FDA00041996250700000525
进行音频人物身份及音频语音的分类,具体过程表示为:
Figure FDA0004199625070000061
Figure FDA0004199625070000062
Figure FDA0004199625070000063
为实现步骤二中所述的视频人物身份特征以及视频语音特征的解耦,步骤二中的分类对抗分为三个阶段:
第一阶段,剔除音频人物身份特征中包含的音频语音特征和音频情绪特征,得到单纯的音频人物身份特征,具体迭代实施如下:首先固定音频人物身份特征编码器
Figure FDA0004199625070000064
训练更新分类器/>
Figure FDA0004199625070000065
和/>
Figure FDA0004199625070000066
用音频人物身份特征对音频进行音频语音及音频情绪的分类,以训练分类器/>
Figure FDA0004199625070000067
和/>
Figure FDA0004199625070000068
根据音频人物身份特征对音频进行音频说话语音及音频情绪的分类能力,损失函数如下:
Figure FDA0004199625070000069
其中,
Figure FDA00041996250700000610
是第i个样本的语音分类标签,/>
Figure FDA00041996250700000611
是第i个样本的情绪分类标签,λp为权重,取值0~1,N是训练数据集中说话单词的数量;
然后,固定分类器
Figure FDA00041996250700000612
和/>
Figure FDA00041996250700000613
迭代更新音频人物身份特征编码器
Figure FDA00041996250700000614
要求每一个音频的说话词语类别都是一样的,使得编码器/>
Figure FDA00041996250700000615
提取出来的人物身份特征不能对音频语音及音频情绪进行分类,进而剔除音频人物身份特征中所包含的音频语音特征及音频情绪特征,从而达到提取纯净的音频人物身份特征的目的;损失函数如下:
Figure FDA00041996250700000616
第二阶段,剔除音频语音特征中包含的音频人物身份特征和音频情绪特征,得到单纯的音频语音特征,具体迭代实施如下:首先固定音频语音特征编码器
Figure FDA00041996250700000617
训练更新分类器/>
Figure FDA00041996250700000618
和/>
Figure FDA00041996250700000619
用音频说话语音特征对音频进行音频人物身份特征及音频情绪特征的分类,以训练分类器/>
Figure FDA00041996250700000620
和/>
Figure FDA00041996250700000621
根据音频说话语音特征对音频进行音频人物身份及音频情绪进行分类能力,损失函数如下:
Figure FDA00041996250700000622
其中,
Figure FDA00041996250700000623
为第i个样本的语音分类标签,λw为权重,取值0~1,M是训练数据集中说话人的个数;
然后,固定分类器
Figure FDA0004199625070000071
和/>
Figure FDA0004199625070000072
迭代更新音频语音特征编码器/>
Figure FDA0004199625070000073
要求每一个视频的人物身份及音频情绪的分类结果都是一样的,从而迫使编码器/>
Figure FDA0004199625070000074
提取出来的音频语音特征不能对音频人物身份及音频情绪进行分类,进而剔除音频语音特征中包含的音频人物身份特征及音频情绪特征,从而达到获取纯净的音频语音特征的目的;损失函数如下:
Figure FDA0004199625070000075
第三阶段,剔除音频情绪特征中包含的音频语音特征和音频人物身份特征,得到单纯的音频情绪特征,具体迭代实施如下:首先固定音频情绪特征编码器
Figure FDA0004199625070000076
训练更新分类器/>
Figure FDA0004199625070000077
和/>
Figure FDA0004199625070000078
用音频情绪特征对音频进行音频语音及音频人物身份分类的能力,损失函数如下:
Figure FDA0004199625070000079
其中,λe为权重,取值0~1;
然后,固定分类器
Figure FDA00041996250700000710
和/>
Figure FDA00041996250700000711
迭代更新音频人物身份特征编码器
Figure FDA00041996250700000712
要求每一个音频的情绪类别都是一样的,使得编码器/>
Figure FDA00041996250700000713
提取出来的情绪特征不能对音频语音及音频人物身份进行分类,进而剔除音频情绪特征中所包含的音频语音特征及音频人物身份特征,从而达到提取纯净的音频情绪特征的目的;损失函数如下:
Figure FDA00041996250700000714
6.根据权利要求1所述的一种基于解耦表示学习的说话人脸视频生成方法,其特征在于:步骤四的具体实现方式如下,
将步骤3由音频语音特征
Figure FDA00041996250700000715
转换得到的视频语音特征/>
Figure FDA00041996250700000716
及视频情绪特征
Figure FDA00041996250700000717
和步骤2中得到的视频人物身份特征结合,视频人物身份特征记为/>
Figure FDA00041996250700000718
利用序列生成模型GV生成说话人脸视频,对应的真实说话人脸视频groundtruth为GTV,判别器为DV,则重构误差损失为:
Figure FDA00041996250700000719
视频序列生成误差损失为:
Figure FDA00041996250700000720
最终总的损失函数为:
LT=LrecTLGAN
其中,λT为生成损失的权重,取值0~0.5。
CN202010420200.8A 2020-05-18 2020-05-18 一种基于解耦表示学习的说话人脸视频生成方法 Active CN111666831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010420200.8A CN111666831B (zh) 2020-05-18 2020-05-18 一种基于解耦表示学习的说话人脸视频生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010420200.8A CN111666831B (zh) 2020-05-18 2020-05-18 一种基于解耦表示学习的说话人脸视频生成方法

Publications (2)

Publication Number Publication Date
CN111666831A CN111666831A (zh) 2020-09-15
CN111666831B true CN111666831B (zh) 2023-06-20

Family

ID=72383916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010420200.8A Active CN111666831B (zh) 2020-05-18 2020-05-18 一种基于解耦表示学习的说话人脸视频生成方法

Country Status (1)

Country Link
CN (1) CN111666831B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735373B (zh) * 2020-12-31 2024-05-03 科大讯飞股份有限公司 语音合成方法、装置、设备及存储介质
CN112989935A (zh) * 2021-02-05 2021-06-18 北京百度网讯科技有限公司 一种视频生成方法、装置、设备以及存储介质
CN113449590B (zh) * 2021-05-14 2022-10-28 网易(杭州)网络有限公司 说话视频生成方法及装置
CN115205949B (zh) * 2022-09-05 2022-12-06 腾讯科技(深圳)有限公司 图像生成方法以及相关设备
CN116152885B (zh) * 2022-12-02 2023-08-01 南昌大学 一种基于特征解耦的跨模态异质人脸识别和原型修复方法
CN116091668B (zh) * 2023-04-10 2023-07-21 广东工业大学 一种基于情绪特征指导的说话头视频生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014001095A1 (en) * 2012-06-26 2014-01-03 Thomson Licensing Method for audiovisual content dubbing
CN105760852A (zh) * 2016-03-14 2016-07-13 江苏大学 一种融合脸部表情和语音的驾驶员情感实时识别方法
CN110263865A (zh) * 2019-06-24 2019-09-20 北方民族大学 一种半监督多模态多类别的图像翻译方法
CN110880315A (zh) * 2019-10-17 2020-03-13 深圳市声希科技有限公司 一种基于音素后验概率的个性化语音和视频生成系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014001095A1 (en) * 2012-06-26 2014-01-03 Thomson Licensing Method for audiovisual content dubbing
CN105760852A (zh) * 2016-03-14 2016-07-13 江苏大学 一种融合脸部表情和语音的驾驶员情感实时识别方法
CN110263865A (zh) * 2019-06-24 2019-09-20 北方民族大学 一种半监督多模态多类别的图像翻译方法
CN110880315A (zh) * 2019-10-17 2020-03-13 深圳市声希科技有限公司 一种基于音素后验概率的个性化语音和视频生成系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, Xiaogang Wang.Talking Face Generation by Adversarially Disentangled Audio-Visual Representation:Talking Face Generation by Adversarially Disentangled Audio-Visual Representation.《Proceedings of the AAAI Conference on Artificial Intelligence》.2019,第1-8页. *
Zili Yi, Hao Zhang, Ping Tan, Minglun Gong.DualGAN: Unsupervised Dual Learning for Image-To-Image Translation.《arXiv》.2017,第2849-2857页. *
唐郅.语音驱动虚拟说话人研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2017,第1-62页. *

Also Published As

Publication number Publication date
CN111666831A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN111666831B (zh) 一种基于解耦表示学习的说话人脸视频生成方法
Li et al. Direct speech-to-image translation
CN111885414B (zh) 一种数据处理方法、装置、设备及可读存储介质
CN111488489A (zh) 视频文件的分类方法、装置、介质及电子设备
CN113592985B (zh) 混合变形值的输出方法及装置、存储介质、电子装置
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
CN111354246A (zh) 一种用于帮助聋哑人交流的系统及方法
CN113593601A (zh) 基于深度学习的视听多模态语音分离方法
CN113327619B (zh) 一种基于云—边缘协同架构的会议记录方法及系统
CN112489636A (zh) 一种智能语音播报助手选择方法和系统
CN117115310A (zh) 一种基于音频和图像的数字人脸生成方法及系统
CN114360491B (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及系统
KR20210055464A (ko) 기계학습 기반의 화자 분리 방법 및 그를 위한 장치
CN114155321B (zh) 一种基于自监督和混合密度网络的人脸动画生成方法
CN113450824B (zh) 一种基于多尺度视频特征融合的语音唇读方法及系统
CN113658582B (zh) 一种音视协同的唇语识别方法及系统
Sunder et al. Reliable and Trustworthy Virtual Production Workflow for Surround and Atmos
CN115908661A (zh) 一种基于gan网络将戏剧人物图片生成演唱视频的方法
CN110807370B (zh) 一种基于多模态的会议发言人身份无感确认方法
Mahavidyalaya Phoneme and viseme based approach for lip synchronization
Krokotsch et al. Generative adversarial networks and simulated+ unsupervised learning in affect recognition from speech
Javeri et al. Predicting Personalized Head Related Transfer Functions using Acoustic Scattering Neural Networks
Kadam et al. A Survey of Audio Synthesis and Lip-syncing for Synthetic Video Generation
Mezza et al. Improving Domain Generalization Via Event-Based Acoustic Scene Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant