CN111797897A - 一种基于深度学习的音频生成人脸图像方法 - Google Patents

一种基于深度学习的音频生成人脸图像方法 Download PDF

Info

Publication number
CN111797897A
CN111797897A CN202010494445.5A CN202010494445A CN111797897A CN 111797897 A CN111797897 A CN 111797897A CN 202010494445 A CN202010494445 A CN 202010494445A CN 111797897 A CN111797897 A CN 111797897A
Authority
CN
China
Prior art keywords
face
image
landmark
audio
target identity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010494445.5A
Other languages
English (en)
Inventor
刘勇
张江宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010494445.5A priority Critical patent/CN111797897A/zh
Publication of CN111797897A publication Critical patent/CN111797897A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种基于深度学习的音频生成人脸图像方法,包括几何结构预测器(ψ)和人脸生成器
Figure DDA0002522256620000011
几何结构预测器(ψ)输入音频、头部姿态和眼部状态,分别经过
Figure DDA0002522256620000012
Figure DDA0002522256620000013
Figure DDA0002522256620000014
提取对应特征fA、fP和fB,然后由
Figure DDA0002522256620000015
回归得到目标身份面部landmark向量(l),从而实现音频到landmark几何空间的映射;人脸生成器
Figure DDA0002522256620000016
输入目标身份参考图像(Ir)、目标身份面部landmark图像(L)分别经
Figure DDA0002522256620000017
提取图像特征后由
Figure DDA0002522256620000018
进一步进行特征融合,得到目标身份对应表情图像(It)。本发明方法基于Py‑Torch深度学习框架,先对音频进行特征提取并回归人脸的landmark,然后使用对抗生成模型设计思想将landmark与目标生成身份参考图像融合,以生成与音频相应的高质量真实人脸目标身份图像。

Description

一种基于深度学习的音频生成人脸图像方法
技术领域
本发明涉及一种人脸图像生成方法,具体地,涉及一种基于深度学习的音频生成人脸图像方法。
背景技术
声音和视觉在人类传递/接收信息过程中扮演着重要的角色,同时这两种方式在一定程度上包含着重叠的信息。比如当我们听到一个熟悉的人讲话时,能够联想到这个人嘴部的运动和面部表情;当我们看到一个人的图像序列(视频)时,能够推测出画面中的人物说了什么内容,因此说明两种信息可以进行相互转换。在一些实际的商业场景中,比如虚拟主播(语音生成播音员的面部图像)和语音合成人脸图像中,产生了通过音频生成对应说话的人脸图像技术需求,具有极大的商业应用价值。随着深度学习的发展及计算机算力的增加,许多基于深度学习的音频处理和图像生成方法都取得了不错的效果,但仍未出现直接通过音频生成高质量人脸图像的方法。针对这一现象,亟待一种方法能够对输入的音频信号进行处理,并生成相应嘴部运动和面部表情的高质量真实人脸图像。
发明内容
本发明针对目前的方法不能将音频直接生成高质量真实人脸图像这一问题,提出了一种基于深度学习的音频生成人脸图像方法。
为达到上述目的,本发明采取了如下的技术方案:
一种基于深度学习的音频生成人脸图像方法,包括几何结构预测器(ψ)和人脸生成器
Figure BDA0002522256600000015
几何结构预测器(ψ)输入3种数据:音频数据、头部姿态数据和眼部状态数据,分别经过网络结构
Figure BDA0002522256600000012
网络结构
Figure BDA0002522256600000011
和网络结构
Figure BDA0002522256600000013
1,α2和α3为网路对应参数)提取对应特征fA、fP和fB,特征fA、fP和fB在通道层面进行拼接后送入网络结构
Figure BDA0002522256600000014
然后由网络结构
Figure BDA0002522256600000016
回归得到目标身份面部landmark向量(l),从而实现音频到landmark几何空间的映射;
所述几何结构预测器(ψ)生成的目标身份面部landmark向量(l)转换为人脸生成器
Figure BDA00025222566000000215
输入的目标身份面部landmark图像(L),其方式为以目标身份面部landmark向量(l)包含的每一个landmark坐标点为中心,在64*64大小的图像上画半径为2的实心圆;
人脸生成器
Figure BDA0002522256600000021
包括网络结构
Figure BDA0002522256600000022
网络结构
Figure BDA0002522256600000023
和网络结构
Figure BDA0002522256600000024
输入目标身份参考图像(Ir)、目标身份面部landmark图像(L)分别经网络结构
Figure BDA0002522256600000025
网络结构
Figure BDA0002522256600000026
提取图像特征后由网络结构
Figure BDA0002522256600000027
进一步进行特征融合,得到目标身份对应表情图像(It)。
作为优选地,所述几何结构预测器(ψ)在训练时,除了采用L1损失函数,还额外使用对抗思路设计了landmark真假鉴别器(DL)以进一步增强网络回归landmark的准确性。
作为优选地,所述几何结构预测器(ψ)包含4个网络结构
Figure BDA0002522256600000028
Figure BDA0002522256600000029
具体地,
Figure BDA00025222566000000210
由10层卷积层、1层全连接层和激活函数组成,
Figure BDA00025222566000000213
由4层全连接层和激活函数组成,
Figure BDA00025222566000000211
由3层全连接层和激活函数组成,
Figure BDA00025222566000000212
由2层全连接层和激活函数组成。
作为优选地,所述landmark真假鉴别器(DL)由6层全连接和激活函数组成。
作为优选地,所述人脸生成器
Figure BDA00025222566000000214
在训练时,采用L1损失函数进行像素级别的约束,采用Mask损失函数增大面部区域的损失权重,同时采用了对抗思想的图像真假鉴别器(DI)以进一步增加生成图像的真实性。
作为优选地,所述人脸生成器
Figure BDA00025222566000000216
包含网络结构
Figure BDA00025222566000000217
网络结构
Figure BDA00025222566000000219
和网络结构
Figure BDA00025222566000000220
具体地,网络结构
Figure BDA00025222566000000222
由21层卷积层组成,网络结构
Figure BDA00025222566000000218
由3层卷积层组成,网络结构
Figure BDA00025222566000000221
由2层反卷积层和1层卷积层组成。
作为优选地,所述图像真假鉴别器(DI)由6层卷积层和激活函数组成。
与现有技术相比,本发明具有如下有益效果:
本发明方法基于Py-Torch深度学习框架,先对音频进行特征提取并回归人脸的landmark,然后使用对抗生成模型设计思想将landmark与目标生成身份参考图像融合,以生成与音频相应的高质量真实人脸目标身份图像。这样的两阶段设计不仅使得我们可以实现音频生成人脸图像任务,同时还将人脸的几何特征和纹理特征解耦开来。具体地,该方法由几何结构预测器和人脸生成器两个子模型构成。几何结构预测器输入音频、头部姿态(pitch, yaw和roll)和眼部状态(眼睛开合程度),输出目标身份面部landmark,在几何空间实现音频到面部表情的转换。训练过程中,我们除了采用L1损失函数,还额外设计了landmark 真假鉴别器以进一步增强网络的表现力。人脸生成器输入目标身份参考图像(提供纹理信息)和前一步生成的目标身份面部landmark(提供几何信息),输出目标身份对应表情图像。训练过程中,我们采用L1图像误差,Mask误差以及真假鉴别器共三种损失函数,以生成高真实度的人脸图像。
附图说明:
图1为本发明整体系统流程示意图;
图2为本发明中几何结构预测器(ψ)的流程示意图;
图3为本发明中人脸生成器
Figure BDA00025222566000000321
的流程示意图;
图4为本发明应用在AnnIV数据集上的测试效果示意图。
具体实施方式:
以下结合说明书附图及具体实施例来对本发明作进一步的描述。
如图1~3所示,本发明提供一种基于深度学习的音频生成人脸图像方法,包括几何结构预测器(ψ)和人脸生成器
Figure BDA00025222566000000320
几何结构预测器(ψ)输入3种数据:音频数据、头部姿态数据和眼部状态数据,分别经过网络结构
Figure BDA0002522256600000031
网络结构
Figure BDA0002522256600000032
和网络结构
Figure BDA0002522256600000033
1,α2和α3为网路对应参数)提取对应特征fA、fP和fB,特征fA、fP和fB在通道层面进行拼接后送入网络结构
Figure BDA0002522256600000034
然后由网络结构
Figure BDA0002522256600000035
回归得到目标身份面部landmark向量(l),从而实现音频到landmark几何空间的映射;所述几何结构预测器(ψ)生成的目标身份面部landmark 向量(l)转换为人脸生成器
Figure BDA0002522256600000036
输入的目标身份面部landmark图像(L),其方式为以目标身份面部landmark向量(l)包含的每一个landmark坐标点为中心,在64*64大小的图像上画半径为2的实心圆;人脸生成器
Figure BDA0002522256600000038
包括网络结构
Figure BDA0002522256600000037
网络结构
Figure BDA0002522256600000039
和网络结构
Figure BDA00025222566000000310
输入目标身份参考图像(Ir)、目标身份面部landmark图像(L)分别经网络结构
Figure BDA00025222566000000311
网络结构
Figure BDA00025222566000000312
提取图像特征后由网络结构
Figure BDA00025222566000000313
进一步进行特征融合,得到目标身份对应表情图像(It)。
其中,所述几何结构预测器(ψ)在训练时,除了采用L1损失函数,还额外使用对抗思路设计了landmark真假鉴别器(DL)以进一步增强网络回归landmark的准确性。
所述几何结构预测器(ψ)包含4个网络结构
Figure BDA00025222566000000314
Figure BDA00025222566000000315
具体地,
Figure BDA00025222566000000318
由10层卷积层、1层全连接层和激活函数组成,
Figure BDA00025222566000000316
由4层全连接层和激活函数组成,
Figure BDA00025222566000000317
由3层全连接层和激活函数组成,
Figure BDA00025222566000000319
由2层全连接层和激活函数组成。
所述landmark真假鉴别器(DL)由6层全连接和激活函数组成。
所述人脸生成器
Figure BDA0002522256600000049
在训练时,采用L1损失函数进行像素级别的约束,采用Mask损失函数增大面部区域的损失权重,同时采用了对抗思想的图像真假鉴别器(DI)以进一步增加生成图像的真实性。
所述人脸生成器
Figure BDA0002522256600000042
包含网络结构
Figure BDA0002522256600000041
网络结构
Figure BDA0002522256600000045
和网络结构
Figure BDA0002522256600000046
具体地,网络结构
Figure BDA0002522256600000043
由21层卷积层组成,网络结构
Figure BDA0002522256600000044
由3层卷积层组成,网络结构
Figure BDA0002522256600000047
由2层反卷积层和1层卷积层组成。
所述图像真假鉴别器(DI)由6层卷积层和激活函数组成。
所述几何结构预测器(ψ)在训练时需要不少于500组同步的音频,头部姿态,眼部状态和landmark数据。
所述人脸生成器
Figure BDA0002522256600000048
在训练时需要不少于500组同步的landmark和图像数据。
所述音频预提取特征方式为使用MFCCs在频域提取特征。
所述目标身份面部landmark(l)定义为长度为212的向量,由face++人脸属性检测模型得到。
所述头部姿态定义为长度为3的向量,分别代表pitch,yaw和roll,由face++人脸属性检测模型得到。
所述眼部状态定义为长度为2的向量,分别代表左眼和右眼的开合程度,由landmark 数据进一步计算眼睛高度除以眼睛宽度得到。
本发明一种基于深度学习的音频生成人脸图像方法,能够根据输入音频、头部姿态和眼部状态生成高真实度的目标身份对应表情图像,由于人脸生成器采用全卷机网络结构,故其输出分辨率不受限制。考虑到算力代价及应用效果,该方法通常生成256*256分辨率的图像。
本发明方法在实现音频生成人脸图像过程中将人脸的几何信息和纹理信息进行了解耦,具有更好的解释性。
本发明方法中向量l为长度212的向量,图像Ir和It为分辨率256*256的3通道彩色图像,图像L为分辨率64*64的单通道图像。
如图4所示,在AnnIV数据集测试效果,前三行为使用不同人物身份自身的音频作为输入生成图像,后两行为使用其不同人物身份的音频作为输入生成的同一人物图像。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (7)

1.一种基于深度学习的音频生成人脸图像方法,其特征在于,包括几何结构预测器(ψ)和人脸生成器
Figure FDA0002522256590000011
几何结构预测器(ψ)输入3种数据:音频数据、头部姿态数据和眼部状态数据,分别经过网络结构
Figure FDA0002522256590000012
网络结构
Figure FDA0002522256590000013
和网络结构
Figure FDA0002522256590000014
1,α2和α3为网路对应参数)提取对应特征fA、fP和fB,特征fA、fP和fB在通道层面进行拼接后送入网络结构
Figure FDA0002522256590000015
然后由网络结构
Figure FDA0002522256590000016
回归得到目标身份面部landmark向量(l),从而实现音频到landmark几何空间的映射;
所述几何结构预测器(ψ)生成的目标身份面部landmark向量(l)转换为人脸生成器
Figure FDA0002522256590000017
输入的目标身份面部landmark图像(L),其方式为以目标身份面部landmark向量(l)包含的每一个landmark坐标点为中心,在64*64大小的图像上画半径为2的实心圆;
人脸生成器
Figure FDA0002522256590000018
包括网络结构
Figure FDA0002522256590000019
网络结构
Figure FDA00025222565900000110
和网络结构
Figure FDA00025222565900000111
输入目标身份参考图像(Ir)、目标身份面部landmark图像(L)分别经网络结构
Figure FDA00025222565900000112
网络结构
Figure FDA00025222565900000113
提取图像特征后由网络结构
Figure FDA00025222565900000114
进一步进行特征融合,得到目标身份对应表情图像(It)。
2.根据权利要求1中所述的一种基于深度学习的音频生成人脸图像方法,其特征在于,所述几何结构预测器(ψ)在训练时,除了采用L1损失函数,还额外使用对抗思路设计了landmark真假鉴别器(DL)以进一步增强网络回归landmark的准确性。
3.根据权利要求1中所述的一种基于深度学习的音频生成人脸图像方法,其特征在于,所述几何结构预测器(ψ)包含4个网络结构
Figure FDA00025222565900000115
Figure FDA00025222565900000116
具体地,
Figure FDA00025222565900000117
由10层卷积层、1层全连接层和激活函数组成,
Figure FDA00025222565900000118
由4层全连接层和激活函数组成,
Figure FDA00025222565900000119
由3层全连接层和激活函数组成,
Figure FDA00025222565900000120
由2层全连接层和激活函数组成。
4.根据权利要求2中所述的一种基于深度学习的音频生成人脸图像方法,其特征在于,所述landmark真假鉴别器(DL)由6层全连接和激活函数组成。
5.根据权利要求1中所述的一种基于深度学习的音频生成人脸图像方法,其特征在于,所述人脸生成器
Figure FDA00025222565900000121
在训练时,采用L1损失函数进行像素级别的约束,采用Mask损失函数增大面部区域的损失权重,同时采用了对抗思想的图像真假鉴别器(DI)以进一步增加生成图像的真实性。
6.根据权利要求1中所述的一种基于深度学习的音频生成人脸图像方法,其特征在于,所述人脸生成器
Figure FDA00025222565900000122
包含网络结构
Figure FDA00025222565900000123
网络结构
Figure FDA00025222565900000124
和网络结构
Figure FDA00025222565900000125
具体地,网络结构
Figure FDA00025222565900000126
由21层卷积层组成,网络结构
Figure FDA00025222565900000127
由3层卷积层组成,网络结构
Figure FDA00025222565900000128
由2层反卷积层和1层卷积层组成。
7.根据权利要求6中所述的一种基于深度学习的音频生成人脸图像方法,其特征在于,所述图像真假鉴别器(DI)由6层卷积层和激活函数组成。
CN202010494445.5A 2020-06-03 2020-06-03 一种基于深度学习的音频生成人脸图像方法 Pending CN111797897A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010494445.5A CN111797897A (zh) 2020-06-03 2020-06-03 一种基于深度学习的音频生成人脸图像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010494445.5A CN111797897A (zh) 2020-06-03 2020-06-03 一种基于深度学习的音频生成人脸图像方法

Publications (1)

Publication Number Publication Date
CN111797897A true CN111797897A (zh) 2020-10-20

Family

ID=72806188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010494445.5A Pending CN111797897A (zh) 2020-06-03 2020-06-03 一种基于深度学习的音频生成人脸图像方法

Country Status (1)

Country Link
CN (1) CN111797897A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114401439A (zh) * 2022-02-10 2022-04-26 腾讯音乐娱乐科技(深圳)有限公司 一种舞蹈视频生成方法、设备及存储介质
CN114663539A (zh) * 2022-03-09 2022-06-24 东南大学 一种基于音频驱动的口罩下2d人脸还原技术

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257195A (zh) * 2018-02-23 2018-07-06 深圳市唯特视科技有限公司 一种基于几何对比生成对抗网络的面部表情合成方法
CN110287880A (zh) * 2019-06-26 2019-09-27 西安电子科技大学 一种基于深度学习的姿态鲁棒性人脸识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257195A (zh) * 2018-02-23 2018-07-06 深圳市唯特视科技有限公司 一种基于几何对比生成对抗网络的面部表情合成方法
CN110287880A (zh) * 2019-06-26 2019-09-27 西安电子科技大学 一种基于深度学习的姿态鲁棒性人脸识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANGNING ZHANG等: "APB2FACE: Audio-Guided Face Reenactment with Auxiliary Pose and Blink Signals", 《ICASSP 2020 - 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
JIANGNING ZHANG等: "FReeNet: Multi-Identity Face Reenactment", 《ARXIV:1905.11805V2》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114401439A (zh) * 2022-02-10 2022-04-26 腾讯音乐娱乐科技(深圳)有限公司 一种舞蹈视频生成方法、设备及存储介质
CN114401439B (zh) * 2022-02-10 2024-03-19 腾讯音乐娱乐科技(深圳)有限公司 一种舞蹈视频生成方法、设备及存储介质
CN114663539A (zh) * 2022-03-09 2022-06-24 东南大学 一种基于音频驱动的口罩下2d人脸还原技术
CN114663539B (zh) * 2022-03-09 2023-03-14 东南大学 一种基于音频驱动的口罩下2d人脸还原技术

Similar Documents

Publication Publication Date Title
WO2022116977A1 (zh) 目标对象的动作驱动方法、装置、设备及存储介质及计算机程序产品
EP4184927A1 (en) Sound effect adjusting method and apparatus, device, storage medium, and computer program product
Ye et al. Audio-driven talking face video generation with dynamic convolution kernels
Zhang et al. M 3 f: Multi-modal continuous valence-arousal estimation in the wild
WO2022017083A1 (zh) 一种数据处理方法、装置、设备及可读存储介质
WO2023072067A1 (zh) 人脸属性编辑模型的训练以及人脸属性编辑方法
CN112308949A (zh) 模型训练、人脸图像生成方法和装置以及存储介质
CN111797897A (zh) 一种基于深度学习的音频生成人脸图像方法
WO2022135490A1 (zh) 一种人脸图像合成方法、系统、电子设备及存储介质
US20230335148A1 (en) Speech Separation Method, Electronic Device, Chip, and Computer-Readable Storage Medium
US20220375224A1 (en) Device and method for generating speech video along with landmark
CN113516990A (zh) 一种语音增强方法、训练神经网络的方法以及相关设备
JP2023526899A (ja) 画像修復モデルを生成するための方法、デバイス、媒体及びプログラム製品
RU2721180C1 (ru) Способ генерации анимационной модели головы по речевому сигналу и электронное вычислительное устройство, реализующее его
US20220292690A1 (en) Data generation method, data generation apparatus, model generation method, model generation apparatus, and program
CN116634242A (zh) 语音驱动的说话视频生成方法、系统、设备和存储介质
CN117528135A (zh) 语音驱动的脸部视频生成方法、装置、电子设备及介质
Huang et al. Perceptual conversational head generation with regularized driver and enhanced renderer
CN117115310A (zh) 一种基于音频和图像的数字人脸生成方法及系统
WO2020155908A1 (zh) 用于生成信息的方法和装置
CN116894895A (zh) 说话人视频合成方法、装置、电子设备及存储介质
Koumparoulis et al. Audio-assisted image inpainting for talking faces
CN114724209A (zh) 模型训练方法、图像生成方法、装置、设备和介质
KR20190000087A (ko) 얼굴 표정 인식을 활용한 멀티미디어 가공 방법 및 시스템
Ravichandran et al. Synthesizing photorealistic virtual humans through cross-modal disentanglement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201020

RJ01 Rejection of invention patent application after publication