CN111797897A - 一种基于深度学习的音频生成人脸图像方法 - Google Patents
一种基于深度学习的音频生成人脸图像方法 Download PDFInfo
- Publication number
- CN111797897A CN111797897A CN202010494445.5A CN202010494445A CN111797897A CN 111797897 A CN111797897 A CN 111797897A CN 202010494445 A CN202010494445 A CN 202010494445A CN 111797897 A CN111797897 A CN 111797897A
- Authority
- CN
- China
- Prior art keywords
- face
- image
- landmark
- audio
- target identity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 230000014509 gene expression Effects 0.000 claims abstract description 6
- 230000004927 fusion Effects 0.000 claims abstract description 4
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 26
- 230000004913 activation Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 7
- 239000007787 solid Substances 0.000 claims description 3
- 239000002904 solvent Substances 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 abstract description 3
- 210000003128 head Anatomy 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种基于深度学习的音频生成人脸图像方法,包括几何结构预测器(ψ)和人脸生成器几何结构预测器(ψ)输入音频、头部姿态和眼部状态,分别经过 和提取对应特征fA、fP和fB,然后由回归得到目标身份面部landmark向量(l),从而实现音频到landmark几何空间的映射;人脸生成器输入目标身份参考图像(Ir)、目标身份面部landmark图像(L)分别经提取图像特征后由进一步进行特征融合,得到目标身份对应表情图像(It)。本发明方法基于Py‑Torch深度学习框架,先对音频进行特征提取并回归人脸的landmark,然后使用对抗生成模型设计思想将landmark与目标生成身份参考图像融合,以生成与音频相应的高质量真实人脸目标身份图像。
Description
技术领域
本发明涉及一种人脸图像生成方法,具体地,涉及一种基于深度学习的音频生成人脸图像方法。
背景技术
声音和视觉在人类传递/接收信息过程中扮演着重要的角色,同时这两种方式在一定程度上包含着重叠的信息。比如当我们听到一个熟悉的人讲话时,能够联想到这个人嘴部的运动和面部表情;当我们看到一个人的图像序列(视频)时,能够推测出画面中的人物说了什么内容,因此说明两种信息可以进行相互转换。在一些实际的商业场景中,比如虚拟主播(语音生成播音员的面部图像)和语音合成人脸图像中,产生了通过音频生成对应说话的人脸图像技术需求,具有极大的商业应用价值。随着深度学习的发展及计算机算力的增加,许多基于深度学习的音频处理和图像生成方法都取得了不错的效果,但仍未出现直接通过音频生成高质量人脸图像的方法。针对这一现象,亟待一种方法能够对输入的音频信号进行处理,并生成相应嘴部运动和面部表情的高质量真实人脸图像。
发明内容
本发明针对目前的方法不能将音频直接生成高质量真实人脸图像这一问题,提出了一种基于深度学习的音频生成人脸图像方法。
为达到上述目的,本发明采取了如下的技术方案:
一种基于深度学习的音频生成人脸图像方法,包括几何结构预测器(ψ)和人脸生成器几何结构预测器(ψ)输入3种数据:音频数据、头部姿态数据和眼部状态数据,分别经过网络结构网络结构和网络结构(α1,α2和α3为网路对应参数)提取对应特征fA、fP和fB,特征fA、fP和fB在通道层面进行拼接后送入网络结构然后由网络结构回归得到目标身份面部landmark向量(l),从而实现音频到landmark几何空间的映射;
所述几何结构预测器(ψ)生成的目标身份面部landmark向量(l)转换为人脸生成器输入的目标身份面部landmark图像(L),其方式为以目标身份面部landmark向量(l)包含的每一个landmark坐标点为中心,在64*64大小的图像上画半径为2的实心圆;
人脸生成器包括网络结构网络结构和网络结构输入目标身份参考图像(Ir)、目标身份面部landmark图像(L)分别经网络结构网络结构提取图像特征后由网络结构进一步进行特征融合,得到目标身份对应表情图像(It)。
作为优选地,所述几何结构预测器(ψ)在训练时,除了采用L1损失函数,还额外使用对抗思路设计了landmark真假鉴别器(DL)以进一步增强网络回归landmark的准确性。
作为优选地,所述landmark真假鉴别器(DL)由6层全连接和激活函数组成。
作为优选地,所述图像真假鉴别器(DI)由6层卷积层和激活函数组成。
与现有技术相比,本发明具有如下有益效果:
本发明方法基于Py-Torch深度学习框架,先对音频进行特征提取并回归人脸的landmark,然后使用对抗生成模型设计思想将landmark与目标生成身份参考图像融合,以生成与音频相应的高质量真实人脸目标身份图像。这样的两阶段设计不仅使得我们可以实现音频生成人脸图像任务,同时还将人脸的几何特征和纹理特征解耦开来。具体地,该方法由几何结构预测器和人脸生成器两个子模型构成。几何结构预测器输入音频、头部姿态(pitch, yaw和roll)和眼部状态(眼睛开合程度),输出目标身份面部landmark,在几何空间实现音频到面部表情的转换。训练过程中,我们除了采用L1损失函数,还额外设计了landmark 真假鉴别器以进一步增强网络的表现力。人脸生成器输入目标身份参考图像(提供纹理信息)和前一步生成的目标身份面部landmark(提供几何信息),输出目标身份对应表情图像。训练过程中,我们采用L1图像误差,Mask误差以及真假鉴别器共三种损失函数,以生成高真实度的人脸图像。
附图说明:
图1为本发明整体系统流程示意图;
图2为本发明中几何结构预测器(ψ)的流程示意图;
图4为本发明应用在AnnIV数据集上的测试效果示意图。
具体实施方式:
以下结合说明书附图及具体实施例来对本发明作进一步的描述。
如图1~3所示,本发明提供一种基于深度学习的音频生成人脸图像方法,包括几何结构预测器(ψ)和人脸生成器几何结构预测器(ψ)输入3种数据:音频数据、头部姿态数据和眼部状态数据,分别经过网络结构网络结构和网络结构(α1,α2和α3为网路对应参数)提取对应特征fA、fP和fB,特征fA、fP和fB在通道层面进行拼接后送入网络结构然后由网络结构回归得到目标身份面部landmark向量(l),从而实现音频到landmark几何空间的映射;所述几何结构预测器(ψ)生成的目标身份面部landmark 向量(l)转换为人脸生成器输入的目标身份面部landmark图像(L),其方式为以目标身份面部landmark向量(l)包含的每一个landmark坐标点为中心,在64*64大小的图像上画半径为2的实心圆;人脸生成器包括网络结构网络结构和网络结构输入目标身份参考图像(Ir)、目标身份面部landmark图像(L)分别经网络结构网络结构提取图像特征后由网络结构进一步进行特征融合,得到目标身份对应表情图像(It)。
其中,所述几何结构预测器(ψ)在训练时,除了采用L1损失函数,还额外使用对抗思路设计了landmark真假鉴别器(DL)以进一步增强网络回归landmark的准确性。
所述landmark真假鉴别器(DL)由6层全连接和激活函数组成。
所述图像真假鉴别器(DI)由6层卷积层和激活函数组成。
所述几何结构预测器(ψ)在训练时需要不少于500组同步的音频,头部姿态,眼部状态和landmark数据。
所述音频预提取特征方式为使用MFCCs在频域提取特征。
所述目标身份面部landmark(l)定义为长度为212的向量,由face++人脸属性检测模型得到。
所述头部姿态定义为长度为3的向量,分别代表pitch,yaw和roll,由face++人脸属性检测模型得到。
所述眼部状态定义为长度为2的向量,分别代表左眼和右眼的开合程度,由landmark 数据进一步计算眼睛高度除以眼睛宽度得到。
本发明一种基于深度学习的音频生成人脸图像方法,能够根据输入音频、头部姿态和眼部状态生成高真实度的目标身份对应表情图像,由于人脸生成器采用全卷机网络结构,故其输出分辨率不受限制。考虑到算力代价及应用效果,该方法通常生成256*256分辨率的图像。
本发明方法在实现音频生成人脸图像过程中将人脸的几何信息和纹理信息进行了解耦,具有更好的解释性。
本发明方法中向量l为长度212的向量,图像Ir和It为分辨率256*256的3通道彩色图像,图像L为分辨率64*64的单通道图像。
如图4所示,在AnnIV数据集测试效果,前三行为使用不同人物身份自身的音频作为输入生成图像,后两行为使用其不同人物身份的音频作为输入生成的同一人物图像。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (7)
1.一种基于深度学习的音频生成人脸图像方法,其特征在于,包括几何结构预测器(ψ)和人脸生成器几何结构预测器(ψ)输入3种数据:音频数据、头部姿态数据和眼部状态数据,分别经过网络结构网络结构和网络结构(α1,α2和α3为网路对应参数)提取对应特征fA、fP和fB,特征fA、fP和fB在通道层面进行拼接后送入网络结构然后由网络结构回归得到目标身份面部landmark向量(l),从而实现音频到landmark几何空间的映射;
所述几何结构预测器(ψ)生成的目标身份面部landmark向量(l)转换为人脸生成器输入的目标身份面部landmark图像(L),其方式为以目标身份面部landmark向量(l)包含的每一个landmark坐标点为中心,在64*64大小的图像上画半径为2的实心圆;
2.根据权利要求1中所述的一种基于深度学习的音频生成人脸图像方法,其特征在于,所述几何结构预测器(ψ)在训练时,除了采用L1损失函数,还额外使用对抗思路设计了landmark真假鉴别器(DL)以进一步增强网络回归landmark的准确性。
4.根据权利要求2中所述的一种基于深度学习的音频生成人脸图像方法,其特征在于,所述landmark真假鉴别器(DL)由6层全连接和激活函数组成。
7.根据权利要求6中所述的一种基于深度学习的音频生成人脸图像方法,其特征在于,所述图像真假鉴别器(DI)由6层卷积层和激活函数组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010494445.5A CN111797897A (zh) | 2020-06-03 | 2020-06-03 | 一种基于深度学习的音频生成人脸图像方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010494445.5A CN111797897A (zh) | 2020-06-03 | 2020-06-03 | 一种基于深度学习的音频生成人脸图像方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111797897A true CN111797897A (zh) | 2020-10-20 |
Family
ID=72806188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010494445.5A Pending CN111797897A (zh) | 2020-06-03 | 2020-06-03 | 一种基于深度学习的音频生成人脸图像方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797897A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114401439A (zh) * | 2022-02-10 | 2022-04-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种舞蹈视频生成方法、设备及存储介质 |
CN114663539A (zh) * | 2022-03-09 | 2022-06-24 | 东南大学 | 一种基于音频驱动的口罩下2d人脸还原技术 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108257195A (zh) * | 2018-02-23 | 2018-07-06 | 深圳市唯特视科技有限公司 | 一种基于几何对比生成对抗网络的面部表情合成方法 |
CN110287880A (zh) * | 2019-06-26 | 2019-09-27 | 西安电子科技大学 | 一种基于深度学习的姿态鲁棒性人脸识别方法 |
-
2020
- 2020-06-03 CN CN202010494445.5A patent/CN111797897A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108257195A (zh) * | 2018-02-23 | 2018-07-06 | 深圳市唯特视科技有限公司 | 一种基于几何对比生成对抗网络的面部表情合成方法 |
CN110287880A (zh) * | 2019-06-26 | 2019-09-27 | 西安电子科技大学 | 一种基于深度学习的姿态鲁棒性人脸识别方法 |
Non-Patent Citations (2)
Title |
---|
JIANGNING ZHANG等: "APB2FACE: Audio-Guided Face Reenactment with Auxiliary Pose and Blink Signals", 《ICASSP 2020 - 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
JIANGNING ZHANG等: "FReeNet: Multi-Identity Face Reenactment", 《ARXIV:1905.11805V2》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114401439A (zh) * | 2022-02-10 | 2022-04-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种舞蹈视频生成方法、设备及存储介质 |
CN114401439B (zh) * | 2022-02-10 | 2024-03-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种舞蹈视频生成方法、设备及存储介质 |
CN114663539A (zh) * | 2022-03-09 | 2022-06-24 | 东南大学 | 一种基于音频驱动的口罩下2d人脸还原技术 |
CN114663539B (zh) * | 2022-03-09 | 2023-03-14 | 东南大学 | 一种基于音频驱动的口罩下2d人脸还原技术 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022116977A1 (zh) | 目标对象的动作驱动方法、装置、设备及存储介质及计算机程序产品 | |
EP4184927A1 (en) | Sound effect adjusting method and apparatus, device, storage medium, and computer program product | |
Ye et al. | Audio-driven talking face video generation with dynamic convolution kernels | |
Zhang et al. | M 3 f: Multi-modal continuous valence-arousal estimation in the wild | |
WO2022017083A1 (zh) | 一种数据处理方法、装置、设备及可读存储介质 | |
WO2023072067A1 (zh) | 人脸属性编辑模型的训练以及人脸属性编辑方法 | |
CN112308949A (zh) | 模型训练、人脸图像生成方法和装置以及存储介质 | |
CN111797897A (zh) | 一种基于深度学习的音频生成人脸图像方法 | |
WO2022135490A1 (zh) | 一种人脸图像合成方法、系统、电子设备及存储介质 | |
US20230335148A1 (en) | Speech Separation Method, Electronic Device, Chip, and Computer-Readable Storage Medium | |
US20220375224A1 (en) | Device and method for generating speech video along with landmark | |
CN113516990A (zh) | 一种语音增强方法、训练神经网络的方法以及相关设备 | |
JP2023526899A (ja) | 画像修復モデルを生成するための方法、デバイス、媒体及びプログラム製品 | |
RU2721180C1 (ru) | Способ генерации анимационной модели головы по речевому сигналу и электронное вычислительное устройство, реализующее его | |
US20220292690A1 (en) | Data generation method, data generation apparatus, model generation method, model generation apparatus, and program | |
CN116634242A (zh) | 语音驱动的说话视频生成方法、系统、设备和存储介质 | |
CN117528135A (zh) | 语音驱动的脸部视频生成方法、装置、电子设备及介质 | |
Huang et al. | Perceptual conversational head generation with regularized driver and enhanced renderer | |
CN117115310A (zh) | 一种基于音频和图像的数字人脸生成方法及系统 | |
WO2020155908A1 (zh) | 用于生成信息的方法和装置 | |
CN116894895A (zh) | 说话人视频合成方法、装置、电子设备及存储介质 | |
Koumparoulis et al. | Audio-assisted image inpainting for talking faces | |
CN114724209A (zh) | 模型训练方法、图像生成方法、装置、设备和介质 | |
KR20190000087A (ko) | 얼굴 표정 인식을 활용한 멀티미디어 가공 방법 및 시스템 | |
Ravichandran et al. | Synthesizing photorealistic virtual humans through cross-modal disentanglement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201020 |
|
RJ01 | Rejection of invention patent application after publication |