CN116884066A - 一种基于唇型合成技术的2d真人数字化身生成方法 - Google Patents

一种基于唇型合成技术的2d真人数字化身生成方法 Download PDF

Info

Publication number
CN116884066A
CN116884066A CN202310839290.8A CN202310839290A CN116884066A CN 116884066 A CN116884066 A CN 116884066A CN 202310839290 A CN202310839290 A CN 202310839290A CN 116884066 A CN116884066 A CN 116884066A
Authority
CN
China
Prior art keywords
lip
features
face
audio
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310839290.8A
Other languages
English (en)
Inventor
邓珺礼
杨雪婷
任笑田
范肇心
徐昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenstrontium Technology Beijing Co ltd
Original Assignee
Shenstrontium Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenstrontium Technology Beijing Co ltd filed Critical Shenstrontium Technology Beijing Co ltd
Priority to CN202310839290.8A priority Critical patent/CN116884066A/zh
Publication of CN116884066A publication Critical patent/CN116884066A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于唇型合成技术的2D真人数字化身生成方法,属于计算机音频分析和图像处理技术领域,包括以下步骤:S1、数据预处理;S2、音频特征提取;S3、人脸特征提取;S4、音频到唇形的映射,使用基于卷积神经网络的唇型合成器,将音频特征和人脸特征合并后映射到唇部区域的像素输出;S5、高清人脸修复,包括学习高清人脸图像特征码本、码表查询网络学习和可控特征融合模块学习;S6、后处理。本发明一种基于唇型合成技术的2D真人数字化身生成方法,从大量数据中学习人脸及唇部的模型和特征,自动进行建模和合成,节省时间和人力资源;通过学习真实数据的分布、仅改变唇型的算法设计和人脸修复网络的后处理,使生成的数字化身更具逼真感。

Description

一种基于唇型合成技术的2D真人数字化身生成方法
技术领域
本发明涉及计算机音频分析和图像处理技术领域,尤其是涉及一种基于唇型合成技术的2D真人数字化身生成方法。
背景技术
真人数字化身生成在虚拟现实和增强现实领域有广泛的应用。通过合成逼真的数字化身与用户进行互动,可以增强用户在虚拟环境中的沉浸感和参与感,提供更加真实的虚拟体验。
数字化身通常通过手工建模的方式来创建。这种方法涉及人工设计和建模师使用专业的建模软件,根据人体解剖知识和参考资料来逐步创建人体模型。然而,这种手工建模的过程非常耗时且需要大量的人力资源。此外,手工建模的过程也可能存在一些准确性和逼真感的挑战。建模师需要根据自己的经验和感受来调整人体模型的比例、形状和细节等,很难保证每个人物的唇形能够被准确地建模和同步。因此,传统的数字化身生成方法存在工作量大,泛化性差,真实感弱等问题。
发明内容
本发明的目的是提供一种基于唇型合成技术的2D真人数字化身生成方法,从大量的数据中学习人脸及唇部的模型和特征,自动进行建模和合成,大大节省了时间和人力资源;同时,通过学习真实数据的分布、仅改变唇型的算法设计以及人脸修复网络的后处理,使得生成的数字化身更具逼真感。本方法不仅在数字娱乐、人机交互等领域具有广泛应用前景,还可以为智能医疗、公共安全等领域提供有力支持。
为实现上述目的,本发明提供了一种基于唇型合成技术的2D真人数字化身生成方法,包括以下步骤:
S1、数据预处理,对音频和视频进行预处理;
S2、音频特征提取,使用音频特征编码器对每个语音片段的音频进行特征处理;音频特征包括音频的语义信息和音频的时间信息;
S3、人脸特征提取,使用人脸特征编码器对视频帧中的人脸进行特征提取;人脸特征包括人脸的形状、纹理和运动信息;
S4、音频到唇形的映射,使用基于卷积神经网络的唇型合成器,将音频特征和人脸特征合并后映射到唇部区域的像素输出;
S5、高清人脸修复,包括学习高清人脸图像特征码本、码表查询网络学习和可控特征融合模块学习;
S6、后处理。
优选的,所述S4中生成包括合成唇形的低清人脸图像帧,通过唇型同步专家网络求得唇型同步损失,通过判别器求得人脸保真度损失。
优选的,所述S5的学习高清人脸图像特征码本中,首先通过高清人脸自我重建学习,训练向量离散化生成对抗网络,得到高清码本空间,该高清码本空间作为本方法的离散人脸先验。
优选的,所述S5的码表查询网络学习中,基于得到的高清码本空间,在原编码器后嵌入一个Transformer模块,对低清人脸特征进行全局建模,以实现更好的代码序列预测。
优选的,所述S5的可控特征融合模块学习中,由于向量离散化生成对抗网络的码本空间并不能百分百完美地重建出任意人脸,比如个人特有面部特征或首饰,引入可控特征融合模块来控制对输入低清人脸的依赖,通过设计可控特征融合模块控制编码器特征和解码器特征融合的比例;调小编码器特征融合的比例,模型输出质量更高;调大编码器特征融合的比例,模型输出能保持更好的身份一致性;在本方法中,保留了较多的编码器特征,以保证最后输出图像帧的身份一致性。
因此,本发明一种基于唇型合成技术的2D真人数字化身生成方法,具有以下有益效果:
(1)保留真实人脸的特征,唇型驱动方法直接利用真实人脸的唇形运动来生成虚拟数字化身的唇形动画。这样可以保留真实人脸的特征,使得虚拟数字化身更加逼真。
(2)提高生成效率,唇型驱动方法只需要关注唇部区域的运动和表情,全脸生成的算法来说,需要生成的参数更少,从而提高了生成的效率;这对于实时应用、如视频聊天或实时游戏中的虚拟数字化身生成是非常重要的。人脸修复算法固定解码器和码表,只需学习Transformer模块并微调编码器。将原本的复原任务转变为离散代码序列预测任务,区别于传统人脸图像复原任务的固有范式,提升了图像修复网络的速度。
(3)提供更好的个性化表达,唇型驱动方法可以更好地捕捉每个人的独特的唇形动作和特征。个人的唇形特征在区分口型和语音特征上起到了重要作用,通过对特定目标人物微调的唇型驱动方法可以更好地保留和表达个体的口型和语音特征,使得虚拟数字化身具有更好的个性化特点。
(4)具有更强的鲁棒性,人脸修复网络可以帮助修复一些由于输入图像质量较低或变化较大而导致的错误合成。为了降低低清图像到高清图像映射之间的不确定性,我们设计尽量小的码本空间和尽量短的码本序列作为人脸的离散表达。因此,我们采用了大的压缩比(32倍),即将原来的人脸图片压缩为的离散码本序列。该设计使得码本中代码具有更丰富的上下文信息,有助于提升网络表达能力以及鲁棒性。
(5)并行计算优势,本方法基于CV-CUDA库对计算密集型的图像处理操作,如高斯滤波、仿射变换等,在GPU上实现了并行执行。利用现代GPU专门优化的硬件单元,如纹理内存、共享内存等,进行更高效的图像数据访问和计算,分发挥GPU的并行计算能力,提高算法的效率。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明一种基于唇型合成技术的2D真人数字化身生成方法实施例的流程图。
具体实施方式
以下通过附图和实施例对本发明的技术方案作进一步说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
实施例
如图1所示,本实施例使用了PyTorch和CV-CUDA库进行实现。
S1、数据预处理:从输入的视频中提取每一帧的音频,通过RetinaFace算法提取人脸图像。
S2、音频特征提取:对音频进行处理,提取音频梅尔频谱(Mel Spectrogram)并经过卷积神经网络得到音频特征图。
S3、人脸特征提取:对每一帧的人脸图像进行预处理,包括人脸检测、对齐等步骤并经过卷积神经网络提取出人脸区域的特征。
S4、音频到唇形的映射:基于U-net架构,将音频特征与人脸特征进行特征融合。融合特征经过生成器输出为带合成唇型的人脸视频帧
S5、高清人脸修复:通过Transformer进行全局人脸建模,在码表中找到对应高清人脸图像的特征代码序列,生成器根据高清人脸图像的特征代码序列,并结合可控特征融合模块传过来的人脸身份特征,输出高清人脸图像。
S6、后处理:采用CV-CUDA库对图像处理算子进行并行化加速,将抠出来的人脸图像拼接回目标人物人体,并进行膨胀腐蚀,边缘高斯模糊等步骤提高图像帧的逼真度,最后通过FFmpeg将图像帧合成为一个连续的视频。
本实施例实现了以下功能:在给定目标语音以及要转化的原视频的前提下,生成视频人物唇形与目标语音同步且脸部贴切的视频,生成了视频人物的真人数字化身。
因此,本发明一种基于唇型合成技术的2D真人数字化身生成方法,从大量的数据中学习人脸及唇部的模型和特征,自动进行建模和合成,大大节省了时间和人力资源。同时,通过学习真实数据的分布、仅改变唇型的算法设计以及人脸修复网络的后处理,使得生成的数字化身更具逼真感。本方法不仅在数字娱乐、人机交互等领域具有广泛应用前景,还可以为智能医疗、公共安全等领域提供有力支持。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims (5)

1.一种基于唇型合成技术的2D真人数字化身生成方法,其特征在于,包括以下步骤:
S1、数据预处理,对音频和视频进行预处理;
S2、音频特征提取,使用音频特征编码器对每个语音片段的音频进行特征处理;
S3、人脸特征提取,使用人脸特征编码器对视频帧中的人脸进行特征提取;
S4、音频到唇形的映射,使用基于卷积神经网络的唇型合成器,将音频特征和人脸特征合并后映射到唇部区域的像素输出;
S5、高清人脸修复,包括学习高清人脸图像特征码本、码表查询网络学习和可控特征融合模块学习;
S6、后处理。
2.根据权利要求1所述的一种基于唇型合成技术的2D真人数字化身生成方法,其特征在于:所述S4中生成包括合成唇形的低清人脸图像帧,通过唇型同步专家网络求得唇型同步损失,通过判别器求得人脸保真度损失。
3.根据权利要求2所述的一种基于唇型合成技术的2D真人数字化身生成方法,其特征在于:所述S5的学习高清人脸图像特征码本中,首先通过高清人脸自我重建学习,训练向量离散化生成对抗网络,得到高清码本空间。
4.根据权利要求3所述的一种基于唇型合成技术的2D真人数字化身生成方法,其特征在于:所述S5的码表查询网络学习中,基于得到的高清码本空间,在原编码器后嵌入一个Transformer模块,对低清人脸特征进行全局建模。
5.根据权利要求4所述的一种基于唇型合成技术的2D真人数字化身生成方法,其特征在于:所述S5的可控特征融合模块学习中,引入可控特征融合模块,控制编码器特征和解码器特征融合的比例。
CN202310839290.8A 2023-07-10 2023-07-10 一种基于唇型合成技术的2d真人数字化身生成方法 Pending CN116884066A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310839290.8A CN116884066A (zh) 2023-07-10 2023-07-10 一种基于唇型合成技术的2d真人数字化身生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310839290.8A CN116884066A (zh) 2023-07-10 2023-07-10 一种基于唇型合成技术的2d真人数字化身生成方法

Publications (1)

Publication Number Publication Date
CN116884066A true CN116884066A (zh) 2023-10-13

Family

ID=88263769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310839290.8A Pending CN116884066A (zh) 2023-07-10 2023-07-10 一种基于唇型合成技术的2d真人数字化身生成方法

Country Status (1)

Country Link
CN (1) CN116884066A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901894A (zh) * 2021-09-22 2022-01-07 腾讯音乐娱乐科技(深圳)有限公司 一种视频生成方法、装置、服务器及存储介质
CN114338959A (zh) * 2021-04-15 2022-04-12 西安汉易汉网络科技股份有限公司 端到端即文本到视频的视频合成方法、系统介质及应用
CN115457169A (zh) * 2022-08-22 2022-12-09 武汉大学 一种语音驱动的人脸动画生成方法及系统
US11553159B1 (en) * 2021-07-21 2023-01-10 EMC IP Holding Company LLC Continuous video generation from voice data
CN115713579A (zh) * 2022-10-25 2023-02-24 贝壳找房(北京)科技有限公司 Wav2Lip模型训练方法、图像帧生成方法、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114338959A (zh) * 2021-04-15 2022-04-12 西安汉易汉网络科技股份有限公司 端到端即文本到视频的视频合成方法、系统介质及应用
US11553159B1 (en) * 2021-07-21 2023-01-10 EMC IP Holding Company LLC Continuous video generation from voice data
CN113901894A (zh) * 2021-09-22 2022-01-07 腾讯音乐娱乐科技(深圳)有限公司 一种视频生成方法、装置、服务器及存储介质
CN115457169A (zh) * 2022-08-22 2022-12-09 武汉大学 一种语音驱动的人脸动画生成方法及系统
CN115713579A (zh) * 2022-10-25 2023-02-24 贝壳找房(北京)科技有限公司 Wav2Lip模型训练方法、图像帧生成方法、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHANGCHEN ZHOU: "Towards Robust Blind Face Restoration with Codebook Lookup Transformer", 《HTTPS://ARXIV.ORG/PDF/2206.11253.PDF》, pages 1 - 18 *
董林坤: "蒙古语AI合成主播的设计与实现", 《中国优秀硕士学位论文全文数据库》, no. 01, pages 084 - 1354 *

Similar Documents

Publication Publication Date Title
CN110599573B (zh) 一种基于单目相机的人脸实时交互动画的实现方法
CN113344777B (zh) 基于三维人脸分解的换脸与重演方法及装置
CN112785671B (zh) 虚假人脸动画合成方法
CN117496072B (zh) 一种三维数字人生成和交互方法及系统
CN115914505B (zh) 基于语音驱动数字人模型的视频生成方法及系统
CN113470170A (zh) 一种利用语音信息的实时视频人脸区域时空一致合成方法
Ju et al. Expressive facial gestures from motion capture data
Sun et al. Vividtalk: One-shot audio-driven talking head generation based on 3d hybrid prior
Qiu et al. Relitalk: Relightable talking portrait generation from a single video
US20240013464A1 (en) Multimodal disentanglement for generating virtual human avatars
Dai et al. PBR-Net: Imitating physically based rendering using deep neural network
CN115631285B (zh) 基于统一驱动的人脸渲染方法、装置、设备及存储介质
CN116884066A (zh) 一种基于唇型合成技术的2d真人数字化身生成方法
Singh Future of Animated Narrative and the Effects of Ai on Conventional Animation Techniques
Beacco et al. Automatic 3D avatar generation from a single RBG frontal image
Yun et al. Cost-efficient 3D face reconstruction from a single 2D image
Wang et al. Expression-aware neural radiance fields for high-fidelity talking portrait synthesis
Liu Light image enhancement based on embedded image system application in animated character images
Wang et al. Flow2Flow: Audio-visual cross-modality generation for talking face videos with rhythmic head
CN117933318A (zh) 构建授课数字人方法
Chen et al. Brand-new Speech Animation Technology based on First Order Motion Model and MelGAN-VC
Zeng et al. Virtual Face Animation Generation Based on Conditional Generative Adversarial Networks
US20230394732A1 (en) Creating images, meshes, and talking animations from mouth shape data
Pan et al. Generating Talking Facial Videos Driven by Speech Using 3D Model and Motion Model
CN117557695A (zh) 一种音频驱动单张照片生成视频的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination