CN113793408A - 一种实时音频驱动人脸生成方法、装置及服务器 - Google Patents
一种实时音频驱动人脸生成方法、装置及服务器 Download PDFInfo
- Publication number
- CN113793408A CN113793408A CN202111082204.0A CN202111082204A CN113793408A CN 113793408 A CN113793408 A CN 113793408A CN 202111082204 A CN202111082204 A CN 202111082204A CN 113793408 A CN113793408 A CN 113793408A
- Authority
- CN
- China
- Prior art keywords
- image
- audio
- radiation field
- frame
- field model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 230000005855 radiation Effects 0.000 claims abstract description 119
- 210000005036 nerve Anatomy 0.000 claims abstract description 95
- 238000012549 training Methods 0.000 claims abstract description 91
- 238000009877 rendering Methods 0.000 claims abstract description 55
- 230000001537 neural effect Effects 0.000 claims abstract description 24
- 230000001360 synchronised effect Effects 0.000 claims abstract description 21
- 230000000007 visual effect Effects 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 35
- 238000005070 sampling Methods 0.000 claims description 34
- 238000013519 translation Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 44
- 238000005520 cutting process Methods 0.000 description 6
- 230000000737 periodic effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
一种实时音频驱动人脸生成方法、装置及服务器,方法包括:获取训练视频的图像信息和与训练视频同步的音频信息;对图像信息进行特征提取,得到每帧图像的人脸姿态特征和像素位置特征;对音频信息进行特征提取,得到每帧图像的音频特征;构建神经辐射场模型,根据每帧图像的人脸姿态特征、像素位置特征和所述音频特征训练神经辐射场模型,以获取目标神经辐射场模型;输入与目标视频同步的音频信息至目标神经辐射场模型中进行图像渲染,以生成当前视角及音频条件下的目标图像。本申请通过使用包括编码器和解码器结构的卷积神经网络作为神经辐射场模型,以及将图像像素位置特征作为输入训练神经辐射场,从而达到实时语音驱动人脸视频的生成。
Description
技术领域
本申请涉及人脸图像处理技术领域,尤其涉及一种实时音频驱动人脸生成方法、装 置及服务器。
背景技术
随着近年来图像处理领域技术的发展,基于人工智能的音频驱动人脸视频在众多场 景下使用广泛,例如,远程视频会议、虚拟角色生成、三维人脸动画制作和动画视频创作等。与视频图像驱动技术不同的是,基于音频驱动人脸视频生成是根据输入的音频信 息中的特征信息,来预测面部形变。例如,构建一个神经网络模型,对模型依次进行训 练和学习。当输入一段音频数据之后,神经网络模型会根据输入的音频作出相应的人脸 表情。
目前通常采用多层感知器对神经辐射场模型进行训练和学习。多层感知器是将图像 像素作为输入,根据图像像素对应的特征向量对像素的颜色值进行回归,以获得后续渲染图像。上述方法虽然能够生成人脸视频,但运行效率低,且无法基于音频驱动实时生 成人脸视频。
发明内容
本申请提供了一种实时音频驱动人脸生成方法、装置及服务器,以解决无法基于音 频驱动实时生成人脸视频的问题。
第一方面,本申请提供了一种实时音频驱动人脸生成方法,包括:
获取训练视频的图像信息和与所述训练视频同步的音频信息;
对所述图像信息进行特征提取,得到每帧图像的人脸姿态特征和像素位置特征;
对所述音频信息进行特征提取,得到每帧图像的音频特征;
构建神经辐射场模型,所述神经辐射场模型用于生成渲染图像;
根据每帧图像的所述人脸姿态特征、像素位置特征和所述音频特征训练所述神经辐 射场模型,以获取目标神经辐射场模型;
将输入地与目标视频同步的音频信息作为条件信息,使用所述目标神经辐射场模型 进行图像渲染,以生成当前视角及音频条件下的目标图像。
进一步地,所述像素位置特征由以下步骤得到:
根据所述图像信息获取每帧图像的图像尺寸,所述图像尺寸对应的图像包括多个像 素,所述像素对应有原始像素位置特征;
将每个所述像素利用预设公式进行编码,得到每个所述像素对应编码后的像素位置 特征;
将所述编码后的像素位置特征与所述原始像素位置特征进行拼接并更新所述原始像 素位置特征,以获得更新后的像素位置特征。
进一步地,所述神经辐射场模型包括卷积网络编码器和卷积网络解码器;
所述卷积网络编码器包括卷积层、激活层、池化层和归一化层,所述卷积网络解码器卷积层、激活层、归一化层、升采样层和反卷积层。
进一步地,将所述图像信息进行特征提取,得到每帧图像的人脸姿态特征;包括:
获取人脸视频集合,所述人脸视频集合包括多个区域子集合;所述多个区域子集合 包括图像非人脸区域、不包含唇部的人脸区域和上唇、下唇及双唇所包围的区域;
对多个所述区域子集合逐帧进行分割得到多个所述区域子集合对应的每帧分割结 果;
将多个所述区域子集合对应的每帧分割结果采用不同数值进行对应标记。
进一步地,还包括:
对所述每帧分割结果进行人脸关键点检测,得到二维人脸关键点;
将所述二维人脸关键点与预设三维人脸模型进行关键点匹配,得到对应的三维人脸 关键点;
根据所述二维人脸关键点和对应的所述三维人脸关键点确定关键点转换关系;
根据所述关键点转换关系获取当前图像的人脸姿态特征;
将所述人脸姿态特征进行特征变换,得到对应的摄像机姿态特征;所述摄像机姿态 特征包括摄像机相对人脸的旋转矩阵和平移向量。
进一步地,还包括:
获取全部帧的所述平移向量,根据全部帧的所述平移向量计算所述平移向量的均值 及标准差;
根据所述平移向量的均值及标准差对全部帧的所述平移向量进行标准化处理,获得 像素姿态特征。
进一步地,根据每帧图像的所述人脸姿态特征和所述音频特征训练所述神经辐射场 模型,包括:
将所述训练视频中每帧图像的所述像素位置特征、像素姿态特征和音频特征作为条 件信息,输入至所述神经辐射场模型中进行图像渲染生成渲染图像;
根据所述渲染图像与所述训练视频的原图像计算得到预设损失函数,所述预设损失 函数用于反向传播并训练所述神经辐射场模型,以生成所述目标神经辐射场模型。
进一步地,还包括:
通过所述摄像机姿态特征确定摄像机姿态方向;
对所述训练视频中每帧图像在所述摄像机姿态方向上进行采样,得到多个采样点;
根据所述像素姿态特征、所述像素位置特征与所述音频特征得到多个所述采样点处 的像素颜色值和像素密度值;
将多个所述采样点处的所述像素颜色值和像素密度值进行渲染,以获得渲染图像。
第二方面,本申请提供了一种实时音频驱动人脸生成装置,包括:
获取模块,获取训练视频的图像信息和与所述训练视频同步的音频信息;对所述图 像信息进行特征提取,得到每帧图像的人脸姿态特征和像素位置特征;对所述音频信息进行特征提取,得到每帧图像的音频特征;
训练模块,用于构建神经辐射场模型,所述神经辐射场模型用于生成渲染图像;根据每帧图像的所述人脸姿态特征、像素位置特征和所述音频特征训练所述神经辐射场模型,以获取目标神经辐射场模型;
渲染模块,用于将输入地与目标视频同步的音频信息作为条件信息,使用所述目标 神经辐射场模型进行图像渲染,以生成当前视角及音频条件下的目标图像。
第三方面,本申请提供了一种服务器,包括存储器和处理器,所述存储器中存储有程序指令,所述处理器通过运行所述程序指令,执行下述步骤:
获取训练视频的图像信息和与所述训练视频同步的音频信息;
对所述图像信息进行特征提取,得到每帧图像的人脸姿态特征和像素位置特征;
对所述音频信息进行特征提取,得到每帧图像的音频特征;
构建神经辐射场模型,所述神经辐射场模型用于生成渲染图像;
根据每帧图像的所述人脸姿态特征、像素位置特征和所述音频特征训练所述神经辐 射场模型,以获取目标神经辐射场模型;
将输入地与目标视频同步的音频信息作为条件信息,使用所述目标神经辐射场模型 进行图像渲染,以生成当前视角及音频条件下的目标图像。
由以上技术方案可知,基于本申请提供的实时音频驱动人脸生成方法,通过使用包 括编码器和解码器结构的卷积神经网络作为神经辐射场模型,以及使用图像像素位置特 征作为输入用于训练神经辐射场。显著提升了音频驱动人脸生成过程的运算速度,达到实时语音驱动人脸视频的生成。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单 的介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示例性示出了本申请实施例提供的实时音频驱动人脸生成方法的流程示意图;
图2示例性示出了本申请实施例提供的神经辐射场模型的结构示意图;
图3示例性示出了本申请实施例提供的神经辐射场模型训练过程的流程示意图;
图4示例性示出了本申请实施例提供的神经辐射场模型推断过程的流程示意图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图, 对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实 施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三” 等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序, 除非另外注明。应该理解这样使用的用语在适当情况下可以互换。术语“包括”和“具 有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的 产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些 产品或设备固有的其他组件。术语“模块”是指任何已知或后来开发的硬件、软件、固 件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
本申请公开了一种实时音频驱动人脸生成方法,方法是根据一段3-5分钟的人脸讲 话视频,通过使用包括编码器和解码器结构的卷积神经网络作为神经辐射场模型,以及使用图像像素位置特征作为输入训练神经辐射场模型,即为神经辐射场模型的训练过程。进一步地,进行神经辐射场模型的运用过程。将目标视频对应的连续音频片段输入至训 练完成的神经辐射场模型中,借助图像渲染技术,实时生成并渲染高质量的人脸目标视 频。为便于说明,在下述实施例中,将神经辐射场模型的训练过程称为模型训练过程。 将神经辐射场模型的运用过程称为模型推断过程。
本申请提供的实时音频驱动人脸生成方法,参见图1,该方法可以包括如下步骤:
S1,获取训练视频的图像信息和与训练视频同步的音频信息;对图像信息进行特征 提取,得到每帧图像的人脸姿态特征和像素位置特征;对音频信息进行特征提取,得到每帧图像的音频特征。
示例性的,获取的训练视频为单人讲话视频,视频中人物所做动作为正面面对摄像 机讲话。训练视频的数据获取可以通过爬取网络视频或自制视频等两种方式。视频数据包括多个视频属性。其中,视频画面颜色为彩色,视频中人物讲话时间长度为3至5分 钟,视频分辨率为720P、1080P、2K或4K,视频帧率为25帧/秒,视频的音频码率为 128kb/s,音频采样率为44100Hz。在上述视频属性中,除视频时间长度和分辨率外,其 他属性可根据实际情况自行设计。
示例性的,获取与训练视频同步的音频信息,进行音频特征提取。音频特征提取具体包括以下步骤:S11,对原始的视频音频重采样至一固定采样频率;S12,使用重采样 后的音频,计算音频的频域特征,可以采用梅尔频谱或梅尔倒谱系数;S13,将音频的频 域特征输入语音识别模型,提取出语音识别模型中间隐层特征,此语音识别模型可为中 文语音识别模型,也可为非中文语音识别模型;S14,将音频的频域特征与语音识别模型 中间隐层特征进行对应帧拼接,获得新的音频特征。即得到每帧图像对应音频的音频特 征。
需要说明的是,S12为必要步骤,即可以仅使用音频的频域特征作为音频特征。S11为可选步骤,即也可以不对视频的音频做重采样操作。S13为可选步骤,即可以不使用 语音识别模型中间隐层特征作为音频特征;在未做S13的情况下,不需要S14。在进行 S13的情况下,S14也为可选步骤,即仅使用语音识别模型中间隐层特征作为音频特征。 综上,视频的音频特征可分为三种情况,音频的频域特征、语音识别模型中间隐层特征 或两种特征的拼接,三种特征可根据实际情况选择其中一种。
在一些实施例中,S1中还包括:获取人脸视频集合,人脸视频集合包括多个区域子集合;多个区域子集合包括图像非人脸区域、不包含唇部的人脸区域和上唇、下唇及双 唇所包围的区域;对多个区域子集合逐帧进行分割得到多个区域子集合对应的每帧分割 结果;将多个区域子集合对应的每帧分割结果采用不同数值进行对应标记。
示例性的,通过采集训练视频的图像信息,从获取的图像信息中裁剪出人脸部分。人脸部分的裁剪方法包括人工裁剪和自动裁剪。人工裁剪是通过人对视频每一帧图像的观察,手动划定出一固定图像区域,使视频每帧图像中的人脸区域均被包含在此手动划 定的区域,将视频每帧图像中的此人工划定区域提取出来,产生新的仅包含人脸区域的 视频。自动裁剪是通过人脸检测算法,自动检测视频每一帧图像中的人脸区域,然后根 据所有帧图像的人脸检测区域,计算出一更大的图像区域,使得所有帧图像的人脸检测 区域均为此更大区域的子集,将视频每帧图像中的此更大区域提取出来,产生新的仅包 含人脸区域的视频。
进一步地,获取包含人脸区域的视频集合,人脸视频集合包括多个区域子集合;使用人脸分割模型,对多个区域子集合逐帧进行分割,获得视频每帧图像不同区域的掩模。不同区域子集合包括非人脸区域(背景、人体躯干部分等),不包含唇部的人脸区域,上 唇、下唇及双唇所包围的区域。将每个区域得到的视频每帧图像的分割结果使用不同的 数值进行对应标记。
在一些实施例中,S1还包括:对每帧分割结果进行人脸关键点检测,得到二维人脸关键点;将二维人脸关键点与预设三维人脸模型进行关键点匹配,得到对应的三维人脸 关键点;根据二维人脸关键点和对应的三维人脸关键点确定关键点转换关系;根据关键 点转换关系获取当前图像的人脸姿态特征;将人脸姿态特征进行特征变换,得到对应的 摄像机姿态特征;摄像机姿态特征包括摄像机相对人脸的旋转矩阵和平移向量。
示例性的,获取视频每帧图像包括人脸区域子集合,可以理解的是,使用仅包含人脸区域的视频。从视频每帧图像中检测二维人脸关键点,将二维人脸关键点匹配至一固 定的三维人脸模型的关键点,对应求解三维关键点和对应二维关键点的转换关系,估计 出当前视频帧图像中人脸相对摄像机的旋转矩阵和平移向量,用以获得当前视频帧图像 的人脸姿态特征。对视频中每一帧均计算出人脸姿态特征。记每帧人脸姿态特征的旋转 矩阵为平移向量为其中均为列向量。根据第一公式, 变换此人脸特征,获得摄像机相对人脸的姿态特征,获得的旋转矩阵为Rc,平移向量为在视频拍摄过程中,摄像机姿态固定,人脸姿态是动态变化的。经过此变换后,人脸姿 态是固定的,相对地,摄像机姿态是动态变化的。即得到人脸区域视频中每帧图像的摄 像机姿态特征。
第一公式为:
在一些实施例中,S1还包括,像素位置特征由以下步骤得到:根据图像信息获取每帧图像的图像尺寸,图像尺寸对应的图像包括多个像素,像素对应有原始像素位置特征;将每个像素利用预设公式进行编码,得到每个像素对应编码后的像素位置特征;将编码 后的像素位置特征与原始像素位置特征进行拼接并更新所述原始像素位置特征,以获得 更新后的像素位置特征。
示例性的,由于视频帧图像的尺寸是固定的且图像尺寸对应的图像包括多个像素。 在给定射线采样深度的前提下,每帧图像的像素位置特征是固定的,每个像素的位置特 征包含像素所在的行、列及深度。使用预设公式,如正余弦周期函数对像素的位置特征进行编码,将编码后的特征作为像素的位置特征。
正余弦周期函数如下:
γ(p)=(sin(20πp),cos(20πp),…,sin(2L-1πp),cos(2L-1πp));
其中,p为像素各位置特征;L为特征编码组数;L取值为10。
进一步地,对每一个像素的各个位置特征进行正余弦周期函数编码后,将编码后的 像素位置特征与原始的位置特征拼接,并更新原始像素位置特征,拼接后生成新的位置特征,即作为最终输入至神经辐射场模型中的像素位置特征。需要说明的是,预设公式 还包括傅里叶编码或MIP编码等,以对每一个像素的各个位置特征进行编码。
S2,构建神经辐射场模型,神经辐射场模型用于生成渲染图像;根据每帧图像的人脸姿态特征、像素位置特征和音频特征训练神经辐射场模型,以获取目标神经辐射场模型。
在一些实施例中,S2还包括,获取全部帧的平移向量,根据全部帧的平移向量计算平移向量的均值及标准差;根据平移向量的均值及标准差对全部帧的平移向量进行标准化处理,获得像素姿态特征。
示例性的,上述提取出的视频每帧摄像机姿态特征包含摄像机相对人脸的旋转矩阵 和平移向量,记旋转矩阵为平移向量为其中均为列 向量。将旋转矩阵修改为使用所有视频帧的平移向量计算并记录平 移向量的均值及标准差,该均值及标准差用于后续模型推断过程。进一步地,使用计算出的均值及标准差对所有视频帧的平移向量进行标准化,即标准化后的平移向量=(平移向量-平移向量均值)/平移向量标准差。将处理后的每帧摄像机姿态特征映射到以视频帧图像为范围的标准化设备坐标上。此步骤是计算在摄像机相对人脸方向上,以摄像机为 源点,以图像上每个像素为终点,摄像机相对像素点的姿态特征。即将此特征作为像素 姿态特征。
同样地,对提取出音频的频域特征进行计算特征值的均值及标准差,记录此均值及 标准差用于后续模型的推断过程。同时,使用计算出的均值及标准差对音频的频域特征进行标准化。即对音频特征进行预处理得到标准化后的频域特征。
在一些实施例中,S2还包括,神经辐射场模型包括卷积网络编码器和卷积网络解码 器;卷积网络编码器包括卷积层、激活层、池化层和归一化层,卷积网络解码器包括卷积层、激活层、归一化层、升采样层和反卷积层。
示例性的,参见图2,卷积网络编码器的作用是将输入图像特征编码至隐层空间,获得对输入特征的抽象表达。卷积网络编码器由卷积层、激活层、池化层、归一化层等 神经网络基本结构构成。卷积网络编码器结构可以为图像分类、分割、检测、超分辨率、 去噪等任务的卷积神经网络的编码器构成,也可使用基本结构自行设计编码器网络结构。
卷积网络解码器的作用是将编码器获得的抽象表达映射至图像空间,获得在某一视 角下的图像中每个图像像素颜色值(图像RGB)及密度值。卷积网络解码器由卷积层、 激活层、归一化层、升采样层、反卷积层等神经网络基本结构构成。卷积网络解码器结 构可以为图像分割、超分辨率、去噪等任务的卷积神经网络的解码器构成,也可使用基 本结构自行设计解码器网络结构。
在一些实施例中,神经辐射场模型中的卷积网络编码器设置为E,卷积网络解码器设 置为D。将上述获得的像素位置特征fp、像素姿态特征fc和音频特征fa输入神经辐射场中, 通过神经辐射场模型输出为图像中每个图像像素颜色值(图像RGB)及密度值。
示例性的,将上述图2的神经辐射场模型记为NeRF1。
在NeRF1中,直接拼接像素位置特征fp、像素姿态特征fc和音频特征fa,将拼接后特征 输入卷积网络编码器E获得隐层特征,再输入卷积网络解码器为D获得输出,此过程可由第二公式表达。
第二公式为:
NeRF1(fp,fc,fa)=D(E(fp,fc,fa));
需要说明的是,本申请提供的神经辐射场模型包括卷积网络编码器E和卷积网络解码 器D,并不指定某种特定的神经网络结构,可根据实际情况自行设计。例如,还可以包括 多模态注意力模块,将卷积网络编码器和卷积网络解码器与多模态注意力模块进行结合。 其中,多模态注意力模块包括特征编码器、特征注意力层和特征融合层等三部分。在本申请中能达到功能的神经网络结构均可以用来构成特定模块。
在一些实施例中,S2还包括,通过摄像机姿态特征确定摄像机姿态方向;对训练视频中每帧图像在摄像机姿态方向上进行采样,得到多个采样点;根据像素姿态特征、像 素位置特征与音频特征得到多个采样点处的像素颜色值和像素密度值;将多个采样点处 的像素颜色值和像素密度值进行渲染,以获得渲染图像。
示例性的,将上述计算得到的每帧图像的摄像机姿态确定为摄像机姿态方向,接着在 摄像机姿态方向上进行采样,得到多个采样点,将每帧图像的摄像机姿态方向设置为d。 各特征经过神经辐射场模型后,输出图像像素颜色值(图像RGB)结果记为c,图像像素密度值结果记为σ。图像像素密度值σ可以理解为光线沿摄像机姿态方向,也就是在经过 当前像素时被物体像素终止的概率,即此像素的不透明度。此像素的颜色即为光线沿摄 像机姿态方向。经过所有像素颜色的累积,可由积分方式得到。进一步地,将沿摄像机 姿态方向的光线r记为r(t)=o+td,其中o为光线原点,d为前述摄像机姿态方向,t为光 线上采样点,tn和tf分别表示光线穿过物体的距离摄像机的近端与远端边界。当以视频某 帧图像作为输入时,在当前摄像机姿态方向上,观察到的任意一个像素的颜色值可以使 用第三公式进行计算。
第三公式为:
其中,T(t)为光线从tn到t这一段路径上的所有像素的累积密度值;tn为光线穿过物体 的距离摄像机的近端边界;tf为光线穿过物体的距离摄像机的远端边界;c(r(t))为光线r 上的采样点t处的图像像素颜色值;σ(r(t))为光线r上的采样点t处的密度值。
进一步地,T(t)为光线从tn到t这一段路径上的所有像素的累积密度值,使用第四公式 计算。
第四公式为:
其中,t为光线上采样点;tn为光线穿过物体的距离摄像机的近端边界;σ(r(s))为光 线r上的采样点s处的密度值。
即上述各特征输入并经过神经辐射场模型后,通过第三公式和第四公式可以计算出 输出的图像像素颜色值结果c和图像像素密度值结果σ。
进一步地,在实际应用中,由于图像由离散像素构成,需对连续点的图像渲染过程进 行离散处理,也就是采用离散近似的图像渲染方式。将摄像机姿态方向光线上需要积分的区域分为N个区间,在每个区间中进行均匀随机采样。这样,在光线上既采样到离散点,又保证了采样点的连续性,第i个采样点由第五公式进行计算。
第五公式为:
进一步地,基于上述离散采样点,将第五公式中的积分进行形式简化得到求和形式第 六公式。
第六公式为:
其中,i为第i个采样点,i的取值范围为[1,N];ci为在光线r下第i个采样点的图像像素颜色值,即上述c(r(t),d)的离散表示;δi=ti+1-ti为邻近两采样点间的距离,Ti为 离散形式的T(t),Ti通过第七公式进行计算;σi为在光线r下第i个采样点的密度值,即 上述σ(r(t))的离散表示。
第七公式为:
其中,j为第j个采样点,j的范围为[1,i-1]。
综上,将上述图像像素颜色值结果c和图像像素密度值结果σ用于进行离散空间下的 渲染,同时作为渲染过程的输入,经过第五公式、第六公式和第七公式,进行渲染过程后输出图像渲染结果最终获得当前摄像机姿态下的渲染图像。
在一些实施例中,S2还包括,将训练视频中每帧图像的像素位置特征、像素姿态特征和音频特征作为条件信息,输入至神经辐射场模型中进行图像渲染生成渲染图像;根 据渲染图像与训练视频的原图像计算得到预设损失函数,预设损失函数用于反向传播并 训练神经辐射场模型,以生成目标神经辐射场模型。
示例性的,将训练视频逐帧作为输入,根据按提取特征并进行处理后得到像素位置特 征fp、像素姿态特征fc和音频特征fa。将上述特征输入至神经辐射场模型中并进行图像渲 染处理获得渲染结果后,需计算渲染结果与原视频帧图像的差异。本申请中提供了多种 计算渲染结果与原视频帧图像差异的方法,也就是渲染结果与训练视频帧图像的差异。多种方法包括L2距离、加权L2距离和感知损失函数。其中,L2距离的计算采用第八公 式获得,计算与所有像素的平均差异。
第八公式为:
进一步地,加权L2距离中的权重来自于输入的训练视频帧图像的分割结果。将上述 已分割出输入训练视频帧图像的不同区域,即非人脸区域(背景、人体躯干部分等)、不包 含唇部的人脸区域和上唇、下唇及双唇所包围的区域。对分割结果中的不同区域赋予不同的数值,获得权重矩阵wI,数值越大的区域获得更高的L2距离权重,对L2距离损失 函数的贡献越大,加权L2距离的计算采用第九公式获得。
第九公式为:
需要说明的是,不能同时使用L2距离和加权L2距离,两者可根据实际情况任取其一使用。无论使用何种L2距离,均不影响本申请整体流程的完整性,仅对最终的输出效 果存在影响。除使用L2距离或加权L2距离外,还可使用其他任何可以描述预测数值与 目标数值差异的可微的损失函数,如L1距离、感知损失函数、感知损失函数与L2距离 结合和感知损失函数与加权L2距离结合等。
进一步地,计算出图像渲染结果与原始视频帧图像的损失函数后,进行反向传播过程。 根据计算出的损失函数,对神经辐射场模型中各组件的参数计算梯度,使用梯度下降方 法优化更新神经辐射场模型中各组件参数。神经辐射场模型训练过程包含若干轮次,每 个轮次均执行上述神经辐射场模型训练过程,直到达成训练终止条件,完成神经辐射场模型的训练,即得到目标神经辐射场模型。
综上,图3为神经辐射场模型训练过程的流程图。参见图3,通过提取训练视频中的特征,将获取的上述音频特征、像素位置特征和像素姿态特征输入至神经辐射场模型中,得到图像渲染过程后的渲染图像。将渲染图像与训练视频中的原图像进行差异计算,得 到损失函数。损失函数用于反向传播过程,通过多次对神经辐射场模型训练,优化模型 中的多个参数,以生成目标神经辐射场模型。
S3,将输入地与目标视频同步的音频信息作为条件信息,使用目标神经辐射场模型 进行图像渲染,以生成当前视角及音频条件下的目标图像。
示例性的,执行神经辐射场模型训练过程之后,接着进行神经辐射场模型的推断过 程,即实际使用过程。图4为神经辐射场模型推断过程的流程图,与图3所示的神经辐 射场模型训练过程相比,神经辐射场模型推断过程仅需要对输入的音频按上述音频特征 的提取及处理进行计算。
进一步地,在神经辐射场模型训练过程中,像素位置特征仅与输入视频帧图像的尺 寸大小相关,与视频帧图像内容无关。则在固定输入视频帧图像尺寸大小的情况下,神经辐射场模型推断过程使用的像素位置特征可以在神经辐射场模型训练过程中获取。
进一步地,在神经辐射场模型推断过程中,由于没有参考视频帧图像的输入,因此无法计算像素姿态特征。故像素姿态特征可以从以下途径获取:在神经辐射场模型训练 过程中的训练数据中获取、从一段已知的连续的训练数据获取像素姿态特征、重复使用 一组固定的训练数据的像素姿态特征、在训练数据像素姿态特征的基础上做整体的修改 获取新的像素姿态特征、根据预先录制一段视频计算出这段视频的像素姿态特征。
进一步地,将音频特征、像素位置特征和像素姿态特征输入目标神经辐射场模型中, 获得在当前姿态条件下,图像像素的RBG值和密度值。根据上述第五公式、第六公式和第七公式进行图像的渲染,获得最终的渲染图像输出。当输入连续的音频片段,获得连 续的图像渲染结果后,将所有的图像渲染结果进行合并,即可获得与连续音频对应的人 脸视频。由此,神经辐射场模型的推断过程完成,不再需要后续计算损失函数和更新模 型参数的过程。
综上,图4为神经辐射场模型推断过程的流程图。参见图4,通过输入与目标视频同步的音频信息,提取出音频特征。将音频特征、已知的像素位置特征和像素姿态特征输 入至目标神经辐射场模型中进行图像渲染,获得最终的渲染图像输出,也就是当前视角 及音频条件下的目标图像。将所有目标图像进行合并,即可实时获得与连续音频对应的 人脸目标视频。
进一步地,本申请提供的实时音频驱动人脸生成方法,具体实施例包括如下步骤:
首先进行神经辐射场模型训练过程的实施例描述:
(1)使用一段时长3分钟、2K分辨率、25帧/秒的单人说话彩色训练视频,该训练 视频的音频码率为128kb/s,音频采样率为44100Hz。
(2)通过dlib人脸检测算法,从训练视频中裁剪出仅包含完整人脸区域的视频,将视频每帧图像的尺寸调整为512x512,此视频每帧图像为渲染目标图像。
(3)使用上述仅包含完整人脸区域的视频,使用基于BiSeNet的人脸分割模型,将视频每帧图像分割为非人脸区域(背景、人体躯干部分等)、不包含唇部的人脸区域和 上唇、下唇及双唇所包围的区域。
(4)根据每帧图像人脸分割结果,生成每帧图像的像素权重矩阵wI,其中非人脸区域权重为0.3,不包含唇部的人脸区域权重为1.0,上唇、下唇及双唇所包围的区域权重 为3.0(此不同区域的权重为参考值,此处仅为示例)。
(5)使用上述仅包含完整人脸区域的视频,使用dlib人脸关键点检测算法,逐帧获得人脸68关键点坐标,将此二维人脸关键点匹配至一固定的三维人脸模型关键点,计算 得出每帧人脸姿态;然后使用第一公式计算出摄像机姿态(此68关键点坐标为示例,也 可使用其他个数的人脸关键点)。
(6)使用上述仅包含完整人脸区域的视频所包含的音频,首先将此音频重采样至16000Hz,进而计算出音频的MFCC特征。MFCC特征也为25帧/秒,与视频数据相匹配。
(7)对每帧图像的摄像机姿态做标准化预处理,计算获得每帧图像的像素姿态特征。
(8)对每帧音频的MFCC特征做标准化预处理。
(9)采用正余弦周期函数计算像素位置特征。
(10)使用UNet的结构作为神经辐射场模型,编码器部分替换为RegNet的编码器,解码器部分为UNet的解码器;使用简单的卷积层、全连接层组合,组成多模态注意力模 块。
(11)将上述每帧的像素姿态特征、像素位置特征和音频特征输入第二公式的以NeRF1为结构的神经辐射场模型中,预测每帧图像像素颜色值(图像RGB)和密度值。
(12)将预测的图像像素颜色值(图像RGB)和密度值代入至第五公式、第六公式 和第七公式获得图像渲染结果。
(13)使用图像渲染结果与渲染目标图像,结合像素权重矩阵wI,利用第九公式计算加权L2距离确定损失函数。
(14)进行反向传播过程,对神经辐射场模型中各组件的参数计算梯度,使用Adam优化器更新神经辐射场模型中各组件参数。
(15)神经辐射场模型训练过程包含若干轮次,每个轮次均执行上述模型训练过程, 直到达成训练终止条件,完成模型的训练,获得目标神经辐射场模型。
接着进行与上述神经辐射场模型训练过程匹配的神经辐射场模型推断过程的实施例 描述。
(1)给定任意一段音频,首先将此音频重采样至16000Hz,进而计算出音频的MFCC特征,MFCC特征为25帧/秒。
(2)使用一组给定摄像机姿态特征,对其做标准化预处理,计算获得每帧图像的像素姿态特征。
(3)根据正余弦周期函数计算像素位置特征。
(4)使用上述模型训练过程中已经完成训练得到的目标神经辐射场模型,预测每帧 图像像素颜色值(图像RGB)和密度值。
(5)将预测的图像像素颜色值(图像RGB)和密度值,使用第五公式、第六公式 和第七公式获得图像渲染结果,将所有的图像渲染结果进行合并,即可获得与连续音频 对应的人脸视频。
需要说明的是,上述过程中的dlib人脸检测算法、dlib人脸关键点检测算法、BiSeNet、 UNet、RegNet、Adam等方法均可替换为其他方法,此处仅为说明实施例而列举的特征 方法。
进一步地,本申请还提供了一种实时音频驱动人脸生成装置,包括:
摄像与音频采集模块,用于采集训练视频的图像信息与训练视频同步的音频信息。
获取模块,获取训练视频的图像信息和与训练视频同步的音频信息;对图像信息进行 特征提取,得到每帧图像的人脸姿态特征和像素位置特征;对音频信息进行特征提取, 得到每帧图像的音频特征;
训练模块,用于构建神经辐射场模型,神经辐射场模型用于生成渲染图像;根据每帧 图像的人脸姿态特征、像素位置特征和音频特征训练神经辐射场模型,以获取目标神经辐射场模型;
渲染模块,用于将输入地与目标视频同步的音频信息作为条件信息,使用目标神经辐 射场模型进行图像渲染,以生成当前视角及音频条件下的目标图像。
进一步地,本申请提供了一种服务器,包括存储器和处理器,存储器中存储有程序指 令,处理器通过运行程序指令,执行包括上述终端设备各实施例中处理器用于执行或被配置的其他程序步骤,这里不再赘述。服务器可以为云服务器,也可以为本地服务器。
由以上技术方案可以看出,首先,本申请直接将音频特征作为条件信号作用于神经 辐射场模型中,无需其他任何中间模态的转换,如人脸表情,人脸关键点等,进一步提高了语音到人脸形状映射的准确性。其次,本申请不需要大量成对的语音-视频数据集中用于训练,只需要单个人三至五分钟的视频即可用于神经辐射场模型的训练。最后,基 于本申请提供的实时音频驱动人脸生成方法,通过使用包括编码器和解码器结构的卷积 神经网络作为神经辐射场模型,以及使用图像像素位置特征作为输入用于训练神经辐射 场。显著提升了音频驱动人脸生成过程的运算速度,达到实时语音驱动人脸视频的生成。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以 通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解, 上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非 易失性存储介质(可以是CD-ROM、U盘或移动硬盘等)中,包括若干指令用以使得一 台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例所 述的方法。
Claims (10)
1.一种实时音频驱动人脸生成方法,其特征在于,包括:
获取训练视频的图像信息和与所述训练视频同步的音频信息;
对所述图像信息进行特征提取,得到每帧图像的人脸姿态特征和像素位置特征;
对所述音频信息进行特征提取,得到每帧图像的音频特征;
构建神经辐射场模型,所述神经辐射场模型用于生成渲染图像;
根据每帧图像的所述人脸姿态特征、像素位置特征和所述音频特征训练所述神经辐射场模型,以获取目标神经辐射场模型;
将输入地与目标视频同步的音频信息作为条件信息,使用所述目标神经辐射场模型进行图像渲染,以生成当前视角及音频条件下的目标图像。
2.根据权利要求1所述的方法,其特征在于,所述像素位置特征由以下步骤得到:
根据所述图像信息获取每帧图像的图像尺寸,所述图像尺寸对应的图像包括多个像素,所述像素对应有原始像素位置特征;
将每个所述像素利用预设公式进行编码,得到每个所述像素对应编码后的像素位置特征;
将所述编码后的像素位置特征与所述原始像素位置特征进行拼接并更新所述原始像素位置特征,以获得更新后的像素位置特征。
3.根据权利要求1所述的方法,其特征在于,所述神经辐射场模型包括卷积网络编码器和卷积网络解码器;
所述卷积网络编码器包括卷积层、激活层、池化层和归一化层,所述卷积网络解码器包括卷积层、激活层、归一化层、升采样层和反卷积层。
4.根据权利要求1所述的方法,其特征在于,将所述图像信息进行特征提取,得到每帧图像的人脸姿态特征;包括:
获取人脸视频集合,所述人脸视频集合包括多个区域子集合;所述多个区域子集合包括图像非人脸区域、不包含唇部的人脸区域和上唇、下唇及双唇所包围的区域;
对多个所述区域子集合逐帧进行分割得到多个所述区域子集合对应的每帧分割结果;
将多个所述区域子集合对应的每帧分割结果采用不同数值进行对应标记。
5.根据权利要求4所述的方法,其特征在于,还包括:
对所述每帧分割结果进行人脸关键点检测,得到二维人脸关键点;
将所述二维人脸关键点与预设三维人脸模型进行关键点匹配,得到对应的三维人脸关键点;
根据所述二维人脸关键点和对应的所述三维人脸关键点确定关键点转换关系;
根据所述关键点转换关系获取当前图像的人脸姿态特征;
将所述人脸姿态特征进行特征变换,得到对应的摄像机姿态特征;所述摄像机姿态特征包括摄像机相对人脸的旋转矩阵和平移向量。
6.根据权利要求5所述的方法,其特征在于,还包括:
获取全部帧的所述平移向量,根据全部帧的所述平移向量计算所述平移向量的均值及标准差;
根据所述平移向量的均值及标准差对全部帧的所述平移向量进行标准化处理,获得像素姿态特征。
7.根据权利要求6所述的方法,其特征在于,根据每帧图像的所述人脸姿态特征和所述音频特征训练所述神经辐射场模型,包括:
将所述训练视频中每帧图像的所述像素位置特征、像素姿态特征和音频特征作为条件信息,输入至所述神经辐射场模型中进行图像渲染生成渲染图像;
根据所述渲染图像与所述训练视频的原图像计算得到预设损失函数,所述预设损失函数用于反向传播并训练所述神经辐射场模型,以生成所述目标神经辐射场模型。
8.根据权利要求7所述的方法,其特征在于,还包括:
通过所述摄像机姿态特征确定摄像机姿态方向;
对所述训练视频中每帧图像在所述摄像机姿态方向上进行采样,得到多个采样点;
根据所述像素姿态特征、所述像素位置特征与所述音频特征得到多个所述采样点处的像素颜色值和像素密度值;
将多个所述采样点处的所述像素颜色值和像素密度值进行渲染,以获得渲染图像。
9.一种实时音频驱动人脸生成装置,其特征在于,包括:
获取模块,获取训练视频的图像信息和与所述训练视频同步的音频信息;对所述图像信息进行特征提取,得到每帧图像的人脸姿态特征和像素位置特征;对所述音频信息进行特征提取,得到每帧图像的音频特征;
训练模块,用于构建神经辐射场模型,所述神经辐射场模型用于生成渲染图像;根据每帧图像的所述人脸姿态特征、像素位置特征和所述音频特征训练所述神经辐射场模型,以获取目标神经辐射场模型;
渲染模块,用于将输入地与目标视频同步的音频信息作为条件信息,使用所述目标神经辐射场模型进行图像渲染,以生成当前视角及音频条件下的目标图像。
10.一种服务器,其特征在于,包括存储器和处理器,所述存储器中存储有程序指令,所述处理器通过运行所述程序指令,执行下述步骤:
获取训练视频的图像信息和与所述训练视频同步的音频信息;
对所述图像信息进行特征提取,得到每帧图像的人脸姿态特征和像素位置特征;
对所述音频信息进行特征提取,得到每帧图像的音频特征;
构建神经辐射场模型,所述神经辐射场模型用于生成渲染图像;
根据每帧图像的所述人脸姿态特征、像素位置特征和所述音频特征训练所述神经辐射场模型,以获取目标神经辐射场模型;
将输入地与目标视频同步的音频信息作为条件信息,使用所述目标神经辐射场模型进行图像渲染,以生成当前视角及音频条件下的目标图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111082204.0A CN113793408B (zh) | 2021-09-15 | 2021-09-15 | 一种实时音频驱动人脸生成方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111082204.0A CN113793408B (zh) | 2021-09-15 | 2021-09-15 | 一种实时音频驱动人脸生成方法、装置及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113793408A true CN113793408A (zh) | 2021-12-14 |
CN113793408B CN113793408B (zh) | 2023-05-30 |
Family
ID=78878490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111082204.0A Active CN113793408B (zh) | 2021-09-15 | 2021-09-15 | 一种实时音频驱动人脸生成方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113793408B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114663962A (zh) * | 2022-05-19 | 2022-06-24 | 浙江大学 | 一种基于图像补全的唇形同步人脸伪造生成方法及系统 |
CN114663539A (zh) * | 2022-03-09 | 2022-06-24 | 东南大学 | 一种基于音频驱动的口罩下2d人脸还原技术 |
CN114782596A (zh) * | 2022-02-28 | 2022-07-22 | 清华大学 | 语音驱动的人脸动画生成方法、装置、设备及存储介质 |
CN115209180A (zh) * | 2022-06-02 | 2022-10-18 | 阿里巴巴(中国)有限公司 | 视频生成方法以及装置 |
CN115714888A (zh) * | 2022-10-09 | 2023-02-24 | 名之梦(上海)科技有限公司 | 视频生成方法、装置、设备与计算机可读存储介质 |
CN115908662A (zh) * | 2022-12-19 | 2023-04-04 | 开普云信息科技股份有限公司 | 说话人视频的生成模型训练和使用方法、装置及设备 |
CN115909015A (zh) * | 2023-02-15 | 2023-04-04 | 苏州浪潮智能科技有限公司 | 一种可形变神经辐射场网络的构建方法和装置 |
CN116030167A (zh) * | 2023-02-24 | 2023-04-28 | 北京红棉小冰科技有限公司 | 虚拟人物的驱动方法、装置、电子设备及可读存储介质 |
CN116071472A (zh) * | 2023-02-08 | 2023-05-05 | 华院计算技术(上海)股份有限公司 | 图像生成方法及装置、计算机可读存储介质、终端 |
CN116091675A (zh) * | 2023-04-06 | 2023-05-09 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、设备及存储介质 |
CN116156277A (zh) * | 2023-02-16 | 2023-05-23 | 平安科技(深圳)有限公司 | 基于姿态预测的视频生成方法及相关设备 |
CN116524087A (zh) * | 2023-05-15 | 2023-08-01 | 苏州大学 | 融合神经辐射场的音频驱动的说话人视频合成方法及系统 |
CN117237547A (zh) * | 2023-11-15 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 图像重建方法、重建模型的处理方法和装置 |
CN117544829A (zh) * | 2023-10-16 | 2024-02-09 | 支付宝(杭州)信息技术有限公司 | 视频生成方法及装置 |
CN117689783A (zh) * | 2024-02-02 | 2024-03-12 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于超参数神经辐射场的人脸语音驱动方法及装置 |
WO2024051445A1 (zh) * | 2022-09-05 | 2024-03-14 | 腾讯科技(深圳)有限公司 | 图像生成方法以及相关设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11017560B1 (en) * | 2019-04-15 | 2021-05-25 | Facebook Technologies, Llc | Controllable video characters with natural motions extracted from real-world videos |
CN112887698A (zh) * | 2021-02-04 | 2021-06-01 | 中国科学技术大学 | 基于神经辐射场的高质量人脸语音驱动方法 |
CN113099208A (zh) * | 2021-03-31 | 2021-07-09 | 清华大学 | 基于神经辐射场的动态人体自由视点视频生成方法和装置 |
CN113378697A (zh) * | 2021-06-08 | 2021-09-10 | 安徽大学 | 一种基于卷积神经网络的说话人脸视频生成方法及装置 |
-
2021
- 2021-09-15 CN CN202111082204.0A patent/CN113793408B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11017560B1 (en) * | 2019-04-15 | 2021-05-25 | Facebook Technologies, Llc | Controllable video characters with natural motions extracted from real-world videos |
CN112887698A (zh) * | 2021-02-04 | 2021-06-01 | 中国科学技术大学 | 基于神经辐射场的高质量人脸语音驱动方法 |
CN113099208A (zh) * | 2021-03-31 | 2021-07-09 | 清华大学 | 基于神经辐射场的动态人体自由视点视频生成方法和装置 |
CN113378697A (zh) * | 2021-06-08 | 2021-09-10 | 安徽大学 | 一种基于卷积神经网络的说话人脸视频生成方法及装置 |
Non-Patent Citations (2)
Title |
---|
阳珊等: "基于BLSTM-RNN的语音驱动逼真面部动画合成", 《清华大学学报(自然科学版)》 * |
陈益强等: "基于机器学习的语音驱动人脸动画方法", 《软件学报》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782596A (zh) * | 2022-02-28 | 2022-07-22 | 清华大学 | 语音驱动的人脸动画生成方法、装置、设备及存储介质 |
CN114663539B (zh) * | 2022-03-09 | 2023-03-14 | 东南大学 | 一种基于音频驱动的口罩下2d人脸还原技术 |
CN114663539A (zh) * | 2022-03-09 | 2022-06-24 | 东南大学 | 一种基于音频驱动的口罩下2d人脸还原技术 |
CN114663962B (zh) * | 2022-05-19 | 2022-09-16 | 浙江大学 | 一种基于图像补全的唇形同步人脸伪造生成方法及系统 |
CN114663962A (zh) * | 2022-05-19 | 2022-06-24 | 浙江大学 | 一种基于图像补全的唇形同步人脸伪造生成方法及系统 |
CN115209180A (zh) * | 2022-06-02 | 2022-10-18 | 阿里巴巴(中国)有限公司 | 视频生成方法以及装置 |
WO2024051445A1 (zh) * | 2022-09-05 | 2024-03-14 | 腾讯科技(深圳)有限公司 | 图像生成方法以及相关设备 |
CN115714888A (zh) * | 2022-10-09 | 2023-02-24 | 名之梦(上海)科技有限公司 | 视频生成方法、装置、设备与计算机可读存储介质 |
CN115714888B (zh) * | 2022-10-09 | 2023-08-29 | 名之梦(上海)科技有限公司 | 视频生成方法、装置、设备与计算机可读存储介质 |
CN115908662A (zh) * | 2022-12-19 | 2023-04-04 | 开普云信息科技股份有限公司 | 说话人视频的生成模型训练和使用方法、装置及设备 |
CN115908662B (zh) * | 2022-12-19 | 2024-05-28 | 开普云信息科技股份有限公司 | 说话人视频的生成模型训练和使用方法、装置及设备 |
CN116071472A (zh) * | 2023-02-08 | 2023-05-05 | 华院计算技术(上海)股份有限公司 | 图像生成方法及装置、计算机可读存储介质、终端 |
CN116071472B (zh) * | 2023-02-08 | 2024-04-30 | 华院计算技术(上海)股份有限公司 | 图像生成方法及装置、计算机可读存储介质、终端 |
CN115909015A (zh) * | 2023-02-15 | 2023-04-04 | 苏州浪潮智能科技有限公司 | 一种可形变神经辐射场网络的构建方法和装置 |
WO2024169314A1 (zh) * | 2023-02-15 | 2024-08-22 | 苏州元脑智能科技有限公司 | 一种可形变神经辐射场网络的构建方法和装置 |
CN116156277A (zh) * | 2023-02-16 | 2023-05-23 | 平安科技(深圳)有限公司 | 基于姿态预测的视频生成方法及相关设备 |
CN116156277B (zh) * | 2023-02-16 | 2024-05-07 | 平安科技(深圳)有限公司 | 基于姿态预测的视频生成方法及相关设备 |
CN116030167A (zh) * | 2023-02-24 | 2023-04-28 | 北京红棉小冰科技有限公司 | 虚拟人物的驱动方法、装置、电子设备及可读存储介质 |
CN116091675A (zh) * | 2023-04-06 | 2023-05-09 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、设备及存储介质 |
CN116524087A (zh) * | 2023-05-15 | 2023-08-01 | 苏州大学 | 融合神经辐射场的音频驱动的说话人视频合成方法及系统 |
CN117544829A (zh) * | 2023-10-16 | 2024-02-09 | 支付宝(杭州)信息技术有限公司 | 视频生成方法及装置 |
CN117237547B (zh) * | 2023-11-15 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 图像重建方法、重建模型的处理方法和装置 |
CN117237547A (zh) * | 2023-11-15 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 图像重建方法、重建模型的处理方法和装置 |
CN117689783A (zh) * | 2024-02-02 | 2024-03-12 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于超参数神经辐射场的人脸语音驱动方法及装置 |
CN117689783B (zh) * | 2024-02-02 | 2024-04-30 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于超参数神经辐射场的人脸语音驱动方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113793408B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113793408B (zh) | 一种实时音频驱动人脸生成方法、装置及服务器 | |
CN113822969B (zh) | 训练神经辐射场模型和人脸生成方法、装置及服务器 | |
CN113192161B (zh) | 一种虚拟人形象视频生成方法、系统、装置及存储介质 | |
CN112887698B (zh) | 基于神经辐射场的高质量人脸语音驱动方法 | |
CN113194348B (zh) | 一种虚拟人讲课视频生成方法、系统、装置及存储介质 | |
US10846522B2 (en) | Speaking classification using audio-visual data | |
Youssif et al. | Automatic facial expression recognition system based on geometric and appearance features | |
Yu et al. | A video, text, and speech-driven realistic 3-D virtual head for human–machine interface | |
CN115588224B (zh) | 一种基于人脸关键点预测的虚拟数字人生成方法及装置 | |
Zhou et al. | An image-based visual speech animation system | |
CN110796593A (zh) | 基于人工智能的图像处理方法、装置、介质及电子设备 | |
US7257538B2 (en) | Generating animation from visual and audio input | |
CN115457169A (zh) | 一种语音驱动的人脸动画生成方法及系统 | |
CN113192162A (zh) | 语音驱动图像的方法、系统、装置及存储介质 | |
Liu et al. | Synthesizing talking faces from text and audio: an autoencoder and sequence-to-sequence convolutional neural network | |
CN117409121A (zh) | 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质 | |
CN117975991B (zh) | 基于人工智能的数字人驱动方法及装置 | |
Wang et al. | Talking faces: Audio-to-video face generation | |
CN112686202B (zh) | 一种基于3d重建的人头识别方法及系统 | |
CN115937365A (zh) | 用于人脸重建的网络训练方法、装置、设备及存储介质 | |
Karungaru et al. | Automatic human faces morphing using genetic algorithms based control points selection | |
CN117115310A (zh) | 一种基于音频和图像的数字人脸生成方法及系统 | |
CN117079313A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN115116468A (zh) | 一种视频生成方法、装置、存储介质及电子设备 | |
Desai et al. | Visual Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |