CN112887698B - 基于神经辐射场的高质量人脸语音驱动方法 - Google Patents

基于神经辐射场的高质量人脸语音驱动方法 Download PDF

Info

Publication number
CN112887698B
CN112887698B CN202110158687.1A CN202110158687A CN112887698B CN 112887698 B CN112887698 B CN 112887698B CN 202110158687 A CN202110158687 A CN 202110158687A CN 112887698 B CN112887698 B CN 112887698B
Authority
CN
China
Prior art keywords
face
voice
radiation field
model
human face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110158687.1A
Other languages
English (en)
Other versions
CN112887698A (zh
Inventor
张举勇
郭玉东
陈柯宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110158687.1A priority Critical patent/CN112887698B/zh
Publication of CN112887698A publication Critical patent/CN112887698A/zh
Application granted granted Critical
Publication of CN112887698B publication Critical patent/CN112887698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/296Synchronisation thereof; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • H04N2005/2726Means for inserting a foreground image in a background image, i.e. inlay, outlay for simulating a person's appearance, e.g. hair style, glasses, clothes

Abstract

本发明提供了一种基于神经辐射场的高质量人脸语音驱动方法,包括以下步骤:利用基于文本的语音识别模型对视频同步的语音信息进行特征提取,获得提取后的语音特征;对初始人脸说话视频集合逐帧进行分割;使用预训练好的三维人脸重建模型估计每帧人脸的姿态信息;利用多层感知器学习针对目标图片的神经辐射场模型;将所述语音特征作为条件信息,采用神经渲染的方式生成当前视角及语音条件下的图片。由基于神经辐射场训练的人脸说话模型,具有隐式表示三维人脸人体位移,包括刚性和非刚性运动的能力。由于神经渲染支持不同射线角度和不同密度的采样设置,其生成的人脸说话视频具有高质量且稳定的特点。

Description

基于神经辐射场的高质量人脸语音驱动方法
技术领域
本发明涉及人脸图像处理技术领域,尤其涉及一种基于神经辐射场的高质量人脸语音驱动方法。
背景技术
随着近年来图像处理领域技术的发展,基于人工智能的数字人在例如远程视频会议、虚拟角色生成和动画视频创作等应用中需求十分广泛。如何构建真实逼真且高质量的虚拟人物成为了一个广受关注的问题。其中,使用任意输入的语音信号驱动目标人脸并生成自然的说话视频序列是一个核心应用。
在过去,高质量的人脸语音驱动主要有三种方法:手动建模,通过预先对目标人脸的一系列说话嘴型进行建模,再将语音信号手动分解为相应的动作序列,从而生成符合预先建模动作的说话模型。手工建模作为最早的三维建模手段,现在仍然被广泛地使用。手工建模一般需要有经验的专业人士借助Autodesk Maya,3DMax等软件来完成。由于手动建模需要耗费大量的人力与时间,该技术通常只能应用于高成本的电影电视等卡通动画制作中,且最终成果严重依赖于负责手动建模的三维动画艺术家的个人审美。基于生成对抗网络的人脸语音驱动技术是指通过大量收集的人脸说话视频及语音序列,借助生成对抗训练得到一个从语音映射到人脸图片的生成对抗网络。该方法相比于传统的手工建模方法,不需要大量的专业美术人士的工作,较为节省人力和时间。然而由于该方法需要对众多成对的人脸视频和语音进行“黑箱式”训练,其最终效果和稳定性依然难以保证。基于神经辐射场的人脸语音驱动方法是将深度学习中针对图片的生成对抗网络改进为使用神经辐射场的神经渲染方式,该方法虽然仍依赖于自动的神经网络优化方法,但在模型设计中隐式表示了目标图片中人物及背景的三维形状特征。借助该设计的人脸语音驱动方法具有较为容易训练、对训练数据规模要求不高以及结果质量高且稳定等优势,因此具备更好的应用前景。
在生成语音驱动的人脸视频序列时,通常可以将该问题视为从语音信号到人脸视频信号的跨模态任务。由于输入与输出的模态信号之间差异较大,之前的解决思路主要分为两种。一种是使用大规模数据集拟合一个复杂的映射函数,即从语音信号直接生成人脸视频。该方法借助的生成对抗网络由于自身难以稳定训练,常常在生成的目标人脸嘴型及图片局部特征处表现不佳;另一种思路是将语音到人脸视频的映射分解为多个中间模态,例如语音信号到人脸表情系数再到显式三维人脸模型,最终渲染得到目标人脸的说话视频序列。该方法中虽然仍利用了生成对抗网络作为中间映射,但是借助了可编辑的三维人脸模型,结果相对稳定;不过在保持原目标人脸的细节如光照、皱纹以及背景融合等方面,则达不到逼真的效果。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于神经辐射场的高质量人脸语音驱动方法,以期部分地解决上述技术问题中的至少之一。
为了实现上述目的,本发明提供了一种基于神经辐射场的高质量人脸语音驱动方法,包括以下步骤:
利用基于文本的语音识别模型对视频同步的语音信息进行特征提取,获得提取后的语音特征;
对初始人脸说话视频集合逐帧进行分割;
使用预训练好的三维人脸重建模型估计每帧人脸的姿态信息;
利用多层感知器学习针对目标图片的神经辐射场模型;
将所述语音特征作为条件信息,采用神经渲染的方式生成当前视角及语音条件下的图片。
其中,所述对初始人脸说话视频集合逐帧进行分割时所依据的图像分割要素包括人脸、除人脸部分上半身躯干和背景的抠图以及对应的标签;所述对初始人脸说话视频集合逐帧进行分割后的分割结果包括若干连续帧彩色人脸图像以及对应的头部、躯干、背景;每一彩色人脸图像均为RGB三通道图像。
其中,所述三维人脸重建模型包括基于参数化人脸模型和神经网络;和/或
所述基于文本的语音识别模型包括针对特定语种训练的语音识别模型。
其中,所述神经辐射场模型为全连接神经网络模型,依次包括:输入层、卷积层、非线性层、池化层、全连接层与损失层。
其中,所述神经辐射场模型建立了以语音特征作为条件信号的隐式函数,如下式所示:
Figure BDA0002933214520000031
其中,a是经过语音预训练模型提取的语音特征,d是根据人脸姿态参数和相机位置变换后的射线方向,x是射线方向对应的像素点在三维坐标系下的位置;c是隐式函数输出的在该射线方向和位置上的像素点颜色值,σ是该点的密度值。
其中,利用学习到的隐式函数表示和体素化特征,采用神经渲染的方式生成相应的图片,包括:
按照像素点和相机位置采样射线方向;
根据射线方向、当前语音特征得到一系列RGB像素值与相应密度值。
其中,所述像素点最终的颜色信息C如下:
Figure BDA0002933214520000032
其中,r代表当前相机视角Π下的采样射线方向,θ是表征该隐式函数的神经网络参数,a是当前时刻的语音特征编码,C和σθ分别表示在当前视线方向射线上的颜色与密度值,r(t)和d则表示随射线方向r连续采样空间位置点,T(t)表示从相机起点tn至当前位置tf的连续积分。
其中,根据预先分割好的人脸区域,上半身人体区域以及背景区域,首先将人脸的位姿信息作用于对应的人脸区域,学习以人脸区域为前景的神经辐射场模型;再针对人体上半身区域,学习以躯干部分为前景的神经辐射场。
其中,所述神经辐射场将沿射线输出变换后的密度值,通过如下积分转换后得到更新后的前景背景融合结果;
Figure BDA0002933214520000041
其中,所述方法还包括经过神经辐射场模型渲染得到的图片与原图片一起计算图像真实度损失函数,用于反向传播并训练神经辐射场模型。
基于上述技术方案可知,本发明的人脸语音驱动方法相对于现有技术至少具有如下有益效果之一或其中的一部分:
(1)由基于神经辐射场训练的人脸说话模型,具有隐式表示三维人脸人体位移,包括刚性和非刚性运动的能力。由于神经渲染支持不同射线角度和不同密度的采样设置,其生成的人脸说话视频具有高质量且稳定的特点;
(2)通过分别对目标人物说话视频中人脸和上半身躯干部分分别建模神经辐射场,该方法可以生成自然逼真的人体和人头运动视频;
(3)通过替换输入的语音条件信号,可以生成不同语音信息下相应的人脸说话动作;
(4)不需要大量成对的语音-视频数据集用于训练,只需要单个人三至五分钟的视频即可构造该目标人物的说话人脸视频生成模型;
(5)通过神经辐射场对说话时运动的人脸和人体进行隐式函数建模,可以生成高质量的人脸说话视频结果;
(6)直接将语音特征作为条件信号作用于隐式函数中,无需其他任何中间模态的转换,如人脸表情,人脸关键点等,进一步提高了语音到人脸形状映射的准确性。
附图说明
图1为本发明实施例提供的一种基于神经辐射场的高质量人脸语音驱动方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
在语音驱动的人脸视频生成领域,传统的基于手工建模的方法效果较好,但是依赖于专业技能,耗时长且最终效果取决于建模工程师的个人水平;基于二维图像的生成对抗网络模型,需要大规模成对数据集,训练难度大,效果质量不稳定。
为此,本发明公开了一种基于神经辐射场的高质量人脸语音驱动方法,该方法根据一段较短的人脸说话视频(三至五分钟),分别对视频中人脸和上半身躯干部分建立两个不同的神经辐射场模型,借助神经渲染技术,可以建立一个以语音特征作为条件信号的隐式函数,用于生成并渲染高质量的人脸说话视频。
基于神经辐射场的神经渲染方法则是将显示的三维人脸建模替换为模拟真实成像的隐式函数,通过沿视线方向估计图片的颜色和密度特征以进行渲染,从而得到与原图非常一致的重建结果。借助该方法,可以将语音信号作为学习该映射方式的条件信号,从而使得在测试阶段,可以仅输入语音信号,即输出相应的高质量人脸说话视频。
如图1所示,该方法主要包括如下步骤:
步骤1、利用基于文本的语音识别模型对视频同步的语音信息进行特征提取;
所述基于文本的语音识别模型包括各种公开的语音特征提取模型,包括且不限于针对特定语种训练的语音识别模型。
步骤2、对初始人脸视频集合V逐帧进行分割;
所述人脸视频集合V中包括:若干连续帧彩色说话人脸图像以及对应的同步语音数据;
每一帧彩色人脸图像均为RGB三通道图像;对应语音信号总时长与视频长度一致。
所述图像分割要素包括人脸、除人脸部分上半身躯干和背景的抠图以及对应的标签。
步骤3、使用预训练好的三维人脸重建方法估计每帧人脸的姿态信息,,包含三维空间中人脸相应的旋转和平移矩阵Π={R,t};
所述的用于估计人脸位姿信息的预训练三维人脸重建方法包括基于参数化人脸模型和神经网络的各种人脸重建模型。
步骤4、利用多层感知器学习针对目标图片的神经辐射场
所述针对目标图片学习神经辐射场的多层感知器为全连接神经网络模型,依次包括:输入层、卷积层、非线性层、池化层、全连接层与损失层。
将语音作为条件信息,利用多层感知器学习针对目标图片的隐式函数:
Figure BDA0002933214520000061
上式中,θ表示多层感知器中的可学习参数,该隐式函数的输入参数包括:检索位置x,检索方向d以及语音的条件信号a;c表示当前输入下隐式函数输出的像素颜色信息,σ表示对应像素的密度信息。
利用上述学习到的隐式函数表示和体素化特征,采用神经渲染的方式生成相应的图片。该流程包括:按照像素点和相机位置采样射线方向d;根据射线方向d、当前语音特征a得到一系列RGB像素值与相应密度值;根据以下公式计算该像素点最终的颜色信息C如下:
Figure BDA0002933214520000062
其中,C和σ分别表示在当前视线方向射线上的颜色与密度值。根据预先分割好的人脸区域,上半身人体区域以及背景区域,首先将人脸的位姿变换Π作用于对应的人脸区域,学习一个以人脸区域为前景的神经辐射场模型;下一步,再针对人体上半身区域(不包含人头),学习以躯干部分为前景的神经辐射场;上述的神经辐射场将沿射线输出变换后的密度值,通过如下积分转换后可以得到更新后的前景背景融合结果
Figure BDA0002933214520000063
最终,经过神经辐射场模型渲染得到的图片与原图片一起计算图像真实度损失函数,用于反向传播并训练神经辐射场模型。
Figure BDA0002933214520000064
s.t.Ir(w,h)=C(rw,h;θ,Π,a)
上式中,Ir表示经过神经辐射场渲染生成的图片,Ig为原图片,且两张图片尺寸均为W×H,两图片之间的差异由L2距离刻画。
步骤5、将语音特征作为条件信息,采用神经渲染的方式生成当前视角及语音条件下的图片。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于神经辐射场的高质量人脸语音驱动方法,其特征在于,包括以下步骤:
利用基于文本的语音识别模型对视频同步的语音信息进行特征提取,获得提取后的语音特征;
对初始人脸说话视频集合逐帧进行分割;
使用预训练好的三维人脸重建模型估计每帧人脸的姿态信息;
利用多层感知器学习针对目标图片的神经辐射场模型,其中,所述神经辐射场模型建立了以语音特征作为条件信号的隐式函数,如下式所示:
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE004
表示具有可学习参数的隐式函数,
Figure DEST_PATH_IMAGE006
表示多层感知器中的可学习参数,a是经过语音预训练模型提取的语音特征,d是根据人脸姿态参数和相机位置变换后的射线方向,x是射线方向对应的像素点在三维坐标系下的位置;c是隐式函数输出的在该射线方向和位置上的像素点颜色值,
Figure DEST_PATH_IMAGE008
是该点的密度值;
将所述语音特征作为条件信息,采用神经渲染的方式生成当前视角及语音条件下的图片。
2.根据权利要求1所述的高质量人脸语音驱动方法,其特征在于,所述对初始人脸说话视频集合逐帧进行分割时所依据的图像分割要素包括人脸、除人脸部分上半身躯干和背景的抠图以及对应的标签;所述对初始人脸说话视频集合逐帧进行分割后的分割结果包括若干连续帧彩色人脸图像以及对应的头部、躯干、背景;每一彩色人脸图像均为RGB三通道图像。
3.根据权利要求1所述的高质量人脸语音驱动方法,其特征在于,所述三维人脸重建模型包括基于参数化人脸模型和神经网络;和/或
所述基于文本的语音识别模型包括针对特定语种训练的语音识别模型。
4.根据权利要求1所述的高质量人脸语音驱动方法,其特征在于,所述神经辐射场模型为全连接神经网络模型,依次包括:输入层、卷积层、非线性层、池化层、全连接层与损失层。
5.根据权利要求1所述的高质量人脸语音驱动方法,其特征在于,利用学习到的隐式函数表示和体素化特征,采用神经渲染的方式生成相应的图片,包括:
按照像素点和相机位置采样射线方向;
根据射线方向、当前语音特征得到一系列RGB像素值与相应密度值。
6.根据权利要求5所述的高质量人脸语音驱动方法,其特征在于,所述像素点最终的颜色信息C 如下:
Figure DEST_PATH_IMAGE010
其中,
Figure DEST_PATH_IMAGE012
代表当前相机视角
Figure DEST_PATH_IMAGE014
下的采样射线方向,
Figure DEST_PATH_IMAGE016
表示多层感知器中的可学习参数,a是经过语音预训练模型提取的语音特征,
Figure DEST_PATH_IMAGE018
表示具有可学习参数的密度函数,
Figure DEST_PATH_IMAGE020
表示具有可学习参数的颜色信息函数,
Figure DEST_PATH_IMAGE022
(t)表示关于采样点t的采样射线方向的函数,d表示根据人脸姿态参数和相机位置变换后的射线方向 ,
Figure DEST_PATH_IMAGE024
表示从相机起点
Figure DEST_PATH_IMAGE026
至当前位置
Figure DEST_PATH_IMAGE028
的连续积分。
7.权利要求1所述的高质量人脸语音驱动方法,其特征在于,根据预先分割好的人脸区域,上半身人体区域以及背景区域,首先将人脸的位姿信息作用于对应的人脸区域,学习以人脸区域为前景的神经辐射场模型;再针对人体上半身区域,学习以躯干部分为前景的神经辐射场。
8.根据权利要求7所述的高质量人脸语音驱动方法,其特征在于,所述神经辐射场将沿射线输出变换后的密度值,通过如下积分转换后得到更新后的前景背景融合结果:
Figure DEST_PATH_IMAGE030
其中,
Figure DEST_PATH_IMAGE032
表示相机起点,
Figure DEST_PATH_IMAGE034
表示
Figure DEST_PATH_IMAGE036
积分变上限,
Figure DEST_PATH_IMAGE038
表示积分变量,
Figure DEST_PATH_IMAGE040
表示关于积分变量
Figure 41775DEST_PATH_IMAGE038
密度函数。
9.根据权利要求1所述的高质量人脸语音驱动方法,其特征在于,所述方法还包括经过神经辐射场模型渲染得到的图片与原图片一起计算图像真实度损失函数,用于反向传播并训练神经辐射场模型。
CN202110158687.1A 2021-02-04 2021-02-04 基于神经辐射场的高质量人脸语音驱动方法 Active CN112887698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110158687.1A CN112887698B (zh) 2021-02-04 2021-02-04 基于神经辐射场的高质量人脸语音驱动方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110158687.1A CN112887698B (zh) 2021-02-04 2021-02-04 基于神经辐射场的高质量人脸语音驱动方法

Publications (2)

Publication Number Publication Date
CN112887698A CN112887698A (zh) 2021-06-01
CN112887698B true CN112887698B (zh) 2022-05-17

Family

ID=76057368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110158687.1A Active CN112887698B (zh) 2021-02-04 2021-02-04 基于神经辐射场的高质量人脸语音驱动方法

Country Status (1)

Country Link
CN (1) CN112887698B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822969B (zh) * 2021-09-15 2023-06-09 宿迁硅基智能科技有限公司 训练神经辐射场模型和人脸生成方法、装置及服务器
CN113793408B (zh) * 2021-09-15 2023-05-30 宿迁硅基智能科技有限公司 一种实时音频驱动人脸生成方法、装置及服务器
CN113851145A (zh) * 2021-09-23 2021-12-28 厦门大学 一种联合语音和语义关键动作的虚拟人动作序列合成方法
CN113971719B (zh) * 2021-10-26 2024-04-12 上海脉衍人工智能科技有限公司 一种神经辐射场采样与重建的系统、方法及设备
CN114648613B (zh) * 2022-05-18 2022-08-23 杭州像衍科技有限公司 基于可变形神经辐射场的三维头部模型重建方法及装置
CN114998548B (zh) * 2022-05-31 2024-02-13 北京非十科技有限公司 一种图像重建的方法和系统
CN115714888B (zh) * 2022-10-09 2023-08-29 名之梦(上海)科技有限公司 视频生成方法、装置、设备与计算机可读存储介质
CN115908662A (zh) * 2022-12-19 2023-04-04 开普云信息科技股份有限公司 说话人视频的生成模型训练和使用方法、装置及设备
CN116030167B (zh) * 2023-02-24 2023-06-30 北京红棉小冰科技有限公司 虚拟人物的驱动方法、装置、电子设备及可读存储介质
CN116524087A (zh) * 2023-05-15 2023-08-01 苏州大学 融合神经辐射场的音频驱动的说话人视频合成方法及系统
CN116664782B (zh) * 2023-07-31 2023-10-13 南京信息工程大学 一种基于融合体素的神经辐射场三维重建方法
CN117237547B (zh) * 2023-11-15 2024-03-01 腾讯科技(深圳)有限公司 图像重建方法、重建模型的处理方法和装置
CN117689783B (zh) * 2024-02-02 2024-04-30 湖南马栏山视频先进技术研究院有限公司 一种基于超参数神经辐射场的人脸语音驱动方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106878677A (zh) * 2017-01-23 2017-06-20 西安电子科技大学 基于多传感器的学生课堂掌握程度评估系统和方法
CN110446000A (zh) * 2019-08-07 2019-11-12 三星电子(中国)研发中心 一种生成对话人物形象的方法和装置
CN110751708A (zh) * 2019-10-21 2020-02-04 北京中科深智科技有限公司 一种实时的语音驱动人脸动画的方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9830588B2 (en) * 2013-02-26 2017-11-28 Digimarc Corporation Methods and arrangements for smartphone payments

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106878677A (zh) * 2017-01-23 2017-06-20 西安电子科技大学 基于多传感器的学生课堂掌握程度评估系统和方法
CN110446000A (zh) * 2019-08-07 2019-11-12 三星电子(中国)研发中心 一种生成对话人物形象的方法和装置
CN110751708A (zh) * 2019-10-21 2020-02-04 北京中科深智科技有限公司 一种实时的语音驱动人脸动画的方法和系统

Also Published As

Publication number Publication date
CN112887698A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN112887698B (zh) 基于神经辐射场的高质量人脸语音驱动方法
Guo et al. Ad-nerf: Audio driven neural radiance fields for talking head synthesis
CN113822969B (zh) 训练神经辐射场模型和人脸生成方法、装置及服务器
CN113793408B (zh) 一种实时音频驱动人脸生成方法、装置及服务器
CN113194348B (zh) 一种虚拟人讲课视频生成方法、系统、装置及存储介质
CN110751708B (zh) 一种实时的语音驱动人脸动画的方法和系统
CN113255457A (zh) 基于人脸表情识别的动画角色面部表情生成方法及系统
CN110796593A (zh) 基于人工智能的图像处理方法、装置、介质及电子设备
Zhou et al. An image-based visual speech animation system
CN115588224A (zh) 一种人脸关键点的预测方法、虚拟数字人生成方法及装置
KR20230097157A (ko) 개인화된 3d 헤드 모델 변형을 위한 방법 및 시스템
CN115457169A (zh) 一种语音驱动的人脸动画生成方法及系统
CN115914505B (zh) 基于语音驱动数字人模型的视频生成方法及系统
CN111640172A (zh) 一种基于生成对抗网络的姿态迁移方法
Xiao et al. Image hazing algorithm based on generative adversarial networks
CN116524087A (zh) 融合神经辐射场的音频驱动的说话人视频合成方法及系统
CN117237521A (zh) 语音驱动人脸生成模型构建方法、目标人说话视频生成方法
Wang et al. Talking faces: Audio-to-video face generation
CN115578298A (zh) 一种基于内容感知的深度肖像视频合成方法
Gowda et al. From pixels to portraits: A comprehensive survey of talking head generation techniques and applications
CN111611997A (zh) 一种基于人体动作迁移的卡通定制形象运动视频生成方法
Mavzuna MODELING OF TEXT RECOGNITION IN IMAGES
Wang et al. Flow2Flow: Audio-visual cross-modality generation for talking face videos with rhythmic head
Tan et al. Style2Talker: High-Resolution Talking Head Generation with Emotion Style and Art Style
CN117496072B (zh) 一种三维数字人生成和交互方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant