CN116524087A - 融合神经辐射场的音频驱动的说话人视频合成方法及系统 - Google Patents
融合神经辐射场的音频驱动的说话人视频合成方法及系统 Download PDFInfo
- Publication number
- CN116524087A CN116524087A CN202310541557.5A CN202310541557A CN116524087A CN 116524087 A CN116524087 A CN 116524087A CN 202310541557 A CN202310541557 A CN 202310541557A CN 116524087 A CN116524087 A CN 116524087A
- Authority
- CN
- China
- Prior art keywords
- audio
- video
- sequence
- radiation field
- denotes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005855 radiation Effects 0.000 title claims abstract description 44
- 210000005036 nerve Anatomy 0.000 title claims abstract description 27
- 238000001308 synthesis method Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 21
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 21
- 230000001537 neural effect Effects 0.000 claims abstract description 17
- 238000009877 rendering Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000005236 sound signal Effects 0.000 claims abstract description 14
- 238000005516 engineering process Methods 0.000 claims abstract description 12
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 9
- 230000000007 visual effect Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 40
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000001815 facial effect Effects 0.000 claims description 3
- 238000002834 transmittance Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 abstract 1
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Computer Graphics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种融合神经辐射场的音频驱动的说话人视频合成方法及系统,该方法包括获取环境中的视频数据集,任意选取一段时间的视频数据集并从中解析出视频序列和音频序列;从所述视频序列中提取人脸特征以及从所述音频序列中提取音频特征;构建一个音频条件隐式函数Fθ,将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练,计算出音频的颜色值和体密度;根据音频的颜色值和体密度,使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息,合成与音频信号相对应的高保真语音说话人视频。本发明借助于神经辐射场,不需要借助中间表示,直接合成与音频信号对应的高保真的说话人视频合成。
Description
技术领域
本发明涉及说话人视频合成技术领域,尤其涉及一种融合神经辐射场的音频驱动的说话人视频合成方法及系统。
背景技术
近年来,随着深度学习技术的不断发展,说话人视频合成技术取得了很大的进展。音频驱动的说话人视频合成技术是指利用语音作为输入,生成与该语音内容相匹配的人物视频。这种技术在虚拟人物、语音合成、视频会议等领域具有广泛的应用前景。音频驱动的说话人视频合成,其目的就是通过一段源音频驱动对应目标视频的生成,且目标视频的口型与输入的源音频保持一致。
目前常见的音频驱动的说话人视频合成方法有基于纯图像的方法和基于模型的方法。基于纯图像的方法:采用深度学习的方法提取各种人物图片的特征,建立一个神经网络模型以此应用于新的目标人物,使用目标人物的人脸控制给定面部的姿势和表情。该模型可以用于轻量级、复杂的视频和图像编辑。基于模型的说话人合成方法:在生成逼真的人脸图像时采用先验信息的方法,即这种方法的核心是统计模型,例如面部形状的3DMorphable models(三维形变模型)或者2D landmarks(关键点特征),通过音频特征和3DMM模型的面部特征相结合,生成目标说话人的面部表情动画。
但是现有技术存在以下的不足:
1.基于纯图像的说话人合成方法:只能生成静止的人脸裁剪图像。无法生成具有背景和目标人物自然拍摄风格的全尺寸图像,且受到输入图片尺寸的大小,无法生成高分辨率的图像。
2.基于模型的说话人合成方法:例如3DMM依赖于中间表示(即中间过程所生成的三维参数),以弥合音频输入和视频输出之间的差距,由于中间表示造成的信息损失,可能会导致原始音频信号与学习到的人脸形变之间的语义不匹配,在表示人脸的形状和纹理方面具有一定的限制,例如无法很好地处理头发、眼睛、嘴唇等细节区域,限制了模型的精度和逼真度。3DMM模型的训练需要大量的高质量的面部数据,但是很难获得具有足够多样性的面部数据集,这限制了模型的泛化能力和适应性。
发明内容
为此,本发明实施例提供了一种融合神经辐射场的音频驱动的说话人视频合成方法及系统,用于解决现有技术中只能生成静止的人脸裁剪图像以及依赖于中间表示导致原始音频信号与学习到的人脸形变之间的语义不匹配的问题。
为了解决上述问题,本发明实施例提供一种融合神经辐射场的音频驱动的说话人视频合成方法,该方法包括:
S1:获取环境中的视频数据集,任意选取一段时间的视频数据集并从中解析出视频序列和音频序列;
S2:从所述视频序列中提取人脸特征以及从所述音频序列中提取音频特征;
S3:构建一个音频条件隐式函数Fθ,将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练,计算出音频的颜色值和体密度,所述隐式函数Fθ用于表示动态神经辐射场;
S4:根据音频的颜色值和体密度,使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息,合成与音频信号相对应的高保真语音说话人视频。
优选地,还包括使用SyncNet scores模块计算视听同步得分,用来评估口型一致性,通过修改音频特征a和姿态参数Π实现音频驱动和姿态操纵的说话人视频合成
优选地,从所述视频序列中提取人脸特征的方法为:
采用人脸面部解析方法分割视频序列中的人脸部位并提取干净的背景,得到解析后的视频帧,对解析后的视频帧序列进行平移和旋转,将人脸特征转换到规范空间。
优选地,从所述音频序列中提取音频特征的方法为:
使用语音识别工具从所述音频序列中提取音频特征。
优选地,所述音频条件隐式函数Fθ模型为:
Fθ:(a,d,x)→(c,σ)
其中a表示音频特征,d表示观看方向,x表示物体的3D位置,c表示颜色值,σ表示体密度。
优选地,根据音频条件隐式函数Fθ模型得出颜色值c和体密度σ,接着使用体渲染技术,将采样的体密度σ和颜色值c沿着每个像素投射的光线进行累积,计算图像渲染结果的输出颜色C,计算公式为:
其中,r(t)=o+td,o表示相机中心,d表示观看方向,tn表示近界,tf表示远界,θ表示角度,Π表示姿态参数,σθ(·)和cθ(·)表示隐式函数Fθ模型的输出,T(t)为从tn到t沿光线的累计透射率。
优选地,使用L2损失函数,优化渲染出的图像和训练真实图像之间的误差,表示如下:
其中,Ir表示渲染出的图像,Ir∈RW×H×3,Ig表示训练的真实图片,Ig∈RW×H×3,W表示宽度,H表示高度,a表示音频特征,Π表示姿态参数,θ表示角度,w表示宽度,h表示高度。
本发明实施例还提供了一种融合神经辐射场的音频驱动的说话人视频合成系统,该系统包括:
采集模块,用于获取环境中的视频数据集,任意选取一段时间的视频数据集并从中解析出视频序列和音频序列;
特征提取模块,用于从所述视频序列中提取人脸特征以及从所述音频序列中提取音频特征;
计算模块,用于构建一个音频条件隐式函数Fθ,将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练,计算出音频的颜色值和体密度,所述隐式函数Fθ用于表示动态神经辐射场;
合成模块,用于使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息,合成与音频信号相对应的高保真语音说话人视频;
评估模块,使用SyncNet scores模块计算视听同步得分,用来评估口型一致性,通过修改音频特征a和姿态参数Π实现音频驱动和姿态操纵的说话人视频合成。
本发明实施例还提供了一种电子装置,其特征在于,包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现上述任意一项所述的融合神经辐射场的音频驱动的说话人视频合成方法。
本发明实施例还提供了一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机软件产品,所述计算机软件产品包括的若干指令,用以使得一台计算机设备执行上述任意一项所述的融合神经辐射场的音频驱动的说话人视频合成方法。
从以上技术方案可以看出,本发明申请具有以下优点:
1.相较于基于纯图像的说话人合成方法,本发明借助于神经辐射场生成具有背景和目标人物自然拍摄风格的图像,使得生成的图像不是静止的人脸裁剪图像,且不受输入图像大小的限制。
2.相较于基于模型的说话人合成方法,由于中间表示造成的信息损失,可能会导致原始音频信号与学习到的人脸变形之间的语义不匹配。本发明不依赖于任何中间表示,将输入音频信号的特征直接输入到条件隐式函数中,生成动态神经辐射场,之后用合成与音频对应的高保真视频,且支持音频信号,观看方向和背景图像的自由调整。
3.本发明不同于现有的方法,只需要一段3-5分钟的短视频序列,不依赖于中间表示过程,简化了生成过程,借助于改进的神经辐射场,生成高保真全场景的说话人合成视频。
附图说明
为了更清楚地说明本发明实施案例或现有技术中的技术方案,下边将对实施例中所需要使用的附图做简单说明,通过参考附图会更清楚的理解本发明的特征和优点,附图是示意性的而不应该理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1为根据实施例中提供的一种融合神经辐射场的音频驱动的说话人视频合成方法的流程图;
图2为根据实施例中提供的一种融合神经辐射场的音频驱动的说话人视频合成系统的框图。
具体实施方式
为使本发明实施例的目的、技术方案与优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提出一种融合神经辐射场的音频驱动的说话人视频合成方法,该方法包括:
S1:获取环境中的视频数据集,任意选取一段时间的视频数据集并从中解析出视频序列和音频序列;
S2:从所述视频序列中提取人脸特征以及从所述音频序列中提取音频特征;
S3:构建一个音频条件隐式函数Fθ,将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练,计算出音频的颜色值和体密度,所述隐式函数Fθ用于表示动态神经辐射场;
S4:根据音频的颜色值和体密度,使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息,合成与音频信号相对应的高保真语音说话人视频。
S5:使用SyncNet scores模块计算视听同步得分,用来评估口型一致性,通过修改音频特征a和姿态参数Π实现音频驱动和姿态操纵的说话人视频合成。
本发明提出一种融合神经辐射场的音频驱动的说话人视频合成方法,通过任意选取一段时间的视频数据集并从中解析出视频序列和音频序列,将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练,本发明不依赖于任何中间表示,简化了生成过程,生成动态神经辐射场,之后用合成与音频对应的高保真视频,且支持音频信号,观看方向和背景图像的自由调整。本发明借助于神经辐射场生成具有背景和目标人物自然拍摄风格的图像,使得生成的图像不是静止的人脸裁剪图像,且不受输入图像大小的限制。
进一步地,获取环境中的视频数据集,选取一段3-5min的视频数据集视频V(帧率为25fps)和音频A,使用face-parsing(人脸解析方法)将人脸和背景图片分开,得到解析后的视频帧;使用DeepSpeech模型提取音频特征a∈R16*29。
进一步地,对解析后的视频帧序列进行平移和旋转,即为Π={R3*3,T3*1},将人脸特征转换到规范空间,由于在说话过程中人脸会移动,故做此操作仅保留嘴唇部位的变动。
进一步地,构建一个音频条件隐式函数Fθ,将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练,计算出音频的颜色值和体密度,所述隐式函数Fθ用于表示动态神经辐射场,所述隐式函数Fθ是由多层感知器(MLP)实现。
所述音频条件隐式函数Fθ模型为:
Fθ:(a,d,x)→(c,σ)
其中a表示音频特征,d表示观看方向,x表示物体的3D位置,c表示颜色值,σ表示体密度。
根据音频条件隐式函数Fθ模型得出颜色值c和体密度σ,接着使用体渲染技术,将采样的体密度σ和颜色值c沿着每个像素投射的光线进行累积,计算图像渲染结果的输出颜色C,计算公式为:
其中,r(t)=o+td,o表示相机中心,d表示观看方向,tn表示近界,tf表示远界,θ表示角度,Π表示姿态参数,σθ(·)和cθ(·)表示隐式函数Fθ模型的输出,T(t)为从tn到t沿光线的累计透射率。
进一步地,根据音频的颜色值和体密度,使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息,合成与音频信号相对应的高保真语音说话人视频。(体渲染volumerender,体渲染是一种图形学技术,用于可视化三维数据集。它将三维数据集中的密度或属性值转换为可见的二维或三维图像。)
使用L2损失函数,优化渲染出的图像和训练真实图像之间的误差,表示如下:
其中,Ir表示渲染出的图像,Ir∈RW×H×3,Ig表示训练的真实图片,Ig∈RW×H×3,W表示宽度,H表示高度,a表示音频特征,Π表示姿态参数,θ表示角度,w表示宽度,h表示高度。
进一步地,使用SyncNet scores模块计算视听同步得分,用来评估口型一致性,通过修改音频特征a和姿态参数Π实现音频驱动和姿态操纵的说话人视频合成。
如图2所示,本发明提供一种融合神经辐射场的音频驱动的说话人视频合成系统,该系统包括:
采集模块10,用于获取环境中的视频数据集,任意选取一段时间的视频数据集并从中解析出视频序列和音频序列;
特征提取模块20,用于从所述视频序列中提取人脸特征以及从所述音频序列中提取音频特征;
计算模块30,用于构建一个音频条件隐式函数Fθ,将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练,计算出音频的颜色值和体密度,所述隐式函数Fθ用于表示动态神经辐射场;
合成模块40,用于使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息,合成与音频信号相对应的高保真语音说话人视频;
评估模块50,使用SyncNet scores模块计算视听同步得分,用来评估口型一致性,通过修改音频特征a和姿态参数Π实现音频驱动和姿态操纵的说话人视频合成。
所述系统,用以实现上述所述的融合神经辐射场的音频驱动的说话人视频合成方法,为了避免冗余,在此不再赘述。
本发明实施例还提供了一种电子装置,其特征在于,包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现上述任意一项所述的融合神经辐射场的音频驱动的说话人视频合成方法。
本发明实施例还提供了一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机软件产品,所述计算机软件产品包括的若干指令,用以使得一台计算机设备执行上述任意一项所述的融合神经辐射场的音频驱动的说话人视频合成方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种融合神经辐射场的音频驱动的说话人视频合成方法,其特征在于,包括:
S1:获取环境中的视频数据集,任意选取一段时间的视频数据集并从中解析出视频序列和音频序列;
S2:从所述视频序列中提取人脸特征以及从所述音频序列中提取音频特征;
S3:构建一个音频条件隐式函数Fθ,将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练,计算出音频的颜色值和体密度,所述隐式函数Fθ用于表示动态神经辐射场;
S4:根据音频的颜色值和体密度,使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息,合成与音频信号相对应的高保真语音说话人视频。
2.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法,其特征在于,还包括使用SyncNet scores模块计算视听同步得分,用来评估口型一致性,通过修改音频特征a和姿态参数Π实现音频驱动和姿态操纵的说话人视频合成。
3.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法,其特征在于,从所述视频序列中提取人脸特征的方法为:
采用人脸面部解析方法分割视频序列中的人脸部位并提取干净的背景,得到解析后的视频帧,对解析后的视频帧序列进行平移和旋转,将人脸特征转换到规范空间。
4.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法,其特征在于,从所述音频序列中提取音频特征的方法为:
使用语音识别工具从所述音频序列中提取音频特征。
5.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法,其特征在于,所述音频条件隐式函数Fθ模型为:
Fθ:(a,d,x)→(c,σ)
其中a表示音频特征,d表示观看方向,x表示物体的3D位置,c表示颜色值,σ表示体密度。
6.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法,其特征在于,根据音频条件隐式函数Fθ模型得出颜色值c和体密度σ,接着使用体渲染技术,将采样的体密度σ和颜色值c沿着每个像素投射的光线进行累积,计算图像渲染结果的输出颜色C,计算公式为:
其中,r(t)=o+td,o表示相机中心,d表示观看方向,tn表示近界,tf表示远界,θ表示角度,Π表示姿态参数,σθ(·)和cθ(·)表示隐式函数Fθ模型的输出,T(t)为从tn到t沿光线的累计透射率。
7.根据权利要求1所述的融合神经辐射场的音频驱动的说话人视频合成方法,其特征在于,使用L2损失函数,优化渲染出的图像和训练真实图像之间的误差,表示如下:
Ir(w,h)=c(rw,h;θ,∏,a)
其中,Ir表示渲染出的图像,Ir∈RW×H×3,Ig表示训练的真实图片,Ig∈RW×H×3,W表示宽度,H表示高度,a表示音频特征,Π表示姿态参数,θ表示角度,w表示宽度,h表示高度。
8.一种融合神经辐射场的音频驱动的说话人视频合成系统,其特征在于,包括:
采集模块,用于获取环境中的视频数据集,任意选取一段时间的视频数据集并从中解析出视频序列和音频序列;
特征提取模块,用于从所述视频序列中提取人脸特征以及从所述音频序列中提取音频特征;
计算模块,用于构建一个音频条件隐式函数Fθ,将提取的人脸特征和音频特征参数放入构建好的音频条件隐式函数Fθ进行训练,计算出音频的颜色值和体密度,所述隐式函数Fθ用于表示动态神经辐射场;
合成模块,用于使用体渲染技术从动态神经辐射场渲染出视觉人脸及背景信息,合成与音频信号相对应的高保真语音说话人视频;
评估模块,使用SyncNet scores模块计算视听同步得分,用来评估口型一致性,通过修改音频特征a和姿态参数Π实现音频驱动和姿态操纵的说话人视频合成。
9.一种电子装置,其特征在于,包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现权利要求1至7任意一项所述的融合神经辐射场的音频驱动的说话人视频合成方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机软件产品,所述计算机软件产品包括的若干指令,用以使得一台计算机设备执行权利要求1至7任意一项所述的融合神经辐射场的音频驱动的说话人视频合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310541557.5A CN116524087A (zh) | 2023-05-15 | 2023-05-15 | 融合神经辐射场的音频驱动的说话人视频合成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310541557.5A CN116524087A (zh) | 2023-05-15 | 2023-05-15 | 融合神经辐射场的音频驱动的说话人视频合成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524087A true CN116524087A (zh) | 2023-08-01 |
Family
ID=87393989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310541557.5A Pending CN116524087A (zh) | 2023-05-15 | 2023-05-15 | 融合神经辐射场的音频驱动的说话人视频合成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524087A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117689783A (zh) * | 2024-02-02 | 2024-03-12 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于超参数神经辐射场的人脸语音驱动方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308731A (zh) * | 2018-08-24 | 2019-02-05 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
CN112001992A (zh) * | 2020-07-02 | 2020-11-27 | 超维视界(北京)传媒科技有限公司 | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 |
CN112465935A (zh) * | 2020-11-19 | 2021-03-09 | 科大讯飞股份有限公司 | 虚拟形象合成方法、装置、电子设备和存储介质 |
CN112887698A (zh) * | 2021-02-04 | 2021-06-01 | 中国科学技术大学 | 基于神经辐射场的高质量人脸语音驱动方法 |
CN113793408A (zh) * | 2021-09-15 | 2021-12-14 | 宿迁硅基智能科技有限公司 | 一种实时音频驱动人脸生成方法、装置及服务器 |
CN113822969A (zh) * | 2021-09-15 | 2021-12-21 | 宿迁硅基智能科技有限公司 | 训练神经辐射场模型和人脸生成方法、装置及服务器 |
CN115209064A (zh) * | 2022-08-08 | 2022-10-18 | 北京世纪好未来教育科技有限公司 | 视频合成方法、装置、设备及存储介质 |
CN115691544A (zh) * | 2022-10-31 | 2023-02-03 | 广州方硅信息技术有限公司 | 虚拟形象口型驱动模型的训练及其驱动方法、装置和设备 |
-
2023
- 2023-05-15 CN CN202310541557.5A patent/CN116524087A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308731A (zh) * | 2018-08-24 | 2019-02-05 | 浙江大学 | 级联卷积lstm的语音驱动唇形同步人脸视频合成算法 |
CN112001992A (zh) * | 2020-07-02 | 2020-11-27 | 超维视界(北京)传媒科技有限公司 | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 |
CN112465935A (zh) * | 2020-11-19 | 2021-03-09 | 科大讯飞股份有限公司 | 虚拟形象合成方法、装置、电子设备和存储介质 |
CN112887698A (zh) * | 2021-02-04 | 2021-06-01 | 中国科学技术大学 | 基于神经辐射场的高质量人脸语音驱动方法 |
CN113793408A (zh) * | 2021-09-15 | 2021-12-14 | 宿迁硅基智能科技有限公司 | 一种实时音频驱动人脸生成方法、装置及服务器 |
CN113822969A (zh) * | 2021-09-15 | 2021-12-21 | 宿迁硅基智能科技有限公司 | 训练神经辐射场模型和人脸生成方法、装置及服务器 |
CN115209064A (zh) * | 2022-08-08 | 2022-10-18 | 北京世纪好未来教育科技有限公司 | 视频合成方法、装置、设备及存储介质 |
CN115691544A (zh) * | 2022-10-31 | 2023-02-03 | 广州方硅信息技术有限公司 | 虚拟形象口型驱动模型的训练及其驱动方法、装置和设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117689783A (zh) * | 2024-02-02 | 2024-03-12 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于超参数神经辐射场的人脸语音驱动方法及装置 |
CN117689783B (zh) * | 2024-02-02 | 2024-04-30 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于超参数神经辐射场的人脸语音驱动方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | Ad-nerf: Audio driven neural radiance fields for talking head synthesis | |
CN112887698B (zh) | 基于神经辐射场的高质量人脸语音驱动方法 | |
Mattheyses et al. | Audiovisual speech synthesis: An overview of the state-of-the-art | |
Chuang et al. | Mood swings: expressive speech animation | |
Chen et al. | Puppeteergan: Arbitrary portrait animation with semantic-aware appearance transformation | |
Yang et al. | Facial expression editing in video using a temporally-smooth factorization | |
CN113538659B (zh) | 一种图像生成方法、装置、存储介质及设备 | |
CN110874557A (zh) | 一种语音驱动虚拟人脸的视频生成方法以及装置 | |
WO2001099048A2 (en) | Non-linear morphing of faces and their dynamics | |
Zhou et al. | An image-based visual speech animation system | |
CN117237521A (zh) | 语音驱动人脸生成模型构建方法、目标人说话视频生成方法 | |
CN116524087A (zh) | 融合神经辐射场的音频驱动的说话人视频合成方法及系统 | |
US20230319223A1 (en) | Method and system for deep learning based face swapping with multiple encoders | |
Paier et al. | Example-based facial animation of virtual reality avatars using auto-regressive neural networks | |
Kalberer et al. | Realistic face animation for speech | |
KR101902553B1 (ko) | 스토리텔링 콘텐츠 툴 제공 단말기 및 스토리텔링 콘텐츠 제공 방법 | |
Liu et al. | Data-driven 3d neck modeling and animation | |
Xu et al. | Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation | |
CN117557695A (zh) | 一种音频驱动单张照片生成视频的方法及装置 | |
Costigan et al. | Facial retargeting using neural networks | |
US20240013464A1 (en) | Multimodal disentanglement for generating virtual human avatars | |
Wampler et al. | Dynamic, expressive speech animation from a single mesh | |
CN115578298A (zh) | 一种基于内容感知的深度肖像视频合成方法 | |
US20230316587A1 (en) | Method and system for latent-space facial feature editing in deep learning based face swapping | |
Koumparoulis et al. | Audio-assisted image inpainting for talking faces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |