CN116546148A

CN116546148A - 视频合成方法、装置、计算机设备及存储介质

Info

Publication number: CN116546148A
Application number: CN202310573978.6A
Authority: CN
Inventors: 刘杰; 王健宗; 瞿晓阳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-08-04

Abstract

本发明公开了一种视频合成方法，该方法包括获取语音数据，根据预设深度语音模型对语音数据进行音频特征提取，得到音频特征；获取参考图像，通过预设三维卷积网络对参考图像进行图像特征提取，得到三维图像特征；通过三维图像特征构建与参考图像对应的神经体编码；获取神经辐射场模型和位置信息，将位置信息、神经体编码和音频特征输入至神经辐射场模型中，输出目标视频。本发明通过预设深度语音模型对语音数据进行音频特征提取，从而提高了音频特征提取的准确性。通过神经辐射场模型对位置信息、神经体编码和音频数据进行神经渲染，实现了对目标视频的合成，从而提高了目标视频的图像质量和清晰度，进而提升了音画同步度。

Description

视频合成方法、装置、计算机设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种视频合成方法、装置、计算机设备及存储介质。

背景技术

随着科学技术的不断发展，基于人工智能的音频驱动人脸视频在虚拟角色生成和动画视频创作等应用中需求十分广泛。如何构建真实逼真且高质量的虚拟人物成为了一个广受关注的问题。

现有技术中，往往是采用多层感知器对神经辐射场模型进行训练和学习。多层感知器使用图像像素作为输入，将像素的特征向量对像素的颜色值进行回归，以获得渲染图像。上述方法虽然能实现人脸视频的生成，但合成视频的图像质量差、音画同步度低且渲染结果清晰度低，无法基于音频驱动实时生成高清的视频。

发明内容

本发明实施例提供一种视频合成方法、装置、计算机设备及存储介质，以解决现有技术中视频合成效果不佳和清晰度低的问题。

一种视频合成方法，包括：

获取语音数据，根据预设深度语音模型对所述语音数据进行音频特征提取，得到音频特征；

获取参考图像，通过预设三维卷积网络对所述参考图像进行图像特征提取，得到三维图像特征；

通过所述三维图像特征构建与所述参考图像对应的神经体编码；

获取神经辐射场模型和位置信息，将所述位置信息、所述神经体编码和所述音频特征输入至所述神经辐射场模型中，输出目标视频；所述位置信息为目标视频的视角位置。

一种视频合成装置，包括：

音频特征模块，用于获取语音数据，根据预设深度语音模型对所述语音数据进行音频特征提取，得到音频特征；

特征提取模块，用于获取参考图像，通过预设三维卷积网络对所述参考图像进行图像特征提取，得到三维图像特征；

神经体构建模块，用于通过所述三维图像特征构建与所述参考图像对应的神经体编码；

视频输出模块，用于获取神经辐射场模型和位置信息，将所述位置信息、所述神经体编码和所述音频特征输入至所述神经辐射场模型中，输出目标视频；所述位置信息为目标视频的视角位置。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述视频合成方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述视频合成方法。

本发明提供一种视频合成方法、装置、计算机设备及存储介质，该方法通过预设深度语音模型对语音数据进行音频特征提取，从而实现了从语音数据中提取出音频特征，提高了音频特征提取的准确性，并将音频特征作为驱动神经辐射场模型的条件。通过预设三维卷积网络对参考图像进行图像特征提取，从而实现了对三维图像特征的提取，进而实现了根据三维图像特征构建神经体编码。通过神经辐射场模型对位置信息、神经体编码和音频特征进行逐帧融合，从而实现了对目标视频的合成，进而提高了目标视频的图像质量和清晰度，提升了音画同步度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中视频合成方法的应用环境示意图；

图2是本发明一实施例中视频合成方法的流程图；

图3是本发明一实施例中视频合成方法中步骤S20的流程图；

图4是本发明一实施例中视频合成方法中步骤S30的流程图；

图5是本发明一实施例中视频合成装置的原理框图；

图6是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的视频合成方法，该视频合成方法可应用如图1所示的应用环境中。具体地，该视频合成方法应用在视频合成装置中，该视频合成装置包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于解决现有技术中视频合成效果不佳和清晰度低的问题。其中，该服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端又称为用户端，是指与服务器相对应，为客户提供分类服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。

在一实施例中，如图2所示，提供一种视频合成方法，以该方法应用在图1中的客户端为例进行说明，包括如下步骤：

S10：获取语音数据，根据预设深度语音模型对所述语音数据进行音频特征提取，得到音频特征。

可理解地，语音数据可以为通过TTS技术将文本转换成语音，也可以为用户录制的语音。如在动漫中，不同人物之间的对话即为语音数据。在游戏中，每个人物的台词即为语音数据。预设深度语音模型为用于对语音数据进行特征提取的，在本实施例中采用deepspeech2模型进行特征提取。音频特征为用于表征语音数据的语义信息。

具体地，将获取到的语音数据输入到预设深度语音模型中，将语音数据划分为固定时长(25mm)的音频片段，一段音频片段即为一帧音频数据。通过预设深度语音模型中的若干层卷积网络层对每一帧音频数据进行卷积处理，得到与每一帧音频数据对应的卷积特征。再通过若干层单向或双向循环网络层分别对所有卷积特征进行时序卷积，也即在空间上对所有卷积特征进行卷积处理，得到所有循环卷积特征。将所有循环卷积特征输入到前瞻卷积层中，以更精细的粒度分别对所有循环卷积特征进行流式计算，从而得到与各循环卷积特征对应的特征权重。通过全连接层根据前瞻卷积层计算的特征权重对循环卷积特征进行预测，也即将循环卷积特征整合成一个特征值，并将该特征值确定为与每一帧音频数据对应的音频特征。

S20：获取参考图像，通过预设三维卷积网络对所述参考图像进行图像特征提取，得到三维图像特征。

可理解地，参考图像为合成视频中的人脸图像的依据。该图像为创建后存储至服务器中的，亦或者由用户从客户端发送至服务端数据库中的。如在动漫中，给该人物的其他人脸图像提供参考。预设三维卷积网络为提前设置用于图像特征提取的网络结构，包括若干组三维卷积层和三维池化层。三维图像特征为参考图像在三维坐标系中的特征。如眼、耳、鼻和嘴。

具体地，从数据库中获取参考图像，将参考图像输入到预设三维卷积网络中，通过预设三维卷积网络对输入的参考图像在空间上进行三维卷积和池化操作，捕捉参考图像上的时序信息。也即在空间上三维卷积网络通过长宽高三维卷积层对参考图像进行特征提取，从而得到与参考图像对应的所有三维特征。通过预设三维卷积网络对输入的参考图像在时间上进行三维卷积和池化操作，捕捉参考图像上的时间信息。也即在时间上将参考图像以固定时长划分为多个图像帧，通过对每个图像帧进行三维卷积，从而得到所有三维特征。通过三维池化层对时间和空间上的所有三维特征进行池化处理，即通过三维池化层对时间和空间上三维特征进行维度压缩，将三维特征压缩至低纬度空间，从而得到与参考图像对应的三维图像特征。

S30：通过所述三维图像特征构建与所述参考图像对应的神经体编码。

可理解地，神经体编码为对三维图像特征重建的人脸图像。

具体地，在得到所有三维图像特征之后，通过预设标签模型对每一个三维图像特征进行类别识别，也即通过预设标签模型对三维图像特征为哪个部位进行识别，并将在该三维图像特征打上对应的语义标签，用于区分三维图像特征属于哪个部位，如眼、鼻和耳等语义标签。再根据参考图像对与语义标签对应的三维图像特征进行构建，先对脸部轮廓语义标签的三维图像特征进行放置，再依次对眼、鼻和耳等其它语义标签的三维图像特征进行放置，从而得到融合图像。再通过中值滤波对融合图像进行滤波处理，使得融合图像看起来更加自然，从而的与参考图像对应的神经体编码。

S40，获取神经辐射场模型和位置信息，将所述位置信息、所述神经体编码和所述音频特征输入至所述神经辐射场模型中，输出目标视频；所述位置信息为目标视频的视角位置。

可理解地，神经辐射场模型为用于对神经体编码进行神经渲染的。该模型为通过大量短视频训练得到的，适用于任意图像。神经渲染是以一种可控的方式生成照片般真实的图像。目标视频为从位置信息方向对神经体编码和音频特征进行合成得到的。位置信息为视角方向对应的神经体编码在三维坐标系下的位置。

具体地，从数据库中获取神经辐射场模型，以及根据参考图像变换后得到位置信息。将获取的位置信息、重建的神经体编码和提取的音频特征输入到神经辐射场模型中，通过神经辐射场的卷积网络编码器对神经体编码进行卷积池化处理，得到编码网络特征。再通过升采样层和反卷积层对编码网络特征进行反卷积池化处理，从而得到神经体编码特征。注意力层对位置信息、神经体编码特征和音频特征进行神经渲染，即采用公式F_θ：(a，d，x)→(c，σ)对每帧神经体编码特征进行渲染，也即根据位置信息对每帧神经体编码特征和音频特征进行融合，得到视频图像，使得每帧神经体编码特征可以表达出该音频特征。再对视频图像进行神经渲染，从而得到每帧渲染视频图像。如此通过该方法对每帧神经体编码特征和音频特征进行融合并渲染，得到所有渲染视频图像，再按照时间顺序对渲染视频图像进行拼接，从而得到目标视频。

在本发明实施例中的一种视频合成方法，该方法通过预设深度语音模型对语音数据进行音频特征提取，从而实现了从语音数据中提取出音频特征，提高了音频特征提取的准确性，并将音频特征作为驱动神经辐射场模型的条件。通过预设三维卷积网络对参考图像进行图像特征提取，从而实现了对三维图像特征的提取，进而实现了根据三维图像特征构建神经体编码。通过神经辐射场模型对位置信息、神经体编码和音频特征进行逐帧融合，从而实现了对目标视频的合成，进而提高了目标视频的图像质量和清晰度，提升了音画同步度。

在一实施例中，步骤S10中，也即根据预设深度语音模型对所述语音数据进行音频特征提取，得到音频特征，包括：

S101，通过所述卷积网络层对所述语音数据进行卷积处理，得到卷积特征。

可理解地，卷积网络层为CNN网络，包括若干层卷积层、若干层池化层和全连接层。卷积特征为在空间上对语音数据卷积得到的。

具体地，在得到语音数据之后，将语音数据输入至预设深度语音模型中，将语音数据划分为一段一段的音频片段，将一段一段的音频片段确定为一帧音频数据。通过预设深度语音模型中的若干层卷积网络层对每帧音频数据在空间上进行卷积处理，也即卷积层采用2*2*2的卷积核，从长宽高三个维度的张量对参考图像进行卷积处理，并通过ReLU激活函数对图像卷积特征进行激活，得到图像卷积特征。再通过池化层对图像卷积特征进行池化处理，即可以采用最大值池化或平均值池化对图像卷积特征进行维度压缩，将图像卷积特征压缩成一维张量。将所有一维张量均输入到全连接层中，通过全连接层分别对所有一维张量进行预测，输出为一个特征值，根据这个特征值判断预测结果，从而得到与语音数据对应的卷积特征。

S102，通过所述循环网络层对所述卷积特征进行时序卷积，得到循环卷积特征。

可理解地，循环网络层为RNN网络，RNN网络的输入和输出可以是不定长且不等长的。RNN网络公式为h_i＝tanh(Ux_i+Wh_i-1+b)，由激活函数tanh得到i时刻的隐藏层单元hi，x_i为i时刻输入的卷积特征，h_i-1是i-1时刻的隐层单元，U是卷积特征的权值，W是自学习隐藏层的权值，b是偏置量。循环卷积特征为通过若干层单向或双向RNN网络对卷积特征进行卷积得到的。

具体地，将卷积特征输入到循环网络层中，通过循环网络层中的网络公式对卷积特征进行预测，由激活函数tanh得到t时刻的隐藏单元h_t，并对i-1时刻的隐层单元h_i-1进行获取，通过前一时刻的输出影响这一时刻的输出。从t₁时刻传播到t_n时刻，形成一层单向循环神经网络，然后再沿网络层级方向，以一层循环神经网络为单位，逐层叠加形成深度循环神经网络。也可以在一层网络结构中添加两组传播方向相反的单向循环神经网络，组成一层双向循环神经网络。如此，根据若干层循环单向或双向网络层对卷积特征进行卷积处理，也即通过隐藏单元和隐藏层的权值对卷积特征进行预测，从而得到循环卷积特征。

S103，将所述循环卷积特征输入至所述前瞻卷积层中，确定与所述循环卷积特征对应的特征权重。

S104，所述全连接层根据所述特征权重对所述循环卷积特征进行预测，得到所述音频特征。

可理解地，前瞻卷积层用于学习权重以线性组合每个神经元的激活时间步长。特征权重为表征下一时刻对当前时刻每个循环卷积特征的重要程度。全连接层为将循环卷积特征根据特征权重进行综合。

具体地，将循环卷积特征输入至前瞻卷积层中，该层t时刻输出不再依赖t时刻之后全部,而是依赖t时刻之后若干个时间步。通过前瞻卷积层学习权重以线性组合每个神经元的激活时间步长，使得可以控制所需的下文的量。如此将前瞻卷积层放在所有循环网络层之后，以更精细的粒度在前瞻卷积层下做流式计算，从而得到与循环卷积特征对应的特征权重。进一步地，将所有循环卷积特征和与循环卷估特征对应的特征权重一起输入到全连接层中，全连接层中的隐藏单元根据特征权重对循环卷积特征进行预测，得到与各音频数据对应的语音特征。通过归一层(batch normalization)对所有语音特征进行批归一化，也即通过公式对垂直连接方向的所有语音特征进行归一化，从而得到音频特征。

本发明实施例通过卷积网络层对语音数据进行卷积处理，从而实现了对语音数据中音频特征的提取。通过循环卷积层对卷积特征进行时序卷积，从而实现了根据上一时刻的输出对当前时刻的输出进行预测。通过前瞻卷积层对循环卷积特征进行卷积处理，从而实现了根据下一时刻的输出对当前时刻的输出进行预测，进而实现了对音频特征的准确提取。

在一实施例中，如图3所示，步骤S20中，也即通过预设三维卷积网络对所述参考图像进行图像特征提取，得到三维图像特征，包括：

S201，通过所述三维卷积层对所述参考图像进行卷积处理，得到三维卷积特征。

S202，通过所述三维池化层对所述三维卷积特征进行池化处理，得到与所述参考图像对应的三维图像特征。

可理解地，三维卷积层为通过长宽高从空间上对参考图像进行卷积的网络。三维池化层为从空间上对三维卷积特征进行池化的网络。三维卷积层用于对输入数据进行卷积处理，提取特征信息。三维池化层用于对输入数据进行降维，从而压缩特征、降低维度。三维卷积特征为在空间上对参考图像进行卷积得到的。

具体地，在得到音频特征之后，从数据库中获取参考图像，将参考图像输入至预设三维卷积网络中，预设三维卷积网络对参考图像建立三维坐标系，也即在空间上对参考图像进行特征提取。通过三维卷积层对参考图像进行卷积处理，即采用H*W*L的卷积核对空间中的参考图像进行卷积处理，得到卷积特征。再通过H*W的池化卷积核对卷积特征进行池化处理，即将卷积特征从高维度空间压缩到低维度空间中，从而得到池化特征。如此，通过若干组不同卷积核的三维卷积层和不同池化卷积核的三维池化层对参考图像进行卷积池化处理，将得到的所有图像特征输入到全连接层中。

进一步地，通过多层全连接层的隐藏单元对所有图像特征进行预测，在后面几层全连接层进行预测时，采用丢弃策略，即dropout策略。上一层全连接层的输出向量传入本层全连接层时，按照预设第一丢弃概率随机丢弃本层全连接层的输出向量中的元素。应当理解，丢弃是指把这些元素从网络中“抹去”，这些被“抹去”的特征不参与本次后续预测。如此，将最后一层全连接层的输出结果确定为与参考图像对应的三维图像特征。

本发明实施例通过多层三维卷积层对参考图像进行卷积处理，从而实现了对参考图像中的特征进行提取，进而实现了对三维卷积特征的提取。通过多层池化层对三维卷积特征进行池化处理，从而实现了对三维卷积特征的维度压缩。通过全连接层采用丢弃策略对池化后的三维卷积特征进行预测，实现了去除冗余信息和简化网络复杂度，从而实现了对三维图像特征的提取。

在一实施例中，如图4所示，步骤S30中，也即通过所述三维特征构建与所述参考图像对应的神经体编码，包括：

S301，将所述三维特征输入至预设标签模型中，通过所述预设标签模型对所述三维特征进行标签预测，得到与各三维特征对应的语义标签。

可理解地，预设标签模型为提前训练好的用于对三维图像特征类别进行标签预测的，该标签模型可以为多层感知机模型。语义标签为用于表征三维图像特征的标签，如眼睛等。预设标签模型中包括预设数量个(如2个或3个)的隐藏层，每个隐藏层设有预设数量个(如64个或128个)的隐藏单元。

具体地，将所有的三维图像特征输入到预设标签模型中，该预设标签模型对所有的三维图像特征进行类别标签预测，即通过多层感知机模型对提取的三维图像特征进行预测，也即多层感知机模型中第一层隐藏层通过不同的权重值对所有三维图像特征进行计算，得到预测结果。将所有预测结果传送到下一层隐藏层通过不同与第一层隐藏层的权重值进行标签预测，如此，通过预设数量个不同权重值的隐藏层后，即可得到该三维图像特征的语义标签。如此，通过上述方式给所有三维图像特征打上表情语义标签。

其中，通过爬虫技术从网站或客户端获取大量的人脸图像，通过扩散模型对所有的人脸图像进行语音分割，得到各个人脸图像的局部图片，并设置每个局部图片对应的人脸图像编号，即实际标签。将所有人脸图像的局部图片输入到多层感知机模型中进行训练，通过多层感知机模型对所有人脸图像的局部图片进行标签预测，得到预测标签。将同一人脸图像的同一局部图片的预测标签和实际标签进行比较，当两个标签不同时，将该局部图片和实际标签输入到多层感知机模型中进行训练，如此使得多层感知机模型输出的结果可以不断向准确地结果靠拢，让预测准确率越来越高，直至所有人脸图像的局部图片的预测损失值均达到预设的收敛条件时，将收敛之后的多层感知机模型记录为预设标签模型。

S302，根据所有所述语义标签对所有所述三维图像特征进行特征融合，得到与所述参考图像对应的神经体编码。

具体地，根据三维图像特征对应的语义标签，对三维图像特征重新构建，也即根据所有语义标签中表征三维图像特征的脸部轮廓的语义标签，和重建的位置对三维图像特征的脸部轮廓进行放置，如此，再根据其它语义标签对眼、鼻和耳等三维图像特征进行放置融合，即可得到融合图像。并根据参考图像对拼接后的融合图像进行细节处理，使得眼、鼻和耳等三维图像特征更加符合三维图像特征的脸部轮廓。并通过中值滤波法对融合图像进行滤波处理，也即采用该融合图像的编码中间值，对该融合图像进行滤波处理，得到神经体编码，从而使得神经体编码看起来更自然。

本发明实施例通过预设标签模型对所有三维图像特征进行类别识别，从而实现了对每个三维图像特征的语义标签的预测。并根据所有语义标签对三维图像特征进行构建，从而实现了降低了图像融合的复杂度。在图像融合过程中采用中值滤波方法进行滤波处理，增强了神经体编码的细节，使得神经体编码更加自然。

在一实施例中，步骤S40中，也即将所述位置信息、所述神经体编码和所述音频特征输入至所述神经辐射场模型中，输出目标视频；所述位置信息为目标视频的视角位置，包括：

所述神经辐射场模型包括卷积网络编码器、卷积网络解码器和注意力层；所述卷积网络编码器包括第一卷积层和池化层，用于将神经体编码转换至隐层空间，以获取对神经体编码的抽象表达；所述卷积网络解码器包括第二卷积层、升采样层和反卷积层用于将神经体编码的抽象表达映射至图像空间，以生成在某一视角下的图像像素颜色值和密度值；

S401，通过所述第一卷积层对所述神经体编码进行卷积处理，得到与所述神经体编码对应的编码卷积特征。

可理解地，编码卷积特征为对神经体编码进行卷积处理得到的。

具体地，在得到神经辐射场模型和位置信息之后，对神经体编码进行卷积处理，先采用n*n的卷积核，输出通道数为m的卷积矩阵对神经体编码进行第一次卷积处理，得到第一次卷积结果。并通过BN层对第一卷积结果进行归一化处理，以及通过ReLU非线性函数对第一卷积结果进行激活处理，即可得到第一卷积特征。再通过3*3的卷积核，输出通道数为64的卷积矩阵对第一卷积特征进行第二次卷积处理，得到第二卷积结果。并通过BN层对第二卷积结果进行归一化处理，以及通过ReLU非线性函数对第二卷积结果进行激活处理，即可得到编码卷积特征。将得到两个编码卷积特征一个用于池化处理，一个用于跳跃传输与上池化特征连接。示例性地，神经体编码的灰度图为572*572*1，采用3*3*64的卷积矩阵对神经体编码进行第一次卷积处理，得到570*570*64的卷积结果。采用3*3*64的卷积矩阵对卷积结果进行第二次卷积处理，得到568*568*64的编码卷积特征。

S402，通过所述池化层对所述编码卷积特征进行下池化处理，得到下池化特征。

S403，通过所述第二卷积层对所述下池化特征进行卷积处理，得到编码网络特征。

可理解地，下池化特征为对编码卷积特征进行下池化处理得到的。编码网络特征为对下池化特征进行卷积处理得到的。

具体地，对编码卷积特征进行最大值池化处理，即采用2*2的池化矩阵对编码卷积特征进行池化处理，也即将每个池化矩阵中的最大值确定为池化结果，即可得到下池化特征，如通过2*2的池化矩阵对568*568*64的编码卷积特征进行池化处理，即可得到248*248*64的下池化特征。如此通过上述方式经过至少一次重复处理，也即(3*3卷积+2*2池化)*N次(N可以为1、2、3等)，在每一次池化之后的第一个3*3卷积操作，3*3卷积核数量成倍增加。进一步地，达到最底层时，通过第二卷积层对下池化特征进行卷积处理，下池化特征变为32*32*512大小，然后进行2次的3*3*1024的卷积操作，最后变化为28*28*1024的编码网络特征。如此，通过上述方式得到神经体编码中的所有编码网络特征。

S404，通过所述升采样层对所述编码网络特征进行上池化处理，得到上池化特征。

S405，通过所述反卷积层对所述上池化特征进行反卷积处理，得到神经体编码特征。

可理解地，上池化特征为对编码网络特征进行上池化处理得到的。神经体编码特征为对上池化特征进行反卷积处理得到的。

具体地，在得到所有编码网络特征之后，通过升采样层分别对所有编码网络特征进行上池化处理，即将编码网络特征恢复到原来的维度。也即即采用h*h的池化矩阵对编码网络特征进行池化处理，将每个池化矩阵中的最大值作为池化结果，从而对编码网络特征进行维度恢复。也即采用2*2的池化矩阵对28*28*1024的编码网络特征进行池化处理，得到56*56*512的上池化特征。

进一步地，将通过跳跃传输的最后一层编码卷积特征和第一次上池化特征进行拼接，得到56*56*1024的拼接特征。对该拼接特征进行反卷积处理，也即先采用3*3*512的卷积矩阵对拼接特征进行第一次卷积处理，得到54*54*512的第一反卷积结果。并通过BN层对第一反卷积结果进行归一化处理，以及通过ReLU函数对第一反卷积结果进行激活处理，即可得到第一反卷积特征。再采用3*3*512的卷积矩阵对第一反卷积矩阵进行第二次卷积处理，得到52*52*256的第二反卷积结果。并通过BN层对第二反卷积结果进行归一化处理，以及通过ReLU函数对第二转置卷积结果进行激活处理，即可神经体编码特征。

如此，通过上述方式采用相同的卷积核3*3，不同的输出通道数的卷积矩阵和相同的卷积核2*2的池化矩阵经过至少一次重复处理，也即(3*3卷积+2*2池化)*N次(N可以为1、2、3等)，在每一次上池化之后将通过跳跃传输的编码卷积特征与上池化特征进行拼接，再通过两次卷积核为3*3的卷积操作，3*3卷积核数量成倍减少。到达最后一层后经过两次反卷积处理，得到388*388*54的图像，并将该图像确定为神经体编码特征。

S406，通过所述注意力层对所述位置信息、所述神经体编码特征和所述音频特征进行神经渲染，得到目标视频。

具体地，注意力层对位置信息、神经体编码特征和音频特征进行神经渲染，即采用公式F_θ：(a，d，x)→(c，σ)(a为音频特征，d为视角方向，x为在三维坐标中的位置信息)对每帧神经体编码特征进行渲染，也即根据位置信息对每帧神经体编码特征和音频特征进行融合，得到视频图像，使得每帧神经体编码特征可以表达出该音频特征。再通过(r代表当前相机视角Π下的采样射线方向，σ是表征该隐式函数的神经网络参数，a是当前时刻的语音特征编码，C和σ_θ分别表示在当前视线方向射线上的颜色与密度值，r(t)和d则表示随射线方向r连续采样空间位置点，T(t)表示从相机起点t_n至当前位置t_f的连续积分，/>)对视频图像进行神经渲染，从而得到每帧渲染视频图像。如此通过该方法对每帧神经体编码特征和音频特征进行融合并渲染，得到所有渲染视频图像，再按照时间顺序对渲染视频图像进行拼接，从而得到目标视频。

本发明实施例通过对神经体编码进行卷积池化处理，从而实现了对编码网络特征的获取。再通过将编码卷积特征和上池化特征进行拼接反卷积处理，从而实现了对神经体编码特征的获取。通过注意力层对位置信息、神经体编码特征和音频特征进行神经渲染并拼接，从而实现了对目标视频的获取，提高了合成视频中的图像质量和清晰度，进而提升了音画同步度。

在一实施例中，步骤S40中，也即获取神经辐射场模型，包括：

S501，获取预设训练视频，所述预设训练视频包括至少一个训练视频图像，所述训练视频图像包括图像数据和与所述图像数据同步的音频数据。

可理解地，预设训练视频为提前设置用于训练模型的多个说话人的视频。训练视频图像为预设训练视频中的说话人的图像。训练视频图像包括图像数据和与所述图像数据同步的音频数据。预设训练视频可以通过爬虫技术从不同的数据库中采集得到，亦或者从不同的网站中采集得到，也可以由用户从客户端发送到服务器中的。

S502，获取预设训练模型，通过所述预设训练模型对所述图像数据和所述音频数据进行预测处理，得到渲染图像。

可理解地，预设训练模型为提前设置用于对预设训练视频进行预测的模型，该模型是初始的神经辐射场模型。渲染图像为通过预设训练模型对预设训练视频中各个训练视频图像进行射线方向和位置调整后得到的。

具体地，将预设训练视频输入到预设训练模型中，预设训练模型对预设训练视频中的训练视频图像进行分割，也即将预设训练视频中的多个训练视频图像划分为单个的训练视频图像，每个训练视频图像均包括图像数据和与图像数据同步的音频数据。对图像数据和音频数据以固定的时段进行分帧处理，得到至少一个分帧单元。对每个分帧单元中的图像数据进行下采样处理，得到下采样特征。再对下采样特征进行维度恢复，也即对下采样特征进行上采样处理，得到图像数据的上采样特征。注意力层根据视角方向和视角方向在三维坐标系下的位置对上采样特征进行预测，得到预测图像。再根据分帧单元对应的音频数据和预测图像进行音画融合，得到渲染图像。再将所有渲染图像按照分帧单元的顺序进行拼接，得到渲染视频。

S503，根据同一所述训练视频图像对应的所述渲染图像和所述图像数据，确定所述训练视频图像的预测损失值。

可理解地，预测损失值为对历史特征进行预测的过程中生成的，用于表征历史目标值和评分预测值之间的差值。

具体地，在得到渲染图像之后，将同一训练视频图像对应的所有渲染图像按照预设训练视频中训练视频图像的顺序进行排列，进而将训练视频图像关联的图像数据，与序列相同的训练视频图像的渲染图像进行比较，即通过预设损失函数对渲染图像和图像数据之间的损失进行计算，得到损失值；也即按照训练视频图像排序，将位于第一的训练视频图像对应的图像数据，与位于第一的训练视频图像对应的渲染图像进行比较，通过损失函数确定图像数据与渲染图像之间的损失值；进而将位于第二的训练视频图像对应的图像数据，与位于第二的训练视频图像对应的渲染图像进行比较，直至所有与训练视频图像对应的渲染图像与图像数据均比较完成并相加，即可确定预设训练模型的预测损失值。

S504，在所述预测损失值未达到预设的收敛条件时，迭代更新所述预设训练模型中的初始参数，直至所述预测损失值达到所述收敛条件时，将收敛之后的所述预设训练模型记录为神经辐射场模型。

可理解地，该收敛条件可以为预测损失值小于设定阈值的条件，也即在预测损失值小于设定阈值时，停止训练；收敛条件还可以为预测损失值经过50次计算后值很小且不会下降时，停止训练。

具体地，确定预设训练模型的预测损失值之后，在预测损失值未达到预设的收敛条件时，根据该预测损失值调整预设训练模型的初始参数，并将所有图像数据和音频数据重新输入至调整初始参数后的预设训练模型中，以在训练视频图像的预测损失值达到预设的收敛条件时，选取预设训练视频中其它的训练视频图像，并执行上述步骤S501至S503，并得到与调整初始参数的预设训练模型相对应的预测损失值，并在该预测损失值未达到预设的收敛条件时，根据该预测损失值再次调整预设训练模型的初始参数，使得再次调整初始参数的预设训练模型的预测损失值达到预设的收敛条件。

如此，在通过训练视频图像对预设训练模型进行训练之后，使得预设训练模型输出的结果可以不断向准确地结果靠拢，让预测准确率越来越高，直至所有训练视频图像的预测损失值均达到预设的收敛条件时，将收敛之后的预设训练模型记录为神经辐射场模型。

本发明实施例通过大量的预设训练视频对预设训练模型进行训练，并通过预设损失函数确定渲染图像和图像数据之间的预测损失值。根据预测损失值对预设训练模型的初始参数进行调整，直至模型收敛，从而实现了对神经辐射场模型的获取，进而提高了神经辐射场模型预测的准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种视频合成装置，该视频合成装置与上述实施例中视频合成方法一一对应。如图5所示，该视频合成装置包括音频特征模块11、特征提取模块12、神经体构建模块13和视频输出模块14。各功能模块详细说明如下：

音频特征模块11，用于获取语音数据，根据预设深度语音模型对所述语音数据进行音频特征提取，得到音频特征；

特征提取模块12，用于获取参考图像，通过预设三维卷积网络对所述参考图像进行图像特征提取，得到三维图像特征；

神经体构建模块13，用于通过所述三维图像特征构建与所述参考图像对应的神经体编码；

视频输出模块14，用于获取神经辐射场模型和位置信息，将所述位置信息、所述神经体编码和所述音频特征输入至所述神经辐射场模型中，输出目标视频；所述位置信息为目标视频的视角位置。

在一实施例中，所述音频特征模块11包括：

卷积网络层单元，用于通过所述卷积网络层对所述语音数据进行卷积处理，得到卷积特征；

循环网络层单元，用于通过所述循环网络层对所述卷积特征进行时序卷积，得到循环卷积特征；

前瞻卷积层单元，用于将所述循环卷积特征输入至所述前瞻卷积层中，确定与所述循环卷积特征对应的特征权重；

全连接层单元，用于所述全连接层根据所述特征权重对所述循环卷积特征进行预测，得到所述音频特征。

在一实施例中，所述特征提取模块12包括：

三维卷积单元，用于通过所述三维卷积层对所述参考图像进行卷积处理，得到三维卷积特征；

三维池化单元，用于通过所述三维池化层对所述三维卷积特征进行池化处理，得到与所述参考图像对应的三维图像特征。

在一实施例中，所述神经体构建模块13包括：

标签预测单元，用于将所述三维图像特征输入至预设标签模型中，通过所述预设标签模型对所述三维图像特征进行标签预测，得到与各三维图像特征对应的语义标签；

特征融合单元，用于根据所有所述语义标签对所有所述三维图像特征进行特征融合，得到与所述参考图像对应的神经体编码。

在一实施例中，所述视频输出模块14包括：

第一卷积层单元，用于通过所述第一卷积层对所述神经体编码进行卷积处理，得到与所述神经体编码对应的编码卷积特征；

池化层单元，用于通过所述池化层对所述编码卷积特征进行下池化处理，得到下池化特征；

第二卷积层单元，用于通过所述第二卷积层对所述下池化特征进行卷积处理，得到编码网络特征；

升采样层单元，用于通过所述升采样层对所述编码网络特征进行上池化处理，得到上池化特征；

反卷积层单元，用于通过所述反卷积层对所述上池化特征进行反卷积处理，得到神经体编码特征；

神经渲染单元，用于通过所述注意力层对所述位置信息、所述神经体编码特征和所述音频特征进行神经渲染，得到目标视频。

在一实施例中，所述视频输出模块14还包括：

数据获取单元，用于获取预设训练视频，所述预设训练视频包括至少一个训练视频图像，所述训练视频图像包括图像数据和与所述图像数据同步的音频数据；

模型预测单元，用于获取预设训练模型，通过所述预设训练模型对所述图像数据和所述音频数据进行预测处理，得到渲染图像；

预测损失值单元，用于根据同一所述训练视频图像对应的所述渲染图像和所述图像数据，确定所述训练视频图像的预测损失值；

模型收敛单元，用于在所述预测损失值未达到预设的收敛条件时，迭代更新所述预设训练模型中的初始参数，直至所述预测损失值达到所述收敛条件时，将收敛之后的所述预设训练模型记录为神经辐射场模型。

关于视频合成装置的具体限定可以参见上文中对于视频合成方法的限定，在此不再赘述。上述视频合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中视频合成方法所用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频合成方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中视频合成方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中视频合成方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围内。

Claims

1.一种视频合成方法，其特征在于，包括：

2.如权利要求1所述的视频合成方法，其特征在于，所述预设深度语音模型包括卷积网络层、循环网络层、前瞻卷积层和全连接层；

所述根据预设深度语音模型对所述语音数据进行音频特征提取，得到音频特征，包括：

通过所述卷积网络层对所述语音数据进行卷积处理，得到卷积特征；

通过所述循环网络层对所述卷积特征进行时序卷积，得到循环卷积特征；

将所述循环卷积特征输入至所述前瞻卷积层中，确定与所述循环卷积特征对应的特征权重；

所述全连接层根据所述特征权重对所述循环卷积特征进行预测，得到所述音频特征。

3.如权利要求1所述的视频合成方法，其特征在于，所述预设三维卷积网络包括若干层三维卷积层和若干层三维池化层；

所述通过预设三维卷积网络对所述参考图像进行图像特征提取，得到三维图像特征，包括：

通过所述三维卷积层对所述参考图像进行卷积处理，得到三维卷积特征；

通过所述三维池化层对所述三维卷积特征进行池化处理，得到与所述参考图像对应的三维图像特征。

4.如权利要求1所述的视频合成方法，其特征在于，所述通过所述三维图像特征构建与所述参考图像对应的神经体编码，包括：

将所述三维图像特征输入至预设标签模型中，通过所述预设标签模型对所述三维图像特征进行标签预测，得到与各三维图像特征对应的语义标签；

根据所有所述语义标签对所有所述三维图像特征进行特征融合，得到与所述参考图像对应的神经体编码。

5.如权利要求1所述的视频合成方法，其特征在于，所述神经辐射场模型包括卷积网络编码器、卷积网络解码器和注意力层；所述卷积网络编码器包括第一卷积层和池化层；所述卷积网络解码器包括第二卷积层、升采样层和反卷积层；

所述将所述位置信息、所述神经体编码和所述音频特征输入至所述神经辐射场模型中，输出目标视频；所述位置信息为目标视频的视角位置，包括：

通过所述第一卷积层对所述神经体编码进行卷积处理，得到与所述神经体编码对应的编码卷积特征；

通过所述池化层对所述编码卷积特征进行下池化处理，得到下池化特征；

通过所述第二卷积层对所述下池化特征进行卷积处理，得到编码网络特征；

通过所述升采样层对所述编码网络特征进行上池化处理，得到上池化特征；

通过所述反卷积层对所述上池化特征进行反卷积处理，得到神经体编码特征；

通过所述注意力层对所述位置信息、所述神经体编码特征和所述音频特征进行神经渲染，得到目标视频。

6.如权利要求1所述的视频合成方法，其特征在于，所述获取神经辐射场模型，包括：

获取预设训练视频，所述预设训练视频包括至少一个训练视频图像，所述训练视频图像包括图像数据和与所述图像数据同步的音频数据；

获取预设训练模型，通过所述预设训练模型对所述图像数据和所述音频数据进行预测处理，得到渲染图像；

根据同一所述训练视频图像对应的所述渲染图像和所述图像数据，确定所述训练视频图像的预测损失值；

在所述预测损失值未达到预设的收敛条件时，迭代更新所述预设训练模型中的初始参数，直至所述预测损失值达到所述收敛条件时，将收敛之后的所述预设训练模型记录为神经辐射场模型。

7.一种视频合成装置，其特征在于，包括：

8.如权利要求7所述的视频合成装置，其特征在于，所述预设三维卷积网络包括若干层三维卷积层和若干层三维池化层；

所述特征提取模块，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述视频合成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述视频合成方法。