CN115019824A

CN115019824A - 视频处理方法、装置、计算机设备及可读存储介质

Info

Publication number: CN115019824A
Application number: CN202210583664.XA
Authority: CN
Inventors: 钟怡然; 周金星; 王建元; 张佳一; 孙伟轩
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-09-06

Abstract

本公开提供了一种视频处理方法、装置、计算机设备及可读存储介质，其中，该方法包括：确定待处理视频中的目标视频帧图像、以及与所述目标视频帧图像对应的目标音频信号；对所述目标视频帧图像进行第一编码处理，得到图像特征数据；以及对所述目标音频信号进行第二编码处理，得到音频特征数据；对所述图像特征数据以及所述音频特征数据进行特征融合处理，得到融合特征数据；基于所述融合特征数据进行解码处理，得到所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息。本公开实施例可以提高对待处理视频中发声对象的定位精准度。

Description

视频处理方法、装置、计算机设备及可读存储介质

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种视频处理方法、装置、计算机设备及可读存储介质。

背景技术

视觉信号和音频信号是人类感官中接受的两种极为重要的信号，二者相辅相成可以协助人类感官更好地认知和感受周边事物。例如，当在欣赏一场音乐会时，不仅能够看到演奏者们正在弹奏的各种乐器(即为视觉信号)，同时也能听到乐器发出的声音(即为音频信号)。更为关键的是，当多种乐器声音混合在一起时，人类感官还能够分辨出哪个声音是对应哪个乐器。音频信号和视觉信号从两个方面描述了同一个发声对象，由此可以利用上述特性开展关于视听场景的研究。

现有技术大都聚焦于声源定位问题，即在一个视频中通过音视频信号定位到发声对象，但是只能做到大块区域的粗略定位，对于发声对象的定位精准度较低。

发明内容

本公开实施例至少提供一种视频处理方法、装置、计算机设备及可读存储介质。

第一方面，本公开实施例提供了一种视频处理方法，包括：

确定待处理视频中的目标视频帧图像、以及与所述目标视频帧图像对应的目标音频信号；

对所述目标视频帧图像进行第一编码处理，得到图像特征数据；以及对所述目标音频信号进行第二编码处理，得到音频特征数据；

对所述图像特征数据以及所述音频特征数据进行特征融合处理，得到融合特征数据；

基于所述融合特征数据进行解码处理，得到所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息。

本公开实施例可以基于图像特征数据以及音频特征数据进行编码-解码处理，在像素级得到音频信号对应的发声对象的像素点在目标视频帧图像中的第一位置信息，提高对待处理视频中发声对象的定位精准度。

一种可选的实施方式中，所述确定待处理视频中的目标视频帧图像、以及与所述目标视频帧图像对应的目标音频信号，包括：

获取所述待处理视频、以及与所述待处理视频对应的待处理音频信号，并将所述待处理视频划分为多个待处理子视频；

按照与所述待处理子视频对应的划分方式，将所述待处理音频信号划分为与多个所述待处理子视频分别对应的目标音频信号，以及对多个所述待处理子视频分别进行抽帧处理，得到多个所述待处理子视频分别对应的目标视频帧图像。

这样，可以根据业务需求，获取对应的目标视频帧图像，以及目标音频信号。

一种可选的实施方式中，所述对所述目标视频帧图像进行第一编码处理，得到图像特征数据，包括：

对所述目标视频帧图像进行多级特征提取处理，得到多级特征提取处理的分别对应的中间图像特征数据；

针对多级特征提取中的每级特征提取，对每级特征提取处理对应的中间图像特征数据进行多个采样率的空洞卷积并行采样，得到所述目标视频帧图像对应的图像特征数据。

这样，可以增加特征提取的细粒度。

一种可选的实施方式中，对所述目标音频信号进行第二编码处理，得到音频特征数据，包括：

将所述目标音频信号转换为频谱数据；

对所述频谱数据进行特征提取处理，得到所述音频特征数据。

一种可选的实施方式中，所述对所述图像特征数据以及所述音频特征数据进行特征融合处理，得到融合特征数据，包括：

对所述音频特征数据进行尺寸转化处理，得到尺寸与所述图像特征数据匹配的转化音频特征数据；

确定所述转换音频特征数据、以及所述图像特征数据之间的相似度；

基于所述相似度，对所述图像特征数据进行调整处理，得到所述融合特征数据。

这样，可以基于音频特征数据对图像特征数据进行融合处理，给予发声对象更多注意力，便于识别出发声对象。

一种可选的实施方式中，所述对所述音频特征数据进行尺寸转化处理，得到尺寸与所述图像特征数据匹配的转化音频特征数据，包括：

基于所述图像特征数据的数据通道数，对所述音频特征数据进行线性变换处理，得到数据通道数与所述图像特征数据一致的中间音频特征数据；

基于所述图像特征数据的高度、以及宽度，对所述中间音频特征数据进行空间上的重复处理，得到所述转化音频特征数据。

这样，将音频特征数据的格式进行转化，便于进行融合过程。

一种可选的实施方式中，所述确定所述转换音频特征数据、以及所述图像特征数据之间的相似度，包括：

利用第一卷积核对所述图像特征数据进行卷积处理，得到第一卷积图像特征数据；

以及，利用第二卷积核对所述转换音频特征数据进行卷积处理，得到第一卷积转换音频特征数据；

分别对所述第一卷积图像特征数据和所述第一卷积转换音频特征数据进行降维处理，得到第二卷积图像特征数据以及第二卷积转换音频特征数据；

对所述第二卷积图像特征数据以及所述第二卷积转换音频特征数据进行点乘处理，得到所述相似度。

一种可选的实施方式中，所述基于所述相似度，对所述图像特征数据进行调整处理，得到所述融合特征数据，包括：

利用第三卷积核对所述图像特征数据进行卷积处理，得到第三卷积图像特征数据，并对所述第三卷积图像特征数据进行降维处理，得到第四卷积图像特征数据；

将所述第四卷积图像特征数据和所述相似度进行点乘处理后，得到与所述图像特征数据对应的调整特征数据；

将所述调整特征数据和所述图像特征数据进行融合，得到所述融合特征数据。

一种可选的实施方式中，所述将所述调整特征数据和所述图像特征数据进行融合，得到所述融合特征数据，包括：

对所述调整特征数据进行升维处理，得到升维后的调整特征数据；其中，所述升维后的调整特征数据的数据维度、与所述图像特征数据的数据维度相同；

利用第四卷积核对所述升维后的调整特征数据进行卷积处理，得到目标调整特征数据；

将所述目标调整特征数据和所述图像特征数据进行叠加，得到所述融合特征数据。

一种可选的实施方式中，多级特征提取处理包括：末级特征提取处理、以及非末级特征提取处理；所述融合特征数据包括：与所述末级特征提取处理对应的第一融合特征数据、以及与所述非末级特征提取处理对应的第二融合特征数据；

所述基于所述融合特征数据进行解码处理，得到所述目标视频帧图像中与所述音频信号对应的发声对象在所述目标视频帧图像中的第一位置信息，包括：

对所述末级特征提取处理对应的第一融合特征数据进行上采样，得到对所述末级特征提取处理对应的解码特征数据；以及

对所述非末级特征提取处理对应的第二融合特征数据、以及与所述非末级特征提取对应的下一级特征去处理对应的解码特征数据进行融合，得到所述非末级特征提取处理对应的融合特征数据，并所述非末级特征提取处理对应的融合特征数据进行上采样，得到所述非末级特征提取处理对应的解码特征数据；

基于所述非末级特征提取处理中的第一级特征提取处理对应的解码特征数据，得到所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息。

这样，通过解码过程，可以输出发声对象的像素点在所述目标视频帧图像中的第一位置信息，提高对待处理视频中发声对象的定位精准度。

一种可选的实施方式中，还包括：

基于所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息，生成包括所述发声对象对应掩码的掩码视频帧图像。

一种可选的实施方式中，所述视频处理方法应用于预先训练好的目标神经网络中，所述目标神经网络包括：编码器网络、以及解码器网络；

所述编码器网络用于对所述目标视频帧图像进行第一编码处理，得到图像特征数据；以及对所述目标音频信号进行第二编码处理，得到音频特征数据；对所述图像特征数据以及所述音频特征数据进行特征融合处理，得到融合特征数据；

所述解码器网络用于基于所述融合特征数据进行解码处理，得到所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息。

这样，可以训练得到目标神经网络。

一种可选的实施方式中，还包括：

获取样本数据；所述样本数据包括对所述神经网络进行半监督训练的第一样本数据、和/或对所述神经网络进行全监督训练的第二样本数据；

利用所述样本数据对待训练神经网络进行训练，得到所述目标神经网络。

这样，可以基于样本数据对神经网络进行训练，得到输出精度较高的神经网络模型。

一种可选的实施方式中，所述样本数据包括所述第一样本数据，所述第一样本数据包括：多帧第一样本图像、与各帧第一样本图像分别对应的第一样本音频信号、以及与首帧第一样本图像对应的标注信息；所述标注信息用于指示单一发声的目标对象的像素点在所述第一样本图像中的第一位置信息；

所述获取样本数据包括：

获取第一原始样本视频、以及与所述第一原始样本视频对应的第一原始样本音频信号，并将所述第一原始样本视频划分为多个第一样本子视频；

按照与所述第一样本子视频对应的划分方式，将所述第一原始样本音频信号划分为与多个所述第一样本子视频分别对应的第一样本音频信号，以及对多个所述第一样本子视频分别进行抽帧处理，得到多个所述第一样本子视频分别对应的第一样本图像；

对时间戳最早的第一样本图像进行标注，得到标注信息。

一种可选的实施方式中，所述样本数据包括所述第二样本数据，所述第二样本数据包括：多帧第二样本图像、与各帧第二样本图像分别对应的第二样本音频信号、以及多帧所述第二样本图像分别对应的标注信息；所述标注信息用于指示多个发声的目标对象的像素点在各帧所述第二样本图像中的第一位置信息；

所述获取样本数据包括：

获取第二原始样本视频、以及与所述第二原始样本视频对应的第二原始样本音频信号，并将所述第二原始样本视频划分为多个第二样本子视频；

按照与所述第二样本子视频对应的划分方式，将所述第二原始样本音频信号划分为与多个所述第二样本子视频分别对应的第二样本音频信号，以及对多个所述样本子视频分别进行抽帧处理，得到多个所述第二样本子视频分别对应的第二样本图像；

对多帧第二样本图像分别进行标注，得到多帧所述第二样本图像分别对应的标注信息。

一种可选的实施方式中，所述待训练神经网络包括：待训练编码器、以及待训练解码器；

所述利用所述样本数据对待训练神经网络进行训练，得到所述目标神经网络，包括：

利用所述待训练编码器对所述样本数据进行编码处理，得到样本图像特征数据、以及样本音频特征数据，并对所述样本图像特征数据和所述样本音频特征数据进行特征融合处理，得到样本融合特征数据；

利用所述待训练解码器对所述样本融合特征数据作解码处理，得到所述样本数据中与样本音频数据对应发声对象的像素点在所述样本视频图像中的第二位置信息；

基于所述样本融合特征数据、所述第二位置信息、以及所述样本音频特征数据，确定模型损失；

基于所述模型损失对所述待训练编码器和所述待训练解码器进行参数调整，得到目标神经网络。

第二方面，本公开实施例还提供一种视频处理装置，包括：

确定模块，用于确定待处理视频中的目标视频帧图像、以及与所述目标视频帧图像对应的目标音频信号；

编码模块，用于对所述目标视频帧图像进行第一编码处理，得到图像特征数据；以及对所述目标音频信号进行第二编码处理，得到音频特征数据；

融合模块，用于对所述图像特征数据以及所述音频特征数据进行特征融合处理，得到融合特征数据；

解码模块，用于基于所述融合特征数据进行解码处理，得到所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息。

一种可选的实施方式中，所述确定模块具体用于：

一种可选的实施方式中，所述编码模块具体用于：

一种可选的实施方式中，所述编码模块还用于：

将所述目标音频信号转换为频谱数据；

一种可选的实施方式中，所述融合模块包括：

转化单元，用于对所述音频特征数据进行尺寸转化处理，得到尺寸与所述图像特征数据匹配的转化音频特征数据；

确定单元，用于确定所述转换音频特征数据、以及所述图像特征数据之间的相似度；

调整单元，用于基于所述相似度，对所述图像特征数据进行调整处理，得到所述融合特征数据。

一种可选的实施方式中，所述转化单元具体用于：

一种可选的实施方式中，所述确定单元具体用于：

一种可选的实施方式中，所述调整单元具体用于：

一种可选的实施方式中，所述调整单元还用于：

所述解码模块具体用于：

一种可选的实施方式中，还包括：

生成模块，用于基于所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息，生成包括所述发声对象对应掩码的掩码视频帧图像。

一种可选的实施方式中，还包括：

获取模块，用于获取样本数据；所述样本数据包括对所述神经网络进行半监督训练的第一样本数据、和/或对所述神经网络进行全监督训练的第二样本数据；

训练模块，用于利用所述样本数据对待训练神经网络进行训练，得到所述目标神经网络。

所述获取模块具体用于：

对时间戳最早的第一样本图像进行标注，得到标注信息。

所述获取模块还用于：

所述训练模块具体用于：

第三方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

关于上述视频处理装置、计算机设备、及计算机可读存储介质的效果描述参见上述视频处理方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种视频处理方法的流程图；

图2示出了本公开实施例所提供的视频处理网络结构示意图；

图3示出了本公开实施例所提供的视频处理方法中，融合过程的示意图；

图4示出了本公开实施例所提供的另一种视频处理方法的流程图；

图5示出了本公开实施例所提供的一种视频处理装置的示意图；

图6示出了本公开实施例所提供的视频处理装置中，融合模块的具体示意图；

图7示出了本公开实施例所提供的另一种视频处理装置的示意图之一；

图8示出了本公开实施例所提供的另一种视频处理装置的示意图之二；

图9示出了本公开实施例所提供的一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

经研究发现，人类感官不仅能根据发声对象的视觉外观识别物体，还能根据其发出的声音对其进行分类。例如，当听到狗叫声或警笛声时，可以分别知道这声音来自狗或救护车，由此可以证实视听信息是相辅相成的而存在的。迄今为止，研究人员已经从一些简化的视听情景着手研究声源定位的问题。一些研究人员研究了高级视频编码(AdvancedVideo Coding，AVC)的方法来研究一段视频中视听信号的对应关系，其目的是通过接收到的音频信号和视觉图像，从而确定两者是否描述了相同的场景，并进行后续处理，即基于音频信号和视觉图像通常同时发生的现象，研究其对应的视听场景。其他研究人员也研究了声源定位的方法，其可以对音频信号和视频图像进行分类，并基于分类后的音频信号和视频图像分析其对应的视听场景。

上述的针对声源定位的处理方法，大都聚焦于声源定位问题，即在一个视频中通过音视频信号定位到发声对象，但是只能做到大块区域的粗略定位，对于发声对象的定位精准度较低，导致这些方法所对应的应用场景都被限制在每一组帧或者是一小段时间的处理层级上，所能解决的问题有限。

基于上述研究，本公开提供了一种视频处理方法，通过获取待处理视频中的目标视频帧图像以及目标音频信号，并将目标视频帧图像以及目标音频信号进行编码处理，得到对应的图像特征数据以及音频特征数据，并对图像特征数据以及音频特征数据进行特征融合处理，得到融合特征数据，对融合特征数据进行解码处理，确定出目标视频帧图像中与音频信号对应的发声对象的像素点在目标视频帧图像中的第一位置信息，该第一位置信息是发声目标在图像中的像素级位置，从而提高对待处理视频中发声对象的定位精准度。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种视频处理方法进行详细介绍，本公开实施例所提供的视频处理方法的执行主体一般为具有一定计算能力的计算机设备等。在一些可能的实现方式中，该视频处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面对本公开实施例提供的视频处理方法加以说明。

参见图1所示，为本公开实施例提供的一种视频处理方法的流程图，所述方法包括步骤S101～S104，其中：

S101：确定待处理视频中的目标视频帧图像、以及与所述目标视频帧图像对应的目标音频信号。

其中，所述待处理视频中包括一个或多个发声对象，所述发声对象可以为人、动物、物体等。当所述待处理视频中存在多个发声对象时，多个发声对象可重叠或不重叠。目标视频帧图像为从所述待处理视频中选取的至少一帧视频帧图像。所述目标音频信号为从所述待处理视频中截取的、与目标视频帧图像对应的音频信号。

在一可能的实施例中，通过下述方法确定待处理视频中的目标视频帧图像、以及与所述目标视频帧图像对应的目标音频信号：

具体的，可以根据当前业务所要求的视频处理细粒度，确定划分待处理视频，以及划分多个目标音频信号与多个目标视频帧图像的具体方法。

示例性的，根据当前业务所要求的视频处理细粒度，例如针对需要处理地较为精细的待处理视频时，可以确定每一秒钟对待处理视频进行一次划分，获取多个时长为一秒钟的子视频，之后再对每个子视频进行抽帧处理，即按照预先设定的视频帧图像提取位置，从每个所述待处理子视频的多帧视频帧图像中，提取每个所述待处理子视频对应的目标视频帧图像，例如抽取每个子视频的第i帧为目标视频帧图像，同时获取到每个子视频对应的目标音频信号。其中，该i的取值为1～N，N为子视频中视频帧图像的总数量。

在本公开实施例中，当业务所要求的视频处理细粒度较高时，可以设置较短的划分时间间隔，当业务所要求的视频处理细粒度较低时，可以设置较长的划分时间间隔。

在另一可能的实施例中，还可以间隔若干帧划分出多个待处理子视频，与上述间隔固定时间间隔的方法类似，在此不再赘述。

承接于上述S101，当确定出待处理视频中的目标视频帧图像、以及与所述目标视频帧图像对应的目标音频信号之后，所述方法还包括：

S102：对所述目标视频帧图像进行第一编码处理，得到图像特征数据；以及对所述目标音频信号进行第二编码处理，得到音频特征数据。

具体的，基于所述目标视频帧图像的图像信号的特征属性，对其进行编码处理，得到其对应的图像特征数据，以及基于目标音频信号的音频信号的特征属性，对其进行编码处理，得到对应的音频特征数据。

其中，所述第一编码处理为视频编码处理(visual encoder)，用以提取目标视频帧图像的视频帧特征，第二编码处理为音频编码处理(audio encoder)，用以提取目标音频信号的音频特征。

在本公开实施例中，通过下述方法对所述目标视频帧图像进行第一编码处理，得到图像特征数据：

参照图2所示，为本公开实施例所提供的视频处理网络结构示意图。以图2所示的处理过程为例，是对目标视频帧图像进行4级特征提取处理，其对应的采样率相同，且编码过程中每一级的特征尺寸逐步缩小。这样一来可以在编码中逐步缩小特征图尺寸，能够减少一定的计算量，并且由于这是一个多尺度编码的过程，神经网络的感受野是一个从细粒度到粗粒度的过程，有助于识别不同大小的发声对象。

示例性的，在本公开实施例中，可以利用空洞空间卷积池化金字塔网络(atrousspatial pyramid pooling，ASPP)对每级特征提取处理对应的中间图像特征数据进行多个采样率的空洞卷积并行采样。

具体的，针对每一级特征提取，基于相同的采样率，对每一级对应输入的图像特征数据进行空洞卷积并行采样，得到目标视频帧图像对应的每一级输出的图像特征数据

示例性的，如图2所示，针对第一级特征提取，将目标视频帧图像作为输入数据，在进行第一级特征提取，输出特征尺寸为

的特征数据V₁，之后，将特征尺寸为

的特征数据V₁输入至下一级特征提取中，输出特征尺寸为

的特征数据V₂，之后按照上述方法进行逐级特征提取，直至提取到最后一级的特征数据，并输出每一级对应输出的特征数据。

其中，T、H、W分别表征每个数据通道对应的特征尺寸；C为常数。

在本公开实施例中，通过下属方法针对于目标音频信号，对所述目标音频信号进行第二编码处理，得到音频特征数据：

将所述目标音频信号转换为频谱数据；

示例性的，可以与傅里叶变换或短时傅里叶变换等信号处理方法将目标音频信号转换为频谱数据。之后，对得到的频谱数据进行编码处理，得到所述音频特征数据A。

示例性的，还可以对目标音频信号进行降噪等处理之后，再将所述目标音频信号转换为频谱数据，降低后续处理过程可能存在的误差等。

在另一可能的实施例中，目标视频特征数据的编码过程中的visual encoder还可以采用卷积神经网络，也可以采用注意力机制神经网络(Transformer)等，在此不再赘述。

承接于上述S102，在得到图像特征数据以及音频特征数据之后，所述方法还包括：

S103：对所述图像特征数据以及所述音频特征数据进行特征融合处理，得到融合特征数据。

其中，所述融合特征数据为基于音频特征数据与所述图像特征数据的关联度，对所述图像特征数据进行处理得到的特征数据。

在本公开实施例中，通过下述步骤一一至步骤一三对所述图像特征数据以及所述音频特征数据进行特征融合处理，得到融合特征数据：

步骤一一：对所述音频特征数据进行尺寸转化处理，得到尺寸与所述图像特征数据匹配的转化音频特征数据；

步骤一二：确定所述转换音频特征数据、以及所述图像特征数据之间的相似度；

步骤一三：基于所述相似度，对所述图像特征数据进行调整处理，得到所述融合特征数据。

参照图3所示，图3为本公开实施例所提供的视频处理方法中，融合过程的示意图。

在步骤一一中，对所述音频特征数据进行尺寸转化处理，得到尺寸与所述图像特征数据匹配的转化音频特征数据，包括以下内容：

示例性的，以图3所示的融合过程为例，当前图像特征数据的特征尺寸为T×h_i×w_i×C，其对应的数据通道数为3，由此将音频特征数据进行尺寸转化处理，将音频特征数据A的特征尺寸由T×d经过线性层转化之后，转化为特征尺寸为T×C的中间音频特征数据，之后，基于图像特征数据的高度h_i、以及宽度w_i，对中间音频特征数据进行空间上的重复处理，得到特征尺寸为T×h_i×w_i×C的转化音频特征数据。

在步骤一二中，确定所述转换音频特征数据、以及所述图像特征数据之间的相似度，包括以下内容：

示例性的，如图2所示，利用第一卷积核θ：1×1×1，对图像特征数据进行卷积处理，得到特征尺寸为T×h_i×w_i×C第一卷积图像特征数据，同时，利用第二卷积核φ：1×1×1，对图像特征数据进行卷积处理，得到特征尺寸为T×h_i×w_i×C的第一卷积转换音频特征数据。之后，分别对第一卷积图像特征数据和第一卷积转换音频特征数据进行降维处理，得到特征尺寸为Th_iw_i×C的第二卷积图像特征数据以及特征尺寸为C×Th_iw_i的第二卷积转换音频特征数据。最后，对第二卷积图像特征数据以及第二卷积转换音频特征数据进行点乘处理，得到特征尺寸为Th_iw_i×Th_iw_i相似度，用于表征转换音频特征数据、以及图像特征数据之间的关联度信息。

步骤一三：基于所述相似度，对所述图像特征数据进行调整处理，得到所述融合特征数据，包括以下内容：

具体的，通过以下步骤将所述调整特征数据和所述图像特征数据进行融合，得到所述融合特征数据：

示例性的，在得到所述转换音频特征数据、以及所述图像特征数据之间的相似度之后，利用第三卷积核g：1×1×1对图像特征数据进行卷积处理，得到特征尺寸为T×h_i×w_i×C的第三卷积图像特征数据，在对其进行降维处理之后，得到特征尺寸为Th_iw_i×C的第四卷积图像特征数据。之后，将第四卷积图像特征数据和相似度进行点乘处理后，得到与所述图像特征数据对应的特征尺寸为Th_iw_i×C的调整特征数据。在得到调整特征数据之后，基于图像特征数据的数据维度，对所述调整特征数据进行升维处理，得到升维后的调整特征数据，其特征尺寸为T×h_i×w_i×C，再利用第四卷积核1×1×1对所述升维后的调整特征数据进行卷积处理，得到目标调整特征数据，最后，将目标调整特征数据和图像特征数据进行叠加，即通过对图像特征数据和目标调整特征数据进行矩阵乘法后，完成对针对图像特征数据的融合过程，得到所述融合特征数据Z_i，其特征尺寸为T×h_i×w_i×C。

在本公开实施例中，针对特征融合处理的过程：

(1)：首先，将音频特征数据进行尺寸转化处理，将音频特征数据A的特征尺寸由T×d进过线性层转化之后，转化为特征尺寸为T×C的中间音频特征数据，基于图像特征数据的高度h_i、以及宽度w_i，对中间音频特征数据进行空间上的重复处理，得到特征尺寸为T×h_i×w_i×C的转化音频特征数据。

(2)：其次，利用第一卷积核θ：1×1×1，对图像特征数据进行卷积处理，得到特征尺寸为T×h_i×w_i×C第一卷积图像特征数据，同时，利用第二卷积核φ：1×1×1，对图像特征数据进行卷积处理，得到特征尺寸为T×h_i×w_i×C的第一卷积转换音频特征数据。分别对第一卷积图像特征数据和第一卷积转换音频特征数据进行降维处理，得到特征尺寸为Th_iw_i×C的第二卷积图像特征数据以及特征尺寸为C×Th_iw_i的第二卷积转换音频特征数据，并对第二卷积图像特征数据以及第二卷积转换音频特征数据进行点乘处理，得到特征尺寸为Th_iw_i×Th_iw_i相似度。最后，利用第三卷积核g：1×1×1对图像特征数据进行卷积处理，得到特征尺寸为T×h_i×w_i×C的第三卷积图像特征数据，在对其进行降维处理之后，得到特征尺寸为Th_iw_i×C的第四卷积图像特征数据。

(3)：再次，将第四卷积图像特征数据和相似度进行点乘处理后，得到与所述图像特征数据对应的特征尺寸为Th_iw_i×C的调整特征数据。在得到调整特征数据之后，基于图像特征数据的数据维度，对所述调整特征数据进行升维处理，得到升维后的调整特征数据，其特征尺寸为T×h_i×w_i×C，再利用第四卷积核1×1×1对所述升维后的调整特征数据进行卷积处理，得到目标调整特征数据，

(4)：最后，将目标调整特征数据和图像特征数据进行叠加，即通过对图像特征数据和目标调整特征数据进行矩阵乘法后，完成对针对图像特征数据的融合过程，得到所述融合特征数据Z_i，其特征尺寸为T×h_i×w_i×C。提高对所述图像特征数据以及音频特征数据进行特征融合处理，得到融合特征数据，可以同时对目标视频帧图像数据以及目标音频数据两个模态信息进行编码，解决了多模态信号的相关问题。

承接于上述S103，在得到融合特征数据之后，所述方法包括：

其中，音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息即为目标视频帧图像中发声对象对应的多个像素点的位置信息。

具体的，根据本公开实施例中步骤S102至步骤S103的描述，可知多级特征提取处理包括：末级特征提取处理、以及非末级特征提取处理；所述融合特征数据包括：与所述末级特征提取处理对应的第一融合特征数据、以及与所述非末级特征提取处理对应的第二融合特征数据。

在本公开实施例中，基于上述描述信息，可以通过下述步骤基于所述融合特征数据进行解码处理，得到所述目标视频帧图像中与所述音频信号对应的发声对象在所述目标视频帧图像中的第一位置信息：

示例性的，以图2所示的视频处理过程为例，针对末级解码过程，对第一融合特征数据进行上采样，得到特征尺寸为

的解码特征数据P₁，之后将该解码特征数据P₁输入到上一级上采样网络中，在逐级进行上采样之后，输出所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息，即为掩码M，其对应的特征尺寸与目标视频帧图像的特征尺寸相同。该过程中，通过多个级联阶段反向解码，可以输出每个解码阶段对应的、逐渐增大特征尺寸的解码特征数据P。

本公开实施例基于像素级视听定位技术(Audio-Visual Segmentation，AVS)其采用编码器-解码器的网络结构，可以直接输出和输入图像像素大小一致的声源定位掩码。具体的，对于编码过程，可以进行多级特征提取，针对第一级特征提取，将目标视频帧图像作为输入数据，在进行第一级特征提取，输出特征尺寸为

的特征数据V1，之后，将特征尺寸为

的特征数据V1输入至下一级特征提取中，输出特征尺寸为

的特征数据V2，之后按照上述方法进行逐级特征提取，直至提取到最后一级的特征数据，并输出每一级对应输出的视频特征数据，同时，对所述目标音频信号进行第二编码处理，得到音频特征数据。之后，对所述图像特征数据以及所述音频特征数据进行特征融合处理，得到融合特征数据。最后，对融合特征数据进行多级解码过程，针对末级解码过程，对第一融合特征数据进行上采样，得到特征尺寸为

的解码特征数据P₁，之后将该解码特征数据P₁输入到上一级上采样网络中，在逐级进行上采样之后，输出所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息，即为掩码M，其对应的特征尺寸与目标视频帧图像的特征尺寸相同。

在本公开另一可能的实施例中，还包括：

其中，所述掩码视频帧图像即为包括掩码M的视频帧图像，其中，掩码M对应一个或多个发声对象。在图2中，所述掩码视频帧图像即为最终输出的图像。

在本公开另一实施例中，所述视频处理方法应用于预先训练好的目标神经网络中，所述目标神经网络包括：编码器网络、以及解码器网络；

其中，所述编码器网络以及解码器网络的具体操作方式如上述步骤S101～S104所示，在此不再赘述。

参见图4所示，为本公开实施例提供的训练目标神经网络的流程图，所述方法包括步骤S401～S402，其中：

S401：获取样本数据；所述样本数据包括对所述神经网络进行半监督训练的第一样本数据、和/或对所述神经网络进行全监督训练的第二样本数据。

其中，所述样本数据包括第一样本数据以及第二样本数据。其中，全监督和半监督对应的已知标签信息不同，全监督是针对所有帧的样本图像添加对应的标注信息，而半监督只有第一帧的标注信息是已知的。半监督针对相对简单的单声源问题，全监督针对相对复杂的多声源问题。

当所述样本数据包括所述第一样本数据，即对神经网络进行半监督训练的第一样本数据时，所述第一样本数据包括：多帧第一样本图像、与各帧第一样本图像分别对应的第一样本音频信号、以及与首帧第一样本图像对应的标注信息；所述标注信息用于指示单一发声的目标对象的像素点在所述第一样本图像中的第一位置信息。此时，所述获取样本数据包括：获取第一原始样本视频、以及与所述第一原始样本视频对应的第一原始样本音频信号，并将所述第一原始样本视频划分为多个第一样本子视频；按照与所述第一样本子视频对应的划分方式，将所述第一原始样本音频信号划分为与多个所述第一样本子视频分别对应的第一样本音频信号，以及对多个所述第一样本子视频分别进行抽帧处理，得到多个所述第一样本子视频分别对应的第一样本图像；对时间戳最早的第一样本图像进行标注，得到标注信息。

示例性的，当样本图像中只包括单个发声对象时，获取第一原始样本视频，并抽取出对应的第一原始样本音频信号。基于业务需求，将第一原始样本视频划分为多个第一样本子视频，例如每隔一秒划分一第一样本子视频，抽取每个第一样本子视频对应的第一样本音频信号，并针对每个第一样本子视频抽取出一帧第一样本图像，并对第一样本图像添加标注信息，表征单一发声的目标对象的像素点在第一样本图像中的第一位置信息，便于后续基于该第一样本数据进行半监督神经网络训练。

当所述样本数据包括所述第二样本数据，即对神经网络进行全监督训练的第二样本数据时，所述第二样本数据包括：多帧第二样本图像、与各帧第二样本图像分别对应的第二样本音频信号、以及多帧所述第二样本图像分别对应的标注信息；所述标注信息用于指示多个发声的目标对象的像素点在各帧所述第二样本图像中的第一位置信息。此时，所述获取样本数据包括：获取第二原始样本视频、以及与所述第二原始样本视频对应的第二原始样本音频信号，并将所述第二原始样本视频划分为多个第二样本子视频；按照与所述第二样本子视频对应的划分方式，将所述第二原始样本音频信号划分为与多个所述第二样本子视频分别对应的第二样本音频信号，以及对多个所述样本子视频分别进行抽帧处理，得到多个所述第二样本子视频分别对应的第二样本图像；对多帧第二样本图像分别进行标注，得到多帧所述第二样本图像分别对应的标注信息。

示例性的，当样本图像中包括多个发声对象时，获取第二原始样本视频，并抽取出对应的第二原始样本音频信号。基于业务需求，将第二原始样本视频划分为多个第二样本子视频，例如每隔一秒划分一段第二样本子视频，抽取每个第二样本子视频对应的第二样本音频信号，并针对每个第二样本子视频抽取出一帧第二样本图像，并对第二样本图像添加标注信息，表征每个发声的目标对象的像素点在第二样本图像中的第二位置信息，便于后续基于该第二样本数据进行全监督神经网络训练。

在本公开实施例中，第一样本数据以及第二样本数据均包括未经编码-解码处理的、从待处理视频中获取的目标视频帧图像，以及经过编码-解码处理的、包括与音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息的掩码视频帧图像。

承接于上述步骤S401，在获取到样本数据之后，还包括：

S402：利用所述样本数据对待训练神经网络进行训练，得到所述目标神经网络。

其中，所述待训练神经网络包括：待训练编码器、以及待训练解码器。

具体的，通过下属内容利用所述样本数据对待训练神经网络进行训练，得到所述目标神经网络：

在本公开一可能的实施方式中，针对于确定模块损失的方法包括：在对模型进行训练的过程中，基于每一次模型的输出数据以及真实的样本数据，计算每一组数据对应的模型损失数值，并基于该模型损失数值不断调整模型参数，直至模型输出的输出数据与真实样本数据对应的模型损失数值小于预设的损失阈值，完成模型的训练过程，得到目标神经网络。

在本公开另一可能的实施方式中，确定模型损失的方法还包括：获取所述掩码视频帧图像的掩码图像特征数据，并将所述掩码图像特征数据与所述融合特征数据进行点积处理，并将进行点积处理之后的特征数据进程平均池化处理，得到平均图像特征数据；以及将所述目标音频信号进行线性特征变换，得到线性音频特征数据，确定所述平均图像特征数据以及所述线性音频特征数据的散度数据，基于所述散度数据，验证所述目标视频帧图像中所述发声对象的第一位置信息与所述目标音频信号的特征匹配度。

示例性的，为了约束模型输出的掩码视频帧图像中划分出了待处理视频中的真实发声对象，因此，设计了视听匹配损失函数L_AVM来约束掩码视频帧图像中图像特征数据和音频特征数据的语义匹配度，其具体计算方式为：

其中，KL表示相对熵(Kullback–Leibler，KL)散度，M_i是由神经网络的最终输出掩码视频帧图像M经过下采样得到，其具有和Zi具有相同的尺寸，其中，Z_i为融合特征数据；⊙表示点积，avg表示averge pooling即平均池化，A_i由音频特征数据A进行一个线性变换得到。

在本公开实施例中，KL散度用来衡量图像特征数据和音频特征数据的相似度，也可采用欧几里得距离等。

在本公开另一实施例中，如果某些视频帧图像的音频特征在特征空间中比较接近，那么相应的发声对象在特征空间中就应该比较接近。在本公开实施例中，设定总目标函数L的计算如下:

L＝BCE(M,Y)+λL_AVM(M,Z,A)

其中,λ是一个平衡权重，⊙表示按元素点乘，BCE为二值交叉熵损失(BinaryCross Entropy Loss)，Y为像素级标注。对于半监督的训练过程，视听正则化损失是没有意义的，所以可以设置λ＝0。

基于上述损失函数可以约束掩码视频帧图像中是否划分出了待处理视频中的真实发声对象，提高神经网络输出的准确性，同时使得生成的掩码视频帧图像更为准确地表征了发声对应的位置信息。

本公开实施例通过获取待处理视频中的目标视频帧图像以及目标音频信号，并将目标视频帧图像以及目标音频信号进行编码处理，得到对应的图像特征数据以及音频特征数据，并对图像特征数据以及音频特征数据进行特征融合处理，得到融合特征数据，对融合特征数据进行解码处理，确定出目标视频帧图像中与音频信号对应的发声对象的像素点在目标视频帧图像中的第一位置信息。这样，可以提高对待处理视频中发声对象的定位精准度。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与视频处理方法对应的视频处理装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述视频处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图5所示，为本公开实施例提供的一种视频处理装置的示意图，所述装置包括：确定模块510、编码模块520、融合模块530、解码模块540；其中，

确定模块510，用于确定待处理视频中的目标视频帧图像、以及与所述目标视频帧图像对应的目标音频信号；

编码模块520，用于对所述目标视频帧图像进行第一编码处理，得到图像特征数据；以及对所述目标音频信号进行第二编码处理，得到音频特征数据；

融合模块530，用于对所述图像特征数据以及所述音频特征数据进行特征融合处理，得到融合特征数据；

解码模块540，用于基于所述融合特征数据进行解码处理，得到所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息。

一种可选的实施方式中，所述确定模块510具体用于：

一种可选的实施方式中，所述编码模块520具体用于：

一种可选的实施方式中，所述编码模块520还用于：

将所述目标音频信号转换为频谱数据；

一种可选的实施方式中，参照图6所示，为本公开实施例所提供的视频处理装置中，融合模块的具体示意图；所述融合模块530包括：

转化单元531，用于对所述音频特征数据进行尺寸转化处理，得到尺寸与所述图像特征数据匹配的转化音频特征数据；

确定单元532，用于确定所述转换音频特征数据、以及所述图像特征数据之间的相似度；

调整单元533，用于基于所述相似度，对所述图像特征数据进行调整处理，得到所述融合特征数据。

一种可选的实施方式中，所述转化单元531具体用于：

一种可选的实施方式中，所述确定单元532具体用于：

一种可选的实施方式中，所述调整单元533具体用于：

一种可选的实施方式中，所述调整单元533还用于：

所述解码模块540具体用于：

一种可选的实施方式中，参照图6所示，为本公开实施例所提供的另一种视频处理装置的示意图之一；还包括：

生成模块550，用于基于所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息，生成包括所述发声对象对应掩码的掩码视频帧图像。

一种可选的实施方式中，参照图8所示，为本公开实施例所提供的另一种视频处理装置的示意图之二；还包括：

获取模块810，用于获取样本数据；所述样本数据包括对所述神经网络进行半监督训练的第一样本数据、和/或对所述神经网络进行全监督训练的第二样本数据；

训练模块820，用于利用所述样本数据对待训练神经网络进行训练，得到所述目标神经网络。

所述获取模块810具体用于：

对时间戳最早的第一样本图像进行标注，得到标注信息。

所述获取模块810还用于：

所述训练模块820具体用于：

本公开实施例通过获取待处理视频中的目标视频帧图像以及目标音频信号，并将目标视频帧图像以及目标音频信号进行编码处理，得到对应的图像特征数据以及音频特征数据，并对图像特征数据以及音频特征数据进行特征融合处理，得到融合特征数据，对融合特征数据进行解码处理，确定出目标视频帧图像中与音频信号对应的发声对象的像素点在目标视频帧图像中的第一位置信息。这样，可以提高对待处理视频中发声对象的定位精准度

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

基于同一技术构思，本公开实施例还提供了一种计算机设备。参照图9所示，为本公开实施例提供的计算机设备900的结构示意图，包括处理器901、存储器902、和总线903。其中，存储器902用于存储执行指令，包括内存9021和外部存储器9022；这里的内存9021也称内存储器，用于暂时存放处理器901中的运算数据，以及与硬盘等外部存储器9022交换的数据，处理器901通过内存9021与外部存储器9022进行数据交换，当计算机设备900运行时，处理器901与存储器902之间通过总线903通信，使得处理器901在执行以下指令：

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的视频处理方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的视频处理方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的视频处理方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定待处理视频中的目标视频帧图像、以及与所述目标视频帧图像对应的目标音频信号，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述目标视频帧图像进行第一编码处理，得到图像特征数据，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，对所述目标音频信号进行第二编码处理，得到音频特征数据，包括：

将所述目标音频信号转换为频谱数据；

5.根据权利要求1-4任一项所述的方法，其特征在于，所述对所述图像特征数据以及所述音频特征数据进行特征融合处理，得到融合特征数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述音频特征数据进行尺寸转化处理，得到尺寸与所述图像特征数据匹配的转化音频特征数据，包括：

7.根据权利要求5或6所述的方法，其特征在于，所述确定所述转换音频特征数据、以及所述图像特征数据之间的相似度，包括：

8.根据权利要求5-7任一项所述的方法，其特征在于，所述基于所述相似度，对所述图像特征数据进行调整处理，得到所述融合特征数据，包括：

9.根据权利要求8所述的方法，其特征在于，所述将所述调整特征数据和所述图像特征数据进行融合，得到所述融合特征数据，包括：

10.根据权利要求3-9任一项所述的方法，其特征在于，多级特征提取处理包括：末级特征提取处理、以及非末级特征提取处理；所述融合特征数据包括：与所述末级特征提取处理对应的第一融合特征数据、以及与所述非末级特征提取处理对应的第二融合特征数据；

11.根据权利要求1-10任一项所述的方法，其特征在于，还包括：

12.根据权利要求1-11任一项所述的方法，其特征在于，所述视频处理方法应用于预先训练好的目标神经网络中，所述目标神经网络包括：编码器网络、以及解码器网络；

13.根据权利要求12所述的方法，其特征在于，还包括：

14.根据权利要求13所述的方法，其特征在于，所述样本数据包括所述第一样本数据，所述第一样本数据包括：多帧第一样本图像、与各帧第一样本图像分别对应的第一样本音频信号、以及与首帧第一样本图像对应的标注信息；所述标注信息用于指示单一发声的目标对象的像素点在所述第一样本图像中的第一位置信息；

所述获取样本数据包括：

对时间戳最早的第一样本图像进行标注，得到标注信息。

15.根据权利要求13或14所述的方法，其特征在于，所述样本数据包括所述第二样本数据，所述第二样本数据包括：多帧第二样本图像、与各帧第二样本图像分别对应的第二样本音频信号、以及多帧所述第二样本图像分别对应的标注信息；所述标注信息用于指示多个发声的目标对象的像素点在各帧所述第二样本图像中的第一位置信息；

所述获取样本数据包括：

16.根据权利要求13-15任一项所述的方法，其特征在于，所述待训练神经网络包括：待训练编码器、以及待训练解码器；

17.一种视频处理装置，其特征在于，包括：

18.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至16任一项所述的视频处理方法的步骤。

19.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至16任一项所述的视频处理方法的步骤。