CN113963282A

CN113963282A - 视频替换检测及其模型的训练方法及装置

Info

Publication number: CN113963282A
Application number: CN202010705830.XA
Authority: CN
Inventors: 李小丹; 毛潇锋; 陈岳峰; 郎一宁; 何源; 薛晖
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2022-01-21

Abstract

本说明书一个或多个实施例提供一种视频替换检测及其模型的训练方法及装置。该方法包括：从待检测视频中抽取多帧图像，并提取每帧图像的图像特征向量；生成所述待检测视频对应的视频特征向量，所述视频特征向量与针对所述多帧图像对应的图像特征向量的融合结果相关；根据所述视频特征向量确定所述待检测视频是否经过替换。

Description

视频替换检测及其模型的训练方法及装置

技术领域

本说明书一个或多个实施例涉及终端技术领域，尤其涉及一种视频替换检测及其模型的训练方法及装置。

背景技术

随着Deepfake等视频替换算法和工具使用门槛的降低，越来越多经过替换的假视频、假新闻流传在互联网上，视频替换检测技术的需求越来越高。

现有技术中，一般借助分类器进行视频替换检测，具体的，将从待检测视频抽取的各帧图像分别输入分类器进行检测，将各帧图像的检测结果进行加权融合，根据融合结果确定该待检测视频是否经过替换。

发明内容

有鉴于此，本说明书一个或多个实施例提供一种视频替换检测及其模型的训练方法及装置。

为实现上述目的，本说明书一个或多个实施例提供技术方案如下：

根据本说明书一个或多个实施例的第一方面，提出了一种视频替换检测方法，包括：

从待检测视频中抽取多帧图像，并提取每帧图像的图像特征向量；

生成所述待检测视频对应的视频特征向量，所述视频特征向量与针对所述多帧图像对应的图像特征向量的融合结果相关；

根据所述视频特征向量确定所述待检测视频是否经过替换。

根据本说明书一个或多个实施例的第二方面，提出了一种用于视频替换检测的模型训练方法，包括：

获取多段视频样本，每段视频样本包含替换标注信息；

从每段视频样本抽取多帧图像，并生成各段视频样本对应的视频特征向量，所述视频特征向量与针对所述多帧图像对应的图像特征向量的融合结果相关；

将所述视频特征向量输入分类器进行训练，并根据所述替换标注信息和所述分类器的输出结果对所述分类器的参数进行调整。

根据本说明书一个或多个实施例的第三方面，提供了一种用于视频替换检测的模型训练方法，所述模型包含级联的特征提取子模型、特征融合子模型和检测子模型；

所述方法包括：

将从各段视频样本抽取的多帧图像输入至所述特征提取子模型进行特征提取，所述视频样本包含替换标注信息；

将所述特征提取子模型输出的各帧图像的图像特征向量输入至所述特征融合子模型进行特征向量融合；

将所述特征融合子模型输出的对应于各段视频样本的视频特征向量输入至所述检测子模型；

根据所述替换标注信息和所述检测子模型的输出结果对所述特征提取子模型、特征融合子模型和检测子模型的模型参数进行调整。

根据本说明书一个或多个实施例的第四方面，提供了一种视频替换检测装置，包括：

抽取模块，用于从待检测视频中抽取多帧图像，并提取每帧图像的图像特征向量；

生成模块，用于生成所述待检测视频对应的视频特征向量，所述视频特征向量与针对所述多帧图像对应的图像特征向量的融合结果相关；

确定模块，用于根据所述视频特征向量确定所述待检测视频是否经过替换。

根据本说明书一个或多个实施例的第五方面，提供了一种用于视频替换检测的模型训练装置，包括：

获取模块，用于获取多段视频样本，每段视频样本包含替换标注信息；

生成模块，用于从每段视频样本抽取多帧图像，并生成各段视频样本对应的视频特征向量，所述视频特征向量与针对所述多帧图像对应的图像特征向量的融合结果相关；

训练模块，用于将所述视频特征向量输入分类器进行训练，并根据所述替换标注信息和所述分类器的输出结果对所述分类器的参数进行调整。

根据本说明书一个或多个实施例的第六方面，提供了一种用于视频替换检测的模型训练装置，所述模型包含级联的特征提取子模型、特征融合子模型和检测子模型；

所述装置包括：

抽取模块，用于将从各段视频样本抽取的多帧图像输入至所述特征提取子模型进行特征提取，所述视频样本包含替换标注信息；

输入模块，用于将所述特征提取子模型输出的各帧图像的图像特征向量输入至所述特征融合子模型进行特征向量融合；

所述输入模块，还用于将所述特征融合子模型输出的对应于各段视频样本的视频特征向量输入至所述检测子模型；

调整模块，用于根据所述替换标注信息和所述检测子模型的输出结果对所述特征提取子模型、特征融合子模型和检测子模型的模型参数进行调整。

根据本说明书一个或多个实施例的第七方面，提供了一种电子设备，包括：

替换检测器；

用于存储替换检测器可执行指令的存储器；

其中，所述替换检测器通过运行所述可执行指令以实现上述任一项所述的方法。

根据本说明书一个或多个实施例的第八方面，提供了一种计算机可读存储介质，其上存储有计算机指令，该指令被替换检测器执行时实现上述任一项所述方法的步骤。

附图说明

图1是一示例性实施例提供的一种视频替换检测系统的架构示意图。

图2是一示例性实施例提供的一种视频替换检测方法的流程图。

图3a是一示例性实施例提供的一种生成待检测视频对应的视频特征向量的流程图。

图3b是一示例性实施例提供的一种图3a中卷积处理的流程图。

图4a是一示例性实施例提供的另一种融合各帧图像对应的图像特征向量的流程图。

图4b是一示例性实施例提供的一种融合各图像分组对应的时序特征向量的流程图。

图4c是一示例性实施例提供的一种图4b中卷积处理的流程图。

图5是一示例性实施例提供的一种用于视频替换检测的模型训练方法的流程图。

图6是一示例性实施例提供的另一种用于视频替换检测的模型训练方法的流程图

图7是一示例性实施例提供的一种设备的结构示意图。

图8是一示例性实施例提供的一种视频替换检测装置的框图。

图9是一示例性实施例提供的另一种设备的结构示意图

图10是一示例性实施例提供的一种用于视频替换检测的模型训练装置的

图11是一示例性实施例提供的另一种用于视频替换检测的模型训练装置的。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

在一实施例中，本说明书的截图处理方案可以应用于电子设备中，例如该电子设备可以包括手机、平板设备、笔记本电脑、掌上电脑(PDAs，Personal DigitalAssistants)、可穿戴设备(如智能眼镜、智能手表等)等任意类型，本说明书并不对此进行限制。在运行过程中，该电子设备可以通过与用户之间的人机交互，获取截屏图片并对截屏图片进行处理。

图1是一示例性实施例提供的一种视频替换检测系统的架构示意图。如图1所示，该系统可以包括服务器11、网络12、若干电子设备，比如手机13、手机14和手机15等。

手机13-15只是用户可以使用的一种类型的电子设备。实际上，用户显然还可以使用诸如下述类型的电子设备：平板设备、笔记本电脑、掌上电脑(PDAs，Personal DigitalAssistants)、可穿戴设备(如智能眼镜、智能手表等)等，本说明书一个或多个实施例并不对此进行限制。用户可以使用电子设备获取待检测视频并发送给服务器11进行视频替换检测，其中，待检测视频可以是用户使用电子设备拍摄的视频，可以是从网络下载的视频，还可以是与其他电子设备进行视频通话过程中保存的视频通话视频。

服务器11可以为包含一独立主机的物理服务器，或者该服务器11可以为主机集群承载的虚拟服务器。在运行过程中，服务器11可以检测接收到的待检测视频是否经过替换。

手机13-15与服务器11之间进行交互的网络12，可以包括多种类型的有线或无线网络。在一实施例中，该网络12可以包括公共交换电话网络(Public Switched TelephoneNetwork，PSTN)和因特网。同时，手机13-15等电子设备之间也可以通过该网络12进行通讯交互，比如手机13将其获取的视频发送给手机14和/或手机15进行视频替换检测。

图2是一示例性实施例提供的一种视频替换检测方法的流程图，可以包括以下步骤：

步骤202、从待检测视频中抽取多帧图像，并提取每帧图像的图像特征向量。

其中，抽取图像时，相邻两帧图像之间的时间间隔可根据实际需求自行设置，可以理解的，时间间隔越短，可以得到越多的图像，各帧图像越能反映视频特性。

若从待检测视频中抽取n帧图像，相对应的，可得到n个图像特征向量。

目前，对于视频的替换，一般是对组成视频的连续N帧图像中的全部或部分图像进行替换，且一般不会替换整帧图像，而是替换图像中目标对象所处的区域，例如，使用虚假的面部图像替换组成视频的各帧图像中的人脸(目标对象)区域，或者对各帧图像中的人脸区域进行特征修改(如增大人脸的眼睛、缩小脸颊等)。故而在提取图像特征向量之前，可以先识别图像中目标对象所处的区域，再对目标对象所处的区域进行图像特征的提取，这样一方面可以减少特征向量提取的计算量，一方面可以提高特征向量提取的准确度。

其中，目标对象为预检测视频中可能被替换的对象，可以但不限于是人脸、动物、车辆等等。

在一个实施例中，可以借助多任务卷积神经网络MTCNN实现目标对象所处的区域的识别。MTCNN采用了三个级联的网络，采用候选框加分类器的思想，进行快速高效的人脸检测。这三个级联的网络分别是快速生成候选窗口的P-Net、进行高精度候选窗口过滤选择的R-Net和生成最终边界框与人脸关键点的O-Net。

P-Net基本的构造是一个全连接网络，其是一个人脸区域的区域建议网络，该网络的将特征输入结果三个卷积层之后，通过一个人脸分类器判断该区域是否是人脸，同时使用边框回归和一个面部关键点的定位器来进行人脸区域的初步提议，该部分最终将输出很多张可能存在人脸的人脸区域，并将这些区域输入R-Net进行进一步处理。

P-Net其基本的构造是一个卷积神经网络，相对于第一层的P-Net来说，增加了一个全连接层。R-Net的思想是使用一个相对于P-Net更复杂的网络结构来对P-Net生成的可能是人脸区域区域窗口进行进一步选择和调整，从而达到高精度过滤和人脸区域优化的效果。

O-Net基本结构是一个较为复杂的卷积神经网络，相对于R-Net来说多了一个卷积层。O-Net的效果与R-Net的区别在于这一层结构会通过更多的监督来识别面部的区域，而且会对人的面部特征点进行回归，最终输出多个，例如五个人脸面部特征点。

MTCNN能够避免滑动窗口加分类器等传统思路带来的巨大的性能消耗，兼顾了性能和准确率，能够快速高效的识别出目标对象在图像中所处的区域。

在另一个实施例中，可以借助深度卷积网络实现图像特征向量的提取，可以将MTCNN识别出的目标对象所处区域对应的区域图像输入训练好的深度卷积网络进行特征提取，得到图像特征向量。

步骤204、生成待检测视频对应的视频特征向量，该视频特征向量与针对多帧图像对应的图像特征向量的融合结果相关。

本实施例中，对从待检测视频抽取的各帧图像对应的图像特征向量进行融合，得到待检测视频的视频特征向量，以根据该视频特征向量检测待检测视频是否经过替换，相较于相关技术的视频检测方式，检测结果的准确度更高。这是因为相关技术中将从待检测视频抽取的各帧图像分别输入分类器进行替换检测，也即对单帧图像进行检测，并将多个针对单帧图像的检测结果进行加权融合以根据融合结果进行视频检测，其检测结果会因为视频中被替换图像的数量波动等因素存在误差。

步骤206、根据视频特征向量确定待检测视频是否经过替换。

在进行检测时，可以借助分类器，将视频特征向量输入训练好的分类器进行识别，由分类器输出待检测视频是否经过替换的识别结果。

本实施例中，基于待检测视频的视频特征向量确定该视频是否经过替换，实现了视频级别的检测，相较于基于单帧图像的检测，避免了因被替换图像的数量波动引起的误差，可以提升检测结果的准确度和可靠性。

在另一个实施例中，图2所示的视频替换检测方法可由视频替换检测模型实现，视频替换检测模型包含特征提取子模型、特征融合子模型和检测子模型。视频替换检测模型可以但不限于通过对卷积神经网络、循环神经网络或深度神经网络等训练得到。

关于图像特征向量的提取，可以使用特征提取子模型，具体的：将从待检测视频中抽取多帧图像输入特征提取子模型，经过对图像的特征提取，由特征提取子模型输出图像的图像特征向量。

关于视频特征向量的生成，可以使用特征融合子模型，具体的：将特征提取子模型输出的各帧图像的图像特征向量输入特征融合子模型，经过对各帧图像的图像特征向量的处理，由特征融合子模型输出待检测视频对应的视频特征向量。

关于视频检测，可以使用检测子模型，具体的：将特征融合子模型输出的视频特征向量输入检测子模型，由检测子模型输出待检测视频是否经过替换的检测结果。

图3a是一示例性实施例提供的一种生成待检测视频对应的视频特征向量的流程图，本实施例中，对从待检测视频抽取的各帧图像对应的图像特征向量进行融合，将图像特征向量的融合结果确定为待检测视频的视频特征向量，参见图3a，可以包括以下步骤：

步骤302、依次将多帧图像中每帧图像对应的图像特征向量作为卷积核。

举例来说，假设对待检测视频进行图像抽取，得到n帧图像，相对应的，可以得到n个图像特征向量，分别为[A₁₁,A₁₂,A₁₃,……,A_1i]，[A₂₁,A₂₂,A₂₃,……,A_2i]，[A₃₁,A₃₂,A₃₃,……,A_3i]，……，[A_n1,A_n2,A_n3,……,A_ni]，其中，i表示每个图像特征向量包含i维特征，则依次将上述n个图像特征向量作为卷积核。

步骤304、分别采用每个卷积核对多帧图像对应的图像特征向量进行卷积处理，得到对应于各个卷积核的卷积结果。

在一个实施例中，进行卷积处理时，可以采用卷积核对多帧图像对应的图像特征向量组成的矩阵进行卷积处理，以根据卷积处理的结果确定卷积结果。

还是以上述n个图像特征向量为例，n个图像特征向量组成的矩阵表示如下：

在步骤304中，也即分别使用n个向量[A₁₁,A₁₂,A₁₃,……,A_1i]，[A₂₁,A₂₂,A₂₃,……,A_2i]，[A₃₁,A₃₂,A₃₃,……,A_3i]，……，[A_n1,A_n2,A_n3,……,A_ni]对上述n×i矩阵做卷积处理，可以得到n个卷积结果。

在另一个实施例中，进行卷积处理时，可以采用卷积核分别对各帧图像对应的图像特征向量进行卷积处理，并将得到的对应于各帧图像的初始卷积结果拼接为与卷积核对应的卷积结果。

还是以上述n个图像特征向量为例，先使用[A₁₁,A₁₂,A₁₃,……,A_1i]作为卷积核，分别对[A₁₁,A₁₂,A₁₃,……,A_1i]，[A₂₁,A₂₂,A₂₃,……,A_2i]，[A₃₁,A₃₂,A₃₃,……,A_3i]，……，[A_n1,A_n2,A_n3,……,A_ni]做卷积处理，可以得到n个初始卷积结果，将这n个初始卷积结果进行拼接可以得到与卷积核[A₁₁,A₁₂,A₁₃,……,A_1i]对应的卷积结果；与[A₁₁,A₁₂,A₁₃,……,A_1i]类似的，依次使用[A₂₁,A₂₂,A₂₃,……,A_2i]，[A₃₁,A₃₂,A₃₃,……,A_3i]，……，[A_n1,A_n2,A_n3,……,A_ni]作为卷积核，即可得到与n个卷积核对应的卷积结果。

步骤306、对各个卷积结果进行加权融合，并将加权融合的结果确定为视频特征向量。

在对多个卷积结果进行加权融合时，可以基于注意力机制确定每个卷积结果的权重，并基于权重对多个卷积结果进行加权融合，使得每个卷积结果对应的权重能够更为准确的反映该卷积结果对视频特征向量的影响情况。

为了便于理解，下面以图3b示出的卷积处理的流程图为例，对步骤302～步骤306的实现过程作进一步说明，图中的6×5矩阵表示由6幅图像对应的图像特征向量组成的矩阵，该6幅图像由对待检测视频进行图像抽取得到，每个图像特征向量包含5维特征。采用6幅图像对应的图像特征向量作为卷积核对6×5矩阵进行卷积处理，可以得到6个向量(卷积结果)，将这6个卷积进行加权融合，加权融合的结果即为待检测视频的视频特征向量，用于对待检测视频进行替换检测。

图4a是一示例性实施例提供的另一种融合各帧图像对应的图像特征向量的流程图，本实施例中，在图像特征向量的融合结果的基础上，结合多帧图像的时序特征向量的融合结果，将两个融合结果的拼接结果确定为待检测视频的视频特征向量，参见图4a，方法可以包括以下步骤：

步骤402、融合各帧图像对应的图像特征向量，得到图像特征向量的融合结果。

步骤402也即对各帧图像对应的图像特征向量进行融合，步骤402的具体实现过程与步骤302～306类似，此处不再赘述。

步骤404、基于至少一个维度对多帧图像进行分组。

其中，各图像分组包含相邻的至少两帧图像，维度与每个图像分组中包含的图像数量相对应。维度的数量以及每个图像分组中包含的图像数量k可根据实际需求自行设置。

图像与图像特征向量是一一对应的关系，对图像进行分组，相当于对图像特征向量进行分组。举例来说，若基于两个维度对多帧图像进行分组，第一个维度对应的图像数量为2，第二个维度对应的图像数量为3，n个向量[A₁₁,A₁₂,A₁₃,……,A_1i]，[A₂₁,A₂₂,A₂₃,……,A_2i]，[A₃₁,A₃₂,A₃₃,……,A_3i]，……，[A_n1,A_n2,A_n3,……,A_ni]的分组结果可以表示为：

对于第一个维度，得到n-1个图像分组，分别表示为{[A₁₁,A₁₂,A₁₃,……,A_1i]、[A₂₁,A₂₂,A₂₃,……,A_2i]}、{[A₂₁,A₂₂,A₂₃,……,A_2i]、[A₃₁,A₃₂,A₃₃,……,A_3i]}、……、{[A_(n-1)1,A_(n-1)2,A_(n-1)3,……,A_(n-1)i]、[A_n1,A_n2,A_n3,……,A_ni]}；

对于第二个维度，得到n-2个图像分组，分别表示为{[A₁₁,A₁₂,A₁₃,……,A_1i]、[A₂₁,A₂₂,A₂₃,……,A_2i]、[A₃₁,A₃₂,A₃₃,……,A_3i]}、{[A₂₁,A₂₂,A₂₃,……,A_2i]、[A₃₁,A₃₂,A₃₃,……,A_3i]、[A₄₁,A₄₂,A₄₃,……,A_4i]}、……、{[A_(n-2)1,A_(n-1)2,A_(n-2)3,……,A_(n-2)i]、[A_(n-1)1,A_(n-1)2,A_(n-1)3,……,A_(n-1)i]、[A_n1,A_n2,A_n3,……,A_ni]}。

步骤406、融合各图像分组对应的时序特征向量，得到时序特征向量的融合结果。

其中，时序特征向量由图像分组包含的图像对应的图像特征向量组合而成。

以目标对象是人脸为例，若对视频中的人脸进行替换替换后，两帧图像中的人脸存在贴合不一致或者人工替换痕迹，时序特征向量的融合结果可以学习到视频中具有判别力的特征，从而在图像特征向量的融合结果的基础上，结合多帧图像的时序特征向量的融合结果判断视频是否经过替换，考虑到了视频时空维度上的信息，可以进一步提高检测的准确度。

需要说明的是，步骤402与步骤404和步骤406不限于是图4a中示出的顺序执行，步骤402与步骤404和步骤406可以同步执行，也即先执行步骤404和步骤406，再执行步骤402。

图4b是一示例性实施例提供的一种融合各图像分组对应的时序特征向量的流程图，可以包括以下步骤：

步骤406-2、将各图像分组对应的时序特征行向量作为卷积核。

以上述第一个维度的分组结果为例，n-1个图像分组对应n-1个卷积核，分别为

步骤406-4、分别采用每个卷积核对多帧图像对应的图像特征向量进行卷积处理，得到对应于各个卷积核的卷积结果。

进行卷积处理时，与步骤304类似的，在一个实施例中，可以采用卷积核对多帧图像对应的图像特征向量组成的矩阵进行卷积处理。

在另一个实施例中，可以采用卷积核分别对各帧图像对应的图像特征向量进行卷积处理，并将得到的对应于各帧图像的初始卷积结果进行拼接，得到与卷积核对应的卷积结果。本实施例中，图像特征向量的行列维数与卷积核的维数会存在不匹配的情况，此时可以对图像特征向量补零后进行卷积处理。

步骤406-6、对各个卷积核的卷积结果进行加权融合，得到时序特征向量的融合结果。

在步骤406-6中，对各个卷积核的卷积结果进行加权融合时，可以基于注意力机制确定每个卷积结果的权重，并基于权重对多个卷积结果进行加权融合，使得每个卷积结果对应的权重能够更为准确的反映该卷积结果对时序特征向量的融合结果的影响情况。

步骤408、将图像特征向量的融合结果与时序特征向量的融合结果进行拼接，得到视频特征向量。

为了便于理解，下面以图4c提供的卷积处理的流程图为例，对步骤402～步骤408的实现过程作进一步说明，还是以6×5矩阵为例，若采用2个维度对图像进行分组，2个维度对应的图像数量K分别是2和3，生成视频特征向量的过程如下：

步骤a、分别采用6幅图像对应的图像特征向量作为卷积核对6×5矩阵进行卷积处理，此种情况相当将6幅图像分为6个图像分组，每个图像分组中包含的图像数量K＝1，经过卷积处理可以得到6个卷积结果(向量)，将这6个卷积结果进行加权融合，得到图像特征向量的融合结果；

步骤b、分别采用相邻的2幅图像对应的图像特征向量作为卷积核对6×5矩阵进行卷积处理，也即将6幅图像分为5个图像分组，每个图像分组中包含的图像数量K＝2，经过卷积处理可以得到5个卷积结果，将这5个卷积结果进行加权融合，得到时序特征向量的第一融合结果；

步骤c、分别采用相邻的3幅图像对应的图像特征向量作为卷积核对6×5矩阵进行卷积处理，也即将6幅图像分为4个图像分组，每个图像分组中包含的图像数量K＝3，经过卷积处理可以得到4个卷积结果，将这4个卷积结果进行加权融合，得到时序特征向量的第二融合结果；

需要说明的是，步骤a～步骤c可以同步执行也可以顺序执行，执行顺序不限于是先执行K＝1的融合结果，再执行K＝2的融合结果，最后执行K＝3的融合结果，执行顺序可以任意设定。进行卷积处理的卷积步长可根据实际需求自行设置，卷积步长可以采用1或者其他数值。

步骤d、拼接图像特征向量的融合结果、时序特征向量的第一融合结果和时序特征向量的第二融合结果，得到视频特征向量。

在另一个实施例中，生成待检测视频对应的视频特征向量还可使用长短期记忆网络或3D卷积神经网络实现，具体的：将各帧图像对应的图像特征向量输入长短期记忆网络或3D卷积神经网络进行特征向量融合处理，由长短期记忆网络或3D卷积神经网络输出视频特征向量。

图2所示的视频替换检测方法，可以基于视频替换检测模型实现，视频替换检测模型可以包含特征提取子模型、特征融合子模型和检测子模型。

提取图像的图像特征向量时，将图像输入特征提取子模型，经过特征提取子模型的特征提取，得到图像的图像特征向量；

生成待检测视频对应的视频特征向量时，将各帧图像对应的图像特征向量输入特征融合子模型，经过特征融合子模型的处理，由特征融合子模型输出待检测视频对应的视频特征向量；

确定待检测视频是否经过替换时，将视频特征向量输入检测子模型，经过检测子模型的处理，由检测子模型输出待检测视频是否经过替换的检测结果。

上述的视频替换检测模型中不同的子模型部分都可以在模型训练阶段进行参数的训练调整，以得到较好的输出结果。

图5是一示例性实施例提供的一种用于视频替换检测的模型训练方法的流程图，可以包括以下步骤：

步骤502、将从各段视频样本抽取的n帧图像输入至特征提取子模型进行特征提取。

其中，视频样本包含替换标注信息。特征提取子模型可以但不限于采用深度卷积网络。

本实施例的视频样本可以包含一部分正样本和一部分负样本，作为正样本的视频样本为未经过替换的视频，作为负样本的视频样本为经过替换的视频。

步骤504、将特征提取子模型输出的各帧图像的图像特征向量输入至特征融合子模型进行特征向量融合。

其中，特征融合子模型可以但不限于采用长短时记忆网络(LSTM)和3D卷积神经网络。

在一个实施例中，特征融合子模型可以由两个分支的多实例网络构成。一个分支的多实例网络将n帧图像当成n个实例，并对n帧图像的图像特征向量进行融合；另一个分支的多实例网络则是将多个图像分组当成多个实例，对于每个维度，融合各图像分组对应的时序特征向量；特征融合子模型将图像特征向量的融合结果和时序特征向量的融合结果进行拼接，得到视频样本的视频特征向量。视频样本中的所有实例作为一个整体共享该视频样本的替换标注信息。

步骤506、将特征融合子模型输出的对应于各段视频样本的视频特征向量输入至检测子模型。

在一个实施例中，特征融合子模型可以但不限于采用分类器。

步骤508、根据替换标注信息和检测子模型的输出结果对特征提取子模型、特征融合子模型和检测子模型的模型参数进行调整。

从而，将待检测视频输入训练完成的模型即可实现替换检测。

在一个实施例中，可以对应于特征提取子模型、特征融合子模型和检测子模型三个模型可以分别建立3个损失函数，并根据替换标注信息和检测子模型的输出结果分别确定3个损失函数的损失值，进而分别调整三个子模型的模型参数。

在另一个实施例中，还可以建立1个损失函数，并根据替换标注信息和检测子模型的输出结果确定该损失函数的损失值，进而根据该损失值调整三个子模型的模型参数。

在另一实施例中，对于特征提取子模型、特征融合子模型和检测子模型三个模型还可以分别进行训练，将训练完成的三个子模型拼接成用于视频替换检测的模型。

本实施例的训练方法，在图像特征向量的融合结果的基础上，结合多帧图像的时序特征向量的融合结果，将两个融合结果的拼接结果确定为待检测视频的视频特征向量，以基于该视频特征向量进行替换识别，考虑到了视频时空维度上的信息，可以学习到具有判别力的特征，可以显著提升模型的精确率和召回率。

图6是一示例性实施例提供的另一种用于视频替换检测的模型训练方法的流程图，可以包括以下步骤：

步骤602、获取多段视频样本，每段视频样本包含替换标注信息。

步骤604、从每段视频样本抽取多帧图像，并生成各段视频样本对应的视频特征向量。

其中，视频特征向量与针对多帧图像对应的图像特征向量的融合结果相关。

在一个实施例中，可以对多帧图像的图像特征向量进行融合，将图像特征向量的融合结果确定为视频特征向量，具体实现过程可参见图3a所示，此处不再赘述。

在另一个实施例中，在图像特征向量的融合结果的基础上，可以结合多帧图像的时序特征向量的融合结果，将两个融合结果的拼接结果确定为待检测视频的视频特征向量，具体实现过程可参见图4a所示，此处不再赘述。

步骤606、将视频特征向量输入分类器进行训练，并根据替换标注信息和分类器的输出结果对分类器的参数进行调整。

其中，可以但不限于使用交叉熵损失函数训练分类器。

在进行视频替换检测时，需要对待检测视频进行图像抽取，图像特征提取，将各帧图像对应的图像特征向量融合成视频特征向量，将该视频特征向量输入训练完成的分类器即可实现替换检测。

图7是一示例性实施例提供的一种设备的结构示意图。请参考图7，在硬件层面，该设备包括处理器702、内部总线704、网络接口706、内存708以及非易失性存储器710，当然还可能包括其他业务所需要的硬件。处理器702从非易失性存储器710中读取对应的计算机程序到内存708中然后运行，在逻辑层面上形成视频替换检测装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

请参考图8，在软件实施方式中，该视频替换检测装置可以包括：

抽取模块81，用于从待检测视频中抽取多帧图像，并提取每帧图像的图像特征向量；

生成模块82，用于生成所述待检测视频对应的视频特征向量，所述视频特征向量与针对所述多帧图像对应的图像特征向量的融合结果相关；

确定模块83，用于根据所述视频特征向量确定所述待检测视频是否经过替换。

可选地，所述生成模块具有用于：

基于至少一个维度对所述多帧图像进行分组，各图像分组包含相邻的至少两帧图像，所述维度与每个图像分组中包含的图像数量相对应；

融合各图像分组对应的时序特征向量，其中，所述时序特征向量由所述图像分组包含的图像对应的图像特征向量组合而成；

将所述时序特征向量的融合结果与所述图像特征向量的融合结果进行拼接，得到所述视频特征向量。

可选地，在融合各图像分组对应的时序特征向量时，所述生成模块用于：

将各图像分组对应的时序特征行向量作为卷积核；

分别采用每个卷积核对所述多帧图像对应的图像特征向量进行卷积处理，得到对应于各个卷积核的第一卷积结果；

对各个第一卷积结果进行加权融合，得到所述时序特征向量的融合结果。

可选地，在对各个第一卷积结果进行加权融合时，所述生成模块用于：

基于注意力机制确定各个第一卷积结果的权重；

基于所述权重对所述各个第一卷积结果进行加权融合。

可选地，在融合所述多帧图像对应的图像特征向量时，所述生成模块用于：

依次将所述多帧图像中每帧图像对应的图像特征向量作为卷积核；

分别采用每个卷积核对所述多帧图像对应的图像特征向量进行卷积处理，得到对应于各个卷积核的第二卷积结果；

对各个第二卷积结果进行加权融合，所述加权融合的结果用于确定所述视频特征向量。

可选地，在采用所述卷积核对所述多帧图像对应的图像特征向量进行卷积处理时，所述生成模块用于：

采用所述卷积核对所述多帧图像对应的图像特征向量组成的矩阵进行卷积处理，以根据所述卷积处理的结果确定所述第二卷积结果；或者，

采用所述卷积核分别对各帧图像对应的图像特征向量进行卷积处理，并将得到的对应于各帧图像的初始卷积结果拼接为与所述卷积核对应的第二卷积结果。

可选地，在对各个第二卷积结果进行加权融合时，所述生成模块用于：

基于注意力机制确定各个第二卷积结果的权重；

基于所述权重对所述各个第二卷积结果进行加权融合。

可选地，在生成所述待检测视频对应的视频特征向量时，所述生成模块用于：

将所述各帧图像对应的图像特征向量输入长短期记忆网络或3D卷积神经网络进行特征向量融合处理，由所述长短期记忆网络或3D卷积神经网络输出所述视频特征向量。

可选地，所述确定模块具体用于：

将所述视频特征向量输入分类器进行识别，由所述分类器输出所述待检测视频是否经过替换的结果。

可选地，所述视频替换检测方法由视频替换检测模型执行；

所述视频替换检测模型包含特征提取子模型、特征融合子模型和检测子模型；

所述特征提取子模型用于提取每帧图像的图像特征向量；

所述特征融合子模型用于生成所述待检测视频对应的视频特征向量；

所述检测子模型用于根据所述视频特征向量确定所述待检测视频是否经过替换。

可选地于，在提取每帧图像的图像特征向量时，所述抽取模块用于：

识别目标对象在各帧图像中所处的区域；

提取所述区域的图像特征向量。

图9是一示例性实施例提供的一种设备的结构示意图。请参考图9，在硬件层面，该设备包括处理器902、内部总线904、网络接口906、内存908以及非易失性存储器910，当然还可能包括其他业务所需要的硬件。处理器902从非易失性存储器910中读取对应的计算机程序到内存908中然后运行，在逻辑层面上形成用于视频替换检测的模型训练装置。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

请参考图10，在软件实施方式中，一种用于视频替换检测的模型训练装置可以包括：

获取模块1001，用于获取多段视频样本，每段视频样本包含替换标注信息；

生成模块1002，用于从每段视频样本抽取多帧图像，并生成各段视频样本对应的视频特征向量，所述视频特征向量与针对所述多帧图像对应的图像特征向量的融合结果相关

训练模块1003，用于将所述视频特征向量输入分类器进行训练，并根据所述替换标注信息和所述分类器的输出结果对所述分类器的参数进行调整。

请参考图11，在软件实施方式中，另一种用于视频替换检测的模型训练装置可以包括：

抽取模块1101，用于将从各段视频样本抽取的多帧图像输入至所述特征提取子模型进行特征提取，所述视频样本包含替换标注信息；

输入模块1102，用于将所述特征提取子模型输出的各帧图像的图像特征向量输入至所述特征融合子模型进行特征向量融合；

所述输入模块1103，还用于将所述特征融合子模型输出的对应于各段视频样本的视频特征向量输入至所述检测子模型；

调整模块1104，用于根据所述替换标注信息和所述检测子模型的输出结果对所述特征提取子模型、特征融合子模型和检测子模型的模型参数进行调整。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储，其上存储有计算机程序(信息)，程序被处理器执行时实现上述任一实施例所提供的方法步骤。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种视频替换检测方法，其特征在于，包括：

根据所述视频特征向量确定所述待检测视频是否经过替换。

2.根据权利要求1所述的视频替换检测方法，其特征在于，生成所述待检测视频对应的视频特征向量，包括：

3.根据权利要求2所述的视频替换检测方法，其特征在于，融合各图像分组对应的时序特征向量，包括：

将各图像分组对应的时序特征行向量作为卷积核；

4.根据权利要求3所述的视频替换检测方法，其特征在于，对各个第一卷积结果进行加权融合，包括：

基于注意力机制确定各个第一卷积结果的权重；

基于所述权重对所述各个第一卷积结果进行加权融合。

5.根据权利要求1～4任一项所述的视频替换检测方法，其特征在于，融合所述多帧图像对应的图像特征向量，包括：

6.根据权利要求5所述的视频替换检测方法，其特征在于，采用所述卷积核对所述多帧图像对应的图像特征向量进行卷积处理，包括：

7.根据权利要求6所述的视频替换检测方法，其特征在于，对各个第二卷积结果进行加权融合，包括：

基于注意力机制确定各个第二卷积结果的权重；

基于所述权重对所述各个第二卷积结果进行加权融合。

8.根据权利要求1所述的视频替换检测方法，其特征在于，生成所述待检测视频对应的视频特征向量，包括：

9.根据权利要求1所述的视频替换检测方法，其特征在于，根据所述视频特征向量确定所述待检测视频是否经过替换，包括：

10.根据权利要求1所述的视频替换检测方法，其特征在于，所述视频替换检测方法由视频替换检测模型执行；

所述提取每帧图像的图像特征向量，包括：所述图像经过所述特征提取子模型的特征提取，得到所述图像的图像特征向量；

所述生成所述待检测视频对应的视频特征向量，包括：各帧图像对应的图像特征向量经过所述特征融合子模型的处理，由所述特征融合子模型输出所述待检测视频对应的视频特征向量；

根据所述视频特征向量确定所述待检测视频是否经过替换，包括：所述视频特征向量经过所述检测子模型的处理，由所述检测子模型输出所述待检测视频是否经过替换的检测结果。

11.根据权利要求1所述的视频替换检测方法，其特征在于，提取每帧图像的图像特征向量，包括：

识别目标对象在各帧图像中所处的区域；

提取所述区域的图像特征向量。

12.一种用于视频替换检测的模型训练方法，其特征在于，包括：

获取多段视频样本，每段视频样本包含替换标注信息；

13.一种用于视频替换检测的模型训练方法，其特征在于，所述模型包含级联的特征提取子模型、特征融合子模型和检测子模型；

所述方法包括：

14.一种视频替换检测装置，其特征在于，包括：

15.一种用于视频替换检测的模型训练装置，其特征在于，包括：

16.一种用于视频替换检测的模型训练装置，其特征在于，所述模型包含级联的特征提取子模型、特征融合子模型和检测子模型；

所述装置包括：

17.一种电子设备，其特征在于，包括：

替换检测器；

用于存储替换检测器可执行指令的存储器；

其中，所述替换检测器通过运行所述可执行指令以实现如权利要求1-13中任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被替换检测器执行时实现如权利要求1-13中任一项所述方法的步骤。