CN117011740A

CN117011740A - 视频检测方法和装置、存储介质及电子设备

Info

Publication number: CN117011740A
Application number: CN202211289026.3A
Authority: CN
Inventors: 顾智浩; 姚太平; 陈阳; 丁守鸿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-11-07
Also published as: WO2024082943A1; US20240212392A1

Abstract

本申请公开了一种视频检测方法和装置、存储介质及电子设备。其中，该方法包括：从待处理的视频中提取N个视频片段，N个视频片段包括待识别的初始对象，根据N个视频片段确定N个视频片段的目标识别结果，其中，目标识别结果表示初始对象是被编辑过的对象的概率，目标识别结果由片段内表征向量和片段间表征向量确定，片段内表征向量用于表示N个视频片段中的每个视频片段中的帧图像之间的不一致信息，片段间表征向量用于表示N个视频片段之间的不一致信息。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。本申请解决了相关技术中检测视频中的对象是否被编辑过的准确率较低的技术问题。

Description

视频检测方法和装置、存储介质及电子设备

技术领域

本申请涉及计算机领域，具体而言，涉及一种视频检测方法和装置、存储介质及电子设备。

背景技术

随着视频编辑技术的快速发展，利用伪造人脸(deepfake)等技术生成的视频在社交媒体上传播，但是，伪造人脸技术在人脸核验等领域会造成一定的困扰，需要判断视频是否为被编辑过的视频，目前存在的方法主要分为两大类：1)基于图像的人脸编辑检测方法；2)基于视频的人脸编辑检测方法。

其中，基于图像的检测方法通过挖掘帧层面的判别的特征来进行编辑检测，但是，随着编辑技术的发展，帧层面的伪造痕迹几乎很难被捕捉到，难以在视频检测过程中保持较高的准确率。基于现有的视频人脸编辑检测方法，其将视频人脸编辑检测视为一个视频层面的表示学习问题，仅仅对长时序不一致性进行了建模而完全忽略了短时的不一致性，检测效果依然难以保证准确率。

发明内容

本申请实施例提供了一种视频检测方法和装置、存储介质及电子设备，以至少解决相关技术中检测视频中的对象是否被编辑过的准确率较低的技术问题。

根据本申请实施例的一个方面，提供了一种视频检测方法，包括：从待处理的视频中提取N个视频片段，其中，所述N个视频片段中的每个视频片段包括M帧图像，所述N个视频片段包括待识别的初始对象，所述N、M均为大于或等于2的正整数；根据所述N个视频片段确定所述N个视频片段的目标表征向量，并根据所述目标表征向量确定目标识别结果，其中，所述目标识别结果表示所述初始对象是被编辑过的对象的概率；其中，所述目标表征向量是根据片段内表征向量和片段间表征向量确定得到的表征向量，所述片段内表征向量由第一表征向量确定，所述第一表征向量是所述N个视频片段中的每个视频片段对应的中间表征向量，所述片段内表征向量用于表示所述N个视频片段中的每个视频片段中的帧图像之间的不一致信息，所述片段间表征向量由第二表征向量确定，所述第二表征向量是所述N个视频片段中的每个视频片段对应的中间表征向量，所述片段间表征向量用于表示所述N个视频片段之间的不一致信息。

根据本申请实施例的另一方面，还提供了一种视频检测装置，包括：提取模块，用于从待处理的视频中提取N个视频片段，其中，所述N个视频片段中的每个视频片段包括M帧图像，所述N个视频片段包括待识别的初始对象，所述N、M均为大于或等于2的正整数；处理模块，用于根据所述N个视频片段确定所述N个视频片段的目标表征向量，并根据所述目标表征向量确定目标识别结果，其中，所述目标识别结果表示所述初始对象是被编辑过的对象的概率；其中，所述目标表征向量是根据片段内表征向量和片段间表征向量确定得到的表征向量，所述片段内表征向量由第一表征向量确定，所述第一表征向量是所述N个视频片段中的每个视频片段对应的中间表征向量，所述片段内表征向量用于表示所述N个视频片段中的每个视频片段中的帧图像之间的不一致信息，所述片段间表征向量由第二表征向量确定，所述第二表征向量是所述N个视频片段中的每个视频片段对应的中间表征向量，所述片段间表征向量用于表示所述N个视频片段之间的不一致信息。

可选地，所述装置还用于：沿通道维度分割所述第一表征向量，得到第一子表征向量；根据所述第一子表征向量确定目标卷积核，其中，所述目标卷积核是与所述第一表征向量相对应的卷积核；确定与所述第一子表征向量对应的目标权重矩阵，其中，所述目标权重矩阵用于基于注意力机制提取相邻所述帧图像之间的运动信息；根据所述第一子表征向量、所述目标权重矩阵以及所述目标卷积核确定第一目标子表征向量；将所述第一子表征向量和所述第一目标子表征向量拼接为所述片段内表征向量。

可选地，所述装置用于通过如下方式根据所述第一子表征向量确定目标卷积核：对所述第一子表征向量执行全局平均池化操作，得到压缩了空间维度的所述第一子表征向量；将所述压缩了空间维度的所述第一子表征向量执行全连接操作，以确定初始卷积核；对所述初始卷积核进行归一化操作得到所述目标卷积核。

可选地，所述装置用于通过如下方式确定与所述第一子表征向量对应的目标权重矩阵：对所述第一子表征向量执行双向时序差分操作，确定所述第一表征向量对应的视频片段中相邻所述帧图像之间的第一差值矩阵；将所述第一差值矩阵沿水平维度和竖直维度分别重塑为水平不一致性参数矩阵和竖直不一致性参数矩阵；根据所述水平不一致性参数矩阵和所述竖直不一致性参数矩阵确定竖直注意力权重矩阵和水平注意力权重矩阵，其中，所述目标权重矩阵包括所述竖直注意力权重矩阵和所述水平注意力权重矩阵。

可选地，所述装置用于通过如下方式根据所述第一子表征向量、所述目标权重矩阵以及所述目标卷积核确定第二子表征向量：对所述竖直注意力权重矩阵、所述水平注意力权重矩阵与所述第一子表征向量执行逐元素相乘操作，并将所述逐元素相乘操作的结果与所述第一子表征向量合并，得到第三子表征向量；采用所述目标卷积核对所述第三子表征向量执行卷积操作，确定所述第二子表征向量。

可选地，所述装置还用于：对所述第二表征向量执行全局平均池化操作，得到压缩了空间维度的全局表征向量；将所述全局表征向量划分为第一全局子表征向量和第二全局子表征向量，其中，所述第一全局子表征向量用于表征与所述第二表征向量对应的视频片段，所述第二全局子表征向量用于表征与所述第二表征向量对应的视频片段和相邻视频片段之间的交互信息；根据所述全局表征向量、所述第一全局子表征向量和所述第二全局子表征向量确定所述片段间表征向量。

可选地，所述装置用于通过如下方式将所述全局表征向量划分为第一全局子表征向量和第二全局子表征向量：利用第一卷积核对所述全局表征向量执行卷积操作，得到降低维度的所述全局表征向量；对所述降低维度的所述全局表征向量执行归一化操作，得到归一化的所述全局表征向量；利用第二卷积核对所述归一化的所述全局表征向量执行反卷积操作，得到与所述全局表征向量维度相同的所述第一全局子表征向量；对所述全局表征向量执行双向时序差分操作确定所述第二表征向量对应的视频片段和相邻视频片段之间的第二差值矩阵和第三差值矩阵；根据所述第二差值矩阵和所述第三差值矩阵生成所述第二全局子表征向量。

可选地，所述装置用于通过如下方式根据所述全局表征向量、所述第一全局子表征向量和所述第二全局子表征向量确定所述片段间表征向量：对所述第一全局子表征向量、所述第二全局子表征向量与所述全局表征向量执行逐元素相乘操作，并将所述逐元素相乘操作的结果与所述全局表征向量合并，得到第三全局子表征向量；采用第三卷积核对所述第三全局子表征向量执行卷积操作，确定所述片段间表征向量。

根据本申请实施例的又一方面，还提供了一种视频检测模型，包括：提取模块，用于从待处理的视频中提取N个视频片段，其中，所述N个视频片段中的每个视频片段包括M帧图像，所述N个视频片段包括待识别的初始对象，所述N、M均为大于或等于2的正整数；目标神经网络模型，用于根据输入的所述N个视频片段，得到目标识别结果，其中，所述目标识别结果表示所述初始对象是被编辑过的对象的概率，所述目标神经网络模型包括目标骨干网络和目标分类网络，所述目标骨干网络用于根据输入的所述N个视频片段确定所述N个视频片段的目标表征向量，所述目标分类网络用于根据所述目标表征向量确定所述目标识别结果；其中，所述目标骨干网络包括片段内识别模块和片段间识别模块，所述片段内识别模块用于根据输入所述片段内识别模块的第一表征向量确定片段内表征向量，所述第一表征向量是所述N个视频片段中的每个视频片段对应的中间表征向量，所述片段内表征向量用于表示所述N个视频片段中的每个视频片段中的帧图像之间的不一致信息，所述片段间识别模块用于根据输入所述片段间识别模块的第二表征向量确定片段间表征向量，所述第二表征向量是所述N个视频片段中的每个视频片段对应的中间表征向量，所述片段间表征向量用于表示所述N个视频片段之间的不一致信息，所述目标表征向量是根据所述片段内表征向量和所述片段间表征向量确定得到的表征向量。

可选地，所述模型还包括：获取模块，用于获取所述N个视频片段的原始表征向量；第一网络结构，用于根据所述原始表征向量，确定输入到所述片段内识别模块的所述第一表征向量；所述片段内识别模块，用于根据所述第一表征向量确定所述片段内表征向量；第二网络结构，用于根据所述原始表征向量，确定输入到所述片段间识别模块的所述第二表征向量；所述片段间识别模块，用于根据所述第二表征向量确定所述片段间表征向量；第三网络结构，用于根据所述片段内表征向量和所述片段间表征向量确定所述目标表征向量。

可选地，所述目标骨干网络，包括：交替放置的所述片段内识别模块和所述片段间识别模块。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述视频检测方法。

根据本申请实施例的又一方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上视频检测方法。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的视频检测方法。

在本申请实施例中，采用从待处理的视频中提取N个视频片段，其中，N个视频片段中的每个视频片段包括M帧图像，N个视频片段包括待识别的初始对象，N、M均为大于或等于2的正整数，根据N个视频片段确定N个视频片段的目标表征向量，并根据目标表征向量确定目标识别结果，其中，目标识别结果表示初始对象是被编辑过的对象的概率，其中，目标表征向量是根据片段内表征向量和片段间表征向量确定得到的表征向量，片段内表征向量由第一表征向量确定，第一表征向量是N个视频片段中的每个视频片段对应的中间表征向量，片段内表征向量用于表示N个视频片段中的每个视频片段中的帧图像之间的不一致信息，片段间表征向量由第二表征向量确定，第二表征向量是N个视频片段中的每个视频片段对应的中间表征向量，片段间表征向量用于表示N个视频片段之间的不一致信息的方式，通过挖掘局部运动以及提出了一种新的采样单元“视频片段采样”，以进行针对局部运动的不一致性建模，利用片段内识别模块以及片段间识别模块建立动态不一致性模型，以获取每个视频片段内部的短时运动，接着，通过获取跨视频片段之间的信息交互形成全局表示，能够即插即用到卷积神经网络中，最终，达到了优化视频中对象是否被编辑过的检测效果的目的，从而实现了提高检测视频中的对象是否被编辑过的准确率的技术效果，进而解决了相关技术中检测视频中的对象是否被编辑过的准确率较低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的视频检测方法的应用环境的示意图；

图2是根据本申请实施例的一种可选的视频检测方法的流程示意图；

图3是根据本申请实施例的一种可选的视频检测方法的示意图；

图4是根据本申请实施例的又一种可选的视频检测方法的示意图；

图5是根据本申请实施例的又一种可选的视频检测方法的示意图；

图6是根据本申请实施例的又一种可选的视频检测方法的示意图；

图7是根据本申请实施例的又一种可选的视频检测方法的示意图；

图8是根据本申请实施例的又一种可选的视频检测方法的示意图；

图9是根据本申请实施例的又一种可选的视频检测方法的示意图；

图10是根据本申请实施例的一种可选的视频检测装置的结构示意图；

图11是根据本申请实施例的一种可选的视频检测产品的结构示意图；

图12是根据本申请实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

DeepFake：人脸伪造；

snippet:包含少量视频帧的视频片段；

Intra-SIM:Intra-Snippet Inconsistency Module，片段间不一致性模型；

Inter-SIM:inter-Snippet Interaction Module，片段内不一致性模型。

下面结合实施例对本申请进行说明：

根据本申请实施例的一个方面，提供了一种视频检测方法，可选地，在本实施例中，上述视频检测方法可以应用于如图1所示的由服务器101和终端设备103所构成的硬件环境中。如图1所示，服务器101通过网络与终端103进行连接，可用于为终端设备或终端设备上安装的应用程序提供服务，应用程序可以是视频应用程序、即时通信应用程序、浏览器应用程序、教育应用程序、游戏应用程序等。可在服务器上或独立于服务器设置数据库105，用于为服务器101提供数据存储服务，例如，视频数据存储服务器，上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络，终端设备103可以是配置有应用程序的终端，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等计算机设备，上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。

结合图1所示，上述视频检测方法可以在终端设备103通过如下步骤实现：

S1，从待处理的视频中提取N个视频片段，其中，N个视频片段中的每个视频片段包括M帧图像，N个视频片段包括待识别的初始对象，N、M均为大于或等于2的正整数；

S2，根据N个视频片段确定N个视频片段的目标表征向量，并根据目标表征向量确定目标识别结果，其中，目标识别结果表示初始对象是被编辑过的对象的概率；

其中，目标表征向量是根据片段内表征向量和片段间表征向量确定得到的表征向量，片段内表征向量由第一表征向量确定，第一表征向量是N个视频片段中的每个视频片段对应的中间表征向量，片段内表征向量用于表示N个视频片段中的每个视频片段中的帧图像之间的不一致信息，片段间表征向量由第二表征向量确定，第二表征向量是N个视频片段中的每个视频片段对应的中间表征向量，片段间表征向量用于表示N个视频片段之间的不一致信息。

可选地，在本实施例中，上述视频检测方法还可以通过服务器实现，例如，图1所示的服务器101中实现；或由用户终端和服务器共同实现。

上述仅是一种示例，本实施例不做具体的限定。

可选地，作为一种可选的实施方式，如图2所示，上述视频检测方法包括：

S202，从待处理的视频中提取N个视频片段，其中，N个视频片段中的每个视频片段包括M帧图像，N个视频片段包括待识别的初始对象，N、M均为大于或等于2的正整数；

可选地，在本实施例中，上述待处理的视频可以包括但不限于包含待识别的初始对象的视频，上述从待处理的视频中提取N个视频片段可以理解为利用采样工具将视频等间隔采样若干帧，然后，通过检测算法对上述初始对象所在区域进行框定，并以该框为中心区域扩大预定倍数并裁剪，使得裁剪结果包含初始对象以及初始对象周围的部分背景区域，若在同一帧中检测到多个初始对象，可以包括但不限于直接保存所有初始对象作为待识别的初始对象。

可选地，在本实施例中，可以将上述待处理的视频划分为N个视频片段，并进行提取，上述N个视频片段中各个视频片联之间允许相隔一定数量的帧图像。上述N个视频片段中每个视频片段所包括的M帧图像是连续的，各个帧图像之间不允许相隔帧图像。

例如，将待处理的视频划分为A片段、B片段以及C片段，其中，A片段与B片段相隔20帧图像，B片段与C片段相隔5帧图像，而A片段中包括从第1帧至第5帧图像，B片段包括从第26帧至第30帧图像，C片段包括从第36帧至第40帧图像。

S204，根据N个视频片段确定N个视频片段的目标表征向量，并根据目标表征向量确定目标识别结果，其中，目标识别结果表示初始对象是被编辑过的对象的概率；

可选地，上述目标识别结果表示初始对象是被编辑过的对象的概率，可以理解为上述待处理的视频是被编辑过的视频的概率或者，上述待处理的视频中的初始对象是被编辑过的对象的概率。

在一个示例性的实施例中，上述视频检测方法可以包括但不限于应用于如下结构的模型：

提取模块，用于从待处理的视频中提取N个视频片段，其中，N个视频片段中的每个视频片段包括M帧图像，N个视频片段包括待识别的初始对象，N、M均为大于或等于2的正整数；

目标神经网络模型，用于根据输入的N个视频片段，得到目标识别结果，其中，目标识别结果表示初始对象是被编辑过的对象的概率，目标神经网络模型包括目标骨干网络和目标分类网络，目标骨干网络用于根据输入的N个视频片段确定N个视频片段的目标表征向量，目标分类网络用于根据目标表征向量确定目标识别结果；

其中，目标骨干网络包括片段内识别模块和片段间识别模块，片段内识别模块用于根据输入片段内识别模块的第一表征向量确定片段内表征向量，第一表征向量是N个视频片段中的每个视频片段对应的中间表征向量，片段内表征向量用于表示N个视频片段中的每个视频片段中的帧图像之间的不一致信息，片段间识别模块用于根据输入片段间识别模块的第二表征向量确定片段间表征向量，第二表征向量是N个视频片段中的每个视频片段对应的中间表征向量，片段间表征向量用于表示N个视频片段之间的不一致信息，目标表征向量是根据片段内表征向量和片段间表征向量确定得到的表征向量。

需要说明的是，上述模型还包括：获取模块，用于获取N个视频片段的原始表征向量；第一网络结构，用于根据原始表征向量，确定输入到片段内识别模块的第一表征向量；片段内识别模块，用于根据第一表征向量确定片段内表征向量；第二网络结构，用于根据原始表征向量，确定输入到片段间识别模块的第二表征向量；片段间识别模块，用于根据第二表征向量确定片段间表征向量；第三网络结构，用于根据片段内表征向量和片段间表征向量确定目标表征向量。

在一个示例性的实施例中，上述目标骨干网络包括交替放置的片段内识别模块和片段间识别模块。

可选地，在本实施例中，上述目标神经网络模型可以包括但不限于由目标骨干网络和目标分类网络共同组成的模型，上述目标骨干网络用于确定表征上述输入的视频片段的目标表征向量，上述目标分类网络用于根据目标表征向量确定上述目标识别结果。

需要说明的是，上述目标神经网络模型可以部署在服务器，也可以部署在终端设备，还可以部署在服务器进行训练，并部署在终端设备进行应用和测试。

可选地，在本实施例中，上述目标神经网络模型可以是基于人工智能技术进行训练和使用的神经网络模型，其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

可选地，在本实施例中，上述目标骨干网络可以包括但不限于ResNet50模型、LTSM模型等，以输出用于表征输入的视频片段的表征向量，上述目标分类网络可以包括但不限于二分类模型等，以输出相应的概率。

在一个示例性的实施例中，上述目标骨干网络包括片段内识别模块和片段间识别模块，其中，片段内识别模块用于根据输入片段内识别模块的第一表征向量确定视频片段中的帧图像之间的不一致信息，例如，通过片段内识别模块使用双向的时序差值操作以及一个可学习的卷积来挖掘到视频片段内的短时运动，片段间识别模块用于根据输入片段间识别模块的第二表征向量确定视频片段与相邻视频片段之间的不一致信息，例如，片段间识别模块通过促进跨视频片段的信息交互来形成全局表征向量。

示例性地，图3是根据本申请实施例的一种可选的视频检测方法的示意图，如图3所示，待处理的视频被划分为片段1、片段2、片段3、片段4，将上述片段1、片段2、片段3、片段4输入上述目标神经网络模型的目标骨干网络，以通过片段内识别模型和片段间识别模型分别确定视频片段中的相邻帧图像之间的不一致信息以及视频片段与相邻视频片段之间的不一致信息，进而通过上述目标分类网络输出上述待处理的视频中的初始对象是被编辑过的对象的概率，最终，将上述概率与预设阈值(一般为0.5)进行比较，确定上述待处理的视频中的初始对象是否是被编辑过的对象，当概率小于上述预设阈值时，输出结果为1，表示上述待处理的视频中的初始对象是被编辑过的对象，当概率大于或等于上述预设阈值时，输出结果为0，上述待处理的视频中的初始对象不是被编辑过的对象。

可选地，在本实施例中，深度人脸编辑技术推动产业发展的同时也给人脸核身带来巨大的挑战。上述视频检测方法可以提高人脸核身验证产品的安全性，包括人脸支付、身份认证等多项业务。还可以为云平台提供强有力的视频筛查工具，确保视频内容的可信度，从而提高视频鉴伪的能力。

可选地，在本实施例中，上述原始表征向量可以基于卷积神经网络对N个视频片段进行卷积操作，以提取上述原始表征向量。

在一个示例性的实施例中，图4是根据本申请实施例的另一种可选的视频检测方法的示意图，如图4所示，上述片段内识别模型可以包括但不限于Intra-SIM模型，包括但不限于如下步骤：

S1，沿通道维度分割第一表征向量，得到第一子表征向量；

S2，根据第一子表征向量确定目标卷积核，其中，目标卷积核是与第一表征向量相对应的卷积核；

S3确定与第一子表征向量对应的目标权重矩阵，其中，目标权重矩阵用于基于注意力机制提取相邻帧图像之间的运动信息；

S4，根据第一子表征向量、目标权重矩阵以及目标卷积核确定第一目标子表征向量；

S5，将第一子表征向量和第一目标子表征向量拼接为片段内表征向量。

上述仅是一种示例，本实施例不做任何具体的限定。

在一个示例性的实施例中，图5是根据本申请实施例的又一种可选的视频检测方法的示意图，如图5所示，上述片段内识别模型可以包括但不限于Inter-SIM模型，包括但不限于如下步骤：

S1，对第二表征向量执行全局平均池化操作，得到压缩了空间维度的全局表征向量；

S2，将全局表征向量输入预先训练的二分支模型，得到第一全局子表征向量和第二全局子表征向量，其中，第一全局子表征向量用于表征与第二表征向量对应的视频片段，第二全局子表征向量用于表征与第二表征向量对应的视频片段和相邻视频片段之间的交互信息；

S3，根据全局表征向量、第一全局子表征向量和第二全局子表征向量确定片段间表征向量。

上述仅是一种示例，本实施例不做任何具体限定。

需要说明的是，在一个示例性的实施例中，图6是根据本申请实施例的又一种可选的视频检测方法的示意图，如图6所示，上述目标骨干网络包括：Conv卷积层、Stage1、Stage2、Stage3、Stage4以及FC模块(全连接层)，多个视频片段输入Conv卷积层先提取特征，再依次输入上述Stage1、Stage2、Stage3、Stage4，上述Stage1、Stage2、Stage3、Stage4每个分别交替部署有Intra-SIM以及Inter-SIM。

通过本实施例，采用从待处理的视频中提取N个视频片段，其中，N个视频片段中的每个视频片段包括M帧图像，N个视频片段包括待识别的初始对象，N、M均为大于或等于2的正整数，根据N个视频片段确定N个视频片段的目标表征向量，并根据目标表征向量确定目标识别结果，其中，目标识别结果表示初始对象是被编辑过的对象的概率，其中，目标表征向量是根据片段内表征向量和片段间表征向量确定得到的表征向量，片段内表征向量由第一表征向量确定，第一表征向量是N个视频片段中的每个视频片段对应的中间表征向量，片段内表征向量用于表示N个视频片段中的每个视频片段中的帧图像之间的不一致信息，片段间表征向量由第二表征向量确定，第二表征向量是N个视频片段中的每个视频片段对应的中间表征向量，片段间表征向量用于表示N个视频片段之间的不一致信息的方式，通过挖掘局部运动以及提出了一种新的采样单元“视频片段采样”，以进行针对局部运动的不一致性建模，利用片段内识别模块以及片段间识别模块建立动态不一致性模型，以获取每个视频片段内部的短时运动，接着，通过获取跨视频片段之间的信息交互形成全局表示，能够即插即用到卷积神经网络中，最终，达到了优化视频中对象是否被编辑过的检测效果的目的，从而实现了提高检测视频中的对象是否被编辑过的准确率的技术效果，进而解决了相关技术中检测视频中的对象是否被编辑过的准确率较低的技术问题。

作为一种可选的实施例，根据第一子表征向量确定目标卷积核，包括：对第一子表征向量执行全局平均池化操作，得到压缩了空间维度的第一子表征向量；将压缩了空间维度的第一子表征向量执行全连接操作，以确定初始卷积核；对初始卷积核进行归一化操作得到目标卷积核。

可选地，在本实施例中，上述全局平均池化操作可以包括但不限于为GAP(GlobalAverage Pooling，全局平均池化操作)，上述GAP操作可以将第一子表征向量的空间维度进行压缩，最终得到空间维度为1的第一子表征向量。

可选地，在本实施例中，上述归一化操作可以包括但不限于使用softmax操作将初始卷积核归一化为目标卷积核。

示例性地，在时序卷积核的学习过程中，首先使用全局平均池化(GAP)操作将第一子表征向量压缩空间维度为1，接着，经过两个全连接层φ₁：R^T→R^γT和φ₂：R^γT→R^k学习到卷积核，最后，使用softmax操作将卷积核归一化：

其中，表示函数复合，δ是ReLU非线性激活函数。

作为一种可选的实施例，确定与第一子表征向量对应的目标权重矩阵，包括：对第一子表征向量执行双向时序差分操作，确定第一表征向量对应的视频片段中相邻帧图像之间的第一差值矩阵；将第一差值矩阵沿水平维度和竖直维度分别重塑为水平不一致性参数矩阵和竖直不一致性参数矩阵；根据水平不一致性参数矩阵和竖直不一致性参数矩阵确定竖直注意力权重矩阵和水平注意力权重矩阵，其中，目标权重矩阵包括竖直注意力权重矩阵和水平注意力权重矩阵。

可选地，在本实施例中，为了对时序关系进行建模，Intra-SIMA使用双向时序差分使得模型关注局部运动。假设I₂＝[F₁，...，F_T]∈R^C×T×H×W，首先被压缩通道r倍，接着计算相邻帧间的第一差值矩阵：

D_t，t+1＝F_t-Conv_3×3(F_t+1)，#(1)

其中，D_t，t+1表示F_t的前向差分表示(对应于前述的第一差值矩阵)，Conv_3×3是一个可分离的卷积。

可选地，在本实施例中，可以包括但不限于使D_t，t+1沿着宽度维度和高度维度重塑成以及/>再经过一个多尺度结构来抓取更加精细的短时运动信息：

其中，以及Conv_1×1分别表示前向竖直不一致性参数矩阵，前向水平不一致性参数矩阵以及1×1卷积，后向竖直不一致性/>和后向水平不一致性/>可以经过相似的计算得到，再根据前向竖直不一致性参数矩阵、前向水平不一致性参数矩阵、后向竖直不一致性参数矩阵和后向水平不一致性参数矩阵确定竖直注意力权重矩阵和水平注意力权重矩阵。

具体而言，可以包括但不限于将平均后的前向不一致性参数矩阵和后向不一致性参数矩阵还原成原始表征向量的通道大小后，经过sigmoid函数便可得到竖直注意力Atten_H以及水平注意力Atten_W。

作为一种可选的实施例，根据第一子表征向量、目标权重矩阵以及目标卷积核确定第二子表征向量，包括：对竖直注意力权重矩阵、水平注意力权重矩阵与第一子表征向量执行逐元素相乘操作，并将逐元素相乘操作的结果与第一子表征向量合并，得到第三子表征向量；采用目标卷积核对第三子表征向量执行卷积操作，确定第二子表征向量。

可选地，在本实施例中，片段内识别模块可以包括但不限于建模为：

其中，表示可分离卷积，⊙代表逐元素乘积。最后，输出O_intra＝Concat[I₁，O₂]。

作为一种可选的实施例，根据第二表征向量确定片段间表征向量，包括：对第二表征向量执行全局平均池化操作，得到压缩了空间维度的全局表征向量；将全局表征向量输入预先训练的二分支模型，得到第一全局子表征向量和第二全局子表征向量，其中，第一全局子表征向量用于表征与第二表征向量对应的视频片段，第二全局子表征向量用于表征与第二表征向量对应的视频片段和相邻视频片段之间的交互信息；根据全局表征向量、第一全局子表征向量和第二全局子表征向量确定片段间表征向量。

可选地，在本实施例中，上述全局平均池化操作可以包括但不限于GAP(GlobalAverage Pooling，全局平均池化层)操作，上述压缩了空间维度的全局表征向量可以包括但不限于将第二表征向量的空间维度压缩为1，以得到上述全局表征向量，上述二分支模型可以包括但不限于输入如图7所示的Inter-SIM中执行完GAP操作后对应的模型结构，其中，上述第一全局子表征向量表示右侧Conv2d，1x1输出的中间表征向量，上述第二全局子表征向量表示左侧Inter-SMA输出的中间表征向量，上述根据全局表征向量、第一全局子表征向量和第二全局子表征向量确定片段间表征向量可以包括但不限于如图7所示，将Conv2d，1x1输出的中间表征向量与Inter-SMA输出的中间表征向量以及原始输入(全局表征向量)执行点乘操作，得到上述片段间表征向量。

需要说明的，上述片段间表征向量还可以与输入的第二表征向量执行合并操作，以得到具有更多细节、更高层次信息的片段间表征向量。

作为一种可选的实施例，将全局表征向量输入预先训练的二分支模型，得到第一全局子表征向量和第二全局子表征向量，包括：

利用第一卷积核对全局表征向量执行卷积操作，得到降低维度的全局表征向量；

对降低维度的全局表征向量执行归一化操作，得到归一化的全局表征向量；

利用第二卷积核对归一化的全局表征向量执行反卷积操作，得到与全局表征向量维度相同的第一全局子表征向量；

对全局表征向量执行双向时序差分操作确定第二表征向量对应的视频片段和相邻视频片段之间的第二差值矩阵和第三差值矩阵；

根据第二差值矩阵和第三差值矩阵生成第二全局子表征向量。

可选地，在本实施例中，上述第一卷积核可以包括但不限于尺寸为3x1的Conv2d卷积核，以对全局表征向量执行卷积操作，得到降低维度的全局表征向量，上述执行归一化操作可以包括但不限于BN(Batch-Normal，批量归一化)操作，得到归一化的全局表征向量，上述第二卷积核可以包括但不限于尺寸为1x1的Conv2d卷积核，以执行上述反卷积操作，得到上述第一全局子表征向量。

具体而言，可以包括但不限于如下公式：

其中，表示上述全局表征向量，/>表示上述第一全局子表征向量。

可选地，在本实施例中，上述对全局表征向量执行双向时序差分操作确定第二表征向量对应的视频片段和相邻视频片段之间的第二差值矩阵和第三差值矩阵可以包括但不限于通过正向时序差分运算和反向时序差分运算分别得到上述第二差值矩阵和第三差值矩阵。

具体而言，可以包括但不限于如下公式：

其中，u表示第二表征向量对应的视频片段，u+1表示与第二表征向量对应的视频片段相邻的视频片段，此时，即为上述第二差值矩阵，/>即为上述第三差值矩阵。

需要说明的是，上述第二全局子表征向量可以包括但不限于通过如下公式确定：

其中，表示上述第二全局子表征向量，σ表示sigmoid激活函数。

作为一种可选的实施例，根据全局表征向量、第一全局子表征向量和第二全局子表征向量确定片段间表征向量，包括：

对第一全局子表征向量、第二全局子表征向量与全局表征向量执行逐元素相乘操作，并将逐元素相乘操作的结果与全局表征向量合并，得到第三全局子表征向量；

采用第三卷积核对第三全局子表征向量执行卷积操作，确定片段间表征向量。

可选地，在本实施例中，上述第三全局子表征向量可以包括但不限于通过如下公式确定：

其中，Fv表示上述第三全局子表征向量。

可选地，在本实施例中，上述采用第三卷积核对第三全局子表征向量执行卷积操作，确定片段间表征向量，可以包括但不限于通过如下公式确定：

其中，O_inter即为上述片段间表征向量。

作为一种可选的实施例，根据片段内表征向量和片段间表征向量确定目标表征向量，包括：

将片段内表征向量和第一表征向量合并，得到中间表征向量，其中，中间表征向量包括第二表征向量；

将中间表征向量和片段间表征向量合并，得到目标表征向量，其中，片段内识别模块和片段间识别模块在目标神经网络模型中交替放置。

可选地，在本实施例中，上述片段内识别模块和片段间识别模块在神经网络模型中是交替放置的。如图6所示，Intra-SI Block即为上述片段内识别模块，Inter-SI Block即为上述片段间识别模块，每个片段内识别模块的输出均与自身的输入进行叠加，以作为连接的后一个片段间识别模块的输入，每个片段间识别模块的输出均与自身的输入进行叠加，以作为连接的后一个片段内识别模块的输入。

下面结合具体的示例，对本申请进行进一步解释说明：

本申请提出了一种基于动态不一致性学习的视频换脸检测方法，当前视频DeepFake检测方法试图基于时序建模来抓取真假脸之间的判别特征。但是由于通常在稀疏采样的帧上施加监督，会忽略了相邻帧之间的局部运动。该类局部运动蕴含着丰富的不一致性信息并且能够作为有效的视频DeepFake检测指标。

因此，通过挖掘局部运动以及提出了一种新的采样单元—snippet来进行局部的不一致性建模，此外，通过设计了snippet内不一致性模块(Intra-SIM)以及snippet间交互模块(Inter-SIM)来建立一种动态不一致性建模框架。

特别地，Intra-SIM使用双向的时序差值操作以及一个可学习的卷积来挖掘到每个snippet内的短时运动。接着，Inter-SIM通过促进跨snippet信息交互来形成全局表示。这两个模块能够即插即用到存在的2D卷积神经网络中，并且由它们形成的基本单元是交替放置的。上述方案在四个基线数据集上达到领先，大量的实验以及可视化也进一步展示了上述方法的优越性。

在相关应用场景中，深度人脸编辑技术推动娱乐产业发展的同时也给人脸核身带来巨大的挑战。本申请实施例可以提高人脸核身验证产品的安全性，包括人脸支付、身份认证等多项业务。本申请实施例还可以为云平台提供强有力的视频筛查工具，确保视频内容的可信度，从而提高视频鉴伪的能力。

示例性地，图7是根据本申请实施例的又一种可选的视频检测方法的示意图，如图7所示，本申请主要提出了Intra-SIM以及Inter-SIM，上述Intra-SIM以及Inter-SIM均交替部署于stage1、stage2、stage3、stage4中，以stage3为例进行说明，前者用于抓取snippet内的不一致信息而后者是用来促进跨snippet的信息交互。将Intra-SIM以及Inter-SIM插入ResNet-50的基本块(block)中的3×3卷积前面，分别形成Intra-SI块(Intra-SI block)以及Inter-SI块(Inter-SI block)并将他们交替放置。

本申请提出了Intra-SIM对蕴含在每个snippet中的局部不一致性进行建模。Intra-SIM是一个双流结构(跳连拼接操作为了保存原始的表示)。该双流结构包含了一个Intra-SIM注意力机(Intra-SIMA)以及一条具有可学习时序卷积的通路。特别地，假设输入张量I∈R^C×T×H×W表示某个snippet，其中C，T，H，W分别表示通道，时间，高和宽维度。首先将I沿着通道分裂成两部分I₁和I₂，分别保留原特征以及输入到双流结构，为了对时序关系进行建模，Intra-SIMA使用双向时序差分来使得模型关注局部运动。假设I₂＝[F₁，...，F_T]∈R^C ^×T×H×W，它首先被压缩通道r倍，接着计算相邻帧间的差：

D_t，t+1＝F_t-Conv_3×3(F_t+l)，#(1)

其中D_t，t+1表示F_t的前向差分表示，Conv_3×3是一个可分离的卷积。随后D_t，t+1沿着两个空间维度重塑成以及/> 经过一个多尺度结构来抓取更加精细的短时运动信息：

其中以及Conv_1×1分别表示前向竖直不一致性，前向水平不一致性以及1×1卷积。后向竖直不一致性/>和后向水平不一致性/>可以经过相似的计算得到。将平均后的前向和后向不一致性还原成原始通道大小后，经过一个sigmoid函数便可得到竖直注意力Atten_H以及水平注意力Atten_W。在时序卷积学习分支中，首先使用一个全局平均池化(GAP)操作压缩空间维度为1，接着经过两个全连接层φ₁：R^T→R^γT和φ₂：R^γT→R^k学习到卷积核，最后使用softmax操作将卷积核归一化：

其中表示函数复合，δ是ReLU非线性激活函数。一旦得到Intra-SIMA以及时序卷积核，snippet内不一致性则建模为：

其中表示可分离卷积，⊙代表逐元素乘积。最后，得到模块的输出O_intra＝Concat[I₁，O₂]。

Intra-SIM自适应地抓取snippet内不一致性，但是它仅仅包含了时序的局部信息而忽略了snippet间的关系。因此，本申请设计了Inter-SIM，从一个全局的视角来促进跨snippet的信息交互。特别地，假设F∈R^{T×C×U×H×W}是Inter-SIM的输入。首先经过一个GAP操作来获得一个全局表示接着经过一个二分支结构来进行不同的交互建模。这两个分支相互补充。其中一个分支直接抓取snippet间交互而没有引入snippet内的信息：

其中，Conv_3×1是卷积核大小为3×1的空间卷积。该卷积用来提取snippet层面的特征并且起到维度降低的作用。Conv_1×1的卷积核为1×1，用来恢复通道维度。另一个分支从一个更大的snippet内角度出发来计算交互作用。假设是/>经Conv_1×1压缩通道维度得到的特征，则snippet间的交互首先由Conv_1×3抓取，接着与公式(1)类似，双向脸部运动建模为：

将带有snippet间交互的信息定义为：

最后，交互后的snippet表示为：

其中Conv_U是核为3×1的2D卷积。O_inter因此能够接触到snippet内以及跨snippet的信息。

需要说明的是，上述视频检测方法还可以包括但不限于如下内容：

1)数据预处理流程：

首先利用OpenCV将人脸视频等间隔采样150帧，然后通过开源人脸检测算法MTCNN对人脸所在区域进行框定，并以该框为中心区域扩大1.2倍并裁剪，使得结果包含整个人脸及周围的部分背景区域。若在同一帧中检测到多个人脸，我们直接保存所有人脸。

实现细节：

S1，构建训练数据集：对于伪造视频与原始视频数量不平衡的数据集，分别构造两个数据生成器来实现训练时类别的平衡；

S2，训练细节：ResNet-50为骨架网络并且权重是在ImageNet上进行预训练的。Intra-SIM以及Inter-SIM是随机初始化的，使用基于mini-batch的方法，其中，batch大小为10，分别抽取U＝4个snippet，每个包含T＝4帧进行训练。

需要说明的是，上述输入的每一帧图像大小调整为224x224，采用Adam优化算法对二值交叉熵损失进行网络优化并训练30个循环，在跨数据集泛化性实验上训练45个循环。初始学习率为0.0001且每10个循环就减小十分之一，训练时，可以包括但不限于使用了水平翻转来进行数据扩充。

模型推断：使用U＝8个snippet，每个包含T＝4帧来进行测试。对于一个测试视频，先等间距分成8段，然后在每一段中取中间帧来组成测试该视频的视频序列，接着该序列送入预先训练好的模型并得到一个概率值，用于表示该视频为人脸编辑视频的概率(概率值越大代表视频中人脸被编辑过的概率越大)。

本申请设计了两个通用的视频人脸编辑检测模块。这些模块能够自适应地挖掘snippet内的不一致性以及促进不同snippet间的信息交互，从而有效地提高算法在视频人脸编辑检测任务上的精度与泛化性。

图8是根据本申请实施例的又一种可选的视频检测方法的示意图，如图8所示，虽然网络在训练时使用了视频级别的标签，但是对于不同的攻击类型，模型仍然能够很好地定位伪造区域。

除此以外，还可以包括但不限于对不同的运动状态中的伪造进行检测，图9是根据本申请实施例的又一种可选的视频检测方法的示意图，如图9所示，在小幅度运动以及大幅度运动的视频中包含部分伪造的人脸。

当这两段视频经过网络后，可视化Inter-SIM中的U-T map，可见，本申请提出的框架能够很好的鉴别部分人脸伪造。

本方法中设计的inter-SIM也可以采用其他信息融合方法，例如采用LSTM、Self-attention等结构。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的另一个方面，还提供了一种用于实施上述视频检测方法的视频检测装置。如图10所示，该装置包括：

提取模块1002，用于从待处理的视频中提取N个视频片段，其中，所述N个视频片段中的每个视频片段包括M帧图像，所述N个视频片段包括待识别的初始对象，所述N、M均为大于或等于2的正整数；

处理模块1004，用于根据所述N个视频片段确定所述N个视频片段的目标表征向量，并根据所述目标表征向量确定目标识别结果，其中，所述目标识别结果表示所述初始对象是被编辑过的对象的概率；其中，所述目标表征向量是根据片段内表征向量和片段间表征向量确定得到的表征向量，所述片段内表征向量由第一表征向量确定，所述第一表征向量是所述N个视频片段中的每个视频片段对应的中间表征向量，所述片段内表征向量用于表示所述N个视频片段中的每个视频片段中的帧图像之间的不一致信息，所述片段间表征向量由第二表征向量确定，所述第二表征向量是所述N个视频片段中的每个视频片段对应的中间表征向量，所述片段间表征向量用于表示所述N个视频片段之间的不一致信息。

作为一种可选的方案，所述装置还用于：沿通道维度分割所述第一表征向量，得到第一子表征向量；根据所述第一子表征向量确定目标卷积核，其中，所述目标卷积核是与所述第一表征向量相对应的卷积核；确定与所述第一子表征向量对应的目标权重矩阵，其中，所述目标权重矩阵用于基于注意力机制提取相邻所述帧图像之间的运动信息；根据所述第一子表征向量、所述目标权重矩阵以及所述目标卷积核确定第一目标子表征向量；将所述第一子表征向量和所述第一目标子表征向量拼接为所述片段内表征向量。

作为一种可选的方案，所述装置用于通过如下方式根据所述第一子表征向量确定目标卷积核：对所述第一子表征向量执行全局平均池化操作，得到压缩了空间维度的所述第一子表征向量；将所述压缩了空间维度的所述第一子表征向量执行全连接操作，以确定初始卷积核；对所述初始卷积核进行归一化操作得到所述目标卷积核。

作为一种可选的方案，所述装置用于通过如下方式确定与所述第一子表征向量对应的目标权重矩阵：对所述第一子表征向量执行双向时序差分操作，确定所述第一表征向量对应的视频片段中相邻所述帧图像之间的第一差值矩阵；将所述第一差值矩阵沿水平维度和竖直维度分别重塑为水平不一致性参数矩阵和竖直不一致性参数矩阵；根据所述水平不一致性参数矩阵和所述竖直不一致性参数矩阵确定竖直注意力权重矩阵和水平注意力权重矩阵，其中，所述目标权重矩阵包括所述竖直注意力权重矩阵和所述水平注意力权重矩阵。

作为一种可选的方案，所述装置用于通过如下方式根据所述第一子表征向量、所述目标权重矩阵以及所述目标卷积核确定第二子表征向量：对所述竖直注意力权重矩阵、所述水平注意力权重矩阵与所述第一子表征向量执行逐元素相乘操作，并将所述逐元素相乘操作的结果与所述第一子表征向量合并，得到第三子表征向量；采用所述目标卷积核对所述第三子表征向量执行卷积操作，确定所述第二子表征向量。

作为一种可选的方案，所述装置还用于：对所述第二表征向量执行全局平均池化操作，得到压缩了空间维度的全局表征向量；将所述全局表征向量划分为第一全局子表征向量和第二全局子表征向量，其中，所述第一全局子表征向量用于表征与所述第二表征向量对应的视频片段，所述第二全局子表征向量用于表征与所述第二表征向量对应的视频片段和相邻视频片段之间的交互信息；根据所述全局表征向量、所述第一全局子表征向量和所述第二全局子表征向量确定所述片段间表征向量。

作为一种可选的方案，所述装置用于通过如下方式将所述全局表征向量划分为第一全局子表征向量和第二全局子表征向量：利用第一卷积核对所述全局表征向量执行卷积操作，得到降低维度的所述全局表征向量；对所述降低维度的所述全局表征向量执行归一化操作，得到归一化的所述全局表征向量；利用第二卷积核对所述归一化的所述全局表征向量执行反卷积操作，得到与所述全局表征向量维度相同的所述第一全局子表征向量；对所述全局表征向量执行双向时序差分操作确定所述第二表征向量对应的视频片段和相邻视频片段之间的第二差值矩阵和第三差值矩阵；根据所述第二差值矩阵和所述第三差值矩阵生成所述第二全局子表征向量。

作为一种可选的方案，所述装置用于通过如下方式根据所述全局表征向量、所述第一全局子表征向量和所述第二全局子表征向量确定所述片段间表征向量：对所述第一全局子表征向量、所述第二全局子表征向量与所述全局表征向量执行逐元素相乘操作，并将所述逐元素相乘操作的结果与所述全局表征向量合并，得到第三全局子表征向量；采用第三卷积核对所述第三全局子表征向量执行卷积操作，确定所述片段间表征向量。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

作为一种可选的方案，所述模型还包括：获取模块，用于获取所述N个视频片段的原始表征向量；第一网络结构，用于根据所述原始表征向量，确定输入到所述片段内识别模块的所述第一表征向量；所述片段内识别模块，用于根据所述第一表征向量确定所述片段内表征向量；第二网络结构，用于根据所述原始表征向量，确定输入到所述片段间识别模块的所述第二表征向量；所述片段间识别模块，用于根据所述第二表征向量确定所述片段间表征向量；第三网络结构，用于根据所述片段内表征向量和所述片段间表征向量确定所述目标表征向量。

作为一种可选的方案，所述目标骨干网络，包括：交替放置的所述片段内识别模块和所述片段间识别模块。

关于上述实施例中的模型，其中各个模块与网络结构执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理器1101执行时，执行本申请实施例提供的各种功能。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

图11示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。

需要说明的是，图11示出的电子设备的计算机系统1100仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统1100包括中央处理器1101(Central Processing Unit，CPU)，其可以根据存储在只读存储器1102(Read-Only Memory，ROM)中的程序或者从存储部分1108加载到随机访问存储器1103(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1103中，还存储有系统操作所需的各种程序和数据。中央处理器1101、在只读存储器1102以及随机访问存储器1103通过总线1104彼此相连。输入/输出接口1105(Input/Output接口，即I/O接口)也连接至总线1104。

以下部件连接至输入/输出接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至输入/输出接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理器1101执行时，执行本申请的系统中限定的各种功能。

根据本申请实施例的又一个方面，还提供了一种用于实施上述视频检测方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图12所示，该电子设备包括存储器1202和处理器1204，该存储器1202中存储有计算机程序，该处理器1204被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本领域普通技术人员可以理解，图12所示的结构仅为示意，电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图12其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图12中所示更多或者更少的组件(如网络接口等)，或者具有与图12所示不同的配置。

其中，存储器1202可用于存储软件程序以及模块，如本申请实施例中的视频检测方法和装置对应的程序指令/模块，处理器1204通过运行存储在存储器1202内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频检测方法。存储器1202可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1202可进一步包括相对于处理器1204远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1202具体可以但不限于用于存储视频片段等信息。作为一种示例，如图12所示，上述存储器1202中可以但不限于包括上述视频检测装置中的提取模块1002以及处理模块1004。此外，还可以包括但不限于上述视频检测装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1206包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1206为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1208，用于显示上述待处理的视频；和连接总线1210，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频检测方面的各种可选实现方式中提供的视频检测方法。

可选地，在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频检测方法，其特征在于，包括：

从待处理的视频中提取N个视频片段，其中，所述N个视频片段中的每个视频片段包括M帧图像，所述N个视频片段包括待识别的初始对象，所述N、M均为大于或等于2的正整数；

根据所述N个视频片段确定所述N个视频片段的目标表征向量，并根据所述目标表征向量确定目标识别结果，其中，所述目标识别结果表示所述初始对象是被编辑过的对象的概率；

其中，所述目标表征向量是根据片段内表征向量和片段间表征向量确定得到的表征向量，所述片段内表征向量由第一表征向量确定，所述第一表征向量是所述N个视频片段中的每个视频片段对应的中间表征向量，所述片段内表征向量用于表示所述N个视频片段中的每个视频片段中的帧图像之间的不一致信息，所述片段间表征向量由第二表征向量确定，所述第二表征向量是所述N个视频片段中的每个视频片段对应的中间表征向量，所述片段间表征向量用于表示所述N个视频片段之间的不一致信息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

沿通道维度分割所述第一表征向量，得到第一子表征向量；

根据所述第一子表征向量确定目标卷积核，其中，所述目标卷积核是与所述第一表征向量相对应的卷积核；

确定与所述第一子表征向量对应的目标权重矩阵，其中，所述目标权重矩阵用于基于注意力机制提取相邻所述帧图像之间的运动信息；

根据所述第一子表征向量、所述目标权重矩阵以及所述目标卷积核确定第一目标子表征向量；

将所述第一子表征向量和所述第一目标子表征向量拼接为所述片段内表征向量。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一子表征向量确定目标卷积核，包括：

对所述第一子表征向量执行全局平均池化操作，得到压缩了空间维度的所述第一子表征向量；

将所述压缩了空间维度的所述第一子表征向量执行全连接操作，以确定初始卷积核；

对所述初始卷积核进行归一化操作得到所述目标卷积核。

4.根据权利要求2所述的方法，其特征在于，所述确定与所述第一子表征向量对应的目标权重矩阵，包括：

对所述第一子表征向量执行双向时序差分操作，确定所述第一表征向量对应的视频片段中相邻所述帧图像之间的第一差值矩阵；

将所述第一差值矩阵沿水平维度和竖直维度分别重塑为水平不一致性参数矩阵和竖直不一致性参数矩阵；

根据所述水平不一致性参数矩阵和所述竖直不一致性参数矩阵确定竖直注意力权重矩阵和水平注意力权重矩阵，其中，所述目标权重矩阵包括所述竖直注意力权重矩阵和所述水平注意力权重矩阵。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一子表征向量、所述目标权重矩阵以及所述目标卷积核确定第二子表征向量，包括：

对所述竖直注意力权重矩阵、所述水平注意力权重矩阵与所述第一子表征向量执行逐元素相乘操作，并将所述逐元素相乘操作的结果与所述第一子表征向量合并，得到第三子表征向量；

采用所述目标卷积核对所述第三子表征向量执行卷积操作，确定所述第二子表征向量。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述第二表征向量执行全局平均池化操作，得到压缩了空间维度的全局表征向量；

将所述全局表征向量划分为第一全局子表征向量和第二全局子表征向量，其中，所述第一全局子表征向量用于表征与所述第二表征向量对应的视频片段，所述第二全局子表征向量用于表征与所述第二表征向量对应的视频片段和相邻视频片段之间的交互信息；

根据所述全局表征向量、所述第一全局子表征向量和所述第二全局子表征向量确定所述片段间表征向量。

7.根据权利要求6所述的方法，其特征在于，所述将所述全局表征向量划分为第一全局子表征向量和第二全局子表征向量，包括：

利用第一卷积核对所述全局表征向量执行卷积操作，得到降低维度的所述全局表征向量；

对所述降低维度的所述全局表征向量执行归一化操作，得到归一化的所述全局表征向量；

利用第二卷积核对所述归一化的所述全局表征向量执行反卷积操作，得到与所述全局表征向量维度相同的所述第一全局子表征向量；

对所述全局表征向量执行双向时序差分操作确定所述第二表征向量对应的视频片段和相邻视频片段之间的第二差值矩阵和第三差值矩阵；

根据所述第二差值矩阵和所述第三差值矩阵生成所述第二全局子表征向量。

8.根据权利要求6所述的方法，其特征在于，所述根据所述全局表征向量、所述第一全局子表征向量和所述第二全局子表征向量确定所述片段间表征向量，包括：

对所述第一全局子表征向量、所述第二全局子表征向量与所述全局表征向量执行逐元素相乘操作，并将所述逐元素相乘操作的结果与所述全局表征向量合并，得到第三全局子表征向量；

采用第三卷积核对所述第三全局子表征向量执行卷积操作，确定所述片段间表征向量。

9.一种视频检测装置，其特征在于，包括：

提取模块，用于从待处理的视频中提取N个视频片段，其中，所述N个视频片段中的每个视频片段包括M帧图像，所述N个视频片段包括待识别的初始对象，所述N、M均为大于或等于2的正整数；

处理模块，用于根据所述N个视频片段确定所述N个视频片段的目标表征向量，并根据所述目标表征向量确定目标识别结果，其中，所述目标识别结果表示所述初始对象是被编辑过的对象的概率；

10.一种视频检测模型，其特征在于，包括：

目标神经网络模型，用于根据输入的所述N个视频片段，得到目标识别结果，其中，所述目标识别结果表示所述初始对象是被编辑过的对象的概率，所述目标神经网络模型包括目标骨干网络和目标分类网络，所述目标骨干网络用于根据输入的所述N个视频片段确定所述N个视频片段的目标表征向量，所述目标分类网络用于根据所述目标表征向量确定所述目标识别结果；

其中，所述目标骨干网络包括片段内识别模块和片段间识别模块，所述片段内识别模块用于根据输入所述片段内识别模块的第一表征向量确定片段内表征向量，所述第一表征向量是所述N个视频片段中的每个视频片段对应的中间表征向量，所述片段内表征向量用于表示所述N个视频片段中的每个视频片段中的帧图像之间的不一致信息，所述片段间识别模块用于根据输入所述片段间识别模块的第二表征向量确定片段间表征向量，所述第二表征向量是所述N个视频片段中的每个视频片段对应的中间表征向量，所述片段间表征向量用于表示所述N个视频片段之间的不一致信息，所述目标表征向量是根据所述片段内表征向量和所述片段间表征向量确定得到的表征向量。

11.根据权利要求10所述的模型，其特征在于，所述模型还包括：

获取模块，用于获取所述N个视频片段的原始表征向量；

第一网络结构，用于根据所述原始表征向量，确定输入到所述片段内识别模块的所述第一表征向量；

所述片段内识别模块，用于根据所述第一表征向量确定所述片段内表征向量；

第二网络结构，用于根据所述原始表征向量，确定输入到所述片段间识别模块的所述第二表征向量；

所述片段间识别模块，用于根据所述第二表征向量确定所述片段间表征向量；

第三网络结构，用于根据所述片段内表征向量和所述片段间表征向量确定所述目标表征向量。

12.根据权利要求10所述的模型，其特征在于，所述目标骨干网络，包括：

交替放置的所述片段内识别模块和所述片段间识别模块。

13.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序可被终端设备或计算机运行时执行所述权利要求1至10任一项中所述的方法。

14.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至10任一项中所述方法的步骤。

15.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至10任一项中所述的方法。