CN112614111B

CN112614111B - 一种基于强化学习的视频篡改操作检测方法及装置

Info

Publication number: CN112614111B
Application number: CN202011552817.1A
Authority: CN
Inventors: 金骁; 许静; 何振; 于家伟; 吴杰胜; 易康
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2023-09-05
Anticipated expiration: 2040-12-24
Also published as: CN112614111A

Abstract

本申请提供了一种基于强化学习的视频篡改操作检测方法及装置，能够使得时间信息得到充分研究，有利于提高检测结果的准确性。该方法包括：确定待检测视频中一帧图像上的第一篡改区域；基于目标跟踪算法，在所述待检测视频中的其他帧图像中对所述第一篡改区域进行跟踪，确定所述其他帧图像中的篡改区域。

Description

一种基于强化学习的视频篡改操作检测方法及装置

技术领域

本申请涉及篡改检测技术领域，具体涉及一种基于强化学习的视频篡改操作检测方法及装置。

背景技术

近年来，涌现了大量基于深度学习的多媒体(如图像、视频)编辑工具和生成模型。普通人用肉眼分辨多媒体内容的真实性变得越来越困难，为了确保多媒体内容的真实性，需要对多媒体的内容进行取证。

由于视频传达的信息比图像更丰富，因此视频取证在研究界引起了越来越多的关注。但是之前的研究主要集中在图像的检测中，对视频的检测也是采用逐帧图像分别进行检测的方式，并未充分考虑视频的时间信息。

发明内容

有鉴于此，本申请实施例致力于提供一种基于强化学习的视频篡改操作检测方法及装置，使得时间信息得到充分研究，以提高检测结果的准确性。

本申请第一方面提供了一种基于强化学习的视频篡改操作检测方法，包括：确定待检测视频中一帧图像上的第一篡改区域；基于目标跟踪算法，在所述待检测视频中的其他帧图像中对所述第一篡改区域进行跟踪，确定所述其他帧图像中的篡改区域。

在一种可能的实现方式中，所述基于目标跟踪算法，在所述待检测视频中的其他帧图像中对所述第一篡改区域进行跟踪，确定所述其他帧图像中的篡改区域，包括：基于所述目标跟踪算法，在所述待检测视频中的其他帧图像中对所述第一篡改区域进行跟踪，确定所述其他帧图像中的目标边界框的位置和大小，所述目标边界框为所述其他帧图像中的与所述第一篡改区域对应的区域的边界框；将所述目标边界框的位置和大小还原到与其对应的所述其他帧图像中，分割出所述其他帧图像中的篡改区域。

在一种可能的实现方式中，所述分割出所述其他帧图像中的篡改区域，包括：通过语义分割模型对所述目标边界框中的图像进行分割，得到所述目标边界框中的目标对象，其中，所述目标对象为所述其他帧图像中的篡改区域。

在一种可能的实现方式中，所述基于所述目标跟踪算法，在所述待检测视频中的其他帧图像中对所述第一篡改区域进行跟踪，确定所述其他帧图像中的目标边界框的位置和大小，包括：将所述第一篡改区域作为样本，通过监督学习的方式进行训练，得到第一网络；将所述第一网络作为初始网络，通过强化学习的方式确定所述目标边界框的位置和大小。

在一种可能的实现方式中，所述第一篡改区域的篡改类型包括以下中的至少一种：拼接操作、复制移动操作和对象删除操作。

本申请第二方面提供了一种基于强化学习的视频篡改操作检测装置，包括用于执行本申请第一方面或第一方面中任一种可能的实现方式中所述的方法的单元。

本申请第三方面提供了一种基于强化学习的视频篡改操作检测装置，包括存储器和处理器。存储器用于存储指令，当所述指令被执行时，所述处理器用于执行如本申请第一方面或第一方面中任一种可能的实现方式中所述的方法。

上述装置可以是一个或多个芯片，该处理器可以通过硬件来实现也可以通过软件来实现，当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于该处理器之外，独立存在。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序(也可以称为代码或指令)，当所述计算机程序在计算机上运行时，是的计算机执行如本申请第一方面或第一方面中任一实施例中所述的方法。

基于上述技术方案，本申请并不是对视频中的每一帧图像单独进行篡改检测，而是在检测到某一帧图像上的第一篡改区域后，利用目标跟踪算法，对该第一篡改区域进行跟踪，从而确定其他帧图像上的篡改区域。通过目标跟踪算法，在跟踪的过程中能够使得时间信息得到充分利用，有利于提高检测结果的准确性。

附图说明

图1是本申请实施例提供的一种基于强化学习的视频篡改操作检测方法的示意性流程图。

图2是使用本申请提供的方法与其他方法的实验结果的对比示意图。

图3是本申请实施例提供的一种基于强化学习的视频篡改操作检测装置的示意性框图。

图4是本申请实施例提供的另一种基于强化学习的视频篡改操作检测装置的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

近年来，涌现了大量基于深度学习的多媒体(如图像、视频)编辑工具和生成模型。随着多媒体编辑工具的快速发展，篡改(或称为伪造)者无需专业技能即可方便地修改多媒体内容，视频篡改已经对我们生活的许多方面产生了负面影响，例如：假新闻、网络谣言、保险诈骗、甚至学术出版物等。普通用户和执法者对多媒体的身份验证感到苦恼，为了明确区分造假媒体和真实版本，多媒体取证已经进行了多年的研究。

在所有篡改操作中，基于对象的篡改操作在语义级别更改多媒体内容方面起着重要作用。一些常规操作，例如中值滤波、重采样，被用于减轻后处理中的篡改伪像。与这些常规操作不同，基于对象的伪造可以直接更改多媒体内容传递的消息。因此，本申请实施例的方法主要针对基于对象的篡改操作。

本申请实施例中的对象可以包括静态对象和动态对象。

一般而言，基于对象的篡改操作可分为三类：复制移动操作、拼接操作和对象删除操作。本申请实施例中的篡改操作的类型可以为其中的一种或多种类型。

复制移动操作是指添加同一视频中的对象，具体可以指复制当前视频中的一个区域以替换当前视频中的另一个区域。

拼接操作是指添加其他视频中的对象，具体可以指使用来自其他视频的内容替换部分当前视频中的内容。与复制移动操作不同，被篡改的区域必须来自另一个视频。

对象删除操作是指从当前视频中移除对象。

与图像相比，视频包含更丰富的运动信息和更高的数据维数，因此视频取证在研究界引起了越来越多的关注。但是之前的研究主要集中在图像的检测中，对视频的检测也是采用逐帧图像分别进行检测的方式，并未充分考虑视频的时间信息。

例如，在篡改检测中，是将视频分成多个帧图像，然后对该多个帧图像分别进行检测，来确定该多个帧图像的篡改区域。这种检测方式并未考虑连续帧图像在时间上的关联性，容易造成检测结果不准确。

基于此，本申请实施例提供一种基于强化学习的视频篡改操作检测的方法，能够在篡改检测的过程中考虑时间信息，提高检测结果的准确性。

如图1所示，该方法包括步骤S110～S120。

S110、确定待检测视频中一帧图像上的第一篡改区域的位置和大小。

该一帧图像可以是视频中的任意一帧被篡改的图像。例如，如果视频中有多帧图像被篡改，则该一帧图像可以是该多帧图像中的任意一帧图像。

当然，如果该一帧图像为该多帧被篡改的图像中的第一帧图像，则将在后续的跟踪过程中使得时间信息得到充分考虑，能够进一步提高检测结果的准确性。

本申请实施例中的篡改区域可以称为篡改痕迹特征，或者也可以称为特征图。

S120、基于目标跟踪算法，在所述待检测视频中的其他帧图像中对所述第一篡改区域进行跟踪，确定所述其他帧图像中的篡改区域。

本申请实施例通过对第一篡改区域进行跟踪，利用目标跟踪算法，跟踪其他帧图像中与第一篡改区域对应的区域，从而确定其他帧图像中的篡改区域。

本申请实施例并不是对视频中的每一帧图像单独进行篡改检测，而是在检测到某一帧图像上的第一篡改区域后，利用目标跟踪算法，对该第一篡改区域进行跟踪定位，从而确定其他帧图像上的篡改区域。通过目标跟踪算法，在跟踪的过程中能够使得时间信息得到充分利用，有利于提高检测结果的准确性。

本申请实施例对确定第一篡改区域的位置和大小的方式不做具体限定，具体采用的方式可以根据希望检测到的篡改类型进行确定。

如果是为了检测视频拼接操作，则可以使用例如传感器噪声的一致性来确定第一篡改区域。又如，如果是为了检测视频移动复制操作，则可以使用检测后处理操作的方式来确定第一篡改区域。

当然，上述方式仅是举例，并不对本申请实施例进行限定。例如，视频拼接操作还可以使用如全卷积神经网络的方式来检测，视频复制移动操作还可以使用图像块匹配的方法来检测等。

复制移动操作只能利用同一视频中的内容来替换候选对象，而视频拼接操作是使用来自其他视频的内容替换本视频的部分内容，与其他视频篡改操作相比，视频拼接操作在替代内容和篡改区域方面的限制较少。因此，视频拼接操作具有更广阔的应用范围。因此，下文主要以视频拼接操为例作进行说明。

由于在视频拼接操作中，被篡改的区域必须来自另一个视频，因此，拼接的视频内容是由不同的成像管道生成的，我们可以基于这个成像特性对视频拼接操作进行检测。

作为成像特性的一个示例，对于不同的视频，其传感器噪声是不一致的，我们可以通过检测传感器噪声的一致性来检测视频的拼接操作。

传感器噪声一致性检测的方式有多种，本申请实施例可以使用可交换图像文件格式(exchangeable image file format，EXIF)元数据进行检测。EXIF元数据可以记录数据视频采集过程中的特征信息，拼接操作会改变EXIF元数据的一致性，通过判断EXIF元数据是否一致可以检测视频中是否有拼接操作，其中，该EXIF元数据可以包括以下中的至少一种：图像的像素数、焦距和光圈等信息。

本申请实施例对检测EXIF元数据是否一致的方式不做具体限定。例如，可以使用ResNet-50的孪生网络来比较不同区域在视频中的一致性。

首先可以将输入的待检测视频的一帧图像分成n个m×m的图像块，其中，n、m均为正整数，m×m的图像块可以为128×128的图像块。然后对每两个图像块进行自一致性评估，观测他们的EXIF元数据是否一致。由于单一对的图像块的自一致性是有噪声的，本申请实施例可以将许多观测数据聚合在一起，这样就可以得到一个合理稳定的整体图像的自一致性估计。然后可以根据最终的自一致性分数，确定该一帧图像中的第一篡改区域。

在确定了第一篡改区域之后，可以采用目标跟踪算法对第一篡改区域进行跟踪，从而确定其他帧图像的篡改区域。

本申请实施例对确定其他帧图像中的篡改区域的方式不做具体限定。

例如，可以直接使用预训练的网络模型对第一篡改区域进行跟踪，得到其他帧图像中的篡改区域，这种跟踪方式可以为像素级的跟踪方式。

又例如，可以先通过学习模型训练得到其他帧图像中的与第一篡改区域对应的边界框的信息，然后再将该边界框信息还原到对应的其他帧图像中，得到其他帧图像的篡改区域。这种方式在分割篡改区域的时候，融合了原始帧图像的信息，有利于提高检测结果的准确性。

下面对通过跟踪边界框来确定篡改区域的方式进行描述。

本申请实施例可以通过跟踪方式先确定其他帧图像中与该第一篡改区域对应的边界框的位置和大小，然后再将该边界框的位置和大小还原到与其对应的其他帧图像中，分割出其他帧图像中的篡改区域。

具体地，可以基于目标跟踪算法，在待检测视频中的其他帧图像中对第一篡改区域进行跟踪，确定其他帧图像中与第一篡改区域对应的边界框的位置和大小；然后将其他帧图像中的边界框的位置和大小与其对应的其他帧图像中，以分割出其他帧图像中的篡改区域。

在还原的过程中，将每一帧图像中的边界框还原到与其对应的帧图像上，以分割出该帧图像上的篡改区域。

举例说明，假设第一篡改区域为第一帧图像中的篡改区域，通过目标跟踪方式确定第二帧图像中的与第一篡改区域对应的边界框的位置和大小，为方便描述，这里可以将该边界框称为边界框a。然后可以根据边界框a的位置和大小，将该边界框a还原到第二帧图像中的对应位置，并分割出边界框a中的图像区域，得到第二帧图像的篡改区域。其他帧图像的篡改区域的确定方式类似，此处不再重复描述。

另外，在分割篡改区域的过程中，还可以考虑图像的语义信息。基于语义分割模型，对边界框中的图像进行分割，得到边界框中的目标对象，该目标对象即为篡改区域。

仍以第二帧图像中的边界框a为例，在分割边界框a中的图像区域时，不是直接沿着边界框a的边界进行分割，而是会考虑边界框a中的图像的语义信息，分割出边界框a中的目标对象。例如，如果边界框a中包括的目标对象为汽车，则在分割篡改区域的过程中，可以沿着汽车的轮廓进行分割以得到该汽车图像。

本申请实施例在确定篡改区域的过程中，还融合了图像的语义信息，充分考虑了物体的轮廓信息，物体轮廓被用作指导定位结果的线索，能够进一步提高检测结果的准确性。

本申请实施例对采用的目标跟踪算法不做具体限定，只要该算法能够达到目标跟踪的效果即可。

例如，可以采用深度强化网络对篡改区域进行跟踪，通过利用深度学习强大的表示能力，能够降低处理复杂度，提高处理速度。

本申请实施例提供的深度强化网络例如可以包括监督学习(supervisedlearning，SL)和强化学习(reinforcement learning，RL)两个阶段，通过监督学习和强化学习可以跟踪目标边界框的位置和大小。通过监督学习的方法训练网络，来学习目标对象的外观特征；利用策略梯度的强化学习方法训练跟踪目标的动作状态。

SL阶段：可以将第一篡改区域作为样本，通过监督学习的方式进行训练，得到第一网络；RL阶段：将SL阶段训练的第一网络作为初始网络，通过强化学习的方式确定其他帧图像中的边界框的位置和大小。

SL阶段从第一篡改区域中提取样本来训练我们的网络选择动作，以跟踪目标位置。RL阶段使用SL阶段训练的网络作为初始网络，通过跟踪模拟器，使用由采样状态、动作和奖励组成的训练序列来执行RL，在每一帧图像中迭代地将初始边界框移动到目标边界框。在RL阶段刚开始选择的初始边界框可能并不是与第一篡改区域对应的边界框，然后通过不断地学习、移动边界框的位置，最终得到目标边界框，该目标边界框为与第一篡改区域最匹配的边界框。

下文给出了一种SL阶段和RL阶段的具体过程，但这仅是一种示例，本申请实施例并不限于此，SL阶段和RL阶段还可以采用其他的训练方式。

SL阶段：将步骤S110中得到的篡改检测结果(如第一篡改区域)作为本阶段的输入。首先生成训练样本，该训练样本可以包括图像块{p_j}，动作标签和置信分数标签/>其中，图像块p_j是由在ground_truth中添加高斯噪声获得的，对应的动作标签计算公式为：

其中，G表示ground_truth，表示图像块P_j经过动作a移动后的图像块。

置信分数标签O_j ^(con)的定义如下：

训练批次从生成的训练样本中选取，通过随机梯度下降最小化多任务损失函数来训练网络，学习率设置为0.0003，最小批次大小(minibatch_size)设置为64，优化器采用AdamOptimizer。

多任务损失函数定义如下：

其中，m表示批次大小，L表示交叉熵损失，和/>分别代表通过网络预测得到的动作和置信分数。

RL阶段：

该阶段的跟踪策略可以遵循马尔可夫决策过程，该过程包括状态、动作和激励。

动作是在一个离散空间中定义的动作，例如包括上下左右等11种动作，被用来迭代地在每一帧图像中寻找目标边界框的位置和大小。

状态包括目标和之前操作的边界框的位置信息，时刻t下的状态被定义为一个元祖(p_t；d_t)，p_t代表边界框中的图像块，d_t代表之前的动作(k个动作向量的串联)，d_t＝[Φ(a_t-1),Φ(a_t-2)...Φ(a_t-k)]，其中，Φ(.)是one_hot编码，k为正整数。

激励可以利用IoU指标衡量边界框内的图像块与目标真实值之间的重合度。

初始的RL网络的参数W_RL与SL阶段训练的网络相同，在每次迭代中，通过累积最近的k个动作，并以先入先出的策略进行移动来更新d_t。

首先随机选取一组训练序列和/>然后通过跟踪使用ground_truth标注的视频序列来实现RL。在第l帧时，状态s_t,l时的动作a_t,l定义如下：

其中，p(a|s_t,l；W_RL)表示网络对给定状态s_t,l产生的可能的动作的概率分布。当跟踪完成后，使用ground_truth计算跟踪分数和激励值。通过返回的激励值对网络参数W_RL进行更新优化，并迭代更新边界框的位置，使其更接近目标区域。

本申请实施例对分割出边界框的目标对象的方式不做具体限定。例如可以采用语义分割、实例分割或全景分割的方式进行分割。

作为一种实现方式，本申请实施例可以使用边界框(bounding boxes)的弱监督情景语义分割方法分割出目标边界框中的目标对象。

对于拼接操作，本申请实施例可以将视频拼接检测建模为视频对象分割问题，然后将传感器级别的噪声特征与语义级别的特征融合在一起，可以获得更好的检测效果。

在分割目标对象的过程中，可以直接根据某一帧图像上的边界框与该帧图像，分割出该帧图像上的目标对象。或者还可以在分割的过程中，进一步进行跟踪操作，这样能够过滤掉一些噪声，使得分割结果更好。例如，通过上述步骤分割出的目标边界框中可能还会包括除目标对象之外的其他物体，通过在分割过程中增加跟踪操作，视频跟踪策略为最终的定位结果提供了弱监督的信息，从而可以细化分割结果，使得分割出的篡改区域包含更少的噪声。

在分割的过程中提供弱监督能够提高检测结果的准确性，并且对处理速度也不会产生很大影响。本申请实施例对使用的弱监督分割网络模型不做具体限定，例如可以为AlexNet、视觉几何组(visual geometry group，VGG)、谷歌网(GoogleNet)、ResNet和ReNet等。

下面以VGG为例，对本申请实施例使用的网络模型进行描述。

该网络模型可以是基于VGG网络的视频前景内容识别模型，可以将待检测视频和目标边界框的位置和大小作为该模型的输入。该模型包括卷积层和整流线性单元(rectified linear unit，ReLU)层，分为5个阶段。在跟踪过程中，可以将待检测视频中的某一帧图像输入到该模型中，在该模型中的各个阶段之间，随着网络层数加深，池化操作会缩小特征图的大小，即在每个阶段会得到不同尺度的特征图。我们从每个阶段的最后一层形成单独的跳过路径将卷积层连接起来，从而可以采集到多尺度的特征图。将来自不同路径的不同大小的特征图采用上采样操作，构成包含不同层次信息的特征图，然后将特征图融合到具有与原始图像相同尺寸的单个输出，从而可以得到该帧图像上的篡改区域。

首先在图像网络(ImageNet)数据集上预先训练该网络，用于图像标记。然后在DAVIS数据集或Pascal VOC分割数据集上进一步训练。最后利用该训练好的网络，输入待检测视频和对应的边界框的位置和大小信息分割出目标对象。

本申请实施例的检测结果可以如图2所示，其中，第二行和第五行为目标真值，第三行和第六行为采用本申请实施例的方法的检测结果。由图2可知，采用本申请实施例的方法得到的篡改区域与目标真值之间的差异很小，因此，本申请实施例的方法具有较好的检测效果。

另外，将本申请实施例的方法与其他方法在分组粒子(group ement particules，GRIP)数据集和VTD数据集上进行实验，具体的实验结果如可以表1和表2所示。表1示出的是与High-pass FCN、LSTM-EnDec检测方法在GRIP数据集上进行比较的对比结果，表2示出的是与Noiseprint、LSTM-EnDec检测方法在VTD数据集上进行比较的对比结果。

本申请实施例使用的量化指标可以包括Recall、Prec、F1、MCC、IoU，其中，量化指标的值越大，表明检测结果越好。从表1和表2可以看出，与其他方法相比较，本申请实施例的方法具有优越性。

表1

表2

在表1中，将本申请实施例的方法与High-pass FCN、LSTM-EnDec方式进行比较，本申请实施例的各项指标均明显高于其他两种方式，因此，本申请实施例的检测方式优于High-pass FCN、LSTM-EnDec方式。

在表2中，将本申请实施例的方法与Noiseprint、LSTM-EnDec的方式进行比较，本申请实施例的各项指标均明显高于其他两种方式，因此，本申请实施例的检测方式优于Noiseprint、LSTM-EnDec方式。

本申请实施例采用的量化指标的计算方法可以如下：

其中，TP是真正例，FP是假正例，FN是假反例，TN是真反例，M是预测出的特征图，G是真实标注。

上文详细描述了本申请的方法实施例，下面结合图3和图4描述本申请的装置实施例，装置实施例与方法实施例的内容对应，未描述的特征可以参照上文的方法实施例，此处不再重复描述。

图3是本申请实施例提供的一种基于强化学习的视频篡改操作检测装置，该装置300包括用于执行上文描述的任一种方法的单元。可选地，该装置300包括处理单元310。

该处理单元310可用于：确定待检测视频中一帧图像上的第一篡改区域；基于目标跟踪算法，在所述待检测视频中的其他帧图像中对所述第一篡改区域进行跟踪，确定所述其他帧图像中的篡改区域。

可选地，该处理单元310用于：基于所述目标跟踪算法，在所述待检测视频中的其他帧图像中对所述第一篡改区域进行跟踪，确定所述其他帧图像中的目标边界框的位置和大小，所述目标边界框为所述其他帧图像中的与所述第一篡改区域对应的区域的边界框；将所述目标边界框的位置和大小还原到所述待检测视频中，分割出所述其他帧图像中的篡改区域。

可选地，该处理单元310用于：通过语义分割模型对所述目标边界框中的图像进行分割，得到所述目标边界框中的目标对象，其中，所述目标对象为所述其他帧图像中的篡改区域。

可选地，该处理单元310用于：将所述第一篡改区域作为样本，通过监督学习的方式进行训练，得到第一网络；将所述第一网络作为初始网络，通过强化学习的方式确定所述目标边界框的位置和大小。

可选地，所述第一篡改区域的篡改类型包括以下中的至少一种：拼接操作、复制移动操作和对象删除操作。

可选地，本申请实施例中的处理单元310可以由处理器实现。

如图4所示，本申请实施例还提供另一种基于强化学习的视频篡改操作检测装置，该装置400包括存储器410和处理器420。

该存储器410可用于存储指令，当该指令被执行时，处理器420可用于执行如上文描述的任一种方法。可选地，该存储器410还可用于存储处理器420执行的代码、指示信息等。

应理解，处理器420可以是集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器410可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(directrambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本申请实施例还提供一种计算机存储介质，该计算机存储介质可以存储用于指示上述任一种方法的程序指令。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于强化学习的视频篡改操作检测方法，其特征在于，包括：

使用EXIF元数据检测待检测视频中一帧图像上的第一篡改区域，所述第一篡改区域的篡改类型为拼接操作；

将所述第一篡改区域作为样本，通过监督学习的方式进行训练，得到第一网络；

将所述第一网络作为初始网络，通过强化学习的方式对所述初始网络进行更新并迭代更新边界框的位置，得到目标边界框的位置和大小；

基于VGG网络的视频前景内容识别模型，将所述待检测视频和所述目标边界框的位置和大小作为输入，通过池化操作得到多尺度的特征图；

将所述多尺度的特征图进行上采样操作，构成包含不同层次信息的特征图；

将所述不同层次信息的特征图融合到具有与原始图像相同尺寸的单个输出，得到其他帧图像中的篡改区域。

2.一种基于强化学习的视频篡改操作检测装置，其特征在于，包括：用于执行如权利要求1所述的方法的单元。

3.一种基于强化学习的视频篡改操作检测装置，其特征在于，包括：存储器和处理器，所述存储器用于存储指令，当所述指令被执行时，所述处理器用于执行如权利要求1所述的方法。

4.一种计算机可读存储介质，其特征在于，包括：计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行如权利要求1所述的方法。