CN108961243A

CN108961243A - 一种基于机器学习的篡改视频标注方法及装置

Info

Publication number: CN108961243A
Application number: CN201810730546.0A
Authority: CN
Inventors: 翁韶伟; 易林; 姚晔
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-07-05
Filing date: 2018-07-05
Publication date: 2018-12-07

Abstract

本发明公开了一种基于机器学习的篡改视频标注方法及装置。本发明通过机器学习实现了篡改视频帧的人工标注与计算机标注的结合的标注方法，以篡改视频帧中人工标注的先验信息作为训练数据，通过训练回归预测模型，利用回归预测模型预测出未标注篡改视频帧中的篡改区域的标注框的坐标信息，解决了现有的篡改视频标注工序需要人工对每帧进行标注，极度耗费人力，导致了现有的篡改视频标注效率低的技术问题。

Description

一种基于机器学习的篡改视频标注方法及装置

技术领域

本发明涉及视频标注领域，尤其涉及一种基于机器学习的篡改视频标注方法及装置。

背景技术

随着深度学习的兴起，深度学习被大量应用于图像识别和处理，同时深度学习在视频处理和视频内容分析方面也有极其重要的应用。

视频篡改是指视频帧图像的某个重要目标(即视频对象)被覆盖或被替换，经过图像编辑和修补之后，使得该视频对象所在区域的修改痕迹很难通过肉眼来分辨的一种行为。在对篡改视频进行取证研究时，需要先对篡改视频的被篡改区域进行标注，而现有的篡改视频标注工序需要人工对每帧进行标注，极度耗费人力，导致了现有的篡改视频标注效率低的技术问题。

发明内容

本发明提供了一种基于机器学习的篡改视频标注方法及装置，用于解决现有技术篡改视频标注效率低的技术问题。

本发明提供了一种基于机器学习的篡改视频标注方法，包括：

S1：获取被篡改视频中的篡改视频帧，其中，所述篡改视频帧由已标注篡改视频帧和未标注篡改视频帧组成，且所述已标注篡改视频帧根据所述篡改视频帧对应的视频帧序列号顺序间隔设置；

S2：将所述篡改视频帧输入回归预测模型；

S3：根据所述已标注篡改视频帧中的标注框数据，通过调用Scikit learn算法库中的函数接口训练所述回归预测模型；

S4：判断所述回归预测模型训练的误差损失函数是否达到最小值，若是，则停止模型训练并执行步骤S5，若否，则返回执行步骤S3；

S5：通过训练好的所述回归预测模型对所述未标注篡改视频帧进行标注区域预测运算，输出所述未标注篡改视频帧中的标注框预测坐标。

优选地，所述步骤S3具体包括：

S31：根据所述已标注篡改视频帧中的标注框数据通过调用Scikit learn算法库中的函数接口训练所述回归预测模型；

其中，调用的Scikit learn算法库中的函数接口具体包括：

导入算法库：from sklearn import linear_model；

定义回归模型：model_LinearRegression＝linear_model.LinearRegression()；

回归模型训练：model_LinearRegression.fit(x_train,y_train)；

其中，x_train表示训练时输入的视频帧序列号，y_train表示用于训练的已标注篡改视频帧的篡改区域的标注框坐标信息。

优选地，所述步骤S5之后还包括：

S6：根据所述篡改视频帧对应的视频帧序列号顺序，对所有篡改视频帧进行排序，得到已完整标注的被篡改视频。

优选地，所述回归预测模型具体为SVM回归、随机森林回归、Adaboost回归、GBRT回归、Bagging回归或ExtraTree极端随机树回归中的任意一种。

本发明提供了一种基于机器学习的篡改视频标注装置，包括：

篡改视频帧获取单元，用于获取被篡改视频中的篡改视频帧，其中，所述篡改视频帧由已标注篡改视频帧和未标注篡改视频帧组成，且所述已标注篡改视频帧根据所述篡改视频帧对应的视频帧序列号顺序间隔设置；

训练数据输入单元，用于将所述篡改视频帧输入回归预测模型；

模型训练单元，用于根据所述已标注篡改视频帧中的标注框数据，通过调用Scikit learn算法库中的函数接口训练所述回归预测模型；

训练判断单元，用于判断所述回归预测模型训练的误差损失函数是否达到最小值，若是，则停止模型训练并触发标注坐标预测单元，若否，则返回运行模型训练单元；

标注坐标预测单元，用于通过训练好的所述回归预测模型对所述未标注篡改视频帧进行标注区域预测运算，输出所述未标注篡改视频帧中的标注框预测坐标。

优选地，所述模型训练单元具体用于：

根据所述已标注篡改视频帧中的标注框数据通过调用Scikit learn算法库中的函数接口训练所述回归预测模型；

其中，调用的Scikit learn算法库中的函数接口具体包括：

导入算法库：from sklearn import linear_model；

回归模型训练：model_LinearRegression.fit(x_train,y_train)；

其中，x_train表示训练时输入的已标注篡改视频帧对应的视频帧序列号，y_train表示用于训练的已标注篡改视频帧的篡改区域的标注框坐标信息。

优选地，还包括：

视频帧排序单元，用于根据所述篡改视频帧对应的视频帧序列号顺序，对所有篡改视频帧进行排序，得到已完整标注的被篡改视频。

从以上技术方案可以看出，本发明具有以下优点：

本发明提供了一种基于机器学习的篡改视频标注方法，包括：S1：获取被篡改视频中的篡改视频帧，其中，所述篡改视频帧由已标注篡改视频帧和未标注篡改视频帧组成，且所述已标注篡改视频帧根据所述篡改视频帧对应的视频帧序列号顺序间隔设置；S2：将所述篡改视频帧输入回归预测模型；S3：根据所述已标注篡改视频帧中的标注框数据训练所述回归预测模型；S4：判断所述回归预测模型训练的误差损失函数是否达到最小值，若是，则停止模型训练并执行步骤S5，若否，则返回执行步骤S3；S5：通过训练好的所述回归预测模型对所述未标注篡改视频帧进行标注区域预测运算，输出所述未标注篡改视频帧中的标注框预测坐标。

本发明通过机器学习实现了篡改视频帧的人工标注与计算机标注的结合的标注方法，以篡改视频帧中人工标注的先验信息作为训练数据，通过训练回归预测模型，利用回归预测模型预测出未标注篡改视频帧中的篡改区域的标注框的坐标信息，解决了现有的篡改视频标注工序需要人工对每帧进行标注，极度耗费人力，导致了现有的篡改视频标注效率低的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明提供的一种基于机器学习的篡改视频标注方法的第一个实施例的流程示意图；

图2为本发明提供的一种基于机器学习的篡改视频标注方法的第二个实施例的流程示意图；

图3为本发明提供的一种基于机器学习的篡改视频标注装置的一个实施例的结构示意图。

具体实施方式

本发明实施例提供了一种基于机器学习的篡改视频标注方法及装置，用于解决现有技术篡改视频标注效率低的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例提供了一种基于机器学习的篡改视频标注方法，包括：

101：获取被篡改视频中的篡改视频帧；

其中，篡改视频帧由已标注篡改视频帧和未标注篡改视频帧组成，且已标注篡改视频帧根据篡改视频帧对应的视频帧序列号顺序间隔设置，即每两个已标注篡改视频帧之间排列有若干数量的未标注篡改视频帧；

需要说明的是，由于目前的视频篡改操作大部分都是基于复制-粘贴替换掩盖原始视频实现。图像中的目标被剪切后，通过复制其它没有篡改视频目标相同区域来填补被移除的空白区域。复制来的区域在像素值上和相邻篡改图像的相同区域存在很大相似性，差值接近于零，因此，在获取篡改视频帧之前，需要先根据当前视频帧和与该当前视频帧相邻的相邻视频帧的像素差，判断当前视频帧属于篡改视频帧或非篡改视频帧，若当前视频帧与相邻视频帧存在大面积的像素相似区域，则当前视频帧为篡改视频帧。

102：将篡改视频帧输入回归预测模型；

需要说明的是，为了实现简单快速开发，在本实施例中，通过调用开源算法库sklearn来实现本发明提出的机器学习回归模型算法。不同的回归算法被机器学习封装在算法库Scikit learn中,通过定义回归模型调用统一的接口就可以直接调用回归器模型了。

103：根据已标注篡改视频帧中的标注框数据，通过调用Scikit learn算法库中的函数接口训练回归预测模型；

需要说明的是，本实施例中，在将数据输入模型中进行训练前，应先对数据进行初步处理。在本实施例中，定义有篡改则输出(x1,y1,x2,y2),没有篡改则输出(0,0,0,0)，因此在输入数据的时候应该将开始没有篡改的数据(0,0,0,0)去掉，然后将x和y分开，以便后续训练用，然后通过调用Scikit learn算法库中的函数接口将预处理好的x和y分别输入上一步骤定义好的回归模型中开始训练回归预测模型。

104：判断回归预测模型训练的误差损失函数是否达到最小值，若是，则停止模型训练并执行步骤105，若否，则返回执行步骤103；

需要说明的是，在模型训练的过程中，模型自动调用函数计算误差损失，利用随机梯度优化模型参数，通过判断误差损失是否达到最小，如果误差损失值不再减少，则模型训练完成，确定最优的参数，然后进入步骤105；如果误差损失仍继续减小，则说明误差损失没有达到最优，需要返回步骤103，再次读入数据继续训练。

105：通过训练好的回归预测模型对未标注篡改视频帧进行标注区域预测运算，输出未标注篡改视频帧中的标注框预测坐标。

需要说明的是，由于视频序列是一段连续的视频序列，如果有若干视频帧有篡改，那么该篡改视频帧相邻的视频帧也会有篡改，而且相邻视频帧的篡改区域的相关性非常大，通过调用上述步骤中已经训练好的回归器模型的预测接口函数，实现对输入篡改视频序列的篡改标记框位置的预测。

以上为本发明提供的一种基于机器学习的篡改视频标注方法的第一个实施例的详细描述，下面为本发明提供的一种基于机器学习的篡改视频标注方法的第二个实施例的详细描述。

请参阅图2，本发明实施例提供了一种基于机器学习的篡改视频标注方法，包括：

201：获取被篡改视频中的篡改视频帧；

202：将篡改视频帧输入回归预测模型；

需要说明的是，为了实现简单快速开发，在本实施例中，通过调用开源算法库sklearn来实现本发明提出的机器学习回归模型算法。不同的回归算法被机器学习封装在算法库Scikit learn中,通过定义回归模型调用统一的接口就可以直接调用回归器模型了，其中，回归器模型初始化如下：

model_LinearRegression＝linear_model.LinearRegression()；

其中，model_LinearRegression为返回的线性回归器模型句柄。可选用的其他回归器模型算法包括：SVM回归，随机森林回归，Adaboost回归，GBRT回归，Bagging回归，ExtraTree极端随机树回归等模型。这些回归算法都可以通过调用Scikit learn开源机的器学习库实现。

203：根据已标注篡改视频帧中的标注框数据，通过调用Scikit learn算法库中的函数接口训练回归预测模型；

需要说明的是，将数据输入模型中进行训练前，应先对数据进行初步处理。在本实施例中，定义有篡改则输出(x1,y1,x2,y2),没有篡改则输出(0,0,0,0)，因此在输入数据的时候应该将开始没有篡改的数据(0,0,0,0)去掉，然后将x和y分开，以便后续训练用，然后通过调用Scikit learn算法库中的函数接口将预处理好的x和y分别输入上一步骤定义好的回归模型中开始训练回归预测模型；

其中，回归器数据输入和模型训练如下：

model_LinearRegression.fit(x_train,y_train)；

其中，x_train为读入的视频图像序列号，y_train为人工标记的篡改视频框的左上角和右下角的坐标值，其中fit()为机器学习库Scikit learn定义的统一的API接口。

204：判断回归预测模型训练的误差损失函数是否达到最小值，若是，则停止模型训练并执行步骤205，若否，则返回执行步骤203；

需要说明的是，在模型训练的过程中，模型自动调用函数计算误差损失，通过优化调整模型的结构参数，使得模型与实际数据之间的误差减小，再通过判断误差损失是否达到最小，如果误差损失值不再减少，则模型训练完成，确定最优的参数，然后进入步骤205；如果误差损失仍继续减小，则说明误差损失没有达到最优，需要返回步骤203，再次读入数据继续训练。

205：通过训练好的回归预测模型对未标注篡改视频帧进行标注区域预测运算，输出未标注篡改视频帧中的标注框预测坐标。

需要说明的是，由于视频序列是一段连续的视频序列，如果有若干视频帧有篡改，那么该篡改视频帧相邻的视频帧也会有篡改，而且相邻视频帧的篡改区域的相关性非常大，通过调用上述步骤中已经训练好的回归器模型的预测接口函数，实现对输入篡改视频序列的篡改标记框位置的预测，未标记视频帧预测如下：

result＝model.predict(x_test)；

其中，x_test为读入的视频帧序列号，result为回归模型预测输出的标记框；

另外，对于一整段视频，如果视频前后篡改标注区域的变化非常大，而且变化不一样，则需要将标注的数据分段，利用多个模型分段预测；对于基本是匀速或者基本静止的标注框，可以用线性回归的方法拟合篡改区域在视频序列中的运动轨迹，其数学表达式如下：

Y＝X*W+b；

其中，X是视频帧的帧号，W为一个4x 1的线性系数矩阵，b为一个4x 1的标注框的初始坐标矩阵；

对于加速或者减速运动变化的标注框，可以利用逻辑回归的方法拟合篡改区域在视频序列中的轨迹，其数学表达式如下：

σ＝1/(1+e^-z)，z＝w₀x₀+w₁x₁+w₂x₂...+w_nx_n＝WX。

206：根据篡改视频帧对应的视频帧序列号顺序，对所有篡改视频帧进行排序，得到已完整标注的被篡改视频。

其中，所有篡改视频帧包括：模型训练前经过人工标注的已标注篡改视频帧和未经过人工标注，通过回归预测模型预测输出的包含有标注框预测坐标数据的未标注篡改视频帧。

本发明通过机器学习实现了篡改视频帧的人工标注与计算机标注的结合的标注方法，以篡改视频帧中人工标注的先验信息作为训练数据，通过训练回归预测模型，利用回归预测模型预测出未标注篡改视频帧中的篡改区域的标注框的坐标信息，解决了现有的篡改视频标注工序需要人工对每帧进行标注，极度耗费人力，导致了现有的篡改视频标注效率低的技术问题，同时，根据篡改视频帧对应的视频帧序列号顺序，对输出的篡改视频帧进行排序，得到包含有完整的标注框坐标信息的被篡改视频。

以上为本发明提供的一种基于机器学习的篡改视频标注方法的第二个实施例的详细描述，下面为本发明提供的一种基于机器学习的篡改视频标注装置的第一个实施例的详细描述。

请参阅图3，本发明提供了一种基于机器学习的篡改视频标注装置，包括：

篡改视频帧获取单元301，用于获取被篡改视频中的篡改视频帧，其中，篡改视频帧由已标注篡改视频帧和未标注篡改视频帧组成，且已标注篡改视频帧根据篡改视频帧对应的视频帧序列号顺序间隔设置；

训练数据输入单元302，用于将篡改视频帧输入回归预测模型；

模型训练单元303，用于根据已标注篡改视频帧中的标注框数据，通过调用Scikitlearn算法库中的函数接口训练回归预测模型；

训练判断单元304，用于判断回归预测模型训练的误差损失函数是否达到最小值，若是，则停止模型训练并触发标注坐标预测单元，若否，则返回运行模型训练单元；

标注坐标预测单元305，用于通过训练好的回归预测模型对未标注篡改视频帧进行标注区域预测运算，输出未标注篡改视频帧中的标注框预测坐标。

进一步地，模型训练单元303具体用于：

根据已标注篡改视频帧中的标注框数据通过调用Scikit learn算法库中的函数接口训练回归预测模型；

其中，调用的Scikit learn算法库中的函数接口具体包括：

导入算法库：from sklearn import linear_model；

回归模型训练：model_LinearRegression.fit(x_train,y_train)；

进一步地，还包括：

视频帧排序单元306，用于根据篡改视频帧对应的视频帧序列号顺序，对所有篡改视频帧进行排序，得到已完整标注的被篡改视频。

进一步地，回归预测模型具体为SVM回归、随机森林回归、Adaboost回归、GBRT回归、Bagging回归或ExtraTree极端随机树回归中的任意一种。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于机器学习的篡改视频标注方法，其特征在于，包括：

S2：将所述篡改视频帧输入回归预测模型；

2.根据权利要求1所述的一种基于机器学习的篡改视频标注方法，其特征在于，所述步骤S3具体包括：

其中，调用的Scikit learn算法库中的函数接口具体包括：

导入算法库：from sklearn import linear_model；

回归模型训练：model_LinearRegression.fit(x_train,y_train)；

3.根据权利要求1所述的一种基于机器学习的篡改视频标注方法，其特征在于，所述步骤S5之后还包括：

4.根据权利要求1至3任意一项所述的一种基于机器学习的篡改视频标注方法，其特征在于，所述回归预测模型具体为SVM回归、随机森林回归、Adaboost回归、GBRT回归、Bagging回归或ExtraTree极端随机树回归中的任意一种。

5.一种基于机器学习的篡改视频标注装置，其特征在于，包括：

模型训练单元，用于根据所述已标注篡改视频帧中的标注框数据，通过调用Scikitlearn算法库中的函数接口训练所述回归预测模型；

6.根据权利要求5所述的一种基于机器学习的篡改视频标注方法，其特征在于，所述模型训练单元具体用于：

其中，调用的Scikit learn算法库中的函数接口具体包括：

导入算法库：from sklearn import linear_model；

回归模型训练：model_LinearRegression.fit(x_train,y_train)；

7.根据权利要求5所述的一种基于机器学习的篡改视频标注方法，其特征在于，还包括：

8.根据权利要求5至7任意一项所述的一种基于机器学习的篡改视频标注方法，其特征在于，所述回归预测模型具体为SVM回归、随机森林回归、Adaboost回归、GBRT回归、Bagging回归或ExtraTree极端随机树回归中的任意一种。