CN108682007B

CN108682007B - 基于深度随机森林的jpeg图像重采样自动检测方法

Info

Publication number: CN108682007B
Application number: CN201810401354.5A
Authority: CN
Inventors: 王志锋; 左驰; 叶俊民; 田元; 闵秋莎; 夏丹; 陈迪; 罗恒; 谭政; 宁国勤
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2021-09-10
Anticipated expiration: 2038-04-28
Also published as: CN108682007A

Abstract

本发明属于信息安全技术领域，公开了一种基于深度随机森林的JPEG图像重采样自动检测方法，提取描述JPEG图像重压缩特性的特征向量：描述受重采样操作影响的局部周期相关性所呈现出的纹理特征；描述R、G、B通道受重采样操作影响的差异性的Benford特征；描述受重采样操作影响的DCT系数与其周围系数的关系的相邻系数差特征；描述JPEG图像重采样后出现的块效应特征。本发明利用典型相关分析将该四组特征向量进行融合，使用深度随机森林对融合后的特征向量进行学习和检测；有效识别图像重采样操作，通过量化四组特征向量之间的联系，使特征维数大大减少、降低了计算量、提高了特征之间的相关性，提升了检测精度。

Description

基于深度随机森林的JPEG图像重采样自动检测方法

技术领域

本发明属于信息安全、模式识别以及数字图像处理技术领域，尤其涉及一种基于深度随机森林的JPEG图像重采样自动检测方法。

背景技术

目前，业内常用的现有技术是这样的：

重采样操作的检测是一种用于恢复图像处理历史的辅助取证工具。当篡改者将两个或更多的图像拼接在一起时，为了创建“天衣无缝”的伪造图像，几乎都会需要几何变换(如缩放，旋转或倾斜)操作。几何重采样的变换的过程中通常需要重采样和插值这两个步骤，因此可以考虑能够检测重采样的痕迹来识别给定的图像或其某些部分是否已被重采样。其次，重采样检测方法对设计精确的隐写分析方法是至关重要的。在实际的网络环境下有各种类型的封面图片，在隐写分析调查过程中，封面图像或其子部分可能经历了重采样操作的可能性很高。根据现有研究，重采样过程在图像像素之间引入了特定和可检测的统计变化，并且重采样图像的统计可能与原始单采样图像的统计显着不同。一方面，这些差异可能会负面影响在掩盖图像类型仅为原始单采样图像的假设下开发的隐写分析器的精度。另一方面，训练集和测试集之间的不匹配可能导隐写分析结果失效。因此，重采样检测对于允许隐写分析获得关于封面图像的统计信息的精确信息非常有用。然而，所有提出的重采样检测方法都是在被调查图像为封面图像(即未嵌入图像)的前提下设计的。嵌入行为进一步引入了统计变化；因此，需要能够在覆盖和隐秘图像中找到正确检测重采样的方法。

篡改者对图像进行放大、缩小、旋转等操作都属于数字图像重采样的范畴，它属于最常见的图像篡改手段之一。虽然图像经过了重采样操作，不能直接判断为经过了恶意篡改，但是其可以给取证人提供有力的辅助判断信息。目前国内外已有一些研究机构在重压缩取证这个领域内找到了有效的检测成果。

目前，业内常用的现有技术是这样的：图像的重采样的操作对图像所产生的影响主要表现在导致插值点和邻域像素具有相关性以及导致图像的二阶导数信号的统计特征具有周期性。通常，在重采样过程不会留下可见的痕迹，但它们会在图像像素之间引入特定的统计特征。通过这些插值统计特征(重采样特征)可以研究不同的重采样检测方法。现有重采样检测方法通常可以分为两类。一类是(例如)使用相邻像素之间的特定相关性，另一类使用由内插信号的导数产生的可检测的周期性特性。

在第一类方法中，Popescu和Farid指出插值过程引入了重采样图像像素之间的相关性。他们提出基于期望最大化(EM)算法来测量这些相关性Kirchner用线性滤波代替了EM算法，并提出了基于概率图的最大梯度的自动检测法。这些方法基于这样一个事实，尽可能地发现一组相关的以同样的方式进行重采样的图像像素的相邻的特性。即找到一组素与重采样图像中的相邻方式。因此，这种方法的核心是估计每个像素与其邻域之间的线性相关性。给定一个可能被操纵的图像Y和像素的相邻区域(通常是大小为N×N的中央正方形区域)，线性相关可以描述如下：

这里的β(k,l)是一个标量(β(0,0)＝0)

国内研究者也就此类方法展开了相关的研究工作，周治平等人使用了高阶统计分量下的DCT系数之间的相关性特征，然后提取将图像在空间上映射到的伪极坐标(PseudoPolar)所得到的光滑度特征，将两个特征所得到的特性向量进行并联相加，得到一个325维的特征向量进行检测，实验结果证明了该方法的有效性，但是应用范围仅仅局限图像放缩的重采样检测情况下。随后，彭安杰据方向性和对称性将多方向差分分组,然后分别建立自回归模型(auto-regressive model,AR)并提取出自回归系数和直方图特征,最后将所有分组特征组合成重采样检测特征，该实验相对之前的检测结果有了一定的提升。郝丽通过DCT域AC系数首位有效数字的概率分布分别对RGB 3个色彩通道分别进行概率分布的统计，以3条概率曲线的拟合程度为依据对重采样操作进行检测。耿振民提取出的方法利用图像DCT系数的差分块效应，通过傅里叶变换转换到频域，设定经验阈值得到检测结果。

在第二类方案中，Gallagher发现双线性和双三次插值信号在其二阶导数(SOD)的方差函数中引入了周期性。与之类似，Prasad和Ramakrishnan也注意到内插信号的二阶导数产生可检测的周期性。研究内插信号及其导数的协方差结构的周期性特征，Mahdian和Saic也提出了一种能够检测任意仿射变换轨迹的快速，盲目和高效的方法。最近，Feng等人提出了一种基于19维特征向量的新检测方法，该特征向量是利用经过训练的支持向量机对图像的二次衍生物的离散傅里叶变换(DFT)中存在的各种窗口大小的归一化能量密度SVM)分类器。实验结果表明，该方法检测效果提升明显。

综上所述，现有技术存在的问题是：

(1)目前已有的数字图像重采样取证方法种类繁多，取证流程也各有侧重，多样性发展的同时也导致了重采样取证领域不规范的方法增加，浪费了很多不必要的人力物力来判别方法的正确性和有效性，因此急需一个统一的取证框架来规范化地指导重采样取证的流程。

(2)现存的大部分检测方法都只使用了一个特征来进行取证，特征不能全面地描述图像重采样后的特征，因此存在很多弊端，例如基于EM算法的方法对初值依赖明显、很多算法对于采样因子在1.0附近检测不敏感等。因此需要寻找一个通用特征，或者融合现有特征，使其对大部分图像重采样情况都有满意的检测结果。

(3)上述方法中都未对特征进行融合或者降维等操作，图像特征层面存在大量冗余信息和不相关信息。此外，当图像样本达到一定数量后将会导致特征向量过大。这两者都会影响检测效率。

解决上述技术问题的难度和意义：

(1)研究者针对数字图像重采样取证技术这一领域提出的方法很多，要对现有的方法进行科学性地归类总结，并根据具体方法，通过实验验证方法的有效性，工作量巨大。

(2)对于总结的方法，从中找到合适的特征来进行融合，需要尝试结合现有的多种有效特征，通过多次实验比对，选取优势互补特征，寻求最优的特征融合算法，力求解决在采样因子为1.0附近的情况下检测不敏感、特征冗余、数据量过大等问题，以期在得到更佳的检测精度的同时，提高检测效率。

(3)本发明在机器学习层面使用了最新的深度随机森林技术，当样本的特征向量维度比较大的时候，深度随机森林技术可以通过多粒度扫描来对学习能力进行进一步的增强，所以能够得到更好的检测效果，加快检测速度。

发明内容

针对现有技术存在的问题，本发明提供了一种基于深度随机森林的JPEG图像重采样自动检测方法。

本发明是这样实现的，本发明是一种基于深度随机森林的JPEG图像重采样自动检测方法。特征提取阶段提取了四个描述JPEG图像重压缩特性的特征向量：描述了受重采样操作影响的局部周期相关性所呈现出的纹理特征；描述R、G、B三个通道受重采样操作影响的差异性的Benford特征；描述受重采样操作影响的DCT系数与其周围系数的关系的相邻系数差特征；描述了JPEG图像重采样后出现的块效应特征。为了得到数据之间相关度最大的变量之间的关系，该自动检测方法使用了基于典型相关分析(CCA，Canonical CorrelationAnalysis)的特征融合方法，该方法能够有效识别并量化两组变量之间的联系，使特征维数大大减少，降低了计算复杂度，提高了特征之间的相关性，提升了检测精度。本发明使用基于深度随机森林的统计方法来有效学习和检测未经过重采样和经过重采样操作的JPEG图像，该统计方法效率高，可拓展性强，适用于并行部署，能够实时进行检测。所述的基于深度随机森林的JPEG图像重采样自动检测方法步骤如下：

(11)提取描述JPEG图像重采样特性的特征向量：对图像进行预处理，提取描述了JPEG图像基于重采样的四个特征：描述了受重采样操作影响的局部周期相关性所呈现出的纹理特征；描述R、G、B三个通道受重采样操作影响的差异性的Benford特征；描述受重采样操作影响的DCT系数与其周围系数的关系的相邻系数差特征；描述了JPEG图像重采样后出现的块效应特征。

(12)基于典型相关分析的特征融合：使用典型相关分析法将步骤(11)中描述重采样特性的四组特征向量进行融合。

(13)基于深度随机森林的重采样学习和检测：使用深度随机森林对融合后的特征向量进行学习和检测。

发明所述的提取描述JPEG图像重采样特性的特征向量的方法步骤如下：

受重采样操作影响的局部周期相关性所呈现出的纹理特征提取方法步骤如下：

(21)对图像选择感兴趣的区域I(整个图像，例如256×256像素)，提取预提特征的JPEG图像灰度值，得到图像灰度值矩阵，记为I(i,j)；

(22)针对灰度值矩阵I(i,j)，使用具有局部变换特性的图像表示，得到卷积的输出D_m来表征局部特征属性。

(23)构建基于重采样描述的检测特征，使用特征函数的特征函数(CF,Characteristic function)矩来表征覆盖系数和图像概率分布的差异。

所述步骤(22)中，选择12个局部线性掩膜一同构成图像的局部线性表示的步骤如下：

(31)构造12个局部线性掩膜，公式如下：

6个局部2维DCT掩膜：

6个SOD掩膜：

(32)将第m个纹理细节子带D_m通过将I与

进行卷积而得到的局部线性表示的公式如下：

所述步骤(23)中，使用特征函数矩来表征图像特征，步骤如下：

(41)首先使用L-bin直方图

来估计随机变量D_m(i,j)的概率密度函数，以此来得到详细的纹理子带D_m的经验特征函数。让

K点离散特征函数

被定义为：

(42)提出一种新的特征函数加权特征，第n个特征函数的重复特征定义为：

(43)定义归一化

为：

(44)将n＝3,得到图像纹理特征向量如下：

描述R、G、B三个通道受重采样操作影响的差异性的Benford特征的特征提取步骤如下：

(51)该特征提取方法不需要预处理图像，提取(21)中的感兴趣区域I的R、G、B三个颜色通道矩阵，分别将其划分成不重叠的8×8块；

(52)针对(51)中已经划分好的子块，以R通道为例，分别提取每一子块的DCT统计特征，得到DCT系数矩阵F(i,j)；

(53)按照Zig-Zag的顺序提取F(i,j)矩阵中的每个8×8块的前20个系数；

(54)根据广义Benford公式得到(53)中提取的系数的首位有效数字，得到首位有效数字的概率分布，即为基于重采样描述的特征向量。

(55)G、B通道按照步骤(54)依次得到特征向量。

描述受重采样操作影响的DCT系数与其周围系数的关系的相邻系数差特征的特征提取步骤如下：

(61)将步骤(21)中预处理后的图像划分成不重叠的8×8块，分别提取每一子块的DCT统计特征，得到DCT系数矩阵F(i,j)；

(62)按照Zig-Zag的顺序对I(i,j)矩阵中的每个8×8块的前20个系数进行水平、垂直、主对角线、副对角线四方向的差分，得到四个差分矩阵；

(63)对(62)得到的四个差分矩阵设定阈值，用马尔科夫单步转移概率矩阵得到转移向量，将这四个转移向量相加，即为JPEG图像基于马尔科夫模型的相邻系数差的特征向量。

描述了JPEG图像重采样后出现的块效应的特征的特征提取步骤如下：

(71)对(21)中的灰度值矩阵I(i,j)进行下式差分运算：

F(i,j)＝I(i,j)-I(i,j+1)-I(i+1,j)+I(i+1,j+1)

(72)将F划分成互不重叠的8×8块，计算块效应：

(73)将矩阵B转按行转换成一维向量BL，并对其进行傅里叶变换得到特征向量T，如下式所示：

T＝|FFT(BL)|

基于典型相关分析的特征融合的方法，其特征在于，对于特征向量的融合，使用基于典型相关分析的方法进行融合，其计算步骤如下：

(81)假设X∈R^p×n和Y∈R^q×n是两个矩阵，每个包含两种不同模式的n个样本的训练特征向量。

(82)让S_xx∈R^p×p和S_yy∈R^q×q代表X和Y是内集协方差矩阵，S_xy∈R^p×q表示集合协方差矩阵之间的关系(注意，这里

)。总的(p+q)(p+q)协方差矩阵S，包含上述特征对所关联的所有信息：

(83)找到线性组合

和

最大化两个数据集之间的成对相关性：

这里

通过最大化在X^*和Y^*的协方差之间利用拉格朗日乘数进行最大化，这里限制var(X^*)＝var(Y^*)＝1。

(84)转换矩阵W_x和W_y可以通过求解方程组得到：

这里的

和

是特征向量，Λ²是规范相关特征值或正方形的对角矩阵。在每个方程式中的非零特征值的数量是d＝rank(S_xy)≤min(n,p,q)，这里按降序排列，λ₁≥λ₂≥…≥λ_d。

(85)转换矩阵W_x和W_y由对应于非零特征值的排序特征向量组成。已知X^*,Y^*∈R^d×n作为规范变量。对于转换后的数据，在(92)中定义的样本协方差矩阵的形式如下：

(86)特征融合通过变换的特征向量的级联或求和来执行：

或者

基于深度随机森林的重采样检测方法，其特征在于，使用深度随机森林对特征向量进行学习和测试，其步骤如下：

(91)首先对特征向量进行训练，针对(86)中得到的经过了特征融合产生的特征向量Z₁，然后进行多粒度扫描(Multi-Grained Scanning)，用多粒度扫描流程来增强级联森林,使用滑动窗口扫描的生成实例，输入森林后结果合并，生成新的特征。

(92)通过滑动大小为m×m，步长为n的特征窗口进行多粒度扫描得到B组(假设Z₁是一个M×N的矩阵，B＝(M-m+n)×(N-m+n))m×m维的特征向量。

(93)根据步骤(92)，利用不同尺寸的滑动窗口将原始特征切分成多个实例特征向量，经过森林变换输出类别概率向量，记为B_n(n＝0,1,2,...,n)。

(94)合并类别概率向量生成新的特征×m。

(95)输入特征向量C经过森林输出类别概率向量D₀，连接原始输入作为下一层输出D₁。

(96)将步骤(95)重复k次，经过多个级联森林(本发明中设定为两个随机森林和两个完全随机森林)，直到精度没有变化或者达到最大网络层数，得到4组维度为2的判别输出。

(97)重复步骤(94)和(95)得到判别输出直得到4组维度为2的判别输出。

(98)将4组输出结果取平均值作为最终结果，取最大的类别概率即为图像是否经过了重采样操作的训练结果。

步骤(42)中，|Φ(k)|表示为幅度，可以通过快速傅里叶变换(FFT)得到。

步骤(52)中是用一组矩阵F(i,j)存储DCT系数，其中(i,j)代表图像矩阵对应的行和列；按照从左到右，从上到下的顺序遍历图像的各个子块，对每个子块进行DCT变换；得到DCT系数之后，对其进行量化操作，量化后得到图像的特征矩阵F(i,j)。每个8×8块的DCT变换的公式为：

C(u),C(v)＝(2)^-1/2，当u,v＝0

C(u),C(v)＝1,其他。

其中，f(i,j)经过DCT变换后，F(0,0)是直流系数，其他为交流系数，在该发明中，只取交流系数。

步骤(54)中的广义Benford公式的计算方法如下：

这里的N是归一化参数，s和q是根据不同的图像、不同的量化质量所得到的不同的模型参数。

步骤(62)中的四个差分矩阵的公式为：

用F(u,v)(u∈[0,S_h-1],v∈[0,S_v-1])来表示整个图片，这里的S_h和S_v分别是待检测的灰度图像的2维数组的水平和垂直距离大小。

四个差分矩阵的如式子下所示：

F_h(u,v)＝F(u,v)-F(u+1,v),

F_v(u,v)＝F(u,v)-F(u,v+1),

F_d(u,v)＝F(u,v)-F(u+1,v+1),

F_m(u,v)＝F(u+1,v)-F(u,v+1),

这里的F_h(u,v),F_v(u,v),F_d(u,v),F_m(u,v)分别表示的是垂直、水平、主对角线、副对角线四个方向的差分矩阵。为了减少计算损耗，设定差分值的阈值的范围在(-4,4)以内，大于4的值记为4，小于-4的值记为-4

本发明的特征提取阶段提取了四个描述JPEG图像重压缩特性的特征向量：描述了受重采样操作影响的局部周期相关性所呈现出的纹理特征；描述R、G、B三个通道受重采样操作影响的差异性的Benford特征；描述受重采样操作影响的DCT系数与其周围系数的关系的相邻系数差特征；描述了JPEG图像重采样后出现的块效应特征。为了得到数据之间相关度最大的变量之间的关系，该自动检测方法使用了基于典型相关分析(CCA，CanonicalCorrelation Analysis)的特征融合方法，该方法能够有效识别并量化两组变量之间的联系，使特征维数大大减少，降低了计算复杂度，提高了特征之间的相关性，提升了检测精度。本发明使用基于深度随机森林的统计方法来有效学习和检测未经过重采样和经过重采样操作的JPEG图像，该统计方法效率高，可拓展性强，适用于并行部署，能够实时进行检测。该发明在大类别图像分类中到了积极效果，可自动进行实时检测，可以准确检测JPEG重采样操作中放大和缩小的情况。

本发明的另一目的在于提供一种实现所述基于深度随机森林的JPEG图像重采样自动检测方法的计算机程序。

本发明的另一目的在于提供一种实现所述基于深度随机森林的JPEG图像重采样自动检测方法的信息数据处理终端。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的基于深度随机森林的JPEG图像重采样自动检测方法。

本发明的另一目的在于提供一种基于深度随机森林的JPEG图像重采样自动检测系统。

综上所述，本发明的优点及积极效果为：

(1)本发明的融合特征与融合前的单个特征相比，在对JPEG图像重采样的放缩情况下，检测结果更加精准，对于缩放因子接近1的情况也有十分有效的结果，为JPEG图像的重采样取证提供了一种更加广泛性的算法。

(2)本发明中利用基于典型相关分析的特征融合技术，该方法能够有效识别并量化两组变量之间的联系，使特征维数大大减少，降低了计算复杂度，提高了特征之间的相关性，提升了检测精度。

(3)本发明中使用基于深度随机森林的统计方法来有效学习和检测未经过重采样和经过重采样操作的JPEG图像，该统计方法效率高，可拓展性强，适用于并行部署，能够实时进行检测。

具体实验数据见表1和表2：

表1：本发明的实验检测结果对比(％)

表2：本发明的实验检测时间对比(s)

其中，特征1：基于纹理的特征；特征2：基于Benford的特征；特征3；基于相邻系数差的特征；特征4：基于块效应的特征；融合1：使用直接并联的方法将特征融合，得到454维的特征向量。

表1实验检测结果对比(％)

表2实验检测时间对比(％)

下面结合对比分析对本发明作进一步描述。

本发明实施例提供的基于典型相关分析的融合特征、使用深度随机森林的统计方法得到的检测结果与单个特征以及简单拼接四个特征后产生的特征向量的检测结果对比表。从表中可以得知，将特征1/2/3/4进行最简单的特征并联之后，得到的实验结果有了明显的提升，整体都优于单独的这4个特征，因为特征并联可以有效提取这4个单独特征各自的特征，但是也使特征向量的维数增大，影响检测效率。本文使用了四种特征降维模型，从实验结果来看，特征维数减少了超过90％，大大提升了检测效率，但是检测精度并没有降低多少，除了采样因子为1.01时略有降低以外。

本发明使用基于典型相关分析的特征融合方法，得到64维特征向量，然后基于深度随机森林的统计方法进行检测,大大提高了检测的效率和精度。虽然简单的拼接融合也能够得到不错的效果，但是单个样本的检测时间太长，影响实验速率。经过了特征降维后，特征维数大大减少，对于单个样本的检测时间大大减少，适用于拥有大型样本数量的检测情况，极大地加速了机器运行的速率。

本发明利用典型相关分析将该四组特征向量进行融合，使用深度随机森林对融合后的特征向量进行学习和检测。本发明能够有效识别图像重采样操作，通过量化四组特征向量之间的联系，使特征维数大大减少、降低了计算量、提高了特征之间的相关性，提升了检测精度；本发明在各类别JPEG图像重采样操作检测中起到了积极效果。

附图说明

图1是本发明实施例提供的基于深度随机森林的JPEG图像重采样自动检测方法流程图。

图2是本发明实施例提供的基于深度随机森林的JPEG图像重采样自动检测系统示意图。

图3是本发明实施例提供的使用基于深度随机森林的统计方法来有效学习和检测未经过重采样和经过重采样操作的JPEG图像的流程图。

图中：特征1：基于纹理的特征；特征2：基于Benford的特征；特征3；基于相邻系数差的特征；特征4：基于块效应的特征；融合1：使用直接并联的方法将特征融合，得到454维的特征向量；假设输入的是一个400维的向量，可以经过多种不同尺寸的滑动得到新的向量，图中使用了三种，分别是100维、200维、300维产生的结果经过多重随机树的处理分别产生一个1806维、1206维、606维的向量，最后将所有的向量全部链接到一个向量中，形成了一个3618维的向量作为级联的输入。经过1个层级的处理变成了3630维的向量(将四个随机树产生的12个向量与之前的3618维向量进行连接得到。如果输入的是m个400维的向量，则经过块的滑行后会产生301×m个100-的向量(假设滑块的尺寸为100)，同样的，后面产生的结果也都会变成对应的×m个，有m个3618维的向量经过级联树最终产生m个分类结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于深度随机森林的JPEG图像重采样自动检测方法，针对JPEG图像的缩放的重采样的篡改检测，本发明的特征提取阶段提取了四个描述JPEG图像重压缩特性的特征向量：描述了受重采样操作影响的局部周期相关性所呈现出的纹理特征；描述R、G、B三个通道受重采样操作影响的差异性的Benford特征；描述受重采样操作影响的DCT系数与其周围系数的关系的相邻系数差特征；描述了JPEG图像重采样后出现的块效应特征。为了得到数据之间相关度最大的变量之间的关系，该自动检测方法使用了基于典型相关分析(CCA，Canonical Correlation Analysis)的特征融合方法，该方法能够有效识别并量化两组变量之间的联系，使特征维数大大减少，降低了计算复杂度，提高了特征之间的相关性，提升了检测精度。本发明使用基于深度随机森林的统计方法来有效学习和检测未经过重采样和经过重采样操作的JPEG图像，该统计方法效率高，可拓展性强，适用于并行部署，能够实时进行检测。所述的基于深度随机森林的JPEG图像重采样自动检测方法步骤如下：(11)特征提取阶段：对图像进行预处理，提取描述了JPEG图像基于重采样的四个特征：描述了受重采样操作影响的局部周期相关性所呈现出的纹理特征；描述R、G、B三个通道受重采样操作影响的差异性的Benford特征；描述受重采样操作影响的DCT系数与其周围系数的关系的相邻系数差特征；描述了JPEG图像重采样后出现的块效应特征。(12)基于典型相关分析的特征融合：使用典型相关分析法将步骤(11)中描述重采样特性的四组特征向量进行融合。(13)基于深度随机森林的重采样检测：使用深度随机森林对融合后的特征向量进行学习和检测。本发明中提出的特征融合方法有效地克服已有工作中重采样检测方法的实现效率，在对JPEG图像重采样的放缩情况下，结果更加精准，对于缩放因子接近1的情况也有十分有效的结果，为JPEG图像的重采样取证提供了一种更加广泛性的算法。该方明利用基于典型相关分析的特征融合技术以及深度随机森林的学习和检测功能，将特征向量的维数大大减少，降低计算复杂度，提高了检测效率，提升了检测精度，能够实时进行检测，整个过程能够自动运行，更易于在现实中广泛地使用。

下面结合具体实施例对本发明作进一步描述。

在进行本发明的实验操作之前，针对实验所用的图像进行生成和处理。本实验所采用的自然图像是文献(Liu Q,Sung A H,Ribeiro B,et al.“Image complexity andfeature mining for steganalysis of least significant bit matchingsteganography”.Information Sciences,2008,178(1):21-36.)中2000张为大小为256×256的未经过重采样的原始bmp图像，内容包括人物，景观，建筑，动物和植物。针对该500张原始图像，首先在MatlabR2014a中将bmp图像转存为jpg图像，标记为原始集。然后使用resize命令分别用不同的质量因子对图像进行重采样,标记为篡改集。考虑到较大的缩放因子已经能够被肉眼所识别，所以实验设置的缩放因子分别为0.7，0.8，0.9，0.99，1.01，1.1，1.2，1.3。采用这种方式，最终可以得到8组图像，每组都包含2000张原始集的图像和2000张篡改集的图像。针对不同的缩放因子，对图像进行不同的命名和存放工作。

然后，进行本发明的实验操作。本发明的系统结构图如图2所示；

整个检测过程包括提取描述JPEG图像重压缩特性的特征的提取、基于典型相关分析的特征融合以及基于深度随机森林的重采样学习与检测这三个过程。如图1中所标注的特征提取过程；提取过程首先提取描述了受重采样操作影响的局部周期相关性所呈现出的纹理特征；描述R、G、B三个通道受重采样操作影响的差异性的Benford特征；描述受重采样操作影响的DCT系数与其周围系数的关系的相邻系数差特征；描述了JPEG图像重采样后出现的块效应特征，然后将得到的特征向量使用典型相关分析的方法进行融合得到最终的特征向量。特征向量求取完成之后，需要使用深度随机森林的统计方法来有效学习和检测未经过重采样和经过重采样操作的JPEG图像。下面具体对各个步骤逐一说明：

1)提取描述JPEG图像重采样特性的特征向量：

步骤1：描述了受重采样操作影响的局部周期相关性所呈现出的纹理特征的特征提取步骤如下：

步骤S11：对图像选择感兴趣的区域I(整个图像，例如256×256像素)，提取预提特征的JPEG图像灰度值，得到图像灰度值矩阵，记为I(i,j)；

步骤S12：针对灰度值矩阵I(i,j)，使用具有局部变换特性的图像表示，得到卷积的输出D_m来表征局部特征属性。

步骤S13：构建基于重采样描述的检测特征，使用特征函数的特征函数(CF,Characteristic function)矩来表征覆盖系数和图像概率分布的差异。

构造12个局部线性掩膜，公式如下：

6个局部2维DCT掩膜

6个SOD掩膜

将第m个纹理细节子带D_m通过将I与

进行卷积而得到的局部线性表示的公式如下：

步骤S13中，使用特征函数矩来表征图像特征，步骤如下：

a)首先使用L-bin直方图

来估计随机变量D_m(i,j)的PDF，以此来得到详细的纹理子带D_m的经验CF。让

K点离散

被定义为：

a)

|Φ(k)|表示为幅度，可以通过快速傅里叶变换(FFT)得到。

b)提出一种新的CF加权特征，第n个CF重复特征定义为

c)定义归一化

为：

d)将n＝3,得到图像纹理特征向量如下：

根据算式得到一个36维的特征向量。

步骤2：描述R、G、B三个通道受重采样操作影响的差异性的Benford特征的特征提取步骤如下：

步骤S21：该特征提取方法不需要预处理图像，提取彩色图像的R、G、B三个通道的图像矩阵，分别将其划分成不重叠的8×8块；

步骤S22：针对S22中已经划分好的子块，以R通道为例，分别提取每一子块的DCT统计特征，得到DCT系数矩阵F(i,j)；

用一组矩阵F(i,j)存储DCT系数，其中(i,j)代表图像矩阵对应的行和列；按照从左到右，从上到下的顺序遍历图像的各个子块，对每个子块进行DCT变换；得到DCT系数之后，对其进行量化操作，量化后得到图像的特征矩阵F(i,j)。

每个8×8块的DCT变换的公式为：

C(u),C(v)＝(2)^-1/2，当u,v＝0

C(u),C(v)＝1,其他。

步骤S23：照Zig-Zag的顺序提取F(i,j)矩阵中的每个8×8块的前20个系数；

步骤S24：根据广义Benford公式得到(32)中提取的系数的首位有效数字，得到首位有效数字的概率分布，即为特征向量。

广义Benford公式的计算方法如下：

步骤S25：G、B通道按照步骤S24依次得到特征向量。

根据步骤，最后得到一个30维的特征向量。

步骤3：描述受重采样操作影响的DCT系数与其周围系数的关系的相邻系数差特征的特征提取步骤如下：

步骤S31：将步骤S11处理后得到的图像划分成不重叠的8×8块，分别提取每一子块的DCT统计特征，得到DCT系数矩阵F(i,j)；

步骤S32：按照Zig-Zag的顺序对I(i,j)矩阵中的每个8×8块的前20个系数进行水平、垂直、主对角线、副对角线四方向的差分，得到四个差分矩阵；

四个差分矩阵的如式子下所示：

F_h(u,v)＝F(u,v)-F(u+1,v),

F_v(u,v)＝F(u,v)-F(u,v+1),

F_d(u,v)＝F(u,v)-F(u+1,v+1),

F_m(u,v)＝F(u+1,v)-F(u,v+1),

这里的F_h(u,v),F_v(u,v),F_d(u,v),F_m(u,v)分别表示的是垂直、水平、主对角线、副对角线四个方向的差分矩阵。为了减少计算损耗，设定差分值的阈值的范围在(-4,4)以内，大于4的值记为4，小于-4的值记为-4。

步骤S33：对S32得到的四个差分矩阵设定阈值，用马尔科夫单步转移概率矩阵得到转移向量，将这四个转移向量相加，即为JPEG图像基于马尔科夫模型的相邻系数差的特征向量。

根据步骤，最后得到一个324维的特征向量。

步骤4：描述了JPEG图像重采样后出现的块效应特征的特征提取步骤如下：

步骤S41：对I(i,j)矩阵进行下式差分运算：

F(i,j)＝I(i,j)-I(i,j+1)-I(i+1,j)+I(i+1,j+1)

步骤S42：将F划分成互不重叠的8×8块，计算块效应：

步骤S43：将矩阵B转按行转换成一维向量BL，并对其进行傅里叶变换得到特征向量T，如下式所示：

T＝|FFT(BL)|

2)基于典型相关分析的特征融合：使用典型相关分析法(CCA)将重采样描述的特征向量进行融合，其计算步骤如下：

步骤S51：假设X∈R^p×n和Y∈R^q×n是两个矩阵，每个包含两种不同模式的n个样本的训练特征向量。

步骤S52：让S_xx∈R^p×p和S_yy∈R^q×q代表X和Y是内集协方差矩阵，S_xy∈R^p×q表示集合协方差矩阵之间的关系(注意，这里

步骤S53：找到线性组合

和

最大化两个数据集之间的成对相关性：

这里

步骤S54：转换矩阵W_x和W_y可以通过求解方程组得到：

这里的

和

步骤S55：转换矩阵W_x和W_y由对应于非零特征值的排序特征向量组成。已知X^*,Y^*∈R^d×n作为规范变量。对于转换后的数据，在(92)中定义的样本协方差矩阵的形式如下：

步骤S56：特征级融合通过变换的特征向量的级联或求和来执行：

或者

3)于深度随机森林的重采样检测：使用深度随机森林(gcForset)对融合后的特征向量进行检测。其步骤如下：

步骤S61：首先对特征向量进行训练，针对(86)中得到的经过了特征融合产生的特征向量Z₁，然后进行多粒度扫描(Multi-Grained Scanning)，用多粒度扫描流程来增强级联森林,使用滑动窗口扫描的生成实例，输入森林后结果合并，生成新的特征。

步骤S62：通过滑动大小为m×m，步长为n的特征窗口进行多粒度扫描得到B组(假设Z₁是一个M×N的矩阵，B＝(M-m+n)×(N-m+n))m×m维的特征向量。

步骤S63：根据步骤(92)，利用不同尺寸的滑动窗口将原始特征切分成多个实例特征向量，经过森林变换输出类别概率向量，记为B_n(n＝0,1,2,...,n)。

步骤S64：合并类别概率向量生成新的特征×m。

步骤S65：输入特征向量C经过森林输出类别概率向量D₀，连接原始输入作为下一层输出D₁。

步骤S66：将步骤(95)重复k次，经过多个级联森林(本发明中设定为两个随机森林和两个完全随机森林)，直到精度没有变化或者达到最大网络层数，得到4组维度为2的判别输出。

步骤S67：重复步骤(94)和(95)得到判别输出直得到4组维度为2的判别输出。

步骤S68：将4组输出结果取平均值作为最终结果，取最大的类别概率即为图像是否经过了重采样操作的训练结果。

将训练集中的数据按照自然图像和篡改图像数据量相同的方式进行交叉验证和模型训练，训练和测试20次，将得到的结果取平均；

本发明的实验结果，与进行特征融合之前的单个特征得到的实验结果进行对比，所得到的结果如图3的表格对示，可以看出，使用本方识别率比单个特征以及未使用CCA的融合特征要更高，并且该方法得到的特征向量维数比全部拼接的情况要小很多，大大减少了运算量，提高了识别效率。识别过程中使用了深度随机森林，做到了实时检测。因此，本发明所提出的算法不仅简单易实现，算法效率高。用在检测重采样图像的检测上，将有更高的效率、更高的识别率以及更大的适用范围。

图中：假设输入的是一个400维的向量，可以经过多种不同尺寸的滑动得到新的向量，图中使用了三种，分别是100维、200维、300维产生的结果经过多重随机树的处理分别产生一个1806维、1206维、606维的向量，最后将所有的向量全部链接到一个向量中，形成了一个3618维的向量作为级联的输入。经过1个层级的处理变成了3630维的向量(将四个随机树产生的12个向量与之前的3618维向量进行连接得到。如果输入的是m个400维的向量，则经过块的滑行后会产生301×m个100-的向量(假设滑块的尺寸为100)，同样的，后面产生的结果也都会变成对应的×m个，有m个3618维的向量经过级联树最终产生m个分类结果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度随机森林的JPEG图像重采样自动检测方法，其特征在于，所述基于深度随机森林的JPEG图像重采样自动检测方法包括：

(11)提取描述JPEG图像重采样特性的特征向量：对图像进行预处理，提取描述JPEG图像基于重采样的四个特征：描述受重采样操作影响的局部周期相关性所呈现出的纹理特征；描述R、G、B三个通道受重采样操作影响的差异性的Benford特征；描述受重采样操作影响的DCT系数与其周围系数的关系的相邻系数差特征；描述JPEG图像重采样后出现的块效应特征；

(12)基于典型相关分析的特征融合：使用典型相关分析法将描述重采样特性的四组特征向量进行融合；

(13)基于深度随机森林的重采样学习和检测：使用深度随机森林对融合后的特征向量进行学习和检测，包括：

(91)首先对特征向量进行训练，对特征融合通过变换的特征向量的级联或求和来执行中得到的经过了特征融合产生的特征向量Z₁，然后进行多粒度扫描，用多粒度扫描流程来增强级联森林,使用滑动窗口扫描的生成实例，输入森林后结果合并，生成新的特征；

(92)通过滑动大小为m×m，步长为n的特征窗口进行多粒度扫描得到B组m×m维的特征向量；Z₁是一个M×N的矩阵，B＝(M-m+n)×(N-m+n)；

(93)根据步骤(92)，利用不同尺寸的滑动窗口将原始特征切分成多个实例特征向量，经过森林变换输出类别概率向量，B_n，其中，n＝0,1,2,…,n；

(94)合并类别概率向量生成新的特征m；

(95)输入特征向量C经过森林输出类别概率向量D₀，连接原始输入作为下一层输出D₁；

(96)将步骤(95)重复k次，经过多个级联森林，直到精度没有变化或者达到最大网络层数，得到4组维度为2的判别输出；

(97)重复步骤(94)和(95)得到判别输出直得到4组维度为2的判别输出；

(98)将4组输出结果取平均值作为最终结果，取最大的类别概率即为图像是否经过重采样操作的训练结果。

2.如权利要求1所述的基于深度随机森林的JPEG图像重采样自动检测方法，其特征在于，所述的受重采样操作影响的局部周期相关性所呈现出的纹理特征的提取步骤包括：

(21)对图像选择感兴趣的区域I，提取预提特征的JPEG图像灰度值，得到图像灰度值矩阵，记为I(i,j)；

(22)对灰度值矩阵I(i,j)，使用具有局部变换特性的图像表示，得到卷积的输出D_m来表征局部特征属性；

(23)构建基于重采样描述的检测特征，使用特征函数的特征函数矩来表征覆盖系数和图像概率分布的差异。

3.如权利要求2所述的基于深度随机森林的JPEG图像重采样自动检测方法，其特征在于，所述步骤(22)中，选择12个局部线性掩膜一同构成图像的局部线性表示的步骤包括：

(31)构造12个局部线性掩膜，公式如下：

6个局部2维DCT掩膜：

6个SOD掩膜：

(32)将第m个纹理细节子带D_m通过将I与

进行卷积而得到的局部线性表示的公式如下：

其中，m＝1,2,...,12；

所述步骤(23)中，使用特征函数矩表征图像特征，步骤如下：

(41)首先使用L-bin直方图

来估计随机变量D_m(i,j)的概率密度函数，以此来得到详细的纹理子带D_m的经验特征函数；让

K点离散特征函数

被定义为：

(42)提出一种新的特征函数的加权特征，第n个特征函数的重复特征定义为：

|Φ(k)|表示为幅度，通过快速傅里叶变换得到；

(43)定义归一化

为：

(44)将n＝3,得到图像纹理特征向量如下：

4.如权利要求1所述的基于深度随机森林的JPEG图像重采样自动检测方法，其特征在于，描述R、G、B三个通道受重采样操作影响的差异性的Benford特征的特征提取步骤包括：

(51)提取步骤(21)中的感兴趣区域I的R、G、B三个颜色通道矩阵，分别划分成不重叠的8×8块；

(52)对步骤(51)中划分好的子块，R通道中，分别提取每一子块的DCT统计特征，得到DCT系数矩阵F(i,j)；

(54)根据广义Benford公式得到步骤(53)中提取的系数的首位有效数字，得到基于重采样描述特征向量的首位有效数字的概率分布；

(55)G、B通道根据步骤(52)～(54)依次得到特征向量；

描述受重采样操作影响的DCT系数与其周围系数的关系的相邻系数差特征的特征提取步骤包括：

(63)对(62)得到的四个差分矩阵设定阈值，用马尔科夫单步转移概率矩阵得到转移向量，将这四个转移向量相加，即为JPEG图像基于马尔科夫模型的相邻系数差的特征向量；

描述JPEG图像重采样后出现的块效应的特征提取步骤如下：

(71)对(21)中的灰度值矩阵I(i,j)进行下式差分运算：

F(i,j)＝I(i,j)-I(i,j+1)-I(i+1,j)+I(i+1,j+1)

(72)将F划分成互不重叠的8×8块，计算块效应：

T＝|FFT(BL)|；

使用基于典型相关分析的方法进行融合，计算步骤包括：

(81)X∈R^p×n和Y∈R^q×n每个包含两种不同模式的n个样本的训练特征向量；

(82)S_xx∈R^p×p和S_yy∈R^q×q代表X和Y是内集协方差矩阵，S_xy∈R^p×q表示集合协方差矩阵之间的关系，

总的(p+q)(p+q)协方差矩阵S，包含所有信息：

(83)找到线性组合

和

最大化两个数据集之间的成对相关性：

通过最大化在X^*和Y^*的协方差之间利用拉格朗日乘数进行最大化，var(X^*)＝var(Y^*)＝1；

(84)转换矩阵W_x和W_y通过求解方程组得到：

和

是特征向量，Λ²是规范相关特征值或正方形的对角矩阵；在每个方程式中的非零特征值的数量是d＝rank(S_xy)≤min(n,p,q)，按降序排列，λ₁≥λ₂≥…≥λ_d；

(85)转换矩阵W_x和W_y由对应于非零特征值的排序特征向量组成；X^*,Y^*∈R^d×n为规范变量；对于转换后的数据，在(92)中样本协方差矩阵的形式如下：

(86)特征融合通过变换的特征向量的级联或求和来执行：

或者

5.如权利要求4所述的基于深度随机森林的JPEG图像重采样自动检测方法，其特征在于，所述步骤(52)中是用一组矩阵F(i,j)存储DCT系数，其中(i,j)代表图像矩阵对应的行和列；按照从左到右，从上到下的顺序遍历图像的各个子块，对每个子块进行DCT变换；得到DCT系数之后，对其进行量化操作，量化后得到图像的特征矩阵F(i,j)；每个8×8块的DCT变换的公式为：

C(u),C(v)＝(2)^-1/2，当u,v＝0

C(u),C(v)＝1,其他；

其中，f(i,j)经过DCT变换后，F(0,0)是直流系数，其他为交流系数，只取交流系数；

所述步骤(54)中的广义Benford公式的计算方法如下：

这里的N是归一化参数，s和q是根据不同的图像、不同的量化质量所得到的不同的模型参数；

步骤(62)中的四个差分矩阵的公式为：

用F(u,v)(u∈[0,S_h-1],v∈[0,S_v-1])来表示整个图片，这里的S_h和S_v分别是待检测的灰度图像的2维数组的水平和垂直距离大小；

四个差分矩阵的如式子下所示：

F_h(u,v)＝F(u,v)-F(u+1,v),

F_v(u,v)＝F(u,v)-F(u,v+1),

F_d(u,v)＝F(u,v)-F(u+1,v+1),

F_m(u,v)＝F(u+1,v)-F(u,v+1),

这里的F_h(u,v),F_v(u,v),F_d(u,v),F_m(u,v)分别表示的是垂直、水平、主对角线、副对角线四个方向的差分矩阵；为了减少计算损耗，设定差分值的阈值的范围在(-4,4)以内，大于4的值记为4，小于-4的值记为-4。

6.一种实现权利要求1～5任意一项所述基于深度随机森林的JPEG图像重采样自动检测方法的信息数据处理终端。

7.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1～5任意一项所述的基于深度随机森林的JPEG图像重采样自动检测方法。

8.一种执行如权利要求1～5任意一项所述的基于深度随机森林的JPEG图像重采样自动检测方法的基于深度随机森林的JPEG图像重采样自动检测系统。