CN111415289A

CN111415289A - 面向不平衡jpeg图像隐写检测的自适应代价敏感特征学习方法

Info

Publication number: CN111415289A
Application number: CN202010217273.7A
Authority: CN
Inventors: 王丽娜; 嘉炬; 翟黎明; 任魏翔
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2020-07-14
Anticipated expiration: 2040-03-25
Also published as: CN111415289B

Abstract

本发明公开一种面向不平衡隐写检测的自适应代价敏感特征学习方法，该方法针对不平衡的JPEG图像隐写检测环境，力求解决传统的隐写分析方法在数据分布不平衡的条件下检测有效性大幅降低的问题，主要从以下三个方面实现面向不平衡数据集的隐写检测方案。首先，提出一种不平衡样本的预处理方法，分别确定每个样本动态k近邻算法(DkNN)的最优k值，根据类别的比例获得类内代价；其次，基于每个训练样本的类内和类间代价生成自适应代价敏感分类器；最后，通过F度量最大化和正则化逻辑回归的自适应代价敏感分类器以及有效特征的获取，可以得到最大F度量对应的特征。

Description

面向不平衡JPEG图像隐写检测的自适应代价敏感特征学习方法

技术领域

本发明涉及多媒体安全和数字媒体处理技术领域，特别涉及一种在训练数据集中不同类别的样本数量有较大差异的情况下判别JPEG图像是否经过秘密信息嵌入的不平衡隐写检测技术领域。

背景技术

隐写术是一种隐蔽的通信技术，它通过以一种难以察觉的方式修改图像的像素或频率系数来将秘密数据嵌入到图像中^[1]。由于JPEG格式的广泛应用，针对JPEG域设计了多种隐写算法。相比之下，图像隐写分析主要关注数字图像中秘密信息是否存在^[2]。现代隐写分析算法不断涌现，试图确定一些能够有效区分cover和stego图像的特定统计特征。

虽然上述隐写分析算法是可行和有效的，但大多数算法都假设训练集服从理想样本分布，其中cover和stego图像的样本数量没有显著差异。然而，在实际的检测环境中，样本不平衡问题广泛的存在，即多数类或负面类(如载体图像)通常比少数类或正面类(如载密图像)包含更多的样本。当面临不平衡的情况时，少数类的信息有限，分布不规律，对隐写检测造成了很大的挑战；而且，对少数类样本的错误分类往往会付出沉重的代价。

不平衡数据问题并不仅仅局限于图像隐写分析领域，它同样存在于许多不同的图像识别领域，包括目标检测、医学图像诊断、高光谱图像分类等。与其他领域的不均衡图像分类和识别任务相比，隐写分析中的不均衡数据问题存在明显的不同。隐写分析更注重图像的高频信号，而不是图像本身的内容，通过常用的平衡样本方案来调整数据分布的偏差，会破坏图像的高频信号。另外，隐写分析使用更多的全局统计信息而不是局部统计信息来构建高维特征。通过现有的特征学习方法从高维特性中选择小部分特征将促使它选择描述多数类而不是表示少数类。因此，基于倾斜的数据分布来选择特征很难得到最优解。

目前，部分研究重点关注隐写分析中存在的不平衡问题，这些工作重视小样本训练集^[3]或数据匹配^[4]。作为隐写分析数据的固有特性，解决这类问题具有一定的挑战性。针对不平衡隐写分析问题，出现了不同的解决方案，主要包括不平衡数据的预处理和分类算法的优化^[5]。已有研究表明，平衡分布比不平衡分布具有更好的分类性能。通常，特征选择方法可以减少冗余，保持与目标的最大相关性，将倾斜的数据集转换为平衡的分布。此外，抽样策略还可以使分布趋于平衡^[6]。虽然，上述方法在一定程度上可以取得较好的结果，但并没有充分考虑数据分布和优化目标的本质特征，这对于解决不平衡隐写分析问题来说是非常重要的。具体来说，代价敏感学习给少数类的样本分配了更高的误分类代价。这些方法对同一类中的样本一视同仁。然而，同一个类别中的不同样本对训练过程的贡献可能不同。为了解决这个问题，提出了一种有效的JPEG不平衡隐写分析方案，称为自适应代价敏感特征学习。

参考文献：

[1]Cheddad A,Condell J,Curran K,et al.Digital image steganography:Survey and analysis of current methods[J].Signal processing,2010,90(3):727-752.

[2]Denemark T D,Boroumand M,Fridrich J.Steganalysis features forcontent-adaptive JPEG steganography[J].

IEEE Transactions on Information Forensics and Security,2016,11(8):1736-1746.

[3]Hou X,Zhang T,Ji L,et al.Combating highly imbalanced steganalysiswith small training samples using feature selection[J].Journal of VisualCommunication and Image Representation,2017,49:243-256.

[4]Wu A,Feng G,Zhang X,et al.Unbalanced JPEG image steganalysis viamultiview data match[J].Journal of visual communication and imagerepresentation,2016,34:103-107.

[5]Narasimhan H,Kar P,Jain P.Optimizing non-decomposable performancemeasures:A tale of two classes[C]//International Conference on MachineLearning.2015:199-208.

[6]Abdi L,Hashemi S.To combat multi-class imbalanced problems bymeans of over-sampling techniques[J].IEEE transactions on Knowledge and DataEngineering,2015,28(1):238-251.

发明内容

本发明针对现有隐写分析方法在不平衡环境中检测结果的可靠性下降的问题，实现一种能够从不平衡数据集中学习有效特征的不平衡隐写分析方案。

本发明通过优化一系列自适应代价敏感的特征选择子问题，基于F度量最大化的分类器来学习具有代表性的特征，考虑同一类别中不同样本的差异性，最后采用SVM分类器来训练不平衡隐写分析模型和测试图像样本。本发明的技术方案为，一种面向不平衡JPEG图像隐写检测的自适应代价敏感特征学习方法，其包括如下步骤：

步骤1，构建具有不同不平衡率的训练样本集；

步骤2，对训练样本集进行预处理，学习所有样本的最优重构系数矩阵Z；

步骤3，计算最优重构系数矩阵Z每列的非零系数个数，得到每个训练样本的最优k值；

步骤4，确定每个样本的最优k值后，基于最近邻算法得到训练样本的类内代价；

步骤5，构建总代价矩阵，所述总代价矩阵包括样本的类内代价和类间代价，并基于总代价矩阵生成一系列自适应代价敏感分类器，自适应代价敏感分类器的最终目标函数，其表达式为：

min_H||(X^TH-Y)⊙F||_2，1+δ||H||_2，1 (式12)

其中，X表示训练样本的特征矩阵，Y表示训练样本的标签矩阵，H表示投影矩阵，δ是平衡参数，F表示总代价矩阵，|| ||_2，1表示L21范数，⊙表示两个相同维数的向量或矩阵之间的元素乘法运算符；

步骤6，离散F度量的区间范围，通过迭代优化算法来选择F度量值最大的训练样本集上的分类器作为最优分类器，基于最优分类器的投影矩阵，并对投影矩阵中行向量的模进行排序，选取排序靠前的l个行向量对应的特征作为隐写检测的有效特征。

进一步的，步骤2中具体实现方式如下，

对于给定的不平衡训练样本集，令X＝[x₁,...,x_n]∈R^d×n表示训练样本的特征矩阵，其中n和d分别表示训练样本数量和特征维数，矩阵的标签Y＝[y¹；...；yⁿ]∈{-1，1}^n×m由训练样本对应的标签向量组成，其中m为类标签的数量，并且yⁱ为第i个训练样本的标签的行向量，预处理的目标是保证两个向量Xz_i和x_i之间的距离尽可能近，，Xz_i表示重构后的第i个样本，该问题用最小二乘损失函数表示如式1所示：

其中Z＝[z₁,...,z_n]∈R^n×n为重构系数矩阵，为了防止过拟合，提高泛化能力，在式1中加入L2范数作为正则化项，其表达式改写如下：

其中μ是调优参数以确保在欠拟合与过拟合之间保持平衡，其式2的近似解表示为：

Z＝(X^TX+μE)^-1X^TX (式3)

其中E是单位矩阵；

引入L1范数来实现式3的稀疏化，即利用生成的稀疏重建系数矩阵Z，从样本中选择一些有效的特征来表示每个要重建的样本，即

其中Z≧0表示矩阵Z的每个元素都是非负的；

通过数学变换引入正则化项，得到重建过程的目标函数：

其中R₁(Z)＝Tr(Z^TX^TLXZ)，，Tr(A)表示矩阵的迹，L∈R^d×d表示特征之间关系信息的拉普拉斯矩阵；

最终的目标函数是凸的而不是光滑的，使用迭代法对式7进行优化，并通过迭代优化得到最优解Z^*。

进一步的，步骤3中，每个训练样本的最优k值通过如下方式具体实现，

Z^*中的元素z_ij反映第i个训练样本与第j个训练样本之间的相关关系，元素的非零值，即z_ij≠0表示第i个训练样本与第j个训练样本之间存在相关性，而0值，即z_ij＝0表示它们之间不存在相关性，通过统计相关的训练样本个数，为每个训练样本确定最优的k。

进一步的，步骤6中获得投影矩阵H的具体实现方式如下，

设总代价矩阵表示为F＝[f₁，...，f_m]∈R^n×m，f＝[f₁，...，f_n]^T∈Rⁿ为总代价向量，m是总代价向量的数量，n指训练样本的个数，对式(12)变形得到以下表达式：

XA_θBA_θX^Th_θ-XA_θBA_θy_θ+δQh_θ＝0 (式13)

其中h_θ表示投影矩阵H中第θ个列向量，1≤θ≤m，δ是平衡参数，A_θ、B和Q都是对角矩阵，对角矩阵A_θ∈R^n×n通过下式产生；

A_θ＝diag(f_θ) (式14)

其中，f_θ是总代价矩阵F的第θ个列向量，diag(f_θ)取f_θ的第θ个元素组成对角矩阵；B∈R^n×n的第i个对角元素为，

ε是一个小的扰动参数，用于调整b_ii；此外，当ε→0时，目标函数在式12中相当于最小化以下问题：

同理，Q∈R^d×d的第i个对角元素q_ii由下式计算：

hⁱ表示投影矩阵H的第i个行向量，因此，得到下面的封闭形式的解：

h_θ＝(XA_θBA_θX^T+δQ)^-1·(XA_θBA_θy_θ) (式18)

通过迭代算法求得投影矩阵的列向量h_θ，最终获得的投影矩阵H的每个行向量hⁱ。

与现有技术相比，本发明的优点和有益效果：。

本方案所提出的自适应代价敏感机制可以捕获不平衡数据分布的权值关系，能够有效地作为不平衡隐写分析获得更准确特征的关键操作。该自适应代价敏感方案也可以进行扩展以解决其他相关领域的不平衡问题，如图像取证、伪造检测等。

附图说明

图1为自适应代价敏感特征学习的原理示意图。

图2为本发明的不平衡隐写分析方法流程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

当误分类发生时，通过对每个样本分配不同的权值，将基于代价敏感的特征学习方法的分类器修改为自适应代价敏感的。通过优化一系列自适应代价敏感的特征选择子问题，根据F度量最大的分类器来学习具有代表性的特征。因此，我们考虑了同一类中样本的差异，所选择的特征可以充分代表cover类和stego类。

所提方案的主要结构如图1所示。它包括以下三个主要阶段：(1)不平衡样本的预处理；(2)自适应总代价生成；(3)F度量优化和特征提取。

具体来说，不平衡样本预处理阶段也包括三个部分，分别确定每个样本的动态k近邻算法(DkNN)的最优k值，利用特征向量及其对应的标签预处理构建K维树(KD-tree)，根据类别的比例获得类内代价。KD-tree可以极大地缩小搜索范围，加快DkNN的查询速度。自适应总代价生成阶段的主要重点是生成自适应代价敏感的分类器，该分类器考虑每个训练样本的类内和类间代价。在求解过程中，首先对F度量值进行均匀区间离散，然后生成类间代价函数，最后得到一系列自适应代价敏感分类器。生成自适应代价敏感分类器后，选择F度量值最大的验证集上的分类器作为最优分类器。基于最优分类器的投影矩阵，可以得到隐写检测的有效特征。F度量优化和特征获取阶段主要包括F度量最大化，采用正则化逻辑回归的自适应代价敏感分类器，有助于获得有效的特征。

因此，通过理论优化求解一系列自适应代价敏感特征学习问题，得到最大F度量对应的特征，这样学习到的特征就是载体和载密图像之间最具辨别性的特征，能够有效缓解不平衡隐写分析问题。

一，自适应代价敏感特征学习方案

1.1，不平衡样本预处理方法

对于给定的不平衡数据集，令X＝[x₁,...,x_n]∈R^d×n表示训练样本的特征矩阵，其中n和d分别表示样本数量和特征维数。矩阵的标签Y＝[y¹；...；yⁿ]∈{-1，1}^n×m由训练样本对应的标签向量组成，其中m为类标签的数量，并且yⁱ为第i个样本的标签的行向量。我们尝试重建每个训练样本x_i，利用训练样本的特征矩阵X，目标是使Xz_i和x_i之间的距离尽可能近，Xz_i表示重构后的第i个样本。该问题可以用最小二乘损失函数表示如式1所示：

其中Z＝[z₁,...,z_n]∈R^n×n为重构系数矩阵。为了防止过拟合，提高泛化能力，在式1中加入L2范数作为正则化项，如下式所示:

其中μ是调优参数以确保在欠拟合与过拟合之间保持平衡，其近似解可表示为:

Z＝(X^TX+μE)^-1X^TX (式3)

其中E是单位矩阵。

然而，式3的结果不是稀疏的。在这一阶段，我们的目标是生成稀疏重建系数矩阵Z，从训练样本中选择一些有效的特征来表示每个要重建的样本。我们引入L1范数来实现稀疏化，式2可以转化为稀疏目标函数，即

其中Z≧0表示矩阵Z的每个元素都是非负的。此外，μ₁的值越大，Z越稀疏。

由于训练样本的特征是用来重构自身的，因此有必要找出样本特征之间的关系。一般来说，如果训练样本的两个特征高度相关，则可以得出相应的预测也是相关的。因此，我们利用X中的两个训练特征之间的关系，通过定义以下罚函数来反映它们的预测之间的关系:

其中s_ij表示相似系数矩阵S＝[s_ij]∈R^d×d中的一个元素，其能够对样本特征向量之间的关系进行编码。

我们使用径向基函数核来度量向量xⁱ和向量x^j之间的相似性，其可以通过如下公式定义：

其中σ是一个内核参数控制径向宽度范围的函数。

通过数学变换引入正则化项，得到重建过程的目标函数:

其中R₁(Z)＝Tr(Z^TX^TLXZ)，Tr(A)表示矩阵的迹，L∈R^d×d表示特征之间关系信息的拉普拉斯矩阵，d表示数据的维度。

由于我们最终的目标函数是凸的而不是光滑的，我们可以使用迭代法对式7进行优化。通过迭代优化得到最优解z^*，可以反映训练样本与自身之间的重构关系。z^*中的元素z_ij表示第i个训练样本与第j个训练样本之间的相关关系。元素的非零值(即z_ij≠0)表示第i个训练样本与第j个训练样本之间存在相关性，而0值(即z_ij＝0)表示它们之间不存在相关性。因此，我们只使用相关的训练样本，即确定每个训练样本的最优k，而不是所有的训练样本。变量k表示每个样本的最近邻样本的数量。

在确定每个训练样本的最优k值后，我们需要基于最近邻算法(即动态k近邻)得到相应的类内代价。为了降低DkNN算法的时间复杂度，针对传统的枚举近邻查询方法时间复杂度高的问题，采用KD-tree结构实现快速近邻查询。对于所有训练样本的特征向量，我们计算它们在每个维度上的数据方差(DV)，并找出最大值DV_max，其对应的维度是分割域。根据分割域的值对数据特征进行排序，选择中间位置的特征作为树节点(包括根节点、子节点和叶节点)。以此类推，直到完全构建好KD-tree。

1.2，自适应总代价生成

自适应总代价生成阶段的目的是获得一系列自适应代价敏感分类器，类内代价和类间代价组成总代价，这些分类器由不同训练样本的类内代价和类间代价组成，投影矩阵是在总代价基础上求解的，其用于指导最终的特征学习。。我们期望得到投影矩阵H∈R^d×m，其中考虑了每个不平衡样本对决策面的影响。通过正则化回归方法可以从训练样本中学习到有效处理不平衡数据的特征。正则化回归方法的一般公式可归纳如下:

min_HV(X^TH-Y)+δR₂(H) (式8)

其中V(·)是基于范数的损失函数来减少约束差异，R₂(·)为正则项，能够使H稀疏学习以促进特征学习，δ是平衡参数以控制这两项的权重。

一般来说，通过在每个样本的特征向量上增加额外的维数，可以将偏差融合到投影矩阵H中。此外，这类方法已广泛应用于各种数据分类场景中。然而，他们的目标是最大限度地提高识别任务的准确性。因此，将相同的代价分配给不同的样本，显然不适合不平衡的隐写检测场景。为了解决这一问题，我们将基于正则化回归特征学习的分类器改进为对不同样本具有自适应代价敏感的分类器，使F度量最大化。设总代价矩阵表示为F＝[f₁，...，f_m]∈R^n×m，f＝[f₁，...，f_n]^T∈Rⁿ为总代价向量，m是总代价向量的数量，n指训练样本的个数。式8是矩阵表示的形式，通过向量的形式求和可以转化为式9，我们可以将式8重新表述为：

其中fⁱ是总代价矩阵F的第i行对应的第i个样本，并且⊙表示两个相同维数的向量或矩阵之间的元素乘法运算符。为了抑制噪声，保持旋转不变性，采用基于L2范数的损失函数作为V(·)的具体形式，优化问题可改写为:

L2范数项可以进一步转化为有利于求解的形式，即

考虑常用的L21范数作为正则化项，我们可以得到自适应代价敏感特征学习的最终目标函数，其表达式为:

min_H||(X^TH-Y)⊙F||_2，1+δ||H||_2，1(式12)此外，式12的损失函数和正则项不一定基于L21范数。其他回归函数或正则化项，如岭回归、LASSO正则化也可作为目标函数的具体形式。我们可以通过不同的总代价矩阵F得到一系列自适应代价敏感的特征学习模型，这些模型由对应于不平衡样本的类内和类间代价以及F度量值g计算得到。

1.3，F度量优化和特征获取

由于式12中的损失函数和正则项都有L21范数，因此很难得到目标函数优化的显式解。对于给定的训练样本集和F度量值g，其对应的总代价矩阵F是固定的，因此，可以使用迭代优化算法来解决这个问题。我们通过目标函数的导数对h_θ∈R^d×1(1≤θ≤m)和设置它等于零向量，h_θ表示投影矩阵H中第θ个列向量，得到以下表达式：

XA_θBA_θX^Th_θ-XA_θBA_θy_θ+δQh_θ＝0 (式13)

其中A_θ,B和Q都是对角矩阵。对角矩阵A_θ∈R^n×n可以通过下式产生。

A_θ＝diag(f_θ) (式14)

其中，f_θ是总代价矩阵的第θ个列向量，diag(f_θ)取f_θ的第θ个元素组成对角矩阵。B∈R^n×n的第i个对角元素为

ε是一个小的扰动参数调整b_ii。此外，它可以验证，当ε→0时，目标函数在式12中相当于最小化以下问题：

同理，Q∈R^d×d的第i个对角元素q_ii可由下式计算:

因此，hⁱ表示投影矩阵H的第i个行向量，h_θ可以得到下面的封闭形式的解：

h_θ＝(XA_θBA_θX^T+δQ)^-1·(XA_θBA_θy_θ) (式18)

根据上述推理，由于投影矩阵H的最优解依赖于B和Q，我们通过一个迭代算法来计算理想的B和Q。在每次迭代中，对角矩阵B和Q是通过解当前投影矩阵H获得的，然后H的列向量h_θ更新是基于最新计算的B和Q，并重复迭代优化，直到满足收敛条件。

最后，获得的投影矩阵H的每个行向量hⁱ，计算||hⁱ||值，并将其值进行排序，依据排序顺序选择靠前的hⁱ对应的训练样本的特征。

二，不平衡隐写检测

步骤2.1，输入多组内容不同的JPEG原始图像样本，利用各种质量因子、嵌入率和隐写工具分别生成数量不同的cover样本和对应的stego样本，形成不同不平衡率的数据集。

步骤2.2，从2.1得到的多样化图像样本中一定的不平衡率随机选出数量相同的两组样本，一组作为训练数据集，另一组作为测试集来验证分类模型的效果。

步骤2.3，提取8000维的DCTR特征作为原始的隐写分析输入特征，对其进行预处理操作。

步骤2.4，按照1中的方法对步骤2.3中的特征进行后续的操作，利用处理后的cover样本特征和对应的stego样本特征，并使用SVM对处理后的特征进行分类。

步骤2.5，用测试集样本来验证不平衡隐写检测模型的准确性。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.面向不平衡JPEG图像隐写检测的自适应代价敏感特征学习方法，其特征在于，包括如下步骤：

步骤1，构建具有不同不平衡率的训练样本集；

min_H||(X^TH-Y)⊙F||_2，1+δ||H||_2，1 (式12)

2.如权利要求1所述的面向不平衡JPEG图像隐写检测的自适应代价敏感特征学习方法，其特征在于：步骤2中具体实现方式如下，

对于给定的不平衡训练样本集，令X＝[x₁，...，x_n]∈R^d×n表示训练样本的特征矩阵，其中n和d分别表示训练样本数量和特征维数，矩阵的标签Y＝[y¹；...；yⁿ]∈{-1，1}^n×m由训练样本对应的标签向量组成，其中m为类标签的数量，并且yⁱ为第i个训练样本的标签的行向量，预处理的目标是保证两个向量Xz_i和x_i之间的距离尽可能近，，Xz_i表示重构后的第i个样本，该问题用最小二乘损失函数表示如式1所示：