CN111415289A - 面向不平衡jpeg图像隐写检测的自适应代价敏感特征学习方法 - Google Patents

面向不平衡jpeg图像隐写检测的自适应代价敏感特征学习方法 Download PDF

Info

Publication number
CN111415289A
CN111415289A CN202010217273.7A CN202010217273A CN111415289A CN 111415289 A CN111415289 A CN 111415289A CN 202010217273 A CN202010217273 A CN 202010217273A CN 111415289 A CN111415289 A CN 111415289A
Authority
CN
China
Prior art keywords
matrix
cost
unbalanced
sample
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010217273.7A
Other languages
English (en)
Other versions
CN111415289B (zh
Inventor
王丽娜
嘉炬
翟黎明
任魏翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202010217273.7A priority Critical patent/CN111415289B/zh
Publication of CN111415289A publication Critical patent/CN111415289A/zh
Application granted granted Critical
Publication of CN111415289B publication Critical patent/CN111415289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2201/00General purpose image data processing
    • G06T2201/005Image watermarking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种面向不平衡隐写检测的自适应代价敏感特征学习方法,该方法针对不平衡的JPEG图像隐写检测环境,力求解决传统的隐写分析方法在数据分布不平衡的条件下检测有效性大幅降低的问题,主要从以下三个方面实现面向不平衡数据集的隐写检测方案。首先,提出一种不平衡样本的预处理方法,分别确定每个样本动态k近邻算法(DkNN)的最优k值,根据类别的比例获得类内代价;其次,基于每个训练样本的类内和类间代价生成自适应代价敏感分类器;最后,通过F度量最大化和正则化逻辑回归的自适应代价敏感分类器以及有效特征的获取,可以得到最大F度量对应的特征。

Description

面向不平衡JPEG图像隐写检测的自适应代价敏感特征学习 方法
技术领域
本发明涉及多媒体安全和数字媒体处理技术领域,特别涉及一种在训练数据集中不同类别的样本数量有较大差异的情况下判别JPEG图像是否经过秘密信息嵌入的不平衡隐写检测技术领域。
背景技术
隐写术是一种隐蔽的通信技术,它通过以一种难以察觉的方式修改图像的像素或频率系数来将秘密数据嵌入到图像中[1]。由于JPEG格式的广泛应用,针对JPEG域设计了多种隐写算法。相比之下,图像隐写分析主要关注数字图像中秘密信息是否存在[2]。现代隐写分析算法不断涌现,试图确定一些能够有效区分cover和stego图像的特定统计特征。
虽然上述隐写分析算法是可行和有效的,但大多数算法都假设训练集服从理想样本分布,其中cover和stego图像的样本数量没有显著差异。然而,在实际的检测环境中,样本不平衡问题广泛的存在,即多数类或负面类(如载体图像)通常比少数类或正面类(如载密图像)包含更多的样本。当面临不平衡的情况时,少数类的信息有限,分布不规律,对隐写检测造成了很大的挑战;而且,对少数类样本的错误分类往往会付出沉重的代价。
不平衡数据问题并不仅仅局限于图像隐写分析领域,它同样存在于许多不同的图像识别领域,包括目标检测、医学图像诊断、高光谱图像分类等。与其他领域的不均衡图像分类和识别任务相比,隐写分析中的不均衡数据问题存在明显的不同。隐写分析更注重图像的高频信号,而不是图像本身的内容,通过常用的平衡样本方案来调整数据分布的偏差,会破坏图像的高频信号。另外,隐写分析使用更多的全局统计信息而不是局部统计信息来构建高维特征。通过现有的特征学习方法从高维特性中选择小部分特征将促使它选择描述多数类而不是表示少数类。因此,基于倾斜的数据分布来选择特征很难得到最优解。
目前,部分研究重点关注隐写分析中存在的不平衡问题,这些工作重视小样本训练集[3]或数据匹配[4]。作为隐写分析数据的固有特性,解决这类问题具有一定的挑战性。针对不平衡隐写分析问题,出现了不同的解决方案,主要包括不平衡数据的预处理和分类算法的优化[5]。已有研究表明,平衡分布比不平衡分布具有更好的分类性能。通常,特征选择方法可以减少冗余,保持与目标的最大相关性,将倾斜的数据集转换为平衡的分布。此外,抽样策略还可以使分布趋于平衡[6]。虽然,上述方法在一定程度上可以取得较好的结果,但并没有充分考虑数据分布和优化目标的本质特征,这对于解决不平衡隐写分析问题来说是非常重要的。具体来说,代价敏感学习给少数类的样本分配了更高的误分类代价。这些方法对同一类中的样本一视同仁。然而,同一个类别中的不同样本对训练过程的贡献可能不同。为了解决这个问题,提出了一种有效的JPEG不平衡隐写分析方案,称为自适应代价敏感特征学习。
参考文献:
[1]Cheddad A,Condell J,Curran K,et al.Digital image steganography:Survey and analysis of current methods[J].Signal processing,2010,90(3):727-752.
[2]Denemark T D,Boroumand M,Fridrich J.Steganalysis features forcontent-adaptive JPEG steganography[J].
IEEE Transactions on Information Forensics and Security,2016,11(8):1736-1746.
[3]Hou X,Zhang T,Ji L,et al.Combating highly imbalanced steganalysiswith small training samples using feature selection[J].Journal of VisualCommunication and Image Representation,2017,49:243-256.
[4]Wu A,Feng G,Zhang X,et al.Unbalanced JPEG image steganalysis viamultiview data match[J].Journal of visual communication and imagerepresentation,2016,34:103-107.
[5]Narasimhan H,Kar P,Jain P.Optimizing non-decomposable performancemeasures:A tale of two classes[C]//International Conference on MachineLearning.2015:199-208.
[6]Abdi L,Hashemi S.To combat multi-class imbalanced problems bymeans of over-sampling techniques[J].IEEE transactions on Knowledge and DataEngineering,2015,28(1):238-251.
发明内容
本发明针对现有隐写分析方法在不平衡环境中检测结果的可靠性下降的问题,实现一种能够从不平衡数据集中学习有效特征的不平衡隐写分析方案。
本发明通过优化一系列自适应代价敏感的特征选择子问题,基于F度量最大化的分类器来学习具有代表性的特征,考虑同一类别中不同样本的差异性,最后采用SVM分类器来训练不平衡隐写分析模型和测试图像样本。本发明的技术方案为,一种面向不平衡JPEG图像隐写检测的自适应代价敏感特征学习方法,其包括如下步骤:
步骤1,构建具有不同不平衡率的训练样本集;
步骤2,对训练样本集进行预处理,学习所有样本的最优重构系数矩阵Z;
步骤3,计算最优重构系数矩阵Z每列的非零系数个数,得到每个训练样本的最优k值;
步骤4,确定每个样本的最优k值后,基于最近邻算法得到训练样本的类内代价;
步骤5,构建总代价矩阵,所述总代价矩阵包括样本的类内代价和类间代价,并基于总代价矩阵生成一系列自适应代价敏感分类器,自适应代价敏感分类器的最终目标函数,其表达式为:
minH||(XTH-Y)⊙F||2,1+δ||H||2,1 (式12)
其中,X表示训练样本的特征矩阵,Y表示训练样本的标签矩阵,H表示投影矩阵,δ是平衡参数,F表示总代价矩阵,|| ||2,1表示L21范数,⊙表示两个相同维数的向量或矩阵之间的元素乘法运算符;
步骤6,离散F度量的区间范围,通过迭代优化算法来选择F度量值最大的训练样本集上的分类器作为最优分类器,基于最优分类器的投影矩阵,并对投影矩阵中行向量的模进行排序,选取排序靠前的l个行向量对应的特征作为隐写检测的有效特征。
进一步的,步骤2中具体实现方式如下,
对于给定的不平衡训练样本集,令X=[x1,...,xn]∈Rd×n表示训练样本的特征矩阵,其中n和d分别表示训练样本数量和特征维数,矩阵的标签Y=[y1;...;yn]∈{-1,1}n×m由训练样本对应的标签向量组成,其中m为类标签的数量,并且yi为第i个训练样本的标签的行向量,预处理的目标是保证两个向量Xzi和xi之间的距离尽可能近,,Xzi表示重构后的第i个样本,该问题用最小二乘损失函数表示如式1所示:
Figure BDA0002424800890000031
其中Z=[z1,...,zn]∈Rn×n为重构系数矩阵,为了防止过拟合,提高泛化能力,在式1中加入L2范数作为正则化项,其表达式改写如下:
Figure BDA0002424800890000032
其中μ是调优参数以确保在欠拟合与过拟合之间保持平衡,其式2的近似解表示为:
Z=(XTX+μE)-1XTX (式3)
其中E是单位矩阵;
引入L1范数来实现式3的稀疏化,即利用生成的稀疏重建系数矩阵Z,从样本中选择一些有效的特征来表示每个要重建的样本,即
Figure BDA0002424800890000033
其中Z≧0表示矩阵Z的每个元素都是非负的;
通过数学变换引入正则化项,得到重建过程的目标函数:
Figure BDA0002424800890000034
其中R1(Z)=Tr(ZTXTLXZ),,Tr(A)表示矩阵的迹,L∈Rd×d表示特征之间关系信息的拉普拉斯矩阵;
最终的目标函数是凸的而不是光滑的,使用迭代法对式7进行优化,并通过迭代优化得到最优解Z*
进一步的,步骤3中,每个训练样本的最优k值通过如下方式具体实现,
Z*中的元素zij反映第i个训练样本与第j个训练样本之间的相关关系,元素的非零值,即zij≠0表示第i个训练样本与第j个训练样本之间存在相关性,而0值,即zij=0表示它们之间不存在相关性,通过统计相关的训练样本个数,为每个训练样本确定最优的k。
进一步的,步骤6中获得投影矩阵H的具体实现方式如下,
设总代价矩阵表示为F=[f1,...,fm]∈Rn×m,f=[f1,...,fn]T∈Rn为总代价向量,m是总代价向量的数量,n指训练样本的个数,对式(12)变形得到以下表达式:
XAθBAθXThθ-XAθBAθyθ+δQhθ=0 (式13)
其中hθ表示投影矩阵H中第θ个列向量,1≤θ≤m,δ是平衡参数,Aθ、B和Q都是对角矩阵,对角矩阵Aθ∈Rn×n通过下式产生;
Aθ=diag(fθ) (式14)
其中,fθ是总代价矩阵F的第θ个列向量,diag(fθ)取fθ的第θ个元素组成对角矩阵;B∈Rn×n的第i个对角元素为,
Figure BDA0002424800890000041
ε是一个小的扰动参数,用于调整bii;此外,当ε→0时,目标函数在式12中相当于最小化以下问题:
Figure BDA0002424800890000042
同理,Q∈Rd×d的第i个对角元素qii由下式计算:
Figure BDA0002424800890000043
hi表示投影矩阵H的第i个行向量,因此,得到下面的封闭形式的解:
hθ=(XAθBAθXT+δQ)-1·(XAθBAθyθ) (式18)
通过迭代算法求得投影矩阵的列向量hθ,最终获得的投影矩阵H的每个行向量hi
与现有技术相比,本发明的优点和有益效果:。
本方案所提出的自适应代价敏感机制可以捕获不平衡数据分布的权值关系,能够有效地作为不平衡隐写分析获得更准确特征的关键操作。该自适应代价敏感方案也可以进行扩展以解决其他相关领域的不平衡问题,如图像取证、伪造检测等。
附图说明
图1为自适应代价敏感特征学习的原理示意图。
图2为本发明的不平衡隐写分析方法流程图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步说明。
当误分类发生时,通过对每个样本分配不同的权值,将基于代价敏感的特征学习方法的分类器修改为自适应代价敏感的。通过优化一系列自适应代价敏感的特征选择子问题,根据F度量最大的分类器来学习具有代表性的特征。因此,我们考虑了同一类中样本的差异,所选择的特征可以充分代表cover类和stego类。
所提方案的主要结构如图1所示。它包括以下三个主要阶段:(1)不平衡样本的预处理;(2)自适应总代价生成;(3)F度量优化和特征提取。
具体来说,不平衡样本预处理阶段也包括三个部分,分别确定每个样本的动态k近邻算法(DkNN)的最优k值,利用特征向量及其对应的标签预处理构建K维树(KD-tree),根据类别的比例获得类内代价。KD-tree可以极大地缩小搜索范围,加快DkNN的查询速度。自适应总代价生成阶段的主要重点是生成自适应代价敏感的分类器,该分类器考虑每个训练样本的类内和类间代价。在求解过程中,首先对F度量值进行均匀区间离散,然后生成类间代价函数,最后得到一系列自适应代价敏感分类器。生成自适应代价敏感分类器后,选择F度量值最大的验证集上的分类器作为最优分类器。基于最优分类器的投影矩阵,可以得到隐写检测的有效特征。F度量优化和特征获取阶段主要包括F度量最大化,采用正则化逻辑回归的自适应代价敏感分类器,有助于获得有效的特征。
因此,通过理论优化求解一系列自适应代价敏感特征学习问题,得到最大F度量对应的特征,这样学习到的特征就是载体和载密图像之间最具辨别性的特征,能够有效缓解不平衡隐写分析问题。
一,自适应代价敏感特征学习方案
1.1,不平衡样本预处理方法
对于给定的不平衡数据集,令X=[x1,...,xn]∈Rd×n表示训练样本的特征矩阵,其中n和d分别表示样本数量和特征维数。矩阵的标签Y=[y1;...;yn]∈{-1,1}n×m由训练样本对应的标签向量组成,其中m为类标签的数量,并且yi为第i个样本的标签的行向量。我们尝试重建每个训练样本xi,利用训练样本的特征矩阵X,目标是使Xzi和xi之间的距离尽可能近,Xzi表示重构后的第i个样本。该问题可以用最小二乘损失函数表示如式1所示:
Figure BDA0002424800890000061
其中Z=[z1,...,zn]∈Rn×n为重构系数矩阵。为了防止过拟合,提高泛化能力,在式1中加入L2范数作为正则化项,如下式所示:
Figure BDA0002424800890000062
其中μ是调优参数以确保在欠拟合与过拟合之间保持平衡,其近似解可表示为:
Z=(XTX+μE)-1XTX (式3)
其中E是单位矩阵。
然而,式3的结果不是稀疏的。在这一阶段,我们的目标是生成稀疏重建系数矩阵Z,从训练样本中选择一些有效的特征来表示每个要重建的样本。我们引入L1范数来实现稀疏化,式2可以转化为稀疏目标函数,即
Figure BDA0002424800890000063
其中Z≧0表示矩阵Z的每个元素都是非负的。此外,μ1的值越大,Z越稀疏。
由于训练样本的特征是用来重构自身的,因此有必要找出样本特征之间的关系。一般来说,如果训练样本的两个特征高度相关,则可以得出相应的预测也是相关的。因此,我们利用X中的两个训练特征之间的关系,通过定义以下罚函数来反映它们的预测之间的关系:
Figure BDA0002424800890000064
其中sij表示相似系数矩阵S=[sij]∈Rd×d中的一个元素,其能够对样本特征向量之间的关系进行编码。
我们使用径向基函数核来度量向量xi和向量xj之间的相似性,其可以通过如下公式定义:
Figure BDA0002424800890000065
其中σ是一个内核参数控制径向宽度范围的函数。
通过数学变换引入正则化项,得到重建过程的目标函数:
Figure BDA0002424800890000066
其中R1(Z)=Tr(ZTXTLXZ),Tr(A)表示矩阵的迹,L∈Rd×d表示特征之间关系信息的拉普拉斯矩阵,d表示数据的维度。
由于我们最终的目标函数是凸的而不是光滑的,我们可以使用迭代法对式7进行优化。通过迭代优化得到最优解z*,可以反映训练样本与自身之间的重构关系。z*中的元素zij表示第i个训练样本与第j个训练样本之间的相关关系。元素的非零值(即zij≠0)表示第i个训练样本与第j个训练样本之间存在相关性,而0值(即zij=0)表示它们之间不存在相关性。因此,我们只使用相关的训练样本,即确定每个训练样本的最优k,而不是所有的训练样本。变量k表示每个样本的最近邻样本的数量。
在确定每个训练样本的最优k值后,我们需要基于最近邻算法(即动态k近邻)得到相应的类内代价。为了降低DkNN算法的时间复杂度,针对传统的枚举近邻查询方法时间复杂度高的问题,采用KD-tree结构实现快速近邻查询。对于所有训练样本的特征向量,我们计算它们在每个维度上的数据方差(DV),并找出最大值DVmax,其对应的维度是分割域。根据分割域的值对数据特征进行排序,选择中间位置的特征作为树节点(包括根节点、子节点和叶节点)。以此类推,直到完全构建好KD-tree。
1.2,自适应总代价生成
自适应总代价生成阶段的目的是获得一系列自适应代价敏感分类器,类内代价和类间代价组成总代价,这些分类器由不同训练样本的类内代价和类间代价组成,投影矩阵是在总代价基础上求解的,其用于指导最终的特征学习。。我们期望得到投影矩阵H∈Rd×m,其中考虑了每个不平衡样本对决策面的影响。通过正则化回归方法可以从训练样本中学习到有效处理不平衡数据的特征。正则化回归方法的一般公式可归纳如下:
minHV(XTH-Y)+δR2(H) (式8)
其中V(·)是基于范数的损失函数来减少约束差异,R2(·)为正则项,能够使H稀疏学习以促进特征学习,δ是平衡参数以控制这两项的权重。
一般来说,通过在每个样本的特征向量上增加额外的维数,可以将偏差融合到投影矩阵H中。此外,这类方法已广泛应用于各种数据分类场景中。然而,他们的目标是最大限度地提高识别任务的准确性。因此,将相同的代价分配给不同的样本,显然不适合不平衡的隐写检测场景。为了解决这一问题,我们将基于正则化回归特征学习的分类器改进为对不同样本具有自适应代价敏感的分类器,使F度量最大化。设总代价矩阵表示为F=[f1,...,fm]∈Rn×m,f=[f1,...,fn]T∈Rn为总代价向量,m是总代价向量的数量,n指训练样本的个数。式8是矩阵表示的形式,通过向量的形式求和可以转化为式9,我们可以将式8重新表述为:
Figure BDA0002424800890000071
其中fi是总代价矩阵F的第i行对应的第i个样本,并且⊙表示两个相同维数的向量或矩阵之间的元素乘法运算符。为了抑制噪声,保持旋转不变性,采用基于L2范数的损失函数作为V(·)的具体形式,优化问题可改写为:
Figure BDA0002424800890000081
L2范数项可以进一步转化为有利于求解的形式,即
Figure BDA0002424800890000082
考虑常用的L21范数作为正则化项,我们可以得到自适应代价敏感特征学习的最终目标函数,其表达式为:
minH||(XTH-Y)⊙F||2,1+δ||H||2,1(式12)此外,式12的损失函数和正则项不一定基于L21范数。其他回归函数或正则化项,如岭回归、LASSO正则化也可作为目标函数的具体形式。我们可以通过不同的总代价矩阵F得到一系列自适应代价敏感的特征学习模型,这些模型由对应于不平衡样本的类内和类间代价以及F度量值g计算得到。
1.3,F度量优化和特征获取
由于式12中的损失函数和正则项都有L21范数,因此很难得到目标函数优化的显式解。对于给定的训练样本集和F度量值g,其对应的总代价矩阵F是固定的,因此,可以使用迭代优化算法来解决这个问题。我们通过目标函数的导数对hθ∈Rd×1(1≤θ≤m)和设置它等于零向量,hθ表示投影矩阵H中第θ个列向量,得到以下表达式:
XAθBAθXThθ-XAθBAθyθ+δQhθ=0 (式13)
其中Aθ,B和Q都是对角矩阵。对角矩阵Aθ∈Rn×n可以通过下式产生。
Aθ=diag(fθ) (式14)
其中,fθ是总代价矩阵的第θ个列向量,diag(fθ)取fθ的第θ个元素组成对角矩阵。B∈Rn×n的第i个对角元素为
Figure BDA0002424800890000083
ε是一个小的扰动参数调整bii。此外,它可以验证,当ε→0时,目标函数在式12中相当于最小化以下问题:
Figure BDA0002424800890000084
同理,Q∈Rd×d的第i个对角元素qii可由下式计算:
Figure BDA0002424800890000091
因此,hi表示投影矩阵H的第i个行向量,hθ可以得到下面的封闭形式的解:
hθ=(XAθBAθXT+δQ)-1·(XAθBAθyθ) (式18)
根据上述推理,由于投影矩阵H的最优解依赖于B和Q,我们通过一个迭代算法来计算理想的B和Q。在每次迭代中,对角矩阵B和Q是通过解当前投影矩阵H获得的,然后H的列向量hθ更新是基于最新计算的B和Q,并重复迭代优化,直到满足收敛条件。
最后,获得的投影矩阵H的每个行向量hi,计算||hi||值,并将其值进行排序,依据排序顺序选择靠前的hi对应的训练样本的特征。
二,不平衡隐写检测
步骤2.1,输入多组内容不同的JPEG原始图像样本,利用各种质量因子、嵌入率和隐写工具分别生成数量不同的cover样本和对应的stego样本,形成不同不平衡率的数据集。
步骤2.2,从2.1得到的多样化图像样本中一定的不平衡率随机选出数量相同的两组样本,一组作为训练数据集,另一组作为测试集来验证分类模型的效果。
步骤2.3,提取8000维的DCTR特征作为原始的隐写分析输入特征,对其进行预处理操作。
步骤2.4,按照1中的方法对步骤2.3中的特征进行后续的操作,利用处理后的cover样本特征和对应的stego样本特征,并使用SVM对处理后的特征进行分类。
步骤2.5,用测试集样本来验证不平衡隐写检测模型的准确性。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (4)

1.面向不平衡JPEG图像隐写检测的自适应代价敏感特征学习方法,其特征在于,包括如下步骤:
步骤1,构建具有不同不平衡率的训练样本集;
步骤2,对训练样本集进行预处理,学习所有样本的最优重构系数矩阵Z;
步骤3,计算最优重构系数矩阵Z每列的非零系数个数,得到每个训练样本的最优k值;
步骤4,确定每个样本的最优k值后,基于最近邻算法得到训练样本的类内代价;
步骤5,构建总代价矩阵,所述总代价矩阵包括样本的类内代价和类间代价,并基于总代价矩阵生成一系列自适应代价敏感分类器,自适应代价敏感分类器的最终目标函数,其表达式为:
minH||(XTH-Y)⊙F||2,1+δ||H||2,1 (式12)
其中,X表示训练样本的特征矩阵,Y表示训练样本的标签矩阵,H表示投影矩阵,δ是平衡参数,F表示总代价矩阵,|| ||2,1表示L21范数,⊙表示两个相同维数的向量或矩阵之间的元素乘法运算符;
步骤6,离散F度量的区间范围,通过迭代优化算法来选择F度量值最大的训练样本集上的分类器作为最优分类器,基于最优分类器的投影矩阵,并对投影矩阵中行向量的模进行排序,选取排序靠前的l个行向量对应的特征作为隐写检测的有效特征。
2.如权利要求1所述的面向不平衡JPEG图像隐写检测的自适应代价敏感特征学习方法,其特征在于:步骤2中具体实现方式如下,
对于给定的不平衡训练样本集,令X=[x1,...,xn]∈Rd×n表示训练样本的特征矩阵,其中n和d分别表示训练样本数量和特征维数,矩阵的标签Y=[y1;...;yn]∈{-1,1}n×m由训练样本对应的标签向量组成,其中m为类标签的数量,并且yi为第i个训练样本的标签的行向量,预处理的目标是保证两个向量Xzi和xi之间的距离尽可能近,,Xzi表示重构后的第i个样本,该问题用最小二乘损失函数表示如式1所示:
Figure FDA0002424800880000011
其中Z=[z1,...,zn]∈Rn×n为重构系数矩阵,为了防止过拟合,提高泛化能力,在式1中加入L2范数作为正则化项,其表达式改写如下:
Figure FDA0002424800880000012
其中μ是调优参数以确保在欠拟合与过拟合之间保持平衡,其式2的近似解表示为:
Z=(XTX+μE)-1XTX (式3)
其中E是单位矩阵;
引入L1范数来实现式3的稀疏化,即利用生成的稀疏重建系数矩阵Z,从样本中选择一些有效的特征来表示每个要重建的样本,即
Figure FDA0002424800880000021
其中Z≥0表示矩阵Z的每个元素都是非负的;
通过数学变换引入正则化项,得到重建过程的目标函数:
Figure FDA0002424800880000022
其中R1(Z)=Tr(ZTXTLXZ),,Tr(A)表示矩阵的迹,L∈Rd×d表示特征之间关系信息的拉普拉斯矩阵;
最终的目标函数是凸的而不是光滑的,使用迭代法对式7进行优化,并通过迭代优化得到最优解Z*
3.如权利要求1所述的面向不平衡JPEG图像隐写检测的自适应代价敏感特征学习方法,其特征在于:步骤3中,每个训练样本的最优k值通过如下方式具体实现,
Z*中的元素zij反映第i个训练样本与第j个训练样本之间的相关关系,元素的非零值,即zij≠0表示第i个训练样本与第j个训练样本之间存在相关性,而0值,即zij=0表示它们之间不存在相关性,通过统计相关的训练样本个数,为每个训练样本确定最优的k。
4.如权利要求3所述的面向不平衡JPEG图像隐写检测的自适应代价敏感特征学习方法,其特征在于:步骤6中获得投影矩阵H的具体实现方式如下,
设总代价矩阵表示为F=[f1,...,fm]∈Rn×m,f=[f1,...,fn]T∈Rn为总代价向量,m是总代价向量的数量,n指训练样本的个数,对式(12)变形得到以下表达式:
XAθBAθXThθ-XAθBAθyθ+δQhθ=0 (式13)
其中hθ表示投影矩阵H中第θ个列向量,1≤θ≤m,δ是平衡参数,Aθ、B和Q都是对角矩阵,对角矩阵Aθ∈Rn×n通过下式产生;
Aθ=diag(fθ) (式14)
其中,fθ是总代价矩阵F的第θ个列向量,diag(fθ)取fθ的第θ个元素组成对角矩阵;B∈Rn ×n的第i个对角元素为,
Figure FDA0002424800880000031
ε是一个小的扰动参数,用于调整bii;此外,当ε→0时,目标函数在式12中相当于最小化以下问题:
Figure FDA0002424800880000032
同理,Q∈Rd×d的第i个对角元素qii由下式计算:
Figure FDA0002424800880000033
hi表示投影矩阵H的第i个行向量,因此,得到下面的封闭形式的解:
hθ=(XAθBAθXT+δQ)-1·(XAθBAθyθ) (式18)
通过迭代算法求得投影矩阵的列向量hθ,最终获得的投影矩阵H的每个行向量hi
CN202010217273.7A 2020-03-25 2020-03-25 基于自适应代价敏感特征学习的不平衡隐写分析方法 Active CN111415289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010217273.7A CN111415289B (zh) 2020-03-25 2020-03-25 基于自适应代价敏感特征学习的不平衡隐写分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010217273.7A CN111415289B (zh) 2020-03-25 2020-03-25 基于自适应代价敏感特征学习的不平衡隐写分析方法

Publications (2)

Publication Number Publication Date
CN111415289A true CN111415289A (zh) 2020-07-14
CN111415289B CN111415289B (zh) 2022-04-01

Family

ID=71493243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010217273.7A Active CN111415289B (zh) 2020-03-25 2020-03-25 基于自适应代价敏感特征学习的不平衡隐写分析方法

Country Status (1)

Country Link
CN (1) CN111415289B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112073227A (zh) * 2020-08-26 2020-12-11 重庆理工大学 利用层叠泛化和代价敏感学习的社交网链路异常检测方法
CN112272147A (zh) * 2020-10-23 2021-01-26 中国科学院信息工程研究所 一种基于代价敏感和梯度提升算法的不均衡网络流量分类方法和装置
CN112785479A (zh) * 2021-01-21 2021-05-11 南京信息工程大学 一种基于少样本学习的图像隐形水印通用检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110135146A1 (en) * 2007-01-19 2011-06-09 New Jersey Institute Of Technology Method and apparatus for steganalysis of texture images
CN103034853A (zh) * 2013-01-08 2013-04-10 武汉大学 一种jpeg图像通用隐写分析方法
US20130208941A1 (en) * 2012-02-01 2013-08-15 Qingzhong Liu Steganalysis with neighboring joint density
WO2016201648A1 (zh) * 2015-06-17 2016-12-22 中国科学院自动化研究所 一种基于局部学习的信息隐藏检测方法
CN107273916A (zh) * 2017-05-22 2017-10-20 上海大学 隐写算法未知的信息隐藏检测方法
CN107808100A (zh) * 2017-10-25 2018-03-16 中国科学技术大学 针对特定测试样本的隐写分析方法
CN107910009A (zh) * 2017-11-02 2018-04-13 中国科学院声学研究所 一种基于贝叶斯推理的码元改写信息隐藏检测方法及系统
CN107993311A (zh) * 2017-11-15 2018-05-04 常州大学 一种用于半监督人脸识别门禁系统的代价敏感隐语义回归方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110135146A1 (en) * 2007-01-19 2011-06-09 New Jersey Institute Of Technology Method and apparatus for steganalysis of texture images
US20130208941A1 (en) * 2012-02-01 2013-08-15 Qingzhong Liu Steganalysis with neighboring joint density
CN103034853A (zh) * 2013-01-08 2013-04-10 武汉大学 一种jpeg图像通用隐写分析方法
WO2016201648A1 (zh) * 2015-06-17 2016-12-22 中国科学院自动化研究所 一种基于局部学习的信息隐藏检测方法
CN107273916A (zh) * 2017-05-22 2017-10-20 上海大学 隐写算法未知的信息隐藏检测方法
CN107808100A (zh) * 2017-10-25 2018-03-16 中国科学技术大学 针对特定测试样本的隐写分析方法
CN107910009A (zh) * 2017-11-02 2018-04-13 中国科学院声学研究所 一种基于贝叶斯推理的码元改写信息隐藏检测方法及系统
CN107993311A (zh) * 2017-11-15 2018-05-04 常州大学 一种用于半监督人脸识别门禁系统的代价敏感隐语义回归方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MIHO OHSAKI等: "Confusion-Matrix-Based Kernel Logistic Regression for Imbalanced Data Classification", 《 IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
万建武等: "代价敏感学习方法综述", 《软件学报》 *
翟黎明等: "深度学习在图像隐写术与隐写分析领域", 《信息安全学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112073227A (zh) * 2020-08-26 2020-12-11 重庆理工大学 利用层叠泛化和代价敏感学习的社交网链路异常检测方法
CN112272147A (zh) * 2020-10-23 2021-01-26 中国科学院信息工程研究所 一种基于代价敏感和梯度提升算法的不均衡网络流量分类方法和装置
CN112785479A (zh) * 2021-01-21 2021-05-11 南京信息工程大学 一种基于少样本学习的图像隐形水印通用检测方法
CN112785479B (zh) * 2021-01-21 2023-05-23 南京信息工程大学 一种基于少样本学习的图像隐形水印通用检测方法

Also Published As

Publication number Publication date
CN111415289B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
Chen et al. Joint domain alignment and discriminative feature learning for unsupervised deep domain adaptation
CN111415289B (zh) 基于自适应代价敏感特征学习的不平衡隐写分析方法
Zhang et al. Walking on the edge: Fast, low-distortion adversarial examples
Shang et al. Change detection in SAR images by artificial immune multi-objective clustering
Dou et al. Band selection of hyperspectral images using attention-based autoencoders
CN114492768B (zh) 一种基于小样本学习的孪生胶囊网络入侵检测方法
Choudhary et al. Enhancing human iris recognition performance in unconstrained environment using ensemble of convolutional and residual deep neural network models
CN113076994A (zh) 一种开集域自适应图像分类方法及系统
CN113269647B (zh) 基于图的交易异常关联用户检测方法
CN113922985A (zh) 一种基于集成学习的网络入侵检测方法及系统
Meenakshi et al. An Optimised Defensive Technique to Recognize Adversarial Iris Images Using Curvelet Transform.
Ramirez et al. Multi-pose face detection with asymmetric haar features
Jiang et al. Improving positive unlabeled learning: Practical aul estimation and new training method for extremely imbalanced data sets
Zhang et al. A Face Detection Method Based on Image Processing and Improved Adaptive Boosting Algorithm.
Olisah et al. Understanding unconventional preprocessors in deep convolutional neural networks for face identification
Folego et al. Cross-domain face verification: matching ID document and self-portrait photographs
Chi et al. Cluster-based ensemble classification for hyperspectral remote sensing images
Alwindawi et al. Semi-Supervised Learning with Ensemble Deep Learning Networks for Descriptor Generation
Xiao et al. An improved siamese network model for handwritten signature verification
Abeysinghe et al. Clustering algorithms on imbalanced data using the SMOTE technique for image segmentation
Lyra et al. A multilevel pooling scheme in convolutional neural networks for texture image recognition
Heo Loss function optimization for cnn-based fingerprint anti-spoofing
Li et al. AF-Softmax for Face Recognition
Shiraishi et al. Classification system with capability to reject unknowns
Alkhouri et al. Fooling the big picture in classification tasks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant