CN102930495B

CN102930495B - 一种基于隐写测评的隐写分析方法

Info

Publication number: CN102930495B
Application number: CN201210394104.6A
Authority: CN
Inventors: 赵险峰; 夏冰冰; 黄炜
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2012-10-16
Filing date: 2012-10-16
Publication date: 2015-01-21
Anticipated expiration: 2032-10-16
Also published as: CN102930495A

Abstract

本发明公开了一种基于隐写测评的隐写分析方法，本方法为：1)建立一包含若干隐写特征的基准特征集；2)采用待分析的隐写算法对一组原文{X_i}进行隐写，生成相应的一组隐文{Y_i}；3)在基准特征集中选取部分特征作为考察特征，计算原文和隐文集合中每个样本的考察特征向量，分别得到原文和隐文集合的特征向量集合{x_i}和{y_i}；4)根据{x_i}和{y_i}估计所考察特征向量每一分量作为隐写特征的有效性；5)重复步骤3)、4)若干次，得到一组特征向量分量有效性评估结果；6)从有效性评估结果中选取若干个分量构建一新特征向量，去冗余处理得到隐写算法的特征向量对该待分析隐写算法进行隐写分析，检测其中是否含有隐蔽信息。本发明大大提高了隐写分析实现的效率。

Description

一种基于隐写测评的隐写分析方法

技术领域

本发明涉及一种隐写分析(Steganalysis)方法，具体涉及一种基于隐写测评的隐写分析方法，该方法属于信息安全技术领域中的信息隐藏子领域。

背景技术

随着计算机和网络技术的发展，数字内容的使用越来越普遍，以数字内容为载体的现代隐写技术获得了越来越广泛的关注。隐写能够在不影响载体数据感知内容和质量的前提下在其中嵌入机密信息，通过隐蔽保密通信或者保密存储的存在性事实，提高了机密数据传输或者存储的安全。据报道，隐写已经被不法分子和恶意代码所利用。与隐写相对应，隐写分析则是用于分析判断数据中是否含有隐蔽信息的技术。由于数字多媒体的数据冗余较大，现代隐写的重要特征是，载体数据多为多媒体数据；一般称隐写前的媒体为原文，隐写后的媒体为隐文。虽然隐写嵌入过程对载体数据的感知内容和质量的影响很难被人眼所识别，但其对载体数据的改变一般能够被某些统计特征的变化反应出来。隐写分析技术利用这些对隐写嵌入过程比较敏感的统计特征对媒体数据进行分析，从而识别隐蔽信息的存在。

现代隐写分析技术的基本手段是构造一个二类分类器，通过预先生成或者得到的包含原文/隐文样本的训练集进行训练，从而能够对现实中待测的媒体进行隐写存在性分类判决。具体步骤一般是，首先选取载体数据的一组统计特征作为隐写分析特征；随后分别从训练集的原文集和隐文集中提取相应的特征，并输入分类器进行训练，得到实际中可用的隐写分析分类器；在实际应用中，隐写分析方法从可疑媒体中提取以上隐写分析特征输入分类器，后者即可判断该样本中是否含有隐蔽信息。其中，隐写分析特征的选择是决定隐写分析方法效果的关键因素。由于隐写的嵌入过程会改变载体数据的概率分布，选择对分布变化敏感的统计量作为隐写分析特征能够有效检测出隐蔽信息的存在(参考文献：N.Provos and P.Honeyman.Hide and seek：an introduction to steganography.IEEE Transactions on Security & Privacy，Vol.1(3)：32-44，2003.；J.J.Harmsen and W.A.Pearlman.Steganalysis of additive noise modelableinformation hiding.In Proc.Electronic Imaging，Security and Watermarking of MultimediaContents V，SPIE，Vol.5020：131-142，2003.；T.P.Bas，and J.Fridrich.Steganalysis bysubtractive pixel adjacency matrix.IEEE Transactions on Information Forensics and Security，Vol.5(2)：215-224，2010.；G.Gul and F.Kurugollu.A new methodology in steganalysis：breakinghighly undetectable steganography(HUGO).In Proc.Information Hiding，13th Internationalworkshop，Lecture Notes in Computer Science，vol.6958：71-84，2011.；J.Fridrich，J.V.Holub and M.Goljan.Steganalysis of content-adaptive steganography in spatial domain.In Proc.Information Hiding，13th International workshop，Lecture Notes in Computer Science，vol.6958：102-117，2011.)。

由于隐写技术的不断发展提高，隐写引起的特征扰动越来越不明显。隐写分析的研究者一般需要对隐写算法进行深入的人工分析和实验，才可能得到较为有效的隐写特征并实现相应的隐写分析方法(参考文献：Y.Miche，B.Roue，A.Lendasse and B.Bas.A feature selectionmethodology for steganalysis.In Proc.International Workshop on Multimedia ContentRepresentation，Classification and Security，Lecture Notes in Computer Science，vol.4105：49-56，2006.；M.Kharrazi，H.T.Sencar，and N.Memon.Improving steganalysis by fusion techniques-Acase study with image steganography.Transactions on Data Hiding and Multimedia Security I，Lecture Notes in Computer Science，vol.4300(2006)：123-137，2006.；G.Gul and F.Kurugollu.Anew methodology in steganalysis：breaking highly undetectable steganography(HUGO).In Proc.Information Hiding，13th International workshop，Lecture Notes in Computer Science，vol.6958：71-84，2011.；J.Fridrich，J.V.Holub and M.Goljan.Steganalysis of content-adaptivesteganography in spatial domain.In Proc.Information Hiding，13th International workshop，LectureNotes in Computer Science，vol.6958：102-117，2011.)。当前，这种传统隐写分析研制方法没有较一致的研发流程，在算法分析、隐写分析设计和实现方面需要较长的时间，因此，如何针对新出现的隐写，以较为确定性的方法，及时、高效、自动化地得到相应的隐写分析方法，是隐写分析研发领域一个需要解决的问题。

经过专利查询，在本发明领域内已有的相关专利申请情况如下：

(1)专利申请号为200710067781.6的中国专利“隐写分析系统中基于主元特征的隐写分析算法”公开了一种隐写分析系统中基于主元特征的隐写分析算法。该专利方法将微分运算引入图像隐写分析，计算信道内相邻像素之间以及信道之间像素亮度的共生矩阵，并将共生矩阵的应用扩展到高阶微分和梯度，以描述信道内数据与空间位置相关的特性；计算这些统计量微分特征函数的一阶和二阶统计矩，从一幅图像得到136维特征并使用主元分析法降为18维，最后采用支持向量机为分类方法构造隐写分析算法。该专利方法仅仅描述了一种具体的隐写分析方法，并未考虑给出一个较普遍适用的隐写分析设计方法，也没有考虑采用计算机辅助设计的形式提高隐写分析方法的设计和实现效率，因此，该专利申请与本专利申请的基本目的、思路与具体实现方式明显不同。

(2)专利申请号为200610018494.1的中国专利“基于三层架构的智能图像隐写分析系统”公开了一种基于三层架构的智能图像隐写分析系统。该专利的方法采用三层架构，针对隐写算法所属类型构建专门的隐写分析系统，利用专家系统将现有的专用隐写分析方法建成模型库和规则库，并通过人机交互不断更新隐写分析规则库，并采用主元素特征提取与样本图像库分类训练相结合，提高计算效率和准确性。该专利方法主要给出了一种更好使用已有隐写分析方法的框架，并未涉及各类特征的评价、优选以及设计新的隐写分析方法；而本专利主要给出一种新隐写分析方法的设计与实现方法，该专利申请与本专利申请的基本目的、思路与具体实现方式明显不同。

发明内容

针对现有技术中存在的技术问题，本发明的目的是提供一种基于隐写测评的隐写分析方法，通过计算机辅助设计提高隐写分析的设计和实现效率。

本发明给出的基本方法流程是：1)广泛地选取统计特征组成一组基准特征集，将它作为考察隐写对载体影响的观察对象；2)针对一个或者一类隐写算法，通过评估基准特征集中特征在隐写前后的变化(即进行隐写安全性的测评)，将那些变化程度大的特征作为相应的隐写分析特征，通过主成分分析(Principal Component Analysis，PCA)方法去除冗余信息，将最后得到的特征作为隐写分类器的分类特征，在经过分类器训练后，自动形成新的隐写分析方法；3)由于以上过程的执行在一定的配置下是确定性的，因此可以将以上过程作为计算机程序自动执行，结合所需的人机交互，形成隐写分析的计算机辅助设计手段，提高隐写分析设计和实现的效率。为了更好地支撑以上方法的实现，更好地选择隐写分析特征，在具体技术环节上，本发明还提出了一种最大平均偏差隐写测评指标(该指标反映整个特征向量的变化)与互信息指标(该指标反映单个特征的变化)的综合方法，得到的综合指标能够同时反映单个独立特征在隐写后的变化以及其作为高维特征向量中一个维度上的特征的变化情况，有利于对隐写分析特征进行较为全面的评价。

本发明方法基于互信息和最大平均偏差指标的隐写测评结果，根据对隐写算法的安全测评结果，评估测评中所用各种统计特征作为隐写分析特征的有效性，据此选择有效的隐写分析特征，通过特征融合后，最终将得到的特征向量作为分类器的分类特征，自动或者以人机交互式的方法形成新的隐写分析方法投入系统使用。

本发明所采用的技术方案总体包括如下步骤(所有方法都可由计算机程序按照用户的配置和操作指令完成)，该方案针对一个或者一类隐写算法，给出一个新的隐写分析方法：

(1)确定基准特征集。选择当前已经发现的主要隐写特征以及可能作为隐写分析特征的统计特征，将它们组成基准特征集；基准特征集一旦确定，并不需要每次执行本步骤。

(2)制备原文和隐文样本组。基于一组原文{X_i}，采用待分析的隐写算法生成相应的一组隐文{Y_i}。

(3)确定考察的特征向量。用户根据经验和需求在基准特征集中选取部分特征作为考察特征；计算原文和隐文样本集合中每个样本的考察特征向量，计算原文样本集合{X_i}中每个样本的考察特征向量，得到原文特征向量集合{x_i}，计算隐文样本集合{Y_i}中每个样本的考察特征向量，得到隐文特征向量集合{y_i}。用户可根据需求不断返回此步骤调整考察特征的范围。

(4)基于考察的特征向量进行隐写安全测评并估计所考察特征作为隐写特征的有效性。通过计算x_i和y_i之间在所选指标量的平均偏差(具体指标见后)衡量特征的有效性，偏差越大，说明隐写算法对特征量的扰动越大，不够安全，反之则安全，因此，以上过程构成一种隐写的安全测评方法，偏差指标量可以反映隐写的隐蔽程度；从另一个角度看，x_i和y_i之间的平均偏差越大，说明被考察特征作为隐写分析特征更加有效，x_ij和y_ij之间的平均偏差越大(其中，x_ij和y_ij分别表示x_i和y_i向量的第j维)，说明被考察特征的第j维分量作为隐写分析特征的一个维度分量更加有效。本发明使用最大平均偏差考察x_i和y_i之间的总体差异，使用单维互信息量考察每个特征维度x_ij和y_ij之间的平均偏差，并综合这两种评价指标计算出能够反映每个特征维度作为隐写分析特征有效性的最终指标值；此过程可以回到以上步骤(3)通过改变考察特征的范围重新计算，已获得更准确的指标值结果；最后，依据用户指定的策略(按所需维度数量选择或按指标值阈值选择)选取若干个分量作为有效的隐写分析特征分量，将这些分量在基准特征集中的序号记录备用。

(5)特征去冗余。按照步骤(4)记录的序号分别从{x_i}和{y_i}中的每个特征向量中抽取相应的特征维度组成初步的新特征向量集合{x′_i}和{y′_i}，然后使用主成分分析方法分别对集合{x′_i}和{y′_i}进行主成分分解，选取前k个主成分(k的取值由用户指定)作为去除冗余之后的最终特征向量集合{x″_i}和{y″_i}，即最终确定的新隐写分析特征向量。有关主成分分解的详细操作方法参见后面的“具体实施方式”部分。

(6)隐写分析分类器自动生成和训练配置。通过支持向量机(Support Vector Machine，SVM)分类器对步骤(5)获得的原文、隐文样本集的最终特征向量集合{x″_i}和{y″_i}进行训练，生成新的隐写分析分类器。其中，SVM分类器的参数配置可通过交叉验证过程确定，遍历所有的可选参数组合，选择其中多次交叉验证的平均分类正确率最高的一组作为最佳参数配置。交叉验证的具体方法是，将原文、隐文样本集的最终特征向量集合合并在一起，按一定比例随机划分为模拟训练集和模拟测试集，使用SVM分类器进行训练和分类判决，记录下模拟测试集的分类正确率作为一次交叉验证的结果；重复多次交叉验证并计算平均正确率即可作为挑选SVM分类器最佳参数配置的依据。至此，隐写分析所需的隐写分析特征向量、相应配置下的分类器均已获得，针对前述待分析隐写的隐写分析方法已经得到实现，可以投入系统运行。

本发明对相关技术领域的效果包括：

(1)提高了隐写分析设计的效率。通过隐写测评结果协助用户合理地选择有效性较强的隐写分析特征，通过PCA去除冗余的特征维度以确定最终的隐写分析特征，并自动搜索分类器的最佳参数配置，提高了隐写分析设计的效率。

(2)提高了隐写分析实现的效率。以上隐写分析特征向量选择、特征降维、分类器配置参数搜索等过程均是确定性的，能够用计算机软件自动执行(部分环节亦可人工参与)，自动或者半自动地生成新的隐写分析软件，提高了隐写分析实现的效率。

附图说明

图1是本发明方法的总流程图；

图2是本发明的隐写测评方法流程图；

图3是本发明的特征选择及融合方法流程图。

具体实施方式

本发明提出基于隐写测评的隐写分析计算机辅助设计方法，其主要过程框架包括基准特征计算、特征分布估计、特征分布偏差指标计算(即隐写测评)、特征有效性评估、分类器的自动配置等，其中，采用的特征分布偏差指标包括互信息、最大平均偏差以及它们的综合。通过本发明，隐写分析者可以针对新出现或者关注的隐写(即待分析隐写)，从基准特征集中优选出部分特征组合成新的隐写分析特征向量，并搜索分类器相应的最佳配置参数组合，最后生成新的隐写分析方法。

下面结合附图和实施示例，对本发明的技术方案做进一步描述。

图1描述了本发明的整体流程。首先，由用户从基准特征集中挑选若干种特征作为考察特征，从已制备的原文、隐文样本中分别提取考察特征向量集合，以备后续的基准测试和辅助设计使用。其次，计算单维互信息量和最大平均偏差这两种特征分布偏差指标，并综合其指标值获得最终的特征有效性评估结果(该结果同时可作为隐写测评结果输出)。再次，根据特征有效性评估结果，以人机交互或计算机自动执行的方式挑选若干特征维度分量，并使用PCA方法进一步去除冗余，获得新的隐写分析特征(以上几个步骤可以迭代执行，逐步扩大被考察特征的范围)。最后，通过交叉验证的方法搜索隐写分析分类器的最佳参数配置，通过使用以上新的分类特征以及更新配置参数，自动形成新的隐写分析方法和软件。以下描述上述步骤采用的技术手段。

1.特征计算步骤

制备原文集合，利用待分析的隐写算法生成隐文样本集合；由用户从基准特征集中挑选若干种作为考察特征，从已制备的原文、隐文样本集合中分别计算特征向量集合保存备用。用户可根据样本集包含的文件格式、对待分析隐写算法的先验知识等因素调节考察特征的范围反复执行特征有效性评估过程，以获得最佳评估效果。

2.特征有效性评估

根据前一步骤获得的特征向量集合，计算特征分布偏差指标，并综合各项指标值获得最终的特征有效性评估结果。特征分布偏差指标的具体计算方法如图2所示。其中，单维互信息量和最大平均偏差的计算分别采取不同的流程。

单维互信息量的计算基于对考察特征分量(单维特征)概率密度函数的估计，它能反映两个单维特征之间的统计偏差，具体计算步骤是：

(1)将考察特征向量划分为若干单一维度的特征分量。

(2)使用直方图估计的方法依次估算原文、隐文特征特征向量集合{x_i}和{y_i}的每个特征分量的概率密度函数P(A)、P(B)及联合概率密度函数P(AB)。具体方法是，分别统计{x_i}和{y_i}的分布直方图，并计算直方图中各个区间的样本出现频率作为概率密度函数P(A)和P(B)的估计值；统计{x_i}和{y_i}的二维联合分布直方图，并计算直方图中各个二维区间的样本出现频率作为联合概率密度函数P(AB)的估计值。计算P(A)的公式为

P (A) = \frac{n_{j}}{nh}, a &Element; (s_{j}, s_{j + 1}]

其中，A表示随机变量(在本发明中即指原文集的一个特征分量)，a表示随机变量的一个观测样本(即该单维特征在原文集的某个具体样本上的取值)，n_j为特征值a落在直方图第j个区间里的样本个数，n为总的样本个数，s_j和s_j+1为第j个区间的两个端点，h为每个区间的宽度，即h＝s_j-s_j+1。计算P(B)的公式为

P (B) = \frac{n_{j}}{nh}, b &Element; (s_{j}, s_{j + 1}]

其中，B表示随机变量(在本发明中即指隐文集的一个特征分量)，b表示随机变量的一个观测样本(即该单维特征在原文集的某个具体样本上的取值)，n_j为特征值b落在直方图第j个区间里的样本个数，n为总的样本个数，s_j和s_j+1为第j个区间的两个端点，h为每个区间的宽度，即h＝s_j-s_j+1。计算P(AB)的方法与上述过程类似，公式为

P (AB) = \frac{n_{jk}}{nH}, a &Element; (s_{j}, s_{j + 1}], b &Element; (s_{k}, s_{k + 1}]

其中n_jk为落在二维直方图第j行第k列的区间里的样本个数，H为区间面积，即

H＝(s_j+1-s_j)×(s_k+1-s_k)。

(3)使用估计获得的概率密度函数计算每个特征分量的单维互信息量，计算公式为

{MI}_{i} = Σ_{A} Σ_{B} P (AB) \log \frac{P (AB)}{P (A) P (B)} .

最大平均偏差的计算基于对原文与隐文考察特征(多维特征)在某个函数空间Γ上最大差异的评估，它能反映两组多维特征之间的统计偏差。将特征向量集合作为函数输入，分别计算函数空间Γ中各个函数输出在原文和隐文样本集上的平均值，并以其中的最大者(即最大平均偏差)衡量原文和隐文特征的分布差异。上述过程可表示为如下公式：

MMD [Γ, X_{D}, Y_{D}] = \sup_{f &Element; Γ} (\frac{1}{D} Σ_{i = 1}^{D} f (x_{i}) - \frac{1}{D} Σ_{i = 1}^{D} f (y_{i}))

其中X_D＝{x₁，…，x_D}和Y_D＝{y₁，…，y_D}分别表示在原文和隐文集上计算得到的两个多维特征向量集合，x_i是原文集中第i个样本计算出的考察特征向量，y_i是隐文集中第i个样本计算出的考察特征向量。

函数空间Γ的选择是影响最大平均偏差指标评估效果的重要因素。Γ需要涵盖足够丰富的函数类型以全面衡量原文和隐文特征的分布差异，并尽可能减少函数数量以降低计算复杂度。使用对称非负核函数生成再生核希尔伯特空间(RKHS，Reproducing Kernel Hilbert Spaces)是构造Γ的一种典型方法，即

其中表示与考察特征维度数量相同的全体实数向量空间，θ为空间上的任意实数向量。在确定核函数的具体形式之后，选择一组θ即可生成包含相应函数的函数空间Γ以用于计算最大平均偏差值。一般认为，使用高斯核函数能获得最佳的评估效果，即

k (x, y) = \exp (- γ {| | x - y | |}_{2}^{2}), γ > 0

本发明综合上述两种分别针对单维和多维特征的特征偏差指标，构造出一种衡量隐写分析特征每个单一维度(即特征分量)对待测隐写有效性的评价指标。用{MI_i}，i＝1，2，…N表示按上述步骤计算得出的单维特征互信息量，MMD表示某个包含该维度的特征向量的最大平均偏差值，则最终的特征分量有效性评价指标可表示为

w_i＝F(MI_i，MMD)

它可衡量该特征分量作为隐写分析特征向量中的一维特征的有效性，它的值越大说明越有效。在上式中，特征评价函数F(·)的具体形式可以通过回归分析获得。可供选择的回归分析模型包括二元线性回归模型、二元多项式回归模型等，并可以使用自变量对数代换法提高回归分析的效果。一个这样获得的计算公式是：

W_i＝1.403+0.0757log(MI_i)+0.08904log(MMD)+0.007892log(MI_i)log(MMD)

3.特征优选和去除冗余

根据特征有效性评估结果，以人机交互或计算机自动执行的方式挑选若干特征维度，并使用PCA方法进一步去除冗余，获得新的隐写分析特征，它的维度有所降低，有利于提高后继处理的计算效率。具体流程如图3所示，其具体步骤为：

(1)根据特征分量有效性评价指标值对特征维度(特征向量中的单维特征，即特征分量)进行降序排序。

(2)按一定的策略进行特征选择。如果使用“按所需维度数量选择”的策略，则记录和保留特征分量有效性评价指标值较大的前若干个维度的序号，其具体数量由隐写分析者决定；如果使用“按指标值阈值选择”的策略，则记录并保留指标值高于某阈值的全部维度序号，该阈值由隐写分析者决定。

(3)按保留的维度特征组合成新的隐写分析特征向量，并使用PCA方法进一步去除冗余，获得最终的隐写分析特征向量。PCA方法的作用是抽取特征向量的主要成分，降低特征向量的维数以有利于提高后继计算的效率，具体计算步骤为：首先，将隐写分析特征(即所述新特征向量)排列为m×m维的矩阵X，X的每行表示一个特征向量样本，每列表示隐写分析特征的一个维度；其次，计算n×n维的矩阵R＝X^TX，并对矩阵R进行特征分解，即C^TRC＝Λ，其中C为n×n维的正交矩阵，Λ为n×n维的对角阵；再次，计算m×n维的矩阵Y＝XC^T；最后，选取矩阵Y的前k列(即前k个主成分，1≤k≤n)作为去除冗余之后的最终特征向量，即最终确定的新隐写分析特征向量。

4.搜索隐写分析分类器的最佳参数配置

通过交叉验证的方法搜索隐写分析分类器的最佳参数配置，形成新的隐写分析方法。交叉验证过程的具体方法是，对原文集合与隐文集合分别计算上述新隐写分析特征的值，得到两个特征向量集合，将这些隐写分析特征向量按一定比例随机划分为训练集和测试集，通过SVM分类器进行训练和分类判决。重复若干次这样的随机划分和训练分类操作作为一次交叉验证，并计算相应的平均分类正确率，以此为准则在可选参数配置的范围内搜索正确率最高的参数组合，作为最终生成的隐写分析分类器的参数配置。至此，隐写分析所需的隐写分析特征向量、相应配置下的分类器均已获得，所设计的新隐写分析方法可以得到自动实现并投入系统运行。

Claims

1.一种基于隐写测评的隐写分析方法，其步骤为：

1)建立一包含若干隐写特征的基准特征集；

2)采用待分析的隐写算法对一组原文{X_i}进行隐写，生成相应的一组隐文{Y_i}；

3)在所述基准特征集中选取部分特征作为考察特征，计算原文和隐文集合中每个样本的考察特征向量，分别得到原文集合和隐文集合的特征向量集合{x_i}和{y_i}；

4)根据特征向量集合{x_i}和{y_i}对考察特征向量进行隐写安全测评并估计所考察特征向量每一分量作为隐写特征的有效性；

5)重复步骤3)、4)若干次，得到一组特征向量分量有效性评估结果；

6)从所述有效性评估结果中选取若干个分量构建一新特征向量，然后对其进行去冗余处理，得到该待分析的隐写算法的特征向量，对该待分析隐写算法进行隐写分析，检测其中是否含有隐蔽信息；

其中，所述估计所考察特征作为隐写特征的有效性的方法为：根据特征向量x_i和y_i之间的最大平均偏差MMD，以及每个特征维度x_ij和y_ij之间的平均偏差MI_i，采用公式w_i＝F(MI_i，MMD)确定能够反映每个特征维度作为隐写分析特征有效性的最终指标值；x_ij表示特征向量x_i的第j维，y_ij表示特征向量y_i的第j维，F(·)为通过回归分析获得的特征评价函数；通过公式

MMD [Γ, X_{D}, T_{D}] = \sup_{f &Element; Γ} (\frac{1}{D} Σ_{i = 1}^{D} f (x_{i}) - \frac{1}{D} Σ_{i = 1}^{D} f (y_{i}))

计算所述最大平均偏差MMD；X_D＝{x₁,…,x_D}，Y_D＝{y₁,…,y_D}分别表示所述特征向量集合{x_i}和{y_i}，Γ为一函数空间。

2.如权利要求1所述的方法，其特征在于使用对称非负核函数生成再生核希尔伯特空间方法构造所述函数空间Γ。

3.如权利要求1所述的方法，其特征在于所述平均偏差MI_i为x_ij和y_ij之间的单维互信息量；获取所述平均偏差MI_i的方法为：

1)将考察特征划分为若干单一维度的特征；

2)使用直方图估计的方法依次估算所述特征向量集合{x_i}和{y_i}中每个单一维度特征的概率密度函数P(A)、P(B)及联合概率密度函数P(AB)；A，B分别表示特征向量x_i和y_i中的一个单维特征；

3)根据概率密度函数P(A)、P(B)及联合概率密度函数P(AB)计算每个特征维度的单维互信息量MI_i。

4.如权利要求3所述的方法，其特征在于根据公式计算单维互信息量MI_i。

5.如权利要求1所述的方法，其特征在于所述步骤6)的具体实现方法为：

61)对所述有效性评估结果中的特征分量进行降序排列；

62)记录和保留特征分量有效性评价指标值较大的前若干个分量的序号，或者记录并保留指标值高于设定阈值的全部分量序号；

63)将保留的特征分量组合成初步的新特征向量集合{x'_i}和{y'_i}；

64)使用主成分分析方法对所述集合{x'_i}和{y'_i}进行主成分分解，选取前k个主成分作为去除冗余之后的最终特征向量集合{x″_i}和{y″_i}，即所述待分析的隐写算法的特征向量。

6.如权利要求5所述的方法，其特征在于所述步骤64)的具体实现方法为：首先将所述新特征向量排列为m×n维的矩阵X，X的每行表示一个特征向量样本，每列表示所述新特征向量的一个分量；然后计算n×n维的矩阵R＝X^TX，并对矩阵R进行特征分解，即C^TRC＝Λ；然后计算m×n维的矩阵Y＝XC^T；最后选取矩阵Y的前k列，作为去除冗余之后的最终特征向量，即该待分析隐写分析算法的特征向量；其中，C为n×n维的正交矩阵，Λ为n×n维的对角阵，1≤k≤n。

7.如权利要求5所述的方法，其特征在于通过支持向量机分类器对所述待分析的隐写算法的特征向量进行训练，生成新的隐写分析分类器；其中，分类器的参数配置通过交叉验证过程确定，所述交叉验证的具体方法是：将所述最终特征向量集合{x″_i}和{y″_i}合并在一起，按一定比例随机划分为模拟训练集和模拟测试集，然后使用SVM分类器进行训练和分类判决，记录下模拟测试集的分类正确率作为一次交叉验证的结果；重复多次交叉验证并计算平均正确率作为挑选SVM分类器最佳参数配置的依据。