CN107910009B

CN107910009B - 一种基于贝叶斯推理的码元改写信息隐藏检测方法及系统

Info

Publication number: CN107910009B
Application number: CN201711063280.0A
Authority: CN
Inventors: 李松斌; 杨洁; 邓浩江
Original assignee: Institute of Acoustics CAS
Current assignee: Nanhai Research Station Institute Of Acoustics Chinese Academy Of Sciences; Institute of Acoustics CAS
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2020-12-01
Anticipated expiration: 2037-11-02
Also published as: CN107910009A

Abstract

本发明公开了一种基于贝叶斯推理的码元改写信息隐藏检测方法，所述方法包括：步骤1)在训练样本中根据压缩语音码元取值分布熵选取隐写敏感码元，由此构建码元强关联网络；基于码元强关联网络构建码元贝叶斯网络分类器，并使用Dirichlet分布作为先验分布学习码元贝叶斯网络分类器的参数；步骤2)根据码元贝叶斯网络分类器和训练样本计算隐写指数阈值J_thr；步骤3)对于一段未知类型的压缩语音，计算其隐写指数J₀，若J₀≥J_thr，判定该语音段为未隐写语音段；若J₀＜J_thr，判定该语音段为隐写语音段。本发明的方法能够得到更准确的隐写检测结果；而且本发明的方法以码流中的码元作为分析对象，不需要进行解码，可以达到实时隐写检测的效果。

Description

一种基于贝叶斯推理的码元改写信息隐藏检测方法及系统

技术领域

本发明涉及信息安全和机器学习技术领域，特别涉及一种基于贝叶斯推理的码元改写信息隐藏检测方法及系统。

背景技术

随着带宽的持续增长以及网络融合趋势的增强，基于网络数据通信的网络流媒体服务得到了空前的发展，网络压缩语音码流成为隐蔽通信常用载体之一。它给人们的生活和工作带来便利的同时，也给犯罪分子带来了可乘之机。对于敏感机构而言，需要对机构中的语音码流进行评估审查，确定是否存在隐蔽通信信道进行秘密信息的外泄。信息隐藏检测技术作为隐蔽通信的对抗技术，能够有效的监控网络压缩语音码流中的隐蔽通信，实现对敏感机构中的语音码流信息隐藏检测。

在压缩语音中进行信息隐藏之后，都会对码元造成不同程度的改写。现有的压缩语音信息隐藏检测方法绝大部分是在解码过程中进行的，即针对某种编码过程的信息隐藏进行检测，如线性预测编码、开环基音预测、码本搜索等；还有小部分是针对特定的信息隐藏方法直接分析压缩语音码流，该类方法针对单一码元分别进行分析，以效果最好的码元检测结果为最终检测结果。现有的码元改写信息隐藏检测方法都只能针对特定的信息隐藏方法进行检测，目前尚未有能适合任意码元改写的检测方法。在实际应用过程中，很难获取到压缩语音中使用的是何种信息隐藏方法，因此，研究一种通用的码元改写信息隐藏检测方法很有必要。

发明内容

本发明的目的在于提出一种通用的码元改写信息隐藏检测方法，该方法首先分析压缩语音各个码元自身取值统计特征，计算得到码元分布熵，选取分布熵较小的码元作为隐写敏感码元；接着以同类隐写敏感码元帧内取值和相邻帧间取值关系构建码元关联网络；然后以马尔科夫转移概率为关联指数对码元关联网络进行剪枝，得到码元强关联网络；最后基于码元强关联网络构建码元贝叶斯网络分类器，并使用Dirichlet分布作为先验分布学习网络参数，从而实现对码元改写的信息隐藏检测。

为了实现上述目的，本发明提供了一种基于贝叶斯推理的码元改写信息隐藏检测方法，所述方法包括以下步骤：

步骤1)在训练样本中根据压缩语音码元取值分布熵选取隐写敏感码元，由此构建码元强关联网络；基于码元强关联网络构建码元贝叶斯网络分类器，并使用Dirichlet分布作为先验分布学习码元贝叶斯网络分类器的参数；

步骤2)根据码元贝叶斯网络分类器和训练样本计算隐写指数阈值J_thr；

步骤3)对于一段未知类型的压缩语音，计算其隐写指数J₀，若J₀≥J_thr，判定该语音段为未隐写语音段；若J₀＜J_thr，判定该语音段为隐写语音段。

作为上述方法的一种改进，所述步骤1)具体包括：

步骤S1)根据训练样本计算压缩语音码元取值分布熵，选取分布熵小于阈值的码元作为隐写敏感码元；

步骤S2)以隐写敏感码元帧内取值和相邻帧间取值关系构建码元关联网络，以马尔科夫转移概率为关联指数对码元关联网络进行剪枝，得到码元强关联网络；

步骤S3)基于码元强关联网络构建码元贝叶斯网络分类器，并使用Dirichlet分布作为先验分布学习码元贝叶斯网络分类器的参数。

作为上述方法的一种改进，所述步骤S1)具体包括：

步骤S1-1)计算压缩语音码元取值分布，记第k个码元的取值范围为[0,r_k]，其取值概率分布为

步骤S1-2)根据码元取值概率分布计算各个码元取值分布熵，第k个码元的分布熵E_k计算如下：

步骤S1-3)选取分布熵小于阈值E_thr的码元作为隐写敏感码元。

作为上述方法的一种改进，所述步骤S2)具体包括：

步骤S2-1)根据步骤S1-3)得到的隐写敏感码元构建码元关联网络，记为有向图D＝(V,E)，定义如下：

V＝{v_i[k],i∈{0,1,2,...}}

E＝{＜v_u[p],v_v[q]＞,v_u[p],v_v[q]∈V,v-u∈{0,1}}

其中，V为有向图中的顶点构成的集合，每个顶点对应一个隐写敏感码元v_i[k]，v_i[k]表示第i帧中的第k个码元；其中E为有向图中的有向边构成的集合，＜v_u[p],v_v[q]＞表示由顶点v_u[p]指向v_v[q]的有向边，且v_u[p]和v_v[q]为取值范围相同的同类码元，即r_p＝r_q；当v-u＝0时，表示帧内关联边；当v-u＝1时，表示帧间关联边；

步骤S2-2)根据步骤S2-1)得到的码元关联网络，计算每条边对应的码元取值转移概率矩阵R_pq，如下：

其中P_i,j,i＝0,1,...,r_p,j＝0,1,...,r_q,r_p＝r_q表示第p个码元取值为i，第q个码元取值为j时的转移概率；

步骤S2-3)根据步骤S2-2)得到的转移概率矩阵R_pq计算关联指数RE_pq，计算公式如下：

RE_pq表示两个码元取值相同时的转移概率之和；

步骤S2-4)根据步骤S2-3)得到的关联指数RE_pq，去掉关联指数RE_pq小于阈值RE_thr的关联边，得到码元强关联网络D′＝(V′,E′)，记V′中包含N个顶点，为V′＝v₁,v₂,...,v_N。

作为上述方法的一种改进，所述步骤S3)具体包括：

步骤S3-1)根据步骤S2-4)得到的码元强关联网络，构建码元贝叶斯网络分类器，其网络节点随机变量记为U＝{X₀,X₁,…,X_M}，M为节点的总个数；随机变量相应的取值记为u＝{u₀,u₁,…,u_M}；

步骤S3-2)根据步骤S3-1)得到的码元贝叶斯网络分类器，使用Dirichlet分布作为先验分布学习码元贝叶斯网络分类器的参数。

作为上述方法的一种改进，所述步骤S3-1)具体包括：

步骤S3-1-1)以压缩语音帧类别作为码元贝叶斯网络分类器的根节点X₀，帧类别为：未隐写和隐写；

步骤S3-1-2)根据步骤S2-4)得到的码元强关联网络，将顶点V′中每个码元取值范围分为多个取值集合；其中，对于取值范围大于255的码元，利用训练样本计算码元取值直方图，将码元取值直方图按降序排列，将排序后的取值均匀划分为256个取值集合；对于取值范围小于或者等于255的码元，每个取值为一个集合；以码元取值集合作为子节点X₁,X₂,...,X_N，构成由X₀→X₁,X₀→X₂,...,X₀→X_N的N条有向边，节点X_i取值对应码元v_i的一个取值集合；

步骤S3-1-3)根据步骤S2-4)得到的码元强关联网络，若存在帧内关联边＜v_i[p],v_i[q]＞，则增加子节点

构成由

的两条有向边，节点

表示帧内码元v[p]和v[q]取值关系，取值关系包括：取值不同和取值相同，取值不同记为0；取值相同记为1；

步骤S3-1-4)根据步骤S2-4)得到的码元强关联网络，若存在相邻帧间关联边＜v_i[p],v_i+1[p]＞，则增加子节点

构成由

的两条有向边，节点

表示同一码元v[p]帧间取值关系，取值关系包括：取值不同和取值相同，取值不同记为0；取值相同记为1，至此完成码元贝叶斯网络分类器的构建，其网络节点随机变量记为U＝{X₀,X₁,…,X_M}，随机变量相应的取值记为u＝{u₀,u₁,…,u_M}。

作为上述方法的一种改进，所述步骤S3-2)具体包括：

步骤S3-2-1)根据步骤S3-1)得到的码元贝叶斯网络分类器，记随机变量X_i共有K_i个取值，X_i的取值概率为

其中θ_ijk表示随机变量X_i取其第k个取值且X_i的父节点Pa(X_i)取其第j个取值时的条件概率，则θ_ijk表示为：

θ_ijk＝P(X_i＝x_ik|Pa(X_i)＝Pa(X_i)_j)

初始化随机变量X_i取值先验分布π(θ_ij)为Dirichlet分布，即：

其中Γ(·)为gamma函数，α_ijk为超参数，初始值根据经验设定；

步骤S3-2-2)根据步骤S3-2-1)得到的X_i取值先验分布π(θ_ij)，统计样本χ中满足X_i＝x_ik且Pa(X_i)＝Pa(X_i)_j的个数为β_ijk，由于后验分布π(θ|χ)也服从Dirichlet分布，则π(θ_ij|χ)表示为：

步骤S3-2-3)根据步骤S3-2-2)得到的后验分布π(θ_ij|χ)，采用最大似然估计方法计算码元贝叶斯网络分类器每个参数

表示为：

作为上述方法的一种改进，所述步骤2)具体包括：

步骤2-1)根据步骤S3)得到的码元贝叶斯网络分类器，利用子节点X₁,…,X_M的取值及相应的节点参数来推理父节点X₀的取值后验概率，即语音帧的类别，其中为未隐写帧的后验概率计算为：

为隐写帧的后验概率计算为：

步骤2-2)根据步骤2-1)得到的语音帧类别后验概率，计算语音段的隐写指数J_x；

记一段包含T帧的语音段第i帧为未隐写帧的概率为pu_i，为隐写帧的概率为ps_i，则J_x表示为：

步骤2-3)根据步骤2-2)得到的语音段隐写指数J_x，根据训练样本计算隐写指数阈值J_thr；

设训练样本包含L段语音，记训练样本在未隐写情况下的隐写指数为J_U＝{J_u1,J_u2,…,J_uL}，在隐写情况下的隐写指数为J_S＝{J_s1,J_s2,…,J_sL}，则J_thr由下式得到：

其中，CNT(J_U:J_uj≥J_x)表示未隐写指数J_U中满足J_uj≥J_x的个数，即未隐写情况下判定正确的语音数；CNT(J_S:J_sj＜J_x)表示隐写指数J_S中满足J_sj＜J_x的个数。

一种基于贝叶斯推理的码元改写信息隐藏检测系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述方法的步骤。

本发明的方法优点在于：

1、本发明的方法中的贝叶斯网络分类器是基于隐写敏感码元强关联网络构建的，能确保贝叶斯网络结构能充分体现隐写对码元自身、同类码元帧间、同一码元帧间关联的影响；

2、本发明的方法以Dirichlet分布作为先验分布，结合样本数据对先验分布修正，有效地提高了参数学习的精度，从而得到更准确的隐写检测结果；

3、本发明的方法以码流中的码元作为分析对象，不需要进行解码，可以达到实时隐写检测的效果。

附图说明

图1是本发明的基于贝叶斯推理的码元改写信息隐藏检测方法的流程示意图；

图2是本发明的码元强关联网络示意图；

图3是本发明的码元贝叶斯网络分类器示意图。

具体实施方式

现结合附图和具体实施例对本发明做进一步的描述。

如图1所示，一种基于贝叶斯推理的码元改写信息隐藏检测方法，所述方法包括以下步骤：

步骤S1)根据训练样本计算压缩语音码元取值分布熵，选取分布熵小于阈值的码元作为隐写敏感码元；具体包括：

步骤S1-3)选取分布熵小于阈值E_thr的码元作为隐写敏感码元；

步骤S2)以隐写敏感码元帧内取值和相邻帧间取值关系构建码元关联网络，以马尔科夫转移概率为关联指数对码元关联网络进行剪枝，得到码元强关联网络；如

图2所示；所述步骤S2)具体包括：

V＝{v_i[k],i∈{0,1,2,...}}

E＝{＜v_u[p],v_v[q]＞,v_u[p],v_v[q]∈V,v-u∈{0,1}}

其中V为有向图中的顶点构成的集合，每个顶点对应一个隐写敏感码元v_i[k]，v_i[k]表示第i帧中的第k个码元。其中E为有向图中的有向边构成的集合，＜v_u[p],v_v[q]＞表示由顶点v_u[p]指向v_v[q]的有向边，且v_u[p]和v_v[q]为取值范围相同的同类码元，即r_p＝r_q；当v-u＝0时，表示帧内关联边；当v-u＝1时，表示帧间关联边。

其中P_i,j(i＝0,1,...,r_p,j＝0,1,...,r_q,r_p＝r_q)表示第p个码元取值为i，第q个码元取值为j时的转移概率。

RE_pq表示两个码元p和q取值相同时的转移概率之和。

步骤S2-4)根据步骤S2-3)得到的关联指数RE_pq，去掉关联指数RE_pq小于阈值RE_thr的关联边，得到码元强关联网络D′＝(V′,E′)，记V′中包含N个顶点，为V′＝v₁,v₂,...,v_N，如图2所示；

步骤S3)基于码元强关联网络构建码元贝叶斯网络分类器，并使用Dirichlet分布作为先验分布学习网络参数；具体包括：

步骤S3-1)根据步骤S2-4)得到的码元强关联网络，构建码元贝叶斯网络分类器；具体包括：

如图3所示；贝叶斯网络节点随机变量记为U＝{X₀,X₁,…,X_M}，随机变量相应的取值记为u＝{u₀,u₁,…,u_M}；

步骤S3-1-1)以压缩语音帧类别作为贝叶斯网络分类器的根节点X₀，帧类别为：未隐写(记为0)和隐写(记为1)两种；

步骤S3-1-3)根据步骤S2-4)得到的码元强关联网络，若存在帧内关联边，如图2中虚线框内的＜v_i[p],v_i[q]＞，则增加子节点

构成如图3所示的由

的两条有向边，节点

表示帧内码元v[p]和v[q]取值关系，有取值不同(记为0)和取值相同(记为1)两种；

步骤S3-1-4)根据步骤S2-4)得到的码元强关联网络，若存在相邻帧间关联边，图2中＜v_i[p],v_i+1[p]＞，则增加子节点

构成由如图3所示

的两条有向边，节点

表示同一码元v[p]帧间取值关系，有取值不同(记为0)和取值相同(记为1)两种，至此完成码元贝叶斯网络的构建，网络节点随机变量记为U＝{X₀,X₁,…,X_M}，随机变量相应的取值记为u＝{u₀,u₁,…,u_M}；M为节点总个数；

步骤S3-2)根据步骤S3-1)得到的贝叶斯网络分类器，使用Dirichlet分布作为先验分布计算网络分类器的参数；具体包括：

θ_ijk＝P(X_i＝x_ik|Pa(X_i)＝Pa(X_i)_j)

初始化随机变量X_i取值先验分布π(θ_ij)为Dirichlet分布，即：

步骤S3-2-2)根据步骤S3-2-1)得到的X_i取值先验分布π(θ_ij)，统计样本χ中满足X_i＝x_ik且Pa(X_i)＝Pa(X_i)_j的个数为β_ijk，由于后验分布π(θ|χ)也服从Dirichlet分布，则π(θ|χ)可表示为：

步骤S3-2-3)根据步骤S3-2-2)得到的后验分布π(θ|χ)，采用最大似然估计方法计算每个网络分类器的参数

可表示为：

步骤S4)运用码元贝叶斯网络分类器，对未知类型的压缩语音进行隐写检测；具体包括：

步骤S4-1)根据步骤S3)得到的贝叶斯网络分类器，利用子节点X₁,…,X_M的取值及相应的节点参数来推理父节点X₀的取值后验概率，即语音帧的类别，其中为未隐写帧的后验概率计算为：

为隐写帧的后验概率计算为：

步骤S4-2)根据步骤S4-1)得到的语音帧类别后验概率，计算语音段的隐写指数J_x；

记一段包含N帧的语音段第i帧为未隐写帧的概率为pu_i，为隐写帧的概率为ps_i，则J_x表示为：

步骤S4-3)根据步骤S4-2)得到的语音段隐写指数J_x，根据训练样本计算隐写指数阈值J_thr；

设训练样本包含M段语音，记训练样本在未隐写情况下的隐写指数为J_U＝{J_u1,J_u2,…,J_uM}，在隐写情况下的隐写指数为J_S＝{J_s1,J_s2,…,J_sM}，则J_thr由下式得到：

其中CNT(J_U:J_uj≥J_x)表示未隐写指数J_U中满足J_uj≥J_x的个数，即未隐写情况下判定正确的语音数；CNT(J_S:J_sj＜J_x)表示隐写指数J_S中满足J_sj＜J_x的个数。

步骤S4-4)根据步骤S4-3)得到的隐写指数阈值J_thr，给定一段未知类型的压缩语音，计算其隐写指数J₀，若J₀≥J_thr，判定该语音段为未隐写语音段；若J₀＜J_thr，判定该语音段为隐写语音段。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于贝叶斯推理的码元改写信息隐藏检测方法，所述方法包括：

步骤1)在训练样本中根据压缩语音码元取值分布熵选取隐写敏感码元，由此构建码元强关联网络；具体包括：

步骤S3)基于码元强关联网络构建码元贝叶斯网络分类器，并使用Dirichlet分布作为先验分布学习码元贝叶斯网络分类器的参数；

2.根据权利要求1所述的贝叶斯推理的码元改写信息隐藏检测方法，其特征在于，所述步骤S1)具体包括：

步骤S1-1)计算压缩语音码元取值分布，记第k个码元的取值范围为[0,r_k]，其取值概率分布为P_k＝{p₀,p₁,...,p_rk}；

步骤S1-3)选取分布熵小于阈值E_thr的码元作为隐写敏感码元。

3.根据权利要求2所述的贝叶斯推理的码元改写信息隐藏检测方法，其特征在于，所述步骤S2)具体包括：

V＝{v_i[k],i∈{0,1,2,...}}

E＝{＜v_u[p],v_v[q]＞,v_u[p],v_v[q]∈V,v-u∈{0,1}}

RE_pq表示两个码元取值相同时的转移概率之和；

4.根据权利要求3所述的贝叶斯推理的码元改写信息隐藏检测方法，其特征在于，所述步骤S3)具体包括：

5.根据权利要求4所述的贝叶斯推理的码元改写信息隐藏检测方法，其特征在于，所述步骤S3-1)具体包括：

构成由

的两条有向边，节点X_N1表示帧内码元v[p]和v[q]取值关系，取值关系包括：取值不同和取值相同，取值不同记为0；取值相同记为1；

步骤S3-1-4)根据步骤S2-4)得到的码元强关联网络，若存在相邻帧间关联边＜v_i[p],v_i+1[p]＞，则增加子节点X_N2，构成由X₀→X_N2,X_p→X_N2的两条有向边，节点X_N2表示同一码元v[p]帧间取值关系，取值关系包括：取值不同和取值相同，取值不同记为0；取值相同记为1，至此完成码元贝叶斯网络分类器的构建，其网络节点随机变量记为U＝{X₀,X₁,…,X_M}，随机变量相应的取值记为u＝{u₀,u₁,…,u_M}。

6.根据权利要求5所述的贝叶斯推理的码元改写信息隐藏检测方法，其特征在于，所述步骤S3-2)具体包括：

θ_ijk＝P(X_i＝x_ik|Pa(X_i)＝Pa(X_i)_j)

初始化随机变量X_i取值先验分布π(θ_ij)为Dirichlet分布，即：

表示为：

7.根据权利要求5或6所述的贝叶斯推理的码元改写信息隐藏检测方法，其特征在于，所述步骤2)具体包括：

为隐写帧的后验概率计算为：

8.一种基于贝叶斯推理的码元改写信息隐藏检测系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～7任一项所述方法的步骤。