CN102509551A

CN102509551A - 基于倒谱和差分方差的音频隐写分析算法

Info

Publication number: CN102509551A
Application number: CN2011103746299A
Authority: CN
Inventors: 杨榆; 雷敏; 袁开国; 朱宪花; 钮心忻
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2011-11-23
Filing date: 2011-11-23
Publication date: 2012-06-20

Abstract

为防止隐写工具被滥用于传递非法秘密信息，音频隐写分析用于判断音频是否经过隐写，从而阻断携带非法秘密信息的音频在网络上传播。本发明是一种新的针对回声隐藏的隐写分析技术，本发明通过构造倒谱和的差分方差统计量，然后利用该统计量来反映隐写对自然音频的影响，选择倒谱和二阶导数方差作为统计指标。分析过程中在不同的偏置条件下计算待检测音频倒谱和的差分方差的值，如果倒谱和的差分方差的值没有显著变化，而且在相对判决域以下，则该待检测音频是原始音频。如果计算出来的倒谱和的差分方差值有显著变化，而且在相对判决域以上，则该待检测音频是隐写音频。本发明关键优势在于不论隐写音频的实际分段大小如何，都能较为准判断待检测音频文件是否为隐写音频。

Description

基于倒谱和差分方差的音频隐写分析算法

技术领域本发明涉及信息安全中的隐写分析领域，具体说本发明给出了一种基于倒谱和差分方差的音频隐写分析技术。

背景技术随着互联网应用的普及，越来越多的数字化多媒体内容信息纷纷以各种形式在网络上快速的交流和传播。如何对数字化多媒体内容进行有效的管理和保护，成为信息安全领域的研究热点。信息隐藏可以在载体中嵌入难以被感知的秘密信息以保护数字内容的版权或用于保密通信，可以很好的解决上述问题。信息隐藏不同于传统的数据加密，数据加密隐藏信息的内容，让第三方看不懂；信息隐藏不但隐藏了信息的内容，而且隐藏了信息的存在性，让第三方看不见。隐写术与数字水印是信息隐藏的两个重要研究分支，采用的原理都是将一定量的信息嵌入到载体数据中，但由于应用环境和应用场合的不同，对具体的性能要求不同。隐写术主要用在相互信任的点对点之间进行通信，隐写主要是保护嵌入到载体中的秘密信息。

任何科学技术都是一把双刃剑，隐写术也不例外。国家安全相关部门固然可以利用隐写术在不安全通信环境下传输秘密信息。但是随着网络技术的发展，越来越多隐写工具可以非常方便地从网络上下载使用，这使得信息隐藏工具可能会被不法分子利用，比如恐怖分子也可利用隐写工具来隐藏秘密信息，通过网络传递。这些通过网络传播的秘密通信活动很难被发现，从而对国家的安全造成比较大的威胁。这就给恶意攻击者造成了可乘之机，恐怖分子和间谍机构也可利用这项技术逃避安全检查，从而危害社会安全。为保证对互联网信息的监控、遏制隐写术的非法应用、打击恐怖主义、维护国家和社会的安全，如何对信息网络中的海量多媒体数据进行隐蔽信息的监测，及时阻断可能存在的非法信息通信已成为一个迫切需要解决的问题。隐写分析是针对图像、视频和音频等多媒体数据，在对信息隐藏算法或隐藏的信息一无所知的情况下，仅仅是对可能携秘的载体进行检测或者预测，以判断载体中是否携带秘密信息。隐写分析技术作为隐写术的对立技术，可以有效防止隐写术的滥用，在信息对抗中具有重要意义。

音频隐写分析是隐写术的对立技术，可以分析判断待检测载体是否为隐写载体，从而有效的阻断利用音频隐写术进行非法通信。

发明内容基于上述背景，本发明根据回声隐藏引起的倒谱自相关分布的变化这一原理，提出了一种新的针对回声隐藏的VDSC隐写分析技术。

具体实现过程需要的一些定义和概念：

1)VDSC算法定义

倒谱和的差分方差统计量(VDSC，variants ofdifference ofsum ofcepstrum)，以下简称为VDSC算法。VDSC简记为V，V的定义如下：

V = \underset{[lb, ub]}{var} [\frac{d^{2}}{{di}^{2}} (Σ_{k = 0}^{N - 1} {\hat{x}}_{k} (i) / N)]; i = 0 \cdot \cdot \cdot M - 1

其中，

代表语音复倒谱第k个分段样点，每个分段长为M。

为音频文件分段总数。即VDSC为N个分段复倒谱之和的数学平均的二阶导数的方差。

2)依据的原理

回声隐藏的VDSC隐写分析算法是基于音频的以下3个特点：

①回声语音倒谱在回声延迟位置处会出现峰值，而自然音频在特定区域近似噪声，两类音频VDSC值分布不同，我们把特点1称为音频VDSC值分布不同；

②对于自然音频，改变检测位置和分段大小计算所得VDSC值变化不大，我们把特点2称为自然音频VDSC不变特性；

③对于隐写语音，改变检测位置和分段大小计算所得VDSC有显著区别，我们把特点3称为隐写音频VDSC变化特性。

3)音频VDSC值分布不同

回声语音倒谱在回声延迟位置处会出现峰值，而自然音频在特定区域近似噪声，两类音频VDSC值分布不同的特点，由回声隐藏算法原理可知隐写语音倒谱域在回声延迟处会出现峰值，而需要说明的是自然音频的倒谱域分布情况。回声隐藏利用了人耳时域掩蔽效应，当回声和原声足够接近时，原声能够掩蔽回声。文献[50]指出要保证回声不可察觉，回声延迟应在0.9ms到3.4ms之间。鉴于隐写分析针对的目标是难以通过感官分析察觉的隐写音频，因此将上述区域设定为观察区域。

VDSC算法就是基于这一特点设计的。计算VDSC时首先要求取音频所有分段倒谱和的数学平均。对自然音频而言，每一分段倒谱峰值可能出现在上述区间的任意位置，因此各分段倒谱和相对平滑，没有明显波动；而对隐写音频而言，所有分段峰值必然在两个回声延迟之一处出现，所以，叠加各分段将突出回声延迟处峰值。为了进一步去除随机因素干扰，对倒谱和求二阶导数，这样，对于回声音频，在回声延迟处二阶导数小于零，且其一阶导数近似为零，而自然音频相对平滑，其二阶导数应该近似于零，或在零附近有较小波动。采用方差来描述波动程度。

4)自然音频VDSC不变特性

检测分段指音频隐写分析算法是检测计算VDSC时所选用的分段大小，检测位置指分段起始位置与音频文件起始位置的偏移。对于自然音频，语音各类特性(基音周期等)由发音系统特性确定，不会随分段大小和检测位置发生变化，因此，在各类检测条件下，自然音频的VDSC基本不变。

5)隐写语音VDSC变化特性

对于待检测音频在进行隐写分析的时候，无法得知隐写时所使用的分段长度，这样隐写时所使用的分段长度可能和检测的时所使用的分段长度不一致。比如可能存在隐写时以1024为分段长度，而检测时以512为分段长度的情况。

而且对待检测音频进行隐写分析时，我们也无法得知隐写时隐藏的起始位置，也就是说音频隐写的时候和检测时候起始位置不同。比如隐写时候可能从距起始位置340个样点开始，而检测时并不知道隐写的时候是从距文件头起始位置340个样点开始隐藏信息，检测的时候直接从文件头开始计算。

这样，音频分析检测的很多条件与实际隐写时候的很多条件不一致，分段大小和起始位置不同，这样就会导致部份检测分段包含来自2个不同隐写分段的样点，而这2个隐写分段对应的延迟可能不同，不同延迟的倒谱必然相互干扰形成“谐波”，因此隐写语音的VDSC会随参数变化而发生显著变化。

本发明提出的基于回声隐藏的VDSC隐写分析算法，是通过构造倒谱和的差分方差统计量来反映隐写对自然音频的影响，选择倒谱和二阶导数方差作为统计指标。分析在不同的偏置条件下计算待检测音频的VDSC值，如果VDSC的值没有显著变化，而且在相对判决域以下，则该待检测音频是原始音频。如果计算出来的VDSC值有显著变化，而且在相对判决域以上，则该待检测音频是隐写音频。

附图说明下面结合附图和具体实施方式，对本发明做进一步的详细说明。

图1是本发明提出的隐写分析算法流程图。

图2是本发明自然音频文件不同检测参数下VDSC的实验结果。

图3是本发明隐写语音不同检测参数下VDSC的实验结果。

图4是本发明回声隐藏分析判决结果。

具体实施方式

图1表示了本发明提出的隐写分析算法流程图。该隐写分析算法具体过程如下：

步骤一、在不同偏置条件下计算VDSC，如果VDSC值有显著变化，则判定该语音为回声隐写音频；如果VDSC值没有显著变化，该语音有可能是自然音频，也有可能是隐写音频，此时检测分段与实际分段不一致，因此由检测位置不一致引起的VDSC的差别没有得到体现。如果不能马上判断是否为隐写音频，则进行第二步判断。

步骤二：观测待检测音频的VDSC值，如果VDSC值小于阈值Thra，认为该音频为自然音频。但也有极少数自然音频VDSC值大于阈值Thra，绝大多数隐写音频无论检测分段与实际分段大小差异如何，VDSC值大于阈值Thra。进行第三步判断。

步骤三：选择不同分段长度计算VDSC值，如果VDSC值没有显著变化，则认为该音频是自然音频，否则，认为该语音是隐写语音。

算法的关键是阈值Thr_a的确定和显著变化的定义。阈值Thr_a可通过统计自然语音的VDSC确定，其计算公式如下：

Thr_a＝mean(V_i)+αvar(V_i)

其中，mean(V_i)表示若干段语音VDSC的均值，var(V_i)表示若干段语音VDSC的方差，α可取0，1，2，3…等值，α值越大，阈值就会越大，漏检率越低，误判率越高。

“显著变化”描述不同条件下计算出的VDSC值的差异程度，与VDSC本身的大小有关。例如，若V＝0.0008，则变化值0.0001对其来说为显著变化，若V＝0.0100，则上述变化即为微小变化。因此，算法定义显著变化为：

max(ΔV_ij)≥βmin(V_i)；

i，j∈{0，1，2…，N-1}，i≠j

V_i为N类条件(偏置或分段大小)下计算所得VDSC值，Δ_ij为N个VDSC中任意两个不同VDSC差值的绝对值。上述判决条件可以表述为不同条件下计算所得VDSC的最大差值大于幅值最小的VDSC值的加权。加权β与VDSC的大小有关，VDSC越小，β越大。β计算式为：

β = \{\begin{matrix} 0.8; & if β^{'} &GreaterEqual; 1 \\ 0.5; & if (1 - β^{'}) \leq 0.5 \\ 1 - β^{'}; & others \end{matrix}

选择测试语音文件的标准如下：

首先，基因周期与发音人性别、年龄有关，而基音周期又将影响回声检测，因此测试语音应尽可能覆盖所有类型。同时，作为掩蔽语音，话音内容应尽可能自然，不引起怀疑。综上考虑，实验选取26段平均长度约8分钟，8KHz采样的英语对话语音为测试语音，包括男声、女声、老年和青壮年语音。这些语音分为A、B两组，每组13段语音。统计A组语音的均值和方差确定Thr_a为1.3e-3，用B组语音产生隐写语音。

其次，隐写算法参数不同，检测的难易程度不同，主要影响因素是叠加的回声强度。强度越大，听觉质量越差，保密通信接收方提取信息的误码率越小，亦即鲁棒性和透明性难以兼顾，对于保密通信，合理的思路是在确保隐写音频文件听觉质量的基础上，尽可能提高鲁棒性。本发明采用噪声水平作为衡量隐写音频听觉质量的客观指标，用秘密信息恢复率表征鲁棒性。据此用B组语音在不同衰减系数(0.3～0.7，步长为0.1)不同分段(512，1024，2048)条件下生成隐写语音，挑选符合条件的隐写音频构成C组语音。挑选的条件为：原始语音和隐写语音噪声水平信噪比不低于10dB和秘密信息恢复率不低于90％，从而确保隐写音频的听觉质量以及保密通信的可靠性。定义噪声水平为：

σ^{2} = \frac{1}{| S_{\max} |} \times \frac{1}{N} \times Σ_{n = 1}^{N - 1} {[s (n + 1) - s (n)]}^{2}

上式中s(n)为长度为

的音频的样点，S_max为样点的最大幅值。隐写音频的听觉质量应达噪声水平小于0.005。由于部份原始音频的噪声水平已经超过0.005，所以选择隐写前后音频噪声水平的信噪比作为隐写音频听觉质量判决条件，两者信噪比不小于10dB时，回声隐写效果难以察觉。

若恢复率过低，亦即保密通信的效率太低，这样的音频不值得分析。因此，需要设置隐写音频的恢复率条件。考虑到隐写音频经过信道传输后，秘密信息恢复率还会降低，所以设置第二个挑选标准为秘密信息提取率不低于90％。满足这些条件的语音组——C组包含59个音频文件。

使用本发明中介绍的隐写算法对A、B、C三组共85段音频文件集合进行检测，这85段音频中有26段自然音频和59段隐写音频。实验结果如图2、图3和图4所示。

图2为自然音频文件的实验结果，图中，横轴为音频文件序号，此实验中共有26个自然音频，纵轴为VDSC值。实折线对应不同音频文件在偏移为零和检测分段为512条件下计算所得VDSC；虚折线对应不同音频文件在偏移为256和检测分段为1024条件下计算所得VDSC；点实折线对应不同音频文件在偏移为512和检测分段为2048条件下计算所得VDSC；与横轴平行的实折线为阈值Thra为1.3×10-3。

从图2可以看出：对于大部分自然音频文件，使用不同参数计算所得的VDSC基本一致，所以3条折线基本重合。而且大部分音频文件的VDSC值都低于阈值Thra。但是在此图中也有两个音频文件，不同参数下计算所得VDSC的最大变化值虽然为10×10-4数量级，但由于其变化值比VDSC比值高，使本发明产生了误判。

本发明首先计算1024分段长度时，不同起始偏移条件下VDSC，若据此不足以判决，则继续计算不同分段下VDSC，图示了判决所用VDSC，可能是在特定偏移或特定分段长度下计算所得。

从图3可以看出：大部分隐写音频文件在不同条件下计算所得VDSC有较大变化。正因为有此特点，在不知实际隐写参数时，本发明才可以进行检测。有较多VDSC值小于阈值Thra，若采用“小于阈值Thra即为自然音频”作为判决条件将造成大量漏检，因此尽管绝大多数自然音频VDSC小于阈值Thra，但最终判决还需要结合其它特征。最后，VDSC的绝对变化幅度各异，必需采用相对判决阈值。

图4显示本发明的判决情况。为方便观察将音频排序，前26个为自然音频文件，后59个为隐写音频文件。其中横轴为音频文件序号，纵轴为VDSC，实折线为各类计算条件下所得VDSC的最大变化幅度，虚折线为由各音频VDSC计算所得的相对判决阈值，小于阈值被判决为自然音频。星形点标示发生误判的2个文件，虚心圆点表示发生漏检的8个文件。可以看出，大部分自然音频VDSC基本没变化，在相对判决阈值以下，隐写音频正相反。

通过上述实验表明，在85个待检测音频中，本发明能准确地判别其中75个是否经过隐写，准确率为88.2％；误判的文件为2个，虚警率为2.4％，漏判的文件为8个，漏检率为9.4％。

Claims

1.基于倒谱和差分方差的音频隐写分析算法，其特征在于：基于回声隐藏引起的倒谱自相关分布的变化这一原理，提出了一种新的针对回声隐藏的隐写分析算法。本发明不论隐写音频的实际分段大小如何，通过构造倒谱和差分方差统计量VDSC(Variants of Difference of Sum of Cepstrum)来反映隐写对自然语音音频的影响，从而较为准确地判断待检测音频文件是否为隐写音频。

2.如权利要求1所说的基于倒谱和差分方差的音频隐写分析算法，其特征在于：通过构造倒谱和的差分方差统计量来反映隐写对自然语音音频的影响，选择倒谱和二阶导数方差作为统计指标。然后分析在不同的偏置条件下计算待检测音频的VDSC值，如果VDSC的值没有显著变化，而且在相对判决域以下，则该待检测音频是原始音频。如果计算出来的VDSC值有显著变化，而且在相对判决域以上，则该待检测音频是隐写音频。

3.如权利要求1所说的基于倒谱和差分方差的音频隐写分析算法，其特征在于：在对待检测音频进行分析检测时，要求隐写音频的隐写率为100％，也就是每个分段都必须隐藏一位水印信息，当隐写率不足100％时，该算法的判别正确率会下降。而且在检测时，所有隐写音频都嵌入相同的秘密信息，而且嵌入的秘密信息中0、1比特所占比率必须相同。但在实际的情况下，不同的音频隐藏的秘密信息不同，而且0、1比特所占的比率也不完全相同。