CN104134443B

CN104134443B - 对称三进制串表示的语音感知哈希序列构造和认证方法

Info

Publication number: CN104134443B
Application number: CN201410401657.9A
Authority: CN
Inventors: 张秋余; 省鹏飞; 彭铎; 黄羿博; 杨仲平; 余爽; 任占伟
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2014-08-14
Filing date: 2014-08-14
Publication date: 2017-02-08
Anticipated expiration: 2034-08-14
Also published as: CN104134443A

Abstract

对称三进制串表示的语音感知哈希序列构造和认证方法，首先对预处理和强度‑响度转换（ILT）后的语音信号进行全局离散小波变换（DWT）；然后对DWT后的语音信号的低频部分进行不重叠分块，计算块的短时对数能量获得信号频域特征；最后结合语音信号时域谱通量特征（SFF），生成最终的三进制感知哈希序列，通过哈希匹配实现了对音频内容的快速认证。本发明提出的感知哈希摘要的对称三进制串表示优于二进制形式，对常见的语音内容保持操作在保证鲁棒性和区分性折中的同时，算法的时间复杂度低、效率高、摘要性强，并能实现精确的篡改检测与定位，可用于带宽资源受限的移动语音通信终端的实时认证。

Description

对称三进制串表示的语音感知哈希序列构造和认证方法

技术领域

本发明属于多媒体信息安全领域，具体涉及一种对称三进制串表示的语音感知哈希序列构造和认证方法。本发明采用对称三进制串来构造感知哈希序列，可有效应用于实现移动语音通信通话过程中的内容认证、说话人认证和检索，并能实现小范围篡改检测和定位。

背景技术

随着信息技术和互联网技术的迅速发展，语音数字作品得以无限记录、传播和保存，在远程通信系统中发挥了重要的作用。但是人们可借助多媒体软件(如Cool Edit)对数字制品进行编辑和修改，再加上无线以及网络等通信信道的开放性，也为篡改、窃听等非法攻击提供了可乘之机。语音多媒体信息中往往含有一些敏感内容和重要信息，比如军事指令、商业机密和保密信息等。为了保证音频多媒体信息的可靠通信和内容安全，有必要对语音内容的真实性和完整性进行验证。

语音感知哈希(Perceptual Hashing)认证通过验证多媒体信息的内容完整性及真实性来保护多媒体信息，具有内容保持操作的鲁棒性，严格的区分性和安全性，能较好地实现对语音、宽带音频等信号的内容完整性认证。

目前，语音感知内容认证的研究已取得不少研究成果，其特征值提取和处理的方法有很多。比较典型的特征有对数倒谱系数(见文献“H,Sankur B,Memon N,etal.Perceptual audio hashing functions[J].EURASIP Journal on Applied SignalProcessing,2005:12,1780-1793”)、线性谱频率(见文献“Nouri M,Farhangian N,Zeinolabedini Z,et al.Conceptual authentication speech hashing base uponhypotrochoid graph[C].Telecommunications(IST),2012Sixth InternationalSymposium on.IEEE,2012:1136-1141”)、梅尔频率倒谱系数(见文献“Panagiotou V,Mitianoudis N.PCA summarization for audio song identification using GaussianMixture models[C].Digital Signal Processing(DSP),2013 18th InternationalConference on.IEEE,2013:1-6”)、线性预测系数(见文献“Lotia P,Khan D MR.Significance of Complementary Spectral Features for Speaker Recognition[J].IJRCCT,2013,2(8):579-588”)等，提取方法有希尔伯特变换(见文献“Huan Zhao,He Liu,Kai Zhao,Yong Yang.Robust Speech Feature Extraction Using the HilbertTransform Spectrum Estimation Method.International Journal of Digital ContentTechnology and its Applications.2011,5(12):85-95”)、时空调制(见文献“Xugang Lu,Shigeki Matsuda,Masashi Unoki.Temporal modulation normalization for robustspeech feature extraction and recognition[J],Multimedia Tools andApplications,2011,1(52):187-199”)等。焦玉华等(见文献“Jiao Y,Ji L,Niu X.Robustspeech hashing for content authentication[J].Signal Processing Letters,IEEE,2009,16(9):818-821”)对语音进行处理获得线谱对参数，应用离散余弦变换(DCT)对参数矩阵去相关来提取最终的感知特征参数，该算法有好的区分性和安全性，但摘要性不强。Chen等(见文献“Chen N,Xiao H D,Zhu J,et al.Robust audio hashing scheme basedon cochleagram and cross recurrence analysis[J].Electronics Letters,2013,49(1):7-8”)在计算机视觉技术的基础上，对语音进行耳蜗图(Cochleagram)和交叉递归分析，快速提取感知哈希摘要，算法有较高的识别性能，但不适用于实时认证。黄羿博等(见文献“Huang Y,Zhang Q,Yuan Z.Perceptual Speech Hashing Authentication AlgorithmBased on Linear Prediction Analysis[J].TELKOMNIKA Indonesian Journal ofElectrical Engineering,2014,12(4):3214-3223.”)改进了线性预测分析的语音感知哈希认证算法，简称E+LPC方法，该算法认证效率高，但鲁棒性较弱。上述所有语音感知哈希认证算法的感知哈希值都是以二进制形式表示，但感知哈希值二进制序列非“0”即“1”，对内容保持操作会产生高概率的突变，BER稳定性不足。尤其对单个语音，错误拒绝和接受概率高。

小波变换是一种时、频分析方法，具有多分辨分析的特点，其时间－频率窗口不是固定不变的，克服了快速傅里叶变换和短时傅里叶变换的缺点，适合于非平稳信号(语音信号)的分析，具有准确表征语音信号的局部细节的能力。

发明内容

本发明的目的是提供一种对称三进制串表示的语音感知哈希序列构造和认证方法，解决了语音感知哈希认证算法小范围篡改定位的问题，克服了二进制哈希序列的弱点，有效提高认证算法的效率。

本发明是对称三进制串表示的语音感知哈希序列构造和认证方法，其步骤为：

(1)预处理：音频信号S进行预加重处理，获得信号S_h；

(2)频域对数短时能量特征提取：

(2a)信号S_h经过响度-强度转换，获得转换后信号L，其中语音信号响度L与信号强度I的关系为：

L＝I^α

其中，α表示倍频程，本专利采用1/3倍频程，即α＝0.33；

(2b)对信号L进行离散小波变换，提取小波分解低频系数Lh；

(2c)对小波分解低频系数Lh进行不重叠分块，块长为M，块数为N₀，获得矩阵T；

(2d)计算矩阵T行对数短时能量，获得对数短时能量特征参数向量H₁＝{g(k)|k＝1,2,...,N₀}，其中对数短时能量可由下式计算出：

g (k) = 10 l o g Σ_{m = 1}^{M} T (k, m)

(3)谱通量特征提取：

(3a)信号S_h通过上下限截止频率分别为3400Hz和60Hz的带通滤波器进行滤波，获得滤波后信号B；

(3b)对信号B进行分帧，帧数为N，计算帧信号的频谱通量，获得谱通量特征参数向量H₂＝{SFF(k)|k＝1,2,...,N₀}。

(4)哈希构造：

(4a)对H₁,H₂分别进行感知哈希对称三进制串构造，生成感知哈希序列ph₁、ph₂，构造方法为：

{ph}_{i} (j) = \{\begin{matrix} 1 & i f H_{i} {(j)}^{2} - H_{i} (j - 1) \times H_{i} (j + 1) > 0 \\ 0 & e l s e i f H_{i} (j) - H_{i} (j - 1) > 0 \\ - 1 & o t h e r w i s e \end{matrix}

其中，i表示当前特征向量，H(j)为特征参数向量H的第j个值；

(4b)语音信号感知哈希序列为ph，ph＝[ph₁；ph₂]。

(5)哈希匹配：

(5a)计算原始音频信号的哈希序列，作为哈希序列模板，记做ph；

(5b)计算待测音频信号的哈希序列，记做ph'；

(5c)计算ph和ph'的哈希数学距离D(:,:)；

D (p h, {ph}^{'}) = Σ_{i = 1}^{2 N_{0}} | p h (i) - {ph}^{'} (i) |

(5d)对哈希数学距离进行归一化，获得比特误码率BER；

BER＝D(ph,ph')/2N₀

(5e)设置BER匹配阈值τ；

(5f)如果BER小于匹配阈值τ，则原始音频信号与待测音频信号感知内容相同，认证通过，否则不通过。

(6)篡改检测与定位：

(6a)计算原始音频信号特征序列H₁,H₂分别对应的哈希序列，记做ph₁、ph₂；

(6b)计算待测音频信号特征序列H'₁,H'₂分别对应的哈希序列，记做ph'₁、ph'₂；

(6c)计算ph和ph'的失真距DD；

DD(i)＝|ph'₁(i)-ph₁(i)|+|ph'₂(i)-ph₂(i)|

(6d)对失真距离DD分块，块长度为N_D，块移为M_D，块数为C；

(6e)计算块总失真距TDD；

T D D (c) = Σ_{k = 1}^{N_{D}} D D (c + k - 1)

其中，c为当前块；

(6f)求取TDD的最大值Z_max，统计TDD的0元素数目，记做Z₀，并统计TDD中元素小于2Z_max/3的数目，记做Z₁；

(6g)计算待测语音信号的篡改度TMF；

T M F = \frac{Z_{m a x} \times Z_{0}}{Z_{1} - Z_{0}}

(6h)设置篡改度的匹配阈值Tτ，如果测得待测音频信号的篡改度大于阈值T_τ，则待测语音信号受到了篡改，否则待测语音信号未受篡改；

(6i)根据上述步骤确定语音信号篡改与否；

(6j)对篡改语音信号分析失真距DD，如果DD(i)>2，则第i块受到了篡改，否则未受篡改，从而对语音信号进行基于块的篡改定位，块数N越大，篡改定位越精确。

本发明与现有技术相比具有以下优点：

(1)由于本发明引入了对称三进制串来构造语音感知哈希序列，克服了二进制哈希序列表示的弱点，使得本发明在满足鲁棒性和区分性的同时，感知哈希摘要性强，且具有很高的认证效率和低数据量。

(2)本发明具有较强的鲁棒性，解决了语音感知哈希认证算法小范围篡改定位的问题。

(3)本发明对语音信号进行全局DWT,大大降低了算法计算复杂度，且特征值的获取只有加法运算，进一步提高了算法的运行效率，能够满足移动通信终端的实时认证要求。

附图说明

图1为本发明的流程图，图2为离散小波分解示意图，图3为三进制(Q)下FAR-FRR曲线图，图4为二进制下FAR-FRR曲线图，图5为三进制(O)下FAR-FRR曲线图，图6为E+LPC方法的FAR-FRR曲线图，图7为三进制(O)下不同内容语音的BER正态概率图，图8为内容保持操作、恶意篡改后的信号和原信号在时间轴上的区别图，图9为原始语音信号图，图10为篡改语音信号定位图。

具体实施方案

(1)对音频信号S进行预加重处理；

(2)对预加重后的信号进行响度-强度转换；

(3)对响度-强度转换的信号进行离散小波变换，提取小波分解低频系数；

(4)对小波分解低频系数进行不重叠分块，块长为M，块数为N₀，获得矩阵T；

(5)计算矩阵T行对数短时能量，获得对数短时能量特征参数向量H₁；

(6)对预加重后信号进行带通滤波；

(7)对带通滤波后的信号提取时域谱通量特征，获得特征参数向量H₂；

(8)对H₁,H₂分别进行感知哈希对称三进制串构造，生成感知哈希序列ph₁、ph₂，构造方法为：

{ph}_{i} (j) = \{\begin{matrix} 1 & i f H_{i} {(j)}^{2} - H_{i} (j - 1) \times H_{i} (j + 1) > 0 \\ 0 & e l s e i f H_{i} (j) - H_{i} (j - 1) > 0 \\ - 1 & o t h e r w i s e \end{matrix}

其中，i表示当前特征向量，H(j)为特征参数向量H的第j个值；

(9)生成最终的语音信号感知哈希序列ph，ph＝[ph₁；ph₂]；

(10)哈希匹配：按上述步骤分别获得原始语音信号和待测语音信号的感知哈希序列ph、ph'，计算两者的比特误码率，与预先设置的匹配阈值(Threshold)相比较，两段感知内容相同音频信号的BER值小于匹配阈值，认证通过，相反，感知不同语音的BER应大于匹配阈值，则认证不通过。

下面结合附图对本发明做进一步的详细描述。

参照附图1，本发明是对称三进制串表示的语音感知哈希序列构造和认证方法，其步骤为：

步骤1：预处理。

音频信号S进行预加重处理，获得信号S_h。

步骤2：响度-强度转换。

信号S_h经过响度-强度转换，获得转换后信号L，语音信号响度L与信号强度I的关系为：

L＝I^α

其中，α表示倍频程，本专利采用1/3倍频程，即α＝0.33。

步骤3：离散小波变换。

对响度-强度转换的信号进行离散小波变换，参照附图2，提取小波分解低频系数Lh。

步骤4：分块。

对小波分解低频系数Lh进行不重叠分块，获得矩阵T，其中块长M＝200，块数N₀＝160。

步骤5：短时对数能量提取。

计算矩阵T行对数短时能量，获得对数短时能量特征参数向量H₁＝{g(k)|k＝1,2,...,N₀}，对数短时能量可由下式计算得出：

g (k) = 10 l o g Σ_{m = 1}^{M} T (k, m)

步骤6：带通滤波。

信号S_h通过上下限截止频率分别为3400Hz和60Hz的带通滤波器进行滤波，获得滤波后信号B。

步骤7：谱通量特征提取。

对信号B进行分帧，帧数为N，计算帧信号的频谱通量，获得谱通量特征参数向量H₂＝{SFF(k)|k＝1,2,...,N₀}。

步骤8：哈希构造。

第一步，对H₁,H₂分别进行感知哈希对称三进制串构造，生成感知哈希序列ph₁、ph₂，构造方法为：

{ph}_{i} (j) = \{\begin{matrix} 1 & i f H_{i} {(j)}^{2} - H_{i} (j - 1) \times H_{i} (j + 1) > 0 \\ 0 & e l s e i f H_{i} (j) - H_{i} (j - 1) > 0 \\ - 1 & o t h e r w i s e \end{matrix}

其中，i表示当前特征向量，H(j)为特征参数向量H的第j个值。

第二步，获得语音信号感知哈希序列ph，ph＝[ph₁；ph₂]。

步骤9：哈希匹配。

第一步，计算原始音频信号的哈希序列，作为哈希序列模板，记做ph；

第二步，计算待测音频信号的哈希序列，记做ph'；

第三步，计算ph和ph'的哈希数学距离D(:,:)；

D (p h, {ph}^{'}) = Σ_{i = 1}^{2 N_{0}} | p h (i) - {ph}^{'} (i) |

第四步，对哈希数学距离进行归一化，获得比特误码率BER；

BER＝D(ph,ph')/2N₀

第五步，设置BER匹配阈值τ；

第六步，如果BER小于匹配阈值τ，则原始音频信号与待测音频信号感知内容相同，认证通过，否则不通过。

步骤10：篡改检测与定位。

第一步，计算原始音频信号特征序列H₁,H₂分别对应的哈希序列，记做ph₁、ph₂；

第二步，计算待测音频信号特征序列H'₁,H'₂分别对应的哈希序列，记做ph'₁、ph'₂；

第三步，计算ph和ph'的失真距DD；

DD(i)＝|ph'₁(i)-ph₁(i)|+|ph'₂(i)-ph₂(i)|

第四步，对失真距离DD分块，块长度为N_D，块移为M_D，块数为C；

第五步，计算块总失真距TDD；

T D D (c) = Σ_{k = 1}^{N_{D}} D D (c + k - 1)

其中，c为当前块；

第六步，求取TDD的最大值Z_max，统计TDD的0元素数目，记做Z₀，并统计TDD中元素小于2Z_max/3的数目，记做Z₁；

第七步，计算待测语音信号的篡改度TMF；

T M F = \frac{Z_{m a x} \times Z_{0}}{Z_{1} - Z_{0}}

第八步，设置篡改度的匹配阈值Tτ，如果测得待测音频信号的篡改度大于阈值Tτ，则待测语音信号受到了篡改，否则待测语音信号未受篡改；

第九步，根据上述步骤确定语音信号篡改与否；

第十步，对篡改语音信号分析失真距DD，如果DD(i)>2，则第i块受到了篡改，否则未受篡改。

本发明性能的优越性可通过以下仿真实验进一步说明：

1.实验条件与实验说明

本发明实验中所用语音数据来自于TIMIT语音库和TTS语音库，由中文男女、英文男女录制的不同内容的语音组成，采样频率为16kHz，采样精度为16bit的4秒wav语音1280段，声道数为单声道。其中英文640段，中文640段。

实验平台分为两种：

(1)硬件环境是Inter(R)Celeron(R)E3300，2G，2.5GHz，软件环境是Windows XP操作系统下的MATLAB R2012b；

(2)硬件环境是Inter(R)Core(TM)i3-2120，4G，3.30GHz，软件环境是Windows 7操作系统下的MATLAB R2012b。

2.实验内容

实验1：鲁棒性测试与分析

本发明对各个音频库中的音频文件进行如下表1所示的各种内容保持操作。

表1各种内容保持操作

1)不同进制算法鲁棒性比较

对于单个语音段而言，其本身是一个完整的整体，它经过特殊处理所获的特征值序列也是一个完整的整体。我们把特征值序列看作是大整数，其对应的哈希序列K可以表示为K＝ph_N,ph_N-1,…,ph_i,…,ph₂,ph₁，其中ph_i是-1,0,1中的任一个数字的形式。上述的表示称为对称三进制串表示，且任何正整数都能被表示成一个唯一的对称三进制字符串序列。因而，语音段可以由其对应的对称三进制字符串序列唯一表示。

目前，所有感知哈希认证算法的感知哈希值都是以二进制形式表示。但感知哈希值二进制序列非“0”即“1”，对内容保持操作会产生高概率的突变，BER稳定性不足。尤其对单个语音，错误拒绝和接受概率较高。本发明对语音段的感知特征值分别进行三进制和二进制表示，并通过实验对其做比较和分析。

根据表1，分别计算1280个不同内容的语音段在二进制和三进制下对各种内容保持操作的BER。对于二进制，理论上“0”和“1”序列等概率出现，不同语音的平均汉明距等于0.5N；而对于三进制，理论上“-1”、“0”和“1”序列等概率出现，不同语音的平均汉明距等于8N/9。为了在同一范围内比较三进制与二进制感知哈希序列的性质，本发明将三进制哈希序列的归一化汉明距乘以比例因子θ，使之量化在[0,1]范围内，其中，N为哈希序列长度，θ＝(N/2)/(N8/9)。本文对BER数据的来源做标记，如表2所示。

表2 BER数据来源标记

根据表2，然后计算三进制(O)、三进制(Q)和二进制系统下本发明对各种内容保持操作的BER数据的均值、跨度和标准差，比较三进制(Q)和二进制下本发明的BER数据如表3所示。

表3 三进制(Q)和二进制下算法比特误码率

如表3所示，对于内容保持操作，语音三进制哈希序列BER均值、跨度和标准差几乎都小于二进制哈希序列，说明语音三进制哈希序列BER集中度高，较为稳定。这主要是因为哈希二进制序列非“0”即“1”，对内容保持操作攻击会产生高概率的突变，BER稳定性不足。尤其对单个语音，错误拒绝和接受概率较高。而三进制有“-1”、“0”和“1”三个序列，一定程度上减缓了突变，降低了内容保持操作后的错误拒绝和接受概率。

从图3～图4可以看出，本发明在二进制和三进制下FAR-FRR曲线在图中都没有交叉，这说明本发明在不同系统下都具有良好的区分性和鲁棒性，可以准确的识别内容保持操作后语音和不同内容的语音。比较图3和图4，三进制(Q)下算法可设匹配阈值范围大于二进制下阈值范围，再结合表3不难看出，对语音段进行感知哈希三进制序列表示的算法识别性能和鲁棒性优于二进制形式。

2)不同算法鲁棒性比较

计算三进制(O)下算法对各种内容保持操作的BER数据的均值，如表4所示。

表4 三进制(O)下算法的平均比特误码率

操作手段	三进制表示
		参数	BER均值
V.↓	0.0102
		V.↑	0.0341
F.I.R	0.1754
		B.W	0.1500
R.8→16	0.0083
		R.32→16	0.0614
E.A	0.3026
		G.N	0.1150
M.32	0.2068
		M.192	0.0344

如表4所示，降低音量、增大音量和重采样并不能改变声音的声道模型，语音段各帧间能量特征和谱通量均受影响较小，提取的特征参数不会发生较大改变，因此本发明对降低音量、增大音量和重采样操作鲁棒性最好。对于不同类型的低通滤波，本发明具有较低的平均比特误码率，且本发明对内容保持操作攻击的平均比特误码率都在0.35以下。可见，本发明对各种内容保持操作都具有很好的鲁棒性，对音量调节和重采样效果最好。

本发明与E+LPC方法相比较的比特误码率，如表5所示。

表5本发明与E+LPC方法的BER比较

从表5可以看出，本发明对各种内容保持操作攻击的平均比特误码率都远低于E+LPC方法的平均比特误码率。对比图5和图6,E+LPC方法FAR-FRR曲线在图中有交叉，而本发明的FAR-FRR曲线在图中没有交叉,因此本发明对内容保持操作的鲁棒性优于E+LPC方法。

实验2：区分性测试与分析

1)误识率(FAR)

不同内容语音的感知哈希值的比特误码率基本服从正态分布。语音信号具有随机性，理论上三进制感知哈希序列“-1”、“0”和“1”等概率发生，即q＝q0＝q1＝q2，感知哈希序列服从三项分布。根据隶莫佛-拉普拉斯中心极限定理，汉明距近似服从正态分布，当采用误码率作为距离测度时，误码率近似服从(μ＝8/9，)的正态分布，其中N是感知哈希序列的长度。理论上正态分布参数均值μ＝0.8889，标准差σ＝0.0417。实验对1280个语音段进行感知哈希值的两两比对，得到三进制(O)下818,560个比特误码率数据，所得的比特误码率的正态分布如图7所示。其中均值μ₀＝0.7986，标准差σ₀＝0.0445，与理论计算出的参数值接近。进一步的计算本发明的误识率(FAR)，误识率可由下式计算，本发明的误识率如表6所示。

F A R (τ) = {&Integral;}_{- \infty}^{τ} f (x | μ, σ) d x = {&Integral;}_{- \infty}^{τ} \frac{1}{σ \sqrt{2 π}} e^{\frac{- {(x - μ)}^{2}}{2 σ^{2}} d x}

表6本发明误识率

τ	FAR
		0.30	1.9378e-29
0.35	3.3555e-24
		0.40	1.6636e-19
0.45	2.3684e-15
		0.50	9.7237e-12

从表6可以看出，当判决阈值τ＝0.50时，FAR＝9.7237e-12，本发明能够完全区分内容保持操作和不同内容语音段，此时每10¹¹个语音段错误判断仅为1个。因此，本发明所获得的感知哈希三进制序列具有随机性和抗碰撞性。再结合图5，可以看出本发明具有较高的鲁棒性和区分性。

2)熵率(ER)

FAR受感知哈希序列尺寸的影响较大，当感知哈希序列尺寸变化时，同一算法的FAR也随着变化，因此仅依靠FAR来判断算法的区分性能有失偏颇且不公平。相反，熵率(Entropy rate,ER)是单位信息量，具有明确的上下限值，且不受感知哈希序列尺寸的影响。它普遍适用于任意感知哈希算法，而不需要专门为具体算法修改模型参数，常作为区分性、压缩性的联合评价指标。熵率可由下式进行计算：

ER＝-p log₂ p-(1-p)log₂(1-p)

其中，σ、σ0分别是理论和实验所获得的标准差。

表7不同算法的熵率

算法	三进制(O)	E+LPC方法
			ER	0.9527	0.8992

根据表7，本发明的熵率高于E+LPC方法的熵率，这说明本发明识别性能好于E+LPC方法，具有更好的随机性和抗碰撞性。

实验3：篡改检测与定位

从图8语音波形比较可以看出，非法恶意操作一般只对语音的局部进行剪切或篡改，比特误码率低，因此单凭BER无法判断语音篡改与否。语音在内容保持操作下引起的错误往往均匀分布，在非法恶意操作下引起的错误一般在局部区域造成较大影响。

本发明在语音库中随机选取比特误码率最高的四组语音段各1000段:剪切10％、低通滤波、窄带噪声和回声，其篡改检测率如表8所示：

表8各种攻击后语音信号的篡改检测率

各种操作	篡改检测率
		恶意剪切	0.9265
低通滤波	0
		窄带噪声	0.0641
回声	0

对篡改语音信号分析失真距DD，如果DD(i)>2，则第i块受到了篡改，否则未受篡改。对语音信号进行基于块的篡改定位，语音信号的篡改定位如图9和图10所示，块数N越大，篡改定位越精确。本发明N＝160，最小单位为毫秒级，因而可以进行毫秒级精确定位。

实验4：效率分析

为了测试本发明的算法复杂度和计算效率，从语音库随机抽取100段语音，统计算法的平均运行时间，并与E+LPC方法做比较，如表9所示：

表9效率比较

根据表9，本发明运算效率在实验平台(1)环境下与E+LPC方法接近，而在实验平台(2)环境下则远远优于E+LPC方法，因此本发明的算法运行效率较高，复杂度低。本发明的认证算法感知哈希值序列尺寸仅为320比特，具有很强的摘要性，认证数据量小。

综上所述，本发明对语音信号具有强鲁棒性和区分性，算法运行效率高，摘要性强，认证数据量小，且能精确地实现小范围篡改检测和定位。因此，本发明够满足语音通信实时性的要求，可应用于移动计算环境下的带宽资源受限的语音认证通讯终端设计。

Claims

1.对称三进制串表示的语音感知哈希序列构造和认证方法，其步骤为：

(1)对音频信号S进行预加重处理；

(2)对预加重后的信号进行响度-强度转换；

(6)对预加重后信号进行带通滤波；

{ph}_{i} (j) = \{\begin{matrix} 1 & i f H_{i} {(j)}^{2} - H_{i} (j - 1) \times H_{i} (j + 1) > 0 \\ 0 & e l s e i f H_{i} (j) - H_{i} (j - 1) > 0 \\ - 1 & o t h e r w i s e \end{matrix}

其中，i表示当前特征向量，H(j)为特征参数向量H的第j个值；

(9)生成最终的语音信号感知哈希序列ph，ph＝[ph₁；ph₂]；

2.根据权利要求1所述的对称三进制串表示的语音感知哈希序列构造和认证方法，其特征在于频域对数短时能量特征提取的步骤为：

(1)音频信号S进行预加重处理，获得信号S_h；

(2)信号S_h经过响度-强度转换，获得转换后信号L，其中语音信号响度L与强度I的关系为：

L＝I^α

其中，α表示倍频程，本专利采用1/3倍频程，即α＝0.33；

(3)对信号L进行离散小波变换，提取小波分解低频系数Lh；

(4)对小波分解低频系数Lh进行不重叠分块，块长为M，块数为N₀，获得矩阵T；

(5)计算矩阵T行对数短时能量，获得对数短时能量特征参数向量H₁＝{g(k)|k＝1,2,...,N₀}，其中对数短时能量可由下式计算出：

g (k) = 10 l o g Σ_{m = 1}^{M} T (k, m) .

3.根据权利要求1所述的对称三进制串表示的语音感知哈希序列构造和认证方法，其特征在于时域谱通量特征提取的步骤为：

(1)音频信号S进行预加重处理，获得信号S_h；

(2)信号S_h通过上下限截止频率分别为3400Hz和60Hz的带通滤波器进行滤波，获得滤波后信号B；

(3)对信号B进行分帧，帧数为N，计算帧信号的频谱通量，获得谱通量特征参数向量H₂＝{SFF(k)|k＝1,2,...,N₀}。

4.根据权利要求1所述的对称三进制串表示的语音感知哈希序列构造和认证方法，其特征在于感知哈希特征序列构造的步骤为：

(1)对H₁,H₂分别进行感知哈希对称三进制串构造，生成感知哈希序列ph₁、ph₂，构造方法为：

{ph}_{i} (j) = \{\begin{matrix} 1 & i f H_{i} {(j)}^{2} - H_{i} (j - 1) \times H_{i} (j + 1) > 0 \\ 0 & e l s e i f H_{i} (j) - H_{i} (j - 1) > 0 \\ - 1 & o t h e r w i s e \end{matrix}

其中，i表示当前特征向量，H(j)为特征参数向量H的第j个值；

(2)语音信号感知哈希序列为ph，ph＝[ph₁；ph₂]。

5.根据权利要求1所述的对称三进制串表示的语音感知哈希序列构造和认证方法，其特征在于哈希匹配的步骤为：

(1)计算原始音频信号的哈希序列，作为哈希序列模板，记做ph；

(2)计算待测音频信号的哈希序列，记做ph'；

(3)计算ph和ph'的哈希数学距离D(:,:)；

D (p h, {ph}^{'}) = Σ_{i = 1}^{2 N_{0}} | p h (i) - {ph}^{'} (i) |

(4)对哈希数学距离进行归一化，获得比特误码率BER；

BER＝D(ph,ph')/2N₀

(5)设置BER匹配阈值τ；

(6)如果BER小于匹配阈值τ，则原始音频信号与待测音频信号感知内容相同，认证通过，否则不通过。

6.根据权利要求1所述的对称三进制串表示的语音感知哈希序列构造和认证方法，其特征在于小范围篡改检测与定位的方法步骤为：

(1)计算原始音频信号特征序列H₁,H₂分别对应的哈希序列，记做ph₁、ph₂；

(2)计算待测音频信号特征序列H'₁,H'₂分别对应的哈希序列，记做ph'₁、ph'₂；

(3)计算ph和ph'的失真距DD；

DD(i)＝|ph₁(i)-ph₁(i)|+|ph₂(i)-ph₂(i)|

(4)对失真距离DD分块，块长度为N_D，块移为M_D，块数为C；

(5)计算块总失真距TDD；

T D D (c) = Σ_{k = 1}^{N_{D}} D D (c + k - 1)

其中，c为当前块；

(6)求取TDD的最大值Z_max，统计TDD的0元素数目，记做Z₀，并统计TDD中元素小于2Z_max/3的数目，记做Z₁；

(7)计算待测语音信号的篡改度TMF；

T M F = \frac{Z_{\max} \times Z_{0}}{Z_{1} - Z_{0}}

(8)设置篡改度的匹配阈值Tτ，如果测得待测音频信号的篡改度大于阈值Tτ，则待测语音信号受到了篡改，否则待测语音信号未受篡改；

(9)根据上述步骤确定语音信号篡改与否；

(10)对篡改语音信号分析失真距DD，如果DD(i)>2，则第i块受到了篡改，否则未受篡改，从而对语音信号进行基于块的篡改定位，块数N越大，篡改定位越精确。