CN108877819B

CN108877819B - 一种基于系数自相关度的语音内容取证方法

Info

Publication number: CN108877819B
Application number: CN201810734827.3A
Authority: CN
Inventors: 李艳丽; 孙芳; 何俊杰; 刘正辉
Original assignee: Xinyang Normal University
Current assignee: Xinyang Normal University
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2023-05-26
Anticipated expiration: 2038-07-06
Also published as: CN108877819A

Abstract

本发明涉及语音信号处理技术领域，公开了一种基于系数自相关度的语音内容取证方法，包括：原始语音信号预处理，将原始语音信号分为P帧，第i帧记为A_i，将A_i分为M段；系数自相关度特征提取，由DCT系数计算A_i,m的系数自相关度特征；由帧号二值化生成水印；水印嵌入，对量化之后的系数C′_i,m进行逆DCT，将水印w_m嵌入在A_i,m中；水印提取和篡改定位；若检测到被攻击的语音帧，检测紧接着的连续N个样本，直到找到能通过验证的连续N个样本，然后重构前一个和当前通过验证的帧号，两帧号之差即为被定为的篡改内容，这种基于系数自相关度的语音内容取证方法，需要嵌入的容量较小；能够对篡改内容进行精确地篡改定位的同时，提高了水印系统的安全性和水印的不可听性。

Description

一种基于系数自相关度的语音内容取证方法

技术领域

本发明涉及语音信号处理技术领域，特别涉及一种基于系数自相关度的语音内容取证方法。

背景技术

数字语音信号作为重要的信息传播载体，在我们生活中发挥着越来越重要的作用。由于数字信号处理技术的发展和编辑攻击的丰富，对数字语音信号的编辑和伪造变得简单易行。伪造的数字语音信号表示的内容和原始信号相比，有着较大的区别，或者表示的意义完全不同。若伪造的语音信号的内容被用户接受，将会带来严重的后果。同时，大量存在的伪造的语音信号，已经影响了数字语音信号所表示内容的认可度。对数字语音的内容取证技术能够鉴别语音内容的真实性，而对该技术的研究也具有研究意义和实用价值。

文献“Centroid-based Semi-fragile Audio Watermarking in Hybrid Domain”(H.X.Wang,M.Q.Fan，Science in China Series F-Information Sciences,vol.53,no.3,PP.619-633,2010)”提出了一种基于质心的语音内容取证方法。由语音信号的质心这样的特征生成水印，并将水印嵌入在基于DWT和DCT的混合域中。该方法中，生成水印的特征和嵌入水印的特征均是公开的。攻击者可以选择任意的一段语音信号，采用同样的方法，将水印嵌入在该段信号中，然后替换含水印的语音信号。验证端将检测不到替换的内容。于是，该方法存在较大的安全隐患。文献“A pseudo-Zernike moments based audio watermarkingscheme robust against desynchronization attacks”(Wang Xiang-yang,Ma Tian-xiao,Niu Pan-pan,Computers and Electrical Engineering,2011,37:425-443)首先在时域基于统计均值嵌入同步码，然后量化伪Zernike矩的幅值嵌入水印，提出了基于伪Zernike矩的抗同步攻击的音频水印算法。该方法中，嵌入同步码和水印的特征均是公开的，攻击者可以使用其它的音频段来替换含水印的音频，然后量化替换后的音频内容，使其满足水印正确提取的条件，对其内容实施攻击，且攻击的内容会被认为是真实的。

由专利申请提出者提出的中国发明专利申请号201610304912.7的《一种基于DWT和DCT的数字语音取证和篡改恢复方法》对音频内容取证技术做出了一定的努力。虽然该方法基于分块思想的整数嵌入方法，但因需要的嵌入容量太大，势必造成对载体信号较大的改变，引起不可听性的降低。本发明以内容取证和篡改定位为目的，仅仅嵌入用于篡改定位的水印信息，需要嵌入容量较小。从取证的角度来看，本发明能够对篡改内容进行精确地篡改定位的同时，提高了水印系统的安全性和水印的不可听性，弥补了先前专利(中国专利申请号201610304912.7)因需要嵌入容量大而降低不可听性的不足。是取证方法的一个改进。

发明内容

本发明提供一种基于系数自相关度的语音内容取证方法，可以解决现有技术中的上述问题。

本发明提供了一种基于系数自相关度的语音内容取证方法，包括以下步骤：

S1、原始语音信号预处理

将原始语音信号A分为长度为N且相互不重叠的P帧，第i帧记为A_i，其中，1≤i≤P；

将A_i分为M段，Mmod2＝0，第m段记为A_i,m，其中，1≤m≤M，每段的长为N₁，N₁＝L_A/(N×M)，其中L_A为原始语音信号A的长度；

S2、系数自相关度特征提取

对A_i,m进行离散余弦变换(Discrete Cosine Transform，简称DCT)，得到DCT系数记为C_i,m＝{c(1),c(2),…,c(N₁)}；

根据公式(1)由C_i,m计算A_i,m的系数自相关度特征D_i,m，

公式(1)中D_i,m为A_i,m的系数自相关度特征，α和为β系统密钥，c(l)表示C_i,m中的第l个系数；h表示移位，当l+h＞N₁时，c(l+h)＝c(l+h-N₁)；

S3、生成水印

W_i＝{w₁,w₂,…,w_M}记为要嵌入在第i帧中的水印，W_i由W1_i和W2_i两部分组成，其中W1_i和W2_i均由第i帧的帧号二值化生成，即W_i＝[W1_i,W2_i]；

S4、水印嵌入

假设w_m为嵌入在A_i,m中水印，通过量化系数自相关度特征D_i,m来嵌入w_m，量化方法如公式(2)：

公式(2)中D′_i,m为量化之后的系数自相关度特征，Δ为量化步长；

由公式(3)量化A_i,m的DCT系数，量化之后的系数记为C′_i,m，

对量化之后的系数C′_i,m进行逆DCT，即可将水印w_m嵌入在A_i,m中，重复上述步骤，即可完成各帧水印的嵌入，记含水印信号为A′；

S5、水印提取和篡改定位

首先，将含水印信号A′分为长度为N的帧，第i帧记为A′_i，

然后，将A′_i等分为M段，第m段记为A′_i,m，1≤m≤M，

对A′_i,m进行DCT，根据得到的DCT系数计算A′_i,m的系数自相关度特征WD_i,m，

提取水印w′_m，

1≤m≤M；如果/>

则A′_i,m是真实的；如果/>

则表明A′_i,m是被攻击的；/>

若检测到被攻击的语音帧，检测紧接着的连续N个样本，直到找到能通过验证的连续N个样本，然后重构前一个和当前通过验证的帧号，两帧号之差即为定位到的被攻击的内容。

与现有技术相比，本发明的有益效果在于：

本发明以内容取证和篡改定位为目的，仅仅嵌入用于篡改定位的水印信息，需要嵌入的容量较小；从取证的角度来看，本发明能够对篡改内容进行精确地篡改定位的同时，提高了水印系统的安全性和水印的不可听性。

附图说明

图1为本发明载体信号的分帧方法。

图2为水印嵌入过程框图。

图3为水印提取和内容取证过程框图。

图4为篡改定位方法。

图5为β不同取值时对应的自相关度特征。

图6为本发明选取的含水印音频信号。

图7为删除攻击后的含水印音频信号。

图8为替换攻击后的含水印音频信号。

图9为删除攻击后的篡改定位结果。

图10为替换攻击后的篡改定位结果。

具体实施方式

下面结合附图，对本发明的一个具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

1、载体信号预处理：

(1)将载体信号A分为长度为N且相互不重叠的P帧，第i帧记为A_i；

(2)将A_i分为M段，Mmod2＝0，第m段记为A_i,m，每段的长为N₁，N₁＝L_A/N×M，1≤m≤M。载体信号分帧方法如图1所示。

2、特征提取：

(1)对A_i,m进行DCT，得到的系数记为C_i,m＝{c(1),c(2),…,c(N₁)}。

(2)由下式计算A_i,m的系数自相关度特征：

其中D_i,m为A_i,m的系数自相关度，α和β为系统密钥，c(l)表示C_i,m中的第l个系数；h表示移位。当l+h＞N₁时，c(l+h)＝c(l+h-N₁)。

3、水印嵌入

记W_i＝{w₁,w₂,…,w_M}为要嵌入在第i帧中的水印。W_i由W1_i和W2_i两部分组成，其中W1_i和W2_i均由第i帧的帧号二值化生成，即W_i＝[W1_i,W2_i]。假设w_m为嵌入在A_i,m中水印。

(1)通过量化系数自相关度来嵌入w_m，量化方法如下式：

其中D′_i,m为量化之后的系数自相关度，Δ为量化步长。

(2)由下式量化A_i,m的DCT系数，量化之后的系数记为C′_i,_m，

(3)对量化之后的系数C′_i,m进行逆DCT，即可将水印w_m嵌入在A_i,m中。

重复上述步骤，即可完成各帧水印的嵌入，记含水印信号为A′。水印嵌入过程框图如图2所示。

4、水印提取和篡改定位

首先将含水印信号A′分为长度为N的帧，第i帧记为A′_i。然后将A′_i等分为M段，第m段记为A′_i,m，1≤m≤M。水印提取过程如图3所示，方法如下：

(1)对A′_i,m进行DCT，根据得到的DCT系数，计算A′_i,m的系数自相关度特征，记为WD_i,m。

(2)提取水印w′_m，

1≤m≤M。

(3)如果

则A′_i,m是真实的；如果/>

则表明A′_i,m是被攻击的。

(4)若检测到被攻击的语音帧，检测紧接着的连续N个样本，直到找到能通过验证的连续N个样本。然后重构前一个和当前通过验证的帧号，两帧号之差，即为定位到的被攻击的内容。篡改定位方法如图4所示。

本发明的效果可以通过以下的性能分析验证：

1、不可听性

分别在4种不同环境下采用录音笔(SONY PCM-D100)录制的100段语音信号作为测试样本。录制环境包括安静的会议现场，讨论会现场，火车站和空旷的野外，相应的信号分别记为T1，T2，T3和T4。它们是16位量化的采样率为44.1kHz的语音信号，样本长度为150000，每帧长度为15000。其它用的参数取值分别为N₁＝1875，M＝8，h＝7，α＝1.2，β＝0.001，Δ＝0.6。

表1为不同类型含水印音频信号的SNR、ODG和SDG值。

表1

由表1所给结果可以看出，本方法具有较好的不可听性。

2、安全性

基于公开特征的音频水印算法，嵌入水印的特征易被攻击者获取而带来安全隐患。本发明采用量化系数自相关度特征的方法来嵌入水印。该特征的构造与密钥α和β有关，图5给出了β从0.001到0.009不同取值的对应自相关度特征(α＝1.2)。

图5所示结果可得，系数自相关度特征依赖于参数β。相似的，该特征也依赖于参数α。所以，在没有密钥α和β的情况下，攻击者对含水印信号进行攻击，一帧被攻击的信号能通过验证的概率为

于是，对一帧信号而言，本发明的抗攻击能力为/>

3、篡改定位

对如图6所示的含水印语音信号进行删除攻击和替换攻击。攻击后的语音信号如图7和图8所示，篡改检测结果分别如图9和图10所示，其中TL＝1表明第i帧的语音内容是被攻击的。由篡改恢复结果可以看出，一方面，本发明对不同类型的恶意攻击能够有效地篡改检测，另一方面，本发明提高了算法的安全性，弥补了公开特征水印算法的不足。

本发明给出了一种基于系数自相关度的语音内容取证方法，首先给出了保密特征-语音信号系数自相关度的定义，然后将帧号作为水印信息，嵌入在语音信号系数自相关度的特征中。一方面，含水印信号被攻击后，可以通过提取帧号来定位被攻击的内容。另一方面，在没有密钥的前提下，很难获得水印特征并提取水印信息，从而提高取证算法的安全性。

以上公开的仅为本发明的几个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。