CN101562016B

CN101562016B - 一种全盲的数字语音认证方法

Info

Publication number: CN101562016B
Application number: CN2009100520503A
Authority: CN
Inventors: 宋波; 方勇; 王正宁; 徐斌
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2009-05-26
Filing date: 2009-05-26
Publication date: 2012-01-04
Anticipated expiration: 2029-05-26
Also published as: CN101562016A

Abstract

本发明公开了一种全盲的数字语音信号认证方法，其步骤为：(1)、对要判别的语音信号分帧处理；(2)、将各帧信号分成K段，对各段数据去均值处理；(3)、将所得对各帧各段数据作FFT变换，求其双谱值；(4)、以平滑所得各帧数据双谱估计值作双谱等高图；(5)、以帧语音信号双谱等高图判断此帧语音信号是否经过篡改；(6)、判断第一次认定经过篡改的此帧语音信号是否要再次认定其篡改的更精确位置；(7)、将需再次认定的经过篡改的帧语音信号再更细分帧，重复上述步骤(2)～(6)，认定此帧语音信号更准确篡改位置。该方法能在缺乏数字水印或数字签名的认证消息情况下，有效判定数字语音信号是否经过篡改及其篡改位置的确定，其认证过程不需要在语音信号中预嵌入任何数据。

Description

一种全盲的数字语音认证方法

技术领域

本发明涉及一种多媒体语音信号安全处理技术领域，具体地说是涉及一种全盲情况下的数字语音认证方法，它是一种利用数字语音信号的双谱特性，在缺乏数字水印或数字签名的认证消息的所谓“全盲”的情况下对数字语音材料进行篡改认证和篡改区域定位的方法。

背景技术

随着多媒体技术的发展及其成本的不断下降，数字语音材料在很多领域得到广泛的应用，给人们的生活带来了诸多的方便。同时，由于像Adobe Audition等功能日益强大的语音非线性编辑软件的不断出现，也使人们可以轻易地对各种数字语音材料按照自己的意愿进行置换、拼接、删除和插入等再编辑的后期处理，同时又不会引起语音质量的下降，并且完全不留下人耳可感知的痕迹也是有可能的。但是，如果这一技术被利用于非法的目的，则被认为是对数字语音材料进行恶意的篡改，将会给人们的生活和社会带来巨大的负面影响。因此，数字语音认证技术作为一种全新的语音安全技术，其应用覆盖了法庭举证、生活的各个方便都有着重要的实际意义和应用价值。

目前数字音频鉴别技术中最具有代表性的是：数字签名、数字水印和新兴的数字多媒体盲取证技术。其中，前两种方法属于主动认证方法，它们具有一个共同的特征：要求内容提供方必须对数字语音材料进行预处理，如生成数字签名或嵌入脆弱水印。例如，经过现有技术的文献检索发现，中国专利申请号为：200610036498，名称为：一种基于Zernike变换的数字音频水印嵌入和认证方法；中国专利授权号：20041002735，名称为：一种数字音频防篡改方法。此两项发明都是一种基于脆弱或半脆弱水印的音频认证方法，是在发送端设定相应的设备嵌入水印，而在接收端通过判断提取水印，认证数字音频材料是否经过了篡改，此类方法对数字音频材料的认证较为有效，且能进行精确的定位。然而，实际生活中的音频材料很少被嵌入水印，导致这类认证方法在实际应用场合有很大局限性。

因此，在不依赖任何签名或嵌入信息的前提下，后一种盲取证的被动认证方法成为一种新颖的数字音频鉴别分析思路，中国专利申请号：200810199179，名称为：一种MP3音频的篡改盲检测方法。该发明是根据MP3的编码原理，对MP3音频格式样本进行压缩，确定所引起的帧偏移量来进行篡改位置估计，仅适用于压缩域MP3格式音频信号的分析，不适用数字语音信号在非压缩域的情况下进行全盲的认证及篡改位置的确定。目前，这类全盲的数字语音取证技术，已成为研究的重点和热点，国内外的很多学者也都对此类盲认证的研究表现出了极大的兴趣。

发明内容

本发明的目的在于提供一种全盲的数字语音信号认证方法，该方法在缺乏数字水印或数字签名认证的情况下，能判别数字语音信号是否经过篡改及篡改位置的确定。

为了达到上述目的，本发明采用下述技术方案：

本发明的一种全盲的数字语音信号认证方法。利用未经篡改的“自然”的语音信号其过程并不表现为非线性，而被篡改过的语音信号在篡改位置附近将表现为明显的非线性特征，判别语音信号是否经过篡改及其篡改位置的确定，其具体步骤为：

(1)、对需要判别的语音信号进行分帧处理：对长度为L的、需要判别的语音信号x(n)进行分帧处理，各帧信号包含N个数据；

(2)、将各帧信号分成K段，对各段数据去均值处理：将各帧中N个数据分成K段，允许相邻数据之间有重叠，各段包含M个数据，对各段数据分别进行去均值处理；

(3)、将所得对各帧各段数据作FFT变换，在频域内求其双谱值：对第i段数据{xⁱ(0)，xⁱ(1)，…，xⁱ(M-1)}作FFT，得到Xⁱ(λ)，其中λ＝0，1，…，M/2，i＝1，…，K；在频域内求其三阶累积量，得到双谱估计：

{\hat{b}}^{(i)} (λ_{1}, λ_{2}) = (1 / Δ) Σ_{k_{1} = - L_{1}}^{L_{1}} Σ_{k_{2} = - L_{1}}^{L_{1}} X^{(i)} (λ_{1} + k_{1}) X^{(i)} (λ_{2} + k_{2}) X^{(i) *} (λ_{1} + k_{1} + λ_{2} + k_{2})

其中，Δ＝f_s/N₀，f_s为语音的采样频率，而N₀和L₁应选择为满足M＝(2L₁+1)N₀的值，X^(i)*(λ₁+k₂+λ₂+k₂)为X⁽ⁱ⁾(λ₁+k₁+λ₂+k₂)的共轭；

(4)、以平滑所得的各帧数据的双谱估计值作出双谱等高图：平滑上述所得各段数据的双谱估计，得到

\hat{B} (ω_{1}, ω_{2}) = \frac{1}{K} Σ_{i = 1}^{K} {\hat{b}}^{(i)} (ω_{1}, ω_{2})

作为此帧语音信号的双谱估计值，并作出双谱等高图；

其中，

ω_{1} = (\frac{2 π f_{s}}{N_{0}}) λ_{1},

ω_{2} = (\frac{2 π f_{s}}{N_{0}}) λ_{2};

(5)、以帧语音信号的双谱等高图判断此帧语音信号是否经过篡改：判断帧语音信号是否经过篡改的方法是以此帧语音信号的双谱等高图判断是否存在非线性耦合现象，若不存在非线性耦合，则认定此帧语音信号未经过篡改，则结束认定，若存在非线性耦合，则第一次认定此帧语音信号经过了篡改，转步骤(6)；

(6)、判断第一次认定经过篡改的此帧语音信号是否需要再次认定其篡改的更精确位置：

根据测试者的需求判断上述认定的经过篡改的帧语音信号是否需要进一步认定其篡改的更精确位置，若不需要再次认定，则结束认定，如需要再次认定，则转步骤(7)；

(7)、需要再次认定的经过篡改的帧语音信号进行再更细的分帧，重复上述步骤(2)～(6)，认定此帧语音信号更准确的篡改位置：若需要进一步的准确定位，根据语音信号的可发声单位为最小单位，进行更细的分帧，重复上述步骤(2)～(6)，确定此帧语音信号更准确的篡改位置。

上述步骤(2)中将N个数据分成K段，每段含M个采样点，M为偶数，相邻段数据之间的重叠率为0～50％，在处理过程中可以根据实际情况进行调整。

上述步骤(5)中判断是否存在非线性耦合，其判断是通过已知的双谱等高图中是否在偏于0的频率处存在幅度的增长，若存在，则判为产生了非线性耦合现象，否则，判为不存在非线性耦合现象。

本发明的全盲的数字语音认证方法与现有技术相比较，具有显而易见的突出实质性特点和显著的优点：该方法能够在缺乏数字水印或数字签名的认证消息的情况下，有效地判定数字语音信号是否经过篡改及其篡改位置的确定，其认证过程不需要在语音信号中预嵌入任何数据，用于数字语音信号最为常见的置换、拼接、插入和删除语音等非线性编辑篡改类型。

附图说明

本发明全盲的数字语音认证方法由以下的实施例及附图给出。

图1为使用本发明的方法对数字语音进行认证的流程框图；

图2为本发明的置换语音篡改认证具体实施例一仿真图；

图3为本发明的拼接语音篡改认证具体实施例二仿真图；

图4为本发明的插入语音篡改认证具体实施例三仿真图；

图5为本发明的删除语音篡改认证具体实施例四仿真图。

具体实施方式

下面结合附图对本发明的全盲的数字语音认证方法实施例作进一步详细说明。

如图1所示，本发明的基于双谱分析的全盲的数字语音信号认证方法，利用未经篡改的“自然”的语音信号其过程并不表现为非线性，而被篡改过的语音信号在篡改位置附近将表现为明显的非线性特征，判别语音信号是否经过篡改及其篡改位置的确定，其具体步骤为：

(1)、对需要判别的语音信号进行分帧处理；

(2)、将各帧信号分成K段，对各段数据去均值处理；

(3)、将所得对各帧各段数据作FFT变换，在频域内求其双谱值；

(4)、以平滑所得的各帧数据的双谱估计值作出双谱等高图；

(5)、以上述帧语音信号的双谱等高图判断是否存在非线性耦合；

(6)、判断第一次认定经过篡改的此帧语音信号是否需要再次认定其篡改的更精确位置；

(7)、将步骤(6)需要再次认定的经过篡改的帧语音信号进行再更细的分帧，认定此帧语音信号更准确的篡改位置。

如图1所示，本发明的全盲的数字语音认证方法的实施例是对数字语音经过置换、拼接、插入和删除等非线性编辑篡改进行判别和篡改位置定位，其认证是：首先将要判别的语音信号进行分帧处理，然后将各帧语音进行分段求其双谱，再得到平滑所得的各帧语音的双谱，利用其等高图是否在偏于0的频率处存在幅度增长，判定此帧是否经过了篡改，再对可疑帧语音信号实施更细的分帧检测，进行更精确的篡改位置定位。

具体实施例一：

本发明的全盲的数字语音认证方法的用于判别的置换篡改语音波形显示和各帧语音双谱等高图显示，如图2所示，其中图(a)置换语音“延长路199号”，是由原始语音1“延长路149号”中的“49”置换为原始语音2“上大路99号”中的“99”而得到的新的语音信号。在分析过程中，将置换语音信号分成6帧处理，上述置换语音的衔接处分别处于第4帧和第5帧中，图(b)显示了此种方法分析得到的各帧的双谱等高图，其中第4帧和第5帧具有明显的非线性耦合现象，判定为此两帧经过篡改。

具体实施例二：

本发明的全盲的数字语音认证方法的用于判别的拼接篡改语音波形显示和各帧语音双谱等高图显示，如图3所示，其中图(a)的拼接语音“LV830”，是由原始语音1“LV316”中的语音片段“LV”和原始语音2“PY830”中的语音片段“830”拼接而得到的新的语音。在分析过程中，将拼接语音分成5帧进行处理，两段语音片段的衔接处处于第3帧中，图(b)显示了图(a)中的拼接篡改语音信号的分帧情况和此种方法分析得到的各语音帧的双谱等高图，其中第3帧具有明显的非线性耦合现象，判定此帧语音为篡改所在位置。

具体实施例三：

本发明的全盲的数字语音认证方法的用于判别的插入篡改语音波形显示和各帧语音双谱等高图显示，如图4所示，其中图(a)的插入篡改语音“我不喜欢它”，是由原始语音1“谁都不希望这样”中的单音“不”剪切插入到原始语音2“我喜欢它”中而得到的新的语音。在分析过程中，将插入篡改语音分成5帧处理，插入单音的两个衔接处分别处于第2帧和第3帧中，图(b)显示了图(a)中的插入篡改语音信号的分帧情况和此方法分析得到的各语音帧的双谱等高图，其中第2帧和第3帧具有明显的非线性耦合现象，判定第2帧和第3帧语音经过了篡改。

具体实施例四：

本发明的全盲的数字语音认证方法的用于判别的删除篡改语音波形显示和各帧语音双谱等高图显示，如图5所示，其中图(a)的删除语音“谁都希望这样”，是由原始语音“谁都不希望这样”将其中的单音“不”删除而得到的新的语音。在分析过程中，将删除篡改语音分成5帧处理，删除语音两端的新的衔接处在第3帧中，图(b)显示了图(a)中的删除篡改语音信号的分帧情况和此方法分析得到的各语音帧的双谱等高图，其中第3帧具有明显的非线性耦合现象，判定此帧语音经过了篡改。为了更加精确的定位篡改的位置所在，按照此方法所述将第3帧语音进行更细的分帧检测，图(c)显示了对图(b)中的可疑帧第三帧语音信号进行的更细的分帧情况及各帧信号的双谱等高图，其中第2帧具有明显的非线性耦合现象，判定删除篡改的位置在第二帧信号中。

Claims

1.一种全盲的数字语音认证方法，其特征在于该方法具体步骤如下：

(3)、将所得各帧各段数据作FFT变换，在频域内求其双谱值：对第i段数据{xⁱ(0)，xⁱ(1)，…，xⁱ(M-1)}作FFT，得到Xⁱ(λ)，其中λ＝0，1，…，M/2，i＝1，…，K，在频域内求其三阶累积量，得到双谱估计：

{\hat{b}}^{(i)} (λ_{1}, λ_{2}) = (1 / Δ) Σ_{k_{1} = - L_{1}}^{L_{1}} Σ_{k_{2} = - L_{1}}^{L_{1}} X^{(i)} (λ_{1} + k_{1}) X^{(i)} (λ_{2} + k_{2}) X^{(i) *} (λ_{1} + k_{1} + λ_{2} + k_{2})

其中，Δ＝f_s/N₀，f_s为语音的采样频率，而N₀和L₁应选择为满足M＝(2L₁+1)N₀的值，

为X⁽ⁱ⁾(λ₁+k₁+λ₂+k₂)的共轭；

\hat{B} (ω_{1}, ω_{2}) = \frac{1}{K} Σ_{i = 1}^{K} {\hat{b}}^{(i)} (ω_{1}, ω_{2})

作为此帧语音信号的双谱估计值，并作出双谱等高图，

其中，

ω_{1} = (\frac{{2 πf}_{s}}{N_{0}}) λ_{1},

ω_{2} = (\frac{{2 πf}_{s}}{N_{0}}) λ_{2};

(5)、以帧语音信号的双谱等高图判断此帧语音信号是否经过篡改：判断帧语音信号是否经过篡改的方法是以上述帧语音信号的双谱等高图判断是否存在非线性耦合现象，若不存在非线性耦合，则认定此帧语音信号未经过篡改，结束认定，若存在非线性耦合，则第一次认定此帧语音信号经过了篡改，转步骤(6)；

(6)、判断第一次认定经过篡改的此帧语音信号是否需要再次认定其篡改的更精确位置：根据测试者的需求判断上述认定的经过篡改的帧语音信号是否需要进一步认定其篡改的更精确位置，若不需要再次认定，则结束认定，若需要再次认定，则转步骤(7)；

(7)、需要再次认定的经过篡改的帧语音信号进行更细的分帧，重复上述步骤(2)～(6)，认定此帧语音信号更准确的篡改位置：若需要进一步的准确定位，根据语音信号的可发声单位为最小单位，进行更细的分帧，重复上述步骤(2)～(6)，确定此帧语音信号更准确的篡改位置。

2.根据权利要求1所述的一种全盲的数字语音认证方法，其特征在于上述步骤(2)中将N个数据分成K段，每段含M个采样点，M为偶数，相邻段数据之间的重叠率为0～50％。

3.根据权利要求2所述的一种全盲的数字语音认证方法，其特征在于上述步骤(5)中判断是否存在非线性耦合，其判断是通过已知的双谱等高图中是否在偏于0的频率处存在幅度的增长，若存在，则判为产生了非线性耦合现象，否则，判为不存在非线性耦合现象。