CN108665905B

CN108665905B - 一种基于频带带宽不一致性的数字语音重采样检测方法

Info

Publication number: CN108665905B
Application number: CN201810478441.0A
Authority: CN
Inventors: 严迪群; 王志峰; 王让定; 向立; 乌婷婷
Original assignee: Ningbo University
Current assignee: Huzhou Chuangguan Technology Co ltd
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2021-06-15
Anticipated expiration: 2038-05-18
Also published as: CN108665905A

Abstract

本发明公开了一种基于频带带宽不一致性的数字语音重采样检测方法，其通过解析待重采样检测的数字语音的头文件信息，得到采样率；然后根据采样率设计一个相应的带通滤波器；接着利用带通滤波器对待重采样检测的数字语音进行滤波操作；之后计算待重采样检测的数字语音和滤波操作后得到的信号各自的平均短时能量；再计算两个平均短时能量的能量对数比率；最后根据能量对数比率和一个最佳判定阈值，判定待重采样检测的数字语音是否为经重采样操作得到的数字语音；优点是其检测准确率高、稳定性好。

Description

一种基于频带带宽不一致性的数字语音重采样检测方法

技术领域

本发明涉及一种语音重采样检测技术，尤其是涉及一种基于频带带宽不一致性的数字语音重采样检测方法。

背景技术

网络技术的日益发展，使得多媒体已成为人们获取信息的主要途径。然而，伴随着低成本、简单易用的音频编辑软件的大量出现，使得人们对数字语音篡改的操作越来越多样化，因此，迫切需要在使用数字语音的同时也必须注意其原始性与真实性。所以，作为一种检测多媒体数据原始性、真实性、完整性的技术，多媒体取证技术已成为信息安全领域的重点研究对象。

多媒体取证技术主要有两类：主动取证技术和盲取证技术。主动取证技术是指提供者在多媒体篡改之前就预先嵌入了相关的信息如数字水印、数字指纹等先验信息，接收者得到嵌有先验信息的多媒体后提取先验信息，根据提取的先验信息与嵌入的先验信息是否一致来检测多媒体是否经过篡改，因此，主动取证技术要求在提供者和接收者共享算法和秘钥的前提条件下进行。盲取证技术是指接收者无需嵌入的先验信息，直接检测篡改遗留下的痕迹，是一种以不影响多媒体品质为前提的篡改检测技术，因此研究盲取证技术更具有实际意义。

数字语音在拼接、变速变调、重压缩、伪装高质量数字语音等常见伪造过程中，经常伴随着重采样操作。如：将两段不同采样率的数字语音进行拼接的伪造过程中，需要改变数字语音的采样率，使各部分特征趋于一致，从而降低伪造的可检测性。现有的数字语音重采样检测方法较少，大多是借鉴数字图像领域的重采样检测方法。如：Alin C.Popescu,Hany Farid.Exposing digital forgeries by detecting traces of resampling.IEEETransactions on Signal Processing,2005,53(2):758-767.(通过检测重采样痕迹来鉴别数字信号伪造，信号处理学报)提出了一种数字图像重采样检测方法，其根据Farid等观点：数字图像经过重采样操作之后会有相关的周期性，在频谱上反应的是峰值的周期性，根据这一明显的特征，通过期望最大化(EM)算法能够近似拟合这种相关性，并且进一步扩展到彩色图像的多通道插值检测等问题中(Alin C.Popescu,Hany Farid.Exposing digitalforgeries in color filter array interpolated images.IEEE Transactions onSignal Processing,2005,53(10):3948-3959(CFA插值图像伪造检测，信号处理学报))。姚秋明等人将Farid的方法运用在数字音频中，并结合了数字音频自身的特点进行了相应的改进，通过引入幅度直方图可更加准确的逼近数字音频信号的分布，提出了一种基于期望最大化算法的数字音频重采样检测方法，取得了较好的检测效果，但是该方法的计算复杂度大，且仅适用于线性插值采样。Gallagher A C.Detecting of linear and cubicinterpolation in JPEG compressed images.The 2nd Canadian Conference onComputer and Robot Vision.2005:65-72.(检测JPEG压缩图像中的线性和三次插值，第二届加拿大计算机和机器人视觉会议)中认为重采样后的JPEG压缩图像在作二阶差分后，其方差会出现周期性的变化，根据这种周期性变化可以检测出JPEG压缩图像是否经过重采样操作。Mahdian等人(Mahdian B,Saic S.Blind authentication using periodicproperties of interpolation.IEEE Transactions on Information Forensics andsecurity,2008,3(3):529-538(利用插值周期性实现盲取证，信息取证和安全))扩展了Gallagher等人提出的方法，并将其延续到k阶差分。侯丽敏等人将Gallagher等人提出的方法运用到数字音频领域，提出采用二阶差分的方法来检测重采样数字音频，从理论上证明了重采样的数字音频经过二阶差分处理之后，其频谱会出现明显的离散尖峰，实验结果表明，当重采样因子较大时，该方法具有较高的准确率，但是该方法的计算复杂度较大，且对数字语音重采样检测效果不是很理想。丁琦等人认为重采样会抑制高于截止频率段的信息，导致在该频率段的频谱值比较平滑，而正常的信号不会表现出这种特征，由此提出对重采样的数字音频作子带分析，提取子带频谱特征，达到了较好的检测效果，但是该方法对于某些单音数字音频以及经过线性插值或者最近邻插值得到的数字音频的检测效果较差。

直到目前，现有的数字语音重采样检测方法较少，且大多数是借鉴数字图像重采样检测中的方法，关键是数字语音重采样检测和数字图像重采样检测有所不同。因此，不能简单地将数字图像领域中的重采样检测方法运用到数字语音领域中，应当将数字语音本身的特性考虑进去，找到一种适应数字语音特点的重采样检测方法。

发明内容

本发明所要解决的技术问题是提供一种基于频带带宽不一致性的数字语音重采样检测方法，其检测准确率高、稳定性好。

本发明解决上述技术问题所采用的技术方案为：一种基于频带带宽不一致性的数字语音重采样检测方法，其特征在于包括以下步骤：

步骤一：将待重采样检测的数字语音记为X；

步骤二：解析X的头文件信息，得到X的采样率，记为SR；然后根据SR设计一个相应的带通滤波器；其中，带通滤波器的中心频率为C、带宽为B；

步骤三：利用带通滤波器对X进行滤波操作，将带通滤波器对X进行滤波操作后输出的信号记为Y；

步骤四：计算X和Y各自的平均短时能量，对应记为E₁和E₂；

步骤五：计算E₁与E₂的能量对数比率，记为r，

并以r来反映X的频谱图中的频带带宽；

步骤六：根据r和最佳判定阈值Th，判定X是否为经重采样操作得到的数字语音，若r＜Th，则判定X为原始的数字语音；若r≥Th，则判定X为经重采样操作得到的数字语音。

所述的步骤二中，

其中，δ为误差项。

所述的步骤四中，

其中，N₁表示X中包含的帧的总帧数，1≤n₁≤N₁，E₁(n₁)表示X中的第n₁帧的短时能量，M₁表示X中的每帧包含的采样点信号的总数目，1≤m₁≤M₁，

表示X中的第n₁帧中的第m₁个采样点信号，N₂表示Y中包含的帧的总帧数，1≤n₂≤N₂，E₂(n₂)表示Y中的第n₂帧的短时能量，M₂表示Y中的每帧包含的采样点信号的总数目，1≤m₂≤M₂，

表示Y中的第n₂帧中的第m₂个采样点信号，符号“||”为取绝对值符号。

所述的步骤六中的最佳判定阈值Th的获取过程为：

1)选取N_elect个时长大于或等于2秒的原始数字语音，并获取每个原始数字语音的重采样语音；然后将每个原始数字语音作为负样本，将每个原始数字语音的重采样语音作为正样本；其中，N_elect≥100；

2)按照步骤一至步骤五的过程，以相同的方式获取每个正样本对应的能量对数比率和每个负样本对应的能量对数比率；然后将所有正样本对应的能量对数比率和所有负样本对应的能量对数比率按从大到小的顺序排列，构成能量对数比率集，将能量对数比率集中的第n_elect个能量对数比率记为r_elect；其中，n_elect为正整数，1≤n_elect≤2N_elect；

3)将能量对数比率集中的每个能量对数比率作为候选阈值；然后计算在每个候选阈值下的真正类率和假正类率，将在r_elect作为候选阈值下的真正类率和假正类率对应记为TPR_elect和FPR_elect；

4)根据在所有候选阈值下的真正类率和假正类率，绘制得到ROC曲线；然后以ROC曲线的敏感度和特异度同时达到最大时所对应的候选阈值作为最佳判定阈值Th。

与现有技术相比，本发明的优点在于：

1)本发明方法是在充分分析数字语音信号经过重采样操作之后，发现数字语音信号的频谱图中的频带带宽会出现与采样率的不一致性，并结合数字语音信号自身的特性而提出的。

2)大量实验结果表明本发明方法的平均检测准确率达到95％以上，特别是当重采样因子增加时，检测准确率达到了100％。

3)本发明方法充分考虑了数字语音信号的频谱特性的前提下，结合了数字语音信号本身的特点，因此本发明方法不仅填补了相关研究在数字语音信号领域的空白，而且本发明方法的稳定性好。

4)本发明方法通过计算滤波前后数字语音的能量对数比率，得到了一个区分度较好的特征，根据这个特征能够简单、快速、有效地检测重采样语音，与传统的EM算法、二阶差分算法相比，计算复杂度降低的同时避免了EM算法陷入局部最优的缺陷和二阶差分的计算量大的不足。

附图说明

图1为本发明方法的总体实现框图；

图2为运用本发明方法对采用Matlab语音处理软件对TIMIT语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的检测率的ROC曲线图；

图3为运用本发明方法对采用Audition语音处理软件对TIMIT语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的检测率的ROC曲线图；

图4为运用本发明方法对采用Audition语音处理软件对UME语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的检测率的ROC曲线图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于频带带宽不一致性的数字语音重采样检测方法，其总体实现框图如图1所示，其包括以下步骤：

步骤一：将待重采样检测的数字语音记为X。

步骤二：解析X的头文件信息，得到X的采样率，记为SR；然后根据SR设计一个相应的带通滤波器；其中，带通滤波器的中心频率为C、带宽为B。

在现实生活中，常见的数字语音的采样率大多为：8KHZ、11.25KHZ、16KHZ、22.05KHZ、32KHZ、44.1KHZ、48KHZ。

在本实施例中，步骤二中，

其中，δ为误差项，带通滤波器的起始频率为StartFreq，

带通滤波器的截止频率为EndFreq，

根据常见的数字语音的采样率设计的相应的带通滤波器如下：若采样率SR为8KHZ，且δ取值为1300，则带通滤波器的中心频率C＝3300HZ、带宽B＝500、起始频率StartFreq＝2800HZ、截止频率EndFreq＝3800HZ；若采样率为16KHZ，且δ取值为3300，则带通滤波器的中心频率C＝7300HZ、带宽B＝500、起始频率StartFreq＝6800HZ、截止频率EndFreq＝7800HZ；若采样率为32KHZ，且δ取值为7300，则带通滤波器的中心频率C＝15300HZ、带宽B＝500、起始频率StartFreq＝14800HZ、截止频率EndFreq＝15800HZ；若采样率为48KHZ，且δ取值为11300，则带通滤波器的中心频率C＝23300HZ、带宽B＝500、起始频率StartFreq＝22800HZ、截止频率EndFreq＝23800HZ。

步骤三：利用带通滤波器对X进行滤波操作，将带通滤波器对X进行滤波操作后输出的信号记为Y。

步骤四：计算X和Y各自的平均短时能量，对应记为E₁和E₂。

在本实施例中，步骤四中，

步骤五：计算E₁与E₂的能量对数比率，记为r，

并以r来反映X的频谱图中的频带带宽。

步骤六：如果X是原始的数字语音，那么由于X的频谱图中的频带带宽未被限制，因此r应该比较小；反之，如果X是经重采样操作得到的数字语音，那么r应该比较大，所以本发明根据r和最佳判定阈值Th，判定X是否为经重采样操作得到的数字语音，若r＜Th，则判定X为原始的数字语音；若r≥Th，则判定X为经重采样操作得到的数字语音。

在本实施例中，步骤六中的最佳判定阈值Th的获取过程为：

1)选取N_elect个时长大于或等于2秒的原始数字语音，并获取每个原始数字语音的重采样语音；然后将每个原始数字语音作为负样本，将每个原始数字语音的重采样语音作为正样本；其中，N_elect≥100，在本实施例中直接选用TIMIT语音数据库。

2)按照步骤一至步骤五的过程，以相同的方式获取每个正样本对应的能量对数比率和每个负样本对应的能量对数比率；然后将所有正样本对应的能量对数比率和所有负样本对应的能量对数比率按从大到小的顺序排列，构成能量对数比率集，将能量对数比率集中的第n_elect个能量对数比率记为r_elect；其中，n_elect为正整数，1≤n_elect≤2N_elect。

3)将能量对数比率集中的每个能量对数比率作为候选阈值；然后计算在每个候选阈值下的真正类率和假正类率，将在r_elect作为候选阈值下的真正类率和假正类率对应记为TPR_elect和FPR_elect。

4)根据在所有候选阈值下的真正类率和假正类率，绘制得到ROC曲线；然后以ROC曲线的敏感度和特异度同时达到最大时所对应的候选阈值作为最佳判定阈值Th，具体获取过程如下所述：不同候选阈值下，ROC曲线的敏感度和特异度是不同的，将候选阈值设为X轴，将敏感度和特异度分别设为Y轴，即将敏感度和候选阈值的曲线、特异度和候选阈值的曲线画在同一坐标系中，两条曲线的交点即为最佳判定阈值。

为了验证本发明方法的可行性和有效性，对本发明方法进行验证实验。

重采样检测方法的检测性能通过相关操作特征曲线(receiver operatingcharacteristic curve，ROC)来度量。ROC曲线能够反映出重采样检测方法随判定阈值的改变而动态变化的真正类、假正类，并且能够判定出真正类率和假负类率同时最大的临界点，即最佳的判定阈值Th。设定将原始的数字语音标记为负类，将经重采样操作得到的数字语音标记为正类。若输入为经重采样操作得到的数字语音，检测后判定为经重采样操作得到的数字语音时，称为真正类；判断为真正类的样本数与标记为正类的样本数的比值称为真正类率，记为TPR，

其中，TP表示真正类的样本数，FN表示假反类的样本数。若输入为原始的数字语音，检测后判定为经重采样操作得到的数字语音时，称为假正类，判断为假正类的样本数与标记为负类的样本数的比值称为假正类率，记为FPR，

其中，FP表示假正类的样本数，TN表示真反类的样本数。将重采样检测方法的检测准确率记为AUC，

其中，P表示标记为正类的样本数，N表示标记为负类的样本数。

在验证试验中，采用TIMIT语音数据库和UME-ERJ(UME)语音数据库中的数字语音。TIMIT语音数据库包含630个说话人所说的6300个语音片段，平均持续时间为3秒；UME-ERJ(UME)语音数据库包含202个说话人所说的4040个语音片段，平均持续时间为5秒。两个语音数据库中的数字语音的文件格式是WAV，16KHZ采样率，16位量化和单声道。

以上述两个语音数据库中的数字语音为原始的数字语音为例，分别从不同语音处理软件、不同语音内容两个方面对本发明方法进行测试。

1)测试不同语音处理软件对本发明方法的影响。

由于语音处理软件的不同本质上是其插值滤波器的不同，而不同类型的重采样之间的差异体现在其所采用的插值滤波器中，因此，验证不同语音处理软件对重采样检测方法性能很有必要。

在此，选择TIMIT语音数据库，语音处理软件分别为Audition和Matlab，对TIMIT语音数据库中的数字语音进行重采样操作，重采样因子按照0.1的变化率从0.8递增到2.0(当重采样因子较大或较小时，重采样语音效果明显，即语音失真过大，容易被人听到，因此，在此考虑重采样因子按照0.1的变化率从0.8递增到2.0)，然后运用本发明方法进行重采样检测，实验结果如表1所示。

表1运用本发明方法对采用Audition和Matlab语音处理软件对TIMIT语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的结果

从表1中可以看出，不同的语音处理软件对本发明方法并无太大的影响，语音处理软件的不同本质上是插值方法的不同，即表明本发明方法对不同的插值方法具有很好的检测效果。当重采样因子增大时，发现对数能量比的分布随着重采样因子的增加而增大，这是因为随着采样率的增加，语音的频谱图中的频带带宽并没有随着增加，这就造成了两者之间的比值逐渐增大；当重采样因子大于或等于1.2时，检测准确率已经达到93.41％，检测性能很好；当重采样因子继续增加时，即当重采样因子大于1.3时，实验结果表明检测准确率为100％，可以完全区分数字语音是否经过上采样操作；但当重采样因子小于1时，由于扩展频带的带宽几乎没受到限制，导致原始的数字语音和重采样数字语音会出现较大的重叠，因此对下采样采用本发明方法的检测率较低。

图2给出了运用本发明方法对采用Matlab语音处理软件对TIMIT语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的检测率的ROC曲线图；图3给出了运用本发明方法对采用Audition语音处理软件对TIMIT语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的检测率的ROC曲线图。从图2中可以看出，随着采样率的增加，检测准确率也随着增加，从实验的结果验证了本发明方法的可靠性。从图3中可以看出，图3和图2的曲线走势大致相同，其检测准确性也大致相等，验证了本发明方法的检测性能与语音处理软件无关。

2)测试不同语音内容对本发明方法的影响

由于本发明方法采用了能量对数比这一统计特征，而且不同语音内容本身所带有的能量不同，因此验证不同语音内容对本发明方法的检测性能十分必要。

在此，选择TIMIT和UME语音数据库，语音处理软件为Audition，对TIMIT语音数据库中的数字语音进行重采样操作，重采样因子按照0.1的变化率从0.8递增到2.0(当重采样因子较大或较小时，重采样语音效果明显，即语音失真过大，容易被人听到，因此，在此考虑重采样因子按照0.1的变化率从0.8递增到2.0)，然后运用本发明方法进行重采样检测，实验结果如表2所示。

表2运用本发明方法对采用Audition语音处理软件对TIMIT和UME语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的结果

从表2中可以看出，不同的语音内容对本发明方法并无太大影响。由于数字语音的内容的不同，所产生的能量会有较大的差异。验证不同语音内容对本发明方法十分有必要。从表2中可以看出随着重采样因子的增加，其检测准确率也随着增加。

图3为运用本发明方法对采用Audition语音处理软件对TIMIT语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的检测率的ROC曲线图；图4给出了运用本发明方法对采用Audition语音处理软件对UME语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的检测率的ROC曲线图。从图3中可以看出，随着采样率的增加，检测准确率也随着增加，从实验的结果验证了本发明方法的可靠性。从图4中可以看出，图4和图3的曲线走势大致相同，其检测准确性也大致相等，验证了本发明方法的检测性能与语音内容并无太大的关系。

Claims

1.一种基于频带带宽不一致性的数字语音重采样检测方法，其特征在于包括以下步骤：

步骤一：将待重采样检测的数字语音记为X；

步骤四：计算X和Y各自的平均短时能量，对应记为E₁和E₂；

步骤五：计算E₁与E₂的能量对数比率，记为r，

并以r来反映X的频谱图中的频带带宽；

2.根据权利要求1所述的一种基于频带带宽不一致性的数字语音重采样检测方法，其特征在于所述的步骤二中，

其中，δ为误差项。

3.根据权利要求1所述的一种基于频带带宽不一致性的数字语音重采样检测方法，其特征在于所述的步骤四中，

其中，N₁表示X中包含的帧的总帧数，1≤n₁≤N₁，E₁(n₁)表示X中的第n₁帧的短时能量，M₁表示X中的每帧包含的采样点信号的总数目，1≤m₁≤M₁，x_n1(m₁)表示X中的第n₁帧中的第m₁个采样点信号，N₂表示Y中包含的帧的总帧数，1≤n₂≤N₂，E₂(n₂)表示Y中的第n₂帧的短时能量，M₂表示Y中的每帧包含的采样点信号的总数目，1≤m₂≤M₂，y_n2(m₂)表示Y中的第n₂帧中的第m₂个采样点信号，符号“||”为取绝对值符号。

4.根据权利要求1至3中任一项所述的一种基于频带带宽不一致性的数字语音重采样检测方法，其特征在于所述的步骤六中的最佳判定阈值Th的获取过程为：