CN110310660B

CN110310660B - 一种基于语谱图的语音重采样检测方法

Info

Publication number: CN110310660B
Application number: CN201910491571.2A
Authority: CN
Inventors: 张玉金; 代淑娴; 吴飞
Original assignee: Shanghai University of Engineering Science
Current assignee: Shanghai University of Engineering Science
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2021-10-08
Anticipated expiration: 2039-06-06
Also published as: CN110310660A

Abstract

本发明涉及一种基于语谱图的语音重采样检测方法，该方法根据重采样前后语谱图特征变化的规律，利用局部二值模式特征提取算子，进一步将特征以直方图表示，利用LIBSVM进行特征的训练与分类，得到检测结果。与现有技术的频带带宽分析法相比，本发明可以有效地检测不同条件下的语音重采样，具有普适性与抗MP3压缩的鲁棒性等优点。

Description

一种基于语谱图的语音重采样检测方法

技术领域

本发明涉及语音取证技术领域，尤其是涉及一种基于语谱图的语音重采样检测方法。

背景技术

随着数字信息时代的到来，多媒体的发展速度加快，在人们的日常生活无处不在，常见的多媒体包括视频、图像、音频等。由于媒体编辑工具的普及和智能化，人们很容易进行媒体的编辑与处理，使得多媒体的原始性和真实性得不到保障，多媒体取证技术已成为信息安全领域一个研究热点。多媒体取证分为主动取证和被动取证。主动取证需要在媒体发布前将先验信息(例如水印)嵌入媒体，在接收端对提取的水印与原始水印进行比对，根据水印的变化鉴定媒体的原始性和真实性。相反，被动取证是对媒体信息的直接检测，被动取证的应用场景更广泛，但其技术要求也更高。尽管图像和视频在被动取证方面已经取得了一定的进展，但音频的被动取证研究仍处于起步阶段。

语音篡改方法包括语音复制粘贴、重压缩、翻录、拼接等。在现有的语音被动取证方法中，语音复制粘贴检测技术的发展比较成熟，可以用主成分分析、共轭不变矩匹配等算法进行检测。语音重压缩可以通过帧的不一致性来检测。根据频域的高阶相关，可以很好的对语音重翻录进行鉴别。在语音拼接篡改中，对于不同的语音源，其频率可能会不一致。为了使篡改后的语音更加自然，经常需要调整被篡改部分的长度或采样率，从而引入了重采样信息。因此，判断语音是否进行了重采样对检测语音篡改具有重要意义。现有的检测语音重采样的方法主要有期望最大化方法、子带平滑方法、二阶差分方法和频带带宽分析法等。期望最大化方法是通过分析插值引入的周期性，利用期望最大化迭代估计参数，对语音重采样进行鉴定，该方法受参数初值影响较大且对下采样检测率较低。子带平滑方法根据重采样信号经过低通滤波器滤波后会丢失部分高频信息来构造特征，对语音重采样进行检测，但是由于线性插值和最近邻插值在高频部分具有较大的子带平滑度，从而影响该方法的检测性能。二阶差分方法是对原始语音进行二阶差分处理，根据频谱上出现的离散尖峰来判断语音是否经历重采样，该方法需要设定阈值以搜索峰值，阈值受不同的插值方法影响较大。频带带宽分析法对语音带宽与采样率特性进行分析，利用接收者操作特性曲线寻找最佳阈值，根据对数能量比值判断语音是否经历重采样，然而该方法对下采样情况检测率不高。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于语谱图的语音重采样检测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于语谱图的语音重采样检测方法，该方法利用语谱图，将一维的语音信号转化为二维语谱图，根据重采样前后语谱图特征变化的规律，利用局部二值模式(LocalBinary Pattern，LBP)特征提取算子，进一步将特征以直方图表示，利用LIBSVM进行特征的训练与分类，得到检测结果。

该方法具体包括以下步骤：

步骤1、将原始语音生成重采样语音、原始压缩语音与重采样压缩语音，将生成的各语音组成所需语料库。

步骤2、将语料库中的各语音进行分帧，对每一帧语音均进行傅里叶变换，获取振幅图；

步骤3、将生成的每一帧的振幅图按帧移时间排列形成线性语谱图，进一步将线性语谱图取对数生成对数语谱图。

对数语谱图相对于线性语谱图可以使那些振幅较低的成分相对高振幅成分得以拉高，以便观察掩盖在低振幅噪声中的信息。其中，语谱图横轴代表时间，纵轴代表频率，语谱图上每个元素的取值表示振幅的大小，可以从中提取基音周期、频带宽度、基频等信息。

语谱图特征的变化，反应的是采样信号频域随时域改变的变化规律。进一步地，语音时域与频域的关系如下所述：

语音信号可看成k次谐波的叠加，假设信号f(x)的傅立叶展开式为：

其中，a₀/2为信号的直流分量，a_k为谐波分解出的余弦函数的振幅，k为谐波的阶次，b_k为谐波分解出的正弦函数的振幅，l为一半的周期长度，取样间隔为Δt，取样个数为N，x为对应时间序列的时间，所以x→iΔt，因此：

式中，i为采样点。

由此可得离散傅立叶级数为：

因此，语音信号的k次谐波为：

其中，k次谐波的频率f_k与时域周期T分别为：

可以得出谐波的频率f_k与信号的总时长呈倒数关系，当时域周期发生倍数变化时，频域的范围也会发生相应的变化。例如，当语音上采样的因子为q时，相当于时域拉伸q倍，对应于信号的每阶频率都会压缩q倍。下采样时，对离散信号再次进行p倍抽取，信号在时域上缩短了p倍，在频域上则会拉伸p倍。将频域与时域的变化特征扩展到语谱图进行分析可以得出，语谱图的纵轴带宽会发生相应的拉伸或压缩变化，每一条横纹即每一阶谐波均会发生相同的位置移动。

重采样插值算法可影响语谱图呈现的纹理。不同的插值算法得到的语谱图有所差别。插值方法常见的有线性插值、样条插值与三次方插值。插值可能会给语谱图带来能量余迹，但不会影响语谱图的变化规律。语音经历重采样后，语谱图被压缩或拉伸，对应的语谱图的纹理特征也会发生改变。

步骤4、根据重采样前后语谱图特征变化的规律，读取对数语谱图，将对数语谱图分成不同的区域，对各区域内的每个元素获取一个LBP码来描述语谱图纹理的变化，将LBP直方图作为特征向量。

LBP特征是一种纹理描述算子，可以用于度量和提取所述语谱图的纹理信息，捕捉重采样引起的语谱图的统计特性的变化。

LBP编码过程如下：将中心元素的灰度值与邻域的八个元素进行比较，通过像素点和中心点之间的差异来表示语谱图任意方向上的局部变化信息。小于中心元素的邻域元素标记为0，否则标记为1；所得二进制值乘以权重，然后将八个邻域值乘以权重后的结果相加，得到中心元素的LBP码。将得到的所有LBP码进行直方图统计，以直方图元素作为特征向量。

步骤5、利用LIBSVM进行特征的训练与分类，获取检测结果。

针对两类特征数据的分类问题，本发明通过支持向量机进行分类决策，利用拉格朗日乘子法构造一个分离超平面，以此区分重采样语音和原始语音。LIBSVM是一个支持向量机软件包，可以利用网格搜索和交叉验证进行参数寻优，模型泛化能力较强。因此，本发明选择LIBSVM作为分类学习平台，选取径向基核函数(Radial Basis Function，RBF)作为核函数。

分别将从原始语音与重采样语音提取的特征向量作为两类样本输入LIBSVM，其中，输入数据的75％作为训练样本，25％作为测试样本。利用网格搜索和交叉验证求解RBF核函数中的参数c与g的最优值，根据最优训练参数寻找一个最优平面进行分类，将分类正确的样本个数比上总样本的个数，得到的语音重采样分类准确率。

与现有技术相比，本发明具有以下优点：

1)本发明从语音重采样过程中的周期与频率的关系入手，对重采样前后语音的语谱图的统计变化进行建模，相比于频谱图是表示某一瞬间的波形图中的频率分布，语谱图则是研究一段时间语音的变化，特别是频率的变化，因此，采用语谱图来检测语音的重采样可以更直观的表示重采样语音信号的动态频谱特性，反映其变化规律；

2)本发明使用LBP特征描述子提取语谱图的局部纹理特征，进一步使用LIBSVM进行分类训练，当语音被下采样时，现有技术中的频带带宽分析法的检测准确率较低，本发明方法依然可以保持良好的检测效果，且计算速度较快，针对不同的插值方法，本发明具有普适性与良好的抗MP3压缩的鲁棒性。

附图说明

图1为LBP编码的原理图；

图2为语料库生成流程图；

图3为本发明方法的检测流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

本发明实施例针对语音重采样进行了实验评估，实验中涉及到重采样的语料库。本实施例采用TIMIT语料库，一共有6300段语音。本实施例从TIMIT语料库中选取3000段原始未采样的语音。如图2所示，语料库的制作步骤如下：

(1)对所述原始语音以0.1为步长，生成采样因子从0.6变化到2的重采样语音，并将原始语音的前1000个通过线性插值进行重采样，第1001-2000个进行样条插值，2001-3000个进行三次方插值生成对应的重采样语音混合库。一共3000×14＝42,000段重采样语音。

(2)对所述原始语音进行MP3压缩，压缩比特率分别为32kbps，64kbps与128kbps，一共3000×3＝9000段原始压缩语音。

(3)对所述重采样语音进行同样的MP3压缩步骤，可以得到一共3000×14×3＝126,000段压缩语音。因此，实验建立的语料库一共有18万个语音样本。检测过程如图3所示。

进一步地，语料库对应的生成对数语谱图，即生成18万幅对数语谱图。语谱图均为窄带语谱图，以便清晰的显示其频域纹理特征。根据本发明一种基于语谱图的语音重采样检测方法的步骤：

步骤一、将原始语音生成重采样语音、原始压缩语音与重采样压缩语音，将生成的各语音组成所需语料库。

步骤二、将语料库中的语音进行分帧，帧长为50ms，帧移为25ms，对每一帧语音均进行傅里叶变换。

步骤三、将生成振幅图按帧移时间排列形成线语谱图，将线性语谱图取对数可以产生对数语谱图。

步骤四、读取对数语谱图，将对数语谱图分成不同的区域，对区域内的每个像素点都可以得到一个LBP码。进一步，统计这些LBP码的直方图作为特征向量。

步骤五、将原始语音的特征与重采样语音的特征，原始压缩语音特征与重采样压缩语音特征分别作为样本数据输入LIBSVM进行网格搜索和5折交叉验证训练，得到重采样的检测结果。具体内容为：

利用网格搜索和交叉验证求解LIBSVM中RBF核函数的参数c与g的最优值，根据最优训练参数寻找一个最优平面进行分类，将分类正确的样本数比上总样本数，得到的分类准确率即为语音重采样检测的准确率。其中，样本数据分为75％的训练样本与25％的测试样本。

为了验证本发明方法的普适性与鲁棒性，因不同的插值方法对语谱图有一定的影响，因此，在不同插值情况下进行实验是很有必要的。本发明实施例选取了常见的线性插值、样条插值与三次方插值进行实验。当重采样因子分别为0.8、0.9、1.1和1.2时，原始语音重采样尺度较小，使得检测难度加大。因此，这里选用这四个具有代表性的采样因子进行实验评估。这里均选取1000段原始语音和1000段重采样语音进行特征提取和分类判决。表1是不同插值方法下本发明方法的检测结果。表2为不同插值方法下频带带宽分析法的重采样检测结果。

表1不同插值方法下本发明的重采样检测结果

表2不同插值方法下频带带宽分析法的重采样检测结果

由表1与表2可以看出，当上/下采样尺度越大时，本发明方法和频带带宽分析法检测率越高。总的来说，在不同插值方法下，本发明方法的检测性能明显优于频带带宽分析法。

为了进一步评估本发明方法的有效性，选取采样因子为0.6-2，步长为0.1，分别利用线性插值、样条插值和三次方插值方法对原始语音进行重采样组成重采样混合库，这里选取3000段原始语音和3000段重采样语音(包含1000段线性插值、1000段样条插值和1000段三次方插值语音)进行特征提取和分类判决。表3显示的是本发明方法和频带带宽分析法的混合重采样检测结果。从表3可以看出，当上/下采样尺度越大时，本发明方法和频带带宽分析法检测率越高，进一步也可以观察到，本发明方法的混合重采样检测性能同样优于频带带宽分析法。

表3本发明方法和频带带宽分析法的混合重采样检测结果

语音在传播的过程中往往会被压缩，在压缩情况下检测语音的重采样对语音取证具有较好的现实意义。MP3压缩是目前最为常见的语音压缩方式，其压缩比特率越大，代表语音质量越好，常用的压缩比特率为128kbps，因此本发明主要在32kbps、64kbps与128kbps压缩情况下进行实验研究。针对不同压缩比特率，本发明方法和频带带宽分析法的混合重采样检测正确率如表4所示。

表4不同压缩比特率下重采样识别的准确率结果

分析表4可以得出：当压缩比特率一定时，上/下采样尺度越大，本发明方法和频带带宽分析法检测率越高。进一步也可以观察到，在不同压缩比特率下本发明方法的混合重采样检测性能也明显优于频带带宽分析法。

本发明方法从语音重采样过程中的周期与频率的关系入手，对重采样前后语音的语谱图的统计变化进行建模，相比于频谱图是表示某一瞬间的波形图中的频率分布，语谱图则是研究一段时间语音的变化，特别是频率的变化，因此，采用语谱图来检测语音的重采样可以更直观的表示重采样语音信号的动态频谱特性，反映其变化规律。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于语谱图的语音重采样检测方法，其特征在于，该方法包括下列步骤：

1)将原始语音生成重采样语音、原始压缩语音与重采样压缩语音，将生成的各语音组成所需语料库；

2)将语音原数据进行分帧，对每一帧语音均进行傅里叶变换，获取振幅图；

3)将每一帧语音的振幅图按帧移时间排列形成线性语谱图，随后将线性语谱图取对数，生成对数语谱图；

4)读取对数语谱图，将对数语谱图分成不同的区域，对各区域内的每个元素获取一个用以描述语谱图纹理变化的局部二值模式，随后根据得到的所有局部二值模式进行直方图统计，将直方图作为特征向量；

5)利用LIBSVM进行特征训练及分类，获取检测结果；

步骤3)中，采用的插值处理包括线性插值、样条插值与或三次方插值；

对数语谱图中横轴代表时间，纵轴代表频率，对数语谱图上每个元素的取值表示振幅的大小；语音信号看成k次谐波的叠加，假设信号f(x)的傅立叶展开式为：

式中，i为采样点；

由此可得离散傅立叶级数为：

因此，语音信号的k次谐波为：

其中，k次谐波的频率f_k与时域周期T分别为：

可得出谐波的频率f_k与信号的总时长呈倒数关系，当时域周期发生倍数变化时，频域的范围也会发生相应的变化，当语音上采样的因子为q时，相当于时域拉伸q倍，对应于信号的每阶频率都会压缩q倍，下采样时，对离散信号再次进行p倍抽取，信号在时域上缩短了p倍，在频域上则会拉伸p倍。

2.根据权利要求1所述的一种基于语谱图的语音重采样检测方法，其特征在于，步骤5)中，利用LIBSVM进行特征训练的具体内容为：

将原始语音的特征与重采样语音的特征，原始压缩语音的特征与重采样压缩语音的特征分别作为样本数据输入LIBSVM进行网格搜索和5折交叉验证训练。

3.根据权利要求2所述的一种基于语谱图的语音重采样检测方法，其特征在于，步骤5)中，将样本数据分为75％的训练样本与25％的测试样本。

4.根据权利要求3所述的一种基于语谱图的语音重采样检测方法，其特征在于，步骤5)中，采用支持向量机对特征进行分类，并选取径向基核函数作为核函数。

5.根据权利要求4所述的一种基于语谱图的语音重采样检测方法，其特征在于，步骤5)中获取检测结果的具体内容为：

分别将从原始语音与重采样语音提取的特征向量作为两类样本输入LIBSVM，利用网格搜索和交叉验证求解径向基核函数中的参数c与g的最优值，根据最优训练参数寻找一个最优平面进行分类，将分类正确的样本个数比上总样本的个数，获取语音重采样分类准确率，获取的语音重采样分类准确率即为检测结果。