CN103440868B

CN103440868B - 一种电子变调音频的鉴定方法

Info

Publication number: CN103440868B
Application number: CN201310345919.XA
Authority: CN
Inventors: 吴浩君; 王泳; 黄继武
Original assignee: National Sun Yat Sen University
Current assignee: Shenzhen Guoxinan Information Technology Co., Ltd.
Priority date: 2013-08-09
Filing date: 2013-08-09
Publication date: 2016-05-11
Anticipated expiration: 2033-08-09
Also published as: CN103440868A

Abstract

本发明公开了一种电子变调音频的鉴定方法，是根据电子变调的特点而提出的判别方法，属于多媒体信息安全领域。本发明方法包括以下步骤：（1）提取音频特征；（2）构造分类器模型；（3）按照步骤（1）提取待测音频片段的特征，利用步骤（2）得到的分类器模型进行检测判断。本发明方法能鉴定一段待测音频是原始音频还是电子变调音频，并且对不同的变调方法有很稳健的鲁棒性，从而可以为司法取证提供帮助。

Description

一种电子变调音频的鉴定方法

技术领域

本发明涉及多媒体信息安全领域，更具体地，涉及一种电子变调语音的鉴定方法。

背景技术

电子变调是利用电子设备来改变说话人的声音，从而实现隐藏或者伪造说话人身份的一种技术。通过复杂的变调算法，电子变调音频可以达到非常清晰自然的效果，进而干扰与欺骗人的听觉或者说话人自动识别系统。近年来，随着音频处理软件的成熟和智能手机的普及，涉及电子变调音频的案件已经呈现出不断增长的势头。在电话通信、网络聊天等领域，电子变调往往被利用来进行诈骗、恐吓等违法犯罪行为。因此，对电子变调音频进行鉴定有着非常重要和紧迫的实际意义。

发明内容

本发明目的在于提供一种电子变调音频的鉴定方法，采用这种方法可以判断一段待测音频是否有经过电子变调处理，从而为司法与刑侦提供帮助。

为了实现上述目的，本发明的技术方案为：

一种电子变调音频的鉴定方法，包括：

S1.构造分类器模型，具体为：

建立训练音频库，其中包括原始音频集和电子变调音频集，根据不同的变调系数，将电子变调音频集划分为K个电子变调音频子集；

分别提取原始音频集的音频特征集和K个电子变调音频子集的音频特征集；

将原始音频集的特征集分别和K个电子变调音频子集的特征集合在一起，输入到分类器中，分别训练得到K个分类器模型；

S2.利用分类器模型对待测音频片段做检测判断，具体：

提取待测音频片段的特征；

将待测音频片段的特征输入到K个分类器中，分别获得K个鉴定结果；

如果K个鉴定结果都是原始音频，则待测音频片段被鉴定为原始音频；如果其中有一个鉴定结果是电子变调音频，则待测音频片段被鉴定为电子变调音频；

其中上述音频特征提取的具体方式为：

1）对音频进行语音检测，截掉音频的静音部分；

2）对音频的幅值进行归一化，使其分布在区间[-1，1]内；

3）对音频进行加窗、分帧，分帧后音频的帧数记作N；

4）提取每一帧音频的d阶梅尔频率倒谱系数MFCC，记作M ₁，M ₂，…，M _N；

5）对M ₁，M ₂，…，M _N做帧间一阶差分和帧间二阶差分，得到每一帧音频的MFCC一阶差分和二阶差分系数，记作△M ₁，△M ₂，…，△M _N和△△M ₁，△△M ₂，…，△△M _N，基于第i帧音频提取的MFCC及其差分系数矢量，记作V _i，i={1，2，…，N}，V _i有D=3d个分量，V _i的第j分量记作v _ij，所有N个第j分量的集合，记作X _j={v _1j，v _2j，…，v _Nj}，j={1，2，…，D}；

6）计算每一个分量集合X _j的均值m _j，j={1，2，…，D}，以及不同的分量集合X _j和X _j’之间的相关系数c _jj’、j、j’={1，2，…，D}，j≠j’；

7）将所得的均值和相关系数组合起来，作为音频特征f，f=[m ₁，m ₂，…，m _D，c ₁₂，c ₁₃，…，c _D-1D]。

更进一步的，所述步骤S1中将原始音频集的特征集分别和K个电子变调音频子集的特征集合在一起，输入到支持向量机SVM中，分别训练得到K个分类器模型。

更进一步的，所述音频特征提取中步骤1）对音频进行语音检测，截掉音频的开头与末尾处的静音部分。

更进一步的，所述音频特征提取中步骤3）中每一帧的长度为10~30ms。

与现有技术相比，本发明的有益效果为：采用本发明的方法可以判断一段待测音频是否有经过电子变调处理，并且对不同的变调方法有很稳健的鲁棒性，从而为司法与刑侦提供帮助。

附图说明

图1为采用本发明方法的电子变调音频鉴定系统的流程图。

具体实施方式

下面结合附图对本发明做进一步的描述，但本发明的实施方式并不限于此。

本发明方法主要通过以下三个步骤进行电子变调语音的鉴定：

S1.提取音频特征，具体实施如下：

S11.对音频进行语音检测，截掉音频开头与末尾处的静音部分；

S12.对音频的幅值进行归一化，使其分布在区间[-1，1]内；

S13.对音频进行加窗、分帧，每一帧的长度为10~30ms，分帧后音频的帧数记作N。

S14.提取每一帧音频的d阶梅尔频率倒谱系数MFCC，记作M ₁，M ₂，…，M _N。

S15.对M ₁，M ₂，…，M _N做帧间一阶差分和帧间二阶差分，得到每一帧音频的MFCC一阶差分和二阶差分系数，记作△M ₁，△M ₂，…，△M _N和△△M ₁，△△M ₂，…△△M _N。基于第i帧音频提取的MFCC及其差分系数矢量，记作V _i，i={1，2，…，N}，V _i有D=3d个分量。V _i的第j分量记作v _ij，所有N个第j分量的集合，记作X _j={v _1j，v _2j，…，v _Nj}，j={1，2，…，D}。

S16.计算每一个分量集合X _j的均值m _j，j={1，2，…，D}，以及不同的分量集合X _j和X _j’之间的相关系数c _jj’，j，j’={1，2，…，D}，j≠j’。

S17.将所得的均值和相关系数组合起来，作为音频特征f，f=[m ₁，m ₂，…，m _D，c ₁₂，c ₁₃，…，c _D-1D]。

S2.构造分类器模型，具体实施如下：

S21.建立训练音频库，其中包括原始音频集和电子变调音频集，根据不同的变调系数，将电子变调音频集划分为若干个电子变调音频子集。

S22.附图是电子变调音频鉴定系统的流程图。按照步骤S1，分别提取原始音频集S ₀的特征集F ₀，和K个电子变调音频子集{S ₁，S ₂，…，S _K}的特征集{F ₁，F ₂，…，F _K}。

S23.如图所示，将原始音频集的特征集F ₀分别和K个电子变调音频子集的特征集{F ₁，F ₂，…，F _K}合在一起，输入到支持向量机SVM中，分别训练得到K个分类器{CF ₁，CF ₂，…，CF _K}：

F ₀+F ₁→CF ₁，F ₀+F ₂→CF ₂，…，F ₀+F _K→CF _K

每个分类器都用于鉴定一段待测音频是原始音频还是电子变调音频。

S3.利用分类器模型对待测音频片段做检测判断，具体实施如下：

S31.按照步骤S1，提取待测音频片段的特征f _test。

S32.将待测音频片段的特征f _test输入到由步骤S2训练得到的K个分类器{CF ₁，CF ₂，…，CF _K}中，分别获得K个鉴定结果。

S33.如果这K个鉴定结果都是原始音频，则待测音频片段被鉴定为原始音频；如果其中有一个鉴定结果是电子变调音频，则待测音频片段被鉴定为电子变调音频。

下面给出利用本发明方法的一些实验结果：

将TIMIT语音库作为原始音频集，并将其随机划分为两个不交叉的部分，记T_1和T_2。考虑四种不同的电子变调方法，分别是Audacity，CoolEdit，PRAAT和基于RTISI算法的MATLAB变调工具箱。分别用这四种电子变调方法对原始音频集T_1和T_2进行变调处理，得到八个电子变调音频集，记作T_1_A，T_1_C，T_1_P，T_1_R以及T_2_A，T_2_C，T_2_P，T_2_R。原始音频集T_1以及来自它的电子变调音频集用于建立四个训练音频库，原始音频集T_2以及来自它的电子变调音频集用于建立测试音频库。采用本发明方法，分别由四个训练音频库得到四个鉴定系统，并对测试音频库的一个原始音频集T_2以及四个电子变调音频集T_2_A，T_2_C，T_2_P和T_2_R进行了鉴定，结果如表1所示。

表1.各鉴定系统对不同的电子变调音频的检测率

由表1可知，采用本发明方法来区别原始音频和电子变调音频能达到不错的性能。当训练音频库和待测音频片段的电子变调方法相同时，检测率能达到99%；即使两者的电子变调方法不同，检测率仍然高于95%，因此本发明方法对于不同的电子变调方法是非常稳健的。

以上所述的本发明的实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

1.一种电子变调音频的鉴定方法，其特征在于，包括：