CN103440868B - 一种电子变调音频的鉴定方法 - Google Patents

一种电子变调音频的鉴定方法 Download PDF

Info

Publication number
CN103440868B
CN103440868B CN201310345919.XA CN201310345919A CN103440868B CN 103440868 B CN103440868 B CN 103440868B CN 201310345919 A CN201310345919 A CN 201310345919A CN 103440868 B CN103440868 B CN 103440868B
Authority
CN
China
Prior art keywords
audio
audio frequency
modified tone
electronics
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310345919.XA
Other languages
English (en)
Other versions
CN103440868A (zh
Inventor
吴浩君
王泳
黄继武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Guoxinan Information Technology Co., Ltd.
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN201310345919.XA priority Critical patent/CN103440868B/zh
Publication of CN103440868A publication Critical patent/CN103440868A/zh
Application granted granted Critical
Publication of CN103440868B publication Critical patent/CN103440868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种电子变调音频的鉴定方法,是根据电子变调的特点而提出的判别方法,属于多媒体信息安全领域。本发明方法包括以下步骤:(1)提取音频特征;(2)构造分类器模型;(3)按照步骤(1)提取待测音频片段的特征,利用步骤(2)得到的分类器模型进行检测判断。本发明方法能鉴定一段待测音频是原始音频还是电子变调音频,并且对不同的变调方法有很稳健的鲁棒性,从而可以为司法取证提供帮助。

Description

一种电子变调音频的鉴定方法
技术领域
本发明涉及多媒体信息安全领域,更具体地,涉及一种电子变调语音的鉴定方法。
背景技术
电子变调是利用电子设备来改变说话人的声音,从而实现隐藏或者伪造说话人身份的一种技术。通过复杂的变调算法,电子变调音频可以达到非常清晰自然的效果,进而干扰与欺骗人的听觉或者说话人自动识别系统。近年来,随着音频处理软件的成熟和智能手机的普及,涉及电子变调音频的案件已经呈现出不断增长的势头。在电话通信、网络聊天等领域,电子变调往往被利用来进行诈骗、恐吓等违法犯罪行为。因此,对电子变调音频进行鉴定有着非常重要和紧迫的实际意义。
发明内容
本发明目的在于提供一种电子变调音频的鉴定方法,采用这种方法可以判断一段待测音频是否有经过电子变调处理,从而为司法与刑侦提供帮助。
为了实现上述目的,本发明的技术方案为:
一种电子变调音频的鉴定方法,包括:
S1.构造分类器模型,具体为:
建立训练音频库,其中包括原始音频集和电子变调音频集,根据不同的变调系数,将电子变调音频集划分为K个电子变调音频子集;
分别提取原始音频集的音频特征集和K个电子变调音频子集的音频特征集;
将原始音频集的特征集分别和K个电子变调音频子集的特征集合在一起,输入到分类器中,分别训练得到K个分类器模型;
S2.利用分类器模型对待测音频片段做检测判断,具体:
提取待测音频片段的特征;
将待测音频片段的特征输入到K个分类器中,分别获得K个鉴定结果;
如果K个鉴定结果都是原始音频,则待测音频片段被鉴定为原始音频;如果其中有一个鉴定结果是电子变调音频,则待测音频片段被鉴定为电子变调音频;
其中上述音频特征提取的具体方式为:
1)对音频进行语音检测,截掉音频的静音部分;
2)对音频的幅值进行归一化,使其分布在区间[-1,1]内;
3)对音频进行加窗、分帧,分帧后音频的帧数记作N
4)提取每一帧音频的d阶梅尔频率倒谱系数MFCC,记作M 1 M 2 ,…,M N
5)对M 1 M 2 ,…,M N 做帧间一阶差分和帧间二阶差分,得到每一帧音频的MFCC一阶差分和二阶差分系数,记作△M 1 △M 2 ,…,△M N △△M 1 △△M 2 ,…,△△M N ,基于第i帧音频提取的MFCC及其差分系数矢量,记作V i i={12,…,N},V i D=3d个分量,V i 的第j分量记作v ij ,所有N个第j分量的集合,记作X j ={v 1j v 2j ,…,v Nj },j={12,…,D};
6)计算每一个分量集合X j 的均值m j j={12,…,D},以及不同的分量集合X j X j’ 之间的相关系数c jj’ jj’={12,…,D},jj’
7)将所得的均值和相关系数组合起来,作为音频特征ff=[m 1 m 2 ,…,m D c 12 c 13 ,…,c D-1D ]。
更进一步的,所述步骤S1中将原始音频集的特征集分别和K个电子变调音频子集的特征集合在一起,输入到支持向量机SVM中,分别训练得到K个分类器模型。
更进一步的,所述音频特征提取中步骤1)对音频进行语音检测,截掉音频的开头与末尾处的静音部分。
更进一步的,所述音频特征提取中步骤3)中每一帧的长度为10~30ms。
与现有技术相比,本发明的有益效果为:采用本发明的方法可以判断一段待测音频是否有经过电子变调处理,并且对不同的变调方法有很稳健的鲁棒性,从而为司法与刑侦提供帮助。
附图说明
图1为采用本发明方法的电子变调音频鉴定系统的流程图。
具体实施方式
下面结合附图对本发明做进一步的描述,但本发明的实施方式并不限于此。
本发明方法主要通过以下三个步骤进行电子变调语音的鉴定:
S1.提取音频特征,具体实施如下:
S11.对音频进行语音检测,截掉音频开头与末尾处的静音部分;
S12.对音频的幅值进行归一化,使其分布在区间[-1,1]内;
S13.对音频进行加窗、分帧,每一帧的长度为10~30ms,分帧后音频的帧数记作N
S14.提取每一帧音频的d阶梅尔频率倒谱系数MFCC,记作M 1 M 2 ,…,M N
S15.对M 1 M 2 ,…,M N 做帧间一阶差分和帧间二阶差分,得到每一帧音频的MFCC一阶差分和二阶差分系数,记作△M 1 △M 2 ,…,△M N △△M 1 △△M 2 ,…△△M N 。基于第i帧音频提取的MFCC及其差分系数矢量,记作V i i={12,…,N},V i D=3d个分量。V i 的第j分量记作v ij ,所有N个第j分量的集合,记作X j ={v 1j v 2j ,…,v Nj },j={12,…,D}。
S16.计算每一个分量集合X j 的均值m j j={12,…,D},以及不同的分量集合X j X j’ 之间的相关系数c jj’ jj’={12,…,D},jj’
S17.将所得的均值和相关系数组合起来,作为音频特征ff=[m 1 m 2 ,…,m D c 12 c 13 ,…,c D-1D ]。
S2.构造分类器模型,具体实施如下:
S21.建立训练音频库,其中包括原始音频集和电子变调音频集,根据不同的变调系数,将电子变调音频集划分为若干个电子变调音频子集。
S22.附图是电子变调音频鉴定系统的流程图。按照步骤S1,分别提取原始音频集S 0 的特征集F 0 ,和K个电子变调音频子集{S 1 S 2 ,…,S K }的特征集{F 1 F 2 ,…,F K }。
S23.如图所示,将原始音频集的特征集F 0 分别和K个电子变调音频子集的特征集{F 1 F 2 ,…,F K }合在一起,输入到支持向量机SVM中,分别训练得到K个分类器{CF 1 CF 2 ,…,CF K }:
F 0 +F 1 CF 1 F 0 +F 2 CF 2 ,…,F 0 +F K CF K
每个分类器都用于鉴定一段待测音频是原始音频还是电子变调音频。
S3.利用分类器模型对待测音频片段做检测判断,具体实施如下:
S31.按照步骤S1,提取待测音频片段的特征f test
S32.将待测音频片段的特征f test 输入到由步骤S2训练得到的K个分类器{CF 1 CF 2 ,…,CF K }中,分别获得K个鉴定结果。
S33.如果这K个鉴定结果都是原始音频,则待测音频片段被鉴定为原始音频;如果其中有一个鉴定结果是电子变调音频,则待测音频片段被鉴定为电子变调音频。
下面给出利用本发明方法的一些实验结果:
将TIMIT语音库作为原始音频集,并将其随机划分为两个不交叉的部分,记T_1T_2。考虑四种不同的电子变调方法,分别是Audacity,CoolEdit,PRAAT和基于RTISI算法的MATLAB变调工具箱。分别用这四种电子变调方法对原始音频集T_1T_2进行变调处理,得到八个电子变调音频集,记作T_1_AT_1_CT_1_PT_1_R以及T_2_AT_2_CT_2_PT_2_R。原始音频集T_1以及来自它的电子变调音频集用于建立四个训练音频库,原始音频集T_2以及来自它的电子变调音频集用于建立测试音频库。采用本发明方法,分别由四个训练音频库得到四个鉴定系统,并对测试音频库的一个原始音频集T_2以及四个电子变调音频集T_2_AT_2_CT_2_PT_2_R进行了鉴定,结果如表1所示。
表1.各鉴定系统对不同的电子变调音频的检测率
由表1可知,采用本发明方法来区别原始音频和电子变调音频能达到不错的性能。当训练音频库和待测音频片段的电子变调方法相同时,检测率能达到99%;即使两者的电子变调方法不同,检测率仍然高于95%,因此本发明方法对于不同的电子变调方法是非常稳健的。
以上所述的本发明的实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

Claims (4)

1.一种电子变调音频的鉴定方法,其特征在于,包括:
S1.构造分类器模型,具体为:
建立训练音频库,其中包括原始音频集和电子变调音频集,根据不同的变调系数,将电子变调音频集划分为K个电子变调音频子集;
分别提取原始音频集的音频特征集和K个电子变调音频子集的音频特征集;
将原始音频集的特征集分别和K个电子变调音频子集的特征集合在一起,输入到分类器中,分别训练得到K个分类器模型;
S2.利用分类器模型对待测音频片段做检测判断,具体:
提取待测音频片段的特征;
将待测音频片段的特征输入到K个分类器中,分别获得K个鉴定结果;
如果K个鉴定结果都是原始音频,则待测音频片段被鉴定为原始音频;如果其中有一个鉴定结果是电子变调音频,则待测音频片段被鉴定为电子变调音频;
其中上述音频特征提取的具体方式为:
1)对音频进行语音检测,截掉音频的静音部分;
2)对音频的幅值进行归一化,使其分布在区间[-1,1]内;
3)对音频进行加窗、分帧,分帧后音频的帧数记作N
4)提取每一帧音频的d阶梅尔频率倒谱系数MFCC,记作M 1 M 2 ,…,M N
5)对M 1 M 2 ,…,M N 做帧间一阶差分和帧间二阶差分,得到每一帧音频的MFCC一阶差分和二阶差分系数,记作△M 1 △M 2 ,…,△M N △△M 1 △△M 2 ,…,△△M N ,基于第i帧音频提取的MFCC及其差分系数矢量,记作V i i={12,…,N},V i D=3d个分量,V i 的第j分量记作v ij ,所有N个第j分量的集合,记作X j ={v 1j v 2j ,…,v Nj },j={12,…,D};
6)计算每一个分量集合X j 的均值m j j={12,…,D},以及不同的分量集合X j X j’ 之间的相关系数c jj’ jj’={12,…,D},jj’
7)将所得的均值和相关系数组合起来,作为音频特征ff=[m 1 m 2 ,…,m D c 12 c 13 ,…,c D-1D ]。
2.根据权利要求1所述的电子变调音频的鉴定方法,其特征在于,所述步骤S1中将原始音频集的特征集分别和K个电子变调音频子集的特征集合在一起,输入到支持向量机SVM中,分别训练得到K个分类器模型。
3.根据权利要求2所述的电子变调音频的鉴定方法,其特征在于,所述音频特征提取中步骤1)对音频进行语音检测,截掉音频的开头与末尾处的静音部分。
4.根据权利要求3所述的电子变调音频的鉴定方法,其特征在于,所述音频特征提取中步骤3)中每一帧的长度为10~30ms。
CN201310345919.XA 2013-08-09 2013-08-09 一种电子变调音频的鉴定方法 Active CN103440868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310345919.XA CN103440868B (zh) 2013-08-09 2013-08-09 一种电子变调音频的鉴定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310345919.XA CN103440868B (zh) 2013-08-09 2013-08-09 一种电子变调音频的鉴定方法

Publications (2)

Publication Number Publication Date
CN103440868A CN103440868A (zh) 2013-12-11
CN103440868B true CN103440868B (zh) 2016-05-11

Family

ID=49694559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310345919.XA Active CN103440868B (zh) 2013-08-09 2013-08-09 一种电子变调音频的鉴定方法

Country Status (1)

Country Link
CN (1) CN103440868B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108369813B (zh) * 2017-07-31 2022-10-25 深圳和而泰智能家居科技有限公司 特定声音识别方法、设备和存储介质
CN110060703B (zh) * 2018-01-19 2021-05-04 深圳大学 一种检测并定位语音片段内的平滑处理的方法
CN110189767B (zh) * 2019-04-30 2022-05-03 上海大学 一种基于双声道音频的录制移动设备检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101207500A (zh) * 2006-12-21 2008-06-25 中兴通讯股份有限公司 一种音频数据变音方法
CN102354496A (zh) * 2011-07-01 2012-02-15 中山大学 一种基于psm变调的语音识别及其还原方法及其装置
CN102394062A (zh) * 2011-10-26 2012-03-28 华南理工大学 一种自动录音设备源识别的方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7496510B2 (en) * 2000-11-30 2009-02-24 International Business Machines Corporation Method and apparatus for the automatic separating and indexing of multi-speaker conversations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101207500A (zh) * 2006-12-21 2008-06-25 中兴通讯股份有限公司 一种音频数据变音方法
CN102354496A (zh) * 2011-07-01 2012-02-15 中山大学 一种基于psm变调的语音识别及其还原方法及其装置
CN102394062A (zh) * 2011-10-26 2012-03-28 华南理工大学 一种自动录音设备源识别的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于SVM的语音情感识别算法;朱菊霞,吴小培,吕钊;《计算机系统应用》;20110531;1-5 *

Also Published As

Publication number Publication date
CN103440868A (zh) 2013-12-11

Similar Documents

Publication Publication Date Title
Yuan et al. {CommanderSong}: A systematic approach for practical adversarial voice recognition
Wu et al. Light convolutional neural network with feature genuinization for detection of synthetic speech attacks
KR101917790B1 (ko) 핫 워드 인식
Gałka et al. Playback attack detection for text-dependent speaker verification over telephone channels
CN102394062B (zh) 一种自动录音设备源识别的方法和系统
Yamamoto et al. Speaker Augmentation and Bandwidth Extension for Deep Speaker Embedding.
CN108986824B (zh) 一种回放语音检测方法
CN105869630A (zh) 基于深度学习的说话人语音欺骗攻击检测方法及系统
CN111835784B (zh) 用于重放攻击检测系统的数据泛化方法及系统
CN107507626B (zh) 一种基于语音频谱融合特征的手机来源识别方法
Paul et al. Countermeasure to handle replay attacks in practical speaker verification systems
CN103971700A (zh) 语音监控方法及装置
CN103440868B (zh) 一种电子变调音频的鉴定方法
Tan et al. A survey on presentation attack detection for automatic speaker verification systems: State-of-the-art, taxonomy, issues and future direction
CN104221079A (zh) 利用频谱特性进行声音分析的改进的梅尔滤波器组结构
Zou et al. Cell phone verification from speech recordings using sparse representation
Zeng et al. Audio tampering forensics based on representation learning of enf phase sequence
CN103871405A (zh) 一种amr音频的鉴定方法
Chen et al. Robust speech hash function
Zhao et al. Anti-forensics of environmental-signature-based audio splicing detection and its countermeasure via rich-features classification
Yi et al. Scenefake: An initial dataset and benchmarks for scene fake audio detection
CN113270112A (zh) 一种电子伪装语音自动判别与还原方法及系统
CN104091104B (zh) 多格式音频感知哈希认证的特征值提取及认证方法
Chen et al. A robust feature extraction algorithm for audio fingerprinting
Bui et al. A non-linear GMM KL and GUMI kernel for SVM using GMM-UBM supervector in home acoustic event classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190617

Address after: 518054 Shenzhen City, Guangdong Province, Nanshan District Shekou Street Excellence Weigang Ming Yuan (North District) 4-7 skirt building 144

Patentee after: Shenzhen Guoxinan Information Technology Co., Ltd.

Address before: 510275 Sun Yat-sen University, 135 Xingang West Road, Guangzhou, Guangdong Province

Patentee before: Sun Yat-sen University