CN107507626B - 一种基于语音频谱融合特征的手机来源识别方法 - Google Patents

一种基于语音频谱融合特征的手机来源识别方法 Download PDF

Info

Publication number
CN107507626B
CN107507626B CN201710550925.7A CN201710550925A CN107507626B CN 107507626 B CN107507626 B CN 107507626B CN 201710550925 A CN201710550925 A CN 201710550925A CN 107507626 B CN107507626 B CN 107507626B
Authority
CN
China
Prior art keywords
voice
mobile phone
frequency
spectrum
library corresponding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710550925.7A
Other languages
English (en)
Other versions
CN107507626A (zh
Inventor
王让定
裴安山
严迪群
金超
秦天芸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huzhou Chuangguan Technology Co ltd
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN201710550925.7A priority Critical patent/CN107507626B/zh
Publication of CN107507626A publication Critical patent/CN107507626A/zh
Application granted granted Critical
Publication of CN107507626B publication Critical patent/CN107507626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本发明公开了一种基于语音频谱融合特征的手机来源识别方法,其对每个手机对应的语音库中的每个语音样本中的每帧进行快速傅里叶变换,获取每帧的前一半加1个频率点的频率值的幅值;然后根据频率值及幅值,获取每个语音样本的统计平均信息量特征、统计平均对数谱特征和统计平均相位谱特征,组成频谱融合特征;接着将所有手机对应的所有语音样本的频谱融合特征组成频谱融合特征矩阵;之后对频谱融合特征矩阵进行归一化和特征选择,得到最优特征矩阵,即获得每个语音样本的最终频谱融合特征;最后对所有语音样本的最终频谱融合特征进行模型训练和测试样本识别;优点是识别准确率高、稳定性好,且泛化能力强。

Description

一种基于语音频谱融合特征的手机来源识别方法
技术领域
本发明涉及一种手机来源识别技术,尤其是涉及一种基于语音频谱融合特征的手机来源识别方法。
背景技术
如今,随着移动互联网和微芯片产业的快速发展,移动终端不再仅仅是一种通信设备,而是人们生活中不可或缺的部分。越来越多的人开始使用智能手机、PAD等便携设备捕捉和采集他们看到或听到的情景,而不是使用相机、录音笔、DV(Digital Video,数字视频)等专业设备。然而,大量的数字采集设备和采集数据的可用性带来了新的问题和挑战——多媒体的安全问题。作为一种检测多媒体数据独创性、真实性、完整性的技术,多媒体取证技术是信息安全领域的热点研究问题。
数字音频来源取证是对音频来源的真实性、完整性等进行验证的,是多媒体取证技术的重要研究内容。当一段录音样本被当作法庭证据时,对录音的来源的真实性和完整性的检测往往是必须的。近年来,数字音频来源取证引起了越来越多的关注,并获得了重大进展。如:Hanilci,C.,Ertas,F.,Ertas,T.,Eskidere,O.Recognition of brandandmodels of Cell-Phones from recorded speech signals.IEEETrans.Inf.Forensics Security.7(2),625-634(2012)(基于录音信号的手机品牌和型号的识别,电气和电子工程师协会,多媒体取证和安全学报)中提出的一种通过提取录音文件的MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征信息用于手机品牌和型号的识别的方法,其在14个不同型号的手机设备的闭集识别实验中,识别率可以达到96.42%。又如:Kotropoulos,C.Source phone identification using sketches offeatures.IET Biometrics.3(2):75–83(2014)(基于特征稀疏表示的手机来源识别,英国工程技术学会,生物学报)中提出的方法,其通过对不同手机得到的录音文件的语音信号频谱取对数,然后沿时间轴取平均或者通过堆叠每一帧的特征参数并基于高斯混合模型建模得到大尺寸的特征向量,接着通过映射到低维空间进行降维,其在7个品牌21个型号的手机来源识别实验中,识别率可达到94%。还如:王志锋、贺前华、李艳雄提出的录音设备的建模和识别算法,其考虑到语音段中的静音包含了与正常语音一样的设备信息,并且不受说话人、文本、情感等因素的影响,因此从静音段中提出表征录音设备的特征,然后利用设备通用背景模型构建设备模型,最后通过归一化似然度得分对输入的录音设备的语音样本特征进行分类判决,实验结果表明,其对于9种不同设备的平均识别率为87.42%。
现有的大多数手机来源识别的研究都是基于语音频谱单一特征的,由于目前大多数的研究基于的语音数据库中设备种类和数量较少,设备型号陈旧,因此使得不同设备采集语音的差异性较大,从而使得相关特征在手机来源识别中取得了不错的效果。但是,当语音数据库中设备种类和数量达到一定程度之后,特别是随着相同品牌不同型号设备不断增加后,相关特征在手机来源识别中是否依旧能取得不错的效果呢?通过在现下主流的7个品牌23个型号的手机构建的语音数据库上,分析不同设备语音信号的语谱图,发现不同设备的频谱信息不尽相同,不同品牌的设备差异明显,可以用频谱单一特征来有效的进行区分,而相同品牌不同型号的设备虽然存在差异,但较为相似,单一的频谱特征难以准确实现不同品牌手机的类内识别。
发明内容
本发明所要解决的技术问题是提供一种基于语音频谱融合特征的手机来源识别方法,其识别准确率高、稳定性好,且泛化能力强。
本发明解决上述技术问题所采用的技术方案为:一种基于语音频谱融合特征的手机来源识别方法,其特征在于包括以下步骤:
①利用M个不同主流品牌不同主流型号的手机,获得N个人的每人对应的P个语音样本,将每个手机对应的共N×P个语音样本构成一个语音库;其中,M>1,N≥1,1≤P≤10;
②对每个手机对应的语音库中的每个语音样本进行分帧加窗处理,得到每个手机对应的语音库中的每个语音样本的T帧;然后对每个手机对应的语音库中的每个语音样本中的每帧进行快速傅里叶变换,得到每个手机对应的语音库中的每个语音样本中的每帧的J个频率点各自的频率值;接着在频域计算每个手机对应的语音库中的每个语音样本中的每帧的前
Figure GDA0001412767240000031
个频率点中的每个频率点的频率值的幅值,将第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值的幅值记为||xm,p,t(k)||,
Figure GDA0001412767240000032
其中,对每个手机对应的语音库中的每个语音样本进行分帧加窗处理时所采用的窗函数选择汉明窗窗函数,T>1,J为快速傅里叶变换的点数,J的取值为512或1024,1≤m≤M,1≤p≤N×P,1≤t≤T,
Figure GDA0001412767240000033
xm,p,t(k)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值,
Figure GDA0001412767240000034
为xm,p,t(k)的共扼;
③计算每个手机对应的语音库中的每个语音样本的所有帧的前
Figure GDA0001412767240000035
个频率点中的每个频率点的频率值的幅值沿时间轴的统计平均值,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的频率值的幅值沿时间轴的统计平均值记为xm,p(k),
Figure GDA0001412767240000036
然后计算每个手机对应的语音库中的每个语音样本的所有帧的前
Figure GDA0001412767240000037
个频率点中的每个频率点的概率,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的概率记为prm,p(k),
Figure GDA0001412767240000038
再计算每个手机对应的语音库中的每个语音样本的所有帧的前
Figure GDA0001412767240000039
个频率点中的每个频率点的统计平均信息量特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均信息量特征记为Im,p(k),Im,p(k)=-log2(prm,p(k));
计算每个手机对应的语音库中的每个语音样本的所有帧的前
Figure GDA00014127672400000310
个频率点中的每个频率点的统计平均对数谱特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均对数谱特征记为Lm,p(k),
Figure GDA00014127672400000311
其中,eps为一个用于防止||xm,p,t(k)||+eps为0的随机正数;
计算每个手机对应的语音库中的每个语音样本的所有帧的前
Figure GDA0001412767240000041
个频率点中的每个频率点的统计平均相位谱特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均相位谱特征记为
Figure GDA0001412767240000042
其中,
Figure GDA0001412767240000043
表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的相位谱特征,
Figure GDA0001412767240000044
tan-1()为求反正切函数,sin()为求正弦函数,cos()为求余弦函数,xm,p,t(q)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第q个频率点的频率值,1≤q≤J;
④将每个手机对应的语音库中的每个语音样本的所有帧的前
Figure GDA0001412767240000045
个频率点的统计平均信息量特征、统计平均对数谱特征、统计平均相位谱特征按序排列组成一个维数为
Figure GDA0001412767240000046
的行向量,作为每个手机对应的语音库中的每个语音样本的频谱融合特征,将第m个手机对应的语音库中的第p个语音样本的频谱融合特征记为Rm,p
Figure GDA0001412767240000047
;然后将所有手机对应的语音库中的所有语音样本的频谱融合特征组成一个维数为
Figure GDA0001412767240000048
的频谱融合特征矩阵;接着对频谱融合特征矩阵中的每个元素进行归一化处理;之后利用BestFirst搜索算法和CfsSubsetEval属性评估算法,对归一化后的频谱融合特征矩阵进行特征选择,得到一个最优特征矩阵,最优特征矩阵的行数为M×N×P行、列数大于1且小于
Figure GDA0001412767240000049
再将最优特征矩阵中的每一行作为对应的语音样本的最终频谱融合特征;其中,Im,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均信息量特征,
Figure GDA00014127672400000410
表示第m个手机对应的语音库中的第p个语音样本的所有帧的第
Figure GDA0001412767240000051
个频率点的统计平均信息量特征,Lm,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均对数谱特征,
Figure GDA0001412767240000052
表示第m个手机对应的语音库中的第p个语音样本的所有帧的第
Figure GDA0001412767240000053
个频率点的统计平均对数谱特征,
Figure GDA0001412767240000054
表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均相位谱特征,
Figure GDA0001412767240000055
表示第m个手机对应的语音库中的第p个语音样本的所有帧的第
Figure GDA0001412767240000056
个频率点的统计平均相位谱特征;
⑤按照网格化方法对基于径向基核函数的LibSVM中的惩罚系数和伽马系数进行交叉验证,得到惩罚系数和伽马系数的组合的最优值;然后根据惩罚系数和伽马系数的组合的最优值,对M×N×P个语音样本的最终频谱融合特征以K-折交叉验证方式进行模型训练和测试样本识别;其中,K-折交叉验证中的参数K的取值范围为大于或等于2。
所述的步骤①的具体过程为:取M个不同主流品牌不同主流型号的手机,并选取N个不同年龄不同性别的人;然后利用M个手机同时采集每个人用正常的语速朗读固定内容的语音,每个手机共采集到N个语音,M个手机共采集到M×N个语音,要求每个语音的时长至少为3分钟;接着将每个手机采集到的每个语音转换成wav格式语音;之后将每个手机对应的每个wav格式语音分割成3~10秒的语音片段,并取每个手机对应的每个wav格式语音的P个语音片段作为语音样本;再将每个手机对应的共N×P个语音样本构成一个语音库;其中,M>1,N≥1,1≤P≤10。
所述的步骤①的具体过程为:利用M个不同主流品牌不同主流型号的手机,同时采集由高保真音箱回放的TIMIT库中N个人的每人P个3秒的语句作为语音样本;再将每个手机对应的共N×P个语音样本构成一个语音库;其中,M>1,N≥1,1≤P≤10。
与现有技术相比,本发明的优点在于:
1)本发明方法在充分分析频谱特性的前提下,分别提高了频谱幅度谱特征在高频和低频部分所包含的设备之间的差异性,进而有效提取了频谱幅度谱的高频和低频部分的特征,考虑到频谱是由幅度谱和相位谱构成,又提取了频谱的相位谱特征,因此本发明方法所提的频谱融合特征较为全面的包含了频谱各个方面的差异性特征,使得所提频谱融合特征的泛化推广能力大大提高,能更好的进行手机的分类,通过大量实验验证本发明方法在两个语音库上的识别率均达到99%以上。
2)以往的手机来源识别方法大都都是基于语音样本频谱的单一特征的,单一特征的泛化能力差,随着相同品牌手机型号的增多和手机语音采集处理配件性能的提高,以往的手机来源识别方法的识别准确率难以保证,而本发明方法是在充分考虑频谱特性的前提下提出的频谱融合特征,频谱融合特征包含的设备差异性信息更加全面,能够适应更多种类手机的识别,因此本发明方法的识别性能也更加稳定。
3)本发明方法中构建的频谱融合特征比较简单,且对频谱融合特征矩阵降维后,数据计算量大大减小,计算效率高,计算复杂度低。
附图说明
图1为本发明方法的总体实现框图;
图2a为HTC D610t手机对应的统计平均信息量特征的折线图;
图2b为华为荣耀6手机对应的统计平均信息量特征的折线图;
图2c为苹果4s手机对应的统计平均信息量特征的折线图;
图2d为苹果5手机对应的统计平均信息量特征的折线图;
图2e为魅族MX4手机对应的统计平均信息量特征的折线图;
图2f为小米4手机对应的统计平均信息量特征的折线图;
图2g为OPPO一加手机对应的统计平均信息量特征的折线图;
图2h为三星盖乐世note2手机对应的统计平均信息量特征的折线图;
图3a为HTC D610t手机对应的统计平均对数谱特征的折线图;
图3b为华为荣耀6手机对应的统计平均对数谱特征的折线图;
图3c为苹果4s手机对应的统计平均对数谱特征的折线图;
图3d为苹果5手机对应的统计平均对数谱特征的折线图;
图3e为魅族MX4手机对应的统计平均对数谱特征的折线图;
图3f为小米4手机对应的统计平均对数谱特征的折线图;
图3g为OPPO一加手机对应的统计平均对数谱特征的折线图;
图3h为三星盖乐世note2手机对应的统计平均对数谱特征的折线图;
图4a为HTC D610t手机对应的统计平均相位谱特征的折线图;
图4b为华为荣耀6手机对应的统计平均相位谱特征的折线图;
图4c为苹果4s手机对应的统计平均相位谱特征的折线图;
图4d为苹果5手机对应的统计平均相位谱特征的折线图;
图4e为魅族MX4手机对应的统计平均相位谱特征的折线图;
图4f为小米4手机对应的统计平均相位谱特征的折线图;
图4g为OPPO一加手机对应的统计平均相位谱特征的折线图;
图4h为三星盖乐世note2手机对应的统计平均相位谱特征的折线图;
图5为不同语音频谱单一特征的各设备的识别准确率折线对比图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于语音频谱融合特征的手机来源识别方法,其总体实现框图如图1所示,其包括以下步骤:
①利用M个不同主流品牌不同主流型号的手机,获得N个人的每人对应的P个语音样本,将每个手机对应的共N×P个语音样本构成一个语音库;其中,M>1,N≥1,1≤P≤10。
在此具体实施例中,步骤①的具体过程为:取M个不同主流品牌不同主流型号的手机,并选取N个不同年龄不同性别的人;然后利用M个手机同时采集每个人用正常的语速朗读固定内容的语音,每个手机共采集到N个语音,M个手机共采集到M×N个语音,要求每个语音的时长至少为3分钟;接着将每个手机采集到的每个语音转换成wav格式语音;之后将每个手机对应的每个wav格式语音分割成3~10秒的语音片段,并取每个手机对应的每个wav格式语音的P个语音片段作为语音样本;再将每个手机对应的共N×P个语音样本构成一个语音库;其中,M>1,N≥1,1≤P≤10,在本实施例中取M=23,取N=12,包括6个不同年龄的男性参与者,6个不同年龄的女性参与者,取P=10,每个语音的采集环境安静,在本实施例中选择一间安静的办公室。或步骤①的具体过程为:利用M个不同主流品牌不同主流型号的手机,同时采集由高保真音箱回放的TIMIT库中N个人的每人P个3秒的语句作为语音样本;再将每个手机对应的共N×P个语音样本构成一个语音库;其中,M>1,N≥1,1≤P≤10,在本实施例中取M=23,取N=12,取P=10。
②对每个手机对应的语音库中的每个语音样本进行分帧加窗处理,得到每个手机对应的语音库中的每个语音样本的T帧;然后对每个手机对应的语音库中的每个语音样本中的每帧进行快速傅里叶变换,得到每个手机对应的语音库中的每个语音样本中的每帧的J个频率点各自的频率值;接着在频域计算每个手机对应的语音库中的每个语音样本中的每帧的前
Figure GDA0001412767240000081
个频率点中的每个频率点的频率值的幅值,将第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值的幅值记为||xm,p,t(k)||,
Figure GDA0001412767240000082
其中,对每个手机对应的语音库中的每个语音样本进行分帧加窗处理时所采用的窗函数选择汉明窗窗函数,T>1,J为快速傅里叶变换的点数,J的取值为512或1024,1≤m≤M,1≤p≤N×P,1≤t≤T,
Figure GDA0001412767240000083
xm,p,t(k)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值,
Figure GDA0001412767240000084
为xm,p,t(k)的共扼;由于快速傅里叶变换的对称性,因此在频域只需对前
Figure GDA0001412767240000085
个频率点中的每个频率点进行处理即可。
③计算每个手机对应的语音库中的每个语音样本的所有帧的前
Figure GDA0001412767240000086
个频率点中的每个频率点的频率值的幅值沿时间轴的统计平均值,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的频率值的幅值沿时间轴的统计平均值记为xm,p(k),
Figure GDA0001412767240000087
然后计算每个手机对应的语音库中的每个语音样本的所有帧的前
Figure GDA0001412767240000088
个频率点中的每个频率点的概率,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的概率记为prm,p(k),
Figure GDA0001412767240000089
再计算每个手机对应的语音库中的每个语音样本的所有帧的前
Figure GDA00014127672400000810
个频率点中的每个频率点的统计平均信息量特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均信息量特征记为Im,p(k),Im,p(k)=-log2(prm,p(k))。
计算每个手机对应的语音库中的每个语音样本的所有帧的前
Figure GDA0001412767240000091
个频率点中的每个频率点的统计平均对数谱特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均对数谱特征记为Lm,p(k),
Figure GDA0001412767240000092
其中,eps为一个用于防止||xm,p,t(k)||+eps为0的随机正数,eps的数量级是10的-16次方。
计算每个手机对应的语音库中的每个语音样本的所有帧的前
Figure GDA0001412767240000093
个频率点中的每个频率点的统计平均相位谱特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均相位谱特征记为
Figure GDA0001412767240000094
其中,
Figure GDA0001412767240000095
表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的相位谱特征,
Figure GDA0001412767240000096
tan-1()为求反正切函数,sin()为求正弦函数,cos()为求余弦函数,xm,p,t(q)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第q个频率点的频率值,1≤q≤J。
图2a给出了HTC D610t手机对应的统计平均信息量特征的折线图,图2b给出了华为荣耀6手机对应的统计平均信息量特征的折线图,图2c给出了苹果4s手机对应的统计平均信息量特征的折线图,图2d给出了苹果5手机对应的统计平均信息量特征的折线图,图2e给出了魅族MX4手机对应的统计平均信息量特征的折线图,图2f给出了小米4手机对应的统计平均信息量特征的折线图,图2g给出了OPPO一加手机对应的统计平均信息量特征的折线图,图2h给出了三星盖乐世note2手机对应的统计平均信息量特征的折线图。从图2a至图2h中可以看出,不同品牌手机对应的统计平均信息量特征的折线图存在很大差异,虽然相同品牌不同型号的手机的特征曲线图较为相似,但可以发现第10~20维特征可以做到相同品牌不同型号的设备区分。
图3a给出了HTC D610t手机对应的统计平均对数谱特征的折线图,图3b给出了华为荣耀6手机对应的统计平均对数谱特征的折线图,图3c给出了苹果4s手机对应的统计平均对数谱特征的折线图,图3d给出了苹果5手机对应的统计平均对数谱特征的折线图,图3e给出了魅族MX4手机对应的统计平均对数谱特征的折线图,图3f给出了小米4手机对应的统计平均对数谱特征的折线图,图3g给出了OPPO一加手机对应的统计平均对数谱特征的折线图,图3h给出了三星盖乐世note2手机对应的统计平均对数谱特征的折线图。从图3a至图3h中可以看出,不同品牌手机对应的统计平均对数谱特征折线图存在很大差异,虽然相同品牌不同型号的手机的特征曲线图较为相似,但可以发现第8~10维特征可以做到相同品牌不同型号的设备区分。
图4a给出了HTC D610t手机对应的统计平均相位谱特征的折线图,图4b给出了华为荣耀6手机对应的统计平均相位谱特征的折线图,图4c给出了苹果4s手机对应的统计平均相位谱特征的折线图,图4d给出了苹果5手机对应的统计平均相位谱特征的折线图,图4e给出了魅族MX4手机对应的统计平均相位谱特征的折线图,图4f给出了小米4手机对应的统计平均相位谱特征的折线图,图4g给出了OPPO一加手机对应的统计平均相位谱特征的折线图,图4h给出了三星盖乐世note2手机对应的统计平均相位谱特征的折线图。从图4a至图4h中可以看出,可以看出不同品牌手机对应的统计平均相位谱特征的折线图差异明显,相同品牌不同型号的手机设备的相位谱特征虽然较不同品牌差异小,但可以进行分类判别,相位谱特征是语音手机来源识别的有效特征。
④将每个手机对应的语音库中的每个语音样本的所有帧的前
Figure GDA0001412767240000101
个频率点的统计平均信息量特征、统计平均对数谱特征、统计平均相位谱特征按序排列组成一个维数为
Figure GDA0001412767240000102
的行向量,作为每个手机对应的语音库中的每个语音样本的频谱融合特征,将第m个手机对应的语音库中的第p个语音样本的频谱融合特征记为Rm,p
Figure GDA0001412767240000103
;然后将所有手机对应的语音库中的所有语音样本的频谱融合特征组成一个维数为
Figure GDA0001412767240000104
的频谱融合特征矩阵;接着采用常规技术对频谱融合特征矩阵中的每个元素进行归一化处理;由于频谱融合特征矩阵的维数太大,可能会导致频谱融合特征不能完全独立不相关,冗余的频谱融合特征不能提升识别的准确率,甚至会影响性能,提高计算复杂度,因此之后利用BestFirst搜索算法和CfsSubsetEval属性评估算法,对归一化后的频谱融合特征矩阵进行特征选择以降维,得到一个最优特征矩阵,最优特征矩阵的行数为M×N×P行、列数大于1且小于
Figure GDA0001412767240000111
再将最优特征矩阵中的每一行作为对应的语音样本的最终频谱融合特征;其中,Im,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均信息量特征,
Figure GDA0001412767240000112
表示第m个手机对应的语音库中的第p个语音样本的所有帧的第
Figure GDA0001412767240000113
个频率点的统计平均信息量特征,Lm,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均对数谱特征,
Figure GDA0001412767240000114
表示第m个手机对应的语音库中的第p个语音样本的所有帧的第
Figure GDA0001412767240000115
个频率点的统计平均对数谱特征,
Figure GDA0001412767240000116
表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均相位谱特征,
Figure GDA0001412767240000117
表示第m个手机对应的语音库中的第p个语音样本的所有帧的第
Figure GDA0001412767240000118
个频率点的统计平均相位谱特征。
⑤按照网格化方法对基于径向基核函数的LibSVM中的惩罚系数和伽马系数进行交叉验证,得到惩罚系数和伽马系数的组合的最优值;然后根据惩罚系数和伽马系数的组合的最优值,对M×N×P个语音样本的最终频谱融合特征以K-折交叉验证方式进行模型训练和测试样本识别;其中,网格化方法采用5×5的网格,惩罚系数的取值范围为20到50,伽马系数的取值范围是0.1到2,K-折交叉验证中的参数K的取值范围为大于或等于2,如取K=5,当K=5时将所有语音样本的最终频谱融合特征平均分成五份,其中一份用于测试,剩余的用于训练,轮流选择一份用于测试,执行5次,使每一份用于测试一次。
为了进一步说明本发明方法的可行性和有效性,对本发明方法进行实验验证。
在实验中,建立每个手机对应的一个语音库,来有效的评估本发明方法的可行性和有效性。表1列出了实验所采用的23个手机的品牌和型号,利用该23个手机采集语音样本。邀请12个参与者(6男6女)参与语音采集;每个参与者需要用正常的语速朗读固定内容,时长保证3分钟以上;录音环境是一间相对安静的办公室,23个手机同时打开和关闭录音机;每个手机采集了12个参与者的语音,将每个语音分割成3秒的语音片段,取10个语音片段,每个手机得到120个语音样本,构成该手机对应的语音库,作为第一语音库(CKC-SD)。同样,利用该23个手机同时采集由高保真音箱回放的TIMIT库中12个人的每人10段3秒的语句作为语音样本;再将每个手机得到的120个语音样本构成一个语音库,作为第二语音库(TIMIT)。设定帧长为1024,帧移为512,采用的窗函数是汉明窗窗函数,快速傅里叶变换的点数为1024。
表1实验中所采用的手机的品牌和型号以及类名
Figure GDA0001412767240000121
按照步骤①至步骤④的过程,分别获取第一语音库和第二语音库中的每个语音样本的最终频谱融合特征;然后按照网格化方法对基于径向基核函数的LibSVM中的惩罚系数和伽马系数进行交叉验证,得到惩罚系数和伽马系数的组合的最优值;接着根据惩罚系数和伽马系数的组合的最优值,分别对第一语音库和第二语音库中的所有语音样本的最终频谱融合特征以五折交叉验证方式进行模型训练和测试样本识别。
表2列出了23个手机在第一语音库上的识别率,从表2所列的数据可计算得到平均识别准确率为99.91%。本发明方法可以较好的完成23个手机的分类识别,iPhone品牌类内的识别率相对较差,其主要误判来自品牌类内区分,iPhone 5s的识别率最低为98.5%,iPhone 6的识别率依次为99.5%,可能存在的原因是iPhone品牌内部不同信号的手机采集的语音所包含的频谱特征差异度较小,其他手机可以进行无差错分类。
表3列出了23个手机在第二语音库上的识别率,从表3所列的数据可计算得到平均识别准确率为99.96%。本发明方法可以较好的完成23个手机的分类识别,其中HTC D610t和HTC D820t的识别率为99.5%,其主要误判来自同品牌类内的区分,可能原因是相同品牌内手机语音特征的区分性较不同品牌间手机语音特征的区分性小,更容易被混淆,其他手机可以做到无差错分类。
表2频谱融合特征在第一语音库上的识别准确率(%)
Figure GDA0001412767240000131
表3频谱融合特征在第二语音库上的识别准确率(%)
Figure GDA0001412767240000141
为了研究频谱融合特征较语音频谱单一特征识别性能的优劣,表4给出了统计平均信息量特征、统计平均对数谱特征、统计平均相位谱特征在第一语音库和第二语音库上的实验结果。从表4中可以看出统计平均信息量特征和统计平均对数谱特征在本发明方法所用语音库上有较好的识别效果,而统计平均相位谱特征的识别效果相对较差,本发明方法所提频谱融合特征的识别准确率要优于语音频谱单一特征的识别准确率。另外,由表4可得降维后语音频谱单一特征在第二语音库上的特征维数和识别准确率均略高于第一语音库,这一规律与频谱融合特征在两个语音库上的表现相互印证,可以得出所构建的语音频谱单一特征和频谱融合特征在第二语音库上的分类性能要略优于第一语音库的结论。
表4语音频谱单一特征的语音设备来源识别结果
Figure GDA0001412767240000151
为了直观的研究不同特征对各设备识别准确率的影响,图5给出了不同语音频谱单一特征的各设备的识别准确率折线对比图。从图5中可以看出,语音频谱单一特征在第二语音库上的识别准确率除HTC品牌以外,基本都优于该特征在第一语音库上的识别准确率。三组语音频谱单一特征中统计平均对数谱特征和统计平均信息量特征对各个设备均有较好的识别准确率,而统计平均相位谱特征在HTC和iPhone上识别准确率较差,统计平均相位谱特征对各设备的识别准确率较另外两组特征也略差,可能的原因是不同设备对语音的影响更多的反映在对语音幅度增强的程度不同上,频谱的相位谱信息含有的设备差异性信息较少。综合来看各特征在语音库上的主要误判来自于iPhone和HTC两个品牌的设备的类内区分判别,可能造成此结果的原因是这两款设备的频谱特征的区分性相对较小。

Claims (3)

1.一种基于语音频谱融合特征的手机来源识别方法,其特征在于包括以下步骤:
①利用M个不同的手机,获得N个人的每人对应的P个语音样本,将每个手机对应的共N×P个语音样本构成一个语音库;其中,M>1,N≥1,1≤P≤10;
②对每个手机对应的语音库中的每个语音样本进行分帧加窗处理,得到每个手机对应的语音库中的每个语音样本的T帧;然后对每个手机对应的语音库中的每个语音样本中的每帧进行快速傅里叶变换,得到每个手机对应的语音库中的每个语音样本中的每帧的J个频率点各自的频率值;接着在频域计算每个手机对应的语音库中的每个语音样本中的每帧的前
Figure FDA0002759820200000011
个频率点中的每个频率点的频率值的幅值,将第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值的幅值记为||xm,p,t(k)||,
Figure FDA0002759820200000012
其中,对每个手机对应的语音库中的每个语音样本进行分帧加窗处理时所采用的窗函数选择汉明窗窗函数,T>1,J为快速傅里叶变换的点数,J的取值为512或1024,1≤m≤M,1≤p≤N×P,1≤t≤T,
Figure FDA0002759820200000013
xm,p,t(k)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值,
Figure FDA0002759820200000014
为xm,p,t(k)的共扼;
③计算每个手机对应的语音库中的每个语音样本的所有帧的前
Figure FDA0002759820200000015
个频率点中的每个频率点的频率值的幅值沿时间轴的统计平均值,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的频率值的幅值沿时间轴的统计平均值记为xm,p(k),
Figure FDA0002759820200000016
然后计算每个手机对应的语音库中的每个语音样本的所有帧的前
Figure FDA0002759820200000017
个频率点中的每个频率点的概率,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的概率记为prm,p(k),
Figure FDA0002759820200000018
再计算每个手机对应的语音库中的每个语音样本的所有帧的前
Figure FDA0002759820200000019
个频率点中的每个频率点的统计平均信息量特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均信息量特征记为Im,p(k),Im,p(k)=-log2(prm,p(k));
计算每个手机对应的语音库中的每个语音样本的所有帧的前
Figure FDA0002759820200000021
个频率点中的每个频率点的统计平均对数谱特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均对数谱特征记为Lm,p(k),
Figure FDA0002759820200000022
其中,eps为一个用于防止||xm,p,t(k)||+eps为0的随机正数;
计算每个手机对应的语音库中的每个语音样本的所有帧的前
Figure FDA0002759820200000023
个频率点中的每个频率点的统计平均相位谱特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均相位谱特征记为
Figure FDA0002759820200000024
其中,
Figure FDA0002759820200000025
表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的相位谱特征,
Figure FDA0002759820200000026
tan-1()为求反正切函数,sin()为求正弦函数,cos()为求余弦函数,xm,p,t(q)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第q个频率点的频率值,1≤q≤J;
④将每个手机对应的语音库中的每个语音样本的所有帧的前
Figure FDA0002759820200000027
个频率点的统计平均信息量特征、统计平均对数谱特征、统计平均相位谱特征按序排列组成一个维数为
Figure FDA0002759820200000028
的行向量,作为每个手机对应的语音库中的每个语音样本的频谱融合特征,将第m个手机对应的语音库中的第p个语音样本的频谱融合特征记为Rm,p
Figure FDA0002759820200000029
;然后将所有手机对应的语音库中的所有语音样本的频谱融合特征组成一个维数为
Figure FDA0002759820200000031
的频谱融合特征矩阵;接着对频谱融合特征矩阵中的每个元素进行归一化处理;之后利用BestFirst搜索算法和CfsSubsetEval属性评估算法,对归一化后的频谱融合特征矩阵进行特征选择,得到一个最优特征矩阵,最优特征矩阵的行数为M×N×P行、列数大于1且小于
Figure FDA0002759820200000032
再将最优特征矩阵中的每一行作为对应的语音样本的最终频谱融合特征;其中,Im,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均信息量特征,
Figure FDA0002759820200000033
表示第m个手机对应的语音库中的第p个语音样本的所有帧的第
Figure FDA0002759820200000034
个频率点的统计平均信息量特征,Lm,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均对数谱特征,
Figure FDA0002759820200000035
表示第m个手机对应的语音库中的第p个语音样本的所有帧的第
Figure FDA0002759820200000036
个频率点的统计平均对数谱特征,
Figure FDA0002759820200000037
表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均相位谱特征,
Figure FDA0002759820200000038
表示第m个手机对应的语音库中的第p个语音样本的所有帧的第
Figure FDA0002759820200000039
个频率点的统计平均相位谱特征;
⑤按照网格化方法对基于径向基核函数的LibSVM中的惩罚系数和伽马系数进行交叉验证,得到惩罚系数和伽马系数的组合的最优值;然后根据惩罚系数和伽马系数的组合的最优值,对M×N×P个语音样本的最终频谱融合特征以K-折交叉验证方式进行模型训练和测试样本识别;其中,网格化方法采用5×5的网格,惩罚系数的取值范围为20到50,伽马系数的取值范围是0.1到2,K-折交叉验证中的参数K的取值范围为大于或等于2。
2.根据权利要求1所述的一种基于语音频谱融合特征的手机来源识别方法,其特征在于所述的步骤①的具体过程为:取M个不同的手机,并选取N个不同年龄不同性别的人;然后利用M个手机同时采集每个人用正常的语速朗读固定内容的语音,每个手机共采集到N个语音,M个手机共采集到M×N个语音,要求每个语音的时长至少为3分钟;接着将每个手机采集到的每个语音转换成wav格式语音;之后将每个手机对应的每个wav格式语音分割成3~10秒的语音片段,并取每个手机对应的每个wav格式语音的P个语音片段作为语音样本;再将每个手机对应的共N×P个语音样本构成一个语音库。
3.根据权利要求1所述的一种基于语音频谱融合特征的手机来源识别方法,其特征在于所述的步骤①的具体过程为:利用M个不同的手机,同时采集由高保真音箱回放的TIMIT库中N个人的每人P个3秒的语句作为语音样本;再将每个手机对应的共N×P个语音样本构成一个语音库。
CN201710550925.7A 2017-07-07 2017-07-07 一种基于语音频谱融合特征的手机来源识别方法 Active CN107507626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710550925.7A CN107507626B (zh) 2017-07-07 2017-07-07 一种基于语音频谱融合特征的手机来源识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710550925.7A CN107507626B (zh) 2017-07-07 2017-07-07 一种基于语音频谱融合特征的手机来源识别方法

Publications (2)

Publication Number Publication Date
CN107507626A CN107507626A (zh) 2017-12-22
CN107507626B true CN107507626B (zh) 2021-02-19

Family

ID=60679658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710550925.7A Active CN107507626B (zh) 2017-07-07 2017-07-07 一种基于语音频谱融合特征的手机来源识别方法

Country Status (1)

Country Link
CN (1) CN107507626B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831443B (zh) * 2018-06-25 2020-07-21 华中师范大学 一种基于堆叠自编码网络的移动录音设备源识别方法
CN109285538B (zh) * 2018-09-19 2022-12-27 宁波大学 一种基于常q变换域的加性噪声环境下手机来源识别方法
CN110136746B (zh) * 2019-03-26 2021-11-09 宁波大学 一种基于融合特征的加性噪声环境下手机来源识别方法
CN110415707B (zh) * 2019-04-12 2021-11-26 杭州电子科技大学 一种基于语音特征融合和gmm的说话人识别方法
CN110534101B (zh) * 2019-08-27 2022-02-22 华中师范大学 一种基于多模融合深度特征的移动设备源识别方法及系统
CN110569764B (zh) * 2019-08-28 2023-12-22 北京工业大学 一种基于卷积神经网络的手机型号识别方法
CN110728991B (zh) * 2019-09-06 2022-03-01 南京工程学院 一种改进的录音设备识别算法
CN116682453B (zh) * 2023-07-31 2023-10-27 深圳市东微智能科技股份有限公司 语音处理方法、装置、设备及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107650A (ja) * 2009-11-20 2011-06-02 Casio Computer Co Ltd 音声特徴量算出装置、音声特徴量算出方法及び音声特徴量算出プログラム並びに音声認識装置
CN102394062A (zh) * 2011-10-26 2012-03-28 华南理工大学 一种自动录音设备源识别的方法和系统
CN104409073A (zh) * 2014-11-04 2015-03-11 贵阳供电局 一种变电设备声音与语音的识别方法
CN105632516A (zh) * 2016-01-13 2016-06-01 宁波大学 一种基于边信息统计特性的mp3录音文件来源识别方法
CN105845132A (zh) * 2016-03-22 2016-08-10 宁波大学 一种基于编码参数统计特性的aac录音文件来源识别方法
CN106409298A (zh) * 2016-09-30 2017-02-15 广东技术师范学院 一种声音重录攻击的识别方法
CN106531159A (zh) * 2016-12-09 2017-03-22 宁波大学 一种基于设备本底噪声频谱特征的手机来源识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107650A (ja) * 2009-11-20 2011-06-02 Casio Computer Co Ltd 音声特徴量算出装置、音声特徴量算出方法及び音声特徴量算出プログラム並びに音声認識装置
CN102394062A (zh) * 2011-10-26 2012-03-28 华南理工大学 一种自动录音设备源识别的方法和系统
CN104409073A (zh) * 2014-11-04 2015-03-11 贵阳供电局 一种变电设备声音与语音的识别方法
CN105632516A (zh) * 2016-01-13 2016-06-01 宁波大学 一种基于边信息统计特性的mp3录音文件来源识别方法
CN105845132A (zh) * 2016-03-22 2016-08-10 宁波大学 一种基于编码参数统计特性的aac录音文件来源识别方法
CN106409298A (zh) * 2016-09-30 2017-02-15 广东技术师范学院 一种声音重录攻击的识别方法
CN106531159A (zh) * 2016-12-09 2017-03-22 宁波大学 一种基于设备本底噪声频谱特征的手机来源识别方法

Also Published As

Publication number Publication date
CN107507626A (zh) 2017-12-22

Similar Documents

Publication Publication Date Title
CN107507626B (zh) 一种基于语音频谱融合特征的手机来源识别方法
CN109285538B (zh) 一种基于常q变换域的加性噪声环境下手机来源识别方法
US11869261B2 (en) Robust audio identification with interference cancellation
Nagrani et al. Voxceleb: a large-scale speaker identification dataset
CN107274916B (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
CN106531159B (zh) 一种基于设备本底噪声频谱特征的手机来源识别方法
CN108986824B (zh) 一种回放语音检测方法
CN109036382B (zh) 一种基于kl散度的音频特征提取方法
Luo et al. Band energy difference for source attribution in audio forensics
WO2020181824A1 (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
US11410674B2 (en) Method and device for recognizing state of meridian
US9058384B2 (en) System and method for identification of highly-variable vocalizations
Paul et al. Countermeasure to handle replay attacks in practical speaker verification systems
Hanilçi et al. Optimizing acoustic features for source cell-phone recognition using speech signals
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
Chakroun et al. Robust features for text-independent speaker recognition with short utterances
CN110189767B (zh) 一种基于双声道音频的录制移动设备检测方法
CN111737515B (zh) 音频指纹提取方法、装置、计算机设备和可读存储介质
Guzman-Zavaleta et al. A robust audio fingerprinting method using spectrograms saliency maps
Pandey et al. Cell-phone identification from audio recordings using PSD of speech-free regions
Huang et al. Identification of VoIP speech with multiple domain deep features
Verma et al. CNN-based System for Speaker Independent Cell-Phone Identification from Recorded Audio.
Köpüklü et al. ResectNet: An Efficient Architecture for Voice Activity Detection on Mobile Devices.
CN111859008A (zh) 一种推荐音乐的方法及终端
Verma et al. Cell-phone identification from recompressed audio recordings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240126

Address after: 313200 Room 337, Building 3, No. 266, Zhenxing Road, Yuyue Town, Deqing County, Huzhou City, Zhejiang Province

Patentee after: Huzhou Chuangguan Technology Co.,Ltd.

Country or region after: China

Address before: 315211, Fenghua Road, Jiangbei District, Zhejiang, Ningbo 818

Patentee before: Ningbo University

Country or region before: China