CN107507626A

CN107507626A - 一种基于语音频谱融合特征的手机来源识别方法

Info

Publication number: CN107507626A
Application number: CN201710550925.7A
Authority: CN
Inventors: 王让定; 裴安山; 严迪群; 金超; 秦天芸
Original assignee: Ningbo University
Current assignee: Huzhou Chuangguan Technology Co ltd
Priority date: 2017-07-07
Filing date: 2017-07-07
Publication date: 2017-12-22
Anticipated expiration: 2037-07-07
Also published as: CN107507626B

Abstract

本发明公开了一种基于语音频谱融合特征的手机来源识别方法，其对每个手机对应的语音库中的每个语音样本中的每帧进行快速傅里叶变换，获取每帧的前一半加1个频率点的频率值的幅值；然后根据频率值及幅值，获取每个语音样本的统计平均信息量特征、统计平均对数谱特征和统计平均相位谱特征，组成频谱融合特征；接着将所有手机对应的所有语音样本的频谱融合特征组成频谱融合特征矩阵；之后对频谱融合特征矩阵进行归一化和特征选择，得到最优特征矩阵，即获得每个语音样本的最终频谱融合特征；最后对所有语音样本的最终频谱融合特征进行模型训练和测试样本识别；优点是识别准确率高、稳定性好，且泛化能力强。

Description

一种基于语音频谱融合特征的手机来源识别方法

技术领域

本发明涉及一种手机来源识别技术，尤其是涉及一种基于语音频谱融合特征的手机来源识别方法。

背景技术

如今，随着移动互联网和微芯片产业的快速发展，移动终端不再仅仅是一种通信设备，而是人们生活中不可或缺的部分。越来越多的人开始使用智能手机、PAD等便携设备捕捉和采集他们看到或听到的情景，而不是使用相机、录音笔、DV(Digital Video，数字视频)等专业设备。然而，大量的数字采集设备和采集数据的可用性带来了新的问题和挑战——多媒体的安全问题。作为一种检测多媒体数据独创性、真实性、完整性的技术，多媒体取证技术是信息安全领域的热点研究问题。

数字音频来源取证是对音频来源的真实性、完整性等进行验证的，是多媒体取证技术的重要研究内容。当一段录音样本被当作法庭证据时，对录音的来源的真实性和完整性的检测往往是必须的。近年来，数字音频来源取证引起了越来越多的关注，并获得了重大进展。如：Hanilci,C.,Ertas,F.,Ertas,T.,Eskidere,O.Recognition of brand andmodels of Cell-Phones from recorded speech signals.IEEE Trans.Inf.ForensicsSecurity.7(2), 625-634(2012)(基于录音信号的手机品牌和型号的识别，电气和电子工程师协会，多媒体取证和安全学报)中提出的一种通过提取录音文件的MFCC(MelFrequency Cepstrum Coefficient，梅尔频率倒谱系数)特征信息用于手机品牌和型号的识别的方法，其在14个不同型号的手机设备的闭集识别实验中，识别率可以达到96.42％。又如： Kotropoulos,C.Source phone identification using sketches offeatures.IET Biometrics.3(2): 75–83(2014)(基于特征稀疏表示的手机来源识别，英国工程技术学会，生物学报)中提出的方法，其通过对不同手机得到的录音文件的语音信号频谱取对数，然后沿时间轴取平均或者通过堆叠每一帧的特征参数并基于高斯混合模型建模得到大尺寸的特征向量，接着通过映射到低维空间进行降维，其在7个品牌21个型号的手机来源识别实验中，识别率可达到94％。还如：王志锋、贺前华、李艳雄提出的录音设备的建模和识别算法，其考虑到语音段中的静音包含了与正常语音一样的设备信息，并且不受说话人、文本、情感等因素的影响，因此从静音段中提出表征录音设备的特征，然后利用设备通用背景模型构建设备模型，最后通过归一化似然度得分对输入的录音设备的语音样本特征进行分类判决，实验结果表明，其对于9种不同设备的平均识别率为87.42％。

现有的大多数手机来源识别的研究都是基于语音频谱单一特征的，由于目前大多数的研究基于的语音数据库中设备种类和数量较少，设备型号陈旧，因此使得不同设备采集语音的差异性较大，从而使得相关特征在手机来源识别中取得了不错的效果。但是，当语音数据库中设备种类和数量达到一定程度之后，特别是随着相同品牌不同型号设备不断增加后，相关特征在手机来源识别中是否依旧能取得不错的效果呢？通过在现下主流的7个品牌23个型号的手机构建的语音数据库上，分析不同设备语音信号的语谱图，发现不同设备的频谱信息不尽相同，不同品牌的设备差异明显，可以用频谱单一特征来有效的进行区分，而相同品牌不同型号的设备虽然存在差异，但较为相似，单一的频谱特征难以准确实现不同品牌手机的类内识别。

发明内容

本发明所要解决的技术问题是提供一种基于语音频谱融合特征的手机来源识别方法，其识别准确率高、稳定性好，且泛化能力强。

本发明解决上述技术问题所采用的技术方案为：一种基于语音频谱融合特征的手机来源识别方法，其特征在于包括以下步骤：

①利用M个不同主流品牌不同主流型号的手机，获得N个人的每人对应的P个语音样本，将每个手机对应的共N×P个语音样本构成一个语音库；其中，M>1，N≥1， 1≤P≤10；

②对每个手机对应的语音库中的每个语音样本进行分帧加窗处理，得到每个手机对应的语音库中的每个语音样本的T帧；然后对每个手机对应的语音库中的每个语音样本中的每帧进行快速傅里叶变换，得到每个手机对应的语音库中的每个语音样本中的每帧的J个频率点各自的频率值；接着在频域计算每个手机对应的语音库中的每个语音样本中的每帧的前个频率点中的每个频率点的频率值的幅值，将第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值的幅值记为||x_m,p,t(k)||，其中，对每个手机对应的语音库中的每个语音样本进行分帧加窗处理时所采用的窗函数选择汉明窗窗函数，T>1，J为快速傅里叶变换的点数， J的取值为512或1024，1≤m≤M，1≤p≤N×P，1≤t≤T，x_m,p,t(k)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值，为x_m,p,t(k)的共扼；

③计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的频率值的幅值沿时间轴的统计平均值，将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的频率值的幅值沿时间轴的统计平均值记为 x_m,_p(k)，然后计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的概率，将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的概率记为pr_m,p(k)，再计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的统计平均信息量特征，将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均信息量特征记为I_m,p(k)，I_m,p(k)＝-log₂(pr_m,p(k))；

计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的统计平均对数谱特征，将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均对数谱特征记为L_m,p(k)，其中，eps为一个用于防止||x_m,p,t(k)||+eps为0的随机正数；

计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的统计平均相位谱特征，将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均相位谱特征记为其中，表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的相位谱特征，tan^-1()为求反正切函数， sin()为求正弦函数，cos()为求余弦函数，x_m,p,t(q)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第q个频率点的频率值，1≤q≤J；

④将每个手机对应的语音库中的每个语音样本的所有帧的前个频率点的统计平均信息量特征、统计平均对数谱特征、统计平均相位谱特征按序排列组成一个维数为的行向量，作为每个手机对应的语音库中的每个语音样本的频谱融合特征，将第m个手机对应的语音库中的第p个语音样本的频谱融合特征记为R_m,p，；然后将所有手机对应的语音库中的所有语音样本的频谱融合特征组成一个维数为的频谱融合特征矩阵；接着对频谱融合特征矩阵中的每个元素进行归一化处理；之后利用BestFirst搜索算法和CfsSubsetEval属性评估算法，对归一化后的频谱融合特征矩阵进行特征选择，得到一个最优特征矩阵，最优特征矩阵的行数为 M×N×P行、列数大于1且小于再将最优特征矩阵中的每一行作为对应的语音样本的最终频谱融合特征；其中，I_m,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均信息量特征，表示第m个手机对应的语音库中的第p个语音样本的所有帧的第个频率点的统计平均信息量特征， L_m,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均对数谱特征，表示第m个手机对应的语音库中的第p个语音样本的所有帧的第个频率点的统计平均对数谱特征，表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均相位谱特征，表示第m个手机对应的语音库中的第p个语音样本的所有帧的第个频率点的统计平均相位谱特征；

⑤按照网格化方法对基于径向基核函数的LibSVM中的惩罚系数和伽马系数进行交叉验证，得到惩罚系数和伽马系数的组合的最优值；然后根据惩罚系数和伽马系数的组合的最优值，对M×N×P个语音样本的最终频谱融合特征以K-折交叉验证方式进行模型训练和测试样本识别；其中，K-折交叉验证中的参数K的取值范围为大于或等于2。

所述的步骤①的具体过程为：取M个不同主流品牌不同主流型号的手机，并选取N个不同年龄不同性别的人；然后利用M个手机同时采集每个人用正常的语速朗读固定内容的语音，每个手机共采集到N个语音，M个手机共采集到M×N个语音，要求每个语音的时长至少为3分钟；接着将每个手机采集到的每个语音转换成wav格式语音；之后将每个手机对应的每个wav格式语音分割成3～10秒的语音片段，并取每个手机对应的每个wav格式语音的P个语音片段作为语音样本；再将每个手机对应的共N×P个语音样本构成一个语音库；其中，M>1，N≥1，1≤P≤10。

所述的步骤①的具体过程为：利用M个不同主流品牌不同主流型号的手机，同时采集由高保真音箱回放的TIMIT库中N个人的每人P个3秒的语句作为语音样本；再将每个手机对应的共N×P个语音样本构成一个语音库；其中，M>1，N≥1，1≤P≤10。

与现有技术相比，本发明的优点在于：

1)本发明方法在充分分析频谱特性的前提下，分别提高了频谱幅度谱特征在高频和低频部分所包含的设备之间的差异性，进而有效提取了频谱幅度谱的高频和低频部分的特征，考虑到频谱是由幅度谱和相位谱构成，又提取了频谱的相位谱特征，因此本发明方法所提的频谱融合特征较为全面的包含了频谱各个方面的差异性特征，使得所提频谱融合特征的泛化推广能力大大提高，能更好的进行手机的分类，通过大量实验验证本发明方法在两个语音库上的识别率均达到99％以上。

2)以往的手机来源识别方法大都都是基于语音样本频谱的单一特征的，单一特征的泛化能力差，随着相同品牌手机型号的增多和手机语音采集处理配件性能的提高，以往的手机来源识别方法的识别准确率难以保证，而本发明方法是在充分考虑频谱特性的前提下提出的频谱融合特征，频谱融合特征包含的设备差异性信息更加全面，能够适应更多种类手机的识别，因此本发明方法的识别性能也更加稳定。

3)本发明方法中构建的频谱融合特征比较简单，且对频谱融合特征矩阵降维后，数据计算量大大减小，计算效率高，计算复杂度低。

附图说明

图1为本发明方法的总体实现框图；

图2a为HTC D610t手机对应的统计平均信息量特征的折线图；

图2b为华为荣耀6手机对应的统计平均信息量特征的折线图；

图2c为苹果4s手机对应的统计平均信息量特征的折线图；

图2d为苹果5手机对应的统计平均信息量特征的折线图；

图2e为魅族MX4手机对应的统计平均信息量特征的折线图；

图2f为小米4手机对应的统计平均信息量特征的折线图；

图2g为OPPO一加手机对应的统计平均信息量特征的折线图；

图2h为三星盖乐世note2手机对应的统计平均信息量特征的折线图；

图3a为HTC D610t手机对应的统计平均对数谱特征的折线图；

图3b为华为荣耀6手机对应的统计平均对数谱特征的折线图；

图3c为苹果4s手机对应的统计平均对数谱特征的折线图；

图3d为苹果5手机对应的统计平均对数谱特征的折线图；

图3e为魅族MX4手机对应的统计平均对数谱特征的折线图；

图3f为小米4手机对应的统计平均对数谱特征的折线图；

图3g为OPPO一加手机对应的统计平均对数谱特征的折线图；

图3h为三星盖乐世note2手机对应的统计平均对数谱特征的折线图；

图4a为HTC D610t手机对应的统计平均相位谱特征的折线图；

图4b为华为荣耀6手机对应的统计平均相位谱特征的折线图；

图4c为苹果4s手机对应的统计平均相位谱特征的折线图；

图4d为苹果5手机对应的统计平均相位谱特征的折线图；

图4e为魅族MX4手机对应的统计平均相位谱特征的折线图；

图4f为小米4手机对应的统计平均相位谱特征的折线图；

图4g为OPPO一加手机对应的统计平均相位谱特征的折线图；

图4h为三星盖乐世note2手机对应的统计平均相位谱特征的折线图；

图5为不同语音频谱单一特征的各设备的识别准确率折线对比图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于语音频谱融合特征的手机来源识别方法，其总体实现框图如图1所示，其包括以下步骤：

①利用M个不同主流品牌不同主流型号的手机，获得N个人的每人对应的P个语音样本，将每个手机对应的共N×P个语音样本构成一个语音库；其中，M>1，N≥1， 1≤P≤10。

在此具体实施例中，步骤①的具体过程为：取M个不同主流品牌不同主流型号的手机，并选取N个不同年龄不同性别的人；然后利用M个手机同时采集每个人用正常的语速朗读固定内容的语音，每个手机共采集到N个语音，M个手机共采集到M×N个语音，要求每个语音的时长至少为3分钟；接着将每个手机采集到的每个语音转换成 wav格式语音；之后将每个手机对应的每个wav格式语音分割成3～10秒的语音片段，并取每个手机对应的每个wav格式语音的P个语音片段作为语音样本；再将每个手机对应的共N×P个语音样本构成一个语音库；其中，M>1，N≥1，1≤P≤10，在本实施例中取M＝23，取N＝12，包括6个不同年龄的男性参与者，6个不同年龄的女性参与者，取P＝10，每个语音的采集环境安静，在本实施例中选择一间安静的办公室。或步骤①的具体过程为：利用M个不同主流品牌不同主流型号的手机，同时采集由高保真音箱回放的TIMIT库中N个人的每人P个3秒的语句作为语音样本；再将每个手机对应的共N×P个语音样本构成一个语音库；其中，M>1，N≥1，1≤P≤10，在本实施例中取M＝23，取N＝12，取P＝10。

②对每个手机对应的语音库中的每个语音样本进行分帧加窗处理，得到每个手机对应的语音库中的每个语音样本的T帧；然后对每个手机对应的语音库中的每个语音样本中的每帧进行快速傅里叶变换，得到每个手机对应的语音库中的每个语音样本中的每帧的J个频率点各自的频率值；接着在频域计算每个手机对应的语音库中的每个语音样本中的每帧的前个频率点中的每个频率点的频率值的幅值，将第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值的幅值记为||x_m,p,t(k)||，其中，对每个手机对应的语音库中的每个语音样本进行分帧加窗处理时所采用的窗函数选择汉明窗窗函数，T>1，J为快速傅里叶变换的点数， J的取值为512或1024，1≤m≤M，1≤p≤N×P，1≤t≤T，x_m,p,t(k)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值，为x_m,p,t(k)的共扼；由于快速傅里叶变换的对称性，因此在频域只需对前个频率点中的每个频率点进行处理即可。

③计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的频率值的幅值沿时间轴的统计平均值，将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的频率值的幅值沿时间轴的统计平均值记为 x_m,_p(k)，然后计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的概率，将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的概率记为pr_m,p(k)，再计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的统计平均信息量特征，将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均信息量特征记为I_m,p(k)，I_m,p(k)＝-log₂(pr_m,p(k))。

计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的统计平均对数谱特征，将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均对数谱特征记为L_m,p(k)，其中，eps为一个用于防止||x_m,p,t(k)||+eps为0的随机正数，eps的数量级是10的-16次方。

计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的统计平均相位谱特征，将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均相位谱特征记为其中，表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的相位谱特征，tan-1()为求反正切函数， sin()为求正弦函数，cos()为求余弦函数，x_m,p,t(q)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第q个频率点的频率值，1≤q≤J。

图2a给出了HTC D610t手机对应的统计平均信息量特征的折线图，图2b给出了华为荣耀6手机对应的统计平均信息量特征的折线图，图2c给出了苹果4s手机对应的统计平均信息量特征的折线图，图2d给出了苹果5手机对应的统计平均信息量特征的折线图，图2e给出了魅族MX4手机对应的统计平均信息量特征的折线图，图2f给出了小米4手机对应的统计平均信息量特征的折线图，图2g给出了OPPO一加手机对应的统计平均信息量特征的折线图，图2h给出了三星盖乐世note2手机对应的统计平均信息量特征的折线图。从图2a至图2h中可以看出，不同品牌手机对应的统计平均信息量特征的折线图存在很大差异，虽然相同品牌不同型号的手机的特征曲线图较为相似，但可以发现第10～20维特征可以做到相同品牌不同型号的设备区分。

图3a给出了HTC D610t手机对应的统计平均对数谱特征的折线图，图3b给出了华为荣耀6手机对应的统计平均对数谱特征的折线图，图3c给出了苹果4s手机对应的统计平均对数谱特征的折线图，图3d给出了苹果5手机对应的统计平均对数谱特征的折线图，图3e给出了魅族MX4手机对应的统计平均对数谱特征的折线图，图3f给出了小米4手机对应的统计平均对数谱特征的折线图，图3g给出了OPPO一加手机对应的统计平均对数谱特征的折线图，图3h给出了三星盖乐世note2手机对应的统计平均对数谱特征的折线图。从图3a至图3h中可以看出，不同品牌手机对应的统计平均对数谱特征折线图存在很大差异，虽然相同品牌不同型号的手机的特征曲线图较为相似，但可以发现第8～10维特征可以做到相同品牌不同型号的设备区分。

图4a给出了HTC D610t手机对应的统计平均相位谱特征的折线图，图4b给出了华为荣耀6手机对应的统计平均相位谱特征的折线图，图4c给出了苹果4s手机对应的统计平均相位谱特征的折线图，图4d给出了苹果5手机对应的统计平均相位谱特征的折线图，图4e给出了魅族MX4手机对应的统计平均相位谱特征的折线图，图4f给出了小米4手机对应的统计平均相位谱特征的折线图，图4g给出了OPPO一加手机对应的统计平均相位谱特征的折线图，图4h给出了三星盖乐世note2手机对应的统计平均相位谱特征的折线图。从图4a至图4h中可以看出，可以看出不同品牌手机对应的统计平均相位谱特征的折线图差异明显，相同品牌不同型号的手机设备的相位谱特征虽然较不同品牌差异小，但可以进行分类判别，相位谱特征是语音手机来源识别的有效特征。

④将每个手机对应的语音库中的每个语音样本的所有帧的前个频率点的统计平均信息量特征、统计平均对数谱特征、统计平均相位谱特征按序排列组成一个维数为的行向量，作为每个手机对应的语音库中的每个语音样本的频谱融合特征，将第m个手机对应的语音库中的第p个语音样本的频谱融合特征记为R_m,p，；然后将所有手机对应的语音库中的所有语音样本的频谱融合特征组成一个维数为的频谱融合特征矩阵；接着采用常规技术对频谱融合特征矩阵中的每个元素进行归一化处理；由于频谱融合特征矩阵的维数太大，可能会导致频谱融合特征不能完全独立不相关，冗余的频谱融合特征不能提升识别的准确率，甚至会影响性能，提高计算复杂度，因此之后利用BestFirst搜索算法和CfsSubsetEval属性评估算法，对归一化后的频谱融合特征矩阵进行特征选择以降维，得到一个最优特征矩阵，最优特征矩阵的行数为M×N×P行、列数大于1且小于再将最优特征矩阵中的每一行作为对应的语音样本的最终频谱融合特征；其中，I_m,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均信息量特征，表示第m个手机对应的语音库中的第p个语音样本的所有帧的第个频率点的统计平均信息量特征，L_m,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第 1个频率点的统计平均对数谱特征，表示第m个手机对应的语音库中的第p 个语音样本的所有帧的第个频率点的统计平均对数谱特征，表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均相位谱特征，表示第m个手机对应的语音库中的第p个语音样本的所有帧的第个频率点的统计平均相位谱特征。

⑤按照网格化方法对基于径向基核函数的LibSVM中的惩罚系数和伽马系数进行交叉验证，得到惩罚系数和伽马系数的组合的最优值；然后根据惩罚系数和伽马系数的组合的最优值，对M×N×P个语音样本的最终频谱融合特征以K-折交叉验证方式进行模型训练和测试样本识别；其中，网格化方法采用5×5的网格，惩罚系数的取值范围为 20到50，伽马系数的取值范围是0.1到2，K-折交叉验证中的参数K的取值范围为大于或等于2，如取K＝5，当K＝5时将所有语音样本的最终频谱融合特征平均分成五份，其中一份用于测试，剩余的用于训练，轮流选择一份用于测试，执行5次，使每一份用于测试一次。

为了进一步说明本发明方法的可行性和有效性，对本发明方法进行实验验证。

在实验中，建立每个手机对应的一个语音库，来有效的评估本发明方法的可行性和有效性。表1列出了实验所采用的23个手机的品牌和型号，利用该23个手机采集语音样本。邀请12个参与者(6男6女)参与语音采集；每个参与者需要用正常的语速朗读固定内容，时长保证3分钟以上；录音环境是一间相对安静的办公室，23个手机同时打开和关闭录音机；每个手机采集了12个参与者的语音，将每个语音分割成3秒的语音片段，取10个语音片段，每个手机得到120个语音样本，构成该手机对应的语音库，作为第一语音库(CKC-SD)。同样，利用该23个手机同时采集由高保真音箱回放的 TIMIT库中12个人的每人10段3秒的语句作为语音样本；再将每个手机得到的120个语音样本构成一个语音库，作为第二语音库(TIMIT)。设定帧长为1024，帧移为512，采用的窗函数是汉明窗窗函数，快速傅里叶变换的点数为1024。

表1实验中所采用的手机的品牌和型号以及类名

按照步骤①至步骤④的过程，分别获取第一语音库和第二语音库中的每个语音样本的最终频谱融合特征；然后按照网格化方法对基于径向基核函数的LibSVM中的惩罚系数和伽马系数进行交叉验证，得到惩罚系数和伽马系数的组合的最优值；接着根据惩罚系数和伽马系数的组合的最优值，分别对第一语音库和第二语音库中的所有语音样本的最终频谱融合特征以五折交叉验证方式进行模型训练和测试样本识别。

表2列出了23个手机在第一语音库上的识别率，从表2所列的数据可计算得到平均识别准确率为99.91％。本发明方法可以较好的完成23个手机的分类识别，iPhone品牌类内的识别率相对较差，其主要误判来自品牌类内区分，iPhone 5s的识别率最低为98.5％，iPhone 6的识别率依次为99.5％，可能存在的原因是iPhone品牌内部不同信号的手机采集的语音所包含的频谱特征差异度较小，其他手机可以进行无差错分类。

表3列出了23个手机在第二语音库上的识别率，从表3所列的数据可计算得到平均识别准确率为99.96％。本发明方法可以较好的完成23个手机的分类识别，其中HTCD610t和HTC D820t的识别率为99.5％，其主要误判来自同品牌类内的区分，可能原因是相同品牌内手机语音特征的区分性较不同品牌间手机语音特征的区分性小，更容易被混淆，其他手机可以做到无差错分类。

表2频谱融合特征在第一语音库上的识别准确率(％)

表3频谱融合特征在第二语音库上的识别准确率(％)

为了研究频谱融合特征较语音频谱单一特征识别性能的优劣，表4给出了统计平均信息量特征、统计平均对数谱特征、统计平均相位谱特征在第一语音库和第二语音库上的实验结果。从表4中可以看出统计平均信息量特征和统计平均对数谱特征在本发明方法所用语音库上有较好的识别效果，而统计平均相位谱特征的识别效果相对较差，本发明方法所提频谱融合特征的识别准确率要优于语音频谱单一特征的识别准确率。另外，由表4可得降维后语音频谱单一特征在第二语音库上的特征维数和识别准确率均略高于第一语音库，这一规律与频谱融合特征在两个语音库上的表现相互印证，可以得出所构建的语音频谱单一特征和频谱融合特征在第二语音库上的分类性能要略优于第一语音库的结论。

表4语音频谱单一特征的语音设备来源识别结果

为了直观的研究不同特征对各设备识别准确率的影响，图5给出了不同语音频谱单一特征的各设备的识别准确率折线对比图。从图5中可以看出，语音频谱单一特征在第二语音库上的识别准确率除HTC品牌以外，基本都优于该特征在第一语音库上的识别准确率。三组语音频谱单一特征中统计平均对数谱特征和统计平均信息量特征对各个设备均有较好的识别准确率，而统计平均相位谱特征在HTC和iPhone上识别准确率较差，统计平均相位谱特征对各设备的识别准确率较另外两组特征也略差，可能的原因是不同设备对语音的影响更多的反映在对语音幅度增强的程度不同上，频谱的相位谱信息含有的设备差异性信息较少。综合来看各特征在语音库上的主要误判来自于iPhone和HTC 两个品牌的设备的类内区分判别，可能造成此结果的原因是这两款设备的频谱特征的区分性相对较小。

Claims

1.一种基于语音频谱融合特征的手机来源识别方法，其特征在于包括以下步骤：

①利用M个不同主流品牌不同主流型号的手机，获得N个人的每人对应的P个语音样本，将每个手机对应的共N×P个语音样本构成一个语音库；其中，M>1，N≥1，1≤P≤10；

②对每个手机对应的语音库中的每个语音样本进行分帧加窗处理，得到每个手机对应的语音库中的每个语音样本的T帧；然后对每个手机对应的语音库中的每个语音样本中的每帧进行快速傅里叶变换，得到每个手机对应的语音库中的每个语音样本中的每帧的J个频率点各自的频率值；接着在频域计算每个手机对应的语音库中的每个语音样本中的每帧的前个频率点中的每个频率点的频率值的幅值，将第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值的幅值记为||x_m,p,t(k)||，其中，对每个手机对应的语音库中的每个语音样本进行分帧加窗处理时所采用的窗函数选择汉明窗窗函数，T>1，J为快速傅里叶变换的点数，J的取值为512或1024，1≤m≤M，1≤p≤N×P，1≤t≤T，x_m,p,t(k)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值，为x_m,p,t(k)的共扼；

③计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的频率值的幅值沿时间轴的统计平均值，将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的频率值的幅值沿时间轴的统计平均值记为x_m,p(k)，然后计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的概率，将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的概率记为pr_m,p(k)，再计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的统计平均信息量特征，将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均信息量特征记为I_m,p(k)，I_m,p(k)＝-log₂(pr_m,p(k))；

计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的统计平均相位谱特征，将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均相位谱特征记为其中，表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的相位谱特征，tan^-1()为求反正切函数，sin()为求正弦函数，cos()为求余弦函数，x_m,p,t(q)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第q个频率点的频率值，1≤q≤J；

④将每个手机对应的语音库中的每个语音样本的所有帧的前个频率点的统计平均信息量特征、统计平均对数谱特征、统计平均相位谱特征按序排列组成一个维数为的行向量，作为每个手机对应的语音库中的每个语音样本的频谱融合特征，将第m个手机对应的语音库中的第p个语音样本的频谱融合特征记为R_m,p，；然后将所有手机对应的语音库中的所有语音样本的频谱融合特征组成一个维数为的频谱融合特征矩阵；接着对频谱融合特征矩阵中的每个元素进行归一化处理；之后利用BestFirst搜索算法和CfsSubsetEval属性评估算法，对归一化后的频谱融合特征矩阵进行特征选择，得到一个最优特征矩阵，最优特征矩阵的行数为M×N×P行、列数大于1且小于再将最优特征矩阵中的每一行作为对应的语音样本的最终频谱融合特征；其中，I_m,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均信息量特征，表示第m个手机对应的语音库中的第p个语音样本的所有帧的第个频率点的统计平均信息量特征，L_m,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均对数谱特征，表示第m个手机对应的语音库中的第p个语音样本的所有帧的第个频率点的统计平均对数谱特征，表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均相位谱特征，表示第m个手机对应的语音库中的第p个语音样本的所有帧的第个频率点的统计平均相位谱特征；

2.根据权利要求1所述的一种基于语音频谱融合特征的手机来源识别方法，其特征在于所述的步骤①的具体过程为：取M个不同主流品牌不同主流型号的手机，并选取N个不同年龄不同性别的人；然后利用M个手机同时采集每个人用正常的语速朗读固定内容的语音，每个手机共采集到N个语音，M个手机共采集到M×N个语音，要求每个语音的时长至少为3分钟；接着将每个手机采集到的每个语音转换成wav格式语音；之后将每个手机对应的每个wav格式语音分割成3～10秒的语音片段，并取每个手机对应的每个wav格式语音的P个语音片段作为语音样本；再将每个手机对应的共N×P个语音样本构成一个语音库；其中，M>1，N≥1，1≤P≤10。

3.根据权利要求1所述的一种基于语音频谱融合特征的手机来源识别方法，其特征在于所述的步骤①的具体过程为：利用M个不同主流品牌不同主流型号的手机，同时采集由高保真音箱回放的TIMIT库中N个人的每人P个3秒的语句作为语音样本；再将每个手机对应的共N×P个语音样本构成一个语音库；其中，M>1，N≥1，1≤P≤10。