CN107507626A - 一种基于语音频谱融合特征的手机来源识别方法 - Google Patents
一种基于语音频谱融合特征的手机来源识别方法 Download PDFInfo
- Publication number
- CN107507626A CN107507626A CN201710550925.7A CN201710550925A CN107507626A CN 107507626 A CN107507626 A CN 107507626A CN 201710550925 A CN201710550925 A CN 201710550925A CN 107507626 A CN107507626 A CN 107507626A
- Authority
- CN
- China
- Prior art keywords
- mobile phone
- speech samples
- sound bank
- frequency point
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 165
- 230000004927 fusion Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000011159 matrix material Substances 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000002790 cross-validation Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 239000012634 fragment Substances 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 125
- DWDGSKGGUZPXMQ-UHFFFAOYSA-N OPPO Chemical compound OPPO DWDGSKGGUZPXMQ-UHFFFAOYSA-N 0.000 description 6
- 244000062793 Sorghum vulgare Species 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 235000019713 millet Nutrition 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 206010021703 Indifference Diseases 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 101001091379 Homo sapiens Kallikrein-5 Proteins 0.000 description 1
- 102100034868 Kallikrein-5 Human genes 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Abstract
本发明公开了一种基于语音频谱融合特征的手机来源识别方法,其对每个手机对应的语音库中的每个语音样本中的每帧进行快速傅里叶变换,获取每帧的前一半加1个频率点的频率值的幅值;然后根据频率值及幅值,获取每个语音样本的统计平均信息量特征、统计平均对数谱特征和统计平均相位谱特征,组成频谱融合特征;接着将所有手机对应的所有语音样本的频谱融合特征组成频谱融合特征矩阵;之后对频谱融合特征矩阵进行归一化和特征选择,得到最优特征矩阵,即获得每个语音样本的最终频谱融合特征;最后对所有语音样本的最终频谱融合特征进行模型训练和测试样本识别;优点是识别准确率高、稳定性好,且泛化能力强。
Description
技术领域
本发明涉及一种手机来源识别技术,尤其是涉及一种基于语音频谱融合特征的手机 来源识别方法。
背景技术
如今,随着移动互联网和微芯片产业的快速发展,移动终端不再仅仅是一种通信设 备,而是人们生活中不可或缺的部分。越来越多的人开始使用智能手机、PAD等便携设备捕捉和采集他们看到或听到的情景,而不是使用相机、录音笔、DV(Digital Video, 数字视频)等专业设备。然而,大量的数字采集设备和采集数据的可用性带来了新的问 题和挑战——多媒体的安全问题。作为一种检测多媒体数据独创性、真实性、完整性的 技术,多媒体取证技术是信息安全领域的热点研究问题。
数字音频来源取证是对音频来源的真实性、完整性等进行验证的,是多媒体取证技 术的重要研究内容。当一段录音样本被当作法庭证据时,对录音的来源的真实性和完整性的检测往往是必须的。近年来,数字音频来源取证引起了越来越多的关注,并获得了 重大进展。如:Hanilci,C.,Ertas,F.,Ertas,T.,Eskidere,O.Recognition of brand andmodels of Cell-Phones from recorded speech signals.IEEE Trans.Inf.ForensicsSecurity.7(2), 625-634(2012)(基于录音信号的手机品牌和型号的识别,电气和电子工程师协会,多 媒体取证和安全学报)中提出的一种通过提取录音文件的MFCC(MelFrequency Cepstrum Coefficient,梅尔频率倒谱系数)特征信息用于手机品牌和型号的识别的方法, 其在14个不同型号的手机设备的闭集识别实验中,识别率可以达到96.42%。又如: Kotropoulos,C.Source phone identification using sketches offeatures.IET Biometrics.3(2): 75–83(2014)(基于特征稀疏表示的手机来源识别,英国工程技术学会,生物学报)中 提出的方法,其通过对不同手机得到的录音文件的语音信号频谱取对数,然后沿时间轴 取平均或者通过堆叠每一帧的特征参数并基于高斯混合模型建模得到大尺寸的特征向 量,接着通过映射到低维空间进行降维,其在7个品牌21个型号的手机来源识别实验 中,识别率可达到94%。还如:王志锋、贺前华、李艳雄提出的录音设备的建模和识别 算法,其考虑到语音段中的静音包含了与正常语音一样的设备信息,并且不受说话人、 文本、情感等因素的影响,因此从静音段中提出表征录音设备的特征,然后利用设备通 用背景模型构建设备模型,最后通过归一化似然度得分对输入的录音设备的语音样本特 征进行分类判决,实验结果表明,其对于9种不同设备的平均识别率为87.42%。
现有的大多数手机来源识别的研究都是基于语音频谱单一特征的,由于目前大多数 的研究基于的语音数据库中设备种类和数量较少,设备型号陈旧,因此使得不同设备采集语音的差异性较大,从而使得相关特征在手机来源识别中取得了不错的效果。但是, 当语音数据库中设备种类和数量达到一定程度之后,特别是随着相同品牌不同型号设备 不断增加后,相关特征在手机来源识别中是否依旧能取得不错的效果呢?通过在现下主 流的7个品牌23个型号的手机构建的语音数据库上,分析不同设备语音信号的语谱图, 发现不同设备的频谱信息不尽相同,不同品牌的设备差异明显,可以用频谱单一特征来 有效的进行区分,而相同品牌不同型号的设备虽然存在差异,但较为相似,单一的频谱 特征难以准确实现不同品牌手机的类内识别。
发明内容
本发明所要解决的技术问题是提供一种基于语音频谱融合特征的手机来源识别方 法,其识别准确率高、稳定性好,且泛化能力强。
本发明解决上述技术问题所采用的技术方案为:一种基于语音频谱融合特征的手机 来源识别方法,其特征在于包括以下步骤:
①利用M个不同主流品牌不同主流型号的手机,获得N个人的每人对应的P个语 音样本,将每个手机对应的共N×P个语音样本构成一个语音库;其中,M>1,N≥1, 1≤P≤10;
②对每个手机对应的语音库中的每个语音样本进行分帧加窗处理,得到每个手机对 应的语音库中的每个语音样本的T帧;然后对每个手机对应的语音库中的每个语音样本中的每帧进行快速傅里叶变换,得到每个手机对应的语音库中的每个语音样本中的每帧的J个频率点各自的频率值;接着在频域计算每个手机对应的语音库中的每个语音样本 中的每帧的前个频率点中的每个频率点的频率值的幅值,将第m个手机对应的语 音库中的第p个语音样本中的第t帧的第k个频率点的频率值的幅值记为||xm,p,t(k)||,其中,对每个手机对应的语音库中的每个语音样本进行 分帧加窗处理时所采用的窗函数选择汉明窗窗函数,T>1,J为快速傅里叶变换的点数, J的取值为512或1024,1≤m≤M,1≤p≤N×P,1≤t≤T,xm,p,t(k)表 示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值, 为xm,p,t(k)的共扼;
③计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的 每个频率点的频率值的幅值沿时间轴的统计平均值,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的频率值的幅值沿时间轴的统计平均值记为 xm,p(k),然后计算每个手机对应的语音库中的每个语音样本 的所有帧的前个频率点中的每个频率点的概率,将第m个手机对应的语音库中的 第p个语音样本的所有帧的第k个频率点的概率记为prm,p(k),再计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个 频率点的统计平均信息量特征,将第m个手机对应的语音库中的第p个语音样本的所有 帧的第k个频率点的统计平均信息量特征记为Im,p(k),Im,p(k)=-log2(prm,p(k));
计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每 个频率点的统计平均对数谱特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均对数谱特征记为Lm,p(k), 其中,eps为一个用于防止||xm,p,t(k)||+eps为0的随 机正数;
计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每 个频率点的统计平均相位谱特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均相位谱特征记为 其中,表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点 的相位谱特征,tan-1()为求反正切函数, sin()为求正弦函数,cos()为求余弦函数,xm,p,t(q)表示第m个手机对应的语音库中 的第p个语音样本中的第t帧的第q个频率点的频率值,1≤q≤J;
④将每个手机对应的语音库中的每个语音样本的所有帧的前个频率点的统计 平均信息量特征、统计平均对数谱特征、统计平均相位谱特征按序排列组成一个维数为的行向量,作为每个手机对应的语音库中的每个语音样本的频谱融合特征,将 第m个手机对应的语音库中的第p个语音样本的频谱融合特征记为Rm,p,;然后将所有手机对应的语音库中的所有语音样本的频谱融合特征组成一个维数为的频谱融合特征矩阵;接着对频谱融合特征矩阵中的每个元素进 行归一化处理;之后利用BestFirst搜索算法和CfsSubsetEval属性评估算法,对归一化 后的频谱融合特征矩阵进行特征选择,得到一个最优特征矩阵,最优特征矩阵的行数为 M×N×P行、列数大于1且小于再将最优特征矩阵中的每一行作为对应的语 音样本的最终频谱融合特征;其中,Im,p(1)表示第m个手机对应的语音库中的第p个语 音样本的所有帧的第1个频率点的统计平均信息量特征,表示第m个手机对 应的语音库中的第p个语音样本的所有帧的第个频率点的统计平均信息量特征, Lm,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的 统计平均对数谱特征,表示第m个手机对应的语音库中的第p个语音样本的 所有帧的第个频率点的统计平均对数谱特征,表示第m个手机对应的语音 库中的第p个语音样本的所有帧的第1个频率点的统计平均相位谱特征,表 示第m个手机对应的语音库中的第p个语音样本的所有帧的第个频率点的统计平 均相位谱特征;
⑤按照网格化方法对基于径向基核函数的LibSVM中的惩罚系数和伽马系数进行交叉验证,得到惩罚系数和伽马系数的组合的最优值;然后根据惩罚系数和伽马系数的 组合的最优值,对M×N×P个语音样本的最终频谱融合特征以K-折交叉验证方式进行 模型训练和测试样本识别;其中,K-折交叉验证中的参数K的取值范围为大于或等于2。
所述的步骤①的具体过程为:取M个不同主流品牌不同主流型号的手机,并选取N个不同年龄不同性别的人;然后利用M个手机同时采集每个人用正常的语速朗读固定 内容的语音,每个手机共采集到N个语音,M个手机共采集到M×N个语音,要求每 个语音的时长至少为3分钟;接着将每个手机采集到的每个语音转换成wav格式语音; 之后将每个手机对应的每个wav格式语音分割成3~10秒的语音片段,并取每个手机对 应的每个wav格式语音的P个语音片段作为语音样本;再将每个手机对应的共N×P个 语音样本构成一个语音库;其中,M>1,N≥1,1≤P≤10。
所述的步骤①的具体过程为:利用M个不同主流品牌不同主流型号的手机,同时采集由高保真音箱回放的TIMIT库中N个人的每人P个3秒的语句作为语音样本;再将 每个手机对应的共N×P个语音样本构成一个语音库;其中,M>1,N≥1,1≤P≤10。
与现有技术相比,本发明的优点在于:
1)本发明方法在充分分析频谱特性的前提下,分别提高了频谱幅度谱特征在高频和低频部分所包含的设备之间的差异性,进而有效提取了频谱幅度谱的高频和低频部分的特征,考虑到频谱是由幅度谱和相位谱构成,又提取了频谱的相位谱特征,因此本发 明方法所提的频谱融合特征较为全面的包含了频谱各个方面的差异性特征,使得所提频 谱融合特征的泛化推广能力大大提高,能更好的进行手机的分类,通过大量实验验证本 发明方法在两个语音库上的识别率均达到99%以上。
2)以往的手机来源识别方法大都都是基于语音样本频谱的单一特征的,单一特征的泛化能力差,随着相同品牌手机型号的增多和手机语音采集处理配件性能的提高,以 往的手机来源识别方法的识别准确率难以保证,而本发明方法是在充分考虑频谱特性的 前提下提出的频谱融合特征,频谱融合特征包含的设备差异性信息更加全面,能够适应 更多种类手机的识别,因此本发明方法的识别性能也更加稳定。
3)本发明方法中构建的频谱融合特征比较简单,且对频谱融合特征矩阵降维后,数据计算量大大减小,计算效率高,计算复杂度低。
附图说明
图1为本发明方法的总体实现框图;
图2a为HTC D610t手机对应的统计平均信息量特征的折线图;
图2b为华为荣耀6手机对应的统计平均信息量特征的折线图;
图2c为苹果4s手机对应的统计平均信息量特征的折线图;
图2d为苹果5手机对应的统计平均信息量特征的折线图;
图2e为魅族MX4手机对应的统计平均信息量特征的折线图;
图2f为小米4手机对应的统计平均信息量特征的折线图;
图2g为OPPO一加手机对应的统计平均信息量特征的折线图;
图2h为三星盖乐世note2手机对应的统计平均信息量特征的折线图;
图3a为HTC D610t手机对应的统计平均对数谱特征的折线图;
图3b为华为荣耀6手机对应的统计平均对数谱特征的折线图;
图3c为苹果4s手机对应的统计平均对数谱特征的折线图;
图3d为苹果5手机对应的统计平均对数谱特征的折线图;
图3e为魅族MX4手机对应的统计平均对数谱特征的折线图;
图3f为小米4手机对应的统计平均对数谱特征的折线图;
图3g为OPPO一加手机对应的统计平均对数谱特征的折线图;
图3h为三星盖乐世note2手机对应的统计平均对数谱特征的折线图;
图4a为HTC D610t手机对应的统计平均相位谱特征的折线图;
图4b为华为荣耀6手机对应的统计平均相位谱特征的折线图;
图4c为苹果4s手机对应的统计平均相位谱特征的折线图;
图4d为苹果5手机对应的统计平均相位谱特征的折线图;
图4e为魅族MX4手机对应的统计平均相位谱特征的折线图;
图4f为小米4手机对应的统计平均相位谱特征的折线图;
图4g为OPPO一加手机对应的统计平均相位谱特征的折线图;
图4h为三星盖乐世note2手机对应的统计平均相位谱特征的折线图;
图5为不同语音频谱单一特征的各设备的识别准确率折线对比图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于语音频谱融合特征的手机来源识别方法,其总体实现框图如 图1所示,其包括以下步骤:
①利用M个不同主流品牌不同主流型号的手机,获得N个人的每人对应的P个语 音样本,将每个手机对应的共N×P个语音样本构成一个语音库;其中,M>1,N≥1, 1≤P≤10。
在此具体实施例中,步骤①的具体过程为:取M个不同主流品牌不同主流型号的手机,并选取N个不同年龄不同性别的人;然后利用M个手机同时采集每个人用正常 的语速朗读固定内容的语音,每个手机共采集到N个语音,M个手机共采集到M×N个 语音,要求每个语音的时长至少为3分钟;接着将每个手机采集到的每个语音转换成 wav格式语音;之后将每个手机对应的每个wav格式语音分割成3~10秒的语音片段, 并取每个手机对应的每个wav格式语音的P个语音片段作为语音样本;再将每个手机对 应的共N×P个语音样本构成一个语音库;其中,M>1,N≥1,1≤P≤10,在本实施 例中取M=23,取N=12,包括6个不同年龄的男性参与者,6个不同年龄的女性参与 者,取P=10,每个语音的采集环境安静,在本实施例中选择一间安静的办公室。或步 骤①的具体过程为:利用M个不同主流品牌不同主流型号的手机,同时采集由高保真 音箱回放的TIMIT库中N个人的每人P个3秒的语句作为语音样本;再将每个手机对 应的共N×P个语音样本构成一个语音库;其中,M>1,N≥1,1≤P≤10,在本实施 例中取M=23,取N=12,取P=10。
②对每个手机对应的语音库中的每个语音样本进行分帧加窗处理,得到每个手机对 应的语音库中的每个语音样本的T帧;然后对每个手机对应的语音库中的每个语音样本中的每帧进行快速傅里叶变换,得到每个手机对应的语音库中的每个语音样本中的每帧的J个频率点各自的频率值;接着在频域计算每个手机对应的语音库中的每个语音样本 中的每帧的前个频率点中的每个频率点的频率值的幅值,将第m个手机对应的语 音库中的第p个语音样本中的第t帧的第k个频率点的频率值的幅值记为||xm,p,t(k)||,其中,对每个手机对应的语音库中的每个语音样本进行 分帧加窗处理时所采用的窗函数选择汉明窗窗函数,T>1,J为快速傅里叶变换的点数, J的取值为512或1024,1≤m≤M,1≤p≤N×P,1≤t≤T,xm,p,t(k)表 示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值, 为xm,p,t(k)的共扼;由于快速傅里叶变换的对称性,因此在频域只需对前个频率点中的每个频率点进行处理即可。
③计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的 每个频率点的频率值的幅值沿时间轴的统计平均值,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的频率值的幅值沿时间轴的统计平均值记为 xm,p(k),然后计算每个手机对应的语音库中的每个语音样本 的所有帧的前个频率点中的每个频率点的概率,将第m个手机对应的语音库中的 第p个语音样本的所有帧的第k个频率点的概率记为prm,p(k),再计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个 频率点的统计平均信息量特征,将第m个手机对应的语音库中的第p个语音样本的所有 帧的第k个频率点的统计平均信息量特征记为Im,p(k),Im,p(k)=-log2(prm,p(k))。
计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每 个频率点的统计平均对数谱特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均对数谱特征记为Lm,p(k), 其中,eps为一个用于防止||xm,p,t(k)||+eps为0的随 机正数,eps的数量级是10的-16次方。
计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每 个频率点的统计平均相位谱特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均相位谱特征记为 其中,表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点 的相位谱特征,tan-1()为求反正切函数, sin()为求正弦函数,cos()为求余弦函数,xm,p,t(q)表示第m个手机对应的语音库中 的第p个语音样本中的第t帧的第q个频率点的频率值,1≤q≤J。
图2a给出了HTC D610t手机对应的统计平均信息量特征的折线图,图2b给出了华为荣耀6手机对应的统计平均信息量特征的折线图,图2c给出了苹果4s手机对应的统 计平均信息量特征的折线图,图2d给出了苹果5手机对应的统计平均信息量特征的折 线图,图2e给出了魅族MX4手机对应的统计平均信息量特征的折线图,图2f给出了 小米4手机对应的统计平均信息量特征的折线图,图2g给出了OPPO一加手机对应的 统计平均信息量特征的折线图,图2h给出了三星盖乐世note2手机对应的统计平均信息 量特征的折线图。从图2a至图2h中可以看出,不同品牌手机对应的统计平均信息量特 征的折线图存在很大差异,虽然相同品牌不同型号的手机的特征曲线图较为相似,但可 以发现第10~20维特征可以做到相同品牌不同型号的设备区分。
图3a给出了HTC D610t手机对应的统计平均对数谱特征的折线图,图3b给出了华为荣耀6手机对应的统计平均对数谱特征的折线图,图3c给出了苹果4s手机对应的统 计平均对数谱特征的折线图,图3d给出了苹果5手机对应的统计平均对数谱特征的折 线图,图3e给出了魅族MX4手机对应的统计平均对数谱特征的折线图,图3f给出了 小米4手机对应的统计平均对数谱特征的折线图,图3g给出了OPPO一加手机对应的 统计平均对数谱特征的折线图,图3h给出了三星盖乐世note2手机对应的统计平均对数 谱特征的折线图。从图3a至图3h中可以看出,不同品牌手机对应的统计平均对数谱特 征折线图存在很大差异,虽然相同品牌不同型号的手机的特征曲线图较为相似,但可以 发现第8~10维特征可以做到相同品牌不同型号的设备区分。
图4a给出了HTC D610t手机对应的统计平均相位谱特征的折线图,图4b给出了华为荣耀6手机对应的统计平均相位谱特征的折线图,图4c给出了苹果4s手机对应的统 计平均相位谱特征的折线图,图4d给出了苹果5手机对应的统计平均相位谱特征的折 线图,图4e给出了魅族MX4手机对应的统计平均相位谱特征的折线图,图4f给出了 小米4手机对应的统计平均相位谱特征的折线图,图4g给出了OPPO一加手机对应的 统计平均相位谱特征的折线图,图4h给出了三星盖乐世note2手机对应的统计平均相位 谱特征的折线图。从图4a至图4h中可以看出,可以看出不同品牌手机对应的统计平均 相位谱特征的折线图差异明显,相同品牌不同型号的手机设备的相位谱特征虽然较不同 品牌差异小,但可以进行分类判别,相位谱特征是语音手机来源识别的有效特征。
④将每个手机对应的语音库中的每个语音样本的所有帧的前个频率点的统计 平均信息量特征、统计平均对数谱特征、统计平均相位谱特征按序排列组成一个维数为的行向量,作为每个手机对应的语音库中的每个语音样本的频谱融合特征,将 第m个手机对应的语音库中的第p个语音样本的频谱融合特征记为Rm,p,;然后将所有手机对应的语音库中的所有语音样本的频谱融合特征组成一个维数为的频谱融合特征矩阵;接着采用常规技术对频谱融合特征矩阵中 的每个元素进行归一化处理;由于频谱融合特征矩阵的维数太大,可能会导致频谱融合 特征不能完全独立不相关,冗余的频谱融合特征不能提升识别的准确率,甚至会影响性 能,提高计算复杂度,因此之后利用BestFirst搜索算法和CfsSubsetEval属性评估算法, 对归一化后的频谱融合特征矩阵进行特征选择以降维,得到一个最优特征矩阵,最优特 征矩阵的行数为M×N×P行、列数大于1且小于再将最优特征矩阵中的每一 行作为对应的语音样本的最终频谱融合特征;其中,Im,p(1)表示第m个手机对应的语音 库中的第p个语音样本的所有帧的第1个频率点的统计平均信息量特征,表 示第m个手机对应的语音库中的第p个语音样本的所有帧的第个频率点的统计平 均信息量特征,Lm,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第 1个频率点的统计平均对数谱特征,表示第m个手机对应的语音库中的第p 个语音样本的所有帧的第个频率点的统计平均对数谱特征,表示第m个手 机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均相位谱特征, 表示第m个手机对应的语音库中的第p个语音样本的所有帧的第个频 率点的统计平均相位谱特征。
⑤按照网格化方法对基于径向基核函数的LibSVM中的惩罚系数和伽马系数进行交叉验证,得到惩罚系数和伽马系数的组合的最优值;然后根据惩罚系数和伽马系数的 组合的最优值,对M×N×P个语音样本的最终频谱融合特征以K-折交叉验证方式进行 模型训练和测试样本识别;其中,网格化方法采用5×5的网格,惩罚系数的取值范围为 20到50,伽马系数的取值范围是0.1到2,K-折交叉验证中的参数K的取值范围为大于 或等于2,如取K=5,当K=5时将所有语音样本的最终频谱融合特征平均分成五份,其 中一份用于测试,剩余的用于训练,轮流选择一份用于测试,执行5次,使每一份用于 测试一次。
为了进一步说明本发明方法的可行性和有效性,对本发明方法进行实验验证。
在实验中,建立每个手机对应的一个语音库,来有效的评估本发明方法的可行性和 有效性。表1列出了实验所采用的23个手机的品牌和型号,利用该23个手机采集语音 样本。邀请12个参与者(6男6女)参与语音采集;每个参与者需要用正常的语速朗读 固定内容,时长保证3分钟以上;录音环境是一间相对安静的办公室,23个手机同时打 开和关闭录音机;每个手机采集了12个参与者的语音,将每个语音分割成3秒的语音 片段,取10个语音片段,每个手机得到120个语音样本,构成该手机对应的语音库, 作为第一语音库(CKC-SD)。同样,利用该23个手机同时采集由高保真音箱回放的 TIMIT库中12个人的每人10段3秒的语句作为语音样本;再将每个手机得到的120个 语音样本构成一个语音库,作为第二语音库(TIMIT)。设定帧长为1024,帧移为512, 采用的窗函数是汉明窗窗函数,快速傅里叶变换的点数为1024。
表1实验中所采用的手机的品牌和型号以及类名
按照步骤①至步骤④的过程,分别获取第一语音库和第二语音库中的每个语音样本 的最终频谱融合特征;然后按照网格化方法对基于径向基核函数的LibSVM中的惩罚系数和伽马系数进行交叉验证,得到惩罚系数和伽马系数的组合的最优值;接着根据惩罚 系数和伽马系数的组合的最优值,分别对第一语音库和第二语音库中的所有语音样本的 最终频谱融合特征以五折交叉验证方式进行模型训练和测试样本识别。
表2列出了23个手机在第一语音库上的识别率,从表2所列的数据可计算得到平均识别准确率为99.91%。本发明方法可以较好的完成23个手机的分类识别,iPhone品 牌类内的识别率相对较差,其主要误判来自品牌类内区分,iPhone 5s的识别率最低为98.5%,iPhone 6的识别率依次为99.5%,可能存在的原因是iPhone品牌内部不同信号 的手机采集的语音所包含的频谱特征差异度较小,其他手机可以进行无差错分类。
表3列出了23个手机在第二语音库上的识别率,从表3所列的数据可计算得到平均识别准确率为99.96%。本发明方法可以较好的完成23个手机的分类识别,其中HTCD610t和HTC D820t的识别率为99.5%,其主要误判来自同品牌类内的区分,可能原因 是相同品牌内手机语音特征的区分性较不同品牌间手机语音特征的区分性小,更容易被 混淆,其他手机可以做到无差错分类。
表2频谱融合特征在第一语音库上的识别准确率(%)
表3频谱融合特征在第二语音库上的识别准确率(%)
为了研究频谱融合特征较语音频谱单一特征识别性能的优劣,表4给出了统计平均 信息量特征、统计平均对数谱特征、统计平均相位谱特征在第一语音库和第二语音库上的实验结果。从表4中可以看出统计平均信息量特征和统计平均对数谱特征在本发明方 法所用语音库上有较好的识别效果,而统计平均相位谱特征的识别效果相对较差,本发 明方法所提频谱融合特征的识别准确率要优于语音频谱单一特征的识别准确率。另外, 由表4可得降维后语音频谱单一特征在第二语音库上的特征维数和识别准确率均略高于 第一语音库,这一规律与频谱融合特征在两个语音库上的表现相互印证,可以得出所构 建的语音频谱单一特征和频谱融合特征在第二语音库上的分类性能要略优于第一语音 库的结论。
表4语音频谱单一特征的语音设备来源识别结果
为了直观的研究不同特征对各设备识别准确率的影响,图5给出了不同语音频谱单 一特征的各设备的识别准确率折线对比图。从图5中可以看出,语音频谱单一特征在第二语音库上的识别准确率除HTC品牌以外,基本都优于该特征在第一语音库上的识别 准确率。三组语音频谱单一特征中统计平均对数谱特征和统计平均信息量特征对各个设 备均有较好的识别准确率,而统计平均相位谱特征在HTC和iPhone上识别准确率较差, 统计平均相位谱特征对各设备的识别准确率较另外两组特征也略差,可能的原因是不同 设备对语音的影响更多的反映在对语音幅度增强的程度不同上,频谱的相位谱信息含有 的设备差异性信息较少。综合来看各特征在语音库上的主要误判来自于iPhone和HTC 两个品牌的设备的类内区分判别,可能造成此结果的原因是这两款设备的频谱特征的区分性相对较小。
Claims (3)
1.一种基于语音频谱融合特征的手机来源识别方法,其特征在于包括以下步骤:
①利用M个不同主流品牌不同主流型号的手机,获得N个人的每人对应的P个语音样本,将每个手机对应的共N×P个语音样本构成一个语音库;其中,M>1,N≥1,1≤P≤10;
②对每个手机对应的语音库中的每个语音样本进行分帧加窗处理,得到每个手机对应的语音库中的每个语音样本的T帧;然后对每个手机对应的语音库中的每个语音样本中的每帧进行快速傅里叶变换,得到每个手机对应的语音库中的每个语音样本中的每帧的J个频率点各自的频率值;接着在频域计算每个手机对应的语音库中的每个语音样本中的每帧的前个频率点中的每个频率点的频率值的幅值,将第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值的幅值记为||xm,p,t(k)||,其中,对每个手机对应的语音库中的每个语音样本进行分帧加窗处理时所采用的窗函数选择汉明窗窗函数,T>1,J为快速傅里叶变换的点数,J的取值为512或1024,1≤m≤M,1≤p≤N×P,1≤t≤T,xm,p,t(k)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值,为xm,p,t(k)的共扼;
③计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的频率值的幅值沿时间轴的统计平均值,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的频率值的幅值沿时间轴的统计平均值记为xm,p(k),然后计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的概率,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的概率记为prm,p(k),再计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的统计平均信息量特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均信息量特征记为Im,p(k),Im,p(k)=-log2(prm,p(k));
计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的统计平均对数谱特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均对数谱特征记为Lm,p(k),其中,eps为一个用于防止||xm,p,t(k)||+eps为0的随机正数;
计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的统计平均相位谱特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均相位谱特征记为 其中,表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的相位谱特征,tan-1()为求反正切函数,sin()为求正弦函数,cos()为求余弦函数,xm,p,t(q)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第q个频率点的频率值,1≤q≤J;
④将每个手机对应的语音库中的每个语音样本的所有帧的前个频率点的统计平均信息量特征、统计平均对数谱特征、统计平均相位谱特征按序排列组成一个维数为的行向量,作为每个手机对应的语音库中的每个语音样本的频谱融合特征,将第m个手机对应的语音库中的第p个语音样本的频谱融合特征记为Rm,p,;然后将所有手机对应的语音库中的所有语音样本的频谱融合特征组成一个维数为的频谱融合特征矩阵;接着对频谱融合特征矩阵中的每个元素进行归一化处理;之后利用BestFirst搜索算法和CfsSubsetEval属性评估算法,对归一化后的频谱融合特征矩阵进行特征选择,得到一个最优特征矩阵,最优特征矩阵的行数为M×N×P行、列数大于1且小于再将最优特征矩阵中的每一行作为对应的语音样本的最终频谱融合特征;其中,Im,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均信息量特征,表示第m个手机对应的语音库中的第p个语音样本的所有帧的第个频率点的统计平均信息量特征,Lm,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均对数谱特征,表示第m个手机对应的语音库中的第p个语音样本的所有帧的第个频率点的统计平均对数谱特征,表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均相位谱特征,表示第m个手机对应的语音库中的第p个语音样本的所有帧的第个频率点的统计平均相位谱特征;
⑤按照网格化方法对基于径向基核函数的LibSVM中的惩罚系数和伽马系数进行交叉验证,得到惩罚系数和伽马系数的组合的最优值;然后根据惩罚系数和伽马系数的组合的最优值,对M×N×P个语音样本的最终频谱融合特征以K-折交叉验证方式进行模型训练和测试样本识别;其中,K-折交叉验证中的参数K的取值范围为大于或等于2。
2.根据权利要求1所述的一种基于语音频谱融合特征的手机来源识别方法,其特征在于所述的步骤①的具体过程为:取M个不同主流品牌不同主流型号的手机,并选取N个不同年龄不同性别的人;然后利用M个手机同时采集每个人用正常的语速朗读固定内容的语音,每个手机共采集到N个语音,M个手机共采集到M×N个语音,要求每个语音的时长至少为3分钟;接着将每个手机采集到的每个语音转换成wav格式语音;之后将每个手机对应的每个wav格式语音分割成3~10秒的语音片段,并取每个手机对应的每个wav格式语音的P个语音片段作为语音样本;再将每个手机对应的共N×P个语音样本构成一个语音库;其中,M>1,N≥1,1≤P≤10。
3.根据权利要求1所述的一种基于语音频谱融合特征的手机来源识别方法,其特征在于所述的步骤①的具体过程为:利用M个不同主流品牌不同主流型号的手机,同时采集由高保真音箱回放的TIMIT库中N个人的每人P个3秒的语句作为语音样本;再将每个手机对应的共N×P个语音样本构成一个语音库;其中,M>1,N≥1,1≤P≤10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710550925.7A CN107507626B (zh) | 2017-07-07 | 2017-07-07 | 一种基于语音频谱融合特征的手机来源识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710550925.7A CN107507626B (zh) | 2017-07-07 | 2017-07-07 | 一种基于语音频谱融合特征的手机来源识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107507626A true CN107507626A (zh) | 2017-12-22 |
CN107507626B CN107507626B (zh) | 2021-02-19 |
Family
ID=60679658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710550925.7A Active CN107507626B (zh) | 2017-07-07 | 2017-07-07 | 一种基于语音频谱融合特征的手机来源识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107507626B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831443A (zh) * | 2018-06-25 | 2018-11-16 | 华中师范大学 | 一种基于堆叠自编码网络的移动录音设备源识别方法 |
CN109285538A (zh) * | 2018-09-19 | 2019-01-29 | 宁波大学 | 一种基于常q变换域的加性噪声环境下手机来源识别方法 |
CN110136746A (zh) * | 2019-03-26 | 2019-08-16 | 宁波大学 | 一种基于融合特征的加性噪声环境下手机来源识别方法 |
CN110415707A (zh) * | 2019-04-12 | 2019-11-05 | 杭州电子科技大学 | 一种基于语音特征融合和gmm的说话人识别方法 |
CN110534101A (zh) * | 2019-08-27 | 2019-12-03 | 华中师范大学 | 一种基于多模融合深度特征的移动设备源识别方法及系统 |
CN110569764A (zh) * | 2019-08-28 | 2019-12-13 | 北京工业大学 | 一种基于卷积神经网络的手机型号识别方法 |
CN110728991A (zh) * | 2019-09-06 | 2020-01-24 | 南京工程学院 | 一种改进的录音设备识别算法 |
CN116682453A (zh) * | 2023-07-31 | 2023-09-01 | 深圳市东微智能科技股份有限公司 | 语音处理方法、装置、设备及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011107650A (ja) * | 2009-11-20 | 2011-06-02 | Casio Computer Co Ltd | 音声特徴量算出装置、音声特徴量算出方法及び音声特徴量算出プログラム並びに音声認識装置 |
CN102394062A (zh) * | 2011-10-26 | 2012-03-28 | 华南理工大学 | 一种自动录音设备源识别的方法和系统 |
CN104409073A (zh) * | 2014-11-04 | 2015-03-11 | 贵阳供电局 | 一种变电设备声音与语音的识别方法 |
CN105632516A (zh) * | 2016-01-13 | 2016-06-01 | 宁波大学 | 一种基于边信息统计特性的mp3录音文件来源识别方法 |
CN105845132A (zh) * | 2016-03-22 | 2016-08-10 | 宁波大学 | 一种基于编码参数统计特性的aac录音文件来源识别方法 |
CN106409298A (zh) * | 2016-09-30 | 2017-02-15 | 广东技术师范学院 | 一种声音重录攻击的识别方法 |
CN106531159A (zh) * | 2016-12-09 | 2017-03-22 | 宁波大学 | 一种基于设备本底噪声频谱特征的手机来源识别方法 |
-
2017
- 2017-07-07 CN CN201710550925.7A patent/CN107507626B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011107650A (ja) * | 2009-11-20 | 2011-06-02 | Casio Computer Co Ltd | 音声特徴量算出装置、音声特徴量算出方法及び音声特徴量算出プログラム並びに音声認識装置 |
CN102394062A (zh) * | 2011-10-26 | 2012-03-28 | 华南理工大学 | 一种自动录音设备源识别的方法和系统 |
CN104409073A (zh) * | 2014-11-04 | 2015-03-11 | 贵阳供电局 | 一种变电设备声音与语音的识别方法 |
CN105632516A (zh) * | 2016-01-13 | 2016-06-01 | 宁波大学 | 一种基于边信息统计特性的mp3录音文件来源识别方法 |
CN105845132A (zh) * | 2016-03-22 | 2016-08-10 | 宁波大学 | 一种基于编码参数统计特性的aac录音文件来源识别方法 |
CN106409298A (zh) * | 2016-09-30 | 2017-02-15 | 广东技术师范学院 | 一种声音重录攻击的识别方法 |
CN106531159A (zh) * | 2016-12-09 | 2017-03-22 | 宁波大学 | 一种基于设备本底噪声频谱特征的手机来源识别方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108831443B (zh) * | 2018-06-25 | 2020-07-21 | 华中师范大学 | 一种基于堆叠自编码网络的移动录音设备源识别方法 |
CN108831443A (zh) * | 2018-06-25 | 2018-11-16 | 华中师范大学 | 一种基于堆叠自编码网络的移动录音设备源识别方法 |
CN109285538A (zh) * | 2018-09-19 | 2019-01-29 | 宁波大学 | 一种基于常q变换域的加性噪声环境下手机来源识别方法 |
CN109285538B (zh) * | 2018-09-19 | 2022-12-27 | 宁波大学 | 一种基于常q变换域的加性噪声环境下手机来源识别方法 |
CN110136746B (zh) * | 2019-03-26 | 2021-11-09 | 宁波大学 | 一种基于融合特征的加性噪声环境下手机来源识别方法 |
CN110136746A (zh) * | 2019-03-26 | 2019-08-16 | 宁波大学 | 一种基于融合特征的加性噪声环境下手机来源识别方法 |
CN110415707A (zh) * | 2019-04-12 | 2019-11-05 | 杭州电子科技大学 | 一种基于语音特征融合和gmm的说话人识别方法 |
CN110415707B (zh) * | 2019-04-12 | 2021-11-26 | 杭州电子科技大学 | 一种基于语音特征融合和gmm的说话人识别方法 |
CN110534101A (zh) * | 2019-08-27 | 2019-12-03 | 华中师范大学 | 一种基于多模融合深度特征的移动设备源识别方法及系统 |
CN110534101B (zh) * | 2019-08-27 | 2022-02-22 | 华中师范大学 | 一种基于多模融合深度特征的移动设备源识别方法及系统 |
CN110569764A (zh) * | 2019-08-28 | 2019-12-13 | 北京工业大学 | 一种基于卷积神经网络的手机型号识别方法 |
CN110569764B (zh) * | 2019-08-28 | 2023-12-22 | 北京工业大学 | 一种基于卷积神经网络的手机型号识别方法 |
CN110728991A (zh) * | 2019-09-06 | 2020-01-24 | 南京工程学院 | 一种改进的录音设备识别算法 |
CN110728991B (zh) * | 2019-09-06 | 2022-03-01 | 南京工程学院 | 一种改进的录音设备识别算法 |
CN116682453A (zh) * | 2023-07-31 | 2023-09-01 | 深圳市东微智能科技股份有限公司 | 语音处理方法、装置、设备及计算机可读存储介质 |
CN116682453B (zh) * | 2023-07-31 | 2023-10-27 | 深圳市东微智能科技股份有限公司 | 语音处理方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107507626B (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107507626A (zh) | 一种基于语音频谱融合特征的手机来源识别方法 | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN109285538B (zh) | 一种基于常q变换域的加性噪声环境下手机来源识别方法 | |
CN106531159B (zh) | 一种基于设备本底噪声频谱特征的手机来源识别方法 | |
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
CN107274916B (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
CN109036382B (zh) | 一种基于kl散度的音频特征提取方法 | |
CN101261832B (zh) | 汉语语音情感信息的提取及建模方法 | |
CN108986824B (zh) | 一种回放语音检测方法 | |
CN102394062B (zh) | 一种自动录音设备源识别的方法和系统 | |
CN102486920A (zh) | 音频事件检测方法和装置 | |
CN104485102A (zh) | 声纹识别方法和装置 | |
CN101923855A (zh) | 文本无关的声纹识别系统 | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及系统 | |
CN113327626A (zh) | 语音降噪方法、装置、设备及存储介质 | |
Hanilçi et al. | Optimizing acoustic features for source cell-phone recognition using speech signals | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
CN110136746B (zh) | 一种基于融合特征的加性噪声环境下手机来源识别方法 | |
Ghosal et al. | Automatic male-female voice discrimination | |
CN115083422B (zh) | 语音溯源取证方法及装置、设备及存储介质 | |
US20230402030A1 (en) | Embedded Dictation Detection | |
CN111326161B (zh) | 一种声纹确定方法及装置 | |
CN114822557A (zh) | 课堂中不同声音的区分方法、装置、设备以及存储介质 | |
JPWO2020003413A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
Rouniyar et al. | Channel response based multi-feature audio splicing forgery detection and localization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240126 Address after: 313200 Room 337, Building 3, No. 266, Zhenxing Road, Yuyue Town, Deqing County, Huzhou City, Zhejiang Province Patentee after: Huzhou Chuangguan Technology Co.,Ltd. Country or region after: China Address before: 315211, Fenghua Road, Jiangbei District, Zhejiang, Ningbo 818 Patentee before: Ningbo University Country or region before: China |
|
TR01 | Transfer of patent right |