CN106531159A - 一种基于设备本底噪声频谱特征的手机来源识别方法 - Google Patents

一种基于设备本底噪声频谱特征的手机来源识别方法 Download PDF

Info

Publication number
CN106531159A
CN106531159A CN201611129639.5A CN201611129639A CN106531159A CN 106531159 A CN106531159 A CN 106531159A CN 201611129639 A CN201611129639 A CN 201611129639A CN 106531159 A CN106531159 A CN 106531159A
Authority
CN
China
Prior art keywords
mobile phone
background noise
final
word bank
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611129639.5A
Other languages
English (en)
Other versions
CN106531159B (zh
Inventor
王让定
裴安山
严迪群
金超
徐宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo University
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN201611129639.5A priority Critical patent/CN106531159B/zh
Publication of CN106531159A publication Critical patent/CN106531159A/zh
Application granted granted Critical
Publication of CN106531159B publication Critical patent/CN106531159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种基于设备本底噪声频谱特征的手机来源识别方法,其对每个手机对应的语音子库中的每个语音样本进行近静音段估计提取,对每个近静音段进行后处理并拼接整合成最终近静音段;然后根据每个手机对应的所有最终近静音段获取对应的测试语音子库;接着获取所有手机对应的通用背景噪声模型;之后获取每个手机的每个最终本底噪声及其频谱分布特征;再通过构建总训练集和总测试集,并分别得到训练特征空间和测试特征空间;最后对训练特征空间和测试特征空间先后进行降维和归一化,再对归一化后的训练特征空间进行模型训练,利用训练好的多分类模型对总测试集中的每个近静音段进行分类判别;优点是识别准确率高、稳定性好,且计算复杂度低。

Description

一种基于设备本底噪声频谱特征的手机来源识别方法
技术领域
本发明涉及一种手机来源识别技术,尤其是涉及一种基于设备本底噪声频谱特征的手机来源识别方法。
背景技术
如今,随着移动互联网和微芯片产业的快速发展,移动终端不再仅仅是一种通信设备,而是人们生活中不可或缺的部分。越来越多的人开始用智能手机、PAD等便携设备捕捉和采集他们看到或听到的情景,而不是用相机、录音笔、DV(Digital Video,数字视频)等专业设备。然而,大量的数字采集设备和采集数据的可用性带来了新的问题和挑战——多媒体的安全问题。作为一种检测多媒体数据独创性、真实性、完整性的技术,多媒体取证技术是信息安全领域的热点研究问题。
手机来源识别是与多媒体取证最相关的应用,其用来检测数字录音文件来源真实性和可靠性的。这一研究方向引起了大量取证研究者的关注,并在近年来获得了重大进展。如:Hanilci,C.,Ertas,F.,Ertas,T.,Eskidere,O.Recognition of brand and models ofCell-Phones from recorded speech signals.IEEE Trans.Inf.Forensics Security.7(2),625-634(2012)(基于录音信号的手机品牌和型号的识别,电气和电子工程师协会,多媒体取证和安全学报)中提出的一种通过提取录音文件的MFCC(Mel Frequency CepstrumCoefficient,梅尔频率倒谱系数)特征信息用于手机品牌和型号的识别的方法,其在14个不同型号的手机设备的闭集识别实验中,识别率可以达到96.42%。又如:Kotropoulos,C.Source phone identification using sketches of features.IET Biometrics.3(2):75–83(2014)(基于特征稀疏表示的手机来源识别,英国工程技术学会,生物学报),其通过对不同手机得到的录音文件的语音信号频谱取对数,然后沿时间轴取平均或者通过堆叠每一帧的特征参数并基于高斯混合模型建模得到大尺寸的特征向量,接着通过映射到低维空间进行降维,其在7个品牌21个型号的手机来源识别实验中,识别率可达到94%。
然而,现有的大多数手机来源识别的研究是基于语音本身提取的分类特征,如:MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征、LFCC(LinearFrequency Cepstrum Coefficients,线性频率倒谱系数)特征、短时特征等。虽然这些相关特征在手机来源识别中取得了令人满意的效果,但是基于语音本身提取的分类特征的手机来源识别的效果可能会受到许多不确定条件的干扰,如说话人的性别、情感变化、语音内容等,从而会影响识别率和稳定性,且基于语音本身提取的分类特征的手机来源识别的识别率和稳定性还有待进一步提高。
发明内容
本发明所要解决的技术问题是提供一种基于设备本底噪声频谱特征的手机来源识别方法,其识别准确率高、稳定性好,且计算复杂度低。
本发明解决上述技术问题所采用的技术方案为:一种基于设备本底噪声频谱特征的手机来源识别方法,其特征在于包括以下步骤:
①选取M个不同主流品牌不同主流型号的手机,并选取N个不同年龄不同性别的参与者;然后利用M个手机同时采集每个参与者用正常的语速朗读固定内容的语音,每个手机共采集到N个语音,M个手机共采集到M×N个语音,要求每个语音的时长至少为3分钟;接着将每个手机采集到的每个语音转换成wav格式语音;之后将每个手机对应的每个wav格式语音分割成3~10秒的语音片段,并取10个语音片段作为语音样本;再将每个手机对应的共10N个语音样本构成一个语音子库;其中,M>1,N≥1;
②利用自适应端点检测算法对每个手机对应的语音子库中的每个语音样本进行近静音段估计提取;然后对从每个手机对应的语音子库中的每个语音样本中提取出的近静音段进行后处理,以消除近静音段中不必要的语音部分,得到每个手机对应的语音子库中的每个语音样本对应的多段后处理后的近静音段;再将每个手机对应的语音子库中的每个语音样本对应的多段后处理后的近静音段拼接起来整合成一个最终近静音段;
③保留每个手机对应的所有最终近静音段中时长大于或等于1.5秒的最终近静音段,并将保留的所有最终近静音段构成该手机对应的用于求取本底噪声的频谱分布特征的测试语音子库;
④利用改进的谱减法抑制每个手机对应的测试语音子库中的每个近静音段的背景噪声,得到每个手机对应的测试语音子库中的每个近静音段的背景噪声模型;然后获得所有手机对应的通用背景噪声模型,将第k个频率点处所有手机对应的通用背景噪声模型描述为BNmean(k),其中,符号“||”为取绝对值符号,BNm(k,n)表示第m个手机对应的测试语音子库中的所有近静音段的背景噪声模型的语谱图中的第k个频率点、第n帧在短时傅里叶变换域的频谱系数,1≤k≤K,K表示每个近静音段的频率点的总个数,Kfft表示短时傅里叶变换的点数;
⑤将每个手机对应的测试语音子库中的每个近静音段与所有手机对应的通用背景噪声模型的差值作为该手机的一个本底噪声;然后对每个手机的每个本底噪声进行中值滤波处理以去除每个手机的每个本底噪声中残余的背景噪声,得到每个手机的每个最终本底噪声;接着对每个手机的每个最终本底噪声进行傅里叶变换,得到每个手机的每个最终本底噪声的频谱系数;再对每个手机的每个最终本底噪声的频谱系数取10的对数,得到每个手机的每个最终本底噪声的取对数后的频谱系数;最后沿时间轴对每个手机的每个最终本底噪声的取对数后的频谱系数前T帧取平均,将该平均值作为每个手机的每个最终本底噪声的频谱分布特征;其中,傅里叶变换的点数为Kfft,T帧的时长小于或等于1.5秒,且T≥3,每个手机的每个最终本底噪声的频谱分布特征的维数为K;
⑥统计每个手机对应的测试语音子库中的近静音段的总个数,以最小的总个数为基准数,从每个手机对应的测试语音子库中的所有近静音段中随机选择基准数的一半近静音段构成每个手机对应的子训练集,从每个手机对应的测试语音子库中的剩余的所有近静音段中随机选择基准数的一半近静音段构成每个手机对应的子测试集;然后将所有手机对应的子训练集构成一个总训练集,并将所有手机对应的子测试集构成一个总测试集;接着将由总训练集得到的所有手机的最终本底噪声的频谱分布特征构成一个训练特征空间,并将由总测试集得到的所有手机的最终本底噪声的频谱分布特征构成一个测试特征空间;之后利用主成分分析方法对训练特征空间进行降维操作,再对降维后的训练特征空间中的所有值进行归一化处理;并根据对训练特征空间进行降维操作所采用的映射矩阵对测试特征空间进行降维操作,再对降维后的测试特征空间中的所有值进行归一化处理;最后利用Matlab自带的SVM分类函数先对归一化处理后的训练特征空间进行模型训练,得到一个训练好的多分类模型,再利用训练好的多分类模型对总测试集中的每个近静音段进行分类判别。
所述的步骤②中对从每个手机对应的语音子库中的每个语音样本中提取出的近静音段进行后处理的具体过程为:找出每个手机对应的语音子库中的每个语音样本中提取出的近静音段上的所有采样点的采样值中小于5×Thr的所有采样点,每连续的多个采样点形成一段后处理后的近静音段,得到每个手机对应的语音子库中的每个语音样本对应的多段后处理后的近静音段;其中,Thr表示利用自适应端点检测算法从每个手机对应的语音子库中的每个语音样本中提取出的近静音段上的所有采样点的采样值的绝对值升序排列后前30~50%的所有采样值的平均值。
所述的步骤⑥中Matlab自带的SVM分类函数使用的是RBF核函数,Matlab自带的SVM分类函数中对惩罚系数和伽马系数采用交叉验证方式得到最优值。
与现有技术相比,本发明的优点在于:
1)本发明方法利用每个手机对应的测试语音子库中的每个近静音段与所有手机对应的通用背景噪声模型来估计每个手机的本底噪声,再对每个手机的每个本底噪声进行中值滤波处理,使得得到的每个手机的每个最终本底噪声中不含有残余的背景噪声,从而使得在此基础上获取的频谱分布特征能更好的进行手机的分类,通过大量实验验证本发明方法的识别率可以达到99.24%。
2)以往的手机来源识别方法大都都是基于语音样本信息的,易受语音样本中的文本信息、说话人的情感等因素影响,导致识别稳定性较差,而本发明方法是基于近静音段进行频谱分布特征提取和手机来源识别的,稳定性更好。
3)本发明方法中提取频谱分布特征的过程简单,且对训练特征空间和测试特征空间降维后,数据计算量大大减小,计算效率高,计算复杂度低。
附图说明
图1为本发明方法的总体实现框图;
图2a为一个语音样本的波形图;
图2b为现有的自适应端点检测算法在图2a所示的语音样本的波形图上的检测示意图;
图2c为图2a所示的语音样本中提取出的近静音段的波形图;
图2d为图2c所示的近静音段经后处理和拼接后得到的最终近静音段;
图3a为HTC D820t手机的最终本底噪声的语谱图;
图3b为华为荣耀7手机的最终本底噪声的语谱图;
图3c为一台苹果5手机的最终本底噪声的语谱图;
图3d为另一台苹果5手机的最终本底噪声的语谱图;
图3e为魅族MX4手机的最终本底噪声的语谱图;
图3f为小米3手机的最终本底噪声的语谱图;
图3g为OPPO一加手机的最终本底噪声的语谱图;
图3h为三星盖乐世S5手机的最终本底噪声的语谱图;
图4a为iphone6手机的实际本底噪声的语谱图;
图4b为利用本发明方法得到的iphone6手机的最终本底噪声的语谱图;
图4c为iphone6手机的实际本底噪声与利用本发明方法得到的iphone6手机的最终本底噪声的频谱比较示意图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于设备本底噪声频谱特征的手机来源识别方法,其总体实现框图如图1所示,其包括以下步骤:
①选取M个不同主流品牌不同主流型号的手机,并选取N个不同年龄不同性别的参与者;然后利用M个手机同时采集每个参与者用正常的语速朗读固定内容的语音,每个手机共采集到N个语音,M个手机共采集到M×N个语音,要求每个语音的时长至少为3分钟;接着将每个手机采集到的每个语音转换成wav格式语音;之后将每个手机对应的每个wav格式语音分割成3~10秒的语音片段,并取10个语音片段作为语音样本;再将每个手机对应的共10N个语音样本构成一个语音子库;其中,M>1,在本实施例中取M=24,N≥1,在本实施例中取N=12,如包括6个不同年龄的男性参与者,6个不同年龄的女性参与者,每个语音的采集环境安静,在本实施例中选择一间安静的办公室。
②利用现有的自适应端点检测算法对每个手机对应的语音子库中的每个语音样本进行近静音段估计提取;然后对从每个手机对应的语音子库中的每个语音样本中提取出的近静音段进行后处理,以消除近静音段中不必要的语音部分,得到每个手机对应的语音子库中的每个语音样本对应的多段后处理后的近静音段;再将每个手机对应的语音子库中的每个语音样本对应的多段后处理后的近静音段拼接起来整合成一个最终近静音段,得到的最终近静音段的时长肯定小于对应的语音样本的时长。
在此,先对每个语音样本进行近静音段估计的原因是语音的近静音段主要是由本底噪声和背景噪声构成的,它不会被语音部分的综合噪声中占主导地位的声电响应不一致噪声所污染,因此在此利用自适应端点检测算法进行近静音段估计,自适应端点检测算法可以很好地识别近静音段;但是识别的近静音段中还含有少量语音信息,为了进一步消除语音部分,对近静音段进行后处理,并整合得到最终近静音段。
图2a给出了一个语音样本的波形图,图2b给出了现有的自适应端点检测算法在图2a所示的语音样本的波形图上检测的示意图,图2c给出了从图2a所示的语音样本中提取出的近静音段的波形图,图2d给出了图2c所示的近静音段经后处理和拼接后得到的最终近静音段。从图2a和图2b中可以看出,本发明方法能够很好的识别近静音段;从图2c中可以看出,提取出的近静音段还含有少量语音信息,而从图2d中可以看出,经本发明方法中的近静音段后处理后,得到的最终近静音段不含有语音信息。
在此具体实施例中,步骤②中对从每个手机对应的语音子库中的每个语音样本中提取出的近静音段进行后处理的具体过程为:找出每个手机对应的语音子库中的每个语音样本中提取出的近静音段上的所有采样点的采样值中小于5×Thr的所有采样点,每连续的多个采样点形成一段后处理后的近静音段,得到每个手机对应的语音子库中的每个语音样本对应的多段后处理后的近静音段;其中,Thr表示利用现有的自适应端点检测算法从每个手机对应的语音子库中的每个语音样本中提取出的近静音段上的所有采样点的采样值的绝对值升序排列后前30~50%的所有采样值的平均值,在本实施例中取Thr等于每个语音子库中的每个语音样本中提取出的近静音段上的所有采样点的采样值的绝对值升序排列后前40%的所有采样值的平均值。
③由于每个语音子库中的所有语音样本各自对应的最终近静音段的长度不一致,因此为了保证在构建特征空间时特征矩阵长度保持一致,保留时长大于或等于1.5秒的最终近静音段,而去掉时长小于1.5秒的最终近静音段。保留每个手机对应的所有最终近静音段(每个语音子库对应的10N个最终近静音段)中时长大于或等于1.5秒的最终近静音段,并将保留的所有最终近静音段构成该手机对应的用于求取本底噪声的频谱分布特征的测试语音子库。
④为了从最终近静音段中得到实际的本底噪声,要尽可能的抑制背景噪声。因此利用现有的改进的谱减法抑制每个手机对应的测试语音子库中的每个近静音段的背景噪声,得到每个手机对应的测试语音子库中的每个近静音段的背景噪声模型;然后获得所有手机对应的通用背景噪声模型,将第k个频率点处所有手机对应的通用背景噪声模型描述为BNmean(k),其中,符号“||”为取绝对值符号,BNm(k,n)表示第m个手机对应的测试语音子库中的所有近静音段的背景噪声模型的语谱图中的第k个频率点、第n帧在短时傅里叶变换(STFT)域的频谱系数,1≤k≤K,K表示每个近静音段的频率点的总个数,Kfft表示短时傅里叶变换的点数,在本实施例中将短时傅里叶变换的点数设为4096,取
⑤将每个手机对应的测试语音子库中的每个近静音段与所有手机对应的通用背景噪声模型的差值作为该手机的一个本底噪声;然后对每个手机的每个本底噪声进行中值滤波处理以去除每个手机的每个本底噪声中残余的背景噪声,得到每个手机的每个最终本底噪声;接着对每个手机的每个最终本底噪声进行傅里叶变换,得到每个手机的每个最终本底噪声的频谱系数;再对每个手机的每个最终本底噪声的频谱系数取10的对数,得到每个手机的每个最终本底噪声的取对数后的频谱系数;最后沿时间轴对每个手机的每个最终本底噪声的取对数后的频谱系数前T帧取平均,将该平均值作为每个手机的每个最终本底噪声的频谱分布特征;其中,傅里叶变换的点数为Kfft,T帧的时长小于或等于1.5秒,且T≥3,每个手机的每个最终本底噪声的频谱分布特征的维数为K。
图3a给出了HTC D820t手机的最终本底噪声的语谱图,图3b给出了华为荣耀7手机的最终本底噪声的语谱图,图3c给出了一台苹果5手机的最终本底噪声的语谱图,图3d给出了另一台苹果5手机的最终本底噪声的语谱图,图3e给出了魅族MX4手机的最终本底噪声的语谱图,图3f给出了小米3手机的最终本底噪声的语谱图,图3g给出了OPPO一加手机的最终本底噪声的语谱图,图3h给出了三星盖乐世S5手机的最终本底噪声的语谱图。从图3a至图3h中可以看出,不同品牌手机的本底噪声的语谱图存在很大差异,例如,小米3手机的本底噪声的能量在所有的频率点间隔(0-16KHZ)都是最强的,魅族MX4手机的本底噪声的语谱图的振幅曲线是随频率呈波动变化趋势,HTC D820t手机的本底噪声的语谱图在频率为4000Hz附近,有大幅度的下降。
图4a给出了iphone6手机的实际本底噪声的语谱图,图4b给出了利用本发明方法得到的iphone6手机的最终本底噪声的语谱图,图4c给出了iphone6手机的实际本底噪声与利用本发明方法得到的iphone6手机的最终本底噪声的频谱比较。从图4c中可以看出,iphone6手机的实际本底噪声与利用本发明方法得到的iphone6手机的最终本底噪声的频谱是很相似的,充分说明本发明方法中获取手机的最终本底噪声的方法是可行且有效的。
⑥统计每个手机对应的测试语音子库中的近静音段的总个数,以最小的总个数为基准数,从每个手机对应的测试语音子库中的所有近静音段中随机选择基准数的一半近静音段构成每个手机对应的子训练集,从每个手机对应的测试语音子库中的剩余的所有近静音段中随机选择基准数的一半近静音段构成每个手机对应的子测试集;然后将所有手机对应的子训练集构成一个总训练集,并将所有手机对应的子测试集构成一个总测试集;接着将由总训练集得到的所有手机的最终本底噪声的频谱分布特征构成一个训练特征空间,并将由总测试集得到的所有手机的最终本底噪声的频谱分布特征构成一个测试特征空间;之后利用主成分分析(PCA)方法对训练特征空间进行降维操作,再对降维后的训练特征空间中的所有值进行归一化处理;并根据对训练特征空间进行降维操作所采用的映射矩阵对测试特征空间进行降维操作,再对降维后的测试特征空间中的所有值进行归一化处理;最后利用Matlab自带的SVM分类函数先对归一化处理后的训练特征空间进行模型训练,得到一个训练好的多分类模型,再利用训练好的多分类模型对总测试集中的每个近静音段进行分类判别。
在此具体实施例中,步骤⑥中Matlab自带的SVM分类函数使用的是RBF核函数,Matlab自带的SVM分类函数中对惩罚系数和伽马系数采用交叉验证方式得到最优值。
为了进一步说明本发明方法的可行性和有效性,对本发明方法进行实验验证。
在实验中,建立每个手机对应的一个语音子库,来有效的评估本发明方法的可行性和有效性。表1列出了实验所采用的24个手机的品牌和型号,利用该24个手机采集语音。邀请12个参与者(6男6女)参与语音采集。每个参与者需要用正常的语速朗读固定内容,时长保证3分钟以上。录音环境是一间相对安静的办公室,24个手机同时打开和关闭录音机。每个手机采集了12个参与者的语音,将每个语音分割成5秒的语音片段,每个手机得到400个语音样本,构成该手机对应的语音子库。对每个手机对应的语音子库中的每个语音样本进行近静音段估计提取,得到每个手机对应的语音子库中的每个语音样本中的近静音段,再经后处理及拼接后得到每个手机对应的语音子库中的每个语音样本中的最终近静音段。由于近静音段的长度不一致,因此为了保证在构建特征空间时特征矩阵长度保持一致,选取每个型号手机240个语音帧数大于40帧的近静音段,组成求取本底噪声的频谱分布特征的测试语音子库。构造特征空间时,取每个近静音段的前40帧的本底噪声的频谱分布特征的平均值,此处帧长为30毫秒,帧移为15毫秒。
表1实验中所采用的手机的品牌和型号以及类名
结合主成分分析(PCA)和Matlab自带的SVM分类函数,从每个手机对应的测试语音子库中的所有近静音段中随机选择基准数的一半近静音段构成每个手机对应的子训练集,从每个手机对应的测试语音子库中的剩余的所有近静音段中随机选择基准数的一半近静音段构成每个手机对应的子测试集;然后将所有手机对应的子训练集构成一个总训练集,并将所有手机对应的子测试集构成一个总测试集。将由总训练集得到的所有手机的最终本底噪声的频谱分布特征构成一个训练特征空间,并将由总测试集得到的所有手机的最终本底噪声的频谱分布特征构成一个测试特征空间。先利用PCA对训练特征空间进行降维,然后将降维后的训练特征空间中的所有值归一化处理,测试特征空间根据训练特征空间降维所采用的映射矩阵进行降维,然后对降维后的测试特征空间中的所有值进行归一化处理。最后利用Matlab自带的SVM分类函数先对归一化处理后的训练特征空间进行模型训练,再利用训练好的多分类模型对总测试集中的每个近静音段进行分类判别。
上述,短时傅里叶变换的点数为4096,得到的每个手机的每个最终本底噪声的频谱分布特征的维数为2049,频谱分布特征的维数太大,可能会导致频谱分布特征不能完全独立不相关。由于冗余的频谱分布特征不能提升识别的准确率,甚至会影响性能,因此利用PCA进行降维,形成最好的训练特征空间和测试特征空间,经实验测试,降维后的频谱分布特征的维度为28维时,识别率最高,此时Matlab自带的SVM分类函数中对惩罚系数和伽马系数的值对应为112和0.01。
表2列出了24个手机的识别率,从表2所列的数据可计算得到平均识别准确率为99.24%。本发明方法可以较好的完成24个手机的分类识别,苹果6的识别率为91.67%,其主要误判来自品牌类内区分,将之误判为苹果4s和苹果5s。除苹果6以外,其他手机都有较高的识别准确率,其中有18个手机到达100%的识别率,三星、OPPO、魅族等品牌可以做到无差错分类。从上述实验结果来看,手机的本底噪声可以作为手机的“指纹”很好的进行手机来源识别。在手机来源识别的音频取证领域,手机的本底噪声是一个很有区分性的特征。
表2 24个手机的识别率(%)

Claims (3)

1.一种基于设备本底噪声频谱特征的手机来源识别方法,其特征在于包括以下步骤:
①选取M个不同主流品牌不同主流型号的手机,并选取N个不同年龄不同性别的参与者;然后利用M个手机同时采集每个参与者用正常的语速朗读固定内容的语音,每个手机共采集到N个语音,M个手机共采集到M×N个语音,要求每个语音的时长至少为3分钟;接着将每个手机采集到的每个语音转换成wav格式语音;之后将每个手机对应的每个wav格式语音分割成3~10秒的语音片段,并取10个语音片段作为语音样本;再将每个手机对应的共10N个语音样本构成一个语音子库;其中,M>1,N≥1;
②利用自适应端点检测算法对每个手机对应的语音子库中的每个语音样本进行近静音段估计提取;然后对从每个手机对应的语音子库中的每个语音样本中提取出的近静音段进行后处理,以消除近静音段中不必要的语音部分,得到每个手机对应的语音子库中的每个语音样本对应的多段后处理后的近静音段;再将每个手机对应的语音子库中的每个语音样本对应的多段后处理后的近静音段拼接起来整合成一个最终近静音段;
③保留每个手机对应的所有最终近静音段中时长大于或等于1.5秒的最终近静音段,并将保留的所有最终近静音段构成该手机对应的用于求取本底噪声的频谱分布特征的测试语音子库;
④利用改进的谱减法抑制每个手机对应的测试语音子库中的每个近静音段的背景噪声,得到每个手机对应的测试语音子库中的每个近静音段的背景噪声模型;然后获得所有手机对应的通用背景噪声模型,将第k个频率点处所有手机对应的通用背景噪声模型描述为BNmean(k),其中,符号“| |”为取绝对值符号,BNm(k,n)表示第m个手机对应的测试语音子库中的所有近静音段的背景噪声模型的语谱图中的第k个频率点、第n帧在短时傅里叶变换域的频谱系数,1≤k≤K,K表示每个近静音段的频率点的总个数,Kfft表示短时傅里叶变换的点数;
⑤将每个手机对应的测试语音子库中的每个近静音段与所有手机对应的通用背景噪声模型的差值作为该手机的一个本底噪声;然后对每个手机的每个本底噪声进行中值滤波处理以去除每个手机的每个本底噪声中残余的背景噪声,得到每个手机的每个最终本底噪声;接着对每个手机的每个最终本底噪声进行傅里叶变换,得到每个手机的每个最终本底噪声的频谱系数;再对每个手机的每个最终本底噪声的频谱系数取10的对数,得到每个手机的每个最终本底噪声的取对数后的频谱系数;最后沿时间轴对每个手机的每个最终本底噪声的取对数后的频谱系数前T帧取平均,将该平均值作为每个手机的每个最终本底噪声的频谱分布特征;其中,傅里叶变换的点数为Kfft,T帧的时长小于或等于1.5秒,且T≥3,每个手机的每个最终本底噪声的频谱分布特征的维数为K;
⑥统计每个手机对应的测试语音子库中的近静音段的总个数,以最小的总个数为基准数,从每个手机对应的测试语音子库中的所有近静音段中随机选择基准数的一半近静音段构成每个手机对应的子训练集,从每个手机对应的测试语音子库中的剩余的所有近静音段中随机选择基准数的一半近静音段构成每个手机对应的子测试集;然后将所有手机对应的子训练集构成一个总训练集,并将所有手机对应的子测试集构成一个总测试集;接着将由总训练集得到的所有手机的最终本底噪声的频谱分布特征构成一个训练特征空间,并将由总测试集得到的所有手机的最终本底噪声的频谱分布特征构成一个测试特征空间;之后利用主成分分析方法对训练特征空间进行降维操作,再对降维后的训练特征空间中的所有值进行归一化处理;并根据对训练特征空间进行降维操作所采用的映射矩阵对测试特征空间进行降维操作,再对降维后的测试特征空间中的所有值进行归一化处理;最后利用Matlab自带的SVM分类函数先对归一化处理后的训练特征空间进行模型训练,得到一个训练好的多分类模型,再利用训练好的多分类模型对总测试集中的每个近静音段进行分类判别。
2.根据权利要求1所述的一种基于设备本底噪声频谱特征的手机来源识别方法,其特征在于所述的步骤②中对从每个手机对应的语音子库中的每个语音样本中提取出的近静音段进行后处理的具体过程为:找出每个手机对应的语音子库中的每个语音样本中提取出的近静音段上的所有采样点的采样值中小于5×Thr的所有采样点,每连续的多个采样点形成一段后处理后的近静音段,得到每个手机对应的语音子库中的每个语音样本对应的多段后处理后的近静音段;其中,Thr表示利用自适应端点检测算法从每个手机对应的语音子库中的每个语音样本中提取出的近静音段上的所有采样点的采样值的绝对值升序排列后前30~50%的所有采样值的平均值。
3.根据权利要求1或2所述的一种基于设备本底噪声频谱特征的手机来源识别方法,其特征在于所述的步骤⑥中Matlab自带的SVM分类函数使用的是RBF核函数,Matlab自带的SVM分类函数中对惩罚系数和伽马系数采用交叉验证方式得到最优值。
CN201611129639.5A 2016-12-09 2016-12-09 一种基于设备本底噪声频谱特征的手机来源识别方法 Active CN106531159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611129639.5A CN106531159B (zh) 2016-12-09 2016-12-09 一种基于设备本底噪声频谱特征的手机来源识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611129639.5A CN106531159B (zh) 2016-12-09 2016-12-09 一种基于设备本底噪声频谱特征的手机来源识别方法

Publications (2)

Publication Number Publication Date
CN106531159A true CN106531159A (zh) 2017-03-22
CN106531159B CN106531159B (zh) 2019-06-18

Family

ID=58341615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611129639.5A Active CN106531159B (zh) 2016-12-09 2016-12-09 一种基于设备本底噪声频谱特征的手机来源识别方法

Country Status (1)

Country Link
CN (1) CN106531159B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106941008A (zh) * 2017-04-05 2017-07-11 华南理工大学 一种基于静音段的异源音频拼接篡改盲检测方法
CN107123419A (zh) * 2017-05-18 2017-09-01 北京大生在线科技有限公司 Sphinx语速识别中背景降噪的优化方法
CN107274912A (zh) * 2017-07-13 2017-10-20 东莞理工学院 一种手机录音的设备来源辨识方法
CN107507626A (zh) * 2017-07-07 2017-12-22 宁波大学 一种基于语音频谱融合特征的手机来源识别方法
CN108461092A (zh) * 2018-03-07 2018-08-28 燕山大学 一种对帕金森病语音分析的方法
CN109285538A (zh) * 2018-09-19 2019-01-29 宁波大学 一种基于常q变换域的加性噪声环境下手机来源识别方法
WO2019119687A1 (zh) * 2017-12-19 2019-06-27 浙江大学 基于机器学习的防御无声指令控制语音助手的方法
CN111092983A (zh) * 2019-12-25 2020-05-01 清华大学深圳国际研究生院 一种基于滑模变结构控制的语音通话回声与底噪抑制方法
CN112927680A (zh) * 2021-02-10 2021-06-08 中国工商银行股份有限公司 一种基于电话信道的声纹有效语音的识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107650A (ja) * 2009-11-20 2011-06-02 Casio Computer Co Ltd 音声特徴量算出装置、音声特徴量算出方法及び音声特徴量算出プログラム並びに音声認識装置
CN102394062A (zh) * 2011-10-26 2012-03-28 华南理工大学 一种自动录音设备源识别的方法和系统
CN105632516A (zh) * 2016-01-13 2016-06-01 宁波大学 一种基于边信息统计特性的mp3录音文件来源识别方法
CN105845132A (zh) * 2016-03-22 2016-08-10 宁波大学 一种基于编码参数统计特性的aac录音文件来源识别方法
CN106198765A (zh) * 2015-04-29 2016-12-07 中国科学院声学研究所 一种用于金属裂纹监测的声学信号识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107650A (ja) * 2009-11-20 2011-06-02 Casio Computer Co Ltd 音声特徴量算出装置、音声特徴量算出方法及び音声特徴量算出プログラム並びに音声認識装置
CN102394062A (zh) * 2011-10-26 2012-03-28 华南理工大学 一种自动录音设备源识别的方法和系统
CN106198765A (zh) * 2015-04-29 2016-12-07 中国科学院声学研究所 一种用于金属裂纹监测的声学信号识别方法
CN105632516A (zh) * 2016-01-13 2016-06-01 宁波大学 一种基于边信息统计特性的mp3录音文件来源识别方法
CN105845132A (zh) * 2016-03-22 2016-08-10 宁波大学 一种基于编码参数统计特性的aac录音文件来源识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王志锋,贺前华,李艳雄: "录音设备的建模和识别算法", 《信号处理》 *
贺前华,王志锋,ALEXANDER I RUDNICKY,朱铮宇,李新超: "基于改进PNCC特征和两步区分性训练的录音设备识别方法", 《电子学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106941008B (zh) * 2017-04-05 2020-11-24 华南理工大学 一种基于静音段的异源音频拼接篡改盲检测方法
CN106941008A (zh) * 2017-04-05 2017-07-11 华南理工大学 一种基于静音段的异源音频拼接篡改盲检测方法
CN107123419A (zh) * 2017-05-18 2017-09-01 北京大生在线科技有限公司 Sphinx语速识别中背景降噪的优化方法
CN107507626A (zh) * 2017-07-07 2017-12-22 宁波大学 一种基于语音频谱融合特征的手机来源识别方法
CN107507626B (zh) * 2017-07-07 2021-02-19 宁波大学 一种基于语音频谱融合特征的手机来源识别方法
CN107274912A (zh) * 2017-07-13 2017-10-20 东莞理工学院 一种手机录音的设备来源辨识方法
CN107274912B (zh) * 2017-07-13 2020-06-19 东莞理工学院 一种手机录音的设备来源辨识方法
US11450324B2 (en) 2017-12-19 2022-09-20 Zhejiang University Method of defending against inaudible attacks on voice assistant based on machine learning
WO2019119687A1 (zh) * 2017-12-19 2019-06-27 浙江大学 基于机器学习的防御无声指令控制语音助手的方法
CN108461092A (zh) * 2018-03-07 2018-08-28 燕山大学 一种对帕金森病语音分析的方法
CN108461092B (zh) * 2018-03-07 2022-03-08 燕山大学 一种对帕金森病语音分析的方法
CN109285538A (zh) * 2018-09-19 2019-01-29 宁波大学 一种基于常q变换域的加性噪声环境下手机来源识别方法
CN109285538B (zh) * 2018-09-19 2022-12-27 宁波大学 一种基于常q变换域的加性噪声环境下手机来源识别方法
CN111092983B (zh) * 2019-12-25 2020-12-11 清华大学深圳国际研究生院 一种基于滑模变结构控制的语音通话回声与底噪抑制方法
CN111092983A (zh) * 2019-12-25 2020-05-01 清华大学深圳国际研究生院 一种基于滑模变结构控制的语音通话回声与底噪抑制方法
CN112927680A (zh) * 2021-02-10 2021-06-08 中国工商银行股份有限公司 一种基于电话信道的声纹有效语音的识别方法及装置
CN112927680B (zh) * 2021-02-10 2022-06-17 中国工商银行股份有限公司 一种基于电话信道的声纹有效语音的识别方法及装置

Also Published As

Publication number Publication date
CN106531159B (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN106531159A (zh) 一种基于设备本底噪声频谱特征的手机来源识别方法
CN109285538B (zh) 一种基于常q变换域的加性噪声环境下手机来源识别方法
CN107507626B (zh) 一种基于语音频谱融合特征的手机来源识别方法
CN108986824B (zh) 一种回放语音检测方法
CN102486920A (zh) 音频事件检测方法和装置
CN107274916A (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
Hansen et al. Analysis of human scream and its impact on text-independent speaker verification
Hanilçi et al. Optimizing acoustic features for source cell-phone recognition using speech signals
Paul et al. Countermeasure to handle replay attacks in practical speaker verification systems
Murugappan et al. DWT and MFCC based human emotional speech classification using LDA
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
Shen et al. Rars: Recognition of audio recording source based on residual neural network
Le et al. A study of voice source and vocal tract filter based features in cognitive load classification
Zeng et al. Feature selection based on ReliefF and PCA for underwater sound classification
Vasquez-Correa et al. Wavelet-based time-frequency representations for automatic recognition of emotions from speech
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
CN110299133A (zh) 基于关键字判定非法广播的方法
Mansour et al. A comparative study in emotional speaker recognition in noisy environment
Fukuda et al. Improved voice activity detection using static harmonic features
Islam et al. A Novel Approach for Text-Independent Speaker Identification Using Artificial Neural Network
CN111326161B (zh) 一种声纹确定方法及装置
CN113516987A (zh) 一种说话人识别方法、装置、存储介质及设备
Chougule et al. Speaker recognition in mismatch conditions: a feature level approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant