CN106683687A - 异常声音的分类方法和装置 - Google Patents

异常声音的分类方法和装置 Download PDF

Info

Publication number
CN106683687A
CN106683687A CN201611262895.1A CN201611262895A CN106683687A CN 106683687 A CN106683687 A CN 106683687A CN 201611262895 A CN201611262895 A CN 201611262895A CN 106683687 A CN106683687 A CN 106683687A
Authority
CN
China
Prior art keywords
subfilter
abnormal sound
mel
frequency
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611262895.1A
Other languages
English (en)
Other versions
CN106683687B (zh
Inventor
秦宇
唐少华
李伟红
李正浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Hangzhou Huawei Digital Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Huawei Digital Technologies Co Ltd filed Critical Hangzhou Huawei Digital Technologies Co Ltd
Priority to CN201611262895.1A priority Critical patent/CN106683687B/zh
Publication of CN106683687A publication Critical patent/CN106683687A/zh
Application granted granted Critical
Publication of CN106683687B publication Critical patent/CN106683687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本申请实施例提供了一种异常声音的分类方法和装置,该方法包括:对异常声音信号进行分帧处理,得到N帧信号,N为大于1的整数;根据滤波器模型对该N帧信号中的每帧信号进行滤波处理,得到该异常声音信号的能量特征信息,该滤波器模型包括M个子滤波器,该M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,M为大于1的整数;根据该异常声音信号的能量特征信息,确定该异常声音信号的分类结果。采用本申请实施例提供的异常声音的分类方法和装置,能够提高异常声音分类的准确度。

Description

异常声音的分类方法和装置
技术领域
本申请实施例涉及音频信号处理领域,更具体地,涉及音频信号处理领域中异常声音的分类方法和装置,以及建立滤波器模型的方法和滤波器模型。
背景技术
公共场所是指公众从事社会生活的各种场所如广场、车站、学校等。公共场所中所发生的各种异常事件、犯罪事件等都与人们的生命财产与安全息息相关。目前,公共场所安全监视主要以视频监视平台为核心,大多还没有音频监控能力。由于大多数公共场所发生的异常事件都伴随有异常声音的产生,如枪声、爆炸声、玻璃破碎声、尖叫声等。异常声音的产生标明异常事件已发生或者即将发生。通过音频监控技术弥补视频监控平台的不足,已成为公共场所安全监控的发展方向。由于音频监控领域相关理论与技术的缺乏,对公共场所异常声音的确定和分类具有重要的研究意义。
对于公共场所异常声音特征的提取方法,大多沿用传统的语音信号处理方法,如梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)。但是由于公共场所异常声音包含语音信号(如尖叫声),还包括非语音信号(如枪声、爆炸声、玻璃破碎声),由于公共场所异常声音信号的基频频率分散,信号能量在不同宽度的频率域集中分布,同时在整个频率域呈现非均匀分布的特点,上述传统方法对异常声音的特征描述有限,导致分类结果不佳。
发明内容
本申请提供了一种异常声音的分类方法和装置,能够提高异常声音分类的准确度。
本申请还提供了一种建立滤波器模型的方法和装置,能够提高对异常声音特征的描述能力,从而提高异常声音分类的准确度。
第一方面,本申请实施例提供了一种异常声音的分类方法,该方法包括:
对异常声音信号进行分帧处理,得到N帧信号,N为大于1的整数;
根据滤波器模型对该N帧信号中的每帧信号进行滤波处理,得到该异常声音信号的能量特征信息,该滤波器模型包括M个子滤波器,该M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,该异常声音信号的能量特征信息包括该N帧信号中的每帧信号在该M个子滤波器中第i个子滤波器上输出的能量的和,M为大于1的整数,i为大于或等于1且小于或等于M的整数;
根据该异常声音信号的能量特征信息,确定该异常声音信号的分类结果。
具体而言,对于待确定分类的异常声音信号,先对该异常声音进行分帧处理,然后将每一帧利用滤波器模型进行滤波,得到该帧信号不同频率成分的能量信息,形成该帧信号的能量特征信息,逐帧计算该异常声音信号所有帧的能量特征信息,并根据该异常声音信号的能量特征信息确定该异常声音信号的分类。
应理解,该滤波器模型可以为M个子滤波器组成的滤波器组。
还应理解,本申请实施例中的异常声音例如可以为枪声、爆炸声、玻璃破碎声或尖叫声等公共场所中影响公共安全的声音,这些声音在整个频带上的能量统计不均匀,沿用经典的MFCC的滤波器会导致特征信息量降低,从而异常声音的鉴别能力也比较低。
可选地,该多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,可以为该多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的均等。
根据信息论原理可知,利用滤波器组对信号进行处理时,当该M个子滤波器中每个子滤波器输出的能量统计均等时,信号的特征能够表达的信息量最大。
应理解,该异常声音信号的能量特征信息包括该N帧信号中的每帧信号在该M个子滤波器中第i个子滤波器上输出的能量的和,可以理解为该异常声音信号的能量特征信息为由该N帧信号中每帧信号在该M个子滤波器中第i个子滤波器上输出的能量的和组成的能量特征向量。
可选地,根据该异常声音信号的能量特征信息确定该异常声音信号的分类,可以为根据该异常声音信号的能量特征信息,和预先训练的异常声音识别的支持向量机(Support Vector Machine,SVM)模型,得到分类结果。
可选地,该SVM模型可通过建立异常声音样本库,该异常声音样本库中可以包括大量不同类型的异常声音,选择一定数量的每种类型的异常声音训练成训练集,确定该训练集中每个异常声音信号的能量特征信息,然后基于支持向量机理论,训练得到该类型异常声音识别的SVM模型。
可选地,根据该异常声音信号的能量特征信息,和预先训练的异常声音识别的SVM模型,得到分类结果,可以为将该异常声音信号的能量特征信息与SVM模型进行比较,获得该异常声音信号的分类结果。
本申请实施例提供的异常声音信号的分类方法,通过滤波器模型对异常声音信号包括的N帧信号进行滤波处理,得到该异常声音的能量特征信息,并根据该异常声音信号的能量特征信息,确定该异常声音信号的分类结果,其中,该滤波器模型包括M个子滤波器,该M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间在频率上连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量均等,能够提高异常声音的分类准确度。
在一个可能的实现方式中,该根据该异常声音信号的能量特征信息,确定该异常声音信号的分类结果,包括:根据该异常声音信号的能量特征信息,确定该异常声音信号的能量差分特征信息,该异常声音信号的能量差分特征信息包括该N帧信号中的每帧信号在该第i个子滤波器上输出的差分能量的和,该N帧信号中第k帧信号在该第i个子滤波器上输出的差分能量为第k+1帧信号与第k-1帧信号在该第i个子滤波器上输出的能量的差值,k为大于1且小于N的整数;根据该异常声音信号的能量特征信息和该异常声音信号的能量差分特征信息,确定该异常声音信号的分类结果。
应理解,该异常声音信号的能量差分特征信息包括该N帧信号中的每帧信号在该M个子滤波器中第i个子滤波器上输出的差分能量的和,可以理解为该异常声音信号的差分能量特征信息为由该N帧信号中每帧信号在该M个子滤波器中第i个子滤波器上输出的差分能量的和组成的能量差分特征向量。
还应理解,为了提升声音特征对异常声音信号的分类的鉴别能力,本申请实施例根据异常声音信号在不同频带能量分布差异明显,且不同时刻信号能量变化大的特点,进一步计算前后帧能量特征之间的差分,得到每帧信号的能量差分特征信息。
可选地,可以根据现有模式识别技术通过每帧信号的能量特征信息确定该帧信号的能量差分特征信息,本申请实施例对此不作限定。
本申请实施例提供的确定异常声音的分类方法,通过异常声音信号的能量特征信息和该异常声音信号的能量特征信息能量差分特征信息,确定该异常声音信号的分类结果,能够提高特征对异常声音信号的分类鉴别能力。。
在一个可能的实现方式中,该根据该异常声音信号的能量特征信息和该异常声音信号的能量差分特征信息,确定该异常声音信号的分类结果,包括:对该异常声音信号的能量特征信息和该异常声音信号的能量差分特征信息进行规范化处理,得到规范化能量特征信息和规范化能量差分特征信息;根据该规范化能量特征信息和该规范化能量差分特征信息,确定该异常声音信号的分类特征信息;根据该异常声音信号的分类特征信息,确定该异常声音信号的分类结果。
应理解,本申请实施例中的规范化特征融合可以采用现有的规范化方法。
采用规范化多特征加权融合的方法对异常声音信号的能量特征信息和能量差分特征信息进行融合,得到异常声音信号的分类特征信息,并根据该分类特征信息,确定该异常声音的分类,能够进一步提高异常声音的分类的准确度,并且能够避免某种特征在分类过程中占主导,影响分类结果的准确度。
在一种可能的实现方式中,该异常声音信号在该第i个子滤波器上输出的能量mi由下式确定:
其中,为该N帧信号中第j帧信号在该第i个子滤波器上输出的能量;
该异常声音信号的能量特征信息由下式确定:
其中,j为大于或等于1,且小于或等于N的整数。
在一种可能的实现方式中,该N帧信号中第k帧信号在该M个子滤波器中的第i个子滤波器上输出的差分能量由下式确定:
该异常声音信号在该第i个子滤波器上输出的差分能量Δi由下式确定:
该异常声音信号的能量差分特征信息由下式确定:
在一种可能的实现方式中,该规范化能量特征信息由下式确定:
其中,包括该M个子滤波器中每个子滤波器在对该多个不同类型的异常声音信号样本进行滤波后,该M个子滤波器中每个子滤波器上输出的最小能量,包括该M个子滤波器中每个子滤波器在对该多个不同类型的异常声音信号样本进行滤波后,该M个子滤波器中每个子滤波器上输出的最大能量。
应理解,该为由该M个子滤波器中每个子滤波器在对该多个不同类型的异常声音信号样本进行滤波后,该M个子滤波器中每个子滤波器上输出的最小能量组成的最小能量特征向量。
还应理解,为由该M个子滤波器中每个子滤波器在对该多个不同类型的异常声音信号样本进行滤波后,该M个子滤波器中每个子滤波器上输出的最大能量组成的最大能量特征向量。
在一种可能的实现方式中,该规范化能量差分特征信息由下式确定:
其中,包括该M个子滤波器中每个子滤波器在对该多个不同类型的异常声音信号样本进行滤波后,该M个子滤波器中每个子滤波器上输出的最小差分能量,包括该M个子滤波器中每个子滤波器在对该多个不同类型的异常声音信号样本进行滤波后,该M个子滤波器中每个子滤波器上输出的最大差分能量。
应理解,该为由该M个子滤波器中每个子滤波器在对该多个不同类型的异常声音信号样本进行滤波后,该M个子滤波器中每个子滤波器上输出的最小差分能量组成的最小能量差分特征向量。
还应理解,为由该M个子滤波器中每个子滤波器在对该多个不同类型的异常声音信号样本进行滤波后,该M个子滤波器中每个子滤波器上输出的最大差分能量组成的最大能量差分特征向量。
在一种可能的实现方式中,该异常声音信号的分类特征信息由下式确定:
其中,α1和α2是根据该异常声音信号的能量特征信息和能量差分特征信息的分类能力确定的,α1和α2均大于0,且α12=1。
在一种可能的实现方式中,在该根据滤波器模型对该N帧信号中的每帧信号进行滤波处理,得到该异常声音信号的能量特征信息之前,该分类方法还包括:建立该滤波器模型,该滤波器模型包括该M个子滤波器。
在一种可能的实现方式中,该建立该滤波器模块包括:对统计的多个不同类型的异常声音信号样本的梅尔频率谱进行频谱归一化处理,得到该多个不同类型的异常声音信号样本的统计梅尔频谱;根据该不同类型的异常声音信号样本的统计梅尔频谱,确定该统计梅尔频谱的线性拟合函数,该线性拟合函数用于表示该统计梅尔频谱中梅尔频率与该梅尔频率对应的幅度响应值之间的映射关系,该线性拟合函数包括第一线性函数和第二线性函数;根据该线性拟合函数和该M个子滤波器的数量,确定该M个子滤波器中每个子滤波器的起始频率和截止频率,以及该每个子滤波器的幅度响应值,其中,该M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于该能量阈值;根据该M个子滤波器中每个子滤波器的起始频率和截止频率,以及该每个子滤波器的幅度响应值,建立该滤波器模型。
具体而言,在统计多个不同类型的梅尔频率域归一化幅度谱的基础上,通过线性拟合确定了梅尔频率域的M个子滤波器包络曲线,然后基于该包络曲线下统计能量均等的原则,将梅尔频率域划分为若干区间,并以区间的起止频率点作为该M个子滤波器中每个子滤波器的起始频率和截止频率,建立梅尔频率域内的该M个子滤波器,使得多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量均等。
应理解,该滤波器模型可以为M个子滤波器组成的滤波器组,统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量均等,表示在统计梅尔频谱的频率域内,每个滤波器的起始频率、截止频率与包络曲线所围成的部分面积相同。
还应理解,本申请实施例中的异常声音例如可以为枪声、爆炸声、玻璃破碎声或尖叫声等公共场所中影响公共安全的声音,这些声音在整个频带上的能量统计不均匀,沿用经典的MFCC的滤波器会导致特征信息量降低,从而异常声音的鉴别能力也比较低。
可选地,该多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,可以为该多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的均等。
根据信息论原理可知,利用滤波器组对信号进行处理时,当该M个子滤波器中每个子滤波器输出的能量统计均等时,信号的特征能够表达的信息量最大。
本申请实施例提供的异常声音的分类方法,能够提高对异常声音特征的描述能力,从而提高异常声音分类的准确度。
在一种可能的实现方式中,该线性拟合函数A(fmel)由下式确定:
其中,fmel表示梅尔频率值,A(fmel)表示梅尔频率值对应的幅度响应值。
在一种可能的实现方式中,该M个子滤波器包括M+1个梅尔频率点,该M+1个梅尔频率点中每个梅尔频率点对应的梅尔频率由下式确定:
时:
或者时:
其中,该M+1个梅尔频率点中的第p个梅尔频率点对应的梅尔频率为p为大于或等于0,且小于或等于M+1的整数。
在一种可能的实现方式中,该M个子滤波器中第i个子滤波器的幅度响应值Ai由下式确定:
在一种可能的实现方式中,该M个子滤波器中的每个滤波器均为矩形滤波器。
在一种可能的实现方式中,该异常声音的类型包括:爆炸声、尖叫声、玻璃破碎声或枪声。
在一种可能的实现方式中,该异常声音信号的分类结果为:该异常声音信号为爆炸声、尖叫声、玻璃破碎声或枪声。
第二方面,本申请实施例提供了一种建立滤波器模型的方法,该滤波器模型包括M个子滤波器,该方法包括:
对多个不同类型的异常声音信号样本中每个异常声音信号样本的梅尔频率谱进行频谱归一化处理,得到该多个不同类型的异常声音信号样本的统计梅尔频谱;
根据该多个不同类型的异常声音信号样本的统计梅尔频谱,确定该统计梅尔频谱的线性拟合函数,该线性拟合函数用于表示该统计梅尔频谱中梅尔频率与该梅尔频率对应的幅度响应值之间的映射关系,该线性拟合函数包括第一线性函数和第二线性函数;
根据该线性拟合函数和该M个子滤波器的数量,确定该M个子滤波器中每个子滤波器的起始频率和截止频率,以及该每个子滤波器的幅度响应值,其中,该M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,M为大于1的整数;
根据该M个子滤波器中每个子滤波器的起始频率和截止频率,以及该每个子滤波器的幅度响应值,建立该滤波器模型。
应理解,该滤波器模型可以为M个子滤波器组成的滤波器组,统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量均等,表示在统计梅尔频谱的频率域内,每个滤波器的起始频率、截止频率与包络曲线所围成的部分面积相同。
还应理解,本申请实施例中的异常声音例如可以为枪声、爆炸声、玻璃破碎声或尖叫声等公共场所中影响公共安全的声音,这些声音在整个频带上的能量统计不均匀,沿用经典的MFCC的滤波器会导致特征信息量降低,从而异常声音的鉴别能力也比较低。
可选地,该多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,可以为该多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的均等。
根据信息论原理可知,利用滤波器组对信号进行处理时,当该M个子滤波器中每个子滤波器输出的能量统计均等时,信号的特征能够表达的信息量最大。
本申请实施例提供的建立滤波器模型的方法,能够提高对异常声音特征的描述能力,从而提高异常声音分类的准确度。
在一个可能的实现方式中,该线性拟合函数A(fmel)由下式确定:
其中,fmel表示梅尔频率值,A(fmel)表示梅尔频率值对应的幅度响应值。
在一个可能的实现方式中,该M个子滤波器包括M+1个梅尔频率点,该M+1个梅尔频率点中每个梅尔频率点对应的梅尔频率由下式确定:
时:
或者时:
其中,该M+1个梅尔频率点中的第p个梅尔频率点对应的梅尔频率为p为大于或等于0,且小于或等于M+1的整数。
在一个可能的实现方式中,该M个子滤波器中第i个子滤波器的幅度响应值Ai由下式确定:
其中,i为大于或等于1且小于或等于M的整数。
在一个可能的实现方式中,该M个子滤波器中的每个滤波器均为矩形滤波器。
在一个可能的实现方式中,不同类型的异常声音信号样本包括:爆炸声、尖叫声、玻璃破碎声或枪声。
第三方面,本申请提供了一种异常声音的分类装置,用于执行上述第一方面或第一方面的任意可能的实现方式中的异常声音的分类方法。具体地,该异常声音的分类装置包括用于执行上述第一方面或第一方面的任意可能的实现方式中的异常声音的分类方法的单元。
第四方面,本申请提供了一种建立滤波器模型的装置,用于执行上述第二面或第二方面的任意可能的实现方式中的建立。具体地,建立滤波器模型的装置包括用于执行上述第二方面或第二方面的任意可能的实现方式中的建立滤波器模型的方法。
第五方面,本申请提供了一种异常声音的分类装置,包括:存储单元和处理器,该存储单元用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,该执行使得该处理器执行第一方面或第一方面的任意可能的实现方式中的异常声音的分类方法。
第六方面,本申请提供了一种建立滤波器模型的装置,包括:存储单元和处理器,该存储单元用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,该执行使得该处理器执行第二方面或第二方面的任意可能的实现方式中的建立滤波器模型的方法。
第七方面,本申请提供了一种计算机可读介质,用于存储计算机程序,该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的异常声音的分类方法的指令。
第八方面,本申请提供了一种计算机可读介质,用于存储计算机程序,该计算机程序包括用于执行第二方面或第二方面的任意可能的实现方式中的建立滤波器模型的方法的指令。
附图说明
图1是本申请实施例的建立滤波器模型的方法的示意性流程图;
图2是本申请实施例的多个不同类型的异常声音的统计梅尔频谱;
图3是本申请实施例的滤波器模型的频谱图;
图4是本申请实施例的异常声音的分类方法的示意性流程图;
图5是本申请实施例的建立滤波器模型的装置的示意性框图;
图6是本申请实施例的异常声音的分类装置的示意性框图;
图7是本申请实施例的另一建立滤波器模型的装置的示意性框图;
图8是本申请实施例的另一异常声音的分类装置的示意性框图。
具体实施方式
下面将结合附图,对本申请实施例中的技术方案进行描述。
图1示出了本申请实施例提供的建立滤波器模型的方法100的示意性流程图,该滤波器模型包括M个子滤波器,M为大于1的整数,该方法100例如可以由建立滤波器模型的装置执行。
S110,对多个不同类型的异常声音信号样本中每个异常声音信号样本的梅尔频率谱进行频谱归一化处理,得到该多个不同类型的异常声音信号样本的统计梅尔频谱。
S120,根据该多个不同类型的异常声音信号样本的统计梅尔频谱,确定该统计梅尔频谱的线性拟合函数,该线性拟合函数用于表示该统计梅尔频谱中梅尔频率与该梅尔频率对应的幅度响应值之间的映射关系,该线性拟合函数包括第一线性函数和第二线性函数。
S130,根据该线性拟合函数和该M个子滤波器的数量,确定该M个子滤波器中每个子滤波器的起始频率和截止频率,以及该每个子滤波器的幅度响应值,其中,该M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,M为大于1的整数;
S140,根据该M个子滤波器中每个子滤波器的起始频率和截止频率,以及该每个子滤波器的幅度响应值,建立该滤波器模型。
应理解,该滤波器模型可以为M个子滤波器组成的滤波器组,统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,可以为该M个子滤波器的输出能量均等,表示为在统计梅尔频谱的频率域内,每个滤波器的起始频率、截止频率与包络曲线所围成的部分面积相同。
还应理解,本申请实施例中的异常声音例如可以为枪声、爆炸声、玻璃破碎声或尖叫声等公共场所中影响公共安全的声音,这些声音在整个频带上的能量统计不均匀,沿用经典的MFCC的滤波器会导致特征信息量降低,从而异常声音的鉴别能力也比较低。
可选地,该多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,可以为该多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的均等。
根据信息论原理可知,利用滤波器组对信号进行处理时,当该M个子滤波器中每个子滤波器输出的能量统计均等时,信号的特征能够表达的信息量最大。
本申请实施例提供的建立滤波器模型的方法,能够提高对异常声音特征的描述能力,从而提高异常声音分类的准确度。
例如,图2示出了对采样频率为16kHz的100个枪声、100个爆炸声、221个玻璃破碎声和148个尖叫声进行梅尔频率域归一化统计的结果(如图1中的实线示出了多个异常声音样本的梅尔频率域归一化统计幅度谱),根据该梅尔频率域归一化统计幅度谱显示,这四种异常声音的主要信息集中在2000mel以下,幅度谱的峰值出现在1900mel左右。为了最大限度地保留2000mel以下的信息,并使M个子滤波器中每个子滤波器的梅尔频率域输出达到统计均衡,因此可以通过线性分段函数对归一化统计幅度谱A(fmel)进行线性拟合(如图1中的虚线示出了线性拟合曲线)。
可选地,在120中,该线性拟合函数A(fmel)由公式(1)确定:
其中,fmel表示梅尔频率值,A(fmel)表示梅尔频率值对应的幅度响应值。可选地,可以将上述拟合曲线作为该M个子滤波器的幅度响应的包络线,根据统计能量均等的原则,可以得到该M个子滤波器中每个子滤波器的频率区间连续且互不重叠的起始和截止频率点。
可选地,在130中,该M个子滤波器包括M+1个梅尔频率点,该M+1个梅尔频率点中每个梅尔频率点对应的梅尔频率由公式(2)或(3)确定:
时:
或者时:
其中,该M+1个梅尔频率点中的第p个梅尔频率点对应的梅尔频率为p为大于或等于0,且小于或等于M+1的整数。
可选地,在130中,该M个子滤波器中第i个子滤波器的幅度响应值Ai由公式(4)确定:
其中,i为大于或等于1且小于或等于M的整数。
例如,图3示出了当M=12时,根据上述公式(2)、公式(3)和公式(4)得到的该M个子滤波器中每个子滤波器的起始频率、截止频率和幅度响应,建立的滤波器模型,其中该M个子滤波器中每个子滤波器均为矩形滤波器。
可选地,该M个子滤波器中的每个滤波器均为矩形滤波器。
可选地,不同类型的异常声音信号样本包括:爆炸声、尖叫声、玻璃破碎声或枪声。
应理解,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对申请实施例的实施过程构成任何限定。
图4示出了本申请实施例提供的异常声音的分类方法400的示意性流程图,该分类方法400例如可以由异常声音的分类装置执行。
S410,对异常声音信号进行分帧处理,得到N帧信号,N为大于1的整数。
S420,根据滤波器模型对该N帧信号中的每帧信号进行滤波处理,得到该异常声音信号的能量特征信息,该滤波器模型包括M个子滤波器,该M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,该异常声音信号的能量特征信息包括该N帧信号中的每帧信号在该M个子滤波器中第i个子滤波器上输出的能量的和,M为大于1的整数,i为大于或等于1且小于或等于M的整数。
S430,根据该异常声音信号的能量特征信息,确定该异常声音信号的分类结果。
具体而言,对于待确定分类的异常声音信号,先对该异常声音进行分帧处理,然后将每一帧利用滤波器模型进行滤波,得到该帧信号不同频率成分的能量信息,形成该帧信号的能量特征信息,逐帧计算该异常声音信号所有帧的能量特征信息,并根据该异常声音信号的能量特征信息确定该异常声音信号的分类。
应理解,该滤波器模型可以为M个子滤波器组成的滤波器组。
可选地,该多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,可以为该多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的均等。
根据信息论原理可知,利用滤波器组对信号进行处理时,当该M个子滤波器中每个子滤波器输出的能量统计均等时,信号的特征能够表达的信息量最大。
还应理解,本申请实施例中的异常声音例如可以为枪声、爆炸声、玻璃破碎声或尖叫声等公共场所中影响公共安全的声音,这些声音在整个频带上的能量统计不均匀,沿用经典的MFCC的滤波器会导致特征信息量降低,从而异常声音的鉴别能力也比较低。
还应理解,该异常声音信号的能量特征信息包括该N帧信号中的每帧信号在该M个子滤波器中第i个子滤波器上输出的能量的和,可以理解为该异常声音信号的能量特征信息为由该N帧信号中每帧信号在该M个子滤波器中第i个子滤波器上输出的能量的和组成的能量特征向量。
可选地,在S430中,根据该异常声音信号的能量特征信息确定该异常声音信号的分类,可以为根据该异常声音信号的能量特征信息,和预先训练的异常声音识别的支持向量机(Support Vector Machine,SVM)模型,得到分类结果。
可选地,该SVM模型可通过建立异常声音样本库,该异常声音样本库中可以包括大量不同类型的异常声音,选择一定数量的每种类型的异常声音训练成训练集,确定该训练集中每个异常声音信号的能量特征信息,然后基于支持向量机理论,训练得到该类型异常声音识别的SVM模型。
可选地,根据该异常声音信号的能量特征信息,和预先训练的异常声音识别的SVM模型,得到分类结果,可以为将该异常声音信号的能量特征信息与SVM模型进行比较,获得该异常声音信号的分类结果。
本申请实施例提供的异常声音信号的分类方法,通过滤波器模型对异常声音信号包括的N帧信号进行滤波处理,得到该异常声音的能量特征信息,并根据该异常声音信号的能量特征信息,确定该异常声音信号的分类结果,其中,该滤波器模型包括M个子滤波器,该M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间在频率上连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量均等,能够提高异常声音的分类准确度。
可选地,在S430中,该根据该异常声音信号的能量特征信息,确定该异常声音信号的分类结果,可以为根据该异常声音信号的能量特征信息,确定该异常声音信号的能量差分特征信息,该异常声音信号的能量差分特征信息包括该N帧信号中的每帧信号在该第i个子滤波器上输出的差分能量的和,该N帧信号中第k帧信号在该第i个子滤波器上输出的差分能量为第k+1帧信号与第k-1帧信号在该第i个子滤波器上输出的能量的差值,k为大于1且小于N的整数;根据该异常声音信号的能量特征信息和该异常声音信号的能量差分特征信息,确定该异常声音信号的分类结果。
应理解,为了提升声音特征对异常声音信号的分类的鉴别能力,本申请实施例根据异常声音信号在不同频带能量分布差异明显,且不同时刻信号能量变化大的特点,进一步计算前后帧能量特征之间的差分,得到每帧信号的能量差分特征信息。
还应理解,该异常声音信号的能量差分特征信息包括该N帧信号中的每帧信号在该M个子滤波器中第i个子滤波器上输出的差分能量的和,可以理解为该异常声音信号的差分能量特征信息为由该N帧信号中每帧信号在该M个子滤波器中第i个子滤波器上输出的差分能量的和组成的能量差分特征向量。
可选地,可以根据现有模式识别技术通过每帧信号的能量特征信息确定该帧信号的能量差分特征信息,本申请实施例对此不作限定。
本申请实施例提供的确定异常声音的分类方法,通过异常声音信号的能量特征信息和该异常声音信号的能量特征信息能量差分特征信息,确定该异常声音信号的分类结果,能够提高特征对异常声音信号的分类鉴别能力。
可选地,在S430中,该根据该异常声音信号的能量特征信息和该异常声音信号的能量差分特征信息,确定该异常声音信号的分类结果,可以为对该异常声音信号的能量特征信息和该异常声音信号的能量差分特征信息进行规范化处理,得到规范化能量特征信息和规范化能量差分特征信息;根据该规范化能量特征信息和该规范化能量差分特征信息,确定该异常声音信号的分类特征信息;根据该异常声音信号的分类特征信息,确定该异常声音信号的分类结果。
应理解,本申请实施例中的规范化特征融合可以采用现有的规范化方法。
采用规范化多特征加权融合的方法对异常声音信号的能量特征信息和能量差分特征信息进行融合,得到异常声音信号的分类特征信息,并根据该分类特征信息,确定该异常声音的分类,能够进一步提高异常声音的分类的准确度,并且能够避免某种特征在分类过程中占主导,影响分类结果的准确度。
可选地,该异常声音信号在该第i个子滤波器上输出的能量mi由公式(5)确定:
其中,为该N帧信号中第j帧信号在该第i个子滤波器上输出的能量;
该异常声音信号的能量特征信息由公式(6)确定:
其中,j为大于或等于1,且小于或等于N的整数。
可选地,该N帧信号中第k帧信号在该M个子滤波器中的第i个子滤波器上输出的差分能量由公式(7)确定:
该异常声音信号在该第i个子滤波器上输出的差分能量Δi由公式(8)确定:
该异常声音信号的能量差分特征信息由公式(9)确定:
可选地,该规范化能量特征信息由公式(10)确定:
其中,包括该M个子滤波器中每个子滤波器在对该多个不同类型的异常声音信号样本进行滤波后,该M个子滤波器中每个子滤波器上输出的最小能量,包括该M个子滤波器中每个子滤波器在对该多个不同类型的异常声音信号样本进行滤波后,该M个子滤波器中每个子滤波器上输出的最大能量。
应理解,该为由该M个子滤波器中每个子滤波器在对该多个不同类型的异常声音信号样本进行滤波后,该M个子滤波器中每个子滤波器上输出的最小能量组成的最小能量特征向量。
还应理解,为由该M个子滤波器中每个子滤波器在对该多个不同类型的异常声音信号样本进行滤波后,该M个子滤波器中每个子滤波器上输出的最大能量组成的最大能量特征向量。
可选地,该规范化能量差分特征信息由公式(11)确定:
其中,包括该M个子滤波器中每个子滤波器在对该多个不同类型的异常声音信号样本进行滤波后,该M个子滤波器中每个子滤波器上输出的最小差分能量,包括该M个子滤波器中每个子滤波器在对该多个不同类型的异常声音信号样本进行滤波后,该M个子滤波器中每个子滤波器上输出的最大差分能量。
应理解,该为由该M个子滤波器中每个子滤波器在对该多个不同类型的异常声音信号样本进行滤波后,该M个子滤波器中每个子滤波器上输出的最小差分能量组成的最小能量差分特征向量。
还应理解,为由该M个子滤波器中每个子滤波器在对该多个不同类型的异常声音信号样本进行滤波后,该M个子滤波器中每个子滤波器上输出的最大差分能量组成的最大能量差分特征向量。
可选地,该异常声音信号的分类特征信息由公式(12)确定:
其中,α1和α2是根据该异常声音信号的能量特征信息和能量差分特征信息的分类能力确定的,α1和α2均大于0,且α12=1。
可选地,在该根据滤波器模型对该N帧信号中的每帧信号进行滤波处理,得到该异常声音信号的能量特征信息之前,该分类方法还包括:建立该滤波器模型,该滤波器模型包括该M个子滤波器。
可选地,该建立该滤波器模块包括:对统计的多个不同类型的异常声音信号样本的梅尔频率谱进行频谱归一化处理,得到该多个不同类型的异常声音信号样本的统计梅尔频谱;根据该不同类型的异常声音信号样本的统计梅尔频谱,确定该统计梅尔频谱的线性拟合函数,该线性拟合函数用于表示该统计梅尔频谱中梅尔频率与该梅尔频率对应的幅度响应值之间的映射关系,该线性拟合函数包括第一线性函数和第二线性函数;根据该线性拟合函数和该M个子滤波器的数量,确定该M个子滤波器中每个子滤波器的起始频率和截止频率,以及该每个子滤波器的幅度响应值,其中,该M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于该能量阈值;根据该M个子滤波器中每个子滤波器的起始频率和截止频率,以及该每个子滤波器的幅度响应值,建立该滤波器模型。
具体而言,在统计多个不同类型的梅尔频率域归一化幅度谱的基础上,通过线性拟合确定了梅尔频率域的M个子滤波器包络曲线,然后基于该包络曲线下统计能量均等的原则,将梅尔频率域划分为若干区间,并以区间的起止频率点作为该M个子滤波器中每个子滤波器的起始频率和截止频率,建立梅尔频率域内的该M个子滤波器,使得多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量均等。
应理解,统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量均等,表示在统计梅尔频谱的频率域内,每个滤波器的起始频率、截止频率与包络曲线所围成的部分面积相同。
可选地,该多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,可以为该多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的均等。
可选地,该线性拟合函数根据上述公式(1)确定。
可选地,该M个子滤波器包括M+1个梅尔频率点,该M+1个梅尔频率点中每个梅尔频率点对应的梅尔频率由上述公式(2)或公式(3)确定。
可选地,该M个子滤波器中第i个子滤波器的幅度响应值Ai由上述公式(4)确定。
可选地,该M个子滤波器中的每个滤波器均为矩形滤波器。
可选地,其特征在于,该异常声音的类型包括:爆炸声、尖叫声、玻璃破碎声或枪声。
应理解,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对申请实施例的实施过程构成任何限定。
上文中结合图1至图4,详细描述了根据本申请实施例的建立滤波器模型的方法和异常声音的分类方法,下面将结合图5至图8,详细描述根据本申请实施例的建立滤波器模型的装置和异常声音的分类装置。
图5示出了本申请实施例提供的建立滤波器模型的装置500的示意性框图。该建立滤波器模型的装置500包括M个子滤波器。
处理单元510,用于对多个不同类型的异常声音信号样本中每个异常声音信号样本的梅尔频率谱进行频谱归一化处理,得到该多个不同类型的异常声音信号样本的统计梅尔频谱;
确定单元520,用于根据该处理单元510处理得到的多个不同类型的异常声音信号样本的统计梅尔频谱,确定该统计梅尔频谱的线性拟合函数,该线性拟合函数用于表示该统计梅尔频谱中梅尔频率与该梅尔频率对应的幅度响应值之间的映射关系,该线性拟合函数包括第一线性函数和第二线性函数;
该确定单元520还用于根据该线性拟合函数和该M个子滤波器的数量,确定该M个子滤波器中每个子滤波器的起始频率和截止频率,以及该每个子滤波器的幅度响应值,其中,该M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,M为大于1的整数;
建模单元530,用于根据该确定单元520确定的该M个子滤波器中每个子滤波器的起始频率和截止频率,以及该每个子滤波器的幅度响应值,建立该滤波器模型。
可选地,该确定单元具体用于:由上述公式(1)确定该线性拟合函数A(fmel)。
可选地,该M个子滤波器包括M+1个梅尔频率点,该确定单元具体用于:由上述公式(2)或(3)确定该M个子滤波器包括M+1个梅尔频率点,该M+1个梅尔频率点中每个梅尔频率点对应的梅尔频率。
可选地,该确定单元具体用于:由上述公式(4)确定该M个子滤波器中第i个子滤波器的幅度响应值Ai
可选地,该M个子滤波器中的每个子滤波器均为矩形滤波器。
可选地,不同类型的异常声音信号样本包括:爆炸声、尖叫声、玻璃破碎声或枪声。
在一个可选例子中,本领域技术人员可以理解,建立滤波器模型的装置500可以具体为上述实施例100中的建立滤波器模型的装置,建立滤波器模型的装置500可以用于执行上述方法实施例100中与建立滤波器模型的装置对应的各个流程和/或步骤,为避免重复,在此不再赘述。
图6示出了本申请实施例提供的异常声音的分类装置600的示意性框图。
处理单元610,用于对异常声音信号进行分帧处理,得到N帧信号,N为大于1的整数;
滤波单元620,用于根据滤波器模型对该处理单元得到的该N帧信号中的每帧信号进行滤波处理,得到该异常声音信号的能量特征信息,该滤波器模型包括M个子滤波器,该M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,该异常声音信号的能量特征信息包括该N帧信号中的每帧信号在该M个子滤波器中第i个子滤波器上输出的能量的和,M为大于1的整数,i为大于或等于1且小于或等于M的整数;
确定单元630,用于根据该滤波单元得到的该异常声音信号的能量特征信息,确定该异常声音信号的分类结果。
可选地,该确定单元具体用于:根据该异常声音信号的能量特征信息,确定该异常声音信号的能量差分特征信息,该异常声音信号的能量差分特征信息包括该N帧信号中的每帧信号在该第i个子滤波器上输出的差分能量的和,该N帧信号中第k帧信号在该第i个子滤波器上输出的差分能量为第k+1帧信号与第k-1帧信号在该第i个子滤波器上输出的能量的差值,k为大于1且小于N的整数;根据该异常声音信号的能量特征信息和该异常声音信号的能量差分特征信息,确定该异常声音信号的分类结果。
可选地,该确定单元具体用于:对该异常声音信号的能量特征信息和该异常声音信号的能量差分特征信息进行规范化处理,得到规范化能量特征信息和规范化能量差分特征信息;根据该规范化能量特征信息和该规范化能量差分特征信息,确定该异常声音信号的分类特征信息;根据该异常声音信号的分类特征信息,确定该异常声音信号的分类结果。
可选地,该确定单元具体用于由上述公式(5)确定该异常声音信号在该第i个子滤波器上输出的能量mi;并由上述公式(6)确定该异常声音信号的能量特征信息
可选地,该确定单元具体用于由上述公式(7)确定该N帧信号中第k帧信号在该M个子滤波器中的第i个子滤波器上输出的差分能量并由上述公式(8)确定该异常声音信号在该第i个子滤波器上输出的差分能量Δi;由上述公式(9)确定该异常声音信号的能量差分特征信息
可选地,该确定单元具体用于由上述公式(10)确定该规范化能量特征信息
可选地,该确定单元具体用于由上述公式(11)确定该规范化能量差分特征信息
可选地,该确定单元具体用于由上述公式(12)确定该异常声音信号的分类特征信息
可选地,该分类装置还包括:建模单元,该建模单元用于在该根据滤波器模型对该N帧信号中的每帧信号进行滤波处理,得到该异常声音信号的能量特征信息之前,建立该滤波器模型,该滤波器模型包括该M个子滤波器。
可选地,该建模单元具体用于:对统计的多个不同类型的异常声音信号样本的梅尔频率谱进行频谱归一化处理,得到该多个不同类型的异常声音信号样本的统计梅尔频谱;根据该不同类型的异常声音信号样本的统计梅尔频谱,确定该统计梅尔频谱的线性拟合函数,该线性拟合函数用于表示该统计梅尔频谱中梅尔频率与该梅尔频率对应的幅度响应值之间的映射关系,该线性拟合函数包括第一线性函数和第二线性函数;根据该线性拟合函数和该M个子滤波器的数量,确定该M个子滤波器中每个子滤波器的起始频率和截止频率,以及该每个子滤波器的幅度响应值,其中,该M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于该能量阈值;根据该M个子滤波器中每个子滤波器的起始频率和截止频率,以及该每个子滤波器的幅度响应值,建立该滤波器模型。
可选地,该建模单元具体用于由上述公式(1)确定该线性拟合函数A(fmel)。
可选地,该M个子滤波器包括M+1个梅尔频率点,该建模单元具体用于由上述公式(2)或(3)确定该M+1个梅尔频率点中每个梅尔频率点对应的梅尔频率。
可选地,该M个子滤波器中的每个滤波器均为矩形滤波器。
可选地,该异常声音信号的分类结果为:该异常声音信号为爆炸声、尖叫声、玻璃破碎声或枪声。
在一个可选例子中,本领域技术人员可以理解,异常声音的分类装置600可以具体为上述实施例400中的异常声音的分类装置,异常声音的分类装置600可以用于执行上述方法实施例400中与异常声音的分类装置对应的各个流程和/或步骤,为避免重复,在此不再赘述。
应理解,这里的建立滤波器模型的装置500和异常声音的分类装置600可以以功能单元的形式体现。这里的术语“单元”可以指应用特有集成电路(Application SpecificIntegrated Circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
图7示出了本申请实施例提供的建立滤波器模型的装置700的示意性框图。如图7所示,该建立滤波器模型的装置700包括处理器710和存储器720。
该处理器710具体用于:
对多个不同类型的异常声音信号样本中每个异常声音信号样本的梅尔频率谱进行频谱归一化处理,得到该多个不同类型的异常声音信号样本的统计梅尔频谱;
根据该多个不同类型的异常声音信号样本的统计梅尔频谱,确定该统计梅尔频谱的线性拟合函数,该线性拟合函数用于表示该统计梅尔频谱中梅尔频率与该梅尔频率对应的幅度响应值之间的映射关系,该线性拟合函数包括第一线性函数和第二线性函数;
根据该线性拟合函数和该M个子滤波器的数量,确定该M个子滤波器中每个子滤波器的起始频率和截止频率,以及该每个子滤波器的幅度响应值,其中,该M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,M为大于1的整数;
根据该M个子滤波器中每个子滤波器的起始频率和截止频率,以及该每个子滤波器的幅度响应值,建立该滤波器模型。
可选地,该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。该处理器710可以用于执行存储器中存储的指令,并且该处理器执行该指令时,该处理器可以执行上述方法实施例中与建立滤波器模型的装置对应的各个步骤。
在一个可选例子中,本领域技术人员可以理解,建立滤波器模型的装置700可以具体为上述实施例100中的建立滤波器模型的装置,建立滤波器模型的装置700可以用于执行上述方法实施例100中与建立滤波器模型的装置对应的各个流程和/或步骤,为避免重复,在此不再赘述。
图8示出了本申请实施例提供的异常声音的分类装置800的示意性框图。如图8所示,该异常声音的分类装置800包括处理器810和存储器820。
该处理器810具体用于:
对异常声音信号进行分帧处理,得到N帧信号,N为大于1的整数;
根据滤波器模型对该N帧信号中的每帧信号进行滤波处理,得到该异常声音信号的能量特征信息,该滤波器模型包括M个子滤波器,该M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在该M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,该异常声音信号的能量特征信息包括该N帧信号中的每帧信号在该M个子滤波器中第i个子滤波器上输出的能量的和,M为大于1的整数,i为大于或等于1且小于或等于M的整数;
根据该异常声音信号的能量特征信息,确定该异常声音信号的分类结果。可选地,该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。该处理器810可以用于执行存储器中存储的指令,并且该处理器执行该指令时,该处理器可以执行上述方法实施例中与异常声音的分类装置对应的各个步骤。
在一个可选例子中,本领域技术人员可以理解,异常声音的分类装置800可以具体为上述实施例400中的异常声音的分类装置,异常声音的分类装置800可以用于执行上述方法实施例400中与异常声音的分类装置对应的各个流程和/或步骤,为避免重复,在此不再赘述。
应理解,在本申请实施例中,处理器可以是中央处理单元(Central ProcessingUnit,CPU),处理器还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器执行存储器中的指令,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请各实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (42)

1.一种异常声音的分类方法,其特征在于,包括:
对异常声音信号进行分帧处理,得到N帧信号,N为大于1的整数;
根据滤波器模型对所述N帧信号中的每帧信号进行滤波处理,得到所述异常声音信号的能量特征信息,所述滤波器模型包括M个子滤波器,所述M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在所述M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,所述异常声音信号的能量特征信息包括所述N帧信号中的每帧信号在所述M个子滤波器中第i个子滤波器上输出的能量的和,M为大于1的整数,i为大于或等于1且小于或等于M的整数;
根据所述异常声音信号的能量特征信息,确定所述异常声音信号的分类结果。
2.根据权利要求1所述的分类方法,其特征在于,所述根据所述异常声音信号的能量特征信息,确定所述异常声音信号的分类结果,包括:
根据所述异常声音信号的能量特征信息,确定所述异常声音信号的能量差分特征信息,所述异常声音信号的能量差分特征信息包括所述N帧信号中的每帧信号在所述第i个子滤波器上输出的差分能量的和,所述N帧信号中第k帧信号在所述第i个子滤波器上输出的差分能量为第k+1帧信号与第k-1帧信号在所述第i个子滤波器上输出的能量的差值,k为大于1且小于N的整数;
根据所述异常声音信号的能量特征信息和所述异常声音信号的能量差分特征信息,确定所述异常声音信号的分类结果。
3.根据权利要求2所述的分类方法,其特征在于,所述根据所述异常声音信号的能量特征信息和所述异常声音信号的能量差分特征信息,确定所述异常声音信号的分类结果,包括:
对所述异常声音信号的能量特征信息和所述异常声音信号的能量差分特征信息进行规范化处理,得到规范化能量特征信息和规范化能量差分特征信息;
根据所述规范化能量特征信息和所述规范化能量差分特征信息,确定所述异常声音信号的分类特征信息;
根据所述异常声音信号的分类特征信息,确定所述异常声音信号的分类结果。
4.根据权利要求3所述的分类方法,其特征在于,
所述异常声音信号在所述第i个子滤波器上输出的能量mi由下式确定:
m i = Σ j = 1 N m i j ,
其中,为所述N帧信号中第j帧信号在所述第i个子滤波器上输出的能量;
所述异常声音信号的能量特征信息由下式确定:
m → = ( m 1 , m 2 , ... , m M ) ,
其中,j为大于或等于1,且小于或等于N的整数。
5.根据权利要求4所述的分类方法,其特征在于,所述N帧信号中第k帧信号在所述M个子滤波器中的第i个子滤波器上输出的差分能量由下式确定:
Δ i k = m i k + 1 - m i k - 1 ;
所述异常声音信号在所述第i个子滤波器上输出的差分能量Δi由下式确定:
Δ i = Σ k = 2 N - 1 ( m i k + 1 - m i k - 1 ) ;
所述异常声音信号的能量差分特征信息由下式确定:
Δ → = ( Δ 1 , Δ 2 , ... , Δ M ) .
6.根据权利要求5所述的分类方法,其特征在于,所述规范化能量特征信息由下式确定:
m → g = ( 1 → - ( - 1 → ) ) · ( m → - m → m i n ) - ( m → m a x - m → m i n ) m → m a x - m → m i n ,
其中,包括所述M个子滤波器中每个子滤波器在对所述多个不同类型的异常声音信号样本进行滤波后,所述M个子滤波器中每个子滤波器上输出的最小能量,包括所述M个子滤波器中每个子滤波器在对所述多个不同类型的异常声音信号样本进行滤波后,所述M个子滤波器中每个子滤波器上输出的最大能量。
7.根据权利要求6所述的分类方法,其特征在于,所述规范化能量差分特征信息由下式确定:
Δ → g = ( 1 → - ( - 1 → ) ) · ( Δ → - Δ → m i n ) - ( Δ → m a x - Δ → m i n ) Δ → max - Δ → m i n ,
其中,包括所述M个子滤波器中每个子滤波器在对所述多个不同类型的异常声音信号样本进行滤波后,所述M个子滤波器中每个子滤波器上输出的最小差分能量,包括所述M个子滤波器中每个子滤波器在对所述多个不同类型的异常声音信号样本进行滤波后,所述M个子滤波器中每个子滤波器上输出的最大差分能量。
8.根据权利要求7所述的分类方法,其特征在于,所述异常声音信号的分类特征信息由下式确定:
F → = ( α 1 m → g , α 2 Δ → g ) ,
其中,α1和α2是根据所述异常声音信号的能量特征信息和能量差分特征信息的分类能力确定的,α1和α2均大于0,且α12=1。
9.根据权利要求1至8中任一项所述的分类方法,其特征在于,在所述根据滤波器模型对所述N帧信号中的每帧信号进行滤波处理,得到所述异常声音信号的能量特征信息之前,所述分类方法还包括:
建立所述滤波器模型,所述滤波器模型包括所述M个子滤波器。
10.根据权利要求9所述的分类方法,其特征在于,所述建立所述滤波器模块包括:
对统计的多个不同类型的异常声音信号样本的梅尔频率谱进行频谱归一化处理,得到所述多个不同类型的异常声音信号样本的统计梅尔频谱;
根据所述不同类型的异常声音信号样本的统计梅尔频谱,确定所述统计梅尔频谱的线性拟合函数,所述线性拟合函数用于表示所述统计梅尔频谱中梅尔频率与所述梅尔频率对应的幅度响应值之间的映射关系,所述线性拟合函数包括第一线性函数和第二线性函数;
根据所述线性拟合函数和所述M个子滤波器的数量,确定所述M个子滤波器中每个子滤波器的起始频率和截止频率,以及所述每个子滤波器的幅度响应值,其中,所述M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在所述M个子滤波器中的每个子滤波器上的输出能量的差值小于所述能量阈值;
根据所述M个子滤波器中每个子滤波器的起始频率和截止频率,以及所述每个子滤波器的幅度响应值,建立所述滤波器模型。
11.根据权利要求10所述的分类方法,其特征在于,所述线性拟合函数A(fmel)由下式确定:
A ( f m e l ) = 1.0 , f m e l ≤ 1900 m e l - 0.85 940 f m e l + 2.72 , f m e l > 1900 m e l ,
其中,fmel表示梅尔频率值,A(fmel)表示梅尔频率值对应的幅度响应值。
12.根据权利要求11所述的分类方法,其特征在于,所述M个子滤波器包括M+1个梅尔频率点,所述M+1个梅尔频率点中每个梅尔频率点对应的梅尔频率由下式确定:
时:
或者时:
A ( f m e l p ) + A ( f m e l p - 1 ) 2 f m e l p - f m e l p - 1 = 2440 M ,
其中,所述M+1个梅尔频率点中的第p个梅尔频率点对应的梅尔频率为 p为大于或等于0,且小于或等于M+1的整数。
13.根据权利要求12所述的分类方法,其特征在于,所述M个子滤波器中第i个子滤波器的幅度响应值Ai由下式确定:
A i = 2440 M ( f m e l p - f m e l p - 1 ) .
14.根据权利要求1至13中任一项所述的分类方法,其特征在于,所述M个子滤波器均为矩形滤波器。
15.根据权利要求1至14中任一项所述的分类方法,其特征在于,所述异常声音信号的分类结果为:所述异常声音信号为爆炸声、尖叫声、玻璃破碎声或枪声。
16.一种建立滤波器模型的方法,其特征在于,所述滤波器模型包括M个子滤波器,所述方法包括:
对多个不同类型的异常声音信号样本中每个异常声音信号样本的梅尔频率谱进行频谱归一化处理,得到所述多个不同类型的异常声音信号样本的统计梅尔频谱;
根据所述多个不同类型的异常声音信号样本的统计梅尔频谱,确定所述统计梅尔频谱的线性拟合函数,所述线性拟合函数用于表示所述统计梅尔频谱中梅尔频率与所述梅尔频率对应的幅度响应值之间的映射关系,所述线性拟合函数包括第一线性函数和第二线性函数;
根据所述线性拟合函数和所述M个子滤波器的数量,确定所述M个子滤波器中每个子滤波器的起始频率和截止频率,以及所述每个子滤波器的幅度响应值,其中,所述M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在所述M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,M为大于1的整数;
根据所述M个子滤波器中每个子滤波器的起始频率和截止频率,以及所述每个子滤波器的幅度响应值,建立所述滤波器模型。
17.根据权利要求16所述的方法,其特征在于,所述线性拟合函数A(fmel)由下式确定:
A ( f m e l ) = 1.0 , f m e l ≤ 1900 m e l - 0.85 940 f m e l + 2.72 , f m e l > 1900 m e l ,
其中,fmel表示梅尔频率值,A(fmel)表示梅尔频率值对应的幅度响应值。
18.根据权利要求17所述的方法,其特征在于,所述M个子滤波器包括M+1个梅尔频率点,所述M+1个梅尔频率点中每个梅尔频率点对应的梅尔频率由下式确定:
时:
或者时:
A ( f m e l p ) + A ( f m e l p - 1 ) 2 f m e l p - f m e l p - 1 = 2440 M ,
其中,所述M+1个梅尔频率点中的第p个梅尔频率点对应的梅尔频率为 p为大于或等于0,且小于或等于M+1的整数。
19.根据权利要求18所述的方法,其特征在于,所述M个子滤波器中第i个子滤波器的幅度响应值Ai由下式确定:
A i = 2440 M ( f m e l p - f m e l p - 1 ) ,
其中,i为大于或等于1且小于或等于M的整数。
20.根据权利要求16至19中任一项所述的方法,其特征在于,所述M个子滤波器中的每个滤波器均为矩形滤波器。
21.根据权利要求16至20中任一项所述的方法,其特征在于,所述异常声音信号样本为:爆炸声、尖叫声、玻璃破碎声或枪声。
22.一种异常声音的分类装置,其特征在于,包括:
处理单元,用于对异常声音信号进行分帧处理,得到N帧信号,N为大于1的整数;
滤波单元,用于根据滤波器模型对所述处理单元得到的所述N帧信号中的每帧信号进行滤波处理,得到所述异常声音信号的能量特征信息,所述滤波器模型包括M个子滤波器,所述M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在所述M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,所述异常声音信号的能量特征信息包括所述N帧信号中的每帧信号在所述M个子滤波器中第i个子滤波器上输出的能量的和,M为大于1的整数,i为大于或等于1且小于或等于M的整数;
确定单元,用于根据所述滤波单元得到的所述异常声音信号的能量特征信息,确定所述异常声音信号的分类结果。
23.根据权利要求22所述的分类装置,其特征在于,所述确定单元具体用于:
根据所述异常声音信号的能量特征信息,确定所述异常声音信号的能量差分特征信息,所述异常声音信号的能量差分特征信息包括所述N帧信号中的每帧信号在所述第i个子滤波器上输出的差分能量的和,所述N帧信号中第k帧信号在所述第i个子滤波器上输出的差分能量为第k+1帧信号与第k-1帧信号在所述第i个子滤波器上输出的能量的差值,k为大于1且小于N的整数;
根据所述异常声音信号的能量特征信息和所述异常声音信号的能量差分特征信息,确定所述异常声音信号的分类结果。
24.根据权利要求23所述的分类装置,其特征在于,所述确定单元具体用于:
对所述异常声音信号的能量特征信息和所述异常声音信号的能量差分特征信息进行规范化处理,得到规范化能量特征信息和规范化能量差分特征信息;
根据所述规范化能量特征信息和所述规范化能量差分特征信息,确定所述异常声音信号的分类特征信息;
根据所述异常声音信号的分类特征信息,确定所述异常声音信号的分类结果。
25.根据权利要求24所述的分类装置,其特征在于,所述确定单元具体用于:
由下式确定所述异常声音信号在所述第i个子滤波器上输出的能量mi
m i = Σ j = 1 N m i j ,
其中,为所述N帧信号中第j帧信号在所述第i个子滤波器上输出的能量;
由下式确定所述异常声音信号的能量特征信息
m → = ( m 1 , m 2 , ... , m M ) ,
其中,j为大于或等于1,且小于或等于N的整数。
26.根据权利要求25所述的分类装置,其特征在于,所述确定单元具体用于:
由下式确定所述N帧信号中第k帧信号在所述M个子滤波器中的第i个子滤波器上输出的差分能量
Δ i k = m i k + 1 - m i k - 1 ;
由下式确定所述异常声音信号在所述第i个子滤波器上输出的差分能量Δi
Δ i = Σ k = 2 N - 1 ( m i k + 1 - m i k - 1 ) ;
由下式确定所述异常声音信号的能量差分特征信息
Δ → = ( Δ 1 , Δ 2 , ... , Δ M ) .
27.根据权利要求26所述的分类装置,其特征在于,所述确定单元具体用于:
由下式确定所述规范化能量特征信息
m → g = ( 1 → - ( - 1 → ) ) · ( m → - m → m i n ) - ( m → m a x - m → m i n ) m → m a x - m → m i n ,
其中,包括所述M个子滤波器中每个子滤波器在对所述多个不同类型的异常声音信号样本进行滤波后,所述M个子滤波器中每个子滤波器上输出的最小能量,包括所述M个子滤波器中每个子滤波器在对所述多个不同类型的异常声音信号样本进行滤波后,所述M个子滤波器中每个子滤波器上输出的最大能量。
28.根据权利要求27所述的分类装置,其特征在于,所述确定单元具体用于:
由下式确定所述规范化能量差分特征信息
Δ → g = ( 1 → - ( - 1 → ) ) · ( Δ → - Δ → m i n ) - ( Δ → m a x - Δ → m i n ) Δ → max - Δ → m i n ,
其中,包括所述M个子滤波器中每个子滤波器在对所述多个不同类型的异常声音信号样本进行滤波后,所述M个子滤波器中每个子滤波器上输出的最小差分能量,包括所述M个子滤波器中每个子滤波器在对所述多个不同类型的异常声音信号样本进行滤波后,所述M个子滤波器中每个子滤波器上输出的最大差分能量。
29.根据权利要求28所述的分类装置,其特征在于,所述确定单元具体用于:
由下式确定所述异常声音信号的分类特征信息
F → = ( α 1 m → g , α 2 Δ → g ) ,
其中,α1和α2是根据所述异常声音信号的能量特征信息和能量差分特征信息的分类能力确定的,α1和α2均大于0,且α12=1。
30.根据权利要求22至29中任一项所述的分类装置,其特征在于,所述分类装置还包括:建模单元,所述建模单元用于在所述根据滤波器模型对所述N帧信号中的每帧信号进行滤波处理,得到所述异常声音信号的能量特征信息之前,建立所述滤波器模型,所述滤波器模型包括所述M个子滤波器。
31.根据权利要求30所述的分类装置,其特征在于,所述建模单元具体用于:
对统计的多个不同类型的异常声音信号样本的梅尔频率谱进行频谱归一化处理,得到所述多个不同类型的异常声音信号样本的统计梅尔频谱;
根据所述不同类型的异常声音信号样本的统计梅尔频谱,确定所述统计梅尔频谱的线性拟合函数,所述线性拟合函数用于表示所述统计梅尔频谱中梅尔频率与所述梅尔频率对应的幅度响应值之间的映射关系,所述线性拟合函数包括第一线性函数和第二线性函数;
根据所述线性拟合函数和所述M个子滤波器的数量,确定所述M个子滤波器中每个子滤波器的起始频率和截止频率,以及所述每个子滤波器的幅度响应值,其中,所述M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在所述M个子滤波器中的每个子滤波器上的输出能量的差值小于所述能量阈值;
根据所述M个子滤波器中每个子滤波器的起始频率和截止频率,以及所述每个子滤波器的幅度响应值,建立所述滤波器模型。
32.根据权利要求31所述的分类装置,其特征在于,所述建模单元具体用于:
由下式确定所述线性拟合函数A(fmel):
A ( f m e l ) = 1.0 , f m e l ≤ 1900 m e l - 0.85 940 f m e l + 2.72 , f m e l > 1900 m e l ,
其中,fmel表示梅尔频率值,A(fmel)表示梅尔频率值对应的幅度响应值。
33.根据权利要求32所述的分类装置,其特征在于,所述M个子滤波器包括M+1个梅尔频率点,所述建模单元具体用于:
由下式确定所述M+1个梅尔频率点中每个梅尔频率点对应的梅尔频率:
时:
或者时:
A ( f m e l p ) + A ( f m e l p - 1 ) 2 f m e l p - f m e l p - 1 = 2440 M ,
其中,所述M+1个梅尔频率点中的第p个梅尔频率点对应的梅尔频率为 p为大于或等于0,且小于或等于M+1的整数。
34.根据权利要求33所述的装置,其特征在于,所述确定单元具体用于:
由下式确定所述M个子滤波器中第i个子滤波器的幅度响应值Ai
A i = 2440 M ( f m e l p - f m e l p - 1 ) ,
其中,i为大于或等于1且小于或等于M的整数。
35.根据权利要求22至34中任一项所述的分类装置,其特征在于,所述M个子滤波器中的每个滤波器均为矩形滤波器。
36.根据权利要求22至35中任一项所述的分类装置,其特征在于,所述异常声音信号的分类结果为:所述异常声音信号为爆炸声、尖叫声、玻璃破碎声或枪声。
37.一种建立滤波器模型的装置,其特征在于,所述滤波器模型包括M个子滤波器,所述装置包括:
处理单元,用于对多个不同类型的异常声音信号样本中每个异常声音信号样本的梅尔频率谱进行频谱归一化处理,得到所述多个不同类型的异常声音信号样本的统计梅尔频谱;
确定单元,用于根据所述处理单元处理得到的多个不同类型的异常声音信号样本的统计梅尔频谱,确定所述统计梅尔频谱的线性拟合函数,所述线性拟合函数用于表示所述统计梅尔频谱中梅尔频率与所述梅尔频率对应的幅度响应值之间的映射关系,所述线性拟合函数包括第一线性函数和第二线性函数;
所述确定单元还用于根据所述线性拟合函数和所述M个子滤波器的数量,确定所述M个子滤波器中每个子滤波器的起始频率和截止频率,以及所述每个子滤波器的幅度响应值,其中,所述M个子滤波器中每个子滤波器的起始频率和截止频率组成的频率区间连续且互不重叠,且多个不同类型的异常声音信号样本的统计梅尔频谱在所述M个子滤波器中的每个子滤波器上的输出能量的差值小于能量阈值,M为大于1的整数;
建模单元,用于根据所述确定单元确定的所述M个子滤波器中每个子滤波器的起始频率和截止频率,以及所述每个子滤波器的幅度响应值,建立所述滤波器模型。
38.根据权利要求37所述的装置,其特征在于,所述确定单元具体用于:
由下式确定所述线性拟合函数A(fmel):
A ( f m e l ) = 1.0 , f m e l ≤ 1900 m e l - 0.85 940 f m e l + 2.72 , f m e l > 1900 m e l ,
其中,fmel表示梅尔频率值,A(fmel)表示梅尔频率值对应的幅度响应值。
39.根据权利要求38所述的装置,其特征在于,所述M个子滤波器包括M+1个梅尔频率点,所述确定单元具体用于:
由下式确定所述M个子滤波器包括M+1个梅尔频率点,所述M+1个梅尔频率点中每个梅尔频率点对应的梅尔频率:
时:
或者时:
A ( f m e l p ) + A ( f m e l p - 1 ) 2 f m e l p - f m e l p - 1 = 2440 M ,
其中,所述M+1个梅尔频率点中的第p个梅尔频率点对应的梅尔频率为 p为大于或等于0,且小于或等于M+1的整数。
40.根据权利要求39所述的装置,其特征在于,所述确定单元具体用于:
由下式确定所述M个子滤波器中第i个子滤波器的幅度响应值Ai
A i = 2440 M ( f m e l p - f m e l p - 1 ) ,
其中,i为大于或等于1且小于或等于M的整数。
41.根据权利要求37至40中任一项所述的装置,其特征在于,所述M个子滤波器中的每个子滤波器均为矩形滤波器。
42.根据权利要求37至41中任一项所述的装置,其特征在于,所述异常声音信号的样本为爆炸声、尖叫声、玻璃破碎声或枪声。
CN201611262895.1A 2016-12-30 2016-12-30 异常声音的分类方法和装置 Active CN106683687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611262895.1A CN106683687B (zh) 2016-12-30 2016-12-30 异常声音的分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611262895.1A CN106683687B (zh) 2016-12-30 2016-12-30 异常声音的分类方法和装置

Publications (2)

Publication Number Publication Date
CN106683687A true CN106683687A (zh) 2017-05-17
CN106683687B CN106683687B (zh) 2020-02-14

Family

ID=58850094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611262895.1A Active CN106683687B (zh) 2016-12-30 2016-12-30 异常声音的分类方法和装置

Country Status (1)

Country Link
CN (1) CN106683687B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182950A (zh) * 2017-12-28 2018-06-19 重庆大学 改进的经验小波变换的公共场所异常声音特征分解与提取方法
WO2019192131A1 (zh) * 2018-04-03 2019-10-10 平安科技(深圳)有限公司 电子装置、提取宏观指数特征的方法及存储介质
CN110415721A (zh) * 2018-04-28 2019-11-05 华为技术有限公司 一种计算截止频率的方法及装置
CN111105812A (zh) * 2019-12-31 2020-05-05 普联国际有限公司 一种音频特征提取方法、装置、训练方法及电子设备
CN112037812A (zh) * 2020-09-01 2020-12-04 深圳爱卓软科技有限公司 音频处理方法
CN112420074A (zh) * 2020-11-18 2021-02-26 麦格纳(太仓)汽车科技有限公司 一种汽车后视镜电机异响声音的诊断方法
CN112634937A (zh) * 2020-12-02 2021-04-09 爱荔枝科技(北京)有限公司 一种无需数字特征提取计算的声音分类方法
CN113454717A (zh) * 2018-11-28 2021-09-28 三星电子株式会社 语音识别装置和方法
US11961522B2 (en) 2018-11-28 2024-04-16 Samsung Electronics Co., Ltd. Voice recognition device and method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536559A (zh) * 2003-04-10 2004-10-13 联发科技股份有限公司 可以检测声音信号的暂态位置的编码器及编码方法
CN102509546A (zh) * 2011-11-11 2012-06-20 北京声迅电子股份有限公司 应用于轨道交通的降噪和异常声音检测方法
US20120185243A1 (en) * 2009-08-28 2012-07-19 International Business Machines Corp. Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program
CN106228979A (zh) * 2016-08-16 2016-12-14 重庆大学 一种公共场所异常声音特征提取及识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536559A (zh) * 2003-04-10 2004-10-13 联发科技股份有限公司 可以检测声音信号的暂态位置的编码器及编码方法
US20120185243A1 (en) * 2009-08-28 2012-07-19 International Business Machines Corp. Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program
CN102509546A (zh) * 2011-11-11 2012-06-20 北京声迅电子股份有限公司 应用于轨道交通的降噪和异常声音检测方法
CN106228979A (zh) * 2016-08-16 2016-12-14 重庆大学 一种公共场所异常声音特征提取及识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李伟红等: "《改进的ESMD用于公共场所异常声音特征提取》", 《仪器仪表学报》 *
陈志全等: "《基于单类支持向量机的异常声音检测》", 《电子设计工程》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182950A (zh) * 2017-12-28 2018-06-19 重庆大学 改进的经验小波变换的公共场所异常声音特征分解与提取方法
CN108182950B (zh) * 2017-12-28 2021-05-28 重庆大学 改进的经验小波变换的公共场所异常声音特征分解与提取方法
WO2019192131A1 (zh) * 2018-04-03 2019-10-10 平安科技(深圳)有限公司 电子装置、提取宏观指数特征的方法及存储介质
CN110415721A (zh) * 2018-04-28 2019-11-05 华为技术有限公司 一种计算截止频率的方法及装置
CN110415721B (zh) * 2018-04-28 2022-02-01 华为技术有限公司 一种计算截止频率的方法及装置
CN113454717A (zh) * 2018-11-28 2021-09-28 三星电子株式会社 语音识别装置和方法
US11961522B2 (en) 2018-11-28 2024-04-16 Samsung Electronics Co., Ltd. Voice recognition device and method
CN111105812A (zh) * 2019-12-31 2020-05-05 普联国际有限公司 一种音频特征提取方法、装置、训练方法及电子设备
CN112037812A (zh) * 2020-09-01 2020-12-04 深圳爱卓软科技有限公司 音频处理方法
CN112420074A (zh) * 2020-11-18 2021-02-26 麦格纳(太仓)汽车科技有限公司 一种汽车后视镜电机异响声音的诊断方法
CN112634937A (zh) * 2020-12-02 2021-04-09 爱荔枝科技(北京)有限公司 一种无需数字特征提取计算的声音分类方法

Also Published As

Publication number Publication date
CN106683687B (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN106683687A (zh) 异常声音的分类方法和装置
CN110189769B (zh) 基于多个卷积神经网络模型结合的异常声音检测方法
Yu et al. Ensemble additive margin softmax for speaker verification
Gideon et al. Mood state prediction from speech of varying acoustic quality for individuals with bipolar disorder
Singh et al. Vector quantization approach for speaker recognition using MFCC and inverted MFCC
CN108564941A (zh) 语音识别方法、装置、设备及存储介质
CN107392757A (zh) 信息审核方法及装置
CN110047490A (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
CN108986822A (zh) 语音识别方法、装置、电子设备及非暂态计算机存储介质
CN107993648A (zh) 一种无人机识别方法、装置及电子设备
CN110047506B (zh) 一种基于卷积神经网络和多核学习svm的关键音频检测方法
CN110308485A (zh) 基于深度学习的微震信号分类方法、装置及存储介质
Nickel et al. Benchmarking the performance of SVMs and HMMs for accelerometer-based biometric gait recognition
CN108091326A (zh) 一种基于线性回归的声纹识别方法及系统
CN107688790A (zh) 人体行为识别方法、装置、存储介质及电子设备
WO2019192237A1 (zh) 基于声学信道的个人计算机使用行为监测方法及系统
US20210319804A1 (en) Systems and methods using neural networks to identify producers of health sounds
CN113191787A (zh) 电信数据的处理方法、装置电子设备及存储介质
Zhai et al. Pattern recognition approach to identify loose particle material based on modified MFCC and HMMs
CN110164454A (zh) 一种基于共振峰偏差的音频同一性判别方法及装置
Raeesy et al. LSTM-based whisper detection
Lara-Cueva et al. On the use of multi-class support vector machines for classification of seismic signals at Cotopaxi volcano
CN107274912A (zh) 一种手机录音的设备来源辨识方法
CN107644651A (zh) 用于语音识别的电路和方法
CN116778956A (zh) 一种变压器声学特征提取及故障识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200417

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee after: HUAWEI TECHNOLOGIES Co.,Ltd.

Address before: 301, A building, room 3, building 301, foreshore Road, No. 310052, Binjiang District, Zhejiang, Hangzhou

Patentee before: Hangzhou Huawei Digital Technology Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210421

Address after: Unit 3401, unit a, building 6, Shenye Zhongcheng, No. 8089, Hongli West Road, Donghai community, Xiangmihu street, Futian District, Shenzhen, Guangdong 518040

Patentee after: Honor Device Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right