CN111739542A - 一种特征声音检测的方法、装置及设备 - Google Patents

一种特征声音检测的方法、装置及设备 Download PDF

Info

Publication number
CN111739542A
CN111739542A CN202010402845.9A CN202010402845A CN111739542A CN 111739542 A CN111739542 A CN 111739542A CN 202010402845 A CN202010402845 A CN 202010402845A CN 111739542 A CN111739542 A CN 111739542A
Authority
CN
China
Prior art keywords
audio data
sub
band
calculating
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010402845.9A
Other languages
English (en)
Other versions
CN111739542B (zh
Inventor
何志连
王丹
杨登舟
刘永新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Weina Perception Computing Technology Co ltd
Original Assignee
Shenzhen Weina Perception Computing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Weina Perception Computing Technology Co ltd filed Critical Shenzhen Weina Perception Computing Technology Co ltd
Priority to CN202010402845.9A priority Critical patent/CN111739542B/zh
Publication of CN111739542A publication Critical patent/CN111739542A/zh
Application granted granted Critical
Publication of CN111739542B publication Critical patent/CN111739542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本申请适用于计算机技术领域,提供了一种特征声音检测的方法,包括:获取初始音频数据;计算所述初始音频数据在预设频段的幅值谱;将所述幅值谱划分为预设数量的子带,根据各所述子带计算目标能量信息;若所述目标能量信息大于预设能量阈值,判定所述初始音频数据中包括特征声音。上述方法,计算得到各子带的目标能量信息,通过判断目标能量信息是否大于预设能量阈值,从而判定初始音频数据中是否包括特征声音,不需要采集大量的特征声音作为训练样本,节省了资源。不要需要经过大量的计算,在使用过程中对硬件的要求较低,也提高了特征声音检测的效率,减少了误检的概率。并且特征声音的检测不会受声音数据能量大小的影响,鲁棒性强。

Description

一种特征声音检测的方法、装置及设备
技术领域
本申请属于计算机技术领域,尤其涉及一种特征声音检测的方法、装置及设备。
背景技术
随着城市的快速发展,人口的不断上升,机动车也在急剧增加。随之出现的机动车鸣笛声这种噪声污染成为影响城市生活的突出问题。为了管理违法鸣笛的行为,出现了违法鸣笛抓拍管理系统,来对违法鸣笛这种特征声音进行检测。其中,现有的对特征声音检测的方法是通过训练神经网络或者支持向量机得到声音检测模型,对声音进行检测。但是,这种方法需要采集大量的数据进行训练,训练过程中容易陷入局部最优的状态,可能出现过度拟合的情况,并且得到的模型在运用时计算量也比较大。也就是说,现在有的特征声音检测的方法在使用过程中对硬件的要求比较高,检测的效率比较低,并且很容易出现错误的检测结果。
发明内容
本申请实施例提供了一种特征声音检测的方法、装置及设备,可以解决现在有的特征声音检测的方法在使用过程中对硬件的要求比较高,检测的效率比较低,并且很容易出现错误的检测结果的问题。
第一方面,本申请实施例提供了一种特征声音检测的方法,包括:
获取初始音频数据;
计算所述初始音频数据在预设频段的幅值谱;
将所述幅值谱划分为预设数量的子带,根据各所述子带计算目标能量信息;
若所述目标能量信息大于预设能量阈值,判定所述初始音频数据中包括特征声音。
进一步地,根据各所述子带计算目标能量信息,包括:
计算各所述子带的能量信息;
根据各子带的能量信息计算子带能量和信息;
基于所述子带能量和信息,确定目标能量信息。
进一步地,计算各所述子带的能量信息,包括:
对所述子带对应的幅值谱进行归一化处理,得到所述子带对应的归一化后的幅值谱;
根据各所述子带对应的归一化后的幅值谱计算各所述子带的能量信息。
进一步地,对所述子带的幅值谱进行归一化处理,得到子带幅值谱归一值,包括:
将所述子带对应的幅值谱中的最大的幅值作为基准幅值,基于所述基准幅值对所述子带对应的幅值谱进行归一化处理,得到所述对应的归一化后的幅值谱。
进一步地,所述计算所述初始音频数据在预设频段的幅值谱,包括:
对所述初始音频数据进行下采样,得到下采样音频数据;
对所述下采样音频数据进行分帧处理和加窗处理,并对处理后的下采样音频数据进行傅里叶变换,得到所述初始音频数据在预设频段的幅值谱。
进一步地,若所述目标能量信息大于预设能量阈值,判定所述初始音频数据中包括特征声音之前,还包括:
计算所述初始音频数据的信噪比信息;
基于所述信噪比信息更新初始能量阈值,得到预设能量阈值。
进一步地,所述初始音频数据由至少两个麦克风采集的音频数据组成;
若所述目标能量信息大于预设能量阈值,判定所述初始音频数据中包括特征声音之后,还包括:
根据各麦克风采集的音频数据计算各所述麦克风对应的目标能量误差值;
将所述目标能量误差值大于预设误差阈值的麦克风标记为异常麦克风。
第二方面,本申请实施例提供了一种特征声音检测的装置,包括:
第一获取单元,用于获取初始音频数据;
第一计算单元,用于计算所述初始音频数据在预设频段的幅值谱;
第一处理单元,用于将所述幅值谱划分为预设数量的子带,根据各所述子带计算目标能量信息;
第二处理单元,用于若所述目标能量信息大于预设能量阈值,判定所述初始音频数据中包括特征声音。
进一步地,所述第一处理单元,包括:
第二计算单元,用于计算各所述子带的能量信息;
第三计算单元,用于根据各子带的能量信息计算子带能量和信息;
第一确定单元,用于基于所述子带能量和信息,确定目标能量信息。
进一步地,所述第二计算单元,包括:
第三处理单元,用于对所述子带对应的幅值谱进行归一化处理,得到所述子带对应的归一化后的幅值谱;
第四计算单元,用于根据各所述子带对应的归一化后的幅值谱计算各所述子带的能量信息。
进一步地,所述第三处理单元,具体用于:
将所述子带对应的幅值谱中的最大的幅值作为基准幅值,基于所述基准幅值对所述子带对应的幅值谱进行归一化处理,得到所述对应的归一化后的幅值谱。
进一步地,所述第一计算单元,具体用于:
对所述初始音频数据进行下采样,得到下采样音频数据;
对所述下采样音频数据进行分帧处理和加窗处理,并对处理后的下采样音频数据进行傅里叶变换,得到所述初始音频数据在预设频段的幅值谱。
进一步地,所述特征声音检测的装置,还包括:
第五计算单元,用于计算所述初始音频数据的信噪比信息;
第四处理单元,用于基于所述信噪比信息更新初始能量阈值,得到预设能量阈值。
进一步地,所述初始音频数据由至少两个麦克风采集的音频数据组成;
所述特征声音检测的装置,还包括:
第六计算单元,用于根据各麦克风采集的音频数据计算各所述麦克风对应的目标能量误差值;
第五处理单元,用于将所述目标能量误差值大于预设误差阈值的麦克风标记为异常麦克风。
第三方面,本申请实施例提供了一种特征声音检测的设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的特征声音检测的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的特征声音检测的方法。
本申请实施例中,获取初始音频数据;计算所述初始音频数据在预设频段的幅值谱;将所述幅值谱划分为预设数量的子带,根据各所述子带计算目标能量信息;若所述目标能量信息大于预设能量阈值,判定所述初始音频数据中包括特征声音。上述方法,计算得到各子带的目标能量信息,通过判断目标能量信息是否大于预设能量阈值,从而判定初始音频数据中是否包括特征声音,不需要采集大量的特征声音作为训练样本,节省了资源。不要需要经过大量的计算,在使用过程中对硬件的要求较低,也提高了特征声音检测的效率,减少了误检的概率。并且特征声音的检测不会受声音数据能量大小的影响,鲁棒性强。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请第一实施例提供的一种特征声音检测的方法的示意流程图;
图2是本申请第一实施例提供的一种特征声音检测的方法中S102细化的示意流程图;
图3是本申请第一实施例提供的一种特征声音检测的方法中根据各所述子带计算目标能量信息细化的示意流程图;
图4是本申请第一实施例提供的一种特征声音检测的方法中S1031细化的示意流程图;
图5是本申请第二实施例提供的另一种特征声音检测的方法的示意流程图;
图6是本申请第三实施例提供的另一种特征声音检测的方法的示意流程图;
图7是本申请第四实施例提供的特征声音检测的装置的示意图;
图8是本申请第五实施例提供的特征声音检测的设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
请参见图1,图1是本申请第一实施例提供的一种特征声音检测的方法的示意流程图。本实施例中一种特征声音检测的方法的执行主体为具有特征声音检测的功能的设备,例如,台式电脑,平板电脑,服务器等等。如图1所示的特征声音检测的方法可包括:
S101:获取初始音频数据。
特征声音,包括但不限于鸣笛声、改装车声、爆炸声、碰撞声、警笛声、枪声。特征声音的定位可以广泛应用于违法鸣笛抓拍管理系统、特殊声音检测系统、城市安全治理及管理系统等等。
设备获取初始音频数据,初始音频数据可以是通过音频采集装置采集。其中,音频采集装置可以采用麦克风阵列平面阵布局,麦克风个数不少于2个,任意构型布局。
S102:计算所述初始音频数据在预设频段的幅值谱。
设备预先存储预设频段,频段是指声音频率的区间,例如,人耳对声音感知频段是20Hz~20KHz。设备中预先存储的预设频段用于从初始音频数据中截取预设频段的幅值谱。
设备计算初始音频数据在预设频段的幅值谱。设备可以对初始音频数据进行分帧处理,得到每帧的初始音频数据在预设频段的幅值谱。其中,在信号的频域描述中,以频率作为自变量,以组成信号的各个频率成分的幅值作为因变量,这样的频率函数称为幅值谱,它表征信号的幅值随频率的分布情况。
进一步地,为了准确的获取到初始音频数据在预设频段的幅值谱,S102可以包括S1021~S1022,如图2所示,S1021~S1022具体如下:
S1021:对所述初始音频数据进行下采样,得到下采样音频数据。
设备把初始音频数据转换为数字信号,对初始音频数据进行下采样。下采样又称为信号抽取,即在原序列中每隔预设数量的音频数据抽取一个音频数据,抽取到的音频数据即为下采样音频数据。例如,设备把初始音频数据转换为数字信号,对初始音频数据进行下采样,设备将初始音频数据下采样到16KHz~48KHz范围,即抽取的音频数据都处于16KHz~48KHz范围内,初始音频数据中的16KHz、24KHz、32KHz、44.1kHz、48KHz,都可以进行抽取,作为下采样音频数据。
S1022:对所述下采样音频数据进行分帧处理和加窗处理,并对处理后的下采样音频数据进行傅里叶变换,得到所述初始音频数据在预设频段的幅值谱。
设备对下采样音频数据进行分帧处理。由于需要对音频数据进行傅里叶变换,为了保证傅里叶变换的结果的准确,傅里叶变换要求输入的信号是平稳的,为了保证下采样音频数据的平稳性,需要对下采样音频数据进行分帧处理,将下采样音频数据分成小单位的数据,每帧的数据可以视为平稳的数据。设备中预设帧长,用于对下采样数据进行分帧处理。在音频信号处理中,帧长一般取为20~50毫秒,20、25、30、40、50都是比较常用的数值。
由于每帧信号在起始和结束肯定是会出现不连续情况的,在分帧之后,就会越来越背离原始信号,为了降低不连续性,使分帧后的下采用音频数据变得平滑。设备需要对分帧后的下采样音频数据进行加窗处理。设备中预先设置加窗函数,将分帧后的下采样音频数据与加窗函数相乘,完成加窗处理。
设备对处理后的每帧下采样音频数据进行傅里叶变换,得到频谱。频谱是频率谱密度的简称,是频率的分布曲线。复杂振荡分解为振幅不同和频率不同的谐振荡,这些谐振荡的幅值按频率排列的图形叫做频谱。由于频谱由频率、幅值以及初相位这三个参数来决定,所以,通过频谱就可以获取到幅值谱和相位谱,设备从频谱中获取预设频段的幅值谱。
S103:将所述幅值谱划分为预设数量的子带,根据各所述子带计算目标能量信息。
子带,也成为子频带,子带为在某一频带中,带有特定特性的一部分。设备中预先存储预设数量,设备可以将幅值谱平均划分为预设数量的子带。设备根据各所述子带计算目标能量信息。其中,目标能量信息可以为子带能量和,也可以为块子带归一化相对能量和。子带能量和即为各子带的幅值谱的平方的和;块子带归一化相对能量和为各块子带的进行归一化处理的能量的和,其中,块子带包括两帧子带。此处对于目标能量信息的形式不做具体的限定,只要可以根据预设能量阈值判断初始音频数据中是否包括特征声音即可。
进一步地,为了准确的计算出目标能量信息,根据各所述子带计算目标能量信息可以包括S1031~S1033,如图3所示,S1031~S1033具体如下:
S1031:计算各所述子带的能量信息。
设备计算各子带的能量信息,其中,子带的能量信息可以为子带能量,也可以为子带归一化相对能量。其中,子带能量为子带幅值谱的平方值,子带归一化相对能量为经过归一化处理的子带幅值谱的平方值。
进一步地,为了减少计算量,更准确的计算子带的能量信息,从而更准确的进行特征声音的检测,S1031可以包括S10311~S10312,如图4所示,S10311~S10312具体如下:
S10311:对所述子带对应的幅值谱进行归一化处理,得到所述子带对应的归一化后的幅值谱。
在本实施例中,子带的能量信息为子带归一化相对能量。设备对子带对应的幅值谱进行归一化处理,得到所述子带对应的归一化后的幅值谱。归一化(normalization)是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。通过对子带对应的幅值谱进行归一化处理,简化计算,缩小幅值谱的量值,得到子带对应的归一化后的幅值谱。
进一步地,为了更准确的对子带对应的幅值谱进行归一化处理,得到子带对应的归一化后的幅值谱,S10311可以包括:将所述子带对应的幅值谱中的最大的幅值作为基准幅值,基于所述基准幅值对所述子带对应的幅值谱进行归一化处理,得到所述对应的归一化后的幅值谱。
在本实施例中,将子带对应的幅值谱中的最高的幅值作为基准幅值,其中,子带对应的幅值谱最大的频点即为最大的幅值,将最大的幅值作为基准幅值。基准幅值用于对幅值谱进行归一化处理。
举例来说,最大频点基准幅值xmax=max(X),其中,X=[x(1),x(2),…,x(Nfreq)]T,Nfreq表示频点的数量,x(1)表示第一个频点的幅值,x(Nfreq)表示第Nfreq个频点的幅值。
设备通过基准幅值对子带对应的幅值谱进行归一化处理,归一化处理可以参照以下公式:
Figure BDA0002490160620000091
其中,
Figure BDA0002490160620000092
表示归一化后的幅值谱,一共有k帧子带,
Figure BDA0002490160620000093
表示第k帧子带的第一频点的归一化后的幅值谱。
S10312:根据各所述子带对应的归一化后的幅值谱计算各所述子带的能量信息。
设备根据各所述子带对应的归一化后的幅值谱计算各子带的能量信息,具体可以参照以下公式:
Figure BDA0002490160620000101
其中,p(k)表示第k帧子带的能量信息,βk表示第k帧子带的预设修正系数,e表示单位向量。上述公式中,对
Figure BDA0002490160620000102
进行转置共轭的运算,再与
Figure BDA0002490160620000103
相乘,得到子带的能量信息。
S1032:根据各子带的能量信息计算子带能量和信息。
设备根据各子带的能量信息计算子带能量和信息,子带能量和信息即为所有子带的能量信息的和,具体地说:
Figure BDA0002490160620000104
其中,p表示子带能量和信息,p(k)表示第k帧子带的能量信息,Nband为子带数量。
S1033:基于所述子带能量和信息,确定目标能量信息。
设备基于子带能量和信息,确定目标能量信息。当目标能量信息为块子带归一化相对能量和时,设备要根据子带能量和信息计算块子带归一化相对能量和。其中,块子带归一化相对能量和为两帧的子带归一化相对能量和求平均值。为了保证计算结果的准确性,设备可以计算出任两帧的子带归一化相对能量和的平均值,得到若干初始块子带归一化相对能量和,具体如下:
Figure BDA0002490160620000105
其中,pb表示初始块子带归一化相对能量和,pl表示子带能量和信息。
设备计算得到M个初始块子带归一化相对能量和,设备对M个初始块子带归一化相对能量和求取平均值,得到准确的目标块子带归一化相对能量和,确定目标能量信息,具体地说:
Figure BDA0002490160620000111
其中,pbs表示目标能量信息,pbm表示第m个初始块子带归一化相对能量和。
S104:若所述目标能量信息大于预设能量阈值,判定所述初始音频数据中包括特征声音。
设备中预先存储预设能量阈值,预设能量阈值用于判断初始音频数据中是否包括特征声音。设备判断目标能量信息是否大于预设能量阈值,若目标能量信息大于预设能量阈值,判定初始音频数据中包括特征声音;若目标能量信息小于或者等于预设能量阈值,判定初始音频数据中不包括特征声音。
本申请实施例中,获取初始音频数据;计算所述初始音频数据在预设频段的幅值谱;将所述幅值谱划分为预设子带数量的子带,根据各所述子带计算目标能量信息;若所述目标能量信息大于预设能量阈值,判定所述初始音频数据中包括特征声音。上述方法,计算得到各子带的目标能量信息,通过判断目标能量信息是否大于预设能量阈值,从而判定初始音频数据中是否包括特征声音,不需要采集大量的特征声音作为训练样本,节省了资源。不要需要经过大量的计算,在使用过程中对硬件的要求较低,也提高了特征声音检测的效率,减少了误检的概率。并且特征声音的检测不会受声音数据能量大小的影响,鲁棒性强。
请参见图5,图5是本申请第二实施例提供的另一种特征声音检测的方法的示意流程图。本实施例中另一种特征声音检测的方法的执行主体为具有特征声音检测的功能的设备,例如,台式电脑,平板电脑,服务器等等。为了能够检测出异常麦克风,从而保证特征声音的检测质量,本实施例与第一实施例之间的区别在于S205~S206,其中,在本实施例中,采集所述初始音频数据的麦克风的数量为至少两个,可以采用麦克风阵列平面阵布局,麦克风可以采用任意构型布局,例如,对称型布局或者非对称型布局。本实施例中的S201~S204与第一实施例中的S101~S104相同,S205~S206在S204之后执行即可。如图2所示,S205~S206具体如下:
S205:根据各麦克风采集的音频数据计算各所述麦克风对应的目标能量误差值。
设备可对每个麦克风获取到的音频数据进行异常检测,计算各麦克风对应的目标能量误差值。当音频数据出现异常时,说明该音频数据对应的麦克风出现异常,下一次检测时,出现异常的麦克风不采集初始声音数据。
麦克风对应的目标能量误差值可以通过计算方差来确定,设备获取每帧音频数据的块子带能量信息,其中,块子带能量信息可以为块子带归一化相对能量和。块子带归一化相对能量和为对两帧的子带归一化相对能量和求平均值。
设备计算得到块子带归一化相对能量和的期望值μm,m可以为1、2、3、4、5......,μm为第m通道音频数据的期望值,计算期望值μm的公式具体如下:
μm=E(pbm)
设备得到期望值后,基于期望值计算方差,也就是麦克风对应的目标能量误差值
Figure BDA0002490160620000121
麦克风对应的目标能量误差值
Figure BDA0002490160620000122
具体可以通过以下公式计算:
Figure BDA0002490160620000123
S206:将所述目标能量误差值大于预设误差阈值的麦克风标记为异常麦克风。
设备中预先存储预设误差阈值,预设误差阈值用于判断麦克风是否异常,设备将目标能量误差值大于预设误差阈值的麦克风标记为异常麦克风,下一次检测时,异常麦克风不采集初始声音数据。设备也可以返回异常信息,使检测人员实时了解异常情况,并及时处理。规避了由于麦克风信号异常导致无法正常进行特征声音检测的问题。
请参见图6,图6是本申请第三实施例提供的另一种特征声音检测的方法的示意流程图。本实施例中另一种特征声音检测的方法的执行主体为具有特征声音检测的功能的设备,例如,台式电脑,平板电脑,服务器等等。为了根据实际情况实时的调整预设能量阈值,从而更准确的检测特征声音,本实施例与第一实施例的区别在于S304~S305,本实施例中,S301~S303与第一实施例中的S101~S103相同,S306与第一实施例中的S104相同,S304~S305在S306之前执行即可。如图3所示,S304~S305具体如下:
S304:计算所述初始音频数据的信噪比信息。
设备计算初始音频数据的信噪比信息,设备获取初始音频数据的噪声谱,根据噪声谱计算信噪比信息。其中,计算信噪比信息的公式具体如下:
SNRm(i,k)=20*log10(|Xm(i,k)|/|Nm(i,k)|)
其中,SNRm(i,k)为第m通道第i个数据的信噪比信息,Xm(i,k)为第m通道第i个数据的噪声谱,Nm(i,k)为第m通道第i个数据的信号谱,k为子带数量。
S305:基于所述信噪比信息更新初始能量阈值,得到预设能量阈值。
设备中预先存储初始能量值阈值,初始能量阈值可以是设备预先设置好的,也可是上一次进行特征声音进行检测时更新的能量阈值。设备基于信噪比信息更新初始能量阈值,得到预设能量阈值
Figure BDA0002490160620000131
其中,a为预设的平滑系数,SNRm(i,k)为第m通道第i个数据的信噪比信息,PowerRate0为初始能量阈值,PowerRate为预设能量阈值。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
请参见图7,图7是本申请第四实施例提供的特征声音检测的装置的示意图。包括的各单元用于执行图1~图6对应的实施例中的各步骤。具体请参阅图1~图6各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图7,特征声音检测的装置7包括:
第一获取单元710,用于获取初始音频数据;
第一计算单元720,用于计算所述初始音频数据在预设频段的幅值谱;
第一处理单元730,用于将所述幅值谱划分为预设数量的子带,根据各所述子带计算目标能量信息;
第二处理单元740,用于若所述目标能量信息大于预设能量阈值,判定所述初始音频数据中包括特征声音。
进一步地,第一处理单元730,包括:
第二计算单元,用于计算各所述子带的能量信息;
第三计算单元,用于根据各子带的能量信息计算子带能量和信息;
第一确定单元,用于基于所述子带能量和信息,确定目标能量信息。
进一步地,所述第二计算单元,包括:
第三处理单元,用于对所述子带对应的幅值谱进行归一化处理,得到所述子带对应的归一化后的幅值谱;
第四计算单元,用于根据各所述子带对应的归一化后的幅值谱计算各所述子带的能量信息。
进一步地,所述第三处理单元,具体用于:
将所述子带对应的幅值谱中的最大的幅值作为基准幅值,基于所述基准幅值对所述子带对应的幅值谱进行归一化处理,得到所述对应的归一化后的幅值谱。
进一步地,第一计算单元720,具体用于:
对所述初始音频数据进行下采样,得到下采样音频数据;
对所述下采样音频数据进行分帧处理和加窗处理,并对处理后的下采样音频数据进行傅里叶变换,得到所述初始音频数据在预设频段的幅值谱。
进一步地,特征声音检测的装置7,还包括:
第五计算单元,用于计算所述初始音频数据的信噪比信息;
第四处理单元,用于基于所述信噪比信息更新初始能量阈值,得到预设能量阈值。
进一步地,所述初始音频数据由至少两个麦克风采集的音频数据组成;
特征声音检测的装置7,还包括:
第六计算单元,用于根据各麦克风采集的音频数据计算各所述麦克风对应的目标能量误差值;
第五处理单元,用于将所述目标能量误差值大于预设误差阈值的麦克风标记为异常麦克风。
图8是本申请第五实施例提供的特征声音检测的设备的示意图。如图8所示,该实施例的特征声音检测的设备8包括:处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机程序82,例如特征声音检测的程序。所述处理器80执行所述计算机程序82时实现上述各个特征声音检测的方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器80执行所述计算机程序82时实现上述各装置实施例中各模块/单元的功能,例如图7所示模块710至740的功能。
示例性的,所述计算机程序82可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器81中,并由所述处理器80执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序82在所述特征声音检测的设备8中的执行过程。例如,所述计算机程序82可以被分割成第一获取单元、第一计算单元、第一处理单元、第二处理单元,各单元具体功能如下:
第一获取单元,用于获取初始音频数据;
第一计算单元,用于计算所述初始音频数据在预设频段的幅值谱;
第一处理单元,用于将所述幅值谱划分为预设数量的子带,根据各所述子带计算目标能量信息;
第二处理单元,用于若所述目标能量信息大于预设能量阈值,判定所述初始音频数据中包括特征声音。
所述特征声音检测的设备可包括,但不仅限于,处理器80、存储器81。本领域技术人员可以理解,图8仅仅是特征声音检测的设备8的示例,并不构成对特征声音检测的设备8的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述特征声音检测的设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器80可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器81可以是所述特征声音检测的设备8的内部存储单元,例如特征声音检测的设备8的硬盘或内存。所述存储器81也可以是所述特征声音检测的设备8的外部存储设备,例如所述特征声音检测的设备8上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述特征声音检测的设备8还可以既包括所述特征声音检测的设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机程序以及所述特征声音检测的设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种网络设备,该网络设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种特征声音检测的方法,其特征在于,包括:
获取初始音频数据;
计算所述初始音频数据在预设频段的幅值谱;
将所述幅值谱划分为预设数量的子带,根据各所述子带计算目标能量信息;
若所述目标能量信息大于预设能量阈值,判定所述初始音频数据中包括特征声音。
2.如权利要求1所述的特征声音检测的方法,其特征在于,根据各所述子带计算目标能量信息,包括:
计算各所述子带的能量信息;
根据各子带的能量信息计算子带能量和信息;
基于所述子带能量和信息,确定目标能量信息。
3.如权利要求2所述的特征声音检测的方法,其特征在于,计算各所述子带的能量信息,包括:
对所述子带对应的幅值谱进行归一化处理,得到所述子带对应的归一化后的幅值谱;
根据各所述子带对应的归一化后的幅值谱计算各所述子带的能量信息。
4.如权利要求3所述的特征声音检测的方法,其特征在于,对所述子带的幅值谱进行归一化处理,得到子带幅值谱归一值,包括:
将所述子带对应的幅值谱中的最大的幅值作为基准幅值,基于所述基准幅值对所述子带对应的幅值谱进行归一化处理,得到所述对应的归一化后的幅值谱。
5.如权利要求1所述的特征声音检测的方法,其特征在于,计算所述初始音频数据在预设频段的幅值谱,包括:
对所述初始音频数据进行下采样,得到下采样音频数据;
对所述下采样音频数据进行分帧处理和加窗处理,并对处理后的下采样音频数据进行傅里叶变换,得到所述初始音频数据在预设频段的幅值谱。
6.如权利要求1所述的特征声音检测的方法,其特征在于,若所述目标能量信息大于预设能量阈值,判定所述初始音频数据中包括特征声音之前,还包括:
计算所述初始音频数据的信噪比信息;
基于所述信噪比信息更新初始能量阈值,得到预设能量阈值。
7.如权利要求1所述的特征声音检测的方法,其特征在于,所述初始音频数据由至少两个麦克风采集的音频数据组成;
若所述目标能量信息大于预设能量阈值,判定所述初始音频数据中包括特征声音之后,还包括:
根据各麦克风采集的音频数据计算各所述麦克风对应的目标能量误差值;
将所述目标能量误差值大于预设误差阈值的麦克风标记为异常麦克风。
8.一种特征声音检测的装置,其特征在于,包括:
第一获取单元,用于获取初始音频数据;
第一计算单元,用于计算所述初始音频数据在预设频段的幅值谱;
第一处理单元,用于将所述幅值谱划分为预设数量的子带,根据各所述子带计算目标能量信息;
第二处理单元,用于若所述目标能量信息大于预设能量阈值,判定所述初始音频数据中包括特征声音。
9.一种特征声音检测的设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202010402845.9A 2020-05-13 2020-05-13 一种特征声音检测的方法、装置及设备 Active CN111739542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010402845.9A CN111739542B (zh) 2020-05-13 2020-05-13 一种特征声音检测的方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010402845.9A CN111739542B (zh) 2020-05-13 2020-05-13 一种特征声音检测的方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111739542A true CN111739542A (zh) 2020-10-02
CN111739542B CN111739542B (zh) 2023-05-09

Family

ID=72647223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010402845.9A Active CN111739542B (zh) 2020-05-13 2020-05-13 一种特征声音检测的方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111739542B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562735A (zh) * 2020-11-27 2021-03-26 锐迪科微电子(上海)有限公司 语音检测方法、装置、设备和存储介质
CN113593251A (zh) * 2021-07-22 2021-11-02 世邦通信股份有限公司 一种炸街车快速筛选方法及系统
CN114220457A (zh) * 2021-10-29 2022-03-22 成都中科信息技术有限公司 双通道通信链路的音频数据处理方法、装置及存储介质
WO2022088242A1 (zh) * 2020-10-28 2022-05-05 瑞声声学科技(深圳)有限公司 音频重音识别方法、装置、设备和介质
CN114944152A (zh) * 2022-07-20 2022-08-26 深圳市微纳感知计算技术有限公司 车辆鸣笛音识别方法
CN115116232A (zh) * 2022-08-29 2022-09-27 深圳市微纳感知计算技术有限公司 汽车鸣笛的声纹比较方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020010580A1 (en) * 1999-02-12 2002-01-24 Dunling Li Signal dependent method for bandwith savings in voice over packet networks
US7231348B1 (en) * 2005-03-24 2007-06-12 Mindspeed Technologies, Inc. Tone detection algorithm for a voice activity detector
JP2008185626A (ja) * 2007-01-26 2008-08-14 Toshiba Corp ハイライトシーン検出装置
US20100088094A1 (en) * 2007-06-07 2010-04-08 Huawei Technologies Co., Ltd. Device and method for voice activity detection
CN102097095A (zh) * 2010-12-28 2011-06-15 天津市亚安科技电子有限公司 一种语音端点检测方法及装置
CN103578468A (zh) * 2012-08-01 2014-02-12 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
US20150139431A1 (en) * 2013-11-18 2015-05-21 Nintendo Co., Ltd. Storage medium storing information processing program, information processing device, information processing system, and sound determination method
CN106816157A (zh) * 2015-11-30 2017-06-09 展讯通信(上海)有限公司 语音识别方法及装置
CN106920543A (zh) * 2015-12-25 2017-07-04 展讯通信(上海)有限公司 语音识别方法及装置
CN108737615A (zh) * 2018-06-27 2018-11-02 努比亚技术有限公司 麦克风收音方法、移动终端及计算机可读存储介质
US20200105293A1 (en) * 2018-09-28 2020-04-02 Cirrus Logic International Semiconductor Ltd. Sound event detection

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020010580A1 (en) * 1999-02-12 2002-01-24 Dunling Li Signal dependent method for bandwith savings in voice over packet networks
US7231348B1 (en) * 2005-03-24 2007-06-12 Mindspeed Technologies, Inc. Tone detection algorithm for a voice activity detector
JP2008185626A (ja) * 2007-01-26 2008-08-14 Toshiba Corp ハイライトシーン検出装置
US20100088094A1 (en) * 2007-06-07 2010-04-08 Huawei Technologies Co., Ltd. Device and method for voice activity detection
CN102097095A (zh) * 2010-12-28 2011-06-15 天津市亚安科技电子有限公司 一种语音端点检测方法及装置
CN103578468A (zh) * 2012-08-01 2014-02-12 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
US20150139431A1 (en) * 2013-11-18 2015-05-21 Nintendo Co., Ltd. Storage medium storing information processing program, information processing device, information processing system, and sound determination method
CN106816157A (zh) * 2015-11-30 2017-06-09 展讯通信(上海)有限公司 语音识别方法及装置
CN106920543A (zh) * 2015-12-25 2017-07-04 展讯通信(上海)有限公司 语音识别方法及装置
CN108737615A (zh) * 2018-06-27 2018-11-02 努比亚技术有限公司 麦克风收音方法、移动终端及计算机可读存储介质
US20200105293A1 (en) * 2018-09-28 2020-04-02 Cirrus Logic International Semiconductor Ltd. Sound event detection

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022088242A1 (zh) * 2020-10-28 2022-05-05 瑞声声学科技(深圳)有限公司 音频重音识别方法、装置、设备和介质
CN112562735A (zh) * 2020-11-27 2021-03-26 锐迪科微电子(上海)有限公司 语音检测方法、装置、设备和存储介质
CN112562735B (zh) * 2020-11-27 2023-03-24 锐迪科微电子(上海)有限公司 语音检测方法、装置、设备和存储介质
CN113593251A (zh) * 2021-07-22 2021-11-02 世邦通信股份有限公司 一种炸街车快速筛选方法及系统
CN114220457A (zh) * 2021-10-29 2022-03-22 成都中科信息技术有限公司 双通道通信链路的音频数据处理方法、装置及存储介质
CN114944152A (zh) * 2022-07-20 2022-08-26 深圳市微纳感知计算技术有限公司 车辆鸣笛音识别方法
CN115116232A (zh) * 2022-08-29 2022-09-27 深圳市微纳感知计算技术有限公司 汽车鸣笛的声纹比较方法、装置、设备及存储介质
CN115116232B (zh) * 2022-08-29 2022-12-09 深圳市微纳感知计算技术有限公司 汽车鸣笛的声纹比较方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111739542B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN111739542B (zh) 一种特征声音检测的方法、装置及设备
CN110634497B (zh) 降噪方法、装置、终端设备及存储介质
CN101010722B (zh) 用于检测语音信号中话音活动的设备和方法
US8065115B2 (en) Method and system for identifying audible noise as wind noise in a hearing aid apparatus
CN112969134B (zh) 麦克风异常检测方法、装置、设备及存储介质
CN110880329A (zh) 一种音频识别方法及设备、存储介质
CN110111811B (zh) 音频信号检测方法、装置和存储介质
CN108847253B (zh) 车辆型号识别方法、装置、计算机设备及存储介质
CN111883182B (zh) 人声检测方法、装置、设备及存储介质
CN109147798B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN113674763B (zh) 利用线谱特性的鸣笛声识别方法及系统、设备与存储介质
CN111754982A (zh) 语音通话的噪声消除方法、装置、电子设备及存储介质
US11594239B1 (en) Detection and removal of wind noise
CN113223536A (zh) 声纹识别方法、装置及终端设备
CN115426582B (zh) 一种耳机音频处理方法及装置
CN110503973B (zh) 音频信号瞬态噪音抑制方法、系统以及存储介质
CN104282303A (zh) 利用声纹识别进行语音辨识的方法及其电子装置
CN113112992A (zh) 一种语音识别方法、装置、存储介质和服务器
US20080147389A1 (en) Method and Apparatus for Robust Speech Activity Detection
CN111722185B (zh) 一种特征声音的定位方法、装置及设备
CN111402898B (zh) 音频信号处理方法、装置、设备及存储介质
CN114067834B (zh) 一种不良前导音识别方法、装置、存储介质和计算机设备
CN112309404B (zh) 机器语音的鉴别方法、装置、设备及存储介质
CN111354365B (zh) 一种纯语音数据采样率识别方法、装置、系统
CN113316075A (zh) 一种啸叫检测方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant