CN113674763A - 利用线谱特性的鸣笛声识别方法及系统、设备与存储介质 - Google Patents

利用线谱特性的鸣笛声识别方法及系统、设备与存储介质 Download PDF

Info

Publication number
CN113674763A
CN113674763A CN202110952986.2A CN202110952986A CN113674763A CN 113674763 A CN113674763 A CN 113674763A CN 202110952986 A CN202110952986 A CN 202110952986A CN 113674763 A CN113674763 A CN 113674763A
Authority
CN
China
Prior art keywords
line spectrum
sound
frequency
frequency domain
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110952986.2A
Other languages
English (en)
Other versions
CN113674763B (zh
Inventor
孙志强
刘波
霍亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shibang Communication Co Ltd
Original Assignee
Shibang Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shibang Communication Co Ltd filed Critical Shibang Communication Co Ltd
Priority to CN202110952986.2A priority Critical patent/CN113674763B/zh
Publication of CN113674763A publication Critical patent/CN113674763A/zh
Application granted granted Critical
Publication of CN113674763B publication Critical patent/CN113674763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种利用线谱特性的鸣笛声识别方法及系统、设备与存储介质,该方法包括将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果。本发明通过构建多个线谱模板,将采集的声音信号对应的频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果,能准确地对鸣笛声进行判断,将其与警报声、发动机声、刹车声等声音区分开来,避免了现有技术中在采集声音样本后通过机器学习和深度学习的复杂操作方式,充分利用了鸣笛声的线谱特征,计算量小,简单快速,实用价值强。

Description

利用线谱特性的鸣笛声识别方法及系统、设备与存储介质
技术领域
本发明涉及鸣笛抓拍技术领域,尤其是涉及一种利用线谱特性的鸣笛声识别方法及系统、设备与存储介质。
背景技术
通常情况下从复杂的交通环境噪声中准确判断出鸣笛声音是鸣笛抓拍系统的核心技术。现有技术大都以深度学习或者机器学习的方式来判断是否存在鸣笛声音,这需要相当数量的鸣笛声音样本,由于汽车喇叭的样式非常丰富,要想积累足够的样本是一项费时费力的工作,没有长时间的积累很难实现对汽车鸣笛声音的识别效果。另外,由于深度学习或者机器学习模型计算量大,因此造成成本上的增加,不利于汽车鸣笛声音识别技术的推广及应用。
发明内容
基于此,有必要针对现有技术的不足,提供一种利用线谱特性的鸣笛声识别方法及系统、设备与存储介质,能快速准确识别出鸣笛声,有效降低声音识别成本。
为解决上述技术问题,本发明所采用的技术方案是:
第一方面,提供了一种利用线谱特性的鸣笛声识别方法,其包括如下步骤:。
获取各通道采集的声音信号;
将声音信号转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;
根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;
将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果。
第二方面,提供了一种利用线谱特性的鸣笛声识别系统,其包括:
采集模块,用于获取各通道采集的声音信号;
变换模块,用于将声音信号转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;
构建模块,用于根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;
判断模块,用于将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果。
第三方面,提供了一种设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的利用线谱特性的鸣笛声识别方法。
第四方面,提供了一种存储介质,其存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被执行时实现上述的利用线谱特性的鸣笛声识别方法。
综上所述,本发明利用线谱特性的鸣笛声识别方法及系统、设备与存储介质通过构建多个线谱模板,将采集的声音信号对应的频域信号幅值均值Xnorm(k)与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果,能准确地对鸣笛声进行判断,将其与警报声、发动机声、刹车声等声音区分开来,避免了现有技术中在采集声音样本后通过机器学习和深度学习的操作方式充分利用了鸣笛声的线谱特征,计算量小,简单快速,实用价值强。
附图说明
图1是本发明实施例提供的由基频及其谐波组成的鸣笛声音的频谱示意图;
图2是本发明实施例提供的第一种利用线谱特性的鸣笛声识别方法的流程示意图;
图3是本发明实施例提供的第二种利用线谱特性的鸣笛声识别方法的流程示意图;
图4为本发明实施例提供的第一种利用线谱特性的鸣笛声识别系统的结构框图;
图5为本发明实施例提供的第二种利用线谱特性的鸣笛声识别系统的结构框图;
图6为本发明实施例提供的一种计算机设备的结构框图;
图7为本发明实施例提供的根据预设基频f0=210HZ构建的线谱模板示意图;
图8为本发明实施例提供的一个在现场录制的鸣笛音频中经归一化处理后频域信幅值均值与频点序号对应的示意图;
图9为本发明实施例提供的一个非鸣笛的高分贝交通噪声中经归一化处理后频域信幅值均值与频点序号对应的示意图。
具体实施方式
为能进一步了解本发明的特征、技术手段以及所达到的具体目的、功能,下面结合附图与具体实施方式对本发明作进一步详细描述。
本发明实施例提供的一种利用线谱特性的鸣笛声识别方法及系统、设备与存储介质具体可以应用于机动车鸣笛声识别领域,其中,机动车标配为一个或者两个喇叭,如果是两个喇叭进行鸣笛操作,则分别负责高音、低音。喇叭基频位于200-600Hz之间,鸣笛声音的频谱基本上就是由基频及其谐波组成的线谱,如图1所示。以下对本实施例提供的一种利用线谱特性的鸣笛声识别方法及系统、设备与存储介质进行详细地说明。
图2是本发明实施例提供的第一种利用线谱特性的鸣笛声识别方法的流程示意图,如图2所示,该利用线谱特性的鸣笛声识别方法,包括步骤S110-步骤S140,具体如下:
步骤S110、获取各通道采集的声音信号xi(n);其中,通道与麦克风一一对应设置,xi(n)表征为各麦克风采集的声音信号,i=1,2,...,M;本实施例中,采集声音信号的麦克风阵列有M个通道,则麦克风数量为M。
步骤S120、将声音信号xi(n)转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值。
具体地,所述步骤S120的方法,具体操作包括:
步骤S121、对声音信号xi(n)进行快速傅里叶变换,获取频域信号Xi(k)=FFT(xi(n)),k=1,2,...,L;k表征为频点序号,L表征为单帧声音信号采样长度,声音信号需要进行分帧处理,每一帧的数据样本点数即长度定义为L;
步骤S122、获取各通道声音信号对应的频域信号幅值的均值
Figure BDA0003219234760000041
其中,符号||表示求幅运算;
步骤S123、对频域信号幅值的均值
Figure BDA0003219234760000042
进行归一化处理获取归一化处理后的频域信号幅值均值:
Figure BDA0003219234760000043
其中,
Figure BDA0003219234760000044
步骤S130、根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;其中,所述线谱模板的数量
Figure BDA0003219234760000045
Δf=fs/L,
Figure BDA0003219234760000046
表示向下取整运算,f为预设基频范围区间大小,fs为采样频率,L为单帧声音信号采样长度;具体地,线谱模板的数量取决于快速傅里叶变换时的频率分辨率,与单帧声音信号采样长度和采样频率有关,即Δf=fs/L。
在本实施中,步骤S130位于步骤S120之后,步骤S130也可根据需要描述成位于步骤S120之前即步骤S110之后及步骤S120之前,步骤S130还可根据需要描述成位于步骤S110之前。
在一个实施例中,高次谐波的数量取决于采样周期,需要确保最高次谐波对应的频率不超过fs/2;在单个线谱模板中,频点的数量不会超过
Figure BDA0003219234760000047
f0为预设基频;同时,由于机动车鸣笛声的能量存在一个范围值,大部分鸣笛声能量处于预设能量fz之下,则频点数量的最大值
Figure BDA0003219234760000051
预设能量fz可根据实际需要由本领域技术人员自行设定;本实施例中,由于机动车鸣笛声音的能量都集中在3550Hz以下范围,因此,频点数量的最大值
Figure BDA0003219234760000052
如图7所示,为根据预设基频f0=210HZ构建的线谱模板,其中共有9个高次谐波。
步骤S140、将频域信号幅值均值
Figure BDA0003219234760000053
与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果;其中,预设要求为在单一线谱模板中频点j*f0+[-δf,δf]与频域信号幅值均值
Figure BDA0003219234760000054
匹配,j=1,2,3,...,F,F表征为单一线谱模板中频点数量的最大值,δf为预设频率误差;本实施例中,[-δf,δf]表示一个较小的频率范围,一般可设定为δf=5*Δf。
具体地,所述步骤S140的方法,具体操作包括:
步骤S141、获取其中一个线谱模板对应的频点j*f0,j=1,2,3,...,F,t≤T,T指代为线谱模板数量,
Figure BDA0003219234760000055
Δf=fs/L,
Figure BDA0003219234760000056
表示向下取整运算,f为预设基频范围区间大小,fs为采样频率,L为单帧声音信号采样长度。
步骤S142、判断频域信号幅值均值
Figure BDA0003219234760000057
中是否存在与预设基频f0+[-δf,δf]相对应的峰值,若是,则执行步骤S143;若否,则执行步骤S145,δf为预设频率误差。
步骤S143、设定kcount=0,在频域信号幅值均值
Figure BDA0003219234760000058
中依次寻找是否存在与j*f0+[-δf,δf]相对应的峰值,如果存在,则kcount=kcount+1。
其中,在频域信号幅值均值
Figure BDA0003219234760000059
寻找与线谱模板中频点相对应的峰值时,由于快速傅里叶变换过程中的频率分辨率的问题,
Figure BDA0003219234760000061
中的谐波可能存在误差,因此,在频域信号幅值均值
Figure BDA0003219234760000062
中寻找与线谱模板中某个频点j*f0相对应的峰值时,需要在j*f0+[-δf,δf]的区间进行搜索。
在一个实施例中,所述步骤S142及步骤S143中,在频域信号幅值均值
Figure BDA0003219234760000063
中存在与j*f0+[-δf,δf]相对应的峰值时,该峰值对应的频域信号幅值均值的绝对值
Figure BDA0003219234760000064
步骤S144、获取线谱模板中满足预设要求的频点概率R=kcount/F,判断满足预设要求的频点概率R=kcount/F是否低于预设频点概率;若否,则判定该声音信号为鸣笛声信号;若是,则执行步骤S145。
本实施例中,预设频点概率可根据需要选为0.8,即该线谱模板中有80%的频点都可以与频域信号幅值均值
Figure BDA0003219234760000065
中峰值进行匹配,说明频域信号幅值均值
Figure BDA0003219234760000066
对应的声音信号就是鸣笛声,则可将这段声音信号标记为鸣笛声。
步骤S145、遍历线谱模板,转入执行步骤S141。
本实施例中,可替换地,所述步骤S140的方法,具体操作包括:
步骤S141、获取第t个线谱模板对应的频点j*f0,j=1,2,3,...,F,t≤T,t初始值为1。
步骤S142、判断频域信号幅值均值
Figure BDA0003219234760000067
中是否存在与预设基频f0+[-δf,δf]相对应的峰值,若是,则执行步骤S143;若否,则执行步骤S145,δf为预设频率误差。
步骤S143、设定kcount=0,在频域信号幅值均值
Figure BDA0003219234760000068
中依次寻找是否存在与j*f0+[-δf,δf]相对应的峰值,如果存在,则kcount=kcount+1。
步骤S144、获取线谱模板中满足预设要求的频点概率R=kcount/F,判断满足预设要求的频点概率R=kcount/F是否低于预设频点概率;若否,则判定该声音信号为鸣笛声信号;若是,则执行步骤S145。
步骤S145、令t=t+1,若t≤T,则转入执行步骤S141。
如图3所示,在一个实施例中,所述步骤120之前,还包括
步骤S150、对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量;其中,所述步骤S150、对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量的方法,具体操作包括:
计算各通道采集的声音信号对应的时域能量
Figure BDA0003219234760000071
其中,xi(n)表征为各麦克风采集的声音信号,i=1,2,...,M;n=1,2,...,L;L表征为单帧声音信号采样长度;
对各时域能量求平均值,获取平均时域能量
Figure BDA0003219234760000072
其中,M为麦克风数量。
步骤S160、判断平均时域能量是否高于能量阈值pthd,若是,则执行步骤S120;若否,则转入步骤S110;其中,能量阈值pthd可根据需求自行设定,具体地,能量阈值pthd可根据麦克风的灵敏度参数来进行确定,指的是只有超过一定分贝数的声音信号才有可能是鸣笛声。
当平均时域能量高于能量阈值时,各通道采集的声音信号才可能被判定为鸣笛声;当平均时域能量不高于能量阈值pthd时,各通道采集的声音信号不会被判定为鸣笛声,此时需要各通道对后续声音信号进行采集,并对后续声音信号对应的时域能量求均值,再进行判断,达到可持续地采集声音信号,并判断采集的声音信号是否存在鸣笛声的可能性。
本发明一种利用线谱特性的鸣笛声识别方法通过构建多个线谱模板,将采集的声音信号对应的频域信号幅值均值
Figure BDA0003219234760000073
与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果,能准确地对鸣笛声进行判断,将其与警报声、发动机声、刹车声等声音区分开来,避免了现有技术中在采集声音样本后通过机器学习和深度学习的操作方式充分利用了鸣笛声的线谱特征,计算量小,简单快速,实用价值强。
下面针对上述方法进行验证,首先以一个在现场录制的鸣笛音频为例进行说明。采样频率fs=16000Hz,共有M=32个通道的数据,经归一化处理后频域信幅值均值如图8所示:
单帧声音信号采样长度为L=2048,考虑到傅里叶变换的对称性,只考虑前1025个频点即可,因此,图8的横坐标中只给出了1025个频点,对应的频率范围为0-8000Hz。
从图8可以看出,这个鸣笛声音存在两个基频,分别对应着图8中的最前面两个峰值,频点序号分别为56和69。在200-600Hz的范围内构建线谱模板,共可构建T=52个模板。与200Hz对应的最接近的频点序号为26,与600Hz对应的最接近的频点序号为77,因此,就按照26~77的顺序,逐次构建线谱模板,并与图8所示的均值幅值进行差异度分析。
当基频对应的序号为56时,频点数量F=8,则线谱模板为[56 112 168 224 280336 392 448],这些频点能够与图8中的峰值相应匹配,R=1>0.8,从而确定是鸣笛声音。
当基频对应的序号为69时,也可以得到与基频对应的序号为56一样类似的结果,此处不再进行赘述。
其次,以一个非鸣笛的高分贝交通噪声为例进行说明,如图9所示。可以看出,在这个非鸣笛的高分贝交通噪声信号中,存在一个疑似的基频,对应的频点序号为27,以此基频构造线谱模板,可以得到频点数量F=17的线谱模板[27 54 81108 135 162 189 216 243270 297 324 351 378 405 432 459];经过对比发现,只有27、54、81和135这4个频点能够匹配,R=4/17<0.8,显然这不是鸣笛声音。
图4是本发明实施例提供的第一种利用线谱特性的鸣笛声识别系统的结构框图,如图4所示,对应于上述利用线谱特性的鸣笛声识别方法,本发明还提供一种利用线谱特性的鸣笛声识别系统,该利用线谱特性的鸣笛声识别系统包括用于执行上述利用线谱特性的鸣笛声识别方法的模块,该系统可以被配置于计算机设备等终端,应用本发明利用线谱特性的鸣笛声识别系统,通过构建多个线谱模板,将采集的声音信号对应的频域信号幅值均值Xnorm(k)与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果,能准确地对鸣笛声进行判断,将其与警报声、发动机声、刹车声等声音区分开来,避免了现有技术中在采集声音样本后通过机器学习和深度学习的操作方式充分利用了鸣笛声的线谱特征,计算量小,简单快速,实用价值强。
具体地,如图4所示,该利用线谱特性的鸣笛声识别系统包括采集模块110、变换模块120、构建模块130及判断模块140。
采集模块110,用于获取各通道采集的声音信号;
变换模块120,用于将声音信号转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;
构建模块130,用于根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;
判断模块140,用于将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果。
图5是本发明实施例提供的第二种利用线谱特性的鸣笛声识别系统的结构框图。如图5所示,本实施例提供的利用线谱特性的鸣笛声识别系统还包括计算模块150,用于对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量。
在一个实施例中,所述判断模块140还用于判断平均时域能量是否高于能量阈值。
在一个实施例中,所述计算模块150具体用于:
计算各通道采集的声音信号对应的时域能量
Figure BDA0003219234760000101
其中,xi(n)表征为各麦克风采集的声音信号,i=1,2,...,M;n=1,2,...,L;L表征为单帧声音信号采样长度;
对各时域能量求平均值,获取平均时域能量
Figure BDA0003219234760000102
其中,M为麦克风数量。
在一个实施例中,所述变换模块120具体用于:
步骤S121、对声音信号xi(n)进行快速傅里叶变换,获取频域信号Xi(k)=FFT(xi(n)),k=1,2,...,L;k表征为频点序号,L表征为单帧声音信号采样长度;
步骤S122、获取各通道声音信号对应的频域信号幅值的均值
Figure BDA0003219234760000103
其中,符号||表示求幅运算;
步骤S123、对频域信号幅值的均值
Figure BDA0003219234760000104
进行归一化处理获取归一化处理后的频域信号幅值均值:
Figure BDA0003219234760000105
其中,
Figure BDA0003219234760000106
本发明一种利用线谱特性的鸣笛声识别系统通过构建多个线谱模板,将采集的声音信号对应的频域信号幅值均值
Figure BDA0003219234760000111
与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果,能准确地对鸣笛声进行判断,将其与警报声、发动机声、刹车声等声音区分开来,避免了现有技术中在采集声音样本后通过机器学习和深度学习的操作方式充分利用了鸣笛声的线谱特征,计算量小,简单快速,实用价值强。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述利用线谱特性的鸣笛声识别系统和各模块的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
图6是本发明实施例提供的一种计算机设备的内部结构框图,如图6所示,本发明提供的计算机设备包括通过系统总线连接的通过系统总线连接的存储器、处理器及网络接口;所述存储器上存储有计算机程序,所述处理器用于提供计算和控制能力,以支撑整个计算机设备的运行,所述处理器执行所述计算机程序时实现上述的一种利用线谱特性的鸣笛声识别方法。
存储器可以包括非易失性存储介质和内存储器,该非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现利用线谱特性的鸣笛声识别方法。
该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行利用线谱特性的鸣笛声识别方法。该网络接口用于与其它设备进行网络通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其他的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的利用线谱特性的鸣笛声识别方法可实现为一种计算机程序的方式,计算机程序可以在如图6所示的计算机设备上运行。计算机设备的存储器中可存储组成该利用线谱特性的鸣笛声识别系统的各个程序模块,比如,图4所示的采集模块110、变换模块120、构建模块130及判断模块140。各个程序模块构成的计算机程序使得处理器执行本说明中描述的本申请各个实施例的利用线谱特性的鸣笛声识别系统的步骤。例如,图6所示的计算机设备可以通过如图4所示的利用线谱特性的鸣笛声识别系统中的采集模块110获取各通道采集的声音信号;变换模块120将声音信号xi(n)转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;构建模块130根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;判断模块140用于将频域信号幅值均值
Figure BDA0003219234760000121
与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:步骤S110、获取各通道采集的声音信号xi(n);步骤S120、将声音信号xi(n)转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;步骤S130、根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;步骤S140、将频域信号幅值均值
Figure BDA0003219234760000122
与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果。
在一个实施例中,所述处理器在执行所述步骤S120的步骤时,具体执行如下步骤:步骤S121、对声音信号xi(n)进行快速傅里叶变换,获取频域信号Xi(k)=FFT(xi(n)),k=1,2,...,L;k表征为频点序号,L表征为单帧声音信号采样长度;步骤S122、获取各通道声音信号对应的频域信号幅值的均值
Figure BDA0003219234760000131
其中,符号||表示求幅运算;
步骤S123、对频域信号幅值的均值
Figure BDA0003219234760000132
进行归一化处理获取归一化处理后的频域信号幅值均值:
Figure BDA0003219234760000133
其中,
Figure BDA0003219234760000134
在一个实施例中,所述处理器在执行步骤S120之前,具体执行如下步骤:步骤S150、对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量;步骤S160、判断平均时域能量是否高于能量阈值pthd,若是,则执行步骤S120;若否,则转入步骤S110。
在一个实施例中,所述处理器在实现所述步骤S150、对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量的步骤时,具体实现如下步骤:计算各通道采集的声音信号对应的时域能量
Figure BDA0003219234760000135
其中,xi(n)表征为各麦克风采集的声音信号,i=1,2,...,M;n=1,2,...,L;L表征为单帧声音信号采样长度;对各时域能量求平均值,获取平均时域能量
Figure BDA0003219234760000136
其中,M为麦克风数量。
应当理解,在本申请实施例中,处理器可以是中央处理单元(Central ProcessingUnit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤:步骤S110、获取各通道采集的声音信号xi(n);步骤S120、将声音信号xi(n)转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;步骤S130、根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;步骤S140、将频域信号幅值均值
Figure BDA0003219234760000141
与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果。
在一个实施例中,所述处理器在执行所述步骤S120的步骤之前,具体执行如下步骤:步骤S150、对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量;步骤S160、判断平均时域能量是否高于能量阈值pthd,若是,则执行步骤S120;若否,则转入步骤S110;
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
综上所述,本发明一种利用线谱特性的鸣笛声识别方法及系统、设备及存储介质通过构建多个线谱模板,将采集的声音信号对应的频域信号幅值均值
Figure BDA0003219234760000142
与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果,能准确地对鸣笛声进行判断,将其与警报声、发动机声、刹车声等声音区分开来,避免了现有技术中在采集声音样本后通过机器学习和深度学习的操作方式充分利用了鸣笛声的线谱特征,计算量小,简单快速,实用价值强。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台装置(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (10)

1.一种利用线谱特性的鸣笛声识别方法,其特征在于,包括如下步骤:
获取各通道采集的声音信号;
将声音信号转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;
根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;
将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果。
2.根据权利要求1所述的利用线谱特性的鸣笛声识别方法,其特征在于,所述步骤将声音信号转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值之前,还包括:
对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量;
判断平均时域能量是否高于能量阈值;若是,则执行步骤将声音信号转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;若否,则转入步骤获取各通道采集的声音信号。
3.根据权利要求2所述的利用线谱特性的鸣笛声识别方法,其特征在于,所述步骤对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量的方法,具体操作包括:
计算各通道采集的声音信号对应的时域能量
Figure FDA0003219234750000011
其中,xi(n)表征为各麦克风采集的声音信号,i=1,2,...,M;n=1,2,...,L;L表征为单帧声音信号采样长度;
对各时域能量求平均值,获取平均时域能量
Figure FDA0003219234750000012
其中,M为麦克风数量。
4.根据权利要求1或2所述的利用线谱特性的鸣笛声识别方法,其特征在于,所述步骤将声音信号转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值的方法,具体操作包括:
步骤S121、对声音信号xi(n)进行快速傅里叶变换,获取频域信号
Xi(k)=FFT(xi(n)),k=1,2,...,L;k表征为频点序号,L表征为单帧声音信号采样长度;
步骤S122、获取各通道声音信号对应的频域信号幅值的均值
Figure FDA0003219234750000021
其中,符号||表示求幅运算;
步骤S123、对频域信号幅值的均值
Figure FDA0003219234750000022
进行归一化处理获取归一化处理后的频域信号幅值均值:
Figure FDA0003219234750000023
其中,
Figure FDA0003219234750000024
5.根据权利要求1或2所述的利用线谱特性的鸣笛声识别方法,其特征在于,所述步骤将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果的方法,具体操作包括:
步骤S141、获取其中一个线谱模板对应的频点j*f0,j=1,2,3,...,F,t≤T,T指代为线谱模板数量;
步骤S142、判断频域信号幅值均值
Figure FDA0003219234750000025
中是否存在与预设基频f0+[-δf,δf]相对应的峰值,若是,则执行步骤S143;若否,则执行步骤S145,δf为预设频率误差;
步骤S143、设定kcount=0,在频域信号幅值均值
Figure FDA0003219234750000026
中依次寻找是否存在与j*f0+[-δf,δf]相对应的峰值,如果存在,则kcount=kcount+1;
步骤S144、获取线谱模板中满足预设要求的频点概率R=kcount/F,判断满足预设要求的频点概率R=kcount/F是否低于预设频点概率;若否,则判定该声音信号为鸣笛声信号;若是,则执行步骤S145;
步骤S145、遍历线谱模板,转入执行步骤S141。
6.根据权利要求1或2所述的利用线谱特性的鸣笛声识别方法,其特征在于,所述步骤将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果的方法,具体操作包括:
步骤S141、获取第t个线谱模板对应的频点j*f0,j=1,2,3,...,F,t≤T,t初始值为1;
步骤S142、判断频域信号幅值均值
Figure FDA0003219234750000031
中是否存在与预设基频f0+[-δf,δf]相对应的峰值,若是,则执行步骤S143;若否,则执行步骤S145,δf为预设频率误差;
步骤S143、设定kcount=0,在频域信号幅值均值
Figure FDA0003219234750000032
中依次寻找是否存在与j*f0+[-δf,δf]相对应的峰值,如果存在,则kcount=kcount+1;
步骤S144、获取线谱模板中满足预设要求的频点概率R=kcount/F,判断满足预设要求的频点概率R=kcount/F是否低于预设频点概率;若否,则判定该声音信号为鸣笛声信号;若是,则执行步骤S145;
步骤S145、令t=t+1,若t≤T,则转入执行步骤S141。
7.一种利用线谱特性的鸣笛声识别系统,其特征在于,包括:
采集模块,用于获取各通道采集的声音信号;
变换模块,用于将声音信号转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;
构建模块,用于根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;
判断模块,用于将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果。
8.一种利用线谱特性的鸣笛声识别系统,其特征在于:还包括计算模块,用于对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量。
9.一种设备,其特征在于:所述设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的利用线谱特性的鸣笛声识别方法。
10.一种存储介质,其特征在于:所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被执行时实现如权利要求1-6中任一项所述的利用线谱特性的鸣笛声识别方法。
CN202110952986.2A 2021-08-19 2021-08-19 利用线谱特性的鸣笛声识别方法及系统、设备与存储介质 Active CN113674763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110952986.2A CN113674763B (zh) 2021-08-19 2021-08-19 利用线谱特性的鸣笛声识别方法及系统、设备与存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110952986.2A CN113674763B (zh) 2021-08-19 2021-08-19 利用线谱特性的鸣笛声识别方法及系统、设备与存储介质

Publications (2)

Publication Number Publication Date
CN113674763A true CN113674763A (zh) 2021-11-19
CN113674763B CN113674763B (zh) 2023-09-15

Family

ID=78543796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110952986.2A Active CN113674763B (zh) 2021-08-19 2021-08-19 利用线谱特性的鸣笛声识别方法及系统、设备与存储介质

Country Status (1)

Country Link
CN (1) CN113674763B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743562A (zh) * 2022-06-09 2022-07-12 成都凯天电子股份有限公司 一种飞机声纹识别方法、系统、电子设备及存储介质
CN114822030A (zh) * 2022-04-26 2022-07-29 云知声智能科技股份有限公司 一种车辆鸣喇叭处理方法、装置、电子设备和存储介质
CN115416577A (zh) * 2022-09-26 2022-12-02 东风汽车集团股份有限公司 一种后车喇叭警示方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751580B1 (en) * 2000-05-05 2004-06-15 The United States Of America As Represented By The Secretary Of The Navy Tornado recognition system and associated methods
CN102213759A (zh) * 2011-04-08 2011-10-12 东南大学 基于功率谱的水声目标特征匹配方法
KR20120063170A (ko) * 2010-12-07 2012-06-15 한국기술교육대학교 산학협력단 악보인식시스템 및 이를 이용한 악보인식방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751580B1 (en) * 2000-05-05 2004-06-15 The United States Of America As Represented By The Secretary Of The Navy Tornado recognition system and associated methods
KR20120063170A (ko) * 2010-12-07 2012-06-15 한국기술교육대학교 산학협력단 악보인식시스템 및 이를 이용한 악보인식방법
CN102213759A (zh) * 2011-04-08 2011-10-12 东南大学 基于功率谱的水声目标特征匹配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴国清等: "船舶噪声识别(III)--双重谱和平均功率谱的特征提取和模板图", 声学学报, vol. 24, no. 2, pages 191 - 196 *
胡志峰: "基于嵌入式声音识别技术的列车预警研究", 中国优秀硕士学位论文全文数据库工程科技Ⅱ辑, pages 112 - 113 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114822030A (zh) * 2022-04-26 2022-07-29 云知声智能科技股份有限公司 一种车辆鸣喇叭处理方法、装置、电子设备和存储介质
CN114822030B (zh) * 2022-04-26 2023-03-14 云知声智能科技股份有限公司 一种车辆鸣喇叭处理方法、装置、电子设备和存储介质
CN114743562A (zh) * 2022-06-09 2022-07-12 成都凯天电子股份有限公司 一种飞机声纹识别方法、系统、电子设备及存储介质
CN114743562B (zh) * 2022-06-09 2022-11-01 成都凯天电子股份有限公司 一种飞机声纹识别方法、系统、电子设备及存储介质
CN115416577A (zh) * 2022-09-26 2022-12-02 东风汽车集团股份有限公司 一种后车喇叭警示方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113674763B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN113674763A (zh) 利用线谱特性的鸣笛声识别方法及系统、设备与存储介质
US8271200B2 (en) System and method for acoustic signature extraction, detection, discrimination, and localization
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
US7177808B2 (en) Method for improving speaker identification by determining usable speech
US20060053009A1 (en) Distributed speech recognition system and method
CN1679083A (zh) 不利环境中的多信道语音检测
EP2907121B1 (en) Real-time traffic detection
CN103546853A (zh) 一种基于短时傅里叶变换的扬声器异常音检测方法
Socoró et al. Development of an Anomalous Noise Event Detection Algorithm for dynamic road traffic noise mapping
CN112052712B (zh) 一种电力设备状态监测与故障识别方法及系统
CN114487733A (zh) 一种基于声纹的局部放电检测方法
CN112908344B (zh) 一种鸟鸣声智能识别方法、装置、设备和介质
CN117116290A (zh) 基于多维特征的数控机床部件缺陷定位方法和相关设备
CN112394324A (zh) 一种基于麦克风阵列的远距离声源定位的方法及系统
CN114372491A (zh) 转动设备的故障识别方法及相关设备
CN113963719A (zh) 基于深度学习的声音分类方法和装置、存储介质和计算机
CN113177536B (zh) 基于深度残差收缩网络的车辆碰撞检测方法及装置
CN116796130A (zh) 桥梁振动低频重构去噪方法、系统、计算机及存储介质
CN116910690A (zh) 一种基于数据融合的目标分类系统
CN111681671B (zh) 异常音识别方法、装置及计算机存储介质
JP3875111B2 (ja) 事故音検出装置、方法およびプログラム
CN115424639B (zh) 一种基于时频特征的环境噪声下海豚声音端点检测方法
CN117789764A (zh) 车机输出音频检测方法、系统、控制装置及存储介质
CN115876483A (zh) 一种故障检测方法及装置
JP4378098B2 (ja) 音源選択装置および方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant