CN113674763B - 利用线谱特性的鸣笛声识别方法及系统、设备与存储介质 - Google Patents

利用线谱特性的鸣笛声识别方法及系统、设备与存储介质 Download PDF

Info

Publication number
CN113674763B
CN113674763B CN202110952986.2A CN202110952986A CN113674763B CN 113674763 B CN113674763 B CN 113674763B CN 202110952986 A CN202110952986 A CN 202110952986A CN 113674763 B CN113674763 B CN 113674763B
Authority
CN
China
Prior art keywords
line spectrum
frequency
whistle
frequency domain
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110952986.2A
Other languages
English (en)
Other versions
CN113674763A (zh
Inventor
孙志强
刘波
霍亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shibang Communication Co ltd
Original Assignee
Shibang Communication Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shibang Communication Co ltd filed Critical Shibang Communication Co ltd
Priority to CN202110952986.2A priority Critical patent/CN113674763B/zh
Publication of CN113674763A publication Critical patent/CN113674763A/zh
Application granted granted Critical
Publication of CN113674763B publication Critical patent/CN113674763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

本发明公开了一种利用线谱特性的鸣笛声识别方法及系统、设备与存储介质,该方法包括将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果。本发明通过构建多个线谱模板,将采集的声音信号对应的频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果,能准确地对鸣笛声进行判断,将其与警报声、发动机声、刹车声等声音区分开来,避免了现有技术中在采集声音样本后通过机器学习和深度学习的复杂操作方式,充分利用了鸣笛声的线谱特征,计算量小,简单快速,实用价值强。

Description

利用线谱特性的鸣笛声识别方法及系统、设备与存储介质
技术领域
本发明涉及鸣笛抓拍技术领域,尤其是涉及一种利用线谱特性的鸣笛声识别方法及系统、设备与存储介质。
背景技术
通常情况下从复杂的交通环境噪声中准确判断出鸣笛声音是鸣笛抓拍系统的核心技术。现有技术大都以深度学习或者机器学习的方式来判断是否存在鸣笛声音,这需要相当数量的鸣笛声音样本,由于汽车喇叭的样式非常丰富,要想积累足够的样本是一项费时费力的工作,没有长时间的积累很难实现对汽车鸣笛声音的识别效果。另外,由于深度学习或者机器学习模型计算量大,因此造成成本上的增加,不利于汽车鸣笛声音识别技术的推广及应用。
发明内容
基于此,有必要针对现有技术的不足,提供一种利用线谱特性的鸣笛声识别方法及系统、设备与存储介质,能快速准确识别出鸣笛声,有效降低声音识别成本。
为解决上述技术问题,本发明所采用的技术方案是:
第一方面,提供了一种利用线谱特性的鸣笛声识别方法,其包括如下步骤:。
获取各通道采集的声音信号;
将声音信号转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;
根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;
将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果。
第二方面,提供了一种利用线谱特性的鸣笛声识别系统,其包括:
采集模块,用于获取各通道采集的声音信号;
变换模块,用于将声音信号转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;
构建模块,用于根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;
判断模块,用于将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果。
第三方面,提供了一种设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的利用线谱特性的鸣笛声识别方法。
第四方面,提供了一种存储介质,其存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被执行时实现上述的利用线谱特性的鸣笛声识别方法。
综上所述,本发明利用线谱特性的鸣笛声识别方法及系统、设备与存储介质通过构建多个线谱模板,将采集的声音信号对应的频域信号幅值均值Xnorm(k)与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果,能准确地对鸣笛声进行判断,将其与警报声、发动机声、刹车声等声音区分开来,避免了现有技术中在采集声音样本后通过机器学习和深度学习的操作方式充分利用了鸣笛声的线谱特征,计算量小,简单快速,实用价值强。
附图说明
图1是本发明实施例提供的由基频及其谐波组成的鸣笛声音的频谱示意图;
图2是本发明实施例提供的第一种利用线谱特性的鸣笛声识别方法的流程示意图;
图3是本发明实施例提供的第二种利用线谱特性的鸣笛声识别方法的流程示意图;
图4为本发明实施例提供的第一种利用线谱特性的鸣笛声识别系统的结构框图;
图5为本发明实施例提供的第二种利用线谱特性的鸣笛声识别系统的结构框图;
图6为本发明实施例提供的一种计算机设备的结构框图;
图7为本发明实施例提供的根据预设基频f0=210HZ构建的线谱模板示意图;
图8为本发明实施例提供的一个在现场录制的鸣笛音频中经归一化处理后频域信幅值均值与频点序号对应的示意图;
图9为本发明实施例提供的一个非鸣笛的高分贝交通噪声中经归一化处理后频域信幅值均值与频点序号对应的示意图。
具体实施方式
为能进一步了解本发明的特征、技术手段以及所达到的具体目的、功能,下面结合附图与具体实施方式对本发明作进一步详细描述。
本发明实施例提供的一种利用线谱特性的鸣笛声识别方法及系统、设备与存储介质具体可以应用于机动车鸣笛声识别领域,其中,机动车标配为一个或者两个喇叭,如果是两个喇叭进行鸣笛操作,则分别负责高音、低音。喇叭基频位于200-600Hz之间,鸣笛声音的频谱基本上就是由基频及其谐波组成的线谱,如图1所示。以下对本实施例提供的一种利用线谱特性的鸣笛声识别方法及系统、设备与存储介质进行详细地说明。
图2是本发明实施例提供的第一种利用线谱特性的鸣笛声识别方法的流程示意图,如图2所示,该利用线谱特性的鸣笛声识别方法,包括步骤S110-步骤S140,具体如下:
步骤S110、获取各通道采集的声音信号xi(n);其中,通道与麦克风一一对应设置,xi(n)表征为各麦克风采集的声音信号,i=1,2,...,M;本实施例中,采集声音信号的麦克风阵列有M个通道,则麦克风数量为M。
步骤S120、将声音信号xi(n)转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值。
具体地,所述步骤S120的方法,具体操作包括:
步骤S121、对声音信号xi(n)进行快速傅里叶变换,获取频域信号Xi(k)=FFT(xi(n)),k=1,2,...,L;k表征为频点序号,L表征为单帧声音信号采样长度,声音信号需要进行分帧处理,每一帧的数据样本点数即长度定义为L;
步骤S122、获取各通道声音信号对应的频域信号幅值的均值其中,符号||表示求幅运算;
步骤S123、对频域信号幅值的均值进行归一化处理获取归一化处理后的频域信号幅值均值:
其中,
步骤S130、根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;其中,所述线谱模板的数量Δf=fs/L,/>表示向下取整运算,f为预设基频范围区间大小,fs为采样频率,L为单帧声音信号采样长度;具体地,线谱模板的数量取决于快速傅里叶变换时的频率分辨率,与单帧声音信号采样长度和采样频率有关,即Δf=fs/L。
在本实施中,步骤S130位于步骤S120之后,步骤S130也可根据需要描述成位于步骤S120之前即步骤S110之后及步骤S120之前,步骤S130还可根据需要描述成位于步骤S110之前。
在一个实施例中,高次谐波的数量取决于采样周期,需要确保最高次谐波对应的频率不超过fs/2;在单个线谱模板中,频点的数量不会超过f0为预设基频;同时,由于机动车鸣笛声的能量存在一个范围值,大部分鸣笛声能量处于预设能量fz之下,则频点数量的最大值/>预设能量fz可根据实际需要由本领域技术人员自行设定;本实施例中,由于机动车鸣笛声音的能量都集中在3550Hz以下范围,因此,频点数量的最大值/>
如图7所示,为根据预设基频f0=210HZ构建的线谱模板,其中共有9个高次谐波。
步骤S140、将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果;其中,预设要求为在单一线谱模板中频点j*f0+[-δf,δf]与频域信号幅值均值/>匹配,j=1,2,3,...,F,F表征为单一线谱模板中频点数量的最大值,δf为预设频率误差;本实施例中,[-δf,δf]表示一个较小的频率范围,一般可设定为δf=5*Δf。
具体地,所述步骤S140的方法,具体操作包括:
步骤S141、获取其中一个线谱模板对应的频点j*f0,j=1,2,3,...,F,t≤T,T指代为线谱模板数量,Δf=fs/L,/>表示向下取整运算,f为预设基频范围区间大小,fs为采样频率,L为单帧声音信号采样长度。
步骤S142、判断频域信号幅值均值中是否存在与预设基频f0+[-δf,δf]相对应的峰值,若是,则执行步骤S143;若否,则执行步骤S145,δf为预设频率误差。
步骤S143、设定kcount=0,在频域信号幅值均值中依次寻找是否存在与j*f0+[-δf,δf]相对应的峰值,如果存在,则kcount=kcount+1。
其中,在频域信号幅值均值寻找与线谱模板中频点相对应的峰值时,由于快速傅里叶变换过程中的频率分辨率的问题,/>中的谐波可能存在误差,因此,在频域信号幅值均值/>中寻找与线谱模板中某个频点j*f0相对应的峰值时,需要在j*f0+[-δf,δf]的区间进行搜索。
在一个实施例中,所述步骤S142及步骤S143中,在频域信号幅值均值中存在与j*f0+[-δf,δf]相对应的峰值时,该峰值对应的频域信号幅值均值的绝对值
步骤S144、获取线谱模板中满足预设要求的频点概率R=kcount/F,判断满足预设要求的频点概率R=kcount/F是否低于预设频点概率;若否,则判定该声音信号为鸣笛声信号;若是,则执行步骤S145。
本实施例中,预设频点概率可根据需要选为0.8,即该线谱模板中有80%的频点都可以与频域信号幅值均值中峰值进行匹配,说明频域信号幅值均值/>对应的声音信号就是鸣笛声,则可将这段声音信号标记为鸣笛声。
步骤S145、遍历线谱模板,转入执行步骤S141。
本实施例中,可替换地,所述步骤S140的方法,具体操作包括:
步骤S141、获取第t个线谱模板对应的频点j*f0,j=1,2,3,...,F,t≤T,t初始值为1。
步骤S142、判断频域信号幅值均值中是否存在与预设基频f0+[-δf,δf]相对应的峰值,若是,则执行步骤S143;若否,则执行步骤S145,δf为预设频率误差。
步骤S143、设定kcount=0,在频域信号幅值均值中依次寻找是否存在与j*f0+[-δf,δf]相对应的峰值,如果存在,则kcount=kcount+1。
步骤S144、获取线谱模板中满足预设要求的频点概率R=kcount/F,判断满足预设要求的频点概率R=kcount/F是否低于预设频点概率;若否,则判定该声音信号为鸣笛声信号;若是,则执行步骤S145。
步骤S145、令t=t+1,若t≤T,则转入执行步骤S141。
如图3所示,在一个实施例中,所述步骤120之前,还包括
步骤S150、对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量;其中,所述步骤S150、对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量的方法,具体操作包括:
计算各通道采集的声音信号对应的时域能量其中,xi(n)表征为各麦克风采集的声音信号,i=1,2,...,M;n=1,2,...,L;L表征为单帧声音信号采样长度;
对各时域能量求平均值,获取平均时域能量其中,M为麦克风数量。
步骤S160、判断平均时域能量是否高于能量阈值pthd,若是,则执行步骤S120;若否,则转入步骤S110;其中,能量阈值pthd可根据需求自行设定,具体地,能量阈值pthd可根据麦克风的灵敏度参数来进行确定,指的是只有超过一定分贝数的声音信号才有可能是鸣笛声。
当平均时域能量高于能量阈值时,各通道采集的声音信号才可能被判定为鸣笛声;当平均时域能量不高于能量阈值pthd时,各通道采集的声音信号不会被判定为鸣笛声,此时需要各通道对后续声音信号进行采集,并对后续声音信号对应的时域能量求均值,再进行判断,达到可持续地采集声音信号,并判断采集的声音信号是否存在鸣笛声的可能性。
本发明一种利用线谱特性的鸣笛声识别方法通过构建多个线谱模板,将采集的声音信号对应的频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果,能准确地对鸣笛声进行判断,将其与警报声、发动机声、刹车声等声音区分开来,避免了现有技术中在采集声音样本后通过机器学习和深度学习的操作方式充分利用了鸣笛声的线谱特征,计算量小,简单快速,实用价值强。
下面针对上述方法进行验证,首先以一个在现场录制的鸣笛音频为例进行说明。采样频率fs=16000Hz,共有M=32个通道的数据,经归一化处理后频域信幅值均值如图8所示:
单帧声音信号采样长度为L=2048,考虑到傅里叶变换的对称性,只考虑前1025个频点即可,因此,图8的横坐标中只给出了1025个频点,对应的频率范围为0-8000Hz。
从图8可以看出,这个鸣笛声音存在两个基频,分别对应着图8中的最前面两个峰值,频点序号分别为56和69。在200-600Hz的范围内构建线谱模板,共可构建T=52个模板。与200Hz对应的最接近的频点序号为26,与600Hz对应的最接近的频点序号为77,因此,就按照26~77的顺序,逐次构建线谱模板,并与图8所示的均值幅值进行差异度分析。
当基频对应的序号为56时,频点数量F=8,则线谱模板为[56 112 168 224 280336 392 448],这些频点能够与图8中的峰值相应匹配,R=1>0.8,从而确定是鸣笛声音。
当基频对应的序号为69时,也可以得到与基频对应的序号为56一样类似的结果,此处不再进行赘述。
其次,以一个非鸣笛的高分贝交通噪声为例进行说明,如图9所示。可以看出,在这个非鸣笛的高分贝交通噪声信号中,存在一个疑似的基频,对应的频点序号为27,以此基频构造线谱模板,可以得到频点数量F=17的线谱模板[27 54 81108 135 162 189 216 243270 297 324 351 378 405 432 459];经过对比发现,只有27、54、81和135这4个频点能够匹配,R=4/17<0.8,显然这不是鸣笛声音。
图4是本发明实施例提供的第一种利用线谱特性的鸣笛声识别系统的结构框图,如图4所示,对应于上述利用线谱特性的鸣笛声识别方法,本发明还提供一种利用线谱特性的鸣笛声识别系统,该利用线谱特性的鸣笛声识别系统包括用于执行上述利用线谱特性的鸣笛声识别方法的模块,该系统可以被配置于计算机设备等终端,应用本发明利用线谱特性的鸣笛声识别系统,通过构建多个线谱模板,将采集的声音信号对应的频域信号幅值均值Xnorm(k)与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果,能准确地对鸣笛声进行判断,将其与警报声、发动机声、刹车声等声音区分开来,避免了现有技术中在采集声音样本后通过机器学习和深度学习的操作方式充分利用了鸣笛声的线谱特征,计算量小,简单快速,实用价值强。
具体地,如图4所示,该利用线谱特性的鸣笛声识别系统包括采集模块110、变换模块120、构建模块130及判断模块140。
采集模块110,用于获取各通道采集的声音信号;
变换模块120,用于将声音信号转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;
构建模块130,用于根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;
判断模块140,用于将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果。
图5是本发明实施例提供的第二种利用线谱特性的鸣笛声识别系统的结构框图。如图5所示,本实施例提供的利用线谱特性的鸣笛声识别系统还包括计算模块150,用于对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量。
在一个实施例中,所述判断模块140还用于判断平均时域能量是否高于能量阈值。
在一个实施例中,所述计算模块150具体用于:
计算各通道采集的声音信号对应的时域能量其中,xi(n)表征为各麦克风采集的声音信号,i=1,2,...,M;n=1,2,...,L;L表征为单帧声音信号采样长度;
对各时域能量求平均值,获取平均时域能量其中,M为麦克风数量。
在一个实施例中,所述变换模块120具体用于:
步骤S121、对声音信号xi(n)进行快速傅里叶变换,获取频域信号Xi(k)=FFT(xi(n)),k=1,2,...,L;k表征为频点序号,L表征为单帧声音信号采样长度;
步骤S122、获取各通道声音信号对应的频域信号幅值的均值其中,符号||表示求幅运算;
步骤S123、对频域信号幅值的均值进行归一化处理获取归一化处理后的频域信号幅值均值:
其中,
本发明一种利用线谱特性的鸣笛声识别系统通过构建多个线谱模板,将采集的声音信号对应的频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果,能准确地对鸣笛声进行判断,将其与警报声、发动机声、刹车声等声音区分开来,避免了现有技术中在采集声音样本后通过机器学习和深度学习的操作方式充分利用了鸣笛声的线谱特征,计算量小,简单快速,实用价值强。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述利用线谱特性的鸣笛声识别系统和各模块的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
图6是本发明实施例提供的一种计算机设备的内部结构框图,如图6所示,本发明提供的计算机设备包括通过系统总线连接的通过系统总线连接的存储器、处理器及网络接口;所述存储器上存储有计算机程序,所述处理器用于提供计算和控制能力,以支撑整个计算机设备的运行,所述处理器执行所述计算机程序时实现上述的一种利用线谱特性的鸣笛声识别方法。
存储器可以包括非易失性存储介质和内存储器,该非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现利用线谱特性的鸣笛声识别方法。
该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行利用线谱特性的鸣笛声识别方法。该网络接口用于与其它设备进行网络通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其他的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的利用线谱特性的鸣笛声识别方法可实现为一种计算机程序的方式,计算机程序可以在如图6所示的计算机设备上运行。计算机设备的存储器中可存储组成该利用线谱特性的鸣笛声识别系统的各个程序模块,比如,图4所示的采集模块110、变换模块120、构建模块130及判断模块140。各个程序模块构成的计算机程序使得处理器执行本说明中描述的本申请各个实施例的利用线谱特性的鸣笛声识别系统的步骤。例如,图6所示的计算机设备可以通过如图4所示的利用线谱特性的鸣笛声识别系统中的采集模块110获取各通道采集的声音信号;变换模块120将声音信号xi(n)转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;构建模块130根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;判断模块140用于将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:步骤S110、获取各通道采集的声音信号xi(n);步骤S120、将声音信号xi(n)转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;步骤S130、根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;步骤S140、将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果。
在一个实施例中,所述处理器在执行所述步骤S120的步骤时,具体执行如下步骤:步骤S121、对声音信号xi(n)进行快速傅里叶变换,获取频域信号Xi(k)=FFT(xi(n)),k=1,2,...,L;k表征为频点序号,L表征为单帧声音信号采样长度;步骤S122、获取各通道声音信号对应的频域信号幅值的均值其中,符号||表示求幅运算;
步骤S123、对频域信号幅值的均值进行归一化处理获取归一化处理后的频域信号幅值均值:/>
其中,
在一个实施例中,所述处理器在执行步骤S120之前,具体执行如下步骤:步骤S150、对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量;步骤S160、判断平均时域能量是否高于能量阈值pthd,若是,则执行步骤S120;若否,则转入步骤S110。
在一个实施例中,所述处理器在实现所述步骤S150、对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量的步骤时,具体实现如下步骤:计算各通道采集的声音信号对应的时域能量其中,xi(n)表征为各麦克风采集的声音信号,i=1,2,...,M;n=1,2,...,L;L表征为单帧声音信号采样长度;对各时域能量求平均值,获取平均时域能量/>其中,M为麦克风数量。
应当理解,在本申请实施例中,处理器可以是中央处理单元(Central ProcessingUnit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤:步骤S110、获取各通道采集的声音信号xi(n);步骤S120、将声音信号xi(n)转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;步骤S130、根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;步骤S140、将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果。
在一个实施例中,所述处理器在执行所述步骤S120的步骤之前,具体执行如下步骤:步骤S150、对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量;步骤S160、判断平均时域能量是否高于能量阈值pthd,若是,则执行步骤S120;若否,则转入步骤S110;
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
综上所述,本发明一种利用线谱特性的鸣笛声识别方法及系统、设备及存储介质通过构建多个线谱模板,将采集的声音信号对应的频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果,能准确地对鸣笛声进行判断,将其与警报声、发动机声、刹车声等声音区分开来,避免了现有技术中在采集声音样本后通过机器学习和深度学习的操作方式充分利用了鸣笛声的线谱特征,计算量小,简单快速,实用价值强。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台装置(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (8)

1.一种利用线谱特性的鸣笛声识别方法,其特征在于,包括如下步骤,
获取各通道采集的声音信号;
将声音信号转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;
根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;
将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果;
其中,所述步骤将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果的方法,具体操作包括:
步骤S141、获取第t个线谱模板对应的频点j*f0,j=1,2,3,...,F,t≤T,t初始值为1;
步骤S142、判断频域信号幅值均值中是否存在与预设基频f0+[-δf,δf]相对应的峰值,若是,则执行步骤S143;若否,则执行步骤S145,δf为预设频率误差;
步骤S143、设定kcount=0,在频域信号幅值均值中依次寻找是否存在与j*f0+[-δf,δf]相对应的峰值,如果存在,则kcount=kcount+1;
步骤S144、获取线谱模板中满足预设要求的频点概率R=kcount/F,判断满足预设要求的频点概率R=kcount/F是否低于预设频点概率;若否,则判定该声音信号为鸣笛声信号;若是,则执行步骤S145;
步骤S145、令t=t+1,若t≤T,则转入执行步骤S141。
2.根据权利要求1所述的利用线谱特性的鸣笛声识别方法,其特征在于,所述步骤将声音信号转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值之前,还包括:
对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量;
判断平均时域能量是否高于能量阈值;若是,则执行步骤将声音信号转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;若否,则转入步骤获取各通道采集的声音信号。
3.根据权利要求2所述的利用线谱特性的鸣笛声识别方法,其特征在于,所述步骤对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量的方法,具体操作包括:
计算各通道采集的声音信号对应的时域能量其中,xi(n)表征为各麦克风采集的声音信号,i=1,2,...,M;n=1,2,...,L;L表征为单帧声音信号采样长度;
对各时域能量求平均值,获取平均时域能量其中,M为麦克风数量。
4.根据权利要求1或2所述的利用线谱特性的鸣笛声识别方法,其特征在于,所述步骤将声音信号转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值的方法,具体操作包括:
步骤S121、对声音信号xi(n)进行快速傅里叶变换,获取频域信号Xi(k)=FFT(xi(n)),k=1,2,...,L;k表征为频点序号,L表征为单帧声音信号采样长度;
步骤S122、获取各通道声音信号对应的频域信号幅值的均值其中,符号||表示求幅运算;
步骤S123、对频域信号幅值的均值进行归一化处理获取归一化处理后的频域信号幅值均值:
其中,
5.一种利用线谱特性的鸣笛声识别系统,其特征在于,包括:
采集模块,用于获取各通道采集的声音信号;
变换模块,用于将声音信号转换为频域信号,并获取各通道采集声音信号对应的频域信号幅值均值;
构建模块,用于根据预设基频,构建多个线谱模板,每个线谱模板中的预设基频各不相同;
判断模块,用于将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果;
其中,所述将频域信号幅值均值与各线谱模板进行差异度分析,获取线谱模板中满足预设要求的频点概率,根据满足预设要求的频点概率获取声音信号的判定结果的方法,具体操作包括:
步骤S141、获取第t个线谱模板对应的频点j*f0,j=1,2,3,...,F,t≤T,t初始值为1;
步骤S142、判断频域信号幅值均值中是否存在与预设基频f0+[-δf,δf]相对应的峰值,若是,则执行步骤S143;若否,则执行步骤S145,δf为预设频率误差;
步骤S143、设定kcount=0,在频域信号幅值均值中依次寻找是否存在与j*f0+[-δf,δf]相对应的峰值,如果存在,则kcount=kcount+1;
步骤S144、获取线谱模板中满足预设要求的频点概率R=kcount/F,判断满足预设要求的频点概率R=kcount/F是否低于预设频点概率;若否,则判定该声音信号为鸣笛声信号;若是,则执行步骤S145;
步骤S145、令t=t+1,若t≤T,则转入执行步骤S141。
6.根据权利要求5所述的利用线谱特性的鸣笛声识别系统,其特征在于:还包括计算模块,用于对各通道采集的声音信号对应的时域能量求均值,获取平均时域能量。
7.一种计算机设备,其特征在于:所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的利用线谱特性的鸣笛声识别方法。
8.一种存储介质,其特征在于:所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被执行时实现如权利要求1-4中任一项所述的利用线谱特性的鸣笛声识别方法。
CN202110952986.2A 2021-08-19 2021-08-19 利用线谱特性的鸣笛声识别方法及系统、设备与存储介质 Active CN113674763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110952986.2A CN113674763B (zh) 2021-08-19 2021-08-19 利用线谱特性的鸣笛声识别方法及系统、设备与存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110952986.2A CN113674763B (zh) 2021-08-19 2021-08-19 利用线谱特性的鸣笛声识别方法及系统、设备与存储介质

Publications (2)

Publication Number Publication Date
CN113674763A CN113674763A (zh) 2021-11-19
CN113674763B true CN113674763B (zh) 2023-09-15

Family

ID=78543796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110952986.2A Active CN113674763B (zh) 2021-08-19 2021-08-19 利用线谱特性的鸣笛声识别方法及系统、设备与存储介质

Country Status (1)

Country Link
CN (1) CN113674763B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114822030B (zh) * 2022-04-26 2023-03-14 云知声智能科技股份有限公司 一种车辆鸣喇叭处理方法、装置、电子设备和存储介质
CN114743562B (zh) * 2022-06-09 2022-11-01 成都凯天电子股份有限公司 一种飞机声纹识别方法、系统、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751580B1 (en) * 2000-05-05 2004-06-15 The United States Of America As Represented By The Secretary Of The Navy Tornado recognition system and associated methods
CN102213759A (zh) * 2011-04-08 2011-10-12 东南大学 基于功率谱的水声目标特征匹配方法
KR20120063170A (ko) * 2010-12-07 2012-06-15 한국기술교육대학교 산학협력단 악보인식시스템 및 이를 이용한 악보인식방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751580B1 (en) * 2000-05-05 2004-06-15 The United States Of America As Represented By The Secretary Of The Navy Tornado recognition system and associated methods
KR20120063170A (ko) * 2010-12-07 2012-06-15 한국기술교육대학교 산학협력단 악보인식시스템 및 이를 이용한 악보인식방법
CN102213759A (zh) * 2011-04-08 2011-10-12 东南大学 基于功率谱的水声目标特征匹配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于嵌入式声音识别技术的列车预警研究;胡志峰;中国优秀硕士学位论文全文数据库工程科技Ⅱ辑;第29-32、44页 *
船舶噪声识别(III)--双重谱和平均功率谱的特征提取和模板图;吴国清等;声学学报;第24卷(第2期);第191-196页 *
贝先明等.实验语音学的基本原理与praat软件操作.湖南师范大学出版社,2016,第112-113页. *

Also Published As

Publication number Publication date
CN113674763A (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN110197670B (zh) 音频降噪方法、装置及电子设备
CN113674763B (zh) 利用线谱特性的鸣笛声识别方法及系统、设备与存储介质
EP1887831B1 (en) Method, apparatus and program for estimating the direction of a sound source
CN111383646B (zh) 一种语音信号变换方法、装置、设备和存储介质
WO2021114733A1 (zh) 一种分频段进行处理的噪声抑制方法及其系统
EP2413313B1 (en) Method and device for audio signal classification
US20130073263A1 (en) System and method for signature and extraction, detection, discrimination, and localization
CN101176149A (zh) 用于音调噪声鲁棒的信号处理系统
CN113259832B (zh) 麦克风阵列的检测方法、装置、电子设备及存储介质
CN111739542A (zh) 一种特征声音检测的方法、装置及设备
CN109903775B (zh) 一种音频爆音检测方法和装置
CN114487733A (zh) 一种基于声纹的局部放电检测方法
JP2016042613A (ja) 目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバ
CN112017636B (zh) 基于车辆的用户发音模拟方法、系统、设备及存储介质
CN100370516C (zh) 输入音处理装置
CN111755025B (zh) 一种基于音频特征的状态检测方法、装置及设备
CN113316075B (zh) 一种啸叫检测方法、装置及电子设备
CN112995882B (zh) 一种智能设备音频开环测试方法
CN112002345B (zh) 适用于声波的录音检测方法及装置
JP2932996B2 (ja) 高調波ピッチ検出装置
CN111782860A (zh) 一种音频检测方法及装置、存储介质
CN111885474A (zh) 麦克风测试方法及装置
CN107017006B (zh) 基于无限冲击响应滤波器的模拟亚音尾音检测方法及系统
CN111314536B (zh) 一种用于检测终端设备的收听模块的方法及设备
CN112581975B (zh) 基于信号混叠和双声道相关性的超声波语音指令防御方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant