CN114664290B - 声音事件检测方法、装置及可读存储介质 - Google Patents
声音事件检测方法、装置及可读存储介质 Download PDFInfo
- Publication number
- CN114664290B CN114664290B CN202210533146.7A CN202210533146A CN114664290B CN 114664290 B CN114664290 B CN 114664290B CN 202210533146 A CN202210533146 A CN 202210533146A CN 114664290 B CN114664290 B CN 114664290B
- Authority
- CN
- China
- Prior art keywords
- module
- global average
- average pooling
- features
- sound event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 53
- 238000011176 pooling Methods 0.000 claims abstract description 83
- 238000013528 artificial neural network Methods 0.000 claims abstract description 44
- 238000013135 deep learning Methods 0.000 claims abstract description 44
- 238000005070 sampling Methods 0.000 claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000013473 artificial intelligence Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 abstract description 16
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 239000000872 buffer Substances 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 3
- 206010011469 Crying Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例提出声音事件检测方法、装置及可读存储介质。方法包括:对原始音频进行语音检测;当检测到语音时,对语音进行采样;将采样点流式输入深度学习神经网络的特征提取模块进行特征提取;将提取到的特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理,得到全局平均池化特征;将每个全局平均池化特征分别输入到深度学习神经网络的全连接层进行声音事件检测,得到声音事件的类别。本发明实施例降低了NPU的计算负担,节省了计算资源,减少了对缓存的占用,并提高了声音事件检测的实时性。
Description
技术领域
本发明涉及音频处理技术领域,尤其涉及声音事件检测方法、装置、可读存储介质及计算机程序产品。
背景技术
声音事件检测(SED,Sound Event Detection)的任务涉及从真实生活环境中对声音事件进行分类,例如婴儿哭闹、人走路和狗叫声。
通常使用深度学习神经网络进行声音事件检测,具体过程为:首先在输入的原始音频中检测语音,若检测到语音,则对语音采样后进行声音事件检测,具体为:每隔第一时长向深度学习神经网络输入第二时长的采样语音,其中,第一时长小于第二时长,深度学习神经网络输出对该段语音的声音事件检测结果如:婴儿哭声、人走路或狗叫声。
该方法存在如下缺陷:
一、深度学习神经网络每次处理的语音有很大部分是重复的,对重复语音的计算会给运行深度学习神经网络的NPU(Neural Processing Unit,神经网络处理器)带来不必要的计算负担,耗费资源,而边缘端AI(人工智能)设备的NPU计算能力有限、资源有限。例如:当第一时长为100ms(毫秒),第二时长为2s(秒),即,每隔100ms向深度学习神经网络输入2s的语音,具体为:先将0-2s的语音输入深度学习神经网络,间隔100ms后,再将0.1-2.1s的语音输入深度学习神经网络,依此类推,这样,相邻两次输入深度学习神经网络的语音都要重复1.9s的语音,这给NPU增加的计算负担是很大的。
二、系统要缓存至少第二时长的语音,对于某些边缘AI设备如:DDR less,缓存会带来设备成本上升。例如:当第二时长为2s时,若采样率为16K(即每秒采样16000次),每次采样16bits(比特)的语音,则需要2*16K*(16bits/8)=64Kbytes(字节)的语音缓存。
三、深度学习神经网络必须要等待累积够第二时长的语音,才能进行处理,这样声音事件检测会有一定时延,实时性能下降。
发明内容
本发明实施例提出声音事件检测方法、装置、可读存储介质及计算机程序产品,以减少NPU的计算负担,并减少对缓存的占用和提高声音事件检测的实时性。
本发明实施例的技术方案是这样实现的:
一种声音事件检测方法,该方法包括:
对原始音频进行语音检测;
当检测到语音时,对语音进行采样;
将采样点流式输入深度学习神经网络的特征提取模块进行特征提取;
将提取到的特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理,得到全局平均池化特征;
将每个全局平均池化特征分别输入到深度学习神经网络的全连接层进行声音事件检测,得到声音事件的类别。
所述将提取到的特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理,包括:
存储所述特征提取模块输出的特征;
且,当存储的特征的数目达到第一数目时,将存储的所有特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理;
此后,当存储的特征每增加一条,就将存储的所有特征输入深度学习神经网络的全局平均池化模块进行一次全局平均池化处理;且,当存储的特征数目超过预设第二数目时,按照存储时间的从先到后,依次删除已存储的特征,以使得存储的特征的数目始终保持第二数目,其中,第一数目小于第二数目。
所述特征提取模块包括:卷积模块、深度可分离卷积模块、第一时间卷积残差模块、第二时间卷积残差模块和第三时间卷积残差模块。
所述方法进一步包括:动态设定输入所述全局平均池化模块的特征的条数,包括所述第一数目和/或第二数目。
一种声音事件检测装置,该装置包括:
语音检测模块,用于对原始音频进行语音检测;
采样模块,用于当检测到语音时,对语音进行采样,将采样点流式输入特征提取模块;
特征提取模块,用于对流式输入的采样点进行特征提取,将提取到的特征输入全局平均池化模块;
全局平均池化模块,用于对输入的特征进行全局平均池化处理,得到全局平均池化特征,将每个全局平均池化特征分别输入到检测模块;
检测模块,用于根据输入的全局平均池化特征进行声音事件检测,得到声音事件的类别。
所述全局平均池化模块对输入的特征进行全局平均池化处理,包括:
存储所述特征提取模块输入的特征;
且,当存储的特征的数目达到第一数目时,对存储的所有特征进行全局平均池化处理;
此后,当存储的特征每增加一条,就对存储的所有特征进行一次全局平均池化处理;且,当存储的特征数目超过预设第二数目时,按照存储时间的从先到后,依次删除已存储的特征,以使得存储的特征的数目始终保持第二数目,其中,第一数目小于第二数目。
所述特征提取模块包括:深度学习神经网络中的卷积模块、深度可分离卷积模块、第一时间卷积残差模块、第二时间卷积残差模块和第三时间卷积残差模块。
所述声音事件检测装置位于边缘人工智能设备上。
所述全局平均池化模块动态设定输入特征的条数,包括所述第一数目和/或第二数目。
一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如上任一项所述的方法的步骤。
本发明实施例中,通过一、在检测到语音时,通过将采样点流式输入深度学习神经网络的特征提取模块进行特征提取,从而使得输入特征提取模块的采样点没有重复,大大降低了NPU的计算负担,节省了计算资源,从而适用于边缘AI设备;且,此时无需缓存采样点,不占用任何缓存;二、将提取到的特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理,将每个全局平均池化特征而不是原始特征分别输入到深度学习神经网络的全连接层进行声音事件检测,从而大大减少了原始特征对缓存的占用,并提高了声音事件检测的实时性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的声音事件检测方法流程图;
图2为本发明实施例提供的声音事件检测装置的结构示意图;
图3为本发明实施例提供的一种电子设备的示例性结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明实施例提供的声音事件检测方法流程图,其具体步骤如下:
步骤101:对原始音频进行语音检测。
本步骤可采用现有的VAD(Voice Activity Detection,语音活动检测)方法实现。
步骤102:当检测到语音时,对语音进行采样。
采样率可预先设定。
步骤103:将采样点流式输入深度学习神经网络的特征提取模块进行特征提取。
即,将采样点顺序输入深度学习神经网络的特征提取模块,从而输入特征提取模块的采样点没有重复。
步骤104:将提取到的特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理,得到全局平均池化特征。
步骤105:将每个全局平均池化特征分别输入到深度学习神经网络的全连接层进行声音事件检测,得到声音事件的类别。
上述实施例的有益技术效果如下:
一、在检测到语音时,通过将采样点流式输入深度学习神经网络的特征提取模块进行特征提取,从而使得输入特征提取模块的采样点没有重复,大大降低了NPU的计算负担,节省了计算资源,从而适用于边缘AI设备;且,此时无需缓存采样点,不占用任何缓存;
二、将提取到的特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理,将每个全局平均池化特征而不是原始特征分别输入到深度学习神经网络的全连接层进行声音事件检测,从而大大减少了原始特征对缓存的占用,并提高了声音事件检测的实时性。
一可选实施例中,步骤104具体包括:存储特征提取模块输出的特征;且,当存储的特征的数目达到第一数目时,将存储的所有特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理;此后,当存储的特征每增加一条,就将存储的所有特征输入深度学习神经网络的全局平均池化模块进行一次全局平均池化处理;且,当存储的特征数目超过预设第二数目时,按照存储时间的从先到后,依次删除已存储的特征,以使得存储的特征的数目始终保持第二数目,其中,第一数目小于第二数目。
动态设定输入所述全局平均池化模块的特征的条数,包括所述第一数目和/或第二数目。
例如:设采样率为16K,则:
步骤102中,每秒采样16K个采样点;
步骤103中,将采样点流式输入深度学习神经网络的特征提取模块后,设每500个采样点(共1/32秒)可提取一条特征,设描述每条特征的特征向量的维度为96,每一维特征数据的长度为8bits,每一特征向量的大小为96*8bits;
步骤104中,将提取的每条特征依次存储,设第一数目为16条,第二数目为64条,则,当存储的特征的数目达到16条时,将存储的所有特征(16条)输入全局平均池化模块,得到这16条特征的全局平均池化特征,描述全局平均池化特征的特征向量的大小为96*8bits;
此后,每存储一条新的特征,全局平均池化模块就重新计算一次存储的所有特征的全局平均池化特征;
本申请是动态全局平局池化。一般的现有的全局平均池化(GlobalAvgPooling)模块是固定输入,比如每32条做一次,就一定要等到32条才可以做一次全局平均池化。而本申请可以是例如16,17,18条做一次全局平均池化。当然,这里只是用于举例说明,不应理解为对本申请的限制。因此,本申请是动态全局平均池化。
当存储的特征的数目多于64条时,即,从65条开始,依次删除最先存储的一条特征,以使得存储的特征的数目始终等于64条;此后,每次进行全局平均池化的特征数目就一直保持64条。
每得到一条全局平均池化特征,就将其输入深度学习神经网络的全连接层进行声音事件检测,得到声音事件的类别。
上述实施例中,在存储的特征数目达到第一数目时,开始对存储的特征进行全局平均池化处理,并对得到的全局平均池化特征进行声音事件检测,从而最可能快的检测出声音事件的类别,且在存储的特征数目多于第二数目时,开始删除最先存储的特征,以使得存储的特征数目此后始终保持在第二数目,从而减少了对缓存的占用,也提高了声音事件检测的实时性。
以特征向量的大小为96*8bits、第二数目为64(采样率为16K,每500个采样点提取一条特征,则每秒采样32条特征,2s采样64条特征)为例,占用的缓存最多可减少到64*96*8bits/8≈6Kbytes。当声音事件足够明显时,最快例如0.5s就能检测出声音事件的类别,而声音事件不太明显时,随着时间变长,全局平均池化特征越来越强,也有机会在例如2s前检测出声音事件的类别。而现有方法中,当第二时长为2s、采样率为16K、每次采样16bits的语音时,由于每次向深度学习神经网络输入2s的语音帧,对于16K*16bits的原始数据,那么,需要2*16K*(16bits/8)=64Kbytes的缓存,且其检测出声音事件的类别所需的时间固定为2s。
一可选实施例中,深度学习神经网络的特征提取模块的结构包括:卷积模块、深度可分离(Depthwise)卷积模块、第一时间卷积残差模块(TC-ResNet)、第二时间卷积残差模块和第三时间卷积残差模块。
例如:在采样率为16K时,首先将大小为1*16000*16bits的采样点流式输入卷积模块进行计算,卷积模块输出的特征向量大小为40*2009*8bits,再将卷积模块输出的特征向量输入到深度可分离卷积模块进行计算,深度可分离卷积模块输出的特征向量的大小为32*249*8bits,再将深度可分离卷积模块输出的特征向量输入到第一时间卷积残差模块进行计算,第一时间卷积残差模块输出的特征向量的大小为48*125*8bits,再将第一时间卷积残差模块输出的特征向量输入到第二时间卷积残差模块进行计算,第二时间卷积残差模块输出的特征向量的大小为64*63*8bits,再将第二时间卷积残差模块输出的特征向量输入到第三时间卷积残差模块进行计算,第三时间卷积残差模块输出的特征向量的大小为96*32*8bits。
图2为本发明实施例提供的声音事件检测装置的结构示意图,该装置主要包括:语音检测模块21、采样模块22、特征提取模块23、全局平均池化模块24和检测模块25,其中:
语音检测模块21,用于对原始音频进行语音检测。
采样模块22,用于当语音检测模块21检测到语音时,对语音进行采样,将采样点流式输入特征提取模块23。
特征提取模块23,用于对流式输入的采样点进行特征提取,将提取到的特征输入全局平均池化模块24。
全局平均池化模块25,用于对输入的特征进行全局平均池化处理,得到全局平均池化特征,将每个全局平均池化特征分别输入到检测模块25。
检测模块25,用于根据输入的全局平均池化特征进行声音事件检测,得到声音事件的类别。
一可选实施例中,全局平均池化模块24对输入的特征进行全局平均池化处理,包括:
存储特征提取模块23输入的特征;且,当存储的特征的数目达到第一数目时,对存储的所有特征进行全局平均池化处理;此后,当存储的特征每增加一条,就对存储的所有特征进行一次全局平均池化处理;且,当存储的特征数目超过预设第二数目时,按照存储时间的从先到后,依次删除已存储的特征,以使得存储的特征的数目始终保持第二数目,其中,第一数目小于第二数目。
一可选实施例中,所述全局平均池化模块动态设定输入特征的条数,包括所述第一数目和/或第二数目。
一可选实施例中,特征提取模块23包括:深度学习神经网络中的卷积模块、深度可分离卷积模块、第一时间卷积残差模块、第二时间卷积残差模块和第三时间卷积残差模块。
一可选实施例中,声音事件检测装置位于边缘AI设备上。
本申请实施例还提供一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现如上任一实施例所述的方法的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储指令,所述指令在由处理器执行时可执行如上任一实施例所述的方法中的步骤。实际应用中,所述的计算机可读介质可以是上述实施例各设备/装置/系统所包含的,也可以是单独存在,而未装配入该设备/装置/系统中。其中,在计算机可读存储介质中存储指令,其存储的指令在由处理器执行时可执行如上任一实施例所述的方法中的步骤。
根据本申请公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或者上述的任意合适的组合,但不用于限制本申请保护的范围。在本申请公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
如图3所示,本发明实施例还提供一种电子设备。如图3所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或一个以上处理核心的处理器31、一个或一个以上计算机可读存储介质的存储器32以及存储在存储器上并可在处理器上运行的计算机程序。在执行所述存储器32的程序时,可以实现如上任一实施例所述的方法。
具体的,实际应用中,该电子设备还可以包括电源33、输入输出单元34等部件。本领域技术人员可以理解,图3中示出的电子设备的结构并不构成对该电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器31是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器32内的软件程序和/或模块,以及调用存储在存储器32内的数据,执行服务器的各种功能和处理数据,从而对该电子设备进行整体监控。
存储器32可用于存储软件程序以及模块,即上述计算机可读存储介质。处理器31通过运行存储在存储器32的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器32可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器32还可以包括存储器控制器,以提供处理器31对存储器32的访问。
该电子设备还包括给各个部件供电的电源33,可以通过电源管理系统与处理器31逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源33还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入输出单元34,该输入单元输出34可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。该输入单元输出34还可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。
本申请附图中的流程图和框图,示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连接地表示的方框实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或者流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本申请公开的范围。
本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思路,并不用于限制本申请。对于本领域的技术人员来说,可以依据本发明的思路、精神和原则,在具体实施方式及应用范围上进行改变,其所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (8)
1.一种声音事件检测方法,其特征在于,该方法包括:
对原始音频进行语音检测;
当检测到语音时,对语音进行采样;
将采样点流式输入深度学习神经网络的特征提取模块进行特征提取;
将提取到的特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理,得到全局平均池化特征;
将每个全局平均池化特征分别输入到深度学习神经网络的全连接层进行声音事件检测,得到声音事件的类别;
所述将提取到的特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理,包括:
存储所述特征提取模块输出的特征;
且,当存储的特征的数目达到第一数目时,将存储的所有特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理;
此后,当存储的特征每增加一条,就将存储的所有特征输入深度学习神经网络的全局平均池化模块进行一次全局平均池化处理;且,当存储的特征数目超过预设第二数目时,按照存储时间的从先到后,依次删除已存储的特征,以使得存储的特征的数目始终保持第二数目,其中,第一数目小于第二数目。
2.根据权利要求1所述的方法,其特征在于,所述特征提取模块包括:卷积模块、深度可分离卷积模块、第一时间卷积残差模块、第二时间卷积残差模块和第三时间卷积残差模块。
3.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:动态设定输入所述全局平均池化模块的特征的条数,包括所述第一数目和/或第二数目。
4.一种声音事件检测装置,其特征在于,该装置包括:
语音检测模块,用于对原始音频进行语音检测;
采样模块,用于当检测到语音时,对语音进行采样,将采样点流式输入特征提取模块;
特征提取模块,用于对流式输入的采样点进行特征提取,将提取到的特征输入全局平均池化模块;
全局平均池化模块,用于对输入的特征进行全局平均池化处理,得到全局平均池化特征,将每个全局平均池化特征分别输入到检测模块;
检测模块,用于根据输入的全局平均池化特征进行声音事件检测,得到声音事件的类别;
所述全局平均池化模块对输入的特征进行全局平均池化处理,包括:
存储所述特征提取模块输入的特征;
且,当存储的特征的数目达到第一数目时,对存储的所有特征进行全局平均池化处理;
此后,当存储的特征每增加一条,就对存储的所有特征进行一次全局平均池化处理;且,当存储的特征数目超过预设第二数目时,按照存储时间的从先到后,依次删除已存储的特征,以使得存储的特征的数目始终保持第二数目,其中,第一数目小于第二数目。
5.根据权利要求4所述的装置,其特征在于,所述特征提取模块包括:深度学习神经网络中的卷积模块、深度可分离卷积模块、第一时间卷积残差模块、第二时间卷积残差模块和第三时间卷积残差模块。
6.根据权利要求4所述的装置,其特征在于,所述声音事件检测装置位于边缘人工智能设备上。
7.根据权利要求4所述的装置,其特征在于,所述全局平均池化模块动态设定输入特征的条数,包括所述第一数目和/或第二数目。
8.一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,其特征在于,所述指令在由处理器执行时使得所述处理器执行如权利要求1至3中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210533146.7A CN114664290B (zh) | 2022-05-17 | 2022-05-17 | 声音事件检测方法、装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210533146.7A CN114664290B (zh) | 2022-05-17 | 2022-05-17 | 声音事件检测方法、装置及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114664290A CN114664290A (zh) | 2022-06-24 |
CN114664290B true CN114664290B (zh) | 2022-08-19 |
Family
ID=82036863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210533146.7A Active CN114664290B (zh) | 2022-05-17 | 2022-05-17 | 声音事件检测方法、装置及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114664290B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114882873B (zh) * | 2022-07-12 | 2022-09-23 | 深圳比特微电子科技有限公司 | 一种语音识别模型训练方法、装置和可读存储介质 |
CN115273819B (zh) * | 2022-09-28 | 2022-12-06 | 深圳比特微电子科技有限公司 | 声音事件检测模型建立方法、装置及可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109346061A (zh) * | 2018-09-28 | 2019-02-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频检测方法、装置及存储介质 |
CN110059191A (zh) * | 2019-05-07 | 2019-07-26 | 山东师范大学 | 一种文本情感分类方法及装置 |
CN110838286A (zh) * | 2019-11-19 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
WO2021061781A1 (en) * | 2019-09-25 | 2021-04-01 | Google Llc | Multi-task adapter neural networks |
CN112668498A (zh) * | 2020-12-30 | 2021-04-16 | 西安电子科技大学 | 空中辐射源个体智能增量识别方法、系统、终端及应用 |
WO2021169347A1 (zh) * | 2020-02-25 | 2021-09-02 | 华为技术有限公司 | 提取文本关键字的方法及装置 |
CN113724683A (zh) * | 2021-07-23 | 2021-11-30 | 阿里巴巴达摩院(杭州)科技有限公司 | 音频生成方法、计算机设备及计算机可读存储介质 |
WO2021253148A1 (en) * | 2020-06-15 | 2021-12-23 | Intel Corporation | Input image size switchable network for adaptive runtime efficient image classification |
CN113920988A (zh) * | 2021-12-03 | 2022-01-11 | 深圳比特微电子科技有限公司 | 语音唤醒方法、装置及可读存储介质 |
CN114360526A (zh) * | 2022-03-16 | 2022-04-15 | 杭州研极微电子有限公司 | 音频检测设备、方法、装置及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180350459A1 (en) * | 2017-06-05 | 2018-12-06 | University Of Florida Research Foundation, Inc. | Methods and apparatuses for implementing a semantically and visually interpretable medical diagnosis network |
US11315570B2 (en) * | 2018-05-02 | 2022-04-26 | Facebook Technologies, Llc | Machine learning-based speech-to-text transcription cloud intermediary |
JP7247133B2 (ja) * | 2020-03-12 | 2023-03-28 | 株式会社東芝 | 検出装置、検出方法およびプログラム |
JP7475105B2 (ja) * | 2020-06-22 | 2024-04-26 | パナソニックオートモーティブシステムズ株式会社 | 学習装置、学習方法及びプログラム |
-
2022
- 2022-05-17 CN CN202210533146.7A patent/CN114664290B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109346061A (zh) * | 2018-09-28 | 2019-02-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频检测方法、装置及存储介质 |
CN110059191A (zh) * | 2019-05-07 | 2019-07-26 | 山东师范大学 | 一种文本情感分类方法及装置 |
WO2021061781A1 (en) * | 2019-09-25 | 2021-04-01 | Google Llc | Multi-task adapter neural networks |
CN110838286A (zh) * | 2019-11-19 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
WO2021169347A1 (zh) * | 2020-02-25 | 2021-09-02 | 华为技术有限公司 | 提取文本关键字的方法及装置 |
WO2021253148A1 (en) * | 2020-06-15 | 2021-12-23 | Intel Corporation | Input image size switchable network for adaptive runtime efficient image classification |
CN112668498A (zh) * | 2020-12-30 | 2021-04-16 | 西安电子科技大学 | 空中辐射源个体智能增量识别方法、系统、终端及应用 |
CN113724683A (zh) * | 2021-07-23 | 2021-11-30 | 阿里巴巴达摩院(杭州)科技有限公司 | 音频生成方法、计算机设备及计算机可读存储介质 |
CN113920988A (zh) * | 2021-12-03 | 2022-01-11 | 深圳比特微电子科技有限公司 | 语音唤醒方法、装置及可读存储介质 |
CN114360526A (zh) * | 2022-03-16 | 2022-04-15 | 杭州研极微电子有限公司 | 音频检测设备、方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
《神经网络对于输入的维度不一致的处理》;小宋是呢;《CSDN》;20190602;1-2 * |
Also Published As
Publication number | Publication date |
---|---|
CN114664290A (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114664290B (zh) | 声音事件检测方法、装置及可读存储介质 | |
CN113920988B (zh) | 语音唤醒方法、装置及可读存储介质 | |
EP2940684A1 (en) | Voice recognizing method and system for personalized user information | |
CN111797632B (zh) | 信息处理方法、装置及电子设备 | |
CN109840052B (zh) | 一种音频处理方法、装置、电子设备及存储介质 | |
CN108595406B (zh) | 一种用户状态的提醒方法、装置、电子设备及存储介质 | |
CN111177453A (zh) | 控制音频播放的方法、装置、设备及计算机可读存储介质 | |
CN103514882A (zh) | 一种语音识别方法及系统 | |
CN110675867A (zh) | 智能对话方法、装置、计算机设备及存储介质 | |
CN113824899B (zh) | 视频处理方法、装置、电子设备及介质 | |
CN113380238A (zh) | 处理音频信号的方法、模型训练方法、装置、设备和介质 | |
CN115150471A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
CN113516964B (zh) | 语音合成方法及可读存储介质 | |
CN113099043A (zh) | 客户服务的控制方法、装置和计算机可读存储介质 | |
CN111063337A (zh) | 可快速更新语言模型的大规模语音识别方法及系统 | |
CN115831109A (zh) | 语音唤醒方法、装置、存储介质及电子设备 | |
CN112218137B (zh) | 一种多媒体数据采集方法、装置、设备及介质 | |
CN115862604A (zh) | 语音唤醒模型训练及语音唤醒方法、装置及计算机设备 | |
CN111625451B (zh) | 自动化测试环境的初始化方法、装置、设备和介质 | |
CN113592559B (zh) | 口音识别模型建立方法、装置及存储介质和电子设备 | |
CN114203204B (zh) | 尾点检测方法、装置、设备和存储介质 | |
CN111899722B (zh) | 一种语音处理方法及装置、存储介质 | |
CN113903358B (zh) | 语音质检方法、可读存储介质及计算机程序产品 | |
CN109961796B (zh) | 音频数据处理方法、装置和存储介质 | |
CN114333794A (zh) | 语音唤醒方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |