CN112349298A - 声音事件识别方法、装置、设备和存储介质 - Google Patents
声音事件识别方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN112349298A CN112349298A CN201910733513.6A CN201910733513A CN112349298A CN 112349298 A CN112349298 A CN 112349298A CN 201910733513 A CN201910733513 A CN 201910733513A CN 112349298 A CN112349298 A CN 112349298A
- Authority
- CN
- China
- Prior art keywords
- audio
- frame
- sound event
- probability
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000011176 pooling Methods 0.000 claims abstract description 76
- 238000013528 artificial neural network Methods 0.000 claims abstract description 55
- 230000004927 fusion Effects 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000004590 computer program Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000269400 Sirenidae Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例公开了一种声音事件识别方法、装置、设备和存储介质;其中,该声音事件识别方法,包括:提取音频序列的多帧音频的声学特征;对于每一帧音频,基于第一神经网络,处理帧音频的声学特征与帧音频相邻帧音频的声学特征,得到与帧音频对应的融合声音事件特征;分别确定每一帧音频的融合声音事件特征的概率;将多帧音频的融合声音事件特征的概率输入第一时间池化层,得到至少一个声音事件的概率;根据至少一个声音事件的概率和对应的阈值,得到音频序列的声音事件。本发明实施例能够提高识别性能。
Description
技术领域
本发明涉及音频信号处理技术领域,尤其涉及一种声音事件识别方法、装置、设备和存储介质。
背景技术
近年来,声音事件检测(识别)引起广泛关注。声音事件检测对于音频取证、环境声音识别、生物声音监控、声场景分析、环境安全监控,实时军事关注点的检测、定位跟踪和声源分类,病人监护、非正常事件监测及故障诊断、递交早期维护的关键信息等都具有重要意义。声场景中检测(识别)声音事件,试图在音频数据中识别出隐藏在它们中的真实事件。
目前,相关技术中使用的模型一般结构复杂,识别性能需要提高。
发明内容
本发明实施例提供了一种声音事件识别方法、装置、设备和存储介质,用以提高识别性能。
根据本发明实施例的第一方面,提供一种声音事件识别方法,该方法可以包括:
提取音频序列的多帧音频的声学特征;
对于每一帧音频,基于第一神经网络,处理帧音频的声学特征与帧音频相邻帧音频的声学特征,得到与帧音频对应的融合声音事件特征;
分别确定每一帧音频的融合声音事件特征的概率;
将多帧音频的融合声音事件特征的概率输入第一时间池化层,得到至少一个声音事件的概率;
根据至少一个声音事件的概率和对应的阈值,得到音频序列的声音事件。
根据本发明实施例的第二方面,提供一种声音事件识别装置,该装置可以包括:
提取模块,用于提取音频序列的多帧音频的声学特征;
第一神经网络模块,用于针对每一帧音频,基于第一神经网络,处理帧音频的声学特征与帧音频相邻帧音频的声学特征,得到与帧音频对应的融合声音事件特征;
处理模块,用于分别确定每一帧音频的融合声音事件特征的概率;
池化模块,用于将多帧音频的融合声音事件特征的概率输入第一时间池化层,得到至少一个声音事件的概率;
处理模块,还用于根据至少一个声音事件的概率和对应的阈值,得到音频序列的声音事件。
根据本发明实施例的第四方面,提供一种计算设备,计算设备包括:至少一个处理器、至少一个存储器以及至少一个计算机程序,其中,计算机程序被存储在存储器中,计算机程序包括指令,处理器用于执行计算机程序,以使计算设备实现如第一方面所示的方法。
根据本发明实施例的第十方面,提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行上述各方面的声音事件识别方法。
本发明实施例,通过基于第一神经网络,处理每一帧音频的声学特征与该帧音频相邻帧音频的声学特征,得到与该帧音频对应的融合声音事件特征;并分别确定每一帧音频的融合声音事件特征的概率;然后将多帧音频的融合声音事件特征的概率输入第一时间池化层,得到至少一个声音事件的概率;最终根据至少一个声音事件的概率和对应的阈值,得到音频序列的声音事件。通过第一神经网络可以建立当前帧音频的声学特征与相邻帧音频的声学特征之间的关联,进而增加识别性能;另一方面,加入了时间池化层,将多帧音频的声音事件的概率进行池化,也进一步建立了帧与帧之间的关系,进而也提高了识别性能。
附图说明
从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中,相同或相似的附图标记表示相同或相似的特征。
图1为本发明实施例的一种声音事件识别方法的流程图;
图2为本发明实施例的一种声音事件识别模型的示意图;
图3为本发明实施例的另一种声音事件识别模型的示意图;
图4为本发明实施例的又一种声音事件识别模型的示意图;
图5为本发明实施例的时间池化层的示意图;
图6为本发明实施例的一种声音事件识别装置的示意图;
图7为本发明实施例的一种计算设备的示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面结合附图,对本说明书提供的方案进行详细描述。
图1为本发明实施例的一种声音事件识别方法的流程图。如图1所示,该声音事件识别方法可以包括以下步骤:
S110:提取音频序列的多帧音频的声学特征;
S120:对于每一帧音频,基于第一神经网络,处理帧音频的声学特征与帧音频相邻帧音频的声学特征,得到帧音频对应的融合声音事件特征;
S130:分别确定每一帧音频的融合声音事件特征的概率;
S140:将多帧音频的融合声音事件特征的概率输入第一时间池化层,得到至少一个声音事件的概率;
S150:根据至少一个声音事件的概率和对应的阈值,得到音频序列的声音事件。
本发明实施例,通过基于第一神经网络,处理每一帧音频的声学特征与该帧音频相邻帧音频的声学特征,得到该帧音频对应的融合声音事件特征;并分别确定每一帧音频的融合声音事件特征的概率;然后将多帧音频的融合声音事件特征的概率输入第一时间池化层,得到至少一个声音事件的概率;最终根据至少一个声音事件的概率和对应的阈值,得到音频序列的声音事件。通过第一神经网络可以建立当前帧音频的声学特征与相邻帧音频的声学特征之间的关联,进而增加识别性能;另一方面,加入了时间池化层,将多帧音频的声音事件的概率进行池化,也进一步建立了帧与帧之间的关系,进而也提高了识别性能。
在本发明实施例中,S110包括:
先获取一段需要识别声音事件的音频序列,然后提取音频序列的多帧音频的声学特征。
需要说明的是,音频序列可以为音频片段。
在本发明实施例中,S120所述的相邻帧可以为相邻一帧或者相邻多帧,帧数的选取可以依据对识别性能的要求来确定,在此不在赘述。
在本发明实施例中,S130包括:
将每一帧音频的融合声音事件特征输入sigmoid函数(Sigmoid function)或softmax函数,得到每一帧音频的融合事件特征的概率;其中,sigmoid和softmax函数只是一个示例。
在本发明实施例中,S140中的第一时间池化层按照取平均值或最大值的方式。其中,第一时间池化层可以采用不重叠池化的方式,也可以采用重叠池化的方式。
在本发明实施例中,S150的声音事件为音频序列中的多种声音类型;例如,猫叫、狗叫、人说话、汽笛等。
在本发明实施例中,在分别确定每一帧音频的融合声音事件特征的概率之前,该声音事件识别方法,还包括:
基于第二神经网络,分别处理融合声音事件特征,得到处理的融合声音事件特征;分别确定每一帧处理事件特征的概率;将多帧音频的处理的融合声音事件特征的概率输入第一时间池化层,得到至少一个声音事件的概率;根据至少一个声音事件的概率和对应的阈值,得到音频序列的声音事件。
在本发明实施例中,在基于第二神经网络,分别处理融合声音事件特征之前,该声音事件识别方法,还包括:
将多帧音频的融合声音事件特征输入第二时间池化层,得到池化声音事件特征;
基于第二声音网络,分别处理池化声音特征,得到处理的池化声音事件特征;
将多帧音频的处理的池化声音事件特征的概率输入第一时间池化层,得到至少一个声音事件的概率;根据至少一个声音事件的概率和对应的阈值,得到音频序列的声音事件。
在一个示例中,第二时间池化层按照取平均值或最大值的方式;其中,第二时间池化层可以采用不重叠池化的方式,也可以采用重叠池化的方式。其中,第二时间池化层的数量为至少一个。
其中,第一神经网络的数量为至少一个和/或第二神经网络的数量为至少一个;第一神经网络与第二神经网络堆叠。
其中,第一神经网络包括:前馈序列记忆神经网络(Feedforward SequentialMemory Networks,FSMN)、紧凑前馈序列记忆神经网络(Compact FSMN,CFSMN)和深层前馈序列记忆神经网络(Deep-FSMN,DFSMN)中的至少一种;第二神经网络,包括:深度神经网络(Deep Neural Networks,DNN)、卷积神经网络(Convolution Neural Networks,CNN)和递归神经网络RNN(Recurrent Neural Networks,RNN)中的至少一种。其中,第一神经网络包括但不限于FSMN、CFSMN和DFSMN;第二神经网络包括但不限于DNN、CNN和RNN。
为了方便描述,下文中以第一神经网络为FSMN、第二神经网络为DNN为示例。
在图2中,三层FSMN和第一时间池化层(time-pooling1);其中,三层FSMN堆叠。
需要说明的是,还可以包括至少一个时间池化层,插入在两个FSMN之间。例如,在前两个FSMN之间插入时间池化层,此时,后续最后一个FSMN需要处理的帧音频的数量会比前两个FSMN处理的帧音频数量少。
在图3中,三层FSMN和三层DNN堆叠,第一时间池化层与最后一层DNN连接。
需要说明的是,还可以包括至少一个时间池化层,插入在两层FSMN、两层DNN之间。另外,FSMN与DNN可以间隔堆叠,即FSMN、DNN、FSMN这样的堆叠方式。
下文通过FSMN、DNN、第一时间池化层、第二时间池化层来说明,如何解决声音事件识别性能低的问题。
图4为本发明实施例的一种声音事件识别模型的示意图。如图4所示,该声音事件识别模块包括:
三层FSMN和三层DNN层堆叠组成,并将FSMN和DNN之间插入第二时间池化层time-pooling layer2,pooling size=N,以及在最后一层DNN之后,加上一个第一时间池化层time-pooling layer1,pooling size=x为最后一层DNN的帧数;其中,N与x的乘积为音频序列中音频的总帧数T。
将音频序列提取的多帧音频的声学特征输入声音事件识别模型,由三层FSMN依次对多帧音频的声学特征进行处理,得到融合声音事件;再将最后一层FSMN输出的多帧音频的融合声音事件特征输入第二时间池化层,即将所有帧音频的融合声音事件特征通过第二时间池化层,得到池化的声音事件特征(最终第二时间池化层输出的帧数,与第二时间池化层的池化大小设置有关);然后再将第二时间池化层的输出,输入三层DNN,得到DNN处理后的声音事件特征(此时,帧音频的数量与第二时间池化层输出帧音频的数量相同);然后再分别确定最后一层DNN输出的几帧(与第一时间池化层池化后的帧数相同)中的每一帧音频声音事件特征的概率;最后将每一帧音频声音事件特征的概率输入第一时间池化层,得到一帧音频,该音频的向量包括至少一个声音事件的概率;再根据至少一个声音事件的概率和对应的阈值,得到音频序列的声音事件。
在一个示例中,提取音频序列中多帧音频的声学特征,将该多帧音频的声学特征输入至声音事件识别模型中,得到两个声音事件的概率;例如,猫叫的概率为60%,人说话的概率为70%;并将这两个声音事件的概率与对应的阈值进行比较;假设,猫叫的阈值为50%,人说话的阈值为60%,此时可以确定包括猫叫和人说话的两个声音事件。
其中,时间池化层将输入的序列按照一定的池化大小(pooling size)缩小序列的长度,即将序列的帧数变少。
time-pooling layer1和time-pooling layer2池化为取平均(average-pooling)或者取最大值(max-pooling);time-pooling layer2可以放在第一层FSMN的输入或者任意层之间。
在图5中,第二时间池化层的池化大小设置为2,T帧音频输入第二时间池化层,由第二时间池化层进行池化,输出T/2帧音频;其中,T为音频总帧数,t为时刻,i为T帧音频中的第i帧音频,i为正整数,2i中的2表示池化大小为2。在图2中仅以池化大小为2示例。
需要说明的是,将图4中的DNN输出的音频输入第一时间池化层进行池化,最终得到一帧音频。
时间池化层能够带来时间序列上的不变性,即对声音所处的时刻有一定的容忍度。同时,减小后续所有层的计算量。在声音事件识别模型中插入time-pooling layer,能提高声音事件识别模型的处理速度。
图6示出了本发明实施例的声音事件识别装置示意性框图,该声音事件识别装置60可以包括:
提取模块601,用于提取音频序列的多帧音频的声学特征;
第一神经网络模块602,用于第一神经网络模块,用于对于每一帧音频,基于第一神经网络,处理帧音频的声学特征与帧音频相邻帧音频的声学特征,得到帧音频对应的融合声音事件特征;
处理模块603,用于分别确定每一帧音频的融合声音事件特征的概率;
池化模块604,用于将多帧音频的融合声音事件特征的概率输入第一时间池化层,得到至少一个声音事件的概率;
处理模块603,还用于根据至少一个声音事件的概率和对应的阈值,得到音频序列的声音事件。
本发明实施例,通过基于第一神经网络,处理每一帧音频的声学特征与该帧音频相邻帧音频的声学特征,得到与该帧音频对应的融合声音事件特征;并分别确定每一帧音频的融合声音事件特征的概率;然后将多帧音频的融合声音事件特征的概率输入第一时间池化层,得到至少一个声音事件的概率;最终根据至少一个声音事件的概率和对应的阈值,得到音频序列的声音事件。通过第一神经网络可以建立当前帧音频的声学特征与相邻帧音频的声学特征之间的关联,进而增加识别性能;另一方面,加入了时间池化层,将多帧音频的声音事件的概率进行池化,也进一步建立了帧与帧之间的关系,进而也提高了识别性能。
可选的,该声音事件识别装置,还包括:
第二神经网络模块,分别处理所述融合声音事件特征,得到处理声音事件特征。
可选的,该声音事件识别装置,还包括:第二时间池化层模块;
第二时间池化层模块,用于将多帧音频的融合声音事件特征输入第二时间池化层,获得池化后的声音事件特征,所述第二时间池化层的数量为至少一个。
其中,所述第一神经网络的数量为多个和/或所述第二神经网络的数量为多个。
其中,第一神经网络包括:前馈序列记忆神经网络FSMN、紧凑前馈序列记忆神经网络CFSMN和深层前馈序列记忆神经网络DFSMN中的至少一种;
第二神经网络,包括:深度神经网络DNN、卷积神经网络CNN和递归神经网络RNN中的至少一种。
图7示出了本发明实施例的声音事件识别设备示意性框图,能够实现根据本发明实例提供的声音事件识别方法和装置的计算设备的示例性硬件架构的结构图。
计算设备700包括输入设备701、输入接口702、中央处理器703、存储器704、输出接口705、以及输出设备707。其中,输入接口702、中央处理器703、存储器704、以及输出接口705通过总线710相互连接,输入设备701和输出设备707分别通过输入接口702和输出接口705与总线710连接,进而与计算设备700的其他组件连接。
具体地,输入设备701接收来自外部的输入信息,并通过输入接口702将输入信息传送到中央处理器703;中央处理器703基于存储器704中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器704中,然后通过输出接口705将输出信息传送到输出设备707;输出设备707将输出信息输出到计算设备700的外部供用户使用。
图7所示的计算设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图2至图5描述的声音事件识别方法和装置。
根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以从网络上被下载和安装,和/或从可拆卸存储介质被安装。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或至少一个计算机指令,当其在计算机上运行时,使得计算机执行上述各个实施例中描述的方法。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或至少一个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
以上所描述的装置实例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到至少一个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
需要明确的是,本发明并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁,这里省略了对已知方法的详细描述,并且上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域的技术人员可以清楚地了解到,本发明的方法过程并不限于所描述和示出的具体步骤,任何熟悉本技术领域的技术人员在领会本发明的精神后,在本发明揭露的技术范围内作出各种改变、修改和添加,或者等效替换以及改变步骤之间的顺序,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种声音事件识别方法,所述方法包括:
提取音频序列的多帧音频的声学特征;
对于所述多帧音频中的每一帧音频,基于第一神经网络,处理所述帧音频的声学特征与所述帧音频相邻帧音频的声学特征,得到与所述帧音频对应的融合声音事件特征;
分别确定每一帧音频的融合声音事件特征的概率;
将所述多帧音频的融合声音事件特征的概率输入第一时间池化层,得到至少一个声音事件的概率;
根据所述至少一个声音事件的概率和对应的阈值,得到所述音频序列的声音事件。
2.根据权利要求1所述的方法,其中,在分别确定每一帧音频的融合声音事件特征的概率之前,还包括:
基于第二神经网络,分别处理所述融合声音事件特征,得到处理声音事件特征。
3.根据权利要求2所述的方法,其中,在基于第二神经网络,分别处理所述融合声音事件特征之前,还包括:
将多帧音频的融合声音事件特征输入第二时间池化层,获得池化后的声音事件特征;其中,所述第二时间池化层的数量为至少一个。
4.根据权利要求2所述的方法,其中,第一神经网络的数量为多个和/或所述第二神经网络的数量为多个,多个第一神经网络与多个第二神经网络堆叠。
5.根据权利要求4所述的方法,其中,第一神经网络包括:前馈序列记忆神经网络FSMN、紧凑前馈序列记忆神经网络CFSMN和深层前馈序列记忆神经网络DFSMN中的至少一种;
第二神经网络,包括:深度神经网络DNN、卷积神经网络CNN和递归神经网络RNN中的至少一种。
6.一种声音事件识别装置,所述装置包括:
提取模块,用于提取音频序列的多帧音频的声学件特征;
第一神经网络模块,用于对于每一帧音频,基于第一神经网络,处理所述帧音频的声学特征与所述帧音频相邻帧音频的声学特征,得到与所述帧音频对应的融合声音事件特征;
处理模块,用于分别确定每一帧音频的融合声音事件特征的概率;
池化模块,用于将多帧音频的融合声音事件特征的概率输入第一时间池化层,得到至少一个声音事件的概率;
所述处理模块,还用于根据所述至少一个声音事件的概率和对应的阈值,得到所述音频序列的声音事件。
7.一种计算设备,所述计算设备包括:至少一个处理器、至少一个存储器以及至少一个计算机程序,其中,所述计算机程序被存储在所述存储器中,所述计算机程序包括指令,所述处理器用于执行所述计算机程序,以使所述计算设备实现如权利要求1-5中任意一项所述的方法的步骤。
8.一种计算机可读存储介质,所述存储介质包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1-5中任意一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910733513.6A CN112349298A (zh) | 2019-08-09 | 2019-08-09 | 声音事件识别方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910733513.6A CN112349298A (zh) | 2019-08-09 | 2019-08-09 | 声音事件识别方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112349298A true CN112349298A (zh) | 2021-02-09 |
Family
ID=74367632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910733513.6A Pending CN112349298A (zh) | 2019-08-09 | 2019-08-09 | 声音事件识别方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112349298A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117316184A (zh) * | 2023-12-01 | 2023-12-29 | 常州分音塔科技有限公司 | 一种基于音频信号的事件检测反馈处理系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140288928A1 (en) * | 2013-03-25 | 2014-09-25 | Gerald Bradley PENN | System and method for applying a convolutional neural network to speech recognition |
JP2015158582A (ja) * | 2014-02-24 | 2015-09-03 | 日本放送協会 | 音声認識装置、及びプログラム |
CN107086036A (zh) * | 2017-04-19 | 2017-08-22 | 杭州派尼澳电子科技有限公司 | 一种高速公路隧道安全监控方法 |
CN107545890A (zh) * | 2017-08-31 | 2018-01-05 | 桂林电子科技大学 | 一种声音事件识别方法 |
JP2018081169A (ja) * | 2016-11-15 | 2018-05-24 | 日本電信電話株式会社 | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム |
KR20180122171A (ko) * | 2017-05-02 | 2018-11-12 | 서강대학교산학협력단 | 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치 |
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及系统 |
CN109102798A (zh) * | 2018-06-29 | 2018-12-28 | 厦门快商通信息技术有限公司 | 一种装修事件检测方法、装置、计算机设备及介质 |
CN109785857A (zh) * | 2019-02-28 | 2019-05-21 | 桂林电子科技大学 | 基于mfcc+mp融合特征的异常声事件识别方法 |
CN110010156A (zh) * | 2017-12-07 | 2019-07-12 | 英特尔公司 | 基于对事件子部分的序列的建模的声音事件检测 |
-
2019
- 2019-08-09 CN CN201910733513.6A patent/CN112349298A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140288928A1 (en) * | 2013-03-25 | 2014-09-25 | Gerald Bradley PENN | System and method for applying a convolutional neural network to speech recognition |
JP2015158582A (ja) * | 2014-02-24 | 2015-09-03 | 日本放送協会 | 音声認識装置、及びプログラム |
JP2018081169A (ja) * | 2016-11-15 | 2018-05-24 | 日本電信電話株式会社 | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム |
CN107086036A (zh) * | 2017-04-19 | 2017-08-22 | 杭州派尼澳电子科技有限公司 | 一种高速公路隧道安全监控方法 |
KR20180122171A (ko) * | 2017-05-02 | 2018-11-12 | 서강대학교산학협력단 | 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치 |
CN107545890A (zh) * | 2017-08-31 | 2018-01-05 | 桂林电子科技大学 | 一种声音事件识别方法 |
CN110010156A (zh) * | 2017-12-07 | 2019-07-12 | 英特尔公司 | 基于对事件子部分的序列的建模的声音事件检测 |
CN109102798A (zh) * | 2018-06-29 | 2018-12-28 | 厦门快商通信息技术有限公司 | 一种装修事件检测方法、装置、计算机设备及介质 |
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及系统 |
CN109785857A (zh) * | 2019-02-28 | 2019-05-21 | 桂林电子科技大学 | 基于mfcc+mp融合特征的异常声事件识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117316184A (zh) * | 2023-12-01 | 2023-12-29 | 常州分音塔科技有限公司 | 一种基于音频信号的事件检测反馈处理系统 |
CN117316184B (zh) * | 2023-12-01 | 2024-02-09 | 常州分音塔科技有限公司 | 一种基于音频信号的事件检测反馈处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6800946B2 (ja) | 音声区間の認識方法、装置及び機器 | |
CN111164601B (zh) | 情感识别方法、智能装置和计算机可读存储介质 | |
JP6884460B2 (ja) | 音声感情検出方法、装置、コンピュータ機器、及びコンピュータプログラム | |
JP6671020B2 (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
JP6651973B2 (ja) | 対話処理プログラム、対話処理方法および情報処理装置 | |
US20240046159A1 (en) | Continual learning for multi modal systems using crowd sourcing | |
CN108920640A (zh) | 基于语音交互的上下文获取方法及设备 | |
CN109410956A (zh) | 一种音频数据的对象识别方法、装置、设备及存储介质 | |
CN117337467A (zh) | 经由迭代说话者嵌入的端到端说话者分离 | |
CN112802498B (zh) | 语音检测方法、装置、计算机设备和存储介质 | |
CN107545898B (zh) | 一种区分说话人语音的处理方法及装置 | |
Zeghidour et al. | DIVE: End-to-end speech diarization via iterative speaker embedding | |
CN111243604B (zh) | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统 | |
CN113793599B (zh) | 语音识别模型的训练方法和语音识别方法及装置 | |
CN112349298A (zh) | 声音事件识别方法、装置、设备和存储介质 | |
CN111145761B (zh) | 模型训练的方法、声纹确认的方法、系统、设备及介质 | |
CN115083412B (zh) | 语音交互方法及相关装置、电子设备、存储介质 | |
Wang et al. | A fusion model for robust voice activity detection | |
US20230238002A1 (en) | Signal processing device, signal processing method and program | |
CN111883109B (zh) | 语音信息处理及验证模型训练方法、装置、设备及介质 | |
CN113555037A (zh) | 篡改音频的篡改区域检测方法、装置及存储介质 | |
CN114171057A (zh) | 基于声纹的变压器事件检测方法及系统 | |
CN118658462A (zh) | 语音活性检测方法、装置、设备及介质 | |
CN112489681B (zh) | 节拍识别方法、装置及存储介质 | |
CN117376602A (zh) | 一种说话人定位方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |