CN114664290B

CN114664290B - 声音事件检测方法、装置及可读存储介质

Info

Publication number: CN114664290B
Application number: CN202210533146.7A
Authority: CN
Inventors: 凌明; 艾国; 杨作兴
Original assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Current assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-19
Anticipated expiration: 2042-05-17
Also published as: CN114664290A

Abstract

本发明实施例提出声音事件检测方法、装置及可读存储介质。方法包括：对原始音频进行语音检测；当检测到语音时，对语音进行采样；将采样点流式输入深度学习神经网络的特征提取模块进行特征提取；将提取到的特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理，得到全局平均池化特征；将每个全局平均池化特征分别输入到深度学习神经网络的全连接层进行声音事件检测，得到声音事件的类别。本发明实施例降低了NPU的计算负担，节省了计算资源，减少了对缓存的占用，并提高了声音事件检测的实时性。

Description

声音事件检测方法、装置及可读存储介质

技术领域

本发明涉及音频处理技术领域，尤其涉及声音事件检测方法、装置、可读存储介质及计算机程序产品。

背景技术

声音事件检测（SED，Sound Event Detection）的任务涉及从真实生活环境中对声音事件进行分类，例如婴儿哭闹、人走路和狗叫声。

通常使用深度学习神经网络进行声音事件检测，具体过程为：首先在输入的原始音频中检测语音，若检测到语音，则对语音采样后进行声音事件检测，具体为：每隔第一时长向深度学习神经网络输入第二时长的采样语音，其中，第一时长小于第二时长，深度学习神经网络输出对该段语音的声音事件检测结果如：婴儿哭声、人走路或狗叫声。

该方法存在如下缺陷：

一、深度学习神经网络每次处理的语音有很大部分是重复的，对重复语音的计算会给运行深度学习神经网络的NPU（Neural Processing Unit，神经网络处理器）带来不必要的计算负担，耗费资源，而边缘端AI（人工智能）设备的NPU计算能力有限、资源有限。例如：当第一时长为100ms（毫秒），第二时长为2s（秒），即，每隔100ms向深度学习神经网络输入2s的语音，具体为：先将0-2s的语音输入深度学习神经网络，间隔100ms后，再将0.1-2.1s的语音输入深度学习神经网络，依此类推，这样，相邻两次输入深度学习神经网络的语音都要重复1.9s的语音，这给NPU增加的计算负担是很大的。

二、系统要缓存至少第二时长的语音，对于某些边缘AI设备如：DDR less，缓存会带来设备成本上升。例如：当第二时长为2s时，若采样率为16K（即每秒采样16000次），每次采样16bits（比特）的语音，则需要2*16K*(16bits/8)=64Kbytes（字节）的语音缓存。

三、深度学习神经网络必须要等待累积够第二时长的语音，才能进行处理，这样声音事件检测会有一定时延，实时性能下降。

发明内容

本发明实施例提出声音事件检测方法、装置、可读存储介质及计算机程序产品，以减少NPU的计算负担，并减少对缓存的占用和提高声音事件检测的实时性。

本发明实施例的技术方案是这样实现的：

一种声音事件检测方法，该方法包括：

对原始音频进行语音检测；

当检测到语音时，对语音进行采样；

将采样点流式输入深度学习神经网络的特征提取模块进行特征提取；

将提取到的特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理，得到全局平均池化特征；

将每个全局平均池化特征分别输入到深度学习神经网络的全连接层进行声音事件检测，得到声音事件的类别。

所述将提取到的特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理，包括：

存储所述特征提取模块输出的特征；

且，当存储的特征的数目达到第一数目时，将存储的所有特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理；

此后，当存储的特征每增加一条，就将存储的所有特征输入深度学习神经网络的全局平均池化模块进行一次全局平均池化处理；且，当存储的特征数目超过预设第二数目时，按照存储时间的从先到后，依次删除已存储的特征，以使得存储的特征的数目始终保持第二数目，其中，第一数目小于第二数目。

所述特征提取模块包括：卷积模块、深度可分离卷积模块、第一时间卷积残差模块、第二时间卷积残差模块和第三时间卷积残差模块。

所述方法进一步包括：动态设定输入所述全局平均池化模块的特征的条数，包括所述第一数目和/或第二数目。

一种声音事件检测装置，该装置包括：

语音检测模块，用于对原始音频进行语音检测；

采样模块，用于当检测到语音时，对语音进行采样，将采样点流式输入特征提取模块；

特征提取模块，用于对流式输入的采样点进行特征提取，将提取到的特征输入全局平均池化模块；

全局平均池化模块，用于对输入的特征进行全局平均池化处理，得到全局平均池化特征，将每个全局平均池化特征分别输入到检测模块；

检测模块，用于根据输入的全局平均池化特征进行声音事件检测，得到声音事件的类别。

所述全局平均池化模块对输入的特征进行全局平均池化处理，包括：

存储所述特征提取模块输入的特征；

且，当存储的特征的数目达到第一数目时，对存储的所有特征进行全局平均池化处理；

此后，当存储的特征每增加一条，就对存储的所有特征进行一次全局平均池化处理；且，当存储的特征数目超过预设第二数目时，按照存储时间的从先到后，依次删除已存储的特征，以使得存储的特征的数目始终保持第二数目，其中，第一数目小于第二数目。

所述特征提取模块包括：深度学习神经网络中的卷积模块、深度可分离卷积模块、第一时间卷积残差模块、第二时间卷积残差模块和第三时间卷积残差模块。

所述声音事件检测装置位于边缘人工智能设备上。

所述全局平均池化模块动态设定输入特征的条数，包括所述第一数目和/或第二数目。

一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如上任一项所述的方法的步骤。

本发明实施例中，通过一、在检测到语音时，通过将采样点流式输入深度学习神经网络的特征提取模块进行特征提取，从而使得输入特征提取模块的采样点没有重复，大大降低了NPU的计算负担，节省了计算资源，从而适用于边缘AI设备；且，此时无需缓存采样点，不占用任何缓存；二、将提取到的特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理，将每个全局平均池化特征而不是原始特征分别输入到深度学习神经网络的全连接层进行声音事件检测，从而大大减少了原始特征对缓存的占用，并提高了声音事件检测的实时性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的声音事件检测方法流程图；

图2为本发明实施例提供的声音事件检测装置的结构示意图；

图3为本发明实施例提供的一种电子设备的示例性结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明实施例提供的声音事件检测方法流程图，其具体步骤如下：

步骤101：对原始音频进行语音检测。

本步骤可采用现有的VAD（Voice Activity Detection，语音活动检测）方法实现。

步骤102：当检测到语音时，对语音进行采样。

采样率可预先设定。

步骤103：将采样点流式输入深度学习神经网络的特征提取模块进行特征提取。

即，将采样点顺序输入深度学习神经网络的特征提取模块，从而输入特征提取模块的采样点没有重复。

步骤104：将提取到的特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理，得到全局平均池化特征。

步骤105：将每个全局平均池化特征分别输入到深度学习神经网络的全连接层进行声音事件检测，得到声音事件的类别。

上述实施例的有益技术效果如下：

一、在检测到语音时，通过将采样点流式输入深度学习神经网络的特征提取模块进行特征提取，从而使得输入特征提取模块的采样点没有重复，大大降低了NPU的计算负担，节省了计算资源，从而适用于边缘AI设备；且，此时无需缓存采样点，不占用任何缓存；

二、将提取到的特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理，将每个全局平均池化特征而不是原始特征分别输入到深度学习神经网络的全连接层进行声音事件检测，从而大大减少了原始特征对缓存的占用，并提高了声音事件检测的实时性。

一可选实施例中，步骤104具体包括：存储特征提取模块输出的特征；且，当存储的特征的数目达到第一数目时，将存储的所有特征输入深度学习神经网络的全局平均池化模块进行全局平均池化处理；此后，当存储的特征每增加一条，就将存储的所有特征输入深度学习神经网络的全局平均池化模块进行一次全局平均池化处理；且，当存储的特征数目超过预设第二数目时，按照存储时间的从先到后，依次删除已存储的特征，以使得存储的特征的数目始终保持第二数目，其中，第一数目小于第二数目。

动态设定输入所述全局平均池化模块的特征的条数，包括所述第一数目和/或第二数目。

例如：设采样率为16K，则：

步骤102中，每秒采样16K个采样点；

步骤103中，将采样点流式输入深度学习神经网络的特征提取模块后，设每500个采样点（共1/32秒）可提取一条特征，设描述每条特征的特征向量的维度为96，每一维特征数据的长度为8bits，每一特征向量的大小为96*8bits；

步骤104中，将提取的每条特征依次存储，设第一数目为16条，第二数目为64条，则，当存储的特征的数目达到16条时，将存储的所有特征（16条）输入全局平均池化模块，得到这16条特征的全局平均池化特征，描述全局平均池化特征的特征向量的大小为96*8bits；

此后，每存储一条新的特征，全局平均池化模块就重新计算一次存储的所有特征的全局平均池化特征；

本申请是动态全局平局池化。一般的现有的全局平均池化（GlobalAvgPooling）模块是固定输入，比如每32条做一次，就一定要等到32条才可以做一次全局平均池化。而本申请可以是例如16，17，18条做一次全局平均池化。当然，这里只是用于举例说明，不应理解为对本申请的限制。因此，本申请是动态全局平均池化。

当存储的特征的数目多于64条时，即，从65条开始，依次删除最先存储的一条特征，以使得存储的特征的数目始终等于64条；此后，每次进行全局平均池化的特征数目就一直保持64条。

每得到一条全局平均池化特征，就将其输入深度学习神经网络的全连接层进行声音事件检测，得到声音事件的类别。

上述实施例中，在存储的特征数目达到第一数目时，开始对存储的特征进行全局平均池化处理，并对得到的全局平均池化特征进行声音事件检测，从而最可能快的检测出声音事件的类别，且在存储的特征数目多于第二数目时，开始删除最先存储的特征，以使得存储的特征数目此后始终保持在第二数目，从而减少了对缓存的占用，也提高了声音事件检测的实时性。

以特征向量的大小为96*8bits、第二数目为64（采样率为16K，每500个采样点提取一条特征，则每秒采样32条特征，2s采样64条特征）为例，占用的缓存最多可减少到64*96*8bits/8≈6Kbytes。当声音事件足够明显时，最快例如0.5s就能检测出声音事件的类别，而声音事件不太明显时，随着时间变长，全局平均池化特征越来越强，也有机会在例如2s前检测出声音事件的类别。而现有方法中，当第二时长为2s、采样率为16K、每次采样16bits的语音时，由于每次向深度学习神经网络输入2s的语音帧，对于16K*16bits的原始数据，那么，需要2*16K*(16bits/8)=64Kbytes的缓存，且其检测出声音事件的类别所需的时间固定为2s。

一可选实施例中，深度学习神经网络的特征提取模块的结构包括：卷积模块、深度可分离（Depthwise）卷积模块、第一时间卷积残差模块（TC-ResNet）、第二时间卷积残差模块和第三时间卷积残差模块。

例如：在采样率为16K时，首先将大小为1*16000*16bits的采样点流式输入卷积模块进行计算，卷积模块输出的特征向量大小为40*2009*8bits，再将卷积模块输出的特征向量输入到深度可分离卷积模块进行计算，深度可分离卷积模块输出的特征向量的大小为32*249*8bits，再将深度可分离卷积模块输出的特征向量输入到第一时间卷积残差模块进行计算，第一时间卷积残差模块输出的特征向量的大小为48*125*8bits，再将第一时间卷积残差模块输出的特征向量输入到第二时间卷积残差模块进行计算，第二时间卷积残差模块输出的特征向量的大小为64*63*8bits，再将第二时间卷积残差模块输出的特征向量输入到第三时间卷积残差模块进行计算，第三时间卷积残差模块输出的特征向量的大小为96*32*8bits。

图2为本发明实施例提供的声音事件检测装置的结构示意图，该装置主要包括：语音检测模块21、采样模块22、特征提取模块23、全局平均池化模块24和检测模块25，其中：

语音检测模块21，用于对原始音频进行语音检测。

采样模块22，用于当语音检测模块21检测到语音时，对语音进行采样，将采样点流式输入特征提取模块23。

特征提取模块23，用于对流式输入的采样点进行特征提取，将提取到的特征输入全局平均池化模块24。

全局平均池化模块25，用于对输入的特征进行全局平均池化处理，得到全局平均池化特征，将每个全局平均池化特征分别输入到检测模块25。

检测模块25，用于根据输入的全局平均池化特征进行声音事件检测，得到声音事件的类别。

一可选实施例中，全局平均池化模块24对输入的特征进行全局平均池化处理，包括：

存储特征提取模块23输入的特征；且，当存储的特征的数目达到第一数目时，对存储的所有特征进行全局平均池化处理；此后，当存储的特征每增加一条，就对存储的所有特征进行一次全局平均池化处理；且，当存储的特征数目超过预设第二数目时，按照存储时间的从先到后，依次删除已存储的特征，以使得存储的特征的数目始终保持第二数目，其中，第一数目小于第二数目。

一可选实施例中，所述全局平均池化模块动态设定输入特征的条数，包括所述第一数目和/或第二数目。

一可选实施例中，特征提取模块23包括：深度学习神经网络中的卷积模块、深度可分离卷积模块、第一时间卷积残差模块、第二时间卷积残差模块和第三时间卷积残差模块。

一可选实施例中，声音事件检测装置位于边缘AI设备上。

本申请实施例还提供一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上任一实施例所述的方法的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令在由处理器执行时可执行如上任一实施例所述的方法中的步骤。实际应用中，所述的计算机可读介质可以是上述实施例各设备/装置/系统所包含的，也可以是单独存在，而未装配入该设备/装置/系统中。其中，在计算机可读存储介质中存储指令，其存储的指令在由处理器执行时可执行如上任一实施例所述的方法中的步骤。

根据本申请公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件，或者上述的任意合适的组合，但不用于限制本申请保护的范围。在本申请公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

如图3所示，本发明实施例还提供一种电子设备。如图3所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或一个以上处理核心的处理器31、一个或一个以上计算机可读存储介质的存储器32以及存储在存储器上并可在处理器上运行的计算机程序。在执行所述存储器32的程序时，可以实现如上任一实施例所述的方法。

具体的，实际应用中，该电子设备还可以包括电源33、输入输出单元34等部件。本领域技术人员可以理解，图3中示出的电子设备的结构并不构成对该电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器31是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器32内的软件程序和/或模块，以及调用存储在存储器32内的数据，执行服务器的各种功能和处理数据，从而对该电子设备进行整体监控。

存储器32可用于存储软件程序以及模块，即上述计算机可读存储介质。处理器31通过运行存储在存储器32的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器32可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器32可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器32还可以包括存储器控制器，以提供处理器31对存储器32的访问。

该电子设备还包括给各个部件供电的电源33，可以通过电源管理系统与处理器31逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源33还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入输出单元34，该输入单元输出34可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。该输入单元输出34还可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思路，并不用于限制本申请。对于本领域的技术人员来说，可以依据本发明的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种声音事件检测方法，其特征在于，该方法包括：

对原始音频进行语音检测；

当检测到语音时，对语音进行采样；

将每个全局平均池化特征分别输入到深度学习神经网络的全连接层进行声音事件检测，得到声音事件的类别；

存储所述特征提取模块输出的特征；

2.根据权利要求1所述的方法，其特征在于，所述特征提取模块包括：卷积模块、深度可分离卷积模块、第一时间卷积残差模块、第二时间卷积残差模块和第三时间卷积残差模块。

3.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：动态设定输入所述全局平均池化模块的特征的条数，包括所述第一数目和/或第二数目。

4.一种声音事件检测装置，其特征在于，该装置包括：

语音检测模块，用于对原始音频进行语音检测；

检测模块，用于根据输入的全局平均池化特征进行声音事件检测，得到声音事件的类别；

存储所述特征提取模块输入的特征；

5.根据权利要求4所述的装置，其特征在于，所述特征提取模块包括：深度学习神经网络中的卷积模块、深度可分离卷积模块、第一时间卷积残差模块、第二时间卷积残差模块和第三时间卷积残差模块。

6.根据权利要求4所述的装置，其特征在于，所述声音事件检测装置位于边缘人工智能设备上。

7.根据权利要求4所述的装置，其特征在于，所述全局平均池化模块动态设定输入特征的条数，包括所述第一数目和/或第二数目。

8.一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至3中任一项所述的方法的步骤。