CN112349298A

CN112349298A - 声音事件识别方法、装置、设备和存储介质

Info

Publication number: CN112349298A
Application number: CN201910733513.6A
Authority: CN
Inventors: 黄智颖; 雷鸣
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2021-02-09

Abstract

本发明实施例公开了一种声音事件识别方法、装置、设备和存储介质；其中，该声音事件识别方法，包括：提取音频序列的多帧音频的声学特征；对于每一帧音频，基于第一神经网络，处理帧音频的声学特征与帧音频相邻帧音频的声学特征，得到与帧音频对应的融合声音事件特征；分别确定每一帧音频的融合声音事件特征的概率；将多帧音频的融合声音事件特征的概率输入第一时间池化层，得到至少一个声音事件的概率；根据至少一个声音事件的概率和对应的阈值，得到音频序列的声音事件。本发明实施例能够提高识别性能。

Description

声音事件识别方法、装置、设备和存储介质

技术领域

本发明涉及音频信号处理技术领域，尤其涉及一种声音事件识别方法、装置、设备和存储介质。

背景技术

近年来，声音事件检测(识别)引起广泛关注。声音事件检测对于音频取证、环境声音识别、生物声音监控、声场景分析、环境安全监控，实时军事关注点的检测、定位跟踪和声源分类，病人监护、非正常事件监测及故障诊断、递交早期维护的关键信息等都具有重要意义。声场景中检测(识别)声音事件，试图在音频数据中识别出隐藏在它们中的真实事件。

目前，相关技术中使用的模型一般结构复杂，识别性能需要提高。

发明内容

本发明实施例提供了一种声音事件识别方法、装置、设备和存储介质，用以提高识别性能。

根据本发明实施例的第一方面，提供一种声音事件识别方法，该方法可以包括：

提取音频序列的多帧音频的声学特征；

对于每一帧音频，基于第一神经网络，处理帧音频的声学特征与帧音频相邻帧音频的声学特征，得到与帧音频对应的融合声音事件特征；

分别确定每一帧音频的融合声音事件特征的概率；

将多帧音频的融合声音事件特征的概率输入第一时间池化层，得到至少一个声音事件的概率；

根据至少一个声音事件的概率和对应的阈值，得到音频序列的声音事件。

根据本发明实施例的第二方面，提供一种声音事件识别装置，该装置可以包括：

提取模块，用于提取音频序列的多帧音频的声学特征；

第一神经网络模块，用于针对每一帧音频，基于第一神经网络，处理帧音频的声学特征与帧音频相邻帧音频的声学特征，得到与帧音频对应的融合声音事件特征；

处理模块，用于分别确定每一帧音频的融合声音事件特征的概率；

池化模块，用于将多帧音频的融合声音事件特征的概率输入第一时间池化层，得到至少一个声音事件的概率；

处理模块，还用于根据至少一个声音事件的概率和对应的阈值，得到音频序列的声音事件。

根据本发明实施例的第四方面，提供一种计算设备，计算设备包括：至少一个处理器、至少一个存储器以及至少一个计算机程序，其中，计算机程序被存储在存储器中，计算机程序包括指令，处理器用于执行计算机程序，以使计算设备实现如第一方面所示的方法。

根据本发明实施例的第十方面，提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行上述各方面的声音事件识别方法。

本发明实施例，通过基于第一神经网络，处理每一帧音频的声学特征与该帧音频相邻帧音频的声学特征，得到与该帧音频对应的融合声音事件特征；并分别确定每一帧音频的融合声音事件特征的概率；然后将多帧音频的融合声音事件特征的概率输入第一时间池化层，得到至少一个声音事件的概率；最终根据至少一个声音事件的概率和对应的阈值，得到音频序列的声音事件。通过第一神经网络可以建立当前帧音频的声学特征与相邻帧音频的声学特征之间的关联，进而增加识别性能；另一方面，加入了时间池化层，将多帧音频的声音事件的概率进行池化，也进一步建立了帧与帧之间的关系，进而也提高了识别性能。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中，相同或相似的附图标记表示相同或相似的特征。

图1为本发明实施例的一种声音事件识别方法的流程图；

图2为本发明实施例的一种声音事件识别模型的示意图；

图3为本发明实施例的另一种声音事件识别模型的示意图；

图4为本发明实施例的又一种声音事件识别模型的示意图；

图5为本发明实施例的时间池化层的示意图；

图6为本发明实施例的一种声音事件识别装置的示意图；

图7为本发明实施例的一种计算设备的示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合附图，对本说明书提供的方案进行详细描述。

图1为本发明实施例的一种声音事件识别方法的流程图。如图1所示，该声音事件识别方法可以包括以下步骤：

S110：提取音频序列的多帧音频的声学特征；

S120：对于每一帧音频，基于第一神经网络，处理帧音频的声学特征与帧音频相邻帧音频的声学特征，得到帧音频对应的融合声音事件特征；

S130：分别确定每一帧音频的融合声音事件特征的概率；

S140：将多帧音频的融合声音事件特征的概率输入第一时间池化层，得到至少一个声音事件的概率；

S150：根据至少一个声音事件的概率和对应的阈值，得到音频序列的声音事件。

本发明实施例，通过基于第一神经网络，处理每一帧音频的声学特征与该帧音频相邻帧音频的声学特征，得到该帧音频对应的融合声音事件特征；并分别确定每一帧音频的融合声音事件特征的概率；然后将多帧音频的融合声音事件特征的概率输入第一时间池化层，得到至少一个声音事件的概率；最终根据至少一个声音事件的概率和对应的阈值，得到音频序列的声音事件。通过第一神经网络可以建立当前帧音频的声学特征与相邻帧音频的声学特征之间的关联，进而增加识别性能；另一方面，加入了时间池化层，将多帧音频的声音事件的概率进行池化，也进一步建立了帧与帧之间的关系，进而也提高了识别性能。

在本发明实施例中，S110包括：

先获取一段需要识别声音事件的音频序列，然后提取音频序列的多帧音频的声学特征。

需要说明的是，音频序列可以为音频片段。

在本发明实施例中，S120所述的相邻帧可以为相邻一帧或者相邻多帧，帧数的选取可以依据对识别性能的要求来确定，在此不在赘述。

在本发明实施例中，S130包括：

将每一帧音频的融合声音事件特征输入sigmoid函数(Sigmoid function)或softmax函数，得到每一帧音频的融合事件特征的概率；其中，sigmoid和softmax函数只是一个示例。

在本发明实施例中，S140中的第一时间池化层按照取平均值或最大值的方式。其中，第一时间池化层可以采用不重叠池化的方式，也可以采用重叠池化的方式。

在本发明实施例中，S150的声音事件为音频序列中的多种声音类型；例如，猫叫、狗叫、人说话、汽笛等。

在本发明实施例中，在分别确定每一帧音频的融合声音事件特征的概率之前，该声音事件识别方法，还包括：

基于第二神经网络，分别处理融合声音事件特征，得到处理的融合声音事件特征；分别确定每一帧处理事件特征的概率；将多帧音频的处理的融合声音事件特征的概率输入第一时间池化层，得到至少一个声音事件的概率；根据至少一个声音事件的概率和对应的阈值，得到音频序列的声音事件。

在本发明实施例中，在基于第二神经网络，分别处理融合声音事件特征之前，该声音事件识别方法，还包括：

将多帧音频的融合声音事件特征输入第二时间池化层，得到池化声音事件特征；

基于第二声音网络，分别处理池化声音特征，得到处理的池化声音事件特征；

将多帧音频的处理的池化声音事件特征的概率输入第一时间池化层，得到至少一个声音事件的概率；根据至少一个声音事件的概率和对应的阈值，得到音频序列的声音事件。

在一个示例中，第二时间池化层按照取平均值或最大值的方式；其中，第二时间池化层可以采用不重叠池化的方式，也可以采用重叠池化的方式。其中，第二时间池化层的数量为至少一个。

其中，第一神经网络的数量为至少一个和/或第二神经网络的数量为至少一个；第一神经网络与第二神经网络堆叠。

其中，第一神经网络包括：前馈序列记忆神经网络(Feedforward SequentialMemory Networks，FSMN)、紧凑前馈序列记忆神经网络(Compact FSMN，CFSMN)和深层前馈序列记忆神经网络(Deep-FSMN，DFSMN)中的至少一种；第二神经网络，包括：深度神经网络(Deep Neural Networks，DNN)、卷积神经网络(Convolution Neural Networks，CNN)和递归神经网络RNN(Recurrent Neural Networks，RNN)中的至少一种。其中，第一神经网络包括但不限于FSMN、CFSMN和DFSMN；第二神经网络包括但不限于DNN、CNN和RNN。

为了方便描述，下文中以第一神经网络为FSMN、第二神经网络为DNN为示例。

在图2中，三层FSMN和第一时间池化层(time-pooling1)；其中，三层FSMN堆叠。

需要说明的是，还可以包括至少一个时间池化层，插入在两个FSMN之间。例如，在前两个FSMN之间插入时间池化层，此时，后续最后一个FSMN需要处理的帧音频的数量会比前两个FSMN处理的帧音频数量少。

在图3中，三层FSMN和三层DNN堆叠，第一时间池化层与最后一层DNN连接。

需要说明的是，还可以包括至少一个时间池化层，插入在两层FSMN、两层DNN之间。另外，FSMN与DNN可以间隔堆叠，即FSMN、DNN、FSMN这样的堆叠方式。

下文通过FSMN、DNN、第一时间池化层、第二时间池化层来说明，如何解决声音事件识别性能低的问题。

图4为本发明实施例的一种声音事件识别模型的示意图。如图4所示，该声音事件识别模块包括：

三层FSMN和三层DNN层堆叠组成，并将FSMN和DNN之间插入第二时间池化层time-pooling layer2，pooling size＝N，以及在最后一层DNN之后，加上一个第一时间池化层time-pooling layer1，pooling size＝x为最后一层DNN的帧数；其中，N与x的乘积为音频序列中音频的总帧数T。

将音频序列提取的多帧音频的声学特征输入声音事件识别模型，由三层FSMN依次对多帧音频的声学特征进行处理，得到融合声音事件；再将最后一层FSMN输出的多帧音频的融合声音事件特征输入第二时间池化层，即将所有帧音频的融合声音事件特征通过第二时间池化层，得到池化的声音事件特征(最终第二时间池化层输出的帧数，与第二时间池化层的池化大小设置有关)；然后再将第二时间池化层的输出，输入三层DNN，得到DNN处理后的声音事件特征(此时，帧音频的数量与第二时间池化层输出帧音频的数量相同)；然后再分别确定最后一层DNN输出的几帧(与第一时间池化层池化后的帧数相同)中的每一帧音频声音事件特征的概率；最后将每一帧音频声音事件特征的概率输入第一时间池化层，得到一帧音频，该音频的向量包括至少一个声音事件的概率；再根据至少一个声音事件的概率和对应的阈值，得到音频序列的声音事件。

在一个示例中，提取音频序列中多帧音频的声学特征，将该多帧音频的声学特征输入至声音事件识别模型中，得到两个声音事件的概率；例如，猫叫的概率为60％，人说话的概率为70％；并将这两个声音事件的概率与对应的阈值进行比较；假设，猫叫的阈值为50％，人说话的阈值为60％，此时可以确定包括猫叫和人说话的两个声音事件。

其中，时间池化层将输入的序列按照一定的池化大小(pooling size)缩小序列的长度，即将序列的帧数变少。

time-pooling layer1和time-pooling layer2池化为取平均(average-pooling)或者取最大值(max-pooling)；time-pooling layer2可以放在第一层FSMN的输入或者任意层之间。

在图5中，第二时间池化层的池化大小设置为2，T帧音频输入第二时间池化层，由第二时间池化层进行池化，输出T/2帧音频；其中，T为音频总帧数，t为时刻，i为T帧音频中的第i帧音频，i为正整数，2i中的2表示池化大小为2。在图2中仅以池化大小为2示例。

需要说明的是，将图4中的DNN输出的音频输入第一时间池化层进行池化，最终得到一帧音频。

时间池化层能够带来时间序列上的不变性，即对声音所处的时刻有一定的容忍度。同时，减小后续所有层的计算量。在声音事件识别模型中插入time-pooling layer，能提高声音事件识别模型的处理速度。

图6示出了本发明实施例的声音事件识别装置示意性框图，该声音事件识别装置60可以包括：

提取模块601，用于提取音频序列的多帧音频的声学特征；

第一神经网络模块602，用于第一神经网络模块，用于对于每一帧音频，基于第一神经网络，处理帧音频的声学特征与帧音频相邻帧音频的声学特征，得到帧音频对应的融合声音事件特征；

处理模块603，用于分别确定每一帧音频的融合声音事件特征的概率；

池化模块604，用于将多帧音频的融合声音事件特征的概率输入第一时间池化层，得到至少一个声音事件的概率；

处理模块603，还用于根据至少一个声音事件的概率和对应的阈值，得到音频序列的声音事件。

可选的，该声音事件识别装置，还包括：

第二神经网络模块，分别处理所述融合声音事件特征，得到处理声音事件特征。

可选的，该声音事件识别装置，还包括：第二时间池化层模块；

第二时间池化层模块，用于将多帧音频的融合声音事件特征输入第二时间池化层，获得池化后的声音事件特征，所述第二时间池化层的数量为至少一个。

其中，所述第一神经网络的数量为多个和/或所述第二神经网络的数量为多个。

其中，第一神经网络包括：前馈序列记忆神经网络FSMN、紧凑前馈序列记忆神经网络CFSMN和深层前馈序列记忆神经网络DFSMN中的至少一种；

第二神经网络，包括：深度神经网络DNN、卷积神经网络CNN和递归神经网络RNN中的至少一种。

图7示出了本发明实施例的声音事件识别设备示意性框图，能够实现根据本发明实例提供的声音事件识别方法和装置的计算设备的示例性硬件架构的结构图。

计算设备700包括输入设备701、输入接口702、中央处理器703、存储器704、输出接口705、以及输出设备707。其中，输入接口702、中央处理器703、存储器704、以及输出接口705通过总线710相互连接，输入设备701和输出设备707分别通过输入接口702和输出接口705与总线710连接，进而与计算设备700的其他组件连接。

具体地，输入设备701接收来自外部的输入信息，并通过输入接口702将输入信息传送到中央处理器703；中央处理器703基于存储器704中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器704中，然后通过输出接口705将输出信息传送到输出设备707；输出设备707将输出信息输出到计算设备700的外部供用户使用。

图7所示的计算设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及处理器，该处理器在执行计算机可执行指令时可以实现结合图2至图5描述的声音事件识别方法和装置。

根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以从网络上被下载和安装，和/或从可拆卸存储介质被安装。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或至少一个计算机指令，当其在计算机上运行时，使得计算机执行上述各个实施例中描述的方法。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或至少一个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。

以上所描述的装置实例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到至少一个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

需要明确的是，本发明并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁，这里省略了对已知方法的详细描述，并且上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域的技术人员可以清楚地了解到，本发明的方法过程并不限于所描述和示出的具体步骤，任何熟悉本技术领域的技术人员在领会本发明的精神后，在本发明揭露的技术范围内作出各种改变、修改和添加，或者等效替换以及改变步骤之间的顺序，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种声音事件识别方法，所述方法包括：

提取音频序列的多帧音频的声学特征；

对于所述多帧音频中的每一帧音频，基于第一神经网络，处理所述帧音频的声学特征与所述帧音频相邻帧音频的声学特征，得到与所述帧音频对应的融合声音事件特征；

分别确定每一帧音频的融合声音事件特征的概率；

将所述多帧音频的融合声音事件特征的概率输入第一时间池化层，得到至少一个声音事件的概率；

根据所述至少一个声音事件的概率和对应的阈值，得到所述音频序列的声音事件。

2.根据权利要求1所述的方法，其中，在分别确定每一帧音频的融合声音事件特征的概率之前，还包括：

基于第二神经网络，分别处理所述融合声音事件特征，得到处理声音事件特征。

3.根据权利要求2所述的方法，其中，在基于第二神经网络，分别处理所述融合声音事件特征之前，还包括：

将多帧音频的融合声音事件特征输入第二时间池化层，获得池化后的声音事件特征；其中，所述第二时间池化层的数量为至少一个。

4.根据权利要求2所述的方法，其中，第一神经网络的数量为多个和/或所述第二神经网络的数量为多个，多个第一神经网络与多个第二神经网络堆叠。

5.根据权利要求4所述的方法，其中，第一神经网络包括：前馈序列记忆神经网络FSMN、紧凑前馈序列记忆神经网络CFSMN和深层前馈序列记忆神经网络DFSMN中的至少一种；

6.一种声音事件识别装置，所述装置包括：

提取模块，用于提取音频序列的多帧音频的声学件特征；

第一神经网络模块，用于对于每一帧音频，基于第一神经网络，处理所述帧音频的声学特征与所述帧音频相邻帧音频的声学特征，得到与所述帧音频对应的融合声音事件特征；

所述处理模块，还用于根据所述至少一个声音事件的概率和对应的阈值，得到所述音频序列的声音事件。

7.一种计算设备，所述计算设备包括：至少一个处理器、至少一个存储器以及至少一个计算机程序，其中，所述计算机程序被存储在所述存储器中，所述计算机程序包括指令，所述处理器用于执行所述计算机程序，以使所述计算设备实现如权利要求1-5中任意一项所述的方法的步骤。

8.一种计算机可读存储介质，所述存储介质包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-5中任意一项所述的方法的步骤。