CN114974302A

CN114974302A - 环境声音事件检测方法、装置和介质

Info

Publication number: CN114974302A
Application number: CN202210484489.9A
Authority: CN
Inventors: 刘立峰; 宋卫华; 母健康; 李振华; 王文重; 张建军
Original assignee: Zhuhai Comleader Information Technology Co Ltd
Current assignee: Zhuhai Comleader Information Technology Co Ltd
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2022-08-30

Abstract

本申请公开了环境声音事件检测方法、装置和介质，其中方法包括对环境声音进行特征提取，得到数据集，所述数据集中包含多事件类别；分别以所述数据集中的Mel、MFCC和LogMel作为输入特征；用双向GRU对所述输入特征进行训练；获得环境声音多分类模型概率输出。对比传统的应用于声音处理的深度学习方法，本申请先通过CNN提取事件音频的声谱图作为特征输入；双向GRU自动从每个输入声谱图中提取特征序列，在卷积网络之上，构建了一个循环网络，用于对卷积层的输出特征序列进行声学建模，建立内部序列关系；最后通过分类函数对音频信号进行预测，得到最终预测结果，在多事件音频检测这一任务上性能较高，比使用单一的卷积网络应用性更强，提高了系统的实用价值。

Description

环境声音事件检测方法、装置和介质

技术领域

本申请涉及声音检测领域，尤其是环境声音事件检测方法、装置和介质。

背景技术

环境声音分类及事件的使用任务能够应用于不同的乐器、机器人导航、医疗或医疗问题、客户或买家提醒、犯罪警报系统、语音活动识别以及基于音频的灾难识别和环境监测等。可见，声音分类可以参与到许多应用中，表明了它的重要性。声音的分类及事件是为了识别小的音频剪辑或录音的声音类别。对从音频信号中得到的接收到的信息进行了详细的分析。认识到周围声音的环境并立即采取行动以降低风险是非常重要的

相关技术主要采用提取环境声音的mfcc及机器学习分类方法实现，需要较高的技术水平和算法，并且维护算法模型时较为复杂。

因此，相关技术存在的上述技术问题亟待解决。

发明内容

本申请旨在解决相关技术中的技术问题之一。为此，本申请实施例提供环境声音事件检测方法、装置和介质，能够对环境声音事件进行检测和分类。

根据本申请实施例一方面，提供环境声音事件检测方法，所述方法包括：

对环境声音进行特征提取，得到数据集，所述数据集中包含多事件类别；

分别以所述数据集中的Mel、MFCC和LogMel作为输入特征；

用双向GRU对所述输入特征进行训练；

获得环境声音多分类模型概率输出。

在其中一个实施例中，对环境声音进行特征提取包括：

使用CNN卷积神经网络对所述环境声音进行特征提取。

在其中一个实施例中，对环境声音进行特征提取包括：

对环境声音进行单通道采样，采样率为16kHz。

在其中一个实施例中，所述数据集中的训练集、验证集、测试集的比例8:1:1。

在其中一个实施例中，所述用双向GRU对所述输入特征进行训练，包括：

对所述环境声音进行取帧操作，所述取帧操作的帧长为50ms，帧移为25ms；

通过短时傅里叶变换计算频谱并对所述输入特征进行训练，训练的batch size参数值设置为32。

在其中一个实施例中，所述通过短时傅里叶变换计算频谱，包括：

分别计算Mel、MFCC和LogMel能量；

对Mel、MFCC和LogMel进行归一化操作，将Mel、MFCC和LogMel切割成等长的样本片段。

在其中一个实施例中，获得环境声音多分类模型概率输出，包括：

通过softmax分类器对训练的结果进行分类；

获得环境声音多分类模型概率并输出。

根据本申请实施例一方面，提供环境声音事件检测装置，所述装置包括：

提取模块，用于对环境声音进行特征提取，得到数据集，所述数据集中包含多事件类别；

输入模块，用于分别以所述数据集中的Mel、MFCC和LogMel作为输入特征；

训练模块，用于用双向GRU对所述输入特征进行训练；

输出模块，用于获得环境声音多分类模型概率输出。

至少一个处理器；

至少一个存储器，所述存储器用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时实现如前面实施例所述的环境声音事件检测方法。

根据本申请实施例一方面，提供介质，所述介质存储有处理器可执行的程序，所述处理器可执行的程序被处理器执行时实现如前面实施例所述的环境声音事件检测方法。

本申请实施例提供的环境声音事件检测方法、装置和介质的有益效果为：本申请对环境声音进行特征提取，得到数据集，所述数据集中包含多事件类别；分别以所述数据集中的Mel、MFCC和LogMel作为输入特征；用双向GRU对所述输入特征进行训练；获得环境声音多分类模型概率输出。对比传统的应用于声音处理的深度学习方法，本申请先通过CNN提取事件音频的声谱图作为特征输入；然后，双向GRU自动从每个输入声谱图中提取特征序列，在卷积网络之上，构建了一个循环网络，用于对卷积层的输出特征序列进行声学建模，建立内部序列关系；最后通过分类函数对音频信号进行预测，得到最终预测结果，在多事件音频检测这一任务上性能较高，比使用单一的卷积网络应用性更强，提高了系统的实用价值。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的环境声音事件检测方法流程图；

图2为本申请实施例提供的环境声音事件检测方法工作过程示意图；

图3为本申请实施例提供的环境声音事件检测装置的示意图；

图4为本申请实施例提供的环境声音事件检测装置的另一示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了解决上述问题，本申请提出了一种环境声音事件检测方法、装置和介质。

本说明书对可能出现的名词进行解释，具体如下：

深度学习：深度学习是机器学习的一种，而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究，含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本等。

语音处理：语音处理是计算机科学领域以及人工智能领域的一个重要的研究方向，它研究用计算机来处理、，达到人与计算机之间进行有效通讯。语音处理主要应用于语音分类、噪声检测、语音识别等方面。

MFCC：指梅尔倒频谱，在信号处理中，梅尔倒频谱系一个可用来代表短期音频的频谱，其原理基于用非线性的梅尔刻度表示的对数频谱及其线性余弦转换上。梅尔频率倒谱系数是一组用来创建梅尔倒频谱的关键系数。由音乐信号当中的片段，可以得到一组足以代表此音乐信号之倒频谱，而梅尔倒频谱系数即是从这个倒频谱中推得的倒频谱

CNN：卷积神经网络(CNN或ConvNet)是一类深度神经网络，最常用于分析视觉图像。CNN使用多层感知器的变体设计，需要最少的预处理，也被称为移位不变或空间不变人工神经网络(SIANN)，基于它们的共享权重架构和平移不变性特征。

RNN：循环神经网络(RNN)是一类深度循环神经网络，最常用于分析序列数据。，RNN使用LSTM等多层感知器的变体设计，需要最少的预处理。

图1为本申请实施例提供的环境声音事件检测方法流程图，如图1所示，本申请提出的一种环境声音事件检测方法具体包括：

S101、对环境声音进行特征提取。

在步骤S101中，本实施例对环境声音进行特征提取包括：使用CNN卷积神经网络对所述环境声音进行特征提取。此外，对环境声音进行特征提取还包括：对环境声音进行单通道采样，采样率为16kHz。卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representationlearning)能力，能够按其阶层结构对输入信息进行平移不变分类。卷积神经网络包含有输入层、隐含层和输出层。

本实施例的卷积神经网络中卷积层间的连接为稀疏连接，即相比于前馈神经网络中的全连接，卷积层中的神经元仅与其相邻层的部分，而非全部神经元相连。卷积神经网络的稀疏连接具有正则化的效果，提高了网络结构的稳定性和泛化能力，避免过度拟合，同时，稀疏连接减少了权重参数的总量，有利于神经网络的快速学习，和在计算时减少内存开销。

需要说明的是，本实施例中得到的数据集中包含多事件类别，数据集包括了训练集、验证集和测试集，训练集是用于对神经网络模型进行数据训练的数据集合，包括了针对不同类别的环境声音的不同声音数据。

可选地，本实施例中采样获得的数据集中的训练集、验证集、测试集的比例8:1:1。性能良好的神经网络需要大量的数据进行训练以提高数据新训练的准确性。因此本实施例将训练集的数据量比例设置为8，能够有效提高训练神经网络数据的数据量，提高最终得到的神经网络模型的判断准确率和可靠性。

S102、分别以所述数据集中的Mel、MFCC和LogMel作为输入特征。

需要说明的是，MFCC是Mel频率倒谱系数的缩写.Mel频率是基于人耳听觉特性提出，与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。本实施例中，由于音频存在很多噪音，音频数据如果直接进行自动语音识别会效果比较差，并且音频中需要的有效数据并没有被凸显出来，而本实施例使用mel特征提取可以将音频数据里有效信息进行提取、无用信息进行过滤，其原理是模拟人耳构造，对音频进行滤波，处理过后的数据再用来做自动语音识别效果会有显著提升。

本实施例中采用Mel、MFCC和LogMel三种变量作为输入特征，能够有效解决现有的针对声音及事件处理系统大多针对声音的MFCC特征，特征单一，无法满足各种场景下的声音分类及事件处理及监测的问题，提高特征种类可得多样性以及模型判断结果的准确率。

S103、用双向GRU对所述输入特征进行训练。

步骤S103中的用双向GRU对所述输入特征进行训练包括：对所述环境声音进行取帧操作，所述取帧操作的帧长为50ms，帧移为25ms；通过短时傅里叶变换计算频谱并对所述输入特征进行训练，训练的batch size参数值设置为32。

需要说明的是，GRU是在LSTM的基础上的简化版本，能够对RNN神经网络进行扩展。GRU单元包括重置门和更新门，重置门关闭将忽略历史信息，即历史不相干信息不会影响未来的输出数据；更新门是将LSTM的输入门与遗忘门进行合并，能够控制历史信息对当前时刻隐层输出的影响。因此，本实施例采用双向的GRU单元能够有助于捕捉时间序列中短期和长期的历史数据依赖关系。

具体地，本实施例中的双向GRU分别在预设维度内以前向和后向两个不同方向上依次输出序列，并将每个时间步RNN的输出拼接成为最终的输出层。这样没每个输出节点都包含了输入序列中当前时刻完整的过去和未来的上下文信息。

具体地，通过短时傅里叶变换计算频谱，包括：分别计算Mel、MFCC和LogMel能量；对Mel、MFCC和LogMel进行归一化操作，将Mel、MFCC和LogMel切割成等长的样本片段。

S104、获得环境声音多分类模型概率输出。

在本实施例中，获得环境声音多分类模型概率输出，包括：通过softmax分类器对训练的结果进行分类；获得环境声音多分类模型概率并输出。其中，环境声音多分类模型能够对将环境中的声音进行分类输出，例如对环境中人的说话声进行分类，并保留记录谈话内容进行输出。

本申请先通过CNN提取事件音频的声谱图作为特征输入；然后，双向GRU自动从每个输入声谱图中提取特征序列，在卷积网络之上，构建了一个循环网络，用于对卷积层的输出特征序列进行声学建模，建立内部序列关系；最后通过分类函数对音频信号进行预测，得到最终预测结果，在多事件音频检测这一任务上性能较高，比使用单一的卷积网络应用性更强，提高了系统的实用价值。

图2为本申请实施例提供的环境声音事件检测方法工作过程示意图，如图2所示，本实施例首先将音频数据集进行提取后分为训练数据集和测试数据集，训练数据集用于对算法模型进行训练以提高算法模型的可靠性，测试数据集用于对完成后的算法模型进行测试处理。之后本实施例将训练数据集和测试数据集对进行音频预处理后的音频进行声谱图提取，得到环境声音的声谱图。之后将提取得到的声谱图输入CRNN网络模块的带输出量并输出。此外，如图2所示，CRNN网络模块中对环境声音的声谱图进行一系列算法处理，其中，CRNN是一种能够进行文字识别的网络模块，CRNN网络模块首先将对声音进行解析后得到文字信息，之后将文字信息进行文字检测和文字识别，最后输出文字信息。类似于目标检测，本实施例的CRNN网络用box标识出音频中所有文字位置。

图3为本申请实施例提供的环境声音事件检测装置的示意图，如图3所示，本实施例提供一种环境声音事件检测装置，所述装置包括：

提取模块301，用于对环境声音进行特征提取，得到数据集，所述数据集中包含多事件类别；输入模块302，用于分别以所述数据集中的Mel、MFCC和LogMel作为输入特征；训练模块303，用于用双向GRU对所述输入特征进行训练；输出模块304，用于获得环境声音多分类模型概率输出。

图4为本申请实施例提供的环境声音事件检测装置的另一示意图，如图4所示，本实施例提供一种环境声音事件检测装置，所述装置包括：

至少一个处理器401；

至少一个存储器402，所述存储器402用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器401执行时实现如前面实施例所述的环境声音事件检测方法。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

此外，本申请还提供了一种介质，所述介质存储有处理器可执行的程序，所述处理器可执行的程序被处理器执行时实现如前面实施例所述的环境声音事件检测方法。

同理，上述方法实施例中的内容均适用于本介质实施例中，本介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本申请的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本申请，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本申请的范围，本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.环境声音事件检测方法，其特征在于，所述方法包括：

分别以所述数据集中的Mel、MFCC和LogMel作为输入特征；

用双向GRU对所述输入特征进行训练；

获得环境声音多分类模型概率输出。

2.根据权利要求1所述的环境声音事件检测方法，其特征在于，对环境声音进行特征提取包括：

使用CNN卷积神经网络对所述环境声音进行特征提取。

3.根据权利要求1所述的环境声音事件检测方法，其特征在于，对环境声音进行特征提取包括：

对环境声音进行单通道采样，采样率为16kHz。

4.根据权利要求1所述的环境声音事件检测方法，其特征在于，所述数据集中的训练集、验证集、测试集的比例8:1:1。

5.根据权利要求1所述的环境声音事件检测方法，其特征在于，所述用双向GRU对所述输入特征进行训练，包括：

6.根据权利要求5所述的环境声音事件检测方法，其特征在于，所述通过短时傅里叶变换计算频谱，包括：

分别计算Mel、MFCC和LogMel能量；

7.根据权利要求1所述的环境声音事件检测方法，其特征在于，获得环境声音多分类模型概率输出，包括：

通过softmax分类器对训练的结果进行分类；

获得环境声音多分类模型概率并输出。

8.环境声音事件检测装置，其特征在于，所述装置包括：

训练模块，用于用双向GRU对所述输入特征进行训练；

输出模块，用于获得环境声音多分类模型概率输出。

9.环境声音事件检测装置，其特征在于，所述装置包括：

至少一个处理器；

至少一个存储器，所述存储器用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时实现如权利要求1-7中任一项所述的环境声音事件检测方法。

10.介质，其特征在于，所述介质存储有处理器可执行的程序，所述处理器可执行的程序被处理器执行时实现如权利要求1-7中任一项所述的环境声音事件检测方法。