CN115240647A

CN115240647A - 声音事件检测方法、装置、电子设备及存储介质

Info

Publication number: CN115240647A
Application number: CN202210699407.2A
Authority: CN
Inventors: 於志文; 葛晟彤; 王亮; 刘佳琪; 郭斌
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-10-25

Abstract

本发明实施例公开了一种声音事件检测方法、装置、电子设备及存储介质。该方法采用目标卷积神经网络模型进行声音事件检测，并通过半监督学习来提高两个卷积神经网络模型交替学习的能力，使用自适应窗口大小的滤波器对目标卷积神经网络模型的输出预测概率结果进行后处理，从而最终检测结果。通过本发明，解决了相关技术中的声音事件检测方法在复杂应用场景中检测效果不佳的技术问题，达到了提高面对复杂问题和变化环境时的灵活性、自适应性及检测准确率的技术效果。

Description

声音事件检测方法、装置、电子设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种声音事件检测方法、装置、电子设备及存储介质。

背景技术

声音事件检测是对音频片段中具有特定语义的片段进行检测和分类的任务。声音事件检测是一项非常实用的技术，在医疗卫生、制造业、交通运输、安全监测、农林牧渔、水利、环境与公共设施管理、身份识别、军事等领域都具有广阔的应用前景。随着深度学习的发展，该领域的研究取得了很大的进展，但发展仍处于早期阶段，仍然面临着许多挑战。首先，缺乏数据集。为了保证声音事件检测器的准确性，通常需要大量带有时间戳和事件标签的数据进行训练。然而，这种带有事件标签和时间戳的注释通常是由手人工标注生成的，成本高昂。因此，如何在保证识别结果准确性的同时，尽可能地使用不带时间戳的数据来减少人工标注的工作量是该领域的一大难题。第二，环境噪音。由于环境的复杂性和多样性，真实场景中的音频往往含有较大的噪声，这将对检测效果产生负面影响。第三，声音事件的重叠。在多声音事件检测任务中，每一时刻可以同时检测到两个或多个事件。重叠导致谱图中不同的事件区域出现混叠现象，使得同时检测所有事件变得困难。此外，由于从真实场景中提取的音频片段的复杂性和多变性，现有的声音事件检测方法还存在一些不足，比如检测准确率低等。

针对上述的问题，尚未提出有效地解决方案。

发明内容

本发明实施例提供了一种声音事件检测方法、装置、电子设备及存储介质，以至少解决相关技术中的声音事件检测方法在复杂应用场景中检测效果不佳的技术问题。

根据本发明实施例的一个方面，提供了一种声音事件检测方法，包括：获取每个音频片段的梅尔特征图谱，并从所述梅尔特征图谱提取特征向量输入目标卷积神经网络模型，其中，每个所述音频片段划分为等长的T帧，所述目标卷积神经网络模型是基于半监督学习使用多个音频片段的无标注数据与弱标注数据分别训练第一卷积神经网络模型和第二卷积神经网络模型而得到的；基于特征编码器将所述特征向量转换成高级特征表示，其中，所述高级特征表示如下：X＝{x₁,…,x_T}，其中，T表示所述音频片段的帧数，X中第t帧对应的高级特征表示为x_t，t∈[1,T]，x_t的维度为c，c表示声音事件的种类数；基于嵌入级注意力层获取注意力向量，其中，所述注意力向量为每种声音事件类别的X中对应的x_t赋予不同的权重；获取每种声音事件类别的上下文表示，其中，所述上下文表示为每一帧的高级特征表示与相应权重的乘积；将所述上下文表示输入分类器，得到片段级预测概率，并根据所述片段级预测概率确定片段级预测结果；根据所述片段级预测结果与帧级预测概率，确定帧级预测结果；基于自适应窗口大小的滤波器对所述片段级预测结果和/或所述帧级预测结果进行后处理，得到最终检测结果。

可选地，所述权重的表达式如下：

其中，a_ct表示维度为c的x_t对应的权重，

表示可训练向量，b_c表示可训练偏差，k表示X的维度。

可选地，所述上下文表示的表达式如下：

其中，h_c表示维度为c的x_t对应的上下文表示，a_ct表示维度为c的x_t对应的权重，k表示X的维度，t∈[1,T]。

可选地，根据所述片段级预测概率确定片段级预测结果，包括：判断所述片段级预测概率是否大于或者等于第一预测阈值；在所述片段级预测概率大于或者等于所述第一预测阈值的情况下，则得到所述片段级预测结果为所述音频片段存在声音事件；在所述片段级预测概率小于所述第一预测阈值的情况下，则得到所述片段级预测结果为所述音频片段不存在声音事件。

可选地，根据所述片段级预测结果与帧级预测概率，确定帧级预测结果，包括：判断目标值是否大于或者等于第二预测阈值，其中，所述目标值为所述片段级预测结果与帧级预测概率的乘积；在所述目标值是否大于或者等于所述第二预测阈值的情况下，则得到所述帧级预测结果为所述音频片段的目标帧中存在声音事件；在所述目标值小于所述第二预测阈值的情况下，则得到所述帧级预测结果为所述音频片段的目标帧中不存在声音事件。

可选地，所述自适应窗口大小的表达式如下：S_win＝duration_avg*β，其中，S_win表示所述自适应窗口大小，duration_avg表示每个事件类别的平均持续时间，β表示预定参数。

可选地，在基于自适应窗口大小的滤波器对所述片段级预测结果和/或所述帧级预测结果进行后处理，得到最终检测结果，所述方法还包括：将所述最终检测结果中小于或者等于预设置信度的检测结果进行人工标注，得到标注结果；基于Fisher准则将所述标注结果与所述最终检测结果进行整合，并计算出新的注意力权值；根据所述新的注意力权值调整所述目标卷积神经网络模型。

根据本发明实施例的另一个方面，还提供了一种声音事件检测装置，包括：第一处理单元，用于获取每个音频片段的梅尔特征图谱，并从所述梅尔特征图谱提取特征向量输入目标卷积神经网络模型，其中，每个所述音频片段划分为等长的T帧，所述目标卷积神经网络模型是基于半监督学习使用多个音频片段的无标注数据与弱标注数据分别训练第一卷积神经网络模型和第二卷积神经网络模型而得到的；第二处理单元，用于基于特征编码器将所述特征向量转换成高级特征表示，其中，所述高级特征表示如下：X＝{x₁,…,x_T}，其中，T表示所述音频片段的帧数，X中第t帧对应的高级特征表示为x_t，t∈[1,T],x_t的维度为c，c表示声音事件的种类数；第三处理单元，用于基于嵌入级注意力层获取注意力向量，其中，所述注意力向量为每种声音事件类别的X中对应的x_t赋予不同的权重；第四处理单元，用于获取每种声音事件类别的上下文表示，其中，所述上下文表示为每一帧的高级特征表示与相应权重的乘积；第五处理单元，用于将所述上下文表示输入分类器，得到片段级预测概率，并根据所述片段级预测概率确定片段级预测结果；第六处理单元，用于根据所述片段级预测结果与帧级预测概率，确定帧级预测结果；第七处理单元，用于基于自适应窗口大小的滤波器对所述片段级预测结果和/或所述帧级预测结果进行后处理，得到最终检测结果。

根据本发明实施例的另一个方面，还提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行上述中任一项所述的方法步骤。

根据本发明实施例的另一个方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述中任一项所述的方法步骤。

在本发明实施例中，采用获取每个音频片段的梅尔特征图谱，并从梅尔特征图谱提取特征向量输入目标卷积神经网络模型，其中，每个音频片段划分为等长的T帧，目标卷积神经网络模型是基于半监督学习使用多个音频片段的无标注数据与弱标注数据分别训练第一卷积神经网络模型和第二卷积神经网络模型而得到的；基于特征编码器将特征向量转换成高级特征表示，其中，高级特征表示如下：X＝{x₁,…,x_T}，其中，T表示音频片段的帧数，X中第t帧对应的高级特征表示为x_t，t∈[1,T]，x_t的维度为c，c表示声音事件的种类数；基于嵌入级注意力层获取注意力向量，其中，注意力向量为每种声音事件类别的X中对应的x_t赋予不同的权重；获取每种声音事件类别的上下文表示，其中，上下文表示为每一帧的高级特征表示与相应权重的乘积；将上下文表示输入分类器，得到片段级预测概率，并根据片段级预测概率确定片段级预测结果；根据片段级预测结果与帧级预测概率，确定帧级预测结果；基于自适应窗口大小的滤波器对片段级预测结果和/或帧级预测结果进行后处理，得到最终检测结果。也就是说，本发明实施例采用目标卷积神经网络模型进行声音事件检测，并通过半监督学习来提高两个卷积神经网络模型交替学习的能力，使用自适应窗口大小的滤波器对目标卷积神经网络模型的输出预测概率结果进行后处理，从而最终检测结果，进而解决了相关技术中的声音事件检测方法在复杂应用场景中检测效果不佳的技术问题，达到了提高面对复杂问题和变化环境时的灵活性、自适应性及检测准确率技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例提供的声音事件检测方法的流程图；

图2为本发明实施例提供的人机协作声音事件检测的框架图；

图3(a)为本发明实施例提供的PT-model的示意图；

图3(b)为本发明实施例提供的PS-model的示意图；

图3(c)为本发明实施例提供的CNN模块的示意图；

图4为本发明实施例提供的卷积神经网络模型的框架图；

图5为本发明实施例提供的声音事件检测装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于限定特定顺序。

根据本发明实施例的一个方面，提供了一种声音事件检测方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明实施例提供的声音事件检测方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取每个音频片段的梅尔特征图谱，并从梅尔特征图谱提取特征向量输入目标卷积神经网络模型，其中，每个音频片段划分为等长的T帧，目标卷积神经网络模型是基于半监督学习使用多个音频片段的无标注数据与弱标注数据分别训练第一卷积神经网络模型和第二卷积神经网络模型而得到的；

上述梅尔特征图谱可以利用傅里叶变换得到特征向量。

需要说明的是，上述第一卷积神经网络模型和第二卷积神经网络模型为不同类型的模型，两种模型中分别设置有嵌入级注意力层。可选地，第一卷积神经网络模型可以为PT-model，第二卷积神经网络模型可以为PS-model。传统的声音事件检测方法通常在一个模型中完成两个子目标，因此需要确定一个合适的压缩尺度来权衡音频标注和边界检测两个子任务的性能，这限制了系统的边界检测能力。而本发明使用两个不同的模型分别执行两个子目标。PT-model具有较大的序列采样量和较小的可训练参数，在音频标注中具有较好的性能。PS-model具有较小的序列采样量，可以看到更精细的信息，在边界检测中具有较好的性能。并使用一种端到端的半监督学习方法来交替提高两种模型的学习能力，提高了训练速度，减少了训练代价。

步骤S104，基于特征编码器将特征向量转换成高级特征表示，其中，高级特征表示如下：X＝{x₁,…,x_T}，其中，T表示音频片段的帧数，X中第t帧对应的高级特征表示为x_t，t∈[1,T]，x_t的维度为c，c表示声音事件的种类数；

步骤S106，基于嵌入级注意力层获取注意力向量，其中，注意力向量为每种声音事件类别的X中对应的x_t赋予不同的权重；

在一种可选的实施方式中，上述权重的表达式如下：

其中，a_ct表示维度为c的x_t对应的权重，

表示可训练向量，b_c表示可训练偏差，k表示X的维度。

步骤S108，获取每种声音事件类别的上下文表示，其中，上下文表示为每一帧的高级特征表示与相应权重的乘积；

在一种可选的实施方式中，上述上下文表示的表达式如下：

步骤S110，将上下文表示输入分类器，得到片段级预测概率，并根据片段级预测概率确定片段级预测结果；

在一种可选的实施方式中，根据片段级预测概率确定片段级预测结果，包括：判断片段级预测概率是否大于或者等于第一预测阈值；在片段级预测概率大于或者等于第一预测阈值的情况下，则得到片段级预测结果为音频片段存在声音事件；在片段级预测概率小于第一预测阈值的情况下，则得到片段级预测结果为音频片段不存在声音事件。

步骤S112，根据片段级预测结果与帧级预测概率，确定帧级预测结果；

在一种可选的实施方式中，根据片段级预测结果与帧级预测概率，确定帧级预测结果，包括：判断目标值是否大于或者等于第二预测阈值，其中，目标值为片段级预测结果与帧级预测概率的乘积；在目标值是否大于或者等于第二预测阈值的情况下，则得到帧级预测结果为音频片段的目标帧中存在声音事件；在目标值小于第二预测阈值的情况下，则得到帧级预测结果为音频片段的目标帧中不存在声音事件。

需要说明的是，上述第一预测阈值、第二预测阈值可以根据应用场景的需要而设置，在此不作任何限定。另外，上述帧级预测结果与片段级预测结果在存在声音事件为1或者不存在声音事件为0。

步骤S114，基于自适应窗口大小的滤波器对片段级预测结果和/或帧级预测结果进行后处理，得到最终检测结果。

在一种可选的实施方式中，上述自适应窗口大小的表达式如下：S_win＝duration_avg*β，其中，S_win表示自适应窗口大小，duration_avg表示每个事件类别的平均持续时间，β表示预定参数，该预定参数可以为0.2、0.3及0.5等。

在本发明上述实施例中，采用目标卷积神经网络模型进行声音事件检测，并通过半监督学习来提高两个卷积神经网络模型交替学习的能力，使用自适应窗口大小的滤波器对目标卷积神经网络模型的输出预测概率结果进行后处理，从而最终检测结果，进而解决了相关技术中的声音事件检测方法在复杂应用场景中检测效果不佳的技术问题，达到了提高面对复杂问题和变化环境时的灵活性、自适应性及检测准确率技术效果。

在一种可选的实施方式中，在基于自适应窗口大小的滤波器对片段级预测结果和/或帧级预测结果进行后处理，得到最终检测结果，上述方法还包括：将最终检测结果中小于或者等于预设置信度的检测结果进行人工标注，得到标注结果；基于Fisher准则将标注结果与最终检测结果进行整合，并计算出新的注意力权值；根据新的注意力权值调整目标卷积神经网络模型。

需要说明的是，传统的声音事件检测在复杂条件下有很大的局限性，考虑到机器在现实生活场景中的识别结果不能达到预期的性能，有必要充分利用人类智能对机器的识别结果进行微调，以获得更好的性能。在本发明上述实施方式中，使用人工标注一些低置信度的检测结果，再根据Fisher准则对反馈信息进行整合和计算，并对目标卷积神经网络模型模型中的参数进行微调，进一步提高了检测准确度。

下面对本发明一种可选的实施例进行详细说明。

本发明的可选实施例提供了一种基于人机协作的声音事件检测方法。通过将人类智能与机器智能相结合的方式，提高面对复杂问题和变化环境时的灵活性和自适应性。

图2为本发明实施例提供的人机协作声音事件检测的框架图，如图2所示，结合该框架图其具体过程如下：首先采用两个带有嵌入级注意层的卷积神经网络(ConvolutionalNeural Networks，CNN)模型来处理弱标注声音事件检测，利用端到端引导学习的半监督学习来提高这两种模型交替学习的能力，使用一组自适应窗口大小的滤波器对模型的输出预测概率进行后处理，并基于HTML和JavaScript技术开发一种交互式的人机交互声音事件检测注释界面，标注者从候选片段进行样本选择，最后结合机器识别和人工标注反馈的结果对模型进行调整和优化，实现人和机器的优势互补，进一步提高检测准确率。

其中，上述两种模型分别为PT-model和PS-model，使用音频片段的无标注数据与弱标注数据训练PT-model和PS-model。

图3(a)为本发明实施例提供的PT-model的示意图，如图3(a)所示，梅尔特征图谱经过归一层、CNN模块、CNN模块、池化层、dropout层、CNN模块、CNN模块、池化层、dropout层、CNN模块、CNN模块、池化层、dropout层、CNN模块、CNN模块、池化层、dropout层、CNN模块、注意力层以及聚合层，从而可以得到帧级预测概率和片段级预测概率。

图3(b)为本发明实施例提供的PS-model的示意图，如图3(b)所示，特征向量经过归一层、CNN模块、池化层、CNN模块、池化层、CNN模块、池化层、注意力层以及聚合层，从而可以得到帧级预测概率和片段级预测概率。

图3(c)为本发明实施例提供的CNN模块的示意图，如图3(c)所示，该CNN模块包括Relu激活层、归一层及CNN，其中，归一层设置在Relu激活层与CNN之间。

图4为本发明实施例提供的卷积神经网络模型的框架图，如图4所示，结合该框架图其具体步骤如下：

步骤1：获取每个输入音频片段的梅尔特征图谱，将每个音频片段分成等长的T帧，提取特征向量输入卷积神经网络模型。

步骤2：通过特征编码器将特征向量通过一系列的卷积运算转换成高级特征表示，表示方式如下：

X＝{x₁,…,x_T}

其中，T表示音频片段的帧数，假设x_T的维度为c，c即为声音事件的种类数。

步骤3：通过嵌入级注意力层获取注意力向量。表达式如下：

其中，c为高级特征表示X中向量的维数，

为可训练向量，b_c为可训练偏差。注意力向量为每种声音事件类别的X中对应的x_t赋予不同的权重，使得模型对于每一帧的处理不同。

步骤4：输入全连接层获取每种声音事件类别的上下文表示，计算方式为每一帧的高级特征表示与相应权重的乘积。

由公式可知，x_t越重要，对应的权重越高。

步骤5：将上下文表示输入分类器，得到片段级预测概率，f(X)是片段级概率，α是预测阈值，当预测概率大于等于α时，认为该片段存在某声音事件；否则认为该片段不存在该声音事件，表达式如下：

步骤6：将片段级预测结果与帧级预测概率相乘，获得帧级预测结果，f′_t(X)是帧级预测概率，β是预测概率的阈值，例如，β为0.3。

当且仅当φ_c(X)的值为1时，帧级预测结果才有可能为1。

步骤7：对帧级预测结果和/或片段级预测结果使用一组自适应窗口大小的滤波器进行后处理得到最终检测结果。后处理可以有效地滤除一些噪声，消除一些短而杂乱的输出，窗口大小的计算公式为：

S_win＝duration_avg*β

其中，duration_avg为每个事件类别的平均持续时间，β是一个参数。

步骤8：使用引导学习的半监督学习框架来使两个神经网络模型PS-model和PT-model交替学习，假设x_j为索引为j的训练输入，s_j和t_j为PS-model和PT-model对应输入x_j的片段级预测概率，y_j为弱标记输入x_j对应的真值，标签训练过程如下：

在s轮迭代之前，如果输入x_j属于弱标记数据，使用标签真值来计算损失函数更新网络权值。损失函数如下：

L_supervised＝J(y_j,s_j)+J(y_j,t_j)

这里，采用交叉熵作为损失函数J。如果x_j属于未标记数据，由于PT-model的音频标记性能优于PS-model,PS-model可以通过以下损失得到改进：

L_unsupervised＝J(φ_c(t_k),s_k)

在训练开始时，由于PS-model的性能较差，PT-model简单地使用监督损失进行更新，而PS-model则在PT-model和监督损失的指导下进行更新，以防止PS-model受PT-model产生的噪声标签的影响。经过数个阶段的训练后，PS-model在音频标记上的性能有了很大的提高，PT-model也足够稳定，可以使用无监督损失来进行微调，损失函数如下：

L′_unsupervised＝J(φ_c(s_j),t_j)

在s轮迭代之前，采用的损失函数如下：

L_before＝L_supervised+L_unsupervised

在s轮迭代之后，采用的损失函数如下：

L_before＝L_before+a·L′_unsupervised

步骤9：将一些可靠性较低的机器输出结果反馈给标注者进行人工判断和校正，基于Fisher准则将人工标注与机器输出结果整合，并利用最终反馈进行模型调整和优化。

整合的策略如下：

其中，f_i ^p和f_i ⁿ分别是该音频片段中第i个特征向量为正标记和负标记的数量总和，std()为标准差，p为正标记，n为负标记，然后根据w(i)调整注意力向量a(i)，计算出新的注意力权值y(i)为:

其中，τ为自由参数，q为固定参数，用于对w(i)和a(i)归一化的参数。

根据本发明实施例的另一个方面，还提供了一种声音事件检测装置，图5为本发明实施例提供的声音事件检测装置的示意图，如图5所示，该声音事件检测装置包括：第一处理单元502、第二处理单元504、第三处理单元506、第四处理单元508、第五处理单元510、第六处理单元512和第七处理单元514。下面对该声音事件检测装置进行详细说明。

第一处理单元502，用于获取每个音频片段的梅尔特征图谱，并从梅尔特征图谱提取特征向量输入目标卷积神经网络模型，其中，每个音频片段划分为等长的T帧，目标卷积神经网络模型是基于半监督学习使用多个音频片段的无标注数据与弱标注数据分别训练第一卷积神经网络模型和第二卷积神经网络模型而得到的；

第二处理单元504，连接至上述第一处理单元502，用于基于特征编码器将特征向量转换成高级特征表示，其中，高级特征表示如下：X＝{x₁,…,x_T}，其中，T表示音频片段的帧数，X中第t帧对应的高级特征表示为x_t，t∈[1,T],x_t的维度为c，c表示声音事件的种类数；

第三处理单元506，连接至上述第二处理单元504，用于基于嵌入级注意力层获取注意力向量，其中，注意力向量为每种声音事件类别的X中对应的x_t赋予不同的权重；

第四处理单元508，连接至上述第三处理单元506，用于获取每种声音事件类别的上下文表示，其中，上下文表示为每一帧的高级特征表示与相应权重的乘积；

第五处理单元510，连接至上述第四处理单元508，用于将上下文表示输入分类器，得到片段级预测概率，并根据片段级预测概率确定片段级预测结果；

第六处理单元512，连接至上述第五处理单元510，用于根据片段级预测结果与帧级预测概率，确定帧级预测结果；

第七处理单元514，连接至上述第六处理单元512，用于基于自适应窗口大小的滤波器对片段级预测结果和/或帧级预测结果进行后处理，得到最终检测结果。

在本发明上述实施例中，该声音事件检测装置采用目标卷积神经网络模型进行声音事件检测，并通过半监督学习来提高两个卷积神经网络模型交替学习的能力，使用自适应窗口大小的滤波器对目标卷积神经网络模型的输出预测概率结果进行后处理，从而最终检测结果，进而解决了相关技术中的声音事件检测方法在复杂应用场景中检测效果不佳的技术问题，达到了提高面对复杂问题和变化环境时的灵活性、自适应性及检测准确率技术效果。

此处需要说明的是，上述第一处理单元502、第二处理单元504、第三处理单元506、第四处理单元508、第五处理单元510、第六处理单元512和第七处理单元514对应于方法实施例中的步骤S102至S114，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述方法实施例所公开的内容。

在一种可选的实施方式中，上述权重的表达式如下：

其中，a_ct表示维度为c的x_t对应的权重，

表示可训练向量，b_c表示可训练偏差，k表示X的维度。

在一种可选的实施方式中，上述上下文表示的表达式如下：

其中，h_c表示维度为c的x_t对应的上下文表示，a_ct表示维度为c的x_t对应的权重，t∈[1,T]。

在一种可选的实施方式中，上述第五处理单元510包括：第一判断子单元，用于判断片段级预测概率是否大于或者等于第一预测阈值；第一处理子单元，用于在片段级预测概率大于或者等于第一预测阈值的情况下，则得到片段级预测结果为音频片段存在声音事件；第二处理子单元，用于在片段级预测概率小于第一预测阈值的情况下，则得到片段级预测结果为音频片段不存在声音事件。

在一种可选的实施方式中，上述第六处理单元512包括：第二判断子单元，用于判断目标值是否大于或者等于第二预测阈值，其中，目标值为片段级预测结果与帧级预测概率的乘积；第三处理子单元，用于在目标值是否大于或者等于第二预测阈值的情况下，则得到帧级预测结果为音频片段的目标帧中存在声音事件；第四处理子单元，用于在目标值小于第二预测阈值的情况下，则得到帧级预测结果为音频片段的目标帧中不存在声音事件。

在一种可选的实施方式中，上述自适应窗口大小的表达式如下：S_win＝duration_avg*β，其中，S_win表示自适应窗口大小，duration_avg表示每个事件类别的平均持续时间，β表示预定参数。

在一种可选的实施方式中，上述装置还包括：第八处理单元，其中，该第八处理单元包括：第五处理子单元，用于在基于自适应窗口大小的滤波器对片段级预测结果和/或帧级预测结果进行后处理，得到最终检测结果，将最终检测结果中小于或者等于预设置信度的检测结果进行人工标注，得到标注结果；第六处理子单元，用于基于Fisher准则将标注结果与最终检测结果进行整合，并计算出新的注意力权值；根据新的注意力权值调整目标卷积神经网络模型。

根据本发明实施例的另一个方面，还提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行上述中任一项的方法步骤。

根据本发明实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述中任一项的方法步骤。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种声音事件检测方法，其特征在于，包括：

获取每个音频片段的梅尔特征图谱，并从所述梅尔特征图谱提取特征向量输入目标卷积神经网络模型，其中，每个所述音频片段划分为等长的T帧，所述目标卷积神经网络模型是基于半监督学习使用多个音频片段的无标注数据与弱标注数据分别训练第一卷积神经网络模型和第二卷积神经网络模型而得到的；

基于特征编码器将所述特征向量转换成高级特征表示，其中，所述高级特征表示如下：

X＝{x₁,…,x_T}

其中，T表示所述音频片段的帧数，X中第t帧对应的高级特征表示为x_t，t∈[1,T],x_t的维度为c，c表示声音事件的种类数；

基于嵌入级注意力层获取注意力向量，其中，所述注意力向量为每种声音事件类别的X中对应的x_t赋予不同的权重；

获取每种声音事件类别的上下文表示，其中，所述上下文表示为每一帧的高级特征表示与相应权重的乘积；

将所述上下文表示输入分类器，得到片段级预测概率，并根据所述片段级预测概率确定片段级预测结果；

根据所述片段级预测结果与帧级预测概率，确定帧级预测结果；

基于自适应窗口大小的滤波器对所述片段级预测结果和/或所述帧级预测结果进行后处理，得到最终检测结果。

2.根据权利要求1所述的方法，其特征在于，所述权重的表达式如下：

其中，a_ct表示维度为c的x_t对应的权重，

表示可训练向量，b_c表示可训练偏差，k表示X的维度。

3.根据权利要求1所述的方法，其特征在于，所述上下文表示的表达式如下：

4.根据权利要求1所述的方法，其特征在于，根据所述片段级预测概率确定片段级预测结果，包括：

判断所述片段级预测概率是否大于或者等于第一预测阈值；

在所述片段级预测概率大于或者等于所述第一预测阈值的情况下，则得到所述片段级预测结果为所述音频片段存在声音事件；

在所述片段级预测概率小于所述第一预测阈值的情况下，则得到所述片段级预测结果为所述音频片段不存在声音事件。

5.根据权利要求1所述的方法，其特征在于，根据所述片段级预测结果与帧级预测概率，确定帧级预测结果，包括：

判断目标值是否大于或者等于第二预测阈值，其中，所述目标值为所述片段级预测结果与帧级预测概率的乘积；

在所述目标值是否大于或者等于所述第二预测阈值的情况下，则得到所述帧级预测结果为所述音频片段的目标帧中存在声音事件；

在所述目标值小于所述第二预测阈值的情况下，则得到所述帧级预测结果为所述音频片段的目标帧中不存在声音事件。

6.根据权利要求1所述的方法，其特征在于，所述自适应窗口大小的表达式如下：

S_win＝duration_avg*β

其中，S_win表示所述自适应窗口大小，duration_avg表示每个事件类别的平均持续时间，β表示预定参数。

7.根据权利要求1至6中任一项所述的方法，其特征在于，在基于自适应窗口大小的滤波器对所述片段级预测结果和/或所述帧级预测结果进行后处理，得到最终检测结果，所述方法还包括：

将所述最终检测结果中小于或者等于预设置信度的检测结果进行人工标注，得到标注结果；

基于Fisher准则将所述标注结果与所述最终检测结果进行整合，并计算出新的注意力权值；

根据所述新的注意力权值调整所述目标卷积神经网络模型。

8.一种声音事件检测装置，其特征在于，包括：

第一处理单元，用于获取每个音频片段的梅尔特征图谱，并从所述梅尔特征图谱提取特征向量输入目标卷积神经网络模型，其中，每个所述音频片段划分为等长的T帧，所述目标卷积神经网络模型是基于半监督学习使用多个音频片段的无标注数据与弱标注数据分别训练第一卷积神经网络模型和第二卷积神经网络模型而得到的；

第二处理单元，用于基于特征编码器将所述特征向量转换成高级特征表示，其中，所述高级特征表示如下：

X＝{x₁,…,x_T}

第三处理单元，用于基于嵌入级注意力层获取注意力向量，其中，所述注意力向量为每种声音事件类别的X中对应的x_t赋予不同的权重；

第四处理单元，用于获取每种声音事件类别的上下文表示，其中，所述上下文表示为每一帧的高级特征表示与相应权重的乘积；

第五处理单元，用于将所述上下文表示输入分类器，得到片段级预测概率，并根据所述片段级预测概率确定片段级预测结果；

第六处理单元，用于根据所述片段级预测结果与帧级预测概率，确定帧级预测结果；

第七处理单元，用于基于自适应窗口大小的滤波器对所述片段级预测结果和/或所述帧级预测结果进行后处理，得到最终检测结果。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1至7中任一项所述的方法步骤。

10.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任一项所述的方法步骤。