CN113205820B

CN113205820B - 一种用于声音事件检测的声音编码器的生成方法

Info

Publication number: CN113205820B
Application number: CN202110434588.1A
Authority: CN
Inventors: 任延珍; 刘武洋; 何佳庆; 王丽娜
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2022-05-13
Anticipated expiration: 2041-04-22
Also published as: CN113205820A

Abstract

本发明提供了一种用于声音事件检测的声音编码器的生成方法，包括：对第一训练集中的无标签的预训练音频信号进行失真处理，得到失真训练信号；将失真训练信号输入初始声音编码器，得到第一特征向量；基于预训练音频信号和感知机集合，确定第二特征向量；基于第一特征向量和第二特征向量修改初始声音编码器的参数，得到候选声音编码器；通过第二训练集中有标签的微调音频信号对候选声音编码器进行训练，得到目标声音编码器。本发明通过无标签的预训练音频信号对初始声音编码器进行预训练得到候选声音编码器，再通过有标签的微调音频信号对候选声音编码器进行微调，减少训练过程中对强标签样本的依赖，通过失真处理提升了声音编码器的鲁棒性。

Description

一种用于声音事件检测的声音编码器的生成方法

技术领域

本申请涉及声音事件检测领域，特别是涉及一种用于声音事件检测的声音编码器的生成方法。

背景技术

声音承载了大量日常环境中物理时间的信息，通过声音可以感知所处环境，例如，街道、办公室等，也可以识别单个声源，例如，汽车引擎声、脚步声等。自动提取声音事件信息的方法在城市安防中有巨大的应用潜力，例如，利用声音事件信息识别环境中的活动，利用声音事件信息对敏感事件进行报警，根据城市范围内的声音事件信息构建城市声谱地图，根据声音事件信息搜索监控视频等。

通过声音事件检测任务(Sound Event Detection，SED)可以确定声音事件，SED包括两个子任务，分别是音频标记和边界检测，音频标记用于识别音频片段中所有声音事件的类别，边界检测用于确定音频片段中各类声音事件发生的精确时间边界。传统的SED需要大量强标签的真实音频训练数据，强标签包括事件类别的标签和事件时间边界的标签，然而获取大量具有强标签的真实音频训练数据很困难，详细标注也需要极高成本；具有强标签的真实音频训练数据不足，会导致检测效果不理想。

因此，现有技术有待改进。

发明内容

本发明所要解决的技术问题是，现有的声音事件检测的声音编码器的生成需要大量具有强标签的真实音频训练数据，具有强标签的真实音频训练数据不足，会导致检测效果不理想。本发明提出了一种用于声音事件检测的声音编码器的生成方法，通过无标签的预训练音频信号对初始声音编码器进行预训练得到候选声音编码器，再通过有标签的微调音频信号对候选声音编码器进行微调，减少训练过程中对强标签样本的依赖，在预训练过程中采用失真训练信号进行预训练，提升了声音编码器对噪声的鲁棒性。

第一方面，本发明实施例提供了一种用于声音事件检测的声音编码器的生成方法，包括：

对第一训练集中的预训练音频信号进行失真处理，得到失真训练信号，其中，所述第一训练集包括多个无标签的预训练音频信号；

将所述失真训练信号输入初始声音编码器，得到所述预训练音频信号对应的第一特征向量；

基于所述预训练音频信号和感知机集合，确定所述预训练音频信号对应的第二特征向量；

基于所述第一特征向量和所述第二特征向量修改所述初始声音编码器的参数，并继续执行所述对第一训练集中的预训练音频信号进行失真处理，得到失真训练信号的步骤，直至满足预设训练条件，得到候选声音编码器；

通过第二训练集中的微调音频信号对所述候选声音编码器进行训练，得到目标声音编码器，其中，所述第二训练集包括多个配置有标签的微调音频信号，所述标签用于反映所述微调音频信号的类别。

作为进一步的改进技术方案，所述对第一训练集中的预训练音频信号进行失真处理，得到失真训练信号，包括：

将所述第一训练集中的预训练音频信号输入失真处理模块，通过所述失真处理模块得到所述失真训练信号，其中，所述失真处理模块配置有若干失真处理方法，每个失真处理方法均有各自分别对应的权重。

作为进一步的改进技术方案，所述基于所述预训练音频信号和感知机集合，确定所述预训练音频信号对应的第二特征向量，具体包括：

提取所述预训练音频信号对应的若干变换特征，所述若干变换特征包括：预训练音频信号的原始声音波形特征、对数功率谱特征、梅尔倒谱系数特征、Filter Bank特征、GammaTone特征和韵律特征；

将所述若干变换特征输入所述感知机集合，得到所述预训练音频信号对应的第二特征向量。

作为进一步的改进技术方案，所述通过第二训练集中的微调音频信号对所述候选声音编码器进行训练，得到目标声音编码器，具体包括：

对于所述第二训练集中每个微调音频信号，对该微调音频信号进行随机变化，得到第一随机信号和第二随机信号；

提取所述第一随机信号的特征，以得到第一输出特征向量，以及提取所述第二随机信号的特征，以得到第二输出特征向量；

基于所有第一输出特征向量和所有第二输出特征向量修改所述候选声音编码器的参数，得到目标语音编码。

作为进一步的改进技术方案，所述提取所述第一随机信号的特征，以得到第一输出特征向量，以及提取所述第二随机信号的特征，以得到第二输出特征向量，具体包括：

对于每个第一随机信号，将该第一随机信号输入所述候选声音编码器，得到该第一随机信号对应的第一随机特征向量，将该第一随机特征向量输入投影模块，得到该第一随机信号对应的第一输出特征向量；

对于每个第二随机信号，将该第二随机信号输入所述候选声音编码器，得到该第二随机信号对应的第二随机特征向量，将该第二随机特征向量输入所述投影模块，得到该第二随机信号对应的第二输出特征向量。

作为进一步的改进技术方案，所述基于所有第一输出特征向量和所有第二输出特征向量修改所述候选声音编码器的参数，具体包括：

基于所述微调音频信号的标签，将所述所有第一输出特征向量和所有第二输出特征向量划分为若干锚样本、若干正样本和若干负样本；

基于所述若干锚样本、若干正样本和若干负样本计算损失函数值，并基于所述损失函数值修改所述候选声音编码器的参数。

作为进一步的改进技术方案，所述基于所述微调音频信号的标签，将所述所有第一输出特征向量和所有第二输出特征向量划分为若干锚样本、若干正样本和若干负样本，具体包括：

在所有第一输出特征向量中随机选取若干个锚样本；

将每个锚样本对应的微调音频信号的标签作为目标标签，在所述第二训练集中确定所述目标标签对应的所有目标微调音频信号；

对于每个目标微调音频信号，将基于该目标微调音频信号得到的第一输出特征向量和第二输出特征向量作为正样本；

将所述所有第一输出特征向量和所有第二输出特征向量中除了所述锚样本和所述正样本以外的特征向量作为负样本。

第二方面，本发明还提供了一种声音事件检测方法，包括：

获取待测声音信号，并对待测声音信号进行分帧处理，以得到待测序列；

将所述待测序列输入目标声音编码器，得到所述待测序列对应的待测特征向量，其中，所述目标声音编码器是上述一种用于声音事件检测的声音编码器的生成方法中所述的目标声音编码器；

将所述待测特征向量输入分类器，得到所述待测声音信号对应的检测事件结果。

第三方面，本发明提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

通过第二训练集中的微调音频信号对所述候选声音编码器进行训练，得到目标声音编码器，其中，所述第二训练集包括多个配置有标签的微调音频信号，所述标签用于反映所述微调音频信号的类别；

或者，获取待测声音信号，并对所述待测声音信号进行分帧处理，以得到待测序列；

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

与现有技术相比，本发明实施例具有以下优点：

在本发明实施例中，对第一训练集中的预训练音频信号进行失真处理，得到失真训练信号，其中，所述第一训练集包括多个无标签的预训练音频信号；将所述失真训练信号输入初始声音编码器，得到所述预训练音频信号对应的第一特征向量；基于所述预训练音频信号和感知机集合，确定所述预训练音频信号对应的第二特征向量；基于所述第一特征向量和所述第二特征向量修改所述初始声音编码器的参数，并继续执行所述对第一训练集中的预训练音频信号进行失真处理，得到失真训练信号的步骤，直至满足预设训练条件，得到候选声音编码器；通过第二训练集中的微调音频信号对所述候选声音编码器进行训练，得到目标声音编码器，其中，所述第二训练集包括多个配置有标签的微调音频信号，所述标签用于反映所述微调音频信号的类别。本发明通过无标签的预训练音频信号对初始声音编码器进行预训练得到候选声音编码器，再通过有标签的微调音频信号对候选声音编码器进行微调，减少训练过程中对强标签样本的依赖，在预训练过程中采用失真训练信号进行预训练，提升了声音编码器对噪声的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中自监督学习算法的流程示意图；

图2为本发明实施例中一种用于声音事件检测的声音编码器的生成方法的流程示意图；

图3为本发明实施例中PASE编码器的示意图；

图4为本发明实施例中通过预训练音频信号得到第二特征向量的示意图；

图5为本发明实施例中投影模块的结构示意图；

图6为本发明实施例中一种声音事件检测方法的流程示意图；

图7为本发明实施例中一种计算机设备的内部结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发明人经过研究发现，声音承载了大量日常环境中物理事件的信息，通过声音可以感知所处环境，例如，街道、办公室等，也可以识别单个声源，例如，汽车引擎声、脚步声等。自动提取声音事件信息的方法在城市安防中有巨大的应用潜力，例如，利用声音事件信息识别环境中的活动，利用声音事件信息对敏感事件进行报警，根据城市范围内的声音事件信息构建城市声谱地图，根据声音事件信息搜索监控视频等。

通过声音事件检测任务(Sound Event Detection,SED)可以确定声音事件，SED包括两个子任务，分别是音频标记和边界检测，音频标记用于识别音频片段中所有声音事件的类别，边界检测用于确定音频片段中各类声音事件发生的精确时间边界。传统的SED需要大量强标签的真实音频训练数据，强标签包括事件类别的标签和事件时间边界的标签，然而获取大量具有强标签的真实音频训练数据很困难，详细标注也需要极高成本；具有强标签的真实音频训练数据不足，会导致检测效果不理想。同时，真实城市环境的音频数据集样本少且难以进行标注，即现有的半监督训练方法并不适用于城市环境的并发声音事件检测。

为了解决上述问题，在本发明实施例中，对第一训练集中的预训练音频信号进行失真处理，得到失真训练信号，其中，所述第一训练集包括多个无标签的预训练音频信号；将所述失真训练信号输入初始声音编码器，得到所述预训练音频信号对应的第一特征向量；基于所述预训练音频信号和感知机集合，确定所述预训练音频信号对应的第二特征向量；基于所述第一特征向量和所述第二特征向量修改所述初始声音编码器的参数，并继续执行所述对第一训练集中的预训练音频信号进行失真处理，得到失真训练信号的步骤，直至满足预设训练条件，得到候选声音编码器；通过第二训练集中的微调音频信号对所述候选声音编码器进行训练，得到目标声音编码器，其中，所述第二训练集包括多个配置有标签的微调音频信号，所述标签用于反映所述微调音频信号的类别。本发明通过无标签的预训练音频信号对初始声音编码器进行预训练得到候选声音编码器，再通过有标签的微调音频信号对候选声音编码器进行微调，减少训练过程中对强标签样本的依赖，在预训练过程中采用失真训练信号进行预训练，提升了声音编码器对噪声的鲁棒性。

本申请提供的一种用于声音事件检测的声音编码器的生成方法可以应用于电子设备中，所述电子设备可以以各种形式来实现，例如，PC机、服务器、手机、平板电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)等。另外，该方法所实现的功能可以通过电子设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，所述电子设备至少包括处理器和存储介质。

下面结合附图，详细说明本发明的各种非限制性实施方式。

为了便于理解，首先介绍自监督学习算法，自监督学习算法的框架可以分为三个环节，如图1所示，第一个环节是无监督预训练(unsupervised pre-training)，是在大规模的无标签数据集上训练特征提取网络，该网络一般具有更多的层数和参数，以获得更好的特征提取性能。通过设计恰当的预训练任务(pre-train task)，这个环节能够赋予特征提取网络区分不同类别样本的能力。第二个环节是有监督的微调(supervised fine-tuning)，指使用少量的有标签样本对第一个环节训练得到的特征提取网络进行参数微调，以期将样本类别的区分度信息注入到特征提取网络中。第三步是执行具体的下游任务(downstream task)，使用对前面两个环节训练得到的特征提取网络在无标签数据上进行具体的分类、生成等任务。

参见图2，示出了本发明实施例中的一种用于声音事件检测的声音编码器的生成方法，包括以下步骤：

S1、对第一训练集中的预训练音频信号进行失真处理，得到失真训练信号。

在本发明实施例中，所述第一训练集包括多个无标签的预训练音频信号。对第一训练集中的预训练音频信号进行失真处理，得到失真训练信号，包括：

在本发明实施例中，引入失真处理模块，失真处理模块只在自监督训练期间激活，并且是即时发生的。每个预训练音频信号通过失真处理模块，都通过不同失真处理方法被扭曲，每种失真处理方法根据权重激活，每个预训练音频信号可以同时被多个失真处理方法破坏。

失真处理模块配置的若干失真处理方法包括：混响、加性噪声、频率掩蔽、时间掩蔽、削波和重叠。其中，混响是将预训练音频信号与一组用图像方法得到的脉冲响应进行卷积来实现混响效果的引入，脉冲响应模拟了不同的声学条件，混响时间从0.3到0.9秒不等；加性噪声是从FreeSound和DIRHA数据集中提取背景噪声和非稳态噪声，如报警器、门铃、电话铃声、电视等，并叠加到预训练音频信号上，信噪比(SNR)在0～10dB之间随机选取；频率掩蔽，是通过用带通滤波器对预训练音频信号进行过滤，将预训练音频信号特定的频率分量掩蔽掉；时间掩蔽是将随机数量的连续语音帧设置为全0；削波是将预训练音频信号的波形限制在一定的范围内，将超过限定功率的部分从预训练音频信号中去掉。

在一种实现方式中，在训练过程中，根据声音编码器在下游任务上的正确率，各类失真处理方法的权重会逐渐调整，最终混响、加性噪声和频率掩蔽对模型性能的贡献最大。所述混响的权重可以是0.5，加性噪声的权重可以是0.4，频率掩蔽的权重可以是0.4，时间掩蔽的权重可以是0.2，削波的权重可以是0.2，重叠的权重可以是0.2。

S2、将所述失真训练信号输入初始声音编码器，得到所述预训练音频信号对应的第一特征向量。

在本发明实施例中，初始声音编码器可以是PASE编码器。参见图3，PASE编码器的第一层基于SincNet实现，SincNet用一组实现矩形带通滤波器的参数化sinc函数对原始输入波形进行卷积。后续各层由7个卷积块组成，每个块采用一维卷积，然后是批量归一化(BN)，以及多参数整流线性单元(PReLU)激活。这套卷积模拟了一个步长为10ms的滑动窗口，就像常见的语音特征提取器所做的那样。将失真处理模块输出的失真训练信号输入PASE编码器，得到第一特征向量，

此外，由于最终表示是中间卷积层得到的特征的总和，这些特征被线性投影和降采样，以匹配输出嵌入序列的尺寸和长度。因此，编码器架构中引入了跳层连接，将不同层次的抽象表示连接到最终表示，同时也改善了梯度流，使得训练过程更平滑和迅速。

在本发明实施例中，将失真训练信号输入初始声音编码器，所述初始声音编码器输出第一特征向量。

S3、基于所述预训练音频信号和感知机集合，确定所述预训练音频信号对应的第二特征向量。

在本发明实施例中，所述感知机集合由一系列多层感知机(Multi-LayerPerceptron,MLP)组成，其参数量被刻意限制，每个多层感知机仅由一层具有256个节点的隐藏层组成，以鼓励编码器发现即使是建模能力有限的分类器也能成功捕捉的高维特征，得到第二特征向量。具体的，步骤S3包括：

S31、提取所述预训练音频信号对应的若干变换特征，所述若干变换特征包括：预训练音频信号的原始声音波形特征、对数功率谱特征、梅尔倒谱系数特征、Filter Bank特征、GammaTone特征和韵律特征。

在本发明实施例中，将若干变换特征作为感知机集合的输入，若干变换特征包括：预训练音频信号的原始声音波形特征(Wave)，对数功率谱特征(Log power spectrum，LPS)，梅尔倒谱系数特征(Mel Frequency Cepstrum Coefficient，MFCC)，Filter Bank特征，GammaTone特征和韵律特征。Filter Bank特征是模拟人耳处理音频的方式对音频进行过滤所得特征，GammaTone特征是模拟耳蜗频率分解特点的滤波器模型。韵律特征，包括基频、过零率、清浊音和能量。

S32、将所述若干变换特征输入所述感知机集合，得到所述预训练音频信号对应的第二特征向量。

在本发明实施例中，将所述若干变换特征输入所述感知机集合，可以是，将若干变换特征作为每个多层感知机的输入项，根据每个多层感知机的输出得到第二特征向量。在一种实现方式中，所述感知机集合包括4个多层感知机。所述感知机集合中每个多层感知机的输入项是基于所述预训练音频信号得到的变换特征，而不是从失真训练信号中提取的，这样就能迫使整个网络进行隐式去噪，从而学习鲁棒的音频特征。这种训练方式不仅利用了数据增强的优势，而且还鼓励编码器进行趣造，学习在失真状态下依然保持不变的特征。所述第二特征向量和所述第一特征向量的长度和维度都相同。

参见图4，图4中的Wave是25ms窗长对应的预训练音频信号的原始声音波形特征，LPS是25ms窗长对应的对数功率谱特征，LPS LONG是200ms窗长对应的对数功率谱特征，MFCC是25ms窗长对应的梅尔倒谱系数特征，MFCC LONG是200ms窗长对应的梅尔倒谱系数特征，FBANK是25ms窗长对应的Filter Bank特征，FBANK LONG是200ms窗长对应的FilterBank特征，GAMMA是25ms窗长对应的GammaTone特征，GAMMA LONG是200ms窗长对应的GammaTone特征，PROSO是25ms窗长对应的韵律特征。将上述特征输入感知机集合，得到第二特征向量。

S4、基于所述第一特征向量和所述第二特征向量修改所述初始声音编码器的参数，并继续执行所述对第一训练集中的预训练音频信号进行失真处理，得到失真训练信号的步骤，直至满足预设训练条件，得到候选声音编码器。

在本发明实施例中，计算第一特征向量和第二特征向量之间的均方误差，通过均方误差修改初始声音编码器的参数，则完成一次对所述初始声音编码器的训练。所述预设训练条件可以是训练次数达到预设次数，或者初始声音编码器收敛，其中，预设次数可以是5000次。初始声音编码器满足预设训练条件后，得到候选声音编码器。感知机集合的训练目标是最小化第一特征向量和第二特征向量之间的均方误差，感知机集合的出发点是利用常用的语音特征，向编码器注入先验知识。

S5、通过第二训练集中的微调音频信号对所述候选声音编码器进行训练，得到目标声音编码器，其中，所述第二训练集包括多个配置有标签的微调音频信号，所述标签用于反映所述微调音频信号的类别。

在本发明实施例中，所述第二训练集中包括的是有标签的微调音频信号。步骤S5的目的在于使用少量的有标签的微调音频信号对候选声音编码器进行微调，以将足以区分类别的信息注入其中。

具体的，步骤S5包括：

S51、对于所述第二训练集中每个微调音频信号，对该微调音频信号进行随机变化，得到第一随机信号和第二随机信号。

在本发明实施例中，同时处理第二训练集中的每个微调音频信号，对于每个微调音频信号，通过随机变化得到第一随机信号和第二随机信号。所述随机变换包括：混合、时域掩蔽、频域掩蔽和频移。其中，混合是将另一个等长的随机音频信号叠加到微调音频信号上，叠加比例从贝塔分布β(5，2)中随机采样，用于模拟真实环境中的噪声情况。时域掩蔽，是从微调音频信号中随机选取时间点t₀，将连续的长度为[t₀，t₀+t)的时间段设为0。频域掩蔽是将微调音频信号通过线性滤波器组后，将连续的[f₀，f₀+f)个频段置0。f从[0，27]中随机选取，f₀从[0，v-f)中随机选取，其中v为滤波器组总数。频移是从微调音频信号的频率整体偏移[-F，F]，其中F∈[5，80]。频移后丢失的数据补0。

S52、提取所述第一随机信号的特征，以得到第一输出特征向量，以及提取所述第二随机信号的特征，以得到第二输出特征向量。

在本发明实施例中，对于每个第一随机信号，将该第一随机信号输入所述候选声音编码器，得到该第一随机信号对应的第一随机特征向量，将该第一随机特征向量输入投影模块，得到该第一随机信号对应的第一输出特征向量。

在本发明实施例中，所述投影模块是一个三层感知机，如图5所示，投影模块包括线性层、归一化层、ReLU层、线性层和归一化层。其中，线性层包含2048个节点，归一化方式为批量归一化。

S53、基于所有第一输出特征向量和所有第二输出特征向量修改所述候选声音编码器的参数，得到目标语音编码。

在本发明实施例中，由于微调语音信号是有标签的信号，基于微调音频信号的标签，可以确定每个第一输出特征向量和每个第二输出特征向量的类别，进而根据每个第一输出特征向量和每个第二输出特征向量计算损失函数值，通过损失函数修改所述候选声音编码器的参数，得到目标语音编码。

具体的，步骤S53包括：

S531、基于所述微调音频信号的标签，将所述所有第一输出特征向量和所有第二输出特征向量划分为若干锚样本、若干正样本和若干负样本。

在本发明实施例中，在所有第一输出特征向量中随机选取若干个锚样本，将每个锚样本对应的微调音频信号的标签作为目标标签，在所述第二训练集中确定所述目标标签对应的所有目标微调音频信号。对于每个目标微调音频信号，将基于该目标微调音频信号得到的第一输出特征向量和第二输出特征向量作为正样本，其中，所述正样本的类别与锚样本对应的微调音频信号属于同一类别。将所述所有第一输出特征向量和所有第二输出特征向量中除了所述锚样本和所述正样本以外的特征向量作为负样本。

例如，所有第一输出特征向量包括：x11,x12,x13，所有第二输出特征向量包括：y11,y12,y13。在所有第一输出特征向量中确定锚样本：x11，则将x11对应的微调音频信号a1的标签作为目标标签。将每个锚样本对应的微调音频信号的标签作为目标标签，在所述第二训练集中确定所述目标标签对应的所有目标微调音频信号，意思是将与a1同类的微调音频信号作为目标微调音频信号。假设，a1同类的目标微调音频信号有a2，a2对应的第一输出特征向量是x12，a2对应的第二输出特征向量是y12，同样的，a1也是目标微调音频信号，将a1对应的第一输出特征向量是x11，a1对应的第二输出特征向量是y11，则y11、x12和y12都是正样本；x13和y13是负样本。

S532、基于所述若干锚样本、若干正样本和若干负样本计算损失函数值，并基于所述损失函数值修改所述候选声音编码器的参数。

在本发明实施例中，对于一批数量为I≡{1…2N}的样本，样本包括锚样本、正样本和负样本，损失函数如公式(1)所示：

其中，i∈I表示锚样本的标号；z_i是i对应的输出特征向量，即前述投影模块的输出；点乘符号表示内积运算；τ是一个标量，表示温度参数。A(i)≡I\{i}表示除了i之外的所有样本的集合，a是I中除了锚样本以外的任意一个样本的标号，z_a表示a对应的输出特征向量；

表示正样本集合，p是正样本的标号，

表示p和i属于同一类别；|P(i)|为其基数；z_p表示正样本p对应的输出向量。

如果以样本i为锚样本，则p表示与之同类的正样本，而其他样本则为负样本。

在本发明实施例中，通过损失函数值修改所述候选声音编码器的参数则是对所述候选声音编码器进行微调，微调之后得到目标声音编码器。

基于上述一种用于声音事件检测的声音编码器的生成方法，参见图6，本发明实施例还提供了一种声音事件检测方法，包括：

M1、获取待测声音信号，并对所述待测声音信号进行分帧处理，以得到待测序列。

M2、将所述待测序列输入目标声音编码器，得到所述待测序列对应的待测特征向量，其中，所述目标声音编码器是上述一种用于声音事件检测的声音编码器的生成方法中的目标声音编码器。

M3、将所述待测特征向量输入分类器，得到所述待测声音信号对应的检测事件结果。

在本发明实施例中，通过上述一种用于声音事件检测的声音编码器的生成方法得到的目标声音编码器，可以用于执行下游的声音事件检测方法。将待测声音信号对应的待测序列输入目标声音编码器，得到待测特征向量，将待测特征向量输入分类器，得到检测事件结果。所述分类器可以是线性分类器，可以使用现有的任意一种线性分类器实现。

本发明实施例还提供了一种计算机设备，该设备可以是终端，内部结构如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用于声音事件检测的声音编码器的生成方法或一种声音事件检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7所示的仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明实施例还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种用于声音事件检测的声音编码器的生成方法，其特征在于，包括：

基于所述第一特征向量和所述第二特征向量修改所述初始声音编码器的参数，并继续执行所述对第一训练集中的预训练音频信号进行失真处理，得到失真训练信号的步骤，直至满足第一预设训练条件，得到候选声音编码器；

所述通过第二训练集中的微调音频信号对所述候选声音编码器进行训练，得到目标声音编码器，具体包括：

基于所有第一输出特征向量和所有第二输出特征向量修改所述候选声音编码器的参数，得到目标声音编码器。

2.根据权利要求1所述的用于声音事件检测的声音编码器的生成方法，其特征在于，所述对第一训练集中的预训练音频信号进行失真处理，得到失真训练信号，包括：

3.根据权利要求1所述的用于声音事件检测的声音编码器的生成方法，其特征在于，所述基于所述预训练音频信号和感知机集合，确定所述预训练音频信号对应的第二特征向量，具体包括：

4.根据权利要求1所述的用于声音事件检测的声音编码器的生成方法，其特征在于，所述提取所述第一随机信号的特征，以得到第一输出特征向量，以及提取所述第二随机信号的特征，以得到第二输出特征向量，具体包括：

5.根据权利要求1所述的用于声音事件检测的声音编码器的生成方法，其特征在于，所述基于所有第一输出特征向量和所有第二输出特征向量修改所述候选声音编码器的参数，具体包括：

6.根据权利要求5所述的用于声音事件检测的声音编码器的生成方法，其特征在于，所述基于所述微调音频信号的标签，将所述所有第一输出特征向量和所有第二输出特征向量划分为若干锚样本、若干正样本和若干负样本，具体包括：

在所有第一输出特征向量中随机选取若干个锚样本；

7.一种声音事件检测方法，其特征在于，包括：

获取待测声音信号，并对所述待测声音信号进行分帧处理，以得到待测序列；

将所述待测序列输入目标声音编码器，得到所述待测序列对应的待测特征向量，其中，所述目标声音编码器是权利要求1至6中任意一项所述的目标声音编码器；

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任意一项所述的用于声音事件检测的声音编码器的生成方法，或者权利要求7中所述的声音事件检测方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任意一项所述的用于声音事件检测的声音编码器的生成方法，或者权利要求7中所述的声音事件检测方法。