CN113724740B

CN113724740B - 音频事件检测模型训练方法及装置

Info

Publication number: CN113724740B
Application number: CN202111005905.4A
Authority: CN
Inventors: 张鹏远; 刘钰卓; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2024-03-08
Anticipated expiration: 2041-08-30
Also published as: CN113724740A

Abstract

本发明涉及音频检测技术领域，提供了一种音频事件检测模型训练方法及装置，方法包括：对大师模型、教师模型、学生模型进行多次迭代，将满足迭代结束条件的学生模型作为音频事件检测模型；其中，在每次迭代中，对大师和教师模型的输出动态校正，为无标注数据生成伪标签；利用音频事件标签、大师模型的输出、老师模型的输出，迭代教师模型；根据教师模型参数更新大师模型的参数；用音频事件标签和伪标签迭代学生模型。本实施例的技术方案，通过大师模型和教师模型的模型参数的循环提升以及大师模型的输出对教师模型的输出的动态校正，可以提高无标注样本的利用效率，提升伪标签的正确率，从而提升音频事件检测的准确性。

Description

音频事件检测模型训练方法及装置

技术领域

本发明涉及音频检测技术领域，尤其涉及音频事件检测模型训练方法及装置。

背景技术

音频事件检测是从一段连续音频中检测出是否有某种音频事件发生。

目前，通过标注样本进行教师模型训练，使用训练好的教师模型获取无标注样本的标签，通过无标注样本的标签进行学生模型的训练，使用训练好的学生模型进行音频事件检测。

但是，标注样本往往获取困难且花费高昂，在标注样本数量较少的情况下训练好的模型的模型精度可能较低，从而导致音频事件检测的准确性较低。

发明内容

本实施例提供了一种音频事件检测模型训练方法、装置、计算机可读存储介质及电子设备，通过大师模型和教师模型的模型参数的循环提升以及大师模型的输出对教师模型的输出的动态校正，可以提高无标注样本的利用效率，提升伪标签的正确率，从而提升音频事件检测的准确性。

第一方面，本实施例提供了一种音频事件检测模型训练方法，包括：

对于用于音频事件检测的多个训练样本中的每个训练样本，确定训练样本的三个训练特征；其中，所述训练样本为无标注样本或标注有音频事件标签的标注样本；所述三个训练特征均为所述训练样本的声学特征；所述多个训练样本划分为K个训练样本集，所述K个训练样本集各集均包括所述无标注样本和所述标注样本，所述K为大于等于1的正整数；

对大师模型、教师模型、学生模型进行多次迭代，基于满足迭代结束条件的学生模型作为音频事件检测模型进行音频事件检测；其中，大师模型和教师模型的模型结构相同；多次迭代包括M个训练周期，M个训练周期各周期均包括分别与K个训练样本集一一对应的K次迭代，K次迭代中每次迭代对应的训练样本集中训练样本的三个训练特征分别作为大师模型、教师模型、学生模型的输入；多次迭代中的每次迭代包括：

根据大师模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率，对教师模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率进行修正，确定本次迭代对应的无标注样本的伪标签；

根据学生模型基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签、本次迭代对应的无标注样本的伪标签，调整学生模型上次迭代的模型参数，确定学生模型本次迭代的模型参数；

根据大师模型和教师模型各自基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签，调整教师模型上次迭代的模型参数，确定教师模型本次迭代的模型参数；

基于教师模型本次迭代和之前迭代的模型参数，确定大师模型本次迭代的模型参数。

第二方面，本实施例提供了一种音频事件检测模型训练装置，包括：

训练模块，用于对大师模型、教师模型、学生模型进行多次迭代，基于满足迭代结束条件的学生模型作为音频事件检测模型进行音频事件检测；其中，大师模型和教师模型的模型结构相同；多次迭代包括M个训练周期，M个训练周期各周期均包括分别与K个训练样本集一一对应的K次迭代，K次迭代中每次迭代对应的训练样本集中训练样本的三个训练特征分别作为大师模型、教师模型、学生模型的输入；多次迭代中的每次迭代包括：

第三方面，本实施例提供了一种计算机可读存储介质，包括执行指令，当电子设备的处理器执行执行指令时，处理器执行如第一方面中任一的方法。

第四方面，本实施例提供了一种电子设备，包括处理器以及存储有执行指令的存储器，当处理器执行存储器存储的执行指令时，处理器执行如第一方面中任一的方法。

上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

为了更清楚地说明本实施例或现有的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例提供的一种音频事件检测模型训练方法的流程示意图；

图2为本实施例提供的一种大师模型、教师模型和学生模型的结构示意图；

图3为本实施例提供的一种每次迭代的大师模型、教师模型和学生模型的训练方法的流程示意图；

图4为本实施例提供的一种音频事件检测模型训练装置的结构示意图；

图5为本实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本实施例提供的一种音频事件检测模型训练方法。本实施例所提供的方法可应用在电子设备上，具体可以应用于服务器或一般计算机上。本实施例中，方法具体包括以下步骤：

如图1，本实施例提供了一种音频事件检测模型训练方法，包括如下各个步骤：

步骤101、对于用于音频事件检测的多个训练样本中的每个训练样本，确定训练样本的三个训练特征；其中，训练样本为无标注样本或标注有音频事件标签的标注样本；三个训练特征均为训练样本的声学特征；多个训练样本划分为K个训练样本集，K个训练样本集各集均包括无标注样本和标注样本，K为大于等于1的正整数。

首先，采集多个音频数据，可以通过专业人员对多个音频数据中的部分音频数据进行标注处理，得到部分带有人工标签的音频数据。其中，该人工标签指示了音频数据对应的一个或多个音频事件，可以理解为音频事件标签。其中，音频事件可以理解为各种各样的声音，比如，猫叫，狗叫，下雨声，音乐声，人声，敲桌子声等各种各样的声音。需要说明的是，上述音频事件仅仅作为示例，并不构成具体限定，可以进行减少或增加，具体需要基于实际需求确定。其中，音频数据可以理解为采集的音频信号，也可以理解为一定时段的音频事件的时频谱。

然后，对每个音频数据进行相同的特征提取处理，以确定每个音频数据各自对应的声音特征。具体可通过如下方式确定音频数据对应的特征向量：

对音频数据分别分帧加窗，以得到多帧音频数据；对于每帧音频数据，对该音频数据进行特征向量提取，确定该帧音频数据对应的特征值；基于该帧音频数据对应的特征值形成音频数据对应的特征向量。

示例地，特征向量可以为对数梅尔能量谱特征向量。则可通过如下实现方式确定每帧音频数据各自对应的特征值：

对于每帧音频数据，对该帧音频数据进行傅里叶变换以得到能量谱；通过梅尔滤波器对能量谱进行处理得到梅尔滤波器能量谱，对梅尔滤波器能量谱取对数得到对数能量；通过多个梅尔滤波器各自的对数能量形成该帧的特征值。对应的，音频数据对应的特征向量的特征维度为T×F，其中T为帧数，由窗长和窗移决定，F为频点数，由梅尔滤波器的数量决定，换言之，有几个梅尔滤波器就有几个频点数。

需要说明的是，对于分帧加窗，考虑到音频数据具有短时平稳性，10毫秒至30毫秒范围内都可以认为音频数据是稳定的，一般以不少于20毫秒为一帧，即帧长大于20毫秒小于30毫秒，考虑到分帧后每一帧的起始段和末尾端会出现不连续的地方，所以分帧越多与原始信号的误差也就越大，为了使分帧后的信号变得连续，前一帧与后一帧存在重叠区域，重叠区域即为帧移长度，帧移长度和帧长的比值一般为1/2，从而避免相邻两帧的变化过大。需要说明的是，本实施例对加窗分帧过程中的窗函数不做限定，可以是现有技术中的窗函数，比如矩形窗、三角窗、汉宁窗、海明窗或者高斯窗，具体需要结合实际需求确定。

举例来说，声音信号为x(I)，对x(I)进行加窗分帧处理后得到的第i帧信号为x_i(m)，x_i(m)满足如下公式：

x_i(m)＝w(m)x(i+m) 0≤m≤N-1

其中，i＝0、1T、2T、……，N表征帧长，T表征帧移长度，w(m)表征窗函数。

为了便于描述，将每个音频数据分别称为训练样本，对于任意一个训练样本，为了便于区别有无标注，该样本可以为无标注样本或者标注有音频事件标签的标注样本。

为了降低参数更新时候的误差，收敛更加稳定，以及进行有效的梯度计算。作为一种可行的实现方式，采用分批训练的方式进行模型训练。其中，批次的次数需要结合多个训练样本的样本量以及每个批次的样本量确定。需要说明的是，对多个训练样本中的所有样本完成一次训练需要的迭代次数为批次的次数。

其次，基于多个训练样本中的标注样本和无标注样本的样本量的比值，对多个训练样本进行分组，确定K个训练样本集。为了确保模型精度，优选地，对于K个训练样本集中的各样本，该训练样本集中的标注样本和无标注样本的样本量的比值，与多个训练样本中的标注样本和无标注样本的样本量的比值相同。

最后，对于每个训练样本，确定训练样本对应的三个训练特征。

作为一种可能的情况，训练样本对应的三个训练特征是相同。对应的，训练特征为按照上述方式特征提取的方式确定的特征向量。

作为一种可能的情况，训练样本对应的三个训练特征是不同的。对应的，按照上述方式确定训练样本的特征向量，对特征向量进行三次方法相同参数不同的三次数据增强以得到三个训练特征。示例地，数据增强方法可以为加入不同强度的高斯噪声。在一些可能的情况，参数可以为0，即实际并没有进行数据增强。

需要说明的是，特征向量为声学特征，增强后的特征向量也是声学特征。

步骤102、对大师模型、教师模型、学生模型进行多次迭代，基于满足迭代结束条件的学生模型作为音频事件检测模型进行音频事件检测；其中，大师模型和教师模型的模型结构相同；多次迭代包括M个训练周期，M个训练周期各周期均包括分别与K个训练样本集一一对应的K次迭代，K次迭代中每次迭代对应的训练样本集中训练样本的三个训练特征分别作为大师模型、教师模型、学生模型的输入。

本步骤中，可以预先设置用于确定无标注样本的伪标签的大师模型和教师模型。通过大师模型对教师模型的输出进行修正，同时通过教师模型的模型参数确定大师模型的模型参数，一方面可以提高无标注样本的利用效率，提升伪标签的正确率，另一方面大师模型的模型参数从教师模型的模型参数生成，不仅相比传统教师-学生模型训练参数量保持不变，还能在一定程度上保证大师模型的鲁棒性更好，进一步提升伪标签的利用率。另外，还需要设置一个用于最终实现音频事件检测的学生模型。应当理解，大师模型、教师模型和学生模型都是音频事件检测模型。其中，伪标签可以理解为无标注样本的近似标签，用于模拟人工标注。

作为一种可行的实现方式，三个模型均由编码器、基于注意力机制的池化函数层及分类器组成。

在一个例子中，大师模型和教师模型的编码器用于输出大尺度时频域压缩后的特征，即时频域粗粒度特征，学生模型的编码器用于输出时域细粒度特征。

示例地，如图2所示，大师模型和教师模型的编码器，包含4层双层卷积神经网络模块(Double CNN)和1层单层卷积神经网络模块(CNN Block)。学生模型的编码器包含3层单层卷积神经网络模块(CNN Block)，每层模块后面接一层最大池化层(Max Pooling)。其中，每个双层卷积神经网络模块(Double CNN)由2个单层卷积神经网络模块(CNN Block)、1层最大池化层(Max Pooling)和1层随机失活(dropout)组成。每个单层神经网络模块(CNNBlock)由1层二维卷积(CNN)、批归一化(BN)、ReLU激活函数和组成。大师模型和教师模型的从下到上的9层卷积的卷积核数目为(16,16,32,32,64,64,128,128,256),前8层采用大小为(3,3)的二维卷积核，第9层采用的卷积核大小为(1,1)。4层最大池化层(Max Pooling)在时、频域的尺度分别为((5,4),(5,4),(2,2),(2,2))，由于最大池化层在时、频域的均较大，因此可以实现大尺度时频域压缩。学生模型的从下到上的3层卷积的卷积核数目均为160，前2层采用大小为(5,5)的二维卷积核，第3层采用大小为(3,3)的卷积核。3层最大池化层(Max Pooling)在时、频域的尺度均为(1,4)，由于最大池化层在时域为1，即最小，因此可以实现细粒度时域，保留时域细节信息。其中，大师模型、教师模型和学生模型的卷积步长和池化步长均为1。

在一个例子中，如图2所示，大师模型、教师模型和学生模型编码器后加入一个注意力机制的池化函数层(Attention pooling)，用于基于编码器输出的特征x生成包含全局信息的高层表征x′。示例地，注意力机制的池化函数层可将编码器输出的特征x的时域维数压缩至1，生成包含全局信息的高层表征的。比如，编码器输出的特征x为N*M的矩阵，经过注意力机制的池化函数层池化后，得到的高层表征x′为N*1的矩阵。在实际应用中，对编码器输出的特征x，可基于注意力机制进行训练得到对应权重w对特征x进行时域池化。通过如下公式(1)进行池化：

其中，权重w对池化核进行线性变换，以得到查询向量矩阵、键向量矩阵以及值向量矩阵。这里，线性变换包括将池化核乘于第一权值矩阵以得到查询向量矩阵、将池化核乘于第二权值矩阵以得到键向量矩阵以及将池化核乘于第三权值矩阵以得到值向量矩阵；然后，通过如下公式(2)计算权重w：

其中，Q表示查询向量矩阵；K表示键向量矩阵；V表示值向量矩阵；d_k表示池化核的列的维度；T表示转置；Softmax表示归一化指数函数，用于将数据映射到(0,1)区间内。

在一个例子中，如图2所示，大师模型、教师模型和学生模型高层表征x′后加入一个线性分类器(Dense)输出粗粒度检测结果P_M,P_T和P_S。其中，粗粒度检测结果即粗粒度音频事件概率，指示了多个预设音频事件各自的概率，用于从整体上反映音频事件。示例地，多个预设音频事件有c个，则粗粒度检测结果的维度为1*c。粗粒度检测结果只能用于音频事件展示，无法用来计算音频事件发生时间等更为具体的信息。另外，线性分类器的节点数量可以为图2所示的10，即Dense(10)。

在一个例子中，如图2所示，在学生模型编码器后在加上一个线性分类器(图中未示出)，用于生成细粒度检测结果。其中，细粒度检测结果可以理解为细粒度音频事件概率，即帧级别音频事件概率，指示了每帧对应在多个预设音频事件各自的概率。示例地，多个预设音频事件有c个，声学特征的列的维度为F，则粗粒度检测结果的维度为F*c。细粒度检测结果不仅可以用于音频事件展示，还可以用于来计算音频事件发生时间等更为具体的信息。

需要说明的是，上述模型的结构仅仅作为示例，并不构成具体限定，模型的结构可以基于实际需求确定。

作为一种可行的实现方式中，对大师模型、教师模型、学生模型进行多次迭代，基于满足迭代结束条件的学生模型作为音频事件检测模型进行音频事件检测；其中，多次迭代包括M个训练周期，M个训练周期各周期均包括分别与K个训练样本集一一对应的K次迭代，K次迭代中每次迭代对应的训练样本集中的训练样本的三个训练特征分别作为大师模型、教师模型、学生模型的输入。

为了便于区别，大师模型、教师模型、学生模型各自的输入的训练特征分别称为大师特征、老师特征、学生特征。在一个例子中，对于一个训练样本，若三个训练特征各自添加的高斯噪声的强度不同。可选地，教师特征的高斯噪声的强度最高。可选地，学生特征的高斯噪声的强度可以为0，即不添加噪声。可选地，教师特征应当为添加的高斯噪声强度一样的声学特征，学生特征和大师特征同理，此处不做过多赘述。

假设K个训练样本集中的各集均包括N个标注样本和M个无标注样本。另外，通过交叉熵计算误差。需要说明的是，本实施例并不意图对误差的计算方式进行限定，优选交叉熵的计算方式。

请参考图3，对于多次迭代中的每次迭代，包括如下步骤：

步骤301、根据大师模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率，对教师模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率进行修正，确定本次迭代对应的无标注样本的伪标签。

作为一种可行的实现方式，引入一组可训练参数α＝{α₁，α₂，...，α_c}，即校正参数，其中，c表示音频事件的类别数，从而按类别进行模型输出的校正。换言之，按类别对大师模型基于上次迭代的模型参数对本次迭代输入的大师特征进行计算输出的音频事件概率P_M，以及教师模型基于上次迭代的模型参数对本次迭代输入的教师特征进行计算输出的音频事件概率P_T进行动态校正，以生成校正音频事件概率P。具体可通过如下公式(3)计算第i个训练样本的校正音频事件概率P_i：

P_i＝α*P_Ti+(1-α)*P_Mi (3)

其中，P_Ti表示教师模型基于上次迭代的模型参数对本次迭代输入的第i个大师特征进行计算输出的概率；P_Mi表示大师模型基于上次迭代的模型参数对本次迭代输入的第i个教师特征进行计算输出的概率。其中，第i个大师特征和第i个教师特征对应的训练样本相同。

在一个例子中，对于本次迭代的每个无标注样本，通过上述公式(3)计算无标注样本对应的校正音频事件概率P＝{p₁，p₂，...，p_i，...，p_c}，基于校正音频事件概率P确定该无标注样本的伪标签T。

需要说明的是，伪标签T和音频事件标签L的表现形式是一样的。示例地，音频事件标签L为硬标签，即0-1二值标签。则对于本次迭代的音频事件样本中的每个无标注样本,将该无标注样本对应的标注样本的训练特征输入到大师模型中以得到大师模型输出的音频事件概率P_T，将该无标注样本对应的标注样本的训练特征输入到教师模型中以得到教师模型输出的音频事件概率P_M，将P_T和P_M代入上述公式(3)进行计算，以得到该无标注样本的校正音频事件概率P＝{p₁，p₂，...，p_i，...，p_c}，对该无标注样本的校正音频事件概率P＝{p₁，p₂，...，p_i，...，p_c}进行0-1二值判断，生成该无标注样本的伪标签T。具体可通过如下公式(4)对校正音频事件概率P中的每个值进行0-1二值判断：

其中，θ表示人为设定的阈值。

步骤302、根据学生模型基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签、本次迭代对应的无标注样本的伪标签，调整学生模型上次迭代的模型参数，确定学生模型本次迭代的模型参数。

作为一种可行的实现方式，基于本次迭代对应的无标注样本的伪标签、本次迭代对应的标注样本的音频事件标签L以及学生模型基于上次迭代的模型参数对本次迭代输入的学生特征进行计算输出的音频事件概率P_S，确定学生模型的目标损失值，以最小化目标损失值为目的调整学生模型上次迭代的模型参数，确定学生模型本次迭代的模型参数。

在一个例子中，基于本次迭代对应的音频事件标签L与学生模型基于上次迭代的模型参数对本次迭代输入的标注样本的训练特征进行计算输出的音频事件概率P_S计算第一交叉熵损失；具体地，通过如下公式(5)计算第一交叉熵损失：

其中，P_Si表示学生模型基于上次迭代的模型参数对本次迭代输入的第i个标注样本的训练特征的音频事件概率；L_i表示本次迭代对应的第i个标注样本的音频事件标签。

在一个例子中，计算本次迭代对应的无标注样本的伪标签T与学生模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的本次迭代的音频事件概率P_S的第二交叉熵损失；具体地，通过如下公式(6)计算第二交叉熵损失：

其中，P_Si表示学生模型基于上次迭代的模型参数对本次迭代输入的第i个无标注样本的训练特征的音频事件概率；T_i表示本次迭代对应的第i个无标注样本的伪标签。

在一个例子中，学生模型的损失值为为H(L，P_S)+H(T，P_S)。

步骤303、根据大师模型和教师模型各自基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签，调整教师模型上次迭代的模型参数，确定教师模型本次迭代的模型参数。

作为一种可行的实现方式，以大师模型基于上次迭代模型的模型参数对本次迭代输入的大师特征进行计算输出的音频事件概率P_M、教师模型基于上次迭代的模型参数对本次迭代输入的教师特征进行计算输出的音频事件概率P_T和本次迭代对应的标注样本的音频事件标签，确定目标误差值，以最小化目标误差值为目的对教师模型上次迭代的模型参数的调整，确定教师模型本次迭代的模型参数。

在一个例子中，通过本次迭代对应的标注样本的音频事件标签L与标注样本对应的校正音频事件概率P计算第一交叉熵误差。具体地，通过如下公式(7)计算第一交叉熵损失：

其中，P_i表示本次迭代的第i个标注样本的校正音频事件概率；L_i表示本次迭代的第i个标注样本的音频事件标签。

在一个例子中，计算标注样本的音频事件标签L与教师模型基于上次迭代的模型参数对本次迭代输入的标注样本的训练特征进行计算输出的音频事件概率P_T的第二交叉熵损失。具体地，通过如下公式(8)计算第二交叉熵损失：

其中，P_Ti表示教师模型基于上次迭代的模型参数对本次迭代输入的第i个标注样本的教师特征进行计算输出的音频事件概率；L_i表示本次迭代的第i个标注样本的音频事件标签。

在一个例子中，计算大师模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算所输出的音频事件概率P_M，与教师模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率P_M的第三交叉熵损失。具体地，通过如下公式(9)计算第三交叉熵损失：

其中，P_Ti表示教师模型基于上次迭代的模型参数对本次迭代输入的第i个无标注样本的教师特征进行计算输出的音频事件概率；P_Mi表示大师模型基于上次迭代的模型参数对本次迭代输入的第i个无标注样本的大师特征进行计算输出的音频事件概率。

在一个例子中，教师模型的损失值为H(L，P)+H(L，P_T)+H(P_M，P_T)。

步骤304、通过教师模型本次迭代和之前迭代的模型参数，确定大师模型本次迭代的模型参数。

在一个例子中，大师模型本次迭代的模型参数基于对教师模型本次迭代后的模型参数和大师模型上次迭代的模型参数进行指数平均确定。具体可通过如下公式(10)确定大师模型本次迭代的模型参数：

其中，表示大师模型本次迭代的模型参数；/>表示大师模型上次迭代的模型参数；/>表示教师模型本次迭代的模型参数；α表示指数平滑系数。

应当理解，由于大师模型理想上的效果是优于教师模型的，因此，本质上大师模型的更新参数是教师模型不同迭代的模型参数的指数平均值。但是，由于之前迭代的模型参数的均值即大师模型的上次迭代的模型参数，因此，只需计算教师模型本次迭代的模型参数和大师模型上次迭代的模型参数的加权平均。换言之，大师模型本次迭代的模型参数可以理解为教师模型的本次迭代和本次迭代之前每次迭代的模型参数的加权平均。

作为一种可能的实现方式，满足迭代结束条件的学生模式即为音频事件检测模型，用于音频事件检测。其中，迭代结束条件可以为迭代次数，也可以为训练周期的次数，还可以为学生模型的模型精度是否达到预设阈值。

在一个例子中，对于待检测的音频数据，确定音频数据对应的声学特征，并将该声学特征输入到音频事件检测模型，获取音频事件检测模型输出的音频事件概率；对输出的音频事件概率进行0-1二值判断后，产生音频事件检测结果。其中，音频事件检测结果可以包括多个音频事件。音频数据的处理和步骤101中的音频数据的处理方式是一样的。需要说明的是，声学特征无需进行数据增强之后的处理，只是单纯的特征提取。

示例地，音频事件概率可以为粗粒度概率，即包括预设多个音频事件的概率。

示例地，音频事件概率可以为细粒度概率，即音频事件检测模型可以输出声学特征中每帧各自的预设多个音频事件的概率。

示例地，音频事件概率可以为粗粒度概率和细粒度概率，具体需要结合实际需求确定，本实施例并不做具体限定。

通过以上技术方案可知，本实施例存在的有益效果是：

本实施例设计了大师模型和教师模型的模型参数的循环提升和以及大师模型的输出对教师模型的输出的动态校正，可以提高无标注样本的利用效率，提升伪标签的正确率，从而提升音频事件检测和标注的准确性。

基于与本发明方法实施例相同的构思，请参考图4，本实施例还提供了一种音频事件检测模型训练装置，包括：

特征获取模块401，用于对于用于音频事件检测的多个训练样本中的每个训练样本，确定训练样本的三个训练特征；其中，所述训练样本为无标注样本或标注有音频事件标签的标注样本；所述三个训练特征均为所述训练样本的声学特征；所述多个训练样本划分为K个训练样本集，所述K个训练样本集各集均包括所述无标注样本和所述标注样本，所述K为大于等于1的正整数；

迭代模块402，用于对大师模型、教师模型、学生模型进行多次迭代，基于满足迭代结束条件的学生模型作为音频事件检测模型进行音频事件检测；其中，所述大师模型和所述教师模型的模型结构相同；所述多次迭代包括M个训练周期，所述M个训练周期各周期均包括分别与所述K个训练样本集一一对应的K次迭代，所述K次迭代中每次迭代对应的训练样本集中训练样本的三个训练特征分别作为所述大师模型、教师模型、学生模型的输入；所述多次迭代中的每次迭代包括：

根据所述大师模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率，对所述教师模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率进行修正，确定本次迭代对应的无标注样本的伪标签；

根据所述学生模型基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签、所述本次迭代对应的无标注样本的伪标签，调整所述学生模型上次迭代的模型参数，确定所述学生模型本次迭代的模型参数；

根据所述大师模型和所述教师模型各自基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签，调整所述教师模型上次迭代的模型参数，确定所述教师模型本次迭代的模型参数；

基于所述教师模型本次迭代和之前迭代的模型参数，确定所述大师模型本次迭代的模型参数。

本实施例中，所述迭代模块402，包括：第一计算单元、第二计算单元、第三计算单元以及第一调整单元；其中，

所述第一计算单元，用于根据所述教师模型基于上次迭代的模型参数对本次迭代输入的标注样本的训练特征进行计算输出的音频事件概率和本次迭代对应的标注样本的音频事件标签，计算第一误差值；

所述第二计算单元，用于根据所述大师模型和所述教师模型各自基于上次迭代的模型参数对本次迭代输入的标注样本的训练特征进行计算输出的音频事件概率、预设校正参数、本次迭代对应的标注样本的音频事件标签，计算第二误差值；

所述第三计算单元，用于根据所述大师模型和所述教师模型各自基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率、预设校正参数，确定第三误差值；

所述第一调整单元，用于根据所述第一误差值、所述第二误差值和所述第三误差值，确定第一目标误差值，以最小化所述第一目标误差值作为目的，对所述教师模型上次迭代的模型参数进行调整。

本实施例中，所述迭代模块402，包括：第四计算单元、第五计算单元、以及第二调整单元；其中，

所述第四计算单元，用于根据所述学生模型基于上次迭代的模型参数对本次迭代输入的标注样本的训练特征进行计算输出的音频事件概率和本次迭代对应的标注样本的音频事件标签，计算第四误差值；

所述第五计算单元，用于基于所述学生模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率和本次迭代对应的无标注样本的伪标签，计算第五误差值；

所述第二调整单元，用于通过所述第四误差值和所述第五误差值，确定第二目标误差值，以最小化所述第二目标误差值作为目的，对所述学生模型上次迭代的模型参数进行调整。

本实施例中，所述训练样本的三个训练特征为对所述训练样本进行声学特征提取的结果进行三次数据增强后的三个声学特征。

本实施例中，所述大师模型和所述教师模型均包括第一编码器、基于注意力的第一池化函数层及第一分类器；其中，所述第一编码器用于生成时域粗粒度特征，所述第一池化函数层用于对所述第一编码器的输出进行计算生成包含全局信息的高层表征，所述第一分类器用于基于所述第一池化函数层的输出进行粗粒度的音频事件分类，以输出音频事件概率；

所述学生模型包括第二编码器、基于注意力的第二池化函数层、第二分类器；其中，所述第二编码器用于生成时域细粒度特征；所述第二池化函数层用于对所述第二编码器的输出进行计算生成包含全局信息的高层表征；所述第二分类器用于基于所述第二池化函数层的输出进行粗粒度的音频事件分类，以输出音频事件概率。

本实施例中，所述学生模型还包括：

第三分类器，用于基于所述第二编码器的输出进行细粒度的音频事件分类，以输出细粒度音频事件概率。

本实施例中，所述第一编码器包含4层双层卷积神经网络模块和1层单层卷积神经网络模块；所述第二编码器包含3层单层卷积神经网络模块以及3层单层卷积神经网络模块各自连接的1层最大池化层；其中，所述双层卷积神经网络模块由2个单层卷积神经网络模块、1层最大池化层和1层随机失活层组成；所述单层神经网络模块由1层二维卷积、批归一化和ReLU激活函数组成。

本实施例中，所述第一池化函数层和所述第二池化函数层生成的高层表征的时域维度均为1。

本实施例中，所述K个训练样本集中各集的标注样本和无标注样本的数据量的比值，与所述多个训练样本中的标注样本和无标注样本的数据量的比值相同。

本实施例中，所述伪标签和所述音频事件标签的表现形式相同。

本实施例中，所述训练特征为对数梅尔能量谱声学特征。

本实施例中，所述大师模型本次迭代的模型参数基于对所述大师模型本次迭代的模型参数和所述大师模型上次迭代的模型参数指数平滑得到。

图5是本实施例提供的一种电子设备的结构示意图。在硬件层面，该电子设备包括处理器501以及存储有执行指令的存储器502，可选地还包括内部总线503及网络接口504。其中，存储器502可能包含内存5021，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器5022(non-volatile memory)，例如至少1个磁盘存储器等；处理器501、网络接口504和存储器502可以通过内部总线503相互连接，该内部总线503可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等；内部总线503可以分为地址总线、数据总线、控制总线等，为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。当然，该电子设备还可能包括其他业务所需要的硬件。当处理器501执行存储器502存储的执行指令时，处理器501执行本发明任意一个实施例中的方法，并至少用于执行如图1所示的方法。

在一种可能实现的方式中，处理器从非易失性存储器中读取对应的执行指令到内存中然后运行，也可从其它设备上获取相应的执行指令，以在逻辑层面上形成一种音频事件检测模型训练装置。处理器执行存储器所存放的执行指令，以通过执行的执行指令实现本发明任实施例中提供的一种音频事件检测模型训练方法。

处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本实施例还提供了一种计算机可读存储介质，包括执行指令，当电子设备的处理器执行执行指令时，所述处理器执行本发明任意一个实施例中提供的方法。该电子设备具体可以是如图5所示的电子设备；执行指令是一种音频事件检测模型训练装置所对应计算机程序。

本领域内的技术人员应明白，本发明的实施例可提供为方法或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或软件和硬件相结合的形式。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种音频事件检测模型训练方法，其特征在于，包括：

对大师模型、教师模型、学生模型进行多次迭代，基于满足迭代结束条件的学生模型作为音频事件检测模型进行音频事件检测；其中，所述大师模型和所述教师模型的模型结构相同；所述多次迭代包括M个训练周期，所述M个训练周期各周期均包括分别与所述K个训练样本集一一对应的K次迭代，所述K次迭代中每次迭代对应的训练样本集中训练样本的三个训练特征分别作为所述大师模型、教师模型、学生模型的输入；所述多次迭代中的每次迭代包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述大师模型和所述教师模型各自基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签，调整所述教师模型上次迭代的模型参数，包括：

根据所述教师模型基于上次迭代的模型参数对本次迭代输入的标注样本的训练特征进行计算输出的音频事件概率和本次迭代对应的标注样本的音频事件标签，计算第一误差值；

根据所述大师模型和所述教师模型各自基于上次迭代的模型参数对本次迭代输入的标注样本的训练特征进行计算输出的音频事件概率、预设校正参数、本次迭代对应的标注样本的音频事件标签，计算第二误差值；

根据所述大师模型和所述教师模型各自基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率、预设校正参数，确定第三误差值；

根据所述第一误差值、所述第二误差值和所述第三误差值，确定第一目标误差值，以最小化所述第一目标误差值作为目的，对所述教师模型上次迭代的模型参数进行调整。

3.根据权利要求1所述的方法，其特征在于，所述根据所述学生模型基于上次迭代的模型参数对本次迭代输入的训练特征进行计算输出的音频事件概率、本次迭代对应的标注样本的音频事件标签、所述本次迭代对应的无标注样本的伪标签，调整所述学生模型上次迭代的模型参数，包括：

根据所述学生模型基于上次迭代的模型参数对本次迭代输入的标注样本的训练特征进行计算输出的音频事件概率和本次迭代对应的标注样本的音频事件标签，计算第四误差值；

基于所述学生模型基于上次迭代的模型参数对本次迭代输入的无标注样本的训练特征进行计算输出的音频事件概率和本次迭代对应的无标注样本的伪标签，计算第五误差值；

通过所述第四误差值和所述第五误差值，确定第二目标误差值，以最小化所述第二目标误差值作为目的，对所述学生模型上次迭代的模型参数进行调整。

4.根据权利要求1所述的方法，其特征在于，所述训练样本的三个训练特征为对所述训练样本进行声学特征提取的结果进行三次数据增强后的三个声学特征。

5.根据权利要求1所述的方法，其特征在于，所述大师模型和所述教师模型均包括第一编码器、基于注意力的第一池化函数层及第一分类器；其中，所述第一编码器用于生成时域粗粒度特征，所述第一池化函数层用于对所述第一编码器的输出进行计算生成包含全局信息的高层表征，所述第一分类器用于基于所述第一池化函数层的输出进行粗粒度的音频事件分类，以输出音频事件概率；

6.根据权利要求5所述的方法，其特征在于，所述学生模型还包括：

7.根据权利要求5所述的方法，其特征在于，所述第一编码器包含4层双层卷积神经网络模块和1层单层卷积神经网络模块；

所述第二编码器包含3层单层卷积神经网络模块以及3层单层卷积神经网络模块各自连接的1层最大池化层；

其中，所述双层卷积神经网络模块由2个单层卷积神经网络模块、1层最大池化层和1层随机失活层组成；所述单层卷积神经网络模块由1层二维卷积、批归一化和ReLU激活函数组成。

8.根据权利要求5所述的方法，其特征在于，所述第一池化函数层和所述第二池化函数层生成的高层表征的时域维度均为1。

9.根据权利要求1所述的方法，其特征在于，所述K个训练样本集中各集的标注样本和无标注样本的数据量的比值，与所述多个训练样本中的标注样本和无标注样本的数据量的比值相同；

所述伪标签和所述音频事件标签的表现形式相同；

所述训练特征为对数梅尔能量谱声学特征；

所述大师模型本次迭代的模型参数基于对所述大师模型本次迭代的模型参数和所述大师模型上次迭代的模型参数指数平滑得到。

10.一种音频事件检测模型训练装置，其特征在于，包括：

特征获取模块，用于对于用于音频事件检测的多个训练样本中的每个训练样本，确定训练样本的三个训练特征；其中，所述训练样本为无标注样本或标注有音频事件标签的标注样本；所述三个训练特征均为所述训练样本的声学特征；所述多个训练样本划分为K个训练样本集，所述K个训练样本集各集均包括所述无标注样本和所述标注样本，所述K为大于等于1的正整数；

训练模块，用于对大师模型、教师模型、学生模型进行多次迭代，基于满足迭代结束条件的学生模型作为音频事件检测模型进行音频事件检测；其中，所述大师模型和所述教师模型的模型结构相同；所述多次迭代包括M个训练周期，所述M个训练周期各周期均包括分别与所述K个训练样本集一一对应的K次迭代，所述K次迭代中每次迭代对应的训练样本集中训练样本的三个训练特征分别作为所述大师模型、教师模型、学生模型的输入；所述多次迭代中的每次迭代包括：