CN111859010A

CN111859010A - 一种基于深度互信息最大化的半监督音频事件识别方法

Info

Publication number: CN111859010A
Application number: CN202010661214.9A
Authority: CN
Inventors: 刘半藤; 郑启航; 王章权; 陈友荣
Original assignee: Zhejiang Shuren University
Current assignee: Zhejiang Shuren University
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-10-30
Anticipated expiration: 2040-07-10
Also published as: CN111859010B

Abstract

本发明涉及一种基于深度互信息最大化的半监督音频事件识别方法，使用半监督神经网络模型作为骨干，设计了基于深度互信息最大化一致性正则约束和交叉熵分类约束，构建出半监督学习模型，设计互信息判别器对模型深度表征向量间的互信息进行估计，使模型通过全局互信息挖掘样本间的潜在联系，以加强全局表征间的一致性与非线性相关性，获得具备较强鲁棒性的半监督音频事件分类模型；使用梯度下降法优化神经网络模型参数，对音频事件样本进行分类。该方法具有具有误差小、鲁棒性强、精度高等优点，能够在标签数据不足的情况下实现对声音事件分类的要求，具有较高的应用价值。

Description

一种基于深度互信息最大化的半监督音频事件识别方法

技术领域：

本发明涉及一种音频事件识别方法，具体涉及一种基于深度互信息最大化的半监督音频事件识别方法。

背景技术：

音频信号携带了大量有关日常环境以及物理事件发生位置的信息。人类可以轻松感知所处的声音场景(繁忙的街道，办公室等)，并识别各个音频事件(汽车，脚步声等)。对音频事件的自动检测在现实生活中具有许多应用。对于传统的声音事件分类，较依赖于人工预处理特征，如人工选取MFCC的滤波器个数、音调质心特征能量等。这些传统方法在目前应用中缺乏效率与实用性。基于深度学习的声音事件分类方法利用神经网络进行自动特征提取与结果分类，但目前最先进的深度学习方法通常需要大量的标签数据才能获得较高的性能。特别是对于音频事件识别，数据集需要包含由音频源的不可预知性而产生的变化多样的音频数据，从而增加了的数据获取的难度，更重要的是数据标签成本随之升高。因此学者开始研究基于半监督学习的音频事件识别方法，此前研究的半监督学习算法主要研究一致性正则方法提升模型的鲁棒性，但目前的一致性正则方法通常构建基于模型输出分布的数值约束，来保证输出结果的一致，但是仅考虑输出的一致仍然存在随机性和片面性。

针对现有半监督学习的音频事件识别方法中存在的上述不足，本发明还考虑了模型中间层的输出表征的相关性，以此来构建更强壮的一致性正则约束，从而使模型获得更强的鲁棒性与泛化能力，本案由此而生。

发明内容：

为克服传统半监督音频事件识别方法中的一致性正则方法约束存在随机性和片面性的问题，无法指导模型挖掘最有效的内部表征。本发明提供一种基于深度互信息最大化的半监督音频事件识别方法，该方法通过利用模型内部的表征向量，以表征互信息最大化为目标对模型施加一致性约束，加强表征向量对相同类别数据间的非线性统计相关性，解决传统一致性正则化方法无法指导模型挖掘最有效的内部表征问题，提高建模的鲁棒性。

为了实现上述发明目的，本发明所采用的技术方案为：

一种基于深度互信息最大化的半监督音频事件识别方法，内容包括：

步骤1：构建样本数据集，样本数据集中包括无标签样本和有标签样本；

步骤2：构建半监督神经网络模型和互信息判别器模型，对输入的无标签样本进行数据增强，并将数据增强前及数据增强后的样本输入半监督神经网络模型中进行特征提取；有标签样本输出相应的分类概率分布，并计算其分类损失；无标签样本分别导出数据增强前的深度表征向量以及数据增强后的深度表征向量，将数据增强前的深度表征向量与数据增强后的深度表征向量进行矩阵式拼接，获得表征向量重组矩阵；将表征向量重组矩阵输入至互信息判别器模型进行计算，得到互信息损失，将互信息损失与分类损失结合得到半监督神经网络模型的总体损失目标函数；

步骤3：对半监督神经网络模型参数进行优化，并输出训练好的半监督神经网络模型；

步骤4：将待分类识别的音频样本进行预处理，然后输入训练好的半监督神经网络模型，最后输出对应的分类类别。

进一步，所述步骤1中样本数据集的构建内容如下：

步骤1.1：开始遍历所有音频样本；

步骤1.2：对音频样本进行STFT变换和对数Mel滤波，获得含不确定长度L的对数Mel频谱，并设置维度判断值；

步骤1.3：进行维度判断，若不确定长度L未超过设定维度值，则将获得的对数Mel频谱随机放入所设定维度的空矩阵中；若不确定长度L超过设定维度值，将对数Mel频谱随机裁剪使其符合设定维度；

步骤1.4：将步骤1.3中处理后的对数Mel频谱从幅度单位转换为分贝单位，获得输入样本；

步骤1.5：判断输入样本是否含有标签，若含有标签则将音频数据与标签形成样本对保存成标签样本，若不含标签则保存为无标签样本；

步骤1.6：判断是否遍历所有样本，是则退出，否则选择下一个样本重新执行步骤1.2。

进一步，所述步骤2中输入的无标签样本为u_i，数据增强后的无标签样本为

输入的有标签样本对为x_i,p_i，分类概率分布为q_i，对于无标签样本数据增强前、后的深度表征向量为z_i和

输入的样本批大小为N；分类损失L_label采用对p_i，q_i计算二分类交叉熵方式计算，如下式所示：

表征向量重组矩阵FeatrueMat表示如下：

互信息损失L_global计算表达式如下，σ表示Sigmoid函数：

总体损失目标函数L_总表达式如下：

L_总＝λ·L_global+γ·L_label

其中，λ表示互信息损失的权重，γ表示分类损失的权重。

进一步，所述步骤2中数据增强内容包括：以50％的概率对无标签样本进行频率扭曲、以50％的概率对无标签样本进行时间扭曲、以50％的概率对无标签样本进行频率掩盖、以50％的概率对无标签样本进行时间掩盖。

进一步，所述步骤3中对半监督神经网络模型参数优化内容如下：

步骤3.1：设置学习率a、迭代次数iter、互信息损失权重λ、分类损失权重γ；

步骤3.2：输入样本对，计算出总体损失L_总；

步骤3.3：采用梯度下降法调整模型权重参数；

步骤3.4：更新迭代次数，并判断迭代次数是否超过设定的迭代次数iter，若超过则输出训练好的半监督神经网络模型，若未超过则返回步骤3.2继续迭代训练。

进一步，所述步骤4中对待分类识别的音频样本进行预处理内容如下：

步骤4.1：对待分类音频样本进行STFT变换和对数Mel滤波，获得含不确定长度L的对数Mel频谱，并设置维度判断值；

步骤4.2：进行维度判断，若不确定长度L未超过设定维度值，则将获得的对数Mel频谱随机放入所设定维度的空矩阵中；若不确定长度L超过设定维度值，将对数Mel频谱随机裁剪使其符合设定维度；

步骤4.3：将步骤4.2中处理后的对数Mel频谱从幅度单位转换为分贝单位，获得输入样本。

进一步，所述步骤4中对待分类识别的音频样本的分类识别包括如下内容：将获得的输入样本输入训练好的半监督神经网络模型中获得概率分布向量p，根据分类判别阈值thresh按下式预测当前样本的类别I：

其中，k为类别索引序号，C为类别总数。本发明通过设计深度表征互信息最大化的一致性正则约束函数，构建深度神经网络模型，设计互信息判别器对模型深度表征向量间的互信息进行估计，使模型通过全局互信息挖掘样本间的潜在联系，以加强全局表征间的一致性与非线性相关性，获得具备较强鲁棒性的半监督音频事件分类模型，实现音频事件的准确识别。该方法具有误差小、鲁棒性强、泛化能力强等优点，满足音频事件识别的基本要求，具有较高的应用价值。

以下通过附图和具体实施方式对本发明做进一步阐述。

附图说明：

图1为本发明半监督音频事件识别方法的架构图；

图2为本发明半监督音频事件识别方法中样本数据集构建流程图；

图3为本发明半监督音频事件识别方法中半监督神经网络模型构建流程图；

图4为本发明半监督音频事件识别方法中半监督神经网络模型参数优化流程图；

图5为本发明半监督音频事件识别方法中音频信号活动事件类别识别流程图。

具体实施方式：

本实施例公开一种基于深度互信息最大化的半监督音频事件识别方法，其流程如图1所示，主要包括样本数据集的构建、半监督神经网络模型的构建、半监督神经网络模型的训练、以及待分类识别音频样本的分类，具体步骤如下：

步骤一：构建样本数据集，如图2所示：

步骤1.1：开始遍历所有音频样本；

步骤1.2：使用帧长度为60毫秒、步长为3毫秒汉明窗对音频样本信号进行短时傅里叶(STFT)变换；使用128个Mel对数滤波器对STFT后的信号进行滤波，得到维度为[128，L]的对数Mel频谱，其中L为不确定长度；因为音频数据长度不一，会导致预处理后的对数Mel频率数据时间维度不同，因此设置输入维度为[128,512]；

步骤1.3：进行维度判断，若不确定长度L小于512，则将获得的对数Mel频谱随机放入维度为[128,512]的空矩阵中，得到处理后的对数Mel频谱矩阵；若不确定长度L大于512，将对数Mel频谱进行长度为512的随机裁剪，使其维度为[128,512]，得到处理后的对数Mel频谱矩阵；

步骤1.6：判断是否遍历所有音频样本，是则退出，否则选择下一个样本重新执行步骤1.2。

步骤二：构建半监督神经网络模型和互信息判别器模型，如图3所示，主要包括：

步骤2.1：随机选择批大小为N的无标签样本u_i(u_i∈[1，N])及有标签样本x_i,p_i(x_i,p_i∈[1，N])，x_i,p_i分别表示有标签样本及对应标签，利用数据增强方法对u_i进行数据增强操作，获得数据增强后的无标签样本

具体数据增强方式如下：

2.1.1：以50％的概率对无标签样本u_i进行频率扭曲；

2.1.2：以50％的概率对无标签样本u_i进行时间扭曲；

2.1.3：以50％的概率对无标签样本u_i进行频率掩盖；

2.1.4：以50％的概率对无标签样本u_i进行时间掩盖。

步骤2.2：将数据增强前、后的无标签样本u_i，

输入至半监督神经网络模型中进行特征提取，对于有标签样本x_i,p_i输出相应的分类概率分布q_i(q_i∈[1，N])，对无标签增强前、后样本导出网络模型中间层的深度表征向量，即无标签样本数据增强前的深度表征向量z_i，以及无标签样本数据增强后的深度表征向量

其中，j∈[1，N]；

步骤2.3：计算有标签样本的分类损失L_label，分类损失L_label采用对p_i，q_i计算二分类交叉熵方式计算，如下式所示：

如果无标签样本，分类损失设置为0；

步骤2.4：计算无标签样本的互信息损失L_global，有标签样本直接将互信息损失设置为0，将数据增强前的深度表征向量z_i与数据增强后的深度表征向量

进行矩阵式拼接(Matconcat)，获得表征向量重组矩阵FeatrueMat，表征向量重组矩阵FeatrueMat表示如下：

步骤2.5：将表征向量重组矩阵FeatrueMat输入至互信息判别器模型进行计算，得到互信息损失L_global，互信息损失L_global计算表达式如下，σ表示Sigmoid函数：

步骤2.6：将互信息损失L_global与分类损失L_label结合得到半监督神经网络模型的总体损失目标函数L_总，总体损失目标函数L表达式如下：

L＝λ·L_global+γ·L_label

其中，λ表示互信息损失的权重，γ表示分类损失的权重。

步骤三：对半监督神经网络模型进行训练(模型参数优化)，如图4所示，主要包括：

步骤3.2：输入样本对，计算出总体损失L_总；

步骤3.3：采用梯度下降法调整模型权重参数；

步骤四：将待分类识别的音频样本进行预处理，然后输入训练好的半监督神经网络模型，最后输出对应的分类类别，如图5所示，内容如下：

步骤4.1：输入待分类音频样本，使用帧长度为60毫秒、步长为3毫秒汉明窗对音频样本信号进行短时傅里叶(STFT)变换；使用128个Mel对数滤波器对STFT后的信号进行滤波，得到维度为[128，L]的对数Mel频谱，其中L为不确定长度；因为音频数据长度不一，会导致预处理后的对数Mel频率数据时间维度不同，因此设置输入维度为[128,512]；

步骤4.2：进行维度判断，若不确定长度L小于512，则将获得的对数Mel频谱随机放入维度为[128,512]的空矩阵中，得到处理后的对数Mel频谱矩阵；若不确定长度L大于512，将对数Mel频谱进行长度为512的随机裁剪，使其维度为[128,512]，得到处理后的对数Mel频谱矩阵；

步骤4.3：将步骤4.2中处理后的对数Mel频谱从幅度单位转换为分贝单位，获得输入样本；

步骤4.4：将获得的输入样本输入训练好的半监督神经网络模型中获得概率分布向量p，根据分类判别阈值thresh按下式预测当前样本的类别I：

其中，k为类别索引序号，C为类别总数。

本发明提供了一种基于深度互信息最大化的半监督音频事件识别方法，使用半监督神经网络模型作为骨干，设计了基于深度互信息最大化一致性正则约束和交叉熵分类约束，构建出半监督学习模型，使用梯度下降法优化神经网络模型参数，对音频事件样本进行分类。该算法具有鲁棒性强、精度高等优点，能够在标签数据不足的情况下实现对声音事件分类的要求，具有较高的应用价值。

以上实施例仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其他修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围中。