CN110968729A

CN110968729A - 一种基于加性间距胶囊网络的家庭活动声音事件分类方法

Info

Publication number: CN110968729A
Application number: CN201911145336.6A
Authority: CN
Inventors: 王章权; 刘半藤; 郑启航; 施佳椰; 陈友荣
Original assignee: Zhejiang Shuren University
Current assignee: Zhejiang Shuren University
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-04-07
Anticipated expiration: 2039-11-21
Also published as: CN110968729B

Abstract

本发明提供了一种基于加性间距胶囊网络的家庭活动声音事件分类方法，研究基于加性间距胶囊网络模型，对未知类别音频样本进行分类；首先处理待训练音频输出，构建样本对，再将对数Mel谱图信号类别向量作为样本，使用胶囊神经网络模型作为骨干，利用Transition层结合胶囊神经网络模型与加性间距SoftMax损失函数，构建出加性间距胶囊网络模型，使用梯度下降法优化加性间距胶囊网络模型参数，最终使用优化后模型对未知类别样本进行分类；本发明提供的方法具有高效率、稳定性强、精度高等优点，能够满足家庭活动声音事件分类的基本要求，具有较高的应用价值。

Description

一种基于加性间距胶囊网络的家庭活动声音事件分类方法

技术领域：

本发明涉及一种家庭活动识别方法，尤其涉及一种基于加性间距胶囊网络的家庭活动声音事件分类方法。

背景技术：

经济的发展和医疗水平的提高使得人类寿命越来越长，发达国家甚至包括中国等新兴发展中国家均面临严重的人口老龄化问题,根据联合国的一份报告，2015年至2030年间，60岁以上的老年人数量预计将增长56％，到2050年将达到近21亿。传统医疗保健的成本将按比例增长，因此对老年人健康状况、日常生活活动进行远程检测是十分必要的。这可以通过包括声学在内的多种感测模态进行监测，研究基于声学的声音事件分类方法，对于提升智能家居中的安全性、舒适性是十分必要的。

传统的声音事件分类，较依赖于人工预处理特征，如人工选取MFCC的滤波器个数、音调质心特征能量等。这些传统方法在目前应用中缺乏效率与实用性。基于深度学习的声音事件分类方法利用神经网络进行自动特征提取与结果分类，因此近年来基于卷积神经网络(CNN)的深度学习的方法在声音分类中应用广泛，但是CNN模型难以提取到特征间的空间关系，对于家庭活动音频信号中的时序关系无法充分利用，模型识别准确率难以提高。因此迫切需要一种高效率、稳定性强、精度高的家庭活动声音事件分类算法。

发明内容：

为克服传统家庭活动声音事件分类方法存在效率低、速度慢、精度低的问题，本发明提供一种基于加性间距胶囊网络的家庭活动声音事件分类方法，该方法直接对家庭活动音频信号对数Mel谱图进行识别，能够避免传统特征提取算法速度效率低问题，可以提高算法的效率。

为了实现上述发明目的，本发明所采用的技术方案为：

一种基于加性间距胶囊网络的家庭活动声音事件分类方法，内容包括：

步骤1：判断音频样本的时长并裁剪至符合要求，使用对数Mel滤波器对裁剪好的音频进行滤波，将滤波后的音频样本与标签编码组成样本对，所有音频样本处理后形成的样本对构建成样本数据集；

步骤2：以胶囊神经网络模型作为骨干，利用Transition层与胶囊神经网络模型的结合计算加性间距SoftMax损失函数，构建出加性间距胶囊网络模型；

步骤3：将预先构建好的样本对作为加性间距胶囊网络模型的输入，经过迭代优化网络参数获得训练好的加性间距胶囊网络模型；

步骤4：判断待分类音频样本的时长并进行裁剪至符合要求，使用对数Mel滤波器对裁剪好的待分类音频进行滤波，将滤波后的待分类音频输入训练好的加性间距胶囊网络模型进行分类。

进一步设置，所述步骤1中样本对的构建方法如下：

1.1判断音频样本的时长是否符合设定值，时长不足设定值的予以补全至设定值，时长超过设定值的予以裁剪至设定值；

1.2对符合时长要求的音频样本进行STFT变换；

1.3使用Mel对数滤波器对STFT变换后的音频样本进行滤波；

1.4将滤波后的音频样本从幅度单位转换为分贝单位，获得输入样本；

1.5处理输入标签，将标签值转换为向量，得到向量化标签编码；

1.6将1.4中获得的输入样本与1.5中获得的标签编码组成样本对进行保存。

进一步设置，所述步骤2中加性间距胶囊网络模型的构建方法如下：

2.1使用VGG16网络进行特征提取，使用胶囊网络作为特征整合器，对胶囊层各个参数进行初始化，添加权重变量并计算胶囊单元的预测输出值；

2.2判断是否达到迭代次数，若否进入2.3，若是则进入2.4；

2.3计算胶囊单元分类概率分布，根据分类概率分布计算出胶囊单元的输出向量并激活，最后更新胶囊权重关系矩阵；

2.4输出归一化后的胶囊单元向量；

2.5定义Transition层的权重参数，利用2.4中输出的胶囊单元向量计算出分类向量；

2.6定义权重参数矩阵，并设置每行向量的模为1；

2.7计算分类向量与权重参数矩阵的内积，然后计算加性间距损失。

进一步设置，所述2.1中，添加胶囊网络层，并设置输入长度、输出长度、迭代次数参数，添加权重变量W_ij，其中i代表当前层l胶囊单元索引，j代表层(l+1)胶囊单元索引，初始化胶囊单元第i层与第j层间的连接权重矩阵b_ij为0；计算输入胶囊单元u_i与权重变量W_ij的预测输出值为

所述2.3中，对于层l的所有胶囊单元i，计算分类概率分布为c_i＝softmax(b_ij)，对于层(l+1)的所有胶囊单元j，计算经过概率分布c_i加权后的胶囊单元输出为

对于层(l+1)的所有胶囊单元j，计算归一化的胶囊单元输出v_j＝squash(s_j)，其中

更新胶囊单元第i层与第j层间的胶囊权重关系矩阵为

所述2.5中，定义Transition层的权重参数T，并利用2.4的输出归一化后的胶囊单元向量计算出分类向量

所述2.7中，定义权重参数矩阵为w，计算分类向量f_j与权重参数矩阵w的内积为cos(θ_j)＝w^Tf_j，其中θ_j表示分类向量f_j与权重参数矩阵的转置w^T的夹角，加性间距损失L_ams计算如下：

其中s为比例参数，m为间距参数，yi为该样本正确标签，cos(θ_yi)表示类向量f_yi与权重参数矩阵的转置w^T的夹角余弦值。

进一步设置，所述步骤3中，加性间距胶囊网络模型的训练方法如下：

随机初始化网络权重，设置学习率α、迭代次数iter，输入样本对，根据公式1计算出加性间距损失L_ams，使用梯度下降法，利用损失L_ams优化模型权重参数，更新迭代次数，判断迭代次数是否大于设定的迭代次数iter，若大于则输出训练好的加性间距胶囊网络参数模型，若小于则重新迭代训练。

进一步设置，所述步骤4中，待分类音频样本处理方法如下：

4.1判断待分类音频样本的时长是否符合设定值，时长不足设定值的予以补全至设定值，时长超过设定值的予以裁剪至设定值；

4.2对符合时长要求的待分类音频样本进行STFT变换；

4.3使用Mel对数滤波器对STFT变换后的待分类音频样本进行滤波；

4.4将滤波后的待分类音频样本从幅度单位转换为分贝单位，获得输入样本；

4.5将4.4获得的输入样本输入至训练好的加性间距胶囊网络参数模型计算内积cos(θ_j)＝w^Tf_j，找到最大内积值的索引即为该分类音频样本的分类类别。

以下通过附图和具体实施方式对本发明做进一步阐述。

附图说明：

图1为本发明实施例中分类方法的流程图；

图2为样本数据集构建流程图；

图3为加性间距胶囊网络模型构建流程图；

图4为加性间距胶囊网络参数训练流程图；

图5为本发明针对音频信号活动事件类别识别流程图。

具体实施方式：

本实施例公开一种基于加性间距胶囊网络的家庭活动声音事件分类方法，该方法如图1所示，主要包括构建样本数据集、构建基于加性间距胶囊网络参数模型、训练加性间距胶囊网络参数模型、利用训练好的加性间距胶囊网络参数模型给待分类音频样本活动事件进行分类四个部分，下面针对每一部分详细说明：

步骤1：构建样本数据集，其方法流程如图2所示，主要内容概括为：判断音频样本的时长并裁剪至符合要求，使用对数Mel滤波器对裁剪好的音频进行滤波得到对数Mel谱图，并将其对应标签转换至one-hot编码保存，构成一个样本对，所有音频样本处理后形成的样本对构建成样本数据集。

上述步骤1中样本对的构建方法具体如下：

1.1判断音频样本的时长是否大于10秒，若小于10秒则使用浮动补全音频样本至10秒，若大于10秒则裁剪音频样本至10秒；

1.2使用帧长度为64毫秒、步长为20毫秒的汉明窗对符合时长要求的音频样本进行STFT变换；

1.3使用Mel对数滤波器对STFT变换后的音频样本进行滤波；

1.5处理输入标签，使用One-Hot编码将标签值转换为向量，得到向量化标签编码；

1.6将1.4中获得的输入样本与1.5中获得的标签编码组成样本对进行保存；

1.7判断是否遍历完所有的音频样本，若是则退出，若否则选择下一个样本重新执行1.1。

步骤2：构建基于加性间距胶囊网络参数模型，其流程如图3所示，先使用传统胶囊神经网络模型作为骨干，使其能接收对数Mel谱图，中间使用卷积层与胶囊网络层来对特征进行处理，再添加Transition层转换骨干网络输出，输出分类概率分布，接下来添加加性间距SoftMax函数作为网络的损失函数，构建出加性间距胶囊网络模型，具体方法如下：

2.1使用VGG16网络进行特征提取，使用胶囊网络作为特征整合器，添加胶囊网络层，并设置输入长度、输出长度、迭代次数参数，添加权重变量W_ij，其中i代表当前层l胶囊单元索引，j代表层(l+1)胶囊单元索引，初始化胶囊单元第i层与第j层间的连接权重矩阵b_ij为0；计算输入胶囊单元u_i与权重变量W_ij的预测输出值为

2.2判断是否达到迭代次数，若否进入2.3，若是则进入2.4；

2.3对于层l的所有胶囊单元i，计算分类概率分布为c_i＝softmax(b_ij)，对于层(l+1)的所有胶囊单元j，计算经过概率分布c_i加权后的胶囊单元输出为

更新胶囊单元第i层与第j层间的胶囊权重关系矩阵为

2.4输出归一化后的胶囊单元向量v_j；

2.5定义Transition层的权重参数T，利用2.4中输出的胶囊单元向量v_j计算出分类向量f_j，

2.6定义权重参数矩阵w，并设置其每行向量的模为1；

2.7计算分类向量f_j与权重参数矩阵w的内积为cos(θ_j)＝w^Tf_j，其中θ_j表示分类向量f_j与权重参数矩阵的转置w^T的夹角，加性间距损失L_ams计算如下：

步骤3：训练步骤2中构建的加性间距胶囊网络模型，其方法流程如图4所示，通过预先给定的样本对训练该模型并优化模型参数，将预先构建好的样本对数据集作为加性间距胶囊网络模型的输入进行训练，利用梯度下降法将加性间距SoftMax函数的损失值反向传播优化加性间距胶囊网络参数模型，最终得到最优的网络参数模型，具体方法如下：

步骤4：利用训练好的加性间距胶囊网络参数模型给待分类音频样本活动事件进行分类，其方法流程如图5所示，将未知分类标签音频样本进行预处理为对数Mel谱图作为输入，使用训练好的加性间距胶囊网络模型进行前向推导，获得其音频事件类别分类概率，即可得到其音频事件类别，具体方法如下：

4.1判断待分类音频样本的时长是否大于10秒，小于10秒则使用浮动补全音频样本至10秒，超过10秒则裁剪至10秒；

4.2使用帧长度为64毫秒、步长为20毫秒的汉明窗对符合时长要求的待分类音频样本进行STFT变换；

以上实施例仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其他修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围中。