CN112528920A

CN112528920A - 一种基于深度残差网络的宠物图像情绪识别方法

Info

Publication number: CN112528920A
Application number: CN202011519922.5A
Authority: CN
Inventors: 郭祥; 谢衍涛; 宋娜; 王鼎; 陈继; 梅启鹏
Original assignee: Hangzhou Gexiang Technology Co ltd
Current assignee: Hangzhou Gexiang Technology Co ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-03-19

Abstract

本发明提供了一种基于深度残差网络的宠物图像情绪识别方法，该方法包括：获取不同情绪下单只宠物的音频和视频，并根据所述音频进行预处理及提取声音特征；根据所述声音特征对所述音频进行统计分类和情绪标记，并根据时序和所述视频提取对应的单帧图片，得到带有情绪标记的宠物图像情绪数据集；构建宠物情绪分类算法模型，并将所述宠物图像情绪数据集作为训练数据进行模型训练；通过训练后的模型对宠物进行目标检测和情绪推断。本发明能提高宠物情绪识别的确定性，提高识别的推断速度和精度。

Description

一种基于深度残差网络的宠物图像情绪识别方法

技术领域

本发明涉及情绪识别技术领域，尤其涉及一种基于深度残差网络的宠物图像情绪识别方法。

背景技术

当前家庭宠物越来越多，人与宠物之间的交流也越来越多，然而人们常对宠物表达的情绪无法进行有效识别，造成交流障碍，引起宠物的不受控制，出现宠物咬伤路人的情况。而经验丰富的宠物主人可以通过宠物声音的音调、音量、频次等，准确地判断宠物的情绪，从而给出有效的安抚方式，而这种能力不是每个宠物主人都拥有的。

现有基于音频数据的识别方法，主要通过倒谱系数共振峰和过零率作为特征参数，建立例如高斯混合模型等统计模型，或使用无监督聚类方法对宠物情绪进行分类。但该方法在使用过程中存在以下缺点：1、音频信号采集困难，干扰较大，不容易采集到信噪比较好的信号用于识别；2、对同时有多个宠物在场的情况无法支持；3、需要在时域上累积一段时间的数据才可以用于情绪识别，限制了现实中的使用；4、某些情况下宠物可能没有发出足够的声音用于识别。因而如何准确掌握宠物的情绪，以便更好的安抚和互动成为宠物主人想要解决的问题。

发明内容

本发明提供一种基于深度残差网络的宠物图像情绪识别方法，解决现基于音频数据的宠物情绪识别存在识别不准确的问题，能提高宠物情绪识别的确定性，提高识别的推断速度和精度。

为实现以上目的，本发明提供以下技术方案：

一种基于深度残差网络的宠物图像情绪识别方法，包括：

获取不同情绪下单只宠物的音频和视频，并根据所述音频进行预处理及提取声音特征；

根据所述声音特征对所述音频进行统计分类和情绪标记，并根据时序和所述视频提取对应的单帧图片，得到带有情绪标记的宠物图像情绪数据集；

构建宠物情绪分类算法模型，并将所述宠物图像情绪数据集作为训练数据进行模型训练；

通过训练后的模型对宠物进行目标检测和情绪推断。

优选的，构建宠物情绪分类算法模型包括：

构建二级网络，前级网络用于对图片内的宠物进行目标检测，获取检测的位置框，并根据所述位置框对单帧图片进行切图和增强处理；

后级网络用于对裁剪出的图片进行情绪识别，以得到推断结果。

优选的，所述前级网络为宠物目标检测网络，使用改进的yolov4网络结构，主力网络使用增加注意力机制的mobilenetv3进行特征提取，以进行宠物分类和区域切图。

优选的，所述后级网络为深度残差网络，在ResNet网络中加入注意力模块，以单张已分类宠物图片作为输入进行快速识别宠物情绪。

优选的，所述根据所述音频进行预处理及提取声音特征，包括：

采用经验模态分解的方式去除短时非平稳信号的高频噪声，以克服傅里叶变换在有限时长和非平稳信号上不准确；

采用HHT变换获得声音信号的边际谱，并获取边际谱能量；

使用短时边际谱能量和短时平均过零率作为门限，检测语音端点，切分语音片段。

优选的，所述根据所述音频进行预处理及提取声音特征，还包括：

对切分好的语音片段进行削波处理，计算峰值所在的位置并在边际谱上读出基音频率；

对语音片段的边际谱积分获得能量；

对语音片段进行线性预测获得共振峰；

对语音片段的0-2000Hz、2000Hz以上进行边际谱能量积分，并将二者的比值作为高低频段功率比。

优选的，所述根据所述声音特征对所述音频进行统计分类和情绪标记，包括：

建立情绪分类的支持向量机SVM，并通过所述支持向量机SVM对所述声音特征进行情绪分类；

将所述声音特征分为高兴、愤怒、悲伤和其他，以进行情绪标记。

优选的，所述根据时序和所述视频提取对应的单帧图片，包括：

对所述视频进行视频抽帧以形成单帧图片，并根据情绪标记的宠物声音得到该时序对应的多角度的单帧图片；

对多张单帧图片进行筛选并进行情绪标记，以形成带有情绪标记的单帧图片。

优选的，所述根据所述位置框对单帧图片进行切图和增强处理，包括：

确定宠物区域，并根据所述位置框进行宠物区域切图，使裁剪后的图片获得专注的情绪表征；

根据所述位置框对宠物具有情绪表征的位置进行增强处理。

优选的，所述将所述宠物图像情绪数据集作为训练数据进行模型训练，包括：

对二级网络进行分阶段训练，首先训练宠物目标检测网络，观察输出图的注意力情况，防止网络对于宠物产生过拟合，训练时采取对目标分块随机遮挡和马赛克遮挡的训练策略，通过网络输出的注意力热图观察，防止前级网络在识别目标时注意力分布过于集中，以提升其鲁棒性；

其次训练后级级网络，使用所述宠物图像情绪数据集，从视频中抽取带有情绪标记的单帧图片，分成训练集和验证集，使用旋转模糊透明叠加手段增广图片集之后，输入前级网络获得目标切图，再输入后级网络，使用情绪标签进行训练，最后使用验证集进行整个网络的准确性验证。

本发明提供一种基于深度残差网络的宠物图像情绪识别方法，获取宠物视频和音频，根据音频数据进行分类和情绪标记，建立目标宠物的宠物图像情绪数据集，构建宠物情绪分类算法模型，并将所述宠物图像情绪数据集作为训练数据进行模型训练，通过训练后的模型对宠物进行目标检测和情绪推断。解决现基于音频数据的宠物情绪识别存在识别不准确的问题，能提高宠物情绪识别的确定性，提高识别的推断速度和精度。

附图说明

为了更清楚地说明本发明的具体实施例，下面将对实施例中所需要使用的附图作简单地介绍。

图1是本发明提供的一种基于深度残差网络的宠物图像情绪识别方法的示意图。

图2是本发明实施例提供的宠物图像情绪识别方法的技术流程图。

图3是本发明实施例提供的二级网络的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

针对当前对宠物的情绪无法精确识别，宠物主人不能更好的安抚和互动的问题，本发明提供一种基于深度残差网络的宠物图像情绪识别方法，获取宠物视频和音频，根据音频数据进行分类和情绪标记，建立目标宠物的宠物图像情绪数据集，构建宠物情绪分类算法模型，并将所述宠物图像情绪数据集作为训练数据进行模型训练，通过训练后的模型对宠物进行目标检测和情绪推断。解决现基于音频数据的宠物情绪识别存在识别不准确的问题，能提高宠物情绪识别的确定性，提高识别的推断速度和精度。

如图1所示，一种基于深度残差网络的宠物图像情绪识别方法，包括：

S1：获取不同情绪下单只宠物的音频和视频，并根据所述音频进行预处理及提取声音特征；

S2：根据所述声音特征对所述音频进行统计分类和情绪标记，并根据时序和所述视频提取对应的单帧图片，得到带有情绪标记的宠物图像情绪数据集；

S3：构建宠物情绪分类算法模型，并将所述宠物图像情绪数据集作为训练数据进行模型训练；

S4：通过训练后的模型对宠物进行目标检测和情绪推断。

具体地，如图2所示，对于特定的宠物，在不同的情绪下，采集单只宠物声音信号，处理音频信号，获得声音特征，所述声音特征包括：倒谱系数、共振峰、过零率、高低频段功率比等。与此同时拍摄只有单独宠物的视频。对采集到的宠物的声音特征参数进行统计分析，基于机器学习算法，建立支持向量机模型，对宠物声音数据做情绪标记，并在时序上和视频对应，提取单帧图片，筛选后获得带有情绪标记的图片数据集。建立宠物分类算法模型，通过宠物情绪图像数据集对模型进行训练，利训练后模型对目标宠物进行宠物情绪推断。该方法能利用单张图像快速识别宠物的情绪，为解决特征维度增高带来高计算量和干扰导致的识别精确度低等问题，提高宠物情绪识别的确定性，提高识别的推断速度和精度。

其中，构建宠物情绪分类算法模型包括：构建二级网络，前级网络用于对图片内的宠物进行目标检测，获取检测的位置框，并根据所述位置框对单帧图片进行切图和增强处理。后级网络用于对裁剪出的图片进行情绪识别，以得到推断结果。

进一步，所述前级网络为宠物目标检测网络，使用改进的yolov4网络结构，主力网络使用增加注意力机制的mobilenetv3进行特征提取，以进行宠物分类和区域切图。

在实际应用中，宠物目标检测网络的输入头节点是一个3*3的卷积层，后接mobilenetv3的特殊模块bneck，该模块继承了mobilenetv2的线性瓶颈倒残差结构，并加入了深度可分离卷积和轻量级的注意力结构增加性能，使用h-swish函数替代原有的swish激活函数减少运算量，本实例中使用了small类型的mobilenetv3以进一步缩小在移动端部署的模型尺寸，共使用11个级联的bneck结构，其中第1、4、5、6、7、8、9、10、11层bneck加入了轻量注意力机制，接下来连接1*1卷积、池化和两层1*1卷积最终输出结果。主干网络从darknet改为mobilenetv3，可以更好的适应移动端环境，提升网络推断速度，加入注意力机制提升网络鲁棒性。

更进一步，所述后级网络为深度残差网络，在ResNet网络中加入注意力模块，以单张已分类宠物图片作为输入进行快速识别宠物情绪。

在实际应用中，深度残差网络的输入头结点为3*3的卷基层，后接通道注意力和空间注意力模块，后接三个残差模块，每个残差模块包含两个卷积层，后接通道注意力和空间注意力模块，最后使用全连接层进行输出。深度残差网络融合注意力机制可以提升推断速度和精度，快速在单张图片中定位多个宠物并识别其情绪。

在实际应用中，如图3所示，可通过构建一个二级网络，前级用于对图像内宠物进行检测，获取位置框；后级用于对位置裁剪出的图片进行情绪识别。宠物目标检测网络可使用改进的yolov4进行迁移学习，特征提取的骨干网络替换为mobilenetv3，添加通道和空间两个注意力模块，以实现对应于数据集包含宠物类型的目标检测网络，该网络返回宠物类型名和位置框。根据位置框裁剪图像输入后级网络，以提升感受野，在resnet8残差网络加入注意力模块提取有用的特征，并最终降维输出情绪分类，避免无关信息干扰，增加识别速度和精度。

所述根据所述音频进行预处理及提取声音特征，包括：采用经验模态分解的方式去除短时非平稳信号的高频噪声，以克服傅里叶变换在有限时长和非平稳信号上不准确。采用HHT变换获得声音信号的边际谱，并获取边际谱能量。使用短时边际谱能量和短时平均过零率作为门限，检测语音端点，切分语音片段。

进一步，所述根据所述音频进行预处理及提取声音特征，还包括：对切分好的语音片段进行削波处理，计算峰值所在的位置并在边际谱上读出基音频率。对语音片段的边际谱积分获得能量。对语音片段进行线性预测获得共振峰。对语音片段的0-2000Hz、2000Hz以上进行边际谱能量积分，并将二者的比值作为高低频段功率比。

所述根据所述声音特征对所述音频进行统计分类和情绪标记，包括：建立情绪分类的支持向量机SVM，并通过所述支持向量机SVM对所述声音特征进行情绪分类。将所述声音特征分为高兴、愤怒、悲伤和其他，以进行情绪标记。

所述根据时序和所述视频提取对应的单帧图片，包括：对所述视频进行视频抽帧以形成单帧图片，并根据情绪标记的宠物声音得到该时序对应的多角度的单帧图片。对多张单帧图片进行筛选并进行情绪标记，以形成带有情绪标记的单帧图片。

所述根据所述位置框对单帧图片进行切图和增强处理，包括：确定宠物区域，并根据所述位置框进行宠物区域切图，使裁剪后的图片获得专注的情绪表征。根据所述位置框对宠物具有情绪表征的位置进行增强处理。

所述将所述宠物图像情绪数据集作为训练数据进行模型训练，包括：

可见，本发明提供一种基于深度残差网络的宠物图像情绪识别方法，获取宠物视频和音频，根据音频数据进行分类和情绪标记，建立目标宠物的宠物图像情绪数据集，构建宠物情绪分类算法模型，并将所述宠物图像情绪数据集作为训练数据进行模型训练，通过训练后的模型对宠物进行目标检测和情绪推断。解决现基于音频数据的宠物情绪识别存在识别不准确的问题，能提高宠物情绪识别的确定性，提高识别的推断速度和精度。

以上依据图示所示的实施例详细说明了本发明的构造、特征及作用效果，以上所述仅为本发明的较佳实施例，但本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种基于深度残差网络的宠物图像情绪识别方法，其特征在于，包括：

通过训练后的模型对宠物进行目标检测和情绪推断。

2.根据权利要求1所述的基于深度残差网络的宠物图像情绪识别方法，其特征在于，构建宠物情绪分类算法模型包括：

3.根据权利要求2所述的基于深度残差网络的宠物图像情绪识别方法，其特征在于，所述前级网络为宠物目标检测网络，使用改进的yolov4网络结构，主力网络使用增加注意力机制的mobilenetv3进行特征提取，以进行宠物分类和区域切图。

4.根据权利要求3所述的基于深度残差网络的宠物图像情绪识别方法，其特征在于，所述后级网络为深度残差网络，在ResNet网络中加入注意力模块，以单张已分类宠物图片作为输入进行快速识别宠物情绪。

5.根据权利要求4所述的基于深度残差网络的宠物图像情绪识别方法，其特征在于，所述根据所述音频进行预处理及提取声音特征，包括：

采用HHT变换获得声音信号的边际谱，并获取边际谱能量；

6.根据权利要求5所述的基于深度残差网络的宠物图像情绪识别方法，其特征在于，所述根据所述音频进行预处理及提取声音特征，还包括：

对语音片段的边际谱积分获得能量；

对语音片段进行线性预测获得共振峰；

7.根据权利要求6所述的基于深度残差网络的宠物图像情绪识别方法，其特征在于，所述根据所述声音特征对所述音频进行统计分类和情绪标记，包括：

8.根据权利要求7所述的基于深度残差网络的宠物图像情绪识别方法，其特征在于，所述根据时序和所述视频提取对应的单帧图片，包括：

9.根据权利要求8所述的基于深度残差网络的宠物图像情绪识别方法，其特征在于，所述根据所述位置框对单帧图片进行切图和增强处理，包括：

根据所述位置框对宠物具有情绪表征的位置进行增强处理。

10.根据权利要求9所述的基于深度残差网络的宠物图像情绪识别方法，其特征在于，所述将所述宠物图像情绪数据集作为训练数据进行模型训练，包括：