CN115049966A

CN115049966A - 一种基于GhostNet的轻量化YOLO宠物识别方法

Info

Publication number: CN115049966A
Application number: CN202210796465.7A
Authority: CN
Inventors: 林梦嫚; 柯旭清; 许恩泽; 蒋维; 孟利民
Original assignee: Hangzhou Dreamvision Network Technology Co ltd
Current assignee: Hangzhou Dreamvision Network Technology Co ltd
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-09-13

Abstract

一种基于GhostNet的轻量化YOLO宠物识别方法，包括：采集常见宠物图像数据并进行预处理，将图像数据清洗后增强图像数据，对剩余大部分数据标注宠物位置并划分类别；之后以改进的GhostNet网络的YOLO算法模型训练此批数据并得到宠物识别模型。模型载入边缘嵌入式设备不间断检测实时输入设备中的视频流，可将识别结果打印并回传云端保存，同时分析识别检测结果的宠物行为，发现异常现象及时报告饲主及时处理，消减家居宠物的安全隐患，提升人与宠物的亲密度。本发明训练生成的模型体积参数量远小于主流的目标检测模型，能够在计算能力不强，存储容量受限的边缘终端上布署应用，相较与传统检测方法，本发明可以快速识别监测对象，提高检测效率与减小误警率。

Description

一种基于GhostNet的轻量化YOLO宠物识别方法

技术领域

本发明涉及图像目标检测识别领域，特别涉及一种基于GhostNet的轻量化YOLO宠物识别方法。

背景技术

随机时代与科技的发展，城市化进程的加剧，社会老龄化等多方面的影响，城市中独居青年与老年人群逐渐增加，大多数人都面临着社会节奏快，工作压力大，孤独无靠的难题。而其中相当部分人群选择了饲养一种或多种宠物与自己陪伴缓解自身的压力与其他心理问题。

同样由于人们独居的条件，在日常工作时，不能够面面俱到地照顾宠物的生活，同时，人们在工作的休息之余往往也想了解在家的宠物的一些生活情况与观察宠物在家的实时画面。而目前大部分市面的智能宠物家居设备由于技术与条件的限制，只能做到一些喂食等基础要求，无法做到共享宠物实时画面与进一步根据识别宠物生活行为画面与位置，次数等信息分析宠物在家中的安全隐患与本身健康状况。近年来，因为科学技术的不断突破发展，嵌入式设备计算力的逐渐提高，而深度学习领域的卷积神经网络的突破给目标检测任务带来了新的发展机会，人工智能目标检测普遍具有效率高，成本低廉，反应迅速，易于布署等优点，但是，如今的目标检测领域的算法模型权重体积普遍过大，在计算资源紧张的嵌入式设备中无法布署，而能够在嵌入式设备中实现的目标检测算法精度与速度均不及神经网络算法，不能有效完成检测任务并实现后续的视频编码与推流。

发明内容

本发明要克服现有技术在嵌入式设备端无法布署目标检测领域算法模型，与提升嵌入式端目标检测物体性能所存在的缺点，提出一种基于GhostNet的轻量化YOLO宠物识别方法，缩小权重网络模型的参数量，提升检测识别率，记录日志动态分析家居宠物行为。

为实现以上技术目的，本发明提供的技术方案如下：

本发明提出一种基于GhostNet的轻量化YOLO宠物识别方法，包括如下部分：

S1.获取室内环境下，不同品种的宠物猫狗的图像，同时对收集的图像作初步的预处理，删除图片重复，格式不符合要求的图像。

S2.清洗与初步预处理后的图像首先统一做垂直翻转，水平翻转，平移，缩放，裁剪的基础数据增强工作，之后对于所有图像数据进行Mosaic数据增强工作，之后将数据增强后的图像送入自定义的深度学习网络中进行两轮训练。

S3.将两轮训练完毕的深度学习神经网络模型保存的宠物识别模型输出保存为嵌入式设备需要的格式,在嵌入式边缘设备中应用训练好的YOLO神经网络模型，实时检测输入视频流中的宠物猫狗信息。

进一步地，在本发明的一种优选实施方式中，在嵌入式边缘设备中应用训练好的YOLO神经网络模型，嵌入式边缘设备后台实时不断检测嵌入式边缘设备中装载的摄像头装置输入的视频流，为节省耗电量，摄像头输入帧率为30fps，输入前置的硬件ISP处理视频流，改善视频流质量。

嵌入式边缘设备中布署的神经网络算法对待检测视频流中的宠物目标识别结果叠加入视频流中并编码回传至SRS推拉流服务器供客户端拉流。在嵌入式边缘设备中开辟新线程对宠物识别次数与位置，行为信息进行分析判断是否有异常现象，并将相关信息同时上传至服务器云端中并以可视化的形式提供客户机终端中。

进一步地，在本发明的一种优选实施方式中，深度学习神经网络模型主要基于YOLO神经网络模型，模型结构主要包括BackBone主干网络层，PANet网络，输出Head网络，对神经网络轻量化学习检测的要求，在BackBone主干网络层中加入GhostNet卷积网络，减少网络计算参数，缩小网络模型大小。

对于BackBone主干网络层中CSPNet网络替换为GhostNet卷积网络，同时去除在CSPNet网络后的卷积层；对于PANet网络将结构去除其CBL模块，将参数计算量大的CSPNet网络部分更改为GhostNet网络模块，进一步减少减少整体网络的参数量，并且以Concat连接方式代替原本残差网络模块部分的ShortCut连接，将BackBone网络与PANet网络两者以特征金字塔网络结构组合，输出多尺度特征图。

进一步地，YOLO神经网络模型通过自适应计算YOLO目标检测的锚框，将图片分割成m*n个区域，然后在每个格子的中心，按照设定的长宽比等，生成一系列的锚框，锚框中心点格子的中心点，锚框的长宽大小通过K-Means聚类计算得出。YOLO神经网络模型中的初始锚框分别为[[10,13,16,30,33,23],[30,61,62,45,59,119],[116,90,156,198,373,326]]，对应三种不同尺度下的锚框。

优选地，YOLO神经网络模型依据损失函数的收敛与否判定YOLO算法的训练稳定程度，损失函数稳定后保存YOLO算法的训练输出的模型，YOLO算法的总损失函数分别由位置损失函数，分类损失函数，置信损失函数组成，如公式(1)所示：

Total_Loss＝CIOU_Loss+BCE_Loss+Facal_Loss (1)

其中位置损失函数如公式(2),(3),(4),(5)所示：

CIOU_Loss＝1–CIOU (2)

其中，式中IOU表示真实标注框与预测框之间的交并比，ρ²表示真实标注框与预测框的中心坐标距离，c²代表包含真实标注框与预测框的最小矩形的对角线距离，v表示标注框与预测框的宽高比的相似度，α表征v的影响程度，在标注框与预测框的重叠部分较大时，α也越大，v越大。位置损失函数通过优化标注框与预测框之间的距离与宽高大小，加速优化训练收敛速度。

优选地，分类损失函数定义为交叉熵损失函数，用于表征真实样本预测值和预测概率之间的差值，其具体如公式(6)所示：

其中x表示具体图像样本，y表示标注对象值，a表示预测输出值，n表示所有图像样本数量。

优选地，置信损失函数主要为考虑输入图像数据集中正负样本分类不均衡的问题，用于降低易分类样本对于损失函数的影响，负责难分类样本训练，具体如公式(7)所示：

Facal_Loss＝-(1-p_t)^γlog(p_t) (7)

其中，p_t表示样本分类正确的概率，(1-p_t)^γ代表调制系数，用于减少易分类样本的权重，γ为聚焦参数，取值为大于等于0的任意值。

在本发明的一种优选实施方式中，获取室内环境下，不同品种的宠物猫狗的图像总数为1250张图片，用于训练的部分为1000张，用于测试的部分为125张，主要训练前输入的超参数有滑动平均衰减率为0.9995，判决阈值为0.5，每种缩放比例下锚框的数量为3，样本批处理数量BATCH_SIZE为12，初始学习率为0.0005，稳定学习率为0.000001，热身次数为2，一阶段迭代次数为30，二阶段迭代次数为40。

本发明的技术优点如下：

1.基于嵌入式边缘设备布署方法，可以快速将方法迁移至相应智能宠物家居设备之上，可以实现多角度，全天候，低成本，高效率的智能无人识别家居宠物并分析宠物在家中的安全隐患与本身健康状况及时提醒报警饲主处理。

2.基于GhostNet模块的轻量化YOLO深度神经网络模型，相比其他轻量化模块，具有参数计算量小，计算速度快，识别率高的优点，与桌面PC中运行的权重相比缩小了1/10，可以轻松嵌入智能宠物家居平台中，实时识别不同种类的家居宠物类别行为等，与传统的后台云端识别方法相比，节省的服务器运算资源，为视频流的推拉流处理与其他的鉴权，登陆等方法调度保留大部分计算资源。

3.本发明的智能家居宠物识别方法可以辅助饲主照顾独居的家居宠物，智能管理监督宠物，提升宠物在家中无人时的幸福度，同时主人也能在外休息时实时观察宠物生活习惯状态，提供两者间线上交流渠道，减轻宠物无人时的嚎叫，紧张，剧烈运动等应激反应，增加宠物与主人间的亲密度。

附图说明

图1是本发明方法的流程图；

图2是本发明提供的基于GhostNet的轻量化YOLO神经网络结构图；

图3是本发明提供的Ghost Bottleneck模块结构图；

图4是本发明提供的Ghost Module结构图。

具体实施方式

以下将结合具体实施例子与附图对发明进行详细说明。以下实施将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

一种基于GhostNet的轻量化YOLO宠物识别方法，参考图1中描述的训练流程图，主要分为两个模块如下：

虚线框部分神经网络模型权重训练模块与剩余的嵌入式家居宠物识别方法平台。

神经网络模型权重训练模块主要目的为通过收集的图像数据集训练识别常见家居宠物的类别，位置，行为等信息，是宠物识别平台实现的重要的组成部分。需要在尽量减少精度与帧数损失的前提下，大幅度缩小模型体积，方便布署于嵌入式设备中。

所述权重训练可参考图1中虚线框标注步骤，主要有如下步骤：

第一步为清洗与预处理收集的的宠物图像，收集种类为拉不拉多猎犬，橘猫，美国短毛猫，泰迪犬，布偶猫，雪橇犬，柴犬，狸花猫八种不同类别的宠物图像，之后变换图像的格式为三通道RGB的JPG格式图像，并对所有的图像做垂直翻转，水平翻转，平移，缩放，裁剪的基础数据增强工作，扩充数据样本信息，在包括原始图像数据的基础上一共有5000张图片数据集。

对于5000张图片数据集进行数据集标注，以PascalVOC格式对图像进行标注与划分，并对标注后的图像以8：1：1的比例划分数据集为训练集，测试集，验证集。

建立PascalVOC文件夹，在其下新建Annotations，ImageSet，JPEGImages三个文件夹，分别存放VOC2007格式的xml标注文件,数据集划分文件，原始检测图像文件。

对于所述的5000张图片数据再以Mosaic数据增强算法进一步丰富数据集，强化神经网络普适性，减轻显卡训练压力。

生成一个Mosaic画布，画布大小为640*640，在Mosaic画布中随机生成一个中心点，以此中心点为依据拼接随机选取的四张图像。

选取一张图片放置于Mosaic画布的左上角，以被放置图像的右小角的点为中心点固定不动，对于图片不超过画布的图像，以灰色边缘填充，对图片超过画布的图像，裁去超过的部分边缘。对于画布右上角，左下角，右下角的填充区域均遵循以上步骤填充图像。

对于被合成四张图像的标注框同步进行Mosaic数据增强中的步骤，缩放，填充相同的比例，加上偏移量，更新得出基础Mosaic画布的标注框。

在YOLO神经网络中需要以锚框来匹配计算得出目标，锚框的计算以自适应的模式生成，适应不同宽高大小的数据集。

首先需要载入数据集，获取其中标注框的位置与大小；分别在13*13，26*26，52*52三种尺度下的特征图进行标注框与锚框的匹配。

以13*13尺度为例，对归一化的标注框放大13倍，得到该尺度下的标注框的信息，并使用预设锚框[[10,13,16,30,33,23],[30,61,62,45,59,119],[116,90,156,198,373,326]]中大尺度下的最后三个锚框得到相应尺度下的锚框。

锚框的大小计算采用K-Means聚类算法从数据集中随机选取K个标注边界框(W,H)作为初始聚类的中心，中心为C＝{c₁,c₂,...,c_k}，对于数据集中的样本x_i,计算样本到聚类中心的欧氏距离，取最小值划分到对应的聚类中心，对于检测的每种类别，重新计算对应类别的聚类中心

其中，c_i为每种类别的聚类中心，|i|是对应类别的数据总数，x为所属类别对应样本个体。

重复前两步，迭代指定次数1000次后，在聚类中心不再改变后获取锚框，若特征图分为13*13个格点，在每个格点中分别对应3个锚框，因此总共有507个锚框。

最后做锚框与标注框的匹配，将标注框的中心位置的某个单元与该标注框靠近的两个单元对应生成的锚框负责预测标注框。

数据集在前置网络端预处理后需要输入基于GhostNet的轻量化YOLO网络中训练，网络结构图如图2所示，BackBone主干网络层由GhostNet Bottleneck网络组成，类似于残差网络ResNet中的基础残差网络模块。

在YOLO网络框架的Neck层中引入PANet网络，对特征图进行自顶向下的特征融合，再进行自下而上的融合，缩短信息传播路径，动态池化特征，去除其CBL模块，将参数计算量大的CSPNet网络部分更改为GhostNet网络模块，进一步减少减少整体网络的参数量，以并且以张量连接方式代替原本残差网络模块部分的ShortCut连接。与BackBone层主干网络横向连接，将PANet网络中上采样的高语义特征与浅层细节信息融合。

在Output输出层，YOLO网络输出三种不同的特征图谱，大小维度分别为13*13*39，26*26*39,52*52*39，29的维度对应每个格点采用3个锚框预测，而预测的参数为高，宽，中心坐标与置信率5种基本参数及8种对应不同种类家居宠物，因此输出特征图谱的维度为3*(5+8)＝39。输出层采用多尺度检测来对不同大小的目标进行检测，对分得越精细的格点单元就检测出越精细的物体，提升小尺度目标的mAP。

如图3所示，GhostNet Bottleneck网络由Ghost模块与ShortCut部分组成。对右边步长为1的主干组成部分，由两个Ghost模块串联组成，第一个输入端的Ghost模块扩大特征通道数，再利用之后的Ghost模块降维，统一输入与输出的通道数，ShortCut部分直接连接输入与输出两者进行相加，防止网络训练时出现梯度消失的问题。对于左边步长为2的主干组成部分，不同于右边的GhostNet Bottleneck网络，引入一个步长为2的深度可分离卷积减半输入特征图谱的大小，对于ShortCut部分直连输入部分注意需要降采样1/2，保证输入输出维度大小对齐一致，因此输出相对右边的GhostNet Bottleneck网络输出大小减半。由于右边步长为1的GhostNet Bottleneck网络结构简单，可移植性好，以此为基础插入至YOLO网络框架的BackBone层与Neck层。

如图4所示，Ghost模块基于1*1卷积与深度可分离卷积组成，主要目的是通过计算量更低的操作生成冗余特征图，加快计算速度，减少计算参数，主要功能是替换一般的卷积神经网络中的Conv卷积模块。

Ghost模块先以普通1*1卷积整合生成特征图谱的本征特征图，再将本征特征图谱以深度可分离卷积模块

运算得出Ghost特征图，随后将本征特征图与Ghost特征图以Contact连接形式输出。

依据损失函数的收敛与否判定YOLO算法的训练稳定程度，损失函数稳定后保存YOLO算法的训练输出的模型，YOLO算法的总损失函数分别由位置损失，分类损失，置信损失组成，在总损失函数收敛几乎不变时保存计算权重值。

训练过程中输入的超参数有滑动平均衰减率为0.9995，判决阈值为0.5，每种缩放比例下锚框的数量为3，样本批处理数量BATCH_SIZE为12，初始学习率为0.0005，稳定学习率为0.000001，热身次数为2，一阶段迭代次数为30，二阶段迭代次数为40。

将模型权重保存为嵌入式边缘设置支持的格式，这里我将YOLO网络模型输出的h5文件转化为嵌入式设备中AI推理模型格式rknn，并保存于硬件中，并生成一个cfg配置文件保存文件保存地址与输入视频流输入画面格式，帧率，编码信息等信息，供嵌入式设备中推理线程调用。

嵌入式设备捕获视频流后，输入硬件时，为矫正前置摄像头的输入噪声与视频图像畸变，色彩失调等现象，以内置的硬件ISP功能改善上述现象，获得高质量的待检测彩色视频流，提高目标判决正确率。

对于输入视频流进行改善后，硬件RGA模块处理视频流中关键帧，对其进行缓存，叠加，裁剪操作，降低主芯片软件处理功耗，同时加速视频关键帧处理速度，相关操作由CPU在主函数中开辟一个新线程调用处理。

同样地，在CPU中同时另开辟新线程RKNN_Thread调用NPU(神经网络处理)单元载入预训练保存的权重，推理识别视频中宠物目标信息的关键特征，保存分析相关重要宠物目标位置，类别，行为等信息，将以上信息与分析结果实时上传至后台云端，若分析记录到宠物的危险行为，如多天不进食，异常频繁走动，无预兆剧烈运行等行为及时报警提示主人。

在最终目标检测输出部分，对于目标检测输出的多个目标框的筛选，以NMS非最大值抑制算法计算得出置信率最高的预测框输出，并用OpenCV工具对检测结果以画框与文字方式叠加，采用H.264格式对输入视频流编码推流至SRS视频流服务器。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于GhostNet的轻量化YOLO宠物识别方法，其特征是，包括如下步骤：

S2.将清洗与初步预处理后的图像首先统一做垂直翻转，水平翻转，平移，缩放，裁剪的基础数据增强工作，之后对于所有图像数据进行Mosaic数据增强工作，之后将数据增强后的图像送入自定义的深度学习网络中进行两轮训练。

S3.将两轮训练完毕的深度学习神经网络模型保存的宠物识别模型输出保存为嵌入式边缘设备需要的格式，在嵌入式边缘设备中应用训练好的YOLO神经网络模型，实时检测输入视频流中的宠物猫狗信息。

2.根据权利要求1所述的一种基于GhostNet的轻量化YOLO宠物识别方法，其特征是：步骤S1所述的宠物猫狗的图像以PascalVOC格式对图像进行标注与划分，统一图像格式为jpg格式，输入分辨率为640*640，图像中家居宠物种类共有8种，分别为拉不拉多猎犬，橘猫，美国短毛猫，泰迪犬，布偶猫，雪橇犬，柴犬，狸花猫。对于标注后的图像还需要以8：1：1的比例划分数据集为训练集，测试集，验证集。

3.根据权利要求2所述的一种基于GhostNet的轻量化YOLO宠物识别方法，其特征在于：所述的宠物猫狗的图像总数为1250张图片，用于训练的部分为1000张，用于测试的部分为125张，主要训练前输入的超参数有滑动平均衰减率为0.9995，判决阈值为0.5，每种缩放比例下锚框的数量为3，样本批处理数量BATCH_SIZE为12，初始学习率为0.0005，稳定学习率为0.000001，热身次数为2，一阶段迭代次数为30，二阶段迭代次数为40。

4.根据权利要求1中所述的一种基于GhostNet的轻量化YOLO宠物识别方法，其特征在于：步骤S3所述的在嵌入式边缘设备中应用训练好的YOLO神经网络模型具体包括：后台实时不断检测嵌入式边缘设备中装载的摄像头装置输入的视频流，为节省耗电量，摄像头输入帧率为30fps，输入前置的硬件ISP处理视频流，改善视频流质量；同时嵌入式设备中布署的神经网络算法对待检测视频流中的宠物目标识别结果叠加入视频流中并编码回传至SRS推拉流服务器供客户端拉流。在边缘设置中开辟新线程对宠物识别次数与位置，行为信息进行分析判断是否有异常现象，并将相关信息同时上传至服务器云端中并以可视化的形式提供客户机终端中。

5.根据权利要求4中所述的一种基于GhostNet的轻量化YOLO宠物识别方法，其特征是：步骤S3所述的深度学习神经网络模型基于YOLO神经网络模型，模型结构包括BackBone主干网络层，PANet网络，输出Head网络，对神经网络轻量化学习检测的要求，在BackBone主干网络层中加入GhostNet卷积网络，减少网络计算参数，缩小网络模型大小；

BackBone主干网络层中CSPNet网络替换为GhostNet卷积网络，同时去除在CSPNet网络后的卷积层；对于PANet网络将结构去除其CBL模块，将参数计算量大的CSPNet网络部分更改为GhostNet网络模块，进一步减少减少整体网络的参数量，并且以Concat连接方式代替原本残差网络模块部分的ShortCut连接，将BackBone网络与PANet网络两者以特征金字塔网络结构组合，输出多尺度特征图；YOLO神经网络模型通过自适应计算YOLO目标检测的锚框，将图片分割成m*n个区域，然后在每个格子的中心，按照设定的长宽比等，生成一系列的锚框，锚框中心点格子的中心点，锚框的长宽大小通过K-Means聚类计算得出。YOLO神经网络模型中的初始锚框分别为[[10，13，16，30，33，23]，[30，61，62，45，59，119]，[116，90，156，198，373，326]]，对应三种不同尺度下的锚框；

YOLO神经网络模型依据损失函数的收敛与否判定YOLO算法的训练稳定程度，损失函数稳定后保存YOLO算法的训练输出的模型，YOLO算法的总损失函数分别由位置损失函数，分类损失函数，置信损失函数组成，如公式(1)所示：

Total_Loss＝CIOU_Loss+BCE_Loss+Facal_Loss (1)

其中位置损失函数如公式(2)，(3)，(4)，(5)所示：

CIOU_Loss＝1-CIOU (2)

式中IOU表示真实标注框与预测框之间的交并比，ρ²表示真实标注框与预测框的中心坐标距离，c²代表包含真实标注框与预测框的最小矩形的对角线距离，v表示标注框与预测框的宽高比的相似度，α表征v的影响程度，在标注框与预测框的重叠部分较大时，α也越大，v越大。位置损失函数通过优化标注框与预测框之间的距离与宽高大小，加速优化训练收敛速度；

分类损失函数定义为交叉熵损失函数，用于表征真实样本预测值和预测概率之间的差值，其具体如公式(6)所示：

置信损失函数主要为考虑输入图像数据集中正负样本分类不均衡的问题，用于降低易分类样本对于损失函数的影响，负责难分类样本训练，具体如公式(7)所示：

Facal_Loss＝-(1-p_t)^γlog(p_t) (7)