CN112651381A

CN112651381A - 基于卷积神经网络的视频图像中家畜识别方法及装置

Info

Publication number: CN112651381A
Application number: CN202110047803.2A
Authority: CN
Inventors: 陈明; 刘维丰; 王丰
Original assignee: Nanjing Tongshenghong Data Co ltd
Current assignee: Nanjing Tongshenghong Data Co ltd
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-04-13

Abstract

本发明公开了一种基于卷积神经网络的视频图像中家畜识别方法及装置，主要包括：(1)建立家畜识别网络，所述家畜网络具体为YOLOv3改进网络，所述YOLOv3改进网络将YOLOv3网络的损失函数进行了改进；(2)采集若干已知家畜的图像，对图片进行特征提取，将提取的特征作为训练样本，输入家畜识别网络进行训练；(3)获取待识别家畜视频，将视频划分为若干图像帧，对图像帧进行特征提取，并输入训练好的家畜识别网络，从而识别出所有家畜。本发明识别性能和效果更好。

Description

基于卷积神经网络的视频图像中家畜识别方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于卷积神经网络的视频图像中家畜识别方法及装置。

背景技术

计算机视觉技术起源于20世纪50年代，经过半个世纪的发展，目前已经广泛地应用于工业、医疗保险、航空航天、军事等各个领域，也划分出不同的方向，如图像分割、目标检测与目标跟踪等。随着人们对各个领域更加深入的研究，处理计算机视觉问题的技术也在不断更新。

目标检测，是指通过图像处理技术、模式识别、深度学习等领域的知识与方法，对视频图像中感兴趣的对象实现定位和分类。目标检测任务主要分为目标定位和目标分类两个任务。目标定位负责检测目标的位置，目标分类负责判断目标的类别。传统的目标检测算法主要分为两种：基于特征点匹配的目标检测算法和基于滑窗定位的目标检测算法。随着神经网络的发展，基于神经网络的目标检测技术发展起来，包括R-CNN，YOLO，SSD等算法，此类算法能够识别多种目标，在许多测试数据集上拥有优异的表现，但将此类算法在处理视频图像中的效果不好，性能有待提高。

发明内容

发明目的：本发明针对现有技术存在的问题，提供一种性能和效果更好的基于卷积神经网络的视频图像中家畜识别方法及装置。

技术方案：本发明所述的基于卷积神经网络的视频图像中家畜识别方法包括：

(1)建立家畜识别网络，所述家畜网络具体为YOLOv3改进网络，所述YOLOv3改进网络将YOLOv3网络的损失函数改进为：

式中，S²为网格的数目，B为先验框的数目，

表示第i个网格的第j个先验框是否存在目标，存在为1不存在为0，

表示第i个网格的第j个先验框的坐标向量，坐标向量中从第一项到第四项分别对应表示该框中心点横坐标、纵坐标、宽、高，

表示第i个网格的第j个真实框的坐标向量，

表示第i个网格的第j个预测框的坐标向量；C_ij为实际置信度，

为预测置信度，p_ij(c)为c类存在的概率，

为预测框中c类存在的概率；

(2)采集若干已知家畜的图像，对图片进行特征提取，将提取的特征作为训练样本，输入家畜识别网络进行训练；

(3)获取待识别家畜视频，将视频划分为若干图像帧，对图像帧进行特征提取，并输入训练好的家畜识别网络，从而识别出所有家畜。

进一步的，步骤(2)和(3)中特征提取的步骤具体为：将图片进行放缩变换，变换到416×416像素的同一尺度；使用darknet53网络对图片进行特征提取，得到三个尺度的特征。

进一步的，对家畜识别网络进行训练时采用迁移学习方式。识别到的所有家畜采用矩形框标记。

本发明所述的基于卷积神经网络的视频图像中家畜识别装置包括处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

有益效果：本发明与现有技术相比，其显著优点是：本发明对YOLOv3网络进行了改进，改进后的网络提高了边缘目标和模糊目标的检测效果，性能进一步提高，检测准确率为84.52％，可以使家畜管理者更加方便的利用视频监控，减轻牧场管理者的压力。

附图说明

图1是本发明提供的基于卷积神经网络的视频图像中家畜识别方法的流程示意图；

图2是Darknet-53网络结构图；

图3是残差网络结构图；

图4为本发明中识别结果样张；

图5为羊只监控系统的总示意图；

图6为羊场监控设备的安装示意图；

图7为本发明的训练误差曲线图；

图8为本发明羊场监控检测样张示意图。

具体实施方式

本实施例提供了一种基于卷积神经网络的视频图像中家畜识别方法，如图1所示，包括：

(1)建立家畜识别网络，所述家畜网络具体为YOLOv3改进网络。

所述YOLOv3改进网络将YOLOv3网络的损失函数进行了改进，所述YOLOv3网络为传统经典网络，本发明将其损失函数进行了改进，其他地方与YOLOv3网络一致，

YOLOv3网络在对目标进行检测时，使用基于先验框的边框回归，对于输出的目标框，用坐标形式表示为一个4维向量(x,y,w,h)，x和y分别表示边框中心点位置，w和h表示宽和高。边框回归就是找到某种方式使先验框接近真实框，回归公式为

其中，先验框坐标为(c_x,c_y,p_w,p_h)，真实框为(g_x,g_y,g_w,g_h)。c_x、c_y、g_x、g_y为网格相对于左上角的像素归一化值，范围为0-13，p_w、p_h、g_w、g_h为先验框和真实框相对于网格的大小，范围也为0-13，均为已知量。σ为sigmoid函数将平移限制到0到1的范围内使之中心点不出网格。t_x、t_y、t_w、t_h为变换时的参数，也是要网络需要学习的部分。使用的先验框大小为表1所示。

表1

在训练中，为了调整模型，使之适应数据集的效果，需要设计损失函数来优化模型，本发明YOLOv3改进网络改进后的损失函数为：

含有目标的预测框框平移偏移量的交叉熵误差，包括横向平移误差和纵向平移误差，横向平移误差为：

纵向平移误差为：

边框放缩偏移量的平方误差：

含有目标的网格中置信度的交叉熵误差：

含有目标的预测框的分类误差的交叉熵误差：

损失函数为以上5个式子的和，其中含有目标的预测框框平移偏移量的交叉熵误差可以提高边缘目标和模糊目标的检测效果；

式中，S²为网格的数目，B为先验框的数目，

表示第i个网格的第j个真实框的坐标向量，

为预测置信度，p_ij(c)为c类存在的概率，

为预测框中c类存在的概率。

(2)采集若干已知家畜的图像，对图片进行特征提取，将提取的特征作为训练样本，输入家畜识别网络进行训练。

其中，特征提取采用darknet53网络，Darknet-53网络是基于残差层的网络结构，残差层的结构与传统的卷积模块不同，随着卷积神经网络的深度越来越深，网络对图像特征的提取能力越来越强，可是，随着网络的不断加深，网络的收敛速度变的更慢，出现了梯度弥散和梯度爆炸等问题，而残差网络可以有效的解决这个问题。其公式如下

y^l＝F(x^l)+w_sx^l

其中，第l层的输入为x^l，输出为y^l均为多维的向量，F为卷积层的映射关系，w_s为1×1卷积的向量形式。最终构建了网络结构如图2所示，其中，每个方块表示一个特征图，是一个3维的向量，f为滤波器(或卷积核)的大小，如3×3×32表示滤波器的大小为3×3，有32个这样的滤波器组成一个3维的3×3×32向量；s表示滤波器移动的步长，s为1时表示卷积，为2时表示池化；其中res1到res5为前文提到的残差层操作，res1×1表示有一个res1层，每个残差层的结构如图3所示。

特征提取的步骤具体为：将图片进行放缩变换，变换到416×416像素的同一尺度，并存储为416×416×3大小的向量，使用darknet53网络对图片进行特征提取，输出大小为52×52×512、26×26×512和13×13×1024大小的特征图，通过对特征图进行分类训练得到52×52×18、26×26×18和13×13×18维的向量，对应着52×52、26×26和13×13大小的网格单元。网络训练时，由于使用的数据较小，使用迁移学习的方式，先在已有数据集上训练，然后在制作的数据集上微调，使损失函数最小。

(3)获取待识别家畜视频，将视频划分为若干图像帧，对图像帧进行特征提取，并输入训练好的家畜识别网络，从而识别出所有家畜，识别到的所有家畜采用矩形框标记，如图4所示。

本实施例还提供了一种基于卷积神经网络的视频图像中家畜识别装置，包括处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

为了测试本发明效果，在呼和浩特某牧场的进行了测验，系统的总流程如图5所示。采用监控录像来制作数据集，监控的安装位置如图6所示，录像的获取通过软件平台萤石云获得，萤石云可以提供基于视频的综合性服务，可以实现对远程硬件的使用，通过萤石云获取牧场中山羊的监控视频。在获取视频时，选择了上午和下午不同时间段的视频，通过截取视频帧来作为数据集中的图片，由于羊只多数时间都为静止状态，为了获取到羊只多个特征的图片，选择每10分钟截取一张图片，截取了大量图片，其大小为2560×1440像素。虽然使用了大时间间隔截取图片，但图片中的羊只特征还是较为单一，使用了数据增强的方法，对其中的部分图片进行了翻转、位移、色度、亮度、对比度调整等操作，对数据集进行扩充，提高数据的普适性，使模型能够更好地适应不同的变化，最终，得到了适用于牧场监控视频的羊只数据集。将数据集输入YOLOv3改进网络进行训练。训练的误差曲线如图7，检测的效果如图8。可以看出，本发明对羊只可以做到较高的识别率，但也存在一些问题，如目标聚集在一起时，会出现较为严重的遮挡，此时会出现误检和漏检的问题。

以上所揭露的仅为本发明一种较佳实施例而已，不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。