CN112651381A - 基于卷积神经网络的视频图像中家畜识别方法及装置 - Google Patents

基于卷积神经网络的视频图像中家畜识别方法及装置 Download PDF

Info

Publication number
CN112651381A
CN112651381A CN202110047803.2A CN202110047803A CN112651381A CN 112651381 A CN112651381 A CN 112651381A CN 202110047803 A CN202110047803 A CN 202110047803A CN 112651381 A CN112651381 A CN 112651381A
Authority
CN
China
Prior art keywords
livestock
network
convolutional neural
video
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110047803.2A
Other languages
English (en)
Inventor
陈明
刘维丰
王丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tongshenghong Data Co ltd
Original Assignee
Nanjing Tongshenghong Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tongshenghong Data Co ltd filed Critical Nanjing Tongshenghong Data Co ltd
Priority to CN202110047803.2A priority Critical patent/CN112651381A/zh
Publication of CN112651381A publication Critical patent/CN112651381A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于卷积神经网络的视频图像中家畜识别方法及装置,主要包括:(1)建立家畜识别网络,所述家畜网络具体为YOLOv3改进网络,所述YOLOv3改进网络将YOLOv3网络的损失函数进行了改进;(2)采集若干已知家畜的图像,对图片进行特征提取,将提取的特征作为训练样本,输入家畜识别网络进行训练;(3)获取待识别家畜视频,将视频划分为若干图像帧,对图像帧进行特征提取,并输入训练好的家畜识别网络,从而识别出所有家畜。本发明识别性能和效果更好。

Description

基于卷积神经网络的视频图像中家畜识别方法及装置
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于卷积神经网络的视频图像中家畜识别方法及装置。
背景技术
计算机视觉技术起源于20世纪50年代,经过半个世纪的发展,目前已经广泛地应用于工业、医疗保险、航空航天、军事等各个领域,也划分出不同的方向,如图像分割、目标检测与目标跟踪等。随着人们对各个领域更加深入的研究,处理计算机视觉问题的技术也在不断更新。
目标检测,是指通过图像处理技术、模式识别、深度学习等领域的知识与方法,对视频图像中感兴趣的对象实现定位和分类。目标检测任务主要分为目标定位和目标分类两个任务。目标定位负责检测目标的位置,目标分类负责判断目标的类别。传统的目标检测算法主要分为两种:基于特征点匹配的目标检测算法和基于滑窗定位的目标检测算法。随着神经网络的发展,基于神经网络的目标检测技术发展起来,包括R-CNN,YOLO,SSD等算法,此类算法能够识别多种目标,在许多测试数据集上拥有优异的表现,但将此类算法在处理视频图像中的效果不好,性能有待提高。
发明内容
发明目的:本发明针对现有技术存在的问题,提供一种性能和效果更好的基于卷积神经网络的视频图像中家畜识别方法及装置。
技术方案:本发明所述的基于卷积神经网络的视频图像中家畜识别方法包括:
(1)建立家畜识别网络,所述家畜网络具体为YOLOv3改进网络,所述YOLOv3改进网络将YOLOv3网络的损失函数改进为:
Figure BDA0002897914770000011
Figure BDA0002897914770000021
式中,S2为网格的数目,B为先验框的数目,
Figure BDA0002897914770000022
表示第i个网格的第j个先验框是否存在目标,存在为1不存在为0,
Figure BDA0002897914770000023
Figure BDA0002897914770000024
Figure BDA0002897914770000025
表示第i个网格的第j个先验框的坐标向量,坐标向量中从第一项到第四项分别对应表示该框中心点横坐标、纵坐标、宽、高,
Figure BDA0002897914770000026
表示第i个网格的第j个真实框的坐标向量,
Figure BDA0002897914770000027
表示第i个网格的第j个预测框的坐标向量;Cij为实际置信度,
Figure BDA0002897914770000028
为预测置信度,pij(c)为c类存在的概率,
Figure BDA0002897914770000029
为预测框中c类存在的概率;
(2)采集若干已知家畜的图像,对图片进行特征提取,将提取的特征作为训练样本,输入家畜识别网络进行训练;
(3)获取待识别家畜视频,将视频划分为若干图像帧,对图像帧进行特征提取,并输入训练好的家畜识别网络,从而识别出所有家畜。
进一步的,步骤(2)和(3)中特征提取的步骤具体为:将图片进行放缩变换,变换到416×416像素的同一尺度;使用darknet53网络对图片进行特征提取,得到三个尺度的特征。
进一步的,对家畜识别网络进行训练时采用迁移学习方式。识别到的所有家畜采用矩形框标记。
本发明所述的基于卷积神经网络的视频图像中家畜识别装置包括处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
有益效果:本发明与现有技术相比,其显著优点是:本发明对YOLOv3网络进行了改进,改进后的网络提高了边缘目标和模糊目标的检测效果,性能进一步提高,检测准确率为84.52%,可以使家畜管理者更加方便的利用视频监控,减轻牧场管理者的压力。
附图说明
图1是本发明提供的基于卷积神经网络的视频图像中家畜识别方法的流程示意图;
图2是Darknet-53网络结构图;
图3是残差网络结构图;
图4为本发明中识别结果样张;
图5为羊只监控系统的总示意图;
图6为羊场监控设备的安装示意图;
图7为本发明的训练误差曲线图;
图8为本发明羊场监控检测样张示意图。
具体实施方式
本实施例提供了一种基于卷积神经网络的视频图像中家畜识别方法,如图1所示,包括:
(1)建立家畜识别网络,所述家畜网络具体为YOLOv3改进网络。
所述YOLOv3改进网络将YOLOv3网络的损失函数进行了改进,所述YOLOv3网络为传统经典网络,本发明将其损失函数进行了改进,其他地方与YOLOv3网络一致,
YOLOv3网络在对目标进行检测时,使用基于先验框的边框回归,对于输出的目标框,用坐标形式表示为一个4维向量(x,y,w,h),x和y分别表示边框中心点位置,w和h表示宽和高。边框回归就是找到某种方式使先验框接近真实框,回归公式为
Figure BDA0002897914770000031
其中,先验框坐标为(cx,cy,pw,ph),真实框为(gx,gy,gw,gh)。cx、cy、gx、gy为网格相对于左上角的像素归一化值,范围为0-13,pw、ph、gw、gh为先验框和真实框相对于网格的大小,范围也为0-13,均为已知量。σ为sigmoid函数将平移限制到0到1的范围内使之中心点不出网格。tx、ty、tw、th为变换时的参数,也是要网络需要学习的部分。使用的先验框大小为表1所示。
表1
Figure BDA0002897914770000032
Figure BDA0002897914770000041
在训练中,为了调整模型,使之适应数据集的效果,需要设计损失函数来优化模型,本发明YOLOv3改进网络改进后的损失函数为:
含有目标的预测框框平移偏移量的交叉熵误差,包括横向平移误差和纵向平移误差,横向平移误差为:
Figure BDA0002897914770000042
纵向平移误差为:
Figure BDA0002897914770000043
边框放缩偏移量的平方误差:
Figure BDA0002897914770000044
含有目标的网格中置信度的交叉熵误差:
Figure BDA0002897914770000045
含有目标的预测框的分类误差的交叉熵误差:
Figure BDA0002897914770000046
损失函数为以上5个式子的和,其中含有目标的预测框框平移偏移量的交叉熵误差可以提高边缘目标和模糊目标的检测效果;
式中,S2为网格的数目,B为先验框的数目,
Figure BDA0002897914770000047
表示第i个网格的第j个先验框是否存在目标,存在为1不存在为0,
Figure BDA0002897914770000048
Figure BDA0002897914770000049
Figure BDA00028979147700000410
表示第i个网格的第j个先验框的坐标向量,坐标向量中从第一项到第四项分别对应表示该框中心点横坐标、纵坐标、宽、高,
Figure BDA00028979147700000411
表示第i个网格的第j个真实框的坐标向量,
Figure BDA00028979147700000412
表示第i个网格的第j个预测框的坐标向量;Cij为实际置信度,
Figure BDA0002897914770000051
为预测置信度,pij(c)为c类存在的概率,
Figure BDA0002897914770000052
为预测框中c类存在的概率。
(2)采集若干已知家畜的图像,对图片进行特征提取,将提取的特征作为训练样本,输入家畜识别网络进行训练。
其中,特征提取采用darknet53网络,Darknet-53网络是基于残差层的网络结构,残差层的结构与传统的卷积模块不同,随着卷积神经网络的深度越来越深,网络对图像特征的提取能力越来越强,可是,随着网络的不断加深,网络的收敛速度变的更慢,出现了梯度弥散和梯度爆炸等问题,而残差网络可以有效的解决这个问题。其公式如下
yl=F(xl)+wsxl
其中,第l层的输入为xl,输出为yl均为多维的向量,F为卷积层的映射关系,ws为1×1卷积的向量形式。最终构建了网络结构如图2所示,其中,每个方块表示一个特征图,是一个3维的向量,f为滤波器(或卷积核)的大小,如3×3×32表示滤波器的大小为3×3,有32个这样的滤波器组成一个3维的3×3×32向量;s表示滤波器移动的步长,s为1时表示卷积,为2时表示池化;其中res1到res5为前文提到的残差层操作,res1×1表示有一个res1层,每个残差层的结构如图3所示。
特征提取的步骤具体为:将图片进行放缩变换,变换到416×416像素的同一尺度,并存储为416×416×3大小的向量,使用darknet53网络对图片进行特征提取,输出大小为52×52×512、26×26×512和13×13×1024大小的特征图,通过对特征图进行分类训练得到52×52×18、26×26×18和13×13×18维的向量,对应着52×52、26×26和13×13大小的网格单元。网络训练时,由于使用的数据较小,使用迁移学习的方式,先在已有数据集上训练,然后在制作的数据集上微调,使损失函数最小。
(3)获取待识别家畜视频,将视频划分为若干图像帧,对图像帧进行特征提取,并输入训练好的家畜识别网络,从而识别出所有家畜,识别到的所有家畜采用矩形框标记,如图4所示。
本实施例还提供了一种基于卷积神经网络的视频图像中家畜识别装置,包括处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
为了测试本发明效果,在呼和浩特某牧场的进行了测验,系统的总流程如图5所示。采用监控录像来制作数据集,监控的安装位置如图6所示,录像的获取通过软件平台萤石云获得,萤石云可以提供基于视频的综合性服务,可以实现对远程硬件的使用,通过萤石云获取牧场中山羊的监控视频。在获取视频时,选择了上午和下午不同时间段的视频,通过截取视频帧来作为数据集中的图片,由于羊只多数时间都为静止状态,为了获取到羊只多个特征的图片,选择每10分钟截取一张图片,截取了大量图片,其大小为2560×1440像素。虽然使用了大时间间隔截取图片,但图片中的羊只特征还是较为单一,使用了数据增强的方法,对其中的部分图片进行了翻转、位移、色度、亮度、对比度调整等操作,对数据集进行扩充,提高数据的普适性,使模型能够更好地适应不同的变化,最终,得到了适用于牧场监控视频的羊只数据集。将数据集输入YOLOv3改进网络进行训练。训练的误差曲线如图7,检测的效果如图8。可以看出,本发明对羊只可以做到较高的识别率,但也存在一些问题,如目标聚集在一起时,会出现较为严重的遮挡,此时会出现误检和漏检的问题。
以上所揭露的仅为本发明一种较佳实施例而已,不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (5)

1.一种基于卷积神经网络的视频图像中家畜识别方法,其特征在于该方法包括:
(1)建立家畜识别网络,所述家畜网络具体为YOLOv3改进网络,所述YOLOv3改进网络将YOLOv3网络的损失函数改进为:
Figure FDA0002897914760000011
式中,S2为网格的数目,B为先验框的数目,
Figure FDA0002897914760000012
表示第i个网格的第j个先验框是否存在目标,存在为1不存在为0,
Figure FDA0002897914760000013
Figure FDA0002897914760000014
Figure FDA0002897914760000015
表示第i个网格的第j个先验框的坐标向量,坐标向量中从第一项到第四项分别对应表示该框中心点横坐标、纵坐标、宽、高,
Figure FDA0002897914760000016
表示第i个网格的第j个真实框的坐标向量,
Figure FDA0002897914760000017
表示第i个网格的第j个预测框的坐标向量;Cij为实际置信度,
Figure FDA0002897914760000018
为预测置信度,pij(c)为c类存在的概率,
Figure FDA0002897914760000019
为预测框中c类存在的概率;
(2)采集若干已知家畜的图像,对图片进行特征提取,将提取的特征作为训练样本,输入家畜识别网络进行训练;
(3)获取待识别家畜视频,将视频划分为若干图像帧,对图像帧进行特征提取,并输入训练好的家畜识别网络,从而识别出所有家畜。
2.根据权利要求1所述的基于卷积神经网络的视频图像中家畜识别方法,其特征在于:步骤(2)和(3)中特征提取的步骤具体为:
将图片进行放缩变换,变换到416×416像素的同一尺度;
使用darknet53网络对图片进行特征提取,得到三个尺度的特征。
3.根据权利要求1所述的基于卷积神经网络的视频图像中家畜识别方法,其特征在于:对家畜识别网络进行训练时采用迁移学习方式。
4.根据权利要求1所述的基于卷积神经网络的视频图像中家畜识别方法,其特征在于:识别到的所有家畜采用矩形框标记。
5.一种基于卷积神经网络的视频图像中家畜识别装置,其特征在于包括处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述程序时实现权利要求1-4中任意一项所述的方法。
CN202110047803.2A 2021-01-14 2021-01-14 基于卷积神经网络的视频图像中家畜识别方法及装置 Pending CN112651381A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110047803.2A CN112651381A (zh) 2021-01-14 2021-01-14 基于卷积神经网络的视频图像中家畜识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110047803.2A CN112651381A (zh) 2021-01-14 2021-01-14 基于卷积神经网络的视频图像中家畜识别方法及装置

Publications (1)

Publication Number Publication Date
CN112651381A true CN112651381A (zh) 2021-04-13

Family

ID=75368133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110047803.2A Pending CN112651381A (zh) 2021-01-14 2021-01-14 基于卷积神经网络的视频图像中家畜识别方法及装置

Country Status (1)

Country Link
CN (1) CN112651381A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112265881A (zh) * 2020-10-26 2021-01-26 广州广日电梯工业有限公司 家畜的电梯监控系统、监控方法、监控装置及存储介质
CN113537244A (zh) * 2021-07-23 2021-10-22 深圳职业技术学院 一种基于轻量化YOLOv4的家畜图像目标检测方法及装置
CN114500960A (zh) * 2022-04-06 2022-05-13 潍坊学院 一种畜禽牧场的巡视与报警管理系统及方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112265881A (zh) * 2020-10-26 2021-01-26 广州广日电梯工业有限公司 家畜的电梯监控系统、监控方法、监控装置及存储介质
CN112265881B (zh) * 2020-10-26 2022-03-29 广州广日电梯工业有限公司 家畜的电梯监控系统、监控方法、监控装置及存储介质
CN113537244A (zh) * 2021-07-23 2021-10-22 深圳职业技术学院 一种基于轻量化YOLOv4的家畜图像目标检测方法及装置
CN113537244B (zh) * 2021-07-23 2024-03-15 深圳职业技术学院 一种基于轻量化YOLOv4的家畜图像目标检测方法及装置
CN114500960A (zh) * 2022-04-06 2022-05-13 潍坊学院 一种畜禽牧场的巡视与报警管理系统及方法
CN114500960B (zh) * 2022-04-06 2022-08-02 潍坊学院 一种畜禽牧场的巡视与报警管理系统及方法

Similar Documents

Publication Publication Date Title
CN111460968B (zh) 基于视频的无人机识别与跟踪方法及装置
CN112651381A (zh) 基于卷积神经网络的视频图像中家畜识别方法及装置
CN108009515B (zh) 一种基于fcn的无人机航拍图像的输电线定位识别方法
EP3968179A1 (en) Place recognition method and apparatus, model training method and apparatus for place recognition, and electronic device
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
CN110532970B (zh) 人脸2d图像的年龄性别属性分析方法、系统、设备和介质
CN108573499B (zh) 一种基于尺度自适应和遮挡检测的视觉目标跟踪方法
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN105701467A (zh) 一种基于人体形态特征的多人异常行为识别方法
CN110647802A (zh) 基于深度学习的遥感影像舰船目标检测方法
CN110992378B (zh) 基于旋翼飞行机器人的动态更新视觉跟踪航拍方法及系统
CN111508006A (zh) 一种基于深度学习的运动目标同步检测、识别与跟踪方法
CN116503399B (zh) 基于yolo-afps的绝缘子污闪检测方法
CN110991256A (zh) 一种基于人脸特征进行年龄估计、和/或性别识别的系统及方法
Singh et al. Performance enhancement of salient object detection using superpixel based Gaussian mixture model
Guo et al. Grape leaf disease detection based on attention mechanisms
CN116740652B (zh) 一种基于神经网络模型的锈斑面积扩大的监测方法与系统
CN113297982A (zh) 一种面向航拍改进kcf和dsst相结合的目标检测方法
Yuan et al. Impact of dataset on the study of crop disease image recognition.
CN111951298B (zh) 一种融合时间序列信息的目标跟踪方法
CN114581769A (zh) 一种基于无监督聚类的在建房屋识别方法
CN114743257A (zh) 图像目标行为的检测识别方法
WO2021017289A1 (zh) 在视频中定位对象的方法、装置、计算机设备及存储介质
CN112419227B (zh) 基于小目标搜索缩放技术的水下目标检测方法和系统
Leipnitz et al. The effect of image resolution in the human presence detection: A case study on real-world image data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination