CN117133014A - 一种生猪面部关键点检测方法 - Google Patents

一种生猪面部关键点检测方法 Download PDF

Info

Publication number
CN117133014A
CN117133014A CN202310663816.1A CN202310663816A CN117133014A CN 117133014 A CN117133014 A CN 117133014A CN 202310663816 A CN202310663816 A CN 202310663816A CN 117133014 A CN117133014 A CN 117133014A
Authority
CN
China
Prior art keywords
model
live pig
key points
module
key point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310663816.1A
Other languages
English (en)
Inventor
徐爱俊
黄志杰
周素茵
盛曦
翁晓星
项云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongrun Agriculture And Animal Husbandry Technology Zhejiang Co ltd
Zhejiang A&F University ZAFU
Original Assignee
Zhongrun Agriculture And Animal Husbandry Technology Zhejiang Co ltd
Zhejiang A&F University ZAFU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongrun Agriculture And Animal Husbandry Technology Zhejiang Co ltd, Zhejiang A&F University ZAFU filed Critical Zhongrun Agriculture And Animal Husbandry Technology Zhejiang Co ltd
Priority to CN202310663816.1A priority Critical patent/CN117133014A/zh
Publication of CN117133014A publication Critical patent/CN117133014A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种生猪面部关键点检测方法,包括以下步骤,构建生猪面部图像的数据集;使用Labelme工具对所述数据集进行目标框和关键点标注,其中目标框标注范围为猪只面部;基于YOLOv5Face模型,将原有的YOLOv5s模型骨干替换为MobileOne重参数化骨干网络,然后融合解耦全连接注意力模块构成MOB‑DFC模块,再将特征金字塔中的上采样替换为轻量化上采样算子CARAFE,将YOLOv5s‑Face模型改进为YOLO‑MOB‑DFC模型;利用所述YOLO‑MOB‑DFC模型对图像进行预测,生成目标的类别、边界框的坐标、五个关键点的位置信息以及置信度完成生猪面部关键点检测。本发明的有益效果:平均检测精度达到了99%,比YOLOv5s模型提高了2.48个百分点,同时参数量降低了18%,NME为0.02344,检测速度为153FPS,实现了低参数量、快速和高精度的猪脸关键点的检测。

Description

一种生猪面部关键点检测方法
技术领域
本发明涉及的猪脸检测识别的技术领域,尤其涉及一种生猪面部关键点检测方法。
背景技术
随着生猪养殖业的快速发展,基于非侵入式身份智能识别的生猪智能饲喂、体尺测量和体重预估等数字化的智慧养殖方式受到了广泛关注。目前,常见的生猪个体身份识别主要采用侵入式的方式,如佩戴耳标、打耳缺、画标记等方式。这些方法均有一定的局限性,耳标存在易污染、易损坏、射频信号距离有限等问题;耳缺会使猪只产生应激反应,造成伤口感染;背部标记符号容易褪色,且劳动力成本较高。近年来,基于猪脸识别的非侵入式生猪身份识别成为研究热点,生猪易动且面部姿态多变,导致猪脸关键点提取不准确,且目前没有准确快捷的猪脸关键点检测方法。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明解决的技术问题是:如何提供一种能够满足猪脸数据精确、便捷、快速采集需求的生猪面部关键点检测方法。
为解决上述技术问题,本发明提供如下技术方案:一种生猪面部关键点检测方法,包括以下步骤,构建生猪面部图像的数据集;使用Labelme工具对所述数据集进行目标框和关键点标注,其中目标框标注范围为猪只面部;基于YOLOv5Face模型,将原有的YOLOv5s模型骨干替换为MobileOne重参数化骨干网络,然后融合解耦全连接注意力模块构成MOB-DFC模块,再将特征金字塔中的上采样替换为轻量化上采样算子CARAFE,将YOLOv5s-Face模型改进为YOLO-MOB-DFC模型;利用所述YOLO-MOB-DFC模型对图像进行预测,生成目标的类别、边界框的坐标、五个关键点的位置信息以及置信度完成生猪面部关键点检测。
优选的,所述MOB-DFC模块由MobileOne Block和解耦全连接注意力机制构成,且所述MOB-DFC模块通过下采样将特征图的大小缩小,再通过1×5和5×1非对称卷积提取特征,使用双线性插值上采样还原特征图,以匹配MobileOne Block分支特征的分辨率大小。
优选的,包括以下步骤,所述MOB-DFC模块使用全连接层实现注意力图的方式如下式(1),式(1)中元素乘法符号⊙表示两个矩阵对应元素相乘的操作,
ahw=∑h′,w′Fhw,h′w′⊙zh′w′ (1)
式中元素乘法符号⊙表示两个矩阵对应元素相乘的操作,将其分解成两个方向的卷积操作,并分别表示为式(2)和式(3),其中H和W分别表示卷积核的高度和宽度;
式(2)和式(3)中,a′hw表示经过垂直方向卷积后输出特征图中的第h行w列的像素值,zh′w表示第h′行w列的输入特征图像素值,代表卷积核在h和h′行之间的权重值,式(2)和式(3)分别对输入特征图进行垂直和水平方向的卷积操作,生成特征图,从而提取局部特征并捕捉远处的空间信息。
优选的,所述轻量化上采样算子CARAFE由上采样模块和特征重组模块组成,利用上采样预测模块生成上采样核,再将特征重组模块与上采样核进行重组。
优选的,还包括对所述YOLOv5Face模型的边框损失函数改进,包括以下步骤,将YOLOv5Face中的CloU损失函数替换为EloU损失函数,EloU损失函数中同时引入了FocalLoss解决了难易样本不平衡的问题,使得目标框回归过程更专注于锚框的质量,如下式(4),
式(4)中,IoU为真实边界框与预测边界框之间的交并比,ρ2(b,bgt)是预测边界框中心与真实边界框中心的欧式距离,w和h分别为预测边界框的宽和高,wgt和hgt分别为真实边界框的宽和高。
优选的,所述关键点标注为生猪面部关键点,其包括双眼、两侧鼻翼及鼻尖中心。
优选的,所述YOLOv5Face模型在YOLOv5预测边界框基础上,添加五个关键点,将Wing Ioss作为损失函数对关键点进行约束,使用分类损失、定位损失、置信度损失和关键点损失构成的损失函数,如下式,
Loss=λ1Lcls2Lobj3Lloc4L1m (7)
式(5)中,预测值的范围为0-1,ω用于将非限制性的部分的范围限制在[-ω,ω]区间内,ε用于约束非线性区域的曲率,用来平滑连接分段的线性和非线性部分,,式(6)是Wing loss损失,式(7)为损失函数整体,λ为损失权重。
优选的,所述YOLOv5Face模型的结构改进包括,将YOLOv5中Focus模块替换为Stem模块,同时SPP模块中使用更小的池化核,将池化核改为3、5、7。
优选的,构建生猪面部图像的数据集包括以下步骤,设置图像采样时间间隔设置为0.5s;将采样后的图像采用结构相似性判断前后两张图像的相似度,通过考量图像的亮度、对比度和结构过滤掉高相似度的图像;结构相似性的SSIM如下式(8)和(9),式中μx、μy为图像的平均灰度值;σx、σy为图像灰度标准差,C1、C2、C3为常数,防止分母为0,α、β、γ分别代表了不同特征在SSIM衡量中的占比,当取值为1时,将式(8)代入式(9)中得到式(10):
SSIM(x,y)=[l(x,y)]α·[c(x,y)]β·[s(x,y)]γ (9)
将SSIM阈值设置为整段视频的平均SSIM,即两张图像计算得出的SSIM值大于平均SSIM时,认为是相同的图像,反之则保留两张图像。
优选的,包括图像预处理的步骤,包括高斯模糊、椒盐噪声、位置平移、水平翻转、亮度调节、锐化、亮度调节的方式对图像进行增强。
优选的,所述检测方法的平均精度达到99.0%,检测速度为153FPS,关键点的标准化平均误差为2.344%;相比RetinaFace模型,平均精度提升了5.43%,模型参数量降低了78.59%,帧率提升了91.25%,标准化平均误差降低了2.774%;相较于YOLOv5s-Face模型,平均精度提高了2.48%,模型参数量降低了18.29%,标准化平均误差降低了0.567%。
本发明的有益效果:平均检测精度达到了99%,比YOLOv5s模型提高了2.48个百分点,同时参数量降低了18%,NME为2.344%,检测速度为153FPS,实现了低参数量、快速和高精度的猪脸关键点的检测。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明所述猪脸关键点标注的示意图;
图2为本发明所述生猪原始图像及增强图像的示意图;
图3为本发明所述改进后的模型网络YOLO-MOB-DFC模型总体结构图;
图4为本发明所述MobileOne Block结构示意图;
图5为本发明所述MOB-DFC模块的结构示意图;
图6为本发明所述不同模型的骨干网络生成注意力热图的示意图;
图7为本发明所述连续帧间NME曲线的示意图;
图8为本发明所述目标框及关键点的检测效果的对比示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
面部对齐是猪脸识别中至关重要的步骤,而实现面部对齐的必要前提是对面部关键点的精准检测。生猪易动且面部姿态多变,导致猪脸关键点提取不准确,且目前没有准确快捷的猪脸关键点检测方法。针对上述问题,本文提出了生猪面部关键点精准检测模型YOLO-MOB-DFC,创新性地将人脸关键点检测模型YOLOv5Face进行改进并用于猪脸关键点检测。首先,使用重参数化的MobileOne作为骨干网络降低了模型参数量;然后,融合解耦全连接注意力模块捕捉远距离空间位置像素之间的依赖性,使模型能够更多地关注猪面部区域,提升模型的检测性能;最后,采用轻量级上采样算子CARAFE充分感知邻域内聚合的上下文信息,使关键点提取更加准确。
具体的,生猪面部关键点精准检测方法包括以下实现内容:
一、数据集构建
数据采集:本实施例数据采集于浙江省杭州市余杭区瓶窑镇浙江清渚农牧有限公司的配怀舍和育肥舍,配怀舍以养殖丹系母猪为主,育肥舍养殖品种为长白猪。为避免单一设备采集的图像使得检测器的稳定性和适应性较差的问题,本研究分别选择iPhone 11和海康威视800W像素变焦摄像头作为猪脸数据采集设备,分辨率均为1920*1080像素,共采集后备母猪及怀孕母猪100头,面部视频250段,每头猪的视频拍摄间隔大于7天。由于母猪限位栏内采集到的图像仅包含单头生猪,数据较为单一,为增加数据多样性,本文另外从育肥舍使用高清摄像头采集220张复杂背景下多头猪的图像,并将其添加到数据集中。最终,形成了一个包含1019张生猪面部图像的数据集,其中训练集图像719张,验证集图像和测试集图像各150张。
为避免由于采集的视频帧间相似度较高可能导致模型出现过拟合的问题,将图像采样时间间隔设置为0.5s,采用结构相似性(Structure similarity index measure,SSIM)判断前后两张图像的相似度,通过比较图像的亮度、对比度和结构过滤掉高相似度的图像。如下SSIM公式为:
SSIM(x,y)=[l(x,y)]α·[c(x,y)]β·[s(x,y)]γ (2)
式中μx、μy为图像的平均灰度值;σx、σy为图像灰度标准差;C1、C2、C3为常数,防止分母为0;α、β、γ分别代表了不同特征在SSIM衡量中的占比,当取值为1时,将(1)代入公式(2)中得到公式(3):
本实施例根据多次实验结果,将SSIM阈值设置为整段视频的平均SSIM,即两张图像计算得出的SSIM值大于平均SSIM时,即被认为是相同的图像,仅保留其中一张,反之保留两张。
二、数据标注
本实施例使用Labelme工具对数据集进行目标框和关键点标注,其中目标框标注范围为猪只面部。生猪眼睛和额头部位存在着较多特征点但耳朵由于动作幅度较大不宜被选作特征点,因此本实施例标注的生猪面部关键点包括双眼、两侧鼻翼及鼻尖中心。猪脸关键点标注如图1所示。
三、图像预处理
为提高算法模型的泛化和对生猪面部关键点的检测能力,首先要对猪脸图像进行数据增强。本实施例使用高斯模糊、椒盐噪声、位置平移、水平翻转、亮度调节、锐化等多种方式对图像进行增强。经过离线图像增强之后,训练数据集719张图像扩充到4302张,使得数据具有更好的多样性,有助于网络学习到更多特征。数据增强结果如图2所示。
四、猪脸关键点检测方法
YOLOv5Face是基于YOLOv5的一种基于回归的人脸检测算法。该算法在YOLOv5预测边界框基础上,添加五个关键点,由于MTCNN中L2损失函数对小误差不敏感,将Wing loss作为损失函数对关键点进行约束,使用分类损失、定位损失、置信度损失和关键点损失构成的损失函数:
Loss=λ1Lcls2Lobi3Lloc4Llm (6)
式(4)中,预测值的范围为0-1,ω用于将非限制性的部分的范围限制在[-ω,ω]区间内,ε用于约束非线性区域的曲率,用来平滑连接分段的线性和非线性部分。公式(5)是Wing loss损失,式(6)为损失函数整体,λ为损失权重。
YOLOv5Face的结构大体上与YOLOv5保持一致,主要区别是其网络结构进行了优化,将YOLOv5中Focus模块替换为更加简单的Stem模块,既降低了计算复杂度又保持了模型精度。同时,SPP模块中使用更小的池化核,将池化核改为3、5、7,提升了检测精度。
本实施例基于YOLOv5Face进行改进,首先将原有的YOLOv5s骨干替换为MobileOne重参数化骨干网络,再将解耦全连接注意力机制和MobileOne Block融合,构成MOB-DFC(MobileOne Block-DFC)模块,增强局部特征,捕捉远距离的空间信息扩大感受野,再将特征金字塔中的上采样替换为轻量化上采样算子CARAFE(Content-Aware ReAssembly ofFeatures,CARAFE)充分利用特征信息,使关键点位置更加准确。最终预测头对图像进行预测,生成目标的类别和边界框的坐标、五个关键点的位置信息以及置信度。改进后的模型网络YOLO-MOB-DFC如图3所示,图3中五角星部分为改进部分。
五、引入重参数化骨干网络MobileOne
在实际的检测环境下,由于计算资源的有限性,需要降低模型的复杂度,即对骨干网络Backbone进行轻量化设计。MobileOne模型基于MobileNetV1设计,由大量的MobileOneBlock构成,在MobileOne Block结构使用了深度可分离卷积(Depthwise Convolution)和点卷积(Pointwise Convolution),吸收了RepVGG重参数的思想。MobileOne Block结构如图4所示,该结构使用重参数化的方法,先将k个卷积层和BN层合并为k个分组数为d的3×3卷积,再将这k个3×3卷积融合为一个卷积层,后再将多个分支结构相加,进入到激活函数。在模型训练阶段,尽可能让网络模型复杂以提取到更多有效的语义特征。在模型推理阶段,将多分支结构进行重参数化为单分支结构,使得模型变得更加简单,参数量减少,具有更快的推理速度。
六、融合解耦全连接注意力机制DFC attention
MobileOne骨干模型在局部特征提取方面表现良好,但其全局特征提取能力不足。同时,自注意力机制拥有长距离建模的能力,但其计算复杂度与输入分辨率大小呈二次方增长的关系,使得其对于高分辨率输入图像不够友好,无法有效处理高分辨率输入图像。为解决此问题,本实施例设计了MOB-DFC模块,该模块由MobileOne Block和解耦全连接注意力机制构成,前者用于提取局部特征,后者则用于捕捉远处空间信息,通过特征图与注意力地图对应元素乘积的方式来增强局部特征的表达能力。然而,直接引入解耦全连接注意力机制和MobileOne Block并行的方式会增加计算成本,因此通过下采样将特征图的大小缩小,再通过1×5和5×1非对称卷积提取特征,使用双线性插值上采样还原特征图,以匹配MobileOne Block分支特征的分辨率大小。MOB-DFC模块的结构如图5所示,在解耦全连接注意力机制中,沿着水平和垂直两个方向解耦全连接层,分别使用两个全连接层来聚合两个方向的长距离信息,从而省去推理过程中张量维度变换和矩阵转置等操作,进一步提升推理速度。
式(7)是使用全连接层实现注意力图的方式,式中元素乘法符号⊙表示两个矩阵对应元素相乘的操作。为了避免全连接层的计算复杂度过高,需将其分解成两个方向的卷积操作,并分别表示为式(8)和式(9),其中H和W分别表示卷积核的高度和宽度。式(8)和式(9)分别对输入特征图进行垂直和水平方向的卷积操作,生成特征图,从而提取局部特征并捕捉远处的空间信息。在式8和式9中,a′hw表示经过垂直方向卷积后输出特征图中的第h行w列的像素值,zh′w表示第h′行w列的输入特征图像素值,代表卷积核在h和h′行之间的权重值。因此,通过分解全连接层,可以在保持计算效率的同时,提高局部特征的表达能力,并提升模型的检测速度。
参照图6,为更加直观地体现DFC注意力机制的有效性,使用不同模型的骨干网络生成了注意力热图,并对其使用XGrad-CAM进行可视化分析,对比结果如图7所示。由图7可知,在YOLOv5s-Face和MobileOne的骨干网络之后生成的热图,生猪面部的关注区域相对较小,不能包含生猪完整的面部,并且在图像的其他部分也存在注意力区域,而YOLO-MOB-DFC模型骨干网络生成的热图中,注意力区域较完整地包含了生猪面部,提高了特征提取的有效性。
七、融合轻量上采样算子CARAFE
特征金字塔中,上采样操作尤为重要。最近邻差值和双线性插值这两种常用的上采样方法仅考虑了相邻的亚像素空间,缺乏语义信息并且感受野较小。反卷积虽然也可以进行上采样,但因采用了单一的卷积核,限制了对局部变化的差异感知能力,参数量较大。而感知特征重组上采样算子CARAFE可以弥补上述方法的缺陷,能够在每个位置都有不同的上采样卷积核,能够在全面感知邻域内聚合上下文信息,从而提升模型检测能力。CARAFE算子由上采样模块和特征重组模块组成,首先利用上采样预测模块生成上采样核,再将特征重组模块与上采样核进行重组。
八、替换EloU损失函数
为了使得目标框更为精准,本实施例将YOLOv5Face中的CloU损失函数替换为EloU损失函数,EloU在CloU的基础上,考虑了目标框的重叠面积和中心点距离,分别计算了检测框宽和高的差异值,取代了横纵比,同时引入了Focal Loss解决了难易样本不平衡的问题,使得目标框回归过程更专注于锚框的质量[27]。其计算公式为:
式(10)中,IoU为真实边界框与预测边界框之间的交并比,ρ2(b,bgt)是预测边界框中心与真实边界框中心的欧式距离,w和h分别为预测边界框的宽和高,wgt和hgt分别为真实边界框的宽和高。
实施例2
为验证上述实施例的生猪面部关键点检测方法的效果,本实施例进行实验结果与分析,具体如下。
1、实验环境
本实施例实验均在操作系统为Ubuntu 22.04、Intel Core i7-12700KF CPU、显卡为Nvidia GeForce RTX3090Ti的Ubuntu服务器上进行。训练过程使用CUDA 11.7加速,训练300Epoch,批量大小(barch size)根据不同模型占用显存进行调节,为2n个,初始学习率为0.01,使用一阶Adam优化器对其进行优化,采用余弦退火算法调节学习率。
2、评价指标
为能够客观评价猪脸关键点检测算法模型的性能,同时对预测框和预测关键点进行评估,本实施例采用的评价包括精确度(Precision,P)、召回率(Recall,R)、平均精度(Average Precision,AP)、计算参数量(Parameters)、标准化平均误差(Normalized MeanError,NME)和帧率(Frames Per Second,FPS),各指标计算公式如下:
式中,TP、FP、FN分别表示正确预测的生猪面部图像的数量、非生猪面部图像预测为生猪面部图像的数量和错误地将生猪面部图像预测为非生猪面部图像的数量。将精确度和召回率构成的PR曲线下方的面积定义为AP,即平均精度。式(14)中,xi为预测的第i个坐标,为第i个坐标的Ground-truth,d为两眼间距离,即关键点欧氏距离之和与关键点的个数及两眼之间距离的乘积之积,该值代表关键点预测的错误率,值越小表示关键点预测的准确度越高。检测速度采用FPS,即一秒之内处理的图像帧数,单位为f/s(帧/秒)。
3、实验结果
为验证模型YOLO-MOB-DFC的性能,使用自建猪脸测试数据集,首先与分别采用Resnet50和MobileNet骨干网络的两种主流人脸关键点检测模型RetinaFace进行对比,再与分别采用YOLOv5s-Face、MobileOne和RepVGG骨干网络的三种YOLOv5s-Face模型进行对比,结果如表1所示。
表1:不同模型实验结果。
由表1可知,YOLOv5-Face结构的模型相比RetinaFace各模型的效果更优,AP均超过96.6%。相比RetinaFace-Resnet50模型,YOLO-MOB-DFC的AP提升了5.43%,参数量降低了78.59%,帧率提升了91.25%,NME降低了2.774%;相比YOLOv5s-Face,YOLO-MOB-DFC在GPU上推理速度相近,但参数量降低了18.29%,AP提升了2.48%;相比MobileOne骨干,YOLO-MOB-DFC的P、R和AP分别提升了4.35%、2.98%、1.22%,NME降低了0.567%;相比RepVGG骨干,YOLO-MOB-DFC的AP值略有降低,但NME更小。由于添加了CARAFE算子,YOLO-MOB-DFC的推理速度有所下降,但NME最低,这表明其关键点预测位置更为精准,且速度和性能有着较好的平衡。
为验证模型所添加模块的有效性,本研究进行了消融实验,以YOLOv5s-Face作为基本结构,分别将特征提取骨干网络更换为含有DFC注意力的MobileOne骨干、EIoU损失函数和CARAFE算子,消融对比实验结果如表2所示。
表2:消融对比实验结果。
由表2可知,将YOLOv5s-Face的骨干网络中替换了MOB-DFC模块后,参数量相比改进前降低了21%,AP提升了1.86个百分点。将CIoU替换为EIoU后,AP值和FPS变化较小,但NME提升了0.836%。将原有的最近邻插值上采样替换为CARAFE算子后,参数量有所提升,推理速度略有下降,NME仅为1.606%,猪脸关键点预测位置最精准。与YOLOv5s-Face相比,改进后模型的AP提升了2.48%,参数量下降了18.29%,NME为2.344%,略低于仅含有CARAFE算子的YOLOv5s-Face模型。由于改进后的模型结构更加复杂,DFC注意力机制和CARAFE算子增加了计算复杂度,导致检测速度略有降低。
在实际环境中,生猪的面部姿态变化多端,因此本研究对运动中生猪面部关键点进行持续检测。为了评估模型的稳定性和准确性,选取了一段视频并截取其中连续的480帧进行了猪脸关键点检测,检测精度曲线如图7所示。在图7中出现的波峰,是因为猪脸姿态多变,出现了大角度侧脸,从而降低了关键点的准确性。对比改进后的模型和YOLOv5s-Face模型在这段视频中的表现可知,YOLOv5s-Face模型的帧间NME波动较大,改进后的模型连续帧间的NME波动更加稳定,说明该模型能够削弱猪脸姿态多变对关键点提取准确性的影响。
为直观展示目标框及关键点的检测效果,将RetinaFace、YOLOv5s-Face和YOLO-MOB-DFC进行对比,结果如图8所示。由图8(a~d)可知,RetinaFace模型检测到的生猪双眼关键点及鼻尖存在着较大误差;从图8(c)中可以看出,第二头猪的鼻尖关键点误差较大;图8(f~g)所示大角度侧脸和近距离图像中,由于生猪鼻翼两侧边缘不明显,出现了关键点漂移的情况,但图8(h)表明本文模型能够降低鼻翼边缘不明显对关键点检测准确性的影响,且模型预测框的置信度均高于其他模型。上述分析表明,本文模型检测关键点的准确度更高。
4、结论
针对猪只姿态多变导致其面部图像采集困难以及猪脸关键点检测误差大的问题,本实施例提出了一种基于改进YOLOv5Face模型的猪脸关键点检测方法。该方法通过融合重参数化的骨干网络、结合解耦全连接注意力机制,改进边框损失函数和替换CARAFE上采样算子优化深度学习网络,实现了猪脸关键点及边界框的高精度检测。实验结果表明,在参数设置和数据集相同的情况下,本实施例方法的平均检测精度达到了99%,比YOLOv5s模型提高了2.48个百分点,同时参数量降低了18%,NME为2.344%,检测速度为153FPS,实现了低参数量、快速和高精度的猪脸关键点的检测。相比其他关键点检测方法,本实施例模型不但能够检测出猪脸,还能够准确定位其5个面部关键点,可为后续猪只面部姿态评估和个体识别提供一定的技术参考。未来的研究可以进一步深入探究将其他品种的猪作为目标关键点检测对象,并构建适用于猪面部关键点的对齐方法,以提升算法模型的普适性,为生猪身份的开集识别奠定理论基础
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本实施例描述的过程的操作,除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本实施例所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
还应当理解的是,本发明通过实施方式加以描述,实施例仅为针对本发明权利要求所提出技术方案能够实现所给出清楚完整的说明,即对权利要求的解释说明,因此当评判本发明说明书记载的技术方案是否公开充分时,应当予以充分考虑权利要求所限定方案的旨在核心要义,而在说明书中必然存在与本实施例所提出解决核心技术问题相无关的其他技术问题,其对应的技术特征、技术方案均不属于本实施例要义所指,属于非必要技术特征,故可参照隐含公开,本领域技术人员完全可以结合现有技术和公知常识进行实现,因此无任何必要做详述。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种生猪面部关键点检测方法,其特征在于:包括以下步骤,
构建生猪面部图像的数据集;
使用Labelme工具对所述数据集进行目标框和关键点标注,其中目标框标注范围为猪只面部;
基于YOLOv5Face模型,将原有的YOLOv5s模型骨干替换为MobileOne重参数化骨干网络,然后融合解耦全连接注意力模块构成MOB-DFC模块,再将特征金字塔中的上采样替换为轻量化上采样算子CARAFE,将YOLOv5s-Face模型改进为YOLO-MOB-DFC模型;
利用所述YOLO-MOB-DFC模型对图像进行预测,生成目标的类别、边界框的坐标、五个关键点的位置信息以及置信度完成生猪面部关键点检测。
2.根据权利要求1所述的生猪面部关键点检测方法,其特征在于:所述MOB-DFC模块由MobileOne Block和解耦全连接注意力机制构成,且所述MOB-DFC模块通过下采样将特征图的大小缩小,再通过1×5和5×1非对称卷积提取特征,使用双线性插值上采样还原特征图,以匹配MobileOne Block分支特征的分辨率大小。
3.根据权利要求1所述的生猪面部关键点检测方法,其特征在于:包括以下步骤,
所述MOB-DFC模块使用全连接层实现注意力图的方式如下式(1),式(1)中元素乘法符号⊙表示两个矩阵对应元素相乘的操作,
ahw=∑h′,w′Fhw,h′w′⊙zh′w′ (1)
式中元素乘法符号⊙表示两个矩阵对应元素相乘的操作,将其分解成两个方向的卷积操作,并分别表示为式(2)和式(3),其中H和W分别表示卷积核的高度和宽度;
式(2)和式(3)中,a'hw表示经过垂直方向卷积后输出特征图中的第h行w列的像素值,zh′w表示第h′行w列的输入特征图像素值,代表卷积核在h和h′行之间的权重值,式(2)和式(3)分别对输入特征图进行垂直和水平方向的卷积操作,生成特征图,从而提取局部特征并捕捉远处的空间信息。
4.根据权利要求1所述的生猪面部关键点检测方法,其特征在于:所述轻量化上采样算子CARAFE由上采样模块和特征重组模块组成,利用上采样预测模块生成上采样核,再将特征重组模块与上采样核进行重组。
5.根据权利要求1所述的生猪面部关键点检测方法,其特征在于:还包括对所述YOLOv5Face模型的边框损失函数改进,包括以下步骤,
将YOLOv5Face中的CIoU损失函数替换为EIoU损失函数,EIoU损失函数中同时引入了Focal Loss,如下式(4),
式(4)中,IoU为真实边界框与预测边界框之间的交并比,ρ2(b,bgt)是预测边界框中心与真实边界框中心的欧式距离,w和h分别为预测边界框的宽和高,wgt和hgt分别为真实边界框的宽和高;
所述关键点标注为生猪面部关键点,其包括双眼、两侧鼻翼及鼻尖中心。
6.根据权利要求1所述的生猪面部关键点检测方法,其特征在于:所述YOLOv5Face模型在YOLOv5预测边界框基础上,添加五个关键点,将Wing loss作为损失函数对关键点进行约束,使用分类损失、定位损失、置信度损失和关键点损失构成的损失函数,如下式,
Loss=λ1Lcls2Lobj3Lloc4Llm (7)
式(5)中,预测值的范围为0-1,ω用于将非限制性的部分的范围限制在[-ω,ω]区间内,ε用于约束非线性区域的曲率,用来平滑连接分段的线性和非线性部分,,式(6)是Wingloss损失,式(7)为损失函数整体,λ为损失权重。
7.根据权利要求1所述的生猪面部关键点检测方法,其特征在于:所述YOLOv5Face模型基于YOLOv5的结构改进包括,将YOLOv5中Focus模块替换为Stem模块,同时SPP模块中使用更小的池化核,将池化核改为3、5、7。
8.根据权利要求1所述的生猪面部关键点检测方法,其特征在于:构建生猪面部图像的数据集包括以下步骤,
设置图像采样时间间隔设置为0.5s;
将采样后的图像采用结构相似性判断前后两张图像的相似度,通过考量图像的亮度、对比度和结构过滤掉高相似度的图像;
结构相似性的SSIM如下式(8)和(9),式中μx、μy为图像的平均灰度值;σx、σy为图像灰度标准差,C1、C2、C3为常数,防止分母为0,α、β、γ分别代表了不同特征在SSIM衡量中的占比,当取值为1时,将式(8)代入式(9)中得到式(10):
SSIM(x,y)=[l(x,y)]α·[c(x,y)]β·[s(x,y)]γ (9)
将SSIM阈值设置为整段视频的平均SSIM,即两张图像计算得出的SSIM值大于平均SSIM时,认为是相同的图像,反之则保留两张图像。
9.根据权利要求1所述的生猪面部关键点检测方法,其特征在于:包括图像预处理的步骤,包括高斯模糊、椒盐噪声、位置平移、水平翻转、亮度调节、锐化、亮度调节的方式对图像进行增强。
10.根据权利要求1所述的生猪面部关键点检测方法,其特征在于:所述检测方法的平均精度达到99.0%,检测速度为153FPS,关键点的标准化平均误差为2.344%;相比RetinaFace模型,平均精度提升了5.43%,模型参数量降低了78.59%,帧率提升了91.25%,标准化平均误差降低了2.774%;相较于YOLOv5s-Face模型,平均精度提高了2.48%,模型参数量降低了18.29%,标准化平均误差降低了0.567%。
CN202310663816.1A 2023-06-06 2023-06-06 一种生猪面部关键点检测方法 Pending CN117133014A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310663816.1A CN117133014A (zh) 2023-06-06 2023-06-06 一种生猪面部关键点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310663816.1A CN117133014A (zh) 2023-06-06 2023-06-06 一种生猪面部关键点检测方法

Publications (1)

Publication Number Publication Date
CN117133014A true CN117133014A (zh) 2023-11-28

Family

ID=88855371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310663816.1A Pending CN117133014A (zh) 2023-06-06 2023-06-06 一种生猪面部关键点检测方法

Country Status (1)

Country Link
CN (1) CN117133014A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708726A (zh) * 2024-02-05 2024-03-15 成都浩孚科技有限公司 网络模型解耦的开集合类别训练方法、装置及其存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708726A (zh) * 2024-02-05 2024-03-15 成都浩孚科技有限公司 网络模型解耦的开集合类别训练方法、装置及其存储介质
CN117708726B (zh) * 2024-02-05 2024-04-16 成都浩孚科技有限公司 网络模型解耦的开集合类别训练方法、装置及其存储介质

Similar Documents

Publication Publication Date Title
CN108197629B (zh) 一种基于标签相关性约束张量分解的多模态医学影像特征提取方法
CN109141248A (zh) 基于图像的猪体重测算方法及系统
CN109214366A (zh) 局部目标重识别方法、装置及系统
CN104143076B (zh) 人脸形状的匹配方法和系统
CN111476883B (zh) 多视角无标记动物的三维姿态轨迹重建方法及装置
CN107766864B (zh) 提取特征的方法和装置、物体识别的方法和装置
Sanaeifar et al. Advancing precision agriculture: The potential of deep learning for cereal plant head detection
JP2014211719A (ja) 情報処理装置およびその方法
CN117133014A (zh) 一种生猪面部关键点检测方法
CN109146925A (zh) 一种动态场景下显著性目标检测方法
Shi et al. Automatic estimation of dairy cow body condition score based on attention-guided 3D point cloud feature extraction
Zhaosheng et al. Rapid detection of wheat ears in orthophotos from unmanned aerial vehicles in fields based on YOLOX
Wu et al. A method for identifying grape stems using keypoints
Zhang et al. Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention
Su et al. Automatic tracking of the dairy goat in the surveillance video
Ma et al. Pig face recognition based on improved YOLOv4 lightweight neural network
Zhang et al. Research on target detection and recognition algorithm of Eriocheir sinensis carapace
Yang et al. Fusion of RetinaFace and improved FaceNet for individual cow identification in natural scenes
Xu et al. Region deformer networks for unsupervised depth estimation from unconstrained monocular videos
CN110956178B (zh) 一种基于图像相似度计算的植物生长测量方法、系统及电子设备
Dong et al. A detection-regression based framework for fish keypoints detection
CN111723688A (zh) 人体动作识别结果的评价方法、装置和电子设备
Li et al. Predicting positions and orientations of individual kiwifruit flowers and clusters in natural environments
Wu et al. Super-resolution fusion optimization for poultry detection: a multi-object chicken detection method
Zhao et al. A cascaded model based on efficientdet and yolact++ for instance segmentation of cow collar id tag in an image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination