CN116994287B

CN116994287B - 动物盘点方法、装置及动物盘点设备

Info

Publication number: CN116994287B
Application number: CN202310816512.4A
Authority: CN
Inventors: 赵瑞芳; 罗长寿; 栾汝朋; 陆阳; 魏清凤; 曹承忠; 余军; 郑亚明; 王富荣
Original assignee: Beijing Academy of Agriculture and Forestry Sciences
Current assignee: Beijing Academy of Agriculture and Forestry Sciences
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2024-05-24
Anticipated expiration: 2043-07-04
Also published as: CN116994287A

Abstract

本发明提供一种动物盘点方法、装置及动物盘点设备，通过将待检测图像输入基于YOLO V8的动物目标识别模型，得到检测结果，检测结果包括所述待检测图像中是否包括目标动物；根据每帧所述待检测图像对应的检测结果，对目标动物进行数量统计，得到目标动物的盘点结果；基于YOLO V8的动物目标识别模型包括多个检测头，每个所述检测头中添加无参数注意力机制，无参数注意力机制用于加强待检测图像中所述目标动物的特征的权重,可以提升模型关注目标动物图像特征的能力，有效提升动物盘点场景中对于动物检测的准确性以及盘点结果准确性。

Description

动物盘点方法、装置及动物盘点设备

技术领域

本发明涉及农牧业智能化和目标检测技术领域，尤其涉及一种动物盘点方法、装置及动物盘点设备。

背景技术

动物盘点是一项重要的生态研究工作，目前国内外正在积极研究和探索相应的方法和算法。目前的动物盘点方法主要分为传统方法和基于计算机视觉的方法。传统方法包括人工巡查、录音以及人工识别图像等。基于计算机视觉的方法则包括：智能摄像机技术、红外线/热成像技术、音频识别技术、遥感技术以及目标检测技术。在动物盘点方面，目标检测技术可以被用来识别和计数特定种类的动物。比如，可以通过训练模型识别图像或视频中的特定的动物类别和身体特征来对动物进行检测和计数，实现动物盘点。但因为图像或视频中的动物形状、颜色、大小、姿态等多种因素的影响，导致算法的准确度较低，由于动物有多种姿态，不同姿态下形状会不同，给识别算法带来检测难度，识别模型检测精度较低。

发明内容

本发明提供一种动物盘点方法、装置及动物盘点设备，用以解决传统动物盘点检测准确度低、识别模型检测精度低的缺陷。

本发明提供一种动物盘点方法，包括：

将待检测图像输入基于YOLO V8的动物目标识别模型，得到检测结果，所述检测结果包括所述待检测图像中是否包括目标动物；

根据每帧所述待检测图像对应的检测结果，对所述目标动物进行数量统计，得到所述目标动物的盘点结果；

所述基于YOLO V8的动物目标识别模型包括多个检测头，每个所述检测头中添加无参数注意力机制，所述无参数注意力机制用于加强所述待检测图像中所述目标动物的特征的权重。

根据本发明提供的一种动物盘点方法，所述无参数注意力机制用于加强所述待检测图像中所述目标动物的特征的权重，包括：

根据输入特征获取目标神经元和其他神经元，并计算每个神经元的重要性指数；

建立能量函数求解最小化重要性指数，得到最小能量；

根据所述最小能量确定每个神经元的重要性；

对每个通道和空间维度的神经元的重要性进行汇总，根据汇总结果输出所述输入特征对应的权重，其中，所述神经元的重要性越高的输入特征对应的权重越大。

根据本发明提供的一种动物盘点方法，所述基于YOLO V8的动物目标识别模型的训练过程包括：

获取训练数据集、测试集和验证集；

设定训练批次，将所述训练数据集输入至所述基于YOLO V8的动物目标识别模型，进行多次训练，其中，所述基于YOLO V8的动物目标识别模型的初始参数由根据开源数据集预训练好的YOLOV8模型参数迁移获取；

根据所述测试集和验证集中已标注的数据对所述基于YOLO V8的动物目标识别模型进行监督学习，根据损失函数调整所述无参数注意力机制为每个输入特征分配的特征权重，直到达到所述训练批次，训练结束。

根据本发明提供的一种动物盘点方法，所述获取训练数据集和验证集，包括：

获取目标动物检测数据集，在所述目标动物检测数据集中筛选合格目标动物图像；

对所述合格目标动物图像进行数据扩充；

根据扩充后的目标动物检测数据集进行数据集划分，得到初始训练数据集以及所述测试集和验证集；

对所述训练数据集进行Mosaic混类增强，得到训练数据集。

根据本发明提供的一种动物盘点方法，所述基于YOLO V8的动物目标识别模型的每个检测头包括：分类分支和回归分支；所述分类分支与所述回归分支的参数相互解耦；

所述损失函数为分类分支对应的分类损失函数与所述回归分支对应的第一回归损失函数、第二回归损失函数之和：

其中，K,S²,B分别为输出的特征图，cell和每个cell中的Anchor数量；α_*表示每一项损失函数的权重，表示第k个输出的特征图、第i个cell、第j个Anchor box是否为正样本，如果是正样本则为1，反之为0；t_p,t_gt是预测向量和真实值向量；/>的作用是平衡每个尺度的输出特征图的权重；/>为分类损失函数；/>为第一回归损失函数，/>为第二回归损失函数。

根据本发明提供的一种动物盘点方法，所述第二回归损失函数的计算方法包括：

其中，DFL(S_i,S_i+1)＝-((y_i+1-y)log(S_i)+(y-y_i)log(S_i+1))，

其中，y为目标位置，S_i和S_i+1表示位于目标位置y附近的两个预测值y_i和y_i+1对应的概率。

根据本发明提供的一种动物盘点方法，所述回归损失函数和所述分类损失函数通过匹配到的正样本对来计算，其中，正样本的获取方法包括：

计算每个样本对应锚定等级的对齐程度t：

t＝s^α×μ^β

其中，s和μ分别表示分类得分和IoU的值，α和β为权重的超参数；

选择预设数量的具有最大t值的样本作为正样本。

根据本发明提供的一种动物盘点方法，所述基于YOLO V8的动物目标识别模型，还包括：

具有三个分支的主干网络，每个分支输出的特征图尺度不同。

本发明还提供一种动物盘点装置，包括：

输入模块，用于将待检测图像输入基于YOLO V8的动物目标识别模型，得到检测结果，所述检测结果包括所述待检测图像中是否包括目标动物；

盘点模块，根据每帧所述待检测图像对应的检测结果，对所述目标动物进行数量统计，得到所述目标动物的盘点结果；所述基于YOLO V8的动物目标识别模型包括多个检测头，每个所述检测头中添加无参数注意力机制，所述无参数注意力机制用于加强所述待检测图像中所述目标动物的特征的权重。

本发明还提供一种动物盘点设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的动物盘点方法。

本发明提供的动物盘点方法、装置及动物盘点设备，通过将待检测图像输入基于YOLO V8的动物目标识别模型，得到检测结果，检测结果包括所述待检测图像中是否包括目标动物；根据每帧所述待检测图像对应的检测结果，对目标动物进行数量统计，得到目标动物的盘点结果；基于YOLO V8的动物目标识别模型包括多个检测头，每个所述检测头中添加无参数注意力机制，无参数注意力机制用于加强待检测图像中所述目标动物的特征的权重,可以提升模型关注目标动物图像特征的能力，有效提升动物盘点场景中对于动物检测的准确性以及盘点结果准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的动物盘点方法的流程示意图之一；

图2是本发明提供的动物盘点方法的流程示意图之二；

图3是本发明提供的基于YOLO V8的动物目标识别模型框架示意图；

图4是本发明提供的C2f网络架构示意图；

图5是本发明提供的SPPF网络架构示意图；

图6是本发明提供的检测头网络架构示意图。

图7是本发明提供的动物盘点方法的流程示意图之三；

图8是本发明提供的动物盘点装置的结构示意图；

图9是本发明提供的动物盘点设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的动物盘点方法的流程图，如图1所示，本发明实施例提供的动物盘点方法包括：

步骤101、将待检测图像输入基于YOLO V8的动物目标识别模型，得到检测，检测结果包括待检测图像中是否包括目标动物；

步骤102、根据每帧待检测图像对应的检测结果，对目标动物进行数量统计，得到目标动物的盘点结果；该基于YOLO V8的动物目标识别模型包括多个检测头，每个检测头中添加无参数注意力机制，无参数注意力机制用于加强待检测图像中目标动物的特征的权重。

在本发明实施例中，YOLO V8的是一种基于深度学习的目标检测算法，其核心思想是将整个检测过程看作一个单一、端到端的网络，该网络能够同时预测对象的边界框和类别。YOLO V8的采用特征金字塔网络来提取不同尺度下的特征，使得网络可以对不同大小和位置的目标进行检测，适应于动物盘点场景。

在本发明实施例中，由于每个检测头中添加无参数注意力机制，SimAM(SimpleNon-Parametric Attention Mechanism)是一种无参数的注意力机制，可以加强待检测图像中目标动物的特征的权重，对多种动物形状、颜色、大小、姿态都能准确识别，提升盘点准确性。

传统动物盘点方法通过训练模型识别图像或视频中的特定的动物类别和身体特征来对动物进行检测和计数，实现动物盘点。但因为图像或视频中的动物形状、颜色、大小、姿态等多种因素的影响，导致算法的准确度较低，由于动物有多种姿态，不同姿态下形状会不同，给识别算法带来检测难度，识别模型检测精度较低。

本发明实施例提供的动物盘点方法通过将待检测图像输入基于YOLO V8的动物目标识别模型，得到检测结果，检测结果包括所述待检测图像中是否包括目标动物；根据每帧所述待检测图像对应的检测结果，对目标动物进行数量统计，得到目标动物的盘点结果；基于YOLO V8的动物目标识别模型包括多个检测头，每个所述检测头中添加无参数注意力机制，无参数注意力机制用于加强待检测图像中所述目标动物的特征的权重,可以提升模型关注目标动物图像特征的能力，有效提升动物盘点场景中对于动物检测的准确性以及盘点结果准确性。

基于上述任一实施例，如图2所示，基于YOLO V8的动物目标识别模型的训练过程包括：

步骤201、获取训练数据集、测试集和验证集；

步骤202、设定训练批次，将训练数据集输入至基于YOLO V8的动物目标识别模型，进行多次训练，其中，基于YOLO V8的动物目标识别模型的初始参数由根据开源数据集预训练好的YOLOV8模型参数迁移获取；

步骤203、根据测试集和验证集中已标注的数据对基于YOLO V8的动物目标识别模型进行监督学习，根据损失函数调整无参数注意力机制为每个输入特征分配的特征权重，直到达到训练批次，训练结束。

在本发明实施例中，以猪只为例，将处理后的猪只图像数据作为模型的输入数据，对原始YOLO V8模型进行改进，提升原始YOLO V8模型检测精度。

在本发明实施例中，获取训练数据集和验证集，包括：

步骤2011、获取目标动物检测数据集，在目标动物检测数据集中筛选合格目标动物图像；

步骤2012、对合格目标动物图像进行数据扩充；

步骤2013、根据扩充后的目标动物检测数据集进行数据集划分，得到初始训练数据集以及测试集和验证集；

步骤2014、对训练数据集进行Mosaic混类增强，得到训练数据集。

具体包括如下步骤：

(1)从开放平台获取目标动物如猪只检测数据集。首先设置猪只图像特征成像的阈值，对于像素值低于阈值的图像进行去除。通过机器学习的方法筛选合格图像，删除像素值低，图像特征不明显难以辨别的图像，提高数据质量，提升本发明对数量盘点的准确性。

(2)手动筛选图像，对经过上述方法筛选后的数据集进行手动筛选，去除极度形变、背景杂波严重、重叠度和遮挡度高等不符合要求的图像。

(3)数据扩充，通过传统的镜像、旋转、缩放、调整亮度、对比度、高斯噪声等方式对原始数据集进行数据扩充。利用python实现旋转图像角度、缩放原始图像、调节分辨率，添加噪音以改变背景噪音程度，图像平移反转等方法扩充原始数据集。

(4)划分数据集，将数据扩充后的初始数据集按照7:2:1的比例进行划分，分别为训练集、验证集和测试集。

(5)获取Mosaic混类增强后的训练集，从训练集中每次随机读取四张图片，分别对四张图片进行翻转(对原始图片进行左右的翻转)、缩放(对原始图片进行大小的缩放)、色域变化(对原始图片的明亮度、饱和度、色调进行改变)等操作，操作完成之后然后再将原始图片按照第一张图片摆放在左上，第二张图片摆放在左下，第三张图片摆放在右下，第四张图片摆放在右上四个方向位置摆好。完成该任务后，利用矩阵方法将每张图像中的固定区域进行截取，重新进行拼接，形成一种新的图像，该图像同样含有目标框等信息。

在本发明实施例中，数据扩充的操作方式只能在数据集的数据总量进行扩充，Mosaic混类增强可以丰富样本多样性，极大程度降低模型对于多样性学习的难度。加快模型学习效率，丰富目标图像的背景。

在本发明实施例中，将训练数据集输入至基于YOLO V8的动物目标识别模型，进行多次训练，其中，基于YOLO V8的动物目标识别模型的初始参数由根据开源数据集预训练好的YOLOV8模型参数迁移获取，包括：

(1)将在开源数据集中进行预训练好的YOLOV8权重迁移至YOLO V8-SimHead模型作为初始权重。

(2)将训练数据集输入至基于YOLO V8的动物目标识别模型，设定训练批次，进行多次训练。

(3)根据验证集中已标注的数据对模型进行有监督学习，及时调整参数。其中，基于YOLO V8的动物目标识别模型的初始权重会根据模型训练自动调整初始权重。

(4)模型训练结束后，将权重迁移至基于YOLO V8的动物目标识别模型，分析对比模型对猪只的识别精度、识别耗时及模型实时性能，根据模型对猪只的识别精度、识别耗时及模型实时性能优化模型参数，确定模型训练停止时间，获取最优检测模型。

在本发明实施例中，对测试集中的猪只图像进行预测效果对比分析，使用Precision-Recall曲线、AP(检测精度)、mAP(AP值在所有类别下的均值)、检测速度作为评价指标。计算Precision(精准率)和Recall(召回率)，可以得到一条P-R曲线，AP值即为P-R曲线与坐标轴围成区域面积，mAP就是对所有的AP值进行求平均，mAP值越大，模型越好。其中，召回率(R)和精准率(P)如下所示：

其中，T_P为被判为正类的正类，F_N为被判为负类的正类，F_P为被判为正类的负类。

在本发明实施例中，通过对测试集中的猪只图像进行预测效果对比分析，根据分析结果不断优化模型，从而获取最优检测模型。

基于上述任一实施例，如图3所示，基于YOLO V8的动物目标识别模型，包括：BackBone(主干网络)、Neck、Detect(检测头)，其中主干网络包括三个分支，每个分支输出的特征图尺度不同。BackBone(主干网络)的工作流程包括：

(1)将训练数据集中的图像数据进行2次卷积操作，卷积核大小k均为3，步长s均为2，填充p均为1，输入图像大小为(640，640，3)，训练数据集中的原始图像大小为640×640像素。第一次卷积操作输出特征层大小为(320，320，64)，第二次卷积操作输出特征层大小为(160，160，128)的网络特征层S1。

(2)将特征层S1输入至C2f模块，C2f模块网络架构如附图4所示，其中n表示Bottleneck模块的数量，C2f模块参考了C3模块以及ELAN的思想进行的设计，让YOLOV8可以在保证轻量化的同时获得更加丰富的梯度流信息。将网络特征层S1输入至一个n＝3的C2f模块，即该含有3个Bottleneck模块，输出特征层S2(160，160，128)再输入至卷积核大小k为3，步长s为2，填充p为1的卷积操作，获得特征层(80，80，256)。

(3)将上个步骤获得特征层输入至一个n＝6的C2f模块，输出特征层S3(80，80，256)，再将其输入至卷积核大小k为3，步长s为2，填充p为1的卷积操作，获得特征层(40，40，512)。

(4)将上个步骤获得特征层输入至一个n＝6的C2f模块，输出特征层S4(40，40，512)，再将其输入至卷积核大小k为3，步长s为2，填充p为1的卷积操作，获得特征层(20，20，512)。

(5)将上个步骤获得特征层输入至一个n＝3的C2f模块，输出特征层S5(20，20，512)。

(6)将特征图层S5输出至SPPF模块，SPPF模块网络架构如附图5所示，能将任意大小的特征图转换成固定大小的特征向量，对于不同的核参数，最大池化层提取的感受野不同，对不同感受野的特征进行拼接，再利用卷积层将拼接后的特征聚合，提升深层特征的表达能力，有效地防止过拟合，并且，SPPF执行时间短。

(7)将从SPPF网络结构的输出设置为特征层S6(20，20，512)，在SPPF结构之后网络层经过一次上采样，第一次上采样输出特征图与S4进行特征融合后，再输入至一个n＝3的C2f模块，得到特征层S7(40，40，512)。对特征层S7进行上采样输出特征图与S3进行特征融合得到特征层后，再输入至一个n＝3的C2f模块，得到特征层S8(80，80，256)。

(8)将特征层S8输入至卷积核大小k为3，步长s为2，填充p为1的卷积操作，获得特征层(40，40，256)，该特征图与特征层S7进行特征融合得到特征层后，再输入至一个n＝3的C2f模块，得到特征层S9(40，40，512)，将特征层S9输入至卷积核大小k为3，步长s为2，填充p为1的卷积操作，获得特征层(20，20，512)，该特征层与特征层S6进行特征融合再输入至一个n＝3的C2f模块，得到特征层S10(20，20，512)，以此来得到更好的特征。

三种尺度特征图自下而上分别对应Backbone输出的S8，S9，S10，尺度由大到小，堆叠成金字塔型。S8，S9，S10输出后进入检测头分别是两个分支，用于模型预测。

Detect(检测头)中加入SimAM注意力机制。基于上述任一实施例，如图6所示，采用Decoupled-Head和DFL(Distribution Focal Loss)对检测头进行改进，改进后的检测头的网络架构包括：

两个分支的网络结构开头是2个CBS，输出后的特征图分别输入SimAM无参数模块，进行无参数的注意力机制操作。Conv是卷积操作，主要包含Conv2d、BN(BatchNormalization，归一化批处理)和SiLU激活函数模块。Concat是张量拼接技术，不仅可以扩展张量的维度，还可利用特征融合技术使目前的网络模型既具有浅层次特征又具有深层次特征。SimAM模块用于特征相似度矩阵计算和权重计算，提高模型的性能和稳定性。

在本发明实施例中，每个检测头包括：分类分支和回归分支；所述分类分支与所述回归分支的参数相互解耦；损失函数为分类分支对应的分类损失函数与回归分支对应的第一回归损失函数、第二回归损失函数之和：

在本发明实施例中，第二回归损失函数的计算方法包括：

其中，DFL(S_i,S_i+1)＝-((y_i+1-y)log(S_i)+(y-y_i)log(S_i+1))，

其中分类损失采用BCE Loss，回归损失采用CIoU Loss+DFL的形式，其中Reg_max默认为16。

将从Neck模块输出的特征网络经过1x1的卷积，目的是将特征的通道(channel)维度变成指定数量。分类是一通道，通道数为类别数，由于目标动物只对应一类，所以只需一个通道；回归分支用于确定目标的位置，由于位置对应四个值，因此，回归通道数为4通道。

通过预测框的类别分数和目标框类别的one-hot表现来计算类别损失，分类损失函数如下所示：

其中，表示类别损失使用的是带sigmoid的二进制交叉熵函数BCEWithLogitsLoss，c_o表示目标框类别的one-hot表现分数，c_gt表示预测框的类别分数，w_cls表示权重，用于判断是否有物体。

回归损失函数中CIoU Loss的表达式如下所示：

其中，为目标框和预测框的中心点欧式距离，/>为目标框的对角线距离，v是衡量长宽比一致性的参数。w^gt,h^gt是真实目标框的宽和高，w^p,h^p是预测框的宽高，IoU(Intersection over Union)是一种测量在特定数据集中检测相应物体准确度的一个标准。IoU是两个区域重叠的部分除以两个区域的集合部分得出的结果，通过设定的阈值，与这个IoU计算结果比较。例如，将根据特征数据预测得到的预测框与真实框进行IoU比较，获取前10的最大的IoU的预测结果，将10个IoU的值进行加和操作后会得到一个值，这个值就是正样本数量，最小取1。

回归损失函数中DFL(S_i,S_i+1)为：

DFL(S_i,S_i+1)＝-((y_i+1-y)log(S_i)+(y-y_i)log(S_i+1))

它可将预测框的位置建模成一个一般分配(general distribution)，以此达到使网络快速聚焦于和目标位置近的位置分布的目的。该公式可以使网络更快地聚焦于y附近的的值。

两个部分的损失均是通过匹配到的正样本对来计算，每一个输出特征图相互独立，直接相加得到最终每一部分的损失值。

在本发明实施例中，回归损失函数和分类损失函数通过匹配到的正样本对来计算，其中，正样本的获取方法包括：

计算每个样本对应锚定等级的对齐程度t：

t＝s^α×μ^β

选择预设数量的具有最大t值的样本作为正样本。

样本的分配采用Anchor-Free方法，TaskAligned是一种利用一个替代边长比例的匹配方法。为与NMS搭配，训练样例的Anchor分配需要满足正常对齐的Anchor应当可以预测高分类得分，同时具有精确定位和不对齐的Anchor应当具有低分类得分，并在NMS阶段被抑制两个规则。基于上述两个目标，任务对齐法(TaskAligned)设计了一个新的锚定对齐度量(Anchor alignment metric)来在锚定等级(Anchor level)衡量任务对齐(Task-Alignment)的水平。并且，对齐度量(Alignment metric)被集成在了样本分配和损失函数里来动态的优化每个Anchor的预测。Anchor alignment metric中分类得分和IoU表示这两个任务的预测效果，所以，TaskAligned使用分类得分和IoU的高阶组合来衡量Task-Alignment的程度。使用下列的方式来对每个实例计算Anchor-level的对齐程度如下所示：

t＝s^α×μ^β

其中，s和μ分别表示分类得分和IoU的值，α和β为权重的超参数，从公式可知，t可以同时控制分类得分和IoU的优化来实现TaskAligned，可以引导网络动态的关注于高质量的Anchor。

培训样本分配(Training sample Assignment)可以提升两个任务的对齐性，任务对齐的单阶段对象检测(Task-aligned One-stage Object Detection，TOOD)聚焦于任务对齐定位(Task-Alignment Anchor)，采用一种简单的分配规则选择训练样本：对每个实例，选择m个具有最大t值的Anchor作为正样本，选择其余的Anchor作为负样本。然后，通过损失函数(针对分类与定位的对齐而设计的损失函数)进行训练。

基于上述任一实施例，如图7所示，无参数注意力机制用于加强待检测图像中目标动物的特征的权重，包括：

步骤701、根据输入特征获取目标神经元和其他神经元，并计算每个神经元的重要性指数；

步骤702、建立能量函数求解最小化重要性指数，得到最小能量；

步骤703、根据最小能量确定每个神经元的重要性；

步骤704、对每个通道和空间维度的神经元的重要性进行汇总，根据汇总结果输出输入特征对应的权重，其中，神经元的重要性越高的输入特征对应的权重越大。

其中，重要性指数e_t：

其中t和x_i分别指输入特征X的目标神经元和其他神经元，其中X∈R^C×H×W，i指空间维度上的索引，M＝H×W指在某个通道上所有神经元的个数，w_t和b_t分别指某个神经元变换时的权重和偏差，引入二进制标签代替y_t和y₀，即

求解最小化e_t。这相当于找到了目标神经元和其他神经元的线性可分性，即提升目标神经元的重要性，最小化e_t等价于训练同一通道内神经元t与其他神经元之间的线性可分性，为了方便本发明采用二值标签和正则化，最终能量函数定义如下所示：

理论上，每个通道都有M＝H×W能量函数，但上述公式有相应解析解如下所示：

其中，

将解析解代入最终能量函数公式，即分别把w_t和b_t代入原公式，可得到最小能量如下所示

其中，从统计的角度来讲，μ_t和可以分别由均值和方差代替，还可减少计算量。该公式表明能量越低，神经元t与周围的神经元区别越大，该神经元重要性越大。因此，神经元的重要性均可通过/>表示。

SimAM模型通过计算输入特征图各个子矩阵的均值、方差、特征向量等参数，结合全连接层计算权重向量，最终将其作用到原始特征图上，实现注意力加强的效果。根据注意力机制的定义，对特征进行增强处理如下所示：

其中，X为输入特征，为增强特征，E表示/>在所有通道和空间维度的汇总，sigmoid是一个单调函数，用来约束过大的值，它不会影响每个神经元的相对大小。

越大，那么这张图像含有目标动物的可能性就越大。故将SimAM注意力机制融入到检测头中，有利于提升特征预测结果准确性。

相对于基于参数的注意力机制，SimAM的特点在于不需要训练额外的参数，因此可以在不增加网络复杂度的情况下有效提升模型的性能。本发明将SimAM注意力机制加入到耦合YOLO Head中，辅助进行特征识别，提升模型关注动物图像特征的能力，有效提升动物盘点场景中对于动物检测的准确性。

本发明实施例提供的动物盘点方法在原有YOLOV8的YOLO Head部分融入一种无参数的注意力机制SimAM。相对于基于参数的注意力机制，SimAM的特点在于不需要训练额外的参数，因此它可以在不增加网络复杂度的情况下有效提升模型的性能。将SimAM加入到YOLOv8的检测头部分，利用直接计算相似度的方法，在不同的时间步或输入之间寻找相关性，从而生成目标动物图像的注意力权重，加强图像中的重要特征，提高模型的性能和稳定性。

下面对本发明提供的动物盘点装置进行描述，下文描述的动物盘点装置与上文描述的动物盘点方法可相互对应参照。

图8为本发明实施例提供的动物盘点装置的示意图，如图8所示，本发明实施例提供的动物盘点装置包括：

输入模块801，用于将待检测图像输入基于YOLO V8的动物目标识别模型，得到检测结果，所述检测结果包括所述待检测图像中是否包括目标动物；

盘点模块802，根据每帧所述待检测图像对应的检测结果，对所述目标动物进行数量统计，得到目标动物的盘点结果；基于YOLO V8的动物目标识别模型包括多个检测头，每个所述检测头中添加无参数注意力机制，无参数注意力机制用于加强所述待检测图像中目标动物的特征的权重。

本发明实施例提供的动物盘点装置通过将待检测图像输入基于YOLO V8的动物目标识别模型，得到检测结果，检测结果包括所述待检测图像中是否包括目标动物；根据每帧所述待检测图像对应的检测结果，对目标动物进行数量统计，得到目标动物的盘点结果；基于YOLO V8的动物目标识别模型包括多个检测头，每个所述检测头中添加无参数注意力机制，无参数注意力机制用于加强待检测图像中所述目标动物的特征的权重,可以提升模型关注目标动物图像特征的能力，有效提升动物盘点场景中对于动物检测的准确性以及盘点结果准确性。

图9示例了一种动物盘点设备的实体结构示意图，如图9所示，该动物盘点设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行动物盘点方法，该方法包括：将待检测图像输入基于YOLO V8的动物目标识别模型，得到检测结果，检测结果包括所述待检测图像中是否包括目标动物；根据每帧所述待检测图像对应的检测结果，对目标动物进行数量统计，得到目标动物的盘点结果；基于YOLO V8的动物目标识别模型包括多个检测头，每个检测头中添加无参数注意力机制，无参数注意力机制用于加强待检测图像中所述目标动物的特征的权重。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种动物盘点方法，其特征在于，包括：

所述基于YOLO V8的动物目标识别模型包括多个检测头，每个所述检测头中添加无参数注意力机制，所述无参数注意力机制用于加强所述待检测图像中所述目标动物的特征的权重；

所述基于YOLO V8的动物目标识别模型，还包括：

具有三个分支的主干网络，每个分支输出的特征图尺度不同，三种尺度特征图自下而上分别对应Backbone输出的S8，S9，S10，尺度由大到小，堆叠成金字塔型，S8，S9，S10获取方法包括：

（1）将输入图像数据进行2次卷积操作，卷积核大小k均为3，步长s均为2，填充p均为1，输入图像大小为（640，640，3），训练数据集中的原始图像大小为640×640像素；第一次卷积操作输出特征层大小为（320，320，64），第二次卷积操作输出特征层大小为（160，160，128）的网络特征层S1；

（2）将网络特征层S1输入至一个n=3的C2f模块，输出特征层S2（160，160，128）再输入至卷积核大小k为3，步长s为2，填充p为1的卷积操作，获得特征层（80，80，256）；

（3）将上个步骤获得特征层输入至一个n=6的C2f模块，输出特征层S3（80，80，256），再将其输入至卷积核大小k为3，步长s为2，填充p为1的卷积操作，获得特征层（40，40，512）；

（4）将上个步骤获得特征层输入至一个n=6的C2f模块，输出特征层S4（40，40，512），再将其输入至卷积核大小k为3，步长s为2，填充p为1的卷积操作，获得特征层（20，20，512）；

（5）将上个步骤获得特征层输入至一个n=3的C2f模块，输出特征层S5（20，20，512）；

（6）将特征图层S5输出至SPPF模块，SPPF模块能将任意大小的特征图转换成固定大小的特征向量，对于不同的核参数，最大池化层提取的感受野不同，对不同感受野的特征进行拼接，再利用卷积层将拼接后的特征聚合；

（7）将从SPPF模块的输出设置为特征层S6（20，20，512），在SPPF模块之后网络层经过一次上采样，第一次上采样输出特征图与S4进行特征融合后，再输入至一个n=3的C2f模块，得到特征层S7（40，40，512）；对特征层S7进行上采样输出特征图与S3进行特征融合得到特征层后，再输入至一个n=3的C2f模块，得到特征层S8（80，80，256）；

（8）将特征层S8输入至卷积核大小k为3，步长s为2，填充p为1的卷积操作，获得特征层（40，40，256），该特征图与特征层S7进行特征融合得到特征层后，再输入至一个n=3的C2f模块，得到特征层S9（40，40，512），将特征层S9输入至卷积核大小k为3，步长s为2，填充p为1的卷积操作，获得特征层（20，20，512），该特征层与特征层S6进行特征融合再输入至一个n=3的C2f模块，得到特征层S10（20，20，512），S8，S9，S10输出后进入检测头分别是两个分支，用于模型预测。

2.根据权利要求1所述的动物盘点方法，其特征在于，所述无参数注意力机制用于加强所述待检测图像中所述目标动物的特征的权重，包括：

建立能量函数求解最小化重要性指数，得到最小能量；

根据所述最小能量确定每个神经元的重要性；

3.根据权利要求2所述的动物盘点方法，其特征在于，所述基于YOLO V8的动物目标识别模型的训练过程包括：

获取训练数据集、测试集和验证集；

4.根据权利要求3所述的动物盘点方法，其特征在于，所述获取训练数据集和验证集，包括：

对所述合格目标动物图像进行数据扩充；

对所述训练数据集进行Mosaic混类增强，得到训练数据集。

5.根据权利要求3所述的动物盘点方法，其特征在于，所述基于YOLO V8的动物目标识别模型的每个检测头包括：分类分支和回归分支；所述分类分支与所述回归分支的参数相互解耦；

；

其中，分别为输出的特征图，cell和每个cell中的Anchor数量；/>表示每一项损失函数的权重，/>为1，2或cls，/>表示第/>个输出的特征图、第/>个cell、第/>个Anchor box是否为正样本，如果是正样本则为1，反之为0；/>是预测向量和真实值向量；/>的作用是平衡每个尺度的输出特征图的权重；/>为分类损失函数；为第一回归损失函数，/>为第二回归损失函数。

6.根据权利要求5所述的动物盘点方法，其特征在于，所述第二回归损失函数的计算方法包括：

；

其中，，

其中，y为目标位置，和/>表示位于目标位置/>附近的两个预测值/>和/>对应的概率。

7.根据权利要求6所述的动物盘点方法，其特征在于，所述回归损失函数和所述分类损失函数通过匹配到的正样本对来计算，其中，正样本的获取方法包括：

计算每个样本对应锚定等级的对齐程度：

；

其中，和/>分别表示分类得分和IoU的值，/>和/>为权重的超参数；

选择预设数量的具有最大t值的样本作为正样本。

8.一种动物盘点装置，其特征在于，包括：

盘点模块，根据每帧所述待检测图像对应的检测结果，对所述目标动物进行数量统计，得到所述目标动物的盘点结果；所述基于YOLO V8的动物目标识别模型包括多个检测头，每个所述检测头中添加无参数注意力机制，所述无参数注意力机制用于加强所述待检测图像中所述目标动物的特征的权重；

所述基于YOLO V8的动物目标识别模型，还包括：

9.一种动物盘点设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的动物盘点方法。