CN115223191A

CN115223191A - 一种群养生猪行为的识别和跟踪方法

Info

Publication number: CN115223191A
Application number: CN202210542599.6A
Authority: CN
Inventors: 涂淑琴; 梁云; 刘晓龙; 黄磊; 汤寅杰; 曾钱涛; 黄正鑫
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-10-21

Abstract

本发明公开了一种群养生猪行为的识别和跟踪方法，包括如下步骤：S1：建立群养生猪的视频数据集；S2：构建YOLOX‑S模型；S3：构建YOLOX‑S+DeepSORT模型，所述YOLOX‑S+DeepSORT模型包括YOLOX‑S模型、卡尔曼滤波和匈牙利匹配算法；S4：构建改进的YOLOX‑S+DeepSORT模型，所述改进的YOLOX‑S+DeepSORT模型包括YOLOX‑S+DeepSORT模型和DeepSORT优化算法。本发明能够有效改进ID频繁错误变换，提升跟踪器的准确度，保持优秀的检测跟踪速度，实现实际养猪场的猪只多类行为的实时监控与快速准确跟踪。

Description

一种群养生猪行为的识别和跟踪方法

技术领域

本发明涉及农业计算机视觉的猪行为识别领域，尤其涉及一种群养生猪行为的识别和跟踪方法。

背景技术

随着我国猪肉需求量的不断上涨，利用计算机视觉算法对群养生猪场进行视频监控以预防疾病，提高猪肉产量具有重要的战略意义。当前，利用无接触式的计算机视觉系统自动监控群养生猪行为是畜禽精准养殖管理的关键。在众多牲畜疾病的亚临床和临床体征表现之前，通常伴有牲畜自身行为的改变，因此，群养生猪的日常行为监控显得尤为重要，可以弥补生物安全措施的不足，有利于防止猪烈性传染疾病以及人畜共患病的传播。从行为识别结果中发现其异常行为并进行预警，能提高猪只福利和养殖收入。然而，在群养生猪自然场景下，由于昼夜造成的光线变化、猪只间的相互重叠，以及猪只之间相互严重的遮挡，使得视频监控中实时准确识别猪只的各种行为成为当前的研究难点。因此，开发稳定高效的多目标跟踪技术，实现长期跟踪群养猪的各种行为，能为猪只行为识别和疾病预防诊断提供重要的信息。

在群养猪个体行为识别方面，目前主要采用传统的机器学习方法和深度卷积神经网络。公开号CN111339838A公开一种基于信息融合的猪行为识别方法及系统，利用以往猪活动过程中历史猪行为数据，训练卷积神经网络；然后，获取当前猪行为数据，确定当前猪行为标准差；最后，根据标准差与阈值之间的关系识别猪只异常行为识别。公开号CN110338092A公开一种基于声音的猪行为识别方法及系统，利用猪床本体模块去感知猪的发声，识别猪声所代表的猪的行为类别，并及时发现猪的异常行为，如打架、生病等，提醒管理人员及时采取针对性的干预措施，提高养猪的自动化和智能化水平。公开号CN111382674A公开一种基于视觉显著性的攻击行为猪的识别方法。利用视觉显著性技术识别猪只猪圈中具有的攻击行为。目前，在视频监控中，利用多目标跟踪技术，实现群养环境下猪个体的快速准确检测和各种行为识别的研究极少，因此，设计实现基于多目标跟踪的群养生猪行为识别模型，对大规模生猪养殖自动化具有重要的研究意义。

发明内容

本发明旨在至少在一定程度上解决相关技术中的问题之一。为此，本发明的目的在于提供一种群养生猪行为的识别和跟踪方法，能够有效改进ID频繁错误变换，提升跟踪器的准确度，保持优秀的检测跟踪速度，实现实际养猪场的猪只多类行为的实时监控与快速准确跟踪。

为了实现上述目的，本申请采用如下技术方案：一种群养生猪行为的识别和跟踪方法，包括如下步骤：

S1：建立群养生猪的视频数据集，将所述视频数据集中猪的行为标注为躺卧、站立、饮食和其他四种类别；将所述视频数据集分为训练集、验证集和测试集；

S2：构建YOLOX-S模型，所述YOLOX-S模型依次包括基础骨干网络、多尺度中间网络和目标检测定位和行为识别网络三部分；

S3：构建YOLOX-S+DeepSORT模型，所述YOLOX-S+DeepSORT模型包括YOLOX-S模型、卡尔曼滤波和匈牙利匹配算法；

S4：构建改进的YOLOX-S+DeepSORT模型，所述改进的YOLOX-S+DeepSORT模型包括YOLOX-S+DeepSORT模型和DeepSORT优化算法。

进一步的，步骤S1具体包括：

S11：采集自然场景下群养生猪的视频数据，其中，视频数据包括猪体光照不均、严重遮挡和黑夜无光线三种情况下的群养生猪视频；

S12：将获取的群养生猪视频切割为图像，对图像进行类别标注，形成所述视频数据集；

S13：将视频数据集分为训练集、验证集和测试集；

S14：对视频数据集中的图像进行高斯噪声、高斯模糊、明度调节、饱和度调节和色调调整，调整之后的图像并入视频数据集中。

进一步的，步骤S2具体包括：

S21：将Focus基准网络、CBS深度学习网络结构、CSP深度学习网络结构和SPP深度学习网络结构依次融合，构建基础骨干网络；

S22：采用特征金字塔和路径聚合网络结构，融合高层与低层特征，生成不同尺度的特征映射，构建多尺度中间网络；

S23：构建目标检测定位和行为识别网络，实现多目标的检测与分类。

进一步的，步骤S21具体包括：

S211：将训练集中图像输入Focus基准网络，获得所述图像的卷积核特征，实现所述图像在纵向和横向间隔切片拼接功能；

S212：将卷积核特征输入CBS深度学习网络结构、CSP深度学习网络结构和SPP深度学习网络结构获得特征信息，同时生成三种特征映射；其中，CBS深度学习网络结构由卷积层、批归一化层和激活函数层构成，CSP深度学习网络结构包含CSP1_1,CSP1_x和CSP2_x，其中x表示残差结构，SPP深度学习网络结构进行多尺度特征融合。

进一步的，步骤S23具体包括：

S231：构建三个解耦头部分支；

S232：对三个解耦头部分支进行Reshape操作，然后进行融合，采用标签分配，将预测框和目标框相关联；

S233：头部类别损失和目标损失分别使用BCEWithLogitsLoss和CIoU_Loss计算。

进一步的，步骤S3具体包括：

S31：卡尔曼滤波预测目标位置，将YOLOX-S模型的输出结果作为输入值，利用卡尔曼滤波方法预测被检测的目标在下一帧视频中的位置；

S32：利用匈牙利匹配算法进行数据关联，在所述匈牙利匹配算法中进行级联匹配和IOU匹配融合；

S33：卡尔曼滤波更新。

进一步的，步骤S31具体包括：

S311：将所述YOLOX-S模型的第一帧目标检测框初始化为跟踪框；其中，检测框采用轨迹信息u,v,r,h、置信度以及外观信息表示，其中u,v对应目标中心坐标，r为长宽比，h为高；

跟踪框在k帧采用状态向量x_k表示为：x_k＝(P_k,v_k)，

其中，P_k和v_k分别表示轨迹位置和速度；

S312：跟踪操作中，预测第i个跟踪框第k帧的x_i,k在下一帧的信息，其中，下一帧的信息包括均值y_i,k+1与协方差S_i,k+1，其中均值表示目标的位置信息，协方差表示目标位置信息的不确定性；采用卡尔曼滤波方法，其预测计算公式为：

其中，F_k+1为运动学系数矩阵；B_k+1为外部控制矩阵；u_k+1为外部控制量；Q_k+1为外部噪声的协方差矩阵，

为F_k+1的转置，F_k+1和

采用线性估计方法对目标位置进行预测。

进一步的，步骤S32具体包括：

S321：将跟踪框分为已确认的跟踪框和未确认的跟踪框两类，以运动匹配度和外观匹配度衡量当前检测框与预测框是否匹配的成本矩阵，运动匹配度和外观匹配度的计算公式分别为：

其中，d⁽¹⁾ _(i,j)指第j个检测框和第i个预测框的马氏距离，d_j则是当前检测框的轨迹信息u,v,r,h，S_i是预测阶段所输入的协方差矩阵，y_i代表预测阶段输入的均值；d⁽²⁾ _(i,j)指外观特征向量的最小余弦值，r_j为检测框的特征，r_k ⁽ⁱ⁾指第k个预测框的在第i帧中的特征，R_i表示第i个预测框的最后100个特征；

S322：级联匹配，取得基于外观信息和马氏距离的成本矩阵之后，在所述成本矩阵的基础上使用匈牙利匹配算法得到最优解，即输出为未匹配的轨迹、未匹配的检测框、匹配的轨迹；其中，外观信息和马氏距离的计算公式为：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)，

其中，λ是固定参数，取值为[0,1]；

S323：IoU匹配，将级联匹配中未匹配成功的检测框、轨迹及卡尔曼滤波预测中未确认的预测框作为输入，以IoU值作为成本矩阵，进行匈牙利匹配进一步筛选出匹配的轨迹；IoU计算公式为：

其中，A和B表示其中的检测框或者预测轨迹框。

进一步的，步骤S33具体包括：

S331：首先计算检测框和跟踪框的均值误差，然后将协方差映射到检测空间；其计算公式为：

m＝p-Hy，

N＝HSH^T+R，

其中，p为k+1帧检测到的检测框均值，H称为测量矩阵，y，S为第k帧跟踪框预测阶段的均值和协方差矩阵；R为检测器的噪声矩阵；

S332：计算卡尔曼增益K；其计算公式为：

K＝SH^TN^-1，

S333：根据卡尔曼滤波增益K，进行均值和协方差的更新；其计算公式为：

x_k+1＝y+Km，

S_k+1＝(I-KH)S，

其中，x_k+1和S_k+1为第k+1帧跟踪框更新之后的均值和协方差状态矩阵。

进一步的，步骤S4具体包括：

S41：在YOLOX-S+DeepSORT模型中，增加变量classes，且变量classes＝4，分别表示猪只躺卧、站立、饮食和其他四种类别；

S42：构建一个一维数组，数组大小为n，n＝3，用以保存当前检测器检测的目标数量；

S43：对经过匈牙利匹配算法后得到未匹配的检测框，若当前ID号小于一维数组平均数，则对检测框初始化轨迹，否则不进行轨迹初始化；

S44：针对检测器误检情况，根据数组值变化不为误检目标创建新轨迹；若当前目标ID号在连续多帧中保持同一数量，然后在某一帧中出现目标数量增多的情况，则认为是检测器出现误检，不为其分配新的ID。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：本发明在基本的DeepSORT框架上改进其数据关联算法，有效改进ID频繁错误变换，提升跟踪器的准确度，保持优秀的检测跟踪速度，实现实际养猪场的猪只多类行为的实时监控与快速准确跟踪。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

附图中：

图1为本发明所述方法的流程示意图；

图2为YOLOX-S模型的结构示意图；

图3为YOLOX-S+DeepSORT模型的结构示意图；

图4为目标数量数组初始化及更新示意图；

图5为检测器误检漏检时创建新轨迹的过程；

图6为YOLOX-S+DeepSORT模型的建立过程；

图7为YOLOX-S数据集的目录结构图；

图8为DeepSORT数据集的目录结构图；

图9为Reid数据集的示意图；

图10为YOLOX-S+DeepSORT模型的其中一个识别结果；

图11为YOLOX-S+DeepSORT模型的另外一个识别结果；

图12为改进的YOLOX-S+DeepSORT模型的其中一个识别结果；

图13为改进的YOLOX-S+DeepSORT模型的另外一个识别结果；。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。以下描述中，需要理解的是，“前”、“后”、“上”、“下”、“左”、“右”、“纵”、“横”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“头”、“尾”等指示的方位或位置关系为基于附图所示的方位或位置关系、以特定的方位构造和操作，仅是为了便于描述本技术方案，而不是指示所指的机构或元件必须具有特定的方位，因此不能理解为对本发明的限制。

还需要说明的是，除非另有明确的规定和限定，“安装”、“相连”、“连接”、“固定”、“设置”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。当一个元件被称为在另一元件“上”或“下”时，该元件能够“直接地”或“间接地”位于另一元件之上，或者也可能存在一个或更多个居间元件。术语“第一”、“第二”、“第三”等仅是为了便于描述本技术方案，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量，由此，限定有“第一”、“第二”、“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、机构、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

实施例1

如附图1所示，一种群养生猪行为的识别和跟踪方法，包括如下步骤：

S1：建立群养生猪的视频数据集，将视频数据集中猪的行为标注为躺卧、站立、饮食和其他四种类别；将视频数据集分为训练集、验证集和测试集。S1具体包括：

S11：采集自然场景下俯拍的群养生猪的视频数据，其中，视频数据包括猪体光照不均、严重遮挡和黑夜无光线三种情况下的群养生猪视频；

S12：利用FFMPEG工具将视频切割成图片，使用DrakLabel软件对图片进行标注，形成视频数据集；这里的标注指的是标注为躺卧、站立、饮食和其他四种类别中的其中一种。

S13：将视频数据集分为训练集、验证集和测试集；三个数据集均包含白天与夜间场景、猪只拥挤与稀疏场景、猪只活动频繁与较少场景。

S14：对训练集、验证集和测试集中的图像进行高斯噪声、高斯模糊、明度调节、饱和度调节和色调调整，调整之后的图像并入对应的数据集中。

S2：如附图2所示，构建YOLOX-S模型。YOLOX-S模型依次包括基础骨干网络(Backbone)、多尺度中间网络(Neck网络)和目标检测定位和行为识别网络(Predictionhead)三部分；S2具体包括：

S21：将Focus基准网络、CBS深度学习网络结构、CSP深度学习网络结构和SPP深度学习网络结构依次融合，构建基础骨干网络；S21具体包括：

S211：将训练集中图像输入Focus基准网络，获得输入图像(640×640×3)的32个卷积核特征(320×320×32)，实现输入图像在纵向和横向间隔切片(slice)拼接功能；具体的，基础骨干网络对数据集进行特征提取过程中，Focus基准网络将输入通道扩充四倍，即原始图像尺寸为640×640×3，经过Focus结构则变成320×320×32的特征图。

S212：对32个卷积核特征输入CBS深度学习网络结构、CSP深度学习网络结构和SPP深度学习网络结构获得丰富的特征信息，生成20×20×512，40×40×256，80×80×128三种特征映射。其中，CBS深度学习网络结构由卷积层(Conv)、批归一化层(BN)和激活函数层(SiLU)构成，CSP深度学习网络结构包含CSP1_1,CSP1_x和CSP2_x，其中x表示残差结构，由2个CBS深度学习网络结构融合若干个残差结构(Res Unit)构成，如附图2所述，Res Unit表示残差结构，让网络可以构建的更深；add表示张量相加，张量直接相加，不会扩充维度。SPP深度学习网络结构采用1×1，5×5，9×9，13×13的最大池化(Maxpool)方式，进行多尺度特征融合。具体的，如附图2所示，三组CBL和CSP深度学习网络结构对Focus操作之后的特征图进行更深入的特征提取。其中，CBS深度学习网络结构由Conv2D+BN+Leaky relu组成，CSP深度学习网络结构是将特征图拆分为两个部分，一部分进行卷积操作提取特征，另一部分则是直接与卷积后的特征相融合，分别得到特征大小为20×20×512(P5)、40×40×256(P4)和80×80×128(P3)的特征图。

S213：SSP模块为提升模型精度，对40×40×256(P4)使用一个1×1卷积将通道数减半，然后经过5×5，9×9和13×13三个不同尺寸大小的最大池化层操作，最后通过一个1×1卷积操作获得20×20×512(P5)的特征图。

S22：构建Neck网络，采用特征金字塔(Feature Pyramid Networks，FPN)和路径聚合网络(Path Aggregation Networks，PAN)结构，融合高层与低层特征，生成轻量型的两种不同尺度的特征映射；S22具体包括：

S221：基于主干网络的特征映射，FPN采用上采样操作，将深层的语义特征和浅层位置特征进行融合，增强多尺度特征的语义能力；

S222：基于多尺度语义特征，PAN把浅层的定位信息传导到深层，增强多尺度特征的定位能力，通过Neck网络，生成20×20×512，40×40×256，80×80×128三种特征映射。

S23：构建目标检测定位和行为识别网络，实现多目标的检测与分类；S23具体包括：

S231：构建三个解耦(Decoupled Head)头部分支。首先用1个1x1的卷积对P3、P4和P5进行降维，然后在后面两个平行分支中，分别使用2个3x3卷积，将P3、P4和P5特征图在三个解耦的三个分支中进行Concat融合，分别构成20×20×9，40×40×9和80×80×9特征信息(其中，类别为4，前景背景判别为1和目标框的坐标信息为4)。

S232：对S231中三种特征信息首先利用Sigmoid函数激活之后再进行Reshape操作，分别得到400×9，1600×9和6400×9特征信息，然后进行Concat融合，得到8400×9的预测信息，将预测框和目标框相关联，采用标签分配，利用无锚框方式实现目标检测、定位和分类。Sigmoid指的是网络激活函数。

S233：头部类别损失和目标损失分别使用BCEWithLogitsLoss和CIoU_Loss计算。BCEWithLogitsLoss公式如下：

Loss(x_i,y_i)＝-w_i[y_ilog(sigmoid(x_i))+(1-y_i)log(1-sigmoid(x_i))]

其中，x_i表示预测值，y_i表示真实值，w_i为权重，i为标签类别。

CIoU_Loss函数如下：

其中，A与B为两目标框，IoU＝|A∩B|/|A∪B|，C代表包围A、B的最小体积(或面积)。

S3：构建YOLOX-S+DeepSORT模型，YOLOX-S+DeepSORT模型包括YOLOX-S模型、卡尔曼滤波和匈牙利匹配算法；模型如图3所示。首先通过卡尔曼滤波预测当前对象在下一视频帧中的位置，然后利用匈牙利匹配算法对预测框和检测框进行匹配，包含级联匹配和IoU匹配，最后是对匹配完毕后，得到新的一组轨迹并更新卡尔曼滤波的参数。更具体的，步骤S3具体为：

S31：卡尔曼滤波预测目标位置，将YOLOX-S模型的输出结果作为输入值，利用卡尔曼滤波方法预测被检测的目标在下一帧视频中的位置；S31具体包括：

S311：将YOLOX-S模型的第一帧目标检测框(Detection)初始化为跟踪框(Track)；其中，检测框采用轨迹信息u,v,r,h、置信度以及外观信息表示，其中u,v对应目标中心坐标，r为长宽比，h为高；

跟踪框在k帧采用状态向量x_k表示为：xk＝(P_k,v_k)，

其中，P_k和v_k分别表示轨迹位置和速度；

S312：利用匈牙利匹配算法对预测框和检测框进行匹配，包含级联匹配和IoU匹配。跟踪操作中，预测第i个跟踪框第k帧的x_i,k在下一帧的信息，则要在高斯分布下，预测下一帧的信息包括均值y_i,k+1与协方差S_i,k+1，其中均值表示目标的位置信息，协方差表示目标位置信息的不确定性；采用卡尔曼滤波方法，其预测计算公式为：

为F_k+1的转置，F_k+1和

采用线性估计方法对目标位置进行预测。

S32：利用匈牙利匹配算法进行数据关联，为实现较长时间遮挡的目标跟踪，在匈牙利匹配算法中进行级联匹配和IOU匹配融合。S32具体包括：

S321：将跟踪框分为已确认的跟踪框(Confirmed_tracks)和未确认的跟踪框(unconfirmed_tracks)两类，以运动匹配度和外观匹配度衡量当前检测框与预测框是否匹配的成本矩阵，运动匹配度和外观匹配度的计算公式分别为：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)，

其中，λ是固定参数，取值为[0,1]；

其中，A和B表示其中的检测框或者预测轨迹框。

S33：卡尔曼滤波更新，基于k+1帧检测到的detection，校正与其关联的track的状态，包括轨迹位置和速度，根据卡尔曼滤波进行这些参数更新；S33具体包括：

m＝p-Hy，

N＝HSH^T+R，

S332：计算卡尔曼增益K；其计算公式为：

K＝SH^TN^-1，

x_k+1＝y+Km，

S_k+1＝(I-KH)S，

S4：构建改进的YOLOX-S+DeepSORT模型，改进的YOLOX-S+DeepSORT模型包括YOLOX-S+DeepSORT模型和DeepSORT优化算法。本申请针对圈养环境下，提出增加行为识别和限制目标对象ID增长的DeepSORT优化算法，S4具体包括：

S41：在YOLOX-S+DeepSORT模型中，增加变量classes，且变量classes＝4，分别表示猪只躺卧、站立、饮食和其他四种类别；用在群养生猪跟踪的行为识别；

S42：构建一个一维数组，数组大小为n，n＝3，用以保存当前检测器检测的目标数量；目标数量数组初始设置为[n，n，n]，其中n为第一帧中猪的头数。在后续视频帧中，则将当前视频帧中的检测目标数量插入到数组尾部，并删除数组头部存储的目标数量。目标数量数组初始化及更新如图4所示。

S44：针对检测器误检情况，根据数组值变化不为误检目标创建新轨迹；若当前目标ID号在连续多帧中保持同一数量，然后在某一帧中出现目标数量增多的情况，则认为是检测器出现误检，不为其分配新的ID。检测器误检漏检时创建新轨迹的过程如图5所示。

S5：采用验证集对改进的YOLOX-S+DeepSORT模型进行性能评估。S5具体为：

S51：根据验证集从训练好的模型中选取最佳的模型进行测试。在读取测试视频时，模型会把图像的尺寸统一缩放至640×640。

S52：在测试视频集上进行基于多目标跟踪的群养生猪行为结果分析。其中包括自然场景下改进的DeepSORT跟踪模型和基本的DeepSORT跟踪结果对比说明。

上述方案中，对YOLOX-S的检测网络进行参数设置，包括将网络输出类别数从81更改为4；epoch为200次，batch-size为16，IoU为0.45，置信度为0.4，优化器为SGD，训练批次为64；模型的初始学习率设置为0.01；模型在读取训练图像时将尺寸统一缩放至640×640。

上述方案中，在DeepSORT跟踪重识别实验中，在公开数据集上预训练得到的权重文件，为提升对生猪重识别效果，在本专利数据集上重新训练网络，模型迭代100次。为提取更强的目标外观信息，本论文采用512维向量代替原算法中128维向量。

实施例2

更具体的，在实施例1的基础上，视频数据集的形式包含白昼及黑夜的不同猪圈的俯拍视频片段，每个视频段的分辨率为2688×1520，帧率为一秒5帧。俯拍的摄像头由于其所在高度及其焦距的影响，拍摄到除此猪圈外的其他物品，因此，在实验中采用视频裁剪的方法将视角固定为此猪圈，减少外部环境的影响。

获得视频数据后，通过FFMPEG程序完成对视频段的剪辑，完成12个时长为1分钟，帧率为一秒5帧的小视频段。12个视频的环境如表1所示，这12个视频段中有4个视频的拍摄时间段为黑夜，其中，有1个视频的猪只数量少于10头；8个视频的拍摄时间为白天，其中，有2个视频的猪只数量少于10头。这些视频段中都包含猪只的躺卧、饮食、站立或其它一系列行为，以满足实验要求。使用的多目标跟踪标注工具为DarkLabel软件，当完成所有的数据标注后，按照6：2：2的比例转化数据为YOLOv5-S的训练集、测试集和验证集。按照7：3：1的比例转化数据为DeepSORT跟踪数据，当进行实验时，需通过python语言脚本对此文件进行相关转化以达到算法模型的数据格式要求。检测目标训练数据为COCO的JSON文件；目标跟踪的数据格式为DeepSORT的对象图像文件。

表1视频环境

在具体实施过程中，采用基于改进DeepSORT跟踪算法实现群养生猪行为识别和多目标跟踪。训练模型的软件环境包括：Windows 10操作系统，Pycharm、Python3.8.8、Pytorch1.7.1、CUDA10.1和cudnn7.6。硬件环境包括处理器为：CPU：AMD Ryzen 5 2600X；显卡：GeForce GTX Titan X；安装内存：64.0GB；磁盘：160.0GB；系统类型：64位操作系统。

在具体实施过程中，基于改进DeepSORT的跟踪模型建立主要涉及数据集标注、网络模型训练、模型验证这三大步骤，如图6所示。模型建立主要包括三个阶段：准备数据集、构建改进DeepSORT的多目标跟踪模型和模型优化。首先对12个视频文件进行标注和切图操作，然后根据标注文件完成YOLOX-S和DeepSORT的数据集，在训练过程中，分别将YOLOX-S、DeepSORT数据集分别送入各自的训练网络中得到检测模型和跟踪模型，最后对检测模型、跟踪模型及其组合完成最终优化。

YOLOX-S数据集的目录结构如图7所示，在YOLOX-S根目录下创建data文件夹，分为labels和images两个文件夹，分别存放txt标注文件和对应的图片，在这两个文件夹下再分成训练集、测试集和验证集。DeepSORT数据集的目录结构如图8所示，在Deepsort根目录下的deep目录中创建data文件夹，其中分为test、val和train三个文件夹，其中test和train文件夹中Reid数据集如图9所示，左边为其文件夹构成，右边则是具体一个文件夹中的图片数据，val中为测试的视频文件和标注文件。

本次实验测试中，采用YOLOX-S模型，改进的YOLOX-S+DeepSORT模型是采用7个训练视频、1个验证视频和4个测试视频。测试视频分别为Pig02、Pig10、Pig11和Pig15，其中Pig02的猪只数量少于10头且为白天环境，Pig10、Pig11和Pig15的猪只数量均多于10头，其中Pig10和Pig15为黑夜环境，Pig11为白天环境，将采用MOT16评价该检测模型与跟踪模型组合后对视频实时检测跟踪的效果。

YOLOX-S模型在测试集的结果如表2所示，其中测试图片为660张，标注框的总个数为8047个，其中lie、stand、eat和other标注框的占比分别为56.77％(4568/8047)、22.52％(1812/8047)、15.63％(1258/8047)和5.08％(409/8047)，其中各类别的准确率均超过97％，召回率均超过98％，平均准确率达到98.43％，平均召回率达到99.23％。当IoU阈值为0.5时，各类别的AP均超过98.0％，mAP达到98.4％。当IoU阈值从0.5到0.95每间隔0.05取一次AP时，各类别的mAP均大于83.1％，四个类别的平均mAP达到87.0％。在输入为2688×1012尺寸的图片，经输入端压缩到640×640时，其使用的平均推理时间为0.017s，即每秒能够处理59帧的图片，因此，是可以做到实时运行。

表2 YOLOX-S模型的检测结果

在具体实施过程中，YOLOX-S+DeepSORT模型的测试结果如表3所示。除Pig11外，三个视频的MOTA和MOTP的值均超过95％，MT与GT相等且ML指标全部为0说明视频跟踪过程中不存在丢失目标；除Pig02外，其它三个视频猪只数量较多，导致其在关于ID方面的指标较Pig02有不同程度的降低。从表中的Pig11的FP最大，说明模型对Pig11的检测跟踪的误报率较高，从Pig11中指标较其它三个视频有所降低，分析其原因是猪只在白天较活跃，容易造成重叠遮挡。从视频的环境分析，因Pig02的猪只数量较少，可以明显看到模型的检测跟踪性能较好，但在猪只的数量增多而导致重叠遮挡情况严重时，各方面的指标明显有所下降，且IDF1、IDP和IDR下降幅度较大，说明该模型对同一个对象在不同视频帧中，存在跟踪不到问题，导致同一个对象在不同视频帧中，会被认为是另外一个新的对象，从而导致ID错误变换。

表3 YOLOX-S+DeepSORT模型的测试结果

在具体实施过程中，改进Deepsort模型的测试结果如表4所示。四个视频的MOTA值均超过97.1％，对比未优化前的情况，Pig11则是有4.5％的涨幅，而MOTP是量化检测器的定位精度，因此在此优化中几乎没有变化。

表4改进的YOLOX-S+DeepSORT模型的测试结果

在具体实施过程中，YOLOX-S+DeepSORT模型的部分结果如图10-11所示；改进的YOLOX-S+DeepSORT模型的部分结果如图12-13所示。其中，图10和图12为相同的图片，采用不同模型进行ID标注。图11和13为相同的图片，采用不同模型进行ID标注。附图10-13实验中，在测试阶段对DeepSORT进行多目标跟踪优化，将检测器中检测到的猪只行为标注为躺卧(lie)、站立(stand)、饮食(eat)和其他(other)类别信息加入跟踪器中，实现多行为类别的跟踪效果。图10采用YOLOX-S+DeepSORT模型识别出来的最大ID为7，图12采用改进的YOLOX-S+DeepSORT模型识别出来的最大ID为7，说明在猪只数量较少时，YOLOX-S+DeepSORT模型和改进的YOLOX-S+DeepSORT模型的效果相差不多，均能实现较好的跟踪效果。

图11采用YOLOX-S+DeepSORT模型识别出来的最大ID为34，图13采用改进的YOLOX-S+DeepSORT模型识别出来的最大ID为17，二者相差较大，且改进的YOLOX-S+DeepSORT模型更加接近真实数值。说明在猪只数量较多时，随着猪只的频繁走动，YOLOX-S+DeepSORT模型识别的ID增长较为明显，这可能是因为猪只走动或进食时相互挤压导致遮挡重叠严重，且猪只数量较多时，存在严重遮挡情况下，造成猪只ID错误变换，导致检测跟踪效果不佳。而改进的YOLOX-S+DeepSORT模型能够准确地跟踪多目标，从跟踪效果图片中，可以更加直观地看到限制ID增长的优化方案，相比于YOLOX-S+Deepsort模型的检测跟踪具有明显的改进。

可以理解的，以上实施例仅表达了本发明的优选实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制；应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，可以对上述技术特点进行自由组合，还可以做出若干变形和改进，这些都属于本发明的保护范围；因此，凡跟本发明权利要求范围所做的等同变换与修饰，均应属于本发明权利要求的涵盖范围。

Claims

1.一种群养生猪行为的识别和跟踪方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种群养生猪行为的识别和跟踪方法，其特征在于，步骤S1具体包括：

S13：将视频数据集分为训练集、验证集和测试集；

3.根据权利要求1所述的一种群养生猪行为的识别和跟踪方法，其特征在于，步骤S2具体包括：

4.根据权利要求3所述的一种群养生猪行为的识别和跟踪方法，其特征在于，步骤S21具体包括：

5.根据权利要求4所述的一种群养生猪行为的识别和跟踪方法，其特征在于，步骤S23具体包括：

S231：构建三个解耦头部分支；

6.根据权利要求1所述的一种群养生猪行为的识别和跟踪方法，其特征在于，步骤S3具体包括：

S33：卡尔曼滤波更新。

7.根据权利要求6所述的一种群养生猪行为的识别和跟踪方法，其特征在于，步骤S31具体包括：

跟踪框在k帧采用状态向量x_k表示为：x_k＝(P_k,v_k)，

其中，P_k和v_k分别表示轨迹位置和速度；

为F_k+1的转置，F_k+1和

采用线性估计方法对目标位置进行预测。

8.根据权利要求7所述的一种群养生猪行为的识别和跟踪方法，其特征在于，步骤S32具体包括：

d⁽¹⁾(i,j)＝(d_j-y_i)^TS_i ^-1(d_j-y_i)，

d⁽²⁾(i,j)＝min{1-r_j ^Tr_k ⁽ⁱ⁾|r_k ⁽ⁱ⁾∈R_i}，

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)，

其中，λ是固定参数，取值为[0,1]；

其中，A和B表示其中的检测框或者预测轨迹框。

9.根据权利要求8所述的一种群养生猪行为的识别和跟踪方法，其特征在于，步骤S33具体包括：

m＝p-Hy，

N＝HSH^T+R，

S332：计算卡尔曼增益K；其计算公式为：

K＝SH^TN^-1，

x_k+1＝y+Km，

S_k+1＝(I-KH)S，

10.根据权利要求1所述的一种群养生猪行为的识别和跟踪方法，其特征在于，步骤S4具体包括：