CN114359791B

CN114359791B - 一种基于Yolo v5网络和SlowFast网络的群体猕猴食欲检测方法

Info

Publication number: CN114359791B
Application number: CN202111542922.1A
Authority: CN
Inventors: 朱磊; 徐哲; 孟宪花
Original assignee: Beijing Xinzhiwen Technology Co ltd
Current assignee: Beijing Xinzhiwen Technology Co ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2023-08-01
Anticipated expiration: 2041-12-16
Also published as: CN114359791A

Abstract

本申请公开了一种基于Yolo v5网络和SlowFast网络的群体猕猴食欲检测方法，该检测方法包括：步骤1，基于样本数据对搭建好的Yolo v5神经网络模型进行训练，并用训练好的Yolo v5神经网络模型，确定待检测猕猴视频中的猕猴运动轨迹；步骤2，当判定猕猴沿猕猴运动轨迹在预设进食区域的滞留时间大于或等于时间阈值时，利用SlowFast神经网络模型判断待检测猕猴视频中的猕猴是否发生进食行为；步骤3，基于预设观测时间内各个猕猴的进行次数，判断猕猴是否发生食欲减退现象。通过本申请中的技术方案，解决利用深度学习方法实现对猕猴进行食欲检测的问题，利用深度学习方法自动化、智能化的特点来代替人工观察猕猴是否食欲减退。

Description

一种基于Yolo v5网络和SlowFast网络的群体猕猴食欲检测方法

技术领域

本申请涉及目标行为识别的技术领域，具体而言，涉及一种基于Yolo v5网络和SlowFast网络的群体猕猴食欲检测方法。

背景技术

目标检测和行为识别是两类深度学习任务。目标检测是通过神经网络的训练来学习图像中对象的类别和位置信息，进而对图像中的目标进行类别和位置预测。行为识别是通过神经网络的训练来学习视频中对象的运动信息，进而对视频中的对象进行动作类别的判断。

而现有技术中，通常是基于人工观察的方式判断猕猴食欲是否发生减退现象，仅是通过发现猕猴长时间不进食或者进食次数明显原低于前段时间的现象，来判定这只猕猴出现食欲减退，而这种方式不仅人工成本高，需要相关人员长时间观察猕猴习性，而且所得出结论的可靠性得不到保障，可能存在统计偏差。

发明内容

本申请的目的在于：解决利用深度学习方法实现对猕猴进行食欲检测的问题，利用深度学习方法自动化、智能化的特点来代替人工观察猕猴是否食欲减退。

本申请的技术方案是：提供了一种基于Yolo v5网络和SlowFast网络的群体猕猴食欲检测方法，该方法包括：步骤1，基于样本数据对搭建好的Yolo v5神经网络模型进行训练，并用训练好的Yolo v5神经网络模型，确定待检测猕猴视频中的猕猴运动轨迹；步骤2，当判定猕猴沿猕猴运动轨迹在预设进食区域的滞留时间大于或等于时间阈值时，利用SlowFast神经网络模型判断待检测猕猴视频中的猕猴是否发生进食行为；步骤3，基于预设观测时间内各个猕猴的进行次数，判断猕猴是否发生食欲减退现象。

上述任一项技术方案中，进一步地，SlowFast神经网络模型中包括Show支路和Fast支路，步骤2具体包括：步骤21，基于滞留时间的起始时间和终止时间，截取待检测猕猴视频中的疑似进食视频；步骤22，按照疑似进食视频中的视频帧数，选取不同的帧间隔，得到32帧进食采样视频帧；步骤23，基于第一采样间隔和第二采样间隔，分别对32帧进食采样视频帧进行采样，生成第一采样结果和第二采样结果；步骤24，将第一采样结果输入至Show支路，将第二采样结果中的图像进行两两相减，将差值输入至Fast支路；步骤25，引入自注意力机制，对Fast支路的输出结果进行线性变换，生成转移矩阵，并基于转移矩阵和前馈网络，生成动作特征图；步骤26，将Show支路的输出结果与动作特征图依次输入平均池化层、全连接层和Softmax函数模型，基于运算结果，判断待检测猕猴视频中的猕猴是否发生进食行为。

上述任一项技术方案中，进一步地，Fast支路中设置有池化层、残差层，池化层、残差层分别通过5*1*1的卷积结构连接至Show支路对应阶段的输出端。

上述任一项技术方案中，进一步地，转移矩阵的计算公式为：

式中，Q、K、V分别为Fast支路的输出结果经过线性变换后的转移矩阵，d_k为转移矩阵Q和K的列数。

上述任一项技术方案中，进一步地，步骤25中，前馈网络由两层全连接层组成，计算公式为：

Feed_Forward＝max(0，X*W₁+b₁)W₂+b₂

式中，Feed_Forward为动作特征图，X为输入到全连接层的转移矩阵，W₁、W₂为权值矩阵，b₁、b₂为偏置。

上述任一项技术方案中，进一步地，步骤1中，确定待检测猕猴视频中的猕猴运动轨迹，具体包括：步骤11，利用训练好的Yolo v5神经网络模型对待检测猕猴视频进行图像处理，确定待检测猕猴视频中关键帧图像的输出框的位置信息以及类别，并基于位置信息计算每个输出框的中心坐标，并将中心坐标与关键帧图像的帧号一一对应；步骤12，基于关键帧图像的帧号以及输出框的类别，确定猕猴运动轨迹，其中，类别由关键帧图像中猕猴项圈的颜色决定。

本申请的有益效果是：

本申请中的技术方案，通过使用Yolo v5神经网络模型对猕猴的运动轨迹进行识别，基于猕猴运动轨迹和提取规则对待检测猕猴视频进行提取，并利用SlowFast神经网络模型对提取出的视频进行进食行为检测，以便通过深度学习方法代替人工观测，有效地解决了猕猴食欲减退智能化判断的问题。本申请中的技术方案清晰明了，易于操作，且在离线对系统模型训练之后，可以部署到猴厂中，对猕猴的进食情况进行实时监测，大大节约了人力成本和时间成本。

在本申请的优选实现方式中，在SlowFast神经网络模型中分为两个支路并行对图像数据进行处理，将Fast支路的输入由RGB帧转化为残差帧，该残差帧去除了背景信息，只关注帧与帧之间的变化，使得Fast支路提取运动信息更为直接。另外，在Fast支路的卷积操作之后引入了注意力机制，使得SlowFast神经网络模型可以学习到帧与帧之间的上下文信息，提升了整体的识别效果，并且这个模型可以对多只猕猴的进食情况进行统计，实现了多只猕猴是否出现食欲减退进行实时监测。

附图说明

本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请的一个实施例的基于Yolo v5网络和SlowFast网络的群体猕猴食欲检测方法的示意流程图；

图2是根据本申请的一个实施例的进食区域的示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

在下面的描述中，阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不受下面公开的具体实施例的限制。

如图1和图2所示，本实施例提供了一种基于Yolo v5网络和SlowFast网络的群体猕猴食欲检测方法，该方法包括：

步骤1，基于样本数据对搭建好的Yolo v5神经网络模型进行训练，并用训练好的Yolo v5神经网络模型，确定待检测猕猴视频中的猕猴运动轨迹；

具体的，在饲养有多只猕猴的笼子中安装多个不同角度的摄像机，以便采集猕猴视频。为了便于区分，本实施例在笼子中饲养不同年龄段的5只猴子，笼中猕猴脖子上带的项圈颜色不同，以进行猕猴个体的区分，项圈颜色分别是黄、绿、红、黑和白。

本实施例中，观测的猕猴种类可以为恒河猴和食蟹猴。

在获得样本数据时，对采集到的猕猴视频的第一帧图像进行进食区域划分，如图2中方框201所示，作为预设进食区域。之后，对采集到的猕猴视频进行清洗，通过人工挑选方法挑选出清晰的视频，并删除模糊不清的视频，并对清洗后的猕猴视频进行视频数据标注。在标注时，每隔1s对猕猴视频的视频帧中的猕猴标上不同的边框box，并基于笼中猕猴脖子上带的项圈颜色标注边框的类别，其中，设定项圈颜色黄、绿、红、黑和白依次记为1、2、3、4和5。同时，对笼中食槽周围的猕猴行为进行标注，分为进食和非进食两类，并利用FFmpeg软件裁剪出进食和非进食的动作片段，以便作为模型训练的样本数据，其中，样本数据被划分为训练集和验证集。

需要说明的是，本实施例在进行Yolo v5神经网络模型训练时，采用单帧图像和项圈颜色进行多轮训练，如100轮。之后，将训练好的Yolo v5神经网络模型利用验证集进行验证，保存最终模型，以便对待检测猕猴视频中的猕猴运动轨迹进行轨迹识别。

进一步的，为了增加样本数据的多样性，可以采用随机图像拼接的方式，如mosaic方法，对样本数据中的训练集进行数据扩充。

在进行训练过程中，将训练集中的视频输入至Yolo v5神经网络模型，根据预设间隔(如10帧)逐帧提取关键帧图像，并对关键帧图像进行统一缩放。

在缩放过程中，设定缩放尺寸统一为(n，m，3)，其中，行像素n或列像素m中的一个参数为1280。若行像素n或列像素m无法被预设步长stride整除，则对关键帧图像进行边缘填充，将其两边等分边缘填充为(dw+n+dw，1280，3)或(1280，dh+m+dh，3)，其中，dw、dh分别是宽和高填充长度。例如当stride＝32时，图像大小为(1080，1920，3)图像依次被转化成(720，1280，3)、(736，1280，3)。

该Yolo v5神经网络模型包括YOLOv5 backbone模型和YOLOv5 head模型，由YOLOv5 backbone模型逐帧读取关键帧图像中的图像像素信息，提取不同深度的特征，在输入至YOLOv5 head模型后，由YOLOv5 head模型输出关键帧图像中输出框202的位置信息、类别和置信度，再经过NMS进行极大值抑制去除多余输出框202，其中，类别由视频帧中猕猴项圈的颜色决定。

步骤11，利用训练好的Yolo v5神经网络模型对待检测猕猴视频进行图像处理，确定待检测猕猴视频中关键帧图像的输出框202的位置信息以及类别，并基于所述位置信息计算每个输出框202的中心坐标(x，y)，并将中心坐标(x，y)与关键帧图像的帧号一一对应，其中，中心坐标(x，y)为关键帧图像中猕猴所在位置坐标；

步骤12，基于关键帧图像的帧号以及输出框202的类别，确定猕猴运动轨迹，即按照帧号的顺序，依次中心坐标，确定猕猴运动轨迹。

步骤2，当判定猕猴沿所述猕猴运动轨迹在预设进食区域的滞留时间大于或等于时间阈值时，利用SlowFast神经网络模型判断所述待检测猕猴视频中的猕猴是否发生进食行为；

具体的，在判断猕猴是否发生进食行为之前，由于猕猴能够在笼中自由移动，因此，当判定猕猴沿猕猴运动轨迹进入预设进食区域201时，开始计时，记作t1。之后，当判定猕猴沿猕猴运动轨迹离开预设进食区域201时，停止计时，记作t2。因此，猕猴在预设进食区域201内的滞留时间t＝t2-t1，当其滞留时间大于或等于时间阈值(如2s)时，即可判定该时间段内该猕猴可能存在进食行为。

本实施例中，该SlowFast神经网络模型中包括Show支路和Fast支路，利用SlowFast神经网络模型判断所述待检测猕猴视频中的猕猴是否发生进食行为的具体过程包括：

步骤21，基于滞留时间的起始时间和终止时间，截取待检测猕猴视频中的疑似进食视频；

具体的，当判定猕猴沿所述猕猴运动轨迹在预设进食区域的滞留时间大于或等于时间阈值时，按照时间t1和时间t2对待检测猕猴视频进行截取，截取的视频中，猕猴在预设进食区域内滞留。

步骤22，按照疑似进食视频中的视频帧数，依次选取不同的帧间隔frameinterval，然后按照选取的帧间隔对疑似进食视频进行采样，得到32帧进食采样视频帧，其中，在疑似进食视频中第30-60帧之间选取帧间隔为1帧，在第61-90帧之间选取帧间隔为2帧，在第91-180帧之间选取帧间隔为3帧，在第180帧之后间选取帧间隔为4帧，对应的计算公式为：

需要说明的是，若是对疑似进食视频进行采样后，采样帧个数少于32帧，则复制最后一个采样帧至32帧，组成32帧进食采样视频帧；若是超过32帧，则随机裁剪一段连续的32帧作为32帧进食采样视频帧。

步骤23，基于第一采样间隔和第二采样间隔，分别对32帧进食采样视频帧进行采样，生成第一采样结果和第二采样结果；

步骤24，将成第一采样结果输入至Show支路，并将第二采样结果种的视频帧进行两两相减，将差值输入至Fast支路，其中，Fast支路中的池化层、残差层通过5*1*1的卷积结构连接至Show支路对应阶段的输出端。

具体的，设定第一采样间隔为8帧，对32帧进食采样视频帧进行第一次采样，得到4帧采样图像，记作第一采样结果，输入到Show支路。同样的，设定第二采样间隔为2帧，对32帧进食采样视频帧进行第二次采样，得到16帧采样图像，记作第二采样结果。

之后，将第二采样结果中的16帧图像进行两两相减，对应的计算公式为：

ResFrame_i＝Frame_i+1-Frame_i

式中，Frame_i为第二采样结果中的第i帧图像，ResFrame_i为相应的差值。将差值ResFrame_i输入至Fast支路。

本实施例中，SlowFast神经网络模型如表1所示。

表1

样结果中的视频帧个数多，卷积的通道数较少，通过Fast支路运算侧重于，可获得帧与帧之间的运动信息。且通过将第二采样结果中的16帧图像进行两两相减，得到的差值ResFrame_i为残差帧，其只保留了前后两帧的变化信息，更利于Fast支路对于运动信息的提取。

本实施例中，在Fast支路中的Pool1、Res2、Res3、Res4层之后会有一个5*1*1的卷积结构连接至Show支路对应阶段的输出端，其中，输入通道数是Fast支路各阶段卷积核个数，输出通道数为输入通道数的两倍。将卷积之后的结果与Slow支路对应阶段输出的结果进行拼接。

通过设置5*1*1的卷积结构，将Fast支路中得到的运动信息融合到Show支路得到的语义信息之中，进而得到全部的时空信息，即得到视频中动作的特征，实现特征图的尺寸匹配。

步骤25，引入自注意力机制，对Fast支路的输出结果乘以三个随机初始化的矩阵进行线性变换，生成转移矩阵，并基于转移矩阵和前馈网络，生成动作特征图，其中，转移矩阵的计算公式为：

式中，Q、K、V分别为Fast支路的输出结果经过线性变换后的转移矩阵，d_k为转移矩阵Q和K的列数，即向量的维度。

具体的，前馈神经网络是一个两层的全连接层，计算公式为：

Feed_Forward＝max(0，X*W₁+b₁)W₂+b₂

进而利用Relu()函数的输出结果与第二层输出函数的的输出结果，基于卷积神经网络，即可生成动作特征图，具体过程不再赘述。

本实施例中，Res5阶段后Fast支路输出的尺寸为16*4*4，其中16为特征图的个数，4*4为特征图的长和宽，将特征图的长和宽最大池化1。这样做是为了保留特征图与特征图之间的信息，而忽略特征图自身的语义信息。将16*1的特征图作为Transformer的Encoder部分的输入，其输出与输入大小一致，16*1的特征图。由于在卷积操作之后加入了Transformer中的Encoder模块，从而更有效地对视频中的运动信息进行建模。

步骤26，将Show支路的输出结果与动作特征图依次输入平均池化层、全连接层和Softmax函数模型，基于运算结果，判断所述待检测猕猴视频中的猕猴是否发生进食行为。

具体的，根据Show支路的输出结果与动作特征图进行运算，依次通过平均池化层、全连接层和Softmax函数模型，得到疑似进食视频中猕猴动作的预测值，根据预测值即可得到相应的动作类别，进而与真实的动作标签相比，判断猕猴是否发生进食行为。

而在SlowFast神经网络模型的训练过程中，还可以引入反向传播函数，待完成训练后，通过输入验证集中的数据，计算出相应的预测值，得到动作类别，与真实的动作标签相比，计算验证集的误差。根据得到的验证集的误差，通过模型的反向传播对参数进行修改和迭代，将预测结果最准确的模型作为最终的SlowFast神经网络模型，对上述疑似进食视频中猕猴是否发生进食行为进行预测。

步骤3，基于预设观测时间内各个猕猴的进行次数，判断所述猕猴是否发生食欲减退现象。

具体的，通过训练好的Yolo v5神经网络模型，检测并追踪待检测猕猴视频中每只猕猴的运动轨迹。当猕猴的运动轨迹进入食槽(预设进食区域201)并离开后，判断其滞留时间是否大于或等于2s，若是，则可能存在进食行为，因此，基于滞留时间的起始时间和终止时间将这段视频截取下来，作为疑似进食视频。

之后，启动保存好的SlowFast网络，将截取下来的视频输入到网络之中判断是否有进食行为，若是则将进食次数加1，否则跳过。得到一段时间(预设观测时间)内每只猕猴的进食次数记录，与之前相同时长的时间段内、该猕猴的进食次数比较，若明显减少，则表明该只猕猴出现食欲减退现象；否则，则证明该只猕猴食欲良好。

以上结合附图详细说明了本申请的技术方案，本申请提出了一种基于Yolo v5网络和SlowFast网络的群体猕猴食欲检测方法，该检测方法包括：步骤1，基于样本数据对搭建好的Yolo v5神经网络模型进行训练，并用训练好的Yolo v5神经网络模型，确定待检测猕猴视频中的猕猴运动轨迹；步骤2，当判定猕猴沿猕猴运动轨迹在预设进食区域的滞留时间大于或等于时间阈值时，利用SlowFast神经网络模型判断待检测猕猴视频中的猕猴是否发生进食行为；步骤3，基于预设观测时间内各个猕猴的进行次数，判断猕猴是否发生食欲减退现象。通过本申请中的技术方案，解决利用深度学习方法实现对猕猴进行食欲检测的问题，利用深度学习方法自动化、智能化的特点来代替人工观察猕猴是否食欲减退。

本申请中的步骤可根据实际需求进行顺序调整、合并和删减。

本申请装置中的单元可根据实际需求进行合并、划分和删减。

尽管参考附图详地公开了本申请，但应理解的是，这些描述仅仅是示例性的，并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定，并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims

1.一种基于Yolo v5网络和SlowFast网络的群体猕猴食欲检测方法，其特征在于，所述方法包括：

步骤1，基于样本数据对搭建好的Yolo v5神经网络模型进行训练，并用训练好的Yolov5神经网络模型，确定待检测猕猴视频中的猕猴运动轨迹；

步骤3，基于预设观测时间内各个猕猴的进行次数，判断所述猕猴是否发生食欲减退现象，所述SlowFast神经网络模型中包括Show支路和Fast支路，所述步骤2具体包括：

步骤21，基于所述滞留时间的起始时间和终止时间，截取所述待检测猕猴视频中的疑似进食视频；

步骤22，按照所述疑似进食视频中的视频帧数，选取不同的帧间隔，得到32帧进食采样视频帧；

步骤23，基于第一采样间隔和第二采样间隔，分别对所述32帧进食采样视频帧进行采样，生成第一采样结果和第二采样结果；

步骤24，将所述第一采样结果输入至所述Show支路，将所述第二采样结果中的图像进行两两相减，将差值输入至所述Fast支路；

步骤25，引入自注意力机制，对所述Fast支路的输出结果进行线性变换，生成转移矩阵，并基于所述转移矩阵和前馈网络，生成动作特征图；

步骤26，将所述Show支路的输出结果与所述动作特征图依次输入平均池化层、全连接层和Softmax函数模型，基于运算结果，判断所述待检测猕猴视频中的猕猴是否发生进食行为。

2.如权利要求1所述的基于Yolo v5网络和SlowFast网络的群体猕猴食欲检测方法，其特征在于，所述Fast支路中设置有池化层、残差层，所述池化层、所述残差层分别通过5*1*1的卷积结构连接至所述Show支路对应阶段的输出端。

3.如权利要求1所述的基于Yolo v5网络和SlowFast网络的群体猕猴食欲检测方法，其特征在于，所述转移矩阵的计算公式为：

4.如权利要求3所述的基于Yolo v5网络和SlowFast网络的群体猕猴食欲检测方法，其特征在于，所述步骤25中，所述前馈网络由两层全连接层组成，计算公式为：

Feed_Forward＝max(0，X*W₁+b₁)W₂+b₂

式中，Feed_Forward为动作特征图，X为输入到所述全连接层的转移矩阵，W₁、W₂为权值矩阵，b₁、b₂为偏置。

5.如权利要求1所述的基于Yolo v5网络和SlowFast网络的群体猕猴食欲检测方法，其特征在于，所述步骤1中，确定待检测猕猴视频中的猕猴运动轨迹，具体包括：

步骤11，利用训练好的Yolo v5神经网络模型对待检测猕猴视频进行图像处理，确定待检测猕猴视频中关键帧图像的输出框的位置信息以及类别，并基于所述位置信息计算每个输出框的中心坐标，并将中心坐标与关键帧图像的帧号一一对应；

步骤12，基于关键帧图像的帧号以及输出框的类别，确定所述猕猴运动轨迹，其中，所述类别由所述关键帧图像中猕猴项圈的颜色决定。