CN114882586A

CN114882586A - 一种群体猴运动活跃状态监测系统和方法

Info

Publication number: CN114882586A
Application number: CN202210409317.5A
Authority: CN
Inventors: 杨进涛; 梁科委; 彭霞; 张素才; 左从林
Original assignee: Beijing Zhaoyan New Drug Research Center Co ltd
Current assignee: Beijing Zhaoyan New Drug Research Center Co ltd
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2022-08-09

Abstract

本发明提出一种群体猴运动活跃状态监测系统和方法，通过获取猴子样本视频；对样本视频提取关键帧图像并进行标记；通过第一神经网络对关键帧图像进行目标检测，获取猴子的位置信息和类别；对关键帧前后的视频进行动作检测，判断猴子的运动状态。本发明实现了对多只猴子进食的高效识别和运动活跃程度分析系统。

Description

一种群体猴运动活跃状态监测系统和方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种群体猴运动活跃状态监测系统。

背景技术

猴子在基因上与人类高度相似，是用药物评估最重要的工具。在药物评估中，药物公司要会给猴子注射试验药物，对其正负作用进行评估。食欲减退、活跃程度是药物评估的重要环节，由于猴子无法像人类一样用语言表达进食欲望，对猴子的进食行为记录就成了最重要的标准；猴子运动活跃程度虽然可以定性观察，但无法定量记录，更无法实时反馈。

由于饲养成本的原因，不可能通过将一只猴子单独关在一只笼子来观察猴子进食前后食物变化的方式来评估猴子食欲。事实上，在我们的场景下，是五只猴子同时关在一个笼子里。为了方便于猴子识别，猴子在脖子处放置不同颜色的项圈，分别为黄色、绿色、红色、黑色和白色。所以要通过检测镜头内猴子进食时间来精准的评估猴子食欲。在群体猴子运动行为中，我们定位一方面提供猴子每秒的位置信息，另一方面识别猴子的蹲坐，行走，攀爬等运动状态信息，结合两者完成猴子活跃状态评估。

以往的检测方法，大都基于单帧的检测，这种检测方式，即使在检测准确率比较高的情况下，仍然会出现连续帧类别快速改变又快速回来的“尖刺显现”，因为有些动作不是瞬发的，例如进食等，不可能在0.1秒内完成吃与不吃的快速转变。虽然后续出现的视频后处理在一定程度上减少了这种现象的发生，但是仅仅从单帧图像识别进食等持续性动作准确率不足以满足实际需要。

发明内容

本发明为解决现有技术不能通过单帧图像准确识别猴子运动状态的问题，基于目标检测和视频分类的系统，提出了能够对多只猴子进食的高效识别和运动活跃程度分析系统。

提供了一种群体猴运动活跃状态监测系统，其特征在于，所述群体猴运动活跃状态监测系统包括数据获取模块、数据标注模块、关键帧检测模块和行为识别模块；

所述数据获取模块包括相机，所述相机设置在笼子上，用于获取多只猴子的样本视频；

所述数据标注模块用于对所述样本视频提取关键帧图像并进行标记；

所述关键帧检测模块用于通过第一神经网络对所述关键帧图像进行目标检测，获取猴子的位置信息和类别；

所述行为识别模块选取具有标记的关键帧图像前后各0.5秒的多张连续图像，分别截取出各类别猴子在对应位置的连续图像，对所述连续图像分别通过第二神经网络进行动作识别，判断猴子的运动状态。

更进一步地，所述数据获取模块包括相机参数选取单元和进食视频筛选单元；

所述相机参数选取单元用于配置所述相机为每秒内获取图像总帧数；

所述进食视频筛选单元用于从所述样本视频中选取多段猴子进食频率比较高的视频段。

更进一步地，所述第一神经网络的损失函数为：

L＝0.05*lbox+lobj+0.5*lcls

其中，xywh部分带来的误差lbox表示为：

x_i、y_i为第i个网格在图片的x轴、y轴位置，w_i表示第i个网格宽、h_i表示第i个网格高，网格数量为S*S个，每个网格产生B个候选框，

表示第i个网格的第j个候选框是否负责预测这个对象，如果是

若不是

置信度带来的误差lobj表示为：

c_i为置信度，

表示第i个网格的第j个候选框是否不负责预测这个对象，如果不负责

若负责

类别带来的误差lcls表示为：

p_i(c)为分类概率。

更进一步地，所述行为识别模块在所述关键帧前后0.5秒内的视频帧获取内预设间隔帧的抽样帧，通过抽样帧进行动作识别。

更进一步地，所述群体猴运动活跃状态监测系统包括后处理模块，所述后处理模块包括进食评估单元和运动活跃评估单元；

所述进食评估单元用于对每只猴子进食时间进行分别求和，通过每只猴子进食时间和总时间比来判断每只猴子进食欲望；

所述运动活跃评估单元用于计算猴子活跃程度，模型为：

S＝k1*d+k2*x+k3*p

其中，S表示猴子活跃程度，d表示蹲坐时间，x表示行走时间，p表示攀爬时间，k1、k2、k3表示分别蹲坐、行走和攀爬活跃系数。

还提供了一种群体猴运动活跃状态监测方法，其特征在于，所述群体猴运动活跃状态监测方法包括以下步骤：

步骤1：通过相机对笼内猴子进行视频图像进行采集；

步骤2：选取样本视频，并确定关键帧，对关键帧图像进行标记；

步骤3：对标记后的关键帧图像进行目标检测，获取猴子的位置信息和类别；

步骤4：选取具有标记的关键帧前后的视频进行动作检测，判断猴子的运动状态。

更进一步地，在步骤1中，所述相机设置在镜头内容纳猴子数量最多的位置上。

更进一步地，在步骤2中，所述样本视频选取多段猴子进食频率比较高的视频段；

所述关键帧为视频段中每秒预设的固定帧；

所述标记包括猴子的位置信息、类别以及动作行为。

更进一步地，在步骤3中，目标检测中神经网络的损失函数为：

L＝0.05*lbox+lobj+0.5*lcls

其中，xywh部分带来的误差lbox表示为：

若不是

置信度带来的误差lobj表示为：

c_i为置信度，

若负责

类别带来的误差lcls表示为：

p_i(c)为分类概率。

更进一步地，在步骤4中，选取具有标记的关键帧图像前后各0.5秒内预设间隔帧的多张连续图像，分别截取出各类别猴子在对应位置的连续图像，对所述连续图像分别通过第二神经网络进行动作识别。

本发明的有益效果包括：

本发明将猴子的位置和类别分类网络与动作识别网络相结合，有效的实现了对猴子运动活跃和进食欲望进行评估，方案清晰明了，易于操作，通过离线对模型训练之后，可以部署到药厂中，对进行药物实验猴子的进食情况进行实时监测，以判断药物效果，极大节约了人力成本和时间成本。

本发明的动作识别网络将快支路的输入由RGB帧转化为残差帧，残差帧去除了背景信息，只关注帧与帧之间的变化，使得快支路提取运动信息更为直接。另外，在快支路的卷积操作之后加入了Transformer模块，使得网络可以学习到帧与帧之间的上下文信息，提升了整体的识别效果。

附图说明

图1是本发明实施例提供的一种群体猴运动活跃状态监测系统的结构示意图；

图2是本发明实施例提供的一种群体猴运动活跃状态监测方法的流程示意图。

具体实施方式

下面结合附图对本发明的技术方案进行更详细的说明，本发明包括但不仅限于下述实施例。

如附图1所示，本发明提供了一种群体猴运动活跃状态监测系统，该群体猴运动状态监测系统包括数据获取模块、数据标注模块、关键帧检测模块、行为识别模块和后处理模块。

数据获取模块采用摄像头获取饲养状态下笼子中猴子视频数据。

数据获取模块包括相机、相机参数选取单元和进食视频筛选单元；

相机可以固定在笼子的上，左和前三个方向，由于笼子的长宽高尺寸不同，采集视频的长宽高尺寸不一，并且与笼中猴子的距离也不同，距离太远，检测效果变差，距离太近视角内能捕获的猴子较少，且因猴子进出视角内导致图像中的不完整猴子占比较多。例如在一种实施例中，当相机位于上方时，相机里猴子过远，猴子在镜头中较小且模糊，不利于猴子检测和行为识别；当相机在笼子左方时，猴子在镜头中较大，但镜头中最多包含两只猴子，更多的猴子在镜头外部；当相机在笼子前方时，距离比较适宜，为此系统选择的视角。

相机参数选取单元用于配置相机参数为每秒内获取图像总计帧数。

进食数据筛选单元用于对相机采集图像进行进食区域的划分，设置预设进食区域；对采集到的猕猴视频进行清洗，通过人工挑选方法挑选出清晰的视频，并删除模糊不清的视频，清洗后的猕猴视频用于进行视频数据标注。

数据标注模块用于进行猴子项圈类别、位置信息及动作行为标记。数据标注模块采用VOTT视频标注软件进行标记，每隔1s对图像中选取固定的一帧作为关键帧，在关键帧图像中将猴子用紧贴着猴子的长方形框出，并设置猴子的位置信息、类别和动作行为。

关键帧检测模块通过使用第一神经网络对关键帧图像进行目标检测，获取关键帧中的猴子位置定义该关键帧所在秒内猴子的位置信息和类别。

在一种实施例中，采用Yolo v5神经网络模型作为第一神经网络，在对第一神经网络进行训练时，采用单帧图像和项圈颜色进行多轮训练，如100轮；之后，将训练好的Yolov5神经网络模型利用验证集进行验证，保存最终模型，以便对待检测猕猴视频中的猕猴运动轨迹进行轨迹识别。

进一步的，为了增加样本数据的多样性，可以采用随机图像拼接的方式，如mosaic方法，对样本数据中的训练集进行数据扩充。

具体的，在对第一神经网络进行训练的过程中，将训练集中的视频输入至Yolo v5神经网络模型，逐帧提取关键帧图像，并对关键帧图像进行统一缩放。

在缩放过程中，设定缩放尺寸统一为(n，m，3)，其中，行像素n或列像素m中的一个参数为1280。若行像素n或列像素m无法被预设步长stride整除，则对关键帧图像进行边缘填充，将其两边等分边缘填充为(dw+n+dw，1280，3)或(1280，dh+m+dh)，dw、dh分别是宽和高填充长度的大小。例如当stride＝32时，图像大小为(1080，1920，3)图像依次被转化成(720，1280，3)、(736，1280，3)。

该Yolo v5神经网络模型包括YOLOv5 backbone模型和YOLOv5 head模型，由YOLOv5 backbone模型逐帧读取关键帧图像中的图像像素信息，提取不同深度的特征，在输入至YOLOv5 head模型后，由YOLOv5 head模型输出关键帧图像中输出框的位置信息、类别和置信度，再经过NMS进行极大值抑制去除多余输出框，其中，输出类别由视频帧中猕猴项圈的颜色决定。

行为识别模块用于将在关键帧前后各0.5秒内，采用预设间隔帧的等间距采样固定数量帧的图像，通过第二神经网络将这些帧的图像依据该关键帧中猴子的位置信息和行为类别，获取同一行为类别对应位置的图像，并对该图像进行动作特征识别，判断关键帧中猴子的动作行为。

关键帧前后各0.5秒视频能够有效的区分各种动作的特点，例如，进食动作需要较长的视频段来识别，因为太短容易与张嘴动作混到一起；行走或者攀爬需要较短的视频段，因为视频段越短，在蹲坐与行走的边界会越明显。

后处理模块用于识别行为信息和运动状态进行展示，后处理模块具体包含进食评估单元和运动活跃评估单元。

进食评估单元，配置为对一段视频进行预测后，对每只猴子进食时间进行分别求和，通过每只猴子进食时间和总时间比来判断每只猴子进食欲望；

运动活跃评估单元，配置为对视频进行预测后，计算分布每只猴子在视频段内的蹲坐时间d，行走时间x，攀爬时间p，用公式S＝k1*d+k2*x+k3*p来评估猴子活跃程度，k1、k2、k3表示分别蹲坐、行走和攀爬活跃系数，本专利中k1、k2、k3分别取0.2、0.3、0.4。

在一些优选的实施方式中，相机参数选取单元配置相机采用每秒60帧的拍摄模式对笼内5只带有不同颜色项圈的猴子进行拍摄。选取相机对笼子中猴子拍摄的视频中选取两段9分钟视频，并一共筛选6段9分钟视频用于后续标注。

在对选取的视频中进行标注时，确定每秒视频中第60帧作为关键帧，采用两位数字对每秒的关键帧进行标记，第一位表示猴子项圈颜色：0黄、1绿、2红、3黑、4白。第二位：动作：0进食、1行走、2蹲坐3攀爬，例如标签为“00”表示关键帧中带黄色项圈的猴子在关键帧前后0.5秒内进食，共标注6x9x60＝3240张关键帧。

关键帧检测模块通过python脚本将VOTT标注的json格式处理成利于YOLOv5处理的特定txt格式。将关键帧像素数组维度为(1080,1920,3)的图像进行缩放到(720,1280,3)，训练图像经过YOLOv5网络后，预测出框的坐标、类别和置信度信息。预测信息和标签信息比较，经过损失函数产生三个损失值lbox，lobj和lcls。

其中，xywh部分带来的误差lbox表示为：

x_i、y_i为第i个预测框在图片的x轴、y轴位置，w_i表示第i个预测框宽、h_i表示第i个预测框高，预测框数量为S*S个，每个预测框产生B个候选框，

若不是

置信度带来的误差lobj表示为：

c_i为置信度，

若负责

类别带来的误差lcls表示为：

p_i(c)为分类概率。

损失函数为：

L＝0.05*lbox+lobj+0.5*lcls

生成损失函数值用于反向传播。选取验证集上性能最好的模型作为系统模型，将图像放入训练好的模型进行预测的结果可视化。

行为识别模块采用在视频逐帧读取的过程中记录关键帧和关键帧前后0.5秒内的抽样帧，例如关键帧为第60帧，采样间隔为2时，保留帧为[28,30,...60,62...90]共计32帧。再将这32帧作为整体放置到SlowFast网络中，SlowFast的backbone先提取图像组特征，然后这些特征和猴子框进入ROIAlign函数，将不同猴子的特征分类，然后分别放入分类器中预测猴子行为。

具体的，在一种实施例中，观测的猕猴种类可以为恒河猴和食蟹猴。

在获得样本数据时，对采集到的猕猴视频的第一帧图像进行进食区域划分作为预设进食区域。之后，对采集到的猕猴视频进行清洗，通过人工挑选方法挑选出清晰的视频，并删除模糊不清的视频，并对清洗后的猕猴视频进行视频数据标注。在标注时，每隔1s对猕猴视频的视频帧中的猕猴标上不同的边框box，并基于笼中猕猴脖子上带的项圈颜色标注边框的类别，其中，设定项圈颜色黄、绿、红、黑和白依次记为1、2、3、4和5。同时，对笼中食槽周围的猕猴行为进行标注，分为进食和非进食两类，并利用FFmpeg软件裁剪出进食和非进食的动作片段，以便作为模型训练的样本数据，其中，样本数据被划分为训练集和验证集。

本实施例在进行Yolo v5神经网络模型训练时，采用单帧图像和项圈颜色进行多轮训练，如100轮。之后，将训练好的Yolo v5神经网络模型利用验证集进行验证，保存最终模型，以便对待检测猕猴视频中的猕猴运动轨迹进行轨迹识别。为了增加样本数据的多样性，可以采用随机图像拼接的方式，如mosaic方法，对样本数据中的训练集进行数据扩充。

在进行训练过程中，将训练集中的视频输入至Yolo v5神经网络模型，根据预设间隔10帧，逐帧提取关键帧图像，并对关键帧图像进行统一缩放。在缩放过程中，设定缩放尺寸统一为(n，m，3)，其中，行像素n或列像素m中的一个参数为1280。若行像素n或列像素m无法被预设步长stride整除，则对关键帧图像进行边缘填充，将其两边等分边缘填充为(dw+n+dw，1280，3)或(1280，dh+m+dh)。例如当stride＝32时，图像大小为(1080，1920，3)图像依次被转化成(720，1280，3)、(736，1280，3)。

该Yolo v5神经网络模型包括YOLOv5 backbone模型和YOLOv5 head模型，由YOLOv5 backbone模型逐帧读取关键帧图像中的图像像素信息，提取不同深度的特征，在输入至YOLOv5 head模型后，由YOLOv5 head模型输出关键帧图像中输出框的位置信息、类别和置信度，再经过NMS进行极大值抑制去除多余输出框，其中，类别由视频帧中猕猴项圈的颜色决定。

在判断猕猴是否发生进食行为之前，由于猕猴能够在笼中自由移动，因此，当判定猕猴沿猕猴运动轨迹进入预设进食区域时，开始计时，记作t1。之后，当判定猕猴沿猕猴运动轨迹离开预设进食区域201时，停止计时，记作t2。因此，猕猴在预设进食区域内的滞留时间t＝t2-t1，当其滞留时间大于或等于时间阈值2s时，即可判定该时间段内该猕猴可能存在进食行为。

按照疑似进食视频中的视频帧数，选取不同的帧间隔frameinterval，然后按照帧间隔对原视频帧进行采样。若是采样帧个数少于32，则复制最后一个采样帧至32帧；若是超过32，则随机裁剪一段连续的32帧作为采样帧。

设定第一采样间隔为8帧，对32帧进食采样视频帧进行第一次采样，得到4帧采样图像，记作第一采样结果，输入到Show支路。同样的，设定第二采样间隔为2帧，对32帧进食采样视频帧进行第二次采样，得到16帧采样图像，记作第二采样结果。将第二采样结果中的16帧图像进行两两相减ResFrame_i为相应的差值，将差值ResFrame_i输入至Fast支路。

在Fast支路中的Pool1、Res2、Res3、Res4层之后会有一个5*1*1的卷积结构连接至Show支路对应阶段的输出端，其中，输入通道数是Fast支路各阶段卷积核个数，输出通道数为输入通道数的两倍。将卷积之后的结果与Slow支路对应阶段输出的结果进行拼接。

通过设置5*1*1的卷积结构，将Fast支路中得到的运动信息融合到Show支路得到的语义信息之中，进而得到全部的时空信息，即得到视频中动作的特征，实现特征图的尺寸匹配。

对Fast支路的输出结果乘以三个矩阵进行线性变换，生成转移矩阵，并基于前馈网络和转换矩阵，生成动作特征图，其中，转换矩阵的计算公式为：

式中，Q、K、V分别为Fast支路的输出结果经过线性变换后的转移矩阵，d_k为转移矩阵Q和K的列数，即向量的维度。

前馈神经网络是一个两层的全连接层，第一层的激活函数为Relu()函数，第二层输出函数的计算公式为：

Feed_Forward＝max(0，X*W₁+b₁)W₂+b₂

式中，Feed_Forward为动作特征图，X是输入到全连接层的特征图，W₁、W₂为权值矩阵，b₁、b₂为偏置。

Res5阶段后Fast支路输出的尺寸为16*4*4，其中16为特征图的个数，4*4为特征图的长和宽，将特征图的长和宽最大池化1。这样做是为了保留特征图与特征图之间的信息，而忽略特征图自身的语义信息。将16*1的特征图作为Transformer的Encoder部分的输入，其输出与输入大小一致，16*1的特征图。由于在卷积操作之后加入了Transformer中的Encoder模块，从而更有效地对视频中的运动信息进行建模。

根据Show支路的输出结果与动作特征图进行运算，依次通过平均池化层、全连接层和Softmax函数模型，得到疑似进食视频中猕猴动作的预测值，根据预测值即可得到相应的动作类别，进而与真实的动作标签相比，判断猕猴是否发生进食行为。

而在SlowFast神经网络模型的训练过程中，还可以引入反向传播函数，待完成训练后，通过输入验证集中的数据，计算出相应的预测值，得到动作类别，与真实的动作标签相比，计算验证集的误差。根据得到的验证集的误差，通过模型的反向传播对参数进行修改和迭代，将预测结果最准确的模型作为最终的SlowFast神经网络模型，对上述疑似进食视频中猕猴是否发生进食行为进行预测。

本发明还提供了一种群体猴运动活跃状态监测方法，具体包括以下步骤：

步骤1，通过相机对笼内猴子进行视频图像进行采集。

具体的，相机固定设置在装有猴子的笼子前侧，以实现对笼子内的猴子进行视频采集，视频采集采用每秒固定帧率的格式。

步骤2，选取样本视频，并确定关键帧，对关键帧图像进行标记。

在采集到的猴子视频中选取猴子进食频率比较高的视频段，每段视频时间持续几分钟，共筛选多段视频用于标注。选择视频中每秒中预设帧为关键帧，并对关键帧对应的图像进行标记，标记的信息包括猴子的位置信息、类别以及动作行为。位置信息即猴子所在位置的长方形框体两个对角的坐标，类别即猴子项圈颜色，猴子的动作行为即猴子在关键帧中处于进食、行走、蹲坐或攀爬状态。

步骤3，对标记后的关键帧图像进行目标检测，获取猴子的位置信息和类别。

将标记好的样本视频对第一神经网络单元进行训练，第一神经网络单元用于识别图像中猴子的位置信息和类别。

使用训练好的第一神经网络对未标记的样本视频中提取的关键帧图像进行识别，获取图像中猴子的位置信息和类别。

步骤4，选取具有标记的关键帧前后的视频进行动作检测，判断猴子的运动状态。

选取具有标记的关键帧图像前后各0.5秒内预设间隔帧的多张连续图像，默认在该时间段内图像中各类别的猴子位置不变，分别截取出各类别猴子在对应位置的连续图像，对截取的连续图像分别通过第二神经网络进行动作识别，判断各猴子在关键帧中的运动状态。

对每个类别对应猴子进食时间进行分别求和，通过每个类别对应猴子进食时间和总时间比能够判断每只猴子进食欲望。

对每个类别对应猴子在视频段内的蹲坐时间d，行走时间x，攀爬时间p，通过公式S＝k1*d+k2*x+k3*p来评估猴子活跃程度，k1、k2、k3表示分别蹲坐、行走和攀爬活跃系数。

本发明不仅局限于上述具体实施方式，本领域一般技术人员根据实施例和附图公开内容，可以采用其它多种具体实施方式实施本发明，因此，凡是采用本发明的设计结构和思路，做一些简单的变换或更改的设计，都落入本发明保护的范围。