CN114842554B

CN114842554B - 一种基于局部和全局时空特征的群体猴子动作识别方法

Info

Publication number: CN114842554B
Application number: CN202210431685.XA
Authority: CN
Inventors: 张素才; 杨森; 左从林; 高大鹏; 彭霞; 马金玲
Original assignee: Beijing Zhaoyan New Drug Research Center Co ltd
Current assignee: Beijing Zhaoyan New Drug Research Center Co ltd
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2024-05-14
Anticipated expiration: 2042-04-22
Also published as: CN114842554A

Abstract

本申请公开了一种基于局部和全局时空特征的群体猴子动作识别方法，包括：构建动作识别网络模型，并利用猴群动作数据库对动作识别网络模型进行训练，其中，动作识别网络模型中设置有融合模块以及时间整合模块；对采集到的视频数据进行分帧处理，在分帧后的视频数据中随机选取多张连续帧，并按照通道维度进行拼接，生成关键帧；将关键帧作为输入数据，输入至训练好的动作识别网络模型，利用动作识别网络模型输出视频数据中猴子动作的动作预测结果。通过本申请中的技术方案，解决了饲养状态下的群体猴子动作视频或者图像识别的问题。

Description

一种基于局部和全局时空特征的群体猴子动作识别方法

技术领域

本申请涉及计算机视频动作识别的技术领域，具体而言，涉及一种基于局部和全局时空特征的群体猴子动作识别方法。

背景技术

在药物评估中，对灵长类动物进行药物评估是药物临床试验前重要的一环，其中，通过使用人工智能的方法对灵长类动物进行行为识别和健康监测可以节省很大的人力物力，有助于为药物评估提供依据。

在计算机视频动作识别领域，深度神经网络经过良好的训练后，能够分辨出不同类别的动作，并展现出极好的动作识别性能。

然而，现有的大型行为识别模型及公开数据集的对象都是人类，比如UCF101数据集、AVA数据集。而这些公开数据集多为对视频片段进行动作识别，如果在视频片段中发生了多个动作，会以多标签的形式给出结果，但难以得到某一动作对应的动作主体。

另外，由于猴子身体大多被颜色相近的毛发覆盖，并且，猴子的动作和人不同，动作之间的逻辑性很差，如果利用现有数据库即配到的动作识别方法，将难以识别行为主体。

发明内容

本申请的目的在于：解决饲养状态下的群体猴子动作视频或者图像识别的问题。

本申请的技术方案是：提供了一种基于局部和全局时空特征的群体猴子动作识别方法，该方法包括：构建动作识别网络模型，并利用猴群动作数据库对动作识别网络模型进行训练，其中，动作识别网络模型中设置有融合模块以及时间整合模块，融合模块用于对输入数据进行时空信息融合，生成融合特征图，时间整合模块用于分别提取融合特征图中的时间信息和空间信息，并将时间信息和空间信息在融合特征图的第二个维度上进行拼接，生成时空特征图，时空特征图用于动作预测；对采集到的视频数据进行分帧处理，在分帧后的视频数据中随机选取多张连续帧，并按照通道维度进行拼接，生成关键帧；将关键帧作为输入数据，输入至训练好的动作识别网络模型，利用动作识别网络模型输出视频数据中猴子动作的动作预测结果。

上述任一项技术方案中，进一步地，融合模块用于对输入数据进行时空信息融合，生成融合特征图，具体包括：利用卷积核大小为1*1的conv2模块对输入数据进行特征图处理，生成第一特征图x，其中，第一特征图x的维度为(N，C₂，H，W)；利用卷积核大小为3*3*3的con3模块对第一特征图x进行0填充，生成第二特征图f(x)，其中，第二特征图f(x)的维度为(N，C₃，H，W)；采用unsqueeze操作对第一特征图x的维度扩充为(N，C₂，1，H，W)，将第二特征图f(x)的维度扩充为(N，1，C₃，H，W)，并将维度扩充后的第一特征图x、第二特征图f(x)进行哈达玛积运算，生成第三特征图，其中，第三特征图的维度为(N，C₂，C₃，H，W)；利用Pool层和shift移位操作对第三特征图进行维度调整，将第三特征图的维度调整为(N，C₂，H，W)，生成第四特征图；利用ResNeXt网络对输入数据进行特征图处理，生成第五特征图，并采用特征图拼接的方式，将各支路输出的第四特征图与第五特征图进行拼接，生成融合特征图。

上述任一项技术方案中，进一步地，时间整合模块具体包括：左边支路、右边支路以及拼接模块；左边支路中设置有三个串联的2D卷积模块，三个2D卷积模块的卷积核大小依次为1*1、3*3和1*1，左边支路用于提取融合特征图中的空间信息，生成空间特征图，其中，空间特征图的维度为(N，C₅，H₂，W₂)；右边支路设置有串联的3D卷积模块、BN+ReLU模块以及reshape模块，3D卷积模块的卷积核大小为3*1*1，3D卷积模块用于提取融合特征图中的时间信息，生成中间特征图，中间特征图的维度为(N，C₆，H，W)，BN+ReLU模块至少包括BN层和ReLU层，其中，BN层用于对中间特征图进行正态分布转换，ReLU层中设置有sigmoid激活函数，reshape模块用于进行维度调整，将BN+ReLU模块激活后的中间特征图的维度调整为(N，C₇，H₂，W₂)，生成时间特征图；拼接模块用于将空间特征图与时间特征图进行拼接，生成时空特征图。

上述任一项技术方案中，进一步地，动作识别网络模型还包括3条支路，支路1被记作动作权重支路，支路2和支路3结构相同，被记作动作识别支路，支路2用于识别发生在饲养笼上半部分的猴子动作，支路3用于识别发生在饲养笼下半部分的猴子动作，其中，支路1包括依次串联的6个连续的2D ResNet层、AvgPooling层以及全连接层FC或softmax层，支路1用于输出关键帧中猴子动作发生在饲养笼上半部分、下半部分的概率。

上述任一项技术方案中，进一步地，方法还包括：将时间整合模块生成的时空特征图中的第二个维度调整为1/8，并将调整后的时空特征图输入至支路3。

上述任一项技术方案中，进一步地，方法还包括：构建猴群动作数据库，猴群动作数据库中存储有多个猴群动作数据，猴群动作数据由相机拍摄饲养笼中的猴群获得，猴群中的猴子佩戴有项圈，项圈为不同颜色的制式项圈。

上述任一项技术方案中，进一步地，构建猴群动作数据库，具体包括：在饲养笼的不同位置处安装多个相机，多个相机用于获取不同视角下饲养笼中猴群的视频数据；对采集到的视频数据进行预处理，对视频数据进行筛选、分帧操作；对预处理后的视频数据进行数据采样，并将采样到的若干连续帧按照通道维度进行拼接，生成关键帧；根据定义的群体猴子的动作，对关键帧进行数据标注，利用标注好的关键帧组成猴群动作数据库。

本申请的有益效果是：

本申请中的技术方案，通过佩戴不同颜色的制式项圈对猴群中的猴子单体进行区分，并在笼子不同位置处安放相机，以获取猴子的视频数据，并通过构建具有融合模块以及时间整合模块的动作识别网络模型，提取拼接后视频数据关键帧的时空信息，有助于对猴群中不同个体的动作进行识别，解决了饲养状态下的群体猴子动作视频或者图像识别的问题。

在本申请的一个优选实现方式中，通过在ResNeXt网络的基础上增设一条新的支路以组成融合模块，利用conv2模块、con3模块、哈达玛积运算等一系列的操作，能够在有效地利用ResNeXt网络中2D卷积运算提取空间信息的同时，利用少量的3D卷积和移位操作，提取时间和空间上的信息，以得到融合特征图，为后续识别不同区域动作的类型提供了基础数据，确保了能够准确地识别出猴子个体动作。

在本申请的另一个优选实现方式中，在时间整合模块中设置了左边支路、右边支路，分别提取融合特征图中的空间信息和时间信息，在利用拼接模块拼接生成时空特征图进而传输给动作识别支路。通过比较，本申请中的动作识别网络模型参数量较少，相较于slowfast网络中约33.6*10⁶个参数而言，减少为其三分之一。对于预测蹲坐、卧倒、附着、悬挂、异常、其他这些动作的AP@0.5IOU值能达到0.9；对于预测攀爬、跳跃、行走、进食、喝水这些动作的AP@0.5IOU值能达到0.7，有效地解决了饲养状态下的群体猴子动作视频或者图像识别的问题。

附图说明

本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请的一个实施例的基于局部和全局时空特征的群体猴子动作识别方法的示意流程图；

图2是根据本申请的一个实施例的标注数据的示意图；

图3是根据本申请的一个实施例的检测结果的示意图；

图4是根据本申请的一个实施例的模型整体框架的示意框图；

图5是根据本申请的一个实施例的融合模块的示意框图；

图6是根据本申请的一个实施例的时间整合模块的示意框图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

在下面的描述中，阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不受下面公开的具体实施例的限制。

如图1所示，本实施例提供了一种基于局部和全局时空特征的群体猴子动作识别方法，该方法包括：

步骤1：在饲养笼的不同位置处安装多个相机，多个相机用于获取不同视角下饲养笼中猴群的视频数据。

具体的，将若干XTU骁途相机通过对应的固定装置安装在饲养笼的不同位置上，收集正视图、侧视图和俯视图等不同视角下饲养笼内猴群的视频数据，其中，根据饲养笼的形状和相机的视角，正视图视角下安装上下两个相机。相机设置为30FPS。由于遮挡和猴子行为的不确定性，不同的视角下对不同行为捕捉的准确度和清晰度是不同的，因此，收集多视角的视频数据不仅能更加全面的捕捉群体猴子的行为，而且有利于开展三维位置跟踪等其他方面的工作。

本实施例中，将不同视角的视频数据与相机拍摄的时间戳进行一一对应。

步骤2：对采集到的视频数据进行预处理，对视频数据进行筛选、分帧操作。

本实施例中，导出的视频数据的数据格式为视频，每段时长9分钟左右。

具体的，在进行预处理时，首先，对视频数据进行人工筛选，删除与猴群无关的视频数据，如安装、调试、拆除相机时所拍摄到的视频数据。然后，通过计算机ffmpeg命令对筛选后的视频数据进行分帧处理，在分帧处理过程中，对应于相机的设置，将每秒的采集到的视频分为30帧。最后，将同一视频数据经分帧操作得到的所有视频帧放在同一个文件夹下，文件夹的命名和帧顺序相关。

步骤3：对预处理后的视频数据进行数据采样，并将采样到的若干连续帧按照通道维度进行拼接，生成关键帧。

具体的，考虑到实际饲养笼内背景单一，不利于群体猴子的识别，因此，可以将群体猴子的帧序列变为单体猴子的帧序列。首先，根据对猴群中猴子的相关动作持续时间的观察，设定动作识别网络模型一次检验4秒时长的视频数据，对于超过这一预设时长的视频数据，则采取滑动窗口进行处理，设定窗口的长度保持为4秒。

然后，对于每个窗口内相应视频数据的视频帧进行随机采样，得到若干组连续帧，每组连续帧的个数预设为N＝3，由于一个图像帧的尺寸为(C,H,W)，对于RGB图像来说C＝3，将每组连续帧按照通道维度进行拼接，将拼接后的视频帧作为新的关键帧，则新的关键帧的通道大小为C＝3N，尺寸为(3N，H，W)。

本实施例中设采样了T组连续帧，那么，可以得到新的关键帧尺寸为(T，3N，H，W)，即为动作识别网络模型的输入尺寸，将关键帧中蕴含的时空信息作为窗口中的视频数据所蕴含的时空信息。

本实施例对视频数据每秒进行3帧标注，而每秒共30帧，因此，以每个关键帧为中心，我们可以得到长度为10帧的帧片段，将该帧片段在通道维度上进行拼接，设一帧的维度大小为(C,H,W)，则该帧片段维度大小为(10C，H,W)。若对其进行一维卷积，则由关键帧序列得到的特征图维度为(N，C₁，H，W)。

步骤4：根据定义的群体猴子的动作，对关键帧进行数据标注，利用标注好的关键帧组成猴群动作数据库。

具体的，根据工程需要以及动作出现的频率，定义群体猴子的动作如下：蹲坐、卧倒、附着、悬挂、攀爬、跳跃、行走、进食、喝水、异常、其他，分别由1到11来表示。

由于猴子身体表面被毛发覆盖，导致其本身的体貌特征区别较小，因此，在实际饲养中，每只饲养笼中有5只猴子组成猴群，5只猴子分别佩戴“黄、绿、红、黑、白”五种颜色的制式项圈用于区分，项圈颜色用0到4共5个数字表示。

因此，猴子动作和猴子个体组合起来可以用二位数进行标注，第一位表示猴子个体，第二位表示猴子动作类型，比如“00”表示佩戴黄色项圈的猴子发生“进食”动作。

本实施例中，对关键帧进行数据标注的过程为人工标注，可以使用开源标注工具“labelme”对关键帧进行标注，如图2所示，标注结果导出文件为json格式。

每帧关键帧图像中标注有若干个边界框bounding box，是一个矩形框，每个边界框bounding box具有位置信息、二位数类别标签、所属帧等信息，其中，位置信息是包含了矩形左上顶点的(x,y)坐标以及矩形长宽的四元组。需批量地将这些信息提取出来进行整合，与新的关键帧进行对应。

步骤5：搭建动作识别网络模型，并利用猴群动作数据库对搭建好的动作识别网络模型进行训练，其中，动作识别网络模型包括动作权重支路以及动作识别支路，动作识别支路中依次设置有融合模块以及时间整合模块。

具体的，首先将群体猴子的帧序列输入到检测网络中进行训练，检测结果如图3所示，然后使用训练好的目标检测网络将群体猴子的帧序列在空间上裁剪、时间上拼接，得到单体猴子的帧序列。

之后，对数据每秒进行3帧标注，而每秒共30帧，因此以每个关键帧为中心，可以得到长度为10帧的帧片段，将该帧片段在通道维度上进行拼接，设一帧的维度大小为(C,H,W)，则该帧片段维度大小为(10C，H,W)。将其输送到conv1模块中进行一维卷积，则由关键帧序列得到的特征图维度为(N，C₁，H，W)，作为输入传到3条支路中。

利用融合模块ResNeXt-shift网络和时间整合模块，对数据标注后的关键帧中的局部和全局时空特征进行处理，并且，在动作识别网络模型中设置根据猴子的动作特性生成动作权重的权重支路。

因此，如图4所示，该动作识别网络模型中至少包括3条支路，其中，支路1作为动作权重支路，用于生成动作权重，支路2和支路3构造类似，支路2用于识别发生在饲养笼上半部分的猴子动作，支路3用于识别发生在饲养笼下半部分的猴子动作。其中，支路1包括依次串联的6个连续的2D ResNet层、AvgPooling层以及全连接层FC或softmax层，支路1用于输出关键帧中猴子动作发生在饲养笼上半部分、下半部分的概率。

需要说明的是，支路2和支路3共用融合模块ResNeXt-shift网络和时间整合模块，共同组成动作识别支路。

支路1是用于生成动作权重的支路。由于前六种动作可和后五种动作分为两大类，第一大类动作发生位置往往在饲养饲养笼的上半部分，第二大类动作发生位置往往在饲养饲养笼的下半部分。

因此，本实施例通过对支路1进行提前训练，经过6个连续的2D ResNet层、AvgPooling层、全连接层FC或softmax层，其中，在训练过程中，支路1连接softmax层，在动作识别过程中，支路1连接全连接层FC。

动作权重支路(支路1)输出的类别个数为2，输出为[1,0]代表该动作发生于饲养笼的上半部分，输出为[0,1]该动作发生于饲养笼的下半部分。

相应的，将对关键帧的数据标注进行相同处理，该关键帧片段的动作为前六种动作时生成支路1对应标签为[1,0]，该关键帧片段的动作为后五种动作时生成支路1对应标签为[0,1]。

提前训练好后保存相应权重文件，在之后的训练中会冻结6个连续的2D ResNet层和AvgPooling层的权重，并将softmax层替换为以sigmoid为激活函数的FC层，输出维度(类别个数)仍为2，该FC层会和支路2和支路3一起训练。替换为FC层后，设动作权重支路的输出为a：

a＝[a₁ a₂]

其中，a₁代表该动作发生于饲养笼上半部分的概率，a₂代表该动作发生于饲养笼下半部分的概率。

本实施例中，该动作识别网络模型中设置有融合模块以及时间整合模块，融合模块用于对输入数据进行时空信息融合，生成融合特征图，时间整合模块用于分别提取融合特征图中的时间信息和空间信息，并将时间信息和空间信息在融合特征图的第二个维度上进行拼接，生成时空特征图，时空特征图用于动作预测。

具体的，支路2、支路3与共用融合模块ResNeXt-shift网络和时间整合模块组成动作识别支路。

如图5所示，本实施例中的融合模块ResNeXt-shift网络是在ResNeXt网络的基础上增设一条新的支路，设定输入关键帧对应的特征图维度为(N，C₁，H，W)。利用卷积核大小为1*1的conv2模块对输入数据进行特征图处理，生成第一特征图x，其中，第一特征图x的维度为(N，C₂，H，W)；利用卷积核大小为3*3*3的con3模块对第一特征图x进行0填充，生成第二特征图f(x)，其中，第二特征图f(x)的维度为(N，C₃，H，W)，该第二特征图f(x)汇总蕴含了全局的时空信息；之后，需要将第二特征图f(x)和原始的第一特征图x使用哈达玛积的方式进行融合。

采用unsqueeze操作对第一特征图x的维度扩充为(N，C₂，1，H，W)，将第二特征图f(x)的维度扩充为(N，1，C₃，H，W)，并将维度扩充后的第一特征图x、第二特征图f(x)在第1和第2个维度上进行哈达玛积，基于python的广播机制，生成第三特征图，其中，第三特征图的维度为(N，C₂，C₃，H，W)。

利用Pool层和shift移位操作对第三特征图进行维度调整，将第三特征图的维度调整为(N，C₂，H，W)，生成第四特征图；

具体的，融合模块ResNeXt-shift网络中的Pool层使用AdaptiveAvgPool3d的方法，输出的特征图维度大小为(N，C₂，1，H，W)，使用queeze操作将其维度调整为(N，C₂，H，W)。然后在第2个维度也就是大小为C₂的维度上进行shift移位操作，使得该特征图有更多的时间表征能力。

之后，利用ResNeXt网络对输入数据进行特征图处理，生成第五特征图，并采用特征图拼接的方式，将各支路输出的第四特征图与第五特征图进行拼接，生成融合特征图，则融合模块ResNeXt-shift网络输出的融合特征图维度为(N，C₄，H，W)。

本实施例中的融合网络，基于ResNeXt网络的支路可以有效地提取空间上的信息，并且由于这些支路中只利用了2D卷积，相较于3D卷积而言，能够减少很大的参数量，提高运行速度。同时，新增的支路则利用少量的3D卷积和移位操作，使得该条支路参数量较少的同时，能够提取时间和空间上的信息，为后续识别不同区域动作的类型提供了基础数据，确保了能够准确地识别出猴子个体动作。

如图6所示，本实施例中的时间整合模块分为两条支路以及拼接模块，左边支路中设置有三个串联的2D卷积模块，三个2D卷积模块的卷积核大小依次为1*1、3*3和1*1，左边支路用于提取融合特征图中的空间信息，生成空间特征图，其中，空间特征图的维度为(N，C₅，H₂，W₂)；右边支路设置有串联的3D卷积模块、BN+ReLU模块以及reshape模块，3D卷积模块的卷积核大小为3*1*1，3D卷积模块用于提取融合特征图中的时间信息，生成中间特征图，中间特征图的维度为(N，C₆，H，W)。

其中，BN+ReLU模块至少包括BN层和ReLU层，其中，BN层用于对中间特征图进行正态分布转换，ReLU层中设置有sigmoid激活函数。

具体的，BN+ReLU模块中BN层将输入的数据(中间特征图)转换为以0为均值、以1为方差的正态分布，以使训练集和测试集保持独立同分布，这样就使输入激活函数的值，在反向传播的时候能够产生更明显的梯度，是网络整体更容易收敛。ReLU激活函数用于解决sigmoid激活函数的梯度消失的问题。

其中，reshape模块用于进行维度调整，将BN+ReLU模块输出的激活后的中间特征图的维度调整为(N，C₇，H₂，W₂)，得到时间特征图；

其中，拼接模块用于将空间特征图与时间特征图进行拼接，生成时空特征图。

具体的，右边支路通过卷积和大小为3*1*1的3D卷积模块提取时间上的信息而不改变空间信息，输出的特征图大小为(N，C₆，H，W)，再通过BN和ReLU操作后，使用reshape将其维度变更为(N，C₇，H₂，W₂)。最后将左右两条支路的输出在第2个维度上进行拼接，生成时空特征图，得到的时间整合模块的输出为(N，C₈，H₂，W₂)。

需要说明的是，如果使用3*3*3的卷积核，将时间和空间一起提取，可能导致空间上信息的丢失，因此，本实施例中设置两条支路分别提取空间和时间上的信息。左边支路使用的是2D卷积，右边支路虽然用了3D卷积，但卷积核大小为3*1*1而不是3*3*3，因此参数量较小，利用提升运行速度。并且，对空间上的信息的提取效果较好。

本实施例中，支路2和支路3构造相同，被记作动作识别支路，均由3D卷积层、平均池化层和使用sigmoid函数的FC层组成，其中，支路2用于识别发生在饲养笼上半部分的猴子动作，FC层输出类别个数为6；支路3用于识别发生在饲养笼下半部分的猴子动作，FC层输出类别个数为5。

进一步的，方法还包括：将时间整合模块生成的时空特征图中的第二个维度调整为1/8，并将调整后的时空特征图输入至支路3。

本实施例中，上半部分的猴子动作包括蹲坐、卧倒、附着、悬挂、攀爬、跳跃；下半部分的猴子动作包括行走、进食、喝水、异常、其他。

本实施例中，由于猴笼上半部分的动作猴子的姿态复杂并且动作持续时间更短，因此将时间整合模块的输出全部输入支路2中；而由于饲养笼下半部分的动作往往动作发生时间较长，因此，将时间整合模块的输出的第2个维度调整为原来的八分之一后，输入至支路3中。

下半部分的动作往往动作进行缓慢，相邻帧之间极为相似，并且持续时间较长，因此可以提高采样间隔，每八帧提取一帧，于是，输入到支路3中的特征图的第二个维度是时间整合模块的输出的特征图的第二个维度的八分之一。相当于输入到支路3之前滤除了一部分冗余信息，可以提高支路3的效率。

本实施例中，待构建好动作识别网络模型后，采用上述步骤，对采集到的视频数据进行分帧处理，在分帧后的视频数据中随机选取多张连续帧，并按照通道维度进行拼接，生成关键帧；

之后，将关键帧作为输入数据，输入至训练好的动作识别网络模型，利用动作识别网络模型输出视频数据中猴子动作的动作预测结果。

具体的，在动作识别网络模型中将支路2、支路3的输出分别与支路1生成的对应的权重相乘，然后拼接在一起，得到最终模型输出。设支路2的输出为x_a,支路3的输出为x_b,支路1得到的动作权重为a，通过如下公式得到模型输出x。

a＝[a₁ a₂]

x_a＝[x₁ x₂ x₃ x₄ x₅ x₆]

x_b＝[x₇ x₈ x₉ x₁₀ x₁₁]

x'_a＝[a₁*x₁ a₁*x₂ a₁*x₃ a₁*x₄ a₁*x₅ a₁*x₆]

x'_b＝[a₂*x₇ a₂*x₈ a₂*x₉ a₂*x₁₀ a₂*x₁₁]

x＝[x'_a x'_b]

具体的，将支路1得到的动作权重中的a₁和对应着猴笼上半部分的动作的预测分数x_a中的元素分别相乘，得到x'_a；同样的，将将支路1得到的动作权重中的a₂和对应着猴笼上半部分的动作的预测分数x_b中的元素分别相乘，得到x'_b。然后将x'_a和x'_b拼接，得到最终饲养笼中猴子动作得预测分数x。

本实施例的网络模型以2D卷积为主，使用了少量的3D卷积，并且设置了支路2和支路3不仅能提高对饲养笼上、下半部的猴子动作预测的准确率，通过输入维度的调整，也减少了参数量，因整个网络的运行速度将会比诸如slowfast这样以3D卷积为主的模型快上很多，更能适应实际饲养环境。

以上结合附图详细说明了本申请的技术方案，本申请提出了一种基于局部和全局时空特征的群体猴子动作识别方法，包括：构建动作识别网络模型，并利用猴群动作数据库对动作识别网络模型进行训练，其中，动作识别网络模型中设置有融合模块以及时间整合模块，融合模块用于对输入数据进行时空信息融合，生成融合特征图，时间整合模块用于分别提取融合特征图中的时间信息和空间信息，并将时间信息和空间信息在融合特征图的第二个维度上进行拼接，生成时空特征图，时空特征图用于动作预测；对采集到的视频数据进行分帧处理，在分帧后的视频数据中随机选取多张连续帧，并按照通道维度进行拼接，生成关键帧；将关键帧作为输入数据，输入至训练好的动作识别网络模型，利用动作识别网络模型输出视频数据中猴子动作的动作预测结果。通过本申请中的技术方案，解决了饲养状态下的群体猴子动作视频或者图像识别的问题。

本申请中的步骤可根据实际需求进行顺序调整、合并和删减。

本申请装置中的单元可根据实际需求进行合并、划分和删减。

尽管参考附图详地公开了本申请，但应理解的是，这些描述仅仅是示例性的，并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定，并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims

1.一种基于局部和全局时空特征的群体猴子动作识别方法，其特征在于，所述方法包括：

构建动作识别网络模型，并利用猴群动作数据库对所述动作识别网络模型进行训练，其中，所述动作识别网络模型中设置有融合模块以及时间整合模块，

所述融合模块用于对输入数据进行时空信息融合，生成融合特征图，

所述时间整合模块用于分别提取所述融合特征图中的时间信息和空间信息，并将所述时间信息和所述空间信息在所述融合特征图的第二个维度上进行拼接，生成时空特征图，所述时空特征图用于动作预测；

对采集到的视频数据进行分帧处理，在分帧后的视频数据中随机选取多张连续帧，并按照通道维度进行拼接，生成关键帧；

将所述关键帧作为所述输入数据，输入至训练好的动作识别网络模型，利用所述动作识别网络模型输出所述视频数据中猴子动作的动作预测结果；

所述融合模块用于对输入数据进行时空信息融合，生成融合特征图，具体包括：

利用卷积核大小为1*1的conv2模块对所述输入数据进行特征图处理，生成第一特征图x，其中，所述第一特征图x的维度为(N，C₂，H，W)；

利用卷积核大小为3*3*3的con3模块对所述第一特征图x进行0填充，生成第二特征图f(x)，其中，所述第二特征图f(x)的维度为(N，C₃，H，W)；

采用unsqueeze操作对所述第一特征图x的维度扩充为(N，C₂，1，H，W)，将所述第二特征图f(x)的维度扩充为(N，1，C₃，H，W)，并将维度扩充后的第一特征图x、第二特征图f(x)进行哈达玛积运算，生成第三特征图，其中，所述第三特征图的维度为(N，C₂，C₃，H，W)；

利用Pool层和shift移位操作对所述第三特征图进行维度调整，将所述第三特征图的维度调整为(N，C₂，H，W)，生成第四特征图；

利用ResNeXt网络对所述输入数据进行特征图处理，生成第五特征图，并采用特征图拼接的方式，将各支路输出的所述第四特征图与所述第五特征图进行拼接，生成所述融合特征图；

所述时间整合模块具体包括：左边支路、右边支路以及拼接模块；

所述左边支路中设置有三个串联的2D卷积模块，三个所述2D卷积模块的卷积核大小依次为1*1、3*3和1*1，所述左边支路用于提取所述融合特征图中的空间信息，生成空间特征图，其中，所述空间特征图的维度为(N，C₅，H₂，W₂)；

所述右边支路设置有串联的3D卷积模块、BN+ReLU模块以及reshape模块，所述3D卷积模块的卷积核大小为3*1*1，所述3D卷积模块用于提取所述融合特征图中的时间信息，生成中间特征图，所述中间特征图的维度为(N，C₆，H，W)，

所述BN+ReLU模块至少包括BN层和ReLU层，其中，所述BN层用于对中间特征图进行正态分布转换，所述ReLU层中设置有sigmoid激活函数，

所述reshape模块用于进行维度调整，将所述BN+ReLU模块激活后的中间特征图的维度调整为(N，C₇，H₂，W₂)，生成时间特征图；

所述拼接模块用于将所述空间特征图与所述时间特征图进行拼接，生成所述时空特征图。

2.如权利要求1所述的基于局部和全局时空特征的群体猴子动作识别方法，其特征在于，所述动作识别网络模型还包括3条支路，支路1被记作动作权重支路，支路2和支路3结构相同，被记作动作识别支路，所述支路2用于识别发生在饲养笼上半部分的猴子动作，所述支路3用于识别发生在所述饲养笼下半部分的猴子动作，

其中，所述支路1包括依次串联的6个连续的2D ResNet层、AvgPooling层以及全连接层FC或softmax层，所述支路1用于输出所述关键帧中猴子动作发生在饲养笼上半部分、下半部分的概率。

3.如权利要求2所述的基于局部和全局时空特征的群体猴子动作识别方法，其特征在于，所述方法还包括：

将所述时间整合模块生成的所述时空特征图中的第二个维度调整为1/8，并将调整后的时空特征图输入至所述支路3。

4.如权利要求1所述的基于局部和全局时空特征的群体猴子动作识别方法，其特征在于，所述方法还包括：

构建所述猴群动作数据库，所述猴群动作数据库中存储有多个所述猴群动作数据，所述猴群动作数据由相机拍摄饲养笼中的猴群获得，所述猴群中的猴子佩戴有项圈，所述项圈为不同颜色的制式项圈。

5.如权利要求4所述的基于局部和全局时空特征的群体猴子动作识别方法，其特征在于，所述构建猴群动作数据库，具体包括：

在所述饲养笼的不同位置处安装多个所述相机，多个所述相机用于获取不同视角下所述饲养笼中所述猴群的视频数据；

对采集到的所述视频数据进行预处理，对所述视频数据进行筛选、分帧操作；

对预处理后的视频数据进行数据采样，并将采样到的若干连续帧按照通道维度进行拼接，生成关键帧；

根据定义的群体猴子的动作，对所述关键帧进行数据标注，利用标注好的关键帧组成所述猴群动作数据库。