CN114596587A

CN114596587A - 基于时空交互网络的群体猴子动作识别方法

Info

Publication number: CN114596587A
Application number: CN202210226269.6A
Authority: CN
Inventors: 朱磊; 杨森
Original assignee: Beijing Xinzhiwen Technology Co ltd
Current assignee: Beijing Xinzhiwen Technology Co ltd
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-06-07

Abstract

本申请公开了基于时空交互网络的群体猴子动作识别方法，包括：搭建三层依次为位置和类别识别层、特征图处理层以及动作推理层的群猴动作识别模型，位置和类别识别层中的残差网络通过第一区域生成网络连接于特征图处理层的第二接口，特征图处理层将当前帧中不同动作主体的位置和类别信息转化为多维张量，以动作主体的位置信息作为索引，从第一区域生成网络中选取感兴趣区域，与多维张量进行叠加，动作推理层按照时间顺序，将叠加结果组成三维数据组，进行移位操作生成动作推理张量，输出动作主体位置对应的动作类别；利用猴群动作数据对群猴动作识别模型进行训练，直至模型收敛。通过本申请中的技术方案，解决了笼子中群体猴子动作识别的问题。

Description

基于时空交互网络的群体猴子动作识别方法

技术领域

本申请涉及数据处理的技术领域，具体而言，涉及基于时空交互网络的群体猴子动作识别方法。

背景技术

在计算机视频动作识别领域，深度神经网络经过良好的训练后，能够分辨出不同类别的动作，并展现出极好的动作识别性能。

随着卷积神经网络的发展越来越快和许多大规模数据集被公开，基于深度学习，通过使用2D-CNN或3D-CNN或同时使用二者的数据处理方法，在视频动作识别领域广为应用。其中，2D-CNN主要用于进行空间特征提取，而3D-CNN则通过3D卷积在提取时间信息上有优秀的表现，但是3D卷积计算量相较于2D卷积会增加许多。

在人类疾病诊断和药物评估中，灵长类动物(如恒河猴、食蟹猕猴)是必不可少的实验动物，对灵长类动物进行药物评估是药物临床试验前重要的一环，通过使用人工智能的方法对灵长类动物进行行为识别和健康监测可以节省很大的人力物力，有助于为药物评估提供依据。

然而，现有的大型行为识别模型及公开数据集的对象都是人类，此类行为识别模型首先训练了Faster r-cnn目标检测网络得到人类的边界框，然后，利用基于3DCNNslowfast网络提取利用时空信息，通过Faster r-cnn网络中的RPN(区域生成网络)网络得到RoI(感兴趣区域)特征，最后通过池化层和全连接层进行动作分类。

现有的行为识别模型在识别猴子的动作上效果很差，第一方面是因为没有公开的笼内饲养状态下，群体猴子的具有边界框注释的数据集；第二方面是因为猴子身体大多被颜色相近的毛发覆盖，难以识别行为主体；第三方面是因为猴子的动作和人不同，不仅动作之间的逻辑性很差，难以理解其内在逻辑，并且行为种类有很大差异，比如猴子具有攀爬、四肢着地行走这些动作，而且某些动作(比如跳跃)发生很快，有时不到一秒就结束了，而现有的数据集最短的是AVA数据集这样的精度为1秒，不能判断出时长不到一秒的动作。

另外，现有的行为识别模型通常使用2D CNN和3DCNN进行动作推理，导致内存占用量极大，增加了猴群群体猴子行为识别实现的硬件成本。

发明内容

本申请的目的在于：解决饲养状态下的群体猴子动作视频或者图像识别的问题。

本申请的技术方案是：提供了基于时空交互网络的群体猴子动作识别方法，该方法包括：搭建群猴动作识别模型，其中，群猴动作识别模型至少包括三层，依次为位置和类别识别层、特征图处理层以及动作推理层，位置和类别识别层中的残差网络ResNet通过第一区域生成网络RPN连接于特征图处理层的第二接口，位置和类别识别层用于识别当前帧中动作主体的位置和类别信息，特征图处理层用于将当前帧中不同动作主体的位置和类别信息转化为多维张量，并以位置和类别识别层确定的动作主体的位置信息作为索引，从第一区域生成网络RPN中选取对应位置的感兴趣区域RoI，并将感兴趣区域RoI与多维张量进行叠加，动作推理层用于按照时间顺序，将特征图处理层输出的叠加结果组成三维数据组，并对三维数据组在时间维度上进行上下双向移位操作，生成动作推理张量，以输出位置和类别识别层确定的动作主体位置对应的动作类别；利用猴群动作数据对群猴动作识别模型进行训练，直至群猴动作识别模型收敛，其中，收敛后的群猴动作识别模型用于对群体猴子进行动作识别。

上述任一项技术方案中，进一步地，位置和类别识别层的输出结果至少包括边界框bounding box的位置信息以及对应动作主体的类别信息，特征图处理层中将感兴趣区域RoI与多维张量进行叠加，具体包括：将边界框bounding box的位置信息和对应动作主体的类别信息串联，组成输入信息，输入至多层感知器，由多层感知器输出当前帧中不同动作主体的位置和类别信息；根据设定的动作主体数量，将多层感知器的输出数据拼接组成多维张量，动作主体数量为多维张量的列数；以位置和类别识别层确定的动作主体的位置信息作为索引，从第一区域生成网络RPN中选取对应位置的感兴趣区域RoI；调整感兴趣区域RoI的维度调整为多维张量的维度；采用相加的方式，将调整维度后的感兴趣区域RoI与多维张量进行叠加。

上述任一项技术方案中，进一步地，群猴动作识别模型还包括：头部区域识别层；头部区域识别层设置有依次连接的第二区域生成网络RPN2和第二感兴趣区域池化RoIpooling2模块，其中，位置和类别识别层中的残差网络ResNet分别连接于第二区域生成网络RPN2的输入端和第二感兴趣区域池化RoI pooling2模块的输入端，第二感兴趣区域池化RoI pooling2模块的输出端通过全连接层连接于位置和类别识别层中的分类器softmax。

上述任一项技术方案中，进一步地，方法还包括：搭建猴群动作数据库，猴群动作数据库中存储有多个猴群动作数据，猴群动作数据由相机拍摄笼子中的猴群获得，猴群中的猴子佩戴有项圈，项圈为不同颜色的制式项圈。

上述任一项技术方案中，进一步地，相机为多个，多个相机被安装在笼子的不同位置处，位置至少包括笼子的正视面底部、正视面顶部、侧视面、俯视面，多个相机用于获取不同视角下笼子中猴群的猴群动作数据。

上述任一项技术方案中，进一步地，搭建猴群动作数据库，具体包括：在笼子的不同位置处安装多个相机，多个相机用于获取不同视角下笼子中猴群的视频数据；根据视频数据对应相机的安装位置，对视频数据进行分类，并根据视频数据中猴子数量进行筛选，以删除猴子数量小于阈值的视频数据；对筛选后的视频数据进行分帧处理，并根据预设分段间隔，对分帧后的视频数据进行分段处理，采集分段处理后的视频数据中的关键帧，其中，关键帧为彼此间隔为7帧的3帧图像；根据定义的群体猴子的动作，对采集的关键帧进行人工数据标注，记作猴群动作数据，并搭建猴群动作数据库。

上述任一项技术方案中，进一步地，搭建猴群动作数据库，具体还包括：对猴群动作数据进行翻转扩充操作，以实现对猴群动作数据库中的猴群动作数据扩充，翻转扩充操作为左右翻转扩充操作。

本申请的有益效果是：

本申请中的技术方案，通过佩戴不同颜色的制式项圈对猴群中的猴子单体进行区分，并在笼子不同位置处安放相机，以获取猴子的视频数据，再利用分类、筛选、分帧标注的方式，构建适用于猴群的猴群动作数据库。再通过搭建具有位置和类别识别层、特征图处理层以及动作推理层三层结构的猴群动作数据库，有特征图处理层将位置和类别识别层确定的动作主体位置信息作为索引，从第一区域生成网络RPN中选取对应位置的感兴趣区域RoI，并将感兴趣区域RoI与位置和类别识别层的输出结果进行叠加，以提高对猴群动作数据的识别效果，有助于准确识别出数据中的猴子个体，提高猴子动作识别的准确度，通过时间移位操作来提取时空信息，内存占用量极小。

在本申请的一个优选实现方式中，为了提高猴子个体识别的准确性，充分考虑猴子头部的特点，还设置了一个生成头部区域的支路，与模型中的位置和类别识别层相结合，利用加权损失函数，提高位置和类别识别层输出猴子全身边界框bounding box的准确性和可靠性。

附图说明

本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请的一个实施例的基于时空交互网络的群体猴子动作识别方法的示意流程图；

图2是根据本申请的一个实施例的网络模型的示意图；

图3是根据本申请的一个实施例的使用“labelme”标注数据的示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

在下面的描述中，阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不受下面公开的具体实施例的限制。

如图1和图2所示，本实施例提供了基于时空交互网络的群体猴子动作识别方法，该方法包括：

步骤1：在笼子的不同位置处安装多个相机，多个相机用于获取不同视角下笼子中猴群的视频数据。其中，多个相机被安装在笼子的不同位置处，位置至少包括笼子的正视面底部、正视面顶部、侧视面、俯视面，多个相机用于获取不同视角下笼子中猴群的猴群动作数据。

具体的，将若干相机通过的固定装置安装在饲养笼子的正视面底部、正视面顶部、侧视面、俯视面等位置处，使得相机贴合笼子来避免笼子外侧栏杆的遮挡。利用不同的视角的相机对笼子中的猴子不同动作进行捕捉，以采集饲养环境下笼子中群体猴子的视频数据，作为猴群动作数据。

猴子饲养的食槽是在笼子底部外侧，猴子会从底部食槽中抓取食物，但之后有可能在地面上进食，也有可能到笼子上方进食，如果将相机放置在一个离笼子较远的位置以获得较为广泛的视角，则笼子栏杆的遮挡情况会造成很大的影响，因此，对于检测动作较多的正视面安装上下两个相机。

另外，不同视角下对猴子不同动作的捕捉的清晰度和遮挡情况是不一样的，同时也有便于开展其他方向的工作，因此在多个视角安装相机。

相机安装完成后，数据采集人员会离开饲养间，以尽量避免人为因素对猴子造成惊吓等影响而无法采集到群体猴子常态下的动作。数据采集人员可以通过手机APP连接到对应的相机，来实时监测相机拍摄情况，以防意外情况发生。

拍摄完成后，数据采集人员将相机中的视频导出到电脑中，默认使用相机的帧率为30FPS，相机默认保存的单个视频长度为9分钟，尺寸使用的模式为1080P(1920×1080)。

其中，可以采用XTU骁途相机，具体参数可根据实际情况进行配置。笼子中群体猴子年龄从1岁到12岁不等，种类包括了食蟹猴等多种猴子种类。

步骤2：根据视频数据对应相机的安装位置，对视频数据进行分类，并根据视频数据中猴子数量进行筛选，以删除猴子数量小于阈值的视频数据；

具体的，根据视频数据的采集视角，对采集到的视频数据进行筛选分类，并对分类后的视频数据进行分帧操作。并且，由于不同笼子内的猴子年龄和种类不同，在安装相机时猴子受惊吓程度、恢复时间也不一致，导致采集到的视频数据质量也是参差不齐，因此，需要人为的对数据进行过滤并分类，将某些猴子出现数量较少或没有猴子的视频数据删除。同时，由于不同视角下所采集到的数据中包含的动作类别也有很大的区别，按照视频数据的拍摄来源进行分类，以使视频数据的视角与相机一一对应。

步骤3：对筛选后的视频数据进行分帧处理，并根据预设分段间隔，对分帧后的视频数据进行分段处理，采用随机采样的方法，采集分段处理后的视频数据中的关键帧，其中，关键帧为彼此间隔为7帧的3帧图像。

具体的，在筛选分类之后，使用计算机ffmpeg命令，将分类后的视频数据进行分帧处理，默认将1秒的视频切割为30帧，和相机拍摄参数相对应，这样，每30张图像就代表了1秒钟的视频。

考虑到实际场景中检测的视频长度和我们训练网络的时候所采用的视频长度可能相差较大，因此对视频进行分段处理，以使得网络对视频长度具有自动处理功能，使得实际输入的视频长度和训练时相差不大，举例来说，30秒长度的视频被分为8段，每段时长为4秒钟左右；1分钟长度的视频被分为16段，以保证每段时长同样为4秒钟左右。

实际输入网络的是处理后的每段视频，设定预设分段间隔为4秒，而4秒这一时长是我们人为观测视频数据中不同动作的持续时长之后，所得到的经验数值。这样就完成了对数据的分段操作。

随机采样的对象是网络自动分段处理之后的每段视频。由于猴子的动作在每段视频数据中的具体发生时间不一致，与视频本身以及动作种类等多种不可控因素有关，所以采取了随机采样的方法，这样能捕捉到更为准确的信息。

设定从每段视频数据中随机采取彼此间隔为7帧的3帧图像，因此，关键帧跨度约为30帧，包含了该段视频数据中随机的连续的1秒的时空信息，作为该段视频数据的整体时空信息的代表，以便对关键帧进行数据标注。

步骤4：根据定义的群体猴子的动作，对关键帧进行人工数据标注，记作猴群动作数据，并搭建猴群动作数据库，猴群动作数据库中存储有多个猴群动作数据，猴群动作数据由相机拍摄笼子中的猴群获得，猴群中的猴子佩戴有项圈，项圈为不同颜色的制式项圈。

具体的，经过步骤3后得到了每段视频数据的3帧关键帧，对这些关键帧进行标注，用关键帧的类别来表示该段视频数据的类别。在标注过程中，不仅仅需要识别动作的类别，还需要识别动作的主体具体是哪只猴子，因此，在定义关键帧标签的时候采用的是多标签标注。

实际饲养环境中，不同猴子佩戴不同颜色的制式项圈用以区分猴子，不同的动作类别也对应不同的编码，因此，可以采用多标签二位数标注。

第一位代表动作主体本身的类别，每个笼子中有5只猴子，项圈颜色分为“黄、绿、红、黑、白”，分别由0到4共5个数字代表。例如，要是别的动作为“抓食动作”，该动作的动作主体为某一只猴子和食槽，本实施例中，用数字5来表示“食槽”，用数字“6”来代表“食物”，其中，食物和食槽都是由饲养公司统一制作的，视觉角度观察是相同的。

第二位代表动作主体的动作类别，定义了“抓食、进食、拥抱、打闹、追逐”等群体猴子交互动作，分别由0到4共5位数字表示。

这样，对于猴子之间的动作“拥抱、打闹、追逐”共有15个标签，对于猴子和食物间的动作“进食”共有5个标签，对于猴子和食槽间的动作“抓食”共有5个标签，食物只有“进食”一种动作，食槽只有“抓食”一种动作，一共有27个标签。

如黄色项圈猴子和绿色项圈猴子进行拥抱，则分别标注为“02”和“12”，由于可能会出现的特殊情况是单帧视频中出现不同的拥抱动作，可以后续通过标注的边界框bounding box的位置信息进行过滤甄别；如红色项圈猴子进行进食动作，则猴子标注为“21”，食物标注为“61”。实际标注工作中使用的是开源工具“labelme”。如图3所示，边界框bounding box分别为框301和框302。

进一步的，为了扩充猴群动作数据库中数据数量，在搭建猴群动作数据库过程中，还可以对数据进行扩充操作，该方法还包括：

步骤5：对猴群动作数据进行翻转扩充操作，以实现对猴群动作数据库中的猴群动作数据扩充，翻转扩充操作为左右翻转扩充操作。

具体的，使用“labelme”标注视频数据的关键帧后，可以得到json格式的标注结果，需要从中提取边界框bounding box的位置信息、标签类别、时间戳以及对应视频段等信息，可以通过数据处理操作，将提取后的信息保存为txt格式，一个txt文件对应一个关键帧的标注结果，一个txt文件中的每一行代表该关键帧中一个边界框bounding box的相关信息。

同时，考虑到数据类别不均衡的问题，需要对标记出的数据进行扩充，由于所定义的动作中没有方向性的动作，因此，可以采用图像左右翻转的方式进行扩充，例如“向左跳跃”动作不会被误分为“向右跳跃”，但是常态下猴子的头部应在尾部的上方，因此，不能采用上下翻转的操作，那样会引入很多空间上的噪声信息。

步骤6，搭建群猴动作识别模型，其中，如图2所示，群猴动作识别模型至少包括三层，依次为位置和类别识别层、特征图处理层以及动作推理层，位置和类别识别层中的残差网络ResNet通过第一区域生成网络RPN连接于特征图处理层的第二接口，位置和类别识别层用于识别当前帧中动作主体的位置和类别信息，特征图处理层用于将当前帧中不同动作主体的位置和类别信息转化为多维张量，并以位置和类别识别层确定的动作主体的位置信息作为索引，从第一区域生成网络RPN中选取对应位置的感兴趣区域RoI，并将感兴趣区域RoI与多维张量进行叠加，动作推理层用于按照时间顺序，将特征图处理层输出的叠加结果组成三维数据组，并对三维数据组在时间维度上进行上下双向移位操作，生成动作推理张量，以输出位置和类别识别层确定的动作主体位置对应的动作类别；

具体的，模型的第一阶段位于图2的第一行为位置和类别识别层，是对关键帧图像进行目标检测工作，由于该阶段中针对的是单帧图像，这一工作只能对空间上的信息进行处理。本实施例基于SOTA水平的Faster R-CNN网络进行目标检测，得到的是单帧图像中动作主体，即不同的猴子、食物和食槽的位置和类别，输出图像中被识别主体的位置和类别信息。

在步骤5数据标注过程达到一定规模的数据量之后，用于训练第一阶段的目标检测网络，继而使用训练的检测网络去预测单帧图像，预测的结果是动作主体对应的边界框bounding box的位置信息，人工在预测的基础上进行边界框bounding box的位置信息微调，再人工进行边界框bounding box的类别信息标注，这样可以减少很大的任务量。

在本实施例的一个优选实现方式中，群猴动作识别模型还包括：头部区域识别层；头部区域识别层设置有依次连接的第二区域生成网络RPN2和第二感兴趣区域池化RoIpooling2模块，其中，位置和类别识别层中的残差网络ResNet分别连接于第二区域生成网络RPN2的输入端和第二感兴趣区域池化RoI pooling2模块的输入端，第二感兴趣区域池化RoI pooling2模块的输出端通过全连接层连接于位置和类别识别层中的分类器softmax。

具体的，通过图2中最上方的第二区域生成网络RPN2和第二感兴趣区域池化RoIpooling2模块来生成猴子头部区域，这是因为相较于人类或者其他动物而言，同种猴子的身体部分的毛往往具有相同的毛色，无法作为区分不同猴子个体的主要依据，而猴子头部区域才是区分不同个体的主要依据，因此设置一个生成头部区域的支路，可以特征提取网络对头部区域具有更多的关注。

本实施例中在第二感兴趣区域池化RoI pooling2模块后连接全连接层来输出头部区域的边界框bounding box，对应的损失函数为L₁。

如图2第二行所示，关键帧通过残差网络ResNet、第一区域生成网络RPN、第一感兴趣区域池化RoI pooling模块、softmax模块得到了全身边界框bounding box和猴子的类别，即该猴子主体佩戴的是‘黄绿红黑白’中的哪一种制式项圈。设定识别全身边界框bounding box的损失函数为L₂，分类损失函数为L₃。网络第一阶段总的损失函数L_a的计算公式为：

0.6*(0.3*L₁+0.7*L₂)+0.4*L₃＝L_a

其中，0.3和0.7分别是头部区域损失函数L₁和全身区域损失函数L₂的权重，加权求和得到的结果对应着检测损失，再和分类损失L₃进行加权求和得到第一阶段总的损失函数L_a，0.6和0.4分别是二者对应的权重，以上权重是根据笼内饲养状态下猴子的特征进行调试优化所得。

通过网络的第一阶段，得到了单帧图像的不同动作主体的位置、类别信息。将其传递给由卡尔曼滤波器和KM算法构成的校准模块，以此来减免实际检测结果中“跳帧”现象(即单帧结果检测不准确)的出现。使用卡尔曼滤波器和KM算法来跟踪动作主体。卡尔曼滤波器根据前两个关键帧中同一动作主体的边界框bounding box的位置信息生成一个轨迹用于预测下一个关键帧中相应的主体可能存在的位置，然后通过km算法将预测的动作主体的位置与单帧检测结果进行匹配，以此来减免“跳帧”现象的发生。如图2第一行末尾所示。

通过第一阶段的模型和校准模块，可以得到更为准确的动作主体的位置和类别信息，一方面将这个结果保存下来予以输出。另一方面，传递给模型的第二阶段，即将位置和类别识别层的输出连接于特征图处理层的第一接口。

进一步的，位置和类别识别层的输出结果至少包括边界框bounding box的位置信息以及对应动作主体的类别信息，特征图处理层中将感兴趣区域RoI与多维张量进行叠加，具体包括：

将边界框bounding box的位置信息和对应动作主体的类别信息串联，组成输入信息，输入至多层感知器，由多层感知器输出当前帧中不同动作主体的位置和类别信息；

根据设定的动作主体数量，将多层感知器的输出数据拼接组成多维张量，动作主体数量为多维张量的列数；

以位置和类别识别层确定的动作主体的位置信息作为索引，从第一区域生成网络RPN中选取对应位置的感兴趣区域RoI；

调整感兴趣区域RoI的维度调整为多维张量的维度；

采用相加的方式，将调整维度后的感兴趣区域RoI与多维张量进行叠加。

具体的，在模型的第二阶段，如图2第二行所示，将边界框bounding box的位置信息和对应动作主体本身的类别信息串联起来作为输入，输入到一个多层感知器中，单个主体的动作和类别标签是1*5的向量，通过多层感知器MLP提取，提取其中的高维信息，设定激活函数为ReLU函数，将其维度由5变成n，转换成1*n的向量。

至此，经过解码过程后我们得到了代表动作主体的位置和类别的n维信息，由于每帧中一般会包含多个动作主体，我们预设由m个动作主体，将多层感知器的输出数据拼接为n*m的矩阵，组成多维张量，这样我们就从单帧图像中得到了一个n×m的多维张量，将不同帧的输出按时间顺序排列。

同时，根据动作主体的位置信息，用前一阶段传来的动作主体的位置信息为索引，选取相对坐标，从第一区域生成网络RPN网络中选取对应位置的RoI感兴趣区域，并将其维度调整为n×m的大小(如可以通过设置RoI pooling模块进行调整)，之后，采用相加的方法将其和我们上一阶段得到的n×m的张量整合起来，相加后得到的张量相比于之前的原始张量，会加强其在猴群动作数据的原始图像的位置信息，使其更加准确。

第二阶段的t个n×m的张量可视为t×n×m的立方体，作为第三阶段(动作推理层)的输入，如图2第三行所示。第三阶段的动作推理层将会结合之前的预测结果(即第一阶段输出的动作主体的位置和类别)和时间上的信息，用于推理动作主体之间发生的动作类别。输入的t×n×m的立方体中t为每段视频关键帧个数，预设t＝3。

动作推理层对立方体(三维数据组)进行时间维度上的上下双向移位操作，沿着时间维度移动通道，如图2网络第三阶段，沿t增加的方向，保持m-1层数据位置不变，第m层向上移动，第m+1层向下移动，这样会使得第m、m+1层与第m-1层错开，这里截取第m层向上凸出的信息填补到该层相邻的凹陷位置中，第m+1层同理，截取下凸部分进行信息填补，使得当前帧和相邻帧信息得以混合，通过上述上下双向移位操作，避免了使用常规的零填充方法，保持了原有的信息，有助于提高动作推理的准确性。

然后，对填充后的三维数据组在时间维度上进行平均池化操作，得到一个n×m的动作推理张量，将动作推理张量拆分成m个n×1的向量，分别输入到分类器中，输出为m个动作主体对应的动作类别，与位置和类别识别层确定的动作主体位置相对应。

通过上述过程，群猴动作识别模型最终将输出识别到的动作主体的位置信息、本身的类别信息以及推理的动作类别。

步骤7，利用猴群动作数据对群猴动作识别模型进行训练，直至群猴动作识别模型收敛，其中，收敛后的群猴动作识别模型用于对群体猴子进行动作识别。

以上结合附图详细说明了本申请的技术方案，本申请提出了基于时空交互网络的群体猴子动作识别方法，包括：搭建群猴动作识别模型，其中，群猴动作识别模型至少包括三层，依次为位置和类别识别层、特征图处理层以及动作推理层，位置和类别识别层中的残差网络ResNet通过第一区域生成网络RPN连接于特征图处理层的第二接口，位置和类别识别层用于识别当前帧中动作主体的位置和类别信息，特征图处理层用于将当前帧中不同动作主体的位置和类别信息转化为多维张量，并以位置和类别识别层确定的动作主体的位置信息作为索引，从第一区域生成网络RPN中选取对应位置的感兴趣区域RoI，并将感兴趣区域RoI与多维张量进行叠加，动作推理层用于按照时间顺序，将特征图处理层输出的叠加结果组成三维数据组，并对三维数据组在时间维度上进行上下双向移位操作，生成动作推理张量，以输出位置和类别识别层确定的动作主体位置对应的动作类别；利用猴群动作数据对群猴动作识别模型进行训练，直至群猴动作识别模型收敛，其中，收敛后的群猴动作识别模型用于对群体猴子进行动作识别。通过本申请中的技术方案，解决了饲养状态下的群体猴子动作视频识别的问题。

本申请中的步骤可根据实际需求进行顺序调整、合并和删减。

本申请装置中的单元可根据实际需求进行合并、划分和删减。

尽管参考附图详地公开了本申请，但应理解的是，这些描述仅仅是示例性的，并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定，并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims

1.基于时空交互网络的群体猴子动作识别方法，其特征在于，所述方法包括：

搭建群猴动作识别模型，其中，所述群猴动作识别模型至少包括三层，依次为位置和类别识别层、特征图处理层以及动作推理层，所述位置和类别识别层中的残差网络ResNet通过第一区域生成网络RPN连接于所述特征图处理层的第二接口，所述位置和类别识别层用于识别当前帧中动作主体的位置和类别信息，

所述特征图处理层用于将所述当前帧中不同动作主体的位置和类别信息转化为多维张量，并以所述位置和类别识别层确定的动作主体的位置信息作为索引，从所述第一区域生成网络RPN中选取对应位置的感兴趣区域RoI，并将所述感兴趣区域RoI与所述多维张量进行叠加，

所述动作推理层用于按照时间顺序，将所述特征图处理层输出的叠加结果组成三维数据组，并对所述三维数据组在时间维度上进行上下双向移位操作，生成动作推理张量，以输出所述位置和类别识别层确定的动作主体位置对应的动作类别；

利用猴群动作数据对所述群猴动作识别模型进行训练，直至所述群猴动作识别模型收敛，其中，收敛后的群猴动作识别模型用于对群体猴子进行动作识别。

2.如权利要求1所述的基于时空交互网络的群体猴子动作识别方法，其特征在于，所述位置和类别识别层的输出结果至少包括边界框bounding box的位置信息以及对应动作主体的类别信息，

所述特征图处理层中将所述感兴趣区域RoI与所述多维张量进行叠加，具体包括：

将边界框bounding box的位置信息和对应动作主体的类别信息串联，组成输入信息，输入至多层感知器，由所述多层感知器输出所述当前帧中不同动作主体的位置和类别信息；

根据设定的动作主体数量，将所述多层感知器的输出数据拼接组成多维张量，所述动作主体数量为所述多维张量的列数；

以所述位置和类别识别层确定的动作主体的位置信息作为索引，从所述第一区域生成网络RPN中选取对应位置的感兴趣区域RoI；

调整所述感兴趣区域RoI的维度调整为所述多维张量的维度；

采用相加的方式，将调整维度后的感兴趣区域RoI与所述多维张量进行叠加。

3.如权利要求1所述的基于时空交互网络的群体猴子动作识别方法，其特征在于，所述群猴动作识别模型还包括：头部区域识别层；

所述头部区域识别层设置有依次连接的第二区域生成网络RPN2和第二感兴趣区域池化RoIpooling2模块，

其中，所述位置和类别识别层中的残差网络ResNet分别连接于所述第二区域生成网络RPN2的输入端和所述第二感兴趣区域池化RoI pooling2模块的输入端，

所述第二感兴趣区域池化RoI pooling2模块的输出端通过全连接层连接于所述位置和类别识别层中的分类器softmax。

4.如权利要求1所述的基于时空交互网络的群体猴子动作识别方法，其特征在于，所述方法还包括：

搭建猴群动作数据库，所述猴群动作数据库中存储有多个所述猴群动作数据，所述猴群动作数据由相机拍摄笼子中的猴群获得，所述猴群中的猴子佩戴有项圈，所述项圈为不同颜色的制式项圈。

5.如权利要求4所述的基于时空交互网络的群体猴子动作识别方法，其特征在于，所述相机为多个，多个所述相机被安装在所述笼子的不同位置处，所述位置至少包括笼子的正视面底部、正视面顶部、侧视面、俯视面，多个所述相机用于获取不同视角下所述笼子中所述猴群的所述猴群动作数据。

6.如权利要求5所述的基于时空交互网络的群体猴子动作识别方法，其特征在于，所述搭建猴群动作数据库，具体包括：

在所述笼子的不同位置处安装多个所述相机，多个所述相机用于获取不同视角下所述笼子中所述猴群的视频数据；

根据所述视频数据对应相机的安装位置，对所述视频数据进行分类，并根据所述视频数据中猴子数量进行筛选，以删除所述猴子数量小于阈值的视频数据；

对筛选后的视频数据进行分帧处理，并根据预设分段间隔，对分帧后的视频数据进行分段处理，采集分段处理后的视频数据中的关键帧，其中，所述关键帧为彼此间隔为7帧的3帧图像；

根据定义的群体猴子的动作，对采集的所述关键帧进行人工数据标注，记作所述猴群动作数据，并搭建所述猴群动作数据库。

7.如权利要求6所述的基于时空交互网络的群体猴子动作识别方法，其特征在于，所述搭建猴群动作数据库，具体还包括：

对所述猴群动作数据进行翻转扩充操作，以实现对所述猴群动作数据库中的猴群动作数据扩充，所述翻转扩充操作为左右翻转扩充操作。