CN115294644A

CN115294644A - 一种基于3d卷积参数重构的快速猴子行为识别方法

Info

Publication number: CN115294644A
Application number: CN202210729335.1A
Authority: CN
Inventors: 左从林; 高大鹏; 张素才; 彭霞
Original assignee: Beijing Zhaoyan New Drug Research Center Co ltd
Current assignee: Beijing Zhaoyan New Drug Research Center Co ltd
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-11-04

Abstract

本申请公开了一种基于3D卷积参数重构的快速猴子行为识别方法，包括：根据待识别猴子动作的分类结果搭建多分支稀疏模块；搭建基于全连接神经网络的识别模块，并将多分支稀疏模块的输出端与识别模块的输入端进行串联，组成第一识别网络；对第一识别网络进行训练，当判定第一识别网络收敛时，采用空白处填充0值的方式，对多分支稀疏模块中各支路内的卷积核进行扩充，将各支路中同一层的卷积核按位相加，生成单分支稀疏模块；将单分支稀疏模块的输出端与识别模块的输入端进行串联，组成第二识别网络。通过本申请中的技术方案，在不降低识别准确率的情况下大幅提升了猴子动作识别速度，满足猴子药物实验的实时性需求。

Description

一种基于3D卷积参数重构的快速猴子行为识别方法

技术领域

本申请涉及计算机视觉和行为识别的技术领域，具体而言，涉及一种基于3D卷积参数重构的快速猴子行为识别方法。

背景技术

随着计算机科技的发展，基于计算机视觉技术的自动行为识别方法已经被广泛地应用到了生活中，如监控视频分析、行为捕捉、虚拟现实等。但是，大部分行为识别技术的主要目标是人类，对猴子行为识别的研究较少，而猴子作为药物实验的一种模式动物，在药物安全性评估方面有着重要的作用。

由于人类行为具有一定的规律性且动作较慢、幅度较小，通常采用24帧到30帧的视频采集设备进行图像采集，利用深层卷积、多支路、注意力机制等策略即可在人类行为数据集上取得较好的动作识别效果。

但是，猴子的行为较快、幅度较大且不具有与人类类似的规律性，需要使用高帧率的视频采集设备才能清晰采集。然而，视频帧率的提高会使同样长度的视频中包含的帧图像的数量变多，从而导致网络识别行为时需要读取更多的图像，不可避免地会减慢行为识别速度，导致不能满足药物实验的时效性要求。

发明内容

本申请的目的在于：如何在不降低识别准确率的情况下大幅提升猴子动作识别速度，满足猴子药物实验的实时性需求。

本申请的技术方案是：提供了一种基于3D卷积参数重构的快速猴子行为识别方法，该方法包括：步骤1，对待识别猴子动作进行分类，并根据分类结果搭建多分支稀疏模块，其中，多分支稀疏模块中设置有多个卷积核大小不同的支路；步骤2，搭建基于全连接神经网络的识别模块，并将多分支稀疏模块的输出端与识别模块的输入端进行串联，组成第一识别网络；步骤3，根据猴子行为训练集，对第一识别网络进行训练，当判定第一识别网络收敛时，执行步骤4；步骤4，采用空白处填充0值的方式，对多分支稀疏模块中各支路内的卷积核进行扩充，将各支路中同一层的卷积核按位相加，生成单分支稀疏模块；步骤5，将单分支稀疏模块的输出端与识别模块的输入端进行串联，组成第二识别网络，第二识别网络用于猴子行为识别。

上述任一项技术方案中，进一步地，待识别猴子动作的分类结果至少包括剧烈行为、第一细微行为以及第二细微行为，其中，第一细微行为的时间跨度大于第二细微行为。

上述任一项技术方案中，进一步地，多分支稀疏模块由两个结构相同的子模块串联而成，子模块具体包括：剧烈行为支路，第一细微行为支路，第二细微行为支路以及拼接模块；剧烈行为支路由第一卷积核与第二卷积核串联组成，其中，第一卷积核的大小为5×5×5，第二卷积核的大小为3×3×3；第一细微行为支路由第三卷积核与第四卷积核串联组成，其中，第三卷积核的大小为1×1×1，第四卷积核的大小为5×5×5；第二细微行为支路由第五卷积核与第六卷积核串联组成，其中，第五卷积核的大小为1×1×1，第六卷积核的大小为3×3×3；拼接模块连接于剧烈行为支路、第一细微行为支路以及第二细微行为支路的输出端，拼接模块用于在通道维度上进行特征拼接。

上述任一项技术方案中，进一步地，步骤3中，对第一识别网络进行训练，具体包括：步骤31，将猴子行为训练集输入至第一识别网络，由识别模块输出预测标签以及预测标签为正类的概率；步骤32，根据预设损失函数与预测标签为正类的概率，计算预测标签与猴子行为训练集中相应标签的损失值；步骤33，根据损失值，采用梯度下降法，优化第一识别网络中的网络参数，直至损失值小于预设数值，判定第一识别网络收敛。

上述任一项技术方案中，进一步地，预设损失函数的计算公式为：

式中，l为损失值，N为猴子行为训练集中的样本个数，

为第i个样本第j种行为的标签值，i＝1,2,…,N，

为第i个样本第j种行为预测为正类的概率。

本申请的有益效果是：

本申请中的技术方案，根据猴子动作的特点采用不同大小的卷积核搭建多分支稀疏模块，并与识别模块组成第一识别网络，已识别猴子的剧烈行为和不同的细微行为。待网络收敛后采用空白处填充0值的方式，对多分支稀疏模块中各支路内的卷积核进行扩充，并按位相加，生成单分支稀疏模块，以便于收敛后的识别模块组成第二识别网络，在不降低识别准确率的情况下大幅提升猴子动作识别速度，满足猴子药物实验的实时性需求。具体技术效果如下：

(1)在训练阶段通过高性能的多分支稀疏模块学习猴子动作特征，保证了网络的识别性能；

(2)利用多分支稀疏模块与单分支稀疏模块的恒等变换，在不损失性能的情况下充分利用了单分支稀疏模块速度快、占用资源少的特点，大幅节省了部署网络的设备成本与执行行为识别的时间成本，满足了药物评估的时效性、实时性要求；

(3)转换后的单分支稀疏模块与原始的检测模块能够对接，不用重新搭建检测模块进行训练，减少了网络训练所需要的时间成本。

附图说明

本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请的一个实施例的基于3D卷积参数重构的快速猴子行为识别方法的示意流程图；

图2是根据本申请的一个实施例的猴子行为视频标注示意图；

图3是根据本申请的一个实施例的多分支稀疏模块结构示意图；

图4是根据本申请的一个实施例的识别模块结构示意图；

图5是根据本申请的一个实施例的多分支与单分支稀疏模块恒等变换示意图；

图6是根据本申请的一个实施例的场景示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

在下面的描述中，阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不受下面公开的具体实施例的限制。

如图1所示，本实施例提供了一种基于3D卷积参数重构的快速猴子行为识别方法，该方法包括：

步骤1，对待识别猴子动作进行分类，并根据分类结果搭建多分支稀疏模块，其中，多分支稀疏模块中设置有多个卷积核大小不同的支路；其中，待识别猴子动作的分类结果至少包括剧烈行为、第一细微行为以及第二细微行为，其中，第一细微行为的时间跨度大于第二细微行为。

具体的，确定任务后分析、确定场景需求，在猴笼上搭建相机装置，开始采集猴笼中猴子动作的相关视频，并对采集的视频进行筛选和标注，如图2所示，记作猴子行为训练集。并根据预设的比例，将经过筛选和标注的视频进行随机划分，将一部分视频与对应标注划分为训练集，另一部分划分为测试集，其中80％的视频作为训练集，其余的20％作为测试集。

本实施例的任务为猴子行为的识别，将待识别猴子动作共分为蹲坐、行走、站立、攀爬、攀附、上肢悬挂、扶立、进食、跳跃、卧倒、饮水、抓食以及其他共计13种行为，环境为四周是栅栏并且紧贴墙壁的猴笼，以猴笼中存在五个猴子作为最终的视频采集场景，在猴笼的侧面架设摄像头进行视频采集，拍摄效果如图6所示。

根据猴子动作的幅度、时间跨度的大小等因素对猴子的动作进行分类，分为剧烈行为(如奔跑、攀爬)、时间跨度较大的第一细微行为(如蹲坐、卧倒)以及时间跨度较小的第二细微行为(如抓食)。

本实施例中，多分支稀疏模块由两个结构相同的子模块串联而成，子模块具体包括：剧烈行为支路，第一细微行为支路，第二细微行为支路以及拼接模块；剧烈行为支路由第一卷积核与第二卷积核串联组成，其中，第一卷积核的大小为5×5×5，第二卷积核的大小为3×3×3；第一细微行为支路由第三卷积核与第四卷积核串联组成，其中，第三卷积核的大小为1×1×1，第四卷积核的大小为5×5×5；第二细微行为支路由第五卷积核与第六卷积核串联组成，其中，第五卷积核的大小为1×1×1，第六卷积核的大小为3×3×3；拼接模块连接于剧烈行为支路、第一细微行为支路以及第二细微行为支路的输出端，拼接模块用于在通道维度上进行特征拼接。

具体的，通过构建一个多分支稀疏模块，在多分支结构的每条支路上设置不同大小的卷积核，以便在不同的感受野上提取猴子的行为特征，其中，大卷积核的感受野较大，可以捕获大的行为信息，相应的，小卷积核可以捕获细节信息。

如图3所示，多分支稀疏模块由两个相同的子模块堆叠而成，每个子模块包含三条支路，其中，第一条支路(剧烈行为支路)由一个5×5×5卷积核和一个3×3×3卷积核构成，用以捕捉时间跨度较大的剧烈行为(如奔跑、攀爬)，该支路首先通过较大的5×5×5卷积核捕获空间上5个像素点和时间上前后5帧的信息，使得该卷积核更关注当前卷积中心点和周围像素以及前后时间的关系，以此初步提取环境因素信息；再通过3×3×3卷积核捕获空间上3个像素点和时间上前后3帧的信息，该卷积核更聚焦于当前卷积中心点本身的信息，以此进一步提取行为信息，如攀爬时，笼子就是环境因素信息，攀爬行为本身就是行为信息。因此，该支路同时识别环境信息和行为信息会使识别更准确。本实施例中这两个卷积核分别以W₁₁和W₁₂表示。

相应的，第二条支路(第一细微行为支路)由一个1×1×1卷积核和一个5×5×5卷积核构成，用以捕捉时间跨度较大的细微行为(如蹲坐、卧倒)，该支路首先通过较小的1×1×1卷积核在通道上融合当前视频每一个帧图像的信息，该卷积核可以减少视频的通道数同时在更小的像素通道层面融合提取细微的行为信息且不容易受到周围信息干扰，以此在减小视频数据量的情况下初步提取行为细节信息；再通过5×5×5卷积核捕获空间上5个像素点和时间上前后5帧的信息，以此进一步提取大范围上的行为信息，如蹲坐行为，其本身变化幅度不大，但持续时间长，因此，需要更长时间跨度但是对周围信息更不敏感的方式提取用于识别的行为信息。本实施例中这两个卷积核分别以W₂₁和W₂₂表示；

第三条支路(第二细微行为支路)由一个1×1×1卷积核和一个3×3×3卷积核构成，用以捕捉时间跨度较小的细微行为(如抓食)，该支路首先通过较小的1×1×1卷积核在通道上融合当前视频每一个帧图像的信息，以此在减小视频数据量的情况下初步提取行为细节信息；再通过3×3×3卷积核捕获空间上3个像素点和时间上前后3帧的信息，以此在一个较小的时间和空间范围内捕获更细致的行为信息，如抓食行为，其变化幅度不大，且持续时间短，因此，需要采用更短时间跨度且更关注与行为本身的方式提取行为信息。本实施例中这两个卷积核分别以W₃₁和W₃₂表示。

最后，利用拼接模块将上述三条支路的结果在通道维度上拼接，得到最终的特征输出，以⊕表示，以此汇总多尺度特征，将多分支稀疏模块的最终输出f定义为：

式中，⊕为通道维度拼接运算，V表示采集到的视频片段或者猴子行为训练集中的样本。

步骤2，搭建基于全连接神经网络的识别模块，并将多分支稀疏模块的输出端与识别模块的输入端进行串联，组成第一识别网络；

具体的，根据多分支稀疏模块的输出大小构建一个基于全连接网络的识别模块，其结构如图4所示，模块输入的维度与多分支稀疏模块的输出维度相同，输出维度与需要预测的行为相同，此处设定输出维度为(13,1)，每一个输出都表示与其对应行为在画面中发生的可能性，该识别模块主要由不同深度的全连接神经层堆叠而成，通过神经元之间逐层信息传递的方式将特征归纳融合，用以拟合特征到识别结果的映射函数，最终得到网络对输入动作的判断结果，其可以表示为符号R，将输入特征为多分支稀疏模块的输出f，则其输出结果可以用以下公式表示：

p＝R(f)

其中，p为识别模块的输出结果向量，令pⁱ表示向量p中的第i个元素，即视频中出现第i类行为的概率，如pⁱ<0.5(0≤i<13)，表示视频中没有正在进行第i类行为的猴子，如pⁱ≥0.5(0≤i<13)，表示视频中有正在进行第i类行为的猴子。

步骤3，根据猴子行为训练集，对第一识别网络进行训练，当判定第一识别网络收敛时，执行步骤4；

进一步的，步骤3中，对第一识别网络进行训练，具体包括：

步骤31，将猴子行为训练集输入至第一识别网络，由识别模块输出预测标签以及预测标签为正类的概率；

步骤32，根据预设损失函数与预测标签为正类的概率，计算预测标签与猴子行为训练集中相应标签的损失值；其中，预设损失函数的计算公式为：

式中，l为损失值，N为猴子行为训练集中的样本个数，

为第i个样本第j种行为的标签值，i＝1,2,…,N，即当i个视频中有猴子进行第j种行为时

没有时，

为第i个样本第j种行为预测为正类的概率。

步骤33，根据损失值，采用梯度下降法，优化第一识别网络中的网络参数，直至损失值小于预设数值，判定第一识别网络收敛。

具体的，基于计算得到的损失值l，将损失值输入优化器，优化器将通过梯度下降法优化多分支稀疏模块和识别模块中的网络参数，经过多轮优化后的网络参数，将更好地对猴子行为进行识别，其中，此处设置损失值小于0.02即视为收敛。

步骤4，采用空白处填充0值的方式，对多分支稀疏模块中各支路内的卷积核进行扩充，将各支路中同一层的卷积核按位相加，生成单分支稀疏模块；

如图5所示，为了便于之后的卷积核融合，加快模块运行速度，首先，将多分支稀疏模块中各支路的3D卷积核全都扩充为5×5×5大小的3D卷积核，空白处填充为0，以不改变卷积核的性质，如图5(a)-图5(b)所示，此处扩充卷积核的目的为将卷积核的大小对齐，便于后面的融合。

扩充后的卷积核W₁₁表示为W’₁₁，卷积核W₁₂表示为W’₁₂，卷积核W₂₁表示为W’₂₁，卷积核W₂₂表示为W’₂₂，卷积核W₃₁表示为W’₃₁，卷积核W₃₂表示为W’₃₂。

然后，将同一层分支中扩充后的平行卷积核按位相加，以此融合每条支路的卷积核，在每一个层级中得到等价与多个卷积核的单个卷积核，得到最终的卷积核W”₁和W”₂，如图5(c)所示，具体公式如下：

W”₁＝W”₁₁+W’₂₁+W’₃₁

W”₂＝W’₁₂+W’₂₂+W’₃₂

其中，由于，卷积核W’₁₁、W’₁₂、W’₂₁、W’₂₂、W’₃₁、W’₃₂均为5×5×5大小的3D卷积核，可以视为5×5×5大小的张量，式中符号+表示张量的按位相加。

将所有多分支上同一层级的三维卷积核都等价转化为单个三维卷积核，最终将多分支稀疏模块等价转化为最终的单分支稀疏模块，加快模块执行速度。

步骤5，将单分支稀疏模块的输出端与识别模块的输入端进行串联，组成第二识别网络，构成最终的快速猴子行为识别网络，该第二识别网络用于猴子行为识别。

通过定性分析，相较于传统的动作识别网络，该第二识别网络在训练完成后的传统多分支第一识别网络的基础上对其进行了恒等变换，减少了网络的卷积核数量，因此，在网络落地使用时采用更少的卷积计算就能得到相同的效果，以此在准确率损失较小的情况下大幅提升猴子行为的识别速度，具有极大的实用价值。

以上结合附图详细说明了本申请的技术方案，本申请提出了一种基于3D卷积参数重构的快速猴子行为识别方法，包括：步骤1，对待识别猴子动作进行分类，并根据分类结果搭建多分支稀疏模块，其中，多分支稀疏模块中设置有多个卷积核大小不同的支路；步骤2，搭建基于全连接神经网络的识别模块，并将多分支稀疏模块的输出端与识别模块的输入端进行串联，组成第一识别网络；步骤3，根据猴子行为训练集，对第一识别网络进行训练，当判定第一识别网络收敛时，执行步骤4；步骤4，采用空白处填充0值的方式，对多分支稀疏模块中各支路内的卷积核进行扩充，将各支路中同一层的卷积核按位相加，生成单分支稀疏模块；步骤5，将单分支稀疏模块的输出端与识别模块的输入端进行串联，组成第二识别网络，第二识别网络用于猴子行为识别。通过本申请中的技术方案，在不降低识别准确率的情况下大幅提升了猴子动作识别速度，满足猴子药物实验的实时性需求。

本申请中的步骤可根据实际需求进行顺序调整、合并和删减。

本申请装置中的单元可根据实际需求进行合并、划分和删减。

尽管参考附图详地公开了本申请，但应理解的是，这些描述仅仅是示例性的，并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定，并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims

1.一种基于3D卷积参数重构的快速猴子行为识别方法，其特征在于，所述方法包括：

步骤1，对待识别猴子动作进行分类，并根据分类结果搭建多分支稀疏模块，其中，所述多分支稀疏模块中设置有多个卷积核大小不同的支路；

步骤2，搭建基于全连接神经网络的识别模块，并将所述多分支稀疏模块的输出端与所述识别模块的输入端进行串联，组成第一识别网络；

步骤3，根据猴子行为训练集，对所述第一识别网络进行训练，当判定所述第一识别网络收敛时，执行步骤4；

步骤4，采用空白处填充0值的方式，对所述多分支稀疏模块中各支路内的卷积核进行扩充，将各支路中同一层的卷积核按位相加，生成单分支稀疏模块；

步骤5，将所述单分支稀疏模块的输出端与所述识别模块的输入端进行串联，组成第二识别网络，所述第二识别网络用于猴子行为识别。

2.如权利要求1所述的基于3D卷积参数重构的快速猴子行为识别方法，其特征在于，所述待识别猴子动作的分类结果至少包括剧烈行为、第一细微行为以及第二细微行为，其中，所述第一细微行为的时间跨度大于所述第二细微行为。

3.如权利要求1或2所述的基于3D卷积参数重构的快速猴子行为识别方法，其特征在于，所述多分支稀疏模块由两个结构相同的子模块串联而成，所述子模块具体包括：剧烈行为支路，第一细微行为支路，第二细微行为支路以及拼接模块；

所述剧烈行为支路由第一卷积核与第二卷积核串联组成，其中，所述第一卷积核的大小为5×5×5，所述第二卷积核的大小为3×3×3；

所述第一细微行为支路由第三卷积核与第四卷积核串联组成，其中，所述第三卷积核的大小为1×1×1，所述第四卷积核的大小为5×5×5；

所述第二细微行为支路由第五卷积核与第六卷积核串联组成，其中，所述第五卷积核的大小为1×1×1，所述第六卷积核的大小为3×3×3；

所述拼接模块连接于所述剧烈行为支路、所述第一细微行为支路以及所述第二细微行为支路的输出端，所述拼接模块用于在通道维度上进行特征拼接。

4.如权利要求1所述的基于3D卷积参数重构的快速猴子行为识别方法，其特征在于，所述步骤3中，对所述第一识别网络进行训练，具体包括：

步骤31，将所述猴子行为训练集输入至所述第一识别网络，由所述识别模块输出预测标签以及所述预测标签为正类的概率；

步骤32，根据预设损失函数与所述预测标签为正类的概率，计算所述预测标签与所述猴子行为训练集中相应标签的损失值；

步骤33，根据所述损失值，采用梯度下降法，优化所述第一识别网络中的网络参数，直至所述损失值小于预设数值，判定所述第一识别网络收敛。

5.如权利要求4所述的基于3D卷积参数重构的快速猴子行为识别方法，其特征在于，所述预设损失函数的计算公式为：

式中，l为损失值，N为所述猴子行为训练集中的样本个数，

为第i个样本第j种行为的标签值，i＝1,2,…,N，

为第i个样本第j种行为预测为正类的概率。