CN112184734B

CN112184734B - 一种基于红外图像和穿戴式光纤的动物长时间姿态识别系统

Info

Publication number: CN112184734B
Application number: CN202011068610.7A
Authority: CN
Inventors: 王瑶; 高伟政
Original assignee: Nanjing Jingruikang Molecular Medicine Technology Co ltd
Current assignee: Nanjing Jingruikang Molecular Medicine Technology Co ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2024-06-07
Anticipated expiration: 2040-09-30
Also published as: CN112184734A

Abstract

本发明公开了一种基于红外图像和穿戴式光纤的动物长时间姿态识别系统，该系统包含注意力机制模块M1、局部姿态识别模型训练模块M2，局部姿态识别预测模块M3、全局姿态还原模块M4，实现了对佩戴有光纤设备的动物行为学红外低分辨率视频的关键节点高精度识别，大幅度减少了人工校验的时长解决了动物蜷缩、旋转以及拍摄光照波动等问题的影响，可广泛应用于脑成像领域。

Description

一种基于红外图像和穿戴式光纤的动物长时间姿态识别系统

本发明涉及图像处理领域，特别涉及一种基于红外图像和穿戴式光纤的动物长时间姿态识别系统。

背景技术

神经元的行为与动物活动息息相关。为了探索特定行为下由神经元构成的复杂网络是如何连接和交互的，常常需要对动物行为进行定量分析。

在当前的大数据高频率采集条件下，手工处理的效率既耗时又容易出错，但由于自然动物行为的动态性、复杂性以及周围因素干扰，使得自动识别存在极大的挑战。佩戴有微型显微镜的动物，在激光信号传输过程中头部带有光纤，由于光纤的遮挡和晃动会对行为分析造成较大的挑战。同时，在长时间实验记录过程中，图像光照等环境条件常常会发生不可忽略的波动，对特征的稳定性造成干扰。除此之外，为了不干扰穿戴式荧光显微镜激发成像，在记录的行为时常常使用红外摄像机记录，而红外图像往往对比度低、分辨率差、纹理信息模糊，显著增加了实验动物行为的自动识别难度。

前人尝试使用物理标记的方法会干扰动物的自然行为；也有人尝试利用深度相机在自然空间中对动物行为进行定位，但这些技术的成像条件和对场景变化敏感；传统的姿态识别方法依赖于特征的提取和匹配，对特征稳定性要求较高，因此不适用于复杂的运动动物行为识别。

因此亟待一种识别准确、适用低分辨率、变化光照、动物自然多变姿态的系统，定量精确地分析动物的姿态和轨迹，为神经精神性疾病药物发现、脑科学研究等提供良好的技术支持。

发明内容

为了解决上述技术问题，本发明提供了一种基于红外图像和穿戴式光纤的动物长时间姿态识别系统，实现了对佩戴有光纤设备的动物行为学红外低分辨率视频的关键节点高精度识别。

为达到上述发明目的，本发明通过以下技术方案来实现：系统包括注意力机制模块M1、局部姿态识别模型训练模块M2、局部姿态识别预测模块M3和全局姿态还原模块M4。

为了减少光纤的晃动和遮挡、周围相似物体的干扰，注意力机制模块M1负责在动物行为学图像序列中进行质心识别和目标动物区域裁剪。通过粒子滤波方法逐帧检测动物的质心位置，得到动物质心位置坐标序列{(x_j，y_j)，j＝1....t}，以动物质心位置坐标(x_j，y_j)为矩形中心，根据图像坐标范围为/>获取长为s、宽为z的矩形裁剪图像/>将每帧对应的裁剪图像/>按照采集时间排列，得到包含目标动物的裁剪图像序列/>其中t为总采样帧数；

注意力机制模块M1中的目标检测采用粒子滤波算法，其步骤为：

第一步，在初始时刻假设目标动物的颜色分布为{q^u}_{u＝1，2，...，B}，统计空间信息，计算落入每个区间的像素位置的均值向量和协方差矩阵；

第二步：根据假设目标动物的颜色分布建立初始状态样本集其中N表示设置跟踪粒子数；

第三步：计算粒子状态转移，在时刻k(k＞0)，根据重要性采样原理和前一时刻的粒子位置/>预测此刻的粒子/>的状态；

第四步：粒子权值计算，根据通过当前时刻的观测值Z_t来计算每个粒子的权重，之后进行归一化处理：/>计算k时刻目标状态的最小均方误差估计：/>

第五步：重采样，根据样本的权值从样本集/>重新抽取N个样本，对粒子集进行自适应聚类，根据目标函数/>找到距所有粒子最近的中心点/>聚类中心/>即认为是动物的质心位置{(x_j，y_j)，j＝1，2，...，t}；

为了增加训练样本的多样性、提高训练模型的鲁棒性、提高局部姿态识别的精度，局部姿态识别模型训练模块M2负责由目标动物裁剪图像序列分别生成训练图像序列/>和预测图像序列/>并根据图像序列训练得到局部姿态识别模型T；

局部姿态识别模型训练模块M2中所述的群等变ResNet50卷积神经网络的训练机制为：训练前预设局部姿态识别模型的关键点类别数为ω，将训练图像序列及对应人工标注的关键点坐标序列/>作为训练样本，经过群等变ResNet-50卷积网络训练得到局部姿态识别模型T。

群等变ResNet-50卷积的网络结构设置为群等变卷积模块，卷积层，池化层，激活层，反向优化模块和损失函数。其中，群等变卷积模块使用对称性群将图像进行数据扩增，增加网络的旋转不变性；卷积层选取卷积核，提取图像的深层特征；池化层选取最大池化层，压缩数据和参数的存储空间，防止过拟合；激活层选取的激活函数为ReLu；反向优化模块选取Adam梯度下降法。损失函数为min(E)＝min(E_MSE+E_huber)，其中

群等变ResNet-50卷积的网络优化目标为最小化损失函数，通过不断减小损失函数得到针对局部姿态识别的模型T，其中表示输入网络中人工标注的关键点坐标，/>表示卷积神经网络预测的关键点坐标，δ为脉冲函数。

为了自动识别得到未标注的动物姿态关键节点坐标，局部姿态识别模块M3负责利用局部姿态模型T对预测图像序列进行动物关键节点局部置信度预测，得到关键节点局部置信度图像序列/>及局部预测关键点坐标序列/>

群等变ResNet-50卷积神经网络的具体预测步骤包括：

第一步、将N_P张预测图像依次输入局部姿态识别模型T；

第二步、获取对应每张预测图像及每个关键节点的局部置信度图像序列其中，/>在像素坐标(m，n)处的像素值概率值，其代表：在第j张预测图像中，像素坐标为(m，n)的像素点属于ω类关键节点的概率值。

第三步、关键节点的局部置信度图像序列中，逐帧获取最大像素值对应的像素坐标，得到局部预测关键点坐标序列/>

本发明具有如下有益效果：

1、本发明通过粗细定位结合的姿态检测策略，实现了对佩戴有光纤设备的动物行为学红外低分辨率视频的关键节点高精度识别，大幅度减少了人工校验的时长。

2、本发明通过对深度特征的提取，解决了动物蜷缩、旋转以及拍摄光照波动等问题的影响，使得分析自由运动下的行为成为可能，行为学分析的适用范围更加广泛。

附图说明

图1、是本发明基于红外图像的高精度佩戴光纤的长时间姿态识别；

图2、是具体实施例中系统采集动物行为学原始图像示意图；

图3、是具体实施例中注意力机制模块M1的处理方法和处理结果图；

图4、是具体实施例中局部姿态识别预测模块M3和全部姿态还原模块M4的处理方法和处理结果图；

图5、是局部姿态识别模型训练模块M2的网络结构示意图。

具体实施方式

下面，将根据参考附图详细地描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

本发明包括注意力机制模块M1、局部姿态识别模型训练模块M2、局部姿态识别预测模块M3和全局姿态还原模块M4。

图1所示为本发明一示例性实施例提供的一种基于红外图像和穿戴式光纤的动物长时间姿态识别系流程示意图。如图1所示，本发明实施例提供的基于红外图像和佩戴光纤的长时间姿态识别系统包括如下步骤：

步骤1，动物行为学原始视频的采集及预处理

步骤1-1，在自由运动的动物场景下，采集动物行为学原始视频。示例性地，在佩戴有光纤的动物自由运动下，采用1080p的红外摄像头进行视频采集，图像采集时间12h，采集频率为30Hz，红外采集波长为850nm，图像大小为1280*720pixel。其中采集的视频图像如图2中所示。

步骤1-2，对采集到的动物行为学原始视频进行预处理

示例性地，将动物行为学原始视频中的第一帧图像作为原始模板图像，手动选定感兴趣区域轮廓，并将原始模板图像中感兴趣区域内的像素值置为1，其余部分像素值置为0，进而得到模板图像；将模板图像与动物行为学原始视频中的每帧图像进行点乘，从而使得每帧图像中感兴趣区域内的像素值保持不变，其余区域的像素值置为0，进而得到t张动物行为学图像，其中一张动物行为学图像如图2所示。

需要说明的是，本发明实施例对步骤1中提及的模板图像提取的具体实现方式不进行限定，只要能够提取目标感兴趣区域即可。

步骤2，将t张动物行为学视频输入注意力机制模块M1，进行质心识别和目标动物区域裁剪

步骤2-1，对t张动物行为学图像进行逐帧质心识别，得到t个动物质心位置坐标

示例性地，本发明基于颜色直方图的粒子滤波目标跟踪算法。第一步，粒子初始化，在初始时刻(k＝0)计算目标动物的颜色分布{q^u}_{u＝1，2，...，B}，统计空间信息，计算落入每个区间的像素位置的均值向量和协方差矩阵，其中B是颜色量化等级；第二步、并根据先验分布p(X₀)建立初始状态样本集其中N表示设置跟踪粒子数，这里N＝5000；第三步、计算粒子状态转移，在时刻k(k＞0)，根据重要性采样原理/>和粒子/>预测粒子/>的状态；第四步、计算粒子权值，根据/>通过当前时刻的观测值Z_t来计算每个粒子的权重，之后进行归一化处理：/>计算k时刻目标状态的最小均方误差估计：/>第五步、重采样，根据样本的权值/>从样本集/>重新抽取N个样本，对粒子集进行自适应聚类，目标函数为/>找到距所有粒子最近的中心点/>聚类中心/>即认为是动物的质心位置{(x_j，y_j)，j＝1，2，...，t}。

步骤2-2，根据t个动物质心位置坐标序列进行目标动物区域裁剪，得到t张目标动物裁剪图像。

示例性地，根据质心位置(x_j，y_j)，将第j张动物行为学图像中128×128大小的矩形区域裁剪出来，形成第j张动物行为学图像对应的目标动物裁剪图像，裁剪方法如下：将第j张动物行为学图像中像素坐标范围[x_j-64：x_j+64，y_j-64：y_j+64]内的像素提取出来，根据t个动物质心位置坐标，得到每一帧动物行为学图像对应的目标动物裁剪图像，即t张目标动物裁剪图像，如图3中(a)所示。

步骤3，将t张目标动物裁剪图像输入局部姿态识别模型训练模块M2，生成N_T张训练图像、N_P张预测图像及局部姿态识别模型T。

步骤3-1，由t张目标动物裁剪图像分别生成N_T张训练图像和N_P张预测图像，并对N_T张训练图像进行关键点坐标标注，以得到N_T×ω个关键点坐标。

示例性地，预设每帧目标动物裁剪图像中有2类关键点，分别对应小鼠头部和小鼠尾部。

请生物学领域的行为学专家对从图像序列S_R中随机抽取的5000张目标动物裁剪图像逐帧人工标注小鼠头尾关键点坐标，即，每张训练图像对应一个头部关键点坐标和一个尾部关键点坐标。

步骤3-2，将N_T张训练图像及对应的N_T×ω个关键点坐标作为局部姿态识别模型T的训练样本，训练得到局部姿态识别模型T。

示例性地，局部姿态识别模型T选取群卷积Resnet50神经网络，神经网络设置为4个残差块，其中一个残差块包括两个分支，其中一支直接将输入连接到输出端，另一支包括3×3卷积层，群等变卷积，激活层，1×1卷积层，把两支输出结果相加作下采样，之后接一个激活层，其他三个残差块类似，网络的结果如图3所示。

由于ResNet50卷积神经网络对旋转不具有等变性，而传统的数据扩增的方法需要很大的训练图像，实现困难且浪费资源。局部姿态识别模块T引入群卷积Resnet50网络，其中群卷积G-CNN部分是为了对数据进行扩增，减少计算和存储空间。群卷积作为可扩展部分，加入到3×3卷积层中。群卷积部分将图像和卷积网络的对称性引入到群论的框架中，通过Z2-P4、P4-P4、P4-Z2三个卷积网络部分，使得输出的特征图具有等变性，其中Z2表示特征空间，P表示空间群，P4群是由绕方形网格的中心以90度角进行旋转和平移变换组成的群。Z2-P4卷积是将卷积核旋转4次，分别与输入图像做卷积；P4-P4卷积对Z2-P4卷积输出的特征图进行操作，分别将四个卷积核绕着顺时针方向旋转90°。同时卷积核也旋转90°，之后进行卷积操作；P4-Z2卷积将P4-P4输出的4个特征图相加得到最后的特征图。这样会使得同一个卷积核的四种状态对于不同的特征图应该能够得到一个P4的约束，这样网络学到一个旋转等变的性质，而不需要增加训练图像。

应当理解，群卷积ResNet50神经网络能够自动学习高层的纹理轮廓等抽象信息，避免了特征功能的固定性，且自动抽象的特征具有尺度不变性，因此，群卷积Resnet50神经网络提取的关键节点特征有更高的鲁棒性。

优选地，网络损失函数为均方MSE误差和huber损失函数求和：E＝E_MSE+E_huber。

其中

表示输入网络中人工标注的关键点坐标，/>表示卷积神经网络预测的关键点坐标，δ为脉冲函数，即/>均方误差主要使得训练预测坐标和标注坐标尽可能相近，而huber函数可以处理异常数据。使用反向传播算法不断迭代使得两种损失函数取最小值得到训练好的局部姿态识别模型T，学习率为0.05，每个批次的大小为8，迭代步长为40000次；

需要说明的是，本发明实施例对步骤3-2中提及的局部姿态识别模型结构、训练方式、损失函数设计不进行限定，只要能够进行关键点坐标预测即可。

步骤4，将局部姿态识别模型T和N_P张预测图像输入局部姿态识别模块M3，利用局部姿态识别模型T对N_P张预测图像进行动物关键点局部置信度预测，得到N_P×ω个局部预测关键点坐标

具体而言，将单帧预测图像依次输入局部姿态识别模型T，识别小鼠的头部、尾部关键节点，输出得到对应单帧图像的2张关键点局部置信度图像，第一张图像中每个像素坐标处的像素值表示此像素坐标属于头部关键点的概率，应当理解的是，此图像中像素值最大的像素点对应的像素坐标为头部的局部预测关键点坐标；第二张图像中每个像素坐标处的像素值表示此像素坐标属于尾部关键点的概率，应当理解的是，此图像中像素值最大的像素点对应的像素坐标为尾部的局部预测关键点坐标，对应单帧头尾局部预测关键点位置如图4(a)所示。

应当理解，将N_P张预测图像依次输入局部姿态识别模型T后，得到N_P个头部局部预测关键点坐标和N_P个尾部局部预测关键点坐标即N_P×2个头尾局部预测关键点坐标。

步骤5，将N_P×ω个局部关键点预测坐标和N_P个动物质心位置坐标输入全局姿态还原模块M4，根据N_P×ω个局部关键点预测坐标和N_P个动物质心位置坐标的像素坐标匹配关系，得到N_P×ω个全局关键点坐标。

示例性地，根据质心坐标{(x_j，y_j)，j＝1....t}、局部预测关键点坐标和行为学图像中的矩形区域裁剪大小为128×128，可以计算得出全局关键点坐标序列/>计算得出全局关键点坐标序列对应单帧头尾全局关键点位置如图4(b)所示。

本实施例获取了基于红外图像的连续12h记录佩戴有光纤实验动物的自由运动活动视频记录。根据本发明所述的系统进行了预处理感兴趣区域的提取、质心识别、图像裁剪、局部姿态识别以及全局姿态还原模块，具体流程图如图1所示，处理结果如图2至图4所示。图2是动物行为学原始图像示意图，图3是系统质心识别和图像裁剪的输出结果，图4是局部姿态识别和全局姿态还原的输出结果，图5是群卷积Resnet50的网络结构。

Claims

1.一种基于红外图像和穿戴式光纤的动物长时间姿态识别系统，其特征在于：该系统包含注意力机制模块M1、局部姿态识别模型训练模块M2，局部姿态识别预测模块M3、全局姿态还原模块M4，其中：

注意力机制模块M1功能为将采集到的动物行为学图像序列中，通过目标检测方法逐帧检测动物的质心位置，得到动物质心位置坐标序列{(x_j，y_j)，j＝1....t}，以动物质心位置坐标(x_j，y_j)为矩形中心，根据图像坐标范围为/>获取长为s、宽为z的矩形裁剪图像/>将每帧对应的裁剪图像/>按照采集时间排列，得到包含目标动物的裁剪图像序列/>其中t为总采样帧数；

局部姿态识别模型训练模块M2功能为由目标动物裁剪图像序列分别生成训练图像序列/>和预测图像序列/>根据图像序列/>输入群等变RseNet-50卷积神经网络训练得到局部姿态识别模型T；

局部姿态识别预测模块M3利用局部姿态识别模型T和群等变RseNet-50卷积神经网络预测机制，对图像序列进行动物关键节点局部置信度预测，得到关键节点局部置信度图像序列/> 及局部预测关键点坐标序列

全局姿态还原模块M4功能为利用局部预测关键点坐标序列与动物质心位置坐标序列{(x_j，y_j)，j＝1....N_P}的像素坐标匹配关系，得到全局关键点坐标序列/>

2.如权利要求1所述的一种基于红外图像和穿戴式光纤的动物长时间姿态识别系统，其特征在于所述的注意力机制模块M1中的目标检测采用粒子滤波算法，其步骤为：

第五步：重采样，根据样本的权值从样本集/>重新抽取N个样本，对粒子集进行自适应聚类，根据目标函数/>找到距所有粒子最近的中心点/>聚类中心/>即认为是动物的质心位置{(x_j，y_j)，j＝1，2，...，t}。

3.如权利要求1所述的一种基于红外图像和穿戴式光纤的动物长时间姿态识别系统，其特征在于局部姿态识别模型训练模块M2中所述的群等变ResNet50卷积神经网络的训练机制为：训练前预设局部姿态识别模型的关键点类别数为ω，将训练图像序列及对应人工标注的关键点坐标序列/>作为训练样本，经过群等变ResNet-50卷积网络训练得到局部姿态识别模型T；

群等变ResNet-50卷积的网络结构设置为：群等变卷积模块、卷积层、池化层、激活层、反向优化模块和损失函数，其中，群等变卷积模块使用对称性群将图像进行数据扩增，增加网络的旋转不变性；卷积层选取卷积核，提取图像的深层特征；池化层选取最大池化层，压缩数据和参数的存储空间，防止过拟合；激活层选取的激活函数为ReLu；反向优化模块选取Adam梯度下降法；损失函数为min(E)＝min(E_MSE+E_huber)，其中：

4.如权利要求1所述的一种基于红外图像和穿戴式光纤的动物长时间姿态识别系统，其特征在于局部姿态识别模型训练模块M3中所述的群等变ResNet-50卷积神经网络的具体预测步骤包括：

第一步，将N_P张预测图像依次输入群等变ResNet-50卷积神经网络的预测机制中，网络参数使用局部姿态识别模型T；

第二步，获取对应每张预测图像及每个关键节点的局部置信度图像序列其中，/>在像素坐标(m，n)处的像素值概率值，其代表：在第j张预测图像中，像素坐标为(m，n)的像素点属于ω类关键节点的概率值；

第三步，在所述的关键节点的局部置信度图像序列中，逐帧获取最大像素值对应的像素坐标，得到局部预测关键点坐标序列/>