CN112507961B

CN112507961B - 一种基于深度学习算法的小鼠运动状态分析方法

Info

Publication number: CN112507961B
Application number: CN202011526089.7A
Authority: CN
Inventors: 张玉瑶; 周宁; 鄢思源; 曾一凡; 朱纹萱
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2024-05-17
Anticipated expiration: 2040-12-22
Also published as: CN112507961A

Abstract

本发明提供了一种基于深度学习算法的动物运动状态视频的分析方法，其包括以下步骤：对小鼠运动的视频的每一帧进行切分并调整画幅大小，生成小鼠运动状态的图像；对小鼠运动状态的图像进行少量的人工标注，制作训练模型所需要的图像数据集；基于制作好的数据集，训练小鼠运动状态分析的模型；将需要分析的小鼠运动视频输入训练好的小鼠运动状态分析的模型，以得到小鼠运动状态的分析结果。本发明的小鼠运动状态分析方法，通过深度学习中的卷积神经网络技术和迁移学习技术，在只有少量视频数据标注且数据分布不平衡的情况下，构建了一个端到端的，具有高训练速度，高准确率，高推断速度，高扩展性的小鼠运动状态分析模型。

Description

一种基于深度学习算法的小鼠运动状态分析方法

技术领域

本发明涉及动物运动状态分析领域，特别是涉及一种基于深度学习算法的小鼠运动状态分析方法。

背景技术

大脑往往被看作是智慧的象征。神经科学方向的研究人员一直在努力了解大脑的结构，尝试破解大脑的秘密。但目前，在人类大脑方面开展神经科学基础研究的工作还十分艰难。人类自身大脑结构精巧，连接复杂，可能不是人类目前的科学水平可以研究透彻的，所以研究人员们把目光移向了大脑神经元数量相对人类来说少数个数量级的小型啮齿动物的身上。

先前，在很多的啮齿动物的种群中，研究人员已经发现了它们大脑中的神经网络的学习和认知模式，即用一种高度稀疏和抽象的逻辑或规律，来编码能完成某种动作的一系列复杂的连续肌肉控制信号。因此，啮齿动物大脑的某个区域的神经元激发情况会显式地反映在它们的行为上。相较人类大脑而言，研究小型啮齿动物，如小鼠，的大脑神经元与特定行为之间的有机联系是探究动物大脑中的神经网络的学习和认知模式的有效方法。原因有如下三点：

(1)小型啮齿动物，如小鼠，的典型可观测行为和需要检测的重要动作相比人类来说更少，在分类上难度相对较低。

(2)人类的某个动作实际是由很多简单的动作序列组成的，例如，将一个棒球投掷出去的动作实际上是由很多个可分解的动作组合而成的，从单独的某一个分解动作中，很难得到对最终动作的判断有用的信息；相反，小鼠的动作，受限于短小的四肢和躯干，往往也相对简单，动作的目的更容易被观测到。

(3)小鼠的大脑中的神经元数目和神经连接的数目，相较于人类和大型哺乳动物，会有数个数量级的下降，且已知控制每个动作的神经活动的区域是不同的，这为研究人员用电子显微镜观察神经元的激活情况提供了有利条件。

所以，基于单目摄像机监测的小鼠在实验过程中的活动状态和电子显微镜观察到的神经元的激活情况，并将所观察到的神经元激发信号与小鼠在该时间点的活动状态相结合，就可以建模小鼠的大脑神经元与它的特定行为之间的联系，探索神经活动是怎样驱使动物行为，从而更好地为神经科学，脑科学，动物行为学，动物管理学等等提供实验和研究的素材。

目前的问题在于，高效简便地观测动物的运动状态并检测重要的行为，仍然是一个十分困难的任务。传统的计算机视觉方法识别速度慢，识别精度不高；而采用深度学习模型的方法用端到端的方式，识别速度快，识别精度高，但往往需要人工标注大量的训练数据，使得模型训练成本变高。因此，如何使用少量人工标注的动物运动图像数据成功训练基于深度学习的动物运动状态分析模型，使其达到超越基于传统计算机视觉技术的模型的性能，是亟待解决的问题。

发明内容

本发明的目的是：使用少量人工标注的动物运动图像数据成功训练基于深度学习的动物运动状态分析模型，使其达到超越基于传统计算机视觉技术的模型的性能。

为了达到上述目的，本发明的技术方案是提供了一种基于深度学习算法的小鼠运动状态分析方法，其特征在于：包括以下步骤：

步骤S1、对小鼠运动的视频的每一帧进行切分并调整画幅至预设大小，生成小鼠运动状态的图像；

步骤S2、对小鼠运动状态的图像进行少量的人工标注，制作训练模型所需要的图像数据集，其中：

对小鼠运动状态的图像进行两种形式的少量的人工标注，以进行两方面的分析：

第一种形式：为区分小鼠运动状态类别，标注小鼠在实验舱中的运动所属的类别，形成运动对应的类别标签，以训练小鼠运动分类模型；

第二种形式：为确定小鼠运动时的位置、运动速度和方向，标注小鼠在实验舱中运动时小鼠的轮廓，生成小鼠轮廓的掩膜图像，以训练小鼠运动跟踪模型；

步骤S3、基于制作好的图像数据集，训练小鼠运动状态分析的模型，小鼠运动状态分析的模型包括小鼠运动分类模型以及小鼠运动跟踪模型，其中，小鼠运动分类模型基于ResNet50神经网络设计，小鼠运动跟踪模型基于Mask-RCNN的神经网络设计；

步骤S4、将需要分析的小鼠运动视频输入训练好的小鼠运动状态分析的模型，以得到小鼠运动状态的分析结果。

优选地，步骤S1中，小鼠运动的视频是由RGB彩色摄像头以俯视角拍摄的黑色小鼠在白色方型实验舱不间断运动的视频。

优选地，步骤S1中，对小鼠运动的视频的每一帧进行切分并调整画幅至224×224。

优选地，所述小鼠运动分类模型基于ResNet50神经网络设计，包括1层步长为2、输出通道数为64的7×7卷积层，1层步长为2、输出通道数为64的3×3最大池化层，3层步长为1、输出通道数为64且卷积核大小为1×1的卷积层，4层步长为1、输出通道数为128且卷积核大小为1×1的卷积层，9层步长为1、输出通道数为256且卷积核大小为1×1的卷积层，7层步长为1、输出通道数为512且卷积核大小为1×1的卷积层，6层步长为1、输出通道数为1024且卷积核大小为1×1的卷积层，3层步长为1、输出通道数为2048且卷积核大小为1×1的卷积层，3层步长为1、输出通道数为64且卷积核大小为3×3的卷积层，3层步长为1、输出通道数为64且卷积核大小为3×3的卷积层，4层步长为1、输出通道数为128且卷积核大小为3×3的卷积层，6层步长为1、输出通道数为256且卷积核大小为3×3的卷积层，3层步长为1、输出通道数为512且卷积核大小为3×3的卷积层，1层全连接层和1层平均池化，若干批归一化层，激活函数层ReLU，并保留经过ImageNet大型数据集预训练后的模型权重参数。

优选地，步骤S2及步骤S3中，所述图像数据集包括训练数据集、验证数据集和测试数据集；

用于训练所述小鼠运动分类模型的训练数据集和验证数据集采用小鼠在一部分实验舱中运动的小鼠运动状态的图像和运动对应的类别标签；测试数据集采用小鼠在另一部分不同的实验舱中运动的小鼠运动状态的图像和运动对应的类别标签；

用于训练所述小鼠运动跟踪模型的训练数据集和验证数据集采用小鼠在一部分实验舱中运动的小鼠运动状态的图像和与每张图像相匹配的图像中小鼠轮廓的掩膜图像；测试数据集采用小鼠在另一部分不同的实验舱环境中运动的小鼠运动状态的图像和与每张图像相匹配的图像中小鼠轮廓的掩膜图像。

优选地，步骤S3中，训练所述小鼠运动分类模型的模型时，将训练数据集的图像划分为224×224×3×32每批次输入小鼠运动分类模型，将小鼠运动分类模型输出与对应运动的分类标签的交叉熵函数作为损失函数，通过带有动量的随机梯度下降优化器进行优化，初始学习率为8×10^-4，动量值为0.9。

优选地，步骤S3中，训练所述小鼠运动分类模型时，每20次迭代学习率衰减为先前学习率的0.3倍；一次训练选取的样本数为32，选择64个样本作为所述验证数据集，基于Python 3.7.4、Pytorch 1.1.0、torchvision 0.3.0搭建所述小鼠运动分类模型，使用NVIDIA GeForce GTX-1080ti GPU和8个Intel Xeon CPU，提供11178MB内存空间，在训练阶段全程采用FP16的计算精度。

优选地，所述小鼠跟踪模型基于Mask-RCNN的神经网络设计，包括基于ResNet50的特征提取层，FPN特征金字塔层，RPN区域提议层，锚框生成层，RoI对齐层，边界框回归层和二值掩膜预测层，其中，基于ResNet50的特征提取层保留了经过ImageNet大型数据集预训练后的权重参数。

优选地，步骤S3中，训练所述小鼠运动跟踪模型时，将所述训练数据集的图像划分为224×224×3×2的块输入所述小鼠运动跟踪模型，将小鼠运动跟踪模型输出与所述对应的小鼠轮廓的掩膜图像的IoU损失作为损失函数，通过带有动量的随机梯度下降优化器进行优化，初始学习率为1×10^-3，动量值为0.9。

优选地，步骤S3中，训练小鼠运动分类模型时，每10次迭代学习率衰减为先前学习率的0.3倍；一次训练选取的样本数为2，选择2个样本作为验证集，基于Python 3.7.4和Pytorch 1.1.0、torchvision 0.3.0搭建网络模型，使用NVIDIA GeForce GTX-1080ti GPU和8个Intel Xeon CPU，提供11178MB内存空间，在训练阶段全程采用FP16的计算精度。

本发明通过深度学习中的卷积神经网络技术和迁移学习技术，在只有少量视频数据标注且数据分布不平衡的情况下，构建了一个端到端的，具有高训练速度、高准确率、高推断速度、高扩展性的小鼠运动状态分析模型。与现有技术相比，本发明具有以下有益效果：

(1)通过深度学习中的卷积神经网络技术和预训练迁移学习技术，在只有少量视频数据标注且数据分布不平衡的情况下，构建了一个端到端的小鼠运动状态分析模型；

(2)定性和定量研究表明，本发明的基于深度学习算法的动物运动状态视频的分析方法相比其他算法具有更高训练速度、更高准确率、更高推断速度；

(3)本发明的基于深度学习算法的动物运动状态视频的分析方法相比其他算法，仅需少量的人工标注数据，具有更高扩展性，模型部署更快，应用前景良好。

附图说明

图1显示为本发明的基于深度学习算法的动物运动状态的分析方法于一实施例中的流程图；

图2显示为本发明的基于深度学习算法的动物运动状态的分析方法中的小鼠运动分类模型于一实施例中的结构示意图；

图3显示为本发明的基于深度学习算法的动物运动状态的分析方法中的小鼠目标跟踪模型于一实施例中的结构示意图；

图4显示为实施例一中通过本发明的基于深度学习算法的动物运动状态的分析方法进行动物运动状态分析的结果示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明的目的在于提供一种基于深度学习算法的动物运动状态视频的分析方法，通过深度学习中的卷积神经网络技术和迁移学习技术，在只有少量视频数据标注且数据分布不平衡的情况下，构建了一个端到端的，具有高训练速度、高准确率、高推断速度、高扩展性的小鼠运动状态分析模型。

如图1所示，于一实施例中，本发明的小鼠运动状态分析方法包括以下步骤：

步骤S1、对小鼠运动的视频的每一帧进行切分并调整画幅大小，生成小鼠运动状态的图像。

小鼠运动的视频是由RGB彩色摄像头以俯视角拍摄的黑色小鼠在白色方型实验舱不间断运动的视频。对小鼠运动的视频的每一视频帧进行切分后，生成的图像需调整画幅大小为224×224。

步骤S2、对小鼠运动状态的图像进行少量的人工标注，制作训练模型所需要的图像数据集。

于本发明一实施例中，所述方法对小鼠运动状态进行两方面的分析，一是对小鼠运动状态类别的区分，对应小鼠运动分类模型；二是对小鼠运动时的位置、运动速度和方向的确定，对应小鼠运动跟踪模型。

所述方法需对小鼠运动状态的图像进行上述两种形式的少量的人工标注，以进行两方面的分析，一是在区分小鼠运动状态类别时，需要标注小鼠在实验舱中的运动所属的类别，获得运动对应的类别标签，以训练小鼠运动分类模型；二是在确定小鼠运动时的位置、运动速度和方向时，需要标注小鼠在实验舱中运动时小鼠的轮廓，生成掩膜图像以训练小鼠运动跟踪模型。

所述小鼠运动分类模型的训练数据集和验证数据集采用小鼠在一部分实验舱中运动的图像和运动对应的类别标签。测试数据集采用小鼠在另一部分不同的实验舱中运动的图像和运动对应的类别标签。

所述小鼠运动跟踪模型的训练数据集和验证数据集采用小鼠在一部分实验舱中运动的图像和与每张图像相匹配的图像中小鼠轮廓的掩膜图像。测试数据集小鼠在另一部分不同的实验舱环境中运动的图像和与每张图像相匹配的图像中小鼠轮廓的掩膜图像。

步骤S3、基于制作好的数据集，训练小鼠运动状态分析的模型。小鼠运动状态分析的模型包括小鼠运动分类模型以及小鼠运动跟踪模型。

具体地，如2所示，于本发明一实施例中，所述小鼠运动分类模型基于ResNet50神经网络设计，包括1层步长为2、输出通道数为64的7×7卷积层，1层步长为2、输出通道数为64的3×3最大池化层，3层步长为1、输出通道数为64且卷积核大小为1×1的卷积层，4层步长为1、输出通道数为128且卷积核大小为1×1的卷积层，9层步长为1、输出通道数为256且卷积核大小为1×1的卷积层，7层步长为1、输出通道数为512且卷积核大小为1×1的卷积层，6层步长为1、输出通道数为1024且卷积核大小为1×1的卷积层，3层步长为1、输出通道数为2048且卷积核大小为1×1的卷积层，3层步长为1、输出通道数为64且卷积核大小为3×3的卷积层，3层步长为1、输出通道数为64且卷积核大小为3×3的卷积层，4层步长为1、输出通道数为128且卷积核大小为3×3的卷积层，6层步长为1、输出通道数为256且卷积核大小为3×3的卷积层，3层步长为1、输出通道数为512且卷积核大小为3×3的卷积层，1层全连接层和1层平均池化，若干批归一化层，激活函数层ReLU，并保留经过ImageNet大型数据集预训练后的模型权重参数。

训练小鼠运动分类模型时，将训练集的图像划分为224×224×3×32每批次输入小鼠运动分类模型，将网络输出与对应运动的分类标签的交叉熵函数作为损失函数，通过带有动量的随机梯度下降(SGD-Momentum)优化器进行优化，初始学习率为8×10^-4，动量值为0.9。

训练小鼠运动分类模型时，每20次迭代学习率衰减为先前学习率的0.3倍。一次训练选取的样本数为32，选择64个样本作为验证集，基于Python 3.7.4、Pytorch 1.1.0、torchvision 0.3.0搭建网络模型，使用NVIDIA GeForce GTX-1080ti GPU和8个IntelXeon CPU，提供11178MB内存空间，在训练阶段全程采用FP16的计算精度。

如图3所示，于本发明一实施例中，所述小鼠跟踪模型基于Mask-RCNN(模型骨架为ResNet50)的神经网络设计，包括基于ResNet50的特征提取层，FPN(Feature PyramidNetwork)特征金字塔层，RPN(Region Proposal Network)区域提议层，锚框生成层，RoI对齐层，边界框回归层和二值掩膜预测层。其中基于ResNet50的特征提取层保留了经过ImageNet大型数据集预训练后的权重参数。

训练小鼠运动跟踪模型时，将所述训练集的图像划分为224×224×3×2的块输入所述小鼠运动跟踪模型，将网络输出与所述对应的小鼠轮廓掩膜图像的IoU损失作为损失函数，通过带有动量的随机梯度下降(SGD-Momentum)优化器进行优化，初始学习率为1×10^-3，动量值为0.9。

训练小鼠运动分类模型时，每10次迭代学习率衰减为先前学习率的0.3倍；一次训练选取的样本数为2，选择2个样本作为验证集，基于Python 3.7.4和Pytorch1.1.0、torchvision 0.3.0搭建网络模型，使用NVIDIA GeForce GTX-1080ti GPU和8个IntelXeon CPU，提供11178MB内存空间，在训练阶段全程采用FP16的计算精度。

下面通过具体实施例来进一步验证本发明的小鼠运动状态分析的模型。

选择一段由RGB彩色摄像头以俯视角拍摄的黑色小鼠在白色方型实验舱不间断运动的视频。对小鼠运动的视频的每一视频帧进行切分后，调整画幅大小为224×224的图像作为本发明的动物运动状态分析模型的输入。分析结果与其他方法Fully connected NN、Small CNN和MobileNetV2-based CNN进行比较，从量化结果看，Fully connected NN、Small CNN和MobileNetV2-based CNN在测试视频上对小鼠运动所属的类别的第一预测准确率(Top-1accuracy)分别为17.47％、29.96％和53.65％,而本发明的基于深度学习算法的动物运动状态分析方法对视频中小鼠运动所属的类别的第一预测准确率(Top-1accuracy)为92.38％。本发明的基于深度学习算法的动物运动状态分析方法对视频中小鼠的目标追踪掩码的平均精确度(mAP)则是80.4％。因此该实施例中，相比于Fullyconnected NN、Small CNN和MobileNetV2-based CNN算法，本发明的基于深度学习算法的动物运动状态分析方法的精度更高。

表1、Fully connected NN,Small CNN，MobileNetV2-based CNN和本发明的基于深度学习算法的动物运动状态视频的分析方法的量化误差

如图4所示，本发明的基于深度学习算法的动物运动状态视频的分析方法计算的结果图例。

综上所述，本发明的基于深度学习算法的动物运动状态视频的分析方法，通过深度学习中的卷积神经网络技术和预训练迁移学习技术，在只有少量视频数据标注且数据分布不平衡的情况下，构建了一个端到端的小鼠运动状态分析模型。定性和定量研究表明，本发明的基于深度学习算法的动物运动状态视频的分析方法相比其他算法具有更高训练速度，更高准确率，更高推断速度。本发明的基于深度学习算法的动物运动状态视频的分析方法相比其他算法，仅需少量的人工标注数据，具有更高扩展性，模型部署更快，应用前景良好。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

Claims

1.一种基于深度学习算法的小鼠运动状态分析方法，其特征在于：包括以下步骤：

小鼠运动分类模型包括1层步长为2、输出通道数为64的7×7卷积层，1层步长为2、输出通道数为64的3×3最大池化层，3层步长为1、输出通道数为64且卷积核大小为1×1的卷积层，4层步长为1、输出通道数为128且卷积核大小为1×1的卷积层，9层步长为1、输出通道数为256且卷积核大小为1×1的卷积层，7层步长为1、输出通道数为512且卷积核大小为1×1的卷积层，6层步长为1、输出通道数为1024且卷积核大小为1×1的卷积层，3层步长为1、输出通道数为2048且卷积核大小为1×1的卷积层，3层步长为1、输出通道数为64且卷积核大小为3×3的卷积层，3层步长为1、输出通道数为64且卷积核大小为3×3的卷积层，4层步长为1、输出通道数为128且卷积核大小为3×3的卷积层，6层步长为1、输出通道数为256且卷积核大小为3×3的卷积层，3层步长为1、输出通道数为512且卷积核大小为3×3的卷积层，1层全连接层和1层平均池化，若干批归一化层，激活函数层ReLU，并保留经过ImageNet大型数据集预训练后的模型权重参数；

训练所述小鼠运动分类模型的模型时：将训练数据集的图像划分为224×224×3×32每批次输入小鼠运动分类模型，将小鼠运动分类模型输出与对应运动的分类标签的交叉熵函数作为损失函数，通过带有动量的随机梯度下降优化器进行优化，初始学习率为8×10^-4，动量值为0.9；每20次迭代学习率衰减为先前学习率的0.3倍；一次训练选取的样本数为32，选择64个样本作为验证数据集，基于Python 3.7.4、Pytorch 1.1.0、torchvision 0.3.0搭建所述小鼠运动分类模型，使用NVIDIA GeForce GTX-1080tiGPU和8个IntelXeon CPU，提供11178MB内存空间，在训练阶段全程采用FP16的计算精度；

小鼠跟踪模型包括基于ResNet50的特征提取层，FPN特征金字塔层，RPN区域提议层，锚框生成层，RoI对齐层，边界框回归层和二值掩膜预测层，其中，基于ResNet50的特征提取层保留了经过ImageNet大型数据集预训练后的权重参数；

训练所述小鼠运动跟踪模型时：将所述训练数据集的图像划分为224×224×3×2的块输入所述小鼠运动跟踪模型，将小鼠运动跟踪模型输出与所述对应的小鼠轮廓的掩膜图像的IoU损失作为损失函数，通过带有动量的随机梯度下降优化器进行优化，初始学习率为1×10^-3，动量值为0.9；每10次迭代学习率衰减为先前学习率的0.3倍；一次训练选取的样本数为2，选择2个样本作为验证集，基于Python 3.7.4和Pytorch 1.1.0、torchvision 0.3.0搭建网络模型，使用NVIDIA GeForce GTX-1080tiGPU和8个IntelXeon CPU，提供11178MB内存空间，在训练阶段全程采用FP16的计算精度；

2.根据权利要求1所述的一种基于深度学习算法的小鼠运动状态分析方法，其特征在于：步骤S1中，小鼠运动的视频是由RGB彩色摄像头以俯视角拍摄的黑色小鼠在白色方型实验舱不间断运动的视频。

3.根据权利要求1所述的一种基于深度学习算法的小鼠运动状态分析方法，其特征在于：步骤S1中，对小鼠运动的视频的每一帧进行切分并调整画幅至224×224。

4.根据权利要求1所述的一种基于深度学习算法的小鼠运动状态分析方法，其特征在于：步骤S2及步骤S3中，所述图像数据集包括训练数据集、验证数据集和测试数据集；