CN116740808A

CN116740808A - 基于深度学习目标检测和图像分类的动物行为识别方法

Info

Publication number: CN116740808A
Application number: CN202310632793.8A
Authority: CN
Inventors: 胡慧建; 莫成达; 梁健超; 戴凌峰; 刘泽芯; 叶莹莹
Original assignee: Guangzhou University; Institute of Zoology of Guangdong Academy of Sciences
Current assignee: Guangzhou University; Institute of Zoology of Guangdong Academy of Sciences
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-09-12

Abstract

本发明提供了基于深度学习目标检测和图像分类的动物行为识别方法，属于动物行为识别技术领域。方法包括以下步骤：S1、获取并对视频/图像数据进行预处理；S2、通过深度学习目标检测算法检测视频/图像数据中的目标物体，根据检测结果提取目标物体的图像特征；S3、通过深度学习分类模型对目标物体进行分类；S4、结合分类结果和物体的时空位置信息，实现对待识别动物行为的识别。本发明解决了现有技术对于动物的行为识别不及时和高错误率的问题，以高准确率和高容错率实现动物行为的识别，从而提供了一种新的动物行为研究方法。

Description

基于深度学习目标检测和图像分类的动物行为识别方法

技术领域

本发明涉及动物行为识别技术领域，具体是涉及基于深度学习目标检测和图像分类的动物行为识别方法。

背景技术

基于深度学习的图像识别技术在人工智能领域获得了飞速的进展，取得了重大成果。随着这一技术的日益成熟，它在其他的领域以及人们的日常生活中也有所应用，并获得良好的效益。近几年，关于基于深度学习的图像识别技术的研究也在发展之中，并扩展到运用于其他领域。近几年，深度学习在图像识别中的发展主要有以下几个趋势：模型层次不断加深；模型结构日趋复杂；海量的标注数据和适当的数据扰动。

结合图像数据的特点，包括平移、水平翻转、旋转、缩放等数据扰动方式被用于产生更多有效的训练数据，能够普遍提高识别模型的推广、容错和可扩展学习能力。

此外，传统的图片、视频行为识别方法大多基于手工提取特征的方式，由于特征提取的效果受到人为经验和主观因素的影响，因此存在一定的局限性。随着深度学习技术的发展，利用深度学习进行图像行为识别成为一种热门趋势。目前，深度学习在图像分类和目标检测领域已经取得了显著的进展，并且在行为识别领域也取得了一些成果。

但对于情况相对复杂的动物饲养环境，动物行为往往依靠专业人员的人眼识别，由于人员识别不及时和高错误率，往往会带来经济上的损失。

发明内容

本发明解决的技术问题是：现有技术对于动物的行为识别不及时、错误率高。

为解决上述问题，本发明的技术方案如下：

基于深度学习目标检测和图像分类的动物行为识别方法，包括以下步骤：

S1、获取待识别动物行为的视频/图像数据，对视频/图像数据进行预处理；

S2、通过深度学习目标检测算法检测视频/图像数据中的目标物体，根据检测结果提取目标物体的图像特征，图像特征为：图像的特征向量、目标物体的描述性文字信息；

S3、将图像特征输入到深度学习分类模型中，对目标物体进行分类；

S4、结合分类结果和物体的时空位置信息，实现对待识别动物行为的识别。

进一步地，步骤S1中，预处理包括以下内容：图像打框、视频帧的提取、视频帧归一化处理，图像打框为：手动标注图像中目标物体的位置信息。

说明：上述步骤S1中，预处理对视频数据进行视频帧提取，得到视频帧后再进行图像打框，将视频数据和图像数据均处理得到标记了目标物体的图像，该步骤既可以通过人为实现，也可以通过代码程序实现。

上述步骤S1中，视频帧提取原则为：(1)图像质量：选择较高的图像质量可以提高后续的目标检测和图像分类的准确度，但也会增加计算成本和存储空间。(2)光照条件：尽可能选择光照条件良好的帧来进行分析，以减少噪声和不确定性。(3)姿态和动作：选择包含不同姿态和动作的帧，以保证模型能够识别多种动物行为。

上述步骤S1中，视频帧归一化处理则是将视频帧转换为固定大小：将每个视频帧的尺寸调整为固定大小，以便后续的模型可以处理，目标物体的位置信息为目标位置在图像中的具体位置。

进一步地，步骤S2中，深度学习目标检测算法为单步多框目标检测算法，单步多框目标检测算法的输入为：待检测的图像/视频帧，输出为一个包含检测框、检测框内目标物体类别的列表。

说明：其中，每个检测框包括四个用于表示检测框所在图像/视频帧位置的坐标值。

进一步地，单步多框目标检测算法的网络结构包括依次连通的：用于提取图像特征并生成特征图的特征提取网络、在特征图上执行多个边界框预测以检测图像中目标的目标检测网络，其中，每个特征图位置都会生成多个比例和大小的锚点，用于检测多种大小和形状的目标物体。

说明：特征提取网络(VGG网络)，特征提取网络包括依次连接的：交替出现的数个卷积层和数个最大池化层、全连接层，其中，卷积层用于提取特征，最大池化层用于对特征进行降维和采样，全连接层用于将所有特征向量连接起来形成一个多维特征向量，多维特征向量用于进行分类或者目标检测任务。

上述内容中，最大池化层(常用的是maxpool2d)的作用：一是对卷积层所提取的信息做更一步降维，减少计算量；二是加强图像特征的不变性，使之增加图像的偏移、旋转等方面的鲁棒性。最大池化层的具体操作为：取图像中的最大值作为输出，例如输入图像最左边池化的最大值为3，最大池化操作的输出即为3，后面以此类推。

目标检测网络的任务是在特征图上执行多个边界框预测，以检测出图像中的目标；本发明在目标检测网络中，采用锚框(anchor box)和卷积神经网络(CNN)结合的方法，通过在特征图上滑动不同尺寸和比例的锚框，利用CNN预测出每个锚框中是否存在目标以及目标的位置和类别信息。这样，就可以通过多个边界框的预测结果，完成对图像中目标的检测任务。

锚点可以由两个参数定义，即宽度和高度比例，例如，在一个特征图位置上，可以生成3个宽高比为1:1、1:2、2:1的锚点。

进一步地，单步多框目标检测算法的损失函数包括分类损失和边界框回归损失。

说明：分类损失通常采用交叉熵损失，边界框回归损失则采用平滑L1损失。

更进一步地，通过深度学习目标检测算法检测视频/图像数据中的目标物体，包括以下内容：

通过特征提取网络、目标检测网络实现锚点分类和边界框回归，特征提取网络对每个锚点进行分类，以确定锚点对应特征图中是否包含目标物体，在包含目标物体的情况下，对特征图进行边界框回归以精确定位目标物体的位置。

说明：深度学习目标检测算法通过锚点进一步具体化目标物体的形状和位置。

优选地，步骤S3中的深度学习分类模型由3D卷积神经网络训练得到，深度学习分类模型的输入为三维数据张量，深度学习分类模型的输出为经过softmax激活函数激活的概率分布，即三维数据张量属于各个动物行为类别的概率。

说明：在2DCNN通道的基础上增加3DCNN通道，以减少立体图像的失真；利用3D卷积沿着时间维度来提取数据中的时间模式，从而能够更加及时的进行目标行为的分析输出，并通过优化2DCNN和3DCNN通道的网络参数提高目标识别的准确率、高效率和可靠性。CNN算法特征分类结果的准确率优于其他算法，究其效果，可以节省人力成本，使得动物行为识别更为容易，更易于普及和应用，将在动物饲养管理与野生保护方面发挥不可或缺的作用。

优选地，3D卷积神经网络由依次电性连接的：数据预处理层、卷积层、池化层、扁平层、全连接层、输出层组成，其中，

数据预处理层用于将三维数据转换为4D张量，卷积层用于将4D张量转化为特征图，卷积层由依次电性连接的2D卷积层与3D卷积层组成，2D卷积层用于降低4D张量的维度同时在输出中添加时间维度，池化层用于减少卷积层输出特征图的维度和计算量，扁平层用于将所有特征图压缩为一维向量，全连接层用于对一维向量进行分类或回归。

说明：数据预处理层(Data preprocessing layer)：用于将输入的原始图像进行预处理，如归一化、数据增强等。预处理的具体方法根据应用场景和需求而定。卷积层(Convolutional layer)：使用滤波器(也称卷积核)在图像上进行卷积操作，提取出图像的特征。通常会有多个卷积核用于提取不同的特征，卷积核的数量与特征的数量相对应。池化层(Pooling layer)：用于对卷积层输出的特征图进行降维和下采样，以减少模型的计算量和内存占用。常见的池化方法包括最大池化和平均池化。扁平层(Flatten layer)：将池化层输出的特征图扁平化为一维向量，以便进行全连接层的处理。全连接层(Fullyconnected layer)：将扁平层输出的一维向量与权重矩阵进行矩阵乘法，得到新的一维向量，然后使用激活函数进行非线性变换。输出层(Output layer)：通常是一个全连接层，输出模型的预测结果。根据不同的任务，输出层的结构和激活函数也会有所不同。比如在分类任务中，输出层一般采用softmax激活函数，输出每个类别的概率值；在回归任务中，输出层一般不使用激活函数，直接输出模型的预测结果。

优选地，3D卷积层由一系列的卷积核组成，每个卷积核在长度、宽度和通道数三个维度上进行卷积计算，并输出一个特征图，特征图通过激活函数进行激活。

进一步优选地，3D卷积神经网络的训练方法为：

S1、设定训练方式：

通过动量优化和自适应学习率优化训练模型：设置用于优化3D卷积神经网络的优化器，并设置优化器的学习率为0.001、动量为0.9，设置用于动态调整学习率的调度器，调度器的动态调整规则为：预先设定了变化阈值为0.001，当损失函数在10个迭代内的变化量超过变化阈值时，将学习率乘以0.1，其中，模型的训练函数为交叉熵损失函数；

S2、收集包含动物行为的视频/图像数据，并对视频/图像数据进行预处理后，得到预处理后的视频/图像数据，人工对预处理后的视频/图像数据进行动物行为识别标记后，得到图像特征，将图像特征组合得到视频/图像动物行为识别训练集，再通过识别训练集对3D卷积神经网络进行训练，在训练的过程中，通过调度器动态调整优化器的学习率，直至识别的准确率大于等于85％，得到深度学习分类模型。

本发明的有益效果是：

(1)本发明通过2D和3D结合的卷积神经网络可以更有效地提取动物行为图像中的特征，从而更准确地识别动物行为；可以更有效地训练网络参数，减少训练的样本量，高动物行为识别的准确率；

(2)本发明结合目标检测和图像分类方式，使用基于深度学习的目标检测和图像识别算法可以更有效地检测出动物行为的位置，较小反复的模型训练时间，使得到的模型更加健壮，从而更准确地识别动物行为，以高准确率和高容错率实现动物行为的识别，从而提供了一种新的动物行为研究方法；

(3)本发明通过对深度学习技术的引入和对目标检测和图像分类方式的结合，本专利的技术方案实现了一种全新的动物行为识别方法，具有重要的科学意义和实用价值，同时具有广泛的应用前景，可以广泛应用于动物行为研究、动物观测和管理等领域。

附图说明

图1是实施例1基于深度学习目标检测和图像分类的动物行为识别方法流程图；

图2是实施例1基于深度学习目标检测和图像分类的动物行为识别方法的实现逻辑图；

图3是实施例1中深度学习目标检测算法结构图；

图4是实施例2中3D卷积神经网络的识别率测试报告；

图5是实施例2中3D卷积神经网络结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

名词解释

单步多框目标检测算法(SSD算法)：(Single Shot Multibox Detection，SSD)是一种能够快速准确地在图像中检测出多个物体的深度学习算法。在SSD算法中，我们需要首先通过一个神经网络来抽取图像的特征，这个神经网络通常是卷积神经网络(Convolutional Neural Network，CNN)。得到图像特征后，我们会在不同层次的特征图上生成一些候选框(boxes)，用来定位物体的位置。这些候选框被称为锚点框(anchorboxes)。接下来，我们会用神经网络来对每一个锚点框进行分类和位置的预测。分类是指确定锚点框中是否存在物体，位置是指确定物体的位置。在分类和位置预测完成后，我们会使用一种叫做非极大值抑制(Non-Maximum Suppression，NMS)的技术，来抑制一些重复的、不准确的检测结果。最后，我们会输出所有被保留下来的检测结果，得到图像中所有的物体检测结果。总的来说，SSD算法利用神经网络提取图像特征，然后在不同尺度上生成候选框，再通过神经网络进行分类和位置预测，最后使用NMS算法来去除冗余结果，输出检测结果。

3D卷积神经网络：(3D CNN)是一种机器学习算法，可以帮助计算机处理和理解3D数据。这些数据可能是视频、医学图像或声音信号等，与我们日常生活中所看到的2D图片不同。3D CNN的工作方式类似于人类的大脑：通过看到一系列图像或听到一系列声音，它可以学习到时空特征，例如视频中的动作或声音中的音调。这使得它在许多领域，如医疗影像、自动驾驶和虚拟现实等方面都有着广泛的应用。3D CNN是通过在3D数据上运用一系列数学运算来进行训练的。这些运算称为卷积和池化，它们允许算法从数据中提取特征，并将其用于分类或其他任务。在训练期间，算法会逐渐调整其内部权重和参数，以便更好地捕获数据中的模式和特征。

实施例1

本实施例为基于深度学习目标检测和图像分类的动物行为识别方法，如图1、图2所示，包括以下步骤：

S1、获取待识别动物行为的视频/图像数据，对视频/图像数据进行预处理，预处理包括以下内容：图像打框、视频帧的提取、视频帧归一化处理，图像打框为：手动标注图像中目标物体的位置信息。

S2、通过深度学习目标检测算法检测视频/图像数据中的目标物体，根据检测结果提取目标物体的图像特征，通过深度学习目标检测算法检测视频/图像数据中的目标物体，包括以下内容：

通过特征提取网络、目标检测网络实现锚点分类和边界框回归，特征提取网络对每个锚点进行分类，以确定锚点对应特征图中是否包含目标物体，在包含目标物体的情况下，对特征图进行边界框回归以精确定位目标物体的位置，图像特征为：图像的特征向量、目标物体的描述性文字信息，

深度学习目标检测算法为单步多框目标检测算法，单步多框目标检测算法的输入为：待检测的图像/视频帧，输出为一个包含检测框、检测框内目标物体类别的列表，其中，每个检测框包括四个用于表示检测框所在图像/视频帧位置的坐标值，

如图3所示，单步多框目标检测算法的网络结构包括依次连通的：用于提取图像特征并生成特征图的特征提取网络、在特征图上执行多个边界框预测以检测图像中目标的目标检测网络，其中，每个特征图位置都会生成多个比例和大小的锚点，用于检测多种大小和形状的目标物体，单步多框目标检测算法的损失函数包括分类损失和边界框回归损失。

特征提取网络(VGG网络)，特征提取网络包括依次连接的：交替出现的数个卷积层和数个最大池化层、全连接层，其中，卷积层用于提取特征，最大池化层用于对特征进行降维和采样，全连接层用于将所有特征向量连接起来形成一个多维特征向量，多维特征向量用于进行分类或者目标检测任务。

目标检测网络的任务是在特征图上执行多个边界框预测，以检测出图像中的目标；本实施例在目标检测网络中，采用锚框(anchor box)和卷积神经网络(CNN)结合的方法，通过在特征图上滑动不同尺寸和比例的锚框，利用CNN预测出每个锚框中是否存在目标以及目标的位置和类别信息。这样，就可以通过多个边界框的预测结果，完成对图像中目标的检测任务。

本实施例中，每个检测框的4个坐标值为(xmin,ymin,xmax,ymax)，以表示检测框的位置和大小。锚点可以由两个参数定义，即宽度和高度比例。例如，在一个特征图位置上，可以生成3个宽高比为1:1,1:2,2:1的锚点。

本实施例中，分类损失采用交叉熵损失，边界框回归损失则采用平滑L1损失。

S3、将图像特征输入到深度学习分类模型中，对目标物体进行分类，其中，深度学习分类模型由3D卷积神经网络训练得到，深度学习分类模型的输入为三维数据张量，深度学习分类模型的输出为经过softmax激活函数激活的概率分布，即三维数据张量属于各个动物行为类别的概率(softmax激活函数接受一个向量作为输入，对其进行一系列数学运算，并返回一个与原始向量同样大小的新向量，其中每个元素都表示该类别的概率分布)；

本实施例中，单步多框目标检测算法(SSD算法)的实现的核心代码如下所示。

实施例2

本实施例为一种3D卷积神经网络，如图5所示，由依次电性连接的：数据预处理层、卷积层、池化层、扁平层、全连接层、输出层组成，其中：

数据预处理层用于将三维数据转换为4D张量，本实施例中，4D张量的格式为(batch_size,depth,height,width,channels)，其中batch_size表示每个训练批次的样本数量，depth表示数据在时间轴上的维度，height和width表示数据在空间轴上的维度，channels表示每个位置上的特征通道数，

卷积层用于将4D张量转化为特征图，卷积层由依次电性连接的2D卷积层与3D卷积层组成，2D卷积层用于降低4D张量的维度同时在输出中添加时间维度，本实施例中，3D卷积层由一系列的卷积核组成，卷积核的大小为3*3，每个卷积核在长度、宽度和通道数三个维度上进行卷积计算，并输出一个特征图，特征图通过激活函数进行激活，本实施例采用的激活函数为softmax激活函数，它将网络的输出转换为一组概率分布，这些概率表示输入数据属于每个类别的概率。对于动物行为识别，softmax可以帮助我们更好地解释网络的预测结果，并判断输入数据最可能属于哪个动物行为类别。

池化层用于减少卷积层输出特征图的维度和计算量，本实施例中，3D池化层在三个维度上分别执行最大或平均池化操作，

扁平层用于将所有特征图压缩为一维向量，以便输入到全连接层中，

全连接层用于对一维向量进行分类或回归，全连接层通常包含多个神经元，每个神经元都与前一层中的所有神经元相连，

最后一层是输出层，输出层的神经元数量等于问题的输出数量，输出层的激活函数取决于问题的类型，例如sigmoid函数用于二分类问题，softmax函数用于多分类问题。

本实施例中，

数据预处理层(Data preprocessing layer)：用于将输入的原始图像进行预处理，如归一化、数据增强等，本实施例的预处理方法根据动物行为类型和动物行为的场所需求而定。

卷积层(Convolutional layer)：使用滤波器(也称卷积核)在图像上进行卷积操作，提取出图像的特征，通常会有多个卷积核用于提取不同的特征，本实施例中，卷积核的数量与特征的数量相对应。

池化层(Pooling layer)：用于对卷积层输出的特征图进行降维和下采样，以减少模型的计算量和内存占用。常见的池化方法包括最大池化和平均池化，本实施例的池化方法为最大池化，操作为：取图像中的最大值作为输出，例如输入图像最左边池化的最大值为3，最大池化操作的输出即为3，后面以此类推。

扁平层(Flatten layer)：将池化层输出的特征图扁平化为一维向量，以便进行全连接层的处理。

全连接层(Fully connected layer)：将扁平层输出的一维向量与权重矩阵进行矩阵乘法，得到新的一维向量，然后使用激活函数进行非线性变换。

输出层(Output layer)：本实施例中使用一个全连接层作为输出层，输出模型的预测结果。根据不同的任务，输出层的结构和激活函数也会有所不同。本实施例的输出层采用softmax激活函数，输出每个类别的概率值。

本实施例中，3D卷积神经网络输入的三维数据张量的维度通常表示为(N,C,D,H,W)，其中N表示数据样本的数量，C表示数据通道的数量，D、H、W分别表示数据在深度(depth)、高度(height)、宽度(width)方向上的尺寸。例如，在处理视频数据时，D表示视频的帧数，H和W表示每帧的高度和宽度。在输入数据之前，需要对数据进行预处理，例如裁剪、缩放、归一化等操作，以使其适合网络的输入。

本实施例中，3D卷积神经网络输出的格式是一个大小为(N,C)的张量，其中N表示数据样本的数量，C表示类别的数量。在训练过程中，模型的输出和真实标签之间的差异可以用交叉熵损失函数来衡量，并通过反向传播算法来更新网络的权重。

3D卷积神经网络的训练方法为：

S1、设定训练方式：

通过动量优化和自适应学习率优化训练模型：设置用于优化3D卷积神经网络的优化器，并设置优化器的学习率为0.001、动量为0.9，设置用于动态调整学习率的调度器，调度器的动态调整规则为：预先设定了变化阈值为0.001，当损失函数在10个迭代(即epoch)内的变化量超过变化阈值时，将学习率乘以0.1，其中，模型的训练函数为交叉熵损失函数。

本实施例中，交叉熵损失函数的计算公式为：

L(y,\hat{y})＝-\frac{1}{N}\sum_{i＝1}^{N}\sum_{j＝1}^{C}y_{i,j}log(\hat{y}_{i,j})

上式中，y_{i,j}表示第i个样本的真实标签，C表示类别数，\hat{y}_{i,j}表示模型对第i个样本属于第j类的预测概率，N表示样本总数。

对于每个样本，交叉熵损失函数计算该样本预测结果与真实标签之间的差距，并将所有样本的差距取平均作为最终的损失值。由于log(\hat{y}_{i,j})的取值范围是[-\infty,0]，因此L(y,\hat{y})的取值范围也是[-\infty,0]。

本实施例中，图像特征包括：空间特征(例如动物的位置、运动轨迹、方向等)、外观特征(例如颜色、纹理、形状等)、行为特征(例如站立、行走、奔跑、攀爬等行为特征)、动物与环境的交互特征(例如动物与其他物体或其他动物的互动关系，如抓取、扑飞等)。

本实施例中，优化器为PyTorch中的optim.SGD优化器，调度器为optim.lr_scheduler.ReduceLROnPlateau调度器。

本实施例中，3D卷积神经网络的识别率报告如图4所示。

深度学习分类模型的核心代码如下所示。

/>

Claims

1.基于深度学习目标检测和图像分类的动物行为识别方法，其特征在于，包括以下步骤：

S2、通过深度学习目标检测算法检测视频/图像数据中的目标物体，根据检测结果提取目标物体的图像特征，所述图像特征为：图像的特征向量、目标物体的描述性文字信息；

2.如权利要求1所述的基于深度学习目标检测和图像分类的动物行为识别方法，其特征在于，所述步骤S1中，预处理包括以下内容：图像打框、视频帧的提取、视频帧归一化处理，所述图像打框为：手动标注图像中目标物体的位置信息。

3.如权利要求1所述的基于深度学习目标检测和图像分类的动物行为识别方法，其特征在于，所述步骤S2中，深度学习目标检测算法为单步多框目标检测算法，单步多框目标检测算法的输入为：待检测的图像/视频帧，输出为一个包含检测框、检测框内目标物体类别的列表。

4.如权利要求3所述的基于深度学习目标检测和图像分类的动物行为识别方法，其特征在于，所述单步多框目标检测算法的网络结构包括依次连通的：用于提取图像特征并生成特征图的特征提取网络、在所述特征图上执行多个边界框预测以检测图像中目标的目标检测网络，其中，每个特征图位置都会生成多个比例和大小的锚点，用于检测多种大小和形状的目标物体。

5.如权利要求3所述的基于深度学习目标检测和图像分类的动物行为识别方法，其特征在于，所述单步多框目标检测算法的损失函数包括分类损失和边界框回归损失。

6.如权利要求1所述的基于深度学习目标检测和图像分类的动物行为识别方法，其特征在于，所述通过深度学习目标检测算法检测视频/图像数据中的目标物体，包括以下内容：

7.如权利要求1所述的基于深度学习目标检测和图像分类的动物行为识别方法，其特征在于，所述步骤S3中的深度学习分类模型由3D卷积神经网络训练得到，深度学习分类模型的输入为三维数据张量，深度学习分类模型的输出为经过softmax激活函数激活的概率分布，即三维数据张量属于各个动物行为类别的概率。

8.如权利要求7所述的基于深度学习目标检测和图像分类的动物行为识别方法，其特征在于，所述3D卷积神经网络由依次电性连接的：数据预处理层、卷积层、池化层、扁平层、全连接层、输出层组成，其中，

所述数据预处理层用于将三维数据转换为4D张量，所述卷积层用于将4D张量转化为特征图，卷积层由依次电性连接的2D卷积层与3D卷积层组成，所述2D卷积层用于降低4D张量的维度同时在输出中添加时间维度，所述池化层用于减少卷积层输出特征图的维度和计算量，所述扁平层用于将所有特征图压缩为一维向量，所述全连接层用于对所述一维向量进行分类或回归。

9.如权利要求7所述的基于深度学习目标检测和图像分类的动物行为识别方法，其特征在于，所述3D卷积层由一系列的卷积核组成，每个所述卷积核在长度、宽度和通道数三个维度上进行卷积计算，并输出一个特征图，所述特征图通过激活函数进行激活。