CN112016527A

CN112016527A - 基于深度学习的大熊猫行为识别方法、系统、终端及介质

Info

Publication number: CN112016527A
Application number: CN202011116733.3A
Authority: CN
Inventors: 侯蓉; 陈鹏; 江伟建; 张志和; 潘贾尔·史瓦卢普; 吴永胜
Original assignee: CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING
Current assignee: CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2020-12-01
Anticipated expiration: 2040-10-19
Also published as: CN112016527B

Abstract

本发明公开了一种基于深度学习的大熊猫行为识别方法，包括：获取大熊猫的日常活动图像；将所述大熊猫的日常活动图像输入到目标检测网络中进行目标检测，得到以输出边界框划出的大熊猫面部及熊猫身体；提取出检测到的大熊猫面部区域图像和大熊猫身体区域图像；对大熊猫面部区域图像和大熊猫身体区域图像进行归一化；使用神经网络将归一化后的图像进行特征分析，学习不同行为；输出大熊猫面部动作和身体行为的分类结果。该方法基于大熊猫日常活动图像，可以准确判断大熊猫休息、坐、行、攀爬和进食的行为以及判断大熊猫眼睛和嘴部睁开或闭上状态，具有远距离、非入侵、智能、低成本地观察跟踪大熊猫行为等优点。

Description

基于深度学习的大熊猫行为识别方法、系统、终端及介质

技术领域

本发明涉及计算机软件技术领域，具体涉及一种基于深度学习的大熊猫行为识别方法、系统、终端及介质。

背景技术

大熊猫（熊猫）作为标志性濒危物种，在过去几十年中受到极大关注。相应地，熊猫保护工作也开展得如火如荼。为了保护野生大熊猫，扩大了大熊猫栖息地的占地面积，搭建了将分散的大熊猫栖息地连接起来的绿色走廊带，开展防盗猎和非法砍伐的巡逻工作，同时增强当地的自然保护区管理能力。上述属于相对被动的措施。另一方面我们也采取了主动措施，将人工培育的大熊猫放归野外，以增加野生大熊猫的数量。圈养大熊猫对熊猫保护工作起着非常重要的作用。目前全世界共有600只圈养大熊猫。了解大熊猫的行为，对它们的身体健康和成功繁殖至关重要。

熊猫虽然属于食肉动物，但实际上几乎只吃竹子。它们需要花费大量时间来进食，平均每天的进食时间超过12个小时。除进食外，熊猫全天大部分时间都处于休息状态；因此它们每日的能量消耗异常低。但是，有些大熊猫比其他同类更为活跃。它们行走和攀爬的频率要高于其他熊猫。同人类一样，对大熊猫而言休息、运动和饮食也是保持健康的重要因素。因此，准确记录大熊猫的行为，将有助于它们的健康状况管理，以及检测由于其健康状况发生变化而引发的异常行为。除了健康状况外，大熊猫的行为作为其个性反映，也是与其成功繁殖和识别理想交配对象息息相关的一个重要因素。雄性比其雌性伴侣更具攻击性的组合的交配及繁殖成功率高于雌性比雄性伴侣更具攻击性的组合。在他们的研究中，使用了从熊猫饲养者的反馈信息中采集的主观评分来对熊猫的个性进行分类。圈养熊猫的行为除了与健康和繁殖相关，还可能会影响它们放归野外环境后的生存情况。一些科学家对熊猫行为的季节性变化感兴趣。尽管熊猫的行为对其保护工作至关重要，但目前尚无对它们的行为进行长时间有效监测的方法。目前，生态学家对熊猫行为的研究，仍然以观察和饲养员给出的主观反馈为基础进行分析。饲养员与大熊猫的互动较多，但他们无法保证一天24小时对其进行观察并准确记录，熊猫行为是其健康状况和其他保护行动的重要指标之一，因此有必要提出对熊猫的行为进行自动识别的方法。

发明内容

针对现有技术中的缺陷，本发明实施例提供一种基于深度学习的大熊猫行为识别方法、系统、终端及介质，能根据大熊猫的日常活动图像自动识别出大熊猫的行为，行为识别结果准确度高。

第一方面，本发明实施例提供的一种基于深度学习的大熊猫行为识别方法，包括：

获取大熊猫的日常活动图像；

将所述大熊猫的日常活动图像输入到目标检测网络中进行目标检测，得到以输出边界框划出的大熊猫面部及熊猫身体；

提取出检测到的大熊猫面部区域图像和大熊猫身体区域图像；

对大熊猫面部区域图像和大熊猫身体区域图像进行归一化，得到归一化后的图像；

使用神经网络将归一化后的图像输入行为分类网络中进行特征分析，学习不同行为并分类；

输出大熊猫面部动作和身体行为的分类结果。

第二方面，本发明实施例提供的一种基于深度学习的大熊猫行为识别系统，图像获取模块、目标检测模块、图像提取模块、归一化处理模块、行为分类模块和结果输出模块，其中，

所述图像获取模块用于获取大熊猫的日常活动图像；

所述目标检测模块用于将大熊猫的日常活动图像输入到目标检测网络中进行目标检测，得到以输出边界框划出的大熊猫面部及熊猫身体；

所述图像提取模块用于提取出检测到的大熊猫面部区域图像和大熊猫身体区域图像；

所述归一化处理模块用于对大熊猫面部区域图像和大熊猫身体区域图像进行归一化，得到归一化后的图像；

行为分类模块用于使用神经网络将归一化后的图像进行特征分析，学习不同行为并分类；

所述结果输出模块用于输出大熊猫面部动作和身体行为的分类结果。

第三方面，本发明实施例还提供一种智能终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，其特征在于，所述处理器被配置用于调用所述程序指令，执行上述实施例描述的方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。

本发明的有益效果：

本发明实施例提供的一种基于深度学习的大熊猫行为识别方法，通过对大熊猫日常活动图像进行识别，具有远距离、非入侵、智能、低成本地观察跟踪大熊猫行为等优点。可以准确判断大熊猫休息、坐、行、攀爬和进食的行为，也可以准确判断大熊猫眼睛和嘴部睁开或闭上状态，在休息、坐、行、攀爬和进食五个行为方面的平均准确度为90％，在两种细微面部动作（即眼睛和嘴部睁开或闭上）方面的平均准确达到了84％。该方法还可以用于检测大熊猫的行为。

本发明实施例提供的一种基于深度学习的大熊猫行为识别系统，通过对大熊猫日常活动图像进行识别，具有远距离、非入侵、智能、低成本地观察跟踪大熊猫行为等优点。可以准确判断大熊猫休息、坐、行、攀爬和进食的行为，也可以准确判断大熊猫眼睛和嘴部睁开或闭上状态，在休息、坐、行、攀爬和进食五个行为方面的平均准确度为90％，在两种细微面部动作（即眼睛和嘴部睁开或闭上）方面的平均准确达到了84％，还可以用于检测大熊猫的行为。

本发明实施例提供一种智能终端和介质，与上述一种基于深度学习的大熊猫行为识别方法出于相同的发明构思，具有相同的有益效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明第一实施例所提供的一种基于深度学习的大熊猫行为识别方法的流程图；

图2示出了本发明第一实施例提供的一种基于深度学习的大熊猫行为识别方法示意图；

图3示出了本发明第一实施例提供的基于深度学习的大熊猫行为识别方法中的神经网络层；

图4示出了本发明第一实施例提供的基于深度学习的大熊猫行为识别方法对大熊猫的五种主要行为进行分类的网络；

图5示出了本发明第一实施例提供的基于深度学习的大熊猫行为识别方法对大熊猫的细微面部动作进行分类的网络；

图6示出了本发明第二实施例所提供的一种基于深度学习的大熊猫行为识别系统的结构框图；

图7示出了本发明第三实施例所提供的一种智能终端的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为 “当... 时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

在本申请中，建立了大型数据集，数据采集过程中，对成像环境和大熊猫几乎没有施加任何控制，也无需采用穿戴式传感器，采集的图像涉及多种视角和照明环境，大熊猫的姿势自然。将大熊猫的主要行为分为行、坐、休息、攀爬和进食五大行为类别，大熊猫的细微面部动作包括眼睛和嘴部处于张开还是闭合的状态。采用摄像机或相机从不同视角和远距离拍摄熊猫的日常活动，例如：吃竹、行走、攀爬和躺卧，收集了10804张大熊猫图像，大部分图像的像素在1024 x 678到1920 x 1080之间。4名标注人员使用VIA标注软件，对图像进行手动标注。他们使用行为标签对大熊猫全身进行标注，并使用两个二值标签标注大熊猫面部睁眼/闭眼和张嘴/闭嘴状态。此外，还使用边界框定位大熊猫的全身及其面部。

如图1所示，示出了本发明第一实施例所提供的一种基于深度学习的大熊猫行为识别方法的流程图，该方法包括以下步骤：

S1:获取大熊猫的日常活动图像；

S2:将所述大熊猫的日常活动图像输入到目标检测网络中进行目标检测，得到以输出边界框划出的大熊猫面部及熊猫身体；

S3:提取出检测到的大熊猫面部区域图像和大熊猫身体区域图像；

S4:对大熊猫面部区域图像和大熊猫身体区域图像进行归一化，得到归一化后的图像；

S5:使用神经网络将归一化后的图像进行特征分析，学习不同行为并分类；

S6:输出大熊猫面部动作和身体行为的分类结果。

如图2所示，示出了本实施例大熊猫的行为分类识别方法的示意图，首先，将目标检测网络应用于大熊猫日常活动的原始输入图像以检测出由输出边界框划出的大熊猫的面部图像和大熊猫身体区域图像，然后，提取检测到的大熊猫身体区域和面部区域，对其进行归一化处理，最后将归一化处理后得到的图像输入到两个行为分类网络中进行特征分析，对大熊猫的五种主要行为和两种细微面部动作进行分类。在本实施例中，目标检测网络采用Faster R-CNN网络模型，该模型是一种先进的通用目标检测框架，包括一个特征提取网络、区域候选网络（RPN）、ROI（感兴趣区域）池化层和用于预测包围框类别及精调坐标的全连接层。

在本实施例中，将所述日常活动图像输入到目标检测网络中进行目标检测，得到以输出边界框划出的大熊猫面部及大熊猫身体的具体方法包括：

计算大熊猫日常活动图像的卷积特征图；

从卷积特征图中利用特征提取网络模型提取出与候选的感兴趣区域相对应的特征，并将相对应的特征依次输入感兴趣区域的池化层和全连接层，计算感兴趣区域的特征向量；

使用所述特征向量对感兴趣区域中的对象分类，并通过各自的子网对边界框坐标进行回归。

本实施例采用ResNet-50模型作为特征提取网络模型，为了提取多尺度的特征以适应小目标的检测，将残差网络模型的Layer1到Layer4的特征图，构建自下而上的4层FPN（特征金字塔网络），对每层提取的特征图进行不同程度的降采样以使特征图大小相同，将所有的特征图相加得到新的特征图，将新的特征图输入RPN模型中，结果经过ROI池化分别送入全连接层进行分类和坐标回归任务。该模型在COCO2017数据集（公开的大规模通用目标检测数据集）上进行了预训练，随后在本研究采集的大熊猫行为识别数据集上进行了微调以检测熊猫的面部和全身。

在本实施例中，使用神经网络将归一化后的图像进行特征分析，学习不同行为并分类。如图3所示，神经网络采用在ImageNet数据集上预训练的ResNet-50模型，保留了残差网络模型的4个卷积层，4个卷积层进行预训练权重，将其余层丢弃，然后，对于每种行为或细微面部动作，在网残差网络模型的卷积层后增加了二个卷积块和一个全连接层，卷积块由一个核大小为3的卷积层、批量归一化层和激活函数组成。就是对每种行为和细微面部动作都新增加一层。为了对大熊猫主要行为分类，全连接层有五对输出节点；此外为了对细微面部动作进行分类，全连接层有与眼睛和嘴部动作相对应的两对输出节点。此时，大熊猫可能同时出现两类主要行为，例如：坐着进食包含了坐和进食两个行为。图4展示了用于对大熊猫的五种主要行为进行分类的网络，图5示出了对大熊猫的两种细微面部动作进行分类的网络。每种行为或细微面部动作的交叉熵损失之和，被用作训练网络的目标函数。在训练过程中，将来自目标检测网络的经裁剪及调整大小后的熊猫面部图像和身体图像输入到这两个网络，并且仅训练新增网络层的权重，而其余层则被冻结。

本实施例提供的基于深度学习的大熊猫行为识别方法还包括对神经网络进行训练，对神经网络训练时包括对训练图像的处理，具体包括：

对提取出检测到的大熊猫面部区域图像和大熊猫身体区域图像进行剪裁，保持宽高比不变的情况下，将图像的长边调整为224像素，对图像的其余像素采用零填充；

根据大熊猫身体行为属性创建五个肯定标注列表和五个否定标注列表，并针对大熊猫面部动作属性创建两个肯定标注列表和两个否定标注列表；

从每个属性的肯定标注列表和否定标注列表中随机抽取图像进行训练。

本实施例中训练Faster R-CNN时使用了随机镜像数据增强；训练行为分类网络时，将在±15度范围内的随机旋转和15像素范围内的任意水平和垂直平移用作数据增强。行为分类网络的输入图像大小为224*224像素，在行为分类网络训练中，图像在亮度、对比度、RGB通道和锐度上的随机变化高达15%。首先裁剪由Faster R-CNN检测到的熊猫身体图像和面部图像，然后在保持宽高比不变的情况下，将其长边调整为224像素。对其余像素应用零填充。由于对于每个属性（即熊猫的身体行为或面部细微动作），正样本远少于负样本，从而产生了数据不平衡的问题。为了解决这一问题，针对熊猫身体行为创建了五个肯定标注列表和五个否定标注列表，并针对熊猫面部动作创建了两个肯定标注列表和两个否定标注列表。从每个属性的肯定标注列表和否定标注列表中随机抽取训练图像。每次采样，从肯定标注列表选取一张图片，并从相关属性的否定标注列表选取一张图片，这样缓解了数据不平衡的问题，并改善结果。

训练集、验证集和测试集分别包含9579、725和500张图像。由于数据集是随机生成的，因此具有特定行为的三组图像的数量也是随机的。为了减少训练集和测试集中存在相似图像或相同大熊猫的几率，针对数据集中图像少于26张的熊猫，抽取了2136张图像以形成测试集和验证集，并将其余8668张图像添加到训练集中。从2136张图像中随机抽取725张图像以形成测试集，再随机抽取500张图像以形成验证集；并将其余911张未采样图像添加到训练集中以形成9579张（8668 + 911）图像的训练集。将具有相同分布的训练、测试和验证数据生成5次用于评价。针对不同的训练集、验证集和测试集，对网络进行了五次检查后，给出了每种准确性的平均值和标准偏差。对于熊猫面部和熊猫身体检测，使用70％的IOU（联合交叉点）阈值来确定真实边界框和预测边界框之间的重叠是否有效。如果检测到的边界框超过IoU阈值，则认为检测正确。采用本实施例中的目标检测网络识别熊猫全身的准确性达到100％，识别熊猫面部的准确性达到99.8％。表1列出了采用本实施例所描述的方法进行大熊猫行为分类识别结果，同时给出了二者的均值和标准偏差。在休息、坐、行、攀爬和进食五个行为方面的平均准确度为90％，在两种细微面部动作（即眼睛和嘴部睁开或闭上）方面的平均准确达到了84％。由于该方法可以可靠地检测熊猫身体及其脸部，因此该信息还可以用于监视熊猫交互。

表1 行为分类识别结果表

	平均准确度（%）	标准偏差（%）
			熊猫面部	84	1.3
熊猫身体	90	0.8
			眼睛睁开或闭着	88	1.4
嘴部张开或闭着	79	1.8
			休息	93	0.7
坐着	84	1.3
			行走	91	1.1
攀爬	95	0.7
			进食	86	1.2

本实施例提供的基于深度学习的大熊猫行为识别方法，通过对大熊猫日常活动图像进行识别，可以准确判断大熊猫休息、坐、行、攀爬和进食的行为，也可以准确判断大熊猫眼睛和嘴部睁开或闭上状态，在休息、坐、行、攀爬和进食五个行为方面的平均准确度为90％，在两种细微面部动作（即眼睛和嘴部睁开或闭上）方面的平均准确达到了84％。

如图6所示，示出了本发明另一实施例提供的一种基于深度学习的大熊猫行为识别系统的结构框图，该系统包括：图像获取模块、目标检测模块、图像提取模块、归一化处理模块、行为分类模块和结果输出模块，其中，

所述图像获取模块用于获取大熊猫的日常活动图像；

所述行为分类模块用于使用神经网络将归一化后的图像进行特征分析，学习不同行为并分类；

该系统通过目标检测模块对大熊猫日常活动的原始输入图像进行目标检测，以检测出由输出边界框划出的大熊猫的面部图像和大熊猫身体区域图像，然后，提取检测到的大熊猫身体区域和面部区域，对其进行归一化处理，最后将归一化处理后得到的图像输入到两个行为分类网络中进行特征分析，对大熊猫的五种主要行为和两种细微面部动作进行分类。在本实施例中，目标检测网络采用Faster R-CNN网络模型，该模型是一种先进的通用目标检测框架，包括一个特征提取网络、区域候选网络（RPN）、ROI（感兴趣区域）池化层和用于预测包围框类别及精调坐标的全连接层。

在本实施例中，目标检测模块进行目标检测的具体方法包括：

计算大熊猫日常活动图像的卷积特征图；

在本实施例中，目标检测网络采用Faster R-CNN网络模型，该模型是一种先进的通用目标检测框架，包括一个特征提取网络、区域候选网络（RPN）、ROI（感兴趣区域）池化层和用于预测包围框类别及精调坐标的全连接层。本实施例采用ResNet-50模型作为特征提取网络模型，为了提取多尺度的特征以适应小目标的检测，将残差网络模型的Layer1到Layer4的特征图，构建自下而上的4层FPN（特征金字塔网络），对每层提取的特征图进行不同程度的降采样以使特征图大小相同，将所有的特征图相加得到新的特征图，将新的特征图输入RPN模型中，结果经过ROI池化分别送入全连接层进行分类和坐标回归任务。该模型在COCO2017数据集（公开的大规模通用目标检测数据集）上进行了预训练，随后在本研究采集的大熊猫行为识别数据集上进行了微调以检测熊猫的面部和全身。

神经网络采用在ImageNet数据集上预训练的ResNet-50模型，保留了残差网络模型的4个卷积层，4个卷积层进行预训练权重，将其余层丢弃，然后，对于每种行为或细微面部动作，在网残差网络模型的卷积层后增加了二个卷积块和一个全连接层，卷积块由一个核大小为3的卷积层、批量归一化层和激活函数组成。就是对每种行为和细微面部动作都新增加一层。为了对大熊猫主要行为分类，全连接层有五对输出节点；此外为了对细微面部动作进行分类，全连接层有与眼睛和嘴部动作相对应的两对输出节点。

在本实施例中，该系统还包括网络训练图像处理模块，所述网络训练图像处理模块对提取出检测到的大熊猫面部区域图像和大熊猫身体区域图像进行剪裁，保持宽高比不变的情况下，将图像的长边调整为224像素，对图像的其余像素采用零填充；

以上，为本发明第二实施例提供的一种基于深度学习的大熊猫行为识别系统的实施例说明。

本发明提供的一种基于深度学习的大熊猫行为识别系统与上述基于深度学习的大熊猫行为识别方法出于相同的发明构思，具有相同的有益效果，此处不再赘述。

如图7所示，示出了本发明另一实施提供的一种智能终端的结构框图，该终端包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述实施例描述的方法。

应当理解，在本发明实施例中，所称处理器可以是中央处理单元 (CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器 (DigitalSignal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备可以包括触控板、指纹采传感器（用于采集用户的指纹信息和指纹的方向信息）、麦克风等，输出设备可以包括显示器（LCD等）、扬声器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器、输入设备、输出设备可执行本发明实施例提供的方法实施例所描述的实现方式，也可执行本发明实施例所描述的系统实施例的实现方式，在此不再赘述。

在本发明还提供一种计算机可读存储介质的实施例，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。

所述计算机可读存储介质可以是前述实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（SecureDigital, SD）卡，闪存卡（Flash Card）等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于深度学习的大熊猫行为识别方法，其特征在于，包括：

获取大熊猫的日常活动图像；

使用神经网络将归一化后的图像进行特征分析，学习不同行为并分类；

输出大熊猫面部动作和身体行为的分类结果。

2.如权利要求1所述的方法，其特征在于，所述将日常活动图像输入到目标检测网络中进行目标检测，得到以输出边界框划出的大熊猫面部及大熊猫身体的具体方法包括：

计算大熊猫日常活动图像的卷积特征图；

3.如权利要求1所述的方法，其特征在于，所述神经网络采用在ImageNet数据集上预训练的ResNet-50模型，保留了残差网络模型的4个卷积层，在网残差网络模型的卷积层后增加了二个卷积块和一个全连接层，所述卷积块由一个核大小为3的卷积层、批量归一化层和激活函数组成。

4.如权利要求3所述的方法，其特征在于，所述方法还包括对神经网络进行训练，对神经网络训练时包括对训练图像的处理，具体包括：

5.一种基于深度学习的大熊猫行为识别系统，其特征在于，图像获取模块、目标检测模块、图像提取模块、归一化处理模块、行为分类模块和结果输出模块，其中，

所述图像获取模块用于获取大熊猫的日常活动图像；

6.如权利要求5所述的系统，其特征在于，所述目标检测模块进行目标检测的具体方法包括：

计算大熊猫日常活动图像的卷积特征图；

7.如权利要求5所述的系统，其特征在于，所述神经网络采用在ImageNet数据集上预训练的ResNet-50模型，保留了残差网络模型的4个卷积层，在网残差网络模型的卷积层后增加了二个卷积块和一个全连接层，所述卷积块由一个核大小为3的卷积层、批量归一化层和激活函数组成。

8.如权利要求7所述的系统，其特征在于，还包括网络训练图像处理模块，所述网络训练图像处理模块对提取出检测到的大熊猫面部区域图像和大熊猫身体区域图像进行剪裁，保持宽高比不变的情况下，将图像的长边调整为224像素，对图像的其余像素采用零填充；

9.一种智能终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，其特征在于，所述处理器被配置用于调用所述程序指令，执行如权利要求1-4任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-4任一项所述的方法。