CN110781866A

CN110781866A - 基于深度学习的大熊猫脸部图像性别识别方法及装置

Info

Publication number: CN110781866A
Application number: CN201911086012.XA
Authority: CN
Inventors: 张志和; 苏菡; 汪鸿年; 陈鹏; 谢维奕; 齐敦武; 王海琨; 侯蓉
Original assignee: CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING; Sichuan Normal University
Current assignee: CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING; Sichuan Normal University
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-02-11

Abstract

本发明实施例公开了一种基于深度学习的大熊猫脸部图像性别识别方法及装置，方法包括：获取待处理的大熊猫脸部图像；按大熊猫个体对待处理的大熊猫脸部图像进行数据集划分，以得到训练集和测试集；对测试图像进行数据增强及预处理，以得到处理结果；基于深度学习的性别识别模型，对处理结果进行识别，以得到大熊猫的性别识别结果。本发明实施例按大熊猫个体对待处理的大熊猫脸部图像进行数据集划分，合理地选择了数据增强手段和基础模型，能有效的提取具有判别大熊猫性别的针对性特征，通过归一化处理增强了特征的稳定性，为目前大熊猫性别识别这个难题提供了一个新的思路。

Description

基于深度学习的大熊猫脸部图像性别识别方法及装置

技术领域

本发明涉及图像分析技术领域，具体涉及一种基于深度学习的大熊猫脸部图像性别识别方法、装置及存储介质。

背景技术

大熊猫(Ailuropoda melanoleuca)是国际野生动物保护的旗舰物种。我国长期致力于通过大熊猫野外种群调查开展有效的大熊猫及其伴生珍稀濒危野生动物保护，先后四次组织专业的大熊猫科学调查。

但是野外大熊猫的种群结构的研究依然存在大量的瓶颈工作需要突破，其中尤其体现在野外大熊猫的性别比例难以厘清。全国大熊猫第四次调查数据统计表明，全国野生大熊猫现今仅分布于岷山、邛崃、大相岭、小相岭、凉山、秦岭等六个山系中，被分割成33个孤立小种群，其中一些种群濒临灭绝。判断一个野生种群是否健康，了解大熊猫种群的性别比例至关重要，从而为指定科学的保护管理策略乃至种群复壮管理提供重要的科学指导。

但大熊猫没有明显的性别二态性，所以很难依靠人眼确定大熊猫的性别，甚至一线饲养员也难以分别。

随着大数据的产生和人工智能技术的发展，卷积神经网络能学习到人眼所观察到的高维特征，被广泛应用于图像分析技术领域。但对动物脸部图像的识别还较少。

发明内容

本发明实施例的目的在于提供一种基于深度学习的大熊猫脸部图像性别识别方法、装置及存储介质，利用图像分析技术对野外抓拍到的大熊猫的性别进行辅助判别，进而推动大熊猫的种群管理发展。

为实现上述目的，第一方面，本发明实施例提供了一种基于深度学习的大熊猫脸部图像性别识别方法，包括：

获取待处理的大熊猫脸部图像；

按大熊猫个体对待处理的大熊猫脸部图像进行数据集划分，以得到训练集和测试集，所述测试集包括多张测试图像；

对所述测试图像进行数据增强及预处理，以得到处理结果；

基于深度学习的性别识别模型，对所述处理结果进行识别，以得到大熊猫的性别识别结果。

作为本申请一种优选的实施方式，所述训练集包括多张训练图像，所述方法还包括：

根据所述多张训练图像构建基于深度学习的性别识别模型。

作为本申请一种具体的实施方式，根据所述多张训练图像构建基于深度学习的性别识别模型，具体包括：

根据所述训练集训练一组模型的参数；

将所述参数输入卷积基础网络，以得到所述性别识别模型；其中，所述卷积基础网络为ResNet-18，采用ImageNet预训练权重初始化，同时移除最后的全连接层，增加归一化层和输出层。

作为本申请一种具体的实施方式，获取待处理的大熊猫脸部图像具体包括：

获取多张大熊猫图像；

对所述大熊猫图像进行人工标注，以得到标注方框，并将所述标注方框确定为临时感兴趣区域，所述临时感兴趣区域包括大熊猫脸部；

记录所述标注方框左上角的坐标x和y，以及所述标注方框的宽w和高h；

计算所述临时感兴趣区域的中心点坐标值和

比较宽w和高h，将其中的最大值记录为a；

以所述临时感兴趣区域的中心点为中心，a为边长，剪裁得到一新的正方形感兴趣区域；

将所述正方形感兴趣区域的内容转化成图像，并缩放至预设大小，以得到所述待处理的大熊猫脸部图像。

作为本申请一种具体的实施方式，对所述测试图像进行数据增强及预处理，以得到处理结果，具体包括：

随机对所述待处理的大熊猫人脸图像进行剪裁，以得到高H×宽W大小的剪裁图像；

对所述剪裁图像进行水平镜像处理；

对所述剪裁图像进行旋转处理，其中残缺部分用黑色填充；

随机用黑色像素填充所述剪裁图像中随机一小块部分；

随机将所述剪裁图像沿水平、垂直方向进行移动，其中残缺部分用黑色填充；

随机对所述剪裁图像进行加噪处理；

按照ImageNet数据集的均值和方差，对所述剪裁图像进行归一化处理。

作为本申请一种具体的实施方式，所述性别识别方法具体包括：

采用所述基础卷积网络对所述处理结果进行高层特征提取，经归一化处理后得到最终的高层特征作为输出结果。

第二方面，本发明实施例提供了一种基于深度学习的大熊猫脸部图像性别识别装置，包括：

获取模块，用于获取待处理的大熊猫脸部图像；

划分模块，用于按大熊猫个体对待处理的大熊猫脸部图像进行数据集划分，以得到训练集和测试集，所述测试集包括多张测试图像；

处理模块，用于对所述测试图像进行数据增强及预处理，以得到处理结果；

识别模块，用于基于深度学习的性别识别模型，对所述处理结果进行识别，以得到大熊猫的性别识别结果。

进一步地，所述训练集包括多张训练图像，所述性别识别装置还包括：

构建模块，用于根据所述多张训练图像构建基于深度学习的性别识别模型。

第三方面，本发明实施例提供了另一种基于人脸识别的渠道风险控制装置，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其内存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

实施本发明实施例，利用图像分析技术对野外抓拍到的大熊猫的性别进行辅助判别，进而推动了大熊猫的种群管理发展。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明第一实施例提供的基于深度学习的大熊猫脸部图像性别识别方法的流程示意图；

图2是本发明方法输入的熊猫脸部图像例子；

图3是本发明验证实验验证结果的ROC曲线；

图4是可视化判别区域结果的例子；

图5是本发明第一实施例提供的基于深度学习的大熊猫脸部图像性别识别装置的结构示意图；

图6是本发明第二实施例提供的基于深度学习的大熊猫脸部图像性别识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

请参考图1，本发明实施例提供的基于深度学习的大熊猫脸部图像性别识别方法，可以包括以下步骤：

S101，获取多张大熊猫图像。

本实施例中，可通过摄像头抓拍多张大熊猫图像。

S102，人工标注，得到多张待处理的大熊猫脸部图像。

具体地，人工从大熊猫图像中剪裁出大熊猫面部区域，将剪裁出的区域归一化成统一尺寸的图像，具体步骤如下：

(1)对大熊猫图像进行人工标注，以得到标注方框，并将标注方框确定为临时感兴趣区域，记录标注方框左上角的坐标x和y，以及标注方框的宽w和高h；该临时感兴趣区域包括大熊猫脸部，标注方框不受长宽比例限制，只需要将大熊猫脸部包含在内即可；此阶段可以有效避免背景对模型的干扰，以及各种相机拍摄的分辨率不同所造成的问题；

(2)计算临时感兴趣区域的中心点坐标值和

并比较宽w和高h，将其中的最大值记录为a；

(3)以所述临时感兴趣区域的中心点为中心，a为边长，剪裁得到一新的正方形感兴趣区域；

(4)将所述正方形感兴趣区域的内容转化成图像，并缩放至预设大小，以得到所述待处理的大熊猫脸部图像。

一般图像分类模型采用224×224或299×299尺寸大小的图像作为输入。本专利申请采用512×512，因为本数据分辨率较大，且尺寸较大的输入图像所包含的特征更为具体，有利于对图像的细节进行建模。

S103，按大熊猫个体对待处理的大熊猫脸部图像进行数据集划分，以得到训练集和测试集。

其中，训练集中包括多张训练图像，测试集中包括多张测试图像。

本申请实施例的目的是学习图像的性别特征，为了避免个体特征包含在训练数据中，降低数据相关性，本实施例中依据大熊猫个体进行数据集划分，具体方法如下：

首先根据每只个体所包含的图像张数对整个大熊猫个体数据进行降序排序，然后从队列头部开始，将2只大熊猫的所有图像放入训练集，下1只大熊猫的所有图像放入测试集，最后再将2只大熊猫的所有图像放入训练集。对接下来的5只大熊猫重复以上操作直至队列为空。这种操作保证同一只大熊猫的图片仅存在于训练集或测试集中，没有交叉，并且大熊猫个体数以及其图像张数的比例约为8:2，符合传统机器学习数据划分习惯，实验结果具有说服性。

需要说明的是，本实施例中是按照个体划分的数据集，就是A熊猫的所有图片只会存在训练集或测试集其中一个，这样的好处是保证仅学习性别的信息：假设如果A熊猫70％图片在训练集，30％在测试集，那么最后模型学出来可能是A熊猫别的信息，比如个体信息。

本实施例中，实验选取121只母兽，97只公兽，其中97只母兽和78只公兽共计5171张图片作为训练集，剩余24只母兽和19只公兽共计1270张图片作为测试集。

S104，根据多张训练图像构建基于深度学习的性别识别模型。

具体地，本实施例中的性别识别模型由ResNet-18作为基础网络，采用ImageNet预训练权重初始化，同时移除最后的全连接层，增加归一化层输出层。

使用收集好的训练集训练处一组模型的参数，将参数输入卷积基础网络，以得到所述性别识别模型。需要说明的是，为防止过拟合，训练时，采用微调的方式，前两个残差单元不进行反向传播更新权重，同一只大熊猫的图片仅存在于一个数据集中，不能有交叉。

S105，对测试图像进行数据增强及预处理，以得到处理结果。

假设J(x,y)为处理后的图像，I(x,y)为处理前的图像；步骤S105具体包括：

(1)随机对测试图像进行剪裁成高H×宽W大小，本实施例中采用448×448；

■X_temp←random(448,512)

■Y_temp←random(448,512)

■X＝X_temp-448

■Y＝Y_temp-448

■J(x,y)＝I_crop(X,Y,448,448)

(2)对剪裁后的图像以0.5的概率进行水平镜像

■

(3)对剪裁后的图像以P＝0.5的概率随机沿水平、垂直方向移动一小步范围，本实施例采用[-10,10]范围个像素，残缺部分用黑色填充

■w_temp←random(-10,10)

■h_temp←random(-10,10)

■

(4)对剪裁后的图像随机进行缩放，本实施例采用原图像[0.9,1]比例范围

■α←random(0.9,1)

■β←random(0.9,1)

■

(5)本实施中采用随机旋转对数据进行增强，能有效减少因脸部角度对识别产生的错误，本实施例中采用[-25,25]范围的角度，残缺部分用黑色填充

■θ←random(-25,25)

■

(6)为增强模型鲁棒性，随机给图像加高斯、斑点噪声等

(7)按照ImageNet数据集的均值和方差，对输入图像三个通道进行归一化

图2为经以上步骤处理后的熊猫脸部图像例子。

S106，基于深度学习的性别识别模型对处理结果进行识别，以得到大熊猫的性别识别结果。

具体地，采用所述基础卷积网络对所述处理结果进行高层特征提取，经归一化处理后得到最终的高层特征作为输出结果。

需要说明的是，步骤S106中，采用残差网络18(ResNet-18)作为基础网络，采用一维批归一化层(batch norm)和L2归一化作为归一化处理，采用softmax输出结果，采用带动量的随机梯度下降作为优化算法，采用交叉熵作为损失函数.

参考图3所示的验证结果ROC曲线，其平均AUC面积为0.84，识别准确率为77.2％；进一步地，结合图4，可以看到识别模型在判别大熊猫性别任务上，哪部分区域更为重要。

实施本发明实施例，利用图像分析技术对野外抓拍到的大熊猫的性别进行辅助判别，进而推动了大熊猫的种群管理发展。进一步地，本发明实施例合理地选择了数据增强手段和基础模型，能有效的提取具有判别大熊猫性别的高层特征，通过归一化处理增强了高层特征的稳定性，为目前大熊猫性别识别这个难题提供了一个新的思路。

基于相同的发明构思，本发明实施例还提供了一种基于深度学习的大熊猫脸部图像性别识别装置。如图5所示，该装置包括：

获取模块10，用于获取待处理的大熊猫脸部图像；

划分模块20，用于按大熊猫个体对待处理的大熊猫脸部图像进行数据集划分，以得到训练集和测试集，所述测试集包括多张测试图像；

处理模块30，用于对所述测试图像进行数据增强及预处理，以得到处理结果；

识别模块40，用于基于深度学习的性别识别模型，对所述处理结果进行识别，以得到大熊猫的性别识别结果。

进一步地，该装置还包括：

构建模块50，用于根据所述多张训练图像构建基于深度学习的性别识别模型。

其中，构建模块50具体用于：

根据所述训练集训练一组模型的参数；

获取模块10具体用于：

获取多张大熊猫图像；

计算所述临时感兴趣区域的中心点坐标值

和

比较宽w和高h，将其中的最大值记录为a；

处理模块20具体用于：

随机对所述测试图像进行剪裁，以得到高H×宽W大小的剪裁图像；

对所述剪裁图像进行水平镜像处理；

对所述剪裁图像进行旋转处理，其中残缺部分用黑色填充；

随机用黑色像素填充所述剪裁图像中随机一小块部分；

随机对所述剪裁图像进行加噪处理；

可选地，在本发明的另一实施例中，如图6所示，基于深度学习的大熊猫脸部图像性别识别装置，可以包括：一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104，上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序，所述计算机程序包括程序指令，所述处理器101被配置用于调用所述程序指令执行上述方法实施例部分的方法。

应当理解，在本发明实施例中，所称处理器101可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备102可以包括键盘等，输出设备103可以包括显示器(LCD等)、扬声器等。

该存储器104可以包括只读存储器和随机存取存储器，并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如，存储器104还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的基于深度学习的大熊猫脸部图像性别识别方法的实施例中所描述的实现方式，在此不再赘述。

需要说明的是，本发明实施例装置的具体工作流程，请参考前述方法实施例部分，在此不再赘述。

相应地，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现：上述基于深度学习的大熊猫脸部图像性别识别方法。

所述计算机可读存储介质可以是前述任一实施例所述的系统的内部存储单元，例如系统的硬盘或内存。所述计算机可读存储介质也可以是所述系统的外部存储设备，例如所述系统上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述系统的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述系统所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于深度学习的大熊猫脸部图像性别识别方法，其特征在于，包括：

获取待处理的大熊猫脸部图像；

对所述测试图像进行数据增强及预处理，以得到处理结果；

2.如权利要求1所述的性别识别方法，其特征在于，所述训练集包括多张训练图像，所述方法还包括：

根据所述多张训练图像构建基于深度学习的性别识别模型。

3.如权利要求2所述的性别识别方法，其特征在于，根据所述多张训练图像构建基于深度学习的性别识别模型，具体包括：

根据所述训练集训练一组模型的参数；

4.如权利要求3所述的性别识别方法，其特征在于，获取待处理的大熊猫脸部图像具体包括：

获取多张大熊猫图像；

计算所述临时感兴趣区域的中心点坐标值

和

比较宽w和高h，将其中的最大值记录为a；

5.如权利要求4所述的性别识别方法，其特征在于，对所述测试图像进行数据增强及预处理，以得到处理结果，具体包括：

对所述剪裁图像进行水平镜像处理；

对所述剪裁图像进行旋转处理，其中残缺部分用黑色填充；

随机用黑色像素填充所述剪裁图像中随机一小块部分；

随机对所述剪裁图像进行加噪处理；

6.如权利要求5所述的性别识别方法，其特征在于，所述性别识别方法具体包括：

7.一种基于深度学习的大熊猫脸部图像性别识别装置，其特征在于，包括：

获取模块，用于获取待处理的大熊猫脸部图像；

8.权利要求7所述的性别识别装置，其特征在于，所述训练集包括多张训练图像，所述性别识别装置还包括：

9.一种基于深度学习的大熊猫脸部图像性别识别装置，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行的如权利要求1-6任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求6所述的方法。