CN111382727A

CN111382727A - 一种基于深度学习的犬脸识别方法

Info

Publication number: CN111382727A
Application number: CN202010256214.0A
Authority: CN
Inventors: 胡健; 王大勇; 夏豪; 张龙; 庞观寿; 汤才宝
Original assignee: Anhui Ruiji Intelligent Technology Co ltd
Current assignee: Anhui Ruiji Intelligent Technology Co ltd
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-07-07
Anticipated expiration: 2040-04-02
Also published as: CN111382727B

Abstract

本发明公开了一种基于深度学习的犬脸识别方法。本发明包括如下步骤：对犬只图像构造图像金字塔，将金字塔中的图像送入第一检测网络，得到大量候选犬脸区域；对候选犬脸区域进行过滤和调整，送入第二检测网络，得到最终的犬脸区域；基于脸部特征点对犬脸图像进行仿射变换，得到对齐后的犬脸图像；将对齐后的犬脸图像缩放到合适尺寸，并进行归一化后，送入特征提取网络，得到犬脸特征；重复上述步骤构造包含犬只信息和犬脸特征的犬只底库；计算待识别的犬只图像的犬脸特征与犬只底库中每个犬脸特征的欧式距离，欧式距离最小的即为最终识别出的犬只。本发明训练特征提取网络时使用TripletLoss损失函数进行反向传播和优化，提高了算法效率和识别的准确度。

Description

一种基于深度学习的犬脸识别方法

技术领域

本发明属于深度学习图像识别技术领域，特别是涉及一种基于深度学习的犬脸识别方法。

背景技术

近年来，我国犬只数量持续快速增长。2019年，全国城镇宠物犬数量已经高达5000万只以上。犬只伤人甚至致死事件时有发生，已经对广大人民群众的生命财产安全带来了严重威胁。如何有效地对数量巨大的犬只进行有效识别和管理，已成为公共安全领域的一个重大课题。

目前，对犬只进行识别主要有三种方法：一是办理养犬证明，二是给犬只带上标志身份的标牌、项圈或二维码，三是给犬只植入微芯片。第一种方法需要养犬人每年定期复检，且犬只一旦丢失成为流浪犬，其他人就无法再确定犬只身份，养犬人也无有效途径寻回丢失的犬只。第二种方法虽然方便，但标牌、项圈或二维码很容易丢失。第三种方法比较可靠，但微芯片需要专门的读取器才能读出身份信息，且有可能在血液中流动，实际使用时不够便捷。

随着人工智能技术的盛行，一些基于深度学习的犬脸识别方法已相继被提出。但这些方法基本都在后台PC服务器端运行，消耗的CPU和内存资源较大，无法应用于移动端设备。为了方便公共安全管理人员，特别是偏远地区的管理人员对犬只进行有效管控，需要设计一种能在移动端实时识别犬脸的方法，能够有效解决上述问题。

发明内容

本发明的目的在于提供一种基于深度学习的犬脸识别方法，通过在移动端设备部署犬脸检测系统，对犬只进行实时高效的犬脸识别，再配合本地犬只数据库，能够在无网络的环境下进行犬脸识别，解决了现有的犬脸检测系统部署在后台服务器时，占用CPU和内存资源大以及犬脸识别不够精准的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种基于深度学习的犬脸识别方法，包括如下步骤：

步骤S1：构建由第一检测网络、第二检测网络和特征提取网络依次连接的深度神经网络模型；

步骤S2：对犬只图像构造图像金字塔，将金字塔中的图像送入第一检测网络，得到大量候选犬脸区域；

步骤S3：对候选犬脸区域进行过滤和调整，缩放到合适尺寸，送入第二检测网络，得到最终的犬脸区域；

步骤S4：基于脸部特征点对犬脸图像进行仿射变换，得到对齐后的犬脸图像；

步骤S5：将对齐后的犬脸图像缩放到合适尺寸，并进行归一化后，送入特征提取网络，得到犬脸特征；

步骤S6：重复步骤S2至步骤S5，构造包含犬只信息和犬脸特征的犬只底库；

步骤S7：计算待识别的犬只图像的犬脸特征与步骤S6中犬只底库中每个犬脸特征的欧式距离，欧式距离最小的即为最终识别出的犬只。

优选地，所述步骤S2中，第一检测网络将犬只图像作为输入，经过三个轻量级卷积层后，通过一个犬脸二分类器softmax来判断该区域是否为犬脸，并通过边框特征和面部关键点特征的回归来进行犬脸区域的粗定位，最终会生成大量犬脸的候选区域。

优选地，所述步骤S3中，第二检测网络使用第一检测网络输出的候选犬脸区域作为输入，经过四个轻量级卷积层和一个全连接层后，通过一个犬脸二分类器softmax来判断该区域是否为犬脸，并通过边框特征和面部关键点特征的回归来进行犬脸的边框和面部特征点的精确定位，最终过滤掉效果差的犬脸的候选区域。

优选地，所述步骤S5中，候选犬脸区域输入特征提取网络处理时，选取MobileNetV2作为基准网络，使用全局Depthwise卷积层代替全局平均池化层。

优选地，所述深度神经网络模型的训练步骤如下：

步骤S61：采集犬只图像，清洗和过滤掉不符合要求的图像，对犬只的犬脸部分进行标注，包括犬脸边框和脸部特征点；

步骤S62：使用上述图像和标注信息构建图像金字塔，得到大量的正负样本，训练第一检测网络，得到模型文件；

步骤S63：使用第一检测网络模型对部分犬只图像进行检测，将置信度高于阈值的区域作为困难样本挖掘的来源，获得部分正负样本；

步骤S64：将上述获得的正负样本与原始图像中的正负样本进行合并，缩放到合适尺寸，训练第二检测网络，得到模型文件；

步骤S65：使用第二检测网络模型对原始图像进行检测，获取裁剪后的犬脸部分图像。犬脸图像基于脸部特征点进行仿射变换，得到对齐后的图像；

步骤S66：使用上述犬脸图像和TripletLoss损失函数训练特征提取网络；

步骤S67：训练完成后，得到模型文件和一个距离阈值，当两个犬脸图像的欧式距离小于该阈值时，则认定为相同的犬只；否则，认定为不同的犬只。

本发明具有以下有益效果：

(1)本发明的犬脸检测网络通过两阶段方式构建，第一阶段快速初选，第二阶段精准定位，检测效率高；特征提取网络基于MobileNetV2调整了网络结构，并使用全局深度卷积，提升了算法效率和特征精度；训练特征提取网络时，使用TripletLoss损失函数进行反向传播和优化，提高了识别的准确度。

(2)本发明通过在移动端设备部署犬脸检测系统，对犬只进行实时高效的犬脸识别，配合本地犬只数据库，能够在无网络的环境下进行犬脸识别，大大方便了公共安全管理人员的执法和管控。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于深度学习的犬脸识别方法流程图；

图2为本发明实施例中第一检测网络的结构流程图；

图3为本发明实施例中第二检测网络的结构流程图；

图4为本发明实施例中特征提取网络的结构流程图；

图5为本发明实施例中训练犬脸识别深度神经网络的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于深度学习的犬脸识别方法，包括如下步骤：

步骤S2：对犬只图像构造图像金字塔，其尺寸为16*16*3，将金字塔中的图像送入第一检测网络，进行边框回归和NMS后，得到大量候选犬脸区域；

步骤S3：对候选犬脸区域进行过滤和调整，缩放到32*32*3，送入第二检测网络，进行边框回归和NMS后，得到最终的犬脸区域，包括犬脸边框和脸部特征点；

步骤S5：将对齐后的犬脸图像缩放到112*112*3，并进行归一化后，送入特征提取网络，得到128维度的犬脸特征；

其中，步骤S2中，第一检测网络将犬只图像作为输入，经过三个轻量级卷积层后，通过一个犬脸二分类器softmax来判断该区域是否为犬脸，并通过维度为1*1*4的边框特征和维度为1*1*6的面部关键点特征的回归来进行犬脸区域的粗定位，最终会生成大量犬脸的候选区域。

由于网络简单，隐藏层部分只有3个卷积层，且没有使用任何全连接层，速度会非常快。通过第一检测网络后，大量非犬脸的图像会被过滤掉，减少了后续网络的运算量，其主要结构如下表1所示：

	输入	输出
			输入层	RGB三通道数据格式	input
卷积层	input	conv1
			最大池化层	conv1	pool1
卷积层	pool1	conv2
			卷积层	conv2	conv3
卷积层	conv3	conv4-1
			卷积层	conv3	conv4-2
卷积层	conv3	conv4-3
			Softmax层	conv4-1	probe1

表1为第一检测网络结构表

其中，步骤S3中，第二检测网络使用第一检测网络输出的候选犬脸区域作为输入，经过四个轻量级卷积层和一个全连接层后，通过一个犬脸二分类器softmax来判断该区域是否为犬脸，并使用维度为4的边框特征和维度为6的面部关键点特征的回归来进行犬脸的边框和面部特征点的精确定位，最终过滤掉效果差的犬脸的候选区域。

第二检测网络与第一检测网络相比，更为复杂，由于增加了一个卷积层和一个维度较大的全连接层，保留了更多的犬脸图像的特征，会过滤掉大量效果较差的候选犬脸区域，其主要结构如下表2所示：

	输入	输出
			输入层	RGB三通道数据格式	input
卷积层	input	conv1
			最大池化层	conv1	pool1
卷积层	pool1	conv2
			最大池化层	conv2	pool2
卷积层	conv2	conv3
			最大池化层	conv3	pool3
卷积层	pool3	conv4
			全连接层	conv4	fc5
全连接层	fc5	fc6-1
			全连接层	fc5	fc6-2
全连接层	fc5	fc6-3
			Softmax层	fc6-1	probe1

表2为第二检测网络结构表

其中，步骤S5中，特征提取网络会对第二检测网络生成候选犬脸区域输入特征提取网络处理时，选取MobileNetV2作为基准网络。

为了提高推理效率和优化识别结果，对MobileNetV2网络的结构进行了部分调整，主要包括：

一、不使用全连接层，因为全连接层会大大增加网络的复杂度和参数数量，导致模型效率降低。

二、使用全局Depthwise卷积层代替全局平均池化层。使用全局平均池化时，每个神经元都有完全相同的权重系数，会导致网络提取到的信息不够多元和丰富，进而导致特征的精度下降。使用全局Depthwise卷积层时，假设输入特征I的尺寸为W*H*C，全局Depthwise卷积层的卷积核K的尺寸也为W*H*C，输出特征O使用I*K的深度卷积运算后，尺寸为1*1*C。可以看到，此时不同的神经元拥有不同的重要性和权重系数，提取出的特征更为准确，模型效果更佳。

三、减小瓶颈块的个数和扩展因子等参数。犬脸与人脸不同，犬脸面部区域包含大量的毛发，这些毛发的特征并不明显，基本无法作为后续识别的依据。也就是说，相对于人脸，犬脸的有效特征要更少一些，网络也可以更简单一些。因此，对上述参数进行调整，可进一步提升特征提取网络的效率，并且不会明显降低提取出的特征的精度。

特征提取网络的主要结构如下表3所示：

	输入	输出
			输入层	RGB三通道数据格式	input
卷积层	input	conv1
			Depthwise卷积层	conv1	conv2
4个瓶颈块	conv2	bn3
			1个瓶颈块	bn3	bn4
5个瓶颈块	bn4	bn5
			1个瓶颈块	bn5	bn6
4个瓶颈块	bn6	bn7
			全局Depthwise卷积层	bn7	gconv8

表3为特征提取网络结构表

其中，深度神经网络模型的训练步骤如下：

步骤S61：采集犬只图像，尽量覆盖不同光照、距离、角度、品种、表情等各种情况，同一只犬只需要采集多张图像。清洗和过滤掉不清晰、过曝等不符合要求的图像，对犬只的犬脸部分进行标注，包括犬脸边框和脸部特征点。与人脸不同，一些脸部毛发较多的犬只，嘴部基本都被遮挡住了，因此仅选取左眼、右眼和鼻子作为脸部特征点。将图像和标注后的信息基于不同的犬只进行分目录保存，相同犬只的图像保存在同一个目录下；

步骤S66：使用上述犬脸图像和TripletLoss损失函数训练特征提取网络，TripletLoss基于一个三元组(b,p,n)，其中，b表示基准的犬脸图像，p与b属于相同的犬只，n与b属于不同的犬只，TripletLoss损失函数使得相同犬只的类内距离最小化，不同犬只的类间距离最大化；

本发明提供的犬脸识别方法在arm cortex a9800MHz CPU的移动端设备上运行，经过大量测试得知，当犬只图像的分辨率为640x480时，能够使犬脸识别耗时40毫秒以内完成，耗时最短且实时帧率达到25帧/秒以上，准确率达到96％以上。

本实施例的一个具体应用为：

构建由第一检测网络、第二检测网络和特征提取网络依次连接的深度神经网络模型；

其中，第一检测网络是一个犬脸的候选区域检测网络，如图2所示，该网络将16x16分辨率的RGB三通道犬只图像作为输入，经过conv1、pool1、conv2和conv3后，通过一个犬脸二分类器softmax的输出probe1来判断该区域是否为犬脸，并使用边框特征conv4-2和面部关键点特征conv4-3的回归来进行犬脸区域的粗定位，以生成犬脸的候选区域。由于隐藏层部分只有conv1、conv2和conv3这三个轻量级的卷积层，且输出没有使用任何全连接层，而是使用卷积层代替，速度会非常快。同时，该网络会使用边框回归和NMS来进一步优化检测结果。其主要结构如下：

(1)输入层，尺寸为16*16*3，RGB三通道数据格式，输出为input。

(2)卷积层，核大小为3*3，核数量为10，激活函数为PReLU，输入为input，输出为conv1，其大小为14*14*10。

(3)最大池化层，核大小为2*2，步长为2，输入为conv1，输出为pool1，其大小为7*7*10。

(4)卷积层，核大小为3*3，核数量为16，激活函数为PReLU，输入为pool1，输出为conv2，其大小为5*5*16。

(5)卷积层，核大小为5*5，核数量为32，激活函数为PReLU，输入为conv2，输出为conv3，其大小为1*1*32。

(6)卷积层，核大小为1*1，核数量为2，输入为conv3，输出为conv4-1，其大小为1*1*2。

(7)卷积层，核大小为1*1，核数量为4，输入为conv3，输出为conv4-2，其大小为1*1*4，用于获取犬脸的矩形边框区域。

(8)卷积层，核大小为1*1，核数量为6，输入为conv3，输出为conv4-3，其大小为1*1*6，用于获取犬脸的特征点。

(9)softmax层，输入为conv4-1，输出为probe1，用于获取犬脸的置信度。

如图3所示，第二检测网络将第一检测网络输出的候选犬脸区域调整到32*32*3后作为输入，经过conv1、conv2、conv3、conv4这四个卷积层和fc5全连接层后，通过一个犬脸二分类器softmax的输出probe1来判断该区域是否为犬脸，并使用边框特征fc6-2和面部关键点特征fc6-3的回归来进行犬脸的边框和面部特征点的精确定位。同时，该网络会使用边框回归和NMS来进一步优化检测结果。其主要结构如下：

(1)输入层，尺寸为32*32*3，RGB三通道数据格式，输出为input。

(2)卷积层，核大小为3*3，核数量为32，激活函数为PReLU，输入为input，输出为conv1，其大小为30*30*32。

(3)最大池化层，核大小为2*2，步长为2，输入为conv1，输出为pool1，其大小为15*15*32。

(4)卷积层，核大小为3*3，核数量为64，激活函数为PReLU，输入为pool1，输出为conv2，其大小为13*13*64。

(5)最大池化层，核大小为2*2，步长为2，输入为conv2，输出为pool2，其大小为7*7*64。

(6)卷积层，核大小为3*3，核数量为64，激活函数为PReLU，输入为pool2，输出为conv3，其大小为5*5*64。

(7)最大池化层，核大小为2*2，步长为2，输入为conv3，输出为pool3，其大小为3*3*64。

(8)卷积层，核大小为1*1，核数量为128，激活函数为PReLU，输入为pool3，输出为conv4，其大小为3*3*128。

(9)全连接层，核数量为256，dropout的比率为0.2，激活函数为PReLU，输入为conv4，输出为fc5，其大小为256。

(10)全连接层，核数量为2，输入为fc5，输出为fc6-1，其大小为2。

(11)全连接层，核数量为4，输入为fc5，输出为fc6-2，其大小为4，用于获取犬脸的矩形边框区域。

(12)全连接层，核数量为6，输入为fc5，输出为fc6-3，其大小为6，用于获取犬脸的特征点。

(13)softmax层，输入为fc6-1，输出为probe1，用于获取犬脸的置信度。

如图4所示，特征提取网络以MobileNetV2为基准，对第二检测网络生成的犬脸区域进行对齐，并缩放到112*112*3的尺寸，再送入一系列的卷积层和瓶颈块进行犬脸特征的提取。为了提高推理效率和优化识别结果，对MobileNetV2网络的结构进行了部分调整，其主要结构如下：

(1)输入层，尺寸为112*112*3，RGB三通道数据格式，输出为input。

(2)卷积层，核大小为3*3，核数量为64，步长为2，输入为input，输出为conv1，其大小为56*56*64。

(3)Depthwise卷积层，核大小为3*3，核数量为64，步长为1，对齐模式为SAME，输入为conv1，输出为conv2，其大小为56*56*64。

(4)4个瓶颈块，通道数为64，第一个瓶颈块步长为2，其余步长为1，扩展因子为2，输入为conv2，输出为bn3，其大小为28*28*64。

(5)1个瓶颈块，通道数为128，步长为2，扩展因子为5，输入为bn3，输出为bn4，其大小为14*14*128。

(6)5个瓶颈块，通道数为128，步长为1，扩展因子为3，输入为bn4，输出为bn5，其大小为14*14*128。

(7)1个瓶颈块，通道数为128，步长为2，扩展因子为5，输入为bn5，输出为bn6，其大小为7*7*128。

(8)4个瓶颈块，通道数为128，步长为1，扩展因子为3，输入为bn6，输出为bn7，其大小为7*7*128。

(9)全局Depthwise卷积层，核大小为7*7，核数量为128，输入为bn7，输出为gconv8，其大小为1*1*128。

如图5所示，训练深度神经网络模型的主要步骤如下：

(1)采集10万只左右的犬只图像，尽量覆盖不同光照、距离、角度、表情等各种情况，同一只犬只需要采集50到100张图像。清洗和过滤掉不清晰、过曝等不符合要求的图像，对犬只的犬脸部分进行标注，包括犬脸边框和脸部特征点。与人脸不同，一些脸部毛发较多的犬只，嘴部基本都被遮挡住了，因此仅选取左眼、右眼和鼻子作为脸部特征点。将图像和标注后的信息基于不同的犬只进行分目录保存，相同犬只的图像保存在同一个目录下。

(2)使用上述图像和标注信息构建图像金字塔，得到大量的16x16x3尺寸的正负样本。训练第一检测网络，得到模型文件。

(3)使用第一检测网络模型对部分犬只图像进行检测，将置信度高于0.6的区域作为困难样本挖掘的来源，获得部分正负样本。

(4)将上述获得的正负样本与原始图像中的正负样本进行合并，缩放到32x32x3尺寸。训练第二检测网络，得到模型文件。

(5)使用第二检测网络模型对原始图像进行检测，获取裁剪后的犬脸部分图像。犬脸图像基于脸部特征点进行仿射变换，得到对齐后的图像。对齐后，后续提取的脸部特征会更加精确。

(6)使用上述犬脸图像和TripletLoss损失函数训练特征提取网络。TripletLoss基于一个三元组(b,p,n)，其中，b表示基准的犬脸图像，p与b属于相同的犬只，n与b属于不同的犬只。TripletLoss损失函数使得相同犬只的类内距离最小化，不同犬只的类间距离最大化。训练完成后，得到模型文件和一个距离阈值。当两个犬脸图像的欧式距离小于该阈值时，可认为是相同的犬只，否则，认为是不同的犬只。

本发明的犬脸识别方法在arm cortex a9800MHz CPU的移动端设备上运行，犬只图像的分辨率为640x480时，犬脸识别耗时40毫秒以内，实时帧率达到25帧/秒以上，准确率达到96％以上。

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于深度学习的犬脸识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于深度学习的犬脸识别方法，其特征在于，所述步骤S2中，第一检测网络将犬只图像作为输入，经过三个轻量级卷积层后，通过一个犬脸二分类器softmax来判断该区域是否为犬脸，并通过边框特征和面部关键点特征的回归来进行犬脸区域的粗定位，最终会生成大量犬脸的候选区域。

3.根据权利要求1所述的一种基于深度学习的犬脸识别方法，其特征在于，所述步骤S3中，第二检测网络使用第一检测网络输出的候选犬脸区域作为输入，经过四个轻量级卷积层和一个全连接层后，通过一个犬脸二分类器softmax来判断该区域是否为犬脸，并通过边框特征和面部关键点特征的回归来进行犬脸的边框和面部特征点的精确定位，最终过滤掉效果差的犬脸的候选区域。

4.根据权利要求1所述的一种基于深度学习的犬脸识别方法，其特征在于，所述步骤S5中，候选犬脸区域输入特征提取网络处理时，选取MobileNetV2作为基准网络，使用全局Depthwise卷积层代替全局平均池化层。

5.根据权利要求1所述的一种基于深度学习的犬脸识别方法，其特征在于，所述深度神经网络模型的训练步骤如下：