CN112733570A

CN112733570A - 眼镜检测的方法、装置、电子设备及存储介质

Info

Publication number: CN112733570A
Application number: CN201910971114.3A
Authority: CN
Inventors: 周军; 孔勇
Original assignee: Beijing Eyes Intelligent Technology Co ltd; Beijing Eyecool Technology Co Ltd
Current assignee: Beijing Eyes Intelligent Technology Co ltd; Beijing Eyecool Technology Co Ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2021-04-30
Anticipated expiration: 2039-10-14

Abstract

本发明公开了一种眼镜检测的方法、装置、电子设备及存储介质，属于图像处理和生物识别技术领域，所述眼镜检测的方法包括：对待测图像进行人脸检测，并从中截出鼻梁区域；将鼻梁区域图像输入到训练好的深度卷积神经网络中得到输出数值；若所述输出数值大于预设阈值，则认为待测图像中的人佩戴眼镜，若所述输出数值小于等于预设阈值，则认为待测图像中的人没有佩戴眼镜。这样，通过截取鼻梁区域，并借助于深度卷积神经网络，本发明在测试集上达到了99.9％的准确率，而且检测快速，不包含人脸检测时只有2ms。

Description

眼镜检测的方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理和生物识别技术领域，特别涉及一种眼镜检测的方法、装置、电子设备及存储介质。

背景技术

眼镜检测是来判断当前图像中的人有没有佩戴眼镜，有没有佩戴眼镜是人脸诸多属性比如性别、年龄、是否有遮挡、是否是睁眼或闭眼、图像质量等中的一种。佩戴墨镜或者近视眼镜反光严重时会影响后续的人脸识别效果等。正是基于此，在办身份证拍照时，工作人员会提醒摘掉眼镜。

眼镜有多种分类，按照用途分，包括近视镜、老花镜、太阳镜、偏光夜行镜、防护镜等；按照材料分，包括板材(或塑料)框镜、金属架(镍合金，钛等)镜等；按照框的类型分，包括全框、半框、无框(即镜片夹子类)等。

申请号为CN201110085419.8，名称为“眼镜检测方法和装置”的专利中通过提取眼睛区域的LBP(Local Binary Pattern，局部二值模式)特征，再利用SVM(Support VectorMachine，支持向量机)模型进行分类。

申请号为CN201410787322.5，名称为“用于人脸识别的眼镜检测方法及系统”的专利中依次提取眼睛区域的LBP特征和HOG(Histogram of Oriented Gradient，方向梯度直方图)特征，并通过AdaBoost算法挑选出更好的特征，之后用SVM分类。

上述专利中提到的方法如LBP、HOG等特征都属于传统手工设计的特征，通常一种有效的手工特征需要经过很多实验以及改进，这种基于传统手工设计特征的评价方法准确率不够高，并且计算耗时较多。

发明内容

为解决上述技术问题，本发明实施例提供一种准确率高、检测快速的眼镜检测的方法、装置、电子设备及存储介质。

本发明实施例提供技术方案如下：

一方面，提供一种眼镜检测的方法，包括：

对待测图像进行人脸检测，并从中截出鼻梁区域；

将鼻梁区域图像输入到训练好的深度卷积神经网络中得到输出数值；

若所述输出数值大于预设阈值，则认为待测图像中的人佩戴眼镜，若所述输出数值小于等于预设阈值，则认为待测图像中的人没有佩戴眼镜。

在本发明一些实施例中，所述对待测图像进行人脸检测，并从中截出鼻梁区域包括：

对待测图像进行人脸检测，得到人脸区域；

从所述人脸区域中截出鼻梁区域，所述鼻梁区域为包含鼻梁上部和两内侧眼角的方形区域。

在本发明一些实施例中，所述对待测图像进行人脸检测，并从中截出鼻梁区域还包括：

将鼻梁区域通过双线性插值归一化到预设标准尺寸。

在本发明一些实施例中，所述预设标准尺寸为：32×32。

在本发明一些实施例中，所述深度卷积神经网络包括：6个卷积层，每个卷积层依次是BN层和relu层，4个max池化层，3个全连接层，2个dropout层，一个softmax层。

在本发明一些实施例中，所述深度卷积神经网络采用深度学习框架MatConvNet进行训练，训练100个回合，每批次100个样本，学习率从1e-03降至1e-06。

在本发明一些实施例中，所述预设阈值为0.5。

另一方面，提供一种眼镜检测的装置，包括：

检测模块，用于对待测图像进行人脸检测，并从中截出鼻梁区域；

输入模块，用于将鼻梁区域图像输入到训练好的深度卷积神经网络中得到输出数值；

判定模块，用于若所述输出数值大于预设阈值，则认为待测图像中的人佩戴眼镜，若所述输出数值小于等于预设阈值，则认为待测图像中的人没有佩戴眼镜。

在本发明一些实施例中，所述检测模块包括：

检测子模块，用于对待测图像进行人脸检测，得到人脸区域；

截取子模块，用于从所述人脸区域中截出鼻梁区域，所述鼻梁区域为包含鼻梁上部和两内侧眼角的方形区域。

在本发明一些实施例中，所述检测模块包括：

归一化子模块，用于将鼻梁区域通过双线性插值归一化到预设标准尺寸。

在本发明一些实施例中，所述预设标准尺寸为：32×32。

在本发明一些实施例中，所述预设阈值为0.5。

再一方面，提供一种电子设备，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为上述电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行上述任一所述的方法。

又一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任一所述的方法。

本发明实施例具有以下有益效果：

本发明实施例提供的眼镜检测的方法、装置、电子设备及存储介质，首先对待测图像进行人脸检测，并从中截出鼻梁区域，然后将鼻梁区域图像输入到训练好的深度卷积神经网络中得到输出数值，最后若所述输出数值大于预设阈值，则认为待测图像中的人佩戴眼镜，若所述输出数值小于等于预设阈值，则认为待测图像中的人没有佩戴眼镜。这样，通过截取鼻梁区域，并借助于深度卷积神经网络，本发明在测试集上达到了99.9％的准确率，而且检测快速，不包含人脸检测时只有2ms。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明的眼镜检测的方法实施例的流程示意图；

图2为图1所示方法实施例中得到的人脸区域及鼻梁区域的示意图，其中(a)为人脸区域示意图，(b)为标示出鼻梁区域后的示意图；

图3为本发明的眼镜检测的装置实施例的结构示意图；

图4为本发明的电子设备一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

一方面，本发明实施例提供一种眼镜检测的方法，如图1所示，包括：

步骤101：对待测图像进行人脸检测，并从中截出鼻梁区域；

本步骤中，对待测图像进行人脸检测，当检测到人脸时，可以根据人脸的三庭五眼的分布规律，直接截出鼻梁区域，其中，中庭中眼区域即对应鼻梁区域，既可以直接将中庭中眼区域截取作为鼻梁区域，也可以围绕中庭中眼区域进行适当尺寸调整(例如加宽和/或缩短)后截取作为鼻梁区域。本发明此处不通过人脸关键点的定位而是根据人脸的三庭五眼的分布规律，直接截出鼻梁区域，这样能够提高处理速度。

作为一种可选的实施例，所述对待测图像进行人脸检测，并从中截出鼻梁区域(步骤101)可以包括：

步骤1011：对待测图像进行人脸检测，得到人脸区域；

本步骤中，可以采用现有技术中已知方法进行人脸检测，例如利用Haar特征的AdaBoost人脸检测算法、FaceCraft、SSD(Single Shot MultiBoxDetector)，Faster RCNN等。

步骤1012：从所述人脸区域中截出鼻梁区域，所述鼻梁区域为包含鼻梁上部和两内侧眼角的方形区域。

如背景技术所述，现有技术通常利用整个眼睛区域(双眼+鼻梁上部所共同形成的矩形区域)来判断是否存在眼镜，发明人在研究过程中发现，相对于眼睛区域，鼻梁区域对眼镜判断起主要的区分作用，故本步骤中，鼻梁区域为包含鼻梁上部和两内侧眼角的方形区域(如图2(b)中方框所示)，其面积小于现有技术中的整个眼睛区域、又并非仅仅是鼻梁上部区域，这样既降低了数据量，提高了运算速度，又确保了眼镜判断有较高的准确度。

作为另一种可选的实施例，所述对待测图像进行人脸检测，并从中截出鼻梁区域(步骤101)还可以包括：

步骤1013：将鼻梁区域通过双线性插值归一化到预设标准尺寸。

这样，将鼻梁区域的图像转化为预设标准尺寸，使得在后续输入到训练好的深度卷积神经网络中时更容易得到准确的输出结果，提高眼镜判断的准确度。其中预设标准尺寸可以根据需要灵活设定，例如设定为：32×32(像素点)。

步骤102：将鼻梁区域图像输入到训练好的深度卷积神经网络中得到输出数值；

本步骤中，为使深度卷积神经网络的模型体积不至于过大以确保其运行速度，又确保其有较高的准确度，优选的，深度卷积神经网络包括：6个卷积层，每个卷积层依次是BN(Batch Normalization，批标准化)层和relu(Rectified Linear Units，激活函数)层，4个max池化层，3个全连接层，2个dropout层(10％)，一个softmax层。

作为一种可选的实施例，深度卷积神经网络可以采用深度学习框架MatConvNet(matlab的一个深度学习工具)进行训练，训练100个回合，每批次100个样本，学习率从1e-03降至1e-06。这样训练出的深度卷积神经网络即可具有相对较高的判断准确率。

步骤103：若所述输出数值大于预设阈值，则认为待测图像中的人佩戴眼镜，若所述输出数值小于等于预设阈值，则认为待测图像中的人没有佩戴眼镜。

本步骤中，深度卷积神经网络的输出数值即为眼镜是否存在的概率数值，该数值的取值范围是[0,1]，越接近1代表眼镜存在的概率越高，即佩戴眼睛。通常情况下，可以将预设阈值设置为0.5，若输出数值大于0.5，则认为待测图像中的人佩戴眼镜，若输出数值小于等于0.5，则认为待测图像中的人没有佩戴眼镜。预设阈值的大小还可以根据场景需要灵活调整，例如，要求严格的场景下可以将预设阈值设置的低一些，要求宽松的场景下可以将预设阈值设置的高一些。

综上，本发明实施例提供的眼镜检测的方法，首先对待测图像进行人脸检测，并从中截出鼻梁区域，然后将鼻梁区域图像输入到训练好的深度卷积神经网络中得到输出数值，最后若所述输出数值大于预设阈值，则认为待测图像中的人佩戴眼镜，若所述输出数值小于等于预设阈值，则认为待测图像中的人没有佩戴眼镜。这样，通过截取鼻梁区域，并借助于深度卷积神经网络，本发明在测试集上达到了99.9％的准确率，而且检测快速，不包含人脸检测时只有2ms。

基于深度卷积神经网络的自动学习特征方法避免了手工设计特征，通过设计网络结构训练大量的数据即可达到很高的精度，这种精度一般都高于传统的评价方法，且对眼镜检测有更好的表征能力，比如在物体识别、人脸识别等领域，基于深度学习的都远超过了传统的方法并且超过了人类。现有技术中基于LBP、HOG等的传统评价方法对眼镜的判断准确率通常只能在80-90％之间，准确率不够高，并且计算耗时较多。而本发明实施例提供的眼镜检测的方法基于深度卷积神经网络则较好的解决了这些问题。

下面以一个具体的例子对本申请的技术方案进行详细说明。

首先，对待测图像进行人脸检测，并从中截出鼻梁区域；

本实施例中，采用利用Haar特征的AdaBoost人脸检测算法进行人脸检测，得到如图2(a)所示的人脸区域，该人脸区域中上庭区域较少，同时两侧也稍微小些；然后根据人脸的三庭五眼的分布规律，从该人脸区域中截出鼻梁区域，具体的，假设该人脸区域的宽是w，高是h，则截出的鼻梁区域的起始点是(w/4,h/16)，宽是w/2，高是h/3，如图2(b)所示(基于中庭中眼区域，在水平方向进行了加宽，在上下方向进行了缩短)；之后将鼻梁区域大小通过双线性插值归一化到预设标准尺寸32×32。

其次，将鼻梁区域图像输入到训练好的深度卷积神经网络中得到输出数值；

本实施例中，深度卷积神经网络包含：6个卷积层(每个卷积层依次是BN层和relu层)，4个max池化层，3个全连接层，2个dropout层(10％)，一个softmax层，具体的网络结构如下表1所示：

表1：深度卷积神经网络结构

关于深度卷积神经网络的训练：

我们建立了一个包含50万张佩戴眼镜和100万张不佩戴眼镜的鼻梁区域的数据库，利用深度学习框架MatConvNet进行训练，训练了100个回合，每批次100个样本，学习率从1e-03降至1e-06。

最后，若所述输出数值大于预设阈值，则认为待测图像中的人佩戴眼镜，若所述输出数值小于等于预设阈值，则认为待测图像中的人没有佩戴眼镜。本实施例中，预设阈值选为0.5。

本实施例的方法，在测试集上达到了99.9％的准确率，而且检测快速，不包含人脸检测时只有2ms。

另一方面，本发明实施例提供一种眼镜检测的装置，如图3所示，包括：

检测模块11，用于对待测图像进行人脸检测，并从中截出鼻梁区域；

输入模块12，用于将鼻梁区域图像输入到训练好的深度卷积神经网络中得到输出数值；

判定模块13，用于若所述输出数值大于预设阈值，则认为待测图像中的人佩戴眼镜，若所述输出数值小于等于预设阈值，则认为待测图像中的人没有佩戴眼镜。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

优选的，所述检测模块11可以包括：

优选的，所述检测模块11还可以包括：

优选的，所述预设标准尺寸为：32×32。

优选的，所述深度卷积神经网络包括：6个卷积层，每个卷积层依次是BN层和relu层，4个max池化层，3个全连接层，2个dropout层，一个softmax层。

优选的，所述深度卷积神经网络采用深度学习框架MatConvNet进行训练，训练100个回合，每批次100个样本，学习率从1e-03降至1e-06。

优选的，所述预设阈值为0.5。

本发明实施例还提供一种电子设备，图4为本发明的电子设备一个实施例的结构示意图，可以实现本发明图1所示实施例的流程，如图4所示，上述电子设备可以包括：壳体41、处理器42、存储器43、电路板44和电源电路45，其中，电路板44安置在壳体41围成的空间内部，处理器42和存储器43设置在电路板44上；电源电路45，用于为上述电子设备的各个电路或器件供电；存储器43用于存储可执行程序代码；处理器42通过读取存储器43中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行前述任一方法实施例所述的方法。

处理器42对上述步骤的具体执行过程以及处理器42通过运行可执行程序代码来进一步执行的步骤，可以参见本发明图1所示实施例的描述，在此不再赘述。

该电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子设备。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法实施例所述的方法步骤。

本发明实施例还提供一种应用程序，所述应用程序被执行以实现本发明任一方法实施例提供的方法。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种眼镜检测的方法，其特征在于，包括：

对待测图像进行人脸检测，并从中截出鼻梁区域；

2.根据权利要求1所述的方法，其特征在于，所述对待测图像进行人脸检测，并从中截出鼻梁区域包括：

对待测图像进行人脸检测，得到人脸区域；

3.根据权利要求1所述的方法，其特征在于，所述对待测图像进行人脸检测，并从中截出鼻梁区域还包括：

将鼻梁区域通过双线性插值归一化到预设标准尺寸。

4.根据权利要求3所述的方法，其特征在于，所述预设标准尺寸为：32×32。

5.根据权利要求1-4中任一所述的方法，其特征在于，所述深度卷积神经网络包括：6个卷积层，每个卷积层依次是BN层和relu层，4个max池化层，3个全连接层，2个dropout层，一个softmax层。

6.根据权利要求5所述的方法，其特征在于，所述深度卷积神经网络采用深度学习框架MatConvNet进行训练，训练100个回合，每批次100个样本，学习率从1e-03降至1e-06。

7.根据权利要求5所述的方法，其特征在于，所述预设阈值为0.5。

8.一种眼镜检测的装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为上述电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，用于执行上述权利要求1-7任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述权利要求1-7任一所述的方法。