CN107808120A

CN107808120A - 眼镜定位方法、装置及存储介质

Info

Publication number: CN107808120A
Application number: CN201710915085.XA
Authority: CN
Inventors: 戴磊
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2018-03-16
Anticipated expiration: 2037-09-30
Also published as: US10635946B2; US20190362193A1; CN107808120B; WO2019061658A1

Abstract

本发明提供一种眼镜定位方法，该方法包括：获取摄像装置拍摄到的一张实时图像，利用人脸识别算法从该实时图像中提取一张实时脸部图像；利用预先确定的第一分类器识别该实时脸部图像中是否包含眼镜，并输出识别结果；及，当识别结果为该实时脸部图像中包含眼镜时，利用预先确定的第二分类器对该实时脸部图像中的眼镜位置进行定位，并输出定位结果。本发明采用两个分类器对人脸图像中的眼镜区域图像进行检测，提高眼镜检测的精度和准确度。本发明还提供一种电子装置及一种计算机可读存储介质。

Description

眼镜定位方法、装置及存储介质

技术领域

本发明涉及计算机视觉处理技术领域，尤其涉及一种眼镜定位方法、电子装置及计算机可读存储介质。

背景技术

在人脸识别领域，由于很多人戴眼镜，尤其是戴深框眼镜，导致在人脸识别时，带深框眼镜的人脸图像相似度较高，无法进行准确的人脸识别。目前业内采用的方法，是先去除人脸图像中的眼镜区域之后，再对去除眼镜区域之后的人脸图像进行识别。然而，这种方法的关键在于如何准确的确定人脸图像中的眼镜区域。

由于受眼镜形状的多样性及图像质量等因素的影响，眼镜检测存在许多难点。例如，早期的眼镜检测主要采用图像处理和模板匹配的方法，根据像素灰度值的不连续变化来检测眼镜的下边框和眼镜鼻梁，然后通过两眼之间区域的边缘信息来检测眼镜；后期的眼镜检测主要使用三维霍夫(Hough)变换方法检测眼镜。但是，由于不同光线的影响，成像后通过图像处理和Hough方法得到的图像过度依赖于图像边缘，故存在噪声，且噪声干扰会导致经常无法获得特征点或准确的特征点，因此检测的准确率比较低。

发明内容

本发明提供一种眼镜定位方法、电子装置及计算机可读存储介质，其主要目的在于提高人脸图像中眼镜定位的准确度。

为实现上述目的，本发明提供一种电子装置，该装置包括：存储器、处理器及摄像装置，所述存储器中包括眼镜定位程序，所述眼镜定位程序被所述处理器执行时实现如下步骤：

获取摄像装置拍摄到的一张实时图像，利用人脸识别算法从该实时图像中提取一张实时脸部图像；

利用预先确定的第一分类器识别该实时脸部图像中是否包含眼镜，并输出识别结果；及

当识别结果为该实时脸部图像中包含眼镜时，利用预先确定的第二分类器对该实时脸部图像中的眼镜位置进行定位，并输出定位结果。

此外，为实现上述目的，本发明还提供一种眼镜定位方法，该方法包括：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括眼镜定位程序，所述眼镜定位程序被处理器执行时，实现如上所述的眼镜定位方法中的任意步骤。

本发明提出的眼镜定位方法、电子装置及计算机可读存储介质，首先通过第一分类器判断人脸图像中是否包含眼镜，然后，将包含眼镜的人脸图像输入第二分类器，以确定人脸图像中的眼镜位置。本发明采用两个分类器对人脸图像中的眼镜区域图像进行检测，不依赖于图像边缘，从而提高眼镜检测的精度和准确度。

附图说明

图1为本发明电子装置较佳实施例的硬件示意图；

图2为图1中眼镜定位程序较佳实施例的模块示意图；

图3为本发明眼镜定位方法较佳实施例的流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种电子装置1。参照图1所示，为本发明电子装置较佳实施例的硬件示意图。

在本实施例中，电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。

在本实施例中，电子装置1可以是安装有眼镜定位程序的服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备，所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器。

该电子装置1包括：存储器11、处理器12、摄像装置13、网络接口14及通信总线15。

其中，存储器11至少包括一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中，存储器11可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，存储器11也可以是所述电子装置1的外部存储设备，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart MediaCard,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的眼镜定位程序10、预先确定的第一分类器、第二分类器的模型文件及各类数据等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行眼镜定位程序10等。

摄像装置13既可以是所述电子装置1的一部分，也可以独立于电子装置1。在一些实施例中，所述电子装置1为智能手机、平板电脑、便携计算机等具有摄像头的终端设备，则所述摄像装置13即为所述电子装置1的摄像头。在其他实施例中，所述电子装置1可以为服务器，所述摄像装置13独立于该电子装置1、与该电子装置1通过网络连接，例如，该摄像装置13安装于特定场所，如办公场所、监控区域，对进入该特定场所的目标实时拍摄得到实时图像，通过网络将拍摄得到的实时图像传输至处理器12。

网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置1与其他电子设备之间建立通信连接。

通信总线15用于实现这些组件之间的连接通信。

图1仅示出了具有组件11-15的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置1还可以包括显示器，显示器也可以适当的称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置1还可以包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

此外，该电子装置1的显示器的面积可以与所述触摸传感器的面积相同，也可以不同。可选地，将显示器与所述触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

可选地，该电子装置1还可以包括RF(Radio Frequency，射频)电路，传感器、音频电路等等，在此不再赘述。

在图1所示的装置实施例中，作为一种计算机存储介质的存储器11中存储有眼镜定位程序10，处理器12执行存储器11中存储的眼镜定位程序10时实现如下步骤：

获取摄像装置13拍摄到的一张实时图像，利用人脸识别算法从该实时图像中提取一张实时脸部图像；

当摄像装置13拍摄到一张实时图像，摄像装置13将这张实时图像发送到处理器12，处理器12接收到该实时图像并获取实时图像的大小，建立一个相同大小的灰度图像，将获取的彩色图像，转换成灰度图像，同时创建一个内存空间；将灰度图像直方图均衡化，使灰度图像信息量减少，加快检测速度，然后加载训练库，检测图片中的人脸，并返回一个包含人脸信息的对象，获得人脸所在位置的数据，并记录个数；最终获取脸部的区域且保存下来，这样就完成了一次脸部图像提取的过程。具体地，从该实时图像中提取脸部图像的人脸识别算法可以为基于几何特征的方法、局部特征分析方法、特征脸方法、基于弹性模型的方法、神经网络方法，等等。

接下来，将利用人脸识别算法提取的脸部图像输入预先确定的第一分类器，判断该脸部图像中是否包含眼镜，其中，所述预先确定的第一分类器的训练步骤包括：

分别准备一定数量的包含眼镜和不包含眼镜的人脸图片作为样本图片并形成第一样本集，并根据样本图片中是否包含眼镜，为每张样本图片进行分类标记，包含眼镜的样本图片标注“有眼镜”或“1”，不包含眼镜的样本图片标注“没有眼镜”或“0”；从进行样本分类标记后的第一样本集中随机抽取第一比例(例如，50％)的样本图片作为训练集，从剩下的第一样本集中随机抽取第二比例的样本图片作为验证集，例如50％，即第一样本集中的25％的样本图片作为验证集，利用所述训练集训练卷积神经网络，得到所述第一分类器；为了保证第一分类器的准确率，需对第一分类器的准确率进行验证，利用所述验证集验证训练的所述第一分类器的准确率，若准确率大于或者等于预设准确率，则训练结束，或者，若准确率小于预设准确率，则增加样本集中的样本图片数量并重新执行上述步骤。

需要说明的是，所述预先确定的第一分类器的训练步骤还包括：对第一样本集中的样本图片进行预处理如缩放、裁剪、翻转及/或扭曲等操作，利用经过预处理后的样本图片对卷积神经网络进行训练，有效提高模型训练的真实性及准确率。

例如在一种实施方式中，对每张样本图片进行图片预处理可以包括：

将每张样本图片的较短边长缩放到第一预设大小(例如，640像素)以获得对应的第一图片，在各张第一图片上随机裁剪出一个第二预设大小的第二图片，例如256*256像素的第二图片；

根据各个预先确定的预设类型参数，例如颜色、亮度及/或对比度等对应的标准参数值，例如，颜色对应的标准参数值为a1，亮度对应的标准参数值为a2，对比度对应的标准参数值为a3，将各张第二图片的各个预先确定的预设类型参数值调整为对应的标准参数值，获得对应的第三图片，以消除样本图片在拍摄时外界条件导致的图片不清晰，提高模型训练的有效性；

对各张第三图片进行预设方向(例如，水平和垂直方向)的翻转，及按照预设的扭曲角度(例如，30度)对各张第三图片进行扭曲操作，获得各张第三图片对应的第四图片，各张第四图片即为对应的样本图片的训练图片。其中，翻转和扭曲操作的作用是模拟实际业务场景下各种形式的图片，通过这些翻转和扭曲操作可以增大数据集的规模，从而提高模型训练的真实性和实用性。

假设通过以上步骤训练得到的第一分类器判断人脸图像中包含眼镜，则将该人脸图像输入预先确定的第二分类器中，对该人脸图像中的眼镜区域进行定位，并输出该人脸图像中的眼镜定位结果。可以理解的是，若第一分类器输出的判断结果中，该人脸图像中不包含眼镜区域，则重新获取摄像装置13拍摄到的实时图像，并进行后续步骤。

需要说明的是，所述预先确定的第二分类器的获取过程如下：准备预设数量张“有眼镜”的样本图片形成第二样本集，在其他实施例中，也可以利用第一样本集中标注有“有眼镜”或“1”的样本图片。为了简化后续计算，对每张样本图片进行图片预处理，具体地，所述预处理步骤包括：将第二样本集中的样本图片从彩色图像转为灰度图像，再将灰度图像中像素点的像素值分别除以255，将各像素点的像素值的范围从0-255规范到0-1之间；在经过上述预处理后的样本图片中的眼镜位置标记预设数量的标记点，例如，在每张样本图片中的眼镜镜框上标记8个特征点：上、下框沿分别均匀标记3个特征点，左、右框沿分别标记1个特征点。

假设第二样本集中有m张样本图片，分别将每张样本图片中代表眼镜位置的预设数量的标记点组合成一个向量，以其中一张样本图片的向量为基准向量，将其余的m-1张样本图片的向量与该基准向量对齐，得到关于眼镜位置的第一平均模型；对关于眼镜位置的第一平均模型通过主成分分析法(Principal Components Analysis，简称PCA)进行降维处理，得到关于眼镜位置的第二平均模型，上述对齐和降维为本领域人员习知技术，这里不进行说明。

利用特征提取算法从第二平均模型中提取每个标记点的局部特征，例如，HOG特征，将关于眼镜位置的第二平均模型及其每个标记点的局部特征作为第二分类器。在本实施例中，所述特征提取算法为SIFT(scale-invariant feature transform)算法，SIFT算法从第二平均模型中提取每个特征点的局部特征，选择一个特征点为参考特征点，并查找与该参考特征点的局部特征相同或相似的特征点(例如，两个特征点的局部特征的差值在预设范围内)，依此原理直到查找出所有嘴唇特征点。在其他实施例中，该特征提取算法还可以为SURF(Speeded Up Robust Features)算法，LBP(Local Binary Patterns)算法，HOG(Histogram of Oriented Gridients)算法等。

本实施例提出的电子装置1，首先通过第一分类器判断人脸图像中是否包含眼镜，然后，将包含眼镜的人脸图像输入第二分类器，以确定人脸图像中的眼镜位置。本发明采用两个分类器对人脸图像中的眼镜区域图像进行检测，从而提高眼镜检测的精度和准确度。

在其他实施例中，眼镜定位程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由处理器12执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示，为图1中眼镜定位程序10的模块示意图。所述眼镜定位程序10可以被分割为：获取模块110、判断模块120及定位模块130，所述模块110-130所实现的功能或操作步骤均与上文类似，此处不再详述，示例性地，例如其中：

获取模块110，用于获取摄像装置13拍摄到的一张实时图像，利用人脸识别算法从该实时图像中提取一张实时脸部图像；

判断模块120，用于利用预先确定的第一分类器识别该实时脸部图像中是否包含眼镜，并输出识别结果；及

定位模块130，用于当识别结果为该实时脸部图像中包含眼镜时，利用预先确定的第二分类器对该实时脸部图像中的眼镜位置进行定位，并输出定位结果。

此外，本发明还提供一种眼镜定位方法。参照图3所示，为本发明眼镜定位方法第一实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，眼镜定位方法包括步骤S10-S30：

步骤S10，获取摄像装置拍摄到的一张实时图像，利用人脸识别算法从该实时图像中提取一张实时脸部图像；

步骤S20，利用预先确定的第一分类器识别该实时脸部图像中是否包含眼镜，并输出识别结果；及

步骤S30，当识别结果为该实时脸部图像中包含眼镜时，利用预先确定的第二分类器对该实时脸部图像中的眼镜位置进行定位，并输出定位结果。

当摄像装置拍摄到一张实时图像，摄像装置将这张实时图像发送到处理器，处理器接收到该实时图像并获取实时图像的大小，建立一个相同大小的灰度图像，将获取的彩色图像，转换成灰度图像，同时创建一个内存空间；将灰度图像直方图均衡化，使灰度图像信息量减少，加快检测速度，然后加载训练库，检测图片中的人脸，并返回一个包含人脸信息的对象，获得人脸所在位置的数据，并记录个数；最终获取脸部的区域且保存下来，这样就完成了一次脸部图像提取的过程。具体地，从该实时图像中提取脸部图像的人脸识别算法可以为基于几何特征的方法、局部特征分析方法、特征脸方法、基于弹性模型的方法、神经网络方法，等等。

假设第二样本集中有m张样本图片，分别将每张样本图片中代表眼镜位置的预设数量的标记点组合成一个向量，以其中一张样本图片的向量为基准向量，将其余的m-1张样本图片的向量与该基准向量对齐，得到关于眼镜位置的第一平均模型；对关于眼镜位置的第一平均模型进行PCA降维处理，得到关于眼镜位置的第二平均模型。

利用特征提取算法从第二平均模型中提取每个标记点的局部特征，例如，HOG特征，将关于眼镜位置的第二平均型及其每个标记点的局部特征作为第二分类器。所述特征提取算法为SIFT算法，SIFT算法从第二平均模型中提取每个特征点的局部特征，选择一个特征点为参考特征点，并查找与该参考特征点的局部特征相同或相似的特征点(例如，两个特征点的局部特征的差值在预设范围内)，依此原理直到查找出所有嘴唇特征点。在其他实施例中，该特征提取算法还可以为SURF算法，LBP算法，HOG算法等。

本实施例提出的眼镜定位方法，首先，利用第一分类器判断人脸图像中是否包含眼镜，然后，将包含眼镜的人脸图像输入第二分类器，以确定人脸图像中的眼镜位置。本发明采用两个分类器对人脸图像中的眼镜区域图像进行检测，不依赖于图像边缘，从而提高眼镜检测的精度和准确度。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中包括眼镜定位程序，所述眼镜定位程序被处理器执行时实现如下操作：

优选地，所述预先确定的第一分类器的训练过程如下：

分别准备包含眼镜和不包含眼镜的样本图片，根据样本图片中是否包含眼镜，对每个样本图片进行分类标记；

将分类标记后的样本图片分为第一比例的训练集和第二比例的验证集；

利用所述训练集训练卷积神经网络，得到所述第一分类器；及

利用所述验证集验证训练的所述第一分类器的准确率，若准确率大于或者等于预设准确率，则训练结束，或者，若准确率小于预设准确率，则增加样本图片数量并重新执行训练步骤。

优选地，所述预先确定的第二分类器的获取过程如下：

对包含眼镜的样本图片进行预处理，在预处理后的样本图片中的眼镜位置标记预设数量的标记点；

将每张样本图片中代表眼镜位置的预设数量的标记点组合成一个向量，以其中一张样本图片的向量为基准向量，将其它所有样本图片的向量与该基准向量对齐，得到关于眼镜位置的第一平均模型；

对关于眼镜位置的第一平均模型进行降维处理得到关于眼镜位置的第二平均模型；及

从第二平均模型中提取每个标记点的局部特征，将关于眼镜位置的第二平均模型及其每个标记点的局部特征作为第二分类器。

本发明之计算机可读存储介质的具体实施方式与上述眼镜定位方法的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种眼镜定位方法，应用于一种电子装置，其特征在于，该方法包括：

2.如权利要求1所述的眼镜定位方法，其特征在于，所述预先确定的第一分类器的训练过程如下：

3.如权利要求1或2所述的眼镜定位方法，其特征在于，所述预先确定的第二分类器的获取过程如下：

4.如权利要求3所述的眼镜定位方法，其特征在于，所述对每张样本图片进行预处理的步骤包括：

将每张样本图片转为灰度图像，读取灰度图像中各像素点的像素值，分别除以255，将灰度图像中各像素点的像素值规范化。

5.如权利要求1所述的眼镜定位方法，其特征在于，所述人脸识别算法可以为基于几何特征的方法、局部特征分析方法、特征脸方法、基于弹性模型的方法及神经网络方法。

6.一种电子装置，其特征在于，该电子装置包括：存储器、处理器，所述存储器上存储有眼镜定位程序，所述眼镜定位程序被所述处理器执行时实现如下步骤：

7.如权利要求6所述的电子装置，其特征在于，所述预先确定的第一分类器的训练过程如下：

8.如权利要求6或7所述的电子装置，其特征在于，所述预先确定的第二分类器的获取过程如下：

9.如权利要求8所述的电子装置，其特征在于，所述对每张样本图片进行图片预处理的步骤包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括眼镜定位程序，所述眼镜定位程序被处理器执行时，实现如权利要求1至5中任一项所述的眼镜定位方法的步骤。