CN105205453A

CN105205453A - 基于深度自编码器的人眼检测和定位方法

Info

Publication number: CN105205453A
Application number: CN201510537480.XA
Authority: CN
Inventors: 王亮; 黄永祯; 唐微
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2015-08-28
Filing date: 2015-08-28
Publication date: 2015-12-30
Anticipated expiration: 2035-08-28
Also published as: CN105205453B

Abstract

本发明公开了一种用于人眼检测和定位的方法，包括：对带有标定好的人眼矩形框位置的训练集中的所有图像，利用人眼矩形框位置生成二值化的标签图；在图像上随机取小图像块，无监督地分层训练多个自编码器以构建深度自编码器，并利用自编码器中各层的权重对深度自编码器进行初始化；在原图像和标签图的相同位置上随机取小原图像块和小标签图像块，以小标签图像块作为监督信息，以小原图像块为输入，优化深度自编码器；在待测图像上以滑动窗口的方式生成多个小待测图像块，利用深度自编码器得到每个小待测图像块的小待测标签图像块并将其合并在一起，得到待测图像的待测标签图，对待测标签图进行二值化，利用坐标投影或寻找轮廓得到人眼的位置。

Description

基于深度自编码器的人眼检测和定位方法

技术领域

本发明涉及模式识别与机器学习领域，特别涉及图像目标检测。更具体地，本发明涉及基于深度自编码器的人眼检测和定位方法。

背景技术

生物特征识别技术应用的爆炸式增长和生物特征识别算法向嵌入式和移动平台移植的巨大需求使得快速的人眼检测和定位显得日趋重要。传统的目标检测算法是通过构建图像的特征金字塔，并在金字塔上滑动地提取窗口，对提取的窗口进行分类，最后通过非最大化抑制操作得到目标的位置。尽管这种方法在简单背景下取得了较好的检测效果，同时在普通电脑上能够达到实时，但是这种方法不能很好地处理复杂背景下的目标检测以及目标存在形变、视角变化和遮挡等问题，并且在嵌入式和移动平台上很难达到实时。此外，当前基于深度卷积神经网络的目标检测方法取得了较高的检测精度，并且能够非常好地处理复杂背景以及目标存在形变和视角变化的问题，但是由于其计算量十分巨大，即使借助并行计算技术，也很难达到实时性的要求。

发明内容

本发明提供了一种基于深度自编码器的快速人眼检测和定位方法。

本发明的一个方面提供了一种生成用于人眼检测和定位的深度自编码器的方法，其特征在于，该方法包括以下步骤：

步骤S0：将带有标定好的人眼矩形框位置的图像的集合作为训练集；

步骤S1：对训练集中的所有图像，利用标定好的人眼矩形框位置生成二值化的标签图；

步骤S2：在训练集中的图像上随机取小图像块，无监督地分层训练多个自编码器；

步骤S3：利用步骤S2中分层训练的多个自编码器构建一个深度自编码器，并利用分层训练得到的自编码器中各层的权重对构建的深度自编码器进行初始化；以及

步骤S4：在训练集中的原图像和标签图的相同位置上随机取小原图像块和小标签图像块，以小标签图像块作为监督信息，以小原图像块为输入，使用反向传播算法优化深度自编码器。

本发明的另一方面提供了一种使用上述深度自编码器实现人眼检测和定位的方法，包括：

步骤S5：在待测图像上以滑动窗口的方式生成多个小待测图像块，利用步骤S4学习的深度自编码器得到每个小待测图像块的小待测标签图像块；

步骤S6：将步骤S5中得到的所有小待测标签图像块合并在一起，得到整幅待测图像的待测标签图，对待测标签图进行二值化，然后利用坐标投影或者寻找轮廓的方法得到人眼的位置。

本发明的基于深度自编码器的方法能够实现快速人眼检测和定位。其利用训练图像上随机裁取的小图像块和标签图上裁取的对应的小标签图像块对深度自编码器进行训练学习，得到小图像块和小标签图块之间的映射关系。然后利用学习得到的深度自编码器生成与待测图像对应的标签图，并通过对标签图进行二值化和坐标投影最终确定人眼的位置。

本发明方法使用小标签图像块为监督信息训练得到的深度自编码器，一方面利用了深度学习技术能够很好的处理复杂背景以及目标形变、遮挡、光照等问题的能力，保证了较高的检测精度。另一方面将目标检测主要过程简化为几次矩阵乘法运算，非常有效地提升了检测速度。此外通过利用标签图像进行二值化和坐标投影得到人眼的矩形框位置，避免了传统检测方法中的特征金字塔的构建和非最大化抑制操作，进一步提高了检测的速度。

附图说明

图1是根据本发明实施例基于深度自编码器的快速人眼检测和定位方法流程图。

图2是根据本发明实施例在原图像和标签图像上取小图像块的示意图。

图3是根据本发明实施例的分层训练的自编码器和由此构建的深度编码器的结构示意图。

图4示出了根据本发明实施例通过待测图像得到的标签图，以及通过对标签图二值化和坐标投影得到人眼位置的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明提出了一种基于深度自编码器的目标检测和定位方法，并将其应用于人眼的检测与定位。该方法利用训练图像上随机裁取的小图像块和标签图上裁取的对应的小标签图像块对深度自编码器进行训练学习，得到小图像块和小标签图快之间的映射关系。然后利用学习得到的深度自编码器生成与待测图像对应的标签图，并通过对标签图进行二值化和坐标投影最终确定人眼的位置。以下详细说明本发明方法涉及的关键步骤。

图1示出了本发明基于深度自编码器和标签图的快速人眼检测和定位方法，所述方法包括以下步骤：

步骤S0：将带有标定好的人眼矩形框位置的图像的集合作为训练集。

步骤S1：对训练集中的所有图像，利用标定好的人眼矩形框位置生成二值化的标签图。

图2所示右侧图像为标签图。标签图是一个二值图像。该图像与原图像尺寸相同，并根据原图像中人眼矩形框位置，将对应标签图中矩形框内的所有像素的像素值置1，框外的所有像素的像素值置0得到。

步骤S2：在训练集中的图像上随机取小图像块，无监督地分层训练多个自编码器。自编码器的数量根据实际效果确定。

图3中的(a)和(b)示出了两个自编码器网络。如图3中(a)、(b)所示，自编码器是一个由输入层、隐含层和输出层构成的三层神经网络。

在图3(a)中，为输入层，h₁为隐含层，o₁为输出层。i₁是由小图像块矩阵拉成的一维所构成的向量，橙色圆圈代表神经元节点。在分层训练多个自编码器时，会对输入的小图像块加入随机的噪声，然后让自编码器的输出重构加入噪声前的图像块，即将图像块构成的向量i₁中随机取50％的元素，将这些元素的值置成零，得到其中置成零的元素在图3中用黑色圆圈表示。

该步骤中，随机取小图像块只在原图像上进行，用于自编码器的非监督训练。如果M表示训练样本(即小图像块)的个数，i_k表示第k个图像块，表示加入噪声后的图像块，W¹和W²分别表示自编码器输入层和隐含层以及隐含层和输出层之间的权重，则训练自编码器的目标函数为：

\underset{W^{1}, W^{2}}{m i n} Σ_{k = 1}^{M} | | o_{k} - i_{k} | |_{2}^{2} + λ (| | W^{1} | |_{2}^{2} + | | W^{2} | |_{2}^{2}), - - - (1)

其中各层之间满足如下函数关系，

h_{k} = f (W^{1} {\tilde{i}}_{k})

o_k＝f(W²h_k)

λ为重构损失和权重惩罚项之间的平衡参数，f(·)为非线性的激活函数。

所谓分层训练多个自编码器，即利用小图像块作为输入，无监督地训练第一个自编码器；利用第一个自编码器的隐含层作为第二个自编码器的输入，例如图3(a)中的隐含层h₁作为图3(b)的输入，无监督地训练第二个自编码器；以及依此类推，以当前自编码器的隐含层作为下一自编码器的输入，无监督地训练多个自编码器。

步骤S3：利用步骤S2中分层训练的多个自编码器构建一个深度自编码器，并利用分层训练得到的自编码器中各层的权重对构建的深度自编码器进行初始化。

图3中(c)所示为构建的深度自编码器。所述深度自编码器包括一个输入层、多个隐含层和一个输出层。

深度自编码器的隐含层数目由自编码器的数目决定，当由分层训练的自编码器构建深度自编码器时，深度自编码器的最后一个隐含层和输出层之间的权重是随机初始化得到的，深度自编码器的其他各层之间的权重是基于分层训练的自编码器的各层权重得到的。

例如，在图3(c)中，一个由两个简单的三层自编码器垛堞而成的深度自编码器有五层，分别是一个输入层，三个隐含层和一个输出层。图3(c)所示的深度自编码器中，输入层和h₁隐含层、h₁隐含层层和h₂隐含层、h₂隐含层和h₃隐含层之间的权重分别由图3(a)中输入层和h₁层之间的权重W¹、图3(b)中输入层和h₂层之间的权重W³、3(b)中h₂层和o₂层之间的权重W⁴初始化。和自编码器类似，在图3(c)中，输入层和h₁隐含层、h₁隐含层层和h₂隐含层、h₂隐含层和h₂隐含层、h₂隐含层和输出层之间满足和步骤S2中自编码器各层之间一样的函数关系。

图2所示为在训练集图像的原图和标签图上取小图像块的过程。当在图像原图和对应的标签图上取小图像块时，对取得的小标签图像块进一步处理，处理方法如下，定义：

r = \frac{Σ_{i = 1, j = 1}^{i = N, j = N} I (i, j)}{N^{2}} - - - (1)

其中，I为小标签图像块，N为小标签图像块的高度或宽度，I(i，j)∈{0，1}表示标签图像块在(i，j)位置的像素值。设定一个阈值t(一般取0.02)，当r值小于t时，将I中所有的像素的像素值均置为0。

步骤S5：步骤S5：在待测图像上以滑动窗口的方式生成多个小待测图像块，利用步骤S4学习的深度自编码器得到每个小待测图像块的小待测标签图像块。

请参阅图4所示为步骤S6的示意图。左图为合并后得到的标签图，中间为对标签图进行二值化后得到的图像，其中x₁₁，x₁₂，x₂₁，x₂₂分别为人眼矩形框竖直边缘的x坐标，y₁₁，y₁₂，y₂₁，y₂₂分别为人眼矩形框水平边缘的y坐标。在该二值化的图像上进行坐标投影或者寻找轮廓，右图为最后得到的人眼位置的矩形框。

坐标投影就是将生成的二值化图像矩阵先沿x轴方向相加，得到连续不为1的两段区域的起始位置，分别记为x₁₁，x₁₂，x₂₁，x₂₂，再以x₁₂，x₂₁之间为分隔线，分别将两块白色区域沿左右两边y轴方向相加，得到y₁₁，y₁₂，y₂₁，y₂₂，由图4可以看出，这些坐标就对应着两个人眼的坐标位置。

为了详细说明本发明的具体实施方式，接下来以某人眼检测图像数据集为例对于本发明方法进行进一步的说明。所述图像数据集包含2,732张人眼图片，每张图片都标注有人眼的矩形框位置信息，按照以下步骤进行：

步骤S10，将所述多标签图像数据集中的随机500张图像做为测试样本，剩下的图像作为训练集，用于训练多个自编码器和深度自编码器；

步骤S11：对训练集中所有图像，利用标定好的人眼矩形框位置生成二值化的标签图，生成的标签图如图2右图所示；

步骤S12：在训练集中的原图像上随机取小图像块，按照图3(a)(b)所示无监督地分层训练2个自编码器；第一个自编码器输入为1296维，隐含层为2048维；第二个自编码器输入为2048维，隐含层为1024维。

步骤S13：利用步骤S2分层训练的多个自编码器构建图3(c)所示的深度自编码器，深度自编码器的输入为1296维，第一个隐含层为2048维，第二个隐含层为1024维，第三个隐含层为2048维，输出层为1296维。并利用分层训练得到的参数对构建的深度自编码器进行初始化，但是最后一层输出层的权重是随机初始化；

步骤S14：按照图2所示，同时在训练集图像的原图和标签图相同位置上随机取小的图像块，以小标签图像块作为监督信息，以小原图像块为输入，使用反向传播算法优化深度自编码器；

步骤S15：在待测图像上以滑动窗口的方式生成很多个小图像块，利用步骤S14学习的深度自编码器得到每个小图像块的标签图；

步骤S16：将步骤S15中得到的所有小标签图合并在一起，得到整幅图像的标签图，如图4所示，对标签图进行二值化，然后利用坐标投影或者寻找轮廓的方法得到人眼的位置。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种生成用于人眼检测和定位的深度自编码器的方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述标签图是一个二值图像，该图像与测试图像的原图像尺寸相同，并根据原图像中人眼矩形框位置，将对应标签图中矩形框内的所有像素的像素值置1，框外的所有像素的像素值置0。

3.根据权利要求1所述的方法，其特征在于，当在标签图上取小图像块时，对取得的小标签图像块进行进一步处理，包括：

定义

r = \frac{Σ_{i = 1, j = 1}^{i = N, j = N} I (i, j)}{N^{2}}

其中，I为小标签图像块，N为小标签图像块的高度或宽度，I(i，j)∈{0，1}表示小标签图像块在(i，j)位置的像素值；

设定一个阈值t，当r值小于t时，将I中所有的像素的像素值均置为0。

4.根据权利要求3所述的方法，其特征在于，t的值为0.02。

5.根据权利要求1所述的方法，其中自编码器是一个由输入层、隐含层和输出层构成的三层神经网络。

6.根据权利要求5所述的方法，其中分层训练多个自编码器包括：

利用小图像块作为输入，无监督地训练第一个自编码器；

利用第一个自编码器的隐含层作为第二个自编码器的输入，无监督地训练第二个自编码器；以及

依此类推，以当前自编码器的隐含层作为下一自编码器的输入，无监督地训练多个自编码器。

7.根据权利要求1所述的方法，其特征在于，在分层训练多个自编码器时，对输入的小图像块加入随机噪声，然后让自编码器的输出重构加入噪声前的图像块，以M表示作为训练样本的小图像块的个数，i_k表示第k个图像块，表示加入噪声后的图像块，h₁表示隐含层，o₁表示输出层，W¹和W²分别表示自编码器输入层和隐含层以及隐含层和输出层之间的权重，则训练自编码器的目标函数为：

\underset{W^{1}, W^{2}}{m i n} Σ_{k = 1}^{M} | | o_{k} - i_{k} | |_{2}^{2} + λ (| | W^{1} | |_{2}^{2} + | | W^{2} | |_{2}^{2})

其中各层之间满足如下函数关系，

h_{k} = f (W^{1} {\tilde{i}}_{k})

o_k＝f(W²h_k)

8.根据权利要求1所述的方法，其特征在于，所述深度自编码器是由所述多个三层自编码器垛堞在一起形成的，包括一个输入层、多个隐含层和一个输出层，深度自编码器的隐含层数目由自编码器的数目决定，当由分层训练的自编码器构建深度自编码器时，深度自编码器的输出层的权重是随机初始化得到的，深度自编码器的各层之间的相对权重是基于分层训练的自编码器的各层权重得到的。

9.根据权利要求1所述的方法，其特征在于，所述使用反向传播算法优化深度自编码器包括使用反向传播算法使深度自编码器学习得到由小图像块到小标签图像块的映射关系。

10.一种使用根据权利要求1生成的深度自编码器实现人眼检测和定位的方法，包括：