CN109934192A

CN109934192A - 目标图像定位方法及装置、视线追踪设备

Info

Publication number: CN109934192A
Application number: CN201910213189.5A
Authority: CN
Inventors: 孙建康; 张�浩; 陈丽莉; 薛鸿臻; 马福强
Original assignee: BOE Technology Group Co Ltd; Beijing BOE Optoelectronics Technology Co Ltd
Current assignee: BOE Technology Group Co Ltd; Beijing BOE Optoelectronics Technology Co Ltd
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2019-06-25

Abstract

本发明提供一种目标图像定位方法及装置、视线追踪设备，涉及图像检测技术领域，用于解决目标图像定位速度较慢的问题。目标图像定位方法，包括：从含有目标图像的待处理图像中提取出多个图像块；将每个所述图像块输入至第一神经网络，以获取所述图像块中包含所述目标图像的概率值；判定所述概率值最大的所述图像块作为目标图像块；将所述目标图像块输入至第二神经网络，以获取所述目标图像的中心的位置。

Description

目标图像定位方法及装置、视线追踪设备

技术领域

本发明涉及图像检测技术领域，尤其涉及一种目标图像定位方法及装置、视线追踪设备。

背景技术

对目标图像定位和追踪是当下技术人员研究的一个热点问题，以视线追踪为例，视线追踪技术是虚拟现实领域中一项重要技术，目的在于获取用户当前的注视方向，通过视线追踪技术可以采集儿童关注点信息、协助瘫痪患者进行人机交互、视线疲劳驾驶检测等。

瞳孔定位是视线追踪过程的第一步和前提，瞳孔定位的准确性和稳定性对眼球追踪系统的整体性能至关重要。在实际的瞳孔定位过程中，会受到各种干扰因素的影响，如红外照明灯在角膜上的反光点、睫毛和眼睑的遮挡、光照强度的变化、带眼镜时的反光等都会影响瞳孔定位的速度。目前常用的瞳孔定位方法大多基于纯图像处理技术(如椭圆拟合)，而这些方法在面对实际使用的复杂环境时算法较为复杂，导致速度较慢。

发明内容

本发明的实施例提供一种目标图像定位方法及装置、视线追踪设备，用于解决目标图像定位速度较慢的问题。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供一种目标图像定位方法，包括：从含有目标图像的待处理图像中提取出多个图像块；将每个所述图像块输入至第一神经网络，以获取所述图像块中包含所述目标图像的概率值；判定所述概率值最大的所述图像块作为目标图像块；将所述目标图像块输入至第二神经网络，以获取所述目标图像的中心的位置。

可选的，所述目标图像为瞳孔。

可选的，所述目标图像定位方法还包括：对含有所述目标图像的原始图像进行降分辨率处理，以获取所述待处理图像。

可选的，将所述目标图像块输入至第二神经网络之前，所述目标图像定位方法还包括：对所述目标图像块进行提升分辨率处理，以使所述目标图像块的分辨率与所述原始图像的分辨率相同。

可选的，所述从含有目标图像的待处理图像中提取出多个图像块，包括：设定第一滑动窗口为n*m像素，步幅为o像素，对所述待处理图像进行遍历，以划分出多个所述图像块；其中，m、n和o均为正整数。

可选的，在判定所述概率值最大的所述图像块作为目标图像块之前，所述目标图像定位方法还包括：对得到的多个所述概率值进行归一化处理。

可选的，所述第一神经网络包括第一深度卷积神经网络；所述第一深度卷积神经网络包括：依次连接的第一卷积层、第一平均池化层、第一全连接层；所述第一全连接层采用的激活函数包括Sigmoid函数，损失函数包括二元交叉熵损失函数。

可选的，所述第二神经网络包括第二深度卷积神经网络；所述第二深度卷积神经网络包括：依次连接的多个卷积组、第二平均池化层、第二全连接层；所述卷积组包括交替连接的第二卷积层和第二平均池化层；所述第二全连接采用的激活函数包括线性整流函数，损失函数包括均方误差函数。

第二方面，提供一种目标图像定位装置，包括:第一图像处理单元，用于从含有目标图像的待处理图像中提取出多个图像块；第一输入单元，用于将每个所述图像块输入至第一神经网络，以获取所述图像块中包含所述目标图像的概率值；第一处理单元，用于判定所述概率值最大的所述图像块作为目标图像块；第二输入单元，用于将所述目标图像块输入至第二神经网络，以获取所述目标图像的中心的位置。

可选的，所述目标图像定位装置还包括：第二处理单元，用于对含有所述目标图像的原始图像进行降分辨率处理，以获取所述待处理图像。

可选的，所述第二处理单元，还用于对所述目标图像块进行提升分辨率处理，以使所述目标图像块的分辨率与所述原始图像的分辨率相同。

可选的，所述第一图像处理单元，具体用于设定第一滑动窗口为n*m像素，步幅为o像素，对所述待处理图像进行遍历，以划分出多个所述图像块；其中，m、n和o均为正整数。

可选的，所述第一处理单元，还用于对得到的多个所述概率值进行归一化处理。

可选的，所述目标图像定位装置还包括：第一存储单元，用于存储所述第一神经网络；所述第一神经网络包括第一深度卷积神经网络；所述第一深度卷积神经网络包括：依次连接的第一卷积层、第一平均池化层、第一全连接层；所述第一全连接层采用的激活函数包括Sigmoid函数，损失函数包括二元交叉熵损失函数。

可选的，所述目标图像定位装置还包括：第二存储单元，用于存储所述第二神经网络；所述第二神经网络包括第二深度卷积神经网络；所述第二深度卷积神经网络包括：依次连接的多个卷积组、第二平均池化层、第二全连接层；所述卷积组包括交替连接的第二卷积层和第二平均池化层；所述第二全连接采用的激活函数包括线性整流函数，损失函数包括均方误差函数。

第三方面，提供一种视线追踪设备，包括第二方面任一项所述的目标图像定位装置。

第四方面，提供一种存储有计算机程序的存储介质，该存储介质中的计算机程序被处理器执行时实现第一方面任一项所述的目标图像定位方法。

本发明实施例提供一种目标图像定位方法及装置、视线追踪设备，包括粗定位和精定位的过程，首先采用第一神经网络进行目标图像区域的粗定位，以缩小检测区域，然后采用第二神经网络进行目标图像中心位置精定位，在精定位的过程中，仅对目标图像块进行检测，可提高检测效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种目标图像处理方法的流程图一；

图2为本发明实施例提供的一种目标图像处理方法的流程图二；

图3为本发明实施例提供的一种第一神经网络的示意图；

图4为本发明实施例提供的一种第二神经网络的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种目标图像定位方法，如图1所示，目标图像定位方法包括：

S10、从含有目标图像的待处理图像中提取出多个图像块。

可以理解的是，此处的目标图像，是指通过该定位方法确定其位置的图像。可选的，目标图像为瞳孔。含有目标图像的待处理图像即为包含瞳孔的图像，例如可以是眼部图像。

当然，此处的待处理图像，可以是原始彩色图像，也可以是原始灰度图像。

此处，不对提取图像块的方法进行限定，可以才考相关技术。

在一些实施例中，S10包括：设定第一滑动窗口为n*m像素，步幅为o像素待处理图像进行遍历，以划分出多个所述图像块，其中m、n和o均为正整数。

为了保证瞳孔能够完全包含在一个滑动窗口内，示例性的，设定第一滑动窗口为20*20像素，步幅为1像素，对待处理图像进行遍历，以划分出多个图像块。当然，第一滑动窗口的大小也可以为10*10像素，或者其他大小。

为了提高图像处理效率，在一些实施例中，如图2所示，在执行步骤S10之前，目标图像定位方法还包括：

S05、对含有目标图像的原始图像进行降分辨率处理，以获取待处理图像。

其中，不对降低图像分辨率的方式进行限定，可参考相关技术。

可以理解的是，此处待处理图像的分辨率低于原始图像，但具体低多少，可以根据需要选定。示例性的，待处理图像的分辨率可以是原始图像分辨率的1/4、1/9、1/16、1/25、1/36等。

在一些实施例中，原始图像的分辨率为320*240像素，待处理图像的分辨率可以是原始图像分辨率的1/16，降分辨率后的待处理图像分辨率为80*60像素。

此处，待处理图像的分辨率减小了，即为像素数量减少了，得到的图像块的数量也就减少了，从而可提高图像处理效率。

S20、将每个图像块输入至第一神经网络，以获取图像块中包含目标图像的概率值。

可以理解的是，第一神经网络输出的为一个数值，该数值表明了图像块包含目标图像的概率大小，图像块对应的概率值越大，图像块包目标图像的可能性越大，包含的目标图像越完整。

在一些实施例中，第一神经网络包括第一深度卷积神经网络。

在一些实施例中，如图3所示，第一深度卷积神经网络包括：依次连接的第一卷积层、第一平均池化层、第一全连接层。

第一全连接层采用的激活函数包括Sigmoid函数，损失函数包括二元交叉熵损失函数。

可选的，第一卷积层的第二滑动窗口为5*5像素，步幅为1像素。第一平均池化层的第三滑动窗口为4*4像素，步幅为4像素。第一全连接层的深度为1。

可以理解的是，第一卷积神经网络的第一全连接层包括一个节点，该节点输出的是表示第一滑动窗口覆盖的图像块包括目标图像的概率值，概率值越大的图像块属于目标图像块的概率越大。

为了提高目标图像定位的精度，在一些实施例中，如图2所示，在执行步骤S30之前，目标图像定位方法还包括：

S25、对得到的多个概率值进行归一化处理。

例如，可以将概率值归一化到[0，1]，不对归一化处理的方法进行限定，可参考相关技术。

S30、判定概率值最大的图像块作为目标图像块。

可以理解的是，若本发明实施例提供的目标图像定位方法包括步骤S05，此时得到的目标图像块应为降分辨率后的粗定位区域。

为了提高目标图像定位的精度，在一些实施例中，如图2所示，在执行步骤S40之前，目标图像定位方法还包括：

S35、对目标图像块进行提升分辨率处理，以使目标图像块的分辨率与原始图像的分辨率相同。

根据得到的降分辨率后目标图像块(例如20*20像素)，进一步得到对应原始图像分辨率下的目标图像快(例如80*80像素)，此处，对于提升目标图像块分辨率的方法不做限定，可以参考相关技术。

S40、将目标图像块输入至第二神经网络，以获取目标图像的中心的位置。

可以理解的是，第二神经网络输出的为一组坐标，以定位出目标图像的中心位置。例如，定位出瞳孔中心的位置。

在一些实施例中，第二神经网络包括第二深度卷积神经网络。

在一些实施例中，如图4所示，第二深度卷积神经网络包括：依次连接的多个卷积组、第二平均池化层、第二全连接层。

卷积组包括交替连接的第二卷积层和第二平均池化层。

第二全连接采用的激活函数包括线性整流函数，损失函数包括均方误差函数。

其中，不对卷积组的个数进行限定，可以根据目标图像块像素的大小合理选取。例如，第二深度卷积神经网络可以包括8～10组卷积组。

可选的，第二卷积神经网络包括十个卷积组，第二卷积层的第四滑动窗口为5*5像素，步幅为1像素。第二平均池化层的第五滑动窗口为4*4像素，步幅为1像素。第二全连接层的深度为1。

可以理解的是，第二深度卷积神经网络的第二全连接层包括两个节点，输出的结果表示目标图像的中心的位置，是目标图像在原始图像中的坐标(x，y)。

本发明实施例提供的目标图像定位方法，包括粗定位和精定位的过程，首先采用第一神经网络进行目标图像区域的粗定位，以缩小检测区域，然后采用第二神经网络进行目标图像中心位置精定位，在精定位的过程中，仅对目标图像块进行检测，可提高检测效率。

以下，以瞳孔定位方法对本发明实施例提供的目标图像的定位方法进行实例：

提供一种瞳孔定位方法，包括：

S100、对含有瞳孔的原始图像进行降分辨率处理，以获取待处理图像；其中，原始图像的大小为320*240像素，待处理图像的分辨率是原始图像分辨率的1/16。

这样一来，降分辨率后的待处理图像分辨率为80*60像素。

S110、设定第一滑动窗口为20*20像素，步幅为1像素，对待处理图像进行遍历，以从含有瞳孔的待处理图像中提取出多个图像块。

S120、将每个图像块输入至第一神经网络，以获取图像块中包含目标图像的概率值。

如图3所示，第一神经网络包括第一卷积神经网络，第一深度卷积神经网络包括：依次连接的第一卷积层、第一平均池化层、第一全连接层。

第一卷积层的第二滑动窗口为5*5像素，步幅为1像素。第一平均池化层的第三滑动窗口为4*4像素，步幅为4像素。第一全连接层的深度为1。

S130、将得到的多个概率值归一化到[0，1]。

S140、判定概率值最大的图像块作为目标图像块。

S150、对目标图像块进行提升分辨率处理，以使目标图像块的分辨率与原始图像的分辨率相同。

S160、将目标图像块输入至第二神经网络，以获取目标图像的中心的位置。

第二神经网络包括第二深度卷积神经网络，如图4所示，第二深度卷积神经网络包括：依次连接的十个卷积组、第二平均池化层、第二全连接层。

卷积组包括交替连接的第二卷积层和第二平均池化层。第二全连接采用的激活函数包括线性整流函数，损失函数包括均方误差函数。

第二卷积层的第四滑动窗口为5*5像素，步幅为1像素。第二平均池化层的第五滑动窗口为4*4像素，步幅为1像素。第二全连接层的深度为1。

本发明实施例提供的瞳孔定位方法，适用于实际使用时采集的各种复杂使用场景下的瞳孔图像，与纯图像处理方法相比，能够较大的容忍实际使用环境中光照强度变化、瞳孔遮挡、个体差异、戴眼镜的检测等问题，抗干扰能力强，检测结果准确且稳定。

本发明实施例还提供一种目标图像定位装置，包括：

第一图像处理单元，用于从含有目标图像的待处理图像中提取出多个图像块。

第一输入单元，用于将每个图像块输入至第一神经网络，以获取图像块属于目标图像所在区域的概率值。

第一处理单元，用于判定概率值最大的图像块作为目标图像块。

第二输入单元，用于将目标图像块输入至第二神经网络，以获取目标图像的中心的位置。

其中，待处理图像可以是目标图像定位装置中的其他单元得到的，也可以是其他结构输入至目标图像处理装置的。

此外，第一输入单元和第二输入单元可以是同一输入单元。

本发明实施例提供的目标图像处理装置的有益效果与目标图像处理方法的由于效果相同，此处不再赘述。

为了提高图像处理效率，在一些实施例中，目标图像定位装置还包括：

第二处理单元，用于对含有目标图像的原始图像进行降分辨率处理，以获取待处理图像。

为了提高图像处理的准确度，在一些实施例中，第二处理单元还用于对目标图像块进行提升分辨率处理，以使目标图像块的分辨率与原始图像的分辨率相同。

在一些实施例中，第一图像处理单元，具体用于设定第一滑动窗口为n*m像素，步幅为o像素，对待处理图像进行遍历，以划分出多个图像块；其中m、n和o均为正整数。

为了便于进行数据处理，在一些实施例中，第一处理单元，还用于对得到的多个概率值进行归一化处理。

在一些实施例中，目标图像定位装置还包括：

第一存储单元，用于存储第一神经网络；第一神经网络包括第一深度卷积神经网络；第一深度卷积神经网络包括：依次连接的第一卷积层、第一平均池化层、第一全连接层；第一全连接层采用的激活函数包括Sigmoid函数，损失函数包括二元交叉熵损失函数。

在一些实施例中，目标图像定位装置还包括：

第二存储单元，用于存储第二神经网络；第二神经网络包括第二深度卷积神经网络；第二深度卷积神经网络包括：依次连接的多个卷积组、第二平均池化层、第二全连接层；卷积组包括交替连接的第二卷积层和第二平均池化层；第二全连接采用的激活函数包括线性整流函数，损失函数包括均方误差函数。

其中，第一存储单元和第二存储单元可以为同一存储单元。

以上，需要说明的是，本发明实施例中各单元的功能可以通过软件的方式实现，也可以通过硬件的方式实现。各单元可以设置在处理器中，例如各单元可以是设置在计算机或移动智能设备中的软件程序，也可以是单独配置的硬件装置。其中，这些单元的名称在某种情况下并不构成对单元本身的限定。

本发明实施例还提供一种视线追踪设备，包括上述目标图像定位装置。

其中，视线追踪设备还可以包括图像采集装置(例如摄像头)，头像采集装置连接目标图像定位装置，用于想目标图像定位装置传输待处理图像。

本发明实施例提供的视线追踪设备包括上述目标图像定位装置，其有益效果与目标图像定位装置的有益效果相同，此处不再赘述。

本发明实施例还提供一种存储有计算机程序的存储介质，该存储介质中的计算机程序被处理器执行时实现上述目标图像定位方法。

其中，该存储介质可以是上述目标图像定位装置中所包含的存储介质，也可以是单独存在，未被装配入设备中的存储介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种目标图像定位方法，其特征在于，包括：

从含有目标图像的待处理图像中提取出多个图像块；

将每个所述图像块输入至第一神经网络，以获取所述图像块中包含所述目标图像的概率值；

判定所述概率值最大的所述图像块作为目标图像块；

将所述目标图像块输入至第二神经网络，以获取所述目标图像的中心的位置。

2.根据权利要求1所述的目标图像定位方法，其特征在于，所述目标图像为瞳孔。

3.根据权利要求1所述的目标图像定位方法，其特征在于，所述目标图像定位方法还包括：

对含有所述目标图像的原始图像进行降分辨率处理，以获取所述待处理图像。

4.根据权利要求3所述的目标图像定位方法，其特征在于，将所述目标图像块输入至第二神经网络之前，所述目标图像定位方法还包括：

对所述目标图像块进行提升分辨率处理，以使所述目标图像块的分辨率与所述原始图像的分辨率相同。

5.根据权利要求1所述的目标图像定位方法，其特征在于，所述从含有目标图像的待处理图像中提取出多个图像块，包括：

设定第一滑动窗口为n*m像素，步幅为o像素，对所述待处理图像进行遍历，以划分出多个所述图像块；

其中，m、n和o均为正整数。

6.根据权利要求1所述的目标图像定位方法，其特征在于，在判定所述概率值最大的所述图像块作为目标图像块之前，所述目标图像定位方法还包括：

对得到的多个所述概率值进行归一化处理。

7.根据权利要求1所述的目标图像定位方法，其特征在于，所述第一神经网络包括第一深度卷积神经网络；

所述第一深度卷积神经网络包括：依次连接的第一卷积层、第一平均池化层、第一全连接层；

所述第一全连接层采用的激活函数包括Sigmoid函数，损失函数包括二元交叉熵损失函数；

和/或，

所述第二神经网络包括第二深度卷积神经网络；

所述第二深度卷积神经网络包括：依次连接的多个卷积组、第二平均池化层、第二全连接层；

所述卷积组包括交替连接的第二卷积层和第二平均池化层；

所述第二全连接采用的激活函数包括线性整流函数，损失函数包括均方误差函数。

8.一种目标图像定位装置，其特征在于，包括:

第一图像处理单元，用于从含有目标图像的待处理图像中提取出多个图像块；

第一输入单元，用于将每个所述图像块输入至第一神经网络，以获取所述图像块中包含所述目标图像的概率值；

第一处理单元，用于判定所述概率值最大的所述图像块作为目标图像块；

第二输入单元，用于将所述目标图像块输入至第二神经网络，以获取所述目标图像的中心的位置。

9.根据权利要求8所述的目标图像定位装置，其特征在于，所述目标图像定位装置还包括：

第二处理单元，用于对含有所述目标图像的原始图像进行降分辨率处理，以获取所述待处理图像。

10.根据权利要求9所述的目标图像定位装置，其特征在于，

所述第二处理单元，还用于对所述目标图像块进行提升分辨率处理，以使所述目标图像块的分辨率与所述原始图像的分辨率相同。

11.根据权利要求8所述的目标图像定位装置，其特征在于，所述第一图像处理单元，具体用于设定第一滑动窗口为n*m像素，步幅为o像素，对所述待处理图像进行遍历，以划分出多个所述图像块；

其中，m、n和o均为正整数。

12.根据权利要求8所述的目标图像定位装置，其特征在于，所述第一处理单元，还用于对得到的多个所述概率值进行归一化处理。

13.根据权利要求8所述的目标图像定位装置，其特征在于，所述目标图像定位装置还包括：

第一存储单元，用于存储所述第一神经网络；

所述第一神经网络包括第一深度卷积神经网络；

和/或，

所述目标图像定位装置还包括：

第二存储单元，用于存储所述第二神经网络；

所述第二神经网络包括第二深度卷积神经网络；

所述卷积组包括交替连接的第二卷积层和第二平均池化层；

14.一种视线追踪设备，其特征在于，包括权利要求8-13任一项所述的目标图像定位装置。

15.一种存储有计算机程序的存储介质，其特征在于，该存储介质中的计算机程序被处理器执行时实现权利要求1-7任一项所述的目标图像定位方法。