CN111414851A

CN111414851A - 基于虹膜形状的单摄像头无补光无需校准的注视检测方法

Info

Publication number: CN111414851A
Application number: CN202010196134.0A
Authority: CN
Inventors: 张正; 宫新保; 宋罡
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-07-14

Abstract

一种基于虹膜形状的单摄像头无补光无需校准的注视检测方法，首先通过虚拟人眼模型生成虚拟数据集对神经网络进行初步训练，再通过真实人眼图像组成的真实数据集进行精确训练，最后以训练后的神经网络进行视频中虹膜正视判断识别。本发明按照人眼生理结构建模的方式，依靠捕获虹膜在图像中的形状的方法，使用神经网络的方法来拟合这一模型，并结合视频特征，使得该模型用在无需进行校准的视频的注视检测上可以获得良好的效果。

Description

基于虹膜形状的单摄像头无补光无需校准的注视检测方法

技术领域

本发明涉及的是一种图像处理领域的技术，具体是一种基于虹膜形状的单摄像头无补光无需校准的注视检测方法。

背景技术

现有技术在对人眼进行注视检测，即判断图像中的人眼是否在注视摄像头，或者在注视摄像头附近一定范围内的空间角区域多采用双目摄像头或者红外补充光源实现，当仅采用单摄像头或无补充光源条件时则需要进行视线方向判断，该判断通常需要在使用前进行校准或者要求被检测者的头部与摄像头保持固定的距离才能保证一定精度。

但在一些场景下，只需要关心图像中的人眼是否在注视摄像头，或者摄像头所在的设备，并且希望不需要任何校准，允许头部在相当大的范围内处于不同姿态，只依赖于单摄像头、不需要进行补充光照，可以获得较准确的注视检测结果。对于这种情况，经过实验，如果使用神经网络直接对人眼部分进行端到端的训练，由于人眼注视与非注视的特征过于细腻，规模较小的可配置在移动端的神经网络不能通过训练直接获得人眼的注视与非注视特征，即使收集了大量的数据集，神经网络仍然在使用时出现频繁的失效。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于虹膜形状的单摄像头无补光无需校准的注视检测方法，按照人眼生理结构建模的方式，依靠捕获虹膜在图像中的形状的方法，使用神经网络的方法来拟合这一模型，并结合视频特征，使得该模型用在无需进行校准的视频的注视检测上可以获得良好的效果。

本发明是通过以下技术方案实现的：

本发明首先通过虚拟人眼模型生成虚拟数据集对神经网络进行初步训练，再通过真实人眼图像组成的真实数据集进行精确训练，最后以训练后的神经网络进行视频中虹膜正视判断识别。

所述的虚拟人眼模型包括：虚拟眼皮、虚拟眼球和虚拟虹膜，其中：虚拟眼球为球体、球体表面设置一个球冠作为虚拟虹膜、设置两条曲线为界限的灰色区域作为虚拟眼皮。

所述的虚拟人眼模型，优选经参数调整以接近真实人眼的实际比例，具体为：保持虚拟眼皮形状不变，调整虚拟眼球的球体的半径和球心位置、虚拟虹膜在球体表面上的位置和半径。

所述的虚拟数据集，通过对虚拟人眼模型进行中心投影和标注得到，具体为：定义投影图像中心与虚拟眼球的球心所在直线为基准线，当球心与虚拟虹膜中心连线与基准线夹角小于临界角时标注为正在注视，否则标注为没有注视，然后调整眼皮形状与位置获取标注数据集，以夹角作为标签。

所述的初步训练是指：对神经网络使用虚拟数据集进行训练，直到神经网络以虚拟数据集的评估集进行测试时达到预设识别准确率。

所述的真实数据集是指：以真实人眼球心和相机镜头中心为基准线，在镜头所在平面上画出人的视线偏移角等于临界角时人的视线与镜头平面的交点连成的闭合曲线，当人的视线落在曲线外进行拍照时得到的图像标注为非注视图像，否则标注为注视图像，获取标注的真实数据集。

所述的精确训练是指：对经过虚拟数据集训练后的神经网络使用真实数据集进行训练，直到神经网络以真实数据集的评估集进行测试时达到预设识别准确率。

所述的正视判断识别是指：取一段时间内连续多帧双眼图像分别进行注视检测，取其中置信概率最大的图像的结果作为判断结果。

技术效果

本发明整体解决了单摄像头需要校准和补充光源才能进行注视检测的技术问题。与现有技术相比，本发明可以实现在没有补充光源、无需对摄像头或用户进行校准操作、对用户没有任何位置、姿态和使用方法要求的情况下的注视检测。本发明方法精简、明确、可靠，明确了主要依靠虹膜的投影形状来进行注视检测，不依赖于补充光源和双目摄像头，然后采用神经网络拟合的方式，避免了复杂的算法设计，同时充分发挥了神经网络的泛化能力，使该模型可以在各种场景下性能良好，最后再针对视频信号做后续处理，提高检测准确率和用户体验。

附图说明

图1为本发明的逻辑结构图；

图2为本发明中建立的人眼模型示意图；

图3为本发明中获得的人眼建模数据集示意图；

图4为本发明中采集到的真实人眼数据集示意图；

图5为本发明中对实际视频场景中进行后处理的方法。

具体实施方式

如图1所示，为本实施例涉及一种基于虹膜形状的单摄像头无补光无需校准的注视检测方法，包括以下步骤：

A、使用人眼的眼皮、眼球和虹膜三个特征对人眼进行建模得到虚拟人眼模型，具体为：首先针对单只人眼使用python调用三维建模图像库函数进行建模，得到虚拟模型中包含人眼的眼皮、眼球和虹膜，其中：用一个球体表示眼球，用球面上的球冠表示虹膜，用两个相交的椭球来形成眼皮。

如图2所示，所述的虚拟人眼模型包括眼球、虹膜和眼皮，其中：眼球为一个球体，虹膜为球表面上的一个球冠，眼皮则由椭球相交而得。所获得的眼球置为白色，虹膜置为黑色，眼皮置为灰色。

B、对虚拟人眼模型进行参数调整并进行投影，获取标注的建模数据集，具体为：调整眼球、眼皮和虹膜的大小比例接近真实人眼的实际比例，即眼球的半径和虹膜的半径要选取合适的比例值，形成眼皮的椭球参数则根据效果进行调整；然后通过正态分布来在一定范围内调整三者的大小，要保证三者的比例值的直观效果在符合常理的范围内，来模拟实际场景中人眼的变化和分布情况；再针对每一组参数下的人眼模型调整眼球的转动角度，生成在360°方向上偏移角在0到30°范围内均匀分布的转动角度，生成大于2000张图像的建模人眼数据集，并标注出视线的转动角度。

如图3所示，为对虚拟人眼模型进行投影得到人眼建模数据集，在获取数据集时，直接记录下每张图片里人眼视线的偏移角作为数据集标签，以便在训练时调整偏移角的阈值，获得神经网络能够拟合和收敛的结果。

C、对神经网络使用建模数据集的训练集数据进行训练，具体为：将生成的数据集按照9:1的比例划分为训练集和评估集，本实施例中采用但不限于ResNet-18网络以视线的偏离角度为15°作为判决阈值进行拟合和训练，调整学习率，直到神经网络收敛到在测试集的准确率可以达到90％以上，即可停止训练。此时已经获得了可以初步根据分辨虹膜几何形状来进行注视检测的神经网络。

D、获取并标注真实人眼数据集，具体为：以人眼球心和相机镜头中心为基准线，在镜头所在平面上画出人的视线偏移角等于临界角时人的视线与镜头平面的交点连成的闭合曲线，当人的视线落在曲线外进行拍照时得到的图像标注为非注视图像，否则标注为注视图像，获取标注的数据集；

如图4所示，采集真实单只人眼数据集，采集方式是以人眼球心和相机镜头中心为基准线，在镜头所在平面上画出人的视线偏移角等于临界角时人的视线与镜头平面的交点连成的闭合曲线，当人的视线落在曲线外进行拍照时得到的图像标注为非注视图像，否则标注为注视图像，获取标注的数据集。

E、结合少量的标注的建模数据集和大量的标注的真实人眼图像数据集形成综合数据集，使用综合数据集的训练集数据训练神经网络，具体为：采集到4000张真实人眼数据集后，选取400张建模数据集和3600张真实人眼数据集，再次训练神经网络，并选取剩余的400张真实人眼数据集作为评估集，直到神经网络在评估集中的识别准确率可以达到95％以上即可停止训练。

F、采用步骤e训练后的神经网络进行视频判断，具体为：在每0.3秒内选取各帧视频中双眼识别结果置信概率最高的结果，借助视频信息提高识别准确率作为输出结果，使用户在使用时感受注视检测是完全准确。

如图5所示，使用一个大小合适的滑窗，取一段时间内连续多帧双眼图像分别进行注视检测，取其中置信概率最大的图像的结果作为判断结果，图中的滑窗尺寸(所包含的帧数)仅供参考，实际场景中滑窗的大小与硬件处理速度有关，以实际效果来确定滑窗的尺寸。

由以上实施例可知：本发明不依赖于补充光源和双目摄像头，通过对人眼进行生理学的建模，让神经网络拟合到模型中的关键信息，即虹膜投影形状，进而判断人眼的注视情况。

经过具体实际实验，在使用电脑摄像头或手机摄像头的环境下，以在每0.3秒内选取各帧视频中双眼识别结果置信概率最高的结果作为输出结果、以视线的偏离角度为15°作为判决阈值、用户在距离设备1米以内、正常室内光照条件的参数启动上述方法，能够得到的实验数据是：将所有视频帧作为样本，注视检测的准确率在90％以上，用户使用时完全没有注视检测出现差错的体验。

与现有技术相比，本方法的性能提升在于：实现了在无需补充光源、无需校准的单摄像头条件下的高准确度注视检测。第一，在这一要求下之前没有任何已有文献实现注视检测；第二，在这一要求下采用本方法性能理想，图片数据集准确率可达95％，视频使用体验良好。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于虹膜形状的单摄像头无补光无需校准的注视检测方法，其特征在于，首先通过虚拟人眼模型生成虚拟数据集对神经网络进行初步训练，再通过真实人眼图像组成的真实数据集进行精确训练，最后以训练后的神经网络进行视频中虹膜正视判断识别；

所述的虚拟人眼模型包括：虚拟眼皮、虚拟眼球和虚拟虹膜，其中：虚拟眼球为球体、球体表面设置一个球冠作为虚拟虹膜、设置两条曲线为界限的灰色区域作为虚拟眼皮；

所述的虚拟人眼模型，经参数调整以接近真实人眼的实际比例。

2.根据权利要求1所述的注视检测方法，其特征是，所述的参数调整以接近真实人眼的实际比例，具体为：保持虚拟眼皮形状不变，调整虚拟眼球的球体的半径和球心位置、虚拟虹膜在球体表面上的位置和半径。

3.根据权利要求1所述的注视检测方法，其特征是，所述的虚拟数据集，通过对虚拟人眼模型进行中心投影和标注得到，具体为：定义投影图像中心与虚拟眼球的球心所在直线为基准线，当球心与虚拟虹膜中心连线与基准线夹角小于临界角时标注为正在注视，否则标注为没有注视，然后调整眼皮形状与位置获取标注数据集，以夹角作为标签。

4.根据权利要求1所述的注视检测方法，其特征是，所述的初步训练是指：对神经网络使用虚拟数据集进行训练，直到神经网络以虚拟数据集的评估集进行测试时达到预设识别准确率。

5.根据权利要求1所述的注视检测方法，其特征是，所述的真实数据集是指：以真实人眼球心和相机镜头中心为基准线，在镜头所在平面上画出人的视线偏移角等于临界角时人的视线与镜头平面的交点连成的闭合曲线，当人的视线落在曲线外进行拍照时得到的图像标注为非注视图像，否则标注为注视图像，获取标注的真实数据集。

6.根据权利要求1所述的注视检测方法，其特征是，所述的精确训练是指：对经过虚拟数据集训练后的神经网络使用真实数据集进行训练，直到神经网络以真实数据集的评估集进行测试时达到预设识别准确率。

7.根据权利要求1所述的注视检测方法，其特征是，所述的正视判断识别是指：取一段时间内连续多帧双眼图像分别进行注视检测，取其中置信概率最大的图像的结果作为判断结果。

8.根据权利要求1或4或6所述的注视检测方法，其特征是，所述的神经网络，采用ResNet-18网络以视线的偏离角度为15°作为判决阈值进行拟合和训练，相应调整学习率直到神经网络收敛到在测试集的准确率达到90％以上。