CN113743254A - 视线估计方法、装置、电子设备及存储介质 - Google Patents

视线估计方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113743254A
CN113743254A CN202110947036.0A CN202110947036A CN113743254A CN 113743254 A CN113743254 A CN 113743254A CN 202110947036 A CN202110947036 A CN 202110947036A CN 113743254 A CN113743254 A CN 113743254A
Authority
CN
China
Prior art keywords
eye
contour
sight
sample
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110947036.0A
Other languages
English (en)
Other versions
CN113743254B (zh
Inventor
毛雷
冯子勇
林昌伟
周星宇
周瑞
赵勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gelingshentong Information Technology Co ltd
Original Assignee
Beijing Gelingshentong Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gelingshentong Information Technology Co ltd filed Critical Beijing Gelingshentong Information Technology Co ltd
Priority to CN202110947036.0A priority Critical patent/CN113743254B/zh
Publication of CN113743254A publication Critical patent/CN113743254A/zh
Application granted granted Critical
Publication of CN113743254B publication Critical patent/CN113743254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Eye Examination Apparatus (AREA)

Abstract

本申请实施例中提供了一种视线估计方法、装置、电子设备及存储介质,该方法包括:获取人脸图像;获取人脸图像中的眼部轮廓,并基于所述眼部轮廓从所述人脸图像中,裁剪出眼部图像;将所述眼部图像输入视线估计模型,得到视线向量,其中,所述视线估计模型为根据样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息和标注向量训练神经网络模型得到,所述轮廓标注信息包括眼部轮廓和瞳孔轮廓。通过训练神经网络模型得到视线估计模型,基于该视线估计模型对眼部图像进行视线估计,无需额外的硬件设施,成本较低,使用方便快捷,易于广泛使用。

Description

视线估计方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机视觉技术领域,具体地,涉及一种视线估计方法、装置、电子设备及存储介质。
背景技术
视线估计在司机辅助驾驶系统中的疲劳驾驶预警系统(DMS)扮演非常重要的角色。它可以检测司机的精神注意力状态,即当司机视线偏移正前方的时候,对其进行提醒、防止分神,目的是提高驾驶安全性,减少交通事故的发生,从而保障司机、乘客和车外行人的生命安全。
然而目前进行视线估计时,需要在车上额外安装硬件设施,或是司机佩戴特殊的仪器,导致进行视线估计的成本较高,难以广泛使用。
发明内容
本申请实施例中提供了一种视线估计方法、装置、电子设备及存储介质,可以有效解决视线估计的成本较高,难以广泛使用的问题。
根据本申请实施例的第一个方面,提供了一种视线估计方法,该方法包括:获取人脸图像;获取人脸图像中的眼部轮廓,并基于所述眼部轮廓从所述人脸图像中裁剪出眼部图像;将所述眼部图像输入视线估计模型,得到视线向量,所述视线估计模型为根据样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息和标注向量训练神经网络模型得到,所述轮廓标注信息包括眼部轮廓和瞳孔轮廓。
根据本申请实施例的第二个方面,提供了一种视线估计装置,该装置包括:获取模块,用于获取人脸图像;裁剪模块,用于获取人脸图像中的眼部轮廓,并基于所述眼部轮廓从所述人脸图像中,裁剪出眼部图像;估计模块,用于将所述眼部图像输入视线估计模型,得到视线向量,所述视线估计模型为根据样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息和标注向量训练神经网络模型得到,所述轮廓标注信息包括眼部轮廓和瞳孔轮廓。
根据本申请实施例的第三个方面,提供了一种电子设备,该电子设备包括一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如上述应用于电子设备的方法。
根据本申请实施例的第四方面,本申请实施列提供一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述的方法。
采用本申请实施例中提供的视线估计方法,获取人脸图像;获取人脸图像中的眼部轮廓,并基于所述眼部轮廓从所述人脸图像中裁剪出眼部图像;将所述眼部图像输入视线估计模型,得到视线向量,其中,所述视线估计模型为根据样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息和标注向量训练神经网络模型得到,所述轮廓标注信息包括眼部轮廓和瞳孔轮廓。通过训练神经网络模型得到视线估计模型,基于该视线估计模型对眼部图像进行视线估计,无需额外的硬件设施,成本较低,使用方便快捷,易于广泛使用。并且,使用带有轮廓标注信息和标注向量的样本眼部图像训练得到的视线估计模型,轮廓标注信息中包括的眼部轮廓以及瞳孔轮廓使得视线估计模型可以准确识别眼部图像中的眼部区域和瞳孔区域,进而提升视线估计模型在进行视线估计时的精度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一个实施例提供的视线估计方法的流程图;
图2为本申请一个实施例提供的眼部图像的示意图;
图3为本申请另一个实施例提供的视线估计方法的流程图;
图4为本申请一个实施例提供的视线估计装置的功能模块图;
图5为本申请实施例提出的用于执行根据本申请实施例的视线估计方法的电子设备的结构框图。
具体实施方式
视线估计在司机辅助驾驶系统中的疲劳驾驶预警系统扮演非常重要的角色。它可以检测司机的精神注意力状态,即当司机视线偏移正前方的时候,对其进行提醒、防止分神,目的是提高驾驶安全性,减少交通事故的发生,从而保障司机、乘客和车外行人的生命安全。
视线估计算法主要包含两个方向,基于硬件或者软件的方法。基于软件的方法又分为基于头部姿态和头部姿态与视线相结合两类。FaceLAB是一个商用的监测系统,使用基于立体视觉的眼动仪监测视线,头部姿态,眼睑以及瞳孔大小。这套系统已经应用于多个实际的辅助驾驶员场景中,但基于立体视觉的系统需要繁杂的初始化程序和昂贵的费用导致了其难以量产和推广。类似的,Smart Eye使用一个多摄像头系统生成驾驶员的3D头部模型,用于计算驾驶员的视线,头部姿态和眼睑状态。然而这种系统在商业汽车上进行推广的代价非常的高昂并且对于必须的硬件依赖非常的高,需要在车上额外安装硬件设施,极大的约束了系统的可移植性。因此,这类系统都很难在普通汽车上安装使用。
在目前基于视频图像处理的视线估计方法中,目前主流方法采用深度学习方式,建立人眼视线估计模型。最后接收终端获取的图像,并基于该人眼视线估计模型,确定图像中的人眼视线聚焦点以供进行人眼视线估计和追踪但是建立图像数据库做训练样本成本较大。主要是由于高分辨率的摄像机以及与之相关的图像处理算法的复杂所带来的价格导致高昂成本问题。
发明人在研究中发现,通过基于Unity3D开发视线标注工具标出视线向量和虹膜、瞳孔区域,进一步根据人脸关键点模型算出左右眼区域,把这些左右眼区域图通过数据增强后同时进行人眼分割和视线回归多任务神经网络训练,进而提高人眼视线估计的精度,最后把人眼区域送进训练好的神经网络进行视线向量估计。不仅可以提升视线估计的精度,而且结构搭建简单,无需额外的硬件设施,能效降低成本,易于广泛使用,对不同年龄、性别和人种的人以及实际驾驶环境的不同光照条件具有良好的鲁棒性,实时性好等优势。
针对上述问题,本申请实施例中提供了一种视线估计方法,获取人脸图像;获取人脸图像中的眼部轮廓,并基于所述眼部轮廓从所述人脸图像中裁剪出眼部图像;将所述眼部图像输入视线估计模型,得到视线向量,其中,所述视线估计模型为根据样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息和标注向量训练神经网络模型得到,所述轮廓标注信息包括眼部轮廓和瞳孔轮廓。通过训练神经网络模型得到视线估计模型,基于该视线估计模型对眼部图像进行视线估计,无需额外的硬件设施,成本较低,使用方便快捷,易于广泛使用。并且,使用带有轮廓标注信息和标注向量的样本眼部图像训练得到的视线估计模型,轮廓标注信息中包括的眼部轮廓以及瞳孔轮廓使得视线估计模型可以准确识别眼部图像中的眼部区域和瞳孔区域,进而提升视线估计模型在进行视线估计时的精度。
本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript,以及Python等。
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
请参阅图1,本申请实施例提供了一种视线估计方法,可应用于电子设备,所述电子设备可以是智能手机,电脑或服务器等,具体的该方法可以包括以下步骤。
步骤110,获取人脸图像。
在进行视线估计时,首先需要获取到人脸图像,基于所述人脸图像进行视线估计。
所述人脸图像可以是由图像采集装置采集之后,发送给电子设备的,所述图像采集装置可以是高分辨率相机,也可以是普通相机。在一些实施方式中,所述图像采集装置可以是采集包括人脸区域以及背景区域的待处理图像。电子设备在接收到所述待处理图像后,可以通过人脸检测模型,从所述待处理图像中,提取出人脸区域,以得到所述人脸图像。
所述人脸图像中包括眼睛和瞳孔,也就是说,在使用人脸检测模型检测待处理图像时,只要检测到眼睛和瞳孔即可以认为检测到人脸区域。
步骤120,获取人脸图像中的眼部轮廓,并基于所述眼部轮廓从所述人脸图像中裁剪出眼部图像。
在获取到所述人脸图像之后,可以使用人脸关键点检测算法对所述人脸图像进行检测,得到眼部轮廓。
在得到所述眼部轮廓后,可以获取所述眼部轮廓左右边缘的坐标点;根据所述左右边缘的坐标点确定眼部宽度,以及眼部中心点;基于所述眼部中心点以及所述眼部宽度,确定裁剪框;基于所述裁剪框从所述人脸图像中裁剪出眼部图像。
在一些实施方式中,所述眼部轮廓可以包括两只眼睛,即两只眼睛在一个轮廓中。在所述眼部轮廓包括两只眼睛时,所述眼部轮廓左右边缘的坐标为左眼眼尾和右眼眼尾处的坐标点,依次确定眼部宽度,以及眼部中心点。
在一些实施方式中,所述眼部轮廓可以包括一只眼睛,即一只眼睛的轮廓为所述眼部轮廓。下面,仅以眼部轮廓为一只眼睛的轮廓为例进行详细说明。
可参照图2,示出了眼部图像的示意图,在图2中,标号10表示眼部轮廓,为一只眼睛所在的区域,在得到所述眼部轮廓10时,可以获取到眼部轮廓10的左右边缘对应的坐标点,即图2中的点A和点B,根据所述坐标点,可以计算得到眼部宽度,以及眼部中心点,图2中点C即为所述眼部中心点。
例如,假设眼部轮廓的左右边缘对应的坐标点分别为(x1,y1)以及(x2,y2),眼部宽度为|y1-y2|。在x1等于x2时,眼部中心点的坐标为(x1,(y1+y2)/2),在x1不等于x2时,眼部中心点的坐标为((x1+x2)/2,(y1+y2)/2)。
在得到所述眼部宽度以及眼部中心点后,可以根据眼部宽度以及眼部中心点确定裁剪框,基于所述裁剪框从所述人脸图像中裁剪出眼部图像。
在确定裁剪框时,可以是根据眼部宽度计算第一扩展尺寸和第二扩展尺寸,所述第一扩展尺寸表示在上下方向上的扩展尺寸,所述第二扩展尺寸表示在左右方向上的扩展尺寸;基于所述眼部中心点,在上下方向上各扩展所述第一扩展尺寸,在左右方向上各扩展所述第二扩展尺寸,得到所述裁剪框。
在一些实施方式中,可以预先存储有眼部宽度与第一扩展尺寸的关系,以及眼部宽度与第二扩展尺寸的关系,从而根据该关系,可以计算得到第一扩展尺寸和第二扩展尺寸。在本申请实施例中,若以W表示眼部宽度,所述第一扩展尺寸为0.75*W,所述第二扩展尺寸为0.375*W。第一扩展尺寸和第二扩展尺寸可以根据实际的需要进行设置,在此不做具体限定。
在得到所述第一扩展尺寸后,基于所述眼部中心点,上下各扩展第一扩展尺寸,左右各扩展第二扩展尺寸得到裁剪框。在图2中,20表示第一扩展尺寸,30表示第二扩展尺寸,40所示出的虚线框即为所述裁剪框。按照裁剪框,对所述人脸图像进行裁剪,即可得到所述眼部图像。
需要说明的是,眼部轮廓包括两只眼睛时,得到眼部图像的方式与上面类似。
步骤130,将所述眼部图像输入视线估计模型,得到视线向量,所述视线估计模型为根据样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息和标注向量训练神经网络模型得到,所述轮廓标注信息包括眼部轮廓和瞳孔轮廓。
在得到所述眼部图像后,将所述眼部图像输入视线估计模型中,所述视线估计模型输出与所述眼部图像对应的视线向量。
其中,所述视线估计模型为根据样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息和标注向量训练神经网络得到。在训练阶段,所述神经网络具有一个输入,两个输出,将样本眼部图像输入所述神经网络模型中,其中一个输出为与所述样本眼部图像对应的热图,另一个输出为与所述样本眼部图像对应的视线向量。
具体的,在获得所述视线估计模型时,可以是获取样本集,所述样本集包括样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息以及标注向量,所述轮廓标注信息包括眼部轮廓以及瞳孔轮廓;将所述样本眼部图像输入神经网络模型,输出与所述样本眼部图像对应的热图,以及与所述样本眼部图像对应的视线向量;根据所述轮廓标注信息和所述热图之间的第一损失,以及所述标注向量和所述视线向量之间的第二损失训练神经网络模型,得到所述视线估计模型。利用了轮廓标注信息影响视线向量的估计,使得训练得到的视线估计模型在进行视线估计时,具有较高的精度。
在进行视线估计时,通常会使用到多张人脸图像,例如,图像采集装置每采集到一张人脸图像,就将人脸图像发送给电子设备,电子设备可以对每张人脸图像进行处理得到眼部图像后,再将眼部图像输入视线估计模型中,得到视线向量。在得到连续的多张人脸图像对应的所述视线向量时,可以采用高斯滤波,结合前预设数量张人脸图像对应的视线向量,让视线趋于稳定。
也就是说,电子设备可以确定在得到所述视线向量之前接收到预设数量张人脸图像为历史图像;获取与所述历史图像对应的视线向量为历史向量;结合所述历史向量,使用高斯滤波对所述视线向量进行处理得到目标视线向量。
例如,预设数量为5,在获取到第7张人脸图像对应的视线向量时,可以确定第2张人脸图像至第6张人脸图像为历史图像,获取与所述历史图像对应视线向量为历史向量,在得到所述历史向量后,将所述历史向量和第7张人脸图像对应的视线向量组合成长度为6的一维数组,采用核大小为5的高斯核对所述一维数组进行卷积,得到目标向量。
通过高斯滤波可以让得到的视线向量更为稳定,所述预设数量可以根据实际的需要进行设置,预设数量的数值越高,计算量越大,实时性也就越差,为了具有较好的实时性的同时,也可以让视线向量稳定,本申请实施例中所采用的预设数量的数值为5。
本申请实施例提供的视线估计方法,获取人脸图像;获取人脸图像中的眼部轮廓,并基于所述眼部轮廓从所述人脸图像中裁剪出眼部图像;将所述眼部图像输入视线估计模型,得到视线向量,其中,所述视线估计模型为根据样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息和标注向量训练神经网络模型得到,所述轮廓标注信息包括眼部轮廓和瞳孔轮廓。通过训练神经网络模型得到视线估计模型,基于该视线估计模型对眼部图像进行视线估计,无需额外的硬件设施,成本较低,使用方便快捷,易于广泛使用。并且,使用带有轮廓标注信息和标注向量的样本眼部图像训练得到的视线估计模型,轮廓标注信息中包括的眼部轮廓以及瞳孔轮廓使得视线估计模型可以准确识别眼部图像中的眼部区域和瞳孔区域,进而提升视线估计模型在进行视线估计时的精度。
请参阅图3,本申请另一实施例提供了一种视线估计方法,在前述实施例的基础上重点描述了得到所述视线估计模型的过程,具体的该方法可包括以下步骤。
步骤210,获取人脸图像。
步骤220,获取人脸图像中的眼部轮廓,并基于所述眼部轮廓从所述人脸图像中裁剪出眼部图像。
步骤210至步骤220可参照前述实施例对应部分,在此不再赘述。
步骤230,获取样本集,所述样本集包括样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息以及标注向量,所述轮廓标注信息包括眼部轮廓以及瞳孔轮廓。
训练神经网络模型得到视线估计模型时,首先需要构建样本集,所述样本集包括样本眼部图像,以及与所述样本单眼图对应的轮廓标注信息以及标注向量,所述轮廓标注信息包括眼部轮廓以及瞳孔轮廓。
轮廓标注信息可以是使用Unity工具,通过人头模型和眼球模型,调整人头、眼球姿态和缩放比例,与样本人脸图像进行人头姿态和眼球瞳孔匹配,进一步采用多边形标注方法,标注出眼部轮廓和虹膜轮廓得到轮廓标注信息。可以理解的是,这里的轮廓标注信息是针对每一只眼睛。这种标注方式,简单易操作,所消耗的成本较低。
获取标注向量时,可以是先获取多个标注人员标注所述样本人脸图像后,对于每只眼睛,可以得到多个候选标注向量;通过截尾均值法对所述多个候选标注向量进行计算,得到所述标注向量。
截尾均值法是指将数据进行排序后,按照一定比例去掉最两端的数据,只使用中部的数据来求平均数,避免平均数收到极端值的影响。假设有n个标注人员,对于一只眼睛,可以得到n个候选标注向量,每个候选标注向量中x,y,z三个维度的值。对于每个维度的值,都采用截尾均值法进行计算。对于x维度,可以得到同一只眼睛对应的n个x值,将n个x值进行排序,按照预设比例去掉两端的数据,使用中间数据计算均数,得到最终的x值。对于维度y,维度z的计算方式类似,以此可以得到最终的y值和最终的z值。将最终的x值,y值和z值组成的向量为所述标注向量。
最后获取样本人脸图像中的眼部轮廓,并基于所述眼部轮廓从所述人脸图像中,裁剪出样本眼部图像,从而,可以得到样本眼部图像,以及与所述样本眼部图像对应的眼部轮廓信息和标注向量。需要说明的是,裁剪出样本眼部图像的方式可以参照前述实施例中步骤120中的描述,在此不再赘述。
步骤240,将所述样本眼部图像输入神经网络模型,输出与所述样本眼部图像对应的热图,以及与所述样本眼部图像对应的视线向量。
步骤250,根据所述轮廓标注信息和所述热图之间的第一损失,以及所述标注向量和所述视线向量之间的第二损失训练神经网络模型,得到所述视线估计模型。
在得到样本集后,可以将样本眼部图像输入神经网络模型,输出与所述样本眼部图像对应的热图,以及与所述样本眼部图像对应的视线向量。
根据轮廓标注信息和热图之间的第一损失,以及所述标注向量和所述视线向量之间的第二损失训练神经网络模型,得到所述视线估计模型。其中,所述第一损失为交叉熵,第二损失为均方误差。也就是说,计算轮廓标注信息和热图之间的交叉熵,计算标注向量和视线向量之间的均方误差。
神经网络模型的整体损失为目标损失,即第一损失和第二损失的和。根据所述目标损失确定所述神经网络模型是否收敛;在所述神经网络模型收敛时,得到所述视线估计模型;在所述神经网络模型未收敛时,调整神经网络模型的参数,直到所述神经网络模型收敛。第一损失可以引导神经网络模型学习眼部和虹膜的轮廓特征,从而,所述视线估计模型可以准确定位眼部图像中的眼睛和瞳孔,进一步,可以提升视线估计的精度。
在一些实施方式中,可以是在所述目标损失趋于稳定时,认为神经网络模型收敛,得到所述视线估计模型。本申请实施例所采用的神经网络模型可以是squezenet。
步骤260,将所述眼部图像输入视线估计模型,得到视线向量,所述视线估计模型为根据样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息和标注向量训练神经网络模型得到,所述轮廓标注信息包括眼部轮廓和瞳孔轮廓。
步骤260可参照前述实施例对应部分,在此不再赘述。
需要说明的是,步骤230至步骤240可以是在步骤250之前执行,也可以是在步骤220之前执行,还可以是在步骤210之前执行,具体的执行顺序可根据实际的需要进行选择,在此不做具体限定。
本申请实施例提供的视线估计方法,使用带有轮廓标注信息和标注向量的样本眼部图像输入神经网络模型中,得到与所述样本眼部图像对应的热图,以及与所述样本眼部图像对应的视线向量;根据所述轮廓标注信息和所述热图之间的第一损失,以及所述标注向量和所述视线向量之间的第二损失训练神经网络模型,得到所述视线估计模型。第一损失可以使得视线估计模型具备准确定位眼睛和瞳孔的能力,同时利用第二损失使得视线估计模型具备估计视线向量的能力,从而,在准确定位眼睛和瞳孔的基础上可以进一步可以提升视线估计的精度。
请参阅图4,本申请实施例提供了一种视线估计装置300,所述视线估计装置300包括获取模块310,裁剪模块320,估计模块330。所述获取模块310,用于获取人脸图像;所述裁剪模块320,用于获取人脸图像中的眼部轮廓,并基于所述眼部轮廓从所述人脸图像中裁剪出眼部图像;所述估计模块330,用于将所述眼部图像输入视线估计模型,得到视线向量,所述视线估计模型为根据样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息和标注向量训练神经网络模型得到,所述轮廓标注信息包括眼部轮廓和瞳孔轮廓。
进一步的,所述裁剪模块320还用于使用人脸关键点检测算法检测所述人脸图像,得到眼部轮廓;获取所述眼部轮廓左右边缘的坐标点;根据所述左右边缘的坐标点确定眼部宽度,以及眼部中心点;根据所述眼部中心点以及所述眼部宽度,确定裁剪框;基于所述裁剪框从所述人脸图像中裁剪出眼部图像。
进一步的,所述裁剪模块320还用于根据所述眼部宽度计算第一扩展尺寸和第二扩展尺寸,所述第一扩展尺寸表示在上下方向上的扩展尺寸,所述第二扩展尺寸表示在左右方向上的扩展尺寸;基于所述眼部中心点,在上下方向上各扩展所述第一扩展尺寸,在左右方向上各扩展所述第二扩展尺寸,得到所述裁剪框。
进一步的,所述估计模块330还用于获取样本集,所述样本集包括样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息以及标注向量,所述轮廓标注信息包括眼部轮廓以及瞳孔轮廓;将所述样本眼部图像输入神经网络模型,输出与所述样本眼部图像对应的热图,以及与所述样本眼部图像对应的视线向量;根据所述轮廓标注信息和所述热图之间的第一损失,以及所述标注向量和所述视线向量之间的第二损失训练神经网络模型,得到所述视线估计模型。
进一步的,所述估计模块330还用于计算所述第一损失与所述第二损失的和为目标损失;根据所述目标损失确定所述神经网络模型是否收敛;在所述神经网络模型收敛时,得到所述视线估计模型;在所述神经网络模型未收敛时,调整神经网络模型的参数,直到所述神经网络模型收敛。
进一步的,所述第一损失为交叉熵,所述第二损失为均方误差。
进一步的,所述估计模块330还用于获取样本人脸图像;使用Unity工具标注出所述样本人脸图像中的眼部轮廓以及瞳孔轮廓,得到轮廓标注信息;获取多个标注人员标注所述样本人脸图像得到的多个候选标注向量,通过截尾均值法对所述多个候选标注向量进行计算,得到所述标注向量;获取样本人脸图像中的眼部轮廓,并基于所述眼部轮廓从所述人脸图像中,裁剪出样本眼部图像。
进一步的,所述视线估计装置300还包括后处理模块,在所述将所述眼部图像输入视线估计模型,得到视线向量之后,所述后处理模块用于确定在得到所述视线向量之前接收到预设数量张人脸图像为历史图像;获取与所述历史图像对应的视线向量为历史向量;结合所述历史向量,使用高斯滤波对所述视线向量进行处理得到目标视线向量。
本申请实施例提供的视线估计装置,获取人脸图像;获取人脸图像中的眼部轮廓,并基于所述眼部轮廓从所述人脸图像中裁剪出眼部图像;将所述眼部图像输入视线估计模型,得到视线向量,其中,所述视线估计模型为根据样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息和标注向量训练神经网络模型得到。通过训练神经网络模型得到视线估计模型,基于该视线估计模型对眼部图像进行视线估计,无需额外的硬件设施,成本较低,使用方便快捷,易于广泛使用。并且,使用带有轮廓标注信息和标注向量的样本眼部图像训练得到的视线估计模型,轮廓标注信息中包括的眼部轮廓以及瞳孔轮廓使得视线估计模型可以准确识别眼部图像中的眼部区域和瞳孔区域,进而提升视线估计模型在进行视线估计时的精度。
要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
请参阅图5,本申请实施例提供了一种电子设备的结构框图,该电子设备400包括处理器410以及存储器420以及一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器420中并被配置为由所述一个或多个处理器410执行,所述一个或多个程序配置用于执行上述视线估计的方法。
该电子设备400可以是智能手机、平板电脑等能够运行应用程序的终端设备,还可以是服务器。本申请中的电子设备400可以包括一个或多个如下部件:处理器410、存储器420、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器420中并被配置为由一个或多个处理器410执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
处理器410可以包括一个或者多个处理核。处理器410利用各种接口和线路连接整个电子设备400内的各个部分,通过运行或执行存储在存储器420内的指令、程序、代码集或指令集,以及调用存储在存储器420内的数据,执行电子设备400的各种功能和处理数据。可选地,处理器410可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器410可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器410中,单独通过一块通信芯片进行实现。
存储器420可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器420可用于存储指令、程序、代码、代码集或指令集。存储器420可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备400在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
本申请实施例提供的电子设备,获取人脸图像;获取人脸图像中的眼部轮廓,并基于所述眼部轮廓从所述人脸图像中裁剪出眼部图像;将所述眼部图像输入视线估计模型,得到视线向量,其中,所述视线估计模型为根据样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息和标注向量训练神经网络模型得到。通过训练神经网络模型得到视线估计模型,基于该视线估计模型对眼部图像进行视线估计,无需额外的硬件设施,成本较低,使用方便快捷,易于广泛使用。并且,使用带有轮廓标注信息和标注向量的样本眼部图像训练得到的视线估计模型,轮廓标注信息中包括的眼部轮廓以及瞳孔轮廓使得视线估计模型可以准确识别眼部图像中的眼部区域和瞳孔区域,进而提升视线估计模型在进行视线估计时的精度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (11)

1.一种视线估计方法,其特征在于,所述方法包括:
获取人脸图像;
获取人脸图像中的眼部轮廓,并基于所述眼部轮廓从所述人脸图像中裁剪出眼部图像;
将所述眼部图像输入视线估计模型,得到视线向量,所述视线估计模型为根据样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息和标注向量训练神经网络模型得到,所述轮廓标注信息包括眼部轮廓和瞳孔轮廓。
2.根据权利要求1所述的方法,其特征在于,所述获取人脸图像中的眼部轮廓,并基于所述眼部轮廓从所述人脸图像中,裁剪出眼部图像包括:
使用人脸关键点检测算法检测所述人脸图像,得到眼部轮廓;
获取所述眼部轮廓左右边缘的坐标点;
根据所述左右边缘的坐标点确定眼部宽度,以及眼部中心点;
根据所述眼部中心点以及所述眼部宽度,确定裁剪框;
基于所述裁剪框从所述人脸图像中裁剪出眼部图像。
3.根据权利要求2所述的方法,其特征在于,所述根据所述眼部中心点以及眼部宽度,确定裁剪框,包括:
根据所述眼部宽度计算第一扩展尺寸和第二扩展尺寸,所述第一扩展尺寸表示在上下方向上的扩展尺寸,所述第二扩展尺寸表示在左右方向上的扩展尺寸;
基于所述眼部中心点,在上下方向上各扩展所述第一扩展尺寸,在左右方向上各扩展所述第二扩展尺寸,得到所述裁剪框。
4.根据权利要求1所述的方法,其特征在于,所述视线估计模型通过以下步骤获得:
获取样本集,所述样本集包括样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息以及标注向量,所述轮廓标注信息包括眼部轮廓以及瞳孔轮廓;
将所述样本眼部图像输入神经网络模型,输出与所述样本眼部图像对应的热图,以及与所述样本眼部图像对应的视线向量;
根据所述轮廓标注信息和所述热图之间的第一损失,以及所述标注向量和所述视线向量之间的第二损失训练神经网络模型,得到所述视线估计模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述轮廓标注信息和所述热图之间的第一损失,以及所述标注向量和所述视线向量之间的第二损失训练神经网络模型,得到所述视线估计模型,包括:
计算所述第一损失与所述第二损失的和为目标损失;
根据所述目标损失确定所述神经网络模型是否收敛;
在所述神经网络模型收敛时,得到所述视线估计模型;
在所述神经网络模型未收敛时,调整神经网络模型的参数,直到所述神经网络模型收敛。
6.根据权利要求4或5所述的方法,其特征在于,所述第一损失为交叉熵,所述第二损失为均方误差。
7.根据权利要求4所述的方法,其特征在于,所述获取样本集包括:
获取样本人脸图像;
使用Unity工具标注出所述样本人脸图像中的眼部轮廓以及瞳孔轮廓,得到轮廓标注信息;
获取多个标注人员标注所述样本人脸图像得到的多个候选标注向量,通过截尾均值法对所述多个候选标注向量进行计算,得到所述标注向量;
获取样本人脸图像中的眼部轮廓,并基于所述眼部轮廓从所述人脸图像中,裁剪出样本眼部图像。
8.根据权利要求1所述的方法,其特征在于,所述将所述眼部图像输入视线估计模型,得到视线向量之后还包括:
确定在得到所述视线向量之前接收到预设数量张人脸图像为历史图像;
获取与所述历史图像对应的视线向量为历史向量;
结合所述历史向量,使用高斯滤波对所述视线向量进行处理得到目标视线向量。
9.一种视线估计装置,其特征在于,所述装置包括:
获取模块,用于获取人脸图像;
裁剪模块,用于获取人脸图像中的眼部轮廓,并基于所述眼部轮廓从所述人脸图像中,裁剪出眼部图像;
估计模块,用于将所述眼部图像输入视线估计模型,得到视线向量,所述视线估计模型为根据样本眼部图像,以及与所述样本眼部图像对应的轮廓标注信息和标注向量训练神经网络模型得到,所述轮廓标注信息包括眼部轮廓和瞳孔轮廓。
10.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器,与所述一个或多个处理器电连接;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行如权利要求1至8任一项所述的方法。
11.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至8任一项所述的方法。
CN202110947036.0A 2021-08-18 2021-08-18 视线估计方法、装置、电子设备及存储介质 Active CN113743254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110947036.0A CN113743254B (zh) 2021-08-18 2021-08-18 视线估计方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110947036.0A CN113743254B (zh) 2021-08-18 2021-08-18 视线估计方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113743254A true CN113743254A (zh) 2021-12-03
CN113743254B CN113743254B (zh) 2024-04-09

Family

ID=78731504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110947036.0A Active CN113743254B (zh) 2021-08-18 2021-08-18 视线估计方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113743254B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376114A (zh) * 2022-09-05 2022-11-22 润芯微科技(江苏)有限公司 一种汽车摄像的图像多模态取景方法及系统
CN115862124A (zh) * 2023-02-16 2023-03-28 南昌虚拟现实研究院股份有限公司 视线估计方法、装置、可读存储介质及电子设备

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171152A (zh) * 2017-12-26 2018-06-15 深圳大学 深度学习人眼视线估计方法、设备、系统及可读存储介质
CN108875524A (zh) * 2018-01-02 2018-11-23 北京旷视科技有限公司 视线估计方法、装置、系统和存储介质
CN109740491A (zh) * 2018-12-27 2019-05-10 北京旷视科技有限公司 一种人眼视线识别方法、装置、系统及存储介质
CN110795982A (zh) * 2019-07-04 2020-02-14 哈尔滨工业大学(深圳) 一种基于人体姿态分析的表观视线估计方法
CN110909611A (zh) * 2019-10-29 2020-03-24 深圳云天励飞技术有限公司 一种关注区域检测方法、装置、可读存储介质及终端设备
KR20200079170A (ko) * 2018-12-24 2020-07-02 삼성전자주식회사 시선 추정 방법 및 시선 추정 장치
CN111639702A (zh) * 2020-05-29 2020-09-08 深圳壹账通智能科技有限公司 一种多媒体数据分析方法、设备、服务器及可读存储介质
CN111783742A (zh) * 2020-07-30 2020-10-16 支付宝(杭州)信息技术有限公司 一种防御对抗攻击的图像分类方法、业务决策方法及装置
US20200359875A1 (en) * 2018-04-06 2020-11-19 Olympus Corporation Image processing apparatus, image processing method, and computer-readable recording medium
CN111968235A (zh) * 2020-07-08 2020-11-20 杭州易现先进科技有限公司 一种物体姿态估计方法、装置、系统和计算机设备
CN112017212A (zh) * 2020-08-26 2020-12-01 北京紫光展锐通信技术有限公司 人脸关键点跟踪模型的训练、跟踪方法及系统
CN112381837A (zh) * 2020-11-12 2021-02-19 联想(北京)有限公司 一种图像处理方法及电子设备
CN112529073A (zh) * 2020-12-07 2021-03-19 北京百度网讯科技有限公司 模型训练方法、姿态估计方法、装置及电子设备
CN112767366A (zh) * 2021-01-22 2021-05-07 南京汇川图像视觉技术有限公司 基于深度学习的图像识别方法、装置、设备及存储介质
CN112800815A (zh) * 2019-11-13 2021-05-14 北京卡尔斯通科技有限公司 一种基于深度学习的视线方向估计方法
CN113139471A (zh) * 2021-04-25 2021-07-20 上海商汤智能科技有限公司 目标检测方法及装置、电子设备和存储介质
CN113269148A (zh) * 2021-06-24 2021-08-17 中国平安人寿保险股份有限公司 视线估计方法、装置、计算机设备及存储介质
CN113763348A (zh) * 2021-09-02 2021-12-07 北京格灵深瞳信息技术股份有限公司 图像质量确定方法、装置、电子设备及存储介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171152A (zh) * 2017-12-26 2018-06-15 深圳大学 深度学习人眼视线估计方法、设备、系统及可读存储介质
CN108875524A (zh) * 2018-01-02 2018-11-23 北京旷视科技有限公司 视线估计方法、装置、系统和存储介质
US20200359875A1 (en) * 2018-04-06 2020-11-19 Olympus Corporation Image processing apparatus, image processing method, and computer-readable recording medium
KR20200079170A (ko) * 2018-12-24 2020-07-02 삼성전자주식회사 시선 추정 방법 및 시선 추정 장치
CN109740491A (zh) * 2018-12-27 2019-05-10 北京旷视科技有限公司 一种人眼视线识别方法、装置、系统及存储介质
CN110795982A (zh) * 2019-07-04 2020-02-14 哈尔滨工业大学(深圳) 一种基于人体姿态分析的表观视线估计方法
CN110909611A (zh) * 2019-10-29 2020-03-24 深圳云天励飞技术有限公司 一种关注区域检测方法、装置、可读存储介质及终端设备
CN112800815A (zh) * 2019-11-13 2021-05-14 北京卡尔斯通科技有限公司 一种基于深度学习的视线方向估计方法
CN111639702A (zh) * 2020-05-29 2020-09-08 深圳壹账通智能科技有限公司 一种多媒体数据分析方法、设备、服务器及可读存储介质
CN111968235A (zh) * 2020-07-08 2020-11-20 杭州易现先进科技有限公司 一种物体姿态估计方法、装置、系统和计算机设备
CN111783742A (zh) * 2020-07-30 2020-10-16 支付宝(杭州)信息技术有限公司 一种防御对抗攻击的图像分类方法、业务决策方法及装置
CN112017212A (zh) * 2020-08-26 2020-12-01 北京紫光展锐通信技术有限公司 人脸关键点跟踪模型的训练、跟踪方法及系统
CN112381837A (zh) * 2020-11-12 2021-02-19 联想(北京)有限公司 一种图像处理方法及电子设备
CN112529073A (zh) * 2020-12-07 2021-03-19 北京百度网讯科技有限公司 模型训练方法、姿态估计方法、装置及电子设备
CN112767366A (zh) * 2021-01-22 2021-05-07 南京汇川图像视觉技术有限公司 基于深度学习的图像识别方法、装置、设备及存储介质
CN113139471A (zh) * 2021-04-25 2021-07-20 上海商汤智能科技有限公司 目标检测方法及装置、电子设备和存储介质
CN113269148A (zh) * 2021-06-24 2021-08-17 中国平安人寿保险股份有限公司 视线估计方法、装置、计算机设备及存储介质
CN113763348A (zh) * 2021-09-02 2021-12-07 北京格灵深瞳信息技术股份有限公司 图像质量确定方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376114A (zh) * 2022-09-05 2022-11-22 润芯微科技(江苏)有限公司 一种汽车摄像的图像多模态取景方法及系统
CN115862124A (zh) * 2023-02-16 2023-03-28 南昌虚拟现实研究院股份有限公司 视线估计方法、装置、可读存储介质及电子设备

Also Published As

Publication number Publication date
CN113743254B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
CN109426801B (zh) 一种车道线实例检测方法和装置
CN110874594B (zh) 基于语义分割网络的人体外表损伤检测方法及相关设备
US20210209851A1 (en) Face model creation
JP3962803B2 (ja) 頭部検出装置、頭部検出方法および頭部検出プログラム
CN110046546B (zh) 一种自适应视线追踪方法、装置、系统及存储介质
US9501720B2 (en) Object detection apparatus
CN110363817B (zh) 目标位姿估计方法、电子设备和介质
CN108734078B (zh) 图像处理方法、装置、电子设备、存储介质及程序
CN113743254B (zh) 视线估计方法、装置、电子设备及存储介质
US20190188460A1 (en) Method and device for use in hand gesture recognition
US10394321B2 (en) Information acquiring method, information acquiring apparatus, and user equipment
CN103119623A (zh) 瞳孔检测装置及瞳孔检测方法
CN111325107B (zh) 检测模型训练方法、装置、电子设备和可读存储介质
CN110781728B (zh) 一种人脸朝向估计方法、装置、电子设备及存储介质
JP2012221162A (ja) 対象物検出装置及びプログラム
CN114022748B (zh) 目标识别方法、装置、设备及存储介质
CN114333046A (zh) 舞蹈动作评分方法、装置、设备和存储介质
CN105279764A (zh) 眼睛图像处理设备和方法
US20210166012A1 (en) Information processing apparatus, control method, and non-transitory storage medium
CN112801045B (zh) 一种文本区域检测方法、电子设备及计算机存储介质
CN116563898A (zh) 基于GhostNet网络的掌静脉图像识别方法、装置、设备及介质
KR101844367B1 (ko) 부분 포즈 추정에 의하여 개략적인 전체 초기설정을 사용하는 머리 포즈 추정 방법 및 장치
CN113139486A (zh) 用于处理图像的方法、装置、设备以及存储介质
Wang et al. An accurate iris location method for low quality iris images
US11610385B2 (en) Information processing apparatus, control method, and non-transitory storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant