CN108875524B - 视线估计方法、装置、系统和存储介质 - Google Patents

视线估计方法、装置、系统和存储介质 Download PDF

Info

Publication number
CN108875524B
CN108875524B CN201810001860.5A CN201810001860A CN108875524B CN 108875524 B CN108875524 B CN 108875524B CN 201810001860 A CN201810001860 A CN 201810001860A CN 108875524 B CN108875524 B CN 108875524B
Authority
CN
China
Prior art keywords
eye
human
human eye
point
gaze
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810001860.5A
Other languages
English (en)
Other versions
CN108875524A (zh
Inventor
熊鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhu Maichi Zhixing Technology Co ltd
Original Assignee
Beijing Kuangshi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuangshi Technology Co Ltd filed Critical Beijing Kuangshi Technology Co Ltd
Priority to CN201810001860.5A priority Critical patent/CN108875524B/zh
Publication of CN108875524A publication Critical patent/CN108875524A/zh
Application granted granted Critical
Publication of CN108875524B publication Critical patent/CN108875524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Abstract

本发明提供了一种视线估计方法、装置、系统和存储介质,所述视线估计方法包括:获取待处理的人眼图像;定位所述人眼图像的人眼关键点;以及基于所述人眼关键点确定所述人眼图像中人眼的视线方向。根据本发明实施例的视线估计方法、装置、系统和存储介质利用人眼关键点对人眼图像中的人眼进行视线估计,能够模拟输入特征到视线的复杂映射关系,有效解决浅层模型或线性模型估计不准的问题,从而提高视线估计的精度,且处理速度快。

Description

视线估计方法、装置、系统和存储介质
技术领域
本发明涉及计算机视觉技术领域,更具体地涉及一种视线估计方法、装置、系统和存储介质。
背景技术
在计算机视觉中,视线估计是指基于输入的人脸图像,定位人脸眼睛区域并根据虹膜位置估计人眼视线方向。传统的视线估计方法需要借助于外部设备,如红外光源使得光斑更明显,而且很容易受到光照、遮挡和姿态的影响;或者依赖于人眼睛区域的定位准确性,且很难准确描述人眼特征与视线之间的关系。
因此,需要提供一种新的视线估计方案。
发明内容
本发明提出了一种视线估计方案,其利用人眼关键点对人眼图像中的人眼进行视线估计,能够有效克服浅层模型或线性模型估计不准的缺点。下面简要描述本发明提出的关于视线估计的方案,更多细节将在后续结合附图在具体实施方式中加以描述。
根据本发明一方面,提供了一种视线估计方法,所述视线估计方法包括:获取待处理的人眼图像;定位所述人眼图像的人眼关键点;以及基于所述人眼关键点确定所述人眼图像中人眼的视线方向。
在一个实施例中,所述人眼关键点包括眼睛轮廓点、眼睛中心点、虹膜中心点以及视线投影点。
在一个实施例中,所述基于所述人眼关键点确定所述人眼图像中人眼的视线方向包括:基于所述眼睛轮廓点计算眼睛投影中心;基于所述眼睛投影中心和所述眼睛中心点计算眼睛方向;基于所述虹膜中心点和所述视线投影点计算虹膜方向;以及基于所述眼睛方向和所述虹膜方向计算所述人眼的视线方向。
在一个实施例中,所述基于所述眼睛轮廓点计算眼睛投影中心包括:计算所述眼睛轮廓点的坐标的平均值,以作为所述眼睛投影中心的坐标。
在一个实施例中,所述基于所述眼睛投影中心和所述眼睛中心点计算眼睛方向包括:计算所述眼睛投影中心和所述眼睛中心点之间的偏移量,以确定所述眼睛方向。
在一个实施例中,所述基于所述虹膜中心点和所述视线投影点计算虹膜方向包括:所述虹膜中心点为所述虹膜方向的向量的起点,所述视线投影点为所述虹膜方向的向量的终点。
在一个实施例中,所述基于所述眼睛方向和所述虹膜方向计算所述人眼的视线方向包括:计算所述眼睛方向和所述虹膜方向这两条线的交点,以所述交点为中心的三维坐标对应的角度即为所述视线方向。
在一个实施例中,所述视线估计方法利用训练好的神经网络定位所述人眼图像的人眼关键点,所述神经网络的训练包括:构建人眼样本图像数据库,标注出所述人眼样本图像数据库中每张人眼样本图像的人眼关键点作为标注结果;以及将所述人眼样本图像输入到所述神经网络,并基于梯度下降方法优化所述神经网络的输出结果与所述人眼样本图像的所述标注结果之间的误差,以训练所述神经网络。
在一个实施例中,所述神经网络的训练还包括:对所述人眼样本图像进行预处理,并将经预处理的人眼样本图像作为所述模型的输入。
在一个实施例中,所述对所述人眼样本图像进行预处理包括:使所述每张人眼样本图像与模板人眼图像对齐,所述模板人眼图像为所述人眼样本图像数据库中所有人眼样本图像的平均。
在一个实施例中,所述构建人眼样本图像数据库包括:构建三维人头模型,基于对所述三维人头模型的随机处理得到人眼样本图像以构建所述人眼样本图像数据库。
在一个实施例中,所述构建三维人头模型包括:基于人脸图像通过三维可变形模型获得三维人头模型。
在一个实施例中,所述对所述三维人头模型的随机处理包括下面所述的一项或多项:对所述三维人头模型的随机旋转;对所述三维人头模型的眼睛区域的随机缩放;对所述三维人头模型的眼睛挣闭的随机控制;以及对所述三维人头模型的眼睛的纹理值、光照和阴影的随机设置。
在一个实施例中,所述人眼关键点包括人眼的上下左右四个眼睛轮廓点。
在一个实施例中,所述基于所述人眼关键点确定所述人眼图像中人眼的视线方向包括:基于所述四个眼睛轮廓点预测当前人脸的人脸姿态、虹膜中心点和视线投影点;以及基于所述人脸姿态、所述虹膜中心点和视线投影点计算所述人眼图像中人眼的视线方向。
在一个实施例中,所述视线估计方法利用训练好的神经网络基于所述四个眼睛轮廓点预测当前人脸的人脸姿态、虹膜中心点和视线投影点。
在一个实施例中,所述基于所述人脸姿态、所述虹膜中心点和视线投影点计算所述人眼图像中人眼的视线方向包括:基于所述虹膜中心点和所述视线投影点计算视线点在三维空间的坐标值;以及所述视线点的所述坐标值与所述人脸姿态所对应的三维方向的坐标值之和为所述人眼图像中人眼的视线方向。
根据本发明另一方面,提供了一种用于实现上述任一项所述的视线估计方法的视线估计装置,所述视线估计装置包括:图像获取模块,用于获取待处理的人眼图像;关键点定位模块,用于定位所述图像获取模块获取的所述人眼图像的人眼关键点;以及视线估计模块,用于基于所述关键点定位模块输出的所述人眼关键点确定所述人眼图像中人眼的视线方向。
在一个实施例中,所述人眼关键点包括眼睛轮廓点、眼睛中心点、虹膜中心点以及视线投影点。
在一个实施例中,所述视线估计模块进一步用于:基于所述眼睛轮廓点计算眼睛投影中心;基于所述眼睛投影中心和所述眼睛中心点计算眼睛方向;基于所述虹膜中心点和所述视线投影点计算虹膜方向;以及基于所述眼睛方向和所述虹膜方向计算所述人眼的视线方向。
在一个实施例中,所述视线估计模块基于所述眼睛轮廓点计算眼睛投影中心包括:计算所述眼睛轮廓点的坐标的平均值,以作为所述眼睛投影中心的坐标。
在一个实施例中,所述视线估计模块基于所述眼睛投影中心和所述眼睛中心点计算眼睛方向包括:计算所述眼睛投影中心和所述眼睛中心点之间的偏移量,以确定所述眼睛方向。
在一个实施例中,所述视线估计模块基于所述虹膜中心点和所述视线投影点计算虹膜方向包括:所述虹膜中心点为所述虹膜方向的向量的起点,所述视线投影点为所述虹膜方向的向量的终点。
在一个实施例中,所述视线估计模块基于所述眼睛方向和所述虹膜方向计算所述人眼的视线方向包括:计算所述眼睛方向和所述虹膜方向这两条线的交点,以所述交点为中心的三维坐标对应的角度即为所述视线方向。
在一个实施例中,所述关键点定位模块利用训练好的神经网络定位所述人眼图像的人眼关键点,所述神经网络的训练包括:构建人眼样本图像数据库,标注出所述人眼样本图像数据库中每张人眼样本图像的人眼关键点作为标注结果;以及将所述人眼样本图像输入到所述神经网络,并基于梯度下降方法优化所述神经网络的输出结果与所述人眼样本图像的所述标注结果之间的误差,以训练所述神经网络。
在一个实施例中,所述神经网络的训练还包括:对所述人眼样本图像进行预处理,并将经预处理的人眼样本图像作为所述模型的输入。
在一个实施例中,所述对所述人眼样本图像进行预处理包括:使所述每张人眼样本图像与模板人眼图像对齐,所述模板人眼图像为所述人眼样本图像数据库中所有人眼样本图像的平均。
在一个实施例中,所述构建人眼样本图像数据库包括:构建三维人头模型,基于对所述三维人头模型的随机处理得到人眼样本图像以构建所述人眼样本图像数据库。
在一个实施例中,所述构建三维人头模型包括:基于人脸图像通过三维可变形模型获得三维人头模型。
在一个实施例中,所述对所述三维人头模型的随机处理包括下面所述的一项或多项:对所述三维人头模型的随机旋转;对所述三维人头模型的眼睛区域的随机缩放;对所述三维人头模型的眼睛挣闭的随机控制;以及对所述三维人头模型的眼睛的纹理值、光照和阴影的随机设置。
在一个实施例中,所述人眼关键点包括人眼的上下左右四个眼睛轮廓点。
在一个实施例中,所述视线估计模块基于所述人眼关键点确定所述人眼图像中人眼的视线方向包括:基于所述四个眼睛轮廓点预测当前人脸的人脸姿态、虹膜中心点和视线投影点;以及基于所述人脸姿态、所述虹膜中心点和视线投影点计算所述人眼图像中人眼的视线方向。
在一个实施例中,所述视线估计模块利用训练好的神经网络基于所述四个眼睛轮廓点预测当前人脸的人脸姿态、虹膜中心点和视线投影点。
在一个实施例中,所述视线估计模块基于所述人脸姿态、所述虹膜中心点和视线投影点计算所述人眼图像中人眼的视线方向包括:基于所述虹膜中心点和所述视线投影点计算视线点在三维空间的坐标值;以及所述视线点的所述坐标值与所述人脸姿态所对应的三维方向的坐标值之和为所述人眼图像中人眼的视线方向。
根据本发明又一方面,提供了一种视线估计系统,所述视线估计系统包括存储装置和处理器,所述存储装置上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时执行上述任一项所述的视线估计方法。
根据本发明再一方面,提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序在运行时执行上述任一项所述的视线估计方法。
根据本发明实施例的视线估计方法、装置、系统和存储介质利用人眼关键点对人眼图像中的人眼进行视线估计,能够模拟输入特征到视线的复杂映射关系,有效解决浅层模型或线性模型估计不准的问题,从而提高视线估计的精度,且处理速度快。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1示出用于实现根据本发明实施例的视线估计方法、装置、系统和存储介质的示例电子设备的示意性框图;
图2示出根据本发明实施例的视线估计方法的示意性流程图;
图3示出根据本发明实施例的视线估计方法所利用的神经网络的训练中使用的人眼样本图像的示例性示意图;
图4示出根据本发明实施例的视线估计方法得到的人眼关键点的示例性示意图;
图5示出根据本发明实施例的视线估计装置的示意性框图;以及
图6示出根据本发明实施例的视线估计系统的示意性框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
首先,参照图1来描述用于实现本发明实施例的视线估计方法、装置、系统和存储介质的示例电子设备100。
如图1所示,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述图像采集装置110可以采集用户期望的图像(例如照片、视频等),并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是摄像头。应当理解,图像采集装置110仅是示例,电子设备100可以不包括图像采集装置110。在这种情况下,可以利用具有图像采集能力的部件采集待处理图像,并将采集的待处理图像发送给电子设备100。
示例性地,用于实现根据本发明实施例的视线估计方法和装置的示例电子设备可以被实现诸如智能手机、平板电脑等等移动终端。
下面,将参考图2描述根据本发明实施例的视线估计方法200。如图2所示,视线估计方法200可以包括如下步骤:
在步骤S210,获取待处理的人眼图像。
在一个示例中,可以从需要对其进行视线估计的人脸图像中定位出眼部区域图像来获取待处理的人眼图像。在另一个示例中,待处理的人眼图像可以为来自任何其他方法得到的人眼图像。在本文中,将获取的待进行视线估计的人眼图像称为待处理的人眼图像仅为了与后文中将描述的训练神经网络时采用的人眼样本图像相区别而如此命名,并无任何限制性作用。
在步骤S220,定位所述人眼图像的人眼关键点。
在本发明的实施例中,可以利用训练好的神经网络来定位人眼图像的人眼关键点,从而可以如稍后将描述的步骤S230所述的基于步骤S220得到的人眼关键点确定人眼图像中人眼的视线方向。与基于光斑的几何方法相比较,根据本发明实施例的基于神经网络来进行视线估计的方法无需借助如红外光源等外部设备,也不易受到光照、遮挡和姿态的影响。与基于线性回归的方法相比较,根据本发明实施例的基于神经网络来进行视线估计的方法能够模拟输入特征到视线的复杂映射关系,对人眼的视线估计更为精确,效率也高。
下面结合附图参照具体实施例详细描述本发明实施例的视线估计方法所利用的神经网络的训练及应用。
在一个实施例中,对用于视线估计的神经网络的训练可以包括如下步骤:构建人眼样本图像数据库,标注出所述人眼样本图像数据库中每张人眼样本图像的人眼关键点作为标注结果;以及将所述人眼样本图像输入到所述神经网络,并基于梯度下降方法优化所述神经网络的输出结果与所述人眼样本图像的所述标注结果之间的误差,以训练所述神经网络。
在一个示例中,人眼样本图像数据库的构建可以基于已有人脸图像数据库。例如,可以对已有人脸图像数据库中的大量人脸图像进行眼部区域定位提取而得到大量的人眼样本图像,然后对得到的人眼样本图像进行人眼关键点的标注。基于已有人脸图像数据库构建人眼样本图像数据库能够充分利用现有数据,提高效率。
在另一个示例中,可以构建三维人头模型,基于对该三维人头模型的随机处理得到大量的人眼样本图像。示例性地,可以基于人脸图像通过三维可变形模型(3DMM)获得三维人头模型。具体地,可基于任意一张人脸图像通过三维可变形模型获得对应的三维人头模型,该模型的人脸参数可即时获得。基于此,可对该模型进行随机处理,以得到任意人脸参数的三维人头模型,在模型的眼睛区域即可直接裁剪出各种人眼样本图像。
示例性地,对所述三维人头模型的随机处理可以包括下面中的一项或多项:对所述三维人头模型的随机旋转;对所述三维人头模型的眼睛区域的随机缩放;对所述三维人头模型的眼睛挣闭的随机控制;对所述三维人头模型的眼睛的纹理值、光照和阴影的随机设置;以及能够得到各种不同人眼样本图像的任何其他合适的处理。由于对三维人头模型进行上述随机处理可以得到各种不同的人头图像,从而可以得到大量的人眼样本图像。
基于构建三维人头模型来构建人眼样本图像数据库的优势在于,三维人头模型上的所有点都是已知的,因此,在生成各种人眼样本图像时,人眼样本图像中人眼的所有点(包括各种人眼关键点)均可直接获得,从而直接获得人眼关键点的位置而无需再行标注,相当于直接获得标注结果。这样,不仅能够节约时间,提高效率,更使得对人眼样本图像中人眼关键点的标注准确无误。当然,基于三维人头模型构建的人眼样本图像(例如如图3所示的人眼样本图像)与真实人眼图像可能存在一些差距,但由于眼睛区域较小,因此在实际应用中这点差距不会对真实性能造成影响。
在一个实施例中,对人眼样本图像所标注的人眼关键点可以包括眼睛轮廓点、眼睛中心点、虹膜中心点以及视线投影点。其中,眼睛轮廓点可以理解为眼睛的外轮廓上沿着眼睛一圈的边缘点,例如如图4所示的,点a、b、c和d为眼睛轮廓点中的上下左右四个参考点。眼睛中心点可以理解为眼睛的中心位置,例如如图4所示的点p0,该位置为眼睛的实际中心,当人脸存在角度时,p0偏移到角度对应的方向(例如人脸朝左时,p0也朝左偏,人脸朝右时,p0也朝右偏)。虹膜中心点可以理解为虹膜的中心位置,例如如图4所示的点p1,该位置为视线的起点。视线投影点可以理解为视线方向上距离视线起点(即p1)为单位长度距离的点,例如如图4所示的点p2。在本发明的实施例中,单位长度可以表示双眼距离为10像素时的单位长度,即该单位长度为1像素的距离。由于视线方向的起点为虹膜中心点,终点应为视线所注视的对象处,但为了计算简单,取视线方向上距离视线起点为单位长度距离的点,并基于该点与视线起点表示视线方向,即如图4所示的,p2-p1即表示视线方向。
在本发明的实施例中,可以对人眼样本图像标注出如图4所示的那些人眼关键点。当然,眼睛轮廓点也可以标注出不止4个,可根据实际需要来设置。此外,也可以标注其他可用于视线估计的图4中未示出的人眼关键点。
在一个实施例中,准备好人眼样本图像并对其标注人眼关键点之后,可以直接采用这些人眼样本图像来训练神经网络。在另一个实施例中,在训练神经网络之前,可以先对这些人眼样本图像进行预处理,再采用经预处理的人眼样本图像来训练神经网络,这样可以降低神经网络进行深度学习的难度,提高训练效率。例如,可以先对人眼样本图像进行归一化处理,即使得所有人眼样本图像均具有相同的尺寸,这样可以消除人脸姿态/角度的影响,降低训练难度。
具体地,归一化处理可以包括将每张人眼样本图像通过旋转、缩放等操作以使其与模板人眼图像对齐。例如,可以通过将每张人眼样本图像的上下左右四个眼睛轮廓点分别与模板人眼图像的上下左右四个眼睛轮廓点对齐来使人眼样本图像与模板人眼图像对齐。其中,模板人眼图像可以为所有人眼样本图像的平均,模板人眼图像的上下左右四个眼睛轮廓点的坐标例如分别为(0.1,0.5)、(0.5,0.1)、(0.9,0.5)、(0.5,0.9)。
基于人眼样本图像与模板人眼图像各自的四个轮廓点,可以拟合出从人眼样本图像到模板人眼图像的仿射变换矩阵F,F为描述两组点之间旋转平移缩放的仿射变换矩阵。基于该仿射变换矩阵F旋转人眼样本图像中的每一个像素点,即得到对齐后的图像。由于仿射变换矩阵把每一个像素点归一化到(0,1)之间,因此可以将每一个像素点分别乘以预定的宽度值(例如48)和预定的高度值(例如24),从而得到合适大小的用于训练的人眼样本图像。
经上述归一化处理后的人眼样本图像具有相同的尺寸,且消除了姿态的影响。在归一化之后的人眼样本图像上,眼睛轮廓点、眼睛中心点、虹膜中心点及视线投影点均归一化到相应的位置。归一化后的人眼关键点的所有值即为后续神经网络模型回归的目标。如前所述,在一个实施例中,待训练的神经网络将被训练准确输出的人眼关键点可以包括4个眼睛轮廓点、1个眼睛中心点、1个虹膜中心点以及1个视线投影点,共有7个点组成14维向量。在其他实施例中,也可以训练神经网络输出其他数目的上述人眼关键点;此外,还可以训练神经网络输出可用于视线估计的其他人眼关键点。
在准备好人眼样本图像后,可采用准备好的人眼样本图像(例如经预处理的人眼样本图像)对所构建的神经网络的模型进行训练。构建待训练的神经网络的模型以及人眼样本图像的准备这两者可以没有特定的先后顺序,也可以并行进行。在一个示例中,可以采用轻量级的深度模型作为待训练的神经网络的模型,该神经网络的模型例如以残差网络(resnet)为基础,包括多个卷积层和池化层,通过调节模型参数的分布实现性能和速度均更优的模型结构。在训练时,可以基于梯度下降方法来优化模型的输出结果(即输出的人眼关键点)与人眼样本图像的标注结果(即先前标注的人眼关键点)之间的误差,以得到训练好的神经网络。
现在返回继续参考图2,基于训练好的神经网络,在步骤S220可以针对步骤S210获取的待处理的人眼图像输出人眼关键点,例如输出包括4个眼睛轮廓点、1个眼睛中心点、1个虹膜中心点、以及1个视线投影点的14维向量。与前述的示例相应的,如果在训练神经网络时是采用经预处理(例如归一化处理)的人眼样本图像,那么在利用训练好的神经网络处理获取的待处理的人眼图像之前,可以先对待处理的人眼图像进行预处理,然后针对经预处理的人眼图像输出人眼关键点,随后可基于仿射变化矩阵得到实际的人眼关键点。
在步骤S230,基于所述人眼关键点确定所述人眼图像中人眼的视线方向。
在一个实施例中,基于神经网络的输出,得到待处理人眼图像中人眼的眼睛轮廓点、眼睛中心点、虹膜中心点以及视线投影点,可基于这些人眼关键点对待处理人眼图像中的人眼进行视线估计。在一个实施例中,基于所述人眼关键点对所述人眼图像中的人眼进行视线估计可以是结合几何估计的过程,其包括:基于所述眼睛轮廓点计算眼睛投影中心;基于所述眼睛投影中心和所述眼睛中心点计算眼睛方向;基于所述虹膜中心点和所述视线投影点计算虹膜方向;以及基于所述眼睛方向和所述虹膜方向计算所述人眼的视线方向。
其中,可以基于四个眼睛轮廓点坐标的平均值来计算眼睛投影中心的位置。例如,将四个眼睛轮廓点在x轴上的坐标的平均值作为眼睛投影中心的x坐标,将四个眼睛轮廓点在y轴上的坐标的平均值作为眼睛投影中心的y坐标。在人脸角度为零度(即完全正向面对镜头没有人脸角度偏移)时,眼睛投影中心与眼睛中心点应该是重合的。因此,考虑到人脸可能存在非零角度的情况下,可以基于眼睛投影中心与眼睛中心点之间的偏移量计算眼睛方向(即人脸角度),以用于后续在计算视线方向时使用。具体地,假定眼睛投影中心的坐标为(x0,y0),眼睛中心点的坐标(x1,y1),则眼睛方向可以为atan(y1-y0,x1-x0),该眼睛方向可以视为人脸角度的yaw值,假定roll和pitch均为0,可得到人脸角度为(pitch,yaw,roll)。此外,可以基于视线投影点与虹膜中心点来确定虹膜方向。具体地,所述虹膜中心点为所述虹膜方向的向量的起点,所述视线投影点为所述虹膜方向的向量的终点。同样地,在人脸角度为零度时,虹膜方向与视线方向应该是一致的。因此,基于前述计算的人脸角度以及所计算的虹膜方向,可以最终得到人眼的视线方向。
示例性地,可以基于眼睛中心点和眼睛投影中心建立眼球的三维空间坐标。可以基于虹膜中心点和视线投影点计算出视线的三维方向。在真实的三维空间中,可以计算视线投影点和虹膜中心点的连线延长线与眼睛中心点和眼睛投影中心的连线延长线的交点,对应的视线方向为以该交点为中心的三维坐标对应的角度。
例如,如前所述的基于眼睛投影中心和眼睛中心点可以得到人脸角度(pitch,yaw,roll);基于虹膜中心点(例如图4所示的p1)和视线投影点(例如图4所示的p2)得到视线点的二维坐标值(dx,dy)=(p1-p2),由于是视线投影点是视线方向上距离视线起点为单位长度距离的点,视线点的三维空间坐标中的另一维度坐标dz=sqrt(1-dx*dx-dy*dy)。因此,视线点在三维空间的坐标值为以虹膜中心点为圆心的坐标系下的点(dx,dy,dz)。基于(dx,dy,dz)可以折算为三维角度(atan(dy,dz),atan(dx,dz),atan(dx,dy)),则人眼视线的真实方向为(dx,dy,dz)+(pitch,yaw,roll)。
在另一个实施例中,步骤S220中定位的关键点可以仅包括人眼图像中人眼的上下左右四个眼睛轮廓点(例如如图4所示的点a、b、c和d)。基于此,步骤S230中基于所述人眼关键点确定所述人眼图像中人眼的视线方向可以包括:基于所述四个眼睛轮廓点预测当前人脸的人脸姿态、虹膜中心点和视线投影点;以及基于所述人脸姿态、所述虹膜中心点和视线投影点计算所述人眼图像中人眼的视线方向。
示例性地,可以利用训练好的神经网络基于所述四个眼睛轮廓点预测当前人脸的人脸姿态、虹膜中心点和视线投影点。与上一个实施例中相类似地,可以通过构建三维人头模型来构建用于训练神经网络的人眼样本图像数据库。
例如,可以从一张人脸图像获得对应的三维人头模型,该模型的3d姿态可以同时获得。任意一张人脸图像都可以由y=f(x)+g(x),其中f表示该人脸的形状信息,g表示该人脸的纹理信息。形状表示不同的脸型,纹理表示不同的肤色材质。形状参数里包含三个部分:姿态参数、形状参数和表情参数。姿态对应当前人脸的姿态,也就是3d姿态。形状通常是一个20维向量,用来描述人脸形状。表情通常是另一组20维向量,用来描述人脸表情。
通过随机调节该人脸的姿态参数和形状参数可以获得该人脸的各种变形。随机调节纹理参数可以获得该人脸不同肤色的图像。因为基于该模型可以获得无数的人脸图像,同时,由于已经获得了人脸的三维模型,基于这个三维模型额外做一个眼睛模型,这个模型同样可以和人头模型一样旋转、变形。基于这两个模型,就可以得到任意姿态、任意肤色、任意眼睛方向、和任意眼睛状态(睁闭眼)的人眼样本图像(在模型对应的眼睛区域直接裁剪同样大小的图像)。每张图像其人脸姿态、眼睛轮廓点、虹膜中心点和视线投影点均为已知。
基于上述得到的大量人眼样本图像,可先对进行如上一个实施例中所述的预处理,然后训练一个深度学习的模型,该模型用来估计当前人脸的人脸姿态、虹膜中心点和视线投影点。也就是说,该模型输出值包括人脸姿态(三维向量)以及虹膜中心点(二维向量)与视线投影点(二维向量)。
在该实施例中,对于任意的待处理人眼图像,可以首先定位出人眼的上下左右四个眼睛轮廓点,然后基于该四点对齐人眼区域,接着基于上述训练好的模型预测该人眼对应的人脸姿态、虹膜中心点和视线投影点。最后,基于所述人脸姿态、所述虹膜中心点和视线投影点计算所述人眼图像中人眼的视线方向。
示例性地,基于所述人脸姿态、所述虹膜中心点和视线投影点计算所述人眼图像中人眼的视线方向可以包括:基于所述虹膜中心点和所述视线投影点计算视线点在三维空间的坐标值;以及所述视线点的所述坐标值与所述人脸姿态所对应的三维方向的坐标值之和为所述人眼图像中人眼的视线方向。
例如,人脸姿态的三维坐标为(pitch,yaw,roll);基于虹膜中心点(例如图4所示的p1)和视线投影点(例如图4所示的p2)得到视线点的二维坐标值(dx,dy)=(p1-p2),由于是视线投影点是视线方向上距离视线起点为单位长度距离的点,视线点的三维空间坐标中的另一维度坐标dz=sqrt(1-dx*dx-dy*dy)。因此,视线点在三维空间的坐标值为以虹膜中心点为圆心的坐标系下的点(dx,dy,dz)。基于(dx,dy,dz)可以折算为三维角度(atan(dy,dz),atan(dx,dz),atan(dx,dy)),则人眼视线的真实方向为(dx,dy,dz)+(pitch,yaw,roll)。
基于上面的描述,根据本发明实施例的视线估计方法利用人眼关键点对人眼图像中的人眼进行视线估计,能够模拟输入特征到视线的复杂映射关系,有效解决浅层模型或线性模型估计不准的问题,从而提高视线估计的精度,且处理速度快。
以上示例性地描述了根据本发明实施例的视线估计方法,其利用深度学习的方法,可以解决实现估计与视线跟踪问题,能够很好地用于活体检测等领域。示例性地,根据本发明实施例的视线估计方法可以在具有存储器和处理器的设备、装置或者系统中实现。
此外,根据本发明实施例的视线估计方法可以方便地部署到智能手机、平板电脑、个人计算机等移动设备上。替代地,根据本发明实施例的视线估计方法还可以部署在服务器端(或云端)。替代地,根据本发明实施例的视线估计方法还可以分布地部署在服务器端(或云端)和个人终端处。
下面结合图5描述本发明另一方面提供的视线估计装置。图5示出了根据本发明实施例的视线估计装置500的示意性框图。
如图5所示,根据本发明实施例的视线估计装置500包括图像获取模块510、关键点定位模块520和视线估计模块530。所述各个模块可分别执行上文中结合图2描述的视线估计方法的各个步骤/功能。以下仅对视线估计装置500的各模块的主要功能进行描述,而省略以上已经描述过的细节内容。
图像获取模块510用于获取待处理的人眼图像。关键点定位模块520用于定位所述图像获取模块获取的所述人眼图像的人眼关键点。视线估计模块530用于基于所述关键点定位模块输出的所述人眼关键点确定所述人眼图像中人眼的视线方向。图像获取模块510、关键点定位模块520和视线估计模块530均可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。
在一个示例中,图像获取模块510可以从需要对其进行视线估计的人脸图像中定位出眼部区域图像来获取待处理的人眼图像。在另一个示例中,图像获取模块510可以获取来自任何源的人眼图像。
在一个实施例中,关键点定位模块520可以利用训练好的神经网络来定位人眼图像的人眼关键点。示例性地,该神经网络的训练可以包括:构建人眼样本图像数据库,标注出所述人眼样本图像数据库中每张人眼样本图像的人眼关键点作为标注结果;以及将所述人眼样本图像输入到所述神经网络,并基于梯度下降方法优化所述神经网络的输出结果与所述人眼样本图像的所述标注结果之间的误差,以训练所述神经网络。在一个实施例中,关键点定位模块520所利用的用于视线估计的神经网络的训练还可以包括:对所述人眼样本图像进行预处理,并将经预处理的人眼样本图像作为所述模型的输入。
在一个示例中,人眼样本图像数据库的构建可以基于已有人脸图像数据库。例如,可以对已有人脸图像数据库中的大量人脸图像进行眼部区域定位提取而得到大量的人眼样本图像以构建人眼样本图像数据库。在另一个示例中,可以构建三维人头模型,基于对该三维人头模型的随机处理得到大量的人眼样本图像,以构建人眼样本图像数据库。示例性地,可以基于人脸图像通过三维可变形模型(3DMM)获得三维人头模型。具体地,可基于任意一张人脸图像通过三维可变形模型获得对应的三维人头模型,该模型的人脸参数可即时获得。基于此,可对该模型进行随机处理,以得到任意人脸参数的三维人头模型,在模型的眼睛区域即可直接裁剪出各种人眼样本图像。
示例性地,对所述三维人头模型的随机处理可以包括下面中的一项或多项:对所述三维人头模型的随机旋转;对所述三维人头模型的眼睛区域的随机缩放;对所述三维人头模型的眼睛挣闭的随机控制;对所述三维人头模型的眼睛的纹理值、光照和阴影的随机设置;以及能够得到各种不同人眼样本图像的任何其他合适的处理。由于对三维人头模型进行上述随机处理可以得到各种不同的人头图像,从而可以得到大量的人眼样本图像。可以参照前文结合图2到图4描述的神经网络的训练理解关键点定位模块520所利用的神经网络的训练,为了简洁,此处不再赘述。
基于训练好的神经网络,关键点定位模块520针对图像获取模块510获取的待处理的人眼图像输出人眼关键点。示例性地,关键点定位模块520针对图像获取模块510获取的待处理的人眼图像输出的人眼关键点可以包括眼睛轮廓点、眼睛中心点、虹膜中心点以及视线投影点。可以参照前文结合图4所描述的人眼关键点理解关键点定位模块520输出的人眼关键点,为了简洁,此处不再赘述。示例性地,关键点定位模块520可以针对图像获取模块510获取的待处理的人眼图像输出包括4个眼睛轮廓点、1个眼睛中心点、1个虹膜中心点、以及1个视线投影点的14维向量。
在一个实施例中,视线估计模块530可以对神经网络输出的人眼关键点对待处理人眼图像中的人眼进行视线估计。在一个实施例中,视线估计模块530可以结合几何估计的过程进行视线估计,包括:基于所述眼睛轮廓点计算眼睛投影中心;基于所述眼睛投影中心和所述眼睛中心点计算眼睛方向;基于所述虹膜中心点和所述视线投影点计算虹膜方向;基于所述眼睛方向和所述虹膜方向计算所述人眼的视线方向。
其中,视线估计模块530可以基于四个眼睛轮廓点坐标的平均值来计算眼睛投影中心的位置。在人脸角度为零度(即完全正向面对镜头没有人脸角度偏移)时,眼睛投影中心与眼睛中心点应该是重合的。因此,考虑到人脸可能存在非零角度的情况下,视线估计模块530可以基于眼睛投影中心与眼睛中心点之间的偏移量计算眼睛方向(即人脸角度),以用于后续在计算视线方向时使用。此外,视线估计模块530可以基于视线投影点与虹膜中心点来确定虹膜方向。同样地,在人脸角度为零度时,虹膜方向与视线方向应该是一致的。因此,基于前述计算的人脸角度以及所计算的虹膜方向,视线估计模块530可以最终得到人眼的视线方向。
示例性地,视线估计模块530可以基于眼睛中心点和眼睛投影中心建立眼球的三维空间坐标。视线估计模块530可以基于虹膜中心点和视线投影点计算出视线的三维方向。在真实的三维空间中,视线估计模块530可以计算视线投影点和虹膜中心点的连线延长线与眼睛中心点和眼睛投影中心的连线延长线的交点,对应的视线方向为以该交点为中心的三维坐标对应的角度。
在另一个实施例中,关键点定位模块520定位的关键点可以仅包括人眼图像中人眼的上下左右四个眼睛轮廓点(例如如图4所示的点a、b、c和d)。基于此,视线估计模块530基于所述人眼关键点确定所述人眼图像中人眼的视线方向可以包括:基于所述四个眼睛轮廓点预测当前人脸的人脸姿态、虹膜中心点和视线投影点;以及基于所述人脸姿态、所述虹膜中心点和视线投影点计算所述人眼图像中人眼的视线方向。
示例性地,视线估计模块530可以利用训练好的神经网络基于所述四个眼睛轮廓点预测当前人脸的人脸姿态、虹膜中心点和视线投影点。与上一个实施例中相类似地,可以通过构建三维人头模型来构建用于训练神经网络的人眼样本图像数据库。
例如,可以从一张人脸图像获得对应的三维人头模型,该模型的3d姿态可以同时获得。任意一张人脸图像都可以由y=f(x)+g(x),其中f表示该人脸的形状信息,g表示该人脸的纹理信息。形状表示不同的脸型,纹理表示不同的肤色材质。形状参数里包含三个部分:姿态参数、形状参数和表情参数。姿态对应当前人脸的姿态,也就是3d姿态。形状通常是一个20维向量,用来描述人脸形状。表情通常是另一组20维向量,用来描述人脸表情。
通过随机调节该人脸的姿态参数和形状参数可以获得该人脸的各种变形。随机调节纹理参数可以获得该人脸不同肤色的图像。因为基于该模型可以获得无数的人脸图像,同时,由于已经获得了人脸的三维模型,基于这个三维模型额外做一个眼睛模型,这个模型同样可以和人头模型一样旋转、变形。基于这两个模型,就可以得到任意姿态、任意肤色、任意眼睛方向、和任意眼睛状态(睁闭眼)的人眼样本图像(在模型对应的眼睛区域直接裁剪同样大小的图像)。每张图像其人脸姿态、眼睛轮廓点、虹膜中心点和视线投影点均为已知。
基于上述得到的大量人眼样本图像,可先对进行如上一个实施例中所述的预处理,然后训练一个深度学习的模型,该模型用来估计当前人脸的人脸姿态、虹膜中心点和视线投影点。也就是说,该模型输出值包括人脸姿态(三维向量)以及虹膜中心点(二维向量)与视线投影点(二维向量)。
在该实施例中,对于任意的待处理人眼图像,关键点定位模块520可以定位出人眼的上下左右四个眼睛轮廓点,然后基于该四点对齐人眼区域,接着由视线估计模块530基于上述训练好的模型预测该人眼对应的人脸姿态、虹膜中心点和视线投影点。最后,视线估计模块530基于所述人脸姿态、所述虹膜中心点和视线投影点计算所述人眼图像中人眼的视线方向。
示例性地,视线估计模块530基于所述人脸姿态、所述虹膜中心点和视线投影点计算所述人眼图像中人眼的视线方向可以包括:基于所述虹膜中心点和所述视线投影点计算视线点在三维空间的坐标值;以及所述视线点的所述坐标值与所述人脸姿态所对应的三维方向的坐标值之和为所述人眼图像中人眼的视线方向。
基于上面的描述,根据本发明实施例的视线估计装置利用人眼关键点对人眼图像中的人眼进行视线估计,能够模拟输入特征到视线的复杂映射关系,有效解决浅层模型或线性模型估计不准的问题,从而提高视线估计的精度,且处理速度快。
图6示出了根据本发明实施例的视线估计系统600的示意性框图。视线估计系统600包括存储装置610以及处理器620。
其中,存储装置610存储用于实现根据本发明实施例的视线估计方法中的相应步骤的程序代码。处理器620用于运行存储装置610中存储的程序代码,以执行根据本发明实施例的视线估计方法的相应步骤,并且用于实现根据本发明实施例的视线估计装置中的相应模块。此外,视线估计系统600还可以包括图像采集装置(未在图6中示出),其可以用于采集待处理的人眼图像。当然,图像采集装置不是必需的,可直接接收来自其他源的待处理人眼图像的输入。
在一个实施例中,在所述程序代码被处理器620运行时使得视线估计系统600执行以下步骤:获取待处理的人眼图像;定位所述人眼图像的人眼关键点;以及基于所述人眼关键点确定所述人眼图像中人眼的视线方向。
在一个实施例中,所述人眼关键点包括眼睛轮廓点、眼睛中心点、虹膜中心点以及视线投影点。
在一个实施例中,在所述程序代码被处理器620运行时使得视线估计系统600执行的所述基于所述人眼关键点确定所述人眼图像中人眼的视线方向包括:基于所述眼睛轮廓点计算眼睛投影中心;基于所述眼睛投影中心和所述眼睛中心点计算眼睛方向;基于所述虹膜中心点和所述视线投影点计算虹膜方向;以及基于所述眼睛方向和所述虹膜方向计算所述人眼的视线方向。
在一个实施例中,在所述程序代码被处理器620运行时使得视线估计系统600执行的所述基于所述眼睛轮廓点计算眼睛投影中心包括:计算所述眼睛轮廓点的坐标的平均值,以作为所述眼睛投影中心的坐标。
在一个实施例中,在所述程序代码被处理器620运行时使得视线估计系统600执行的所述基于所述眼睛投影中心和所述眼睛中心点计算眼睛方向包括:计算所述眼睛投影中心和所述眼睛中心点之间的偏移量,以确定所述眼睛方向。
在一个实施例中,在所述程序代码被处理器620运行时使得视线估计系统600执行的所述基于所述虹膜中心点和所述视线投影点计算虹膜方向包括:所述虹膜中心点为所述虹膜方向的向量的起点,所述视线投影点为所述虹膜方向的向量的终点。
在一个实施例中,在所述程序代码被处理器620运行时使得视线估计系统600执行的所述基于所述眼睛方向和所述虹膜方向计算所述人眼的视线方向包括:计算所述眼睛方向和所述虹膜方向这两条线的交点,以所述交点为中心的三维坐标对应的角度即为所述视线方向。
在一个实施例中,在所述程序代码被处理器620运行时使得视线估计系统600执行的所述定位所述人眼图像的人眼关键点是基于训练好的神经网络,所述神经网络的训练包括:构建人眼样本图像数据库,标注出所述人眼样本图像数据库中每张人眼样本图像的人眼关键点作为标注结果;以及将所述人眼样本图像输入到所述神经网络,并基于梯度下降方法优化所述神经网络的输出结果与所述人眼样本图像的所述标注结果之间的误差,以训练所述神经网络。
在一个实施例中,所述神经网络的训练还包括:对所述人眼样本图像进行预处理,并将经预处理的人眼样本图像作为所述模型的输入。
在一个实施例中,所述对所述人眼样本图像进行预处理包括:使所述每张人眼样本图像与模板人眼图像对齐,所述模板人眼图像为所述人眼样本图像数据库中所有人眼样本图像的平均。
在一个实施例中,所述构建人眼样本图像数据库包括:构建三维人头模型,基于对所述三维人头模型的随机处理得到人眼样本图像以构建所述人眼样本图像数据库。
在一个实施例中,所述构建三维人头模型包括:基于人脸图像通过三维可变形模型获得三维人头模型。
在一个实施例中,所述对所述三维人头模型的随机处理包括下面所述的一项或多项:对所述三维人头模型的随机旋转;对所述三维人头模型的眼睛区域的随机缩放;对所述三维人头模型的眼睛挣闭的随机控制;以及对所述三维人头模型的眼睛的纹理值、光照和阴影的随机设置。
在一个实施例中,所述人眼关键点包括人眼的上下左右四个眼睛轮廓点。
在一个实施例中,在所述程序代码被处理器620运行时使得视线估计系统600执行的所述基于所述人眼关键点确定所述人眼图像中人眼的视线方向包括:基于所述四个眼睛轮廓点预测当前人脸的人脸姿态、虹膜中心点和视线投影点;以及基于所述人脸姿态、所述虹膜中心点和视线投影点计算所述人眼图像中人眼的视线方向。
在一个实施例中,在所述程序代码被处理器620运行时使得视线估计系统600执行的所述基于所述四个眼睛轮廓点预测当前人脸的人脸姿态、虹膜中心点和视线投影点是基于训练好的神经网络。
在一个实施例中,在所述程序代码被处理器620运行时使得视线估计系统600执行的所述基于所述人脸姿态、所述虹膜中心点和视线投影点计算所述人眼图像中人眼的视线方向包括:基于所述虹膜中心点和所述视线投影点计算视线点在三维空间的坐标值;以及所述视线点的所述坐标值与所述人脸姿态所对应的三维方向的坐标值之和为所述人眼图像中人眼的视线方向。
此外,根据本发明实施例,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的视线估计方法的相应步骤,并且用于实现根据本发明实施例的视线估计装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。
在一个实施例中,所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的视线估计装置的各个功能模块,并且/或者可以执行根据本发明实施例的视线估计方法。
在一个实施例中,所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行以下步骤:获取待处理的人眼图像;定位所述人眼图像的人眼关键点;以及基于所述人眼关键点确定所述人眼图像中人眼的视线方向。
在一个实施例中,所述人眼关键点包括眼睛轮廓点、眼睛中心点、虹膜中心点以及视线投影点。
在一个实施例中,所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述基于所述人眼关键点确定所述人眼图像中人眼的视线方向包括:基于所述眼睛轮廓点计算眼睛投影中心;基于所述眼睛投影中心和所述眼睛中心点计算眼睛方向;基于所述虹膜中心点和所述视线投影点计算虹膜方向;以及基于所述眼睛方向和所述虹膜方向计算所述人眼的视线方向。
在一个实施例中,所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述基于所述眼睛轮廓点计算眼睛投影中心包括:计算所述眼睛轮廓点的坐标的平均值,以作为所述眼睛投影中心的坐标。
在一个实施例中,所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述基于所述眼睛投影中心和所述眼睛中心点计算眼睛方向包括:计算所述眼睛投影中心和所述眼睛中心点之间的偏移量,以确定所述眼睛方向。
在一个实施例中,所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述基于所述虹膜中心点和所述视线投影点计算虹膜方向包括:所述虹膜中心点为所述虹膜方向的向量的起点,所述视线投影点为所述虹膜方向的向量的终点。
在一个实施例中,所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述基于所述眼睛方向和所述虹膜方向计算所述人眼的视线方向包括:计算所述眼睛方向和所述虹膜方向这两条线的交点,以所述交点为中心的三维坐标对应的角度即为所述视线方向。
在一个实施例中,所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的定位所述人眼图像的人眼关键点是基于训练好的神经网络,所述神经网络的训练包括:构建人眼样本图像数据库,标注出所述人眼样本图像数据库中每张人眼样本图像的人眼关键点作为标注结果;以及将所述人眼样本图像输入到所述神经网络,并基于梯度下降方法优化所述神经网络的输出结果与所述人眼样本图像的所述标注结果之间的误差,以训练所述神经网络。
在一个实施例中,所述神经网络的训练还包括:对所述人眼样本图像进行预处理,并将经预处理的人眼样本图像作为所述模型的输入。
在一个实施例中,所述对所述人眼样本图像进行预处理包括:使所述每张人眼样本图像与模板人眼图像对齐,所述模板人眼图像为所述人眼样本图像数据库中所有人眼样本图像的平均。
在一个实施例中,所述构建人眼样本图像数据库包括:构建三维人头模型,基于对所述三维人头模型的随机处理得到人眼样本图像以构建所述人眼样本图像数据库。
在一个实施例中,所述构建三维人头模型包括:基于人脸图像通过三维可变形模型获得三维人头模型。
在一个实施例中,所述对所述三维人头模型的随机处理包括下面所述的一项或多项:对所述三维人头模型的随机旋转;对所述三维人头模型的眼睛区域的随机缩放;对所述三维人头模型的眼睛挣闭的随机控制;以及对所述三维人头模型的眼睛的纹理值、光照和阴影的随机设置。
在一个实施例中,所述人眼关键点包括人眼的上下左右四个眼睛轮廓点。
在一个实施例中,所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述基于所述人眼关键点确定所述人眼图像中人眼的视线方向包括:基于所述四个眼睛轮廓点预测当前人脸的人脸姿态、虹膜中心点和视线投影点;以及基于所述人脸姿态、所述虹膜中心点和视线投影点计算所述人眼图像中人眼的视线方向。
在一个实施例中,所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的基于所述四个眼睛轮廓点预测当前人脸的人脸姿态、虹膜中心点和视线投影点是基于训练好的神经网络。
在一个实施例中,所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行的所述基于所述人脸姿态、所述虹膜中心点和视线投影点计算所述人眼图像中人眼的视线方向包括:基于所述虹膜中心点和所述视线投影点计算视线点在三维空间的坐标值;以及所述视线点的所述坐标值与所述人脸姿态所对应的三维方向的坐标值之和为所述人眼图像中人眼的视线方向。
根据本发明实施例的视线估计装置中的各模块可以通过根据本发明实施例的视线估计的电子设备的处理器运行在存储器中存储的计算机程序指令来实现,或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。
根据本发明实施例的视线估计方法、装置、系统和存储介质利用人眼关键点对人眼图像中的人眼进行视线估计,能够模拟输入特征到视线的复杂映射关系,有效解决浅层模型或线性模型估计不准的问题,从而提高视线估计的精度,且处理速度快。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (18)

1.一种视线估计方法,其特征在于,所述视线估计方法包括:
获取待处理的人眼图像;
定位所述人眼图像的人眼关键点;以及
基于所述人眼关键点确定所述人眼图像中人眼的视线方向;
其中,所述人眼关键点包括眼睛轮廓点、眼睛中心点、虹膜中心点以及视线投影点;
所述基于所述人眼关键点确定所述人眼图像中人眼的视线方向包括:
基于所述眼睛轮廓点计算眼睛投影中心;
基于所述眼睛投影中心和所述眼睛中心点计算眼睛方向;
基于所述虹膜中心点和所述视线投影点计算虹膜方向;以及
基于所述眼睛方向和所述虹膜方向计算所述人眼的视线方向。
2.根据权利要求1所述的视线估计方法,其特征在于,所述基于所述眼睛轮廓点计算眼睛投影中心包括:
计算所述眼睛轮廓点的坐标的平均值,以作为所述眼睛投影中心的坐标。
3.根据权利要求2所述的视线估计方法,其特征在于,所述基于所述眼睛投影中心和所述眼睛中心点计算眼睛方向包括:
计算所述眼睛投影中心和所述眼睛中心点之间的偏移量,以确定所述眼睛方向。
4.根据权利要求3所述的视线估计方法,其特征在于,所述基于所述虹膜中心点和所述视线投影点计算虹膜方向包括:
所述虹膜中心点为所述虹膜方向的向量的起点,所述视线投影点为所述虹膜方向的向量的终点。
5.根据权利要求4所述的视线估计方法,其特征在于,所述基于所述眼睛方向和所述虹膜方向计算所述人眼的视线方向包括:
计算所述眼睛方向和所述虹膜方向这两条线的交点,以所述交点为中心的三维坐标对应的角度即为所述视线方向。
6.根据权利要求1所述的视线估计方法,其特征在于,所述视线估计方法利用训练好的神经网络定位所述人眼图像的人眼关键点,所述神经网络的训练包括:
构建人眼样本图像数据库,标注出所述人眼样本图像数据库中每张人眼样本图像的人眼关键点作为标注结果;以及
将所述人眼样本图像输入到所述神经网络,并基于梯度下降方法优化所述神经网络的输出结果与所述人眼样本图像的所述标注结果之间的误差,以训练所述神经网络。
7.根据权利要求6所述的视线估计方法,其特征在于,所述神经网络的训练还包括:
对所述人眼样本图像进行预处理,并将经预处理的人眼样本图像作为所述神经网络的输入。
8.根据权利要求7所述的视线估计方法,其特征在于,所述对所述人眼样本图像进行预处理包括:
使所述每张人眼样本图像与模板人眼图像对齐,所述模板人眼图像为所述人眼样本图像数据库中所有人眼样本图像的平均。
9.根据权利要求6所述的视线估计方法,其特征在于,所述构建人眼样本图像数据库包括:
构建三维人头模型,基于对所述三维人头模型的随机处理得到人眼样本图像构建所述人眼样本图像数据库。
10.根据权利要求9所述的视线估计方法,其特征在于,所述构建三维人头模型包括:
基于人脸图像通过三维可变形模型获得三维人头模型。
11.根据权利要求9所述的视线估计方法,其特征在于,所述对所述三维人头模型的随机处理包括下面所述的一项或多项:
对所述三维人头模型的随机旋转;
对所述三维人头模型的眼睛区域的随机缩放;
对所述三维人头模型的眼睛挣闭的随机控制;以及
对所述三维人头模型的眼睛的纹理值、光照和阴影的随机设置。
12.根据权利要求1所述的视线估计方法,其特征在于,所述人眼关键点包括人眼的上下左右四个眼睛轮廓点。
13.根据权利要求12所述的视线估计方法,其特征在于,所述基于所述人眼关键点确定所述人眼图像中人眼的视线方向包括:
基于所述四个眼睛轮廓点预测当前人脸的人脸姿态、虹膜中心点和视线投影点;以及
基于所述人脸姿态、所述虹膜中心点和视线投影点计算所述人眼图像中人眼的视线方向。
14.根据权利要求13所述的视线估计方法,其特征在于,所述视线估计方法利用训练好的神经网络基于所述四个眼睛轮廓点预测当前人脸的人脸姿态、虹膜中心点和视线投影点。
15.根据权利要求13所述的视线估计方法,其特征在于,所述基于所述人脸姿态、所述虹膜中心点和视线投影点计算所述人眼图像中人眼的视线方向包括:
基于所述虹膜中心点和所述视线投影点计算视线点在三维空间的坐标值;以及
所述视线点的所述坐标值与所述人脸姿态所对应的三维方向的坐标值之和为所述人眼图像中人眼的视线方向。
16.一种视线估计装置,其特征在于,所述视线估计装置包括:
图像获取模块,用于获取待处理的人眼图像;
关键点定位模块,用于定位所述图像获取模块获取的所述人眼图像的人眼关键点;以及
视线估计模块,用于基于所述关键点定位模块输出的所述人眼关键点确定所述人眼图像中人眼的视线方向;
其中,所述人眼关键点包括眼睛轮廓点、眼睛中心点、虹膜中心点以及视线投影点;
所述视线估计模块基于所述人眼关键点确定所述人眼图像中人眼的视线方向包括:
基于所述眼睛轮廓点计算眼睛投影中心;
基于所述眼睛投影中心和所述眼睛中心点计算眼睛方向;
基于所述虹膜中心点和所述视线投影点计算虹膜方向;以及
基于所述眼睛方向和所述虹膜方向计算所述人眼的视线方向。
17.一种视线估计系统,其特征在于,所述视线估计系统包括存储装置和处理器,所述存储装置上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时执行如权利要求1-15中的任一项所述的视线估计方法。
18.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序在运行时执行如权利要求1-15中的任一项所述的视线估计方法。
CN201810001860.5A 2018-01-02 2018-01-02 视线估计方法、装置、系统和存储介质 Active CN108875524B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810001860.5A CN108875524B (zh) 2018-01-02 2018-01-02 视线估计方法、装置、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810001860.5A CN108875524B (zh) 2018-01-02 2018-01-02 视线估计方法、装置、系统和存储介质

Publications (2)

Publication Number Publication Date
CN108875524A CN108875524A (zh) 2018-11-23
CN108875524B true CN108875524B (zh) 2021-03-02

Family

ID=64325954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810001860.5A Active CN108875524B (zh) 2018-01-02 2018-01-02 视线估计方法、装置、系统和存储介质

Country Status (1)

Country Link
CN (1) CN108875524B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3667462B1 (en) * 2018-12-11 2022-07-13 Tobii AB Screen position estimation
CN109614939B (zh) * 2018-12-13 2022-03-18 四川长虹电器股份有限公司 基于人体姿态估计的“玩手机”行为检测识别方法
CN109635761B (zh) * 2018-12-18 2021-09-10 北京七鑫易维信息技术有限公司 一种虹膜识别图像确定方法、装置、终端设备及存储介质
CN111368589A (zh) * 2018-12-25 2020-07-03 北京三星通信技术研究有限公司 用于视线估计的方法、装置和电子设备
CN109840019B (zh) * 2019-02-22 2023-01-10 网易(杭州)网络有限公司 虚拟人物的控制方法、装置及存储介质
CN109901716B (zh) * 2019-03-04 2022-08-26 厦门美图之家科技有限公司 视线点预测模型建立方法、装置及视线点预测方法
CN110008835B (zh) * 2019-03-05 2021-07-09 成都旷视金智科技有限公司 视线预测方法、装置、系统和可读存储介质
CN111723828A (zh) * 2019-03-18 2020-09-29 北京市商汤科技开发有限公司 注视区域检测方法、装置及电子设备
CN110008930A (zh) * 2019-04-16 2019-07-12 北京字节跳动网络技术有限公司 用于识别动物面部状态的方法和装置
CN110381368A (zh) * 2019-07-11 2019-10-25 北京字节跳动网络技术有限公司 视频封面生成方法、装置及电子设备
CN110555426A (zh) * 2019-09-11 2019-12-10 北京儒博科技有限公司 视线检测方法、装置、设备及存储介质
CN110969084B (zh) * 2019-10-29 2021-03-05 深圳云天励飞技术有限公司 一种关注区域检测方法、装置、可读存储介质及终端设备
CN110909611B (zh) * 2019-10-29 2021-03-05 深圳云天励飞技术有限公司 一种关注区域检测方法、装置、可读存储介质及终端设备
CN112329642B (zh) * 2020-11-06 2021-06-08 重庆第二师范学院 一种监督学习检测方法、系统、电子设备及介质
CN112540676B (zh) * 2020-12-15 2021-06-18 广州舒勇五金制品有限公司 一种基于投影系统的可变信息展示装置
CN113075851B (zh) * 2021-04-02 2022-07-19 深圳吉祥星科技股份有限公司 悬挂式投影装置及其控制方法及可读存储介质
CN113095274B (zh) * 2021-04-26 2024-02-09 中山大学 一种视线估计方法、系统、装置及存储介质
CN113743254B (zh) * 2021-08-18 2024-04-09 北京格灵深瞳信息技术股份有限公司 视线估计方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824049A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种基于级联神经网络的人脸关键点检测方法
CN104091155A (zh) * 2014-07-04 2014-10-08 武汉工程大学 光照鲁棒的虹膜快速定位方法
CN104123543A (zh) * 2014-07-23 2014-10-29 泰亿格电子(上海)有限公司 一种基于人脸识别的眼球运动识别方法
CN104766059A (zh) * 2015-04-01 2015-07-08 上海交通大学 快速精确的人眼定位方法及基于人眼定位的视线估计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824049A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种基于级联神经网络的人脸关键点检测方法
CN104091155A (zh) * 2014-07-04 2014-10-08 武汉工程大学 光照鲁棒的虹膜快速定位方法
CN104123543A (zh) * 2014-07-23 2014-10-29 泰亿格电子(上海)有限公司 一种基于人脸识别的眼球运动识别方法
CN104766059A (zh) * 2015-04-01 2015-07-08 上海交通大学 快速精确的人眼定位方法及基于人眼定位的视线估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A 3D morphable eye region model;Erroll Wood et al.;《European Conference on Computer Vision》;20160917;297-313 *
Face Detection with End-to-End Integration of a ConvNet and a 3D Model;Yunzhu Li et al.;《European Conference on Computer Vision》;20160917;420-436 *

Also Published As

Publication number Publication date
CN108875524A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108875524B (zh) 视线估计方法、装置、系统和存储介质
CN108369643B (zh) 用于3d手部骨架跟踪的方法和系统
CN108961149B (zh) 图像处理方法、装置和系统及存储介质
CN108509848B (zh) 三维物体的实时检测方法及系统
CN108875633B (zh) 表情检测与表情驱动方法、装置和系统及存储介质
CN109740491B (zh) 一种人眼视线识别方法、装置、系统及存储介质
CN108717531B (zh) 基于Faster R-CNN的人体姿态估计方法
US20180012411A1 (en) Augmented Reality Methods and Devices
US10872227B2 (en) Automatic object recognition method and system thereof, shopping device and storage medium
CN108475439B (zh) 三维模型生成系统、三维模型生成方法和记录介质
JP5873442B2 (ja) 物体検出装置および物体検出方法
KR20120048370A (ko) 물체 자세 인식장치 및 이를 이용한 물체 자세 인식방법
KR20090115739A (ko) 정보 추출 방법, 정보 추출 장치, 프로그램, 등록 장치 및 대조 장치
US11113571B2 (en) Target object position prediction and motion tracking
US20220319231A1 (en) Facial synthesis for head turns in augmented reality content
CN109858433B (zh) 一种基于三维人脸模型识别二维人脸图片的方法及装置
CN111008935A (zh) 一种人脸图像增强方法、装置、系统及存储介质
US10623629B2 (en) Imaging apparatus and imaging condition setting method and program
JP4552431B2 (ja) 画像照合装置、画像照合方法及び画像照合プログラム
Wang et al. Dynamic human body reconstruction and motion tracking with low-cost depth cameras
CN111353325A (zh) 关键点检测模型训练方法及装置
CN110728172B (zh) 基于点云的人脸关键点检测方法、装置、系统及存储介质
Galantucci et al. Coded targets and hybrid grids for photogrammetric 3D digitisation of human faces
KR20090115738A (ko) 정보 추출 방법, 등록 장치, 대조 장치 및 프로그램
KR102382883B1 (ko) 3차원 손 자세 인식 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230309

Address after: 1201, China Vision Valley Building, 88 Ruixiang Road, Guandou Street, Jiujiang District, Wuhu City, Anhui Province, 241005

Patentee after: Wuhu Maichi Zhixing Technology Co.,Ltd.

Address before: 100190 A block 2, South Road, Haidian District Academy of Sciences, Beijing 313

Patentee before: BEIJING KUANGSHI TECHNOLOGY Co.,Ltd.