CN112070806A

CN112070806A - 一种基于视频图像的实时瞳孔跟踪方法和系统

Info

Publication number: CN112070806A
Application number: CN202010957318.4A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Huayan Mutual Entertainment Technology Co ltd
Current assignee: Beijing Huayan Mutual Entertainment Technology Co ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2020-12-11

Abstract

本发明公开了一种基于视频图像的实时瞳孔跟踪方法和系统，其中方法包括：采集视频帧图像；对所述视频帧图像进行人脸检测，获取人脸图像；利用Sobel算子边缘检测算法对所述人脸图像进行卷积处理，得到人脸的水平边缘信息特征图；对所述水平边缘信息特征图进行水平投影处理，实现对眼部的粗定位；对粗定位得到的人眼区域进行灰度投影，分割左右眼，并分别提取左、右眼的条形区域；对左右眼的所述条形区域进行人眼精确定位，并标注出瞳孔的所在位置。本发明通过简单的算法可快速找到输入的视频图像中的人眼区域，并且能够实现在人眼移动时对变化的瞳孔位置的实时跟踪和准确定位。

Description

一种基于视频图像的实时瞳孔跟踪方法和系统

技术领域

本发明涉及眼部跟踪和表情动画技术领域，具体涉及一种基于视频图像的实时瞳孔跟踪方法和系统。

背景技术

通过对瞳孔的跟踪定位分析人眼的注视点，在注意力分析、眼疾患者病患程度分析、儿童兴趣分析、情感识别等技术领域起着非常重要的作用。但现有的瞳孔跟踪定位算法比较复杂，无法确保对瞳孔定位跟踪的实时性，而且跟踪定位效果并不理想。

发明内容

本发明的目的在于提供一种基于视频图像的实时瞳孔跟踪方法和系统，以解决上述技术问题。

为达此目的，本发明采用以下技术方案：

提供一种基于视频图像的实时瞳孔跟踪方法，包括：

采集视频帧图像；

对所述视频帧图像进行人脸检测，获取人脸图像；

利用Sobel算子边缘检测算法对所述人脸图像进行卷积处理，得到人脸的水平边缘信息特征图；

对所述水平边缘信息特征图进行水平投影处理，实现对眼部的粗定位；

对粗定位得到的人眼区域进行灰度投影，分割左右眼，并分别提取左、右眼的条形区域；

对左右眼的所述条形区域进行人眼精确定位，并标注出瞳孔的所在位置。

作为本发明的一种优选方案，对所述视频帧图像进行人脸检测的方法包括：

将所述视频帧图像从RGB颜色空间转换为YC_bC_r颜色空间；

判断所述视频帧图像上各像素点的像素值是否落入给定的肤色值区间，

若是，则判定该像素点为人脸区域的像素点并予以保留；

若否，则舍弃该像素点；

根据肤色值判断结果，对检测到的人脸区域进行裁剪，得到所述人脸图像。

作为本发明的一种优选方案，所述肤色值区间为：

C_b＝[72 129]

C_r＝[123 180]

C_b＝0.564(B-Y)+128；

C_r＝0.712(R-Y)+128；

Y＝0.299R+0.587G+0.114B。

作为本发明的一种优选方案，对眼部进行粗定位的方法包括：

按预设高宽比对所述人脸图像进行裁剪；

对经裁剪后的所述人脸图像利用Sobel算子边缘检测算法进行图像卷积处理，得到人脸的水平边缘信息特征图；

对所述水平边缘信息特征图进行水平投影处理，用线框标出粗定位到的人眼区域。

作为本发明的一种优选方案，对所述水平边缘信息特征图进行水平投影处理的方法包括：

对所述水平边缘信息特征图进行水平投影，得到关联所述人脸图像的水平投影图；

计算所述水平投影图上各行的水平投影值；

根据各行的所述水平投影值，对所述水平投影图进行阈值分割，得到阈值分割后的水平投影图；

根据阈值分割结果在所述人脸图像中用线框标出粗定位到的人眼区域。

作为本发明的一种优选方案，通过以下公式计算所述水平投影图上各行的所述水平投影值，

p_row(y)＝∑R′(x,y)

以上公式中，p_row(y)表示所述水平投影图上各行的所述水平投影值；

R′(x,y)表示所述人脸图像经Sobel算子边缘检测算法进行图像卷积处理后的结果；

分割所述水平投影图的阈值为max(p_row(y))/3，

对所述水平投影图进行阈值分割的方法为：

判断所述水平投影图上各行的所述水平投影值是否小于max(p_row(y))/3，

若是，则将该行的所述水平投影值重新赋值为0；

若否，则保留该行的所述水平投影值；

计算每个行区间的区间宽度与每个行区间内的最大行水平投影值的乘积，将乘积最大的行区间判定为眼眉区间，将所述眼眉区间作为对人眼区域的粗定位结果。

作为本发明的一种优选方案，对左右眼的所述条形区域进行人眼精确定位的方法包括：

对粗定位得到的所述人眼区域设定阈值进行二值化处理，搜索连通的白色像素块即像素值为1的连通区域，并记录每一像素块中的像素点数，记为n；

判断n是否大于一预设阈值，

若是，则判定所述连通区域为疑似人眼区域；

若否，则判定所述连通区域不足以描述人眼，并将所述连通区域舍弃；

在保留的所述连通区域内选择3行3列像素点，并将3行3列内的所有所述像素点的像素值相加，以像素值相加结果最小的像素块的中心为瞳孔所在位置并标注，实现对瞳孔的识别跟踪。

本发明还提供了一种基于视频图像的实时瞳孔跟踪系统，可实现所述的实时瞳孔跟踪方法，该系统包括：

视频帧图像采集模块，用于自动采集视频帧图像；

人脸检测模块，连接所述视频帧图像采集模块，用于对所述视频帧图像进行人脸检测，获取人脸图像；

人脸图像边缘信息特征检测模块，连接所述人脸检测模块，用于利用Sobel算子边缘检测算法对所述人脸图像进行卷积处理，得到人脸的水平边缘信息特征图；

图像水平投影处理模块，连接所述人脸图像边缘信息特征检测模块，用于对所述水平边缘信息特征图进行水平投影处理，实现对眼部的粗定位；

眼部条形区域提取模块，连接所述图像水平投影处理模块，用于对粗定位得到的人眼区域进行灰度投影，分割左右眼，并分别提取左、右眼的条形区域；

瞳孔跟踪模块，连接所述眼部条形区域提取模块，用于对左右眼的所述条形区域进行人眼精确定位，并标注出瞳孔的所在位置，实现对瞳孔的识别跟踪。

作为本发明的一种优选方案，所述人脸检测模块中包括：

颜色空间转换单元，用于将所述视频帧图像从RGB颜色空间转换为YC_bC_r颜色空间；

人脸区域判断单元，连接所述颜色空间转换单元，用于判断所述视频帧图像上的各像素点的像素值是否落入给定的肤色值区间，

若是，则判定所述像素点为人脸区域的像素点并予以保留；

若否，则舍弃所述像素点；

人脸区域裁剪单元，连接所述人脸区域判断单元，用于根据肤色值判断结果，对检测到的人脸区域进行裁剪，得到所述人脸图像；

给定的所述肤色值区间为：

C_b＝[72 129]

C_r＝[123 180]

C_b＝0.564(B-Y)+128；

C_r＝0.712(R-Y)+128；

Y＝0.299R+0.587G+0.114B；

R、G、B分别表示RBG颜色空间下的R通道颜色分量的分量值、G通道颜色分量的分量值和B通道颜色分量的分量值。

作为本发明的一种优选方案，所述图像水平投影处理模块中包括：

水平投影图生成单元，用于对所述水平边缘信息特征图进行水平投影处理，得到关联所述人脸图像的水平投影图；

水平投影值计算单元，连接所述水平投影图生成单元，用于计算所述水平投影图上各行的水平投影值；

阈值分割单元，连接所述水平投影值计算单元，用于根据各行的所述水平投影值，对所述水平投影图进行阈值分割，得到阈值分割后的水平投影图；

人眼区域标注单元，连接所述阈值分割单元，用于根据阈值分割结果在所述人脸图像中用线框标出粗定位到的人眼区域；

所述瞳孔跟踪模块中包括：

图像二值化处理单元，用于对粗定位得到的所述人眼区域设定阈值进行二值化处理，搜索连通的白色像素块即像素值为1的连通区域，并记录每一像素块中的像素点数，记为n；

人眼区域真假判断单元，连接所述图像二值化处理单元，用于判断n是否大于一预设阈值，

若是，则判定所述连通区域为疑似人眼区域；

若否，则判定所述连通区域不足以描述人眼，并将该连通区域舍弃；

真实人眼区域判定单元，连接所述人眼区域真假判断单元，用于在判定为所述疑似人眼区域的各所述连通区域内选择3行3列像素点，并将3行3列内的所有所述像素点的像素值相加，将像素值相加结果最小的像素块最终判定为真实的人眼区域；

瞳孔位置标注单元，连接所述真实人眼区域判定单元，用于以像素值相加结果最小的所述像素块的中心为瞳孔所在位置并标注，实现对瞳孔的实时跟踪。

本发明通过简单的算法可快速找到输入的视频图像中的人眼区域，并且能够实现在人眼移动时对变化的瞳孔位置的实时跟踪和准确定位。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种基于视频图像的实时瞳孔跟踪方法的步骤图；

图2是对所述视频帧图像进行人脸检测的方法步骤图；

图3是对眼部进行粗定位的方法步骤图；

图4是对所述水平边缘信息特征图进行水平投影处理的方法步骤图；

图5是对左右眼的所述条形区域进行人眼精确定位的方法步骤图；

图6是本发明一实施例提供的一种基于视频图像的实时瞳孔跟踪系统的结构示意图；

图7是所述实时瞳孔跟踪系统中的人脸检测模块的内部结构示意图；

图8是所述实时瞳孔跟踪系统中的图像水平投影处理模块的内部结构示意图；

图9是所述实时瞳孔跟踪系统中的瞳孔跟踪模块的内部结构示意图；

图10是所述水平投影图的示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本发明一实施例提供的一种基于视频图像的实时瞳孔跟踪方法，如图1所示，包括如下步骤：

步骤S1，采集视频帧图像；

步骤S2，对视频帧图像进行人脸检测，获取人脸图像；

步骤S3，利用Sobel算子边缘检测算法对人脸图像进行卷积处理，得到人脸的水平边缘信息特征图，水边边缘信息特征图为灰度图，通过Sobel算子边缘检测算法检测人脸的水平边缘信息特征图为现有技术，所以具体的边缘检测过程在此不做阐述；

步骤S4，对水平边缘信息特征图进行水平投影处理，实现对眼部的粗定位；

步骤S5，对粗定位得到的人眼区域进行灰度投影，分割左右眼，并分别提取左右眼的条形区域；

步骤S6，对左右眼的条形区域进行人眼精确定位，并标注出瞳孔的所在位置。

如图2所示，步骤S2中，对人视频帧图像进行人脸检测的方法包括如下步骤：

步骤S21，将视频帧图像从RGB颜色空间转换为YC_bC_r颜色空间；

步骤S22，判断视频帧图像上各像素点的像素值是否落入给定的肤色值区间，

若是，则判定该像素点为人脸区域内的像素点并予以保留；

若否，则舍弃该像素点；

步骤S23，根据肤色值判断结果，对检测到的人脸区域进行裁剪，得到人脸图像。

本实施例用于确定人脸区域的肤色值区间为：

C_b＝[72 129]

C_r＝[123 180]

C_b＝0.564(B-Y)+128；

C_r＝0.712(R-Y)+128；

Y＝0.299R+0.587G+0.114B。

R、G、B分别为视频帧图像上的各像素点在R颜色通道的分量值、G颜色通道的分量值和B颜色通道的分量值。

如图3所示，步骤S4中，对眼部进行粗定位的方法包括如下步骤：

步骤S41，按预设高宽比对人脸图像进行裁剪；

步骤S42，对经裁剪后的人脸图像利用Sobel算子边缘检测算法进行图像卷积处理，得到人脸的水平边缘信息特征图；

步骤S43，对水平边缘信息特征图进行水平投影处理，用线框标出粗定位到的人眼区域。

如图4所示，对水平边缘信息特征图进行水平投影处理的方法包括：

步骤S431，对水平边缘信息特征图进行水平投影，得到关联人脸图像的水平投影图；

步骤S432，计算水平投影图上各行的水平投影值；

步骤S433，根据各行的水平投影值，对水平投影图进行阈值分割，得到阈值分割后的水平投影图；

步骤S434，根据阈值分割后结果在人脸图像中用线框标出粗定位到的人眼区域。

本实施例中，通过以下公式计算水平投影图上各行的水平投影值，

p_row(y)＝∑R′(x,y)

以上公式中，p_row(y)表示水平投影图上各行的水平投影值；水平投影图上的各行表示人脸区域的不同的部分，比如水平投影图上的某一行代表人脸上的鼻子，或代表人脸上的嘴巴、眉毛、眼睛等。图10示出了水平投影图的示意图，关于人脸区域的水平投影图请参照图10。

R′(x,y)表示人脸图像经Sobel算子边缘检测算法进行图像卷积处理后的结果。由此可知，各行的水平投影值大小与Sobel算子边缘检测算法的图像卷积处理结果有关。由于对于水平投影值的具体计算方法并非本发明要求权利保护的范围，所以关于水平投影图上各行的水平投影值的具体计算方法在此不做说明。

本发明通过对水平投影图进行阈值分割实现对人眼区域的粗定位。本发明对水平投影图进行阈值分割的方法具体为：

判断水平投影图上各行的水平投影值是否小于max(p_row(y))/3，

若是，则将该行的水平投影值重新赋值为0，表示该行不可能为人眼区域；

若否，则保留该行的水平投影值；

计算每个行区间的区间宽度与每个行区间内的最大行水平投影值的乘积，将乘积最大的行区间判定为眼眉区间，将眼眉区间作为对人眼区域的粗定位结果。本实施例中，将水平投影值大于等于max(p_row(y))/3的连续行作为一个行区间。

步骤S5中分割左右眼的方法为，在粗定位到的人眼区域中求取左右眼的中心线，并根据中心线分割左右眼，进而分别对左右眼进行定位，得到左右眼的条形区域。左右眼中心线在鼻梁的位置，鼻梁位置相对于两侧的垂直灰度要高，本发明利用这一特点对人眼区域进行垂直灰度投影，得到左右眼的中心线。

如图5所示，对左右眼的条形区域进行人眼精确定位的方法包括：

步骤S61，对粗定位得到的人眼区域设定阈值进行二值化处理，搜索连通的白色像素块即像素值为1的连通区域，并记录每一像素块中的像素点数，记为n；

步骤S62，判断n是否大于一预设阈值，

若是，则判定该连通区域为疑似人眼区域；

若否，则判定该连通区域不足以描述人眼，并将该连通区域舍弃；

步骤S63，在保留的连通区域内选择3行3列像素点，并将3行3列内的所有像素点的像素值相加，以像素值相加结果最小的像素块的中心为瞳孔所在位置并标注，实现对瞳孔的识别跟踪。

本发明还提供了一种基于视频图像的实时瞳孔跟踪系统，可实现上述的实时瞳孔跟踪方法，如图6所示，该系统包括：

视频帧图像采集模块1，用于自动采集视频帧图像；

人脸检测模块2，连接视频帧图像采集模块1，用于对视频帧图像进行人脸检测，获取人脸图像；

人脸图像边缘信息特征检测模块3，连接人脸检测模块2，用于利用Sobel算子边缘检测算法对人脸图像进行卷积处理，得到人脸的水平边缘信息特征图；

图像水平投影处理模块4，连接人脸图像边缘信息特征检测模块3，用于对水平边缘信息特征图进行水平投影处理，实现对眼部的粗定位；

眼部条形区域提取模块5，连接图像水平投影处理模块4，用于对粗定位得到的人眼区域进行灰度投影，分割左右眼，并分别提取左、右眼的条形区域；

瞳孔跟踪模块6，连接眼部条形区域提取模块5，用于对左右眼的条形区域进行人眼精确定位，并标注出瞳孔的所在位置，实现对瞳孔的实时跟踪。

如图7所示，人脸检测模块2中包括：

颜色空间转换单元21，用于将视频帧图像从RGB颜色空间转换为YC_bC_r颜色空间；

人脸区域判断单元22，连接颜色空间转换单元21，用于判断视频帧图像上的各像素点的像素值是否落入给定的肤色值区间，

若是，则判定像素点为人脸区域的像素点并予以保留；

若否，则舍弃所述像素点；

人脸区域裁剪单元23，连接人脸区域判断单元22，用于根据肤色值判断结果，对检测到的人脸区域进行裁剪，得到人脸图像；

如图8所示，图像水平投影处理模块4中包括：

水平投影图生成单元41，用于对水平边缘信息特征图进行水平投影处理，得到关联人脸图像的水平投影图；

水平投影值计算单元42，连接水平投影图生成单元41，用于计算水平投影图上各行的水平投影值；

阈值分割单元43，连接水平投影值计算单元42，用于根据各行的水平投影值，对水平投影图进行阈值分割，得到阈值分割后的水平投影图；

人眼区域标注单元44，连接阈值分割单元43，用于根据阈值分割结果在人脸图像中用线框标出粗定位到的人眼区域。

如图9所示，瞳孔跟踪模块6中包括：

图像二值化处理单元61，用于对粗定位得到的人眼区域设定阈值进行二值化处理，搜索连通的白色像素块即像素值为1的连通区域，并记录每一像素块中的像素点数，记为n；

人眼区域真假判断单元62，连接图像二值化处理单元61，用于判断n是否大于一预设阈值，

若是，则判定连通区域为疑似人眼区域；

若否，则判定连通区域不足以描述人眼，并将该连通区域舍弃；

真实人眼区域判定单元63，连接人眼区域真假判断单元62，用于在判定为疑似人眼区域的各连通区域内选择3行3列像素点，并将3行3列内的所有像素点的像素值相加，将像素值相加结果最小的像素块最终判定为真实的人眼区域；

瞳孔位置标注单元64，连接真实人眼区域判定单元63，用于以像素值相加结果最小的像素块的中心为瞳孔所在位置并标注，实现对瞳孔的实时跟踪。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

Claims

1.一种基于视频图像的实时瞳孔跟踪方法，其特征在于，包括：

采集视频帧图像；

对所述视频帧图像进行人脸检测，获取人脸图像；

2.根据权利要求1所述的一种基于视频图像的实时瞳孔跟踪方法，其特征在于，对所述视频帧图像进行人脸检测的方法包括：

将所述视频帧图像从RGB颜色空间转换为YC_bC_r颜色空间；

若是，则判定该像素点为人脸区域的像素点并予以保留；

若否，则舍弃该像素点；

3.根据权利要求2所述的一种基于视频图像的实时瞳孔跟踪方法，其特征在于，所述肤色值区间为：

C_b＝[72 129]

C_r＝[123 180]

C_b＝0.564(B-Y)+128；

C_r＝0.712(R-Y)+128；

Y＝0.299R+0.587G+0.114B。

4.根据权利要求3所述的一种基于视频图像的实时瞳孔跟踪方法，其特征在于，对眼部进行粗定位的方法包括：

按预设高宽比对所述人脸图像进行裁剪；

5.根据权利要求4所述的一种基于视频图像的实时瞳孔跟踪方法，其特征在于，对所述水平边缘信息特征图进行水平投影处理的方法包括：

计算所述水平投影图上各行的水平投影值；

6.根据权利要求5所述的一种基于视频图像的实时瞳孔跟踪方法，其特征在于，通过以下公式计算所述水平投影图上各行的所述水平投影值，

p_row(y)＝∑R′(x,y)

分割所述水平投影图的阈值为max(p_row(y))/3，

对所述水平投影图进行阈值分割的方法为：

若是，则将该行的所述水平投影值重新赋值为0；

若否，则保留该行的所述水平投影值；

7.根据权利要求6所述的一种基于视频图像的实时瞳孔跟踪方法，其特征在于，对左右眼的所述条形区域进行人眼精确定位的方法包括：

判断n是否大于一预设阈值，

若是，则判定所述连通区域为疑似人眼区域；

8.一种基于视频图像的实时瞳孔跟踪系统，可实现如权利要求1～7任意一项所述的实时瞳孔跟踪方法，其特征在于，包括：

视频帧图像采集模块，用于自动采集视频帧图像；

9.根据权利要求8所述的一种基于视频图像的实时瞳孔跟踪系统，其特征在于，所述人脸检测模块中包括：

若是，则判定所述像素点为人脸区域的像素点并予以保留；

若否，则舍弃所述像素点；

给定的所述肤色值区间为：

C_b＝[72 129]

C_r＝[123 180]

C_b＝0.564(B-Y)+128；

C_r＝0.712(R-Y)+128；

Y＝0.299R+0.587G+0.114B；

10.根据权利要求8所述的一种基于视频图像的实时瞳孔跟踪系统，其特征在于，所述图像水平投影处理模块中包括：

所述瞳孔跟踪模块中包括：

若是，则判定所述连通区域为疑似人眼区域；