CN116453198A

CN116453198A - 一种基于头部姿态差异的视线校准方法和装置

Info

Publication number: CN116453198A
Application number: CN202310499736.7A
Authority: CN
Inventors: 谢伟浩
Original assignee: Guangzhou Shijing Medical Software Co ltd
Current assignee: Guangzhou Shijing Medical Software Co ltd
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-07-18
Anticipated expiration: 2043-05-06
Also published as: CN116453198B

Abstract

本发明提供了一种基于头部姿态差异的视线校准方法和装置，方法包括：通过摄像头拍摄用户若干段视频，并获取每段视频每个图像帧中所述用户的人脸信息和视线真实值；其中用户注视的屏幕被划分为若干网格区域；从每段视频中分别筛选出五张图片，并从中分别抽取一张图片，获取抽取的图片中的偏航角、俯仰角和滚转角；根据各角的偏差值，判断与各网格头部姿态相近的网格；分别计算各网格对应的补偿偏差值，从而校准估计的视线进而获得视线落点。相比于现有技术，本申请通过划分网格，并根据用户人脸的偏航角、俯仰角和滚转角的偏差值判断与各网格头部姿态相近的网格，计算补偿偏差值，获得视线落点，各网格的校准效果可以更贴合真实值。

Description

一种基于头部姿态差异的视线校准方法和装置

技术领域

本发明涉及视线估计领域，尤其涉及一种基于头部姿态差异的视线校准方法和装置。

背景技术

视线估计是眼动跟踪的重要任务之一，其具有较为广泛的应用场景，包括人机交互、智能驾驶、情感分析和意图识别等。随着深度学习方法的发展，基于外观的视线估计方法逐渐得到发展。这种方法通常只需要借助简单的设备，如网络摄像头。现有技术通过学习摄像头获取的人脸信息与注视视线的映射关系，实现视线估计功能。而模型的估计结果往往与真实结果存在偏差，并且，考虑到人体眼球结构的差异，视轴与光轴之间的偏差，且该偏差无法通过图像信息学习得到，导致学习到的模型无法适用于所有人，在应用过程中往往需要通过个性化校准来提高视线估计的精度。

目前常用的个性化校准方法包括模型微调、偏差估计等方法。模型微调的方法，通常需要比较多的用户数据，且校准过程比较耗时；偏差估计的方法速度较快，但是当前基于偏差估计的方法没有考虑到不同外形输入偏差不同的问题，且对于整体的偏差估计通常是线性的（尤其是对于一个新用户来说，只是计算得到一个固定的偏差估计值，即该方法最终的输出结果只是对视线估计模型的输出结果进行了线性变换）。因此，上述两种现有的技术方案，在外形差异较大的情况下，屏幕左侧和屏幕右侧可能分别存在左侧估计的视线偏左侧、右侧估计的视线偏右侧的情况，在该情况下针对估计得到的视线进行校准得到的最终视线存在较大的偏差，因此校准的效果较差，视线估计最终结果的准确性较低。

发明内容

本发明提供了一种基于头部姿态差异的视线校准方法和装置，以解决如何提高视线校准的准确性的技术问题。

为了解决上述技术问题，本发明实施例提供了一种基于头部姿态差异的视线校准方法，包括：

通过摄像头拍摄用户若干段视频，并获取每段视频每个图像帧中所述用户的人脸信息和视线真实值；其中，所述摄像头拍摄的视频分别为用户注视屏幕不同网格时的视频；所述屏幕被划分为若干网格区域；所述视线真实值为用户注视网格内视觉标志物对应的坐标；每一网格对应一个视觉标志物；

按照预设规则从每段视频中分别筛选出五张图片，并从每段视频筛选出的五张图片中分别抽取一张图片，利用头部姿态估计模型，基于所述人脸信息获取抽取的图片中所述用户人脸的偏航角、俯仰角和滚转角；

根据抽取的各图片之间用户人脸的偏航角、俯仰角和滚转角的偏差值，判断与各网格头部姿态相近的网格；

针对每段视频筛选出的五张图片，根据各网格的视线真实值和视线估计值，结合与各网格头部姿态相近的网格的视线真实值和视线估计值，分别计算得到各网格对应的补偿偏差值，通过所有所述补偿偏差值校准估计得到的视线从而获得视线落点。

作为优选方案，所述分别计算得到各网格对应的补偿偏差值，具体为：

分别计算各网格筛选出的五张图片的视线真实值和各网格对应相近网格筛选出的五张图片的视线真实值的第一平均值；分别计算各网格筛选出的五张图片的视线估计值和各网格对应相近网格筛选出的五张图片视线估计值的第二平均值；计算第一平均值和第二平均值之间的差值作为所述补偿偏差值。

作为优选方案，所述按照预设规则从每段视频中分别筛选出五张图片，具体为：

通过PIPNet得到每段视频中每个图像帧中用户人脸的人脸关键点；

计算每张图片中第一关键点与第二关键点之间的距离作为第一距离，计算每张图片中第三关键点与第四关键点之间的距离作为第二距离，计算每张图片中第五关键点与第六关键点之间的距离作为第三距离，计算每张图片中第七关键点与第八关键点之间的距离作为第四距离；

按照第一距离与第二距离之和从大到小的顺序，分别筛选出各段视频中前三十张图片；按照第三距离与第四距离的差值的绝对值从小到大的顺序，分别筛选出与各段视频对应的前五张图片。

作为优选方案，所述根据抽取的各图片之间用户人脸的偏航角、俯仰角和滚转角的偏差值，判断与各网格头部姿态相近的网格，具体为：

当所述用户人脸的偏航角的偏差值、俯仰角的偏差值和滚转角的偏差值均在30度以内时，则判定为头部姿态相近的网格；否则，判定为头部姿态不相近的网格。

作为优选方案，所述摄像头拍摄的视频长度为3秒；在所述按照预设规则从每段视频中分别筛选出五张图片之前，还包括：裁剪出各段视频的第2秒的视频序列，获得经过预处理的所述各段视频。

相应的，本发明实施例还提供了一种基于头部姿态差异的视线校准装置，包括信息获取模块、姿态估计模块、判断模块和校准模块；其中，

所述信息获取模块，用于通过摄像头拍摄用户若干段视频，并获取每段视频每个图像帧中所述用户的人脸信息和视线真实值；其中，所述摄像头拍摄的视频分别为用户注视屏幕不同网格时的视频；所述屏幕被划分为若干网格区域；所述视线真实值为用户注视网格内视觉标志物对应的坐标；每一网格对应一个视觉标志物；

所述姿态估计模块，用于按照预设规则从每段视频中分别筛选出五张图片，并从每段视频筛选出的五张图片中分别抽取一张图片，利用头部姿态估计模型，基于所述人脸信息获取抽取的图片中所述用户人脸的偏航角、俯仰角和滚转角；

所述判断模块，用于根据抽取的各图片之间用户人脸的偏航角、俯仰角和滚转角的偏差值，判断与各网格头部姿态相近的网格；

所述校准模块，用于针对每段视频筛选出的五张图片，根据各网格的视线真实值和视线估计值，结合与各网格头部姿态相近的网格的视线真实值和视线估计值，分别计算得到各网格对应的补偿偏差值，通过所有所述补偿偏差值校准估计得到的视线从而获得视线落点。

作为优选方案，所述校准模块分别计算得到各网格对应的补偿偏差值，具体为：

所述校准模块分别计算各网格筛选出的五张图片的视线真实值和各网格对应相近网格筛选出的五张图片的视线真实值的第一平均值；分别计算各网格筛选出的五张图片的视线估计值和各网格对应相近网格筛选出的五张图片视线估计值的第二平均值；计算第一平均值和第二平均值之间的差值作为所述补偿偏差值。

作为优选方案，所述姿态估计模块按照预设规则从每段视频中分别筛选出五张图片，具体为：

所述姿态估计模块通过PIPNet得到每段视频中每个图像帧中用户人脸的人脸关键点；

作为优选方案，所述判断模块根据抽取的各图片之间用户人脸的偏航角、俯仰角和滚转角的偏差值，判断与各网格头部姿态相近的网格，具体为：

当所述用户人脸的偏航角的偏差值、俯仰角的偏差值和滚转角的偏差值均在30度以内时，所述判断模块判定为头部姿态相近的网格；否则，所述判断模块判定为头部姿态不相近的网格。

作为优选方案，所述摄像头拍摄的视频长度为3秒；所述视线校准装置还包括预处理模块，所述预处理模块用于在所述按照预设规则从每段视频中分别筛选出五张图片之前，裁剪出各段视频的第2秒的视频序列，获得经过预处理的所述各段视频。

相比于现有技术，本发明实施例具有如下有益效果：

本发明实施例提供了一种基于头部姿态差异的视线校准方法和装置，所述视线校准方法包括：通过摄像头拍摄用户若干段视频，并获取每段视频每个图像帧中所述用户的人脸信息和视线真实值；其中，所述摄像头拍摄的视频分别为用户注视屏幕不同网格时的视频；所述屏幕被划分为若干网格区域；所述视线真实值为用户注视网格内视觉标志物对应的坐标；每一网格对应一个视觉标志物；按照预设规则从每段视频中分别筛选出五张图片，并从每段视频筛选出的五张图片中分别抽取一张图片，利用头部姿态估计模型，基于所述人脸信息获取抽取的图片中所述用户人脸的偏航角、俯仰角和滚转角；根据抽取的各图片之间用户人脸的偏航角、俯仰角和滚转角的偏差值，判断与各网格头部姿态相近的网格；针对每段视频筛选出的五张图片，根据各网格的视线真实值和视线估计值，结合与各网格头部姿态相近的网格的视线真实值和视线估计值，分别计算得到各网格对应的补偿偏差值，通过所有所述补偿偏差值校准估计得到的视线从而获得视线落点。相比于现有技术，本发明实施例通过划分网格，并根据用户人脸的偏航角、俯仰角和滚转角的偏差值判断与各网格头部姿态相近的网格，从而计算补偿偏差值，获得视线落点，可以有效减小例如屏幕左侧的视线估计偏左，屏幕右侧的视线偏右的情况引起的偏差，在出现上述情况时各网格的校准效果可以更贴合真实值。

附图说明

图1：为本发明基于头部姿态差异提供的视线校准方法的一种实施的流程示意图。

图2：为本发明提供的人脸关键点检测的一种实施例的效果示意图。

图3：为本发明基于头部姿态差异提供的视线校准装置的一种实施的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一:

根据相关技术记载，眼动追踪技术是通过获取整个人脸或者是人眼信息来判断人的视线方向或者是注视屏幕具体位置的一种技术。这种技术主要有两种主流的方法，一种是基于模型的方法，但是这种方法对使用的设备等条件具有相对较高的要求，例如需要借助红外摄像头作为辅助设备并结合图像识别技术来获取人眼的角膜和瞳孔等位置信息，进而判断人的视线方向或者凝视位置。另一种是基于外形的方法，这种方法不需要借助红外摄像头，只需要借助普通的摄像头获取人脸以及人眼信息，然后利用深度学习技术来学习人脸以及人眼信息到视线方向或者视线落点的一个映射关系。需要说明的是，这里的外形主要是指头部姿态。

对于上述第二种主流方法，基于外形的视线估计的性能的影响因素有很多，例如人的外形信息，头部姿态信息，卡帕角和模型本身的误差等。从而，对于不同人的预测结果会存在较大的差距，这种偏差会“因人而异”（由于不同人的外形不同）。甚至，对于同一个人，其在不同的头部姿态下，往往会呈现出不同的偏差模式，例如拍摄一段视频的过程中，其头部在不同时间可能存在有轻微的俯、仰、左右偏转等的姿态差异（肉眼不一定能从视频或者图像帧中识别），此时估计的视线往往会呈现出不同的偏差模式。比如，头部看向左边偏差往右边偏，但是当头部看向右边时，偏差往左边偏，偏差方式不一致，这样，现有的技术方案会导致直接减去某个偏差值的线性偏差校准方法效果较差。

针对上述的一个或多个技术问题，请参照图1，图1为本发明实施例提供的一种基于头部姿态差异的视线校准方法，包括步骤S1至步骤S4；其中，

步骤S1，通过摄像头拍摄用户若干段视频，并获取每段视频每个图像帧中所述用户的人脸信息和视线真实值；其中，所述摄像头拍摄的视频分别为用户注视屏幕不同网格时的视频；所述屏幕被划分为若干网格区域；所述视线真实值为用户注视网格内视觉标志物对应的坐标；每一网格对应一个视觉标志物。

在本实施例中，用户观看预设屏幕，然后通过摄像头拍摄用户若干段视频。屏幕可以划分为3x3的同等大小的网格；网格按照水平方向依次标记为1、2、...、9。并且，按照从1到9的顺序，依次在各网格的正中心显示视觉标志物，所述视觉标志物可以为红点或者其他的动态图片。每次视觉标志物出现在屏幕上时，可以通过例如网格闪烁的形式提示用户注视该视觉标志物，视觉标志物停留的时间至少为3秒，摄像头拍摄的视频则为该期间的至少3秒长度的视频。需要说明的是，拍摄的视频分别为用户注视屏幕不同网格时的视频，且每一段视频分别与一网格对应，也就是说一共获得了9段视频。同时，可以基于每个网格对应的视觉标志物的坐标，确定各网格对应的视线真实值。

步骤S2，按照预设规则从每段视频中分别筛选出五张图片，并从每段视频筛选出的五张图片中分别抽取一张图片，利用头部姿态估计模型，基于所述人脸信息获取抽取的图片中所述用户人脸的偏航角、俯仰角和滚转角。

在本实施例中，可以首先对各段视频分别进行预处理，优选地，裁剪出各段视频中的第2秒的视频序列，获得经过预处理的所述各段视频，可以有效缩减后续步骤的计算量，减少对计算资源的占用。

作为一种优选实施方式，所述按照预设规则从每段视频中分别筛选出五张图片，具体为：

通过PIPNet得到每段视频中每个图像帧中用户人脸的人脸关键点，参照图2，可以提取到每个图像帧中编号为1至67的人脸关键点。

计算每张图片中第一关键点（例如点38）与第二关键点（例如点40）之间的距离作为第一距离d1，计算每张图片中第三关键点（例如点43）与第四关键点（例如点47）之间的距离作为第二距离d2，计算每张图片中第五关键点（例如点36）与第六关键点（例如点39）之间的距离作为第三距离d3，计算每张图片中第七关键点（例如点42）与第八关键点（例如点45）之间的距离作为第四距离d4；

然后计算第一距离与第二距离之和L1，第三距离与第四距离之差的绝对值L2；

按照第一距离与第二距离之和L1从大到小的顺序，分别筛选出各段视频中L1从大到小排序的前三十张图片；按照第三距离与第四距离的差值的绝对值L2从小到大的顺序，分别筛选出与各段视频对应的L2从小到大排序的前五张图片，筛选掉其余的所有图片。实施本申请实施例，通过上述二次筛选的方法，可以确保获得完整的眼部信息，避免获取到闭眼或者眼睛偏移摄像头过大的人脸关键点，以确保人脸图像以及人脸关键点的有效性，提高后续校准步骤的准确性。

进一步地，在获得每个网格对应的五张图片后，分别针对各网格随机地从五张图片中抽取一张照片。然后通过所述头部姿态估计模型（优选为SynergyNet），获取各网格对应抽取的图片中人脸的偏航角、俯仰角和滚转角。

步骤S3，根据抽取的各图片之间用户人脸的偏航角、俯仰角和滚转角的偏差值，判断与各网格头部姿态相近的网格。

在本实施例中，当所述用户人脸的偏航角的偏差值、俯仰角的偏差值和滚转角的偏差值均在30度以内时（需要三者皆满足在30度的范围以内），则判定为头部姿态相近（也就是人像的外形相近）的网格；否则，判定为头部姿态不相近的网格。

步骤S4，针对每段视频筛选出的五张图片，根据各网格的视线真实值和视线估计值，结合与各网格头部姿态相近的网格的视线真实值和视线估计值，分别计算得到各网格对应的补偿偏差值，通过所有所述补偿偏差值校准估计得到的视线从而获得视线落点。

在本实施例中，对于任意一个网格，例如编号为1的网格，假设步骤S3判断得到的与其头部姿态相近的网格为2、4和5，则获取1、2、4和5四个网格上述步骤中第一次筛选的五张图片（共计20张）的视线估计值（共20个视线估计值，与各图片分别一一对应，可以通过视线估计模型获得，例如AFFNet）以及视线真实值（共20个视线真实值，与各图片分别一一对应，可以根据视觉标志物的坐标获得）。

然后，所述分别计算得到各网格对应的补偿偏差值具体为：

分别计算各网格筛选出的五张图片的视线真实值和各网格对应的，头部姿态相近的网格筛选出的五张图片的视线真实值的第一平均值；分别计算各网格筛选出的五张图片的视线估计值和各网格对应的，头部姿态相近的网格筛选出的五张图片视线估计值的第二平均值；计算第一平均值和第二平均值之间的差值作为所述补偿偏差值。

具体地，作为本实施例的一种举例，以网格1为例，计算1、2、4和5四个网格共计20张图片中，各图片的真实注视点和估计的注视点在x轴方向和y轴方向的偏差，然后计算这20个x轴方向偏差值的均值以及20个y轴方向偏差值的均值，将求得的结果作为该网格1对应的补偿偏差，从而以此类推计算得到各网格对应的补偿偏差值。作为本实施例的另一种举例，也可以计算获得20张图片中，各图片的视线真实值的均值（第一平均值），以及视线估计值的均值（第二平均值），计算第一平均值和第二平均值之间的差值作为所述网格1的补偿偏差值。上述两种举例的计算方法计算结果的区别只在于计算路径不同，但是其计算结果都是相同的，效果上并无优劣之分。

在实际应用中，当视线估计值落到某一个网格上时，对于该网格，可以通过预估的视线位置加上该补偿偏差值，获得最终的视线落点，也就是获得了经过校准的视线。

相应的，参照图3，本发明实施例还提供了一种基于头部姿态差异的视线校准装置，包括信息获取模块101、姿态估计模块102、判断模块103和校准模块104；其中，

所述信息获取模块101，用于通过摄像头拍摄用户若干段视频，并获取每段视频每个图像帧中所述用户的人脸信息和视线真实值；其中，所述摄像头拍摄的视频分别为用户注视屏幕不同网格时的视频；所述屏幕被划分为若干网格区域；所述视线真实值为用户注视网格内视觉标志物对应的坐标；每一网格对应一个视觉标志物；

所述姿态估计模块102，用于按照预设规则从每段视频中分别筛选出五张图片，并从每段视频筛选出的五张图片中分别抽取一张图片，利用头部姿态估计模型，基于所述人脸信息获取抽取的图片中所述用户人脸的偏航角、俯仰角和滚转角；

所述判断模块103，用于根据抽取的各图片之间用户人脸的偏航角、俯仰角和滚转角的偏差值，判断与各网格头部姿态相近的网格；

所述校准模块104，用于针对每段视频筛选出的五张图片，根据各网格的视线真实值和视线估计值，结合与各网格头部姿态相近的网格的视线真实值和视线估计值，分别计算得到各网格对应的补偿偏差值，通过所有所述补偿偏差值校准估计得到的视线从而获得视线落点。

作为优选方案，所述校准模块104分别计算得到各网格对应的补偿偏差值，具体为：

所述校准模块104分别计算各网格筛选出的五张图片的视线真实值和各网格对应相近网格筛选出的五张图片的视线真实值的第一平均值；分别计算各网格筛选出的五张图片的视线估计值和各网格对应相近网格筛选出的五张图片视线估计值的第二平均值；计算第一平均值和第二平均值之间的差值作为所述补偿偏差值。

作为优选方案，所述姿态估计模块102按照预设规则从每段视频中分别筛选出五张图片，具体为：

所述姿态估计模块102通过PIPNet得到每段视频中每个图像帧中用户人脸的人脸关键点；

作为优选方案，所述判断模块103根据抽取的各图片之间用户人脸的偏航角、俯仰角和滚转角的偏差值，判断与各网格头部姿态相近的网格，具体为：

当所述用户人脸的偏航角的偏差值、俯仰角的偏差值和滚转角的偏差值均在30度以内时，所述判断模块103判定为头部姿态相近的网格；否则，所述判断模块103判定为头部姿态不相近的网格。

相比于现有技术，本发明实施例具有如下有益效果：

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于头部姿态差异的视线校准方法，其特征在于，包括：

2.如权利要求1所述的一种基于头部姿态差异的视线校准方法，其特征在于，所述分别计算得到各网格对应的补偿偏差值，具体为：

3.如权利要求1所述的一种基于头部姿态差异的视线校准方法，其特征在于，所述按照预设规则从每段视频中分别筛选出五张图片，具体为：

4.如权利要求1所述的一种基于头部姿态差异的视线校准方法，其特征在于，所述根据抽取的各图片之间用户人脸的偏航角、俯仰角和滚转角的偏差值，判断与各网格头部姿态相近的网格，具体为：

5.如权利要求1至4任意一项所述的一种基于头部姿态差异的视线校准方法，其特征在于，所述摄像头拍摄的视频长度为3秒；在所述按照预设规则从每段视频中分别筛选出五张图片之前，还包括：裁剪出各段视频的第2秒的视频序列，获得经过预处理的所述各段视频。

6.一种基于头部姿态差异的视线校准装置，其特征在于，包括信息获取模块、姿态估计模块、判断模块和校准模块；其中，

7.如权利要求6所述的一种基于头部姿态差异的视线校准装置，其特征在于，所述校准模块分别计算得到各网格对应的补偿偏差值，具体为：

8.如权利要求6所述的一种基于头部姿态差异的视线校准装置，其特征在于，所述姿态估计模块按照预设规则从每段视频中分别筛选出五张图片，具体为：

9.如权利要求6所述的一种基于头部姿态差异的视线校准装置，其特征在于，所述判断模块根据抽取的各图片之间用户人脸的偏航角、俯仰角和滚转角的偏差值，判断与各网格头部姿态相近的网格，具体为：

10.如权利要求6至9任意一项所述的一种基于头部姿态差异的视线校准装置，其特征在于，所述摄像头拍摄的视频长度为3秒；所述视线校准装置还包括预处理模块，所述预处理模块用于在所述按照预设规则从每段视频中分别筛选出五张图片之前，裁剪出各段视频的第2秒的视频序列，获得经过预处理的所述各段视频。