CN113661495A

CN113661495A - 视线校准方法及装置、设备、计算机可读存储介质、系统、车辆

Info

Publication number: CN113661495A
Application number: CN202180001805.6A
Authority: CN
Inventors: 张代齐; 张国华; 袁麓; 郑爽; 李腾; 黄为
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-11-16
Also published as: WO2023272453A1

Abstract

本申请涉及智能驾驶领域，公开了一种视线校准方法及装置、设备、计算机可读存储介质、系统、车辆。本申请通过包含用户眼睛的第一图像获得用户的眼睛三维位置，通过显示屏上的标定位置或者包含用户看到的车外场景的第二图像获得用户的注视点三维位置，并由用户的眼睛三维位置和注视点三维位置获得准确度较高的第二视线方向，有效提升了用户视线估计的准确性，且可适用于座舱场景。此外，本申请还利用包含用户的第二视线方向和其第一图像的优化样本，通过小样本学习方法优化视线追踪模型，提升了视线追踪模型针对特定用户的视线估计精度，能够获得对于特定用户准确性较高的视线追踪模型。

Description

视线校准方法及装置、设备、计算机可读存储介质、系统、车辆

技术领域

本申请涉及智能驾驶领域，尤其涉及一种视线校准方法及装置、设备、计算机可读存储介质、系统、车辆。

背景技术

视线追踪是智能座舱中分神检测、接管等级预估、视线交互等上层应用的重要支撑。由于人与人眼睛外部特征及眼球内部结构的差异，通常无法训练出一个对“每个人”都准确的视线追踪模型。同时，由于摄像头安装误差等原因，直接使用视线追踪模型输出的视线角度会产生一定的精度损失，导致视线估计不准。如果可以修正视线估计的误差，即可有效提升基于视线追踪的上层应用的用户体验。

发明内容

鉴于相关技术存在的以上问题，本申请提供一种视线校准方法及装置、设备、计算机可读存储介质、系统、车辆，能够有效提升特定用户视线估计的准确性。

为达到上述目的，本申请第一方面提供一种视线校准方法，包括：根据第一摄像头采集的包含用户眼睛的第一图像，获得用户的眼睛三维位置和第一视线方向；根据眼睛三维位置、第一视线方向、第一摄像头的外参和第二摄像头的外参与内参，获得用户在第二图像中的注视区域，第二图像由第二摄像头采集且包含用户看到的车外场景；根据用户在第二图像中的注视区域和第二图像，获得用户在第二图像中注视点的位置；根据注视点的位置、第二摄像头的内参，获得用户的注视点三维位置；根据注视点三维位置和眼睛三维位置，获得用户的第二视线方向，第二视线方向作为校准后的视线方向。

由此，可利用第二图像校准用户的视线方向以获得准确度较高的第二视线方向，有效提升用户视线数据的准确性，进而提升基于视线追踪的上层应用的用户体验。

作为第一方面的一种可能的实现方式，第一视线方向是基于视线追踪模型从第一图像中提取的。

由此，可高效获得用户的初始视线方向。

作为第一方面的一种可能的实现方式，根据眼睛三维位置、第一视线方向、第一摄像头的外参和第二摄像头的外参与内参，获得用户在第二图像中的注视区域，包括：根据眼睛三维位置、第一视线方向、第一摄像头的外参、第二摄像头的外参与内参以及视线追踪模型的精度，获得用户在第二图像中的注视区域。

由此，可在最终获得的第二视线方向中消除视线追踪模型精度限制而带来的误差。

作为第一方面的一种可能的实现方式，还包括：以用户的第二视线方向和第一图像作为用户的优化样本，基于小样本学习方法优化视线追踪模型。

由此，可以少量样本、小规模训练持续提升视线追踪模型对特定用户的视线估计精度，进而获得用户级的视线追踪模型。

作为第一方面的一种可能的实现方式，还包括：根据用户在第二图像中注视点的置信度对注视点或第二视线方向进行筛选。

由此，可减少运算量，提高处理效率和视线校准准确性。

作为第一方面的一种可能的实现方式，用户在第二图像中注视点的位置是利用注视点校准模型根据用户在第二图像中的注视区域和第二图像获得的。

由此，可高效准确且稳定地获得用户在第二图像中的注视点。

作为第一方面的一种可能的实现方式，注视点校准模型同时提供了用户在第二图像中注视点的概率值，置信度由概率值确定。

由此，可充分利用注视点校准模型提供的数据来提高处理效率。

本申请第二方面提供一种视线校准方法，包括：

响应于用户对显示屏中参考点的注视操作，获得用户的注视点三维位置；

根据第一摄像头采集的包含用户眼睛的第一图像，获得用户的眼睛三维位置；

根据注视点三维位置和眼睛三维位置，获得用户的第二视线方向。

由此，可有效提升用户视线数据的准确性，进而提升基于视线追踪的上层应用的用户体验。

作为第二方面的一种可能的实现方式，显示屏为增强现实抬头显示。

由此，可在不影响驾驶员安全驾驶的情况下实现其视线校准。

作为第二方面的一种可能的实现方式，方法还包括：以用户的第二视线方向和第一图像作为用户的优化样本，基于小样本学习方法优化视线追踪模型。

本申请第三方面提供一种视线校准装置，包括：

眼睛位置确定单元，配置为根据第一摄像头采集的包含用户眼睛的第一图像，获得用户的眼睛三维位置；

第一视线确定单元，配置为根据第一摄像头采集的包含用户眼睛的第一图像，获得用户的第一视线方向；

注视区域单元，配置为根据眼睛三维位置、第一视线方向、第一摄像头的外参和第二摄像头的外参与内参，获得用户在第二图像中的注视区域，第二图像由第二摄像头采集且包含用户看到的车外场景；

注视点校准单元，配置为根据用户在第二图像中的注视区域和第二图像，获得用户在第二图像中注视点的位置；

注视点转换单元，配置为根据注视点的位置、第二摄像头的内参，获得用户的注视点三维位置；

第二视线确定单元，配置为根据注视点三维位置和眼睛三维位置，获得用户的第二视线方向，第二视线方向作为校准后的视线方向。

作为第三方面的一种可能的实现方式，第一视线方向是基于视线追踪模型从第一图像中提取的。

由此，可高效获得用户的初始视线方向。

作为第三方面的一种可能的实现方式，注视区域单元，是配置为根据眼睛三维位置、第一视线方向、第一摄像头的外参、第二摄像头的外参与内参以及视线追踪模型的精度，获得用户在第二图像中的注视区域。

作为第三方面的一种可能的实现方式，还包括：优化单元，配置为以用户的第二视线方向和第一图像作为用户的优化样本，基于小样本学习方法优化视线追踪模型。

作为第三方面的一种可能的实现方式，注视点校准单元，还配置为根据用户在第二图像中注视点的置信度对注视点进行筛选；和/或，优化单元，还配置为根据用户在第二图像中注视点的置信度对第二视线方向进行筛选。

由此，可减少运算量，提高处理效率和视线校准准确性。

作为第三方面的一种可能的实现方式，用户在第二图像中注视点的位置是利用注视点校准模型根据用户在第二图像中的注视区域和第二图像获得的。

作为第三方面的一种可能的实现方式，注视点校准模型同时提供了用户在第二图像中注视点的概率值，置信度由概率值确定。

本申请第四方面提供一种视线校准装置，包括：

注视点位置确定单元，配置为响应于用户对显示屏中参考点的注视操作，获得用户的注视点三维位置；

第二视线确定单元，配置为根据注视点三维位置和眼睛三维位置，获得用户的第二视线方向。

作为第四方面的一种可能的实现方式，显示屏为增强现实抬头显示系统的显示屏。

作为第四方面的一种可能的实现方式，装置还包括：优化单元，配置为以用户的第二视线方向和第一图像作为用户的优化样本，基于小样本学习方法优化视线追踪模型。

本申请第五方面提供一种计算设备，包括：

至少一个处理器；以及

至少一个存储器，其与存储有程序指令，程序指令当被至少一个处理器执行时使得至少一个处理器执行上述的视线校准方法。

本申请第六方面提供一种计算机可读存储介质，其上存储有程序指令，其特征在于，程序指令当被计算机执行时使得计算机执行上述的视线校准方法。

本申请第七方面提供一种驾驶员监控系统，包括：

第一摄像头，配置为采集包含用户眼睛的第一图像；

第二摄像头，配置为采集包含用户看到的车外场景的第二图像；

至少一个处理器；以及

至少一个存储器，其与存储有程序指令，程序指令当被至少一个处理器执行时使得至少一个处理器执行上述第一方面的视线校准方法。

由此，能够有效提升车辆座舱场景中诸如驾驶员等用户的视线估计准确性，进而提升驾驶员监控系统的用户体验和智能座舱中分神检测、接管等级预估、视线交互等上层应用的用户体验。

作为第七方面的一种可能的实现方式，驾驶员监控系统还包括：显示屏，配置为向用户显示参考点；程序指令当被至少一个处理器执行时使得至少一个处理器执行第二方面的视线校准方法。

本申请第八方面提供一种车辆，包括上述的驾驶员监控系统。

由此，能够有效提升车辆座舱场景中诸如驾驶员等用户的视线估计准确性，进而提升车辆座舱中分神检测、接管等级预估、视线交互等上层应用的用户体验，最终提升车辆智能驾驶的安全性。

本申请实施例通过包含用户眼睛的第一图像获得用户的眼睛三维位置，通过显示屏上的标定位置或者包含用户看到的车外场景的第二图像获得用户的注视点三维位置，进而获得准确度较高的第二视线方向，有效提升了用户视线估计的准确性，可适用于座舱场景。此外，第二视线方向及第一图像还可作为用户的个性化样本，来优化视线追踪模型，由此，可获得针对特定用户的视线追踪模型，从而解决视线追踪模型优化难及其对部分用户视线估计精度低的问题。

本发明的这些和其它方面在以下(多个)实施例的描述中会更加简明易懂。

附图说明

以下参照附图来进一步说明本发明的各个特征和各个特征之间的联系。附图均为示例性的，一些特征并不以实际比例示出，并且一些附图中可能省略了本申请所涉及领域的惯常的且对于本申请非必要的特征，或是额外示出了对于本申请非必要的特征，附图所示的各个特征的组合并不用以限制本申请。另外，在本说明书全文中，相同的附图标记所指代的内容也是相同的。具体的附图说明如下：

图1是本申请一实施例中系统的示例性架构示意图。

图2是本申请一实施例中传感器的安装位置示意图。

图3是本申请一实施例中视线校准方法的流程示意图。

图4是本申请一实施例中眼睛基准点的示例图。

图5是本申请一实施例中眼睛三维位置估计的流程示意图。

图6是本申请实施例所适用座舱场景的一示例图。

图7是图6场景中基准坐标系中注视区域的示意图。

图8是图6场景中第二图像中注视区域的示意图。

图9是本申请一实施例中确定用户在第二图像中的注视区域的流程示意图。

图10是基准坐标系中注视区域与第二图像中注视区域之间的投影示例图。

图11是本申请一实施例中注视点校准模型的结构示意图。

图12是本申请一实施例中获得注视点三维位置的流程示意图。

图13是本申请一实施例中优化视线追踪模型的示例性流程示意图。

图14是座舱场景中驾驶员的视线校准及模型优化过程示意图。

图15是本申请一实施例中视线校准装置的结构示意图。

图16是本申请另一实施例中系统的示例性架构示意图。

图17是本申请另一实施例中视线校准方法的流程示意图。

图18是本申请另一实施例中视线校准装置的结构示意图。

图19是本申请实施例计算设备的结构示意图。

具体实施方式

说明书和权利要求书中的词语“第一、第二、第三等”或模块A、模块B、模块C等类似用语，仅用于区别类似的对象，不代表针对对象的特定排序，可以理解地，在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

在以下的描述中，所涉及的表示步骤的标号，如S110、S120……等，并不表示一定会按此步骤执行，在允许的情况下可以互换前后步骤的顺序，或同时执行。

说明书和权利要求书中使用的术语“包括”不应解释为限制于其后列出的内容；它不排除其它的元件或步骤。因此，其应当诠释为指定所提到的所述特征、整体、步骤或部件的存在，但并不排除存在或添加一个或更多其它特征、整体、步骤或部件及其组群。因此，表述“包括装置A和B的设备”不应局限为仅由部件A和B组成的设备。

本说明书中提到的“一个实施例”或“实施例”意味着与该实施例结合描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在本说明书各处出现的用语“在一个实施例中”或“在实施例中”并不一定都指同一实施例，但可以指同一实施例。此外，在一个或多个实施例中，能够以任何适当的方式组合各特定特征、结构或特性，如从本公开对本领域的普通技术人员显而易见的那样。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。如有不一致，以本说明书中所说明的含义或者根据本说明书中记载的内容得出的含义为准。另外，本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

为了准确地对本申请中的技术内容进行叙述，以及为了准确地理解本发明，在对具体实施方式进行说明之前先对本说明书中所使用的术语给出如下的解释说明或定义。

视线追踪(Eye tracking/gaze tracking)，测量人眼注视方向或注视点的技术。

视线追踪模型(Eye tracking/gaze tracking model)，可通过包含人眼或人脸的图像估计人眼注视方向或注视点的机器学习模型。例如，神经网络模型等。

驾驶员监控系统(Driver Monitoring System，DMS)，基于图像处理技术、语音处理技术等监测车内驾驶员状态的系统，其包括安装在车内座舱中的车内摄像头、处理器、补光灯等组件，车内摄像头可捕捉包含驾驶员脸部、头部、部分躯干(例如，手臂)的图像(即本文的DMS图像)。

车外摄像头，也称前方摄像头，用于捕捉包含车外场景(尤其是车辆前方场景)的图像，该图像中包含驾驶员所看到的车外场景。

彩色(Red Green Blue，RGB)摄像头，通过感应物体反射回来的自然光或近红外光对物体彩色地成像。

飞行时间(Time of Flight，TOF)摄像头，通过向目标物体发射光脉冲，同时记录光脉冲的反射运动时间，推算出光脉冲发射器同目标物体的距离，并以此生成目标物体的3D图像，该3D图像包括目标物体的深度信息和反射光强度的信息。

PnP(Perspective-n-Point)，通过世界坐标系中的N个特征点与图像坐标系中的N个像点，计算出其投影关系，从而获得相机或物体位姿的问题。PnP求解是指：给定n个3D参考点{c1,c2,…，Cn}到摄像机图像上2D投影点{u1，u2，…，un}的匹配点对，已知3D参考点在世界坐标系下的坐标，2D点在图像坐标系下的坐标，已知摄像机的内参数K，求世界坐标系与摄像机坐标系之间的位姿变换{R|t}，R为旋转矩阵，t表示平移变量。

Landmark算法，人脸部特征点提取技术的一种。

世界坐标系，也称为测量坐标系、客观坐标系，是一个三维直角坐标系，以其为基准可以描述相机和待测物体的三维位置，是客观三维世界的绝对坐标系，通常用Pw(Xw,Yw,Zw)表示其坐标值。

相机坐标系，为三维直角坐标系，以相机的光心为坐标原点，Z轴为相机光轴，X轴、Y轴分别平行于图像坐标系中的X轴、Y轴，通常用Pc(Xc,Yc,Zc)表示其坐标值。

相机的外参，可决定相机坐标系与世界坐标系之间的相对位置关系，从世界坐标系转换到相机坐标系的参数，包括旋转矩阵R和平移向量T。以针孔成像为例，相机外参、世界坐标和相机坐标满足关系式(1)：Pc＝RPw+T(1)；其中，Pw为世界坐标，Pc是相机坐标，T＝(Tx,Ty,Tz)，是平移向量，R＝R(α,β,γ)是旋转矩阵，分别是绕相机坐标系的Z轴旋转角度为γ、绕Y轴旋转角度为β、绕X轴旋转角度为α，这6个参数即α,β,γ,Tx,Ty,Tz组成了相机的外参。

相机的内参，决定了从三维空间到二维图像的投影关系，仅与相机有关。以小孔成像模型为例，不考虑图像畸变上，内参可包括相机在图像坐标系两个坐标轴u、v方向上的尺度因子、相对于成像平面坐标系的主点坐标(x₀,y₀)、坐标轴倾斜参数s，u轴的尺度因子是每个像素在图像坐标系中x方向的物理长度与相机焦距f的比值，v轴尺度因子是像素在图像坐标系中y方向上的物理长度与相机焦距的比值。若考虑图像畸变，内参可包括相机在图像坐标系两个坐标轴u、v方向上的尺度因子、相对于成像平面坐标系的主点坐标、坐标轴倾斜参数和畸变参数，畸变参数可包括相机的三个径向畸变参数和两个切向畸变参数。

相机的内参和外参可以通过张正友标定获取。本申请实施例中，第一摄像头的内参和外参、第二摄像头的内参和外参均在同一世界坐标系中标定。

成像平面坐标系，即图像坐标系，以图像平面的中心为坐标原点，X轴和Y轴分别平行于图像平面的两条垂直边，通常用P(x,y)表示其坐标值，图像坐标系是用物理单位(例如，毫米)表示像素在图像中的位置。

像素坐标系，即以像素为单位的图像坐标系，以图像平面的左上角顶点为原点，X轴和Y轴分别平行于图像坐标系的X轴和Y轴，通常用p(u,v)表示其坐标值，像素坐标系是以像素为单位表示像素在图像中的位置。

以针孔相机模型为例，像素坐标系的坐标值与相机坐标系的坐标值之间满足关系式(2)。

其中，(u、v)表示以像素为单位的图像坐标系的坐标，(Xc,Yc,Zc)表示相机坐标系中的坐标，K为相机内参的矩阵表示。

小样本学习(few-shot learning)，是指神经网络在预学习了一定已知类别的大量样本后，对于新的类别，只需要少量的标记样本就能够实现快速学习。

元学习(meta-learning)，是小样本学习研究中的一个重要的分支，主要思想是当目标任务的训练样本较少时，通过使用大量与目标小样本任务相似的小样本任务来训练神经网络，以使训练后的神经网络在目标任务上有着不错的初始值，然后利用少量的目标小样本任务的训练样本对训练后的神经网络进行调整。

模型无关元学习(Model-agnostic meta-learning，MAML)算法，元学习的一种具体算法，其思想是：训练机器学习模型的初始化参数，使该机器学习模型能够在来自新任务的少量数据上对参数执行一次或多次的学习后能够得到较佳的表现。

soft argmax，能够通过热力图得到关键点坐标的一种算法或函数，可采用神经网络的层实现，实现soft argmax的层可称为soft argmax层。

二值交叉熵，损失函数的一种。

单目深度估计(Fast Depth)，利用一张或者唯一视角下的RGB图像估计图像中每个像素相对拍摄源的距离的方法。

抬头显示系统(Head Up Display，HUD)，又称平行显示系统，能够将时速、发动机转速、电池电量、导航等重要行车信息投射到驾驶员前面的挡风玻璃上，使驾驶员不低头、不转头就便可通过挡风玻璃显示区域看到时速、发动机转速、电池电量、导航等车辆参数和驾驶信息。

增强现实抬头显示系统(AR-HUD)，是通过内部特殊设计的光学系统将图像信息精确地结合于实际交通路况中，将胎压、速度、转速等信息投射到前挡风玻璃上，使车主在行车中，无需低头就能查看汽车相关信息。

第一种可能的实现方式是，采集大量视线数据训练视线追踪模型，将训练好的视线追踪模型部署在车载端，车载端利用该视线追踪模型对实时采集的图像进行处理以最终获得使用者的视线方向。该实现方式主要存在如下缺陷：训练视线追踪模型时所使用的样本与当前使用者可能存在较大的个体差异(例如，人眼内部结构的个体差异等)，这使得视线追踪模型对当前使用者的匹配程度不高，导致当前使用者视线估计不准。

第二种可能的实现方式是：使用屏幕显示特定图像，通过视线追踪设备使用者与屏幕上特定图像的交互校准视线追踪设备，获得针对于该使用者的参数，从而提升视线追踪设备对该使用者的准确度。该实现方式主要存在如下缺陷：依赖使用者的主动配合，操作繁琐，可能因人为操作不当而导致校准失误，最终影响视线追踪设备对使用者的准确度。同时，因车载情况下座舱中较难部署足够大的显示屏在驾驶员正前方，因此该实现方式不适用于座舱场景。

第三种可能的实现方式是，在使用屏幕显示播放画面时，首先使用基础视线追踪模型预测初步视线方向，依据初步视线方向获取在屏幕上的初步注视区域，将初步注视区域结合正在播放的画面矫正预测的注视区域，从而提升视线估计精度。该实现方式主要存在如下缺陷：仅适用于注视屏幕的场景，并且对于注视点不断变化的场景，准确率较低。

上述实现方式均存在座舱场景下视线估计不准确的问题。鉴于此，本申请实施例提出了一种视线校准方法及装置、设备、计算机可读存储介质、系统、车辆，通过包含用户眼睛的第一图像获得用户的眼睛三维位置，通过显示屏上的标定位置或者包含用户看到的车外场景的第二图像获得用户的注视点三维位置，并由用户的眼睛三维位置和注视点三维位置获得准确度较高的第二视线方向，由此，本实施例能够有效提升用户视线估计的准确性，可适用于座舱场景。此外，本申请实施例，还利用包含用户的第二视线方向和其第一图像的优化样本，通过小样本学习方法优化视线追踪模型，以提升视线追踪模型针对用户的视线估计精度，从而获得用户级的视线追踪模型，解决了视线追踪模型优化难及其对部分用户视线估计精度低的问题。

本申请实施例可适用于任何需要对人的视线方向进行实时校准或估计的应用场景。一些示例中，本申请实施例可适用于诸如车辆、船只、飞行器等交通工具的座舱环境中驾驶员和/或乘客的视线校准或估计。其他示例中，本申请实施例还可适用于其他场景，例如对佩戴诸如可穿戴眼睛或其他设备的人员进行视线校准或估计。当然，本申请实施例还可应用于其他场景，在此不再一一列举。

【实施例一】

下面先对实施例所适用的系统进行示例性地说明。

图1示出了座舱环境中本实施例示例性系统100的架构示意图。参见图1所示，该示例性系统100可包括：第一摄像头110、第二摄像头120、图像处理系统130和模型优化系统140。

第一摄像头110负责采集用户的人眼图像(即，下文的第一图像)。参见图1所示，以座舱场景为例，第一摄像头110可以是DMS中的车内摄像头，该车内摄像头用于拍摄座舱中的驾驶员。以驾驶员为例，参见图2的示例，车内摄像头是可以安装在汽车A柱(图2中的①位置)或方向盘附近的DMS摄像头，该DMS摄像头优选为分辨率较高的RGB摄像头。这里，人眼图像(即，下文的第一图像)泛指包含了人眼的各种类型图像，例如，人脸图像、包含人脸的半身图像等。一些实施例中，为便于通过第一图像获取到人眼位置的同时，获得用户的其他信息，同时减少图像数据量，人眼图像(也即，下文的第一图像)可以是人脸图像。

第二摄像头120负责采集场景图像(也即，下文的第二图像)，该场景图像中包含了用户看到的车外场景，也即，第二摄像头120的视野与用户的视野至少部分地重合。参见图2所示，以座舱场景和驾驶员为例，第二摄像头120可以是车外摄像头，该车外摄像头可用于拍摄驾驶员所看到的车辆前方场景。参见图2的示例，车外摄像头可以是安装于车辆前挡风玻璃上方(图2中的②位置)的前方摄像头，其可拍摄车辆前方的场景，也即驾驶员看到的车外场景，该前方摄像头优选为TOF摄像头，其可采集深度图像，便于通过图像获得车辆与其前方目标物体(例如，用户注视的物体)之间的距离。

图像处理系统130是能够处理DMS图像及场景图像的图像处理系统，其可运行视线追踪模型以获得用户的初步视线数据并利用该初步视线数据(即下文的第一视线方向)执行下文所述的视线校准方法以获得用户的校准视线数据(即下文的第二视线方向)，从而提升用户视线数据的准确性。

模型优化系统140可负责视线追踪模型的优化，其可利用图像处理系统130提供的用户的校准视线数据对视线追踪模型进行优化并将优化后的视线追踪模型提供给图像处理系统130，从而提升视线追踪模型对用户的视线估计精度。

实际应用中，第一摄像头110、第二摄像头120和图像处理系统130均可部署于车端，即车辆中。模型优化系统140可根据需要部署于车端和/或云端。图像处理系统130与模型优化系统140之间可通过网络通信。

一些实施例中，上述示例性系统100中还可包括模型训练系统150，该模型训练系统150负责训练得到视线追踪模型，其可部署于云端。实际应用中，模型优化系统140和模型训练系统150可通过同一系统实现。

参见图2所示，第一摄像头110的相机坐标系可以是直角坐标系Xc₁-Yc₁-Zc₁，第二摄像头120的相机坐标系可以是直角坐标系Xc₂-Yc₂-Zc₂，第一摄像头110、第二摄像头120的图像坐标系、像素坐标系在图2中未示出。本实施例中，为便于利用校准获得的第二视线方向优化视线追踪模型，以第一摄像头110的相机坐标系为基准坐标系，视线方向、注视点三维位置和眼睛三维位置均可通过第一摄像头110的相机坐标系中的坐标和/或角度表示。具体应用中，根据实际需求、具体应用场景、计算复杂度的要求等各种因素自由选定基准坐标系，不限于此。例如，还可以车辆的座舱坐标系为基准坐标系。

下面对本实施例的视线校准方法进行详细说明。

图3示出了本实施例视线校准方法的示例性流程。参见图3所示，本实施例的一种示例性视线校准方法可包括如下步骤：

步骤S301，根据第一摄像头110采集的包含用户眼睛的第一图像，获得用户的眼睛三维位置和第一视线方向；

步骤S302，根据眼睛三维位置、第一视线方向、第一摄像头110的外参和第二摄像头120的外参与内参，获得用户在第二图像中的注视区域，第二图像由第二摄像头120采集且包含用户看到的车外场景；

步骤S303，根据用户在第二图像中的注视区域和所述第二图像，获得用户在第二图像中注视点的位置；

步骤S304，根据用户在第二图像中注视点的位置、第二摄像头120的内参，获得用户的注视点三维位置；

步骤S305，根据注视点三维位置和眼睛三维位置，获得用户的第二视线方向，第二视线方向作为校准后的视线方向。

本实施例的视线校准方法，可利用第二图像校准用户的视线方向以获得准确度较高的第二视线方向，有效提升用户视线数据的准确性，进而提升基于视线追踪的上层应用的用户体验。

第一视线方向是基于视线追踪模型从第一图像中提取的。以系统100为例，视线追踪模型可由部署于云端的模型训练系统150训练获得并提供给部署于用户车端的图像处理系统130，由图像处理系统130运行该视线追踪模型对包含用户眼睛的第一图像进行处理从而获得用户的第一视线方向。

眼睛三维位置可表示为预先选定的眼睛基准点在基准坐标系中的坐标。至少一些实施例中，可以根据应用场景的需求、视线方向的使用情况、计算复杂度的需求、硬件性能的情况以及用户自身的需求来选定眼睛基准点。图4示出了眼睛基准点的示例图，眼睛基准点可以包括但不限于两眼中心的中间点O、左眼中心O1、右眼中心O2中之一或多项。这里，眼中心可以是眼睛的瞳孔中心、眼球中心、角膜中心或眼睛的其他位置，可根据需要自由选定。

对于座舱场景中的用户而言，注视点与其两眼的距离将远大于其两眼间距，此时，可以选定两眼中心的中间点O为眼睛基准点，如此，可在不影响视线估计精度的情况下减少数据量，降低计算复杂度，提升处理效率。若需使用第二视线方向优化视线追踪模型，且用户期望视线追踪模型的精度较高，可选定左眼中心O1和右眼中心O2为眼睛基准点。

视线方向可通过基准坐标系中的视角和/或视线向量来表示。视角可以是视线与眼睛轴线的夹角，视线与眼睛轴线的交点位置即为用户的眼睛三维位置。视线向量是以眼睛在基准坐标系中的位置为起点、以注视点在基准坐标系中的位置为终点的方向矢量，该方向矢量中可包含眼睛基准点在基准坐标系中的三维坐标和注视点在基准坐标系中的三维坐标。

注视点是指用户眼睛所注视的点。以座舱场景为例，驾驶员的注视点即是驾驶员眼睛看向的具体位置。一注视点可通过其在空间的位置表示。本实施例中，注视点的三维位置通过注视点在基准坐标系中的三维坐标表示。

步骤S301中，可通过各种可适用的方式确定用户的眼睛三维位置。一些实现方式中，眼睛三维位置可通过人脸特征点检测算法结合预先构建的3D人脸模型获得。一些实现方式中，眼睛三维位置可通过第一图像获得的二维位置结合第一图像的深度信息采用Landmark算法来获得。可以理解，任何可通过图像数据得到图像中某个点的三维位置的方法均可适用步骤S301中用户眼睛三维位置的确定，此处不再一一列举。

图5示出了眼睛三维位置估计的示例性过程。参见图5所示，眼睛三维位置估计的示例性过程可包括：步骤S501，使用人脸检测算法和人脸特征点检测算法对第一图像进行处理，获得用户的人脸特征点在第一图像中的位置；S502，将用户的人脸特征点在第一图像中的位置结合预先获得的标准3D人脸模型进行PnP求解，解得用户的人脸特征点在基准坐标系的3D坐标；S503，从用户的人脸特征点在基准坐标系的3D坐标中提取用户的眼睛基准点的3D坐标作为用户眼睛的3D坐标。需要说明的是，图5仅为示例，并非用于限制本实施例眼睛三维位置估计的具体实现方式。

步骤S302中，可根据用户的眼睛三维位置、第一视线方向、第一摄像头110的外参、第二摄像头120的内参和外参，利用摄像机透视投影模型确定用户在第二图像中的注视区域(下文将“在第二图像中的注视区域”简称为“第二注视区域”)。这里，摄像机透视投影模型可以是针孔成像模型或非线性的透视投影模型。

为获得更为准确的第二注视区域，步骤S302可包括：根据用户的眼睛三维位置、第一视线方向、第一摄像头110的外参、第二摄像头120的内参和外参以及视线追踪模型的精度，获得用户在第二图像中的注视区域。由此，可在最终获得的第二视线方向中消除视线追踪模型精度限制而带来的误差。

下面结合具体场景详细说明获得第二注视区域的过程。

图6示出了座舱环境中驾驶员(图中未示出)看向车辆前方人行横道中行人的场景。

图9示出了确定用户的第二注视区域的示例性流程。参见图9所示，获得用户的第二注视区域的过程可包括如下步骤：

步骤S901，根据用户的眼睛三维位置和第一视线方向确定用户在基准坐标系中的注视区域S1。

具体地，根据用户眼睛基准点在基准坐标系中的坐标(Xc₁，Yc₁，Zc₁)和通过第一图像获得的第一视线方向ON(视角θ)得到用户在基准坐标系中的视线ON。假设视线追踪模型的平均精度值表示为：±α，α表示视角的误差值，视线追踪模型的精度越低，α取值越大。本步骤中可以将视线角度θ调整为区间值[θ-α，θ+α]，以视线角度θ-α的视线和视线角度为θ+α的视线形成的椎体作为用户在基准坐标系中的注视区域S1。

图7示出了图6所示场景中驾驶员在基准坐标系中的注视区域S1的可视化图形，O表示眼睛三维位置，带有箭头的实线表示第一视线方向ON，θ表示第一视线方向ON的视角，α表示视线追踪模型的平均精度值，虚线椎体表示用户在基准坐标系中的注视区域S1。

步骤S902，将用户在基准坐标系中的注视区域S1投影到第二摄像头120的像素坐标系，以获得用户的第二注视区域Q。

图8示出了第二摄像头拍摄图6所示场景所得的第二图像，其中仅示出了驾驶员注视的部分、略去了图6所示场景中与本实施例无关的内容，且图8中标记了用户的第二注视区域Q。

以小孔成像模型为例，结合图6～图8的示例，本步骤的投影过程可通过式(1)和式(2)来实现。具体地，首先，基于第一摄像头110的外参和第二摄像头120的外参，按照式(1)将注视区域S1转换到第二摄像头120的相机坐标系中，得到注视区域S2；然后，基于第二摄像头120的内参，根据关系式(2)将注视区域S2投影到第二摄像头120的像素坐标系中，得到用户的第二注视区域Q。这里，第一摄像头110的外参和第二摄像头120的外参是在同一世界坐标系中标定的。

将注视区域S1经过第一摄像头110的外参和第二摄像头120的内参和外参，在第二摄像头120的成像面上投影为一四边形的第二注视区域Q，通常视线追踪模型精度越低，α取值越大，用户在基准坐标系中的注视区域S1角度越大，四边形的第二注视区域Q宽度越大。

图10示出了一条视线OX的投影示例图。参见图10所示，视线OX上深度不同的点x在第二摄像头120的成像面上的投影为O’X’。如图10所示，以左侧O为空间中人眼视线原点，OX为第一视线方向L，映射到第二摄像头120的相机成像面中，人眼视线原点映射点为O’，第一视线方向L映射为视线L’。

需要说明的是，图7～10所示方法仅为示例，本申请实施例中获得第二注视区域的方法不限于此。

第二注视区域可通过灰度图像数据来表征。第二注视区域的灰度图像数据中像素点与第二图像中的像素点一一对应，每个像素点的灰度值可指示自身是否属于注视区域。参见下文图11的示例，假设第二图像的可视化表示为Fig1，黑白图像Fig2即为第二注视区域的可视化表示，黑白图像Fig2中黑色像素点不属于第二注视区域，白色像素点属于第二注视区域。以座舱场景为例，第二摄像头采用TOF摄像头时，第二图像为TOF图像，第二图像中各像素的灰度值可指示目标物体的对应点到第二摄像头的距离。

步骤S303中，可以通过预先训练好的注视点校准模型基于第二注视区域和第二图像获得用户在第二图像中的注视点(本文将“在第二图像中的注视点”简称为“第二注视点”)的位置。该注视点校准模型可以是任何可用于图像处理的机器学习模型。考虑到神经网络精度高且稳定性好，本申请实施例中，注视点校准模型优选为神经网络模型。

下面对注视点校准模型的示例性实现方式进行详细说明。

图11示出了注视点校准模型的示例性网络结构。参见图11所示，注视点校准模型可以是编码器-解码器(encoder-decoder结构)的神经网络模型。参见图11所示，注视点校准模型可包括通道维度拼接(channel-wise concat)层、ResNet-18编码网络(ResNet-18based encoder)、卷积门循环单元神经元(Convolutional GRU Cell)、ResNet-18解码网络(ResNet-18based decoder)、softargmax标准化(soft-argmax+scaling)层。

参见图11所示，注视点校准模型的处理过程包括：在注视点校准模型的输入端，先经通过通道维度拼接层将第二注视区域的图像与第二图像在通道方向上合并为一个新图像，若第二图像和第二注视区域的图像均为单通道灰度图像，则合并获得的新图像具有2个通道，若第二图像为RGB三通道彩色图像而第二注视区域的图像为单通道灰度图像，则合并获得的新图像具有4个通道，即4通道图像；将合并后的新图像输入编码网络，依次经编码网络、卷积门循环单元神经元和解码网络的处理，解码网络输出热力图Fig3，热力图Fig3中每个像素的灰度值指示相应像素点是注视点的概率。在解码网络输出热力图Fig3后，热力图Fig3经softargmax标准化层计算而得到注视点在第二图像中的位置，即注视点在第二图像中的对应像素点的坐标(x,y)。通常，一条视线具有一个注视点，每个注视点可能包含第二图像中的一个或多个像素点。

注视点校准模型可预先训练获得，训练时以场景图像及其对应的注视区域灰度图像(该注视区域灰度图像中注视区域的范围为设定值)作为样本，且该样本的真实注视区域已知。训练过程中，ResNet部分和soft-argmax标准层同时训练但采用不同的损失函数，对于采用具体采用何种损失函数，本申请实施例不予限制。例如，ResNet部分的损失函数可以是二值交叉熵(BCE loss)，soft-argmax标准层的损失函数可以是均方误差(MSE loss)。

一些示例中，ResNet部分中的解码网络可使用像素级别的二值交叉熵作为损失函数，表达式如下式(3)所示。

其中，y_i为像素i是否为注视点的标签，是注视点时取1，非注视点时取0，p(y_i)为解码网络输出的热力图Fig3中像素i是注视点的概率值，N为第二图像Fig1的像素总数也即热力图Fig3的像素总数，图11的示例中，第二图像的规格为128×72，其像素总数N＝128*72＝9216。

步骤S304中，根据用户在第二图像中注视点的位置、第二摄像头120的内参获得用户的注视点三维位置的具体实现方式可以有多种，注视点三维位置即为基准坐标系(第一摄像头110的相机坐标系)中注视点的三维坐标。可以理解，基于某个点在图像中的位置获得其在空间中位置的任何算法均可适用于步骤S304。

考虑到逆透视变换相对成熟且计算复杂度较低，步骤S304中优选通过逆透视变换来得到注视点三维位置。具体地，步骤S304中只需通过获得第二注视点的深度即可得到基准坐标系中注视点的Z轴坐标，结合步骤S303获得第二注视点的位置即像素坐标(u,v)，通过简单的逆透视变换即可得到注视点在基准坐标系中的三维坐标，也即注视点的三维位置。

图12示出了步骤S304的示例性具体实现流程。参见图12所示，步骤S304可以包括：步骤S3041，基于单目深度估计算法利用第二图像得到第二注视点的深度，该深度即为注视点相对第二摄像头120的距离h，由距离h估算出第二摄像头的相机坐标系中注视点的Z轴坐标Zc₂；步骤S3042，根据第二注视点的位置即像素坐标(u，v)和第二摄像头的相机坐标系中注视点的Z轴坐标，基于第二摄像头120的内参和外参以及第一摄像头110的外参得到基准坐标系中注视点的三维坐标。

步骤S3041中，可利用第二图像通过诸如FastDepth等单目深度估计算法计算得到第二图像中每个像素相对第二摄像头120的距离h，根据第二注视点的位置即像素坐标即可从中提取到第二注视点相对第二摄像头120的距离h。这里，深度估计可以采用各种可适用的算法。一示例中，优选通过单目深度估计(FastDepth)算法计算得到第二图像中每个像素点的深度，该算法计算复杂度低、处理效率高、算法成熟稳定，对硬件性能的需求相对较低，便于通过计算能力相对较低的车端设备来实现。

步骤S3042中，根据第二注视点的位置即像素坐标(u，v)和基准坐标系中注视点的Z轴坐标Zc、第二摄像头120的内参，通过式(2)反推注视点在第二摄像头120的相机坐标系中的坐标值(Xc₂,Yc₂,Zc₂)，再基于第二摄像头120的外参和第一摄像头110的外参由注视点在第二摄像头120的相机坐标系中的坐标值(Xc₂,Yc₂,Zc₂)通过式(1)推理得到注视点在第一摄像头110的相机坐标系中的坐标值(Xc₁,Yc₁,Zc₁)，坐标值(Xc₁,Yc₁,Zc₁)即为注视点的三维位置。

通常，一条视线具有一个注视点，但因精度限制对应同一条视线可能获得多个注视点。此时，可以根据用户在第二图像中注视点的置信度对注视点进行筛选，这样，仅需对筛选出的注视点执行后续步骤即可获得第二视线方向，可在确保第二视线方向准确的同时减少计算量，提高处理效率。这里，注视点的筛选可以在步骤S304之前执行，也可在步骤S304之后进行。

步骤S303中注视点校准模型同时提供了第二注视点的概率值，第二注视点的置信度可由该概率值确定。一些实施例中，注视点校准模型提供的热力图中包含了第二注视点的概率值，该概率值表征第二注视点是真实注视点的概率，概率值越高说明相应第二注视点是真实注视点的可能性越高，可直接以该概率值作为第二注视点的置信度或者以该概率值的正比例函数值作为第二注视点的置信度。由此，无需单独计算即可获得第二注视点的置信度，可提升处理效率，同时降低计算复杂度。

基于置信度对注视点进行筛选的具体实现方式可以有多种。一些示例中，可仅选取第二注视点置信度超出预先设定的第一置信度阈值(例如，0.9)或置信度相对最高的注视点。若第二注视点置信度相对最高或超出第一置信度阈值的注视点仍有多个，可以从这些注视点中随机选取一个或多个。当然，若第二注视点置信度超出第一置信度阈值的注视点或第二注视点置信度相对最高的注视点仍有多个，也可同时保留这多个注视点。如此，通过筛选，不仅可确保最终获得的第二视线方向准确性更高，而且可减少步骤S304、步骤S305以及下文步骤S306的运算量和数据量，从而有效提升处理效率，同时降低硬件损耗，便于通过计算能力较低、存储容量相对有限的车端设备实现。

步骤S305中，可以通过注视点三维位置和眼睛三维位置确定的向量或视角来表示第二视线方向。一些实施例中，在第一摄像头的相机坐标系中，可通过眼睛三维位置为起点、注视点三维位置为终点的向量表征第二视线方向。一些实施例中，在第一摄像头的相机坐标系中，可以眼睛三维位置为起点且指向注视点三维位置的视线与用户眼睛基准点的轴线之间的夹角(即视角)来表征第二视线方向。

本申请实施例中步骤S301～步骤S305的视线校准可通过系统100中的图像处理系统130来执行。

通常情况下深度学习模型可以使用少量样本进行“小样本学习”来提升针对特定用户的模型精度。但对于视线追踪模型来说，需要的数据是相机坐标系下用户的视线数据(例如，视线角度)，这种数值类型的数据在一般环境中很难直接获得，这使得视线追踪模型的用户级优化变得困难。鉴于此，可使用步骤S305得到的结果优化视线追踪模型。

在步骤S305之后，本申请实施例的视线校准方法还可包括：步骤S306，以用户的第二视线方向和第一图像作为用户的优化样本，基于小样本学习方法优化视线追踪模型。由此，可以少量样本、小规模训练持续提升视线追踪模型对特定用户的视线估计精度，进而获得用户级的视线追踪模型。

以上文图1的示例性系统为例，图13示出了步骤S306中视线追踪模型优化的示例性实现流程。参见图13所示，该示例性流程可包括：步骤S3061，图像处理系统130将第二视线方向和其对应的第一图像作为用户的优化样本存入用户的样本库中，该样本库可与用户信息(例如，用户身份信息)关联以便于查询，部署于模型优化系统140中。步骤S3062，模型优化系统140利用用户的样本库中新增的优化样本，基于小样本学习方法针对前一次优化获得的用户的视线追踪模型进行优化。步骤S3063，模型优化系统140将本次优化得到的用户的视线追踪模型下发给用户车端的图像处理系统130，以便图像处理系统130在用户的下一次视线校准中利用优化后的视线追踪模型获得其第一视线方向。其中，前一次优化得到的用户的视线追踪模型的参数数据、用户的样本库均可与用户信息(例如，用户身份信息)关联，以便本次优化时可通过用户信息直接查询到优化样本和前一次优化得到的视线追踪模型的参数数据。如此，可在用户无感的情况下实时采集用户的优化样本并持续优化其视线追踪模型，用户使用视线追踪模型时间越长、频率越高，该视线追踪模型对用户的视线估计越准确，用户的体验也会越好，在实时提升用户视线估计准确性的同时解决了视线追踪模型针对某些用户视线估计精度低且优化难的技术问题。

实际应用中，可以定时或在新增的优化样本达到一定数量或其他预设条件满足的情况下执行步骤S3062的优化，在图像处理系统130与模型优化系统140可正常通信的情况下步骤S3061的样本库更新可实时进行。

可选地，步骤S3061中可选择性地上传用户的优化样本，以提高优化样本的质量，减少不必要的优化操作，降低模型优化带来的硬件损耗。具体地，可以根据第二注视点置信度对第二视线方向进行筛选，仅上传筛选得到的第二视线方向和其对应的第一图像所形成的优化样本。这里，第二视线方向的筛选可以包括但不限于：1)选取第二注视点的置信度大于预先设定的第二置信度阈值(例如，0.95)的第二视线方向；2)选取第二注视点的置信度相对最高的第二视线方向。这里，关于第二注视点的置信度，可参见前文相关描述，不再赘述。

小样本学习方法可以通过能够以少量样本实现视线追踪模型优化的任何算法来实现。例如，可利用用户的优化样本对视线追踪模型使用MAML算法进行优化，以实现基于小样本学习方法的视线追踪模型的优化。由此，通过少量样本即可获得更契合特定用户个体特性的视线追踪模型，数据量小、计算复杂度低，有利于减少硬件损耗，降低硬件成本。

下面以座舱场景为例说明本实施例的具体实现方式。

图14示出了座舱环境中系统100执行视线校准和模型优化的示例性处理流程。参见图14所示，该处理流程可包括：步骤S1401，车辆G的车内摄像头捕捉车辆座舱中的驾驶员A的DMS图像(即第一图像)，DMS图像中包含驾驶员A的脸部，经车辆G车端的图像处理系统130运行视线追踪模型，推理出初始视线方向(即第一视线方向)，同时利用DMS图像进行人眼位置估计得到驾驶员A的眼睛三维位置；步骤S1402，图像处理系统130结合车外摄像头捕捉的车外图像(即第二图像)及初始视线方向的注视区域进行推理，获得驾驶员A的校准视线方向(即第二视线方向)，车外图像中包含驾驶员A当前看到的场景，车外图像与上述DMS图像同步采集。步骤S1403，在判断校准视线方向的可信度较高(例如，第二注视点的置信度满足上文相关要求)时，图像处理系统130将驾驶员A的DMS图像与校准视线方向作为驾驶员A的个性化数据(即优化样本)上传至模型优化系统140，模型优化系统140对驾驶员A的视线追踪模型使用小样本学习方式进行优化，获得驾驶员A的视线追踪模型并下发至车辆G车端的图像处理系统130。可见，本实施例使用车外图像校准视线追踪模型估计的初始视线数据以提升视线数据的准确性，并以所获得的校准视线数据作为用户的个性化视线数据优化视线追踪模型，提升视线追踪模型对相应用户的视线估计精度。由此，本实施例不仅可解决视线追踪模型的视线估计结果在座舱场景下实际使用时不准确的问题，同时还可解决座舱场景下因无法获取用户的视线数据而导致视线追踪模型难以优化的技术问题。并且，该系统还具有成长性，车载场景下其上述处理流程可在用户无感的情况下持续进行，用户使用越多该系统对该用户的视线估计越准确，视线追踪模型对该用户的精度也越高。

图15示出了本实施例提供的视线校准装置1500的示例性结构。参见图15所示，本实施例的视线校准装置1500可包括：

眼睛位置确定单元1501，配置为根据第一摄像头采集的包含用户眼睛的第一图像，获得用户的眼睛三维位置；

第一视线确定单元1502，配置为根据第一摄像头采集的包含用户眼睛的第一图像，获得用户的第一视线方向；

注视区域单元1503，配置为根据所述眼睛三维位置、第一视线方向、第一摄像头的外参和第二摄像头的外参与内参，获得用户在第二图像中的注视区域，所述第二图像由所述第二摄像头采集且包含用户看到的车外场景；

注视点校准单元1504，配置为根据用户在第二图像中的注视区域和所述第二图像，获得用户在第二图像中注视点的位置；

注视点转换单元1505，配置为根据用户在第二图像中注视点的位置、所述第二摄像头的内参，获得用户的注视点三维位置；

第二视线确定单元1506，配置为根据所述注视点三维位置和所述眼睛三维位置，获得用户的第二视线方向，所述第二视线方向作为校准后的视线方向。

一些实施例中，第一视线方向是基于视线追踪模型从所述第一图像中提取的。

一些实施例中，注视区域单元1503是配置为根据所述眼睛三维位置、第一视线方向、第一摄像头的外参和第二摄像头的外参与内参，获得用户在第二图像中的注视区域，包括：根据所述眼睛三维位置、第一视线方向、第一摄像头的外参、第二摄像头的外参与内参以及所述视线追踪模型的精度，获得用户在第二图像中的注视区域。

一些实施例中，视线校准装置还包括：优化单元1507，配置为以所述用户的第二视线方向和所述第一图像作为所述用户的优化样本，基于小样本学习方法优化所述视线追踪模型。

一些实施例中，注视点校准单元1504还可配置为根据所述用户在第二图像中注视点的置信度对所述注视点进行筛选；和/或，优化单元1507还配置为根据所述用户在第二图像中注视点的置信度对第二视线方向进行筛选。

一些实施例中，所述用户在第二图像中注视点的位置是利用注视点校准模型根据用户在第二图像中的注视区域和所述第二图像获得的。

一些实施例中，所述注视点校准模型同时提供了用户在第二图像中注视点的概率值，所述置信度由概率值确定。

【实施例二】

图16示出了本实施例所适用系统1600的示例性架构。参见图16所示，本实施例的示例性系统1600与实施例一的系统100基本相同，所不同的是，本实施例的示例性系统1600中第二摄像头120为可选组件，其包含显示屏160，该显示屏160可部署于车端，通过车端设备中已有的显示组件来实现。本实施例中系统1600的其他部分即第一摄像头110、图像处理系统130、模型优化系统140、模型训练系统150150与实施例一系统100中的相应部分功能基本相同，不再赘述。本实施例使用与第一摄像头110(即，车内摄像头)标记了位置关系的显示屏160，依靠用户注视显示屏160的参考点实现用户视线的校准并获取其优化样本，使用该优化样本对视线追踪模型进行小样本学习以提升其精度。

下面对本实施例的视线校准方法进行详细说明。

图17示出了本实施例中视线校准方法的示例性流程。参见图17所示，本实施例的视线校准方法可包括如下步骤：

步骤S1701，响应于用户对显示屏160中参考点的注视操作，获得用户的注视点三维位置；

本步骤之前，还可以包括：控制显示屏160向用户提供视线校准界面，所述视线校准界面中包含用于提醒用户注视参考点的可视化提示，以便用户根据该可视化提示执行相应的注视操作。这里，视线校准界面的具体形式，本实施例不予限制。

本步骤中，注视操作可以是任何用户注视显示屏160中参考点的相关操作，对于注视操作的具体实现方式或表现形式，本申请实施例不予限制。举例来说，注视操作可以包括用户注视视线校准界面中参考点的同时在视线校准界面中输入确认信息。

以座舱场景为例，显示屏160可以是但不限于车辆的AR-HUD、车辆的仪表盘、用户的便携式电子设备或其他。通常，座舱场景中的视线校准主要针对驾驶员或副驾驶员，因此，为确保视线校准不影响安全驾驶，显示屏160优选为AR-HUD。

本步骤中，显示屏160中每个参考点在第一摄像头110的相机坐标系中的三维坐标可通过显示屏160与第一摄像头110的位置关系预先标定。如此，用户注视一个参考点，则该参考点即为用户的注视点，该参考点在第一摄像头110的相机坐标系中的三维坐标即为用户的注视点三维位置。

步骤S1702，根据第一摄像头110采集的包含用户眼睛的第一图像，获得用户的眼睛三维位置；

本步骤的具体实施方式与实施例一中步骤S301中眼睛三维位置的具体实现方式相同，不再赘述。

步骤S1703，根据注视点三维位置和眼睛三维位置，获得用户的第二视线方向。

本步骤的具体实现方式与实施例一种步骤S305相同，不再赘述。

本实施例的视线校准方法，利用参考点即可获得用户的注视点三维位置，同时结合第一图像获得用户的眼睛三维位置，即获得了准确度较高的第二视线方向。可见，本实施例的视线校准方法不仅可有效提升用户视线估计的准确度，而且操作简单、计算复杂度低、处理效率高，适用于座舱环境。

本实施例的方法优选第一摄像头110的相机坐标系为基准坐标系，由此获得的第二视线方向可直接用于视线追踪模型的优化。注视点三维位置和眼睛三维位置均通过第一摄像头110的相机坐标系中的三维坐标值表示，第二视线方向可通过第一摄像头110的相机坐标系中的视角或方向矢量表示。详细细节可参见实施例一相关描述，不再赘述。

与实施例一同理，本实施例的视线校准方法还可包括：步骤S1704，以用户的第二视线方向和第一图像作为用户的优化样本，基于小样本学习方法优化视线追踪模型。由此，可以少量样本、小规模训练持续提升视线追踪模型对特定用户的视线估计精度，进而获得用户级的视线追踪模型。本步骤的具体实现方式与实施例一中步骤S306相同，不再赘述。因本步骤中注视点三维位置是通过标定得到，其准确性较高，因此，本实施例步骤S1704之前，无需对第二视线方向进行筛选。

图18示出了本实施例提供的视线校准装置1800的示例性结构。参见图18所示，本实施例的视线校准装置1800可包括：

注视点位置确定单元1801，配置为响应于用户对显示屏中参考点的注视操作，获得用户的注视点三维位置；

第二视线确定单元1506，配置为根据所述注视点三维位置和所述眼睛三维位置，获得用户的第二视线方向。

一些实施例中，所述显示屏为增强现实抬头显示。

一些实施例中，所述装置还包括：优化单元1507，配置为以所述用户的第二视线方向和所述第一图像作为所述用户的优化样本，基于小样本学习方法优化视线追踪模型。

下面对本申请实施例的计算设备及计算机可读存储介质进行说明。

图19是本申请实施例提供的一种计算设备1900的结构性示意性图。该计算设备1900包括：处理器1910、存储器1920。

计算设备1900中还可包括通信接口1930、总线1940。应理解，图19所示的计算设备1900中的通信接口1930可以用于与其他设备之间进行通信。存储器1920、通信接口1930可以通过总线1940与处理器1910连接。为便于表示，图19中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。

其中，该处理器1910可以与存储器1920连接。该存储器1920可以用于存储该程序代码和数据。因此，该存储器1920可以是处理器1910内部的存储单元，也可以是与处理器1910独立的外部存储单元，还可以是包括处理器1910内部的存储单元和与处理器1910独立的外部存储单元的部件。

应理解，在本申请实施例中，该处理器1910可以采用中央处理单元(centralprocessing unit，CPU)。该处理器还可以是其它通用处理器、数字信号处理器(digitalsignal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。或者该处理器1910采用一个或多个集成电路，用于执行相关程序，以实现本申请实施例所提供的技术方案。

该存储器1920可以包括只读存储器和随机存取存储器，并向处理器1910提供指令和数据。处理器1910的一部分还可以包括非易失性随机存取存储器。例如，处理器1910还可以存储设备类型的信息。

在计算设备1900运行时，所述处理器1910执行所述存储器1920中的计算机执行指令执行上述各实施例中视线校准方法的操作步骤。

应理解，根据本申请实施例的计算设备1900可以对应于执行根据本申请各实施例的方法中的相应主体，并且计算设备1900中的各个模块的上述和其它操作和/或功能分别为了实现本实施例各方法的相应流程，为了简洁，在此不再赘述。

下面对本申请实施例的系统架构及其相关应用进行示例性地说明。

本申请实施例还提供一种驾驶员监控系统，其包括上文的第一摄像头110、第二摄像头120和计算设备1900。

一些实施例中，第一摄像头110配置为采集包含用户眼睛的第一图像，第二摄像头120配置为采集包含用户看到的场景的第二图像，第一摄像头110和第二摄像头120均可与计算设备1900通信。计算设备1900中，处理器1910利用第一摄像头110提供的第一图像和第二摄像头120提供的第二图像执行存储器1920中的计算机执行指令执行上述实施例一中视线校准方法的操作步骤。

一些实施例中，驾驶员监控系统还可包括显示屏，配置为向用户显示参考点。计算设备1900中，处理器1910利用第一摄像头110提供的第一图像和显示屏所显示的参考点的三维位置执行存储器1920中的计算机执行指令执行上述实施例二中视线校准方法的操作步骤。

一些实施例中，驾驶员监控系统还可包括云端服务器，其可配置为以计算设备1900提供的用户的第二视线方向和第一图像作为用户的优化样本，基于小样本学习方法优化视线追踪模型，并将优化后的视线追踪模型提供给计算设备1900，从而提升视线追踪模型对用户的视线估计精度。

具体地，驾驶员监控系统的架构可参见实施例一中图1所示的系统和实施例二中图16所示的系统。其中，图像处理系统130可部署于计算设备1900中，上文所述的模型优化系统140可部署于云端服务器中。

本申请实施例还提供一种车辆，其可包括上述的驾驶员监控系统。具体应用中，该车辆即是机动车辆，其可以是但不限于运动型多用途车辆、大客车、大货车、各种商用车辆的乘用车辆，还可以是但不限于各种舟艇、船舶的船只、航空器等，其还可以是但不限于混合动力车辆、电动车辆、插电式混合动力电动车辆、氢动力车辆和其他替代性的燃料车辆。其中，混合动力车辆可以是任何具有两种或更多种动力源的车辆，例如具有汽油和电力两种动力源的车辆。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行一种视线校准方法，该方法包括上述各个实施例所描述的方案中的至少之一。

本申请实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括、但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本申请的较佳实施例及所运用的技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明的构思的情况下，还可以包括更多其他等效实施例，均属于本发明的保护范畴。

Claims

1.一种视线校准方法，其特征在于，包括：

根据第一摄像头采集的包含用户眼睛的第一图像，获得用户的眼睛三维位置和第一视线方向；

根据所述眼睛三维位置、第一视线方向、第一摄像头的外参和第二摄像头的外参与内参，获得用户在第二图像中的注视区域，所述第二图像由所述第二摄像头采集且包含用户看到的车外场景；

根据用户在第二图像中的注视区域和所述第二图像，获得用户在第二图像中注视点的位置；

根据所述注视点的位置、所述第二摄像头的内参，获得用户的注视点三维位置；

根据所述注视点三维位置和所述眼睛三维位置，获得用户的第二视线方向，所述第二视线方向作为校准后的视线方向。

2.根据权利要求1所述的视线校准方法，其特征在于，所述第一视线方向是基于视线追踪模型从所述第一图像中提取的。

3.根据权利要求2所述的视线校准方法，其特征在于，根据所述眼睛三维位置、第一视线方向、第一摄像头的外参和第二摄像头的外参与内参，获得用户在第二图像中的注视区域，包括：根据所述眼睛三维位置、第一视线方向、第一摄像头的外参、第二摄像头的外参与内参以及所述视线追踪模型的精度，获得用户在第二图像中的注视区域。

4.根据权利要求2或3任一项所述的视线校准方法，其特征在于，还包括：以所述用户的第二视线方向和所述第一图像作为所述用户的优化样本，基于小样本学习方法优化所述视线追踪模型。

5.根据权利要求1至4任一项所述的视线校准方法，其特征在于，还包括：根据所述用户在第二图像中注视点的置信度对所述注视点或所述第二视线方向进行筛选。

6.根据权利要求1至5任一项所述的视线校准方法，其特征在于，所述用户在第二图像中注视点的位置是利用注视点校准模型根据用户在第二图像中的注视区域和所述第二图像获得的。

7.根据权利要求6所述的视线校准方法，其特征在于，所述注视点校准模型同时提供了用户在第二图像中注视点的概率值，所述置信度由所述概率值确定。

8.一种视线校准方法，其特征在于，包括：

根据所述注视点三维位置和所述眼睛三维位置，获得用户的第二视线方向。

9.根据权利要求8所述的视线校准方法，其特征在于，所述显示屏为增强现实抬头显示系统的显示屏。

10.根据权利要求8所述的视线校准方法，其特征在于，所述方法还包括：以所述用户的第二视线方向和所述第一图像作为所述用户的优化样本，基于小样本学习方法优化视线追踪模型。

11.一种视线校准装置，其特征在于，包括：

注视区域单元，配置为根据所述眼睛三维位置、第一视线方向、第一摄像头的外参和第二摄像头的外参与内参，获得用户在第二图像中的注视区域，所述第二图像由所述第二摄像头采集且包含用户看到的车外场景；

注视点校准单元，配置为根据用户在第二图像中的注视区域和所述第二图像，获得用户在第二图像中注视点的位置；

注视点转换单元，配置为根据所述注视点的位置、所述第二摄像头的内参，获得用户的注视点三维位置；

第二视线确定单元，配置为根据所述注视点三维位置和所述眼睛三维位置，获得用户的第二视线方向。

12.根据权利要求11所述的视线校准装置，其特征在于，所述第一视线方向是基于视线追踪模型从所述第一图像中提取的。

13.根据权利要求12所述的视线校准装置，其特征在于，所述注视区域单元，是配置为根据所述眼睛三维位置、第一视线方向、第一摄像头的外参、第二摄像头的外参与内参以及所述视线追踪模型的精度，获得用户在第二图像中的注视区域。

14.根据权利要求11至13任一项所述的视线校准装置，其特征在于，还包括：

优化单元，配置为以所述用户的第二视线方向和所述第一图像作为所述用户的优化样本，基于小样本学习方法优化所述视线追踪模型。

15.根据权利要求11至14任一项所述的视线校准装置，其特征在于，所述注视点校准单元，还配置为根据所述用户在第二图像中注视点的置信度对所述注视点进行筛选；和/或，所述优化单元，还配置为根据所述用户在第二图像中注视点的置信度对所述第二视线方向进行筛选。

16.根据权利要求11至15任一项所述的视线校准装置，其特征在于，所述用户在第二图像中注视点的位置是利用注视点校准模型根据用户在第二图像中的注视区域和所述第二图像获得的。

17.根据权利要求16所述的视线校准装置，其特征在于，所述注视点校准模型同时提供了用户在第二图像中注视点的概率值，所述置信度由所述概率值确定。

18.一种视线校准装置，其特征在于，包括：

19.根据权利要求18所述的视线校准装置，其特征在于，所述显示屏为增强现实抬头显示。

20.根据权利要求18所述的视线校准装置，其特征在于，所述装置还包括：

优化单元，配置为以所述用户的第二视线方向和所述第一图像作为所述用户的优化样本，基于小样本学习方法优化视线追踪模型。

21.一种计算设备，其特征在于，包括：

至少一个处理器；以及

至少一个存储器，其与存储有程序指令，所述程序指令当被所述至少一个处理器执行时使得所述至少一个处理器执行权利要求1至10任一项所述的方法。

22.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令当被计算机执行时使得所述计算机执行权利要求1至10任一项所述的方法。

23.一种驾驶员监控系统，其特征在于，包括：

第一摄像头，配置为采集包含用户眼睛的第一图像；

至少一个处理器；以及

至少一个存储器，其与存储有程序指令，所述程序指令当被所述至少一个处理器执行时使得所述至少一个处理器执行权利要求1至7任一项所述的方法。

24.根据权利要求23所述的驾驶员监控系统，其特征在于，还包括：

显示屏，配置为向用户显示参考点；

所述程序指令当被所述至少一个处理器执行时使得所述至少一个处理器执行权利要求8至10任一项所述的方法。

25.一种车辆，其特征在于，包括权利要求23或24所述的驾驶员监控系统。