CN113553920B

CN113553920B - 注视方向特征采集方法、装置、计算机设备和存储介质

Info

Publication number: CN113553920B
Application number: CN202110751004.3A
Authority: CN
Inventors: 李洋洋; 张艳晖; 李慧艳
Original assignee: Black Sesame Intelligent Technology Shanghai Co Ltd
Current assignee: Black Sesame Intelligent Technology Shanghai Co Ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2024-06-04
Anticipated expiration: 2041-07-02
Also published as: CN113553920A

Abstract

本申请涉及一种注视方向特征采集方法、装置、计算机设备和存储介质。所述方法包括：使用动作捕捉相机检测固定在眼部的预定部位处的眼部标记物在动作捕捉相机坐标系下的第一三维坐标以及眼部注视的目标标记物在动作捕捉相机坐标系下的第二三维坐标；根据第一三维坐标，确定眼部在动作捕捉相机坐标系下的第三三维坐标；根据预先标定的成像相机坐标系与动作捕捉相机坐标系之间的坐标系转换关系，将第三三维坐标转换为在成像相机坐标系下的第四三维坐标，并将第二三维坐标转换为在成像相机坐标系下的第五三维坐标；根据第四三维坐标以及第五三维坐标，确定由眼部指向目标标记物的注视方向特征。采用本方法能够提升采集注视方向的精准度。

Description

注视方向特征采集方法、装置、计算机设备和存储介质

技术领域

本申请涉及生物特征采集技术领域，特别是涉及一种注视方向特征采集方法、装置、计算机设备和存储介质。

背景技术

高级驾驶辅助系统(Advanced Driving Assistance System)是利用安装在车上的各种传感器，在汽车行驶过程中收集车内外的数据，并根据收集的数据进行系统的运算与分析，以向驾驶员提供所需的信息以辅助驾驶，有效增加汽车驾驶的舒适性和安全性。

在L2-L3级别的高级驾驶辅助系统中，驾驶员监控系统(Driver MonitoringSystem，DMS)能够监测驾驶员的行为，当监测到汽车驾驶员做出危险行为时，比如驾驶员的眼睛的注视方向不在车辆行驶方向时，该系统会给予报警提醒，减少危险事故的发生。

因此，在驾驶员监控系统的研发设计过程中，存在对人眼的注视方向特征进行采集的需求，而现有的采集人眼的注视方向的方法存在对注视方向的采集精确度不高的缺陷。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升注视方向特征采集精确度的注视方向特征采集方法、装置、计算机设备和存储介质。

一种注视方向特征采集方法，包括：使用动作捕捉相机，检测固定在眼部的预定部位处的眼部标记物在动作捕捉相机坐标系下的第一三维坐标以及所述眼部注视的目标标记物在所述动作捕捉相机坐标系下的第二三维坐标；根据所述第一三维坐标，确定所述眼部在所述动作捕捉相机坐标系下的第三三维坐标；根据预先标定的成像相机坐标系与所述动作捕捉相机坐标系之间的坐标系转换关系，将所述第三三维坐标转换为在所述成像相机坐标系下的第四三维坐标，并将所述第二三维坐标转换为在所述成像相机坐标系下的第五三维坐标；根据所述第四三维坐标以及所述第五三维坐标，确定由所述眼部指向所述目标标记物的注视方向特征。

在一个实施例中，所述动作捕捉相机的所述检测是在所述动作捕捉相机与所述成像相机保持在第一相对位置关系下执行的；并且所述坐标系转换关系是在所述动作捕捉相机与所述成像相机保持在所述第一相对位置关系下标定的。

在一个实施例中，所述眼部标记物包括固定于所述眼部的内眼角处的第一眼部标记物和固定于所述眼部的外眼角处的第二眼部标记物；所述第一三维坐标包括所述眼部的所述内眼角处的所述第一眼部标记物在所述动作捕捉相机坐标系下的三维坐标和所述眼部的所述外眼角处的所述第二眼部标记物在所述动作捕捉相机坐标系下的三维坐标；所述根据所述第一三维坐标，确定所述眼部在所述动作捕捉相机坐标系下的第三三维坐标，包括：取所述第一眼部标记物在所述动作捕捉相机坐标系下的所述三维坐标和所述第二眼部标记物在所述动作捕捉相机坐标系下的所述三维坐标的平均值，作为所述眼部在所述动作捕捉相机坐标系下的所述第一三维坐标。

在一个实施例中，所述眼部包括左眼和/或右眼；所述第一三维坐标包括所述左眼在所述动作捕捉相机坐标系下的第一三维坐标和/或所述右眼在所述动作捕捉相机坐标系下的第一三维坐标；所述第四三维坐标包括所述左眼在所述成像相机坐标系下的第四三维坐标和/或所述右眼在所述成像相机坐标系下的第四三维坐标；所述根据所述第四三维坐标以及所述第五三维坐标，确定由所述眼部指向所述目标标记物的注视方向特征值，包括：根据所述左眼在所述成像相机坐标系下的所述第四三维坐标以及所述第五三维坐标，确定由所述左眼指向所述目标标记物的左眼注视方向特征值，和/或，根据所述右眼在所述成像相机坐标系下的所述第四三维坐标以及所述第五三维坐标，确定由所述右眼指向所述目标标记物的注视方向特征。

在一个实施例中，所述注视方向特征采集方法还包括预先标定所述成像相机坐标系与所述动作捕捉相机坐标系之间的所述坐标系转换关系的步骤，该步骤包括：获取所述成像相机的相机内参；利用所述成像相机检测固定在标定板上预定位置处的多个标记物在所述成像相机坐标系下的二维图像，并利用所述动作捕捉相机检测所述多个标记物在所述动作捕捉相机坐标系下的三维坐标；基于所述多个标记物在所述成像相机坐标系下的所述二维图像、所述成像相机的所述相机内参以及所述多个标记物在所述动作捕捉相机坐标系下的三维坐标，标定所述成像相机坐标系与所述动作捕捉相机坐标系之间的所述坐标系转换关系。

在一个实施例中，所述成像相机为单目相机。

在一个实施例中，所述成像相机为单目IR相机或单目RGB相机。

在一个实施例中，所述动作捕捉相机为双目相机。

在一个实施例中，所述动作捕捉相机为双目IR相机或双目RGB相机。

一种注视方向确定方法，包括：

利用成像相机，采集眼部的二维图像；

将所述二维图像的数据输入预先训练的神经网络模型中，并根据所述神经网络模型的输出，确定所述眼部的注视方向；

其中，所述神经网络模型是利用采集的多个二维图像-注视方向特征对训练得到的，每个所述二维图像-注视方向特征对中的注视方向特征是通过执行如上任一实施例所述的注视方向特征采集方法来采集的，且每个所述二维图像-注视方向特征对中的二维图像是在采集所述注视方向特征过程中，在使用所述动作捕捉相机检测固定在所述眼部的所述预定部位处的所述眼部标记物在所述动作捕捉相机坐标系下的所述第一三维坐标的同时，利用所述成像相机采集的所述眼部标记物的二维图像。

一种注视方向特征采集装置，所述装置包括：

坐标采集模块，用于使用动作捕捉相机，检测固定在眼部的预定部位处的眼部标记物在动作捕捉相机坐标系下的第一三维坐标以及所述眼部注视的目标标记物在所述动作捕捉相机坐标系下的第二三维坐标；

眼部坐标确定模块，用于根据所述第一三维坐标，确定所述眼部在所述动作捕捉相机坐标系下的第三三维坐标；

坐标系转换模块，用于根据预先标定的成像相机坐标系与所述动作捕捉相机坐标系之间的坐标系转换关系，将所述第三三维坐标转换为在所述成像相机坐标系下的第四三维坐标，并将所述第二三维坐标转换为在所述成像相机坐标系下的第五三维坐标；

注视方向特征确定模块，用于根据所述第四三维坐标以及所述第五三维坐标，确定由所述眼部指向所述目标标记物的注视方向特征。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上任一实施例所述的注视方向特征采集方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一实施例所述的注视方向特征采集方法的步骤。

本申请的上述注视方向特征采集方法、装置、计算机设备和存储介质中，利用动作捕捉相机检测眼部标记物和眼部注视的目标标记物在动作捕捉相机坐标系下的三维坐标，然后将测得的动作捕捉相机坐标系下的三维坐标转换为在成像相机坐标系下的三维坐标，从而确定在成像相机坐标系下注视方向特征。由于动作捕捉相机相较于成像相机在确定三维坐标上具有更高的精度，本方案能够使得确定的注视方向特征具有更高的准确性。通过坐标系的转换，能够将测得的三维坐标转换到成像相机坐标系下得到成像相机坐标系下的注视方向特征，以与成像相机采集的二维图像统一在同一成像相机坐标系下，有助于与现有的利用成像相机采集数据的DMS系统形成有效兼容。

附图说明

图1为一个实施例中注视方向的数学化表示的示意图；

图2为一个实施例中在预标定阶段的注视方向特征采集系统的示意图；

图3为一个实施例中在视线采集阶段的注视方向特征采集系统的示意图；

图4为一个实施例中在视线采集阶段的注视方向特征采集方法的流程示意图；

图5为一个实施例中实施注视方向特征采集方法的示意图；

图6为一个实施例中在预标定阶段的注视方向特征采集方法的流程示意图；

图7为一个实施例中双目相机的双目定位原理的示意图；

图8为一个实施例中注视方向特征采集装置的结构框图；

图9为一个实施例中计算机设备的内部结构图；

图10为一个实施例中在神经网络模型训练阶段的注视方向确定方法的流程示意图；

图11为一个实施例中注视方向实时确定阶段的注视方向确定方法的流程示意图；

图12为一个实施例中交通工具的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在驾驶员监控系统的研发设计阶段，研发员需要采集人眼的注视方向特征。如图1所示，在数学上，人眼的注视方向特征可以由向量来表示，其中，v_x,v_y,v_z分别表示向量/>在给定三维坐标系的x、y、z轴上的分量，向量/>由人眼的瞳孔所在点P₀，以及人眼正在注视的目标点P₁共同确定。

然而，现有的用于采集人体特征的成像相机一般仅为单目相机，利用该成像相机采集的二维图像难以估计被测物的三维坐标，导致利用该二维图像估计的注视方向特征准确性较低。

因此，本申请提供一种注视方向特征采集方法，以提升对人眼的注视方向特征采集的准确性，同时兼容现有的成像相机采集的数据。

本申请提供的注视方向特征采集方法，可以应用于如图2和图3所示的注视方向特征采集系统100中。该注视方向特征采集系统100包括成像相机110、动作捕捉相机120、标定板130、多个标记物(marker)140和计算机设备150，计算机设备150分别与成像相机110和动作捕捉相机120通信连接。

成像相机110可以是能够采集被测物的二维图像的相机。在本申请实施例中，色彩相机110可以采集三维对象200(例如人脸眼部)的二维图像，然后将采集的二维图像传输至计算机设备150。成像相机110或者计算机设备150还可以检测二维图像中三维对象200的某一特征点在二维图像中(即在像素坐标系下)对应的像素坐标(u,v)，其中该像素坐标(u,v)的像素坐标系可以以二维图像中最左上角的像素作为原点O0，横坐标u和纵坐标v分别代表特征点在二维图像中所处的像素行和像素列。

动作捕捉相机120能够实时感测每个标记物(marker)140的位置，即感测每个标记物140在该动作捕捉相机坐标系下的三维坐标。其中动作捕捉相机坐标系是以动作捕捉相机120为基准的坐标系，在动作捕捉相机坐标系中动作捕捉相机120的三维坐标为恒定值。然后动作捕捉相机120可以将各个标记物140的三维坐标传输给计算机设备150。

计算机设备150可以是具有实现本申请注视方向特征采集方法所需计算功能的任意设备。本申请的注视方向特征采集方法可以分为预标定阶段和视线采集阶段。在预标定阶段，如图2所示，计算机设备150可以在成像相机110与动作捕捉相机120保持在第一相对位置关系不变的情况下，使用成像相机110、动作捕捉相机120、标定板130和多个标记物(marker)140，来预先标定并存储好成像相机110的成像相机坐标系与动作捕捉相机120的动作捕捉相机坐标系之间的坐标系转换关系。而在预标定阶段完成后，在视线采集阶段，如图3所示，在成像相机110与动作捕捉相机120保持在第一相对位置关系不变的情况下，被测人员眼睛预定部位处固定眼部标记物140，并注视目标标记物140，计算机设备150可以使用动作捕捉相机120来检测固定在眼部的预定部位处的眼部标记物140在动作捕捉相机坐标系下的第一三维坐标以及眼部注视的目标标记物140在所述动作捕捉相机坐标系下的第二三维坐标，并结合预存好的坐标系转换关系，执行坐标转换和运算以确定在成像相机坐标系下由眼部指向目标标记物140的注视方向特征。

在一个实施例中，提供了一种注视方向特征采集方法，以该方法应用于图2和图3中的注视方向特征采集系统100为例进行说明。在视线采集阶段，参见图3和图4所示，注视方向特征采集方法包括以下步骤：

S410，计算机设备使用动作捕捉相机，检测固定在眼部的预定部位处的眼部标记物在动作捕捉相机坐标系下的第一三维坐标以及眼部注视的目标标记物在动作捕捉相机坐标系下的第二三维坐标。

S420，计算机设备根据第一三维坐标，确定眼部在动作捕捉相机坐标系下的第三三维坐标。

S430，计算机设备根据预先标定的成像相机坐标系与动作捕捉相机坐标系之间的坐标系转换关系，将第三三维坐标转换为在成像相机坐标系下的第四三维坐标，并将第二三维坐标转换为在成像相机坐标系下的第五三维坐标。

其中成像相机坐标系是以成像相机110为基准的坐标系，在成像相机坐标系中成像相机110的各个部件的三维坐标为恒定值。

S440，计算机设备根据第四三维坐标以及第五三维坐标，确定由眼部指向目标标记物的注视方向特征。

在一个实施例中，步骤S410中的所述动作捕捉相机的所述检测是在所述动作捕捉相机与所述成像相机保持在第一相对位置关系下执行的；并且步骤S430中的所述坐标系转换关系是在所述动作捕捉相机与所述成像相机保持在所述第一相对位置关系下标定的。

在本实施例中，步骤S410中动作捕捉相机执行的所述检测，以及对坐标转换关系的标定，是在动作捕捉相机与成像相机保持在相同的第一相对位置关系下执行的，如此能够确保预标定阶段标定的坐标转换关系仍能适用于视线采集阶段的坐标转换。

在一个实施例中，眼部标记物包括固定于眼部周围多个位置处的多个眼部标记物；第一三维坐标包括固定于眼部周围的多个眼部标记物中每个眼部标记物在动作捕捉相机坐标系下的三维坐标；根据第一三维坐标，确定眼部在动作捕捉相机坐标系下的第三三维坐标，包括：取多个眼部标记物在动作捕捉相机坐标系下的多个三维坐标的加权平均值，作为眼部在动作捕捉相机坐标系下的第一三维坐标。

在一个实施例中，眼部标记物包括固定于眼部的内眼角处的第一眼部标记物和固定于眼部的外眼角处的第二眼部标记物；第一三维坐标包括眼部的内眼角处的第一眼部标记物在动作捕捉相机坐标系下的三维坐标和眼部的外眼角处的第二眼部标记物在动作捕捉相机坐标系下的三维坐标；根据第一三维坐标，确定眼部在动作捕捉相机坐标系下的第三三维坐标，包括：取第一眼部标记物在动作捕捉相机坐标系下的三维坐标和第二眼部标记物在动作捕捉相机坐标系下的三维坐标的平均值，作为眼部在动作捕捉相机坐标系下的第一三维坐标。

多个眼部标记物的数量以及固定于眼部周围的位置可以灵活调整，例如，在其他实施例中，眼部标记物也可以包括固定于眼部的上眼睑中央的第一眼部标记物和固定于眼部的外眼角处的第二眼部标记物，其相应的三维坐标计算方法与上述实施例中同理。

在本申请实施例中，眼部可以仅包括左眼，或者仅包括右眼，或者包括左眼和右眼两者。相应地，本申请上述各个实施例对有关眼部的限定和计算，可以适用于对任意一个或多个眼睛中每个眼睛的限定和计算。

例如，在一个实施例中，第一三维坐标可以包括左眼在动作捕捉相机坐标系下的第一三维坐标和/或右眼在动作捕捉相机坐标系下的第一三维坐标；第四三维坐标包括左眼在成像相机坐标系下的第四三维坐标和/或右眼在成像相机坐标系下的第四三维坐标；根据第四三维坐标以及第五三维坐标，确定由眼部指向目标标记物的注视方向特征值，包括：根据左眼在成像相机坐标系下的第四三维坐标以及第五三维坐标，确定由左眼指向目标标记物的左眼注视方向特征值，和/或，根据右眼在成像相机坐标系下的第四三维坐标以及第五三维坐标，确定由右眼指向目标标记物的注视方向特征。

又例如，在一个实施例中，眼部标记物可以包括：固定于左眼的内眼角处的第一眼部标记物和固定于左眼的外眼角处的第二眼部标记物，和/或，固定于右眼的内眼角处的第一眼部标记物和固定于右眼的外眼角处的第二眼部标记物；第一三维坐标可以包括：左眼的内眼角处的第一眼部标记物在动作捕捉相机坐标系下的三维坐标和左眼的外眼角处的第二眼部标记物在动作捕捉相机坐标系下的三维坐标，和/或，右眼的内眼角处的第一眼部标记物在动作捕捉相机坐标系下的三维坐标和右眼的外眼角处的第二眼部标记物在动作捕捉相机坐标系下的三维坐标；根据第一三维坐标，确定眼部在动作捕捉相机坐标系下的第三三维坐标，包括：取第一眼部标记物在动作捕捉相机坐标系下的三维坐标和第二眼部标记物在动作捕捉相机坐标系下的三维坐标的平均值，作为左眼在动作捕捉相机坐标系下的第一三维坐标，和/或，取第一眼部标记物在动作捕捉相机坐标系下的三维坐标和第二眼部标记物在动作捕捉相机坐标系下的三维坐标的平均值，作为右眼在动作捕捉相机坐标系下的第一三维坐标。

示例地，计算机设备在预标定阶段预先标定并存储有成像相机坐标系与动作捕捉相机的动作捕捉相机坐标系之间的坐标系转换关系T_m后，便可以进入视线采集阶段以进行数据采集。以眼部包括左眼和右眼两者为例，在视线采集阶段，在被测人员的左眼和右眼的内眼角和外眼角均固定上标记物，以方便动作捕捉相机感测眼角位置在动作捕捉相机坐标系下的三维坐标。

如图5所示，被测人员501的左眼的内眼角和外眼角分别贴附有左眼外眼角标记物M_L0和左眼内眼角标记物M_L1，以及右眼的内眼角和外眼角分别贴附有右眼内眼角标记物M_R1和右眼外眼角标记物M_R0。被测人员501手持一端固定有标记物P_M的杆502，杆长例如约1m至1.5m。当被测人员501凝视目标标记物M_T时，研发人员可以手动点击计算机设备的键盘或鼠标等输入装置，触发计算机设备内的采集程序执行，以控制成像相机对被测人员眼部进行图像采集，同时控制动作捕捉相机检测被测人员501眼部固定的各个标记物M_L0、M_L1、M_R0、M_R1的三维坐标以及被测人员注视的标记物M_T的三维坐标。此时采集程序会调用成像相机的应用程序接口(API)获取一张成像相机采集的二维图像，并利用动作捕捉相机的API分别获取此时标记物M_L0、M_L1、M_R0、M_R1、M_T共计5个标记物在动作捕捉相机坐标系下的三维坐标P_L0、P_L1、P_R0、P_R1、P_T。

则左眼瞳孔E_L在动作捕捉相机坐标系下的三维坐标P_L(x_L,y_L,z_L)可以计算为P_L＝(P_L0+P_L1)/2，右眼瞳孔E_R在动作捕捉相机坐标系下的坐标P_R(x_R,y_R,z_R)可以计算为P_R＝(P_R0+P_R1)/2。

将三维坐标P_L＝(x_L,y_L,z_L)^T、P_R＝(x_R,y_R,z_R)^T、P_T＝(x_T,y_T,z_T)^T齐次化，以得到齐次化三维坐标P′_L＝(x_L,y_L,z_L,1)^T、P′_R＝(x_R，y_R，z_R，1)^T、P′_T＝(x_T，yT，z_T，1)^T。

则左眼瞳孔E_L、右眼瞳孔E_R和标记物M_T在成像相机坐标系下的坐标P_l、P_r和P_t可以由下式获取：

(P_l,P_r,P_t)＝T′_m*(P′_L,P′_R,P′_T)

T_m为上述动作捕捉相机坐标系到成像相机坐标系的坐标系转换关系矩阵，为了计算方便，可以舍弃T_m最后一行向量(0，0，0，1)，变成3×4的向量矩阵T′_m。

则左眼在成像相机坐标系下的注视方向v_l以及右眼在成像相机坐标系下的注视方向v_r可以计算如下：

在一个实施例中，在预标定阶段，如图2和图6所示，注视方向特征采集方法还包括预先标定成像相机坐标系与动作捕捉相机坐标系之间的坐标系转换关系的步骤，该步骤包括：

步骤S610，获取成像相机的相机内参。

相机内参可以是已知的，并且可以从成像相机中读取或者从成像相机的生产商处获取。相机内参也可以通过张正友标定法(ZHANG Zhengyou.A flexible new techniquefor camera calibration[J].IEEE Transactions on Pattern Analysis and MachineIntelligence,2000,22(11)：1330-1334.)对成像相机进行标定得出。

成像相机所拍摄的场景中的特征点在世界坐标系下的三维坐标(X_w,Y_w,Z_w)，与成像相机内所成二维图像中与该特征点对应的像素点在像素坐标系下的二维坐标(u,v)之间，满足如下转换关系：

其中，成像相机的相机内参A可以表示为：

上式中，f_x＝αf，f_y＝βf，f为成像相机的焦距，α为焦距f在像素坐标系x轴上的每单位距离像素个数，β为焦距f在像素坐标系y轴上的每单位距离像素个数，c_x为光心在像素坐标系x轴上的坐标，c_y为光心在像素坐标系y轴上的坐标。

设H＝AΠ^cT_w，H称为单应性矩阵，可以将H展开为：

上式中，s代表缩放系数，r1、r2、r3代表T_w的旋转矩阵R的参数，t代表T_w的平移向量t。

在标定相机内参的过程中，将成像相机固定在某个位置，然后在移动变化标定板的角度和位置的同时，使用成像相机拍摄n张(例如7～10张)不同角度和位置的标定板的二维图像，并检测每个二维图像中标定板预定位置处m个(例如10～20个)标定点在像素坐标系下的二维坐标x_ij以及在世界坐标系下的三维坐标X_j。其中，该世界坐标系可以是标定板坐标系，该标定板坐标系以该标定板为基准，在该标定板坐标系中，该标定板上任意点的三维坐标为恒定值，该标定板坐标系可以以标定板上任一点(例如标定板左上角角点)作为原点建立。则可以得到求解以下表达式的最小值的优化问题：

其中X_j代表测量的第j个标定点在世界坐标系下的三维坐标，A为相机内参，R_i为第i张二维图像对应的成像相机的旋转矩阵，t_i为第i张二维图像对应的成像相机的平移向量，x′(A,R_i,t_i,X_j)代表利用测量的X_j以及A、R_i、t_i等参数估计的第i张二维图像中第j个标定点在成像相机坐标系的像素坐标系下的二维坐标，x_ij代表实际测量的第i张二维图像中第j个标定点在成像相机坐标系的像素坐标系下的二维坐标。x_ij可以通过手工或者计算机设备的程序自动检测得出。由于世界坐标系是以该标定板为基准的标定板坐标系，该标定板上每个标定点在标定板坐标系的坐标是恒定值，因此，标定板坐标系上每个标定点在标定板坐标系的三维坐标X_j可以是预先已知的，或者也可以通过手工测量来确定标定板上每个标定点的三维坐标X_j。其中，标定板例如可以是棋盘格，该棋盘格上具有黑白间隔的方块矩阵图案，该棋盘格中每个方块四角的角点均可以选取作为标定点。

最后通过列文伯格-马夸尔特(Levenberg-Marquardt)优化算法，可以估算出参数A、R_i、t_i的值。从而标定了相机内参A。

步骤S620，利用成像相机检测固定在标定板上预定位置处的多个标记物在成像相机坐标系下的二维图像，并利用动作捕捉相机检测多个标记物在动作捕捉相机坐标系下的三维坐标。

在本步骤中，研发人员可以在标定板上多个预定位置处固定多个标记物，该多个标记物可以包括非共线排布在标定板上的三个以上的标记物。标定板例如可以是棋盘格，该棋盘格上具有黑白间隔的方块矩阵图案，该棋盘格中每个方块四角为该棋盘格的角点，参见图2中所示，示出了一个具有5×5个黑白间隔的方块构成的图案的棋盘格。示例地，本步骤中的多个标记物可以包括固定在棋盘格四角的四个角点处的四个标记物，参见图2中所示。

然后，在将成像相机与动作捕捉相机保持在第一相对位置关系不变的情况下，将标定板放置在预定位置处，以使得成像相机和动作捕捉相机均能够检测到该标定板上的多个标记物。例如可以将标定板放置在成像相机与动作捕捉相机之间。

在此情况下，研发人员可以控制计算机设备利用成像相机采集固定在标定板上预定位置处的多个标记物在成像相机坐标系下的二维图像，并利用动作捕捉相机检测多个标记物中每个标记物在动作捕捉相机坐标系下的三维坐标(X_m,Y_m,Z_m)。

步骤S630，基于多个标记物在成像相机坐标系下的二维图像、成像相机的相机内参以及多个标记物在动作捕捉相机坐标系下的三维坐标，标定成像相机坐标系与动作捕捉相机坐标系之间的坐标系转换关系。

动作捕捉相机所检测的标记物在动作捕捉相机坐标系下的三维坐标(X_m,Y_m,Z_m)，与成像相机内所成二维图像中与该标记物对应的像素点在像素坐标系下的二维坐标(u,v)之间，满足如下转换关系：

其中，相机内参A可以表示为：

参数Π^c可以表示为：

动作捕捉相机坐标系到成像相机坐标系的坐标系转换关系矩阵T_m可以表示为：

上式中，r₁₁～r₃₃代表T_m的旋转矩阵R_m的参数，t_x、t_y、t_z代表T_m的平移向量t_m的参数。

因此，将前述转换关系式展开后，可以得到如下关系式：

上式中，相机内参A已在步骤S610中获得。三维坐标(X_m,Y_m,Z_m)已在前述步骤S620中测得。在前述步骤S620已经利用成像相机采集到多个标记物的二维图像的情况下，可以利用成像相机或者计算机设备检测确定该二维图像中每个标记物对应的像素点在像素坐标系下的二维坐标(u,v)。

从而可以通过对上式求解以得到T_m的值，从而完成对成像相机坐标系与动作捕捉相机坐标系之间的坐标系转换关系的标定。

在本申请的各个实施例中，动作捕捉相机相较于成像相机能够更高精度地测定被测物体例如被测标记物的三维坐标。

在一个实施例中，成像相机可以是单目相机。例如可以是单目红外(Infrared，IR)相机或者单目色彩(RGB)相机。

在一个实施例中，动作捕捉相机可以是双目相机。例如Optitrack公司提供的双目相机。双目相机可以利用双目定位原理对被测标记物进行更高精度的定位，以确定标记物在动作捕捉相机坐标系下的三维坐标。

以下以双目相机检测任一标记物的三维坐标为例，来简要说明双目定位原理。

参见图1所示，双目相机可以包括左相机L和右相机R。参见图7所示，左相机L和右相机R共同观测标记物M以对标记物M进行成像。以左相机L作为坐标轴原点，如图7中所示的向下为X轴正方向，向右为Z轴正方向，由图面指向外(即指向观察者)为Z轴正方向(未图示)，可以建立双目相机坐标系。

在图7中，x_l和x_r分别为标记物M在左相机L和右相机R的相平面IP上的投影在X轴方向上的坐标，y_l和y_r分别为标记物P在左相机L和右相机R的相平面IP上的投影在Y轴方向上的坐标。f为左相机L和右相机R的焦距，b为左相机L和右相机R之间的距离(即基线距离)。则根据相机成像原理可以有以下比例关系：

则标记物M在该双目相机坐标系下的坐标P(x,y,z)可以用下列公式表示：

其中f、b、x_l、y_l、x_r、y_r等参数可以通过对双目相机进行标定得到。

在一个实施例中，动作捕捉相机120可以是双目(Infrared，IR)相机，即双目相机中的左相机和右相机均为IR相机。相应地，标记物140能够反射红外光，动作捕捉相机120向标记物140发射红外光并检测标记物140反射的红外光；或者，标记物140能够发射红外光，动作捕捉相机120检测标记物140发射的红外光，以计算双目视觉的视差图以确定标记物140的位置。相较于RGB相机，采用IR相机能够不受环境中可见光强度和被测物角度的约束，更稳定的采集被测物的信息。

在另一个实施例中，动作捕捉相机120也可以是双目色彩(RGB)相机，即双目相机中的左相机和右相机均为RGB相机。相应地，标记物140能够发射/反射可见光，动作捕捉相机120检测标记物140发射/反射的可见光来计算双目视觉的视差图以确定标记物140的位置。

在其他实施例中，标记物140也可以是位置传感器，该位置传感器感测自身位置并发送至动作捕捉相机120。

在一个实施例中，如图8所示，本申请还提供一种注视方向特征采集装置800，包括：

坐标采集模块810，用于使用动作捕捉相机，检测固定在眼部的预定部位处的眼部标记物在动作捕捉相机坐标系下的第一三维坐标以及眼部注视的目标标记物在动作捕捉相机坐标系下的第二三维坐标；

眼部坐标确定模块820，用于根据第一三维坐标，确定眼部在动作捕捉相机坐标系下的第三三维坐标；

坐标系转换模块830，用于根据预先标定的成像相机坐标系与动作捕捉相机坐标系之间的坐标系转换关系，将第三三维坐标转换为在成像相机坐标系下的第四三维坐标，并将第二三维坐标转换为在成像相机坐标系下的第五三维坐标；

注视方向特征确定模块840，用于根据第四三维坐标以及第五三维坐标，确定由眼部指向目标标记物的注视方向特征。

关于注视方向特征采集装置800的具体限定可以参见上文中对于注视方向特征采集方法的限定，在此不再赘述。上述注视方向特征采集装置800中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种注视方向特征采集方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

使用动作捕捉相机，检测固定在眼部的预定部位处的眼部标记物在动作捕捉相机坐标系下的第一三维坐标以及所述眼部注视的目标标记物在所述动作捕捉相机坐标系下的第二三维坐标；根据所述第一三维坐标，确定所述眼部在所述动作捕捉相机坐标系下的第三三维坐标；根据预先标定的成像相机坐标系与所述动作捕捉相机坐标系之间的坐标系转换关系，将所述第三三维坐标转换为在所述成像相机坐标系下的第四三维坐标，并将所述第二三维坐标转换为在所述成像相机坐标系下的第五三维坐标；根据所述第四三维坐标以及所述第五三维坐标，确定由所述眼部指向所述目标标记物的注视方向特征。

在其他实施例中，处理器执行计算机程序时还实现如上任一实施例的注视方向特征采集方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在其他实施例中，计算机程序被处理器执行时还实现如上任一实施例的注视方向特征采集方法的步骤。

在一个实施例中，本申请还提供一种注视方向确定方法，可以用于实时确定例如车辆等交通工具中驾驶员的注视方向。该注视方向确定方法可以包括神经网络模型训练阶段，以及注视方向实时确定阶段。

如图10所示，在神经网络模型训练阶段，注视方向确定方法包括：

S1010，计算机设备使用动作捕捉相机，检测固定在眼部的预定部位处的眼部标记物在动作捕捉相机坐标系下的第一三维坐标以及眼部注视的目标标记物在动作捕捉相机坐标系下的第二三维坐标，同时使用成像相机，采集所述眼部的二维图像。

S1020，计算机设备根据第一三维坐标，确定眼部在动作捕捉相机坐标系下的第三三维坐标。

S1030，计算机设备根据预先标定的成像相机坐标系与动作捕捉相机坐标系之间的坐标系转换关系，将第三三维坐标转换为在成像相机坐标系下的第四三维坐标，并将第二三维坐标转换为在成像相机坐标系下的第五三维坐标。

S1040，计算机设备根据第四三维坐标以及第五三维坐标，确定由眼部指向目标标记物的注视方向特征，从而得到由步骤S1010中成像相机采集的眼部的二维图像和本步骤中确定的眼部的注视方向特征构成的二维图像-注视方向特征对。

S1050，在变换眼部注视的目标标记物的注视方向的情况下，重复执行步骤S1010-S1040以预定次数N，以得到预定组数N的不同注视方向的二维图像-注视方向特征对。

其中，被测人员可以通过转动自身站立角度和姿态、变更手持的目标标记物的位置等，来改变测试时自身眼部注视目标标记物的注视方向。

S1060，利用预定组数的不同注视方向的二维图像-注视方向特征对，对神经网络模型进行训练，以得到预先训练的神经网络模型。

如图11所示，在注视方向实时确定阶段，注视方向确定方法包括：

S1110，利用交通工具中安装的成像相机，采集交通工具内驾驶员眼部的二维图像。

可以理解，在本步骤S1110中交通工具中安装的成像相机，是与神经网络模型训练阶段的步骤S1010中使用的成像相机具有相同的类型的相机，例如均为IR相机，或者均为RGB相机，以确保本步骤采集的二维图像能够适用于预先训练的神经网络模型。进一步地，在一个实施例中，交通工具中安装的成像相机与神经网络模型训练阶段的步骤S1010中使用的成像相机是具有相同的类型且相同型号的相机，以进一步提升预先训练的神经网络模型的可适用性。

交通工具中安装的成像相机采集到的二维图像，可以与神经网络模型训练阶段的步骤S1010中使用的成像相机采集的二维图像具有相同或不同的分辨率等图像参数。进一步地，在一个实施例中，交通工具中安装的成像相机采集的原始二维图像，与神经网络模型训练阶段的步骤S1010中使用的成像相机采集的原始二维图像具有相同的分辨率等图像参数，或者，交通工具中的处理器可以对交通工具中安装的成像相机采集到的原始二维图像进行图像处理，以使得处理后的二维图像与神经网络模型训练阶段的步骤S1010中使用的成像相机采集的原始二维图像具有相同的分辨率等图像参数，从而使得本步骤中交通工具中安装的成像相机采集到的二维图像更适用于预先训练的神经网络模型，提升神经网络模型的识别准确度。

S1120，将二维图像的数据输入预先训练的神经网络模型中，并根据神经网络模型的输出，确定眼部的注视方向。

其中，如上述在神经网络模型训练阶段中所述的，本步骤中的神经网络模型是利用采集的多个二维图像-注视方向特征对训练得到的，每个二维图像-注视方向特征对中的注视方向特征是通过执行如上任一实施例的注视方向特征采集方法来采集的，且每个二维图像-注视方向特征对中的二维图像是在采集注视方向特征过程中，在使用动作捕捉相机检测固定在眼部的预定部位处的眼部标记物在动作捕捉相机坐标系下的第一三维坐标的同时，利用成像相机采集的眼部标记物的二维图像。

在研发人员对驾驶员监控系统的研发阶段，研发人员利用计算机设备可以执行如上实施例的注视方向特征采集方法以采集被测人员的眼部注视方向特征。在计算机设备使用动作捕捉相机来检测固定在眼部的预定部位处的眼部标记物在动作捕捉相机坐标系下的第一三维坐标的同时，计算机设备还可以使用成像相机采集眼部的二维图像。从而计算机设备能够得到成像相机坐标系下的一组二维图像-注视方向特征对。通过使被测人员眼睛注视眼部标记物的角度各种变换的同时，使用动作捕捉相机和成像相机执行多次检测和运算，能够得到不同注视角度下的多组二维图像-注视方向特征对。计算机设备可以利用这些组二维图像-注视方向特征对，对神经网络模型进行训练以得到训练后的神经网络模型，并将该训练后的神经网络模型安装到车辆中的驾驶员监控系统中。从而在注视方向实时确定阶段，该训练后的神经网络模型可以对交通工具内装载的成像相机实时采集的眼部的二维图像进行识别以输出估计的眼部的注视方向。

本实施例的注视方向确定方法，在神经网络的训练阶段，利用动作捕捉相机检测三维坐标，并进行坐标系转换和运算，从而得以获取高精度的注视方向特征，并将注视方向特征转换到了成像相机坐标系下，得到了成像相机坐标系下的二维图像和注视方向特征对。如此，在对车辆等交通工具中注视方向的采集阶段，使用成本较低的成像相机即可实现高精度的注视方向判断，而无需在交通工具上安装定位精度较高但是更昂贵的动作捕捉相机，有效提升对注视方向判断精准度的同时，节省了交通工具的制造成本。

应该理解的是，虽然图4、6、10、11的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图4、6、10、11中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，本申请还提供一种交通工具1200，包括交通工具本体1210，以及安装于交通工具本体1210内的成像相机1220、处理器1230和存储器1240。处理器1230分别与成像相机1220和存储器1240电连接和/或通信连接。成像相机1220安装于交通工具本体1210内并朝向交通工具本体1210内的驾驶舱1211，以用于采集乘坐于驾驶舱1211中的驾驶员的眼部的二维图像。存储器1240存储有计算机程序，处理器1230执行计算机程序时执行上述步骤S1110和S1120，以实时根据采集的驾驶员的眼部的二维图像来确定驾驶员的注视方向。

在一个实施例中，处理器1230执行计算机程序时，还在确定的注视方向超出预定注视方向范围时，发出告警。例如，交通工具1200还可以包括安装于交通工具本体1210内的与处理器1230电连接和/或通信连接的音响1250、显示器1260等，处理器1230可以控制音响1250、显示器1260等以通过语音、提示音、视觉效果等发出告警，以提醒驾驶员规范驾驶，减少危险事故的发生。

在一个实施例中，交通工具是车辆，交通工具本体是车辆本体。在其他实施中，交通工具也可以是行船或飞机等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种注视方向特征采集方法，所述方法包括：

使用动作捕捉相机，检测固定在眼部的预定部位处的眼部标记物在动作捕捉相机坐标系下的第一三维坐标以及所述眼部注视的目标标记物在所述动作捕捉相机坐标系下的第二三维坐标；其中，所述动作捕捉相机配置为能够感测标记物在所述动作捕捉相机坐标系下的三维坐标；

根据所述第一三维坐标，确定所述眼部在所述动作捕捉相机坐标系下的第三三维坐标；

根据预先标定的成像相机坐标系与所述动作捕捉相机坐标系之间的坐标系转换关系，将所述第三三维坐标转换为在所述成像相机坐标系下的第四三维坐标，并将所述第二三维坐标转换为在所述成像相机坐标系下的第五三维坐标；其中，所述成像相机配置为能够采集被测物的二维图像；

根据所述第四三维坐标以及所述第五三维坐标，确定在所述成像相机坐标系下由所述眼部指向所述目标标记物的注视方向特征。

2.根据权利要求1所述的方法，其特征在于，所述动作捕捉相机的所述检测是在所述动作捕捉相机与所述成像相机保持在第一相对位置关系下执行的；并且

所述坐标系转换关系是在所述动作捕捉相机与所述成像相机保持在所述第一相对位置关系下标定的。

3.根据权利要求1所述的方法，其特征在于，所述眼部标记物包括固定于所述眼部的内眼角处的第一眼部标记物和固定于所述眼部的外眼角处的第二眼部标记物；

所述第一三维坐标包括所述眼部的所述内眼角处的所述第一眼部标记物在所述动作捕捉相机坐标系下的三维坐标和所述眼部的所述外眼角处的所述第二眼部标记物在所述动作捕捉相机坐标系下的三维坐标；

所述根据所述第一三维坐标，确定所述眼部在所述动作捕捉相机坐标系下的第三三维坐标，包括：

取所述第一眼部标记物在所述动作捕捉相机坐标系下的所述三维坐标和所述第二眼部标记物在所述动作捕捉相机坐标系下的所述三维坐标的平均值，作为所述眼部在所述动作捕捉相机坐标系下的所述第三三维坐标。

4.根据权利要求1所述的方法，其特征在于，所述眼部包括左眼和/或右眼；

所述第一三维坐标包括所述左眼在所述动作捕捉相机坐标系下的第一三维坐标和/或所述右眼在所述动作捕捉相机坐标系下的第一三维坐标；

所述第四三维坐标包括所述左眼在所述成像相机坐标系下的第四三维坐标和/或所述右眼在所述成像相机坐标系下的第四三维坐标；

所述根据所述第四三维坐标以及所述第五三维坐标，确定在所述成像相机坐标系下由所述眼部指向所述目标标记物的注视方向特征值，包括：

根据所述左眼在所述成像相机坐标系下的所述第四三维坐标以及所述第五三维坐标，确定在所述成像相机坐标系下由所述左眼指向所述目标标记物的左眼注视方向特征值，和/或，根据所述右眼在所述成像相机坐标系下的所述第四三维坐标以及所述第五三维坐标，确定在所述成像相机坐标系下由所述右眼指向所述目标标记物的注视方向特征。

5.根据权利要求1至4中任一项所述的方法，其特征在于，还包括预先标定所述成像相机坐标系与所述动作捕捉相机坐标系之间的所述坐标系转换关系的步骤，包括：

获取所述成像相机的相机内参；

利用所述成像相机检测固定在标定板上预定位置处的多个标记物在所述成像相机坐标系下的二维图像，并利用所述动作捕捉相机检测所述多个标记物在所述动作捕捉相机坐标系下的三维坐标；

基于所述多个标记物在所述成像相机坐标系下的所述二维图像、所述成像相机的所述相机内参以及所述多个标记物在所述动作捕捉相机坐标系下的三维坐标，标定所述成像相机坐标系与所述动作捕捉相机坐标系之间的所述坐标系转换关系。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述动作捕捉相机为双目相机。

7.一种注视方向确定方法，包括：

利用成像相机，采集眼部的二维图像；

其中，所述神经网络模型是利用采集的多个二维图像-注视方向特征对训练得到的，每个所述二维图像-注视方向特征对中的注视方向特征是通过执行如权利要求1-6中任一项所述的注视方向特征采集方法来采集的，且每个所述二维图像-注视方向特征对中的二维图像是在采集所述注视方向特征过程中，在使用所述动作捕捉相机检测固定在所述眼部的所述预定部位处的所述眼部标记物在所述动作捕捉相机坐标系下的所述第一三维坐标的同时，利用所述成像相机采集的所述眼部标记物的二维图像。

8.一种注视方向特征采集装置，其特征在于，所述装置包括：

坐标采集模块，用于使用动作捕捉相机，检测固定在眼部的预定部位处的眼部标记物在动作捕捉相机坐标系下的第一三维坐标以及所述眼部注视的目标标记物在所述动作捕捉相机坐标系下的第二三维坐标；其中，所述动作捕捉相机配置为能够感测标记物在所述动作捕捉相机坐标系下的三维坐标；

坐标系转换模块，用于根据预先标定的成像相机坐标系与所述动作捕捉相机坐标系之间的坐标系转换关系，将所述第三三维坐标转换为在所述成像相机坐标系下的第四三维坐标，并将所述第二三维坐标转换为在所述成像相机坐标系下的第五三维坐标；其中，所述成像相机配置为能够采集被测物的二维图像；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述注视方向特征采集方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的注视方向特征采集方法的步骤。