CN111931579B

CN111931579B - 利用眼动追踪和手势识别技术的自动驾驶辅助系统及方法

Info

Publication number: CN111931579B
Application number: CN202010654972.8A
Authority: CN
Inventors: 翟广涛; 杨小康; 邓燚; 朱文瀚; 贾隽
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2023-10-31
Anticipated expiration: 2040-07-09
Also published as: CN111931579A

Abstract

本发明公开一种利用眼动追踪和手势识别技术的自动驾驶辅助系统及方法，包括：平视显示器，将控制车辆的操作可视化为虚拟按钮的形式，将所述虚拟按钮显示给驾驶员，驾驶员用目光注视和/或手势指示所述平视显示器要做的动作；车载摄像头，用于捕捉驾驶员的面部及手部图像；数据处理中心，接收所述车载摄像头捕捉的图像，通过机器学习算法对驾驶员的视线和手势信息进行眼动追踪、手势识别，得到驾驶员目光注视和/或手势指向的方向，从而确定驾驶员要做动作对应的虚拟按钮，根据该虚拟按钮对车辆进行相应的操作。本发明能够实时地检测到车内驾驶员的目光注视方向和手势动作，并对眼神和手势进行理解，从而帮助驾驶员实现他们的意图。

Description

利用眼动追踪和手势识别技术的自动驾驶辅助系统及方法

技术领域

本发明涉及辅助驾驶领域，具体涉及一种利用眼动追踪和手势识别技术的自动驾驶辅助系统。

背景技术

自动驾驶汽车(Autonomous vehicles)，又称无人驾驶汽车，是一种通过电脑系统和人工智能技术对汽车进行自动控制的智能汽车。自动驾驶技术自20世纪出现萌芽，经历了几十年的孕育与成熟，于21世纪初已出现了实用化的趋势。自动驾驶技术的实现需要多种技术的协同合作，具体包括人工智能(语音识别、计算机视觉等技术分支)、雷达通讯、监控系统以及全球卫星定位系统等。

自动驾驶的定义并不是简单的不需要人的驾驶，而是根据自动化的程度由低到高分为多个等级，对技术的要求也由低到高逐渐增加。根据2018年国际自动机工程师学会(SAE)最新修订的SAE J3016(TM)《标准道路机动车驾驶自动化系统分类与定义》提到的动态驾驶的定义，驾驶中有三个主要的参与者：用户、驾驶自动化系统以及其他车辆系统和组件，并且按照动态驾驶任务的执行者和任务内容，自动假设可分为L0～L5六个级别。其中L0级别为无自动化驾驶，完全由人类驾驶员全权操纵汽车。L1级别为辅助驾驶，大部分情况下仍由人类驾驶员操纵汽车，但在特定情况下车辆能根据驾驶环境自动进行转向和变速，目前车内常见的定速巡航和车道偏离预警功能都属于L1的范畴之内。L2为部分自动化驾驶，车辆的自动化操作更多，人工干预更少。再往上看，对自动化的要求越来越高，人类驾驶员逐渐从操作者，变为驾驶环境监控者，最终转换为驾驶操作的支援者，而电脑系统逐渐由支援者转变为驾驶行为的操作者。从目前的情况来看，大部分量产汽车的智能化水平只达到了L2入门水准，例如目前车道保持系统，ACC自适应巡航技术，都属于L2辅助驾驶系统。

就技术难度来说，L2与L3之间存在着一定的鸿沟。L2要求电脑系统能够对人类驾驶员提供支援，并帮助监控驾驶环境从而给驾驶员以提醒。从L3开始，驾驶行为的操纵者已由人类转换为计算机，但还未达到完全机器感知的程度。而人类成为了一个辅助者，但仍要在需要的时候对系统的问题进行应答。因此，计算机需要充分理解人的行为，进一步通过行为分析理解人类观察到的驾驶环境变化，如前方有路口有行人无法转弯，或者人类的驾驶需求，如开窗、听音乐、停车等。就车载环境而言，最常见的人类行为包括语音、眼神和手势。相比语音包含了不同的语气、情绪等影响因素，眼神和手势的特征更加简单，更容易被计算机识别和理解。因此，利用眼动追踪技术可以很好的理解人类驾驶员的实时关注点，从而判断人类驾驶员的意图，做出相应的辅助动作。相对于眼神，手势动作能够更加直观地反应出驾驶员的目的，更有利于计算机做出正确的驾驶动作。

目前，精度最高的眼动追踪方案为直接利用眼动仪进行眼动追踪。比如申请号为CN 201610784282.8的发明专利申请，公开了基于Soli和Tobii的汽车HUD眼动辅助手势交互系统及其装置。然而眼动仪的成本较高并且不适合在车载环境内部署。此外，眼动仪操作流程复杂，需要对不同的目标进行标定，否则由于个体之间眼睛属性的差异会导致一定的误差，不利于扩展到新的目标。

综上所述，目前的自动驾驶车辆还不具备对人类行为进行充分理解从而辅助驾驶行为的技术。

发明内容

针对背景技术中提到的应用需求及现有技术的缺陷，本发明提供了一种基于车载摄像头进行眼动追踪和手势识别的自动驾驶辅助系统及方法，应用场景为车载环境，能够实时地检测到车内驾驶员的目光注视方向和手势动作，并对眼神和手势进行理解，从而帮助驾驶员实现他们的意图。

根据本发明的第一方面，提供一种利用眼动追踪和手势识别技术的自动驾驶辅助系统，包括：

平视显示器，将控制车辆的操作可视化为虚拟按钮的形式，将所述虚拟按钮显示给驾驶员，驾驶员用目光注视和/或手势指示所述平视显示器要做的动作；

车载摄像头，包括第一车载摄像头和第二车载摄像头，所述第一车载摄像头用于捕捉驾驶员的面部及手部图像，并将捕捉到的图像发送到数据处理中心；所述第二车载摄像用于观察车前挡风窗的视野范围；

数据处理中心，接收所述车载摄像头捕捉的图像，通过眼神追踪算法和手势识别算法分别对驾驶员的视线和手势进行眼动追踪、手势识别，得到驾驶员目光注视和/或手势指向的方向，从而确定驾驶员要做动作对应的虚拟按钮，根据该虚拟按钮对车辆进行相应的操作。

本发明上述系统同时利用目光注视和手势指向的方向，便于驾驶员根据自身的习惯，自由选择用视线、手势信息对车辆进行控制。

可选地，通过所述第一车载摄像头、所述第二车载摄像头之间的转换关系，得到所述第一车载摄像头的坐标在所述第二车载摄像头内的映射。进一步的，通过数据处理中心对所述第一车载摄像头、所述第二车载摄像头进行标定，得到所述第一车载摄像头、所述第二车载摄像头的坐标空间的转换矩阵，由所述数据处理中心计算得到的第一车载摄像头空间下的目光注视和手势指示的方向坐标，然后利用所述转换矩阵得到所述第二车载摄像头空间内的对应坐标，再将第二车载摄像头坐标空间内对应的三维坐标映射到前挡风窗对应的二维平面内，最终得到驾驶员注视或指向的虚拟按钮，对车辆进行该虚拟按钮对应的操作。整个过程均在数据中心控制下完成。

可选地，所述平视显示器的显示方式为投屏式或非投屏式。具体的，所述平视显示器采用投屏式显示时，则投影仪将所述虚拟按钮构成的桌面投影到车前窗上，在车前窗显示驾驶员能对车辆进行的基本操作。另外，所述平视显示器采用非投屏式显示时，则直接在人眼前方产生所述虚拟按钮的虚拟影像，不需要投影到车窗上，拉进驾驶员与影像的距离，更便于驾驶员操作。

可选地，所述数据处理中心采用基于卷积神经网络的眼动追踪与手势识别算法，通过长时间观察驾驶员的视线和手势信息进行训练，最后能够准确根据驾驶员的动作判断出驾驶员想要对车辆进行的操作。

可选地，所述数据处理中心对于所述第一车载摄像头拍摄的图像采用基于卷积神经网络的光学调焦算法进行处理，能够在光照过暗与过亮的情况下进行光学调焦，得到清晰的图像进行处理。

可选地，所述数据处理中心利用预处理算法对输入图像进行分割，得到驾驶员面部图像和手部图像，并将所述面部图像和手部图像分别输入到眼动追踪算法、手势识别算法，所述手势识别算法得到驾驶员手势指向的方向，所述眼动追踪算法得到的注视点坐标，将所述注视点坐标对应到所述平视显示器的虚拟按钮，结合所述驾驶员手势指向的方向，完成相应的动作。

根据本发明的第二方面，提供一种利用眼动追踪和手势识别技术的自动驾驶辅助方法，包括：

将控制车辆的操作可视化为虚拟按钮的形式，将所述虚拟按钮显示给驾驶员，驾驶员用目光注视和/或手势指示对应所述虚拟按钮要做的动作；

采用第一车载摄像头捕捉驾驶员的面部及手部图像，并将捕捉到的图像发送到数据处理中心；采用第二车载摄像观察车前挡风窗的视野范围；

数据处理中心，接收所述车载摄像头捕捉的图像，通过机器学习算法对驾驶员的视线和手势信息进行眼动追踪、手势识别，得到驾驶员目光注视和/或手势指向的方向，从而确定驾驶员要做动作对应的虚拟按钮，根据该虚拟按钮对车辆进行相应的操作。

与现有技术相比，本发明具有如下至少一种有益效果：

本发明上述系统只需放置车载摄像头，可以很方便的在车内部署，节约了成本。同时，由于在光照较强条件下眼动仪识别的效果受到很大影响，可能导致处理结果不准确，本发明采用数据处理中心应用机器学习算法对眼神和手势进行识别理解，实现了一种易部署、可扩展、低成本、高精度的车内辅助驾驶系统。

本发明上述系统利用机器学习算法实现的眼动追踪是免标定的，从而提高了不同车型间的可扩展性。两个摄像头的巧妙设计，极大保证了从注视点以及手势转换到对于虚拟按钮的精度。进一步的，数据处理中心采用机器学习算法对拍摄图像进行实时处理，可以有效防止在光照昏暗或者明亮条件下拍摄不清晰的问题，可以得到更清晰的图像以进行处理。

本发明上述系统与现有的辅助驾驶系统利用语音进行问答相比，眼神和手势更加方便，且更加出于驾驶者的本能反应，不易受到外界因素的影响而使得系统的应答率降低。与采用眼动仪及雷达来探测驾驶员的视线和手势信息相比，由于车内空间有限，眼动仪及雷达不便于部署，而且眼动仪使用的是近红外，在较强的光照条件下性能不佳。

本发明上述系统基于根据摄像头采集到的驾驶员眼部和手势信息，根据采集到的数据训练出视线和手势识别模型，对眼神和手势进行识别理解，可以将传统的眼动追踪和手势识别外设移动到云端或边缘计算设备上，极大地节约了车内部署的成本。

因此，本发明上述系统具有巨大的应用潜力，可以为自动驾驶系统从L2到L3的全面突破提供巨大帮助。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中自动驾驶辅助系统的结构示意图；

图2为本发明一实施例中平视显示器投屏功能示意图；

图3为本发明一实施例户用使用流程示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。本发明实施例中没详细说明的部分可以采用现有技术实现。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1所示，为本发明一较优实施例的自动驾驶辅助系统的结构示意图。该实施例的自动驾驶辅助系统由第一车载摄像头、第二车载摄像头、平视显示器以及数据处理中心组成。第一车载摄像头安装在车辆顶部，可以捕捉驾驶员的正面上半身部分，以捕捉驾驶员的面部及手部图像，并将捕捉到的图像发送到数据处理中心；第二车载摄像头朝向前方，用于观察车前挡风窗的视野范围；平视显示器将控制车辆的操作(如停车、倒车、开/关窗、开/关空调、播放音乐等)可视化为虚拟按钮的形式，将虚拟按钮显示给驾驶员，驾驶员用目光注视和/或手势指示所述平视显示器要做的动作；数据处理中心，接收车载摄像头捕捉的图像，通过眼神追踪算法和手势识别算法分别对驾驶员的视线和手势信息进行眼动追踪、手势识别对驾驶员的视线和手势信息进行眼动追踪、手势识别，得到驾驶员目光注视和/或手势指向的方向，从而确定驾驶员要做动作对应的虚拟按钮，根据该虚拟按钮对车辆进行相应的操作。

本实施例同时用到目光注视和手势指向的方向，目的是便于驾驶员根据自身的习惯，自由选择用视线或者手势信息对车辆进行控制，可以使得自动驾驶车辆具备对人类行为进行充分理解从而辅助驾驶行为。

上述实施例中的眼神追踪算法和手势识别算法，均可以采用现有技术实现，比如基于卷积神经网络的眼神追踪算法，基于卷积神经网络的手势识别算法，当然，也可以是其他的眼神追踪算法和手势识别算法。

在一优选实施例中，在数据处理中心控制下，通过对第一车载摄像头、第二车载摄像头进行标定，得到第一车载摄像头、第二车载摄像头的坐标空间的转换矩阵，由数据处理中心计算得到的第一车载摄像头空间下的目光注视和手势指示的方向坐标，然后利用转换矩阵得到第二车载摄像头空间内的对应坐标，再将第二车载摄像头空间内的三维坐标映射到前挡风窗对应的二维平面内，最终得到驾驶员注视或指向的虚拟按钮，对车辆进行该虚拟按钮对应的操作。

上述实施例采用平视显示器，将操作投影于车前窗，这样可以让驾驶员不需要到处找各种按钮，而只需通过本能的眼睛注视和手势指示即可完成想要的操作，可以有效防止误触且不易受到其他因素的干扰。平视显示器的显示方式为投屏式或非投屏式。具体的，平视显示器采用投屏式显示时，则投影仪将虚拟按钮构成的桌面投影到车前窗上，在车前窗显示驾驶员能对车辆进行的基本操作。另外，平视显示器采用非投屏式显示时，则直接在人眼前方产生虚拟按钮的虚拟影像，不需要投影到车窗上，拉进驾驶员与影像的距离，更便于驾驶员操作。

图1所示实施例中，采用投影仪将画面投影到车前窗平视显示器上，车前窗平视显示器可以显示驾驶员能够进行的基本操作对应的虚拟按钮。当然，在其他实施例中也可以采用非投屏式。

如图2所示，投影仪根据具体车型将车辆可以进行的操作投影在车前窗平面显示器，具体显示的画面由车内空间决定。驾驶员可以通过注视显示器和手势操作，经由第一车载摄像头拍摄后，由数据处理中心识别驾驶员目光注视和/或手势指向的方向，并识别出驾驶员真正的驾驶意图来对车辆进行相应的操作。

图1中，第一车载摄像头需要可以拍摄到驾驶员清晰的面部图像，以用于视线追踪，以及拍摄到驾驶员清晰的手部图像，以用于手势追踪。第二车载摄像头拍摄车窗外部视野，不应存在遮挡。二者之间的相对位置需要根据具体部署车型的车内环境确定，提前进行一系列的标定。应保证二者有一定的公共视野进行标定，得到两个坐标系之间的转换矩阵。具体的，第一车载摄像头的相对位置由车内格局及驾驶员相对位置确定，可以通过调节摄像头的相对位置得到更加清晰的驾驶员面部及手势图像，也能使标定更加准确。

在另一优选实施例中，数据处理中心采用基于卷积神经网络的眼动追踪与手势识别算法，通过长时间观察驾驶员的视线和手势信息进行训练，最后能够准确根据驾驶员的动作判断出驾驶员想要对车辆进行的操作。另外，数据处理中心对于第一车载摄像头拍摄的图像基于卷积神经网络的光学调焦算法进行处理，比如通过使用随机散焦的后向传播全息图及其对应的相位恢复图像进行训练，然后将实际输入的后向传播全息图作为输入信息来实现相位恢复，并在显著扩展的景深上重建对焦后的图像，这种调焦算法能够在光照过暗与过亮的情况下进行光学调焦，得到清晰的图像进行处理，可以得到高准确率的控制信息。

在另一优选实施例中，数据处理中心对输入图像进行分割，得到驾驶员面部图像和手部图像，并将面部图像和手部图像分别输入到眼动追踪算法、手势识别算法。手势识别算法得到驾驶员手势指向的方向，眼动追踪算法得到的注视点坐标，将注视点坐标对应到平视显示器的虚拟按钮，结合驾驶员手势指向的方向，完成相应的动作。

具体的，在一优选实施例中，图像分割方法可以采用基于区域选择的图像分割算法，基于区域选择的图像分割算法核心思想是检测颜色空间和相似矩阵，根据这些来检测待检测的区域，然后根据检测结果进行分类预测。

具体的，在一优选实施例中，数据处理中心有基于卷积神经网络的眼动追踪算法、手势识别算法和采用边缘计算的信息处理算法。根据第一车载摄像头拍摄到的画面，提取需要的信息，并根据这些信息，对车辆进行相应的操作。上述算法可以是根据现有的其他算法。眼动追踪算法选择的是由数据驱动的机器学习算法，利用眼部图像为输入，自动提取眼部的特征，根据现有的方法基于大数据训练得出眼球识别模型，预测出注视点坐标。信息处理算法独立于眼动追踪和手势识别算法，目的是为了加快训练速度，更快的得出视线和手势信息以及驾驶员所采取的操作。信息处理算法采用边缘计算或者云计算，可以减少功耗，并能够实时根据驾驶员的视线与手势信息对车辆做出相应的操作。这些算法均可以采用现有技术来实现。

在本发明另一实施例中，还提供一种利用眼动追踪和手势识别技术的自动驾驶辅助方法，包括：将控制车辆的操作可视化为虚拟按钮的形式，将所述虚拟按钮显示给驾驶员，驾驶员用目光注视和/或手势指示对应所述虚拟按钮要做的动作；采用第一车载摄像头捕捉驾驶员的面部及手部图像，并将捕捉到的图像发送到数据处理中心；采用第二车载摄像观察车前挡风窗的视野范围；数据处理中心，接收所述车载摄像头捕捉的图像，通过机器学习算法对驾驶员的视线和手势信息进行眼动追踪、手势识别，得到驾驶员目光注视和/或手势指向的方向，从而确定驾驶员要做动作对应的虚拟按钮，根据该虚拟按钮对车辆进行相应的操作。

本发明上述实施例采用基于机器学习算法、数据驱动的眼动追踪和手势识别算法，能够通过大量训练数据学习到不同类型的驾驶员驾驶习惯与行为方式，不需要对特定的驾驶员进行标定，易于扩展。整个方案不需要昂贵的外设(如眼动仪)，节约了成本。双摄像头的设计方案确保了坐标转换的精度，保证了检测结果到最终理解的准确性。

本发明上述实施例用于部署在支持自动驾驶的车辆上，易于驾驶员对车辆进行操控，具有易部署、可扩展、低成本、高精度的特点，同时可以通过基于神经网络的深度学习算法能够在自动驾驶领域得到普及和推广，造福更多的驾驶员。同时，该发明也可以经过调整后应用于更加广泛的领域。

本领域那些技术人员可以理解，除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书中公开的所有特征以及如此公开的任何装置的所有过程或单元进行组合。

需要说明的是，本发明提供的所述方法中的步骤，可以利用所述系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程，即，所述系统中的实施例可理解为实现所述方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种利用眼动追踪和手势识别技术的自动驾驶辅助系统，其特征在于，包括：

数据处理中心，接收所述车载摄像头捕捉的图像，通过眼神追踪算法和手势识别算法分别对驾驶员的视线和手势进行眼动追踪、手势识别，得到驾驶员目光注视和/或手势指向的方向，从而确定驾驶员要做动作对应的虚拟按钮，根据该虚拟按钮对车辆进行相应的操作；

通过所述第一车载摄像头、所述第二车载摄像头之间的转换关系，得到所述第一车载摄像头的坐标在所述第二车载摄像头内的映射；

在所述数据处理中心控制下，通过对所述第一车载摄像头、所述第二车载摄像头进行标定，得到所述第一车载摄像头、所述第二车载摄像头的坐标空间的转换矩阵，由所述数据处理中心计算得到的第一车载摄像头空间下的目光注视和手势指示的方向坐标，然后利用所述转换矩阵得到所述第二车载摄像头空间内的对应坐标，再将第二车载摄像头坐标空间内对应的三维坐标映射到前挡风窗对应的二维平面内，最终得到驾驶员注视或指向的虚拟按钮，对车辆进行该虚拟按钮对应的操作。

2.根据权利要求1所述的利用眼动追踪和手势识别技术的自动驾驶辅助系统，其特征在于，所述平视显示器的显示方式为投屏式或非投屏式。

3.根据权利要求2所述的利用眼动追踪和手势识别技术的自动驾驶辅助系统，其特征在于，所述平视显示器采用投屏式显示，则投影仪将所述虚拟按钮构成的桌面投影到车前窗上，在车前窗显示驾驶员能对车辆进行的基本操作。

4.根据权利要求2所述的利用眼动追踪和手势识别技术的自动驾驶辅助系统，其特征在于，所述平视显示器采用非投屏式显示，则直接在人眼前方产生所述虚拟按钮的虚拟影像，不需要投影到车窗上。

5.根据权利要求1-4任一项所述的利用眼动追踪和手势识别技术的自动驾驶辅助系统，其特征在于，所述数据处理中心采用基于卷积神经网络的眼神追踪算法和手势识别算法，通过长时间观察驾驶员的视线和手势信息进行训练，最后能够准确根据驾驶员的动作判断出驾驶员想要对车辆进行的操作。

6.根据权利要求5所述的利用眼动追踪和手势识别技术的自动驾驶辅助系统，其特征在于，所述数据处理中心对于所述第一车载摄像头拍摄的图像采用基于卷积神经网络的光学调焦算法进行处理，能够在光照过暗与过亮的情况下进行光学调焦，得到清晰的图像进行处理。

7.根据权利要求1-4任一项所述的利用眼动追踪和手势识别技术的自动驾驶辅助系统，其特征在于，所述数据处理中心对输入图像进行分割，得到驾驶员面部图像和手部图像，并将所述面部图像和手部图像分别输入到眼动追踪算法、手势识别算法，所述手势识别算法得到驾驶员手势指向的方向，所述眼动追踪算法得到的注视点坐标，将所述注视点坐标对应到所述平视显示器的虚拟按钮，结合所述驾驶员手势指向的方向，完成相应的动作。

8.一种利用眼动追踪和手势识别技术的自动驾驶辅助方法，其特征在于，包括：

数据处理中心，接收所述车载摄像头捕捉的图像，通过深度学习算法对驾驶员的视线和手势信息进行眼动追踪、手势识别，得到驾驶员目光注视和/或手势指向的方向，从而确定驾驶员要做动作对应的虚拟按钮，根据该虚拟按钮对车辆进行相应的操作；