CN112149641A

CN112149641A - 监控驾驶状态的方法、装置、设备和存储介质

Info

Publication number: CN112149641A
Application number: CN202011151714.4A
Authority: CN
Inventors: 王珂尧; 冯浩城; 岳海潇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2020-12-29

Abstract

本申请公开了监控驾驶状态的方法、装置、设备和存储介质，涉及计算机视觉、深度学习以及智能交通方面，具体可用于辅助驾驶场景。具体实现方案为：获取用户的人脸图像；识别人脸图像，得到人脸图像中的多个第一关键点；根据多个第一关键点，确定目标部位的状态信息；以及根据目标部位的状态信息确定用户的驾驶状态。其中，目标部位的状态信息包括以下至少之一：眼睛的张开角度、瞳孔与对应眼睛的中心点之间的距离、嘴巴的张开角度。

Description

监控驾驶状态的方法、装置、设备和存储介质

技术领域

本申请涉及人工智能领域，具体涉及计算机视觉、深度学习以及智能交通方面，具体可用于辅助驾驶场景，更具体地涉及一种监控驾驶状态的方法、装置、设备和存储介质。

背景技术

随着人工智能技术的发展，为了提高安全驾驶，监控驾驶状态的技术随之产生。

相关技术中，一般使用人脸特征提取结合分类器分类的方法实现驾驶状态的监控。该方法存在分类结果的准确率较低、鲁棒性较差的技术问题，往往难以满足实际场景需求。

发明内容

提供了一种用于提高监控准确性的监控驾驶状态的方法、装置、设备以及存储介质。

根据第一方面，提供了一种监控驾驶状态的方法，包括：获取用户的人脸图像；识别人脸图像，得到人脸图像中的多个第一关键点；根据多个第一关键点，确定目标部位的状态信息；以及根据目标部位的状态信息确定用户的驾驶状态，其中，目标部位的状态信息包括以下至少之一：眼睛的张开角度、瞳孔与对应眼睛的中心点之间的距离、嘴巴的张开角度。

根据第二方面，提供了一种监控驾驶状态的装置，包括：图像获取模块，用于获取用户的人脸图像；图像识别模块，用于识别人脸图像，得到人脸图像中的多个第一关键点；部位状态确定模块，用于根据多个第一关键点，确定目标部位的状态信息；以及驾驶状态确定模块，用于根据目标部位的状态信息确定用户的驾驶状态，其中，目标部位的状态信息包括以下至少之一：眼睛的张开角度、瞳孔与对应眼睛的中心点之间的距离、嘴巴的张开角度。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请提供的监控驾驶状态的方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本申请提供的监控驾驶状态的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的监控驾驶状态的方法、装置、设备和存储介质的应用场景示意图；

图2是根据本申请实施例的监控驾驶状态的方法的流程示意图；

图3是根据本申请实施例的确定用户的驾驶状态的原理示意图；

图4是根据本申请实施例的监控驾驶状态的方法的原理示意图；

图5是根据本申请实施例的确定眼睛的张开角度的原理示意图；

图6是根据本申请实施例的确定嘴巴的张开角度的原理示意图；

图7是根据本申请实施例的确定瞳孔与对应眼睛的中心点之间的距离的原理示意图；

图8是根据本申请实施例的监控驾驶状态的装置的结构框图；以及

图9是用来实现本申请实施例的监控驾驶状态的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请提供了一种监控驾驶状态的方法。该方法先获取用户的人脸图像，随后识别人脸图像，得到人脸图像中的多个第一关键点。在得到多个第一关键点后，根据多个第一关键点，确定目标部位的状态信息。最后根据目标部位的状态信息确定用户的驾驶状态。其中，目标部位的状态信息包括以下至少之一：眼睛的张开角度、瞳孔与对应眼睛的中心点之间的距离、嘴巴的张开角度。

以下将结合图1对本申请提供的方法和装置的应用场景进行描述。

图1是根据本申请实施例的监控驾驶状态的方法、装置、设备和存储介质的应用场景图。

如图1所示，该实施例的应用场景100例如可以包括行驶的车辆110。

行驶的车辆110中设置有图像采集装置，行驶的车辆110的主驾驶位置乘坐有驾驶员，该驾驶员用于控制车辆行驶的速度和方向等。图像采集装置的采集范围包括主驾驶位置，用于采集驾驶员的人脸图像。

根据本申请的实施例，车辆110例如还可以设置有处理器。处理器与图像采集装置通信连接，用于获取图像采集装置采集的人脸图像，并通过识别人脸图像，确定驾驶员的驾驶状态。

在一实施例中，该应用场景100中还可以包括服务器130，该服务器130具有处理功能。车辆110例如还可以包括网络通信装置，该网络通信装置经由网络与服务器130通信。例如，网络通信装置用于经由网络向服务器130发送采集的人脸图像121。服务器130用于对接收的人脸图像121进行图像识别，并根据识别结果确定驾驶员的驾驶状态122，并将该驾驶状态122经由网络发送给车辆110。车辆110的网络通信装置还用于接收该驾驶状态122。

示例性地，服务器130例如可以为应用程序服务器、分布式系统的服务器，或者是结合了区块链的服务器。或者，服务器还可以为虚拟服务器或云服务器等。

在一实施例中，车辆110例如还可以具有辅助驾驶系统或自动驾驶系统。车辆110在接收到驾驶状态122后，例如可以根据驾驶状态122确定是否需要启动辅助驾驶系统或自动驾驶系统。例如，在驾驶状态指示驾驶员处于疲劳状态时，车辆110可以自动启动辅助驾驶系统或自动驾驶系统，并使得车辆110的方向盘和/或刹车系统等处于禁用状态。通过该方式，可以避免因驾驶员疲劳驾驶所存在的驾驶风险。

在一实施例中，车辆110例如还可以具有音频播放设备或视频播放设备。车辆110在接收到驾驶状态122后，车辆中的处理器例如可以根据驾驶状态122确定是否需要输出提示信息。例如，在驾驶状态指示驾驶员的注意力不集中时，可以输出音频/视频提示信息，以提示驾驶员专心驾驶。或者，在驾驶状态指示驾驶员处于疲劳状态时，可以输出音频/视频提示信息，以提示用户停车休息，避免疲劳驾驶等。或者，还可以输出帮助驾驶员提神的音视频。

需要说明的是，本申请实施例提供的监控驾驶状态的方法一般可以由车辆110执行，或者由服务器130执行。相应地，本申请实施例提供的监控驾驶状态的装置一般可以设置在车辆110中，或者可以设置在服务器130中。

应该理解，图1中的车辆和服务器的类型仅仅是示意性的。根据实现需要，可以具有任意类型的车辆和服务器。

以下将结合图1描述的应用场景，通过图2～图7对本申请实施例提供的监控驾驶状态的方法进行详细描述。

图2是根据本申请实施例的监控驾驶状态的方法的流程示意图。

如图2所示，该实施例的监控驾驶状态的方法200可以包括操作S220、操作S240、操作S260和操作S280。该方法200可以由车辆执行，或者与车辆通信连接的服务器执行。

在操作S220，获取用户的人脸图像。

根据本申请的实施例，用户例如可以为驾驶员，人脸图像例如可以由车辆中的图像采集装置采集得到。在方法200由服务器执行时，车辆可以在采集到人脸图像后，将人脸图像实时地发送给服务器。在方法200由车辆执行时，车辆中的处理器可以实时地获取图像采集装置采集的人脸图像。

根据本申请的实施例，该人脸图像为图像采集装置的采集范围内的图像，该人脸图像可以不仅包括用户的人脸的图像，还包括用户的脖子、肩膀等部位的图像。该图像例如还可以包括车辆中用户周边的设备的图像，例如可以包括用户所乘坐的座椅的图像等。

在操作S240，识别人脸图像，得到人脸图像中的多个第一关键点。

根据本申请的实施例，例如可以采用人脸关键点检测方法，定位出人脸面部的关键区域位置，关键区域位置例如可以包括眉毛、眼睛、鼻子、嘴巴和脸部轮廓等。该实施例将定位得到的指示关键区域位置的点作为第一关键点。

示例性地，关键区域位置例如由识别得到的第一关键点的坐标值表示。其中，第一关键点的坐标值例如可以为第一关键点在人脸图像坐标系中的坐标值。人脸图像坐标系可以以图像的左上角的点作为坐标原点，x轴沿图像的宽度方向，y轴沿图像的高度方向。x轴的单位长度为单个像素的宽度，y轴的单位长度为单个像素的高度。

示例性地，人脸关键点检测方法例如可以采用基于模型的主动形状模型(ActiveShape Model，ASM)或主动外观模型(Active Appearance Model，AAM)。或者，人脸关键点检测方法还可以为基于级联姿势回归(Cascaded Pose Regression，CPR)的方法，或者采用深度学习的方法。其中，深度学习方法例如可以采用预训练的卷积神经网络模型。

示例性地，根据采用的人脸关键点检测方法的不同，得到的多个第一关键点的个数可以不同。例如，该多个第一关键点的个数可以为21个、68个、72个、98个等。在实际场景中，可以根据实际需求设定以预定个数的关键点的人脸关键点检测模型，以使得得到的第一关键点的个数满足需求。可以理解的是，上述第一关键点的个数仅作为示例以利于理解本申请，本申请对此不作限定。

在操作S260，根据多个第一关键点，确定目标部位的状态信息。

根据本申请的实施例，目标部位例如可以包括眼睛，眼睛的状态信息例如可以包括指示眼睛睁开程度的眼睛的张开角度、并且/或者指示眼睛视线方向的瞳孔与对应眼睛的中心点之间的距离。其中，眼睛包括左眼和右眼，该实施例可以将两只眼睛中一只眼睛的状态信息作为目标部位的状态信息，也可以将两只眼睛的状态信息均作为目标部位的状态信息。

示例性地，该操作S260可以根据多个第一关键点中指示眼睛眼角位置的关键点、多个第一关键点中指示眼睛上眼睑位置的关键点、多个第一关键点中指示眼睛下眼睑位置的关键点来确定眼睛的张开角度。根据多个第一关键点中指示瞳孔位置的关键点、及指示眼睛极点位置的关键点来确定瞳孔与对应眼睛的中心点之间的距离。其中，指示眼睛的极点可以为指示眼睛的多个第一关键点中x轴的坐标值最小的点、x轴的坐标值最大的点、y轴的坐标值最小的点和y轴的坐标值最大的点。例如，指示眼睛的极点可以包括指示眼睛内眼角位置的关键点、指示眼睛外眼角位置的关键点、指示眼睛上眼睑位置的关键点和指示眼睛下眼睑位置的关键点。

根据本申请的实施例，目标部位例如可以包括嘴巴，嘴巴的状态信息例如可以包括指示嘴巴张开程度的嘴巴的张开角度。

示例性地，该操作S260可以根据多个第一关键点中指示嘴巴的嘴角位置的关键点、上嘴唇所在位置的关键点和下嘴唇所在位置的关键点来确定嘴巴的张开角度。

在操作S280，根据目标部位的状态信息确定用户的驾驶状态。

根据本申请的实施例，用户的驾驶状态例如可以包括疲劳驾驶状态。例如，在眼睛的张开角度较小或趋近于零时，可以指示用户的眼睛处于近乎闭合的状态。基于此，可以确定用户眼睛因疲劳而无法睁大、或者确定用户当前正在打盹，从而确定用户的驾驶状态为疲劳驾驶状态。或者，在嘴巴的张开角度大于用户通常说话所张开的角度时，可以确定用户在打哈欠，从而确定用户的驾驶状态为疲劳驾驶状态。其中，眼睛的张开角度可以包括左眼的张开角度和右眼的张开角度中的至少之一，该实施例可以在两只眼睛的张开角度均处于近乎闭合的状态时，确定用户的驾驶状态为疲劳驾驶状态，以此提高确定的驾驶状态的准确性。

示例性地，可以通过确定眼睛的张开角度是否小于第一预设角度来确定眼睛是否处于近乎闭合的状态。相应地，操作S280可以在目标部位的状态信息包括眼睛的张开角度，且眼睛的张开角度小于第一预设角度的情况下，确定驾驶状态为疲劳驾驶状态。其中，第一预设角度可以根据实际需求进行设定。例如该第一预设角度可以根据用户的历史画像来确定。在一实施例中，第一预设角度例如可以为用户的历史画像指示的用户眼睛的最大张开角度的第一预设比例。其中，第一预设比例例如可以为50％、30％、20％等。或者，第一预设角度也可以为针对所有用户预先设定的固定值，例如为20°、15°、10°等。

示例性地，可以通过确定嘴巴的张开角度是否大于等于第二预设角度来确定用户是否打哈欠。相应地，操作S280可以在目标部位的状态信息包括嘴巴的张开角度，且嘴巴的张开角度大于等于第二预设角度的情况下，确定驾驶状态为疲劳驾驶状态。其中，第二预设角度可以根据实际需求进行设定。例如，该第二预设角度可以根据用户的历史画像来确定。例如，第二预设角度可以为用户的历史画像指示的用户嘴巴的最大张开角度的第二预设比例。其中，第二预设比例例如可以为80％、85％、90％等。或者，第二预设角度也可以为针对所有用户预先设定的固定值，例如为90°、100°、120°等。

示例性地，可以在嘴巴的张开角度大于等于第二预设角度或两只眼睛中任意一只眼睛的张开角度小于第一预设角度的情况下，确定驾驶状态为疲劳状态。或者，可以在两只眼睛的张开角度均小于第一预设角度的情况下，确定驾驶状态为疲劳状态。

根据本申请的实施例，操作S280例如还可以综合考虑眼睛的张开角度和嘴巴的张开角度，来确定用户的驾驶状态是否为疲劳驾驶状态。从而可以提高确定的驾驶状态的准确性。

根据本申请的实施例，用户的驾驶状态例如还可以包括注意力分散状态。例如，若瞳孔与对应眼睛的中心点之间的距离大于预设距离时，可以确定用户未注视前方，从而确定用户的注意力被除车辆前方外其他方向的物体或风景吸引，确定用户的驾驶状态为注意力分散状态。其中，预设距离例如可以根据眼睛总宽度来确定。例如，该预设距离可以为眼睛总宽度的0.2倍、0.25倍、0.3倍等小于0.5、且大于等于0.1的任意值。或者，该预设距离也可以为1cm、0.8cm、0.5cm或0.3cm等任意的不大于眼睛总宽度的一半的值。可以理解的是，上述预设距离仅作为示例以利于理解本申请，预设距离可以根据实际需求进行设定，本申请对此不作限定。

综上所述，本申请实施例通过检测人脸图像的关键点，并通过量化的目标部位的状态信息来确定驾驶状态，相较于采用分类器确定驾驶状态的方法，可以有效提高监控驾驶状态的准确性，并使得该方法可以适用于任意的场景，提高监控方法的鲁棒性。

图3示意性示出了根据本申请实施例的确定用户的驾驶状态的原理示意图。

根据本申请的实施例，根据目标部位的状态信息确定用户的驾驶状态时，可以根据通过实时采集到的多个人脸图像确定的目标部位的多个状态信息，来确定驾驶状态。其中，多个人脸图像的数量可以根据实际需求进行设定。例如该多个人脸图像的数量例如可以为3个、5个、8个、10个等任意地大于等于2的整数。为了避免计算资源的浪费，该数量也不宜取太大的值，例如，该数量可以为大于等于2且小于15的整数。

示例性地，如图3所示的实施例300，设定人脸图像的采集周期为t，可以对实时采集的人脸图像(例如时刻T采集的人脸图像)进行识别，得到该时刻T采集的人脸图像中的第一关键点，并根据第一关键点确定得到一个状态信息A5。在得到状态信息A5后，可以将该状态信息A5与之前确定的状态信息A1～A4相结合来确定用户的驾驶状态。其中，状态信息A1为根据(T-4t)时刻采集的人脸图像确定的状态信息，状态信息A2为根据(T-3t)时刻采集的人脸图像确定的状态信息，状态信息A3为根据(T-2t)时刻采集的人脸图像确定的状态信息，状态信息A4为根据(T-t)时刻采集的人脸图像确定的状态信息。

示例性地，在目标部位的状态信息为眼睛的张开角度的情况下，可以先确定该多个状态中眼睛的张开角度是否均小于第一预设角度。若是，则确定用户的驾驶状态为疲劳驾驶状态。在目标部位的状态信息为嘴巴的张开角度的情况下，可以先确定该多个状态中嘴巴的张开角度是否均大于等于第二预设角度。若是，则确定用户在打哈欠，从而确定用户的驾驶状态为疲劳驾驶状态。

示例性地，在目标部位的状态信息为瞳孔与对应眼睛的中心点之间的距离大于预设距离的情况下，可以先确定该多个状态中瞳孔与对应眼睛的中心点之间的距离是否均大于预设距离。若是，则确定用户的注意力被除车辆前方外其他方向的物体或风景持续吸引，从而确定驾驶状态为注意力分散状态。

在一实施例中，该多个人脸图像的数量例如可以根据目标部位的类型和图像的采集周期来确定。例如，若目标部位的类型为眼睛，采集周期为1s，则设定多个人脸图像的数量可以为2个，从而确定眼睛是否持续闭眼2s或是否被除前方外其他方向的物体或风景持续吸引2s。若目标部位的类型为嘴巴，由于打哈欠时嘴巴处于较大张开角度的持续时长较长，则可以在采集周期为1s时，设定多个人脸图像的数量为10个等较大的值。

综上可知，本申请实施例通过综合考虑根据实时采集的多个人脸图像确定的目标位置的多个状态信息，可以提高确定的驾驶状态的准确性。可以避免驾驶状态的确定受用户张大嘴巴说话、或眨眼的影响。

根据本申请的实施例，在确定目标部位的状态信息时，例如还可以对实时采集的图像进行跳帧处理。在图像采集频率较高时，连续采集的两个人脸图像由于采集间隔时间短而无法体现出目标部位的状态信息的变化。对实时采集的每张图像均进行处理会带来不必要计算资源的消耗。通过对图像进行跳帧处理，则可以有效避免计算资源的浪费。

示例性地，前述多个人脸图像中相邻两张图像采集的间隔时长相等，且该间隔时长大于采集人脸图像的周期，以此实现对图像的跳帧处理。例如，若采集人脸图像的周期为1s，间隔时长则可以为1s、2s、3s等，该间隔时长为采集人脸图像的周期的大于等于1的整数倍。在一实施例中，例如可以每间隔一帧图像，对人脸图像进行一次识别。

图4是根据本申请实施例的监控驾驶状态的方法的原理示意图。

根据本申请的实施例，在根据多个第一关键点确定目标部位的状态信息时，例如可以先根据多个第一关键点，确定目标部位在人脸图像中的目标区域。确定目标区域后，采用目标部位关键点检测模型检测目标区域，得到针对目标部位的第二关键点。最后根据针对目标部位的第二关键点，确定目标部位的状态信息。

示例性地，如图4所示的实施例400中，可以先获取用户的人脸图像410，采用人脸关键点检测模型检测人脸图像410中的人脸关键点，得到关键点特征图420。关键点特征图420中包括多个第一关键点，该多个第一关键点的个数根据人脸关键点检测模型确定。

示例性地，在目标部位为眼睛时，可以根据多个第一关键点从人脸图像中确定眼睛所在区域，并从人脸图像中提取得到眼睛图像431。随后采用眼睛关键点检测模型检测眼睛图像431，得到针对眼睛的多个第二关键点，从而得到眼睛关键点特征图441。最后根据多个第二关键点，确定眼睛的状态信息，具体即为确定眼睛的张开角度和/或瞳孔与对应眼睛之间的距离451。

示例性地，在目标部位为嘴巴时，可以根据多个第一关键点从人脸图像中确定嘴巴所在区域，并从人脸图像中提取得到嘴巴图像432。随后采用嘴巴关键点检测模型检测嘴巴图像432，得到针对嘴巴的多个第二关键点，从而得到嘴巴关键点特征图442。最后根据多个第二关键点，确定嘴巴的状态信息，具体即为嘴巴的张开角度452。

示例性地，如图4所示，关键点特征图420中多个第一关键点的个数为72个，分别包括定位脸部轮廓的13个第一关键点、定位左眼的9个第一关键点、定位左眉的8个第一关键点、定位右眼的9个第一关键点、定位右眉的8个第一关键点，定位鼻子的11个第一关键点和定位嘴巴的14个第一关键点。在确定目标部位所在区域时，可以先定位左眼的9个第一关键点中的四个极点。如图4所示，该四个极点可以为定位左眼的9个第一关键点中分别位于最左侧、最右侧、最上侧和最下侧的关键点。随后根据该四个极点画框，得到左眼所在区域。其中，例如可以以四个极点为左眼所在区域的矩形框中四个边上的点进行画框。或者，可以先以四个极点为矩形框中四个边上的点进行画框，最终将画框得到的矩形框向眼睛外侧外扩预设像素，得到左眼所在区域。类似地，可以得到右眼所在区域、嘴巴所在区域。

示例性地，针对目标部位的第二关键点的个数与多个第一关键点中定位目标部位的第一关键点的个数相等，或者针对目标部位的第二关键点的个数大于多个第一关键点中定位目标部位的第一关键点的个数。该针对目标部位的第二关键点的个数根据目标部位关键点检测模型来确定。在一实施例中，如图4所示，眼睛关键点检测模型检测得到的针对左眼的第二关键点的个数为9个，针对右眼的第二关键点的个数为9个。嘴巴关键点检测模型检测得到的针对嘴巴的第二关键点的个数为14个。

本申请实施例通过在确定第一关键点后，再根据第一关键点确定目标部位所在区域，并采用目标部位关键点检测模型对目标部位所在区域再次进行关键点检测，可以提高确定的针对目标部位的关键点的精度。从而可以提高确定的目标部位的状态信息的准确性，提高监控到的用户的驾驶状态的准确性。

根据本申请的实施例，前述目标部位关键点检测模型例如可以基于卷积神经网络模型构建，该卷积神经网络模型例如可以采用包括输入层、5个卷积层、3个池化层和1个全连接层的结构。该目标部位关键点检测模型输出的多个关键点中各关键点指示的目标部位中的位置是模型训练时预设定的。具体地，例如可以采用标注有关键点的目标部位样本数据对卷积神经网络进行训练，以训练得到目标部位关键点检测模型。

根据本申请的实施例，在识别人脸图像确定第一关键点时，例如可以先采用深度学习模型检测得到人脸图像中的人脸框。随后基于人脸框，采用人脸关键点检测模型检测得到多个第一关键点。该实施例通过先确定人脸框，再对人脸框中的图像进行关键点检测，可以提高确定的多个第一关键点的准确性，从而提高确定的驾驶状态的准确性。

示例性地，可以采用卷积神经网络对人脸图像进行人脸基础特征的提取，卷积神经网络中每层卷积层实现一次图像下采样，卷积神经网络中最后的处理层分别采用预设的固定数目的人脸锚点框对人脸进行人脸检测框回归处理，最终得到人脸的四个极点的坐标。根据该四个极点的坐标绘制矩形框，从而得到人脸框。其中，卷积神经网络例如可以采用轻量级的人脸检测器，例如可以采用人脸检测器BlazeFace模型，该人脸检测器可以使用MobileNet系列、ShuffleNet系列或SqueezeNet系列的网络模型作为骨干(backbone)模型。

图5是根据本申请实施例的确定眼睛的张开角度的原理示意图。

根据本申请的实施例，确定眼睛的张开角度的操作例如可以先根据多个第一关键点，确定针对眼睛的极点。其中，针对眼睛的极点包括在相互垂直的两个方向上的第一极点和第二极点。随后根据第一极点和第二极点，确定眼睛的张开角度。

示例性地，相互垂直的两个方向例如可以包括眼睛内眼角和外眼角的连线所在的第一方向，以及眼睛上眼睑和眼睛下眼睑的连线所在的第二方向。

示例性地，如图5所示的实施例500，前述人脸图像中的多个第一关键点中，定位眼睛的9个第一关键点例如可以包括关键点511～519。或者，该关键点511～519也可以为通过眼睛关键点检测模型检测得到的9个第二关键点。根据针对眼睛的9个关键点，可以确定9个关键点中针对眼睛的极点包括在第一方向上的第一极点511和第一极点515，以及在第二方向上的第二极点513和第二极点517。其中，第一极点511为指示左眼外眼角的位置的关键点，第一极点515为指示左眼内眼角的位置的关键点，第二极点513为指示左眼上眼睑的位置的关键点，第二极点517为指示左眼下眼睑的位置的关键点。如图5所示，若以A₁表示第一极点511，以D₁表示第一极点515，以B₁表示第二极点513，以C₁表示第二极点517，则可以确定眼睛的张开角度为B₁与A₁的连线及C₁与A₁的连线之间的夹角∠B₁A₁C₁，或者，可以确定眼睛的张开角度为B₁与D₁的连线及C₁与D₁的连线之间的夹角∠B₁D₁C₁。其中，夹角∠B₁A₁C₁或夹角∠B₁D₁C₁的角度值可以采用余弦定理来确定，以下以确定夹角∠B₁A₁C₁的角度值为例进行说明。形成∠B₁A₁C₁的两个边的长度及∠B₁A₁C₁所对的边的长度可以根据A₁、B₁、C₁的坐标值来确定，则∠B₁A₁C₁的角度值可以通过以下公式来确定。

可以理解的是，本申请中右眼的张开角度可以采用前述确定左眼的张开角度的方法的类似方法得到，本申请不再赘述。

可以理解的是，在关键点511～519为从第一关键点中筛选得到时，A₁、B₁、C₁的坐标值即为该三个关键点在基于人脸图像的坐标系中的坐标值。在关键点511～519为从第二关键点时，A₁、B₁、C₁的坐标值即为该三个第二关键点在基于眼睛图像的坐标系中的坐标值。

图6是根据本申请实施例的确定嘴巴的张开角度的原理示意图。

根据本申请的实施例，确定眼睛的张开角度的操作例如可以先根据多个第一关键点，确定针对嘴巴的极点。其中，针对嘴巴的极点包括在相互垂直的两个方向上的第一极点和第二极点。随后根据第一极点和第二极点，确定嘴巴的张开角度。

示例性地，相互垂直的两个方向例如可以包括嘴巴的两个嘴角之间的连线所在的第一方向，以及上嘴唇的唇沟与下嘴唇的颏唇沟之间的连线所在的第二方向。

示例性地，如图6所示的实施例600，前述人脸图像中的多个第一关键点中，定位嘴巴的14个第一关键点例如可以包括关键点601～614。或者，该关键点601～614也可以为通过嘴巴关键点检测模型检测得到的14个第二关键点。根据针对嘴巴的14个关键点，可以确定14个关键点中针对嘴巴的极点包括在第一方向上的第一极点601和第一极点605，以及在第二方向上的第二极点603和第二极点607。其中，第一极点601和第一极点605为指示两个嘴角的位置的两个关键点，第二极点603为指示上嘴唇的唇沟的位置的关键点，第二极点607为指示颏唇沟的位置的关键点。如图6所示，若以A₂表示第一极点601，以D₂表示第一极点605，以B₂表示第二极点603，以C₂表示第二极点607，则可以确定嘴巴的张开角度为B₂与A2的连线及C₂与A₂的连线之间的夹角∠B₂A₂C₂，或者，可以确定嘴巴的张开角度为B₂与D₂的连线及C₂与D₂的连线之间的夹角∠B₂D₂C₂。其中，夹角∠B₂A₂C₂或夹角∠B₂D₂C₂的角度值可以采用余弦定理来确定，以下以确定夹角∠B₂A₂C₂的角度值为例进行说明。形成∠B₂A₂C₂的两个边的长度及∠B₂A₂C₂所对的边的长度可以根据A₂、B₂、C₂的坐标值来确定，则∠B₂A₂C₂的角度值可以通过以下公式来确定。

可以理解的是，在关键点601～614为从第一关键点中筛选得到时，A₂、B₂、C₂的坐标值即为该三个关键点在基于人脸图像的坐标系中的坐标值。在关键点601～614为从第二关键点时，A₂、B₂、C₂的坐标值即为该三个第二关键点在基于嘴巴图像的坐标系中的坐标值。

图7是根据本申请实施例的确定瞳孔与对应眼睛的中心点之间的距离的原理示意图。

根据本申请的实施例，确定瞳孔与对应的眼睛中心点的距离的操作例如可以先根据多个第一关键点，确定针对瞳孔的关键点以及针对瞳孔对应眼睛的极点，该极点包括在相互垂直的两个方向上的第一极点和第二极点。随后根据第一极点和第二极点，确定瞳孔对应眼睛的中心点。最后确定针对瞳孔的关键点与瞳孔对应眼睛的中心点之间的距离。

示例性地，如图7所示的实施例700，前述人脸图像中的多个第一关键点中，定位眼睛的7个第一关键点例如可以包括关键点711～719。或者，该关键点711～719也可以为通过眼睛关键点检测模型检测得到的9个第二关键点。该定位眼睛的关键点中，包括针对瞳孔的关键点719。采用前文类似的方式可以确定瞳孔对应眼睛的极点包括第一极点711、第一极点715、第二极点713和第二极点717。如图7所示，可以以A₃表示第一极点711，以D₃表示第一极点715，以B₃表示第二极点713，以C₃表示第二极点717，以M表示定位瞳孔的关键点，以N表示瞳孔对应眼睛的中心点。其中，设定第一极点711的坐标值为A₃(x₁，y₁)，第一极点715的坐标值为D₃(x₂，y₂)，第二极点713的坐标值为B₃(x₃，y₃)，以及第二极点717的坐标值为D₃(x₄，y₄)，则确定瞳孔对应眼睛的中心点N的坐标值N(x_n，y_n)中的x_n和y_n可以采用以下公式确定。

相应地，针对瞳孔的关键点与瞳孔对应眼睛的中心点之间的距离可以为点N与点M之间的直线距离。若该直线距离大于预设距离，则确定用户未注视前方。

根据本申请的实施例，在得到针对瞳孔的关键点与瞳孔对应眼睛的中心点之间的距离后，在确定用户的驾驶状态时，可以先确定针对瞳孔的关键点与对应眼睛的中心点的距离在相互垂直的两个方向中各方向的投影距离。然后在投影距离大于预设值的情况下，确定驾驶状态为注意力分散状态。其中，预设值为投影距离所在方向上瞳孔对应眼睛的宽度的预设比例。

示例性地，如图7所示，将点M与点N之间的连线在相互垂直的两个方向中的各方向进行投影。则在第一极点711和第一极点715的连线所在方向上投影得到的第一投影距离为L₁，在第二极点713和第二极点717的连线所在方向上投影得到的第二投影距离为L₂。在得到两个投影距离后，例如可以判断第一投影距离L₁是否大于第一极点711与第一极点715之间距离的预设比例，判断第二投影距离L₂是否大于第二极点713与第二极点717之间距离的预设比例。若大于预设比例，则可以确定用户的注意力被除车辆前方外其他方向的物体或风景吸引，确定用户的驾驶状态为注意力分散状态。该实施例中，通过将投影距离与投影距离所在方向上眼睛的宽度进行比对，来确定用户的驾驶状态，相较于仅根据针对瞳孔的关键点与瞳孔对应眼睛的中心点之间的距离是否大于预设距离的技术方案，可以提高确定的驾驶状态的精度。

图8是根据本申请实施例的监控驾驶状态的装置的结构框图。

如图8所示，该实施例的监控驾驶状态的装置800例如可以包括图像获取模块820、图像识别模块840、部位状态确定模块860和驾驶状态确定模块880。

图像获取模块820用于获取用户的人脸图像。在一实施例中，该图像获取模块820例如可以用于执行前文描述的图2中的操作S220，在此不再赘述。

图像识别模块840用于识别人脸图像，得到人脸图像中的多个第一关键点。在一实施例中，该图像识别模块840例如可以用于执行前文描述的图2中的操作S240，在此不再赘述。

部位状态确定模块860用于根据多个第一关键点，确定目标部位的状态信息。其中，目标部位的状态信息包括以下至少之一：眼睛的张开角度、瞳孔与对应眼睛的中心点之间的距离、嘴巴的张开角度。在一实施例中，该部位状态确定模块860例如可以用于执行前文描述的图2中的操作S260，在此不再赘述。

驾驶状态确定模块880用于根据所述目标部位的状态信息确定所述用户的驾驶状态。在一实施例中，该驾驶状态确定模块880例如可以用于执行前文描述的图2中的操作S280，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是用来实现本申请实施例的监控驾驶状态的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备900包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的监控驾驶状态的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的监控驾驶状态的方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的监控驾驶状态的方法对应的程序指令/模块(例如，附图8所示的图像获取模块820、图像识别模块840、部位状态确定模块860和驾驶状态确定模块880)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的监控驾驶状态的方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据适于执行监控驾驶状态的方法的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至适于执行监控驾驶状态的方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

执行监控驾驶状态的方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与执行监控驾驶状态的方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，电子设备通过检测人脸图像的关键点能够确定用户的驾驶状态，由于关键点提取的准确性高，且通过量化的目标部位的状态信息来确定驾驶状态，因此相较于采用分类器确定驾驶状态的方法，可以有效提高监控驾驶状态的准确性，并使得该电子设备执行的监控驾驶状态的方法可以适用于任意的场景，提高监控方法的鲁棒性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种监控驾驶状态的方法，包括：

获取用户的人脸图像；

识别所述人脸图像，得到所述人脸图像中的多个第一关键点；

根据所述多个第一关键点，确定目标部位的状态信息；以及

根据所述目标部位的状态信息确定所述用户的驾驶状态，

其中，所述目标部位的状态信息包括以下至少之一：眼睛的张开角度、瞳孔与对应眼睛的中心点之间的距离、嘴巴的张开角度。

2.根据权利要求1所述的方法，其中，所述根据多个第一关键点，确定目标部位的状态信息包括：

根据所述多个第一关键点，确定所述目标部位在所述人脸图像中的目标区域；

采用目标部位关键点检测模型检测所述目标区域，得到针对所述目标部位的第二关键点；以及

根据针对所述目标部位的第二关键点，确定所述目标部位的状态信息。

3.根据权利要求1所述的方法，其中，所述根据所述目标部位的状态信息确定所述用户的驾驶状态包括：

根据通过实时采集到的多个人脸图像确定的目标部位的多个状态信息，确定所述驾驶状态。

4.根据权利要求3所述的方法，其中，所述多个人脸图像中相邻两张图像采集得到的间隔时长相等，且所述间隔时长大于采集所述人脸图像的周期。

5.根据权利要求1所述的方法，其中，识别所述人脸图像包括：

采用深度学习模型检测得到所述人脸图像中的人脸框；以及

基于所述人脸框，采用人脸关键点检测模型检测得到所述多个第一关键点。

6.根据权利要求1～5中任一项所述的方法，其中，在所述状态信息包括眼睛的张开角度和嘴巴的张开角度的情况下，所述根据所述多个第一关键点，确定目标部位的状态信息包括：

根据所述多个第一关键点，确定针对所述目标部位的极点，所述极点包括在相互垂直的两个方向上的第一极点和第二极点；以及

根据所述第一极点和所述第二极点，确定所述目标部位的张开角度。

7.根据权利要求1～5中任一项所述的方法，其中，在所述状态信息包括瞳孔与对应的眼睛中心点的距离的情况下，所述根据所述多个第一关键点，确定目标部位的状态信息包括：

根据所述多个第一关键点，确定针对所述瞳孔的关键点以及针对所述瞳孔对应眼睛的极点，所述极点包括在相互垂直的两个方向上的第一极点和第二极点；

根据所述第一极点和所述第二极点，确定所述瞳孔对应眼睛的中心点；以及

确定针对所述瞳孔的关键点与所述瞳孔对应眼睛的中心点之间的距离。

8.根据权利要求1所述的方法，其中，所述根据所述目标部位的状态信息确定所述用户的驾驶状态包括：

确定所述瞳孔与对应眼睛的中心点的距离在相互垂直的两个方向中各方向的投影距离；以及

在所述投影距离大于预设值的情况下，确定所述驾驶状态为注意力分散状态，

其中，所述预设值为所述投影距离所在方向上所述瞳孔对应眼睛的宽度的预设比例。

9.根据权利要求1所述的方法，其中，根据所述目标部位的状态信息确定所述用户的驾驶状态包括以下至少之一：

在所述目标部位的状态信息包括眼睛的张开角度的情况下，在所述眼睛的张开角度小于第一预设角度时，确定所述驾驶状态为疲劳驾驶状态；

在所述目标部位的状态信息包括嘴巴的张开角度的情况下，在所述嘴巴的张开角度大于等于第二预设角度时，确定所述驾驶状态为疲劳驾驶状态。

10.一种监控驾驶状态的装置，包括：

图像获取模块，用于获取用户的人脸图像；

图像识别模块，用于识别所述人脸图像，得到所述人脸图像中的多个第一关键点；

部位状态确定模块，用于根据所述多个第一关键点，确定目标部位的状态信息；以及

驾驶状态确定模块，用于根据所述目标部位的状态信息确定所述用户的驾驶状态，

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～9中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1～9中任一项所述的方法。