CN114550146A

CN114550146A - 图像处理方法、装置、设备及计算机存储介质

Info

Publication number: CN114550146A
Application number: CN202210173966.XA
Authority: CN
Inventors: 王珂尧
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-05-27

Abstract

本公开提供了图像处理方法、装置、设备及计算机存储介质，涉涉及计算机技术领域，尤其涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于智能交通、自动驾驶等场景。具体实现方案为：获取多张图像帧；提取所述多张图像帧中的脸部区域；根据所述多张图像帧中的脸部区域的时间特征和空间特征，获得驾驶状态分析结果。本公开实施例有助于提高道路交通的安全性。

Description

图像处理方法、装置、设备及计算机存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于智能交通、自动驾驶等场景。

背景技术

随着计算机技术的发展，在人们生活的多种场景，都有计算机技术的参与，这也使得人们衣食住行的方方面面都得到显著的改善。比如在交通场景下，由于电子监控的设置，能够对还原突发事件起到关键作用，保障道路交通参与者们的正当权益的同时，对不安全事件还能够起到广义的预防作用。

同时，在交通场景下，安全始终是首要原则和前提，如何利用计算机技术，进一步改善交通安全性，也是技术发展的大方向。

发明内容

本公开提供了一种图像处理方法、装置、设备及计算机存储介质。

根据本公开的一方面，提供了一种图像处理方法，包括：

获取多张图像帧；

提取多张图像帧中的脸部区域；

根据获取所述多张图像帧中的脸部区域的空间时间特征和特征；

基于所述空间特征，获取所述多张图像帧中的脸部区域的空间时间特征，；

根据所述时间特征和所述空间特征，获得驾驶状态分析结果。

根据本公开的另一方面，提供了一种图像处理装置，包括：

图像帧获取模块，用于获取多张图像帧；

脸部区域提取模块，用于提取多张图像帧中的脸部区域；

空间特征模块，用于获取所述多张图像帧中的脸部区域的空间特征；

时间特征模块，用于基于所述空间特征，获取所述多张图像帧中的脸部区域的时间特征；

结果获得模块，用于根据所述时间特征和所述空间特征，获得驾驶状态分析结果。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术，能够根据多张图像帧中的脸部区域，进行脸部区域的时空信息。从而在非正常驾驶的状态下，有利于根据驾驶状态分析结果进行及时必要的调整，也有利于在驾驶结束后对驾驶过程进行客观的评估，对交通场景下的不安全事件能够起到良好的预防或者还原作用。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例图像处理方法的示意图；

图2是根据本公开另一实施例图像处理方法的示意图；

图3是根据本公开又一实施例的图像处理方法示意图；

图4是根据本公开一示例的图像处理方法示意图；

图5是根据本公开一实施例的图像处理装置示意图；

图6是根据本公开另一实施例的图像处理装置示意图；

图7是根据本公开又一实施例的图像处理装置示意图；

图8是根据本公开又一实施例的图像处理装置示意图；

图9是用来实现本公开实施例的图像处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

保证交通安全，驾驶员是关键因素。驾驶员的驾驶状态对交通事故的规避起着决定性的作用。因此，在驾驶、行车场景下，某些状态需要坚决避免，比如疲劳驾驶等危险驾驶行为。而通过本公开的技术，能够利用个人计算机、服务器、移动终端、车载电脑、可穿戴式智能设备等装置，对驾驶状态进行监测，从而在监测到需要注意或避免的危险状态时，能够及时针对监测结果采取规避措施。本公开实施例提供的图像处理方法，如图1所示，包括：

步骤S11：获取多张图像帧；

步骤S12：提取多张图像帧中的脸部区域；

步骤S13：根据多张图像帧中的脸部区域的时间特征和空间特征，获得驾驶状态分析结果。

本实施例中，图像帧可以包括设置于车内、路侧等位置的监控装置拍摄的图像。多张图像帧，可以包括监控装置在不同时刻拍摄的多张图像。

图像帧还可以包括设置于车内、路侧等位置的拍摄装置拍摄的视频中截取的图像帧。

本实施例中，提取多张图像帧中的脸部区域，可以是提取多张图像帧中的至少一张图像帧的脸部区域。也可以是提取多张图像帧中每张图像帧的脸部区域。甚至还可以是将多张图像帧进行特征合并，根据合并后的特征对应的图像，提取脸部区域。

提取每张图像帧中的脸部区域，可以是提取图像帧中的驾驶员的脸部区域的图像，或者提取驾驶员的脸部区域的所有信息。

在一种实施方式中，提取每张图像帧中的脸部区域，可以是对图像帧进行脸部识别，并对识别出的脸部进行判断，获取驾驶员的脸部区域。针对车辆内部的拍摄装置拍摄的图像帧，可以根据拍摄装置设置的位置、拍摄装置是否归属于驾驶员等信息，在图像帧中的多个脸部区域中，确定属于驾驶员的脸部区域。针对车辆外部的拍摄装置拍摄的图像帧，可以根据图像中车辆玻璃的位置、拍摄角度等信息，在图像帧中的多个脸部区域中，确定属于驾驶员的脸部区域。

在一种可能的实现方式中，车辆可能处于自动驾驶的状态。这种情况下，可将处于驾驶位置的人员默认为驾驶员。

在另一种可能的实现方式中，车辆也可能处于远程驾驶的状态。这种情况下，可将远程控制端对应的远程驾驶员的脸部区域的信息，作为图像帧中需要提取的脸部区域的信息。

在另一种可能的实现方式中，若驾驶员以将头部脱离驾驶空间的方式实行危险驾驶，则可能在图像帧中难以检测到脸部特征，针对这种情况，若车辆未处于自动驾驶状态，则可根据拍摄装置设置的位置、驾驶位与拍摄装置的相对位置或者图像帧中车辆角度等信息，确定图像帧中的默认区域为脸部区域。

在一种可能的实现方式中，提取图像帧中的脸部区域之前，可先确定目标车辆处于行驶状态。

本实施例中，根据多张图像帧中的脸部区域的时间特征和空间特征，获得驾驶状态分析结果，可以包括根据多张图像帧中的脸部区域的时间特征，以及多张图像帧中每张图像帧的脸部区域的空间特征，获得驾驶状态分析结果。

根据多张图像帧中的脸部区域的时间特征和空间特征，获得驾驶状态分析结果，可以包括根据时间特征和空间特征结合的时空特征，获得驾驶状态分析结果。

本实施例中，多张图像帧中的脸部区域的时间特征，可以是多张图像帧中的脸部区域的时间维度的特征。多张图像帧中的人脸的空间特征可以是多张图像帧中的脸部区域的时间维度的特征。

驾驶状态分析结果，可以是疲劳驾驶状态分析结果、危险驾驶状态分析结果等中的至少一种，也可以包括是否为正常驾驶状态的结论。

本实施例中，能够根据多张图像帧中的脸部区域，进行脸部区域的时空信息。从而在非正常驾驶的状态下，有利于根据驾驶状态分析结果进行及时必要的调整，也有利于在驾驶结束后对驾驶过程进行客观的评估，对交通场景下的不安全事件能够起到良好的预防或者还原作用。

在一种实施方式中，获取多张图像帧，包括：

根据与提取时间特征的操作对应的时长和预设的提取数量，确定提取间隔；

按照提取间隔，提取多张图像帧。

本实施例中，时长可以是预设的时长，比如1秒。时长可以根据视频的拍摄或者获取途径、参数、处理图像的需要等因素进行确定。

由于本公开所提供的方法可以部署于车机系统中，而车机系统算力有限，难以处理数量较多的图像帧。而图像帧之间的时间间隔过多，则可能会导致难以提取到有效的时间特征。因此，在本实施例中，可以预先设置提取数量以及提取时长，以保证能够提取到有效的时间特征。通过提取时长对应的图像帧的总数量，除以提取数量，将得到的帧数作为提取间隔。

在另一种可能的实现方式中，可以设置第一数值作为提取间隔，提取间隔用于指示间隔提取图像帧的帧数。比如，提取间隔为2，则表明每隔2个图像帧，提取一个图像帧，用于驾驶员行为分析。

根据与提取时间特征的操作对应的时长和预设的提取数量，确定提取间隔，可以是将时长除以提取数量，得到的时间作为提取间隔。

在其它实现方式中，可以设置第二数值作为提取间隔，提取间隔用于指示间隔提取图像帧的时间。比如，设置0.1秒(或者0.0001-1之间的任意数值)作为提取间隔，则表明每隔0.1秒提取一帧图像帧。

在一种具体实现方式中，可以设置间隔1帧或2帧提取一张图像帧，可连续提取8(或者5-20)帧，作为多张图像帧。

由于疲劳驾驶(闭眼、打哈欠)、或危险驾驶等非正常驾驶常常会发生持续动作，很难通过某一帧图像准确判断。本实施例中，能够间隔提取图像帧，从而能够从较少数量的图像帧中获得足够的时间信息，同时使得本方法能够在计算能力有限的车辆终端一侧实现。

在一种实施方式中，提取多张图像帧中的脸部区域，如图2所示，包括针对每张图像帧执行的下述步骤：

步骤S21：在图像帧中，确定第一人脸框；

步骤S22：在第一人脸框对应的区域，确定人脸特征点；

步骤S23：根据人脸特征点，确定第二人脸框；

步骤S24：将第二人脸框对应的区域作为脸部区域。

本实施例中，在图像帧中，确定第一人脸框，可以是在图像帧中进行人脸检测，生成至少一个人脸框，从至少一个人脸框中确定驾驶员对应的人脸框，作为第一人脸框。

在另一种可能的实现方式中，在图像帧中，确定第一人脸框，可以是在图像帧中进行人脸检测，在检测不到人脸的情况下，根据图像帧获取装置设置的位置与驾驶位的位置的相对关系，或者根据图像帧中的车辆位姿与驾驶员脸部图像可能存在的位置的相对关系，确定一个预估区域作为脸部区域。

在第一人脸框对应的区域，确定人脸特征点，可以是在第一人脸框对应的图像帧的区域中，进行人脸特征点检测，确定至少一个人脸特征点。

根据人脸特征点，确定第二人脸框，可以是根据人脸特征点重新生成人脸框，作为第二人脸框。

本实施例中，首先生成第一人脸框，再根据第一人脸框确定人脸特征点，根据人脸特征点生成第二人脸框，根据第二人脸框得到脸部区域，从而提高获取的脸部区域的准确性。

在一种实施方式中，根据多张图像帧中的脸部区域的时间特征和空间特征，获得驾驶状态分析结果，如图3所示，包括：

步骤S31：根据多张图像帧中的脸部区域，确定空间特征；

步骤S32：根据空间特征和多张图像帧中的脸部区域，确定时空特征，时空特征包括时间特征和空间特征；

步骤S33：根据空间特征和时间特征，获得驾驶状态分析结果。

本实施例中，根据多张图像帧中的脸部区域，确定空间特征，可以是针对多张图像帧中每张图像帧的脸部区域，确定空间特征。或者可以是针对多张图像帧中的至少一张图像帧的脸部区域，确定空间特征。或者可以是针对多张图像帧重叠或者融合形成的重叠图像或者融合图像，确定空间特征。

根据空间特征和多张图像帧中的脸部区域，确定时空特征，可以是结合多张图像帧中任意一张图像帧的脸部区域的空间特征，和多张图像帧中的脸部区域，确定时间特征，与空间特征融合构成时空特征。或者可以是将所有图像帧中的脸部区域的空间特征和多张图像帧的脸部区域输入已有模型，获得模型输出结果，其中输出结果包括多张图像帧的脸部区域的时间特征，或者包括多张图像帧中至少一张图像帧的脸部区域的时间特征。

根据空间特征和多张图像帧中的脸部区域，确定时空特征，还可以是根据多张图像帧中的脸部区域，同时确定时空特征中的时间特征和空间特征。

根据空间特征和时间特征，获得驾驶状态分析结果，可以是根据至少一张图像帧的脸部区域的时间特征和至少一张图像帧的脸部区域的空间特征，获得驾驶状态分析结果。

本实施例中，能够根据脸部区域获得空间特征，再确定时空特征，从而可以在通过获得空间特征的过程，降低时间特征和空间特征的获得的总过程的算力要求和计算资源要求，提高处理资源利用效率。

在一种实施方式中，根据多张图像帧中的脸部区域，确定空间特征，包括：

利用第一设定数量的二维卷积神经网络层，对多张图像帧中的脸部区域进行计算，获得第一输出结果；

根据第一输出结果确定空间特征。

本实施例中，第一设定数量可以取经验值。

本实施例中，二维卷积神经网络可以是一维卷积神经网络的扩展。核心运算可以包括二维反转、移动、乘积和求和。一维卷积神经网络可以为包含一个卷积核的神经网络。

本实施例中，根据第一输出结果确定空间特征，可以包括根据第一输出结果进行进一步处理，得到空间特征。也可以包括将第一输出结果作为空间特征。

本实施例中，能够利用二维卷积神经网络进行空间特征的提取，从而能够利用二维卷积神经网络节省算力的优势，降低整个驾驶状态分析结果对系统算力的要求。

在一种实施方式中，根据空间特征和多张图像帧中的脸部区域，确定时间特征，包括：

利用第二设定数量的三维卷积神经网络层，对空间特征和多张图像帧中的脸部区域进行计算，获得第二输出结果；

根据第二输出结果确定时间特征。

本实施例中，第二设定数量可以取经验值。

三维卷积神经网络层可以是包含三个卷积核的神经网络。

本实施例通过三维卷积神经网络获得时间特征，可以提高图像帧处理效果和准确性，且能够充分利用图像帧的脸部区域中的特征信息。

在一种实施方式中，根据空间特征和时间特征，获得驾驶状态分析结果，包括：

利用全连接层，对时空特征进行计算，获得第三输出结果；

根据第三输出结果确定驾驶状态分析结果。

全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用，实现对驾驶结果的分类，比如属于危险驾驶、疲劳驾驶、正常驾驶等。在实际使用中，全连接层可由卷积操作实现。

本实施例中，能够利用全连接层对融合时间信息和空间信息的图像特征进行计算，实现端到端的驾驶状态实时检验。

在一种实施方式中，驾驶状态分析结果，包括：疲劳驾驶、非疲劳驾驶、危险驾驶、非危险驾驶中的至少一种。

本实例中，疲劳驾驶可以是指驾驶员在长时间连续行车后，产生生理机能和/或心理机能的失调，而在客观上出现驾驶技能下降的现象。疲劳后继续驾驶车辆，会感到困倦瞌睡、注意力不集中、判断能力下降，出现动作迟误或过早，操作停顿或修正时间不当等不安全因素，极易发生道路交通事故。

本实施例中，能够检测出是否存在危险，从而能够在驾驶员的驾驶行为存在安全隐患时，及时感知，有助于在存在安全隐患的情况下，根据驾驶状态分析结果通知、提醒或者警示驾驶员或者其他相关人员，以便及时针对疲劳驾驶或者危险驾驶等道路交通安全隐患采取相应的应对措施。

在本公开一种示例中，图像处理方法的执行过程如图4所示。可以包括：

步骤S41：获得一系列间隔图像帧。

每次图像处理方法的执行过程中，可以取间隔的八帧(连续序列帧中每隔一帧取一帧，原因是如果每帧都取，8帧包含的时序信息不足以判断是否出现疲劳驾驶等异常行为)。

步骤S42：人脸检测。

本步骤中，对每张图像进行图像预处理，得到一张包含人脸的图像，即前述实施例中的第一人脸框区域对应的图像。

本步骤中，通过检测模型对人脸进行检测，得到人脸的大致位置区域；其中，检测模型为已有人脸检测模型，可以检测到人脸位置。

步骤S43：人脸关键点检测。

本步骤中，根据检测到的人脸区域，通过人脸关键点检测模型对人脸关键点进行检测得到人脸的关键点坐标值。

本示例中使用的人脸关键点检测模型为已有模型，调用已有模型，输入已检测到人脸的图像，得到72个人脸关键点坐标，分别为(x1,y1)…(x72,y72)。

本步骤中，还可进一步根据人脸的关键点坐标值对目标人脸进行人脸对齐得到人脸图像。

根据人脸图像可确定前述实施例中的脸部区域。具体做法为，根据72个人脸关键点坐标得到x和y的最大最小值x_min，x_max，y_min，y_max，根据最大最小值可以确定人脸框，然后用此人脸框截取人脸图像，并调整尺寸为224x224。

步骤S44：归一化处理。

本步骤中，将得到的包含人脸图像区域进行图像归一化处理。

本示例中，图像归一化处理，可以是图像中的每一个像素依次进行归一化处理。归一化处理的方法是：每个像素的像素值减128再除以256(或者使用其它合理的数值)，使每个像素的像素值在[-0.5,0.5]之间。将归一化处理后的图像进行随机数据增强处理。

步骤S45：获得驾驶状态分析结果。

由于3D(3Dimension，三维)卷积需要较高的算力，所以示例中可以使用的卷积神经网络可以为VGG系列神经网络(Visual Geometry Group，视觉集合小组11)，比如，VGG11(Visual Geometry Group11，视觉集合小组11)，或者还可以为2D(2Dimension，二维)与3D结合的改进型VGG11结构，其中前8(或者其它合理数值)个卷积层为2D卷积，后3(或者其它合理数值)个卷积层为3D卷积，在2D卷积提取图像帧的空间信息，3D卷积提取间隔帧图像的时序信息，最后经过全连接层端到端的得到驾驶员疲劳驾驶检测或分析结果。

一般情况下，如果手动提取特征结合分类器进行驾驶行为检测的做法准确率较低，鲁棒性较差。同时，使用单帧图像进行检测，算法稳定性较差，常出现结果跳变，难以满足实际场景需求。

本实例可以基于间隔的8帧图像，利用2D与3D卷积神经网络结合的方式提取多帧图像的时空信息，大大提升模型的准确率和鲁棒性，对图像中驾驶员驾驶过程中是否存在疲劳驾驶情况进行准确判断。

本公开实施例还提供一种图像处理装置，如图5所示，包括：

图像帧获取模块51，用于获取多张图像帧；

脸部区域提取模块52，用于提取所述多张图像帧中的脸部区域；

空间特征模块53，用于获取所述多张图像帧中的脸部区域的空间特征；

时间特征模块54，用于基于所述空间特征，获取所述多张图像帧中的脸部区域的时间特征；

结果获得模块55，用于根据所述时间特征和所述空间特征，获得驾驶状态分析结果。

在一种实施方式中，如图6所示，图像帧获取模块包括：

提取间隔确定单元61，根据与提取时间特征的操作对应的时长和预设的提取数量，确定提取间隔；

提取单元62，用于按照提取间隔，提取多张图像帧。

在一种实施方式中，如图7所示，脸部区域提取模块包括：

第一人脸框单元71，用于在图像帧中，确定第一人脸框；

人脸特征点单元72，用于在第一人脸框对应的区域，确定人脸特征点；

第二人脸框单元73，用于根据人脸特征点，确定第二人脸框；

脸部区域单元74，用于将第二人脸框对应的区域作为脸部区域。

在一种实施方式中，如图8所示，结果获得模块包括：

空间特征单元81，用于根据多张图像帧中的脸部区域，确定空间特征；

时空特征单元82，用于根据空间特征和多张图像帧中的脸部区域，确定时空特征，时空特征包括时间特征和空间特征；

结果单元83，用于根据空间特征和时间特征，获得驾驶状态分析结果。

在一种实施方式中，空间特征单元还用于：

根据第一输出结果确定空间特征。

在一种实施方式中，时空特征单元还用于：

根据第二输出结果确定时空特征。

在一种实施方式中，结果单元还用于：

利用全连接层，对时空特征进行计算，获得第三输出结果；

根据第三输出结果确定驾驶状态分析结果。

本公开一种具体示例中，图像检测装置可以包括人脸检测模块、人脸关键点检测模块以及2D与3D结合的卷积神经网络模块组成。

本公开实施例提供的图像处理方法和装置，能够大大提升模型的准确率和鲁棒性，对图像中驾驶员驾驶过程中是否存在疲劳驾驶情况进行准确判断。

本发明应用在车联网、自动驾驶、辅助驾驶等领域。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如图像处理方法。例如，在一些实施例中，图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的图像处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像处理方法，包括：

获取多张图像帧；

提取所述多张图像帧中的脸部区域；

获取所述多张图像帧中的脸部区域的空间特征；

基于所述空间特征，获取所述多张图像帧中的脸部区域的时间特征；

2.根据权利要求1所述的方法，其中，所述获取多张图像帧，包括：

根据与提取所述时间特征的操作对应的时长和预设的提取数量，确定提取间隔；

按照所述提取间隔，提取多张图像帧。

3.根据权利要求1或2所述的方法，其中，所述提取所述多张图像帧中的脸部区域，包括针对每张图像帧执行的下述步骤：

在所述图像帧中，确定第一人脸框；

在所述第一人脸框对应的区域，确定人脸特征点；

根据所述人脸特征点，确定第二人脸框；

将所述第二人脸框对应的区域作为所述脸部区域。

4.根据权利要求3所述的方法，其中，所述根据所述多张图像帧中的脸部区域，确定空间特征，包括：

利用第一设定数量的二维卷积神经网络层，对所述多张图像帧中的脸部区域进行计算，获得第一输出结果；

根据所述第一输出结果确定所述空间特征。

5.根据权利要求4所述的方法，其中，所述基于所述空间特征，获取所述多张图像帧中的脸部区域的时间特征，包括：

利用第二设定数量的三维卷积神经网络层，对所述空间特征和所述多张图像帧中的脸部区域进行计算，获得第二输出结果；

根据所述第二输出结果确定所述时间特征。

6.根据权利要求1-5中任意一项所述的方法，其中，所述根据所述空间特征和所述时间特征，获得驾驶状态分析结果，包括：

利用全连接层，对所述时间特征和所述空间特征进行计算，获得第三输出结果；

根据所述第三输出结果确定所述驾驶状态分析结果。

7.根据权利要求1-6中任意一项所述的方法，其中，所述驾驶状态分析结果，包括：疲劳驾驶、非疲劳驾驶、危险驾驶、非危险驾驶中的至少一种。

8.一种图像处理装置，包括：

图像帧获取模块，用于获取多张图像帧；

脸部区域提取模块，用于提取所述多张图像帧中的脸部区域；

9.根据权利要求8所述的装置，其中，所述图像帧获取模块包括：

提取间隔确定单元，根据与提取所述时间特征的操作对应的时长和预设的提取数量，确定提取间隔；

提取单元，用于按照所述提取间隔，提取多张图像帧。

10.根据权利要求8或9所述的装置，其中，所述脸部区域提取模块包括：

第一人脸框单元，用于在所述图像帧中，确定第一人脸框；

人脸特征点单元，用于在所述第一人脸框对应的区域，确定人脸特征点；

第二人脸框单元，用于根据所述人脸特征点，确定第二人脸框；

脸部区域单元，用于将所述第二人脸框对应的区域作为所述脸部区域。

11.根据权利要求10所述的装置，其中，所述空间特征单元还用于：

根据所述第一输出结果确定所述空间特征。

12.根据权利要求11所述的装置，其中，所述时空特征单元还用于：

根据所述第二输出结果确定所述时空特征。

13.根据权利要求8-12中任意一项所述的装置，其中，所述结果单元还用于：

利用全连接层，对所述时空特征进行计算，获得第三输出结果；

根据所述第三输出结果确定所述驾驶状态分析结果。

14.根据权利要求8-13中任意一项所述的装置，其中，所述驾驶状态分析结果，包括：疲劳驾驶、非疲劳驾驶、危险驾驶、非危险驾驶中的至少一种。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。