CN113469023A

CN113469023A - 确定警觉度的方法、装置、设备和存储介质

Info

Publication number: CN113469023A
Application number: CN202110730739.8A
Authority: CN
Inventors: 冯博豪; 陈禹燊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-10-01
Anticipated expiration: 2041-06-28
Also published as: CN113469023B

Abstract

本公开提供了一种确定警觉度方法，涉及人工智能领域，尤其涉及计算机视觉和深度学习技术领域。具体实现方案为：响应于在视频图像的目标图像帧中检测到目标用户图像，提取目标图像中的多个目标特征；基于多个目标特征进行眼部动作分析，得到第一疲劳度信息；基于多个目标特征进行嘴部动作分析，得到第二疲劳度信息；基于第一疲劳度信息和第二疲劳度信息，确定目标用户的警觉度。本公开还提供了一种确定警觉度的装置、一种电子设备、一种存储有计算机指令的非瞬时性计算机可读存储介质以及一种计算机程序产品。

Description

确定警觉度的方法、装置、设备和存储介质

技术领域

本公开涉及人工智能领域，尤其涉及计算机视觉和深度学习技术领域。具体涉及一种确定警觉度的方法、装置、设备和存储介质。

背景技术

警觉度通常定义为，对外界刺激长时间保持注意力和警惕性的能力。一些特殊的工作，如空中管制中心的管制员、飞行员和驾驶员等，对警觉度的要求尤其严格。如何对人的警觉度进行精确估计，实时地监测人的警觉度是非常重要的内容。

发明内容

本公开提供了一种确定警觉度的方法、装置、设备、存储介质以及计算机程序产品。

根据本公开的一方面，提供了一种确定警觉度的方法，包括：响应于在视频图像的目标图像帧中检测到目标用户图像，提取上述目标用户图像中的多个目标特征；基于上述多个目标特征进行眼部动作分析，得到第一疲劳度信息；基于上述多个目标特征进行嘴部动作分析，得到第二疲劳度信息；基于第一疲劳度信息和第二疲劳度信息，确定目标用户的警觉度。

根据本公开的另一方面，提供了一种确定警觉度的装置，包括：第一提取模块，用于响应于在视频图像的目标图像帧中检测到目标用户图像，提取目标用户图像中的多个目标特征；第一分析模块，用于基于上述多个目标特征进行眼部动作分析，得到第一疲劳度信息；第二分析模块，用于基于上述多个目标特征进行嘴部动作分析，得到第二疲劳度信息；第一确定模块，用于基于第一疲劳度信息和第二疲劳度信息，确定目标用户的警觉度。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行本公开实施例提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行本公开实施例提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现本公开实施例提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一个实施例的可以应用确定警觉度的方法或/和装置的示例性系统架构示意图；

图2是根据本公开一个实施例的确定警觉度的方法的流程图；

图3是根据本公开另一个实施例的确定警觉度的方法的流程图；

图4是根据本公开另一个实施例的确定警觉度的方法的流程图；

图5是根据本公开另一个实施例的确定警觉度的方法的流程图；

图6是根据本公开另一个实施例的确定警觉度的方法的示意流程图；

图7是根据本公开另一个实施例的确定警觉度的方法的示意流程图；

图8是根据本公开一个实施例的确定警觉度的模型示意图；

图9是根据本公开一个实施例的确定警觉度的装置的框图；以及

图10示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

操作人员，例如空中管制中心的管制员、飞机的飞行员和机动车的驾驶员等等，在操作过程中需要保持较高的警觉度。

目前，在操作人员在进行相应操作时，监控系统可以记录操作人员的状态。但现有的监控系统仅具有记录功能，不能根据监控到的内容分析操作人员实时的警觉度，无法实时地与操作人员进行交互，不能在事故发生前提供预警，仅能在事故发生后为事故证据采集提供帮助。

图1是根据本公开一个实施例的可以应用确定警觉度的方法或/和装置的示例性系统架构示意图。

如图1所示，该系统架构100包括数据获取模块101和分析模块102。数据获取模块101采集操作人员的执行操作时的视频或语音数据，分析模块根据数据获取模块101获取的数据进行分析，判断用户的警觉度。在用户警觉度较低不佳时，分析模块102可以生成提示信息。

数据获取模块101可以是布置在操作人员附近的摄像头或者麦克风，例如布置在机动车内部的摄像头或者麦克风，经用户授权后可以采集用户的视频或音频数据；例如布置在交通信号灯附近的摄像头。

分析模块102可以布置在本地，例如布置在机动车内部且与机动车内部摄像头连接的电子设备。分析模块102也可以布置在服务器，例如布置在可以与数据获取模块101通信的服务器或者服务器集群上。

图2是根据本公开一个实施例的确定警觉度的方法的流程图。

如图2所示，该确定警觉度的方法200可以包括操作S210～操作S240。

在操作S210，响应于在视频图像的目标图像帧中检测到目标用户图像，提取目标图像中的多个目标特征。

根据本公开实施例，目标用户图像可以是操作人员的整体图像，也可以是操作人员的局部图像。

例如，目标用户图像可以是机动车驾驶员脸部的图像。例如，可以采用MTCNN(Multi-Task Convolutional Neural Network，多任务卷积神经网络)算法检测机动车驾驶员脸部的图像。MTCNN采用了三个级联的网络，分别是P-Net(Proposal Network，建议网络)、R-Net(Refine Network，优化网络)和O-Net(Output Network，输出网络)。P-Net是一种全卷积网络，用于生成多个候选窗和边框回归向量，并使用边框回归向量来校正候选框，并使用非极大值抑制(Non-Maximum Suppression，NMS)算法来合并重叠的候选框。R-Net负责检测出目标图像的候选框，即负责对P-Net检测得到的候选框进行精调，拒绝大部分false的候选框，并继续使用边框回归向量和NMS进行边框合并。O-Net负责输出最后的目标图像检测框和其对应的特征点位置。

根据本公开实施例，可以对目标图像进行器官检测，获取目标用户图像中操作人员各器官所在的区域。

例如，可以对机动车驾驶员脸部的图像进行器官检测，获取眼部或/和嘴部所在的区域。例如，可以采用TCDCN(Tasks-Constrained Deep Convolutional Network，任务约束的深度卷积网络)进行关键点检测，获取目标图像中各个器官的位置。TCDCN利用多个卷积层和池化层来完成目标图像关键点(例如眼睛、鼻子及嘴巴等)的检测。

在操作S220，基于上述多个目标特征进行眼部动作分析，得到第一疲劳度信息。

根据本公开实施例，第一疲劳度信息可以表征预定时段内闭眼的次数或时长。

例如，根据眼部动作分析的结果，可以确定闭眼的次数或者闭眼的时长，即第一疲劳度信息。闭眼次数越多或者闭眼的时间越长则表明用户越疲劳。

在操作S230，基于上述多个目标特征进行嘴部动作分析，得到第二疲劳度信息。

根据本公开实施例，第二疲劳度信息可以表征预定时段内嘴部张开的时长或张开的次数。

例如，根据嘴部动作分析的结果，可以确定预定时段内嘴巴张开的次数或者嘴巴张开的时长，即第二疲劳度信息。嘴巴张开次数越多或者嘴巴张开的时间越长表明用户打哈欠的概率越高，也就表明用户越疲劳。

根据本公开实施例，可以利用训练好的哈欠检测模型直接获取用户打哈欠的概率。

例如，哈欠检测模型可以是基于YOLO(You Only Look Once)目标检测模型训练得到的。可以根据该哈欠检测模型获取用户打哈欠的第一概率P1。

在操作S240，基于第一疲劳度信息和第二疲劳度信息，确定目标用户的警觉度。

根据本公开实施例，在确定警觉度低于预定阈值的情况下，提示用户。

例如，可以发出语音提示，提示用户停止操作。例如，向用户的关联人员，例如用户的上级管理人员或者用户的亲属发出提示信息，以采取相应措施，例如促使用户停止操作。

通过本公开实施例，以视频中目标图像帧为数据来源，提升了图像数据处理效率和目标监控的准确性。同时考虑到眼部信息和嘴部信息，来确定例如驾驶员的用户的疲劳状态，并根据疲劳信息得到警觉度，提高了警觉度检测的精准度。

图3是根据本公开另一个实施例的确定警觉度的方法的流程图。

如图3所示，该确定警觉度的方法300可以在例如图2所示的操作S210之后执行。在操作S210中，响应于在视频图像的目标图像帧中检测到目标用户图像，提取目标用户图像中的多个目标特征。

该确定警觉度的方法300可以基于上述多个目标特征进行眼部动作分析，得到第一疲劳度信息。下面将参考下述操作S321～S322进行详细说明。上述多个目标特征包括多个眼部特征点信息。

在操作S321，根据上述多个眼部特征点信息，确定眼部长宽比值。

例如，可以使用dlib库完成眼部特征点的检测，可以检测出6个眼部特征点。其中，dlib库是一个现代化的C++工具箱。根据6个眼部特征点，可以计算眼部长宽比(Eye AspectRatio，EAR)值，该值的分子表征眼睛的特征点在垂直方向上的距离，以及该值的分母表征眼睛的特征点在水平方向上的距离。

在操作S322，根据上述眼部长宽比值，确定上述第一疲劳度信息。

根据本公开实施例，在第一预定时段内，按照预设时间间隔在每个采集时间点采集对应的多个子眼部特征点信息，得到多个子眼部特征点信息集合。每个子眼部特征点信息集合中包括对应采集时间点采集到的多个子眼部特征点信息。

例如，在1分钟的视频图像内，从间隔2秒的目标图像帧中采集多个子眼部特征点信息。在一个示例中，可以从间隔2秒的目标图像帧中分别采集6个子眼部特征点信息，得到6个子眼部特征点信息集合。在一个示例中，一个子眼部特征点信息集合对应的多个子眼部特征点形成的区域中心可以作为眼部特征点。

根据本公开实施例，根据上述多个子眼部特征点信息集合，得到多个眼部长宽比值。

例如，可以利用dlib库，根据在一个采样时间点采集的6个子眼部特征点的信息，得到一个EAR值。进而，获取在第一预定时段内的多个EAR值。

根据本公开实施例，根据上述多个眼部长宽比值，确定上述第一疲劳度信息。

例如，如果EAR值长期处于低值状态，那么被监控者很可能一直处于疲惫状态。

再例如，如果例如1分钟的第一预定时段内采集的多个采集时间点对应的EAR值中，超过预设个数的EAR值处于低值状态(比如，小于预设值)，则确定用户处于疲惫状态。

该确定警觉度的方法300可以基于上述多个目标特征进行嘴部动作分析，得到第二疲劳度信息。下面将根据下述操作S331～操作S333进行详细说明。上述多个目标特征包括多个嘴部特征点信息。

在操作S331，在第二预定时段内，按照预设时间间隔在每个采集时间点采集多个子嘴部特征点信息，得到多个子嘴部特征点信息集合。每个子嘴部特征点信息集合中包括对应采集时间点采集到的多个子嘴部特征点信息。

例如，第二预定时段可以在第一预定时段之前，也可以在第一预定时段之后，也可以与第一预定时段为同一时段。

例如，在1分钟的视频图像内，每隔2秒从目标图像帧中采集多个子嘴部特征点信息。在一个示例中，每隔2秒分别采集多个子嘴部特征点信息，得到多个子嘴部特征点信息集合。在一个示例中，一个子嘴部特征点信息集合对应的多个子嘴部特征点形成的区域中心可以作为嘴部特征点。

在操作S332，根据上述多个子嘴部特征点信息集合，得到多个嘴部长宽比值。

例如，可以使用dlib库完成子脸部特征点的检测，根据子脸部特征点，可以确定嘴部长宽比值。在第二预定时段内，利用dlib库进行多次检测，进而得到多个嘴部长宽比值。

在操作S333，根据上述多个嘴部长宽比值，确定在上述第二预定时段内嘴部的张开时长。

例如，可以预设嘴部张开阈值，当连续地确定多个嘴部长宽比值均大于嘴部张开阈值时，可以将与这多个嘴部长宽比值对应的时长作为嘴部张开时长。即，如果在时间点t1检测到嘴部长宽比值大于嘴部张开阈值，在时间点t1至t1之后的时间点t2之间的连续多次确定的多个嘴部长宽比值均大于嘴部张开阈值，则可以将时长(t2-t1)确定为嘴部张开时长。

在操作S334，根据多个嘴部长宽比值和上述张开时长，确定上述第二疲劳度信息。

例如，嘴部长宽比值越大，且嘴部张开时间越长，可以认为用户越疲劳。同时，可以得到针对用户的另一个打哈欠的第二概率P2。

根据本公开实施例，根据上述第一概率P1和上述第二概率P2，确定上述第二疲劳度信息。

例如，根据第一概率和第二概率进行计算，根据计算得到的值评估第二疲劳度信息。用户除了在打哈欠是嘴巴会张开，在正常的说话过程中也不断的张开嘴巴，综合第一概率和第二概率，可以有效提高判断的准确率。

在执行操作S334之后，可以执行例如图2中的操作S240。在操作S240，基于第一疲劳度信息和第二疲劳度信息，确定警觉度。

例如，可以根据第一疲劳度信息f1以及第二疲劳度信息f2确定警觉度W_d1。在一个示例中，可以按照下式计算警觉度：

W_d1＝w1*f1+w2*f2 (1)

其中，w1和w2为预设的权重。在一个示例中，w1＝w2＝0.5。

在一个示例中，在归一化的第一疲劳度信息和第二疲劳度信息均在0～1的范围的情况下，可以设置预定阈值Th1为0.3。在警觉度低于预定阈值时提示用户。本领域技术人员可以理解，可以根据实际场景来设置w1、w2和预定阈值Th1，本公开不局限于上述示例。

通过本公开实施例，可以准确、有效地根据用户眼部和嘴部的特征，进而更加准确地判断用户的疲劳度。

图4是根据本公开一个实施例的确定警觉度的方法的流程图。

如图4所示，该确定警觉度的方法400可以在例如图2中操作S210之前执行，也可以在例如图2中的操纵S240之后执行，也可以与例如图2中的操作S210～操作S240并行执行。该确定警觉度的方法400可以包括操作S401～操作S406。

在操作S401，利用特征提取模型，提取上述视频图像中初始图像帧的初始特征向量。

例如，可以利用ResNet18模型进行特征提取，得到初始图像帧的初始特征向量。其中，在ResNet18模型中，共有17个卷积层和1个全连接层。

在操作S402，从上述视频图像中上述初始图像帧之后的N个图像帧，提取J个图像帧，其中，J为预设整数，N为大于等于J的整数。

例如，N＝20，J＝12，即对于上述视频图像中初始图像帧之后的20个图像帧，则，即从20个原始图像帧中提取了12个图像帧。在操作S403，利用上述特征提取模型分别提取上述J个图像帧的特征向量，得到J个特征向量。

例如，利用ResNet18模型分别提取J个图像帧的特征向量，可以得到J个特征向量。

在操作S404，根据上述初始特征向量与J个特征向量之间的距离，确定至少一个候选图像帧。

根据本公开实施例，根据上述初始特征向量与J个特征向量之间的欧式距离，确定至少一个候选图像帧。

例如，计算初始特征向量与J个特征向量的欧式距离后，将每个特征向量的欧式距离与预设阈值进行比较，小于预设阈值的特征向量对应的图像帧可以作为候选图像帧。

在操作S405，将至少一个候选图像帧中熵值最大的候选图像作为上述目标图像帧。

根据本公开实施例，上述候选图像帧中熵值可以为候选图像帧的二维图像熵值或三维图像熵值。

例如，选择与小于预设阈值的3个特征向量对应的图像帧为候选图像帧后，计算3个候选图像帧的二维图像熵或三维图像熵，取其中熵值最大的为目标图像帧。本领域技术人员可以理解，图像的熵值越大，包含的信息越多，也就更有利于提取出有效信息。

在操作S406，利用上述目标图像帧更新初始图像帧。

例如，可以将当前的目标图像帧作为新的初始图像帧，并返回S401继续筛选下一目标图像帧。

通过本公开实施例，可以持续地从视频中获取具有高信息量的目标图像帧，便于后续警觉度的确定。

图5是根据本公开另一个实施例的确定警觉度的方法的流程图。

如图5所示，该确定警觉度的方法550可以包括操作S551～操作S554。

在操作S551，对目标用户输入的语音信息执行语音识别，将语音信息转换为文本信息。

根据本公开实施例，可以在确定警觉度高于预定阈值的情况下，提示目标用户输入语音信息。例如，在警觉度较高时，发出输入语音信息的提示，例如“请问需要帮助吗”，然后根据用户反馈的语音信息进行识别。

根据本公开实施例，可以根据用户设置，定期获取语音信息。

例如，用户设置了每5分钟获取一次语音信息，那么可以根据每5分钟输入的语音信息进行识别。例如，用户可以授予随时获取语音信息权限，同时用户也可以随时取消相应的授权。

例如，可以使用ASR(Automatic Speech Recognition，语音识别)模型将语音信息转换为文本信息，提取出词向量。

在操作S552，提取输入的语音信息中的语音特征信息。

例如，可以提取输入的语音信息中的基于音频帧的低维特征。

在操作S553，根据上述文本信息和语音特征信息，确定上述语音信息所表征的情绪信息。

根据本公开实施例，可以采用RNN(Recurrent Neural Network，循环神经网络)模型根据上述词向量和上述基于音频帧的低维特征确定情绪信息。

例如，可以采用BiLSTM(Bi-directional Long Short-Term Memory，双向长短时记忆)模型将提取出的词向量进行高维特征表示，以及将基于音频帧的低维特征进行高维特征表示，然后基于注意力机制动态获取二者内部各个元素各自的权重，之后基于BiLSTM对加权求和后得到两个特征向量进行特征融合。融合的结果输入最大池化层后再输入全连接层，得到情绪信息。BiLSTM是一种循环神经网络。在一个示例中，可以在0～1范围内对情绪信息进行赋值。例如，情绪波动时赋值较低，比如愤怒、沮丧时，可以将情绪信息赋值为0.1，情绪稳定是赋值较高，比如冷静时，可以将情绪信息赋值为0.8。

在操作S554，基于上述第一疲劳度信息、上述第二疲劳度信息以及上述情绪信息，确定目标用户的警觉度。

例如，可以根据第一疲劳度信息f1、第二疲劳度信息f2以及情绪信息em确定警觉度W_d2。在一个示例中，可以按照下式计算警觉度：

W_d2＝w1*f1+w2*f2+w3*em (2)

其中，w1、w2和w3为预设的权重。在一个示例中，w1＝w2＝0.4，w3＝0.2。在归一化的第一疲劳度信息、第二疲劳度信息和情绪信息的值均在0～1的范围的情况下，可以设置预定阈值Th2为0.3。本领域技术人员可以理解，可以根据实际场景来设置w1、w2、w3和预定阈值Th2，本公开不局限于上述示例

通过本公开实施例，可以分析操作人员的情绪信息，结合用户的疲劳程度，可以更及时有效地判断操作人员警觉度是否够高，可以更加及时提醒操作人员。

图6是根据本公开一个实施例的确定警觉度的方法的示意流程图。

如图6所示，该确定警觉度的方法600可以包括操作S601～操作606。本领域技术人员可以理解，以下示例仅用于理解本公开的方案，而不应看作是对本公开的限制。

在操作S601，获取视频帧。

例如，可以实时获取视频帧进行后续操作。

在操作S602，判断视频帧中是否有目标用户图像。若判断结果为是，则执行操作S603，若判断结果为否，则返回至操作S601。

例如，若视频帧中存在目标用户图像，可以进行后续操作。

在操作S603，基于上述多个目标特征进行表情分析，得到上述目标用户的表情类别；分析第一疲劳度信息以及分析第二疲劳度信息。

例如，可以根据目标图像的位置切割视频帧，利用ResNetl8网络提取图像特征，根据注意力选择机制进行特征融合，将融合后的特征进行归一化处理后依次输入Transformer模型、全连接层，得到分类结果，判断视频帧中的目标图像的表情是快乐、气愤、惊讶、中性、厌恶还是悲伤等。Transformer模型是一种自适应模型，可以应用于计算机视觉领域。在一个示例中，可以对确定的表情类别进行赋值。例如，表情类别为消极时，赋值较低，比如厌恶、悲伤，可以将表情类别赋值为0.2。表情类别为积极时，赋值较高，比如快乐，可以将表情类别赋值为0.7。本领域技术人员可以理解，以上仅为示例，本公开实施例不局限于此。

例如，第一疲劳度信息可以根据闭眼的次数或时长。例如，在判断视频帧中目标用户为闭眼时，闭眼次数加1，将该信息暂存。

例如，第二疲劳度信息可以根据嘴部张开区域的大小、次数及时长来获取。例如，在判断视频帧中目标图像区域为嘴部张开后，确定上一视频帧的嘴部是否为张开。若为张开，则嘴部张开次数加1。在两个连续的视频帧中嘴部均为张开时，用户的打哈欠的概率更大。

在操作S604，确定警觉度。

例如，可以根据表情类别ex、第一疲劳度信息f1和第二疲劳度信息f2确定警觉度W_d3。在一个示例中，可以按照下式计算警觉度：

W_d3＝w1*f1+w2*f2+w4*ex (3)

其中，w1、w1和w4为预设的权重。在一个示例中，w1＝w2＝0.2，w4＝0.6。在归一化的第一疲劳度信息、第二疲劳度信息和表情类别的值均在0～1的范围的情况下，可以设置预定阈值Th3为0.2。本领域技术人员可以理解，可以根据实际场景来设置w1、w2、w4和预定阈值Th3，本公开不局限于上述示例。

图7是根据本公开一个实施例的确定警觉度的方法的示意流程图。

如图7所示，该确定警觉度的方法可以包括操作S701～操作S707。

在操作S701，获取视频帧。

例如，可以获取全部的视频帧进行后续操作。

在操作S702，判断视频帧中是否有目标用户图像。若判断结果为是，则执行操作S703，若判断结果为否，则返回至操作S701。

例如，若视频帧中存在目标用户图像，可以进行后续操作。

在操作703，分析表情；分析第一疲劳度信息以及分析第二疲劳度信息。

例如，可以采用ResNet18结合Transformer模型对表情进行分析。并为得到的分析结果进行赋值。在一个示例中，用户的表情较为消极，采用ResNet18结合Transformer模型分析后，得到用户的表情类别为厌恶，按照预设的表情赋值信息，得到表情类别的值为0.3。

例如，第一疲劳度信息可以根据闭眼的次数或时长来获取。在一个示例中，用户在1分钟的预定时段内，共被采集了30个视频帧，每2秒采集一个视频帧，得到的30个视频帧中共有20个视频帧被认定为闭眼，据此，第一疲劳度信息可以为0.66。

例如，第二疲劳度信息可以根据嘴部张开区域的大小、次数及时长来获取。在一个示例中，用户在1分钟的预定时段内，共被采集了30个视频帧，每2秒采集一个视频帧，得到的30个视频帧中共有15个视频帧被认定为打哈欠，据此，第二疲劳度信息可以为0.5。

在操作S704，获取情绪信息。

例如，根据用户的语音信息可以判断用户的情绪信息。可以根据识别出的语音特征分析语音的情感信息。例如，语音特征中可以表征音调大小的元素，分析该语音特征后，可以判断出用户输入该语音信息时的当前声调是高于日常音调或低于日常音调。文本特征中包含一些可以表征消极词汇的元素、可以表征积极词汇的元素。结合文本特征和语音特征可以判断用户的语音情感。在一个示例中，根据用户的预先授权，在1分钟内采集到了语音信息为“前面那辆车开的太慢了”及相应的音调等信息，据此，采用BiLSTM模型，得到用户的情绪信息为气愤。按照预设的表情赋值信息，得到情绪信息的值为0.2。

在操作S705，确定警觉度。

例如，可以根据第一疲劳度信息f1′、第二疲劳度信息f2′、表情类别的值ex′和情绪信息的值em′确定警觉度W_d4。在一个示例中，可以按照下式计算警觉度：

W_d4＝w1′*f1′+w2′*f2′+w3′*em′+w4′*ex′ (4)

其中，w1和w2为预设的权重。在一个示例中，W1′＝w2′＝0.1，w3′＝0.25，w4′＝0.55。在归一化的第一疲劳度信息、第二疲劳度信息、表情类别的值、情绪信息的值均在0～1的范围的情况下，可以设置预定阈值Th4为0.4。本领域技术人员可以理解，可以根据实际场景来设置w1′、w2′、w3′、w4′和预定阈值Th4，本公开不局限于上述示例。

通过本公开实施例，整合了表情分析、疲劳分析、语音情绪分析，可以有效地监控操作人员的状态，降低事故发生的可能性。

图8是根据本公开一个实施例的确定警觉度的模型示意图。

如图8所示，该确定警觉度的模型800可以包括特征提取层810、眼部动作分析层820、嘴部动作分析层830以及警觉度确定层840。

特征提取层810从目标用户图像中提取多个目标特征，例如眼部目标特征和嘴部目标特征。眼部动作分析层820基于眼部目标特征进行眼部动作分析，得到第一疲劳度信息。嘴部动作分析层830基于嘴部目标特征进行嘴部动作分析，得到第二疲劳度信息。警觉度确定层840根据第一疲劳度信息和第二疲劳度信息确定目标用户的警觉度。

根据本公开实施例的确定警觉度的模型，可以将特征提取、眼部动作分析、嘴部动作分析和警觉度确定集成在同一功能模块中，提高了处理效率，并更益于提高对于采集的视频图像数据的数据使用率。

图9是根据本公开一个实施例的确定警觉度的装置的框图，用于执行上述的确定警觉度的方法。

如图9所示，该确定警觉度的装置包括第一提取模块910、第一分析模块920、第二分析模块930以及第一确定模块940。

第一提取模块910，用于响应于在视频图像的目标图像帧中检测到目标用户图像，提取目标用户图像中的多个目标特征。

第一分析模块920，用于基于上述多个目标特征进行眼部动作分析，得到第一疲劳度信息；

第二分析模块930，用于基于上述多个目标特征进行嘴部动作分析，得到第二疲劳度信息；

第一确定模块940，用于基于第一疲劳度信息和第二疲劳度信息，确定目标用户警觉度。

在一些实施例中，上述多个目标特征包括多个眼部特征点信息；上述第一分析模块包括：第一确定子模块，用于根据上述多个眼部特征点信息，确定眼部长宽比值；以及第二确定子模块，用于根据上述眼部长宽比值，确定上述第一疲劳度信息。

在一些实施例中，上述第二确定子模块包括：采集单元，用于在第一预定时段内，按照第一预设时间间隔在每个第一采集时间点采集对应的多个子眼部特征点信息，得到多个子眼部特征点信息集合，其中，每个子眼部特征点信息集合中包括对应第一采集时间点采集到的多个子眼部特征点信息；计算单元，用于根据上述多个子眼部特征点信息集合，得到多个眼部长宽比值；以及第一确定单元，用于根据上述多个眼部长宽比值，确定上述第一疲劳度信息。

在一些实施例中，上述多个目标特征包括多个嘴部特征点信息；上述第二分析模块包括：第三确定子模块，用于在第二预定时段内，按照第二预设时间间隔在每个第二采集时间点采集对应的多个子嘴部特征点信息，得到多个子嘴部特征点信息集合，其中，每个子嘴部特征点信息集合中包括对应第二采集时间点采集到的多个子嘴部特征点信息；计算子模块，用于根据上述多个嘴部特征点信息，得到多个嘴部长宽比值；第四确定子模块，用于根据上述多个嘴部长宽比值，确定在上述第二预定时段内嘴部的张开时长；以及第五确定子模块，用于根据多个嘴部长宽比值和上述张开时长，确定上述第二疲劳度信息。

在一些实施例中，还包括：第二提取模块，用于利用特征提取模型，提取上述视频图像中初始关键图像帧的初始特征向量；第三提取模块，用于从上述视频图像中上述初始图像帧之后的N个图像帧中，提取J个图像帧，J为预设整数，N为大于等于J的整数；第四提取模块，用于利用上述特征提取模型分别提取上述J个图像帧的特征向量，得到J个特征向量；第二确定模块，用于根据上述初始特征向量与J个特征向量之间的距离，确定至少一个候选图像帧；第三确定模块，用于将至少一个候选图像帧中熵值最大的候选图像帧作为上述目标图像帧。

在一些实施例中，还包括：更新子模块，用于利用上述目标图像帧更新初始图像帧。

在一些实施例中，还包括：获取模块，用于获取目标用户的情绪信息；上述第一确定模块包括：第六确定子模块，用于基于上述第一疲劳度信息、上述第二疲劳度信息以及上述情绪信息，确定目标用户的警觉度。

在一些实施例中，上述获取模块包括：提示子模块，用于提示目标用户输入语音信息；第七确定子模块，用于基于目标用户输入的语音信息，确定上述目标用户的情绪信息。

在一些实施例中，上述第七确定子模块包括：转换单元，用于对输入的语音信息执行语音识别，将语音信息转换为文本信息；语音特征提取单元，用于提取输入的语音信息中的语音特征信息；以及第二确定单元，用于根据上述文本信息和语音特征信息，确定上述情绪信息。

在一些实施例中，还包括：第四分析模块，用于基于上述多个目标特征进行表情分析，得到上述目标用户的表情类别；上述第一确定模块包括：第八确定子模块，用于基于上述表情类别、第一疲劳度信息、第二疲劳度信息，确定目标用户的警觉度。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如确定警觉度的方法。例如，在一些实施例中，确定警觉度的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的确定警觉度的方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行确定警觉度的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种确定警觉度的方法，包括：

响应于在视频图像的目标图像帧中检测到目标用户图像，提取所述目标用户图像中的多个目标特征；

基于所述多个目标特征进行眼部动作分析，得到第一疲劳度信息；

基于所述多个目标特征进行嘴部动作分析，得到第二疲劳度信息；

基于第一疲劳度信息和第二疲劳度信息，确定目标用户的警觉度。

2.根据权利要求1所述的方法，其中，所述多个目标特征包括多个眼部特征点信息；所述基于所述多个目标特征进行眼部动作分析，得到第一疲劳度信息包括：

根据所述多个眼部特征点信息，确定眼部长宽比值；以及

根据所述眼部长宽比值，确定所述第一疲劳度信息。

3.根据权利要求1所述的方法，其中，所述根据所述眼部长宽比值，确定所述第一疲劳度信息包括：

在第一预定时段内，按照第一预设时间间隔在每个第一采集时间点采集对应的多个子眼部特征点信息，得到多个子眼部特征点信息集合，其中，每个子眼部特征点信息集合中包括对应第一采集时间点采集到的多个子眼部特征点信息；

根据所述多个子眼部特征点信息集合，得到多个眼部长宽比值；以及

根据所述多个眼部长宽比值，确定所述第一疲劳度信息。

4.根据权利要求1所述的方法，其中，所述多个目标特征包括多个嘴部特征点信息；所述基于所述多个目标特征进行嘴部动作分析，得到第二疲劳度信息包括：

在第二预定时段内，按照第二预设时间间隔在每个第二采集时间点采集对应的多个子嘴部特征点信息，得到多个子嘴部特征点信息集合，其中，每个子嘴部特征点信息集合中包括对应第二采集时间点采集到的多个子嘴部特征点信息；

根据所述多个子嘴部特征点信息集合，得到多个嘴部长宽比值；

根据所述多个嘴部长宽比值，确定在所述第二预定时段内嘴部的张开时长；以及

根据多个嘴部长宽比值和所述张开时长，确定所述第二疲劳度信息。

5.根据权利要求1所述的方法，还包括：

利用特征提取模型，提取所述视频图像中初始图像帧的初始特征向量；

从所述视频图像中所述初始图像帧之后的N个图像帧中，提取J个图像帧，其中，J为预设整数，N为大于等于J的整数；

利用所述特征提取模型分别提取所述J个图像帧的特征向量，得到J个特征向量；

根据所述初始特征向量与J个特征向量之间的距离，确定至少一个候选图像帧；

将至少一个候选图像帧中熵值最大的候选图像帧作为所述目标图像帧。

6.根据权利要求5所述的方法，还包括：

利用所述目标图像帧更新初始图像帧。

7.根据权利要求1所述的方法，还包括：

获取目标用户的情绪信息；

所述基于第一疲劳度信息和第二疲劳度信息，确定目标用户的警觉度包括：

基于所述第一疲劳度信息、所述第二疲劳度信息以及所述情绪信息，确定目标用户的警觉度。

8.根据权利要求7所述的方法，其中，所述获取目标用户的情绪信息包括：

提示目标用户输入语音信息；

基于目标用户输入的语音信息，确定所述目标用户的情绪信息。

9.根据权利要求8所述的方法，其中，所述基于目标用户输入的语音信息，确定所述目标用户的情绪信息包括：

对目标用户输入的语音信息执行语音识别，将语音信息转换为文本信息；

提取输入的语音信息中的语音特征信息；以及

根据所述文本信息和语音特征信息，确定所述情绪信息。

10.根据权利要求1所述的方法，还包括：

基于所述多个目标特征进行表情分析，得到所述目标用户的表情类别；

基于所述表情类别、第一疲劳度信息、第二疲劳度信息，确定目标用户的警觉度。

11.一种确定警觉度的装置，包括：

第一提取模块，用于响应于在视频图像的目标图像帧中检测到目标用户图像，提取目标用户图像中的多个目标特征。

第一分析模块，用于基于所述多个目标特征进行眼部动作分析，得到第一疲劳度信息；

第二分析模块，用于基于所述多个目标特征进行嘴部动作分析，得到第二疲劳度信息；

第一确定模块，用于基于第一疲劳度信息和第二疲劳度信息，确定目标用户的警觉度。

12.根据权利要求11所述的装置，其中，所述多个目标特征包括多个眼部特征点信息；所述第一分析模块包括：

第一确定子模块，用于根据所述多个眼部特征点信息，确定眼部长宽比值；以及

第二确定子模块，用于根据所述眼部长宽比值，确定所述第一疲劳度信息。

13.根据权利要求11所述的装置，其中，所述第二确定子模块包括：

采集单元，用于在第一预定时段内，按照第一预设时间间隔在每个第一采集时间点采集对应的多个子眼部特征点信息，得到多个子眼部特征点信息集合，其中，每个子眼部特征点信息集合中包括对应第一采集时间点采集到的多个子眼部特征点信息；

计算单元，用于根据所述多个子眼部特征点信息集合，得到多个眼部长宽比值；以及

第一确定单元，用于根据所述多个眼部长宽比值，确定所述第一疲劳度信息。

14.根据权利要求11所述的装置，其中，所述多个目标特征包括多个嘴部特征点信息；所述第二分析模块包括：

第三确定子模块，用于在第二预定时段内，按照第二预设时间间隔在每个第二采集时间点采集对应的多个子嘴部特征点信息，得到多个子嘴部特征点信息集合，其中，每个子嘴部特征点信息集合中包括对应第二采集时间点采集到的多个子嘴部特征点信息

计算子模块，用于根据所述多个子嘴部特征点信息集合，得到多个嘴部长宽比值；

第四确定子模块，用于根据所述多个嘴部长宽比值，确定在所述第二预定时段内嘴部的张开时长；以及

第五确定子模块，用于根据多个嘴部长宽比值和所述张开时长，确定所述第二疲劳度信息。

15.根据权利要求11所述的装置，还包括：

第二提取模块，用于利用特征提取模型，提取所述视频图像中初始关键图像帧的初始特征向量；

第三提取模块，用于从所述视频图像中所述初始图像帧之后的N个图像帧中，提取J个图像帧，其中，J为预设整数，N为大于等于J的整数；

第四提取模块，用于利用所述特征提取模型分别提取所述J个图像帧的特征向量，得到J个特征向量；

第二确定模块，用于根据所述初始特征向量与J个特征向量之间的距离，确定至少一个候选图像帧；

第三确定模块，用于将至少一个候选图像帧中熵值最大的候选图像帧作为所述目标图像帧。

16.根据权利要求15所述的装置，还包括：

更新子模块，用于利用所述目标图像帧更新初始图像帧。

17.根据权利要求11所述的装置，还包括：

获取模块，用于获取目标用户的情绪信息；

所述第一确定模块包括：

第六确定子模块，用于基于所述第一疲劳度信息、所述第二疲劳度信息以及所述情绪信息，确定目标用户的警觉度。

18.根据权利要求17所述的装置，所述获取模块包括

提示子模块，用于提示目标用户输入语音信息；

第七确定子模块，用于基于目标用户输入的语音信息，确定所述目标用户的情绪信息。

19.根据权利要求18所述的装置，其中，所述第七确定子模块包括：

转换单元，用于对目标用户输入的语音信息执行语音识别，将语音信息转换为文本信息；

语音特征提取单元，用于提取输入的语音信息中的语音特征信息；以及

第二确定单元，用于根据所述文本信息和语音特征信息，确定所述情绪信息。

20.根据权利要求11所述的装置，还包括：

第四分析模块，用于基于所述多个目标特征进行表情分析，得到所述目标用户的表情类别；

所述第一确定模块包括：

第八确定子模块，用于基于所述表情类别、第一疲劳度信息、第二疲劳度信息，确定目标用户的警觉度。

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。