CN117079255B

CN117079255B - 一种基于人脸识别和语音交互的疲劳驾驶检测方法

Info

Publication number: CN117079255B
Application number: CN202311339043.8A
Authority: CN
Inventors: 李响; 林挺; 刘梦非
Original assignee: Jiangxi Open University
Current assignee: Jiangxi Open University
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2024-01-05
Anticipated expiration: 2043-10-17
Also published as: CN117079255A

Abstract

本发明涉及数据处理领域，更具体地，本发明涉及一种基于人脸识别和语音交互的疲劳驾驶检测方法，包括：获取驾驶人的历史视频数据并进行预处理获得视频采集数据集；根据自编码网络，对所述视频采集数据集进行数据降维，得到有效性数据集；获取同一时刻所述有效性数据集中所有数据的均值以完成数据融合，得到历史音视频融合数据集；基于所述历史音视频融合数据集训练预设的疲劳驾驶网络模型；通过对驾驶员音视频数据进行降维，使得降维后的数据包含更多的疲劳驾驶特征，在音视频数据融合时，选择高质量样本数据进行融合，提高了对驾驶人员疲劳检测的准确率和鲁棒性。

Description

一种基于人脸识别和语音交互的疲劳驾驶检测方法

技术领域

本发明一般地涉及数据处理领域。更具体地，本发明涉及一种基于人脸识别和语音交互的疲劳驾驶检测方法。

背景技术

许多交通事故都与驾驶员的疲劳有关，通过疲劳驾驶检测，可以显著降低由于驾驶员疲劳导致的交通事故，从而提高道路安全。

现有基于人脸识别和语音交互的疲劳驾驶检测方法，是通过对人脸识别进行疲劳特征提取和语音数据分别进行疲劳特征提取，得到分别对应的疲劳检测结果，当疲劳检测结果中存在疲劳状态时，人脸疲劳特征和语音数据提取中，冗余信息较多，不利于对人的疲劳状态进行检测，可能会存在误检，人脸疲劳特征提取不完备，在对人的疲劳状态进行检测，则可能存在漏检，因此需要一种基于人脸识别和语音交互的疲劳驾驶检测方法。

发明内容

为了通过自编码网络降维，提供对驾驶人进行疲劳检测时具有更全面的信息，提高疲劳驾驶检测精度的依据，提醒驾驶人员在驾驶中，处于疲劳状态时提供语音建议，本申请提供一种基于人脸识别和语音交互的疲劳驾驶检测方法。

在第一方面中，一种基于人脸识别和语音交互的疲劳驾驶检测方法，包括：获取驾驶人的历史视频数据并进行预处理获得视频采集数据集，所述视频采集数据集包括：同步采集的音频数据集和人脸关键点数据集；根据自编码网络，对所述视频采集数据集进行数据降维，得到有效性数据集；获取同一时刻所述有效性数据集中所有数据的均值，完成数据融合，得到历史音视频融合数据集；基于所述历史音视频融合数据集训练预设的疲劳驾驶网络模型，得到疲劳驾驶预测模型；实时采集目标驾驶人的音视频融合数据并输入至所述疲劳驾驶预测模型，生成疲劳驾驶检测结果。

上述实施例的一种基于人脸识别和语音交互的疲劳驾驶检测方法，通过将人脸关键点数据和音频数据通过自编码网络进行降维，以使同一时刻两个数据中的有效型数据求均值进行数据融合，从而更高效的提取人脸关键点数据和音频数据，以使历史音视频融合数据集是具有疲劳状态特征的数据，减少误检、漏检的情况。

在一个实施例中，获取驾驶人的历史视频数据并进行预处理包括：提取所述历史视频数据中的单帧图像；使用预设的人脸识别模型，对所述单帧图像进行人脸识别获得所述历史视频数据中每一帧图像的人脸区域掩膜；将所述人脸区域掩膜与对应的单帧图像进行掩膜处理，得到各单帧图像中仅含人脸的区域；将所有单帧图像中仅含人脸的区域作为人脸关键点数据集。

上述实施例的一种基于人脸识别和语音交互的疲劳驾驶检测方法，视频帧图像人脸关键点坐标和对应采样长度的音频数据融合为一种数据，使得在对驾驶人进行疲劳检测时具有更全面的信息，提高疲劳驾驶检测精度，同时对人脸关键点坐标进行标准化处理，防止视频中不同位置的人脸对后续分析产生干扰。

在一个实施例中，所述根据自编码网络，对所述视频采集数据集进行数据降维，得到有效性数据集包括：将视频数据帧对应的人脸关键点数据，使用自编码网络进行数据降维，各关键点对应的保留系数满足关系式：

；

其中，i表示第i个视频帧图像数据，j表示第i帧里第j个视频对应的人脸关键点，表示当前第i个视频帧图像数据降维后的数据对应第一主成分方向与标准人脸关键点数据降维后的数据对应第一主成分方向之间的皮尔逊相关系数，表示关键点对应的保留系数，表示当前第i个视频帧图像数据中第j个关键点坐标数据在降维后的数据。

上述实施例的一种基于人脸识别和语音交互的疲劳驾驶检测方法，通过使用皮尔逊相关系数，确保标准人脸关键点数据降维后的数据对应第一主成分方向之间不会呈负相关，由于皮尔逊相关系数值越大，则表示两者之间越近似，则表示当前帧的视频采集质量较高。

在一个实施例中，对所述视频采集数据集进行数据降维时，损失函数计算公式为：

；

其中，表示损失函数的值，表示为正常均方差损失函数值，j表示对C关键点个数的遍历，m表示为超参数，表示当前第i个视频帧图像数据中第j个关键点坐标数据在降维后的数据。

上述实施例的一种基于人脸识别和语音交互的疲劳驾驶检测方法，通过对音视频进行降维，在降维过程中保留具有数据变化的特征，以用于音视频数据融合，提高疲劳检测的准确率。

在一个实施例中，所述历史音视频融合数据集满足关系式：

；

其中，表示融合数据值，表示为当前第i帧视频数据通过视频自编码网络降维后的数据，其中为当前第i帧视频数据对应音频数据段通过音频自编码网络降维后的数据，表示当前第i个视频帧图像数据降维后的数据对应第一主成分方向与标准人脸关键点数据降维后的数据对应第一主成分方向之间的皮尔逊相关系数。

在一个实施例中，所述历史音视频融合数据集训练预设的疲劳驾驶网络模型，得到疲劳驾驶预测模型包括：将历史音视频融合数据集中属于疲劳状态的时间点标记为1，对融合数据中属于正常状态的时间点标记为0，进而对融合数据进行one-hot编码，损失函数采用交叉熵损失函数进行分类网络训练。

在一个实施例中，生成疲劳驾驶检测结果之后，还包括：响应于疲劳驾驶状态检测结果为疲劳，则通过预设的语音交互模型对驾驶人员进行语音提醒，降低疲劳驾驶安全风险。

上述实施例的一种基于人脸识别和语音交互的疲劳驾驶检测方法，根据训练完成的疲劳驾驶网络模型的识别结果，判断当前驾驶员是否需要进行语音提醒，如果当前驾驶员的疲劳驾驶状态检测结果为疲劳，则通过语音交互模型对驾驶人员进行语音提醒，降低疲劳驾驶安全风险。

本申请具有以下效果：

1、本申请通过对驾驶员音视频数据分析，进行降维数据保留，使得降维后的数据包含更多的疲劳驾驶特征，并且在音视频数据融合时，选择高质量样本数据进行融合，提高最终对驾驶人员疲劳检测的准确率和鲁棒性。

2、本申请通过将视频数据中每帧图像中的人脸关键点坐标和其对应的采样长度的音频数据融合为一种数据，使得在对驾驶人进行疲劳检测时具有更全面的信息，提高疲劳驾驶检测精度，其中对人脸关键点坐标进行标准化处理，防止视频中不同位置的人脸对后续分析产生干扰。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是本申请的实施例一种基于人脸识别和语音交互的疲劳驾驶检测方法中步骤S1-S5的方法流程图。

图2是本申请实施例一种基于人脸识别和语音交互的疲劳驾驶检测方法中步骤S10-S13的方法流程图。

图3是本申请实施例一种基于人脸识别和语音交互的疲劳驾驶检测方法中步骤S20-S21的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图来详细描述本发明的具体实施方式。

参照图1，一种基于人脸识别和语音交互的疲劳驾驶检测方法包括步骤S1-S5，具体如下：

S1：获取驾驶人的历史视频数据并进行预处理获得视频采集数据集，包括步骤S10-S13：

S10：提取历史视频数据中的单帧图像；

S11：使用预设的人脸识别模型，对单帧图像进行人脸识别获得历史视频数据中每一帧图像的人脸区域掩膜；

S12：将人脸区域掩膜与对应的单帧图像进行掩膜处理，得到各单帧图像中仅含人脸的区域；

S13：将所有单帧图像中仅含人脸的区域作为人脸关键点数据集。

示例性的，如图2所示，该图展示了一种基于人脸识别和语音交互的疲劳驾驶检测方法中步骤S10-S13的方法流程图；视频采集数据可以为RGB（红、绿、蓝）数据或者为灰度数据，其中视频采集帧率本方案选择为30帧每秒的采集数，采样帧率可根据具体实施场景进行调整，30帧每秒为每秒采集30张图像。

音频采集数据的采样率本方案选择为n = 22kHz，采样率可根据具体实施场景进行调整，22kHz表示每秒有22*1000个采样点。

使用VGGFace2预训练模型，进行人脸识别检测，可根据具体实施场景选取其他人脸识别预训练模型进行人脸识别检测，对每一帧中仅含人脸的区域进行人脸关键点检测，得到每一帧中用于驾驶员进行疲劳检测的人脸关键点数据；使用Dlib预训练网络模型进行人脸关键点识别检测，不同人脸识别关键点预训练模型对应的关键点数量有不一样，其中Dlib预训练网络模型能够检测出c = 68个人脸关键点，覆盖面部的主要区域。

S2：根据自编码网络，对视频采集数据集进行数据降维，得到有效性数据集包括步骤S20-S21：

S20：将视频数据帧对应的人脸关键点数据，使用自编码网络进行数据降维，各关键点对应的保留系数的公式为：

；

其中，i表示第i个视频帧图像数据，j表示第i帧里第j个视频对应的人脸关键点，表示当前第i个视频帧图像数据降维后的数据对应第一主成分方向与标准人脸关键点数据降维后的数据对应第一主成分方向之间的皮尔逊相关系数，表示关键点对应的保留系数，表示当前第i个视频帧图像数据中第j个关键点坐标数据在降维后的数据，标准人脸关键点数据降维后的数据对应第一主成分方向之间的皮尔逊相关系数，皮尔逊相关系数值越大，则表示两者之间越近似，则表示当前帧的视频采集质量较高。

S21：对视频采集数据集进行数据降维时，损失函数计算公式为：

；

示例性的，如图3所示，该图展示了一种基于人脸识别和语音交互的疲劳驾驶检测方法中步骤S20-S21的方法流程图；视频帧图像对应的人脸关键点所降维后的数据，与标准人脸关键点坐标数据所降维后的数据之间仍具有较大差异时，两者对应的第一主成方向却差异不大，表示成像质量稳定，且此时如果两者降维后的数据具有较大差异，则右表示存在了一定的面部局部变化，进而在进行降维时，该帧的人脸关键点降维后要保留的信息更多。

若直接对音视频数据进行降维，使得降维后的音视频数据保持同一数据长度，则会导致降维数据中可能保留较多冗余信息数据，而在进行疲劳检测时，往往是依据驾驶人的眼睛眨眼，打哈欠，以及声音强度和语速等信息进行有效的疲劳检测，提取有效性数据后，在音视频数据降维中，尽可能多的保留具有数据变化的特征，以用于音视频数据融合，提高疲劳检测的准确率；

降维后数据特征中，保留相对全局整体的数据变化特征，本实施例选择对视频数据求取各个人脸关键点坐标对应的众数作为标准，其中选用众数是因为大部分时间下人在开车时，保持目视前方且座位姿态变化不大。

S3：获取同一时刻有效性数据集中所有数据的均值，完成数据融合，得到历史音视频融合数据集包括：

历史音视频融合数据集满足关系式：

；

其中，表示融合数据值，表示为当前第i帧视频数据通过视频自编码网络降维后的数据，其中为当前第i帧视频数据对应音频数据段通过音频自编码网络降维后的数据，表示当前第i个视频帧图像数据降维后的数据对应第一主成分方向与标准人脸关键点数据降维后的数据对应第一主成分方向之间的皮尔逊相关系数；

通过人脸关键点数据和音频数据的时序数据降维后，进行间隔分段，使视频采集数据集和音频数据长短一致，将每一段音视频数据中的视频帧图像作为音视频融合的图像；

的值为近似数1时，当前人脸关键点数采集稳定，则成像质量好，对音视频数据进行平均加权融合；

的值为近似数0时，当人脸关键点数采集不稳定，则采集质量不佳，此时音频数据进行驾驶员疲劳检测效果更佳。

示例性的，音频数据具有0值点，所以根据音频采样值即可直接获取音频数据的变化量，已得到有效的音频数据，根据不同帧的图像与标准人脸关键点坐标点之间的差异，可以得到人脸关键点的变换特征，以用于通过自编码降维时，对人脸关键点降维数据进行有效调整，使得降维后数据具有更多能用于疲劳检测的特征。

其中，自编码网络是一种无监督的神经网络模型，其损失函数为均方差损失数值，为了在自编码网络具有高保留系数的人脸关键点降维数据进行更多信息的保留，则在计算具有高保留系数的人脸关键点降维数据时，应当具有更低值的损失函数值，对与计算具有低保留系数的人脸关键点降维数据时，应当具有更高值的损失函数值，从而使得当前帧所有人脸关键点降维数据的降维数据中蕴含更多的高保留系数的人脸关键点降维数据后的信息。

S4：基于历史音视频融合数据集训练预设的疲劳驾驶网络模型，得到疲劳驾驶预测模型包括：将历史音视频融合数据集中属于疲劳状态的时间点标记为1，对融合数据中属于正常状态的时间点标记为0，进而对融合数据进行one-hot编码，损失函数采用交叉熵损失函数进行分类网络训练。

示例性的，本实施例采用的疲劳驾驶网络模型为encoder-decoder网络模型，对融合数据中属于疲劳状态的时间点标记为1，对融合数据中属于正常状态的时间点标记为0，进而对融合数据进行one-hot编码，损失函数采用交叉熵损失函数进行分类网络训练。

其中采集数据通过具有相关经验的人员进行音视频数据采集，采集过程要求能够采集的驾驶员人脸信息和音频信息，并将采集的音视频数据按照1：4进行验证集和训练集划分，其中1：4的划分，可根据具体实施场景进行调整。

S5：实时采集目标驾驶人的音视频融合数据集并输入至疲劳驾驶预测模型，生成疲劳驾驶检测结果包括：响应于疲劳驾驶状态检测结果为疲劳，则通过预设的语音交互模型对驾驶人员进行语音提醒，降低疲劳驾驶安全风险。

示例性的，语音交互模型可自设定交互语句比如：您需要歇息一下了，调节音量、语速。语音交互模型可根据具体实施场景进行启动交互，选择交互方式，比如汽车运行时长等，或者当小于等于阈值s时，进行照明提醒，比如前方较黑，是否开灯，等自设语句。

在本说明书的描述中，“多个”、“若干个”的含义是至少两个，例如两个，三个或更多个等，除非另有明确具体的限定。

虽然本说明书已经示出和描述了本发明的多个实施例，但对于本领域技术人员显而易见的是，这样的实施例只是以示例的方式提供的。本领域技术人员会在不偏离本发明思想和精神的情况下想到许多更改、改变和替代的方式。应当理解的是在实践本发明的过程中，可以采用对本文所描述的本发明实施例的各种替代方案。

Claims

1.一种基于人脸识别和语音交互的疲劳驾驶检测方法，其特征在于，包括：

S1，获取驾驶人的历史视频数据并进行预处理获得视频采集数据集，所述视频采集数据集包括：同步采集的音频数据集和人脸关键点数据集，包括：

所述获取驾驶人的历史视频数据并进行预处理包括：

提取所述历史视频数据中的单帧图像；

使用预设的人脸识别模型，对所述单帧图像进行人脸识别获得所述历史视频数据中每一帧图像的人脸区域掩膜；

将所述人脸区域掩膜与对应的单帧图像进行掩膜处理，得到各单帧图像中仅含人脸的区域；

将所有单帧图像中仅含人脸的区域作为人脸关键点数据集；

S2，根据自编码网络，对所述视频采集数据集进行数据降维，得到有效性数据集，包括：

将视频数据帧对应的人脸关键点数据，使用自编码网络进行数据降维，各关键点对应的保留系数满足关系式：

；

其中，i表示第i个视频帧图像数据，j表示第i帧里第j个视频对应的人脸关键点，表示当前第i个视频帧图像数据降维后的数据对应第一主成分方向与标准人脸关键点数据降维后的数据对应第一主成分方向之间的皮尔逊相关系数，/>表示关键点对应的保留系数，/>表示当前第i个视频帧图像数据中第j个关键点坐标数据在降维后的数据；

对所述视频采集数据集进行数据降维时，损失函数计算公式为：

；

其中，表示损失函数的值，/>表示为正常均方差损失函数值，j表示对C关键点个数的遍历，m表示为超参数，/>表示当前第i个视频帧图像数据中第j个关键点坐标数据在降维后的数据；

S3，获取同一时刻所述有效性数据集中所有数据的均值以完成数据融合，得到历史音视频融合数据集，包括：

所述历史音视频融合数据集满足关系式：

；

其中，表示融合数据值，/>表示为当前第i帧视频数据通过视频自编码网络降维后的数据，其中/>为当前第i帧视频数据对应音频数据段通过音频自编码网络降维后的数据，/>表示当前第i个视频帧图像数据降维后的数据对应第一主成分方向与标准人脸关键点数据降维后的数据对应第一主成分方向之间的皮尔逊相关系数；

S4，基于所述历史音视频融合数据集训练预设的疲劳驾驶网络模型，得到疲劳驾驶预测模型；

S5，实时采集目标驾驶人的音视频融合数据并输入至所述疲劳驾驶预测模型，生成疲劳驾驶检测结果。

2.根据权利要求1所述一种基于人脸识别和语音交互的疲劳驾驶检测方法，其特征在于，所述历史音视频融合数据集训练预设的疲劳驾驶网络模型，得到疲劳驾驶预测模型包括：

将历史音视频融合数据集中属于疲劳状态的时间点标记为1，对融合数据中属于正常状态的时间点标记为0，进而对融合数据进行one-hot编码，损失函数采用交叉熵损失函数进行分类网络训练。

3.根据权利要求1所述一种基于人脸识别和语音交互的疲劳驾驶检测方法，其特征在于，生成疲劳驾驶检测结果，还包括：

响应于疲劳驾驶状态检测结果为疲劳，则通过预设的语音交互模型对驾驶人员进行语音提醒，降低疲劳驾驶安全风险。