CN116844080A

CN116844080A - 疲劳程度多模态融合检测方法、电子设备及存储介质

Info

Publication number: CN116844080A
Application number: CN202310657938.XA
Authority: CN
Inventors: 王旭辉; 刘星俞; 李郁; 陈京松; 乔静; 田先卉; 荀向东
Original assignee: China Academy of Civil Aviation Science and Technology
Current assignee: China Academy of Civil Aviation Science and Technology
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-10-03
Anticipated expiration: 2043-06-05
Also published as: CN116844080B

Abstract

本发明公开了一种疲劳程度多模态融合检测方法、电子设备及存储介质，其方法包括：S1、构建表情识别模型采集民航待测人员在应答测评量表时的视频数据集，通过声学采集模块采集民航待测人员在应答测评量表时的声学数据集；S2、疲劳程度识别模型包括视频疲劳识别模型、声学疲劳识别模型和量表评测计算模块并分别进行模型训练；S3、将视频数据集输入疲劳程度识别模型中得到疲劳状态分值结果B；将声学数据集输入声学疲劳识别模型中得到疲劳状态分值结果C；然后与中文语言预训练模型输出的疲劳状态分值结果A通过加权融合得到加权疲劳数据结果。本发明实现了疲劳评测视频、音频、文字三个维度的综合疲劳检测并加权融合，评测结果可靠。

Description

疲劳程度多模态融合检测方法、电子设备及存储介质

技术领域

本发明涉及民航工作人员疲劳状态检测领域，尤其涉及一种疲劳程度多模态融合检测方法、电子设备及存储介质。

背景技术

当前国内多家航空公司依据《CCAR-121-R7大型飞机公共航空运输承运人运行合格审定规则》和《AC-121-FS-014CCAR121部合格证持有人的疲劳管理要求》建立了疲劳风险管理要求，目前，对于民航工作人员疲劳风险管理国际上比较认可的科学分析方法是生物数学模型，基于不同的疲劳理论模型，预测人体疲劳即警觉性的变化趋势，提供了预测运行中飞行员个体潜在疲劳风险可能。

中国专利(申请号202210695576.9)公开了一种基于rPPG的非接触式疲劳检测系统及方法本发明提供一种基于rPPG的非接触式疲劳检测系统及方法，该系统及方法采用多线程同步通讯，针对实时检测需求，基于python threading多线程模块，实现rPPG信号的实时采集与处理以及疲劳状态的同步检测。其中，第一个线程，实现rPPG数据的实时捕获、保存与拼接；第二个线程，实现rPPG数据的实时分析与疲劳检测。在皮肤检测和LUV颜色空间转换结合的基础上，实现rPPG原始信号提取，消除人脸内外环境噪声的干扰；其次，通过自适应多级滤波提高信噪比，通过多维度融合CNN模型实现呼吸和心率的高精度检测；最后，在呼吸和心率多通道数据融合的基础上，实现高精度的疲劳分类。但该专利技术需要额外硬件实现呼吸和心率的检测，使用较为复杂；生理信号检测受限于检测设备的灵敏度、佩戴是否规范、环境干扰等情况，易产生较大误差、无效信号甚至信号中断。

国内航空公司的飞行员一般是飞四休二，在飞行后的两天休息日获得充分的生理和心理的恢复，可以利用休息期的睡眠情况获得相位峰值。目前，对于民航工作人员疲劳程度的评测主要依赖测试量表填写、人工观察评估，现有技术缺少对于民航工作人员疲劳程度的评测技术手段，不利于民航工作人员的疲劳检测及管理。

发明内容

本发明的目的在于解决背景技术所指出的技术问题，提供一种疲劳程度多模态融合检测方法、电子设备及存储介质，在待测工作人员应答测评时采集视频、音频数据及获取应答量表，通过构建的视频疲劳识别模型、声学疲劳识别模型和量表评测计算模块分别从三个方面分别进行视频疲劳评测、音频疲劳评测、文本疲劳评测，实现了疲劳评测视频、音频、文字三个维度的综合疲劳检测并加权融合，得到的疲劳状态分值结果与真实情况符合度高。

本发明的目的通过下述技术方案实现：

一种疲劳程度多模态融合检测方法，其方法包括：

S1、构建表情识别模型采集民航待测人员在应答测评量表时的视频数据集，应答测评量表包括若干个应答项目，视频数据集按照应答项目分段存储；通过声学采集模块采集民航待测人员在应答测评量表时的声学数据集，应答测评量表包括若干个应答项目，声学数据集按照应答项目分段存储；

S2、构建疲劳程度识别模型，疲劳程度识别模型包括视频疲劳识别模型、声学疲劳识别模型和量表评测计算模块；

S21、对视频疲劳识别模型进行如下模型训练：

S211、构建视频数据样本集，对视频数据样本集基于应答项目分段按时序稀疏采样得到视频帧样本集其中I表示视频帧I，q表示应答项目，K表示疲劳类型及分值的标签，P为应答项目所对应的视频帧数量；

S212、利用特征提取器对视频帧样本集中的视频帧I用描述人脸不同部位肌肉运动情况的特征集进行特征提取，特征集包括肌肉运动特征集、头部运动特征集、眼睛运动特征集；

S213、利用LSTM模型基于神经网络节点按照应答项目分段进行视频帧的特征时序统计得到特征其中t表示时间序列数据，j表示视频索引，i表示项目索引；/>通过神经网络节点A^j，i产生/>信息并信息传递、Sigmoid函数、tanh函数处理构建出特征时序数据；

S214、视频疲劳识别模型通过双层LSTM获得2048维表示，通过concat函数将疲劳类型与视频帧连接形成4096维向量，并经过全连接层输出三维表示；

S22、对声学疲劳识别模型进行如下模型训练：

S221、构建基于应答项目分段的声学数据样本集，声学数据样本集的声学音频片段样本按照应答项目、融合特征、疲劳分值标签对应存储；声学音频片段样本的融合特征由声学特征、频谱特征融合组成，声学特征为具有生理学意义的声学特性，频谱特征为梅尔倒谱系数特征；

S222、将融合特征作为特征向量并进行归一化处理，利用声学数据样本集进行排序并利用主成分分析、偏最小二乘回归分析计算得到特征向量与疲劳分值标签的相关性；

S23、量表评测计算模块方法如下：构建包含情绪关键词对应疲劳分值、语句层对应疲劳分值、因果关系层对应疲劳分值的文本数据样本集，在应答测评量表从视频数据集提取文字数据构成量表，基于中文语言预训练模型从量表中提取词向量并利用文本数据样本集输出疲劳状态分值结果A，疲劳状态分值结果A包括疲劳类型及分值；

S3、将视频数据集输入疲劳程度识别模型中得到疲劳状态分值结果B；将声学数据集输入声学疲劳识别模型中得到疲劳状态分值结果C；按照如下公式得到加权疲劳数据结果：

S＝w_gS_g，其中w_g表示疲劳状态分值结果为视频或声学或量表的权重，S_g表示疲劳状态分值结果为视频或声学或量表所对应的疲劳状态分值结果。

优选地，步骤S21替换为如下方法：

B21、构建视频数据样本集，对视频数据样本集基于应答项目分段进行视频剪辑得到剪辑片段并赋予疲劳类型及分值的标签，每个应答项目分段对应U个剪辑片段，提取每个剪辑片段V个128维特征向量；采用冗余感知自注意力模块进行特征向量权重分析，冗余感知自注意力模块内部具有高斯核函数计算模块并进行特征向量处理构建空间维度关系，并得到特征图数据；通过视频疲劳识别模型训练特征图数据与疲劳类型及分值标签。

优选地，表情识别模型采集民航待测人员的视频时构建有人脸检测获取框进行人脸对齐及配准，若民航待测人员所采集视频未在人脸检测获取框中，则触发警示并重新采集。

优选地，所述特征提取器包括神经网络ResNet，神经网络ResNet对视频帧样本集中的视频帧I进行特征项的计算与提取，将特征项汇集于特征集中；肌肉运动特征集包括内部眉毛抬起、抬起上眼皮、上扬嘴角；头部运动特征集包括头部向左转、头部向右转、头部向上抬、头部向下低、头部向左摇、头部向右右摇、头部向前移、头部向右移；眼睛运动特征集包括眼睛向左动、眼睛向右动、眼睛向上动、眼睛向下动。

优选地，步骤S214的损失函数为：

其中m表示疲劳类型的个数，n表示总个数，T_m表示疲劳类型k的预测值，y_k表示疲劳类型k的原始标签。

为了更好地实现本发明，融合特征的归一化处理公式如下；

其中X是训练特征样本，α_max和α_min分别为最大和最小训练特征向量，/>为标准化的训练样本；

偏最小二乘回归分析采用偏最小二乘回归模型，利用偏最小二乘回归模型计算特征向量与疲劳分值标签之间的相关性；

S＝KG^K+E

W＝UH^K+F，其中S为一个由预测因子组成的a×b矩阵，w为一个由响应组成的a×g矩阵；K与U为两个n×1矩阵，G、H分别为b×1和g×1的正交矩阵；矩阵E和矩阵F是误差项；对S和W进行分解以使K和U的协方差达到最大。

优选地，中文语言预训练模型所提取的词向量为识别出意图及需求的关键信息并进行倾向分类与识别，词向量包括内容实体、语句层特征、因果关系向量。

一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-7任一所述的方法的步骤。

一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法的步骤。

本发明较现有技术相比，具有以下优点及有益效果：

本发明在待测工作人员应答测评时采集视频、音频数据及获取应答量表，通过构建的视频疲劳识别模型、声学疲劳识别模型和量表评测计算模块分别从三个方面分别进行视频疲劳评测、音频疲劳评测、文本疲劳评测，实现了疲劳评测视频、音频、文字三个维度的综合疲劳检测并加权融合，评测手段科学、全面，能得到与真实情况符合度高的疲劳状态分值结果。

附图说明

图1为本发明疲劳程度多模态融合检测方法的方法流程图；

图2为实施例中视频疲劳识别模型的训练过程示意图；

图3为实施例中视频疲劳识别模型视频帧样本集的流程示意图；

图4为实施例中LSTM模型内部机制示意图；

图5为实施例中声学疲劳识别模型的原理示意图；

图6为实施例的中文语言预训练模型的原理示意图；

图7为实施例中疲劳程度多模态融合检测系统的原理框图；

图8为实施例中采用冗余感知自注意力模块的注意力机制图；

图9为实施例中冗余感知自注意力模块的原理示意图；

图10为实施例中疲劳程度多模态融合检测系统的APP应用界面图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明：

实施例

如图1～图9所示，一种疲劳程度多模态融合检测方法，其方法包括：

S1、构建表情识别模型采集民航待测人员在应答测评量表时的视频数据集，应答测评量表包括若干个应答项目，视频数据集按照应答项目分段存储。优选地，表情识别模型采集民航待测人员的视频时构建有人脸检测获取框进行人脸对齐及配准，若民航待测人员所采集视频未在人脸检测获取框中，则触发警示并重新采集。

通过声学采集模块采集民航待测人员在应答测评量表时的声学数据集，应答测评量表包括若干个应答项目，声学数据集按照应答项目分段存储。

S21、对视频疲劳识别模型进行如下模型训练：

S211、构建视频数据样本集(在一些实施例中，通过表情识别模型将获得的原始视频检测为表情视频片段供后续标注和识别使用形成视频数据样本；具体操作为，原始表情以帧为单位建立索引，为保证效率，我们的采样帧率设置为3-15帧/秒；每一帧图像都需要先检测并框定人脸位置，然后用预训练好的表情识别模型抽取视觉特征，用于后续的疲劳程度评估模型训练。表情识别模型采集视频数据样本时需注意：人脸检测获取分析区域；人脸对齐，获取配准的人脸；数据增强扩充数据及人脸图像归一化；基于注意力机制的视频情感分析深度学习框架)，对视频数据样本集基于应答项目分段按时序稀疏采样得到视频帧样本集其中I表示视频帧I，q表示应答项目，K表示疲劳类型及分值的标签，P为应答项目所对应的视频帧数量。本发明训练后的视频疲劳识别模型以受试者面部表情特征作为输入，输出其疲劳程度评估(疲劳状态分值结果)。基于面部表情的视频疲劳识别模型训练分为人脸检测、特征抽取、时序分析和输出预测，如图2所示。稀疏采样时，每个应答项目抽出10帧关键视频帧。

优选地，所述特征提取器包括神经网络ResNet，神经网络ResNet对视频帧样本集中的视频帧I进行特征项的计算与提取，将特征项汇集于特征集中；肌肉运动特征集包括内部眉毛抬起、抬起上眼皮、上扬嘴角等运动特征(优选地，本发明采用42种运动特征，42种运动特征例如：内部眉毛抢起、外部眉毛抬起、眉毛整体低业、抬起上眼皮、抬起脸频、眼睛收缩、收缩提起鼻了、抬起上嘴唇、加深中部鼻唇、上扬嘴角、拉动嘴角向上、嘴角向牙齿收缩、嘴角业直向下拉动、下嘴唇向下拉动、挤动下唇向上顶、向中间敏起嘴巴、嘴唇向后方拉扯、嘟起嘴唇成漏斗、收紧双唇成一字)。头部运动特征集包括头部向左转、头部向右转、头部向上抬、头部向下低、头部向左摇、头部向右右摇、头部向前移、头部向右移；眼睛运动特征集包括眼睛向左动、眼睛向右动、眼睛向上动、眼睛向下动。神经网络ResNet的模型架构及参数如下：

S212、利用特征提取器对视频帧样本集中的视频帧I用描述人脸不同部位肌肉运动情况的特征集进行特征提取，特征集包括肌肉运动特征集、头部运动特征集、眼睛运动特征集。

S213、利用LSTM模型基于神经网络节点按照应答项目分段进行视频帧的特征时序统计得到特征其中t表示时间序列数据，j表示视频索引，i表示项目索引；/>通过神经网络节点A^j，i产生/>信息并信息传递、Sigmoid函数、tanh函数处理构建出特征时序数据。如图4所示，本实施例示例一种LSTM模型的内部机制，通过遗忘门将一些信息丢弃，δ^j，i代表Sigmoid函数，方法公式如下：

δ^j，i表示Sigmoid函数，/>表示Sigmoid函数的参数。

再经过LSTM模型的输入门，利用Sigmoid函数决定信息是否更新，tanh函数处理产生向量，如图4所示，进行数据相加；

如图4所示，然后与相乘，丢弃掉需要丢弃的信息，然后将信息传递给下一个细胞，在下一个细胞信息首先经过δ^j，i处理，然后上一支信息经过tanh函数处理，再将两处信息相乘，依此来将视频的时序添加进去，公式如下：

S214、视频疲劳识别模型通过双层LSTM获得2048维表示，通过concat函数将疲劳类型与视频帧连接形成4096维向量，并经过全连接层输出三维表示。LSTM模型的双层LSTM损失函数为：

收集的疲劳视频数据集，基于所有视频数据集融合来建立三分类诊断模型。

在一些实施例中，步骤S21替换为如下方法：

B21、构建视频数据样本集，对视频数据样本集基于应答项目分段进行视频剪辑得到剪辑片段并赋予疲劳类型及分值的标签，每个应答项目分段对应U个剪辑片段，提取每个剪辑片段V个128维特征向量。如图8、图9所示，采用冗余感知自注意力模块进行特征向量权重分析，冗余感知自注意力模块内部具有高斯核函数计算模块并进行特征向量处理构建空间维度关系，并得到特征图数据；通过视频疲劳识别模型训练特征图数据与疲劳类型及分值标签。

S22、对声学疲劳识别模型进行如下模型训练：

S221、如图5所示，构建基于应答项目分段的声学数据样本集(在一些实施例中，可以通过声学采集模块获得的人机对话数据提取音频数据片段供后续标注和识别使用；具体操作为，首先需要对其进行降噪处理，得到清晰人声；然后基于每一小段的问答对其进行疲劳分值标注；最后提取时域和频域的一系列声学特征(如Mel spectrogram、MFCC等)用于后续的疲劳程度评估。声学采集模块采集的声学数据样本集需要语音降噪、时频转换及频谱特征提取、基于RNN的语言模型、基于Lattice resource解码器得到最大概率词序列)，声学数据样本集的声学音频片段样本按照应答项目、融合特征、疲劳分值标签对应存储；声学音频片段样本的融合特征由声学特征、频谱特征融合组成，声学特征为具有生理学意义的声学特性，频谱特征为梅尔倒谱系数特征。其中融合特征包括如下表：

S222、将融合特征作为特征向量并进行归一化处理，利用声学数据样本集进行排序并利用主成分分析、偏最小二乘回归分析计算得到特征向量与疲劳分值标签的相关性。

在一些实施例中，融合特征的归一化处理公式如下；

偏最小二乘回归分析采用偏最小二乘回归模型，利用偏最小二乘回归模型计算特征向量与疲劳分值标签之问的相关性；

S＝KG^K+E

S23、量表评测计算模块方法如下：构建包含情绪关键词对应疲劳分值、语句层对应疲劳分值、因果关系层对应疲劳分值的文本数据样本集(将获得的人机对话数据提取文字部分供后续标注和识别使用；具体操作为，首先在中文语境下对文本进行分词处理，移除对语义无影响的停止词，然后基于每一小段的问答对其进行疲劳分值标注；最后引入中文语言预训练模型(如XLNet、bert等)提取词向量，用于后续的疲劳程度评估。通过中文分词、专名识别等关键技术，解析语句的结构关系，深入分析句法结构，能够准确的从用户输入内容中识别出意图及需求的关键信息，准确判断文字表达的情感倾向)，如图6所示，在应答测评量表从视频数据集提取文字数据构成量表，基于中文语言预训练模型从量表中提取词向量并利用文本数据样本集输出疲劳状态分值结果A，疲劳状态分值结果A包括疲劳类型及分值。优选地，中文语言预训练模型所提取的词向量为识别出意图及需求的关键信息并进行倾向分类与识别，词向量包括内容实体、语句层特征、因果关系向量(针对疲劳分析的命名实体识别、基于大规模预训练语言模型Bert的语句层特征提取、基于金字塔结构的因果关系抽取、倾向分类与识别)。

S＝w_gS_g，其中w_g表示疲劳状态分值结果为视频或声学或量表的权重(视频、声学、量表分别代表一种模态，共计三种模态，由于面部纹理、面部动作、音频和量表内容等多模态在一定程度上是互补自洽的，本发明采用了决策融合的方法来提高疲劳状态的判别性能。在预测阶段，每个模型生成一个分数矩阵，表示每个预测样本属于相关情绪的概率；根据每个模型的性能，给每个模型分配了适当权重。根据上面的公式融和每个模型的预测结果得到系统级疲劳状态分值结果)，S_g表示疲劳状态分值结果为视频或声学或量表(视频、声学、量表分别为三种模态)所对应的疲劳状态分值结果。

一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行本发明疲劳程度多模态融合检测方法的步骤。如图7所示，按照本发明疲劳程度多模态融合检测方法设计出的疲劳程度多模态融合检测系统，疲劳程度多模态融合检测系统可以推广至移动客户端(比如手机)，让民航工作人员在app上进行疲劳程度融合检测作业，疲劳程度多模态融合检测系统的app界面如图10所示。

一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明疲劳程度多模态融合检测方法的步骤。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种疲劳程度多模态融合检测方法，其特征在于：其方法包括：

S21、对视频疲劳识别模型进行如下模型训练：

S22、对声学疲劳识别模型进行如下模型训练：

S23、量表评测计算模块方法如下：构建包含情绪关键词对应疲劳分值、语句层对应疲劳分值、因果关系层对应疲劳分值的文本数据样本集，在应答测评量表从视频数据集提取文字数据构成量表，基于中文语言预训练模型从最表中提取词向量并利用文本数据样本集输出疲劳状态分值结果A，疲劳状态分值结果A包括疲劳类型及分值；

2.按照权利要求1所述的疲劳程度多模态融合检测方法，其特征在于：步骤S21替换为如下方法：

B21、构建视频数据样本集，对视频数据样本集基于应答项目分段进行视频剪辑得到剪辑片段并赋予疲劳类型及分值的标签，每个应答项目分段对应U个剪辑片段，提取每个剪辑片段V个128维特征向最；采用冗余感知自注意力模块进行特征向量权重分析，冗余感知自注意力模块内部具有高斯核函数计算模块并进行特征向量处理构建空间维度关系，并得到特征图数据；通过视频疲劳识别模型训练特征图数据与疲劳类型及分值标签。

3.按照权利要求1所述的疲劳程度多模态融合检测方法，其特征在于：表情识别模型采集民航待测人员的视频时构建有人脸检测获取框进行人脸对齐及配准，若民航待测人员所采集视频未在人脸检测获取框中，则触发警示并重新采集。

4.按照权利要求1所述的疲劳程度多模态融合检测方法，其特征在于：所述特征提取器包括神经网络ResNet，神经网络ResNet对视频帧样本集中的视频帧I进行特征项的计算与提取，将特征项汇集于特征集中；肌肉运动特征集包括内部眉毛抬起、抬起上眼皮、上扬嘴角；头部运动特征集包括头部向左转、头部向右转、头部向上抬、头部向下低、头部向左摇、头部向右右摇、头部向前移、头部向右移；眼睛运动特征集包括眼睛向左动、眼睛向右动、眼睛向上动、眼睛向下动。

5.按照权利要求1所述的疲劳程度多模态融合检测方法，其特征在于二：步骤S214的损失函数为：

6.按照权利要求1所述的疲劳程度多模态融合检测方法，其特征在于：融合特征的归一化处理公式如下；

其中X是训练特征样本，α_max和α_min分别为最大和最小训练特征向量，为标准化的训练样本；

S＝KG^K+E

7.按照权利要求1所述的疲劳程度多模态融合检测方法，其特征在于：中文语言预训练模型所提取的词向量为识别出意图及需求的关键信息并进行倾向分类与识别，词向量包括内容实体、语句层特征、因果关系向量。

8.一种电子设备，其特征在于：包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-7任一所述的方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法的步骤。