CN116226715A

CN116226715A - 一种基于多模态特征融合的作业人员在线多态识别系统

Info

Publication number: CN116226715A
Application number: CN202310218789.7A
Authority: CN
Inventors: 李潍; 田��也; 房承; 柳军
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-06-06

Abstract

本发明公开了一种基于多模态特征融合的作业人员在线多态识别系统，包括信号采集模块、信号传输模块、处理终端、基于多模态特征融合的在线多态识别模型、终端显示模块和结果反馈模块。信号采集模块收集脑电、语音、面部数据，通过信号传输模块与处理终端建立通信。在处理终端中提取语音、脑电和图像特征向量，基于多模态特征融合的在线多态识别模型进行信息融合，实现负荷、疲惫、情绪的多态识别，识别结果与人员信息实时显示在显示终端。在线学习算法根据作业人员在结果反馈模块中提供的信息对模型进行快速调整。该发明有效解决数据稀疏问题，提高多状态识别准确度，以辅助决策人员根据作业人员的工作状态做出更加高效、人性化的作业安排。

Description

一种基于多模态特征融合的作业人员在线多态识别系统

技术领域

本发明涉及一种基于多模态特征融合的作业人员在线多态识别系统，属于状态识别、人工智能技术领域。

背景技术

在军事、航空航天、核能等领域的复杂人机系统中，作业人员需要短时间内处理大量的信息并快速作出反应决策，如何在准确识别作业人员的状态、保证作业人员的安全下是当下的研究重点之一。

传统的智能体认知状态研究往往基于单一的信号数据如脑电，认知状态也局限于单一的疲惫、负荷、情绪等。研究表明，作业人员在高专注度的作业情况下容易出现认知负荷过高的现象。最早的对认知负荷的研究是由美国心理学家Miller于1956年开展。近年来，国内外学者综合运用多种方法对认知负荷进行研究，主要包括因素分析、回归分析、人工神经网络等。在疲劳和注意力检测方面，计算机视觉的相关技术较为主流。通过检测人脸、嘴巴、姿态等多个生理特征来判断目标的疲劳和注意力状态。例如，张建明等人提出，使用计算机视觉技术采集驾驶人眼睛、嘴部图像等参数，并使用贝叶斯网络对数据融合的驾驶人状态进行判断。此外，也有学者采集脑电(EEG)信号并对其进行分析和识别，再使用BP神经网络进行分类，从而实现对大脑注意力状态的检测。目前使用脑电信号进行注意力识别的研究目前较少。

因此，为实现快速地获取人类个体的多模态态信息，精准高效地认知个体状态，本发明提出全新的多模态特征融合的作业人员多态识别系统，通过感知收集人类个体的脑电、语音、面部图像等信号，引入混合注意力机制捕获多模态信息特征及其混合关联信息，实现识别其情绪、疲劳、注意力等多态感知。

此外，多模态识别领域中训练数据系数也是亟待解决的问题之一。现有的数据库大多为针对单一状态的单一信号源。为解决训练数据稀疏问题，本发明引入在线学习，使模型能够接受作业人员对状态判别结果的反馈，根据反馈结果快速调整模型，提高模型的识别准确率。

发明内容

本发明针对上述现有技术中存在的问题，提供一种基于多模态特征融合的作业人员在线多态识别系统。

具体方案如下：

一种基于多模态特征融合的作业人员在线多态识别系统，通过配备有微型摄像头和语音接收器的可穿戴设备采集作业人员的面部图像、语音信号和多导联脑电信号。通过无线信号传输模块在信号采集模块与处理终端模块建立通信链路，将采集的数据传输至数据处理终端。在处理终端，对面部图像使用人脸识别检测器进行人脸对齐，使用卷积神经网络进行表情图像特征提取；对语音使用奇异值分解进行去噪，使用WeNet将语音信号转化为文本，最终使用Albert对文本进行语义特征提取；对原始脑电数据使用独立成分分析法和带通滤波器去除噪声干扰，使用双流混合器进行脑电特征提取。该发明设计一种基于在线学习的混合注意力机制得到多模态融合特征，使然后用多任务分类器实现多模态融合特征的负荷、疲惫和情绪的多态识别；该系统通过结果反馈模块接受作业人员的真实状态反馈，使用FTRL算法实现在线学习，根据反馈结果快速调整模型。

作为本发明的进一步改进，所述信号采集模块设计装有微型摄像头的多导联头戴式脑电采集设备收集脑电信号，并在指定间隔时间拍摄作业人员的脸部图像，收集其面部表情；使用录音设备记录作业人员的语音沟通记录，收集语音信号。

作为本发明的进一步改进，所述处理终端包括图像信号处理模块、语音信号处理模块和脑电信号处理模块，分别对采集到的原始脑电、表情图像和语音数据进行预处理和特征提取，并在处理终端上将上述所得特征输入基于多模态特征融合的在线多态识别模型得到多态识别结果。

作为本发明的进一步改进，所述图像信号处理模块对原始面部表情图像进行预处理和特征提取，该模块对采集到的原始面部图像进行归一化和对齐处理，使用人脸、标记检测算法去除图像中的背景和非人脸区域，进行人脸对齐，使用预训练好的卷积神经网络对经过上述操作的图像数据提取图像特征向量。

作为本发明的进一步改进，所述语音信号处理模块对语音数据进行预处理和特征提取，该模块对采集到的语音信号进行预加重、分帧、加窗等操作，以消除人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等因素，利用语音和噪声的不相关性，借助特征值/奇异值分解手段分解到子空间进行去噪，使用WeNet模型将语音信号转化为文本，并利用Albert语言模型，将文本编码为语义特征向量。

作为本发明的进一步改进，所述脑电信号处理模块对原始脑电数据进行预处理和特征提取，该模块对原始脑电数据去噪降维操作，使用128Hz对原始数据降采样，再使用独立成分分析法和带通滤波器去除其他生理信号的噪声干扰，计算得到其差分熵后，输进脑电特征提取模型，得到脑电特征向量，所述脑电特征提取模型是首次提出的双流混合器模型，该模型由时间流和空间流组成，每个流由多层感知器块和自注意力机制组成，从局部、全局、时间、空间多角度提取特征。

作为本发明的进一步改进，所述图像特征向量、语义特征向量和脑电特征向量输入至支持在线学习的混合注意力机制，对图像、语义、脑电特征分别进行线性转换生成对应的键、值、查询对，使用点积注意力机制提取多模态信号间的关联信息，使用残差算子融合单一模态特征与多模态关联信息，以得到多模态融合特征，所述多模态融合特征输入至降维模块，通过激活函数进行非线性运算，最后通过分类器实现负荷状态、疲惫状态、情绪状态的多态识别，模型接受作业人员的真实状态反馈，作业人员通过可穿戴设备上的结果反馈模块输入自身状态，反馈结果通过传输模块输进处理终端的在线模型，通过FTRL算法根据反馈结果快速调整模型。

相对于现有技术，本发明具有如下优点：

1)本系统通过穿戴式设备采集到的面部表情特征、语音、脑电多源信号数据，使用多种人工智能技术进行分析处理并进行数据融合，相比于单一信号，得到可以表征作业人员整体认知状态的综合效能参数，有效提高人员的状态识别准确率；

2)本系统通过实现在线学习，在实现多态感知的同时采集作业人员的脑电、图像、语音数据，通过作业人员的状态反馈快速优化模型，有效解决了训练数据稀疏问题。

3)本系统针对面部图像、语音、脑电多模态信号设计混合注意力机制，将多模态信号的键值对进行交叉匹配，获得混合多模态信号间的关联信息，以提取鉴别性特征进行多态识别。

4)本系统通过终端显示模块将作业人员的多态信息清晰明确地展现给决策人员，进而帮助决策人员根据作业人员的工作状态做出更加高效、人性化的作业安排。

附图说明

图1为系统流程图。

图2为基于多模态特征融合的在线多态识别模型结构图。

图3为混合注意力机制结构图。

具体实施方式

为了加深对本发明的理解，下面结合附图对本实施例做详细的说明。

实施例1

参见图1，一种基于多模态特征融合的作业人员在线多态识别系统。所述系统包括连接于可穿戴设备的信号采集模块，信号传输模块，处理终端，基于多模态特征融合的在线多态识别模型，终端显示模块及结果反馈模块。采集模块采集面部图像、语音和脑电信号。采集得到的信号通过无线传输模块传输至处理终端。处理终端接收到多源信号后，分别对信号进行预处理和特征提取，再通过在线识别模型分析识别得到状态。处理终端首先对多源信号进行预处理并进行特征提取，分别得到语音、脑电和图像特征向量，再将各模态特征输入混合注意力机制模块进行信息融合，进行负荷、疲惫、情绪多态识别，识别结果实时展示在显示终端。作业人员通过状态反馈模块对识别结果进行反馈，在线多态识别模型根据反馈结果对模型进行快速调整。

其中，所述采集模块包括采集面部图像的微型摄像头、采集语音信号的随身收音设备、采集脑电信号的电极贴片和头戴式可穿戴设备。多导联脑电信号采集电极贴片安置在头戴可穿戴设备内侧，微型摄像头安置在可穿戴设备的中前部，从穿戴人员的额头前上方拍摄作业人员的面部表情，作业人员佩戴微型收音设备采集作业期间沟通的语音信号。

其中，所述信号传输模块采用ZigBee无线技术，ZigBee是一种功耗低、成本低、安全高的无线通信技术，采用ZigBee的信号传输模块在信号采集模块与数据处理终端建立无线通信链路，将可穿戴设备采集的脑电、图像与语音信号传输至处理终端。

其中，所述处理终端包括图像信号处理模块、语音信号处理模块、脑电信号处理模块和基于多模态特征融合的在线多态识别模型。参见图2，本系统首先使用图像预训练模型、语音预训练模型、以及脑电特征提取模型，分别对三类信号进行预处理并提取三类信号的特征向量；然后，将图像特征、语音特征、脑电特征输入至基于多模态特征融合的在线多态识别模型。所述基于多模态特征融合的在线多态识别模型由混合注意力机制和多任务分类器组成。混合注意力机制模块通过自注意力机制和残差算子，将单一模态特征与多模态关联信息融合，以获得输出向量；多任务分类器通过训练三个不同的降维模块，将混合注意力机制得到的特征向量输入分类器，实现多任务分类，对作业人员的负荷状态、疲惫状态以及情绪状态进行识别。

其中，所述图像信号处理模块首先对面部图像进行去除背景和人脸对齐操作，再使用预训练图像模型提取图像特征。在本实例中，使用SDM人脸识别器对图像数据进行预处理，再使用ResNet34提取面部图像特征向量。

其中，所述语音信号处理模块对采集到的语音信号进行预加重、分帧、加窗等操作，以消除人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等因素，并利用语音和噪声的不相关性，借助特征值/奇异值分解手段分解到子空间进行去噪。再采用WeNet模型，将语音信号转化为文本；然后通过预训练语言模型Albert对文本进行语义编码，获得语义特征向量。

其中，所述脑电信号处理模块首先对多通道脑电进行降噪和通道归一化，脑电信号在采集过程中存在大量的干扰，如肌电干扰，基线漂移，电力线干扰，电子放大器干扰，环境扰动和眼部伪影等。在本实例中，本发明以每60秒的脑电信号作为一个样本，采用128Hz对脑电信号进行下采样，再使用独立成分分析法去除常见的其他生理信号噪声，然后使用4.0Hz-45.0Hz的带通滤波器去除其他的噪声干扰。为了能够更好地捕获脑电信号中的情绪信息，该发明在通道层面对脑电信号进行归一化处理，再计算信号的DE特征，计算公式如下：

之后，本发明使用一种新型脑电特征提取模型对脑电提取时空特征，所述脑电特征提取模型包含时间流和空间流，分别提取脑电信号的时域特征和空间域特征，每个流都包含多层感知器块和自注意力机制，从局部、全局、时间、空间多角度提取特征。

其中，所述多层感知器块的算法如下：

X_ovt＝D₂(FC₂(σ(D₁(FC₁(X)))))，

其中D₁和D₂是两个dropout函数，来缓解由不稳定脑电信号导致的过拟合问题。FC表示连接层层。由多层感知器块组成的局部模块的过程可以表述为：

I_{cross-channel}＝X+(M₁(LN(X^T)))^T，

I_in-channel＝M₂(LN(I_{cross-channel}))，

I_local＝I_{cross-channel}+I_in-channel，

其中M₁表示第一个多层感知器块，目的是获取跨通道相关信息(i.e.，I_{cross-channel})；M₂表示第二个多层感知器块，目的是捕获通道内相关信息(i.e.，I_in-channel)，LN表示层归一化，I_local是该模块的输出。上述所得数据再经自注意力机制捕获信号片段的关联信息。最终时空双流信息通过自适应叠加融合得到脑电特征向量。

所述基于多模态特征融合的在线多态识别模型构建的具体步骤如下：

如图2所示，首先，我们将由特征提取模块获得的：图像特征、语音特征以及脑电特征分割成片段，并使用点积注意力机制生成注意力分数并提取不同特征流之间的交互信息。如图3所示，在混合注意力机制模块中，设置可学习矩阵对输入图像、语音和脑电特征进行操作，分别生成图像、语音和脑电的查询矩阵(Q_i，Q_a，Q_e)、键向矩阵(K_i，K_a，K_e)和值矩阵(V_i，V_a，V_e)。将图像键矩阵K_i分别与语音查询矩阵Q_a和脑电查询矩阵Q_e在希尔伯特空间中以缩放点积的方式进行匹配，得到图像与语音和脑电的的混合注意力分数s_i，计算公式为：

s_i＝softmax(K_i ^T·Q_a，K_i ^T·Q_e)

同样地，按照如下计算得到语音与脑电的混合注意力分数：

s_a＝softmax(K_a ^T·Q_i，K_a ^T·Q_e)

s_e＝softmax(K_e ^T·Q_i，K_e ^T·Q_a)

以此得到不同模态特征之间的混合注意力分数，从而获取多模态之间的关联信息。此外，为获得融合多模态信息的状态特征。我们将混合注意力分数与输入的各单一模态特征进行残差连接，将所得多模态特征进行拼接，再通过全连接层进行特征融合，所得结果作为混合注意力模块的最终输出。计算公式如下：

f_i＝s_i·v_i+v_i

f_a＝s_a·v_a+v_a

f_e＝s_e·v_e+v_e

f＝D(f_i，f_a，f_e)

其中，v_i、v_a、v_e是经图像、语音、脑电信号处理模块得到特征向量，f_i、f_a、f_e是经过残差链接、融合了其他模态信息的图像、语音和脑电特征，上述特征经拼接后输入至全连接层，得到用于多态识别分类的多模态融合特征。

最后，我们分别设置了三个参数独立的降维模块，分别用于负荷状态、疲惫状态以及情绪状态的识别分类。其中，我们定义一个两层的全连接层：其前向传播首先经过一个全连接层，将输入特征的维度升维至128，以防止使用非线性函数所带来的信息损失；然后使用一个leakyrelu函数增加模型的非线性表征能力；最终再通过一个全连接层将其降维至类别数，并使用softmax将几率转化为概率，作为状态的预测概率，输出识别结果。所得结果通过终端显示模块展示给决策人员。作业人员通过结果反馈模块反馈自身实际状态，所述在线模型通过接收作业人员的真实状态，通过FTRL算法在线学习，快速调整模型，以提高状态识别准确率。

需要说明的是上述实施例，并非用来限定本发明的保护范围，在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims

1.一种基于多模态特征融合的作业人员在线多态识别系统，其特征在于，包括信号采集模块、信号传输模块、处理终端、基于多模态特征融合的在线多态识别模型、终端显示模块和结果反馈模块；

信号采集模块采集面部表情图像、语音信号及脑电信号；信号传输模块使用无线通信技术在信号采集模块与处理终端建立通信链路，多源信号通过信号传输模块传输至处理终端；处理终端分别对图像、语音及脑电进行预处理，输至预训练模型得到单一模态特征表示；将所得特征输入基于多模态特征融合的在线多态识别模型，实现对作业人员的情绪、疲惫、负荷的多态感知；得到的识别结果通过显示终端实时显示；作业人员通过可穿戴设备上的结果反馈模块输入自身状态，在线学习模型通过反馈结果实时快速调整模型。

2.根据权利要求1所述的一种基于多模态特征融合的作业人员在线多态识别系统，其特征在于，所述信号采集模块设计装有微型摄像头的多导联头戴式脑电采集设备收集脑电信号，并在指定间隔时间拍摄作业人员的脸部图像，收集其面部表情；使用录音设备记录作业人员的语音沟通记录，收集语音信号。

3.根据权利要求1所述的一种基于多模态特征融合的作业人员在线多态识别系统，其特征在于，所述处理终端包括图像信号处理模块、语音信号处理模块和脑电信号处理模块，分别对采集到的原始脑电、表情图像和语音数据进行预处理和特征提取，并在处理终端上将上述所得特征输入基于多模态特征融合的在线多态识别模型得到多态识别结果。

4.根据权利要求3所述的一种基于多模态特征融合的作业人员在线多态识别系统，其特征在于，所述图像信号处理模块对原始面部表情图像进行预处理和特征提取，该模块对采集到的原始面部图像进行归一化和对齐处理，使用人脸、标记检测算法去除图像中的背景和非人脸区域，进行人脸对齐，使用预训练好的卷积神经网络对经过上述操作的图像数据提取图像特征向量。

5.根据权利要求3所述的一种基于多模态特征融合的作业人员在线多态识别系统，其特征在于，所述语音信号处理模块对语音数据进行预处理和特征提取，该模块对采集到的语音信号进行预加重、分帧、加窗操作，以消除人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频因素，利用语音和噪声的不相关性，借助特征值/奇异值分解手段分解到子空间进行去噪，使用WeNet模型将语音信号转化为文本，并利用Albert语言模型，将文本编码为语义特征向量。

6.根据权利要求3所述的一种基于多模态特征融合的作业人员在线多态识别系统，其特征在于，所述脑电信号处理模块对原始脑电数据进行预处理和特征提取，该模块对原始脑电数据去噪降维操作，使用128Hz对原始数据降采样，再使用独立成分分析法和带通滤波器去除其他生理信号的噪声干扰，计算得到其差分熵后，输进脑电特征提取模型，得到脑电特征向量，所述脑电特征提取模型是首次提出的双流混合器模型，该模型由时间流和空间流组成，每个流由多层感知器块和自注意力机制组成，从局部、全局、时间、空间多角度提取特征。

7.根据权利要求4-6所述的一种基于多模态特征融合的作业人员在线多态识别系统，其特征在，所述图像特征向量、语义特征向量和脑电特征向量输入至支持在线学习的混合注意力机制，对图像、语义、脑电特征分别进行线性转换生成对应的键、值、查询对，使用点积注意力机制提取多模态信号间的关联信息，使用残差算子融合单一模态特征与多模态关联信息，以得到多模态融合特征，所述多模态融合特征输入至降维模块，通过激活函数进行非线性运算，最后通过分类器实现负荷状态、疲惫状态、情绪状态的多态识别，模型接受作业人员的真实状态反馈，作业人员通过可穿戴设备上的结果反馈模块输入自身状态，反馈结果通过传输模块输进处理终端的在线模型，通过FTRL算法根据反馈结果快速调整模型。