CN117115581A

CN117115581A - 一种基于多模态深度学习的智能误操作预警方法及系统

Info

Publication number: CN117115581A
Application number: CN202310926455.5A
Authority: CN
Inventors: 郭洪锐; 邓凯; 吉星宇恒; 姚美定
Original assignee: Three Gorges Jinsha River Yunchuan Hydropower Development Co ltd
Current assignee: Three Gorges Jinsha River Yunchuan Hydropower Development Co ltd
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-11-24

Abstract

本发明公开了一种基于多模态深度学习的智能误操作预警方法，涉及多模态深度学习领域，包括在关键设备区域安装图像采集设备，采集包含设备、部件和手势的图像数据，并录制操作人员的语音指令样本；构建图像数据集和语音数据集；对图像数据集和语音数据集进行预处理；基于深度学习算法建立图像识别模型和语音识别模型，将图像识别模型和语音识别模型进行联合训练，并输出判断结果；设计树状评估模型，将图像识别结果、语音识别结果和设备实时状态数据作为特征，计算误操作风险概率；基于最终误操作概率结果设定误操作预警规则。本发明构建了图像分类与语音识别的多任务深度学习模型，相比单一数据源，能够更准确地理解操作内容。

Description

一种基于多模态深度学习的智能误操作预警方法及系统

技术领域

本发明涉及多模态深度学习领域，特别是一种基于多模态深度学习的智能误操作预警方法及系统。

背景技术

随着社会的发展，各类大型设备和关键基础设施的智能化水平不断提升，但是设备运行管理中仍然存在人为误操作的风险，这会导致设备损坏和事故发生。为降低误操作风险，提高系统安全稳定性，迫切需要能够实时监控人员操作过程并智能评估误操作风险的新技术。

目前，图像识别和语音识别技术已得到广泛研究和应用，利用深度学习模型，可以实现操作图像中的目标识别和语音指令的理解。但是将图像识别和语音识别技术应用于工业安全管理方面研究还比较少，现有的方法主要依赖单一的数据源，且缺乏对复杂情况的风险评估能力。

发明内容

鉴于现有的智能误操作预警方法主要依赖单一的数据源，且缺乏对复杂情况的风险评估能力存在的问题，提出了本发明。

因此，本发明所要解决的问题在于如何将图像识别和语音识别技术联合训练，实现对复杂情况的风险评估。

为解决上述技术问题，本发明提供如下技术方案：

第一方面，本发明实施例提供了一种基于多模态深度学习的智能误操作预警方法，其包括在关键设备区域安装图像采集设备，采集包含设备、部件和手势的图像数据，并录制操作人员的语音指令样本；对采集到的图像数据进行标注，提取关键特征，并将语音样本转换文本，构建图像数据集和语音数据集；对图像数据集和语音数据集进行预处理；基于深度学习算法建立图像识别模型和语音识别模型，将图像识别模型和语音识别模型进行联合训练，并输出判断结果；设计树状评估模型，将图像识别结果、语音识别结果和设备实时状态数据作为特征，计算误操作风险概率；基于最终误操作概率结果设定误操作预警规则。

作为本发明所述基于多模态深度学习的智能误操作预警方法的一种优选方案，其中：构建图像数据集和语音数据集包括以下步骤：对采集的图像数据进行手动标注，并分类标注目标类别；利用图像处理技术提取图像的颜色、纹理和形状的视觉特征，并进行向量化表示，作为模型输入；对录制的语音进行转录，获取文本内容，并根据文本内容标注操作动词、目标和语义角色；将图像标注结果与语音转录文本合并保存；按8：2划分训练集和验证集，构建可供模型训练和评估的图像数据集与语音数据集。

作为本发明所述基于多模态深度学习的智能误操作预警方法的一种优选方案，其中：对图像数据集和语音数据集进行预处理包括对图像数据集进行预处理和对语音数据集进行预处理，所述对图像数据集进行预处理包括以下步骤：检查图像标注，修改错标和漏标；通过镜像、旋转、裁剪以及添加噪声方式对图像数据进行增强；对增强后的图像数据进行归一化处理，将像素值归一到[0，1]区间；基于attention机制裁剪感兴趣区域；构建数据生成器，实现批量预处理和增强的流式读取；所述对语音数据集进行预处理包括以下步骤：检查语义标注，修改语义解析错误；音素分割，提取音素级时间特征作为声学模型输入；利用词语语义相似度进行文本正则化；构建语料生成器，用mini-batch方式提供稳定数据流。

作为本发明所述基于多模态深度学习的智能误操作预警方法的一种优选方案，其中：对增强后的图像数据进行归一化处理包括以下步骤：计算图像数据集在RGB三个通道上的整体均值R_mean、G_mean、B_mean和标准差R_std、G_std、B_std；提取RGB三通道的像素值矩阵R、G、B；进行图像通道的均值方差归一化操作，具体公式如下：

其中，R为图像中红通道的像素值矩阵，R_mean为红通道的均值，R_std为红通道的标准差。

其中，G为图像中绿通道的像素值矩阵，G_mean为绿通道的均值，G_std为绿通道的标准差。

其中，B为图像中蓝通道的像素值矩阵，B_mean为蓝通道的均值，B_std为蓝通道的标准差。

将处理后的R、G、B像素值重构为图像。

作为本发明所述基于多模态深度学习的智能误操作预警方法的一种优选方案，其中：将图像识别模型和语音识别模型进行联合训练包括以下步骤：构建卷积神经网络作为图像识别模型；构建注意力机制的序列到序列模型作为语音识别模型；设计多任务学习框架，联合训练图像识别模型和语音识别模型，实现语音和图像特征的共享；在验证集上评估模型性能，调整超参数以提高识别准确率，获得满足要求的图像识别结果和语音识别结果；构建注意力机制的序列到序列模型作为语音识别模型包括以下步骤：使用卷积神经网络CNN提取语音信号的Mel频谱特征；应用序列到序列模型，并使用BeamSearch解码；对每个候选词w_i，在其后添加所有可能的下一个词，形成K个新候选词集{S_i}；对每个候选词集S_i中的每个新序列，计算序列概率的具体公式如下：

P(new_seq)＝P(w_i)·P(new_word|w_i)

其中，P(new_seq)为新生成序列的概率，P(new_word|w_i)为在w_i后添加新词new_word的条件概率，P(w_i)为候选词w_i的概率。

对每个候选词集S_i，选择概率最大的前K个新序列保留；将所有S_i的保留序列合并，得到当前时刻的K个最优候选序列；重复步骤，遍历下一个词，直到某个序列生成了endtoken；在所有生成endtoken的序列中，选择概率最大的那一个作为最终解码结果；标注语义角色；对解码得到的文本，添加BIO标注表示语义角色标签；构建条件随机场CRF模型进行训练；使用标注过的文本作为训练数据，最大化条件概率进行模型训练，计算P(Y|X)的具体公式如下：

其中，f_i为第i个特征函数，λ_i为第i个特征函数对应的权重参数，Z(X)为规范化因子。

设置文本特征优化模型效果；采用n折交叉验证评估模型效果；使用训练好的CRF模型对新文本序列进行解码，得到语义角色标注结果；反复增强训练数据，迭代优化模型。

作为本发明所述基于多模态深度学习的智能误操作预警方法的一种优选方案，其中：计算误操作风险概率包括以下步骤：构建决策树模型，设置导致误操作的场景作为决策节点；将图像识别结果、语音识别结果、设备电流、电压、温度、设备振动、功率参数作为决策树的特征；通过信息增益指标选择最优特征，训练决策树模型；计算各特征信息增益值的具体公式如下：

其中，Gain(A)为特征A的信息增益值，|D_j|子集D_j的样本数量，D为原数据集D的样本数量，p(x)为样本在数据集D或子集D_j中的概率分布。

根据计算的信息增益值对所有特征进行排序，选择信息增益值最大的特征作为最优特征，并按最优特征的值将训练数据集分割成子数据集；对分割出的子数据集递归重复生成决策树模型；使用验证集对已生成的决策树进行后剪枝；基于决策树结果输出误操作类别发生的概率；输入样本的特征，从根节点开始遍历决策树得到叶节点的概率分布P；设置误操作类别权重向量W＝[w₁,w₂,...]；计算向量P中所有误操作类别概率的加权平均，作为整体误操作概率p，具体公式如下：

其中，p为整体误操作概率，p_i表示类别i的概率，w_i表示类别i的权重。

返回p作为最终误操作概率结果。

作为本发明所述基于多模态深度学习的智能误操作预警方法的一种优选方案，其中：基于最终误操作概率结果设定误操作预警规则包括以下步骤：设置不同预警级别的阈值；当p<0.4，则无预警，此时无需采取操作，继续监测；当0.4≤p<0.7，则显示低级别预警，此时语音提示“检测到轻度异常，请提高警惕，注意检查操作步骤”；若0.7≤p<0.9，则显示中级别预警，此时语音提示“检测到中度风险，请您仔细确认操作对象和流程，避免误操作”，操作人员确认后才可继续操作；若p≥0.9，则显示高级别预警，此时语音提示“检测到严重异常，系统将自动暂停操作，请检查设备状态和操作环境，联系管理员后方可重新启动”，人工检查后才可重启；比较整体误操作概率p与各级别阈值；根据p落在的阈值区间确定预警级别，触发相应级别的预警。

第二方面，本发明实施例提供了一种基于多模态深度学习的智能误操作预警系统，其包括数据采集模块，用于在关键设备区域采集包含设备部件、人员动作的图像数据，以及操作人员的语音指令样本；数据预处理模块，用于对采集的图像数据进行分类标注，提取视觉特征，并对语音数据进行转录与语义角色标注，最终构建可供训练的图像数据集和语音数据集；模型构建模块，用于构建基于卷积神经网络的图像识别模型，以及基于循环神经网络的语音识别模型，并实现两类模型的多任务联合学习，提升识别准确率；决策树评估模块，用于构建决策树模型，融合图像识别结果、语音识别结果和设备实时数据，评估误操作风险概率；多级联动预警，用于根据决策树输出的误操作概率，设置不同级别的联动预警规则，在超过预警阈值时，进行语音提示。

第三方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中：所述计算机程序指令被处理器执行时实现如本发明第一方面所述的基于多模态深度学习的智能误操作预警方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中：所述计算机程序指令被处理器执行时实现如本发明第一方面所述的基于多模态深度学习的智能误操作预警方法的步骤。

本发明有益效果为：本发明实现了对设备操作过程的实时监控，能够动态捕捉可能出现的各类误操作行为，避免传统依赖人工检查存在的监测盲区；构建了图像分类与语音识别的多任务深度学习模型，相比单一数据源，能够更准确地理解操作内容；利用决策树模型进行多源异构数据融合，实现了对误操作风险的智能评估和预警，避免了主观猜测带来的误报误判；实现了不同级别的联动预警，可以有效减少误操作并降低事故发生的概率，提高了系统安全性与稳定性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为实施例1基于多模态深度学习的智能误操作预警方法的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

实施例1

参照图1，为本发明第一个实施例，该实施例提供了一种基于多模态深度学习的智能误操作预警方法，包括，

S1：在关键设备区域安装图像采集设备，采集包含设备、部件和手势的图像数据，并录制操作人员的语音指令样本。

具体的，在关键设备的操作面板和出入口等关键部位安装高清工业相机，调整多个视角，确保设备各个关键部位都被完整覆盖，选择支持夜视功能的高清工业相机型号，以保证可以24小时不间断地对设备区域进行图像采集，将高清工业相机的拍摄帧率设置为每秒5帧，以获取完整的动作手势数据，操作人员佩戴可录音的智能耳机，全程采集语音指令，语音采集同步记录工作内容语境信息，确保语义理解的准确性。

进一步的，将采集到的图像和语音的数据全部传输至后端服务器，并添加时间戳与设备坐标标签等标签信息，在服务器上手动检查数据，剔除无效样本，并根据采集情况，适当增加样本量，获得高质量的训练数据集。

需要说明的是，在本实施例中，采集图像类型包括正常操作图像、误操作图像和维护检修图像等，采集的语音信息包含操作人员的语音指令，以及与工作内容相关的语境对话。

S2：对采集到的图像数据进行标注，提取关键特征，并将语音样本转换文本，构建图像数据集和语音数据集。

具体的，包括以下步骤：

S2.1：对采集的图像数据进行手动标注，并分类标注目标类别。

具体的，使用标注工具打开图像，绘制矩形框标注目标区域(如设备的关键部位、操作人员的手)，为每个矩形框添加分类标签(如“开关门”、“阀门”)，检查标注是否准确，如有错误则修改错误标注，并按类别统计标注结果。

S2.2：利用图像处理技术提取图像的颜色、纹理和形状等视觉特征，并进行向量化表示，作为模型输入。

优选的，将图像从RGB空间转换到其他颜色空间，计算各颜色通道的统计特征(如平均值和标准差)，构建颜色直方图表示各bin的像素比例，拼接不同颜色空间下的特征，形成颜色特征向量；使用LBP、GLCM等算法提取纹理特征，LBP特征计算图像局部模式分布，GLCM特征计算像素级共生矩阵的对比度和关联性，拼接不同方法的特征形成纹理特征向量；使用轮廓检测算法提取目标形状轮廓，计算轮廓的周长、面积、凸包面积等形状描述子，应用傅里叶描述子提取轮廓形状特征，构建形状特征向量表示轮廓信息；将上述颜色、纹理、形状特征拼接形成图像全局特征，使用PCA等方法降维，获得固定长度的特征向量，对特征向量进行归一化，将值映射到[0,1]区间。

S2.3：对录制的语音进行转录，获取文本内容，并根据文本内容标注操作动词、目标和语义角色。

具体的，基于深度学习构建语音识别模型，训练后预测转录，得到语音对应的文本内容，一句话为一个样本；对转录文本，标注出操作动词(执行的操作)、动词的施事者(谁执行的操作)和动词的受事者(操作作用的对象)，使用BIO标注法，标注语义角色的开始(B)、中间(I)和结束(O)；使用Propbank物料标注语义角色，统计各类别标注结果。

S2.4：将图像标注结果与语音转录文本合并保存。

S2.5：按8：2划分训练集和验证集，构建可供模型训练和评估的图像数据集与语音数据集。

S3：对图像数据集和语音数据集进行预处理。

S3.1：对图像数据集进行预处理。

具体的，包括以下步骤：

S3.1.1：检查图像标注，修改错标和漏标。

优选的，逐张查看图像和标注，修改漏标、错标、粗标等错误。

S3.1.2：通过镜像、旋转、裁剪以及添加噪声等方式对图像数据进行增强。

S3.1.3：对增强后的图像数据进行归一化处理，将像素值归一到[0，1]区间。

具体步骤如下：

S3.1.3.1：计算图像数据集在RGB三个通道上的整体均值和标准差。

具体的，整个图像数据集中，红通道、绿通道、蓝通道的均值分别为R_mean、G_mean、B_mean，红通道、绿通道、蓝通道的标准差分别为R_std、G_std、B_std。

S3.1.3.2：提取RGB三通道的像素值矩阵。

需要说明的是，在本实施例中，R、G、B分别表示图像中红、绿、蓝三个颜色通道的像素值矩阵。

S3.1.3.3：进行图像通道的均值方差归一化操作。

具体公式如下：

需要说明的是，上述公式可以把每个图像的红通道像素值、绿通道像素值和蓝通道像素值归一化到均值为0，标准差为1的正常分布中，可以消除不同图像之间的均值和方差差异，把像素值映射到同一坐标系下，便于不同图像间的可比性。

S3.1.3.4：将处理后的R、G、B像素值重构为图像。

具体的，在进行了图像RGB三个通道的均值方差归一化处理后，需要将归一化后的R、G、B像素矩阵重新组合起来，重建为一张新的图像。

S3.1.4：基于attention机制裁剪感兴趣区域。

优选的，构建注意力模块，输入是图像特征，输出是各区域的attention权重，使用图像分割算法提取候选区域proposals，计算每个proposal与attention权重的相似度，选择与attention权重最相似的前N个proposal作为感兴趣区域，裁剪并扩充这些区域，形成增强后的感兴趣图像。

需要说明的是，注意力(attention)机制是近年来在深度学习中很流行的一种技术，它的主要作用是让模型能够聚焦于目标的相关部分，以此来提升模型的表现。

S3.1.5：构建数据生成器，实现批量预处理和增强的流式读取。

S3.2：对语音数据集进行预处理。

具体的，包括以下步骤：

S3.2.1：检查语义标注，修改语义解析错误。

具体的，逐条查看文本语义标注结果，修改标注与语义不符的错误，确保标注准确，并统计错误标注的类别和数量，分析其原因。

S3.2.2：音素分割，提取音素级时间特征作为声学模型输入。

优选的，使用语音识别模型实现语音到文本及音素序列的转换，将语音波形按音素边界分割，提取音素级MFCC、FBANK等时间特征构建音素级别的声学模型输入。

需要说明的是，MFCC和FBANK都是语音识别领域中常用的音频特征表示方法，MFCC能强调语音中的峰谷特征，常用于语音识别系统中，FBANK(滤波器组倒谱)和MFCC类似，也是一种基于人耳非线性感知的音频特征，不同的是FBANK直接使用滤波器组功率谱，而不做额外的离散余弦变换，在本发明中，我们提到两种特征都可以用来表示语音段的时频信息，构建音素级别的语音识别模型输入。

S3.2.3：利用词语语义相似度进行文本正则化。

进一步的，对低频词，利用词向量技术搜索语义相似词汇，计算相似词汇的语义相似度，选择最相似的词替换，最终获得规范化的标准词汇语料。

具体的，使用大规模语料训练词向量，使语义相似的词汇在向量空间中距离较近；对于需要替换的低频词，找到其在向量空间中的词向量表示；计算该词向量与全部词典词向量的余弦相似度；选择与该词向量最相似(余弦相似度最大)的前k个词；从这k个候选词中，选择一个合适的词汇来替换该低频词。

具体的，余弦相似度的计算公式如下：

其中，A、B为A和B的欧式长度，A·B为A与B的内积。

S3.2.4：构建语料生成器，用mini-batch方式提供稳定数据流。

S3.3：定义误操作类别。

需要说明的是，根据不同设备的特点，事先与领域专家讨论，明确定义误操作场景，并将其映射到图像及语音信息中，标记出构成误操作的动作、语音指令、手势等情况，作为误操作类别。

S4：基于深度学习算法建立图像识别模型和语音识别模型，将图像识别模型和语音识别模型进行联合训练，并输出判断结果。

S4.1：构建卷积神经网络作为图像识别模型。

优选的，使用预训练模型ResNet34作为backbone，并在顶部添加分类全连接层，针对关键部位和操作动作进行多分类，具体的，包括以下步骤：

S4.1.1：使用图像数据集对ResNet34模型进行预训练。

需要说明的是，使用图像数据集对ResNet34进行预训练时，采用交叉熵损失函数来优化分类任务，使用SGD优化器和小批量随机梯度下降法来更新模型参数训练，将训练batchsize设置为256，初始学习率设置为0.1，然后随着训练逐步衰减学习率，最终Decay到1e-5，训练模型直到交叉熵损失函数值收敛，这时说明模型训练充分，可以保存下来用于图像特征提取。

S4.1.2：冻结前面的卷积层，添加全局平均池化层和Dropout层。

具体的，加载预训练的ResNet34模型，模型包含多个卷积块，每个块中有若干卷积层；冻结前面1-4个残差块中的卷积层参数(即不允许这些层的参数在fine-tune过程中被更新)；在冻结的卷积层后面添加全局平均池化层，将最后一个卷积层的特征图转化为固定长度的特征向量；在全局平均池化层后面添加Dropout层，以一定概率随机置零一些节点；全局平均池化层和Dropout层作为预训练网络结构和后面的分类层之间的过渡。

需要说明的是，在本实施例中Dropout概率设为0.5，fine-tune是指在迁移学习场景下基于预训练模型进行的模型微调。

S4.1.3：在顶部添加与类别数匹配的全连接层。

进一步的，输入为步骤S4.1.2中全局平均池化层的输出，第一个全连接层包含512个节点，第二个全连接层节点数为分类目标的类别数N，使用ReLU激活函数引入非线性，在第二个全连接层后面添加Softmax激活函数，Softmax将每个类别的预测概率映射到(0，1)区间且归一化。

需要说明的是，backbone为骨干网络，指深度学习模型中负责特征提取的基础模块。

S4.2：构建注意力机制的序列到序列模型作为语音识别模型。

优选的，使用CNN提取音频特征，然后使用GRU等循环网络进行语音识别，输出文本并标注语义角色。

具体的，包括以下步骤：

S4.2.1：使用卷积神经网络(CNN)提取语音信号的Mel频谱特征。

需要说明的是，输入语音波形，帧长25ms，帧移10ms；对每帧语音做傅里叶变换，提取能量谱；对数梅尔滤波器组提取Mel频谱特征；卷积层提取时频特征，输出语音Mel谱图。

S4.2.2：应用序列到序列模型，包含编码器和解码器。

具体的，编码器是双向GRU网络，输入Mel谱图，输出语音特征；解码器是基于注意力机制的单向GRU网络，进行语音识别；使用BeamSearch解码，输出识别结果文本。

需要说明的是，使用BeamSearch解码包括以下步骤：

S4.2.2.1：对每个候选词w_i，在其后添加所有可能的下一个词，形成K个新候选词集{S_i}。

S4.2.2.2：对每个候选词集S_i中的每个新序列，计算序列概率。

具体公式如下：

P(new_seq)＝P(w_i)·P(new_word|w_i)

S4.2.2.3：对每个候选词集S_i，选择概率最大的前K个新序列保留。

S4.2.2.4：将所有S_i的保留序列合并，得到当前时刻的K个最优候选序列。

S4.2.2.5：重复上述步骤，遍历下一个词，直到某个序列生成了endtoken。

需要说明的是，endtoken在序列生成任务中是一个特殊的符号，表示一个序列的结束。

S4.2.2.6：在所有生成endtoken的序列中，选择概率最大的哪一个作为最终解码结果。

S4.2.3：标注语义角色。

具体的，包括以下步骤：

S4.2.3.1：对解码得到的文本，添加BIO标注表示语义角色标签。

需要说明的是，BIO标记中B表示语义成分的开始词语，I表示语义成分的中间词语，O表示不属于任何语义成分的词语。

S4.2.3.2：构建条件随机场(CRF)模型进行训练。

优选的，输入的是词序列，输出的是语义角色的BIO标签。

进一步的，包括以下步骤：

S4.2.3.2.1：使用标注过的文本作为训练数据，最大化条件概率进行模型训练。

具体的，训练数据包括输入序列X和对应的输出序列Y(语义角色标注序列)，定义特征函数f₁,f₂,...,f_k描述X和Y之间的关系。

进一步的，计算P(Y|X)的具体公式如下：

其中，f_i为第i个特征函数(描述输入X和输出Y的关系)，λ_i为第i个特征函数对应的权重参数，Z(X)为规范化因子。

S4.2.3.2.2：设置文本特征优化模型效果。

具体的，以词形、词性、依存关系作为基础特征，以词向量表示、词对信息作为高级特征，将基础特征和高级特征相结合作为CRF模型输入。

S4.2.3.2.3：采用n折交叉验证评估模型效果。

具体的，将所有标注语料分割为n份(在本实施例中n＝10)；取其中一份作为测试集，其余n-1份作为训练集；在训练集上训练CRF模型，然后在测试集上测试；计算测试集上的评价指标(如准确率、精确率、召回率等)；更换测试集，重复步骤n次；计算n次测试结果的平均值，作为最终评价指标。

S4.2.3.2.4：使用训练好的CRF模型对新文本序列进行解码，得到语义角色标注结果。

具体的，输入新文本序列X，进行分词和预处理，转换为模型可接受的输入格式；使用训练好的CRF模型，根据学习到的特征函数和权重参数，计算输入序列X对应的所有可能输出序列Y的条件概率P(Y|X)；在所有可能的Y序列中找到概率P(Y|X)最大的输出序列Y*；重复上述流程，对大量新文本进行解码，得到语义角色数据集。

S4.2.3.2.5：反复增强训练数据，迭代优化模型，提高标注效果。

S4.3：设计多任务学习框架，联合训练图像识别模型和语音识别模型，实现语音和图像特征的共享。

优选的，从图像识别模型ResNet34中选择前3个残差块作为共享层，这些卷积层可提取通用的图像特征；共享层之后定义两个分支包括图像识别分支和语音识别分支，其中图像识别分支接一个全局平均池化层、全连接层做分类，语音识别分支接双向GRU层、注意力层做序列标注；将共享层及两个分支组合，输入端接入图像数据和语音数据，最终形成以共享层为底、两个分支为顶的多任务网络结构；图像识别分支损失采用交叉熵损失函数，语音识别分支损失采用CTC损失函数，联合损失函数为二者的加权和，权重超参数需调优；同时输入图像数据和语音数据进行多任务联合训练，反向传播更新共享层及两个分支的参数。

S4.4：在验证集上评估模型性能，调整超参数以提高识别准确率，获得满足要求的图像识别结果和语音识别结果。

具体的，此步骤可获得图像识别效果和语音识别效果均优异的多任务学习模型。

S5：设计树状评估模型，将图像识别结果、语音识别结果和设备实时状态数据作为特征，计算误操作风险概率。

具体的，包括以下步骤：

S5.1：构建决策树模型，设置可能导致误操作的场景作为决策节点。

具体的，可能导致误操作的场景包括操作方式错误、操作对象错误、操作顺序错误等。

S5.2：将图像识别结果、语音识别结果、设备电流、电压、温度、设备振动、功率参数作为决策树的特征。

S5.3：通过信息增益指标选择最优特征，训练决策树模型。

具体的，包括以下步骤：

S5.3.1：计算各特征的信息增益值。

具体公式如下：

其中，Gain(A)为特征A的信息增益值，D_j子集D_j的样本数量，D为原数据集D的样本数量，p(x)为样本在数据集D或子集D_j中的概率分布。

S5.3.2：根据计算的信息增益值，对所有特征进行排序。

具体的，信息增益值越大，其区分样本的能力越强，排在前面的特征更有价值，所以从排序后的特征序列中，选择信息增益值最大的特征作为最优特征，并按最优特征的值将训练数据集分割成子数据集。

S5.3.3：对分割出的子数据集递归重复生成决策树模型。

具体的，对分割出的子数据集递归重复步骤S5.3.1-S5.3.3，直到数据集熵为0或达到预定最大深度，此时生成决策树模型。

S5.3.4：使用验证集对已生成的决策树进行后剪枝。

需要说明的是，此处的剪枝是为了防止过度拟合。

S5.4：基于决策树结果输出误操作类别发生的概率。

S5.4.1：输入样本的特征，从根节点开始遍历决策树得到叶节点的概率分布P。

具体的，递归判断特征值，直到达到叶节点，获得该叶节点存储的各类别概率分布P＝{p₁,p₂,...}，其中p_i表示样本属于类别i的概率。

S5.4.2：设置误操作类别权重向量W＝[w₁,w₂,...]。

具体的，在本实施例中，经过与电站专家讨论确认，误操作类别包括参数超调、违规操作、错误设备选择、指令混淆以及步骤错误，对应的权重分别为0.3、0.35、0.15、0.1、0.1。

S5.4.3：计算向量P中所有误操作类别概率的加权平均，作为整体误操作概率p。

具体公式如下：

S5.4.3：返回p作为最终误操作概率结果。

S6：基于最终误操作概率结果设定误操作预警规则。

S6.1：设置不同预警级别的阈值。

具体的，在本实施例中，预警阈值p为0.4，0.7，0.9。

当p<0.4，则无预警，此时无需采取操作，继续监测。

当0.4≤p<0.7，则显示低级别预警，此时语音提示“检测到轻度异常，请提高警惕，注意检查操作步骤”。

若0.7≤p<0.9，则显示中级别预警，此时语音提示“检测到中度风险，请您仔细确认操作对象和流程，避免误操作”，操作人员确认后才可继续操作。

若p≥0.9，则显示高级别预警，此时语音提示“检测到严重异常，系统将自动暂停操作，请检查设备状态和操作环境，联系管理员后方可重新启动”，人工检查后才可重启。

需要说明的是，0.4作为低级别预警的阈值是因为当概率大于0.4时，表示已经有一定的异常迹象，但可能性不大，属于轻微风险；0.7作为中级别预警的阈值是因为当概率超过0.7时，表示异常可能性较大，已经属于中等风险，这时需要提示操作人员仔细检查，避免误操作导致事故；0.9作为高级别预警的阈值是因为概率达到0.9意味着异常可能性极大，属于高风险状况，这时有必要自动暂停操作，并进行人工检查，以防止严重后果的发生。

进一步的，综合考虑风险程度和操作影响，选取0.4、0.7、0.9作为三个预警级别的阈值设置，可以达到提醒、防范和控制风险的效果，使系统既灵敏又稳健。

S6.2：比较步骤S5.4输出的整体误操作概率p与步骤S6.1中各级别阈值。

S6.3：根据p落在的阈值区间确定预警级别，触发相应级别的预警。

进一步的，本实施例还提供基于多模态深度学习的智能误操作预警方法，包括数据采集模块，用于在关键设备区域采集包含设备部件、人员动作的图像数据，以及操作人员的语音指令样本；数据预处理模块，用于对采集的图像数据进行分类标注，提取视觉特征，并对语音数据进行转录与语义角色标注，最终构建可供训练的图像数据集和语音数据集；模型构建模块，用于构建基于卷积神经网络的图像识别模型，以及基于循环神经网络的语音识别模型，并实现两类模型的多任务联合学习，提升识别准确率；决策树评估模块，用于构建决策树模型，融合图像识别结果、语音识别结果和设备实时数据，评估误操作风险概率；多级联动预警，用于根据决策树输出的误操作概率，设置不同级别的联动预警规则，在超过预警阈值时，进行语音提示

本实施例还提供一种计算机设备，适用于基于多模态深度学习的智能误操作预警方法的情况，包括存储器和处理器；存储器用于存储计算机可执行指令，处理器用于执行计算机可执行指令，实现如上述实施例提出的基于多模态深度学习的智能误操作预警方法。

该计算机设备可以是终端，该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：在关键设备区域安装图像采集设备，采集包含设备、部件和手势的图像数据，并录制操作人员的语音指令样本；对采集到的图像数据进行标注，提取关键特征，并将语音样本转换文本，构建图像数据集和语音数据集；对图像数据集和语音数据集进行预处理；基于深度学习算法建立图像识别模型和语音识别模型，将图像识别模型和语音识别模型进行联合训练，并输出判断结果；设计树状评估模型，将图像识别结果、语音识别结果和设备实时状态数据作为特征，计算误操作风险概率；基于最终误操作概率结果设定误操作预警规则。

综上，本发明实现了对设备操作过程的实时监控，能够动态捕捉可能出现的各类误操作行为，避免传统依赖人工检查存在的监测盲区；构建了图像分类与语音识别的多任务深度学习模型，相比单一数据源，能够更准确地理解操作内容；利用决策树模型进行多源异构数据融合，实现了对误操作风险的智能评估和预警，避免了主观猜测带来的误报误判；实现了不同级别的联动预警，可以有效减少误操作并降低事故发生的概率，提高了系统安全性与稳定性。

实施例2

参照图1，为本发明第二个实施例，该实施例提供了一种基于多模态深度学习的智能误操作预警方法，为了验证本发明的有益效果，通过经济效益计算和仿真实验进行科学论证。

优选的，在某电站的发电机组区域安装高清工业相机和语音采集设备，操作人员佩戴智能语音采集耳机，共采集了5000张图像数据和4000条语音数据，对图像数据进行分类标注，获得带标签的图像，提取图像的颜色、纹理、形状特征，形成特征向量，并对语音进行转录和语义角色标注，将图像标注结果与语音转录文本合并保存，划分出训练集和验证集，其中训练集中图像数据集有1000条，语音数据集有800条，验证集中图像数据集4000条，语音数据集3200条。

进一步的，对图像数据集和语音数据集进行预处理并定义误操作类别，基于深度学习算法建立图像识别模型和语音识别模型，构建卷积神经网络作为图像识别模型，进行调优图像分类准确率86％；注意力GRU语音识别模型，语音转文本准确率达到83％；设计多任务学习框架，联合训练图像识别模型和语音识别模型，其中图像准确率90％，语音准确率88％。

进一步的，设计树状评估模型，将图像识别结果、语音识别结果和设备实时状态数据作为特征，计算误操作风险概率，可得决策树预测的误操作概率为0.72，再将误操作概率与各级别阈值进行比较，可得此时语音播报“检测到中度风险，请您仔细确认操作对象和流程，避免误操作”，提示操作人员重新确认。

优选的，可得出图像识别模型、语音识别模型和联合训练模型的对比数据如表1和表2所示。

表1联合训练模型与图像识别模型对比

模型	准确率	召回率	F1值
				图像识别模型	86％	89％	0.90
联合训练模型	90％	93％	0.95

进一步的，从表1可以看出，联合训练模型与单独的图像识别模型对比起来，准确率提升了4％，召回率提高了4％，F1值提升了0.05，联合训练模型在准确率、召回率和F1值上的优势可以提高图像识别任务的效果，使模型更准确地识别图像中的目标物体或特征。

表2联合训练模型与语音识别模型对比

模型	准确率	召回率	F1值
				语音识别模型	83％	86％	0.87
联合训练模型	88％	92％	0.91

进一步的，从表2可以看出，联合训练模型与单独的语音识别模型对比起来，准确率提升了4％，召回率提高了6％，F1值提升了0.04，联合训练模型通过结合多个模型的预测结果，可以更准确地识别语音，更好地捕捉到语音中的重要信息，减少漏报的情况，能够更全面地识别语音中的内容。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多模态深度学习的智能误操作预警方法，其特征在于：包括，

在关键设备区域安装图像采集设备，采集包含设备、部件和手势的图像数据，并录制操作人员的语音指令样本；

对采集到的图像数据进行标注，提取关键特征，并将语音样本转换文本，构建图像数据集和语音数据集；

对图像数据集和语音数据集进行预处理；

基于深度学习算法建立图像识别模型和语音识别模型，将图像识别模型和语音识别模型进行联合训练，并输出判断结果；

设计树状评估模型，将图像识别结果、语音识别结果和设备实时状态数据作为特征，计算误操作风险概率；

基于最终误操作概率结果设定误操作预警规则。

2.如权利要求1所述的基于多模态深度学习的智能误操作预警方法，其特征在于：所述构建图像数据集和语音数据集包括以下步骤：

对采集的图像数据进行手动标注，并分类标注目标类别；

利用图像处理技术提取图像的颜色、纹理和形状的视觉特征，并进行向量化表示，作为模型输入；

对录制的语音进行转录，获取文本内容，并根据文本内容标注操作动词、目标和语义角色；

将图像标注结果与语音转录文本合并保存；

按8：2划分训练集和验证集，构建可供模型训练和评估的图像数据集与语音数据集。

3.如权利要求1所述的基于多模态深度学习的智能误操作预警方法，其特征在于：所述对图像数据集和语音数据集进行预处理包括对图像数据集进行预处理和对语音数据集进行预处理，

所述对图像数据集进行预处理包括以下步骤：

检查图像标注，修改错标和漏标；

通过镜像、旋转、裁剪以及添加噪声方式对图像数据进行增强；

对增强后的图像数据进行归一化处理，将像素值归一到[0，1]区间；

基于attention机制裁剪感兴趣区域；

构建数据生成器，实现批量预处理和增强的流式读取；

所述对语音数据集进行预处理包括以下步骤：

检查语义标注，修改语义解析错误；

音素分割，提取音素级时间特征作为声学模型输入；

利用词语语义相似度进行文本正则化；

构建语料生成器，用mini-batch方式提供稳定数据流。

4.如权利要求3所述的基于多模态深度学习的智能误操作预警方法，其特征在于：所述对增强后的图像数据进行归一化处理包括以下步骤：

计算图像数据集在RGB三个通道上的整体均值R_mean、G_mean、B_mean和标准差R_std、G_std、B_std；

提取RGB三通道的像素值矩阵R、G、B；

进行图像通道的均值方差归一化操作，具体公式如下：

其中，R为图像中红通道的像素值矩阵，R_mean为红通道的均值，R_std为红通道的标准差；

其中，G为图像中绿通道的像素值矩阵，G_mean为绿通道的均值，G_std为绿通道的标准差；

其中，B为图像中蓝通道的像素值矩阵，B_mean为蓝通道的均值，B_std为蓝通道的标准差；

将处理后的R、G、B像素值重构为图像。

5.如权利要求1所述的基于多模态深度学习的智能误操作预警方法，其特征在于：所述将图像识别模型和语音识别模型进行联合训练包括以下步骤：

构建卷积神经网络作为图像识别模型；

构建注意力机制的序列到序列模型作为语音识别模型；

设计多任务学习框架，联合训练图像识别模型和语音识别模型，实现语音和图像特征的共享；

在验证集上评估模型性能，调整超参数以提高识别准确率，获得满足要求的图像识别结果和语音识别结果；

所述构建注意力机制的序列到序列模型作为语音识别模型包括以下步骤：

使用卷积神经网络CNN提取语音信号的Mel频谱特征；

应用序列到序列模型，并使用Beam Search解码；

对每个候选词w_i，在其后添加所有可能的下一个词，形成K个新候选词集{S_i}；

对每个候选词集S_i中的每个新序列，计算序列概率的具体公式如下：

P(new_seq)＝P(w_i)·P(new_word|w_i)

其中，P(new_seq)为新生成序列的概率，P(new_word|w_i)为在w_i后添加新词new_word的条件概率，P(w_i)为候选词w_i的概率；

对每个候选词集S_i，选择概率最大的前K个新序列保留；

将所有S_i的保留序列合并，得到当前时刻的K个最优候选序列；

重复步骤，遍历下一个词，直到某个序列生成了end token；

在所有生成end token的序列中，选择概率最大的那一个作为最终解码结果；

标注语义角色；

对解码得到的文本，添加BIO标注表示语义角色标签；

构建条件随机场CRF模型进行训练；

使用标注过的文本作为训练数据，最大化条件概率进行模型训练，计算P(Y|X)的具体公式如下：

其中，f_i为第i个特征函数，λ_i为第i个特征函数对应的权重参数，Z(X)为规范化因子；

设置文本特征优化模型效果；

采用n折交叉验证评估模型效果；

使用训练好的CRF模型对新文本序列进行解码，得到语义角色标注结果；

反复增强训练数据，迭代优化模型。

6.如权利要求1所述的基于多模态深度学习的智能误操作预警方法，其特征在于：所述计算误操作风险概率包括以下步骤：

构建决策树模型，设置导致误操作的场景作为决策节点；

将图像识别结果、语音识别结果、设备电流、电压、温度、设备振动、功率参数作为决策树的特征；

通过信息增益指标选择最优特征，训练决策树模型；

计算各特征信息增益值的具体公式如下：

其中，Gain(A)为特征A的信息增益值，|D_j|子集D_j的样本数量，|D|为原数据集D的样本数量，p(x)为样本在数据集D或子集D_j中的概率分布；

根据计算的信息增益值对所有特征进行排序，选择信息增益值最大的特征作为最优特征，并按最优特征的值将训练数据集分割成子数据集；

对分割出的子数据集递归重复生成决策树模型；

使用验证集对已生成的决策树进行后剪枝；

基于决策树结果输出误操作类别发生的概率；

输入样本的特征，从根节点开始遍历决策树得到叶节点的概率分布P；

设置误操作类别权重向量W＝[w₁,w₂,...]；

计算向量P中所有误操作类别概率的加权平均，作为整体误操作概率p，具体公式如下：

其中，p为整体误操作概率，p_i表示类别i的概率，w_i表示类别i的权重；

返回p作为最终误操作概率结果。

7.如权利要求1所述的基于多模态深度学习的智能误操作预警方法，其特征在于：所述基于最终误操作概率结果设定误操作预警规则包括以下步骤：

设置不同预警级别的阈值；

当p<0.4，则无预警，此时无需采取操作，继续监测；

当0.4≤p<0.7，则显示低级别预警，此时语音提示“检测到轻度异常，请提高警惕，注意检查操作步骤”；

若0.7≤p<0.9，则显示中级别预警，此时语音提示“检测到中度风险，请您仔细确认操作对象和流程，避免误操作”，操作人员确认后才可继续操作；

若p≥0.9，则显示高级别预警，此时语音提示“检测到严重异常，系统将自动暂停操作，请检查设备状态和操作环境，联系管理员后方可重新启动”，人工检查后才可重启；

比较整体误操作概率p与各级别阈值；

根据p落在的阈值区间确定预警级别，触发相应级别的预警。

8.一种基于多模态深度学习的智能误操作预警系统，基于权利要求1～7任一所述的基于多模态深度学习的智能误操作预警方法，其特征在于：还包括，

数据采集模块，用于在关键设备区域采集包含设备部件、人员动作的图像数据，以及操作人员的语音指令样本；

数据预处理模块，用于对采集的图像数据进行分类标注，提取视觉特征，并对语音数据进行转录与语义角色标注，最终构建可供训练的图像数据集和语音数据集；

模型构建模块，用于构建基于卷积神经网络的图像识别模型，以及基于循环神经网络的语音识别模型，并实现两类模型的多任务联合学习，提升识别准确率；

决策树评估模块，用于构建决策树模型，融合图像识别结果、语音识别结果和设备实时数据，评估误操作风险概率；

多级联动预警，用于根据决策树输出的误操作概率，设置不同级别的联动预警规则，在超过预警阈值时，进行语音提示。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1～7任一所述基于多模态深度学习的智能误操作预警方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1～7任一所述基于多模态深度学习的智能误操作预警方法的步骤。