CN116523300A

CN116523300A - 复杂电力作业场景安全风险解译方法

Info

Publication number: CN116523300A
Application number: CN202310390245.9A
Authority: CN
Inventors: 马富齐; 李微; 贾嵘; 刘永文; 王嘉勋; 刘恒; 穆睿昕
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-08-01

Abstract

本发明复杂电力作业场景安全风险解译方法，建立基于注意力机制的编码器‑解码器图像描述模型，将电力作业场景图像信息直接转化为文字信息，模型采用残差网络ResNet‑101作为编码器提取图像特征，LSTM用来读取编码后的图像并生成文本描述，引入注意力机制，对图像中多个目标区域给予不同的权重，以增强图像区域和单词的相关性，获取更多的图像语义细节，生成复杂电力作业场景下的针对性语言描述，引入文本语义相似度分析，对生成文本和标准电力安全作业规程的语义相似度进行计算，相似度高于阈值，判定为规范操作；反之，则判定为违章行为。本方法结合计算机视觉和自然语言处理，可实现电力作业安全风险的存在性判别与智慧解译。

Description

复杂电力作业场景安全风险解译方法

技术领域

本发明属于电力生产安全风险防控技术领域，具体涉及复杂电力作业场景安全风险解译方法。

背景技术

随着电力系统的规模不断扩大，系统运行过程中安全事故频繁发生，造成了重大损失。电力作业场景的复杂性和工人的违章行为是引发安全事故的主要原因，因此，实现复杂电力作业场景下电力违章行为的智能检测对电力生产安全风险防控有重要意义。目前，已有研究多聚焦于利用目标检测或语义分割等实现简单作业场景下常规违章操作的识别，例如未佩戴安全帽、绝缘手套等，然而电力工程具有较强的系统性和动态性，且工人与工器具等交互关系复杂，仅仅采用基础计算机视觉方法无法满足电力工业实际生产需求。

发明内容

本发明的目的是提供复杂电力作业场景安全风险解译方法，能够应用于复杂场景中，实现作业场景的精细化描述及安全风险辨识，契合电力作业场景图像智能化处理的需求。

本发明所采用的技术方案是，复杂电力作业场景安全风险解译方法，具体按照以下步骤实施：

步骤1、利用成像设备获取电力作业现场的图片I；

步骤2、建立基于注意力机制的编码器-解码器模型，利用COCO数据集对模型进行预训练；

步骤3、制作针对电力作业场景的专用图像描述数据集；利用专用图像描述数据集对预训练得到的模型进行微调；

步骤4、向微调后的模型中输入电力作业现场的图片I，通过模型分析计算得到图像中作业场景对应的语言描述Y；

步骤5、建立标准电力安全作业规程语料库，利用Sentence-BERT模型计算语言描述Y和标准电力安全作业规程语料库文本的语义相似度；

步骤6、提取语义相似度最高的文本，其内容为规程中规定的该场景下的规范操作，将计算得到的语义相似度与阈值进行比较，相似度高于阈值，判定为规范操作；反之，则判定为违章行为。

本发明的特点还在于：

步骤2中基于注意力机制的编码器-解码器模型，编码器部分把输入图片I转化为D维特征a，解码部分把D维特征a变成目标语言Y。

其中，D＝2048为特征向量的维度，L＝32×32描述图像的不同区域，是K词汇表的大小，C为生成语言描述的长度。

步骤2具体过程为：

步骤2.1、编码器由预训练的残差网络ResNet-101构成，删除ResNet-101网络中的线性层和池化层，直接从卷积层中提取D维特征a，编码只进行一次，解码是逐个单词进行的，所有以下网络变量均带有下标t；

步骤2.2、将D维特征a输入注意力机制获取上下文向量z_t，z_t是原有特征向量a的加权和，权重为

维度为L＝1024，记录原有特征向量a每个像素位置获得的关注度；

步骤2.3、利用LSTM网络模拟记忆关系，包括内部隐状态h_t、输入i_t、遗忘f_t、存储c_t、输出o_t、候选g_t。输入i_t、遗忘f_t和输出o_t用来控制其他状态的强度，都通过隐状态h_t-1，以及当前上下文向量z_t获得，候选g_t描述进入存储的信息，生成方式相同，存储c_t是LSTM的核心，由前一词的存储c_t-1和当前候选g_t加权得到，遗忘门f_t控制前一词存储，输入门i_t控制本次候选；

c_t＝f_t⊙c_t-1+i_t⊙g_t

隐状态h_t由存储c_t经过变化得到，强度由输出门o_t控制：

h_t＝o_t⊙tanh(c_t)

步骤2.4、当前隐变量h_t通过全连网络生成当前单词y_t，基于注意力机制的编码器-解码器模型搭建完成；

步骤2.5、利用COCO数据集，使用自适应学习率通过随机梯度下降对基于注意力机制的编码器-解码器模型进行预训练。

步骤3具体过程为：

步骤3.1、收集电力作业现场的图片，对图片进行随机裁剪、翻转、旋转、随机增强操作，形成电力作业场景的专用图像数据集；

步骤3.2、为电力作业场景的专用图像数据集添加对应的描述文本，每张图片对应5句描述文本，描述文本以json文件格式存储，电力作业场景专用图像描述数据集制作完成，将数据集按照8:2的比例分为训练集和测试集；

步骤3.3、利用电力作业场景专用图像描述数据集对预训练模型进行微调。

步骤5具体过程为：

步骤5.1、建立标准电力安全作业规程语料库，语料库内容为《电力安全工作规程》中规定的规范操作相关条目；

步骤5.2、利用Sentence-BERT模型计算生成文本Y和标准电力安全作业规程语料库文本的语义相似度，Sentence-BERT有两个一样的BERT模型，把句子1输入第一个BERT模型，把句子2输入第二个BERT模型，获取两个句子对应的向量表示u和v，最后通过余弦相似计算两个向量的相似度：

S＝cos(u,v)。

步骤6中阈值取值为0.85。

本发明的有益效果是：

本发明复杂电力作业场景安全风险解译方法，借助高层场景语义理解任务图像描述，将电力作业场景图像信息直接转化为文字信息，模型通过注意机制对图像中多个目标区域给予不同的权重，使生成的文字描述更具有针对性，同时引入文本语义相似度分析，通过对比图像对应的文字信息与标准电力安全作业规程语义相似度判定该场景下是否存在违章行为。本发明方法可以应用在复杂场景中，实现作业场景的精细化描述及安全风险辨识，契合电力作业场景图像智能化处理的需求。

附图说明

图1是本发明复杂电力作业场景安全风险解译方法流程图；

图2为本发明中基于注意力机制的编码器-解码器图像描述模型框架图；

图3为本发明中基于注意力机制的编码器-解码器图像描述方法流程图；

图4为本发明实施例中输入图像描述模型的作业现场图片I；

图5为本发明实施例中图像描述模型输出的结果图片；

图6为本发明实施例中文本语义相似度分析模型输出的结果图片。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明复杂电力作业场景安全风险解译方法，如图1所示，具体按照以下步骤实施：

步骤1、利用成像设备获取电力作业现场的图片I；

步骤2、建立基于注意力机制的编码器-解码器模型，如图2所示，编码器部分把输入图片I转化为D维特征a，解码部分把D维特征a变成目标语言Y。

其中，D＝2048为特征向量的维度，L＝32×32描述图像的不同区域，是K词汇表的大小，C为生成语言描述的长度。如图3所示，具体过程为：

步骤2.1、编码器由预训练的残差网络ResNet-101构成，由于本模型并非用于分类任务，因此删除ResNet-101网络中的线性层和池化层，模型可以直接从卷积层中提取D维特征a，编码只进行一次，解码是逐个单词进行的，所有以下网络变量均带有下标t；

维度为L＝1024，记录原有特征向量a每个像素位置获得的关注度。

权重α_t由前一步系统隐变量h_t-1经过若干全连接层获得，编码e_t-1用于存储前一步的信息，第一步权重α₀完全由图像特征a决定。系统的隐变量h_t在下一步获得。

步骤2.3、利用LSTM网络模拟记忆关系包括内部隐状态h_t、输入i_t、遗忘f_t、存储c_t、输出o_t、候选g_t；输入i_t、遗忘f_t和输出o_t用来控制其他状态的强度，都通过隐状态h_t-1，以及当前上下文向量z_t获得，候选g_t描述进入存储的信息，生成方式相同；存储c_t是LSTM的核心，由前一词的存储c_t-1和当前候选g_t加权得到，遗忘门f_t控制前一词存储，输入门i_t控制本次候选；

c_t＝f_t⊙c_t-1+i_t⊙g_t

隐状态h_t由存储c_t经过变化得到，强度由输出门o_t控制：

h_t＝o_t⊙tanh(c_t)；

步骤3、制作针对电力作业场景的专用图像描述数据集，包括图片数据以及对图像中作业场景的语言描述。图片数据为jpg格式，描述文本以json文件格式存储。将数据集按照8:2的比例分为训练集和测试集，通过训练集对步骤2中的预训练模型进行微调；具体过程为：

步骤3.1、收集电力作业现场图片，收集电力作业现场的图片，对图片进行随机裁剪、翻转、旋转、随机增强操作，梳理几种典型作业场景，形成电力作业场景的专用图像数据集；

在测试集上对模型进行测试，对模型生成的描述语句进行评估，输入电力作业现场的图像I，通过模型分析计算得到图像中作业场景对应的语言描述Y，具体过程为：

在测试集上对模型进行测试，对模型生成的描述语句进行评估，评估指标为BLUE，它可以用于评估一组自然语言处理任务生成的文本，完全匹配的得分为1.0，完全不匹配的得分为0.0。在NLTK中，允许用户显式指定不同的N-grams的权重以便来计算BLEU的值，累积的BLEU则指为各个gram的加权平均，加权策略如下表所示。例如，BLEU-4是计算从1-gram到4-gram的累积分数，加权策略为1-gram、2-gram、3-gram和4-gram的权重各占25％。

	1-gram	2-gram	3-gram	4-gram
					BLEU-1	1	0	0	0
BLEU-2	0.5	0.5	0	0
					BLEU-3	0.3	0.3	0.3	0
BLEU-4	0.25	0.25	0.25	0.25

步骤5、建立标准电力安全作业规程语料库，利用Sentence-BERT模型计算语言描述Y和标准电力安全作业规程语料库文本的语义相似度；具体过程为：

步骤5.1、建立标准电力安全作业规程语料库，语料库内容为《电力安全工作规程》中规定的规范操作相关条目；例如：Workers should wear insulating gloves whenpulling disconnectors and circuit breakers.(拉合隔离开关和断路器时，应佩戴绝缘手套)。

S＝cos(u,v)。

阈值取值为0.85。

实施例：

下面以“跨越安全围栏场景”为例，阐述本方法的实施过程及结果。

首先建立电力作业场景图像描述模型，完成对模型的训练、微调及测试；然后输入一张施工现场图片，如图4所示，模型输出图片对应的语言描述以及计算过程中每一步注意力机制重点关注的区域，如图5所示。可见，对于图4，模型给出的描述为“A man iscrossing a security fence.”(一个人正在跨越安全围栏)，最后将生成的描述输入训练好的Sentence-BERT模型，模型输出图片对应的描述与标准电力安全作业规程语料库中条目文本的相似度，如图6所示，其中相似度最高的条目为“Workers are not allowed tocross the security fence.”(工作人员不得跨越安全围栏)，其文本语义相似度为0.6063，该相似度得分低于0.85，因此，可判定图片中存在违章行为。除此之外，我们还在多个作业场景下对本方法进行了测试，均取得了有效的结果，具体作业场景及对应的违章行为如表1所示。

表1

从表1和图5、图6中可以看出，本方法可应用于多种复杂作业场景，实现作业场景的精细化描述及安全风险辨识，契合电力作业场景图像智能化处理的需求。

通过上述方式，本发明复杂电力作业场景安全风险解译方法，借助高层场景语义理解任务图像描述，将电力作业场景图像信息直接转化为文字信息，同时引入文本语义相似度分析，通过对比图像对应的文字信息与标准电力安全作业规程语义相似度判定该场景下是否存在违章行为。本方法可以应用在复杂场景中，实现作业场景的精细化描述及安全风险辨识，契合电力作业场景图像智能化处理的需求。

Claims

1.复杂电力作业场景安全风险解译方法，其特征在于，具体按照以下步骤实施：

步骤1、利用成像设备获取电力作业现场的图片I；

2.根据权利要求1所述复杂电力作业场景安全风险解译方法，其特征在于，步骤2中所述基于注意力机制的编码器-解码器模型：

编码器部分把输入图片I转化为D维特征a，解码部分把D维特征a变成目标语言Y，D＝2048为特征向量的维度，L＝32×32描述图像的不同区域，是K词汇表的大小，C为生成语言描述的长度。

3.根据权利要求2所述复杂电力作业场景安全风险解译方法，其特征在于，步骤2具体过程为：

步骤2.3、利用LSTM网络模拟记忆关系包括内部隐状态h_t、输入i_t、遗忘f_t、存储c_t、输出o_t、候选g_t；输入i_t、遗忘f_t和输出o_t用来控制其他状态的强度，都通过隐状态h_t-1，以及当前上下文向量z_t获得，候选g_t描述进入存储的信息，生成方式相同，存储c_t是LSTM的核心，由前一词的存储c_t-1和当前候选g_t加权得到，遗忘门f_t控制前一词存储，输入门i_t控制本次候选；

c_t＝f_t⊙c_t-1+i_t⊙g_t

隐状态h_t由存储c_t经过变化得到，强度由输出门o_t控制：

h_t＝o_t⊙tanh(c_t)；

4.根据权利要求1所述复杂电力作业场景安全风险解译方法，其特征在于，步骤3具体过程为：

步骤3.1、收集电力作业现场图片，对图片进行随机裁剪、翻转、旋转、随机增强操作，形成电力作业场景的专用图像数据集；

5.根据权利要求1所述复杂电力作业场景安全风险解译方法，其特征在于，步骤5具体过程为：

步骤5.2、利用Sentence-BERT模型计算生成文本Y和标准电力安全作业规程语料库文本的语义相似度，所述Sentence-BERT有两个一样的BERT模型，把句子1输入第一个BERT模型，把句子2输入第二个BERT模型，获取两个句子对应的向量表示u和v，最后通过余弦相似计算两个向量的相似度：

S＝cos(u,v)。

6.根据权利要求1所述复杂电力作业场景安全风险解译方法，其特征在于，步骤6中所述阈值取值为0.85。