CN113221613B - 生成场景图辅助建模上下文信息的电力场景预警方法 - Google Patents
生成场景图辅助建模上下文信息的电力场景预警方法 Download PDFInfo
- Publication number
- CN113221613B CN113221613B CN202011475866.XA CN202011475866A CN113221613B CN 113221613 B CN113221613 B CN 113221613B CN 202011475866 A CN202011475866 A CN 202011475866A CN 113221613 B CN113221613 B CN 113221613B
- Authority
- CN
- China
- Prior art keywords
- relation
- target
- scene
- early warning
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种生成场景图辅助建模上下文信息的电力场景预警方法,旨在对电力场景进行目标检测的基础上,设计新颖的深度神经网络模型学习全局目标的关系表示,最后综合识别出的对象及关系,构建针对性的场景图,并计算相关的场景危险系数,同时给出对应的中文预警描述。本发明所述方法以预训练的目标检测模块为基础,以融合多模态特征输入并建模全局上下文视觉信息的关系检测模块为核心,以学习场景危险等级并给出具体描述的预警生成模块为落地应用。
Description
技术领域
本发明公开一种生成场景图辅助建模上下文信息的电力场景预警方法,属于智能电力的技术领域。
背景技术
在电站建设、电力生产和电网维护等相关作业中,人身伤亡事故屡屡发生,给涉事单位和家庭都造成了重大的损失。有相关安全领域的技术专家和学者指出,设备质量不合格、电工操作不规范和施工条件不理想是导致悲剧发生的三大主要原因。因此,严格复检相关电力施工设备,大力增强相关从业者安全意识,及时预防复杂的外部环境异变,是从源头上减少这类悲剧的有效措施。相关电力单位需要建立健全实时的安全检测和危险预警系统,努力夯实安全生产的“第一道防线”,以及时提醒相关安全监督员和电力工作人员潜在的可能危险,从而防患于未然。
然而,在国家和政府高度重视并强调电力行业安全生产的背景下,并没有一套成熟、经济、准确、高效的方法去实现对电力作业场景的安全检查与危险预警。在我国大规模铺设摄像头进行实时监控的大背景下,目前主流的基于远程监控的危险预警方法主要有人工盯防和目标检测。前者大多将监控信息实时传送到安全保障室,由相关安全员负责监督并发出预警;然而,在室外摄像头总量规模较大的情况下,受制于人的注意力、精力等限制约束,往往需要匹配大量的人员才能实现对每个摄像头画面的实时观测;显然,这种方法过于传统,不仅会耗费大量宝贵的人力资源,而且还会因为安全员精力的衰减,从而忽视一些潜在的危险。而目标检测技术,通过相关算法对摄像头画面中的危险物体进行实时检测,一旦发现便立即告知相关安全员进行预警。该方法虽然能解放部分人力,辅助相关安全员进行危险辨识,但其只能给出具有安全隐患的物体信息,无法对一些因目标交互而产生的潜在危险进行辨识,从而导致对摄像头场景的安全检测过于片面,仍需大量人力进行二次复检。例如,在室外输电塔场景中,鸟巢位于高压电塔内是存在安全隐患的,而鸟巢位于树上是没有事故风险的,而现有的目标检测技术无法对鸟巢和高压电塔的相互关系进行建模,导致在实际应用中,要么武断的将所有鸟巢都视为风险,要么片面的忽视所有鸟巢的实际位置。而这种无法评估成对物体潜在关系风险水平的预警技术,其应用领域是十分狭窄且受限的。
为此,本领域技术公开了以下专利文献:
1)中国专利文献CN111354028A基于双目视觉的输电通道隐患物识别追踪方法公开了,包括:收集输电线路可视化巡检系统中的监拍数据,构造输电线路及输电通道常见外破隐患样本数据集;构建基于双目视觉的左右目图像隐患识别追踪的模型:利用深度学习和双目视觉技术,对输入的双目视觉信息进行卷积以及左右目关联通路操作;对初始模型检测出的左右目图像隐患物分割轮廓与数据集中的真实分割轮廓进行损失计算,并进行迭代优化,直至整个损失函数完全收敛;将训练完成的模型投入测试与使用,接收双目视觉输入,即实现隐患物识别和追踪。虽然本专利文献可以解决海量可视化图像后台人工判图工作量大的问题;同时实现对线路通道小样本隐患的精准识别,以及对隐患与线路之间安全距离的智能计算,但是,针对监测到的隐患元素之间关系并无对应的解决方案。
2)中国专利文献CN111340843A基于环境自适应和小样本学习的电力场景视频检测方法公开了一种方法包括,运动检测:采用改进的广义高斯混合模型对监控视频进行环境自适应的运动检测,将检测到的运动目标用候选框标记出来;根据候选框进行相应的图像内容裁剪;将裁剪得到的“特写”图像作为下一环节目标检测的输入;接收目标检测的结果,进行可视化标示或警报;目标检测:对YOLOv3模型进行针对性调整;将所述“特写”图像输入改进后的YOLOv3模型进行目标检测,通过判断该对象是否为动物,来判定是否发生了动物入侵。该专利文献的主要要解决的目的是怎样监测到入侵变电站区域的活体动物,但是对于异常电网安全的监测并不具有普适性,而且所呈现入侵物体与电力安全运行的对应关系也并未体现,所以,该专利文献即便应用于本发明时,依然有诸多技术转换的难度。
3)中国专利文献CN111325323A一种融合全局信息和局部信息的输变电场景描述自动生成方法,即利用深度学习和传统的计算机视觉技术相结合,提取图像的局部和全局的特征信息;将每个中文分词的语义信息与融合后的特征信息联系起来,对长短期记忆神经网络进行改进并加入双层注意力机制,建立的序列模型在每个时刻都会根据图像特征信息和语义信息产生一个注意力变量的分布,最后生成图像对应的中文描述。该专利文献,让生成的句子更能够真实的反应图像的内容;而且还丰富了视觉语义方面的信息;增加图像内全局和局部特征的关联程度。该专利文献仍属于对危险物体进行识别的技术,属于计算机视觉的基础任务,但未上升到对图像的场景建模与理解的高级任务水平。因此,该专利文献虽能较好的对图中危险物体进行预警,但无法评估物体与物体间潜在关系的危险程度,从而导致生成的预警中文描述片面且不完全;例如,在评估吊车与高压电线的相对关系,当两者靠近时,无法及时给出让吊车驾驶员紧急避险的预警指令。
4)中国专利文献CN111325347A基于可解释视觉推理模型的危险预警描述自动生成方法,包括建立特定场景的先验知识库和训练数据库,通过迁移学习微调模型以得到针对该场景下的平面目标检测器和三维目标检测器;然后针对某一帧视频信息,通过平面目标检测器检测出所有目标类型和目标的平面位置特征,再并行地通过三维目标检测器得到所有目标的三维空间特征,并根据检测出的目标类型、结合先验知识库构造该帧视频下的关系任务图,将其通过图神经网络抽取特征后,融合上述的平面空间特征和三维空间特征,送入模块化的多层感知机中进行推理学习,最终得到该帧视频图像下存在的危险等级和具有危险关系的对象,最后结合先验知识库中的语义转换生成该帧视频图像所对应的中文描述。该专利文献只将通过平面目标和三维目标检测器的识别结果直接与知识库的先验图谱相结合,如采用此种一步到位的处理方法,则不能充分考虑图像中局部与整体的上下文信息。同时,该任务只通过图神经网络提取视频帧图像的视觉信息,从而忽视了物体的空间位置信息和类别的语义信息,而这两者作为强先验的特征表示,对最终关系类别的预测和场景图的生成有着重要的指导意义。此外,上述专利文献注重的是先验知识在视频帧图像上的推理应用,但是并未关注依据输入图像生成场景图,所以,并不能指导安全员进行预警的技术研究。
综上可知,近年来,在机器学习、人工智能和多媒体领域,“场景图生成(SceneGraph Generation,SGG)”这一任务逐渐兴起,成为了许多学者和专家的研究兴趣和科研方向。场景图生成,其任务是检测给定图像中所有的对象类别及其成对关系,被认为是一种中游的计算机视觉任务,它下承底层的物体识别任务,如目标检测、语义识别等;同时上启高级的视觉-语义任务,如视觉问答,图象描述等。可见,场景图生成任务具有重要的串联作用,它有机的将图像检测与图像理解结合了起来,是实现人工智能的重要助力。一般而言,针对给定的图像,该任务首先检测图中的物体和关系,然后将所有的物体表示为结点,将成对物体的关系三元组(主体-谓词-客体)表示为从主体结点指向客体结点的有向边,以此为基础生成对应的场景图。虽然学术界对于场景图生成的研究已日渐成熟,但该任务技术仍然未在工业应用中得以充分体现,其实际情境中的应用范例仍寥寥无几。
发明内容
针对现有技术的不足,本发明公开一种生成场景图辅助建模上下文信息的电力场景预警方法,旨在对电力场景进行目标检测的基础上,设计新颖的深度神经网络模型学习全局目标的关系表示,最后综合识别出的对象及关系,构建针对性的场景图,并计算相关的场景危险系数,同时给出对应的中文预警描述。
发明概述:
本发明所述方法以预训练的目标检测模块为基础,以融合多模态特征输入并建模全局上下文视觉信息的关系检测模块为核心,以学习场景危险等级并给出具体描述的预警生成模块为落地应用。
术语解释:
1)VGG16:一种常用的卷积神经网络(Convolutional Neural Network,CNN),其特点是采用堆积的小卷积核替代较大的卷积核。16的含义是整体网络包含了16个隐藏层(13个卷积层和3个全连接层)。
2)Cross Entropy Loss:交叉熵损失函数,是一种常见的分类函数,具有良好的收敛速度和分类效果。其应用于二分类问题时的计算公式如下所示:
其中N为样本总数,yi为第i个样本的真实值,pi为第i个样本的预测值。该函数为凸函数,因此在求导时能获得全局最优值。
3)Bi-LSTM:双向长短时记忆网络,是循环神经网络(Recurrent Neural Network,RNN)的一种变体。与普通的RNN网络不同,LSTM新增了遗忘门、输入门和输出门这三个门控单元,可以有选择性的存储并清洗数据,从而有效的解决了梯度消失和梯度爆炸的问题。而Bi-LSTM由两组方向相反的LSTM网络组合而成,被用来建模具有时序关系的上下文信息。
4)GraphSage:一种图神经网络算法,采用的是归纳式学习而非直接学习,通过聚合周围邻居节点的特征表示来学习自身节点的深层特征。
5)MLP:多层感知机,即多层全连接神经网络。
综上,本发明要解决的技术问题如下:
1)为建立健全相关电力行业的安全监管和危险预警系统,克服传统人工盯防和目标检测技术的不足与缺陷,本发明拟在识别图像中物体和关系的基础上,生成蕴含丰富上下文信息的场景图,以辅助安全员进行实时的危险监控。具体而言,本发明自主构建了相应的数据集,并设计了三个独立的神经网络模块,共同协作生成最终的预警中文描述。本发明的先进性在于,创造性的将场景图生成技术与实际的危险检测应用需求相结合,为该技术在工业应用领域的落地提供了带头范例作用;此外,不同于传统的目标检测危险预警,本专利在其之上生成了对待检测图片高度抽象化的场景图,其蕴含的更多信息将极大提高电力行业下危险检测流程的智能化水平。
2)本发明融合了多种模态的信息进行物体类别的预测和成对对象关系的推断。具体而言,本方法通过目标检测模块,将物体的视觉信息,语义信息和空间位置信息映射到了同一维度,使之共同为之后的预测网络提供助力。这有效的减少了不合理的物体定位和关系预测,提高了整体模型的检测能力。本发明的先进性在于,打破了传统危险检测技术对单一视觉信息的依赖,融入了物体限界框位置的空间信息和物体类别的语义信息,而这两种模态的数据作为强先验的表示特征,能够从多角度补充并纠正所预测的物体间关系类别,从而提高最终生成的场景图的准确率。
3)本发明通过双向长短时记忆网络建模组织成链式结构的物体融合特征,这能够充分的学习图中丰富的上下文信息,进一步提升整体关系预测网络的准确性与鲁棒性。本发明的先进性在于,基于双向长短时记忆网络的检测模型,将待检测图中的物体有机的组织在了一起,从而克服了传统方法在检测时的孤立性与局部性,并通过捕获和利用丰富的全局上下文信息进一步提升了模型整体的性能和泛化能力。
本发明详细的技术方案如下:
一种生成场景图辅助建模上下文信息的电力场景预警方法,其特征在于,该方法包括:
给定一张图片,通过预训练的目标检测模块得到至少三个模态信息:图中所有对象的预测类别标签、限界框位置和感兴趣区域(Region of interest,RoI)特征;
将上述三个模态的信息进行线性化处理;
输入到由双向长短时记忆网络(Binary-Directional Long Short-Term Memory,Bi-LSTM)所组成的关系检测模块,预测并给出图中所有修正后的目标类别名称和关系类别名称;
将已检测出的目标结点和关系连线组织成场景图,并根据电力危险常识知识库进行清洗和筛选然后送入到预警生成模块中学习训练,输出相应的危险等级并给出具体的预警描述。
本发明结合相对成熟但目前缺乏应用范例的场景图生成技术,实现对多场景图片的危险对象识别与危险关系检测,以填补现有技术在复杂电力场景下缺乏对目标和关系进行双重检测并给出危险预警的应用空白,并作为场景图生成技术在工业应用领域的实施范例。
根据本发明优选的,所述关系检测模块通过以双向长短时记忆网络组成的编码器(Encoder)获取目标的隐层特征表示,再通过相应的解码器(Decoder)反演出所对应的目标类别名称和关系类别名称。本发明编码-解码操作有利于机器获取丰富的场景上下文信息,从而提高对目标识别和关系预测的准确率。
一种生成场景图辅助建模上下文信息的电力场景预警方法,其特征在于,包括以下步骤:
S1:建立适用于电力场景危险预警的目标检测和关系检测数据集,并构建电力危险常识知识库;
S2:搭建目标检测神经网络并进行训练,以图片为输入,输出图中所有的物体预测类别名和位置限界框;
S3:搭建关系检测神经网络并进行训练,首先抽取步骤S2中待检测图片通过模型感兴趣区域池化网络后生成的视觉特征图,在将步骤S2输出的预测类别名和位置限界框通过可学习参数矩阵进行维度映射后,与抽取的视觉特征图进行拼接聚合,并在一维空间中首尾相连形成线性特征链,输入到关系检测神经网络中训练学习,输出图中所有的物体类别名称和关系类别名称;
S4:搭建预警生成神经网络并进行训练:首先依据步骤S3中的输出生成场景图,并根据S1中构建的危险常识知识库对场景图进行清洗和修剪,删除安全的物体结点及关系连线,保留存在潜在隐患的危险物体及关系,形成子图;再将所得的子图作为输入送到预警生成网络中进行评估,输出对应的危险等级,并根据预定义的填词规则生成一段中文预警描述。
根据本发明优选的,所述步骤S1中构建电力危险常识知识库具体包括:
S11:自主搜集获取实时电力场景图片作为数据集,此步骤对这些图片进行裁剪、去重复和去模糊等预处理操作,同时随机改变这些图片的亮度、对比度等参数,并进行其他图像增强的操作,以丰富数据集;
S12:针对特定生产场景,结合本行业相关安全领域的专家意见,定义电力场景下所值得注意的所有目标类别(如工人,鸟巢,输电塔等)和关系类别(如佩戴,靠近,在下面等),预设目标类别和关系类别,其中目标类别数为ON,关系类别数为RN;
S13:结合S12中所定义的目标类别和关系类别,对S11数据集中的每张图片进行标注,须注明图中每个物体所属的目标类别及限界框位置,所有成对对象关系的关系类别和图中的危险等级,例如,数值为1-5的整数,数值越高,危险程度越大;
S14:建立电力危险常识知识库,至少包括:具有安全隐患的目标类别、存在潜在风险的成对对象关系的关系类别。
根据本发明优选的,所述步骤S2训练目标检测神经网络的方法包括:
S23:将S21中的整体特征图和S22中的检测框集合输入到感兴趣区域池化(Region of Proposal Pooling,RoI Pooling)网络中,进一步对检测框集合进行修正和筛选,并输出所得的候选框集合 和候选区域特征图集合其中为候选框的总数;
S25:将S23中的候选框及其区域特征图和输入到全连接层网络(Full-Connected Network)中,然后通过限界框回归(Bounding Box Regression)算法进一步修正每个待估物体限界框bi的坐标值与长宽值并输出,其中
根据本发明优选的,所述步骤S3训练关系检测神经网络的方法包括:
S31:将图片I通过S2中的目标检测模块,得到针对图中某一物体i的预测类别名li(从S24中获得)和物体限界框bi(从S25中获得),其中i=1~n,n为图中检测出的所有目标总数,记检测得到的目标集合为O;
其中W1W2为可学习参数矩阵,其目的是将一维向量li、bi映射到与fi同样的维度;
S33:将S32中n个物体的综合特征按线性链式序列进行拼接;并送入双向长短时记忆(Binary-Directional Long Short-Term Memory,Bi-LSTM)网络中进行编码(Encoding),其公式如下:
其中C=[c1,…,cn]是最后一层Bi-LSTM的隐层特征表示;
S34:使用长短时记忆(LSTM)网络对隐层特征表示C进行解码(Decoding),依次输出n个物体的修正类别名,其公式如下:
hi=LSTM([ci,oi-1])
oi=argmax(Woti)
其中Wo为参数矩阵,目的是将hi转换成独热编码(one-hot vector);argmax(f(x))为一函数,其输出是使得任意函数f(x)取最大值时所对应的变量点x或x的集合的值;
S36:将S35中n个物体的综合特征按线性序列进行拼接;并送入双向长短时记忆(Binary-directional Long Short-Term Memory,Bi-LSTM)网络中进行编码(Encoding),其公式如下:
其中D=[d1,...,dn]是最后一层Bi-LSTM的隐层特征表示;
S37:针对步骤S2中检测出的n个物体及其集合O,由于关系是由主体-谓词-客体所组成的有序三元组,因此首先将n个物体两两组成n*(n-1)个有序二元组,即P={<i,j>|i∈O∧j∈O∧i≠j},其中i为主体,j为客体,P为所有有序二元组的集合;
S38:使用多层感知机(Multi-Layer Perceptron,MLP)网络对步骤S36中的隐层特征表示D和成对对象并集视觉特征图fi∪j(由步骤S32中可得)进行解码(Decoding),由于关系的预测涉及一组成对目标,因此对于集合P中每一对主体i和客体j所组成的有序二元组<i,j>,首先通过解码网络获取其联合特征pij,其公式如下:
pij=MLP(W4di,W5dj,fi∪j)
其中W4,W5为参数矩阵,其目的是将di、dj映射到与fi∪j的同样维度;fi∪j为目标i和j的并集视觉特征图;
S38:使用交叉熵损失(Cross Entropy)函数对联合特征Pij进行训练,得到主体i和客体j的最终关系类别ri→j,其公式如下:
ri→j=Cross-Entropy(Wrpij+Lij)
其中Wr为可学习的参数矩阵,Lij为防止训练过拟合并保证估计无偏性的正则化项。
根据本发明优选的,所述步骤S4中搭建预警生成神经网络并进行训练包括:
S42:根据步骤S14中的电力危险常识知识库,仅保留场景图G中所有具有安全隐患的目标结点、和存在潜在风险的成对目标结点及其关系连线,并删除剩余的安全结点和无风险连线,最后将优化后的子图转化为对应的邻接矩阵G;
S43:使用GraphSage图卷积神经网络提取邻接矩阵G的特征,其中采用了平均聚合器作为聚合函数,其公式如下:
其中,v为中心节点,N(v)为中心节点v的所有邻居集合,u为中心节点v的某一邻居节点,为第k-1次GraphSage所得到的邻居节点u的特征矩阵,为第k次GraphSage所得到的中心节点v的特征矩阵,其中即为原始任务图的邻接矩阵,WG为一个可学习参数矩阵,用来将的输入维度映射到的输出维度,MEAN为求均值函数,σ为激活函数;
S44:在进行K次GraphSage特征提取后,将所得的特征图送入到多层感知机中进行训练,并使用交叉熵损失函数预测最后的危险等级E;
S45:根据步骤S42中得到的危险场景图G,结合步骤S44中所预测的危险等级E,根据预定义的填词规则,自动生成一段预警描述。
根据本发明优选的,所述预警描述的填词包括:指代存在危险目标对关系数量的量词、指代主体的目标类别名称、指代关系类别名称、指代客体的目标类别名称、危险等级E。
根据本发明优选的,所述预警描述的填词还包括指导措施。
例如预警描述的填词规则为:“量词+(多个)存在威胁的物体Odanger/存在危险的目标对关系Rdanger(主体+关系+客体)+危险等级E+指导措施”,例如:“3个绝缘子锈蚀,2个鸟巢位于输电塔中,1卡车靠近输电塔,危险等级为3,请立即排查上述6处危险”。
本发明还设计了相应的图卷积神经网络,它根据输入的潜在风险场景图信息,对图片的危险等级进行较为精准的评估与判断。
本发明的有益效果如下:
本发明利用目标检测模块生成图中所有物体的视觉特征图、预测类别名和物体限界框;并将其拼接成线性特征后,输入到关系检测模块中,得到修正后的物体类别名和关系三元组;然后将物体和关系组织成场景图,在危险常识知识库的指导下进行剪枝,并送入到预警生成模块,以预测对应的危险等级。最后综合根据场景图和危险等级,参照预定义的填词规则,生成一段危险预警描述。
本发明能够自主的根据摄像头传输的监控图片实时给出预警描述,辅助或主导相应的安全预警工作;
本发明能够充分利用检测物体的多模态信息,提高最终对物体类型和关系类型的识别准确率;
本发明通过将物体综合特征组织成链式结构,并输入到以双向长短时记忆网络所组成的解码模块中进一步挖掘其上下文信息,从而提高了整体模型预测的准确性和鲁棒性。
本发明探索了目前学术界较为成熟的场景图生成技术在具体工业检测任务中的应用,可作为该技术落地实践的应用范例。
附图说明
图1是本发明的整体流程图;
图2是本发明中步骤S2的流程图;
图3是本发明中步骤S3的流程图;
图4是本发明中步骤S4的流程图;
图5-1~图5-4均是本发明现有的部分可视化结果图,其中,图5-1是锈蚀的防震锤;图5-2是搭在输电线路的鸟巢;图5-3是在输电线路附近佩戴安全帽的工人;图5-4是明火。
具体实施方式
下面结合实施例和说明书附图做详细的说明,但不限于此。
实施例1、
一种生成场景图辅助建模上下文信息的电力场景预警方法,包括:
给定一张图片,通过预训练的目标检测模块得到至少三个模态信息:图中所有对象的预测类别标签、限界框位置和感兴趣区域(Region of interest,RoI)特征;
将上述三个模态的信息进行线性化处理;
输入到由双向长短时记忆网络(Binary-Directional Long Short-Term Memory,Bi-LSTM)所组成的关系检测模块,预测并给出图中所有修正后的目标类别名称和关系类别名称;
将已检测出的目标结点和关系连线组织成场景图,并根据电力危险常识知识库进行清洗和筛选然后送入到预警生成模块中学习训练,输出相应的危险等级并给出具体的预警描述。
所述关系检测模块通过以双向长短时记忆网络组成的编码器(Encoder)获取目标的隐层特征表示,再通过相应的解码器(Decoder)反演出所对应的目标类别名称和关系类别名称。
实施例2、
一种生成场景图辅助建模上下文信息的电力场景预警方法,包括以下步骤:
S1:建立适用于电力场景危险预警的目标检测和关系检测数据集,并构建电力危险常识知识库;
在本实施例中,可以根据相关专家的指导意见,构建电力危险常识知识库,具体收纳如下2类知识:
1)存在安全隐患的物体类别,如明火(如图5-1),锈蚀的绝缘子,倾斜的均压环等;
2)2)存在潜在风险的成对目标关系三元组,如“鸟巢-在…里面-输电塔”,“吊车-靠近-高压电线”,“人-操作-变电箱”等。
S2:搭建目标检测神经网络并进行训练,以图片为输入,输出图中所有的物体预测类别名和位置限界框;
S3:搭建关系检测神经网络并进行训练,首先抽取步骤S2中待检测图片通过模型感兴趣区域池化网络后生成的视觉特征图,在将步骤S2输出的预测类别名和位置限界框通过可学习参数矩阵进行维度映射后,与抽取的视觉特征图进行拼接聚合,并在一维空间中首尾相连形成线性特征链,输入到关系检测神经网络中训练学习,输出图中所有的物体类别名称和关系类别名称;
S4:搭建预警生成神经网络并进行训练:首先依据步骤S3中的输出生成场景图,并根据S1中构建的危险常识知识库对场景图进行清洗和修剪,删除安全的物体结点及关系连线,保留存在潜在隐患的危险物体及关系,形成子图;再将所得的子图作为输入送到预警生成网络中进行评估,输出对应的危险等级,并根据预定义的填词规则生成一段中文预警描述。
在本实施例中,构建适用于电力场景下危险预警的相应数据集;具体定义如下:
1)与电力场景相关的目标类别并注明在图中的限界框位置,如输电塔,鸟巢,吊车等;
2)与电力场景相关的成对目标关系,如“佩戴”,“靠近”,“在…里面”等;
3)该图片的危险等级,取值范围为1-5的整数,数值越大说明危险隐患越高。
所述步骤S1中构建电力危险常识知识库具体包括:
S11:自主搜集获取实时电力场景图片作为数据集,此步骤对这些图片进行裁剪、去重复和去模糊等预处理操作,同时随机改变这些图片的亮度、对比度等参数,并进行其他图像增强的操作,以丰富数据集;
S12:针对特定生产场景,结合本行业相关安全领域的专家意见,定义电力场景下所值得注意的所有目标类别(如工人,鸟巢,输电塔等)和关系类别(如佩戴,靠近,在下面等),预设目标类别和关系类别,其中目标类别数为ON,关系类别数为RN;
S13:结合S12中所定义的目标类别和关系类别,对S11数据集中的每张图片进行标注,须注明图中每个物体所属的目标类别及限界框位置,所有成对对象关系的关系类别和图中的危险等级,例如,数值为1-5的整数,数值越高,危险程度越大;
S14:建立电力危险常识知识库,至少包括:具有安全隐患的目标类别、存在潜在风险的成对对象关系的关系类别。
所述步骤S2训练目标检测神经网络的方法包括:
S23:将S21中的整体特征图和S22中的检测框集合输入到感兴趣区域池化(Region of Proposal Pooling,RoI Pooling)网络中,进一步对检测框集合进行修正和筛选,并输出所得的候选框集合 和候选区域特征图集合其中为候选框的总数;
S25:将S23中的候选框及其区域特征图和输入到全连接层网络(Full-Connected Network)中,然后通过限界框回归(Bounding Box Regression)算法进一步修正每个待估物体限界框bi的坐标值与长宽值并输出,其中
所述步骤S3训练关系检测神经网络的方法包括:
S31:将图片I通过S2中的目标检测模块,得到针对图中某一物体i的预测类别名li(从S24中获得)和物体限界框bi(从S25中获得),其中i=1~n,n为图中检测出的所有目标总数,记检测得到的目标集合为O;
其中W1W2为可学习参数矩阵,其目的是将一维向量li、bi映射到与fi同样的维度;
S33:将S32中n个物体的综合特征按线性链式序列进行拼接;并送入双向长短时记忆(Binary-Directional Long Short-Term Memory,Bi-LSTM)网络中进行编码(Encoding),其公式如下:
其中C=[c1,...,cn]是最后一层Bi-LSTM的隐层特征表示;
S34:使用长短时记忆(LSTM)网络对隐层特征表示C进行解码(Decoding),依次输出n个物体的修正类别名,其公式如下:
hi=LSTM([ci,oi-1])
oi=argmax(Wohi)
其中Wo为参数矩阵,目的是将hi转换成独热编码(one-hot vector);argmax(f(x))为一函数,其输出是使得任意函数f(x)取最大值时所对应的变量点x或x的集合的值;
S36:将S35中n个物体的综合特征按线性序列进行拼接;并送入双向长短时记忆(Binary-directional Long Short-Term Memory,Bi-LSTM)网络中进行编码(Encoding),其公式如下:
其中D=[d1,...,dn]是最后一层Bi-LSTM的隐层特征表示;
S37:针对步骤S2中检测出的n个物体及其集合O,由于关系是由主体-谓词-客体所组成的有序三元组,因此首先将n个物体两两组成n*(n-1)个有序二元组,即P={<i,j>|i∈O∧j∈O∧i≠j},其中i为主体,j为客体,P为所有有序二元组的集合;
S38:使用多层感知机(Multi-Layer Perceptron,MLP)网络对步骤S36中的隐层特征表示D和成对对象并集视觉特征图fi∪j(由步骤S32中可得)进行解码(Decoding),由于关系的预测涉及一组成对目标,因此对于集合P中每一对主体i和客体j所组成的有序二元组<i,j>,首先通过解码网络获取其联合特征pij,其公式如下:
pij=MLP(W4di,W5dj,fi∪j)
其中W4,W5为参数矩阵,其目的是将di、dj映射到与fi∪j的同样维度;fi∪j为目标i和j的并集视觉特征图;
S38:使用交叉熵损失(Cross Entropy)函数对联合特征pij进行训练,得到主体i和客体j的最终关系类别ri→j,其公式如下:
ri→j=Cross-Entropy(Wrpij+Lij)
其中Wr为可学习的参数矩阵,Lij为防止训练过拟合并保证估计无偏性的正则化项。
所述步骤S4中搭建预警生成神经网络并进行训练包括:
S42:根据步骤S14中的电力危险常识知识库,仅保留场景图中所有具有安全隐患的目标结点、和存在潜在风险的成对目标结点及其关系连线,并删除剩余的安全结点和无风险连线,最后将优化后的子图转化为对应的邻接矩阵G;
S43:使用GraphSage图卷积神经网络提取邻接矩阵G的特征,其中采用了平均聚合器作为聚合函数,其公式如下:
其中,v为中心节点,N(v)为中心节点v的所有邻居集合,u为中心节点v的某一邻居节点,为第k-1次GraphSage所得到的邻居节点u的特征矩阵,为第k次GraphSage所得到的中心节点v的特征矩阵,其中即为原始任务图的邻接矩阵,WG为一个可学习参数矩阵,用来将的输入维度映射到的输出维度,MEAN为求均值函数,σ为激活函数;
S44:在进行K次GraphSage特征提取后,将所得的特征图送入到多层感知机中进行训练,并使用交叉熵损失函数预测最后的危险等级E;
S45:根据步骤S42中得到的危险场景图G,结合步骤S44中所预测的危险等级E,根据预定义的填词规则,自动生成一段预警描述。
所述预警描述的填词包括:指代存在危险目标对关系数量的量词、指代主体的目标类别名称、指代关系类别名称、指代客体的目标类别名称、危险等级E。所述预警描述的填词还包括指导措施。
例如预警描述的填词规则为:“量词+(多个)存在威胁的物体Odanger/存在危险的目标对关系Rdanger(主体+关系+客体)+危险等级E+指导措施”,例如:“3个绝缘子锈蚀,2个鸟巢位于输电塔中,1卡车靠近输电塔,危险等级为3,请立即排查上述6处危险”。
通过利用本实施例所述的方法对目标图片进行识别得到可视化图像:
锈蚀的防震锤(如图5-1)、搭在输电线路的鸟巢(如图5-2)、在输电线路附近佩戴安全帽的工人(如图5-3,)、明火(如图5-4)。
将检测到的对象在电力危险常识知识库中进行查询,保留具有安全隐患的对象和对象关系连线,并据此得到精简化的场景图,即为(多个)存在威胁的物体Odanger/存在危险的目标对关系Rdanger(主体+关系+客体);将该场景图送入预警生成网络,得到该图像的危险等级估计E,并根据危险等级,选择对应匹配的指导措施;根据以上信息,生成一段预警描述。
具体为:
图5-1:2个防震锤锈蚀,危险等级为1,请注意上述2处危险。
图5-2:1个鸟巢在输电塔里,危险等级为2,请排查上述1处危险。
图5-3:2个人穿着安全帽,危险等级为0,安全。
图5-4:1个烟雾在火上方,危险等级为3,请快速排查上述1处危险。
Claims (3)
1.一种生成场景图辅助建模上下文信息的电力场景预警方法,其特征在于,该方法包括:
给定一张图片,通过预训练的目标检测模块得到三个模态信息:图中所有对象的预测类别标签、限界框位置和感兴趣区域特征;
将上述三个模态的信息进行线性化处理;
输入到由双向长短时记忆网络所组成的关系检测模块,预测并给出图中所有修正后的目标类别名称和关系类别名称;
将已检测出的目标结点和关系连线组织成场景图,并根据电力危险常识知识库进行清洗和筛选然后送入到预警生成模块中学习训练,输出相应的危险等级并给出具体的预警描述;
所述关系检测模块通过以双向长短时记忆网络组成的编码器获取目标的隐层特征表示,再通过相应的解码器反演出所对应的目标类别名称和关系类别名称;
所述具体包括以下步骤:
S1:建立适用于电力场景危险预警的目标检测和关系检测数据集,并构建电力危险常识知识库;
S2:搭建目标检测神经网络并进行训练,以图片为输入,输出图中所有的物体预测类别名和位置限界框;
S3:搭建关系检测神经网络并进行训练,首先抽取步骤S2中待检测图片通过模型感兴趣区域池化网络后生成的视觉特征图,在将步骤S2输出的预测类别名和位置限界框通过可学习参数矩阵进行维度映射后,与抽取的视觉特征图进行拼接聚合,并在一维空间中首尾相连形成线性特征链,输入到关系检测神经网络中训练学习,输出图中所有的物体类别名称和关系类别名称;
S4:搭建预警生成神经网络并进行训练:首先依据步骤S3中的输出生成场景图,并根据S1中构建的危险常识知识库对场景图进行清洗和修剪,删除安全的物体结点及关系连线,保留存在潜在隐患的危险物体及关系,形成子图;再将所得的子图作为输入送到预警生成网络中进行评估,输出对应的危险等级,并根据预定义的填词规则生成一段中文预警描述;
所述步骤S1中构建电力危险常识知识库具体包括:
S11:自主搜集获取实时电力场景图片作为数据集;
S12:预设目标类别和关系类别,其中目标类别数为ON,关系类别数为RN;
S13:结合S12中所定义的目标类别和关系类别,对S11数据集中的每张图片进行标注,须注明图中每个物体所属的目标类别及限界框位置,所有成对对象关系的关系类别和图中的危险等级;
S14:建立电力危险常识知识库,至少包括:具有安全隐患的目标类别、存在潜在风险的成对对象关系的关系类别;
所述步骤S2训练目标检测神经网络的方法包括:
所述步骤S3训练关系检测神经网络的方法包括:
S31:将图片I通过S2中的目标检测模块,得到针对图中某一物体i的预测类别名li和物体限界框bi,其中i=1~n,n为图中检测出的所有目标总数,记检测得到的目标集合为O;
其中W1W2为可学习参数矩阵,其目的是将一维向量li、bi映射到与fi同样的维度;
S33:将S32中n个物体的综合特征按线性链式序列进行拼接;并送入双向长短时记忆网络中进行编码,其公式如下:
其中C=[c1,...,cn]是最后一层Bi-LSTM的隐层特征表示;
S34:使用长短时记忆网络对隐层特征表示C进行解码,依次输出n个物体的修正类别名,其公式如下:
hi=LSTM([ci,Oi-1])
oi=argmax(Wohi)
其中Wo为参数矩阵,目的是将hi转换成独热编码;argmax(f(x))为一函数,其输出是使得任意函数f(x)取最大值时所对应的变量点x或x的集合的值;
S36:将S35中n个物体的综合特征按线性序列进行拼接;并送入双向长短时记忆网络中进行编码,其公式如下:
其中D=[d1,...,dn]是最后一层Bi-LSTM的隐层特征表示;
S37:针对步骤S2中检测出的n个物体及其集合O,由于关系是由主体-谓词-客体所组成的有序三元组,因此首先将n个物体两两组成n*(n-1)个有序二元组,即P={<i,j>|i∈O∧j∈O∧i≠j},其中i为主体,j为客体,P为所有有序二元组的集合;
S38:使用多层感知机网络对步骤S36中的隐层特征表示D和成对对象并集视觉特征图fi∪j进行解码,由于关系的预测涉及一组成对目标,因此对于集合P中每一对主体i和客体j所组成的有序二元组<i,j>,首先通过解码网络获取其联合特征pij,其公式如下:
pij=MLP(W4di,W5dj,fi∪j)
其中W4,W5为参数矩阵,其目的是将di、dj映射到与fi∪j的同样维度;fi∪j为目标i和j的并集视觉特征图;
S38:使用交叉熵损失函数对联合特征pij进行训练,得到主体i和客体j的最终关系类别ri→j,其公式如下:
ri→j=Cross-Entropy(Wrpij+Lij)
其中Wr为可学习的参数矩阵,Lij为防止训练过拟合并保证估计无偏性的正则化项;
所述步骤S4中搭建预警生成神经网络并进行训练包括:
S42:根据步骤S14中的电力危险常识知识库,仅保留场景图中所有具有安全隐患的目标结点、和存在潜在风险的成对目标结点及其关系连线,并删除剩余的安全结点和无风险连线,最后将优化后的子图转化为对应的邻接矩阵G;
S43:使用GraphSage图卷积神经网络提取邻接矩阵G的特征,其中采用了平均聚合器作为聚合函数,其公式如下:
其中,v为中心节点,N(v)为中心节点v的所有邻居集合,u为中心节点v的某一邻居节点,为第k-1次GraphSage所得到的邻居节点u的特征矩阵,为第k次GraphSage所得到的中心节点v的特征矩阵,其中即为原始任务图的邻接矩阵,WG为一个可学习参数矩阵,用来将的输入维度映射到的输出维度,MEAN为求均值函数,σ为激活函数;
S44:在进行K次GraphSage特征提取后,将所得的特征图送入到多层感知机中进行训练,并使用交叉熵损失函数预测最后的危险等级E;
S45:根据步骤S42中得到的危险场景图G,结合步骤S44中所预测的危险等级E,根据预定义的填词规则,自动生成一段预警描述。
2.根据权利要求1所述的一种生成场景图辅助建模上下文信息的电力场景预警方法,其特征在于,所述预警描述的填词包括:指代存在危险目标对关系数量的量词、指代主体的目标类别名称、指代关系类别名称、指代客体的目标类别名称、危险等级E。
3.根据权利要求2所述的一种生成场景图辅助建模上下文信息的电力场景预警方法,其特征在于,所述预警描述的填词还包括指导措施。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011475866.XA CN113221613B (zh) | 2020-12-14 | 2020-12-14 | 生成场景图辅助建模上下文信息的电力场景预警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011475866.XA CN113221613B (zh) | 2020-12-14 | 2020-12-14 | 生成场景图辅助建模上下文信息的电力场景预警方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221613A CN113221613A (zh) | 2021-08-06 |
CN113221613B true CN113221613B (zh) | 2022-06-28 |
Family
ID=77085858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011475866.XA Active CN113221613B (zh) | 2020-12-14 | 2020-12-14 | 生成场景图辅助建模上下文信息的电力场景预警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221613B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627557B (zh) * | 2021-08-19 | 2023-10-03 | 电子科技大学 | 一种基于上下文图注意力机制的场景图生成方法 |
CN115546589B (zh) * | 2022-11-29 | 2023-04-07 | 浙江大学 | 一种基于图神经网络的图像生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN110807352A (zh) * | 2019-08-29 | 2020-02-18 | 浙江零跑科技有限公司 | 一种用于危险驾驶行为预警的车内外场景视觉分析方法 |
CN111325347A (zh) * | 2020-02-19 | 2020-06-23 | 山东大学 | 基于可解释视觉推理模型的危险预警描述自动生成方法 |
CN111325323A (zh) * | 2020-02-19 | 2020-06-23 | 山东大学 | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10503978B2 (en) * | 2017-07-14 | 2019-12-10 | Nec Corporation | Spatio-temporal interaction network for learning object interactions |
-
2020
- 2020-12-14 CN CN202011475866.XA patent/CN113221613B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN110807352A (zh) * | 2019-08-29 | 2020-02-18 | 浙江零跑科技有限公司 | 一种用于危险驾驶行为预警的车内外场景视觉分析方法 |
CN111325347A (zh) * | 2020-02-19 | 2020-06-23 | 山东大学 | 基于可解释视觉推理模型的危险预警描述自动生成方法 |
CN111325323A (zh) * | 2020-02-19 | 2020-06-23 | 山东大学 | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113221613A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325347B (zh) | 基于可解释视觉推理模型的危险预警描述自动生成方法 | |
CN110674772B (zh) | 电力作业现场智能安全管控辅助系统及方法 | |
CN111325323B (zh) | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 | |
WO2021249575A1 (zh) | 一种变电作业场景的区域语义学习与地图点标识方法 | |
CN113221613B (zh) | 生成场景图辅助建模上下文信息的电力场景预警方法 | |
CN107133569A (zh) | 基于泛化多标记学习的监控视频多粒度标注方法 | |
CN111626199B (zh) | 面向大型多人车厢场景的异常行为分析方法 | |
CN111209832B (zh) | 变电站巡检机器人辅助避障训练方法、设备及介质 | |
CN111340843A (zh) | 基于环境自适应和小样本学习的电力场景视频检测方法 | |
Zhang et al. | MMFNet: Forest fire smoke detection using multiscale convergence coordinated pyramid network with mixed attention and fast-robust NMS | |
CN114998830A (zh) | 一种变电站人员安全帽佩戴检测方法及系统 | |
CN114665608B (zh) | 用于变电站的智能感知巡检系统及方法 | |
Song et al. | Deformable YOLOX: Detection and rust warning method of transmission line connection fittings based on image processing technology | |
CN115965578A (zh) | 一种基于通道注意力机制的双目立体匹配检测方法及装置 | |
Miao et al. | Abnormal behavior learning based on edge computing toward a crowd monitoring system | |
CN113076825A (zh) | 一种变电站工作人员爬高安全监测方法 | |
CN117423157A (zh) | 一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法 | |
Li et al. | A safety wearing helmet detection method using deep leaning approach | |
CN115083229B (zh) | 基于ai视觉识别的飞行训练设备智能识别与警示系统 | |
CN111354028A (zh) | 基于双目视觉的输电通道隐患物识别追踪方法 | |
MüUller et al. | Semantic information fusion to enhance situational awareness in surveillance scenarios | |
Peng et al. | [Retracted] Helmet Wearing Recognition of Construction Workers Using Convolutional Neural Network | |
CN115829324A (zh) | 一种人员安全风险静默监视方法 | |
Zhao et al. | Research on human behavior recognition in video based on 3DCCA | |
Greenwell et al. | Implicit land use mapping using social media imagery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |