CN111325323A - 一种融合全局信息和局部信息的输变电场景描述自动生成方法 - Google Patents
一种融合全局信息和局部信息的输变电场景描述自动生成方法 Download PDFInfo
- Publication number
- CN111325323A CN111325323A CN202010102766.6A CN202010102766A CN111325323A CN 111325323 A CN111325323 A CN 111325323A CN 202010102766 A CN202010102766 A CN 202010102766A CN 111325323 A CN111325323 A CN 111325323A
- Authority
- CN
- China
- Prior art keywords
- network
- layer
- lstm
- image
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000009466 transformation Effects 0.000 title claims abstract description 25
- 230000005540 biological transmission Effects 0.000 title claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 27
- 230000007787 long-term memory Effects 0.000 claims abstract description 8
- 238000013135 deep learning Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000001413 cellular effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 238000009826 distribution Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000006403 short-term memory Effects 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 52
- 238000010276 construction Methods 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 241001391944 Commicarpus scandens Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009430 construction management Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
一种融合全局信息和局部信息的输变电场景描述自动生成方法,旨在对输变电场景进行图像中文描述生成:利用深度学习和传统的计算机视觉技术相结合,提取图像的局部和全局的特征信息;将每个中文分词的语义信息与融合后的特征信息联系起来,对长短期记忆神经网络进行改进并加入双层注意力机制,建立的序列模型在每个时刻都会根据图像特征信息和语义信息产生一个注意力变量的分布,最后生成图像对应的中文描述。
Description
技术领域
本发明公开一种融合全局信息和局部信息的输变电场景描述自动生成方法,属于智慧电网的技术领域。
背景技术
电力系统是一个涵盖电能生产、输送、应用的庞大系统,它分别由各种发电厂、输变电线路、各个变配电所以及用户构成。传输线路在电力系统运行中起着衔接与贯通上下级的作用,对于维护系统的稳定、安全运行十分重要。输变电线路所在环境恶劣,这使其成为电力系统中容易发生故障环节之一,从而会影响电网的安全稳定运行。
传统的输变电线路监测方法主要采用人工巡检方式,即巡检人员通过定期对区域内的架空输电线路、电缆线路及其他设备进行人工定位故障和故障消除。该模式无法实现对输变电场景的实时监测,也无法实现对潜在风险的预警。
其中图像描述生成是图像理解领域的研究热点。输电线路、建筑工地等场景环境多变,存在着许多不安全因素,其中输变电场景下是否存在危险物是其中一个非常重要的因素,例如输变电场景中存在有预警等级的塔吊等,因此研究输变电场景中的图像描述至关重要,不仅可为施工管理提供理论和技术支持,而且有助于提高现场的安全管理水平,防范和降低安全隐患,提高现场的安全性。
针对图像描述的研究包括以下专利文献所记载的技术内容:
例如,中国专利文献CN110503079A公开一种基于深度神经网络的监控视频描述方法,属于计算机视觉以及自然语言处理技术领域,本发明基于深度学习的监控视频描述,采用双重注意力:视觉注意力机制和语言注意力机制。同时因为模型涉及多个模块,各个模块相互配合,结果通常比较稳且可以进一步提升描述效果。
中国专利文献CN109684912A涉及一种基于信息损失函数的视频描述方法和系统,包括:获取训练视频,得到集合训练视频每一帧的语义信息;将训练视频的语义信息输入结合LSTM的层次化注意力机制模型中,得到训练视频的文字描述;根据文字描述中每个单词对表达视频内容的重要性,对单词进行损失加权,得到信息损失函数,将信息损失函数作为目标函数反传梯度优化层次化注意力机制模型,得到视频描述模型;获取待描述视频,将待描述视频分别输入至目标检测网络,卷积神经网络和动作识别网络,以得到集合待描述视频每一帧的目标特征、总体特征、运动特征,作为待描述视频的语义信息,将其输入至视频描述模型,得到待描述视频的文字描述。
上述两个专利文献中所提及的模型只提取了图片的局部信息,即只使用了目标检测网络得到图片中的局部物体特征,而对于一些全局信息,如图片所属的场景,并没有进行特征表示;同时,该模型未对LSTM单元的隐层状态进行增强,导致在进行一些长语句描述时,其效果会显著下降;此外,该模型关注的是图中所有物体,无法对一些特定物体(如具有危险等级的物体)进行具体描述,因此不适用于输变电场景描述自动生成任务。
中国专利文献CN109543820A公开一种基于架构短句约束向量和双重视觉关注机制的图像描述生成方法,通过对海量已标注文本描述的图像训练得到一个自动描述图像视觉内容信息的语义模型,其由三部分:架构短句生成模型,双重视觉关注机制和约束化语言模型。并实现对任意输入测试图像,自动生成文本描述。该专利文献中所提及的模型只能对图片中的物体进行描述,其描述能力有限:既无法指明该图片对应的场景信息,又无法针对特定物体进行有选择的描述。
发明内容
针对现有技术存在的技术问题,本发明公开一种融合全局信息和局部信息的输变电场景描述自动生成方法。
发明概述
一种融合全局信息和局部信息的输变电场景描述自动生成方法,旨在对输变电场景进行图像中文描述生成:
利用深度学习和传统的计算机视觉技术相结合,提取图像的局部和全局的特征信息;将每个中文分词的语义信息与融合后的特征信息联系起来,对长短期记忆神经网络进行改进并加入双层注意力机制,建立的序列模型在每个时刻都会根据图像特征信息和语义信息产生一个注意力变量的分布,最后生成图像对应的中文描述。
本发明要解决的技术问题包括:
1)大部分图像描述方法对于图像的特征使用的多是全局特征,对于局部间的关系描述准确性低。利用VGG网络来提取全局特征,YOLO网络提取局部特征,通过特征融合算法得到融合特征,增加图像内全局和局部特征的关联程度。
2)单层注意力模型只是对图像特征的各部分进行了一次的观察理论上来说并不能产生最优的结果。所以,在本发明的中文描述模型中尝试了两层的注意力机制来对图片的描述结果进行进一次的修正。
3)在使用LSTM单元生成句子时,其模型深度较浅(常使用1层或2层LSTM),多模信息变换层次不够,生成的句子语义信息不强,整体性能难以改善。因此对LSTM结构进行改进,新的隐层状态不再仅仅是上一LSTM单元输出的新单词,而是整个解码过程中所有已经生成的新单词。
本发明的技术方案如下:
一种融合全局信息和局部信息的输变电场景描述自动生成方法,其特征在于,包括以下步骤:
S1:编写图像标注软件,并根据相应的要求构建训练集:收集图片并通过人工对图片中图像进行标注;
S2:通过卷积神经网络来提取图片中的全局图像特征;
S3:利用基于深度学习的目标检测算法Yolo网络来提取图片中的局部图像特征,并与步骤S2中的全局图像特征融合获得融合特征;
S4:对图像对应的中文描述按照语义进行分词,并构造中文字典;
S5:利用步骤S4分词后的数据以及融合特征训练基于双层注意力机制的改进的长短时记忆网络;
S6:在使用阶段,依次利用步骤S1-S5进行图像描述生成,完成其图像描述生成任务。
根据本发明优选的,所述步骤S1具体包括:
S11:使用编程语言Python编写一个界面式标注工具,其功能主要包括对图片中的隐患图像进行框选,并标注隐患类型的标签,及预警等级;生成文本描述的图片中隐患情况,具体包括:场景、预警等级、隐患类型;
S12:对电力公司视频监控系统中保存的视频数据取帧,每隔十帧取一次并保存为图片;对所保存的图片做去重复和去模糊处理;
S13:使用步骤S11中编写好的标注工具对步骤S12的图片进行标注:标注图片中的全部隐患的矩形框位置的坐标(xmin,ymin,xmax,ymax)并保存隐患类型及预警等级;对整张图片进行文本标注描述图片中的隐患情况,例如:施工场地有严重预警等级的吊车。
根据本发明优选的,所述步骤S2具体包括:
S21:利用卷积神经网络来实现对图像的全局语义特征的提取,优选的,所述卷积神经网络为VGG19网络;VGG19就是具有19层网络结构的VGG网络,VGG19相比其他卷积神经网络的一个改进是采用连续的几个3x3的卷积核代替较大卷积核;对于给定的感受野(与输出有关的输入图片的局部大小),采用堆积的小卷积核,多层非线性层可以增加网络深度来保证学习更复杂的模式,而且代价还比较小。
根据本发明优选的,所述步骤S2中采用VGG19网络为改进后的VGG19网络:
在VGG19网络结构中删除了最后要进行类别预测所用的全连接层,以此减少训练参数。在本发明中的VGG19网络主要是由16个卷积层和3个全连接层,其中每个卷积层又包括卷积、激活、池化等操作。每三层的卷积核数目分别是64、128、256、512、512,在最后一层卷积层后,得到一组矩阵。这组矩阵就是最终得到的全局特征,全局特征学习到了图像中颜色信息和形状信息等等的整体属性。
根据本发明优选的,所述步骤S3具体包括:
S31:所述Yolo网络包含Darknet-53特征提取层和三层输出层:
使用Darknet-53特征提取层将原始图片转化为一组特征图;
在后续网络层中利用非极大值抑制算法综合候选区域框和特征图信息获取到目标类别以及获取检测框的准确位置;
使用S1中制作的数据集并过滤重复、模糊数据后作为Yolo模型训练集;
S32:由于使用YOLO网络得到的是目标的位置信息和类别信息,为了与全局图像特征融合需要将这些数据转化为与全局特征相同维度的矩阵。因此在使用YOLO网络检测到目标后使用VGG19网络对其进行特征提取;
S33:将提取的图像全局特征和局部特征进行融合,融合算法的表达式为:
在公式(I)中,F1,F2,C分别表示全局特征,局部特征和融合特征。约束条件为CTC=1,常数n为影响因子,其取值为正数;
上述公式(I)通过拉格朗日乘子法求解,等价于求解矩阵F1-kF2的特征值问题:
(F1-nF2)C=λC,λ为特征值
全局特征与局部特征融合后得到的特征向量包含着更多关键信息,着重包含了更多的图像语义信息以及目标之间的关系信息,因此可以提升描述语句的准确性。
根据本发明优选的,所述步骤S4具体包括:
S41:对步骤S1中标注的中文描述按照语义进行分词;在该步骤可采用人工分词法,也可以采用中文分词工具进行分词,其中选择人工分词结果会更加准确;一个正确的分词例子可以表示:原句是“施工场地有轻微预警的挖掘机”,分词结果是:“施工场地/有/轻微/预警/的/挖掘机”;
S42:对所有中文描述分词后,统计所有出现过的词汇,并按照词汇出现的频率进行排序,将出现频率大于5次的词汇作为字典;对字典中每个词汇采用One-Hot独热编码方式进行编码,编码维度为字典长度;
S43:将数据集中的文本描述句子中每个词汇的独热编码映射为一个嵌入式向量。
根据本发明优选的,所述步骤S5具体包括:
S51:基于句子之间的上下文语境考虑,对LSTM的模型结构进行了改进,即步骤S52,同时考虑到LSTM在计算隐含层时的限制,使用双层注意力机制对解码向量进行相似性度量和加权变换,提高生成序列的质量;
S52:LSTM网络的提出解决了由于时间序列过长而导致的梯度消失与梯度爆炸等问题:
LSTM网络的单元结构包括一个细胞状态在时序之间传递,以及几种不同的门结构去控制输入,输出以及细胞状态,所述门结构包括:
输入门it、输出门ot、遗忘门ft,以及输入调节单元gt,在每一个时刻t,LSTM网络的细胞状态ct以及隐层输出ht通过下列式子求出:
it=σ(Wixxt+Wihht-1+bi)
ft=σ(Wfxxt+Wfhht-1+bf)
ot=σ(Woxxt+Wohht-1+bo)
gt=σ(Wgxxt+Wghht-1+bg)
ct=ftect-1+itegt
ht=otetanh(ct)
ct=ft⊙ct-1+it⊙gt
ht=ot⊙tanh(ct)
其中xt为第t时刻的输入,ht-1为上一时刻隐层单元的输出,Wix、Wfx、Wox、Wgx、Wih、Wfh、Woh、Wgh与bi、bf、bo、bg为该模型待学习的参数,⊙为element-wise乘积,σ()为激活函数;
本发明对LSTM的模型结构进行了改进,改进的LSTM结构相比于标准结构,在LSTM生成新单词的过程中,对每个LSTM单元的隐层状态进行了增强,新的隐层状态不再仅仅是上一LSTM单元输出的新单词,而是整个解码过程中所有已经生成的新单词;
改进的LSTM结构相比于标准的LSTM结构,只是隐层状态不同,改进的LSTM结构的隐层状态是上文已生成的是单词对应字典中的编码信息,在t时刻上一LSTM单元的隐层状态表示为:
同时,在t时刻,相邻两个LSTM单元的隐层状态之间的关系为:
Ht=LSTM(xt,Ht-1)
S53:在改进的LSTM中引入双层的注意力机制:
其中,所述注意力模型是模拟人脑注意力的一种模型,其基本思想是对于事物的注意力会在特定时刻集中在某一特定地方,对其他部分分配的注意力会很少。注意力机制可以提高处理大规模输入数据的计算效率,同时通过选择输入的子集来减少输入数据量的维度。另外注意力机制是更加关注于有用信息,让模型训练时专注于找到输入信息中更加突出的信息,以此提高训练结果的效果。通过引入多个注意力模型,使模型可以使用图像不同层次的特征。
基于概率的注意力模型在每一个单词的生成过程中采样来选择一个位置st,直接的来获取期望的内容向量zt来构造一个确定性注意力模型:
在整体模型中,输入图像经过VGG19的全局图像特征和YOLO的局部图像特征编码后通过概率注意力模型生成LSTM单元的上下文,上下文经由LSTM编码后生成隐藏向量,最后由中文特征反编码生成每一步的输出单词;由于采用了双层注意力机制,所以将第一层的解码模型的中文描述生成部分去掉,而将隐藏层的最终输出结果作为第二层注意力解码模型的输入;
S54:使用步骤S2获得的融合特征和步骤S4分词后的数据作为输入训练基于双层注意力机制的长短时记忆网络,训练后的长短时记忆网络即输出图片对应的中文描述。
本发明的有益效果:
本发明利用VGG网络来提取全局特征,YOLO网络提取局部特征,通过特征融合算法得到融合特征,增加图像内全局和局部特征的关联程度,并使用基于双层注意力机制的长短时记忆网络进行中文描述生成。因此,本发明的方法不仅利用了输入图像的概述,而且还丰富了视觉语义方面的信息,让生成的句子更能够真实的反应图像的内容。
附图说明
图1是本发明的整体流程图;
图2是本发明实施例中,利用本发明所述方法自动生成的带有框图和文字描述的输出结果。
具体实施方式
下面结合实施例和说明书附图对本发明做详细的说明,但不限于此。
实施例、
如图1所示。一种融合全局信息和局部信息的输变电场景描述自动生成方法,包括以下步骤:
S1:构建训练集:收集图片并通过人工对图片中图像进行标注;
S2:通过卷积神经网络来提取图片中的全局图像特征;
S3:利用基于深度学习的目标检测算法Yolo网络来提取图片中的局部图像特征,并与步骤S2中的全局图像特征融合获得融合特征;
S4:对图像对应的中文描述按照语义进行分词,并构造中文字典;
S5:利用步骤S4分词后的数据以及融合特征训练基于双层注意力机制的改进的长短时记忆网络;
S6:在使用阶段,依次利用步骤S1-S5进行图像描述生成,完成其图像描述生成任务。
所述步骤S1具体包括:
S11:对图片中的隐患图像进行框选,并标注隐患类型的标签,及预警等级;
生成文本描述的图片中隐患情况,具体包括:场景、预警等级、隐患类型;
S12:对电力公司视频监控系统中保存的视频数据取帧,每隔十帧取一次并保存为图片;对所保存的图片做去重复和去模糊处理;
S13:使用步骤S11中编写好的标注工具对步骤S12的图片进行标注:标注图片中的全部隐患的矩形框位置的坐标(xmin,ymin,xmax,ymax)并保存隐患类型及预警等级;对整张图片进行文本标注描述图片中的隐患情况,本实施例中,施工场地有严重预警等级的吊车。
所述步骤S2具体包括:
S21:利用卷积神经网络来实现对图像的全局语义特征的提取,优选的,所述卷积神经网络为VGG19网络;
所述步骤S2中采用VGG19网络为改进后的VGG19网络:
在VGG19网络结构中删除了最后要进行类别预测所用的全连接层。
所述步骤S3具体包括:
S31:所述Yolo网络包含Darknet-53特征提取层和三层输出层:
使用Darknet-53特征提取层将原始图片转化为一组特征图;
在后续网络层中利用非极大值抑制算法综合候选区域框和特征图信息获取到目标类别以及获取检测框的准确位置;
使用S1中制作的数据集并过滤重复、模糊数据后作为Yolo模型训练集;
S32:使用YOLO网络检测到目标后使用VGG19网络对其进行特征提取;
S33:将提取的图像全局特征和局部特征进行融合,融合算法的表达式为:
在公式(I)中,F1,F2,C分别表示全局特征,局部特征和融合特征。约束条件为CTC=1,常数n为影响因子,其取值为正数;
上述公式(I)通过拉格朗日乘子法求解,等价于求解矩阵F1-kF2的特征值问题:
(F1-nF2)C=λC,λ为特征值。
所述步骤S4具体包括:
S41:对步骤S1中标注的中文描述按照语义进行分词;原句是“施工场地有轻微预警的挖掘机”,分词结果是:“施工场地/有/轻微/预警/的/挖掘机”;
S42:对所有中文描述分词后,统计所有出现过的词汇,并按照词汇出现的频率进行排序,将出现频率大于5次的词汇作为字典;对字典中每个词汇采用One-Hot独热编码方式进行编码,编码维度为字典长度;
S43:将数据集中的文本描述句子中每个词汇的独热编码映射为一个嵌入式向量。
所述步骤S5具体包括:
S51:基于句子之间的上下文语境考虑,对LSTM的模型结构进行了改进,即步骤S52,同时考虑到LSTM在计算隐含层时的限制,使用双层注意力机制对解码向量进行相似性度量和加权变换,提高生成序列的质量;
S52:LSTM网络的提出解决了由于时间序列过长而导致的梯度消失与梯度爆炸等问题:
LSTM网络的单元结构包括一个细胞状态在时序之间传递,以及几种不同的门结构去控制输入,输出以及细胞状态,所述门结构包括:
输入门it、输出门ot、遗忘门ft,以及输入调节单元gt,在每一个时刻t,LSTM网络的细胞状态ct以及隐层输出ht通过下列式子求出:
it=σ(Wixxt+Wihht-1+bi)
ft=σ(Wfxxt+Wfhht-1+bf)
ot=σ(Woxxt+Wohht-1+bo)
gt=σ(Wgxxt+Wghht-1+bg)
ct=ftect-1+itegt
ht=otetanh(ct)
ct=ft⊙ct-1+it⊙gt
ht=ot⊙tanh(ct)
其中xt为第t时刻的输入,ht-1为上一时刻隐层单元的输出,Wix、Wfx、Wox、Wgx、Wih、Wfh、Woh、Wgh与bi、bf、bo、bg为该模型待学习的参数,⊙为element-wise乘积,σ()为激活函数;
改进的LSTM结构的隐层状态是上文已生成的是单词对应字典中的编码信息,在t时刻上一LSTM单元的隐层状态表示为:
同时,在t时刻,相邻两个LSTM单元的隐层状态之间的关系为:
Ht=LSTM(xt,Ht-1)
S53:在改进的LSTM中引入双层的注意力机制:
基于概率的注意力模型在每一个单词的生成过程中采样来选择一个位置st,直接的来获取期望的内容向量zt来构造一个确定性注意力模型:
在整体模型中,输入图像经过VGG19的全局图像特征和YOLO的局部图像特征编码后通过概率注意力模型生成LSTM单元的上下文,上下文经由LSTM编码后生成隐藏向量,最后由中文特征反编码生成每一步的输出单词;由于采用了双层注意力机制,所以将第一层的解码模型的中文描述生成部分去掉,而将隐藏层的最终输出结果作为第二层注意力解码模型的输入;
S54:使用步骤S2获得的融合特征和步骤S4分词后的数据作为输入训练基于双层注意力机制的长短时记忆网络,训练后的长短时记忆网络即输出图片对应的中文描述。
应用例、
将本发明应用至如图2所示的电力场景中:
首先将图2对应的原始图片作为输入图像分别经过VGG19网络和YOLO网络,得到该图像的全局特征信息和局部特征信息;
进一步的,对全局特征和局部特征进行融合,并将融合特征送入改进的双层注意力LSTM网络中;
进一步的,从双层注意力LSTM网络中得到编码向量,根据预定义的字典反编码生成输出单词,得到最后的中文描述信息,“施工场地有严重预警的吊车和一般预警的吊车”。
Claims (7)
1.一种融合全局信息和局部信息的输变电场景描述自动生成方法,其特征在于,包括以下步骤:
S1:构建训练集:收集图片并通过人工对图片中图像进行标注;
S2:通过卷积神经网络来提取图片中的全局图像特征;
S3:利用基于深度学习的目标检测算法Yolo网络来提取图片中的局部图像特征,并与步骤S2中的全局图像特征融合获得融合特征;
S4:对图像对应的中文描述按照语义进行分词,并构造中文字典;
S5:利用步骤S4分词后的数据以及融合特征训练基于双层注意力机制的改进的长短时记忆网络;
S6:在使用阶段,依次利用步骤S1-S5进行图像描述生成,完成其图像描述生成任务。
2.根据权利要求1所述的一种融合全局信息和局部信息的输变电场景描述自动生成方法,其特征在于,所述步骤S1具体包括:
S11:对图片中的隐患图像进行框选,并标注隐患类型的标签,及预警等级;生成文本描述的图片中隐患情况,具体包括:场景、预警等级、隐患类型;
S12:对电力公司视频监控系统中保存的视频数据取帧,并保存为图片;对所保存的图片做去重复和去模糊处理;
S13:使用步骤S11中编写好的标注工具对步骤S12的图片进行标注:标注图片中的全部隐患的矩形框位置的坐标(xmin,ymin,xmax,ymax)并保存隐患类型及预警等级;对整张图片进行文本标注描述图片中的隐患情况。
3.根据权利要求1所述的一种融合全局信息和局部信息的输变电场景描述自动生成方法,其特征在于,所述步骤S2具体包括:
S21:利用卷积神经网络来实现对图像的全局语义特征的提取,优选的,所述卷积神经网络为VGG19网络。
4.根据权利要求3所述的一种融合全局信息和局部信息的输变电场景描述自动生成方法,其特征在于,所述步骤S2中采用VGG19网络为改进后的VGG19网络:
在VGG19网络结构中删除了最后要进行类别预测所用的全连接层。
5.根据权利要求1所述的一种融合全局信息和局部信息的输变电场景描述自动生成方法,其特征在于,所述步骤S3具体包括:
S31:所述Yolo网络包含Darknet-53特征提取层和三层输出层:
使用Darknet-53特征提取层将原始图片转化为一组特征图;
在后续网络层中利用非极大值抑制算法综合候选区域框和特征图信息获取到目标类别以及获取检测框的准确位置;
使用S1中制作的数据集并过滤重复、模糊数据后作为Yolo模型训练集;
S32:使用YOLO网络检测到目标后使用VGG19网络对其进行特征提取;
S33:将提取的图像全局特征和局部特征进行融合,融合算法的表达式为:
在公式(I)中,F1,F2,C分别表示全局特征,局部特征和融合特征,约束条件为CTC=1,常数n为影响因子,其取值为正数;
上述公式(I)通过拉格朗日乘子法求解,等价于求解矩阵F1-kF2的特征值问题:
(F1-nF2)C=λC,λ为特征值。
6.根据权利要求1所述的一种融合全局信息和局部信息的输变电场景描述自动生成方法,其特征在于,所述步骤S4具体包括:
S41:对步骤S1中标注的中文描述按照语义进行分词;
S42:对所有中文描述分词后,统计所有出现过的词汇,并按照词汇出现的频率进行排序,将出现频率大于5次的词汇作为字典;对字典中每个词汇采用One-Hot独热编码方式进行编码,编码维度为字典长度;
S43:将数据集中的文本描述句子中每个词汇的独热编码映射为一个嵌入式向量。
7.根据权利要求1所述的一种融合全局信息和局部信息的输变电场景描述自动生成方法,其特征在于,所述步骤S5具体包括:
S51:基于句子之间的上下文语境考虑,对LSTM的模型结构进行了改进,同时考虑到LSTM在计算隐含层时的限制,使用双层注意力机制对解码向量进行相似性度量和加权变换,提高生成序列的质量;
S52:LSTM网络的单元结构包括一个细胞状态在时序之间传递,以及几种不同的门结构去控制输入,输出以及细胞状态,所述门结构包括:
输入门it、输出门ot、遗忘门ft,以及输入调节单元gt,在每一个时刻t,LSTM网络的细胞状态ct以及隐层输出ht通过下列式子求出:
it=σ(Wixxt+Wihht-1+bi)
ft=σ(Wfxxt+Wfhht-1+bf)
ot=σ(Woxxt+Wohht-1+bo)
gt=σ(Wgxxt+Wghht-1+bg)
ct=fte ct-1+ite gt
ht=ote tanh(ct)
ct=ft⊙ct-1+it⊙gt
ht=ot⊙tanh(ct)
其中xt为第t时刻的输入,ht-1为上一时刻隐层单元的输出,Wix、Wfx、Wox、Wgx、Wih、Wfh、Woh、Wgh与bi、bf、bo、bg为该模型待学习的参数,⊙为element-wise乘积,σ()为激活函数;
改进的LSTM结构的隐层状态是上文已生成的是单词对应字典中的编码信息,在t时刻上一LSTM单元的隐层状态表示为:
同时,在t时刻,相邻两个LSTM单元的隐层状态之间的关系为:
Ht=LSTM(xt,Ht-1)
S53:在改进的LSTM中引入双层的注意力机制:
基于概率的注意力模型在每一个单词的生成过程中采样来选择一个位置st,直接的来获取期望的内容向量zt来构造一个确定性注意力模型:
在整体模型中,输入图像经过VGG19的全局图像特征和YOLO的局部图像特征编码后通过概率注意力模型生成LSTM单元的上下文,上下文经由LSTM编码后生成隐藏向量,最后由中文特征反编码生成每一步的输出单词;由于采用了双层注意力机制,所以将第一层的解码模型的中文描述生成部分去掉,而将隐藏层的最终输出结果作为第二层注意力解码模型的输入;
S54:使用步骤S2获得的融合特征和步骤S4分词后的数据作为输入训练基于双层注意力机制的长短时记忆网络,训练后的长短时记忆网络即输出图片对应的中文描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010102766.6A CN111325323B (zh) | 2020-02-19 | 2020-02-19 | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010102766.6A CN111325323B (zh) | 2020-02-19 | 2020-02-19 | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325323A true CN111325323A (zh) | 2020-06-23 |
CN111325323B CN111325323B (zh) | 2023-07-14 |
Family
ID=71171038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010102766.6A Active CN111325323B (zh) | 2020-02-19 | 2020-02-19 | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325323B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111813924A (zh) * | 2020-07-09 | 2020-10-23 | 四川大学 | 基于可扩展动态选择与注意力机制的类别检测算法及系统 |
CN113139468A (zh) * | 2021-04-24 | 2021-07-20 | 西安交通大学 | 融合局部目标特征与全局特征的视频摘要生成方法 |
CN113158537A (zh) * | 2021-01-18 | 2021-07-23 | 中国航发湖南动力机械研究所 | 基于lstm结合注意力机制的航空发动机气路故障诊断方法 |
CN113221613A (zh) * | 2020-12-14 | 2021-08-06 | 国网浙江宁海县供电有限公司 | 生成场景图辅助建模上下文信息的电力场景预警方法 |
CN113344847A (zh) * | 2021-04-21 | 2021-09-03 | 安徽工业大学 | 一种基于深度学习的长尾夹缺陷检测方法及系统 |
CN113569068A (zh) * | 2021-01-19 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 描述内容生成方法、视觉内容的编码、解码方法、装置 |
CN113569932A (zh) * | 2021-07-18 | 2021-10-29 | 湖北工业大学 | 一种基于文本层级结构的图像描述生成方法 |
CN113642630A (zh) * | 2021-08-10 | 2021-11-12 | 福州大学 | 基于双路特征编码器的图像描述方法及系统 |
CN114299067A (zh) * | 2022-03-04 | 2022-04-08 | 西安华创马科智能控制系统有限公司 | 一种井下煤壁片帮预警方法及装置 |
CN114493058A (zh) * | 2022-04-18 | 2022-05-13 | 杭州远传新业科技有限公司 | 多通道信息特征融合的学业预警方法、系统、装置和介质 |
CN115359323A (zh) * | 2022-08-31 | 2022-11-18 | 北京百度网讯科技有限公司 | 图像的文本信息生成方法和深度学习模型的训练方法 |
CN115546589A (zh) * | 2022-11-29 | 2022-12-30 | 浙江大学 | 一种基于图神经网络的图像生成方法 |
CN115658936A (zh) * | 2022-12-29 | 2023-01-31 | 中国传媒大学 | 基于双层注意力模型的个性化节目推荐方法、系统 |
CN116071641A (zh) * | 2023-04-06 | 2023-05-05 | 中国石油大学(华东) | 一种水下图像中文描述生成方法、装置、设备及存储介质 |
CN116630726A (zh) * | 2023-07-26 | 2023-08-22 | 成都大熊猫繁育研究基地 | 基于多模态的鸟类分类方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180189572A1 (en) * | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Multi-Modal Fusion Model |
US20180336184A1 (en) * | 2017-05-16 | 2018-11-22 | Apple Inc. | Emoji word sense disambiguation |
CN108874782A (zh) * | 2018-06-29 | 2018-11-23 | 北京寻领科技有限公司 | 一种层次注意力lstm和知识图谱的多轮对话管理方法 |
CN110188779A (zh) * | 2019-06-03 | 2019-08-30 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN110348014A (zh) * | 2019-07-10 | 2019-10-18 | 电子科技大学 | 一种基于深度学习的语义相似度计算方法 |
CN110390363A (zh) * | 2019-07-29 | 2019-10-29 | 上海海事大学 | 一种图像描述方法 |
CN110472597A (zh) * | 2019-07-31 | 2019-11-19 | 中铁二院工程集团有限责任公司 | 基于深度学习的岩石图像风化程度检测方法及系统 |
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
-
2020
- 2020-02-19 CN CN202010102766.6A patent/CN111325323B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180189572A1 (en) * | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Multi-Modal Fusion Model |
US20180336184A1 (en) * | 2017-05-16 | 2018-11-22 | Apple Inc. | Emoji word sense disambiguation |
CN108874782A (zh) * | 2018-06-29 | 2018-11-23 | 北京寻领科技有限公司 | 一种层次注意力lstm和知识图谱的多轮对话管理方法 |
CN110188779A (zh) * | 2019-06-03 | 2019-08-30 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN110348014A (zh) * | 2019-07-10 | 2019-10-18 | 电子科技大学 | 一种基于深度学习的语义相似度计算方法 |
CN110390363A (zh) * | 2019-07-29 | 2019-10-29 | 上海海事大学 | 一种图像描述方法 |
CN110472597A (zh) * | 2019-07-31 | 2019-11-19 | 中铁二院工程集团有限责任公司 | 基于深度学习的岩石图像风化程度检测方法及系统 |
CN110674850A (zh) * | 2019-09-03 | 2020-01-10 | 武汉大学 | 一种基于注意力机制的图像描述生成方法 |
Non-Patent Citations (1)
Title |
---|
靳华中 等: "一种结合全局和局部特征的图像描述生成模型" * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111813924B (zh) * | 2020-07-09 | 2021-04-09 | 四川大学 | 基于可扩展动态选择与注意力机制的类别检测算法及系统 |
CN111813924A (zh) * | 2020-07-09 | 2020-10-23 | 四川大学 | 基于可扩展动态选择与注意力机制的类别检测算法及系统 |
CN113221613B (zh) * | 2020-12-14 | 2022-06-28 | 国网浙江宁海县供电有限公司 | 生成场景图辅助建模上下文信息的电力场景预警方法 |
CN113221613A (zh) * | 2020-12-14 | 2021-08-06 | 国网浙江宁海县供电有限公司 | 生成场景图辅助建模上下文信息的电力场景预警方法 |
CN113158537A (zh) * | 2021-01-18 | 2021-07-23 | 中国航发湖南动力机械研究所 | 基于lstm结合注意力机制的航空发动机气路故障诊断方法 |
CN113569068A (zh) * | 2021-01-19 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 描述内容生成方法、视觉内容的编码、解码方法、装置 |
CN113569068B (zh) * | 2021-01-19 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 描述内容生成方法、视觉内容的编码、解码方法、装置 |
CN113344847A (zh) * | 2021-04-21 | 2021-09-03 | 安徽工业大学 | 一种基于深度学习的长尾夹缺陷检测方法及系统 |
CN113344847B (zh) * | 2021-04-21 | 2023-10-31 | 安徽工业大学 | 一种基于深度学习的长尾夹缺陷检测方法及系统 |
CN113139468A (zh) * | 2021-04-24 | 2021-07-20 | 西安交通大学 | 融合局部目标特征与全局特征的视频摘要生成方法 |
CN113139468B (zh) * | 2021-04-24 | 2023-04-11 | 西安交通大学 | 融合局部目标特征与全局特征的视频摘要生成方法 |
CN113569932B (zh) * | 2021-07-18 | 2023-07-18 | 湖北工业大学 | 一种基于文本层级结构的图像描述生成方法 |
CN113569932A (zh) * | 2021-07-18 | 2021-10-29 | 湖北工业大学 | 一种基于文本层级结构的图像描述生成方法 |
CN113642630B (zh) * | 2021-08-10 | 2024-03-15 | 福州大学 | 基于双路特征编码器的图像描述方法及系统 |
CN113642630A (zh) * | 2021-08-10 | 2021-11-12 | 福州大学 | 基于双路特征编码器的图像描述方法及系统 |
CN114299067A (zh) * | 2022-03-04 | 2022-04-08 | 西安华创马科智能控制系统有限公司 | 一种井下煤壁片帮预警方法及装置 |
CN114493058A (zh) * | 2022-04-18 | 2022-05-13 | 杭州远传新业科技有限公司 | 多通道信息特征融合的学业预警方法、系统、装置和介质 |
CN115359323B (zh) * | 2022-08-31 | 2023-04-25 | 北京百度网讯科技有限公司 | 图像的文本信息生成方法和深度学习模型的训练方法 |
CN115359323A (zh) * | 2022-08-31 | 2022-11-18 | 北京百度网讯科技有限公司 | 图像的文本信息生成方法和深度学习模型的训练方法 |
CN115546589A (zh) * | 2022-11-29 | 2022-12-30 | 浙江大学 | 一种基于图神经网络的图像生成方法 |
CN115658936A (zh) * | 2022-12-29 | 2023-01-31 | 中国传媒大学 | 基于双层注意力模型的个性化节目推荐方法、系统 |
CN116071641A (zh) * | 2023-04-06 | 2023-05-05 | 中国石油大学(华东) | 一种水下图像中文描述生成方法、装置、设备及存储介质 |
CN116071641B (zh) * | 2023-04-06 | 2023-08-04 | 中国石油大学(华东) | 一种水下图像中文描述生成方法、装置、设备及存储介质 |
CN116630726A (zh) * | 2023-07-26 | 2023-08-22 | 成都大熊猫繁育研究基地 | 基于多模态的鸟类分类方法及系统 |
CN116630726B (zh) * | 2023-07-26 | 2023-09-22 | 成都大熊猫繁育研究基地 | 基于多模态的鸟类分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111325323B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325323B (zh) | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 | |
WO2020244287A1 (zh) | 一种图像语义描述的生成方法 | |
CN109918671A (zh) | 基于卷积循环神经网络的电子病历实体关系抽取方法 | |
CN112115687B (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN107577662A (zh) | 面向中文文本的语义理解系统及方法 | |
CN110516530A (zh) | 一种基于非对齐多视图特征增强的图像描述方法 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN110866542A (zh) | 一种基于特征可控融合的深度表示学习方法 | |
CN109214006A (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN111597341B (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
Zhu et al. | Topic-guided attention for image captioning | |
CN110232564A (zh) | 一种基于多模态数据的交通事故法律自动决策方法 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN110046271A (zh) | 一种基于声音指导的遥感图像描述方法 | |
CN114443899A (zh) | 视频分类方法、装置、设备及介质 | |
US20230368500A1 (en) | Time-series image description method for dam defects based on local self-attention | |
CN110968725A (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN111597815A (zh) | 一种多嵌入命名实体识别方法、装置、设备及存储介质 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
CN116341651A (zh) | 实体识别模型训练方法、装置、电子设备及存储介质 | |
CN114169408A (zh) | 一种基于多模态注意力机制的情感分类方法 | |
CN116186350B (zh) | 基于知识图谱和主题文本的输电线路工程搜索方法和装置 | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN115359323B (zh) | 图像的文本信息生成方法和深度学习模型的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |