CN111325323A

CN111325323A - 一种融合全局信息和局部信息的输变电场景描述自动生成方法

Info

Publication number: CN111325323A
Application number: CN202010102766.6A
Authority: CN
Inventors: 聂礼强; 战新刚; 郑晓云; 姚一杨; 甘甜; 宓生润
Original assignee: Shandong University; State Grid Zhejiang Electric Power Co Ltd; Quzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Zhiyang Innovation Technology Co Ltd
Current assignee: Shandong University; State Grid Zhejiang Electric Power Co Ltd; Quzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Zhiyang Innovation Technology Co Ltd
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2020-06-23
Anticipated expiration: 2040-02-19
Also published as: CN111325323B

Abstract

一种融合全局信息和局部信息的输变电场景描述自动生成方法，旨在对输变电场景进行图像中文描述生成：利用深度学习和传统的计算机视觉技术相结合，提取图像的局部和全局的特征信息；将每个中文分词的语义信息与融合后的特征信息联系起来，对长短期记忆神经网络进行改进并加入双层注意力机制，建立的序列模型在每个时刻都会根据图像特征信息和语义信息产生一个注意力变量的分布，最后生成图像对应的中文描述。

Description

一种融合全局信息和局部信息的输变电场景描述自动生成方法

技术领域

本发明公开一种融合全局信息和局部信息的输变电场景描述自动生成方法，属于智慧电网的技术领域。

背景技术

电力系统是一个涵盖电能生产、输送、应用的庞大系统，它分别由各种发电厂、输变电线路、各个变配电所以及用户构成。传输线路在电力系统运行中起着衔接与贯通上下级的作用，对于维护系统的稳定、安全运行十分重要。输变电线路所在环境恶劣，这使其成为电力系统中容易发生故障环节之一，从而会影响电网的安全稳定运行。

传统的输变电线路监测方法主要采用人工巡检方式，即巡检人员通过定期对区域内的架空输电线路、电缆线路及其他设备进行人工定位故障和故障消除。该模式无法实现对输变电场景的实时监测，也无法实现对潜在风险的预警。

其中图像描述生成是图像理解领域的研究热点。输电线路、建筑工地等场景环境多变，存在着许多不安全因素，其中输变电场景下是否存在危险物是其中一个非常重要的因素，例如输变电场景中存在有预警等级的塔吊等，因此研究输变电场景中的图像描述至关重要，不仅可为施工管理提供理论和技术支持，而且有助于提高现场的安全管理水平，防范和降低安全隐患，提高现场的安全性。

针对图像描述的研究包括以下专利文献所记载的技术内容：

例如，中国专利文献CN110503079A公开一种基于深度神经网络的监控视频描述方法，属于计算机视觉以及自然语言处理技术领域，本发明基于深度学习的监控视频描述，采用双重注意力：视觉注意力机制和语言注意力机制。同时因为模型涉及多个模块，各个模块相互配合，结果通常比较稳且可以进一步提升描述效果。

中国专利文献CN109684912A涉及一种基于信息损失函数的视频描述方法和系统，包括：获取训练视频，得到集合训练视频每一帧的语义信息；将训练视频的语义信息输入结合LSTM的层次化注意力机制模型中，得到训练视频的文字描述；根据文字描述中每个单词对表达视频内容的重要性，对单词进行损失加权，得到信息损失函数，将信息损失函数作为目标函数反传梯度优化层次化注意力机制模型，得到视频描述模型；获取待描述视频，将待描述视频分别输入至目标检测网络，卷积神经网络和动作识别网络，以得到集合待描述视频每一帧的目标特征、总体特征、运动特征，作为待描述视频的语义信息，将其输入至视频描述模型，得到待描述视频的文字描述。

上述两个专利文献中所提及的模型只提取了图片的局部信息，即只使用了目标检测网络得到图片中的局部物体特征，而对于一些全局信息，如图片所属的场景，并没有进行特征表示；同时，该模型未对LSTM单元的隐层状态进行增强，导致在进行一些长语句描述时，其效果会显著下降；此外，该模型关注的是图中所有物体，无法对一些特定物体(如具有危险等级的物体)进行具体描述，因此不适用于输变电场景描述自动生成任务。

中国专利文献CN109543820A公开一种基于架构短句约束向量和双重视觉关注机制的图像描述生成方法，通过对海量已标注文本描述的图像训练得到一个自动描述图像视觉内容信息的语义模型，其由三部分：架构短句生成模型，双重视觉关注机制和约束化语言模型。并实现对任意输入测试图像，自动生成文本描述。该专利文献中所提及的模型只能对图片中的物体进行描述，其描述能力有限：既无法指明该图片对应的场景信息，又无法针对特定物体进行有选择的描述。

发明内容

针对现有技术存在的技术问题，本发明公开一种融合全局信息和局部信息的输变电场景描述自动生成方法。

发明概述

一种融合全局信息和局部信息的输变电场景描述自动生成方法，旨在对输变电场景进行图像中文描述生成：

利用深度学习和传统的计算机视觉技术相结合，提取图像的局部和全局的特征信息；将每个中文分词的语义信息与融合后的特征信息联系起来，对长短期记忆神经网络进行改进并加入双层注意力机制，建立的序列模型在每个时刻都会根据图像特征信息和语义信息产生一个注意力变量的分布，最后生成图像对应的中文描述。

本发明要解决的技术问题包括：

1)大部分图像描述方法对于图像的特征使用的多是全局特征，对于局部间的关系描述准确性低。利用VGG网络来提取全局特征，YOLO网络提取局部特征，通过特征融合算法得到融合特征，增加图像内全局和局部特征的关联程度。

2)单层注意力模型只是对图像特征的各部分进行了一次的观察理论上来说并不能产生最优的结果。所以，在本发明的中文描述模型中尝试了两层的注意力机制来对图片的描述结果进行进一次的修正。

3)在使用LSTM单元生成句子时，其模型深度较浅(常使用1层或2层LSTM)，多模信息变换层次不够，生成的句子语义信息不强，整体性能难以改善。因此对LSTM结构进行改进，新的隐层状态不再仅仅是上一LSTM单元输出的新单词，而是整个解码过程中所有已经生成的新单词。

本发明的技术方案如下：

一种融合全局信息和局部信息的输变电场景描述自动生成方法，其特征在于，包括以下步骤：

S1：编写图像标注软件,并根据相应的要求构建训练集:收集图片并通过人工对图片中图像进行标注；

S2：通过卷积神经网络来提取图片中的全局图像特征；

S3：利用基于深度学习的目标检测算法Yolo网络来提取图片中的局部图像特征，并与步骤S2中的全局图像特征融合获得融合特征；

S4：对图像对应的中文描述按照语义进行分词，并构造中文字典；

S5：利用步骤S4分词后的数据以及融合特征训练基于双层注意力机制的改进的长短时记忆网络；

S6：在使用阶段，依次利用步骤S1-S5进行图像描述生成,完成其图像描述生成任务。

根据本发明优选的，所述步骤S1具体包括：

S11：使用编程语言Python编写一个界面式标注工具，其功能主要包括对图片中的隐患图像进行框选，并标注隐患类型的标签，及预警等级；生成文本描述的图片中隐患情况，具体包括：场景、预警等级、隐患类型；

S12：对电力公司视频监控系统中保存的视频数据取帧，每隔十帧取一次并保存为图片；对所保存的图片做去重复和去模糊处理；

S13：使用步骤S11中编写好的标注工具对步骤S12的图片进行标注：标注图片中的全部隐患的矩形框位置的坐标(xmin，ymin，xmax，ymax)并保存隐患类型及预警等级；对整张图片进行文本标注描述图片中的隐患情况，例如：施工场地有严重预警等级的吊车。

根据本发明优选的，所述步骤S2具体包括：

S21：利用卷积神经网络来实现对图像的全局语义特征的提取，优选的，所述卷积神经网络为VGG19网络；VGG19就是具有19层网络结构的VGG网络，VGG19相比其他卷积神经网络的一个改进是采用连续的几个3x3的卷积核代替较大卷积核；对于给定的感受野(与输出有关的输入图片的局部大小)，采用堆积的小卷积核，多层非线性层可以增加网络深度来保证学习更复杂的模式，而且代价还比较小。

根据本发明优选的，所述步骤S2中采用VGG19网络为改进后的VGG19网络：

在VGG19网络结构中删除了最后要进行类别预测所用的全连接层，以此减少训练参数。在本发明中的VGG19网络主要是由16个卷积层和3个全连接层，其中每个卷积层又包括卷积、激活、池化等操作。每三层的卷积核数目分别是64、128、256、512、512，在最后一层卷积层后，得到一组矩阵。这组矩阵就是最终得到的全局特征，全局特征学习到了图像中颜色信息和形状信息等等的整体属性。

根据本发明优选的，所述步骤S3具体包括：

S31：所述Yolo网络包含Darknet-53特征提取层和三层输出层：

使用Darknet-53特征提取层将原始图片转化为一组特征图；

在后续网络层中利用非极大值抑制算法综合候选区域框和特征图信息获取到目标类别以及获取检测框的准确位置；

使用S1中制作的数据集并过滤重复、模糊数据后作为Yolo模型训练集；

S32：由于使用YOLO网络得到的是目标的位置信息和类别信息，为了与全局图像特征融合需要将这些数据转化为与全局特征相同维度的矩阵。因此在使用YOLO网络检测到目标后使用VGG19网络对其进行特征提取；

S33：将提取的图像全局特征和局部特征进行融合，融合算法的表达式为：

在公式(I)中，F₁，F₂，C分别表示全局特征，局部特征和融合特征。约束条件为C^TC＝1，常数n为影响因子，其取值为正数；

上述公式(I)通过拉格朗日乘子法求解，等价于求解矩阵F₁-kF₂的特征值问题：

(F₁-nF₂)C＝λC，λ为特征值

全局特征与局部特征融合后得到的特征向量包含着更多关键信息，着重包含了更多的图像语义信息以及目标之间的关系信息，因此可以提升描述语句的准确性。

根据本发明优选的，所述步骤S4具体包括：

S41：对步骤S1中标注的中文描述按照语义进行分词；在该步骤可采用人工分词法，也可以采用中文分词工具进行分词，其中选择人工分词结果会更加准确；一个正确的分词例子可以表示：原句是“施工场地有轻微预警的挖掘机”，分词结果是：“施工场地/有/轻微/预警/的/挖掘机”；

S42：对所有中文描述分词后，统计所有出现过的词汇，并按照词汇出现的频率进行排序，将出现频率大于5次的词汇作为字典；对字典中每个词汇采用One-Hot独热编码方式进行编码，编码维度为字典长度；

S43：将数据集中的文本描述句子中每个词汇的独热编码映射为一个嵌入式向量。

根据本发明优选的，所述步骤S5具体包括：

S51：基于句子之间的上下文语境考虑，对LSTM的模型结构进行了改进，即步骤S52，同时考虑到LSTM在计算隐含层时的限制，使用双层注意力机制对解码向量进行相似性度量和加权变换，提高生成序列的质量；

S52：LSTM网络的提出解决了由于时间序列过长而导致的梯度消失与梯度爆炸等问题：

LSTM网络的单元结构包括一个细胞状态在时序之间传递，以及几种不同的门结构去控制输入，输出以及细胞状态，所述门结构包括：

输入门i_t、输出门o_t、遗忘门f_t，以及输入调节单元g_t，在每一个时刻t，LSTM网络的细胞状态c_t以及隐层输出h_t通过下列式子求出：

i_t＝σ(W_ixx_t+W_ihh_t-1+b_i)

f_t＝σ(W_fxx_t+W_fhh_t-1+b_f)

o_t＝σ(W_oxx_t+W_ohh_t-1+b_o)

g_t＝σ(W_gxx_t+W_ghh_t-1+b_g)

c_t＝f_tec_t-1+i_teg_t

h_t＝o_tetanh(c_t)

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_t⊙tanh(c_t)

其中x_t为第t时刻的输入，h_t-1为上一时刻隐层单元的输出，W_ix、W_fx、W_ox、W_gx、W_ih、W_fh、W_oh、W_gh与b_i、b_f、b_o、b_g为该模型待学习的参数，⊙为element-wise乘积，σ()为激活函数；

本发明对LSTM的模型结构进行了改进，改进的LSTM结构相比于标准结构，在LSTM生成新单词的过程中，对每个LSTM单元的隐层状态进行了增强，新的隐层状态不再仅仅是上一LSTM单元输出的新单词，而是整个解码过程中所有已经生成的新单词；

改进的LSTM结构相比于标准的LSTM结构，只是隐层状态不同，改进的LSTM结构的隐层状态是上文已生成的是单词对应字典中的编码信息，在t时刻上一LSTM单元的隐层状态表示为：

同时，在t时刻，相邻两个LSTM单元的隐层状态之间的关系为：

H_t＝LSTM(x_t,H_t-1)

S53：在改进的LSTM中引入双层的注意力机制：

其中，所述注意力模型是模拟人脑注意力的一种模型，其基本思想是对于事物的注意力会在特定时刻集中在某一特定地方，对其他部分分配的注意力会很少。注意力机制可以提高处理大规模输入数据的计算效率，同时通过选择输入的子集来减少输入数据量的维度。另外注意力机制是更加关注于有用信息，让模型训练时专注于找到输入信息中更加突出的信息，以此提高训练结果的效果。通过引入多个注意力模型，使模型可以使用图像不同层次的特征。

基于概率的注意力模型在每一个单词的生成过程中采样来选择一个位置s_t，直接的来获取期望的内容向量z_t来构造一个确定性注意力模型:

为权重标记向量；

在整体模型中，输入图像经过VGG19的全局图像特征和YOLO的局部图像特征编码后通过概率注意力模型生成LSTM单元的上下文，上下文经由LSTM编码后生成隐藏向量，最后由中文特征反编码生成每一步的输出单词；由于采用了双层注意力机制，所以将第一层的解码模型的中文描述生成部分去掉，而将隐藏层的最终输出结果作为第二层注意力解码模型的输入；

S54：使用步骤S2获得的融合特征和步骤S4分词后的数据作为输入训练基于双层注意力机制的长短时记忆网络，训练后的长短时记忆网络即输出图片对应的中文描述。

本发明的有益效果：

本发明利用VGG网络来提取全局特征，YOLO网络提取局部特征，通过特征融合算法得到融合特征，增加图像内全局和局部特征的关联程度，并使用基于双层注意力机制的长短时记忆网络进行中文描述生成。因此，本发明的方法不仅利用了输入图像的概述，而且还丰富了视觉语义方面的信息，让生成的句子更能够真实的反应图像的内容。

附图说明

图1是本发明的整体流程图；

图2是本发明实施例中，利用本发明所述方法自动生成的带有框图和文字描述的输出结果。

具体实施方式

下面结合实施例和说明书附图对本发明做详细的说明，但不限于此。

实施例、

如图1所示。一种融合全局信息和局部信息的输变电场景描述自动生成方法，包括以下步骤：

S1：构建训练集:收集图片并通过人工对图片中图像进行标注；

S2：通过卷积神经网络来提取图片中的全局图像特征；

所述步骤S1具体包括：

S11：对图片中的隐患图像进行框选，并标注隐患类型的标签，及预警等级；

生成文本描述的图片中隐患情况，具体包括：场景、预警等级、隐患类型；

S13：使用步骤S11中编写好的标注工具对步骤S12的图片进行标注：标注图片中的全部隐患的矩形框位置的坐标(xmin，ymin，xmax，ymax)并保存隐患类型及预警等级；对整张图片进行文本标注描述图片中的隐患情况，本实施例中，施工场地有严重预警等级的吊车。

所述步骤S2具体包括：

S21：利用卷积神经网络来实现对图像的全局语义特征的提取，优选的，所述卷积神经网络为VGG19网络；

所述步骤S2中采用VGG19网络为改进后的VGG19网络：

在VGG19网络结构中删除了最后要进行类别预测所用的全连接层。

所述步骤S3具体包括：

S31：所述Yolo网络包含Darknet-53特征提取层和三层输出层：

使用Darknet-53特征提取层将原始图片转化为一组特征图；

S32：使用YOLO网络检测到目标后使用VGG19网络对其进行特征提取；

(F₁-nF₂)C＝λC，λ为特征值。

所述步骤S4具体包括：

S41：对步骤S1中标注的中文描述按照语义进行分词；原句是“施工场地有轻微预警的挖掘机”，分词结果是：“施工场地/有/轻微/预警/的/挖掘机”；

所述步骤S5具体包括：

i_t＝σ(W_ixx_t+W_ihh_t-1+b_i)

f_t＝σ(W_fxx_t+W_fhh_t-1+b_f)

o_t＝σ(W_oxx_t+W_ohh_t-1+b_o)

g_t＝σ(W_gxx_t+W_ghh_t-1+b_g)

c_t＝f_tec_t-1+i_teg_t

h_t＝o_tetanh(c_t)

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_t⊙tanh(c_t)

改进的LSTM结构的隐层状态是上文已生成的是单词对应字典中的编码信息，在t时刻上一LSTM单元的隐层状态表示为：

H_t＝LSTM(x_t,H_t-1)

S53：在改进的LSTM中引入双层的注意力机制：

为权重标记向量；

应用例、

将本发明应用至如图2所示的电力场景中：

首先将图2对应的原始图片作为输入图像分别经过VGG19网络和YOLO网络，得到该图像的全局特征信息和局部特征信息；

进一步的，对全局特征和局部特征进行融合，并将融合特征送入改进的双层注意力LSTM网络中；

进一步的，从双层注意力LSTM网络中得到编码向量，根据预定义的字典反编码生成输出单词，得到最后的中文描述信息,“施工场地有严重预警的吊车和一般预警的吊车”。

Claims

1.一种融合全局信息和局部信息的输变电场景描述自动生成方法，其特征在于，包括以下步骤：

S2：通过卷积神经网络来提取图片中的全局图像特征；

2.根据权利要求1所述的一种融合全局信息和局部信息的输变电场景描述自动生成方法，其特征在于，所述步骤S1具体包括：

S11：对图片中的隐患图像进行框选，并标注隐患类型的标签，及预警等级；生成文本描述的图片中隐患情况，具体包括：场景、预警等级、隐患类型；

S12：对电力公司视频监控系统中保存的视频数据取帧，并保存为图片；对所保存的图片做去重复和去模糊处理；

S13：使用步骤S11中编写好的标注工具对步骤S12的图片进行标注：标注图片中的全部隐患的矩形框位置的坐标(xmin，ymin，xmax，ymax)并保存隐患类型及预警等级；对整张图片进行文本标注描述图片中的隐患情况。

3.根据权利要求1所述的一种融合全局信息和局部信息的输变电场景描述自动生成方法，其特征在于，所述步骤S2具体包括：

S21：利用卷积神经网络来实现对图像的全局语义特征的提取，优选的，所述卷积神经网络为VGG19网络。

4.根据权利要求3所述的一种融合全局信息和局部信息的输变电场景描述自动生成方法，其特征在于，所述步骤S2中采用VGG19网络为改进后的VGG19网络：

5.根据权利要求1所述的一种融合全局信息和局部信息的输变电场景描述自动生成方法，其特征在于，所述步骤S3具体包括：

S31：所述Yolo网络包含Darknet-53特征提取层和三层输出层：

使用Darknet-53特征提取层将原始图片转化为一组特征图；

在公式(I)中，F₁，F₂，C分别表示全局特征，局部特征和融合特征，约束条件为C^TC＝1，常数n为影响因子，其取值为正数；

(F₁-nF₂)C＝λC，λ为特征值。

6.根据权利要求1所述的一种融合全局信息和局部信息的输变电场景描述自动生成方法，其特征在于，所述步骤S4具体包括：

S41：对步骤S1中标注的中文描述按照语义进行分词；

7.根据权利要求1所述的一种融合全局信息和局部信息的输变电场景描述自动生成方法，其特征在于，所述步骤S5具体包括：

S51：基于句子之间的上下文语境考虑，对LSTM的模型结构进行了改进，同时考虑到LSTM在计算隐含层时的限制，使用双层注意力机制对解码向量进行相似性度量和加权变换，提高生成序列的质量；

S52：LSTM网络的单元结构包括一个细胞状态在时序之间传递，以及几种不同的门结构去控制输入，输出以及细胞状态，所述门结构包括：

i_t＝σ(W_ixx_t+W_ihh_t-1+b_i)

f_t＝σ(W_fxx_t+W_fhh_t-1+b_f)

o_t＝σ(W_oxx_t+W_ohh_t-1+b_o)

g_t＝σ(W_gxx_t+W_ghh_t-1+b_g)

c_t＝f_te c_t-1+i_te g_t

h_t＝o_te tanh(c_t)

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_t⊙tanh(c_t)

H_t＝LSTM(x_t,H_t-1)

S53：在改进的LSTM中引入双层的注意力机制：

为权重标记向量；