CN110232413A

CN110232413A - 基于gru网络的绝缘子图像语义描述方法、系统、装置

Info

Publication number: CN110232413A
Application number: CN201910468895.4A
Authority: CN
Inventors: 翟永杰; 王坤峰; 刘鑫月; 贾雪健; 王飞跃
Original assignee: Institute of Automation of Chinese Academy of Science; North China Electric Power University
Current assignee: Institute of Automation of Chinese Academy of Science; North China Electric Power University
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2019-09-13

Abstract

本发明属于计算机及图像处理领域，具体涉及了一种基于GRU网络的绝缘子图像语义描述方法、系统、装置，旨在解决现有技术给出图像语义内容无法满足机器以及神经网络学习需要的问题。本发明方法包括：获取包含绝缘子的图像作为待描述图像；采用特征提取网络提取含绝缘子的图像的特征，获得特征向量；采用图像语义描述网络，获取对应的语义描述文件；其中，特征提取网络基于循环神经网络构建，图像语义描述网络基于门控循环单元构建。本发明将特征向量和图像的语义标签一并输入到GRU网络中，通过图像和语义标签的映射关系，将图像的特征转换成计算机可以理解的序列的形态，获得绝缘子图像的语义描述，从而提高如图像检测等其他任务的性能。

Description

基于GRU网络的绝缘子图像语义描述方法、系统、装置

技术领域

本发明属于计算机及图像处理领域，具体涉及了一种基于GRU网络的绝缘子图像语义描述方法、系统、装置。

背景技术

图像理解技术，其核心技术是在图像处理分析基础上，结合计算机视觉和自然语言处理等相关理论，进而分析、理解图像内容，并以文本语义信息的形式反馈给人类。因此图像理解技术的完成既需要图像标注，也需要图像语义描述。图像标注的任务是以图像为对象，语义信息为载体，研究图像中有何物体以及物体之间的联系。图像语义描述的任务是以自然语言处理技术分析并产生特征序列，进而将生成的特征序列翻译为自然语言的描述语句。近年来，图像的语义描述得到了研究界的极大兴趣，同图像标注工作一样，它们都具有广阔的应用前景。

目前在针对绝缘子图像处理的研究中，运用的大部分都是不包含语义标签的数据，图像的标签基本都是图像中某一目标的位置坐标信息，对于这样的数据集，计算机无论是通过机器学习还是深度神经网络，都不能像人一样真正理解图像中包含的语义内容，因此无法获得令人满意的效果，所以对于绝缘子图像的语义内容的理解亟待解决。

发明内容

为了解决现有技术中的上述问题，即现有技术给出图像语义内容无法满足机器以及神经网络学习需要的问题，本发明提供了一种基于GRU网络的绝缘子图像语义描述方法，包括：

步骤S10，获取包含绝缘子的图像作为待描述图像；

步骤S20，采用特征提取网络提取所述待描述图像的特征，获得待描述图像的特征向量；

步骤S30，采用图像语义描述网络，依据所述待描述图像的特征向量，获取图像对应的语义描述文件；

其中，所述特征提取网络基于循环神经网络构建，所述图像语义描述网络基于门控循环单元构建。

在一些优选的实施例中，所述特征提取网络、图像语义描述网络，其训练方法为：

步骤B10，根据获取的绝缘子训练图像集中每一个图像包含的内容，建立具有先验规定结构的语义标签文件，得到训练图像语义标签文件集；采用特征提取网络获取的绝缘子训练图像集中每一个图像的特征，得到特征向量集；

步骤B20，随机选取所述特征向量集中的一个特征向量，采用图像语义描述网络，获得图像对应的语义描述文件；

步骤B30，基于所述图像对应的语义描述文件，与对应语义标签文件对比计算词错误率，调整所述图像语义描述网络的动态学习率并更新特征提网络权重；

步骤B40，重复执行步骤B20、步骤B30，直至达到预设的训练结束条件，获得训练好的特征提取网络以及图像语义描述网络。

在一些优选的实施例中，步骤B20中“随机选取所述特征向量集中的一个特征向量，采用图像语义描述网络，获得图像对应的语义描述文件”，其方法为：

步骤B201，激活所述图像语义描述网络的重置门、更新门；

步骤B202，将所述特征向量输入激活后的图像语义描述网络，通过所述重置门、更新门进行信息传递与过滤，并将过滤后的特征向量解码，获得图像对应的语义描述文件。

在一些优选的实施例中，步骤B30中“基于所述图像对应的语义描述文件，与对应语义标签文件对比计算词错误率”，其方法为：

对比图像的语义描述文件与对应的语义标签文件，通过替换、删除或者插入某些词使二者保持一致，计算替换、删除或者插入的词的总个数在语义标签文件词汇总数的百分比，为词错误率。

在一些优选的实施例中，步骤B20中“采用步骤S20方法提取获取的绝缘子训练图像集中每一个图像的特征”之前还设置有图像尺寸调整及去均值化处理步骤，其方法为：

步骤T10，将所述缘子训练图像集中每一个图像随机调整为预设区间内的大小；

步骤T20，在随机调整尺寸后的图像上进行随机采样，获得预设尺寸的图像；

步骤T30，对所述预设尺寸图像进行去均值化处理。

在一些优选的实施例中，所述语义标签文件为基于绝缘子训练图像所包含的实体、概念及属性关系，参照电力领域的术语及词汇要求，构建的文件。

在一些优选的实施例中，所述语义标签的结构根据先验知识预先设定，包括：

绝缘子串的数量、绝缘子串的完整性、绝缘子材质、绝缘子故障类型、绝缘子故障位置。

本发明的另一方面，提出了一种基于GRU网络的绝缘子图像语义描述系统，包括输入模块、特征提取模块、图像语义描述模块、输出模块；

所述输入模块，配置为获取包含绝缘子的图像作为待描述图像并输入；

所述特征提取模块，配置为基于所述待描述图像，采用特征提取模块提取图像的特征向量；

所述图像语义描述模块，配置为基于所述图像的特征向量，采用图像语义描述模块获取图像的语义描述文件；

所述输出模块，配置为将获取的图像的语义描述文件输出。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于GRU网络的绝缘子图像语义描述方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于GRU网络的绝缘子图像语义描述方法。

本发明的有益效果：

本方法基于GRU网络的绝缘子图像语义描述方法针对所研究的数据集的特性，改进了提取特征性能较好的ResNet34，用来提取绝缘子图像的特征向量，进而将特征向量和图像的语义标签一并输入到GRU网络中，通过绝缘子图像和它的语义标签之间的映射关系，将图像的特征转换成计算机可以理解的序列的形态，以获得绝缘子图像的语义描述，描述包括串的数量、串的完整性、绝缘子材质、故障类型以及故障位置，让计算机更好的理解图像所包含的内容，从而提高如图像检测等其他任务的性能。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于GRU网络的绝缘子图像语义描述方法的流程示意图；

图2是本发明基于GRU网络的绝缘子图像语义描述方法一种实施例的训练图像示例图；

图3是本发明基于GRU网络的绝缘子图像语义描述方法一种实施例的单个GRU结构示例图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的一种基于GRU网络的绝缘子图像语义描述方法，包括：

步骤S10，获取包含绝缘子的图像作为待描述图像；

为了更清晰地对本发明基于GRU网络的绝缘子图像语义描述方法进行说明，下面结合图1对本发明方法实施例中各步骤展开详述。

本发明一种实施例的基于GRU网络的绝缘子图像语义描述方法，包括步骤S10-步骤S30，各步骤详细描述如下：

步骤S10，获取包含绝缘子的图像作为待描述图像。

图像语义描述的任务是以自然语言处理技术分析并产生特征序列，进而将生成的特征序列翻译为自然语言的描述语句。目前在针对绝缘子图像处理的研究中，运用的大部分都是不包含语义标签的数据，图像的标签基本都是图像中某一目标的位置坐标信息，对于这样的数据集，计算机无论是通过机器学习还是深度神经网络，都不能像人一样真正理解图像中包含的语义内容，因此无法获得令人满意的效果，所以对于绝缘子图像的语义内容的理解亟待解决。

步骤S20，采用特征提取网络提取所述待描述图像的特征，获得待描述图像的特征向量。

特征没有万能和精确的定义，特征的精确定义往往由问题或者应用类型决定。特征是一个数字图像中“有趣”的部分，它是许多计算机图像分析算法的起点。因此一个算法是否成功往往由它使用和定义的特征决定。因此特征提取最重要的一个特性是“可重复性”：同一场景的不同图像所提取的特征应该是相同的。

步骤S30，采用图像语义描述网络，依据所述待描述图像的特征向量，获取图像对应的语义描述文件。

其中，所述特征提取网络基于循环神经网络构建，所述图像语义描述网络基于门控循环单元构建，其训练方法为：

步骤B10，根据获取的绝缘子训练图像集中每一个图像包含的内容，建立具有先验规定结构的语义标签文件，得到训练图像语义标签文件集；采用特征提取网络获取的绝缘子训练图像集中每一个图像的特征，得到特征向量集。

所述语义标签文件为基于绝缘子训练图像所包含的实体、概念及属性关系，参照电力领域的术语及词汇要求，构建的文件。

所述语义标签的结构根据先验知识预先设定，包括：

串的数量：串的数量描述不固定范围，一般是2串以内，特殊情况有拍摄重叠时，包含2串以上的情况。

绝缘子串的完整性：串的完整性描述主要看图像中包含的绝缘子串是否完整未被裁剪，这取决于拍摄的角度，有“完整”和“不完整”两种情况。

绝缘子材质：绝缘子材质描述有“玻璃”、“陶瓷”、“复合”三种类型。

绝缘子故障位置：故障位置描述主要包括故障发生的串的位置及伞裙的位置，串的位置描述包括“上下左右”四种情况，伞裙的位置描述定义以伞裙数量少一侧为始，如果初始位置有截取不完整或被遮挡的伞裙，仍以该伞裙为初始数值，数值无固定范围。

如图2所示，为本发明基于GRU网络的绝缘子图像语义描述方法一种实施例的训练图像示例图，左上部分图像的语义标签内容为“两串不完整的玻璃绝缘子，上侧串第3片伞裙有自爆故障”，右上部分图像的语义标签内容为“两串不完整的陶瓷绝缘子，无故障”，左下部分图像的语义标签内容为“一串完整的陶瓷绝缘子，第1片伞裙有闪络故障”，右下部分图像的语义标签内容为“两串不完整的复合绝缘子，左侧串第6片伞裙有破损故障”。

通用领域的实际应用表明，ResNet相对于其他卷积神经网络而言，可以得到绝缘子图像更准确的特征信息，因此在特征提取部分采用ResNet34网络。本发明方法中仅采用ResNet34网络进行特征提取，无需进行分类，因而对ResNet34网络进行改进，去除网络最后的softmax层，将图像输入到改进的ResNet34网络中，经过网络的卷积、池化等运算，得到图像对应的特征向量。改进后的特征提取网络的结构为：网络第1层为卷积层，卷积核大小为7×7，通道数为64，步长为2；第2层为池化层，步长为2；第3-8层为卷积层，卷积核大小为3×3，通道数为64，步长为1；第9-16层为卷积层，卷积核大小为3×3，通道数为128，第9层步长为2，其余为1；第17-28层为卷积层，卷积核大小为3×3，通道数为256，第17层步长为2，其余为1；第29-34层是卷积层，卷积核大小为3×3，通道数为512，第29层步长为2，其余为1。

将ResNet34改进后代替RNN应用到绝缘子图像的特征提取上有很多优点。首先，ResNet34的计算复杂度较低，需要的参数量下降。其次，它对每层的输入做一个参考,学习后形成残差函数，而不是学习一些没有参考的函数，这种残差函数更容易优化，能使网络层数大大加深。而且由于在浅层网络基础上叠加了恒等映射层，从一定程度上解决了深层次网络的退化问题。

步骤B20，随机选取所述特征向量集中的一个特征向量，采用图像语义描述网络，获得图像对应的语义描述文件。

GRU网络用门控机制控制输入、记忆等信息而在当前时间步做出预测，它有两个门，一个重置门(reset gate)和一个更新门(update gate)。如图3所示，为本发明基于GRU网络的绝缘子图像语义描述方法一种实施例的单个GRU结构示例图，x_t表示当前时间步外部输入的信息，h_t表示输出的当前时间步最终记忆的信息，z_t表示更新门，r_t表示重置门，h_t-1表示前一时间步信息，h′_t表示当前时间步记忆的信息。

获得图像对应的语义描述文件方法为：

步骤B201，激活所述图像语义描述网络的重置门、更新门，如式(1)和式(2)所示：

z_t＝σ(W^(z)x_t+U^(z)h_t-1) 式(1)

r_t＝σ(W^(r)x_t+U^(r)h_t-1) 式(2)

其中，W^(z)、U^(z)分别为更新门z_t中x_t和h_t-1的系数矩阵，W^(r)、U^(r)分别为重置门r_t中x_t和h_t-1的系数矩阵，σ为sigmoid激活函数。

更新门的作用是帮助模型决策需要将多少前一时间步的信息h_t-1和当前时间外部输入的信息x_t继续传递到下一时间步，这样的操作可以降低梯度消失的风险。

重置门的作用是决策需要将多少前一时间步信息h_t-1和当前时间外部输入的信息x_t过滤掉。

更新门和重置门都是由0到1组成的向量，它以此来控制相应的门开启的程度。

信息传递与过滤如式(3)和式(4)所示：

h'_t＝tanh(Wx_t+r_t⊙Uh_t-1) 式(3)

h_t＝z_t⊙h_t-1+(1-z_t)⊙h'_t 式(4)

如式(3)所示，使用重置门储存需要传递的前一步相关的信息h_t-1，最后将这部分与当前时间外部输入的信息x_t相加再输入双曲正切激活函数tanh中。如式(4)所示，获得当前时间最终输出的信息h_t，保留了当前GRU的信息并传递到下一个GRU中。在这个过程中，使用更新门存储式(3)的记忆内容h′_t和前一时间步信息h_t-1中需要传递和过滤的信息流。

解码器模型的结构是由许多层GRU串联构成的，根据不同的特征提取模型和训练数据的要求，层数各不相同。经过理论分析和试验，本发明实施例中采用的绝缘子数据图像内容包含的语义关系较少，不包含动作信息，且语义描述规律性较强，因此解码器采用2层GRU串联构成。数据经过解码器后，得到向量形式的输出，经过转换变成词汇再连词成句，获得绝缘子图像的语义描述。

本发明采用GRU有几个优势：

首先，传统的RNN解码器模型虽然经典但仍然存在一些问题，例如梯度爆炸和梯度消失。梯度爆炸会影响训练的收敛,甚至导致网络不收敛。而梯度消失会使网络学习长距离依赖的难度增加，无法学习到更全面的信息。梯度爆炸相对比较好处理,可以用梯度裁剪(Gradient Clipping)来解决。GRU作为循环神经网络的一种变体，对于RNN中的梯度消失有很大帮助，它通过更新门与重置门过滤信息，也会保存长期序列中的信息并传递到下一个GRU，不会随时间而清除或因为与预测不相关而移除，因此它利用全部信息来避免了梯度消失问题。

其次，GRU的构造更简单，比长短时记忆网络(LSTM，Long Short Term Memory)少一个门，因此在训练数据量很大的情况下可以节省大量的时间。

步骤B20中“采用特征提取网络提取获取的绝缘子训练图像集中每一个图像的特征”之前还设置有图像尺寸调整及去均值化处理步骤，其方法为：

步骤T10，将所述缘子训练图像集中每一个图像随机调整为预设区间内的大小。

本发明一个实施例中，将输入绝缘子图像的分辨率随机调整成短边长为[256,480]之间的大小。

步骤T20，在随机调整尺寸后的图像上进行随机采样，获得预设尺寸的图像。

本发明一个实施例中，在得到的绝缘子图像上进行随机采样，获得尺寸为224×224的绝缘子图像。

步骤T30，对所述预设尺寸图像进行去均值化处理。

在神经网络中，特征值x比较大的时候，会导致W*x+b的结果也会很大，这样进行激活函数(如relu)输出时，会导致对应位置数值变化量太小，进行反向传播时因为要使用这里的梯度进行计算，所以会导致梯度消散，参数改变量很小，也就会易于拟合，效果不好。

各维度都减对应维度的均值，使得输入数据各个维度都中心化为0，进行去均值化，则不容易拟合。

步骤B30，基于所述图像对应的语义描述文件，与对应语义标签文件对比计算词错误率，调整所述图像语义描述网络的动态学习率并更新特征提网络权重。

词错误率的计算方法为：

为了评估训练好的特征提取网络以及图像语义描述网络，将训练图像集中的一部分作为测试集作为网络模型的测试数据，本发明实施例中，获取了20000张无人机航拍绝缘子图像，其中17000张作为训练图像，3000张作为测试图像。

将测试图像通过特征提取网络提取特征，图像语义描述网络进行语义描述，获得的语义描述文件与图像对应的语义标签文件对比并计算词错误率，词错误率低于设定的阈值，则获得了性能优越的网络模型。

为了获得更优的网络模型，让结果更加贴近目标，在本发明实施例的网络训练过程中又加入了注意力机制(Attention)网络，可以让联合网络在生成输出序列时自动学习关注突出对象，特征提取网络中加入针对图像特征提取的注意力机制，学习在生成绝缘子图像特征时关注重点的图像位置。解码器中加入针对解码器的注意力机制，可以学习在生成语义描述中每个词时关注重点词汇。加入Attention能够明显改善系统输出效果，Attention在这里起到了类似人类视觉选择性注意的机制，在输出某个实体词的时候会将注意力焦点聚焦在图片中相应的区域上。

本发明第二实施例的基于GRU网络的绝缘子图像语义描述系统，包括输入模块、特征提取模块、图像语义描述模块、输出模块；

所述输出模块，配置为将获取的图像的语义描述文件输出。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于GRU网络的绝缘子图像语义描述系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于GRU网络的绝缘子图像语义描述方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于GRU网络的绝缘子图像语义描述方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于GRU网络的绝缘子图像语义描述方法，其特征在于，该绝缘子图像语义描述方法包括：

步骤S10，获取包含绝缘子的图像作为待描述图像；

2.根据权利要求1所述的基于GRU网络的绝缘子图像语义描述方法，其特征在于，所述特征提取网络、图像语义描述网络，其训练方法为：

3.根据权利要求2所述的基于GRU网络的绝缘子图像语义描述方法，其特征在于，步骤B20中“随机选取所述特征向量集中的一个特征向量，采用图像语义描述网络，获得图像对应的语义描述文件”，其方法为：

步骤B201，激活所述图像语义描述网络的重置门、更新门；

4.根据权利要求2所述的基于GRU网络的绝缘子图像语义描述方法，其特征在于，步骤B30中“基于所述图像对应的语义描述文件，与对应语义标签文件对比计算词错误率”，其方法为：

5.根据权利要求2所述的基于GRU网络的绝缘子图像语义描述方法，其特征在于，步骤B20中“采用特征提取网络提取获取的绝缘子训练图像集中每一个图像的特征”之前还设置有图像尺寸调整及去均值化处理步骤，其方法为：

步骤T30，对所述预设尺寸图像进行去均值化处理。

6.根据权利要求2所述的基于GRU网络的绝缘子图像语义描述方法，其特征在于，所述语义标签文件为基于绝缘子训练图像所包含的实体、概念及属性关系，参照电力领域的术语及词汇要求，构建的文件。

7.根据权利要求6所述的基于GRU网络的绝缘子图像语义描述方法，其特征在于，所述语义标签的结构根据先验知识预先设定，包括：

8.一种基于GRU网络的绝缘子图像语义描述系统，其特征在于，包括输入模块、特征提取模块、图像语义描述模块、输出模块；

所述输出模块，配置为将获取的图像的语义描述文件输出。

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于GRU网络的绝缘子图像语义描述方法。

10.一种处理装置，包括

处理器，适于执行各条程序；以及

存储装置，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-7任一项所述的基于GRU网络的绝缘子图像语义描述方法。