CN110232413A - 基于gru网络的绝缘子图像语义描述方法、系统、装置 - Google Patents
基于gru网络的绝缘子图像语义描述方法、系统、装置 Download PDFInfo
- Publication number
- CN110232413A CN110232413A CN201910468895.4A CN201910468895A CN110232413A CN 110232413 A CN110232413 A CN 110232413A CN 201910468895 A CN201910468895 A CN 201910468895A CN 110232413 A CN110232413 A CN 110232413A
- Authority
- CN
- China
- Prior art keywords
- image
- semantic
- network
- insulator
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000012212 insulator Substances 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000000306 recurrent effect Effects 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 27
- 230000015556 catabolic process Effects 0.000 claims description 7
- 239000012141 concentrate Substances 0.000 claims description 7
- 239000000463 material Substances 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000003780 insertion Methods 0.000 claims description 6
- 230000037431 insertion Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000009413 insulation Methods 0.000 abstract description 12
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 238000013507 mapping Methods 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 239000000919 ceramic Substances 0.000 description 3
- 230000001351 cycling effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 3
- 238000004880 explosion Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011496 digital image analysis Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机及图像处理领域,具体涉及了一种基于GRU网络的绝缘子图像语义描述方法、系统、装置,旨在解决现有技术给出图像语义内容无法满足机器以及神经网络学习需要的问题。本发明方法包括:获取包含绝缘子的图像作为待描述图像;采用特征提取网络提取含绝缘子的图像的特征,获得特征向量;采用图像语义描述网络,获取对应的语义描述文件;其中,特征提取网络基于循环神经网络构建,图像语义描述网络基于门控循环单元构建。本发明将特征向量和图像的语义标签一并输入到GRU网络中,通过图像和语义标签的映射关系,将图像的特征转换成计算机可以理解的序列的形态,获得绝缘子图像的语义描述,从而提高如图像检测等其他任务的性能。
Description
技术领域
本发明属于计算机及图像处理领域,具体涉及了一种基于GRU网络的绝缘子图像语义描述方法、系统、装置。
背景技术
图像理解技术,其核心技术是在图像处理分析基础上,结合计算机视觉和自然语言处理等相关理论,进而分析、理解图像内容,并以文本语义信息的形式反馈给人类。因此图像理解技术的完成既需要图像标注,也需要图像语义描述。图像标注的任务是以图像为对象,语义信息为载体,研究图像中有何物体以及物体之间的联系。图像语义描述的任务是以自然语言处理技术分析并产生特征序列,进而将生成的特征序列翻译为自然语言的描述语句。近年来,图像的语义描述得到了研究界的极大兴趣,同图像标注工作一样,它们都具有广阔的应用前景。
目前在针对绝缘子图像处理的研究中,运用的大部分都是不包含语义标签的数据,图像的标签基本都是图像中某一目标的位置坐标信息,对于这样的数据集,计算机无论是通过机器学习还是深度神经网络,都不能像人一样真正理解图像中包含的语义内容,因此无法获得令人满意的效果,所以对于绝缘子图像的语义内容的理解亟待解决。
发明内容
为了解决现有技术中的上述问题,即现有技术给出图像语义内容无法满足机器以及神经网络学习需要的问题,本发明提供了一种基于GRU网络的绝缘子图像语义描述方法,包括:
步骤S10,获取包含绝缘子的图像作为待描述图像;
步骤S20,采用特征提取网络提取所述待描述图像的特征,获得待描述图像的特征向量;
步骤S30,采用图像语义描述网络,依据所述待描述图像的特征向量,获取图像对应的语义描述文件;
其中,所述特征提取网络基于循环神经网络构建,所述图像语义描述网络基于门控循环单元构建。
在一些优选的实施例中,所述特征提取网络、图像语义描述网络,其训练方法为:
步骤B10,根据获取的绝缘子训练图像集中每一个图像包含的内容,建立具有先验规定结构的语义标签文件,得到训练图像语义标签文件集;采用特征提取网络获取的绝缘子训练图像集中每一个图像的特征,得到特征向量集;
步骤B20,随机选取所述特征向量集中的一个特征向量,采用图像语义描述网络,获得图像对应的语义描述文件;
步骤B30,基于所述图像对应的语义描述文件,与对应语义标签文件对比计算词错误率,调整所述图像语义描述网络的动态学习率并更新特征提网络权重;
步骤B40,重复执行步骤B20、步骤B30,直至达到预设的训练结束条件,获得训练好的特征提取网络以及图像语义描述网络。
在一些优选的实施例中,步骤B20中“随机选取所述特征向量集中的一个特征向量,采用图像语义描述网络,获得图像对应的语义描述文件”,其方法为:
步骤B201,激活所述图像语义描述网络的重置门、更新门;
步骤B202,将所述特征向量输入激活后的图像语义描述网络,通过所述重置门、更新门进行信息传递与过滤,并将过滤后的特征向量解码,获得图像对应的语义描述文件。
在一些优选的实施例中,步骤B30中“基于所述图像对应的语义描述文件,与对应语义标签文件对比计算词错误率”,其方法为:
对比图像的语义描述文件与对应的语义标签文件,通过替换、删除或者插入某些词使二者保持一致,计算替换、删除或者插入的词的总个数在语义标签文件词汇总数的百分比,为词错误率。
在一些优选的实施例中,步骤B20中“采用步骤S20方法提取获取的绝缘子训练图像集中每一个图像的特征”之前还设置有图像尺寸调整及去均值化处理步骤,其方法为:
步骤T10,将所述缘子训练图像集中每一个图像随机调整为预设区间内的大小;
步骤T20,在随机调整尺寸后的图像上进行随机采样,获得预设尺寸的图像;
步骤T30,对所述预设尺寸图像进行去均值化处理。
在一些优选的实施例中,所述语义标签文件为基于绝缘子训练图像所包含的实体、概念及属性关系,参照电力领域的术语及词汇要求,构建的文件。
在一些优选的实施例中,所述语义标签的结构根据先验知识预先设定,包括:
绝缘子串的数量、绝缘子串的完整性、绝缘子材质、绝缘子故障类型、绝缘子故障位置。
本发明的另一方面,提出了一种基于GRU网络的绝缘子图像语义描述系统,包括输入模块、特征提取模块、图像语义描述模块、输出模块;
所述输入模块,配置为获取包含绝缘子的图像作为待描述图像并输入;
所述特征提取模块,配置为基于所述待描述图像,采用特征提取模块提取图像的特征向量;
所述图像语义描述模块,配置为基于所述图像的特征向量,采用图像语义描述模块获取图像的语义描述文件;
所述输出模块,配置为将获取的图像的语义描述文件输出。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于GRU网络的绝缘子图像语义描述方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于GRU网络的绝缘子图像语义描述方法。
本发明的有益效果:
本方法基于GRU网络的绝缘子图像语义描述方法针对所研究的数据集的特性,改进了提取特征性能较好的ResNet34,用来提取绝缘子图像的特征向量,进而将特征向量和图像的语义标签一并输入到GRU网络中,通过绝缘子图像和它的语义标签之间的映射关系,将图像的特征转换成计算机可以理解的序列的形态,以获得绝缘子图像的语义描述,描述包括串的数量、串的完整性、绝缘子材质、故障类型以及故障位置,让计算机更好的理解图像所包含的内容,从而提高如图像检测等其他任务的性能。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于GRU网络的绝缘子图像语义描述方法的流程示意图;
图2是本发明基于GRU网络的绝缘子图像语义描述方法一种实施例的训练图像示例图;
图3是本发明基于GRU网络的绝缘子图像语义描述方法一种实施例的单个GRU结构示例图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明的一种基于GRU网络的绝缘子图像语义描述方法,包括:
步骤S10,获取包含绝缘子的图像作为待描述图像;
步骤S20,采用特征提取网络提取所述待描述图像的特征,获得待描述图像的特征向量;
步骤S30,采用图像语义描述网络,依据所述待描述图像的特征向量,获取图像对应的语义描述文件;
其中,所述特征提取网络基于循环神经网络构建,所述图像语义描述网络基于门控循环单元构建。
为了更清晰地对本发明基于GRU网络的绝缘子图像语义描述方法进行说明,下面结合图1对本发明方法实施例中各步骤展开详述。
本发明一种实施例的基于GRU网络的绝缘子图像语义描述方法,包括步骤S10-步骤S30,各步骤详细描述如下:
步骤S10,获取包含绝缘子的图像作为待描述图像。
图像语义描述的任务是以自然语言处理技术分析并产生特征序列,进而将生成的特征序列翻译为自然语言的描述语句。目前在针对绝缘子图像处理的研究中,运用的大部分都是不包含语义标签的数据,图像的标签基本都是图像中某一目标的位置坐标信息,对于这样的数据集,计算机无论是通过机器学习还是深度神经网络,都不能像人一样真正理解图像中包含的语义内容,因此无法获得令人满意的效果,所以对于绝缘子图像的语义内容的理解亟待解决。
步骤S20,采用特征提取网络提取所述待描述图像的特征,获得待描述图像的特征向量。
特征没有万能和精确的定义,特征的精确定义往往由问题或者应用类型决定。特征是一个数字图像中“有趣”的部分,它是许多计算机图像分析算法的起点。因此一个算法是否成功往往由它使用和定义的特征决定。因此特征提取最重要的一个特性是“可重复性”:同一场景的不同图像所提取的特征应该是相同的。
步骤S30,采用图像语义描述网络,依据所述待描述图像的特征向量,获取图像对应的语义描述文件。
其中,所述特征提取网络基于循环神经网络构建,所述图像语义描述网络基于门控循环单元构建,其训练方法为:
步骤B10,根据获取的绝缘子训练图像集中每一个图像包含的内容,建立具有先验规定结构的语义标签文件,得到训练图像语义标签文件集;采用特征提取网络获取的绝缘子训练图像集中每一个图像的特征,得到特征向量集。
所述语义标签文件为基于绝缘子训练图像所包含的实体、概念及属性关系,参照电力领域的术语及词汇要求,构建的文件。
所述语义标签的结构根据先验知识预先设定,包括:
绝缘子串的数量、绝缘子串的完整性、绝缘子材质、绝缘子故障类型、绝缘子故障位置。
串的数量:串的数量描述不固定范围,一般是2串以内,特殊情况有拍摄重叠时,包含2串以上的情况。
绝缘子串的完整性:串的完整性描述主要看图像中包含的绝缘子串是否完整未被裁剪,这取决于拍摄的角度,有“完整”和“不完整”两种情况。
绝缘子材质:绝缘子材质描述有“玻璃”、“陶瓷”、“复合”三种类型。
绝缘子故障位置:故障位置描述主要包括故障发生的串的位置及伞裙的位置,串的位置描述包括“上下左右”四种情况,伞裙的位置描述定义以伞裙数量少一侧为始,如果初始位置有截取不完整或被遮挡的伞裙,仍以该伞裙为初始数值,数值无固定范围。
如图2所示,为本发明基于GRU网络的绝缘子图像语义描述方法一种实施例的训练图像示例图,左上部分图像的语义标签内容为“两串不完整的玻璃绝缘子,上侧串第3片伞裙有自爆故障”,右上部分图像的语义标签内容为“两串不完整的陶瓷绝缘子,无故障”,左下部分图像的语义标签内容为“一串完整的陶瓷绝缘子,第1片伞裙有闪络故障”,右下部分图像的语义标签内容为“两串不完整的复合绝缘子,左侧串第6片伞裙有破损故障”。
通用领域的实际应用表明,ResNet相对于其他卷积神经网络而言,可以得到绝缘子图像更准确的特征信息,因此在特征提取部分采用ResNet34网络。本发明方法中仅采用ResNet34网络进行特征提取,无需进行分类,因而对ResNet34网络进行改进,去除网络最后的softmax层,将图像输入到改进的ResNet34网络中,经过网络的卷积、池化等运算,得到图像对应的特征向量。改进后的特征提取网络的结构为:网络第1层为卷积层,卷积核大小为7×7,通道数为64,步长为2;第2层为池化层,步长为2;第3-8层为卷积层,卷积核大小为3×3,通道数为64,步长为1;第9-16层为卷积层,卷积核大小为3×3,通道数为128,第9层步长为2,其余为1;第17-28层为卷积层,卷积核大小为3×3,通道数为256,第17层步长为2,其余为1;第29-34层是卷积层,卷积核大小为3×3,通道数为512,第29层步长为2,其余为1。
将ResNet34改进后代替RNN应用到绝缘子图像的特征提取上有很多优点。首先,ResNet34的计算复杂度较低,需要的参数量下降。其次,它对每层的输入做一个参考,学习后形成残差函数,而不是学习一些没有参考的函数,这种残差函数更容易优化,能使网络层数大大加深。而且由于在浅层网络基础上叠加了恒等映射层,从一定程度上解决了深层次网络的退化问题。
步骤B20,随机选取所述特征向量集中的一个特征向量,采用图像语义描述网络,获得图像对应的语义描述文件。
GRU网络用门控机制控制输入、记忆等信息而在当前时间步做出预测,它有两个门,一个重置门(reset gate)和一个更新门(update gate)。如图3所示,为本发明基于GRU网络的绝缘子图像语义描述方法一种实施例的单个GRU结构示例图,xt表示当前时间步外部输入的信息,ht表示输出的当前时间步最终记忆的信息,zt表示更新门,rt表示重置门,ht-1表示前一时间步信息,h′t表示当前时间步记忆的信息。
获得图像对应的语义描述文件方法为:
步骤B201,激活所述图像语义描述网络的重置门、更新门,如式(1)和式(2)所示:
zt=σ(W(z)xt+U(z)ht-1) 式(1)
rt=σ(W(r)xt+U(r)ht-1) 式(2)
其中,W(z)、U(z)分别为更新门zt中xt和ht-1的系数矩阵,W(r)、U(r)分别为重置门rt中xt和ht-1的系数矩阵,σ为sigmoid激活函数。
更新门的作用是帮助模型决策需要将多少前一时间步的信息ht-1和当前时间外部输入的信息xt继续传递到下一时间步,这样的操作可以降低梯度消失的风险。
重置门的作用是决策需要将多少前一时间步信息ht-1和当前时间外部输入的信息xt过滤掉。
更新门和重置门都是由0到1组成的向量,它以此来控制相应的门开启的程度。
步骤B202,将所述特征向量输入激活后的图像语义描述网络,通过所述重置门、更新门进行信息传递与过滤,并将过滤后的特征向量解码,获得图像对应的语义描述文件。
信息传递与过滤如式(3)和式(4)所示:
h't=tanh(Wxt+rt⊙Uht-1) 式(3)
ht=zt⊙ht-1+(1-zt)⊙h't 式(4)
如式(3)所示,使用重置门储存需要传递的前一步相关的信息ht-1,最后将这部分与当前时间外部输入的信息xt相加再输入双曲正切激活函数tanh中。如式(4)所示,获得当前时间最终输出的信息ht,保留了当前GRU的信息并传递到下一个GRU中。在这个过程中,使用更新门存储式(3)的记忆内容h′t和前一时间步信息ht-1中需要传递和过滤的信息流。
解码器模型的结构是由许多层GRU串联构成的,根据不同的特征提取模型和训练数据的要求,层数各不相同。经过理论分析和试验,本发明实施例中采用的绝缘子数据图像内容包含的语义关系较少,不包含动作信息,且语义描述规律性较强,因此解码器采用2层GRU串联构成。数据经过解码器后,得到向量形式的输出,经过转换变成词汇再连词成句,获得绝缘子图像的语义描述。
本发明采用GRU有几个优势:
首先,传统的RNN解码器模型虽然经典但仍然存在一些问题,例如梯度爆炸和梯度消失。梯度爆炸会影响训练的收敛,甚至导致网络不收敛。而梯度消失会使网络学习长距离依赖的难度增加,无法学习到更全面的信息。梯度爆炸相对比较好处理,可以用梯度裁剪(Gradient Clipping)来解决。GRU作为循环神经网络的一种变体,对于RNN中的梯度消失有很大帮助,它通过更新门与重置门过滤信息,也会保存长期序列中的信息并传递到下一个GRU,不会随时间而清除或因为与预测不相关而移除,因此它利用全部信息来避免了梯度消失问题。
其次,GRU的构造更简单,比长短时记忆网络(LSTM,Long Short Term Memory)少一个门,因此在训练数据量很大的情况下可以节省大量的时间。
步骤B20中“采用特征提取网络提取获取的绝缘子训练图像集中每一个图像的特征”之前还设置有图像尺寸调整及去均值化处理步骤,其方法为:
步骤T10,将所述缘子训练图像集中每一个图像随机调整为预设区间内的大小。
本发明一个实施例中,将输入绝缘子图像的分辨率随机调整成短边长为[256,480]之间的大小。
步骤T20,在随机调整尺寸后的图像上进行随机采样,获得预设尺寸的图像。
本发明一个实施例中,在得到的绝缘子图像上进行随机采样,获得尺寸为224×224的绝缘子图像。
步骤T30,对所述预设尺寸图像进行去均值化处理。
在神经网络中,特征值x比较大的时候,会导致W*x+b的结果也会很大,这样进行激活函数(如relu)输出时,会导致对应位置数值变化量太小,进行反向传播时因为要使用这里的梯度进行计算,所以会导致梯度消散,参数改变量很小,也就会易于拟合,效果不好。
各维度都减对应维度的均值,使得输入数据各个维度都中心化为0,进行去均值化,则不容易拟合。
步骤B30,基于所述图像对应的语义描述文件,与对应语义标签文件对比计算词错误率,调整所述图像语义描述网络的动态学习率并更新特征提网络权重。
词错误率的计算方法为:
对比图像的语义描述文件与对应的语义标签文件,通过替换、删除或者插入某些词使二者保持一致,计算替换、删除或者插入的词的总个数在语义标签文件词汇总数的百分比,为词错误率。
步骤B40,重复执行步骤B20、步骤B30,直至达到预设的训练结束条件,获得训练好的特征提取网络以及图像语义描述网络。
为了评估训练好的特征提取网络以及图像语义描述网络,将训练图像集中的一部分作为测试集作为网络模型的测试数据,本发明实施例中,获取了20000张无人机航拍绝缘子图像,其中17000张作为训练图像,3000张作为测试图像。
将测试图像通过特征提取网络提取特征,图像语义描述网络进行语义描述,获得的语义描述文件与图像对应的语义标签文件对比并计算词错误率,词错误率低于设定的阈值,则获得了性能优越的网络模型。
为了获得更优的网络模型,让结果更加贴近目标,在本发明实施例的网络训练过程中又加入了注意力机制(Attention)网络,可以让联合网络在生成输出序列时自动学习关注突出对象,特征提取网络中加入针对图像特征提取的注意力机制,学习在生成绝缘子图像特征时关注重点的图像位置。解码器中加入针对解码器的注意力机制,可以学习在生成语义描述中每个词时关注重点词汇。加入Attention能够明显改善系统输出效果,Attention在这里起到了类似人类视觉选择性注意的机制,在输出某个实体词的时候会将注意力焦点聚焦在图片中相应的区域上。
本发明第二实施例的基于GRU网络的绝缘子图像语义描述系统,包括输入模块、特征提取模块、图像语义描述模块、输出模块;
所述输入模块,配置为获取包含绝缘子的图像作为待描述图像并输入;
所述特征提取模块,配置为基于所述待描述图像,采用特征提取模块提取图像的特征向量;
所述图像语义描述模块,配置为基于所述图像的特征向量,采用图像语义描述模块获取图像的语义描述文件;
所述输出模块,配置为将获取的图像的语义描述文件输出。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于GRU网络的绝缘子图像语义描述系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于GRU网络的绝缘子图像语义描述方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于GRU网络的绝缘子图像语义描述方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种基于GRU网络的绝缘子图像语义描述方法,其特征在于,该绝缘子图像语义描述方法包括:
步骤S10,获取包含绝缘子的图像作为待描述图像;
步骤S20,采用特征提取网络提取所述待描述图像的特征,获得待描述图像的特征向量;
步骤S30,采用图像语义描述网络,依据所述待描述图像的特征向量,获取图像对应的语义描述文件;
其中,所述特征提取网络基于循环神经网络构建,所述图像语义描述网络基于门控循环单元构建。
2.根据权利要求1所述的基于GRU网络的绝缘子图像语义描述方法,其特征在于,所述特征提取网络、图像语义描述网络,其训练方法为:
步骤B10,根据获取的绝缘子训练图像集中每一个图像包含的内容,建立具有先验规定结构的语义标签文件,得到训练图像语义标签文件集;采用特征提取网络获取的绝缘子训练图像集中每一个图像的特征,得到特征向量集;
步骤B20,随机选取所述特征向量集中的一个特征向量,采用图像语义描述网络,获得图像对应的语义描述文件;
步骤B30,基于所述图像对应的语义描述文件,与对应语义标签文件对比计算词错误率,调整所述图像语义描述网络的动态学习率并更新特征提网络权重;
步骤B40,重复执行步骤B20、步骤B30,直至达到预设的训练结束条件,获得训练好的特征提取网络以及图像语义描述网络。
3.根据权利要求2所述的基于GRU网络的绝缘子图像语义描述方法,其特征在于,步骤B20中“随机选取所述特征向量集中的一个特征向量,采用图像语义描述网络,获得图像对应的语义描述文件”,其方法为:
步骤B201,激活所述图像语义描述网络的重置门、更新门;
步骤B202,将所述特征向量输入激活后的图像语义描述网络,通过所述重置门、更新门进行信息传递与过滤,并将过滤后的特征向量解码,获得图像对应的语义描述文件。
4.根据权利要求2所述的基于GRU网络的绝缘子图像语义描述方法,其特征在于,步骤B30中“基于所述图像对应的语义描述文件,与对应语义标签文件对比计算词错误率”,其方法为:
对比图像的语义描述文件与对应的语义标签文件,通过替换、删除或者插入某些词使二者保持一致,计算替换、删除或者插入的词的总个数在语义标签文件词汇总数的百分比,为词错误率。
5.根据权利要求2所述的基于GRU网络的绝缘子图像语义描述方法,其特征在于,步骤B20中“采用特征提取网络提取获取的绝缘子训练图像集中每一个图像的特征”之前还设置有图像尺寸调整及去均值化处理步骤,其方法为:
步骤T10,将所述缘子训练图像集中每一个图像随机调整为预设区间内的大小;
步骤T20,在随机调整尺寸后的图像上进行随机采样,获得预设尺寸的图像;
步骤T30,对所述预设尺寸图像进行去均值化处理。
6.根据权利要求2所述的基于GRU网络的绝缘子图像语义描述方法,其特征在于,所述语义标签文件为基于绝缘子训练图像所包含的实体、概念及属性关系,参照电力领域的术语及词汇要求,构建的文件。
7.根据权利要求6所述的基于GRU网络的绝缘子图像语义描述方法,其特征在于,所述语义标签的结构根据先验知识预先设定,包括:
绝缘子串的数量、绝缘子串的完整性、绝缘子材质、绝缘子故障类型、绝缘子故障位置。
8.一种基于GRU网络的绝缘子图像语义描述系统,其特征在于,包括输入模块、特征提取模块、图像语义描述模块、输出模块;
所述输入模块,配置为获取包含绝缘子的图像作为待描述图像并输入;
所述特征提取模块,配置为基于所述待描述图像,采用特征提取模块提取图像的特征向量;
所述图像语义描述模块,配置为基于所述图像的特征向量,采用图像语义描述模块获取图像的语义描述文件;
所述输出模块,配置为将获取的图像的语义描述文件输出。
9.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于GRU网络的绝缘子图像语义描述方法。
10.一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-7任一项所述的基于GRU网络的绝缘子图像语义描述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910468895.4A CN110232413A (zh) | 2019-05-31 | 2019-05-31 | 基于gru网络的绝缘子图像语义描述方法、系统、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910468895.4A CN110232413A (zh) | 2019-05-31 | 2019-05-31 | 基于gru网络的绝缘子图像语义描述方法、系统、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110232413A true CN110232413A (zh) | 2019-09-13 |
Family
ID=67858271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910468895.4A Pending CN110232413A (zh) | 2019-05-31 | 2019-05-31 | 基于gru网络的绝缘子图像语义描述方法、系统、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110232413A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275118A (zh) * | 2020-01-22 | 2020-06-12 | 复旦大学 | 基于自我修正式标签生成网络的胸片多标签分类方法 |
CN111289854A (zh) * | 2020-02-26 | 2020-06-16 | 华北电力大学 | 基于紫外视频的3d-cnn和lstm的绝缘子绝缘状态评估方法 |
CN112037215A (zh) * | 2020-09-09 | 2020-12-04 | 华北电力大学(保定) | 一种基于零样本学习的绝缘子缺陷检测方法及系统 |
CN112395954A (zh) * | 2020-10-23 | 2021-02-23 | 长沙理工大学 | 一种基于自然语言模型与目标检测算法结合的输电线路特定故障识别系统 |
CN112668481A (zh) * | 2020-12-29 | 2021-04-16 | 中国电子科技集团公司第五十四研究所 | 一种遥感图像语义抽取方法 |
CN113779988A (zh) * | 2021-09-07 | 2021-12-10 | 科大国创云网科技有限公司 | 一种通信领域过程类知识事件抽取方法 |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105938485A (zh) * | 2016-04-14 | 2016-09-14 | 北京工业大学 | 一种基于卷积循环混合模型的图像描述方法 |
CN106650789A (zh) * | 2016-11-16 | 2017-05-10 | 同济大学 | 一种基于深度lstm网络的图像描述生成方法 |
CN106934799A (zh) * | 2017-02-24 | 2017-07-07 | 安翰光电技术(武汉)有限公司 | 胶囊内窥镜图像辅助阅片系统及方法 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN107145910A (zh) * | 2017-05-08 | 2017-09-08 | 京东方科技集团股份有限公司 | 医学影像的表现生成系统、其训练方法及表现生成方法 |
CN107391505A (zh) * | 2016-05-16 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
CN107563498A (zh) * | 2017-09-08 | 2018-01-09 | 中国石油大学(华东) | 基于视觉与语义注意力相结合策略的图像描述方法及系统 |
CN107729987A (zh) * | 2017-09-19 | 2018-02-23 | 东华大学 | 基于深度卷积‑循环神经网络的夜视图像的自动描述方法 |
CN107766894A (zh) * | 2017-11-03 | 2018-03-06 | 吉林大学 | 基于注意力机制和深度学习的遥感图像自然语言生成方法 |
CN107807971A (zh) * | 2017-10-18 | 2018-03-16 | 北京信息科技大学 | 一种自动图像语义描述方法 |
CN108009154A (zh) * | 2017-12-20 | 2018-05-08 | 哈尔滨理工大学 | 一种基于深度学习模型的图像中文描述方法 |
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
US20180144248A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | SENTINEL LONG SHORT-TERM MEMORY (Sn-LSTM) |
CN108073941A (zh) * | 2016-11-17 | 2018-05-25 | 江南大学 | 一种基于深度学习的图像语义生成方法 |
CN108564122A (zh) * | 2018-04-10 | 2018-09-21 | 北京工业大学 | 基于卷积-循环混合网络的图像描述模型的一体化训练方法 |
CN108764303A (zh) * | 2018-05-10 | 2018-11-06 | 电子科技大学 | 一种基于注意力机制的遥感图像自然语言生成方法 |
CN108805260A (zh) * | 2017-04-26 | 2018-11-13 | 上海荆虹电子科技有限公司 | 一种图说生成方法及装置 |
CN108830287A (zh) * | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
CN108960330A (zh) * | 2018-07-09 | 2018-12-07 | 西安电子科技大学 | 基于快速区域卷积神经网络的遥感图像语义生成方法 |
CN109271628A (zh) * | 2018-09-03 | 2019-01-25 | 东北大学 | 一种图像描述生成方法 |
CN109740858A (zh) * | 2018-12-11 | 2019-05-10 | 国电南瑞科技股份有限公司 | 基于深度学习的自动化辅助决策系统及方法 |
-
2019
- 2019-05-31 CN CN201910468895.4A patent/CN110232413A/zh active Pending
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105938485A (zh) * | 2016-04-14 | 2016-09-14 | 北京工业大学 | 一种基于卷积循环混合模型的图像描述方法 |
CN107391505A (zh) * | 2016-05-16 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
CN106650789A (zh) * | 2016-11-16 | 2017-05-10 | 同济大学 | 一种基于深度lstm网络的图像描述生成方法 |
CN108073941A (zh) * | 2016-11-17 | 2018-05-25 | 江南大学 | 一种基于深度学习的图像语义生成方法 |
US20180144248A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | SENTINEL LONG SHORT-TERM MEMORY (Sn-LSTM) |
CN106934799A (zh) * | 2017-02-24 | 2017-07-07 | 安翰光电技术(武汉)有限公司 | 胶囊内窥镜图像辅助阅片系统及方法 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN108805260A (zh) * | 2017-04-26 | 2018-11-13 | 上海荆虹电子科技有限公司 | 一种图说生成方法及装置 |
CN107145910A (zh) * | 2017-05-08 | 2017-09-08 | 京东方科技集团股份有限公司 | 医学影像的表现生成系统、其训练方法及表现生成方法 |
CN107563498A (zh) * | 2017-09-08 | 2018-01-09 | 中国石油大学(华东) | 基于视觉与语义注意力相结合策略的图像描述方法及系统 |
CN107729987A (zh) * | 2017-09-19 | 2018-02-23 | 东华大学 | 基于深度卷积‑循环神经网络的夜视图像的自动描述方法 |
CN107807971A (zh) * | 2017-10-18 | 2018-03-16 | 北京信息科技大学 | 一种自动图像语义描述方法 |
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
CN107766894A (zh) * | 2017-11-03 | 2018-03-06 | 吉林大学 | 基于注意力机制和深度学习的遥感图像自然语言生成方法 |
CN108009154A (zh) * | 2017-12-20 | 2018-05-08 | 哈尔滨理工大学 | 一种基于深度学习模型的图像中文描述方法 |
CN108564122A (zh) * | 2018-04-10 | 2018-09-21 | 北京工业大学 | 基于卷积-循环混合网络的图像描述模型的一体化训练方法 |
CN108830287A (zh) * | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
CN108764303A (zh) * | 2018-05-10 | 2018-11-06 | 电子科技大学 | 一种基于注意力机制的遥感图像自然语言生成方法 |
CN108960330A (zh) * | 2018-07-09 | 2018-12-07 | 西安电子科技大学 | 基于快速区域卷积神经网络的遥感图像语义生成方法 |
CN109271628A (zh) * | 2018-09-03 | 2019-01-25 | 东北大学 | 一种图像描述生成方法 |
CN109740858A (zh) * | 2018-12-11 | 2019-05-10 | 国电南瑞科技股份有限公司 | 基于深度学习的自动化辅助决策系统及方法 |
Non-Patent Citations (3)
Title |
---|
SIMEON KOSTADINOV 等: "教程 | 经典必读:门控循环单元(GRU)的基本概念与原理", 《HTTPS://WWW.SOHU.COM/A/212435143_465975》 * |
YIYU XIA 等: "A Deep Learning Based Image Recognition and Processing Model for Electric Equipment Inspection", 《2018 2ND IEEE CONFERENCE ON ENERGY INTERNET AND ENERGY SYSTEM INTEGRATION (EI2)》 * |
炼数成金订阅号: "自然语言处理领域深度学习研究总结", 《HTTPS://WWW.SOHU.COM/A/124064797_494939》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275118A (zh) * | 2020-01-22 | 2020-06-12 | 复旦大学 | 基于自我修正式标签生成网络的胸片多标签分类方法 |
CN111275118B (zh) * | 2020-01-22 | 2022-09-16 | 复旦大学 | 基于自我修正式标签生成网络的胸片多标签分类方法 |
CN111289854A (zh) * | 2020-02-26 | 2020-06-16 | 华北电力大学 | 基于紫外视频的3d-cnn和lstm的绝缘子绝缘状态评估方法 |
CN112037215A (zh) * | 2020-09-09 | 2020-12-04 | 华北电力大学(保定) | 一种基于零样本学习的绝缘子缺陷检测方法及系统 |
WO2022052181A1 (zh) * | 2020-09-09 | 2022-03-17 | 华北电力大学(保定) | 一种基于零样本学习的绝缘子缺陷检测方法及系统 |
CN112037215B (zh) * | 2020-09-09 | 2024-05-28 | 华北电力大学(保定) | 一种基于零样本学习的绝缘子缺陷检测方法及系统 |
CN112395954A (zh) * | 2020-10-23 | 2021-02-23 | 长沙理工大学 | 一种基于自然语言模型与目标检测算法结合的输电线路特定故障识别系统 |
CN112668481A (zh) * | 2020-12-29 | 2021-04-16 | 中国电子科技集团公司第五十四研究所 | 一种遥感图像语义抽取方法 |
CN113779988A (zh) * | 2021-09-07 | 2021-12-10 | 科大国创云网科技有限公司 | 一种通信领域过程类知识事件抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232413A (zh) | 基于gru网络的绝缘子图像语义描述方法、系统、装置 | |
CN110263324B (zh) | 文本处理方法、模型训练方法和装置 | |
US20220004744A1 (en) | Human posture detection method and apparatus, device and storage medium | |
CN108345890A (zh) | 图像处理方法、装置和相关设备 | |
CN110363290B (zh) | 一种基于混合神经网络模型的图像识别方法、装置及设备 | |
CN109902798A (zh) | 深度神经网络的训练方法和装置 | |
CN107465868B (zh) | 基于终端的物体识别方法、装置及电子设备 | |
CN106919903A (zh) | 一种鲁棒的基于深度学习的连续情绪跟踪方法 | |
CN108304765A (zh) | 用于人脸关键点定位与语义分割的多任务检测装置 | |
CN108351986A (zh) | 学习系统、学习装置、学习方法、学习程序、训练数据生成装置、训练数据生成方法、训练数据生成程序、终端装置以及阈值变更装置 | |
CN110473518A (zh) | 语音音素识别方法和装置、存储介质及电子装置 | |
CN106844327B (zh) | 文本编码方法及系统 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN112037263B (zh) | 基于卷积神经网络和长短期记忆网络的手术工具跟踪系统 | |
CN114511472B (zh) | 一种视觉定位方法、装置、设备及介质 | |
CN109284860A (zh) | 一种基于正交反向樽海鞘优化算法的预测方法 | |
CN109086768A (zh) | 卷积神经网络的语义图像分割方法 | |
CN109815804A (zh) | 基于人工智能的交互方法、装置、计算机设备及存储介质 | |
CN108038539A (zh) | 一种集成长短记忆循环神经网络与梯度提升决策树的方法 | |
CN110335592A (zh) | 语音音素识别方法和装置、存储介质及电子装置 | |
CN110135441A (zh) | 一种图像的文本描述方法及装置 | |
CN108595609A (zh) | 基于人物ip的机器人回复生成方法、系统、介质及设备 | |
CN108491515A (zh) | 一种用于校园心理咨询的句对匹配度预测方法 | |
JP7181999B2 (ja) | 検索方法及び検索装置、記憶媒体 | |
CN113157919A (zh) | 语句文本方面级情感分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190913 |
|
RJ01 | Rejection of invention patent application after publication |