CN112668481A - 一种遥感图像语义抽取方法 - Google Patents
一种遥感图像语义抽取方法 Download PDFInfo
- Publication number
- CN112668481A CN112668481A CN202011592353.7A CN202011592353A CN112668481A CN 112668481 A CN112668481 A CN 112668481A CN 202011592353 A CN202011592353 A CN 202011592353A CN 112668481 A CN112668481 A CN 112668481A
- Authority
- CN
- China
- Prior art keywords
- remote sensing
- sensing image
- semantic
- network
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 27
- 230000009466 transformation Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 238000000926 separation method Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 description 8
- 235000013599 spices Nutrition 0.000 description 7
- 235000019987 cider Nutrition 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000014616 translation Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 101150071716 PCSK1 gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明提出了一种遥感图像语义抽取方法,旨在对遥感图像的进行解译,试图通过一句话来贴切描述一张遥感图像,使得模型能够智能化地自动挖掘和理解遥感图像的信息,实现步骤为:1)制作本方法所使用的遥感图像语义抽取数据集;2)构建基于ShuffleNet V2的遥感图像特征提取网络模型;3)构建基于GRU网络的语义特征表示模型;4)构建基于ShuffleNet V2和GRU网络的遥感图像语义抽取模型;5)训练基于ShuffleNet V2和GRU网络的遥感图像语义抽取模型。本发明针对遥感图像语义抽取模型参数过多和生成描述的速度较慢等问题,提出了一种快速的遥感图像语义抽取模型。该模型在精度损失较小的情况下,可以大幅降低模型大小和提高模型运行速度,在民用领域和军事领域都有着广泛的应用。
Description
技术领域
本发明属于图像处理技术领域,特别是指一种遥感图像语义抽取方法。
背景技术
遥感图像是在远距离非接触式的情况下,使用传感器以摄影或非摄影方式获得的目标图像。传感器技术的不断发展和完善使得遥感影像技术得到了飞速发展。目前遥感技术已发展成为了人类对地球全面观测的最重要手段。遥感技术的应用场景十分广泛,几乎涵盖了所有需要对地观测的任务。例如,在民用方面,遥感技术也已渗透到生活的方方面面,如气象辅助观测、植被变化、农业生产、海洋监测、地震的预测与震后救援等。比如地震后,利用变化检测对震区的遥感图像进行分析,可以识别地震重灾区以及检测灾区的重建情况,从而有效降低地震对人民的伤害。
对遥感图像的研究本质上都是对遥感图像的解译,都是希望智能化地自动挖掘和理解遥感图像的信息。而语言作为人类最常用的信息交流方式,它可以用简洁的话来涵盖丰富的信息,是重要的信息载体。因此如何将遥感图像转换为语言信息是很值得探索的。遥感图像语义抽取的研究便可以用来解决这样的问题。该研究试图通过一句话来贴切描述一张遥感图像。因此,遥感图像语义抽取不是单一的分类或者检测等问题,它要更加的复杂,需要知道图片中的多个目标,还需要知道他们之间的高级关系,它是一个更符合人类高级认知行为的过程。
对人类而言,从视觉到语言的转换是非常简单的,但是却是必须的,因为我们生活中的很多对话都会和视觉有关系。近年来智能对话系统和智能机器人的发展是迅速的,但是目前人类与智能系统的对话仍只是处在纯语言层次。以机器人为例,它很难就眼前的场景与我们讨论,如果我们问机器人:“你前面的桌子上有几个杯子?”这样的问题,它就难以回答。因为机器人不仅需要理解我们的问题,还要从眼前的场景里找到与问题相符合的视觉信息,也即需要机器人有更高层次的视觉和语言的理解。而图像的语义抽取需要研究语言和图像之间的深层关系,是视觉与自然语言领域的交叉结合,因此能代表智能的高级体现。
对遥感图像语义抽取任务的研究,有利于设计更人性化的遥感图像智能处理系统,可以直接生成易于理解的、以语言为载体的气象、植被、海洋、灾害等报告信息。
目前,针对遥感图像语义抽取的研究还处在起步阶段,现有技术中尚缺少切实可行的遥感图像语义抽取方法。
发明内容
本发明所要解决的技术问题在于针对上述现有技术的不足,提出了一种遥感图像语义抽取方法,该方法基于ShuffleNet V2和GRU网络,能够对遥感图像进行解译,从而通过一句话来贴切地描述一张遥感图像,实现智能化地自动挖掘和理解遥感图像的信息。
为了实现上述目的,本发明所采用的技术方案为:
一种遥感图像语义抽取方法,包括如下步骤:
(1)制作遥感图像语义抽取数据集;
(2)构建基于ShuffleNet V2网络的遥感图像特征提取模型,作为编码器,用于编码遥感图像的图像信息;所述的遥感图像特征提取网络模型包括基本模块和下采样模块,基本模块用于对输入的遥感图像进行卷积,得到图像特征图,下采样模块用于对特征图尺寸减半和通道数翻倍;
(3)构建基于GRU网络的语义特征表示模型,包括构造门控循环单元GRU循环网络,定义其更新门、重置门、候选隐层状态和隐层状态,得到GRU的内部结构和运算过程;将作为解码器,用于将图像信息进行解码后得出预测的语义信息;
(4)构建基于ShuffleNet V2和GRU网络的遥感图像语义抽取模型;包括编码器、多层注意力结构、变换结构、解码器和词嵌入层;
(5)训练基于ShuffleNet V2和GRU网络的遥感图像语义抽取模型,利用训练好的模型进行遥感图像语义抽取。
其中,步骤(1)具体包括以下步骤:
(1a)获取遥感图像语义抽取数据集Sydney、UCM和RSICD中的图像和语义标签,找出语义标签的错误方式;
(1b)对三个数据集的语义标签进行修复;
(1c)重新定义遥感图像语义抽取数据集中数据文件的描述方式,将图片的描述按照需要的格式存储。
其中,步骤(2)具体包括以下步骤:
(2a)构造ShuffleNet V2网络的基本模块,包括:通道分离模块,用于把输入的遥感图像分离成两部分;一路通道做恒等式映射,另一路通道包括三个卷积模块,进行3次通道数不变的卷积;连接模块,用于将两路通道的输出进行连接操作;通道混洗模块,用于将两路通道的输出进行信息交流;
(2b)构造ShuffleNet V2网络的下采样模块,包括通道复制模块,直接将基本模块的输出图像复制到两个旁路分支,每个旁路分支包括步长为2的可分离卷积进行下采样;连接模块,用于将两路通道的输出进行连接操作;通道混洗模块,用于将两路通道的输出进行信息交流,得出特征图。
其中,步骤(3)具体中GRU的内部结构和运算过程,用下面的式子表示:
Γu=σ(Wuxxt+Wuhht-1+bu)
Γr=σ(Wrxxt+Wrhht-1+br)
上式中,Γu,Γr,ht分别对应表示更新门、重置门、候选隐层状态和隐层状态,和是网络待学习参数,xt是t时刻网络输入的遥感图像信息,ht和ht-1分别是t时刻和t-1时刻网络预测的语义信息,运算符表示逐元素相乘。
其中,步骤(4)具体为:基于ShuffleNet V2网络和GRU网络的遥感图像语义抽取模型包括编码器、多层注意力结构、变换结构、解码器和词嵌入层;
初始化符号单词“<satrt>”,将其加入词嵌入层;
将ShuffleNet V2网络作为编码器,用于对图像进行卷积,得到图像特征图,输入多层注意力结构和变换结构;
变换结构,用于对图像特征图进行变换得到变换后的向量ht,输入多层注意力结构和解码器;
多层注意力结构,包括“attention1”、“attention2”和“attention3”三个模块,“attention1”是对图像不同区域产生注意力的结构,其输出t时刻生成的图像信息由向量vt表示,“attention2”是在一个句子中对不同单词产生注意力的结构,只关注前后两个单词信息,其输出t时刻生成的语义信息由向量st表示,“attention3”是指对图像信息和语义信息产生注意力的结构,其输出由向量表示;将多层注意力结构获得的编码进词嵌入层输入解码器;
将GRU网络作为解码器,用于将输入信息进行解码得到输出向量ht+1,ht+1经过线性变换得到预测单词yt+1;
重复上述过程对下一个单词进行预测,直到预测出结束符号单词“<end>”。
其中,步骤(5)具体包括以下步骤:
(5a)设迭代次数为t,最大迭代次数为T,T≥50;
(5b)将训练样本的遥感图像大小进行调整作为遥感图像语义抽取网络模型的输入,进行迭代训练,并判断t=T是否成立,若是,得到训练好的遥感图像语义抽取网络模型,否则,执行步骤(5c);
(5c)计算当前网络模型的损失函数值,并通过损失函数值对当前网络模型的权重进行调整,对解码器进行训练,将解码器的学习率设为4e-4,如果在第一设定迭代次数后,损失函数不下降,则将解码器的学习率乘以0.8,如果经过第二设定迭代次数后损失函数不下降则停止训练;然后进行参数微调,即对编码器进行训练,将编码器和解码器的学习率均设为1e-5,如果在第一设定迭代次数后,损失函数不下降,则将编码器的学习率乘以0.8,如果经过第二设定迭代次数后损失函数不下降则停止训练;令t=t+1,执行步骤(5b)。
其中,损失函数定义为:
一个数据对(img,S)的损失函数可由下式表示:
(img,S)是一个数据对,表示某张图片img的一个语义信息为S,St为t时刻生成的语义信息,pt(St)为t时刻生成语义信息St的概率。
其中,步骤(1b)中所述的对三个数据集的语义标签进行修复,其修复的错误包括单词拼错、单复数错误、词性错误、单词断开有误、单词和标点符号的划分错误以及遗漏或多余,其中单词拼错包括没有这个单词和拼成了其他单词。
本发明与现有技术相比,具有以下优点:
本发明针对遥感图像语义抽取模型参数过多和生成描述的速度较慢等问题,提出了一种快速的遥感图像语义抽取模型。该模型在精度损失较小的情况下,可以大幅降低模型大小和提高模型运行速度。
附图说明
图1是本发明实施例的实现流程图;
图2是本发明实施例ShuffleNet V2网络的基本模块;
图3是本发明实施例ShuffleNet V2网络的下采样模块;
图4是本发明实施例GRU网络的内部结构图;
图5是本发明实施例基于ShuffleNet V2和GRU网络的遥感图像语义抽取模型结构示意图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细说明:
本发明对已有的遥感图像语义抽取数据集的错误部分进行了大量修复工作,修复了包括单词错误、语法错误、描述不贴切等一系列问题。搭建一个基于ShuffleNet V2和GRU网络的遥感图像语义抽取模型,该模型使用效果好且速度快的卷积网络和时序网络作为编解码器,此外通过对注意力结构及权重参数进行分析,也进一步简化了注意力结构。其中模型包括基于ShuffleNet V2的图像特征提取模型和基于GRU网络的语义特征表示模型,将训练样本的图像大小调整为224×224作为输入进行训练,得到训练好的遥感图像语义抽取模型之后,对测试样本图像进行推断,获得模型生成的图像语义抽取的内容。
参照图1,本发明具体包括如下步骤:
步骤1)对已有遥感图像语义抽取数据集的错误部分进行修复,制作本方法所使用的遥感图像语义抽取数据集;
(1a)获取目前常用的三个遥感图像语义抽取数据集Sydney,UCM和RSICD中的图像和标签,观察发现其语义标签的错误方式,其错误方式主要有以下几种:
(i)单词拼错(没有这个单词),如将“different”错拼为“differenet”。
(ii)单词拼错(拼成了其他单词),如将trees错拼为tress。
(iii)单复数错误,如many buildings错拼为many building。
(iv)词性错误,如将arranged compactly错拼为arranged compact。
(v)单词断开有误,如将parkinglot改为parking lot。
(vi)单词和标点符号的划分错误。如“fense,”,应为“fense”。
(vii)遗漏或多余。
(1b)对三个数据集的语义标签进行修复,并统计其修复数量和修复前后单词数量的差异情况,修复后,所有属性的单词数量都有所减少,更适合研究。表1是每个数据集的修复情况:
表1数据修正情况统计表
(1c)重新定义遥感图像语义抽取数据集中数据文件的描述方式,将图片的一句描述按照需要的格式存储。将数据文件中‘raw’和‘tokens’二者不对应的部分进行了修复。修复数据可从:https://github.com/120343/modified获得。
步骤2)构建基于ShuffleNet V2网络的遥感图像特征提取模型,作为编码器,用于编码遥感图像的图像信息;所述的遥感图像特征提取网络模型包括基本模块和下采样模块,基本模块用于对输入的遥感图像进行卷积,得到图像特征图,下采样模块用于对特征图尺寸减半和通道数翻倍;
(2a)针对遥感图像语义抽取任务耗时等问题,得到4条卷积网络设计时的准则:1)输入和输出通道数目相同时,卷积操作对内存的访问时间成本最低;2)过多的组卷积操作会加大内存访问开销;3)网络结构碎片化会影响网络的可并行性,如网络中设计过多的旁路会比较耗时;4)过多的元素级操作会消耗不少时间,如加法和激活函数等。
(2b)基于以上原则构造如图2所示的ShuffleNet V2的基本模块。ShuffleNet V2中不再包含GCov,而多次使用输入和输出通道数相同的1*1卷积,另外在ShuffleNet V2中增加了新的运算:包括:通道分离模块,用于把输入的特征图分离成两部分,左边部分做恒等映射,右边部分进行3次通道数不变的卷积;连接模块,用于将两部分的输出进行连接操作;通道混洗模块,用于进行通道混洗来保证两个分离部分能够进行信息交流。
(2c)构造如图3所示的ShuffleNet V2的下采样模块。在ShuffleNet V2下采样模块中,不再使用通道分离,而是直接复制输入特征图到两个旁路分支,每个旁路都用步长为2的可分离卷积进行下采样,由于每个旁路的通道数与输入通道数相同,当最后两个旁路输出连接在一起时,即可实现特征图尺寸减半和通道数翻倍的效果。
步骤3)构建如图4所示的基于GRU网络的语义特征表示模型;
针对遥感图像领域对实时性和模型大小的要求较高的问题,构造门控循环单元GRU循环网络,定义其更新门、重置门、候选隐层状态和隐层状态,得到GRU的内部结构和运算过程,可用下面的式子表示:
Γu=σ(Wuxxt+Wuhht-1+bu)
Γr=σ(Wrxxt+Wrhht-1+br)
上式中,Γu,Γr,ht分别对应表示更新门、重置门、候选隐层状态和隐层状态,和是网络待学习参数,xt是t时刻网络输入的遥感图像信息,ht和ht-1分别是t时刻和t-1时刻网络预测的语义信息,运算符表示逐元素相乘。
利用GRU循环网络抽取语义信息。在使用GRU进行解码时,按照分类问题计算每一个时刻可能输出的单词概率,当GRU预测出结束单词“<end>”时,本次语义信息生成结束。
步骤4)构建如图五所示的基于ShuffleNet V2和GRU网络的遥感图像语义抽取模型;包括编码器、多层注意力结构、变换结构、解码器和词嵌入层;
首先将图像大小调整为为224×224像素,初始化符号单词“<satrt>”,将其加入词嵌入层“Emdedding”;将ShuffleNet V2网络作为编码器“Encoder”,用于对图像进行卷积,得到图像特征图“Feature maps”,输入多层注意力结构和变换结构“Transform”;变换结构“Transform”,用于对图像特征图进行变换得到变换后的向量ht,输入多层注意力结构和解码器;多层注意力结构,包括“attention1”、“attention2”和“attention3”三个模块,“attention1”是对图像不同区域产生注意力的结构,其输出t时刻生成的图像信息由向量vt表示,“attention2”是在一个句子中对不同单词产生注意力的结构,只关注前后两个单词信息,其输出t时刻生成的语义信息由向量st表示,“attention3”是指对图像信息和语义信息产生注意力的结构,其输出由向量表示;将多层注意力结构获得的编码进词嵌入层输入解码器;将GRU网络作为解码器“Decoder”,用于将输入信息进行解码得到输出向量ht+1,ht+1经过线性变换“Liner”得到预测单词yt+1;
重复上述过程对下一个单词进行预测,将预测单词yt+1加入词嵌入层“Emdedding”,解码得到输出向量ht+1和图像特征图“Feature maps”输入多层注意力结构和解码器,多层注意力结构获得的编码进词嵌入层输入解码器,解码得到输出向量ht+2,ht+2经过线性变换“Liner”得到预测单词yt+2;直到预测出结束符号单词“<end>”。
步骤5)训练基于ShuffleNet V2和GRU网络的遥感图像语义抽取模型,利用训练好的模型进行遥感图像语义抽取;
(5a)设迭代次数为t,最大迭代次数为T,T≥50;
(5b)将训练样本的图像大小调整为224×224作为遥感图像语义抽取网络模型的输入,进行迭代训练,并判断t=T是否成立,若是,得到训练好的遥感图像语义抽取网络模型,否则,执行步骤(5c);
(5c)计算当前网络模型的损失函数值,并通过损失函数值对当前网络模型的权重进行调整,对解码器进行训练,将解码器的学习率设为4e-4,如果在第一设定迭代次数后,损失函数不下降,则将解码器的学习率乘以0.8,如果经过第二设定迭代次数后损失函数不下降则停止训练;然后进行参数微调,即对编码器进行训练,将编码器和解码器的学习率均设为1e-5,如果在第一设定迭代次数后,损失函数不下降,则将编码器的学习率乘以0.8,如果经过第二设定迭代次数后损失函数不下降则停止训练;令t=t+1,执行步骤(5b)。其中,损失函数定义为:
一个数据对(img,S)的损失函数可由下式表示:
(img,S)是一个数据对,表示某张图片img的一个语义信息为S,St为t时刻生成的语义信息,pt(St)为t时刻生成语义信息St的概率。
以下借助仿真实验来对本发明效果作进一步说明:
1.仿真环境:
本发明仿真实验使用的机器是一台CPU型号为Intel(R)Core(TM)i7-7800x CPU@3.5GHz 64GB,GPU型号为NVIDIA GeForce GTX 1080的服务器。操作系统是Ubuntu16.04系统,深度学习框架PyTorch0.4.1,编程语言是Python 3.6。
2.评价指标
本发明仿真实验使用BLEU-1,BLEU-2,BLEU-3,BLEU-4,Meter,ROUGE_L,CIDEr,SPICE 8个评价指标对实验结果进行评价,以下对这8个指标作详细说明:
(1)BLEU
BLEU通过统计两个句子的共现词频率来实现评价。具体而言是统计两个译文间共同出现的N元组词的个数,然后统计其单词占比来得到评测结果。其中N元组指的是单词个数为N的词组集合。在图像描述中,假设第i个图片,模型生成的描述为Ci,对应的参考描述或标签为Yi={Yi1,Yi2,Yi3,...,Yim},wk表示n元组的第k个词组,hk(Ci)表示wk在生成描述里出现的次数,hk(Yj)表示wk在参考描述里出现的次数,lc表示生成描述的句子长度,lr表示参考描述的句子长度。那么BLEU的计算公式如下:
N∈{1,2,3,4},依据N的不同,又可分为BLEU-1,BLEU-2,BLEU-3,BLEU-4这4个评价指标。BLEU得分越高越好。
(2)Meteor
在BLEU中采用的都是相同词或词组的匹配。而在Meteor中加入了其它匹配准则,主要有三个:相同词、词干、同义词。相同词指同样的词。词干指的是词形,比如把“love”错译为“glove”这样的词形相似的要好于译成其他词形不相近的。同义词指的是意思上更相近的词,如把“my”译为“me”要比译成其他完全不相近的词更好,Meteor中采用WordNet的同义词库。此外Meteor中还引入了chunk的概念(生成描述和参考描述对齐的且空间上连续的词组形成的一个有序块的长度)。chunk越长,说明生成描述和参考描述的语序越相近。记所有匹配数目为mapped,Meteor获取过程如下:
Meteor=F*(1-penalty)
penalty=0.5*chunk/mapped
P=mapped/lc
R=mapped/lr
penalty为惩罚因子,惩罚匹配词组较少的情况。P和R分别是匹配词组的精准率和召回率。Meteor得分越高,说明描述效果越好。
(3)ROUGE_L
ROUGE和BLEU是类似的,只是ROUGE是根据最长公共子序列L的召回率来计算。ROUGE_L得分的计算方式如下:
P=L/lr,R=L/lc
β通常取为较大的值。ROUGE_L得分越高,说明描述结果越好。
(4)CIDEr
CIDEr是专门针对图像语义抽取任务设计的。该指标会对与视觉相关的单词赋予较高权重,而对与视觉不相关的单词赋予较低权重。实现方法是计算N元组的TermFrequency Inverse Document Frequency(TF-IDF)向量,TF对N元组赋予高权重,而IDF则降低在所有描述中出现频率高的N元组权重,这些单词通常与视觉信息关联较弱。最后通过计算生成描述与参考描述的余弦相似度来得到评价指标。具体计算方式如下:
I表示全部图像集合。函数g是用来计算TF-IDF,在其等式右侧为两项乘积,第一项是TF,第二项是IDF。其余变量定义与BLEU中一致。在视觉信息单词上重复越多,CIDEr分数会越高。CIDEr分数越高,其描述结果越好。
(5)SPICE
SPICE全称为Semantic Propositional Image Caption Evaluation。也是针对图像语义抽取问题设计的。SPICE的核心是使用语义场景图对描述进行编码,主要针对描述中的中的目标、属性、关系。假设对第i张图片生成的描述Ci的场景图用G(Ci)表示,参考描述Yi的场景图用G(Yi)表示,由每个Yij∈Yi的场景图G(Yij)的并集和同义对象的节点组成。则SPICE得分计算公式如下:
3.本发明仿真测试效果
表2、3、4是遥感语义抽取模型在三个修复后数据集上的试验结果,使用了ResNet做为编码器和LSTM作为解码器的att1RL,att1+att3RL以及多注意力模型(记为m-attsRL)进行对比,用b1,b2,b3,b4,M,R,C,S来分别表示BLEU-1,BLEU-2,BLEU-3,BLEU-4,Meteor,ROUGE_L,CIDEr,SPICE评价指标。
表2不同方法在Sydney数据集上的性能比较
表3不同方法在UCM数据集上的性能比较
表4不同方法在RSICD数据集上的性能比较
表5可以看出在模型大小和推断速度上,本发明的模型具有绝对的优势,其大小不足30M,约是多注意力模型的1/8大小。速度上,本发明的模型推断1000张图片所需的时间仅为11.9s。因此综合来看,本发明的模型相对来说更具有应用价值。
表5模型大小及生成1000张图片描述时的用时比较
表6统计了模型生成的语义多样性。需要注意的是,只有当两个模型具有相近的定量评价得分时,对模型的多样性比较才是有意义的,这是因为如果一个模型的定量的评价得分很低,即使模型具有很高的多样性,那该模型生成的语义信息也是错误的,其结果也是不可信的。从表6可以看出,本发明提出的精简的多注意力模型在保证了得分较高的同时,也保证了生成句子的多样性。
表6模型生成的描述存在于训练数据集中的比例
Claims (8)
1.一种遥感图像语义抽取方法,其特征在于,包括如下步骤:
(1)制作遥感图像语义抽取数据集;
(2)构建基于ShuffleNet V2网络的遥感图像特征提取模型,作为编码器,用于编码遥感图像的图像信息;所述的遥感图像特征提取网络模型包括基本模块和下采样模块,基本模块用于对输入的遥感图像进行卷积,得到图像特征图,下采样模块用于对特征图尺寸减半和通道数翻倍;
(3)构建基于GRU网络的语义特征表示模型,包括构造门控循环单元GRU循环网络,定义其更新门、重置门、候选隐层状态和隐层状态,得到GRU的内部结构和运算过程;将作为解码器,用于将图像信息进行解码后得出预测的语义信息;
(4)构建基于ShuffleNet V2和GRU网络的遥感图像语义抽取模型;包括编码器、多层注意力结构、变换结构、解码器和词嵌入层;
(5)训练基于ShuffleNet V2和GRU网络的遥感图像语义抽取模型,利用训练好的模型进行遥感图像语义抽取。
2.根据权利要求1所述的一种遥感图像语义抽取方法,其特征在于,步骤(1)具体包括以下步骤:
(1a)获取遥感图像语义抽取数据集Sydney、UCM和RSICD中的图像和语义标签,找出语义标签的错误方式;
(1b)对三个数据集的语义标签进行修复;
(1c)重新定义遥感图像语义抽取数据集中数据文件的描述方式,将图片的描述按照需要的格式存储。
3.根据权利要求1所述的一种遥感图像语义抽取方法,其特征在于,步骤(2)具体包括以下步骤:
(2a)构造ShuffleNet V2网络的基本模块,包括:通道分离模块,用于把输入的遥感图像分离成两部分;一路通道做恒等式映射,另一路通道包括三个卷积模块,进行3次通道数不变的卷积;连接模块,用于将两路通道的输出进行连接操作;通道混洗模块,用于将两路通道的输出进行信息交流;
(2b)构造ShuffleNet V2网络的下采样模块,包括通道复制模块,直接将基本模块的输出图像复制到两个旁路分支,每个旁路分支包括步长为2的可分离卷积进行下采样;连接模块,用于将两路通道的输出进行连接操作;通道混洗模块,用于将两路通道的输出进行信息交流,得出特征图。
5.根据权利要求1所述的一种遥感图像语义抽取方法,其特征在于,步骤(4)具体为:基于ShuffleNet V2网络和GRU网络的遥感图像语义抽取模型包括编码器、多层注意力结构、变换结构、解码器和词嵌入层;
初始化符号单词“<satrt>”,将其加入词嵌入层;
将ShuffleNet V2网络作为编码器,用于对图像进行卷积,得到图像特征图,输入多层注意力结构和变换结构;
变换结构,用于对图像特征图进行变换得到变换后的向量ht,输入多层注意力结构和解码器;
多层注意力结构,包括“attention1”、“attention2”和“attention3”三个模块,“attention1”是对图像不同区域产生注意力的结构,其输出t时刻生成的图像信息由向量vt表示,“attention2”是在一个句子中对不同单词产生注意力的结构,只关注前后两个单词信息,其输出t时刻生成的语义信息由向量st表示,“attention3”是指对图像信息和语义信息产生注意力的结构,其输出由向量表示;将多层注意力结构获得的编码进词嵌入层输入解码器;
将GRU网络作为解码器,用于将输入信息进行解码得到输出向量ht+1,ht+1经过线性变换得到预测单词yt+1;
重复上述过程对下一个单词进行预测,直到预测出结束符号单词“<end>”。
6.根据权利要求5所述的一种遥感图像语义抽取方法,其特征在于,步骤(5)具体包括以下步骤:
(5a)设迭代次数为t,最大迭代次数为T;
(5b)将训练样本的遥感图像大小进行调整作为遥感图像语义抽取网络模型的输入,进行迭代训练,并判断t=T是否成立,若是,得到训练好的遥感图像语义抽取网络模型,否则,执行步骤(5c);
(5c)计算当前网络模型的损失函数值,并通过损失函数值对当前网络模型的权重进行调整,对解码器进行训练,将解码器的学习率设为4e-4,如果在第一设定迭代次数后,损失函数不下降,则将解码器的学习率乘以0.8,如果经过第二设定迭代次数后损失函数不下降则停止训练;然后进行参数微调,即对编码器进行训练,将编码器和解码器的学习率均设为1e-5,如果在第一设定迭代次数后,损失函数不下降,则将编码器的学习率乘以0.8,如果经过第二设定迭代次数后损失函数不下降则停止训练;令t=t+1,执行步骤(5b)。
8.根据权利要求2所述的基于ShuffleNet V2和GRU网络的遥感图像语义抽取方法,其特征在于,步骤(1b)中所述的对三个数据集的语义标签进行修复,其修复的错误包括单词拼错、单复数错误、词性错误、单词断开有误、单词和标点符号的划分错误以及遗漏或多余,其中单词拼错包括没有这个单词和拼成了其他单词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011592353.7A CN112668481A (zh) | 2020-12-29 | 2020-12-29 | 一种遥感图像语义抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011592353.7A CN112668481A (zh) | 2020-12-29 | 2020-12-29 | 一种遥感图像语义抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112668481A true CN112668481A (zh) | 2021-04-16 |
Family
ID=75411860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011592353.7A Pending CN112668481A (zh) | 2020-12-29 | 2020-12-29 | 一种遥感图像语义抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112668481A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420680A (zh) * | 2021-06-25 | 2021-09-21 | 中国人民解放军战略支援部队航天工程大学 | 一种基于gru注意力的遥感影像区域关注与文本生成方法 |
CN113486898A (zh) * | 2021-07-08 | 2021-10-08 | 西安电子科技大学 | 一种基于改进ShuffleNet的雷达信号RD图像干扰辨识方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232413A (zh) * | 2019-05-31 | 2019-09-13 | 华北电力大学(保定) | 基于gru网络的绝缘子图像语义描述方法、系统、装置 |
CN110569695A (zh) * | 2018-08-31 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 基于定损图像判定模型的图像处理方法和装置 |
US20200302225A1 (en) * | 2019-03-21 | 2020-09-24 | Illumina, Inc. | Training Data Generation for Artificial Intelligence-Based Sequencing |
-
2020
- 2020-12-29 CN CN202011592353.7A patent/CN112668481A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569695A (zh) * | 2018-08-31 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 基于定损图像判定模型的图像处理方法和装置 |
US20200074222A1 (en) * | 2018-08-31 | 2020-03-05 | Alibaba Group Holding Limited | System and method for performing image processing based on a damage assessment image judgement model |
US20200302225A1 (en) * | 2019-03-21 | 2020-09-24 | Illumina, Inc. | Training Data Generation for Artificial Intelligence-Based Sequencing |
CN110232413A (zh) * | 2019-05-31 | 2019-09-13 | 华北电力大学(保定) | 基于gru网络的绝缘子图像语义描述方法、系统、装置 |
Non-Patent Citations (3)
Title |
---|
IREADERL: "GRU与LSTM总结", 《HTTPS://BLOG.CSDN.NET/LREADERL/ARTICLE/DETAILS/78022724》 * |
YANGYANG LI,ET AL: "A Multi-Level Attention Model for Remote Sensing Image Captions", 《REMOTE SENSING》 * |
韩利夫: "基于深度学习的人体姿态估计算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420680A (zh) * | 2021-06-25 | 2021-09-21 | 中国人民解放军战略支援部队航天工程大学 | 一种基于gru注意力的遥感影像区域关注与文本生成方法 |
CN113486898A (zh) * | 2021-07-08 | 2021-10-08 | 西安电子科技大学 | 一种基于改进ShuffleNet的雷达信号RD图像干扰辨识方法及系统 |
CN113486898B (zh) * | 2021-07-08 | 2024-05-31 | 西安电子科技大学 | 一种基于改进ShuffleNet的雷达信号RD图像干扰辨识方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | A comprehensive survey on pretrained foundation models: A history from bert to chatgpt | |
KR102458463B1 (ko) | 이미지 조건화 마스킹된 언어 모델링을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련하기 위한 방법 | |
CN111159223B (zh) | 一种基于结构化嵌入的交互式代码搜索方法及装置 | |
CN111488739B (zh) | 基于多粒度生成图像增强表示的隐式篇章关系识别方法 | |
CN112183747B (zh) | 神经网络训练的方法、神经网络的压缩方法以及相关设备 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN112232053B (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN113836992B (zh) | 识别标签的方法、训练标签识别模型的方法、装置及设备 | |
US20220108169A1 (en) | Systems and methods for numerical reasoning by a partially supervised numeric reasoning module network | |
CN113239169A (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN111291188A (zh) | 一种智能信息抽取方法及系统 | |
CN113204611A (zh) | 建立阅读理解模型的方法、阅读理解方法及对应装置 | |
CN113505193A (zh) | 一种数据处理方法及相关设备 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN116910307A (zh) | 一种跨模态视频文本检索方法、系统、设备及介质 | |
CN112668481A (zh) | 一种遥感图像语义抽取方法 | |
CN117648984A (zh) | 一种基于领域知识图谱的智能问答方法及系统 | |
CN116109978A (zh) | 基于自约束动态文本特征的无监督视频描述方法 | |
CN116402066A (zh) | 多网络特征融合的属性级文本情感联合抽取方法及系统 | |
CN113095072B (zh) | 文本处理方法及装置 | |
CN117891958B (zh) | 一种基于知识图谱的标准数据处理方法 | |
CN116561272A (zh) | 开放域视觉语言问答方法、装置、电子设备及存储介质 | |
Bai et al. | Bilinear Semi-Tensor Product Attention (BSTPA) model for visual question answering | |
WO2021129410A1 (zh) | 文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210416 |
|
RJ01 | Rejection of invention patent application after publication |