CN110929640B - 一种基于目标检测的宽幅遥感描述生成方法 - Google Patents

一种基于目标检测的宽幅遥感描述生成方法 Download PDF

Info

Publication number
CN110929640B
CN110929640B CN201911143698.1A CN201911143698A CN110929640B CN 110929640 B CN110929640 B CN 110929640B CN 201911143698 A CN201911143698 A CN 201911143698A CN 110929640 B CN110929640 B CN 110929640B
Authority
CN
China
Prior art keywords
target detection
remote sensing
moment
generating
description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911143698.1A
Other languages
English (en)
Other versions
CN110929640A (zh
Inventor
王爽
田敬贤
侯彪
张磊
叶秀眺
孟芸
谷裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201911143698.1A priority Critical patent/CN110929640B/zh
Publication of CN110929640A publication Critical patent/CN110929640A/zh
Application granted granted Critical
Publication of CN110929640B publication Critical patent/CN110929640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于目标检测的宽幅遥感描述生成方法,首先获取遥感图像;构建训练样本集与测试样本集,并对该两个样本集进行归一化;使用Faster‑RCNN网络模型对遥感图像进行处理,得到相应的目标;使用K‑means聚类算法对目标进行聚类;根据得到的聚类中心对宽幅遥感图像进行分割;其他没有用到的区域进行随机分割;使用ResNet101网络模型对分割的图片进行处理;使用LSTM得到相应的图片描述;再次检测目标检测的结果是否在描述中,从而得到最后的结果。本发明通过基于目标检测的宽幅遥感图像描述方法,提高了描述的准确性,可以更好的得到用户想要的信息。

Description

一种基于目标检测的宽幅遥感描述生成方法
技术领域
本发明属于遥感图像描述生成技术领域,具体涉及一种基于目标检测的宽幅遥感描述生成方法。
背景技术
现代航天遥感技术随着卫星技术的发展,对地观测能力大幅提升,通过获取到的遥感数据,可以在军用和民用上都发挥重要的作用。为了更加充分利用这些遥感数据并且减少人力物力的耗费,设计网络自动地理解遥感图像并且在语义层面上将遥感图像的内容准确流畅地描述出来成为一个十分有意义的工作。然而在高分辨遥感领域主要的关注点还是集中在目标检测,地物分类,语义分割等方面,这些研究可以识别图片中的物体但无法给出图片中物体之间的关系,而遥感图像描述自动生成的句子可以大体反映图片内容并且给出更多的对象关系等细节信息。
在自然图像描述生成的方法中,基于神经网络的方法是目前最主流的方法,这种方法大多数基于编码器-解码器的模型框架,编码器一般是一个CNN网络用于提取图片特征,解码器是一个循环神经网络(RNN或LSTM),它将图片特征作为输入产生图片的句子描述。受启发于自然图像领域描述生成的发展,遥感图像的描述生成也借鉴了自然图像中的方法提高生成句子的准确性和流畅度。
遥感图像是采取自上而下的拍摄方式捕捉的地面物体的图像,对象的不同层次的信息会非常丰富。而且在采集遥感图像过程中容易受到光照、遮挡、距离等周围环境的影响,会造成目标遥感图像特征模糊,这使得遥感图像的语义层次的理解变得更加困难。针对遥感图像描述生成的难点,在使用语言模型之前首先使用目标检测得到所想要得到的关键信息然后再使用语言模型,生成更加流畅且符合图片内容的描述。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于目标检测的宽幅遥感描述生成方法,通过目标检测得到先验信息,再通过卷积神经网络得到图像特征最后通过语言模型生成符合用户要求的语言描述。
本发明采用以下技术方案:
一种基于目标检测的宽幅遥感描述生成方法,包括以下步骤:
S1、利用Faster-RCNN对遥感图像进行目标检测,得到目标检测框的中心点的坐标和目标框的大小信息;
S2、根据目标检测的中心点坐标对目标进行聚类分析,使用密度聚类得到聚类个数,然后再通过K-means得到聚类结果;
S3、采用基于聚类结果分割的方法,根据目标检测的聚类结果,以各个聚类中心点切割出1000×1000的图片作为待处理图片;
S4、采用随机分割的方法,在目标检测的其他区域,随机切割多个1000×1000的图片作为待处理图片;
S5、利用卷积神经网络提取遥感图片的卷积特征,得到遥感图像的局部特征;
S6、在每个时刻,通过注意力机制计算不同局部特征的标准化注意力权重,对局部区域加权得到加权局部特征;
S7、将步骤S6得到的加权局部特征,以及当前时刻输入的单词向量和前一个时刻的LSTM隐藏态作为LSTM单元的输入向量,获得当前时刻的隐藏态;
S8、基于当前的隐藏态,输入至softmax层得到当前时刻预测单词在整个词汇表上的概率分布;
S9、利用最大似然估计方法训练图像描述生成模型,得到模型中需要学习的参数;
S10、利用强化学习算法继续训练语言生成模型,得到在这一过程中的奖励回报,即CIDEr得分;
S11、在测试阶段仅保留语言生成模型,从生成起始符开始,由上一个时刻的隐藏态引导下一个时刻单词的生成,每个时刻生成一个单词,直到生成停止符,句子生成结束,若生成的句子与目标检测的不对应则进行语言后处理,得到用户需要的信息。
具体的,步骤S2具体为:
S201、定义样本xi和xj的欧式距离,目标样本xi到所有目标样本距离的平均值,目标样本xi的方差、待聚类数据集的平均距离和准测函数;
S202、采用K-means聚类方法得到目标检测的聚类结果。
进一步的,步骤S202具体为:
S2021、从目标检测结果中任意选择k个对象作为初始聚类中心;
S2022、循环步骤S2023到S2024,直到准则函数收敛到设定阈值或前后获得聚类中心不再发生变化为止;
S2023、根据每个聚类中所有对象的均值计算样本集中每个对象与中心对象的欧几里得距离,根据最小距离重新划分相应对象;
S2024、计算每个聚类的均值。
具体的,步骤S5中,采用ResNet101网络对遥感图像提取卷积特征,得到特征图;将特征图的形状重塑,接全连接层,对特征图进行处理得到降低维度的特征图,每个降低维度特征图的向量表示图像一个局部区域的特征。
具体的,步骤S6具体为:
S601、根据LSTM单元前一时刻的隐藏态经过一个注意力模块产生对所有的局部区域特征的标准化的注意力权重;
S602、通过分配给所有的局部区域由采用K-means聚类方法得到目标检测的聚类结果,加上注意力后局部区域特征。
具体的,步骤S7具体为:
S701、当前时刻输入的单词向量wt通过词向量表示模型GloVe作为嵌入工具表示得到的;
S702、在每个时刻t,把当前时刻输入的单词向量wt,利用注意力机制加权后的局部区域特征^
Figure BDA0002281614190000041
以及LSTM单元的前一时刻的隐藏态ht-1作为当前时刻解码器模块的输入xt,得到当前时刻的隐藏态输出ht
具体的,步骤S8具体为:
S801、根据当前时刻的隐藏态输出ht,通过softmax层计算这一时刻在整个词汇表上所有单词上的概率分布结果,根据概率分布结果抽样得到预测的单词,把数据集中所有的图片描述转为小写,去掉在整个数据集中出现次数少于5次的单词,建立包含多个单词的词汇表;
S802、确定整个遥感图像描述句子的条件分布p(Y|I)为:
Figure BDA0002281614190000042
其中,p(yt|y1:t-1,I)为为在图片I和之前生成的单词y1:t-1条件下生成单词yt的概率。
具体的,步骤S9中,训练目标为最小化交叉熵损失,交叉熵损失表示为:
Figure BDA0002281614190000051
其中,θ是模型中要学习的参数,
Figure BDA0002281614190000052
是当前遥感图片的人工描述语句。
具体的,步骤S10具体为:
S1001、在利用强化学习算法训练模型时,确定目标为最小化采样得到的句子描述的负的期望奖励;
S1002、使用带有基线的强化学习算法,计算期望奖励的梯度;
S1003、在模型中,对于每个抽样得到的句子描述,由生成描述的评价标准CIDEr表示奖励。
10.根据权利要求1所述的基于目标检测的宽幅遥感描述生成方法,其特征在于,步骤S11具体为:
S1101、在聚类结果得到的切割图中,对目标检测的个数、大小、坐标信息进行记录,并填充到生成的句子中;
S1102、在聚类结果得到的切割图中,对套用预定义的模板生成一条新的语言信息代替之前的语言信息。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种基于目标检测的宽幅遥感描述生成方法,针对遥感图像场景中对象关系较为固定,人工标注描述句子较为简单的特点,设计了对遥感图像进行目标检测的策略,这可以得到语言描述的先验信息,这有效的提高了生成描述的方向性和准确性;利用目标检测网络得到遥感图像目标检测的结果,从而得到语言描述的先验信息;针对遥感图像中可能生成的描述语句与原始图像不对应的问题,在生成语句之后,生成的语言描述与原始图像进行对比,并进一步补充细节性信息,从而可以得到遥感图像更加详细准确的描述。
进一步的,在步骤S2中利用目标检测进行聚类分析,从而得到关于相要描述对象的具体信息,从而进一步细化图像特征。
进一步的,在步骤S5中利用卷积神经网络能够捕捉图片在不同尺度上的特征,提取到丰富的图片信息。
进一步的,步骤S6中利用attention模块为不同的区域分配权重,得到加权图片特征,将加权图像特征作为单词预测的指导信息。模型根据权值的不同,在生成单词时选择性地关注当前应当关注的图片区域,提高预测单词与图片区域的对应关系,提高语句的准确度。
进一步的,在步骤S7中,加权图像特征、当前时刻输入的单词向量以及前一时刻的隐藏态共同作为LSTM单元的输入,获得当前时刻的隐藏态,当前时刻的隐藏态作为指导信息,预测当前时刻生成的单词。
进一步的,在步骤S8中,当前时刻的隐藏态作为指导信息送入softmax层,得到在整的词汇表上的概率分布,取概率最大的单词作为当前时刻的预测结果。
进一步的,步骤S9中,利用交叉熵损失训练当前的模型,得到一个基本的描述生成模型,以这个初始模型作为基础,进行第二阶段细节性描述生成的训练。
进一步的,步骤S10中将模型生成的句子CIEDr得分作为强化学习中奖励的两个组成部分,其中CIDEr得分可以保证生成的句子的准确性。
进一步的,步骤S11中在聚类结果得到的切割图中,对目标检测的个数、大小、坐标信息进行记录,并填充到生成的句子中。并且在聚类结果得到的切割图中,有对应的目标检测结果,但是生成语言描述中没有生成相应的目标信息。那么就需要对套用预定义的模板生成一条新的语言信息来代替之前的语言信息。
综上所述,本发明基于目标检测的结果和对生成语言描述的信息丰富化可以对遥感图像生成更加准确且符合用户需求的图像描述,对遥感图像进行目标检测得到目标的特征信息,并将目标的特征信息作为生成语言描述的先验信息,提高生成的语言的准确性。另外对生成的语言描述进行详细化补充可以得到更加符合用户需求的语言描述。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的实现流程图;
图2为本发明目标检测和聚类分割结果图;
图3为本发明的随机分割结果图;
图4为本发明仿真结果图。
具体实施方式
本发明提供了一种基于目标检测的宽幅遥感描述生成方法,用于解决现有遥感图像图像大,包含信息多,人工解译耗时长的问题;宽幅遥感描述的网络模型,由Faster-RCNN网络模型、ResNet101网络模型和LSTM网络模型组成,在LSTM网络模型中加入注意力机制;首先根据获取的遥感图像构建训练样本集与测试样本集,并对该两个样本集进行归一化;然后使用Faster-RCNN网络模型对遥感图像进行处理,得到相应的目标;再使用K-means聚类算法对目标进行聚类;根据得到的聚类中心对宽幅遥感图像进行分割;对其他没有用到的区域进行随机分割;然后使用ResNet101网络模型对分割的图片进行处理;使用LSTM得到相应的图片描述;最后再次检测目标检测的结果是否在描述中,从而得到最后的结果。本发明通过基于目标检测的宽幅遥感图像描述方法,提高了描述的准确性,可以更好的得到用户想要的信息。
请参阅图1,本发明一种基于目标检测的宽幅遥感描述生成方法,包括以下步骤:
S1、利用目标检测网络得到遥感图像中的目标特征信息;
采用Faster-RCNN对遥感图像进行目标检测,得到目标检测框的中心点的坐标和目标框的大小信息。
S2、根据目标检测的中心点的坐标对目标进行聚类分析可以使用密度聚类得到聚类的个数,然后再通过K-means得到聚类的结果;
S201、定义样本xi和xj的欧式距离:
Figure BDA0002281614190000081
其中,j=1,2,3,...,n。
定义目标样本xi到所有目标样本距离的平均值hi为:
Figure BDA0002281614190000082
定义目标样本xi的方差vi为:
Figure BDA0002281614190000083
定义待聚类数据集的平均距离hAV为:
Figure BDA0002281614190000084
定义准测函数E为:
Figure BDA0002281614190000085
其中,k为聚类的中心的个数,b为样本空间。
S202、采用K-means聚类方法:
S2021、从目标检测结果中任意选择k个对象作为初始聚类中心;
S2022、循环下述流程S2023到S2024,直到准则函数E收敛到一定阈值或者前后获得聚类中心不再发生变化;
S2023、根据每个聚类中所有对象的均值(中心对象)计算样本集中每个对象与这些中心对象的欧几里得距离,并根据最小距离重新划分相应对象;
S2024、类均值,即计算每个(有变化)聚类的均值(中心对象);
得到目标检测的聚类结果。
S3、根据得到的聚类中心对宽幅遥感图像进行分割;
请参阅图2,采用基于聚类结果分割的方法,根据目标检测的聚类结果,以各个聚类中心点切割出1000×1000的图片作为待处理图片。
S4、对其他区域进行随机分割处理;
请参阅图3,采用随机分割的方法,在目标检测的其他区域,随机切割5—10个1000×1000的图片作为待处理图片。
S5、利用卷积神经网络提取遥感图片的卷积特征,得到遥感图像的局部特征;
采用ResNet101网络对遥感图像提取卷积特征,得到形状为14*14*2048的特征图;
将特征图的形状重塑为196*2048,接全连接层,将特征图的维度由2048降至512,得到196*512的特征图,每个512维的向量表示图像一个局部区域的特征,记录为v1,v2,v3...v196;卷积神经网络采用VGG16、VGG19、AlexNet、GoogLeNet或ResNet;
S6、在每个时刻,通过注意力机制计算不同局部特征的标准化注意力权重,对局部区域加权得到加权局部特征;
S601、根据LSTM单元前一时刻的隐藏态ht-1经过一个注意力模块可以产生对所有的局部区域特征的标准化的注意力权重,计算过程为:
Figure BDA0002281614190000101
βt=softmax(bt)
其中,bi,t是βt的第i个元素,
Figure BDA0002281614190000102
是学习的参数,βt表示标准化的区域注意力分布,它的第i个元素bi,t是区域特征vi的注意力概率值;
S602、通过分配给所有的局部区域由S202步骤得到的不同注意力权重,加上注意力后局部区域特征
Figure BDA0002281614190000103
为:
Figure BDA0002281614190000104
其中,vj为局部区域特征,K为局部区域特征的个数,βj,t为对局部区域特征加权的权重。
S7、将步骤S6得到的加权局部特征,以及当前时刻输入的单词向量和前一个时刻的LSTM的隐藏态作为LSTM单元的输入向量,获得当前时刻的隐藏态;
S701、当前时刻输入的单词向量wt通过词向量表示模型GloVe作为嵌入工具表示得到的;
S702、当前时刻的隐藏态的计算过程为:
it=σ(Wixt+Uiht-1+bi)
ft=σ(Wfxt+Ufht-1+bf)
ot=σ(Woxt+Uoht-1+bo)
gt=σ(Wgxt+Ught-1+bg)
mt=f e mt-1+it e gt
ht=ot eφ(mt)
其中,it为LSTM中输入门得到的结果,ft为LSTM的遗忘门,ot为LSTM的输出门得到的结果,gt为LSTM的遗忘门得到的结果,mt为更新LSTM的记忆单元状态。
为了简化表示,把基本的LSTM更新过程写作:
ht=LSTM(xt,ht-1)
在每个时刻t,把当前时刻输入的单词向量wt,利用注意力机制加权后的局部区域特征^
Figure BDA0002281614190000111
以及LSTM单元的前一时刻的隐藏态ht-1作为当前时刻解码器模块的输入xt,得到当前时刻的隐藏态输出ht
S8、基于当前的隐藏态,输入至softmax层得到当前时刻预测单词在整个词汇表上的概率分布;
S801、根据ht通过一个softmax层计算这一时刻在整个词汇表上所有单词上的概率分布结果,根据概率分布结果抽样得到预测的单词,计算公式表示为:
Figure BDA0002281614190000112
其中,
Figure BDA0002281614190000113
是要学习的权重参数,d是隐藏态的数量,v是词汇表的大小;
把数据集中所有的图片描述转为小写,去掉在整个数据集中出现次数少于5次的单词,建立了一个包含了多个单词的词汇表;
S802、整个遥感图像描述句子的条件分布表示为:
Figure BDA0002281614190000121
S9、利用最大似然估计方法训练图像描述生成模型,得到模型中需要学习的参数,训练目标是最小化交叉熵损失,交叉熵损失表示为:
Figure BDA0002281614190000122
其中,θ是模型中要学习的参数,
Figure BDA0002281614190000123
是当前遥感图片的人工描述语句(GroundTruth);
S10、利用强化学习算法继续训练语言生成模型,得到在这一过程中的奖励回报,即CIDEr得分;
S1001、在利用强化学习算法训练模型时,目标是最小化采样得到的句子描述的负的期望奖励:
Figure BDA0002281614190000124
其中,
Figure BDA0002281614190000125
是根据单词的概率分布抽样得到的预测句子,r表示该句子所得到的奖励,θ是模型学习到的参数,它能够决定下一个单词的预测结果;
S1002、使用带有基线的强化学习算法,期望奖励的梯度▽θLRL(θ)近似计算为:
Figure BDA0002281614190000126
其中,b是取的贪婪解码得到的句子描述的回报;
S1003、在模型中,对于每个抽样得到的句子描述
Figure BDA0002281614190000127
奖励由生成描述的评价标准CIDEr表示,具体为:
Figure BDA0002281614190000128
S11、在测试阶段仅保留语言生成模型,从生成起始符“<BOS>”开始,由上一个时刻的隐藏态引导下一个时刻单词的生成,每个时刻生成一个单词,直到生成停止符“<EOS>”,句子生成结束,若生成的句子与目标检测的不对应则进行语言后处理,从而得到用户需要的信息。
S1101、在聚类结果得到的切割图中,对目标检测的个数、大小、坐标信息进行记录,并填充到生成的句子中。
S1102、在聚类结果得到的切割图中,有对应的目标检测结果,但是生成的语言描述中没有生成相应的目标信息。那么就需要对套用预定义的模板生成一条新的语言信息来代替之前的语言信息。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
1.仿真条件
本发明仿真实验的硬件平台是:戴尔计算机Intel(R)Core5处理器,主频3.20GHz,内存64GB;仿真软件平台是:Python3.5,pytorch 0.4.1平台。
2.仿真内容
在RSICD数据集上,完成本发明的方法。RSICD数据集的划分标准为90%训练,10%测试。为了证明本发明的有效性,选用Attention to in模型作为基本模型,并在这个模型的基础上使用了本发明提出的方法,得到改进后的实验结果如下表所示。
使用的评价标准是是针对图像描述算法公认的评价指标,包括BLEU-1、BLEU-4、METEOR、ROUGE_L、CIDEr、SPICE。在六个评价指标中,得分越高表示句子描述效果越好,实验结果如下表:
Figure BDA0002281614190000141
从表中可以看出,本发明中的网络相比于使用图片注意力SCST:Att2in的方法,在各种直接标上都获得了更高的分数,因而表现更好,能够生成更精确的图像描述。
请参阅图4,在测试集上得到的仿真结果,根据目标检测得到多条语言描述。生成的结果表明,本发明的方法生成的图像描述较为准确,且更加符合用户的需求。
本发明基于目标检测的结果和对生成语言描述的信息丰富化可以对遥感图像生成更加准确且符合用户需求的图像描述。其中对遥感图像进行目标检测得到目标的特征信息,并将目标的特征信息作为生成语言描述的先验信息,提高生成的语言的准确性。另外对生成的语言描述进行详细化补充可以得到更加符合用户需求的语言描述。本发明针对遥感图像的特点,提出了两种改进方法,使模型的性能得到了显著的提高。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (10)

1.一种基于目标检测的宽幅遥感描述生成方法,其特征在于,包括以下步骤:
S1、利用Faster-RCNN对遥感图像进行目标检测,得到目标检测框的中心点的坐标和目标框的大小信息;
S2、根据步骤S1得到的目标检测框的中心点坐标对目标进行聚类分析,使用密度聚类得到聚类个数,然后再通过K-means得到聚类结果;
S3、采用基于聚类结果分割的方法,根据步骤S2得到的目标检测的聚类结果,以各个聚类中心点切割出1000×1000的图片作为待处理图片;
S4、采用随机分割的方法,在步骤S2得到的目标检测的其他区域,随机切割多个1000×1000的图片作为待处理图片;
S5、利用卷积神经网络提取步骤S3和步骤S4得到的待处理图片的卷积特征,得到待处理图片的局部特征;
S6、在每个时刻,通过注意力机制计算步骤S5得到的不同局部特征的标准化注意力权重,对局部区域加权得到加权局部特征;
S7、将步骤S6得到的加权局部特征,以及当前时刻输入的单词向量和前一个时刻的LSTM隐藏态作为LSTM单元的输入向量,获得当前时刻的隐藏态;
S8、基于步骤S7当前时刻的隐藏态,输入至softmax层得到当前时刻预测单词在整个词汇表上的概率分布;
S9、利用最大似然估计方法训练步骤S7和步骤S8得到的语言生成模型,得到语言生成模型中需要学习的参数;
S10、利用强化学习算法继续训练步骤S9得到的语言生成模型,得到在这一过程中的奖励回报,即CIDEr得分;
S11、在测试阶段仅保留语言生成模型,从生成起始符开始,由上一个时刻的隐藏态引导下一个时刻单词的生成,每个时刻生成一个单词,直到生成停止符,句子生成结束,若生成的句子与目标检测的不对应则进行语言后处理,得到用户需要的信息。
2.根据权利要求1所述的基于目标检测的宽幅遥感描述生成方法,其特征在于,步骤S2具体为:
S201、定义样本xi和xj的欧式距离,目标样本xi到所有目标样本距离的平均值,目标样本xi的方差、待聚类数据集的平均距离和准则函数;
S202、采用K-means聚类方法得到目标检测的聚类结果。
3.根据权利要求2所述的基于目标检测的宽幅遥感描述生成方法,其特征在于,步骤S202具体为:
S2021、从目标检测结果中任意选择k个对象作为初始聚类中心;
S2022、循环步骤S2023到S2024,直到准则函数收敛到设定阈值或前后获得聚类中心不再发生变化为止;
S2023、根据每个聚类中所有对象的均值计算样本集中每个对象与中心对象的欧几里得距离,根据最小距离重新划分相应对象;
S2024、计算每个聚类的均值。
4.根据权利要求1所述的基于目标检测的宽幅遥感描述生成方法,其特征在于,步骤S5中,采用ResNet101网络对遥感图像提取卷积特征,得到特征图;将特征图的形状重塑,接全连接层,对特征图进行处理得到降低维度的特征图,每个降低维度特征图的向量表示图像一个局部区域的特征。
5.根据权利要求1所述的基于目标检测的宽幅遥感描述生成方法,其特征在于,步骤S6具体为:
S601、根据LSTM单元前一时刻的隐藏态经过一个注意力模块产生对所有的局部区域特征的标准化的注意力权重;
S602、将步骤S601得到的注意力权重与局部区域特征进行加权,得到加权局部特征。
6.根据权利要求1所述的基于目标检测的宽幅遥感描述生成方法,其特征在于,步骤S7具体为:
S701、当前时刻输入的单词向量wt通过词向量表示模型GloVe作为嵌入工具表示得到的;
S702、在每个时刻t,把当前时刻输入的单词向量wt,利用注意力机制加权后的局部区域特征
Figure FDA0004057792890000031
以及LSTM单元的前一时刻的隐藏态ht-1作为当前时刻解码器模块的输入xt,得到当前时刻的隐藏态输出ht
7.根据权利要求1所述的基于目标检测的宽幅遥感描述生成方法,其特征在于,步骤S8具体为:
S801、根据当前时刻的隐藏态输出ht,通过softmax层计算这一时刻在整个词汇表上所有单词上的概率分布结果,根据概率分布结果抽样得到预测的单词,把数据集中所有的图片描述转为小写,去掉在整个数据集中出现次数少于5次的单词,建立包含多个单词的词汇表;
S802、确定整个遥感图像描述句子的条件分布p(Y|I)为:
Figure FDA0004057792890000032
其中,p(yt|y1:t-1,I)为在图片I和之前生成的单词y1:t-1条件下生成单词yt的概率。
8.根据权利要求1所述的基于目标检测的宽幅遥感描述生成方法,其特征在于,步骤S9中,训练目标为最小化交叉熵损失,交叉熵损失表示为:
Figure FDA0004057792890000033
其中,θ是模型中要学习的参数,
Figure FDA0004057792890000034
是当前遥感图片的人工描述语句。
9.根据权利要求1所述的基于目标检测的宽幅遥感描述生成方法,其特征在于,步骤S10具体为:
S1001、在利用强化学习算法训练模型时,确定目标为最小化采样得到的句子描述的负的期望奖励;
S1002、使用带有基线的强化学习算法,计算期望奖励的梯度;
S1003、在模型中,对于每个抽样得到的句子描述,由生成描述的评价标准CIDEr表示奖励。
10.根据权利要求1所述的基于目标检测的宽幅遥感描述生成方法,其特征在于,步骤S11具体为:
S1101、在聚类结果得到的切割图中,对目标检测的个数、大小、坐标信息进行记录,并填充到生成的句子中;
S1102、在聚类结果得到的切割图中,对套用预定义的模板生成一条新的语言信息代替之前的语言信息。
CN201911143698.1A 2019-11-20 2019-11-20 一种基于目标检测的宽幅遥感描述生成方法 Active CN110929640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911143698.1A CN110929640B (zh) 2019-11-20 2019-11-20 一种基于目标检测的宽幅遥感描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911143698.1A CN110929640B (zh) 2019-11-20 2019-11-20 一种基于目标检测的宽幅遥感描述生成方法

Publications (2)

Publication Number Publication Date
CN110929640A CN110929640A (zh) 2020-03-27
CN110929640B true CN110929640B (zh) 2023-04-07

Family

ID=69851402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911143698.1A Active CN110929640B (zh) 2019-11-20 2019-11-20 一种基于目标检测的宽幅遥感描述生成方法

Country Status (1)

Country Link
CN (1) CN110929640B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529857B (zh) * 2020-12-03 2022-08-23 重庆邮电大学 基于目标检测与策略梯度的超声图像诊断报告生成方法
CN112529899A (zh) * 2020-12-28 2021-03-19 内蒙动力机械研究所 基于机器学习与计算机视觉固体火箭发动机无损检测方法
CN113297855B (zh) * 2021-06-25 2023-08-18 中国人民解放军战略支援部队航天工程大学 一种面向卫星在轨应用的嵌入式遥感影像文本生成方法
CN116486086B (zh) * 2023-04-28 2023-10-03 安徽星太宇科技有限公司 一种基于热红外遥感影像的目标检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578119A (zh) * 2013-10-31 2014-02-12 苏州大学 基于超像素的Codebook动态场景中目标检测方法
CN107491929A (zh) * 2016-06-11 2017-12-19 苹果公司 数据驱动的自然语言事件检测和分类
CN107766894A (zh) * 2017-11-03 2018-03-06 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN109543699A (zh) * 2018-11-28 2019-03-29 北方工业大学 一种基于目标检测的图像摘要生成方法
CN110135567A (zh) * 2019-05-27 2019-08-16 中国石油大学(华东) 基于多注意力生成对抗网络的图像字幕生成方法
CN110188772A (zh) * 2019-05-22 2019-08-30 清华大学深圳研究生院 基于深度学习的中文图像描述方法
CN110287354A (zh) * 2019-05-16 2019-09-27 中国科学院西安光学精密机械研究所 一种基于多模态神经网络的高分遥感图像语义理解方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3218854B1 (en) * 2014-11-14 2021-01-06 Google LLC Generating natural language descriptions of images
US10360466B2 (en) * 2016-12-27 2019-07-23 Facebook, Inc. Systems and methods for image description generation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578119A (zh) * 2013-10-31 2014-02-12 苏州大学 基于超像素的Codebook动态场景中目标检测方法
CN107491929A (zh) * 2016-06-11 2017-12-19 苹果公司 数据驱动的自然语言事件检测和分类
CN107766894A (zh) * 2017-11-03 2018-03-06 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN109543699A (zh) * 2018-11-28 2019-03-29 北方工业大学 一种基于目标检测的图像摘要生成方法
CN110287354A (zh) * 2019-05-16 2019-09-27 中国科学院西安光学精密机械研究所 一种基于多模态神经网络的高分遥感图像语义理解方法
CN110188772A (zh) * 2019-05-22 2019-08-30 清华大学深圳研究生院 基于深度学习的中文图像描述方法
CN110135567A (zh) * 2019-05-27 2019-08-16 中国石油大学(华东) 基于多注意力生成对抗网络的图像字幕生成方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
An image caption method based on object detection;Danyang Cao等;《Multimedia Tools and Applications》;20190903;全文 *
Self-critical Sequence Training for Image Captioning;Steven J. Rennie等;《IEEE Conference on Computer Vision and Pattern Recognition》;20171116;全文 *
图像的文本描述方法研究综述;马龙龙等;《中文信息学报》;20180415(第04期);全文 *
基于均值漂移的自适应纹理图像分割方法;王爽,等.;《软件学报》;20100630;第21卷(第6期);全文 *
融合图像场景及物体先验知识的图像描述生成模型;汤鹏杰等;《中国图象图形学报》;20170916(第09期);全文 *

Also Published As

Publication number Publication date
CN110929640A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN110929640B (zh) 一种基于目标检测的宽幅遥感描述生成方法
Wang et al. M3: Multimodal memory modelling for video captioning
CN107688821B (zh) 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN111476284B (zh) 图像识别模型训练及图像识别方法、装置、电子设备
JP6351689B2 (ja) 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
CN110619313B (zh) 遥感图像判别性描述生成方法
CN113297975A (zh) 表格结构识别的方法、装置、存储介质及电子设备
CN110175613A (zh) 基于多尺度特征和编解码器模型的街景图像语义分割方法
CN111598183B (zh) 一种多特征融合图像描述方法
CN110390363A (zh) 一种图像描述方法
WO2018196718A1 (zh) 图像消歧方法、装置、存储介质和电子设备
CN110750998B (zh) 一种文本输出方法、装置、计算机设备和存储介质
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
CN114596566B (zh) 文本识别方法及相关装置
CN110543920B (zh) 图像识别模型的性能检测方法、装置、服务器及存储介质
CN109961041A (zh) 一种视频识别方法、装置及存储介质
CN111428448A (zh) 文本生成方法、装置、计算机设备及可读存储介质
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN111079374A (zh) 字体生成方法、装置和存储介质
CN116304042A (zh) 一种基于多模态特征自适应融合的虚假新闻检测方法
CN113378919B (zh) 融合视觉常识和增强多层全局特征的图像描述生成方法
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
Wang et al. Image captioning using region-based attention joint with time-varying attention
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant