CN110991284B - 一种基于场景预分类的光学遥感图像语句描述生成方法 - Google Patents

一种基于场景预分类的光学遥感图像语句描述生成方法 Download PDF

Info

Publication number
CN110991284B
CN110991284B CN201911155068.6A CN201911155068A CN110991284B CN 110991284 B CN110991284 B CN 110991284B CN 201911155068 A CN201911155068 A CN 201911155068A CN 110991284 B CN110991284 B CN 110991284B
Authority
CN
China
Prior art keywords
model
classification
scene
module
remote sensing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911155068.6A
Other languages
English (en)
Other versions
CN110991284A (zh
Inventor
史振威
马小锋
赵睿
陈科研
张宁
韩传钊
章泉源
朱新忠
张瑞珏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Shanghai Spaceflight Electronic and Communication Equipment Research Institute
Original Assignee
Beihang University
Shanghai Spaceflight Electronic and Communication Equipment Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, Shanghai Spaceflight Electronic and Communication Equipment Research Institute filed Critical Beihang University
Priority to CN201911155068.6A priority Critical patent/CN110991284B/zh
Publication of CN110991284A publication Critical patent/CN110991284A/zh
Application granted granted Critical
Publication of CN110991284B publication Critical patent/CN110991284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于场景预分类的光学遥感图像语句描述生成方法,技术核心是将语句描述生成任务与场景预分类任务进行联合优化,从而提升模型的数据域适应性。该方法包含四个步骤:步骤一:制作数据集;步骤二:搭建网络模型;步骤三:分步训练网络模型;步骤四:遥感图像语句描述生成。本发明克服了现有技术的不足,很好地解决了遥感图像语句描述模型与遥感数据域的适应性问题,自动化程度和语句描述内容准确度均较高,具有广阔的应用前景和巨大的使用价值。

Description

一种基于场景预分类的光学遥感图像语句描述生成方法
技术领域
本发明涉及一种基于场景预分类的光学遥感图像语句描述生成方法,属于光学遥感图像语句描述自动生成技术领域。
背景技术
遥感(remote sensing)可以分为主动遥感和被动遥感,前者通过发射和回收信号来成像,而后者通过接收地物反射的太阳光来成像,光学遥感(optical remote sensing)一般指后者,指在紫外波段和红外波段的范围内,通过探测仪器远距离获取地物信息的技术。目前,光学遥感技术一般依靠星载和机载传感器来探测地物目标,受拍摄设备高度、拍摄角度以及传感器精度的影响,获取到的图像数据在分辨率、覆盖地物尺度等多个方面表现出不同于自然图像的特点,对相关处理技术有着更高的要求。光学遥感图像在民事和军事应用中均具有重要的作用,民事上主要用于气象预报、土地普查以及灾害评估等方面,军事上主要用于导弹预警、战场监测等方面。
图像语句描述生成(image caption)是指计算机通过分析输入图像的语义内容,包括场景、目标以及目标之间的关系,之后自动生成一句描述图像内容的语句的技术。相比于目标检测、图像分割等传统图像处理技术,该技术可以实现图像到描述语句的映射,功能上更接近人类的行为表现,具有更加广阔的应用场景,包括图像检索,智能交互以及情报自动生成等多个方面。其技术实现在数据集构建、模型搭建以及训练和测试等多个方面面临更大的困难和挑战。
卷积神经网络(convolutional neural network)是近年来发展非常迅速的神经网络模型之一,该网络在处理图像数据时具有天然的优势,解决了网络庞大臃肿、难以训练以及泛化能力差等诸多问题,在图像分类比赛中屡创佳绩,以ImageNet数据集分类任务为例,人类的Top5 error分类精度大致在5%到10%之间,自从2015年深度残差网络(residual neural network)提出之后,计算机的分类精度已经超越人类。在图像语句描述生成任务中,如何使用卷积神经网络提取高质的图像语义表示,仍是目前研究面临的一大难点。
循环神经网络(recurrent neural network)是处理序列数据最有效的神经网络模型,在语句生成任务中应用广泛。由于该模型在训练时存在梯度消失的问题,后经改进,变身为长短时记忆模型(long short-term memory,LSTM),LSTM通过设计遗忘门、输入门以及输出门解决了梯度消失问题。目前在图像语句描述生成模型中,一般采用LSTM或其变体来生成描述图像的语句结果。
注意力机制(attention mechanism)是指人脑通过注意力聚焦来重点关注某一部分信息的机制,基于该机制构建的注意力模块在图像语句描述生成模型中扮演着重要的角色,该模块可以帮助模型在生成语句的单词时与图像进行语义对齐,从而得到更准确的描述结果。现有的注意力模块主要包括空间注意力模块、自适应注意力模块两种,本发明在此基础上提出了一种3D注意力结构,这种设计更适用于处理尺度不一的光学遥感图像数据。
场景分类(scene classification)技术是指计算机根据输入的图像判定图像所属场景类别的技术。由于光学遥感图像与自然图像相比,通常一张遥感图像只包含一种地物场景,如港口、山区等,对其进行场景分类有助于图像语句描述生成模型获取更加准确的语义信息,从而减轻语句生成部分的学习压力,进而得到一种更适合于光学遥感图像语句生成的模型。本发明就是基于这种思想,将场景分类任务与语句描述生成任务进行多任务联合,搭建了一种基于场景预分类的光学遥感图像语句描述生成模型,与领域内其它模型相比,该模型具有出色的性能表现。
发明内容
本发明的目的在于提供一种基于场景预分类的光学遥感图像语句描述生成方法,该方法从光学遥感图像的数据特点出发,结合场景分类技术,设计了一种更适用于光学遥感图像数据的语句描述生成方法,旨在通过赋予模型场景识别能力的同时提升模型对遥感数据域的适应能力。
本发明是通过以下技术方案实现的:
本发明是一种基于场景预分类的光学遥感图像语句描述生成方法,是一种针对光学遥感图像数据的语句描述自动生成方法。该方法的具体步骤如下:
步骤一:制作数据集。
首先准备图像语句描述数据集,数据集的图像数据大小为400×400~1000×1000(像素)之间,数据来源包括谷歌地球图像数据、高分一号及二号融合图像数据以及其他光学遥感数据源数据,数据包括三个通道,每张图像对应标注一句或一句以上的英文描述作为语句标签。之后对图像进行场景分类,以数字表示其场景类别。最后将这些信息统一记录在标注文件内。
步骤二:搭建网络模型。
该模型总共包括数据输入模块、语义特征提取模块、场景分类模块、3D注意力模块、语句描述生成模块等共计5个模块。数据输入模块主要包括数据预处理、搭建数据流等两个功能类;语义特征提取模块采用参数共享的方式,将输入图像映射成大小为49×2048的特征矩阵;场景分类模块主要包括分类预测层、交叉熵损失函数以及优化器等三个部分,用于训练场景分类任务;3D注意力模块是在空间注意力的基础上,增加了模型对不同尺度特征的应用能力;语句描述生成模块主要由LSTM和解码网络构成,用于预测生成的单词,其中,该模块还包含有一个用于测试阶段生成语句结果的功能函数,称为集束搜索函数,用于搜索得到最优的描述语句。
搭建整个网络模型的具体步骤如下:
S21、编写数据输入类:class DataSet();
S22、构建特征提取网络:def build_feat();
S23、构建场景分类分支:以步骤S22中的输出为输入,构建场景分类分支;
S24、3D注意力模块:该模块用于计算分配注意力的系数矢量;初始时间步采用步骤S22的输出和“<start>”常向量作为输入,在迭代过程中采用步骤S22和步骤S25的输出作为该模块的输入;
S5、构建语句描述生成分支:将步骤S22、S24的输出向量进行点乘作为当前步骤的图像内容输入,用于下一个时间步的迭代。
步骤三:训练整个模型。考虑到图像场景识别任务与语句描述任务是两个强相关的时序任务,因此,本发明先用数据集对场景分类分支进行预训练,在得到稳定的模型后,再对语句描述生成分支进行训练,最后对二者进行联合调优。特别的,在训练语句描述生成分支时,本发明将场景分类任务的结果用于其损失函数设计,对模型识别错误的数据对应的损失进行抑制,从而避免场景识别错误的数据给语句生成模块带来数据噪声干扰。
具体的,训练整个模型的过程如下:
S31、场景分类分支优化方法选择动量优化器;
S32、采用迁移模型图像语义特征提取网络的权重进行初始化;
S33、输入训练数据并通过前向传播得到场景分类结果;
S34、计算神经网络输出和标签之间的交叉熵损失;
S35、通过反向传播误差调整神经网络中的权重和偏置;重复步骤S32、S33、S34,直到迭代次数达到最大迭代次数,此时停止优化并保存网络模型参数;
S36、训练语句生成分支网络;
S37、计算计算预测单词的交叉熵损失;
S38、通过反向传播误差调整神经网络中的权重和偏置;
S39、重复步骤S36、S37、S38,直到迭代次数达到最大迭代次数,此时停止优化并保存网络模型参数;
S30、对模型所有参数进行微调优化并保存网络模型参数。
步骤四:光学遥感图像语句描述生成。本发明是一个端到端的模型,只需将要处理的图像的地址提供给模型接口,模型便可通过集束搜索的方式生成描述图像内容的语句。
本发明是一种基于场景预分类的光学遥感图像语句描述生成方法。本发明的优点是:通过采用3D注意力模块设计,可以实现多尺度下语义信息对齐,从而可以更加准确地描述图像内容;通过场景预分类的方式,可以使用遥感图像数据集对图像特征提取网络进行充分训练,从而提升模型对遥感图像数据域的适应性;通过增加场景分类分支,赋予模型场景识别能力,相比于只生成语句描述来讲,模型的可解释性更强;此外,遥感图像语句描述生成属于较新的研究领域,相比于传统的图像处理任务来讲,具有更广阔的应用空间。
附图说明
图1基于场景预分类的光学遥感图像语句描述生成模型结构图。
图2基于空间和通道注意力的场景分类特征处理流程图。
图3 3D注意力模块结构示意图。
图4基于场景预分类的光学遥感图像语句描述生成方法工作流程图。
图5a~5d光学遥感图像语句生成结果。
表1本发明图像语义特征提取网络参数设置。
表2本发明语句生成分支参数设置。
具体实施方式
为了更好地理解本发明的技术方案,以下结合附图对本发明的实施方式作进一步阐述:
本发明所依赖的系统环境是Windows 10,硬件配置主要有7700K 4核8线程CPU、GTX1080(显存11GB)GPU以及64GB内存;软件配置主要有深度学习框架TensorFlow,编程语言Python,编译器PyCharm,在该环境下可以高效地对神经网络进行训练和测试。具体的,首先进行数据接口、模型、训练函数、测试函数的编写,之后构建训练数据流,按照设定好的宏参进行模型训练和保存,之后便可以重新加载训练好的模型来生成图像的描述语句。
本发明所提出的基于场景预分类的光学遥感图像语句描述生成方法的整体模型结构如图1所示,3D注意力模块的结构如图2所示,场景预分类分支的特征处理模块如图3所示,整个模型的工作流程如图4所示。在训练时,首先采用ImageNet上训练好的模型参数对图像特征提取网络进行参数初始化,其他参数采用随机初始化方式;之后,根据数据的分类标签进行图像特征提取模块和场景分类分支的参数进行训练,训练完成后固定图像特征提取模块的参数,根据语句描述标签对语句生成模块进行参数训练;最后降低学习率,根据语句描述标签对图像特征提取模块和语句生成模块的所有参数进行微调,得到最终的模型。
本发明的一种基于场景预分类的光学遥感图像语句描述生成方法,包括如下步骤:
步骤一:制作数据集。本发明所需的输入数据包括大小为400×400~1000×1000(像素)之间由图像数据切片文件和记录场景分类编号、对应语句描述的标注文件。在制作过程中,为保证数据的全面性,需要从谷歌地球、高分1号、高分2号等多个数据源进行数据搜集,之后按照场景进行切片,场景类型不限;之后对图像进行语句标注,将图像数据分配给不同的人进行语句描述,最后将搜集的语句进行挑选,同一张图像的标注语句在1~5句之间,单词数为15个左右。
步骤二:搭建网络模型。首先进行数据接口的编写,之后编写模型文件,最后编写训练测试函数。
数据接口编写具体包括数据预处理和生成训练数据流两个功能函数,数据预处理包括图像随机增扩(包括加噪声、调整对比度、反转三种方式)、图像裁切和缩放(处理后图像大小为224×224像素)、规范化(在减去训练数据集的平均值后归一化),生成训练数据流包括根据不同的训练任务按照批次返回图像数据和任务标签数据,支持随机打乱、迭代生成功能。
模型文件的编写主要是实现图1所示的模型。具体地,图像语义特征提取模块为去掉全连接层的ResNet50,其结构及各层输出如表1所示。图像场景分类分支包括一个基于空间和通道注意力的特征处理模块(图2)和一个Softmax层。语句描述生成分支由LSTM序列生成网络和一个包含两层隐含层的单词预测网络组成,采用自主设计的3D注意力模型结构,其具体结构如图3所示,参数设置如表2所示。对于3D注意力模块来讲,计算过程如下:
对于单个尺度的注意力模块,其计算过程如下:
Figure BDA0002284585250000051
Figure BDA0002284585250000052
其中,
Figure BDA0002284585250000053
为空间注意力系数,k=1,2,3表示尺度编码,t表示时间步,
Figure BDA0002284585250000054
表示尺度k下的图像特征立方体,
Figure BDA0002284585250000061
表示LSTM在上一时间步的输出向量,
Figure BDA0002284585250000062
表示归一化后的注意力系数,Lk表示该尺度下的特征向量数,则该尺度下的图像特征为:
Figure BDA0002284585250000063
对于单词预测网络(Rst-Decoder)来讲,其输入主要来自两个方面,一个是t时间步时LSTM的输出向量,另一个是该时间步时图像的编码向量,计算方式如下:
Figure BDA0002284585250000064
Figure BDA0002284585250000065
Figure BDA0002284585250000066
则t时刻的预测输出为:
logits=Wd1(Wd1contt+bd1)+bd2
P(wt|I,w0,w1,...,wt-1)=Softmax(logits)
训练及测试函数的编写主要包括设置迭代次数、学习率、优化器等,负责将数据送入模型并进行计算。
Figure BDA0002284585250000067
表1
Figure BDA0002284585250000068
Figure BDA0002284585250000071
表2
步骤三:训练整个模型。根据步骤一中制作的数据集和步骤二中搭建的网络模型,可以利用TensorFlow深度学习框架对该神经网络进行训练,工作流程如图4所示。具体方法如下:
1、创建优化器。具体的,场景分类分支对应的优化器为动量优化器,初始学习率为0.05,学习率衰减步长为150,学习率衰减率为0.9,动量系数为0.9;语句描述分支优化器为均方根优化器(RMSProp),初始学习率为0.01。
2、采用ImageNet训练好的模型参数初始化图像语义特征提取模块的参数,其他参数采用均匀分布对神经网络的权重进行初始化。对于每一个卷积层,其均值设置为0,方差设置为卷积核个数的倒数。
3、预先训练分类分支网络:训练输入训练数据并通过前向传播得到场景分类的预测结果。主要的运算包括三种,分别是卷积运算、池化运算和激活运算。池化运算即对输入的特征图像进行降采样操作。卷积运算和激活运算的计算公式如下(xl表示第l层输入的特征图,wl代表第l层的卷积核参数):
卷积运算:xl+1=wl*xl
激活运算:
Figure BDA0002284585250000072
4、计算神经网络输出和标签之间的损失函数。本发明中使用交叉熵作为损失函数来指征神经网络输出的优劣,计算公式如下(p代表神经网络预测每一类的概率,
Figure BDA0002284585250000074
代表真实类别的概率,网络输出包含N个类别):
Figure BDA0002284585250000073
5、通过反向传播误差调整神经网络中的权重和偏置。误差反向传播是链式法则的典型应用,实际计算时,只需要计算每一层的输入误差对权重和偏置的导数,再计算输入误差对输出误差的导数,即可逐层计算出权重和偏置的更新量。以上述第4步中损失函数为例,其反向传播时的计算公式如下:
Figure BDA0002284585250000081
重复2、3、4步,直到迭代次数达到最大迭代次数,此时停止优化并保存神经网络参数。
6、训练语句生成分支网络。加载步骤3到5训练好的场景分类分支网络参数并固定,训练数据并通过前向计算得到每个样本逐个单词的预测结果。
7、在预测完每个单词时计算预测单词的交叉熵损失,在每个句子最后一个单词预测完成后,将所有的预测损失进行加和作为单个样本的损失,假设语句的长度为L,则损失函数可以表示为以下形式:
Figure BDA0002284585250000082
其中,
Figure BDA0002284585250000084
为指示函数,定义如下:
Figure BDA0002284585250000083
即当场景预测正确时,样本的损失函数才会计入模型损失,否则当作数据噪声加以抑制。
8、通过反向传播更新模型参数,更新方式同步骤5一致。
9、重复6、7、8步,直到迭代次数达到最大迭代次数,此时停止优化并保存神经网络参数。
10、不再固定分类分支参数,降低学习率,微调模型所有参数。
步骤四:光学遥感图像语句描述生成。利用步骤三中训练好的网络模型对测试集中的图像语句描述生成。具体方法如下:1、将步骤三中网络模型参数载入TensorFlow深度学习框架。2、将测试数据输入神经网络中。3、数据前向传播得到语句描述生成结果。
实验结果:本发明使用了8000个带标注的遥感图像对作为训练数据,另外2000个未标注遥感影像对作为测试数据,测试结果样例如图5a~5d所示,从实验结果来看,本发明很好地解决了遥感图像的多尺度语义信息提取以及模型与数据域的适应性问题,可以生成准确描述图像内容的语句。

Claims (4)

1.一种基于场景预分类的光学遥感图像语句描述生成方法,其特征在于:该方法的具体步骤如下:
步骤一:制作数据集;
步骤二:搭建网络模型;该模型包括数据输入模块、语义特征提取模块、场景分类模块、3D注意力模块、语句描述生成模块;数据输入模块包括数据预处理、搭建数据流两个功能类;语义特征提取模块采用参数共享的方式,将输入图像映射成大小为49×2048的特征矩阵;场景分类模块包括分类预测层、交叉熵损失函数以及优化器,用于训练场景分类任务;3D注意力模块是在空间注意力的基础上,增加了模型对不同尺度特征的应用能力;语句描述生成模块由LSTM和解码网络构成,用于预测生成的单词;
步骤三:训练整个模型;先用数据集对场景分类分支进行预训练,在得到稳定的模型后,再对语句描述生成分支进行训练,最后对二者进行联合调优;在训练语句描述生成分支时,将场景分类任务的结果用于损失函数设计,对模型识别错误的数据对应的损失进行抑制,避免场景识别错误的数据给语句生成模块带来数据噪声干扰;
步骤四:光学遥感图像语句描述生成;模型通过集束搜索的方式生成描述图像内容的语句。
2.根据权利要求1所述的一种基于场景预分类的光学遥感图像语句描述生成方法,其特征在于:所述的语句描述生成模块,还包含有一个用于测试阶段生成语句结果的功能函数,称为集束搜索函数,用于搜索得到最优的描述语句。
3.根据权利要求1所述的一种基于场景预分类的光学遥感图像语句描述生成方法,其特征在于:所述步骤二搭建整个网络模型的具体步骤如下:
S21、编写数据输入类:class DataSet();
S22、构建特征提取网络:defbuild_feat();
S23、构建场景分类分支:以步骤S22中的输出为输入,构建场景分类分支;
S24、3D注意力模块:该模块用于计算分配注意力的系数矢量;初始时间步采用步骤S22的输出和“<start>”常向量作为输入,在迭代过程中采用步骤S22和步骤S25的输出作为该模块的输入;
S25 、构建语句描述生成分支:将步骤S22、S24的输出向量进行点乘作为当前步骤的图像内容输入,用于下一个时间步的迭代。
4.根据权利要求1所述的一种基于场景预分类的光学遥感图像语句描述生成方法,其特征在于:所述步骤三训练整个模型的过程如下:
S31、场景分类分支优化方法选择动量优化器;
S32、采用迁移模型图像语义特征提取网络的权重进行初始化;
S33、输入训练数据并通过前向传播得到场景分类结果;
S34、计算神经网络输出和标签之间的交叉熵损失;
S35、通过反向传播误差调整神经网络中的权重和偏置;重复步骤S32、S33、S34,直到迭代次数达到最大迭代次数,此时停止优化并保存网络模型参数;
S36、训练语句生成分支网络;
S37、计算预测单词的交叉熵损失;
S38、通过反向传播误差调整神经网络中的权重和偏置;
S39、重复步骤S36、S37、S38,直到迭代次数达到最大迭代次数,此时停止优化并保存网络模型参数;
S40 、对模型所有参数进行微调优化并保存网络模型参数。
CN201911155068.6A 2019-11-22 2019-11-22 一种基于场景预分类的光学遥感图像语句描述生成方法 Active CN110991284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911155068.6A CN110991284B (zh) 2019-11-22 2019-11-22 一种基于场景预分类的光学遥感图像语句描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911155068.6A CN110991284B (zh) 2019-11-22 2019-11-22 一种基于场景预分类的光学遥感图像语句描述生成方法

Publications (2)

Publication Number Publication Date
CN110991284A CN110991284A (zh) 2020-04-10
CN110991284B true CN110991284B (zh) 2022-10-18

Family

ID=70085762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911155068.6A Active CN110991284B (zh) 2019-11-22 2019-11-22 一种基于场景预分类的光学遥感图像语句描述生成方法

Country Status (1)

Country Link
CN (1) CN110991284B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112026786B (zh) * 2020-09-09 2022-03-01 深圳技术大学 智能车的协同驾驶控制系统及多车协同驾驶控制系统
CN112365464B (zh) * 2020-11-09 2021-08-10 成都信息工程大学 一种基于gan的医学图像病变区域弱监督定位方法
CN113392724B (zh) * 2021-05-25 2022-12-27 中国科学院西安光学精密机械研究所 基于多任务学习的遥感场景分类方法
CN113535999B (zh) * 2021-07-05 2023-05-26 北京航空航天大学 一种基于深度学习的多样化图像描述语句生成技术
CN117911964A (zh) * 2024-02-22 2024-04-19 平邑县交通运输事业服务中心 一种车辆安全检测的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877001A (zh) * 2009-10-20 2010-11-03 武汉大学 基于领域本体的遥感信息处理服务语义描述方法
CN102945550A (zh) * 2012-10-15 2013-02-27 武汉大学 一种基于高斯尺度空间构建遥感影像语义的方法
CN108960330A (zh) * 2018-07-09 2018-12-07 西安电子科技大学 基于快速区域卷积神经网络的遥感图像语义生成方法
CN110287354A (zh) * 2019-05-16 2019-09-27 中国科学院西安光学精密机械研究所 一种基于多模态神经网络的高分遥感图像语义理解方法
CN110347857A (zh) * 2019-06-06 2019-10-18 武汉理工大学 基于强化学习的遥感影像的语义标注方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2016315938B2 (en) * 2015-08-31 2022-02-24 Cape Analytics, Inc. Systems and methods for analyzing remote sensing imagery

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877001A (zh) * 2009-10-20 2010-11-03 武汉大学 基于领域本体的遥感信息处理服务语义描述方法
CN102945550A (zh) * 2012-10-15 2013-02-27 武汉大学 一种基于高斯尺度空间构建遥感影像语义的方法
CN108960330A (zh) * 2018-07-09 2018-12-07 西安电子科技大学 基于快速区域卷积神经网络的遥感图像语义生成方法
CN110287354A (zh) * 2019-05-16 2019-09-27 中国科学院西安光学精密机械研究所 一种基于多模态神经网络的高分遥感图像语义理解方法
CN110347857A (zh) * 2019-06-06 2019-10-18 武汉理工大学 基于强化学习的遥感影像的语义标注方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Attribute2Image:Conditional Image Generation from Visual Attributes;Xinchen Yan等;《European Conference on Computer Vision》;20160917;第776-791页 *
Building Semantic Ontology Databases Based on Remote Sensing Images;黄友文等;《Proceedings of the 8th International Symposium on Spatial Accuracy Assessment in Natural Resources and Environmental Sciences》;20140301;第387-392页 *
结合视觉属性注意力和残差连接的图像描述生成模型;周治平等;《 计算机辅助设计与图形学学报》;20180831;第30卷(第8期);第1536-1553页 *
融合注意力和动态语义指导的图像描述模型;张威等;《http://kns.cnki.net/kcms/detail/11.5602.TP.20170721.0900.002.html》;20170712;第2033-2040页 *
遥感图像飞机目标分类的卷积神经网络方法;周敏等;《中国图象图形学报》;20170531;第22卷(第5期);第0702-0708页 *

Also Published As

Publication number Publication date
CN110991284A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110991284B (zh) 一种基于场景预分类的光学遥感图像语句描述生成方法
CN111191736B (zh) 基于深度特征交叉融合的高光谱图像分类方法
US11714937B2 (en) Estimating physical parameters of a physical system based on a spatial-temporal emulator
CN109784283B (zh) 基于场景识别任务下的遥感图像目标提取方法
CN113780149B (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN111259940B (zh) 一种基于空间注意力地图的目标检测方法
Yuan et al. SPEDCCNN: spatial pyramid-oriented encoder-decoder cascade convolution neural network for crop disease leaf segmentation
CN111160268A (zh) 一种基于多任务学习的多角度sar目标识别方法
CN112966135B (zh) 一种基于注意力机制和门控机制的图文检索方法和系统
CN113393474A (zh) 一种基于特征融合的三维点云的分类和分割方法
CN113536925A (zh) 一种基于引导注意力机制的人群计数方法
Ebert-Uphoff et al. CIRA Guide to Custom Loss Functions for Neural Networks in Environmental Sciences--Version 1
CN114219963A (zh) 地学知识引导的多尺度胶囊网络遥感地物分类方法及系统
CN116229519A (zh) 一种基于知识蒸馏的二维人体姿态估计方法
CN113361194B (zh) 一种基于深度学习的传感器漂移校准方法、电子设备及存储介质
CN113723572A (zh) 船只目标识别方法、计算机系统及程序产品、存储介质
CN116665114B (zh) 基于多模态的遥感场景识别方法、系统及介质
CN114511787A (zh) 一种基于神经网络的遥感图像地物信息生成方法及其系统
CN117197632A (zh) 一种基于Transformer的电镜花粉图像目标检测方法
CN117173556A (zh) 一种基于孪生神经网络的小样本sar目标识别方法
CN116563683A (zh) 一种基于卷积神经网络和多层感知机的遥感影像场景分类方法
CN113627480B (zh) 一种基于强化学习的极化sar影像分类方法
CN115147727A (zh) 一种遥感影像不透水面提取方法及系统
Song et al. Instrument identification technology based on deep learning
US20220327335A1 (en) Controlling asynchronous fusion of spatio-temporal multimodal data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant