CN111126282A - 一种基于变分自注意力强化学习的遥感图像内容描述方法 - Google Patents

一种基于变分自注意力强化学习的遥感图像内容描述方法 Download PDF

Info

Publication number
CN111126282A
CN111126282A CN201911352556.6A CN201911352556A CN111126282A CN 111126282 A CN111126282 A CN 111126282A CN 201911352556 A CN201911352556 A CN 201911352556A CN 111126282 A CN111126282 A CN 111126282A
Authority
CN
China
Prior art keywords
remote sensing
sensing image
self
neural network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911352556.6A
Other languages
English (en)
Other versions
CN111126282B (zh
Inventor
周勇
沈祥清
赵佳琦
夏士雄
马丁
姚睿
刘兵
杜文亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN201911352556.6A priority Critical patent/CN111126282B/zh
Publication of CN111126282A publication Critical patent/CN111126282A/zh
Application granted granted Critical
Publication of CN111126282B publication Critical patent/CN111126282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Abstract

本发明公开了一种基于变分自注意力强化学习的遥感图像内容描述方法,属于计算机视觉和自然语言处理的交叉领域;包括:使用遥感图像分类数据集,预训练融合变分自编码器的卷积神经网络;使用预训练的卷积神经网络提取遥感图像的空间特征和语义特征;使用自注意力使空间特征融合上下文信息;使用遥感图像内容描述数据集,使用Transformer解码空间特征和语义特征,融合特征,输出遥感图像内容的文本描述;使用强化学习提升文本描述质量。本发明利用遥感图像分类数据集,融合变分自编码器进行卷积神经网络预训练,使用自注意力机制,特征融合,强化学习,优化了遥感图像内容描述文本的质量。

Description

一种基于变分自注意力强化学习的遥感图像内容描述方法
技术领域
本发明涉及遥感图像处理技术和自然语言生成技术领域,尤其涉及一种基于变分自注意力强化学习的遥感图像内容描述方法。
背景技术
遥感是一种非接触、远距离的探测技术。一般来说,它是用来探测和识别目标物体本身通过传感器发射或反射的电磁波、红外线和可见光。随着遥感技术的飞速发展,特别是近年来高分辨率遥感影像的出现,这项技术已成为及时进行全球或区域地球观测的重要手段。遥感影像的规模也在逐步扩大,影像内容提供的信息也越来越丰富。
图像内容描述的目标是生成给定图像内容的文本描述,在机器理解图像内容上有很重要的地位。传统的图像内容描述模型由编码器和解码器组成。编码器选择卷积神经网络提取图像的特征,解码器选择长短期记忆网络生成图像内容的文本描述。遥感图像内容描述作为图像内容描述的重要组成部分,可以利用机器提升遥感图像的效率,目前已经越来越受到人们的重视。
传统的图像内容描述方法应用在遥感图像上仍存在问题。现有的模型大多关注于遥感图像本身的特征提取,忽视了卷积神经网络更高层的语义信息以及语义信息所表示的空间信息中各个物体之间的联系,而这对遥感图像内容的理解是至关重要的。遥感图像有独特的特点,相比于自然图像内容描述,遥感图像独有的上帝视角使得图像本身容易失去焦点,在文本内容的生成阶段更加困难。
目前很多模型采用的长短期记忆网络有很大的局限性。在建模长文本的文本特征时,由于长短期记忆网络本身架构的局限性,很容易造成长文本前方的信息损失。引入门机制和注意力机制只能减缓此问题。另外,长短期记忆网络处理下一阶段的输出依赖上一阶段的结果,这导致长短期记忆网络无法并行训练,影响了训练效率。
文本生成任务上损失函数通常基于语言模型构建,选择交叉熵函数。而在评价模型性能时,选择的是人们手动设计的各种评判标准。这就导致了训练阶段和测试阶段的不匹配问题,训练时的性能并不能完全反映测试时的性能。
针对上述问题,有研究者们给出了改进。Transformer作为一个被最新提出的架构,已经被证明在多项任务上可以取代长短期记忆网络获得更好的文本特征建模性能。与此同时,Transformer独特的自注意力机制减缓了长文本建模的信息衰减问题,完全避免了长短期记忆网络无法并行训练的问题。也有研究者将强化学习引入到文本生成,使用文本生成的评价标准作为奖励函数,在传统的训练阶段完成过后使用强化学习提高模型生成的文本的质量。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于变分自注意力强化学习的遥感图像内容描述方法,在遥感图像分类数据集上预训练编码器,编码器采用卷积神经网络,并且添加了变分自编码器提升了卷积神经网络的性能。使用训练之后的卷积神经网络提取语义特征和空间特征,执行自注意力机制之后,输入到解码器中。解码器采用微调网络结构的Transformer,输出原始的遥感图像描述内容之后使用自评判序列训练提升生成文本的质量。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:
一种基于变分自注意力强化学习的遥感图像内容描述方法,包括如下步骤:
步骤一,融合变分自编码器和卷积神经网络,构建遥感图像内容描述编码器;构建遥感图像分类数据集,并使用该数据集预训练遥感图像内容描述编码器;
步骤二,构建遥感图像内容描述解码器,输入遥感图像内容描述编码器编码得到的特征至解码器,融合解码器解码的特征,输出遥感图像内容描述文本;
步骤三,使用基于强化学习的自评判序列训练(Self-Critical SequenceTraining)作为解码器参数更新策略,使用选定的语言质量评价指标(默认为CIDEr)作为奖励,提升文本描述质量,得到优化后的遥感图像内容描述网络;
步骤四,使用优化后的遥感图像内容描述网络,输出遥感图像内容描述文本。
进一步,所述步骤一,构建遥感图像内容描述编码器,具体包括如下步骤:
1-1,使用在ImageNet上预训练的卷积神经网络作为内容描述编码器的骨架网络;构建遥感图像分类数据集,包含遥感图像和对应的类别;根据构建的数据集的类别数目,修改卷积神经网络的全连接层,使其输出的维度适应遥感图像分类数据集的类别数目;
1-2,获得卷积神经网络的自适应池化层输出,在自适应池化层之后对称于自适应池化层之前的网络层结构添加变分自编码器;
1-3,使用遥感图像分类数据集预训练融合变分自编码器的卷积神经网络,得到训练后的卷积神经网络;
1-4,使用训练好的卷积神经网络获得遥感图像的语义特征和空间特征,在空间特征上执行自注意力机制,使空间特征融合上下文信息,将语义特征和融合上下文信息的空间特征输入到解码器。
进一步,所述步骤1-1,具体包括:删除骨架卷积神经网络结构中适应于ImageNet分类标准的全连接层;添加适应于已构建的遥感图像分类数据集分类标准的全连接层和柔性最大值层。
进一步,所述步骤1-2,变分自编码器网络包含反卷积层、堆正则化、激活函数,其架构为卷积神经网络自适应池化层之前全部网络层的镜像架构。
进一步,所述步骤1-3,具体包括如下:
1-3-1,将构建好的遥感图像分类数据集以一定的比例分割为训练集和验证集;将训练集作为融合变分自编码器的卷积神经网络的输入,网络的输出包含当前输入遥感图像的分类类别和变分自编码器对当前输入遥感图像进行还原的图像;
1-3-2,使用交叉熵损失、均方误差和KL散度的加和作为损失函数,均方误差和KL散度的系数作为超参数(默认为0.1);交叉熵损失描述预测标签和真实标签的误差,均方误差描述变分自编码器还原的遥感图像和输入遥感图像的误差,KL散度描述变分自编码器中间特征概率分布和输入遥感图像特征概率分布的误差;
1-3-3,使用亚当优化器优化融合变分自编码器的卷积神经网络的参数,得到训练后的卷积神经网络。
进一步,所述步骤1-3-3,网络的训练策略如下:每在训练集上训练一个周期,在验证集上计算当前网络的遥感图像分类精度和分类损失;分类精度为当前网络在验证集上进行遥感图像分类的准确率,分类损失为当前网络在验证集上的损失函数的数值;
在分类损失停止下降的周期超过预先设定的阈值时(默认为2),降低亚当优化器的学习率,继续训练;在分类精度停止上升的周期超过预先设定的阈值时(默认为5),停止训练,并保存融合变分自编码器的卷积神经网络的参数。
进一步,所述步骤1-4,具体包括如下:
1-4-1,构建遥感图像内容描述数据集,包含遥感图像和对应的遥感图像内容描述;
1-4-2,利用步骤1-3得到的融合变分自编码器的卷积神经网络,加载网络参数,删除网络的变分自编码器部分,只保留卷积神经网络部分;
1-4-3,使用遥感图像内容描述数据集中的遥感图像作为输入,使用卷积神经网络中不包含最后一层的任意一层全连接层作为输入遥感图像的语义特征,使用卷积神经网络的自适应池化层作为输入遥感图像的空间特征;
1-4-4,在步骤1-4-3获得的遥感图像的空间特征上执行自注意力机制,使空间特征中的每一个子空间融合其余子空间的特征信息,获得融合上下文信息的空间特征表示;
1-4-5,将语义特征和融合了上下文信息的空间特征输入至解码器。
进一步,所述步骤二,构建遥感图像内容描述解码器,输出遥感图像内容描述文本,包括如下步骤:
2-1,使用Transformer作为遥感图像内容描述解码器,Transformer子模块的数量可以任意指定(默认为6);
2-2,调整Transformer的网络结构,添加Dropout,缓解在遥感图像内容描述数据集规模达不到预期的情况下的过拟合问题;添加残差连接,缓解深度神经网络的梯度消失问题并且加速模型的收敛;
2-3,在Transformer输出的文本特征上做自适应的特征融合;
2-4,使用Transformer解码融合之后的文本特征,采用交叉熵损失函数,训练Transformer,输出原始的遥感图像内容的文本描述。
进一步,所述步骤2-2,具体为:在Transformer的子模块的每一层之后添加Dropout;在Transformer的相邻的子模块之间添加残差连接。
进一步,所述步骤2-3,具体为:获得Transformer的每一个子模块的输出;在Transfomer中的每一个子模块的输出之前设定权重,限制所有子模块的权重之和为1,将此权重作为Transfomer的训练参数;使用训练结束得到的权重计算Transformer全部子模块输出的加权线性输出,作为最终输出的文本特征。
进一步,所述步骤三,具体包括如下:
3-1,删除步骤2-4所述原始的交叉熵损失函数,使用基于强化学习的自评判序列训练作为新的参数更新策略,强化学习的奖励值为自评判序列训练输出的遥感图像内容描述的文本质量评价指标(默认为CIDEr);
3-2,自评判序列训练的更新策略为最小化负期望奖励值,负期望奖励值表示如下:
Figure BDA0002334973050000041
其中θ为调整网络结构之后的Transformer的训练参数,Ws为当前生成文本,s和pθ表示对于当前生成文本中的每一个单词,选择当前最佳单词的概率并非100%,而是以概率pθ在词表中随机采样,r(*)为当前生成文本的CIDEr评价标准;
3-3,输出自评判序列训练优化后的遥感图像内容描述。
有益效果:与现有技术相比,本发明的技术方案具有以下有益的技术效果:
本发明提供的基于变分自注意力强化学习的遥感图像内容描述方法,可以有效利用变分自编码器提高卷积神经网络的特征提取功能,得到更有助于生成文本描述内容的图像表示。将卷积神经网络编码得到的空间特征信息作自注意力操作,帮助每一个空间融合其周围空间的上下文信息,得到更加优化的空间特征信息表示。将优化后的空间特征和语义特征输入到以Transformer为基础架构的解码器中。在Transformer中添加了额外的残差连接,Dropout和特征融合,可以提升生成文本的质量,更好的减缓生成文本过程中的信息损失。最后采用的自评判序列训练可以进一步有效提升输出的文本描述内容的质量,优化了本网络的性能。
附图说明
图1是本发明的网络结构图;
图2是本发明的方法步骤图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
本发明所述的一种基于变分自注意力强化学习的遥感图像内容描述方法,如图1和图2所示,具体步骤如下:
步骤一、构建遥感图像内容描述编码器
(11)使用在ImageNet上预训练的卷积神经网络作为内容描述编码器的骨架网络;构建遥感图像分类数据集,包含遥感图像和对应的类别;根据构建的数据集的类别数目,修改卷积神经网络的全连接层,使其输出的维度适应遥感图像分类数据集的类别数目;具体包括:
(111)删除骨架卷积神经网络结构中适应于ImageNet分类标准的全连接层;
(112)添加适应于已构建的遥感图像分类数据集分类标准的全连接层和柔性最大值层。
(12)获得卷积神经网络的自适应池化层输出,在自适应池化层之后对称于自适应池化层之前的网络层结构添加变分自编码器;
所述变分自编码器网络包含反卷积层、堆正则、激活函数,其架构为卷积神经网络自适应池化层之前全部网络层的镜像架构。
(13)使用遥感图像分类数据集预训练融合变分自编码器的卷积神经网络,得到训练后的卷积神经网络;具体包括:
(131)将构建好的遥感图像分类数据集以一定的比例分割为训练集和验证集;将训练集作为融合变分自编码器的卷积神经网络的输入,网络的输出包含当前输入遥感图像的分类类别和变分自编码器对当前输入遥感图像进行还原的图像;
(132)使用交叉熵损失、均方误差和KL散度的加和作为损失函数,均方误差和KL散度的系数作为超参数;交叉熵损失描述预测标签和真实标签的误差,均方误差描述变分自编码器还原的遥感图像和输入遥感图像的误差,KL散度描述变分自编码器中间特征概率分布和输入遥感图像特征概率分布的误差;
(133)使用亚当优化器优化融合变分自编码器的卷积神经网络的参数,得到训练后的卷积神经网络。网络的训练策略如下:每在训练集上训练一个周期,在验证集上计算当前网络的遥感图像分类精度和分类损失;分类精度为当前网络在验证集上进行遥感图像分类的准确率,分类损失为当前网络在验证集上的损失函数的数值;
在分类损失停止下降的周期超过预先设定的阈值时,降低亚当优化器的学习率,继续训练;在分类精度停止上升的周期超过预先设定的阈值时,停止训练,并保存融合变分自编码器的卷积神经网络的参数。
(14)使用训练好的卷积神经网络获得遥感图像的语义特征和空间特征,在空间特征上执行自注意力机制,使空间特征融合上下文信息,将语义特征和融合上下文信息的空间特征输入到解码器。
(141)构建遥感图像内容描述数据集,包含遥感图像和对应的遥感图像内容描述;
(142)利用步骤(13)得到的卷积神经网络,加载网络参数,删除网络的变分自编码器部分,只保留卷积神经网络部分;
(143)使用遥感图像内容描述数据集中的遥感图像作为输入,使用卷积神经网络中不包含最后一层的任意一层全连接层作为输入遥感图像的语义特征,使用卷积神经网络的自适应池化层作为输入遥感图像的空间特征;
(144)在步骤(143)获得的遥感图像的空间特征上执行自注意力机制,使空间特征中的每一个子空间融合其余子空间的特征信息,获得融合上下文信息的空间特征表示;
(145)将语义特征和融合了上下文信息的空间特征输入至解码器。
步骤二、构建遥感图像内容描述解码器
(21)使用Transformer作为遥感图像内容描述解码器,Transformer子模块的数量可以任意指定;
(22)调整Transformer的网络结构,在Transformer的子模块的每一层之后添加Dropout,缓解在遥感图像内容描述数据集规模达不到预期的情况下的过拟合问题;在Transformer的相邻的子模块之间添加残差连接,缓解深度神经网络的梯度消失问题并且加速模型的收敛;
(23)在Transformer输出的文本特征上做自适应的特征融合;具体为:获得Transformer的每一个子模块的输出;在Transfomer中的每一个子模块的输出之前设定权重,限制所有子模块的权重之和为1,将此权重作为Transfomer的训练参数;使用训练结束得到的权重计算Transformer全部子模块输出的加权线性输出,作为最终输出的文本特征;
(24)使用Transformer解码融合之后的文本特征,采用交叉熵损失函数,训练Transformer,输出原始的遥感图像内容的文本描述。
步骤三、使用自评判序列训练(Self-Critical Sequence Training)提升文本描述质量
(31)删除步骤(24)所述原始的交叉熵损失函数,使用基于强化学习的自评判序列训练作为新的参数更新策略,强化学习的奖励值为自评判序列训练输出的遥感图像内容描述的文本质量评价指标,本实施例中,使用生成文本的CIDEr评价标准作为奖赏值;
(32)自评判序列训练的更新策略为最小化负期望奖励值,负期望奖励值表示如下:
Figure BDA0002334973050000061
其中θ为调整网络结构之后的Transformer的训练参数,Ws为当前生成文本,s和pθ表示对于当前生成文本中的每一个单词,选择当前最佳单词的概率并非100%,而是以概率pθ在词表中随机采样,r(*)为当前生成文本的CIDEr评价标准;
(33)输出自评判序列训练优化后的遥感图像内容描述。
步骤四、使用优化后的遥感图像内容描述网络,输出遥感图像内容描述文本
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于变分自注意力强化学习的遥感图像内容描述方法,其特征在于:该方法包括如下步骤:
步骤一,融合变分自编码器和卷积神经网络,构建遥感图像内容描述编码器;构建遥感图像分类数据集,并使用该数据集预训练遥感图像内容描述编码器;
步骤二,构建遥感图像内容描述解码器,输入遥感图像内容描述编码器编码得到的特征至解码器,融合解码器解码的特征,输出遥感图像内容描述文本;
步骤三,使用基于强化学习的自评判序列训练作为解码器参数更新策略,使用选定的语言质量评价指标作为奖励,提升文本描述质量,得到优化的遥感图像内容描述网络;
步骤四,使用优化后的遥感图像内容描述网络,输出遥感图像内容描述文本。
2.根据权利要求1所述的基于变分自注意力强化学习的遥感图像内容描述方法,其特征在于:所述步骤一,具体包括如下步骤:
1-1,使用在ImageNet上预训练的卷积神经网络作为内容描述编码器的骨架网络;构建遥感图像分类数据集,包含遥感图像和对应的类别;根据构建的数据集的类别数目,修改卷积神经网络的全连接层,使其输出的维度适应遥感图像分类数据集的类别数目;
1-2,获得卷积神经网络的自适应池化层输出,在自适应池化层之后对称于自适应池化层之前的网络层结构添加变分自编码器;
1-3,使用遥感图像分类数据集预训练融合变分自编码器的卷积神经网络,得到训练后的卷积神经网络;
1-4,使用训练好的卷积神经网络获得遥感图像的语义特征和空间特征,在空间特征上执行自注意力机制,使空间特征融合上下文信息,将语义特征和融合上下文信息的空间特征输入到解码器。
3.根据权利要求2所述的基于变分自注意力强化学习的遥感图像内容描述方法,其特征在于:所述步骤1-1,具体包括:删除骨架卷积神经网络结构中适应于ImageNet分类标准的全连接层;添加适应于已构建的遥感图像分类数据集分类标准的全连接层和柔性最大值层。
4.根据权利要求2所述的基于变分自注意力强化学习的遥感图像内容描述方法,其特征在于:所述步骤1-2,变分自编码器网络包含反卷积层、堆正则化、激活函数,其架构为卷积神经网络自适应池化层之前全部网络层的镜像架构。
5.根据权利要求2所述的基于变分自注意力强化学习的遥感图像内容描述方法,其特征在于:所述步骤1-3,具体包括如下:
1-3-1,将构建好的遥感图像分类数据集以一定的比例分割为训练集和验证集;将训练集作为融合变分自编码器的卷积神经网络的输入,网络的输出包含当前输入遥感图像的分类类别和变分自编码器对当前输入遥感图像进行还原的图像;
1-3-2,使用交叉熵损失、均方误差和KL散度的加和作为损失函数,均方误差和KL散度的系数作为超参数;交叉熵损失描述预测标签和真实标签的误差,均方误差描述变分自编码器还原的遥感图像和输入遥感图像的误差,KL散度描述变分自编码器中间特征概率分布和输入遥感图像特征概率分布的误差;
1-3-3,使用亚当优化器优化融合变分自编码器的卷积神经网络的参数,得到训练后的卷积神经网络。
6.根据权利要求5所述的基于变分自注意力强化学习的遥感图像内容描述方法,其特征在于:所述步骤1-3-3,网络的训练策略如下:每在训练集上训练一个周期,在验证集上计算当前网络的遥感图像分类精度和分类损失;分类精度为当前网络在验证集上进行遥感图像分类的准确率,分类损失为当前网络在验证集上的损失函数的数值;
在分类损失停止下降的周期超过预先设定的阈值时,降低亚当优化器的学习率,继续训练;在分类精度停止上升的周期超过预先设定的阈值时,停止训练,并保存融合变分自编码器的卷积神经网络的参数。
7.根据权利要求2所述的基于变分自注意力强化学习的遥感图像内容描述方法,其特征在于:所述步骤1-4,具体包括如下:
1-4-1,构建遥感图像内容描述数据集,包含遥感图像和对应的遥感图像内容描述;
1-4-2,利用步骤1-3得到的融合变分自编码器的卷积神经网络,加载网络参数,删除网络的变分自编码器部分,只保留卷积神经网络部分;
1-4-3,使用遥感图像内容描述数据集中的遥感图像作为输入,使用卷积神经网络中不包含最后一层的任意一层全连接层作为输入遥感图像的语义特征,使用卷积神经网络的自适应池化层作为输入遥感图像的空间特征;
1-4-4,在步骤1-4-3获得的遥感图像的空间特征上执行自注意力机制,使空间特征中的每一个子空间融合其余子空间的特征信息,获得融合上下文信息的空间特征表示;
1-4-5,将语义特征和融合了上下文信息的空间特征输入至解码器。
8.根据权利要求1-7任一所述的基于变分自注意力强化学习的遥感图像内容描述方法,其特征在于:所述步骤二,构建遥感图像内容描述解码器,输出遥感图像内容描述文本,包括如下步骤:
2-1,使用Transformer作为遥感图像内容描述解码器,Transformer子模块的数量可以任意指定;
2-2,调整Transformer的网络结构,添加Dropout,缓解在遥感图像内容描述数据集规模达不到预期的情况下的过拟合问题;添加残差连接,缓解深度神经网络的梯度消失问题并且加速模型的收敛;
2-3,在Transformer输出的文本特征上做自适应的特征融合;
2-4,使用Transformer解码融合之后的文本特征,采用交叉熵损失函数,训练Transformer,输出原始的遥感图像内容的文本描述。
9.根据权利要求8所述的基于变分自注意力强化学习的遥感图像内容描述方法,其特征在于:所述步骤2-2,具体为:在Transformer的子模块的每一层之后添加Dropout;在Transformer的相邻的子模块之间添加残差连接;
所述步骤2-3,具体为:获得Transformer的每一个子模块的输出;在Transfomer中的每一个子模块的输出之前设定权重,限制所有子模块的权重之和为1,将此权重作为Transfomer的训练参数;使用训练结束得到的权重计算Transformer全部子模块输出的加权线性输出,作为最终输出的文本特征。
10.根据权利要求8所述的基于变分自注意力强化学习的遥感图像内容描述方法,其特征在于:所述步骤三,具体包括如下:
3-1,删除步骤2-4所述交叉熵损失函数,使用基于强化学习的自评判序列训练作为新的解码器参数更新策略,强化学习的奖励值为自评判序列训练输出的遥感图像内容描述的文本质量评价指标;
3-2,自评判序列训练的更新策略为最小化负期望奖励值,负期望奖励值表示如下:
Figure FDA0002334973040000031
其中θ为调整网络结构之后的Transformer的训练参数,Ws为当前生成文本,s和pθ表示对于当前生成文本中的每一个单词,以概率pθ在词表中随机采样,r(*)为当前生成文本的CIDEr评价标准;
3-3,输出自评判序列训练优化后的遥感图像内容描述。
CN201911352556.6A 2019-12-25 2019-12-25 一种基于变分自注意力强化学习的遥感图像内容描述方法 Active CN111126282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911352556.6A CN111126282B (zh) 2019-12-25 2019-12-25 一种基于变分自注意力强化学习的遥感图像内容描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911352556.6A CN111126282B (zh) 2019-12-25 2019-12-25 一种基于变分自注意力强化学习的遥感图像内容描述方法

Publications (2)

Publication Number Publication Date
CN111126282A true CN111126282A (zh) 2020-05-08
CN111126282B CN111126282B (zh) 2023-05-12

Family

ID=70502326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911352556.6A Active CN111126282B (zh) 2019-12-25 2019-12-25 一种基于变分自注意力强化学习的遥感图像内容描述方法

Country Status (1)

Country Link
CN (1) CN111126282B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111582225A (zh) * 2020-05-19 2020-08-25 长沙理工大学 一种遥感图像场景分类方法及装置
CN111832501A (zh) * 2020-07-20 2020-10-27 中国人民解放军战略支援部队航天工程大学 一种面向卫星在轨应用的遥感影像文本智能描述方法
CN111860116A (zh) * 2020-06-03 2020-10-30 南京邮电大学 一种基于深度学习和特权信息的场景识别方法
CN111860235A (zh) * 2020-07-06 2020-10-30 中国科学院空天信息创新研究院 高低层特征融合的注意力遥感图像描述的生成方法及系统
CN112016493A (zh) * 2020-09-03 2020-12-01 科大讯飞股份有限公司 图像描述方法、装置、电子设备及存储介质
CN112069777A (zh) * 2020-06-15 2020-12-11 北京理工大学 一种基于骨架的二阶段数据到文本生成方法
CN112102324A (zh) * 2020-09-17 2020-12-18 中国科学院海洋研究所 一种基于深度U-Net模型的遥感图像海冰识别方法
CN112614561A (zh) * 2020-12-24 2021-04-06 北京工业大学 一种基于层级自注意力序列编码的脑ct医学报告生成方法
CN112685565A (zh) * 2020-12-29 2021-04-20 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN112766217A (zh) * 2021-01-30 2021-05-07 上海工程技术大学 基于解纠缠和特征级差异学习的跨模态行人重识别方法
CN113034469A (zh) * 2021-03-24 2021-06-25 东北大学 基于transformer的热成像检测管道内部缺陷的方法
CN113032558A (zh) * 2021-03-11 2021-06-25 昆明理工大学 融合维基知识的变分半监督百度百科分类方法
CN113052257A (zh) * 2021-04-13 2021-06-29 中国电子科技集团公司信息科学研究院 一种基于视觉转换器的深度强化学习方法及装置
CN113066028A (zh) * 2021-03-31 2021-07-02 山东师范大学 一种基于Transformer深度神经网络的图像去雾方法
CN113191285A (zh) * 2021-05-08 2021-07-30 山东大学 基于卷积神经网络和Transformer的河湖遥感图像分割方法及系统
CN113312925A (zh) * 2021-06-25 2021-08-27 中国人民解放军战略支援部队航天工程大学 一种基于自强化学习的遥感影像文本生成及优化方法
CN113449801A (zh) * 2021-07-08 2021-09-28 西安交通大学 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN113780149A (zh) * 2021-09-07 2021-12-10 北京航空航天大学 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN113988274A (zh) * 2021-11-11 2022-01-28 电子科技大学 一种基于深度学习的文本智能生成方法
CN114898121A (zh) * 2022-06-13 2022-08-12 河海大学 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法
CN115019182A (zh) * 2022-07-28 2022-09-06 北京卫星信息工程研究所 遥感图像目标细粒度识别方法、系统、设备及存储介质
CN115017418A (zh) * 2022-08-10 2022-09-06 北京数慧时空信息技术有限公司 基于强化学习的遥感影像推荐系统及方法
CN115424059A (zh) * 2022-08-24 2022-12-02 珠江水利委员会珠江水利科学研究院 一种基于像素级对比学习的遥感土地利用分类方法
CN116185182A (zh) * 2022-12-30 2023-05-30 天津大学 一种融合眼动注意力的可控图像描述生成系统及方法
CN112733725B (zh) * 2021-01-12 2023-09-22 西安电子科技大学 基于多级循环卷积自编码网络的高光谱图像变化检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766894A (zh) * 2017-11-03 2018-03-06 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN109685116A (zh) * 2018-11-30 2019-04-26 腾讯科技(深圳)有限公司 图像描述信息生成方法和装置及电子装置
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN110347860A (zh) * 2019-07-01 2019-10-18 南京航空航天大学 基于卷积神经网络的深度图像描述方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766894A (zh) * 2017-11-03 2018-03-06 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN109685116A (zh) * 2018-11-30 2019-04-26 腾讯科技(深圳)有限公司 图像描述信息生成方法和装置及电子装置
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN110347860A (zh) * 2019-07-01 2019-10-18 南京航空航天大学 基于卷积神经网络的深度图像描述方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沈祥清: "基于深度网络的遥感图像描述方法研究" *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581962B (zh) * 2020-05-14 2023-02-21 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111582225A (zh) * 2020-05-19 2020-08-25 长沙理工大学 一种遥感图像场景分类方法及装置
CN111860116A (zh) * 2020-06-03 2020-10-30 南京邮电大学 一种基于深度学习和特权信息的场景识别方法
CN112069777A (zh) * 2020-06-15 2020-12-11 北京理工大学 一种基于骨架的二阶段数据到文本生成方法
CN112069777B (zh) * 2020-06-15 2022-09-30 北京理工大学 一种基于骨架的二阶段数据到文本生成方法
CN111860235A (zh) * 2020-07-06 2020-10-30 中国科学院空天信息创新研究院 高低层特征融合的注意力遥感图像描述的生成方法及系统
CN111860235B (zh) * 2020-07-06 2021-08-06 中国科学院空天信息创新研究院 高低层特征融合的注意力遥感图像描述的生成方法及系统
CN111832501A (zh) * 2020-07-20 2020-10-27 中国人民解放军战略支援部队航天工程大学 一种面向卫星在轨应用的遥感影像文本智能描述方法
CN111832501B (zh) * 2020-07-20 2023-09-29 中国人民解放军战略支援部队航天工程大学 一种面向卫星在轨应用的遥感影像文本智能描述方法
CN112016493A (zh) * 2020-09-03 2020-12-01 科大讯飞股份有限公司 图像描述方法、装置、电子设备及存储介质
CN112102324A (zh) * 2020-09-17 2020-12-18 中国科学院海洋研究所 一种基于深度U-Net模型的遥感图像海冰识别方法
CN112614561A (zh) * 2020-12-24 2021-04-06 北京工业大学 一种基于层级自注意力序列编码的脑ct医学报告生成方法
CN112685565B (zh) * 2020-12-29 2023-07-21 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN112685565A (zh) * 2020-12-29 2021-04-20 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN112733725B (zh) * 2021-01-12 2023-09-22 西安电子科技大学 基于多级循环卷积自编码网络的高光谱图像变化检测方法
CN112766217A (zh) * 2021-01-30 2021-05-07 上海工程技术大学 基于解纠缠和特征级差异学习的跨模态行人重识别方法
CN112766217B (zh) * 2021-01-30 2022-08-26 上海工程技术大学 基于解纠缠和特征级差异学习的跨模态行人重识别方法
CN113032558A (zh) * 2021-03-11 2021-06-25 昆明理工大学 融合维基知识的变分半监督百度百科分类方法
CN113032558B (zh) * 2021-03-11 2023-08-29 昆明理工大学 融合维基知识的变分半监督百度百科分类方法
CN113034469A (zh) * 2021-03-24 2021-06-25 东北大学 基于transformer的热成像检测管道内部缺陷的方法
CN113034469B (zh) * 2021-03-24 2023-10-24 东北大学 基于transformer的热成像检测管道内部缺陷的方法
CN113066028A (zh) * 2021-03-31 2021-07-02 山东师范大学 一种基于Transformer深度神经网络的图像去雾方法
CN113052257B (zh) * 2021-04-13 2024-04-16 中国电子科技集团公司信息科学研究院 一种基于视觉转换器的深度强化学习方法及装置
CN113052257A (zh) * 2021-04-13 2021-06-29 中国电子科技集团公司信息科学研究院 一种基于视觉转换器的深度强化学习方法及装置
CN113191285A (zh) * 2021-05-08 2021-07-30 山东大学 基于卷积神经网络和Transformer的河湖遥感图像分割方法及系统
CN113312925A (zh) * 2021-06-25 2021-08-27 中国人民解放军战略支援部队航天工程大学 一种基于自强化学习的遥感影像文本生成及优化方法
CN113449801A (zh) * 2021-07-08 2021-09-28 西安交通大学 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN113780149B (zh) * 2021-09-07 2023-11-17 北京航空航天大学 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN113780149A (zh) * 2021-09-07 2021-12-10 北京航空航天大学 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN113988274A (zh) * 2021-11-11 2022-01-28 电子科技大学 一种基于深度学习的文本智能生成方法
CN113988274B (zh) * 2021-11-11 2023-05-12 电子科技大学 一种基于深度学习的文本智能生成方法
CN114898121A (zh) * 2022-06-13 2022-08-12 河海大学 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法
CN115019182B (zh) * 2022-07-28 2023-03-24 北京卫星信息工程研究所 遥感图像目标细粒度识别方法、系统、设备及存储介质
CN115019182A (zh) * 2022-07-28 2022-09-06 北京卫星信息工程研究所 遥感图像目标细粒度识别方法、系统、设备及存储介质
CN115017418B (zh) * 2022-08-10 2022-11-01 北京数慧时空信息技术有限公司 基于强化学习的遥感影像推荐系统及方法
CN115017418A (zh) * 2022-08-10 2022-09-06 北京数慧时空信息技术有限公司 基于强化学习的遥感影像推荐系统及方法
CN115424059B (zh) * 2022-08-24 2023-09-01 珠江水利委员会珠江水利科学研究院 一种基于像素级对比学习的遥感土地利用分类方法
CN115424059A (zh) * 2022-08-24 2022-12-02 珠江水利委员会珠江水利科学研究院 一种基于像素级对比学习的遥感土地利用分类方法
CN116185182A (zh) * 2022-12-30 2023-05-30 天津大学 一种融合眼动注意力的可控图像描述生成系统及方法
CN116185182B (zh) * 2022-12-30 2023-10-03 天津大学 一种融合眼动注意力的可控图像描述生成系统及方法

Also Published As

Publication number Publication date
CN111126282B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN111126282B (zh) 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN111160467B (zh) 一种基于条件随机场和内部语义注意力的图像描述方法
WO2020140487A1 (zh) 用于智能设备的人机交互语音识别方法及系统
CN105975573B (zh) 一种基于knn的文本分类方法
CN110598713A (zh) 基于深度神经网络的智能图像自动描述方法
CN110326002B (zh) 使用在线注意的序列处理
CN111078866B (zh) 一种基于序列到序列模型的中文文本摘要生成方法
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN111046670B (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
CN109214006A (zh) 图像增强的层次化语义表示的自然语言推理方法
CN110991515B (zh) 一种融合视觉上下文的图像描述方法
CN114638228A (zh) 一种基于词集自注意力的中文命名实体识别方法
CN112668305B (zh) 一种基于注意力机制的论文引用量预测方法与系统
CN116543289B (zh) 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法
CN112465929A (zh) 一种基于改进图卷积网络的图像生成方法
CN112528168A (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
CN113823322A (zh) 一种基于精简改进的Transformer模型的语音识别方法
JP2023051724A (ja) カスタマイズされたディープラーニングベースのテキスト修正のための方法及び装置
CN117371447A (zh) 命名实体识别模型的训练方法、装置及存储介质
CN116089593B (zh) 基于时序特征筛选编码模块的多回合人机对话方法和装置
de Bruin et al. Autoencoders as Tools for Program Synthesis
CN116610770B (zh) 一种基于大数据的司法领域类案推送方法
CN114139011A (zh) 一种基于编码器-双解码器的图像中文描述生成方法
US20230042234A1 (en) Method for training model, device, and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant