CN111832501A - 一种面向卫星在轨应用的遥感影像文本智能描述方法 - Google Patents
一种面向卫星在轨应用的遥感影像文本智能描述方法 Download PDFInfo
- Publication number
- CN111832501A CN111832501A CN202010698092.0A CN202010698092A CN111832501A CN 111832501 A CN111832501 A CN 111832501A CN 202010698092 A CN202010698092 A CN 202010698092A CN 111832501 A CN111832501 A CN 111832501A
- Authority
- CN
- China
- Prior art keywords
- model
- remote sensing
- lstm
- training
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 73
- 230000007246 mechanism Effects 0.000 claims abstract description 37
- 230000002787 reinforcement Effects 0.000 claims abstract description 18
- 238000010586 diagram Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 6
- 238000005520 cutting process Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 31
- 239000013598 vector Substances 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 23
- 239000003795 chemical substances by application Substances 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 230000001737 promoting effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Astronomy & Astrophysics (AREA)
- Multimedia (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向卫星在轨应用的遥感影像文本智能描述方法,包括以下步骤:S100、数据缩放裁剪:获取用于测试的遥感图像,并对遥感图像进行缩放裁剪;S200、输入Encoder模型处理:导入训练好的模型参数,重用模型以保证其有效性,经过多层卷积神经网络后输出特征图;S300、输入Decoder模型处理:在基于LSTM模型的Decoder模型中,通过LSTM模型实现图像的特征映射和词嵌入;S400、生成文本描述:在注意力机制及强化学习中自临界序列训练法的约束下生成遥感图像语义文本描述结果;S500、输出遥感图像文本描述结果。本发明引入残差网络结构、两层LSTM模型、自下而上和自上而下相结合的注意力机制及强化学习中自临界序列训练方法,针对遥感图像可迅速准确生成文本语义描述。
Description
技术领域
本发明属于遥感技术领域,具体涉及一种面向卫星在轨应用的遥感影像文本智能描述方法。
背景技术
遥感技术的飞速发展为地球表面信息获取提供了大量的数据积累,同时促进了以此为基础的遥感图像分析与处理、高分辨率数据集的建立、空间数据分析以及网络共享等相关技术的快速进步。此前,针对高分辨率遥感图像解译领域的处理方法基本完成了从面向像元分类到面向对象分类方法的转变,但解译层次尚停留在地物类别层,没有对场景进行推理和理解,无法解决分类结果和高层场景语义之间的“语义鸿沟”问题。因此,如何针对大量数据,从不同层次、不同角度对高分辨率遥感图像进行智能化解译已成为遥感领域最具挑战性的科学前沿之一。
随着深度学习中神经网络和自然语言处理理论和技术的不断成熟,对于多模态、时序性目标的处理提供了新思路,尤其是最近几年image caption(图像描述)技术的日益完善,在自然场景领域取得了比传统方式更理想的结果。因此,深度学习作为可能跨越低层语义和高层语义之间“语义鸿沟”的重要技术,成为解决该问题的首选方法之一。
发明内容
本发明的目的在于避免现有技术中的不足而提供一种面向卫星在轨应用的遥感影像文本智能描述方法,能够在不额外输入文本信息的情况下,针对遥感影像中的典型目标,快速准确地生成目标和场景之间的文本语义描述。
本发明的目的通过以下技术方案实现:提供一种面向卫星在轨应用的遥感影像文本智能描述方法,包括以下步骤:
S100、数据缩放裁剪:获取用于测试的遥感图像,并对遥感图像进行缩放裁剪;
S200、输入Encoder模型处理:导入训练好的模型参数,重用模型以保证其有效性,经过多层卷积神经网络后输出特征图;
S300、输入Decoder模型处理:在基于LSTM模型的Decoder模型中,通过LSTM模型实现图像的特征映射和词嵌入;
S400、生成文本描述:在注意力机制及强化学习中自临界序列训练法的约束下生成遥感图像语义文本描述结果;
S500、输出遥感图像文本描述结果。
作为进一步的改进,所述步骤S200中模型参数的训练过程如下:
S201、数据预处理:输入遥感图像训练数据集并进行缩放,将训练数据集中每幅图像对应的多个文本描述标签转化为序列号,且将该序列号与图像建立映射关系,完成图像和序列的匹配;
S202、构建Encoder模型:所述Encoder模型以VGG网络为框架,加入残差网络结构优化模型性能,通过加载预训练的VGG网络,并通过定义函数实现网络的重用,将VGG网络的输出作为原始图片的特征图表示;
S203、构建Decoder模型:以LSTM模型为基础,在初始化权重、定义超参数和输出占位符后,经过LSTM模型的遗忘阶段、选择记忆阶段和输出阶段,实现词嵌入与特征映射;
S204、模型训练:引入注意力机制,并通过强化学习中自临界序列训练法进行优化训练,促使参数向期望值收敛;
S205、输出训练好的模型参数。
作为进一步的改进,所述VGG网络使用五组卷积层和三组全连接层,且其卷积核的大小为3*3和1*1。
作为进一步的改进,所述LSTM模型包括存储单元C、遗忘门f、输入门i和输出门o:存储单元C用于对每个时间步骤的数据编码,其运行取决于门控单元,如果门的值为1,代表保留门控层中的值,如果门的值为0,则舍弃门控层中的值;遗忘门f决定是否忘记当前单元格值;输入门i决定是否应该读取其输入;输出门o决定是否输出新的单元格值;且门控单元的更新和输出遵循下列公式:
it=σ(Wix xt+Wim mt-1) (1)
ft=σ(Wfx xt+Wfm mt-1) (2)
ot=σ(Wox xt+Wom mt-1) (3)
式中,it表示输入门参数,σ代表非线性函数Sigmoid,xt表示t时刻数据的输入,mt-1表示t-1时刻反馈给SoftMax损失函数的值,Wix矩阵表示输入门的训练参数,Wim矩阵表示输入门对应m值的训练参数,ft表示遗忘门参数,Wfx矩阵表示遗忘门的训练参数,Wfm矩阵表示遗忘门对应m值的训练参数,ot表示输出门参数,Wox矩阵表示输出门的训练矩阵,Wom矩阵表示输出门对应m值的训练参数;
单元格值的更新和输出遵循如下公式:
ct=ft⊙ct-1+it⊙h(Wcxxt+Wcmmt-1) (4)
mt=ot⊙ct (5)
pt+1=Softmax(mt) (6)
式中,ct表示一个LSTM存储单元t时刻的值,ct-1表示该单元t-1时刻的值,⊙表示具有门值的乘积,Wcx矩阵表示一个LSTM存储单元的训练参数,Wcm矩阵表示一个LSTM存储单元对应m值的训练参数,mt表示t时刻反馈给SoftMax损失函数的值,h代表双曲正切tanh函数,pt+1表示将mt通过SoftMax损失函数生成概率分布pt。
作为进一步的改进,所述注意力机制选用自下而上和自上而下相结合的注意力机制:自下而上的注意力机制用于获得一组具有显著性的图像区域,每个区域由汇集的卷积特征向量表示;自上而下的注意力机制使用基于任务的上下文来预测图像区域上的注意力分布,然后将附属特征向量计算为所有区域上的图像特征的加权平均,从而更好地提取出并使用特征图的特征信息。
作为进一步的改进,所述自下而上的注意力机制,针对遥感图像的卷积神经网络,在提取特征图的特征信息过程中,具体表现为:
第一步、通过卷积核在图像上滑动,在每个空间位置预测出类别,对多种比例目标的边界框进行细化,并使用交并比阈值对每个对象类别执行非极大值抑制;
第二步、将提取出的显著区域合并进行批量处理,输入至卷积神经网络最后一层,并且将每个选择的区域的卷积特征与真实特征串联,馈送到定义类别属性的SoftMax层中,最终获得了更为精准的预选区域。
作为进一步的改进,所述自上而下的视觉注意力机制具有两层的LSTM模型,第一层用于实现自上而下的注意力,第二层用于实现语言模型,且所述自上而下的视觉注意力机制遵循以下公式:
ht=LSTM(xt,ht-1) (7)
式中,xt和ht分别是LSTM的输入向量和输出向量,ht-1表示上一时刻LSTM的输出向量,则第一层LSTM模型公式如下:
at=softmax(at) (10)
式中,表示第一层LSTM的输入向量,根据LSTM模型、特征图向量和词嵌入计算得到,表示特征图的平均池化卷积特征值,We是词嵌入矩阵,Πt是时间t内输入词的one-hot编码,ai,t是特征图中的关注度权重,Wva、Wha、分别表示学习参数,vi表示第i个区域特征图的池化卷积特征值,αt表示vi对应注意力权重经SoftMax损失函数计算输出的值,表示第一层LSTM模型t时刻输入到第二层LSTM模型的池化卷积特征值,第一层的输出和图像特征共同组成了第二层的输出:
式中,表示t时刻第二层LSTM模型即语言生成模型LSTM模块的输入向量,表示t时刻第一层LSTM模型的输出向量,y1:T指代单词序列(y1,...,yt),p(yt|y1:t-1)指代每个时间步骤t可能输出的条件分布,p(y1:T)指完整的条件分布,Wp和bp分别是学习的权重和偏差。
作为进一步的改进,所述步骤S204中通过强化学习中自临界序列训练法进行优化训练,促使参数向期望值收敛具体表现为:生成序列的LSTM看作一个智能体,单词和图像特征看作环境,网络参数θ定义为策略pθ,推测动作则是预测的下一个单词,每经历一个动作,智能体更新内部状态,每正确生成一个单词序列区块链,智能体得到一个正向激励,并且通过greedy decoding得到奖励的基线,从而提高模型的训练效果,促使参数向期望值收敛。
本发明在Encoder模型中以VGG网络为框架,引入残差网络结构来提高特征图质量;在Decoder模型中以LSTM模型为基础,加入自下而上和自上而下相结合的注意力机制以提高目标描述的准确性,同时为提高训练质量,引入强化学习中自临界序列训练方法,有效加速了训练模型参数的收敛速度,针对遥感图像可迅速确定典型目标,进而生成准确的文本语义描述。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明一种面向卫星在轨应用的遥感影像文本智能描述方法的流程图。
图2是本发明模型参数训练过程的流程图。
图3是本发明LSTM模型的网络结构图。
图4是本发明自上而下的视觉注意力机制的网络结构图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施例对本发明作进一步详细的描述,需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
如图1所示,本发明实施例提供的一种面向卫星在轨应用的遥感影像文本智能描述方法,包括以下步骤:
S100、数据缩放裁剪:获取用于测试的遥感图像,并对遥感图像进行缩放裁剪;
S200、输入Encoder(编码器)模型处理:导入训练好的模型参数,重用模型以保证其有效性,经过多层卷积神经网络后输出特征图;
S300、输入Decoder(解码器)模型处理:在基于LSTM(长短期记忆,Long Short-Term Memory)模型的Decoder模型中,通过LSTM模型实现图像的特征映射和词嵌入;
S400、生成文本描述:在注意力机制及强化学习中自临界序列训练法(SCST)的约束下生成遥感图像语义文本描述结果;需要说明的是,该过程依次通过调用损失函数、引入注意力机制和经优化器计算实现;
S500、输出遥感图像文本描述结果。
参见图2,作为进一步优选的实施方式,步骤S200中模型参数的训练过程具体如下:
S201、数据预处理
在数据预处理部分,首先输入遥感图像训练数据集,并以图像中心为基准进行缩放,此步目的是将图像转化为统一大小,便于后续批量卷积操作和特征图提取;其次,获取标签中的所有单词,加入具有序列性的特殊词构成模型训练所需的单词库;接着,由于训练集中每幅图像对应了多个文本描述标签,这些标签分别以图像中不同物体作为主体进行描述,为便于训练,将标签转化为序列号并与图像建立映射关系,完成图像和序列的匹配。理论上图像对应的标签越丰富,训练的效果就越好,但实际情况中受限于模型框架,每幅图像对应的标签约有5条,每个标签不超过25个单词,因为标签内容过于丰富将超过模型的匹配能力,导致生成的描述质量下降。最后将匹配完毕的图像和标签序列输入至Encoder模型中。
S202、构建Encoder模型
Encoder模型的主要功能是通过卷积神经网络(CNN)提取图像的特征图,本发明中Encoder模型以VGG网络为框架,加入残差网络结构优化模型性能,通过加载预训练的VGG网络,并通过定义函数实现网络的重用,将VGG网络的输出作为原始图片的特征图表示;需要说明的是,上述VGG网络优选使用五组卷积层和三组全连接层,且其卷积核的大小为3*3和1*1。通过该设置,VGG网络结构清晰工整,便于优化改进,且使得模型拥有更多非线性变换,增加特征学习能力并降低计算量,同时,VGG网络具有预训练模型,在此基础上继续训练能够加快收敛速度。
鉴于卷积神经网络中网络层数越多,能够提取到的特征越丰富,且提取出的特征更具有语义信息,但是如果简单地增加深度,会导致梯度弥散或梯度爆炸现象,传统解决方法是加入正则初始化或正则化层,但是不可避免的会出现模型退化现象,究其原因,是求解器难以利用多层网络来拟合参数,故此,为防止出现上述问题,本发明采用了残差网络结构的思想,残差网络结构的模型参照现有技术,此处不以一一展开论述。
此处,Encoder模型以VGG网络为框架,加入残差网络结构,构成本发明Encoder部分的残差神经网络,预处理后的图像经过该网络,能够输出充分表示原始图像的特征图,作为Decoder模型的输入生成文本描述。
S203、构建Decoder模型
Decoder模型以LSTM模型为基础,在初始化权重、定义超参数和输出占位符后,经过LSTM模型的遗忘阶段、选择记忆阶段和输出阶段,实现词嵌入与特征映射。需要说明的是,初始化权重、定义超参数和输出占位符参照LSTM模型在人工智能自然语言处理领域的基本处理方法实现。LSTM模型的网络结构图参见图3,该LSTM模型包括存储单元C、遗忘门f、输入门i和输出门o,存储单元C是模型的核心,它可以对每个时间步骤的数据编码,其运行取决于门控单元,如果门的值为1,代表保留门控层中的值,如果门的值为0,则舍弃门控层中的值;遗忘门f决定是否忘记当前单元格值;输入门i决定是否应该读取其输入;输出门o决定是否输出新的单元格值;且门控单元的更新和输出遵循下列公式:
it=σ(Wix xt+Wim mt-1) (1)
ft=σ(Wfxxt+Wfmmt-1) (2)
ot=σ(Woxxt+Wommt-1) (3)
式中,it表示输入门参数,σ代表非线性函数Sigmoid,xt表示t时刻数据的输入,mt-1表示t-1时刻反馈给SoftMax损失函数的值,Wix矩阵表示输入门的训练参数,Wim矩阵表示输入门对应m值的训练参数,ft表示遗忘门参数,Wfx矩阵表示遗忘门的训练参数,Wfm矩阵表示遗忘门对应m值的训练参数,ot表示输出门参数,Wox矩阵表示输出门的训练矩阵,Wom矩阵表示输出门对应m值的训练参数;
单元格值的更新和输出遵循如下公式:
ct=ft⊙ct-1+it⊙h(Wcxxt+Wcmmt-1) (4)
mt=ot⊙ct (5)
pt+1=Softmax(mt) (6)
式中,ct表示一个LSTM存储单元t时刻的值,ct-1表示该单元t-1时刻的值,⊙表示具有门值的乘积,Wcx矩阵表示一个LSTM存储单元的训练参数,Wcm矩阵表示一个LSTM存储单元对应m值的训练参数,mt表示t时刻反馈给SoftMax损失函数的值,h代表双曲正切tanh函数,pt+1表示将mt通过SoftMax损失函数生成概率分布pt。
S204、模型训练
鉴于现有遥感影像处理中存在干扰噪声多、目标背景复杂和目标特点不丰富等问题,本发明引入注意力机制和强化学习中自临界序列训练法,该注意力机制选用自下而上和自上而下相结合的注意力机制:自下而上的注意力机制用于获得一组具有显著性的图像区域,每个区域由汇集的卷积特征向量表示;自上而下的注意力机制使用基于任务的上下文来预测图像区域上的注意力分布,然后将附属特征向量计算为所有区域上的图像特征的加权平均,从而更好地提取出并使用特征图的特征信息。
对于给定的图像,本发明可以将图像特征变成特征集合作为输入,使得每个图像特征表征图像的显著区域。通过采用的自下而上的注意力机制,针对遥感图像的卷积神经网络,在提取特征图的过程中,第一步通过卷积核在图像上滑动,在每个空间位置预测出类别,对多种比例目标的边界框进行细化,并使用交并比(IOU,Intersection Over Union)阈值对每个对象类别执行非极大值抑制;第二步将提取出的显著区域合并进行批量处理,输入至卷积神经网络最后一层,并且将每个选择的区域的卷积特征与真实特征串联,馈送到定义类别属性的SoftMax层中,最终获得了更为精准的预选区域。
本发明自上而下的视觉注意力机制具有两层的LSTM模型,第一层用于实现自上而下的注意力,第二层用于实现语言模型,网络结构参见图4所示,该自上而下的视觉注意力机制遵循以下公式:
ht=LSTM(xt,ht-1) (7)
式中,xt和ht分别是LSTM的输入向量和输出向量,ht-1表示上一时刻LSTM的输出向量,则第一层LSTM模型公式如下:
αt=softmax(at) (10)
式中,表示第一层LSTM的输入向量,根据LSTM模型、特征图向量和词嵌入计算得到,表示特征图的平均池化卷积特征值,We是词嵌入矩阵,Πt是时间t内输入词的one-hot编码(一位有效编码),ai,t是特征图中的关注度权重,Wva、Wha、分别表示学习参数,vi表示第i个区域特征图的池化卷积特征值,αt表示vi对应注意力权重经SoftMax损失函数计算输出的值,表示第一层LSTM模型t时刻输入到第二层LSTM模型的池化卷积特征值,第一层的输出和图像特征共同组成了第二层的输出:
式中,表示t时刻第二层LSTM模型即语言生成模型LSTM模块的输入向量,表示t时刻第一层LSTM模型的输出向量,y1:T指代单词序列(y1,...,yt),p(yt|y1:t-1)指代每个时间步骤t可能输出的条件分布,p(y1:T)指完整的条件分布,Wp和bp分别是学习的权重和偏差。
通过该设置,基于自下而上的视觉注意力机制获取到图像感兴趣区域并提取图像实现特征编码,基于自上而下的视觉注意力机制用于学习调整特征权重,实现对图像目标的准确关注。
进一步地,本发明采用强化学习中自临界序列训练法进行优化训练,促使参数向期望值收敛,具体内容如下:
生成序列的LSTM看作一个智能体(人工智能术语,agent),单词和图像特征看作环境,网络参数θ定义为策略pθ,推测动作则是预测的下一个单词,每经历一个动作,agent更新内部状态,每正确生成一个单词序列区块链(EOS,Enterprise Operation System),agent得到一个正向激励,并且通过greedy decoding(贪婪解码,强化学习在自然语言处理领域中求基线的一种处理方法)得到奖励的基线,从而提高模型的训练效果,促使参数向期望值收敛:
式中,L(θ)表示强化学习在序列生成问题中的期望值,此处的训练目标是最小化负奖励期望,表示t时刻从模型采样的单词,r(ws)表示t时刻采样单词的奖励值,表示在策略pθ下对t时刻采样单词的奖励值求期望值,实际应用中,
L(θ)≈-r(ws),ws~pθ (16)
使用强化算法计算上述目标函数的梯度,则有:
在实践中,期望梯度可以通过使用单个蒙特卡洛抽样从pθ中抽样ws近似,对于minibatch(迷你批处理)中每个训练样例:
强化算法给出的策略可以推广计算每个动作值对于参考值或基线b的奖励:
这里的基线b可以是不依赖于动作ws的任意函数,因为在这种情况下,基线b不改变期望梯度,同时可以减少梯度估计的方差。对于每个训练样例,采用单个采样ws~pθ近似估计期望梯度:
根据链式法则和编码过程中注意力参数模型pθ,
其中,st是注意力模型中SoftMax损失函数的输入,使用带有基线b的强化算法,
SCST的思想是用当前模型在测试阶段生成词的奖励作为基线b,这样梯度可以改写为:
其中,即在测试阶段使用greedy decoding取概率最大的词来生成句子。使用此方法,在生成句子过程中,比基线b好的句子能够获得正向权重,反之则会被抑制,从而提高模型的训练效果,促使参数向期望值收敛。
S205、输出训练好的模型参数。
通过上述过程,本发明在自然场景图像标题生成技术image caption的基础上,对Encoder和Decoder做出优化调整,通过在Encoder特征提取网络中引入残差网络结果来提高特征图质量,在Decoder中加入注意力机制以提高目标描述的准确性,同时为提高训练质量,引入强化学习中自临界序列训练方法,有效加速了训练模型参数的收敛速度。
综上所述本发明具有如下优点:
1)本发明充分考虑遥感图像目标复杂、种类繁多的特征,以VGG模型为基础,引入残差网络结构,用于高分辨率遥感影像的特征图提取;根据特征图设计编码器(Encoder)和解码器(Decoder),构建两层LSTM模型实现对影像的描述,该方法充分考虑了遥感影像地物信息丰富,场景复杂多样的特点,能够快速准确地生成目标和场景之间的文本语义描述。
2)本发明采用自下而上和自上而下相结合的注意力机制:在典型目标和其他显著图像区域的基础上进行计算,由自下而上的注意力机制获得一组具有显著性的图像区域,由汇集的卷积特征向量进行表示,将卷积特征与真实特征串联实现特征编码,能够获得更为准确的预选区域;自上而下的注意力机制使用基于任务的上下文来预测图像区域上的注意力分布,然后将附属特征向量计算为所有区域上的图像特征,能够更好地提取并使用目标的特征信息,生成更准确的描述。
3)本发明所采用的自上而下视觉注意模型中包括两层LSTM模型:第一层通过计算特征编码和词嵌入矩阵实现自上而下的注意力,第二层结合第一层的输出和图像特征实现语言模型,进而快速准确的生成文本语义描述。
4)采用强化学习中自临界序列训练法SCST加速模型收敛:将生成序列的LSTM看作一个智能体agent,每生成一个正确的单词描述赋予网络一个正向权重,并且通过greedydecoding得到奖励的基线,避免了单独对强化学习模型进行训练,因此可以在不额外增加大量网络参数的条件下,加速网络的收敛,进而提高生成描述的质量。
上面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,不能理解为对本发明保护范围的限制。
总之,本发明虽然列举了上述优选实施方式,但是应该说明,虽然本领域的技术人员可以进行各种变化和改型,除非这样的变化和改型偏离了本发明的范围,否则都应该包括在本发明的保护范围内。
Claims (8)
1.一种面向卫星在轨应用的遥感影像文本智能描述方法,其特征在于,包括以下步骤:
S100、数据缩放裁剪:获取用于测试的遥感图像,并对遥感图像进行缩放裁剪;
S200、输入Encoder模型处理:导入训练好的模型参数,重用模型以保证其有效性,经过多层卷积神经网络后输出特征图;
S300、输入Decoder模型处理:在基于LSTM模型的Decoder模型中,通过LSTM模型实现图像的特征映射和词嵌入;
S400、生成文本描述:在注意力机制及强化学习中自临界序列训练法的约束下生成遥感图像语义文本描述结果;
S500、输出遥感图像文本描述结果。
2.根据权利要求1所述的面向卫星在轨应用的遥感影像文本智能描述方法,其特征在于,所述步骤S200中模型参数的训练过程如下:
S201、数据预处理:输入遥感图像训练数据集并进行缩放,将训练数据集中每幅图像对应的多个文本描述标签转化为序列号,且将该序列号与图像建立映射关系,完成图像和序列的匹配;
S202、构建Encoder模型:所述Encoder模型以VGG网络为框架,加入残差网络结构优化模型性能,通过加载预训练的VGG网络,并通过定义函数实现网络的重用,将VGG网络的输出作为原始图片的特征图表示;
S203、构建Decoder模型:以LSTM模型为基础,在初始化权重、定义超参数和输出占位符后,经过LSTM模型的遗忘阶段、选择记忆阶段和输出阶段,实现词嵌入与特征映射;
S204、模型训练:引入注意力机制,并通过强化学习中自临界序列训练法进行优化训练,促使参数向期望值收敛;
S205、输出训练好的模型参数。
3.根据权利要求2所述的面向卫星在轨应用的遥感影像文本智能描述方法,其特征在于,所述VGG网络使用五组卷积层和三组全连接层,且其卷积核的大小为3*3和1*1。
4.根据权利要求3所述的面向卫星在轨应用的遥感影像文本智能描述方法,其特征在于,所述LSTM模型包括存储单元C、遗忘门f、输入门i和输出门o:存储单元C用于对每个时间步骤的数据编码,其运行取决于门控单元,如果门的值为1,代表保留门控层中的值,如果门的值为0,则舍弃门控层中的值;遗忘门f决定是否忘记当前单元格值;输入门i决定是否应该读取其输入;输出门o决定是否输出新的单元格值;且门控单元的更新和输出遵循下列公式:
it=σ(Wixxt+Wimmt-1) (1)
ft=σ(Wfxxt+Wfmmt-1) (2)
ot=σ(Woxxt+Wommt-1) (3)
式中,it表示输入门参数,σ代表非线性函数Sigmoid,xt表示t时刻数据的输入,mt-1表示t-1时刻反馈给SoftMax损失函数的值,Wix矩阵表示输入门的训练参数,Wim矩阵表示输入门对应m值的训练参数,ft表示遗忘门参数,Wfx矩阵表示遗忘门的训练参数,Wfm矩阵表示遗忘门对应m值的训练参数,ot表示输出门参数,Wox矩阵表示输出门的训练矩阵,Wom矩阵表示输出门对应m值的训练参数;
单元格值的更新和输出遵循如下公式:
ct=ft⊙ct-1+it⊙h(Wcxxt+Wcmmt-1) (4)
mt=ot⊙ct (5)
pt+1=Softmax(mt) (6)
式中,ct表示一个LSTM存储单元t时刻的值,ct-1表示该单元t-1时刻的值,⊙表示具有门值的乘积,Wcx矩阵表示一个LSTM存储单元的训练参数,Wcm矩阵表示一个LSTM存储单元对应m值的训练参数,mt表示t时刻反馈给SoftMax损失函数的值,h代表双曲正切tanh函数,pt+1表示将mt通过SoftMax损失函数生成概率分布pt。
5.根据权利要求4所述的面向卫星在轨应用的遥感影像文本智能描述方法,其特征在于,所述注意力机制选用自下而上和自上而下相结合的注意力机制:自下而上的注意力机制用于获得一组具有显著性的图像区域,每个区域由汇集的卷积特征向量表示;自上而下的注意力机制使用基于任务的上下文来预测图像区域上的注意力分布,然后将附属特征向量计算为所有区域上的图像特征的加权平均,从而更好地提取出并使用特征图的特征信息。
6.根据权利要求5所述的面向卫星在轨应用的遥感影像文本智能描述方法,其特征在于,所述自下而上的注意力机制,针对遥感图像的卷积神经网络,在提取特征图的特征信息过程中,具体表现为:
第一步、通过卷积核在图像上滑动,在每个空间位置预测出类别,对多种比例目标的边界框进行细化,并使用交并比阈值对每个对象类别执行非极大值抑制;
第二步、将提取出的显著区域合并进行批量处理,输入至卷积神经网络最后一层,并且将每个选择的区域的卷积特征与真实特征串联,馈送到定义类别属性的SoftMax层中,最终获得了更为精准的预选区域。
7.根据权利要求6所述的面向卫星在轨应用的遥感影像文本智能描述方法,其特征在于,所述自上而下的视觉注意力机制具有两层的LSTM模型,第一层用于实现自上而下的注意力,第二层用于实现语言模型,且所述自上而下的视觉注意力机制遵循以下公式:
ht=LSTM(xt,ht-1) (7)
式中,xt和ht分别是LSTM的输入向量和输出向量,ht-1表示上一时刻LSTM的输出向量,则第一层LSTM模型公式如下:
αt=softmax(at) (10)
式中,表示第一层LSTM的输入向量,根据LSTM模型、特征图向量和词嵌入计算得到,表示特征图的平均池化卷积特征值,We是词嵌入矩阵,Πt是时间t内输入词的one-hot编码,ai,t是特征图中的关注度权重,Wva、Wha、分别表示学习参数,vi表示第i个区域特征图的池化卷积特征值,αt表示vi对应注意力权重经SoftMax损失函数计算输出的值,表示第一层LSTM模型t时刻输入到第二层LSTM模型的池化卷积特征值,第一层的输出和图像特征共同组成了第二层的输出:
8.根据权利要求7所述的面向卫星在轨应用的遥感影像文本智能描述方法,其特征在于,所述步骤S204中通过强化学习中自临界序列训练法进行优化训练,促使参数向期望值收敛具体表现为:生成序列的LSTM看作一个智能体,单词和图像特征看作环境,网络参数θ定义为策略pθ,推测动作则是预测的下一个单词,每经历一个动作,智能体更新内部状态,每正确生成一个单词序列区块链,智能体得到一个正向激励,并且通过greedy decoding得到奖励的基线,从而提高模型的训练效果,促使参数向期望值收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010698092.0A CN111832501B (zh) | 2020-07-20 | 2020-07-20 | 一种面向卫星在轨应用的遥感影像文本智能描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010698092.0A CN111832501B (zh) | 2020-07-20 | 2020-07-20 | 一种面向卫星在轨应用的遥感影像文本智能描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111832501A true CN111832501A (zh) | 2020-10-27 |
CN111832501B CN111832501B (zh) | 2023-09-29 |
Family
ID=72924131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010698092.0A Active CN111832501B (zh) | 2020-07-20 | 2020-07-20 | 一种面向卫星在轨应用的遥感影像文本智能描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832501B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508096A (zh) * | 2020-12-08 | 2021-03-16 | 电子科技大学 | 一种基于几何自注意力机制的图像自动标注方法 |
CN112926729A (zh) * | 2021-05-06 | 2021-06-08 | 中国科学院自动化研究所 | 人机对抗智能体策略制定方法 |
CN112949711A (zh) * | 2021-02-26 | 2021-06-11 | 中国科学院软件研究所 | 面向软件定义卫星的神经网络模型可复用训练方法、装置 |
CN112948604A (zh) * | 2021-02-01 | 2021-06-11 | 西北工业大学 | 具备多语义层级注意能力的遥感影像文本描述生成方法 |
CN113140023A (zh) * | 2021-04-29 | 2021-07-20 | 南京邮电大学 | 一种基于空间注意力的文本到图像生成方法及系统 |
CN113139644A (zh) * | 2021-03-24 | 2021-07-20 | 北京科技大学顺德研究生院 | 一种基于深度蒙特卡洛树搜索的信源导航方法及装置 |
CN113239886A (zh) * | 2021-06-04 | 2021-08-10 | 合肥工业大学智能制造技术研究院 | 基于跨语言图像变化描述的井下管道泄漏描述方法及装置 |
CN113297855A (zh) * | 2021-06-25 | 2021-08-24 | 中国人民解放军战略支援部队航天工程大学 | 一种面向卫星在轨应用的嵌入式遥感影像文本生成方法 |
CN113312925A (zh) * | 2021-06-25 | 2021-08-27 | 中国人民解放军战略支援部队航天工程大学 | 一种基于自强化学习的遥感影像文本生成及优化方法 |
CN113420680A (zh) * | 2021-06-25 | 2021-09-21 | 中国人民解放军战略支援部队航天工程大学 | 一种基于gru注意力的遥感影像区域关注与文本生成方法 |
CN113627424A (zh) * | 2021-07-14 | 2021-11-09 | 重庆师范大学 | 一种协同门控循环融合lstm图像标注方法 |
CN113743515A (zh) * | 2021-09-08 | 2021-12-03 | 感知天下(北京)信息科技有限公司 | 基于自监督自学习特征点的遥感影像特征匹配方法 |
CN114882488A (zh) * | 2022-05-18 | 2022-08-09 | 北京理工大学 | 基于深度学习与注意力机制的多源遥感图像信息处理方法 |
CN116912851A (zh) * | 2023-07-25 | 2023-10-20 | 京东方科技集团股份有限公司 | 图像处理方法、装置、电子设备和可读存储介质 |
CN117197701A (zh) * | 2023-11-07 | 2023-12-08 | 广州天地林业有限公司 | 基于图像分析的保护区环境空间特征分析方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619313A (zh) * | 2019-09-20 | 2019-12-27 | 西安电子科技大学 | 遥感图像判别性描述生成方法 |
CN111126282A (zh) * | 2019-12-25 | 2020-05-08 | 中国矿业大学 | 一种基于变分自注意力强化学习的遥感图像内容描述方法 |
CN111275780A (zh) * | 2020-01-09 | 2020-06-12 | 北京搜狐新媒体信息技术有限公司 | 人物图像的生成方法及装置 |
-
2020
- 2020-07-20 CN CN202010698092.0A patent/CN111832501B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619313A (zh) * | 2019-09-20 | 2019-12-27 | 西安电子科技大学 | 遥感图像判别性描述生成方法 |
CN111126282A (zh) * | 2019-12-25 | 2020-05-08 | 中国矿业大学 | 一种基于变分自注意力强化学习的遥感图像内容描述方法 |
CN111275780A (zh) * | 2020-01-09 | 2020-06-12 | 北京搜狐新媒体信息技术有限公司 | 人物图像的生成方法及装置 |
Non-Patent Citations (2)
Title |
---|
周星光;靳华中;徐雨东;李晴晴;胡满;: "基于多尺度特征的图像描述生成模型", 湖北工业大学学报, no. 02 * |
姚义;王诗珂;陈希豪;林宇翩;: "基于深度学习的结构化图像标注研究", 电脑知识与技术, no. 33 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508096A (zh) * | 2020-12-08 | 2021-03-16 | 电子科技大学 | 一种基于几何自注意力机制的图像自动标注方法 |
CN112508096B (zh) * | 2020-12-08 | 2022-03-25 | 电子科技大学 | 一种基于几何自注意力机制的图像自动标注方法 |
CN112948604A (zh) * | 2021-02-01 | 2021-06-11 | 西北工业大学 | 具备多语义层级注意能力的遥感影像文本描述生成方法 |
CN112949711A (zh) * | 2021-02-26 | 2021-06-11 | 中国科学院软件研究所 | 面向软件定义卫星的神经网络模型可复用训练方法、装置 |
CN112949711B (zh) * | 2021-02-26 | 2023-10-27 | 中国科学院软件研究所 | 面向软件定义卫星的神经网络模型可复用训练方法、装置 |
CN113139644B (zh) * | 2021-03-24 | 2024-02-09 | 北京科技大学顺德研究生院 | 一种基于深度蒙特卡洛树搜索的信源导航方法及装置 |
CN113139644A (zh) * | 2021-03-24 | 2021-07-20 | 北京科技大学顺德研究生院 | 一种基于深度蒙特卡洛树搜索的信源导航方法及装置 |
CN113140023A (zh) * | 2021-04-29 | 2021-07-20 | 南京邮电大学 | 一种基于空间注意力的文本到图像生成方法及系统 |
CN113140023B (zh) * | 2021-04-29 | 2023-09-15 | 南京邮电大学 | 一种基于空间注意力的文本到图像生成方法及系统 |
CN112926729B (zh) * | 2021-05-06 | 2021-08-03 | 中国科学院自动化研究所 | 人机对抗智能体策略制定方法 |
CN112926729A (zh) * | 2021-05-06 | 2021-06-08 | 中国科学院自动化研究所 | 人机对抗智能体策略制定方法 |
CN113239886A (zh) * | 2021-06-04 | 2021-08-10 | 合肥工业大学智能制造技术研究院 | 基于跨语言图像变化描述的井下管道泄漏描述方法及装置 |
CN113239886B (zh) * | 2021-06-04 | 2024-03-19 | 合肥工业大学智能制造技术研究院 | 基于跨语言图像变化描述的井下管道泄漏描述方法及装置 |
CN113297855A (zh) * | 2021-06-25 | 2021-08-24 | 中国人民解放军战略支援部队航天工程大学 | 一种面向卫星在轨应用的嵌入式遥感影像文本生成方法 |
CN113312925A (zh) * | 2021-06-25 | 2021-08-27 | 中国人民解放军战略支援部队航天工程大学 | 一种基于自强化学习的遥感影像文本生成及优化方法 |
CN113420680A (zh) * | 2021-06-25 | 2021-09-21 | 中国人民解放军战略支援部队航天工程大学 | 一种基于gru注意力的遥感影像区域关注与文本生成方法 |
CN113297855B (zh) * | 2021-06-25 | 2023-08-18 | 中国人民解放军战略支援部队航天工程大学 | 一种面向卫星在轨应用的嵌入式遥感影像文本生成方法 |
CN113627424A (zh) * | 2021-07-14 | 2021-11-09 | 重庆师范大学 | 一种协同门控循环融合lstm图像标注方法 |
CN113627424B (zh) * | 2021-07-14 | 2023-09-12 | 重庆师范大学 | 一种协同门控循环融合lstm图像标注方法 |
CN113743515A (zh) * | 2021-09-08 | 2021-12-03 | 感知天下(北京)信息科技有限公司 | 基于自监督自学习特征点的遥感影像特征匹配方法 |
CN114882488A (zh) * | 2022-05-18 | 2022-08-09 | 北京理工大学 | 基于深度学习与注意力机制的多源遥感图像信息处理方法 |
CN116912851A (zh) * | 2023-07-25 | 2023-10-20 | 京东方科技集团股份有限公司 | 图像处理方法、装置、电子设备和可读存储介质 |
CN117197701A (zh) * | 2023-11-07 | 2023-12-08 | 广州天地林业有限公司 | 基于图像分析的保护区环境空间特征分析方法及系统 |
CN117197701B (zh) * | 2023-11-07 | 2024-02-13 | 广州天地林业有限公司 | 基于图像分析的保护区环境空间特征分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111832501B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111832501A (zh) | 一种面向卫星在轨应用的遥感影像文本智能描述方法 | |
Moreno-Barea et al. | Improving classification accuracy using data augmentation on small data sets | |
Gu et al. | Stack-captioning: Coarse-to-fine learning for image captioning | |
Turhan et al. | Recent trends in deep generative models: a review | |
CN110188358B (zh) | 自然语言处理模型的训练方法及装置 | |
CN112818159B (zh) | 一种基于生成对抗网络的图像描述文本生成方法 | |
CN109190684B (zh) | 基于素描及结构生成对抗网络的sar图像样本生成方法 | |
CN111723674B (zh) | 基于马尔科夫链蒙特卡洛与变分推断的半贝叶斯深度学习的遥感图像场景分类方法 | |
WO2022217849A1 (en) | Methods and systems for training neural network model for mixed domain and multi-domain tasks | |
CN117475038B (zh) | 一种图像生成方法、装置、设备及计算机可读存储介质 | |
CN111741330A (zh) | 一种视频内容评估方法、装置、存储介质及计算机设备 | |
CN112926655B (zh) | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 | |
CN114494718A (zh) | 一种图像分类方法、装置、存储介质及终端 | |
CN116051683B (zh) | 一种基于风格自组的遥感图像生成方法、存储介质及设备 | |
US20220188605A1 (en) | Recurrent neural network architectures based on synaptic connectivity graphs | |
US20240135610A1 (en) | Image generation using a diffusion model | |
Sang et al. | Discriminative deep feature learning for facial emotion recognition | |
CN113610108B (zh) | 一种基于改进残差网络的水稻害虫识别方法 | |
CN108959512B (zh) | 一种基于属性增强注意力模型的图像描述网络及技术 | |
CN114332565A (zh) | 一种基于分布估计的条件生成对抗网络文本生成图像方法 | |
Zia et al. | Text-to-image generation with attention based recurrent neural networks | |
Yan et al. | Image captioning based on a hierarchical attention mechanism and policy gradient optimization | |
CN115280329A (zh) | 用于查询训练的方法和系统 | |
US20240169500A1 (en) | Image and object inpainting with diffusion models | |
US20230073175A1 (en) | Method and system for processing image based on weighted multiple kernels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |