CN113792617B - 一种结合图像信息和文本信息的图像解译方法 - Google Patents
一种结合图像信息和文本信息的图像解译方法 Download PDFInfo
- Publication number
- CN113792617B CN113792617B CN202110988198.9A CN202110988198A CN113792617B CN 113792617 B CN113792617 B CN 113792617B CN 202110988198 A CN202110988198 A CN 202110988198A CN 113792617 B CN113792617 B CN 113792617B
- Authority
- CN
- China
- Prior art keywords
- image
- remote sensing
- information
- feature
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000011176 pooling Methods 0.000 claims description 31
- 230000004927 fusion Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 238000002844 melting Methods 0.000 claims description 4
- 230000008018 melting Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000012937 correction Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 238000012549 training Methods 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种结合图像信息和文本信息的图像解译方法,将遥感图像分别进行空间信息与文本信息的提取,然后对提取到的空间特征和文本特征基于注意力机制的空间注意力模块和文本注意力模块进行信息加强;最后通过LSTM模型对加强后的空间信息和文本信息进行图像解译,这样实现了对图像信息和文本信息的充分利用,提高了遥感图像的解译效果。
Description
技术领域
本发明属于图像处理技术领域,更为具体地讲,涉及一种结合图像信息和文本信息的图像解译方法。
背景技术
遥感图像包含丰富的信息,广泛应用于石油开采、水体保护、铁路建设、森林火灾检测等领域。
遥感图像是利用遥感卫星对地面场景进行拍摄得到的,因此其拍摄角度与一般图像具有明显不同,遥感图像主要时平面信息,人眼很难从图像中提取有效信息;另外,遥感图像还具有如下一些特点,少数的目标占据了遥感图像的绝大部分区域,使得其中较小目标信息难以提取,无法提取多种尺度下的图像信息;缺乏空间信息时很难在图片中分辨出具有平面相似性的目标。
除了内容上的区别,遥感图像的描述内容与公开数据集也存在很大差异,在遥感图像上侧重于描述图像中主要内容,而在公开数据集上更侧重于描述目标间的行为关系。
现有应用在高分辨率遥感图像的技术,更多是针对目标检测、场景分类等任务上,此类任务仅仅关注遥感图像特征层面的信息,而忽略了其在语义层面包含的丰富信息。采用现有遥感图像介意方法存在以下问题:不能获取图像的不同尺度下目标信息,也忽视了结合文本信息和空间信息。
发明内容
本发明的目的在于克服现有技术的不足,提供一种结合图像信息和文本信息的图像解译方法,通过全面利用图像信息和文本信息获取图像在不同尺度下的目标信息。
为实现上述发明目的,本发明一种结合图像信息和文本信息的图像解译方法,其特征在于,包括以下步骤:
(1)、对遥感图像预处理
下载带有图像标注的遥感图像集合,再对标注内容中的词汇错误和语法错误进行修正,修正完成后再对每一张遥感图像进行随机裁剪,裁剪后的图像调整为统一大小;
(2)、构造多标签数据集
(2.1)、为遥感图像集合设置一张词汇表W0,初始化为空集;
(2.2)、对第i张遥感图像的标注内容进行分词处理,并通过词性分类工具进行词性分析,只保留其中的名词、动词、形容词,得到第i张图像的词汇集合wi;最后将所有遥感图像的词汇集合汇并一起,得到词汇表W0,
(2.3)、在词汇表W0中,删去出现次数小于阈值的单词,在剩余的单词中将重复的单词只保留一个,从而得到只包含名词,动词,形容词且无重复词的词汇表,记为W;
(2.5)、为每一张遥感图像设置多标签集合,其中,第i张感图像设置的多标签集合记为Li,初始化为空;
依次判断wi中的每个单词是否存在于多标签集合L,如果存在,则将该单词加入到该图像对应的多标签集合Li中;
(3)、基于多尺度池化特征融合
利用神经网络VGG16对预处理后的遥感图像进行特征提取,得到维度为H×W×C的空间特征,记为V,其中,H为空间特征的高度,W为空间特征的宽度,C为空间特征的通道数;
对空间特征V从全局信息和多尺度空间信息进行不同尺度信息提取,在与原空间特征V进行拼接,得到融合后的多尺度池化特征,记为V融;
其中,多尺度空间包括:尺度1、尺度2、尺度3和尺度4四个尺度空间;尺度1采用全局池化,将维度为H×W×C的空间特征转化为维度为1×1×C的空间特征;尺度2、尺度3、尺度4分别采用不同的池化滑动窗口,分别得到2×2×C、3×3×C和4×4×C维度的池化特征;
(4)、基于多标签分类器获取遥感图像的类别标签
对特征V融进行全局平均池化操作,获取全局特征v0,其中,全局特征v0的第k个分量的计算方法为:
其中,V融(i,j,k)表示空间特征在(i,j,k)位置的标量值
全局特征v0经过全连接层后,得到特征v1,v1=Wv0+b,其中,W、b分别代表全连接层的权重参数和偏置项;
采用Sigmoid函数将全连接层的输出v1进行归一化处理,得到每张遥感图像中每个标签属于当前图像的概率集合v2,其中,第i个标签属于当前图像的概率为v2(i),最终得到遥感图像的多标签分类后的类别标签;
(5)、基于多标签分类器进行图像标签特征提取
设置概率阈值p;对概率集合v2中每个概率值v2(i)进行降序排列,选择概率大于p的对应标签作为图像标签特征;
(6)、结合空间注意力和文本注意力提取图像信息
对于每一张遥感图像,将多标签集合Li中的单词按照词汇表W中出现的顺序构成文本,然后再对文本进行词嵌入,得到词向量矩阵T;
将词向量矩阵T通过文本注意力模块Tatt计算出基于注意力机制的文本特征wt;
wt=Tatt(ht-1,T)
其中,ht-1代表前一时刻长短期记忆网络LSTM的隐藏层状态;
将图像空间特征V融通过空间注意力模块Satt计算出基于注意力机制的空间特征zt;
zt=Satt(ht-1,V融)
将基于注意力机制的空间特征zt与文本特征wt以及上一个时刻输出的单词E(yt-1)一起作为当前时刻LSTM的输入,从而输出当前时刻的隐藏层单元的状态ht;
xt=Wvzt+Wtwt+WyE(yt-1)
ht=LSTM(xt,ht-1)
其中,Wv,Wt,Wy分别代表LSTM中应用于空间特征的权值参数、文本特征的权值参数和上一时刻输出的权值参数;
最后,将wt、zt、ht按照如下公式进行拼接,并计算当前时刻的解译单词的概率,其中,概率最大的单词即为解译结果;
P(yt)=softmax(Wo(Wozzt+Wowwt+Wohht+bo))
其中,Woz,Wow,Woh分别代表全连接层之前应用于zt,wt,ht的权值参数,Wo、bo分别代表全连接层的权值参数和偏置项。
本发明的发明目的是这样实现的:
本发明一种结合图像信息和文本信息的图像解译方法,将遥感图像分别进行空间信息与文本信息的提取,然后对提取到的空间特征和文本特征基于注意力机制的空间注意力模块和文本注意力模块进行信息加强;最后通过LSTM模型对加强后的空间信息和文本信息进行图像解译,这样实现了对图像信息和文本信息的充分利用,提高了遥感图像的解译效果。
同时,本发明一种结合图像信息和文本信息的图像解译方法还具有以下有益效果:
(1)、本发明在图像空间特征提取后加入了多尺度池化提取空间特征的不同尺度下的信息,再将多尺度空间特征与原特征进行特征融合,增强了空间特征在不同尺度的表达能力。
(2)、本发明通过空间注意力计算经过特征融合之后的图像空间信息,通过文本注意力计算出图像标注中提取到的多标签中的文本信息,兼顾图像空间信息和文本信息,提高了遥感图像解译的解译效果。
(3)、本发明对现有图像解译算法在编码阶段丢失大量图像细节信息,导致生成的解译内容不全面、语义信息利用率不高的问题,提出一种利用多标签分类任务提取遥感图像信息的编码方式,解决了基于单分类任务预训练的深度卷积网络在提取遥感图像特征时存在的问题。
(4)、本发明提出了一种结合空间注意力和文本注意力的多重注意力机制,采用了基于多尺度池化的特征融合方法,从不同层面提取遥感图像的全局信息、多尺度信息及通道信息,将多标签分类任务得到的多标签信息进行整合,作为与图像内容相关的文本信息,并结合图像空间特征信息与文本信息对整个解译过程进行指导,实现了对图像信息和文本信息的充分利用,在评价指标和解译效果上都得到提升。
附图说明
图1是本发明一种结合图像信息和文本信息的图像解译方法流程图;
图2是四幅遥感图像样例。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种结合图像信息和文本信息的图像解译方法流程图。
在本实施例中,如图1所示,本发明一种结合图像信息和文本信息的图像解译方法,包括以下步骤:
S1、对遥感图像预处理
目前用于图像解译的主要的开源数据集有UCM-Captions数据集、Sydney-Captions数据集与RSICD数据集。由于相较前两个数据集,RSICD的容量以及图像的类别数量,都更加更丰富。并且在构造文本数据时,参照了MSCOCO数据集的构造规则,所以本实施例中采用数据集RSICD。数据的预处理主要包括两个方面:为了确保解译效果不受错误的标注信息影响,对标注内容中的词汇错误和语法错误进行修正。为了增强内容多样性提升对小尺度目标的关注,对遥感图像进行随机裁剪;具体的来说,对于尺寸d×d的一张图像,裁剪系数s的取值在s=[1.0,0.875,0.66]中随机挑选,裁剪之后的图像d'×d'其中,d'=d×s,确定需要的d'之后,从原图像的左上、左下、右上、右下、中心区域依次拆建出大小为d'×d'的裁剪图像,然后再进行水平翻转或竖直翻转。为了方便,上述裁剪过程采用随机的方式进行,即随机挑选裁剪系数、区域以及翻转方式。为了统一图像的输入编码的尺寸,最终输入尺寸都调整为224×224。
S2、构造多标签数据集
图像的多标签信息需要具备与图像内容直接相关并且在标注的解释与剧中频繁出现的特点,在本实施例中,给定图像集,每张图像对应5条人工标注的解译语句,将5条解译语句按照如下方法进行处理,从而构建多标签图像数据集:
S2.1、为遥感图像集合设置一张词汇表W0,初始化为空集;
S2.3、在词汇表W0中,删去出现次数小于阈值5的单词,在剩余的单词中将重复的单词只保留一个,从而得到只包含名词,动词,形容词且无重复词的词汇表,记为W;
S2.5、为每一张遥感图像设置多标签集合,其中,第i张感图像设置的多标签集合记为Li,初始化为空;
依次判断wi中的每个单词是否存在于多标签集合L,如果存在,则将该单词加入到该图像对应的多标签集合Li中;
S3、基于多尺度池化特征融合
现有的多数图像解译算法通常直接将卷积神经网络提取到的特征作为图像的编码结果,但由于遥感图像的目标尺度不固定问题会导致忽视图像的多尺度信息。
在本实施例中,利用神经网络VGG16对预处理后的遥感图像进行特征提取,得到维度为H×W×C的空间特征,记为V,其中,H为空间特征的高度,W为空间特征的宽度,C为空间特征的通道数;
对空间特征V从全局信息和多尺度空间信息进行不同尺度信息提取,在与原空间特征V进行拼接,得到融合后的多尺度池化特征,记为V融;
其中,多尺度空间包括:尺度1、尺度2、尺度3和尺度4四个尺度空间;尺度1采用全局池化,将维度为H×W×C的空间特征转化为维度为1×1×C的空间特征;尺度2、尺度3、尺度4分别采用不同的池化滑动窗口,分别得到2×2×C、3×3×C和4×4×C维度的池化特征;具体来说是从四个尺度上对空间特征进行平均池化,并将平均池化后的特征进行1×1卷积,对各尺度特征的通道数降维,降至原本尺度的四分之一。再通过双线性插值上采样将特征图转化为原大小然后将个尺度与原空间特征拼接,得到大小不变通道数加倍的多尺度特征融合后的增强空间特征,再通过1×1卷积,将通道数变换为原有通道数。
在本实施例中,采用VGG16的卷积层提取遥感图像空间特征,并使用NWPU-RESISC45数据集对VGG16进行微调,使之更适用于遥感图像。该数据集是西北工业大学遥感图像场景分类公开数据集。微调结束后,使用遥感图像解译数据集对微调后的模型进行进一步参数调整。通过四个尺度的多尺度池化特征融合加强图像特征,在训练图像解译模型阶段,对于输入的大小为224×224的遥感图像,VGG6提取的图像特征大小为14×14×512,多尺度池化分为四个尺度分支,尺度一通过全局平均池化得到特征为1×1×512,尺度二对应的池化滑动窗口为13×13×512,获得特征为2×2×512。尺度三的池化滑动窗口为12×12×512,获得池化特征维度为3×3×512,尺度四池化窗口大小为11×11×512获得特征为4×4×512,然后通过1×1卷积操作将四个尺度的池化特征通道数压缩为原本的四分之一,即通道数都降为128;再通过最近邻上采样方法和双线性插值上采样将四个尺度的特征图都转换为原空间特征大小,即14×14×128,将四个尺度的池化特征图与原本空间特征拼接得到14×14×1024,最后通过1×1池化,将拼接后的特征图通道数压缩到14×14×512,和原空间特征大小相同。
S4、基于多标签分类器获取遥感图像的类别标签
对特征V融进行全局平均池化操作,获取全局特征v0,其中,全局特征v0的第k个分量的计算方法为:
其中,V融(i,j,k)表示空间特征在(i,j,k)位置的标量值
全局特征v0经过全连接层后,得到特征v1,v1=Wv0+b,其中,W、b分别代表全连接层的权重参数和偏置项;
采用Sigmoid函数将全连接层的输出v1进行归一化处理,得到每张遥感图像中每个标签属于当前图像的概率集合v2,其中,第i个标签属于当前图像的概率为v2(i),最终得到遥感图像的多标签分类后的类别标签;
S5、基于多标签分类器进行图像标签特征提取
在本实施例中,基于多标签任务对图像进行特征提取,采用分离式训练来降低联合训练多标签分类任务与图像解译任务,依据多标签分类任务对VGG16进行微调,训练好之后作为多标签提取器和图像解译算法中的图像特征提取器。多标签分类器参数不再发生改变,图像特征提取器的参数随图像解译过程进行优化。仍然以表示经过特征融合和形状变换操作后的图像空间特征,用V融表示提取的多标签信息,为了降低计算复杂度以及规范化的长度,对于每张图像,选择与图像最相关的k个标签作为图像的多标签结果,用T={t1,t2,…,tk}表示将标签转换为词向量的结果。
对概率集合v2中每个概率值v2(i)进行降序排列,其每个分量的值都在[0,1]区间内,以0.8作为阈值,选择概率大于0.8的固定数量k个标签作为图像标签特征;
S6、结合空间注意力和文本注意力提取图像信息
对于每一张遥感图像,将多标签集合Li中的单词按照词汇表W中出现的顺序构成文本,然后再对文本进行词嵌入,得到词向量矩阵T;
将词向量矩阵T通过文本注意力模块Tatt计算出基于注意力机制的文本特征wt;
wt=Tatt(ht-1,T)
其中,ht-1代表前一时刻长短期记忆网络LSTM的隐藏层状态;
将图像空间特征V融通过空间注意力模块Satt计算出基于注意力机制的空间特征zt;
zt=Satt(ht-1,V融)
将基于注意力机制的空间特征zt与文本特征wt以及上一个时刻输出的单词E(yt-1)一起作为当前时刻LSTM的输入,从而输出当前时刻的隐藏层单元的状态ht;
xt=Wvzt+Wtwt+WyE(yt-1)
ht=LSTM(xt,ht-1)
其中,Wv,Wt,Wy分别代表LSTM中应用于空间特征的权值参数、文本特征的权值参数和上一时刻输出的权值参数;
最后,将wt、zt、ht按照如下公式进行拼接,并计算当前时刻的解译单词的概率,其中,概率最大的单词即为解译结果;
P(yt)=softmax(Wo(Wozzt+Wowwt+Wohht+bo))
其中,Woz,Wow,Woh分别代表全连接层之前应用于zt,wt,ht的权值参数,Wo、bo分别代表全连接层的权值参数和偏置项。
实例
在本实施例中,采样图2所示的遥感图像样例,构造出表1所示的图像多标签,通过训练模型生成图像解译,其解译如表2所示。具体的操作过程为:在微调VGG16阶段,所有输入图像的尺寸被调整为224×224。分类过程中采用自适应学习率算法,初始学习率为0.01。训练过程中假如验证集上的损失在2个周期内没有下降,将学习率减半。采用早停方法来避免过拟合,当验证集上的分类准确率经过10个周期依旧没有上升时停止模型的训练。为了避免全程同时训练分类和解译模型带来的过拟合,取训练周期的前4/5部分对解码器参数进行优化,在后1/5部分再微调CNN的参数。LSTM内部特征维度为512,词向量采用在解译文本上训练的512维word2vec向量。训练过程采用自适应学习率算法(RMSProp)作为优化方法,初始学习设置为0.02,训练中每迭代16个epoch学习率降为原来的0.5倍。通过设置dropout来降低过拟合概率,CNN中和LSTM中的dropout分别设为0.15、0.3,clip gradient设置为5。mini batch设置为32,最大迭代次数设置为训练数据集容量的80倍。语句生成采用集束搜索(Beam Search)而非贪婪搜索的策略。Beam Search在生成每个单词时,保留前N个最好的结果,N设置为3,然后在后续的时间步重复该过程,最终得到3解译结果,选择其中概率最高的句子作为解译结果。
表1是图像多标签
表2是图像解译结果
图像 | 解译结果 |
(a) | 学校里的一些建筑和一个大操场。 |
(b) | 道路上有许多汽车,路旁的教堂周围有一些绿色的树。 |
(c) | 有很多绿色的树的公园里停放着一些汽车。 |
(d) | 一个水边的港口里有很多船。 |
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (2)
1.一种结合图像信息和文本信息的图像解译方法,其特征在于,包括以下步骤:
(1)、对遥感图像预处理
下载带有图像标注的遥感图像集合,再对标注内容中的词汇错误和语法错误进行修正,修正完成后再对每一张遥感图像进行随机裁剪,裁剪后的图像调整为统一大小;
(2)、构造多标签数据集
(2.1)、为遥感图像集合设置一张词汇表W0,初始化为空集;
(2.2)、对第i张遥感图像的标注内容进行分词处理,并通过词性分类工具进行词性分析,只保留其中的名词、动词、形容词,得到第i张图像的词汇集合wi;最后将所有遥感图像的词汇集合汇并一起,得到词汇表W0,
(2.3)、在词汇表W0中,删去出现次数小于阈值的单词,在剩余的单词中将重复的单词只保留一个,从而得到只包含名词,动词,形容词且无重复词的词汇表,记为W;
(2.4)、基于词汇表W,构造一个只含有名词的词汇表子集,记为多标签集合L,满足且L由W中全部的名词构成;
(2.5)、为每一张遥感图像设置多标签集合,其中,第i张遥感图像设置的多标签集合记为Li,初始化为空;
依次判断wi中的每个单词是否存在于多标签集合L,如果存在,则将该单词加入到该图像对应的多标签集合Li中;
(3)、基于多尺度池化特征融合
利用神经网络VGG16对预处理后的遥感图像进行特征提取,得到维度为H×W×C的空间特征,记为V,其中,H为空间特征的高度,W为空间特征的宽度,C为空间特征的通道数;
对空间特征V从全局信息和多尺度空间信息进行不同尺度信息提取,再与原空间特征V进行拼接,得到融合后的多尺度池化特征,记为V融;
(4)、基于多标签分类器获取遥感图像的类别标签
对特征V融进行全局平均池化操作,获取全局特征v0,其中,全局特征v0的第k个分量的计算方法为:
其中,V融(i,j,k)表示空间特征在(i,j,k)位置的标量值
全局特征v0经过全连接层后,得到特征v1,v1=Wv0+b,其中,W、b分别代表全连接层的权重参数和偏置项;
采用Sigmoid函数将全连接层的输出v1进行归一化处理,得到每张遥感图像中每个标签属于当前图像的概率集合v2,其中,第i个标签属于当前图像的概率为v2(i),最终得到遥感图像的多标签分类后的类别标签;
(5)、基于多标签分类器进行图像标签特征提取
设置概率阈值p;对概率集合v2中每个概率值v2(i)进行降序排列,选择概率大于p的对应标签作为图像标签特征;
(6)、结合空间注意力和文本注意力提取图像信息
对于每一张遥感图像,将多标签集合Li中的单词按照词汇表W中出现的顺序构成文本,然后再对文本进行词嵌入,得到词向量矩阵T;
将词向量矩阵T通过文本注意力模块Tatt计算出基于注意力机制的文本特征wt;
wt=Tatt(ht-1,T)
其中,ht-1代表前一时刻长短期记忆网络LSTM的隐藏层状态;
将图像空间特征V融通过空间注意力模块Satt计算出基于注意力机制的空间特征zt;
zt=Satt(ht-1,V融)
将基于注意力机制的空间特征zt与文本特征wt以及上一个时刻输出的单词E(yt-1)一起作为当前时刻LSTM的输入,从而输出当前时刻的隐藏层单元的状态ht;
xt=Wvzt+Wtwt+WyE(yt-1)
ht=LSTM(xt,ht-1)
其中,Wv,Wt,Wy分别代表LSTM中应用于空间特征的权值参数、文本特征的权值参数和上一时刻输出的权值参数;
最后,将wt、zt、ht按照如下公式进行拼接,并计算当前时刻的解译单词的概率,其中,概率最大的单词即为解译结果;
P(yt)=softmax(Wo(Wozzt+Wowwt+Wohht+bo))
其中,Woz,Wow,Woh分别代表全连接层之前应用于zt,wt,ht的权值参数,Wo、bo分别代表全连接层的权值参数和偏置项。
2.根据权利要求1所述的一种结合图像信息和文本信息的图像解译方法,其特征在于,所述多尺度空间包括:尺度1、尺度2、尺度3和尺度4四个尺度空间;尺度1采用全局池化,将维度为H×W×C的空间特征转化为维度为1×1×C的空间特征;尺度2、尺度3、尺度4分别采用不同的池化滑动窗口,分别得到2×2×C、3×3×C和4×4×C维度的池化特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110988198.9A CN113792617B (zh) | 2021-08-26 | 2021-08-26 | 一种结合图像信息和文本信息的图像解译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110988198.9A CN113792617B (zh) | 2021-08-26 | 2021-08-26 | 一种结合图像信息和文本信息的图像解译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113792617A CN113792617A (zh) | 2021-12-14 |
CN113792617B true CN113792617B (zh) | 2023-04-18 |
Family
ID=78876450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110988198.9A Expired - Fee Related CN113792617B (zh) | 2021-08-26 | 2021-08-26 | 一种结合图像信息和文本信息的图像解译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792617B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180428A (zh) * | 2017-06-09 | 2017-09-19 | 电子科技大学 | 一种基于光流算法的磁光图像增强方法 |
CN107886100A (zh) * | 2017-12-04 | 2018-04-06 | 西安思源学院 | 一种基于阶阵列的brief特征描述子 |
CN110019812A (zh) * | 2018-02-27 | 2019-07-16 | 中国科学院计算技术研究所 | 一种用户自生产内容检测方法和系统 |
CN110111399A (zh) * | 2019-04-24 | 2019-08-09 | 上海理工大学 | 一种基于视觉注意力的图像文本生成方法 |
CN110717431A (zh) * | 2019-09-27 | 2020-01-21 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
CN111581961A (zh) * | 2020-05-06 | 2020-08-25 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN111783831A (zh) * | 2020-05-29 | 2020-10-16 | 河海大学 | 基于多源多标签共享子空间学习的复杂图像精确分类方法 |
CN111860235A (zh) * | 2020-07-06 | 2020-10-30 | 中国科学院空天信息创新研究院 | 高低层特征融合的注意力遥感图像描述的生成方法及系统 |
CN111985369A (zh) * | 2020-08-07 | 2020-11-24 | 西北工业大学 | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 |
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN112101318A (zh) * | 2020-11-17 | 2020-12-18 | 深圳市优必选科技股份有限公司 | 基于神经网络模型的图像处理方法、装置、设备及介质 |
WO2020264360A1 (en) * | 2019-06-26 | 2020-12-30 | Mars, Incorporated | System and method for wellness assessment of a pet |
CN113094484A (zh) * | 2021-04-07 | 2021-07-09 | 西北工业大学 | 基于异质图神经网络的文本视觉问答实现方法 |
CN113282721A (zh) * | 2021-04-28 | 2021-08-20 | 南京大学 | 基于网络结构搜索的视觉问答方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10558750B2 (en) * | 2016-11-18 | 2020-02-11 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
CN108664989B (zh) * | 2018-03-27 | 2019-11-01 | 北京达佳互联信息技术有限公司 | 图像标签确定方法、装置及终端 |
CN109858555B (zh) * | 2019-02-12 | 2022-05-17 | 北京百度网讯科技有限公司 | 基于图像的数据处理方法、装置、设备及可读存储介质 |
-
2021
- 2021-08-26 CN CN202110988198.9A patent/CN113792617B/zh not_active Expired - Fee Related
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180428A (zh) * | 2017-06-09 | 2017-09-19 | 电子科技大学 | 一种基于光流算法的磁光图像增强方法 |
CN107886100A (zh) * | 2017-12-04 | 2018-04-06 | 西安思源学院 | 一种基于阶阵列的brief特征描述子 |
CN110019812A (zh) * | 2018-02-27 | 2019-07-16 | 中国科学院计算技术研究所 | 一种用户自生产内容检测方法和系统 |
CN110111399A (zh) * | 2019-04-24 | 2019-08-09 | 上海理工大学 | 一种基于视觉注意力的图像文本生成方法 |
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
WO2020264360A1 (en) * | 2019-06-26 | 2020-12-30 | Mars, Incorporated | System and method for wellness assessment of a pet |
CN110717431A (zh) * | 2019-09-27 | 2020-01-21 | 华侨大学 | 一种结合多视角注意力机制的细粒度视觉问答方法 |
CN111581961A (zh) * | 2020-05-06 | 2020-08-25 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN111783831A (zh) * | 2020-05-29 | 2020-10-16 | 河海大学 | 基于多源多标签共享子空间学习的复杂图像精确分类方法 |
CN111860235A (zh) * | 2020-07-06 | 2020-10-30 | 中国科学院空天信息创新研究院 | 高低层特征融合的注意力遥感图像描述的生成方法及系统 |
CN111985369A (zh) * | 2020-08-07 | 2020-11-24 | 西北工业大学 | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 |
CN112101318A (zh) * | 2020-11-17 | 2020-12-18 | 深圳市优必选科技股份有限公司 | 基于神经网络模型的图像处理方法、装置、设备及介质 |
CN113094484A (zh) * | 2021-04-07 | 2021-07-09 | 西北工业大学 | 基于异质图神经网络的文本视觉问答实现方法 |
CN113282721A (zh) * | 2021-04-28 | 2021-08-20 | 南京大学 | 基于网络结构搜索的视觉问答方法 |
Non-Patent Citations (5)
Title |
---|
Jiang teng 等."Long short-term memory network with external memories for image caption generation".《Journal of Electronic Imaging》.2019,第28卷(第2期),第1-15页. * |
Li Zhuowan等."Context-aware group captioning via self-attention and contrastive features".《Proc of the IEEE conf on Computer Vision and Pattern Recognition》.2020,第3437-3447页. * |
Wei haiyang等."The synergy of double attention :Combine sentence-level and word-level attention for image captioning".《Computer Vision and Image Understanding》.2020,第1-12页. * |
吴倩等."融合多标签和双注意力机制的图像语义理解模型".《智能计算机与应用》.2020,第10卷(第1期),第12-21页. * |
李志欣等."图像描述生成研究进展".《计算机研究与发展》.2021,第1-4页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113792617A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563508B (zh) | 一种基于空间信息融合的语义分割方法 | |
CN111985369B (zh) | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 | |
CN109711463B (zh) | 基于注意力的重要对象检测方法 | |
CN109389091B (zh) | 基于神经网络和注意力机制结合的文字识别系统及方法 | |
CN109711481B (zh) | 用于画作多标签识别的神经网络、相关方法、介质和设备 | |
EP3166049B1 (en) | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering | |
CN111783705B (zh) | 一种基于注意力机制的文字识别方法及系统 | |
CN112100346B (zh) | 基于细粒度图像特征和外部知识相融合的视觉问答方法 | |
CN113642390B (zh) | 一种基于局部注意力网络的街景图像语义分割方法 | |
CN110033008B (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN110427989B (zh) | 汉字骨架自动合成方法及大规模中文字库自动生成方法 | |
CN111444367B (zh) | 一种基于全局与局部注意力机制的图像标题生成方法 | |
CN111881262A (zh) | 基于多通道神经网络的文本情感分析方法 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
CN112950780B (zh) | 一种基于遥感影像的网络地图智能生成方法及系统 | |
CN112364719A (zh) | 一种遥感图像目标快速检测方法 | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN112070040A (zh) | 一种用于视频字幕的文本行检测方法 | |
CN116310339A (zh) | 基于矩阵分解增强全局特征的遥感图像分割方法 | |
CN115116074A (zh) | 一种手写体文字识别、及模型训练方法和装置 | |
CN114037640A (zh) | 图像生成方法及装置 | |
CN117727069A (zh) | 基于多尺度信息交互网络的文本-图像行人重识别方法 | |
CN116258874A (zh) | 基于深度条件扩散网络的sar识别数据库样本姿态扩充方法 | |
CN114241564A (zh) | 一种基于类间差异强化网络的人脸表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20230418 |
|
CF01 | Termination of patent right due to non-payment of annual fee |