CN111667495A - 一种图像场景解析方法和装置 - Google Patents
一种图像场景解析方法和装置 Download PDFInfo
- Publication number
- CN111667495A CN111667495A CN202010512952.7A CN202010512952A CN111667495A CN 111667495 A CN111667495 A CN 111667495A CN 202010512952 A CN202010512952 A CN 202010512952A CN 111667495 A CN111667495 A CN 111667495A
- Authority
- CN
- China
- Prior art keywords
- data
- image
- layer
- feature map
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims description 58
- 238000010586 diagram Methods 0.000 claims description 29
- 230000009467 reduction Effects 0.000 claims description 21
- 230000009466 transformation Effects 0.000 claims description 13
- 238000012847 principal component analysis method Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims 4
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000000513 principal component analysis Methods 0.000 description 12
- 230000011218 segmentation Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 239000000758 substrate Substances 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种图像场景解析方法,涉及图像处理领域;该方法的一个具体实施方式包括:预先训练用于执行图像场景解析的残差网络;其中,残差网络包括依次连接的输入层、含有多个卷积层的基本网络层、特征图层、自注意力模块、1*1卷积层和输出层;基本网络层用于从输入层输入的图像数据中提取特征图数据输入特征图层;自注意力模块用于对特征图数据重加权并将重加权后的数据与特征图数据拼接;1*1卷积层用于对拼接后数据的通道数进行调整并将调整后的数据经输出层输出;将目标图像输入训练完成的所述残差网络中,得到目标图像各像素对应的场景。该实施方式可提供一种运算量较小、推断速度较快同时准确率不会明显降低的场景解析方法。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像场景解析方法和装置。
背景技术
场景解析是计算机视觉中一个高层次的问题,其主要目标是预测图片中每个像素的类别,从而理解图片中的场景。目前解决场景解析问题的主流方法是基于深度卷积神经网络的方法,经典框架有全卷积网络(FCN),Encoder-Decoder框架等。为了准确预测每个像素的类别,网络需要融合不同位置像素的信息。常见的融合方式有金字塔池化、空洞卷积和自注意力机制等。其中自注意力机制用于捕获长距离关系,大部分自注意力机制采取的是squeeze-and-excite模式,即首先经过squeeze对特征图进行聚合,得到精简后的信息,再通过excite把精简后的信息分发到每个位置,实现对不同位置信息的重加权,从而捕捉长距离依赖关系。
自注意力机制的具体实现方式有很多种,因为squeeze和excite两个步骤都有多种具体形式。不同形式的实现导致算法的空间复杂度、推断速度及准确率都各不相同。一般地,现有技术中的自注意力模块的运算量非常大。在实际应用中,需要根据需求同时考虑算法的准确率、推断速度及占用内存情况等多个因素。对于无人机图像的场景解析,主要需要分割出天空场景以便下一步在天空场景中检测出无人机。这种场景下对推断速度要求比较高,现有技术无法满足,因此需要提供一种运算量较小、推断速度较快同时准确率不会降低太多的场景解析方法。
发明内容
本发明要解决的技术问题在于,针对现有技术中的缺陷,提供一种运算量较小、推断速度较快同时准确率不会明显降低的场景解析方法。
为了解决上述技术问题,本发明提供了一种图像场景解析方法。
本发明实施例的图像场景解析方法包括:预先训练用于执行图像场景解析的残差网络;其中,所述残差网络包括依次连接的输入层、含有多个卷积层的基本网络层、特征图层、自注意力模块、1*1卷积层和输出层;所述基本网络层用于从输入层输入的图像数据中提取特征图数据输入特征图层;自注意力模块用于对所述特征图数据重加权并将重加权后的数据与所述特征图数据拼接;所述1*1卷积层用于对拼接后数据的通道数进行调整并将调整后的数据经输出层输出;在自注意力模块中,输入的所述特征图数据被1*1卷积核处理后形成索引数据、键数据和值数据;通过主成分分析方法对所述键数据进行降维,计算降维后的键数据与所述索引数据的相似度并将该相似度标准化,将标准化后的相似度与所述值数据相乘从而得到所述重加权后的数据;将目标图像输入训练完成的所述残差网络中,得到目标图像各像素对应的场景。
优选地,所述通过主成分分析方法对所述键数据进行降维,包括:将所述键数据转换为N行M列的初始矩阵;将初始矩阵的每一行进行零均值化处理;确定经零均值化处理的初始矩阵的协方差矩阵;获取该协方差矩阵的多个特征值以及每一特征值对应的特征向量;获取最大的K个特征值以及相应的特征向量,将该特征向量按照对应的特征值从大到小的顺序排列从而形成变换矩阵;将变换矩阵与初始矩阵相乘从而将所述键数据的维度从M降到K;其中,N为通道数,M为所述特征图数据的宽度和高度的乘积,K为小于M的正整数。
优选地,所述预先训练用于执行图像场景解析的残差网络,包括:获取包括多个训练样本的训练集;其中,每一训练样本中包含一幅可见光图像以及该图像各像素的场景解析结果;利用该训练集训练所述残差网络。
优选地,所述标准化是通过softmax函数实现的;所述自注意力模块为非局部模块non-local block;所述目标图像和所述可见光图像为具有天空、地面物体和/或无人机的图像。
本发明还提供一种图像场景解析装置。
本发明实施例的图像场景解析装置可包括:训练单元,用于预先训练用于执行图像场景解析的残差网络;其中,所述残差网络包括依次连接的输入层、含有多个卷积层的基本网络层、特征图层、自注意力模块、1*1卷积层和输出层;所述基本网络层用于从输入层输入的图像数据中提取特征图数据输入特征图层;自注意力模块用于对所述特征图数据重加权并将重加权后的数据与所述特征图数据拼接;所述1*1卷积层用于对拼接后数据的通道数进行调整并将调整后的数据经输出层输出;在自注意力模块中,输入的所述特征图数据被1*1卷积核处理后形成索引数据、键数据和值数据;通过主成分分析方法对所述键数据进行降维,计算降维后的键数据与所述索引数据的相似度并将该相似度标准化,将标准化后的相似度与所述值数据相乘从而得到所述重加权后的数据;解析单元,用于将目标图像输入训练完成的所述残差网络中,得到目标图像各像素对应的场景。
优选地,所述装置可进一步包括降维单元,其用于:将所述键数据转换为N行M列的初始矩阵;将初始矩阵的每一行进行零均值化处理;确定经零均值化处理的初始矩阵的协方差矩阵;获取该协方差矩阵的多个特征值以及每一特征值对应的特征向量;获取最大的K个特征值以及相应的特征向量,将该特征向量按照对应的特征值从大到小的顺序排列从而形成变换矩阵;将变换矩阵与初始矩阵相乘从而将所述键数据的维度从M降到K;其中,N为通道数,M为所述特征图数据的宽度和高度的乘积,K为小于M的正整数。
优选地,训练单元可进一步用于:获取包括多个训练样本的训练集;其中,每一训练样本中包含一幅可见光图像以及该图像各像素的场景解析结果;利用该训练集训练所述残差网络。
可选地,所述标准化是通过softmax函数实现的;所述自注意力模块为非局部模块non-local block;所述目标图像和所述可见光图像为具有天空、地面物体和/或无人机的图像。
本发明还提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现所述图像场景解析方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现所述图像场景解析方法。
实施本发明的图像场景解析方法和装置,具有以下有益效果:在无人机图像的场景解析中,主要需要分割出天空场景以便下一步在天空场景中检测出无人机。这种场景下对推断速度要求比较高,而对准确率的要求可以稍微降低一些。因此在自注意力模块的设计上需要降低聚合后信息的维度,使得信息得到充分压缩,从而达到提速的目的。本发明实施例中,在常见语义分割框架的基础上加入一个自注意力模块,达到系统的准确率和推断速度之间的折中,使得在系统的准确率可以接受的条件下尽可能提速。为了降低聚合信息的维度,提高处理速度,采用主成分分析(PCA)方法对特征图进行降维,再以降维后的向量作为基底进行加权求和,实现长距离依赖的捕捉。
附图说明
图1是本发明实施例中图像场景解析方法的主要步骤示意图;
图2是现有技术中非局部模块non-local block的原理示意图;
图3是本发明实施例中非局部模块non-local block的原理示意图;
图4是本发明实施例中残差网络的结构示意图;
图5是本发明实施例中图像场景解析方法的具体实现步骤示意图;
图6是本发明实施例中图像场景解析装置的主要部分示意图;
图7a是本发明实施例中图像场景解析效果示意图中的预测结果;
图7b是本发明实施例中图像场景解析效果示意图中的标注真值图;
图7c是本发明实施例中图像场景解析效果示意图中的原图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例中图像场景解析方法的主要步骤示意图,如图1所示,本发明实施例的图像场景解析方法可具体按照以下步骤执行:
步骤S101:预先训练用于执行图像场景解析的残差网络。
具体地,上述残差网络可以包括依次连接的输入层、含有多个卷积层的基本网络层、特征图层、自注意力模块、1*1卷积层和输出层。其中,自注意力模块用于捕获图像中长距离的相互依赖的特征。实际应用中,实际中经常使用的自注意力模块是non-local block(非局部模块),其原理如图2所示。
即对于输入数据x∈RC×H×W(R表示实数,C表示通道数,H表示高度,W表示宽度),首先用3个1*1卷积核Wv、Wk、Wq(其中v表示值value,k表示键key,q表示索引query)把输入数据变换到嵌入空间,如下式所示:
v=Wv(x),k=Wk(x),q=Wq(x)
上式中的v为值数据,k为键数据,q为索引数据。此后计算k和q之间的相似度矩阵S:
S=kT×q
其中,T表示转置。
对于v中的每个位置,attention模块的输出如下:
o=v*Softmax(S)
最终输出结果如下:
Y=cat(Wz(o),X)
其中,cat表示特征融合运算。
以上就是常规non-local attention模块的计算流程。
常规non-local attention模块的主要问题是计算量较大,时间和空间复杂度都非常高。为了降低运算量,提高推断速度,我们提出了改进的attention模块。Non-localattention模块把特征图上的所有像素点作为基底,而这些基底之间可能存在冗余,造成时间和空间复杂度过大。如果对特征图上的所有像素进行降维,以降维后的K个像素点作为基底,就可以大大降低时间和空间复杂度。降维的方法有很多种,其中一种简单的线性降维方法是主成分分析(PCA)。
主成分分析的目标是通过线性投影,把高维空间中的数据映射到低维空间中表示,并期望在投影的维度上方差最大。从而使用较小的数据维度保留尽可能多的原维度上的特性。PCA需要从原始空间中顺序地找到一组相互正交的K个坐标轴,使得这些方向上包含最大的差异性,而忽略掉方差几乎为0的特征维度。
在具体实现上,想要得到K个方差最大的方向,首先需要明确该降维问题的优化目标:将一组N维向量降为K维,目标是选择K个单位正交基,使得原始数据变换到这组基上后各数据点之间的协方差为0,方差尽可能大。假设原始数据X的协方差矩阵为C,P为转换矩阵,转换后的矩阵为Y=PX,则Y的协方差矩阵D的计算公式为D=PCPT,要求D满足对角化。此时优化目标变成寻找一个矩阵P,使得D是一个对角矩阵,且对角元素从小到大排列,则P的前K行就是要寻找的基。利用简单的线性代数知识可以发现P是协方差矩阵C特征分解后按特征值从大到小把对应的特征向量按行排列取前K行得到的矩阵。因此可以总结得到PCA的以下算法步骤:
首先,将键数据转换为N行M列的初始矩阵(N为通道数,M为所述特征图数据的宽度和高度的乘积,K为小于M的正整数)。之后,将初始矩阵的每一行进行零均值化处理,零均值化指的是首先确定每一行的平均值,之后计算每一数据与平均值的差值。此后,确定经零均值化处理的初始矩阵的协方差矩阵,并获取该协方差矩阵的多个特征值以及每一特征值对应的特征向量;接着,获取最大的K个特征值以及相应的特征向量,将该特征向量按照对应的特征值从大到小的顺序排列从而形成变换矩阵;最后,将变换矩阵与初始矩阵相乘从而将键数据的维度从M降到K。
图3是本发明实施例中非局部模块non-local block的原理示意图,如图3所示,通过PCA对特征图数进行分解得到K个基按行组成的矩阵φ∈RK*M,求出每个基与q的归一化后的相似度S:
S=Softmax(Φ*q)
然后求出attention层的输出O:
O=S*vT
最终得到的输出Y为:
Y=cat(Wz(OT),X)
其中,OT表示O的转置。以上就是把聚合后的特征分发到各个位置,重新加权之后的结果。
图4是本发明实施例中残差网络的结构示意图,如图4所示,上述残差网络可以包括依次连接的输入层(input)、含有多个卷积层的基本网络层(base network)、特征图层(feature map)、自注意力模块(attention block)、1*1卷积层(1*1conv)和输出层(output)。具体地,所述基本网络层用于从输入层输入的图像数据中提取特征图数据输入特征图层;自注意力模块用于对所述特征图数据重加权并将重加权后的数据与所述特征图数据拼接;所述1*1卷积层用于对拼接后数据的通道数进行调整并将调整后的数据经输出层输出。
残差网络的主干部分可以根据具体需要选择不同的网络,如加入空洞空间金字塔池化(ASPP)模块等。分割图片比较简单时可以采用较为轻量级的主干,分割任务较为复杂时则采用更深的网络和更多模块来提高网络容量。
通过以上说明可以理解,在自注意力模块中,输入的所述特征图数据被1*1卷积核处理后形成索引数据、键数据和值数据;通过主成分分析方法对所述键数据进行降维,计算降维后的键数据与所述索引数据的相似度并将该相似度标准化(可通过softmax函数实现),将标准化后的相似度与所述值数据相乘从而得到所述重加权后的数据。
具体应用中,残差网络可以通过以下方式进行训练:首先获取包括多个训练样本的训练集;其中,每一训练样本中包含一幅可见光图像以及该图像各像素的场景解析结果;之后利用该训练集训练所述残差网络。
步骤S102:将目标图像输入训练完成的所述残差网络中,得到目标图像各像素对应的场景。
在本步骤中,可以利用训练完成的上述残差网络直接获取目标图像中每一像素对应的场景。例如,在无人机图像中,一般有天空、地面物体、无人机三种场景,则上述目标图像和可见光图像为具有天空、地面物体和/或无人机的图像。
图5是本发明实施例中图像场景解析方法的具体实现步骤示意图,如图5所示,输入图像之后,首先通过多个卷积层提取特征,得到特征图数据。之后对特征图数据进行PCA降维,并计算重加权权重。此后将重加权数据与特征图数据拼接得到聚合后的特征,最后获得最终的预测结果。
根据本发明实施例的技术方案,在无人机图像的场景解析中,主要需要分割出天空场景以便下一步在天空场景中检测出无人机。这种场景下对推断速度要求比较高,而对准确率的要求可以稍微降低一些。因此在自注意力模块的设计上需要降低聚合后信息的维度,使得信息得到充分压缩,从而达到提速的目的。本发明实施例中,在常见语义分割框架的基础上加入一个自注意力模块,达到系统的准确率和推断速度之间的折中,使得在系统的准确率可以接受的条件下尽可能提速。为了降低聚合信息的维度,提高处理速度,采用主成分分析(PCA)方法对特征图进行降维,再以降维后的向量作为基底进行加权求和,实现长距离依赖的捕捉。
图6是本发明实施例中图像场景解析装置的主要部分示意图,如图6所示,本发明实施例中图像场景解析装置600可以包括训练单元601和解析单元602。
其中,训练单元601可用于预先训练用于执行图像场景解析的残差网络;其中,所述残差网络包括依次连接的输入层、含有多个卷积层的基本网络层、特征图层、自注意力模块、1*1卷积层和输出层;所述基本网络层用于从输入层输入的图像数据中提取特征图数据输入特征图层;自注意力模块用于对所述特征图数据重加权并将重加权后的数据与所述特征图数据拼接;所述1*1卷积层用于对拼接后数据的通道数进行调整并将调整后的数据经输出层输出;在自注意力模块中,输入的所述特征图数据被1*1卷积核处理后形成索引数据、键数据和值数据;通过主成分分析方法对所述键数据进行降维,计算降维后的键数据与所述索引数据的相似度并将该相似度标准化,将标准化后的相似度与所述值数据相乘从而得到所述重加权后的数据。解析单元602可用于将目标图像输入训练完成的所述残差网络中,得到目标图像各像素对应的场景。
在本发明实施例中,所述装置600可进一步包括降维单元,其用于:将所述键数据转换为N行M列的初始矩阵;将初始矩阵的每一行进行零均值化处理;确定经零均值化处理的初始矩阵的协方差矩阵;获取该协方差矩阵的多个特征值以及每一特征值对应的特征向量;获取最大的K个特征值以及相应的特征向量,将该特征向量按照对应的特征值从大到小的顺序排列从而形成变换矩阵;将变换矩阵与初始矩阵相乘从而将所述键数据的维度从M降到K;其中,N为通道数,M为所述特征图数据的宽度和高度的乘积,K为小于M的正整数。
作为一个优选方案,训练单元601可进一步用于:获取包括多个训练样本的训练集;其中,每一训练样本中包含一幅可见光图像以及该图像各像素的场景解析结果;利用该训练集训练所述残差网络。
此外,在本发明实施例中,所述标准化是通过softmax函数实现的;所述自注意力模块为非局部模块non-local block;所述目标图像和所述可见光图像为具有天空、地面物体和/或无人机的图像。
以下说明本发明的具体实验情况。实验所用的数据集是自己采集的无人机数据集,分割的类别共有天空、地物和无人机三类。算法的主要任务是分割出图片中的天空区域以便进行下一步应用。训练集有3064张图片,验证集有511张图片。
通过实验结果对比可以发现,本发明方法能够实现相对准确的天空及地物分割。算法的客观评价指标包括衡量准确率的mIoU及衡量速度的FPS。为了体现算法在速度和准确率上的改进,可以首先实现一个baseline方法,即在网络中加入一个attention模块,把所有的像素点作为基。在这种情况下,验证集上的mIoU为0.8326,推断速度方面对于大小为1080*1920的输入图片处理一张需要11s。而在采用改进的attention模块后,网络在验证集上的mIoU为0.8483,推断速度为每张5s。可以发现本发明方法在提升推断速度的同时,不但没有降低分割准确率,反而使准确率略有提升。这也说明了传统的attention机制中基底存在大量冗余,反而会对学习权重造成一定干扰。
本发明的相关软件代码采用pytorch编程实现。
本发明针对可见光图片的天空和地物分割问题,可以在提升推断速度的同时保证分割的准确率,以下对相关参数设置进行描述:从采集的所有天空地物分割的可见光图片中随机选取3064张图片作为原始的训练库。在输入网络前对图片进行预处理,包括归一化,缩放,填充,裁剪,翻转等。之后,对于验证集中的图片,在推断时输入网络前只进行归一化和填充。降维的维数K设置为64,初始学习率设置为0.009,缩放后的图片尺寸为513*513。
图7a是本发明实施例中图像场景解析效果示意图中的预测结果(下方的低灰度部分即无人机),图7b是本发明实施例中图像场景解析效果示意图中的标注真值图,图7c是本发明实施例中图像场景解析效果示意图中的原图。在这三幅图中,横纵坐标的单位都是像素。
在本发明实施例中,还提供一种电子设备,其包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现前述图像场景解析方法。
此外,在本发明实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现前述图像场景解析方法。
综上所述,根据本发明实施例的技术方案,在无人机图像的场景解析中,主要需要分割出天空场景以便下一步在天空场景中检测出无人机。这种场景下对推断速度要求比较高,而对准确率的要求可以稍微降低一些。因此在自注意力模块的设计上需要降低聚合后信息的维度,使得信息得到充分压缩,从而达到提速的目的。本发明实施例中,在常见语义分割框架的基础上加入一个自注意力模块,达到系统的准确率和推断速度之间的折中,使得在系统的准确率可以接受的条件下尽可能提速。为了降低聚合信息的维度,提高处理速度,采用主成分分析(PCA)方法对特征图进行降维,再以降维后的向量作为基底进行加权求和,实现长距离依赖的捕捉。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种图像场景解析方法,其特征在于,包括:
预先训练用于执行图像场景解析的残差网络;其中,
所述残差网络包括依次连接的输入层、含有多个卷积层的基本网络层、特征图层、自注意力模块、1*1卷积层和输出层;
所述基本网络层用于从输入层输入的图像数据中提取特征图数据输入特征图层;自注意力模块用于对所述特征图数据重加权并将重加权后的数据与所述特征图数据拼接;所述1*1卷积层用于对拼接后数据的通道数进行调整并将调整后的数据经输出层输出;
在自注意力模块中,输入的所述特征图数据被1*1卷积核处理后形成索引数据、键数据和值数据;通过主成分分析方法对所述键数据进行降维,计算降维后的键数据与所述索引数据的相似度并将该相似度标准化,将标准化后的相似度与所述值数据相乘从而得到所述重加权后的数据;以及
将目标图像输入训练完成的所述残差网络中,得到目标图像各像素对应的场景。
2.根据权利要求1所述的图像场景解析方法,其特征在于,所述通过主成分分析方法对所述键数据进行降维,包括:
将所述键数据转换为N行M列的初始矩阵;
将初始矩阵的每一行进行零均值化处理;
确定经零均值化处理的初始矩阵的协方差矩阵;
获取该协方差矩阵的多个特征值以及每一特征值对应的特征向量;
获取最大的K个特征值以及相应的特征向量,将该特征向量按照对应的特征值从大到小的顺序排列从而形成变换矩阵;
将变换矩阵与初始矩阵相乘从而将所述键数据的维度从M降到K;其中,
N为通道数,M为所述特征图数据的宽度和高度的乘积,K为小于M的正整数。
3.根据权利要求1所述的图像场景解析方法,其特征在于,所述预先训练用于执行图像场景解析的残差网络,包括:
获取包括多个训练样本的训练集;其中,每一训练样本中包含一幅可见光图像以及该图像各像素的场景解析结果;
利用该训练集训练所述残差网络。
4.根据权利要求3所述的图像场景解析方法,其特征在于,
所述标准化是通过softmax函数实现的;
所述自注意力模块为非局部模块non-localblock;
所述目标图像和所述可见光图像为具有天空、地面物体和/或无人机的图像。
5.一种图像场景解析装置,其特征在于,包括:
训练单元,用于预先训练用于执行图像场景解析的残差网络;其中,
所述残差网络包括依次连接的输入层、含有多个卷积层的基本网络层、特征图层、自注意力模块、1*1卷积层和输出层;
所述基本网络层用于从输入层输入的图像数据中提取特征图数据输入特征图层;自注意力模块用于对所述特征图数据重加权并将重加权后的数据与所述特征图数据拼接;所述1*1卷积层用于对拼接后数据的通道数进行调整并将调整后的数据经输出层输出;
在自注意力模块中,输入的所述特征图数据被1*1卷积核处理后形成索引数据、键数据和值数据;通过主成分分析方法对所述键数据进行降维,计算降维后的键数据与所述索引数据的相似度并将该相似度标准化,将标准化后的相似度与所述值数据相乘从而得到所述重加权后的数据;以及
解析单元,用于将目标图像输入训练完成的所述残差网络中,得到目标图像各像素对应的场景。
6.根据权利要求5所述的图像场景解析装置,其特征在于,所述装置进一步包括降维单元,其用于:
将所述键数据转换为N行M列的初始矩阵;
将初始矩阵的每一行进行零均值化处理;
确定经零均值化处理的初始矩阵的协方差矩阵;
获取该协方差矩阵的多个特征值以及每一特征值对应的特征向量;
获取最大的K个特征值以及相应的特征向量,将该特征向量按照对应的特征值从大到小的顺序排列从而形成变换矩阵;
将变换矩阵与初始矩阵相乘从而将所述键数据的维度从M降到K;其中,
N为通道数,M为所述特征图数据的宽度和高度的乘积,K为小于M的正整数。
7.根据权利要求5所述的图像场景解析装置,其特征在于,训练单元进一步用于:
获取包括多个训练样本的训练集;其中,每一训练样本中包含一幅可见光图像以及该图像各像素的场景解析结果;
利用该训练集训练所述残差网络。
8.根据权利要求7所述的图像场景解析装置,其特征在于,
所述标准化是通过softmax函数实现的;
所述自注意力模块为非局部模块non-localblock;
所述目标图像和所述可见光图像为具有天空、地面物体和/或无人机的图像。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010512952.7A CN111667495A (zh) | 2020-06-08 | 2020-06-08 | 一种图像场景解析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010512952.7A CN111667495A (zh) | 2020-06-08 | 2020-06-08 | 一种图像场景解析方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111667495A true CN111667495A (zh) | 2020-09-15 |
Family
ID=72387097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010512952.7A Pending CN111667495A (zh) | 2020-06-08 | 2020-06-08 | 一种图像场景解析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111667495A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379657A (zh) * | 2021-05-19 | 2021-09-10 | 上海壁仞智能科技有限公司 | 基于随机矩阵的图像处理方法及装置 |
WO2022242127A1 (zh) * | 2021-05-21 | 2022-11-24 | 中国科学院深圳先进技术研究院 | 图像特征提取方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650813A (zh) * | 2016-12-27 | 2017-05-10 | 华南理工大学 | 一种基于深度残差网络和lstm的图像理解方法 |
CN108229478A (zh) * | 2017-06-30 | 2018-06-29 | 深圳市商汤科技有限公司 | 图像语义分割及训练方法和装置、电子设备、存储介质和程序 |
CN108921029A (zh) * | 2018-06-04 | 2018-11-30 | 浙江大学 | 一种融合残差卷积神经网络和pca降维的sar自动目标识别方法 |
CN110163878A (zh) * | 2019-05-28 | 2019-08-23 | 四川智盈科技有限公司 | 一种基于双重多尺度注意力机制的图像语义分割方法 |
CN110245665A (zh) * | 2019-05-13 | 2019-09-17 | 天津大学 | 基于注意力机制的图像语义分割方法 |
CN111127493A (zh) * | 2019-11-12 | 2020-05-08 | 中国矿业大学 | 基于注意力多尺度特征融合的遥感图像语义分割方法 |
CN111210432A (zh) * | 2020-01-12 | 2020-05-29 | 湘潭大学 | 一种基于多尺度多级注意力机制的图像语义分割方法 |
-
2020
- 2020-06-08 CN CN202010512952.7A patent/CN111667495A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650813A (zh) * | 2016-12-27 | 2017-05-10 | 华南理工大学 | 一种基于深度残差网络和lstm的图像理解方法 |
CN108229478A (zh) * | 2017-06-30 | 2018-06-29 | 深圳市商汤科技有限公司 | 图像语义分割及训练方法和装置、电子设备、存储介质和程序 |
CN108921029A (zh) * | 2018-06-04 | 2018-11-30 | 浙江大学 | 一种融合残差卷积神经网络和pca降维的sar自动目标识别方法 |
CN110245665A (zh) * | 2019-05-13 | 2019-09-17 | 天津大学 | 基于注意力机制的图像语义分割方法 |
CN110163878A (zh) * | 2019-05-28 | 2019-08-23 | 四川智盈科技有限公司 | 一种基于双重多尺度注意力机制的图像语义分割方法 |
CN111127493A (zh) * | 2019-11-12 | 2020-05-08 | 中国矿业大学 | 基于注意力多尺度特征融合的遥感图像语义分割方法 |
CN111210432A (zh) * | 2020-01-12 | 2020-05-29 | 湘潭大学 | 一种基于多尺度多级注意力机制的图像语义分割方法 |
Non-Patent Citations (3)
Title |
---|
刘航;汪西莉;: "基于注意力机制的遥感图像分割模型" * |
肖政宏等: "基于PCA和GMM的图像分类算法" * |
边小勇;费雄君;穆楠;: "基于尺度注意力网络的遥感图像场景分类" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379657A (zh) * | 2021-05-19 | 2021-09-10 | 上海壁仞智能科技有限公司 | 基于随机矩阵的图像处理方法及装置 |
CN113379657B (zh) * | 2021-05-19 | 2022-11-25 | 上海壁仞智能科技有限公司 | 基于随机矩阵的图像处理方法及装置 |
WO2022242127A1 (zh) * | 2021-05-21 | 2022-11-24 | 中国科学院深圳先进技术研究院 | 图像特征提取方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188795B (zh) | 图像分类方法、数据处理方法和装置 | |
US20220092351A1 (en) | Image classification method, neural network training method, and apparatus | |
CN108229468B (zh) | 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备 | |
EP3968179A1 (en) | Place recognition method and apparatus, model training method and apparatus for place recognition, and electronic device | |
US20170083754A1 (en) | Methods and Systems for Verifying Face Images Based on Canonical Images | |
US20220148291A1 (en) | Image classification method and apparatus, and image classification model training method and apparatus | |
CN109684969B (zh) | 凝视位置估计方法、计算机设备及存储介质 | |
US20220157041A1 (en) | Image classification method and apparatus | |
US20230177641A1 (en) | Neural network training method, image processing method, and apparatus | |
US11615612B2 (en) | Systems and methods for image feature extraction | |
CN111709313B (zh) | 基于局部和通道组合特征的行人重识别方法 | |
US20220157046A1 (en) | Image Classification Method And Apparatus | |
CN113191489B (zh) | 二值神经网络模型的训练方法、图像处理方法和装置 | |
CN114972976B (zh) | 基于频域自注意力机制的夜间目标检测、训练方法及装置 | |
CN115170746B (zh) | 一种基于深度学习的多视图三维重建方法、系统及设备 | |
CN108121962B (zh) | 基于非负自适应特征提取的人脸识别方法、装置及设备 | |
CN114743009B (zh) | 一种高光谱影像波段选择方法、系统及电子设备 | |
CN111667495A (zh) | 一种图像场景解析方法和装置 | |
CN115601820A (zh) | 一种人脸伪造图像检测方法、装置、终端及存储介质 | |
CN111507288A (zh) | 图像检测方法、装置、计算机设备和存储介质 | |
CN111444957B (zh) | 图像数据处理方法、装置、计算机设备和存储介质 | |
CN116758419A (zh) | 针对遥感图像的多尺度目标检测方法、装置和设备 | |
CN112862840B (zh) | 图像分割方法、装置、设备及介质 | |
CN115115910A (zh) | 图像处理模型的训练方法、使用方法、装置、设备及介质 | |
CN114863132A (zh) | 图像空域信息的建模与捕捉方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |