CN113688702A - 基于融合多特征的街景图像处理方法及系统 - Google Patents

基于融合多特征的街景图像处理方法及系统 Download PDF

Info

Publication number
CN113688702A
CN113688702A CN202110921847.3A CN202110921847A CN113688702A CN 113688702 A CN113688702 A CN 113688702A CN 202110921847 A CN202110921847 A CN 202110921847A CN 113688702 A CN113688702 A CN 113688702A
Authority
CN
China
Prior art keywords
image
layer
feature
pooling
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110921847.3A
Other languages
English (en)
Other versions
CN113688702B (zh
Inventor
李晓林
徐港
邵长成
周一凡
黄磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Institute of Technology
Original Assignee
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology filed Critical Wuhan Institute of Technology
Priority to CN202110921847.3A priority Critical patent/CN113688702B/zh
Publication of CN113688702A publication Critical patent/CN113688702A/zh
Application granted granted Critical
Publication of CN113688702B publication Critical patent/CN113688702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于融合多特征的街景图像处理方法,包括以下步骤:待处理的街景图像经过卷积神经网络后得到C个特征信息图;将C个特征信息图均复制l份,并分别划分为大小不一的区域,然后将分好区域的图均输入三个池化层,对每幅图均进行平均池化计算、最大池化计算与广义平均池化计算;将经池化计算后的各个区域中的相同尺度向量归为一列,并将所有尺度向量进行串联,得到一个l*C维的多维特征向量;将三种池化层得到的多维特征向量进行拼接,得到最终的全局特征,并输入到全连接层进行降维。本发明能够有效提取图像特征,降低训练的复杂性,提高检索的精确率。

Description

基于融合多特征的街景图像处理方法及系统
技术领域
本发明涉及图像处理领域,尤其涉及一种基于融合多特征的街景图像处 理方法及系统。
背景技术
随着网络中的图片资源呈现指数级增长,而众多领域中,需要根据不同 的需求检索相关图片,故检索相关图像的方法显得尤为重要。近些年,基于 内容的图像检索方法(ContentBasedImageRetrieval,CBIR)兴起,并成为 当前的研究热门方向。
传统的图像检索方法中,陈等使用SITF方法,在空间尺度中寻找极值点, 并提取出其位置、尺度、旋转不变量,将极值点的属性信息作为图像的特征 用于图像检索。马等通过GIST方法提取出图像的方向频率信息等局部特征作 为图像特征。虽然此类方法取得了一定的效果,但无法捕获图像数据变化剧 烈时的高层语义特征,限制了图像检索的精度。
近年来,随着ImageNet的出现,卷积神经网络得到了广泛应用,紧接着, AlexNet、VGGNet、GoogleNet等被相继提出。任等使用卷积神经网络提取特 征进行图像检索,相对于传统检索方法,得到了良好的效果。但传统的卷积 神经网络主要针对于图像分类任务,若直接用于图像检索,所提取到的特征 并不能捕获街景图像的关键信息,仍存在检索精度低的问题。
为解决此问题,研究人员开始引入注意力机制提取关键区域的特征信息。 李提出了一种软注意力与硬注意力机制并行的模型,通过多注意力机制的方 法,突出图像特征的关键部分。Kim提出一种基于注意力机制的集成模型,为 网络模型中可训练的部分学习不同的注意力模块,并在其中嵌入函数用于对 特征的提取训练。此类方法有助于突出关键区域的特征,但提取的特征仍没 有对图像关键区域进行有效的描述。
在过去的数十年中,集成方法广泛应用于图像检索中。通过对可学习的 协作控制部分进行训练,并将训练得到的全局特征集成到一个模型中能够有 效提高检索的性能。在GoogleLandmarkRetrieval竞赛中,几种名列前茅的 方法通过单独训练不同的全局特征并组合起来,取得了较理想的效果。Dai提 出了一种批量擦除特征,在处理后的特征使用最大池化 (MaximumActivationofConvolutions,MAC)的方法,使特征的表示得到优 化。目前,常用的池化方法还包括平均池化(Sum pooling of convolutions,SPOC),与广义平均池化(Generalizedmean pooling,GeM)。 这些集成方法虽然能提高图像检索的精度,但是这些方法都需要对多个部分 进行独立训练,存在网络规模大,训练时间长,训练参数多等问题。
此外,在传统的卷积神经网络中,在特征图输入到全连接层时,特征图 的尺寸大小必须是固定的,若图像输入到全连接层时尺寸大小不符合输入要 求,特征图将会被裁剪或者缩放。在这个过程中,图像的特征将会被改变, 甚至造成特征的丢失。
发明内容
本发明主要目的在提供一种能够避免图像在输入到全连接层时将建筑物 部分剪裁,从而保证检索性能的基于融合多特征的街景图像处理方法及系统。
本发明所采用的技术方案是:
提供一种基于融合多特征的街景图像处理方法,包括以下步骤:
待处理的街景图像经过卷积神经网络后得到C个特征信息图,该卷积神 经网络的最后一个卷积层作为特征层用来捕获图像中待处理的街景图像,且 该最后一个卷积层连接三个池化层,包括多尺度平均池化层、多尺度最大池 化层与多尺度广义平均池化层;
将C个特征信息图均复制l份,并分别划分为大小不一的区域,然后将 分好区域的图均输入三个池化层,对每幅图均进行平均池化计算、最大池化 计算与广义平均池化计算;
将经池化计算后的各个区域中的相同维度向量归为一列,经过排列组合 并筛除组合后维度不同的向量后,将所有向量进行串联,得到一个l*C维的 多维特征向量,其中l、C均为自然数;
将三种池化层得到的多维特征向量输入到全连接层进行降维,将降维后 的向量进行拼接,得到最终的全局特征。
接上述技术方案,n≥4。
接上述技术方案,划分区域region大小的公式如下所示:
Figure BDA0003207706430000031
li的取值为1,2,3…l;H为特征信息图的高度,W 为特征信息图的宽度。
接上述技术方案,该方法还包括步骤:
计算待处理的街景图像的最终全局特征与预存的数据库中每张图像的全 局特征之间的曼哈顿距离,找到与待处理的街景图像之间曼哈顿距离越小的 图像。
接上述技术方案,通过交叉匹配的方式将区域中的相同尺度向量归为一 列。
本发明还提供了一种基于融合多特征的街景图像处理的卷积神经网络, 包括:
卷积层模块,其最后一个卷积层作为特征层用来捕获图像中待处理的街 景图像,用于将待处理的街景图像经过卷积后得到C个特征信息图,
分区模块,用于将C个特征信息图均复制l份,并分别划分为大小不一 的区域;
池化层模块,包括三个池化层:多尺度平均池化层、多尺度最大池化层 与多尺度广义平均池化层,用于将分好区域每幅图均进行平均池化计算、最 大池化计算与广义平均池化计算;
全连接层模块,用于将经池化计算后的各个区域中的相同尺度向量归为 一列,并将所有尺度向量进行串联,得到一个l*C维的多维特征向量,其中 l、C均为自然数;并将三种池化层得到的多维特征向量进行拼接,得到最终 的全局特征;
归一化层模块,用于将最终的全局特征进行降维。
接上述技术方案,划分区域region大小的公式如下所示:
Figure BDA0003207706430000041
li的取值为1,2,3…l;H为特征信息图的高度,W 为特征信息图的宽度。
接上述技术方案,该系统还包括匹配模块,用于计算待处理的街景图像 的最终全局特征与预存的数据库中每张图像的全局特征之间的曼哈顿距离, 找到与待处理的街景图像之间曼哈顿距离越小的图像。
接上述技术方案,通过交叉匹配的方式将区域中的相同尺度向量归为一 列。
本发明还提供了一种计算机存储介质,其内存储有可被处理器执行的计 算机程序,该计算机程序执行上述技术方案的基于融合多特征的街景图像处 理方法。
本发明产生的有益效果是:本发明提出了一种融合多全局特征的街景图 像检索方法。首先使用卷积神经网络提取图像的特征,然后通过多个不同的 池化层对特征进行处理,得到多个全局特征,最后将多个全局特征进行串联 组合得到的最终特征用于图像检索,计算图像之间的曼哈顿距离度量图像的 相似性。在本发明中,实现了端到端的训练方式,通过多尺度池化层减少了 图像输入到全连接层时的特征丢失,使得全局特征的信息更加丰富。本发明 避免了独立训练多个全局特征的复杂操作,能有效降低内存消耗与时间成本。 获得了良好的集成效果,解决了传统图像检索方法精度低的问题。最终特征 保留了街景图像中关键区域的属性信息,有效提高了街景图像的检索精度。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例基于融合多特征的街景图像处理方法的流程图;
图2为基于多尺度池化层提取图像特征的图像处理框架示意图;
图3为本发明实施例中多尺度池化层提取图像特征的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及 实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施 例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例基于融合多特征的街景图像处理方法,包括 以下步骤:
S1、待处理的街景图像经过卷积神经网络后得到C个特征信息图,该卷 积神经网络的最后一个卷积层作为特征层用来捕获图像中待处理的街景图像, 且该最后一个卷积层连接三个池化层,包括多尺度平均池化层、多尺度最大 池化层与多尺度广义平均池化层;
本发明中其实是对传统的卷积神经网络进行了微调,即将卷积神经网络 的最后一个卷积层作为特征层用来捕获图像中待处理的街景图像,且该最后 一个卷积层连接三个池化层。本发明分别利用多尺度新型平均池化层、多尺 度新型最大池化层与多尺度新型广义平均池化层提取出固定维度的全局特征, 从而避免特征信息输入到全连接层时特征的丢失。将经过全连接层的降维得 到的全局特征进行串联,作为图像的最终全局特征。
在传统方法中,微调卷积神经网络包括两个步骤,先在卷积神经网络中添 加分类损失的函数,然后对特定的网络进行训练,从而调整卷积神经网络的 参数,达到微调效果。而在本专利中,可以通过端到端的方式,将两个步骤 合二为一,使得微调过程能够更加快捷、稳定。本发明具体将卷积神经网络 的最后一个卷积层作为特征层用来捕获图像中待处理的街景图像,轮包括廓、 建筑样式等特征信息,从而获取更加适合街景图像的特征图。
S2、得到S1步骤处理得到的特征信息图后,进行图像的特征处理。之后 使用不同的尺寸进行池化后,能够得到C个特征向量fregion,将fregion均复制 l份,并分别划分为大小不一的区域,然后将分好区域的图均输入多尺度平均 池化层、多尺度最大池化层与多尺度广义平均池化层,对每幅图均进行平均 池化计算、最大池化计算与广义平均池化计算;
S3、经过(交叉匹配)排列组合的方式将区域中的所有特征向量进行组 合,筛除尺度不相同的向量,将经过池化计算后的各个区域中的相同尺度向 量归为一列,并将所有尺度向量进行串联(例如得到4个特征向量,a,bb, ccc,dd进行排列组合,若个数代表维度,那么最终存在的向量只有bbdd,ddbb), 得到一个l*C维的多维特征向量,其中l、C均为自然数;
S4、将三种池化层得到的多维特征向量进行拼接,得到最终的全局特征;
S5、将最终的全局特征输入到全连接层进行降维。
如图2所示,将最后一个卷积层后分别连接三种池化层:多尺度最大池 化层、多尺度平均池化层与多尺度广义平均池化层。本发明分别利用多尺度 新型平均池化层、多尺度新型最大池化层与多尺度新型广义平均池化层提取 出固定维度的全局特征,从而避免特征信息输入到全连接层时特征的丢失。 最后将经过全连接层的降维得到的全局特征进行串联,作为图像的最终全局 特征。
经S1步骤处理后的特征信息图X为C*H*W,其中,C为特征图的通道个 数,当图像的尺寸为H*W时,设Xc为对应的特征图,其中c∈{1,2,3,……C}, 则卷积神经网络的输出维度为C,尺寸为H*W的二维特征图。
在卷积层中,得到的输出特征向量为f,对于f表示可如公式1所示。
f=[f1,f2,f3,……,fC]T (1)
其中,fC可表示为
Figure BDA0003207706430000071
公式(2)中,Pc是一个可调节的参数,当Pc=1时,公式得到的特征向量f为平均池化层得到的结果,故对f(s)定义为当Pc=1时的池化结果;当Pc=∞ 时,特征向量f为最大池化层得到的结果,将f(m)定义为当Pc=∞时的池化结 果,广义平均池化层中的Pc是一个可训练的参数,同样也可以手动设置。
将图像经卷积层、池化层提取关键特征后,连接全连接层与归一化层L2 进行降维,第i(i=1,2,3)分支输出的特征向量
Figure BDA0003207706430000087
为:
Figure BDA0003207706430000081
其中,i∈{1,2,3},W(i)为全连接层的权重,当ei=a时,全局特征f(e)为 经平均池化层得到;当ei=m时,全局特征f(e)为经最大池化层得到;当ei=g 时,全局特征
Figure BDA0003207706430000082
为经广义平均池化层得到。
分别得到三种全局特征后,将它们进行组合起来,并进行一次L2规范化, 将三种全局特征的值域范围进行统一,可得最终特征为:
Figure BDA0003207706430000083
其中ei∈{a,m,g},
Figure BDA0003207706430000084
代表串联。
如图3所示,S2步骤中,将特征信息图复制l份,本发明实施例中l为4份, 分别划分为大小不一的区域region,划分区域公式如下所示:
Figure BDA0003207706430000085
其中,l∈{1,2,3,4},特征信息图划分区域后,分别进行最大池化计算、平 均池化计算与广义平均池化计算,设最后一个卷积层输出了C个特征信息图, 尺寸为H*W,那么方形区域
Figure BDA0003207706430000086
的特征向量为:
fregion=[fregion,1,fregion,2,fregion,3,……,fregion,C]T (2)
在不同的池化层中,fregion,不相同,在平均池化层中,计算公式如下:
Figure BDA0003207706430000091
在最大池化层中,计算公式如下:
fregion,c=max(P∈region) (4)
其中,xi(P)表示在特征区域region中第i个位置中的最大值。
自此,街景图像的特征处理完毕。
得到待处理的街景图像的最终全局特征pi后,计算其与数据库中每张图像 的全局特征之间的曼哈顿距离,计算公式如下:
Figure BDA0003207706430000092
pi为数据库图像的特征;qi为查询图像的特征;n为图像的维度。计算出查 询图像与数据库图像的曼哈顿距离后进行排序,得到检索的结果。曼哈顿距 离越小,代表图像之间的相似度越高。
街景图像中存在大量重复的元素,例如车辆、树木、马路、行人等,而这 些元素都是属于干扰元素,而建筑物是一个地理位置中不会移动的元素,所 以类似于建筑物的属性元素才能为图像检索提供区分力度,从而检索到最相 近的地理位置。
仅仅基于某一种全局特征,无法判定图像中是否存在建筑物,是否与数据 库中的某个建筑物相似,而使用融合多个全局特征的方法,能够为街景图像 中检索服务。通过提取不同属性的全局特征,保证了建筑物等独特地理标志 在图像检索中的区分力度,通过多个属性对一张图像进行特征匹配,克服了 传统方法中街景图像检索无法提供正确地理位置的问题。
在本发明中,之所以对待处理的街景图像进行多维特征向量的处理,是因 为这样的向量更能突出表述图像中所包含的重要信息。比如说黄鹤楼的图像, 那么在图片本身更显眼的是黄鹤楼,长江则属于背景。这样的图像转换为特 征向量后,在向量层次中也能反映出这样的特征,因此称之为特征向量。而 我们的工作就是如何通过深度学习的方法使得特征向量能够更好的表示街景 图像,使得街景图像中的建筑物更加突出,从而在匹配的过程中能够起到决 定性作用。
本发明对多个全局特征的提取方法,并不是随意进行挑选组合,在本专利 方法中,选择通过最大池化层、平均池化层、广义平均池化层方法分别进行 全局特征提取。平均池化层注重于图像中所占比例较大的对象区域,而最大 池化层注重图像纹理特征更加集中的区域,广义平均池化层则是一个动态的 池化选择,因为在广义平均池化层中,当参数p取到不同的值时,所关注的 特征也在变化,当p取0或无穷大时,广义平均池化层则相当于平均池化层 或最大池化层。
在这样的选择中,更加适应街景图像的特征提取。在街景图像数据集中, 存在着这样的情况:建筑物在图像中占比极小,且位于图像的角落;建筑物 在图像中占比达到100%,即整个图像都是建筑物的一部分;建筑物在图像中 占比均匀,与目前的公开数据集形式类似。这三种情况中,若街景图像占比 极小,最大池化层能够较好地提取建筑物特征,保证建筑物能够被识别到, 且能够提取该图像的有效特征;若建筑物占比为100%,那么平均池化层能够 提取建筑物的特征;当建筑物占比均匀时,广义平均池化层能够有效提取图像特征。
同时,使用多尺度池化层方法替代传统ReSize方法,除了能够减少特征丢 失,对于街景图像的特征也有一个较好的处理效果。使用三种池化层替代Resize方法,能够更好的保留融合前的全局特征的属性,保证了检索性能。 在传统的图像数据集中,图像关键内容一般位于图像的中央部分。例如在 CUB200数据集中,所有图像均为不同的鸟类在不同环境中的不同姿态,鸟类 所占的位置均为图像中央。而在街景图像中,能够为图像检索提供区分力度 的核心内容为建筑部分,而建筑部分并不经常处于图像中央,甚至会出现在 图像角落、图像上方。故使用此方法,能够避免图像在输入到全连接层时将 建筑物部分剪裁,从而保证了检索的性能。
本发明对卷积神经网络微调后,还需要对其进行训练,不断调整模型参数, 从而能够更好地提取待处理的街景图像的特征信息。
在保证快捷稳定的前提下,模型训练时,需要考虑如何避免训练后的过 拟合现象,而SoftMax交叉熵损失中的“温度缩放”与“标签平滑”对于过 拟合有很好的控制效果,“温度缩放”是指在SoftMax中加入一个温度参数, 加大训练梯度;标签平滑通过加入标签label,对边缘化效应进行预测,SoftMax 损失定义为:
Figure BDA0003207706430000111
其中N为Batch Size,M为分类数量,yi为每一类所对应的标签,W,b为 可训练的参数,分别是权重与偏差,f为第一个分支得到的全局特征,τ是温 度参数,默认值为1。τ在训练中有助于加强类内的紧凑型与加大类间的差异 性,标签平滑同时也能特征提取的泛化能力。
本发明的卷积神经网络经过训练和不断进行参数调整后,可以更加有效、 准确的自动提取出图像中的关键信息。待处理的街景图像经过本发明改进后 的卷积神经网络后,得到最终的全局特征,然后将其与数据库中的特征进行 匹配,得到最高匹配度的结果。
该方法可在Win10环境下基于Python运行,所使用的深度学习框架为 Pytorch,版本为1.8.0。
本发明实施例基于融合多特征的街景图像处理的卷积神经网络,包括:
卷积层模块,其最后一个卷积层作为特征层用来捕获图像中待处理的街 景图像,用于将待处理的街景图像经过卷积后得到C个特征信息图,
分区模块,用于将C个特征信息图均复制l份,并分别划分为大小不一 的区域;
池化层模块,包括三个池化层:多尺度平均池化层、多尺度最大池化层 与多尺度广义平均池化层,用于将分好区域每幅图均进行平均池化计算、最 大池化计算与广义平均池化计算;
全连接层模块,用于将经池化计算后的各个区域中的相同尺度向量归为 一列,并将所有尺度向量进行串联,得到一个l*C维的多维特征向量,其中 l、C均为自然数;并将三种池化层得到的多维特征向量进行拼接,得到最终 的全局特征;
归一化层模块,用于将最终的全局特征进行降维。
上述实施例的系统主要用于实现基于融合多特征的街景图像处理方法实 施例,各个模块的功能参见上文方法实施例,在此不一一赘述。
本申请还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡 型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机 访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务 器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于基于融合多特征的街景图像 处理系统,被处理器执行时实现方法实施例的基于融合多特征的街景图像处 理方法。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改 进或变换,而所有这些改进和变化都应属于本发明所附权利要求的保护范围。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改 进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种基于融合多特征的街景图像处理方法,其特征在于,包括以下步骤:
待处理的街景图像经过卷积神经网络后得到C个特征信息图,该卷积神经网络的最后一个卷积层作为特征层用来捕获图像中待处理的街景图像,且该最后一个卷积层连接三个池化层,包括多尺度平均池化层、多尺度最大池化层与多尺度广义平均池化层;
将C个特征信息图均复制l份,并分别划分为大小不一的区域,然后将分好区域的图均输入三个池化层,对每幅图均进行平均池化计算、最大池化计算与广义平均池化计算;
将经池化计算后的各个区域中的相同维度向量归为一列,经过排列组合并筛除组合后维度不同的向量后,将所有向量进行串联,得到一个l*C维的多维特征向量,其中l、C均为自然数;
将三种池化层得到的多维特征向量输入到全连接层进行降维,将降维后的向量进行拼接,得到最终的全局特征。
2.根据权利要求1所述的基于融合多特征的街景图像处理方法,其特征在于,n≥4。
3.根据权利要求1所述的基于融合多特征的街景图像处理方法,其特征在于,划分区域region大小的公式如下所示:
Figure FDA0003207706420000011
li的取值为1,2,3…l;H为特征信息图的高度,W为特征信息图的宽度。
4.根据权利要求1所述的基于融合多特征的街景图像处理方法,其特征在于,该方法还包括步骤:
计算待处理的街景图像的最终全局特征与预存的数据库中每张图像的全局特征之间的曼哈顿距离,找到与待处理的街景图像之间曼哈顿距离越小的图像。
5.根据权利要求1所述的基于融合多特征的街景图像处理方法,其特征在于,通过交叉匹配的方式将区域中的相同尺度向量归为一列。
6.一种基于融合多特征的街景图像处理的卷积神经网络,其特征在于,包括:
卷积层模块,其最后一个卷积层作为特征层用来捕获图像中待处理的街景图像,用于将待处理的街景图像经过卷积后得到C个特征信息图,
分区模块,用于将C个特征信息图均复制l份,并分别划分为大小不一的区域;
池化层模块,包括三个池化层:多尺度平均池化层、多尺度最大池化层与多尺度广义平均池化层,用于将分好区域每幅图均进行平均池化计算、最大池化计算与广义平均池化计算;
全连接层模块,用于将经池化计算后的各个区域中的相同尺度向量归为一列,并将所有尺度向量进行串联,得到一个l*C维的多维特征向量,其中l、C均为自然数;并将三种池化层得到的多维特征向量进行拼接,得到最终的全局特征;
归一化层模块,用于将最终的全局特征进行降维。
7.根据权利要求6所述的基于融合多特征的街景图像处理系统,其特征在于,划分区域region大小的公式如下所示:
Figure FDA0003207706420000021
li的取值为1,2,3…l;H为特征信息图的高度,W为特征信息图的宽度。
8.根据权利要求6所述的基于融合多特征的街景图像处理系统,其特征在于,该系统还包括匹配模块,用于计算待处理的街景图像的最终全局特征与预存的数据库中每张图像的全局特征之间的曼哈顿距离,找到与待处理的街景图像之间曼哈顿距离越小的图像。
9.根据权利要求6所述的基于融合多特征的街景图像处理系统,其特征在于,通过交叉匹配的方式将区域中的相同尺度向量归为一列。
10.一种计算机存储介质,其特征在于,其内存储有可被处理器执行的计算机程序,该计算机程序执行权利要求1-5中任一项所述的基于融合多特征的街景图像处理方法。
CN202110921847.3A 2021-08-12 2021-08-12 基于融合多特征的街景图像处理方法及系统 Active CN113688702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110921847.3A CN113688702B (zh) 2021-08-12 2021-08-12 基于融合多特征的街景图像处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110921847.3A CN113688702B (zh) 2021-08-12 2021-08-12 基于融合多特征的街景图像处理方法及系统

Publications (2)

Publication Number Publication Date
CN113688702A true CN113688702A (zh) 2021-11-23
CN113688702B CN113688702B (zh) 2024-04-26

Family

ID=78580072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110921847.3A Active CN113688702B (zh) 2021-08-12 2021-08-12 基于融合多特征的街景图像处理方法及系统

Country Status (1)

Country Link
CN (1) CN113688702B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937649A (zh) * 2022-11-21 2023-04-07 元化智能科技(深圳)有限公司 胶囊内窥镜图像的处理方法、装置及处理设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066520A (zh) * 2017-02-14 2017-08-18 北京飞搜科技有限公司 一种基于多个语义层次的图片检索方法及系统
CN109948524A (zh) * 2019-03-18 2019-06-28 北京航空航天大学 一种基于空基监视的交通车辆密度估计方法
CN110188817A (zh) * 2019-05-28 2019-08-30 厦门大学 一种基于深度学习的实时高性能街景图像语义分割方法
CN110942106A (zh) * 2019-12-13 2020-03-31 东华大学 一种基于平方平均的池化卷积神经网络图像分类方法
JP2020155111A (ja) * 2019-03-22 2020-09-24 ネイバー コーポレーションNAVER Corporation イメージ検索のためのマルチグローバルディスクリプタを組み合わせるフレームワーク
KR20200112574A (ko) * 2019-03-22 2020-10-05 네이버 주식회사 이미지 검색을 위한 다중 글로벌 디스크립터를 조합하는 프레임워크
WO2020215236A1 (zh) * 2019-04-24 2020-10-29 哈尔滨工业大学(深圳) 图像语义分割方法和系统
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
WO2021107471A1 (ko) * 2019-11-29 2021-06-03 주식회사 뷰노 의료 데이터 검색 방법

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066520A (zh) * 2017-02-14 2017-08-18 北京飞搜科技有限公司 一种基于多个语义层次的图片检索方法及系统
CN109948524A (zh) * 2019-03-18 2019-06-28 北京航空航天大学 一种基于空基监视的交通车辆密度估计方法
JP2020155111A (ja) * 2019-03-22 2020-09-24 ネイバー コーポレーションNAVER Corporation イメージ検索のためのマルチグローバルディスクリプタを組み合わせるフレームワーク
KR20200112574A (ko) * 2019-03-22 2020-10-05 네이버 주식회사 이미지 검색을 위한 다중 글로벌 디스크립터를 조합하는 프레임워크
WO2020215236A1 (zh) * 2019-04-24 2020-10-29 哈尔滨工业大学(深圳) 图像语义分割方法和系统
CN110188817A (zh) * 2019-05-28 2019-08-30 厦门大学 一种基于深度学习的实时高性能街景图像语义分割方法
WO2021107471A1 (ko) * 2019-11-29 2021-06-03 주식회사 뷰노 의료 데이터 검색 방법
CN110942106A (zh) * 2019-12-13 2020-03-31 东华大学 一种基于平方平均的池化卷积神经网络图像分类方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马永杰;程时升;马芸婷;陈敏;: "多尺度特征融合与极限学习机结合的交通标志识别", 液晶与显示, no. 06, pages 63 - 73 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937649A (zh) * 2022-11-21 2023-04-07 元化智能科技(深圳)有限公司 胶囊内窥镜图像的处理方法、装置及处理设备
CN115937649B (zh) * 2022-11-21 2023-08-01 元化智能科技(深圳)有限公司 胶囊内窥镜图像的处理方法、装置及处理设备

Also Published As

Publication number Publication date
CN113688702B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
Ienco et al. Fuzzy extensions of the DBScan clustering algorithm
Wang et al. Building extraction from remote sensing images using deep residual U-Net
Jiao et al. SAR images retrieval based on semantic classification and region-based similarity measure for earth observation
CN109063112B (zh) 一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法
Yang et al. Superpixel-based unsupervised band selection for classification of hyperspectral images
CN104834693A (zh) 基于深度搜索的视觉图像检索方法及系统
Zhou et al. Image retrieval based on effective feature extraction and diffusion process
Liang et al. A new image classification method based on modified condensed nearest neighbor and convolutional neural networks
Lu et al. Contextual kernel and spectral methods for learning the semantics of images
CN107315984B (zh) 一种行人检索的方法及装置
Hati et al. Image co-segmentation using maximum common subgraph matching and region co-growing
CN114299362A (zh) 一种基于k-means聚类的小样本图像分类方法
Jing et al. Object-based change detection for VHR remote sensing images based on a Trisiamese-LSTM
Feng et al. Urban zoning using higher-order markov random fields on multi-view imagery data
CN110188864B (zh) 基于分布表示和分布度量的小样本学习方法
CN115457332A (zh) 基于图卷积神经网络和类激活映射的图像多标签分类方法
CN116612307A (zh) 一种基于迁移学习的茄科病害等级识别方法
CN113688702B (zh) 基于融合多特征的街景图像处理方法及系统
Wu et al. Image retrieval framework based on texton uniform descriptor and modified manifold ranking
CN111488923B (zh) 增强的锚点图半监督分类方法
CN113553326A (zh) 电子表格数据处理方法、装置、计算机设备和存储介质
CN112765490A (zh) 一种基于知识图谱和图卷积网络的信息推荐方法及系统
Ji et al. Research on indoor scene classification mechanism based on multiple descriptors fusion
CN110188230A (zh) 基于语义的图像检索方法及装置
CN113139556B (zh) 基于自适应构图的流形多视图图像聚类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant