CN112733701A - 一种基于胶囊网络的鲁棒场景识别方法及系统 - Google Patents
一种基于胶囊网络的鲁棒场景识别方法及系统 Download PDFInfo
- Publication number
- CN112733701A CN112733701A CN202110016404.XA CN202110016404A CN112733701A CN 112733701 A CN112733701 A CN 112733701A CN 202110016404 A CN202110016404 A CN 202110016404A CN 112733701 A CN112733701 A CN 112733701A
- Authority
- CN
- China
- Prior art keywords
- network
- training
- sample
- capsule
- scene recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000002775 capsule Substances 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 73
- 239000013598 vector Substances 0.000 claims abstract description 45
- 210000002569 neuron Anatomy 0.000 claims abstract description 25
- 230000008859 change Effects 0.000 claims abstract description 22
- 238000010586 diagram Methods 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 238000005065 mining Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 abstract description 10
- 238000005286 illumination Methods 0.000 abstract description 8
- 230000001932 seasonal effect Effects 0.000 abstract description 6
- 239000010410 layer Substances 0.000 description 45
- 230000006870 function Effects 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
- G06V20/38—Outdoor scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于胶囊网络的鲁棒场景识别方法及系统,方法包括:将原始图片通过残差网络得到特征图;将得到的特征图输入到胶囊层中编码空间关系,首先将输入转换为向量神经元,并在不同胶囊层间通过动态路由算法最终编码得到整幅图像的低维向量表示,获得网络框架;利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对网络框架进行训练,以确定网络框架的参数;利用训练好的网络框架进行场景识别。一方面可以较少的表征维数就提升场景识别的准确性和鲁棒性,另一方面可以减小训练阶段对数据标签和数量的依赖,以更少的表征维数和训练数据来更好地应对动态物体、大视角变化、强光照变化、季节变化等极端因素下的场景识别问题。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于胶囊网络的鲁棒场景识别方法及系统。
背景技术
场景识别的目的是在参考图像数据库中找到与当前索引图像最相似(拍摄的是同一场景或地点)的一张或几张图像。该研究具有广阔的应用前景,可用于推荐系统或社交网站上的图像检索,也是视觉SLAM中重定位或闭环检测的关键环节,因此得到了大量的关注与研究。然而,场景识别仍是一个开放性的问题,每年相关的文章在各大会议上也是层出不穷,这是因为当前场景识别算法易受到动态物体、光照变化、视角变化、环境变化等因素的影响,难以在真实场景中有效应用,比如,当前方法很难将同一场景在雨雪天气、黑暗光照下所拍摄的图像进行正确关联。因此,面向复杂动态场景进行的鲁棒场景识别技术就显得尤为重要,本发明正是针对该问题提出的一种解决思路与方案。
场景识别的基本思路是构建一种图像表示,该表示能有效对图像中包含的要素进行建模,然后通过对该表示间的距离计算进行图像相似度的度量,实现图像检索。词袋模型(Bag-of-Words,BoW)是视觉SLAM中最常用的一种场景识别方法,它将图像表征为特征点的集合,并通过构建离线词典的方式将图像表征二值化,加快检索和匹配速度。这种方法相对较成熟,速度快,但只利用了图像中的局部特征信息,且整个图像仅表示为局部信息的无序集合,整个建模较粗糙,丢失了大量有用信息,因此对动态物体、大视角变化、光照变化、季节变化等极端因素具有局限性。随着深度学习的发展,基于卷积神经网络(CNN)的场景识别方法能通过CNN强大的特征表示能力来有效应对动态物体、大视角变化、强光照变化、季节变化等极端因素影响,是目前学术研究的方向。但该方法具有两个显著缺点:一是图像最终编码成的向量往往是较高维度的,这会大大增加计算或通信的开销,不利于实时性要求高的场景;二是训练过程需要大量具有标签和差异的数据,实用性、通用性和可扩展性差。此外,虽然基于CNN的场景识别已取得了一些进展,但其中通常只编码了视觉信息作为不变的特征,没有考虑特征间的空间几何关系。而场景布局和几何结构是场景识别的重要线索,由于在不同环境条件下,场景组成元素的空间关系往往变化不大,故在场景识别中考虑特征间的空间关系是有意义和必要的。为了引入特征的空间关系,一些工作在特征提取的基础上增加对特征的空间分布的分析,但过程却复杂繁琐,不利于在实际中的部署运用。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一,提供一种基于胶囊网络的鲁棒场景识别方法及系统。
本发明的一个方面,提供一种基于胶囊网络的鲁棒场景识别方法,所述方法包括以下步骤:
将原始图片通过残差网络得到特征图;
将通过所述残差网络得到的所述特征图输入到胶囊层中编码空间关系,首先将输入转换为向量神经元,并在不同胶囊层间通过动态路由算法最终编码得到整幅图像的低维向量表示,获得网络框架;
利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练,以确定所述网络框架的参数;利用所述训练好的网络框架进行场景识别。
在一些可选地实施方式中,所述胶囊层包括初始胶囊层和数字胶囊层,所述将通过所述残差网络得到的所述特征图输入到胶囊层中编码空间关系,最终得到整幅图像的低维向量表示,包括:
利用所述初始胶囊层,对得到的所述特征图进行卷积操作,将输入转换为向量神经元;
利用所述数字胶囊层,对所述卷积操作后的向量神经元通过动态路由算法最终编码得到整幅图像的低维向量表示。
在一些可选地实施方式中,在利用弱监督训练数据集对所述网络框架进行训练的过程中,所述弱监督训练数据集采用通用的弱监督街景数据,具体为:
当前比较成熟的谷歌街景数据,其中相同地点/场景/会在不同时间、季节下多次采集,但数据只有近似的GPS位置信息,所述GPS位置信息可以被用来判断位置较近或较远的图像,但没有提供严格的正/负样本对应关系。
在一些可选地实施方式中,在利用弱监督训练数据集对所述网络框架进行训练中,损失函数采用三元组损失函数,包括锚点a、正样本p和负样本n。
在一些可选地实施方式中,所述利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练,包括:
在每个训练的epoch中,首先记录下所有数据在当前网络参数下的特征表示;
然后在索引图像集中随机选择一个样本a,在和它GPS位置信息相近的所有样本中,找到与a特征表示间距离最小的样本作为其最好的潜在正样本p;之后在和a的GPS位置相距较大的所有样本中,找到与a特征表示间距离最小的样本作为较难的负样本n;则三元组损失函数表示如下:
L=max(da,p-da,n+m,0)
其中m是一个正数,规定了锚点样本分别与其正负样本间距离差异的最小范围,上式只是一个索引图像所提供的损失,当所有索引图像的损失都被用来更新网络参数后,当前epoch结束,进入下一个epoch;直到前后两个epoch中损失的累加和的变化小于阈值或达到最大epoch时,训练过程结束。
本发明的另一方面,提供一种基于胶囊网络的鲁棒场景识别系统,所述系统包括:
特征识别模块,用于将原始图片通过残差网络得到特征图;
编码模块,用于将通过所述残差网络得到的所述特征图输入到胶囊层中编码空间关系,首先将输入转换为向量神经元,并在不同胶囊层间通过动态路由算法最终编码得到整幅图像的低维向量表示,获得网络框架;
训练模块,用于利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练,以确定所述网络框架的参数,以利用所述训练好的网络框架进行场景识别。
在一些可选地实施方式中,所述胶囊层包括初始胶囊层和数字胶囊层,所述编码模块,用于将得到的所述特征图输入到胶囊层中编码空间关系,最终得到整幅图像的低维向量表示,包括:
所述编码模块,具体还用于:
利用所述初始胶囊层,对得到的所述特征图进行卷积操作,将输入转换为向量神经元;
利用所述数字胶囊层,对所述卷积操作后的向量神经元通过动态路由算法最终编码得到整幅图像的低维向量表示。
在一些可选地实施方式中,所述训练模块,用于利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练,包括:所述训练模块,具体用于:
在每个训练的epoch中,首先记录下所有数据在当前网络参数下的特征表示;
然后在索引图像集中随机选择一个样本a,在和它GPS位置信息相近的所有样本中,找到与a特征表示间距离最小的样本作为其最好的潜在正样本p;之后在和a的GPS位置相距较大的所有样本中,找到与a特征表示间距离最小的样本作为较难的负样本n;则三元组损失函数表示如下:
L=max(da,p-da,n+m,0)
其中m是一个正数,规定了锚点样本分别与其正负样本间距离差异的最小范围,上式只是一个索引图像所提供的损失,当所有索引图像的损失都被用来更新网络参数后,当前epoch结束,进入下一个epoch;直到前后两个epoch中损失的累加和的变化小于阈值或达到最大epoch时,训练过程结束。
本发明的另一个方面,提供一种电子设备,包括:
一个或多个处理器;
一个存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现根据前文记载的所述的方法。
本发明的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时能实现根据前文记载的所述的方法。
本发明实施例的一种基于胶囊网络的鲁棒场景识别方法及系统,利用胶囊网络的特性在场景识别中编码特征的空间关系,以较少的表征维数就可对场景的建模表示更细致、合理,进一步采用弱监督训练数据并通过全局难样本挖掘所构建的三元组损失来进行网络参数训练,使得网络具有易训练、通用性好的优点。一方面可以较少的表征维数就提升场景识别的准确性和鲁棒性,另一方面可以减小训练阶段对数据标签和数量的依赖,相比传统基于CNN的场景识别网络能以更少的表征维数和训练数据来更好地应对动态物体、大视角变化、强光照变化、季节变化等极端因素下的场景识别问题。
附图说明
图1为本发明一实施例中电子设备的组成示意框图;
图2为本发明另一实施例的一种基于胶囊网络的鲁棒场景识别方法的流程图;
图3为本发明另一实施例的一种基于胶囊网络的鲁棒场景识别的结构示意图;
图4为本发明另一实施例的一种基于胶囊网络的鲁棒场景识别系统的结构示意图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。
首先,参照图1来描述用于实现本发明实施例的一种基于胶囊网络的鲁棒场景识别方法及系统的示例电子设备。
如图1所示,电子设备200包括一个或多个处理器210、一个或多个存储装置220、一个或多个输入装置230、一个或多个输出装置240等,这些组件通过总线系统250和/或其他形式的连接机构互连。应当注意,图1所示的电子设备的组件和结构只是示例性的,而非限制性的,根据需要,电子设备也可以具有其他组件和结构。
处理器210可以是中央处理单元(CPU)、或者可以是由多个处理核构成、或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备200中的其他组件以执行期望的功能。
存储装置220可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如,所述应用程序使用和/或产生的各种数据等。
输入装置230可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
输出装置240可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
下面,将参考图2描述根据本发明另一实施例的基于胶囊网络的鲁棒场景识别方法。
如图2所示,一种基于胶囊网络的鲁棒场景识别方法S100,所述方法S100包括以下步骤:
S110、将原始图片通过残差网络得到特征图。
具体地,在本步骤中,可以一并结合图3,网络的输入是一张256×256的图片,首先经过残差网络ResNet转换为8×8×2048的特征图以输入到后续胶囊层。残差网络ResNet的作用一方面是提取图像特征,另一方面是减小胶囊层输入的空间分辨率。
S120、将通过所述残差网络得到的所述特征图输入到胶囊层中编码空间关系,首先将输入转换为向量神经元,并在不同胶囊层间通过动态路由算法最终编码得到整幅图像的低维向量表示,获得网络框架。
具体地,在本步骤中,可以一并结合图3,胶囊层包括低层的初始胶囊层和高层的数字胶囊层。胶囊即向量神经元,通过一个高维向量表示,其模长代表某个实例(某物或其一部分)出现的概率,方向/位置代表实例的一般姿态,包括位置、方向、尺寸、速度、颜色等信息。为了使胶囊的模长表示概率,胶囊需要经过下面的squashing非线性函数:
其中,上一层的胶囊ui与权重矩阵Wij的作用形成对高层胶囊的预测,层间的连接系数cij由动态路由算法确定,以选择性地激活高层胶囊。
再回到本发明的框架,其包含初始胶囊层和数字胶囊层两层。初始胶囊层本质就是卷积层,但其非线性则是由上述squashing非线性函数决定。该层对ResNet得到的特征图进行卷积操作,输出9216(6×6×256)个胶囊PrimaryCaps,每个胶囊8维。数字胶囊层共有10个胶囊DigitCaps,每个胶囊是16维的。每个胶囊对应图像中的一个实例,其值是上一层胶囊经过动态路由算法选择性激活得到的。动态路由算法中的每一次迭代是求取每个胶囊各自的8x16权重矩阵来将其映射到16维的胶囊输出空间。得到的10x16维的矩阵就是所获取的图像表示。后面对数字胶囊层中每个胶囊取模,再对所有胶囊进行L2正则化,得到的一个10维的向量就是对输入图像的最终表达。
S130、利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练,以确定所述网络框架的参数,利用所述训练好的网络框架进行场景识别。
具体地,在本步骤中,为训练上述网络中的参数,使用Places365数据集得到的ResNet预训练模型,而不是ImageNet的效果会更好。此外还需要给定数据集并确定损失函数。为了使网络更通用,采用通用的谷歌街景数据作为训练数据集。在该数据集中,相同地点(场景)会在不同时间、季节下多次采集,但数据只有近似的GPS位置信息,这一GPS位置信息可以被用来判断位置较近或较远的图像,但没有提供严格的正/负样本对应关系。因此,整个训练过程是弱监督的。三元组损失是图像检索领域一种常用的损失函数,包括锚点a、正样本p和负样本n,这里我们通过弱监督的全局难样本挖掘所构建的三元组损失来进行网络训练学习。通过令匹配的图像对间距离减小,而非匹配的图像对间距离增大的方式快速学习强大的特征表示能力。在每个训练的epoch中,首先记录下所有数据在当前网络参数下的特征表示;然后在索引图像集中随机选择一个样本a,在和它GPS位置信息相近的所有样本中,找到与a特征表示间距离最小的样本作为其最好的潜在正样本p;之后在和a的GPS位置相距较大的所有样本中,找到与a特征表示间距离最小的样本作为较难的负样本n;则三元组损失函数表示如下:
L=max(da,p-da,n+m,0)
其中m是一个正数,规定了锚点样本分别与其正负样本间距离差异的最小范围,上式只是一个索引图像所提供的损失,当所有索引图像的损失都被用来更新网络参数(一个一更新或一个batch一更新)后,当前epoch结束,进入下一个epoch;直到前后两个epoch中损失的累加和的变化小于阈值或达到最大epoch时,训练过程结束。
本发明提出一种基于胶囊网络的鲁棒场景识别方法,利用胶囊网络的特性在场景识别中编码特征的空间关系,以较少的表征维数就可对场景的建模表示更细致、合理,进一步采用弱监督训练数据并通过全局难样本挖掘所构建的三元组损失来进行网络参数训练,使得网络具有易训练、通用性好的优点。所提方法一方面可以较少的表征维数就提升场景识别的准确性和鲁棒性,另一方面可以减小训练阶段对数据标签和数量的依赖,相比传统基于CNN的场景识别网络能以更少的表征维数和训练数据来更好地应对动态物体、大视角变化、强光照变化、季节变化等极端因素下的场景识别问题。
本发明的一个典型应用场景是在长期视觉SLAM领域。在一个未知的场景中运行SLAM算法可以得到该场景在这一时间段内的地图。当间隔相当一段时间后再次进入到该场景中时,进入的视角、场景中的物体、光照等因素可能已经发生了巨大的变化。为了建立当前采集的数据与先前建立的地图的关系,从而保证SLAM可以长期稳定执行,需要进行基于图像的场景识别,即确定当前采集的图像与之前SLAM运行过程中采集的哪幅图像是一致的,从而在极端环境变化时也可以有效利用先前信息。
本发明的另一方面,如图4所示,提供一种基于胶囊网络的鲁棒场景识别系统100,该系统可以应用于前文记载的方法,具体可以参考前文相关记载,在此不作赘述。所述系统100包括:
特征识别模块110,用于将原始图片通过残差网络得到特征图。
编码模块120,用于将通过所述残差网络得到的所述特征图输入到胶囊层中编码空间关系,首先将输入转换为向量神经元,并在不同胶囊层间通过动态路由算法最终编码得到整幅图像的低维向量表示,获得网络框架。
训练模块130,用于利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练,以确定所述网络框架的参数,以利用所述训练好的网络框架进行场景识别。
在一些可选地实施方式中,所述胶囊层包括初始胶囊层和数字胶囊层,所述编码模块120,用于将得到的所述特征图输入到胶囊层中编码空间关系,最终得到整幅图像的低维向量表示,包括:
所述编码模块120,具体还用于:
利用所述初始胶囊层,对得到的所述特征图进行卷积操作,将输入转换为向量神经元;
利用所述数字胶囊层,对所述卷积操作后的向量神经元通过动态路由算法最终编码得到整幅图像的向量表示。
在一些可选地实施方式中,所述训练模块130,用于利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练,包括:所述训练模块130,具体用于:
在每个训练的epoch中,首先记录下所有数据在当前网络参数下的特征表示;
然后在索引图像集中随机选择一个样本a,在和它GPS位置信息相近的所有样本中,找到与a特征表示间距离最小的样本作为其最好的潜在正样本p;之后在和a的GPS位置相距较大的所有样本中,找到与a特征表示间距离最小的样本作为较难的负样本n;则三元组损失函数表示如下:
L=max(da,p-da,n+m,0)
其中m是一个正数,规定了锚点样本分别与其正负样本间距离差异的最小范围,上式只是一个索引图像所提供的损失,当所有索引图像的损失都被用来更新网络参数后,当前epoch结束,进入下一个epoch;直到前后两个epoch中损失的累加和的变化小于阈值或达到最大epoch时,训练过程结束。
本发明提出一种基于胶囊网络的鲁棒场景识别系统,利用胶囊网络的特性在场景识别中编码特征的空间关系,以较少的表征维数就可对场景的建模表示更细致、合理,进一步采用弱监督训练数据并通过全局难样本挖掘所构建的三元组损失来进行网络参数训练,使得网络具有易训练、通用性好的优点。所提系统一方面可以较少的表征维数就提升场景识别的准确性和鲁棒性,另一方面可以减小训练阶段对数据标签和数量的依赖,相比传统基于CNN的场景识别网络能以更少的表征维数和训练数据来更好地应对动态物体、大视角变化、强光照变化、季节变化等极端因素下的场景识别问题。
本发明的另一个方面,提供一种电子设备,包括:
一个或多个处理器;
一个存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现根据前文记载的方法。
本发明的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时能实现根据前文记载的所述的方法。
其中,计算机可读介质可以是本发明的装置、设备、系统中所包含的,也可以是单独存在。
其中,计算机可读存储介质可是任何包含或存储程序的有形介质,其可以是电、磁、光、电磁、红外线、半导体的系统、装置、设备,更具体的例子包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、光纤、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或它们任意合适的组合。
其中,计算机可读存储介质也可包括在基带中或作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码,其具体的例子包括但不限于电磁信号、光信号,或它们任意合适的组合。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (10)
1.一种基于胶囊网络的鲁棒场景识别方法,其特征在于,所述方法包括以下步骤:
将原始图片通过残差网络得到特征图;
将通过所述残差网络得到的所述特征图输入到胶囊层中编码空间关系,首先将输入转换为向量神经元,并在不同胶囊层间通过动态路由算法最终编码得到整幅图像的低维向量表示,获得网络框架;
利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练,以确定所述网络框架的参数;利用所述训练好的网络框架进行场景识别。
2.根据权利要求1所述的方法,其特征在于,所述胶囊层包括初始胶囊层和数字胶囊层,所述将通过所述残差网络得到的所述特征图输入到胶囊层中编码空间关系,最终得到整幅图像的低维向量表示,包括:
利用所述初始胶囊层,对得到的所述特征图进行卷积操作,将输入转换为向量神经元;
利用所述数字胶囊层,对所述卷积操作后的向量神经元通过动态路由算法最终编码得到整幅图像的低维向量表示。
3.根据权利要求1所述的方法,其特征在于,在利用弱监督训练数据集对所述网络框架进行训练的过程中,所述弱监督训练数据集采用通用的弱监督街景数据,具体为:
当前比较成熟的谷歌街景数据,其中相同地点/场景/会在不同时间、季节下多次采集,但数据只有近似的GPS位置信息,所述GPS位置信息可以被用来判断位置较近或较远的图像,但没有提供严格的正/负样本对应关系。
4.根据权利要求3所述的方法,其特征在于,在利用弱监督训练数据集对所述网络框架进行训练中,损失函数采用三元组损失函数,包括锚点a、正样本p和负样本n。
5.根据权利要求4所述的方法,其特征在于,所述利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练,包括:
在每个训练的epoch中,首先记录下所有数据在当前网络参数下的特征表示;
然后在索引图像集中随机选择一个样本a,在和它GPS位置信息相近的所有样本中,找到与a特征表示间距离最小的样本作为其最好的潜在正样本p;之后在和a的GPS位置相距较大的所有样本中,找到与a特征表示间距离最小的样本作为较难的负样本n;则三元组损失函数表示如下:
L=max(da,p-da,n+m,0)
其中m是一个正数,规定了锚点样本分别与其正负样本间距离差异的最小范围,上式只是一个索引图像所提供的损失,当所有索引图像的损失都被用来更新网络参数后,当前epoch结束,进入下一个epoch;直到前后两个epoch中损失的累加和的变化小于阈值或达到最大epoch时,训练过程结束。
6.一种基于胶囊网络的鲁棒场景识别系统,其特征在于,所述系统包括:
特征识别模块,用于将原始图片通过残差网络得到特征图;
编码模块,用于将通过所述残差网络得到的所述特征图输入到胶囊层中编码空间关系,首先将输入转换为向量神经元,并在不同胶囊层间通过动态路由算法最终编码得到整幅图像的低维向量表示,获得网络框架;
训练模块,用于利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练,以确定所述网络框架的参数,以利用所述训练好的网络框架进行场景识别。
7.根据权利要求6所述的系统,其特征在于,所述胶囊层包括初始胶囊层和数字胶囊层,所述编码模块,用于将得到的所述特征图输入到胶囊层中编码空间关系,最终得到整幅图像的低维向量表示,包括:
所述编码模块,具体还用于:
利用所述初始胶囊层,对得到的所述特征图进行卷积操作,将输入转换为向量神经元;
利用所述数字胶囊层,对所述卷积操作后的向量神经元通过动态路由算法最终编码得到整幅图像的低维向量表示。
8.根据权利要求7所述的系统,其特征在于,所述训练模块,用于利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练,包括:所述训练模块,具体用于:
在每个训练的epoch中,首先记录下所有数据在当前网络参数下的特征表示;
然后在索引图像集中随机选择一个样本a,在和它GPS位置信息相近的所有样本中,找到与a特征表示间距离最小的样本作为其最好的潜在正样本p;之后在和a的GPS位置相距较大的所有样本中,找到与a特征表示间距离最小的样本作为较难的负样本n;则三元组损失函数表示如下:
L=max(da,p-da,n+m,0)
其中m是一个正数,规定了锚点样本分别与其正负样本间距离差异的最小范围,上式只是一个索引图像所提供的损失,当所有索引图像的损失都被用来更新网络参数后,当前epoch结束,进入下一个epoch;直到前后两个epoch中损失的累加和的变化小于阈值或达到最大epoch时,训练过程结束。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现根据权利要求1至5任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时能实现根据权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110016404.XA CN112733701A (zh) | 2021-01-07 | 2021-01-07 | 一种基于胶囊网络的鲁棒场景识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110016404.XA CN112733701A (zh) | 2021-01-07 | 2021-01-07 | 一种基于胶囊网络的鲁棒场景识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112733701A true CN112733701A (zh) | 2021-04-30 |
Family
ID=75590870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110016404.XA Pending CN112733701A (zh) | 2021-01-07 | 2021-01-07 | 一种基于胶囊网络的鲁棒场景识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733701A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610108A (zh) * | 2021-07-06 | 2021-11-05 | 中南民族大学 | 一种基于改进残差网络的水稻害虫识别方法 |
CN113674416A (zh) * | 2021-08-26 | 2021-11-19 | 中国电子科技集团公司信息科学研究院 | 三维地图的构建方法、装置、电子设备及存储介质 |
CN113763332A (zh) * | 2021-08-18 | 2021-12-07 | 上海建桥学院有限责任公司 | 一种基于三元胶囊网络算法的肺结节分析方法、装置及存储介质 |
CN116452007A (zh) * | 2023-06-15 | 2023-07-18 | 深圳市迪博企业风险管理技术有限公司 | 一种基于胶囊网络的企业税收合规风险评估方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175615A (zh) * | 2019-04-28 | 2019-08-27 | 华中科技大学 | 模型训练方法、域自适应的视觉位置识别方法及装置 |
CN110288555A (zh) * | 2019-07-02 | 2019-09-27 | 桂林电子科技大学 | 一种基于改进的胶囊网络的低照度增强方法 |
CN110796057A (zh) * | 2019-10-22 | 2020-02-14 | 上海交通大学 | 行人重识别方法、装置及计算机设备 |
CN111241958A (zh) * | 2020-01-06 | 2020-06-05 | 电子科技大学 | 一种基于残差-胶囊网络的视频图像鉴别方法 |
CN111325169A (zh) * | 2020-02-26 | 2020-06-23 | 河南理工大学 | 基于胶囊网络的深度视频指纹算法 |
CN111476168A (zh) * | 2020-04-08 | 2020-07-31 | 山东师范大学 | 一种基于三阶段的跨域行人重识别方法和系统 |
US20200311798A1 (en) * | 2019-03-25 | 2020-10-01 | Board Of Trustees Of The University Of Illinois | Search engine use of neural network regressor for multi-modal item recommendations based on visual semantic embeddings |
-
2021
- 2021-01-07 CN CN202110016404.XA patent/CN112733701A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200311798A1 (en) * | 2019-03-25 | 2020-10-01 | Board Of Trustees Of The University Of Illinois | Search engine use of neural network regressor for multi-modal item recommendations based on visual semantic embeddings |
CN110175615A (zh) * | 2019-04-28 | 2019-08-27 | 华中科技大学 | 模型训练方法、域自适应的视觉位置识别方法及装置 |
CN110288555A (zh) * | 2019-07-02 | 2019-09-27 | 桂林电子科技大学 | 一种基于改进的胶囊网络的低照度增强方法 |
CN110796057A (zh) * | 2019-10-22 | 2020-02-14 | 上海交通大学 | 行人重识别方法、装置及计算机设备 |
CN111241958A (zh) * | 2020-01-06 | 2020-06-05 | 电子科技大学 | 一种基于残差-胶囊网络的视频图像鉴别方法 |
CN111325169A (zh) * | 2020-02-26 | 2020-06-23 | 河南理工大学 | 基于胶囊网络的深度视频指纹算法 |
CN111476168A (zh) * | 2020-04-08 | 2020-07-31 | 山东师范大学 | 一种基于三阶段的跨域行人重识别方法和系统 |
Non-Patent Citations (1)
Title |
---|
BIN SUN等: "GeoCapsNet: Ground to aerial view image geo-localization using capsule network", 《2019 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610108A (zh) * | 2021-07-06 | 2021-11-05 | 中南民族大学 | 一种基于改进残差网络的水稻害虫识别方法 |
CN113610108B (zh) * | 2021-07-06 | 2022-05-20 | 中南民族大学 | 一种基于改进残差网络的水稻害虫识别方法 |
CN113763332A (zh) * | 2021-08-18 | 2021-12-07 | 上海建桥学院有限责任公司 | 一种基于三元胶囊网络算法的肺结节分析方法、装置及存储介质 |
CN113763332B (zh) * | 2021-08-18 | 2024-05-31 | 上海建桥学院有限责任公司 | 一种基于三元胶囊网络算法的肺结节分析方法、装置及存储介质 |
CN113674416A (zh) * | 2021-08-26 | 2021-11-19 | 中国电子科技集团公司信息科学研究院 | 三维地图的构建方法、装置、电子设备及存储介质 |
CN113674416B (zh) * | 2021-08-26 | 2024-04-26 | 中国电子科技集团公司信息科学研究院 | 三维地图的构建方法、装置、电子设备及存储介质 |
CN116452007A (zh) * | 2023-06-15 | 2023-07-18 | 深圳市迪博企业风险管理技术有限公司 | 一种基于胶囊网络的企业税收合规风险评估方法 |
CN116452007B (zh) * | 2023-06-15 | 2023-09-19 | 深圳市迪博企业风险管理技术有限公司 | 一种基于胶囊网络的企业税收合规风险评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | Deep transfer learning for image‐based structural damage recognition | |
Xie et al. | Multilevel cloud detection in remote sensing images based on deep learning | |
CN107506740B (zh) | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 | |
CN105138973B (zh) | 人脸认证的方法和装置 | |
CN112733701A (zh) | 一种基于胶囊网络的鲁棒场景识别方法及系统 | |
Wu et al. | Application of image retrieval based on convolutional neural networks and Hu invariant moment algorithm in computer telecommunications | |
CN110929080B (zh) | 基于注意力和生成对抗网络的光学遥感图像检索方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
WO2023236977A1 (zh) | 一种数据处理方法及相关设备 | |
CN111079683A (zh) | 基于卷积神经网络的遥感图像云雪检测方法 | |
CN113327279A (zh) | 一种点云数据处理方法、装置、计算机设备及存储介质 | |
Kun et al. | A deep learning‐based method for pixel‐level crack detection on concrete bridges | |
CN114140831B (zh) | 人体姿态估计方法、装置、电子设备及存储介质 | |
CN114943937A (zh) | 行人重识别方法、装置、存储介质及电子设备 | |
Manzari et al. | A robust network for embedded traffic sign recognition | |
Solanki et al. | Flower species detection system using deep convolutional neural networks | |
CN112966676B (zh) | 一种基于零样本学习的文档关键信息抽取方法 | |
Li et al. | SAE‐CenterNet: Self‐attention enhanced CenterNet for small dense object detection | |
CN117636298A (zh) | 基于多尺度特征学习的车辆重识别方法、系统及存储介质 | |
WO2023185209A1 (zh) | 模型剪枝 | |
Ge et al. | Fine-tuning vision foundation model for crack segmentation in civil infrastructures | |
CN117115824A (zh) | 一种基于笔划区域分割策略的视觉文本检测方法 | |
Mao et al. | An image authentication technology based on depth residual network | |
CN113139540B (zh) | 背板检测方法及设备 | |
Jia et al. | Sample generation of semi‐automatic pavement crack labelling and robustness in detection of pavement diseases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210430 |