CN112733701A

CN112733701A - 一种基于胶囊网络的鲁棒场景识别方法及系统

Info

Publication number: CN112733701A
Application number: CN202110016404.XA
Authority: CN
Inventors: 王蓉; 查文中; 孟繁乐; 顾天龙
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2021-04-30

Abstract

本发明提供一种基于胶囊网络的鲁棒场景识别方法及系统，方法包括：将原始图片通过残差网络得到特征图；将得到的特征图输入到胶囊层中编码空间关系，首先将输入转换为向量神经元，并在不同胶囊层间通过动态路由算法最终编码得到整幅图像的低维向量表示，获得网络框架；利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对网络框架进行训练，以确定网络框架的参数；利用训练好的网络框架进行场景识别。一方面可以较少的表征维数就提升场景识别的准确性和鲁棒性，另一方面可以减小训练阶段对数据标签和数量的依赖，以更少的表征维数和训练数据来更好地应对动态物体、大视角变化、强光照变化、季节变化等极端因素下的场景识别问题。

Description

一种基于胶囊网络的鲁棒场景识别方法及系统

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于胶囊网络的鲁棒场景识别方法及系统。

背景技术

场景识别的目的是在参考图像数据库中找到与当前索引图像最相似(拍摄的是同一场景或地点)的一张或几张图像。该研究具有广阔的应用前景，可用于推荐系统或社交网站上的图像检索，也是视觉SLAM中重定位或闭环检测的关键环节，因此得到了大量的关注与研究。然而，场景识别仍是一个开放性的问题，每年相关的文章在各大会议上也是层出不穷，这是因为当前场景识别算法易受到动态物体、光照变化、视角变化、环境变化等因素的影响，难以在真实场景中有效应用，比如，当前方法很难将同一场景在雨雪天气、黑暗光照下所拍摄的图像进行正确关联。因此，面向复杂动态场景进行的鲁棒场景识别技术就显得尤为重要，本发明正是针对该问题提出的一种解决思路与方案。

场景识别的基本思路是构建一种图像表示，该表示能有效对图像中包含的要素进行建模，然后通过对该表示间的距离计算进行图像相似度的度量，实现图像检索。词袋模型(Bag-of-Words，BoW)是视觉SLAM中最常用的一种场景识别方法，它将图像表征为特征点的集合，并通过构建离线词典的方式将图像表征二值化，加快检索和匹配速度。这种方法相对较成熟，速度快，但只利用了图像中的局部特征信息，且整个图像仅表示为局部信息的无序集合，整个建模较粗糙，丢失了大量有用信息，因此对动态物体、大视角变化、光照变化、季节变化等极端因素具有局限性。随着深度学习的发展，基于卷积神经网络(CNN)的场景识别方法能通过CNN强大的特征表示能力来有效应对动态物体、大视角变化、强光照变化、季节变化等极端因素影响，是目前学术研究的方向。但该方法具有两个显著缺点：一是图像最终编码成的向量往往是较高维度的，这会大大增加计算或通信的开销，不利于实时性要求高的场景；二是训练过程需要大量具有标签和差异的数据，实用性、通用性和可扩展性差。此外，虽然基于CNN的场景识别已取得了一些进展，但其中通常只编码了视觉信息作为不变的特征，没有考虑特征间的空间几何关系。而场景布局和几何结构是场景识别的重要线索，由于在不同环境条件下，场景组成元素的空间关系往往变化不大，故在场景识别中考虑特征间的空间关系是有意义和必要的。为了引入特征的空间关系，一些工作在特征提取的基础上增加对特征的空间分布的分析，但过程却复杂繁琐，不利于在实际中的部署运用。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一，提供一种基于胶囊网络的鲁棒场景识别方法及系统。

本发明的一个方面，提供一种基于胶囊网络的鲁棒场景识别方法，所述方法包括以下步骤：

将原始图片通过残差网络得到特征图；

将通过所述残差网络得到的所述特征图输入到胶囊层中编码空间关系，首先将输入转换为向量神经元，并在不同胶囊层间通过动态路由算法最终编码得到整幅图像的低维向量表示，获得网络框架；

利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练，以确定所述网络框架的参数；利用所述训练好的网络框架进行场景识别。

在一些可选地实施方式中，所述胶囊层包括初始胶囊层和数字胶囊层，所述将通过所述残差网络得到的所述特征图输入到胶囊层中编码空间关系，最终得到整幅图像的低维向量表示，包括：

利用所述初始胶囊层，对得到的所述特征图进行卷积操作，将输入转换为向量神经元；

利用所述数字胶囊层，对所述卷积操作后的向量神经元通过动态路由算法最终编码得到整幅图像的低维向量表示。

在一些可选地实施方式中，在利用弱监督训练数据集对所述网络框架进行训练的过程中，所述弱监督训练数据集采用通用的弱监督街景数据，具体为：

当前比较成熟的谷歌街景数据，其中相同地点/场景/会在不同时间、季节下多次采集，但数据只有近似的GPS位置信息，所述GPS位置信息可以被用来判断位置较近或较远的图像，但没有提供严格的正/负样本对应关系。

在一些可选地实施方式中，在利用弱监督训练数据集对所述网络框架进行训练中，损失函数采用三元组损失函数，包括锚点a、正样本p和负样本n。

在一些可选地实施方式中，所述利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练，包括：

在每个训练的epoch中，首先记录下所有数据在当前网络参数下的特征表示；

然后在索引图像集中随机选择一个样本a，在和它GPS位置信息相近的所有样本中，找到与a特征表示间距离最小的样本作为其最好的潜在正样本p；之后在和a的GPS位置相距较大的所有样本中，找到与a特征表示间距离最小的样本作为较难的负样本n；则三元组损失函数表示如下：

L＝max(d_a,p-d_a,n+m,0)

其中m是一个正数，规定了锚点样本分别与其正负样本间距离差异的最小范围，上式只是一个索引图像所提供的损失，当所有索引图像的损失都被用来更新网络参数后，当前epoch结束，进入下一个epoch；直到前后两个epoch中损失的累加和的变化小于阈值或达到最大epoch时，训练过程结束。

本发明的另一方面，提供一种基于胶囊网络的鲁棒场景识别系统，所述系统包括：

特征识别模块，用于将原始图片通过残差网络得到特征图；

编码模块，用于将通过所述残差网络得到的所述特征图输入到胶囊层中编码空间关系，首先将输入转换为向量神经元，并在不同胶囊层间通过动态路由算法最终编码得到整幅图像的低维向量表示，获得网络框架；

训练模块，用于利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练，以确定所述网络框架的参数，以利用所述训练好的网络框架进行场景识别。

在一些可选地实施方式中，所述胶囊层包括初始胶囊层和数字胶囊层，所述编码模块，用于将得到的所述特征图输入到胶囊层中编码空间关系，最终得到整幅图像的低维向量表示，包括：

所述编码模块，具体还用于：

在一些可选地实施方式中，所述训练模块，用于利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练，包括：所述训练模块，具体用于：

L＝max(d_a,p-d_a,n+m,0)

本发明的另一个方面，提供一种电子设备，包括：

一个或多个处理器；

一个存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据前文记载的所述的方法。

本发明的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时能实现根据前文记载的所述的方法。

本发明实施例的一种基于胶囊网络的鲁棒场景识别方法及系统，利用胶囊网络的特性在场景识别中编码特征的空间关系，以较少的表征维数就可对场景的建模表示更细致、合理，进一步采用弱监督训练数据并通过全局难样本挖掘所构建的三元组损失来进行网络参数训练，使得网络具有易训练、通用性好的优点。一方面可以较少的表征维数就提升场景识别的准确性和鲁棒性，另一方面可以减小训练阶段对数据标签和数量的依赖，相比传统基于CNN的场景识别网络能以更少的表征维数和训练数据来更好地应对动态物体、大视角变化、强光照变化、季节变化等极端因素下的场景识别问题。

附图说明

图1为本发明一实施例中电子设备的组成示意框图；

图2为本发明另一实施例的一种基于胶囊网络的鲁棒场景识别方法的流程图；

图3为本发明另一实施例的一种基于胶囊网络的鲁棒场景识别的结构示意图；

图4为本发明另一实施例的一种基于胶囊网络的鲁棒场景识别系统的结构示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。

首先，参照图1来描述用于实现本发明实施例的一种基于胶囊网络的鲁棒场景识别方法及系统的示例电子设备。

如图1所示，电子设备200包括一个或多个处理器210、一个或多个存储装置220、一个或多个输入装置230、一个或多个输出装置240等，这些组件通过总线系统250和/或其他形式的连接机构互连。应当注意，图1所示的电子设备的组件和结构只是示例性的，而非限制性的，根据需要，电子设备也可以具有其他组件和结构。

处理器210可以是中央处理单元(CPU)、或者可以是由多个处理核构成、或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备200中的其他组件以执行期望的功能。

存储装置220可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如，所述应用程序使用和/或产生的各种数据等。

输入装置230可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置240可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

下面，将参考图2描述根据本发明另一实施例的基于胶囊网络的鲁棒场景识别方法。

如图2所示，一种基于胶囊网络的鲁棒场景识别方法S100，所述方法S100包括以下步骤：

S110、将原始图片通过残差网络得到特征图。

具体地，在本步骤中，可以一并结合图3，网络的输入是一张256×256的图片，首先经过残差网络ResNet转换为8×8×2048的特征图以输入到后续胶囊层。残差网络ResNet的作用一方面是提取图像特征，另一方面是减小胶囊层输入的空间分辨率。

S120、将通过所述残差网络得到的所述特征图输入到胶囊层中编码空间关系，首先将输入转换为向量神经元，并在不同胶囊层间通过动态路由算法最终编码得到整幅图像的低维向量表示，获得网络框架。

具体地，在本步骤中，可以一并结合图3，胶囊层包括低层的初始胶囊层和高层的数字胶囊层。胶囊即向量神经元，通过一个高维向量表示，其模长代表某个实例(某物或其一部分)出现的概率，方向/位置代表实例的一般姿态，包括位置、方向、尺寸、速度、颜色等信息。为了使胶囊的模长表示概率，胶囊需要经过下面的squashing非线性函数：

其中s_j和v_j分别是胶囊j的输入和输出。对于不同层的胶囊，高层胶囊s_j的值是上一层所有胶囊的预测

的加权和，即：

其中，上一层的胶囊u_i与权重矩阵W_ij的作用形成对高层胶囊的预测，层间的连接系数c_ij由动态路由算法确定，以选择性地激活高层胶囊。

再回到本发明的框架，其包含初始胶囊层和数字胶囊层两层。初始胶囊层本质就是卷积层，但其非线性则是由上述squashing非线性函数决定。该层对ResNet得到的特征图进行卷积操作，输出9216(6×6×256)个胶囊PrimaryCaps，每个胶囊8维。数字胶囊层共有10个胶囊DigitCaps，每个胶囊是16维的。每个胶囊对应图像中的一个实例，其值是上一层胶囊经过动态路由算法选择性激活得到的。动态路由算法中的每一次迭代是求取每个胶囊各自的8x16权重矩阵来将其映射到16维的胶囊输出空间。得到的10x16维的矩阵就是所获取的图像表示。后面对数字胶囊层中每个胶囊取模，再对所有胶囊进行L2正则化，得到的一个10维的向量就是对输入图像的最终表达。

S130、利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练，以确定所述网络框架的参数，利用所述训练好的网络框架进行场景识别。

具体地，在本步骤中，为训练上述网络中的参数，使用Places365数据集得到的ResNet预训练模型，而不是ImageNet的效果会更好。此外还需要给定数据集并确定损失函数。为了使网络更通用，采用通用的谷歌街景数据作为训练数据集。在该数据集中，相同地点(场景)会在不同时间、季节下多次采集，但数据只有近似的GPS位置信息，这一GPS位置信息可以被用来判断位置较近或较远的图像，但没有提供严格的正/负样本对应关系。因此，整个训练过程是弱监督的。三元组损失是图像检索领域一种常用的损失函数，包括锚点a、正样本p和负样本n，这里我们通过弱监督的全局难样本挖掘所构建的三元组损失来进行网络训练学习。通过令匹配的图像对间距离减小，而非匹配的图像对间距离增大的方式快速学习强大的特征表示能力。在每个训练的epoch中，首先记录下所有数据在当前网络参数下的特征表示；然后在索引图像集中随机选择一个样本a，在和它GPS位置信息相近的所有样本中，找到与a特征表示间距离最小的样本作为其最好的潜在正样本p；之后在和a的GPS位置相距较大的所有样本中，找到与a特征表示间距离最小的样本作为较难的负样本n；则三元组损失函数表示如下：

L＝max(d_a,p-d_a,n+m,0)

其中m是一个正数，规定了锚点样本分别与其正负样本间距离差异的最小范围，上式只是一个索引图像所提供的损失，当所有索引图像的损失都被用来更新网络参数(一个一更新或一个batch一更新)后，当前epoch结束，进入下一个epoch；直到前后两个epoch中损失的累加和的变化小于阈值或达到最大epoch时，训练过程结束。

本发明提出一种基于胶囊网络的鲁棒场景识别方法，利用胶囊网络的特性在场景识别中编码特征的空间关系，以较少的表征维数就可对场景的建模表示更细致、合理，进一步采用弱监督训练数据并通过全局难样本挖掘所构建的三元组损失来进行网络参数训练，使得网络具有易训练、通用性好的优点。所提方法一方面可以较少的表征维数就提升场景识别的准确性和鲁棒性，另一方面可以减小训练阶段对数据标签和数量的依赖，相比传统基于CNN的场景识别网络能以更少的表征维数和训练数据来更好地应对动态物体、大视角变化、强光照变化、季节变化等极端因素下的场景识别问题。

本发明的一个典型应用场景是在长期视觉SLAM领域。在一个未知的场景中运行SLAM算法可以得到该场景在这一时间段内的地图。当间隔相当一段时间后再次进入到该场景中时，进入的视角、场景中的物体、光照等因素可能已经发生了巨大的变化。为了建立当前采集的数据与先前建立的地图的关系，从而保证SLAM可以长期稳定执行，需要进行基于图像的场景识别，即确定当前采集的图像与之前SLAM运行过程中采集的哪幅图像是一致的，从而在极端环境变化时也可以有效利用先前信息。

本发明的另一方面，如图4所示，提供一种基于胶囊网络的鲁棒场景识别系统100，该系统可以应用于前文记载的方法，具体可以参考前文相关记载，在此不作赘述。所述系统100包括：

特征识别模块110，用于将原始图片通过残差网络得到特征图。

编码模块120，用于将通过所述残差网络得到的所述特征图输入到胶囊层中编码空间关系，首先将输入转换为向量神经元，并在不同胶囊层间通过动态路由算法最终编码得到整幅图像的低维向量表示，获得网络框架。

训练模块130，用于利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练，以确定所述网络框架的参数，以利用所述训练好的网络框架进行场景识别。

在一些可选地实施方式中，所述胶囊层包括初始胶囊层和数字胶囊层，所述编码模块120，用于将得到的所述特征图输入到胶囊层中编码空间关系，最终得到整幅图像的低维向量表示，包括：

所述编码模块120，具体还用于：

利用所述数字胶囊层，对所述卷积操作后的向量神经元通过动态路由算法最终编码得到整幅图像的向量表示。

在一些可选地实施方式中，所述训练模块130，用于利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练，包括：所述训练模块130，具体用于：

L＝max(d_a,p-d_a,n+m,0)

本发明提出一种基于胶囊网络的鲁棒场景识别系统，利用胶囊网络的特性在场景识别中编码特征的空间关系，以较少的表征维数就可对场景的建模表示更细致、合理，进一步采用弱监督训练数据并通过全局难样本挖掘所构建的三元组损失来进行网络参数训练，使得网络具有易训练、通用性好的优点。所提系统一方面可以较少的表征维数就提升场景识别的准确性和鲁棒性，另一方面可以减小训练阶段对数据标签和数量的依赖，相比传统基于CNN的场景识别网络能以更少的表征维数和训练数据来更好地应对动态物体、大视角变化、强光照变化、季节变化等极端因素下的场景识别问题。

本发明的另一个方面，提供一种电子设备，包括：

一个或多个处理器；

一个存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据前文记载的方法。

其中，计算机可读介质可以是本发明的装置、设备、系统中所包含的，也可以是单独存在。

其中，计算机可读存储介质可是任何包含或存储程序的有形介质，其可以是电、磁、光、电磁、红外线、半导体的系统、装置、设备，更具体的例子包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、光纤、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或它们任意合适的组合。

其中，计算机可读存储介质也可包括在基带中或作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码，其具体的例子包括但不限于电磁信号、光信号，或它们任意合适的组合。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于胶囊网络的鲁棒场景识别方法，其特征在于，所述方法包括以下步骤：

将原始图片通过残差网络得到特征图；

2.根据权利要求1所述的方法，其特征在于，所述胶囊层包括初始胶囊层和数字胶囊层，所述将通过所述残差网络得到的所述特征图输入到胶囊层中编码空间关系，最终得到整幅图像的低维向量表示，包括：

3.根据权利要求1所述的方法，其特征在于，在利用弱监督训练数据集对所述网络框架进行训练的过程中，所述弱监督训练数据集采用通用的弱监督街景数据，具体为：

4.根据权利要求3所述的方法，其特征在于，在利用弱监督训练数据集对所述网络框架进行训练中，损失函数采用三元组损失函数，包括锚点a、正样本p和负样本n。

5.根据权利要求4所述的方法，其特征在于，所述利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练，包括：

L＝max(d_a,p-d_a,n+m,0)

6.一种基于胶囊网络的鲁棒场景识别系统，其特征在于，所述系统包括：

特征识别模块，用于将原始图片通过残差网络得到特征图；

7.根据权利要求6所述的系统，其特征在于，所述胶囊层包括初始胶囊层和数字胶囊层，所述编码模块，用于将得到的所述特征图输入到胶囊层中编码空间关系，最终得到整幅图像的低维向量表示，包括：

所述编码模块，具体还用于：

8.根据权利要求7所述的系统，其特征在于，所述训练模块，用于利用弱监督训练数据集并通过全局难样本挖掘所构建的三元组损失来对所述网络框架进行训练，包括：所述训练模块，具体用于：

L＝max(d_a,p-d_a,n+m,0)

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据权利要求1至5任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时能实现根据权利要求1至5任一项所述的方法。