CN113887653B

CN113887653B - 一种基于三元网络的紧耦合弱监督学习的定位方法及系统

Info

Publication number: CN113887653B
Application number: CN202111221943.3A
Authority: CN
Inventors: 郑南宁; 沈艳晴; 王若彤; 夏超; 陈仕韬
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2024-02-06
Anticipated expiration: 2041-10-20
Also published as: CN113887653A

Abstract

本发明公开了一种基于三元网络的紧耦合弱监督学习的定位方法及系统，基于全局特征和局部特征，采用重排序算法获取图像q的正样本，采用弱监督算法获取图像q负样本，将所述正样本和负样本作为三元组网络的训练集；在学习策略中从选择训练样本元组和损失函数定义两个方面将全局特征和局部特征更好的耦合，实现全局特征和局部特征的互相促进，可以从训练集中学习到更加有效的信息表征方式和更丰富的特征细节；在训练过程中提高两者的一致性，解决了视觉位置识别任务中两者在结果上的冲突混淆问题，从而在检索框架中更好发挥各自的优势—兼顾了实时性、高精度和环境鲁棒性。此外，学习策略还提升了模型的学习效率，大幅度地降低了模型训练时间。

Description

一种基于三元网络的紧耦合弱监督学习的定位方法及系统

技术领域

本发明属于计算机视觉和机器人领域，具体涉及一种基于三元网络的紧耦合弱监督学习的定位方法及系统。

背景技术

随着计算机视觉的蓬勃发展，基于深度学习的检索定位在机器人领域中展现了巨大的发展潜力。算法主要分为两类，基于全局特征的算法和基于局部特征的算法。全局特征的算法计算耗时短、对环境变化具有不变性，但对视角变化不具有不变性；相反，局部特征的算法耗时长、对视角变化具有不变性、精度相对更高。

因此为了得到在机器人上可实时处理的高精度检索定位方案，目前常用的检索结构是双阶段检索：首先基于全局特征进行数据库的检索排名，之后在选出的top-M中进行基于局部特征的重排名，从而得到最终的定位结果。

由于在这种结构中，全局特征和局部特征的处理是独立的，经过重排名后的定位精度的提升有限。

发明内容

本发明所要解决的技术问题是提供一种基于三元网络的紧耦合弱监督学习的定位方法及系统，解决目前视觉位置识别任务的双阶段检索结构中全局特征和局部特征被割裂处理的问题，从而提升检索定位的精度。

为了实现上述目的，本发明采用的技术方案是：一种基于三元网络的紧耦合弱监督学习的定位方法，包括以下步骤：

获取图像I的全局特征和长度为N的局部特征序列；

基于所述全局特征和局部特征，采用重排序算法获取图像q的正样本，采用弱监督算法获取图像q的负样本，将所述图像q、正样本和负样本作为三元组网络的训练集；

将所述训练集分批，每一批训练集中包含多个训练元组，每个训练元组输入三元网络后解算出排序算法的损失函数和重排序阶段损失函数，并将所述排序算法的损失函数和重排序阶段损失函数加权求和，得到最终损失函数；重复迭代直到三元组网络在训练集和验证集上取得预设的结果或将完整数据集遍历设定的次数，得到确定的三元网络；

基于所述三元网络提取全局特征，基于全局特征进行数据库的检索排名，基于所述检索排名选出top-M，在所述top-M中进行基于局部特征距离的重排名，从而得到最终的定位结果。

采用预训练的DeiT作为待学习的深度骨干网络，沿用自然语言处理中transformer的class token<CLS>对应的处理结果作为图像的全局特征；将图像I的全局特征记作G(I)；

采用预训练的DeiT作为待学习的深度网络，局部特征采用GeM池化层，得到长度为N的特征序列，将图像I的局部特征记作{L₁(I),…,L_k(I),…,L_N(I)}。

采用欧氏距离计算全局特征之间的距离，图像Q和图像R之间的全局距离为

d_G(Q,R)＝‖G(Q)-G(R)‖. (1)

局部距离度量的算法使用DTW算法，将图像Q和图像R之间的局部距离记作d_L(Q,R)。

正样本挖掘分为两个阶段：首先根据当前训练阶段的模型参数计算图像库的全局特征，并在查询图像q的潜在正样本集合P中，选择全局特征距离q最近的M个样本P_M，之后基于局部特征的重排序算法搜索P_M中距离图像q最近的一个样本p_*，所述p_*作为训练元组中的正样本p。

训练三元组中负样本n_j，基于全局匹配器选择，根据当前训练阶段的模型计算图像库的全局特征和全局距离，在图像q的确切负样本集合N中从小到大的顺序选择J个负样本n_j，其中负样本n_j满足

d_G(q,p_*)+m＞d_G(q,n_j), (2)其中m是距离阈值，m＝0.1。

6.根据权利要求1所述的基于三元网络的紧耦合弱监督学习的定位方法，其特征在于，弱监督排序损失函数为：

L_g＝∑max(0,d_G(q,p_*)+m-d_G(q,n_j)), (3)

其中n_j是J个负样本；

重排序阶段损失函数为：

L_l＝∑max(0,d_L(q,p_*)-d_L(q,n_j)), (4)

其中n_j是J个负样本。

最终的损失函数L：

L＝w_g*L_g+w_l*L_l, (5)

其中w_g和w_l是两个损失函数的权重，L_g为弱监督排序损失函数，L_l为重排序阶段损失函数，w_l＝w_g＝0.5。

还提供一种基于三元网络的紧耦合弱监督学习的定位系统，包括特征获取模块、训练集获取模块、三元网络训练模块以及定位模块；其中，

特征获取模块用于获取图像I的全局特征和长度为N的局部特征序列；

训练集获取模块用于根据所述全局特征和局部特征，采用重排序算法获取图像q的正样本，采用弱监督算法获取图像q负样本，将所述图像q、正样本和负样本作为三元组网络的训练集；

三元网络训练模块用于将所述训练集分批，每一批训练集中包含多个训练元组，每个训练元组输入三元网络后解算出排序算法的损失函数和重排序阶段损失函数，并将所述排序算法的损失函数和重排序阶段损失函数加权求和，得到最终损失函数；重复迭代直到三元组网络在训练集和验证集上取得预设的结果或将完整数据集遍历设定的次数，得到确定的三元网络；

定位模块用于根据所述三元网络提取全局特征，基于全局特征进行数据库的检索排名，基于所述检索排名选出top-M，在所述top-M中进行基于局部特征距离的重排名，从而得到最终的定位结果。

一种计算机设备，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取所述计算机可执行程序并执行，处理器执行计算可执行程序时能实现本发明所述基于三元网络的紧耦合弱监督学习的定位方法。

一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现本发明所述的基于三元网络的紧耦合弱监督学习的定位方法。

与现有的基于三元网络的弱监督学习策略相比，本发明针对双阶段检索结构提出一种紧耦合的弱监督学习策略，在学习策略中从两个层面将基于全局特征和局部特征的检索方法进行耦合，具体体现在三元网络的训练元组的挖掘策略和损失函数的定义；通过将两者耦合的方式促进彼此的学习，实现全局特征和局部特征的互相促进，从数据集中学习到更加有效的信息表征方式和特征细节；同时在训练过程中提高了两者的一致性，解决了两者在视觉位置识别任务中存在的结果冲突问题，从而在检索框架中更好地发挥了各自的优势—兼顾了实时性、高精度和环境鲁棒性。此外，学习策略还提升了模型的学习效率，大幅度地降低了模型的训练时间。

附图说明

图1为本发明中特征提取的示意图。

图2为本发明基于的图像检索结构示意图。

图3为本发明的紧耦合弱监督策略示意图。

图4为三元网络的样本示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明提供一种基于三元网络的紧耦合弱监督学习的定位方法及系统，基于全局特征和局部特征，采用重排序算法获取图像q的正样本，采用弱监督算法获取图像q负样本，将所述正样本和负样本作为三元组网络的训练集；在学习策略中从选择训练样本元组和损失函数定义两个方面将全局特征和局部特征更好的耦合，实现全局特征和局部特征的互相促进，可以从训练集中学习到更加有效的信息表征方式和更加丰富的特征细节；同时在训练过程中提高两者的一致性，解决了视觉位置识别任务中两者在结果上的冲突混淆问题，从而在检索框架中更好地发挥了各自的优势—兼顾了实时性、高精度和环境鲁棒性。此外，学习策略还提升了模型的学习效率，大幅度地降低了模型训练时间。

本发明通过在深度网络的学习训练过程中耦合基于全局特征的排序算法和基于局部特征的重排序算法，实现全局特征和局部特征的耦合，并用于视觉位置识别(visualplace recognition,VPR)任务中提升定位精度。训练网络采用三元网络，其中训练元组包括1个查询、1个正样本、J个负样本，记作(q,p,n_j)。具体特征提取和特征距离计算由步骤A1到步骤A3实现，学习策略由步骤B1到步骤B6实现，视觉位置识别任务由步骤C实现。

A1.采用预训练的Data-efficient image transformers(DeiT)作为待学习的深度骨干网络，如图1所示，沿用自然语言处理中transformer的class token<CLS>对应的处理结果作为全局特征。将图像I的全局特征记作G(I).

A2.采用预训练的DeiT作为待学习的深度网络，如图1所示，局部特征采用Generalized Mean(GeM)池化层，得到长度为N的特征序列(本发明的示例中选用N＝7)。将图像I的局部特征记作{L₁(I),…,L_k(I),…,I_N(I)}.

A3.图像之间的距离计算。

全局特征之间的距离采用欧氏距离，图像Q和图像R之间的全局距离为

d_G(Q,R)＝‖G(Q)-G(R)‖. (1)

B1.目前的VPR数据集均为弱标注，即没有明确的1对1的数据标注，而是针对每一张查询图像q，存在一个潜在正样本集合P和确切负样本集合N，其中潜在正样本集合的含义是P中包含了图像q的最匹配的正样本但并不确定哪一个是，同时也可能包含负样本。因此VPR任务一般采取弱监督训练的策略并在训练时进行训练元组的挖掘和弱监督损失函数的定义。

深度模型的训练过程中不断迭代从而实现目标，目标完成程度是由损失函数来评估，即期望输出与目前输出之间的差距。

三元训练网络的目标是尽可能地拉近查询图像和正样本之间的距离、拉开查询图像和负样本之间的距离，三元网络训练的过程是：针对1个训练元组，其组成包括1个查询图像q，1个正样本p和多个负样本n_j，样本的挖掘一般需要通过算法实现；

构建三元网络之后，将完整的训练集分批，每一批训练集中包含多个训练元组，每个训练元组输入三元过网络后解算出其对应的损失，通过对每批的损失求和并求导完成一次参数更新；不断地迭代直到模型在训练集和验证集上取得预设的结果或将完整数据集遍历设定的次数，完成模型的训练过程，用于后续的测试集测试。

B2.训练三元组中正样本p的选择方式。

传统的策略直接根据当前训练阶段的模型参数计算图像库的全局特征，并在查询图像q的潜在正样本集合P中选择全局特征距离q最近的样本作为元组中的p：

如图2所示，全局-局部匹配器即为本发明的正样本挖掘策略，分为两个阶段：首先根据当前训练阶段的模型参数计算图像库的全局特征，并在查询图像q的潜在正样本集合P中，根据公式(2)选择全局特征距离q最近的M个样本，P_M。之后基于局部特征的重排序算法搜索P_M中距离q最近的一个样本，p_*，作为训练元组中的正样本p：

B3.训练三元组中负样本n_j的选择方式。

为了降低算法的开销，本发明采用和传统策略一致的负样本挖掘方式，即全局匹配器。根据当前训练阶段的模型计算图像库的全局特征和全局距离，在图像q的确切负样本集合N中从小到大的顺序选择J个n_j，其中n_j满足

d_G(q,p_*)+m＞d_G(q,n_j), (4)

其中m是距离阈值，一般使用0.1。

如图3所示，H区域内的负样本属于hard negatives，满足d_G(q,p_*)＞d_G(q,n_j)；S区域内的负样本属于semi-hard negatives，满足d_G(q,p_*)+m＞d_G(q,n_j)＞d_G(q,p_*)；E区域的负样本属于easy negatives。公式(4)中的负样本的选择是为了筛选出困难(hard)和半困难(semi-hard)的负样本。

B4.排序算法的损失函数的计算。

传统策略中的弱监督排序损失函数定义为：

根据步骤B2中得到的正样本p_*，本发明将弱监督排序损失函数调整为：

L_g＝∑max(0,d_G(q,p_*)+m-d_G(q,n_j)), (6)

其中n_j是通过步骤B4得到的J个负样本。可以看出公式(5)和公式(6)的本质的计算思想是一致的，只是由于正样本挖掘策略不同而产生了计算上的差异。

B5.重排序算法的损失函数的计算。

为了进一步在模型训练过程中耦合全局特征和局部特征，我们针对重排序阶段定义损失函数：

L_l＝∑max(0,d_L(q,p_*)-d_L(q,n_j)), (7)

其中n_j是通过步骤B3得到的J个负样本。

B6.最终的损失函数的计算。

将步骤B4和步骤B5中计算的两部分损失函数进行加权求和，实现优化空间的进一步约束以及共同优化：

L＝w_g*L_g+w_l*L_l, (8)

其中w_g和w_l是两个损失函数的权重。在本发明中，步骤A3中计算的图像对的全局距离和局部距离的取值相当，因此采用w_l＝w_g＝0.5.

C.视觉识别定位任务

本发明基于三元组策略训练了新的模型，用模型提取特征，完成了视觉位置识别的任务。

如图4所示，本发明采用双阶段检索结构完成视觉识别定位任务。首先基于全局特征进行数据库的检索排名，之后在选出的top-M中进行基于局部特征距离的重排名，从而得到最终的定位结果。

上述技术方案在学习策略中实现了全局特征和局部特征的互相促进，可以从数据集中学习到更加有效的信息表征方式，提高各自的检索精度；同时在训练过程中提高了两者的一致性，解决了两者在结果上的冲突混淆问题，从而在检索框架中更好地发挥了各自的优势—兼顾了实时性、高精度和环境鲁棒性。此外，学习策略还提升了模型的学习效率，大幅度地降低了模型的训练时间。

本发明还提供一种基于三元网络的紧耦合弱监督学习的定位系统，包括特征获取模块、训练集获取模块、三元网络训练模块以及定位模块；其中，

训练集获取模块用于根据所述全局特征和局部特征，采用重排序算法获取图像q的正样本，采用弱监督算法获取图像q负样本，将所述正样本和负样本作为三元组网络的训练集；

三元网络训练模块用于将所述训练集分批，每一批训练集中包含多个训练元组，每个训练元组输入三元过网络后解算出排序算法的损失函数和重排序阶段损失函数，并将所述排序算法的损失函数和重排序阶段损失函加权求和，得到最终损失函数；重复迭代直到三元组网络在训练集和验证集上取得预设的结果或将完整数据集遍历设定的次数，得到确定的三元网络；

另一方面，本发明提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现本发明所述的基于三元网络的紧耦合弱监督学习的定位方法。

所述计算机设备可以采用笔记本电脑、桌面型计算机或工作站。

处理器可以是中央处理器(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)或现成可编程门阵列(FPGA)。

对于本发明所述存储器，可以是笔记本电脑、桌面型计算机或工作站的内部存储单元，如内存、硬盘；也可以采用外部存储单元，如移动硬盘、闪存卡。

计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random Access Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。

以上对本发明实施例公开的一种应用紧耦合弱监督学习策略的视觉位置识别系统进行了详细介绍，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，但本发明并不限于上述实施方式。对于本领域的一般技术人员，在其所具备的知识范围内，依据本发明的思想，可以在具体实施方式或应用范围上做出变化。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于三元网络的紧耦合弱监督学习的定位方法，其特征在于，包括以下步骤：获取图像I的全局特征和长度为N的局部特征序列；

基于所述全局特征和局部特征，采用重排序算法获取图像q的正样本，采用弱监督算法获取图像q的负样本，将所述图像q、正样本和负样本作为三元组网络的训练集；正样本挖掘分为两个阶段：首先根据当前训练阶段的模型参数计算图像库的全局特征，并在查询图像q的潜在正样本集合P中，选择全局特征距离q最近的M个样本P_M，之后基于局部特征的重排序算法搜索P_M中距离图像q最近的一个样本p_*，所述p_*作为训练元组中的正样本p；

将所述训练集分批，每一批训练集中包含多个训练元组，每个训练元组输入三元网络后解算出排序算法的损失函数和重排序阶段损失函数，并将所述排序算法的损失函数和重排序阶段损失函数加权求和，得到最终损失函数；重复迭代直到三元组网络在训练集和验证集上取得预设的结果或将完整数据集遍历设定的次数，得到确定的三元网络；训练三元组中负样本n_j，基于全局匹配器选择，根据当前训练阶段的模型计算图像库的全局特征和全局距离，在图像q的确切负样本集合N中从小到大的顺序选择J个负样本n_j，其中负样本n_j满足

d_G(q，p_*)+m＞d_G(q，n_j)， (2)

其中m是距离阈值，m＝0.1；

弱监督排序损失函数为：

L_g＝∑max(0，d_G(q，p_*)+m-d_G(q，n_j))， (3)

其中n_j是J个负样本；

重排序阶段损失函数为：

L_l＝∑max(0，d_L(q，p_*)-d_L(q，n_j))， (4)

其中n_j是J个负样本；最终的损失函数L：

L＝w_g*L_g+w_l*L_l， (5)

其中w_g和w_l是两个损失函数的权重，L_g为弱监督排序损失函数，L_l为重排序阶段损失函数，w_l＝w_g＝0.5；

2.根据权利要求1所述的基于三元网络的紧耦合弱监督学习的定位方法，其特征在于，采用预训练的DeiT作为待学习的深度骨干网络，沿用自然语言处理中transformer的classtoken＜CLS＞对应的处理结果作为图像的全局特征；将图像I的全局特征记作G(I)；

采用预训练的DeiT作为待学习的深度网络，局部特征采用GeM池化层，得到长度为N的特征序列，将图像I的局部特征记作{L₁(I)，…，L_k(I)，…，L_N(I)}。

3.根据权利要求1所述的基于三元网络的紧耦合弱监督学习的定位方法，其特征在于，采用欧氏距离计算全局特征之间的距离，图像Q和图像R之间的全局距离为

d_G(Q，R)＝||G(Q)-G(R)||. (1)

局部距离度量的算法使用DTW算法，将图像Q和图像R之间的局部距离记作d_L(Q，R)。

4.一种基于三元网络的紧耦合弱监督学习的定位系统，其特征在于，包括特征获取模块、训练集获取模块、三元网络训练模块以及定位模块；其中，

训练集获取模块用于根据所述全局特征和局部特征，采用重排序算法获取图像q的正样本，采用弱监督算法获取图像q负样本，将所述图像q、正样本和负样本作为三元组网络的训练集；正样本挖掘分为两个阶段：首先根据当前训练阶段的模型参数计算图像库的全局特征，并在查询图像q的潜在正样本集合P中，选择全局特征距离q最近的M个样本P_M，之后基于局部特征的重排序算法搜索P_M中距离图像q最近的一个样本p_*，所述p_*作为训练元组中的正样本p；

三元网络训练模块用于将所述训练集分批，每一批训练集中包含多个训练元组，每个训练元组输入三元网络后解算出排序算法的损失函数和重排序阶段损失函数，并将所述排序算法的损失函数和重排序阶段损失函数加权求和，得到最终损失函数；重复迭代直到三元组网络在训练集和验证集上取得预设的结果或将完整数据集遍历设定的次数，得到确定的三元网络；训练三元组中负样本n_j，基于全局匹配器选择，根据当前训练阶段的模型计算图像库的全局特征和全局距离，在图像q的确切负样本集合N中从小到大的顺序选择J个负样本n_j，其中负样本n_j满足

d_G(q，p_*)+m＞d_G(q，n_j)， (2)

其中m是距离阈值，m＝0.1；

弱监督排序损失函数为：

L_g＝∑max(0，d_G(q，p_*)+m-d_G(q，n_j))， (3)

其中n_j是J个负样本；

重排序阶段损失函数为：

L_l＝∑max(0，d_L(q，p_*)-d_L(q，n_j))， (4)

其中n_j是J个负样本；最终的损失函数L：

L＝w_g*L_g+w_l*L_l， (5)

5.一种计算机设备，其特征在于，包括处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取所述计算机可执行程序并执行，处理器执行计算可执行程序时能实现权利要求1～3中任一项所述基于三元网络的紧耦合弱监督学习的定位方法。

6.一种计算机可读存储介质，其特征在于，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现如权利要求1～3中任一项所述的基于三元网络的紧耦合弱监督学习的定位方法。