CN113887653B - 一种基于三元网络的紧耦合弱监督学习的定位方法及系统 - Google Patents
一种基于三元网络的紧耦合弱监督学习的定位方法及系统 Download PDFInfo
- Publication number
- CN113887653B CN113887653B CN202111221943.3A CN202111221943A CN113887653B CN 113887653 B CN113887653 B CN 113887653B CN 202111221943 A CN202111221943 A CN 202111221943A CN 113887653 B CN113887653 B CN 113887653B
- Authority
- CN
- China
- Prior art keywords
- image
- training
- network
- loss function
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000008878 coupling Effects 0.000 title claims abstract description 15
- 238000010168 coupling process Methods 0.000 title claims abstract description 15
- 238000005859 coupling reaction Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 91
- 230000006870 function Effects 0.000 claims abstract description 56
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 45
- 238000005065 mining Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 17
- 230000008569 process Effects 0.000 abstract description 8
- 230000007613 environmental effect Effects 0.000 abstract description 5
- 238000012512 characterization method Methods 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于三元网络的紧耦合弱监督学习的定位方法及系统,基于全局特征和局部特征,采用重排序算法获取图像q的正样本,采用弱监督算法获取图像q负样本,将所述正样本和负样本作为三元组网络的训练集;在学习策略中从选择训练样本元组和损失函数定义两个方面将全局特征和局部特征更好的耦合,实现全局特征和局部特征的互相促进,可以从训练集中学习到更加有效的信息表征方式和更丰富的特征细节;在训练过程中提高两者的一致性,解决了视觉位置识别任务中两者在结果上的冲突混淆问题,从而在检索框架中更好发挥各自的优势—兼顾了实时性、高精度和环境鲁棒性。此外,学习策略还提升了模型的学习效率,大幅度地降低了模型训练时间。
Description
技术领域
本发明属于计算机视觉和机器人领域,具体涉及一种基于三元网络的紧耦合弱监督学习的定位方法及系统。
背景技术
随着计算机视觉的蓬勃发展,基于深度学习的检索定位在机器人领域中展现了巨大的发展潜力。算法主要分为两类,基于全局特征的算法和基于局部特征的算法。全局特征的算法计算耗时短、对环境变化具有不变性,但对视角变化不具有不变性;相反,局部特征的算法耗时长、对视角变化具有不变性、精度相对更高。
因此为了得到在机器人上可实时处理的高精度检索定位方案,目前常用的检索结构是双阶段检索:首先基于全局特征进行数据库的检索排名,之后在选出的top-M中进行基于局部特征的重排名,从而得到最终的定位结果。
由于在这种结构中,全局特征和局部特征的处理是独立的,经过重排名后的定位精度的提升有限。
发明内容
本发明所要解决的技术问题是提供一种基于三元网络的紧耦合弱监督学习的定位方法及系统,解决目前视觉位置识别任务的双阶段检索结构中全局特征和局部特征被割裂处理的问题,从而提升检索定位的精度。
为了实现上述目的,本发明采用的技术方案是:一种基于三元网络的紧耦合弱监督学习的定位方法,包括以下步骤:
获取图像I的全局特征和长度为N的局部特征序列;
基于所述全局特征和局部特征,采用重排序算法获取图像q的正样本,采用弱监督算法获取图像q的负样本,将所述图像q、正样本和负样本作为三元组网络的训练集;
将所述训练集分批,每一批训练集中包含多个训练元组,每个训练元组输入三元网络后解算出排序算法的损失函数和重排序阶段损失函数,并将所述排序算法的损失函数和重排序阶段损失函数加权求和,得到最终损失函数;重复迭代直到三元组网络在训练集和验证集上取得预设的结果或将完整数据集遍历设定的次数,得到确定的三元网络;
基于所述三元网络提取全局特征,基于全局特征进行数据库的检索排名,基于所述检索排名选出top-M,在所述top-M中进行基于局部特征距离的重排名,从而得到最终的定位结果。
采用预训练的DeiT作为待学习的深度骨干网络,沿用自然语言处理中transformer的class token<CLS>对应的处理结果作为图像的全局特征;将图像I的全局特征记作G(I);
采用预训练的DeiT作为待学习的深度网络,局部特征采用GeM池化层,得到长度为N的特征序列,将图像I的局部特征记作{L1(I),…,Lk(I),…,LN(I)}。
采用欧氏距离计算全局特征之间的距离,图像Q和图像R之间的全局距离为
dG(Q,R)=‖G(Q)-G(R)‖. (1)
局部距离度量的算法使用DTW算法,将图像Q和图像R之间的局部距离记作dL(Q,R)。
正样本挖掘分为两个阶段:首先根据当前训练阶段的模型参数计算图像库的全局特征,并在查询图像q的潜在正样本集合P中,选择全局特征距离q最近的M个样本PM,之后基于局部特征的重排序算法搜索PM中距离图像q最近的一个样本p*,所述p*作为训练元组中的正样本p。
训练三元组中负样本nj,基于全局匹配器选择,根据当前训练阶段的模型计算图像库的全局特征和全局距离,在图像q的确切负样本集合N中从小到大的顺序选择J个负样本nj,其中负样本nj满足
dG(q,p*)+m>dG(q,nj), (2)其中m是距离阈值,m=0.1。
6.根据权利要求1所述的基于三元网络的紧耦合弱监督学习的定位方法,其特征在于,弱监督排序损失函数为:
Lg=∑max(0,dG(q,p*)+m-dG(q,nj)), (3)
其中nj是J个负样本;
重排序阶段损失函数为:
Ll=∑max(0,dL(q,p*)-dL(q,nj)), (4)
其中nj是J个负样本。
最终的损失函数L:
L=wg*Lg+wl*Ll, (5)
其中wg和wl是两个损失函数的权重,Lg为弱监督排序损失函数,Ll为重排序阶段损失函数,wl=wg=0.5。
还提供一种基于三元网络的紧耦合弱监督学习的定位系统,包括特征获取模块、训练集获取模块、三元网络训练模块以及定位模块;其中,
特征获取模块用于获取图像I的全局特征和长度为N的局部特征序列;
训练集获取模块用于根据所述全局特征和局部特征,采用重排序算法获取图像q的正样本,采用弱监督算法获取图像q负样本,将所述图像q、正样本和负样本作为三元组网络的训练集;
三元网络训练模块用于将所述训练集分批,每一批训练集中包含多个训练元组,每个训练元组输入三元网络后解算出排序算法的损失函数和重排序阶段损失函数,并将所述排序算法的损失函数和重排序阶段损失函数加权求和,得到最终损失函数;重复迭代直到三元组网络在训练集和验证集上取得预设的结果或将完整数据集遍历设定的次数,得到确定的三元网络;
定位模块用于根据所述三元网络提取全局特征,基于全局特征进行数据库的检索排名,基于所述检索排名选出top-M,在所述top-M中进行基于局部特征距离的重排名,从而得到最终的定位结果。
一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取所述计算机可执行程序并执行,处理器执行计算可执行程序时能实现本发明所述基于三元网络的紧耦合弱监督学习的定位方法。
一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于三元网络的紧耦合弱监督学习的定位方法。
与现有的基于三元网络的弱监督学习策略相比,本发明针对双阶段检索结构提出一种紧耦合的弱监督学习策略,在学习策略中从两个层面将基于全局特征和局部特征的检索方法进行耦合,具体体现在三元网络的训练元组的挖掘策略和损失函数的定义;通过将两者耦合的方式促进彼此的学习,实现全局特征和局部特征的互相促进,从数据集中学习到更加有效的信息表征方式和特征细节;同时在训练过程中提高了两者的一致性,解决了两者在视觉位置识别任务中存在的结果冲突问题,从而在检索框架中更好地发挥了各自的优势—兼顾了实时性、高精度和环境鲁棒性。此外,学习策略还提升了模型的学习效率,大幅度地降低了模型的训练时间。
附图说明
图1为本发明中特征提取的示意图。
图2为本发明基于的图像检索结构示意图。
图3为本发明的紧耦合弱监督策略示意图。
图4为三元网络的样本示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
本发明提供一种基于三元网络的紧耦合弱监督学习的定位方法及系统,基于全局特征和局部特征,采用重排序算法获取图像q的正样本,采用弱监督算法获取图像q负样本,将所述正样本和负样本作为三元组网络的训练集;在学习策略中从选择训练样本元组和损失函数定义两个方面将全局特征和局部特征更好的耦合,实现全局特征和局部特征的互相促进,可以从训练集中学习到更加有效的信息表征方式和更加丰富的特征细节;同时在训练过程中提高两者的一致性,解决了视觉位置识别任务中两者在结果上的冲突混淆问题,从而在检索框架中更好地发挥了各自的优势—兼顾了实时性、高精度和环境鲁棒性。此外,学习策略还提升了模型的学习效率,大幅度地降低了模型训练时间。
本发明通过在深度网络的学习训练过程中耦合基于全局特征的排序算法和基于局部特征的重排序算法,实现全局特征和局部特征的耦合,并用于视觉位置识别(visualplace recognition,VPR)任务中提升定位精度。训练网络采用三元网络,其中训练元组包括1个查询、1个正样本、J个负样本,记作(q,p,nj)。具体特征提取和特征距离计算由步骤A1到步骤A3实现,学习策略由步骤B1到步骤B6实现,视觉位置识别任务由步骤C实现。
A1.采用预训练的Data-efficient image transformers(DeiT)作为待学习的深度骨干网络,如图1所示,沿用自然语言处理中transformer的class token<CLS>对应的处理结果作为全局特征。将图像I的全局特征记作G(I).
A2.采用预训练的DeiT作为待学习的深度网络,如图1所示,局部特征采用Generalized Mean(GeM)池化层,得到长度为N的特征序列(本发明的示例中选用N=7)。将图像I的局部特征记作{L1(I),…,Lk(I),…,IN(I)}.
A3.图像之间的距离计算。
全局特征之间的距离采用欧氏距离,图像Q和图像R之间的全局距离为
dG(Q,R)=‖G(Q)-G(R)‖. (1)
局部距离度量的算法使用DTW算法,将图像Q和图像R之间的局部距离记作dL(Q,R)。
B1.目前的VPR数据集均为弱标注,即没有明确的1对1的数据标注,而是针对每一张查询图像q,存在一个潜在正样本集合P和确切负样本集合N,其中潜在正样本集合的含义是P中包含了图像q的最匹配的正样本但并不确定哪一个是,同时也可能包含负样本。因此VPR任务一般采取弱监督训练的策略并在训练时进行训练元组的挖掘和弱监督损失函数的定义。
深度模型的训练过程中不断迭代从而实现目标,目标完成程度是由损失函数来评估,即期望输出与目前输出之间的差距。
三元训练网络的目标是尽可能地拉近查询图像和正样本之间的距离、拉开查询图像和负样本之间的距离,三元网络训练的过程是:针对1个训练元组,其组成包括1个查询图像q,1个正样本p和多个负样本nj,样本的挖掘一般需要通过算法实现;
构建三元网络之后,将完整的训练集分批,每一批训练集中包含多个训练元组,每个训练元组输入三元过网络后解算出其对应的损失,通过对每批的损失求和并求导完成一次参数更新;不断地迭代直到模型在训练集和验证集上取得预设的结果或将完整数据集遍历设定的次数,完成模型的训练过程,用于后续的测试集测试。
B2.训练三元组中正样本p的选择方式。
传统的策略直接根据当前训练阶段的模型参数计算图像库的全局特征,并在查询图像q的潜在正样本集合P中选择全局特征距离q最近的样本作为元组中的p:
如图2所示,全局-局部匹配器即为本发明的正样本挖掘策略,分为两个阶段:首先根据当前训练阶段的模型参数计算图像库的全局特征,并在查询图像q的潜在正样本集合P中,根据公式(2)选择全局特征距离q最近的M个样本,PM。之后基于局部特征的重排序算法搜索PM中距离q最近的一个样本,p*,作为训练元组中的正样本p:
B3.训练三元组中负样本nj的选择方式。
为了降低算法的开销,本发明采用和传统策略一致的负样本挖掘方式,即全局匹配器。根据当前训练阶段的模型计算图像库的全局特征和全局距离,在图像q的确切负样本集合N中从小到大的顺序选择J个nj,其中nj满足
dG(q,p*)+m>dG(q,nj), (4)
其中m是距离阈值,一般使用0.1。
如图3所示,H区域内的负样本属于hard negatives,满足dG(q,p*)>dG(q,nj);S区域内的负样本属于semi-hard negatives,满足dG(q,p*)+m>dG(q,nj)>dG(q,p*);E区域的负样本属于easy negatives。公式(4)中的负样本的选择是为了筛选出困难(hard)和半困难(semi-hard)的负样本。
B4.排序算法的损失函数的计算。
传统策略中的弱监督排序损失函数定义为:
根据步骤B2中得到的正样本p*,本发明将弱监督排序损失函数调整为:
Lg=∑max(0,dG(q,p*)+m-dG(q,nj)), (6)
其中nj是通过步骤B4得到的J个负样本。可以看出公式(5)和公式(6)的本质的计算思想是一致的,只是由于正样本挖掘策略不同而产生了计算上的差异。
B5.重排序算法的损失函数的计算。
为了进一步在模型训练过程中耦合全局特征和局部特征,我们针对重排序阶段定义损失函数:
Ll=∑max(0,dL(q,p*)-dL(q,nj)), (7)
其中nj是通过步骤B3得到的J个负样本。
B6.最终的损失函数的计算。
将步骤B4和步骤B5中计算的两部分损失函数进行加权求和,实现优化空间的进一步约束以及共同优化:
L=wg*Lg+wl*Ll, (8)
其中wg和wl是两个损失函数的权重。在本发明中,步骤A3中计算的图像对的全局距离和局部距离的取值相当,因此采用wl=wg=0.5.
C.视觉识别定位任务
基于所述三元网络提取全局特征,基于全局特征进行数据库的检索排名,基于所述检索排名选出top-M,在所述top-M中进行基于局部特征距离的重排名,从而得到最终的定位结果。
本发明基于三元组策略训练了新的模型,用模型提取特征,完成了视觉位置识别的任务。
如图4所示,本发明采用双阶段检索结构完成视觉识别定位任务。首先基于全局特征进行数据库的检索排名,之后在选出的top-M中进行基于局部特征距离的重排名,从而得到最终的定位结果。
上述技术方案在学习策略中实现了全局特征和局部特征的互相促进,可以从数据集中学习到更加有效的信息表征方式,提高各自的检索精度;同时在训练过程中提高了两者的一致性,解决了两者在结果上的冲突混淆问题,从而在检索框架中更好地发挥了各自的优势—兼顾了实时性、高精度和环境鲁棒性。此外,学习策略还提升了模型的学习效率,大幅度地降低了模型的训练时间。
本发明还提供一种基于三元网络的紧耦合弱监督学习的定位系统,包括特征获取模块、训练集获取模块、三元网络训练模块以及定位模块;其中,
特征获取模块用于获取图像I的全局特征和长度为N的局部特征序列;
训练集获取模块用于根据所述全局特征和局部特征,采用重排序算法获取图像q的正样本,采用弱监督算法获取图像q负样本,将所述正样本和负样本作为三元组网络的训练集;
三元网络训练模块用于将所述训练集分批,每一批训练集中包含多个训练元组,每个训练元组输入三元过网络后解算出排序算法的损失函数和重排序阶段损失函数,并将所述排序算法的损失函数和重排序阶段损失函加权求和,得到最终损失函数;重复迭代直到三元组网络在训练集和验证集上取得预设的结果或将完整数据集遍历设定的次数,得到确定的三元网络;
定位模块用于根据所述三元网络提取全局特征,基于全局特征进行数据库的检索排名,基于所述检索排名选出top-M,在所述top-M中进行基于局部特征距离的重排名,从而得到最终的定位结果。
另一方面,本发明提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于三元网络的紧耦合弱监督学习的定位方法。
所述计算机设备可以采用笔记本电脑、桌面型计算机或工作站。
处理器可以是中央处理器(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)或现成可编程门阵列(FPGA)。
对于本发明所述存储器,可以是笔记本电脑、桌面型计算机或工作站的内部存储单元,如内存、硬盘;也可以采用外部存储单元,如移动硬盘、闪存卡。
计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random Access Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。
以上对本发明实施例公开的一种应用紧耦合弱监督学习策略的视觉位置识别系统进行了详细介绍,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,但本发明并不限于上述实施方式。对于本领域的一般技术人员,在其所具备的知识范围内,依据本发明的思想,可以在具体实施方式或应用范围上做出变化。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种基于三元网络的紧耦合弱监督学习的定位方法,其特征在于,包括以下步骤:获取图像I的全局特征和长度为N的局部特征序列;
基于所述全局特征和局部特征,采用重排序算法获取图像q的正样本,采用弱监督算法获取图像q的负样本,将所述图像q、正样本和负样本作为三元组网络的训练集;正样本挖掘分为两个阶段:首先根据当前训练阶段的模型参数计算图像库的全局特征,并在查询图像q的潜在正样本集合P中,选择全局特征距离q最近的M个样本PM,之后基于局部特征的重排序算法搜索PM中距离图像q最近的一个样本p*,所述p*作为训练元组中的正样本p;
将所述训练集分批,每一批训练集中包含多个训练元组,每个训练元组输入三元网络后解算出排序算法的损失函数和重排序阶段损失函数,并将所述排序算法的损失函数和重排序阶段损失函数加权求和,得到最终损失函数;重复迭代直到三元组网络在训练集和验证集上取得预设的结果或将完整数据集遍历设定的次数,得到确定的三元网络;训练三元组中负样本nj,基于全局匹配器选择,根据当前训练阶段的模型计算图像库的全局特征和全局距离,在图像q的确切负样本集合N中从小到大的顺序选择J个负样本nj,其中负样本nj满足
dG(q,p*)+m>dG(q,nj), (2)
其中m是距离阈值,m=0.1;
弱监督排序损失函数为:
Lg=∑max(0,dG(q,p*)+m-dG(q,nj)), (3)
其中nj是J个负样本;
重排序阶段损失函数为:
Ll=∑max(0,dL(q,p*)-dL(q,nj)), (4)
其中nj是J个负样本;最终的损失函数L:
L=wg*Lg+wl*Ll, (5)
其中wg和wl是两个损失函数的权重,Lg为弱监督排序损失函数,Ll为重排序阶段损失函数,wl=wg=0.5;
基于所述三元网络提取全局特征,基于全局特征进行数据库的检索排名,基于所述检索排名选出top-M,在所述top-M中进行基于局部特征距离的重排名,从而得到最终的定位结果。
2.根据权利要求1所述的基于三元网络的紧耦合弱监督学习的定位方法,其特征在于,采用预训练的DeiT作为待学习的深度骨干网络,沿用自然语言处理中transformer的classtoken<CLS>对应的处理结果作为图像的全局特征;将图像I的全局特征记作G(I);
采用预训练的DeiT作为待学习的深度网络,局部特征采用GeM池化层,得到长度为N的特征序列,将图像I的局部特征记作{L1(I),…,Lk(I),…,LN(I)}。
3.根据权利要求1所述的基于三元网络的紧耦合弱监督学习的定位方法,其特征在于,采用欧氏距离计算全局特征之间的距离,图像Q和图像R之间的全局距离为
dG(Q,R)=||G(Q)-G(R)||. (1)
局部距离度量的算法使用DTW算法,将图像Q和图像R之间的局部距离记作dL(Q,R)。
4.一种基于三元网络的紧耦合弱监督学习的定位系统,其特征在于,包括特征获取模块、训练集获取模块、三元网络训练模块以及定位模块;其中,
特征获取模块用于获取图像I的全局特征和长度为N的局部特征序列;
训练集获取模块用于根据所述全局特征和局部特征,采用重排序算法获取图像q的正样本,采用弱监督算法获取图像q负样本,将所述图像q、正样本和负样本作为三元组网络的训练集;正样本挖掘分为两个阶段:首先根据当前训练阶段的模型参数计算图像库的全局特征,并在查询图像q的潜在正样本集合P中,选择全局特征距离q最近的M个样本PM,之后基于局部特征的重排序算法搜索PM中距离图像q最近的一个样本p*,所述p*作为训练元组中的正样本p;
三元网络训练模块用于将所述训练集分批,每一批训练集中包含多个训练元组,每个训练元组输入三元网络后解算出排序算法的损失函数和重排序阶段损失函数,并将所述排序算法的损失函数和重排序阶段损失函数加权求和,得到最终损失函数;重复迭代直到三元组网络在训练集和验证集上取得预设的结果或将完整数据集遍历设定的次数,得到确定的三元网络;训练三元组中负样本nj,基于全局匹配器选择,根据当前训练阶段的模型计算图像库的全局特征和全局距离,在图像q的确切负样本集合N中从小到大的顺序选择J个负样本nj,其中负样本nj满足
dG(q,p*)+m>dG(q,nj), (2)
其中m是距离阈值,m=0.1;
弱监督排序损失函数为:
Lg=∑max(0,dG(q,p*)+m-dG(q,nj)), (3)
其中nj是J个负样本;
重排序阶段损失函数为:
Ll=∑max(0,dL(q,p*)-dL(q,nj)), (4)
其中nj是J个负样本;最终的损失函数L:
L=wg*Lg+wl*Ll, (5)
其中wg和wl是两个损失函数的权重,Lg为弱监督排序损失函数,Ll为重排序阶段损失函数,wl=wg=0.5;
定位模块用于根据所述三元网络提取全局特征,基于全局特征进行数据库的检索排名,基于所述检索排名选出top-M,在所述top-M中进行基于局部特征距离的重排名,从而得到最终的定位结果。
5.一种计算机设备,其特征在于,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取所述计算机可执行程序并执行,处理器执行计算可执行程序时能实现权利要求1~3中任一项所述基于三元网络的紧耦合弱监督学习的定位方法。
6.一种计算机可读存储介质,其特征在于,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现如权利要求1~3中任一项所述的基于三元网络的紧耦合弱监督学习的定位方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111221943.3A CN113887653B (zh) | 2021-10-20 | 2021-10-20 | 一种基于三元网络的紧耦合弱监督学习的定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111221943.3A CN113887653B (zh) | 2021-10-20 | 2021-10-20 | 一种基于三元网络的紧耦合弱监督学习的定位方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113887653A CN113887653A (zh) | 2022-01-04 |
CN113887653B true CN113887653B (zh) | 2024-02-06 |
Family
ID=79003728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111221943.3A Active CN113887653B (zh) | 2021-10-20 | 2021-10-20 | 一种基于三元网络的紧耦合弱监督学习的定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887653B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115311504B (zh) * | 2022-10-10 | 2023-01-31 | 之江实验室 | 一种基于注意力重定位的弱监督定位方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019128367A1 (zh) * | 2017-12-26 | 2019-07-04 | 广州广电运通金融电子股份有限公司 | 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质 |
CN113127661A (zh) * | 2021-04-06 | 2021-07-16 | 中国科学院计算技术研究所 | 基于循环查询扩展的多监督医学图像检索方法和系统 |
CN113177518A (zh) * | 2021-05-24 | 2021-07-27 | 西安建筑科技大学 | 一种利用弱监督区域推荐的车辆重识别方法 |
-
2021
- 2021-10-20 CN CN202111221943.3A patent/CN113887653B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019128367A1 (zh) * | 2017-12-26 | 2019-07-04 | 广州广电运通金融电子股份有限公司 | 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质 |
CN113127661A (zh) * | 2021-04-06 | 2021-07-16 | 中国科学院计算技术研究所 | 基于循环查询扩展的多监督医学图像检索方法和系统 |
CN113177518A (zh) * | 2021-05-24 | 2021-07-27 | 西安建筑科技大学 | 一种利用弱监督区域推荐的车辆重识别方法 |
Non-Patent Citations (2)
Title |
---|
张越 ; 夏鸿斌 ; .基于弱监督预训练CNN模型的情感分析方法.计算机工程与应用.2018,(第13期),全文. * |
毛雪宇 ; 彭艳兵 ; .增量角度域损失和多特征融合的地标识别.中国图象图形学报.2020,(第08期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113887653A (zh) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111553193B (zh) | 一种基于轻量级深层神经网络的视觉slam闭环检测方法 | |
CN110851645B (zh) | 一种基于深度度量学习下相似性保持的图像检索方法 | |
WO2020228446A1 (zh) | 模型训练方法、装置、终端及存储介质 | |
CN109146944B (zh) | 一种基于深度可分卷积神经网络的视觉深度估计方法 | |
CN112069921A (zh) | 一种基于自监督知识迁移的小样本视觉目标识别方法 | |
WO2019015246A1 (zh) | 图像特征获取 | |
CN111476302A (zh) | 基于深度强化学习的Faster-RCNN目标物体检测方法 | |
CN110738146A (zh) | 一种目标重识别神经网络及其构建方法和应用 | |
CN110188225B (zh) | 一种基于排序学习和多元损失的图像检索方法 | |
CN111696101A (zh) | 一种基于SE-Inception的轻量级茄科病害识别方法 | |
CN110245683B (zh) | 一种少样本目标识别的残差关系网络构建方法及应用 | |
CN112633382A (zh) | 一种基于互近邻的少样本图像分类方法及系统 | |
CN110619059A (zh) | 一种基于迁移学习的建筑物标定方法 | |
CN109582960B (zh) | 基于结构化关联语义嵌入的零示例学习方法 | |
CN114511710A (zh) | 一种基于卷积神经网络的图像目标检测方法 | |
CN110674326A (zh) | 一种基于多项式分布学习的神经网络结构检索方法 | |
CN116310425A (zh) | 一种细粒度图像检索方法、系统、设备及存储介质 | |
CN113127661A (zh) | 基于循环查询扩展的多监督医学图像检索方法和系统 | |
CN113095251A (zh) | 一种人体姿态估计方法及系统 | |
CN113887653B (zh) | 一种基于三元网络的紧耦合弱监督学习的定位方法及系统 | |
CN112307048A (zh) | 语义匹配模型训练方法、匹配方法、装置、设备及存储介质 | |
CN109558883B (zh) | 叶片特征提取方法及装置 | |
CN115907775A (zh) | 基于深度学习的个人征信评级方法及其应用 | |
CN111401519B (zh) | 一种基于物体内和物体间相似性距离的深层神经网络无监督学习方法 | |
CN115018884A (zh) | 基于多策略融合树的可见光红外视觉跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |