CN117746303A - 一种基于感知相关性网络的零样本视觉导航方法及系统 - Google Patents
一种基于感知相关性网络的零样本视觉导航方法及系统 Download PDFInfo
- Publication number
- CN117746303A CN117746303A CN202410185784.3A CN202410185784A CN117746303A CN 117746303 A CN117746303 A CN 117746303A CN 202410185784 A CN202410185784 A CN 202410185784A CN 117746303 A CN117746303 A CN 117746303A
- Authority
- CN
- China
- Prior art keywords
- invisible
- representing
- feature
- target
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000000007 visual effect Effects 0.000 title claims abstract description 32
- 230000008447 perception Effects 0.000 title claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 23
- 239000003795 chemical substances by application Substances 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000002787 reinforcement Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 9
- 238000009792 diffusion process Methods 0.000 claims description 9
- 230000007613 environmental effect Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- 230000015654 memory Effects 0.000 claims description 5
- 230000007787 long-term memory Effects 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 102100040954 Ephrin-A1 Human genes 0.000 description 4
- 101000965523 Homo sapiens Ephrin-A1 Proteins 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉领域,特别涉及一种基于感知相关性网络的零样本视觉导航方法及系统。该方法用于处理智能体需要导航到未见物体的情况,包括:使用目标特征生成模块生成未见目标物体的特征表示;使用未见物体识别模块感知目标物体是否出现在摄像机捕捉的当前观察帧中,并生成适应于观察上下文的目标特征表示;使用元对比特征学习模块使得未见物体特征接近于与其共同出现的已见物体的特征并远离未共同出现的已见物体的特征;使用元对象图学习模块计算基于特征的已见和未见目标之间的相关性;使用决策模块利用先前获得的信息帮助智能体做出决策。本发明充分利用未见目标的特征以及已见和未见目标之间的相关性,提高了智能体的导航成功率。
Description
技术领域
本发明涉及计算机视觉领域,特别涉及一种基于感知相关性网络的零样本视觉导航方法及系统。
背景技术
视觉导航(Visual Navigation)要解决的问题是:基于智能体第一视角的视觉观察引导智能体到达目标物体。通过这一技术,智能体可以快速并且准确的导航到经过训练的目标物体(已见物体)。然而,这些方法在实际应用中存在局限性,因为智能体可能需要导航到未加入到训练过程中的目标物体(未见物体)。因此,零样本视觉导航(Zero-shotObject Navigation)被引入以处理需要导航到未见物体的情况。
对于零样本视觉导航,目前主要有两类方法:先验知识型方法和生成特征型方法。前者使用额外的外部数据集提供未见物体的先验知识或者使用大规模训练的CLIP模型从观测帧中直接提取未见物体的特征。后者根据未见物体的类别属性信息生成视觉特征,并将其融入环境中辅助导航。然而,上述方法皆没有处理已见和未见物体之间的相关性问题。由于智能体缺乏构建和处理这种相关性的能力,从而导致了导航效率低下。
发明内容
针对上述技术问题,本发明提供一种基于感知相关性网络的零样本视觉导航方法及系统,在不使用额外数据集引入先验知识的情况下,充分利用未见物体的特征以及已见物体和未见物体之间的相关性,提高了智能体在零样本视觉导航中的导航成功率。
为达到上述目的,本发明的技术方案如下:
一种基于感知相关性网络的零样本视觉导航方法,包括以下步骤:
(1)目标特征生成:基于扩散模型获得未见物体的图像特征;
(2)未见物体识别:将所述未见物体的图像特征输入至Transformer模型,使用Transformer模型感知未见物体是否出现在摄像机捕捉的当前观察帧中,并生成包含环境特征的未见物体的特征向量;
(3)元对比特征学习:使用对比学习的方式使步骤(2)获得的未见物体的特征向量接近于与其(即所述未见物体特征)共同出现的已见物体的特征并远离未共同出现的已见物体的特征;
(4)元对象图学习:使用图卷积神经网络GCN计算基于特征的已见物体和未见物体之间的相关性;
(5)决策:将通过上述步骤学习到的未见物体的特征向量、当前帧图像的Resnet18提取的特征以及目标指示器输入到长短期记忆网络LSTM中并使用强化学习算法A3C(Actor-Critc算法)训练整个决策网络。
进一步地,步骤(1)具体方法如下:
从数据集中获取各类未见物体的属性信息(具体地,所述属性信息包括颜色,大小,材质等),将各类未见物体的属性信息输入到扩散模型中,经过一系列去噪过程,将从高斯先验中采样的噪声图像去噪为包含属性信息的目标图像;
使用在ImageNet上预训练的ResNet18提取所述目标图像,获得未见物体的图像特征,/>;
其中,为图像特征图的像素大小,R表示/>的向量空间大小。
进一步地,步骤(2)具体方法如下:
(2.1)将从ResNet18提取的智能体t时刻观察帧的图像特征以及步骤(1)生成的N个未见物体的图像特征进行位置编码并连接获得/>:
;
;
;
其中,为图像特征/>的位置编码;/>表示t时刻所生成的未见物体的图像特征;t表示t时刻,uk表示未见物体;/>;图像特征/>;为/>的位置编码,/>表示的是/>与/>连接后的向量,;且将/>作为步骤(2.2)的Transformer输入;Pos表示位置编码,n表示未见物体的索引,Concat表示连接函数;
2.2)所述Transformer模型共有Z层Transformer Layer,对于第z层TransformerLayer,计算方式如下:
;
;
式中:为计算过程第z层Transformer Layer层产生的中间向量;
表示第n个物体在第z层Transformer Layer层的输入;
表示第n个物体在第z+1层Transformer Layer层的输入;
表示ReLU激活函数,LN表示layer normalization操作;MHA表示多头注意力机制,且/>与/>表示/>与/>的映射矩阵; 经过Z层Transformer Layer后,将Transformer最后一层的输出表示为/>;/>表示第n个物体经过Transformer Layer后的输出;
(2.3)根据步骤(2.2)中的Transformer的最后一层输出,得到包含环境特征的未见物体的特征向量/>:
;
其中,表示/>的映射矩阵,/>表示全局池化操作将所有未见对象信息压缩到一维向量中;
使用特征向量进行二分类任务,感知目标物体是否出现在当前观察帧中,并使用交叉熵损失函数进行监督训练。
步骤(2)将步骤(1)生成的特征向量与当前的环境特征进行融合,有助于智能体更好地应对复杂和变化的环境条件,即智能体需考虑到当前环境的动态变化,体现智能体在不断变化的环境中应具备的准确感知、理解和适应的能力。
进一步地,步骤(3)具体方法如下:
将步骤(2)得到的未见物体的特征向量更接近与其共同出现的已见物体的特征,并远离未共同出现的已见物体的特征,具体实现方式如下:
;
;
其中,表示/>运算结果,设计该函数的原因为使特征向量/>更接近与其共同出现的已见物体的特征,并远离未共同出现的已见物体的特征;
表示的是从目标检测模型DETR中获得的已见物体c的特征表示,p表示智能体的位置信息,/>表示未见物体的特征向量;/>、/>和/>分别是/>,p,/>对应的映射矩阵;/>表示损失函数,mcfm为Meta Contrastive Feature Modify(元对比特征学习)首字母简称;/>表示sigmoid函数,/>表示从目标检测模型DETR中获得的已见物体的特征表示,/>表示/>集合中的元素,c表示O集合中的元素;O表示与未见物体共同出现的已见物体的集合,/>表示未与未见物体共同出现的已见物体的集合;
通过损失函数进行对比学习,实现未见物体特征的优化,将优化后的未见物体特征定义为/>,/>;且
。
进一步地,步骤(4)具体方法包括:
(4.1)对象图,其中V和E分别表示节点以及节点之间的边,每个节点v表示通过目标检测模型DETR获得的已见物体的特征以及从步骤(3)中获得的未见物体特征/>,/>;每个边e表示对象之间的相关性,/>;
将对象图G中的节点和边输入到图卷积神经网络GCN中:
;
其中,F表示GCN的输出;表示图卷积神经网络GCN的参数;GCN为机器学习的基础模型,参数包括权重矩阵和偏置;
(4.2)对F使用自监督的典型相关性分析方法来增强图的节点表示并捕获更多信息特征:
;
其中,表示基于cca方法设计的损失函数;/>和/>表示对象图G经过两次随机节点特征缺失并经过同一GCN后的输出,A和B表示两次随机节点特征损失过程; />表示非负超参数,Y表示单位矩阵。
进一步地,步骤(5)具体方法如下:
在智能体移动的t时刻,采用one-hot编码的目标指示器TI将t时刻观察帧的特征以及步骤(5)的输出映射到同一维度后连接,输入到长短期记忆网络LSTM中,得到t时刻LSTM的输出/>,用强化学习算法A3C来训练决策网络/>:
;
;
;
表示t时刻LSTM的输出,TI表示目标指示器target indentifier;/>为智能体当前观察帧的图像特征;/>、/>和/>分别表示TI、/>、F对应的映射矩阵;/>表示动作;动作/>包括向前,左转,右转,向上看,向下看,完成;
为强化学习算法A3C对应的损失函数;E表示的是数学期望;/>表示以TI为目标t时刻在状态/>下选择动作/>的概率;
表示在状态/>选择动作/>相对于平均回报的优势函数;
得出训练过程中的总损失函数为:
;
其中,、/>和/>都为非负超参数。
模型最终的输出为智能体的动作,即,智能体根据当前观测到的图像决定下一步要做的动作,实现视觉导航。
一种基于感知相关性网络的零样本视觉导航系统,包括:
(1)目标特征生成模块:基于扩散模型获得未见物体的图像特征;
(2)未见物体识别模块:将所述未见物体的图像特征输入至Transformer模型,使用Transformer模型感知未见物体是否出现在摄像机捕捉的当前观察帧中,并生成包含环境特征的未见物体的特征向量;
(3)元对比特征学习模块:使用对比学习的方式使步骤(2)获得的未见物体的特征向量接近于与其共同出现的已见物体的特征并远离未共同出现的已见物体的特征;
(4)元对象图学习模块:使用图卷积神经网络GCN计算基于特征的已见物体和未见物体之间的相关性;
(5)决策模块:使用长短期记忆网络LSTM以及强化学习算法训练决策网络。
通过上述技术方案,本发明提出的基于感知相关性网络的零样 本视觉导航方法具有以下效果:
(1)本发明充分利用未见物体的特征以及已见和未见物体之间的相关性,提高了智能体在零样本视觉导航中的导航成功率。
(2)本发明未使用额外数据集引入先验知识,遵循了零样本视觉导航的任务定义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例所公开的一个基于感知相关性网络的零样本视觉导航方法整体示意图。
图2为本发明实施例中目标特征生成模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例1:本发明提供了一个基于感知相关性网络的零样本视觉导航方法,如图1所示,该模型通过充分利用未见物体的特征以及已见和未见物体之间的相关性,提高了智能体在零样本视觉导航中的导航成功率。
:包括以下步骤:
(1)目标特征生成:基于扩散模型获得未见物体的图像特征;如图2所示,目标特征生成模块工作流程为:获得目标特征信息,首先从数据集中获取各类目标物体的属性信息,包括颜色,大小,材质……将目标属性信息输入到扩散模型中,经过一系列去噪过程,即可将从高斯先验中采样的噪声图像去噪为包含属性信息的目标图像,最后使用在ImageNet上预训练的ResNet18提取生成的目标图像,以获得目标对象的生成特征,/>;
其中,为图像特征图的像素大小,R表示/>的向量空间大小。
(2)未见物体识别:将所述未见物体的图像特征输入至Transformer模型,使用Transformer模型感知未见物体是否出现在摄像机捕捉的当前观察帧中,并生成包含环境特征的未见物体的特征向量;
步骤(2)具体方法如下:
(2.1)将从ResNet18提取的智能体t时刻观察帧的图像特征以及步骤(1)生成的N个未见物体的图像特征进行位置编码并连接获得/>:
;
;
;
其中,为图像特征/>的位置编码;/>表示t时刻所生成的未见物体的图像特征;t表示t时刻,uk表示未见物体;/>;图像特征/>;为/>的位置编码,/>表示的是/>与/>连接后的向量,;且将/>作为步骤(2.2)的Transformer输入;Pos表示位置编码,n表示未见物体的索引,Concat表示连接函数;
2.2)所述Transformer模型共有Z层Transformer Layer,对于第z层TransformerLayer,计算方式如下:
;
;
式中:为计算过程第z层Transformer Layer层产生的中间向量;
表示第n个物体在第z层Transformer Layer层的输入;
表示第n个物体在第z+1层Transformer Layer层的输入;
表示ReLU激活函数,LN表示layer normalization操作;MHA表示多头注意力机制,且/>与/>表示/>与/>的映射矩阵; 经过Z层Transformer Layer后,将Transformer最后一层的输出表示为/>;/>表示第n个物体经过Transformer Layer后的输出;
(2.3)根据步骤(2.2)中的Transformer的最后一层输出,得到包含环境特征的未见物体的特征向量/>:
;
其中,表示/>的映射矩阵,/>表示全局池化操作将所有未见对象信息压缩到一维向量中;
使用特征向量进行二分类任务,感知目标物体是否出现在当前观察帧中,并使用交叉熵损失函数进行监督训练。
(3)元对比特征学习:使用对比学习的方式使步骤(2)获得的未见物体的特征向量接近于与其共同出现的已见物体的特征并远离未共同出现的已见物体的特征;
步骤(3)具体方法如下:
将步骤(2)得到的未见物体的特征向量进一步优化,使特征向量更接近与其共同出现的已见物体的特征,并远离未共同出现的已见物体的特征,具体实现方式如下:
;
;
其中,表示的是从目标检测模型DETR中获得的已见物体c的特征表示,p表示智能体的位置信息,/>表示未见物体的特征向量;/>、/>和/>分别是/>,p,/>对应的映射矩阵;/>表示损失函数,/>表示sigmoid函数,/>表示从目标检测模型DETR中获得的已见物体/>的特征表示,/>表示/>集合中的元素,c表示O集合中的元素;O表示与未见物体共同出现的已见物体的集合,/>表示未与未见物体共同出现的已见物体的集合;
通过损失函数进行对比学习,实现未见物体特征的优化,将优化后的未见物体特征定义为/>,/>;且
。
(4)元对象图学习:使用图卷积神经网络GCN计算基于特征的已见物体和未见物体之间的相关性;
步骤(4)具体方法包括:
(4.1)对象图,其中V和E分别表示节点以及节点之间的边,每个节点v表示通过目标检测模型DETR获得的已见物体的特征以及从步骤(3)中获得的未见物体特征/>,/>;每个边e表示对象之间的相关性,/>;
将对象图G中的节点和边输入到图卷积神经网络GCN中:
;
其中,F表示GCN的输出;表示图卷积神经网络GCN的参数;GCN为机器学习的基础模型,参数包括权重矩阵和偏置;
(4.2)对F使用自监督的典型相关性分析方法来增强图的节点表示并捕获更多信息特征:
;
其中,表示基于cca方法设计的损失函数;/>和/>表示对象图G经过两次随机节点特征缺失并经过同一GCN后的输出,A和B表示两次随机节点特征损失过程; />表示非负超参数,Y表示单位矩阵。
(5)决策:将通过上述步骤学习到的未见物体的特征向量、当前帧图像的Resnet18提取的特征以及目标指示器输入到长短期记忆网络LSTM中并使用强化学习算法A3C(Actor-Critc算法)训练整个决策网络。步骤(5)具体方法如下:
在智能体移动的t时刻,采用one-hot编码的目标指示器TI将t时刻观察帧的特征以及步骤(5)的输出映射到同一维度后连接,输入到长短期记忆网络LSTM中,得到t时刻LSTM的输出/>,用强化学习算法A3C来训练决策网络/>:
;
;
;
表示t时刻LSTM的输出,TI表示目标指示器target indentifier;/>为智能体当前观察帧的图像特征;/>、/>和/>分别表示TI、/>、F对应的映射矩阵;/>表示动作;
为强化学习算法A3C对应的损失函数;E表示的是数学期望;/>表示以TI为目标t时刻在状态/>下选择动作/>的概率;
表示在状态/>选择动作/>相对于平均回报的优势函数;
得出训练过程中的总损失函数为:
;
其中,、/>和/>都为非负超参数。
实施例2: 本发明还提供一种基于感知相关性网络的零样本视觉导航系统实施例,采用上述实施例所述导航方法,所述导航系统包括:
(1)目标特征生成模块:基于扩散模型获得未见物体的图像特征,图2为本发明实施例中目标特征生成模块示意图;
(2)未见物体识别模块:将所述未见物体的图像特征输入至Transformer模型,使用Transformer模型感知未见物体是否出现在摄像机捕捉的当前观察帧中,并生成包含环境特征的未见物体的特征向量;
(3)元对比特征学习模块:使用对比学习的方式使步骤(2)获得的未见物体的特征向量接近于与其共同出现的已见物体的特征并远离未共同出现的已见物体的特征;
(4)元对象图学习模块:使用图卷积神经网络GCN计算基于特征的已见物体和未见物体之间的相关性;
(5)决策模块:使用长短期记忆网络LSTM以及强化学习算法训练决策网络。
为验证本发明所提出模型的有效性,进行实验如下:实验模拟环境采用Ai2-Thor和Robo-Thor。首先修改了上述两个模拟环境,以确保训练场景中只存在已见物体,而在验证和测试场景中包括已见和未见的物体。Ai2-Thor包括30个不同的房间,使用20个房间进行训练,5个房间用于验证,5个房间用于测试。Robo-Thor由75个公寓组成,选择60个公寓进行训练,5个用于验证,10个用于测试。
为进一步优化模型,把已见物体细分为已知物体和未知物体,其中已知物体表示已见且类别已知物体,未知物体表示已见但类别未知物体。同时把已知物体和未知物体加入到训练目标中,从而明确引导智能体学习如何导航到已见和未见物体两种情况,即智能体在决策模块通过已知物体学习如何导航到类别已知目标,通过未知物体学习如何导航到类别未知的目标。
实验中采用SR和SPL来评价模型的性能,这是视觉导航中最常用的评价指标,实验结果如表1和表2。
表1和表2中的SP和SAVN是视觉导航中比较常用的方法,表2中GMAN是目前未见物体导航中最优的一个方法,Baseline与我们的模型差别在于未用到已见与未见物体之间的相关性信息。值得一提的是,只在Robo-Thor上与GMAN比较的原因为:在Ai2-Thor上选取了和GMAN不完全相同的目标集合,在Robo-Thor上选取了和GMAN完全相同的目标集合,旨在体现目标类别对导航性能的影响。从表中结果可以看出,本发明的模型在导航到未见物体上的能力明显强于另外四种方法,充分证实了本发明所提出模型的有效性以及已见和未见物体之间的相关性对于零样本视觉导航的强大辅助作用。
表1 Ai2-Thor实验结果
表2 Robo-Thor实验结果
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种基于感知相关性网络的零样本视觉导航方法,其特征在于,包括以下步骤:
(1)目标特征生成:基于扩散模型获得未见物体的图像特征;
(2)未见物体识别:将所述未见物体的图像特征输入至Transformer模型,使用Transformer模型感知未见物体是否出现在摄像机捕捉的当前观察帧中,并生成包含环境特征的未见物体的特征向量;
(3)元对比特征学习:使用对比学习的方式使步骤(2)获得的未见物体的特征向量接近于与其共同出现的已见物体的特征并远离未共同出现的已见物体的特征;
(4)元对象图学习:使用图卷积神经网络GCN计算基于特征的已见物体和未见物体之间的相关性;
(5)决策:使用长短期记忆网络LSTM以及强化学习算法训练决策网络。
2.根据权利要求1所述一种基于感知相关性网络的零样本视觉导航方法,其特征在于,步骤(1)具体方法如下:
从数据集中获取各类未见物体的属性信息,将各类未见物体的属性信息输入到扩散模型中,经过一系列去噪过程,将从高斯先验中采样的噪声图像去噪为包含属性信息的目标图像;
使用在ImageNet上预训练的ResNet18提取所述目标图像,获得未见物体的图像特征,/>;
其中,为图像特征图的像素大小,R表示/>的向量空间大小。
3.根据权利要求2所述一种基于感知相关性网络的零样本视觉导航方法,其特征在于,步骤(2)具体方法如下:
(2.1)将从ResNet18提取的智能体t时刻观察帧的图像特征以及步骤(1)生成的N个未见物体的图像特征进行位置编码并连接获得/>:
;
;
;
其中,为图像特征/>的位置编码;/>表示t时刻所生成的未见物体的图像特征;t表示t时刻,uk表示未见物体;/>;图像特征/>;为/>的位置编码,/>表示的是/>与/>连接后的向量,;且将/>作为步骤(2.2)的Transformer输入;Pos表示位置编码,n表示未见物体的索引,Concat表示连接函数;
2.2)所述Transformer模型共有Z层Transformer Layer,对于第z层TransformerLayer,计算方式如下:
;
;
式中:为计算过程第z层Transformer Layer层产生的中间向量;
表示第n个物体在第z层Transformer Layer层的输入;
表示第n个物体在第z+1层Transformer Layer层的输入;
表示ReLU激活函数,LN表示layer normalization操作;MHA表示多头注意力机制,且/>与/>表示/>与/>的映射矩阵; 经过Z层TransformerLayer后,将Transformer最后一层的输出表示为/>;/>表示第n个物体经过Transformer Layer后的输出;
(2.3)根据步骤(2.2)中的Transformer的最后一层输出,得到包含环境特征的未见物体的特征向量/>:
;
其中,表示/>的映射矩阵,/>表示全局池化操作将所有未见对象信息压缩到一维向量中;
使用特征向量进行二分类任务,感知目标物体是否出现在当前观察帧中,并使用交叉熵损失函数进行监督训练。
4.根据权利要求3所述一种基于感知相关性网络的零样本视觉导航方法,其特征在于,步骤(3)具体方法如下:
将步骤(2)得到的未见物体的特征向量更接近与其共同出现的已见物体的特征,并远离未共同出现的已见物体的特征,具体实现方式如下:
;
;
其中,表示的是从目标检测模型DETR中获得的已见物体c的特征表示,p表示智能体的位置信息,/>表示未见物体的特征向量;/>、/>和/>分别是/>,p,/>对应的映射矩阵;/>表示损失函数,/>表示sigmoid函数,/>表示从目标检测模型DETR中获得的已见物体/>的特征表示,/>表示/>集合中的元素,c表示O集合中的元素;O表示与未见物体共同出现的已见物体的集合,/>表示未与未见物体共同出现的已见物体的集合;通过损失函数/>进行对比学习,实现未见物体特征的优化,将优化后的未见物体特征定义为/>,/>;且
。
5.根据权利要求1所述一种基于感知相关性网络的零样本视觉导航方法,其特征在于,步骤(4)具体方法包括:
(4.1)对象图,其中V和E分别表示节点以及节点之间的边,每个节点v表示通过目标检测模型DETR获得的已见物体的特征以及从步骤(3)中获得的未见物体特征/>,/>;每个边e表示对象之间的相关性,/>;
将对象图G中的节点和边输入到图卷积神经网络GCN中:
;
其中,F表示GCN的输出;表示图卷积神经网络GCN的参数;GCN为机器学习的基础模型,参数包括权重矩阵和偏置;
(4.2)对F使用自监督的典型相关性分析方法来增强图的节点表示并捕获更多信息特征:
;
其中,表示基于cca方法设计的损失函数;/>和/>表示对象图G经过两次随机节点特征缺失并经过同一GCN后的输出,A和B表示两次随机节点特征损失过程; />表示非负超参数,Y表示单位矩阵。
6.根据权利要求5所述一种基于感知相关性网络的零样本视觉导航方法,其特征在于,步骤(5)具体方法如下:
在智能体移动的t时刻,采用one-hot编码的目标指示器TI将t时刻观察帧的特征以及步骤(5)的输出映射到同一维度后连接,输入到长短期记忆网络LSTM中,得到t时刻LSTM的输出/>,用强化学习算法A3C来训练决策网络/>:
;
;
;
表示t时刻LSTM的输出,TI表示目标指示器target indentifier;/>为智能体当前观察帧的图像特征;/>、/>和/>分别表示TI、/>、F对应的映射矩阵;/>表示动作;
为强化学习算法A3C对应的损失函数;E表示的是数学期望;/>表示以TI为目标t时刻在状态/>下选择动作/>的概率;
表示在状态/>选择动作/>相对于平均回报的优势函数;
得出训练过程中的总损失函数为:
;
其中,、/>和/>都为非负超参数。
7.一种基于感知相关性网络的零样本视觉导航系统,采用权利要求1-6任一项所述方法,其特征在于,包括:
(1)目标特征生成模块:基于扩散模型获得未见物体的图像特征;
(2)未见物体识别模块:将所述未见物体的图像特征输入至Transformer模型,使用Transformer模型感知未见物体是否出现在摄像机捕捉的当前观察帧中,并生成包含环境特征的未见物体的特征向量;
(3)元对比特征学习模块:使用对比学习的方式使步骤(2)获得的未见物体的特征向量接近于与其共同出现的已见物体的特征并远离未共同出现的已见物体的特征;
(4)元对象图学习模块:使用图卷积神经网络GCN计算基于特征的已见物体和未见物体之间的相关性;
(5)决策模块:使用长短期记忆网络LSTM以及强化学习算法训练决策网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410185784.3A CN117746303B (zh) | 2024-02-20 | 2024-02-20 | 一种基于感知相关性网络的零样本视觉导航方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410185784.3A CN117746303B (zh) | 2024-02-20 | 2024-02-20 | 一种基于感知相关性网络的零样本视觉导航方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117746303A true CN117746303A (zh) | 2024-03-22 |
CN117746303B CN117746303B (zh) | 2024-05-17 |
Family
ID=90283585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410185784.3A Active CN117746303B (zh) | 2024-02-20 | 2024-02-20 | 一种基于感知相关性网络的零样本视觉导航方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117746303B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008045787A2 (en) * | 2006-10-06 | 2008-04-17 | New York Air Brake Corporation | Human machine interface for speed and location control with braking distance display |
CN111461323A (zh) * | 2020-03-13 | 2020-07-28 | 中国科学技术大学 | 一种图像识别方法及装置 |
WO2021051870A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于强化学习模型的信息控制方法、装置和计算机设备 |
CN114973125A (zh) * | 2022-05-12 | 2022-08-30 | 武汉大学 | 智能导航场景中利用知识图谱辅助导航的方法及系统 |
US20230138302A1 (en) * | 2021-11-02 | 2023-05-04 | Shandong Jianzhu University | Multiple scenario-oriented item retrieval method and system |
CN116242359A (zh) * | 2023-02-08 | 2023-06-09 | 华南理工大学 | 一种基于场景融合知识的视觉语言导航方法、装置及介质 |
CN116958740A (zh) * | 2023-07-07 | 2023-10-27 | 复旦大学 | 基于语义感知和自适应对比学习的零样本目标检测方法 |
CN117197568A (zh) * | 2023-09-12 | 2023-12-08 | 南京理工大学 | 一种基于clip的零样本图像识别方法 |
KR20230174622A (ko) * | 2022-06-21 | 2023-12-28 | 동국대학교 산학협력단 | 일반화된 제로샷 학습을 위한 콘텐츠 및 속성 분리 장치 및 방법 |
CN117475279A (zh) * | 2023-10-31 | 2024-01-30 | 北京理工大学 | 一种基于目标驱动的强化学习导航方法 |
-
2024
- 2024-02-20 CN CN202410185784.3A patent/CN117746303B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008045787A2 (en) * | 2006-10-06 | 2008-04-17 | New York Air Brake Corporation | Human machine interface for speed and location control with braking distance display |
WO2021051870A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于强化学习模型的信息控制方法、装置和计算机设备 |
CN111461323A (zh) * | 2020-03-13 | 2020-07-28 | 中国科学技术大学 | 一种图像识别方法及装置 |
US20230138302A1 (en) * | 2021-11-02 | 2023-05-04 | Shandong Jianzhu University | Multiple scenario-oriented item retrieval method and system |
CN114973125A (zh) * | 2022-05-12 | 2022-08-30 | 武汉大学 | 智能导航场景中利用知识图谱辅助导航的方法及系统 |
KR20230174622A (ko) * | 2022-06-21 | 2023-12-28 | 동국대학교 산학협력단 | 일반화된 제로샷 학습을 위한 콘텐츠 및 속성 분리 장치 및 방법 |
CN116242359A (zh) * | 2023-02-08 | 2023-06-09 | 华南理工大学 | 一种基于场景融合知识的视觉语言导航方法、装置及介质 |
CN116958740A (zh) * | 2023-07-07 | 2023-10-27 | 复旦大学 | 基于语义感知和自适应对比学习的零样本目标检测方法 |
CN117197568A (zh) * | 2023-09-12 | 2023-12-08 | 南京理工大学 | 一种基于clip的零样本图像识别方法 |
CN117475279A (zh) * | 2023-10-31 | 2024-01-30 | 北京理工大学 | 一种基于目标驱动的强化学习导航方法 |
Non-Patent Citations (2)
Title |
---|
QIANFAN ZHAO: "Zero-Shot Object Goal Visual Navigation", ARXIV, 20 February 2023 (2023-02-20) * |
徐戈;肖永强;汪涛;陈开志;廖祥文;吴运兵;: "基于视觉误差与语义属性的零样本图像分类", 计算机应用, no. 04, 20 November 2019 (2019-11-20) * |
Also Published As
Publication number | Publication date |
---|---|
CN117746303B (zh) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112598462B (zh) | 基于协同过滤和深度学习的个性化推荐方法及系统 | |
Postels et al. | Sampling-free epistemic uncertainty estimation using approximated variance propagation | |
Kuck et al. | Learning about individuals from group statistics | |
CN109544306B (zh) | 一种基于用户行为序列特征的跨领域推荐方法及装置 | |
CN110659665B (zh) | 一种异维特征的模型构建方法及图像识别方法、装置 | |
CN107633513A (zh) | 基于深度学习的3d图像质量的度量方法 | |
CN100573100C (zh) | 基于数字图像处理技术的气液两相流流型识别方法 | |
CN113378676A (zh) | 基于多特征融合的图像中人物交互检测方法 | |
Hedegaard et al. | Supervised domain adaptation: A graph embedding perspective and a rectified experimental protocol | |
CN110781970A (zh) | 分类器的生成方法、装置、设备及存储介质 | |
CN104715266B (zh) | 基于src‑dp与lda相结合的图像特征提取方法 | |
Yang et al. | Zero-shot domain adaptation via kernel regression on the grassmannian | |
CN116740384B (zh) | 洗地机的智能控制方法及系统 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN109508640A (zh) | 一种人群情感分析方法、装置和存储介质 | |
CN111862156A (zh) | 一种基于图匹配的多目标跟踪方法和系统 | |
Lange et al. | Non-Euclidean principal component analysis by Hebbian learning | |
CN106056131A (zh) | 基于lrr‑lda的图像特征提取方法 | |
WO2024078112A1 (zh) | 一种舾装件智能识别方法、计算机设备 | |
Skočaj et al. | Incremental and robust learning of subspace representations | |
CN117522923A (zh) | 融合多模态特征的目标跟踪系统及方法 | |
CN117415043A (zh) | 矿石在线分选系统及其方法 | |
Guo et al. | ARLP: Automatic multi-agent transformer reinforcement learning pruner for one-shot neural network pruning | |
CN117315556A (zh) | 改进的Vision Transformer昆虫细粒度识别方法 | |
Liu et al. | Robust multi-view subspace enhanced representation based on collaborative constraints and HSIC induction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |