CN117746303B

CN117746303B - 一种基于感知相关性网络的零样本视觉导航方法及系统

Info

Publication number: CN117746303B
Application number: CN202410185784.3A
Authority: CN
Inventors: 郑艳伟; 李昌瑞; 于东晓; 李亚玲
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2024-02-20
Filing date: 2024-02-20
Publication date: 2024-05-17
Anticipated expiration: 2044-02-20
Also published as: CN117746303A

Abstract

本发明涉及计算机视觉领域，特别涉及一种基于感知相关性网络的零样本视觉导航方法及系统。该方法用于处理智能体需要导航到未见物体的情况，包括：使用目标特征生成模块生成未见目标物体的特征表示；使用未见物体识别模块感知目标物体是否出现在摄像机捕捉的当前观察帧中，并生成适应于观察上下文的目标特征表示；使用元对比特征学习模块使得未见物体特征接近于与其共同出现的已见物体的特征并远离未共同出现的已见物体的特征；使用元对象图学习模块计算基于特征的已见和未见目标之间的相关性；使用决策模块利用先前获得的信息帮助智能体做出决策。本发明充分利用未见目标的特征以及已见和未见目标之间的相关性，提高了智能体的导航成功率。

Description

一种基于感知相关性网络的零样本视觉导航方法及系统

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于感知相关性网络的零样本视觉导航方法及系统。

背景技术

视觉导航（Visual Navigation）要解决的问题是：基于智能体第一视角的视觉观察引导智能体到达目标物体。通过这一技术，智能体可以快速并且准确的导航到经过训练的目标物体（已见物体）。然而，这些方法在实际应用中存在局限性，因为智能体可能需要导航到未加入到训练过程中的目标物体（未见物体）。因此，零样本视觉导航（Zero-shotObject Navigation）被引入以处理需要导航到未见物体的情况。

对于零样本视觉导航，目前主要有两类方法：先验知识型方法和生成特征型方法。前者使用额外的外部数据集提供未见物体的先验知识或者使用大规模训练的CLIP模型从观测帧中直接提取未见物体的特征。后者根据未见物体的类别属性信息生成视觉特征，并将其融入环境中辅助导航。然而，上述方法皆没有处理已见和未见物体之间的相关性问题。由于智能体缺乏构建和处理这种相关性的能力，从而导致了导航效率低下。

发明内容

针对上述技术问题，本发明提供一种基于感知相关性网络的零样本视觉导航方法及系统，在不使用额外数据集引入先验知识的情况下，充分利用未见物体的特征以及已见物体和未见物体之间的相关性，提高了智能体在零样本视觉导航中的导航成功率。

为达到上述目的，本发明的技术方案如下：

一种基于感知相关性网络的零样本视觉导航方法，包括以下步骤：

（1）目标特征生成：基于扩散模型获得未见物体的图像特征；

（2）未见物体识别：将所述未见物体的图像特征输入至Transformer模型，使用Transformer模型感知未见物体是否出现在摄像机捕捉的当前观察帧中，并生成包含环境特征的未见物体的特征向量；

（3）元对比特征学习：使用对比学习的方式使步骤（2）获得的未见物体的特征向量接近于与其（即所述未见物体特征）共同出现的已见物体的特征并远离未共同出现的已见物体的特征；

（4）元对象图学习：使用图卷积神经网络GCN计算基于特征的已见物体和未见物体之间的相关性；

（5）决策：将通过上述步骤学习到的未见物体的特征向量、当前帧图像的Resnet18提取的特征以及目标指示器输入到长短期记忆网络LSTM中并使用强化学习算法A3C（Actor-Critc算法）训练整个决策网络。

进一步地，步骤（1）具体方法如下：

从数据集中获取各类未见物体的属性信息（具体地，所述属性信息包括颜色，大小，材质等），将各类未见物体的属性信息输入到扩散模型中，经过一系列去噪过程，将从高斯先验中采样的噪声图像去噪为包含属性信息的目标图像；

使用在ImageNet上预训练的ResNet18提取所述目标图像，获得未见物体的图像特征，/>；

其中，为图像特征图的像素大小，R表示/>的向量空间大小。

进一步地，步骤（2）具体方法如下：

（2.1）将从ResNet18提取的智能体t时刻观察帧的图像特征以及步骤（1）生成的N个未见物体的图像特征进行位置编码并连接获得/>：

；

其中，为图像特征/>的位置编码；/>表示t时刻所生成的未见物体的图像特征；t表示t时刻，uk表示未见物体；/>；图像特征/>；为/>的位置编码，/>表示的是/>与/>连接后的向量，/>；且将/>作为步骤（2.2）的Transformer输入；Pos表示位置编码，n表示未见物体的索引，Concat表示连接函数；

2.2）所述Transformer模型共有Z层Transformer Layer，对于第z层TransformerLayer，计算方式如下：

；

式中：为计算过程第z层Transformer Layer层产生的中间向量；

表示第n个物体在第z层Transformer Layer层的输入；

表示第n个物体在第z+1层Transformer Layer层的输入；

表示ReLU激活函数，LN表示layer normalization操作；MHA表示多头注意力机制，且/>与/>表示/>与/>的映射矩阵；经过Z层Transformer Layer后，将Transformer最后一层的输出表示为/>；表示第n个物体经过Transformer Layer后的输出；

（2.3）根据步骤（2.2）中的Transformer的最后一层输出，得到包含环境特征的未见物体的特征向量/>：

；

其中，表示/>的映射矩阵，/>表示全局池化操作将所有未见对象信息压缩到一维向量中；

使用特征向量进行二分类任务，感知目标物体是否出现在当前观察帧中，并使用交叉熵损失函数进行监督训练。

步骤（2）将步骤（1）生成的特征向量与当前的环境特征进行融合，有助于智能体更好地应对复杂和变化的环境条件，即智能体需考虑到当前环境的动态变化，体现智能体在不断变化的环境中应具备的准确感知、理解和适应的能力。

进一步地，步骤（3）具体方法如下：

将步骤(2)得到的未见物体的特征向量更接近与其共同出现的已见物体的特征，并远离未共同出现的已见物体的特征，具体实现方式如下：

；

其中，表示/>运算结果，设计该函数的原因为使特征向量/>更接近与其共同出现的已见物体的特征，并远离未共同出现的已见物体的特征；

表示的是从目标检测模型DETR中获得的已见物体c的特征表示，p表示智能体的位置信息，/>表示未见物体的特征向量；/>、/>和/>分别是/>，p，对应的映射矩阵；/>表示损失函数，mcfm为Meta Contrastive FeatureModify（元对比特征学习）首字母简称；/>表示sigmoid函数，/>表示从目标检测模型DETR中获得的已见物体/>的特征表示，/>表示/>集合中的元素，c表示O集合中的元素；O表示与未见物体共同出现的已见物体的集合，/>表示未与未见物体共同出现的已见物体的集合；

通过损失函数进行对比学习，实现未见物体特征的优化，将优化后的未见物体特征定义为/>，/>；且

。

进一步地，步骤（4）具体方法包括：

（4.1）对象图，其中V和E分别表示节点以及节点之间的边，每个节点v表示通过目标检测模型DETR获得的已见物体的特征以及从步骤（3）中获得的未见物体特征/>,/>；每个边e表示对象之间的相关性，/>；

将对象图G中的节点和边输入到图卷积神经网络GCN中：

;

其中，F表示GCN的输出；表示图卷积神经网络GCN的参数；GCN为机器学习的基础模型，参数包括权重矩阵和偏置；

（4.2）对F使用自监督的典型相关性分析方法来增强图的节点表示并捕获更多信息特征：

；

其中，表示基于cca方法设计的损失函数；/>和/>表示对象图G经过两次随机节点特征缺失并经过同一GCN后的输出，A和B表示两次随机节点特征损失过程；表示非负超参数，Y表示单位矩阵。

进一步地，步骤（5）具体方法如下：

在智能体移动的t时刻，采用one-hot编码的目标指示器TI将t时刻观察帧的特征以及步骤（5）的输出映射到同一维度后连接，输入到长短期记忆网络LSTM中，得到t时刻LSTM的输出/>，用强化学习算法A3C来训练决策网络/>：

；

表示t时刻LSTM的输出，TI表示目标指示器target indentifier；/>为智能体当前观察帧的图像特征；/>、/>和/>分别表示TI、/>、F对应的映射矩阵；表示动作；动作/>包括向前，左转，右转，向上看，向下看，完成；

为强化学习算法A3C对应的损失函数；E表示的是数学期望；/>表示以TI为目标t时刻在状态/>下选择动作/>的概率；

表示在状态/>选择动作/>相对于平均回报的优势函数；

得出训练过程中的总损失函数为：

；

其中，、/>和/>都为非负超参数。

模型最终的输出为智能体的动作，即，智能体根据当前观测到的图像决定下一步要做的动作，实现视觉导航。

一种基于感知相关性网络的零样本视觉导航系统，包括：

（1）目标特征生成模块：基于扩散模型获得未见物体的图像特征；

（2）未见物体识别模块：将所述未见物体的图像特征输入至Transformer模型，使用Transformer模型感知未见物体是否出现在摄像机捕捉的当前观察帧中，并生成包含环境特征的未见物体的特征向量；

（3）元对比特征学习模块：使用对比学习的方式使步骤（2）获得的未见物体的特征向量接近于与其共同出现的已见物体的特征并远离未共同出现的已见物体的特征；

（4）元对象图学习模块：使用图卷积神经网络GCN计算基于特征的已见物体和未见物体之间的相关性；

（5）决策模块：使用长短期记忆网络LSTM以及强化学习算法训练决策网络。

通过上述技术方案，本发明提出的基于感知相关性网络的零样本视觉导航方法具有以下效果：

（1）本发明充分利用未见物体的特征以及已见和未见物体之间的相关性，提高了智能体在零样本视觉导航中的导航成功率。

（2）本发明未使用额外数据集引入先验知识，遵循了零样本视觉导航的任务定义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所公开的一个基于感知相关性网络的零样本视觉导航方法整体示意图。

图2为本发明实施例中目标特征生成模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例1：本发明提供了一个基于感知相关性网络的零样本视觉导航方法，如图1所示，该模型通过充分利用未见物体的特征以及已见和未见物体之间的相关性，提高了智能体在零样本视觉导航中的导航成功率。

:包括以下步骤：

（1）目标特征生成：基于扩散模型获得未见物体的图像特征；如图2所示，目标特征生成模块工作流程为：获得目标特征信息，首先从数据集中获取各类目标物体的属性信息，包括颜色，大小，材质……将目标属性信息输入到扩散模型中，经过一系列去噪过程，即可将从高斯先验中采样的噪声图像去噪为包含属性信息的目标图像，最后使用在ImageNet上预训练的ResNet18提取生成的目标图像，以获得目标对象的生成特征，/>；

其中，为图像特征图的像素大小，R表示/>的向量空间大小。

步骤（2）具体方法如下：

；

其中，为图像特征/>的位置编码；/>表示t时刻所生成的未见物体的图像特征；t表示t时刻，uk表示未见物体；/>；图像特征；/>为/>的位置编码，/>表示的是与/>连接后的向量，/>；且将/>作为步骤（2.2）的Transformer输入；Pos表示位置编码，n表示未见物体的索引，Concat表示连接函数；

；

式中：为计算过程第z层Transformer Layer层产生的中间向量；

表示第n个物体在第z层Transformer Layer层的输入；

表示第n个物体在第z+1层Transformer Layer层的输入；

；

（3）元对比特征学习：使用对比学习的方式使步骤（2）获得的未见物体的特征向量接近于与其共同出现的已见物体的特征并远离未共同出现的已见物体的特征；

步骤（3）具体方法如下：

将步骤(2)得到的未见物体的特征向量进一步优化，使特征向量更接近与其共同出现的已见物体的特征，并远离未共同出现的已见物体的特征，具体实现方式如下：

；

其中，表示的是从目标检测模型DETR中获得的已见物体c的特征表示，p表示智能体的位置信息，/>表示未见物体的特征向量；/>、/>和/>分别是/>，p，/>对应的映射矩阵；/>表示损失函数，/>表示sigmoid函数，/>表示从目标检测模型DETR中获得的已见物体/>的特征表示，/>表示/>集合中的元素，c表示O集合中的元素；O表示与未见物体共同出现的已见物体的集合，/>表示未与未见物体共同出现的已见物体的集合；

。

步骤（4）具体方法包括：

将对象图G中的节点和边输入到图卷积神经网络GCN中：

;

；

（5）决策：将通过上述步骤学习到的未见物体的特征向量、当前帧图像的Resnet18提取的特征以及目标指示器输入到长短期记忆网络LSTM中并使用强化学习算法A3C（Actor-Critc算法）训练整个决策网络。步骤（5）具体方法如下：

；

表示t时刻LSTM的输出，TI表示目标指示器target indentifier；/>为智能体当前观察帧的图像特征；/>、/>和/>分别表示TI、/>、F对应的映射矩阵；表示动作；

为强化学习算法A3C对应的损失函数；E表示的是数学期望；表示以TI为目标t时刻在状态/>下选择动作/>的概率；

表示在状态/>选择动作/>相对于平均回报的优势函数；

得出训练过程中的总损失函数为：

；

其中，、/>和/>都为非负超参数。

实施例2：本发明还提供一种基于感知相关性网络的零样本视觉导航系统实施例，采用上述实施例所述导航方法，所述导航系统包括：

（1）目标特征生成模块：基于扩散模型获得未见物体的图像特征，图2为本发明实施例中目标特征生成模块示意图；

为验证本发明所提出模型的有效性，进行实验如下：实验模拟环境采用Ai2-Thor和Robo-Thor。首先修改了上述两个模拟环境，以确保训练场景中只存在已见物体，而在验证和测试场景中包括已见和未见的物体。Ai2-Thor包括30个不同的房间，使用20个房间进行训练，5个房间用于验证，5个房间用于测试。Robo-Thor由75个公寓组成，选择60个公寓进行训练，5个用于验证，10个用于测试。

为进一步优化模型，把已见物体细分为已知物体和未知物体，其中已知物体表示已见且类别已知物体，未知物体表示已见但类别未知物体。同时把已知物体和未知物体加入到训练目标中，从而明确引导智能体学习如何导航到已见和未见物体两种情况，即智能体在决策模块通过已知物体学习如何导航到类别已知目标，通过未知物体学习如何导航到类别未知的目标。

实验中采用SR和SPL来评价模型的性能，这是视觉导航中最常用的评价指标，实验结果如表1和表2。

表1和表2中的SP和SAVN是视觉导航中比较常用的方法，表2中GMAN是目前未见物体导航中最优的一个方法，Baseline与我们的模型差别在于未用到已见与未见物体之间的相关性信息。值得一提的是，只在Robo-Thor上与GMAN比较的原因为：在Ai2-Thor上选取了和GMAN不完全相同的目标集合，在Robo-Thor上选取了和GMAN完全相同的目标集合，旨在体现目标类别对导航性能的影响。从表中结果可以看出，本发明的模型在导航到未见物体上的能力明显强于另外四种方法，充分证实了本发明所提出模型的有效性以及已见和未见物体之间的相关性对于零样本视觉导航的强大辅助作用。

表1 Ai2-Thor实验结果

表2 Robo-Thor实验结果

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于感知相关性网络的零样本视觉导航方法，其特征在于，包括以下步骤：

(1)目标特征生成：基于扩散模型获得未见物体的图像特征；

(2)未见物体识别：将所述未见物体的图像特征输入至Transformer模型，使用Transformer模型感知未见物体是否出现在摄像机捕捉的当前观察帧中，并生成包含环境特征的未见物体的特征向量；

(3)元对比特征学习：使用对比学习的方式使步骤(2)获得的未见物体的特征向量接近于与其共同出现的已见物体的特征并远离未共同出现的已见物体的特征；

(4)元对象图学习：使用图卷积神经网络GCN计算基于特征的已见物体和未见物体之间的相关性；

(5)决策：使用长短期记忆网络LSTM以及强化学习算法训练决策网络；

步骤(1)具体方法如下：

从数据集中获取各类未见物体的属性信息，将各类未见物体的属性信息输入到扩散模型中，经过一系列去噪过程，将从高斯先验中采样的噪声图像去噪为包含属性信息的目标图像；

使用在ImageNet上预训练的ResNet18提取所述目标图像，获得未见物体的图像特征g_t，

其中，d_g为图像特征图的像素大小，R表示g_t的向量空间大小；

步骤(2)具体方法如下：

(2.1)将从ResNet18提取的智能体t时刻观察帧的图像特征f_o以及步骤(1)生成的N个未见物体的图像特征进行位置编码并连接获得Xⁿ：

其中，为图像特征f_o的位置编码；/>表示t时刻所生成的未见物体的图像特征，t表示t时刻，uk表示未见物体；/>图像特征/> 为的位置编码，Xⁿ表示的是/>与/>连接后的向量，/> 且将Xⁿ作为步骤(2.2)的Transformer输入；Pos表示位置编码，n表示未见物体的索引，Concat表示连接函数；

(2.2)所述Transformer模型共有Z层Transformer Layer，对于第z层TransformerLayer，计算方式如下：

式中：Y_z为计算过程第z层Transformer Layer层产生的中间向量；

表示第n个物体在第z层Transformer Layer层的输入；

表示第n个物体在第z+1层Transformer Layer层的输入；

δ表示ReLU激活函数，LN表示layer normalization操作；MHA表示多头注意力机制，且与/>表示/>与Y_z的映射矩阵；经过Z层Transformer Layer后，将Transformer最后一层的输出表示为OTⁿ∈R⁵¹²；OTⁿ表示第n个物体经过transformer后的输出；

(2.3)根据步骤(2.2)中的Transformer的最后一层输出OTⁿ，得到包含环境特征的未见物体的特征向量f_t：

使用特征向量f_t∈R²⁵⁶进行二分类任务，感知目标物体是否出现在当前观察帧中，并使用交叉熵损失函数进行监督训练；

步骤(3)具体方法如下：

将步骤(2)得到的未见物体的特征向量f_t进一步优化，使特征向量f_t更接近与其共同出现的已见物体的特征，并远离未共同出现的已见物体的特征，具体实现方式如下：

其中，表示的是从目标检测模型DETR中获得的已见物体c的特征表示，p表示智能体的位置信息，f_t表示未见物体的特征向量；/>和/>分别是/>p，f_t对应的映射矩阵；L_mcfm表示损失函数，θ表示sigmoid函数，/>表示从目标检测模型DETR中获得的已见物体的特征表示，/>表示的/>集合中的元素，c表示O集合中的元素；O表示与未见物体共同出现的已见物体的集合，/>表示未与未见物体共同出现的已见物体的集合；

通过损失函数L_mcfm进行对比学习，实现未见物体特征的优化，将优化后的未见物体特征定义为f'_t，f'_t∈R²⁵⁶；且

步骤(4)具体方法包括：

(4.1)对象图G＝(V,E)，其中V和E分别表示节点以及节点之间的边，每个节点v表示通过目标检测模型DETR获得的已见物体的特征以及从步骤(3)中获得的未见物体特征f'_t，v∈V；每个边e表示对象之间的相关性，e∈E；

将对象图G中的节点和边输入到图卷积神经网络GCN中：

F＝δ(E·V·W^G)；

其中，F表示表示GCN的输出；W^G表示图卷积神经网络GCN的参数；GCN为机器学习的基础模型，参数包括权重矩阵和偏置；

(4.2)对F使用自监督的典型相关性分析方法来增强图的节点表示并捕获更多信息特征：

其中，L_cca表示基于cca方法设计的损失函数；F_A和F_B表示图对象图G经过两次随机节点特征缺失并经过同一GCN后的输出，A和B表示两次随机节点特征损失过程；η表示非负超参数，Y表示单位矩阵；

步骤(5)具体方法如下：

在智能体移动的t时刻，采用one-hot编码的目标指示器TI将t时刻观察帧的特征f_o以及步骤(5)的输出F映射到同一维度后连接，输入到长短期记忆网络LSTM中，得到t时刻LSTM的输出S_t，用强化学习算法A3C来训练决策网络π(a_t|S_t,TI)：

a_t＝A3C(S_t)；

L_a3c＝-E[logπ(a_t|S_t,TI)A(S_t,a_t)]；

S_t表示t时刻LSTM的输出；TI表示目标指示器target indentifier；f_o为智能体当前观察帧的图像特征；和/>分别表示TI、f_o、F对应的的映射矩阵；a_t表示动作；

L_a3c为强化学习算法A3C对应的损失函数；E表示的是数学期望；π(a_t|S_t,TI)表示以TI为目标t时刻在状态S_t下选择动作a_t的概率；A(S_t,a_t)表示在状态S_t选择动作a_t相对于平均回报的优势函数；

得出训练过程中的总损失函数为：

L＝λ₁L_mcfm+λ₂L_cca+μL_a3c

λ₁、λ₂和μ都为非负超参数。

2.一种基于感知相关性网络的零样本视觉导航系统，采用权利要求1所述方法，其特征在于，包括：

(1)目标特征生成模块：基于扩散模型获得未见物体的图像特征；

(2)未见物体识别模块：将所述未见物体的图像特征输入至Transformer模型，使用Transformer模型感知未见物体是否出现在摄像机捕捉的当前观察帧中，并生成包含环境特征的未见物体的特征向量；

(3)元对比特征学习模块：使用对比学习的方式使步骤(2)获得的未见物体的特征向量接近于与其共同出现的已见物体的特征并远离未共同出现的已见物体的特征；

(4)元对象图学习模块：使用图卷积神经网络GCN计算基于特征的已见物体和未见物体之间的相关性；

(5)决策模块：使用长短期记忆网络LSTM以及强化学习算法训练决策网络。