CN115512214A

CN115512214A - 一种基于因果注意力的室内视觉导航方法

Info

Publication number: CN115512214A
Application number: CN202211273306.5A
Authority: CN
Inventors: 罗光春; 朱大勇; 戴瑞婷; 董强; 张清扬; 张晨曦
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2022-12-23

Abstract

本发明涉及视觉导航技术，其公开了一种基于因果注意力的室内视觉导航方法，解决传统室内视觉导航方案存在的过度关注特征间虚假相关性，降低模型泛化能力的问题。该方法包括：对历史导航轨迹各位置处的导航方向图像进行聚类，计算聚类中心；接着，提取当前位置各观测方向的视觉特征、位置特征以及表征同各聚类中心距离的全局特征，并融合当前的历史状态特征，基于自注意力机制和因果注意力机制，计算获取视觉环境状态特征；然后，根据各方向视觉特征与视觉环境状态特征的相关性，预测当前位置导航动作，并根据预测导航动作和视觉环境状态特征更新历史状态特征，直至完成导航任务。

Description

一种基于因果注意力的室内视觉导航方法

技术领域

本发明涉及视觉导航技术，具体涉及一种基于因果注意力的室内视觉导航方法。

背景技术

室内视觉导航是涉及室内视觉环境的导航任务，旨在依据从环境中观测的视觉图像，预测并执行导航动作，以到达指定目的地，完成导航目标。现有用以解决室内视觉导航的方法大致包括两个步骤，其一是视觉环境状态理解，其二是导航动作预测。

视觉状态理解类方法聚焦于理解观测的视觉图像信息、分析环境状态，通过构建具有复杂结构和机制的表征模型，对各时刻的环境视觉状态特征和历史状态特征进行提取。

导航动作预测类方法则旨在依据视觉状态特征预测导航动作，通过构建有效的路径规划策略、环境探索模式和奖励反馈机制，制定最佳导航动作序列，以到达指定目的地，完成导航任务。

由于室内视觉导航环境中复杂高维的状态空间，以及表示学习和大规模预训练模型等技术的发展，现有工作大多关注于视觉环境状态理解类方法。现有基于Transformer的室内视觉导航方法中，视觉环境状态理解类方法通过构建具有强大特征表征能力的表示模型，并从大规模图像预训练模型中获取的先验知识，显著地提升了导航模型的预测性能。然而，受环境隐藏因素的影响，该类方法存在过度关注虚假相关性的问题，在未知环境的泛化预测效果相对一般。

发明内容

本发明所要解决的技术问题是：提出一种基于因果注意力的室内视觉导航方法，解决传统室内视觉导航方案存在的过度关注特征间虚假相关性，降低模型泛化能力的问题。

本发明解决上述技术问题采用的技术方案是：

一种基于因果注意力的室内视觉导航方法，包括以下步骤：

A、数据准备

获取室内视觉图像数据集，所述室内视觉图像数据集包括一组导航轨迹数据，各导航轨迹数据分别包括由位置序列构成的导航轨迹以及导航轨迹上各位置处的视觉图像序列，各视觉图像序列分别包括在对应位置处各个观测方向的图像；

并基于导航轨迹数据，构建到达终点前导航轨迹各位置处的导航方向对应图像所构成的导航图像序列，所述导航方向对应图像为从对应位置的视觉图像序列中，按对应位置到达导航轨迹下一位置的方向所确定的图像；然后，对所有导航轨迹数据的导航图像序列，进行视觉特征提取并聚类，获得聚类中心；

B、通过室内视觉导航模型执行室内视觉导航任务：

B1、以导航起点位置作为初始的当前位置，并随机初始化历史状态特征；

B2、观测当前位置的各个观测方向，获得当前位置的视觉图像序列，提取当前位置视觉图像序列中各图像的视觉特征，并编码获得各观测方向的位置特征，并根据各图像的视觉特征与各聚类中心的距离，获得各图像的全局特征；

B3、将历史状态特征分别融入当前位置视觉图像序列中各图像的视觉特征，获得其各图像的视觉图像特征；

融合各图像的视觉图像特征及其位置特征，并通过自注意力机制，计算当前位置视觉图像序列各图像的自注意力特征；

融合各图像的视觉图像特征和位置特征，构建查询向量；根据各图像的全局特征，构建键向量和值向量，然后，基于构建的查询向量、键向量和值向量，通过因果注意力机制，计算当前位置视觉图像序列各图像的因果注意力特征；

然后，融合各图像的自注意力特征及其因果注意力特征，获得当前位置视觉图像序列各图像的视觉环境状态特征；

B4、根据预设的可导航方向，计算当前位置视觉图像序列中可导航方向的图像的视觉特征与其对应视觉环境状态特征之间的相关性，根据相关性预测当前位置的导航动作；

B5、根据当前位置的导航动作确定导航的下一位置，判定是否到达终点或者是否达到预设的最大导航步数，若是，则结束导航，否则，执行步骤B6；

B6、根据步骤B3获得的当前位置的视觉环境状态特征，以及步骤B4预测的当前位置的导航动作，更新历史状态特征；将当前位置导航动作确定的下一位置以及更新后的历史状态特征作为输入，返回步骤B2。

进一步的，按如下步骤训练室内视觉导航模型：

C1、以室内视觉图像数据集作为训练数据集并计算获得聚类中心；

C2、从训练数据集提取一条导航轨迹数据，将其全部或部分作为本轮训练的导航轨迹数据；

C3、从输入的导航轨迹数据中，提取其起点的视觉图像序列，作为初始输入的视觉图像序列，并随机初始化历史状态特征；

C4、以输入视觉图像序列对应位置作为当前位置，提取当前位置视觉图像序列中各图像的视觉特征，并编码获得各观测方向的位置特征，并根据各图像的视觉特征与各聚类中心的距离，获得各图像的全局特征；

C5、将历史状态特征分别融入当前位置视觉图像序列中各图像的视觉特征，获得其各图像的视觉图像特征；然后，计算当前位置的自注意力特征和因果注意力特征，并融合自注意力特征及其因果注意力特征，获得视觉环境状态特征；

C6、根据预设的可导航方向，计算当前位置视觉图像序列中可导航方向的图像的视觉特征与其对应视觉环境状态特征之间的相关性，根据相关性预测当前位置的导航动作；

C7、判定是否到达输入导航轨迹数据的终点，若是，则执行步骤C9，否则执行步骤C8；

C8、根据步骤C5获得的当前位置的视觉环境状态特征，以及步骤C6预测的当前位置的导航动作，更新历史状态特征；从导航轨迹数据中，提取导航轨迹下一位置的视觉图像序列，并将该视觉图像序列以及更新后的历史状态特征作为输入，返回步骤C4；

C9、根据各位置处预设的专家导航动作和预测的导航动作，计算其损失，并根据累计损失对室内视觉导航模型的参数进行更新；

C10、重复步骤C2-C9进行迭代训练，直至满足训练终止条件，获得训练好的室内视觉导航模型。

进一步的，在步骤B中，初始时，采用训练时获得的聚类中心，并将训练时室内视觉图像数据集的导航轨迹数据作为初始的历史导航轨迹数据；在执行室内视觉导航任务后，收集已实际完成的导航任务的导航轨迹数据，在收集达到设定数量后，根据收集到的导航轨迹数据对历史导航轨迹数据进行更新，并基于更新后的历史导航轨迹数据对聚类中心进行更新。

进一步的，步骤C9中，累计损失按如下损失函数计算：

L＝w₁L_il+w₂L_rl

其中，w₁和w₂均为可训练参数，L_il表示模仿学习产生的损失，L_rl表示强化学习产生的损失，所述强化学习采用执行者评论者框架，其中执行者网络为室内视觉导航模型，评论者网络为前馈神经网络；

其中，L_il和L_rl分别按如下公式计算：

其中，a_t表示t时刻位置的预测的导航动作，

表示t时刻位置的预设的专家导航动作，π_t表示t时刻位置视觉图像序列视觉特征与其对应视觉环境状态特征之间的相关性，G_t表示t时刻位置执行者网络的累计收益，TD_t为t时刻位置评论者网络的输出并如下公式计算：

TD_t＝max(0,π_tW_TD1)W_TD2

其中，W_TD1和W_TD2为可训练参数。

进一步的，按如下公式，计算执行者网络的累计收益G_t：

其中，p_cur表示t时刻位置的预测的导航动作所对应的下一时刻的位置，p_goal表示t时刻专家导航动作所对应的下一时刻的位置，dis(·)表示欧式距离，γ_t表示t时刻的衰减因子。

具体的，聚类中心的计算，包括：

D1、提取各导航轨迹数据的导航图像序列中各图像的视觉特征，并将提取获得的所有视觉特征构成全局视觉特征数据集；

D2、设定K个聚类中心并初始化；

D3、根据全局视觉特征数据集，分别计算其中各视觉特征与各聚类中心的欧式距离；

D4、基于各视觉特征与各聚类中心的最小距离，对各视觉特征进行分类；

D5、按如下公式对聚类中心的值进行更新：

其中，g_k表示第k个聚类中心的值，C_k表示第k个聚类中心所包含视觉特征的集合；

D6、重复上述步骤D3～D5，对聚类中心的值进行迭代更新，直至所有聚类中心值的变化小于预设阈值或超过预设迭代轮次。

具体的，根据当前位置视觉图像序列中各图像的视觉特征与各聚类中心的距离，获得全局特征

其中，

表示第i个观测方向的图像的全局特征，N为观测方向的数量，并按如下步骤计算：

分别计算第i个观测方向的图像的视觉特征与K个聚类中心的距离，并取其与K个聚类中心距离的均值，作为其全局特征

具体的，将历史状态特征分别融入当前位置视觉图像序列中各图像的视觉特征，获得其各图像的视觉图像特征，包括：

首先，将视觉特征F_t＝{f₁,f₂,…f_i,…,f_N}分别进行全局平均池化；

然后，采用向量拼接的形式，将历史状态特征H_t-1分别融入全局平均池化后的各个视觉特征，获得各图像的视觉图像特征C_t＝{c₁,c₂,…c_i,…,c_N}，其中，t表示当前位置，t-1表示当前位置的上一位置。

具体的，位置特征采用预训练BERT模型进行绝对位置编码。

具体的，各步骤中，均采用残差神经网络提取图像的视觉特征。

具体的，融合各图像的视觉图像特征及其位置特征，并通过自注意力机制，计算当前位置视觉图像序列各图像的自注意力特征，包括：

首先，通过拼接的方式融合视觉图像特征及其位置特征，然后，通过不同参数的多层感知机网络，将融合获得的特征转换为查询向量Q_s、键向量K_s和值向量V_s：

Q_s＝max(0,(C_t+PE_t)W_qs+b_qs)

K_s＝max(0,(C_t+PE_t)W_ks+b_ks)

V_s＝max(0,(C_t+PE_t)W_vs+b_vs)

其中，C_t表示当前位置的视觉图像特征，PE_t表示当前位置的位置特征，W_qs、b_qs、W_ks、b_ks、W_vs以及b_vs均为多层感知机网络的参数；

然后，计算注意力权重a_s：

其中，dim为多层感知机网络的维度，T表示矩阵转置；

最后，通过注意力权重和值向量，计算获得自注意力特征：

SA_t＝softmax(a_sV_s)

其中，SA_t表示当前位置的自注意力特征。

具体的，融合各图像的视觉图像特征和位置特征，构建查询向量；根据各图像的全局特征，构建键向量和值向量，然后，基于构建的查询向量、键向量和值向量，通过因果注意力机制，计算当前位置视觉图像序列各图像的因果注意力特征，包括：

首先，通过拼接的方式融合视觉图像特征及其位置特征，然后，通过多层感知机网络，将融合获得的特征转换为查询向量Q_c：

Q_c＝max(0,(C_t+PE_t)W_qc+b_qc)

并通过不同参数的多层感知机网络，将当前位置对应的视觉图像序列的全局特征，转换为键向量K_c和值向量V_c：

其中，C_t表示当前位置的视觉图像特征，PE_t表示当前位置的位置特征，

表示全局特征，W_qc、b_qc、W_kc、b_kc、W_vc以及b_vc均为多层感知机网络的参数；

然后，计算注意力权重a_c：

其中，dim为多层感知机网络的维度，T表示矩阵转置；

最后，通过注意力权重和值向量，计算获得因果注意力特征：

CA_t＝softmax(a_cV_c)

其中，CA_t表示当前位置的因果注意力特征。

具体的，融合各图像的自注意力特征及其因果注意力特征，获得当前位置视觉图像序列各图像的视觉环境状态特征，包括：

首先，通过向量拼接的方式，融合自注意力特征SA_t和因果注意力特征CA_t，获得融合特征[SA_t,CA_t]；

然后，采用前馈神经网络，将融合特征[SA_t,CA_t]，转换为视觉环境状态特征S_t：

S_t＝max(0,[SA_t,CA_t]W_ffn1+b_ffn1)W_ffn2+b_ffn2

其中，

均为前馈神经网络的参数，dim为注意力计算中构建查询向量、键向量和值向量的编码网络的维度，N为观测方向的数量。

进一步的，所述导航轨迹数据，还包括导航轨迹各位置处的可导航方向标签，在步骤C6中，仅将具有可导航方向标签的方向作为可导航方向；在步骤B4中，将所有观测方向作为可导航方向。

具体的，根据预设的可导航方向，计算当前位置视觉图像序列中可导航方向的图像的视觉特征与其对应视觉环境状态特征之间的相关性，根据相关性预测当前位置的导航动作，包括：

首先，计算当前位置视觉图像序列各可导航方向的图像的视觉特征与其对应视觉环境状态特征之间的相关性π_t：

其中，

表示当前位置视觉图像序列中可导航方向的图像的视觉特征，S_t表示当前位置视觉图像序列中可导航方向的图像的视觉环境状态特征；

然后，根据相关性π_t预测当前位置的导航动作a_t：

a_t＝argmax_mπ_t,m

其中，π_t,m表示v_t序列中第m个方向的相关性。

具体的，根据当前位置的视觉环境状态特征，以及预测的当前位置的导航动作，更新历史状态特征，包括：

首先，通过重置门，筛选当前位置的视觉环境状态特征S_t和预测的当前位置的导航动作a_r的关键特征，并将其融合到当前位置的上一时刻的历史状态特征H_t-1：

r_t＝σ(W_rH_t-1+U_r[S_t,π_t,a_t])

其中，π_t表示当前位置视觉图像序列各可导航方向图像的视觉特征与其对应视觉环境状态特征之间的相关性，r_t表示遗忘门权重，W_r、U_r、W_g和U_g均为可训练参数，σ(·)和tanh(·)表示激活函数，⊙表示哈达曼积运算，t表示当前位置，t-1表示当前位置的上一位置；

然后，通过更新门，筛选需保留的有效历史信息z_t，并将其融合到当前位置的上一时刻的历史状态特征H_t-1，对历史状态特征进行更新：

z_t＝σ(W_zH_t-1+U_z[S_t,π_t,a_t])

其中，z_t表示更新门权重，W_z和U_z均为可训练参数。

本发明的有益效果是：

现有基于Transformer的室内觉语言导航方法，通过自注意力机制捕获视觉特征之间的相关性，以预测导航动作。然而，自注意力机制的相关性计算，受限于训练数据集中特征之间的共现频率，容易捕获到虚假相关性，导致其训练的模型仅在训练数据集中表现良好，在其他数据集中表现不佳。

而本发明提出的因果注意力机制，则通过干预的方式修正错误相关性，即将当前特征映射为其他特征，以判断在其他场景下是否仍然存在相关性，以此达到提升模型在未知环境的泛化能力。具体的讲，本发明根据历史的导航轨迹数据构建聚类中心，并根据聚类中心获得当前位置各观测方向的全局特征，然后，通过因果注意力机制，修正自注意机制捕获的错误相关性，提升模型在未知测试环境的预测准确性。

附图说明

图1为本发明实施例中的室内视觉导航模型训练流程图；

图2为本发明实施例中的视觉环境状态特征提取过程图；

图3为本发明实施例中的导航动作预测过程图；

图4为本发明实施例中的历史状态特征更新过程图。

具体实施方式

本发明旨在提出一种基于因果注意力的室内视觉导航方法，解决传统室内视觉导航方案存在的过度关注特征间虚假相关性，降低模型泛化能力的问题。该基于因果注意力的室内视觉导航方法，包括室内视觉导航模型训练和利用模型执行导航任务两大部分，但流程类似，以下部分以室内视觉导航模型训练为主进行阐述。

该方法在室内视觉导航模型训练过程中，首先，根据视觉图像数据集，对其中各导航轨迹各位置处的导航方向对应图像进行聚类，计算聚类中心；接着，提取当前时刻图像的视觉特征和位置特征，根据视觉特征与聚类中心的距离，计算全局特征；接着，将视觉特征融合历史状态特征和位置特征，通过自注意力机制，计算自注意力特征，并根据视觉特征融合历史状态特征和位置特征构建查询向量，以图像全局特征构建键向量和值向量，通过因果注意力机制，计算因果注意力特征；然后，融合自注意力特征和因果注意力特征，获得各图像的视觉环境状态特征；再然后，通过计算当前位置视觉特征与对应视觉环境状态特征之间的相关性，预测当前位置的导航动作；最后，根据预测的当前位置导航动作和当前位置的视觉环境状态特征，更新历史状态特征，将更新后的历史状态特征与下一导航位置的图像作为输入，并采用完成导航实例任务后的累计损失进行迭代训练，获得训练好的室内视觉导航模型。

下面结合附图及实施例对本发明的方案作进一步的描述。

为了便于理解，首先对本实施例中可能涉及的技术名词进行说明：

残差神经网络(Residual Network，Resnet)：是一种用于图像识别的卷积神经网络模型，主要由若干堆叠的残差层组成，目前在各种计算机视觉任务中，常被用于提取输入图像的视觉特征。

注意力机制(Attention)：是一种选择性处理特征的机制，主要由查询向量、键向量、值向量和注意力运算组成，目前已成为大多数深度学习模型中不可或缺的基础组件。

Transformer：是一种基于自注意力机制的编码器-解码器模型，最初应用于机器翻译和序列建模等序列转换任务，并成为自然语言处理领域主要的深度学习模型。由于其强大的性能表现，Transformer逐渐被广泛应用于计算机视觉领域，以提取图像的视觉特征。

执行者-评论者(Actor-Critic，AC)：是强化学习中求解最优策略的一种最常用的方法，其同时结合策略梯度和价值估计这两种策略求解方式，主要由策略网络和价值评估网络组成。

前门调整(Front Door Adjustment，FDA)：是因果推理中一种实现干预的方法，通过阻断前门路径对干预分布进行估计，即使在无法有效观测隐藏混杂因素的情况下，依然能分析特征变量间因果关系。

实施例：

其中，模型训练过程，如图1所示，具体说明如下：

S1、训练数据集数据预处理

训练采用室内视觉图像数据集作为训练数据集。所述室内视觉图像数据集包括一组导航轨迹数据，各导航轨迹数据分别包括由位置序列构成的导航轨迹以及导航轨迹上各位置处的视觉图像序列，各视觉图像序列分别包括在对应位置处各个观测方向的图像。

假定当前位置为t，则t位置的视觉图像序列，可表示为V_t＝{v₁,v₂,…v_i,…,v_N}，其中，N表示观测方向的数量，v_i表示t位置处在第i个观测方向观测获得的图像，图像格式均为RGB图像，可表示为

H和W分别表示图像的高度和宽度。

然后，基于导航轨迹数据，构建到达终点前导航轨迹各位置处的导航方向对应图像所构成的导航图像序列，所述导航方向对应图像为从对应位置的视觉图像序列中，按对应位置到达导航轨迹下一位置的方向所确定的图像；然后，对所有导航轨迹数据的导航图像序列，进行视觉特征提取并聚类，获得聚类中心。

聚类中心的计算，包括：

a1、通过Resnet-164残差神经网络，提取各导航轨迹数据的导航图像序列中各图像的视觉特征，并将提取获得的所有视觉特征构成全局视觉特征数据集。除残差神经网络以外，视觉特征的提取也可以采用现有的其他方式，比如Transformer。

a2、设定K个聚类中心，并从全局视觉特征数据集，随机采样K个视觉特征，作为K个聚类中心的初始化值。聚类中心的初始化，也可以采用其他的方式，如随机赋值或人工赋值。

a3、根据全局视觉特征数据集，分别计算其中各视觉特征与各聚类中心的欧式距离；

a4、基于各视觉特征与各聚类中心的最小距离，对各视觉特征进行分类；

a5、按如下公式对聚类中心的值进行更新：

a6、重复上述步骤a3～a5，对聚类中心的值进行迭代更新，直至所有聚类中心值的变化小于预设阈值或超过预设迭代轮次。若超过预设迭代轮次，则表明计算失败，应重新进行聚类计算。

S2、提取导航轨迹数据并训练室内视觉导航模型

S21、从训练数据集提取一条导航轨迹数据作为训练的输入。若提取的导航轨迹数据的导航步较多，也可以将其进行分段输入，也即在训练过程中，仅提取其部分作为输入。

S22、初始化：从输入的导航轨迹数据中，提取其起点的视觉图像序列，作为初始输入的视觉图像序列，并随机初始化历史状态特征。

S23、以输入视觉图像序列对应位置作为当前位置，提取当前位置视觉图像序列中各图像的视觉特征，并编码获得各观测方向的位置特征，并根据各图像的视觉特征与各聚类中心的距离，获得各图像的全局特征。

针对本实施例中，各类特征的提取，具体说明如下：

一、视觉特征提取

对于当前位置t观测获得的视觉图像序列为V_t＝{v₁,v₂,…v_i,…,v_N}，使用Resnet-164残差神经网络，提取视觉特征F_t＝{f₁,f₂,…f_i,…,f_N}，f_i表示t位置处的第i个方向的视觉特征。

二、位置特征编码

由于在后续的视觉环境状态特征提取过程中，无法通过视觉图像特征识别各图像的位置关系，需要一个位置编码向量，以表征图像的方向位置信息。因此，本发明通过位置特征表征图像的方向位置信息，且位置特征和后续的视觉图像特征的维度相同。

实施例中，位置特征采用预训练BERT模型进行绝对位置编码，编码过程为：

首先，初始化位置特征PE_t＝{pe₁,pe₂,…pe_i,…,pe_N}，其初始化可以采用任意的现有方式，在实施例中为PE_t＝{[1,1,..,1],[2,2..,2]…,[N,N,..,N]}，其中，pe_i表示第i个观测方向的位置特征，N为观测方向的数量，t表示当前位置；

然后，将初始化位置特征，输入预训练BERT模型，通过学习获得每个位置的绝对位置编码。

上述预训练BERT模型，其来自Google的论文Pre-training of DeepBidirectional Transformers for Language Understanding，其使用了Transformer的Encoder模块，BERT是“Bidirectional Encoder Representations from Transformers”的首字母缩写。

三、全局特征提取

根据当前位置视觉图像序列中各图像的视觉特征与各聚类中心的距离，获得全局特征

其中，

S24、计算图像的视觉环境状态特征

视觉环境状态特征，如图2所示，为融合图像的自注意力特征及其因果注意力特征所获得，用以捕获视觉特征之间的关联关系和因果关系。

本步骤中，首先，将历史状态特征分别融入当前位置视觉图像序列中各图像的视觉特征，获得其各图像的视觉图像特征。

然后，融合各图像的视觉图像特征及其位置特征，并通过自注意力机制，计算当前位置视觉图像序列各图像的自注意力特征。融合各图像的视觉图像特征和位置特征，构建查询向量；根据各图像的全局特征，构建键向量和值向量，然后，基于构建的查询向量、键向量和值向量，通过因果注意力机制，计算当前位置视觉图像序列各图像的因果注意力特征。

最后，融合各图像的自注意力特征及其因果注意力特征，获得当前位置视觉图像序列各图像的视觉环境状态特征。

具体说明如下：

一、计算视觉图像特征

首先，为了方便进行向量拼接，将视觉特征F_t＝{f₁,f₂,…f_i,…,f_N}分别进行全局平均池化，将张量降维为向量；

二、计算自注意力特征

Q_s＝max(0,(C_t+PE_t)W_qs+b_qs)

K_s＝max(0,(C_t+PE_t)W_ks+b_ks)

V_s＝max(0,(C_t+PE_t)W_vs+b_vs)

然后，计算注意力权重a_s：

其中，dim为多层感知机网络的维度，T表示矩阵转置；

最后，通过注意力权重和值向量，计算获得自注意力特征：

SA_t＝softmax(a_sV_s)

其中，SA_t表示当前位置的自注意力特征。

三、计算因果注意力特征

Q_c＝max(0,(C_t+PE_t)W_qc+b_qc)

然后，计算注意力权重a_c：

其中，dim为多层感知机网络的维度，T表示矩阵转置；

CA_t＝softmax(a_cV_c)

其中，CA_t表示当前位置的因果注意力特征。

因果注意力机制，是基于因果推理的前门调整方式，通过阻断前门路径，干预变量输入，分析特征变量间因果关系，以纠正自注意力机制在已知训练数据中建立的虚假相关性。实际实施过程，如果依次使用训练数据集的所有导航轨迹数据进行干预，会消耗大量计算资源，因此，本发明使用全局特征进行代替。因此，为了保证全局特征的代表性，保证模型的泛化性能，在执行室内视觉导航任务时，初始时，采用训练时获得的聚类中心，并将训练时室内视觉图像数据集的导航轨迹数据作为初始的历史导航轨迹数据；在执行室内视觉导航任务后，收集已实际完成的导航任务的导航轨迹数据，在收集达到设定数量后，根据收集到的导航轨迹数据对历史导航轨迹数据进行更新，并基于更新后的历史导航轨迹数据按步骤a1～a6对聚类中心进行更新。

四、融合自注意力特征和因果注意力特征

S_t＝max(0,[SA_t,CA_t]W_ffn1+b_ffn1)W_ffn2+b_ffn2

其中，

S25、预测当前位置导航动作

本步骤中，首先，根据预设的可导航方向，计算当前位置视觉图像序列中可导航方向的图像的视觉特征与其对应视觉环境状态特征之间的相关性，然后，根据相关性预测当前位置的导航动作，过程如图3所示，具体包括：

其中，

然后，根据相关性π_t预测当前位置的导航动作a_t：

a_t＝argmax_mπ_t,m

其中，π_t,m表示π_t序列中第m个方向的相关性。

上述的可导航方向，可以是所有的观测方向，但为了缩小探索空间，提高训练效率，在实施例的训练过程中，设置可导航方向标签进行标注，也即所述导航轨迹数据，还包括导航轨迹各位置处的可导航方向标签，在训练时的上述步骤中，仅将具有可导航方向标签的方向作为可导航方向；而在实际执行室内视觉导航任务的陌生环境中，则将所有观测方向作为可导航方向。具体的说，在位置t各观测方向获得的视觉图像序列为V_t＝{v₁,v₂,…v_i,…,v_N}，可导航方向标签对应一个取值范围为0或1的掩码向量Mask_t＝{0,1,…1,…,0}，其中，赋值1表示可导航，此时，可导航方向的图像为O_t＝{v₂,...,v_i,…}。而在实际执行室内视觉导航任务时，对于陌生的环境，掩码向量可全置为1，即Mask_t＝{1,1,…1,…,1}。

S26、迭代训练

由于导航是By step的形式，仅完成当前步的动作预测，并不能说明其已经完成本轮导航实例任务。因此，本步骤中，首先，判定是否到达输入导航轨迹数据的终点，若是，则构建迭代输入并返回迭代，否则，进行损失计算并更新参数。

其中，构建迭代输入并返回迭代为：根据步骤S24获得的当前位置的视觉环境状态特征，以及步骤S25预测的当前位置的导航动作，更新历史状态特征；从导航轨迹数据中，提取导航轨迹下一位置的视觉图像序列，并将该视觉图像序列以及更新后的历史状态特征作为输入，返回步骤S23。

进一步的讲，历史状态特征表征已完成导航过程的历史信息，其更新，也即将当前步的信息和当前步之前的历史信息进行融合，因此，可以采用门控网络，对当前位置的视觉环境状态特征和导航动作同当前位置的历史状态特征进行融合。

本实施例中，如图4所示，具体包括：

首先，通过重置门，筛选当前位置的视觉环境状态特征S_t和预测的当前位置的导航动作a_t的关键特征，并将其融合到当前位置的上一时刻的历史状态特征H_t-1：

r_t＝σ(W_rH_t-1+U_r[S_t,π_t,a_t])

然后，通过更新门，筛选需保留的有效历史信息z_r，并将其融合到当前位置的上一时刻的历史状态特征H_t-1，对历史状态特征进行更新：

z_t＝σ(W_zH_t-1+U_z[S_t,π_t,a_t])

其中，z_t表示更新门权重，W_z和U_z均为可训练参数。

上述损失计算并更新参数，则按完成本轮导航实例任务的累计损失进行训练。

在本实施例中，训练方式包括两部分：即强化学习训练和模仿学习训练。

1)强化学习训练：室内视觉导航方法，将环境反馈的累积奖励作为监督信号，并使用该信号训练导航模型参数，通过强化学习训练方式，引导模型输出高潜在奖励收益的动作，可以促进模型尽可能预测到任务相关的正确导航轨迹。

2)模仿学习训练：

室内视觉导航模型训练依赖于有效的反馈奖励，而环境复杂且庞大的状态空间导致模型通常难以探索到正确的正奖励轨迹，增加训练难度。因此，通过模仿学习训练引导模型预测专家动作，尽可能探索到和专家数据相似的正奖励轨迹，以快速学习到导航先验知识。

具体的讲，累计损失按如下损失函数计算：

L＝w₁L_il+w₂L_rl

其中，L_il和L_rl分别按如下公式计算：

其中，a_t表示t时刻位置的预测的导航动作，

TD_t＝max(0,π_tW_TD1)W_TD2

强化学习方式中，导航模型每一时刻会从环境中获得反馈收益r_t，反馈收益用于衡量导航效果，可依据实际环境自行定义。在实施例中，上述的执行者网络的累计收益G_t，按如下公式计算：

在完成损失函数计算后，根据训练损失，对模型参数进行反向传播更新，模型参数包括提取视觉特征的残差神经网络参数、进行位置编码的预训练BERT模型参数、两个注意力计算中的各个多层感知机网络的参数、更新历史状态特征的门控网络的参数、计算视觉环境状态特征的前馈神经网络参数以及评论者网络的前馈神经网络参数。

在完成参数更新后，则判定是否完成训练，若是，则结束训练，获得训练好的室内视觉导航模型；否则，重复步骤S21-S26进行迭代训练，直至满足训练终止条件。训练终止条件，包括模型收敛或者达到设定的最大训练迭代数，若达到设定的最大训练迭代数，而模型仍未收敛，则应重新进行训练。

在获得完成训练的模型后，即可将该模型用于实际应用，具体的讲，包括：

步骤一、观测当前位置的各个观测方向，获得当前位置的视觉图像序列，根据训练完成的室内视觉导航模型以及聚类中心，预测当前位置的导航动作；

步骤二、根据当前位置的导航动作确定导航的下一位置，判定是否到达终点或者是否达到预设的最大导航步数，若是，则结束导航，否则，将当前位置导航动作确定的下一位置作为输入并返回步骤一。

针对达到预设的最大导航步数的情况，可以将结束导航时的位置作为新的起点进行导航；或者，对模型进行重新训练后，再次进行导航。

尽管这里参照本发明的实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种基于因果注意力的室内视觉导航方法，其特征在于，包括以下步骤：

A、数据准备

B、通过室内视觉导航模型执行室内视觉导航任务：

2.如权利要求1所述的一种基于因果注意力的室内视觉导航方法，其特征在于，按如下步骤训练室内视觉导航模型：

3.如权利要求2所述的一种基于因果注意力的室内视觉导航方法，其特征在于，

在步骤B中，初始时，采用训练时获得的聚类中心，并将训练时室内视觉图像数据集的导航轨迹数据作为初始的历史导航轨迹数据；在执行室内视觉导航任务后，收集已实际完成的导航任务的导航轨迹数据，在收集达到设定数量后，根据收集到的导航轨迹数据对历史导航轨迹数据进行更新，并基于更新后的历史导航轨迹数据对聚类中心进行更新。

4.如权利要求2所述的一种基于因果注意力的室内视觉导航方法，其特征在于，

步骤C9中，累计损失按如下损失函数计算：

L＝w₁L_il+w₂L_rl

其中，L_il和L_rl分别按如下公式计算：