CN114880440A

CN114880440A - 基于智能辅助和知识赋能的视觉语言导航方法及装置

Info

Publication number: CN114880440A
Application number: CN202210787946.1A
Authority: CN
Inventors: 张煜; 李鑫; 袁唯淋; 罗俊仁; 刘运; 杨景照; 李婷婷; 蒋超远; 刘屹峰
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-08-09

Abstract

本申请属于视觉语言导航技术领域，涉及基于智能辅助和知识赋能的视觉语言导航方法，方法包括：获取包括语言指令和视觉感知的视觉语言导航任务；根据视觉感知，提取视觉特征和物体标签，得到物体的房间特征；根据物体标签和预设的知识图谱库，得到物体的水平特征；根据语言指令、视觉特征、房间特征和水平特征，生成实记忆信息；以记忆信息为输入，基于多模态模型的决策框架，输出决策；根据决策，执行动作并进行第一判断，当启发式规则和预算条件满足帮助机制时，发出帮助请求，执行干预动作并进行第二判断，当视觉状态与语言指令相符合时，完成视觉语言导航任务。本申请能够提高智能体在未知环境中的泛化能力。

Description

基于智能辅助和知识赋能的视觉语言导航方法及装置

技术领域

本申请涉及视觉语言导航技术领域，特别是涉及基于智能辅助和知识赋能的视觉语言导航方法。

背景技术

自然语言处理和计算机视觉技术的最新进展使得人们对开发通用AI系统越来越感兴趣。将自然语言指令结合视觉环境映射到行动对于开发可以模仿现实世界中人类行为的机器人和具身智能体至关重要。视觉语言导航是此类任务，要求智能体遵循人类语言指令在在图片真实的模拟环境中导航到目标位置。

在真实世界中，人们往往更喜欢提供简洁的指令并期望机器人能够识别视觉内容中的对象以推断它们之间的关系进行自我探索和自主决策。

然而现有的视觉语言导航方法往往是提供详细的逐步语言指令，本质上是通过多模态数据的融合与对齐来解决数据关联和一致性问题，但并不能很好地解决智能体在未知环境中的泛化能力。

发明内容

基于此，有必要针对上述技术问题，提供一种基于智能辅助和知识赋能的视觉语言导航方法和装置，能够提高智能体在未知环境中的泛化能力。

基于智能辅助和知识赋能的视觉语言导航方法，包括：

获取视觉语言导航任务，所述视觉语言导航任务包括：语言指令以及视觉感知；

根据所述视觉感知，提取视觉特征和物体标签，并根据所述物体标签得到物体的房间特征；基于注意力机制，根据所述物体标签以及预设的知识图谱库，进行知识推理，得到物体的水平特征；根据所述语言指令、所述视觉特征、所述物体的房间特征以及所述物体的水平特征，生成记忆信息；

以所述记忆信息为输入，基于多模态模型的决策框架，输出决策；

根据所述决策，执行动作并进行第一判断，当启发式规则和预算条件满足帮助机制时，向建议者发出帮助请求；根据所述帮助请求，执行干预动作并进行第二判断，当视觉状态与语言指令相符合时，完成视觉语言导航任务。

在一个实施例中，根据所述视觉感知，提取视觉特征和物体标签，并根据所述物体标签得到物体的房间特征包括：

采用特征提起器，从所述视觉感知中提取视觉特征；

采用检测器，从所述视觉感知中检测物体的物体标签；

根据所述物体标签和房间知识矩阵，判断物体所在的房间，得到物体的房间特征。

在一个实施例中，基于注意力机制，根据所述物体标签以及预设的知识图谱库，进行知识推理，得到物体的水平特征包括：

以所述物体标签为索引，从预设的知识图谱库中进行检索，得到检索结果；

对所述检索结果进行多步图卷积，得到卷积后的物体特征矩阵；基于注意力机制，根据所述物体特征矩阵，进行知识推理，得到物体的水平特征。

在一个实施例中，以所述物体标签为索引，从预设的知识图谱库中进行检索，得到检索结果；对所述检索结果进行多步图卷积，得到卷积后的物体特征矩阵包括：

以所述物体标签为索引，从预设的知识图谱库中进行检索，得到标签物体以及与所述标签物体相邻的相邻物体；

根据所述标签物体，建立与所述视觉感知相对应的内部知识图谱；根据所述标签物体以及所述相邻物体，建立与所述视觉感知相对应的外部知识图谱；

对所述内部知识图谱和所述外部知识图谱进行多步图卷积，得到卷积后的物体特征矩阵。

在一个实施例中，根据所述语言指令、所述视觉特征、所述物体的房间特征以及所述物体的水平特征，生成记忆信息包括：

将所述语言指令、所述视觉特征、所述物体的房间特征以及所述物体的水平特征进行拼接，生成记忆信息；所述记忆信息具有实时性。

在一个实施例中，启发式规则和预算条件满足帮助机制包括：

任一启发式规则满足相应的阈值，且预算大于零。

在一个实施例中，任一启发式规则满足相应的阈值包括：

智能体偏离教师路径的距离大于第一阈值；

或智能体计算的导航分布熵与均匀分布的导航熵之差小于第二阈值；

或智能体保留在相同视点的时间步满足第三阈值；

或智能体在目标视点时导航分布的最高概率动作不是“停止”。

在一个实施例中，当启发式规则和预算条件不满足帮助机制时，进行第二判断。

在一个实施例中，当视觉状态与语言指令不相符合时：

根据当前视觉感知，生成当前记忆信息；以所述记忆信息为历史信息，以当前记忆信息和历史信息为输入，基于多模态模型的决策框架，输出当前决策；根据当前决策执行当前动作，并重新进行第一判断和第二判断，直至视觉状态与语言指令相符合。

基于智能辅助和知识赋能的视觉语言导航装置，包括：

获取模块，用于获取视觉语言导航任务，所述视觉语言导航任务包括：语言指令以及视觉感知；

提取模块，用于根据所述视觉感知，提取视觉特征和物体标签，并根据所述物体标签得到物体的房间特征；基于注意力机制，根据所述物体标签以及预设的知识图谱库，进行知识推理，得到物体的水平特征；根据所述语言指令、所述视觉特征、所述物体的房间特征以及所述物体的水平特征，生成记忆信息；

决策模块，用于以所述记忆信息为输入，基于多模态模型的决策框架，输出决策；

执行模块，用于根据所述决策，执行动作并进行第一判断，当启发式规则和预算条件满足帮助机制时，向建议者发出帮助请求；根据所述帮助请求，执行干预动作并进行第二判断，当视觉状态与语言指令相符合时，完成视觉语言导航任务。

上述基于智能辅助和知识赋能的视觉语言导航方法和装置，通过引入外部常识，将外部知识图谱（基于知识图谱形式的外部常识知识）引入到基于高级概括语言指令的视觉语言导航任务中，通过知识工程来提高智能体在融合了智能辅助的多模态数据驱动的视觉语言导航中的自主性、推理能力和任务成功率，有利于基于数据驱动学习的智能体的性能提升和泛化瓶颈的突破，即提高智能体在未知环境中的泛化性；同时设计了一种具有可变长度记忆的多模态Transformer模型来对历史信息进行建模，引入Transformer模型作为智能体的决策框架，可以清楚地显示建模历史信息，有效地利用Transformer模型的注意力机制和长序列建模能力来更好地对历史信息进行建模，通过全局历史信息来提高智能体的决策性能；并引入了基于启发式的规则，使得智能体能够感觉何时导航遇到困难并寻求帮助，实现基于直接干预式的智能辅助（人在回路上）的功能，提高智能体的推理和泛化能力；从而提高了在仿真平台中运行的智能体迁移到现实中的可能性。

附图说明

图1为一个实施例中基于智能辅助和知识赋能的视觉语言导航方法的流程示意图；

图2为另一个实施例中基于智能辅助和知识赋能的视觉语言导航方法的流程示意图；

图3为一个实施例中步骤104的流程示意图；

图4为一个实施例中步骤106的流程示意图；

图5为一个实施例中步骤108的流程示意图；

图6为一个实施例中基于智能辅助和知识赋能的视觉语言导航装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

如图1和图2所示，本申请提供的一种基于智能辅助和知识赋能的视觉语言导航方法，在一个实施例中，包括如下步骤：

步骤102：获取视觉语言导航任务，视觉语言导航任务包括：语言指令以及视觉感知。

本步骤中，语言指令是指：对智能体下达的自然语言形式的指令，视觉感知是指：智能体在得到语言指令后对周围环境的感知信息。

在视觉语言导航（VLN）任务中，智能体遵循逐步的自然语言指令，以第一人称视图作为观察，在模拟环境中导航，以到达目标位置。具体而言，导航过程可以被视为顺序决策过程，其中智能体被随机初始化在某个位置并接收来自人类的语言指令作为初始任务，然后按照语言指令导航到目的地。给定的语言指令详细描述了智能体的轨迹，其可以通过一些规则分解成几个有意义的部分，其中每个规则表示一个可移动动作，智能体通过制定行动顺序来执行它们。与只面对静态图像的视觉问答不同，视觉和语言导航需要智能体探索和理解动态环境以学习将语言指令映射到视觉观察和动作中。如果智能体按照指令停止在目标物体附近，则VLN任务成功。视觉对话导航（VDN）是视觉语言导航任务的扩展，智能体根据从人类收集到的对话历史进行导航，以寻找一个目标物体，不过VDN的语言指令更加冗长。

视觉和语言是两种相互关联但属于不同模态的信息，主要在于信息之间的融合和对齐。对于视觉语言导航任务，这两种信息在环境描述上存在大范围重叠区域，因此它们之间通常可以帮助另一个模态信息的理解以及错误的校正。同时，自然语言中包含的概念需要与真实环境中的实体或属性建立关联关系。目前，多模态数据融合主要有三种方式：前端融合（数据水平融合）、后端融合（决策水平融合）和中间融合。中间融合的方法，即先将不同的模态数据转化为高维特征表达，然后在模型的中间层进行融合。以神经网络为例，中间融合首先利用神经网络将原始数据转化成高维向量，然后获取不同模态数据在高维空间上的共性。中间融合方法的一大优势是可以灵活的选择融合的位置。

步骤104：根据视觉感知，提取视觉特征和物体标签，并根据物体标签得到物体的房间特征；基于注意力机制，根据物体标签以及预设的知识图谱库，进行知识推理，得到物体的水平特征；根据语言指令、视觉特征、物体的房间特征以及物体的水平特征，生成记忆信息。

具体的：

采用特征提起器，从视觉感知中提取视觉特征；采用检测器（如：Faster-RNN），从视觉感知中检测物体的物体标签；根据物体标签和房间知识矩阵（房间知识矩阵属于现有技术），判断物体所在的房间，得到物体的房间特征。

以物体标签为索引，从预设的知识图谱库中进行检索，得到标签物体以及与标签物体相邻的相邻物体；根据标签物体，建立与视觉感知相对应的内部知识图谱（内部知识图谱针对特定任务）；根据标签物体以及相邻物体，建立与视觉感知相对应的外部知识图谱（外部知识图谱的知识固定）；对内部知识图谱和外部知识图谱进行多步图卷积，得到卷积后的物体特征矩阵；根据Transformer模型的编码器对语言指令进行编码，并将编码后的语言指令与常识知识进行相关性计算（相关性计算属于现有技术），得到相关性结果；基于注意力机制（具体可以是图节点注意力机制），根据物体特征矩阵和相关性结果，进行知识推理，得到物体的水平特征。

将语言指令、视觉特征、物体的房间特征以及物体的水平特征进行拼接，生成记忆信息；记忆信息具有实时性。

本步骤中，标签物体是指根据物体标签在预设的知识图谱库中检索到的物体，相邻是指特征相近，相邻物体是指与标签物体特征相近的物体，具体可以按实际情况选取特征相近程度较高的一定数量的物体作为相邻物体。

多步图卷积和注意力机制均是现有技术。

知识图谱库是根据多个知识图谱构建的，包括：根据常识知识ConceptNet知识图谱构建的外部知识图谱，以及根据特定任务构造的内部知识图谱。至于如何构建具体的知识图谱，属于现有技术，在此不再赘述。

知识图谱是人工智能三大分支符号主义在新时期的主要落地技术。作为知识工程在大数据时代的代表性进展，它为人工智能的发展注入了新的动力。知识图谱的本质是一种由大规模语义网络构成的知识库，具有更强的表达能力以及逻辑推理能力。目前，大量百科类的结构化知识资源进入人们的生活，这推动了知识获取方法的发展。知识图谱包含实体、概念及其之间的各种语义关系。语义网络是一种以图形化的形式通过点和边表达知识的方式，其基本组成元素是点和边。语义中的点可以是实体、概念和值。知识图谱中的边可以分为属性与关系两类，属性描述实体方面的某些特性，比如人的出生日期、身高、体重等。属性是人们认知世界、描述世界的基础。关系则可以认为是一类特殊的属性，当实体的某个属性值也是一个实体时，这个属性实质上就是关系。语义网络中的边按照其两端节点的类型可以分为概念之间的子类关系、实体与概念之间的实例关系，以及实体之间的各种属性关系。

知识图谱可以表述为三元组，是一种典型的图结构。三元组可以借助RDF进行表示：主体（Subject）、谓词（Predicate）及客体（Object）。可以根据包含知识的不同对知识图谱进行分类。

1）事实知识：事实知识是关于某个特定实体的基本事实，如（柏拉图，出生地，雅典）。

2）概念知识：概念知识分为两类，一类是实体与概念之间的类属关系（isA关系），如（柏拉图isA哲学家）；另一类是子概念与父概念之间的子类（subclassOf），如（唯心主义哲学家subclassOf哲学家）。

3）词汇知识：词汇知识主要包括实体与词汇之间的关系以及词汇之间的关系，例如（“Plato”，中文名，柏拉图）。

4）常识知识：常识是人类通过自身与世界交互而积累的经验与知识，是人们在交流时无须言明就能理解的知识，例如，我们知道小鸟有翅膀、小鸟能飞等。

常用的知识图谱包括Cyc、ConceptNet等。通过整合来自知识图谱的外部知识来学习房间和对象实体之间的内部-外部相关性，进行正确的推理，以实现VLN任务中的准确导航。

如图3所示，根据ConceptNet知识图谱构建了一个知识图谱库KG。首先，智能体在导航期间采用在预训练的检测器来检测视觉观测中的物体类别。然后，对于每个检测到的物体，智能体根据相关性从ConceptNet知识图谱中通过Top-k查询方法检索其中顶部的k个知识事实，从语义和空间共现的角度来检索与理想值最接近的k个匹配类别。

智能体在每一个视觉点v _t，利用检测到的物体集合Hv _t（即标签物体的集合）作为索引从知识图谱中进行采样，以构建完全连接的特定于实时场景的子图谱（即内部知识图谱和外部知识图谱）。

然后通过多步图卷积的方式对子图谱进行多步推理，得到物体特征矩阵：

其中，

是知识图谱的节点特征矩阵，

代表第

步图推理，

表示激活函数，

是知识图谱中代表边的节点之间加权邻接矩阵，

是可学习的参数，

代表初始时刻知识图谱的节点特征矩阵，

代表知识图谱节点特征矩阵。

为了获得最终的用于决策的物体水平特征向量表征

，整合来自知识图谱库的物体线索来增强语言指令的表征L与目标对象的相关性。

具体而言，计算经过编码的语言向量L与知识库中每个物体之间的相关性r _t,i，通过注意力机制将知识融入到语言指令中来推导出最终融合知识的语言特征向量Lʹ。

式中，H _i ^E表示外部知识图谱中每一类物体的特征表示，W _f是一个可学习的参数，上标T代表矩阵转置，L ^T代表L的转置，i表示知识库中物体的类别数量，大小为1600。

然后，将融合知识的语言编码向量

进一步融合智能体的全景视觉的知识图谱的节点特征矩阵

来最终推导出物体级别的特征向量V ^O。（即物体的水平特征）。

其中，W _o代表一个可学习的参数（不同下标代表不同学习模型/网络的参数）。

需要说明：上述“节点”即是指视觉语言导航任务中的“物体”，“节点特征矩阵”即“物体特征矩阵”。

步骤106：以记忆信息为输入，基于多模态模型的决策框架，输出决策。

本步骤中，基于多模态模型的决策框架是指基于Transformer模型的多模态架构，Transformer模型包括编码器和解码器，此处具体是Transformer模型的解码器。

视觉语言导航任务可以被视为一个马尔科夫决策过程，智能体需要在导航过程中注意长时间序列的历史信息。

传统的基于LSTM模型处理多模态数据作为决策框架的方法，由于模型容量的限制，使得智能体很难建模长时间序列的输入。这对于现实世界中应用的导航机器人来说是困难的，其需要对所遍历的观察历史和动作显示地进行建模，正如人类导航一样需要根据所有经历的场景来决定下一步的动作，仅针对部分历史信息作为输入进行动作建模对于提高智能体的性能，如导航成功率是困难的。

基于Transformer模型的多模态架构在完成如语言和图像分类和生成任务后，Transformer模型可以大规模地对语义概念的高维分布进行建模，包括语言中的有效零样本泛化和分布外图像生成。将Transformer模型用于智能体的决策过程，尤其是视觉语言导航任务，可以充分利用Transformer模型的长序列建模能力和注意力机制。多模态Transformer模型将视觉和语言多模态信息编码为输入标记序列并附加在一起以形成单个输入序列，添加每种模态信息唯一的类型嵌入以区分不同模态的输入令牌。

如图4所示，利用Transformer模型作为智能体的决策框架，在智能体将语言指令和视觉感知通过注意力机制和知识图谱推理的方法生成多模态向量表征后，设计了一个动态记忆库可以按时间顺序显示地存储历史记录信息，并且基于Transformer模型的架构可以自然地适应来自记忆库的可变长度记忆输入以预测下一个动作。在每一个时间步t，Transformer模型的解码器采用历史信息和当前记忆信息作为输入，然后经过注意力机制预测智能体的动作。

步骤108：根据决策，执行动作并进行第一判断，当启发式规则和预算条件满足帮助机制时，向建议者发出帮助请求；根据帮助请求，执行干预动作并进行第二判断，当视觉状态与语言指令相符合时，完成视觉语言导航任务。

具体的：

启发式规则和预算条件满足帮助机制包括：任一启发式规则满足相应的阈值，且预算大于零。任一启发式规则满足相应的阈值包括：智能体偏离教师路径的距离大于第一阈值；或智能体计算的导航分布熵与均匀分布的导航熵之差小于第二阈值；或智能体保留在相同视点的时间步满足第三阈值；或智能体在目标视点时导航分布的最高概率动作不是“停止”。

当启发式规则和预算条件不满足帮助机制时，进行第二判断。

当视觉状态与语言指令不相符合时：根据当前视觉感知，生成当前记忆信息；以记忆信息为历史信息，以当前记忆信息和历史信息为输入（以充分挖掘机器人遍历环境的历史信息，进行准确地决策），基于多模态模型的决策框架，输出当前决策；根据当前决策执行当前动作，并重新进行第一判断和第二判断，直至视觉状态与语言指令相符合。

也就是说，智能体执行视觉语言导航任务是一个循环迭代的过程，动作或者干预动作会改变周围环境，而语言指令不变，当视觉状态与语言指令不相符合时，智能体在执行动作或干预动作之后对周围环境的感知信息为当前视觉感知，并根据当前视觉感知，再次提取当前视觉特征和当前物体标签，并进一步得到当前记忆信息，以之前得到的记忆信息为历史信息，进一步输出当前决策并执行，从而进行迭代循环。因此，视觉感知、视觉特征、物体标签、房间特征、水平特征、记忆信息、历史信息、决策、动作以及干预动作都是实时的，随着迭代过程的进行而不断更新。

本步骤中，视觉状态是指智能体执行动作或干预动作后的状态。视觉状态与语言指令相符合，即智能体达到了语言指令的要求，也就是完成了视觉语言导航任务。

建议者是基于全局通用知识的模拟人类助手（对人类的帮助进行建模，现有技术），可以模拟地实现“人在回路上”的功能，通过启发式规则和预算条件触发。

建议者接收帮助请求，并根据实时状况，发出干预指令，智能体根据干预指令执行干预动作并进行第二判断，当视觉状态与语言指令所表达的目标状态相符合时，完成视觉语言导航任务。

当智能体（或机器人）导航出现困难或出现失误时，如果判断预算大于0，则会触动基于启发式规则的通用知识，使得智能体向建议者寻求帮助。当智能体发出请求信号时，建议者通过直接干预，指导智能体采取行动，用自己的决策覆盖智能体的决策，使得智能体采取导航教师动作（做出正确的动作），因此直接干预总是被完美执行，能够促进智能体的学习过程，提高任务的执行效能与成功率。

建议者具有类似于先验的功能，总是选择要沿着从当前位置到目标位置的最短路径动作

（这里就是教师动作，模范学习中会有由最短路径构成的教师动作，就是学习的标准，可以写成

=

，其中

是导航教师的策略，

是在时间步

的环境状态）。

为了适应现实世界中的应用，智能体能够自适应地决定是否在导航过程中寻求帮助。当基于启发式的规则和询问预算满足条件时，智能体能够向建议者寻求帮助。

启发式规则包括：

1）智能体偏离教师路径的距离超过

米，距离定义为从智能体当前的视点到路径上最近视点的长度，第一阈值

米为8米。

2）智能体是“困惑的”，定义为均匀分布的导航熵与智能体计算的导航分布熵之间的差值小于

时，第二阈值

为1。

3）智能体在上个

时间步内一直保留在相同的视点，第三阈值上个

时间步为9。

4）智能体在目标视点，但导航分布的最高概率动作不是“stop”。

当智能体导航性能得到提高的同时也应最大限度减少对建议者的帮助请求，以提高智能体的自主性。

询问预算

和智能体询问的概率

是两个独立的变量，它们共同决定了一个因变量

（即建议者是否可以提供帮助，human help=0，就是不能帮助，让智能体根据自己的决定执行动作，即使犯错）：

设置

的初始值

=3，以平衡人类的参与程度，同时在实验中具有可控数量的条件。

在每一个时间步

，当

等于1时，即建议者收到来自智能体的帮助请求后，它将会使用导航教师的下一步动作来覆盖智能体的决策：

式中，

代表智能体每一时间步采取的动作。如图5所示。

在实际生活中，完全依靠机器人的自主性或按照详细的任务来解决问题是不现实的，尤其是面对未知环境，智能体根据高级语言指令进行视觉语言导航任务是困难的，但这也是现实中人们希望的机器人接受任务的方法，例如家庭任务场景，人们往往只会提供简洁的命令给机器人让其完成任务。赋予机器人面对“困难”时，自主提出问题的能力，让人类提供帮助，将人的智能混合其中，将极大提高机器人完成任务的成功率并提高决策的准确性。

本实施例中，针对传统的视觉语言导航方法提供的是逐步的语言指令，解决的问题重点在于自然语言理解与多模态数据融合与对齐，在未知环境中泛化性较差的技术问题，通过基于启发式的规则，智能体可以在导航遇到困难时要求建议者（模拟实际中人类）提供帮助，然后由建议者提供直接干预形式的帮助，使得智能体的导航性能提高，实现人机合作从“人在回路中”（人时时刻刻参与导航，指导智能体的每一步动作）到“人在回路上”（人发出语言指令，智能体独立完成任务，并在任务完成过程中遇到困难时主动反馈信息以寻求帮助，弱化了人的作用，提高了智能体的自主性、泛化性，同时也提高了任务完成的效率和成功率）的转变，提高智能体根据高级语言指令进行视觉语言导航任务的能力。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图6所示，本申请还提供一种基于智能辅助和知识赋能的视觉语言导航装置，在一个实施例中，包括：获取模块602，提取模块604，决策模块606和执行模块608，其中，

获取模块602，用于获取视觉语言导航任务，所述视觉语言导航任务包括：语言指令以及视觉感知；

提取模块604，用于根据所述视觉感知，提取视觉特征和物体标签，并根据所述物体标签得到物体的房间特征；基于注意力机制，根据所述物体标签以及预设的知识图谱库，进行知识推理，得到物体的水平特征；根据所述语言指令、所述视觉特征、所述物体的房间特征以及所述物体的水平特征，生成记忆信息；

决策模块606，用于以所述记忆信息为输入，基于多模态模型的决策框架，输出决策；

执行模块608，用于根据所述决策，执行动作并进行第一判断，当启发式规则和预算条件满足帮助机制时，向建议者发出帮助请求；根据所述帮助请求，执行干预动作并进行第二判断，当视觉状态与语言指令相符合时，完成视觉语言导航任务。

关于基于智能辅助和知识赋能的视觉语言导航装置的具体限定可以参见上文中对于基于智能辅助和知识赋能的视觉语言导航方法的限定，在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.基于智能辅助和知识赋能的视觉语言导航方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据所述视觉感知，提取视觉特征和物体标签，并根据所述物体标签得到物体的房间特征包括：

采用特征提起器，从所述视觉感知中提取视觉特征；

采用检测器，从所述视觉感知中检测物体的物体标签；

3.根据权利要求1或2所述的方法，其特征在于，基于注意力机制，根据所述物体标签以及预设的知识图谱库，进行知识推理，得到物体的水平特征包括：

4.根据权利要求3所述的方法，其特征在于，以所述物体标签为索引，从预设的知识图谱库中进行检索，得到检索结果；对所述检索结果进行多步图卷积，得到卷积后的物体特征矩阵包括：

5.根据权利要求1或2所述的方法，其特征在于，根据所述语言指令、所述视觉特征、所述物体的房间特征以及所述物体的水平特征，生成记忆信息包括：

6.根据权利要求1或2所述的方法，其特征在于，启发式规则和预算条件满足帮助机制包括：

任一启发式规则满足相应的阈值，且预算大于零。

7.根据权利要求6所述的方法，其特征在于，任一启发式规则满足相应的阈值包括：

智能体偏离教师路径的距离大于第一阈值；

或智能体保留在相同视点的时间步满足第三阈值；

8.根据权利要求1或2所述的方法，其特征在于，当启发式规则和预算条件不满足帮助机制时，进行第二判断。

9.根据权利要求1或2所述的方法，其特征在于，当视觉状态与语言指令不相符合时：

10.基于智能辅助和知识赋能的视觉语言导航装置，其特征在于，包括：