CN114973125A

CN114973125A - 智能导航场景中利用知识图谱辅助导航的方法及系统

Info

Publication number: CN114973125A
Application number: CN202210518261.7A
Authority: CN
Inventors: 张沪寅; 周康; 郭迟
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-08-30

Abstract

本发明提供一种智能导航场景中利用知识图谱辅助导航的方法及系统，首先利用深度学习方法构建多源数据融合导航场景知识图谱comgraph，对知识图谱进行知识表示和知识推理的图注意力网络GAT以及对未知场景进行知识更新和应用的元学习组成导航知识嵌入，提取空间结构特征；同时，使用神经网络对场景中观测图像进行图像特征提取，通过目标全局词向量表示提取语义特征；然后将图像特征、语义特征以及空间结构特征拼接到多层感知机和长短时记忆网络MLP‑LSTM中进行记忆存储，并传递给强化学习进行状态表示，进行完整的导航。本发明使智能体在新的室内导航环境中也能取得很好的导航效果，而不受场景布局变化影响。

Description

智能导航场景中利用知识图谱辅助导航的方法及系统

技术领域

本发明属于人工智能机器人领域，尤其涉及智能导航场景中利用知识图谱辅助导航的方法。

背景技术

随着计算机视觉技术和强化学习智能导航的发展，低成本，高效率，不依赖于传感器(激光雷达，视觉里程计等)，以及能适应场景变化(强光照，弱纹理，场景布局变化等)的知识谱图辅助视觉语义导航方法成为当前研究热点。知识图谱利用计算机视觉技术将场景空间信息包括目标实体，关系和属性进行编码，嵌入到强化学习导航中，提高智能体空间探索和推理能力。当前导航场景知识图谱大多来源于大规模图片语义理解数据集(VisualGenome)，它是在真实环境中采集，将该数据集用在虚拟仿真环境中存在目标匹配误差大的问题，且仅作为固定的空间信息特征作为强化学习策略的一部分，在新场景中无法自适应更新。因此，本发明针对现有技术缺陷，提出了构建导航知识图谱的方法以及使用图神经网络有效表达和更新场景知识图谱的方法，提高智能导航的泛化能力。

发明内容

本发明针对现有导航知识图谱在实体冗余，目标不匹配和目标关系不准确，不能精确而有效提供空间信息辅助导航的问题，提出了一种在智能导航场景下利用深度学习方法构建常识知识图谱的方法，以及使用图神经网络和元学习更新策略提高导航泛化能力的方法。

为了实现上述目的，本发明的技术方案提供一种智能导航场景中利用知识图谱辅助导航的方法，首先利用深度学习方法构建多源数据融合导航场景知识图谱comgraph，对知识图谱进行知识表示和知识推理的图注意力网络GAT以及对未知场景进行知识更新和应用的元学习组成导航知识嵌入，提取空间结构特征；同时，使用神经网络对场景中观测图像进行图像特征提取，通过目标全局词向量表示提取语义特征；然后将图像特征、语义特征以及空间结构特征拼接到多层感知机和长短时记忆网络MLP-LSTM中进行记忆存储，并传递给强化学习进行状态表示，进行完整的导航。

而且，在利用深度学习方法构建多源数据融合导航场景知识图谱的基础上，将导航语义知识泛化到新场景，使智能体在新的室内导航环境中不受场景布局变化影响。

而且，在图注意力网络GAT以及元学习组成导航知识嵌入时，使用GAT嵌入表示和提取知识图谱特征，作为强化学习导航输入状态；通过元学习帮助强化学习在训练过程中的损失梯度，实现新场景泛化。

而且，使用Resnet18神经网络对场景中观测图像进行图像特征提取。

而且，将图像特征、语义特征以及空间结构特征拼接到MLP-LSTM神经网络中进行记忆存储，并传递给强化学习进行状态表示，进行完整的导航。

而且，根据导航场景中目标位置关系，使用先验知识推理最短路径，从而给予强化学习优化的决策，将该推理值作为动作采样的一部分，指导强化学习导航，提高导航泛化能力。

另一方面，本发明提供一种智能导航场景中利用知识图谱辅助导航的系统，用于实现如上所述的一种智能导航场景中利用知识图谱辅助导航的方法。

而且，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种智能导航场景中利用知识图谱辅助导航的方法。

或者，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种智能导航场景中利用知识图谱辅助导航的方法。

本发明提出了一个导航框架，该框架根据当前的目标视图、comgraph(常识知识图谱)知识和元学习进行推理导航下一步最优动作。具体来说，在导航室内环境中，使用基于目标检测器、网络神经网络和爬虫构建统一常识知识图谱；采用半监督归纳学习方法GAT(Graph ATtention network)对图进行有效提取和更新；用元学习来探索这样的动态导航图，它连接了可见和不可见的环境分布；最后对强化学习策略值进行分解，将comgraph推理值和策略值函数拼接，从而为强化学习提供更优决策。本发明的框架在成功率和SPL(成功长度加权)方面分别显示了约28％和约12％相对于当前SOTA(state-of-the-art)的改进；所提供的comgraph在跨场景泛化方面的性能优于Visual Genome知识图，在Hits@5^*和MRR^*上分别提高了约56％和约39％。

和现有技术相比，本发明的技术方案优点在于：

1)该方法使智能体在新的室内导航环境中不受场景布局变化影响。该导航框架利用深度学习方法构建多源数据融合导航场景知识图谱(comgraph)，具有丰富的导航语义知识，并成功泛化到新场景中。

2)对知识图谱进行知识表示和知识推理的图注意力网络(GAT)以及对未知场景进行知识更新和应用的元学习(meta learning)组成导航知识嵌入。使用GAT嵌入表示和提取知识图谱特征，作为强化学习导航输入状态的一部分，能有效辅助于导航。元学习帮助强化学习在训练过程中的损失梯度，以此解决新场景泛化问题。

3)使用Resnet18对场景中观测图像进行特征提取，以及目标Glove词向量进行语义表示。然后将图像特征，语义特征以及空间信息特征拼接到MLP-LSTM神经网络中进行记忆存储，并传递给强化学习进行状态表示，进行完整的导航。

4)会根据导航场景中目标位置关系，使用先验知识推理最短路径，从而给予强化学习优化的决策，将该推理值作为动作采样的一部分，指导强化学习导航，提高导航泛化能力。

本发明方案实施简单方便，实用性强，解决了相关技术存在的实用性低及实际应用不便的问题，能够提高用户体验，具有重要的市场价值。

附图说明

图1是本发明实施例的知识图谱构建和使用导航总体框架图。

图2是本发明实施例的基于faster-rcnn深度神经网络构建的导航知识图谱构建示意图。

图3是本发明实施例的方法对比其他试验所得到的收敛曲线图。

具体实施方式

以下结合附图和实施例具体说明本发明的技术方案。

本发明实施例提供的一种智能导航场景中利用知识图谱辅助导航的方法，使智能体在新的室内导航环境中也能取得很好的导航效果，而不受场景布局变化影响。该导航框架首先利用深度学习方法构建多源数据融合导航场景知识图谱(comgraph)，对知识图谱进行知识表示和知识推理的图注意力网络(GAT)以及对未知场景进行知识更新和应用的元学习(meta learning)组成导航知识嵌入，同时，使用Resnet18神经网络对场景中观测图像进行特征提取，以及目标全局词向量表示(Glove)进行语义表示。然后将图像特征，语义特征以及空间信息特征拼接到多层感知机和长短时记忆网络(MLP-LSTM)中进行记忆存储，并传递给强化学习进行状态表示，进行完整的导航。本方法会根据导航场景中目标位置关系，使用先验知识推理最短路径，从而给予强化学习优化的决策，将该推理值作为动作采样的一部分，指导强化学习导航，提高导航泛化能力。

本发明关键在提供一种通用的常识知识图谱，以及结合图注意力机制的知识表示和推理模型。根据导航场景中多目标关系，利用通用常识知识图谱的先验知识，推理目标位置，一方面作为强化学习空间信息状态的表示之一，另一方面作为强化学习策略值函数的一部分。该知识图谱的构建和使用能为智能体在新场景导航提高导航成功率，提升导航的整体效果。本发明实施例提供的一种智能导航场景中利用知识图谱辅助导航的方法，提出了一种通用的常识知识图谱，以及结合图注意力机制的知识表示和推理模型，如附图1：

输入为导航场景中，智能体的观测图像，基于残差网络(例如Resnet18网络)从图像提取的视觉特征大小为1*2048，同时将要找的目标进行词向量嵌入得到语义特征，其词向量大小为1*300，以及基于本发明构建的知识图谱使用图注意力网络GAT提取空间结构特征，其大小为1*92；然后用多层感知机进行图像、语义和空间的特征拼接，拼接后的大小为1*2440。通过大小为512的LSTM长短时记忆网络保存每3步的训练参数，由2层的FC全连接层，分别输出强化学习(A3C)Actor-Critic的值，即，策略函数和值函数的估计值。最后使用元学习保存训练损失函数的梯度，元学习使用全卷积层FCN存储每5步的训练参数，以应用到新的训练场景中。加强新场景的泛化能力。场景状态知识(State Knowledge)根据导航场景中多目标关系，利用通用常识知识图谱的先验知识，通过多头注意力机制，得到下一个目标最优状态的特征值，推理目标位置。其作用，一方面作为强化学习空间信息状态的表示之一，另一方面作为强化学习策略值函数的一部分。其中，π(o_t)表示强化学习策略函数，v(o_t)为值函数，是强化学习值函数估计与图注意力网络值函数估计拼接后总的值函数。R_t是当前状态下的奖励回报值，O_t+1是下一个动作得到的观测状态。梯度流表示整个导航框架中，神经网络通过损失函数的反向传播方向，梯度下降，求偏导的过程。前向传播是不同类型的数据，通过神经网络提取特征的过程，交互流是强化学习，在与环境交互的过程，而输入流，是本发明模型的三个主要输入，环境图像特征，目标词向量特征和知识图谱邻接矩阵的特征。场景的领域知识由正则表达式通过知识蒸馏得到92*92大小的邻接矩阵，其中顶点由最常见的场景目标构成为92个，边为目标的关系构成为92*92条边，如左，右，上(left，right，on)等7种关系。这些关系代表场景布局常识的一般规律，通过GAT图注意力网络将该知识图谱邻接矩阵进行嵌入表示。该知识图谱的构建和使用能为智能体在新场景导航提高导航成功率，提升导航的整体效果。

本发明采用深度学习的方法构建和使用知识图谱，并提高导航性能。导航知识图谱构建的具体方法是：

本发明实施例的知识图谱是在AI2THOR环境下基于多源信息融合构建的，它由三个主要步骤组成。即：

(1)从原始的AI2THOR数据集中抓取目标关系，颜色，大小，形状，是否开关等，可以采用爬虫方式进行抓取。

(2)使用YoLoV4对象检测器生成与其坐标的关系，生成上，下，左边，右边，里面和包含关系。

(3)设计一个图生成深度学习模型如附图2，预测场景图中的上，下，左，右关系。

为便于实施参考起见，提供附图2中具体实现说明如下，具体实施时可以根据需要设置相应参数：

优选使用VGG16神经网络经过13层卷积层和3层全连接层提取深度图的空间特征，即深度特征。VGG16神经网络输入图像大小为224*224*3，其5层的最大池化层，卷积层和激活函数都是用ReLu函数，最后全连接层是10000个神经元。

采用faster-rcnn提取场景目标关系特征，使用RPN(region proposal network)区域推荐网络生成角点框，对其裁剪过滤经过softmax映射归一化层判断并修正检测框，得到较精确的推荐区域，通过特征映射和ROI(regionofinterest)感兴趣区域生成固定的特征映射地图，使用softmax函数和L1损失函数进行联合训练得到准确的检测框x，y，w，h，即中心点坐标，宽度和高度，图2中记为二维检测框(x″，y″，w″，h″)。

将智能体位置和方向编码，与faster-rcnn输出拼接，经过全连接层，得到位置特征。

最后将深度特征和位置特征拼接，经过全连接层，得到3维的检测框x，y，z，w，h。图2中记为3二维检测框(x，y，z，weight，height)。

将导航中要寻找的目标与检测的目标进行位置匹配，计算目标与目标的位置关系，存储到comgraph数据集中。

在步骤(1)中，本发明实施例导航知识图谱构建过程中，利用多源融合技术抓取了大部分物体间on和in关系和对象容器，真实离散环境中的纹理约40000个三元组作为背景知识的一部分。

在步骤(2)中，应用预训练的YoLoV4，在AI2THOR环境下进行测试。

本发明定义left，right，over和under关系如下：

left：(x_j+w_j/2)-(x_i+w_i/2)≥(w_i+w_j)/2& ①

0≤|(y_i+h_i/2)-(y_j+h_j/2)|≤(h_j+h_i)/2 (②

right：(x_i+w_i/2)-(x_j+w_j/2)≥(w_i+w_j)/2& ③

0≤|(y_i+h_i/2)-(y_j+h_j/2)|≤(h_j+h_i)/2 ④

over：(y_i+h_i/2)-(y_j+h_j/2)≥(h_i+h_j)/2& ⑤

0≤|(x_i+w_i/2)-(x_j+w_j/2)|≤(w_j+wi)/2 ⑥

under：(y_i+h_i/2)-(y_j+h_i/2)≥(h_i+h_j)/2& ⑦

0≤|(x_i+w_i/2)-(x_j+w_j/2)|≤(w_j+w_i)/2 ⑧

对于每个观测框架，智能体随机游走在120个房间中，并检测出若干对象关系，本发明存储了2700个三元组。对象检测器遍历每两个对象i和j，根据上述公式预测关系为<Oi，relation，Oj>。坐标生成(xi，yi)＝(boxes[i][0]，boxes[i][1])；(wi，hi)＝(boxes[i][0]，boxes[i][1])。其中x_i，y_i，h_i，w_i分别表示第i个检测框的中心点二维坐标，高和宽，boxes表示检测框。left，right，over，under分别表示目标与目标之间的关系，左，右，上，下。

在步骤(3)中，本发明实施例标注了来自AI2THOR的135万张包含108个类的四种室内房间的图像，并使用实施例的关系常识图提取模块进行处理。

该步骤中，实施例的具体实现说明如下：

(1)实施例使用faster-rcnn作为检测器和与真实目标配对来生成comgraph。图节点之间的连接由它们的共现空间关系和对象检测器提供的对象类别的置信度决定。值得注意的是，实施例没有使用来自ROI池化的卷积特征，因为可能存在各种形状和纹理不同的物体。此外，利用投资回报池的方法使模型难以推广。相反，实施例在空间R⁸中为对象O_x定义了一个特性f_x，包括中心点坐标(xcenter，ycenter)、位置(xmin，ymin，xmax，ymax)、高度、宽度和置信值。

(2)将对象O_x和O_j相对于智能体连接起来，利用多层感知机MLP得到位置特征。利用VGG16网络提取深度图像特征。

(3)实施例匹配真实目标O_x标签和对象O_j标签，得到存储在comgraph中大约40000个三元组的关系。通过以上三种方法，本发明可以得到63000个<S-P-O>三元组来构造本发明的多源数据融合导航场景知识图谱comgraph。

本发明知识图谱G(S，P，O)编码了场景中物体的语义和相关性。

语义关系的一般表达式是在对象对之间的<主体-预测-客体>，值得注意的是，这种语义关系具有方向性，即通过关系将一个目标(主体名词)与另一个目标(客体)连接起来。预测可以是对象之间的动作或交互。给定观察图像I中主体i为头实体，客体j为尾实体，实体对集合(S_i，O_j)表示S头节点的i-th和T尾节点的j-th之间的关系。P_k是表示图边的实体对之间的关系。所有的边都通过权重设置初始化。

并且本发明实施例的边的初始化权重是根据TF-IDF排序：(on：0.163265，in：0.204082，under：0.122449，left：0.102041，right：0.081633，over：0.142857，contain：0.183673)设置的。通过这些设置，本发明认为on、in等关系更重要，可以在导航知识推理中得到信任，并可以加速找到目标对象。

例如，当目标apple是看不见的，apple更可能在冰箱里，而不是在bowl或knife的左边。这样做的目的是为室内导航场景创建了准确而通用的常识知识图谱。为提高导航效果奠定了基础。

导航知识图谱使用的具体方法是：

comgraph克服了不同类似场景下不同分布情况下的知识冗余和不准确性。在新场景下，本发明利用GAT构建知识图谱更新与适配框架。它具有挑战性，因为不存在适用于所有场景的完美先验知识。先验知识被认为是一个新场景的初始信念，而不是一个严格的规则。在一个新的场景中，由于缺乏目标或关系，最初的先验是不够的。但是，相同类型房间的初始知识图谱的空间结构分布是相似的，可以通过元学习改变隐性分布。具体的原则是由元学习模型的一个步骤(或几个步骤)提供的二阶导数信息，这被称为任务曲率。这些高阶信息为模型的初始化提供了方向信息，即本发明使用的每个任务的梯度方向。优化分为内环和外环两层。内部循环是训练过程，对于每个任务，它学习处理任务的基本技能。外环是学习多任务泛化能力的元训练过程。使用GAT，本发明的智能体可以通过指定不同的权值给邻居节点来判断是在邻接层内部还是跨不同的场景。这样，本发明可以根据不同的场景从comgraph中提取特征，从而更有效地导航。此外，在元学习监督阶段采用了comgraph结构。对于本发明图注意力网络GAT嵌入表示的comgraph，本发明有：

本发明学习了

一个新的节点

通过多头图注意层聚合，得到输出特征表示。在训练过程中，对边缘和节点操作进行动态学习，然后通过策略进行提取和调整。使用聚合函数||，本发明通过执行⑩的转换来连接K独立的注意机制。v_ij表示节点i到节点j，w之间的注意概率为训练参数，W为权值矩阵，σ()为非线性。N_i中的k∈N_i节点是i节点的邻居，x_i是i节点的属性特征。通过对邻接矩阵进行注意机制的边操作，GAT图嵌入使本发明超越了先验知识的整合，转向知识学习和图适应，只需要部分图更新主要特征，而无需更新全图特征。

实验设置：

在对本发明实施例方法进行实验时，使用A12THOR模拟器作为实验框架，它分为四种不同的房间类型：浴室、客厅、卧室和厨房。实验设置为SAVN。每个房间使用20个场景进行训练；

5个验证场景和5个测试场景。本发明训练所有的方法直到2亿帧的最大收敛。

厨房：微波炉、烤面包机、冰箱、咖啡机、垃圾桶、碗和盒子；

客厅：电视、枕头、垃圾桶、笔记本电脑、碗和盒子；

卧室：室内植物、灯、书和闹钟；

浴室：厕纸、肥皂瓶、开关灯、水槽，共21个。

所有可用的对象是92，包括在本发明实施例的comgraph。为了训练本发明的模型，本发明实施例使用Pytorch框架，使用RMSprop进行适配优化，使用SharedRMSprop。

实验参数设置：

为了处理视觉感知图像，本发明实施例使用预先训练的ResNet18在每个时间步提取观察特征。该方法使用Glove生成目标和图对象的300维语义嵌入，共92个对象。本发明实施例的强化学习actor-critic网络的输入与目标对象连接为一个300维的向量，观察特征作为一个1024维的特征向量，92个节点的知识图输入到GAT产生92维向量。同时，GAT也被用来进行产生单一值的知识推理。

本发明实施例的actor-critic网络由512个隐藏状态的LSTM网络和代表actor-critic的两个fc层组成。actor输出一个6维的动作分布。critic用softmax归一化映射激活函数估计一个值。

将GAT分解后的值输入批评嵌入，构成价值估计。特别是在未知场景下动态更新知识图和修正策略网络错误先验方面，本发明实施例采用了新的元学习的MAML智能体。图的输入是一个1024维的向量作为节点特征。该方法利用手套嵌入的方法将512个观测特征通过线性层映射到300个到512个目标上。每层包含92个邻接矩阵节点，共5层，其中4层是四种场景中物体之间的边，另一层是使用自连接层进行正则化。整个模型训练结果如附图3所示，和其他现有技术中A3C等方法所得结果相比，使用GAT-SAVN，即本发明实施例的模型，拥有最好的导航效率，说明，本发明的框架能更快的找到目标，同时知识图谱使用占比越多，模型导航效率越高。

具体实施时，本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程，实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备，也应当在本发明的保护范围内。

在一些可能的实施例中，提供一种智能导航场景中利用知识图谱辅助导航的系统，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种智能导航场景中利用知识图谱辅助导航的方法。

在一些可能的实施例中，提供一种智能导航场景中利用知识图谱辅助导航的系统，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种智能导航场景中利用知识图谱辅助导航的方法。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种智能导航场景中利用知识图谱辅助导航的方法，其特征在于：首先利用深度学习方法构建多源数据融合导航场景知识图谱comgraph，对知识图谱进行知识表示和知识推理的图注意力网络GAT以及对未知场景进行知识更新和应用的元学习组成导航知识嵌入，提取空间结构特征；同时，使用神经网络对场景中观测图像进行图像特征提取，通过目标全局词向量表示提取语义特征；然后将图像特征、语义特征以及空间结构特征拼接到多层感知机和长短时记忆网络MLP-LSTM中进行记忆存储，并传递给强化学习进行状态表示，进行完整的导航。

2.根据权利要求1所述智能导航场景中利用知识图谱辅助导航的方法，其特征在于：在利用深度学习方法构建多源数据融合导航场景知识图谱的基础上，将导航语义知识泛化到新场景，使智能体在新的室内导航环境中不受场景布局变化影响。

3.根据权利要求2所述智能导航场景中利用知识图谱辅助导航的方法，其特征在于：在图注意力网络GAT以及元学习组成导航知识嵌入时，使用GAT嵌入表示和提取知识图谱特征，作为强化学习导航输入状态；通过元学习帮助强化学习在训练过程中的损失梯度，实现新场景泛化。

4.根据权利要求1所述智能导航场景中利用知识图谱辅助导航的方法，其特征在于：使用Resnet18神经网络对场景中观测图像进行图像特征提取。

5.根据权利要求1所述智能导航场景中利用知识图谱辅助导航的方法，其特征在于：将图像特征、语义特征以及空间结构特征拼接到MLP-LSTM神经网络中进行记忆存储，并传递给强化学习进行状态表示，进行完整的导航。

6.根据权利要求1或2或3或4或5所述智能导航场景中利用知识图谱辅助导航的方法，其特征在于：根据导航场景中目标位置关系，使用先验知识推理最短路径，从而给予强化学习优化的决策，将该推理值作为动作采样的一部分，指导强化学习导航，提高导航泛化能力。

7.一种智能导航场景中利用知识图谱辅助导航的系统，其特征在于：用于实现如权利要求1-6任一项所述的一种智能导航场景中利用知识图谱辅助导航的方法。

8.根据权利要求7所述智能导航场景中利用知识图谱辅助导航的系统，其特征在于：包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如权利要求1-6任一项所述的一种智能导航场景中利用知识图谱辅助导航的方法。

9.根据权利要求7所述智能导航场景中利用知识图谱辅助导航的系统，其特征在于：包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如权利要求1-6任一项所述的一种智能导航场景中利用知识图谱辅助导航的方法。