CN113111192A

CN113111192A - 智能体主动构建环境场景图谱的方法、设备和探索方法

Info

Publication number: CN113111192A
Application number: CN202110466006.8A
Authority: CN
Inventors: 刘华平; 郭迪; 张新钰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-13
Anticipated expiration: 2041-04-28
Also published as: CN113111192B

Abstract

提供了智能体基于视觉信息主动构建环境场景图谱方法、环境探索方法和智能设备，方法包括：采集训练模型所需环境场景图像及对应的环境场景图谱数据集；采集训练模型所需智能体探索环境路径；采用环境场景图像及对应的环境场景图谱数据集和采集的智能体探索环境路径训练主动探索模型；基于训练好的主动探索模型生成动作，智能体采用所生成的动作探索环境，探索过程中，获得3D语义点云数据，然后利用3D语义点云数据构建环境场景图谱。本发明可以克服以往传统计算机视觉任务只能对环境进行被动感知的局限性，利用智能体的主动探索特性，将感知能力与运动能力结合起来以实现主动感知，主动探索环境，主动构建环境的场景图谱，应用于多种视觉任务。

Description

智能体主动构建环境场景图谱的方法、设备和探索方法

技术领域

本发明总体地涉及计算机视觉技术，更具体地涉及模仿生物和人的智能体主动构建环境场景图谱的方法、智能设备和探索方法。

背景技术

随着机器学习技术的不断发展与广泛应用，计算机视觉领域近年来发展迅速，已经取得了很多显著的成果，包括物体检测、物体识别以及图像语义分割等。然而，这些传统的2D计算机视觉任务只能被动的对环境进行感知，侧重于分析静态环境，这忽略了一个智能体(包括生物和人)具备的一个非常重要的特性：主动探索性，即不断主动探索环境构建环境场景图谱并指导行动。主动探索性可以通过智能体身体与环境的交互来促进智能的能力，忽略了这一特性，就将感知与行动能力完全割裂开了。

发明内容

鉴于以上情况，提出了本发明。

根据本发明的一个方面，提供了一种基于视觉信息主动构建环境场景图谱的方法，包括：定义智能体所能执行的动作构成动作空间；采集训练模型所需环境场景图像及对应的环境场景图谱数据集；采集训练模型所需智能体探索环境路径；采用环境场景图像及对应的环境场景图谱数据集和采集的智能体探索环境路径训练主动探索模型；基于训练好的主动探索模型生成动作，智能体采用所生成的动作探索环境，探索过程中，获得3D语义点云数据，然后利用3D语义点云数据构建环境场景图谱。

可选地，所述基于视觉信息主动构建环境场景图谱的方法，所述采集训练模型所需环境场景图像及对应的环境场景图谱数据集包括：选取仿真场景环境；将仿真场景网格化，对每个网格化节点定义有限个视角，获得每个网格化节点可达到的所有视角，构成一个视角集合；对于视角集合中的每一个视角，获得智能体可捕捉的相应环境场景图像，结合对应深度图像，进而得到该视角对应的3D语义点云数据，利用3D语义点云数据构建环境场景图谱，得到该视角的环境场景图谱，遍历视角集合，得到环境所有视角对应环境场景图谱构成的环境场景图谱数据集。

可选地，所述采集训练模型所需智能体探索环境路径包括：找到路径点并构成路径点有序集合；利用插值，将路径点有序集合的点构成实际智能体通过动作空间中的动作能执行的路径点有序集合，构成探索环境路径。

可选地，所述找到路径点并构成路径点有序集合包括：对于视角集合中的每一个视角，从环境场景图谱数据集中取相应的场景图谱；对于视角集合中的每一个视角，从环境场景图谱数据集中取相应的场景图谱；对于视角集合中的每一个视角所获得的环境场景图像，进行目标检测，以对应场景图谱中出现的目标物为准，删除掉检测错误的目标物，得到检测到的目标集合；从视角集合中任意选取视角作为起点，加入路径点有序集合，遍历其周围视角，选取周围视角中与起点视角相比，目标物数量增加最多的视角，将其继续加入路径点有序集合；再以新加入的视角为起点，重复上述过程，直到达到一个预先设定的最大距离，从而得到一个路径点有序集合；对于路径点有序集合，采用插值的方法将路径点有序集合的点构成实际智能体通过动作空间中的动作能执行的路径点有序集合，连成一条路径，从而得到探索环境路径。例如采用的是beam search方法进行插值。

可选地，主动探索模型M_expl由卷积神经网络CNN、长短时记忆模型LSTM₁、长短时记忆模型LSTM₂和全连接层构成，其中卷积神经网络CNN用于提取环境场景图像特征CNN(I)，长短时记忆模型LSTM₁用于提取场景图谱特征LSTM₁(G)，LSTM₂用于生成动作，其中将环境场景图像特征CNN(I)，场景图谱特征LSTM₁(G)和表征动作的特征a顺次连接，作为长短时记忆模型LSTM₂每个时间步的输入层，长短时记忆模型LSTM₂每个时间步的输出层与全连接层连接。

可选地，基于视觉信息主动构建环境场景图谱的方法中，

设CNN初始参数为θ₂，LSTM₂初始参数为θ₂，LSTM₂初始参数为θ₃，全连接层初始参数为W₃，LSTM₂隐藏层初始状态为h₀,单元状态为c₀，主动探索模型的迭代过程如下：

h_t+1,c_t+1＝LSTM₂(h_t,c_t,CNN(I_t+1)；LSTM₁(G_t+1)；a_t])

a_t+1＝A(W₃h_t+1)

其中，t表示当前迭代步数，a_t表示当前迭代步数t时智能体需要执行的动作，I_t+1表示智能体执行完动作a_t后得到的图像，G_t+1表示智能体执行完动作a_t后得到的环境场景图谱，函数A(W₃h_t+1)计算第t+1迭代步数时，执行各个动作的概率并选取概率大的动作a_t+1作为主动探索模型M_expl的输出，θ＝[θ₁；θ₂；θ₃；W₃；h₀；c₀]构成可训练参数集合。例如采用Softmax归一化指数函数计算各个动作的概率。

可选地，采用采集的智能体探索环境路径训练主动探索模型包括：

(1)设训练批次大小为b；

(2)从环境探索路径集合P中随机采样b条探索环境路径，b>＝1；其中环境探索路径集合P为各个起始点对应的实际智能体通过动作空间中的动作能执行的路径点有序集合所构成的集合，则每条训练路径表示为

p＝a_start,I₀,G₀,a₁,I₁,G₁,a₂,I₂,G₂…,a_stop

其中,a_start和a_stop分别为开始动作和停止动作，I₀表示初始状态的环境场景图像，G₀表示初始状态的环境场景图谱；

(3)计算损失函数：

其中，π_θ为以所述可训练参数集合θ为参数的学习策略，T_i为第i条探索环境路径的长度，I_i,t是第i条探索环境路径t步时的环境场景图像，G_i,t是第i条探索环境路径t步时的环境场景图谱，a_i,t是第i条探索环境路径t步时的动作；

(4)优化损失函数，直到主动探索模型收敛，得到主动探索模型M_expl以及可训练参数集合θ的最终值θ′＝[θ′₁；θ′₂；θ′₃；W′₃；h′₀；c′₀]。例如，利用随机梯度优化器优化损失函数。

可选地，利用3D语义点云数据构建环境场景图谱,其中环境场景图谱由目标物和目标物之间的位置关系构成，表示为G＝{N,R},其中N(节点)是目标物，R(边)代表关系，用于将各个节点连接，环境场景图谱的构建基于局部场景图谱的建立和利用建立的局部场景图谱对全局场景图谱的更新。

可选地，局部场景图谱的建立包括：在每一个视角，通过环境场景图像，结合对应深度图像，得到该视角对应的视觉3D语义点云数据，3D语义点云数据中的语义信息是通过对环境场景图像进行目标检测得到的，每个点都有对应的目标语义信息，基于3D语义点云数据包含的位置信息，得到各个物体之间的位置关系，进而得到局部场景图谱。

可选地，利用建立的局部场景图谱对全局场景图谱的更新包括：智能体对环境进行不断探索，将每一步得到的局部场景图谱和前一步的全局场景图谱相结合，得到当前步的全局场景图谱；将每一步得到的局部场景图谱和前一步的全局场景图谱相结合包括对全局场景图谱各个节点和边的更新；全局场景图谱各个节点的更新包括：如果局部场景图谱中出现新的物体，则把新的物体加入到全局场景图谱；如果局部场景图谱和全局场景图谱中对应节点对应的物体一致，则以局部场景图谱和全局场景图谱中与所述物体对应节点置信度较高的作为全局场景图谱中所述物体对应节点的置信度；如果局部场景图谱和全局场景图谱中对应节点对应的物体不一致，通过比较局部场景图谱和全局场景图谱对应节点的置信度，取置信度较高的节点作为全局场景图谱的节点；全局场景图谱各个边的更新包括：如果局部场景图谱中出现新的关系，则把新的关系加入到全局场景图谱；如果局部场景图谱和全局场景图谱中对应边对应的关系一致，则以局部场景图谱和全局场景图谱中与所述关系对应边置信度较高的作为全局场景图谱中所述关系对应边的置信度；如果局部场景图谱和全局场景图谱中对应边对应的关系不一致，通过比较局部场景图谱和全局场景图谱对应边的置信度，取置信度较高的边作为全局场景图谱的边；在智能体的探索过程中，不断将得到的局部场景图谱和前一步的全局场景图谱相结合，得到环境场景图谱。

根据本发明的另一方面，提供了一种智能体探索环境的方法，包括：步骤1：采集视觉信息，这里包括环境场景图像、深度图像和得到的3D语义点云数据；步骤2：将拍摄的当前步的环境场景图像，当前步的局部场景图谱和前一步的动作输入预先训练得到的主动探索模型，生成当前步的动作建议并将该动作建议提示给智能体；步骤3：如果该动作为终止动作类型，探索环境结束，并得到该环境的场景图谱；否则，智能体执行所建议的当前步的动作，返回到步骤1。可选地，这里的主动探索模型是前述主动探索模型的训练方法训练得到的。

根据本发明的另一方面，提供了一种智能设备，包括：图像采集部件；中央处理单元；显卡；存储器，其上存储有计算机可执行指令，所述指令被中央处理单元或显卡执行时，可操作来执行前述方法。

可选地，智能设备是智能机器人、智能手机或智能可穿戴设备。

可选地，所述智能可穿戴设备是智能眼镜或智能头盔。

可选地，所述智能设备用于辅助视觉障碍的人或用于辅助教育。

可选地，所述智能设备是用于拍照的机器人或者用于医院护理的机器人。

根据本发明的另一方面，提供了一种利用权利要求1到8任一项的主动探索模型的训练方法来搭建主动探索模型；采集视觉图像，将拍摄的当前步的环境场景图像，当前步的局部场景图谱和前一步的动作输入预先训练得到的主动探索模型，生成当前步的动作建议并将该动作建议提示给智能体；如果该动作为终止动作类型，探索环境结束，并得到该环境的场景图谱；否则，智能体执行所建议的当前步的动作，返回到视觉采集步骤继续迭代。

本发明基于视觉信息主动构建环境场景图谱，主动探索模型自动生成智能体(如人、机器人等)探索环境的动作序列，令智能体完成对环境的主动探索，主动构建环境场景图谱。本发明可以克服以往传统计算机视觉任务只能对环境进行被动感知的局限性，利用智能体的主动探索特性，将感知能力与运动能力结合起来以实现主动环境探索，不断更新对环境的主动感知，进行动作建议，主动构建环境的场景图谱，应用于多种视觉任务。该方法可以应用于机器人智能导航，视障人士导盲等诸多领域，具有很重要的现实意义与社会价值。

附图说明

图1示出了根据本发明实施例的智能体探索环境中使用的基于视觉信息主动构建场景图谱的方法100的总体流程图。

图2示出了生成探索环境路径的一种示例型方式

图3示出了根据本发明一个实施例的智能体探索环境的方法200的总体流程图。

具体实施方式

在描述本发明具体实施例之前，首先对本文中使用的一些术语给出解释。

环境场景图谱：一个环境场景图谱可以定义为{N,E}，其中N为节点，E为边，环境场景图谱是由一系列节点和边构成的图结构，其中节点表示场景里面的实体(entities)，边表达他们之间的关系，例如：support(支撑),support by(被支撑),standing on(站立于),sitting on(坐于),lying on(躺于),has on top(在顶部),above(之上),below(之下),close by(靠近于),embedded on(嵌在…上),hanging on(挂在……上),pasting on(粘贴在……上),part of(……的部分),fixed on(固定于…上),connect with(与……连接),attach on(附接在……上)。每一种关系都可以由一个三元组表示，例如<floor,support,desk>((地板，支撑，桌子))或者<desk,supported by,floor>((桌子，被支撑，地板))。

节点置信度：环境场景图谱中节点对应的实体是通过对环境场景图像进行目标检测得到的，对于检测到的目标，目标检测器会生成一个对应的置信度，目标检测得到的目标置信度为对应节点的置信度。

边置信度：环境场景图谱中边对应的关系可以通过边预测网络得到，例如图卷积网络，边预测网络输出预测的关系和其置信度，输出的置信度为对应边的置信度。

主动探索模型：整个主动探索是一个产生动作时间序列的过程，因此很适合用LSTM模型解决；也可以尝试用其他时序建模方法解决。

“交互”：本文中的交互是指智能体探索中，智能体的脑、身体与环境之间的交互。

3D语义点云：3D语义点云表示在3D空间中，由无序的点构成的一个集合，每个点包含有三维坐标及其对应的语义信息。

为便于本领域技术人员更好地理解本发明，首先给出本发明的一个应用示例。本发明的智能体基于视觉信息主动构建环境场景图谱以及环境探索的方法可以具有众多应用，例如可用于为盲人进行导盲。假设盲人进入一个陌生环境，盲人随身携带智能手机或者智能眼镜，希望利用智能手机或者智能眼镜上的摄像头对其周围环境进行语义理解。采用智能手机或者智能眼镜进行拍摄时，一个视角只包括环境的局部信息，用户无法获取完整的环境语义信息；或者由于盲人视觉受限，很难选择合适的视角，例如当摄像头对准地面或墙面时，拍摄出的图像不具备丰富的语义信息，甚至可能是无意义的。利用根据本发明的基于视觉信息主动构建场景图谱的方法，可根据当前采集的图像信息，生成环境探索动作，指示盲人，盲人可以按照生成的动作运动，改变智能手机或者智能眼镜的拍摄视角，探索环境，获取整个环境的场景图谱；本发明的主动探索模型应用可以根据当前场景图像、环境场景图谱和之前的动作生成新的动作，如此反复直到主动探索模型给出停止动作。此时，用户能够获取到环境场景图谱，帮助对周围环境的语义理解。

下面结合附图来描述本发明实施例。

图1示出了根据本发明实施例的智能体基于视觉信息主动构建环境场景图谱的方法100的总体流程图。

这里的环境可以包括各个不同环境场景S，如客厅、厨房、卧室等。

智能体例如为人、机器人等等。

在步骤S110中，定义智能体所能执行的动作构成动作空间。

例如，智能体所能执行的动作包括移动、旋转等等。

在步骤S120中，采集训练模型所需环境场景图像及对应的环境场景图谱数据集。

在一个示例中，采集训练模型所需环境场景图像及对应的环境场景图谱数据集包括：

(1)选取仿真场景环境，例如选取包括客厅、厨房、卧室等的居家环境。

(2)将仿真场景网格化，对每个网格化节点定义有限个视角，获得每个网格化节点可达到的所有视角，构成一个视角集合

具体例如可以将场景的布局(layout)按照0.25m为单位网格化，在每一个节点，可以等分360度，以45度为间隔，获得8个视角。

换言之，将每个场景S的平面图网格化，取网格的中心点(x,y)，每个中心点可定义不同的方位角θ，则得到视角v＝(x,y,θ)，定义智能体所能执行的动作(本实施例为移动和旋转动作)构成动作空间

智能体通过动作空间中的动作

可到达的所有视角。

(3)对于视角集合中的每一个视角，获得智能体可捕捉的相应环境场景图像，结合对应深度图像，进而得到该视角对应的3D语义点云数据，利用3D语义点云数据构建环境场景图谱，得到该视角的环境场景图谱，遍历视角集合，得到环境所有视角对应环境场景图谱构成的环境场景图谱数据集。

在步骤S130中，采集训练模型所需智能体探索环境路径。

采集训练模型所需智能体探索环境路径可以：找到路径点并构成路径点有序集合；利用插值，将路径点有序集合的点构成实际智能体通过动作空间中的动作能执行的路径点有序集合，构成探索环境路径。

具体地，可以如下进行：对于视角集合中的每一个视角，从环境场景图谱数据集中取相应的场景图谱；对于视角集合中的每一个视角所获得的环境场景图像，进行目标检测，以对应场景图谱中出现的目标物为准，删除掉检测错误的目标物，得到检测到的目标集合；顺便说明一下，对于每一个视角，可以采集到的视觉信息包括场景图像，深度图像，进而得到该视角对应的3D语义点云数据，从视角集合中任意选取视角作为起点，加入路径点有序集合，遍历其周围的视角(注：在开始时，场景已经网格化，如果单位距离没有找到符合条件的点，则继续寻找两倍单位步长的视角，以此类推)；选取起点周围视角中，目标物数量增加最多的视角，将其加入该包含该起点的路径点有序集合；再以新加入的视角为起点，重复上述过程，直到达到一个预先设定的最大距离，从而得到一个路径点有序集合；对于路径点有序集合，采用插值的方法将路径点有序集合的点构成实际智能体通过动作空间中的动作能执行的路径点有序集合，连成一条路径，从而得到探索环境路径。

图2(a)和图2(b)示意性地示出了生成探索环境路径的一种示例型的方式：比如任意选取一个起始点p0，然后在它周围一个单位步长开始寻找符合要求的视角(在一个示例中，符合要求指的是有新目标物出现)，我们认为起点周围网格化最邻近的八个点均为单位步长可到达的视角，如果该点p0相邻点p1就可以符合条件，则这两个点p0和点p1可以直接构成路径的两个连续点(p0,p1)；之后以p1点为起点，然后在它周围一个单位步长开始寻找符合要求的视角，但是若一个单位步长都没有找到符合条件的视角点，这个时候就会看距离起始点两倍单位步长的视角点，如果寻找到符合条件的点p2，那么我们在p0和p2两个点之间就需要插值找到另一个点p3来连接p0和p2点，构成探索环境路径(p1,p3,p2)。

在步骤S140中，采用环境场景图像及对应的环境场景图谱数据集和采集的智能体探索环境路径训练主动探索模型。

所述主动探索模型M_expl由卷积神经网络CNN、长短时记忆模型LSTM₁、长短时记忆模型LSTM₂和全连接层构成，其中卷积神经网络CNN用于提取环境场景图像特征CNN(I)，长短时记忆模型LSTM₁用于提取场景图谱特征LSTM₁(G)，LSTM₂用于生成动作，其中将环境场景图像特征CNN(I)，场景图谱特征LSTM₁(G)和表征动作的特征a顺次连接，作为长短时记忆模型LSTM₂每个时间步的输入层，长短时记忆模型LSTM₂每个时间步的输出层与全连接层连接。

在一个示例中，设CNN初始参数为θ₁，LSTM₁初始参数为θ₂，LSTM₂初始参数为θ₃，全连接层初始参数为W₃，LSTM₂隐藏层初始状态为h₀,单元状态为c₀，主动探索模型的迭代过程如下：

h_t+1,c_t+1＝LSTM₂(h_t,c_t,CNN(I_t+1)；LSTM₁(G_t+1)；a_t])

a_t+1＝A(W₃h_t+1)

其中，t表示当前迭代步数，a_t表示当前迭代步数t时智能体需要执行的动作，I_t+1表示智能体执行完动作a_t后得到的图像，G_t+1表示智能体执行完动作a_t后得到的环境场景图谱，函数A(W₃h_t+1)计算第t+1迭代步数时，执行各个动作的概率并选取概率大的动作a_t+1作为主动探索模型M_expl的输出，θ＝[θ₁；θ₂；θ₃；W₃；h₀；c₀]构成可训练参数集合。

在一个示例中，所述采用环境场景图像及对应的环境场景图谱数据集和采集的智能体探索环境路径训练主动探索模型包括：

(1)设训练批次大小为b；

(2)从环境探索路径集合P中随机采样b条探索环境路径，其中环境探索路径集合P为各个起始点对应的实际智能体通过动作空间中的动作能执行的路径点有序集合所构成的集合，则每条训练路径表示为：

p＝a_start,I₀,G₀,a₁,I₁,G₁,a₂,I₂,G₂…,a_stop

(3)计算损失函数：

(4)优化损失函数，直到主动探索模型收敛，得到主动探索模型M_expl以及可训练参数集合θ的最终值θ′＝[θ′₁；θ′₂；θ′₃；W′₃；h′₀；c′₀]。

通过以上过程，完成了主动探索模型的训练。

在步骤S150中，基于训练好的主动探索模型生成动作，智能体采用所生成的动作探索环境，探索过程中，获得3D语义点云数据，利用3D语义点云数据构建环境场景图谱。环境场景图谱由目标物和目标物之间的位置关系构成，表示为G＝{N,R},其中N(节点)是目标物，R(边)代表关系，用于将各个节点连接，环境场景图谱的构建基于局部场景图谱的建立和利用建立的局部场景图谱对全局场景图谱的更新。

局部场景图谱的建立包括：

在每一个视角，通过环境场景图像，结合对应深度图像，得到该视角对应的视觉3D语义点云数据，3D语义点云数据中的语义信息是通过对环境场景图像进行目标检测得到的，每个点都有对应的目标语义信息，基于3D语义点云数据包含的位置信息，得到各个物体之间的位置关系，进而得到局部场景图谱。在一个示例中，采用了Graph ConvolutionaryNetwork(图卷积网络)通过3D语义点云数据预测各个节点之间的关系，得到局部场景图谱，得到的局部场景图谱中，每一个节点，每一条边(即关系)都包含类别及其置信度，如节点为苹果，置信度为0.6，边是支撑关系，置信度是0.5。

智能体对环境进行不断探索，将每一步得到的局部场景图谱和前一步的全局场景图谱相结合，得到当前步的全局场景图谱，将每一步得到的局部场景图谱和前一步的全局场景图谱相结合包括对全局场景图谱各个节点和边的更新。

对于全局场景图谱各个节点的更新包括：

如果局部场景图谱中出现新的物体，则把新的物体加入到全局场景图谱；如果局部场景图谱和全局场景图谱中对应节点对应的物体一致，则以局部场景图谱和全局场景图谱中与所述物体对应节点置信度较高的作为全局场景图谱中所述物体对应节点的置信度；如果局部场景图谱和全局场景图谱中对应节点对应的物体不一致，通过比较局部场景图谱和全局场景图谱对应节点的置信度，取置信度较高的节点作为全局场景图谱的节点。

对于全局场景图谱各个边的更新包括：

如果局部场景图谱中出现新的关系，则把新的关系加入到全局场景图谱；如果局部场景图谱和全局场景图谱中对应边对应的关系一致，则以局部场景图谱和全局场景图谱中与所述关系对应边置信度较高的作为全局场景图谱中所述关系对应边的置信度；如果局部场景图谱和全局场景图谱中对应边对应的关系不一致，通过比较局部场景图谱和全局场景图谱对应边的置信度，取置信度较高的边作为全局场景图谱的边。

在智能体的探索过程中，不断将得到的局部场景图谱和前一步的全局场景图谱相结合，得到环境场景图谱。

图3示出了根据本发明一个实施例的智能体探索环境的方法200的总体流程图。这里表示在已经取得了训练好的主动探索模型后，实际应用该主动探索模型进行环境探索的测试过程。

在步骤S210中，采集视觉信息，这里包括场景图像，结合对应深度图像，得到对应的视觉3D语义点云数据。

具体地，利用智能体配备的图像采集装置(如智能手机，智能眼镜等)获取当前环境的图像I₁,令初始化动作为a₀。

在步骤S220中，将拍摄的当前步的环境场景图像，当前步的局部场景图谱和前一步的动作输入预先训练得到的主动探索模型，生成当前步的动作建议并将该动作建议提示给智能体。所述主动探索模型可以是根据前面所述的主动探索模型的训练方法训练得到的。

具体地，例如，令前面训练得到的主动探索模型M_expl中LSTM₂隐藏层初始状态为h₀,单元状态为c₀；令i＝1,2,3…为迭代步数，当迭代步数为i时，将I_i，a_i-1，h_i-1,c_i-1输入主动探索模型M_expl，模型M_expl输出a_i，h_i,c_i。

在步骤S230中，判断该动作是否为终止动作类型，如果答案为是，前进到步骤S240，否则前进到步骤S250。

在步骤S240中，探索环境结束，并得到该环境的场景图谱。

在步骤S250中，智能体执行所建议的新的动作，然后返回到步骤S210。例如，智能体(如人、机器人等)执行动作a_i，此时，进入迭代步数i+1，利用智能体配备的图像采集装置(如智能手机，智能眼镜等)获取当前环境的图像I_i+1，进入步骤S220。

根据本发明的另一实施例，提供了一种智能设备，包括：图像采集部件；中央处理单元；显卡；存储器，其上存储有计算机可执行指令，所述指令被中央处理单元或显卡执行时，可操作来执行例如图1所示的主动探索模型的训练方法和/或例如图3所示的采用智能设备探索环境的方法。

智能设备可以是智能机器人、智能手机或智能可穿戴设备。

智能可穿戴设备可以是智能眼镜或智能头盔。

智能设备可以用于辅助视觉障碍的人或用于辅助教育。

智能设备可以是用于拍照的机器人或者用于医院护理的机器人。

根据本发明另一实施例，提供了一种采用智能设备探索环境的方法，包括：利用如图1所示的主动探索模型的训练方法来搭建主动探索模型；拍摄图像，将拍摄的当前步的环境场景图像，当前步的局部场景图谱和前一步的动作输入主动探索模型，生成新的动作建议并将该新的动作建议提示给智能体；如果该动作为终止动作类型，探索环境结束，智能体根据当前的局部场景图谱更新全局场景图谱；否则，智能体执行所建议的新的动作，返回到拍摄图像步骤继续迭代。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种智能体基于视觉信息主动构建环境场景图谱的方法，包括：

定义智能体所能执行的动作构成动作空间；

采集训练模型所需环境场景图像及对应的环境场景图谱数据集；

采集训练模型所需智能体探索环境路径；

采用环境场景图像及对应的环境场景图谱数据集和采集的智能体探索环境路径训练主动探索模型；

基于训练好的主动探索模型生成动作，智能体采用所生成的动作探索环境，探索过程中，获得3D语义点云数据，然后利用3D语义点云数据构建环境场景图谱。

2.根据权利要求1所述的基于视觉信息主动构建环境场景图谱的方法，所述采集训练模型所需环境场景图像及对应的环境场景图谱数据集包括：

选取仿真场景环境；

将仿真场景网格化，对每个网格化节点定义有限个视角，获得每个网格化节点可达到的所有视角，构成一个视角集合；

对于视角集合中的每一个视角，获得智能体可捕捉的相应环境场景图像，结合对应深度图像，进而得到该视角对应的3D语义点云数据，利用3D语义点云数据构建环境场景图谱，得到该视角的环境场景图谱，遍历视角集合，得到环境所有视角对应环境场景图谱构成的环境场景图谱数据集。

3.根据权利要求1所述的基于视觉信息主动构建环境场景图谱的方法，所述采集训练模型所需智能体探索环境路径包括：

找到路径点并构成路径点有序集合；

利用插值，将路径点有序集合的点构成实际智能体通过动作空间中的动作能执行的路径点有序集合，构成探索环境路径。

4.根据权利要求3所述的基于视觉信息主动构建环境场景图谱的方法，所述找到路径点并构成路径点有序集合包括：

对于视角集合中的每一个视角，从环境场景图谱数据集中取相应的场景图谱；对于视角集合中的每一个视角所获得的环境场景图像，进行目标检测，以对应场景图谱中出现的目标物为准，删除掉检测错误的目标物，得到检测到的目标集合；从视角集合中任意选取视角作为起点，加入路径点有序集合，遍历其周围视角，选取周围视角中与起点视角相此，目标物数量增加最多的视角，将其继续加入路径点有序集合；再以新加入的视角为起点，重复上述过程，直到达到一个预先设定的最大距离，从而得到一个路径点有序集合。

5.根据权利要求4所述的基于视觉信息主动构建环境场景图谱的方法，所述主动探索模型M_expl由卷积神经网络CNN、长短时记忆模型LSTM₁、长短时记忆模型LSTM₂和全连接层构成，其中卷积神经网络CNN用于提取环境场景图像特征CNN(I)，长短时记忆模型LSTM₁用于提取场景图谱特征LSTM₁(G)，LSTM₂用于生成动作，其中将环境场景图像特征CNN(I)，场景图谱特征LSTM₁(G)和表征动作的特征a顺次连接，作为长短时记忆模型LSTM₂每个时间步的输入层，长短时记忆模型LSTM₂每个时间步的输出层与全连接层连接。

6.根据权利要求5所述的基于视觉信息主动构建环境场景图谱的方法，

设CNN初始参数为θ₁，LSTM₁初始参数为θ₂，LSTM₂初始参数为θ₃，全连接层初始参数为W₃，LSTM₂隐藏层初始状态为h₀，单元状态为c₀，主动探索模型的迭代过程如下：

h_t+1，c_t+1＝LSTM₂(h_t，c_t，[CNN(I_t+1)；LSTM₁(G_t+1)；a_t])

a_t+1＝A(W₃h_t+1)

7.根据权利要求6所述的基于视觉信息主动构建环境场景图谱的方法，采用环境场景图像及对应的环境场景图谱数据集和采集的智能体探索环境路径训练主动探索模型包括：

(1)设训练批次大小为b；

p＝a_start，I₀，G₀，a₁，I₁，G₁，a₂，I₂，G₂...，a_stop

其中，a_start和a_stop分别为开始动作和停止动作，I₀表示初始状态的环境场景图像，G₀表示初始状态的环境场景图谱；

(3)计算损失函数：

其中，π_θ为以所述可训练参数集合θ为参数的学习策略，T_i为第i条探索环境路径的长度，I_i，t是第i条探索环境路径t步时的环境场景图像，G_i，t是第i条探索环境路径t步时的环境场景图谱，a_i，t是第i条探索环境路径t步时的动作；

8.一种智能体探索环境的方法，包括：

步骤1：采集视觉信息，这里包括环境场景图像、深度图像和得到的3D语义点云数据；

步骤2：将拍摄的当前步的环境场景图像，当前步的局部场景图谱和前一步的动作输入预先训练得到的主动探索模型，生成当前步的动作建议并将该动作建议提示给智能体；

步骤3：如果该动作为终止动作类型，探索环境结束，并得到该环境的场景图谱；否则，智能体执行所建议的当前步的动作，返回到步骤1。

9.一种智能设备，包括：

图像采集部件；

中央处理单元；

显卡；

存储器，其上存储有计算机可执行指令，所述指令被中央处理单元或显卡执行时，可操作来执行权利要求1到8中任一项所述的方法。

10.一种采用智能设备探索环境的方法，包括：

利用权利要求1到7任一项的基于视觉信息主动构建场景图谱的方法来构建环境场景图谱；

采集视觉图像，将拍摄的当前步的环境场景图像，当前步的局部场景图谱和前一步的动作输入预先训练得到的主动探索模型，生成当前步的动作建议并将该动作建议提示给智能体

如果该动作为终止动作类型，探索环境结束，并得到该环境的场景图谱；否则，智能体执行所建议的当前步的动作，返回到视觉采集步骤继续迭代。