CN107688856A

CN107688856A - 基于深度强化学习的室内机器人场景主动识别方法

Info

Publication number: CN107688856A
Application number: CN201710605336.4A
Authority: CN
Inventors: 刘华平; 柳杨; 王博文; 孙富春
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-07-24
Filing date: 2017-07-24
Publication date: 2018-02-13
Anticipated expiration: 2037-07-24
Also published as: CN107688856B

Abstract

本发明提供了一种基于深度强化学习的室内机器人场景主动识别方法，属于机器学习领域和机器人技术领域。该方法包括：训练一个能够识别声呐信息二值化轮廓图环投影向量的分类神经网络N_L；进入强化学习训练阶段：对机器人在场景中进行多次场景识别试验，在试验过程中训练强化学习神经网络N_Q使其拟合为一个函数逼近器；强化学习神经网络N_Q训练完成后，进入执行阶段：根据声呐传感器采集的场景轮廓信息，对机器人室内场景主动识别功能进行测试。该发明的方法，基于极限学习机算法，提高了计算效率；基于强化学习算法，提高了场景识别的准确率。能够适应不同的场景识别任务，无需人为参与，是一个机器人主动学习，自主提高场景识别正确率的方法。

Description

基于深度强化学习的室内机器人场景主动识别方法

技术领域

本发明涉及一种基于深度强化学习的室内机器人场景主动识别方法，属于机器学习领域和机器人技术领域。

背景技术

近年来，机器人已经越来越多的应用于生产生活中，如排险、军事探测、医疗护理等；而机器人的定位与导航在实现上述功能中发挥着关键的作用，快速而又准确地识别机器人所处环境是机器人准确定位的前提。现阶段的场景识别应用中，机器人通过传感器所采集的样本数据集训练分类神经网络，仅能实现被动地识别当前场景；由于机器人方位的局限性和低成本传感器的数据局限性造成场景识别准确率低下。

在一份现有技术文献中(发明专利申请题为“一种基于单隐层神经网络的场景识别方法”，申请公开号为105678278A)公开的技术方案为：在训练阶段通过对预先采集的样本图像集进行预处理，提取样本图集提取局部梯度统计特征，将特征同其对应标签一同输入到单隐层分类神经网络进行监督式学习；在识别阶段对待识别的图像进行预处理并提取特征输入到训练好的场景分类神经网络中进行识别，得到识别结果。该方法的缺点是，采用场景图片作为训练样本数据，所用传感器较为昂贵，且所需样本体积庞大复杂，造成运算缓慢；只能依靠采集样本数据的丰富程度来提高识别准确率，工作量庞大。

在另一份现有技术文献中(发明专利申请题为“场景识别方法及装置”，专利申请公开号为103973988A)公开的技术方案为：通过由摄像头、传感器、存储器、处理器所构成的终端获取场景图片信息并判断图像是否非HDR场景，再利用图像特征判断图像场景；摄像头用于获取图像，传感器用于获取摄像头所对应的传感数据，处理器用于调用存储器中的程序代码判断图像是否非HDR场景并决定是否提取图像特征。该装置的缺点是，装置较为昂贵，结构较为复杂，摄像头所采集的图像信息信息量巨大，造成运算速度缓慢。

强化学习在机器人实现“智能化”的过程中扮演者越来越重要的角色。目前，强化学习已经渗透到机器人应用的各个领域，并取得了广泛的成功，比如利用强化学习实现机器人对物品的抓取、移动机器人室内路径规划等。

发明内容

本发明的目的是为了减少机器人成本以及提高运行速度，提出了一种基于深度强化学习的室内机器人主动识别方法，本方法通过强化学习算法，提高了室内场景识别的准确率。本发明采用的机器人可以通过“左转”“右转”两种方式调节朝向角，获取不同角度的轮廓信息，利用强化学习神经网络作为强化学习值函数的逼近器，将室内场景轮廓信息输入强化学习神经网络，从而确定当前机器人做出何种动作来正确识别当前场景。本发明采用基于局部感受野的单隐层神经网络作为分类神经网络，配合强化学习的训练动态地学习识别场景最合适的机器人朝向角，基于算法的动态特性本方法仅采用少量廉价的声呐传感器，既提高了效率又降低了机器人成本，识别准确率也获得了较大提升。

本发明提出的一种基于深度强化学习的室内机器人场景主动识别方法，其特征在于，该方法包括：强化学习神经网络N_Q训练阶段和室内场景主动识别执行阶段：训练一个能够识别声呐信息二值化轮廓图环投影向量的分类神经网络N_L；进入强化学习训练阶段：对机器人在场景中进行多次场景识别试验，在试验过程中训练强化学习神经网络N_Q使其拟合为一个函数逼近器；强化学习神经网络N_Q训练完成后，进入执行阶段：根据声呐传感器采集的场景轮廓信息，对机器人室内场景主动识别功能进行测试。

本发明的技术特点：

本发明能够在分类神经网络已经训练完成且准确率无法再有明显提高的情况下，进一步提高识别准确率。本方法通过强化学习算法，利用机器人前端声呐传感器返回的距离信息实时观察当前所处环境，将环境信息输入到分类神经网络中判定当前环境对于准确识别场景的有利程度，进而通过强化学习神经网络获得对于识别正确率提高较为有利的动作“左转15°”“右转15°”来调整机器人朝向。可以通过学习的方式使得当前采集的特征更佳适用于当前任务。

本方法具有以下有益效果：

1、本发明中通过多次动作提高场景识别准确率，降低了传感器要求，有益于在工业生产与实践中降低成本。

2、本发明中强化学习神经网络根据当前声呐信息，选择合适的动作完成场景识别，识别过程主动完成，不需要人为参与。

3、本发明使用的单隐层网络采用随机生成输入权重和偏置的情况下利用直接利用标签求得输出权重的闭式解，在保证正确率的情况下提高运算效率，非常适合与强化学习相结合做动态实时训练。

附图说明

图1为本发明训练阶段流程图。

图2为本发明机器人装置的前端的俯视图，展示了声呐传感器的分布情况。

图3为本发明执行阶段流程图。

具体实施方式

本发明提出的一种基于深度强化学习的室内机器人主动识别方法结合附图详细说明如下：

本发明提出的一种基于深度强化学习的室内移动机器人主动识别的方法及实施例，该方法采用的机器人为移动机器人，适用于室内场景识别，该方法包括强化学习神经网络N_Q训练阶段和室内场景主动识别执行阶段；

该强化学习神经网络N_Q训练阶段流程如图1所示，包括以下步骤：

(1)采集声呐测距信息并处理成二值化轮廓图，构建分类神经网络训练样本集，具体实施步骤如下：

(1-1)构建不同的类型的室内场景，本实施例是采用的是普通家居场景，共构建5户不同家庭的室内场景，每个家庭构建M类(3≤M≤6)室内场景，本实施例每户构建4类室内场景包括：—卧室、厨房、客厅、卫生间；

(1-2)每类场景内设定多个(3—5个)数据采集点，本实施例对卧室、厨房、客厅、卫生间分别设定4、3、5、3个数据采集点；每个场景内采集点数目可以根据面积大小设置不同数目的采集点；

(1-3)采用移动机器人(型号没有特殊要求，本实施例采用移动机器人Pioneer3-AT)搭载前端的多个声呐传感器阵列采集数据，本实施例为8个声呐传感器阵列，其分布如图2所示，即8个声呐传感器阵列对称均匀分布在机器人前端两侧，与垂直方向夹角分别分(10°、-10°)，(30°、-30°)，(50°、-50°)，(90°、-90°)；

采集数据具体步骤如下：

(1-3-1)设定每个采集点采集次数为K_c(200≤K_c≤500)，本实施例取K_c＝300；

(1-3-2)采集方式为机器人定点转向采集，机器人到达采集点后，8个声呐传感器采集一组该采集点的声呐测距信息(每组数据采集一次)；每一组声呐数据包括8个声呐测距信息与其对应的一个分类标签，分类标签为Y，Y＝1,2,3,4，其中1代表卧室，2代表厨房，3代表客厅，4代表卫生间；每采集一组声呐测距信息后机器人向右转动一个角度(本实施例为转动1°)，再采集下一组数据；

(1-3-3)若该采集点采集次数已达到K_c次，则机器人行进到下一采集点，重复步骤(1-3-1)～(1-3-2)，采集下一个采集点的声呐测距信息；直至所有的采集点信息采集完毕，得到所有采集点的声呐测距信息和对应的分类标签；

(1-4)将步骤(1-3)采集得到的声呐测距信息和对应的分类标签建立样本集D，本实施例中样本集D中共有22500组声呐测距信息；

(1-5)将样本集D中每组声呐测距信息转换为二值化轮廓图，具体步骤如下：

(1-5-1)将样本集D中每组包含的8个声呐测距信息[d₁,…,d₈]按声呐传感器在机器人上的角度分布在极坐标系中作图，极坐标系的原点为移动机器人所在位置，依据各传感器角度和所测距离信息绘制各点，连接各点成为封闭轮廓图，设封闭区域为R_picture；

(1-5-2)填充轮廓图并进行二值化处理，得到初步二值图像：

式中(x,y)为图中的像素坐标，每个坐标有0、1两种取值，取值0为黑色，取值1为白色，该步骤将轮廓内部颜色设为黑色，轮廓外部颜色设为白色；

(1-5-3)重新调整初步二值图像的图像像素大小为43×43，；

(1-6)将所有调整后的二值图像信息存入一个新建的样本集，该样本集作为分类神经网络训练样本集；

(2)训练分类神经网络N_L，具体步骤如下：

(2-1)构建分类神经网络中的图像特征提取网络，该网络包括卷积层、降采样层，设定图像特征提取网络各层参数，具体实施步骤如下：

(2-1-1)构建图像特征提取网络的卷积层，具体步骤如下：

(2-1-1-1)设定卷积核数量为30，大小为5；

(2-1-1-2)为30个卷积核随机生成大小为5×5的卷积矩阵；

(2-1-1-3)对卷积矩阵进行奇异值分解(SVD)正交化；

(2-1-2)构建图像特征提取网络的降采样层，创建30个空矩阵，设定降采样尺寸为3；

(2-2)利用步骤(2-1)构建的图像特征提取网络提取训练样本图像特征矩阵，具体步骤如下：

(2-2-1)设定样本集批处理数据的数量；设定的数量以防止一次性处理全部数据造成计算机硬件负荷过大为原则，一般取值为可以整除总样本数量的数，本实施例为一次批处理的数据为500个；

(2-2-2)从步骤(1)中得到的样本集中按次序依次取一次批处理数量的样本进行特征提取，具体步骤如下：

(2-2-2-1)30个卷积核对每个样本的二值图像进行卷积，得到30个大小为39×39的特征图；

(2-2-2-2)对步骤(2-2-2-1)得到的30个特征图分别进行降采样处理，降采样后每个特征图得到一个大小为13×13的降采样图；

(2-2-2-3)将大小为13×13的降采样图调整为1×169的向量，并将30个向量依次拼接，得到1×5070的全连接向量；

(2-2-2-4)该批次全部样本处理完成后，得到大小为500×5070的图像特征矩阵；

(2-2-3)重复步骤(2-2-2)直到样本集数据特征全部提取完毕，提取完的样本特征图像矩阵大小为22500×5070

(2-3)利用步骤(2-2)得到的样本图像特征矩阵与样本集标签求输出权重β的闭式解:

式中H为步骤(2-2)中提取的图像特征矩阵，N为该矩阵的行大小，W为该矩阵的列大小；T为样本集标签矩阵；C为常数，本实施例取C＝0.01，分类神经网络N_L训练完毕；

(3)训练强化学习神经网络N_Q，具体步骤如下：

(3-1)搭建强化学习神经网络N_Q，共三层，包含输入层、隐藏层、输出层，具体步骤如下：

(3-1-1)随机生成输入权重矩阵IW，大小为10×50，随机生成偏置矩阵B，大小为10×1：

其中

(3-1-2)设定隐藏层神经元个数为10，设定神经元激活函数为g(x)；

(3-2)设定各类室内场景训练点数目，本实施例中5个家庭4类室内场景总共设定60个训练点，每个房间内设定3个随机位置作为训练点(随机位置数量一般依据房间面积大小而定)，并设定每个训练点最大训练次数e(本实施例取e＝150)，构建由强化学习样本集M，本实施例M容量为6000；

(3-3)从第一训练点开始对强化学习网络N_Q训练，声呐传感器采集一次测距信息，记为s_i，依据步骤(1-5)作二值化轮廓图，将二值化轮廓图进行环投影转化为测距信息s_i对应的环投影向量输入到强化学习神经网络N_Q，获得机器人左右两种转动动作(例如“向左转15°”、“向右转15°”)对应的动作价值(Q₁,Q₂)(动作价值表示在当前状态下执行该动作对于获取更佳状态的有利程度，该动作对应的动作价值越高，说明执行该动作对于实现目的更为有利)；

(3-4)采用ε-greedy方式(又名ε-贪心算法，在强化学习进行动作选择时以一定的概率(ε)不采取最高的动作价值对应的动作执行而是随机执行动作并探索该动作的动作价值，以避免强化学习陷入局部最优解)进行动作选择：以概率ε随机选择机器人两种转动动作并执行，概率随机选择动作进行以概率1-ε概率选择(Q₁,Q₂)中的较大值所对应的动作a_i并执行，其中ε值随着训练的进行线性减小，n为总训练次数，i为当前训练次数，本实施例开始时ε_initial＝0.5，结束时ε_final＝0.01；

(3-5)执行完动作a_i，采集动作a_i后声呐传感器测距信息阵列，记为s_i+1，依据步骤(1-5)作二值化轮廓图，输入到分类神经网络N_L中，获得二值化轮廓图的识别结果向量T_i+1(t₁,t₂,t₃,t₄)；

(3-6)将T_i+1(t₁,t₂,t₃,t₄)输入softmax函数(softmax函数能够将输入向量转化为概率形式)转换为概率向量形式

(3-7)定义回报函数其中r₁、r₂为即时回报(r₁、·r₂由人为定义的当前状态下执行该动作所获得的回报值)，Y_i为机器人当前所处房间分类标签，room为T_i中最大的t值所对应的下标，K为反比例系数，H(T_i)为信息熵函数熵值越小代表结果越可靠，本实施例设定r₁＝1，r₂＝-1，K＝2；

(3-8)将T_i+1输入回报函数获得当前回报r(T_i+1)，更新该状态下执行该动作的动作价值Q(s_i,a_i)＝(1-α)Q(s_i,a_i)+α[r+γmaxQ(s_i+1,a)，其中Q(s_i,a_i)表示声呐测距信息为s_i的情况下执行动作a_i的动作价值，α∈(0,1)为学习速率(一般取0.1)，表示新价值覆盖旧价值的程度。γ∈(0,1)为折损因子(一般取0.1)，代表下一步回报的重要程度；

(3-9)用Q(s_i,a_i)替换(Q₁,Q₂)中相应的动作对应的价值，并与一并存入强化学习样本集M中，若M已达到最大样本容量6000则替换最早的样本数据；

(3-10)样本M每获得5个新数据便更新一次N_Q网络输出权重β，具体步骤如下：

(3-10-1)输入权重矩阵IW、偏置矩阵B与强化学习样本集M中的环投影矩阵线性组合，形成矩阵：

(3-10-2)将步骤(3-10-1)得到的矩阵映射到隐藏层神经元激活函数g(x)中，形成映射矩阵H：

(3-10-3)求映射矩阵的广义逆矩阵H^-1，与样本集标签矩阵T相乘求得输出权重矩阵β_Q闭式解：

β_Q＝H^-1T

其中标签矩阵

(3-11)重复步骤(3-3)到步骤(3-10)直到达到最后一个训练点的最大训练次数，完成强化学习神经网络N_Q训练，保存网络N_Q网络参数；

该室内场景主动识别执行阶段流程如图2所示，室内场景主动识别执行阶段是将训练好的分类神经网络N_L与强化学习神经网络N_Q应用到场景中得到场景识别结果，具体步骤如下：

(4)机器人置于场景内随机一点，设置执行阶段场景识别结果的融合次数z＝3(融合多次识别结果以提高识别准确率)；

(5)先后采集z次(本实施例取z＝3)声呐测距信息，每次采集结束后依据步骤(1-5)作二值化轮廓图，输入到分类神经网络N_L中对二值化轮廓图进行分类，并将二值化轮廓图环投影转化为环投影向量输入到强化学习神经网络N_Q中，选择最大动作价值对应的动作并执行，采集完成后对Z次识别结果进行融合，具体步骤如下：

(5-1)采集声呐传感器测距信息作二值化轮廓图,作为分类神经网络N_L的输入，得到分类结果向量

(5-2)将二值化轮廓图转为环投影向量输入至强化学习神经网络N_Q中得到动作价值执行其中的最大值对应的动作

(5-3)重复步骤(5-1)到(5-2)，直到i＝z；

(5-4)融合z次的分类结果，具体步骤如下：

(5-4-1)将z次的分类结果向量按步骤(3-6)输入到softmax函数中转化为概率向量形式：

(5-4-2)因z＝3，故

(5-5)T中最大的t值所对应下标即为对该次数据房间类别的识别结果。

Claims

1.一种基于深度强化学习的室内机器人场景主动识别方法，其特征在于，该方法包括：强化学习神经网络N_Q训练阶段和室内场景主动识别执行阶段：训练一个能够识别声呐信息二值化轮廓图环投影向量的分类神经网络N_L；进入强化学习训练阶段：对机器人在场景中进行多次场景识别试验，在试验过程中训练强化学习神经网络N_Q，使其拟合为一个函数逼近器；强化学习神经网络N_Q训练完成后，进入执行阶段：根据声呐传感器采集的场景轮廓信息，对机器人室内场景主动识别功能进行测试。

2.如权利要求1所述方法，其特征在于，该强化学习神经网络N_Q训练阶段，包括以下步骤：

(1-1)构建不同的类型的室内场景，本实施例是采用的是普通家居场景，共构建5户不同家庭的室内场景，每个家庭构建M类，3≤M≤6，室内场景；

(1-2)每类场景内设定3—5个数据采集点；

(1-3)采用移动机器人搭载前端的多个声呐传感器阵列采集数据：

(1-4)将步骤(1-3)采集得到的声呐测距信息和对应的分类标签建立样本集D；

(1-5)将样本集D中每组声呐测距信息转换为二值化轮廓图；

(2)训练分类神经网络N_L，具体步骤如下：

(2-1)构建分类神经网络中的图像特征提取网络，该网络包括卷积层、降采样层，设定图像特征提取网络各层参数；

(2-2)利用步骤(2-1)构建的图像特征提取网络提取训练样本图像特征矩阵；

式中H为步骤(2-2)中提取的图像特征矩阵，N为该矩阵的行大小，W为该矩阵的列大小；T为样本集标签矩阵；C为常数；

(3)训练强化学习神经网络N_Q，具体步骤如下：

(3-1)搭建强化学习神经网络N_Q，共三层，包含输入层、隐藏层、输出层；设定神经元激活函数为g(x)；

(3-2)设定各类室内场景训练点数目，并设定每个训练点最大训练次数e，构建由强化学习样本集M；

(3-3)从第一训练点开始对强化学习网络N_Q训练，声呐传感器采集一次测距信息，记为s_i，依据步骤(1-5)作二值化轮廓图，将二值化轮廓图进行环投影转化为测距信息s_i对应的环投影向量输入到强化学习神经网络N_Q，获得机器人左右两种转动动作对应的动作价值(Q₁,Q₂)；

(3-4)采用ε-greedy方式进行动作选择：以概率ε随机选择机器人两种转动动作并执行，概率随机选择动作进行以概率1-ε概率选择(Q₁,Q₂)中的较大值所对应的动作a_i并执行，其中ε值随着训练的进行线性减小，n为总训练次数，i为当前训练次数；

(3-6)将T_i+1(t₁,t₂,t₃,t₄)输入softmax函数转换为概率向量形式

(3-7)定义回报函数其中r₁、r₂为即时回报，Y_i为机器人当前所处房间分类标签，room为T_i中最大的t值所对应的下标，K为反比例系数，H(T_i)为信息熵函数设定r₁＝1，r₂＝-1，K＝2；

(3-8)将T_i+1输入回报函数获得当前回报r(T_i+1)，更新该状态下执行该动作的动作价值Q(s_i,a_i)＝(1-α)Q(s_i,a_i)+α[r+γmaxQ(s_i+1,a)]，其中Q(s_i,a_i)表示声呐测距信息为s_i的情况下执行动作a_i的动作价值，α∈(0,1)为学习速率，表示新价值覆盖旧价值的程度。γ∈(0,1)为折损因子，代表下一步回报的重要程度；

(3-9)用Q(s_i,a_i)替换(Q₁,Q₂)中相应的动作对应的价值，并与一并存入强化学习样本集M中，若M已达到最大样本容量则替换最早的样本数据；

(3-10)样本M每获得设定数量的新数据便更新一次N_Q网络输出权重β；

该室内场景主动识别执行阶段，具体步骤如下：

(4)机器人置于场景内随机一点，设置执行阶段场景识别结果的融合次数z；

(5)先后采集z次声呐测距信息，每次采集结束后依据步骤(1-5)作二值化轮廓图，输入到分类神经网络N_L中对二值化轮廓图进行分类，并将二值化轮廓图环投影转化为环投影向量输入到强化学习神经网络N_Q中，选择最大动作价值对应的动作并执行，采集完成后对Z次识别结果进行融合，得到最终的识别结果。

3.如权利要求2所述方法，其特征在于，所述步骤(1-3)采用移动机器人搭载前端的多个声呐传感器阵列采集数据，具体步骤如下：

(1-3-1)设定每个采集点采集次数为K_c，200≤K_c≤500；

(1-3-2)采集方式为机器人定点转向采集，机器人到达采集点后，多个声呐传感器采集一组该采集点的声呐测距信息，每组数据采集一次；每一组声呐数据包括多个声呐测距信息与其对应的一个分类标签，分类标签为Y；每采集一组声呐测距信息后机器人向右转动一个角度，再采集下一组数据；

(1-3-3)若该采集点采集次数已达到K_c次，则机器人行进到下一采集点，重复步骤(1-3-1)～(1-3-2)，采集下一个采集点的声呐测距信息；直至所有的采集点信息采集完毕，得到所有采集点的声呐测距信息和对应的分类标签。

4.如权利要求2所述方法，其特征在于，所述步骤(1-5)将样本集D中每组声呐测距信息转换为二值化轮廓图，具体步骤如下：

(1-5-2)填充轮廓图并进行二值化处理，得到初步二值图像：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>&Element;</mo> <msub> <mi>R</mi> <mrow> <mi>p</mi> <mi>i</mi> <mi>c</mi> <mi>t</mi> <mi>u</mi> <mi>r</mi> <mi>e</mi> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

(1-5-3)重新调整初步二值图像的图像像素大小为43×43。

5.如权利要求2所述方法，其特征在于，所述步骤(2-2)利用步骤(2-1)构建的图像特征提取网络提取训练样本图像特征矩阵，具体步骤如下：

(2-2-1)设定样本集批处理数据的数量；取值为可以整除总样本数量的数；

(2-2-2-1)所有卷积核对每个样本的二值图像进行卷积，卷积核为30个，得到30个大小为39×39的特征图；

(2-2-3)重复步骤(2-2-2)直到样本集数据特征全部提取完毕，提取完的样本特征图像矩阵大小为22500×5070。

6.如权利要求2所述方法，其特征在于，所述步骤(3-10)样本M每获得设定数量的新数据便更新一次N_Q网络输出权重β，具体步骤如下：

β_Q＝H^-1T

其中标签矩阵

7.如权利要求2所述方法，其特征在于，所述步骤(5)具体步骤如下：

(5-3)重复步骤(5-1)到(5-2)，直到i＝z；

(5-4)融合z次的分类结果，具体步骤如下：

(5-4-2)因z＝3，故