CN109189078A

CN109189078A - 基于深度增强学习的家用安全防护机器人及方法

Info

Publication number: CN109189078A
Application number: CN201811288249.1A
Authority: CN
Inventors: 任晓惠; 王翔宇; 范诺; 范一诺; 孙天骄; 郑茂森; 陆佃杰; 张桂娟
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-01-11

Abstract

本公开提供了一种基于深度增强学习的家用安全防护机器人及方法。其中，基于深度增强学习的家用安全防护机器人包括：机体，所述机体上安装有摄像头；所述摄像头用于采集目标人物的行为状态信息，并传送至处理器；所述处理器还与传感器模块相连，所述传感器模块用于感知目标人物的位置及目标人物所处环境的障碍物位置；所述处理器，被配置为：接收目标人物的行为状态信息、目标人物的位置及所处环境的障碍物位置；锁定目标人物并避障追踪其运动轨迹；其中，利用高低双层BP神经网络输出避障策略，低层输出为机器人运动，高层输出为地形障碍物状态。

Description

基于深度增强学习的家用安全防护机器人及方法

技术领域

本公开属于防护机器人领域，尤其涉及一种基于深度增强学习的家用安全防护机器人及方法。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

近年来，我国老年空巢家庭数量不断呈上升趋势。老人或者孩童独自在家时，极有可能出现意外事故，安全问题也存在隐患，极易成为犯罪分子实施犯罪的对象。安装家庭监控成为当下一个较好的选择。家庭监控装置不断走进人们家中，被更多人所接受，但是隐私与成本问题也非常需要解决。

发明人发现传统家庭监控布设于家中各个房间，价格昂贵成本较高，电能损耗大，还存在很大的家庭隐私大规模泄露的风险。

综上所述，发明人发现亟需提供一种性价比高、能保障隐私安全且能够锁定目标人物并避障追踪其运动轨迹的家用防护机器人。

发明内容

根据本公开的一个或多个实施例的一个方面，提供一种基于深度增强学习的家用安全防护机器人，其利用双层神经网络，提高避障学习的效率，更加精准。

本公开的一个或多个实施例提供的一种基于深度增强学习的家用安全防护机器人，包括：

机体，所述机体上安装有摄像头；所述摄像头用于采集目标人物的行为状态信息，并传送至处理器；所述处理器还与传感器模块相连，所述传感器模块用于感知目标人物的位置及目标人物所处环境的障碍物位置；

所述处理器，被配置为：

接收目标人物的行为状态信息、目标人物的位置及所处环境的障碍物位置；

锁定目标人物并避障追踪其运动轨迹；

其中，利用高低双层BP神经网络输出避障策略，低层输出为机器人运动，高层输出为地形障碍物状态。

在一个或多个实施例中，所述处理器，还被配置为：

判断目标人物与机器人本身之间的距离是否在预设范围内，若是，则控制机器人保持不动；否则，控制机器人上前跟随。

在一个或多个实施例中，在所述处理器中，锁定目标人物的具体过程为：

从目标人物的行为状态信息中提取目标人物动作特征；

将目标人物动作特征输入已训练的预测网络来预测目标人物的下一动作；

预测的动作信息输入至高低双层BP神经网络中；

筛选最优动作来跟踪目标人物，对目标人物实现锁定追踪。

在一个或多个实施例中，所述机体上仅安装一个可垂直180度和水平360度旋转的摄像头。

在一个或多个实施例中，所述处理器还与通信传输模块相连。

在一个或多个实施例中，机器人还设置有存储模块，存储模块内存储有紧急联系人库。

在一个或多个实施例中，所述传感器模块包括：水平方向安装的四个红外传感器，每相邻两个红外传感器间夹角为90度，任选两个相邻红外传感器结合实现对任意位置的使用者位置的定位，剩余两个红外传感器用于感知除使用者之外的障碍物，为避障以及路径规划服务。

在一个或多个实施例中，所述处理器，还被配置为：

接收目标人物动作视频信息；

识别出目标人物的动作，若某一动作保持时间超过预设时间，则判断当前动作属于危险动作，并发出报警信息至远程移动终端；危险动作包括晕倒、摔倒和久坐不起。

本公开的一个或多个实施例的一个方面，提供了基于深度增强学习的家用安全防护机器人的工作方法，其利用双层神经网络，提高避障学习的效率，更加精准。

本公开的一个或多个实施例的一种基于深度增强学习的家用安全防护机器人的工作方法，包括：

摄像头采集目标人物的行为状态信息，传送至处理器；

传感器模块感知目标人物的位置及目标人物所处环境的障碍物位置，传送至处理器；

处理器接收目标人物的行为状态信息、目标人物的位置及所处环境的障碍物位置；锁定目标人物并避障追踪其运动轨迹；其中，利用高低双层BP神经网络输出避障策略，低层输出为机器人运动，高层输出为地形障碍物状态。

在一个或多个实施例中，基于深度增强学习的家用安全防护机器人的工作方法，还包括：判断目标人物与机器人本身之间的距离是否在预设范围内，若是，则机器人保持不动；否则，机器人上前跟随。

在一个或多个实施例中，基于深度增强学习的家用安全防护机器人的工作方法，还包括：

从目标人物的行为状态信息中提取目标人物动作特征；

预测的动作信息输入至高低双层BP神经网络中；

筛选最优动作来跟踪目标人物，对目标人物实现锁定追踪。

接收目标人物动作视频信息；

与现有技术相比，本发明的有益效果是：

(1)深度增强学习学会避障，可以应对不同环境情况：利用深度增强学习来实现避障功能，机器人通过深度增强学习，利用双层神经网络，提高避障学习的效率，更加精准。通过输入地形距离等特征进行训练，不断地迭代学习得到最大化的奖励，让机器人掌握家中地形，学会避障跟随。与传统的传感器避障相比，基于深度增强学习的避障是更高效的，当机器人遍历了室内地形后通过不断地学习生成了最优策略，再次面对不同障碍物的环境时，通过对最优策略的选择进行避障。

(2)避免大规模隐私泄露：机器人的监控范围跟随人的位置变化而实时变化，监控范围有限，可以避免传统家庭监控造成的整个家中隐私大规模泄露的情况，增加安全系数。

(3)一对一看护追踪：次只追踪看护一位使用者的安全，通过初始化后对使用者的特征提取进行目标锁定，实现对使用者的一对一看护，方便有效，保护使用者的个人安全与家庭财产安全。

(4)节约成本：机器人的设计只使用一个摄像头，节约了摄像头，与现有家庭监控相比可以节约购买和使用成本。

(5)降低能耗：机器人通过充电进行工作，一次充电可工作较长时间，与传统的24小时工作通电的家用监控相比可以降低能耗，节约电能。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是避障追踪运动轨迹流程图。

图2是锁定目标人物流程图。

图3是分层的BP神经网络模型。

图4是机器人活动距离范围图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，所述处理器，被配置为：

锁定目标人物并避障追踪其运动轨迹；

在一个或多个实施例中，在所述处理器中，如图2所示，锁定目标人物的具体过程为：

从目标人物的行为状态信息中提取目标人物动作特征；

预测的动作信息输入至高低双层BP神经网络中；

筛选最优动作来跟踪目标人物，对目标人物实现锁定追踪。

在具体实施中，预测网络的设计是产生一个能在新一帧能找到目标位置和尺寸的动作。即预测网络预测当前位置跟踪目标的动作。

对于路径规划与避障，利用深度增强学习与神经网络相结合，生成训练策略，此处利用高低双层网络进行，低层为机器人运动，高层为地形障碍物状态。

障碍物多数为静态的，可能存在多条路径到达使用者的路径，所以避障策略系统还要起到一个特定路径规划与引导前进的作用。

对于深度增强学习有四个重要的符号定义分别为State s表示目标所处环境的状态，Action a表示目标的动作，Reward r每到一个状态s都会收到一个reward反馈，PolicyP表示选择动作的策略，通过学习得到一个最优策略使得目标获得最大累计反馈。

在本公开实施例中，即要定位目标人物位置，又要实现避障追踪，二者同时进行会增加很多复杂性，所以分层控制是一种较优的方法。对于目标人物的位置，主要是定位，所以给它定义为低层状态；而机器人避障范围广，时间长，所以为其定义为高层状态。

对于避障策略的学习，首先进行变量的定义：

(1)状态S_H分为低层状态：机器人与目标人物的相对位置θ，高层状态：机器人距使用者的距离D、地形状态T(障碍物位置)以及目标锁定的结果E三部分；S_H＝(θ,D,T,E)；

(2)动作a_H设为向东、西、南、北、东北、西北、东南、西南八个方位的运动；

(3)训练a_H(g_L)，其中g_L＝θ_root，运动过程中不断识别目标方向，进行训练；

(4)奖励reward设置三种情况分别为：

其中，α表示区间[0,1]内的一个常数，α与1-α用于归一化；R_distance：机器人距离目标的距离的范围，如范围在2m到2.5m之间；R_θ：机器人训练过程中所获得reward的一部分，利用与目标的相对位置进行计算；

机器人运动未出现问题但不是最优，根据机器人位置而定的奖励，2m<R_distance<2.5m，其中R_θ＝0.6cos(θ_object-θ_root)+0.4。 (2)

其中，θ_object：目标的位置，是一个相对角度；θ_root：当前状态下机器人所在位置，是一个相对角度。

(5)在策略训练(policy gradient)中学会一个策略，达到最大的期望回馈，用π_θ(s)表示策略，用θ表示策略网络的权重，通过学习不断更新，将目标函数表示J(θ)＝E_π(θ)[r] (3)

θ的导数为：

其中，r是一个实数值，代表奖励(reward)；Q^πθ(S,a)的含义为在状态s下采用动作a，后续遵循策略π_θ(s)获得的期望累计回报；S代表一个状态，a代表一个动作。

不停的更新θ训练出能得到最大期望回馈的策略网络：

其中，θ表示策略网络的权重；α表示区间[0,1]内的一个常数；π_θ表示策略；s_r表示状态；a_r表示动作；v_r是Q^πθ(S,a)的无偏估计；

通过不断地训练与迭代，得到最大化的奖励，从而训练

生成决策系统，输出避障策略。

本方法利用的是有模型的训练方式，只需八个动作，数据量少而简单，大大提高了训练的效率与速度。

神经网络的输入为地形T状态s，输出为动作a_H，输出的动作a_H指定运动计划g_L，其中g_L＝θ_root。高层由深度卷积神经网络建模，状态T由三个卷积层连续处理，s通过两个完全连接的层进行处理，每层分别为512和1024个单元，线性输出层计算最终平均动作，如图3所示。

本公开的一个或多个实施例利用BP神经网络进行数据的处理，BP神经网络包括输入层、一个或两个隐藏层、输出层，每一个单元都是一个简单的计算模型，通过不断的公式迭代得到一个数学系统。

利用BP算法训练神经网络，下面是训练流程：

BP算法的核心是链式求导法则，z是y的函数且可导，y是x的函数且可导，则：

公式推导为：

即隐层阈值梯度取决于隐层神经元输出、输出层阈值梯度和隐层与输出层的连接权值。

其中，r_h隐层第h个神经元的阈值；E_k表示均方差；b_h表示隐层第h个神经元的输出；θ_j表示输出层第j个神经元的阈值；w_hj表示隐层第h个神经元和输出层第j个神经元的连接权值。

同理:

其中，y_j表示神经网络的输出；表示隐层与输出层连接权重梯度；

公式(9)中，在多层前向网络中，隐层阈值梯度表示为m层的阈值梯度

隐层神经元输出表述为m层神经元的输出隐层与输出层的连接权值表述为m+1层的权值输出层阈值梯度表述为m+1层的阈值梯度

最终由化简得出式子(9)。

公式(10)与公式(9)同理，进行化简；

隐层与输出层连接权重梯度表述为m层连接权值梯度

g_j表述为m层阈值梯度

b_h表述为m-1层神经元的输出

从而得到公式(10)。

以目标的负梯度方向对参数进行调整

v＝v+Δv (11)

其中，v表示输入层神经元和隐层神经元的连接权值；

公式(11)、(12)是基于梯度下降策略，以目标的负梯度方向对参数进行调整，得到连接后的权重。

经过全部输入样本在BP算法中的训练，最终得到各个权值的连接。

即最终归纳得出，算法的结果是得到各层连接的权重，神经网络训练完成。

在一个或多个实施例中，所述处理器，还被配置为：

例如：

如图4所示，给机器人设立距使用者最短距离为2米，最长距离为2.5米，不在2米到2.5米范围内的需机器人根据距离远近判断是上前跟随还是向后撤离，对于路径规划的学习均来自于深度增强学习训练出的决策系统的输出。

机器人能够在距离障碍物等于20厘米时进行避障，在距离使用者的距离小于等于2米时进行远离，在距离使用者大于2.5米时学会上前跟随防护，机器人产生的避障动作和跟随或远离使用者的动作都作为避障策策略的输出。

本实施例利用计算机视觉领域的视觉追踪实现对目标人物的实时追踪，实时速度快，精度准确。同时将视觉追踪与识别使用者位置的红外传感器相结合，确保传感器监测到的是使用者的数据，避免因其他非使用者出现而造成的干扰。同时视觉追踪技术需要定义一个使用者，机器人也需要能够为不同家庭成员服务，所以我们为该机器人设计一个初始化功能，每次使用前重新定义使用者，达到能在不同时刻为不同人员服务的功能，减少浪费。

在一个或多个实施例中，所述处理器，还被配置为：

接收目标人物动作视频信息；

具体地，当目标人物为老人，老人独自在家，如果出现晕倒、摔倒等突然情况可能呼救得不到回应或无法呼救，及其危险。所以利用视频监控下的动作识别技术，识别使用者动作，尤其是晕倒、摔倒或者久坐不起等，并且处理器还与通信传输模块相连，机器人还设置有存储模块，存储模块内存储有紧急联系人库。

一旦老人发生跌倒等意外情况，机器人立即为老人发送求救消息至亲友手机，帮助老人及时求救避免错过最佳抢救时间而对身体器官造成不可逆损伤。垂直180度的监控摄像头用于识别使用者是否跌倒等危险动作，360度可旋转摄像头用于对使用者进行监控与精确录像，将录像清晰传递到云端及亲人手机，方便实时查看。

本公开的机器人可以跟随监控，所以只需一个摄像头就可，避免了所有房间安装监控造成的较高成本。同时一个摄像头监控范围有限，只跟随使用者监控使用者的情况，所以可以避免大范围的家庭隐私录像的泄露，更好的保护家庭隐私。

单个摄像头跟踪监控的设计使电能损耗大大降低，节约了机器人使用成本。

本公开的该机器人所实现的功能：

1、室内避障：机器人利用深度增强学习学会避障，传感器模块(如：红外测距传感器)感知障碍物距离，当距离小于预设距离(如：10厘米)时进行警告，通过不断的学习迭代掌握室内地形图，使机器人能在家中自由运动追踪目标人物而不碰触家具，避免机器人不断碰撞对机身和家具造成损伤，延长机器人使用寿命。

2、目标锁定：机器人通过对目标人物的特征提取一次只锁定跟踪一位使用者，在家中实时记录使用者动态，记录目标人物的行为录像，通过通讯系统将监控录像传递到后台，其他家庭成员可以通过手机查看监控录像。

3、安全判断：机器人具有紧急危险行为判断功能，当目标人物在家中如果出现晕倒或者长时间保持一个状态时，例如晕倒或久坐不动，机器人会发出警告，及时通过短信消息的方式告知目标人物的联系人，在目标人物无法自救的情况下及时帮助目标人物发出求救消息，防止目标人物因救援等待时间过长而造成的身体器官不可逆损伤。

摄像头采集目标人物的行为状态信息，传送至处理器；

从目标人物的行为状态信息中提取目标人物动作特征；

预测的动作信息输入至高低双层BP神经网络中；

筛选最优动作来跟踪目标人物，对目标人物实现锁定追踪。

接收目标人物动作视频信息；

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于深度增强学习的家用安全防护机器人，其特征在于，包括：

所述处理器，被配置为：

锁定目标人物并避障追踪其运动轨迹；

2.如权利要求1所述的一种基于深度增强学习的家用安全防护机器人，其特征在于，所述处理器，还被配置为：

3.如权利要求1所述的一种基于深度增强学习的家用安全防护机器人，其特征在于，在所述处理器中，锁定目标人物的具体过程为：

从目标人物的行为状态信息中提取目标人物动作特征；

预测的动作信息输入至高低双层BP神经网络中；

筛选最优动作来跟踪目标人物，对目标人物实现锁定追踪。

4.如权利要求1所述的一种基于深度增强学习的家用安全防护机器人，其特征在于，所述机体上仅安装一个可垂直180度和水平360度旋转的摄像头；

或所述处理器还与通信传输模块相连；

或机器人还设置有存储模块，存储模块内存储有紧急联系人库。

5.如权利要求1所述的一种基于深度增强学习的家用安全防护机器人，其特征在于，所述传感器模块包括：水平方向安装的四个红外传感器，每相邻两个红外传感器间夹角为90度，任选两个相邻红外传感器结合实现对任意位置的使用者位置的定位，剩余两个红外传感器用于感知除使用者之外的障碍物，为避障以及路径规划服务。

6.如权利要求1所述的一种基于深度增强学习的家用安全防护机器人，其特征在于，所述处理器，还被配置为：

接收目标人物动作视频信息；

7.一种如权利要求1-6中任一项所述的基于深度增强学习的家用安全防护机器人的工作方法，其特征在于，包括：

摄像头采集目标人物的行为状态信息，传送至处理器；

8.如权利要求7所述的基于深度增强学习的家用安全防护机器人的工作方法，其特征在于，还包括：判断目标人物与机器人本身之间的距离是否在预设范围内，若是，则机器人保持不动；否则，机器人上前跟随。

9.如权利要求7所述的基于深度增强学习的家用安全防护机器人的工作方法，其特征在于，还包括：

从目标人物的行为状态信息中提取目标人物动作特征；

预测的动作信息输入至高低双层BP神经网络中；

筛选最优动作来跟踪目标人物，对目标人物实现锁定追踪。

10.如权利要求7所述的基于深度增强学习的家用安全防护机器人的工作方法，其特征在于，还包括：

接收目标人物动作视频信息；