CN113093730B

CN113093730B - 一种基于状态策略知识库指导的智能体自主避障方法

Info

Publication number: CN113093730B
Application number: CN202110264968.5A
Authority: CN
Inventors: 向隆刚; 李雅丽
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2022-04-26
Anticipated expiration: 2041-03-08
Also published as: CN113093730A

Abstract

本发明公开了一种基于状态策略知识库指导的智能体自主避障方法，为智能体赋予障碍物认知和避障能力。方法包括五个步骤，步骤一感知避障环境，判断是对于障碍物是否需要采取避障措施，若需要避障，则构建避障环境状态；步骤二将感知的避障环境状态与状态‑决策知识库匹配，匹配不成功，进入步骤三，匹配成功，则应用知识库输出决策；步骤三基于模糊神经网络对新状态在线输出策略，并将该状态‑策略添加到知识库；步骤五判断智能体是否到达目标点，若没有到达，则重复步骤一，反之则结束。本发明的特点在于应用离线状态策略知识库和在线模糊神经网络解决避障问题，知识库可在避障过程中实现增量式发育，适用于快速解决各类避障问题。

Description

一种基于状态策略知识库指导的智能体自主避障方法

技术领域

本发明属于移动智能避障技术领域，尤其涉及一种基于状态策略知识库指导的智能体自主避障方法。

背景技术

随着科技的发展，移动智能体可在运输领域代替人类劳动，在运输过程中虽然以事先具备了路径规划，但环境通常复杂多变，存在静态障碍物与动态障碍物的干扰，因此智能体自主避障能力是确保其顺利到达目的地的关键。智能体自主避障主要分为两步，第一步：根据感知范围内获取的障碍物信息判断是否需要避障；第二步，指定相应的策略，顺利避开障碍物。现有智能体的避障方法可分为基于人工势场合向量直方图的路径规划法，以及基于蚁群算法、神经网络的智能控制法。但这些方法主要基于在线实时计算，没有利用离线的知识库，面对存在动态障碍物的复杂场景时，存在计算量大、时效性较差的问题。同时在避障过程中未考虑智能体完整行径过程的最优路线，会产生大量的冗余路径甚至发生碰撞。

发明内容

本发明所要解决的技术问题在于克服现有技术的不足，在已有路径规划的前提下，提供了一种基于状态策略知识库指导的智能体自主避障方法，在自主避障过程中通过设置避障子目标点，避免了冗余路径产生，同时引入了用于避障的状态策略知识库，能够高效利用已有的策略，快速高效的指导避障。

避障系统包括：主控制机、超宽带系统、高精度转角仪、车速传感器以及第一激光雷达传感器、第二激光雷达传感器、第三激光雷达传感器；

所述主控制机分别与所述的超宽带系统、高精度转角仪、车速传感器、第一激光雷达传感器、第二激光雷达传感器、第三激光雷达传感器通过有线方式依次连接，所述避障系统放置于智能体上；

所述超宽带系统用于获取智能体的位置；

所述高精度转角仪用于获取智能体的姿态；

所述车速传感器用于获取智能体的速度；

所述第一激光雷达传感器、第二激光雷达传感器、第三激光雷达传感器均用于采集障碍物的位置；

本发明具体采用以下技术方案解决上述技术问题：

一种基于状态策略知识库指导的智能体自主避障方法，其特征在于，包括以下步骤：

步骤1：感知避障环境。智能体在按照已有路径规划前进的前提下，感知障碍物信息，判断是否需要采取避障措施；若需要避障，则构建避障环境状态，进行步骤2，反之则不做避障处理；

步骤2：将步骤1中所述的避障环境状态与状态策略知识库中已知状态策略进行匹配；若匹配不成功表示步骤1中所述的避障环境状态为未知的新状态，则进入步骤3；若匹配成功表示步骤1中所述的避障环境状态为已知状态，则进入步骤4；

步骤3：将未知的新状态通过模糊神经网络预测输出避障执行速度、避障执行转向角，将避障执行速度、避障执行转向角作为避障策略以指导智能体避障，并将未知的新状态、避障策略以状态策略形式添加至步骤2所述状态策略知识库；

步骤4：在状态策略知识库中搜索已知状态对应的策略作为避障策略，用于指导智能体避障；

步骤5：通过所述超宽带系统判断智能体是否到达此次避障目标点，若已到达目标点，则结束避障，并退出；否则，重复执行步骤1至步骤2直至智能体到达避障目标点。

作为优选，步骤1所述感知障碍物信息的具体步骤为：

步骤1.1：基于三个激光雷达传感器，分别获取检测到的障碍物直线距离和扫描角度，以减少单个激光雷达传感器的广角误差；

步骤1.2：根据当前周期T下，障碍物与智能体的直线距离D，以及上个周期T-△t下，障碍物与智能体的直线距离信息D′,应用坐标转换模型，计算在障碍物以智能体为原点，智能体朝向为Y轴方向的坐标系下的位置；

所述坐标转换模型如下：

式中，d_x为当前周期下障碍物与智能体在X轴方向上的距离；d_y为当前周期下障碍物与智能体在Y轴方向上的距离；d’_x为上一个周期下障碍物与智能体在X轴方向上的距离；d’_y为上一个周期下障碍物与智能体在X轴方向上的距离；D₁表示第一激光雷达传感器获取的距离信息，D₂表示第二激光雷达传感器获取的距离信息，D₃表示第三激光雷达传感器获取的距离信息，θ₁表示第一激光雷达传感器的扫描角度，θ₂表示第二激光雷达传感器的扫描角度，θ₃表示第三激光雷达传感器的扫描角度；

然后根据避障判断模型进行避障判断，若满足条件则无需避障，直接退出；否则判断为需要避障进入步骤1.3；

所述避障判断模型为：

d_y-d_y'-vΔt＜0

式中，v是智能体速度，通过所述车速传感器获取；△t为激光雷达传感器仪检测周期；

步骤1.3：根据障碍物与智能体之间的直线距离和角度，计算障碍物相对于智能体的运动方向t_o，具体如下：

式中，t_o为障碍物相对于智能体的运动方向；ε为距离阈值；t_o＝-1表示障碍物相对智能体向左运动；t_o＝1表示障碍物相对智能体向右运动；

步骤1.4：上述单次避障是指智能体从检测到障碍物开始，到智能体行驶至此次避障的目标点的过程。首先计算目标点与智能体的坐标差值，具体如下：

式中，R_o为障碍物半径，统一设定为0.3米；R_a为智能体半径，统一设定为0.3米；

然后基于目标点与智能体的坐标差值，和上述1.3步骤中计算的障碍物相对运动方向t_o,计算智能体与目标点的航向角：

此时，目标角度t_a的计算公式为：t_a＝θ_a-α，式中α为智能体的航向角，通过所述高精度转角仪测得；

步骤1.5：通过第一激光雷达传感器获取的距离信息、第二激光雷达传感器获取的距离信息、第三激光雷达传感器获取的距离信息、障碍物相对运动方向、目标角度构建避障环境状态；

所述避障环境状态为：

S＝[D₁,D₂,D₃,to,t_a]；

其中，D₁表示第一激光雷达传感器获取的距离信息，D₂表示第二激光雷达传感器获取的距离信息，D₃表示第三激光雷达传感器获取的距离信息，t_o为障碍物相对于智能体的运动方向，t_a表示目标角度；

作为优选，步骤2所述状态策略知识库用于存储已知的避障环境状态和已知的避障环境状态对应的策略；

步骤2所述状态策略知识库的定义为：

KBS＝[R¹,R²,…,R^m]

其中，KBS表示状态策略知识库，m表示状态策略知识库中已知状态策略的数量，Rⁱ表示状态策略知识库中第i条已知状态策略，具体定义为：

其中，

表示状态策略知识库中第i条已知状态策略中状态，

表示状态策略知识库中第i条已知状态策略中策略，

表示已知的第一激光雷达传感器获取的距离信息，

表示已知的第二激光雷达传感器获取的距离信息，

表示已知的第三激光雷达传感器获取的距离信息，

为已知的障碍物相对于智能体的运动方向，

已知的表示目标角度，

为已知的避障执行速度，

为已知的避障执行转向角；

步骤2所述与状态策略知识库中已知状态策略进行匹配为：

根据绝对值指数法度量感知的避障环境状态S中的每一项与状态策略知识库中的已知状态策略R中的状态

之间的相似度sim(S,R)

式中,S_f代表避障环境状态中第f个属性值，

代表

中的第f个属性值，w_f是第f个属性对应的权重，C为设定阈值：

若sim(S,R)>C为步骤2所述匹配成功；

若sim(S,R)<＝C为步骤2所述匹配不成功；

作为优选，步骤3所述未知的新状态为：

S＝[D₁,D₂,D₃,t_o,t_a]；

步骤3所述的模糊神经网络结构由输入层、变量隶属度转换层、模糊规则适应度层、归一化层、输出层依次级联构成；

所述输入层，输入状态S中的5个特征值，节点n＝5；

所述变量隶属度转换层,设定3个距离变量D分为{“远”，“近”}两个等级，1个障碍物运动方向t_o分为{“左”，“右”}两个等级，1个智能体目标角度t_a分为{“偏左大”，“偏左小”，“无偏”，“偏右小”，“偏右大”}五个等级；

所述变量隶属度转换层的节点数量为各变量的模糊分割个数之和；

所述变量隶属度转换层根据矩形函数计算各变量的隶属度，具体如下：

式中，β为模糊分割的阈值；

所述模糊规则适应度层，用来匹配模糊规则的前件，每个节点代表一条模糊规则，该层节点数为各变量的模糊分割个数之积；

所述归一化层，节点数与第三层相同；

所述输出层，通过加权平均法去模糊化，输出的变量为智能体的避障执行速度和智能体的避障执行转向角。

作为优选，步骤4所述避障策略由避障执行速度v、避障执行转向角w构成；

相比于现有技术，本发明方案具有以下有益效果：

本发明技术方案中采用了知识库与深度模糊模型相结合的思想，已知避障状态可通过知识库匹配，快速输出智能体避障策略，包括控制速度和控制方向角，未知避障状态则通过强化学习在线输出，同时添加到知识库，实现其增量式发育，从而保证智能体能有效、快速应对新场景。

本发明方案中，进行实时避障解算，需要避障时，基于全局规划路径计算子目标点，实现全局路径规划和局部避障相结合，避免了路径冗余。

附图说明

图1：为本发明的总体流程图。

图2：为本发明的状态策略知识库结构示意图。

图3：为本发明的模糊神经网络结构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

在实施本发明提出的自主避障方法之前，假定智能体本身具备全局路径规划能力，并按照路径规划以恒定速度前进。本专利提出的方法应用于单次避障，即智能体在正常前进的过程中，通过传感器的感知数据判断出需要避障后，设置避障子目标，应用该专利的方法避开障碍物。

所述主控制机选型为TurtleBot 2；

所述超宽带系统选型为JR3401；

所述高精度转角仪选型为TL735G；

所述车速传感器选型为WHT 003 859；

所述第一激光雷达传感器选型为Hokuyo UTM-30LX lidar；

所述第二激光雷达传感器选型为Hokuyo UTM-30LX lidar；

所述第三激光雷达传感器选型为Hokuyo UTM-30LX lidar；

所述超宽带系统用于获取智能体的位置；

所述高精度转角仪用于获取智能体的姿态；

所述车速传感器用于获取智能体的速度；

所述第一激光雷达传感器、第二激光雷达传感器、第三激光雷达传感器均用于采集障碍物的位置。

如图1所示，本发明的一种基于状态策略知识库指导的智能体自主避障方法，包括以下步骤：

步骤1所述感知障碍物信息的具体步骤为：

所述坐标转换模型如下：

所述避障判断模型为：

d_y-d_y'-vΔt＜0

式中，v是智能体速度，通过所述车速传感器获取；△t＝0.25s为激光雷达传感器仪检测周期；

式中，t_o为障碍物相对于智能体的运动方向；ε＝0.3米为距离阈值；t_o＝-1表示障碍物相对智能体向左运动；t_o＝1表示障碍物相对智能体向右运动；

所述避障环境状态为：

S＝[D₁,D₂,D₃,t_o,t_a]；

步骤2所述状态策略知识库用于存储已知的避障环境状态和已知的避障环境状态对应的策略；

如图2所示，步骤2所述状态策略知识库的定义为：

KBS＝[R¹,R²,…,R^m]

其中，

表示状态策略知识库中第i条已知状态策略中状态，

表示状态策略知识库中第i条已知状态策略中策略，

表示已知的第一激光雷达传感器获取的距离信息，

表示已知的第二激光雷达传感器获取的距离信息，

表示已知的第三激光雷达传感器获取的距离信息，

为已知的障碍物相对于智能体的运动方向，

已知的表示目标角度，

为已知的避障执行速度，

为已知的避障执行转向角；

步骤2所述与状态策略知识库中已知状态策略进行匹配为：

之间的相似度sim(S,R)

式中,S_f代表避障环境状态中第f个属性值，

代表

中的第f个属性值，w_f是第f个属性对应的权重，C＝0.8为设定阈值：

若sim(S,R)>C为步骤2所述匹配成功；

若sim(S,R)<＝C为步骤2所述匹配不成功；

步骤3所述未知的新状态为：

S＝[D₁,D₂,D₃,t_o,t_a]；

如图3所示，步骤3所述的模糊神经网络结构由输入层、变量隶属度转换层、模糊规则适应度层、归一化层、输出层依次级联构成；

所述输入层，输入状态S中的5个特征值，节点n＝5；

式中，β为模糊分割的阈值；

所述归一化层，节点数与第三层相同；

步骤4所述避障策略由避障执行速度v、避障执行转向角w构成；

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于状态策略知识库指导的智能体自主避障方法，其特征在于，包括以下步骤：

步骤1：感知避障环境，智能体在按照已有路径规划前进的前提下，感知障碍物信息，判断是否需要采取避障措施；若需要避障，则构建避障环境状态，进行步骤2，反之则不做避障处理；

步骤5：通过超宽带系统判断智能体是否到达此次避障目标点，若已到达目标点，则结束避障，并退出；否则，重复执行步骤1至步骤2直至智能体到达避障目标点；

步骤1所述感知障碍物信息的具体步骤为：

所述坐标转换模型如下：

所述避障判断模型为：

d_y-d_y'-vΔt＜0

式中，v是智能体速度，通过车速传感器获取；△t为激光雷达传感器检测周期；

步骤1.4：单次避障是指智能体从检测到障碍物开始，到智能体行驶至此次避障的目标点的过程；首先计算目标点与智能体的坐标差值，具体如下：

然后基于目标点与智能体的坐标差值，和上述步骤1.3中计算的障碍物相对运动方向t_o,计算智能体与目标点的航向角：

此时，目标角度t_a的计算公式为：t_a＝θ_a-α，式中α为智能体的航向角，通过高精度转角仪测得；

所述避障环境状态为：

S＝[D₁,D₂,D₃,t_o,t_a]；

步骤2所述状态策略知识库的定义为：

KBS＝[R¹,R²,...,R^m]

其中，

表示状态策略知识库中第i条已知状态策略中状态，

表示状态策略知识库中第i条已知状态策略中策略，

表示已知的第一激光雷达传感器获取的距离信息，

表示已知的第二激光雷达传感器获取的距离信息，

表示已知的第三激光雷达传感器获取的距离信息，

为已知的障碍物相对于智能体的运动方向，

已知的表示目标角度，

为已知的避障执行速度，

为已知的避障执行转向角；

步骤2所述与状态策略知识库中已知状态策略进行匹配为：

之间的相似度sim(S,R)

式中,S_f代表避障环境状态中第f个属性值，

代表

若sim(S,R)>C为步骤2所述匹配成功；

若sim(S,R)<＝C为步骤2所述匹配不成功；

步骤3所述的模糊神经网络的结构由输入层、变量隶属度转换层、模糊规则适应度层、归一化层、输出层依次级联构成；

所述输入层，输入状态S中的5个特征值，节点n＝5；

式中，β为模糊分割的阈值；

所述模糊规则适应度层，用来匹配模糊规则的前件，每个节点代表一条模糊规则，所述模糊规则适应度层节点数为各变量的模糊分割个数之积；

所述归一化层，节点数与第三层相同；

所述输出层，通过加权平均法去模糊化，输出的变量为智能体的避障执行速度和智能体的避障执行转向角；

步骤4所述避障策略由避障执行速度v、避障执行转向角w构成。