CN112836777B

CN112836777B - 共识主动性机制在群体机器人目标搜索中的应用方法

Info

Publication number: CN112836777B
Application number: CN202110229034.8A
Authority: CN
Inventors: 汤奇荣; 徐志鹏; 张敬涛; 徐鹏杰; 张琨; 崔远哲
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2022-09-27
Anticipated expiration: 2041-03-02
Also published as: CN112836777A

Abstract

本发明提供一种共识主动性机制在群体机器人目标搜索中的应用方法，包括步骤：S1：在搜索区域的地面上铺设RFID标签阵列；S2：机器人群体在地面上随机运行一段时间，同时向RFID标签中写入信息素向量，初步建立信息素地图；S3：每个机器人一边读取RFID标签中已经存储的信息素向量，一边向RFID标签中写入信息素向量，机器人根据读取的信息素向量和探测到的目标信号强度决定自身的运动速度和方向；S4：形成完整的包含目标信号强度梯度特征的信息素向量地图。本发明的一种共识主动性机制在群体机器人目标搜索中的应用方法，将社会性生物群体中普遍存在的共识主动性机制应用到群体机器人中，指引机器人搜索到目标。

Description

共识主动性机制在群体机器人目标搜索中的应用方法

技术领域

本发明涉及群体机器人技术领域，尤其涉及一种共识主动性机制在群体机器人目标搜索中的应用方法。

背景技术

群机器人系统的通信方式可以分为显式通信与隐式通信两大类。显式通信是通过某种通信介质，以某种共有的规则和方式在机器人之间直接进行信息的交换。如利用无线局域网技术、TCP协议等进行机器人间的直接通信。隐式通信则是一种间接交互的机制，隐式通信受到自然界中的生物群体如蚂蚁等群体性昆虫间依靠信息素进行交流的启发。利用隐式通信的方式，机器人之间可以不直接进行信息交换，而是通过外界环境和自身传感器来获取所需信息进而进行相互间的协作。

尽管显式通信可以使机器人之间进行实时高效的信息交互，并可以完成高级复杂的协调协作策略。但也存在以下问题：机器人间的通信过程延长了系统对外界环境变化的反应时间；由于通信带宽的限制，机器人在传递交换信息时易出现瓶颈，尤其是在系统规模增大时通信瓶颈更加明显。这时隐式通信的优势便突显出来。利用环境进行间接通信使机器人无需进行实时的大量信息收发，因此可容纳的系统规模较大，对机器人的性能要求也较低，因此可将隐式通信机制应用到群体机器人系统中，获得可拓展性更好的集群协作效果。

发明内容

针对上述现有技术中的不足，本发明提供一种共识主动性机制在群体机器人目标搜索中的应用方法，将社会性生物群体中普遍存在的共识主动性机制应用到群体机器人中，对群体机器人目标搜索行为进行协调，从而指引机器人搜索到目标。

为了实现上述目的，本发明提供一种共识主动性机制在群体机器人目标搜索中的应用方法，包括步骤：

S1：在一搜索区域的地面上铺设一RFID标签阵列，所述RFID标签阵列包括多个RFID标签；

S2：机器人群体在所述地面上随机运行一段时间，同时向所述RFID标签中写入信息素向量，初步建立信息素地图；所述机器人群体包括多个机器人；所述信息素向量包括至少一信息素；

S3：每个所述机器人一边读取所述RFID标签中已经存储的所述信息素向量，一边向所述RFID标签中写入所述信息素向量，所述机器人根据读取的所述信息素向量和探测到的目标信号强度决定自身的运动速度和方向；

S4：形成完整的包含目标信号强度梯度特征的信息素向量地图。

优选地，所述S1步骤进一步包括步骤：

S11：在每个所述机器人上配置一个RFID读写器，其读写范围半径为r；

S12：将所述搜索区域划分为M×N个栅格，每个所述栅格的边长大于所述机器人上配置的所述RFID读写器的读写范围；

S13：在每个所述栅格的中心铺设一所述RFID标签，一共铺设M×N个所述RFID标签；

S14：初始化所述RFID标签，使得每个所述RFID标签能存储的数据清零；

S15：向所述搜索区域中放置信号源物体，并为所述机器人装备相应的信号探测传感器。

优选地，所述S2步骤进一步包括步骤：

S21：将搜索所需的所述机器人群体放置在所述搜索区域；

S22：利用一无线网络通信模块给每个所述机器人设置一个初始速度；

S23：所述机器人按照一个个迭代步在所述搜索区域内随机运动，所述机器人根据探测到的所述目标信号强度和自身每个迭代步时间内移动的距离生成中间体向量vec；

所述中间体向量vec按公式(1)生成：

其中p_A和p_B分别表示所述机器人上一步运动的初始位置和末端位置，f_A和f_B分别表示所述机器人在上一步运动的初始位置和末端位置所探测到的所述目标信号强度，||AB||₂表示所述机器人上一个迭代步运动的距离，k是避免分母过小的一个常数项；

S24：所述机器人读取离自己最近的所述RFID标签内的所述信息素向量，将S23中生成的所述中间体向量vec更新到所述RFID标签储存的所述信息素向量中；

所述机器人按照公式(2)对所述信息素向量进行更新：

其中

代表第m次写入第N个标签的信息素向量，

代表机器人在第N个标签中第m+1次更新得到信息素时使用的所述中间体向量，k_p是一个放大系数，通常被设为1；当新生成的所述中间体向量值明显大于当前位置的现有所述信息素时，所述中间体向量直接替换现有所述信息素，当新生成的所述中间体向量值小于当前位置的现有所述信息素时，二者进行累加；c_d、c_a分别代表对所述RFID标签中已经存在所述信息素的衰减系数以及对所要使用所述中间体向量的累加系数；

S25：所述机器人将累加更新后的所述信息素向量

写入附近的所述RFID标签中。

优选地，所述S3步骤进一步包括步骤：

S31：所述机器人读取附近所述RFID标签中的所述信息素向量；

S32：所述机器人根据自身搜索经验和读取到的所述信息素决定下一步的运动；

按照公式(3)和(4)分别对所述机器人的速度和位置进行更新：

P^k+1＝P^k+V^k+1Δt， (4)；

其中v^k表示机器人群体在第k个迭代步时的速度，vec^k表示机器人群体在第k个迭代步时生成的所述中间体向量，pher^k为所述机器人群体在第k次迭代时从所述RFID标签中读到的信息素，ω表示惯性系数，c₁和c₂分别表示所述机器人的自学习系数和互学习系数，

和

分别表示单个元素在(0,1)区间的随机矩阵，P^k表示机器人群体在第k个迭代步时的位置，v^k+1表示第k+1个迭代步机器人群体要执行的速度，Δt表示每个迭代步的时间步长；

S33：所述机器人到达新的位置，采用S23的方法生成上一步运动产生的所述中间体向量；

S34：所述机器人将生成的所述中间体向量与读取的所述信息素向量累加后写入附近的所述RFID标签中，信息素向量累积方法与步骤S24中的方法一致。

本发明由于采用了以上技术方案，使其具有以下有益效果：

(1)、所述S4步骤中，所述信息素向量地图由所述信息素向量构成；所述信息素向量存储在所述搜索区域的所述RFID标签内，表示所述RFID标签附近一定范围内的目标信号强度的梯度；所述信息素向量地图用于引导不具备目标信号探测能力而只具备信息素读取能力的所述机器人向目标移动。这样会避免搜索过程中某些机器人因信号探测模块损坏，或处于某些暂时探测不到目标信号的区域从而导致机器人跟踪信号丢失的情况。

(2)、在整个搜索过程中，所述机器人包括一随机搜索阶段和一协作搜索阶段，其中所述协作搜索阶段是必需的，而所述随机搜索阶段在一定条件下可以取消；所述随机搜索阶段的目的是初步建立信息素地图，使得所述机器人在随后的协作搜索阶段中能够较快地找到目标；当所述机器人群体规模较大，或者所述机器人探测能力较强时，可缩短所述随机搜索阶段的时间，甚至完全取消所述随机搜索阶段，所述机器人依靠协作搜索依然能够找到目标。

(3)、在整个搜索过程中所述机器人不需要进行任何直接通信；所述机器人所配备的无线通信模块只用于搜索开始前设置所述机器人的初始速度，在搜索阶段不会与上位机或其他所述机器人发生通信；所述机器人之间的信息传递通过存储在所述RFID标签中的信息素向量进行；由于不需要直接通信，机器人的群体规模可以非常方便地扩大，不会受到通信带宽的限制。

(4)、由于信息素存在耗散和累积的过程，不同时间产生的信息素对机器人运动的影响也不同，前期产生的信息素对机器人运动的影响小，后期产生的信息素对机器人运动的影响大，该方法还可以用于搜索和跟踪动态目标。

附图说明

图1为本发明实施例的共识主动性机制在群体机器人目标搜索中的应用方法的流程图；

图2为本发明实施例的信息素向量累积示意图；

图3为本发明实施例的RFID标签布置图；

图4为本发明实施例的群体机器人搜索与跟踪三角形轨迹运动目标结束时生成的信息素向量地图。

具体实施方式

下面根据附图1～图4，给出本发明的较佳实施例，并予以详细描述，使能更好地理解本发明的功能、特点。

请参阅图1，本发明实施例的一种共识主动性机制在群体机器人目标搜索中的应用方法，包括步骤：

S1：在一搜索区域的地面上铺设一RFID标签阵列，所述RFID标签阵列包括多个RFID标签。

所述S1步骤进一步包括步骤：

S2：机器人群体在所述地面上随机运行一段时间，同时向所述RFID标签中写入信息素向量，初步建立信息素地图，属于随机探索阶段；所述机器人群体包括多个机器人；所述信息素向量包括至少一信息素。

所述S2步骤进一步包括步骤：

S21：将搜索所需的所述机器人群体放置在所述搜索区域，位置可以随机摆放，也可集中放置在一个起始片区；

S22：机器人群体初始化后，利用一无线网络通信模块给每个所述机器人设置一个随机的初始速度；

S23：所述机器人根据随机初始化的速度按照一个个迭代步在所述搜索区域内随机运动，遇到边界或障碍物时则根据预碰撞效果计算避障后的速度，并且在整个运动过程中，所述机器人根据探测到的所述目标信号强度和自身每个迭代步时间内移动的距离生成中间体向量vec；

所述中间体向量vec按公式(1)生成：

所述机器人按照公式(2)对所述信息素向量进行更新：

其中

代表第m次写入第N个标签的信息素向量，

S25：所述机器人将S24中计算出的累加更新后的所述信息素向量

写入S24中被读取的附近的所述RFID标签中；

S26：在满足停止条件前，机器人群体重复执行上述行为。

S3：每个所述机器人一边读取所述RFID标签中已经存储的所述信息素向量，一边向所述RFID标签中写入所述信息素向量，所述机器人根据读取的所述信息素向量和探测到的目标信号强度决定自身的运动速度和方向。

所述S3步骤进一步包括步骤：

S31：机器人在运动过程中根据S23方法生成中间体向量，所述机器人读取附近所述RFID标签中的所述信息素向量；

按照公式(3)和(4)分别对所述机器人的速度和位置进行更新：

P^k+1＝P^k+V^k+1Δt， (4)；

其中速度矩阵可以表示为：

其中v^k表示机器人群体在第k个迭代步时的速度，vec^k表示机器人群体在第k个迭代步时生成的所述中间体向量，pher^k为所述机器人群体在第k次迭代时从所述RFID标签中读到的信息素，ω表示惯性系数，c₁与c₂分别表示所述机器人的自学习系数和互学习系数，

和

分别表示单个元素在(0,1)区间的随机矩阵，可以对机器人的搜索行为增加一定的随机探索性,P^k表示机器人群体在第k个迭代步时的位置，v^k+1表示第k+1个迭代步机器人群体要执行的速度，Δt表示每个迭代步的时间步长，

代表机器人i在第k次迭代时的速度。

S34：所述机器人将生成的所述中间体向量与读取的所述信息素向量累加后写入附近的所述RFID标签中，信息素向量累积方法与步骤S24中的方法一致；

S35：在满足停止条件前，机器人群体重复执行上述行为。

S4：机器人群体收敛到目标位置，形成完整的包含目标信号强度梯度特征的信息素向量地图。

本发明实施例的一种共识主动性机制在群体机器人目标搜索中的应用方法，属于群体机器人技术领域，目的是将社会性生物群体中普遍存在的共识主动性(stigmergy)机制应用到群体机器人的目标搜索行为中，对群体机器人目标搜索行为进行协调，从而指引机器人搜索到目标。

例如：本发明的步骤为：步骤1在地面上铺设RFID标签，用于存储信息素向量；步骤2机器人群体在地面上随机运动一段时间，用于初步建立环境信息素地图；步骤3每个机器人一边读取RFID标签中已经存储的信息素向量，一边向RFID标签中写入信息素向量，机器人根据读取的信息素向量和探测到的目标信号强度决定自身的运动速度和方向；步骤4建立包含目标信号强度梯度特征的信息素向量地图。本发明能利用RFID实现机器人间的间接通信，方法具有可扩展性，能够为广义移动机器人搜索目标提供可靠的导航信息。

图2描述了RFID标签中信息素向量的累积过程。图中用等高线表示了目标D的一种目标信号场的分布。B点表示该位置的RFID标签。当某机器人从A点运动到B点时，会生成中间体向量vec_AB，初始时RFID标签中无信息素向量，因此中间体向量会被直接写入RFID标签中。之后，当另一机器人从C点运动到B点时，会生成中间体向量vec_CB。这时该机器人负责将读取到的vec_AB与vec_CB进行矢量求和，生成新的信息素向量pher，并将其写入该RFID标签中。

为了实现群体机器人搜索目标的功能，设计了图1所示的机器人行为策略，用于指引机器人读取到RFID信息时的操作。

图3为实施例中所布置3m×3m的RFID覆盖区域的RFID标签分布情况，其中矩形与菱形均表示RFID标签。场地共使用矩形标签391个，菱形标签210个。

实施例中的移动机器人群体规模为6个。机器人群体的任务为搜索与跟踪动态目标。

设置动态目标在搜索区域内沿一定的轨迹运动，移动机器人所能检测到目标信号强度的函数为：

f(t,x_i,y_i)＝S_max-α[x_i-tar.x(t)]²-β[(y_i-tar.y(t))]²，

其中f(t,x_i,y_i)表示第i个机器人所检测到动态目标的信号强度，(x_i,y_i)为该机器人在t时刻的位置坐标。S_max表示在目标位置检测到的信号强度值，即信号场的最大强度值。tar表示目标在t时刻的位置坐标，tar.x(t)，tar.y(t)分别表示目标的横纵坐标值。α，β表示信号场的衰减系数。

机器人在搜索过程中，会不断按下公式生成中间体向量：

其中p_A和p_B表示机器人上一步运动的初始位置和末端位置，f_A和f_B表示机器人在上一步运动的初始位置和末端位置所探测到的目标信号强度，||AB||₂表示机器人上一个迭代步运动的距离，k是避免分母过小的常数项。

当有机器人经过某一处的RFID标签时，该机器人会读取标签中已存在的信息素向量，并根据中间体向量生成新的信息素向量写入RFID标签中。生成新的信息素向量的规则为：

其中

代表第m次写入第N个标签的信息素向量，

代表机器人在第N个标签中第m+1次更新得到信息素时使用的中间体向量，k_p是一个放大系数，通常被设为1。这意味着当新生成的中间体向量值明显大于当前位置的现有信息素时，中间体向量直接替换现有信息素，当新生成的中间体向量值小于当前位置的现有信息素时，二者进行累加。c_d、c_a分别代表对RFID标签中已经存在信息素的衰减系数以及对所要使用中间体向量的累加系数。

在读取到RFID标签中的信息素向量后，机器人同时也会更新自身的速度，更新规则为：

其中速度矩阵可以表示为：

在以上各式中，

代表机器人i在第k次迭代时的速度，vec^k代表机器人群体在第k次迭代时生成的中间体向量，pher^k为机器人群体在第k次迭代时从标签中读到的信息素，c₁与c₂对应为自我学习系数与群体学习系数。

与

为机器人决定自生速度时的随机部分，可以对机器人的搜索行为增加一定的随机探索性。

设置动态目标的运动轨迹为三角形，6个移动机器人按照上述的规则搜索与跟踪该动态目标。图4为搜索与跟踪实验结束后，群体机器人在环境中的RFID标签里留下的信息素向量。可以看出搜索过后的信息素向量大致都指向动态目标的运动趋势，反映了此信息素向量地图具有一定的导航指引功能。

同时，本发明提供的一种共识主动性(stigmergy)机制在群体机器人目标搜索中的应用方法也可以在大规模群体机器人目标搜索行为中应用。对图3中的RFID标签布置进行拓展，并使用20个移动机器人对目标进行搜索。20个移动机器人被随机分成四组，无序地放置在5m×4.5m的RFID区域中。除图3外的其他RFID区域只由长方形标签组成，覆盖率比图3中少21.1％。

机器人群体开始运行后30s，机器人正散乱地分布在搜索区域中，感知目标信号并将自身的经验写入RFID标签，构建初始的信息素地图，为后续的搜索做准备。运行90s后，机器人利用向量型信息素模型进行自身状态的迭代，借助自身和群体的经验，机器人大都已经聚集到了目标附近，完成了对目标的搜索。

本实施例是一种共识主动性机制在群体机器人目标搜索中的应用，其中包括了对小规模动态目标搜索的应用以及对大规模静态目标搜索的应用。群体机器人之间不直接进行通信，而是利用本发明中提出的基于共识主动性机制的信息素向量模型进行间接的交互。RFID标签在环境中作为信息素向量的储存载体。通过该方法，群体机器人可以成功地对动态目标进行搜索与跟踪。并且机器人之间的信息传递是通过存储在RFID标签中的信息素向量进行的。由于不需要直接通信，机器人的群体规模可以非常方便地扩大，不会受到通信带宽的限制。

以上结合附图实施例对本发明进行了详细说明，本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而，实施例中的某些细节不应构成对本发明的限定，本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims

1.一种共识主动性机制在群体机器人目标搜索中的应用方法，包括步骤：

S4：形成完整的包含目标信号强度梯度特征的信息素向量地图；

所述S1步骤进一步包括步骤：

S15：向所述搜索区域中放置信号源物体，并为所述机器人装备相应的信号探测传感器；

所述S2步骤进一步包括步骤：

S21：将搜索所需的所述机器人群体放置在所述搜索区域；

所述中间体向量vec按公式(1)生成：

所述机器人按照公式(2)对所述信息素向量进行更新：

其中

代表第m次写入第N个标签的信息素向量，

S25：所述机器人将累加更新后的所述信息素向量

写入附近的所述RFID标签中。

2.根据权利要求1所述的共识主动性机制在群体机器人目标搜索中的应用方法，其特征在于，所述S3步骤进一步包括步骤：

S31：所述机器人读取附近所述RFID标签中的所述信息素向量；

按照公式(3)和(4)分别对所述机器人的速度和位置进行更新：

P^k+1＝P^k+V^k+1Δt，(4)；

其中v^k表示机器人群体在第k个迭代步时的速度，vec^k表示机器人群体在第k个迭代步时生成的所述中间体向量，pher^k为所述机器人群体在第k次迭代时从所述RFID标签中读到的信息素，ω表示惯性系数，c₁和c₂分别表示所述机器人的自学习系数和互学习系数，r₁ ^k和

3.根据权利要求2所述的共识主动性机制在群体机器人目标搜索中的应用方法，其特征在于，所述S4步骤中，所述信息素向量地图由所述信息素向量构成；所述信息素向量存储在所述搜索区域的所述RFID标签内，表示所述RFID标签附近一定范围内的目标信号强度的梯度；所述信息素向量地图用于引导不具备目标信号探测能力而只具备信息素读取能力的所述机器人向目标移动。

4.根据权利要求2所述的共识主动性机制在群体机器人目标搜索中的应用方法，其特征在于，在整个搜索过程中所述机器人不需要进行任何直接通信；所述机器人所配备的无线通信模块只用于搜索开始前设置所述机器人的初始速度，在搜索阶段不会与上位机或其他所述机器人发生通信；所述机器人之间的信息传递通过存储在所述RFID标签中的信息素向量进行。