CN115771145B

CN115771145B - 人机协作中基于博弈论的安全控制策略

Info

Publication number: CN115771145B
Application number: CN202211506860.3A
Authority: CN
Inventors: 李佳钰; 郑馨蕊; 陈晨; 庄天扬
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-09-15
Anticipated expiration: 2042-11-29
Also published as: CN115771145A

Abstract

基于博弈论的人机协作安全控制策略是为了解决在工业场景中人和机器人处于同一工作空间时确保操作者安全的问题。本发明所述的一种基于博弈论的安全控制策略是在完全且完美信息动态博弈的条件下，通过比较距离危险度大小决定机械臂博弈的先后次序，最后通过逆向归纳法获取每个机械臂的最优策略。本发明除了能保证操作者安全外还考虑了生产效率和多机协作的问题，提高机器人在协作过程中的灵活性。

Description

人机协作中基于博弈论的安全控制策略

技术领域

本发明属于人机协作安全防护技术领域，具体涉及一种当人和机器人处于同一工作空间时确保操作者安全的控制策略。

背景技术

在目前工厂生产车间内物理防护依然是预防人机干涉碰撞的主流方式。即根据现场实际情况，结合机器人运动轨迹，划定机器人工作区域并安装围栏使之与外界隔离。这种物理围栏本身安装需要占据一定空间且二次更改灵活性差，更不能满足人机同一空间下工作的条件。为克服物理围栏的弊端将被动防护变机器人主动规避，一套可靠、灵活的人机安全控制策略成为研究热点之一。

博弈论是现代数学的一个新分支也是运筹学的一个重要学科。博弈论考虑游戏中个体的预测行为和实际行为，并研究它们的优化策略，在经济学、金融学、政治学等领域有着广泛的应用。目前在机器人工程领域内对多智能体的任务协调、围捕巡检等方面的策略研究也提供了很大的帮助。本发明将博弈论的思想融合到人机协作安全策略中，为人机协作安全策略的研究提供了新思路。

发明内容

本发明能够实现同一工作空间下人机协作时确保操作者安全的目的，现提供一种基于博弈论的安全控制策略。

一种人机协作中的安全控制策略主要基于博弈论的思想进行设计，主要包括三个部分：人体运动信息的采集与预测、机械臂运动信息采集与轨迹规划、基于博弈论的决策方法选择最优策略。

基于博弈论的决策方法又包括将两个机械臂设为行为人R₁和R₂，两个行为人可选择的策略和收益函数都相同。其中策略集合包括：按照轨迹重规划的路径向前运动一步；沿正常路径减速向前运动一步；沿正常路径匀速向前运动一步。在完全且完美信息动态博弈的条件下两个机械臂根据距离危险度进行序贯博弈，距离危险度大的先进行博弈，通过收益函数可计算出每个行为人采取不同策略产生的收益，最后利用逆向归纳法得出最优解。

基于博弈论的决策方法中的距离危险度是由人机最小安全距离和当前人机最小距离的比值组成，其中人机最小安全距离是由机器人接收到停机指令后，在机器人停机时间段内人和机器人运动距离总和以及可调节的为防止其他干扰设置的常数构成。距离危险度值大于等于1说明当前人机最小距离小于最小安全距离人机发生碰撞的可能性很高所以机械臂停止运动；若值小于1则使用基于博弈论的决策方法进行下一步决策获得最优策略。

基于博弈论的决策方法中的收益函数主要指三个部分的收益：机械臂相对于人的收益，即预测的根据所选策略运动一步后机械臂与人之间距离和当前时刻人机之间距离的差值比上当前时刻人机之间的距离；机械臂相对于另一个机械臂的收益，即预测双机械臂根据所选策略运动一步后之间的距离和当前时刻双机械臂之间距离的差值比上当前时刻双机械臂之间的距离；机械臂相对于目标点的收益，即机械臂当前时刻与目标点之间距离和预测的机械臂根据所选策略运动一步后与目标点之间距离的差值比上当前时刻机械臂与目标点之间距离。

根据一种人机协作中基于博弈论的安全控制策略，该策略包括以下步骤：

步骤1：通过运动捕捉设备获取操作者和机械臂的运动信息，并通过卡尔曼滤波的方法预测操作者未来一段时间内的运动轨迹，根据获取到的运动信息实时计算人机之间最小距离；

步骤2：通过步骤1获取的操作者的运动轨迹判断在未来一段时间内操作者是否会处于机械臂的工作空间，否的话机械臂正常工作，是的话进行下一步；

步骤3：若步骤2所述的操作者会进入到机械臂的工作空间则计算机械臂的距离危险度，若距离危险度值大于等于1说明当前人机最小距离小于等于最小安全距离人机发生碰撞的可能性很高所以机械臂停止运动，若值小于1则进行下一步决策；

步骤4：若步骤3所述的距离危险度值小于1，则采取博弈论的决策方法选择最优策略。行为人是两个机械臂，它们的策略集合和收益函数均相同，利用逆向归纳法的思想进行序贯博弈求取最优策略；

步骤5：根据所选策略进行运动，判断是否到达目标位置，如果到达则结束否则转步骤1继续进行。

本发明的有益效果：

所述的一种人机协作中基于博弈论的安全控制策略，一方面能够摆脱传统物理围栏的束缚，实现人机同一工作空间下工作并确保人类安全的目的；另一方面，基于博弈论的决策方法能够使机械臂距离人类越远时越可能选择接近目标点的策略，相反，离人类越近越可能选择躲避人类的策略，这让机械臂在决策过程中更加灵活。

附图说明

图1人机协作安全策略流程图

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。

本发明的一个实施例：一种人机协作中基于博弈论的安全控制策略，其内容包括以下步骤：

步骤1：利用动作捕捉设备获取操作者和机械臂的运动信息，并通过卡尔曼滤波的方法预测操作者未来一段时间内的运动轨迹，根据获取的运动信息实时计算人机之间最小距离；

步骤2：根据机械臂当前实际工作情况划定一块属于机械臂的工作空间，并通过预测得到的操作者未来一段时间内的运动轨迹判断人类是否会处于机械臂的工作空间，否的话机械臂正常工作，是的话机械臂进入到协作模式防止误伤到人类；

步骤3：若步骤2所述的操作者会进入到机械臂的工作空间则计算机械臂的距离危险度其中机械臂响应时间朝操作者方向运动的距离V_rT_r与机械臂制动时间朝操作者方向运动的距离/>与人类在机器人停机时间朝机器人方向运动的距离V_h(T_r+T_r′)与可调节的常数q的总和构成了当前情况下人机碰撞前的最短距离比上当前人机最小距离，如果G大于等于1说明当前人机最小距离小于等于碰撞前的最短距离，人机碰撞的可能性极大机械臂应立即停止工作；如果G小于1说明当前人机最小距离大于碰撞前的最短距离，机械臂则进入下一步决策可根据具体情况采取其他避碰措施或是正常工作。

步骤4：如果G小于1，采取博弈论的方法选择最优策略。将双机械臂分别设为行为人R₁和R₂，它们有相同的策略集合Z＝{Z₁：按照轨迹重规划的路径向前运动一步；Z₂:沿正常路径减速向前运动一步；Z₃:沿正常路径匀速向前运动一步}，相同的收益函数当机械臂采取措施运动一步后增加或减少的人机或是双机械臂之间的距离当在人机或双机械臂之间当前最小距离越短的情况下增加或减少的收益就会越大，这让机械臂越接近人类或其他机械臂就越会选择远离策略，避免人机和双臂之间的碰撞，同理，机械臂采取措施运动一步后与目标点之间减少或增加的距离当与目标点越近的时候增加或减少的收益就会越大，这能使机械臂非常接近目标点且与人类碰撞机率不大的情况下优先选择能完成当前目标的策略而不是一味采取避碰措施导致生产效率不必要的降低。在完全且完美信息动态博弈的条件下进行博弈，通过比较两个行为人的距离危险度确定博弈的先后顺序，将数值大的放在第一阶段的博弈，数值小的放在第二阶段的博弈，利用逆向归纳法的思想从第二阶段开始分析，假设行为人R₁在第一个阶段选择了行动Z₁，当第二阶段行为人R₂行动时，会考虑到前一阶段R₁的选择，则行为人R₂面临的决策问题表示为：/>其中Z₁∈Z且行为人R₂这个最优问题的解表示为Z₂(Z₁)，这也是行为人R₁能够预测到R₂可能会选择的策略，所以行为人R₁在第一阶段要解决的问题可表示为：/>行为人R₁这一最优问题的解用Z₁*表示，再将Z₁*带入到Z₂(Z₁)中得出实际行为人R₂会选择的策略Z₂*，所以最优策略组合为(Z₁*,Z₂*)。

Claims

1.一种人机协作中基于博弈论的安全控制策略，其特征在于，包括以下步骤：

步骤3：若步骤2所述的操作者会进入到机械臂的工作空间则计算机械臂的距离危险度，若距离危险度值大于等于1，当前人机最小距离小于最小安全距离则人机发生碰撞的概率高机械臂停止运动，若值小于1则进行下一步决策；

步骤4：若步骤3所述的距离危险度值小于1，则采取博弈论的决策方法选择最优策略，行为人是两个机械臂，它们的策略集合和收益函数均相同，利用逆向归纳法的思想进行序贯博弈求取最优策略；具体如下：

两个机械臂为进行博弈的两个行为人，两个行为人可选择的策略相同，收益函数也相同，策略集合Z包括：Z₁表示按照轨迹重规划的路径向前运动一步；Z₂表示沿正常路径减速向前运动一步；Z₃表示沿正常路径匀速向前运动一步，其中轨迹重规划的路径是指机械臂对操作者和另一个机械臂的避障路径；正常路径是指行为人沿事先规划好的朝目标点方向的运动路径；收益函数由三部分组成：机械臂相对于人的收益；机械臂相对于另一个机械臂的收益；机械臂相对于目标点的收益，具体公式如下(1.1)所示，其中U(R)为行为人R的收益；H_t为当前时刻操作者距离行为人最近点的位置；H_t+1为预测的操作者下一时刻距离行为人最近点位置；R_t为当前时刻行为人距离操作者最近点的位置；R_t+1为预测的行为人根据所选策略下一时刻距离操作者最近点位置；R_t′为当前时刻行为人距离另一个机械臂最近点的位置；为当前时刻另一个机械臂距离行为人最近点的位置；R_t+1′为预测的行为人根据所选策略下一时刻距离另一个机械臂最近点位置；/>为预测的另一个机械臂根据所选策略下一时刻距离行为人最近点位置；R_t″为当前时刻行为人距离目标最近点的位置；R_t+1″为预测的下一时刻行为人距离目标最近点位置；P为目标点位置；/>为当前时刻行为人与操作者之间距离；/>为当前时刻行为人与另一个机械臂之间距离；/>为当前时刻行为人与目标点之间距离；w₁，w₂，w₃为权重，且w₁+w₂+w₃＝1；

两个行为人在完全且完美信息动态博弈的条件下进行序贯博弈，通过收益函数可计算出每个行为人采取不同策略产生的收益，距离危险度大的在第一阶段进行博弈，小的在第二阶段进行博弈，利用逆向归纳法的思想从第二阶段开始分析，假设行为人R₁在第一个阶段选择了行动Z₁，当第二阶段行为人R₂行动时，会考虑到前一阶段行为人R₁的选择，则行为人R₂面临的决策问题表示为：其中Z₁∈Z且行为人R₂这个最优问题的解表示为Z₂(Z₁)，这也是行为人R₁能够预测到R₂根据他的每个行动会选择的策略，所以行为人R₁在第一阶段要解决的问题可表示为：/>行为人R₁这一最优问题的解用Z₁*表示，再将Z₁*带入到Z₂(Z₁)中得出实际行为人R₂会选择的策略Z₂*，所以最优策略组合为(Z₁*,Z₂*)；

2.根据权利要求1所述的人机协作中基于博弈论的安全控制策略，其特征在于：距离危险度由人机最小安全距离和人机最小距离的比值组成，其中人机最小安全距离是由机器人接收到停机指令后，在机器人停机时间段内人和机器人相对运动距离总和以及可调节的为防止其他干扰的常数q构成，G为距离危险度；V_r为机器人速度沿着操作者方向的分量；V_h为操作者速度沿着机器人方向的分量；T_r为机器人响应时间；T_r′为机器人停机时间；a_r为机器人停机所需的减速加速度；L_hr为当前人机最小距离，具体公式如下所示：

其次，该距离危险度还包括两个作用分别为：通过求得的距离危险度决定机械臂下一步停止运动还是进行博弈；通过比较双机械臂距离危险度的大小决定博弈的先后次序。