CN113867178B

CN113867178B - 面向多机器人对抗的虚实迁移训练系统

Info

Publication number: CN113867178B
Application number: CN202111248683.9A
Authority: CN
Inventors: 姚蔚然; 董博; 宋海旭; 张欧阳; 田昊宇; 孙科武; 丁季时雨
Original assignee: Second Research Institute Of Casic; Harbin Institute of Technology
Current assignee: Second Research Institute Of Casic; Harbin Institute of Technology
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-05-31
Anticipated expiration: 2041-10-26
Also published as: CN113867178A

Abstract

面向多机器人对抗的虚实迁移训练系统，涉及机器人对抗技术领域，针对现有决策训练过程中，单纯使用真实环境进行决策训练时训练成本较高，安全性较差的问题，本申请通过使用创新的训练方法，大大地减少了决策训练的成本，相比于传统的方法能够更加地充分考虑实际环境中的各种因素，经过该方法训练得到的决策适应度高、所需的训练时间短，决策准确度高，响应速度快等优点。通过该训练方法可以实现机器人在各种复杂环境下快速准确的完成决策训练。

Description

面向多机器人对抗的虚实迁移训练系统

技术领域

本发明涉及机器人对抗技术领域，具体为面向多机器人对抗的虚实迁移训练系统。

背景技术

多机器人博弈对抗是现如今的一个热点问题。在博弈对抗中，机器人攻防双方以环境信息为决策依据，共同追求各自的最高预期收益，最终收敛于博弈均衡状态。在这个过程中，同一阵营中的多个机器人进行合作，做出合适的决策。通过研究博弈对抗的相关问题，可以将该方法应用到军事、工业等诸多领域。但是，多机器人博弈对抗决策训练目前是一个难点，在真实环境下进行决策训练存在成本较高、安全性较差、同时训练时受环境因素的限制等缺点。

发明内容

本发明的目的是：针对现有决策训练过程中，单纯使用真实环境进行决策训练时训练成本较高，安全性较差的问题，提出面向多机器人对抗的虚实迁移训练系统。

本发明为了解决上述技术问题采取的技术方案是：

面向多机器人对抗的虚实迁移训练系统，包括：半真实环境模块、仿测环境模块、机器人决策规划模块、机器人运动控制模块、运动捕捉模块、评价模块和数据交互模块；

所述半真实环境模块用于根据虚拟物理环境构建半真实环境，并得到半真实环境中的机器人、机器人的机械参数、机器人的传感器参数、障碍物及斜坡信息；

所述仿测环境模块用于根据半真实环境中的机器人、机器人的机械参数、机器人的传感器参数、障碍物及斜坡信息构建仿测环境，所述仿测环境中包括与半真实环境参数相同的机器人、机器人的机械参数、机器人的传感器参数、障碍物及斜坡信息；

所述机器人决策规划模块用于根据半真实环境及仿测环境中的机器人、机器人的机械参数、机器人的传感器参数、障碍物及斜坡信息对控制指令进行决策规划，并将决策信息发送给机器人运动控制模块；

所述机器人运动控制模块接收机器人决策规划模块的决策信息，并根据决策信息对半真实环境和仿测环境中的机器人进行控制；

所述运动捕捉模块用于捕捉半真实环境和仿测环境中的机器人的运动轨迹信息，并将运动轨迹信息发送给评价模块；

所述评价模块用于根据半真实环境和仿测环境中的机器人的运动轨迹信息的相似度对仿测环境中的机器人模型进行优化，并根据决策信息中的路径信息进行交叉度计算，根据交叉度计算的结果计算决策模块的优劣度，根据优劣度对决策模块进行修正；

所述数据交互模块用于机器人决策规划模块、机器人运动控制模块、运动捕捉模块和评价模块之间的数据交互。

进一步的，所述机器人决策规划模块通过基于收益函数梯度的纳什均衡寻找方法进行决策规划。

进一步的，所述运动捕捉模块包括至少三个相机构成的相机矩阵和中央处理单元，

所述相机矩阵实时记录机器人的位置信息，并将位置信息发送给中央处理单元，

所述相机在空间中等间隔排列，两两相机之间存在公共的可视区域。

进一步的，所述相机矩阵由六个高分辨率、高速度相机构成。

进一步的，所述相似度表示为：

其中，d表示为两条轨迹的相似度，d越小，则相似度越高，x_a与x_b代表着仿测环境与半真实环境中两条轨迹，x_ai和x_bi代表着两条轨迹中包含的轨迹点，n代表着每条轨迹中包含轨迹点的数量。

进一步的，所述优劣度表示为：

l＝S₁-S₂

公式中的S₁代表了入侵机器人处于被训练机器人攻击区域而得到的奖励分数，而S₂则是被训练机器人暴露在入侵机器人攻击范围内而得到的惩罚分数。

进一步的，所述机器人使用STM32单片机作为底层控制器，将直流电机当成执行器，使用麦克纳姆轮作为运动机构，传感器为测速编码器模块、惯性测量模块，并搭配相应的 DCDC电源与驱动电路。

进一步的，所述机器人运动控制模块通过在控制器中建立机器人的正向、逆向运动学模型，实现运动机构与执行器之间的关系转换，从而完成对机器人的运动控制。

进一步的，所述惯性测量模块为MPU6050，所述驱动电路为L298N。

进一步的，所述数据交互模块基于ModbusTCP通信协议。

本发明的有益效果是：

本申请通过使用创新的训练方法，大大地减少了决策训练的成本，相比于传统的方法能够更加地充分考虑实际环境中的各种因素，经过该方法训练得到的决策适应度高、所需的训练时间短，决策准确度高，响应速度快等优点。通过该训练方法可以实现机器人在各种复杂环境下快速准确的完成决策训练。

本申请通过建立了独有的数据交互模块，使得多机器人博弈对抗训练平台中的各个模块能够在局域网下快速地互相进行通信，构成了一个分布式系统。使得本平台中的各个设备能够完成资源共享，同时提高了本平台的数据安全性。与此同时，将一个大的计算任务拆解成有多个模块共同执行的多个并行任务，从而大大提高了计算速度。

本申请通过建立评价模块，将仿测环境和半真实环境连接到一起。评价模块评价半真实环境中的机器人的决策与行动并将其反馈到仿测环境，帮助仿测环境进行更正仿测环境的参数，进而调整决策规划模块的决策，使得通过仿测环境训练得到的决策能够适应半真实环境并且能够根据半真实环境的变化进行自我调整，快速的对决策进行修改进而得到较好的决策。

本申请通过在系统中使用运动捕捉模块，将半真实环境中的机器人的行为以及参数传到评价模块当中。这种情况下，评价模块能够测量得到精确的半真实环境中的机器人信息，相比与传统的通过机器人进行自我估计得到的信息，大大地提高了反馈信息的准确性，解决了反馈信息不准确的问题，大大提高了仿测环境决策训练的准确性。

附图说明

图1为本申请信息流程图；

图2为本申请训练流程图；

图3为车辆示意图。

具体实施方式

需要特别说明的是，在不冲突的情况下，本申请公开的各个实施方式之间可以相互组合。

具体实施方式一：参照图1和图2具体说明本实施方式，本实施方式所述的面向多机器人对抗的虚实迁移训练系统，包括：半真实环境模块、仿测环境模块、机器人决策规划模块、机器人运动控制模块、运动捕捉模块、评价模块和数据交互模块；

本发明是为了解决现有的决策训练过程中，单纯使用真实环境进行决策训练时训练成本较高，安全性较差，单纯通过仿测环境进行决策训练得到的方法较难在实际中应用和很难根据实际环境进行改进，设计固定的策略难以适应不同的情况等问题。本系统应用于特定的场景即真实环境较难开展实验或者真实环境较难进行还原的情况下中的多机器人对抗的训练。本系统中存在两种机器人：入侵机器人和被训练机器人。入侵机器人拥有着一个固定的决策规划模块，被训练机器人并没有一个固定决策规划模块，需要对其进行训，训练的结果是经过训练的被训练机器人能够击败入侵机器人。现提供一种多机器人博弈对抗决策训练平台及方法。

基于多机器人博弈对抗决策训练平台，所述系统包括系统搭建的半真实环境、仿测环境、机器人决策规划模块、机器人运动控制模块、运动捕捉模块、评价模块、数据交互模块；

真实环境：真实环境指的是本发明应用的实际场景，可能根据不同的实际情况包含多种不同的元素。常见的环境因素包含两种。一种是障碍物，会阻碍机器人的运行，机器人需要避让这类障碍物；另一种是特殊地形，机器人可以通行，但是会对自身的运动参数造成影响。

半真实环境：指的是该发明进行训练和验证时所在的实验室环境。半真实环境尽可能的与真实环境相似，包含真实环境中可能出现的一些真实元素：如模拟障碍物、模拟斜坡等。模拟障碍物为方形或圆柱形物体，会起到阻碍机器人行进的功能。当机器人遇到模拟障碍物时，只能绕过模拟障碍物。模拟斜坡是模拟实际环境中的斜坡，上斜坡会降低机器人的移动速度，下斜坡时会增加机器人的移动速度。搭建半真实环境时，首先选择合适的机器人，选择机器人应当先确定实验的目的，测量其实际机械及传感器参数，方便仿测环境进行机器人模型的搭建。一般情况下，认为机器人是具有移动功能的，能够在地面上进行移动。同时，机器人具有一定的攻击能力，在其面前固联的半径为R、夹角为θ的扇形区域内均可以进行攻击。其次是需要设置虚拟物理环境，虚拟物理环境中应当包含较多的元素，包括障碍物、斜坡等，根据仿测环境建立的虚拟物理环境等比例搭建半真实环境。

仿测环境：需要使用合适的软件进行多机器人博弈对抗环境的搭建。针对博弈对抗环境特点，需要设置虚拟物理环境。首先仿测环境中的虚拟物理环境应包括真实环境中所涵盖的障碍物、斜坡等元素。博弈多机器人的模型与实际机器人相同，不同于仿测环境中的虚拟物理环境向半真实环境迁移的数据流向特点，博弈机器人仿测平台的机器人模型需根据实际机器人的参数在仿测平台来进行建模，根据机器人的实际机械及传感器参数，进行仿测环境机器人模型的搭建，与半真实环境静态参数皆采用相同的比例。

机器人决策规划模块：机器人决策规划模块将每个机器人认为是独立的个体，在博弈决策时与其他机器人进行单独的信息交互，并进行独立博弈决策。在基于博弈论模型的求解中，每个机器人单独求解自己的收益函数或代价函数，从而达到纳什均衡，得到在该环境下的最优决策。得到决策后，将控制指令发送给半真实环境或者仿测环境中的机器人控制机器人进行运动。

机器人运动控制模块：机器人控制模块包含底层控制器、执行器、运动机构，传感器等单元，并配有相应的电源与驱动电路。通过在控制器中建立机器人的正向、逆向运动学模型，实现运动机构与执行器之间的关系转换，从而完成对机器人的运动控制。

运动捕捉模块：运动捕捉模块是有一组相机矩阵和中央处理单元构成的。相机在空间中等间隔排列，两两相机之间存在公共的可视区域，这样构成的相机矩阵能够完整的将空间中的信息记录下来。在本模块中，相机矩阵的作用主要为实时记录机器人的位置信息并将其传递给中央处理单元。中央处理单元通过数据交互模块将拍摄到的结果传输到评价模块中，根据评价模块的结果改变仿测环境，最终得到最优仿测环境。

评价模块：评价模块是本平台中的一个重要组成部分。评价模块用来评估本平台中的各项性能指标是否满足要求，能否继续进行优化。评价模块对算法结构和收敛性进行优化，最终可以提高博弈对抗算法的准确性以及在不同环境下的适应度。评价模块具体具有两个功能。首先，根据相同指令下机器人在仿测环境与半真实环境中的运动轨迹相似度对仿测环境中的机器人模型进行优化。其次，评价模块可以根据仿测环境中机器人根据决策模块规划得到的决策指令得到的路径信息进行交叉度的计算，根据得到的结果计算决策模块的优劣度，根据该结果对决策模块进行修正。

数据交互模块：数据交互模块负责平台间各个模块之间的数据交互。本数据交互模块使用特定的通信协议，在应用层使用工业中常用的或者是自己拟定的协议。通过使用该数据交互模块可以完成评价模块与仿测环境之间的信息交互、仿测环境与机器人之间的信息交互、机器人之间的信息交互以及运动捕捉模块和评价模块信息交互。通过各个模块之间的信息交互，最后共同得到一个最优的结果。

基于多机器人博弈对抗决策训练平台，所述系统的创新性训练方法如下所示：

1、根据实际需求建立虚拟物理环境，明确仿测环境中所涵盖的障碍物与斜坡等元素的数量以及种类。

2、根据具体的实际要求搭建半真实环境，选择合适的机器人，测量得到机械和实际参数，根据步骤一得到的虚拟物理环境搭建真实的环境。

3、根据步骤二中的得到的机器人的机械及传感器参数，在仿测环境中搭建出相应的模型，这样，仿测环境与半真实环境是大致相同的。

4、训练阶段1：对仿测环境进行微调，执行步骤如附图2所示，使用一个相同的初始控制指令，进入决策模块，将输出的结果分别输入到半真实环境与仿测环境当中去，通过机器人的控制模块控制机器人进行运动，通过数据交互模块将半真实环境中与仿测环境中的机器人的运动轨迹点输入到评价模块当中，使得评价模块根据半真实环境与仿测环境的轨迹相似度来判定仿测环境与半真实环境之间存在多大的差异，评价模块根据差异输出结果对仿测环境进行修改。重复本步骤直至评价模块判断半真实环境与仿测环境之间的差别小于阈值，此时不再对仿测环境进行修改。评价模块计算轨迹相似度的公式如下所示：

此公式中，d表示为两条轨迹的相似度，d越小，则相似度越高。x_a与x_b代表着仿测环境与半真实环境中两条轨迹，x_ai和x_bi代表着两条轨迹中包含的轨迹点，n代表着每条轨迹中包含轨迹点的数量。

5、训练阶段2：对决策模块进行训练。经过步骤4之后，仿测环境与半真实环境大致相同。仿测环境中的入侵机器人照一个固定的策略进行移动，对被训练机器人进行训练。决策模块产生一个决策，将结果输入到仿测环境中，仿测环境中的机器人根据得到的指令进行运动，将运动的轨迹送至评价模块中去，评价模块根据准则评价此决策模块，产生相应的指令对决策模块进行修改，修改后的决策模块继续产生指令控制机器人运动，重复上述流程直至评价模块判断此时训练得到的决策模块满足要求，停止修改决策模块。评价模块计算决策模块得到的决策的优劣度l的公式如下所示。

l＝S₁-S₂

公式中的S₁代表了入侵机器人处于被训练机器人攻击区域而得到的奖励分数，而S₂则是被训练机器人暴露在入侵机器人攻击范围内而得到的惩罚分数，l得到两者相减的结果——交叉度，l越高，说明该决策效果越好。

6、进一步提升决策模块在半真实环境中的准确性。重复步骤4、5直至决策模块不再发生变化，即得到了最优的决策模块。

实施例：

面向多机器人对抗的虚实迁移训练系统包括半真实环境、仿测环境、机器人决策规划模块、机器人运动控制模块、Optitrack运动捕捉模块、评价模块、Modbus数据交互模块。

半真实环境：本实施方式中半真实环境为实验室环境，其包括机器人的物理模型、机器人的机械参数、机器人的传感器参数、障碍物、斜坡等。可以在实验室建立该环境，选择无人车(如图3)作为机器人，通过其CAD模型获取其物理模型、机械参数及无人车的传感器参数，障碍物和斜坡按照仿测环境设置的虚拟物理环境进行定制从而使得半真实环境与仿测环境的近似相同。

仿测环境：其包括具有与半真实环境下相同参数的无人车、与半真实环境下相同的障碍物、斜坡等。根据是半真实环境中的无人车的物理模型、机械参数及无人车的传感器参数建立无人车的仿测模型，根据需要研究的问题确定虚拟物理环境，包括障碍物和斜坡等元素，并将其应用到半真实环境中。

机器人决策规划模块：其包括中央处理模块。仿测环境得到的结果通过Modbus数据交互模块传递给机器人决策规划模块，通过基于收益函数梯度的纳什均衡寻找方法进行决策规划。每个无人车的收益函数仅仅表示当前时刻的收益，收益函数仅仅是当前状态的函数，因而每个时刻的纳什均衡点是满足收益函数最大化的特定模块状态。通过该方法经过决策规划模块得到决策，并通过Modbus数据交互模块将其结果传递给无人车的控制模块，控制其完成指定的动作。

机器人运动控制模块：每个无人车使用STM32单片机作为底层控制器，将直流电机当成执行器，使用麦克纳姆轮作为运动机构，传感器为测速编码器模块、惯性测量模块(MPU6050)，并搭配相应的DCDC电源与驱动电路(L298N)。通过在控制器中建立无人车的正向、逆向运动学模型，实现运动机构与执行器之间的关系转换，从而完成对无人车的运动控制。

Optitrack运动捕捉模块：其包括运动运动捕捉传感器、中央处理单元。运动捕捉传感器使用的是相机矩阵。该相机矩阵由六个高分辨率、高速度相机构成，通过六个相机共同对半真实环境进行拍摄，将半真实环境中无人车的状态实时返回到中央处理单元，中央处理单元将无人车的状态通过传递Modbus数据交互模块给评价模块。

评价模块：其包括中央处理单元。评价模块具体具有两个功能。首先，根据相同指令下得到的无人车在机器人在仿测环境与半真实环境中的运动轨迹相似度对仿测环境中的无人车模型进行调整。其次，评价模块可以根据仿测环境中无人车根据决策模块规划得到的决策指令得到的路径信息进行交叉度的计算，根据该结果对决策模块进行修正。

Modbus数据交互模块：其包括中央处理模块与通信模块。本模块使用ModbusTCP通信协议，即在开放式模块互联通信参考模型(OSI模型)，传输层采用TCP协议，在应用层使用工业中常用的Modbus协议。在中央处理模块上使用node.js进行软件程序的编写，该软件程序可以对各个通信模块进行管理。通信模块部署在各个模块中，通过Modbus数据交互模块使得评价模块与仿测环境、仿测环境与无人车、以及运动捕捉模块和评价模块之间完成信息交互。

根据上面的训练方法，对多机器人博弈对抗决策训练平台进行训练；

1、建立仿测环境中的虚拟物理环境。

2、搭建半真实环境，测量得到机器人的机械和实际参数，根据虚拟物理环境搭建半真实的环境。

3、根据测量得到的机器人的机械及传感器参数，在仿测环境中搭建出相应的模型，得到大致相同的半真实环境和仿测环境。

4、对仿测环境进行微调，执行步骤如附图3所示，将无人车的初始位置输入到决策模块，将决策模块得到的运动控制指令分别输入到半真实环境与仿测环境当中的无人车的机器人控制模块中当中，通过机器人的控制模块控制机器人进行运动，通过Modbus数据交互模块将半真实环境中与仿测环境中的无人车的轨迹信息输入到评价模块当中，使得评价模块根据结果的相似程度来判定仿测环境与半真实环境之间存在多大的差异，评价模块根据差异输出结果判断是否需要对仿测环境进行修改。重复本步骤直至评价模块不在对仿测环境进行修改为止。

5、对决策模块进行训练。经过步骤4之后，仿测环境与半真实环境完全相同。决策模块产生一个运动控制指令，将得到的结果输入到仿测环境中，仿测环境中的无人车根据得到的指令进行运动，将运动轨迹送至评价模块中去，评价模块根据评价指标评价此决策模块，产生相应的指令对决策模块进行修改，修改后的决策模块继续产生指令控制机器人进行运动，评价模块根据当前仿测环境输出的结果判断此时的决策模块是否满足要求，一直重复本步骤直至决策模块满足要求，评价模块不再修改决策模块为止。

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.面向多机器人对抗的虚实迁移训练系统，其特征在于包括：半真实环境模块、仿测环境模块、机器人决策规划模块、机器人运动控制模块、运动捕捉模块、评价模块和数据交互模块；

所述评价模块用于根据半真实环境和仿测环境中的机器人的运动轨迹信息的相似度对仿测环境中的机器人模型的速度与角速度参数进行优化，并根据仿测环境中的路径信息进行交叉度计算，根据交叉度计算的结果计算决策模块的优劣度，根据优劣度对决策模块进行修正；

2.根据权利要求1所述的面向多机器人对抗的虚实迁移训练系统，其特征在于所述机器人决策规划模块通过基于收益函数梯度的纳什均衡寻找方法进行决策规划。

3.根据权利要求1所述的面向多机器人对抗的虚实迁移训练系统，其特征在于所述运动捕捉模块包括至少三个相机构成的相机矩阵和中央处理单元，

4.根据权利要求3所述的面向多机器人对抗的虚实迁移训练系统，其特征在于所述相机矩阵由六个高分辨率、高速度相机构成。

5.根据权利要求1所述的面向多机器人对抗的虚实迁移训练系统，其特征在于所述相似度表示为：

6.根据权利要求1所述的面向多机器人对抗的虚实迁移训练系统，其特征在于所述优劣度表示为：

l＝S₁-S₂

S₁＝∫₀ ^TF₁(t)dt

S₂＝∫₀ ^TF₂(t)dt

7.根据权利要求1所述的面向多机器人对抗的虚实迁移训练系统，其特征在于所述机器人使用STM32单片机作为底层控制器，将直流电机当成执行器，使用麦克纳姆轮作为运动机构，传感器为测速编码器模块、惯性测量模块，并搭配相应的DCDC电源与驱动电路。

8.根据权利要求7所述的面向多机器人对抗的虚实迁移训练系统，其特征在于所述机器人运动控制模块通过在控制器中建立机器人的正向、逆向运动学模型，实现运动机构与执行器之间的关系转换，从而完成对机器人的运动控制。

9.根据权利要求7所述的面向多机器人对抗的虚实迁移训练系统，其特征在于所述惯性测量模块为MPU6050，所述驱动电路为L298N。

10.根据权利要求7所述的面向多机器人对抗的虚实迁移训练系统，其特征在于所述数据交互模块基于ModbusTCP通信协议。