CN113867178B - 面向多机器人对抗的虚实迁移训练系统 - Google Patents

面向多机器人对抗的虚实迁移训练系统 Download PDF

Info

Publication number
CN113867178B
CN113867178B CN202111248683.9A CN202111248683A CN113867178B CN 113867178 B CN113867178 B CN 113867178B CN 202111248683 A CN202111248683 A CN 202111248683A CN 113867178 B CN113867178 B CN 113867178B
Authority
CN
China
Prior art keywords
robot
module
environment
real
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111248683.9A
Other languages
English (en)
Other versions
CN113867178A (zh
Inventor
姚蔚然
董博
宋海旭
张欧阳
田昊宇
孙科武
丁季时雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Second Research Institute Of Casic
Harbin Institute of Technology
Original Assignee
Second Research Institute Of Casic
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Second Research Institute Of Casic, Harbin Institute of Technology filed Critical Second Research Institute Of Casic
Priority to CN202111248683.9A priority Critical patent/CN113867178B/zh
Publication of CN113867178A publication Critical patent/CN113867178A/zh
Application granted granted Critical
Publication of CN113867178B publication Critical patent/CN113867178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B17/00Systems involving the use of models or simulators of said systems
    • G05B17/02Systems involving the use of models or simulators of said systems electric

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)

Abstract

面向多机器人对抗的虚实迁移训练系统,涉及机器人对抗技术领域,针对现有决策训练过程中,单纯使用真实环境进行决策训练时训练成本较高,安全性较差的问题,本申请通过使用创新的训练方法,大大地减少了决策训练的成本,相比于传统的方法能够更加地充分考虑实际环境中的各种因素,经过该方法训练得到的决策适应度高、所需的训练时间短,决策准确度高,响应速度快等优点。通过该训练方法可以实现机器人在各种复杂环境下快速准确的完成决策训练。

Description

面向多机器人对抗的虚实迁移训练系统
技术领域
本发明涉及机器人对抗技术领域,具体为面向多机器人对抗的虚实迁移训练系统。
背景技术
多机器人博弈对抗是现如今的一个热点问题。在博弈对抗中,机器人攻防双方以环境信息为决策依据,共同追求各自的最高预期收益,最终收敛于博弈均衡状态。在这个过程中,同一阵营中的多个机器人进行合作,做出合适的决策。通过研究博弈对抗的相关问题,可以将该方法应用到军事、工业等诸多领域。但是,多机器人博弈对抗决策训练目前是一个难点,在真实环境下进行决策训练存在成本较高、安全性较差、同时训练时受环境因素的限制等缺点。
发明内容
本发明的目的是:针对现有决策训练过程中,单纯使用真实环境进行决策训练时训练成本较高,安全性较差的问题,提出面向多机器人对抗的虚实迁移训练系统。
本发明为了解决上述技术问题采取的技术方案是:
面向多机器人对抗的虚实迁移训练系统,包括:半真实环境模块、仿测环境模块、机器人决策规划模块、机器人运动控制模块、运动捕捉模块、评价模块和数据交互模块;
所述半真实环境模块用于根据虚拟物理环境构建半真实环境,并得到半真实环境中的机器人、机器人的机械参数、机器人的传感器参数、障碍物及斜坡信息;
所述仿测环境模块用于根据半真实环境中的机器人、机器人的机械参数、机器人的传感器参数、障碍物及斜坡信息构建仿测环境,所述仿测环境中包括与半真实环境参数相同的机器人、机器人的机械参数、机器人的传感器参数、障碍物及斜坡信息;
所述机器人决策规划模块用于根据半真实环境及仿测环境中的机器人、机器人的机械参数、机器人的传感器参数、障碍物及斜坡信息对控制指令进行决策规划,并将决策信息发送给机器人运动控制模块;
所述机器人运动控制模块接收机器人决策规划模块的决策信息,并根据决策信息对半真实环境和仿测环境中的机器人进行控制;
所述运动捕捉模块用于捕捉半真实环境和仿测环境中的机器人的运动轨迹信息,并将运动轨迹信息发送给评价模块;
所述评价模块用于根据半真实环境和仿测环境中的机器人的运动轨迹信息的相似度对仿测环境中的机器人模型进行优化,并根据决策信息中的路径信息进行交叉度计算,根据交叉度计算的结果计算决策模块的优劣度,根据优劣度对决策模块进行修正;
所述数据交互模块用于机器人决策规划模块、机器人运动控制模块、运动捕捉模块和评价模块之间的数据交互。
进一步的,所述机器人决策规划模块通过基于收益函数梯度的纳什均衡寻找方法进行决策规划。
进一步的,所述运动捕捉模块包括至少三个相机构成的相机矩阵和中央处理单元,
所述相机矩阵实时记录机器人的位置信息,并将位置信息发送给中央处理单元,
所述相机在空间中等间隔排列,两两相机之间存在公共的可视区域。
进一步的,所述相机矩阵由六个高分辨率、高速度相机构成。
进一步的,所述相似度表示为:
Figure GDA0003568523620000021
其中,d表示为两条轨迹的相似度,d越小,则相似度越高,xa与xb代表着仿测环境与半真实环境中两条轨迹,xai和xbi代表着两条轨迹中包含的轨迹点,n代表着每条轨迹中包含轨迹点的数量。
进一步的,所述优劣度表示为:
l=S1-S2
Figure GDA0003568523620000022
Figure GDA0003568523620000023
Figure GDA0003568523620000024
Figure GDA0003568523620000025
公式中的S1代表了入侵机器人处于被训练机器人攻击区域而得到的奖励分数,而S2则是被训练机器人暴露在入侵机器人攻击范围内而得到的惩罚分数。
进一步的,所述机器人使用STM32单片机作为底层控制器,将直流电机当成执行器,使用麦克纳姆轮作为运动机构,传感器为测速编码器模块、惯性测量模块,并搭配相应的 DCDC电源与驱动电路。
进一步的,所述机器人运动控制模块通过在控制器中建立机器人的正向、逆向运动学模型,实现运动机构与执行器之间的关系转换,从而完成对机器人的运动控制。
进一步的,所述惯性测量模块为MPU6050,所述驱动电路为L298N。
进一步的,所述数据交互模块基于ModbusTCP通信协议。
本发明的有益效果是:
本申请通过使用创新的训练方法,大大地减少了决策训练的成本,相比于传统的方法能够更加地充分考虑实际环境中的各种因素,经过该方法训练得到的决策适应度高、所需的训练时间短,决策准确度高,响应速度快等优点。通过该训练方法可以实现机器人在各种复杂环境下快速准确的完成决策训练。
本申请通过建立了独有的数据交互模块,使得多机器人博弈对抗训练平台中的各个模块能够在局域网下快速地互相进行通信,构成了一个分布式系统。使得本平台中的各个设备能够完成资源共享,同时提高了本平台的数据安全性。与此同时,将一个大的计算任务拆解成有多个模块共同执行的多个并行任务,从而大大提高了计算速度。
本申请通过建立评价模块,将仿测环境和半真实环境连接到一起。评价模块评价半真实环境中的机器人的决策与行动并将其反馈到仿测环境,帮助仿测环境进行更正仿测环境的参数,进而调整决策规划模块的决策,使得通过仿测环境训练得到的决策能够适应半真实环境并且能够根据半真实环境的变化进行自我调整,快速的对决策进行修改进而得到较好的决策。
本申请通过在系统中使用运动捕捉模块,将半真实环境中的机器人的行为以及参数传到评价模块当中。这种情况下,评价模块能够测量得到精确的半真实环境中的机器人信息,相比与传统的通过机器人进行自我估计得到的信息,大大地提高了反馈信息的准确性,解决了反馈信息不准确的问题,大大提高了仿测环境决策训练的准确性。
附图说明
图1为本申请信息流程图;
图2为本申请训练流程图;
图3为车辆示意图。
具体实施方式
需要特别说明的是,在不冲突的情况下,本申请公开的各个实施方式之间可以相互组合。
具体实施方式一:参照图1和图2具体说明本实施方式,本实施方式所述的面向多机器人对抗的虚实迁移训练系统,包括:半真实环境模块、仿测环境模块、机器人决策规划模块、机器人运动控制模块、运动捕捉模块、评价模块和数据交互模块;
所述半真实环境模块用于根据虚拟物理环境构建半真实环境,并得到半真实环境中的机器人、机器人的机械参数、机器人的传感器参数、障碍物及斜坡信息;
所述仿测环境模块用于根据半真实环境中的机器人、机器人的机械参数、机器人的传感器参数、障碍物及斜坡信息构建仿测环境,所述仿测环境中包括与半真实环境参数相同的机器人、机器人的机械参数、机器人的传感器参数、障碍物及斜坡信息;
所述机器人决策规划模块用于根据半真实环境及仿测环境中的机器人、机器人的机械参数、机器人的传感器参数、障碍物及斜坡信息对控制指令进行决策规划,并将决策信息发送给机器人运动控制模块;
所述机器人运动控制模块接收机器人决策规划模块的决策信息,并根据决策信息对半真实环境和仿测环境中的机器人进行控制;
所述运动捕捉模块用于捕捉半真实环境和仿测环境中的机器人的运动轨迹信息,并将运动轨迹信息发送给评价模块;
所述评价模块用于根据半真实环境和仿测环境中的机器人的运动轨迹信息的相似度对仿测环境中的机器人模型进行优化,并根据决策信息中的路径信息进行交叉度计算,根据交叉度计算的结果计算决策模块的优劣度,根据优劣度对决策模块进行修正;
所述数据交互模块用于机器人决策规划模块、机器人运动控制模块、运动捕捉模块和评价模块之间的数据交互。
本发明是为了解决现有的决策训练过程中,单纯使用真实环境进行决策训练时训练成本较高,安全性较差,单纯通过仿测环境进行决策训练得到的方法较难在实际中应用和很难根据实际环境进行改进,设计固定的策略难以适应不同的情况等问题。本系统应用于特定的场景即真实环境较难开展实验或者真实环境较难进行还原的情况下中的多机器人对抗的训练。本系统中存在两种机器人:入侵机器人和被训练机器人。入侵机器人拥有着一个固定的决策规划模块,被训练机器人并没有一个固定决策规划模块,需要对其进行训,训练的结果是经过训练的被训练机器人能够击败入侵机器人。现提供一种多机器人博弈对抗决策训练平台及方法。
基于多机器人博弈对抗决策训练平台,所述系统包括系统搭建的半真实环境、仿测环境、机器人决策规划模块、机器人运动控制模块、运动捕捉模块、评价模块、数据交互模块;
真实环境:真实环境指的是本发明应用的实际场景,可能根据不同的实际情况包含多种不同的元素。常见的环境因素包含两种。一种是障碍物,会阻碍机器人的运行,机器人需要避让这类障碍物;另一种是特殊地形,机器人可以通行,但是会对自身的运动参数造成影响。
半真实环境:指的是该发明进行训练和验证时所在的实验室环境。半真实环境尽可能的与真实环境相似,包含真实环境中可能出现的一些真实元素:如模拟障碍物、模拟斜坡等。模拟障碍物为方形或圆柱形物体,会起到阻碍机器人行进的功能。当机器人遇到模拟障碍物时,只能绕过模拟障碍物。模拟斜坡是模拟实际环境中的斜坡,上斜坡会降低机器人的移动速度,下斜坡时会增加机器人的移动速度。搭建半真实环境时,首先选择合适的机器人,选择机器人应当先确定实验的目的,测量其实际机械及传感器参数,方便仿测环境进行机器人模型的搭建。一般情况下,认为机器人是具有移动功能的,能够在地面上进行移动。同时,机器人具有一定的攻击能力,在其面前固联的半径为R、夹角为θ的扇形区域内均可以进行攻击。其次是需要设置虚拟物理环境,虚拟物理环境中应当包含较多的元素,包括障碍物、斜坡等,根据仿测环境建立的虚拟物理环境等比例搭建半真实环境。
仿测环境:需要使用合适的软件进行多机器人博弈对抗环境的搭建。针对博弈对抗环境特点,需要设置虚拟物理环境。首先仿测环境中的虚拟物理环境应包括真实环境中所涵盖的障碍物、斜坡等元素。博弈多机器人的模型与实际机器人相同,不同于仿测环境中的虚拟物理环境向半真实环境迁移的数据流向特点,博弈机器人仿测平台的机器人模型需根据实际机器人的参数在仿测平台来进行建模,根据机器人的实际机械及传感器参数,进行仿测环境机器人模型的搭建,与半真实环境静态参数皆采用相同的比例。
机器人决策规划模块:机器人决策规划模块将每个机器人认为是独立的个体,在博弈决策时与其他机器人进行单独的信息交互,并进行独立博弈决策。在基于博弈论模型的求解中,每个机器人单独求解自己的收益函数或代价函数,从而达到纳什均衡,得到在该环境下的最优决策。得到决策后,将控制指令发送给半真实环境或者仿测环境中的机器人控制机器人进行运动。
机器人运动控制模块:机器人控制模块包含底层控制器、执行器、运动机构,传感器等单元,并配有相应的电源与驱动电路。通过在控制器中建立机器人的正向、逆向运动学模型,实现运动机构与执行器之间的关系转换,从而完成对机器人的运动控制。
运动捕捉模块:运动捕捉模块是有一组相机矩阵和中央处理单元构成的。相机在空间中等间隔排列,两两相机之间存在公共的可视区域,这样构成的相机矩阵能够完整的将空间中的信息记录下来。在本模块中,相机矩阵的作用主要为实时记录机器人的位置信息并将其传递给中央处理单元。中央处理单元通过数据交互模块将拍摄到的结果传输到评价模块中,根据评价模块的结果改变仿测环境,最终得到最优仿测环境。
评价模块:评价模块是本平台中的一个重要组成部分。评价模块用来评估本平台中的各项性能指标是否满足要求,能否继续进行优化。评价模块对算法结构和收敛性进行优化,最终可以提高博弈对抗算法的准确性以及在不同环境下的适应度。评价模块具体具有两个功能。首先,根据相同指令下机器人在仿测环境与半真实环境中的运动轨迹相似度对仿测环境中的机器人模型进行优化。其次,评价模块可以根据仿测环境中机器人根据决策模块规划得到的决策指令得到的路径信息进行交叉度的计算,根据得到的结果计算决策模块的优劣度,根据该结果对决策模块进行修正。
数据交互模块:数据交互模块负责平台间各个模块之间的数据交互。本数据交互模块使用特定的通信协议,在应用层使用工业中常用的或者是自己拟定的协议。通过使用该数据交互模块可以完成评价模块与仿测环境之间的信息交互、仿测环境与机器人之间的信息交互、机器人之间的信息交互以及运动捕捉模块和评价模块信息交互。通过各个模块之间的信息交互,最后共同得到一个最优的结果。
基于多机器人博弈对抗决策训练平台,所述系统的创新性训练方法如下所示:
1、根据实际需求建立虚拟物理环境,明确仿测环境中所涵盖的障碍物与斜坡等元素的数量以及种类。
2、根据具体的实际要求搭建半真实环境,选择合适的机器人,测量得到机械和实际参数,根据步骤一得到的虚拟物理环境搭建真实的环境。
3、根据步骤二中的得到的机器人的机械及传感器参数,在仿测环境中搭建出相应的模型,这样,仿测环境与半真实环境是大致相同的。
4、训练阶段1:对仿测环境进行微调,执行步骤如附图2所示,使用一个相同的初始控制指令,进入决策模块,将输出的结果分别输入到半真实环境与仿测环境当中去,通过机器人的控制模块控制机器人进行运动,通过数据交互模块将半真实环境中与仿测环境中的机器人的运动轨迹点输入到评价模块当中,使得评价模块根据半真实环境与仿测环境的轨迹相似度来判定仿测环境与半真实环境之间存在多大的差异,评价模块根据差异输出结果对仿测环境进行修改。重复本步骤直至评价模块判断半真实环境与仿测环境之间的差别小于阈值,此时不再对仿测环境进行修改。评价模块计算轨迹相似度的公式如下所示:
Figure GDA0003568523620000071
此公式中,d表示为两条轨迹的相似度,d越小,则相似度越高。xa与xb代表着仿测环境与半真实环境中两条轨迹,xai和xbi代表着两条轨迹中包含的轨迹点,n代表着每条轨迹中包含轨迹点的数量。
5、训练阶段2:对决策模块进行训练。经过步骤4之后,仿测环境与半真实环境大致相同。仿测环境中的入侵机器人照一个固定的策略进行移动,对被训练机器人进行训练。决策模块产生一个决策,将结果输入到仿测环境中,仿测环境中的机器人根据得到的指令进行运动,将运动的轨迹送至评价模块中去,评价模块根据准则评价此决策模块,产生相应的指令对决策模块进行修改,修改后的决策模块继续产生指令控制机器人运动,重复上述流程直至评价模块判断此时训练得到的决策模块满足要求,停止修改决策模块。评价模块计算决策模块得到的决策的优劣度l的公式如下所示。
l=S1-S2
Figure GDA0003568523620000072
Figure GDA0003568523620000073
Figure GDA0003568523620000074
Figure GDA0003568523620000075
公式中的S1代表了入侵机器人处于被训练机器人攻击区域而得到的奖励分数,而S2则是被训练机器人暴露在入侵机器人攻击范围内而得到的惩罚分数,l得到两者相减的结果——交叉度,l越高,说明该决策效果越好。
6、进一步提升决策模块在半真实环境中的准确性。重复步骤4、5直至决策模块不再发生变化,即得到了最优的决策模块。
实施例:
面向多机器人对抗的虚实迁移训练系统包括半真实环境、仿测环境、机器人决策规划模块、机器人运动控制模块、Optitrack运动捕捉模块、评价模块、Modbus数据交互模块。
半真实环境:本实施方式中半真实环境为实验室环境,其包括机器人的物理模型、机器人的机械参数、机器人的传感器参数、障碍物、斜坡等。可以在实验室建立该环境,选择无人车(如图3)作为机器人,通过其CAD模型获取其物理模型、机械参数及无人车的传感器参数,障碍物和斜坡按照仿测环境设置的虚拟物理环境进行定制从而使得半真实环境与仿测环境的近似相同。
仿测环境:其包括具有与半真实环境下相同参数的无人车、与半真实环境下相同的障碍物、斜坡等。根据是半真实环境中的无人车的物理模型、机械参数及无人车的传感器参数建立无人车的仿测模型,根据需要研究的问题确定虚拟物理环境,包括障碍物和斜坡等元素,并将其应用到半真实环境中。
机器人决策规划模块:其包括中央处理模块。仿测环境得到的结果通过Modbus数据交互模块传递给机器人决策规划模块,通过基于收益函数梯度的纳什均衡寻找方法进行决策规划。每个无人车的收益函数仅仅表示当前时刻的收益,收益函数仅仅是当前状态的函数,因而每个时刻的纳什均衡点是满足收益函数最大化的特定模块状态。通过该方法经过决策规划模块得到决策,并通过Modbus数据交互模块将其结果传递给无人车的控制模块,控制其完成指定的动作。
机器人运动控制模块:每个无人车使用STM32单片机作为底层控制器,将直流电机当成执行器,使用麦克纳姆轮作为运动机构,传感器为测速编码器模块、惯性测量模块(MPU6050),并搭配相应的DCDC电源与驱动电路(L298N)。通过在控制器中建立无人车的正向、逆向运动学模型,实现运动机构与执行器之间的关系转换,从而完成对无人车的运动控制。
Optitrack运动捕捉模块:其包括运动运动捕捉传感器、中央处理单元。运动捕捉传感器使用的是相机矩阵。该相机矩阵由六个高分辨率、高速度相机构成,通过六个相机共同对半真实环境进行拍摄,将半真实环境中无人车的状态实时返回到中央处理单元,中央处理单元将无人车的状态通过传递Modbus数据交互模块给评价模块。
评价模块:其包括中央处理单元。评价模块具体具有两个功能。首先,根据相同指令下得到的无人车在机器人在仿测环境与半真实环境中的运动轨迹相似度对仿测环境中的无人车模型进行调整。其次,评价模块可以根据仿测环境中无人车根据决策模块规划得到的决策指令得到的路径信息进行交叉度的计算,根据该结果对决策模块进行修正。
Modbus数据交互模块:其包括中央处理模块与通信模块。本模块使用ModbusTCP通信协议,即在开放式模块互联通信参考模型(OSI模型),传输层采用TCP协议,在应用层使用工业中常用的Modbus协议。在中央处理模块上使用node.js进行软件程序的编写,该软件程序可以对各个通信模块进行管理。通信模块部署在各个模块中,通过Modbus数据交互模块使得评价模块与仿测环境、仿测环境与无人车、以及运动捕捉模块和评价模块之间完成信息交互。
根据上面的训练方法,对多机器人博弈对抗决策训练平台进行训练;
1、建立仿测环境中的虚拟物理环境。
2、搭建半真实环境,测量得到机器人的机械和实际参数,根据虚拟物理环境搭建半真实的环境。
3、根据测量得到的机器人的机械及传感器参数,在仿测环境中搭建出相应的模型,得到大致相同的半真实环境和仿测环境。
4、对仿测环境进行微调,执行步骤如附图3所示,将无人车的初始位置输入到决策模块,将决策模块得到的运动控制指令分别输入到半真实环境与仿测环境当中的无人车的机器人控制模块中当中,通过机器人的控制模块控制机器人进行运动,通过Modbus数据交互模块将半真实环境中与仿测环境中的无人车的轨迹信息输入到评价模块当中,使得评价模块根据结果的相似程度来判定仿测环境与半真实环境之间存在多大的差异,评价模块根据差异输出结果判断是否需要对仿测环境进行修改。重复本步骤直至评价模块不在对仿测环境进行修改为止。
5、对决策模块进行训练。经过步骤4之后,仿测环境与半真实环境完全相同。决策模块产生一个运动控制指令,将得到的结果输入到仿测环境中,仿测环境中的无人车根据得到的指令进行运动,将运动轨迹送至评价模块中去,评价模块根据评价指标评价此决策模块,产生相应的指令对决策模块进行修改,修改后的决策模块继续产生指令控制机器人进行运动,评价模块根据当前仿测环境输出的结果判断此时的决策模块是否满足要求,一直重复本步骤直至决策模块满足要求,评价模块不再修改决策模块为止。
6、进一步提升决策模块在半真实环境中的准确性。重复步骤4、5直至决策模块不再发生变化,即得到了最优的决策模块。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

Claims (10)

1.面向多机器人对抗的虚实迁移训练系统,其特征在于包括:半真实环境模块、仿测环境模块、机器人决策规划模块、机器人运动控制模块、运动捕捉模块、评价模块和数据交互模块;
所述半真实环境模块用于根据虚拟物理环境构建半真实环境,并得到半真实环境中的机器人、机器人的机械参数、机器人的传感器参数、障碍物及斜坡信息;
所述仿测环境模块用于根据半真实环境中的机器人、机器人的机械参数、机器人的传感器参数、障碍物及斜坡信息构建仿测环境,所述仿测环境中包括与半真实环境参数相同的机器人、机器人的机械参数、机器人的传感器参数、障碍物及斜坡信息;
所述机器人决策规划模块用于根据半真实环境及仿测环境中的机器人、机器人的机械参数、机器人的传感器参数、障碍物及斜坡信息对控制指令进行决策规划,并将决策信息发送给机器人运动控制模块;
所述机器人运动控制模块接收机器人决策规划模块的决策信息,并根据决策信息对半真实环境和仿测环境中的机器人进行控制;
所述运动捕捉模块用于捕捉半真实环境和仿测环境中的机器人的运动轨迹信息,并将运动轨迹信息发送给评价模块;
所述评价模块用于根据半真实环境和仿测环境中的机器人的运动轨迹信息的相似度对仿测环境中的机器人模型的速度与角速度参数进行优化,并根据仿测环境中的路径信息进行交叉度计算,根据交叉度计算的结果计算决策模块的优劣度,根据优劣度对决策模块进行修正;
所述数据交互模块用于机器人决策规划模块、机器人运动控制模块、运动捕捉模块和评价模块之间的数据交互。
2.根据权利要求1所述的面向多机器人对抗的虚实迁移训练系统,其特征在于所述机器人决策规划模块通过基于收益函数梯度的纳什均衡寻找方法进行决策规划。
3.根据权利要求1所述的面向多机器人对抗的虚实迁移训练系统,其特征在于所述运动捕捉模块包括至少三个相机构成的相机矩阵和中央处理单元,
所述相机矩阵实时记录机器人的位置信息,并将位置信息发送给中央处理单元,
所述相机在空间中等间隔排列,两两相机之间存在公共的可视区域。
4.根据权利要求3所述的面向多机器人对抗的虚实迁移训练系统,其特征在于所述相机矩阵由六个高分辨率、高速度相机构成。
5.根据权利要求1所述的面向多机器人对抗的虚实迁移训练系统,其特征在于所述相似度表示为:
Figure FDA0003591954320000021
其中,d表示为两条轨迹的相似度,d越小,则相似度越高,xa与xb代表着仿测环境与半真实环境中两条轨迹,xai和xbi代表着两条轨迹中包含的轨迹点,n代表着每条轨迹中包含轨迹点的数量。
6.根据权利要求1所述的面向多机器人对抗的虚实迁移训练系统,其特征在于所述优劣度表示为:
l=S1-S2
S1=∫0 TF1(t)dt
Figure FDA0003591954320000022
S2=∫0 TF2(t)dt
Figure FDA0003591954320000023
公式中的S1代表了入侵机器人处于被训练机器人攻击区域而得到的奖励分数,而S2则是被训练机器人暴露在入侵机器人攻击范围内而得到的惩罚分数。
7.根据权利要求1所述的面向多机器人对抗的虚实迁移训练系统,其特征在于所述机器人使用STM32单片机作为底层控制器,将直流电机当成执行器,使用麦克纳姆轮作为运动机构,传感器为测速编码器模块、惯性测量模块,并搭配相应的DCDC电源与驱动电路。
8.根据权利要求7所述的面向多机器人对抗的虚实迁移训练系统,其特征在于所述机器人运动控制模块通过在控制器中建立机器人的正向、逆向运动学模型,实现运动机构与执行器之间的关系转换,从而完成对机器人的运动控制。
9.根据权利要求7所述的面向多机器人对抗的虚实迁移训练系统,其特征在于所述惯性测量模块为MPU6050,所述驱动电路为L298N。
10.根据权利要求7所述的面向多机器人对抗的虚实迁移训练系统,其特征在于所述数据交互模块基于ModbusTCP通信协议。
CN202111248683.9A 2021-10-26 2021-10-26 面向多机器人对抗的虚实迁移训练系统 Active CN113867178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111248683.9A CN113867178B (zh) 2021-10-26 2021-10-26 面向多机器人对抗的虚实迁移训练系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111248683.9A CN113867178B (zh) 2021-10-26 2021-10-26 面向多机器人对抗的虚实迁移训练系统

Publications (2)

Publication Number Publication Date
CN113867178A CN113867178A (zh) 2021-12-31
CN113867178B true CN113867178B (zh) 2022-05-31

Family

ID=78998048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111248683.9A Active CN113867178B (zh) 2021-10-26 2021-10-26 面向多机器人对抗的虚实迁移训练系统

Country Status (1)

Country Link
CN (1) CN113867178B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115206157A (zh) * 2022-08-05 2022-10-18 白杨时代(北京)科技有限公司 一种无人潜航器寻路训练方法、装置及无人潜航器

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101964019A (zh) * 2010-09-10 2011-02-02 北京航空航天大学 基于Agent技术的对抗行为建模仿真平台及仿真方法
CN108446801A (zh) * 2018-03-22 2018-08-24 成都大象分形智能科技有限公司 一种多人信息非对称博弈游戏决策生成系统
CN109325690A (zh) * 2018-09-26 2019-02-12 中国人民解放军国防科技大学 面向无人平台指挥控制的策略博弈系统及其应用方法
CN109614631A (zh) * 2018-10-18 2019-04-12 清华大学 基于强化学习和迁移学习的飞行器全自动气动优化方法
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN109782600A (zh) * 2019-01-25 2019-05-21 东华大学 一种通过虚拟环境建立自主移动机器人导航系统的方法
CN110280019A (zh) * 2019-06-21 2019-09-27 南京邮电大学 基于强化学习的足球机器人防守策略
CN111221352A (zh) * 2020-03-03 2020-06-02 中国科学院自动化研究所 基于多无人机协同博弈对抗的控制系统
CN111795700A (zh) * 2020-06-30 2020-10-20 浙江大学 一种无人车强化学习训练环境构建方法及其训练系统
CN111983936A (zh) * 2020-08-31 2020-11-24 广州机械科学研究院有限公司 一种无人机半物理仿真系统及测评方法
CN112034888A (zh) * 2020-09-10 2020-12-04 南京大学 一种固定翼无人机自主控制协作策略训练方法
CN112783199A (zh) * 2020-12-25 2021-05-11 北京航空航天大学 一种基于迁移学习的无人机自主导航方法
CN112906888A (zh) * 2021-03-02 2021-06-04 中国人民解放军军事科学院国防科技创新研究院 一种任务执行方法及装置、电子设备和存储介质
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法
CN113221444A (zh) * 2021-04-20 2021-08-06 中国电子科技集团公司第五十二研究所 一种面向空中智能博弈的行为模仿训练方法
CN113282100A (zh) * 2021-04-28 2021-08-20 南京大学 基于强化学习的无人机对抗博弈训练控制方法
CN113282061A (zh) * 2021-04-25 2021-08-20 南京大学 一种基于课程学习的无人机空中博弈对抗的解决方法
CN113435564A (zh) * 2021-05-25 2021-09-24 北京理工大学 一种基于强化学习的增强现实多智能体协作对抗实现方法
CN113467515A (zh) * 2021-07-22 2021-10-01 南京大学 基于虚拟环境模仿重构和强化学习的无人机飞行控制方法

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101964019A (zh) * 2010-09-10 2011-02-02 北京航空航天大学 基于Agent技术的对抗行为建模仿真平台及仿真方法
CN108446801A (zh) * 2018-03-22 2018-08-24 成都大象分形智能科技有限公司 一种多人信息非对称博弈游戏决策生成系统
CN109325690A (zh) * 2018-09-26 2019-02-12 中国人民解放军国防科技大学 面向无人平台指挥控制的策略博弈系统及其应用方法
CN109614631A (zh) * 2018-10-18 2019-04-12 清华大学 基于强化学习和迁移学习的飞行器全自动气动优化方法
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN109782600A (zh) * 2019-01-25 2019-05-21 东华大学 一种通过虚拟环境建立自主移动机器人导航系统的方法
CN110280019A (zh) * 2019-06-21 2019-09-27 南京邮电大学 基于强化学习的足球机器人防守策略
CN111221352A (zh) * 2020-03-03 2020-06-02 中国科学院自动化研究所 基于多无人机协同博弈对抗的控制系统
CN111795700A (zh) * 2020-06-30 2020-10-20 浙江大学 一种无人车强化学习训练环境构建方法及其训练系统
CN111983936A (zh) * 2020-08-31 2020-11-24 广州机械科学研究院有限公司 一种无人机半物理仿真系统及测评方法
CN112034888A (zh) * 2020-09-10 2020-12-04 南京大学 一种固定翼无人机自主控制协作策略训练方法
CN112783199A (zh) * 2020-12-25 2021-05-11 北京航空航天大学 一种基于迁移学习的无人机自主导航方法
CN112906888A (zh) * 2021-03-02 2021-06-04 中国人民解放军军事科学院国防科技创新研究院 一种任务执行方法及装置、电子设备和存储介质
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法
CN113221444A (zh) * 2021-04-20 2021-08-06 中国电子科技集团公司第五十二研究所 一种面向空中智能博弈的行为模仿训练方法
CN113282061A (zh) * 2021-04-25 2021-08-20 南京大学 一种基于课程学习的无人机空中博弈对抗的解决方法
CN113282100A (zh) * 2021-04-28 2021-08-20 南京大学 基于强化学习的无人机对抗博弈训练控制方法
CN113435564A (zh) * 2021-05-25 2021-09-24 北京理工大学 一种基于强化学习的增强现实多智能体协作对抗实现方法
CN113467515A (zh) * 2021-07-22 2021-10-01 南京大学 基于虚拟环境模仿重构和强化学习的无人机飞行控制方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
End-to-End Navigation Strategy With Deep Reinforcement Learning for Mobile Robots;Shi Haobin.etc;《IEEE Transactions on Industrial Informatics》;20200430;全文 *
基于深度强化学习的机器人运动控制研究进展;董 豪等;《控制与决策》;20210402;全文 *
基于深度强化学习的群体对抗策略研究;刘强;《中国优秀硕士学位论文全文数据库》;20210215;全文 *
基于迁移强化学习的多智能体系统协同编队避障与防撞控制;胡鹏林等;《2021中国自动化大会论文集》;20211022;全文 *
多机器人对抗中的信息处理与决策方法研究;姚昊迪;《中国优秀硕士学位论文全文数据库》;20210115;全文 *

Also Published As

Publication number Publication date
CN113867178A (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
CN110000785B (zh) 农业场景无标定机器人运动视觉协同伺服控制方法与设备
Li et al. Neural-network-based path planning for a multirobot system with moving obstacles
CN112947581A (zh) 基于多智能体强化学习的多无人机协同空战机动决策方法
CN112232490B (zh) 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN111399541B (zh) 无监督学习型神经网络的无人机全区域侦察路径规划方法
CN112433525A (zh) 基于模仿学习及深度强化学习的移动机器人导航方法
Zhao et al. A path planning method based on multi-objective cauchy mutation cat swarm optimization algorithm for navigation system of intelligent patrol car
CN112508164B (zh) 一种基于异步监督学习的端到端自动驾驶模型预训练方法
Zheng et al. Evaluation of a predictor-based framework in high-speed teleoperated military UGVs
CN113867178B (zh) 面向多机器人对抗的虚实迁移训练系统
CN115469663B (zh) 面向自动驾驶的基于深度强化学习的端到端导航避障方法
Guidolini et al. Neural-based model predictive control for tackling steering delays of autonomous cars
CN114037050B (zh) 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法
CN115373415A (zh) 一种基于深度强化学习的无人机智能导航方法
Ibuki et al. Visual feedback attitude synchronization in leader-follower type visibility structures
Lai et al. Self-learning for a humanoid robotic ping-pong player
CN116796843A (zh) 一种基于pso-m3ddpg的无人机多对多追逃博弈方法
CN116127853A (zh) 融合时序信息的基于ddpg的无人驾驶超车决策方法
CN114609925B (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
Rudolph et al. Learning the consequences of actions: Representing effects as feature changes
Musa et al. A method for accelerated simulations of reinforcement learning tasks of UAVs in AirSim
Barman et al. Dynamite: A testbed for multiple mobile robots
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
CN117313561B (zh) 无人机智能决策模型训练方法及无人机智能决策方法
Cheng et al. An Indoor Rapid Testing Platform for Autonomous Vehicles Using Vehicle-in-the-Loop Simulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant