CN113467465A - 一种面向机器人系统的人在回路决策建模与控制方法 - Google Patents

一种面向机器人系统的人在回路决策建模与控制方法 Download PDF

Info

Publication number
CN113467465A
CN113467465A CN202110829617.4A CN202110829617A CN113467465A CN 113467465 A CN113467465 A CN 113467465A CN 202110829617 A CN202110829617 A CN 202110829617A CN 113467465 A CN113467465 A CN 113467465A
Authority
CN
China
Prior art keywords
task
robot
decision
human
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110829617.4A
Other languages
English (en)
Other versions
CN113467465B (zh
Inventor
黄捷
吴文华
陈宇韬
李东方
郑松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202110829617.4A priority Critical patent/CN113467465B/zh
Publication of CN113467465A publication Critical patent/CN113467465A/zh
Application granted granted Critical
Publication of CN113467465B publication Critical patent/CN113467465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提出一种面向机器人系统的人在回路决策建模与控制方法,包括机器人任务设计、人的决策信息选择、人的决策行为建模、人的决策任务设计、固定时间滑模自适应行为控制器设计;所述方法首先获取机器人执行任务后的输出信息值,然后通过选择机器人位置偏差信息与速度偏差信息作为人的决策信息,使用人为决策漂移扩散模型作为建模方法,根据人的决策信息对人的决策行为进行建模,达到决策阈值后选择执行人为干预行为,设计人为决策任务,最后基于固定时间滑模控制方法设计自适应行为控制器,当机器人无法自主控制完成任务时,通过执行人为决策任务来在有限时间内完成工作任务;本发明有助于保证有限时间内完成人机复合任务,实现人机任务共融。

Description

一种面向机器人系统的人在回路决策建模与控制方法
技术领域
本发明涉及人机交互技术领域,尤其是一种面向机器人系统的人在回路决策建模与控制方法。
背景技术
行为控制作为编队控制技术之一,能够实现多机器人系统的分布式控制,具有灵活避障等优点,但传统行为控制方法不能保证编队控制的稳定性,为此,采用基于零空间的行为控制方法,该方法的数学模型能实现编队稳定,但由于缺少人的参与,使得行为控制方法在部分情况下无法消除任务之间的冲突,导致任务无法顺利完成。
因此,为了更好实现编队控制和提高编队稳定性能,需要引入人机交互。当前人与多机器人交互已经在基于领航跟随者等编队控制方法和人机交互控制框架等应用领域取得成功,但它们缺乏精确的人的模型。人的模型可以帮助预测在何种情况下人会出现较差的表现或不稳定,因此对于提高人类决策的准确性是必要的。目前存在一些人的模型建模方法,包括文献(Pentland A,Liu A.Modeling and prediction of human behavior[J].Neural computation,1999,11(1):229-242.)提出的马尔科夫模型,文献(Gao J,Lee JD.Extending the decision field theory to model operators'reliance onautomation in supervisory control situations[J].IEEE Transactions on Systems,2006,36(5):943-959.)提出的扩展决策领域理论,此类方法依赖概率和人的信任作为建模依据,相比于这两种方法,文献(Ratcliff R,McKoon G.The diffusion decision model:theory and data for two-choice decision tasks[J].Neural computation,2008,20(4):873-922.)提出的漂移扩散模型根据人的实际感官信息进行人的决策建模,主要应用于神经学领域中人的决策建模,在人与多机器人交互背景下的应用仍属于开放性问题。此外,实际应用中人机协同任务的执行是存在时间要求的,传统针对人机协同任务执行控制器的设计无法保证人机复合任务能在有限时间内完成,因此,设计一种人机协同控制器来实现有限时间内执行人机复合任务仍属于开放性问题(Zuo Z.Non-singular fixed-timeterminal sliding mode control of non-linear systems[J].IET control theory&applications,2014,9(4):545-552.)。针对漂移扩散模型在人与多机器人领域的应用问题与人机复合任务在有限时间内完成的应用问题,本发明将漂移扩散模型与基于零空间的行为控制方法相结合,提出人的漂扩散模型,通过速度-准确性准则得到相对应得决策阈值公式,该方法能够提高人的决策准确性;同时提出固定时间滑模自适应行为控制器设计方法,保证人机复合任务在有限时间顺利执行。
发明内容
本发明提出一种面向机器人系统的人在回路决策建模与控制方法,通过对人的决策行为进行建模,设置人的决策阈值,提高人的决策准确性,设计人为干预任务,同时结合固定时间滑模控制与行为控制方法,采用自适应补偿策略,消除外部扰动,保证有限时间内完成人机复合任务,实现人机任务共融。
本发明采用以下技术方案。
一种面向机器人系统的人在回路决策建模与控制方法,包括机器人任务设计、人的决策信息选择、人的决策行为建模、人的决策任务设计、固定时间滑模自适应行为控制器设计;所述方法首先获取机器人执行任务后的输出信息值,然后通过选择机器人位置偏差信息与速度偏差信息作为人的决策信息,使用人为决策漂移扩散模型作为建模方法,根据人的决策信息对人的决策行为进行建模,达到决策阈值后选择执行人为干预行为,设计人为决策任务,最后基于固定时间滑模控制方法设计自适应行为控制器,当机器人无法依赖系统的自主控制完成任务的时候,通过执行已设计好的人为决策任务来使机器人在规定时间内完成工作任务。
所述方法为面向二阶非线性机器人系统的人机交互系统决策建模与固定时间滑模自适应行为控制方法,其机器人任务设计针对基于行为控制的多机器人系统,机器人具备感知探测功能,其移动环境存在障碍物;根据基于零空间的行为控制方法对机器人的基本任务进行设计,机器人基本任务包括运动到目标点任务和避撞任务;
运动到到目标点任务是由机器人团队向目标点的移动来定义的;运动到目标点任务的目的是使团队机器人在到达预定目标点后,个体机器人停止运动,任务期望函数为目标点位置,运动到目标点任务的设计如下公式所示:
Figure BDA0003175016420000031
其中,xpgj是期望目标位置,xvmj是运动到目标点任务的速度输出指令,
Figure BDA0003175016420000032
是正定增益矩阵,
Figure BDA0003175016420000033
是任务偏差,
Figure BDA0003175016420000034
是雅克比矩阵Jmj的伪逆;
当运动到目标点过程中存在障碍物时,避撞任务的目的是保持机器人与障碍物的安全距离,所以,设计避障任务函数是通过机器人与障碍物之间的距离与安全距离实时对比,若距离小于安全距离时进行避障;避撞任务被设定为高优先级任务,Ds是期望安全距离或圆形安全区域的半径,避撞任务函数设计为:
Figure BDA0003175016420000035
其中,xvaj是避撞任务的速度输出指令,
Figure BDA0003175016420000036
是雅克比矩阵Jaj的伪逆,xpoq是第q个障碍物的位置坐标,q=1,2,...,Q,φadj是避撞任务期望函数,φadj是正定增益矩阵,
Figure BDA0003175016420000037
是任务偏差;
所述方法对机器人任务的输出进行融合,具体为设定机器人避撞任务作为机器人任务的高优先级,而运动到目标点任务作为次优先级任务,将运动到目标点的任务输出投影到避撞任务输出的零空间
Figure BDA0003175016420000038
得到机器人任务的总输出:
Figure BDA0003175016420000039
其中,xcvj是机器人复合任务的速度输出指令,
Figure BDA00031750164200000310
是避碰任务的零空间,用于消除避碰任务与运动到目标点任务之间的任务冲突部分。
所述基于行为控制的多机器人系统中,机器人在执行运动到目标点任务和避撞任务时,机器人任务输出的反馈信息包含机器人位置信息、机器人速度信息、机器人位置偏差信息、机器人速度偏差信息、机器人与障碍物间的距离信息,所述反馈信息进行分类后用于人的决策信息选择;
在人的决策信息选择中,将传统漂移扩散模型与基于零空间的行为控制方法结合,建立人的漂移扩散模型,将由基于零空间的行为控制方法得到的机器人位置偏差信息与速度偏差信息作为人的决策信息,为反映决策信息在单位时间内的变化量,采用机器人的速度偏差信息与机器人加速度信息偏差作为漂移率,实现对基于行为控制的人机交互系统中人的决策行为建模;
所述人的决策行为建模为根据预设任务与滑模控制方法,当机器人的位置与速度同时跟踪上期望位置与期望速度时,位置偏差与速度偏差收敛至滑模面,即表示机器人完成期望任务,选择位置偏差与速度偏差作为决策信息;根据人的漂移扩散模型,决策行为建模公式为:
Figure BDA0003175016420000041
其中,
Figure BDA0003175016420000042
是第j个机器人的位置偏差,xpdj是期望位置,
Figure BDA0003175016420000043
是机器人的速度偏差,xvdj是期望速度,
Figure BDA0003175016420000044
是加速度偏差,
Figure BDA0003175016420000045
Figure BDA0003175016420000046
是人的决策信息值,
Figure BDA0003175016420000047
Figure BDA0003175016420000048
分别表示
Figure BDA0003175016420000049
Figure BDA00031750164200000410
在时间dt内的变化量;
在人的决策阈值设定时,采用基于贝叶斯风险准则进行决策阈值设置,以实现决策速度与准确性最优权衡;在任意外部扰动存在时,给定决策阈值下的决策速度与准确性为最优权衡,其中贝叶斯风险准则是最小化人的决策成本函数,决策成本函数公式为
Bpj=c1pjTpj+c2pjEpj 公式五;
Bvj=c1vjTvj+c2vjEvj 公式六;
其中,
Figure BDA00031750164200000411
Figure BDA00031750164200000412
Figure BDA00031750164200000413
Figure BDA0003175016420000051
其中,Bpj和Bvj分别是基于决策信息
Figure BDA0003175016420000052
Figure BDA0003175016420000053
的决策成本函数,c1pj和c1vj分别是基于决策信息
Figure BDA0003175016420000054
Figure BDA0003175016420000055
的决策观测成本,c2pj和c2vj分别是基于决策信息
Figure BDA0003175016420000056
Figure BDA0003175016420000057
的决策偏差成本,Tpj和Epj分别是基于决策信息
Figure BDA0003175016420000058
的决策时间和决策偏差,Tvj和Evj分别是基于决策信息
Figure BDA0003175016420000059
的决策时间和决策偏差。
Figure BDA00031750164200000510
ζpj和ζvj分别是基于决策信息
Figure BDA00031750164200000511
Figure BDA00031750164200000512
的决策阈值。
Figure BDA00031750164200000513
Figure BDA00031750164200000514
Figure BDA00031750164200000515
分别是初始位置偏差和初始速度偏差;
所述人的决策阈值根据速度-准确性准则设定;人为决策信息随着时间不断演化,当人为决策信息演化到预设阈值时,需要从人的行为集中选择人的某个行为,即令
Figure BDA00031750164200000516
Figure BDA00031750164200000517
时,阈值的设定为:
Figure BDA00031750164200000518
Figure BDA00031750164200000519
其中,
Figure BDA0003175016420000061
除了ζpj和ζvj是未知外,其余的参数(
Figure BDA0003175016420000062
Cpj,Cvj等)均为已知;
当决策阈值确定后,可以得到准确的决策时机,即由两个决策阈值产生两个决策时机,定义TD为最终的决策时机,则有下列公式:
Figure BDA0003175016420000063
其中,Tpj和Epj分别是基于决策信息
Figure BDA0003175016420000064
的决策时间和决策偏差,Tvj和Evj分别是基于决策信息
Figure BDA0003175016420000065
的决策时间和决策偏差。
所述人的决策任务设计为针对机器人系统的人为干预任务设计,具体为设计一组人的行为集,包括人的监督行为和人为干预行为,其中监督行为对机器人并不产生任务输入,而人为干预行为是部分干预机器人,即人并不直接控制机器人,而是向机器人发送可执行的人为干预指令,只考虑人为干预行为的任务设计以公式表述为
Figure BDA0003175016420000066
其中,
Figure BDA0003175016420000067
是雅克比矩阵Jh的伪逆矩阵,
Figure BDA0003175016420000068
是人为干预任务的正定增益矩阵,
Figure BDA0003175016420000069
是人为干预任务偏差,
Figure BDA00031750164200000610
是期望人为干预任务函数的偏导;
当人为干预任务与机器人任务结合时,形成基于人在回路的行为控制,其中设计后的人的干预任务与机器人自主执行任务相同,都能被机器人快速识别执行,将人的干预任务设置为最高优先级任务,原本的机器人自主任务转为次高优先级任务,机器人自主任务的速度输出指令xcvj投影到人为干预任务速度输出指令xvh的零空间上,得到人机复合任务的速度输出指令为:
Figure BDA00031750164200000611
其中,xvd是人机复合任务的速度输出指令,
Figure BDA00031750164200000612
是人为干预任务的零空间,当
Figure BDA00031750164200000613
时,表示执行人为干预任务的同时无法执行机器人自主任务。
所述固定时间滑模自适应行为控制器设计,具体为在得到人为干预任务后,结合基于零空间投影的行为控制方法,其控制目标是设计控制器使多机器人系统跟踪上参考轨迹
Figure BDA0003175016420000071
该参考轨迹可以通过对参考速度
Figure BDA0003175016420000072
离散积分得到。此外,对参考速度xrv求导可得参考加速度为
Figure BDA0003175016420000073
结合基于零空间投影的行为控制方法,固定时间滑模面的设计为:
Figure BDA0003175016420000074
其中,
Figure BDA0003175016420000075
定义
Figure BDA0003175016420000076
是参考位置与实际位置的偏差,
Figure BDA0003175016420000077
Figure BDA0003175016420000078
是参考速度与实际速度之间的偏差,
Figure BDA0003175016420000079
α和β是正定增益矩阵,
Figure BDA00031750164200000710
μ1.1和μ1.2是正定奇数且满足
Figure BDA00031750164200000711
Figure BDA00031750164200000712
ω1.1和ω1.2是正定奇数且满足
Figure BDA00031750164200000722
基于二阶非线性机器人模型与滑模面,固定时间滑模自适应行为控制器设计为:
Figure BDA00031750164200000713
其中,
Figure BDA00031750164200000714
Figure BDA00031750164200000715
Figure BDA00031750164200000716
其中,
Figure BDA00031750164200000717
Figure BDA00031750164200000718
是正定矩阵,
Figure BDA00031750164200000719
μ2.1和μ2.2是正定奇数且满足0<μ2<1。
Figure BDA00031750164200000720
Figure BDA00031750164200000723
Figure BDA00031750164200000724
是正定奇数且满足
Figure BDA00031750164200000725
Figure BDA00031750164200000721
是未知扰动上界δj的估计值且满足||εj||≤δj。γj>0是正定参数,
Figure BDA0003175016420000081
表示第j个滑模面sj的一范数,
Figure BDA0003175016420000082
是估计值
Figure BDA0003175016420000083
与实际值δj之间的偏差。
所述面向机器人系统的人在回路决策建模与控制方法,包括面向二阶非线性系统的人在回路决策建模方法,以及固定时间滑模自适应行为控制器设计方法。
所述面向机器人系统的人在回路决策建模与控制方法,其机器人任务设计针对基于行为控制的人与多机器人交互系统,机器人具备感知探测功能,其移动环境存在障碍物;包括以下步骤;
步骤一:机器人任务设计:利用基于零空间的行为控制方法,把机器人运动到目标点行为和避撞行为设计为机器人基本任务;运动到目标点任务是跟机器人的位置相关,设计其目标函数为机器人的目标点,当机器人运动到目标点时候停止运动。避撞任务跟机器人与障碍物之间的距离相关,通过设定机器人的安全避撞距离,当机器人与障碍物的距离小于安全避撞距离时,执行避撞任务;
步骤二:机器人任务输出融合:机器人完成运动到目标点任务和避撞任务的设计后,根据基于零空间的行为控制方法对任务的输出进行融合,设定机器人避撞任务作为高优先级任务,而运动到目标点任务作为次优先级任务,将运动到目标点的任务输出投影到避撞任务输出的零空间后,相加得到机器人任务的总输出;
步骤三:人的决策过程分析:引入数据处理站,对人与多机器人交互系统的人的决策过程进行分析。数据处理站中对机器人的任务输出反馈和传感器信息反馈进行处理,将反馈信息进行分类,选择反馈信息进行人的决策行为建模,完成建模后的机器人系统,在决策信息到达决策阈值时,触发人的决策,选择是否进行人为干预,若进行人为干预则生成人为干预任务,设计为最高优先级任务输入到机器人;
步骤四:人的决策信息选择:数据处理站接受的多种反馈信息包括直接反应机器人任务执行进度的信息和无法反应任务执行进度的信息,直接反应机器人任务执行进度的信息包括机器人实际位置与预设位置的偏差信息、机器人实际速度与预设速度的偏差信息,无法反应任务执行进度的信息包括机器人与障碍物的距离信息,数据处理站选择机器人位置偏差信息与速度偏差信息作为人的决策信息以实现人的决策建模;
步骤五:人的决策行为建模:将人的漂移扩散模型扩展至二阶非线性系统,基于零空间的行为控制方法得到的机器人位置偏差信息与速度偏差信息作为人的决策信息,为反映决策信息在单位时间内的变化量,采用机器人的速度偏差信息与加速度偏差信息作为漂移率,实现对基于行为控制的人机交互系统中人的决策行为建模;速度偏差信息为预设速度与实际速度的偏差;加速度偏差信息为预设加速度与实际加速度的偏差;
步骤六:人的决策阈值设定:通过设定人的决策阈值来获得准确的决策时机,根据BayesRisk的速度-准确性准则,对人的决策成本函数最小化得到人的决策阈值设定公式,不同决策信息对应不同决策阈值,不同阈值对应的决策时间由人的决策时间公式得到准确的决策实际,实现速度和准确性最优;
步骤七:人为干预任务设计:当人的决策信息到达决策阈值时,对人的行为集中的行为进行选择以形成人为干预任务,人的行为集包括人的监督行为和人为干预行为,其中监督行为并不对机器人产生任务输入,以人为干预行为来设计人为干预任务,帮助机器人顺利完成任务;
步骤八:固定时间滑模行为控制器设计:即为保证机器人在有限时间内执行人机复合任务,提出将固定时间滑模控制方法与基于零空间的行为控制方法结合,采用自适应策略,消除外部扰动,实现在任意初始偏差下,在有限时间内完成人机协同。
本发明针对人的漂移扩散模型仅适用于一阶线性模型导致实际应用范围较小的不足,发展人的漂移扩散模型至二阶非线性系统,扩展了人的漂移扩散模型在人机交互系统的实际应用。通过选择机器人的位置偏差信息和速度偏差信息作为人的决策信息,当人的决策信息分别到达对应的决策阈值时,人进行决策,提出决策时机确定公式,有效提高人的决策准确性和提高决策速度。当人进行决策后选择进行人为干预,将人的干预指令设计为干预任务。将固定时间滑模控制方法结合基于零空间的行为控制方法可以实现在任意初始任务偏差下,保证有限时间内完成预设人机复合任务,缩短任务的执行时间,提升任务的执行效率和多机器人系统的鲁棒性。
本发明针对漂移扩散模型在人与多机器人领域的应用问题与人机复合任务在有限时间内完成的应用问题,将漂移扩散模型与基于零空间的行为控制方法相结合,提出人的漂扩散模型,通过速度-准确性准则得到相对应得决策阈值公式,该方法能够提高人的决策准确性;同时提出固定时间滑模自适应行为控制器设计方法,保证人机复合任务在有限时间顺利执行。
本发明通过对人的决策行为进行建模,设置人的决策阈值,提高人的决策准确性,设计人为干预任务,同时结合固定时间滑模控制与行为控制方法,采用自适应补偿策略,消除外部扰动,保证有限时间内完成人机复合任务,实现人机任务共融。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
附图1是面向二阶非线性系统的数据处理站的示意图;
附图2是面向二阶非线性系统的人在回路控制框的示意图;
附图3是基于固定时间滑模行为控制器的控制与决策框的示意图;
附图4是基于位置偏差的决策信息演化的示意图;
附图5是基于速度偏差的决策信息演化的示意图。
具体实施方式
如图所示,一种面向机器人系统的人在回路决策建模与控制方法,包括机器人任务设计、人的决策信息选择、人的决策行为建模、人的决策任务设计、固定时间滑模自适应行为控制器设计;所述方法首先获取机器人执行任务后的输出信息值,然后通过选择机器人位置偏差信息与速度偏差信息作为人的决策信息,使用人为决策漂移扩散模型作为建模方法,根据人的决策信息对人的决策行为进行建模,达到决策阈值后选择执行人为干预行为,设计人为决策任务,最后基于固定时间滑模控制方法设计自适应行为控制器,当机器人无法依赖系统的自主控制完成任务的时候,通过执行已设计好的人为决策任务来使机器人在规定时间内完成工作任务。
所述方法为面向二阶非线性机器人系统的人机交互系统决策建模与固定时间滑模自适应行为控制方法,其机器人任务设计针对基于行为控制的多机器人系统,机器人具备感知探测功能,其移动环境存在障碍物;根据基于零空间的行为控制方法对机器人的基本任务进行设计,机器人基本任务包括运动到目标点任务和避撞任务;
运动到到目标点任务是由机器人团队向目标点的移动来定义的;运动到目标点任务的目的是使团队机器人在到达预定目标点后,个体机器人停止运动,任务期望函数为目标点位置,运动到目标点任务的设计如下公式所示:
Figure BDA0003175016420000111
其中,xpgj是期望目标位置,xvmj是运动到目标点任务的速度输出指令,
Figure BDA0003175016420000112
是正定增益矩阵,
Figure BDA0003175016420000113
是任务偏差,
Figure BDA0003175016420000114
是雅克比矩阵Jmj的伪逆;
当运动到目标点过程中存在障碍物时,避撞任务的目的是保持机器人与障碍物的安全距离,所以,设计避障任务函数是通过机器人与障碍物之间的距离与安全距离实时对比,若距离小于安全距离时进行避障;避撞任务被设定为高优先级任务,Ds是期望安全距离或圆形安全区域的半径,避撞任务函数设计为:
Figure BDA0003175016420000115
其中,xvaj是避撞任务的速度输出指令,
Figure BDA0003175016420000116
是雅克比矩阵Jaj的伪逆,xpoq是第q个障碍物的位置坐标,q=1,2,...,Q,φadj是避撞任务期望函数,φadj是正定增益矩阵,
Figure BDA0003175016420000117
是任务偏差;
所述方法对机器人任务的输出进行融合,具体为设定机器人避撞任务作为机器人任务的高优先级,而运动到目标点任务作为次优先级任务,将运动到目标点的任务输出投影到避撞任务输出的零空间
Figure BDA0003175016420000118
得到机器人任务的总输出:
Figure BDA0003175016420000119
其中,xcvj是机器人复合任务的速度输出指令,
Figure BDA00031750164200001110
是避碰任务的零空间,用于消除避碰任务与运动到目标点任务之间的任务冲突部分。
所述基于行为控制的多机器人系统中,机器人在执行运动到目标点任务和避撞任务时,机器人任务输出的反馈信息包含机器人位置信息、机器人速度信息、机器人位置偏差信息、机器人速度偏差信息、机器人与障碍物间的距离信息,所述反馈信息进行分类后用于人的决策信息选择;
在人的决策信息选择中,将传统漂移扩散模型与基于零空间的行为控制方法结合,建立人的漂移扩散模型,将由基于零空间的行为控制方法得到的机器人位置偏差信息与速度偏差信息作为人的决策信息,为反映决策信息在单位时间内的变化量,采用机器人的速度偏差信息与机器人加速度信息偏差作为漂移率,实现对基于行为控制的人机交互系统中人的决策行为建模;
所述人的决策行为建模为根据预设任务与滑模控制方法,当机器人的位置与速度同时跟踪上期望位置与期望速度时,位置偏差与速度偏差收敛至滑模面,即表示机器人完成期望任务,选择位置偏差与速度偏差作为决策信息;根据人的漂移扩散模型,决策行为建模公式为:
Figure BDA0003175016420000121
其中,
Figure BDA0003175016420000122
是第j个机器人的位置偏差,xpdj是期望位置,
Figure BDA0003175016420000123
是机器人的速度偏差,xvdj是期望速度,
Figure BDA0003175016420000124
是加速度偏差,
Figure BDA0003175016420000125
Figure BDA0003175016420000126
是人的决策信息值,
Figure BDA0003175016420000127
Figure BDA0003175016420000128
分别表示
Figure BDA0003175016420000129
Figure BDA00031750164200001210
在时间dt内的变化量;
在人的决策阈值设定时,采用基于贝叶斯风险准则进行决策阈值设置,以实现决策速度与准确性最优权衡;在任意外部扰动存在时,给定决策阈值下的决策速度与准确性为最优权衡,其中贝叶斯风险准则是最小化人的决策成本函数,决策成本函数公式为
Bpj=c1pjTpj+c2pjEpj 公式五;
Bvj=c1vjTvj+c2vjEvj 公式六;
其中,
Figure BDA00031750164200001211
Figure BDA00031750164200001212
Figure BDA00031750164200001213
Figure BDA0003175016420000131
其中,Bpj和Bvj分别是基于决策信息
Figure BDA0003175016420000132
Figure BDA0003175016420000133
的决策成本函数,c1pj和c1vj分别是基于决策信息
Figure BDA0003175016420000134
Figure BDA0003175016420000135
的决策观测成本,c2pj和c2vj分别是基于决策信息
Figure BDA0003175016420000136
Figure BDA0003175016420000137
的决策偏差成本,Tpj和Epj分别是基于决策信息
Figure BDA0003175016420000138
的决策时间和决策偏差,Tvj和Evj分别是基于决策信息
Figure BDA0003175016420000139
的决策时间和决策偏差。
Figure BDA00031750164200001310
ζpj和ζvj分别是基于决策信息
Figure BDA00031750164200001311
Figure BDA00031750164200001312
的决策阈值。
Figure BDA00031750164200001313
Figure BDA00031750164200001314
Figure BDA00031750164200001315
分别是初始位置偏差和初始速度偏差;
所述人的决策阈值根据速度-准确性准则设定;人为决策信息随着时间不断演化,当人为决策信息演化到预设阈值时,需要从人的行为集中选择人的某个行为,即令
Figure BDA00031750164200001316
Figure BDA00031750164200001317
时,阈值的设定为:
Figure BDA00031750164200001318
Figure BDA00031750164200001319
其中,
Figure BDA0003175016420000141
除了ζpj和ζvj是未知外,其余的参数(
Figure BDA0003175016420000142
Cpj,Cvj等)均为已知;
当决策阈值确定后,可以得到准确的决策时机,即由两个决策阈值产生两个决策时机,定义TD为最终的决策时机,则有下列公式:
Figure BDA0003175016420000143
其中,Tpj和Epj分别是基于决策信息
Figure BDA0003175016420000144
的决策时间和决策偏差,Tvj和Evj分别是基于决策信息
Figure BDA0003175016420000145
的决策时间和决策偏差。
所述人的决策任务设计为针对机器人系统的人为干预任务设计,具体为设计一组人的行为集,包括人的监督行为和人为干预行为,其中监督行为对机器人并不产生任务输入,而人为干预行为是部分干预机器人,即人并不直接控制机器人,而是向机器人发送可执行的人为干预指令,只考虑人为干预行为的任务设计以公式表述为
Figure BDA0003175016420000146
其中,
Figure BDA0003175016420000147
是雅克比矩阵Jh的伪逆矩阵,
Figure BDA0003175016420000148
是人为干预任务的正定增益矩阵,
Figure BDA0003175016420000149
是人为干预任务偏差,
Figure BDA00031750164200001410
是期望人为干预任务函数的偏导;
当人为干预任务与机器人任务结合时,形成基于人在回路的行为控制,其中设计后的人的干预任务与机器人自主执行任务相同,都能被机器人快速识别执行,将人的干预任务设置为最高优先级任务,原本的机器人自主任务转为次高优先级任务,机器人自主任务的速度输出指令xcvj投影到人为干预任务速度输出指令xvh的零空间上,得到人机复合任务的速度输出指令为:
Figure BDA00031750164200001411
其中,xvd是人机复合任务的速度输出指令,
Figure BDA00031750164200001412
是人为干预任务的零空间,当
Figure BDA00031750164200001413
时,表示执行人为干预任务的同时无法执行机器人自主任务。
所述固定时间滑模自适应行为控制器设计,具体为在得到人为干预任务后,结合基于零空间投影的行为控制方法,其控制目标是设计控制器使多机器人系统跟踪上参考轨迹
Figure BDA0003175016420000151
该参考轨迹可以通过对参考速度
Figure BDA0003175016420000152
离散积分得到。此外,对参考速度xrv求导可得参考加速度为
Figure BDA0003175016420000153
结合基于零空间投影的行为控制方法,固定时间滑模面的设计为:
Figure BDA0003175016420000154
其中,
Figure BDA0003175016420000155
定义
Figure BDA0003175016420000156
是参考位置与实际位置的偏差,
Figure BDA0003175016420000157
Figure BDA0003175016420000158
是参考速度与实际速度之间的偏差,
Figure BDA0003175016420000159
α和β是正定增益矩阵,
Figure BDA00031750164200001510
μ1.1和μ1.2是正定奇数且满足
Figure BDA00031750164200001511
Figure BDA00031750164200001512
Figure BDA00031750164200001521
Figure BDA00031750164200001522
是正定奇数且满足
Figure BDA00031750164200001520
基于二阶非线性机器人模型与滑模面,固定时间滑模自适应行为控制器设计为:
Figure BDA00031750164200001513
其中,
Figure BDA00031750164200001514
Figure BDA00031750164200001515
Figure BDA00031750164200001516
其中,Kα1j=kα1jI和Kβ1j=kβ1jI是正定矩阵,
Figure BDA00031750164200001517
μ2.1和μ2.2是正定奇数且满足0<μ2<1。
Figure BDA00031750164200001518
Figure BDA00031750164200001523
Figure BDA00031750164200001524
是正定奇数且满足
Figure BDA00031750164200001525
Figure BDA00031750164200001519
是未知扰动上界δj的估计值且满足||εj||≤δj。γj>0是正定参数,
Figure BDA0003175016420000161
表示第j个滑模面sj的一范数,
Figure BDA0003175016420000162
是估计值
Figure BDA0003175016420000163
与实际值δj之间的偏差。
所述面向机器人系统的人在回路决策建模与控制方法,包括面向二阶非线性系统的人在回路决策建模方法,以及固定时间滑模自适应行为控制器设计方法。
所述面向机器人系统的人在回路决策建模与控制方法,其机器人任务设计针对基于行为控制的人与多机器人交互系统,机器人具备感知探测功能,其移动环境存在障碍物;包括以下步骤;
步骤一:机器人任务设计:利用基于零空间的行为控制方法,把机器人运动到目标点行为和避撞行为设计为机器人基本任务;运动到目标点任务是跟机器人的位置相关,设计其目标函数为机器人的目标点,当机器人运动到目标点时候停止运动。避撞任务跟机器人与障碍物之间的距离相关,通过设定机器人的安全避撞距离,当机器人与障碍物的距离小于安全避撞距离时,执行避撞任务;
步骤二:机器人任务输出融合:机器人完成运动到目标点任务和避撞任务的设计后,根据基于零空间的行为控制方法对任务的输出进行融合,设定机器人避撞任务作为高优先级任务,而运动到目标点任务作为次优先级任务,将运动到目标点的任务输出投影到避撞任务输出的零空间后,相加得到机器人任务的总输出;
步骤三:人的决策过程分析:引入数据处理站,对人与多机器人交互系统的人的决策过程进行分析。数据处理站中对机器人的任务输出反馈和传感器信息反馈进行处理,将反馈信息进行分类,选择反馈信息进行人的决策行为建模,完成建模后的机器人系统,在决策信息到达决策阈值时,触发人的决策,选择是否进行人为干预,若进行人为干预则生成人为干预任务,设计为最高优先级任务输入到机器人;
步骤四:人的决策信息选择:数据处理站接受的多种反馈信息包括直接反应机器人任务执行进度的信息和无法反应任务执行进度的信息,直接反应机器人任务执行进度的信息包括机器人实际位置与预设位置的偏差信息、机器人实际速度与预设速度的偏差信息,无法反应任务执行进度的信息包括机器人与障碍物的距离信息,数据处理站选择机器人位置偏差信息与速度偏差信息作为人的决策信息以实现人的决策建模;
步骤五:人的决策行为建模:将人的漂移扩散模型扩展至二阶非线性系统,基于零空间的行为控制方法得到的机器人位置偏差信息与速度偏差信息作为人的决策信息,为反映决策信息在单位时间内的变化量,采用机器人的速度偏差信息与加速度偏差信息作为漂移率,实现对基于行为控制的人机交互系统中人的决策行为建模;速度偏差信息为预设速度与实际速度的偏差;加速度偏差信息为预设加速度与实际加速度的偏差;
步骤六:人的决策阈值设定:通过设定人的决策阈值来获得准确的决策时机,根据BayesRisk的速度-准确性准则,对人的决策成本函数最小化得到人的决策阈值设定公式,不同决策信息对应不同决策阈值,不同阈值对应的决策时间由人的决策时间公式得到准确的决策实际,实现速度和准确性最优;
步骤七:人为干预任务设计:当人的决策信息到达决策阈值时,对人的行为集中的行为进行选择以形成人为干预任务,人的行为集包括人的监督行为和人为干预行为,其中监督行为并不对机器人产生任务输入,以人为干预行为来设计人为干预任务,帮助机器人顺利完成任务;
步骤八:固定时间滑模行为控制器设计:即为保证机器人在有限时间内执行人机复合任务,提出将固定时间滑模控制方法与基于零空间的行为控制方法结合,采用自适应策略,消除外部扰动,实现在任意初始偏差下,在有限时间内完成人机协同。
实施例:
本例中,组建了三个二阶非线性模型的多机器人系统仿真实例。其中,多机器人移动环境为未知,存在障碍物。机器人具备感知探测功能。
分为以下步骤;
步骤一:机器人任务设计
运动到目标点任务的目的是使团队机器人在到达预定目标点后,个体机器人停止运动,任务期望函数为目标点位置,因此,运动到目标点任务的设计如下公式所示:
Figure BDA0003175016420000171
其中,xpgj是期望目标位置,xvmj是运动到目标点任务的速度输出指令,
Figure BDA0003175016420000181
是正定增益矩阵,
Figure BDA0003175016420000182
是任务偏差,
Figure BDA0003175016420000183
是雅克比矩阵Jmj的伪逆。
避碰任务的目的是保持机器人与障碍物之间的安全距离,为保护机器人安全,故避碰任务被设定为高优先级任务,Ds是期望安全距离或圆形安全区域的半径,因此,避碰任务函数设计为:
Figure BDA0003175016420000184
其中,xvaj是避撞任务的速度输出指令,
Figure BDA0003175016420000185
是雅克比矩阵Jaj的伪逆,xpoq是第q个障碍物的位置坐标,q=1,2,...,Q,φadj是避撞任务期望函数,φadj是正定增益矩阵,
Figure BDA0003175016420000186
是任务偏差。
步骤二:机器人任务输出融合
对运动到目标点任务和避撞任务的输出进行融合,由于机器人的安全性至关重要,所以设定机器人避撞任务作为机器人任务的高优先级,而运动到目标点任务作为次优先级任务,将运动到目标点的任务输出投影到避撞任务输出的零空间
Figure BDA0003175016420000187
得到机器人任务的总输出:
Figure BDA0003175016420000188
其中,xcvj是机器人复合任务的速度输出指令,
Figure BDA0003175016420000189
是避碰任务的零空间,用于消除避碰任务与运动到目标点任务之间的任务冲突部分。
步骤三:人的决策信息选择
二阶非线性机器人系统中人的漂移扩散模型是从机器人传感器信息中选择人的决策信息,并将其转换到数据处理站。如图1所示,存在多部分分布式传感器的信息,例如位置信息xpj,速度信息xvj,位置偏差信息
Figure BDA00031750164200001810
速度偏差信息
Figure BDA00031750164200001811
加速度信息
Figure BDA00031750164200001812
和加速度偏差信息
Figure BDA00031750164200001813
等。由于基于零空间投影的行为控制方法是给定期望任务函数,通过行为控制器产生参考轨迹,通过参考轨迹跟踪期望任务轨迹,同时人机交互系统主要作用是提高机器人完成任务的性能。因此,决策信息的选择标准是根据数据信息是否能准确反映任务的执行进度。
步骤四:人的决策行为建模
根据预设任务与滑模控制方法可知,当机器人的位置与速度同时跟踪上期望位置与期望速度时,位置偏差与速度偏差收敛至滑模面,即表示机器人完成期望任务,因此,选择位置偏差与速度偏差作为决策信息。根据人的漂移扩散模型,决策行为建模公式为:
Figure BDA0003175016420000191
Figure BDA0003175016420000192
其中,
Figure BDA0003175016420000193
是第j个机器人的位置偏差,xpdj是期望位置,
Figure BDA0003175016420000194
是机器人的速度偏差,xvdj是期望速度,
Figure BDA0003175016420000195
是加速度偏差,
Figure BDA0003175016420000196
Figure BDA0003175016420000197
是人的决策信息值,
Figure BDA0003175016420000198
Figure BDA0003175016420000199
分别表示
Figure BDA00031750164200001910
Figure BDA00031750164200001911
在时间dt内的变化量。
步骤五:人的决策阈值设定
基于贝叶斯风险准则(BR)进行决策阈值设置是一种实现决策速度与准确性最优权衡的方法。通过贝叶斯风险准则可以实现在任意外部扰动存在时,给定决策阈值下的决策速度与准确性为最优权衡。贝叶斯风险准则是最小化人的决策成本函数,决策成本函数公式为:
Bpj=c1pjTpj+c2pjEpj (6)
Bvj=c1vjTvj+c2vjEvj (7)
其中,
Figure BDA00031750164200001912
Figure BDA00031750164200001913
Figure BDA00031750164200001914
Figure BDA0003175016420000201
其中,Bpj和Bvj分别是基于决策信息
Figure BDA0003175016420000202
Figure BDA0003175016420000203
的决策成本函数,c1pj和c1vj分别是基于决策信息
Figure BDA0003175016420000204
Figure BDA0003175016420000205
的决策观测成本,c2pj和c2vj分别是基于决策信息
Figure BDA0003175016420000206
Figure BDA0003175016420000207
的决策偏差成本,Tpj和Epj分别是基于决策信息
Figure BDA0003175016420000208
的决策时间和决策偏差,Tvj和Evj分别是基于决策信息
Figure BDA0003175016420000209
的决策时间和决策偏差。
Figure BDA00031750164200002010
ζpj和ζvj分别是基于决策信息
Figure BDA00031750164200002011
Figure BDA00031750164200002012
的决策阈值。
Figure BDA00031750164200002013
Figure BDA00031750164200002014
Figure BDA00031750164200002015
分别是初始位置偏差和初始速度偏差。
Figure BDA00031750164200002016
Figure BDA00031750164200002017
可得决策阈值的解为:
Figure BDA00031750164200002018
Figure BDA00031750164200002019
其中,
Figure BDA0003175016420000211
除了ζpj和ζvj是未知外,其余的参数(
Figure BDA0003175016420000212
Cpj,Cvj等)均为已知。
步骤六:人的决策时机确定
当决策阈值确定后,可以得到准确的决策时机。与一阶线性模型中人的漂移扩散模型只设置单个阈值相比,本章的决策阈值存在两个,产生两个决策时机,定义TD为最终的决策时机,则有下列公式:
Figure BDA0003175016420000213
步骤七:人为干预任务设计
本节考虑一组人的行为集,包括人的监督行为和人为干预行为。由于监督行为对机器人并不产生任务输入,而人为干预行为是部分干预机器人,即人并不直接控制机器人,而是向机器人发送可执行的人为干预指令。因此,针对人为干预指令采用基于零空间投影的行为控制方法进行任务设计:
Figure BDA0003175016420000214
其中,
Figure BDA0003175016420000215
是雅克比矩阵Jh的伪逆矩阵,
Figure BDA0003175016420000216
是人为干预任务的正定增益矩阵,
Figure BDA0003175016420000217
是人为干预任务偏差,
Figure BDA0003175016420000218
是期望人为干预任务函数的偏导。
基于人在回路的行为控制中,将人为干预任务设置为最高优先级任务,原本的机器人自主任务转为次高优先级任务,因此,将机器人自主任务的速度输出指令xcvj投影到人为干预任务速度输出指令xvh的零空间上,得到人机复合任务的速度输出指令为:
Figure BDA0003175016420000219
其中,xvd是人机复合任务的速度输出指令,
Figure BDA00031750164200002110
是人为干预任务的零空间,值得注意的是,当
Figure BDA00031750164200002111
时,表示执行人为干预任务的同时无法执行机器人自主任务。
步骤八:固定时间滑模行为控制器设计
在得到人为干预任务后,结合基于零空间投影的行为控制方法,控制目标是设计控制器使多机器人系统跟踪上参考轨迹
Figure BDA0003175016420000221
该参考轨迹可以通过对参考速度
Figure BDA0003175016420000222
离散积分得到。此外,对参考速度xrv求导可得参考加速度为
Figure BDA0003175016420000223
结合基于零空间投影的行为控制方法,固定时间滑模面的设计为:
Figure BDA0003175016420000224
其中,
Figure BDA0003175016420000225
定义
Figure BDA0003175016420000226
是参考位置与实际位置的偏差,
Figure BDA0003175016420000227
Figure BDA0003175016420000228
是参考速度与实际速度之间的偏差,
Figure BDA0003175016420000229
α和β是正定增益矩阵,
Figure BDA00031750164200002210
μ1.1和μ1.2是正定奇数且满足
Figure BDA00031750164200002211
Figure BDA00031750164200002216
Figure BDA00031750164200002217
是正定奇数且满足
Figure BDA00031750164200002218
基于二阶非线性机器人模型与滑模面,固定时间滑模自适应行为控制器设计为:
Figure BDA00031750164200002212
其中,
Figure BDA00031750164200002213
Figure BDA00031750164200002214
Figure BDA00031750164200002215
其中,Kα1j=kα1jI和Kβ1j=kβ1jI是正定矩阵,
Figure BDA0003175016420000231
μ2.1和μ2.2是正定奇数且满足0<μ2<1。
Figure BDA0003175016420000232
Figure BDA0003175016420000238
Figure BDA0003175016420000239
是正定奇数且满足
Figure BDA0003175016420000237
Figure BDA0003175016420000233
是未知扰动上界δj的估计值且满足||εj||≤δj。γj>0是正定参数,
Figure BDA0003175016420000234
表示第j个滑模面sj的一范数,
Figure BDA0003175016420000235
是估计值
Figure BDA0003175016420000236
与实际值δj之间的偏差。
以上所述的仅为本发明的较佳实施例而已,本发明不仅仅局限于上述实施例,凡在本发明的精神和原则之内所做的局部改动、等同替换、改进等均应包含在本发明的保护范围之内。

Claims (7)

1.一种面向机器人系统的人在回路决策建模与控制方法,其特征在于:包括机器人任务设计、人的决策信息选择、人的决策行为建模、人的决策任务设计、固定时间滑模自适应行为控制器设计;所述方法首先获取机器人执行任务后的输出信息值,然后通过选择机器人位置偏差信息与速度偏差信息作为人的决策信息,使用人为决策漂移扩散模型作为建模方法,根据人的决策信息对人的决策行为进行建模,达到决策阈值后选择执行人为干预行为,设计人为决策任务,最后基于固定时间滑模控制方法设计自适应行为控制器,当机器人无法依赖系统的自主控制完成任务的时候,通过执行已设计好的人为决策任务来使机器人在规定时间内完成工作任务。
2.根据权利要求1所述的一种面向机器人系统的人在回路决策建模与控制方法,其特征在于:所述方法为面向二阶非线性机器人系统的人机交互系统决策建模与固定时间滑模自适应行为控制方法,其机器人任务设计针对基于行为控制的多机器人系统,机器人具备感知探测功能,其移动环境存在障碍物;根据基于零空间的行为控制方法对机器人的基本任务进行设计,机器人基本任务包括运动到目标点任务和避撞任务;
运动到到目标点任务是由机器人团队向目标点的移动来定义的;运动到目标点任务的目的是使团队机器人在到达预定目标点后,个体机器人停止运动,任务期望函数为目标点位置,运动到目标点任务的设计如下公式所示:
Figure FDA0003175016410000011
其中,xpgj是期望目标位置,xvmj是运动到目标点任务的速度输出指令,θmj是正定增益矩阵,
Figure FDA0003175016410000012
是任务偏差,
Figure FDA0003175016410000013
是雅克比矩阵Jmj的伪逆;
当运动到目标点过程中存在障碍物时,避撞任务的目的是保持机器人与障碍物的安全距离,所以,设计避障任务函数是通过机器人与障碍物之间的距离与安全距离实时对比,若距离小于安全距离时进行避障;避撞任务被设定为高优先级任务,Ds是期望安全距离或圆形安全区域的半径,避撞任务函数设计为:
Figure FDA0003175016410000021
其中,xvaj是避撞任务的速度输出指令,
Figure FDA0003175016410000022
是雅克比矩阵Jaj的伪逆,xpoq是第q个障碍物的位置坐标,q=1,2,...,Q,φadj是避撞任务期望函数,φadj是正定增益矩阵,
Figure FDA0003175016410000023
是任务偏差;
所述方法对机器人任务的输出进行融合,具体为设定机器人避撞任务作为机器人任务的高优先级,而运动到目标点任务作为次优先级任务,将运动到目标点的任务输出投影到避撞任务输出的零空间
Figure FDA0003175016410000024
得到机器人任务的总输出:
Figure FDA0003175016410000025
其中,xcvj是机器人复合任务的速度输出指令,
Figure FDA0003175016410000026
是避碰任务的零空间,用于消除避碰任务与运动到目标点任务之间的任务冲突部分。
3.根据权利要求2所述的一种面向机器人系统的人在回路决策建模与控制方法,其特征在于:所述基于行为控制的多机器人系统中,机器人在执行运动到目标点任务和避撞任务时,机器人任务输出的反馈信息包含机器人位置信息、机器人速度信息、机器人位置偏差信息、机器人速度偏差信息、机器人与障碍物间的距离信息,所述反馈信息进行分类后用于人的决策信息选择;
在人的决策信息选择中,将传统漂移扩散模型与基于零空间的行为控制方法结合,建立人的漂移扩散模型,将由基于零空间的行为控制方法得到的机器人位置偏差信息与速度偏差信息作为人的决策信息,为反映决策信息在单位时间内的变化量,采用机器人的速度偏差信息与机器人加速度信息偏差作为漂移率,实现对基于行为控制的人机交互系统中人的决策行为建模;
所述人的决策行为建模为根据预设任务与滑模控制方法,当机器人的位置与速度同时跟踪上期望位置与期望速度时,位置偏差与速度偏差收敛至滑模面,即表示机器人完成期望任务,选择位置偏差与速度偏差作为决策信息;根据人的漂移扩散模型,决策行为建模公式为:
Figure FDA0003175016410000027
其中,
Figure FDA0003175016410000031
是第j个机器人的位置偏差,xpdj是期望位置,
Figure FDA0003175016410000032
是机器人的速度偏差,xvdj是期望速度,
Figure FDA0003175016410000033
是加速度偏差,
Figure FDA0003175016410000034
Figure FDA0003175016410000035
是人的决策信息值,
Figure FDA0003175016410000036
Figure FDA0003175016410000037
分别表示
Figure FDA0003175016410000038
Figure FDA0003175016410000039
在时间dt内的变化量;
在人的决策阈值设定时,采用基于贝叶斯风险准则进行决策阈值设置,以实现决策速度与准确性最优权衡;在任意外部扰动存在时,给定决策阈值下的决策速度与准确性为最优权衡,其中贝叶斯风险准则是最小化人的决策成本函数,决策成本函数公式为
Bpj=c1pjTpj+c2pjEpj 公式五;
Bvj=c1vjTvj+c2vjEvj 公式六;
其中,
Figure FDA00031750164100000310
Figure FDA00031750164100000311
Figure FDA00031750164100000312
Figure FDA00031750164100000313
其中,Bpj和Bvj分别是基于决策信息
Figure FDA00031750164100000314
Figure FDA00031750164100000315
的决策成本函数,c1pj和c1vj分别是基于决策信息
Figure FDA00031750164100000316
Figure FDA00031750164100000317
的决策观测成本,c2pj和c2vj分别是基于决策信息
Figure FDA00031750164100000318
Figure FDA00031750164100000319
的决策偏差成本,Tpj和Epj分别是基于决策信息
Figure FDA00031750164100000320
的决策时间和决策偏差,Tvj和Evj分别是基于决策信息
Figure FDA00031750164100000321
的决策时间和决策偏差。
Figure FDA00031750164100000322
ζpj和ζvj分别是基于决策信息
Figure FDA00031750164100000323
Figure FDA00031750164100000324
的决策阈值。
Figure FDA00031750164100000325
Figure FDA00031750164100000326
Figure FDA00031750164100000327
分别是初始位置偏差和初始速度偏差;
所述人的决策阈值根据速度-准确性准则设定;人为决策信息随着时间不断演化,当人为决策信息演化到预设阈值时,需要从人的行为集中选择人的某个行为,即令
Figure FDA0003175016410000041
Figure FDA0003175016410000042
时,阈值的设定为:
Figure FDA0003175016410000043
Figure FDA0003175016410000044
其中,
Figure FDA0003175016410000045
除了ζpj和ζvj是未知外,其余的参数(lpj,lvj,Cpj,Cvj等)均为已知;
当决策阈值确定后,可以得到准确的决策时机,即由两个决策阈值产生两个决策时机,定义TD为最终的决策时机,则有下列公式:
Figure FDA0003175016410000046
其中,Tpj和Epj分别是基于决策信息
Figure FDA0003175016410000047
的决策时间和决策偏差,Tvj和Evj分别是基于决策信息
Figure FDA0003175016410000048
的决策时间和决策偏差。
4.根据权利要求3所述的一种面向机器人系统的人在回路决策建模与控制方法,其特征在于:所述人的决策任务设计为针对机器人系统的人为干预任务设计,具体为设计一组人的行为集,包括人的监督行为和人为干预行为,其中监督行为对机器人并不产生任务输入,而人为干预行为是部分干预机器人,即人并不直接控制机器人,而是向机器人发送可执行的人为干预指令,只考虑人为干预行为的任务设计以公式表述为
Figure FDA0003175016410000051
其中,
Figure FDA0003175016410000052
是雅克比矩阵Jh的伪逆矩阵,θh是人为干预任务的正定增益矩阵,
Figure FDA0003175016410000053
是人为干预任务偏差,
Figure FDA0003175016410000054
是期望人为干预任务函数的偏导;
当人为干预任务与机器人任务结合时,形成基于人在回路的行为控制,其中设计后的人的干预任务与机器人自主执行任务相同,都能被机器人快速识别执行,将人的干预任务设置为最高优先级任务,原本的机器人自主任务转为次高优先级任务,机器人自主任务的速度输出指令xcvj投影到人为干预任务速度输出指令xvh的零空间上,得到人机复合任务的速度输出指令为:
Figure FDA0003175016410000055
其中,xvd是人机复合任务的速度输出指令,
Figure FDA0003175016410000056
是人为干预任务的零空间,当
Figure FDA0003175016410000057
时,表示执行人为干预任务的同时无法执行机器人自主任务。
5.根据权利要求4所述的一种面向机器人系统的人在回路决策建模与控制方法,其特征在于:所述固定时间滑模自适应行为控制器设计,具体为在得到人为干预任务后,结合基于零空间投影的行为控制方法,其控制目标是设计控制器使多机器人系统跟踪上参考轨迹
Figure FDA0003175016410000058
该参考轨迹可以通过对参考速度
Figure FDA0003175016410000059
离散积分得到。此外,对参考速度xrv求导可得参考加速度为
Figure FDA00031750164100000510
结合基于零空间投影的行为控制方法,固定时间滑模面的设计为:
Figure FDA00031750164100000511
其中,
Figure FDA00031750164100000512
定义
Figure FDA00031750164100000513
是参考位置与实际位置的偏差,
Figure FDA00031750164100000514
是参考速度与实际速度之间的偏差,
Figure FDA0003175016410000061
α和β是正定增益矩阵,
Figure FDA0003175016410000062
μ1.1和μ1.2是正定奇数且满足
Figure FDA0003175016410000063
Figure FDA0003175016410000064
Figure FDA0003175016410000065
Figure FDA0003175016410000066
是正定奇数且满足
Figure FDA0003175016410000067
基于二阶非线性机器人模型与滑模面,固定时间滑模自适应行为控制器设计为:
Figure FDA0003175016410000068
其中,
Figure FDA0003175016410000069
Figure FDA00031750164100000610
Figure FDA00031750164100000611
其中,
Figure FDA00031750164100000612
Figure FDA00031750164100000613
是正定矩阵,
Figure FDA00031750164100000614
μ2.1和μ2.2是正定奇数且满足0<μ2<1。
Figure FDA00031750164100000615
Figure FDA00031750164100000616
Figure FDA00031750164100000617
是正定奇数且满足
Figure FDA00031750164100000618
Figure FDA00031750164100000619
是未知扰动上界δj的估计值且满足||εj||≤δj。γj>0是正定参数,||sj||1表示第j个滑模面sj的一范数,
Figure FDA00031750164100000620
是估计值
Figure FDA00031750164100000621
与实际值δj之间的偏差。
6.根据权利要求1所述的一种面向机器人系统的人在回路决策建模与控制方法,其特征在于:所述面向机器人系统的人在回路决策建模与控制方法,包括面向二阶非线性系统的人在回路决策建模方法,以及固定时间滑模自适应行为控制器设计方法。
7.根据权利要求6所述的一种面向机器人系统的人在回路决策建模与控制方法,其特征在于:所述面向机器人系统的人在回路决策建模与控制方法,其机器人任务设计针对基于行为控制的人与多机器人交互系统,机器人具备感知探测功能,其移动环境存在障碍物;包括以下步骤;
步骤一:机器人任务设计:利用基于零空间的行为控制方法,把机器人运动到目标点行为和避撞行为设计为机器人基本任务;运动到目标点任务是跟机器人的位置相关,设计其目标函数为机器人的目标点,当机器人运动到目标点时候停止运动。避撞任务跟机器人与障碍物之间的距离相关,通过设定机器人的安全避撞距离,当机器人与障碍物的距离小于安全避撞距离时,执行避撞任务;
步骤二:机器人任务输出融合:机器人完成运动到目标点任务和避撞任务的设计后,根据基于零空间的行为控制方法对任务的输出进行融合,设定机器人避撞任务作为高优先级任务,而运动到目标点任务作为次优先级任务,将运动到目标点的任务输出投影到避撞任务输出的零空间后,相加得到机器人任务的总输出;
步骤三:人的决策过程分析:引入数据处理站,对人与多机器人交互系统的人的决策过程进行分析。数据处理站中对机器人的任务输出反馈和传感器信息反馈进行处理,将反馈信息进行分类,选择反馈信息进行人的决策行为建模,完成建模后的机器人系统,在决策信息到达决策阈值时,触发人的决策,选择是否进行人为干预,若进行人为干预则生成人为干预任务,设计为最高优先级任务输入到机器人;
步骤四:人的决策信息选择:数据处理站接受的多种反馈信息包括直接反应机器人任务执行进度的信息和无法反应任务执行进度的信息,直接反应机器人任务执行进度的信息包括机器人实际位置与预设位置的偏差信息、机器人实际速度与预设速度的偏差信息,无法反应任务执行进度的信息包括机器人与障碍物的距离信息,数据处理站选择机器人位置偏差信息与速度偏差信息作为人的决策信息以实现人的决策建模;
步骤五:人的决策行为建模:将人的漂移扩散模型扩展至二阶非线性系统,基于零空间的行为控制方法得到的机器人位置偏差信息与速度偏差信息作为人的决策信息,为反映决策信息在单位时间内的变化量,采用机器人的速度偏差信息与加速度偏差信息作为漂移率,实现对基于行为控制的人机交互系统中人的决策行为建模;速度偏差信息为预设速度与实际速度的偏差;加速度偏差信息为预设加速度与实际加速度的偏差;
步骤六:人的决策阈值设定:通过设定人的决策阈值来获得准确的决策时机,根据Bayes Risk的速度-准确性准则,对人的决策成本函数最小化得到人的决策阈值设定公式,不同决策信息对应不同决策阈值,不同阈值对应的决策时间由人的决策时间公式得到准确的决策实际,实现速度和准确性最优;
步骤七:人为干预任务设计:当人的决策信息到达决策阈值时,对人的行为集中的行为进行选择以形成人为干预任务,人的行为集包括人的监督行为和人为干预行为,其中监督行为并不对机器人产生任务输入,以人为干预行为来设计人为干预任务,帮助机器人顺利完成任务;
步骤八:固定时间滑模行为控制器设计:即为保证机器人在有限时间内执行人机复合任务,提出将固定时间滑模控制方法与基于零空间的行为控制方法结合,采用自适应策略,消除外部扰动,实现在任意初始偏差下,在有限时间内完成人机协同。
CN202110829617.4A 2021-07-22 2021-07-22 一种面向机器人系统的人在回路决策建模与控制方法 Active CN113467465B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110829617.4A CN113467465B (zh) 2021-07-22 2021-07-22 一种面向机器人系统的人在回路决策建模与控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110829617.4A CN113467465B (zh) 2021-07-22 2021-07-22 一种面向机器人系统的人在回路决策建模与控制方法

Publications (2)

Publication Number Publication Date
CN113467465A true CN113467465A (zh) 2021-10-01
CN113467465B CN113467465B (zh) 2023-08-04

Family

ID=77881898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110829617.4A Active CN113467465B (zh) 2021-07-22 2021-07-22 一种面向机器人系统的人在回路决策建模与控制方法

Country Status (1)

Country Link
CN (1) CN113467465B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793685A (zh) * 2021-11-17 2021-12-14 北京智精灵科技有限公司 基于多维分层漂移扩散模型的认知决策评估方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105319972A (zh) * 2015-11-27 2016-02-10 燕山大学 基于快速终端滑模的遥操作机器人固定时间控制方法
CN106502095A (zh) * 2016-10-27 2017-03-15 福州大学 一种多工业机器人的协同控制方法
CN107450584A (zh) * 2017-08-29 2017-12-08 浙江工业大学 一种基于固定时间滑模的飞行器自适应姿态控制方法
WO2019021058A2 (en) * 2017-07-25 2019-01-31 Mbl Limited SYSTEMS AND METHODS FOR OPERATING A ROBOTIC SYSTEM AND EXECUTING ROBOTIC INTERACTIONS
CN110221542A (zh) * 2019-06-04 2019-09-10 西北工业大学 一种二阶非线性多智能体系统固定时间协同跟踪控制方法
CN110879599A (zh) * 2019-12-12 2020-03-13 大连海事大学 一种基于有限时间扰动观测器的固定时间编队控制方法
CN111752280A (zh) * 2020-07-10 2020-10-09 大连海事大学 一种基于有限时间不确定观测器的多无人船编队固定时间控制方法
CN111882184A (zh) * 2020-07-14 2020-11-03 福州大学 一种多智能体系统零空间行为控制动态任务优先级规划方法
CN112882482A (zh) * 2021-01-27 2021-06-01 曲阜师范大学 一种基于具有预定性能约束的自主式水下机器人的固定时间轨迹跟踪控制方法
US11036230B1 (en) * 2016-03-03 2021-06-15 AI Incorporated Method for developing navigation plan in a robotic floor-cleaning device

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105319972A (zh) * 2015-11-27 2016-02-10 燕山大学 基于快速终端滑模的遥操作机器人固定时间控制方法
US11036230B1 (en) * 2016-03-03 2021-06-15 AI Incorporated Method for developing navigation plan in a robotic floor-cleaning device
CN106502095A (zh) * 2016-10-27 2017-03-15 福州大学 一种多工业机器人的协同控制方法
WO2019021058A2 (en) * 2017-07-25 2019-01-31 Mbl Limited SYSTEMS AND METHODS FOR OPERATING A ROBOTIC SYSTEM AND EXECUTING ROBOTIC INTERACTIONS
CN107450584A (zh) * 2017-08-29 2017-12-08 浙江工业大学 一种基于固定时间滑模的飞行器自适应姿态控制方法
CN110221542A (zh) * 2019-06-04 2019-09-10 西北工业大学 一种二阶非线性多智能体系统固定时间协同跟踪控制方法
CN110879599A (zh) * 2019-12-12 2020-03-13 大连海事大学 一种基于有限时间扰动观测器的固定时间编队控制方法
CN111752280A (zh) * 2020-07-10 2020-10-09 大连海事大学 一种基于有限时间不确定观测器的多无人船编队固定时间控制方法
CN111882184A (zh) * 2020-07-14 2020-11-03 福州大学 一种多智能体系统零空间行为控制动态任务优先级规划方法
CN112882482A (zh) * 2021-01-27 2021-06-01 曲阜师范大学 一种基于具有预定性能约束的自主式水下机器人的固定时间轨迹跟踪控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIE HUANG.ETAL: "A Behavior Control Scheme for Multi-Robot Systems under", 《PROCEEDINGS OF THE 38TH CHINESE CONTROL CONFERENCE》 *
JIE HUANG.ETAL: "A Human Decision-Making Behavior Model for Human-Robot Interaction in Multi-Robot Systems", 《IEEE ACCESS》 *
王崇等: "一类非线性系统的新型固定时间滑模控制", 《电光与控制》 *
陈杰 等: "图像视觉伺服的无人机固定时间滑模控制", 《电光与控制》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793685A (zh) * 2021-11-17 2021-12-14 北京智精灵科技有限公司 基于多维分层漂移扩散模型的认知决策评估方法及系统
CN113793685B (zh) * 2021-11-17 2022-03-25 北京智精灵科技有限公司 基于多维分层漂移扩散模型的认知决策评估方法及系统

Also Published As

Publication number Publication date
CN113467465B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
Kanazawa et al. Adaptive motion planning for a collaborative robot based on prediction uncertainty to enhance human safety and work efficiency
Lahijanian et al. Resource-performance tradeoff analysis for mobile robots
Gao et al. Contextual task-aware shared autonomy for assistive mobile robot teleoperation
Yasuda Behavior-based autonomous cooperative control of intelligent mobile robot systems with embedded Petri nets
Park et al. Robust adaptive formation control and collision avoidance for electrically driven non-holonomic mobile robots
Peterson et al. Exploiting linear structure for precision control of highly nonlinear vehicle dynamics
Carrau et al. Enhancing controller’s tuning reliability with multi-objective optimisation: From model in the loop to hardware in the loop
Huang et al. A human decision-making behavior model for human-robot interaction in multi-robot systems
CN113467465A (zh) 一种面向机器人系统的人在回路决策建模与控制方法
Lim et al. Formation control of leader following unmanned ground vehicles using nonlinear model predictive control
Fusco et al. Integrating features acceleration in visual predictive control
Sekiguchi et al. Human-friendly control system design for two-wheeled service robot with optimal control approach
CN111596691B (zh) 一种基于人在回路的多机器人系统的决策建模与协同控制方法及系统
Lu et al. Optimal steering of stochastic mobile robots that undergo collisions with their environment
CN114987511A (zh) 模拟人类驾驶行为以训练基于神经网络的运动控制器的方法
Medina et al. Uncertainty-dependent optimal control for robot control considering high-order cost statistics
CN113485323B (zh) 一种级联多移动机器人灵活编队方法
Brandao et al. A multi-layer control scheme for multi-robot formations with adaptive dynamic compensation
Benjamin Multi-objective autonomous vehicle navigation in the presence of cooperative and adversarial moving contacts
Huang et al. Human Decision-Making Modeling and Cooperative Controller Design for Human–Agent Interaction Systems
Kanjanawanishkul Coordinated path following for mobile robots using a virtual structure strategy with model predictive control
Harker et al. Coordinated trajectory tracking as an inverse problem with applications to collaborative robotics
Petkov et al. Design And Implementation Of Robust Control Laws.
Toner et al. Probabilistically safe mobile manipulation in an unmodeled environment with automated feedback tuning
Plaza et al. Integration of cell-mapping and reinforcement-learning techniques for motion planning of car-like robots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant