CN111753982A - 一种基于强化学习的人机融合自主性边界切换方法及系统 - Google Patents
一种基于强化学习的人机融合自主性边界切换方法及系统 Download PDFInfo
- Publication number
- CN111753982A CN111753982A CN202010478808.6A CN202010478808A CN111753982A CN 111753982 A CN111753982 A CN 111753982A CN 202010478808 A CN202010478808 A CN 202010478808A CN 111753982 A CN111753982 A CN 111753982A
- Authority
- CN
- China
- Prior art keywords
- boundary
- network
- uncertainty
- reinforcement learning
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于强化学习的人机融合自主性边界切换方法及系统,属于人与机器(人工智能)共享控制技术领域,包括:获取决策信息,该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果;利用深度强化学习网络对决策信息进行处理,预测边界切换结果。本发明将自主性边界处理成动态边界,能够根据不同的问题背景,根据人和AI共享的过程,学习更优的界,实现人与机器共享自主控制效果。
Description
技术领域
本发明涉及人与机器(人工智能)共享控制技术领域,特别涉及一种基于强化学习的人机融合自主性边界切换方法及系统。
背景技术
在传统控制或者如今火热的人工智能控制领域,人充当的是控制系统目标的终极来源的角色。但是人的各种感官等具有感知各种外界环境的能力,可以充当控制系统的传感器;人的大脑具有独特的智能,可以作为系统的控制器以及人的手脚可以作为具有执行力的执行器。因此,人的作用可以不仅仅体现在控制输入上。如果将人考虑到控制系统的闭环中,利用人特有的智能优势,实现与智能体的共享控制,将会在诸多涉及人机系统的共享控制问题中发挥更大的作用。
目前有关人机系统自主性边界的种类包括:绝对边界、相对边界和其他边界。绝对边界指与具体人机系统无关的静态边界,是人机切换过程中不可逾越的确定边界。相对边界是与具体人机系统相关的动态边界。环境不确定性越大,就会造成相对边界越难确定。其他边界如对抗边界,指在对抗环境下需要考虑的自主性边界、网络化人机边界等。
人机系统中人在系统的构建中的地位有三种可能:一是系统的目标、操控等需要人的深度参与,人是整个系统中不可缺少的一个部分,此时“人在回路”(in-the-loop);二是系统目标由人给出,执行则由具有部分自主性的机器自行进行,此时“人在回路上”(on-the-loop);第三则是机器可根据感知信息独立地确定目标并给出具体指令,无需人的介入,此时“人在回路外”(out-of-the-loop)。人在回路外的系统不算严格意义的人机系统;人在回路上的系统中人的因素的考虑是可以与机器分离割裂的;而“人在回路”的人机系统的设计和分析则同时包含了人和机器两个因素。
发明内容
本发明的目的在于根据被控环境的要求,进行更自主更合适的边界切换,实现人与机器共享自主控制效果。
为实现以上目的,本发明采用一种基于强化学习的人机融合自主性边界切换方法,包括:
获取决策信息,该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果;
利用深度强化学习网络对决策信息进行处理,预测边界切换结果。
进一步地,还包括:
采用贝叶斯神经网络估计所述动作at的不确定度ct。
进一步地,所述采用贝叶斯神经网络估计所述动作at的不确定度ct,包括:
利用给定数据集训练参数为φ的贝叶斯神经网络;
利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct;
利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布。
进一步地,所述利用深度强化学习网络对决策信息进行处理,预测边界切换结果,包括:
S1、获取所述决策信息作为深度强化学习网络的输入;
S2、根据所述决策信息,计算演员网络的输出边界τt;
S3、根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
S6、重复执行步骤S2~S5,直至深度强化学习网络收敛,并将深度强化学习网络输出作为边界切换预测结果。
另一方面,采用一种基于强化学习的人机融合自主性边界切换系统,包括:AI决策模块、人工决策模块、不确定性度量模块、被控对象以及边界切换模块,被控对象分别与AI决策模块和人工决策模块连接,不确定性度量模块与AI决策模块连接,AI决策模块和人工决策模块的输出均与边界切换模块连接,边界切换模块的输出分别与AI决策模块和人工决策模块的输入连接,其中:
AI决策模块根据被控对象当前的环境状态得到当前的环境状态对应的动作;
人工决策模块用于通过人工对被控对象当前的环境状态进行判断,得到判断结果;
不确定性度量模块用于对AI决策模块的输出值进行不确定性估计,得到当前的环境状态对应的动作的不确定度;
边界切换模块用于利用深度强化学习网络对AI决策模块、不确定性度量模块和人工决策模块的输出结果进行处理,预测边界切换结果。
进一步地,在所述被控对象为视觉数据时,所述AI决策模块采用卷积神经网络序列;在所述被控对象为序列数据时,所述AI决策模块采用循环神经网络序列。
进一步地,所述不确定性度量模块包括训练单元、预测单元和不确定度估算单元;
训练单元用于利用给定数据集训练参数为φ的贝叶斯神经网络;
不确定度估算单元用于利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct;
预测单元用于利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布。
进一步地,所述边界切换模块包括:获取单元、输出边界计算单元、时间差分计算单元、第一更新单元、第二更新单元和预测单元;
时间差分计算单元用于根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
预测单元用于控制输出边界计算单元、时间差分计算单元、第一更新单元以及第二更新单元循环动作直至深度强化学习网络收敛时,将深度强化学习网络输出作为边界切换预测结果。
与现有技术相比,本发明存在以下技术效果:本发明根据被控对象的具体被控环境的要求,在考虑人机融合的基础上,着重于切换边界的学习,不同于现有技术中的静态边界的使用,本方案中将自主性边界处理成动态边界,能够根据不同的问题背景,根据人和AI共享的过程,学习更优的界,既能达到充分发挥人和机器的各自优势,又能相互弥补缺陷,实现人与机器共享自主控制效果。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种基于强化学习的人机融合自主性边界切换方法的流程示意图;
图2是一种基于强化学习的人机融合自主性边界切换系统的结构示意图;
图3是AI决策系统的架构图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种基于强化学习的人机融合自主性边界切换方法,包括如下步骤T1至T2:
T1、获取决策信息,该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果;
T2、利用深度强化学习网络对决策信息进行处理,预测边界切换结果。
需要说明的是,被控对象以半自动驾驶车辆为例,上述步骤T1所获取的决策信息包括车辆所处外界环境的当前状态st(包括车辆的位置,速度,所处道路信息,以及其他车辆的信息等),以及AI决策系统根据当前状态st发出的动作信号at(比如转向角度,制动大小等),不确定性评估模块针对AI决策系统的动作信号at所做出的不确定度评估ct,以及半自动驾驶环境中人类对车辆所处外界环境状态的安全级别判断结果ht;上述步骤T2中利用深度强化学习网络对T1步骤获取的决策信息进行处理及学习动态切换边界,以获得智能代理和人类水平之间决策权限的切换,进而实现人机共享控制的目的。
需要说明的是,本实施例中利用AI智能决策系统对被控对象当前所处的环境状态对应的动作进行预测,并对AI智能决策系统的的可靠度或者不确定度进行度量,将AI智能决策系统的预测结果及对应的不确定度以及人工对被控对象当前所处被控环境的控制量的判断,作为深度强化学习网络的输入,深度强化学习网络输出的即为人机切换系统的自主性边界。
本实施例中通过根据被控对象所处的不同的被控环境,将自主性边界处理成动态边界,根据人机共享控制的过程,学习更优的界。
具体地,本实施例中采用贝叶斯神经网络估计所述动作at的不确定度ct,包括如下步骤:
利用给定数据集训练参数为φ的贝叶斯神经网络;
需要说明的是,给定数据集D={x,y},训练参数为φ的贝叶斯神经网络(Bayesianneural networks,BNN),理论上可以得到p(φ|D)的后验分布和模型参数fφ。
利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布;
需要说明的是,假设环境状态st对应的动作的不确定性为x′,输出y′服从以下分布:p(y′|x′,D)=∫p(y′|φ)p(φ|D)dθ,其中,y′=fφ(x′)是x′的模型预测输出。
利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct。
其中,T表示采样次数),J表示单位矩阵,τ表示模型精度。
本实施例通过利用贝叶斯神经网络在特定环境中自然解释参数估计中的不确定性,并将这种不确定性传播到预测中。
具体地,如上述步骤T2所述,利用深度强化学习网络对决策信息进行处理,预测边界切换结果,包括如下细分步骤S1至S6:
本实施例中深度强化学习网络基于Actor-Critic框架实现自主性边界的学习。首先随机初始化演员网络πθ和评论家网络Qω的权值参数步长分别是αθ和αω,Δ=0.01。
S2、根据所述决策信息,计算演员网络的输出边界τt;
S3、根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
S6、重复执行步骤S2~S5,直至深度强化学习网络收敛,并将深度强化学习网络输出作为边界切换预测结果。
如图2所示,本实施例公开了一种基于强化学习的人机融合自主性边界切换系统,包括:AI决策模块10、人工决策模块20、不确定性度量模块30、边界切换模块40以及被控对象50,被控对象50分别与AI决策模块10和人工决策模块20连接,不确定性度量模块与AI决策模块10连接,AI决策模块10和人工决策模块20的输出均与边界切换模块40连接,边界切换模块40的输出分别与AI决策模块10和人工决策模块20的输入连接,其中:
AI决策模块10根据被控对象50当前的环境状态得到当前的环境状态对应的动作;
人工决策模块20用于通过人工对被控对象50当前的环境状态进行判断,得到判断结果;
不确定性度量模块30用于对AI决策模块10的输出值进行不确定性估计,得到当前的环境状态对应的动作的不确定度;
边界切换模块40用于利用深度强化学习网络对AI决策模块10、不确定性度量模块30和人工决策模块20的输出结果进行处理,预测边界切换结果。
需要说明的是,由所述AI决策模块10、不确定性度量模块30和人工决策模块20的输出结果构成的决策信息其中st表示环境状态,at表示环境状态st对应的动作,ct表示动作at的不确定度,ht表示人工对于状态st的判断。
需要说明的是,在所述被控对象50为视觉数据时,所述AI决策模块10采用卷积神经网络序列;在所述被控对象50为序列数据时,所述AI决策模块10采用循环神经网络序列;图3示出了基于集成的思想给出的一种学习的示意图。
应当理解的是,人工智能和大数据等技术则带来了环境感知和策略选择等方面的自主能力,使得机器能够识别周边环境进而自主选择合适策略,发出指令并经由机器的自动化完成最终目标。本领域技术人员可以根据具体被控对象50的不同选取合适的AI决策系统。
具体地,本实施例通过利用贝叶斯神经网络在特定环境中自然解释参数估计中的不确定性,并将这种不确定性传播到预测中。所述不确定性度量模块30包括训练单元、不确定度估算单元和预测单元;
训练单元用于利用给定数据集训练参数为φ的贝叶斯神经网络;
不确定度估算单元用于利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct;
预测单元用于利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布。
具体地,所述边界切换模块40包括:获取单元、输出边界计算单元、时间差分计算单元、第一更新单元、第二更新单元和预测单元;
时间差分计算单元用于根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
预测单元用于控制输出边界计算单元、时间差分计算单元、第一更新单元以及第二更新单元循环动作直至深度强化学习网络收敛时,将深度强化学习网络输出作为边界切换预测结果。
需要说明的是,本实施例公开的一种基于强化学习的人机融合自主性边界切换系统与上述实施例所公开的一种基于强化学习的人机融合自主性边界切换方法具有相同或相应的技术特征,可实现相同的技术效果,该处不再赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于强化学习的人机融合自主性边界切换方法,其特征在于,包括:
获取决策信息,该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果;
利用深度强化学习网络对决策信息进行处理,预测边界切换结果。
3.如权利要求1所述的基于强化学习的人机融合自主性边界切换方法,其特征在于,还包括:
采用贝叶斯神经网络估计所述动作at的不确定度ct。
4.如权利要求3所述的基于强化学习的人机融合自主性边界切换方法,其特征在于,所述采用贝叶斯神经网络估计所述动作at的不确定度ct,包括:
利用给定数据集训练参数为φ的贝叶斯神经网络;
利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct;
利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布。
5.如权利要求1~4任一项所述的基于强化学习的人机融合自主性边界切换方法,其特征在于,所述利用深度强化学习网络对决策信息进行处理,预测边界切换结果,包括:
S1、获取所述决策信息作为深度强化学习网络的输入;
S2、根据所述决策信息,计算演员网络的输出边界τt;
S3、根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
S6、重复执行步骤S2~S5,直至深度强化学习网络收敛,并将深度强化学习网络输出作为边界切换预测结果。
6.一种基于强化学习的人机融合自主性边界切换系统,其特征在于,包括:AI决策模块、人工决策模块、不确定性度量模块、被控对象以及边界切换模块,被控对象分别与AI决策模块和人工决策模块连接,不确定性度量模块与AI决策模块连接,AI决策模块和人工决策模块的输出均与边界切换模块连接,边界切换模块的输出分别与AI决策模块和人工决策模块的输入连接,其中:
AI决策模块根据被控对象当前的环境状态得到当前的环境状态对应的动作;
人工决策模块用于通过人工对被控对象当前的环境状态进行判断,得到判断结果;
不确定性度量模块用于对AI决策模块的输出值进行不确定性估计,得到当前的环境状态对应的动作的不确定度;
边界切换模块用于利用深度强化学习网络对AI决策模块、不确定性度量模块和人工决策模块的输出结果进行处理,预测边界切换结果。
7.如权利要求6所述的基于强化学习的人机融合自主性边界切换系统,其特征在于,在所述被控对象为视觉数据时,所述AI决策模块采用卷积神经网络序列;在所述被控对象为序列数据时,所述AI决策模块采用循环神经网络序列。
9.如权利要求7所述的基于强化学习的人机融合自主性边界切换系统,其特征在于,所述不确定性度量模块包括训练单元、预测单元和不确定度估算单元;
训练单元用于利用给定数据集训练参数为φ的贝叶斯神经网络;
不确定度估算单元用于利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct;
预测单元用于利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布。
10.如权利要求6~9任一项所述的基于强化学习的人机融合自主性边界切换系统,其特征在于,所述边界切换模块包括:获取单元、输出边界计算单元、时间差分计算单元、第一更新单元、第二更新单元和预测单元;
时间差分计算单元用于根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
预测单元用于控制输出边界计算单元、时间差分计算单元、第一更新单元以及第二更新单元循环动作直至深度强化学习网络收敛时,将深度强化学习网络输出作为边界切换预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010478808.6A CN111753982A (zh) | 2020-05-29 | 2020-05-29 | 一种基于强化学习的人机融合自主性边界切换方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010478808.6A CN111753982A (zh) | 2020-05-29 | 2020-05-29 | 一种基于强化学习的人机融合自主性边界切换方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111753982A true CN111753982A (zh) | 2020-10-09 |
Family
ID=72674338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010478808.6A Pending CN111753982A (zh) | 2020-05-29 | 2020-05-29 | 一种基于强化学习的人机融合自主性边界切换方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753982A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580801A (zh) * | 2020-12-09 | 2021-03-30 | 广州优策科技有限公司 | 一种强化学习训练方法及基于强化学习的决策方法 |
CN112861440A (zh) * | 2021-02-27 | 2021-05-28 | 哈尔滨工业大学(威海) | 一种面向各类应用的软件机器人系统及其工作方法 |
CN117697769A (zh) * | 2024-02-06 | 2024-03-15 | 成都威世通智能科技有限公司 | 一种基于深度学习的机器人控制系统和方法 |
-
2020
- 2020-05-29 CN CN202010478808.6A patent/CN111753982A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580801A (zh) * | 2020-12-09 | 2021-03-30 | 广州优策科技有限公司 | 一种强化学习训练方法及基于强化学习的决策方法 |
CN112580801B (zh) * | 2020-12-09 | 2021-10-15 | 广州优策科技有限公司 | 一种强化学习训练方法及基于强化学习的决策方法 |
CN112861440A (zh) * | 2021-02-27 | 2021-05-28 | 哈尔滨工业大学(威海) | 一种面向各类应用的软件机器人系统及其工作方法 |
CN117697769A (zh) * | 2024-02-06 | 2024-03-15 | 成都威世通智能科技有限公司 | 一种基于深度学习的机器人控制系统和方法 |
CN117697769B (zh) * | 2024-02-06 | 2024-04-30 | 成都威世通智能科技有限公司 | 一种基于深度学习的机器人控制系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Singla et al. | Memory-based deep reinforcement learning for obstacle avoidance in UAV with limited environment knowledge | |
CN111753982A (zh) | 一种基于强化学习的人机融合自主性边界切换方法及系统 | |
CN111123963B (zh) | 基于强化学习的未知环境自主导航系统及方法 | |
US20220164673A1 (en) | Unsupervised control using learned rewards | |
JP6550678B2 (ja) | 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム | |
CN111667513A (zh) | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 | |
Chu et al. | Fault reconstruction of thruster for autonomous underwater vehicle based on terminal sliding mode observer | |
Wu et al. | Deep reinforcement learning on autonomous driving policy with auxiliary critic network | |
JP2009176283A (ja) | 物体特性のロバストな推定を用いる適応型運転者支援システム | |
CN113807460B (zh) | 智能体动作的确定方法和装置、电子设备和介质 | |
Budiharto et al. | Indoor navigation using adaptive neuro fuzzy controller for servant robot | |
CN111783994A (zh) | 强化学习的训练方法和装置 | |
Zhou et al. | Hybrid hierarchical reinforcement learning for online guidance and navigation with partial observability | |
CN115488896A (zh) | 一种基于残余动态学习的机械臂未知外力识别与估计方法 | |
Qing-Lai et al. | Data-based optimal control for discrete-time zero-sum games of 2-D systems using adaptive critic designs | |
Li et al. | Replay overshooting: Learning stochastic latent dynamics with the extended kalman filter | |
Lechner et al. | Neuronal circuit policies | |
Zheng et al. | An rnn-based learnable extended kalman filter design and application | |
CN116038716B (zh) | 机器人的控制方法和机器人的控制模型的训练方法 | |
Yu et al. | Robot hand-eye cooperation based on improved inverse reinforcement learning | |
Cai et al. | Implementation of the Human‐Like Lane Changing Driver Model Based on Bi‐LSTM | |
CN116736729B (zh) | 一种抗感知误差的视距内空战机动策略生成方法 | |
Ma et al. | Automatic driving system using identification of switched systems with unknown switch points | |
CN116909136B (zh) | 基于确定学习的2-dof直升机滑模控制方法及系统 | |
Howard et al. | Towards evolved time to contact neurocontrollers for quadcopters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |