CN111488988B - 基于对抗学习的控制策略模仿学习方法及装置 - Google Patents
基于对抗学习的控制策略模仿学习方法及装置 Download PDFInfo
- Publication number
- CN111488988B CN111488988B CN202010302194.6A CN202010302194A CN111488988B CN 111488988 B CN111488988 B CN 111488988B CN 202010302194 A CN202010302194 A CN 202010302194A CN 111488988 B CN111488988 B CN 111488988B
- Authority
- CN
- China
- Prior art keywords
- strategy
- network
- expert
- decision
- buffer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011217 control strategy Methods 0.000 title claims abstract description 72
- 238000004088 simulation Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000009471 action Effects 0.000 claims abstract description 42
- 238000009826 distribution Methods 0.000 claims abstract description 20
- 230000008901 benefit Effects 0.000 claims abstract description 19
- 230000003993 interaction Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 59
- 230000003042 antagnostic effect Effects 0.000 claims description 33
- 238000005457 optimization Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims 2
- 230000009977 dual effect Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010367 cloning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
- 239000009891 weiqi Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Geometry (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Feedback Control In General (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于对抗学习的控制策略模仿学习方法及装置,方法包括:获取人类专家的决策示教数据,并且获取与专家示教决策数据对应的仿真环境;构建控制策略网络,控制策略网络的输入为仿真环境返回的状态,输出为决策动作;使用当前策略网络在仿真环境进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对专家轨迹数据进行模仿,逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;将通过对抗模仿策略得到的控制策略网络的参数固定保持,以进行实际环境控制任务的应用。该方法结合数据与模型的双重优势,通过对抗学习策略获得鲁棒性更强的控制策略,简单易实现。
Description
技术领域
本发明涉及人工智能技术领域,特别涉及一种基于对抗学习的控制策略模仿学习方法及装置。
背景技术
随着人工智能方法的快速崛起,近几年来,以数据驱动为核心的深度学习技术迅猛发展,在图片、语音、文字识别方面有非常好的表现,同时也在策略对抗游戏方面(围棋、魔兽争霸等)表现出色。近两年相关方面的专家们也在逐步探索新的应用方向,其中在生产制造业中的实践与应用是一个意义重大且前景可观的方向,例如:自动视觉检测、大数据预测、自动驾驶等。在此期间,基于数据驱动的决策控制方法同样得到了良好的发展机遇,行为克隆作为模仿学习方法的典型代表取得了不少成绩,该方法主要是用的是监督学习的思想,首先对不同的任务进行标注,然后从这些专家标注后的海量数据中以监督学习的方式学习得到决策控制策略。
然而,机遇往往伴随着挑战,由于控制决策问题往往与时间相关,而依靠行为克隆(Behavioral Cloning)方式获得了控制策略模型在每一个时间步上都存在一定的误差,这些误差将随着时间的推移逐步累积。同时由于该方法是使用监督学习方式进行策略模型的训练,这将导致学习得到的控制策略只能针对专家标记过得情景任务能够很好地执行,但是面对相关程度很大但是有些不同的任务,其结果往往非常不尽如人意,这种方法学习得到的决策控制模型鲁棒性较差。
目前,控制策略的模仿学习尚属初步阶段,还有非常多的技术难点需要深入研究进行突破。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于对抗学习的控制策略模仿学习方法。
本发明的另一个目的在于提出一种基于对抗学习的控制策略模仿学习装置。
为达到上述目的,本发明一方面实施例提出了一种基于对抗学习的控制策略模仿学习方法,包括以下步骤:获取人类专家的决策示教数据,并存入专家决策轨迹数据缓存器,并且获取与所述专家示教决策数据对应的仿真环境;构建控制策略网络,所述控制策略网络的输入为所述仿真环境返回的状态,输出为决策动作;控制策略的对抗模仿训练,其中,使用当前策略网络在所述仿真环境进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对所述专家轨迹数据进行模仿,逐步缩减所述策略网络决策轨迹数据和所述专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;控制策略的测试,其中,将通过对抗模仿策略得到的控制策略网络的参数固定保持,以进行实际环境控制任务的应用。
本发明实施例的基于对抗学习的控制策略模仿学习方法,结合数据与模型的双重优势,通过对抗学习策略获得鲁棒性更强的控制策略,简单易实现。
另外,根据本发明上述实施例的基于对抗学习的控制策略模仿学习方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述控制策略的对抗模仿训练,包括:
S1:初始化所述策略网络π和所述鉴别器网络D;
S3:从所述缓存器中采样获得所述当前策略交互得到的状态动作对(st,at)π,并从所述缓存器中采样获得专家决策轨迹的状态动作对(st,at)E,根据计算Wasserstein距离损失函数Lwdail对鉴别器网络D进行梯度下降优化:
进一步地,在本发明的一个实施例中,所述距离损失函数Lwdail,其公式如下:
其中,λ是惩罚系数,θ和w代表了策略网络π与鉴别器网络D的参数,
进一步地,在本发明的一个实施例中,为了满足Lipschitz约束条件,还包括:在所述鉴别器网络D上增加一个梯度惩罚项:
进一步地,在本发明的一个实施例中,依据策略在经过时间T上面收集得到的状态轨迹计算所述优势函数,公式如下:
其中,δt=rt+γV(st+1)-V(st)。
进一步地,在本发明的一个实施例中,使用随机梯度优化算法以这个目标对策略网络进行梯度下降优化,公式为:
使用替代梯度损失函数项、值函数误差项和策略熵项,目标函数如下:
为达到上述目的,本发明另一方面实施例提出了一种基于对抗学习的控制策略模仿学习装置,包括:获取模块,用于获取人类专家的决策示教数据,并存入专家决策轨迹数据缓存器,并且获取与所述专家示教决策数据对应的仿真环境;构建模块,用于构建控制策略网络,所述控制策略网络的输入为所述仿真环境返回的状态,输出为决策动作;训练模块,用于控制策略的对抗模仿训练,其中,使用当前策略网络在所述仿真环境进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对所述专家轨迹数据进行模仿,逐步缩减所述策略网络决策轨迹数据和所述专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;测试模块,用于控制策略的测试,其中,将通过对抗模仿策略得到的控制策略网络的参数固定保持,以进行实际环境控制任务的应用。
本发明实施例的基于对抗学习的控制策略模仿学习装置,结合数据与模型的双重优势,通过对抗学习策略获得鲁棒性更强的控制策略,简单易实现。
另外,根据本发明上述实施例的基于对抗学习的控制策略模仿学习装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述训练模块包括:
S1:初始化所述策略网络π和所述鉴别器网络D;
S3:从所述缓存器中采样获得所述当前策略交互得到的状态动作对(st,at)π,并从所述缓存器中采样获得专家决策轨迹的状态动作对(st,at)E,根据计算Wasserstein距离损失函数Lwdail对鉴别器网络D进行梯度下降优化:
进一步地,在本发明的一个实施例中,所述距离损失函数Lwdail,其公式如下:
其中,λ是惩罚系数,θ和w代表了策略网络π与鉴别器网络D的参数,
为了满足Lipschitz约束条件,还包括:在所述鉴别器网络D上增加一个梯度惩罚项:
进一步地,在本发明的一个实施例中,依据策略在经过时间T上面收集得到的状态轨迹计算所述优势函数,公式如下:
其中,δt=rt+γV(st+1)-V(st);
使用随机梯度优化算法以这个目标对策略网络进行梯度下降优化,公式为:
使用替代梯度损失函数项、值函数误差项和策略熵项,目标函数如下:
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于对抗学习的控制策略模仿学习方法的流程图;
图2为根据本发明一个实施例的基于对抗学习的控制策略模仿学习方法的流程图;
图3为根据本发明实施例的连续控制任务示意图;
图4为根据本发明实施例的训练过程曲线与学习曲线图;
图5为根据本发明实施例的基于对抗学习的控制策略模仿学习装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于对抗学习的控制策略模仿学习方法及装置,首先将参照附图描述根据本发明实施例提出的基于对抗学习的控制策略模仿学习方法。
图1是本发明一个实施例的基于对抗学习的控制策略模仿学习方法的流程图。
如图1所示,该基于对抗学习的控制策略模仿学习方法包括以下步骤:
在步骤S101中,获取人类专家的决策示教数据,并存入专家决策轨迹数据缓存器,并且获取与专家示教决策数据对应的仿真环境。
在步骤S102中,构建控制策略网络,控制策略网络的输入为仿真环境返回的状态,输出为决策动作。
可以理解的是,如图2所示,构建控制策略网络π(其参数为θ),该网络的输入为仿真环境Env返回的状态st,输出为决策动作at;通过构建鉴别器网络D(其参数为w),该网络输入为状态动作对(st,at),输出为对状态动作对的度量根据环境信息构建控制策略网络。
在步骤S103中,控制策略的对抗模仿训练,其中,使用当前策略网络在仿真环境进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对专家轨迹数据进行模仿,逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络。
可以理解的是,如图2所示,控制策略的对抗模仿训练:使用当前策略网络π在仿真环境Env进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对专家轨迹数据中包含的专家控制决策数据进行模仿,采用Wasserstein距离的对抗学习策略,逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异,最终模仿学习得到能够产生专家决策轨迹的策略网络π。
具体而言,控制策略的对抗模仿训练,包括:
S1:初始化策略网络π和鉴别器网络D。
S3:从缓存器中采样获得当前策略交互得到的状态动作对(st,at)π,并从缓存器中采样获得专家决策轨迹的状态动作对(st,at)E,根据计算Wasserstein距离损失函数Lwdail对鉴别器网络D进行梯度下降优化:
在步骤S3中,Wasserstein的距离损失函数Lwdail,其公式如下:
其中,λ是惩罚系数,θ和w代表了策略网络π与鉴别器网络D的参数,
为了满足1阶Lipschitz约束条件,需要在鉴别器网络D上增加一个梯度惩罚项,定义如下:
S4:根据奖励函数计算公式rt=-log(1-D(st,at)),计算每一步的奖励rt,并存入缓存器
在上述步骤S5中,策略梯度提升算法最关键的部分就是估计优势函数,利用的是学习得到的状态值函数。通用优势估计(GAE)算法是一种非常有效的方式,对策略梯度的实现来说,依据策略在经过时间上面收集得到的状态轨迹来进行计算,具体公式如下:
其中,δt=rt+γV(st+1)-V(st)。
在步骤S6中,PPO算法的损失函数是通用策略梯度(GP)算法的替代项,并对其有一定的改进。目标函数的实现方式是使用LCLIP项去替代LPG,然后使用随机梯度优化算法以这个目标对策略网络进行梯度下降优化,具体公式为:
PPO算法的最终目标函数是拥有固定的轨迹长度,使用替代梯度损失函数项、值函数误差项和策略熵项,具体的目标函数如下所示:
在步骤S104中,控制策略的测试,其中,将通过对抗模仿策略得到的控制策略网络的参数固定保持,以进行实际环境控制任务的应用。
可以理解的是,控制策略的测试:将上一步通过对抗模仿策略得到的控制策略网络π的参数θ固定保持,用其进行实际环境控制任务的应用。
下面将通过具体示例对基于对抗学习的控制策略模仿学习方法进行进一步说明。
连续控制任务:该任务是控制控制一个在仿真环境中的机器人,使其能够尽快的学会走路,如图3所示。该智能体有111个状态输入,8个控制动作,所有信息都是连续的。在该任务中,使用全连接层构架策略网络π和鉴别器网络D,策略网络包括2个含有64节点的隐藏层,其激活函数为tanh,鉴别器网络由2层100个节点的隐藏层组成,激活函数同样为tanh,使用Adam优化器进行梯度下降优化。所有的结果都归一化到[0,1]范围内,归一化的范围由环境中的随机策略和专家策略生成。
基于对抗学习的控制策略模仿方法中PPO方法使用到的超参数如表1所示,表1为PPO策略提升超参数表。
表1
超参数 | 值 |
全周期(T) | 2048 |
学习率(α<sub>p</sub>) | 3e-4 |
折扣因子(γ) | 0.99 |
GAE参数(λ) | 0.95 |
对抗模仿学习使用到的超参数如表2所示,表2为对抗模仿学习的超参数表。
表2
超参数 | 值 |
学习率(α<sub>d</sub>) | 1e-3 |
惩罚系数(λ) | 0.99 |
该环境的随机策略得分为-60.21±30.40,专家策略得分4066.96±688.97,使用专家策略与环境交互,得到专家控制决策轨迹数据5组,使用5组专家经验数据进行模仿学习的测试,训练过程曲线如图4所示,可以看出该方法能够很快的模仿专家轨迹,得到与专家轨迹近似的得分3890.90±379.63,可以看到该得分与专家策略得分有一定偏差,这个偏差就是与环境交互产生的,这也说明了本发明实施来的方法并不仅仅是简单的复制专家策略,而是进行鲁棒性的学习。其学习曲线如图4所示,该图进行了归一化的处理,0代表了随机策略得分,1代表专家策略得分。从图中可以看出,本发明实施例的方法在1百万次交互之后接近专家策略。
根据本发明实施例提出的基于对抗学习的控制策略模仿学习方法,结合数据与模型的双重优势,通过对抗学习策略获得鲁棒性更强的控制策略,简单易实现。
其次参照附图描述根据本发明实施例提出的基于对抗学习的控制策略模仿学习装置。
图5是本发明一个实施例的基于对抗学习的控制策略模仿学习装置的结构示意图。
如图5所示,该基于对抗学习的控制策略模仿学习装置10包括:获取模块100、构建模块200、训练模块300和测试模块400。
其中,获取模块100用于获取人类专家的决策示教数据,并存入专家决策轨迹数据缓存器,并且获取与专家示教决策数据对应的仿真环境;构建模块200用于构建控制策略网络,控制策略网络的输入为仿真环境返回的状态,输出为决策动作;训练模块300用于控制策略的对抗模仿训练,其中,使用当前策略网络在仿真环境进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对专家轨迹数据进行模仿,逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;测试模块400用于控制策略的测试,其中,将通过对抗模仿策略得到的控制策略网络的参数固定保持,以进行实际环境控制任务的应用。
进一步地,在本发明的一个实施例中,训练模块300包括:
S1:初始化策略网络π和鉴别器网络D;
S3:从缓存器中采样获得当前策略交互得到的状态动作对(st,at)π,并从缓存器中采样获得专家决策轨迹的状态动作对(st,at)E,根据计算Wasserstein距离损失函数Lwdail对鉴别器网络D进行梯度下降优化:
进一步地,在本发明的一个实施例中,距离损失函数Lwdail,其公式如下:
其中,λ是惩罚系数,θ和w代表了策略网络π与鉴别器网络D的参数,
为了满足Lipschitz约束条件,还包括:在鉴别器网络D上增加一个梯度惩罚项:
进一步地,在本发明的一个实施例中,依据策略在经过时间T上面收集得到的状态轨迹计算优势函数,公式如下:
其中,δt=rt+γV(st+1)-V(st);
使用随机梯度优化算法以这个目标对策略网络进行梯度下降优化,公式为:
使用替代梯度损失函数项、值函数误差项和策略熵项,目标函数如下:
需要说明的是,前述对基于对抗学习的控制策略模仿学习方法实施例的解释说明也适用于该实施例的基于对抗学习的控制策略模仿学习装置,此处不再赘述。
根据本发明实施例提出的基于对抗学习的控制策略模仿学习装置,结合数据与模型的双重优势,通过对抗学习策略获得鲁棒性更强的控制策略,简单易实现。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种基于对抗学习的控制策略模仿学习方法,其特征在于,包括以下步骤:
构建策略网络π,所述策略网络π的输入为所述仿真环境返回的状态,输出为决策动作;
控制策略的对抗模仿训练,其中,使用当前策略网络在所述仿真环境进行交互,获得策略网络的决策轨迹数据基于对抗学习的模仿学习方法对所述专家决策轨迹数据进行模仿,逐步缩减所述策略网络决策轨迹数据和所述专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;以及
控制策略的测试,其中,将通过对抗模仿策略得到的策略网络π的参数θ固定保持,以进行实际环境控制任务的应用;
所述控制策略的对抗模仿训练,包括:
S1:初始化策略网络π和鉴别器网络D,其中,策略网络,值网络与鉴别器是由多层神经网络构成的参数化模型,分别负责输出当前策略和鉴别当前策略产生的轨迹与专家轨迹之间的差距,它们的模型参数分别为θ和w;
S3:从所述缓存器中采样获得所述策略交互得到的状态动作对(st,at)π,并从缓存器中采样获得专家决策轨迹的状态动作对(st,at)E,根据计算Wasserstein距离损失函数Lwdail对鉴别器网络D进行梯度下降优化:
其中,w是鉴别器网络D的参数,αd是学习率取0.001,(s,a)π是缓存器中的决策轨迹数据,(s,a)E是专家决策轨迹数据;
6.一种基于对抗学习的控制策略模仿学习装置,其特征在于,包括:
获取模块,用于获取人类专家的决策轨迹数据,并存入专家决策轨迹数据缓存器,并且获取与所述专家决策轨迹数据对应的仿真环境;
构建模块,用于构建策略网络π,所述策略网络π的输入为所述仿真环境返回的状态,输出为决策动作;
训练模块,用于控制策略的对抗模仿训练,其中,使用当前策略网络在所述仿真环境进行交互,获得策略网络的决策轨迹数据基于对抗学习的模仿学习方法对所述专家决策轨迹数据进行模仿,逐步缩减所述策略网络决策轨迹数据和所述专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;以及
测试模块,用于控制策略的测试,其中,将通过对抗模仿策略得到的策略网络π的参数θ固定保持,以进行实际环境控制任务的应用;
所述训练模块包括:
S1:初始化策略网络π和鉴别器网络D,其中,策略网络,值网络与鉴别器是由多层神经网络构成的参数化模型,分别负责输出当前策略和鉴别当前策略产生的轨迹与专家轨迹之间的差距,它们的模型参数分别为θ和w;
S3:从所述缓存器中采样获得所述策略交互得到的状态动作对(st,at)π,并从缓存器中采样获得专家决策轨迹的状态动作对(st,at)E,根据计算Wasserstein距离损失函数Lwdail对鉴别器网络D进行梯度下降优化:
其中,w是鉴别器网络D的参数,αd是学习率,取0.001,(s,a)π是缓存器中的决策轨迹数据,(s,a)E是专家决策轨迹数据;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010302194.6A CN111488988B (zh) | 2020-04-16 | 2020-04-16 | 基于对抗学习的控制策略模仿学习方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010302194.6A CN111488988B (zh) | 2020-04-16 | 2020-04-16 | 基于对抗学习的控制策略模仿学习方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111488988A CN111488988A (zh) | 2020-08-04 |
CN111488988B true CN111488988B (zh) | 2021-10-29 |
Family
ID=71811746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010302194.6A Active CN111488988B (zh) | 2020-04-16 | 2020-04-16 | 基于对抗学习的控制策略模仿学习方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488988B (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101564B (zh) * | 2020-08-17 | 2024-09-06 | 清华大学 | 基于注意力机制的多智能体值函数分解方法及装置 |
CN112052947B (zh) * | 2020-08-17 | 2021-06-25 | 清华大学 | 基于策略选项的分层强化学习方法和装置 |
CN112069662A (zh) * | 2020-08-20 | 2020-12-11 | 北京仿真中心 | 一种基于人机混合增强的复杂产品自主构建方法和模块 |
CN112215333B (zh) * | 2020-09-14 | 2022-08-12 | 清华大学 | 基于低阶高斯分布的多智能体协同探索方法及装置 |
CN114248265B (zh) * | 2020-09-25 | 2023-07-07 | 广州中国科学院先进技术研究所 | 一种基于元模拟学习的多任务智能机器人学习方法及装置 |
CN112580520B (zh) * | 2020-12-22 | 2024-02-20 | 浙江工业大学 | 一种基于模仿学习的Deepfake检测方法 |
CN113379027A (zh) * | 2021-02-24 | 2021-09-10 | 中国海洋大学 | 一种生成对抗交互模仿学习方法、系统、存储介质及应用 |
CN112975967B (zh) * | 2021-02-26 | 2022-06-28 | 同济大学 | 一种基于模仿学习的服务机器人定量倒水方法及存储介质 |
CN112906888B (zh) * | 2021-03-02 | 2023-05-09 | 中国人民解放军军事科学院国防科技创新研究院 | 一种任务执行方法及装置、电子设备和存储介质 |
CN112801558B (zh) * | 2021-04-07 | 2021-07-30 | 北京瑞莱智慧科技有限公司 | 一种工艺参数调节动作决策模型的优化方法以及装置 |
CN112990460B (zh) * | 2021-05-06 | 2021-08-17 | 中国科学院自动化研究所 | 人机对抗分布式训练系统和方法 |
CN113420326B (zh) * | 2021-06-08 | 2022-06-21 | 浙江工业大学之江学院 | 面向深度强化学习的模型隐私保护方法和系统 |
CN113239634B (zh) * | 2021-06-11 | 2022-11-04 | 上海交通大学 | 一种基于鲁棒模仿学习的模拟器建模方法 |
CN113392396B (zh) * | 2021-06-11 | 2022-10-14 | 浙江工业大学 | 面向深度强化学习的策略保护防御方法 |
CN113641099B (zh) * | 2021-07-13 | 2023-02-10 | 西北工业大学 | 一种超越专家演示的阻抗控制模仿学习训练方法 |
CN113467515B (zh) * | 2021-07-22 | 2023-03-10 | 南京大学 | 基于虚拟环境模仿重构和强化学习的无人机飞行控制方法 |
CN113723012B (zh) * | 2021-09-10 | 2024-04-30 | 上海交通大学 | 一种基于多智能体生成对抗模仿安全学习的协作围捕方法 |
CN114219066A (zh) * | 2021-10-29 | 2022-03-22 | 清华大学 | 基于瓦瑟斯坦距离的无监督强化学习方法及装置 |
CN114137967B (zh) * | 2021-11-23 | 2023-12-15 | 常熟理工学院 | 基于多网络联合学习的驾驶行为决策方法 |
CN114734443B (zh) * | 2022-04-27 | 2023-08-04 | 东南大学 | 基于生成对抗模仿学习的人机协作机器人技能识别方法 |
CN115373411A (zh) * | 2022-05-31 | 2022-11-22 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种飞机自动驾驶控制策略决策方法及其系统 |
CN114986518B (zh) * | 2022-07-19 | 2022-11-04 | 聊城一明五金科技有限公司 | 用于汽车拆解生产线的智能控制方法及系统 |
CN116304655B (zh) * | 2022-09-06 | 2024-07-05 | 北京百度网讯科技有限公司 | 策略模型获取及参数调整方法、装置及存储介质 |
CN115953009B (zh) * | 2023-03-01 | 2023-07-21 | 阿里巴巴(中国)有限公司 | 电力系统的调度方法、调度决策模型的训练方法 |
CN117193008B (zh) * | 2023-10-07 | 2024-03-01 | 航天科工集团智能科技研究院有限公司 | 面向高维扰动环境的小样本鲁棒模仿学习训练方法、电子设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108734276B (zh) * | 2018-04-28 | 2021-12-31 | 同济大学 | 一种基于对抗生成网络的模仿学习对话生成方法 |
US11537872B2 (en) * | 2018-07-30 | 2022-12-27 | International Business Machines Corporation | Imitation learning by action shaping with antagonist reinforcement learning |
WO2020028036A1 (en) * | 2018-08-01 | 2020-02-06 | D5Ai Llc | Robust von neumann ensembles for deep learning |
CN110046712A (zh) * | 2019-04-04 | 2019-07-23 | 天津科技大学 | 基于生成模型的隐空间模型化策略搜索学习方法 |
CN110764415B (zh) * | 2019-10-31 | 2022-04-15 | 清华大学深圳国际研究生院 | 一种四足机器人腿部运动的步态规划方法 |
CN110991027A (zh) * | 2019-11-27 | 2020-04-10 | 华南理工大学 | 一种基于虚拟场景训练的机器人模仿学习方法 |
-
2020
- 2020-04-16 CN CN202010302194.6A patent/CN111488988B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111488988A (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488988B (zh) | 基于对抗学习的控制策略模仿学习方法及装置 | |
CN112668235B (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
Lakshminarayanan et al. | Dynamic action repetition for deep reinforcement learning | |
CN109740741B (zh) | 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法 | |
CN110991027A (zh) | 一种基于虚拟场景训练的机器人模仿学习方法 | |
CN111856925B (zh) | 基于状态轨迹的对抗式模仿学习方法及装置 | |
CN111026272B (zh) | 虚拟对象行为策略的训练方法及装置、电子设备、存储介质 | |
CN114460943B (zh) | 服务机器人自适应目标导航方法及系统 | |
Cardamone et al. | On-line neuroevolution applied to the open racing car simulator | |
CN113449458A (zh) | 一种基于课程学习的多智能体深度确定性策略梯度方法 | |
CN113095488A (zh) | 一种基于多智能体最大熵强化学习的合作博弈方法 | |
CN114048834B (zh) | 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置 | |
CN114330651A (zh) | 面向多要素联合指控的分层多智能体增强学习方法 | |
Kim et al. | Generalization of TORCS car racing controllers with artificial neural networks and linear regression analysis | |
CN115952736A (zh) | 一种多智能体目标协同搜索方法及系统 | |
CN114290339B (zh) | 基于强化学习和残差建模的机器人现实迁移方法 | |
CN116090549A (zh) | 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质 | |
CN113919475B (zh) | 机器人技能学习的方法、装置、电子设备及存储介质 | |
CN115972211A (zh) | 基于模型不确定性与行为先验的控制策略离线训练方法 | |
CN114626505A (zh) | 一种移动机器人深度强化学习控制方法 | |
Gan et al. | Noisy agents: Self-supervised exploration by predicting auditory events | |
CN116578094A (zh) | 一种自主避障规划方法、装置及系统 | |
Mott et al. | Controllable and coherent level generation: A two-pronged approach | |
Burch | A survey of machine learning | |
CN105279978B (zh) | 交叉口交通信号控制方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |