CN103324085A - 基于监督式强化学习的最优控制方法 - Google Patents

基于监督式强化学习的最优控制方法 Download PDF

Info

Publication number
CN103324085A
CN103324085A CN2013102320438A CN201310232043A CN103324085A CN 103324085 A CN103324085 A CN 103324085A CN 2013102320438 A CN2013102320438 A CN 2013102320438A CN 201310232043 A CN201310232043 A CN 201310232043A CN 103324085 A CN103324085 A CN 103324085A
Authority
CN
China
Prior art keywords
controller
neural network
artificial neural
omega
evaluator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102320438A
Other languages
English (en)
Other versions
CN103324085B (zh
Inventor
赵冬斌
王滨
刘德荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201310232043.8A priority Critical patent/CN103324085B/zh
Publication of CN103324085A publication Critical patent/CN103324085A/zh
Application granted granted Critical
Publication of CN103324085B publication Critical patent/CN103324085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明提出一种基于监督式强化学习的最优控制方法,包括步骤:步骤1,初始化控制器和评价器的人工神经网络的权值等参数,及一组训练数据集;步骤2,选择一组系统状态开始迭代;步骤3,监督式控制器产生初始稳定的控制策略,控制器通过调整自身权值逼近该控制策略;步骤4,控制器生成相应的控制动作,并附加一定的随机噪声作为探索;步骤5,将带有噪声的控制动作施加到被控制的系统上,观测下一时刻系统的状态和回报;步骤6,调整控制器和评价器的人工神经网络的权重;步骤7,判断当前状态是否满足终止条件,是则进入步骤8,否则回到步骤3;步骤8,判断初始的系统状态数据是否已经全部用于训练,是则输出最终的控制器,否则回到步骤2。

Description

基于监督式强化学习的最优控制方法
技术领域
本发明涉及智能控制技术领域,尤其涉及基于监督式强化学习的最优控制方法。
背景技术
在工业生产、航空航天、汽车工程等领域,被控系统能够在有限的资源下使用最小的资源来完成控制目标,即最优控制。最优控制指的是找到一个最优控制策略能够使得性能指标函数达到最优。性能指标函数是与系统状态和所采用的控制策略有关,它能够反映该控制策略在当前以及以后时刻的控制效果。针对离散系统性能指标函数可以用数学形式表示如下:
J ( x k ) = Σ n = k ∞ r ( x n , u n )
其中系统运行时间用下标k表示,xk和uk分别指k时刻系统状态和控制动作。r(·,·)被称为回报函数,反映某一时刻当前系统的运行好坏。因此最优控制便是寻找使上式有最优解的控制策略,然而,由于计算的复杂性,最优的控制策略一般是无法直接计算得到的。尤其是车辆的自适应巡航控制问题,在控制车辆速度和车距时,需要针对不同驾驶场景和不同驾驶习惯来进行自适应调节,由此提出了自适应最优控制器的设计问题。
强化学习最初可以追溯到控制论、统计学、心理学、神经系统科学、计算机科学的早期研究,现在已经成为一种新的机器学习算法,并逐渐成为研究的热点。强化学习是以和环境互动,并获取环境奖惩来进行学习,并最终获得最优策略。
由于强化学习具有无监督的自适应能力,它的训练过程可以看成是探索和评价的过程,控制器根据自身的状态选择动作,环境给对该动作做出评价和奖惩,最终根据累计回报最大的原则来选择最优控制动作。
然而,由于强化学习的初始训练过程是一个探索的过程,为了实现最优控制目标需要付出较大的搜索代价。因此提出一种搜索代价小、学习成功率高的强化学习最优控制算法显得尤为重要。
发明内容
针对传统的强化学习控制方法训练代价高、学习成功率低的问题,本发明提出一种基于监督式强化学习的最优控制方法。
本发明提出的一种基于监督式强化学习的最优控制方法,该方法包括以下步骤:步骤1,首先初始化控制器和评价器的人工神经网络的权值等参数,和一组训练数据集;步骤2,选取一组训练数据即系统状态开始进行迭代学习;步骤3,根据当前时刻的系统状态,采用监督式控制器“监督”控制器的人工神经网络学习一个容许可控的控制策略;步骤4,控制器的人工神经网络输出学习到的控制策略,并在此基础上附加一定的随机噪声作为探索,以期获得更好的控制策略;步骤5,根据当前控制策略和当前时刻被控系统的状态,生成控制动作并施加到被控系统上,获得下一时刻的系统状态和系统给出的回报;步骤6,根据前一时刻系统状态、相应控制动作和下一时刻的系统状态,调整控制器、评价器的人工神经网络的权重,获得调整后的控制器和评价器的人工神经网络权重;步骤7,判断当前状态是否满足定义的终止条件,是则进入步骤8,否则返回步骤3继续执行;步骤8,判断是否将选取的训练数据集中的数据全部用于训练,是则输出当前控制器的人工神经网络对应的控制策略作为最优控制策略,否则返回步骤2继续训练。
综上所述,与传统的强化学习控制方法相比,本发明提出的基于监督式强化学习的最优控制方法使用监督式控制器对控制器进行预训练得到初始稳定的控制策略,保证学习过程的100%成功率,而基于初始稳定控制策略的一定范围内的随机探索,有利于寻找最优控制策略,具体优点包括:
1)本发明提出的基于监督式强化学习的最优控制方法不依赖于被控系统模型,而是基于采集的系统数据,使得该方法具有对真实环境的自适应能力;
2)不论是线性还是非线性系统,该方法都能够适用;
3)采用监督式控制器,保证整个算法在运行中,始终能够获得稳定的控制策略并能收敛到最优解,同时也保证了整个算法训练过程100%成功率;
4)控制动作加入了探索噪声,既满足了持续激励条件,避免获得与监督式控制器相同的控制策略,同时也保证了整个系统在运行当中不断输出有用的系统数据。
附图说明
图1是本发明基于监督式强化学习的最优控制方法流程图;
图2是本发明优选实施例中车辆自适应巡航控制问题示意图;
图3是本发明中基于监督式强化学习的最优控制方法结构框图;
图4是本发明中控制器和评价器的人工神经网络结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,参照附图,对本发明进行进一步详细说明。
在本发明的方法中,监督式控制器为已有的非最优控制器,如PID控制器等,在开始的训练过程中,监督式控制器赋予控制器一些先验知识,有效的降低强化学习的训练难度。同时导师监督学习不能提供所有的、最优的信息,需要引入强化学习的探索过程实现最优化,而通过评价器可有效地对该探索过程进行评价并反馈给控制器。最终,基于监督式强化学习的最优控制方法能够使得控制器和评价器神经网络最终迭代收敛到最优控制策略和最优性能指标函数。该方法特别适用于线性或非线性离散系统求解最优控制问题。本发明可直接利用实时采集的数据,不依赖于系统模型。将车辆的自适应巡航控制作为本发明的研究对象,如图2所示。控制目标是控制车辆刹车踏板或油门开度使车辆能适应不同的驾驶场景和不同的驾驶习惯。
本发明的基于监督式强化学习的最优控制方法包括的基本步骤是:步骤1,由人工神经网络构建控制器和评价器,初始化控制器和评价器的人工神经网络的权值等参数,初始化一组训练数据集;步骤2,选择一组系统状态作为训练数据开始迭代;步骤3,根据当前时刻系统状态,监督式控制器产生初始稳定的控制策略,控制器的人工神经网络通过调整自身权值逼近这个控制策略;步骤4,控制器的人工神经网络根据当前学习到的控制策略和当前时刻系统状态,生成相应的控制动作,并在该控制动作的较小邻域内进行探索,即在此控制动作上附加一定的随机噪声作为探索;步骤5,将带有噪声的控制动作施加到被控制的系统上,观测下一时刻系统的状态和回报;步骤6,根据已有的系统数据观测量,调整控制器和评价器的人工神经网络的权重;步骤7,判断当前状态是否满足终止条件,是则进入步骤8,否则回到步骤3继续调整控制器、评价器的人工神经网络的权重;步骤8,判断初始的系统状态数据是否已经全部用于训练,是则输出最终的控制器,否则继续回到步骤2选取系统状态继续迭代。
下面结合图1对各步骤进行详细说明。图1是本发明基于监督式强化学习的最优控制方法的流程图。如图1所示,该方法包括以下几个步骤:
步骤1,首先初始化控制器和评价器的人工神经网络的权值等参数,和一组训练数据集,该训练数据集来自真实的系统数据。
本发明以车辆自适应巡航控制为例进行说明。图2是车辆自适应巡航控制问题示意图。车辆的自适应巡航控制(ACC:Adaptive Cruise Control)系统是一种先进的驾驶员辅助系统(ADAS:Advanced Driver AssistanceSystem)。其从定速巡航控制(CC:Cruise Control)系统发展而来,通过距离传感器实时测量本车与前车的距离和相对速度,计算出合适的油门或刹车的控制量,并进行自动调节实现本车的车速控制或车距控制。在无前车的情况下,ACC系统根据驾驶员自设的行驶速度,通过控制发动机油门开度来保持定速行驶,类似于CC系统;在检测到有前车的情况下,ACC系统能够计算并估计本车能否以当前速度继续行驶,如若不能,ACC系统将计算出实现车速或安全车距所需的发动机油门和刹车制动的控制量,通过控制油门和刹车实现车辆的车速和车距控制。在车辆的自适应巡航控制问题上,基于监督式强化学习的最优控制方法所需的训练数据就是本车与前车的距离和相对速度。
步骤2,选取一组训练数据即系统状态开始进行迭代学习。
在训练数据集中选取一组训练数据作为控制器和评价器的输入,对控制器和评价器的人工神经网络进行训练学习。
步骤3,根据当前时刻的系统状态,采用监督式控制器“监督”控制器的人工神经网络学习一个初始稳定的控制策略。
稳定的控制策略指的是在某一区域内,在任意初始状态下,控制策略能够对被控系统进行稳定控制。初始稳定的控制策略不仅保证了相应的性能指标函数是有效的,同时有利于基于监督式强化学习的最优控制方法的在线运行。初始的稳定控制策略不需要是最优的,可以是任意一种稳定的控制策略。在实际应用中,一个被控系统的稳定控制策略是很容易得到的,如常见的PID方法、LQR方法、模糊控制等等都可以作为初始的稳定控制策略,由这种初始稳定的控制策略构成的控制器即可作为监督式控制器。在车辆的自适应巡航控制问题上,稳定的控制策略即是能够使后车跟随前车的间距稳定控制在一定范围内。
图3是基于监督式强化学习的最优控制结构图,示出了监督式控制器、控制器、评价器和被控系统之间的数据流向,其中u(t)和x(t)分别表示控制动作和该控制动作下的系统状态。图4是人工神经网络结构图。人工神经网络结构包括输入、n个隐藏神经元和相应的神经元权重和输出。控制器和评价器的人工神经网络分别用来逼近控制策略和性能指标函数。控制器的人工神经网络用来计算控制动作,而评价器的人工神经网络则用来反映当前控制策略的性能指标,从而改进当前控制策略。神经网络逼近控制策略和性能指标函数可以用如下公式表示:
u A ( t ) = ω a T ( t ) σ ( v a T ( t ) X a ( t ) ) - - - ( 1 )
J ( t ) = ω c T ( t ) σ ( v c T ( t ) X c ( t ) ) - - - ( 2 )
其中,J和uA分别表示由人工神经网络逼近的性能指标函数和控制策略。ωa,va和ωc,vc分别是控制器和评价器的人工神经网络的权重,T代表矩阵的转置,σ(·)被称为激活函数,其可以为高斯函数或二次函数。对于车辆的自适应巡航控制问题,控制器的输入变量Xa(即图3中的x(t))包括本车与前车的相对速度Δv和相对距离Δd,评价器的输入变量Xc包括Xa,还有相应的控制动作u。控制动作是本车的加速度ad。根据人工神经网络的逼近性,通过选取合适的人工神经网络结构并调整相应的人工神经网络权重,可以有效的逼近性能指标函数和控制策略。尤其是当被控系统是非线性系统时,性能指标函数和控制策略是高度非线性函数,无法直接用函数表示时,人工神经网络能够有效地解决相应的问题。
监督式控制器与控制器的人工神经网络的监督误差可表示为:
Figure BDA00003331188600061
其中uS(t)为监督式控制器的输出,uA(t)为控制器的人工神经网络的输出。控制器的人工神经网络的权值调节方法为:
Δ ω a S ( t ) = - α ∂ E s ( t ) ∂ ω a ( t ) = - ασ a ( t ) [ ω a T ( t ) σ a ( t ) - u S ( t ) ] T - - - ( 3 )
ω a ( t + 1 ) = ω a ( t ) + Δ ω a S ( t ) - - - ( 4 )
其中,σa(t)为控制器的人工神经网络隐含层激活函数,采用双曲正切函数;α=0.1是学习速率,下同。
步骤4,控制器的人工神经网络输出学习到的控制策略,并在此基础上附加一定的随机噪声作为探索,以期获得更好的控制策略;
控制器的输出附加一定的噪声后可表示为:
u(t)=uA(t)+N(0,χ)   (5)
其中N(0,χ)表示均值为0、方差为χ=0.2的随机数,为探索噪声。u(t)是最终施加到被控系统上的控制动作。
步骤5,根据当前控制策略和当前时刻被控系统的状态,生成控制动作并施加到被控系统上,获得下一时刻的系统状态和系统给出的回报;
系统的累加回报函数定义为:
J ( t ) = Σ k = 0 T γ k r ( t + k + 1 ) - - - ( 6 )
其中,γ为折扣因子,0<γ≤1,r(t)为t时刻的回报,可由具体问题定义相应的回报函数,也可简单定义为二值形式,如:“0”表示成功,“-1”表示其他。针对车辆的自适应巡航控制问题,折扣因子γ=0.9;定义二值形式的回报函数,“0”表示训练达到了终止条件,“-1”表示处于其他状态,训练尚未成功。
步骤6,根据前一时刻系统状态、相应控制动作和下一时刻的系统状态,调整控制器、评价器的人工神经网络的权重,获得调整后的控制器和评价器的人工神经网络权重;
评价器的人工神经网络的预测误差可表示为:
Figure BDA00003331188600071
其中ec(t)=γJ(t)+r(t)-J(t-1)。评价器的人工神经网络的权值更新可表示为:
Δω c ( t ) = - β ∂ E c ( t ) ∂ ω c ( t ) - - - ( 6 )
= - βγ σ c ( t ) [ γω c T ( t ) σ c ( t ) - ω c T ( t - 1 ) σ c ( t - 1 ) + r ( t ) ] T
ωc(t+1)=ωc(t)+Δωc(t)   (7)
其中,σc(t)为控制器的人工神经网络隐含层激活函数,采用双曲正切函数;β=0.3为学习速率,下同。
控制器的人工神经网络的学习误差表示为:
Figure BDA00003331188600074
其中ea(t)=J(t)-U(t),U(t)为期望的最终值,定义为0。控制器的人工神经网络的权值更新可表示为:
Δω a C ( t ) = - α ∂ E a ( t ) ∂ ω a ( t ) = - α ω c , n + 1 σ a ( t ) [ ω c T ( t ) σ c ( t ) ] T - - - ( 8 )
ω a ( t + 1 ) = ω a ( t ) + Δω a C ( t ) - - - ( 9 )
其中wc,n+1为与控制输入u连接的评价器的人工神经网络权值。
步骤7,判断当前状态是否满足定义的终止条件,是则进入步骤8,否则返回步骤3继续执行;针对车辆的自适应巡航控制问题,定义终止条件为
| &Delta;v | < 0.072 km / h | &Delta;d | < 0.2 m - - - ( 10 )
训练过程中,当系统的状态满足此条件时,即认为训练成功,得到的回报为“0”,否则得到的回报为“-1”。
步骤8,判断是否将选取的训练数据集中的数据全部用于训练,是则输出当前控制器的人工神经网络对应的控制策略作为最优的控制策略,否则返回步骤2继续训练。
经过上述步骤1~8后,最终获得的人工神经网络控制器对应的控制策略被认为是最优控制策略。
以上所述的方法步骤,对本发明的目的、技术方案和有益效果进行了进一步详细说明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于监督式强化学习的最优控制方法,其特征在于,该方法包括以下步骤:
步骤1,首先初始化控制器和评价器的人工神经网络的权值参数,和一组训练数据集;
步骤2,选取一组训练数据即系统状态开始进行迭代学习;
步骤3,根据当前时刻的系统状态,采用监督式控制器监督控制器的人工神经网络学习一个容许可控的控制策略;
步骤4,控制器的人工神经网络输出学习到的控制策略,并在此基础上附加一定的随机噪声作为探索,以期获得更好的控制策略;
步骤5,根据当前控制策略和当前时刻被控系统的状态,生成控制动作并施加到被控系统上,获得下一时刻的系统状态和系统给出的回报;
步骤6,根据前一时刻系统状态、相应控制动作和下一时刻的系统状态,调整控制器、评价器的人工神经网络的权重,获得调整后的控制器和评价器的人工神经网络权重;
步骤7,判断当前状态是否满足定义的终止条件,是则进入步骤8,否则返回步骤3继续执行;
步骤8,判断是否将选取的训练数据集中的数据全部用于训练,是则输出当前控制器的人工神经网络对应的控制策略作为最优的控制策略,否则返回步骤2继续训练。
2.根据权利要求1所述的方法,其特征在于,所述控制器的在线学习采用标准三层前向人工神经网络模型,首先利用监督式控制器与控制器的人工神经网络输出的学习误差对控制器进行学习,使控制器的学习误差减小到预定值或者使学习次数达到预定值以获得与监督式控制器近似的控制策略。
3.根据权利要求1所述的方法,其特征在于,所述控制器学习得到的控制策略附加一定的随机噪声作为探索,以期获得更好的控制策略,而所得控制策略的优劣由评价器进行评价。
4.根据权利要求1所述的方法,其特征在于,所述评价器的在线学习采用标准三层前向人工神经网络模型,利用评价器的人工神经网络的学习误差对评价器进行学习,同时利用评价器的输出对控制器进行一次学习。
5.根据权利要求3或4所述的方法,其特征在于,所述性能函数指标的近似值表示为:
J ( t ) = &Sigma; k = 0 T &gamma; k r ( t + k + 1 )
其中,γ为折扣因子,0<γ≤1,r(t)为t时刻的回报,T为累计回报的截止时刻。
6.根据权利要求2所述的方法,其特征在于,监督式控制器与控制器的人工神经网络输出的监督误差表示为:
Figure FDA00003331188500022
其中uS(t)为监督控制的输出,uA(t)为控制器的人工神经网络的输出,控制器的人工神经网络的权值调节方法为:
&Delta;&omega; a S ( t ) = - &alpha; &PartialD; E s ( t ) &PartialD; &omega; a ( t ) = - &alpha; &sigma; a ( t ) [ &omega; a T ( t ) &sigma; a ( t ) - u S ( t ) ] T
&omega; a ( t + 1 ) = &omega; a ( t ) + &Delta;&omega; a S ( t )
其中,ωa(t)为控制器的人工神经网络权值,σa(t)为控制器的人工神经网络隐含层激活函数,α为学习速率。
7.根据权利要求3所述的方法,其特征在于,控制器的输出附加一定的噪声后表示为:u(t)=uA(t)+N(0,χ),其中N(0,χ)表示均值为0、方差为χ的随机数。
8.根据权利要求4所述的方法,其特征在于,评价器的人工神经网络的预测误差表示为:
Figure FDA00003331188500031
其中ec(t)=γJ(t)+r(t)-J(t-1),评价器的人工神经网络的权值更新表示为:
&Delta; &omega; c ( t ) = - &beta; &PartialD; E c ( t ) &PartialD; &omega; c ( t )
= - &beta;&gamma;&sigma; c ( t ) [ &gamma;&omega; c T ( t ) &sigma; c ( t ) - &omega; c T ( t - 1 ) &sigma; c ( t - 1 ) + r ( t ) ] T
ωc(t+1)=ωc(t)+Δωc(t)
其中,ωc(t)为控制器的人工神经网络权值,σc(t)为控制器的人工神经网络隐含层激活函数,r(t)为回报函数,β为学习速率,
控制器的人工神经网络的学习误差表示为:其中ea(t)=J(t)-U(t),U(t)为期望的最终目标,控制器的人工神经网络的权值更新表示为:
&Delta; &omega; a C ( t ) = - &alpha; &PartialD; E a ( t ) &PartialD; &omega; a ( t ) = - &alpha; &omega; c , n + 1 &sigma; a ( t ) [ &omega; c T ( t ) &sigma; c ( t ) ] T
&omega; a ( t + 1 ) = &omega; a ( t ) + &Delta; &omega; a C ( t )
其中wc,n+1为与控制输入u连接的评价器的人工神经网络的权值。
9.根据权利要求4所述的方法,其特征在于,评价器的人工神经网络的学习以及对控制器的人工神经网络的学习均一次进行,减少了学习时间。
10.根据权利要求1所述的方法,其特征在于,步骤7通过判断是否满足所定义的终止条件来判断当前迭代周期是否已经结束。
CN201310232043.8A 2013-06-09 2013-06-09 基于监督式强化学习的最优控制方法 Active CN103324085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310232043.8A CN103324085B (zh) 2013-06-09 2013-06-09 基于监督式强化学习的最优控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310232043.8A CN103324085B (zh) 2013-06-09 2013-06-09 基于监督式强化学习的最优控制方法

Publications (2)

Publication Number Publication Date
CN103324085A true CN103324085A (zh) 2013-09-25
CN103324085B CN103324085B (zh) 2016-03-02

Family

ID=49192902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310232043.8A Active CN103324085B (zh) 2013-06-09 2013-06-09 基于监督式强化学习的最优控制方法

Country Status (1)

Country Link
CN (1) CN103324085B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103702349A (zh) * 2013-12-26 2014-04-02 中国科学院自动化研究所 一种基于稀疏强化学习的传感器网络优化方法
CN105637540A (zh) * 2013-10-08 2016-06-01 谷歌公司 用于强化学习的方法和设备
CN107065561A (zh) * 2017-05-16 2017-08-18 清华大学 两轮自平衡车的机器学习控制方法
CN107305370A (zh) * 2016-04-25 2017-10-31 发那科株式会社 设定与产品的异常相关的变量的判定值的生产系统
CN108073076A (zh) * 2017-12-22 2018-05-25 东软集团股份有限公司 车辆控制方法和装置
CN108181816A (zh) * 2018-01-05 2018-06-19 南京航空航天大学 一种基于在线数据的同步策略更新最优控制方法
CN108216233A (zh) * 2017-12-28 2018-06-29 北京经纬恒润科技有限公司 一种自适应巡航系统控制参数的标定方法及装置
CN108376284A (zh) * 2017-01-31 2018-08-07 松下电器(美国)知识产权公司 控制装置以及控制方法
CN108600002A (zh) * 2018-04-17 2018-09-28 浙江工业大学 一种基于半监督学习的移动边缘计算分流决策方法
CN109164821A (zh) * 2018-09-26 2019-01-08 中科物栖(北京)科技有限责任公司 一种无人机姿态训练方法及装置
CN109190751A (zh) * 2018-07-19 2019-01-11 杭州电子科技大学 一种基于深度强化学习的机器自主决策方法
CN109308010A (zh) * 2017-07-26 2019-02-05 罗伯特·博世有限公司 用于人工智能的控制模块和系统
CN109313540A (zh) * 2016-05-13 2019-02-05 马鲁巴公司 口语对话系统的两阶段训练
CN109543225A (zh) * 2018-10-19 2019-03-29 东软集团股份有限公司 车辆的控制方案生成方法、装置、存储介质和电子设备
CN109663359A (zh) * 2018-12-06 2019-04-23 广州多益网络股份有限公司 游戏智能体训练的优化方法、装置、终端设备与存储介质
CN109739090A (zh) * 2019-01-15 2019-05-10 哈尔滨工程大学 一种自主式水下机器人神经网络强化学习控制方法
CN110351561A (zh) * 2018-04-03 2019-10-18 朱政 一种用于视频编码优化的高效强化学习训练方法
CN110351558A (zh) * 2018-04-03 2019-10-18 朱政 一种基于强化学习的视频图像编码压缩效率提升方法
CN110663073A (zh) * 2017-06-02 2020-01-07 本田技研工业株式会社 策略生成装置及车辆
CN111091884A (zh) * 2019-12-24 2020-05-01 无锡识凌科技有限公司 一种医院信息集成平台的患者主索引匹配系统及方法
CN111142383A (zh) * 2019-12-30 2020-05-12 中国电子科技集团公司信息科学研究院 一种非线性系统最优控制器的在线学习方法
CN111324100A (zh) * 2018-12-13 2020-06-23 上汽通用汽车有限公司 一种转毂试验控制系统以及一种转毂试验控制方法
CN111505944A (zh) * 2019-01-30 2020-08-07 珠海格力电器股份有限公司 节能控制策略学习方法、实现空调节能控制的方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640491A (en) * 1992-09-14 1997-06-17 Texaco, Inc. Control system using an adaptive neural network for target and path optimization for a multivariable, nonlinear process
US6665651B2 (en) * 2001-07-18 2003-12-16 Colorado State University Research Foundation Control system and technique employing reinforcement learning having stability and learning phases
CN1571982A (zh) * 2002-03-26 2005-01-26 科学与工业研究会 存在仪器噪声和测量误差时人工神经网络模型改进的性能
CN101493677A (zh) * 2008-06-30 2009-07-29 李华嵩 一种神经网络的系统控制器结构及系统辨识结构
CN101539781A (zh) * 2009-04-22 2009-09-23 北京中冶设备研究设计总院有限公司 电镀锌锌层厚度bp神经网络控制方法及其在plc上的应用
CN101789178A (zh) * 2009-01-22 2010-07-28 中国科学院自动化研究所 街区路口交通信号优化控制方法
CN102335872A (zh) * 2011-09-14 2012-02-01 桂林电子科技大学 基于人工神经网络的磨床砂轮自动修整方法和修整装置
CN102645894A (zh) * 2012-04-20 2012-08-22 中国科学院自动化研究所 模糊自适应动态规划方法
CN102937784A (zh) * 2012-10-30 2013-02-20 中冶南方工程技术有限公司 基于人工神经网络的铸坯质量在线预报的控制方法
TW201310180A (zh) * 2011-08-24 2013-03-01 Univ Ishou 獲得薄膜光穿透率製程參數方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640491A (en) * 1992-09-14 1997-06-17 Texaco, Inc. Control system using an adaptive neural network for target and path optimization for a multivariable, nonlinear process
US6665651B2 (en) * 2001-07-18 2003-12-16 Colorado State University Research Foundation Control system and technique employing reinforcement learning having stability and learning phases
CN1571982A (zh) * 2002-03-26 2005-01-26 科学与工业研究会 存在仪器噪声和测量误差时人工神经网络模型改进的性能
CN101493677A (zh) * 2008-06-30 2009-07-29 李华嵩 一种神经网络的系统控制器结构及系统辨识结构
CN101789178A (zh) * 2009-01-22 2010-07-28 中国科学院自动化研究所 街区路口交通信号优化控制方法
CN101539781A (zh) * 2009-04-22 2009-09-23 北京中冶设备研究设计总院有限公司 电镀锌锌层厚度bp神经网络控制方法及其在plc上的应用
TW201310180A (zh) * 2011-08-24 2013-03-01 Univ Ishou 獲得薄膜光穿透率製程參數方法
CN102335872A (zh) * 2011-09-14 2012-02-01 桂林电子科技大学 基于人工神经网络的磨床砂轮自动修整方法和修整装置
CN102645894A (zh) * 2012-04-20 2012-08-22 中国科学院自动化研究所 模糊自适应动态规划方法
CN102937784A (zh) * 2012-10-30 2013-02-20 中冶南方工程技术有限公司 基于人工神经网络的铸坯质量在线预报的控制方法

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105637540A (zh) * 2013-10-08 2016-06-01 谷歌公司 用于强化学习的方法和设备
CN103702349A (zh) * 2013-12-26 2014-04-02 中国科学院自动化研究所 一种基于稀疏强化学习的传感器网络优化方法
CN103702349B (zh) * 2013-12-26 2017-03-01 中国科学院自动化研究所 一种基于稀疏强化学习的传感器网络优化方法
CN107305370A (zh) * 2016-04-25 2017-10-31 发那科株式会社 设定与产品的异常相关的变量的判定值的生产系统
US10782664B2 (en) 2016-04-25 2020-09-22 Fanuc Corporation Production system that sets determination value of variable relating to abnormality of product
CN107305370B (zh) * 2016-04-25 2020-09-25 发那科株式会社 设定与产品的异常相关的变量的判定值的生产系统
CN109313540A (zh) * 2016-05-13 2019-02-05 马鲁巴公司 口语对话系统的两阶段训练
CN109313540B (zh) * 2016-05-13 2021-12-03 微软技术许可有限责任公司 口语对话系统的两阶段训练
CN108376284A (zh) * 2017-01-31 2018-08-07 松下电器(美国)知识产权公司 控制装置以及控制方法
CN107065561A (zh) * 2017-05-16 2017-08-18 清华大学 两轮自平衡车的机器学习控制方法
CN107065561B (zh) * 2017-05-16 2019-11-22 清华大学 两轮自平衡车的机器学习控制方法
CN110663073B (zh) * 2017-06-02 2022-02-11 本田技研工业株式会社 策略生成装置及车辆
CN110663073A (zh) * 2017-06-02 2020-01-07 本田技研工业株式会社 策略生成装置及车辆
CN109308010A (zh) * 2017-07-26 2019-02-05 罗伯特·博世有限公司 用于人工智能的控制模块和系统
CN108073076A (zh) * 2017-12-22 2018-05-25 东软集团股份有限公司 车辆控制方法和装置
CN108073076B (zh) * 2017-12-22 2020-08-28 东软集团股份有限公司 车辆控制方法和装置
CN108216233B (zh) * 2017-12-28 2019-10-15 北京经纬恒润科技有限公司 一种自适应巡航系统控制参数的标定方法及装置
CN108216233A (zh) * 2017-12-28 2018-06-29 北京经纬恒润科技有限公司 一种自适应巡航系统控制参数的标定方法及装置
CN108181816A (zh) * 2018-01-05 2018-06-19 南京航空航天大学 一种基于在线数据的同步策略更新最优控制方法
CN110351561A (zh) * 2018-04-03 2019-10-18 朱政 一种用于视频编码优化的高效强化学习训练方法
CN110351558A (zh) * 2018-04-03 2019-10-18 朱政 一种基于强化学习的视频图像编码压缩效率提升方法
CN110351558B (zh) * 2018-04-03 2021-05-25 杭州微帧信息科技有限公司 一种基于强化学习的视频图像编码压缩效率提升方法
CN110351561B (zh) * 2018-04-03 2021-05-07 杭州微帧信息科技有限公司 一种用于视频编码优化的高效强化学习训练方法
CN108600002A (zh) * 2018-04-17 2018-09-28 浙江工业大学 一种基于半监督学习的移动边缘计算分流决策方法
CN109190751A (zh) * 2018-07-19 2019-01-11 杭州电子科技大学 一种基于深度强化学习的机器自主决策方法
CN109190751B (zh) * 2018-07-19 2020-12-22 杭州电子科技大学 一种基于深度强化学习的机器自主决策方法
CN109164821A (zh) * 2018-09-26 2019-01-08 中科物栖(北京)科技有限责任公司 一种无人机姿态训练方法及装置
CN109164821B (zh) * 2018-09-26 2019-05-07 中科物栖(北京)科技有限责任公司 一种无人机姿态训练方法及装置
CN109543225A (zh) * 2018-10-19 2019-03-29 东软集团股份有限公司 车辆的控制方案生成方法、装置、存储介质和电子设备
CN109663359A (zh) * 2018-12-06 2019-04-23 广州多益网络股份有限公司 游戏智能体训练的优化方法、装置、终端设备与存储介质
CN109663359B (zh) * 2018-12-06 2022-03-25 广州多益网络股份有限公司 游戏智能体训练的优化方法、装置、终端设备与存储介质
CN111324100A (zh) * 2018-12-13 2020-06-23 上汽通用汽车有限公司 一种转毂试验控制系统以及一种转毂试验控制方法
CN109739090A (zh) * 2019-01-15 2019-05-10 哈尔滨工程大学 一种自主式水下机器人神经网络强化学习控制方法
CN111505944A (zh) * 2019-01-30 2020-08-07 珠海格力电器股份有限公司 节能控制策略学习方法、实现空调节能控制的方法及装置
CN111091884A (zh) * 2019-12-24 2020-05-01 无锡识凌科技有限公司 一种医院信息集成平台的患者主索引匹配系统及方法
CN111142383A (zh) * 2019-12-30 2020-05-12 中国电子科技集团公司信息科学研究院 一种非线性系统最优控制器的在线学习方法
CN111142383B (zh) * 2019-12-30 2022-09-23 中国电子科技集团公司信息科学研究院 一种非线性系统最优控制器的在线学习方法

Also Published As

Publication number Publication date
CN103324085B (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
CN103324085A (zh) 基于监督式强化学习的最优控制方法
US11205124B1 (en) Method and system for controlling heavy-haul train based on reinforcement learning
CN103381826B (zh) 基于近似策略迭代的自适应巡航控制方法
CN102109821B (zh) 车辆自适应巡航控制系统及方法
Novi et al. Real-time control for at-limit handling driving on a predefined path
CN110969848A (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN107229973A (zh) 一种用于车辆自动驾驶的策略网络模型的生成方法及装置
Kuutti et al. End-to-end reinforcement learning for autonomous longitudinal control using advantage actor critic with temporal context
CN113581182B (zh) 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
CN103217899A (zh) 基于数据的q函数自适应动态规划方法
CN114312830A (zh) 一种考虑危险驾驶工况的智能车耦合决策模型及方法
CN110956851A (zh) 一种智能网联汽车协同调度换道方法
CN113911172A (zh) 一种基于自适应动态规划的高速列车优化运行控制方法
Chen et al. Rhonn modelling-enabled nonlinear predictive control for lateral dynamics stabilization of an in-wheel motor driven vehicle
CN113901718A (zh) 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法
CN114859905A (zh) 一种基于人工势场法和强化学习的局部路径规划方法
Selvaraj et al. An ML-aided reinforcement learning approach for challenging vehicle maneuvers
CN114253274A (zh) 基于数据驱动的网联混合车辆编队滚动优化控制方法
CN115257789A (zh) 城市低速环境下的营运车辆侧向防撞驾驶决策方法
Wei et al. End-to-end vision-based adaptive cruise control (ACC) using deep reinforcement learning
CN116382297A (zh) 基于深度强化学习策略的带约束的混合车辆编队控制方法
Kerbel et al. Driver assistance eco-driving and transmission control with deep reinforcement learning
Németh et al. LPV-based control design of vehicle platoon considering road inclinations⋆
CN116853273A (zh) 知识和数据融合驱动的云控式网联车辆协同巡航控制方法
CN115062539B (zh) 基于强化学习转角权重分配的人车协同转向控制方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant