CN111322164A - 一种基于Q-learning的发动机转速控制方法 - Google Patents

一种基于Q-learning的发动机转速控制方法 Download PDF

Info

Publication number
CN111322164A
CN111322164A CN202010171213.6A CN202010171213A CN111322164A CN 111322164 A CN111322164 A CN 111322164A CN 202010171213 A CN202010171213 A CN 202010171213A CN 111322164 A CN111322164 A CN 111322164A
Authority
CN
China
Prior art keywords
action
throttle
throttle valve
learning
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010171213.6A
Other languages
English (en)
Other versions
CN111322164B (zh
Inventor
孙强
张晓燕
湛勇刚
陈长友
陈维东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Shenglong New Energy Vehicle Power Co ltd
Original Assignee
Ningbo Jiecheng Automotive Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Jiecheng Automotive Technology Co ltd filed Critical Ningbo Jiecheng Automotive Technology Co ltd
Priority to CN202010171213.6A priority Critical patent/CN111322164B/zh
Publication of CN111322164A publication Critical patent/CN111322164A/zh
Application granted granted Critical
Publication of CN111322164B publication Critical patent/CN111322164B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/0002Controlling intake air
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D29/00Controlling engines, such controlling being peculiar to the devices driven thereby, the devices being other than parts or accessories essential to engine operation, e.g. controlling of engines by signals external thereto
    • F02D29/02Controlling engines, such controlling being peculiar to the devices driven thereby, the devices being other than parts or accessories essential to engine operation, e.g. controlling of engines by signals external thereto peculiar to engines driving vehicles; peculiar to engines driving variable pitch propellers
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D31/00Use of speed-sensing governors to control combustion engines, not otherwise provided for
    • F02D31/001Electric control of rotation speed
    • F02D31/002Electric control of rotation speed controlling air supply
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1401Introducing closed-loop corrections characterised by the control or regulation method
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D2200/00Input parameters for engine control
    • F02D2200/02Input parameters for engine control the parameters being related to the engine
    • F02D2200/04Engine intake system parameters
    • F02D2200/0404Throttle position
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D9/00Controlling engines by throttling air or fuel-and-air induction conduits or exhaust conduits
    • F02D9/08Throttle valves specially adapted therefor; Arrangements of such valves in conduits

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Mechanical Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Combined Controls Of Internal Combustion Engines (AREA)

Abstract

本发明公开了一种基于Q‑learning的发动机转速控制方法,根据增程器用发动机节气门开度与转速的输入输出数据,获得状态数据和动作数据,制定奖励函数和策略,利用Q‑learning算法对增程器产生的大量输入输出数据进行训练,并且在训练过程中进行条件限制,最终获得节气门开度控制表格,对照表格进行增程器发动机节气门控制,从而代替传统PID控制算法,同时可以提高增程器发动机的抗干扰能力。

Description

一种基于Q-learning的发动机转速控制方法
技术领域
本发明涉及汽车增程器控制技术领域,更具体的说是涉及一种基于Q-learning的发动机转速控制方法。
背景技术
现有的汽车电子节气门控制系统结合油门踏板位置、油门踏板变化率和当前工作模式解析驾驶员意图,获取基本扭矩需求;然后结合发动机转速、档位、车身能耗等计算整车所需的全部扭矩,再对基本节气门输出扭矩进行补偿,得到节气门最佳开度,进而将最佳开度对应的电压信号作用于节气门驱动电路控制端。
传统的对于节气门的驱动控制多为PID控制,传统PID中各参数调节过程多采用临界比例法,通过不断增加或减小比例系数,使控制系统在当前被调参数下做等幅振荡,然后再反方向调节参数直至振荡消失,需要花费很多精力和时间,并且需要按照经验数据确定参数,而标定结果很大程度上依赖于调试人员的经验,因此对驱动电路的控制精确度较低。
因此,如何提高增程器控制的准确性,增强增程器发动机的抗干扰能力是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于Q-learning的发动机转速控制方法,本发明在借助现有的电子节气门控制器系统获得节气门最佳开度后,对Q-learning算法进行条件限制,在获得状态数据和动作数据,制定奖励函数和策略后,采用深度学习算法的Q-learning对增程器产生的大量输入输出数据进行训练,从而生成影响增程器发动机的速度环制定调整策略的动作奖励值表,提高增程器控制精确和鲁棒性,以及增强增程器发动机的抗干扰能力。
为了实现上述目的,本发明采用如下技术方案:
一种基于Q-learning的发动机转速控制方法,包括如下步骤:
步骤1:利用电子节气门控制器系统获得增程器发动机控制的节气门目标状态
Figure BDA0002409251550000021
根据节气门的开合范围,将节气门位置进行离散化,均匀分布到n个采样点,获得节气门位置集合S,并根据所述节气门位置划分节气门动作空间A,根据所述节气门位置集合S和所述节气门动作空间A建立Q表,并初始化所述Q表;初始化Q-learning学习过程中学习回合数为i、最大学习回合数σ和单回合最大步数max_steps;
步骤2:采集节气门当前实际开度,获得节气门实际位置;根据所述节气门实际位置、所述节气门目标状态sk*和限制规则获取所述节气门动作空间A内的有效动作空间;所述节气门实际位置为当前状态sk
步骤3:当前回合模拟步数初始设定为0,采用ε-greedy算法在所述有效动作空间内选取节气门动作ak,根据所述当前状态sk执行所述节气门动作ak后,获得新状态sk+1,k表示所述当前回合模拟步数;本次动作中用所述新状态sk+1代替所述Q表中的所述节气门动作ak,建立动作奖励值表;
步骤4:根据所述节气门目标状态
Figure BDA0002409251550000022
和所述新状态sk+1,采用奖励函数获得本次动作中执行所述节气门动作ak的动作奖励值rk+1
步骤6:根据本次动作中所述动作奖励值rk+1更新所述动作奖励值表中所述当前状态sk和所述新状态sk+1对应的所述动作奖励值,k随着状态的更新而增加;如果所述当前回合模拟步数k小于所述单回合最大步数max_steps则返回所述步骤3;否则进入所述步骤7;
步骤7:更新所述学习回合数i=i+1,如果所述学习回合数i小于所述最大学习回合数σ,则返回所述步骤3;否则所述Q-learning学习结束,获得所述增程器发动机控制的所述动作奖励值表;
步骤8:根据所述节气门实际位置和所述节气门目标状态
Figure BDA0002409251550000023
在所述动作奖励值表中选取最佳所述节气门动作,从而实现所述增程器控制。
优选的,所述限制规则为如果
Figure BDA0002409251550000024
则所述有效动作空间内的所述节气门动作ak必须满足sign(ak)=1;如果当前节气门位置为所述当前状态sk,则k时刻选择的所述节气门动作ak必须满足0≤sk+ak≤90。
优选的,所述奖励函数为r(x)=100-x2/81,x∈[0,90],其中
Figure BDA0002409251550000031
sk+1为在k时刻的所述当前状态sk下执行所述节气门动作ak获得的k+1时刻的新状态。
优选的,获得所述有效动作空间的过程为:如果
Figure BDA0002409251550000032
则将所述节气门动作空间A中所述节气门动作ak为0对应列左侧的所述节气门动作删除,并且将ak<-sk和ak>90-sk对应的所述节气门动作ak删除,剩余的所述节气门动作ak组成所述有效动作空间;否则将所述节气门动作空间A中所述节气门动作ak为0对应列右侧的所述节气门动作ak删除,并且将ak<-sk和ak>90-sk对应的所述节气门动作ak删除,剩余的所述节气门动作ak组成所述有效动作空间;其中所述节气门动作ak=0时,所述节气门维持原来开度。
优选的,所述步骤3中初始定义判断值ε,采用的所述ε-greedy算法随机选取动作产生一个随机数,如果所述随机数小于所述判断值ε,则采用探索型算法,在所述有效动作空间中随机选取一个所述节气门动作ak;否则采用利用型算法,选取所述当前状态sk下最大动作奖励值对应的所述节气门动作,如果所述最大动作奖励值对应的所述节气门动作个数大于1,则从所述最大动作奖励值对应的所述节气门动作中随机挑选一个作为将要执行的所述节气门动作ak
优选的,在所述步骤2中初始化所述Q-learning学习过程中的折损因子γ,0<γ<1,所述当前状态sk和所述新状态sk+1对应的状态奖励值为Rk=rk+1+γRk+1,其中Rk为所述当前状态sk的所述状态奖励值,Rk+1为所述新状态sk+1的所述状态奖励值,rk+1为所述当前状态sk下所述最大动作奖励值。
优选的,所述节气门位置集合S={0,0.45,0.90,1.35,1.80,…,88.65,89.10,89.55,90.00};所述节气门动作空间A={-90.00,…,-1.35,-0.90,-0.45,0,0.45,0.90,1.35,…,90.00};所述Q表中行表示所述节气门动作空间内的所述节气门动作,列表示所述节气门位置集合中的节气门位置。
优选的,所述动作奖励值表中行表示所述新状态,所述列表示所述当前状态。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于Q-learning的发动机转速控制方法,根据增程器发动机节气门与转速的输入输出数据,获得状态数据和动作数据,将深度学习算法应用于发动机的PID调节过程,基于Q-learning算法对增程器产生的大量输入输出数据进行训练,制定奖励函数,从而基于Q-lesrning学习算法通过对节气门当前状态执行节气门动作获得节气门目标状态的奖励值进行学习,获得由节气门各个开度对应各种目标状态动作的奖励值,根据奖励值制定节气门动作策略,实现对增程器发动机的速度的自动调整,提高增程器控制精确和鲁棒性,及增强增程器发动机抗干扰能力
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的基于Q-learning发动机转速控制流程图;
图2附图为本发明提供的基于Q-learning发动机转速自调整控制结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于Q-learning的发动机转速控制方法,包括如下步骤:
S1:利用电子节气门控制器系统获得增程器发动机控制的节气门目标状态
Figure BDA0002409251550000041
根据节气门的开合范围,将节气门位置进行离散化,均匀分布到n个采样点,获得节气门位置集合S,并根据节气门位置划分节气门动作空间A,根据节气门位置集合S和节气门动作空间A建立Q表,并初始化Q表;初始化Q-learning学习过程中学习回合数为i、最大学习回合数σ和单回合最大步数max_steps;
S2:采集节气门当前实际开度,获得节气门实际位置;根据节气门实际位置、节气门目标状态
Figure BDA0002409251550000051
和限制规则获取节气门动作空间A内的有效动作空间;节气门实际位置为当前状态sk
限制规则为:规则1:如果
Figure BDA0002409251550000052
则有效动作空间内的节气门动作ak必须满足sign(ak)=1;规则2:如果当前节气门位置为当前状态sk,则k时刻选择的节气门动作ak必须满足0≤sk+ak≤90;
获得有效动作空间的过程为:如果
Figure BDA0002409251550000053
则将节气门动作空间A中节气门动作ak为0对应列左侧的节气门动作删除,并且将ak<-sk和ak>90-sk对应的节气门动作ak删除,剩余的节气门动作ak组成有效动作空间;否则将节气门动作空间A中节气门动作ak为0对应列右侧的节气门动作ak删除,并且将ak<-sk和ak>90-sk对应的节气门动作ak删除,剩余的节气门动作ak组成有效动作空间;其中节气门动作ak=0时,节气门维持原来开度;
S3:当前回合模拟步数初始设定为0,采用ε-greedy算法在有效动作空间内选取节气门动作ak,根据当前状态sk执行节气门动作ak后,获得新状态sk+1,k表示当前回合模拟步数;本次动作中用新状态sk+1代替Q表中的节气门动作ak,建立动作奖励值表;
初始定义判断值ε,采用的ε-greedy算法随机选取动作产生一个随机数,如果随机数小于判断值ε,则采用探索型算法,在有效动作空间中随机选取一个节气门动作ak;否则采用利用型算法,选取当前状态sk下最大动作奖励值对应的节气门动作,如果最大动作奖励值对应的节气门动作个数大于1,则从最大动作奖励值对应的节气门动作中随机挑选一个作为将要执行的节气门动作ak
S4:根据节气门目标状态
Figure BDA0002409251550000054
和新状态sk+1,采用奖励函数获得本次动作中执行节气门动作ak的动作奖励值rk+1
奖励函数为r(x)=100-x2/81,x∈[0,90],其中
Figure BDA0002409251550000055
sk+1为在k时刻的当前状态sk下执行节气门动作ak获得的k+1时刻的新状态;
S6:根据本次动作中动作奖励值rk+1更新动作奖励值表中当前状态sk和新状态sk+1对应的动作奖励值,k随着状态的更新而增加;如果当前回合模拟步数k小于单回合最大步数max_steps则返回S3;否则进入S7;
S7:更新学习回合数i=i+1,如果学习回合数i小于最大学习回合数σ,则返回步骤3;否则Q-learning学习结束,获得增程器发动机控制的动作奖励值表;
S8:根据节气门实际位置和节气门目标状态
Figure BDA0002409251550000061
在动作奖励值表中选取最佳节气门动作,从而实现增程器控制。
为了进一步优化上述技术方案,在S2中初始化Q-learning学习过程中的折损因子γ,0<γ<1,在S3中采用利用型算法过程中,当前状态sk和新状态sk+1对应的状态奖励值为Rk=rk+1+γRk+1,其中Rk为当前状态sk的状态奖励值,Rk+1为新状态sk+1的状态奖励值,rk+1为当前状态sk下最大动作奖励值。
为了进一步优化上述技术方案,节气门位置集合S={0,0.45,0.90,1.35,1.80,…,88.65,89.10,89.55,90.00};节气门动作空间A={-90.00,…,-1.35,-0.90,-0.45,0,0.45,0.90,1.35,…,90.00};Q表中行表示节气门动作空间内的节气门动作,列表示节气门位置集合中的节气门位置。
为了进一步优化上述技术方案,动作奖励值表中行表示新状态,列表示当前状态。
实施例
(1)节气门刚进入训练时期,没有任何先验知识。故初始化“状态-新状态”动作奖励值表中的奖励值,如下表1所示:
表1
0 0.45 0.90 89.55 90.00
0 0 0 0 0 0 0
0.45 0 0 0 0 0 0
0.90 0 0 0 0 0 0
0 0 0 0 0 0
89.55 0 0 0 0 0 0
90.00 0 0 0 0 0 0
(2)假设初始状态节气门位置s0=0,目标节气门位置s0*=11.25,
按照S2中规则1,a0>0;按照S2中规则2,a0≤90;即a0∈(0,90];
假设ε-greedy算法选择探索型策略,则在(0,90]选取一个动作执行a0,假设a0=0.90,a0获得的奖励r1
r1=100-(11.25-0.90)2/81=98.68,
s0状态下进入的新状态s1=0.90,更新“状态-新状态”动作奖励值表,结果如下表2所示:
表2
0 0.45 0.90 10.80 13.95 89.55 90.00
0 0 0 98.68 0 0 0 0 0 0 0
0.45 0 0 0 00 0 0 0 0 0
0.90 0 0 0 0 00 0 99.91 0 0 0
0 0 0 0 0 0 0 0 0 0
13.95 0 0 0 0 99.88 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
89.55 0 0 0 0 0 0 0 0 0 0
90.00 0 0 0 0 0 0 0 0 0 0
(3)此时节气门位置s1=0.90,若目标节气门位置不发生变化,即s1*=11.25,按照S2中规则1,a1>0;按照S2规则2,a1≤89.10;即a1∈(0,89.10];
假设ε-greedy算法选择利用型,则在(0,89.10]选取动作奖励值最大的动作,此时“状态-新状态”动作奖励值表中(0,89.10]内所有的动作值全为0,所以要在最大动作奖励值对应的动作中随机挑选一个动作,假设a1=13.05,a1获得的奖励r2
r2=100-(11.25-13.95)2/81=99.91,
执行动作a1进入的新状态s2=13.95,更新“状态-新状态”动作奖励值表,如表2中所示的13.95-0.90的奖励值为99.91。
(4)此时节气门位置s2=13.95,若目标节气门位置变化变化,假设s2*=9.90,按照S2中规则1,a2<0;按照S2规则2,a2≥-13.95;即a2∈[-13.95,0];
使用ε-greedy算法选取动作,假设本次为探索型策略,则在[-13.95,0]选取一个动作执行a2,假设a2=-3.15,a2获得的奖励r3
r3=100-(13.95-10.80)2/81=99.88,
执行动作a2进入的新状态s3=10.80,更新“状态-新状态”动作奖励值表,如表2中所示的10.80-13.95的奖励值为99.88。
(5)参考上述步骤继续更新“状态-新状态”动作奖励值表,如果ε-greedy中选择探索型则采用如(2)所示过程,选择利用型则采用如(3)所示过程。
(6)更新好后的“状态-新状态”动作奖励值表如下表3所示:
表3
0 0.45 0.90 10.80 13.95 89.55 90.00
0 71.04 90.5563 98.68 53.4425 56.2948 33.7143 64.0077 69.9655 7.3702 55.6365
0.45 68.8664 40.253 7.0955 43.5165 29.1829 58.4325 78.7553 48.5905 76.9552 96.9074
0.90 32.0948 21.5761 62.5803 15.7704 62.2305 46.8952 99.91 18.2716 81.7677 68.9125
53.1648 7.8739 2.4681 60.0481 71.5905 8.7265 84.3982 10.1215 74.0426 71.7881
13.95 87.3194 93.306 6.2042 93.7451 99.88 82.8717 74.0468 20.1584 75.8249 55.9029
5.454 60.2872 12.9612 10.7759 41.2273 68.5945 82.6102 13.4746 96.1195 53.3354
89.55 50.0401 37.7492 45.0614 89.9981 36.2206 26.7325 18.2192 32.3789 46.6425 87.5724
90.00 43.2763 66.4931 67.2336 55.0465 78.1392 96.9484 6.5436 95.0545 78.6996 39.3099
其中,采用Q-learning训练设定每次训练最大回合是200,超过这个值则训练结束。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基于Q-learning的发动机转速控制方法,其特征在于,包括如下步骤:
步骤1:利用电子节气门控制器系统获得增程器发动机控制的节气门目标状态
Figure FDA0002409251540000013
根据节气门的开合范围,将节气门位置进行离散化,均匀分布到n个采样点,获得节气门位置集合S,并根据所述节气门位置划分节气门动作空间A,根据所述节气门位置集合S和所述节气门动作空间A建立Q表,并初始化所述Q表;初始化Q-learning学习过程中学习回合数为i、最大学习回合数σ和单回合最大步数max_steps;
步骤2:采集节气门当前实际开度,获得节气门实际位置;根据所述节气门实际位置、所述节气门目标状态
Figure FDA0002409251540000014
和限制规则获取所述节气门动作空间A内的有效动作空间;所述节气门实际位置为当前状态sk
步骤3:采用ε-greedy算法在所述有效动作空间内选取节气门动作ak,根据所述当前状态sk执行所述节气门动作ak后,获得新状态sk+1,k表示当前回合模拟步数;本次动作中用所述新状态sk+1代替所述Q表中的所述节气门动作ak,建立动作奖励值表;
步骤4:根据所述节气门目标状态
Figure FDA0002409251540000015
和所述新状态sk+1,采用奖励函数获得本次动作中执行所述节气门动作ak的动作奖励值rk+1
步骤6:根据本次动作中所述动作奖励值rk+1更新所述动作奖励值表中所述当前状态sk和所述新状态sk+1对应的所述动作奖励值;如果所述当前回合模拟步数k小于所述单回合最大步数max_steps则返回所述步骤3;否则进入所述步骤7;
步骤7:更新所述学习回合数i=i+1,如果所述学习回合数i小于所述最大学习回合数σ,则返回所述步骤3;否则所述Q-learning学习结束,获得所述增程器发动机控制的所述动作奖励值表;
步骤8:根据所述节气门实际位置和所述节气门目标状态
Figure FDA0002409251540000011
在所述动作奖励值表中选取最佳所述节气门动作,从而实现所述增程器控制。
2.根据权利要求1所述的一种基于Q-learning的发动机转速控制方法,其特征在于,所述限制规则为如果
Figure FDA0002409251540000012
则所述有效动作空间内的所述节气门动作ak必须满足sign(ak)=1;如果当前节气门位置为所述当前状态sk,则k时刻选择的所述节气门动作ak必须满足0≤sk+ak≤90。
3.根据权利要求1所述的一种基于Q-learning的发动机转速控制方法,其特征在于,所述奖励函数为r(x)=100-x2/81,x∈[0,90],其中
Figure FDA0002409251540000021
sk+1为在k时刻的所述当前状态sk下执行所述节气门动作ak获得的k+1时刻的新状态。
4.根据权利要求1所述的一种基于Q-learning的发动机转速控制方法,其特征在于,获得所述有效动作空间的过程为:如果
Figure FDA0002409251540000022
则将所述节气门动作空间A中所述节气门动作ak为0对应列左侧的所述节气门动作删除,并且将ak<-sk和ak>90-sk对应的所述节气门动作ak删除,剩余的所述节气门动作ak组成所述有效动作空间;否则将所述节气门动作空间A中所述节气门动作ak为0对应列右侧的所述节气门动作ak删除,并且将ak<-sk和ak>90-sk对应的所述节气门动作ak删除,剩余的所述节气门动作ak组成所述有效动作空间;其中所述节气门动作ak=0时,所述节气门维持原来开度。
5.根据权利要求1所述的一种基于Q-learning的发动机转速控制方法,其特征在于,所述步骤3中初始定义判断值ε,采用的所述ε-greedy算法随机选取动作产生一个随机数,如果所述随机数小于所述判断值ε,则采用探索型算法,在所述有效动作空间中随机选取一个所述节气门动作ak;否则采用利用型算法,选取所述当前状态sk下最大动作奖励值对应的所述节气门动作,如果所述最大动作奖励值对应的所述节气门动作个数大于1,则从所述最大动作奖励值对应的所述节气门动作中随机挑选一个作为将要执行的所述节气门动作ak
6.根据权利要求5所述的一种基于Q-learning的发动机转速控制方法,其特征在于,在所述步骤2中初始化所述Q-learning学习过程中的折损因子γ,0<γ<1,所述当前状态sk和所述新状态sk+1对应的状态奖励值为Rk=rk+1+γRk+1,其中Rk为所述当前状态sk的所述状态奖励值,Rk+1为所述新状态sk+1的所述状态奖励值,rk+1为所述当前状态sk下所述最大动作奖励值。
7.根据权利要求1所述的一种基于Q-learning的发动机转速控制方法,其特征在于,所述节气门位置集合S={0,0.45,0.90,1.35,1.80,…,88.65,89.10,89.55,90.00};所述节气门动作空间A={-90.00,…,-1.35,-0.90,-0.45,0,0.45,0.90,1.35,…,90.00};所述Q表中行表示所述节气门动作空间内的所述节气门动作,列表示所述节气门位置集合中的节气门位置。
8.根据权利要求1所述的一种基于Q-learning的发动机转速控制方法,其特征在于,所述动作奖励值表中行表示所述新状态,所述列表示所述当前状态。
CN202010171213.6A 2020-03-12 2020-03-12 一种基于Q-learning的发动机转速控制方法 Active CN111322164B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010171213.6A CN111322164B (zh) 2020-03-12 2020-03-12 一种基于Q-learning的发动机转速控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010171213.6A CN111322164B (zh) 2020-03-12 2020-03-12 一种基于Q-learning的发动机转速控制方法

Publications (2)

Publication Number Publication Date
CN111322164A true CN111322164A (zh) 2020-06-23
CN111322164B CN111322164B (zh) 2022-03-01

Family

ID=71167631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010171213.6A Active CN111322164B (zh) 2020-03-12 2020-03-12 一种基于Q-learning的发动机转速控制方法

Country Status (1)

Country Link
CN (1) CN111322164B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112276950A (zh) * 2020-10-21 2021-01-29 乐聚(深圳)机器人技术有限公司 抗扰动模型训练、控制方法、装置、设备、机器人及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101285428A (zh) * 2007-04-09 2008-10-15 山东申普汽车控制技术有限公司 组合脉谱对发动机电子节气门控制的方法
CN103696857A (zh) * 2013-12-19 2014-04-02 安徽长丰扬子汽车制造有限责任公司 一种用于电动汽车增程器的电子节气门装置和控制方法
CN110195660A (zh) * 2019-06-19 2019-09-03 南京航空航天大学 基于深度q学习的航空发动机控制装置
CN110347155A (zh) * 2019-06-26 2019-10-18 北京理工大学 一种智能车辆自动驾驶控制方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101285428A (zh) * 2007-04-09 2008-10-15 山东申普汽车控制技术有限公司 组合脉谱对发动机电子节气门控制的方法
CN103696857A (zh) * 2013-12-19 2014-04-02 安徽长丰扬子汽车制造有限责任公司 一种用于电动汽车增程器的电子节气门装置和控制方法
CN110195660A (zh) * 2019-06-19 2019-09-03 南京航空航天大学 基于深度q学习的航空发动机控制装置
CN110347155A (zh) * 2019-06-26 2019-10-18 北京理工大学 一种智能车辆自动驾驶控制方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112276950A (zh) * 2020-10-21 2021-01-29 乐聚(深圳)机器人技术有限公司 抗扰动模型训练、控制方法、装置、设备、机器人及介质
CN112276950B (zh) * 2020-10-21 2021-08-24 乐聚(深圳)机器人技术有限公司 抗扰动模型训练、控制方法、装置、设备、机器人及介质

Also Published As

Publication number Publication date
CN111322164B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN103324085A (zh) 基于监督式强化学习的最优控制方法
DE102019208262A1 (de) Verfahren und Vorrichtung zur Ermittlung von Modellparametern für eine Regelungsstrategie eines technischen Systems mithilfe eines Bayes&#39;schen Optimierungsverfahrens
CN111322164B (zh) 一种基于Q-learning的发动机转速控制方法
US20210263526A1 (en) Method and device for supporting maneuver planning for an automated driving vehicle or a robot
CN108830376B (zh) 针对时间敏感的环境的多价值网络深度强化学习方法
JP6908144B1 (ja) 自動操縦ロボットの制御装置及び制御方法
CN113324026A (zh) 一种基于模糊神经网络的自动换挡控制方法
Zhu et al. An adaptive path tracking method for autonomous land vehicle based on neural dynamic programming
CN112650054A (zh) 一种拖拉机耕深变论域模糊pid控制方法与系统
JP2009129366A (ja) 車両の感性推定システム
CN110588654B (zh) 一种自动整定车辆速度相应pid控制参数的方法
US20020045958A1 (en) Method and apparatus for changing and controlling characteristics of device
CN117250990A (zh) 预测校正专家知识辅助下的dqn变动力智能决策方法
CN115587615A (zh) 一种感知行动回路决策的内在奖励生成方法
DE202019103862U1 (de) Vorrichtung zum Erstellen einer Strategie für einen Roboter
WO2021149435A1 (ja) 自動操縦ロボットの制御装置及び制御方法
CN113977583A (zh) 基于近端策略优化算法的机器人快速装配方法及系统
CN110908280B (zh) 一种小车-二级倒立摆系统优化控制方法
DE102022109371A1 (de) Fahrzeugbetätigungsanweisungen zur beeinflussung eines transienten fahrverhaltens
CN114859886A (zh) 基于自适应伸缩因子的变论域模糊控制agv纠偏方法
CN112101556B (zh) 识别与去除环境观测量中冗余信息的方法及装置
CN110187633A (zh) 一种面向汽车底盘测功机的bp~rnn变速积分pid算法
JP2022182593A (ja) 逆強化学習装置、逆強化学習方法及びプログラム
CN113485107B (zh) 基于一致性约束建模的强化学习机器人控制方法及系统
CN110851915B (zh) 高速面对称飞行器大机动转弯能量控制方法、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230926

Address after: 315100 East 1st Road, Science Park, Jiangshan Town, Yinzhou District, Ningbo City, Zhejiang Province

Patentee after: Ningbo Shenglong New Energy Vehicle Power Co.,Ltd.

Address before: 315000 zone 4, floor 1, building 2, No. 1177, Lingyun Road, high tech Zone, Ningbo, Zhejiang

Patentee before: NINGBO JIECHENG AUTOMOTIVE TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right