CN107651010B

CN107651010B - 基于驾驶员模型的速差转向车辆转向控制器及控制方法

Info

Publication number: CN107651010B
Application number: CN201710851601.7A
Authority: CN
Inventors: 龚建伟; 高天云; 王博洋; 吴绍斌
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2019-07-09
Anticipated expiration: 2037-09-19
Also published as: CN107651010A

Abstract

本发明涉及一种基于驾驶员模型的速差转向车辆转向控制器及控制方法。所述控制器包括基于经验驾驶员操纵杆聚类模型的Bang‑Bang控制器和基于强化学习优化的模糊PI控制器，将经验驾驶员操纵模型、Bang‑Bang控制和基于强化学习优化的模糊PI控制相结合对液压伺服驱动转向系统进行控制，同时保证系统响应速度的快速性和操纵杆到位精确性，可以满足无人车转向系统自主转向运动的需要。

Description

基于驾驶员模型的速差转向车辆转向控制器及控制方法

技术领域

本发明涉及无人驾驶技术领域，尤其是一种基于驾驶员模型的速差转向车辆转向控制器及控制方法。

背景技术

无人驾驶车辆近些年发展迅速，车辆转向控制是无人驾驶车辆行驶控制系统的研究重点。针对无人车辆的横向控制技术，目前多数学者基于具有无级能力转向的车辆提出很多车辆横向控制模型及执行器控制方法，但目前对于非线性和不确定性较强的速差有级转向车辆横向控制问题研究较少。

速差有级转向车辆在转向运动时存在很大的不确定性，以二级行星转向机构和离合器转向机构为例，主要由于其均为有级转向机构，所实现的规定转向半径数目较少，当转向机构处于非规定转向半径转向工况时，转向执行机构的滑磨状态影响了转向控制的精确性。但考虑到基于熟练驾驶员的驾驶经验及对车辆特性和执行机构的了解，可以对车辆进行精确的横向控制。

发明内容

鉴于上述的分析，本发明旨在提供一种基于驾驶员模型的速差转向车辆转向控制器及控制方法，用以解决现有技术中履带车辆的转向控制优化问题。

本发明的目的主要是通过以下技术方案实现的：

一种基于驾驶员模型的速差转向车辆转向控制器，包括，基于经验驾驶员操纵杆聚类模型的Bang-Bang控制器和基于强化学习优化的模糊PI控制器；

所述基于经验驾驶员操纵杆聚类模型的Bang-Bang控制器以当前车辆行驶档位、操纵杆期望位置以及操纵杆实际位置作为输入，输出正向最大电流触发信号、反向最大电流触发信号、模糊控制器触发指令和切换面标号到所述基于强化学习优化的模糊PI控制器；

所述基于强化学习优化的模糊PI控制器在模糊控制器触发指令和切换面标号的控制下，以强化学习Q学习算法为基础，对模糊规则表进行在线优化，并输出优化后的电流控制基于电液伺服驱动的转向执行器动作；

所述转向执行器即操纵杆的实际位置通过角位移传感器反馈到所述Bang-Bang控制器；所述当前车辆行驶档位与所述操纵杆期望位置由整车控制器输出。

进一步地，所述基于经验驾驶员操纵杆聚类模型的Bang-Bang控制器包括，操纵杆GMM聚类模块、分界面判定逻辑模块以及Bang-Bang控制模块；

所述操纵杆GMM聚类模块以车辆实际档位、操纵杆期望位置和操纵杆实际位置作为输入，根据不同档位下采集的经验驾驶员控制的操纵杆位置数据建立每一个档位下的操纵杆GMM聚类模型，得到操纵杆期望位置、操纵杆实际位置位于的相应聚类区间和该聚类模型结果，输出各档位下的操纵杆GMM聚类结果、操纵杆期望位置聚类值、操纵杆实际位置聚类值；

所述分界面判定逻辑模块以各档位下的操纵杆GMM聚类结果、操纵杆期望位置聚类值和操纵杆实际位置聚类值为输入，根据操纵杆期望位置和操纵杆实际位置所位于的操纵杆GMM聚类区间，建立分界面判定逻辑表，判断是否进行Bang-Bang控制器和模糊控制器的切换，其切换面根据所处区间选取，以操纵杆实际位置、切换面标号和对应切换面的位置差值为输出。

所述Bang-Bang控制模块根据输入的切换面标号所对应的切换面进行切换，根据输入的操纵杆实际位置与对应切换面的位置差值进行Bang-Bang控制，以正向最大电流触发信号、反向最大电流触发信号和模糊控制器触发指令为输出。

进一步地，当操纵杆期望位置相对于操纵杆实际位置更接近完全制动位置，并且操纵杆期望位置和操纵杆实际位置位于不同操纵杆区间，输出正向最大电流触发信号；所述正向最大电流触发信号触发正向最大电流输出，输出的正向最大电流到基于电液伺服驱动的转向执行器控制操纵杆向完全制动位置运动；

当操纵杆期望位置相对于操纵杆实际位置更接近完全结合位置，并且操纵杆期望位置和操纵杆实际位置位于不同操纵杆区间，输出反向最大电流；所述反向最大电流触发信号触发反向最大电流输出，输出的反向最大电流到基于电液伺服驱动的转向执行器控制操纵杆向完全结合位置运动；

当操纵杆期望位置和操纵杆实际位置位于相同操纵杆区间，模糊控制器触发指令到模糊PI控制器，实现操纵杆位置的模糊PI控制；

输出切换面标号到模糊PI控制器，根据切换面标号所对应的切换面值进行模糊PI控制器切换。

进一步地，所述模糊控制器触发指令包含切换到模糊控制器时的开关信号和操纵杆实际位置与期望位置的偏差e(t)。

进一步地，基于强化学习优化的模糊PI控制器主要由参数可调整的PI控制器和模糊控制器两部分组成，所述强化学习优化的模糊PI控制器通过把偏差e(t)和偏差变化率ec(t)同时输入到模糊控制器中，根据偏差e(t)和偏差变化率ec(t)建立与PI控制器中kp和ki参数的模糊控制关系，所述kp为比例系数，所述ki为积分系数，并通过模糊控制规则在线调整控制参数kp和ki，利用强化学习算法对模糊逻辑规则表的kp和ki的控制量等级组合进行优化，实现操纵杆实际位置与期望位置偏差较小时对转向轴旋转角速率大小的控制，从而实现对操纵杆位置的精确控制。

一种基于驾驶员模型的速差转向车辆转向控制方法，具体实现过程包括以下步骤：

步骤S1、建立操纵杆GMM聚类模型和分界面判定逻辑表，对操纵杆进行Bang-Bang控制；

步骤S2、以专家经验为基础建立规则表，对操纵杆进行模糊PI控制；

步骤S3、利用Q学习算法对规则表在线整定，优化原有控制规律，进行优化控制。

进一步地，所述步骤S1包括如下子步骤：

步骤S101、建立操纵杆GMM聚类模型；根据不同转向模式中操纵杆区间高斯分布置信度划分出相应的分界面，设定操纵杆的位置区间；

步骤S102、为实现操纵杆位置在不同区间内的切换，以GMM聚类得到的操纵杆动作区间分界面为控制切换面，建立分界面判定逻辑表，得到操纵杆GMM聚类结果、操纵杆期望位置聚类值和操纵杆实际位置聚类值；

步骤S103、根据Bang-Bang控制器函数对操纵杆进行Bang-Bang控制，式中e为操纵杆实际位置与分界面判定逻辑表中所对应切换面的位置差值，所述e的单位为单位操纵杆位置；当u＝1时，对应正向最大电流；当u＝-1时，对应负向最大电流；当查表得到的分界结果为N时，则转入区间内模糊PI控制逻辑，所述N表示操纵杆实际位置和期望位置位于相同区间。

进一步地，为了保证控制系统的稳定性，避免在分界面处产生震荡，设定切换面容差，容差值为±5％。

进一步地，所述步骤S2包括如下子步骤：

步骤S201、选取操纵杆实际位置与期望位置偏差e(t)和偏差变化率ec(t)作为模糊控制器输入量，PI控制的比例系数kp和ki作为输出量，制定初始模糊推理规则表；

步骤S202、采用加权平均法进行模糊控制的解模糊化后，根据模糊控制规则决策，得出的kp和ki比例系数输入到PI控制器中，通过转换为实际控制量伺服驱动电流输出。

进一步地，初始模糊推理规则表以专家经验为基础完成制定。

进一步地，所述步骤S3包括如下子步骤：

步骤S301、首先以专家经验为基础完成模糊规则表初始值的设定；

步骤S302、查询整车控制器所下发的操纵杆期望位置；

步骤S303、依据查询得到的操纵杆期望位置更新状态参量；

步骤S304、以当前Q值表为依据，选择当前状态参量下，Q值最大的Kp和Ki等级值作为动作量；

步骤S305、模糊PI控制器完成单步控制后，依据Reward函数计算奖励值，并更新Q值表；

步骤S306、根据优化后的控制规律进行优化控制。

本发明有益效果如下：

通过提出了一种基于驾驶员模型的速差转向车辆转向控制器及控制方法，包括基于经验驾驶员操纵杆聚类模型的Bang-Bang控制器和基于强化学习优化的模糊PI控制器，将经验驾驶员操纵模型、Bang-Bang控制和基于强化学习优化的模糊PI控制相结合对液压伺服驱动转向系统进行控制，同时保证系统响应速度的快速性和操纵杆到位精确性，可以满足无人车转向系统自主转向运动的需要。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为速差有级转向车辆转向控制器整体框图

图2为基于经验驾驶员操纵杆聚类模型的Bang-Bang控制器原理图

图3为一档左侧操纵杆高斯混合模型聚类结果图

图4为模糊PI控制器原理图

图5—图8分别为操纵杆位置偏差、操纵杆偏差变化率、输出量kp、输出量ki的隶属度函数

图9为强化学习逻辑框图

图10为强化学习训练流程图

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理。

本发明的一个具体实施例，公开了一种基于驾驶员模型的速差转向车辆转向控制器。

如图1所示，所述基于驾驶员模型的速差转向车辆转向控制器由两个主要部分组成，分别为基于经验驾驶员操纵杆聚类模型的Bang-Bang控制器，以及基于强化学习优化的模糊PI控制器。

如图2所示，所述基于经验驾驶员操纵杆聚类模型的Bang-Bang控制器由三个模块组成，包括操纵杆GMM(高斯混合模型)聚类模块、分界面判定逻辑模块以及Bang-Bang控制模块。

所述操纵杆GMM聚类模块以车辆实际档位、操纵杆期望位置和操纵杆实际位置作为输入，根据不同档位下采集的经验驾驶员控制的操纵杆位置数据建立每一个档位下的操纵杆GMM聚类模型；根据当前车辆实际档位、操纵杆期望位置和操纵杆实际位置，可得到操纵杆期望位置和操纵杆实际位置位于的相应聚类区间和该聚类模型结果，输出各档位下的操纵杆GMM聚类结果、操纵杆期望位置聚类值、操纵杆实际位置聚类值；

所述分界面判定逻辑模块以各档位下的操纵杆GMM聚类结果、操纵杆期望位置聚类值和操纵杆实际位置聚类值为输入，根据操纵杆期望位置和操纵杆实际位置所位于的操纵杆GMM聚类区间，建立分界面判定逻辑表，判断是否进行Bang-Bang控制器和模糊控制器的切换，其切换面根据所处区间选取，以操纵杆实际位置、切换面标号和对应切换面的位置差值为输出；

所述Bang-Bang控制模块根据输入的切换面标号所对应的切换面进行切换，根据输入的操纵杆实际位置与对应切换面的位置差值进行Bang-Bang控制，以正向最大电流触发信号、反向最大电流触发信号和模糊控制器触发指令为输出；

当操纵杆期望位置相对于操纵杆实际位置更接近完全制动位置，并且操纵杆期望位置和操纵杆实际位置位于不同操纵杆区间，输出正向最大电流触发信号；所述正向最大电流触发信号触发正向最大电流输出，输出的正向最大电流到基于电液伺服驱动的转向执行器控制操纵杆向完全制动位置运动；

当操纵杆期望位置和操纵杆实际位置位于相同操纵杆区间，输出模糊控制器触发指令信号，所述模糊控制器触发指令输出到模糊PI控制器，实现操纵杆位置的模糊PI控制，所述模糊控制器触发指令包含切换到模糊控制器时的开关信号和操纵杆实际位置与期望位置的偏差e(t)。

将所述切换面标号输出到模糊PI控制器，根据切换面标号所对应的切换面值进行模糊PI控制器切换。

基于强化学习优化的模糊PI控制器主要由参数可调整的PI控制器和模糊控制器两部分组成，结构如图4所示，图中Xexp为操纵杆期望位置，Xact为操纵杆实际位置，所述Xexp与所述Xact相乘得到操纵杆实际位置与期望位置偏差e(t)，所述偏差e(t)输入到PI控制器中，把偏差e(t)和偏差变化率ec(t)同时输入到模糊控制器中，根据操纵杆实际位置与期望位置偏差e(t)偏差变化率ec(t)建立与PI控制器中kp和ki参数的模糊控制关系，所述kp为比例系数，所述ki为积分系数，并通过模糊控制规则在线调整控制参数，利用强化学习算法对模糊逻辑规则表的kp和ki的控制量等级组合进行优化，实现操纵杆实际位置与期望位置偏差较小时对转向轴旋转角速率大小的控制，从而实现对操纵杆位置的精确控制。

步骤S1、建立操纵杆GMM聚类模型和分界面判定逻辑表，对操纵杆进行Bang-Bang控制。

步骤S101、建立操纵杆GMM聚类模型

以一档左侧操纵杆控制为例建立操纵杆GMM聚类模型，如图3所示，横轴为左侧操纵杆位移百分比，纵轴为操纵杆区间概率密度值；所述左侧操纵杆位移百分比共划分了三个分界面，对应四个部分；第一分界面为GMM聚类模型1，操纵杆区间高斯分布置信度为90％的上分界面；第二分界面为GMM聚类模型2，操纵杆区间高斯分布置信度为90％的下分界面；第三分界面为GMM聚类模型3，操纵杆区间高斯分布置信度为90％的下分界面；对应的四个部分依次是离合器部分结合区间Ⅰ、非敏感转向区间Ⅱ、小幅度直驶纠偏区间Ⅲ和大幅度转向校正区间Ⅳ。操纵杆划分的四个区间分别对应不同的转向模式，离合器部分结合区间Ⅰ为直驶状态对应，操纵位于此区域不产生转向效果；非敏感转向区间Ⅱ为制动器部分制动状态，产生转向效果但不明显，整车控制器一般不会下发此区间的操纵杆期望位置；小幅度直驶纠偏区间Ⅲ为直驶纠偏状态，转向校正能力较小；大幅度转向校正区间Ⅳ制动器制动程度较大，转向校正能力较强。

步骤S101、建立分界面判定逻辑表

为实现操纵杆位置在不同区间内的切换，以GMM聚类得到的操纵杆动作区间分界面为控制切换面，建立分界面判定逻辑表。下面以一档左侧操纵杆分界面判定逻辑为例建立分界面判定逻辑表，一档左侧分界面判定逻辑表如表1所示，由于区间Ⅱ是非敏感转向区间，整车控制器不会下发区间Ⅱ中的任何期望位置，因此期望区间状态值中不包括区间Ⅱ；根据操纵杆GMM模型得到的区间分界结果，判断操纵杆期望位置和实际位置分别位于的相应区间，如果位于相同区间则直接触发模糊控制器，没有Bang-Bang控制器和模糊控制器的切换；如果位于不同区间，则有Bang-Bang控制器和模糊控制器的切换，切换面根据所处区间选取。

表1一档左侧转向控制切换面查询表

表中，N表示操纵杆实际位置和期望位置位于相同区间，没有Bang-Bang控制器和模糊控制器的切换，直接触发模糊控制器；D1、D2、D3表示操纵杆实际位置和期望位置位于不同区间，有Bang-Bang控制器和模糊控制器的切换，切换面分别为根据GMM模型得到的第一分界面、第二分界面、第三分界面。

步骤S103、进行Bang-Bang控制

Bang-Bang控制器函数式中e为操纵杆实际位置与分界面判定逻辑表中所对应切换面的位置差值，所述e的单位为单位操纵杆位置。当u＝1时，对应正向最大电流；当u＝-1时，对应负向最大电流；当查表得到的分界结果为N时，则转入区间内模糊PI控制逻辑。此外，为了保证控制系统的稳定性，避免在分界面处产生震荡，设定切换面容差，容差值为±5％。

步骤S2、以专家经验为基础建立规则表，进行模糊PI控制。

步骤S201、选取操纵杆实际位置与期望位置偏差e(t)和偏差变化率ec(t)作为模糊控制器输入量，PI控制的比例系数kp和ki作为输出量，制定初始模糊推理规则表；初始模糊推理规则表以专家经验为基础完成制定；

选取偏差E的连续取值范围是[-27°，27°]，所述偏差E为在e(t)的论域上定义的语言变量，划分为五个等级，建立隶属度函数如图5所示，横轴根据偏差的取值范围定义的论域范围，纵轴为隶属度函数，范围为(0,1)，越接近1，表示属于这个隶属度的程度越高，图中横轴中点NB代表负大、NS代表负小、ZE代表零、PS代表正小、PB代表正大；

选取偏差变化率EC的连续取值范围是[-54°/s，54°/s]，所述偏差EC为在ec(t)的论域上定义的语言变量，划分为五个等级，建立隶属度函数如图6所示，横轴根据偏差变化率的取值范围定义的论域范围，纵轴为隶属度函数，范围为(0,1)，越接近1，表示属于这个隶属度的程度越高，图中横轴中点NB代表负大、NS代表负小、ZE代表零、PS代表正小、PB代表正大；

选取输出量kp的连续取值范围是[0.3,1.5]，划分为三个等级，建立隶属度函数如图7所示，横轴为ki的取值范围定义的论域范围，纵轴为隶属度函数，范围为(0,1)，越接近1，表示属于这个隶属度的程度越高，图中横轴中点PZ代表正零、PS代表正小、PB代表正大；

选取输出量ki的连续取值范围是[0.002,0.02]，划分为三个等级，隶属度函数如图8所示，纵轴为隶属度函数，范围为(0,1)，越接近1，表示属于这个隶属度的程度越高，图8中横轴中点PZ代表正零、PS代表正小、PB代表正大；

各控制量划分等级如下：

E＝{负大(NS)，负小(NS)，零(ZE)，正小(PS)，正大(PB)}；

EC＝{负大(NS)，负小(NS)，零(ZE)，正小(PS)，正大(PB)}；

kp＝{正零(PZ)，正小(PS)，正大(PB)}；

ki＝{正零(PZ)，正小(PS)，正大(PB)}；

所述零(ZE)包括零值和零值附近正负值，所述正零(PZ)只包括零值和零值附近的正值；模糊PI控制器输出量kp和ki的模糊逻辑切换规则如表2和表3所示。

表2 kp的模糊逻辑切换规则

表3 ki的模糊逻辑切换规则

步骤S3、利用Q学习算法对规则表在线整定，优化原有控制规律，进行优化控制；

初始模糊推理规则表以专家经验为基础完成制定，在此基础上以控制的实际效果作为评判依据，利用Q学习算法完成规则表的在线整定，优化原有控制规律。在原有模糊逻辑规则表的主体框架下，利用强化学习算法对模糊逻辑规则表的kp和ki的控制量等级组合进行优化。

Q学习是一种面向离散参量的强化学习方法，如图9所示，包括强化学习模糊规则表优化器，解模糊化、模糊PI控制器、转向液压伺服驱动系统、模糊化；以模糊化之后的偏差和偏差变化率等级组合作为强化学习的状态参量state，以模糊化之后的kp和ki的控制量等级组合作为强化学习的动作参量action，以考虑位置偏差、动作速率和超调量的评价函数作为reward；

强化学习算法通过离散化的Q值表(所有状态参量和动作参量对应的Q值关系Q(S,A))，选取动作量A_k。对于本系统而言，S共有25种情况，A共有9种情况，因此Q值表的维数为25*9。Q值表的初始值以表2和表3所示的动作量Q值都为10，其余动作量Q值均为0，完成初始值的设定；

reward函数R＝dev_reward+k_v(dev)·vel_reward+k_o(dev)·over_reward，式中dev_reward为偏差校正所获得的奖励；vel_reward为校正速率所获得的奖励；over_reward为抑制超调所获得的奖励；k_v(dev)为校正速率获得奖励的修正系数，其为偏差的函数，反映不同偏差下对于校正速率奖励的加权值；k_o(dev)为抑制超调所获得奖励的修正系数，同样为偏差的函数，反映不同偏差下对于抑制超调奖励的加权值；

Q值表的更新过程可用式Q(S,A)←(1-α)·Q(S,A)+α·[R+γ·maxQ(S',A)]表示，状态参量的更新过程如式S←S'所示，采用经典的ε-greedy算法完成Q值表的更新，式中α为学习速率，γ为折扣因子，S'为为状态参量的上一状态。

利用Q学习算法对规则表在线整定过程如图10所示，包括如下步骤：

步骤S302、查询整车控制器所下发的操纵杆期望位置；

步骤S303、依据查询得到的操纵杆期望位置更新状态参量；

此后系统循环上述过程，时刻进行基于强化学习的模糊规则表在线整定。

步骤S306、根据优化后的控制规律进行优化控制。

综上所述，本发明实施例提供的基于驾驶员模型的速差转向车辆转向控制器及控制方法，将经验驾驶员操纵模型、Bang-Bang控制和基于强化学习优化的模糊PI控制相结合对液压伺服驱动转向系统进行控制，同时保证系统响应速度的快速性和操纵杆到位精确性，可以满足无人车转向系统自主转向运动的需要。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于驾驶员模型的速差转向车辆转向控制器，其特征在于，包括：基于经验驾驶员操纵杆聚类模型的Bang-Bang控制器和基于强化学习优化的模糊PI控制器；

所述基于强化学习优化的模糊PI控制器在模糊控制器触发指令和切换面标号的控制下，以强化学习Q学习算法为基础，对模糊规则表进行在线优化，并输出优化后的电流控制基于电液伺服驱动的转向执行器动作。

2.根据权利要求1所述的转向控制器，其特征在于，所述基于经验驾驶员操纵杆聚类模型的Bang-Bang控制器包括，操纵杆GMM聚类模块、分界面判定逻辑模块以及Bang-Bang控制模块；

3.根据权利要求1所述的转向控制器，其特征在于，当操纵杆期望位置相对于操纵杆实际位置更接近完全制动位置，并且操纵杆期望位置和操纵杆实际位置位于不同操纵杆区间，输出正向最大电流触发信号；所述正向最大电流触发信号触发正向最大电流输出，输出的正向最大电流到基于电液伺服驱动的转向执行器控制操纵杆向完全制动位置运动；

当操纵杆期望位置和操纵杆实际位置位于相同操纵杆区间，输出模糊控制器触发指令到模糊PI控制器，实现操纵杆位置的模糊PI控制；输出切换面标号到模糊PI控制器，根据切换面标号所对应的切换面值进行模糊PI控制器切换。

4.根据权利要求1-3任一所述的转向控制器，其特征在于，所述模糊控制器触发指令包含切换到模糊控制器时的开关信号和操纵杆实际位置与期望位置的偏差e(t)。

5.根据权利要求4所述的转向控制器，其特征在于，基于强化学习优化的模糊PI控制器主要由参数可调整的PI控制器和模糊控制器两部分组成，所述强化学习优化的模糊PI控制器把所述偏差e(t)和偏差变化率ec(t)同时输入到模糊控制器中，根据所述偏差e(t)和所述偏差变化率ec(t)建立与PI控制器中kp和ki参数的模糊控制关系，所述kp为比例系数，所述ki为积分系数，并通过模糊控制规则在线调整控制参数kp和ki，利用强化学习算法对模糊逻辑规则表的kp和ki的控制量等级组合进行优化，实现操纵杆实际位置与期望位置偏差较小时对转向轴旋转角速率大小的控制，从而实现对操纵杆位置的精确控制。

6.一种基于驾驶员模型的速差转向车辆转向控制方法，其特征在于，包括以下步骤：

所述步骤S2包括如下子步骤：

步骤S202、采用加权平均法进行模糊控制的解模糊化后，根据模糊控制规则决策，得出kp和ki比例系数输入到PI控制器中，通过转换为实际控制量伺服驱动电流输出；

步骤S3、利用Q学习算法对规则表在线整定，优化原有控制规律，进行优化控制，输出优化后的电流控制基于电液伺服驱动的转向执行器动作。

7.根据权利要求6所述的控制方法，其特征在于，所述步骤S1包括如下子步骤：

8.根据权利要求7所述的控制方法，其特征在于，设定切换面位置差的值容差为±5％。

9.根据权利要求6所述的控制方法，其特征在于，所述步骤S3包括如下子步骤：

步骤S302、查询整车控制器所下发的操纵杆期望位置；

步骤S303、依据查询得到的操纵杆期望位置更新状态参量；

步骤S306、根据优化后的控制规律进行优化控制。