CN111324099A

CN111324099A - 一种基于机器学习的定标方法以及于机器学习的定标系统

Info

Publication number: CN111324099A
Application number: CN201811516928.XA
Authority: CN
Inventors: 田华; 倪力
Original assignee: SAIC General Motors Corp Ltd; Pan Asia Technical Automotive Center Co Ltd
Current assignee: SAIC General Motors Corp Ltd; Pan Asia Technical Automotive Center Co Ltd
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2020-06-23

Abstract

本发明涉及一种基于机器学习的车辆定标方法及其系统。该方法包括：采集步骤，采集被控系统的观测量；强化学习计算步骤，对于所述采集步骤采集到的观测量采用强化学习算法进行计算，输出对于所述观测量的更改标定量以及要求所述被控系统进行动作的命令；以及输出步骤，将所述更改标定量以及要求所述被控系统进行动作的命令输出到所述被控系统。根据本发明，通过强化学习算法代替标定工程师的分析和判断，能够大大提高标定效率和标定质量。

Description

一种基于机器学习的定标方法以及于机器学习的定标系统

技术领域

本发明涉及车辆定标技术，特别地涉及一种基于机器学习的定标方法以及于机器学习的定标系统。

背景技术

车辆的标定工作，是车辆开发过程中的重要环节，其主要作用是对车辆的控制软件内的参数进行调整优化，以保证整车达到最优的性能。

以自动变速箱的换挡标定为例，传统的标定开发过程中，标定工程师的工作是根据所观测到的变量以及对换挡过程的感知，判断出所需要更改的标定量，并做出更改调整，然后再次测试该工况，观察变量是否满足预期，同时感知换挡过程是否平顺，重复该操作，以达到最优的标定值。

图1是表示现有技术的标定方法的流程图。如图1所示，标定工程师对于被控系统观测工况运行并采集观测量，然后分析观测量，然后判断是否满足车辆性能要求，如果不满足，则标定工程师更改表定量并重新开始测试，如果满足，则结束测试。

可见，在图1所示的标定过程中，标定工程师需要判断更改什么标定量，如何更改，并且要兼顾该更改可能带来的对其他工况的影响，对标定工程师的能力要求很高，并且受标定工程师的主观判断影响很大。

公开于本发明背景部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

鉴于上述问题，本发明旨在提供一种能够减少人工参与并提高标定质量的基于机器学习的定标方法以及于机器学习的定标系统。

本发明的基于机器学习的车辆定标方法，其特征在于，包括：

采集步骤，采集被控系统的观测量；

强化学习计算步骤，对于所述采集步骤采集到的观测量采用强化学习算法进行计算，输出对于所述观测量的更改标定量以及要求所述被控系统进行动作的命令；以及

输出步骤，将所述更改标定量以及要求所述被控系统进行动作的命令输出到所述被控系统。

可选地，所述强化学习计算步骤包括：

第一子步骤，对于所述采集步骤采集到的观测量，以即时奖励项为优化依据进行计算，获得对于所述观测量的更改标定量以及发出要求所述被控系统进行动作的命令；以及

第二子步骤，再次获取观测量，重复进行所述第一子步骤进行的动作直到获取满足车辆性能要求的标定量。

可选地，作为所述即时奖励项，输入被控系统的客观评估。

可选地，对于车辆的不同工况或者不同被控系统，通过迁移所述强化学习算法进行扩展或者移植。

本发明的基于机器学习的车辆定标系统，其特征在于，包括：

采集模块，用于采集被控系统的观测量；

强化学习计算模块，用于对于所述采集模块采集到的观测量采用强化学习算法进行计算，输出对于所述观测量的更改标定量以及要求所述被控系统进行动作的命令；以及

输出模块，用于将所述更改标定量以及要求所述被控系统进行动作的命令输出到所述被控系统。

可选地，所述强化学习计算模块对于所述采集模块采集到的观测量，以即时奖励项为优化依据进行计算，以确定对于所述观测量的更改标定量以及发出要求所述被控系统进行动作的命令，然后，再次获取观测量并进行采用强化学习算法进行计算直到获取满足车辆性能要求的标定量。

可选地，作为所述即时奖励项，输入被控系统的客观评估。

本发明的计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述的基于机器学习的定标方法。

本发明的计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述的基于机器学习的定标方法。

如上所述，根据本发明的基于机器学习的定标方法以及于机器学习的定标系统，通过强化学习算法代替标定工程师的分析和判断，能够大大提高标定效率和标定质量。

通过纳入本文的附图以及随后与附图一起用于说明本发明的某些原理的具体实施方式，本发明的方法和装置所具有的其它特征和优点将更为具体地变得清楚或得以阐明。

附图说明

图1是表示现有技术的标定方法的流程图。

图2是表示本发明的基于机器学习的定标方法的流程图。

图3是表示本发明的一实施方式的基于机器学习的定标方法的流程图。

图4是表示本发明的基于机器学习的定标系统的构造示意图。

具体实施方式

下面介绍的是本发明的多个实施例中的一些，旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。

本发明基于机器学习的定标方法以及本发明的基于机器学习的定标系统的主要特征在于：

（1）以强化学习算法自学习标定工程师的分析和决策过程。以标定工程师需要观测的变量作为强化学习算法的输入，以车辆性能（如换挡质量）的客观评估指标作为强化学习算法的奖励项，以选择更改标定量和对被控系统动作（如换挡）的命令作为强化学习算法的输出；

（2）建立强化学习算法与标定工具（INCA）之间的交互，使得算法可以接收观测量，同时还可以对标定量进行更改；

（3）建立强化学习算法与被控系统之间的交互，使得算法可以发出要求被控系统动作（如换挡）的命令，通过信号的方式使被控系统执行动作，如换挡等；

（4）车辆性能（如换挡质量）的客观评估指标，可以是客观评价工具AVL Drive（即整车驾驶性能评估工具）的评估结果，也可以是根据标定经验总结出来的基于数据的处理结果。建立该评估指标与强化学习算法的交互，使得该结果可以实时输入到强化学习算法；

（5）强化学习算法在训练阶段中通过对输入信号（观测变量）的处理，以即时奖励项为优化依据，以最大化长期奖励项为优化目标，确定对于标定量的更改决策，同时发出指令进行被控系统的动作（如换挡），再次获取观测变量，不断重复该过程并自我学习，直至获取满足车辆性能（如换挡质量）要求的标定量；

（6）强化学习算法在部署与实施阶段中，能够通过加载训练所得的深度学习模型结构及其参数，根据被控系统实际输入而决策标定动作，以快速达到车辆性能要求；

（7）强化学习算法在针对不同工况、不同被控系统的横向扩展过程中，能通过迁移学习算法完成标定过程中的知识迁移，通过微调模型结构与参数，提高算法的收敛速度，支持智能标定系统在多工况、多被控系统情况下的扩展和移植。

图2是表示本发明的基于机器学习的定标方法的流程图。

如图2所示，本发明的基于机器学习的车辆定标方法包括：

采集步骤S100：采集被控系统的观测量；

强化学习计算步骤S200：对于所述采集步骤S100采集到的观测量采用强化学习算法进行计算，输出对于所述观测量的更改标定量以及要求所述被控系统进行动作的命令；以及

输出步骤S300：将所述更改标定量以及要求所述被控系统进行动作的命令输出到所述被控系统。

其中，强化学习计算步骤S200包括：

其中，作为所述即时奖励项，输入被控系统的客观评估。

其中，对于车辆的不同工况或者不同被控系统，通过迁移所述强化学习算法进行扩展或者移植。

接着，对于将本发明的基于机器学习的定标方法应用于换挡过程智能标定的一个实施方式进行说明，这里被控系统为变速箱。

图3是表示本发明的该实施方式的基于机器学习的定标方法的流程图。

首先，基于所选定的换挡工况，根据标定工程师的知识，选取所需要的观测量和标定量，设置合理的奖励项，预先设定强化学习算法。

然后，建立强化学习算法与标定工具（INCA）之间的交互，使得算法既可以获取观测量作为输入，又可以实施标定更改决策。建立强化学习算法与奖励项（换挡质量客观评估）的交互，使得奖励项的计算结果可以实时输入给强化学习算法。

而且建立强化学习算法与被控系统之间的交互，使得算法可以发出指令执行换挡动作，该任务可以通过总线信号实现，也可以通过额外设计的换挡执行机构实现。其中，以标定工程师的经验知识对强化学习算法进行优化，作为算法的起始点，以加快算法学习的速度和质量，由此，实现对于换挡过程进行标定。

如图3所示，本发明的该实施方式的基于机器学习的定标方法包括：

作为观测量，采集变速箱的输出；

对于所述采集到的变速箱的输出，作为奖励项采用换挡质量，利用强化学习算法进行计算，作为决策输出对于变速箱的观测量的更改标定量以及要求变速箱进行动作的命令；以及

将更改标定量以及要求变速箱进行动作的命令输出到变速箱。

以上对于本发明的基于机器学习的定标方法进行了说明。接着，对于本发明的基于机器学习的定标系统进行说明。

图4是表示本发明的基于机器学习的定标系统的构造示意图。

如图4所示，本发明的一实施方式的基于机器学习的车辆定标系统包括：

采集模块100，用于采集被控系统的观测量；

强化学习计算模块200，用于对于所述采集模块采集到的观测量采用强化学习算法进行计算，输出对于所述观测量的更改标定量以及要求所述被控系统进行动作的命令；以及

输出模块300，用于将所述更改标定量以及要求所述被控系统进行动作的命令输出到所述被控系统。

所述强化学习计算模块200对于所述采集模块采集到的观测量，以即时奖励项为优化依据进行计算，以确定对于所述观测量的更改标定量以及发出要求所述被控系统进行动作的命令，然后，再次获取观测量并进行采用强化学习算法进行计算直到获取满足车辆性能要求的标定量。

作为所述即时奖励项，输入被控系统的客观评估。

对于车辆的不同工况或者不同被控系统，通过迁移所述强化学习算法进行扩展或者移植。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述的基于机器学习的定标方法。

本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述的基于机器学习的定标方法。

根据本发明的基于机器学习的定标方法以及于机器学习的定标系统，通过强化学习算法代替标定工程师的分析和判断，能够大大提高标定效率和标定质量。

以上例子主要说明了本发明的基于机器学习的定标方法以及于机器学习的定标系统。尽管只对其中一些本发明的具体实施方式进行了描述，但是本领域普通技术人员应当了解，本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此，所展示的例子与实施方式被视为示意性的而非限制性的，在不脱离如所附各权利要求所定义的本发明精神及范围的情况下，本发明可能涵盖各种的修改与替换。

Claims

1.一种基于机器学习的车辆定标方法，其特征在于，包括：

采集步骤，采集被控系统的观测量；

2.如权利要求1所述的基于机器学习的车辆定标方法，其特征在于，所述强化学习计算步骤包括：

3.如权利要求1所述的基于机器学习的车辆定标方法，其特征在于，

作为所述即时奖励项，输入被控系统的客观评估。

4.如权利要求1所述的基于机器学习的车辆定标方法，其特征在于，

5.一种基于机器学习的车辆定标系统，其特征在于，包括：

采集模块，用于采集被控系统的观测量；

6.如权利要求5所述的基于机器学习的车辆定标系统，其特征在于，

所述强化学习计算模块对于所述采集模块采集到的观测量，以即时奖励项为优化依据进行计算，以确定对于所述观测量的更改标定量以及发出要求所述被控系统进行动作的命令，然后，再次获取观测量并进行采用强化学习算法进行计算直到获取满足车辆性能要求的标定量。

7.如权利要求5所述的基于机器学习的车辆定标系统，其特征在于，

作为所述即时奖励项，输入被控系统的客观评估。

8.如权利要求5所述的基于机器学习的车辆定标系统，其特征在于，

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1~5任意一项所述的基于机器学习的定标方法。

10.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述权利要求1~5任意一项所述的基于机器学习的定标方法。