CN117194978A

CN117194978A - 油耗预测模型的训练方法、装置及电子设备

Info

Publication number: CN117194978A
Application number: CN202311084017.5A
Authority: CN
Inventors: 张艳萍
Original assignee: Great Wall Motor Co Ltd
Current assignee: Great Wall Motor Co Ltd
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-12-08

Abstract

本申请提供了一种油耗预测模型的训练方法、装置及电子设备，该方法应用于汽车油耗预测技术领域，该方法包括对多个样本行程的多个样本车辆运行数据集合进行样本分割，得到多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合；对每个样本行程的多个样本车辆运行数据集合进行特征提取，得到每个样本行程的样本行程特征；基于多个第一正样本车辆运行数据集合、多个第一负样本车辆运行数据集合以及各样本行程的样本行程特征，对油耗预测模型进行训练，其中，油耗预测模型用于预测油耗类型。该方法能够对油耗预测模型进行训练，训练难度低，且有效提高了油耗预测模型的预测准确率。

Description

油耗预测模型的训练方法、装置及电子设备

技术领域

本申请涉及汽车油耗预测技术领域，并且更具体地，涉及汽车油耗预测技术领域中一种油耗预测模型的训练方法、装置及电子设备。

背景技术

随着社会经济的发展，汽车的应用越来越广泛，保有量也年年递增。由于石油的短缺及其价格的上涨，汽车的燃油消耗量也越来越被重视。

目前，车辆仪表盘上的表显油耗与实际油耗之间存在一定差距，且由于人为计算车辆的实际油耗的过程较为复杂，导致驾驶员很难获取到车辆的实际油耗。因此，为实现对车辆油耗的精准监控，通常采用油耗预测模型对车辆的油耗进行预测。

现有的油耗预测模型训练过程中，由于无法准确的判断出样本数据的油耗高低，导致油耗预测模型训练难度大，预测准确率较低。

发明内容

本申请提供了一种油耗预测方法、油耗预测模型的训练方法及装置，该方法能够解决现有油耗预测模型训练难度大、预测准确率低的问题。

第一方面，提供了一种油耗预测方法，该方法包括：

对多个样本行程的多个样本车辆运行数据集合进行样本分割，得到多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合，其中，每个所述样本行程的不同样本车辆运行数据集合是在不同时间点采集的，每个所述样本车辆运行数据集合包括多种类型的样本车辆运行数据，所述第一正样本车辆运行数据集合的实际油耗满足第一预设条件，所述第一负样本车辆运行数据集合的实际油耗满足第二预设条件；

对每个所述样本行程的所述多个样本车辆运行数据集合进行特征提取，得到每个所述样本行程的样本行程特征；

基于所述多个第一正样本车辆运行数据集合、所述多个第一负样本车辆运行数据集合以及各所述样本行程的样本行程特征，对油耗预测模型进行训练，其中，所述油耗预测模型用于预测油耗类型，所述油耗类型用于表示目标车辆的实际油耗的异常指数与异常指数阈值，以及所述目标车辆的实际油耗与平均油耗之间的关系；

其中，所述第一预设条件包括以下任一项：实际油耗的异常指数大于所述异常指数阈值，且所述实际油耗小于或等于所述平均油耗；所述实际油耗的异常指数小于或等于所述异常指数阈值；

所述第二预设条件包括：所述实际油耗的异常指数大于所述异常指数阈值，且所述实际油耗大于所述平均油耗；

其中，所述异常指数用于表示所述实际油耗相对于所述多个样本车辆运行数据集合中其他样本车辆运行数据集合的实际油耗的离群程度，所述平均油耗为所述实际油耗所属的样本行程的多个实际油耗的平均值。

上述技术方案中，首先，对多个样本行程的多个样本车辆运行数据集合进行样本分割，得到多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合，其中，第一正样本车辆运行数据集合的实际油耗满足第一预设条件，第一预设条件包括以下任一项：实际油耗的异常指数大于异常指数阈值，且实际油耗小于或等于平均油耗；实际油耗的异常指数小于或等于异常指数阈值；第一负样本车辆运行数据集合的实际油耗满足第二预设条件，第二预设条件包括：实际油耗的异常指数大于异常指数阈值，且实际油耗大于平均油耗；其次，对每个样本行程的多个样本车辆运行数据集合进行特征提取，得到每个样本行程的样本行程特征；并根据多个第一正样本车辆运行数据集合和各第一正样本车辆运行数据集合所属的样本行程的样本行程特征，得到多个第二正样本车辆运行数据集合，同时，根据多个第一负样本车辆运行数据和各第一负样本车辆运行数据集合所属的样本行程的样本行程特征，得到多个第二负样本车辆运行数据集合；最后，基于多个第二正样本车辆运行数据集合和多个第二负样本车辆运行数据集合，对油耗预测模型进行训练；本申请根据每个样本车辆运行数据集合的实际油耗的异常指数与异常指数阈值之间的关系，以及每个样本车辆运行数据集合的实际油耗与该样本车辆运行数据集合所属的样本行程的平均油耗之间的关系，将多个样本车辆运行数据集合分割为多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合，第一正样本车辆运行数据集合对应的油耗类型为低油耗，第一负样本车辆运行数据集合对应的油耗类型为高油耗，实现了对每个样本车辆运行数据集合的油耗高低的准确判断，而第二正样本车辆运行数据集合是基于第一正样本车辆运行数据集合得到的，第二负样本车辆运行数据集合是基于第一负样本车辆运行数据集合得到的，故第二正样本车辆运行数据集合对应的油耗类型也为低油耗，第二负样本车辆运行数据集合对应的油耗类型也为高油耗，在利用多个第二正样本车辆运行数据集合和多个第二负样本车辆运行数据集合对油耗预测模型进行训练时，由于第二正样本车辆运行数据集合和第二负样本车辆运行数据集合的油耗类型已知，因此，有效降低了油耗预测模型的训练难度，提高了油耗预测模型的预测准确率。

结合第一方面，在某些可能的实现方式中，在所述对多个样本行程的多个样本车辆运行数据集合进行样本分割，得到多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合之前，所述方法还包括：

获取多个样本车辆的多个待处理车辆运行数据集合，其中，每个所述样本车辆均与所述目标车辆的车辆类型相同，所述目标车辆为待进行油耗预测的车辆；

对所述多个待处理车辆运行数据集合中的空车辆运行数据集合进行过滤，得到多个样本车辆运行数据集合，其中，所述空车辆运行数据集合为所述样本车辆的实际油耗和/或里程为空的待处理车辆运行数据集合；

对所述多个样本车辆的所述多个样本车辆运行数据集合进行划分，得到多个样本行程，其中，每个所述样本行程包括多个样本车辆运行数据集合。

上述技术方案中，首先，获取多个样本车辆的多个待处理车辆运行数据集合；其次，对每个样本车辆的多个待处理车辆运行数据集合中实际油耗和/或里程为空的待处理车辆运行数据集合进行剔除，得到剔除后的多个待处理车辆运行数据集合，并将剔除后的每个待处理车辆运行数据集合作为一个样本车辆运行数据集合，得到多个样本车辆运行数据集合，有效保证了样本车辆运行数据集合的数据的真实性；最后，将每个样本车辆的多个样本车辆运行数据集合划分为多个样本行程，便于后续根据同一样本车辆的不同样本行程得到不同的样本行程特征，能够有效提高样本行程特征的准确性。

结合第一方面和上述实现方式，在某些可能的实现方式中，所述对多个样本行程的多个样本车辆运行数据集合进行样本分割，得到多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合，包括：

确定每个所述样本车辆运行数据集合中的实际油耗的异常指数；

确定每个所述样本行程的平均油耗；

根据所述多个样本车辆运行数据集合中每个所述样本车辆运行数据集合中的实际油耗的异常指数，以及每个所述样本行程的平均油耗，确定多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合。

上述技术方案中，先确定多个样本行程的多个样本车辆运行数据集合中的每个样本车辆运行数据集合中的实际油耗的异常指数，再确定每个样本行程的平均油耗，最后，再根据每个样本车辆运行数据集合中的实际油耗的异常指数，以及该样本车辆运行数据集合所属的样本行程的平均油耗，确定该样本车辆运行数据集合的样本类型，进而得到多个油耗类型为低油耗的第一正样本车辆运行数据集合，以及多个油耗类型为高油耗的第一负样本车辆运行数据集合，能够准确判断出样本车辆运行数据集合的油耗高低，降低油耗预测模型的训练难度，便于推广使用。

结合第一方面和上述实现方式，在某些可能的实现方式中，所述根据所述多个样本车辆运行数据集合中每个所述样本车辆运行数据集合中的实际油耗的异常指数，确定多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合，包括：

针对每个所述样本车辆运行数据集合，在所述样本车辆运行数据集合中的实际油耗的异常指数大于异常指数阈值，且所述样本车辆运行数据集合中的实际油耗大于平均油耗的情况下，确定所述样本车辆运行数据集合为第一负样本车辆运行数据集合；

针对每个所述样本车辆运行数据集合，在所述样本车辆运行数据集合中的实际油耗的异常指数大于所述异常指数阈值，且所述样本车辆运行数据集合中的实际油耗小于或等于所述平均油耗的情况下，确定所述样本车辆运行数据集合为第一正样本车辆运行数据集合；

针对每个所述样本车辆运行数据集合，在所述样本车辆运行数据集合中的实际油耗的异常指数小于或等于所述异常指数阈值的情况下，确定所述样本车辆运行数据集合为第一正样本车辆运行数据集合。

上述技术方案中，对于多个样本行程的多个样本车辆运行数据集合中的每个样本车辆运行数据集合，在该样本车辆运行数据集合中的实际油耗的异常指数大于异常指数阈值，且样本车辆运行数据集合中的实际油耗大于平均油耗的情况下，将该样本车辆运行数据集合确定为第一负样本车辆运行数据集合；在该样本车辆运行数据集合中的实际油耗的异常指数大于异常指数阈值，且样本车辆运行数据集合中的实际油耗小于或等于平均油耗，或者在该样本车辆运行数据集合的异常指数小于或等于异常指数阈值的情况下，均将该样本车辆运行数据集合确定为第一正样本车辆运行数据集合，能够基于每个样本车辆运行数据集合中的实际油耗的异常指数与异常指数阈值之间的关系，以及每个样本车辆运行数据集合中的实际油耗与该样本车辆运行数据集合所在的样本行程的平均油耗之间的关系，准确、快速地确定每个样本车辆运行数据集合的样本类型，进而得到每个样本车辆运行数据集合的油耗类型，有效降低了该油耗预测模型的训练难度。

结合第一方面和上述实现方式，在某些可能的实现方式中，所述对每个所述样本行程的所述多个样本车辆运行数据集合进行特征提取，得到每个所述样本行程的样本行程特征，包括：

对每个所述样本行程的所述多个样本车辆运行数据集合中同一种类型的样本车辆运行数据进行数据融合和数据筛选，得到所述样本行程的样本行程特征。

上述技术方案中，通过对每个样本行程的多个样本车辆运行数据集合中同一种类型的样本车辆运行数据进行数据融合和数据筛选，得到样本行程的样本行程特征，便于后续根据多个第一正样本车辆运行数据集合和每个第一正样本车辆运行数据集合对应的样本行程的样本行程特征，得到多个第二正样本车辆运行数据集合，以及根据多个第一负样本车辆运行数据和每个第一负样本车辆运行数据集合对应的样本行程的样本行程特征，得到多个第二负样本车辆运行数据集合。

结合第一方面和上述实现方式，在某些可能的实现方式中，所述基于所述多个第一正样本车辆运行数据集合、所述多个第一负样本车辆运行数据集合以及各所述样本行程的样本行程特征，对油耗预测模型进行训练，包括：

将所述多个第一正样本车辆运行数据集合以及所述多个第一负样本车辆运行数据集合分别与各所述样本行程的样本行程特征进行融合，得到多个第二正样本车辆运行数据集合和多个第二负样本车辆运行数据集合；

基于所述多个第二正样本车辆运行数据集合和所述多个第二负样本车辆运行数据集合，对油耗预测模型进行训练。

上述技术方案中，针对多个第一正样本车辆运行数据集合中的每个第一正样本车辆运行数据集合，将该第一正样本车辆运行数据集合所属的样本行程的样本行程特征与该第一正样本车辆运行数据集合进行组合，得到第二正样本车辆运行数据集合，针对多个第一负样本车辆运行数据集合中的每个第一负样本车辆运行数据集合，将该第一负样本车辆运行数据集合所属的样本行程的样本行程特征与该第一负样本车辆运行数据集合进行组合，得到第二负样本车辆运行数据集合，并通过多个第二正样本车辆运行数据集合和多个第二负样本车辆运行数据集合对油耗预测模型进行训练，训练效果好，且训练完成的油耗预测模型的预测准确度高。

结合第一方面和上述实现方式，在某些可能的实现方式中，在所述基于所述多个第一正样本车辆运行数据集合、所述多个第一负样本车辆运行数据集合以及每个所述样本行程的样本行程特征，对油耗预测模型进行训练之后，所述方法还包括：

获取目标车辆在目标行程的多个第一车辆运行数据集合；

对所述多个第一车辆运行数据集合进行特征提取，得到所述目标行程的行程特征；

将所述行程特征与每个所述第一车辆运行数据集合进行融合，得到多个第二车辆运行数据集合；

基于训练完成后的油耗预测模型和所述多个第二车辆运行数据集合，确定所述目标车辆在所述目标行程的油耗类型。

上述技术方案中，在得到训练完成后的油耗预测模型的情况下，首先，获取目标车辆在目标行程的多个第一车辆运行数据集合，并对所述多个第一车辆运行数据集合进行特征提取，得到所述目标行程的行程特征；其次，将目标行程的行程特征与多个第一车辆运行数据集合中的每个第一车辆运行数据集合分别进行组合，得到多个第二车辆运行数据集合；最后，将多个第二车辆运行数据集合输入至训练完成后的油耗预测模型，油耗预测模型输出目标行程的油耗类型，实现对目标车辆的目标行程的油耗类型的预测，且预测准确性高。

第二方面，提供了一种油耗预测模型的训练装置，该装置包括：

样本分割模块，用于对多个样本行程的多个样本车辆运行数据集合进行样本分割，得到多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合，其中，每个所述样本行程的不同样本车辆运行数据集合是在不同时间点采集的，每个所述样本车辆运行数据集合包括多种类型的样本车辆运行数据，所述第一正样本车辆运行数据集合的实际油耗满足第一预设条件，所述第一负样本车辆运行数据集合的实际油耗满足第二预设条件；

第一特征提取模块，用于对每个所述样本行程的所述多个样本车辆运行数据集合进行特征提取，得到每个所述样本行程的样本行程特征；

训练模块，用于基于所述多个第一正样本车辆运行数据集合、所述多个第一负样本车辆运行数据集合以及各所述样本行程的样本行程特征，对油耗预测模型进行训练，其中，所述油耗预测模型用于预测油耗类型，所述油耗类型用于表示目标车辆的实际油耗的异常指数与异常指数阈值，以及所述目标车辆的实际油耗与平均油耗之间的关系；

结合第二方面，在某些可能的实现方式中，该装置还包括：

第一获取模块，用于获取多个样本车辆的多个待处理车辆运行数据集合，其中，每个所述样本车辆均与所述目标车辆的车辆类型相同，所述目标车辆为待进行油耗预测的车辆；

过滤模块，用于对所述多个待处理车辆运行数据集合中的空车辆运行数据集合进行过滤，得到多个样本车辆运行数据集合，其中，所述空车辆运行数据集合为所述样本车辆的实际油耗和/或里程为空的待处理车辆运行数据集合；

划分模块，用于对所述多个样本车辆的所述多个样本车辆运行数据集合进行划分，得到多个样本行程，其中，每个所述样本行程包括多个样本车辆运行数据集合。

结合第二方面和上述实现方式，在某些可能的实现方式中，所述样本分割模块，具体用于：

确定每个所述样本行程的平均油耗；

结合第二方面和上述实现方式，在某些可能的实现方式中，所述第一特征提取模块，具体用于：

结合第二方面和上述实现方式，在某些可能的实现方式中，所述训练模块，具体用于：

基于所述多个第二正样本车辆运行数据集合和所述多个第二负样本车辆运行数据集合，对所述油耗预测模型进行训练。

结合第二方面和上述实现方式，在某些可能的实现方式中，所述装置还包括：

第二获取模块，用于获取目标车辆在目标行程的多个第一车辆运行数据集合；

第二特征提取模块，用于对所述多个第一车辆运行数据集合进行特征提取，得到所述目标行程的行程特征；

融合模块，用于将所述行程特征与每个所述第一车辆运行数据集合进行融合，得到多个第二车辆运行数据集合；

油耗预测模块，用于基于训练完成后的油耗预测模型和所述多个第二车辆运行数据集合，确定所述目标车辆在所述目标行程的油耗类型。

第三方面，提供了一种电子设备，包括存储器和处理器。该存储器用于存储可执行程序代码，该处理器用于从存储器中调用并运行该可执行程序代码，使得该电子设备执行上述第一方面或第一方面任意一种可能的实现方式中的方法。

第四方面，提供了一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码在计算机上运行时，使得该计算机执行上述第一方面或第一方面任意一种可能的实现方式中的方法。

第五方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序代码，当该计算机程序代码在计算机上运行时，使得该计算机执行上述第一方面或第一方面任意一种可能的实现方式中的方法。

附图说明

图1是本申请实施例提供的一种油耗预测模型的训练方法的实施环境示意图；

图2是本申请实施例提供的一种油耗预测模型的训练方法的示意性流程图；

图3是本申请实施例提供的一种油耗预测模型的训练装置的结构示意图；

图4是本申请实施例提供的一种车辆的结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行清楚、详尽地描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B：文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

车辆类型：具有类似特征的汽车归属类型，可以通过车辆功能进行区分，也可以通过车辆型号进行区分，车辆类型的划分具有多种标准，本实施例对此不作具体限定。例如，车辆类型可以按照车辆型号进行区分，同一车辆类型的所有车辆的型号均相同。

车辆运行数据：车辆在行驶过程中可能涉及到的一些具体参数，包括行驶参数、实际油耗参数和车辆相关参数；其中，行驶参数包括车辆的车速、车辆的纵向加速度、车辆的横向加速度等参数；实际油耗参数包括车辆的实际油耗；车辆相关参数包括发动机转速、轮胎胎压、水温、变速箱油温、剩余油量等参数。

无监督方法：没有训练集，只有一组数据，在该组数据集内寻找规律。

孤立森林算法：是一种通过孤立离群点来对异常样本点进行检测的无监督检测方法，由多个孤立树构建而成。当样本中的异常值较少同时距离正常样本点较远时，数据空间的异常值会很快地被孤立出来，而此时异常值更靠近根节点，正常值则更疏离根节点。相比于其他方法，孤立森林在异常检测中有很多优点。首先，它只需要从大型数据集中获取少量样本，便可以获取快速且泛化能力强的检测算法。其次，它不需要训练数据集中包含异常样本，这对异常样本较少的检测任务更为有利。第三，树深度是其确定异常的距离阈值的基础，该阈值和数据集维度的规模没有必然联系。

孤立森林引入异常值函数s(x,n)来评估某个特定的样本x(可以记为观测点)否为异常点，如下述公式(1)所示：

其中，c(n)＝H(n-1)-(2(n-1)/n)；H(n-1)＝ln(n-1)+Euler；E(h(x))是多个孤立树中，特定的观测点x距离孤立树的根节点路径长度的平均值。c(n)为一个根据含n个样本的数据集构建的孤立森林模型中，所有孤立树的平均路径长度，具体可以定义为，该参数用来标准化记录E(h(x))。H(n-1)为调和数，Euler表示欧拉常数。

在一棵孤立树中，某观测点到该树的根节点的路径长度，可以定义为根节点到该观测点之间的其他节点数量加1。若一个观测点是直接连接在根节点上，则该观测点和根节点之间没有其他节点，其他节点数量为0，路径长度为0加1，等于1；若某观测点通过三个其他节点和根节点连接，则该观测点的路径长度就是和根节点之间的其他节点数量3加上1，等于4。

使用孤立森林算法对一个包含n个样本(样本中所有变量均为连续值)的待测数据集进行异常检测的过程如下：

对该待测数据集执行如下的生成孤立树的过程：

首先确定一个根节点，接着，随机选中样本的某一维度的变量，并确定该变量的分类值，分类值可以是数据集中所有样本在该变量上的平均值，也可以是所有样本在该变量上的中位数，具体确定方式不做限定；确定分类值后，按照选中的变量的值是否大于分类值，可以将该数据集拆分为两个子数据集，拆分的两个子数据集分配到根节点的两个子节点上。

之后，针对每一子节点上的子数据集，如果该子数据集包含的样本数量大于1，针对这个子数据集重复上述随机分类的过程，确定出一个变量，并根据这个子数据集中各个样本在该变量上的取值确定对应的分类值，进而依据样本在该变量上的值是否大于该分类值，将这个子数据集进一步拆分为两个更小的子数据集，并分配到当前这个节点的两个子节点上，以此类推，直到每一个叶子节点上的子数据集都只包括一个样本时，就得到了由若干节点组成的一棵孤立树。

对待测数据集重复执行K次上述生成孤立树的过程，就可以得到K棵孤立树，由这K棵孤立树组成的模型就是孤立森林模型。生成这K棵孤立树的过程，就相当于利用待测数据集训练得到个孤立森林模型的过程。

根据上述生成孤立树的过程可看出，对于待测数据集中任一样本，可以在每一棵孤立树中找到唯一对应该样本的一个叶子节点，进而可以确定出该样本对应的叶子节点到根节点之间其他节点的数量，从而计算出该样本在这棵孤立树中的路径长度。

进一步的，对于待测数据集中某个特定样本，统计出该样本在K棵孤立树中的K个路径长度后，就可以按照公式(1)计算出该样本的异常指数s(x,n)，进而根据异常指数的大小确定该样本是否属于异常样本。

下面，对本申请实施例提供的技术方案的实施环境进行介绍。图1是本申请实施例提供的一种油耗预测模型的训练方法的实施环境示意图，参见图1，该实施环境中可以包括车载终端110和服务器120。

车载终端110通过无线网络与服务器120相连，车载终端110包括多种类型的传感器，通过该多种类型的传感器能够获得驾驶员驾驶车载终端110所在车辆时的车辆运行数据，相应地，车载终端110还包括处理器和存储器，存储器用存储传感器采集的信息，处理器用于对存储器中存储的信息进行处理。车载终端110安装和运行有支持获取车辆在目标行程的多个车辆运行数据的应用程序。

服务器120是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在介绍完本申请实施例提供的实施环境之后，下面对本申请实施例的应用场景进行介绍。

本申请实施例提供的技术方案能够应用在各类油耗预测场景中，采用本申请实施例提供的技术方案训练油耗预测模型，训练难度小，且训练完成的油耗预测模型能够根据目标车辆的目标行程的多个车辆运行数据集合，更为准确的预测目标行程的油耗类型。

介绍完本申请实施例的实施环境和应用场景之后，下面对本申请实施例提供的技术方案进行说明。参见图2，图2是本申请实施例提供的一种油耗预测模型的训练方法的示意性流程图，以执行主体为服务器为例，该油耗预测模型的训练方法200包括步骤202～步骤206。

步骤202，服务器对多个样本行程的多个样本车辆运行数据集合进行样本分割，得到多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合，其中，每个样本行程的不同样本车辆运行数据集合是在不同时间点采集的，每个样本车辆运行数据集合包括多种类型的样本车辆运行数据，第一正样本车辆运行数据集合的实际油耗满足第一预设条件，第一负样本车辆运行数据集合的实际油耗满足第二预设条件。

其中，第一预设条件包括以下任一项：实际油耗的异常指数大于异常指数阈值，且实际油耗小于或等于平均油耗；实际油耗的异常指数小于或等于异常指数阈值。

第二预设条件包括：实际油耗的异常指数大于异常指数阈值，且实际油耗大于平均油耗。

异常指数用于表示实际油耗相对于多个样本车辆运行数据集合中其他样本车辆运行数据集合的实际油耗的离群程度，平均油耗为实际油耗所属的样本行程的多个实际油耗的平均值。

需要说明的是，不同样本车辆运行数据集合的异常指数可以相同，也可以不同，对于多个样本车辆运行数据集合中的任一样本车辆运行数据集合，该样本车辆运行数据集合的异常指数为该样本车辆运行数据集合的实际油耗相对于多个样本车辆运行数据集合中其他样本车辆运行数据集合的实际油耗的离群程度；其他样本车辆运行数据集合为多个样本车辆运行数据集合中除该样本车辆运行数据集合之外的所有样本车辆运行数据集合。

其中，每个样本车辆运行数据集合至少包括样本车辆的车速、样本车辆的纵向加速度、样本车辆的横向加速度、样本车辆的发动机转速、样本车辆的实际油耗、样本车辆的轮胎胎压、样本车辆的水温、样本车辆的变速箱油温，以及样本车辆的剩余油量九种类型的样本车辆运行数据。此外，样本车辆运行数据集合还可以包括其他类型的样本车辆运行数据，本实施例对此不作具体限定。

其中，每个样本行程均包括多个样本车辆运行数据集合，且同一样本行程的多个样本车辆运行数据集合是在不同时间点采集的。

需要说明的是，在步骤202之前，该方法200还包括步骤2011～步骤2013。

步骤2011，服务器获取多个样本车辆的多个待处理车辆运行数据集合，其中，每个样本车辆均与目标车辆的车辆类型相同，目标车辆为待进行油耗预测的车辆。

需要说明的是，服务器中设置有车辆运行数据库，对于任一车辆，该车辆的车载终端都可以按照第一预设时间间隔采集该车辆的历史行程的一个待处理数据集合，并将采集到的待处理数据集合上传至服务器，存储在车辆运行数据库中；因此，车辆运行数据库中存储有各种类型的车辆的待处理数据集合，且每种类型的每个车辆的待处理数据集合的数量均为多个，每个车辆对应的多个待处理车辆运行数据集合均以该车辆的车辆识别号码(Vehicle Identification Number，VIN)作为集合标识。对于每个车辆，其所对应的车辆识别号码VIN都是唯一的，因此，将每个车辆的车辆识别号码VIN作为每个车辆的多个待处理车辆运行数据集合的集合标识，便于服务器根据每个待处理车辆运行数据集合的集合标识获取同一样本车辆的多个待处理车辆运行数据集合。

其中，每个样本车辆的车辆类型均与目标车辆的车辆类型相同，服务器根据目标车辆的车辆类型，从车辆运行数据库中获取与目标车辆的车辆类型相同的样本车辆的待处理数据集合，且获取到的每个样本车辆的待处理数据集合的数量均为多个，不同样本车辆的待处理数据集合的数量可以相同，也可以不同，本实施例对此不做具体限定。

其中，第一预设时间间隔可以由开发者自行设定，本实施例对此不做具体限定。例如，第一预设时间间隔可以为1分钟。

步骤2012，服务器对多个待处理车辆运行数据集合中的空车辆运行数据集合进行过滤，得到多个样本车辆运行数据集合，其中，空车辆运行数据集合为样本车辆的实际油耗和/或里程为空的待处理车辆运行数据集合。

其中，针对每个样本车辆的多个待处理车辆运行数据集合，剔除多个待处理车辆运行数据集合中实际油耗和/或里程为空的待处理车辆运行数据集合，将剔除后的每个待处理车辆运行数据集合都作为一个样本车辆运行数据集合。

需要说明的是，缺乏里程和实际油耗数据的待处理车辆运行数据集合无法提供有效的信息，其对建模过程没有贡献，还有可能会对油耗预测模型产生误导，油耗预测模型可能会错误地将这些缺失值视为特定的数值或特征，从而影响最终的预测准确性。因此，将空车辆运行数据集合剔除，可以提高油耗预测模型的准确性，避免误导油耗预测模型，可以确保油耗预测模型能够更好地进行油耗类型预测任务。

在本申请实施例中，针对每个样本车辆，该样本车辆的多个样本车辆运行数据集合是通过对该样本车辆的多个待处理车辆运行数据集合进行过滤得到的，该样本车辆的样本车辆运行数据集合的数量小于或等于该样本车辆的待处理车辆运行数据集合，其中，待处理车辆运行数据集合可能为实际油耗和/或里程为空的车辆运行数据集合，而样本车辆运行数据集合的实际油耗和里程均不为空。

步骤2013，服务器对多个样本车辆的多个样本车辆运行数据集合进行划分，得到多个样本行程，其中，每个样本行程包括多个样本车辆运行数据集合。

其中，针对每个样本车辆的多个样本车辆运行数据集合，按照样本车辆运行数据集合的数据采集时间的先后顺序进行排列，得到该样本车辆的样本序列，在样本序列中相邻两个样本车辆运行数据集合的数据采集时间间隔大于第二预设时间间隔的情况下，则将相邻两个样本车辆运行数据集合划分至不同的样本行程。

其中，对于每个样本车辆的多个样本行程，给每个样本行程设置行程编号，同一样本车辆的不同样本行程的行程编号不同。

在本申请实施例中，样本行程的行程编号可以由样本行程对应的样本车辆的车辆识别号码VIN和数字编号组成。

例如，样本车辆的车辆识别号码VIN为5YJSA1CN2DFP12345，该样本行程为样本车辆的第20个行程，则该样本行程的行程编号可以为5YJSA1CN2DFP12345-000020。

其中，第二预设时间间隔可以由开发者自行设定，本实施例对此不做具体限定。例如，第二预设时间间隔可以为15分钟。

例如，在同一样本车辆的多个样本车辆运行数据集合对应的数据采集时间分别为2023年05月01日的12:59、1:00、1:01、1:02、1:03、1:04、1:05、1:07、1:25、1:26、1:27、1:28、1:29、1:31，预设时间间隔可以为15分钟的情况下，由于1:07和1:25之间的时间间隔为18分钟，则将数据采集时间12:59、1:00、1:01、1:02、1:03、1:04、1:05和1:07对应的多个样本车辆运行数据集合划分为该样本车辆的第一样本行程，并将数据采集时间1:25、1:26、1:27、1:28、1:29和1:31对应的多个样本车辆运行数据集合划分为该样本车辆的第二样本行程。

需要说明的是，每个样本行程中样本车辆运行数据集合的数量不少于3个，当一个样本行程中样本车辆运行数据集合的数量少于3个时，则对该样本行程进行剔除，避免因该样本行程的样本车辆运行数据集合数量不足，导致该样本行程的样本行程特征与该样本行程对应的样本车辆的实际特征差距较大，能够有效保证对油耗预测模型进行训练的训练样本的准确性。

在本申请实施例中，通过将同一样本车辆的多个样本车辆运行数据集合划分为多个样本行程，便于后续根据同一样本车辆的不同样本行程得到不同的样本行程特征，能够有效提高样本行程特征的准确性。

在本申请实施例中，服务器首先获取多个样本车辆的多个待处理车辆运行数据集合；其次，对每个样本车辆的多个待处理车辆运行数据集合中实际油耗和/或里程为空的待处理车辆运行数据集合进行剔除，得到剔除后的多个待处理车辆运行数据集合，并将剔除后的每个待处理车辆运行数据集合作为一个样本车辆运行数据集合，得到多个样本车辆运行数据集合，有效保证了样本车辆运行数据集合的数据的真实性；最后，将每个样本车辆的多个样本车辆运行数据集合划分为多个样本行程，便于后续根据同一样本车辆的不同样本行程得到不同的样本行程特征，能够有效提高样本行程特征的准确性。

其中，步骤202，服务器对多个样本行程的多个样本车辆运行数据集合进行样本分割，得到多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合，具体包括步骤2021～步骤2023。

步骤2021，服务器确定每个样本车辆运行数据集合中的实际油耗的异常指数。

其中，服务器在确定任意一个样本车辆运行数据集合的异常指数时，具体包括步骤20211～步骤20215。

步骤20211，设置孤立森林的最大深度h，其中，h＝ceil(log₂n)，n为样本车辆运行数据集合的总数。

其中，在孤立森林模型中，孤立森林的最大深度h也称为树的高度。

需要说明的是，对于给定的数据集，孤立森林模型中每棵树的最大深度h取决于数据集中样本的数量m。公式h＝ceil(log₂m)中使用了log₂函数来计算以2为底的对数，然后应用了向上取整函数ceil，确保最大深度h是一个整数，便于控制孤立森林中树的深度，使其与数据集的规模相适应。

其中，孤立森林的最大深度h的确定是基于以下两个因素考虑的；第一，当数据集中的样本数量较大时，树的深度需要适当增加，以便更好地捕捉异常点的特征；第二，孤立森林的最大深度h不宜过大，否则会导致过拟合并降低孤立森林模型的泛化能力。

步骤20212，对n个样本车辆运行数据集合中的实际油耗进行P次随机抽样，每次抽取Q个样本车辆运行数据集合中的实际油耗构建随机二叉树，并根据构建的P棵随机二叉树确定孤立森林模型，P＞0，Q＞0，且P，Q均为正整数。

其中，P棵随机二叉树的构建方法相同，在构建任一随机二叉树时，随机选择一个样本车辆运行数据集合中的实际油耗作为分界值，若用于构建该随机二叉树的样本车辆运行数据集合中的实际油耗小于分界值，则划分为左子节点，否则划分为右子节点，当满足预设条件时停止，生成随机二叉树，其中，预设条件可以是用于构建该随机二叉树的样本车辆运行数据集合不可再分或随机二叉树达到最大深度。

步骤20213，确定每个样本车辆运行数据集合中的实际油耗到孤立森林模型中的每个孤立树的根节点的距离。

其中，样本车辆运行数据集合相当于一个样本，如前文，在孤立森林模型的每一棵孤立树中，一个样本都可以唯一对应该孤立树中的一个叶子节点。因此，对于特定的一个样本车辆运行数据集合中的实际油耗x，针对每一棵孤立树，可以先确定x在该孤立树中对应的叶子节点，然后统计x对应的叶子节点到该孤立树的根节点之间其他节点的数量，将统计结果加1，就得到x在该孤立树中到根节点的距离(也就是路径长度)。

步骤20214，根据每个样本车辆运行数据集合中的实际油耗到每个孤立树的根节点的距离，确定每个样本车辆运行数据集合中的实际油耗的路径长度均值。

其中，假设孤立森林模型包括K棵孤立树，那么通过步骤20213可以得到样本车辆运行数据集合中的实际油耗x在每一棵孤立树中的路径长度，即得到x的K个路径长度，计算这K个路径长度的平均值，即可得到样本车辆运行数据集合中的实际油耗x的路径长度均值。

步骤20215，根据样本车辆运行数据集合中的实际油耗的路径长度均值，确定样本车辆运行数据集合的异常指数。

其中，将样本车辆运行数据集合中的实际油耗x的路径长度均值作为公式(1)中的E(h(x))，并根据样本车辆运行数据集合的总数n，计算得到公式(1)中的c(n)，由此可以通过公式(1)计算得到样本车辆运行数据集合x的异常指数s(x,n)。

步骤2022，确定每个样本行程的平均油耗。

其中，不同样本行程的平均油耗可以相同，也可以不同。

需要说明的是，针对每个样本行程，该样本行程包括多个样本车辆运行数据集合，每个样本车辆运行数据集合中都包括一个实际油耗数据，该样本行程的平均油耗为该样本行程的所有样本车辆运行数据集合的实际油耗的平均值。

步骤2023，服务器根据多个样本车辆运行数据集合中每个样本车辆运行数据集合中的实际油耗的异常指数，以及每个样本行程的平均油耗，确定多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合。

其中，服务器通过孤立森林算法，能够快速的对样本车辆运行数据集合进行异常检测，具有高效性和快速性的优点。

在本申请实施例中，服务器先确定多个样本行程的多个样本车辆运行数据集合中的每个样本车辆运行数据集合中的实际油耗的异常指数，再确定每个样本行程的平均油耗，最后，再根据每个样本车辆运行数据集合中的实际油耗的异常指数，以及该样本车辆运行数据集合所属的样本行程的平均油耗，确定该样本车辆运行数据集合的样本类型，进而得到多个油耗类型为低油耗的第一正样本车辆运行数据集合，以及多个油耗类型为高油耗的第一负样本车辆运行数据集合，能够准确判断出样本车辆运行数据集合的油耗高低，降低油耗预测模型的训练难度，便于推广使用。

需要说明的是，步骤2023，服务器根据多个样本车辆运行数据集合中每个样本车辆运行数据集合中的实际油耗的异常指数，以及每个样本行程的平均油耗，确定多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合，具体包括：步骤20231～步骤20233。

步骤20231，服务器针对每个样本车辆运行数据集合，在样本车辆运行数据集合中的实际油耗的异常指数大于异常指数阈值，且样本车辆运行数据集合中的实际油耗大于平均油耗的情况下，确定样本车辆运行数据集合为第一负样本车辆运行数据集合。

其中，对于每个样本车辆运行数据集合，在该样本车辆运行数据集合中的实际油耗的异常指数大于异常指数阈值的情况下，说明通过孤立森林模型初步判定该样本车辆运行数据集合中的实际油耗为异常数据；在该样本车辆运行数据集合中的实际油耗大于该样本车辆运行数据集合所属的样本行程的平均油耗的情况下，说明该样本车辆运行数据集合中的实际油耗还超出了其所在行程的平均油耗，因此，确定该样本车辆运行数据集合中的实际油耗为异常数据，该样本车辆运行数据集合为第一负样本车辆运行数据集合。

需要说明的是，可以在每个样本车辆运行数据集合中添加一个用于表示该样本车辆运行数据集合中的实际油耗是否异常的变量，该样本车辆运行数据集合对应的变量为“1”，表示该样本车辆运行数据集合中的实际油耗属于异常油耗数据，该样本车辆运行数据集合为第一负样本车辆运行数据集合。

步骤20232，服务器针对每个样本车辆运行数据集合，在样本车辆运行数据集合中的实际油耗的异常指数大于异常指数阈值，且样本车辆运行数据集合中的实际油耗小于或等于平均油耗的情况下，确定样本车辆运行数据集合为第一正样本车辆运行数据集合。

其中，对于每个样本车辆运行数据集合，在该样本车辆运行数据集合中的实际油耗的异常指数大于异常指数阈值的情况下，说明通过孤立森林模型初步判定该样本车辆运行数据集合中的实际油耗为异常数据；在该样本车辆运行数据集合中的实际油耗小于或等于该样本车辆运行数据集合所属的样本行程的平均油耗的情况下，说明该样本车辆运行数据集合中的实际油耗未超出其所在行程的平均油耗，因此，确定该样本车辆运行数据集合中的实际油耗为正常数据，该样本车辆运行数据集合为第一正样本车辆运行数据集合。

需要说明的是，可以在每个样本车辆运行数据集合中添加一个用于表示该样本车辆运行数据集合中的实际油耗是否异常的变量，该样本车辆运行数据集合对应的变量为“0”，表示该样本车辆运行数据集合中的实际油耗属于正常油耗数据，该样本车辆运行数据集合为第一正样本车辆运行数据集合。

步骤20233，服务器针对每个样本车辆运行数据集合，在样本车辆运行数据集合中的实际油耗的异常指数小于或等于异常指数阈值的情况下，确定样本车辆运行数据集合为第一正样本车辆运行数据集合。

其中，对于每个样本车辆运行数据集合，在该样本车辆运行数据集合中的实际油耗的异常指数小于或等于异常指数阈值的情况下，说明通过孤立森林模型即可判定该样本车辆运行数据集合中的实际油耗为正常数据，该样本车辆运行数据集合为第一正样本车辆运行数据集合。

在本申请实施例中，对于多个样本行程的多个样本车辆运行数据集合中的每个样本车辆运行数据集合，在该样本车辆运行数据集合中的实际油耗的异常指数大于异常指数阈值，且样本车辆运行数据集合中的实际油耗大于平均油耗的情况下，将该样本车辆运行数据集合确定为第一负样本车辆运行数据集合；在该样本车辆运行数据集合中的实际油耗的异常指数大于异常指数阈值，且样本车辆运行数据集合中的实际油耗小于或等于平均油耗，或者在该样本车辆运行数据集合的异常指数小于或等于异常指数阈值的情况下，均将该样本车辆运行数据集合确定为第一正样本车辆运行数据集合，能够基于每个样本车辆运行数据集合中的实际油耗的异常指数与异常指数阈值之间的关系，以及每个样本车辆运行数据集合中的实际油耗与该样本车辆运行数据集合所在的样本行程的平均油耗之间的关系，准确、快速地确定每个样本车辆运行数据集合的样本类型，进而得到每个样本车辆运行数据集合的油耗类型，有效降低了该油耗预测模型的训练难度。

步骤204，服务器对每个样本行程的多个样本车辆运行数据集合进行特征提取，得到每个样本行程的样本行程特征。

在本申请实施例中，服务器对每个样本行程的多个样本车辆运行数据集合中同一种类型的样本车辆运行数据进行数据融合和数据筛选，得到样本行程的样本行程特征。

其中，每个样本行程的样本行程特征包括第一特征值、第二特征值、第三特征值、第四特征值、第五特征值、第六特征值和第七特征值。

在本申请实施例中，多个样本行程的样本行程特征的确定方法均相同，确定任意一个样本行程的样本行程特征的方法具体包括步骤2041～步骤2046。

步骤2041，对该样本行程的多个样本车辆运行数据集合中的车速、纵向加速度、横向加速度、发动机转速、平均油耗、轮胎胎压、水温和变速箱油温分别进行求和运算，得到该样本行程的第一特征值。

其中，第一特征值包括该样本行程的车速之和、纵向加速度之和、横向加速度之和、发动机转速之和、平均油耗之和、轮胎胎压之和、水温之和以及变速箱油温之和。

步骤2042，对该样本行程的多个样本车辆运行数据集合中的车速、纵向加速度、横向加速度、发动机转速、平均油耗、轮胎胎压、水温和变速箱油温分别进行均值运算，得到该样本行程的第二特征值。

其中，第二特征值包括该样本行程的车速平均值、纵向加速度平均值、横向加速度平均值、发动机转速平均值、平均油耗平均值、轮胎胎压平均值、水温平均值以及变速箱油温平均值。

步骤2043，对该样本行程的多个样本车辆运行数据集合中的车速、纵向加速度、横向加速度、发动机转速、平均油耗、轮胎胎压、水温和变速箱油温分别进行比较运算，得到该样本行程的第三特征值和第四特征值。

其中，第三特征值包括该样本行程的车速最大值、纵向加速度最大值、横向加速度最大值、发动机转速最大值、平均油耗最大值、轮胎胎压最大值、水温最大值以及变速箱油温最大值。

其中，第四特征值包括该样本行程的车速最小值、纵向加速度最小值、横向加速度最小值、发动机转速最小值、平均油耗最小值、轮胎胎压最小值、水温最小值以及变速箱油温最小值。

步骤2044，对该样本行程的多个样本车辆运行数据集合中的车速、纵向加速度、横向加速度、发动机转速、平均油耗、轮胎胎压、水温和变速箱油温分别进行标准差运算，得到该样本行程的第五特征值。

其中，第五特征值包括该样本行程的车速标准差、纵向加速度标准差、横向加速度标准差、发动机转速标准差、平均油耗标准差、轮胎胎压标准差、水温标准差以及变速箱油温标准差。

步骤2045，根据该样本行程的多个样本车辆运行数据集合的水温，确定第六特征值。

其中，在每个样本车辆运行数据集合的水温高于预设水温的情况下，将该样本车辆运行数据记作水温异常样本车辆运行数据集合；第六特征值为多个样本车辆运行数据集合中水温异常样本车辆运行数据集合的数量。

需要说明的是，预设水温可以由开发者自行设定，本实施例对此不做具体限定。

步骤2046，根据该样本行程的多个样本车辆运行数据集合的剩余油量，确定第七特征值。

其中，在每个样本车辆运行数据集合的剩余油量高于预设油量的情况下，将该样本车辆运行数据记作油量异常样本车辆运行数据集合；第七特征值为多个样本车辆运行数据集合中油量异常样本车辆运行数据集合的数量。

需要说明的是，预设油量可以由开发者自行设定，本实施例对此不做具体限定。

在本申请实施例中，对于每个样本行程特征，设置行程特征编号，样本行程特征的行程特征编号可以由该样本行程特征对应的样本行程的行程编号和特征字符组成。

例如，样本行程的行程编号为5YJSA1CN2DFP12345-000020，则该样本行程的样本行程特征的行程特征编号可以为5YJSA1CN2DFP12345-000020-0。

在本申请实施例中，通过对每个样本行程的多个样本车辆运行数据集合中同一种类型的样本车辆运行数据进行数据融合和数据筛选，得到样本行程的样本行程特征，便于后续根据多个第一正样本车辆运行数据集合和每个第一正样本车辆运行数据集合对应的样本行程的样本行程特征，得到多个第二正样本车辆运行数据集合，以及根据多个第一负样本车辆运行数据和每个第一负样本车辆运行数据集合对应的样本行程的样本行程特征，得到多个第二负样本车辆运行数据集合。

步骤206，服务器基于多个第一正样本车辆运行数据集合、多个第一负样本车辆运行数据集合以及各样本行程的样本行程特征，对油耗预测模型进行训练，其中，油耗预测模型用于预测油耗类型，油耗类型用于表示目标车辆的实际油耗的异常指数与异常指数阈值，以及目标车辆的实际油耗与平均油耗之间的关系。

其中，油耗类型可以包括高油耗和低油耗。

需要说明的是，油耗预测模型具体可以为梯度提升框架(Light GradientBoosting Machine，LightGBM)分类模型。

在本申请实施例中，首先，对多个样本行程的多个样本车辆运行数据集合进行样本分割，得到多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合，其中，第一正样本车辆运行数据集合的实际油耗满足第一预设条件，第一预设条件包括以下任一项：实际油耗的异常指数大于异常指数阈值，且实际油耗小于或等于平均油耗；实际油耗的异常指数小于或等于异常指数阈值；第一负样本车辆运行数据集合的实际油耗满足第二预设条件，第二预设条件包括：实际油耗的异常指数大于异常指数阈值，且实际油耗大于平均油耗；其次，对每个样本行程的多个样本车辆运行数据集合进行特征提取，得到每个样本行程的样本行程特征；并根据多个第一正样本车辆运行数据集合和各第一正样本车辆运行数据集合所属的样本行程的样本行程特征，得到多个第二正样本车辆运行数据集合，同时，根据多个第一负样本车辆运行数据和各第一负样本车辆运行数据集合所属的样本行程的样本行程特征，得到多个第二负样本车辆运行数据集合；最后，基于多个第二正样本车辆运行数据集合和多个第二负样本车辆运行数据集合，对油耗预测模型进行训练；本申请根据每个样本车辆运行数据集合的实际油耗的异常指数与异常指数阈值之间的关系，以及每个样本车辆运行数据集合的实际油耗与该样本车辆运行数据集合所属的样本行程的平均油耗之间的关系，将多个样本车辆运行数据集合分割为多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合，第一正样本车辆运行数据集合对应的油耗类型为低油耗，第一负样本车辆运行数据集合对应的油耗类型为高油耗，实现了对每个样本车辆运行数据集合的油耗高低的准确判断，而第二正样本车辆运行数据集合是基于第一正样本车辆运行数据集合得到的，第二负样本车辆运行数据集合是基于第一负样本车辆运行数据集合得到的，故第二正样本车辆运行数据集合对应的油耗类型也为低油耗，第二负样本车辆运行数据集合对应的油耗类型也为高油耗，在利用多个第二正样本车辆运行数据集合和多个第二负样本车辆运行数据集合对油耗预测模型进行训练时，由于第二正样本车辆运行数据集合和第二负样本车辆运行数据集合的油耗类型已知，因此，有效降低了油耗预测模型的训练难度，提高了油耗预测模型的预测准确率。

其中，步骤206，服务器基于多个第一正样本车辆运行数据集合、多个第一负样本车辆运行数据集合以及各样本行程的样本行程特征，对油耗预测模型进行训练，具体包括：步骤2061和步骤2062。

步骤2061，服务器将多个第一正样本车辆运行数据集合以及多个第一负样本车辆运行数据集合分别与各样本行程的样本行程特征进行融合，得到多个第二正样本车辆运行数据集合和多个第二负样本车辆运行数据集合。

其中，服务器针对每个第一正样本车辆运行数据集合，将该第一正样本车辆运行数据集合所属的样本行程的样本行程特征与该第一正样本车辆运行数据集合进行组合，得到第二正样本车辆运行数据集合；服务器针对每个第一负样本车辆运行数据集合，将该第一负样本车辆运行数据集合所属的样本行程的样本行程特征与该第一负样本车辆运行数据集合进行组合，得到第二负样本车辆运行数据集合。

需要说明的是，根据各样本行程的样本行程特征编号，将各样本行程分别拼接到其对应的第一正样本车辆运行数据集合和第一负样本车辆运行数据集合中，即可得到第二正样本车辆运行数据集合和第二负样本车辆运行数据集合。

在本申请实施例中，第二正样本车辆运行数据集合和第二负样本车辆运行数据集合，相比第一正样本车辆运行数据集合和第一负样本车辆运行数据集合的数据维度更广，服务器根据第二正样本车辆运行数据集合和第二负样本车辆运行数据集合对油耗预测模型进行训练，能够有效提高油耗预测模型的预测准确度。

步骤2062，服务器基于多个第二正样本车辆运行数据集合和多个第二负样本车辆运行数据集合，对油耗预测模型进行训练。

其中，服务器通过多个第二正样本车辆运行数据集合和多个第二负样本车辆运行数据集合训练油耗预测模型，直至油耗预测模型收敛，方可得到训练完成的油耗预测模型。

在本申请实施例中，将每个第二正样本车辆运行数据集合和第二负样本车辆运行数据集合输入至训练过程中的油耗预测模型中，通过理想结果调整油耗预测模型，直至油耗预测模型收敛。其中，直至油耗预测模型收敛的条件可以是预先设置的训练轮次，或者是根据训练过程中的停止条件确定的，停止条件可以是油耗预测模型的损失函数收敛至期望值，或损失函数到达到稳定在某一值后出现差异。

例如，在本申请实施例中，油耗预测模型的训练停止条件是油耗预测模型的损失函数收敛至0.9。

需要说明的是，训练过程可以包括迁移学习、多任务学习和对抗训练，对多个第二正样本车辆运行数据集合和多个第二负样本车辆运行数据集合进行数据增强处理。其中，迁移学习是利用在相似任务上训练的模型作为模型初始点在原本任务上进行再训练的方法，通过共享模型学到的知识，迁移学习可以加快模型的学习效率并提高模型的泛化性。多任务学习是利用在相似任务上训练的模型作为模型初始点在原本任务上进行再训练的方法，通过共享模型学到的知识，迁移学习可以加快模型的学习效率并提高模型的泛化性。数据增强包含一系列用来生成新训练样本的技术，这些技术是通过对原始数据采用随机抖动和扰乱而类标签未变化来实现。应用数据增强的目标是增加模型的泛化性。对抗训练是一种增强模型鲁棒性的重要表示。在对抗训练的过程中，多个第二正样本车辆运行数据集合和多个第二负样本车辆运行数据集合中会增加一些微小的扰动，使油耗预测模型犯错，从而油耗预测模型在训练的过程中能够适应扰动，以增强油耗预测模型的鲁棒性。

此外，在油耗预测模型训练完成之后，还可以通过测试集对训练完成的油耗预测模型进行测试。其中，测试集的获取方式可以是将步骤2013中得到的多个样本行程中预设比例的样本行程作为测试集，多个样本行程中除测试集之外的剩余的样本行程作为训练样本执行步骤202～步骤206，以对该油耗预测模型进行训练。预设比例可以由开发者自行设定，本实施例对此不做具体限定。例如，预设比例可以为10％。

在本申请实施例中，针对多个第一正样本车辆运行数据集合中的每个第一正样本车辆运行数据集合，将该第一正样本车辆运行数据集合所属的样本行程的样本行程特征与该第一正样本车辆运行数据集合进行组合，得到第二正样本车辆运行数据集合，针对多个第一负样本车辆运行数据集合中的每个第一负样本车辆运行数据集合，将该第一负样本车辆运行数据集合所属的样本行程的样本行程特征与该第一负样本车辆运行数据集合进行组合，得到第二负样本车辆运行数据集合，并通过多个第二正样本车辆运行数据集合和多个第二负样本车辆运行数据集合对油耗预测模型进行训练，训练效果好，且训练完成的油耗预测模型的预测准确度高。

在一种可能的实施方式中，该方法200还包括步骤2081～步骤2084。

步骤2081，服务器获取目标车辆在目标行程的多个第一车辆运行数据集合。

其中，目标行程可以是目标车辆当前正在进行的行程，也可以是目标车辆已完成的行程；目标行程的多个第一车辆运行数据集合是服务器在不同采集时刻采集得到的。

步骤2082，服务器对多个第一车辆运行数据集合进行特征提取，得到目标行程的行程特征。

其中，步骤2082中服务器得到目标行程的行程特征的方法与步骤204中服务器得到每个样本行程的样本行程特征的方法相同，本实施例不再赘述。

步骤2083，服务器将行程特征与每个第一车辆运行数据集合进行融合，得到多个第二车辆运行数据集合。

其中，服务器对于多个第一车辆运行数据集合中的每个第一车辆运行数据集合，将步骤2082得到的目标行程的行程特征与该第一车辆运行数据集合进行组合，即可得到第二车辆运行数据集合。

步骤2084，服务器基于训练完成后的油耗预测模型和多个第二车辆运行数据集合，确定目标车辆在目标行程的油耗类型。

其中，服务器将多个第二车辆运行数据集合输入至训练完成后的油耗预测模型，训练完成后的油耗预测模型对多个第二车辆运行数据集合进行结果预测，输出每个第二车辆运行数据集合的油耗类型；再根据多个第二车辆运行数据集合中油耗类型为高油耗的第二车辆运行数据集合的数量和油耗类型为低油耗的第二车辆运行数据集合的数量确定目标行程的油耗类型。

需要说明的是，在油耗类型为高油耗的第二车辆运行数据集合的数量大于油耗类型为低油耗的第二车辆运行数据集合的数量的情况下，确定目标行程的油耗类型为高油耗；在油耗类型为高油耗的第二车辆运行数据集合的数量小于或等于油耗类型为低油耗的第二车辆运行数据集合的数量的情况下，确定目标行程的油耗类型为低油耗。

在本申请实施例中，在得到训练完成后的油耗预测模型的情况下，首先，获取目标车辆在目标行程的多个第一车辆运行数据集合，并对多个第一车辆运行数据集合进行特征提取，得到目标行程的行程特征；其次，将目标行程的行程特征与多个第一车辆运行数据集合中的每个第一车辆运行数据集合分别进行组合，得到多个第二车辆运行数据集合；最后，将多个第二车辆运行数据集合输入至训练完成后的油耗预测模型，油耗预测模型输出目标行程的油耗类型，实现对目标车辆的目标行程的油耗类型的预测，且预测准确性高。

图3是本申请实施例提供的一种油耗预测模型的训练装置的结构示意图。示例性的，如图3所示，该装置300包括样本分割模块301、第一特征提取模块302和训练模块303。

样本分割模块301，用于对多个样本行程的多个样本车辆运行数据集合进行样本分割，得到多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合，其中，每个样本行程的不同样本车辆运行数据集合是在不同时间点采集的，每个样本车辆运行数据集合包括多种类型的样本车辆运行数据，第一正样本车辆运行数据集合的实际油耗满足第一预设条件，第一负样本车辆运行数据集合的实际油耗满足第二预设条件。

第一特征提取模块302，用于对每个样本行程的多个样本车辆运行数据集合进行特征提取，得到每个样本行程的样本行程特征。

训练模块303，用于基于多个第一正样本车辆运行数据集合、多个第一负样本车辆运行数据集合以及各样本行程的样本行程特征，对油耗预测模型进行训练，其中，油耗预测模型用于预测油耗类型，油耗类型用于表示目标车辆的实际油耗的异常指数与异常指数阈值，以及目标车辆的实际油耗与平均油耗之间的关系。

其中，异常指数用于表示实际油耗相对于多个样本车辆运行数据集合中其他样本车辆运行数据集合的实际油耗的离群程度，平均油耗为实际油耗所属的样本行程的多个实际油耗的平均值。

在一种可能的实施方式中，该装置300还包括第一获取模块、过滤模块和划分模块。

第一获取模块，用于获取多个样本车辆的多个待处理车辆运行数据集合，其中，每个样本车辆均与目标车辆的车辆类型相同，目标车辆为待进行油耗预测的车辆；

过滤模块，用于对多个待处理车辆运行数据集合中的空车辆运行数据集合进行过滤，得到多个样本车辆运行数据集合，其中，空车辆运行数据集合为样本车辆的实际油耗和/或里程为空的待处理车辆运行数据集合；

划分模块，用于对多个样本车辆的多个样本车辆运行数据集合进行划分，得到多个样本行程，其中，每个样本行程包括多个样本车辆运行数据集合。

在一种可能的实施方式中，样本分割模块301，具体用于：确定每个样本车辆运行数据集合中的实际油耗的异常指数；确定每个样本行程的平均油耗；根据多个样本车辆运行数据集合中每个样本车辆运行数据集合中的实际油耗的异常指数，以及每个样本行程的平均油耗，确定多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合。

在一种可能的实施方式中，样本分割模块301，具体用于：针对每个样本车辆运行数据集合，在样本车辆运行数据集合中的实际油耗的异常指数大于异常指数阈值，且样本车辆运行数据集合中的实际油耗大于平均油耗的情况下，确定样本车辆运行数据集合为第一负样本车辆运行数据集合；针对每个样本车辆运行数据集合，在样本车辆运行数据集合中的实际油耗的异常指数大于异常指数阈值，且样本车辆运行数据集合中的实际油耗小于或等于平均油耗的情况下，确定样本车辆运行数据集合为第一正样本车辆运行数据集合；针对每个样本车辆运行数据集合，在样本车辆运行数据集合中的实际油耗的异常指数小于或等于异常指数阈值的情况下，确定样本车辆运行数据集合为第一正样本车辆运行数据集合。

在一种可能的实施方式中，第一特征提取模块302，具体用于：对每个样本行程的多个样本车辆运行数据集合中同一种类型的样本车辆运行数据进行数据融合和数据筛选，得到样本行程的样本行程特征。

在一种可能的实施方式中，训练模块303，具体用于：将多个第一正样本车辆运行数据集合以及多个第一负样本车辆运行数据集合分别与各样本行程的样本行程特征进行融合，得到多个第二正样本车辆运行数据集合和多个第二负样本车辆运行数据集合；基于多个第二正样本车辆运行数据集合和多个第二负样本车辆运行数据集合，对油耗预测模型进行训练。

在一种可能的实施方式中，该装置300还包括第二获取模块、第二特征提取模块、融合模块和油耗预测模块。

第二获取模块，用于获取目标车辆在目标行程的多个第一车辆运行数据集合。

第二特征提取模块，用于对多个第一车辆运行数据集合进行特征提取，得到目标行程的行程特征。

融合模块，用于将行程特征与每个第一车辆运行数据集合进行融合，得到多个第二车辆运行数据集合。

油耗预测模块，用于基于训练完成后的油耗预测模型和多个第二车辆运行数据集合，确定目标车辆在目标行程的油耗类型。

需要说明的是：上述实施例提供的油耗预测模型的训练装置在油耗预测模型训练时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的油耗预测模型的训练装置与油耗预测模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

通过本申请实施例提供的技术方案，首先，对多个样本行程的多个样本车辆运行数据集合进行样本分割，得到多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合，其中，第一正样本车辆运行数据集合的实际油耗满足第一预设条件，第一预设条件包括以下任一项：实际油耗的异常指数大于异常指数阈值，且实际油耗小于或等于平均油耗；实际油耗的异常指数小于或等于异常指数阈值；第一负样本车辆运行数据集合的实际油耗满足第二预设条件，第二预设条件包括：实际油耗的异常指数大于异常指数阈值，且实际油耗大于平均油耗；其次，对每个样本行程的多个样本车辆运行数据集合进行特征提取，得到每个样本行程的样本行程特征；并根据多个第一正样本车辆运行数据集合和各第一正样本车辆运行数据集合所属的样本行程的样本行程特征，得到多个第二正样本车辆运行数据集合，同时，根据多个第一负样本车辆运行数据和各第一负样本车辆运行数据集合所属的样本行程的样本行程特征，得到多个第二负样本车辆运行数据集合；最后，基于多个第二正样本车辆运行数据集合和多个第二负样本车辆运行数据集合，对油耗预测模型进行训练；本申请根据每个样本车辆运行数据集合的实际油耗的异常指数与异常指数阈值之间的关系，以及每个样本车辆运行数据集合的实际油耗与该样本车辆运行数据集合所属的样本行程的平均油耗之间的关系，将多个样本车辆运行数据集合分割为多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合，第一正样本车辆运行数据集合对应的油耗类型为低油耗，第一负样本车辆运行数据集合对应的油耗类型为高油耗，实现了对每个样本车辆运行数据集合的油耗高低的准确判断，而第二正样本车辆运行数据集合是基于第一正样本车辆运行数据集合得到的，第二负样本车辆运行数据集合是基于第一负样本车辆运行数据集合得到的，故第二正样本车辆运行数据集合对应的油耗类型也为低油耗，第二负样本车辆运行数据集合对应的油耗类型也为高油耗，在利用多个第二正样本车辆运行数据集合和多个第二负样本车辆运行数据集合对油耗预测模型进行训练时，由于第二正样本车辆运行数据集合和第二负样本车辆运行数据集合的油耗类型已知，因此，有效降低了油耗预测模型的训练难度，提高了油耗预测模型的预测准确率。

图4是本申请实施例提供的一种车辆的结构示意图。

示例性的，如图4所示，该车辆400包括：存储器401和处理器402，其中，存储器401中存储有可执行程序代码4011，处理器402用于调用并执行该可执行程序代码4011执行一种油耗预测模型的训练方法。

此外，本申请实施例还保护一种装置，该装置可以包括存储器和处理器，其中，存储器中存储有可执行程序代码，处理器用于调用并执行该可执行程序代码执行本申请实施例提供的一种油耗预测模型的训练方法。

本实施例可以根据上述方法示例对该装置进行功能模块的划分，例如，可以对应各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中，上述集成的模块可以采用硬件的形式实现。需要说明的是，本实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，该装置还可以包括样本分割模块、第一特征提取模块和训练模块等。需要说明的是，上述方法实施例涉及的各个步骤的所有相关内容的可以援引到对应功能模块的功能描述，在此不再赘述。

应理解，本实施例提供的装置用于执行上述一种油耗预测模型的训练方法，因此可以达到与上述实现方法相同的效果。

在采用集成的单元的情况下，该装置可以包括处理模块、存储模块。其中，当该装置应用于车辆上时，处理模块可以用于对车辆的动作进行控制管理。存储模块可以用于支持车辆执行相互程序代码等。

其中，处理模块可以是处理器或控制器，其可以实现或执行结合本申请公开内容所藐视的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包括一个或多个微处理器组合，数字信号处理(digital signal processing，DSP)和微处理器的组合等等，存储模块可以是存储器。

另外，本申请的实施例提供的装置具体可以是芯片、组件或模块，该芯片可包括相连的处理器和存储器；其中，存储器用于存储指令，当处理器调用并执行指令时，可以使芯片执行上述实施例提供的一种油耗预测模型的训练方法。

本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序代码，当该计算机程序代码在计算机上运行时，使得计算机执行上述相关方法步骤实现上述实施例提供的一种油耗预测模型的训练方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例提供的一种油耗预测模型的训练方法。

其中，本实施例提供的装置、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种油耗预测模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述对多个样本行程的多个样本车辆运行数据集合进行样本分割，得到多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述对多个样本行程的多个样本车辆运行数据集合进行样本分割，得到多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合，包括：

确定每个所述样本行程的平均油耗；

4.根据权利要求3所述的方法，其特征在于，所述根据所述多个样本车辆运行数据集合中每个所述样本车辆运行数据集合中的实际油耗的异常指数，确定多个第一正样本车辆运行数据集合和多个第一负样本车辆运行数据集合，包括：

5.根据权利要求1所述的方法，其特征在于，所述对每个所述样本行程的所述多个样本车辆运行数据集合进行特征提取，得到每个所述样本行程的样本行程特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述多个第一正样本车辆运行数据集合、所述多个第一负样本车辆运行数据集合以及各所述样本行程的样本行程特征，对油耗预测模型进行训练，包括：

7.根据权利要求1所述的方法，其特征在于，在所述基于所述多个第一正样本车辆运行数据集合、所述多个第一负样本车辆运行数据集合以及每个所述样本行程的样本行程特征，对油耗预测模型进行训练之后，所述方法还包括：

获取目标车辆在目标行程的多个第一车辆运行数据集合；

8.一种油耗预测模型的训练装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行程序代码；

处理器，用于从所述存储器中调用并运行所述可执行程序代码，使得所述电子设备执行如权利要求1至7中任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被执行时，实现如权利要求1至7中任意一项所述的方法。