CN117150276B

CN117150276B - 机器学习模型构建方法、车辆行驶风险预测方法以及装置

Info

Publication number: CN117150276B
Application number: CN202311441701.4A
Authority: CN
Inventors: 丁瑜欣; 杨晓君; 刘照喆
Original assignee: Contemporary Amperex Technology Co Ltd
Current assignee: Contemporary Amperex Technology Co Ltd
Priority date: 2023-11-01
Filing date: 2023-11-01
Publication date: 2024-04-09
Anticipated expiration: 2043-11-01
Also published as: CN117150276A

Abstract

本申请公开了一种机器学习模型构建方法、车辆行驶风险预测方法以及装置。机器学习模型适用于预测车辆的行驶风险，机器学习模型方法包括：获取样本特征数据和与样本特征数据对应的样本标签，其中，样本特征数据包括车辆电池的使用行为数据，样本标签用于表示车辆的行驶风险情况；基于样本特征数据和模型参数，分别构建至少一个机器学习模型；基于每个机器学习模型输出的车辆风险结果与样本标签之间的偏差，从至少一个机器学习模型中确定目标机器学习模型。

Description

机器学习模型构建方法、车辆行驶风险预测方法以及装置

技术领域

本申请涉及新能源车辆、机器学习等技术领域，尤其涉及一种机器学习模型构建方法、车辆行驶风险预测方法以及装置。

背景技术

新能源车辆通过电池供电，电池的健康状态对车辆的正常行驶起着至关重要的作用。现有的新能源车辆在行驶的过程中存在一定的风险，如因电池失效等原因导致车辆抛锚。为了缓解车辆抛锚的问题，相关技术通常通过人工对车辆进行检修排查，该方式存在人工成本高，准确性较低且效果不佳的问题。

发明内容

鉴于上述问题，本申请提供一种机器学习模型构建方法、车辆行驶风险预测方法、装置、电子设备、存储介质及程序产品，能够缓解车辆因电池原因发生抛锚的问题。

第一方面，本申请提供了机器学习模型构建方法，所述机器学习模型适用于预测车辆的行驶风险，所述方法包括：获取样本特征数据和与所述样本特征数据对应的样本标签，其中，所述样本特征数据包括车辆电池的使用行为数据，所述样本标签用于表示车辆的行驶风险情况；基于所述样本特征数据和模型参数，分别构建至少一个机器学习模型；基于每个机器学习模型输出的车辆风险结果与所述样本标签之间的偏差，从所述至少一个机器学习模型中确定目标机器学习模型。

本申请实施例的技术方案中，将车辆电池的使用行为数据作为样本特征数据构建机器学习模型，机器学习模型能够用于提前预测车辆的行驶风险，如预测车辆因电池原因发生抛锚的风险，以便提前采取相关应对措施，降低车辆抛锚风险。

在一些实施例中，所述获取样本特征数据和与所述样本特征数据对应的样本标签包括：获取初始特征数据和对应的初始标签，其中，所述初始特征数据包括多个指标数据；以所述初始标签为参考，确定每个指标数据对车辆发生行驶风险的重要度；基于所述重要度，从所述多个指标数据中筛选出目标指标数据；将所述目标指标数据确定为所述样本特征数据；将所述初始标签确定为所述样本标签。

本申请实施例的技术方案中，从多个指标数据中筛选出对车辆风险影响大的目标指标数据作为用于构建机器学习模型的样本特征数据，提高了机器学习模型的预测准确性和稳定性。

在一些实施例中，以所述初始标签为参考，确定每个指标数据对车辆发生行驶风险的重要度包括：利用多个评价模型，分别以所述初始标签为参考对每个指标数据进行评价，得到针对每个指标数据的多个重要度，所述多个重要度与所述多个评价模型一一对应。

本申请实施例的技术方案中，通过多个评价模型分别对每个指标数据进行评价，即通过多个评价模型对指标数据进行投票以筛选出重要的指标数据，提高了指标数据的筛选准确性。

在一些实施例中，基于所述重要度，从所述多个指标数据中筛选出目标指标数据包括：在所述多个重要度中至少具有预设数量个重要度满足重要度阈值条件的情况下，将对应的指标数据确定为所述目标指标数据。

在一些实施例中，样本特征数据包括正样本特征数据和负样本特征数据；所述获取样本特征数据包括：获取所述正样本特征数据和待评价样本特征数据；基于所述待评价样本特征数据和所述正样本特征数据之间的差异，从所述待评价样本特征数据中确定所述负样本特征数据。

本申请实施例的技术方案中，基于正样本特征数据和待评价样本特征数据之间的差异，从待评价样本特征数据中确定负样本特征数据，基于正样本特征数据和负样本特征数据构建机器学习模型，提高了机器学习模型的预测准确性。

在一些实施例中，基于所述待评价样本特征数据和所述正样本特征数据之间的差异，从所述待评价样本特征数据中确定所述负样本特征数据包括：基于所述正样本特征数据，确定车辆的第一异常值；基于所述待评价样本特征数据，确定车辆的第二异常值；确定所述第一异常值的集中分布范围；从所述第二异常值中确定远离所述集中分布范围的至少一个第二异常值；将所述至少一个第二异常值对应的所述待评价样本特征数据，确定为所述负样本特征数据。

在一些实施例中，第一异常值和所述第二异常值是由孤立森林模型基于无监督学习方式，分别对所述正样本特征数据和所述待评价样本特征数据进行异常检测得到的。

在一些实施例中，多个评价模型包括以下至少两个：回归模型、特征选择模型、随机森林模型。

在一些实施例中，机器学习模型包括随机森林分类模型；所述模型参数包括与所述至少一个机器学习模型一一对应的至少一组模型参数，每一组模型参数是利用网格搜索方式从候选模型参数中搜索得到的。

本申请实施例的技术方案中，在构建机器学习模型的过程中，通过网格搜索方式搜索得到多组模型参数，将每组模型参数对应的机器学习模型预测得到的车辆风险结果与样本标签进行对比，以便从至少一个机器学习模型中选择预测准确性最高的目标机器学习模型，提高了模型的准确性和鲁棒性。

在一些实施例中，样本特征数据包括以下至少一个：车辆电池在充电状态下的第一样本特征数据、车辆电池在放电状态下的第二样本特征数据、车辆电池在静置状态下的第三样本特征数据。

在一些实施例中，第一样本特征数据、所述第二样本特征数据和所述第三样本特征数据均包括以下至少一个：电池温度数据、电池电压数据、电池电流数据、电池荷电状态数据、电池充电电量数据。

另一方面，本申请提供了一种车辆行驶风险预测方法，所述方法包括：获取车辆特征数据，其中，所述车辆特征数据包括车辆电池的使用行为数据；将所述车辆特征数据输入机器学习模型中，由所述机器学习模型预测车辆的行驶风险概率值，其中，所述机器学习模型是利用上述机器学习模型构建方法构建得到的。

另一方面，本申请提供了一种机器学习模型构建装置，所述装置包括：第一获取模块、构建模块和确定模块。第一获取模块，用于获取样本特征数据和与所述样本特征数据对应的样本标签，其中，所述样本特征数据包括车辆电池的使用行为数据，所述样本标签用于表示车辆的行驶风险情况；构建模块，用于基于所述样本特征数据和模型参数，分别构建至少一个机器学习模型；确定模块，用于基于每个机器学习模型输出的车辆风险结果与所述样本标签之间的偏差，从所述至少一个机器学习模型中确定目标机器学习模型。

另一方面，本申请提供了一种车辆行驶风险预测装置，所述装置包括：第二获取模块和预测模块。第二获取模块，用于获取车辆特征数据，其中，所述车辆特征数据包括车辆电池的使用行为数据；预测模块，用于将所述车辆特征数据输入机器学习模型中，由所述机器学习模型预测车辆的行驶风险概率值，其中，所述机器学习模型是利用上述机器学习模型构建装置构建得到的。

另一方面，本申请提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项实施方式所述的方法的步骤。

另一方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项实施方式所述的方法的步骤。

另一方面，本申请提供了一种计算机程序产品，所述计算机程序产品中包括指令，所述指令被计算机设备的处理器执行时，使得所述计算机设备能够执行上述任一项实施方式所述的方法的步骤。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读对下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在全部附图中，用相同的附图标号表示相同的部件。在附图中：

图1为本申请实施方式提供的机器学习模型构建方法的流程示意图；

图2为本申请实施方式提供的车辆行驶风险预测方法的流程示意图；

图3为本申请实施方式提供的机器学习模型构建方法和车辆行驶风险预测方法的流程示意图；

图4为本申请实施方式提供的机器学习模型构建装置的示意图；

图5为本申请实施方式提供的车辆行驶风险预测装置的示意图。

具体实施方式

下面将结合附图对本申请技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本申请的技术方案，因此只作为示例，而不能以此来限制本申请的保护范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。

在本申请实施例的描述中，技术术语“第一”“第二”等仅用于区别不同对象，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在本申请实施例的描述中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

在本申请实施例的描述中，术语“多个”指的是两个以上（包括两个），同理，“多组”指的是两组以上（包括两组），“多片”指的是两片以上（包括两片）。

在本申请实施例的描述中，技术术语“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”“水平”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请实施例的限制。

在本申请实施例的描述中，除非另有明确的规定和限定，技术术语“安装”“相连”“连接”“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；也可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请实施例中的具体含义。

随着新能源汽车行业的迅猛发展，锂电池成为重要的动力源，对锂电池的维护、维修、安全可靠运行提出了巨大挑战。

随着大数据分析技术的发展，如何从海量数据中识别和挖掘出数据特征与特定故障之间的关系，符合现实的需求和具有实际的意义。随着新能源汽车使用年限的增加，电池健康度的降低容易出现续航不足、压差过大等问题，进而使得车辆发生低容抛锚的风险，给用户带来诸多不便，严重的情况下还将导致车辆的安全问题，低容抛锚表示电池容量无法支持车辆运行或电池失效导致车辆突然停止行驶。面对低容抛锚的问题，如何提前预测车辆是否存在发生抛锚的风险，对新能源汽车的正常行驶带来不小的挑战。

在一些示例中，可以获取新能源汽车的车辆状态数据集，对车辆状态数据集进行特征提取形成初步特征数据集，然后对初步特征数据集进行预训练，产生嵌入式特征向量集，并将嵌入式特征向量集作为循环神经网络的输入进行训练，得到车辆故障监测诊断算法模型，最后基于车辆故障监测诊断算法模型，通过接收的车辆状态数据，对车辆状态进行监测与故障分析。

但是，该方式是对车辆进行总体的故障分析，并非是针对低容抛锚情况进行预测，该方式没有针对性因此无法对车辆因电池问题产生的抛锚情况进行准确预测。该方式根据总的车辆状态数据对车辆进行监测和故障分析，可能遗漏潜在的低容抛锚风险，不够集中和聚焦于低容抛锚情况，无法针对存在低容抛锚风险的车辆给出风险防控方案。

有鉴于此，本申请实施方式提供了一种优化的机器学习模型构建方法和车辆行驶风险预测方法。

图1为本申请实施方式提供的机器学习模型构建方法的流程示意图。

如图1所示，本申请实施方式提供的机器学习模型构建方法100例如包括步骤S110-S130，机器学习模型适用于预测车辆的行驶风险。

步骤S110，获取样本特征数据和与样本特征数据对应的样本标签。

示例性，样本特征数据包括车辆电池的使用行为数据，使用行为数据例如包括用户对车辆电池进行充电或放电等行为数据，样本特征数据为历史数据。样本标签用于表示车辆的行驶风险情况，例如样本标签用于表示车辆在过去是否发生行驶风险，行驶风险包括因电池原因导致车辆在行驶过程中出现抛锚。

步骤S120，基于样本特征数据和模型参数，分别构建至少一个机器学习模型。

示例性地，模型参数为构建机器学习模型所需的相关模型参数。例如，当机器学习模型由节点或神经元构成时，模型参数包括节点或神经元的个数、节点或神经元构成的网络层级的层数或网络深度、表征节点之间或神经元之间的连接关系的参数等等。根据模型参数的不同，可以构建不同的机器学习模型，可见，基于样本特征数据和不同的模型参数，可以构建至少一个机器学习模型。

步骤S130，基于每个机器学习模型输出的车辆风险结果与样本标签之间的偏差，从至少一个机器学习模型中确定目标机器学习模型。

示例性地，每个机器学习模型在构建完成之后可以输出针对样本特征数据的预测结果，预测结果包括基于样本特征数据进行预测得到车辆风险结果。车辆风险结果表征了车辆在驾驶过程中是否会因为电池原因发生抛锚或者在驾驶过程中因为电池原因出现抛锚的概率。基于预测的车辆风险结果和样本标签之间的偏差，从至少一个机器学习模型中确定目标机器学习模型，例如从至少一个机器学习模型中确定偏差最小的模型作为目标机器学习模型，以便利用目标机器学习模型进行后续的风险预测。

可以理解，本申请的实施例将车辆电池的使用行为数据作为样本特征数据构建机器学习模型，机器学习模型能够用于提前预测车辆的行驶风险，如预测车辆因电池原因发生抛锚的风险，以便提前采取相关应对措施来降低车辆抛锚风险。

在一示例中，样本特征数据包括以下至少一个：车辆电池在充电状态下的第一样本特征数据、车辆电池在放电状态下的第二样本特征数据、车辆电池在静置状态下的第三样本特征数据。静置状态包括电池处于闲置或不使用的状态。

示例性地，第一样本特征数据可以包括在充电状态下的电池温度数据、电池电压数据、电池电流数据、电池荷电状态数据、电池充电电量数据中的至少一个。类似地，第二样本特征数据可以包括在放电状态下的电池温度数据、电池电压数据、电池电流数据、电池荷电状态数据、电池充电电量数据中的至少一个。第三样本特征数据可以包括在静置状态下的电池温度数据、电池电压数据、电池电流数据、电池荷电状态数据、电池充电电量数据中的至少一个。

电池温度数据例如包括电池在对应状态下的最大温度值、最小温度值、温度的分布情况。一种情况下，分布情况例如表示在对应状态下电池超过30%时间，电池温度均大于50℃。

电池电压数据和电池电流数据与电池温度数据类似，可以包括最大值、最小值、分布情况等等。

电池荷电状态数据包括电池的SOC（State of Charge）数据，表示电池在对应状态下的剩余电量，剩余电量例如包括某一时刻时剩余30%、50%、70%等电量。或者，与电池温度数据类似，电池荷电状态数据还可以包括在对应状态下剩余电量的最大值、最小值、分布情况等等。

电池充电电量数据表征了在一个电池充电的完整周期内多次充电的行为，如第一次充电充了20%的电量，第二次充电充了40%的电量，第三次充电充了60%的电量，充电电量的均值为0.4（20%、40%、60%的均值）。此时，电池充电电量数据可以是0.4，用于表示用户行驶车辆或使用电池的强度为0.4。

在一示例中，样本特征数据包括正样本特征数据和负样本特征数据。正样本特征数据是对过去因电池问题出现抛锚的车辆进行数据采集得到的，正样本特征数据对应的样本标签为“有风险”。负样本特征数据是对没有因电池问题出现抛锚或出现抛锚的概率很小的车辆进行数据采集得到。

例如，可以首先获取待评价样本特征数据，并从待评价样本特征数据中确定至少部分数据作为负样本特征数据。待评价样本特征数据是对没有风险标签的车辆进行数据采集得到的，没有风险标签的车辆包括不确定是否存在因电池问题出现抛锚风险的车辆。

然后，基于待评价样本特征数据和正样本特征数据之间的差异，从待评价样本特征数据中确定负样本特征数据。例如，正样本特征数据表征了车辆存在行驶风险，以正样本特征数据作为参考，从待评价样本特征数据中确定与正样本特征数据差异较大的数据作为负样本特征数据，使得所确定的负样本特征数据对应的车辆不存在因电池问题而出现抛锚或着出现抛锚的概率较小。

具体地，基于正样本特征数据确定车辆的第一异常值，基于待评价样本特征数据确定车辆的第二异常值，第一异常值和第二异常值用于表征车辆的异常情况，例如表征车辆是否会因为电池问题而出现抛锚。

由于正样本特征数据对应的车辆存在抛锚问题，因此多个正样本特征数据之间的特征通常比较相似，即，多个正样本特征数据对应的多个第一异常值通常也是比较相近的，可以确定多个第一异常值的集中分布范围，大多数的第一异常值位于集中分布范围之内。然后，从多个第二异常值中确定远离集中分布范围的至少一个第二异常值，至少一个第二异常值与多数第一异常值之间的差异较大，因此至少一个第二异常值对应的待评价样本特征数据与正样本特征数据之间的差异性较大。可见，所确定的至少一个第二异常值对应的待评价样本特征数据在大概率上表征了车辆不存在抛锚问题，因此可以将至少一个第二异常值对应的待评价样本特征数据确定为负样本特征数据。

在一示例中，第一异常值和第二异常值是由孤立森林模型（Isolate Forest）基于无监督学习方式，分别对正样本特征数据和待评价样本特征数据进行异常检测得到的。孤立森林模型是一种异常检测模型，将正样本特征数据和待评价样本特征数据输入孤立森林模型中，孤立森林模型学习通过学习数据之间的差异，对数据进行打分，输出第一异常值和第二异常值，从而将差异性较大的数据进行区分。可以理解，本申请的实施例除了利用孤立森林模型进行异常检测，还可以根据实际情况使用其他异常检测模型进行异常检测。

可见，本申请通过孤立森林模型基于正样本特征数据和待评价样本特征数据之间的差异，从待评价样本特征数据中确定负样本特征数据，基于正样本特征数据和负样本特征数据构建机器学习模型，提高了机器学习模型的预测准确性。

在另一示例中，可以首先获取初始特征数据和与初始特征数据对应的初始标签，然后对初始特征数据进行处理得到样本特征数据，并将初始标签作为与样本特征数据对应的样本标签。

例如，每个初始特征数据均包括多个指标数据，多个指标数据例如包括电池温度数据、电池电压数据、电池电流数据、电池荷电状态数据、电池充电电量数据等等。每个指标数据对车辆抛锚的影响程度不同，有些指标数据对车辆抛锚的影响程度很大，有些指标数据对车辆抛锚的影响程度很小，因此每个指标数据的重要度是不同的。例如，对车辆抛锚影响程度大的指标数据，其重要度也大。

示例性地，以初始标签为参考确定每个指标数据对车辆发生行驶风险的重要度，基于重要度从多个指标数据中筛选出目标指标数据，例如将重要度大的至少一个指标数据确定为目标指标数据。然后，将目标指标数据确定为样本特征数据。

示例性地，利用多个评价模型分别评价每个指标数据。例如利用多个评价模型分别以初始标签为参考对每个指标数据进行评价，得到针对每个指标数据的多个重要度，多个重要度与多个评价模型一一对应。在多个重要度中至少具有预设数量个重要度满足重要度阈值条件的情况下，将对应的指标数据确定为目标指标数据。

具体地，以多个评价模型包括回归模型、特征选择模型、随机森林模型为例，以一个初始特征数据为例，该初始特征数据对应的初始标签表示车辆存在抛锚问题，该初始特征数据例如包括指标数据a、指标数据b、指标数据c、指标数据d。分别利用回归模型、特征选择模型、随机森林模型以初始标签为参考，在基于车辆存在抛锚问题的前提下评价指标数据a对车辆抛锚的影响程度，分别得到针对指标数据a的多个重要度为1、1、0（回归模型输出1，特征选择模型输出1，随机森林模型输出0）。多个重要度1、1、0中至少具有预设数量个重要度满足重要度阈值条件包括：至少具有2个重要度为1或大于0，即，预设数量例如为2，重要度满足重要度阈值条件例如为重要度为1或大于0。

类似地，利用回归模型、特征选择模型、随机森林模型对指标数据b进行评价，分别得到多个重要度为1、1、1。利用回归模型、特征选择模型、随机森林模型对指标数据c进行评价, 分别得到多个重要度为1、0、0, 利用回归模型、特征选择模型、随机森林模型对指标数据d进行评价，分别得到多个重要度为0、0、0。

可见，指标数据a对应的多个重要度、指标数据b对应的多个重要度，均至少具有预设数量个重要度满足重要度阈值条件，因此将指标数据a、指标数据b确定为目标指标数据，并将目标指标数据作为构建机器学习模型的样本特征数据。

示例性地，回归模型例如包括Lasso回归模型，特征选择模型例如包括SelectKBest模型。

可以理解，本申请的实施例通过多个评价模型分别对每个指标数据进行评价，实现了通过多个评价模型对指标数据进行投票以筛选出重要的指标数据，提高了指标数据的筛选准确性。从初始特征数据中筛选出最优特征子集（目标指标数据）作为构建机器学习模型的样本特征数据，提高了机器学习模型的预测准确性。

在另一示例中，机器学习模型包括随机森林分类模型，具体可以包括随机森林二分类模型。用于构建机器学习模型的模型参数包括与至少一个机器学习模型一一对应的至少一组模型参数，每一组模型参数均是利用网格搜索方式从候选模型参数中搜索得到的。例如，利用网格搜索方式，从候选模型参数中搜索第一组模型参数，第一组模型参数例如包括随机森林分类模型的节点个数、节点构成的网络层级的层数或网络深度、表征节点之间的连接关系的参数等等。

在利用第一组模型参数构建随机森林分类模型时，样本特征数据中的每个指标数据对应于一个节点。例如，指标数据为电池温度数据对应的节点的分类逻辑例如为将电池温度大于40℃的样本特征数据分类至下一层的第一节点（第一节点例如对应电池电压数据），将电池温度小于等于40℃的样本特征数据分类至下一层的第二节点（第二节点例如对应电池电流数据）。

第一节点对应的分类逻辑例如为将电池电压大于某一电压值的样本特征数据分类至下一层的第三节点，将电池电压小于等于某一电压值的样本特征数据分类至下一层的第四节点。第二节点对应的分类逻辑例如为将电池电流大于某一电流值的样本特征数据分类至下一层的第五节点，将电池电流小于等于某一电流值的样本特征数据分类至下一层的第六节点。以此类推，构建得到与第一组模型参数对应的第一个随机森林分类模型。

接下来，利用网络搜索方式重新从候选模型参数中搜索第二组模型参数，第二组模型参数与第一组模型参数至少有一个参数不同。基于第二组模型参数和样本特征数据构建第二个随机森林分类模型。以此类推构建得到多个随机森林分类模型。

然后，根据多个随机森林分类模型分别输出的车辆风险结果与样本标签之间的偏差，从多个随机森林分类模型中选择预测准确性最高的一个或多个作为目标机器学习模型，优选地，目标机器学习模型为一个，目标机器学习模型对应的一组模型参数为利用网络搜索方式搜索得到的最佳参数组合。

可以理解，在构建机器学习模型的过程中，通过网格搜索方式搜索得到多组模型参数，将每组模型参数对应的机器学习模型预测得到的车辆风险结果与样本标签进行对比，以便从至少一个机器学习模型中选择预测准确性最高的目标机器学习模型，以提高模型预测的准确性和鲁棒性。

在另一示例中，可以将样本特征数据划分为训练集和测试集两部分，利用训练集来构建机器学习模型。在构建得到目标机器学习模型之后，可以利用测试集测试目标机器学习模型的预测能力。例如可以利用查全率来评价目标机器学习模型的预测能力，查全率指的是测试集中实际发生低容抛锚的车辆能够被目标机器学习模型准确预测的概率。

图2为本申请实施方式提供的车辆行驶风险预测方法的流程示意图。

如图2所示，本申请实施方式提供的车辆行驶风险预测方法200例如包括步骤S210-S220。

步骤S210，获取车辆特征数据。

示例性地，车辆特征数据包括用户对车辆电池的使用行为数据。

步骤S220，将车辆特征数据输入机器学习模型中，由机器学习模型预测车辆的行驶风险概率值。

示例性地，本申请实施例的机器学习模型包括上文所指的目标机器学习模型。

在另一示例中，可以利用机器学习模型对多个车辆进行风险预测，得到每个车辆对应的行驶风险概率值。基于行驶风险概率值输出针对多个车辆的车辆风险排序信息。例如，根据风险概率值将多个车辆进行排序，从而确定风险概率较大的车辆，便于及时采取相关的应对措施或维修指导建议，降低风险概率大的车辆出现低容抛锚的风险。

图3为本申请实施方式提供的机器学习模型构建方法和车辆行驶风险预测方法的流程示意图。

如图3所示，本申请实施方式提供的机器学习模型构建方法和车辆行驶风险预测方法300例如包括步骤S310-S370。

步骤S310，获取因电池原因抛锚的车辆信息。

示例性地，从市场端的车辆维修系统中获取发生低容抛锚故障的车辆清单，包括故障时间和车辆信息，汇总形成故障标签，故障标签作为后续的样本标签。

步骤S320，处理车辆电池的历史数据，得到表征用户使用行为的样本特征数据。

针对发生抛锚故障的车辆和不知是否存在抛锚风险的车辆，获取车辆的历史电流数据、历史电压数据、历史荷电状态数据等历史数据。对历史数据进行处理得到车辆在分别充电状态下、放电状态下、静置状态下的初始特征数据，初始特征数据表征了实际使用场景中用户对车辆电池的使用行为。不同状态下的初始特征数据例如均包括电池温度数据、电池电压数据、电池电流数据、电池荷电状态数据、电池充电电量数据等等。

步骤S330，筛选负样本特征数据。

示例性地，初始特征数据包括正样本特征数据和待评价样本特征数据，正样本特征数据是针对发生抛锚故障的车辆的数据，待评价样本特征数据是针对不知是否存在抛锚风险的车辆的数据。基于孤立森林Isolate Forest模型，对初始特征数据进行无监督学习。具体地，以已发生抛锚的车辆为目标对象，确定目标对象对应的正样本特征数据的异常分数（第一异常值）和待评价样本特征数据的异常分数（第二异常值）的分布情况，从待评价样本特征数据中筛选位于集中分布区域以外（或远离集中分布区域）的待评价样本特征数据作为负样本特征数据，集中分布区域为目标对象对应的正样本特征数据的集中数据区域。

步骤S340，利用集成模型筛选目标指标数据。

例如，正样本特征数据和负样本特征数据中均包括多个指标数据，利用集成模型进行指标数据的筛选。集成模型包括Lasso回归、SelectKBest模型、随机森林算法等等，通过多种模型基于投票法筛选出最优的特征子集（目标指标数据），从而得到用于构建机器学习模型的最优正样本特征数据和最优负样本特征数据。使用投票法筛选出重要指标数据可以提高模型的准确性和稳定性。

步骤S350，构建机器学习模型。

示例性地，机器学习模型包括随机森林二分类模型。随机森林二分类模型包括多个决策树。将样本特征数据拆分为训练集和训练集，利用测试集对构建的模型进行测试，通过设定阈值（如查全率阈值）以判断模型预测的准确程度，如模型的查全率大于查全率阈值则表示模型预测的准确程度较高。在利用训练集构建模型时，利用网格搜索方式多次调节模型参数，得到多组不同的模型参数，并将不同组的模型参数对应的模型输出结果分别与样本标签进行对比，选出预测准确性最高的最佳的一组模型参数，将最佳的一组模型参数对应的模型作为最终的机器学习模型，以此提升模型的准确性和鲁棒性。

步骤S360，评估机器学习模型的预测效果。

示例性地，可以基于测试集的查全率来评价模型的预测性能。查全率指的是实际发生低容抛锚的车辆能够准确被预测的概率，查全率反映了模型的预测能力，如查全率大于查全率阈值则表示模型预测的准确程度较高。

步骤S370，利用机器学习模型预测车辆抛锚风险。

示例性地，获取待预测车辆的车辆电池原始数据（与上文的车辆电池的历史数据类似），采用如上步骤（如步骤S320-S340）处理车辆电池原始数据得到车辆特征数据（与上文的样本特征数据类似）。将车辆特征数据输入已构建的机器学习模型中进行预测，得到车辆发生低容抛锚风险概率。另外，还可以输出多个车辆的风险概率排序，以便为市场中车辆的主动维修业务提供指导建议。

可以理解，本申请的实施例通过机器学习模型深入分析抛锚发生时电池数据的业务场景，根据车辆电池大数据平台及市场端反馈的维修数据，得到车辆抛锚时电池的历史数据，并结合业务场景处理电池的历史数据得到电池特征数据（样本特征数据）。电池特征数据（样本特征数据）包括车辆每次使用时电池分别在充电状态、放电状态、静置状态下的多指标数据，建立用于表征多指标数据与抛锚风险之间的关联关系的机器学习模型，以便利用构建的机器学习模型评估车辆低容抛锚风险。可见，通过构建的模型提前评估车辆抛锚风险，提前对风险车辆进行排查检修，主动性地减少了抛锚事件的发生。

本申请的实施例基于庞大的市场体系，从终端收集低容抛锚的车辆信息，结合大数据平台采集的长周期的电池历史数据，并从用户使用行为的角度出发，处理电池的历史数据得到样本特征数据。通过孤立森林模型挑选风险较低车辆对应的负样本特征数据，将负样本特征数据与发生故障的车辆对应的正样本数据共同组成样本特征数据进行模型构建和测试，并利用构建的模型预测车辆发生低容抛锚的风险，以便提前得知车辆的风险情况，便于及时采取相关防范措施，保证车辆的驾驶安全。

图4为本申请实施方式提供的机器学习模型构建装置的示意图。

本申请实施方式提供一种机器学习模型构建装置400，请参阅图4，机器学习模型构建装置400包括：第一获取模块410、构建模块420和确定模块430。

示例性地，第一获取模块410用于获取样本特征数据和与样本特征数据对应的样本标签，其中，样本特征数据包括车辆电池的使用行为数据，样本标签用于表示车辆的行驶风险情况。

示例性地，构建模块420用于基于样本特征数据和模型参数，分别构建至少一个机器学习模型。

示例性地，确定模块430用于基于每个机器学习模型输出的车辆风险结果与样本标签之间的偏差，从至少一个机器学习模型中确定目标机器学习模型。

可以理解，关于机器学习模型构建装置400的具体描述，可以参见上文中对机器学习模型构建方法的描述。

示例性地，第一获取模块410用于：获取初始特征数据和对应的初始标签，其中，初始特征数据包括多个指标数据；以初始标签为参考，确定每个指标数据对车辆发生行驶风险的重要度；基于重要度，从多个指标数据中筛选出目标指标数据；将目标指标数据确定为样本特征数据；将初始标签确定为样本标签。

示例性地，以初始标签为参考，确定每个指标数据对车辆发生行驶风险的重要度包括：利用多个评价模型，分别以初始标签为参考对每个指标数据进行评价，得到针对每个指标数据的多个重要度，多个重要度与多个评价模型一一对应。

示例性地，基于重要度，从多个指标数据中筛选出目标指标数据包括：在多个重要度中至少具有预设数量个重要度满足重要度阈值条件的情况下，将对应的指标数据确定为目标指标数据。

示例性地，样本特征数据包括正样本特征数据和负样本特征数据；获取样本特征数据包括：获取正样本特征数据和待评价样本特征数据；基于待评价样本特征数据和正样本特征数据之间的差异，从待评价样本特征数据中确定负样本特征数据。

示例性地，基于待评价样本特征数据和正样本特征数据之间的差异，从待评价样本特征数据中确定负样本特征数据包括：基于正样本特征数据，确定车辆的第一异常值；基于待评价样本特征数据，确定车辆的第二异常值；确定第一异常值的集中分布范围；从第二异常值中确定远离集中分布范围的至少一个第二异常值；将至少一个第二异常值对应的待评价样本特征数据，确定为负样本特征数据。

示例性地，第一异常值和第二异常值是由孤立森林模型基于无监督学习方式，分别对正样本特征数据和待评价样本特征数据进行异常检测得到的。

示例性地，多个评价模型包括以下至少两个：回归模型、特征选择模型、随机森林模型。

示例性地，机器学习模型包括随机森林分类模型；模型参数包括与至少一个机器学习模型一一对应的至少一组模型参数，每一组模型参数是利用网格搜索方式从候选模型参数中搜索得到的。

示例性地，样本特征数据包括以下至少一个：车辆电池在充电状态下的第一样本特征数据、车辆电池在放电状态下的第二样本特征数据、车辆电池在静置状态下的第三样本特征数据。

示例性地，第一样本特征数据、第二样本特征数据和第三样本特征数据均包括以下至少一个：电池温度数据、电池电压数据、电池电流数据、电池荷电状态数据、电池充电电量数据。

本申请实施方式提供一种车辆行驶风险预测装置500，请参阅图5，车辆行驶风险预测装置500包括：第二获取模块510和预测模块520。

示例性地，第二获取模块510用于获取车辆特征数据，其中，车辆特征数据包括车辆电池的使用行为数据。

示例性地，预测模块520用于将车辆特征数据输入机器学习模型中，由机器学习模型预测车辆的行驶风险概率值。

可以理解，关于车辆行驶风险预测装置500的具体描述，可以参见上文中对车辆行驶风险预测方法的描述，在此不再赘述。

本申请实施方式提供一种电子设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述任一项实施方式中的方法的步骤。

本申请实施方式提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一项实施方式中的方法的步骤。

本申请的一个实施方式提供一种计算机程序产品，计算机程序产品中包括指令，指令被计算机设备的处理器执行时，使得计算机设备能够执行上述任一项实施方式的方法的步骤。

需要说明的是，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本申请而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，其均应涵盖在本申请的权利要求和说明书的范围当中。尤其是，只要不存在结构冲突，各个实施例中所提到的各项技术特征均可以任意方式组合起来。本申请并不局限于文中公开的特定实施例，而是包括落入权利要求的范围内的所有技术方案。

Claims

1.一种机器学习模型构建方法，其特征在于，所述机器学习模型适用于预测车辆的行驶风险，所述机器学习模型构建方法包括：

获取样本特征数据和与所述样本特征数据对应的样本标签，其中，所述样本特征数据包括车辆电池的使用行为数据，所述样本标签用于表示车辆的行驶风险情况，获取所述样本特征数据包括：基于因电池原因抛锚的车辆的历史数据得到正样本特征数据，基于未知是否存在抛锚风险的车辆的历史数据得到待评价样本特征数据，基于所述待评价样本特征数据和所述正样本特征数据之间的差异，从所述待评价样本特征数据中确定负样本特征数据，获取所述正样本特征数据和所述负样本特征数据所包含的多个指标数据，对每个指标数据进行评价得到针对每个指标数据的多个重要度，在所述多个重要度中至少具有预设数量个重要度满足重要度阈值条件的情况下，将对应的指标数据确定为所述样本特征数据；其中，基于所述待评价样本特征数据和所述正样本特征数据之间的差异，从所述待评价样本特征数据中确定负样本特征数据包括：由孤立森林模型对所述正样本特征数据进行打分得到车辆的第一异常值，由孤立森林模型对所述待评价样本特征数据进行打分得到车辆的第二异常值；确定所述第一异常值的集中分布范围；从所述第二异常值中确定在所述集中分布范围之外的至少一个第二异常值；将所述至少一个第二异常值对应的所述待评价样本特征数据，确定为所述负样本特征数据；

基于所述样本特征数据和模型参数，分别构建至少一个机器学习模型；以及

基于每个机器学习模型输出的车辆风险结果与所述样本标签之间的偏差，从所述至少一个机器学习模型中确定目标机器学习模型。

2.根据权利要求1所述的机器学习模型构建方法，其特征在于，所述获取样本特征数据和与所述样本特征数据对应的样本标签包括：

获取初始特征数据和对应的初始标签，其中，所述初始特征数据包括所述多个指标数据；

以所述初始标签为参考，确定每个指标数据对车辆发生行驶风险的重要度；

基于所述重要度，从所述多个指标数据中筛选出目标指标数据；

将所述目标指标数据确定为所述样本特征数据；以及

将所述初始标签确定为所述样本标签。

3.根据权利要求2所述的机器学习模型构建方法，其特征在于，所述以所述初始标签为参考，确定每个指标数据对车辆发生行驶风险的重要度包括：

利用多个评价模型，分别以所述初始标签为参考对每个指标数据进行评价，得到针对每个指标数据的所述多个重要度，所述多个重要度与所述多个评价模型一一对应。

4.根据权利要求1所述的机器学习模型构建方法，其特征在于，所述孤立森林模型基于无监督学习方式得到所述第一异常值和所述第二异常值。

5.根据权利要求3所述的机器学习模型构建方法，其特征在于，所述多个评价模型包括以下至少两个：

回归模型、特征选择模型、随机森林模型。

6.根据权利要求1-5中任意一项所述的机器学习模型构建方法，其特征在于，所述机器学习模型包括随机森林分类模型；所述模型参数包括与所述至少一个机器学习模型一一对应的至少一组模型参数，每一组模型参数是利用网格搜索方式从候选模型参数中搜索得到的。

7.根据权利要求1-5中任意一项所述的机器学习模型构建方法，其特征在于，所述样本特征数据包括以下至少一个：

车辆电池在充电状态下的第一样本特征数据、车辆电池在放电状态下的第二样本特征数据、车辆电池在静置状态下的第三样本特征数据。

8.根据权利要求7所述的机器学习模型构建方法，其特征在于，所述第一样本特征数据、所述第二样本特征数据和所述第三样本特征数据均包括以下至少一个：

电池温度数据、电池电压数据、电池电流数据、电池荷电状态数据、电池充电电量数据。

9. 一种车辆行驶风险预测方法，其特征在于，所述车辆行驶风险预测方法包括：

获取车辆特征数据，其中，所述车辆特征数据包括车辆电池的使用行为数据；以及

将所述车辆特征数据输入机器学习模型中，由所述机器学习模型预测车辆的行驶风险概率值，

其中，所述机器学习模型是利用权利要求1-8中任意一项所述的机器学习模型构建方法构建得到的。

10.根据权利要求9所述的方法，其特征在于，所述车辆行驶风险预测方法还包括：

基于所述行驶风险概率值，输出车辆风险排序信息。

11.一种机器学习模型构建装置，其特征在于，所述机器学习模型适用于预测车辆的行驶风险，所述机器学习模型构建装置包括：

第一获取模块，用于获取样本特征数据和与所述样本特征数据对应的样本标签，其中，所述样本特征数据包括车辆电池的使用行为数据，所述样本标签用于表示车辆的行驶风险情况，获取所述样本特征数据包括：基于因电池原因抛锚的车辆的历史数据得到正样本特征数据，基于未知是否存在抛锚风险的车辆的历史数据得到待评价样本特征数据，基于所述待评价样本特征数据和所述正样本特征数据之间的差异，从所述待评价样本特征数据中确定负样本特征数据，获取所述正样本特征数据和所述负样本特征数据所包含的多个指标数据，对每个指标数据进行评价得到针对每个指标数据的多个重要度，在所述多个重要度中至少具有预设数量个重要度满足重要度阈值条件的情况下，将对应的指标数据确定为所述样本特征数据；其中，基于所述待评价样本特征数据和所述正样本特征数据之间的差异，从所述待评价样本特征数据中确定负样本特征数据包括：由孤立森林模型对所述正样本特征数据进行打分得到车辆的第一异常值，由孤立森林模型对所述待评价样本特征数据进行打分得到车辆的第二异常值；确定所述第一异常值的集中分布范围；从所述第二异常值中确定在所述集中分布范围之外的至少一个第二异常值；将所述至少一个第二异常值对应的所述待评价样本特征数据，确定为所述负样本特征数据；

构建模块，用于基于所述样本特征数据和模型参数，分别构建至少一个机器学习模型；以及

确定模块，用于基于每个机器学习模型输出的车辆风险结果与所述样本标签之间的偏差，从所述至少一个机器学习模型中确定目标机器学习模型。

12. 一种车辆行驶风险预测装置，其特征在于，所述车辆行驶风险预测装置包括：

第二获取模块，用于获取车辆特征数据，其中，所述车辆特征数据包括车辆电池的使用行为数据；以及

预测模块，用于将所述车辆特征数据输入机器学习模型中，由所述机器学习模型预测车辆的行驶风险概率值，

其中，所述机器学习模型是利用权利要求11所述的机器学习模型构建装置构建得到的。

13.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-10中任一项所述的方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-10中任一项所述的方法的步骤。