CN115293366B

CN115293366B - 模型训练方法、信息预测方法、装置、设备及介质

Info

Publication number: CN115293366B
Application number: CN202211231178.8A
Authority: CN
Inventors: 徐维莉; 罗峰
Original assignee: Yikatong Beijing Technology Co ltd; Ecarx Hubei Tech Co Ltd
Current assignee: Yikatong Beijing Technology Co ltd; Ecarx Hubei Tech Co Ltd
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2023-01-10
Anticipated expiration: 2042-10-10
Also published as: CN115293366A

Abstract

本发明公开了一种模型训练方法、信息预测方法、装置、设备及介质。该方法包括：获取第一数据集中每个数据包括的特征的权重，其中，所述第一数据集为车辆历史数据集；根据所述每个数据包括的特征的权重对所述第一数据集中的数据包括的特征进行筛选，得到第二数据集；根据所述第一数据集和所述第二数据集的权重之比确定至少一个组合参数；根据所述至少一个组合参数对应的损失值从所述至少一个组合参数中选取目标组合参数，并基于所述目标组合参数生成目标模型，其中，所述目标模型基于车辆当前数据确定预测信息。通过本发明的技术方案，能够训练更为准确的AI系统，在有限时间内以更低的成本探索更广的参数空间，提高获得更优解的概率。

Description

模型训练方法、信息预测方法、装置、设备及介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种模型训练方法、信息预测方法、装置、设备及介质。

背景技术

机器学习是让算法自动的从数据中找出一组规则，从而提取数据中对分类/聚类/决策有帮助的特征，随着机器学习的发展，其中人工需要干预的部分越来越多，而AutoML则是对机器学习模型从构建到应用的全过程自动化，最终得出端对端的模型（end to end）。

现有技术中，AutoML在实际应用中若将两种特征选择决策看作参数，应用贝叶斯优化算法时，并未考虑到两种决策的平均执行时长，计算出不公平的概率，很容易导致只有一种效果并不够好的决策频繁出现的现象。

发明内容

本发明实施例提供一种模型训练方法、信息预测方法、装置、设备及介质，以解决了AutoML在实际应用中将两种特征选择决策看作参数，应用贝叶斯优化算法时不考虑两种决策的平均执行时长，计算出不公平的概率，导致只有一种效果并不够好的决策频繁出现的问题，能够引入权重弥补概率分配不公平的缺陷，可以自动训练更加准确的AI系统，在有限时间内以更低的成本探索更广的参数空间，提高获得更优解的概率，得到更加准确的预测信息。

根据本发明的一方面，提供了一种模型训练方法，该方法包括：

获取第一数据集中每个数据包括的特征的权重，其中，所述第一数据集为车辆历史数据集；

根据所述每个数据包括的特征的权重对所述第一数据集中的数据包括的特征进行筛选，得到第二数据集；

根据所述第一数据集和所述第二数据集的权重之比确定至少一个组合参数；

根据所述至少一个组合参数对应的损失值从所述至少一个组合参数中选取目标组合参数，并基于所述目标组合参数生成目标模型，其中，所述目标模型基于车辆当前数据确定预测信息。

根据本发明的另一方面，提供了一种信息预测方法，该方法包括：

获取车辆当前数据；

将所述车辆当前数据输入至预先训练的目标模型中，得到预测信息，其中，所述目标模型基于本发明任一实施例提供的模型训练方法训练得到，所述车辆当前数据包括：车内当前环境数据、车辆当前加油数据、车辆当前充电数据以及车辆当前行驶数据中的至少一种，所述预测信息包括：空调温度、加油时间、充电时间以及驾驶状态中的至少一种。

根据本发明的另一方面，提供了一种模型训练装置，该装置包括：

特征权重获取模块，用于获取第一数据集中每个数据包括的特征的权重，其中，所述第一数据集为车辆历史数据集；

第二数据集得到模块，用于根据所述每个数据包括的特征的权重对所述第一数据集中的数据包括的特征进行筛选，得到第二数据集；

组合参数确定模块，用于根据所述第一数据集和所述第二数据集的权重之比确定至少一个组合参数；

目标模型生成模块，用于根据所述至少一个组合参数对应的损失值从所述至少一个组合参数中选取目标组合参数，并基于所述目标组合参数生成目标模型，其中，所述目标模型基于车辆当前数据确定预测信息。

根据本发明的另一方面，提供了一种信息预测装置，该装置包括：

车辆当前数据获取模块，用于获取车辆当前数据；

预测信息得到模块，用于将所述车辆当前数据输入至预先训练的目标模型中，得到预测信息，其中，所述目标模型基于本发明任一实施例提供的模型训练方法训练得到，所述车辆当前数据包括：车内当前环境数据、车辆当前加油数据、车辆当前充电数据以及车辆当前行驶数据中的至少一种，所述预测信息包括：空调温度、加油时间、充电时间以及驾驶状态中的至少一种。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的方法。

本发明实施例通过获取第一数据集中每个数据包括的特征的权重，其中，所述第一数据集为车辆历史数据集；根据所述每个数据包括的特征的权重对所述第一数据集中的数据包括的特征进行筛选，得到第二数据集；根据所述第一数据集和所述第二数据集的权重之比确定至少一个组合参数；根据所述至少一个组合参数对应的损失值从所述至少一个组合参数中选取目标组合参数，并基于所述目标组合参数生成目标模型，其中，所述目标模型基于车辆当前数据确定预测信息，解决了AutoML在实际应用中将两种特征选择决策看作参数，应用贝叶斯优化算法时不考虑两种决策的平均执行时长，计算出不公平的概率，导致只有一种效果并不够好的决策频繁出现的问题，能够引入权重弥补概率分配不公平的缺陷，可以自动化训练更加准确的AI系统，在有限时间内以更低的成本探索更广的参数空间，提高获得更优解的概率，得到更加准确的预测信息。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例一中的一种模型训练方法的流程图；

图2是本发明实施例二中的一种信息预测方法的流程图；

图3为本发明实施例三提供的一种模型训练装置的结构示意图；

图4为本发明实施例四提供的一种信息预测装置的结构示意图；

图5是本发明实施例五中的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1是本发明实施例一中的一种模型训练方法的流程图，本实施例可适用于AutoML在实际应用中应用贝叶斯优化算法的情况，该方法可以由本发明实施例中的模型训练装置来执行，该装置可采用软件和/或硬件的方式实现，如图1所示，该方法具体包括如下步骤：

S110，获取第一数据集中每个数据包括的特征的权重，其中，第一数据集为车辆历史数据集。

其中，第一数据集为初始数据集，可以为车辆历史数据集，车辆历史数据集可以包括：车内历史环境数据集、车辆历史加油数据集、车辆历史充电数据集以及车辆历史行驶数据集中的至少一种。特征的权重指的是第一数据集中每个数据包括的特征的重要程度。

具体的，获取第一数据集中每个数据包括的特征的权重的方式可以为：根据第一数据集中的每个数据确定每个数据包括的特征，将每个数据包括的特征根据特征选择算法，例如可以是CFS（Correlation-Based Feature Selection，基于相关性的特征选择）算法，获取每个数据包括的特征个数及每个数据包括的各特征的权重。

具体的，为了方便理解，以车内实际场景进行解释，车辆历史数据集可为车内历史环境数据集，例如可以是，车内历史环境数据集包括：车内温度，车外温度，天气，车内人数，车内湿度，车外湿度，吹风模式，时间点，开窗数量，车内是否有儿童，车内是否有老人等n个特征构成的多个数据组成的数据集。

车辆历史数据集可为车辆历史加油数据集，例如可以是，车辆历史加油数据集包括：天气，是否工作日，性别，年龄，出发地，目的地，途径地是否有加油站，上一次加油时间，上一次出行时间，本月内加油次数，职业类型，当前行程时间属于早上还是晚上等n个特征构成的多个数据组成的数据集。

车辆历史数据集可为车辆历史充电数据集，例如可以是，车辆历史充电数据集包括：天气，是否工作日，出发地，目的地，途径地是否有充电站，家中是否有充电桩，家附近是否有充电桩，工作地附近是否有充电桩，职业类型，性别，年龄，上一次充电时间，上一次用车总时长，本月内充电次数，当前出行时间属于早上还是晚上等n个特征构成的多个数据组成的数据集。

车辆历史数据集可为车辆历史行驶数据集，例如可以是，车辆历史行驶数据集包括：出发地，目的地，途经地，当前行程驾驶时长，是否频繁转动方向盘，油门踏板深度，刹车踏板深度，方向盘转动角度，当前车速，是否猛踩刹车，是否长期低速行驶，是否夜间行驶，天气等n个特征构成的多个数据组成的数据集。

需要注意的是，本发明并不只局限于一个场景中，而是可以用于解决一切面对执行时长不同的算法及其参数在自动化机器学习寻优过程中的采样平衡问题。

S120，根据每个数据包括的特征的权重对第一数据集中的数据包括的特征进行筛选，得到第二数据集。

其中，第二数据集为基于第一数据集中每个数据包括的特征进行权重筛选后得到的数据集。

具体的，根据所述每个数据包括的特征的权重对所述第一数据集中的数据包括的特征进行筛选，得到第二数据集的方式可以为：根据特征选择算法计算第一数据集中每个数据包括的特征的权重，根据每个数据包括的权重从高到低进行排序，根据实际应用中需要用到的特征数量提取排名靠前的特征进行存储，根据筛选出的靠前的数据特征得到第二数据集，例如可以是在实际应用中需要每个数据的2个主要特征，则筛选每个数据中权重排名前2的特征。根据所述每个数据包括的特征的权重对所述第一数据集中的数据包括的特征进行筛选，得到第二数据集的方式还可以为：根据特征选择算法计算第一数据集中每个数据包括的特征的权重，根据实际应用中需要的特征数量设置特征阈值，判断每个数据包括的特征权重是否大于设置的特征阈值，若特征权重大于设置的特征阈值，则进行筛选储存；若特征权重小于设置的特征阈值，则删除，根据筛选后的数据特征得到第二数据集。

具体的，根据车辆历史数据集中的每个数据包括的特征的权重对数据集中的数据包括的特征进行筛选，得到筛选后的数据集。例如可以是，为了方便理解，以车内实际场景进行解释，可以根据车内历史环境数据集、车辆历史加油数据集、车辆历史充电数据集以及车辆历史行驶数据集中的至少一种数据集中的每个数据包括的特征的权重对数据集中的数据包括的特征进行筛选，得到筛选后的数据集。

S130，根据第一数据集和第二数据集的权重之比确定至少一个组合参数。

其中，权重之比为第一数据集与第二数据集对应的平均训练耗时之比。组合参数可以包括函数、函数中的各种参数、训练样本集标识，例如可以是，组合函数包括：第一函数，第一函数中的各参数对应的数值，第一样本集标识。

其中，所述第一数据集和所述第二数据集的权重之比的获取方式可以为：基于所述第一数据集对第一模型进行预设次数的训练，得到每次训练对应的第一训练时间，基于所述第二数据集对所述第一模型进行预设次数的训练，得到每次训练对应的第二训练时间，根据每次训练对应的第一训练时间计算第一数据集对应的平均训练耗时，根据每次训练对应的第二训练时间计算第二数据集对应的平均训练耗时，根据第一数据集和第二数据集对应的平均训练耗时确定第一数据集和第二数据集的权重之比。

具体的，根据所述第一数据集和所述第二数据集的权重之比确定至少一个组合参数的方式可以为：根据第一数据集和第二数据集对应的平均训练耗时确定第一数据集和第二数据集的权重之比，根据第一数据集和第二数据集的权重之比基于优化后的EI算法确定至少一个组合参数。根据所述第一数据集和所述第二数据集的权重之比确定至少一个组合参数的方式还可以为：根据第一数据集和第二数据集对应的平均训练耗时确定第一数据集和第二数据集的权重之比，将确定的权重之比输入到概率分布模型中，得到至少一个组合参数。

具体的，为了方便理解，以车内实际场景进行解释，获取车辆历史数据集中每个数据包括的特征的权重，根据每个数据包括的特征的权重对车辆历史数据集中的数据包括的特征进行筛选，得到筛选后的数据集，根据车辆历史数据集和筛选后的数据集进行训练，分别得到车辆历史数据集和筛选后的数据集对应的平均训练耗时，根据车辆历史数据集和筛选后的数据集对应的平均训练耗时确定车辆历史数据集和筛选后的数据集的权重之比，根据权重之比确定至少一个组合参数。可选的，在根据所述第一数据集和所述第二数据集的权重之比确定至少一个组合参数之前，还包括：

基于所述第一数据集对第一模型进行训练，得到第一训练时间；

基于所述第二数据集对所述第一模型进行训练，得到第二训练时间；

根据所述第一训练时间和所述第二训练时间确定第一数据集和第二数据集的权重之比。

其中，第一模型为初始设定模型。第一训练时间为第一数据集对第一模型进行多次训练计算的平均耗时，在此训练的次数不作限制。第二训练时间为第二数据集对第一模型进行多次训练计算的平均耗时，训练次数与第一训练时间的训练次数相同。

具体的，基于所述第一数据集对第一模型进行训练，得到第一训练时间的方式可以为：基于第一数据集对第一模型进行训练，每次训练完成都可以得到训练时间，根据每次得到的训练时间计算平均耗时，将计算得到的平均训练耗时确定为第一训练时间，例如可以是，基于第一数据集对第一模型进行训练，训练执行10次，记录每次训练时间，对10次的训练时间求平均值，得到第一数据集对应的平均训练耗时。

具体的，基于所述第二数据集对所述第一模型进行训练，得到第二训练时间的方式可以为：基于第二数据集对第一模型进行训练，每次训练完成都可以得到训练时间，根据每次得到的训练时间计算平均耗时，将计算得到的平均训练耗时确定为第二训练时间。

具体的，根据所述第一训练时间和所述第二训练时间确定第一数据集和第二数据集的权重之比的方式可以为：根据第一数据集对第一模型进行训练确定第一训练时间，根据第二数据集对第一模型进行训练确定第二训练时间，将第一训练时间与第二训练时间之比确定为第一数据集和第二数据集的权重之比。需要注意的是，此方法是为初始权重赋值。

具体的，为了方便理解，以车内实际场景进行解释，基于车辆历史数据集对所述第一模型进行训练，得到第一训练时间；获取车辆历史数据集中每个数据包括的特征的权重，根据每个数据包括的特征的权重对车辆历史数据集中的数据包括的特征进行筛选，得到筛选后的数据集；基于筛选后的数据集对所述第一模型进行训练，得到第二训练时间；根据所述第一训练时间和所述第二训练时间确定车辆历史数据集和筛选后的数据集的权重之比。

通过计算第一数据集和第二数据集的权重之比，可以弥补实际应用中应用贝叶斯优化算法时，对于执行时长不一致的算法进行采样而出现的概率分配不均衡的缺陷。

可选的，在根据所述至少一个组合参数对应的损失值从所述至少一个组合参数中选取目标组合参数之前，还包括：

根据所述至少一个组合参数确定至少一个模型和每个模型对应的样本集标识；

根据所述每个模型对应的样本集标识对所述至少一个模型进行训练，得到每个组合参数对应的损失值。

其中，所述样本集标识可以为第一标识，也可以为第二标识，所述第一标识可以为第一数据集对应的标识，第二标识可以为第二数据集对应的标识，例如可以是，将α确定为第一数据集对应的标识，将β确定为第二数据集对应的标识，若根据一个组合参数确定的一个模型和此模型对应的样本集标识为α，则此模型基于第一数据集进行训练；若根据一个组合参数确定的一个模型和此模型对应的样本集标识为β，则此模型基于第二数据集进行训练。

具体的，根据所述至少一个组合参数确定至少一个模型和每个模型对应的样本集标识的方式可以为：根据至少一个组合参数确定每个模型（参数未知）、每个模型的参数对应的数值，每个模型对应的样本集标识。

具体的，根据所述每个模型对应的样本集标识对所述至少一个模型进行训练，得到每个组合参数对应的损失值的方式可以为：根据至少一个组合参数确定至少一个模型和每个模型对应的样本集标识，根据确定好的至少一个模型和每个模型对应的样本集标识确定训练样本集，根据确定的训练样本集对至少一个模型进行训练，得到每个组合参数对应的损失值。例如可以是，根据至少一个组合参数确定的模型为：模型A，样本集标识为α，则此模型基于第一数据集进行训练；若模型为模型B，样本集标识为β，则此模型基于第二数据集进行训练，根据训练的结果得到这个组合参数对应的损失值。

可选的，根据所述第一数据集和所述第二数据集的权重之比确定至少一个组合参数，包括：

获取历史调参；

根据所述历史调参训练第二模型，得到概率分布模型；

将所述第一数据集和所述第二数据集的权重之比，与目标损失值输入所述概率分布模型，得到至少一个组合参数。

其中，历史调参为历史存储的组合参数和组合参数对应的损失值。概率分布模型为概率分布函数或密度函数的集合，可以为高斯过程（Gaussian Process，GP）、随机森林（Sequential Model-Based Optimization for General Algorithm Configuration，SMAC）等，初始的概率分布模型是基于历史调参确定的。目标损失值为历史调参中最优的组合参数确定的最优的损失值，即最小损失值。

具体的，根据所述历史调参训练第二模型，得到概率分布模型的方式可以为：获取历史调参，建立第二模型，根据历史调参训练第二模型，得到概率分布模型。需要注意的是，如果是初次执行概率分布模型的建立，则根据第一训练时间和所述第二训练时间确定的第一数据集和第二数据集的权重之比对第一模型进行概率计算，然后建立概率分布模型；若不是初次执行，则根据前一次模型训练的概率计算结果，以及前一次的迭代中确定的损失值的分布情况来更新概率分布模型。例如可以是建立随机森林SMAC分布模型，引入权重之比后，基于EI算法进行改进，获取方式可写作：

其中，

为组合参数，

为参数空间，

为第一数据集，

为目标损失值，

为损失值，

为第一数据集和第二数据集的权重之比，

为累计概率分布。

其中，所述第一数据集和所述第二数据集的权重之比的获取方式可以为：若为首次训练，则基于所述第一数据集对所述第一模型进行训练，得到第一训练时间；基于所述第二数据集对所述第一模型进行训练，得到第二训练时间；根据所述第一训练时间和所述第二训练时间确定第一数据集和第二数据集的权重之比。若非首次训练，则根据至少一个组合参数确定的至少一个模型、每个模型对应的样本集标识以及基于训练样本集对模型进行训练后得到的训练时间，确定第一数据集对应的平均训练时间和第二数据集对应的平均训练时间，并根据第一数据集对应的平均训练时间和第二数据集对应的平均训练时间确定第一数据集和第二数据集的权重之比。例如可以是，若根据至少一个组合参数确定模型A、模型A对应的样本集标识为第一数据集的标识，模型B、模型B对应的样本集标识为第一数据集的标识，模型C、模型C对应的样本集标识为第二数据集的标识，模型D、模型D对应的样本集标识为第二数据集的标识。获取基于第一数据集对模型A进行训练的训练时间、基于第一数据集对模型B进行训练的训练时间、基于第二数据集对模型C进行训练的训练时间、基于第二数据集对模型D进行训练的训练时间，将基于第一数据集对模型A进行训练的训练时间和基于第一数据集对模型B进行训练的训练时间的平均值确定为第一数据集对应的平均训练时间；将基于第二数据集对模型C进行训练的训练时间和基于第二数据集对模型D进行训练的训练时间的平均值确定为第二数据集对应的平均训练时间。根据第一数据集对应的平均训练时间和第二数据集对应的平均训练时间确定第一数据集和第二数据集的权重之比。

具体的，将所述第一数据集和所述第二数据集的权重之比，与目标损失值输入所述概率分布模型，得到至少一个组合参数的方式可以为：根据历史调参确定概率分布模型，若为首次训练，则根据第一训练时间和所述第二训练时间确定第一数据集和第二数据集的权重之比，根据历史调参确定目标损失值，将第一数据集和第二数据集的权重之比与目标损失值输入概率分布模型，得到至少一个组合参数；若非首次训练，则根据至少一个组合参数确定的至少一个模型、每个模型对应的样本集标识以及基于训练样本集对模型进行训练后得到的训练时间，确定第一数据集对应的平均训练时间和第二数据集对应的平均训练时间，并根据第一数据集对应的平均训练时间和第二数据集对应的平均训练时间确定第一数据集和第二数据集的权重之比，根据历史调参确定目标损失值，将第一数据集和第二数据集的权重之比与目标损失值输入概率分布模型，得到至少一个组合参数。

可选的，在根据所述每个模型对应的样本集标识对所述至少一个模型进行训练，得到每个组合参数对应的损失值之后，还包括：

根据所述每个组合参数和每个组合参数对应的损失值更新所述概率分布模型。

具体的，根据所述每个组合参数和每个组合参数对应的损失值更新所述概率分布模型的方式可以为：根据更新后的每个组合参数确定至少一个模型和每个模型对应的样本集标识，根据每个模型对应的样本集标识对所述至少一个模型进行训练，得到每个组合参数对应的损失值，根据每个组合参数和每个组合参数对应的损失值对概率分布模型进行训练，得到更新后概率分布模型。

具体的，为了方便理解，以车内实际场景进行解释，根据车辆历史数据集和筛选后的数据集的权重之比确定至少一个组合参数，根据所述至少一个组合参数确定至少一个模型和每个模型对应的车辆历史数据样本集标识；根据所述每个模型对应的车辆历史数据样本集标识对所述至少一个模型进行训练，得到每个组合参数对应的损失值；获取车辆历史数据集的历史调参，根据历史调参训练第二模型，得到概率分布模型，将车辆历史数据集和筛选后的数据集的权重之比，与目标损失值输入概率分布模型，得到新的至少一组组合参数，根据更新后的每个组合参数确定至少一个模型和每个模型对应的车辆历史数据样本集标识，根据每个模型对应的车辆历史数据样本集标识对所述至少一个模型进行训练，得到每个组合参数对应的损失值，根据每个组合参数和每个组合参数对应的损失值对概率分布模型进行训练，得到更新后概率分布模型。可选的，在根据所述每个模型对应的样本集标识对所述至少一个模型进行训练，得到每个组合参数对应的损失值之后，还包括：

根据所述每个组合参数和每个组合参数对应的损失值更新历史调参。

获取每个模型的训练时间；

根据每个模型的训练时间的平均值更新所述第一数据集和第二数据集的权重之比。

具体的，获取每个模型的训练时间的方式可以为：基于每个模型对应的样本集标识确定训练样本，基于训练样本对模型进行训练，得到每个模型的训练时间。例如可以是，模型A对应的样本集标识为第一数据集的标识，基于第一数据集对模型A进行训练，得到模型A的训练时间。

具体的，根据每个模型的训练时间的平均值更新所述第一数据集和第二数据集的权重之比的方式可以为：根据每个模型的训练时间和每个模型对应的样本集标识确定第一数据集对应的平均训练时间和第二数据集对应的平均训练时间，根据第一数据集对应的平均训练时间和第二数据集对应的平均训练时间确定所述第一数据集和第二数据集的权重之比。

具体的，为了方便理解，以车内实际场景进行解释，基于每个模型对应的车辆历史数据样本集标识确定训练样本，基于训练样本对模型进行训练，得到每个模型的训练时间，根据每个模型的训练时间和每个模型对应的车辆历史数据样本集标识确定车辆历史数据集对应的平均训练时间和筛选后的数据集对应的平均训练时间，根据车辆历史数据集对应的平均训练时间和筛选后的数据集对应的平均训练时间确定所述车辆历史数据集和筛选后的数据集的权重之比。

S140，根据至少一个组合参数对应的损失值从至少一个组合参数中选取目标组合参数，并基于目标组合参数生成目标模型，其中，目标模型基于车辆当前数据确定预测信息。

其中，目标组合参数为最优的损失值对应的组合参数，目标模型为根据最优组合参数生成的模型。车辆当前数据可以为车内当前环境数据、车辆当前加油数据、车辆当前充电数据以及车辆当前行驶数据中的至少一种，预测信息可以为目标模型基于车辆当前数据确定的预测的空调温度、加油时间、充电时间以及驾驶状态中的至少一种。

具体的，根据所述至少一个组合参数对应的损失值从所述至少一个组合参数中选取目标组合参数，并基于所述目标组合参数生成目标模型的方式可以为：若是初次执行此操作，根据初始权重之比确定至少一个组合参数，根据至少一个组合参数确定每个组合参数对应的损失值，根据确定的每个组合参数对应的损失值进行比较，选择最优的损失值，将最优的损失值对应的组合参数确定为选取的目标组合参数，根据确定的目标组合参数确定模型中的必要参数，从而生成目标模型。若非初次执行此操作，则根据每个模型的训练时间和每个模型对应的样本集标识确定第一数据集和第二数据集的权重之比，根据第一数据集和第二数据集的权重之比和目标损失值确定至少一个组合参数，根据至少一个组合参数确定每个组合参数对应的损失值，根据确定的每个组合参数对应的损失值进行比较，选择最优的损失值，将最优的损失值对应的组合参数确定为选取的目标组合参数，根据确定的目标组合参数确定模型中的必要参数，从而生成目标模型。

具体的，为了方便理解，以车内实际场景进行解释，车辆历史数据集可为车内历史环境数据集，例如可以是，车内历史环境数据集包括：车内温度，车外温度，天气，车内人数，车内湿度，车外湿度，吹风模式，时间点，开窗数量，车内是否有儿童以及车内是否有老人等n个特征构成的多个数据组成的数据集。

车辆历史数据集可为车辆历史行驶数据集，例如可以是，车辆历史行驶数据集包括：出发地，目的地，途经地，当前行程驾驶时长，是否频繁转动方向盘，油门踏板深度，刹车踏板深度，方向盘转动角度，当前车速，是否猛踩刹车，是否长期低速行驶，是否夜间行驶，天气等n个特征构成的多个数据组成的数据集。获取车辆历史数据集中每个数据包括的特征的权重，根据每个数据包括的特征的权重对车辆历史数据集中的数据包括的特征进行筛选，得到筛选后的数据集；根据车辆历史数据集和所述筛选后的数据集的权重之比确定至少一个组合参数；根据所述至少一个组合参数对应的损失值从所述至少一个组合参数中选取目标组合参数，并基于所述目标组合参数生成目标模型，获取车内当前环境数据、车辆当前加油数据、车辆当前充电数据以及车辆当前行驶数据中的至少一种车辆当前数据，将车辆当前数据输入到预先训练的目标模型中，得到空调温度、加油时间、充电时间以及驾驶状态中的至少一种预测信息。

本实施例的技术方案，通过获取第一数据集中每个数据包括的特征的权重，其中，所述第一数据集为车辆历史数据集；根据所述每个数据包括的特征的权重对所述第一数据集中的数据包括的特征进行筛选，得到第二数据集；根据所述第一数据集和所述第二数据集的权重之比确定至少一个组合参数；根据所述至少一个组合参数对应的损失值从所述至少一个组合参数中选取目标组合参数，并基于所述目标组合参数生成目标模型，其中，所述目标模型基于车辆当前数据确定预测信息，解决了AutoML在实际应用中将两种特征选择决策看作参数，应用贝叶斯优化算法时不考虑两种决策的平均执行时长，计算出不公平的概率，导致只有一种效果并不够好的决策频繁出现的问题，能够引入权重弥补概率分配不公平的缺陷，可以自动化训练更加准确的AI系统，在有限时间内以更低的成本探索更广的参数空间，提高获得更优解的概率，得到更加准确的预测信息。

实施例二

图2是本发明实施例二中的一种信息预测方法的流程图，本实施例可适用于预测车辆信息的情况，该方法可以由本发明实施例中的信息预测装置来执行，该装置可采用软件和/或硬件的方式实现，如图2所示，该方法具体包括如下步骤：

S210，获取车辆当前数据；

其中，车辆当前数据可包括：车内当前环境数据、车辆当前加油数据、车辆当前充电数据以及车辆当前行驶数据中的至少一种。

车辆当前数据可为车内当前环境数据，例如可以是，车内当前环境数据包括：车内温度，车外温度，天气，车内人数，车内湿度，车外湿度，吹风模式，时间点，开窗数量，车内是否有儿童，车内是否有老人等n个特征构成的多个数据。

车辆当前数据可为车辆当前加油数据，例如可以是，车辆当前加油数据包括：天气，是否工作日，性别，年龄，出发地，目的地，途径地是否有加油站，上一次加油时间，上一次出行时间，本月内加油次数，职业类型，当前行程时间属于早上还是晚上等n个特征构成的多个数据。

车辆当前数据可为车辆当前充电数据，例如可以是，车辆当前充电数据包括：天气，是否工作日，出发地，目的地，途径地是否有充电站，家中是否有充电桩，家附近是否有充电桩，工作地附近是否有充电桩，职业类型，性别，年龄，上一次充电时间，上一次用车总时长，本月内充电次数，当前出行时间属于早上还是晚上等n个特征构成的多个数据。

车辆当前数据可为车辆当前行驶数据，例如可以是，车辆当前行驶数据包括：出发地，目的地，途经地，当前行程驾驶时长，是否频繁转动方向盘，油门踏板深度，刹车踏板深度，方向盘转动角度，当前车速，是否猛踩刹车，是否长期低速行驶，是否夜间行驶，天气等n个特征构成的多个数据。

S220，将车辆当前数据输入至预先训练的目标模型中，得到预测信息，其中，目标模型基于本发明任一实施例提供的模型训练方法得到，车辆当前数据包括：车内当前环境数据、车辆当前加油数据、车辆当前充电数据以及车辆当前行驶数据中的至少一种，预测信息包括：空调温度、加油时间、充电时间以及驾驶状态中的至少一种。

具体的，将车辆当前数据输入至预先训练的目标模型中，得到预测信息的方式可以为：根据本发明任一实施例提供的方法训练目标模型，将获取的车辆当前数据输入到训练的目标模型，得到预测信息。

具体的，为了方便理解，以车内实际场景进行解释，例如可以是，车辆当前数据为车内当前环境数据，预先训练的目标模型可以为一个最小叶子树为2，基尼系数为0.01，最大深度为5的决策树分类模型，将车内当前环境数据输入到决策树分类模型中，预测车内理想温度，进而对车内空调温度进行相应调节满足用户需求。

例如还可以是，车辆当前数据为车辆当前加油数据，预先训练的目标模型可以为一个岭回归正则项系数Lambda为0的线性回归模型，将车辆当前加油数据输入到线性回归模型中，更加准确地预测下一次车辆加油时间，并给出相应提示。

例如还可以是，车辆当前数据为车辆当前充电数据，预先训练的目标模型可以为一个最小叶子数为3，基尼系数为0.01，最大深度为5的决策树回归模型，将车辆当前充电数据输入到决策树回归模型中，更加准确地预测下一次车辆充电时间，并给出相应提示。

例如还可以是，车辆当前数据为车辆当前行驶数据，预先训练的目标模型可以为一个L2正则项系数为0.001，正负例差异幅度为1，截断项为0的线性SVM（Support VectorMachine，支持向量机）模型，将车辆当前行驶数据输入到线性SVM模型中，更加准确地预测当前车主是否处于疲劳驾驶状态，从而进行安全提醒，降低事故发生的概率。本实施例通过获取车辆当前数据和目标模型，将车辆当前数据输入到目标模型中获取预测信息，能够令车内空调温度自适应调整，证明了本发明任一实施例的方法的可行性，可以使用模型训练方法生成的目标模型在有限时间内找到最好的解，利用更精确的模型来预测温度。

需要注意的，实施例二只是为了对本发明进行解释举的例子，在实际应用中不做限制。

实施例三

图3为本发明实施例三提供的一种模型训练装置的结构示意图。本实施例可适用于AutoML在实际应用中应用贝叶斯优化算法的情况，该装置可采用软件和/或硬件的方式实现，该装置可集成在任何提供模型训练的功能的设备中，如图3所示，所述模型训练的装置具体包括：特征权重获取模块310、第二数据集得到模块320、组合参数确定模块330和目标模型生成模块340。

其中，特征权重获取模块310，用于获取第一数据集中每个数据包括的特征的权重，其中，所述第一数据集为车辆历史数据集；

第二数据集得到模块320，用于根据所述每个数据包括的特征的权重对所述第一数据集中的数据包括的特征进行筛选，得到第二数据集；

组合参数确定模块330，用于根据所述第一数据集和所述第二数据集的权重之比确定至少一个组合参数；

目标模型生成模块340，用于根据所述至少一个组合参数对应的损失值从所述至少一个组合参数中选取目标组合参数，并基于所述目标组合参数生成目标模型，其中，所述目标模型基于车辆当前数据确定预测信息。

可选的，还包括：

第一训练时间确定模块，用于基于所述第一数据集对第一模型进行训练，得到第一训练时间；

第二训练时间确定模块，用于基于所述第二数据集对所述第一模型进行训练，得到第二训练时间；

权重之比确定模块，用于根据所述第一训练时间和所述第二训练时间确定第一数据集和第二数据集的权重之比。

可选的，还包括：

模型和样本集标识确定模块，用于根据所述至少一个组合参数确定至少一个模型和每个模型对应的样本集标识；

组合参数对应的损失值确定模块，用于根据所述每个模型对应的样本集标识对所述至少一个模型进行训练，得到每个组合参数对应的损失值。

可选的，所述组合参数确定模块具体用于：

获取历史调参；

根据所述历史调参训练第二模型，得到概率分布模型；

可选的，所述组合参数确定模块还用于：

可选的，所述组合参数确定模块具体用于：

获取每个模型的训练时间；

可选的，所述车辆历史数据集包括：车内历史环境数据集、车辆历史加油数据集、车辆历史充电数据集以及车辆历史行驶数据集中的至少一种，所述预测信息包括：空调温度、加油时间、充电时间以及驾驶状态中的至少一种。

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4为本发明实施例四提供的一种信息预测装置的结构示意图。本实施例可适用于预测车辆信息的情况，该装置可采用软件和/或硬件的方式实现，该装置可集成在任何提供信息预测的功能的设备中，如图4所示，所述模型训练的装置具体包括：车辆当前数据获取模块410和预测信息得到模块420。

其中，车辆当前数据获取模块410，用于获取车辆当前数据；

预测信息得到模块420，用于将所述车辆当前数据输入至预先训练的目标模型中，得到预测信息，其中，所述目标模型基于如权利要求1-7任一所述模型训练方法训练得到，所述车辆当前数据包括：车内当前环境数据、车辆当前加油数据、车辆当前充电数据以及车辆当前行驶数据中的至少一种，所述预测信息包括：空调温度、加油时间、充电时间以及驾驶状态中的至少一种。

实施例五

图5是本发明实施例五中的一种电子设备的结构示意图。电子设备10旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备（如头盔、眼镜、手表等）和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图5所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器（ROM）12、随机访问存储器（RAM）13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器（ROM）12中的计算机程序或者从存储单元18加载到随机访问存储器（RAM）13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出（I/O）接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如模型训练方法：

处理器11还可以用于执行上文所描述的各个方法和处理，例如信息预测方法：

获取车辆当前数据；

在一些实施例中，模型训练方法和信息预测方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的模型训练方法和信息预测方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行模型训练方法：

处理器11还可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行信息预测方法：

获取车辆当前数据；

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种模型训练方法，其特征在于，包括：

根据所述至少一个组合参数对应的损失值从所述至少一个组合参数中选取目标组合参数，并基于所述目标组合参数生成目标模型，其中，所述目标模型基于车辆当前数据确定预测信息；

其中，在根据所述第一数据集和所述第二数据集的权重之比确定至少一个组合参数之前，还包括：

根据所述第一训练时间和所述第二训练时间确定第一数据集和第二数据集的权重之比；

其中，根据所述第一数据集和所述第二数据集的权重之比确定至少一个组合参数，包括：

获取历史调参；

根据所述历史调参训练第二模型，得到概率分布模型；

2.根据权利要求1所述的方法，其特征在于，在根据所述至少一个组合参数对应的损失值从所述至少一个组合参数中选取目标组合参数之前，还包括：

3.根据权利要求2所述的方法，其特征在于，在根据所述每个模型对应的样本集标识对所述至少一个模型进行训练，得到每个组合参数对应的损失值之后，还包括：

4.根据权利要求3所述的方法，其特征在于，根据所述第一数据集和所述第二数据集的权重之比确定至少一个组合参数，包括：

获取每个模型的训练时间；

5.根据权利要求1所述的方法，其特征在于，所述车辆历史数据集包括：车内历史环境数据集、车辆历史加油数据集、车辆历史充电数据集以及车辆历史行驶数据集中的至少一种，所述预测信息包括：空调温度、加油时间、充电时间以及驾驶状态中的至少一种。

6.一种信息预测方法，其特征在于，包括：

获取车辆当前数据；

将所述车辆当前数据输入至预先训练的目标模型中，得到预测信息，其中，所述目标模型基于如权利要求1-5任一所述模型训练方法训练得到，所述车辆当前数据包括：车内当前环境数据、车辆当前加油数据、车辆当前充电数据以及车辆当前行驶数据中的至少一种，所述预测信息包括：空调温度、加油时间、充电时间以及驾驶状态中的至少一种。

7.一种模型训练装置，其特征在于，包括：

目标模型生成模块，用于根据所述至少一个组合参数对应的损失值从所述至少一个组合参数中选取目标组合参数，并基于所述目标组合参数生成目标模型，其中，所述目标模型基于车辆当前数据确定预测信息；

其中，还包括：

权重之比确定模块，用于根据所述第一训练时间和所述第二训练时间确定第一数据集和第二数据集的权重之比；

其中，所述组合参数确定模块具体用于：

获取历史调参；

根据所述历史调参训练第二模型，得到概率分布模型；

8.一种信息预测装置，其特征在于，包括：

车辆当前数据获取模块，用于获取车辆当前数据；

预测信息得到模块，用于将所述车辆当前数据输入至预先训练的目标模型中，得到预测信息，其中，所述目标模型基于如权利要求1-5任一所述模型训练方法训练得到，所述车辆当前数据包括：车内当前环境数据、车辆当前加油数据、车辆当前充电数据以及车辆当前行驶数据中的至少一种，所述预测信息包括：空调温度、加油时间、充电时间以及驾驶状态中的至少一种。

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的方法。