CN108197986A

CN108197986A - 一种车辆预测方法及系统

Info

Publication number: CN108197986A
Application number: CN201711460318.8A
Authority: CN
Inventors: 黄智勇
Original assignee: BEIJING SINOIOV VEHICLE NETWORK TECHNOLOGY Co Ltd
Current assignee: BEIJING SINOIOV VEHICLE NETWORK TECHNOLOGY Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-06-22
Anticipated expiration: 2037-12-28
Also published as: CN108197986B

Abstract

本发明公开了一种车辆增量的预测方法及系统，属于智能交通大数据领域。所述方法包括：根据第一预设时间段内各车辆的轨迹数据及各车辆的静态数据，生成各车辆的综合数据；在各车辆的综合数据中提取特征信息，对特征信息进行聚合并划分为训练集和测试集；根据训练集训练出预测模型，并采用测试集对预测模型进行测试；使用测试后的预测模型预测未来的车辆增量。本发明中的预测模型具有较高的稳定性和准确性，使得通过预测模型预测的车辆增量具有高准确性，对于车辆生产厂家而言，可以根据本发明中的预测模型预测未来各省、各品牌、各型号的车辆增量，从而及时的调整库存及生产量，以更好的满足市场需求，并最大化自身利益。

Description

一种车辆预测方法及系统

技术领域

本发明涉及智能交通大数据领域，尤其涉及一种车辆预测方法及系统。

背景技术

随着社会经济的快速发展，无论是私家车还是物流运输车都在以指数级的速度飞速增长；各车辆生产厂家也在不断的生产并出售各种品牌、各种功能、各种大小的车辆，但是盲目的生产，往往会出现某个品牌或者某个型号的车辆库存增多，而某个品牌或者某个型号的车辆库存不足的情况；因而，对于车辆的生产厂家而言，有效的预测各车辆的市场需求，从而有效的调整库存，有针对性的进行生产车辆，能够使其更好的适应并满足市场需求，而且能够保障其自身的利益。

发明内容

为解决现有技术的不足，本发明提供一种车辆增量的预测方法及系统。

一方面，本发明提供一种车辆增量的预测方法，包括：

步骤S1：根据第一预设时间段内各车辆的轨迹数据及各车辆的静态数据，生成各车辆的综合数据；

步骤S2：在所述各车辆的综合数据中提取特征信息，对所述特征信息进行聚合并划分为训练集和测试集；

步骤S3：根据所述训练集训练出预测模型，并采用所述测试集对所述预测模型进行测试；

步骤S4：使用测试后的预测模型预测未来的车辆增量。

可选地，所述步骤S1，具体为：对第一预设时间段内各车辆的轨迹数据进行清洗，并对清洗后的轨迹数据进行相应车辆静态数据的补全，得到各车辆的综合数据；所述轨迹数据包括一系列的位置数据及行驶速度；所述静态数据，包括车辆的首次运行时间、注册省、车辆品牌、驱动类型、车辆类型及车架号信息。

可选地，所述步骤S2中，在所述各车辆的综合数据中提取特征信息，具体包括：

将所述第一预设时间段划分为多个第二预设时间段；

根据所述各车辆的综合信息中含有的位置数据和行驶速度，统计在各第二预设时间段内各车辆的运营数据及维修站停靠次数；

依次将各第二预设时间段的截止时间作为第一当前时间，根据所述各车辆的综合信息中含有的最后一个轨迹数据，统计各车辆至各第一当前时间的未行驶天数；

根据所述各车辆的综合信息中含有的车架号信息，确定各车辆在各第一当前时间的车龄；

根据所述各车辆的综合信息中含有的注册省及首次运行时间，结合所述各车辆在各第一当前时间的车龄，统计在各第二预设时间段内各省的车辆增量。

可选地，所述步骤S2中，所述对所述特征信息进行聚合并划分为训练集和测试集，具体包括：

步骤A1：将各车辆的综合数据中含有的注册省、车辆品牌、驱动类型及车辆类型作为车辆的属性信息，对具有相同属性信息的车辆对应的特征信息进行聚合，得到各属性信息的车辆在各第二预设时间段内的综合特征信息；

步骤A2：根据各综合特征信息，依次确定任意相邻两个第二预设时间段中前一个第二预设时间段的综合特征信息与后一个第二预设时间段的综合特征信息中含有的车辆增量之间的对应关系，得到各对应关系；

步骤A3：按照预设比例，将所述各对应关系划分为训练集和测试集。

可选地，所述步骤S3，具体包括：

步骤S3-1：根据岭回归算法对所述训练集进行训练得到预测模型；

步骤S3-2：根据R平方对所述预测模型进行评估并调整模型参数，当得到的第一R平方值满足预设阈值时，输出对应的预测模型；

步骤S3-3：计算输出的预测模型在所述测试集上的第二R平方值，当得到的第二R平方值满足所述预设阈值时，执行步骤S4；否则返回步骤S3-1；

对应地，所述步骤S4，具体为：将当下时间作为第二当前时间，统计以所述第二当前时间为截止日期的第二预设时间段的综合特征信息，根据统计的综合特征信息，使用测试后的预测模型，预测与所述第二当前时间紧邻的未来的第二时间段内的车辆增量。

另一方面，本发明提供一种车辆增量的预测系统，包括：

生成模块，用于根据第一预设时间段内各车辆的轨迹数据及各车辆的静态数据，生成各车辆的综合数据；

提取模块，用于在所述生成模块生成的各车辆的综合数据中提取特征信息；

聚合划分模块，用于对所述提取模块提取的各特征信息进行聚合并划分为训练集和测试集；

训练模块，用于根据所述聚合划分模块得到的训练集训练出预测模型；

测试模块，用于采用所述聚合划分模块得到的测试集对所述训练模块得到的预测模型进行测试；

预测模块，用于使用所述测试模块测试后的预测模型预测未来的车辆增量。

可选地，所述生成模块，具体用于：

对第一预设时间段内各车辆的轨迹数据进行清洗，并对清洗后的轨迹数据进行相应车辆静态数据的补全，得到各车辆的综合数据；所述轨迹数据包括一系列的位置数据及行驶速度，所述静态数据，包括车辆的首次运行时间、注册省、车辆品牌、驱动类型、车辆类型及车架号信息。

可选地，所述提取模块，具体用于：

将所述第一预设时间段划分为多个第二预设时间段；

根据所述生成模块生成的各车辆的综合信息中含有的位置数据和行驶速度，统计在各第二预设时间段内各车辆的运营数据及维修站停靠次数；

依次将所述划分模块划分的各第二预设时间段的截止时间作为第一当前时间，根据所述各车辆的综合信息中含有的最后一个轨迹数据，统计各车辆至第一当前时间的未行驶天数；

根据所述生成模块生成的各车辆的综合信息中含有的车架号信息，确定各车辆在第一当前时间的车龄；

根据所述生成模块生成的各车辆的综合信息中含有的注册省及首次运行时间，结合所述各车辆在各第一当前时间的车龄，统计在各第二预设时间段内各省的车辆增量。

可选地，所述聚合划分模块，具体包括：聚合子模块、确定子模块和划分子模块；

所述聚合子模块，用于将所述生成模块生成的各车辆的综合数据中含有的注册省、车辆品牌、驱动类型及车辆类型作为车辆的属性信息，对具有相同属性信息的车辆对应的特征信息进行聚合，得到各属性信息的车辆在各第二预设时间段内的综合特征信息；

所述确定子模块，用于根据所述聚合子模块得到的各综合特征信息，依次确定任意相邻两个第二预设时间段中前一个第二预设时间段的综合特征信息与后一个第二预设时间段的综合特征信息中含有的车辆增量之间的对应关系，得到各对应关系；

所述划分子模块，具体用于：按照预设比例，将所述确定子模块得到的各对应关系划分为训练集和测试集。

可选地，所述训练模块，具体包括：训练子模块和评估子模块；

所述训练子模块，用于根据岭回归算法对所述聚合划分模块得到的训练集进行训练得到预测模型；

所述评估子模块，用于根据R平方对所述训练子模块得到的预测模型进行评估并调整模型参数，当得到的第一R平方值满足预设阈值时，输出对应的预测模型；

所述测试模块，具体用于：计算所述评估子模块输出的预测模型在所述聚合划分模块得到的测试集上的第二R平方值，当得到的第二R平方值满足所述预设阈值时，触发所述预测模型；

所述训练子模块，还用于当所述测试模块到的第二R平方值不满足所述预设阈值时，根据岭回归算法对所述聚合划分模块得到的训练集进行训练得到预测模型；

所述预测模块，具体用于：将当下时间作为第二当前时间，统计以所述第二当前时间为截止日期的第二预设时间段的综合特征信息，根据统计的综合特征信息，使用测试后的预测模型，预测与所述第二当前时间紧邻的未来的第二时间段内的车辆增量。

本发明的优点在于：

本发明中，基于各车辆的历史轨迹数据，确定各时间跨度的车辆增量及综合特征信息之间的对应关系，并训练出预测模型，从而通过预测模型预测各省、各品牌、各型号车辆在未来的车辆增量，对于车辆生产厂家而言，能够及时的调整库存及生产量，从而更好的满足市场需求；并且在模型训练中，使用岭回归算法，其可以有效避免模型产生过拟合问题，使模型更具稳定性；同时通过对模型进行测试，也有效了保障了预测模型的准确性，进而保障了预测数据的准确性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

附图1为本发明提供的一种车辆增量的预测方法流程图；

附图2为本发明提供的一种车辆增量的预测系统模块组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

根据本发明的实施方式，提供一种车辆增量的预测方法，如图1所示，包括：

步骤101：根据第一预设时间段内各车辆的轨迹数据及各车辆的静态数据，生成各车辆的综合数据；

优选地，本发明中，各车辆安装有车载设备，车载设备每隔预设时间间隔(例如30秒)上报对应车辆的轨迹数据；在各车辆出厂并投入使用时维护各车辆的静态数据。

根据本发明的实施方式，步骤101具体为：对第一预设时间段内各车辆的轨迹数据进行清洗，并对清洗后的轨迹数据进行相应车辆静态数据的补全，得到各车辆的综合数据；其中，轨迹数据包括但不限于一系列的位置数据及行驶速度；静态数据，包括但不限于车辆的首次运行时间、注册省、车辆品牌、驱动类型、车辆类型及车架号信息。

更加具体地，对第一预设时间段内各车辆的轨迹数据进行如下操作，得到各车辆的综合数据：

过滤轨迹数据中的错误数据；

修正轨迹数据中偏移的位置数据；

按照时间维度修正轨迹数据中的补传数据；

确定各车辆的首次运行时间；

补全各车辆的注册省、车辆品牌、驱动类型、车辆类型及车架号信息。

其中，过滤轨迹数据中的错误数据、例如位置信息错误、行驶速度错误；修正轨迹数据中偏移的位置数据，具体为通过傅立叶滤波等方法将偏移的位置数据进行修正；

进一步地，在本实施例中，第一预设时间段可以根据需求自行设定，例如，在本实施例中，以第一预设时间段为2016年1月至2017年6月进行说明。

步骤102：在得到的各车辆的综合数据中提取特征信息，对提取的特征信息进行聚合并划分为训练集和测试集；

其中，在得到的各车辆的综合数据中提取特征信息，具体包括：

将第一预设时间段划分为多个第二预设时间段；

根据各车辆的综合信息中含有的位置数据和行驶速度，统计在各第二预设时间段内各车辆的运营数据及维修站停靠次数；

依次将各第二预设时间段的截止时间作为第一当前时间，根据各车辆的综合信息中含有的最后一个轨迹数据，统计各车辆至第一当前时间的未行驶天数；

根据各车辆的综合信息中含有的车架号信息，确定各车辆在第一当前时间的车龄；

根据各车辆的综合信息中含有的注册省及首次运行时间，结合确定的各车辆在各第一当前时间的车龄，统计在各第二预设时间段内各省的车辆增量。

其中，第二预设时间段的时长可以根据需求自行设定，例如，在本实施例中，第二预设时间段具体为一个月，则将第一预设时间段2016年1月至2017年6月划分为18个月；

其中，根据各车辆的综合信息中含有的位置数据和行驶速度，统计在各第二预设时间段内各车辆的运营数据及维修站停靠次数，具体包括：

根据各车辆的综合信息中含有的位置数据对应的时间，确定在各第二预设时间段内各车辆的行驶天数(例如，某车辆综合数据中含有在2016年1月20日的位置数据，则认为该车辆在2016年1月20日出行过，将该日作为行驶天数中的一天)；

根据各车辆的综合信息中含有的位置数据、行驶速度及对应的时间，确定任意相邻两个位置数据之间的距离，根据确定的距离计算各车辆在每天的行驶里程，统计在各第二预设时间段内各车辆的行驶里程，并且当各车辆在每天的行驶里程大于预设行驶里程时，将对应的一天作为车辆的运营时间，统计在各第二预设时间段内各车辆的运营天数；其中，预设行驶里程，优选为5千米；

将各车辆的综合信息中含有的位置数据与各维修站的位置数据进行匹配，并将匹配成功的位置数据对应的维修站处，停靠时长超过预设时长的作为一次真实停靠，统计得到在各第二预设时间段内各车的维修站停靠次数；其中，预设时长，优选为2小时。

其中，依次将各第二预设时间段的截止时间作为第一当前时间，根据各车辆的综合信息中含有的最后一个轨迹数据，统计各车辆至各第一当前时间的未行驶天数，具体为：依次将各第二预设时间段的截止时间作为第一当前时间，根据各车辆的综合信息中含有的最后一个轨迹数据对应的时间，统计各车辆至各第一当前时间的未行驶天数；例如，第一当前时间为2017年1月31日，某车辆的综合信息中含有的最后一个轨迹数据是在2017年1月20日，则可得该车辆至第一当前时间2017年1月31日的未行驶天数为11天。

其中，根据各车辆的综合信息中含有的车架号信息，确定各车辆在各第一当前时间的车龄，具体为：根据各车辆的综合信息中含有的车架号信息，确定各车辆的生产日期，并统计至各第一当前时间时各车辆的车龄。

其中，根据各车辆的综合信息中含有的注册省及首次运行时间，结合各车辆在各第一当前时间的车龄，统计在各第二预设时间段内各省的车辆增量，具体为：以各车辆的注册省、品牌、驱动形式、车辆类型为标准，统计各省中各品牌各驱动各车型在各第二预设时间段内新增的首次运行时间，并将对应的车辆作为新增车辆，得到各第二预设时间段内各省的车辆增量。

进一步地，在本实施例中，对特征信息进行聚合并划分为训练集和测试集，具体包括：

例如，在本实施例中，得到的一个综合特征信息为：山东省、福田牌、6x2驱动的牵引车，在2016年1月份的平均运行天数为23.5天、平均运营天数为17.5天、平均行驶里程为1653公里、停靠维修站3次以上车辆的数量为46、连续运营3个月的车辆数量为245316、未行驶天数大于30且车龄小于5年的车辆数量为455等；

需要指出地，综合特征信息，可以根据需求自行定义包含哪些具体的特征信息。

例如，上述山东省、福田牌、6x2驱动的牵引车，在2016年1月份的特征信息与其在2016年2月份车辆增量为46辆之间的对应关系。

步骤A3：按照预设比例，将得到的各对应关系划分为训练集和测试集。

优选地，在本实施例中，预设比例为7：3；将得到的各对应关系按照7：3随机划分为训练集和测试集。

步骤103：根据训练集训练出预测模型，并采用测试集对预测模型进行测试；

在本实施例中，步骤103具体包括：

步骤103-1：根据岭回归算法对训练集进行训练得到预测模型；

具体地，利用Python工具，调用scikit-learn机器学习库中的岭回归算法对训练集进行训练得到预测模型。

步骤103-2：根据R平方对得到的预测模型进行评估并调整模型参数，当得到的第一R平方值满足预设阈值时，输出对应的预测模型；

其中，R平方为本领域技术人员熟知的技术手段，本发明中不再详述；在本实施例中，预设阈值优选为0.8。

步骤103-3：计算输出的预测模型在测试集上的第二R平方值，当得到的第二R平方值满足预设阈值时，执行步骤104；否则返回步骤103-1；

在本实施例中，使用岭回归算法训练预测模型，其可以有效避免模型产生过拟合问题，使模型更具稳定性；同时通过对模型进行测试，也有效了保障了预测模型的准确性，进而保障了预测数据的准确性。

步骤104：使用测试后的预测模型预测未来的车辆增量。

具体地，将当下时间作为第二当前时间，统计以第二当前时间为截止日期的第二预设时间段的综合特征信息，根据统计的综合特征信息，使用测试后的预测模型，预测与第二当前时间紧邻的未来的第二时间段内的车辆增量。

例如，在本实施例中，当下时间为2017年8月31日，则按照前述方法统计2017年8月份的综合特征信息，并使用测试后的预测模型，预测2017年9月份某省、某品牌、某驱动、某型号的车辆增量。

进一步地，在本实施例中，步骤104之后，还可以包括：根据实际情况，对模型参数、涉及到的算法、数据的处理方式等进行优化。

更进一步地，在本实施例中，当预测的时间跨度即第二预设时间段为两个月、三个月、150天、200天等，甚至更多时，相应地，在步骤A2中，确定对应关系时采用相应的时间跨度即可，即本发明中的方法不限于预测紧邻的一个预设时间段的车辆增量，还可以预测未来多个预设时间段的车辆增量；应当认为，预测未来多个预设时间段的车辆增量的技术方案在本发明的保护范围内。

实施例二

根据本发明的实施方式，提供一种车辆增量的预测系统，如图2所示，包括：

生成模块201，用于根据第一预设时间段内各车辆的轨迹数据及各车辆的静态数据，生成各车辆的综合数据；

提取模块202，用于在生成模块201生成的各车辆的综合数据中提取特征信息；

聚合划分模块203，用于对提取模块202提取的各特征信息进行聚合并划分为训练集和测试集；

训练模块204，用于根据聚合划分模块203得到的训练集训练出预测模型；

测试模块205，用于采用聚合划分模块203得到的测试集对训练模块204得到的预测模型进行测试；

预测模块206，用于使用测试模块205测试后的预测模型预测未来的车辆增量。

根据本发明的实施方式，生成模块201，具体用于：

更加具体地，生成模块201用于：对第一预设时间段内各车辆的轨迹数据进行如下操作，得到各车辆的综合数据：

过滤轨迹数据中的错误数据；

修正轨迹数据中偏移的位置数据；

按照时间维度修正轨迹数据中的补传数据；

确定各车辆的首次运行时间；

根据本发明的实施方式，提取模块202，具体用于：

用于将第一预设时间段划分为多个第二预设时间段；

根据生成模块201生成的各车辆的综合信息中含有的位置数据和行驶速度，统计在各第二预设时间段内各车辆的运营数据及维修站停靠次数；

依次将划分模块划分的各第二预设时间段的截止时间作为第一当前时间，根据各车辆的综合信息中含有的最后一个轨迹数据，统计各车辆至各第一当前时间的未行驶天数；

根据生成模块201生成的各车辆的综合信息中含有的车架号信息，确定各车辆在各第一当前时间的车龄；

根据生成模块201生成的各车辆的综合信息中含有的注册省及首次运行时间，结合确定的各车辆在各第一当前时间的车龄，统计在各第二预设时间段内各省的车辆增量。

其中，第二预设时间段的时长可以根据需求自行设定，例如，在本实施例中，第二预设时间段具体为一个月，则将第一预设时间段2016年1月至2017年6月划分为18个月。

根据本发明的实施方式，聚合划分模块203，具体包括：聚合子模块、确定子模块和划分子模块，其中：

聚合子模块，用于将生成模块201生成的各车辆的综合数据中含有的注册省、车辆品牌、驱动类型及车辆类型作为车辆的属性信息，对具有相同属性信息的车辆对应的特征信息进行聚合，得到各属性信息的车辆在各第二预设时间段内的综合特征信息；

例如，聚合子模块得到的一个综合特征信息为：山东省、福田牌、6x2驱动的牵引车，在2016年1月份的平均运行天数为23.5天、平均运营天数为17.5天、平均行驶里程为1653公里、停靠维修站3次以上车辆的数量为46、连续运营3个月的车辆数量为245316、未行驶天数大于30且车龄小于5年的车辆数量为455等。

确定子模块，用于根据聚合子模块得到的各综合特征信息，依次确定任意相邻两个第二预设时间段中前一个第二预设时间段的综合特征信息与后一个第二预设时间段的综合特征信息中含有的车辆增量之间的对应关系，得到各对应关系；

划分子模块，具体用于：按照预设比例，将所述确定子模块得到的各对应关系划分为训练集和测试集；其中，预设比例，优选为7：3。

根据本发明的实施方式，训练模块204，具体包括：训练子模块和评估子模块；

训练子模块，用于根据岭回归算法对聚合划分模块203得到的训练集进行训练得到预测模型；

评估子模块，用于根据R平方对训练子模块得到的预测模型进行评估并调整模型参数，当得到的第一R平方值满足预设阈值时，输出对应的预测模型；

测试模块205，具体用于：计算评估子模块输出的预测模型在聚合划分模块203得到的测试集上的第二R平方值，当得到的第二R平方值满足预设阈值时，触发预测模型206；

训练子模块，还用于当测试模块206到的第二R平方值不满足预设阈值时，根据岭回归算法对聚合划分模块203得到的训练集进行训练得到预测模型；

对应地，预测模块206，具体用于：将当下时间作为第二当前时间，统计以第二当前时间为截止日期的第二预设时间段的综合特征信息，根据统计的综合特征信息，使用测试后的预测模型，预测与第二当前时间紧邻的未来的第二时间段内的车辆增量。

其中，预设阈值，优选为0.8。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种车辆增量的预测方法，其特征在于，包括：

步骤S4：使用测试后的预测模型预测未来的车辆增量。

2.根据权利要求1所述的方法，其特征在于，所述步骤S1，具体为：对第一预设时间段内各车辆的轨迹数据进行清洗，并对清洗后的轨迹数据进行相应车辆静态数据的补全，得到各车辆的综合数据；所述轨迹数据包括一系列的位置数据及行驶速度；所述静态数据，包括车辆的首次运行时间、注册省、车辆品牌、驱动类型、车辆类型及车架号信息。

3.根据权利要求2所述的方法，其特征在于，所述步骤S2中，在所述各车辆的综合数据中提取特征信息，具体包括：

将所述第一预设时间段划分为多个第二预设时间段；

4.根据权利要求3所述的方法，其特征在于，所述步骤S2中，所述对所述特征信息进行聚合并划分为训练集和测试集，具体包括：

5.根据权利要求4所述的方法，其特征在于，所述步骤S3，具体包括：

所述步骤S4，具体为：将当下时间作为第二当前时间，统计以所述第二当前时间为截止日期的第二预设时间段的综合特征信息，根据统计的综合特征信息，使用测试后的预测模型，预测与所述第二当前时间紧邻的未来的第二时间段内的车辆增量。

6.一种车辆增量的预测系统，其特征在于，包括：

7.根据权利要求所述的系统，其特征在于，所述生成模块，具体用于：

8.根据权利要求7所述的系统，其特征在于，所述提取模块，具体用于：

用于将所述第一预设时间段划分为多个第二预设时间段；

依次将所述划分模块划分的各第二预设时间段的截止时间作为第一当前时间，根据所述各车辆的综合信息中含有的最后一个轨迹数据，统计各车辆至各第一当前时间的未行驶天数；

根据所述生成模块生成的各车辆的综合信息中含有的车架号信息，确定各车辆在各第一当前时间的车龄；

9.根据权利要求8所述的系统，其特征在于，所述所述聚合划分模块，具体包括：聚合子模块、确定子模块和划分子模块；

10.根据权利要求9所述的系统，其特征在于，所述训练模块，具体包括：训练子模块和评估子模块；