CN117196121A

CN117196121A - 一种基于预测系统的数据分析方法和系统

Info

Publication number: CN117196121A
Application number: CN202311399098.8A
Authority: CN
Inventors: 王征宇; 王睿; 梁天爵; 乐进
Original assignee: Guangdong Information Network Co ltd
Current assignee: Guangdong Information Network Co ltd
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2023-12-08
Anticipated expiration: 2043-10-26
Also published as: CN117196121B

Abstract

本发明公开了一种基于预测系统的数据分析方法和系统，通过根据用户数据进行聚类分析生成若干个聚类簇并针对每个聚类簇建立第三数据的时序预测系统，计算预测数据漂移程度并修正聚类簇对应的时序预测系统，从而可更精确地预测区域范围内的物料需求以及波动，从而更精确地调整计划库存量。本发明作为一种基于预测系统的数据分析方法和系统可广泛应用于大数据处理领域。

Description

一种基于预测系统的数据分析方法和系统

技术领域

本发明涉及大数据处理领域，具体涉及基于预测系统的数据分析方法和系统。

背景技术

以往汽车相关服务厂商在做库存准备时，通常根据历史库存情况制定计划，以避免库存量与需求量偏差较大。然而，在计算预测库存使用情况时，往往只能根据历史用量和历史价格走势进行估算，因此只能从宏观价格上进行推测计算。由于全球市场将近70％的天然橡胶均用于制造轮胎，因此两者具有强相关性，例如利用天然橡胶期货主力合约价格进行推算，从而得到轮胎的计划库存量。

然而，期货价格具有周期性但并不具有地域性，具体到某些具体厂商，例如某个地域的4S店的轮胎需求量，则无法仅仅根据期货价格来预测和制定库存计划。

发明内容

由于现有方法存在上述问题，本发明提出一种基于预测系统的数据分析方法，包括以下步骤：

A、获取当前数据库中用户数据，所述用户数据包括用于表征用户属性的第一数据、用于表征非用户属性的第二数据以及用于表征物料磨损的第三数据；

B、根据用户数据进行聚类分析，生成若干个聚类簇；

C、针对每个聚类簇建立第三数据的时序预测系统；

D、获取最新时间的用户数据；

E、根据最新时间的第三数据计算每个聚类簇对应的时序预测系统的预测数据漂移程度；

F、确定预测数据漂移程度大于设定阈值时，修正聚类簇对应的时序预测系统；

G、基于聚类簇对应的修正后的时序预测系统计算预设时间的第三数据；

H、基于第三数据预测物料价格并调整预设时间的计划库存量。

进一步，所述预测数据漂移程度

其中M为时序预测系统中测试集的用户集合，r_u为用户u实际的第三数据，p_u为用户u在训练集上的预测结果。

进一步，所述预测数据漂移程度

其中M为时序预测系统中测试集的用户集合，r_u为用户u实际的第三数据，p_u为用户u在训练集上的预测结果,w_u为基于用户属性的权重函数。

进一步，基于用户属性的权重函数

其中t_u为用户u的上一次用户数据中第一数据更新时间，t₀为目标用户最新采样时间，T为当前数据库中用户数据时间跨度。

进一步，所述步骤F中所述的修正聚类簇对应的时序预测系统，

具体为：

向对应聚类簇的用户发送数据更新请求；

基于用户返回的数据重新执行步骤C和E。

进一步，所述步骤C具体为：

获取任一聚类簇中的训练数据集，所述训练数据集特征向量只有一维，所述特征向量的特征变量为时间；

为所述特征变量选择切分点S_i，所述切分点S_i为所述训练数据集中两个相邻数据特征变量的平均值，计算所述切分点S_i两侧区间的平方误差和，并将使所述平方误差和最小的切分点作为第一最优切分点，所述使平方误差和最小的计算公式为：

其中：N₁为最小特征变量值至切分点之间的所述训练数据数量，N₂为切分点至最大特征变量值之间的所述训练数据数量，所述所述切分点两侧区间指所述切分点与所述最小特征变量值和最大特征变量值之间的数据。

基于所述第一最优切分点，在所述最小特征变量值与所述第一最优切分点之间继续调用所述使平方误差和最小的计算公式，得到在最小特征变量值与所述第一最优切分点之间的第二最优切分点；在所述最大特征变量值与所述第一最优切分点之间继续调用所述使平方误差和最小的计算公式，得到在最大特征变量值与所述第一最优切分点之间的第三最优切分点；

依次不断迭代所述使平方误差和最小的计算公式，计算得到第N切分点之间区间的第N最优切分点，直到相邻切分点之间的数据数量为3个；

依据所述最优切分点计算各自的值，得到回归树，并依据所述特征变量在所述回归树中的取值作为时序预测系统的输出值，所述回归树为：

其中，S_N1为所述N个最优切分点由小到大排列中最小的最优切分点，S_Nn为所述N个最优切分点由小到大排列中最大的最优切分点。

本发明还提出一种基于预测系统的数据分析系统，包括：

数据库，存储有用户数据，所述用户数据包括用于表征用户属性的第一数据、用于表征非用户属性的第二数据以及用于表征物料磨损的第三数据；

数据分析模块，用于：

根据用户数据进行聚类分析，生成若干个聚类簇；

针对每个聚类簇建立第三数据的时序预测系统；

获取最新时间的用户数据；

根据最新时间的第三数据计算每个聚类簇对应的时序预测系统的预测数据漂移程度；

确定预测数据漂移程度大于设定阈值时，修正聚类簇对应的时序预测系统；

基于聚类簇对应的修正后的时序预测系统计算预设时间的第三数据；

基于第三数据预测物料价格并调整预设时间的计划库存量。

本发明还提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于预测系统的数据分析方法。

本发明还提出一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述基于预测系统的数据分析方法。

由上述技术方案可知，本发明实施例通过根据用户数据进行聚类分析生成若干个聚类簇并针对每个聚类簇建立第三数据的时序预测系统，计算预测数据漂移程度并修正聚类簇对应的时序预测系统，从而可更精确地预测区域范围内的物料需求以及波动，从而更精确地调整计划库存量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明第一具体实施例的数据分析方法的步骤流程图；

图2为本发明第二具体实施例的数据分析系统的架构示意图；

图3为本发明第三具体实施例的电子设备示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

首先，现有技术中的在计算预测库存使用情况时，往往只能根据历史用量和历史价格走势进行估算，因此只能从宏观价格上进行推测计算。由于全球市场将近70％的天然橡胶均用于制造轮胎，因此两者具有强相关性，例如利用天然橡胶期货价格进行推算，从而得到轮胎的计划库存量。

然而，期货价格具有周期性但并不具有地域性，具体到某些具体厂商，例如某个地域的4S店的轮胎需求量，则无法仅仅根据期货价格来预测和制定库存计划。例如某地域气候造成的变化普遍对轮胎磨损情况产生影响；例如某山区或者城区短途路况的差异、某区域用户习惯对轮胎需求量都造成较大的影响。

随着大数据的发展，服务厂商例如某个地域的4S店可利用全国联网的数据系统进行分析，从而更精确地掌握轮胎需求量，从而制定更合理的库存计划以减少仓储成本。

基于上述问题，参照图1，本实施例提出一种基于预测系统的数据分析方法，包括以下步骤：

其中用于表征用户属性的第一数据可以是与天气变化、地域、用户习惯等相关的数据，例如用户所在地域的天气数据、用户用车驾驶习惯、用户用车频率和用户用车路径(或者用户用车地域)等，可以反映用户出行规律(短途/长途、出行时间、活动地域等)；用于表征非用户属性的第二数据可以是车辆年限、行驶里程、油耗、其他配件损耗，例如刹车等等；用于表征物料磨损的第三数据通常为当前用户车辆的轮胎磨损数据。相对于现有方案，本实施例中考虑了用户习惯等数据对第三数据的影响，计算结果更精确。

B、根据用户数据进行聚类分析，生成若干个聚类簇；

即利用上述用户数据对其进行聚类，将用户习惯、车辆年限、行驶里程等数据相似度较高的用户划分成多个类别，具体的计算方法可采用常规的Pearson相关相似度作为相似度计算公式，此处不赘述。

C、针对每个聚类簇建立第三数据的时序预测系统；

针对每个单独的聚类簇划分训练数据集和测试数据集，完成第三数据的时序预测系统的训练。

D、获取最新时间的用户数据；

由于4S店获取用户数据通常是被动获取，因此每个用户的用户数据中，前后数据的时间间隔通常较大，少则一个月，多则半年以上若用户习惯产生较大变化，则可能导致原有的时序预测系统预测不准确。因此需要计算预测数据漂移程度并进行判断，必要时根据最新的数据修正聚类簇对应的时序预测系统。

G、基于聚类簇对应的修正后的时序预测系统计算预设时间的第三数据；所述预设时间可以是下一个补充库存的时间。

H、基于第三数据预测物料价格并调整预设时间的计划库存量；

由于时序预测系统可以预测区域小范围内的物料需求，因此相比较于宏观的期货价格，该预测数据可更精确地预测区域范围内的物料需求以及波动，从而更精确地调整计划库存量。

具体计算方式可根据情况设置，通常情况下采用的计划库存量计算模型中，计划库存量S_predict与基于第三数据预测物料价格P_predict、当前物料价格P_precent、当前库存量S_precent存在一定的函数关系：S_predict＝f(P_predict,S_precent,P_precent)，例如：

首先假设每个库存周期采购限额一定，则S_predict×P_predict＝S_precent×P_precent，即同时考虑到用户对与不同价格的需求意愿，因此计划库存量S_predict还需要乘以一个系数/>该系数与前后价格(基于第三数据预测物料价格P_predict、当前物料价格P_precent)相关，其中比例系数k为常数。

进一步作为优选的实施方式，所述预测数据漂移程度

其中M为时序预测系统中测试集的用户集合，r_u为用户u实际的第三数据，p_u为用户u在训练集上的预测结果，利用预测结果与实际第三数据之差的平方和计算平均漂移程度。

进一步作为优选的实施方式，所述预测数据漂移程度

其中M为时序预测系统中测试集的用户集合，r_u为用户u实际的第三数据，p_u为用户u在训练集上的预测结果，利用预测结果与实际第三数据之差的绝对值之和计算平均漂移程度。

进一步作为优选的实施方式，所述预测数据漂移程度

上述多个计算预测数据漂移程度的公式中，P_ds由于采用平方和计算，因此相比与P_da，P_ds对数据中的离群值相对敏感，而P_da对数据中的离群值更稳定；同时，数据更新的时间在本申请方案中是一种非常重要的上下文信息，对用户属性对预测结果的权重有较大的影响，其原理为时间越近的用户属性数据变化(尤其是用户习惯的改变)越能体现最新的预测数据漂移的原因，因此结合基于用户属性的权重函数w_u对预测数据漂移程度进行修正，即采用上式计算P_re。

由于采用本申请方案的可能是某个地域的4S店，相对与其他全国范围数据的数据库而言，某个地域的4S店对应可利用的数据库中的数据量较少，而整个计算过程中需要进一步将用户数据进行聚类分析生成若干个聚类簇，步骤C中针对每个聚类簇建立第三数据的时序预测系统，因此可能存在的问题是由于某些聚类簇的数据较少，因此该聚类簇中按照上述方案计算P_ds或者P_da的数据漂移程度难以反映实际情况。因此上述步骤中基于上式计算P_re可知：(1)用户属性的权重w_u越大则对离群值越敏感，(2)上式也可以等效表达为/> 因此可知上述分母/>的部分相对于分母M的部分同样增加了对离群值的敏感度，从而避免了对于小型数据集(某个地域的4S店对应可利用的数据库)进一步聚类细分之后由于聚类簇的数据较少带来的问题。

进一步作为优选的实施方式，基于用户属性的权重函数

其中t_u为用户u的上一次用户数据中第一数据的更新时间，t₀为目标用户最新采样时间，T为当前数据库中用户数据时间跨度。t_u与t₀越接近，则用户属性的权重值越大。

进一步作为优选的实施方式，所述步骤F中所述的修正聚类簇对应的时序预测系统，具体为：

F1、向对应聚类簇的用户发送数据更新请求；

通常只发送第一数据的数据请求，具体可采用自动生成问卷请求的方式请求数据；虽然第二数据也可通过问卷方式请求，但是由于车辆年限、行驶里程、油耗等数据目前都可利用智能车联网自动获取(经过用户授权)，其他配件损耗，例如刹车损耗等数据无法通过联网方式获取且不建议由用户自行检测。

F2、基于用户返回的数据重新执行步骤C和E。

进一步作为优选的实施方式，所述步骤F1中所述的向对应聚类簇的用户发送数据更新请求，具体为：

向对应聚类簇的用户发送数据更新请求，所述数据更新请求的内容为第一数据，所述第一数据包括用户所在地域的天气数据、用户用车驾驶习惯、用户用车频率和用户用车路径(或者用户用车地域)等。

本实施例中考虑了用户习惯等数据对第三数据的影响，并且更进一步考虑到用户习惯的随着时间变化可能造成习惯变化带来的预测数据漂移，需要修正聚类簇对应的时序预测系统的时候，将习惯变化带来的影响考虑在内，因此有时会需要向用户请求相应的数据，这部分数据是无法通过车联网系统自动获取的。

进一步作为优选的实施方式，所述步骤C具体为：

通过上述处理步骤，可以根据时间这一特征变量来决定预测系统的输出值，通过将预测数据依据聚类簇的上下限范围，可以将输出值-时域的一维空间中切分为若干个单元，每个切分单元有一个特定的输出值，所述切分单元的边界平行于坐标轴。

通过遍历计算区间内所有切分点，并计算各切分点到其所在区间两侧的平方误差和，比较结果并将平方误差和最小的切分点作为其切分点，如此可以得到误差最小的切分点。

上述步骤E的具体实施步骤中也已经提到，数据更新的时间在本申请方案中是一种非常重要的上下文信息，对用户属性对预测结果的权重有较大的影响，时间越近的用户属性数据变化越能体现最新的预测数据漂移的原因，因此根据时间这一特征变量来决定预测系统的输出值则显得尤为重要，尤其是上述步骤C的具体实施步骤中可以得到误差最小的切分点，从而给后续步骤的计算提供了准确的计算数据基础。

举例说明，当聚类簇的数据集为下表所示时：

时间	1	2	3	4	5	6	7	8	9	10
											磨损量	5.56	5.7	5.91	6.4	6.8	7.05	8.9	8.7	9	0.05

依据个相邻数据特征变量的平均值选择切分点S_i可以得到以下9个切分点{1.5，2.5，3.5，4.5，5.5，6.5，7.5，8.5，9.5}

依据上述切分点，进行第一最优切分点的计算，例如当切分点为S＝1.5时，所述特征变量被划分为两个区域R₁＝{1}，R2＝{2,3,4,5,6,7,8,9,10}，C₁＝5.56,C₂＝(5.7+5.91+6.4+6.8+7.05+8.9+8.7+9+0.05)/9，据此可以计算切分点S＝1.5时的平方误差和＝15.72。

同理可计算得到各个切分点计算其平方误差和分别为：

比较各切分点的平方误差和大小，可以找到第一最优切分点为S＝3.5。

进一步作为优选的实施方式，获取任一聚类簇中的训练数据集，具体包括：

所述训练数据集为任意聚类簇中全部训练数据集的一随机子集，其中所述随机子集的数据数量与全部训练数据集的数据数量的比值大于0.6，所述随机子集的数量为5-10个。

进一步作为优选的实施方式，依据所述特征变量在所述回归树中的取值作为时序预测系统的输出值，具体包括：

依据所述特征变量的数值，计算所有包含该数值范围的随机子集中的所述特征变量对应的输出值，并将所有输出值求平均值后作为所述时序预测系统的输出值。

参照图2，本申请还提供第二具体实施例，与上述第一具体实施例对应的一种基于预测系统的数据分析系统，包括：

数据分析模块，用于：

根据用户数据进行聚类分析，生成若干个聚类簇；

针对每个聚类簇建立第三数据的时序预测系统；

获取最新时间的用户数据；

基于第三数据预测物料价格并调整预设时间的计划库存量。

参照图3，本申请还提供第三具体实施例的一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于预测系统的数据分析方法。

本申请还提供第四具体实施例的一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述基于预测系统的数据分析方法。

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于预测系统的数据分析方法，其特征在于，包括以下步骤：

B、根据用户数据进行聚类分析，生成若干个聚类簇；

C、针对每个聚类簇建立第三数据的时序预测系统；

D、获取最新时间的用户数据；

2.根据权利要求1所述的基于预测系统的数据分析方法，其特征在于，所述预测数据漂移程度

3.根据权利要求2所述的基于预测系统的数据分析方法，其特征在于，基于用户属性的权重函数

4.根据权利要求1所述的基于预测系统的数据分析方法，其特征在于，所述预测数据漂移程度

5.根据权利要求1所述的基于预测系统的数据分析方法，其特征在于，所述预测数据漂移程度

6.根据权利要求3所述的基于预测系统的数据分析方法，其特征在于，所述步骤F中所述的修正聚类簇对应的时序预测系统，

具体为：

向对应聚类簇的用户发送数据更新请求；

基于用户返回的数据重新执行步骤C和E。

7.根据权利要求3或6所述的基于预测系统的数据分析方法，

其特征在于，所述步骤C具体为：

8.一种基于预测系统的数据分析系统，其特征在于，包括：

数据分析模块，用于：

根据用户数据进行聚类分析，生成若干个聚类簇；

针对每个聚类簇建立第三数据的时序预测系统；

获取最新时间的用户数据；

基于第三数据预测物料价格并调整预设时间的计划库存量。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于预测系统的数据分析方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于：该计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于预测系统的数据分析方法。