CN117932372A

CN117932372A - 基于dbscan和用户群体特性分析的产品销量预测方法

Info

Publication number: CN117932372A
Application number: CN202311467019.2A
Authority: CN
Inventors: 何建吾; 张撼难; 朱少磊; 刘宏杰
Original assignee: Three Gorges Materials Tendering Management Co ltd; Three Gorges Chengdu E Commerce Co ltd
Current assignee: Three Gorges Materials Tendering Management Co ltd; Three Gorges Chengdu E Commerce Co ltd
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-04-26

Abstract

本发明涉及基于DBSCAN和用户群体特性分析的产品销量预测方法，包括：采集订单样本数据；对订单样本数据进行预处理；采用基于密度的聚类算法对订单样本数据进行聚类分析；划分用户群体，并进行用户群体特性分析；采用差分自回归移动平均模型ARIMA预测用户群体在未来时间段的采购可能性；根据用户群体特性分析结果，计算用户群体的相似度，对具有相似度的用户群体进行产品推荐；对未来时间段的产品销量进行预测。本发明通过ARIMA模型预测用户群体在未来时间段的采购可能性，并计算用户群体的相似度，根据ARIMA模型的计算结果和用户群体相似度，计算得到未来时间段的产品销量的预测值，提高了产品销量预测的科学性和准确性，便于电商平台和产品生产方提前备货。

Description

基于DBSCAN和用户群体特性分析的产品销量预测方法

技术领域

本发明属于计算机信息处理领域，具体涉及一种基于DBSCAN和用户群体特性分析的产品销量预测方法。

背景技术

随着电子商务的蓬勃发展，各大电商平台上的商品数量激增，给产品销量预测带来了巨大挑战。精准预测产品销量，对电商运营具有重要意义，能指导电商平台及时备货，提高资源利用效率，避免库存积压或缺货。但是，现有的产品销量预测方法存在以下问题：

1)现有方法多依赖于产品本身的历史销量数据进行预测，未充分考虑用户行为的数据。不同用户及用户群体对产品的兴趣和购买力存在差异，这会直接影响产品的销量。现有方法缺乏对用户特性的挖掘与建模，导致预测结果偏差较大。

2)现有方法对产品销量进行整体预测，未区分不同用户群体。将所有用户混合在一起进行建模，无法反映不同用户群体的行为特征。这也降低了预测的针对性和准确率。

3)现有方法缺乏考虑用户之间的相互影响。具有相似兴趣或特征的用户群体之间会互相影响，从而影响产品的销量预测。现有的产品销量预测方法未能建模并应用这种用户群体之间的相互影响关系。

4)针对电商海量的复杂订单数据，现有方法直接利用原始数据建模未对原始订单数据预处理，易受异常数据或噪声数据的影响。

针对上述问题，本发明研究一种基于密度的聚类算法(Density-Based SpatialClustering of Applications with Noise,DBSCAN)和用户群体行为特征建模的产品销量预测方法，以解决现有技术中的不足，提高预测的准确性。

发明内容

本发明的技术问题是现有的电商产品的销量预测方法缺乏考虑用户/用户群体之间的相互影响作用，因而无法准确地预测在未来时间段的产品销量。

本发明的目的是针对上述问题，提供一种基于DBSCAN和用户群体特性分析的产品销量预测方法，对订单样本数据进行聚类分析，在聚类分析结果的基础上划分用户群体，并进行用户群体特性分析，进一步计算用户群体的相似度；采用差分自回归移动平均模型(Autoregressive Integrated Moving Average Model,ARIMA)预测用户群体在未来时间段的采购可能性；根据ARIMA模型的计算结果和用户群体相似度，计算得到未来时间段的产品销量的预测值，提高产品销量预测的科学性和准确性，便于电商平台和产品生产方提前备货。

本发明的技术方案是基于DBSCAN和用户群体特性分析的产品销量预测方法，包括以下步骤：

步骤1：收集电子商城的用户历史订单数据信息，形成订单样本数据；

步骤2：对订单样本数据进行预处理，所述预处理包括数据清洗和格式化；

步骤3：采用基于密度的聚类算法对订单样本数据进行聚类分析；

步骤4：根据步骤3的聚类分析结果，划分用户群体，并进行用户群体特性分析；

步骤5：采用差分自回归移动平均模型ARIMA预测用户群体在未来时间段的采购可能性；

步骤6：根据步骤4的用户群体特性分析结果，计算用户群体的相似度，并结合步骤5的结果，对具有相似度的用户群体进行产品推荐；

步骤7：根据步骤5、6的计算结果，对未来时间段的产品销量进行预测。

优选地，步骤2具体包括：

1)对订单样本数据集中缺失关键字段如UserID,ProductID等的订单进行识别，并将这些订单记录从订单样本数据集中移除；

2)检查订单样本数据集中是否有完全相同或部分相同的订单记录，去除重复的订单记录；

3)检查与处理订单中的购买数量为小于等于零或者产品号ProductID不存在的无效或异常订单。

进一步地，步骤2还包括对以下异常情况的订单记录进行识别、判断和去除：

a)异常高或低购买数量的订单记录，订单中的某个产品的购买数量远高于该用户或类似用户平均购买数量；

b)短时间内出现的大量相同订单记录；

c)短时间内出现前、后购买地理位置不一致的订单记录；

d)未知或非法产品号ProductID的订单记录。

进一步地，步骤3中，所述基于密度的聚类算法，具体包括：

1)将样本数据表示成空间中的点；

2)随机选择一个未被访问的样本点；

3)计算该点的邻域；

4)统计该点的邻域中的样本点数量，并比较样本点的数量与最小包含点数MinPts的大小，若邻域中样本点数量大于等于最小包含点数MinPts，则创建新的簇，否则将该点标记为噪声；

5)重复执行步骤2)-步骤4)，直至所有样本点都被访问。

优选地，步骤4中，所述用户群体特性分析，包括分析用户群体对产品的平均购买频率、购买的产品种类、对产品的购买时间分布。

进一步地，步骤5具体包括以下子步骤：

步骤5.1：根据商城产品的销售记录，对各产品的用户群体构建用于预测该用户未来时间段采购可能性的ARIMA模型；

步骤5.2：对步骤5.1的ARIMA模型，提取相关因素，检验相关因素的相关性，提取相关性高的相关因素作为多元线性回归的自变量；

步骤5.3：提取自回归自变量，建立自回归序列，对序列进行差分，并根据自相关和偏相关参数进一步对ARIMA模型定阶；

步骤5.4：对步骤5.3得到的ARIMA模型进行拟合、验证及调整，对各参数显著性进行检验，得到完备的产品的ARIMA模型；

步骤5.5：利用步骤5.4的产品的ARIMA模型，根据产品的历史销量数据，预测用户群体未来时段采购该产品的可能性；

步骤5.6：重复步骤5.1-5.5，对商城的每件产品构建ARIMA模型，并利用ARIMA模型计算得到该产品的用户群体在未来时段的采购可能性得分。

进一步地，步骤6具体包括以下子步骤：

步骤6.1：分别整理用户群体中用户的历史订单数据；

步骤6.2：构建用户-产品矩阵；

步骤6.3：根据用户-产品矩阵和用户群体特性分析结果，计算用户群体之间的用户相似度；

步骤6.4：根据步骤6.3计算得到的用户群体之间的用户相似度的大小，若某用户群体发生产品购买行为，对具有相似度的其他用户群体的用户推送产品推荐建议。

优选地，步骤7中，用户群体在未来时段的产品预测销量为：

Predicted_Sales＝ARIMA_Forecast×P

式中ARIMA_Forecast表示ARIMA模型计算得到的用户群体在未来时段的采购可能性得分，P表示用户群体的用户在历史同期购买该产品的平均数量，Predicted_Sales表示用户群体在未来时段的购买产品的预测销量；

考虑产品推荐对产品销量的影响作用，根据用户群体的相似度对预测销量进行调整，得到调整的预测销量Adjusted_Sales，

Adjusted_Sales＝Predicted_Sales×(1+Similarity_Score×w₂/w₁)

式中Similarity_Score表示当前用户群体以外的第二个用户群体与当前用户群体的相似度，w₁为当前用户群体的权重，w₂为当前用户群体以外的第二个用户群体的权重；

将各个用户群体的调整的预测销量相加汇总，得到总的预测销量

Total_Predicted_Sales＝∑Adjusted_Sales

式中Total_Predicted_Sales表示产品的总预测销量。

相比现有技术，本发明的有益效果包括：

1)本发明通过差分自回归移动平均模型ARIMA预测用户群体在未来时间段的采购可能性，并计算用户群体的相似度，根据ARIMA模型的计算结果和用户群体相似度，计算得到未来时间段的产品销量的预测值，解决了现有的产品销量预测方法缺乏考虑用户之间的相互影响作用而预测不准确的问题，本发明提高了产品销量预测的科学性和准确性，便于电商平台和产品生产方提前备货。

2)本发明采用基于密度的聚类算法对大量的历史订单样本数据聚类分析即大数据分析的方法，划分用户群体，将具有相似特征的用户划分为同一类，便于以用户群体为基础进行精确的产品销量预测；基于密度的聚类算法去噪效果好，用于用户群体的聚类分析，能避免异常订单数据对聚类分析结果的影响，实现用户群体的准确区分；

3)本发明方法在利用订单样本数据预测用户群体未来时间段的采购可能性前，对订单样本数据进行数据清洗、格式化，并对异常情况的订单记录进行识别、判断和去除，有效避免错误、异常订单数据对预测结果的影响，进一步提高了产品销量预测结果的准确性。

4)本发明基于用户-产品矩阵，并结合用户群体对产品的平均购买频率、购买的产品种类、对产品的购买时间分布等用户特性，计算得到用户群体的相似度，使用户群体的相似性的衡量更科学、合理。

5)本发明通过对不同的用户群体设置不同的权重，实现了产品的主、次用户群体的有效区分，有利于实现产品销量的精准预测。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1为本发明的产品销量预测方法的流程示意图。

图2为本发明实施例的产品销量预测方法的流程图。

图3为本发明实施例中DBSCAN聚类算法的时序图。

图4为本发明实施例中ARIMA模型用于预测的时序图。

图5为本发明实施例的应用于电商的运营分析系统的订单统计界面图。

具体实施方式

如图5所示，实施例中构建了应用于电商的运营分析系统，通过深度分析用户的采购订单，更好地理解用户特性，根据用户相似性，对具有相似度的用户推送产品购买建议，充分发挥具有相似度的用户之间的相互影响作用。

如图1和图2所示，基于DBSCAN和用户群体特性分析的产品销量预测方法，包括以下步骤：

实施例中，订单数据包括用户编号UserID、订单号OrderID、产品号ProductID、购买数量Quantity、购买时间OrderTime和用户下单的地理位置信息UserLocation。

对订单样本数据集的数据清洗包括：

3)检查与处理订单中的购买数量小于等于零或者产品号ProductID不存在的无效或异常订单。

实施例中，步骤2还包括对以下异常情况的订单记录进行识别、判断和去除：

b)短时间内出现的大量相同订单记录；

c)短时间内出现前、后购买地理位置不一致的订单记录；

d)未知或非法产品号ProductID的订单记录。

实施例中对以下情形进行人工审核：

①异常高或低的购买数量：如果订单中的某个产品的购买数量远高于或低于该用户或类似用户的平均购买数量，这是需要进一步人工审查的情况。这样的异常可能是由于数据录入错误或其他未知因素引起的。

②短时间内大量相同订单：如果在非常短的时间如几分钟或几秒钟内同一个用户编号UserID下产生大量几乎相同的订单，这可能是由于系统错误或者恶意行为造成的。

③不一致的地理位置信息：如果同一个用户编号UserID在短时间内报告了不同的地理位置信息例如几分钟内从纽约切换到东京，这也是值得人工审核的。

④未知或非法的ProductID：如果订单中出现了数据库中没有的ProductID，或者该ProductID与用户的购买历史明显不匹配例如一个儿童玩具的ProductID出现在一个工业设备购买订单中。

步骤3：采用基于密度的聚类算法对订单样本数据进行聚类分析，如图3所示。

实施例中，基于密度的聚类算法的具体过程包括：

1)将样本数据表示成空间中的点；

把订单样本数据转换为能够在多维空间中表示的点。每个订单样本由多个属性如购买金额、购买时间、购买的商品种类等构成，这些属性可视为多维空间中的坐标。

实施例中，订单样本数据是从数据库中获取的，并以NumPy数组的形式存储。每行代表一个用户订单样本，而每列代表一个特征如购买金额、购买时间和购买的商品种类。这样的表示形式便于使用空间距离度量来评估样本点之间的相似性。

2)随机选择一个未被访问的样本点；

从订单样本数据集中随机选择一个尚未被访问或考虑的样本点。为了实现这一目标，首先维护一个"已访问"样本点的索引集合。这个集合在算法开始时是空的，并在每次迭代时更新；接着计算出尚未被访问的样本点的索引集合，这是通过从总样本点的索引集合中减去"已访问"样本点的索引集合来完成的；然后，从这个"未访问"的索引集合中随机选择一个索引。

随机选择未被访问的样本点意味着算法不依赖于数据集的初始排序，从而增加了算法的健壮性。通过随机选择样本点，确保了算法能够全面并均匀地探索数据集的空间，从而更准确地识别出具有相似特性的用户群体。这也为后续步骤提供了基础，尤其是在计算样本点的邻域和评估其密度方面。

3)计算该点的邻域；

在多维数据空间中，每个数据点都有其周围的一个区域，称为“邻域”。

半径∈是一个预先定义的参数，用于确定何时认为两个点是“接近”的。其值的选择通常取决于数据集的具体特性和应用场景。不同的半径∈值可能会导致截然不同的聚类结果。

在确定了距离度量和半径∈后，算法会生成一个邻域点的集合。这个集合实际上是一个索引列表，指向那些距离当前选定点距离在∈以内的所有点。

4)统计该点的邻域中的样本点的数量，并比较样本点的数量与最小包含点数MinPts的大小，若邻域中样本点数量大于等于最小包含点数MinPts，则创建新的簇，否则将该点标记为噪声；

最小包含点数MinPts是一个预定义的参数，由数据集的性质和具体的业务需求来决定。这个参数将用于判断一个点的邻域是否足够“密集”以形成一个簇。统计邻域中的样本点数量。在获得一个点的邻域后，下一步是计算这个邻域中有多少个样本点。

如果邻域中的样本点数量大于等于MinPts，则这个点将作为一个新的簇的核心点。如果邻域中的样本点数量小于MinPts，则这个点将被标记为噪声。

5)重复执行步骤2)-步骤4)，直至所有样本点都被访问。

实施例中，遍历所有样本点的代码如下：

实施例中，分析用户群体对产品的平均购买频率、购买的产品种类、对产品的购买时间分布。

步骤5：采用差分自回归移动平均模型ARIMA预测用户群体在未来时间段的采购可能性，如图4所示。

步骤5.1：根据订单样本数据中产品销售记录，对各产品的用户群体构建用于预测该用户未来时间段采购可能性的ARIMA模型；

步骤5.5：利用步骤5.4的产品的ARIMA模型，根据产品的历史销量数据，预测用户群体未来时段采购该产品的可能性得分；

步骤6.1：分别整理出订单样本数据集中每位用户的订单数据；

步骤6.2：构建用户-产品矩阵；

用户-产品矩阵为后续分析提供了一个结构化的数据形式，每行代表一个用户，每列代表一个产品，矩阵中的每个值代表该用户对该产品的购买数量或者其他关注度指标。

实施例中，实现用户-产品矩阵的代码如下：

步骤6.3.1：使用用户-产品矩阵来计算基于购买历史的用户相似度；

步骤6.3.2：使用用户群体特性向量来计算基于用户特性的相似度。

步骤6.3.3：综合以上两种相似度来得到最终的用户群体的相似度。

实施例中，采用加权平均的计算方式根据购买历史的用户相似度指标和基于用户特性的相似度指标计算得到综合的用户相似度，并根据综合的用户相似度进一步计算得到用户群体的相似度。

用户群体在未来时段的产品预测销量为：

Predicted_Sales＝ARIMA_Forecast×P

Adjusted_Sales＝Predicted_Sales×(1+Similarity_Score×w₂/w₁)

Total_Predicted_Sales＝∑Adjusted_Sales

式中Total_Predicted_Sales表示产品的总预测销量。

实施例中，应用于电商的运营分析系统的订单统计界面如图5所示，呈现了每日和每月的有效订单预测量。根据用户群体特性分析的结果，预测未来7日中每天的有效订单数量及每日预计申请订单开票金额。该界面通过柱状图和折线图直观地展示了订单数量的变化和预测趋势，使得运营人员能够迅速了解和分析产品的销售情况，有助于提升运营效率并辅助决策。

实施例中，应用于电商的运营分析系统根据用户群体下单特性分析的结果，预测得到未来7日的每个省份的预计下单量，能帮助商城更好地理解各地区的订单情况，从而进行更精准的运营决策。应用于电商的运营分析系统将预测的结果以中国地图的形式展示出来，下单量越大的省份，在地图上的颜色就越深。这样的可视化展示能够帮助运营人员更直观地理解各地区的预测下单量，从而进行更精准的决策。

Claims

1.基于DBSCAN和用户群体特性分析的产品销量预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的产品销量预测方法，其特征在于，步骤2具体包括：

1) 对订单样本数据集中缺失关键字段的订单进行识别，并将这些订单记录从订单样本数据集中移除；

2) 检查订单样本数据集中是否有完全相同或部分相同的订单记录，去除重复的订单记录；

3) 检查与处理订单中的购买数量为小于等于零或者产品号ProductID不存在的无效或异常订单。

3.根据权利要求2所述的产品销量预测方法，其特征在于，步骤2还包括对以下异常情况的订单记录进行识别、判断和去除：

a) 异常高或低购买数量的订单记录，订单中的某个产品的购买数量远高于该用户或类似用户平均购买数量；

b) 短时间内出现的大量相同订单记录；

c) 短时间内出现前、后购买地理位置不一致的订单记录；

d) 未知或非法产品号ProductID的订单记录。

4.根据权利要求1或2或3所述的产品销量预测方法，其特征在于，步骤3中，所述基于密度的聚类算法，具体包括：

1）将样本数据表示成空间中的点；

2）随机选择一个未被访问的样本点；

3）计算该点的邻域；

4）统计该点的邻域中的样本点数量，并比较样本点的数量与最小包含点数MinPts的大小，若邻域中样本点数量大于等于最小包含点数MinPts，则创建新的簇，否则将该点标记为噪声；

5）重复执行步骤2）-步骤4），直至所有样本点都被访问。

5.根据权利要求4所述的产品销量预测方法，其特征在于，步骤4中，所述用户群体特性分析，包括分析用户群体对产品的平均购买频率、购买的产品种类、对产品的购买时间分布。

6.根据权利要求5所述的产品销量预测方法，其特征在于，步骤5具体包括以下子步骤：

7.根据权利要求6所述的产品销量预测方法，其特征在于，步骤6具体包括以下子步骤：

步骤6.1：分别整理用户群体中用户的历史订单数据；

步骤6.2：构建用户-产品矩阵；

8.根据权利要求7所述的产品销量预测方法，其特征在于，步骤7中，用户群体在未来时段的产品预测销量为：

Predicted_Sales = ARIMA_Forecast ×P

Adjusted_Sales = Predicted_Sales ×（1 + Similarity_Score × w ₂/w ₁）

式中Similarity_Score表示当前用户群体以外的第二个用户群体与当前用户群体的相似度，

w ₁为当前用户群体的权重，w ₂为当前用户群体以外的第二个用户群体的权重；

Total_Predicted_Sales =∑Adjusted_Sales

式中Total_Predicted_Sales表示产品的总预测销量。