CN111967937A

CN111967937A - 一种基于时间序列分析的电商推荐系统及实现方法

Info

Publication number: CN111967937A
Application number: CN202010828374.8A
Authority: CN
Inventors: 杜戈; 周伟坤; 奚杭
Original assignee: Shenzhen Zeke Technology Co ltd
Current assignee: Shenzhen Zeke Technology Co ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2020-11-20

Abstract

本发明涉及推荐系统技术领域，尤其为一种基于时间序列分析的电商推荐系统及实现方法，包括电商数据总集、电商数据预处理、电商数据特征工程、权重计算和预测结果，所述电商数据特征工程包括有时间序列子集，所述电商数据特征工程与时间序列子集对应设置有训练模型分类建模，通过将电商用户行为数据的一段时间分成同样多个长度的时间段，并且把同样多个长度的时间段的最后一天作为分类模型的标签，最后，把这同样多个长度的时间段结合起来，并归总在一起，这样的目的是为了增加用户行为数据的正样本数量，提高正样本占比，降低了一定的“倾斜”性，并且通过几种训练模型进行泛化训练，从而提高训练模型的准确率。

Description

一种基于时间序列分析的电商推荐系统及实现方法

技术领域

本发明涉及推荐系统技术领域，具体为一种基于时间序列分析的电商推荐系统及实现方法。

背景技术

传统的电商推荐系统大多数使用单一模型训练电商行为特征工程，这种单一模型无法结合其他模型的优点，若预处理效果不妥当，只能更加暴露该单一模型的缺点，造成后面预测分析的准确率过低。而且，大多数电商来源数据正负样本比例不协调，存在比差比较悬殊的问题。在电商平台中，推荐平台收益部分会降低。专利CN201611254081.3基于逻辑回归进行构造训练特征工程，这种模型对训练特征中自变量多重共线性较为敏感，导致很多区间的变量变化对目标概率的影响没有区分度，无法确定阀值。专利CN201810332332.8基于协同过滤的物品推荐方法，物品推荐只能在稠密数据才能有明显的效果，并且用户要对商品物品打分，而且模型训练比较费时，不具有很好的可解释性。分解出来的用户和物品矩阵的每个维度无法和现实生活中的概念来解释，无法用现实概念给每个维度命名，只能理解为潜在语义空间。针对现有的用户行为数据过于稀疏，缺乏用户对商品评分等客观条件，协同过滤等经典算法的效果较差的问题。本专利针对以上问题提出了一种基于时间序列分析的电商推荐系统及实现方法，同时优化单一模型和正负样本比例这两个主要问题，并且将电商推荐问题转化为预测用户是否会购买商品的二分类问题。

发明内容

本发明的目的在于提供一种基于时间序列分析的电商推荐系统及实现方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于时间序列分析的电商推荐系统及实现方法，包括电商数据总集、电商数据预处理、电商数据特征工程、权重计算和预测结果，所述电商数据特征工程包括有时间序列子集，所述电商数据特征工程与时间序列子集对应设置有训练模型分类建模，所述电商数据预处理包括有异常值剔除和平衡正负样本。

优选的，所述时间序列子集设置有N个。

优选的，所述训练模型分类建模设置有N个。

优选的，所述电商数据特征工程包括用户特征的转化率、商品特征的转换率、商品种类特征的转换率等。

优选的，所述电商数据特征工程包括交互的特征工程，并且交互的特征工程包括用户-商品特征行为的次数和用户-商品种类特征行为的次数，其中分别包括前1,3,7天的交互行为。

优选的，包括以下步骤：

S1：首先通过采集电商用户行为的数据总集；

S2：接着进行电商数据预处，包括异常值剔除、平衡正负样本等预处理行为；

S3：紧跟着对预处理之后的数据进行特征工程，之后，使用时间序列策略对电商数据进行划片处理，分成不同的时间序列子集；

S4：随后通过机器学习训练模型分类建模分别对这N个时间序列子集进行训练；

S5：最后把这几种训练模型分类的结果通过权重计算得到最后的预测结果，从而实现个性化的电商物品推荐。

优选的，所述S4使用不同的机器学习训练模型方法对电商用户行为分析分类建模，在机器学习训练模型阶段，通过不同的电商用户行为数据划分不同的K折交叉验证。

与现有技术相比，本发明的有益效果是：

1、本发明中，解决单一模型无法集中优点，有效降低缺点，而且正负样本比例悬殊等问题，提出了一种基于时间序列分析的电商推荐系统及实现方法。首先为了更好的研究该用户商品购买行为，本专利的研究重点任务将用户商品购买预测问题，转移为有监督学习的用户行为二分类问题，从而实现个性化推荐电商物品。第二，提出了一种时间序列策略的分析方法，来减少正负样本比例的悬殊，该时间序列策略使用滑动窗口的模式，从一个时间开始，慢慢向下一个时间滑动，直至结束的时间点，这样就得出了N个时间长度一样的时间窗口，提高了用户行为正样本数量的占比，从而进一步增加了分类模型的准确性。第三，提出了电商用户行为单一的特征工程，其中包括用户特征的转化率、商品特征的转换率、商品种类特征的转换率等；同时，也提出了交互的特征工程，包括用户-商品特征行为的次数和用户-商品种类特征行为的次数，其中分别包括前1,3,7天的交互行为。第四，提出了一种基于集成学习方法模型融合的迭代方法，使用不同的机器学习训练模型方法对电商用户行为分析分类建模。在机器学习训练模型阶段，通过不同的电商用户行为数据划分不同的K折交叉验证，进一步提高了电商推荐系统的准确率。

2、本发明中的优点通过将电商用户行为数据的一段时间分成同样多个长度的时间段，并且把同样多个长度的时间段的最后一天作为分类模型的标签，最后，把这同样多个长度的时间段结合起来，并归总在一起，这样的目的是为了增加用户行为数据的正样本数量，提高正样本占比，降低了一定的“倾斜”性。同时，不同的时间段可以使用不同的训练模型，这种训练模型可以是决策树等单一模型，也可以是集成学习方法中的随机森林，adaboost等方法，甚至可以是基于tensorflow等深度学习框架的训练模型，这样，通过几种训练模型进行泛化训练，从而提高训练模型的准确率。

附图说明

图1为本发明整体工作流程图；

图2为本发明部分工作流程图。

图中：1-电商数据总集、2-电商数据预处理、3-电商数据特征工程、4-时间序列子集、5-训练模型分类建模、6-权重计算、7-预测结果、8-异常值剔除、9-平衡正负样本。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例,基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明提供一种技术方案：

一种基于时间序列分析的电商推荐系统及实现方法，包括电商数据总集1、电商数据预处理2、电商数据特征工程3、权重计算6和预测结果7，电商数据特征工程3包括有时间序列子集4，电商数据特征工程3与时间序列子集4对应设置有训练模型分类建模5，电商数据预处理2包括有异常值剔除8和平衡正负样本9，通过将电商用户行为数据的一段时间分成同样多个长度的时间段，并且把同样多个长度的时间段的最后一天作为分类模型的标签，最后，把这同样多个长度的时间段结合起来，并归总在一起，这样的目的是为了增加用户行为数据的正样本数量，提高正样本占比，降低了一定的“倾斜”性，同时，不同的时间段可以使用不同的训练模型，这种训练模型可以是决策树等单一模型，也可以是集成学习方法中的随机森林，adaboost等方法，甚至可以是基于tensorflow等深度学习框架的训练模型，这样，通过几种训练模型进行泛化训练，从而提高训练模型的准确率。

所述时间序列子集4设置有N个。

所述训练模型分类建模5设置有N个。

所述电商数据特征工程3包括用户特征的转化率、商品特征的转换率、商品种类特征的转换率等。

所述电商数据特征工程3包括交互的特征工程，并且交互的特征工程包括用户-商品特征行为的次数和用户-商品种类特征行为的次数，其中分别包括前1,3,7天的交互行为。

包括以下步骤：

S1：首先通过采集电商用户行为的数据总集1；

S2：接着进行电商数据预处理2，包括异常值剔除8、平衡正负样本9等预处理行为；

S3：紧跟着对预处理之后的数据进行特征工程3，之后，使用时间序列策略对电商数据进行划片处理，分成不同的时间序列子集4；

S4：随后通过机器学习训练模型分类建模5分别对这N个时间序列子集4进行训练；

S5：最后把这几种训练模型分类的结果通过权重计算6得到最后的预测结果7，从而实现个性化的电商物品推荐。

所述S4使用不同的机器学习训练模型方法对电商用户行为分析分类建模，在机器学习训练模型阶段，通过不同的电商用户行为数据划分不同的K折交叉验证。

实施例：首先为了更好的研究该用户商品购买行为，重点任务将用户商品购买预测问题，转移为有监督学习的用户行为二分类问题，从而实现个性化推荐电商物品；第二，采用时间序列策略的分析方法，来减少正负样本比例的悬殊，该时间序列策略使用滑动窗口的模式，从一个时间开始，慢慢向下一个时间滑动，直至结束的时间点，这样就得出了N个时间长度一样的时间窗口，提高了用户行为正样本数量的占比，从而进一步增加了分类模型的准确性；第三，采用电商用户行为单一的特征工程，其中包括用户特征的转化率、商品特征的转换率、商品种类特征的转换率等；同时，也提出了交互的特征工程，包括用户-商品特征行为的次数和用户-商品种类特征行为的次数，其中分别包括前1,3,7天的交互行为；第四，采用基于集成学习方法模型融合的迭代方法，使用不同的机器学习训练模型方法对电商用户行为分析分类建模。在机器学习训练模型阶段，通过不同的电商用户行为数据划分不同的K折交叉验证，进一步提高了电商推荐系统的准确率；

包括以下实现步骤：

首先通过采集电商用户行为的数据总集1，接着进行电商数据预处理2，包括异常值剔除8、平衡正负样本9等预处理行为，紧跟着对预处理之后的数据进行特征工程3，之后，使用时间序列策略对电商数据进行划片处理，分成不同的时间序列子集4，随后通过机器学习训练模型分类建模5分别对这N个时间序列子集4进行训练，最后把这几种训练模型分类的结果通过权重计算6得到最后的预测结果7，从而实现个性化的电商物品推荐；

通过将电商用户行为数据的一段时间分成同样多个长度的时间段，并且把同样多个长度的时间段的最后一天作为分类模型的标签，最后，把这同样多个长度的时间段结合起来，并归总在一起，这样的目的是为了增加用户行为数据的正样本数量，提高正样本占比，降低了一定的“倾斜”性，同时，不同的时间段可以使用不同的训练模型，这种训练模型可以是决策树等单一模型，也可以是集成学习方法中的随机森林，adaboost等方法，甚至可以是基于tensorflow等深度学习框架的训练模型，这样，通过几种训练模型进行泛化训练，从而提高训练模型的准确率。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于时间序列分析的电商推荐系统及实现方法，包括电商数据总集(1)、电商数据预处理(2)、电商数据特征工程(3)、权重计算(6)和预测结果(7)，其特征在于：所述电商数据特征工程(3)包括有时间序列子集(4)，所述电商数据特征工程(3)与时间序列子集(4)对应设置有训练模型分类建模(5)，所述电商数据预处理(2)包括有异常值剔除(8)和平衡正负样本(9)。

2.根据权利要求1所述的一种基于时间序列分析的电商推荐系统及实现方法，其特征在于：所述时间序列子集(4)设置有N个。

3.根据权利要求1所述的一种基于时间序列分析的电商推荐系统及实现方法，其特征在于：所述训练模型分类建模(5)设置有N个。

4.根据权利要求1所述的一种基于时间序列分析的电商推荐系统及实现方法，其特征在于：所述电商数据特征工程(3)包括用户特征的转化率、商品特征的转换率、商品种类特征的转换率等。

5.根据权利要求1所述的一种基于时间序列分析的电商推荐系统及实现方法，其特征在于：所述电商数据特征工程(3)包括交互的特征工程，并且交互的特征工程包括用户-商品特征行为的次数和用户-商品种类特征行为的次数，其中分别包括前1,3,7天的交互行为。

6.根据权利要求1所述的一种基于时间序列分析的电商推荐系统及实现方法，其特征在于，包括以下步骤：

S1：首先通过采集电商用户行为的数据总集(1)；

S2：接着进行电商数据预处理(2)，包括异常值剔除(8)、平衡正负样本(9)等预处理行为；

S3：紧跟着对预处理之后的数据进行特征工程(3)，之后，使用时间序列策略对电商数据进行划片处理，分成不同的时间序列子集(4)；

S4：随后通过机器学习训练模型分类建模(5)分别对这N个时间序列子集(4)进行训练；

S5：最后把这几种训练模型分类的结果通过权重计算(6)得到最后的预测结果(7)，从而实现个性化的电商物品推荐。

7.根据权利要求1所述的一种基于时间序列分析的电商推荐系统及实现方法，其特征在于：所述S4使用不同的机器学习训练模型方法对电商用户行为分析分类建模，在机器学习训练模型阶段，通过不同的电商用户行为数据划分不同的K折交叉验证。