CN111967937A - 一种基于时间序列分析的电商推荐系统及实现方法 - Google Patents
一种基于时间序列分析的电商推荐系统及实现方法 Download PDFInfo
- Publication number
- CN111967937A CN111967937A CN202010828374.8A CN202010828374A CN111967937A CN 111967937 A CN111967937 A CN 111967937A CN 202010828374 A CN202010828374 A CN 202010828374A CN 111967937 A CN111967937 A CN 111967937A
- Authority
- CN
- China
- Prior art keywords
- commerce
- data
- time series
- implementation method
- recommendation system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012731 temporal analysis Methods 0.000 title claims abstract description 16
- 238000000700 time series analysis Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 230000006399 behavior Effects 0.000 claims description 49
- 230000002452 interceptive effect Effects 0.000 claims description 15
- 238000010801 machine learning Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 230000008030 elimination Effects 0.000 claims description 7
- 238000003379 elimination reaction Methods 0.000 claims description 7
- 238000013480 data collection Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000005611 electricity Effects 0.000 claims 4
- 238000013145 classification model Methods 0.000 abstract description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及推荐系统技术领域,尤其为一种基于时间序列分析的电商推荐系统及实现方法,包括电商数据总集、电商数据预处理、电商数据特征工程、权重计算和预测结果,所述电商数据特征工程包括有时间序列子集,所述电商数据特征工程与时间序列子集对应设置有训练模型分类建模,通过将电商用户行为数据的一段时间分成同样多个长度的时间段,并且把同样多个长度的时间段的最后一天作为分类模型的标签,最后,把这同样多个长度的时间段结合起来,并归总在一起,这样的目的是为了增加用户行为数据的正样本数量,提高正样本占比,降低了一定的“倾斜”性,并且通过几种训练模型进行泛化训练,从而提高训练模型的准确率。
Description
技术领域
本发明涉及推荐系统技术领域,具体为一种基于时间序列分析的电商推荐系统及实现方法。
背景技术
传统的电商推荐系统大多数使用单一模型训练电商行为特征工程,这种单一模型无法结合其他模型的优点,若预处理效果不妥当,只能更加暴露该单一模型的缺点,造成后面预测分析的准确率过低。而且,大多数电商来源数据正负样本比例不协调,存在比差比较悬殊的问题。在电商平台中,推荐平台收益部分会降低。专利CN201611254081.3基于逻辑回归进行构造训练特征工程,这种模型对训练特征中自变量多重共线性较为敏感,导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值。专利CN201810332332.8基于协同过滤的物品推荐方法,物品推荐只能在稠密数据才能有明显的效果,并且用户要对商品物品打分,而且模型训练比较费时,不具有很好的可解释性。分解出来的用户和物品矩阵的每个维度无法和现实生活中的概念来解释,无法用现实概念给每个维度命名,只能理解为潜在语义空间。针对现有的用户行为数据过于稀疏,缺乏用户对商品评分等客观条件,协同过滤等经典算法的效果较差的问题。本专利针对以上问题提出了一种基于时间序列分析的电商推荐系统及实现方法,同时优化单一模型和正负样本比例这两个主要问题,并且将电商推荐问题转化为预测用户是否会购买商品的二分类问题。
发明内容
本发明的目的在于提供一种基于时间序列分析的电商推荐系统及实现方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于时间序列分析的电商推荐系统及实现方法,包括电商数据总集、电商数据预处理、电商数据特征工程、权重计算和预测结果,所述电商数据特征工程包括有时间序列子集,所述电商数据特征工程与时间序列子集对应设置有训练模型分类建模,所述电商数据预处理包括有异常值剔除和平衡正负样本。
优选的,所述时间序列子集设置有N个。
优选的,所述训练模型分类建模设置有N个。
优选的,所述电商数据特征工程包括用户特征的转化率、商品特征的转换率、商品种类特征的转换率等。
优选的,所述电商数据特征工程包括交互的特征工程,并且交互的特征工程包括用户-商品特征行为的次数和用户-商品种类特征行为的次数,其中分别包括前1,3,7天的交互行为。
优选的,包括以下步骤:
S1:首先通过采集电商用户行为的数据总集;
S2:接着进行电商数据预处,包括异常值剔除、平衡正负样本等预处理行为;
S3:紧跟着对预处理之后的数据进行特征工程,之后,使用时间序列策略对电商数据进行划片处理,分成不同的时间序列子集;
S4:随后通过机器学习训练模型分类建模分别对这N个时间序列子集进行训练;
S5:最后把这几种训练模型分类的结果通过权重计算得到最后的预测结果,从而实现个性化的电商物品推荐。
优选的,所述S4使用不同的机器学习训练模型方法对电商用户行为分析分类建模,在机器学习训练模型阶段,通过不同的电商用户行为数据划分不同的K折交叉验证。
与现有技术相比,本发明的有益效果是:
1、本发明中,解决单一模型无法集中优点,有效降低缺点,而且正负样本比例悬殊等问题,提出了一种基于时间序列分析的电商推荐系统及实现方法。首先为了更好的研究该用户商品购买行为,本专利的研究重点任务将用户商品购买预测问题,转移为有监督学习的用户行为二分类问题,从而实现个性化推荐电商物品。第二,提出了一种时间序列策略的分析方法,来减少正负样本比例的悬殊,该时间序列策略使用滑动窗口的模式,从一个时间开始,慢慢向下一个时间滑动,直至结束的时间点,这样就得出了N个时间长度一样的时间窗口,提高了用户行为正样本数量的占比,从而进一步增加了分类模型的准确性。第三,提出了电商用户行为单一的特征工程,其中包括用户特征的转化率、商品特征的转换率、商品种类特征的转换率等;同时,也提出了交互的特征工程,包括用户-商品特征行为的次数和用户-商品种类特征行为的次数,其中分别包括前1,3,7天的交互行为。第四,提出了一种基于集成学习方法模型融合的迭代方法,使用不同的机器学习训练模型方法对电商用户行为分析分类建模。在机器学习训练模型阶段,通过不同的电商用户行为数据划分不同的K折交叉验证,进一步提高了电商推荐系统的准确率。
2、本发明中的优点通过将电商用户行为数据的一段时间分成同样多个长度的时间段,并且把同样多个长度的时间段的最后一天作为分类模型的标签,最后,把这同样多个长度的时间段结合起来,并归总在一起,这样的目的是为了增加用户行为数据的正样本数量,提高正样本占比,降低了一定的“倾斜”性。同时,不同的时间段可以使用不同的训练模型,这种训练模型可以是决策树等单一模型,也可以是集成学习方法中的随机森林,adaboost等方法,甚至可以是基于tensorflow等深度学习框架的训练模型,这样,通过几种训练模型进行泛化训练,从而提高训练模型的准确率。
附图说明
图1为本发明整体工作流程图;
图2为本发明部分工作流程图。
图中:1-电商数据总集、2-电商数据预处理、3-电商数据特征工程、4-时间序列子集、5-训练模型分类建模、6-权重计算、7-预测结果、8-异常值剔除、9-平衡正负样本。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供一种技术方案:
一种基于时间序列分析的电商推荐系统及实现方法,包括电商数据总集1、电商数据预处理2、电商数据特征工程3、权重计算6和预测结果7,电商数据特征工程3包括有时间序列子集4,电商数据特征工程3与时间序列子集4对应设置有训练模型分类建模5,电商数据预处理2包括有异常值剔除8和平衡正负样本9,通过将电商用户行为数据的一段时间分成同样多个长度的时间段,并且把同样多个长度的时间段的最后一天作为分类模型的标签,最后,把这同样多个长度的时间段结合起来,并归总在一起,这样的目的是为了增加用户行为数据的正样本数量,提高正样本占比,降低了一定的“倾斜”性,同时,不同的时间段可以使用不同的训练模型,这种训练模型可以是决策树等单一模型,也可以是集成学习方法中的随机森林,adaboost等方法,甚至可以是基于tensorflow等深度学习框架的训练模型,这样,通过几种训练模型进行泛化训练,从而提高训练模型的准确率。
所述时间序列子集4设置有N个。
所述训练模型分类建模5设置有N个。
所述电商数据特征工程3包括用户特征的转化率、商品特征的转换率、商品种类特征的转换率等。
所述电商数据特征工程3包括交互的特征工程,并且交互的特征工程包括用户-商品特征行为的次数和用户-商品种类特征行为的次数,其中分别包括前1,3,7天的交互行为。
包括以下步骤:
S1:首先通过采集电商用户行为的数据总集1;
S2:接着进行电商数据预处理2,包括异常值剔除8、平衡正负样本9等预处理行为;
S3:紧跟着对预处理之后的数据进行特征工程3,之后,使用时间序列策略对电商数据进行划片处理,分成不同的时间序列子集4;
S4:随后通过机器学习训练模型分类建模5分别对这N个时间序列子集4进行训练;
S5:最后把这几种训练模型分类的结果通过权重计算6得到最后的预测结果7,从而实现个性化的电商物品推荐。
所述S4使用不同的机器学习训练模型方法对电商用户行为分析分类建模,在机器学习训练模型阶段,通过不同的电商用户行为数据划分不同的K折交叉验证。
实施例:首先为了更好的研究该用户商品购买行为,重点任务将用户商品购买预测问题,转移为有监督学习的用户行为二分类问题,从而实现个性化推荐电商物品;第二,采用时间序列策略的分析方法,来减少正负样本比例的悬殊,该时间序列策略使用滑动窗口的模式,从一个时间开始,慢慢向下一个时间滑动,直至结束的时间点,这样就得出了N个时间长度一样的时间窗口,提高了用户行为正样本数量的占比,从而进一步增加了分类模型的准确性;第三,采用电商用户行为单一的特征工程,其中包括用户特征的转化率、商品特征的转换率、商品种类特征的转换率等;同时,也提出了交互的特征工程,包括用户-商品特征行为的次数和用户-商品种类特征行为的次数,其中分别包括前1,3,7天的交互行为;第四,采用基于集成学习方法模型融合的迭代方法,使用不同的机器学习训练模型方法对电商用户行为分析分类建模。在机器学习训练模型阶段,通过不同的电商用户行为数据划分不同的K折交叉验证,进一步提高了电商推荐系统的准确率;
包括以下实现步骤:
首先通过采集电商用户行为的数据总集1,接着进行电商数据预处理2,包括异常值剔除8、平衡正负样本9等预处理行为,紧跟着对预处理之后的数据进行特征工程3,之后,使用时间序列策略对电商数据进行划片处理,分成不同的时间序列子集4,随后通过机器学习训练模型分类建模5分别对这N个时间序列子集4进行训练,最后把这几种训练模型分类的结果通过权重计算6得到最后的预测结果7,从而实现个性化的电商物品推荐;
通过将电商用户行为数据的一段时间分成同样多个长度的时间段,并且把同样多个长度的时间段的最后一天作为分类模型的标签,最后,把这同样多个长度的时间段结合起来,并归总在一起,这样的目的是为了增加用户行为数据的正样本数量,提高正样本占比,降低了一定的“倾斜”性,同时,不同的时间段可以使用不同的训练模型,这种训练模型可以是决策树等单一模型,也可以是集成学习方法中的随机森林,adaboost等方法,甚至可以是基于tensorflow等深度学习框架的训练模型,这样,通过几种训练模型进行泛化训练,从而提高训练模型的准确率。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种基于时间序列分析的电商推荐系统及实现方法,包括电商数据总集(1)、电商数据预处理(2)、电商数据特征工程(3)、权重计算(6)和预测结果(7),其特征在于:所述电商数据特征工程(3)包括有时间序列子集(4),所述电商数据特征工程(3)与时间序列子集(4)对应设置有训练模型分类建模(5),所述电商数据预处理(2)包括有异常值剔除(8)和平衡正负样本(9)。
2.根据权利要求1所述的一种基于时间序列分析的电商推荐系统及实现方法,其特征在于:所述时间序列子集(4)设置有N个。
3.根据权利要求1所述的一种基于时间序列分析的电商推荐系统及实现方法,其特征在于:所述训练模型分类建模(5)设置有N个。
4.根据权利要求1所述的一种基于时间序列分析的电商推荐系统及实现方法,其特征在于:所述电商数据特征工程(3)包括用户特征的转化率、商品特征的转换率、商品种类特征的转换率等。
5.根据权利要求1所述的一种基于时间序列分析的电商推荐系统及实现方法,其特征在于:所述电商数据特征工程(3)包括交互的特征工程,并且交互的特征工程包括用户-商品特征行为的次数和用户-商品种类特征行为的次数,其中分别包括前1,3,7天的交互行为。
6.根据权利要求1所述的一种基于时间序列分析的电商推荐系统及实现方法,其特征在于,包括以下步骤:
S1:首先通过采集电商用户行为的数据总集(1);
S2:接着进行电商数据预处理(2),包括异常值剔除(8)、平衡正负样本(9)等预处理行为;
S3:紧跟着对预处理之后的数据进行特征工程(3),之后,使用时间序列策略对电商数据进行划片处理,分成不同的时间序列子集(4);
S4:随后通过机器学习训练模型分类建模(5)分别对这N个时间序列子集(4)进行训练;
S5:最后把这几种训练模型分类的结果通过权重计算(6)得到最后的预测结果(7),从而实现个性化的电商物品推荐。
7.根据权利要求1所述的一种基于时间序列分析的电商推荐系统及实现方法,其特征在于:所述S4使用不同的机器学习训练模型方法对电商用户行为分析分类建模,在机器学习训练模型阶段,通过不同的电商用户行为数据划分不同的K折交叉验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010828374.8A CN111967937A (zh) | 2020-08-17 | 2020-08-17 | 一种基于时间序列分析的电商推荐系统及实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010828374.8A CN111967937A (zh) | 2020-08-17 | 2020-08-17 | 一种基于时间序列分析的电商推荐系统及实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111967937A true CN111967937A (zh) | 2020-11-20 |
Family
ID=73387766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010828374.8A Pending CN111967937A (zh) | 2020-08-17 | 2020-08-17 | 一种基于时间序列分析的电商推荐系统及实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967937A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117788105A (zh) * | 2023-12-25 | 2024-03-29 | 公安县谦合广告装饰有限公司 | 一种基于互联网的电商在线直播方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392644A (zh) * | 2017-06-19 | 2017-11-24 | 华南理工大学 | 一种商品购买预测建模方法 |
CN107944913A (zh) * | 2017-11-21 | 2018-04-20 | 重庆邮电大学 | 基于大数据用户行为分析的高潜在用户购买意向预测方法 |
CN110109902A (zh) * | 2019-03-18 | 2019-08-09 | 广东工业大学 | 一种基于集成学习方法的电商平台推荐系统 |
-
2020
- 2020-08-17 CN CN202010828374.8A patent/CN111967937A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392644A (zh) * | 2017-06-19 | 2017-11-24 | 华南理工大学 | 一种商品购买预测建模方法 |
CN107944913A (zh) * | 2017-11-21 | 2018-04-20 | 重庆邮电大学 | 基于大数据用户行为分析的高潜在用户购买意向预测方法 |
CN110109902A (zh) * | 2019-03-18 | 2019-08-09 | 广东工业大学 | 一种基于集成学习方法的电商平台推荐系统 |
Non-Patent Citations (1)
Title |
---|
李裕礞;练绪宝;徐博;王健;林鸿飞;: "基于用户隐性反馈行为的下一个购物篮推荐", 中文信息学报, no. 05 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117788105A (zh) * | 2023-12-25 | 2024-03-29 | 公安县谦合广告装饰有限公司 | 一种基于互联网的电商在线直播方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111199343B (zh) | 一种多模型融合的烟草市场监管异常数据挖掘方法 | |
WO2021088499A1 (zh) | 一种基于动态网络表征的发票虚开识别方法及系统 | |
CN109165950B (zh) | 一种基于金融时间序列特征的异常交易识别方法,设备及可读存储介质 | |
Rustam et al. | Classification of shopify app user reviews using novel multi text features | |
CN107766929B (zh) | 模型分析方法及装置 | |
CN110956273A (zh) | 融合多种机器学习模型的征信评分方法及系统 | |
CN109829733B (zh) | 一种基于购物行为序列数据的虚假评论检测系统和方法 | |
CN110717654B (zh) | 基于用户评论的产品质量评价方法和系统 | |
CN111259140A (zh) | 一种基于lstm多实体特征融合的虚假评论检测方法 | |
CN112085525A (zh) | 一种基于混合模型的用户网络购买行为预测研究方法 | |
CN109063983B (zh) | 一种基于社交媒体数据的自然灾害损失实时评估方法 | |
CN113344615A (zh) | 一种基于gbdt和dl融合模型的营销活动预测方法 | |
CN112966259A (zh) | 电力监控系统运维行为安全威胁评估方法及设备 | |
CN113076484A (zh) | 基于深度学习的产品推荐方法、装置、设备和存储介质 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
Gui et al. | Technology forecasting using deep learning neural network: Taking the case of robotics | |
CN114942974A (zh) | 电商平台商品用户评价情感倾向分类方法 | |
CN116304299A (zh) | 一种融和用户兴趣演化和梯度提升算法的个性化推荐方法 | |
Peng et al. | The health care fraud detection using the pharmacopoeia spectrum tree and neural network analytic contribution hierarchy process | |
CN110109902A (zh) | 一种基于集成学习方法的电商平台推荐系统 | |
CN113837266B (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
CN115221387A (zh) | 一种基于深度神经网络的企业信息整合方法 | |
Bai | Key factor mining method of distribution network equipment operational efficiency based on Apriori and CNN | |
CN111967937A (zh) | 一种基于时间序列分析的电商推荐系统及实现方法 | |
CN109992592B (zh) | 基于校园消费卡流水数据的高校贫困生识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201120 |