CN110109902A - 一种基于集成学习方法的电商平台推荐系统 - Google Patents
一种基于集成学习方法的电商平台推荐系统 Download PDFInfo
- Publication number
- CN110109902A CN110109902A CN201910203243.8A CN201910203243A CN110109902A CN 110109902 A CN110109902 A CN 110109902A CN 201910203243 A CN201910203243 A CN 201910203243A CN 110109902 A CN110109902 A CN 110109902A
- Authority
- CN
- China
- Prior art keywords
- electric business
- integrated learning
- business user
- learning approach
- user behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013459 approach Methods 0.000 title claims abstract description 26
- 230000006399 behavior Effects 0.000 claims abstract description 23
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 230000005856 abnormality Effects 0.000 claims abstract description 5
- 238000010276 construction Methods 0.000 claims description 7
- 238000013145 classification model Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 11
- 238000012549 training Methods 0.000 abstract description 8
- 230000003542 behavioural effect Effects 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 9
- 230000005611 electricity Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于集成学习方法的电商平台推荐系统,包括下述步骤:步骤一,采集电商用户行为的数据集,将电商用户的购物行为分成若干个字段;步骤二,异常值剔除;步骤三,特征筛选;本发明的训练模型部分使用了集成学习方法,即是多个单一推荐模型的算法通过改进的bagging和boosting进行模型集成,紧接着进行stacking模型融合,这种方法能够有效的降低电商推荐模型的错误率,而且该技术不需要有稠密的电商行为数据,也不需要用户对商品进行打分,这不仅更加符合现实生活中电商平台用户行为的稀疏性,而且这种电商用户行为是隐性存在的,从而提高了推荐评价指标的精确率,给电商平台带来更高的效益。
Description
技术领域
本发明涉及电商平台推荐技术领域,具体涉及一种基于集成学习方法的电商平台推荐系统。
背景技术
传统的电商推荐系统大多数使用单一模型训练电商行为特征工程,这种单一模型无法结合其他模型的优点,若预处理效果不妥当,只能更加暴露该单一模型的缺点,造成后面预测分析的准确率过低。在电商平台中,推荐平台收益部分会降低。现有技术中,专利CN201611254081.3公开了基于逻辑回归进行构造训练特征工程,这种模型对训练特征中自变量多重共线性较为敏感,导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值;专利CN201810332332.8公开了基于协同过滤的物品推荐方法,物品推荐只能在稠密数据才能有明显的效果,并且用户要对商品物品打分,而且模型训练比较费时,不具有很好的可解释性;同时分解出来的用户和物品矩阵的每个维度无法和现实生活中的概念来解释,无法用现实概念给每个维度命名,只能理解为潜在语义空间;而且存在针对现有的用户行为数据过于稀疏,缺乏用户对商品评分等客观条件,协同过滤等经典算法的效果较差的问题。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于集成学习方法的电商平台推荐系统,该系统通过采集电商用户行为的数据集,把用户的购物行为分成若干个字段,把异常值剔除、特征筛选、样本划分,最后通过集成学习方法分类建模,通过预测结果能够个性化地向用户推荐商品,提高用户的购物效率,促成更多交易,提高电商平台的营业收入。
本发明的目的通过下述技术方案实现:
一种基于集成学习方法的电商平台推荐系统,包括下述步骤:
步骤一,采集电商用户行为的数据集,将电商用户的购物行为分成若干个字段;
步骤二,异常值剔除;
步骤三,特征筛选;筛选电商用户行为特征,由于原始数据无法直接用于建模,因此需要将其归纳为统计特征;特征的筛选需要能够充分描述商品信息、电商用户信息以及电商用户-商品的交互情况;
步骤四,样本划分;划分样本数据,由于数据总量较大,在处理过程中仅使用部分样本进行建模;
步骤五,集成学习方法分类建模;使用不同的集成学习方法对电商用户行为分析分类建模;
其中,所述集成学习方法可分为xgboost算法模型、catboost算法模型和lightbgm算法模型,然后将这些集成学习方法通过模型融合组成在一起;
步骤六,通过预测结果个性化地向电商用户推荐商品。
本发明与现有技术相比具有以下的有益效果:
本发明的训练模型部分使用了集成学习方法,即是多个单一推荐模型的算法通过改进的bagging和boosting进行模型集成,紧接着进行stacking模型融合,这种方法能够有效的降低电商推荐模型的错误率,而且该技术不需要有稠密的电商行为数据,也不需要用户对商品进行打分,这不仅更加符合现实生活中电商平台用户行为的稀疏性,而且这种电商用户行为是隐性存在的,从而提高了推荐评价指标的精确率,给电商平台带来更高的效益。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,一种基于集成学习方法的电商平台推荐系统,包括下述步骤:
步骤一,采集电商用户行为的数据集,将电商用户的购物行为分成若干个字段。
步骤二,异常值剔除;异常值的存在通常会严重影响建模和预测质量,因此有必要对数据中存在的异常值进行剔除。
步骤三,特征筛选;筛选电商用户行为特征,由于原始数据无法直接用于建模,因此需要将其归纳为统计特征;特征的筛选需要能够充分描述商品信息、电商用户信息以及电商用户-商品的交互情况。
步骤四,样本划分;划分样本数据,由于数据总量较大,在处理过程中仅使用部分样本进行建模。
步骤五,集成学习方法分类建模;使用不同的集成学习方法对电商用户行为分析分类建模。
其中,所述集成学习方法可分为xgboost算法模型、catboost算法模型和lightbgm算法模型,然后将这些集成学习方法通过模型融合组成在一起;Boosting是一种非常有效的集成学习算法,采用Boosting方法可以将弱分类器转化为强分类器,从而达到准确的分类效果。这类Boosting方法使用了xgboost、catboost和lightgbm结合起来一起使用,是为了方便下一步的stacking模型融合。在模型融合阶段,通过不同的电商用户行为数据划分不同的K折交叉验证,进一步提高了电商推荐系统的准确率。
步骤六,通过预测结果个性化地向电商用户推荐商品。
进一步来说,本发明首先针对梯度提升决策树易于过拟合且训练速度慢的问题,提出了解决方案并在其中主要做了四个工作:(1)提出了一种基于模型参数的复杂度的正则化方法,来降低boosting的过拟合的程度;(2)提出了一种基于牛顿法思想的优化方法,用该方法替代现有的梯度下降寻优方式;(3)提出了一种基于梯度提升决策树的单一模型,通过不同的梯度下降方式构造成不同的集成学习方法,例如改进的xgboost、catboost和lightbgm等;(4)提出了一种基于集成学习方法模型融合的迭代方法。
本发明的训练模型部分使用了集成学习方法,即是多个单一推荐模型的算法通过改进的bagging和boosting进行模型集成,紧接着进行stacking模型融合,这种方法能够有效的降低电商推荐模型的错误率,而且该技术不需要有稠密的电商行为数据,也不需要用户对商品进行打分,这不仅更加符合现实生活中电商平台用户行为的稀疏性,而且这种电商用户行为是隐性存在的,从而提高了推荐评价指标的精确率,给电商平台带来更高的效益。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (1)
1.一种基于集成学习方法的电商平台推荐系统,其特征在于,包括下述步骤:
步骤一,采集电商用户行为的数据集,将电商用户的购物行为分成若干个字段;
步骤二,异常值剔除;
步骤三,特征筛选;筛选电商用户行为特征,由于原始数据无法直接用于建模,因此需要将其归纳为统计特征;特征的筛选需要能够充分描述商品信息、电商用户信息以及电商用户-商品的交互情况;
步骤四,样本划分;划分样本数据,由于数据总量较大,在处理过程中仅使用部分样本进行建模;
步骤五,集成学习方法分类建模;使用不同的集成学习方法对电商用户行为分析分类建模;
其中,所述集成学习方法可分为xgboost算法模型、catboost算法模型和lightbgm算法模型,然后将这些集成学习方法通过模型融合组成在一起;
步骤六,通过预测结果个性化地向电商用户推荐商品。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910203243.8A CN110109902A (zh) | 2019-03-18 | 2019-03-18 | 一种基于集成学习方法的电商平台推荐系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910203243.8A CN110109902A (zh) | 2019-03-18 | 2019-03-18 | 一种基于集成学习方法的电商平台推荐系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110109902A true CN110109902A (zh) | 2019-08-09 |
Family
ID=67484322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910203243.8A Pending CN110109902A (zh) | 2019-03-18 | 2019-03-18 | 一种基于集成学习方法的电商平台推荐系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110109902A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507765A (zh) * | 2020-04-16 | 2020-08-07 | 厦门美图之家科技有限公司 | 广告点击率预测方法、装置、电子设备和可读存储介质 |
CN111967937A (zh) * | 2020-08-17 | 2020-11-20 | 深圳市泽科科技有限公司 | 一种基于时间序列分析的电商推荐系统及实现方法 |
CN112131479A (zh) * | 2020-09-30 | 2020-12-25 | 深圳前海微众银行股份有限公司 | 数据的处理方法、装置、设备和存储介质 |
CN113326433A (zh) * | 2021-03-26 | 2021-08-31 | 沈阳工业大学 | 一种基于集成学习的个性化推荐方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127546A (zh) * | 2016-06-20 | 2016-11-16 | 重庆房慧科技有限公司 | 一种基于智慧社区大数据的商品推荐方法 |
CN106127525A (zh) * | 2016-06-27 | 2016-11-16 | 浙江大学 | 一种基于分类算法的电视购物商品推荐方法 |
CN107423442A (zh) * | 2017-08-07 | 2017-12-01 | 火烈鸟网络(广州)股份有限公司 | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 |
-
2019
- 2019-03-18 CN CN201910203243.8A patent/CN110109902A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127546A (zh) * | 2016-06-20 | 2016-11-16 | 重庆房慧科技有限公司 | 一种基于智慧社区大数据的商品推荐方法 |
CN106127525A (zh) * | 2016-06-27 | 2016-11-16 | 浙江大学 | 一种基于分类算法的电视购物商品推荐方法 |
CN107423442A (zh) * | 2017-08-07 | 2017-12-01 | 火烈鸟网络(广州)股份有限公司 | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507765A (zh) * | 2020-04-16 | 2020-08-07 | 厦门美图之家科技有限公司 | 广告点击率预测方法、装置、电子设备和可读存储介质 |
CN111967937A (zh) * | 2020-08-17 | 2020-11-20 | 深圳市泽科科技有限公司 | 一种基于时间序列分析的电商推荐系统及实现方法 |
CN112131479A (zh) * | 2020-09-30 | 2020-12-25 | 深圳前海微众银行股份有限公司 | 数据的处理方法、装置、设备和存储介质 |
CN113326433A (zh) * | 2021-03-26 | 2021-08-31 | 沈阳工业大学 | 一种基于集成学习的个性化推荐方法 |
CN113326433B (zh) * | 2021-03-26 | 2023-10-10 | 沈阳工业大学 | 一种基于集成学习的个性化推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11681925B2 (en) | Techniques for creating, analyzing, and modifying neural networks | |
CN107515898B (zh) | 基于数据多样性和任务多样性的轮胎企业销售预测方法 | |
CN110109902A (zh) | 一种基于集成学习方法的电商平台推荐系统 | |
Olczyk | A systematic retrieval of international competitiveness literature: a bibliometric study | |
CN110377696A (zh) | 一种商品期货新闻舆情分析方法及系统 | |
CN109871443A (zh) | 一种基于记账场景的短文本分类方法及装置 | |
KR20210023452A (ko) | 속성 단위 리뷰 분석 장치 및 방법 | |
Herrera-Viedma et al. | A fuzzy linguistic RFM model applied to campaign management | |
CN106844632A (zh) | 基于改进支持向量机的产品评论情感分类方法及装置 | |
CN104462301A (zh) | 一种网络数据的处理方法和装置 | |
CN112508600A (zh) | 一种基于互联网公开数据的车辆价值评估方法 | |
CN110263233B (zh) | 企业舆情库构建方法、装置、计算机设备及存储介质 | |
CN105956798A (zh) | 一种基于稀疏随机森林的配网设备运行状态评估方法 | |
CN107844558A (zh) | 一种分类信息的确定方法以及相关装置 | |
WO2020034880A1 (zh) | 物流对象信息处理方法、装置及计算机系统 | |
CN106844330B (zh) | 文章情感的分析方法和装置 | |
CN106445908A (zh) | 文本识别方法和装置 | |
CN112232944B (zh) | 一种评分卡创建方法、装置和电子设备 | |
CN114942974A (zh) | 电商平台商品用户评价情感倾向分类方法 | |
CN114997916A (zh) | 潜在用户的预测方法、系统、电子设备和存储介质 | |
Zhang et al. | Research on borrower's credit classification of P2P network loan based on LightGBM algorithm | |
CN111666410B (zh) | 商品用户评论文本的情感分类方法及系统 | |
Radecic | Machine Learning Automation with TPOT: Build, validate, and deploy fully automated machine learning models with Python | |
CN117035568A (zh) | 一种基于dmn规范的决策引擎设计方法 | |
Li et al. | Case-based reasoning approach for decision-making in building retrofit: A review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190809 |