CN107944986A - 一种o2o商品推荐方法、系统及设备 - Google Patents
一种o2o商品推荐方法、系统及设备 Download PDFInfo
- Publication number
- CN107944986A CN107944986A CN201711460598.2A CN201711460598A CN107944986A CN 107944986 A CN107944986 A CN 107944986A CN 201711460598 A CN201711460598 A CN 201711460598A CN 107944986 A CN107944986 A CN 107944986A
- Authority
- CN
- China
- Prior art keywords
- feature
- training
- training set
- models
- target signature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种O2O商品推荐方法包括:获取历史行为数据,并对历史行为数据进行预处理,得到预处理数据;选取N个考察日,利用考察日之前的预设时间跨度内和考察日的预处理数据构建K个训练集;对每个训练集进行特征提取,得到所述训练集对应的目标特征集;利用目标特征集训练LightGBM模型,将目标特征集中的特征转换到一个高维稀疏空间,经过one‑hot编码后作为新的特征训练LR模型,利用训练完成的LR模型对测试集进行预测得到O2O商品推荐结果。本发明公开的O2O商品推荐方法为用户提供更准确的商品推荐服务。本发明还公开了一种O2O商品推荐系统及设备和一种计算机可读存储介质,同样能实现上述技术效果。
Description
技术领域
本发明涉及信息处理技术领域,更具体地说,涉及一种O2O商品推荐方法、系统及一种O2O商品推荐设备和一种计算机可读存储介质。
背景技术
随着移动互联网和O2O模式的迅猛发展,移动端产生并不断增加大量的用户访问数据信息,传统的关系型数据库管理系统不符合海量数据的处理器,不能够符合企业的成本效益。为加快了数据处理速度,各种大数据存储和计算平台应运而生,其中SparkSQL能够有效地在Spark中加载和查询结构型数据,Hadoop是一个高度可扩展的存储平台,可以存储和分发横跨数百个并行操作的廉价的服务器数据集群。
随着电商的商品类别越来越丰富,从非O2O商品扩展到O2O商品,促销活动层出不穷导致数据信息量巨大,数据分析和挖掘已成为电商提高效益的主要方式。通过数据挖掘将用户、商品和营销方式相结合,既能评估营销效果,又能挖掘潜在用户,更能熟悉自己的商品在在不同时间段,不同消费人群、不同地域的需求情况,从而掌握市场趋势,有的放矢的刺激用户需求。
在商品的推荐问题上,基于物品的协同过滤更倾向于推荐用户购买过的类似商品,会出现多样性的不足,推荐惊喜度低的问题;基于用户的系统过滤在新颖性方面有一定的优势,但结果相关性较弱,易受潮流影响而倾向于推荐出大众性物品,会遇到冷启动的棘手问题,当数据稀疏时,单个模型的推荐算法效率较低。而O2O商品主要是服务类的商品,如汽车售后服务、摄影服务、餐饮、电影等,其特色是线上购买,线下服务,相比于非O2O商品,对O2O商品的推荐面临着巨大的挑战。
因此,如何减少数据稀疏的影响,为用户提供更准确的商品推荐服务是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种O2O商品推荐方法、系统及一种O2O商品推荐设备和一种计算机可读存储介质,减少了数据稀疏的影响,为用户提供更准确的商品推荐服务。
为实现上述目的,本发明实施例提供了一种O2O商品推荐方法,包括:
获取历史行为数据,并对所述历史行为数据进行预处理,得到预处理数据;
选取N个考察日,利用所述考察日之前的预设时间跨度内的预处理数据和所述考察日的预处理数据构建K个训练集;其中,N、K为正整数;
对每个所述训练集进行特征提取,得到每个所述训练集对应的目标特征集;
利用所述目标特征集训练LightGBM模型,利用训练完成的LightGBM模型将所述目标特征集中的特征转换到一个高维稀疏空间,经过one-hot编码后作为新的特征训练LR模型,利用训练完成的LR模型对测试集进行预测得到O2O商品推荐结果。
其中,利用所述特征集训练LightGBM模型之前,还包括:
利用所述LightGBM模型去除所述目标特征集中分数低于预设值的特征。
其中,所述利用训练完成的LR模型对测试集进行预测得到O2O商品推荐结果,包括:
提取所述测试集中O2O商品的历史行为数据,利用训练完成的LR模型对所述测试集进行预测;
对于同一目标特征集对应的预测结果取前P个,得到每个所述目标特征集对应的预测结果;
合并每个所述目标特征集的预测结果并取前Q个预测结果,将所述Q个预测结果作为所述测试集的O2O商品推荐结果;其中,P、Q为均为正整数,Q小于P。
其中,获取历史行为数据,并对所述历史行为数据进行预处理,得到预处理数据,包括:
获取全量商品的历史行为数据,并提取所述历史行为数据中存在交互行为的数据,作为所述预处理数据。
其中,将所述Q个预测结果作为所述测试集的O2O商品推荐结果之前,还包括:
根据预设原则对所述Q个预测结果进行筛选和补充。
其中,对每个所述训练集进行特征提取,得到每个所述训练集对应的目标特征集之前,还包括:
利用k均值算法对每个所述训练集中的负样本进行聚类操作,并在每一类别下抽取预设比例的负样本,得到抽取结果;
将所述抽取结果与每个所述训练集中的正样本合并,作为每个所述训练集。
其中,对每个所述训练集进行特征提取,得到每个所述训练集对应的目标特征集,包括:
提取每个所述训练集的基础特征群和衍生特征群组成每个所述训练集对应的目标特征集;其中,所述基础特征群包括用户特征、商品特征、商品类别特征和地理信息特征,所述衍生特征群为所述基础特征群内各特征之间的关系特征;
对每个所述目标特征集内的特征按预设规则进行排序操作,并对每个所述目标特征集内的特征进行归一化处理。
为实现上述目的,本发明实施例提供了一种O2O商品推荐系统,包括:
获取数据模块,用于获取历史行为数据,并对所述历史行为数据进行预处理,得到预处理数据;
构建训练集模块,用于选取N个考察日,利用所述考察日之前的预设时间跨度内的预处理数据和所述考察日的预处理数据构建K个训练集;其中,N、K为正整数;
提取特征模块,用于对每个所述训练集进行特征提取,得到每个所述训练集对应的目标特征集;
预测模块,用于利用所述目标特征集训练LightGBM模型,利用训练完成的LightGBM模型将所述目标特征集中的特征转换到一个高维稀疏空间,经过one-hot编码后作为新的特征训练LR模型,利用训练完成的LR模型对测试集进行预测得到O2O商品推荐结果。
为实现上述目的,本发明实施例提供了一种O2O商品推荐设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述O2O商品推荐方法的步骤。
为实现上述目的,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述O2O商品推荐方法。
通过以上方案可知,本发明提供的一种O2O商品推荐方法包括:获取历史行为数据,并对所述历史行为数据进行预处理,得到预处理数据;选取N个考察日,利用所述考察日之前的预设时间跨度内的预处理数据和所述考察日的预处理数据构建K个训练集;其中,N、K为正整数;对每个所述训练集进行特征提取,得到每个所述训练集对应的目标特征集;利用所述目标特征集训练LightGBM模型,利用训练好的LightGBM模型所述目标特征集中的特征转换到一个高维稀疏空间,经过one-hot编码后作为新的特征训练LR模型,利用训练完成的LR模型对测试集进行预测得到O2O商品推荐结果。
本发明提供的O2O商品推荐方法,融合了LightGBM模型与LR模型,使用LightGBM模型发掘有区分度的特征以及组合特征,替代人工组合特征,弥补人工经验不足,缩短LR模型的特征实验周期,减少了数据稀疏的影响,为用户提供更准确的商品推荐服务。本发明还公开了一种O2O商品推荐系统及一种O2O商品推荐设备和一种计算机可读存储介质,同样能实现上述技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种O2O商品推荐方法的流程图;
图2为本发明实施例公开的另一种O2O商品推荐方法的流程图;
图3为本发明实施例公开的一种O2O商品推荐系统的结构图;
图4为本发明实施例公开的一种O2O商品推荐设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种O2O商品推荐方法,减少了数据稀疏的影响,为用户提供更准确的商品推荐服务。
参见图1,本发明实施例公开的一种O2O商品推荐方法的流程图,如图1所示,包括:
S101:获取历史行为数据,并对所述历史行为数据进行预处理,得到预处理数据;
O2O(英文全称:Online To Offline,中文全称:线下的商务机会与互联网结合)商品多为服务行业,服务地点存在一定规律,区域间存在竞争,服务商品存在一定的时间规律,和非O2O商品有关联关系,还有周期性购买特征。
在具体实施中,首先搭建Spark+Hadoop的大数据平台,让Spark(一种安全的、经正式定义的编程语言)使用HDFS(英文全称:Hadoop Distributed File System,中文全称:分布式文件系统)存取数据,将用户的历史行为数据通过Sqoop(一个用来将Hadoop和关系型数据库中的数据相互转移的工具)抽取到HDFS上,存入Hive(基于Hadoop的一个数据仓库工具)数据仓库,利用SparkSQL进行数据清洗和特征工程。
上述历史行为数据包含全量商品,即既包含O2O商品也包含非O2O商品。利用全量商品的历史行为数据组成训练集和测试集,在后续步骤中训练集和测试集以相同的方式提取特征,再利用迁移学习的思想,利用训练好的模型去预测对O2O商品有交互行为的数据,辅以知识经验,对预测结果筛选或补充后再进行推荐,提高了O2O商品推荐的准确率。
其中,历史行为数据主要包括:用户ID,商品ID,商品类别(包括:大类、中类、小类),商品类型、商品规格、商品位置信息、用户位置信息,行为数据(包括:浏览、收藏、加购物车、购买),发生行为的时间等,当然还可以包括其他方面的数据信息,在此不作具体限定。
获取用户的历史行为数据后,需要对该数据进行预处理操作,其中预处理操作包括诸多步骤,本领域技术人员可以根据实际情况进行灵活选择,在此不作限定。例如,可以包括去除所述历史行为数据中无交互行为的数据,作为所述预处理数据;其中无交互行为的数据的主要包括无收藏、加购物车、购买行为的用户或商品信息。又如,可以包括去除浏览次数过多且从未购买的用户,去除购买数与浏览数的比值、购买数与加购物车数比值过小的用户数据。再如,可以包括对电商活动日的数据用其前后一天的平均值代替、对含有缺失值的数据补平均值等。
S102:选取N个考察日,利用所述考察日之前的预设时间跨度内的预处理数据和所述考察日的预处理数据构建K个训练集;其中,N、K为正整数;
在具体实施中,可以具体以考察日的星期特性为基准,考察日之前一个星期的历史行为数据为一个训练样本,考察日单体的实际购买情况为该训练样本对应的标签,构成一个训练集。例如,考察日具体为星期六时,选取训练样本中所有的星期六为考察日,选取考察日之前的一星期为预设时间跨度,构建多个训练集。
S103:对每个所述训练集进行特征提取,得到每个所述训练集对应的目标特征集;
在具体实施中,对每个所述训练集从计数、比值、规则、时间、排序五个角度上出发提取特征,主要包括用户或商品的购买力、转化率、活跃度等。具体的:
提取每个所述训练集的基础特征群和衍生特征群组成每个所述训练集对应的目标特征集;其中,所述基础特征群包括用户特征、商品特征、商品类别特征和地理信息特征,所述衍生特征群为所述基础特征群内各特征之间的关系特征;例如,用户与商品之间的关系特征、用户与类别之间的关系特征、商品和商品与类别之间的关系特征之间的关系特征,用户与商品之间的关系特征和用户与类别之间的关系特征之间的关系特征等。
对每个所述目标特征集内的特征按预设规则进行排序操作,并对每个所述目标特征集内的特征进行归一化处理。
上述的预设规则可以包括:用户在考察日前n天对某商品不同行为操作加权值在用户对该类下所有商品加权中的排序,以防止预测一个用户购买同类商品下的大量不同物品;用户在考察日前n天对某商品不同行为操作加权值在用户对所有商品加权中的排序,可以预测出用户最想购买的商品;用户在考察日前n天对某类别不同行为操作加权值在用户对所有商品加权中的排序,可以预测出用户最想购买的类别。当然,还可以包括其他排序规则,在此不作具体限定。
对每个目标特征集内的特征按预设规则进行排序操作后,对目标特征集内的特征进行归一化处理,具体公式为:
其中,μ为所有特征的均值、σ为所有特征的方差,x为每个特征的具体值,x*为归一化后的值。
需要说明的是,对每个所述训练集进行特征提取之前,还包括正负样本的均衡操作,具体的步骤如下:
利用k均值算法对每个所述训练集中的负样本进行聚类操作,并在每一类别下抽取预设比例的负样本,得到抽取结果;
将所述抽取结果与每个所述训练集中的正样本合并,作为每个所述训练集。
S104:利用所述目标特征集训练LightGBM模型,利用训练完成的LightGBM模型将所述目标特征集中的特征转换到一个高维稀疏空间,经过one-hot编码后作为新的特征训练LR模型,利用训练完成的LR模型对测试集进行预测得到O2O商品推荐结果。
上述LightGBM模型是一个实现GBDT算法的框架,基于Histogram的决策树算法和带深度限制的Leaf-wise的叶子生长策略,支持高效率的并行训练,并且有更快的训练速度、更低的内存消耗、更好的准确率、分布式支持、可以快速处理海量数据。
在具体实施中,在此步骤之外,还可以包括利用LightGBM模型中去除分数低于预设值的特征。替代人工组合特征,弥补人工经验不足,缩短后续LR模型的特征实验周期,减少了数据稀疏的对商品推荐算法的影响。然后利用目标特征集中经过筛选的特征重新训练LightGBM模型,并利用训练完成的LightGBM模型将所述目标特征集中的特征转换到一个高维稀疏空间。
利用训练完成的LR模型对测试集进行预测得到O2O商品推荐结果时,默认每个目标特征训练集中的特征都经过了特征筛选和one-hot编码的步骤,即每个特征都达到了预先设定的标准。
具体的步骤如下:
提取所述测试集中O2O商品的历史行为数据,利用训练完成的LR模型对所述测试集进行预测;
对于同一目标特征集对应的预测结果取前P个,得到每个所述目标特征集对应的预测结果;
合并每个所述目标特征集的预测结果并取前Q个预测结果,将所述Q个预测结果作为所述测试集的O2O商品推荐结果;其中,P、Q为均为正整数,Q小于P。
在具体实施中,每个目标特征集都会训练一次LR模型,得到每个目标特征集对应的训练完成的LR(LogisticRegression)模型,再利用这个LR模型预测测试集的购买情况,每个LR模型会对同一个测试集预测多次,取其中的前P个预测结果构成这个目标特征集对应的预测结果。所有的目标特征集都训练完成后,对所有的预测结果取前Q个,将Q个预测结果作为所述测试集的O2O商品推荐结果。
需要说明的是,将所述Q个预测结果作为所述测试集的O2O商品推荐结果之前,还包括:
根据预设原则对所述Q个预测结果进行筛选和补充。
需要说明的是,该预设规则可以包括人工知识经验等,当然还可以包括其他筛选和补充规则,本领域技术人员可以根据实际情况灵活选择,在此不作具体限定。
本发明实施例提供的O2O商品推荐方法,融合了LightGBM模型与LR模型,使用LightGBM模型发掘有区分度的特征以及组合特征,替代人工组合特征,弥补人工经验不足,缩短LR模型的特征实验周期,减少了数据稀疏的影响,为用户提供更准确的商品推荐服务。
下面介绍本发明实施例提供的O2O商品推荐方法具体的实验结果。采集了电商平台一个月(8月1—9月1)的历史行为数据作为全集,字段如下表所示:
表1
字段 | 字段说明 |
User_id | 用户标识 |
Item_id | 商品标识 |
Behavior_type | 用户对商品的行为类型 |
Time | 用户对商品的行为时间 |
Item_category | 商品类别 |
采集了电商平台O2O商品的信息,作为子集,字段如下表所示:
表2
字段 | 字段说明 |
Item_id | 商品标志 |
Item_geohash | 商品所在位置 |
Item_category | 商品类别 |
采用经典的精确度(Precision)、召回率(Recall)、F1值作为评估指标,具体计算公式如下:
其中,Re ferenceSet为所有被检索到的Item个数;Re ferenceSet所有应该被检索到的item个数。
选取9月2日作为考察日,即输出9月2日对O2O商品购买行为的预测结果。基于人工规则的推荐方法最终结果F1=7.08%。基于随机森林的推荐方法最终结果F1=6.36%。
本发明实施例公开的O2O商品推荐方法,利用经验知识先对数据全集进行数据清洗;因考察日为星期六,则以一个月内所有的星期六为考察日,向前一个星期组成一个训练集。对应每个训练集,保留所有正样本,再对负样本采用分层抽样,具体以k均值算法(K-means)聚类,再在每个类别下以一定的比率抽样(此处选用1:200),组成训练集。
对上述训练集进行特征提取得到特征集,再将特征集输入LightGBM模型中去除分数低于预设值的特征,重新训练LightGBM模型,使用训练好的LightGBM模型构建特征,然后将特征经过one-hot编码作为新的特征输入到LR模型训练。取TOP 1000个作为预测结果,对所有的训练集重复以上操作,对多个预测结果加权平均,取TOP 600个,再辅以知识经验进行筛选和补充,弥补模型的不足,比如,删除对子集商品有过购买的数据,对关联商品进行补充等,最终结果F1=10.08%。
利用经验知识,对于F1值的效果提升很快,但是当数据量庞大,字段较多的情况耗时耗力,不太适用;利用随机森林这类单模型信息进行预测,往往不能充分利用好所有的特征;基于混合模型的O2O商品预测方法,对负样本采用分层抽样的方式,使特征具有一定的代表性,并且在模型上使用的是LightGBM模型融合LR模型的方法,LightGBM模型将树的路径直接作为LR模型输入特征使用,省去了人工寻找特征、特征组合的步骤。最终再次通过经验的筛选,使预测效果显著提升。
本发明实施例公开了一种O2O商品推荐方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
参见图2,本发明实施例提供的另一种O2O商品推荐方法的流程图,如图2所示,包括:
S201:获取全量商品的历史行为数据,并提取所述历史行为数据中存在交互行为的数据,作为所述预处理数据;
S202:选取N个考察日,利用所述考察日之前的预设时间跨度内的预处理数据和所述考察日的预处理数据构建K个训练集;其中,N、K为正整数;
S231:利用k均值算法对每个所述训练集中的负样本进行聚类操作,并在每一类别下抽取预设比例的负样本,得到抽取结果;
S232:将所述抽取结果与每个所述训练集中的正样本合并,作为每个所述训练集;
S233:提取每个所述训练集的基础特征群和衍生特征群组成每个所述训练集对应的目标特征集;其中,所述基础特征群包括用户特征、商品特征、商品类别特征和地理信息特征,所述衍生特征群为所述基础特征群内各特征之间的关系特征;
S234:对每个所述目标特征集内的特征按预设规则进行排序操作,并对每个所述目标特征集内的特征进行归一化处理;
S241:将所述目标特征集输入LightGBM模型中去除分数低于预设值的特征;
S242:利用所述目标特征集训练LightGBM模型,利用训练完成的LightGBM模型将所述目标特征集中的特征转换到一个高维稀疏空间,经过one-hot编码后作为新的特征训练LR模型;
S243:提取所述测试集中O2O商品的历史行为数据,利用训练完成的LR模型对所述测试集进行预测;
在具体实施中,对于训练集获取全量商品的历史行为数据,对于测试集获取O2O商品的历史行为数据,符合迁移的思想,提高了商品推荐的准确率。
S244:对于同一目标特征集对应的预测结果取前P个,得到每个所述目标特征集对应的预测结果;
S245:合并每个所述目标特征集的预测结果并取前Q个预测结果;
S246:根据预设原则对所述Q个预测结果进行筛选和补充,并将所述Q个预测结果作为所述测试集的O2O商品推荐结果;其中,P、Q为均为正整数,Q小于P。
下面对本发明实施例提供的一种O2O商品推荐系统进行介绍,下文描述的一种O2O商品推荐系统与上文描述的一种O2O商品推荐方法可以相互参照。
参见图3,本发明实施例提供的一种O2O商品推荐系统的结构图,如图3所示,包括:
获取数据模块301,用于获取历史行为数据,并对所述历史行为数据进行预处理,得到预处理数据;
构建训练集模块302,用于选取N个考察日,利用所述考察日之前的预设时间跨度内的预处理数据和所述考察日的预处理数据构建K个训练集;其中,N、K为正整数;
提取特征模块303,用于对每个所述训练集进行特征提取,得到每个所述训练集对应的目标特征集;
预测模块304,用于利用所述目标特征集训练LightGBM模型,利用训练完成的LightGBM模型将所述目标特征集中的特征转换到一个高维稀疏空间,经过one-hot编码后作为新的特征训练LR模型,利用训练完成的LR模型对测试集进行预测得到O2O商品推荐结果。
本发明实施例提供的O2O商品推荐系统,融合了LightGBM模型与LR模型,使用LightGBM模型发掘有区分度的特征以及组合特征,替代人工组合特征,弥补人工经验不足,缩短LR模型的特征实验周期,减少了数据稀疏的影响,为用户提供更准确的商品推荐服务。
在上述实施例的基础上,作为优选实施方式,还包括:
特征筛选模块,用于利用所述LightGBM模型去除所述目标特征集中分数低于预设值的特征。
在上述实施例的基础上,作为优选实施方式,所述预测模块304具体包括:
转换单元,用于利用所述目标特征集训练LightGBM模型,利用训练完成的LightGBM模型将所述目标特征集中的特征转换到一个高维稀疏空间,经过one-hot编码后作为新的特征训练LR模型;
预测单元,用于提取所述测试集中O2O商品的历史行为数据,利用训练完成的LR模型对所述测试集进行预测;
选择单元,用于对于同一目标特征集对应的预测结果取前P个,得到每个所述目标特征集对应的预测结果;
合并单元,用于合并每个所述目标特征集的预测结果并取前Q个预测结果,将所述Q个预测结果作为所述测试集的O2O商品推荐结果;其中,P、Q为均为正整数,Q小于P。
在上述实施例的基础上,作为优选实施方式,所述获取数据模块301具体包括:
获取单元,用于获取历史行为数据;
预处理单元,用于提取所述历史行为数据中存在交互行为的数据,作为所述预处理数据。
在上述实施例的基础上,作为优选实施方式,还包括:
特征抽取模块,用于利用k均值算法对每个所述训练集中的负样本进行聚类操作,并在每一类别下抽取预设比例的负样本,得到抽取结果;
确定特征集模块,用于将所述抽取结果与每个所述训练集中的正样本合并,作为每个所述训练集。
在上述实施例的基础上,作为优选实施方式,所述提取特征模块303具体包括:
提取单元,用于提取每个所述训练集的基础特征群和衍生特征群组成每个所述训练集对应的目标特征集;其中,所述基础特征群包括用户特征、商品特征、商品类别特征和地理信息特征,所述衍生特征群为所述基础特征群内各特征之间的关系特征;
排序单元,用于对每个所述目标特征集内的特征按预设规则进行排序操作,并对每个所述特征集内的目标特征进行归一化处理。
本申请还提供了一种O2O商品推荐设备,参见图4,本发明实施例提供的一种O2O商品推荐设备的结构图,如图4所示,包括:
存储器401,用于存储计算机程序;
处理器402,用于执行所述计算机程序时可以实现上述实施例所提供的步骤。当然所述O2O商品推荐设备还可以包括各种网络接口,电源等组件。
本发明实施例提供的O2O商品推荐设备,融合了LightGBM模型与LR模型,使用LightGBM模型发掘有区分度的特征以及组合特征,替代人工组合特征,弥补人工经验不足,缩短LR模型的特征实验周期,减少了数据稀疏的影响,为用户提供更准确的商品推荐服务。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种O2O商品推荐方法,其特征在于,包括:
获取历史行为数据,并对所述历史行为数据进行预处理,得到预处理数据;
选取N个考察日,利用所述考察日之前的预设时间跨度内的预处理数据和所述考察日的预处理数据构建K个训练集;其中,N、K为正整数;
对每个所述训练集进行特征提取,得到每个所述训练集对应的目标特征集;
利用所述目标特征集训练LightGBM模型,利用训练完成的LightGBM模型将所述目标特征集中的特征转换到一个高维稀疏空间,经过one-hot编码后作为新的特征训练LR模型,利用训练完成的LR模型对测试集进行预测得到O2O商品推荐结果。
2.根据权利要求1所述O2O商品推荐方法,其特征在于,利用所述特征集训练LightGBM模型之前,还包括:
利用所述LightGBM模型去除所述目标特征集中分数低于预设值的特征。
3.根据权利要求1所述O2O商品推荐方法,其特征在于,所述利用训练完成的LR模型对测试集进行预测得到O2O商品推荐结果,包括:
提取所述测试集中O2O商品的历史行为数据,利用训练完成的LR模型对所述测试集进行预测;
对于同一目标特征集对应的预测结果取前P个,得到每个所述目标特征集对应的预测结果;
合并每个所述目标特征集的预测结果并取前Q个预测结果,将所述Q个预测结果作为所述测试集的O2O商品推荐结果;其中,P、Q为均为正整数,Q小于P。
4.根据权利要求1所述O2O商品推荐方法,其特征在于,获取历史行为数据,并对所述历史行为数据进行预处理,得到预处理数据,包括:
获取全量商品的历史行为数据,并提取所述历史行为数据中存在交互行为的数据,作为所述预处理数据。
5.根据权利要求3所述O2O商品推荐方法,其特征在于,将所述Q个预测结果作为所述测试集的O2O商品推荐结果之前,还包括:
根据预设原则对所述Q个预测结果进行筛选和补充。
6.根据权利要求1所述O2O商品推荐方法,其特征在于,对每个所述训练集进行特征提取,得到每个所述训练集对应的目标特征集之前,还包括:
利用k均值算法对每个所述训练集中的负样本进行聚类操作,并在每一类别下抽取预设比例的负样本,得到抽取结果;
将所述抽取结果与每个所述训练集中的正样本合并,作为每个所述训练集。
7.根据权利要求1所述O2O商品推荐方法,其特征在于,对每个所述训练集进行特征提取,得到每个所述训练集对应的目标特征集,包括:
提取每个所述训练集的基础特征群和衍生特征群组成每个所述训练集对应的目标特征集;其中,所述基础特征群包括用户特征、商品特征、商品类别特征和地理信息特征,所述衍生特征群为所述基础特征群内各特征之间的关系特征;
对每个所述目标特征集内的特征按预设规则进行排序操作,并对每个所述目标特征集内的特征进行归一化处理。
8.一种O2O商品推荐系统,其特征在于,包括:
获取数据模块,用于获取历史行为数据,并对所述历史行为数据进行预处理,得到预处理数据;
构建训练集模块,用于选取N个考察日,利用所述考察日之前的预设时间跨度内的预处理数据和所述考察日的预处理数据构建K个训练集;其中,N、K为正整数;
提取特征模块,用于对每个所述训练集进行特征提取,得到每个所述训练集对应的目标特征集;
预测模块,用于利用所述目标特征集训练LightGBM模型,利用训练完成的LightGBM模型将所述目标特征集中的特征转换到一个高维稀疏空间,经过one-hot编码后作为新的特征训练LR模型,利用训练完成的LR模型对测试集进行预测得到O2O商品推荐结果。
9.一种O2O商品推荐设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述O2O商品推荐方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述O2O商品推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711460598.2A CN107944986B (zh) | 2017-12-28 | 2017-12-28 | 一种o2o商品推荐方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711460598.2A CN107944986B (zh) | 2017-12-28 | 2017-12-28 | 一种o2o商品推荐方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107944986A true CN107944986A (zh) | 2018-04-20 |
CN107944986B CN107944986B (zh) | 2022-02-15 |
Family
ID=61939634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711460598.2A Active CN107944986B (zh) | 2017-12-28 | 2017-12-28 | 一种o2o商品推荐方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107944986B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109559163A (zh) * | 2018-11-16 | 2019-04-02 | 广州麦优网络科技有限公司 | 一种基于机器学习的模型构建方法及销售预测方法 |
CN109903554A (zh) * | 2019-02-21 | 2019-06-18 | 长安大学 | 一种基于Spark的路网交通运行分析方法 |
CN110033355A (zh) * | 2019-04-17 | 2019-07-19 | 中国联合网络通信集团有限公司 | 话费套餐推荐的方法和系统 |
CN110163525A (zh) * | 2019-05-29 | 2019-08-23 | 中国联合网络通信集团有限公司 | 终端推荐方法和终端推荐系统 |
CN110458650A (zh) * | 2019-07-11 | 2019-11-15 | 北京三快在线科技有限公司 | 商品推荐方法、装置、电子设备及存储介质 |
CN110555717A (zh) * | 2019-07-29 | 2019-12-10 | 华南理工大学 | 基于用户行为特征挖掘用户潜在购买商品和品类的方法 |
CN110827045A (zh) * | 2018-08-07 | 2020-02-21 | 北京京东尚科信息技术有限公司 | 一种区分商品关系的方法和装置 |
CN110851571A (zh) * | 2019-11-14 | 2020-02-28 | 拉扎斯网络科技(上海)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN111311330A (zh) * | 2020-02-25 | 2020-06-19 | 上海昌投网络科技有限公司 | 一种基于LightGBM和文本挖掘的社群精准营销方法及装置 |
CN111915329A (zh) * | 2020-07-30 | 2020-11-10 | 上海数策软件股份有限公司 | 一种基于汽车行业售后场景的个性化推荐方法及系统 |
CN112199417A (zh) * | 2020-09-30 | 2021-01-08 | 中国平安人寿保险股份有限公司 | 基于人工智能的数据处理方法、装置、终端及存储介质 |
CN112256964A (zh) * | 2020-10-22 | 2021-01-22 | 重庆邮电大学 | 一种基于多维度数据学习的金融机构潜在客户推荐方法 |
CN112487291A (zh) * | 2020-11-28 | 2021-03-12 | 重庆邮电大学 | 一种基于大数据的个性化新闻推荐方法及装置 |
CN112766995A (zh) * | 2019-10-21 | 2021-05-07 | 招商证券股份有限公司 | 物品推荐方法、装置、终端设备及存储介质 |
CN116596576A (zh) * | 2023-07-17 | 2023-08-15 | 深圳须弥云图空间科技有限公司 | 目标推荐方法及装置 |
CN112766995B (zh) * | 2019-10-21 | 2024-09-24 | 招商证券股份有限公司 | 物品推荐方法、装置、终端设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127546A (zh) * | 2016-06-20 | 2016-11-16 | 重庆房慧科技有限公司 | 一种基于智慧社区大数据的商品推荐方法 |
CN107294993A (zh) * | 2017-07-05 | 2017-10-24 | 重庆邮电大学 | 一种基于集成学习的web异常流量监测方法 |
CN107423442A (zh) * | 2017-08-07 | 2017-12-01 | 火烈鸟网络(广州)股份有限公司 | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 |
-
2017
- 2017-12-28 CN CN201711460598.2A patent/CN107944986B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127546A (zh) * | 2016-06-20 | 2016-11-16 | 重庆房慧科技有限公司 | 一种基于智慧社区大数据的商品推荐方法 |
CN107294993A (zh) * | 2017-07-05 | 2017-10-24 | 重庆邮电大学 | 一种基于集成学习的web异常流量监测方法 |
CN107423442A (zh) * | 2017-08-07 | 2017-12-01 | 火烈鸟网络(广州)股份有限公司 | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827045A (zh) * | 2018-08-07 | 2020-02-21 | 北京京东尚科信息技术有限公司 | 一种区分商品关系的方法和装置 |
CN109559163A (zh) * | 2018-11-16 | 2019-04-02 | 广州麦优网络科技有限公司 | 一种基于机器学习的模型构建方法及销售预测方法 |
CN109903554A (zh) * | 2019-02-21 | 2019-06-18 | 长安大学 | 一种基于Spark的路网交通运行分析方法 |
CN110033355A (zh) * | 2019-04-17 | 2019-07-19 | 中国联合网络通信集团有限公司 | 话费套餐推荐的方法和系统 |
CN110163525A (zh) * | 2019-05-29 | 2019-08-23 | 中国联合网络通信集团有限公司 | 终端推荐方法和终端推荐系统 |
CN110458650A (zh) * | 2019-07-11 | 2019-11-15 | 北京三快在线科技有限公司 | 商品推荐方法、装置、电子设备及存储介质 |
CN110555717A (zh) * | 2019-07-29 | 2019-12-10 | 华南理工大学 | 基于用户行为特征挖掘用户潜在购买商品和品类的方法 |
CN112766995A (zh) * | 2019-10-21 | 2021-05-07 | 招商证券股份有限公司 | 物品推荐方法、装置、终端设备及存储介质 |
CN112766995B (zh) * | 2019-10-21 | 2024-09-24 | 招商证券股份有限公司 | 物品推荐方法、装置、终端设备及存储介质 |
CN110851571A (zh) * | 2019-11-14 | 2020-02-28 | 拉扎斯网络科技(上海)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN110851571B (zh) * | 2019-11-14 | 2022-11-25 | 拉扎斯网络科技(上海)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN111311330A (zh) * | 2020-02-25 | 2020-06-19 | 上海昌投网络科技有限公司 | 一种基于LightGBM和文本挖掘的社群精准营销方法及装置 |
CN111915329A (zh) * | 2020-07-30 | 2020-11-10 | 上海数策软件股份有限公司 | 一种基于汽车行业售后场景的个性化推荐方法及系统 |
CN112199417A (zh) * | 2020-09-30 | 2021-01-08 | 中国平安人寿保险股份有限公司 | 基于人工智能的数据处理方法、装置、终端及存储介质 |
CN112256964A (zh) * | 2020-10-22 | 2021-01-22 | 重庆邮电大学 | 一种基于多维度数据学习的金融机构潜在客户推荐方法 |
CN112487291A (zh) * | 2020-11-28 | 2021-03-12 | 重庆邮电大学 | 一种基于大数据的个性化新闻推荐方法及装置 |
CN112487291B (zh) * | 2020-11-28 | 2022-06-10 | 重庆邮电大学 | 一种基于大数据的个性化新闻推荐方法及装置 |
CN116596576A (zh) * | 2023-07-17 | 2023-08-15 | 深圳须弥云图空间科技有限公司 | 目标推荐方法及装置 |
CN116596576B (zh) * | 2023-07-17 | 2024-04-16 | 深圳须弥云图空间科技有限公司 | 目标推荐方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107944986B (zh) | 2022-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107944986A (zh) | 一种o2o商品推荐方法、系统及设备 | |
CN107944913B (zh) | 基于大数据用户行为分析的高潜在用户购买意向预测方法 | |
CN110704674B (zh) | 一种视频播放完整度预测方法及装置 | |
Sun et al. | Discovering themes and trends in transportation research using topic modeling | |
CN102053971B (zh) | 用于面向排序的协同过滤的推荐方法和设备 | |
CN106503025B (zh) | 一种应用推荐方法和系统 | |
CN108205766A (zh) | 信息推送方法、装置及系统 | |
CN105868847A (zh) | 一种购物行为的预测方法及装置 | |
CN110110221A (zh) | 政务数据智能推荐方法和系统 | |
CN106327227A (zh) | 一种信息推荐系统及信息推荐方法 | |
CN109582875A (zh) | 一种在线医疗教育资源的个性化推荐方法及系统 | |
CN109582876A (zh) | 旅游行业用户画像构造方法、装置和计算机设备 | |
Papagiannidis et al. | Identifying industrial clusters with a novel big-data methodology: Are SIC codes (not) fit for purpose in the Internet age? | |
CN108256537A (zh) | 一种用户性别预测方法和系统 | |
CN104993962A (zh) | 获取终端使用状态的方法和系统 | |
CN113918806A (zh) | 自动推荐培训课程的方法及相关设备 | |
CN101986301B (zh) | 一种基于逆邻分析的协作过滤推荐系统及方法 | |
CN116308109A (zh) | 一种基于大数据的企业政策智能推荐及政策制定系统 | |
CN104077288B (zh) | 网页内容推荐方法和网页内容推荐设备 | |
CN111104614A (zh) | 用于旅游目的地推荐系统的召回信息的生成方法 | |
CN108268519A (zh) | 一种推荐网络对象的方法和装置 | |
CN110209944A (zh) | 一种股票分析师推荐方法、装置、计算机设备和存储介质 | |
Luo et al. | A multi-step decision prediction model based on LightGBM | |
Utama et al. | Scientific Articles Recommendation System Based On User’s Relatedness Using Item-Based Collaborative Filtering Method | |
CN115965439A (zh) | 数据召回方法、数据召回装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |