CN109960777A

CN109960777A - 物品评论个性化推荐方法、系统、电子设备及存储介质

Info

Publication number: CN109960777A
Application number: CN201711421273.3A
Authority: CN
Inventors: 王颖帅; 李晓霞; 苗诗雨
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2019-07-02
Anticipated expiration: 2037-12-25
Also published as: CN109960777B

Abstract

本发明公开了一种物品评论个性化推荐方法、系统、电子设备及存储介质，其中方法包括：对物品的多个物品评论数据进行预处理；从预处理后的物品评论数据中提取特征，记录每一特征的取值及所述物品评论数据是否对用户选择所述物品产生影响；将所述物品评论数据是否对用户选择所述物品产生影响作为目标变量，结合所述特征的取值构建基于Xgboost的算法模型；在目标用户浏览所述物品时，根据所述算法模型输出所述物品的匹配所述目标用户的物品评论数据。本发明使得网站海量物品的评论数据有了个性化成分，每个用户对同样的物品可以看到不一样的评价。

Description

物品评论个性化推荐方法、系统、电子设备及存储介质

技术领域

本发明属于数据挖掘领域，尤其涉及一种物品评论个性化推荐方法、系统、电子设备及存储介质。

背景技术

随着网络技术的蓬勃发展、不同用户之间的网络交流越来越频繁，越来越多的用户在选择物品时会参考其他用户对物品的评价，从而借助于其他用户对与物品的评价了解物品的真实情况，从而确定物品的综合质量或是否满足自身的需求。由于用户的评论数量迅猛增长，有些热门物品的评论数据可能有好几万条，挖掘一种自动化的机器学习算法，进行评论推荐，就显得越来越重要。

现有技术中常用的机器学习算法是线性回归确定特征系数，给出排序计算公式。通常先由分析师根据业务经验，确定评论需要提取的特征和回归的目标变量，然后在统计软件中做小样本数据分析，拟合线性回归方程，计算物品的评论分数。

这种方式的缺点是分析师做的是小样本的统计分析，确定特征系数，小样本数据不能完全代表大数据特征，现实世界的数据一般关系比较复杂，特征之间的关系也不一定是线性的，非线性分布偏多，线性回归拟合不能挖掘更有价值的或更高级的抽象特征。进而导致计算出的物品评论分数不准确，难以实现对物品评论的精准推荐，无法满足用户的需求。

发明内容

本发明要解决的技术问题是为了克服现有技术中利用线性回归算法计算出的物品评论分数不准确、难以满足对物品评论的精准推荐的缺陷，提供一种物品评论个性化推荐方法、系统、电子设备及存储介质。

本发明是通过以下技术方案解决上述技术问题的：

本发明提供一种物品评论个性化推荐方法，包括：

对物品的多个物品评论数据进行预处理；

从预处理后的物品评论数据中提取特征，记录每一特征的取值及所述物品评论数据是否对用户选择所述物品产生影响；

将所述物品评论数据是否对用户选择所述物品产生影响作为目标变量，结合所述特征的取值构建基于Xgboost(极限梯度提升树)的算法模型；

在目标用户浏览所述物品时，根据所述算法模型输出所述物品的匹配所述目标用户的物品评论数据。

较佳地，将所述物品评论数据是否对用户选择所述物品产生影响作为目标变量，结合所述特征的取值构建基于Xgboost的算法模型，包括：

将所述物品评论数据是否对用户选择所述物品产生影响作为目标变量，基于Xgboost构建树并计算每一特征的重要性；

调试Xgboost的算法参数，以使得算法评估指标达到预设值；

测试并优化特征和Xgboost的算法参数，以形成所述算法模型。

较佳地，对物品的多个物品评论数据进行预处理，包括：

在所述物品评论数据的信息存在缺失时，删除所述物品评论数据或补全缺失的信息。

较佳地，在所述物品评论数据的信息存在缺失时，根据以下因素中的至少一个确定是删除所述物品评论数据或是补全缺失的信息：

所述物品评论数据的评论者的属性；

所述多个物品评论数据中缺失信息的物品评论数据的数量。

较佳地，通过以下方式中的任意一种补全缺失的信息：

根据缺失的信息的种类，将指定量插补至缺失的信息；

从物品评论数据集中，选取与缺失信息的物品评论数据在时间上最接近的物品评论数据，将选取的物品评论数据中与缺失的信息同一种类的信息插补至缺失的信息；

通过统计物品评论数据集中所有或部分物品评论数据中与缺失的信息同一种类的信息的分布情况，根据所述分布情况确定数值插补至缺失的信息。

较佳地，对物品的多个物品评论数据进行预处理，还包括：

去除异常的物品评论数据；

将所述物品评论数据归一化。

较佳地，所述特征包括用户维度特征、评论维度特征和交互维度特征；

其中，所述用户维度特征包括用户性别、用户重要度等级、用户是否为物品供应机构的会员和用户价值分中的至少一种；

所述评论维度特征包括评论者评论等级分、评论创建时间距当前时间距离、评论分数、评论回复数、评论长度、评论中的图片个数、评论是否有追评、评论中包含的物品标签数量中的至少一种；

所述交互维度特征包括评论点赞的个数。

较佳地，计算每一特征的重要性，包括：

计算每一特征在基于Xgboost构建树的过程中的信息增益；

计算每一特征与目标变量之间的相关程度；

计算每一特征在基于Xgboost构建树的过程中的频数；

通过比较所有特征的信息增益、相关程度或频数来衡量每一特征的重要性。

较佳地，调试的算法参数包括：通用超参数、梯度提升参数、每一棵树参数、任务学习参数；算法评估指标包括：AUC。

较佳地，通过追踪用户在浏览所述物品评论数据之后是否选择所述物品，确定所述物品评论数据是否对用户选择所述物品产生影响。

本发明还提供一种物品评论个性化推荐系统，包括：数据预处理模块、特征工程模块、算法模型模块和线上应用模块；

所述数据预处理模块用于对物品的多个物品评论数据进行预处理；

所述特征工程模块用于从预处理后的物品评论数据中提取特征，记录每一特征的取值及所述物品评论数据是否对用户选择所述物品产生影响；

所述算法模型模块用于将所述物品评论数据是否对用户选择所述物品产生影响作为目标变量，结合所述特征的取值构建基于Xgboost的算法模型；

所述线上应用模块用于在目标用户浏览所述物品时，根据所述算法模型输出所述物品的匹配所述目标用户的物品评论数据。

较佳地，所述算法模型模块包括：特征重要性模块、Xgboost算法模块和评估指标模块；

所述特征重要性模块用于将所述物品评论数据是否对用户选择所述物品产生影响作为目标变量，基于Xgboost构建树并计算每一特征的重要性；

所述Xgboost算法模块用于调试Xgboost的算法参数，以使得算法评估指标达到预设值；

所述评估指标模块用于测试并优化特征和Xgboost的算法参数，以形成所述算法模型。

较佳地，所述数据预处理模块包括：缺失值处理模块；

所述缺失值处理模块用于在所述物品评论数据的信息存在缺失时，删除所述物品评论数据或补全缺失的信息。

较佳地，所述缺失值处理模块用于在所述物品评论数据的信息存在缺失时，根据以下因素中的至少一个确定是删除所述物品评论数据或是补全缺失的信息：

所述物品评论数据的评论者的属性；

所述多个物品评论数据中缺失信息的物品评论数据的数量。

较佳地，所述缺失值处理模块还用于通过以下方式中的任意一种补全缺失的信息：

根据缺失的信息的种类，将指定量插补至缺失的信息；

较佳地，所述数据预处理模块还包括：异常值处理模块和数据归一化模块；

所述异常值处理模块用于去除异常的物品评论数据；

所述数据归一化模块用于将所述物品评论数据归一化。

所述交互维度特征包括评论点赞的个数。

较佳地，所述特征重要性模块中计算每一特征的重要性，包括：

计算每一特征在基于Xgboost构建树的过程中的信息增益；

计算每一特征与目标变量之间的相关程度；

计算每一特征在基于Xgboost构建树的过程中的频数；

较佳地，所述Xgboost算法模块中调试的算法参数包括：通用超参数、梯度提升参数、每一棵树参数、任务学习参数；算法评估指标包括：AUC。

较佳地，通过追踪用户在浏览所述物品评论数据之后是否将选择所述物品，确定所述物品评论数据是否对用户选择所述物品产生影响。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述各优选条件任意组合的物品评论个性化推荐方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述各优选条件任意组合的物品评论个性化推荐方法的步骤。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明的积极进步效果在于：本发明使得海量物品的评论数据有了个性化成分，每个用户对同样的物品可以看到不一样的评价，抓住用户需求，提升了物品的被选择概率；本发明还在大数据样本量下，通过构建特征工程、运用Xgboost极限梯度提升树算法构建算法模型，达到较好的预测效果，匹配时代的大数据人工智能发展趋势。

附图说明

图1为本发明较佳实施例1的物品评论个性化推荐方法流程图。

图2为本发明较佳实施例1的物品评论个性化推荐方法中步骤101的流程图。

图3为一种利用不同因素确定删除所述物品评论数据或是补全缺失的信息以及如何补全缺失的信息的具体实施方式的流程图。

图4为本发明较佳实施例1的物品评论个性化推荐方法中步骤103的流程图。

图5为Xgboost算法中的建树环节的流程图。

图6为本发明较佳实施例2的物品评论个性化推荐系统的示意框图。

图7为本发明较佳实施例3的电子设备的硬件结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

一种物品评论个性化推荐方法，如图1所示，包括：

步骤101、对物品的多个物品评论数据进行预处理。其中，所述物品可以为实体产品或虚拟产品，本发明对物品的具体种类并不做限制，可以为具有实体结构的产品、电影、图书、电子读物、网络文章等，对应的物品评论数据可以为描述具体实体结构的产品的性能或品质的内容、评价电影观感的内容、评价图书或电子读物或网络文章读后感的内容等。

步骤102、从预处理后的物品评论数据中提取特征，记录每一特征的取值及所述物品评论数据是否对用户选择所述物品产生影响。

步骤103、将所述物品评论数据是否对用户选择所述物品产生影响作为目标变量，结合所述特征的取值构建基于Xgboost的算法模型。

步骤104、在目标用户浏览所述物品时，根据所述算法模型输出所述物品的匹配所述目标用户的物品评论数据。

本实施例的物品评论个性化推荐方法通过机器学习算法Xgboost对海量的物品评论数据做个性化排序，在目标用户浏览所述物品时，根据目标用户需求，向目标用户提供匹配目标用户需求的物品评论数据，有助于提高物品被选中的概率。

下面对本实施例的物品评论个性化推荐方法及步骤101-步骤104作进一步说明：

本实施例中，物品评论数据可以通过物品供应机构的网站的大数据平台收集并存储于物品评论数据集中。其中，所述物品供应机构的网站指的是提供物品或展示物品的单位或组织所构建的网络平台，例如，在物品为具有实体结构的产品时物品供应机构的网站可以为出售商品的网站，在物品为电影时物品供应机构的网站可以为提供在线观看电影的网站或出售电影票的网站，在物品为电子读物或网络文章时物品供应机构的网站可以为提供在线阅读电子读物或网络文章的网站。

具体的物品评论数据可以包括但不限于包括以下内容：用户相关信息(如发表评论的用户的性别、年龄、在电子商务网站的等级等)、评论内容相关信息(如给物品的打分、评论的长度、评论的时间等)、其他用户对评论的反馈(如评论点赞的个数等)。

所述物品评论数据集中还存储有所述物品评论数据是否对用户选择所述物品产生影响。本实施例具体是通过追踪用户在浏览所述物品评论数据之后是否选择所述物品，确定所述物品评论数据是否对用户选择所述物品产生影响。即，若通过追踪发现用户在浏览所述物品评论数据之后选择所述物品，则确定所述物品评论数据对用户选择所述物品产生影响；若通过追踪发现用户在浏览所述物品评论数据之后未选择所述物品，则确定所述物品评论数据未对用户选择所述物品产生影响。还是以所述物品分别为具有实体结构的产品、电影、电子读物或网络文章为例，对确定物品评论数据是否对用户选择所述物品产生影响做进一步说明：对于具有实体结构的产品，若用户在浏览了产品的某一评论数据之后将该产品加入了购物车或购买了该产品，则确定该评论数据对用户选择该产品产生影响；对于电影，若用户在浏览电影的影评之后在线观看了该电影或是购买了该电影的电影票，则确定该影评对用户选择该电影产生影响；对于电子读物或网络文章，若用户浏览电子读物或网络文章的读后评论之后在线阅读或购买了该电子读物或网络文章，则确定该读后评论对用户选择该电子读物或网络文章产生影响。

另外，为了便于记录、存储，本实施例为对用户选择所述物品产生影响的物品评论数据和未对用户选择所述物品产生影响的物品评论数据分别设置不同的标签，如：对用户选择所述物品产生影响的物品评论数据的标签为1，对用户选择所述物品未产生影响的物品评论数据的标签为0。

步骤101中，本实施例并不限定所述多个物品评论数据的具体数量，即使数量很多，本实施例的方法同样适用。如图2所示，步骤101具体包括：

步骤1011、在所述物品评论数据的信息存在缺失时，删除所述物品评论数据或补全缺失的信息。

步骤1012、去除异常的物品评论数据。异常的物品评论数据是指数据分布极大或极小的点，本实施例统计数据分布中前5％和后5％(或其它百分比)的点，认为是异常点，需要去除。

步骤1013、将所述物品评论数据归一化。归一化的目的是为了所有的样本数据都在同样的量纲下比较，具体的归一化公式为：

其中，y是指物品评论数据中每一个维度的特征数据取值。比如用户的评论长度这个特征，有的评论很短，有的很长，通过步骤1012将字数最多的5％的物品评论数据和字数最少的5％的物品评论数据都去掉，然后在剩余数据中，找出最大值和最小值，按照上述公式进行归一化。

在步骤1011中，在所述物品评论数据的信息存在缺失时，可以根据以下因素中的任意一种或两种结合确定是删除所述物品评论数据或是补全缺失的信息：

所述物品评论数据的评论者的属性；

所述多个物品评论数据中缺失信息的物品评论数据的数量。

对于需要补全缺失的信息的情况，可以通过以下方式中的任意一种补全缺失的信息：

根据缺失的信息的种类，将指定量插补至缺失的信息；

图3示出了一种利用上述不同因素确定删除所述物品评论数据或是补全缺失的信息以及如何补全缺失的信息的具体实施方式。具体包括：

步骤1011-1、判断评论者的属性是否为活跃用户，若是，则执行步骤1011-2，若否，则执行步骤1011-5。其中，活跃用户为属性中的一种，评论者的属性是否为活跃用户可以通过用户价值模型或其他技术手段分析评论者的重要度确定，若评论者的重要度较高，则评论者的属性为活跃用户，若评论者的重要度较低，则评论者的属性为不活跃用户。

步骤1011-2、判断缺失的信息的种类，若是数值型，则执行步骤1011-3，若是分类类型，则执行步骤1011-4。

步骤1011-3、通过数学变换从指定数值范围内选择一个指定数值插补至缺失的信息。具体选用哪一种数学变换，取决于业务的需求和模型的选取，比如选用逻辑回归模型，对数据的取值范围比较敏感，就需要做归一化处理，比如选用随机森林或梯度提升树模型，对数据取值范围不敏感，就不需要做归一化处理。

步骤1011-4、创建一个新的分类插补至缺失的信息。

步骤1011-5、判断所述多个物品评论数据中缺失信息的物品评论数据的数量是否大于预设值，若是，则执行步骤1011-6，若否，则执行步骤1011-9。其中，所述预设值可以为所述多个物品评论数据的总数量的百分之几。

步骤1011-6、判断物品评论数据集的物品评论数据是否按发表时间有序排序，若是，则执行步骤1011-7，若否，则执行步骤1011-8。

步骤1011-7、选取与缺失信息的物品评论数据在发表时间上最接近的物品评论数据，将选取的物品评论数据中与缺失的信息同一种类的信息插补至缺失的信息。

步骤1011-8、通过统计物品评论数据集中所有或部分物品评论数据中与缺失的信息同一种类的信息的分布情况，根据所述分布情况确定数值插补至缺失的信息。具体可以使用简单机器学习模型插补缺失的信息，或使用该种类信息的平均值作为缺失的信息，或使用该种类信息的中位数作为缺失的信息。或其它方式插补至缺失的信息。

步骤1011-9、删除所述物品评论数据。

上述步骤利用上述因素将缺失的信息分为多种情况，并有针对性地选择了合适的处理方式，为模型准确度提高了良好的保障。

步骤102实现了由原始的物品评论数据向用于机器学习模型的特征的数学转换，使机器学习更容易识别用户偏好的评论类型。其中，所述特征包括用户维度特征、评论维度特征和交互维度特征；

所述用户维度特征包括用户性别、用户重要度等级、用户是否为物品供应机构的会员和用户价值分中的至少一种；

所述交互维度特征包括评论点赞的个数。

本实施例在具体实施时使用了上述所有特征，并对所有特征按上述所列的次序顺序编号，下面示意性地给出记录的一组物品评论数据：

0.0 1:1.0 2:105.0 3:40000.0 4:0.0 5:0.0 6:43.0 7:5.0 8:0.0 9:36.0 10:2.0 11:0.0 12:0.0 13:0.0

0.0 1:0.0 2:105.0 3:40000.0 4:0.0 5:0.0 6:0.0 7:5.0 8:0.0 9:50.0 10:6.0 11:0.0 12:0.0 13:0.0

1.0 1:0.0 2:105.0 3:-1.0 4:0.0 5:0.0 6:3.0 7:5.0 8:0.0 9:54.0 10:1.011:0.0 12:0.0 13:0.0

其中，每一特征以空格隔开，第一列是物品评论数据的标签，取值为1或0，后面各列依次表示特征标号：特征取值。记录的所有物品评论数据一部分放入训练集，一部分放入测试集。

本实施例中，如图4所示，步骤103具体包括：

步骤1031、将所述物品评论数据是否对用户选择所述物品产生影响作为目标变量，基于Xgboost构建树并计算每一特征的重要性。

步骤1032、调试Xgboost的算法参数，以使得算法评估指标达到预设值；

步骤1033、测试并优化特征和Xgboost的算法参数，以形成所述算法模型。

步骤1031中计算每一特征的重要性，具体可以包括：

计算每一特征在基于Xgboost构建树的过程中的信息增益；

计算每一特征与目标变量之间的相关程度；

计算每一特征在基于Xgboost构建树的过程中的频数，所述频数是指特征被统计分裂时统计到的次数；

通过比较所有特征的信息增益、相关程度或频数来衡量每一特征的重要性。其中，一个特征的信息增益越大，对目标变量的贡献越大，重要性也越大；一个特征的与目标变量之间的相关程度越高就越重要；一个特征的频数越大就越重要。

下面示意性地给出上述特征中按照信息增益的降序排列前3位特征的重要性计算结果：

表1

步骤1032中调试的算法参数包括：通用超参数、梯度提升参数、每一棵树参数、任务学习参数；算法评估指标包括：AUC。

在具体实施时，将AUC设置为0.8，并且设置了以下关键参数：

Booster：梯度提升选择的算法，可以选取线性的gblinear和非线性的gbtree，本实施例设置为非线性的gbtree；

Objective：学习目标变量的分类器，本实施例设置的是binary:logistic；

eta：学习速率，取值范围0到1，本实施例设置的是0.01；

gamma：损失函数因子，本实施例设置为1；

min_child_weight：可以成为叶子节点的最小样本量，取值范围0到正无穷，本实施例设置为2；

max_depth：树的最大深度，取值范围0到正无穷，本实施例设置为15；

subsample：算法选取的训练样本百分比，取值范围0到1，本发明实施例设置为0.75；

lambda：目标函数正则项的惩罚因子，本实施例设置为1；

max_bins：连续特征的分箱数，本实施例设置为256；

tree_method：树的迭代方法，可以选择的有“auto”,“exact”,“approx”,“hist”，本实施例中设置为“auto”；

eval_metric：评估指标矩阵，本实施例设置为“auc”和“error”；

num_round：树的迭代次数，本实施例设置为500。

图5示出了Xgboost算法中的建树环节的流程图。具体包括：

步骤1031-1、初始化样本到树节点的position映射关系。

步骤1031-2、初始化待分割的叶节点列表。

步骤1031-3、计算待分割叶子节点的weight、gain、梯度统计量。

步骤1031-4、判断是否达到树的深度，若是，执行步骤10431-5，若否，执行步骤1031-6。

步骤1031-5、为最终叶子节点计算weight。

步骤1031-6、寻找分割点，基于分割点创建左右叶子节点。

步骤1031-7、基于分割点，分配样本到新的左右叶子节点。

步骤1031-8、初始化新的待分割叶子节点列表。

步骤1031-9、计算待分割叶子节点的weight、gain、梯度统计量，然后返回步骤1031-4。

步骤1033中利用算法评估指标进行测试和优化，具体的评估指标分为算法评估指标和业务评估指标，算法评估指标设置了auc和error，通过多次调试特征和步骤1032中的算法参数，使得测试集的auc可以达到0.8；业务评估指标是指算法推荐给用户的评论，用户看过之后，如果选择对应的物品，就认为推荐是有价值的。

步骤104中，上线测试优化后的算法模型，目标用户可以为浏览物品的任一用户，在目标用户浏览物品时获取目标用户的用户信息，为目标用户做个性化的评论排序，展示给目标用户相匹配的物品评论数据。

实施例2

一种基于Xgboost的物品评论个性化推荐系统，如图6所示，包括：数据预处理模块201、特征工程模块202、算法模型模块203和线上应用模块204。

所述数据预处理模块201用于对物品的多个物品评论数据进行预处理。其中，物品评论数据可以通过电子商务网站的大数据平台收集并存储于物品评论数据集中，具体的物品评论数据可以包括但不限于包括以下内容：用户相关信息(如发表评论的用户的性别、年龄、在电子商务网站的等级等)、评论内容相关信息(如给物品的打分、评论的长度、评论的时间等)、其他用户对评论的反馈(如评论点赞的个数等)。所述物品评论数据集中还存储有所述物品评论数据是否对用户选择所述物品产生影响。本实施例具体是通过追踪用户在浏览所述物品评论数据之后是否选择所述物品，确定所述物品评论数据是否对用户选择所述物品产生影响。另外，为了便于记录、存储，本实施例为对用户选择所述物品产生影响的物品评论数据和未对用户选择所述物品产生影响的物品评论数据分别设置不同的标签，如：对用户选择所述物品产生影响的物品评论数据的标签为1，对用户选择所述物品未产生影响的物品评论数据的标签为0。

所述特征工程模块202用于从预处理后的物品评论数据中提取特征，记录每一特征的取值及所述物品评论数据是否对用户选择所述物品产生影响。

所述算法模型模块203用于将所述物品评论数据是否对用户选择所述物品产生影响作为目标变量，结合所述特征的取值构建基于Xgboost的算法模型。

所述线上应用模块204用于在目标用户浏览所述物品时，根据所述算法模型输出所述物品的匹配所述目标用户的物品评论数据。

具体地，所述数据预处理模块201包括：缺失值处理模块2011、异常值处理模块2012和数据归一化模块2013。

所述缺失值处理模块2011用于在所述物品评论数据的信息存在缺失时，删除所述物品评论数据或补全缺失的信息。具体根据以下因素中的至少一个确定是删除所述物品评论数据或是补全缺失的信息：

所述物品评论数据的评论者的属性；

所述多个物品评论数据中缺失信息的物品评论数据的数量。

所述缺失值处理模块还通过以下方式中的任意一种补全缺失的信息：

根据缺失的信息的种类，将指定量插补至缺失的信息；

所述异常值处理模块2012用于去除异常的物品评论数据。

所述数据归一化模块2013用于将所述物品评论数据归一化。

所述特征包括用户维度特征、评论维度特征和交互维度特征；

所述交互维度特征包括评论点赞的个数。

所述算法模型模块203具体包括：特征重要性模块2031、Xgboost算法模块2032、评估指标模块2033。

所述特征重要性模块2031用于将所述物品评论数据是否对用户选择所述物品产生影响作为目标变量，基于Xgboost构建树并计算每一特征的重要性。

所述Xgboost算法模块2032用于调试Xgboost的算法参数，以使得算法评估指标达到预设值。

所述评估指标模块2033用于测试并优化特征和Xgboost的算法参数，以形成所述算法模型。

所述特征重要性模块2031中计算每一特征的重要性，包括：

计算每一特征在基于Xgboost构建树的过程中的信息增益；

计算每一特征与目标变量之间的相关程度；

计算每一特征在基于Xgboost构建树的过程中的频数；

所述Xgboost算法模块2032中调试的算法参数包括：通用超参数、梯度提升参数、每一棵树参数、任务学习参数；算法评估指标包括：AUC。在具体实施时，将AUC设置为0.8，并且设置了以下关键参数：Booster；Objective；eta；gamma；min_child_weight；max_depth；subsample；lambda；max_bins；tree_method；eval_metric；num_round。

所述评估指标模块2033利用算法评估指标进行测试和优化，具体的评估指标分为算法评估指标和业务评估指标，算法评估指标设置了auc和error，通过多次调试特征和算法参数，使得测试集的auc可以达到0.8；业务评估指标是指算法推荐给用户的评论，用户看过之后，如果选择对应的物品，就认为推荐是有价值的。

所述线上应用模块204上线测试优化后的算法模型，目标用户可以为浏览物品的任一用户，在目标用户浏览物品时获取目标用户的用户信息，为目标用户做个性化的评论排序，展示给目标用户相匹配的物品评论数据。

实施例3

图7为本发明实施例3提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1的物品评论个性化推荐方法。图5显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1所提供的物品评论个性化推荐方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1所提供的物品评论个性化推荐方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1所述的物品评论个性化推荐方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

本发明的上述各实施例可以应用于多种场合，可以但不限于作为推荐实体产品、图书、电影、电子读物或网络文章的依据或辅助参考依据，具体如，在用户浏览某一实体产品或图书时，为用户输出匹配用户的产品评论或书评，用户可以根据产品评论或书评决定是否购买该实体产品或图书；在用户浏览某一电影或电影介绍时，为用户输出匹配用户的影评，用户可以根据影评决定是否选择在线观看该电影或购买该电影的电影票；在用户浏览某一电子读物或网络文章时，为用户输出匹配用户的读后评论，用户可以根据读后评论决定是否选择阅读该电子读物或网络文章；等等。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种物品评论个性化推荐方法，其特征在于，包括：

对物品的多个物品评论数据进行预处理；

将所述物品评论数据是否对用户选择所述物品产生影响作为目标变量，结合所述特征的取值构建基于Xgboost的算法模型；

2.如权利要求1所述的物品评论个性化推荐方法，其特征在于，将所述物品评论数据是否对用户选择所述物品产生影响作为目标变量，结合所述特征的取值构建基于Xgboost的算法模型，包括：

调试Xgboost的算法参数，以使得算法评估指标达到预设值；

测试并优化特征和Xgboost的算法参数，以形成所述算法模型。

3.如权利要求1所述的物品评论个性化推荐方法，其特征在于，对物品的多个物品评论数据进行预处理，包括：

4.如权利要求3所述的物品评论个性化推荐方法，其特征在于，在所述物品评论数据的信息存在缺失时，根据以下因素中的至少一个确定是删除所述物品评论数据或是补全缺失的信息：

所述物品评论数据的评论者的属性；

所述多个物品评论数据中缺失信息的物品评论数据的数量。

5.如权利要求4所述的物品评论个性化推荐方法，其特征在于，通过以下方式中的任意一种补全缺失的信息：

根据缺失的信息的种类，将指定量插补至缺失的信息；

6.如权利要求3所述的物品评论个性化推荐方法，其特征在于，对物品的多个物品评论数据进行预处理，还包括：

去除异常的物品评论数据；

将所述物品评论数据归一化。

7.如权利要求1所述的物品评论个性化推荐方法，其特征在于，所述特征包括用户维度特征、评论维度特征和交互维度特征；

所述交互维度特征包括评论点赞的个数。

8.如权利要求2所述的物品评论个性化推荐方法，其特征在于，计算每一特征的重要性，包括：

计算每一特征在基于Xgboost构建树的过程中的信息增益；

计算每一特征与目标变量之间的相关程度；

计算每一特征在基于Xgboost构建树的过程中的频数；

9.如权利要求2所述的物品评论个性化推荐方法，其特征在于，调试的算法参数包括：通用超参数、梯度提升参数、每一棵树参数、任务学习参数；算法评估指标包括：AUC。

10.如权利要求1所述的物品评论个性化推荐方法，其特征在于，通过追踪用户在浏览所述物品评论数据之后是否选择所述物品，确定所述物品评论数据是否对用户选择所述物品产生影响。

11.一种物品评论个性化推荐系统，其特征在于，包括：数据预处理模块、特征工程模块、算法模型模块和线上应用模块；

12.如权利要求11所述的物品评论个性化推荐系统，其特征在于，所述算法模型模块包括：特征重要性模块、Xgboost算法模块和评估指标模块；

13.如权利要求11所述的物品评论个性化推荐系统，其特征在于，所述数据预处理模块包括：缺失值处理模块；

14.如权利要求13所述的物品评论个性化推荐系统，其特征在于，所述缺失值处理模块用于在所述物品评论数据的信息存在缺失时，根据以下因素中的至少一个确定是删除所述物品评论数据或是补全缺失的信息：

所述物品评论数据的评论者的属性；

所述多个物品评论数据中缺失信息的物品评论数据的数量。

15.如权利要求14所述的物品评论个性化推荐系统，其特征在于，所述缺失值处理模块还用于通过以下方式中的任意一种补全缺失的信息：

根据缺失的信息的种类，将指定量插补至缺失的信息；

16.如权利要求13所述的物品评论个性化推荐系统，其特征在于，所述数据预处理模块还包括：异常值处理模块和数据归一化模块；

所述异常值处理模块用于去除异常的物品评论数据；

所述数据归一化模块用于将所述物品评论数据归一化。

17.如权利要求11所述的物品评论个性化推荐系统，其特征在于，所述特征包括用户维度特征、评论维度特征和交互维度特征；

所述交互维度特征包括评论点赞的个数。

18.如权利要求12所述的物品评论个性化推荐系统，其特征在于，所述特征重要性模块中计算每一特征的重要性，包括：

计算每一特征在基于Xgboost构建树的过程中的信息增益；

计算每一特征与目标变量之间的相关程度；

计算每一特征在基于Xgboost构建树的过程中的频数；

19.如权利要求12所述的物品评论个性化推荐系统，其特征在于，所述Xgboost算法模块中调试的算法参数包括：通用超参数、梯度提升参数、每一棵树参数、任务学习参数；算法评估指标包括：AUC。

20.如权利要求11所述的物品评论个性化推荐系统，其特征在于，通过追踪用户在浏览所述物品评论数据之后是否将选择所述物品，确定所述物品评论数据是否对用户选择所述物品产生影响。

21.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至10中任一项所述的物品评论个性化推荐方法。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至10中任一项所述的物品评论个性化推荐方法的步骤。