CN109684538A

CN109684538A - 一种基于用户个人特征的推荐方法及推荐系统

Info

Publication number: CN109684538A
Application number: CN201811467106.7A
Authority: CN
Inventors: 付蔚; 刘均; 童世华; 何雨; 徐赟; 李克宇; 杨鑫宇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-04-26

Abstract

本发明涉及一种基于用户个人特征的物品推荐方法，包括S1：获取推荐用户的个人特征信息和用户评价信息；S2：对收集到的用户评价信息结构化，建立评分数据库；S3：提取和过滤个人特征，确定用户所在的用户族群；S4：计算用户之间的相似性，根据用户对物品的历史评分数据来计算不同用户之间的相似性；S5：根据相似程度，预测目标用户对未评价物品的评分；S6：融合用户对物品评价的时间因素，对于用户每次的评分行为，都将其发生行为的时间进行保存，作为推荐方法的一个考虑因素，纳入到评分预测公式中，利用时间信息来降低预测误差；S7：根据预测评分，生成推荐集合，为目标用户推荐物品。

Description

一种基于用户个人特征的推荐方法及推荐系统

技术领域

本发明属于计算机及数据挖掘领域，涉及一种基于用户个人特征的推荐方法及推荐系统。

背景技术

互联网时代的到来，一方面使我们的生活更加方便、快捷，另一方面也给我们带了困扰。随着商品信息和用户信息的不断增加，使得商城网络数据变得非常的庞大，在如此浩瀚的数据中，如何快速，准确地帮助找到人们感兴趣的产品就显得尤为重要。解决这一问题通常有信息检索和信息过滤这两种技术手段。信息检索技术最为广泛和成功的应用是搜索引擎。然而，搜索引擎也存在着一些缺陷，它需要用户用关键词准确地描述自己的信息需求，从而保证检索结果的质量，但是大多数情况下用户往往不能准确地描述出自己的需求，这时搜索引擎并不能满足用户的需求。推荐系统为代表的信息过滤技术则能很好解决送个问题，信息过滤技术的主要思想是通过挖掘海量的用户行为数据，分析出用户真实的需求，主动为用户推送个性化的服务。推荐系统作为信息过滤技术的一种重要手段，通过用户的历史行为和数据预测用户的爱好，产生满足用户个性化需求的推荐，正在成为新一代web应用中不可或缺的个性化信息服务形式。

个性化推荐系统就是对用户的历史行为进行挖掘对用户兴趣建立数学模型并预测用户未来的行为，从而建立用户和服务的直接关系。根据用户的特征和偏好来给用户提供他们可能需要的服务，不仅可以使用户很方便得到自己需要的信息或服务，同时也提高了效率和服务质量，让用户感受到了服务的人性化，相应的产品的竞争力也会提高。随着个性化推荐系统的不断发展，推荐系统已经广泛应用在亚马逊、当当网等电子商务领域和豆瓣、土豆等一些社交、视频网站。这说明在海量信息面前，用户更需要这种透明的、智能的、更能了解他们需求的个性化推荐系统。

个性化推荐技术己经成为互联网未来发展的重要方向之一。研究推荐系统可以和多个学科融合，与信息检索、管理科学、市场营销建模等相关学科领域协同发展，有较高的学术价值。同时，在商业领域，尤其是电子商务领域，建立站点向用户提供个性化推荐服务的推荐系统已成为该领域的一个研究热点。许多系统尤其是电子商务系统已经部署推荐系统向用户推荐信息了。推荐系统不仅方便了用户，同时也创造了巨大的商业价值。如今，在信息爆炸时代，如何构建一个准确地、高效化、扩展性强地推荐系统已经成为计算机领域研究的新课题。因此，探索研究个性化推荐技术中的推荐算法，具有重大的理论意义和应用价值。

发明内容

有鉴于此，本发明的目的在于提供一种基于用户个人特征的物品推荐方法及推荐系统，实现了根据用户的个人特点和历史行为来推荐相应的物品。

为达到上述目的，本发明提供如下技术方案：

一方面，本发明提供一种基于用户个人特征的物品推荐方法，包括以下步骤：

S1：获取推荐用户的个人特征信息和用户评价信息，所述用户评价信息包括用户对历史购买物品的评分；

S2：对收集到的用户评价信息进行结构化处理，建立评分数据库；

S3：对用户的个人特征进行提取和过滤，利用机器学习的分类方法，确定用户所在的用户族群；

S4：计算用户之间的相似性，根据用户对物品的历史评分数据来计算不同用户之间的相似性；

S5：根据相似程度，预测目标用户对未评价物品的评分；

S6：融合用户对物品评价的时间因素，对于用户每次的评分行为，都将其发生行为的时间进行保存，作为推荐方法的一个考虑因素，纳入到评分预测公式中，利用时间信息来降低预测误差；

S7：根据预测评分，生成推荐集合，为目标用户推荐物品。

进一步，步骤S1中，所述用户的个人特征信息包括用户的年龄，性别，所在城市、职业和收入，所述用户的评价信息包括隐式反馈信息和显式反馈信息，所述隐式反馈信息包括用户浏览、点击、收藏、购买物品的日志信息，所述显式反馈信息包含用户对商品的直接评分。

进一步，步骤S2中，从收集到的历史行为日志中，将用户的历史评价行为转化为区间[0,5]的评分，构建用户评分库；

通过协同过滤算法来构建用户评分库，在协同过滤算法中，数据核心是用户-项目评分矩阵R(m,n)，该矩阵记录着用户对项目的评分，用户-项目评分矩阵包含有用户和商品的信息，即一个用户集合U＝{u₁,u₂,u₃,…,u_m}，集合中m个用户，和一个项目集合I＝{i₁,i₂,i₃,…,i_n}，集合中有n个物品，R(m,n)的元素为r_ij表示用户user_i对项目item_j的评分，若用户user_i对项目item_j未评分，记r_ij＝0。

进一步，步骤S3中，对用户的个人特征进行提取和过滤，是从收集到的个人特征日志中，去掉推荐影响权重较低的个人特征，对推荐影响权重较重的个人特征进行量化，从而构建个人特征信息库；

所述确定用户所在的用户族群，是根据用户的个人特征信息，利用机器学习的分类方法，将目标用户归为相应的族群中，同一族群中的用户在个人特征方面具有一定的相似性，以此确定该族群内的用户在物品偏好也具有相似性。

进一步，步骤S3中，所述机器学习的分类方法为朴素贝叶斯分类器或决策树方法；

所述朴素贝叶斯分类器是对个人特征信息库中的数据进行训练，根据输入的条件，计算各类别选择的条件概率，概率值最大的类别即为输出结果，所述输出结果即为用户所属族群类型；

所述决策树方法是在已知各个用户所属的族类发生概率的情况下，通过构成决策树来求取净现值的期望值大于0的概率，其概率值越大，表明该目标用户所属族类的的可能性越大，因此将该目标用户归为此族类。

进一步，步骤S4中，为了消除用户评分的尺度问题，采用皮尔逊系数来计算用户之间的相似性：

其中：用户u_i和用户u_j共同评分过的项集合用I_ij表示，表示用户u_i对项目c的评分，表示用户u_j对项目c的评分，表示用户u_i对所有项目的平均评分，表示用户u_j对所有项目的平均评分。

进一步，步骤S5中，根据用户之间的相似度，找到与目标用户最为相似的N个用户，来预测未评价物品的评分，采用下述预测评分计算公式计算目标用户对新项目的评分，计算完成后依照计算分值高低评选出项目推荐集合；

其中P_u,i表示目标用户u对项i的预测评分，sim(u,u_j)表示用户u与用户u_j的相似性，表示用户u_j对项i的评分，表示用户u对所有项的平均评分，表示用户u_j对所有项的平均评分。

进一步，步骤S6中，所述融合用户对物品评价的时间因素，是将用户对物品的评价时间作为推荐方法的一个考虑因素，纳入到评分预测公式中，利用时间信息来降低预测误差，融合时间因素的相似性计算公式为：

其中，表示用户u_i对项目c的评分时间，表示用户u_j对项目c的评分时间，将融合时间因素的相似度代入步骤5的预测公式，得到新的预测公式。

进一步，步骤S7中，根据目标用户对未评价物品的预测评分，来预测目标用户对物品的潜在偏好程度，当预测评分与喜好评分之差小于阈值时，将该物品纳入物品候选列表并推荐给目标用户。

另一方面，本发明提供一种基于用户个人特征的推荐系统，包括

用户个人特征获取单元，用于获取用户的基本信息，包括通过网页端以调查问卷的形式采集用户的个人特征信息，从用户的注册信息中采集到用户的个人特征信息，或者从用户的评价信息、浏览行为信息中提取、推断用户的个人信息；

用户评价信息获取单元，用于获取用户对物品的评价信息；用户的评价信息包括隐式反馈信息和显式反馈信息，隐式反馈信息包括用户浏览、点击、收藏、购买物品的日子信息，显式反馈信息包含用户对商品的直接评分；

用户评价信息处理转换单元，用于将非结构化的用户评分转化为结构化数据；

用户族类确定单元，用于提取和过滤个人特征信息，通过训练好的分类器，确定用户所属族群；

候选物品确定单元，用于根据用户的个人特征和评价信息，利用基于用户的协同过滤推荐算法，并将用户评价物品的时间作为输入之一，计算目标用户对未评价物品的预测评分，获取拟向用户推荐的候选物品；

商品推荐呈现单元，将候选物品呈现给目标用户，为用户做出推荐。

本发明的有益效果在于：本发明提供了一种基于用户个人特征的物品推荐方法及推荐系统，实现了根据用户的个人特点和历史行为来推荐相应的物品。本发明的推荐方法及推荐系统准确性强、高效化、扩展性强。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1是本发明实施例提供的一种基于用户个人特征的推荐方法的流程图；

图2是本发明实施例提供的一种基于贝叶斯分类器的用户族类分类的预测模型图；

图3是本发明实施例提供的一种基于决策树分类器的用户族类分类的预测模型图；

图4是本发明实施例提供的另一种推荐系统的结构示意图；

图5是本发明实施例提供的另一种推荐系统的结构示意图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

本发明实施例提供了一种基于用户个人特征的推荐方法，应用的领域包括但不限于：个性化商品推荐、广告推送、新闻推荐、音乐推荐、视频推荐、电影推荐等，主要是利用推荐系统将推荐物品推荐给用户终端，用户终端包括但不限于：手机、平板、计算机、可穿戴设备等。本实施例的方法是推荐系统所执行的方法,流程图如图1所示,包括：

步骤1，获取用户的个人特征和用户的评分数据，用户的个人特征主要有年龄、性别、所在城市、职业、收入等。这些因素对个人偏好有一定的影响，表现在：不同年龄段的用户会对物品有不同的侧重要求；男女性别的差异，使之对物品的关注点存在差异；城市因素和收入因素都直接影响用户对物品的价格敏感度。这些因素将通过用户注册时，系统自动生成调查问卷，采集用户的基本数据，建立用户的个人信息库，用于后续的个人特征提取。用户评分信息可分为隐式反馈信息和显式反馈信息，隐式反馈信息包括用户浏览、点击、收藏、购买物品的日志信息，对于隐式评分，需要将用户的行为转化为数字形式的评分，便于后续推荐方法的计算，例如将浏览某物品记为1分，收藏该物品记为3分，乐观评价记为5分。显式反馈信息包含用户对商品的直接评分。

步骤2，收集到的用户评价数据往往是非结构化，因此需要对数据进行预处理，将用户的非结构评价信息转化为结构化评价信息，然后建立起用户的评分库。在计算机内存中，用户的评分数据通常以用户-评分矩阵的形式来展现。在协同过滤算法中，数据核心是用户-项目评分矩阵R(m,n)，该矩阵记录着用户对项目的评分。用户-项目评分矩阵包含着用户和商品的信息，即一个用户集合U＝{u₁,u₂,u₃,…,u_m}，集合中m个用户，和一个项目集合I＝{i₁,i₂,i₃,…,i_n}，集合中有n个物品，R(m,n)的元素为r_ij表示用户user_i对项目item_j的评分，若用户user_i对项目item_j未评分，记r_ij＝0。

步骤3，结合物品推荐的背景,利用用户的个人特征数据的显式信息,可以构建出用户所属的族类。我们以用户的性别、年龄、区域、职业等作为决定用户所属的族类重要因素，对用户的特征进行分类，根据这些特征计算出用户最符合用户族类。用户的族类可分为以下几类：

最求潮流新颖型用户、广告导向型用户、生活享受型用户、经济适用型用户、品牌热衷型用户等。

用户族类分布模型的输入是用户的特征，包括性别、年龄、区域、职业、婚否这些特征值，可利用朴素贝叶斯分类器进行训练，输出是最符合用户特征的用户族类类型，模型计算的核心是根据输入的条件，计算各类别选择的条件概率，概率值最大的类别即为输出结果。用户族类分布模型的具体实现如图2所示。

贝叶斯分类算法的流程分为三个阶段：

第一阶段——准备工作阶段，为朴素贝叶斯分类做必要的准备，主要是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。在本实施例中，用户的特征属性为：(年龄段，性别，职业，……，所在城市)。分类项为：追求潮流新颖型用户、广告导向型用户、生活享受型用户、经济适用型用户、品牌热衷型用户等。

第二阶段——分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个用户族类类别项在训练样本中的出现频率及每个用户个人特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是用户个人特征属性和训练样本，输出是分类器。贝叶斯分类器的数学表达式为：

第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类，其输入是待分类项(用户的个人特征信息)，输出是待分类项与类别的映射关系，即用户所属的族类项。

步骤4，计算用户之间的相似性，根据用户对物品的历史评分数据来计算不同用户之间的相似性，为了消除用户评分的尺度问题，采用皮尔逊系数来计算用户之间的相似性。

步骤5，预测目标用户对物品的评分。根据用户之间的相似度，找到与目标用户最为相似的N个用户，来预测未评价物品的评分。采用预测评分计算公式4.5计算目标用户对新项目的评分，计算完成后依照计算分值高低评选出项目推荐集合。

步骤6，融合时间因素，对于用户每次的评分行为，都将其发生行为的时间进行保存，作为推荐方法的一个考虑因素，纳入到评分预测公式中，利用时间信息来降低预测误差。融合时间因素的相似性计算公式变为：

表示用户u_i对项目c的评分时间，表示用户u_j对项目c的评分时间，将融合时间因素的相似度代入步骤5的预测公式，得到新的预测公式。

步骤7，生成推荐集合。依据步骤6的预测评分公式，计算目标用户对未评价物品的预测，从高到低进行排序，选取列表前TOP-N个物品推荐给用户。

在一个具体的实施例中,为了实现本发明实施例的推荐方法,还可将步骤3所使用的分类策略以另一种方法实现，重构用户族类分布模型。

在实现分类器时，可使用决策树方法来重构步骤3的用户族类分布模型。在已知各个用户所属的族类发生概率的情况下，通过构成决策树来求取净现值的期望值大于0的概率，其概率值越大，表明该目标用户所属族类的的可能性越大，因此将该目标用户归为此族类。决策树是带有特殊含义的数据结构中的树结构，其每个非终端结点代表数据的特征标签，这里的特征标签为：年龄分段、职业、性别、所在城市分类(一线、二线、三线、三线及以下)等根据该特征不同的特征值将所有的用户数据划分成几个子集，每个子集都是这个非终端结点的子树，然后对每个子树递归划分下去，而决策树的每个叶子结点则是数据的最终类别标签，这里的最终类别标签包括：追求潮流新颖型用户、广告导向型用户、生活享受型用户、经济适用型用户、品牌热衷型用户。对于一个目标用户特征向量，则从决策树的顶端往下进行分类，直到根结点，得到的类别标签就是这个目标用户所属的族类。基于决策树的用户族类分布模型的具体实现如图3所示。

在实施例中，选取ID3算法来实现决策树分类器。

第一步，输入目标用户特征向量，其格式为：(年龄段，性别，职业，……，所在城市)。

第二步，计算族类属性的信息熵。计算公式为：

第三步，计算在确定某一个参考个人特征属性的条件下，计算目标用户属于某一族类的信息熵。计算公式为：

第四步，计算信息增益度，该值如果越大，表示族类属性在该用户特征属性上失去的信息熵越多，那么该用户特征属性就越应该在决策树的上层。计算公式：

G(S,A)＝Entrop(S)-Entrop(S|A)

第五步，选择信息增益度最大的用户特征属性作为当前节点。

第六步，将已经选择的用户特征属性从参考属性列表中剔除，针对第五步中产生的子数据集使用处理后的参考属性列表，再从第一步迭代处理。

第七步，经过多次迭代处理，最终会得到一个训练后的决策树结构。

图4为本发明推荐系统的一个实施例的结构示意图，本发明实施例提供了一种推荐系统，因为要求推荐系统具有较好的实时性和及时性，推荐系统需在用户浏览物品的同时做出推荐。因此提出的推荐系统采用多个具有较高时钟频率的高性能处理器，保证强大快速的计算能力，能够实现高并发，高负载，负载均衡等。同时采用的多核处理器具有多级缓存机制，以实现CPU与内存之间的信息高速传输。本推荐系统还包括了存储器，存储器要求内存容量大，内存主频较高，具有高带宽，以实现低延迟和快存取。与此同时，推荐系统还包括了一个固定磁盘，用于持久化用户的数据和物品的数据。因为用户和物品数据量巨大，因此要求磁盘的容量巨大，且稳定性好，决不能因为断电、宕机等因素而导致磁盘里的数据丢失。为了保证数据的安全性，因此推荐系统还需要及时做好数据备份工作。推荐系统的结构如图所示，在运行推荐程序时，系统首先从磁盘中取出程序和所需的数据，并装入到主存中，然后从内存中取出数据和指令，CPU对传输过来的数据进行运算和处理，并将处理结果通过总线返回给内存，通过输出设备，将推荐的结果反馈给用户。

该推荐系统还包括电源、网络通信接口(有线网卡、Wifi、蓝牙)、I/O接口(USB、HDMI、RJ45)、以及操作系统，操作系统可为Windows Server、Netware、Unix、Linux。

图5是本发明实施例提供的另一种推荐系统的结构示意图。

推荐系统按照功能模块划分，可分为以下几个单元：

用户个人特征获取单元，通过多种方式获取用户的基本信息，可以通过网页端以调查问卷的形式采集用户的个人特征信息，也可以从用户的注册信息中采集到用户的个人特征信息，或者从用户的评价信息、浏览行为信息中提取、推断用户的个人信息。

用户评价信息获取单元，用于获取用户对已经发生过行为的物品的评价信息；用户的评价信息可分为两类，隐式反馈信息和显式反馈信息，隐式反馈信息包括用户浏览、点击、收藏、购买物品的日子信息，显式反馈信息包含用户对商品的直接评分。

用户评价信息处理转换单元，将非结构化的用户评分转化为结构化评分；如果用户的评价信息是隐式评分，那么需要这样评价行为转化为计算机可识别的数字形式的评分。

用户族类确定单元，根据用户提供的个人特征信息，加以提出和筛选，通过训练好的分类器，本实施例中的分类器有两种：贝叶斯分类器和决策树分类器。通过输入用户个人特征，输出用户所在的族类；

候选物品确定单元，用于响应用户访问物品推荐系统，根据用户的个人特征和评价信息，利用基于用户的协同过滤推荐算法，并将用户评价物品的时间，作为推荐系统的输入之一，计算目标用户对未评价物品的预测评分，获取拟向用户推荐的候选物品；

商品推荐呈现单元，将候选物品确定单元确定的候选物品以一定的形式呈现给目标用户，为用户做出推荐。这里推荐的呈现载体可以使手机、Pad、浏览器等。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于用户个人特征的物品推荐方法，其特征在于：包括以下步骤：

S5：根据相似程度，预测目标用户对未评价物品的评分；

S7：根据预测评分，生成推荐集合，为目标用户推荐物品。

2.根据权利要求1所述的基于用户个人特征的物品推荐方法，其特征在于：步骤S1中，所述用户的个人特征信息包括用户的年龄，性别，所在城市、职业和收入，所述用户的评价信息包括隐式反馈信息和显式反馈信息，所述隐式反馈信息包括用户浏览、点击、收藏、购买物品的日志信息，所述显式反馈信息包含用户对商品的直接评分。

3.根据权利要求1所述的基于用户个人特征的物品推荐方法，其特征在于：步骤S2中，从收集到的历史行为日志中，将用户的历史评价行为转化为区间[0,5]的评分，构建用户评分库；

4.根据权利要求1所述的基于用户个人特征的物品推荐方法，其特征在于：步骤S3中，对用户的个人特征进行提取和过滤，是从收集到的个人特征日志中，去掉推荐影响权重较低的个人特征，对推荐影响权重较重的个人特征进行量化，从而构建个人特征信息库；

5.根据权利要求4所述的基于用户个人特征的物品推荐方法，其特征在于：步骤S3中，所述机器学习的分类方法为朴素贝叶斯分类器或决策树方法；

6.根据权利要求1所述的基于用户个人特征的物品推荐方法，其特征在于：步骤S4中，为了消除用户评分的尺度问题，采用皮尔逊系数来计算用户之间的相似性：

7.根据权利要求1所述的基于用户个人特征的物品推荐方法，其特征在于：步骤S5中，根据用户之间的相似度，找到与目标用户最为相似的N个用户，来预测未评价物品的评分，采用下述预测评分计算公式计算目标用户对新项目的评分，计算完成后依照计算分值高低评选出项目推荐集合；

8.根据权利要求1所述的基于用户个人特征的物品推荐方法，其特征在于：步骤S6中，所述融合用户对物品评价的时间因素，是将用户对物品的评价时间作为推荐方法的一个考虑因素，纳入到评分预测公式中，利用时间信息来降低预测误差，融合时间因素的相似性计算公式为：

9.根据权利要求1所述的基于用户个人特征的物品推荐方法，其特征在于：步骤S7中，根据目标用户对未评价物品的预测评分，来预测目标用户对物品的潜在偏好程度，当预测评分与喜好评分之差小于阈值时，将该物品纳入物品候选列表并推荐给目标用户。

10.一种基于用户个人特征的推荐系统，其特征在于：包括