CN107391687A

CN107391687A - 一种面向地方志网站的混合推荐系统

Info

Publication number: CN107391687A
Application number: CN201710608348.2A
Authority: CN
Inventors: 张�浩; 黄涛; 杨华利; 张晨晨; 张慧芳; 熊慧敏
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University
Priority date: 2017-07-24
Filing date: 2017-07-24
Publication date: 2017-11-24
Anticipated expiration: 2037-07-24
Also published as: CN107391687B

Abstract

本发明属于网站推荐技术领域，提供一种面向地方志网站的混合推荐系统，包括行为记录模块、用户分类模块、用户推荐模块；所述行为记录模块，包括用户注册信息和行为信息的记录，并将用户注册信息和行为信息存储到数据库中；所述用户分类模块，根据用户访问方志的频繁度，将用户分为：新用户、一般用户和积极用户；并针对每类用户进行特征分析，以便选用合适的推荐方法从而实现个性化推荐；所述用户推荐模块，包括TopN推荐、基于方志标签+改进的关联规则推荐、基于用户的协同过滤推荐三种推荐方法，系统根据用户分类模块的分类结果，针对不同类型用户采用不同的推荐算法。本发明能够针对不同的用户类型进行个性化推荐。

Description

一种面向地方志网站的混合推荐系统

技术领域

本发明属于网站推荐技术领域，具体地说涉及一种面向地方志网站的混合推荐系统。

背景技术

地方志是我国传统文化的重要载体，蕴含着丰富的信息资源，随着国家相关部门将地方志数字化工作提上日程，全国各省份相继建立自己的地方志网站,目前，有大量的用户在利用地方志网站进行学习与研究。但当用户面对海量的数据信息时，很难从中找到自己感兴趣的信息，在这样的背景下，个性化推荐系统成为解决信息过载问题的有效工具之一。目前，方志数字化技术领域做的最多的是基于地方志数据库的全文信息检索以及地方志中的内容挖掘，而根据用户的行为来做推荐，这一块目前还没有人尝试。

当下比较主流的推荐系统主要分成四类：协同过滤推荐系统、基于内容的推荐系统、基于关联规则的推荐以及混合推荐系统，混合推荐是将前几种推荐技术进行组合，以应对复杂的用户系统。协同过滤推荐又分为基于用户的协同过滤推荐和基于物品的协同过滤推荐。基于用户的协同过滤是通过计算用户对物品评分的相似度，将相似度高的用户一些评分高的物品推荐给目标用户，基于物品的协同过滤也是通过用户评分的相似度来做推荐，不过是基于物品的相似度计算。这种推荐方法能帮助用户发现潜在偏好，但存在冷启动(新用户推荐)和用户评价信息稀疏问题。基于内容的推荐方法，是根据用户已选择的物品，对其进行内容分析，提取出能表征该物品特征的关键词，然后根据这些关键词来计算物品之间的相似度，并将相似度高的产品推荐给目标用户，这种推荐技术的问题在于：物品的内容特征很难被提取出来，而且它也无法对同一推荐集中的产品进行合理的排序，此外，基于内容的推荐局限于用户已选择物品的相似物品推荐，无法挖掘用户的潜在偏好。基于关联规则的推荐方法，是使用数据挖掘技术从大量的交易数据中获取规则，然后根据用户的历史数据和获取的规则，向目标用户推荐大部分用户的一个选择，同样也存在新用户推荐问题。

发明内容

针对上述几种单一推荐技术存在的问题并结合地方志平台固有的特征，本发明提供一种面向地方志网站的混合推荐系统，包含了基于TopN的推荐、基于方志标签和改进的关联规则推荐以及基于用户的协同过滤推荐，能够针对不同的用户类型进行个性化推荐。

基于TopN的推荐方法主要是解决新用户缺少用户行为无法采用像关联规则和协同过滤这样基于用户行为的推荐方法。基于方志标签和改进的关联规则推荐，主要是为了解决协同过滤推荐在用户数据稀疏时推荐效果会逐渐减弱的问题，另一方面关联规则推荐最主要的工作是k-项频繁集的查找，如果数据量太过庞大，反而会降低系统的性能，为了提高系统的性能，本发明只查找到2-项频繁集并获取强关联规则同时结合方志标签得到最终的推荐列表。基于用户的协同过滤推荐，通过计算目标用户与其他用户的相似度，将邻近用户浏览次数最多的方志生成一个推荐列表，同时将用户已浏览方志的标签与推荐方志的标签进行比较，选择与用户已浏览方志最相似的几篇方志作为最终的推荐结果。

具体的,本发明目的是通过如下技术方案实现的。

一种面向地方志网站的混合推荐系统，包括行为记录模块、用户分类模块、用户推荐模块；

所述行为记录模块，包括用户注册信息和行为信息的记录，并将用户注册信息和行为信息存储到数据库中；用户注册信息分为必填信息：用户名和密码，选填信息：职业、年龄、籍贯；用户登录时，系统根据用户的必填信息对用户进行身份认证，根据用户的选填信息来找目标用户的邻近用户做相似推荐；用户的行为信息作为用户分类模块的数据源；

所述用户分类模块，根据用户访问方志的频繁度，将用户分为：新用户、一般用户和积极用户；并针对每类用户进行特征分析，以便选用合适的推荐方法从而实现个性化推荐；

所述用户推荐模块，包括TopN推荐、基于方志标签+改进的关联规则推荐、基于用户的协同过滤推荐三种推荐方法，系统根据用户分类模块的分类结果，针对不同类型用户采用不同的推荐算法；具体表现为：针对新用户如果无选填信息则采用基于topN的推荐，如果有选填信息，则通过选填信息找到目标用户的相似用户做基于用户的协同过滤推荐；一般用户采用基于方志标签+改进的关联规则推荐；积极用户采用基于用户的协同过滤推荐。

在上述技术方案中，所述的用户行为信息是通过获取某个时间段内网站的日志文件，并对日志文件进行降维、统计分析预处理，最终形成两个数据集：一个是由用户id和该用户访问的方志名称所组成的数据集-1，作为关联规则挖掘的数据集，另一个是由用户id、用户访问的方志个数以及总的浏览次数、观看视频的次数、论坛发帖数所组成的数据集-2，作为用户分类的数据集。

在上述技术方案中，所述用户分类模块的具体实施方法如下：

通过行为记录模块提供的数据集-2即：用户id、用户访问的方志个数以及总的浏览次数、观看视频的次数、论坛发帖数，运用kNN(k-邻近算法)将用户分为：新用户、一般用户和积极用户；同时将用户的类标签存储到数据库中，以便系统判断用户类型。

在上述技术方案中，所述用户推荐模块的具体实施方法如下：

对于新用户且无选填信息，采用基于TopN的推荐算法，TopN算法指的是从已经存在的数组中，找出最大(或最小)的前n个元素；本系统是根据所有方志被访问的次数进行方志的热度排序，并将前n个访问次数最多的方志推荐给新用户；

TopN算法的实现思路：

(a)将每个方志被访问的次数存到数组中；

(b)取出数组的前n个元素，创建长度为n的最小堆；

(c)从n开始循环数组的剩余元素，如果元素a比最小堆的根节点大，将a设置成最小堆的根节点，并让堆保持最小堆的特性；

(d)循环完成后，最小堆中的所有元素就是需要找的最大的n个元素；

如果新用户有选填信息，则通过选填信息找到目标用户的相似用户做基于用户的协同过滤推荐；

对于一般用户，采用基于方志标签+改进的关联规则推荐方法；将：朝代(D)、省份(P)、主题(S)3个方志标签融入到关联规则的推荐中，使推荐的结果更符合地方志网站的特色；基于方志标签+改进的关联规则推荐算法描述如下：通过行为记录模块提供的数据集-1即：用户id和该用户访问的方志名称，利用Apriori算法生成形如：(其中X，Y表示方志的1-项频繁集)的规则表达式，并用一个m×m的关联规则矩阵A表示，矩阵A中包含了每个方志推出其它m个方志的置信度即a_ij表示的置信度，目标用户对m个方志的浏览情况生成一个m维的列向量P，如果目标用户浏览了第i个方志，则p_i为相应的浏览次数，如果没有浏览则p_i为0，p_i越大表明用户对该方志的偏好程度越大，则目标用户的推荐向量R可以根据用户的偏好向量P和关联矩阵A计算得到，公式如下

R＝topN(PA)_ij

这里并不是向量与矩阵的乘法运算，而是p_i乘矩阵A中第i行的每个元素即a_i·，这样就给置信度添加了一个权重，使得基于用户偏好程度较大的方志推出的规则的置信度更大，这样的推荐结果更符合用户的偏好，如果p_i为0，则矩阵A中对应的那一行元素全为0；然后将所有的置信度按照从大到小的顺序排序并将对应的推荐方志放在推荐向量R中，如果推荐的方志该用户已浏览则从推荐向量中删除，选出前n个方志作为推荐的备选项，同时将用户已浏览方志的标签：朝代(D)、省份(P)、主题(S)与备选方志的标签进行比较，找出最相似的几篇方志作为最终的推荐结果；

对于积极用户，采用基于用户的协同过滤推荐方法；在基于用户的协同过滤推荐中，为了对目标用户产生推荐，需要找到与目标用户兴趣最相似的用户，因此需要计算用户之间的相似度，利用Tanimoto系数来计算用户相似度，公式如下

其中x和y分别表示两个用户的评分向量，评分为用户浏览方志的次数，通过计算目标用户与其他用户的相似度并找出与目标用户最相似的几个邻近用户，将邻近用户浏览次数最多的方志生成一个推荐列表，同时将用户已浏览方志的标签与推荐方志的标签进行比较，选择与用户已浏览方志最相似的几篇方志作为最终的推荐结果。

与现有技术相比，本发明的有益效果在于：

1、将用户分类，针对不同类型的用户采用不同的推荐算法，从而实现真正的个性化推荐。

2、基于TopN的推荐方法解决了新用户缺少用户行为无法采用像关联规则和协同过滤这样基于用户行为的推荐方法。

3、基于方志标签+改进的关联规则推荐，解决了协同过滤推荐在用户数据稀疏时推荐效果会逐渐减弱的问题，另一方面改进的关联规则减少了k-项频繁集查找的计算量，提高了系统的性能。

4、利用Tanimoto系数来计算用户相似度，相比于其他相似度计算方法的推荐效果更优。

5、引入方志标签，使混合推荐系统更符合地方志网站的特点。

附图说明

图1为本发明的系统框架图。

图2为行为记录模块流程图。

图3为用户分类模块流程图。

图4为用户推荐模块流程图。

图5为本发明混合推荐系统和协同过滤推荐的准确率对比图，其中，CFR代表协同过滤推荐，HR代表混合推荐。

图6为本发明混合推荐系统和协同过滤推荐的召回率对比图，其中，CFR代表协同过滤推荐，HR代表混合推荐。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提出了一种面向地方志网站的混合推荐系统，包括：行为记录模块、用户分类模块、用户推荐模块。

所述行为记录模块，包括用户注册信息和行为信息的记录，并将用户注册信息和行为信息存储到数据库中。用户注册信息又分为必填信息：用户名和密码，选填信息：职业、年龄、籍贯等。用户登录时，系统可以根据用户的必填信息对用户进行身份认证，根据用户的选填信息来找目标用户的邻近用户做相似推荐。用户的行为信息可以作为用户分类模块的数据源。

所述用户分类模块，根据用户访问方志的频繁度，将用户分为：新用户、一般用户和积极用户，并针对每类用户进行特征分析，以便选用合适的推荐方法从而实现个性化推荐。

所述用户推荐模块，包括TopN推荐、基于方志标签+改进的关联规则推荐、基于用户的协同过滤推荐三种推荐方法。系统根据用户分类模块的分类结果，针对不同类型用户采用不同的推荐算法。具体表现为：针对新用户如果无选填信息则采用基于topN的推荐，如果有选填信息，则通过选填信息找到目标用户的相似用户做协同过滤推荐；一般用户采用基于方志标签+改进的关联规则推荐；积极用户采用基于用户的协同过滤推荐技术。

本发明通过记录并分析用户行为数据，利用用户分类模块将用户分成：新用户、一般用户和积极用户。针对不同用户采用不同的推荐算法，从而实现个性化推荐。在使用混合推荐算法时，也是集中考虑了各种推荐算法的优劣，适用范围以及地方志平台本身的特性，最终选择包含了基于TopN、基于方志标签+改进的关联规则算法和基于用户协同过滤的混合推荐。基于TopN的推荐解决了新用户推荐问题；基于方志标签+改进的关联规则推荐，不仅解决了协同过滤推荐中用户数据稀疏问题，还解决了关联规则算法本身计算量大的问题。此外，基于关联规则的推荐不需要用户的评价信息并且能够挖掘出用户的潜在偏好，适用于访问方志频度一般的用户。基于用户的协同过滤推荐，通过计算用户之间的相似度做相似推荐，协同过滤推荐在用户评价信息丰富的情况，推荐效果较好，适合用户行为信息较多的积极用户。

如图2所示，对于行为记录模块，具体实施方法如下：

行为记录模块包括用户注册信息和行为信息的记录，并将用户注册信息和行为信息存储到数据库。用户注册信息包括必填信息和选填信息，必填信息包括用户名和密码，当用户登录时，系统通过查询数据库判断该用户是否为合法用户。如果不是合法用户则无权访问方志内容，系统会提示用户进行注册；选填信息包括职业、年龄、籍贯、文化程度，当目标用户是新用户没有用户行为时，推荐模块可以根据新用户的选填信息找到相似用户，将相似用户中浏览最多的几篇方志推荐给新用户。用户行为信息是通过获取某个时间段内网站的日志文件，并对日志文件进行降维、统计分析等预处理，最终形成两个数据集：一个是由用户id和该用户访问的方志名称所组成的数据集-1，作为关联规则挖掘的数据集，另一个是由用户id、用户访问的方志个数以及总的浏览次数、观看视频的次数、论坛发帖数所组成的数据集-2，作为用户分类的数据集。

如图3所示，对于用户分类模块，具体实施办法如下：

通过行为记录模块提供的数据集-2即：用户id、用户访问的方志个数以及总的浏览次数、观看视频的次数、论坛发帖数，运用kNN(k-邻近算法)将用户分为：新用户、一般用户和积极用户。k-邻近算法采用测量不同特征值之间的距离方法进行分类，该算法的优点是精度高，对异常值不敏感，很适合对上述的数据集进行分类。kNN算法的实现思路：

对数据集-2中每个未知类别的用户执行以下操作：

(a)计算数据集中当前未知类别的用户特征值与已知类别的用户特征值之间的距离；

(b)按照距离递增的次序对已知类别的用户进行排序；

(c)选取与当前未知类别用户距离最小的k个用户；

(d)确定这k个用户所属类别出现的次数；

(e)返回这k个用户出现次数最多的类别作为当前未知类别用户的预测分类。

经过上述步骤，对于系统中每位已注册的用户都进行了分类，同时为了使推荐模块能够对用户进行类型判别，需要将用户的类标签存储到数据库中，以便系统判断用户类型。

如图4所示，对于用户推荐模块，具体实施办法如下：

用户推荐模块包含了基于TopN的推荐算法、基于方志标签+改进的关联规则推荐算法以及基于用户的协同过滤推荐算法。针对不同类型的用户采用不同的推荐算法。

对于新用户且无选填信息，采用基于TopN的推荐算法。TopN算法指的是从已经存在的数组中，找出最大(或最小)的前n个元素。本系统是根据所有方志被访问的次数进行方志的热度排序，并将前n个访问次数最多的方志推荐给新用户。

TopN算法的实现思路：

(a)将每个方志被访问的次数存到数组中；

(b)取出数组的前n个元素，创建长度为n的最小堆；

(d)循环完成后，最小堆中的所有元素就是需要找的最大的n个元素。

对于一般用户，采用基于方志标签+改进的关联规则推荐方法。关联规则挖掘就是挖掘数据集中项集之间的相互关系，它是数据挖掘领域一个重要的分支。目前许多电商网站都使用关联规则来做推荐，如:淘宝。关联规则一般涉及到以下几个定义：

项集：设I＝{i₁，i₂，…，i_m}，是由m个项目组成的集合，每个i_k称为一个项目，项目的集合I称为项集。

支持度：每条事务T是项集I的子集，所有事务T构成了事务数据库D。对于项集X，设定为事务数据库D中包含X事务的数量，则项集X的支持度：

频繁项集：不小于最小支持度的项集称为频繁项集。

关联规则：关联规则是形如：R：的一个蕴含式，其中并且X∩Y＝Φ。表示项集X在某一事务中出现，导致Y也以某一概率会出现。关联规则有两个衡量标准：支持度和置信度

置信度：对于关联规则R，置信度是指包含X和Y的事务数与包含X的事务数之比即：

关联规则的挖掘过程分为两步：

生成k项频繁集：k项集的出现频率不小于最小支持度(k＝1，2，3…)。

由频繁项集产生强关联规则即：规则必须同时满足最小支持度和最小置信度。

目前主流的关联规则算法有Apriori和FP-Growth。本发明实施例基于Apriori算法同时考虑到Apriori算法在生成k项频繁集时随着k的增大计算量会呈指数增长，因此为了减少计算量提高系统性能，本发明实施例只查找到2-项频繁集并生成关联规则，为了提高系统推荐的质量，本发明将：朝代、省份、主题3个方志标签融入到关联规则的推荐中，使推荐的结果更符合地方志网站的特色。

基于方志标签+改进的关联规则推荐算法描述如下：通过行为记录模块提供的数据集-1即：用户id和该用户访问的方志名称，利用Apriori算法生成形如：(其中X，Y表示方志的1-项频繁集)的规则表达式，并用一个m×m的关联规则矩阵A表示，矩阵A中包含了每个方志推出其它m个方志的置信度即aij表示的置信度。目标用户对m个方志的浏览情况生成一个m维的列向量P，如果目标用户浏览了第i个方志，则p_i为相应的浏览次数，如果没有浏览则p_i为0，p_i越大表明用户对该方志的偏好程度越大，则目标用户的推荐向量R可以根据用户的偏好向量P和关联矩阵A计算得到，公式如下：

R＝topN(PA)_ij

这里并不是向量与矩阵的乘法运算，而是p_i数乘矩阵A中第i行的每个元素即a_i·，这样就给置信度添加了一个权重，使得基于用户偏好程度较大的方志推出的规则的置信度更大，这样的推荐结果更符合用户的偏好，如果p_i为0，则矩阵A中对应的那一行元素全为0。然后将所有的置信度按照从大到小的顺序排序并将对应的推荐方志放在推荐向量R中(如果推荐的方志该用户已浏览则从推荐向量中删除)，选出前n个方志作为推荐的备选项，同时将用户已浏览方志的标签：朝代(D)、省份(P)、主题(S)与备选方志的标签进行比较，找出最相似的几篇方志作为最终的推荐结果。

对于积极用户，采用基于用户的协同过滤推荐方法。在基于用户的协同过滤推荐中，为了对目标用户产生推荐，需要找到与目标用户兴趣最相似的用户，因此如何计算用户之间的相似度，是基于用户协同过滤推荐算法的核心部分。

最常用的相似度计算方法有皮尔森相关系数、余弦相似度以及Jaccard相似系数。皮尔森相关系数主要用来反映两个变量线性相关程度，并且要求两个变量是成对地从正态分布中取得的，因此该相似度计算方法并不太适合；而余弦相似度只能分辨个体在维度之间的差异，没法衡量每个维度数值的差异，这样会导致一个情况：比如用户对内容评分，5分制，a和b两个用户对两个内容的评分分别为(1，2)和(4，5)，使用余弦相似度得出的结果是0.98，两者极为相似，但从评分上看a似乎不喜欢这两个内容，而b比较喜欢，余弦相似度对数值的不敏感导致了结果的误差；Jaccard系数主要用于计算符号变量或布尔值变量的个体间的相似度。本文充分考虑地方志数据集的特点，利用Tanimoto系数来计算用户的相似度。Tanimoto系数也称为广义的Jaccard系数：

其中x和y分别表示两个用户的评分向量(这里的评分由用户浏览方志的次数来代替)，利用以上公式计算目标用户与其他用户的相似度并找出与目标用户最相似的几个邻近用户，将邻近用户浏览次数最多的方志生成一个推荐列表，同时将用户已浏览方志的标签与推荐方志的标签进行比较，选择与用户已浏览方志最相似的几篇方志作为最终的推荐结果。

通过以上三个模块，地方志资源的混合推荐系统形成了一个有针对性、有层次、用户面更广的推荐系统，真正实现了个性化推荐。

本说明书中未作详细描述的内容，属于本专业技术人员公知的现有技术。

Claims

1.一种面向地方志网站的混合推荐系统，其特征在于：该系统包括行为记录模块、用户分类模块、用户推荐模块；

2.根据权利要求1所述的面向地方志网站的混合推荐系统，其特征在于：所述的用户行为信息是通过获取某个时间段内网站的日志文件，并对日志文件进行降维、统计分析预处理，最终形成两个数据集：一个是由用户id和该用户访问的方志名称所组成的数据集-1，作为关联规则挖掘的数据集，另一个是由用户id、用户访问的方志个数以及总的浏览次数、观看视频的次数、论坛发帖数所组成的数据集-2，作为用户分类的数据集。

3.根据权利要求1所述的面向地方志网站的混合推荐系统，其特征在于所述用户分类模块的具体实施方法如下：

通过行为记录模块提供的数据集：用户id、用户访问的方志个数以及总的浏览次数、观看视频的次数、论坛发帖数，运用kNN将用户分为：新用户、一般用户和积极用户；同时将用户的类标签存储到数据库中，以便系统判断用户类型。

4.根据权利要求1所述的面向地方志网站的混合推荐系统，其特征在于所述用户推荐模块的具体实施方法如下：

对于新用户且无选填信息，采用基于TopN的推荐算法；本系统是根据所有方志被访问的次数进行方志的热度排序，并将前n个访问次数最多的方志推荐给新用户；

TopN算法的实现思路：

(a)将每个方志被访问的次数存到数组中；

(b)取出数组的前n个元素，创建长度为n的最小堆；

对于一般用户，采用基于方志标签+改进的关联规则推荐方法；将朝代(D)、省份(P)、主题(S)3个方志标签融入到关联规则的推荐中，使推荐的结果更符合地方志网站的特色；基于方志标签+改进的关联规则推荐算法描述如下：通过行为记录模块提供的数据集：用户id和该用户访问的方志名称，利用Apriori算法生成形如：的规则表达式，其中X，Y表示方志的1-项频繁集，并用一个m×m的关联规则矩阵A表示，矩阵A中包含了每个方志推出其它m个方志的置信度即a_ij表示的置信度，目标用户对m个方志的浏览情况生成一个m维的列向量P，如果目标用户浏览了第i个方志，则p_i为相应的浏览次数，如果没有浏览则p_i为0，p_i越大表明用户对该方志的偏好程度越大，则目标用户的推荐向量R可以根据用户的偏好向量P和关联矩阵A计算得到，公式如下

R＝topN(PA)_ij

<mrow> <mi>T</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>x</mi> <mo>&CenterDot;</mo> <mi>y</mi> </mrow> <mrow> <msup> <mrow> <mo>|</mo> <mrow> <mo>|</mo> <mi>x</mi> <mo>|</mo> </mrow> <mo>|</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>|</mo> <mrow> <mo>|</mo> <mi>y</mi> <mo>|</mo> </mrow> <mo>|</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mi>x</mi> <mo>&CenterDot;</mo> <mi>y</mi> </mrow> </mfrac> </mrow>