CN105740387A

CN105740387A - 一种基于作者频繁模式的科技文献推荐方法

Info

Publication number: CN105740387A
Application number: CN201610056602.8A
Authority: CN
Inventors: 李玉鑑; 杨凯文
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2016-01-27
Filing date: 2016-01-27
Publication date: 2016-07-06
Anticipated expiration: 2036-01-27
Also published as: CN105740387B

Abstract

本发明公开了一种基于作者频繁模式的科技文献推荐方法，包括：在Fp?growth算法中增加处理文献ID(文献唯一编号)的功能，构造出作者频繁模式及其对应的文献集、作者发表的文献和关键字对应的文献集，并去除用户已经浏览过的文献构建出文献推荐候选集。并构建一种计分系统，按照得分从高到底对候选集进行排序，选出得分最高的10篇论文推荐给用户。

Description

一种基于作者频繁模式的科技文献推荐方法

技术领域

本发明属于推荐系统领域，涉及一种基于作者频繁模式的科技文献推荐方法。

背景技术

互联网的出现和普及给用户带来了大量的信息，但随着网络的迅速发展而带来的网上信息量的大幅增长，使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息，对信息的使用效率反而降低了，这就是所谓的信息超载问题。解决信息超载问题一个非常有潜力的办法是推荐系统，它是根据用户的信息需求、兴趣等，将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐系统。

关联规则最初提出的动机是针对购物篮分析问题提出的。假设分店经理想更多的了解顾客的购物习惯。特别是，想知道哪些商品顾客可能会在一次购物时同时购买？为回答该问题，可以对商店的顾客事物零售数量进行购物篮分析。该过程通过发现顾客放入“购物篮”中的不同商品之间的关联，分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁的被顾客同时购买，从而帮助他们开发更好的营销策略。

1993年，Agrawal等人首先提出关联规则的概念，同时给出了相应的挖掘算法AIS，但是性能较差。1994年，他们建立了项目集格空间理论，并依据上述两个定理，提出了著名的Apriori算法。至今Apriori仍然作为关联规则挖掘的经典算法被广泛讨论，以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。

Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域。其核心是基于两阶段的频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

众所周知，Apriori算法在产生频繁模式前需要对数据库进行多次扫描，同时产生大量的候选频繁集，这就使Apriori算法时间和空间复杂度较大。而且Apriori算法中有一个很重要的性质：频繁项集的所有非空子集都必须也是频繁的。这个性质导致Apriori算法在挖掘长频繁模式的时候性能低下。为了提高性能，Jiawei Han提出了FP-Growth算法，Fp-growth算法在挖掘频繁模式的时候性能提高10倍以上。

FP-growth算法使用了一种紧缩的数据结构来存储找频繁项集所需要的全部信息。Fp-growth方法将发现长频繁模式的问题转换成在较小的条件数据库中递归地搜索一些较短的模式，然后连接后缀。它使用最不频繁的项作后缀，提供较好的选择性。该方法显著地降低了搜索开销。FP-growth算法中涉及到一些概念：项(事物表示的单位)的集合称为项集。包含k个项的项集成为k项集。集合{computer，software}是一个2项集。项集的出现频度称为支持度，如果项集I支持度满足预定义的最小支持度阈值，则I是频繁项集。

本发明研究的是在新构建的科技文献检索系统上如何实现推荐系统。常见的推荐方法有基于用户的协同过滤和基于内容的协同过滤等。但是对于新构建的文献检索系统来讲，在没有丰富的用户行为数据的情况下，利用协同过滤的方式进行推荐效果不会太好。本发明提出利用文献的作者信息来构建频繁集从而进行文献推荐。如果直接利用作者项集进行计算频繁模式的话会有一些问题，比如有三个作者项集：{李其，王磊，李龙}，{李其，王磊，宋佳}和{王磊，杨志，张敏}，当设置置信度为2时，我们能得到{李其，王磊}这个频繁项，我们要想得到这个项集对应的文献，就不得不去扫描全部的文献，虽然可以通过一些索引技术来减少扫描的时间复杂度。但是也会增加空间开销和维护的成本。因此本发明在Fp-growth算法中增加了处理文献ID(文献的唯一编号)的功能，在得到频繁项集时同时也会得到该频繁项集对应的文献，从而提高效率减少维护成本。另外，本发明还利用作者发表的其他文献和关键词发表的文献，构建了一种基于作者频繁模式的科技文献推荐方法。

发明内容

本发明在新构建文献检索系统的特殊情况下，提出了一种基于作者频繁模式的科技文献推荐方法。通过在FP-growth算法中增加处理文献ID的功能构建作者频繁项集及其对应的文献集、统计作者发表的文献和统计关键字所代表的文献集，去除用户已经浏览过的文献构建出文献推荐候选集。本发明还构建一种打分系统，按照得分从高到底对候选集进行排序，选出得分最高的10篇论文推荐给用户。

一种基于作者频繁模式的科技文献推荐方法，其步骤为：

步骤1、收集并整理科技文献，解析成结构化的数据并存储在数据库D表中，其中该表字段包括：ID(文献唯一编号)、author(文献的作者)、keyword(关键字)和title(文献的名称)等；在数据库中建立存储作者频繁项集及其对应的文献ID集的T_fp表,该表字段为：ID(表唯一编号)、authors(作者频繁项集)和papers(文献唯一编号ID集，其中每个编号以“，”作为分隔符)；设置最小支持度为n，n通常为3，计算作者频繁项集，过程如下：

步骤1.1、构建作者FP表L：其中L的数据结构为{作者，文献编号ID集(ID之间以“，”分隔)，支持度计数，结点链}，其中每行称为作者记录，扫描文献数据库D表一次，统计每个作者发表的文献总数存入作者记录的支持度计数列中，且作者发表的文献编号ID集以“，”为分隔存入作者记录的文献编号ID集列中，按照支持度计数对L中的作者记录降序排序，去除小于最小支持度的作者记录；

步骤1.2、构建作者FP树T：其中T中结点的数据结构形式是{作者#文献ID集：支持度计数，结点链指针}；创建T的根节点，以“null”标记它，对数据库D表中每篇文献作者集按L中的次序排序并过滤掉在L中不存在的作者，排序结果为：A{A1,A2…An}；按照A中Ai的次序构建一条路径，如果此路径与已有的路径有相同的前缀，则可以利用已有的路径，对于已有路径重合部分上的结点计数增加1，追加此文献ID并以“，”隔开。而对于后面不同的部分创建新的路径，该新路径链接在已有重合路径上的最后结点上，如果T中没有路径的前缀和该新路径有重合的部分，将该新路径链接到T的根节点上；该新路径上结点计数设置为1，并记录文献ID；对于新插入的所有结点通过节点链结构将其连接到其他具有相同作者的结点上；

步骤1.3、根据作者FP树T构建作者频繁项集并存入T_fp表：

步骤1.3.1、记a为已产生的后缀模式，其初始值为空；

步骤1.3.2、如果T包含单个路径P，则对路径P中结点(P为{P1，P2...Pn}，如果n大于10，则只保留前十个结点)的每个组合{Pi1,Pi2...Pir}(其中ir大于0且小于n)记为b，循环产生模式bUa,该模式的支持度计数等于b中结点的最小支持度计数，且该模式对应的文献编号ID集为b中具有最小支持度计数结点的文献编号ID集；如果上述产生的模式(作者频繁项集)中作者数大于等于2，则将该模式及其对应文献ID集存入T_fp表中；

步骤1.3.3、如果T包含多个路径，则对L中的每条作者记录ai(ai按照L中支持度计数从小到大的次序产生)产生一个模式b＝aiUa,其支持度等于ai的支持度,该模式对应的文献编号ID集等于ai中的文献编号ID集；如果b中作者数大于等于2，则将该模式(作者频繁项集)及其对应文献ID集存入T_fp表中；

步骤1.3.4、在T中找到b的所有前缀,其中每个前缀中所包含的作者集称为b的条件模式基，b的条件模式基的集合记为B，使用步骤1.1至步骤1.3的方法，对B构造条件FP树记为TB；

步骤1.3.5、如果TB不等于空集,令a等于b，回到步骤1.3.2递归产生B的作者频繁项集；

步骤2、计算用户正在浏览或者点击的兴趣文献的推荐集S过程如下：

步骤2.1、依据文献数据库D表离线统计每个作者发表的文献，保存到数据库T_ap表中，该表字段为：ID(数据库表唯一编号)、author(作者姓名)和paperIds(作者发表的文献的唯一编号，其中每篇文献唯一编号以“，”隔开)；依据文献数据库D表离线计算每个关键词的所有文献，并保存记录到T_kp表中，该表字段为：ID(数据库表唯一编号)、keyword(关键字)和paperIds(关键字对应的所有文献唯一编号，其中每篇文献唯一编号以“，”分割)；

步骤2.2、找出兴趣文献中每个作者所有的文献集(查询T_ap表)，并根据作者在目标献中的次序对于该作者发表的其他文献给定不同的分值，其中第一作者的文献计1分，第二作者的文献计0.5分，第三作者的文献计0.2分，其他作者的文献计0.1分，将选出的文献及其对应的分数存入文献推荐候选集中，如果候选集合中已经存在该文献则对该文献累加计分；

步骤2.3、判定兴趣文献的每位作者是否在作者频繁项集(查询T_fps表)中存在，若存在，则根据该作者在兴趣文献中出现次序对频繁项集对应的文献计分，其中第一作者的文献计2分，第二作者的文献计1分，第三作者的文献计0.5分，其他作者的文献计0.2分，将选出的文献存入文献推荐候选集中，如果候选集合中已经存在该文献则对该文献累加计分；

步骤2.4、得到兴趣文献中的每个关键词对应的所有论文集合(查询T_kp表)，将所有的文献计0.8分，将选出的文献存入文献推荐候选集中，如果候选集合中已经存在该文献则对该文献累加计分；

步骤2.5、在文献候选集中去除作者已经点击或者浏览的科技文献，选出文献在推荐候选集中得分最高的前十位作为最终推荐给用户的文献；

经过实验，该发明的推荐结果显著，为新构建的科技文献系统提供了一个有效的方法，其中算法流程见附图1，推荐结果图见附图3。

附图说明

图1推荐系统流程图。

图2文献检索结果图。

图3推荐系统结果图。

图4包含第一个分支的Fp树。

图5最终生成的Fp树。

图6后缀为作者李其的条件Fp树

具体实施方式

步骤1、利用从互联网抓取的1000万的文献集作为本次发明的数据集。通过解析成结构化数据存储在数据库D表中，该表字段为：ID(唯一编号)、author(文献的作者)、keyword(关键字)和title(文献的名称)等其他字段(表的数据如表1)。在数据库中建立存储作者频繁项集及其对应的文献ID集的T_fp_authors_papers表,该表字段为：ID(表唯一编号)、authors(作者频繁项集)和papers(文献唯一编号ID集，其中每个编号以“，”作为分隔符)；

表1 D表中的数据形式

ID	author	keyword	title	...
					100	李科，王红，刘刚	...	...	...
101	李科，宋佳，刘刚，李其	...	...	...
					102	刘刚,王红，李其	...	...	...
103	李科，王红，宋佳，刘东	...	...	...

设置最小支持度为n，n通常为3，计算作者频繁项集，过程如下：

步骤1.1、构建作者FP表L。

例如：对表1中的数据通过发明内容中的步骤1.1的方法找出频繁度大于2的作者记录并存入L(如表2)中。

表2 FP表L

作者	文献编号ID集	频繁度	结点链
				李科	100，101，103	3	Null
刘刚	100，101，102	3	Null
				王红	100，102，103	3	Null
宋佳	101，103	2	Null
				李其	101，102	2	Null

步骤1.2、构建作者FP树T。

利用发明内容中的步骤1.2方法，对于第一个文献:“100：李科，王红，刘刚”，其中作者按照L中的次序从大到小排列为：“100：李科，刘刚，王红”，构造T的第一个分支<李科#100:1>、<刘刚#100:1>、<王红#：1>，结果如图4所示。对表1中所有的文献依次进行如上操作，然后将所有相同作者的结点连接在一起。最终结果如图5所示。

步骤1.3、构建作者频繁项集并存入T_fp_authors_papers表。

例如按照L列表中从下向上对每个作者进行算法处理。如李其的条件模式基(李科#101刘刚#101，宋佳#101:1)(刘刚#102王红#102：

1)在满足最小支持度2的前提下为生成条件FP树如图6所示。

此时图3中只有单条路径此时的频繁项集是{刘刚#101,102李其#101,102：2}依次类推，根据FP-growth算法，最终得到的支持度大于2频繁模式如表3。对于表3产生的频繁模式按照T_fp_authors_papers表结构，存入该表中。

表3通过创造条件模式基计算作者频繁项集

步骤2、计算兴趣文献的文献推荐集。

步骤2.1、统计D表中每个作者的科技文献并写入数据库表(T_author_papers)共3675892条记录。

步骤2.2、统计每个关键词的科技文献并写入数据库表(T_keyword_papers)3947838条记录。

步骤2.3、为1000万文献建立索引。采用lucene开源检索工具为1000万的文献建立索引。分别对标题，作者，关键字三部分做索引域，如附图2。

步骤2.4、利用发明内容中步骤2的方法，当作者选中一篇论文后，推荐系统根据推荐方法推荐10篇相关论文。如附图3。

Claims

1.一种基于作者频繁模式的科技文献推荐方法，其特征在于：该步骤如下，

步骤1.3、根据作者FP树T构建作者频繁项集并存入T_fp表：

步骤1.3.1、记a为已产生的后缀模式，其初始值为空；

步骤1.3.2、如果T包含单个路径P，则对路径P中结点(P为{P1，P2...Pn}，如果n大于10，则只保留前十个结点)的每个组合{Pi1,Pi2...Pir}(其中ir大于0且小于n)记为b，循环产生模式bUa,该模式的支持度计数等于b中结点的最小支持度计数，且该模式对应的文献编号ID集为b中具有最小支持度计数结点的文献编号ID集；

如果上述产生的模式(作者频繁项集)中作者数大于等于2，则将该模式及其对应文献ID集存入T_fp表中；

步骤1.3.4、在T中找到b的所有前缀,其中每个前缀中所包含的作者集称为b的条件模式基，b的条件模式基的集合记为B，使用步骤1.1至步骤1.2的方法，对B构造条件FP树记为TB；

步骤2、根据用户正在浏览或者点击的兴趣文献计算推荐集S过程如下：

步骤2.2、通过查询T_ap表找出每个作者所有的文献集，并根据作者在兴趣献中的次序对于该作者发表的其他文献给定不同的分值，其中第一作者的文献计1分，第二作者的文献计0.5分，第三作者的文献计0.2分，其他作者的文献计0.1分，将选出的文献及其对应的分数存入文献推荐候选集中，如果候选集合中已经存在该文献则对该文献累加计分；

步骤2.3、判定兴趣文献的每位作者是否在作者频繁项集(查询T_fp表)中存在，若存在，则根据该作者在兴趣文献中出现次序对频繁项集对应的文献计分，其中第一作者的文献计2分，第二作者的文献计1分，第三作者的文献计0.5分，其他作者的文献计0.2分，将选出的文献存入文献推荐候选集中，如果候选集合中已经存在该文献则对该文献累加计分；

步骤2.4、通过查询T_kp表得到兴趣文献中的每个关键词对应的所有论文集合将所有的文献计0.8分，将选出的文献存入文献推荐候选集中，如果候选集合中已经存在该文献则对该文献累加计分；

步骤2.5、在文献候选集中去除作者已经点击或者浏览的科技文献，选出文献在推荐候选集中得分最高的前十位作为最终推荐给用户的文献。