CN107341199A

CN107341199A - 一种基于文献信息共性模式的推荐方法

Info

Publication number: CN107341199A
Application number: CN201710472900.XA
Authority: CN
Inventors: 曹佳; 王思檬; 齐雯
Original assignee: Beijing Forestry University
Current assignee: Beijing Forestry University
Priority date: 2017-06-21
Filing date: 2017-06-21
Publication date: 2017-11-10
Anticipated expiration: 2037-06-21
Also published as: CN107341199B

Abstract

本发明提出了一种基于文献信息共性模式的推荐方法，该方法能向用户推荐其感兴趣的科技文献。具体实现包括：根据文献的关键词信息，运用基于聚类机制的模式识别算法获取每篇文献的关键词模式；基于用户正在访问的文献，通过该文献的关键词模式，向用户推荐具有共性模式的其他文献。该方法是一种基于文献关键词共性模式的推荐方法，无需用户的历史行为数据即可向用户推荐其感兴趣的文献，提高了推荐结果的多样性。

Description

一种基于文献信息共性模式的推荐方法

技术领域

本发明涉及计算机技术领域，具体涉及一种基于文献信息共性模式的推荐方法。

背景技术

学术文献是科研人员开展科研活动或继续科研研究的重要信息资源，据统计，从2004年到2014年，我国科研人员共发表科技文献136.98万篇，位居世界第二。然而，面对信息化时代不断扩展的文献资料，科研人员如何快速发现自己所需的学术文献是一项非常严峻的工作。

推荐系统是一个用于向用户推荐相似对象的系统，通过识别出推荐对象的特征信息，匹配特征信息相似的推荐对象作为推荐结果应用在推荐系统中。目前主要的推荐方法是基于内容的推荐、基于协同过滤。

基于内容的推荐，它不需要用户对推荐对象进行评价，而是把推荐对象的内容特征抽取出来，然后从用户以往选择对象的内容特征去学习用户的偏好兴趣，最后与用户偏好兴趣匹配度较高的对象将被推荐给用户。

基于协同过滤的推荐的主要思想是根据所有用户对物品或者信息的评分等偏好信息，发现和现在要进行推荐的用户兴趣偏好相似的用户集。然后，根据相似用户的兴趣偏好信息，给用户做出推荐。

随着推荐系统的日趋成熟，关于文献数据的推荐处理技术也在不断进步，根据推荐系统的分类，对文献的推荐也分为基于内容的推荐技术和基于协同过滤的推荐技术。基于内容的推荐技术是查询与用户喜欢或关注过的文献的内容相似的文献，把这些文献推荐给用户。基于协同过滤的推荐技术是查询与用户具有相似兴趣的其他用户，把这些其他用户喜欢或关注过的文献推荐给该用户。其中，一个重要的内容是从大规模的文献数据集和引用网络关系数据集中，抽取文献的特征。如每篇文献的主题、文献间的引用关系和主题对应的特征词。在基于内容的推荐技术中主要通过对文献的语义进行分析或者对文献引用网络建模分析，得出文献之间的相似性。

Simon Philip提出了一种基于内容相似的文献推荐方法，参见Philip S,Shola PB,Ovye A.Application of Content-Based Approach in Research PaperRecommendation System for a Digital Library.International Journal of AdvancedComputer Science&Applications,2014.该文献推荐方法先使用TF-IDF(术语频率逆文档频率)方法将文献数据表示为几个频繁出现的特征词，然后利用余弦相似性来确定文献数据与用户的查询或感兴趣的文献的相似性，将相似性高的文献数据进行推荐。

Kazunari Sugiyama等人提出了一种基于潜在文献引用关系的文献推荐方法，参见Sugiyama K,Kan M Y.Exploiting potential citation papers in scholarly paperrecommendation.The ACM/IEEE Joint Conference on Digital Libraries.ACM,2013.Sugiyama利用文献数据的引用关系将文献进行关联，再进一步通过引用的相似性确定潜在的引用文献，改善文献数据的稀疏性，提高推荐准确率。

但是，随着文献数量的不断增加，这些研究成果要么没有考虑到针对大量文献数据库的可用性及效率，仅仅通过单一的文献信息如文献的主题词或者文献的引文进行推荐，因此推荐的效率不高，同时，现有的研究成果的重点是关注文献之间的相似性，并没有进一步对该相似性进行研究。因此，本发明针对现有科研文献资源丰富的特点，通过文献关键词来分析文献之间的关系，将相似的文献进行聚类，识别出它们的共性模式，最终应用在文献推荐中。不仅利用了文献数据的信息获得文献之间的关系，将大量的文献信息分成类别，并且进一步分析出文献的共性模式，提高了推荐的实用性和可靠性。

发明内容

针对上述现有技术存在的不足，本发明的主要目的在于提供一种识别文献共性模式的方法，该方法可以应用于文献推荐中，为推荐提供多样性和实用性的优点。

本发明的技术方案：一种基于文献信息共性模式的推荐方法，其充分利用了文献数据的信息进行推荐，其步骤为：

步骤1、收集并整理科技文献，首先提取文献信息，并将这些信息存储在文献数据表D中，该表的字段包括D_ID(文献编号，每个文献具有唯一编号)、Title(文献标题)、Keywords(关键词集，其中关键词之间以”,”作为分隔符)、Paper_mode(记录文献的模式，该字段将通过本方法后续计算所得)，D表的每一行表示一篇文献的文献信息。

步骤2、识别文献信息的共性模式，过程如下：

步骤2.1、构建关键词表K。该表每一行对应一个关键词及其所在文献的集合等信息，该表的字段包括：K_ID(关键词编号，每个关键词具有唯一编号)、K_word(关键词)、K_papers(文献ID集合，本字段记录每个关键词对应的文献ID集合，其中每个编号以“,”作为分隔符)、Cluster(记录关键词所属类别，该字段将通过本方法后续计算所得)；

步骤2.2、统计关键词和文献之间的关系信息。具体过程如下：扫描表D，将其中无重复的关键词分别存入表K的K_word字段，并且将该关键词所在的文献编号(表D中D_ID字段)存入K_papers中，其中编号以“,”分隔，同时统计所在的文献总数，最后按照每个关键词的文献总数对表K中的关键词进行降序排序。

步骤2.3、计算每个关键词的类别，具体过程如下：

步骤2.3.1、根据表K中每个关键词的K_papers(文献ID集合)字段，计算两两关键词之间的Jaccard相似度，即两个关键词各自的K_papers字段中相同文献ID的数量与它们的并集中元素数量的比值为两个关键词之间的相似度；

步骤2.3.2、先将每个关键词归为一类，每类仅包含一个关键词，这样N个关键词共得到N类；根据步骤2.3.1所计算的关键词之间的相似度，即可得到类与类之间的相似度；

步骤2.3.3、寻找各个类之间相似度最大的两个类，并合并成一类，于是总的类数少了一个，记录此时关键词聚类结果R_i，其中i是此时类的总数，R_i是每个关键词所属类构成的集合；

步骤2.3.4、重新计算新合并的这个类与所有旧类之间的相似度；

步骤2.3.5、重复步骤2.3.3和2.3.4直到最后类数为1，即所有关键词聚为一类，结束聚类。由于重复步骤2.3.3，每次会得到一个聚类结果，最后得到聚类结果集，表示成R(R₁,R₂,…R_i；i≤N)；

步骤2.3.6、对于2.3.5步骤得到的关键词聚类结果集R中的每个聚类结果R_i(1≤i≤N)，分别计算它们的轮廓系数S(R_i)，并选择轮廓系数最大的聚类结果作为最终关键词聚类结果，记为R_m，其中轮廓系数S(R_i)计算方法：

其中，N为关键词的个数，S(k)为每个关键词k的轮廓系数，计算方式为：

其中，a(k)＝average(k与所有和k属于同一类别的其它点的相似度)，b(k)＝min(k与所有和k不属于同一类别的其它点的平均相似度)；

步骤2.3.7、由于确定最终关键词聚类结果为R_m，即确定每个关键词所属类，用阿拉伯数字对类进行编号，根据相同类的关键词具有相同编号，然后将每个关键词的编号作为它的类别存入关键词表K中的Cluster字段中；

步骤2.4、确定每篇文献的模式。

根据表D中每篇文献的Keywords(关键词集)字段，在表K的Cluster字段中一一查询该关键词集所对应的类别集合，从而获得每篇文献的关键词集的类别组合，即作为该文献的模式，并将其存入表D的Paper_mode字段；

步骤3、根据用户正在浏览的文献，获取该文献的模式，给用户推荐与该文献模式具有共性特征的文献集合，过程如下：

步骤3.1、提取用户正在访问的某文献的关键词集合，查找表K获得各关键词的类别，从而获得该文献的关键词集的类别组合，即为该文献的模式；

步骤3.2、根据步骤3.1所获得的文献模式，查找表D，提取与该模式相同的文献集合推荐给用户，所推荐的文献集合与用户所访问的文献具有相同的模式，即为共性模式文献集合。再通过表D获得每篇待推荐文献的信息，即为推荐结果T。

与现有技术相比，本发明，通过文献的关键词信息等数据，运用相似度算法和层次聚类算法，获得了文献信息共性模式，不仅将语义上相互关联的文献组合到一起，而且将具有共性模式的文献也进行组合，同时，将获得的文献信息共性模式应用在文献推荐中，综合考虑用户访问的文献信息，根据用户的需求个性化的推荐文献，从而有效的提高了文献的推荐效率和采纳率，而且提高了文献推荐的多样性。

附图说明

图1为本发明推荐流程图；

图2为本发现获得文献共性模式的流程图；

图3为本发明文献信息结果图；

图4为本发明文献推荐结果图；

图5为本发明实施方式中关键词聚类结果图。

具体实施方式

参见图1，为本发明一种基于文献信息共性模式的推荐方法的流程图，该方法能向用户推荐其感兴趣的科技文献。其中图2为本发明获得文献信息共性模式的流程图，具体实现包括：根据文献的关键词信息，运用基于聚类机制的模式识别算法获取每篇文献的关键词模式；基于用户正在访问的文献，通过该文献的关键词模式，向用户推荐具有共性模式的其他文献，推荐结果展示见图4。

下面提供具体实施例对本发明的技术方案作进一步说明，以便理解本发明的发明实质。具体步骤如下：

步骤1、利用互联网抓取的林业科技文献作为本次发明的数据集，分析文献信息将其存储在文献数据表D中，其中该表的字段包括D_ID(文献编号，每个文献具有唯一编号)、Title(文献标题)、Keywords(关键词集，其中关键词之间以”,”作为分隔符)，如图3所示，图3显示了本发明获取的文献信息数据，其中表1展示了部分数据作为说明；根据发明内容中步骤1所述，表D的Paper_mode是用于记录文献的模式，该字段将通过本方法后续计算所得，在此不做展示。

表1文献数据表D的形式

步骤2、计算文献信息的共性模式，过程如下：

步骤2.1、利用发明内容中的步骤2.1和2.2的方法，构建关键词表K，该表用于存储每一个关键词及其对应的文献ID集等信息，字段包括：K_ID(关键词编号，每个关键词具有唯一编号)、K_word(关键词)、K_papers(文献ID集合，本字段记录每个关键词对应的文献ID集合，其中每个编号以“,”作为分隔符)、Cluster(记录关键词所属类别，该字段将通过本方法后续计算所得)；然后扫描文献数据表D将数据存入K中，并按照K_papers列中文献的数量对表K中的关键词进行降序排序，删除数量小于2的关键词，结果如表2所示：

表2关键词表K(不完整)

步骤2.2、识别关键词的类别存入关键词表K的Cluster字段：

根据发明内容中的步骤2.3中的方法，计算相似度，运用基于聚类算法确定关键词的类别，例如对于关键词”林业”和“发展”，它们的相似度为K_papers字段中相同文献ID的数量与它们的并集中元素数量的比值即3/4＝0.75，对表2中的所有关键词两两计算相似度，然后进行聚类计算和轮廓系数评估，确定最终关键词聚类结果为R₂，即关键词分为2类，如图5所示，其中左半部分表示关键词，右半部分为识别出的类别，然后用阿拉伯数字对右半部分的类别进行编号，根据相同类的关键词具有相同编号，并将每个关键词的编号作为它的类别存入关键词表K中的Cluster字段，如表3所示：

表3关键词表K(已将结果存入Cluste字段)

步骤2.3、根据关键词的类别获得文献信息共性模式并存入共性模式表M：

按照发明内容中步骤2.4的方法，首先在文献数据表D中添加Paper_mode字段，该字段用于存储每篇文献的模式，其中每篇文献的模式由该文献的关键词集的类别组成,如果某个关键词没有类别则忽略，结果如表4所示：

表4文献数据表D的形式(已添加Paper_mode字段)

步骤2.4、根据用户正在浏览的文献，获取该文献的模式，给用户推荐与该文献模式具有共性特征的文献集合作为推荐结果T：

按照发明内容中步骤3的方法，例如用户正在访问的文献为“题目：福建省森林保护研究报告；关键词集：福建省、森林保护、存在问题、研究报告”，通过查找关键词表K获得其中两个关键词“森林保护”和“存在问题”的类别(Cluster字段)为：森林保护-2和存在问题-2，则该文献的模式为22；然后查找文献数据表D，找到相同模式的文献ID为103,104，则确定这两个文献与用户正在访问的文献具有共性模式，可作为待推荐文献；最后在文献信息表D中获得文献ID为103和104的文献信息推荐给该用户。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，本发明为详细描述的部分属于本领域公知技术。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于文献信息共性模式的推荐方法，其特征在于，包括如下步骤：

步骤1、收集并整理科技文献，首先提取文献信息，并将这些信息存储在文献数据表D中，该表D的字段包括D_ID，即文献编号，每个文献具有唯一编号；Title，即文献标题；Keywords，即关键词集，其中关键词之间以”,”作为分隔符；Paper_mode用于记录文献的模式，该字段将通过本方法后续计算所得。D表的每一行表示一篇文献的文献信息；

步骤2、识别文献信息的共性模式，过程如下：

步骤2.1、构建关键词表K，该表K每一行对应一个关键词及其所在文献的集合等信息，该表的字段包括：K_ID，即关键词编号，每个关键词具有唯一编号；K_word，即关键词；K_papers，即文献ID集合，本字段记录每个关键词对应的文献ID集合其中每个编号以“,”作为分隔符；Cluster，用于记录关键词所属类别，该字段将通过本方法后续计算所得；

步骤2.2、统计关键词和文献之间的关系信息，具体过程如下：扫描表D，将其中无重复的关键词分别存入表K的K_word字段，并且将该关键词所在的文献编号，即表D中D_ID字段存入K_papers中，其中编号以“,”分隔，同时统计所在的文献总数，最后按照每个关键词的文献总数对表K中的关键词进行降序排序；

步骤2.3、计算每个关键词的类别，具体过程如下：

步骤2.3.1、根据表K中每个关键词的K_papers，即文献ID集合字段，计算两两关键词之间的Jaccard相似度，即两个关键词各自的K_papers字段中相同文献ID的数量与它们的并集中元素数量的比值为两个关键词之间的相似度；

步骤2.3.5、重复步骤2.3.3和2.3.4直到最后类数为1，即所有关键词聚为一类，结束聚类；由于重复步骤2.3.3，每次会得到一个聚类结果，最后得到聚类结果集，表示成R，R₁,R₂,…R_i；i≤N；

步骤2.3.6、对于2.3.5步骤得到的关键词聚类结果集R中的每个聚类结果R_i，1≤i≤N，分别计算它们的轮廓系数S(R_i)，并选择轮廓系数最大的聚类结果作为最终关键词聚类结果，记为R_m，其中轮廓系数S(R_i)计算方法：

<mrow> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mi>S</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mi>N</mi> </mfrac> </mrow>

其中，a(k)表示k与所有和k属于同一类别的其它点的相似度的平均值；b(k)表示k与所有和k不属于同一类别的其它点的平均相似度的最小值；

步骤2.3.7、由于确定最终关键词聚类结果为R_m，即确定每个关键词所属类，根据相同类的关键词具有相同编号，用阿拉伯数字对类进行编号，然后将每个关键词的编号作为它的类别存入关键词表K中的Cluster字段中；

步骤2.4、确定每篇文献的模式

根据表D中每篇文献的Keywords字段，在表K的Cluster字段中一一查询该关键词集所对应的类别集合，从而获得每篇文献的关键词集的类别组合，即作为该文献的模式，并将其存入表D的Paper_mode字段；

步骤3.2、根据步骤3.1所获得的文献模式，查找表D，提取与该模式相同的文献集合推荐给用户，所推荐的文献集合与用户所访问的文献具有相同的模式，即为共性模式文献集合。