CN113268683B

CN113268683B - 一种基于多维度的学术文献推荐方法

Info

Publication number: CN113268683B
Application number: CN202110405315.4A
Authority: CN
Inventors: 胥备; 陶蒙蒙
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2023-05-16
Anticipated expiration: 2041-04-15
Also published as: CN113268683A

Abstract

本发明涉及一种基于多维度的学术文献推荐方法，依据学术文献的特点、以及学术文献服务对象的需求，采用全新逻辑设计方法，设计使用TF‑IDF计算分词权重的基础上，融合段落特征、以及概念从属树进行关键词的权值计算，凸显学术类文献的主题特征，最终结合文本各底层分析维度和不同级别用户之间存在的内在关系，实现学术文献的个性化推荐，用户无需过多地参与学术推荐系统的过程，进而使得用户在使用资源时更加便捷，减少了寻找资源所需要付出的时间成本代价。

Description

一种基于多维度的学术文献推荐方法

技术领域

本发明涉及一种基于多维度的学术文献推荐方法，属于学术类文献智能推荐技术领域。

背景技术

互联网技术的迅猛发展，迎来了大数据时代，由最先的网络娱乐项目，进而延伸到今天的学术资源，海量的学术资源以数据的形式在互联网上存在着，正改变着人们的学习方式。越来越多的用户由原始的实体图书馆转向网络图书馆，随着网络上学术文献的数据不断增长，互联网学习已成为主流趋势。但是由于网络资源过量，导致用户很难快速定位到自己需要的资源，这就是所谓的信息超载问题。雅虎公司使用了信息分类目录技术，网络资源通过信息分类目录技术被切分为不同的类别，用户可以通过查询不同的信息目录来获取自己想要的信息资源。但是网络信息量越来越大，人们对数据分类要求越来越细化，分类目录技术也渐渐无法满足用户的需求。于是信息搜索技术产生了，用户需要提供相应的关键字进行搜索数据信息，这个有效解决了在海量数据中获取用户想要的信息资源的基本问题，但是该技术要求用户提供准确的关键字，当用户无法准确提供关键字时，系统就无法准确的为用户提供其所需要的资源。且当用户仅通过关键词搜索方式来获取想要的资源，该方法虽然在一定程度上满足了用户对学术资源的基本需求，但是也使得用户花费大量的时间精力去获取和筛选自己想要的资源，最终搜索呈现给用户的结果大多并不是用户当前想要获取的资源，该方法由于关键字搜索所固有的局限性导致用户多元化和个性化的需求并不能实现。这就需要一种更加高效个性准确的推荐系统。它不需要用户提供精准的关键字信息来获取资源。在现实生活中，有基于小说情感类文档的阅读推荐，有基于新闻文档的阅读推荐，今日头条和知乎均有做基于当前用户的行为偏好做相应的推荐阅读，受到广大文档阅读者的喜爱。由于学术资源推荐系统的文本特殊性、学术性强、领域专业化等特点，现有技术设计中没有充分考虑学术文献的特点，即没有给出更加合理的文献推荐方案。

发明内容

本发明所要解决的技术问题是提供一种基于多维度的学术文献推荐方法，充分考虑学术文献的特点、以及用户的需求，采用全新逻辑设计方法，实现学术文献的个性化推荐，能够减少了寻找资源所需要付出的时间成本代价。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种基于多维度的学术文献推荐方法，基于目标用户各篇已阅读文献与各篇收藏文献构成的各篇参照文献，向目标用户实现各篇未阅读文献的推荐，包括如下步骤：

步骤A.基于目标用户的各篇参照文献、以及各篇未阅读文献，构建文献集合，并基于指定百科词条的图状结构分布，构建指定各专业领域分别所对应的概念从属树，然后进入步骤B；

步骤B.分别针对文献集合中的各篇文献，结合文献所属专业领域对应概念从属树中的各个词条，以及预设停用词库，针对文献进行分词切割，获得文献所包含的各个分词，进而获得文献集合中各篇文献分别所包含的各个分词，然后进入步骤C；

步骤C.分别针对文献集合中的各篇文献，基于文献所包含的各个分词，统计获得该文献所对应的各个非重复分词，并进一步分别针对该各个非重复分词，获得非重复分词在文献集合中对于该文献的重要程度值，作为该文献中该非重复分词的重要指标值；进而获得文献集合中各篇文献分别所对应各非重复分词的重要指标值，然后进入步骤D；

步骤D.分别针对文献集合中的各篇文献，进一步分别针对文献所对应的各个非重复分词，根据该文献中非重复分词的重要指标值，结合该非重复分词在该文献中的预设权重、以及该非重复分词对应该文献所属专业领域的概念从属树中的词条层次，通过三者的乘积，获得该文献中该非重复分词的权值，其中，若该非重复分词未与该文献所属专业领域概念从属树中的词条相对应，则定义该非重复分词对应该文献所属专业领域的概念从属树中的词条层次为1；进而获得文献集合中各篇文献分别所对应各非重复分词的权值，然后进入步骤E；

步骤E.分别针对文献集合中的各篇文献，针对文献所对应的各个非重复分词，按所对应权值由大至小顺序进行排序，并按A＝[a*K]，由第一个非重复分词起依次选取A个非重复分词，作为该文献所对应的各个特征关键分词；进而获得文献集合中各篇文献分别对应的各个特征关键分词，然后进入步骤F；其中，K表示文献所对应非重复分词的数量，a表示预设取数比例，

表示向上取整；

步骤F.分别针对文献集合中的各篇文献，根据文献所对应各特征关键分词的权值、以及各特征关键分词的排序，构建该文献所对应的特征词权值向量，进而获得文献集合中各篇文献分别所对应的特征词权值向量，然后进入步骤G；

步骤G.分别针对文献集合中的各篇未阅读文献，根据文献集合中各篇文献分别所对应的特征词权值向量，获得未阅读文献分别与各篇参照文献之间的语义相似度，并应用平均语义相似度作为该未阅读文献所对应的语义相似度；进而获得各篇未阅读文献分别所对应的语义相似度，构成一种文本筛选维度，然后进入步骤H；

步骤H.基于预设各用户等级分别所对应各种文本筛选维度对应关系，根据目标用户所对应的用户等级，选择满足该用户等级下各种文本筛选维度对应关系的各篇未阅读文献，用于推荐给目标用户。

作为本发明的一种优选技术方案：基于所述步骤D获得文献集合中各篇文献分别所对应各非重复分词的权值后，步骤E至步骤G执行的同时，还包括如下步骤i1至步骤i2；

步骤i1.分别针对文献集合中的各篇文献，获得文献所对应各非重复分词中、与该文献所属专业领域概念从属树中词条相对应的各个非重复分词，作为该文献所对应的各个领域特征分词；进而获得文献集合中各篇文献分别所对应的各个领域特征分词，然后进入步骤i2；

步骤i2.分别针对文献集合中的各篇未阅读文献，进一步分别针对未阅读文献与各篇参照文献之间，基于两篇文献同属相同专业领域的情形下，判断该两篇文献分别所对应各个领域特征分词之间是否存在相同的领域特征分词，是则基于相同领域特征分词分别在该两篇文献中权值的乘积，应用各相同领域特征分词分别所对应乘积之和，作为该两篇文献之间的领域相似度，否则其余情形下该两篇文献之间的领域相似度为0，进而获得该未阅读文献分别与各篇参照文献之间的领域相似度，并应用平均领域相似度作为该未阅读文献所对应的领域相似度；进而获得各篇未阅读文献分别所对应的领域相似度，构成一种文本筛选维度，然后进入步骤H。

作为本发明的一种优选技术方案：基于所述步骤B获得文献集合中各篇文献分别所包含的各个分词，步骤C至步骤G执行的同时，还包括如下步骤ii1至步骤ii2；

步骤ii1.分别针对文献集合中的各篇文献，获得文献所包含各分词分别对应该文献所属专业领域的概念从属树中的词条层次，并选择其中分布数量最多的词条层次，作为该文献所对应的概念抽象层次；进而获得文献集合中各篇文献分别所对应的概念抽象层次，然后进入步骤ii2；

步骤ii2.分别针对文献集合中的各篇未阅读文献，判断是否存在相同专业领域的参照文献所对应概念抽象层次与未阅读文献所对应概念抽象层次相同，并将该判断结果作为该未阅读文献所对应的概念抽象层次比对结果；进而获得各篇未阅读文献分别所对应的概念抽象层次比对结果，构成一种文本筛选维度，然后进入步骤H。

作为本发明的一种优选技术方案：基于所述步骤B获得文献集合中各篇文献分别所包含的各个分词，步骤C至步骤G执行的同时，还包括如下步骤iii1至步骤iii2；

步骤iii1.针对文献集合中的各篇未阅读文献，应用各篇未阅读文献分别所包含分词的数量，作为各篇未阅读文献分别所对应的词汇量，构成一种文本筛选维度，然后进入步骤iii2；

步骤iii2.分别针对文献集合中的各篇未阅读文献，获得未阅读文献所包含各分词中、与该未阅读文献所属专业领域的概念从属树中的词条相匹配成功的数量，并与该未阅读文献所包含分词数量的比值，作为该未阅读文献所对应的专业词占比；进而获得各篇未阅读文献分别所对应的专业词占比，构成一种文本筛选维度，然后进入步骤H。

作为本发明的一种优选技术方案：基于所述步骤B获得文献集合中各篇文献分别所包含的各个分词，步骤C至步骤G执行的同时，还包括如下步骤iv1至步骤iv2；

步骤iv1.分别针对文献集合中的各篇文献，获得文献所包含各分词分别对应该文献所属专业领域的概念从属树中的词条层次，并将所分布的各词条层次，作为该文献所对应的各词条层次；进而获得文献集合中各篇文献分别所对应的各词条层次，然后进入步骤iv2；

步骤iv2.分别针对文献集合中的各篇未阅读文献，基于同属相同专业领域的情形下，判断是否存在至少一篇参照文献，使得未阅读文献所对应各词条层次与该参照文献所对应各词条层次中最深层次向深度方向预设范围内的层次存在重叠，并将该判断结果作为该未阅读文献所对应的学习跨度比对结果；进而获得各篇未阅读文献分别所对应的学习跨度比对结果，构成一种文本筛选维度，然后进入步骤H。

作为本发明的一种优选技术方案：所述步骤A至步骤G执行的同时，还包括如下步骤v1；

步骤v1.分别获取目标用户所对应各篇未阅读文献的发表时间，作为各篇未阅读文献分别所对应的前沿性，构成一种文本筛选维度，然后进入步骤H。

作为本发明的一种优选技术方案，所述步骤C包括如下：

分别针对文献集合中的各篇文献，执行如下步骤C1至步骤C3，获得文献集合中各篇文献分别所对应各非重复分词的重要指标值，然后进入步骤D；

步骤C1.基于文献所包含的各个分词，统计获得该文献所对应的各个非重复分词x，并分别针对该各个非重复分词x，按TF_x＝n_x/N，获得各非重复分词x分别所对应的词频TF_x，然后进入步骤C2；其中，n_x表示该文献中非重复分词x出现的次数，N表示该文献中分词的个数；

步骤C2.分别针对该文献所对应的各个非重复分词x，按IDF_x＝log(M/m_x+1)，获得各非重复分词x分别所对应的逆文档频率IDF_x，然后进入步骤C3，其中，m_x表示文献集合中包含非重复分词x的文献的数量，M表示文献集合中文献的数量；

步骤C3.分别针对该文献所对应的各个非重复分词x，按TF-IDF_x＝TF_x*IDF_x，获得各非重复分词x分别在文献集合中对于该文献的重要程度值TF-IDF_x，作为该文献中各非重复分词的重要指标值T_x。

作为本发明的一种优选技术方案：所述步骤D中该非重复分词在该文献中的预设权重，按如下过程获得：

基于文献由开头至末尾依次预设所划分的各个段落部分，以及预设各段落部分依次所对应逐步递减的权重，由该非重复分词在该文献中所出现的各个段落部分，获得该各段落部分分别所对应的预设权重，并选择其中最大预设权重，作为该非重复分词在该文献中的预设权重。

作为本发明的一种优选技术方案：基于文献由开头至末尾依次预设所划分的摘要部分、关键词部分、正文部分，以及摘要部分所对应预设权重>关键词部分所对应预设权重>正文部分所对应预设权重。

作为本发明的一种优选技术方案：所述步骤A中，基于维基百科词条的图状结构分布，分别针对指定各专业领域，通过词条遍历方式实现标准树状结构的构建，获得各专业领域分别所对应的概念从属树。

本发明所述一种基于多维度的学术文献推荐方法，采用以上技术方案与现有技术相比，具有以下技术效果：

本发明所设计一种基于多维度的学术文献推荐方法，依据学术文献的特点、以及学术文献服务对象的需求，采用全新逻辑设计方法，设计使用TF-IDF计算分词权重的基础上，融合段落特征、以及概念从属树进行关键词的权值计算，凸显学术类文献的主题特征，最终结合文本各底层分析维度和不同级别用户之间存在的内在关系，实现学术文献的个性化推荐，用户无需过多地参与学术推荐系统的过程，进而使得用户在使用资源时更加便捷，减少了寻找资源所需要付出的时间成本代价。

附图说明

图1是本发明的数据集采集过程；

图2是本发明基于多维度的学术文献推荐方法应用示意图；

图3是本发明的维基百科词条在数据库中的存储结构；

图4是本发明的基于维基百科词条的概念从属树构建过程中如何解决父节点与子节点之间多对多的关系；

图5是概念从属树示意图；

图6是本发明中的基于TF-IDF算法融合文档结构特征及内容特征的文本特征提取；

图7是文档间内容相似度计算过程；

图8是本系统中文本推荐功能的各模块构成；

图9是该学术文献推荐系统的主界面。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明设计了一种基于多维度的学术文献推荐方法，基于目标用户各篇已阅读文献与各篇收藏文献构成的各篇参照文献，向目标用户实现各篇未阅读文献的推荐，如图2所示，实际应用当中，具体执行如下步骤A至步骤H。

步骤之前关于目标用户各篇已阅读文献、各篇收藏文献、各篇未阅读文献，诸如可以通过网络爬虫的方式由网络上述获取，如图1所示，具体首先网络爬虫根据预先设定的一个初始种子URL开始，然后以此获得初始网页上的URL列表，在爬行过程中不断从URL队列中获一个的URL，进而访问并下载该页面。页面下载后页面解析器去掉页面上的HTML标记后得到页面内容，将摘要、URL等信息保存到Web数据库中，同时抽取当前页面上新的URL，保存到URL队列，直到满足系统停止条件，如此通过网络爬虫完成对文献的采集，进而进入下述步骤设计的执行。

步骤A.基于目标用户的各篇参照文献、以及各篇未阅读文献，构建文献集合，并基于维基百科词条的图状结构分布，分别针对指定各专业领域，通过词条遍历方式实现标准树状结构的构建，获得各专业领域分别所对应的概念从属树，然后进入步骤B。

如图3所示，维基百科词条在数据库中的存储结构。本发明基于此数据库，构建维基百科词条的概念从属树，首先介绍维基百科的分类网络

包括以下步骤：

1)关键词映射：科技文献中的名词大多是对某一特定的专业领域的描述，因此首先从文档中提取所有名词或名词短语。然后我们得到一个关键字集，并将其定义为C级＝keyword₁，keyword₂，keyword₃…keyword_k}，关键字i(i＝1，2，3…n)表示文档中的名词或名词短语。然后所有的关键字都被映射到维基百科的类别中。需要注意的是，如果我们在维基百科分类系统中找不到关键字的映射，关键字将被忽略。最后，我们可以得到一个集合，它是Category＝{c₁，c₂，c₃…c_n}。

2)消除重复类别：首先Wikipedia中的类别分类系统会使两个不同的类别具有相同的父节点，即父节点和子节点存在多对多的关系，因此本系统提出的循环查找父类别的算法会导致重复类别的出现，并导致无休止的循环。下图是关于类别“人工智能(AI)”的父类别的部分节点数据。维基百科词条的一个子节点拥有多个父节点问题。为了在提取时消除原分类系统中的重复分类，程序在循环过程中加入一个标记集，以有限步终止算法。标记集定义为S＝{s₁，s₂，s₃…s_n}，其中s_i(i＝1，2，3…n)表示类别网络中存在的类别。“集合”被用作S的存储结构，当提取一个Tier＝(V，R)时，我们可以删除重复的类别，但保留父类别和子类别之间的关系。这不仅可以保证增加的范畴不重复，而且可以保证父范畴和子范畴之间的关系不被破坏。父节点与子节点间多对应关系的解决方式如图4所示。

3)构造初始层：将通过步骤1找到的所有类别作为第一层，然后找到循环定义的整个领域类别网络。最后，我们可以得到每个关键字的领域类别网络。之所以将网络的基本单位定义为类别，是因为它来源于原始维基百科类别的变形。

4)合并类别网络：将步骤3得到的域类别网络分别作为基本域类别网络，然后判断剩余映射的关键字是否存在于每个基本域类别网络中。如果它存在于基本域类别网络中(即它的网络是基本域类别网络的子网络)，我们应该删除子网络和该关键字。相反，它解释了由两个关键字构建的两个领域类别网络是不同的，我们应该同时保留它们。这表明所有剩余关键字都可以独立地构造一个域类别网络，而不是由其他剩余关键字构造的任何其他网络的子网络。最后，我们将维基百科中保留的关键词映射成类别，并将我们获得的类别作为整个领域类别网络的第一层。我们将按照步骤2和步骤3得到具有整个文档层次结构的领域类别的概念从属树，如图5所示。

基于图6所示，基础执行如下步骤。

步骤B.分别针对文献集合中的各篇文献，结合文献所属专业领域对应概念从属树中的各个词条，以及预设停用词库，针对文献进行分词切割，获得文献所包含的各个分词，进而获得文献集合中各篇文献分别所包含的各个分词，然后进入步骤C。

步骤C.分别针对文献集合中的各篇文献，基于文献所包含的各个分词，统计获得该文献所对应的各个非重复分词，并进一步分别针对该各个非重复分词，获得非重复分词在文献集合中对于该文献的重要程度值，作为该文献中该非重复分词的重要指标值；进而获得文献集合中各篇文献分别所对应各非重复分词的重要指标值，然后进入步骤D。

实际应用当中，上述步骤C具体执行：分别针对文献集合中的各篇文献，执行如下步骤C1至步骤C3，获得文献集合中各篇文献分别所对应各非重复分词的重要指标值，然后进入步骤D。

步骤C1.基于文献所包含的各个分词，统计获得该文献所对应的各个非重复分词x，并分别针对该各个非重复分词x，按TF_x＝n_x/N，获得各非重复分词x分别所对应的词频TF_x，然后进入步骤C2；其中，n_x表示该文献中非重复分词x出现的次数，N表示该文献中分词的个数。

步骤C2.分别针对该文献所对应的各个非重复分词x，按IDF_x＝log(M/m_x+1)，获得各非重复分词x分别所对应的逆文档频率IDF_x，然后进入步骤C3，其中，m_x表示文献集合中包含非重复分词x的文献的数量，M表示文献集合中文献的数量。

步骤D.分别针对文献集合中的各篇文献，进一步分别针对文献所对应的各个非重复分词，根据该文献中非重复分词的重要指标值，结合该非重复分词在该文献中的预设权重、以及该非重复分词对应该文献所属专业领域的概念从属树中的词条层次，通过三者的乘积，获得该文献中该非重复分词的权值，其中，若该非重复分词未与该文献所属专业领域概念从属树中的词条相对应，则定义该非重复分词对应该文献所属专业领域的概念从属树中的词条层次为1；进而获得文献集合中各篇文献分别所对应各非重复分词的权值，然后进入步骤E。

上述步骤D中该非重复分词在该文献中的预设权重，按如下过程获得：

基于文献由开头至末尾依次预设所划分的各个段落部分，以及预设各段落部分依次所对应逐步递减的权重，由该非重复分词在该文献中所出现的各个段落部分，获得该各段落部分分别所对应的预设权重，并选择其中最大预设权重，作为该非重复分词在该文献中的预设权重；并且在具体的实施应用当中，基于文献由开头至末尾依次预设所划分的摘要部分、关键词部分、正文部分，以及摘要部分所对应预设权重>关键词部分所对应预设权重>正文部分所对应预设权重，诸如设计摘要部分所对应预设权重为5、关键词部分所对应预设权重为4、正文部分所对应预设权重为1。

表示向上取整。

步骤F.分别针对文献集合中的各篇文献，根据文献所对应各特征关键分词的权值、以及各特征关键分词的排序，构建该文献所对应的特征词权值向量，进而获得文献集合中各篇文献分别所对应的特征词权值向量，然后进入步骤G。

步骤G.分别针对文献集合中的各篇未阅读文献，根据文献集合中各篇文献分别所对应的特征词权值向量，获得未阅读文献分别与各篇参照文献之间的语义相似度，并应用平均语义相似度作为该未阅读文献所对应的语义相似度；进而获得各篇未阅读文献分别所对应的语义相似度，构成一种文本筛选维度，然后进入步骤H。

实际应用中，如图7所示，文档间内容相似度计算：

给定一个文档D＝D((t₁，w₁)，(t₂，w₂)，(t₃，w₃)，…，(t_n，w_n))，D符合以下条件：

各个特征性之间互异；

各个特征之间无先后顺序关系。

在此基础上将特征项t₁，t₂，t₃，…，t_n看作是n维坐标系，而权重w₁，w₂，w₃，…，w_n看作为相应的坐标系，则可以将一篇文档对应的n维向量表示为n维空间中的一个向量。

文档间的相似度：任意两个文档间的相似度可以借助n维空间中两个向量之间的某种距离来表示，常用的方法是两个向量间的内积来衡量文档间的相似性，考虑到向量的归一化，可以通过两个向量间的余弦值来表示，两个文档向量间的夹角越小则相似度越高。余弦相似度计算公式如下：

在获得上述由语义相似度所构成的文本筛选维度后，本发明进一步设计了其他多种维度考量，包括领域相似度、概念抽象层次、词汇量、专业词占比、学习跨度、前沿性，实际具体实施应用中，具体如下。

基于所述步骤D获得文献集合中各篇文献分别所对应各非重复分词的权值后，在步骤E至步骤G执行的同时，还包括如下步骤i1至步骤i2。

步骤i1.分别针对文献集合中的各篇文献，获得文献所对应各非重复分词中、与该文献所属专业领域概念从属树中词条相对应的各个非重复分词，作为该文献所对应的各个领域特征分词；进而获得文献集合中各篇文献分别所对应的各个领域特征分词，然后进入步骤i2。

基于所述步骤B获得文献集合中各篇文献分别所包含的各个分词，在步骤C至步骤G执行的同时，还包括如下步骤ii1至步骤ii2。

步骤ii1.分别针对文献集合中的各篇文献，获得文献所包含各分词分别对应该文献所属专业领域的概念从属树中的词条层次，并选择其中分布数量最多的词条层次，作为该文献所对应的概念抽象层次；进而获得文献集合中各篇文献分别所对应的概念抽象层次，然后进入步骤ii2。

基于所述步骤B获得文献集合中各篇文献分别所包含的各个分词，步骤C至步骤G执行的同时，还包括如下步骤iii1至步骤iii2。

步骤iii1.针对文献集合中的各篇未阅读文献，应用各篇未阅读文献分别所包含分词的数量，作为各篇未阅读文献分别所对应的词汇量，构成一种文本筛选维度，然后进入步骤iii2。

基于所述步骤B获得文献集合中各篇文献分别所包含的各个分词，在步骤C至步骤G执行的同时，还包括如下步骤iv1至步骤iv2。

步骤iv1.分别针对文献集合中的各篇文献，获得文献所包含各分词分别对应该文献所属专业领域的概念从属树中的词条层次，并将所分布的各词条层次，作为该文献所对应的各词条层次；进而获得文献集合中各篇文献分别所对应的各词条层次，然后进入步骤iv2。

步骤iv2.分别针对文献集合中的各篇未阅读文献，基于同属相同专业领域的情形下，判断是否存在至少一篇参照文献，使得未阅读文献所对应各词条层次与该参照文献所对应各词条层次中最深层次向深度方向预设范围内的层次存在重叠，并将该判断结果作为该未阅读文献所对应的学习跨度比对结果；进而获得各篇未阅读文献分别所对应的学习跨度比对结果，构成一种文本筛选维度，然后进入步骤H。这里所提及的参照文献所对应各词条层次中最深层次，可以看作是用户当前的学术水平现状，学术水平现状包括用户研究的专业领域及该专业领域所涉及的抽象层次，计算未阅读文献所对应文档抽象层次与已阅读和喜欢的文献所对应的文档抽象层次是否存在重叠或父子关系，即相同专业领域同抽象层次的推荐或者向该专业领域的子领域推荐，向该专业领域的子领域推荐意味着推荐文档的内容概念抽象层次更深一点，需要用户更多的专业领域知识，该方式可以推进用户的学术研究进程。

在步骤A至步骤G执行的同时，还包括如下步骤v1。

如此通过上述具体设计的一系列步骤，实现了关于文献的语义相似度、领域相似度、概念抽象层次、词汇量、专业词占比、学习跨度、前沿性共计七个维度的分析，并基于该七个维度的分析结果，进一步执行步骤H，实现文献推荐。

实际应用中，关于这里所涉及预设各用户等级，诸如设计包括初级用户、中继用户、高级用户，各等级用户和文档各底层客观维度之间形成了一定的多对多关系，不同等级的用户对文档各维度需求不同。

初级用户：该类用户对文档的难度、抽象度、文档的前沿性要求较低，一般初级用户对当前专业领域知识面不够，难度和抽象度过高的文档，该类用户阅读比较吃力，所以这方面的维度要求较低。更多的可推荐一些经过时间考验的经典文献，该类经典文献可以帮助用户整体全面的了解当前的专业领域发展起源、理论基础以及应用领域等。但用户对文档的相似度和领域相似度要求较高。学习跨度基本为零。因其当前所处的学术水平较低，其需要大量的同领域相似文献来扩充熟悉当前该领域的知识。

中级用户：该类用户对文档的难度和抽象度相对于初级用户都是一个拔高的状态。对文档的相似度要求并不高，因其在该专业领域有一定的知识面基础。所以不需要内容相似的文档来重复阅读。对文档的领域相似度要求较高，该类用户在熟悉该专业领域的基础上，需要扩展该专业领域在其他方面的扩展应用。对文档的前沿性有一定要求，因初级用户需要知道当前该专业领域在现实生活中的发展状态，以便于自己选择更精细的领域继续研究学习。

高级用户：该类用户对文档内容的相似度要求并不高，因其不需要重复知道该领域的知识，对文档的领域相似度要求比文档相似度的要求偏高。对文档的前沿性要求高，因高级用户需要及时了解该领域最新的研究现状。

将上述所设计基于多维度的学术文献推荐方法，应用到实际当中，如图8所示，诸如包括用户模块、推荐模块、推荐对象模型，用户模型需要通过用户发生浏览行为、点击喜欢行为，新用户需要选择感兴趣模块行为，在用户的历史记录中挖掘用户的兴趣偏好和当前用户的专业学术水平；推荐模型，即本系统采用基于内容的推荐算法，依据用户的历史行为记录和兴趣偏好进行文献的推荐阅读；推荐对象模型，这边采用的推荐对象是计算机专业的学术文献。

并且在实际应用当中，如图9所示，本系统主界面，主要功能包括以下：

1)用户登录该界面可自行选择自己想要的用户等级。

2)选择不同的用户等级，其在文本各维度的呈现范围不一致，用户确定自己等级。

3)系统实时产生推荐结果，用户可双击推荐列表中的文件名，在下面会展示该文档的全部内容，用户若点击喜欢，系统则会实时获取用户的喜欢偏好，并通过用户的喜欢列表挖掘用户的兴趣偏好，反馈给用户模型，以便为用户进行下一次学术文本推荐。

针对上述所设计基于多维度的学术文献推荐方法，具体可以进一步设计执行此学术文献推荐方法的系统，即通过应用一种服务器，包括存储器、处理器、以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现基于多维度的学术文献推荐方法。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于多维度的学术文献推荐方法，基于目标用户各篇已阅读文献与各篇收藏文献构成的各篇参照文献，向目标用户实现各篇未阅读文献的推荐，其特征在于，包括如下步骤：

步骤E.分别针对文献集合中的各篇文献，针对文献所对应的各个非重复分词，按所对应权值由大至小顺序进行排序，并按

由第一个非重复分词起依次选取A个非重复分词，作为该文献所对应的各个特征关键分词；进而获得文献集合中各篇文献分别对应的各个特征关键分词，然后进入步骤F；其中，K表示文献所对应非重复分词的数量，a表示预设取数比例，

表示向上取整；

2.根据权利要求1所述一种基于多维度的学术文献推荐方法，其特征在于：基于所述步骤D获得文献集合中各篇文献分别所对应各非重复分词的权值后，步骤E至步骤G执行的同时，还包括如下步骤i1至步骤i2；

3.根据权利要求2所述一种基于多维度的学术文献推荐方法，其特征在于：基于所述步骤B获得文献集合中各篇文献分别所包含的各个分词，步骤C至步骤G执行的同时，还包括如下步骤ii1至步骤ii2；

4.根据权利要求3所述一种基于多维度的学术文献推荐方法，其特征在于：基于所述步骤B获得文献集合中各篇文献分别所包含的各个分词，步骤C至步骤G执行的同时，还包括如下步骤iii1至步骤iii2；

5.根据权利要求4所述一种基于多维度的学术文献推荐方法，其特征在于：基于所述步骤B获得文献集合中各篇文献分别所包含的各个分词，步骤C至步骤G执行的同时，还包括如下步骤iv1至步骤iv2；

6.根据权利要求5所述一种基于多维度的学术文献推荐方法，其特征在于：所述步骤A至步骤G执行的同时，还包括如下步骤v1；

7.根据权利要求6所述一种基于多维度的学术文献推荐方法，其特征在于：所述步骤C包括如下：

8.根据权利要求7所述一种基于多维度的学术文献推荐方法，其特征在于：所述步骤D中该非重复分词在该文献中的预设权重，按如下过程获得：

9.根据权利要求8所述一种基于多维度的学术文献推荐方法，其特征在于：基于文献由开头至末尾依次预设所划分的摘要部分、关键词部分、正文部分，以及摘要部分所对应预设权重>关键词部分所对应预设权重>正文部分所对应预设权重。

10.根据权利要求1所述一种基于多维度的学术文献推荐方法，其特征在于：所述步骤A中，基于维基百科词条的图状结构分布，分别针对指定各专业领域，通过词条遍历方式实现标准树状结构的构建，获得各专业领域分别所对应的概念从属树。