CN106960025A

CN106960025A - 一种基于领域知识图谱的个性化文献推荐方法

Info

Publication number: CN106960025A
Application number: CN201710163216.3A
Authority: CN
Inventors: 盛文瑾; 闫健卓; 李贤�; 王静; 李东佩; 郐弘智; 陈建辉
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-03-19
Filing date: 2017-03-19
Publication date: 2017-07-18
Anticipated expiration: 2037-03-19
Also published as: CN106960025B

Abstract

一种基于领域知识图谱的个性化文献推荐方法，涉及文献推荐技术领域。采用LDA模型构建知识图谱，并在此基础上，分别构建用户兴趣模型与文献模型，解决了词频统计方法不精确的问题；在建模的过程引入时间遗忘曲线函数，解决了用户兴趣变迁的问题；同时在建模过程中引入了激活扩散技术，解决了数据稀疏性的问题；在计算相似性的过程中采用基于知识距离的方法，有效的避免了元素个数匹配的强制性问题。将兴趣保持模型应用在文献推荐系统的用户建模中，考虑时间对用户短期兴趣变迁的影响，准确地量化用户当前兴趣。在用户建模与文献建模过程中引入激活扩散技术，有效的解决了数据的稀疏性问题。

Description

一种基于领域知识图谱的个性化文献推荐方法

技术领域

本发明涉及文献推荐技术领域，具体地说，它是一种基于领域知识图谱的个性化文献推荐方法的研究。

背景技术

随着信息科技时代的到来，数据信息爆炸式的增长，怎样才能在海量的数据中获得重要的信息，是现如今亟待解决的问题。在这样的形式下，推荐系统应运而生，并逐渐成为信息时代不可或缺的组成部分。文献推荐是推荐系统的一个应用方向，可帮助用户在海量文档中找出有价值的文献。

传统的文献推荐技术采用关键字表示文献模型和用户模型的特征，并使用词频反文档频率(TFIDF)方法计算各个特征的权重，然而这种仅考虑词频的算法，会导致非关键词由于词频占优而被误判为权重较大的关键词，进而造成用户兴趣的失真。近几年，研究人员提出使用潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型挖掘文章中隐藏主题的方法进行文献推荐，然而现有基于LDA模型进行文献推荐的方法并没有考虑用户兴趣变迁问题，由于在一段时间内，用户可能会对某个话题感兴趣，也有可能会对其失去兴趣，因此用户的研究兴趣是动态变化的；此外在构建每篇文献模型与根据用户已有研究得到的用户模型的过程中主题数量过少，导致数据的稀疏性，从而无法准确的捕捉用户兴趣。

在构建文献模型与用户模型后，需要计算两个模型的相似性，从而将按相似性大小排序后的文献集返回给用户。传统的相似性计算主要是将两个模型定义为向量，采用余弦相似性方法进行计算，然而此方法对两个向量的元素个数匹配有强制性的要求，这就加剧了数据稀疏性的问题。因此，现有技术还有待于改进和发展。

发明内容

为了克服上述现有技术的不足，本发明提供了一种基于知识图谱的个性化文献推荐方法，采用LDA模型构建知识图谱，并在此基础上，分别构建用户兴趣模型与文献模型，解决了词频统计方法不精确的问题；在建模的过程引入时间遗忘曲线函数，解决了用户兴趣变迁的问题；同时在建模过程中引入了激活扩散技术，解决了数据稀疏性的问题；在计算相似性的过程中采用基于知识距离的方法，有效的避免了元素个数匹配的强制性问题。

为解决所述技术问题，本发明采用的技术方案具体如下：

一种基于领域知识图谱的个性化文献推荐方法，其特征在于，所述方法包括如下步骤：

步骤1：构建知识图谱数据结构

抽取文献的标题与摘要作为文献库，采用LDA的“文献-主题”理论从文献库中抽取主题，设置阈值，将满足阈值的主题抽取出来，构建数据结构的节点集。通过两个节点在文献中出现的频率定义节点之间关系的权重，设置阈值，将满足阈值的关系抽取出来，构建数据结构的边集与权重集。基于此，得到基于“节点-边-权重”模式的知识图谱数据结构。

步骤2：构建用户知识模型

利用激活扩散理论与时间遗忘曲线函数对用户知识进行建模，从而得到能够代表用户研究兴趣的向量。

步骤3：构建文献知识模型

利用激活扩散理论对每篇文献知识进行建模，从而得到能够代表每篇文献的向量模型。

步骤4：计算知识距离，生成推荐结果

首先，统计用户知识模型与每篇文献知识模型的知识距离集，即知识路径的集合。然后，对于每条路径，计算路径内主题的重要程度，通过对主题的重要程度累积来衡量此文献与路径的匹配程度。对每篇文献的路径进行遍历求和得到此文献的最优值。最后，按最优值对文献进行排序，从而找到最接近用户研究兴趣的前n篇文献，返回给用户。

所述步骤2具体包括：

步骤2-1统计用户已发表的文献，并将其进行预处理，得到用户文献集。定义专业等级Expertise(u,t)为主题对用户的重要程度，由于目前的研究并没有考虑研究人员短期兴趣变迁的问题，因此在计算专业等级的过程中引入时间遗忘曲线函数。具体的计算公式如下：

其中Expertise(u,t)代表主题对用户的重要程度；n代表时间段；m_j为时间段j内用户已发表文献的个数；t代表主题；ud_i代表指定时间段内的一篇文献；T_t为时间段j内主题t的持续时间；参数A，b的引入，是为了调节主题的重要程度，使重要程度和当前研究兴趣保持最大相关性；ω(ud_i,t)代表文献ud_i属于主题t的概率，而则是主题t在这个时间段内的重要程度,ω(ud_i,t)的计算公式如下：

其中，为LDA的主题-词语分布，公式如下：

其中，k代表文献中的词语；为属于主题t的词语个数

步骤2-2为了解决数据稀疏性的问题，引入激活扩散理论。设定阈值，对于大于指定阈值的专业等级Expertise(u,t)构成初始用户知识集IUT＝{iut₁,iut₂,……iut_n}，即iut₁代表主题t₁的专业等级。以知识图谱数据结构为基础，使用激活扩散技术对初始知识模型中的主题值进行扩充，激活扩散过程的公式所示：

O＝[ε-(1-α)×w^T]^-1×IUT (4)

其中，IUT为激活扩散过程的输入，即主题Expertise(u,t)值的集合；w表示激活扩散过程中的关系矩阵，矩阵中的元素w_ij表示主题t_i与主题t_j的关系权重，即已构建知识图谱中的关系权重组成的矩阵；α是延迟因子；ε是n阶单位矩阵；O＝[O₁,O₂,…,O_n]^T是扩散激活过程的最终输出，O_i是主题t_i的激活扩散值，代表主题t_i经过扩散后对于用户的重要程度。设定阈值，对于激活扩散过程后大于指定阈值的激活扩散值构成用户知识模型UT＝{ut₁,ut₂,……ut_n}，即ut₁代表主题t₁的激活扩散值。

所述步骤3具体包括：

步骤3-1由于每篇文献只具有少量的特征主题，因此在文献知识建模的过程中，同样引入激活扩散理论。首先对每篇文献进行预处理，定义重要等级importance(u,t)为主题对用户的重要程度。如下公式所示：

importance(u,t)＝w(d,t) (5)

其中w(d,t)的计算公式同公式(2)，对于大于指定阈值的主题集构成每篇文献的初始知识集GT＝{gt₁,gt₂,……gt_n}，即gt_i代表主题t_i的重要程度。

步骤3-2将文献初始知识集作为激活扩散的输入，经过激活扩散过程，如下公式所示：

O_L＝[ε-(1-α)×w^T]^-1×GT (6)

其中，GT代表大于指定阈值的主题重要程度importance(u,t)的集合；w同样代表已构建知识图谱中的关系权重组成的矩阵；O_L＝[O_L1,O_L2,…,O_Ln]^T为激活扩散的输出集合；O_Li代表主题t经过扩散后对于用户的重要程度。设定阈值，对于激活扩散过程后大于指定阈值的激活扩散值构成每篇文献的知识模型CRT＝{crt₁,crt₂,……crt_n}。

有益效果：

1.本发明将兴趣保持模型应用在文献推荐系统的用户建模中，考虑时间对用户短期兴趣变迁的影响，准确地量化用户当前兴趣。

2.本发明在用户建模与文献建模过程中引入激活扩散技术，有效的解决了数据的稀疏性问题。

3.采用知识图谱数据结构的方式对领域库进行建模，避免了相似性计算过程中元素个数匹配的强制性要求问题。

附图说明

图1为本发明一种基于领域知识图谱的个性化文献推荐方法较佳实施例的流程图。

图2为图1所示方法中步骤S100的具体流程图。

图3为图1所示方法中步骤S200的具体流程图。

图4为图1所示方法中步骤S300的具体流程图。

图5为图1所示方法中步骤S400的具体流程图。

具体实施方式

本发明提供一种基于知识图谱的个性化文献推荐方法，为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，图1为本发明一种基于知识图谱的个性化文献推荐方法较佳实施例的流程图，如图所示，其实施步骤，包括如下：

S100、构建一种基于“节点-边-边的权重”知识图谱数据结构；

S200、应用主题模型，并引入时间遗忘曲线与激活扩散技术对用户知识进行建模；

S300、应用主题模型，并引入激活扩散技术对每篇文献知识进行建模；

S400、基于知识图谱数据结构，在数据结构中找到用户知识与每篇文献知识的知识距离，并计算每篇文献的最优值；

S500、根据最优值对文献进行排序，并将排序后的文献列表返回给用户

进一步，如图2所示，所述步骤S100具体包括：

S101、对文献进行预处理，采用pubmed数据库中2006-2012年的文献标题与摘要作为文献集，分别经过Stanford分词、去停用词、词形还原三个过程，从而得到文献库。

S102、应用LDA文章-主题分布得到节点集。在此过程中，将阈值定义为0.3，当分布值大于阈值时，将此主题加入节点集中。

S103、计算节点与节点之间的关系权重。在此过程中，将阈值定义为0.54，当权重大于阈值时，将此关系加入边集，并将权重作为主题之间的关系权重加入权重集。

S104、经过上述两步骤，可以得到节点，边以及边的权重，从而可以得到构建出基于“节点-边-边的权重”的数据结构G＝{N,E,EW}。其中N代表节点集；E代表边集；EW代表边的权重集。

进一步，如图3所示，所述步骤S200具体包括：

S201、对用户已发表文献进行预处理，采用梁佩鹏博士所发表的论文作为已读文献集，分别经过Stanford分词、去停用词、词形还原三个过程，得到用户文献集。

S202、计算用户对主题t的专业等级,在这个过程中取A为0.855，b为1.295。

S203、抽取专业等级大于阈值的主题构成初始用户知识集，使用激活扩散技术对初始知识模型中的概念进行扩充。在这个过程中取阈值为0.2，α为0.02；

S204、激活扩散过程后得到的主题构成用户知识模型UT＝{ut₁,ut₂,……ut_n}。

进一步，如图4所示，所述步骤S300具体包括：

S301、对文献集中的每篇文献进行预处理，分别经过Stanford分词、去停用词、词形还原三个过程。

S302、计算主题对用户的重要程度,对于大于指定阈值的主题构成每篇文献的初始知识集,此处取阈值为0.01.

S303、将文献初始知识集中的主题作为激活扩散的输入，并将主题的重要程度作为初始激活值，经过激活扩散过程。

S304、激活扩散过程后得到的主题构成每篇文献的知识模型CRT＝{crt₁,crt₂,……crt_n}。

进一步，如图5所示，所述步骤S104具体包括：

S401、统计用户知识模型与每篇文献知识模型的知识距离集,即知识路径的集合。

S402、计算每篇文献的最优值。

S403、得到根据最优值排序后的前n篇文献集，n取为20，并将推荐的文献返回给用户。

实验数据

本发明所述的文献推荐方法所用实验数据选择PubMed数据集，核心主题是生物医学，提供该领域的期刊论文出版信息、题目、摘要、关键字及作者信息等。从PubMed数据集中抽取了2006年至2012年，发表在神经科学领域影响因子排名前10的三个期刊分别为Trendsin neurosciences、Nature neuroscience、Neuron的数据集，共包含文献6325篇。领域本体采用智慧病房脑数据本体，领域本体中包含概念与关系，关系的类型主要有suClassOf,domain。

Claims

1.一种基于领域知识图谱的个性化文献推荐方法，其特征在于，包括如下步骤：

步骤1：构建知识图谱数据结构

抽取文献的标题与摘要作为文献库，采用LDA的“文献-主题”理论从文献库中抽取主题，设置阈值，将满足阈值的主题抽取出来，构建数据结构的节点集；通过两个节点在文献中出现的频率定义节点之间关系的权重，设置阈值，将满足阈值的关系抽取出来，构建数据结构的边集与权重集；基于此，得到基于“节点-边-权重”模式的知识图谱数据结构；

步骤2：构建用户知识模型

利用激活扩散理论与时间遗忘曲线函数对用户知识进行建模，从而得到能够代表用户研究兴趣的向量；

步骤3：构建文献知识模型

利用激活扩散理论对每篇文献知识进行建模，从而得到能够代表每篇文献的向量模型；

步骤4：计算知识距离，生成推荐结果

首先，统计用户知识模型与每篇文献知识模型的知识距离集，即知识路径的集合；然后，对于每条路径，计算路径内主题的重要程度，通过对主题的重要程度累积来衡量此文献与路径的匹配程度；对每篇文献的路径进行遍历求和得到此文献的最优值；最后，按最优值对文献进行排序，从而找到最接近用户研究兴趣的前n篇文献，返回给用户；

所述步骤2具体包括：

步骤2-1统计用户已发表的文献，并将其进行预处理，得到用户文献集；定义专业等级Expertise(u,t)为主题对用户的重要程度，由于目前的研究并没有考虑研究人员短期兴趣变迁的问题，因此在计算专业等级的过程中引入时间遗忘曲线函数；具体的计算公式如下：

E x p e r t i s e (u, t) = Σ_{j = 1}^{n} (Σ_{i = 1}^{m_{j}} ω ({ud}_{i}, t) \times {AT}_{t}^{- b}) - - - (1)

其中Expertise(u,t)代表主题对用户的重要程度；n代表时间段；m_j为时间段j内用户已发表文献的个数；t代表主题；ud_i代表指定时间段内的一篇文献；T_t为时间段j内主题t的持续时间；参数A，b的引入，是为了调节主题的重要程度，使重要程度和当前研究兴趣保持最大相关性；ω(ud_i,t)代表文献ud_i属于主题t的概率，而则是主题t在这个时间段内的重要程

度,ω(ud_i,t)的计算公式如下：

其中，为LDA的主题-词语分布，公式如下：

其中，k代表文献中的词语；为属于主题t的词语个数

步骤2-2为了解决数据稀疏性的问题，引入激活扩散理论；设定阈值，对于大于指定阈值的专业等级Expertise(u,t)构成初始用户知识集IUT＝{iut₁,iut₂,……iut_n}，即iut₁代表主题t₁的专业等级；以知识图谱数据结构为基础，使用激活扩散技术对初始知识模型中的主题值进行扩充，激活扩散过程的公式所示：

O＝[ε-(1-α)×w^T]^-1×IUT (4)

其中，IUT为激活扩散过程的输入，即主题Expertise(u,t)值的集合；w表示激活扩散过程中的关系矩阵，矩阵中的元素w_ij表示主题t_i与主题t_j的关系权重，即已构建知识图谱中的关系权重组成的矩阵；α是延迟因子；ε是n阶单位矩阵；

O＝[O₁,O₂,…,O_n]^T是扩散激活过程的最终输出，O_i是主题t_i的激活扩散值，代表主题t_i经过扩散后对于用户的重要程度；设定阈值，对于激活扩散过程后大于指定阈值的激活扩散值构成用户知识模型UT＝{ut₁,ut₂,……ut_n}，即ut₁代表主题t₁的激活扩散值；

所述步骤3具体包括：

步骤3-1由于每篇文献只具有少量的特征主题，因此在文献知识建模的过程中，同样引入激活扩散理论；首先对每篇文献进行预处理，定义重要等级importance(u,t)为主题对用户的重要程度；如下公式所示：

importance(u,t)＝w(d,t) (5)

其中w(d,t)的计算公式同公式(2)，对于大于指定阈值的主题集构成每篇文献的初始知识集GT＝{gt₁,gt₂,……gt_n}，即gt_i代表主题t_i的重要程度；

O_L＝[ε-(1-α)×w^T]^-1×GT (6)

其中，GT代表大于指定阈值的主题重要程度importance(u,t)的集合；w同样代表已构建知识图谱中的关系权重组成的矩阵；O_L＝[O_L1,O_L2,…,O_Ln]^T为激活扩散的输出集合；O_Li代表主题t经过扩散后对于用户的重要程度；设定阈值，对于激活扩散过程后大于指定阈值的激活扩散值构成每篇文献的知识模型CRT＝{crt₁,crt₂,……crt_n}。

2.根据权利要求1所述的一种基于领域知识图谱的个性化文献推荐方法，其特征在于，实施步骤，包括如下：

S500、根据最优值对文献进行排序，并将排序后的文献列表返回给用户。

3.根据权利要求2所述的一种基于领域知识图谱的个性化文献推荐方法，其特征在于，所述步骤S100具体包括：

S101、对文献进行预处理，采用pubmed数据库中2006-2012年的文献标题与摘要作为文献集，分别经过Stanford分词、去停用词、词形还原三个过程，从而得到文献库；

S102、应用LDA文章-主题分布得到节点集；在此过程中，将阈值定义为0.3，当分布值大于阈值时，将此主题加入节点集中；

S103、计算节点与节点之间的关系权重；在此过程中，将阈值定义为0.54，当权重大于阈值时，将此关系加入边集，并将权重作为主题之间的关系权重加入权重集；

S104、经过上述两步骤，可以得到节点，边以及边的权重，从而可以得到构建出基于“节点-边-边的权重”的数据结构G＝{N,E,EW}；其中N代表节点集；E代表边集；EW代表边的权重集。

4.根据权利要求2所述的一种基于领域知识图谱的个性化文献推荐方法，其特征在于，所述步骤S200具体包括：

S201、对用户已发表文献进行预处理，采用梁佩鹏博士所发表的论文作为已读文献集，分别经过Stanford分词、去停用词、词形还原三个过程，得到用户文献集；

S202、计算用户对主题t的专业等级,在这个过程中取A为0.855，b为1.295；

S203、抽取专业等级大于阈值的主题构成初始用户知识集，使用激活扩散技术对初始知识模型中的概念进行扩充；在这个过程中取阈值为0.2，α为0.02；

S204、激活扩散过程后得到的主题构成用户知识模型UT＝{ut₁,ut₂,……ut_n}；

所述步骤S300具体包括：

S301、对文献集中的每篇文献进行预处理，分别经过Stanford分词、去停用词、词形还原三个过程；

S303、将文献初始知识集中的主题作为激活扩散的输入，并将主题的重要程度作为初始激活值，经过激活扩散过程；

5.根据权利要求2所述的一种基于领域知识图谱的个性化文献推荐方法，其特征在于，所述步骤S104具体包括：

S401、统计用户知识模型与每篇文献知识模型的知识距离集,即知识路径的集合；

S402、计算每篇文献的最优值；