CN110083696A - 基于元结构技术的全局引文推荐方法、推荐系统 - Google Patents

基于元结构技术的全局引文推荐方法、推荐系统 Download PDF

Info

Publication number
CN110083696A
CN110083696A CN201910326299.2A CN201910326299A CN110083696A CN 110083696 A CN110083696 A CN 110083696A CN 201910326299 A CN201910326299 A CN 201910326299A CN 110083696 A CN110083696 A CN 110083696A
Authority
CN
China
Prior art keywords
article
meta structure
indicate
node
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910326299.2A
Other languages
English (en)
Other versions
CN110083696B (zh
Inventor
赵姝
赵桓幜
陈喜
陈洁
段震
张燕平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhipu Huazhang Technology Co ltd
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201910326299.2A priority Critical patent/CN110083696B/zh
Publication of CN110083696A publication Critical patent/CN110083696A/zh
Application granted granted Critical
Publication of CN110083696B publication Critical patent/CN110083696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开基于元结构技术的全局引文推荐方法,对原始数据集进行文章提取、词频统计、关键短语筛选数据清洗操作,得到文章并使用文章、文章的作者、出版商和术语信息构建文章库;通过文章库中文章以及文章的作者、出版商和术语,建立异构信息网络;使用三度影响力原则选取三度以内的元结构,并依据所选的元结构和基于元结构的相似度计算技术得到文章库中文章的相似度;提出方法为每个元结构加权来融合文章间基于不同元结构获得的不同的相似度;使用优化算法优化以求得使推荐效果最优的权重;为每篇文章根据最优权重下的相似度和年份生成推荐列表。本发明通过元结构将语义信息融入到文章的相似性计算中,增强了引文推荐的可解释性。

Description

基于元结构技术的全局引文推荐方法、推荐系统
技术领域
本发明涉及信息推荐技术领域,尤其涉及基于元结构技术的全局引文推荐方法、推荐系统。
近年来,随着科学技术的发展,学者们把撰写论文作为展示自己科研成果的重要手段,随之带来的科研文献数量飞速的增长。因此,如何准确地、高效地为科研人员推荐参考文献是一个具有挑战性的任务。全局引文推荐可以提高科研人员查找文献的效率,增强初学者对当前领域的认知,同时一定程度上降低错、漏引出现的概率。
如专利申请201511026567.7公开的一种基于文献内容知识图谱的多层引文推荐方法,首先获取用户的查询需求,查询需求由需要推荐引用论文或引用文献的论文的标题和摘要的关键词构成。然后,基于文献内容的知识图谱扩展查询检索词语,知识图谱由文献的研究对象词语和研究行为词语结点,以及表示同义、近义、上下位、部分整体、并列等各种语义关系的边构成。最后,构建数据集中文献的倒排索引,选取候选引文,计算候选引文和查询的相似度,采用梯度渐进回归树来进行引文推荐。
又如专利申请201810994562.0公开的一种基于神经机器翻译技术的局部引文推荐方法及系统,通过对原始数据集进行引文提取、词形还原、词频统计数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库;通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量,构建一个带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架,将平行语料中的引文上下文通过词向量模型转换为词向量后作为模型的输入,被引文章标题作为输出来训练模型;将编码器-解码器框架输出的种子标题与待被引文章列表中的所有文章标题逐条进行余弦相似度计算;依据文章年份,选取符合要求的文章作为推荐列表。
目前,全局引文推荐主要有两种方法:(1)基于主题的方法;(2)基于图结构的方法。其中基于主题的方法认为引文周围的词与引文外部的词享有不同的主题分布,并根据引文上下文和文章主题的相关性来推荐引文。基于图结构的方法相对于基于主题的方法增加了更多的限定条件,例如将论文合作者信息加入到引文推荐中,构建多层图结构用以分析特征间的联系。然而每张图只能呈现出两个特征间的关系(邻接矩阵的行和列),这些分析方法并不能从全局的角度综合的考量文章与多种特征之间的关系。两种方法相比,基于主题适用于整理较为干净的文本,对文章的内容信息要求较高。而基于图结构的方法使用的文章特征较多,虽然精确度较高,但适用场景却十分有限。
发明内容
本发明所要解决的技术问题在于如何通过增强了引文推荐的可解释性来提高引文推荐的精确度。
本发明通过以下技术手段实现解决上述技术问题的:一种基于元结构技术的全局引文推荐方法,包括以下步骤:
S1、收集文章,构建原始数据集,原始数据集包括候选文章集与目标文章集;对原始数据集中的文章进行文章提取,得到文章的作者、出版商和术语,并使用文章、文章的作者、出版商和术语四种属性构建文章库;
S2、通过文章库中文章的作者、文章、术语和出版商四种属性建立异构信息网络;
S3、列举所有在异构信息网络中度数在三以内的元结构,并依据所选的元结构和基于元结构的相似度得到文章库中候选文章与目标文章的相似度;
S4、对S3中的每个元结构进行加权,用以融合文章间基于不同元结构获得的不同的相似度;根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表;
S5、使用优化算法优化推荐列表。
优选地,所述步骤S1中的术语的提取包括以下步骤:
S11、提取原始数据集中所有的文章信息,并去除信息不全的文章,将题目和摘要作为文章的文本信息;
S12、根据词频和逆文本频率指数相乘得到每个词的TF-IDF,文章中的某个词α的词频计算公式如下:
词a的逆文本频率计算公式如下:
根据词频和逆文本频率计算词a的TF-IDF值,公式如下:
TF-IDF=TF(a)×IDF(a)
取TF-IDF值排名靠近的词作为文章的关键词;
将每篇文章的文本输入TextBlob工具,得到每篇文章的关键短语;
S13、将步骤S11获得的关键词与步骤S12获得的关键短语进行合并、去重,将去重后的关键词、关键短语作为文章的术语。
优选地,所述S2中通过以下步骤建立异构信息网络;
S21、根据每篇文章和该文章包含的术语构建异构信息网络的文章、术语边;
S22、根据每篇文章和该文章的作者构建异构信息网络的文章、作者边;
S23、根据每篇文章和该文章的出版商构建异构信息网络的文章、出版商边;
S24、根据每篇候选文章和该候选文章的引文构建异构信息网络的文章、文章边。
优选地,所述S3包括以下步骤:
S31、列举所有在异构信息网络中文章、文章的作者、出版商和术语中度数在三以内的从文章节点出发到文章节点结束的M个元结构,表示为S={S1,S2,...,SM};
S32、使用基于元结构的BSCSE算法处理文章间基于S31中所有元结构的相似度,得到目标文章tpu与候选文章cpi在元结构下的相似度;
原始数据集中K篇目标文章TP={tp1,tp2,...,tpK}和N篇候选文章CP={cp1,cp2,...,cpN}之间基于所选的M个元结构下的相似度:
其中,tpu表示第u篇目标文章,表示第u篇目标文章在网络中对应的节点,u∈[1,K];
Sj表示第j个元结构;其中,d(Sj)表示元结构Sj的维度;j∈[1,M];
cpi表示第i篇候选文章,表示第i篇候选文章在网络中对应的节点,i∈[1,N];
表示从目标文章节点的邻居节点中选出类型为的节点,其中,vl表示目标文章节点的邻居节点中,类型为的节点中的第l个, 表示网络中目标文章节点的所有邻居节点,表示目标文章节点的邻居节点个数,|V|表示网络中所有节点的个数;r(vl)∈{文章,作者,出版商,术语};
表示元结构Sj的第二项;
表示网络中从节点vl开始到候选文章节点为止,所有满足元结构的路径实例的个数;其中,表示Sj去除第一项的剩余部分的元结构,表示元结构Sj的第一项;
表示网络中从点vl开始,所有满足元结构的路径实例的个数,其中,表示Sj去除第一项的剩余部分的元结构,表示元结构Sj的第一项;
表示网络中从目标文章节点开始,满足元结构的路径实例的个数的β次幂,其中,表示第u篇目标文章在网络中对应的节点;表示由元结构Sj的第一项和第二项组成的元结构;β是一个权重系数,取值在[0,1]之间。
优选地,所述S4包括:
S41、为S31步骤中所选的M个元结构赋予权重,权重依次为W={w1,w2,...,wM};其中,wM表示第M个元结构的权重;
S42、采用相似度模型以衡量目标文章tpu∈TP与候选文章cpi∈CP之间的相似性,相似度模型如下:
优选地,所述S5采用粒子群优化算法,包括以下步骤:
S51、将待求解的权重W={w1,w2,...,wM}作为粒子群优化算法中待求解的问题,不同权重的排列组合构成解空间中不同的解,在粒子群优化算法第h次迭代中,解xh并且,每个解xh作为粒子群优化算法中粒子的位置;
S52、在粒子群优化算法的下一次迭代中,解优化的过程中,将推荐的召回率作为目标函数,并且每个粒子记录自己所走过的位置中的最优位置pbest,优化过程中也会记录空间中所有粒子走过的位置中的最优位置gbest,设置终止的损失函数值γ,方法遵循以下步骤:
S521、将解中的权重值输入S42步骤中的相似度模型中,计算所有目标文章TP与所有候选文章CP之间的相似度,SIM(tpu,cpi),其中tpu∈TP,cpi∈CP;
S522、根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表,推荐列表长度为25;若某一篇目标文章的推荐列表长度不足25,则以其推荐列表长度为准;
S523、根据推荐结果与目标文章实际的参考文献作对比,计算召回率,公式如下:
其中,K为目标文章的总数,为目标文章tpu的推荐列表中的所有文章集合,为目标文章tpu的实际的参考文献集合;
S524、若没有达到设定的迭代次数或Recall@25<γ,继续下一步S525,否则跳出循环,确定当前的解为最优解;
S525、计算每个粒子的速度
vh=vh+c1×rand×(pbest-xh)+c2×rand×(gbest-xh)
其中,vh表示粒子在第h次迭代时的速度,c1,c2为学习因子,rand表示随机数,rand∈(0,1);
使用粒子的速度来更新第·h+1次迭代时,粒子的位置xh+1=xh+vh,其中,
S53、将步骤S524中的最优权重输入步骤S42中的相似度模型SIM(tpu,cpi)中,其中tpu∈TP,cpi∈CP;得到所有目标文章TP和所有候选文章CP之间的相似度;
S54、根据用户的推荐篇数的需求,为每篇目标文章返回相似性排名靠前的候选文章作为全局引文推荐算法的输出。
本发明还公开一种基于元结构技术的全局引文推荐系统,
包括:
文章库模块,用以构建文章、文章的作者、出版商和术语四种属性;
异构信息网络模块,用以构建文章、文章的作者、出版商和术语四种属性之间的网络关系;
元结构模块,用以列举所述属性在异构信息网络中度数在三以内的元结构;
BSCSE算法模块,所选的元结构和基于元结构的相似度通过所述BSCSE算法模块得到文章库中候选文章与目标文章的相似度;
相似度模型,用以融合文章间基于不同元结构获得的不同的相似度;
优化算法模块,用以优化相似度模型。
优选地,包括以下步骤建立所述异构信息网络;
S21、根据每篇文章和该文章包含的术语构建异构信息网络的文章、术语边;
S22、根据每篇文章和该文章的作者构建异构信息网络的文章、作者边;
S23、根据每篇文章和该文章的出版商构建异构信息网络的文章、出版商边;
S24、根据每篇文章和该文章的引文构建异构信息网络的文章、文章边。
优选地,所述S3列举所述属性在异构信息网络中度数在三以内的元结构,包括以下步骤:
S31、列举所有在异构信息网络中文章、文章的作者、出版商和术语中度数在三以内的从文章节点出发到文章节点结束的M个元结构,表示为S={S1,S2,...,SM};
S32、使用基于元结构的BSCSE算法处理文章间基于S31中所有元结构的相似度,得到目标文章tpu与候选文章cpi在元结构下的相似度;
原始数据集中K篇目标文章TP={tp1,tp2,...,tpK}和N篇候选文章CP={cp1,cp2,...,cpN}之间基于所选的M个元结构下的相似度:
其中,tpu表示第u篇目标文章,表示第u篇目标文章在网络中对应的节点,u∈[1,K];
Sj表示第j个元结构;其中,d(Sj)表示元结构Sj的维度;j∈[1,M];
cpi表示第i篇候选文章,表示第i篇候选文章在网络中对应的节点,i∈[1,N];
表示从目标文章节点的邻居节点中选出类型为的节点,其中,vl表示目标文章节点的邻居节点中,类型为的节点中的第l个, 表示网络中目标文章节点的所有邻居节点,表示目标文章节点的邻居节点个数,|V|表示网络中所有节点的个数;r(vl)∈{文章,作者,出版商,术语};
表示元结构Sj的第二项;
表示网络中从节点vl开始到候选文章节点为止,所有满足元结构的路径实例的个数;其中,表示Sj去除第一项的剩余部分的元结构,表示元结构Sj的第一项;
表示网络中从点vl开始,所有满足元结构的路径实例的个数,其中,表示Sj去除第一项的剩余部分的元结构,表示元结构Sj的第一项;
表示网络中从目标文章节点开始,满足元结构的路径实例的个数的β次幂,其中,表示第u篇目标文章在网络中对应的节点;表示由元结构Sj的第一项和第二项组成的元结构;β是一个权重系数,取值在[0,1]之间。
优选地,所选的元结构和基于元结构的相似度通过所述元结构的BSCSE算法模块得到文章库中候选文章与目标文章的相似度,包括以下步骤:
S41、为S31步骤中所选的M个元结构赋予权重,权重依次为W={w1,w2,...,wM};其中,wM表示第M个元结构的权重;
S42、采用相似度模型以衡量目标文章tpu∈TP与候选文章cpi∈CP之间的相似性,相似度模型如下:
本发明的优点在于:从全局的角度出发,综合文章的各种特征,以及多种特征间的联系,来衡量两篇文章互为引用关系的可能性;异构信息网络蕴含着多种语义信息,本发明通过元结构将语义信息融入到文章的相似性计算中,增强了引文推荐的可解释性。
附图说明
图1为本发明实施例1的结构流程图。
图2为本发明实施例1中的异构信息网络的拓扑示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。
如图1所示,本实施例公开一种基于元结构技术的全局引文推荐方法,包括以下步骤:
S1、收集文章,构建原始数据集,对原始数据集进行文章提取,词频统计、逆文本频率指数计算以及关键短语筛选数据清洗,得到文章的作者、出版商和术语,并使用文章、文章的作者、出版商和术语构建文章库;
本实施方式中,需要对原始数据集中信息不全的文章进行去除,确定年份,发表在该年份之前的文章定义为候选文章,在该年份发表的文章定义为目标文章,候选文章集包含去除目标文章在该年份下的引文后得到的目标文章的引文。
将文章的题目和摘要作为文章的文本信息,计算词频和逆文本频率指数作为文本中词的权重;本实施例选择权重排名前十五的词语和采用TextBlob工具提取该文章的关键短语作为文章的术语。
在实际操作过程中,步骤S1具体包括以下步骤:
S11、提取原始数据集中所有的文章信息,并去除信息不全的文章(无题目、无摘要、无年份、无出版商、无作者,满足以上条件之一的均视为信息不全),将题目和摘要作为文章的文本信息;
S12、根据词频(TF)和逆文本频率指数(IDF)相乘得到每个词的TF-IDF,文章中的某个词α的词频计算公式如下:
词a的逆文本频率计算公式如下:
根据词频和逆文本频率计算词a的TF-IDF值,公式如下:
TF-IDF=TF(a)×IDF(a)
对于文章库中的每篇文章,取TF-IDF值排名前十五的词作为文章的关键词;
将每篇文章的文本输入TextBlob工具,使用该工具的“noun_phrases”(名词短语)功能得到每篇文章的关键短语;
S13、将步骤S11获得的关键词与步骤S12获得的关键短语使用现有技术的字符匹配进行合并、去重,将去重后的关键词、关键短语作为文章的术语。
S2、通过文章库中文章的作者1、文章2、术语3和出版商4共四种类型,建立异构信息网络,类型间的关系如图2所示;
本发明的异构信息网络为下式:
G=(V,E,T,φ,ψ)
其中,V表示网络中所有的节点,E表示网络中所有的边,T表示网络中所有的类型,对于网络中的任意一个节点v∈V和的任意一个边e∈E存在影射Φ(v):V→Tv和Ψ(v):E→TE;Tv和TE分别表示节点和边的类型,Tv={文本信息、作者、出版商、术语},TE={作者写文章(作者→文章)、文章被作者写(文章→作者)、文章发表在出版商(文章→出版商)、出版商刊登文章(出版商→文章)、文章包含术语(文章→术语)、术语属于文章(术语→文章)、文章引用文章(文章→文章)};
在本实施例中,在文章库里使用节点与节点之间表示一条边,点与点之间采用分隔符分隔。
在实际操作过程中,步骤S2具体包括以下步骤:
S21、根据每篇文章和该文章包含的术语构建异构信息网络的文章、术语边;
S22、根据每篇文章和该文章的作者构建异构信息网络的文章、作者边;
S23、根据每篇文章和该文章的出版商构建异构信息网络的文章、出版商边;
S24、根据每篇候选文章和该候选文章的引文构建异构信息网络的文章、文章边。因目标是为目标文章推荐候选文章集中的文章作为目标文章的引文,所以在异构信息网络构建中,不加入目标文章与其引文的连边;
S3、使用三度影响力原则选取三度以内的元结构,并依据所选的元结构和基于元结构的相似度技术计算得到文章库中文章的相似度;
本实施方式中,使用社交网络中的三度影响力原则来选取元结构,三度影响力原则认为信息在网络中传播的过程中,经过的对象越多,影响力会逐渐削弱,如果传播范围超出三度,则影响力会消失;本步骤计算异构信息网络中两个文章类型的节点的相似度时,若两篇文章通过三度以上(不包括三度)的元结构连接,则两篇文章之间的关联可以忽略。
在实际操作过程中,S3具体包括:
S31、列举所有在异构信息网络(包括文章、作者、术语和出版商构成)中度数在三以内的(包括三度)从目标文章节点出发到候选文章节点结束的M个元结构,表示为S={S1,S2,...,SM};
本步骤使用的元结构如表1所示:
表1
S32、使用基于元结构的BSCSE算法处理文章间基于S31中所有元结构的相似度,得到目标文章tpu与候选文章cpi在元结构下的相似度;
原始数据集中K篇目标文章TP={tp1,tp2,...,tpK}和N篇候选文章CP={cp1,cp2,...,cpN}之间基于所选的M个元结构下的相似度:
其中,tpu表示第u篇目标文章,表示第u篇目标文章在网络中对应的节点,u∈[1,K];
Sj表示第j个元结构;其中,d(Sj)表示元结构Sj的维度;j∈[1,M];
cpi表示第i篇候选文章,表示第i篇候选文章在网络中对应的节点,i∈[1,N];
表示从目标文章节点的邻居节点中选出类型为的节点,其中,vl表示目标文章节点的邻居节点中,类型为的节点中的第l个, 表示网络中目标文章节点的所有邻居节点,表示目标文章节点的邻居节点个数,|V|表示网络中所有节点的个数;r(vl)表示网络中节点vl的类型,本发明节点的类型为四种,文章、作者,出版商和术语,r(vl)∈{文章,作者,出版商,术语};表示元结构Sj的第二项;
表示网络中从节点vl开始到候选文章节点为止,所有满足元结构的路径实例的个数;其中,表示Sj去除第一项的剩余部分的元结构,表示元结构Sj的第一项。
表示网络中从点vl开始,所有满足元结构的路径实例的个数,其中,表示Sj去除第一项的剩余部分的元结构,表示元结构Sj的第一项。
表示网络中从目标文章节点开始,满足元结构的路径实例的个数的β次幂,其中,表示第u篇目标文章在网络中对应的节点;表示由元结构Sj的第一项和第二项组成的元结构;β是一个权重系数,取值在[0,1]之间。
S4、对S3中的每个元结构进行加权,用以融合文章间基于不同元结构获得的不同的相似度;
在实际操作过程中,步骤S4具体包括:
S41、为S31步骤中所选的M个元结构赋予权重,权重依次为W={w1,w2,...,wM};其中,wM表示第M个元结构的权重;
S42、采用相似度模型以衡量目标文章tpu∈TP与候选文章cpi∈CP之间的相似性,相似度模型如下:
S5、使用优化算法优化以求得使推荐效果最优的权重;
本实施方式中,我们可以采用四种优化算法来优化相似度模型,分别是,遗传算法、粒子群优化算法、和声算法和模拟退火算法;在推荐的准确度上,遗传算法略高于其他三种算法,而在时间开销上,和声算法速度最快。
在本发明中,以粒子群优化算法为例,步骤S5具体包括:
S51、将待求解的权重W={w1,w2,...,wM}作为粒子群优化算法中待求解的问题,不同权重的排列组合构成解空间中不同的解,在粒子群优化算法第h次迭代中,解xh并且,每个解xh作为粒子群优化算法中粒子的位置;
S52、在粒子群优化算法的下一次迭代中,解优化的过程中,将推荐的召回率作为目标函数,并且每个粒子记录自己所走过的位置中的最优位置pbest,优化过程中也会记录空间中所有粒子走过的位置中的最优位置gbest,设置终止的损失函数值γ,方法遵循以下步骤:
S521、将解中的权重值输入S42步骤中的相似度模型中,计算所有目标文章TP与所有候选文章CP之间的相似度,SIM(tpu,cpi),其中tpu∈TP,cpi∈CP;
S522、根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表,推荐列表长度为25;若某一篇目标文章的推荐列表长度不足25,则以其推荐列表长度为准;
S523、根据推荐结果与目标文章实际的参考文献作对比,计算召回率,公式如下:
其中,K为目标文章的总数,为目标文章tpu的推荐列表中的所有文章集合,为目标文章tpu的实际的参考文献集合;
S524、若没有达到设定的迭代次数或Recall@25<γ,继续下一步S525,否则跳出循环,确定当前的解为最优解;
S525、计算每个粒子的速度
vh=vh+c1×rand×(pbest-xh)+c2×rand×(gbest-xh)
其中,vh表示粒子在第h次迭代时的速度,c1,c2为学习因子,rand表示随机数,rand∈(0,1)。
使用粒子的速度来更新第·h+1次迭代时,粒子的位置xh+1=xh+vh,其中,
S6、为每篇文章根据最优权重下的相似度和年份生成推荐列表。
在实际操作过程中,步骤S6具体包括:
S61、将步骤S5中的最优权重输入步骤S42中的相似度模型SIM(tpu,cpi)中,其中tpu∈TP,cpi∈CP;计算所有目标文章TP和所有候选文章CP之间的相似度;
S62、根据用户的推荐篇数NUM的需求,也就是需要为每篇目标文章推荐NUM篇候选文章,所以,为每篇目标文章返回相似性排名靠前的NUM篇候选文章作为全局引文推荐算法的输出。NUM指推荐篇数。
实施例2
以题目为“Exploiting partial annotations with EM training”的文章为例,在数据集中,它的真实引文为“5275”,“4908”,“10302”,“12534”,“7374”,“3703”,“11213”,“2217”,“7400”,“12704”,“9144”,“9095”,“471”,“9733”,“10540”;我们的方法推荐的前10篇文章为“p9233”,“p10302”,“p7126”,“p7374”,“p8026”,“p8621”,“p1251”,“p3355”,“p9095”,“p11182”;其中,下划线“_”列出的文章为本方法预测正确的三篇文章,本方法在数据集中为每篇目标文章推荐5,10,15和20篇文章时的准确率和F1值如表2,表3所示,不同的优化算法对本技术的推荐效果影响不大,本方法同现有的引文推荐方法“文章-词图算法”和“多层次相互查询算法”的对比如表4所示,在推荐篇数25,50,75时在召回率和归一化折损累计增益两个指标下均对原方法有所提升。
表2
表3
表4

Claims (10)

1.一种基于元结构技术的全局引文推荐方法,其特征在于,包括以下步骤:
S1、收集文章,构建原始数据集,原始数据集包括候选文章集与目标文章集;对原始数据集中的文章进行文章提取,得到文章的作者、出版商和术语,并使用文章、文章的作者、出版商和术语四种属性构建文章库;
S2、通过文章库中文章的作者、文章、术语和出版商四种属性建立异构信息网络;
S3、列举所有在异构信息网络中度数在三以内的元结构,并依据所选的元结构和基于元结构的相似度得到文章库中候选文章与目标文章的相似度;
S4、对S3中的每个元结构进行加权,用以融合文章间基于不同元结构获得的不同的相似度;根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表;
S5、使用优化算法优化推荐列表。
2.根据权利要求1所述的基于元结构技术的全局引文推荐方法,其特征在于,所述步骤S1中的术语的提取包括以下步骤:
S11、提取原始数据集中所有的文章信息,并去除信息不全的文章,将题目和摘要作为文章的文本信息;
S12、根据词频和逆文本频率指数相乘得到每个词的TF-IDF,文章中的某个词α的词频计算公式如下:
词a的逆文本频率计算公式如下:
根据词频和逆文本频率计算词a的TF-IDF值,公式如下:
TF-IDF=TF(a)×IDF(a)
取TF-IDF值排名靠近的词作为文章的关键词;
将每篇文章的文本输入TextBlob工具,得到每篇文章的关键短语;
S13、将步骤S11获得的关键词与步骤S12获得的关键短语进行合并、去重,将去重后的关键词、关键短语作为文章的术语。
3.根据权利要求1所述的基于元结构技术的全局引文推荐方法,其特征在于,所述S2中通过以下步骤建立异构信息网络;
S21、根据每篇文章和该文章包含的术语构建异构信息网络的文章、术语边;
S22、根据每篇文章和该文章的作者构建异构信息网络的文章、作者边;
S23、根据每篇文章和该文章的出版商构建异构信息网络的文章、出版商边;
S24、根据每篇候选文章和该候选文章的引文构建异构信息网络的文章、文章边。
4.根据权利要求1所述的基于元结构技术的全局引文推荐方法,其特征在于,所述S3包括以下步骤:
S31、列举所有在异构信息网络中文章、文章的作者、出版商和术语中度数在三以内的从文章节点出发到文章节点结束的M个元结构,表示为S={S1,S2,...,SM};
S32、使用基于元结构的BSCSE算法处理文章间基于S31中所有元结构的相似度,得到目标文章tpu与候选文章cpi在元结构下的相似度;
原始数据集中K篇目标文章TP={tp1,tp2,...,tpK}和N篇候选文章CP={cp1,cp2,...,cpN}之间基于所选的M个元结构下的相似度:
其中,tpu表示第u篇目标文章,表示第u篇目标文章在网络中对应的节点,u∈[1,K];
Sj表示第j个元结构;其中,d(Sj)表示元结构Sj的维度;j∈[1,M];
cpi表示第i篇候选文章,表示第i篇候选文章在网络中对应的节点,i∈[1,N];
表示从目标文章节点的邻居节点中选出类型为的节点,其中,vl表示目标文章节点的邻居节点中,类型为的节点中的第l个, 表示网络中目标文章节点的所有邻居节点,表示目标文章节点的邻居节点个数,|V|表示网络中所有节点的个数;r(vl)∈{文章,作者,出版商,术语};
表示元结构Sj的第二项;
表示网络中从节点vl开始到候选文章节点为止,所有满足元结构的路径实例的个数;其中,表示Sj去除第一项的剩余部分的元结构,表示元结构Sj的第一项;
表示网络中从点vl开始,所有满足元结构的路径实例的个数,其中,表示Sj去除第一项的剩余部分的元结构,表示元结构Sj的第一项;
表示网络中从目标文章节点开始,满足元结构 的路径实例的个数的β次幂,其中,表示第u篇目标文章在网络中对应的节点; 表示由元结构Sj的第一项和第二项组成的元结构;β是一个权重系数,取值在[0,1]之间。
5.根据权利要求4所述的基于元结构技术的全局引文推荐方法,其特征在于,所述S4包括:
S41、为S31步骤中所选的M个元结构赋予权重,权重依次为W={w1,w2,...,wM};其中,wM表示第M个元结构的权重;
S42、采用相似度模型以衡量目标文章tpu∈TP与候选文章cpi∈CP之间的相似性,相似度模型如下:
6.根据权利要求5所述的基于元结构技术的全局引文推荐方法,其特征在于,所述S5采用粒子群优化算法,包括以下步骤:
S51、将待求解的权重W={w1,w2,...,wM}作为粒子群优化算法中待求解的问题,不同权重的排列组合构成解空间中不同的解,在粒子群优化算法第h次迭代中,解xh并且,每个解xh作为粒子群优化算法中粒子的位置;
S52、在粒子群优化算法的下一次迭代中,解优化的过程中,将推荐的召回率作为目标函数,并且每个粒子记录自己所走过的位置中的最优位置pbest,优化过程中也会记录空间中所有粒子走过的位置中的最优位置gbest,设置终止的损失函数值γ,方法遵循以下步骤:
S521、将解中的权重值输入S42步骤中的相似度模型中,计算所有目标文章TP与所有候选文章CP之间的相似度,SIM(tpu,cpi),其中tpu∈TP,cpi∈CP;
S522、根据候选文章与目标文章之间的相似度,为所有目标文章根据相似度排名生成推荐列表,推荐列表长度为25;若某一篇目标文章的推荐列表长度不足25,则以其推荐列表长度为准;
S523、根据推荐结果与目标文章实际的参考文献作对比,计算召回率,公式如下:
其中,K为目标文章的总数,为目标文章tpu的推荐列表中的所有文章集合,为目标文章tpu的实际的参考文献集合;
S524、若没有达到设定的迭代次数或Recall@25<γ,继续下一步S525,否则跳出循环,确定当前的解为最优解;
S525、计算每个粒子的速度
vh=vh+c1×rand×(pbest-xh)+c2×rand×(gbest-xh)
其中,vh表示粒子在第h次迭代时的速度,c1,c2为学习因子,rand表示随机数,rand∈(0,1);
使用粒子的速度来更新第·h+1次迭代时,粒子的位置xh+1=xh+vh,其中,
S53、将步骤S524中的最优权重输入步骤S42中的相似度模型SIM(tpu,cpi)中,其中tpu∈TP,cpi∈CP;得到所有目标文章TP和所有候选文章CP之间的相似度;
S54、根据用户的推荐篇数的需求,为每篇目标文章返回相似性排名靠前的候选文章作为全局引文推荐算法的输出。
7.一种基于元结构技术的全局引文推荐系统,其特征在于,
包括:
文章库模块,用以构建文章、文章的作者、出版商和术语四种属性;
异构信息网络模块,用以构建文章、文章的作者、出版商和术语四种属性之间的网络关系;
元结构模块,用以列举所述属性在异构信息网络中度数在三以内的元结构;
BSCSE算法模块,所选的元结构和基于元结构的相似度通过所述BSCSE算法模块得到文章库中候选文章与目标文章的相似度;
相似度模型,用以融合文章间基于不同元结构获得的不同的相似度;
优化算法模块,用以优化相似度模型。
8.根据权利要求7中所述的基于元结构技术的全局引文推荐系统,其特征在于,包括以下步骤建立所述异构信息网络;
S21、根据每篇文章和该文章包含的术语构建异构信息网络的文章、术语边;
S22、根据每篇文章和该文章的作者构建异构信息网络的文章、作者边;
S23、根据每篇文章和该文章的出版商构建异构信息网络的文章、出版商边;
S24、根据每篇文章和该文章的引文构建异构信息网络的文章、文章边。
9.根据权利要求7中所述的基于元结构技术的全局引文推荐系统,其特征在于,所述S3列举所述属性在异构信息网络中度数在三以内的元结构,包括以下步骤:
S31、列举所有在异构信息网络中文章、文章的作者、出版商和术语中度数在三以内的从文章节点出发到文章节点结束的M个元结构,表示为S={S1,S2,...,SM};
S32、使用基于元结构的BSCSE算法处理文章间基于S31中所有元结构的相似度,得到目标文章tpu与候选文章cpi在元结构下的相似度;
原始数据集中K篇目标文章TP={tp1,tp2,...,tpK}和N篇候选文章CP={cp1,cp2,...,cpN}之间基于所选的M个元结构下的相似度:
其中,tpu表示第u篇目标文章,表示第u篇目标文章在网络中对应的节点,u∈[1,K];
Sj表示第j个元结构;其中,d(Sj)表示元结构Sj的维度;j∈[1,M];
cpi表示第i篇候选文章,表示第i篇候选文章在网络中对应的节点,i∈[1,N];
表示从目标文章节点的邻居节点中选出类型为的节点,其中,vl表示目标文章节点的邻居节点中,类型为的节点中的第l个, 表示网络中目标文章节点的所有邻居节点,表示目标文章节点的邻居节点个数,|V|表示网络中所有节点的个数;r(vl)∈{文章,作者,出版商,术语};
表示元结构Sj的第二项;
表示网络中从节点vl开始到候选文章节点为止,所有满足元结构的路径实例的个数;其中,表示Sj去除第一项的剩余部分的元结构,表示元结构Sj的第一项;
表示网络中从点vl开始,所有满足元结构的路径实例的个数,其中,表示Sj去除第一项的剩余部分的元结构,表示元结构Sj的第一项;
表示网络中从目标文章节点开始,满足元结构 的路径实例的个数的β次幂,其中,表示第u篇目标文章在网络中对应的节点; 表示由元结构Sj的第一项和第二项组成的元结构;β是一个权重系数,取值在[0,1]之间。
10.根据权利要求7中所述的基于元结构技术的全局引文推荐系统,其特征在于,所选的元结构和基于元结构的相似度通过所述元结构的BSCSE算法模块得到文章库中候选文章与目标文章的相似度,包括以下步骤:
S41、为S31步骤中所选的M个元结构赋予权重,权重依次为W={w1,w2,...,wM};其中,wM表示第M个元结构的权重;
S42、采用相似度模型以衡量目标文章tpu∈TP与候选文章cpi∈CP之间的相似性,相似度模型如下:
CN201910326299.2A 2019-04-23 2019-04-23 基于元结构技术的全局引文推荐方法、推荐系统 Active CN110083696B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910326299.2A CN110083696B (zh) 2019-04-23 2019-04-23 基于元结构技术的全局引文推荐方法、推荐系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910326299.2A CN110083696B (zh) 2019-04-23 2019-04-23 基于元结构技术的全局引文推荐方法、推荐系统

Publications (2)

Publication Number Publication Date
CN110083696A true CN110083696A (zh) 2019-08-02
CN110083696B CN110083696B (zh) 2022-11-25

Family

ID=67416146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910326299.2A Active CN110083696B (zh) 2019-04-23 2019-04-23 基于元结构技术的全局引文推荐方法、推荐系统

Country Status (1)

Country Link
CN (1) CN110083696B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598061A (zh) * 2019-09-20 2019-12-20 东北大学 一种多元图融合的异构信息网嵌入方法
CN110688474A (zh) * 2019-09-03 2020-01-14 西北工业大学 基于深度学习与链接预测的嵌入表示获得及引文推荐方法
CN111091005A (zh) * 2019-12-20 2020-05-01 北京邮电大学 一种基于元结构的无监督异质网络表示学习方法
CN111815396A (zh) * 2020-06-04 2020-10-23 清华大学 基于元图的产品筛选方法、系统、设备及存储介质
CN111831910A (zh) * 2020-07-14 2020-10-27 西北工业大学 一种基于异构网络的引文推荐算法
CN112148989A (zh) * 2020-10-16 2020-12-29 重庆理工大学 基于局部节点以及度折扣的社交网络节点影响力推荐系统
CN112364151A (zh) * 2020-10-26 2021-02-12 西北大学 一种基于图、引文和内容的论文混合推荐方法
CN113158041A (zh) * 2021-04-19 2021-07-23 电子科技大学 一种基于多属性特征的文章推荐方法
CN111815396B (zh) * 2020-06-04 2024-05-31 清华大学 基于元图的产品筛选方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140229493A1 (en) * 2011-09-23 2014-08-14 Inria-Institu National De Recherche En Informatique Et En Automatique Ranking of heterogeneous information objects
CN104573103A (zh) * 2015-01-30 2015-04-29 福州大学 一种科技文献异构网络下合作作者推荐方法
CN107992542A (zh) * 2017-11-27 2018-05-04 中山大学 一种基于主题模型的相似文章推荐方法
CN109492156A (zh) * 2018-10-24 2019-03-19 宿州元化信息科技有限公司 一种文献推送方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140229493A1 (en) * 2011-09-23 2014-08-14 Inria-Institu National De Recherche En Informatique Et En Automatique Ranking of heterogeneous information objects
CN104573103A (zh) * 2015-01-30 2015-04-29 福州大学 一种科技文献异构网络下合作作者推荐方法
CN107992542A (zh) * 2017-11-27 2018-05-04 中山大学 一种基于主题模型的相似文章推荐方法
CN109492156A (zh) * 2018-10-24 2019-03-19 宿州元化信息科技有限公司 一种文献推送方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XIAOZHONG LIU 等: "《Full-text based context-rich heterogeneous network mining approach for citation recommendation》", 《IEEE/ACM JOINT CONFERENCE ON DIGITAL LIBRARIES》 *
张舒虹: "学术异构信息网络中的作者合作关系预测", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
赵姝 等: "结合节点度和节点聚类系数的链路预测算法", 《小型微型计算机系统》 *
陈志涛等: "多特征因子融合的引文推荐算法", 《计算机工程与设计》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688474A (zh) * 2019-09-03 2020-01-14 西北工业大学 基于深度学习与链接预测的嵌入表示获得及引文推荐方法
CN110688474B (zh) * 2019-09-03 2023-03-14 西北工业大学 基于深度学习与链接预测的嵌入表示获得及引文推荐方法
CN110598061A (zh) * 2019-09-20 2019-12-20 东北大学 一种多元图融合的异构信息网嵌入方法
CN111091005B (zh) * 2019-12-20 2022-05-13 北京邮电大学 一种基于元结构的无监督异质网络表示学习方法
CN111091005A (zh) * 2019-12-20 2020-05-01 北京邮电大学 一种基于元结构的无监督异质网络表示学习方法
CN111815396A (zh) * 2020-06-04 2020-10-23 清华大学 基于元图的产品筛选方法、系统、设备及存储介质
CN111815396B (zh) * 2020-06-04 2024-05-31 清华大学 基于元图的产品筛选方法、系统、设备及存储介质
CN111831910A (zh) * 2020-07-14 2020-10-27 西北工业大学 一种基于异构网络的引文推荐算法
CN112148989B (zh) * 2020-10-16 2021-08-24 重庆理工大学 基于局部节点以及度折扣的社交网络节点影响力推荐系统
CN112148989A (zh) * 2020-10-16 2020-12-29 重庆理工大学 基于局部节点以及度折扣的社交网络节点影响力推荐系统
CN112364151A (zh) * 2020-10-26 2021-02-12 西北大学 一种基于图、引文和内容的论文混合推荐方法
CN112364151B (zh) * 2020-10-26 2023-06-27 西北大学 一种基于图、引文和内容的论文混合推荐方法
CN113158041A (zh) * 2021-04-19 2021-07-23 电子科技大学 一种基于多属性特征的文章推荐方法
CN113158041B (zh) * 2021-04-19 2022-07-29 电子科技大学 一种基于多属性特征的文章推荐方法

Also Published As

Publication number Publication date
CN110083696B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN110083696A (zh) 基于元结构技术的全局引文推荐方法、推荐系统
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
Cao et al. Context-aware query classification
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN110717038B (zh) 对象分类方法及装置
Zhang et al. Effective subword segmentation for text comprehension
Mahata et al. Theme-weighted ranking of keywords from text documents using phrase embeddings
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
WO2016015267A1 (en) Rank aggregation based on markov model
Tiwari et al. Ensemble approach for twitter sentiment analysis
CN112036178A (zh) 一种配网实体相关的语义搜索方法
Wang et al. Many hands make light work: Transferring knowledge from auxiliary tasks for video-text retrieval
Almeida et al. BIT. UA at BioASQ 8: Lightweight Neural Document Ranking with Zero-shot Snippet Retrieval.
Zhang et al. Query classification using convolutional neural networks
Sivaramakrishnan et al. Validating effective resume based on employer’s interest with recommendation system
Budíková et al. DISA at ImageCLEF 2014: The Search-based Solution for Scalable Image Annotation.
CN115017279A (zh) 基于文本语义匹配的Stack Overflow相关问答检索方法
Ma et al. Chinese social media entity linking based on effective context with topic semantics
Kian et al. An efficient approach for keyword selection; improving accessibility of web contents by general search engines
Pushplata et al. An analytical assessment on document clustering
Mazari et al. A Combined Method of Naïve-Bayes and Pooling Strategy for Building Test Collection for Arabic/English Information Retrieval
Rei et al. Parser lexicalisation through self-learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230607

Address after: 100084 603a, 6th floor, building 6, yard 1, Zhongguancun East Road, Haidian District, Beijing

Patentee after: Beijing Zhipu Huazhang Technology Co.,Ltd.

Address before: 230000 No.3 Feixi Road, Shushan District, Hefei City, Anhui Province

Patentee before: ANHUI University