CN106126732B - 基于兴趣相似模型的作者影响力传播能力预测方法 - Google Patents

基于兴趣相似模型的作者影响力传播能力预测方法 Download PDF

Info

Publication number
CN106126732B
CN106126732B CN201610517069.0A CN201610517069A CN106126732B CN 106126732 B CN106126732 B CN 106126732B CN 201610517069 A CN201610517069 A CN 201610517069A CN 106126732 B CN106126732 B CN 106126732B
Authority
CN
China
Prior art keywords
author
document
influence
authors
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610517069.0A
Other languages
English (en)
Other versions
CN106126732A (zh
Inventor
黄芳
常宁
王向前
万文聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201610517069.0A priority Critical patent/CN106126732B/zh
Publication of CN106126732A publication Critical patent/CN106126732A/zh
Application granted granted Critical
Publication of CN106126732B publication Critical patent/CN106126732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/382Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using citations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于兴趣相似模型的作者影响力传播能力预测方法,包括以下步骤:步骤1:从文献数据库的文献基本信息中抽取挖掘作者文献的学术关系信息,包括作者‑论文撰写关系和文献‑文献引用关系;步骤2:根据作者‑论文撰写关系和文献‑文献引用关系,建立作者引用关系网络和作者合作关系网络;步骤3:基于共引关系计算作者间的兴趣相似度;其中共引关系是指:若两篇文献同时引用了一篇文献,就称这两篇文献存在共引关系;步骤4:利用作者引用关系网络与合作关系网络,挖掘作者影响力传播路径;以兴趣相似度作为路径的权值,加权计算得到影响力传播能力。

Description

基于兴趣相似模型的作者影响力传播能力预测方法
技术领域
本发明涉及一种基于兴趣相似模型的作者影响力传播能力预测方法。
背景技术
学术关系网络中影响力的评估是近年来社会关系网络研究问题的热点之一,现有的作者影响力评估方法大致可以分为两类[1],第一是基于统计的方法,考虑的是文献的数量和被引用次数等信息,例如作者发表文献的数量、作者被引用次数、作者合著次数、H指数[3]等,这些指标也出现了很多改进模型,更精确地评估个人影响力。第二是基于学术关系网络结构的评估方法,考虑的是整个学术关系网络,把作者抽象成节点,作者之间的关系抽象为边,赋予一定的权重值,通过算法得到某个作者节点的影响力,例如PageRank算法[4]。现有的作者影响力评估方法只是对当前静态的数据或网络进行影响力评估,考虑也不够全面,作者个人信息随时间的变化情况,以及作者之间的关系权重值大小,都没有一个更为准确的定义,也没有考虑作者之间的兴趣异同。
因此,有必要设计一种基于兴趣相似模型的作者影响力传播预测方法。
参考文献:
[1]刘大有,薛锐青,齐红.基于作者权威值的论文价值预测算法[J].自动化学报,2012,38(10):1654-1662.
[2]薛锐青.基于作者权威值的论文排名预测算法研究[D].吉林大学,2012.
[3]Hirsch J E.An index to quantify an individual's scientificresearch output[J].Proceedings of the National Academy of Sciences of theUnited States of America,2005,102(46):16569-16572.
[4]Page L.The PageRank Citation Ranking:Bringing Order to the Web[C]//Stanford InfoLab.1998:1-14.
发明内容
本发明所解决的技术问题是,针对现有技术的不足,提供一种基于兴趣相似模型的作者影响力传播预测方法,基于作者的兴趣相似性,以及作者引用合作关系的历史数据来预测作者未来的学术成果影响力的传播能力,并预测作者间未来是否产生影响。
本发明为解决技术问题所采取的技术方案为:
一种基于兴趣相似模型的作者影响力传播能力预测方法,包括以下步骤:
步骤1:从文献数据库的文献基本信息中抽取挖掘作者文献的学术关系信息,包括作者-论文撰写关系和文献-文献引用关系;
步骤2:根据作者-论文撰写关系和文献-文献引用关系,建立作者引用关系网络和作者合作关系网络;
步骤3:基于共引关系计算作者间的兴趣相似度;其中共引关系是指:若两篇文献的作者同时引用了一篇文献,就称这两篇文献的作者存在共引关系;
步骤4:建立作者影响力传播模型,预测作者影响力传播能力:利用作者引用关系网络与合作关系网络,挖掘作者影响力传播路径;以步骤3中得到的兴趣相似度作为路径的权值,加权计算得到影响力传播能力。
整个预测方法可以理解为某个具有影响力的作者与被影响的作者有较高的兴趣相似度,且他们有引用传播路径或者合作传播路径,则影响力传播能力较大。
所述步骤3具体包括以下步骤:
3.1)基于作者引用关系网络,建立NxN的共引矩阵Z,Z中元素Zi,j表示作者i引用作者j的文献次数;
3.2)对共引矩阵Z进行规范化处理,得到规范化的矩阵H;规范化处理公式如下:
Figure BDA0001040327030000021
其中,Hi,j表示作者i引用作者j的文献次数占作者i总引用文献总次数的比重;
3.3)规范化的矩阵H中的第i行与第k行分别表示作者i与作者k的引用向量,分别记为Hi=(Hi1,Hi2,…,HiN)和Hk=(Hk1,Hk2,…,HkN);i,k=1,2,…,N;
在计算作者i与作者k的兴趣相似度前,对Hi和Hk进行去自引处理,即将Hi和Hk中第第i列与第k列去除,得到无自引引用向量Hi′和Hk′;
通过余弦相似算法计算作者i与作者k的无自引引用向量之间夹角的余弦值,即余弦相似度,用以表征这两个作者的兴趣相似度;
所述余弦相似算法的计算公式为:
Figure BDA0001040327030000031
其中,Hij′和Hkj′分别为Hi′和Hk′中的第j个元素;N-2为Hi′和Hk′中的元素总个数;
作者i与作者k的兴趣相似度sim(i,k)=cosθ。
所述步骤4中,作者影响力传播路径包括引用传播路径和合作传播路径,路径的权值为其连接的两个作者间的兴趣相似度;作者影响力传播模型为:
ISPA,B=∑k∈Usim(B,k)×C(B,k)
其中,ISPA,B表示作者A对作者B的影响力传播能力,ISPA,B的值越大表示作者A的影响力传播到作者B的可能性越大;U为作者A的影响邻居节点集合,即在引用关系网络中直接引用了作者A的文献的作者集合;sim(B,k)表示作者k与作者B的兴趣相似度,C(B,k)表示作者B是否引用了k的文献或者与k有合作关系,有则取1,否则0。
本发明的原理为:
作者的影响力与作者文献的被引用量相关,被引用次数越多,表示作者所发表的观点、思想得到的关注也就越多,作者能够影响别人或者说让别人接受并传递自己思想的能力也就越强。从作者引用关系网络的角度来分析,引用行为代表作者对引文中的观点、数据或者结论持有认可的态度,也代表他们的研究领域相同或者有交集,即可认为作者之间发生引用行为时,他们的研究兴趣有相似点。因此,可以认为研究兴趣是作者引用行为的前提,也是作者影响力传播的动力。
而作者影响力能够得到传播,还需要有关联条件,利用作者间的引用关系网络和作者合作关系网络,把具有影响力的作者与被影响的作者连通起来,即可理解为影响力的传播路径。因此,本发明提出一个合理的作者影响力传播模型来模拟作者影响力的传播过程,评估两个作者之间未来产生影响的可能性。
(一)作者兴趣相似模型
两篇文献同时引用了一篇文献,就称这两篇文献存在共引关系。存在共引关系的文献,说明它们在研究内容和方向上有某些相似处,而由此知道这两篇文献的作者在研究上借鉴了同一个作者的想法。
文献的引用可能是作者对某一句话、某个数据,或者某一个观点进行引用,并不能代表作者的研究内容,例如医学大数据的文献可能会引用医学领域和计算机领域的文献,而某些文献仅仅对于某一条数据的引用更不能代表作者研究的课题方向,因此这些引用关系都不能说明文献有相似之处。但是两个作者共同引用的文献全部相同,有理由得出他们的研究内容是一致的。因此可以说,两个作者的引用文献相同的数量越多,他们的研究内容也就越相似。
把上述作者间的研究内容,理解成为他们之间的研究兴趣,根据作者引用的情况,抽象出作者的兴趣相似度。作者兴趣相似建模过程为:首先从公共文献数据库中,获得文献的所有信息,然后针对作者集合,收集其发表的所有文献集合。在文献引用的基础上,挖掘出作者间引用关系,建立兴趣引用矩阵,利用相似算法,得到作者之间的兴趣相似度。
基于共引关系的作者兴趣相似度计算,主要是为了寻找近邻,找到研究兴趣相似的作者。本发明中的原始数据,以文献发表信息,如文献名、作者、关键词、摘要、引用文献名等存在于数据库中,作者研究兴趣相似度需要先抽取作者关系、建立共引矩阵、计算作者兴趣相似度。
1、抽取作者引用关系
通过作者-文献的撰写关系和文献-文献的引用关系,抽取作者引用关系网络。
2、建立共引矩阵
共引矩阵描述的是作者之间的引用关系情况,为了强调本发明中所阐述的作者之间的共引关系而特别命名为共引矩阵。
为了更好的描述共引矩阵的建立过程,在这里举一个例子。假设有5个作者A、B、C、D和E,对他们的引用关系网络进行表格化处理后的结果如表3-1所示。
表1抽象的作者引用关系情况
Figure BDA0001040327030000041
表3-1统计的为作者之间的引用情况,行为引用作者,列为被引用的作者。根据表格中的信息建立一个共引矩阵如公式3-1所示。
Figure BDA0001040327030000051
共引矩阵Z中元素Zi,j表示作者i引用作者j的文献次数。
再对共引矩阵Z进行规范化处理,得到规范化的矩阵H规范化处理公式如公式3-2所示:
Figure BDA0001040327030000052
其中,Hi,j表示作者i引用作者j的文献次数占作者i总引用文献总次数的比重;得到规范化的矩阵如公式3-3所示。
Figure BDA0001040327030000053
3、计算作者兴趣相似度
两个作者引用的情况越接近,即他们共引的文献大部分相同,他们的研究兴趣越相似。从共引矩阵中,任意抽出一行Hi,表示作者i的引用向量;
通过如图2所示的余弦相似算法计算两个作者的引用向量之间夹角的余弦值,即余弦相似度,用以表征作者兴趣相似度。如果余弦相似度越接近于1,表示两个引用向量的夹角越小,方向更加吻合,则作者兴趣相似度越高。本发明是对作者共同引用兴趣的研究,因此需要对自引用进行处理,如果计算是作者A与作者B的兴趣相似度,则将作者A的引用向量和作者B的引用向量均去掉引用作者A与作者B的列,得到无自引引用向量如图3所示。
算法的伪码描述如下:
Figure BDA0001040327030000054
Figure BDA0001040327030000061
(二)作者影响力传播路径
学术关系网络是一个关系复杂的多样性网络,从各类研究者到他们所发表的文献、从属的机构和研究所等等,构成一个多样性节点网络。本发明所讨论的影响力是一个作者的学术成就,主要体现在其所发表文献的关注度、引用量。而这种影响力在网络中的传播,主要依靠与其相关联的节点。学术关系网络中,如果一个节点能影响其他节点,则称这个节点具有影响力。如果一个节点可以把其他节点的影响力传递给另一个节点,则称其具有影响力传播能力。引用传递和合作共享是作者影响力主要传播路径,通过二级引用关系作者可以关注更多优秀作者,通过合作关系作者也可以共享更多优秀资源信息。针对作者影响力的传播特点,本发明提出基于作者兴趣的引用路径和基于作者兴趣的合作路径的传播方式,如图4所示。图4(a)为引用传播路径:作者A能影响作者k,作者k与作者B兴趣相似,并且作者B引用了作者k,从而作者A的影响力很有可能通过作者k传播给作者B。而图4(b)为合作传播路径:作者A能影响作者k,作者k和作者B兴趣相似,并具有合作关系,从而作者A的影响力很有可能通过作者k传播给作者B。
(三)影响力传播预测指标
影响力传播路径包括引用传播路径和合作传播路径,路径的权值为其连接的两个作者间的兴趣相似度,把所有路径上的权重进行综合即可得到影响力传播能力值。
ISPA,B=∑k∈Usim(B,k)×C(B,k) 公式(3-4)
其中,ISPA,B表示作者A对作者B的影响力传播指标,值越大表示作者A的影响力通过作者B传播可能性越大,sim(B,k)表示作者k与作者B的兴趣相似度,C(B,k)表示作者B是否引用了邻居k的文献或者与邻居k有合作关系,有则取1,否则0。U为作者A的影响邻居节点集合,即在引用关系网络中直接引用了作者A的文献的作者集合。
算法的伪码描述如下:
Figure BDA0001040327030000071
Figure BDA0001040327030000081
有益效果:
本发明利用提出了一种基于兴趣相似模型的作者影响力传播能力预测方法预测作者影响力在现有学术关系网络的基础上,进行扩散传播的能力。在影响力的传播过程中,主要依靠作者引用关系和作者合作关系形成传播路径,以及作者的研究兴趣相似性作为传播动力。本发明在作者的共引矩阵的基础上,利用余弦定理,得到作者间的兴趣相似度。在具备传播径路的网络中,利用预测算法,得到影响力传播能力值,并预测作者间未来是否产生影响。
附图说明
图1为本发明流程图;
图2为本发明实施例中作者A与B的引用向量余弦相似度;
图3为本发明实施例中作者A与B的无自引引用向量余弦相似度;
图4为本发明影响力传播路径;图4(a)为引用传播路径;图4(b)为合作传播路径;
图5为本发明作者引用关系网络;
图6为作者共引关系与兴趣相似度;
图7为AUC精度评估指标。
具体实施方式
以下结合附图和具体实施方式对本发明进行进一步具体说明。
一种基于兴趣相似模型的作者影响力传播能力预测方法,包括以下步骤:
步骤1:从文献数据库的文献基本信息中抽取挖掘作者文献的学术关系信息,包括作者-论文撰写关系和文献-文献引用关系;
步骤2:根据作者-论文撰写关系和文献-文献引用关系,建立作者引用关系网络和作者合作关系网络;
步骤3:基于共引关系计算作者间的兴趣相似度;其中共引关系是指:若两篇文献的作者同时引用了一篇文献,就称这两篇文献的作者存在共引关系;
步骤4:建立作者影响力传播模型,预测作者影响力传播能力:利用作者引用关系网络与合作关系网络,挖掘作者影响力传播路径;以步骤3中得到的兴趣相似度作为路径的权值,加权计算得到影响力传播能力。
整个预测方法可以理解为某个具有影响力的作者与被影响的作者有较高的兴趣相似度,且他们有引用传播路径或者合作传播路径,则影响力传播能力较大。
所述步骤3具体包括以下步骤:
3.1)基于作者引用关系网络,建立NxN的共引矩阵Z,Z中元素Zi,j表示作者i引用作者j的文献次数;
3.2)对共引矩阵Z进行规范化处理,得到规范化的矩阵H;规范化处理公式如下:
Figure BDA0001040327030000091
其中,Hi,j表示作者i引用作者j的文献次数占作者i总引用文献总次数的比重;
3.3)规范化的矩阵H中的第i行与第k行分别表示作者i与作者k的引用向量,分别记为Hi=(Hi1,Hi2,...,HiN)和Hk=(Hk1,Hk2,...,HkN);i,k=1,2,…,N;
在计算作者i与作者k的兴趣相似度前,对Hi和Hk进行去自引处理,即将Hi和Hk中第第i列与第k列去除,得到无自引引用向量Hi′和Hk′;
通过余弦相似算法计算作者i与作者k的无自引引用向量之间夹角的余弦值,即余弦相似度,用以表征这两个作者的兴趣相似度;
所述余弦相似算法的计算公式为:
Figure BDA0001040327030000101
其中,Hij′和Hkj′分别为Hi′和Hk′中的第j个元素;N-2为Hi′和Hk′中的元素总个数;
作者i与作者k的兴趣相似度sim(i,k)=cosθ。
所述步骤4中,作者影响力传播路径包括引用传播路径和合作传播路径,路径的权值为其连接的两个作者间的兴趣相似度;作者影响力传播模型为:
ISPA,B=∑k∈Usim(B,k)×C(B,k)
其中,ISPA,B表示作者A对作者B的影响力传播能力,ISPA,B的值越大表示作者A的影响力传播到作者B的可能性越大;U为作者A的影响邻居节点集合,即在引用关系网络中直接引用了作者A的文献的作者集合;sim(B,k)表示作者k与作者B的兴趣相似度,C(B,k)表示作者B是否引用了k的文献或者与k有合作关系,有则取1,否则0。
实验分析:
(1)数据来源
本发明的数据来源于中国知网(http://www.cnki.net/)公开的文献基本信息记录,包括作者、标题、发表时间以及引用关系等信息项。将经过处理的数据存入Excel表格中,为实验提供数据基础。
从中选取三个数据集分别进行实验,每个数据集的数据情况如表4-1所示
表2实验数据集表
Figure BDA0001040327030000102
Figure BDA0001040327030000111
实验分别选取三个不同大小,不同时间跨度的数据集,更加有利于对实验结果的分析。数据集1的数据比较集中,都是8年内发表和引用的文献,数据集3跨度比较大,时间上的稀疏性比较高,引用关系的数量与文献的记录条数成正比例关系。
(2)作者关系网络
实验涉及到两个网络,一个是作者引用关系网络,另一个是作者合作关系网络。引用关系网络是作者影响力传播的主要方式,也是作者研究兴趣的评估指标网络。因此以数据集1为例,对作者引用关系网络进行Gephi展示,如图5所示。
(3)作者兴趣相似度指标分析
从数据集1中,随机抽取了10组兴趣相似度大于0.5的作者,对他们进行相似性计算,结果如表3所示。
表3实验数据集学术关系网络情况
Figure BDA0001040327030000112
使用折线图表把表3中的结果展示出来如图6所示。
图6中上面的线条代表作者的兴趣相似度,下面的曲线代表共引作者数量,从表3中,可以看出兴趣相似度高的作者共引作者数量也多,但第一组数据的兴趣相似高,共引作者数量反而少,是因为共引矩阵的稀疏性,余弦定理得出的结果是两个向量的方向,不包括向量绝对值之间的差异,因此会出现偏差。图6从图中明显能看出来两条线的趋势是相似的,说明本发明对作者兴趣相似度评估的指标选取合适。作者共引作者数量越多,则作者兴趣的相似性越高。
(4)结果分析
为了说明基于兴趣相似模型的作者影响力传播预测指标的有效性,本文采用AUC指标评价预测精度进行评估。AUC是描述一种事件发生的概率,把现有的网络分为训练集和预测集,可以理解为利用训练集去观察预测集发生的概率。
过程如下:
首先根据实验数据集建立一个相应的作者影响力传播网络,包含作者-作者的引用关系和作者-作者的合作关系,作者为网络的节点,作者之间的关系为网络的边。
然后进行m次试验:每一次试验把整个建好的影响力传播网络分为两部分,一个为训练集,一个为预测集,这里选取的预测集中的边数占影响力传播网络中总边数的20%。再用训练集去计算预测集中边的产生概率。每一次计算,在预测集中随机选取一条存在的边和一条不存在的边,根据训练集分别计算这两条边在预测算法下的得分,如果存在的边得分高,记为1,不存在的边得分高记为0,相等则记为0.5。如此进行n次计算,再把所有的1和0.5加起来,除以n,得到最终计算结果。如果最终计算结果大于0.5,说明预测算法有效地预测了作者影响力的传播。
对于(1)中选取三个数据集,分别进行上述实验,并取m=10,n=10000,得到最终结果如表4所示。
表4作者影响力传播预测评价指标AUC实验结果
Figure BDA0001040327030000121
根据表4所示结果,本发明对于作者影响力传播能力预测的准确率比较高,均在92%以上。结合各个数据集的网络情况,数据集1的边与节点的比值大于4,网络中连通的边比较多,影响力的传播途径较多,预测得到的结果也比较高。
图7是三个数据集的AUC结果折线图表,数据集2、3的数据稀疏性比数据集1的高,因此结果的精确度也低一点,数据集3的结果稳定性也比较低。
上述三个数据集的实验结果证明了本发明预测方法的有效性,能够比较准确的预测作者影响力的传播。

Claims (2)

1.一种基于兴趣相似模型的作者影响力传播能力预测方法,其特征在于,包括以下步骤:
步骤1:从文献数据库的文献基本信息中抽取挖掘作者文献的学术关系信息,包括作者-论文撰写关系和文献-文献引用关系;
步骤2:根据作者-论文撰写关系和文献-文献引用关系,建立作者引用关系网络和作者合作关系网络;
步骤3:基于共引关系计算作者间的兴趣相似度;其中共引关系是指:若两篇文献的作者同时引用了一篇文献,就称这两篇文献的作者存在共引关系;
步骤4:建立作者影响力传播模型,预测作者影响力传播能力:利用作者引用关系网络与合作关系网络,挖掘作者影响力传播路径,作者影响力传播路径包括引用传播路径和合作传播路径;以步骤3中得到的兴趣相似度作为路径的权值,加权计算得到影响力传播能力;作者影响力传播模型为:
ISPA,B=∑k∈Usim(B,k)×C(B,k)
其中,ISPA,B表示作者A对作者B的影响力传播能力,ISPA,B的值越大表示作者A的影响力传播到作者B的可能性越大;U为作者A的影响邻居节点集合,即在引用关系网络中直接引用了作者A的文献的作者集合;sim(B,k)表示作者k与作者B的兴趣相似度,C(B,k)表示作者B是否引用了k的文献或者与k有合作关系,有则取1,否则0。
2.根据权利要求1所述的基于兴趣相似模型的作者影响力传播能力预测方法,其特征在于,所述步骤3具体包括以下步骤:
3.1)基于作者引用关系网络,建立NxN的共引矩阵Z,Z中元素Zi,j表示作者i引用作者j的文献次数;
3.2)对共引矩阵Z进行规范化处理,得到规范化的矩阵H;规范化处理公式如下:
Figure FDA0001993607450000011
其中,Hi,j表示作者i引用作者j的文献次数占作者i总引用文献总次数的比重;
3.3)规范化的矩阵H中的第i行与第k行分别表示作者i与作者k的引用向量,分别记为Hi=(Hi1,Hi2,…,HiN)和Hk=(Hk1,Hk2,…,HkN);i,k=1,2,…,N;
在计算作者i与作者k的兴趣相似度前,对Hi和Hk进行去自引处理,即将Hi和Hk中第第i列与第k列去除,得到无自引引用向量Hi′和Hk′;
通过余弦相似算法计算作者i与作者k的无自引引用向量之间夹角的余弦值,即余弦相似度,用以表征这两个作者的兴趣相似度;
所述余弦相似算法的计算公式为:
Figure FDA0001993607450000021
其中,Hij′和Hkj′分别为Hi′和Hk′中的第j个元素;N-2为Hi′和Hk′中的元素总个数;
作者i与作者k的兴趣相似度sim(i,k)=cosθ。
CN201610517069.0A 2016-07-04 2016-07-04 基于兴趣相似模型的作者影响力传播能力预测方法 Active CN106126732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610517069.0A CN106126732B (zh) 2016-07-04 2016-07-04 基于兴趣相似模型的作者影响力传播能力预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610517069.0A CN106126732B (zh) 2016-07-04 2016-07-04 基于兴趣相似模型的作者影响力传播能力预测方法

Publications (2)

Publication Number Publication Date
CN106126732A CN106126732A (zh) 2016-11-16
CN106126732B true CN106126732B (zh) 2020-03-10

Family

ID=57469158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610517069.0A Active CN106126732B (zh) 2016-07-04 2016-07-04 基于兴趣相似模型的作者影响力传播能力预测方法

Country Status (1)

Country Link
CN (1) CN106126732B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107731285B (zh) * 2017-05-10 2022-08-19 上海明品医学数据科技有限公司 一种分级教育系统教育贡献度计算方法
CN109871974A (zh) * 2017-12-05 2019-06-11 北大方正集团有限公司 学术影响力的预测方法及装置
CN108614867B (zh) * 2018-04-12 2022-03-15 科技部科技评估中心 基于学术论文的技术前沿性指数计算方法及系统
CN108763328B (zh) * 2018-05-08 2019-05-14 北京市科学技术情报研究所 一种基于黄金引用算法的论文推荐方法
CN108764546B (zh) * 2018-05-17 2021-04-13 鞍山师范学院 一种基于学术大数据的论文影响力预测方法
CN108764323A (zh) * 2018-05-22 2018-11-06 安徽大学 一种赛博平台经济网络中用户影响力检测方法
CN109002524B (zh) * 2018-07-13 2019-06-14 北京市科学技术情报研究所 一种基于论文引用关系的黄金引用作者排序方法
CN108920692B (zh) * 2018-07-13 2019-06-21 北京市科学技术情报研究所 一种基于论文引用关系的作者排序方法
CN109063023B (zh) * 2018-07-13 2019-06-11 北京市科学技术情报研究所 一种基于论文引用关系的黄金引用作者发现方法
CN109145087B (zh) * 2018-07-30 2020-12-11 大连理工大学 一种基于表示学习和竞争理论的学者推荐及合作预测方法
CN109063927B (zh) * 2018-08-28 2021-12-07 成都信息工程大学 一种基于ts-lstm和dnn的微博转发量预测方法
CN109345416B (zh) * 2018-09-12 2021-09-21 连尚(新昌)网络科技有限公司 一种用于记录作品间的引用关系的方法与设备
CN109376238B (zh) * 2018-09-14 2021-01-05 大连理工大学 一种基于参考文献列表重叠度的论文相关度量化方法
CN109344261B (zh) * 2018-10-30 2021-10-01 沈阳师范大学 一种基于共词和共引分析的中小学教育知识图谱分析系统
US11314930B2 (en) 2019-02-11 2022-04-26 Google Llc Generating and provisioning of additional content for source perspective(s) of a document
CN111126758B (zh) * 2019-11-15 2023-09-29 中南大学 一种学术团队影响力传播预测方法、设备和存储介质
CN110990662B (zh) * 2019-11-22 2021-06-04 北京市科学技术情报研究所 一种基于引文网络与科研合作网络的领域专家遴选方法
CN111325390B (zh) * 2020-02-17 2023-04-18 电子科技大学 一种基于兴趣演化的学者合作关系预测方法
CN112463977A (zh) * 2020-10-22 2021-03-09 三盟科技股份有限公司 基于知识图谱的社区挖掘方法、系统、计算机及存储介质
CN112966120B (zh) * 2021-02-26 2021-09-17 重庆大学 一种关系强度分析系统及信息推荐系统
CN114817571B (zh) * 2022-05-16 2023-03-28 浙江大学 基于动态知识图谱的成果被引用量预测方法、介质及设备
CN116561605B (zh) * 2023-06-01 2023-10-24 北京智谱华章科技有限公司 一种文献完成者研究兴趣图聚类方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573103A (zh) * 2015-01-30 2015-04-29 福州大学 一种科技文献异构网络下合作作者推荐方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573103A (zh) * 2015-01-30 2015-04-29 福州大学 一种科技文献异构网络下合作作者推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于作者引用与合作关系的学术影响力测度研究进展";杜建等;《图书情报工作》;20130430;第57卷(第8期);第135-139页 *
"融入内容信息的作者共被引分析";李秀霞等;《图书情报工作》;20160131;第60卷(第1期);第98-104页 *

Also Published As

Publication number Publication date
CN106126732A (zh) 2016-11-16

Similar Documents

Publication Publication Date Title
CN106126732B (zh) 基于兴趣相似模型的作者影响力传播能力预测方法
Liu et al. Graph structured network for image-text matching
Lang et al. Three-way decision approaches to conflict analysis using decision-theoretic rough set theory
Derr et al. Signed network modeling based on structural balance theory
WO2022142027A1 (zh) 基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质
CN110674318A (zh) 一种基于引文网络社区发现的数据推荐方法
CN105138665A (zh) 一种基于改进lda模型的互联网话题在线挖掘方法
WO2022105123A1 (zh) 文本分类的方法、话题生成的方法、装置、设备及介质
Feng et al. Computational social indicators: a case study of chinese university ranking
CN105320764A (zh) 一种基于增量慢特征的3d模型检索方法及其检索装置
Li et al. A hybrid model for experts finding in community question answering
Thijs et al. Do second-order similarities provide added-value in a hybrid approach?
Jiang et al. Message clustering based matrix factorization model for retweeting behavior prediction
Sharafat et al. Data mining for smart legal systems
Zhao et al. Distributed power-line outage detection based on wide area measurement system
Li et al. Feature subset selection: a correlation‐based SVM filter approach
Jin et al. Exploring funding patterns with word embedding-enhanced organization–topic networks: a case study on big data
Deveci et al. Ranking intuitionistic fuzzy sets with hypervolume-based approach: An application for multi-criteria assessment of energy alternatives
Su The study of physical education evaluation based on a fuzzy stochastic algorithm
Chen et al. Identifying opinion leaders from online comments
Cao et al. Integrating multisourced texts in online business intelligence systems
Wang et al. Enhancing public research on citizen data: An empirical investigation of data synthesis using Statistics New Zealand’s Integrated Data Infrastructure
Guisheng et al. A new link prediction algorithm: node link strength algorithm
Wedgwood et al. What lies beneath: Forecast transparency to foster understanding and trust in forecast models
Oliveira et al. Relevance prediction in similarity-search systems using extreme value theory

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant