CN110609889A - 基于学术网络确定对象重要性排名及选择评审专家的方法和系统 - Google Patents

基于学术网络确定对象重要性排名及选择评审专家的方法和系统 Download PDF

Info

Publication number
CN110609889A
CN110609889A CN201910813797.XA CN201910813797A CN110609889A CN 110609889 A CN110609889 A CN 110609889A CN 201910813797 A CN201910813797 A CN 201910813797A CN 110609889 A CN110609889 A CN 110609889A
Authority
CN
China
Prior art keywords
path
meta
object type
ranking vector
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910813797.XA
Other languages
English (en)
Other versions
CN110609889B (zh
Inventor
梁英
刘政君
谢小杰
张伟
史红周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201910813797.XA priority Critical patent/CN110609889B/zh
Publication of CN110609889A publication Critical patent/CN110609889A/zh
Application granted granted Critical
Publication of CN110609889B publication Critical patent/CN110609889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施例提供了用于确定学术网络中对象重要性排名的方法以及基于学术网络选择评审专家的方法和系统,包括在学术网络中选择以被排名对象为目标对象的元路径作为主元路径,并为该主元路径中每个对象类型确定辅助元路径;对于主元路径中每个对象类型,沿主元路径获取对象类型的相关关系排名向量并沿辅助元路径获取该对象类型的内部关系排名向量,从而确定该对象类型的重要性排名向量;以及根据作为被排名对象的学者类型对象的重要性排名向量来选择参与学术评审的专家。在本发明中通过在学术网络中构建组合元路径获取学者重要性排名,扩大了语义捕捉的范围,使得学者重要性排名更精确和可信,从而更有利于评审专家的选择和学术评审质量的改善。

Description

基于学术网络确定对象重要性排名及选择评审专家的方法和 系统
技术领域
本发明涉及学术网络和数据挖掘,尤其涉及用于基于学术网络进行学者重要性排名的方法和系统。
背景技术
学术网络中包含了大量的学者、期刊、会议及学术文献的信息,随着学术文献的不断发表,学术网络蓬勃发展,获得了广泛的应用,例如用于识别科研专家、判断学科发展脉络和趋势、分析跨学科研究情况等等。以学术同行评审评议为例,其目的是将科研项目、论文、专利、成果鉴定等交由同一领域的权威专家学者进行评审评议,用以确保科研项目、论文、专利、成果鉴定等的质量,而选择哪些专家学者对于学术评审评议的有效性至关重要。所以,如何基于学术网络对学者进行重要性排名并以此选出符合评审评议条件的学者是非常重要的环节。
发明内容
本发明实施例的目的在于提供一种用于学术网络中学者重要性排名的方法和系统,提供更准确相关且更稳定可信的学者重要排名。
上述目的是通过以下技术方案实现的:
根据本发明实施例的第一方面,提供了一种基于学术网络选择评审专家的方法,包括:S1)在学术网络中确定与待评审文本相关的学术网络范围;S2)在所确定的学术网络范围中选择以作为被排名对象的学者为目标对象的且包含对象类型数目最多的元路径作为主元路径;S3)为该主元路径中每个对象类型选择以该对象类型作为源对象和目标对象的元路径作为辅助元路径;S4)对于主元路径中每个对象类型,沿主元路径获取该对象类型的相关关系排名向量,沿辅助元路径获取该对象类型的内部关系排名向量,并基于所获取的相关关系排名向量和内部关系排名向量确定该对象类型的重要性排名向量;以及S5)根据被排名对象的重要性排名向量为待评审文本选择参与评审的专家。
根据本发明实施例的第二方面,提供了一种用于确定学术网络中对象重要性排名的方法,包括:A1)在学术网络中选择以被排名对象为目标对象的且包含对象类型数目最多的元路径作为主元路径;A2)为该主元路径中每个对象类型选择以该对象类型作为源对象和目标对象的元路径作为辅助元路径;以及A3)对于主元路径中每个对象类型,沿主元路径获取该对象类型的相关关系排名向量,沿辅助元路径获取该对象类型的内部关系排名向量,并基于所获取的相关关系排名向量和内部关系排名向量确定该对象类型的重要性排名向量。
在上述方法中,主元路径中每个对象类型的辅助元路径的选取需要满足下列条件:
I)辅助元路径的源对象与目标对象类型相同;
II)辅助元路径不可以与主元路径互为子路径;
III)当存在满足条件I)和II)的多条元路径时,选取长度最短的元路径作为辅助元路径。
在上述方法中,主元路径中每个对象类型的相关关系排名向量可以是根据反映该对象类型与其在主元路径上的前一对象类型之间的关联关系的邻接矩阵和该前一对象类型的重要性排名向量来确定的。
在上述方法中,每个对象类型的内部关系排名向量可以是根据该对象类型的当前重要性排名向量和反映该对象类型的辅助元路径上源对象与目标对象之间的关联关系的邻接矩阵来确定的。
在上述方法中,每个对象类型的重要性排名向量可以是基于该对象类型的相关关系排名向量和内部关系排名向量的线性组合得到的。
在上述方法中,还可包括构建反映主元路径中目标对象与源对象之间的关联关系的邻接矩阵并基于新构建的邻接矩阵重新计算源对象的重要性排名向量。
在上述方法中,还可包括:计算当前获得的被排名对象的重要性排名向量与上次获得的被排名对象的重要性排名向量之间的距离;判断该距离是否满足预设的稳定性阈值,若满足,则输出当前获得的重要性排名向量;若不满足则执行下列操作:
计算各对象类型当前的重要性排名向量的信息熵;
基于各对象类型的当前重要性排名向量的信息熵与其上一次重要性排名向量的信息熵的差值来更新用于进行线性组合的参数;
返回至步骤S4)或步骤A3)重新确定主元路径上各对象类型的重要性排名向量。
在上述方法中,更新用于进行线性组合的参数可包括基于所述差值采用指数加权平均法来确定用于进行线性组合的参数的更新步长。
根据本发明实施例的第三方面,提供了一种基于学术网络选择评审专家的系统,包括评审范围选择模块、组合路径选择模块和重要性分析模块。其中评审范围选择模块用于在学术网络中确定与待评审文本相关的学术网络范围。组合路径选择模块用于在所确定的学术网络范围中选择以作为被排名对象的学者为目标对象的且包含对象类型数目最多的元路径作为主元路径,并为该主元路径中每个对象类型选择以该对象类型作为源对象和目标对象的元路径作为辅助元路径。重要性分析模块用于对于主元路径中每个对象类型,沿主元路径获取该对象类型的相关关系排名向量,沿辅助元路径获取该对象类型的内部关系排名向量,并基于所获取的相关关系排名向量和内部关系排名向量确定该对象类型的重要性排名向量,以及根据被排名对象的重要性排名向量为待评审文本选择参与评审的专家。
本发明实施例的技术方案可以包括以下有益效果:
本发明的实施例以对学者进行重要性排名计算的元路径作为主元路径,并结合语义信息为该主元路径选择多条辅助路径,基于所构建组合元路径获取学者重要性排名,扩大了语义捕捉的范围,使得学者重要性排名更精确。另外还可以沿所构建的组合路径进行多次循环迭代,使重要性排名更稳定可信,从而更有利于评审专家的选择和学术评审质量的改善。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
在附图中:
图1示出了根据本发明一个实施例的基于学术网络选择评审专家的方法的流程示意图。
图2示出了根据本发明又一个实施例的基于学术网络选择评审专家的方法的流程示意图。
图3示出了根据本发明一个实施例的基于学术网络选择评审专家的系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动下获得的所有其他实施例,都属于本发明保护的范围。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
学术网络中包含了大量的学者、期刊、会议及学术文献的信息。学术网络中节点类型可包括文献、专利、学者、期刊、会议、领域、国家等等,节点之间的边可表示各节点之间的多种关系,常见的边的类型例如从属关系(例如,某个文献属于某个学者)、引用关系(例如,某个文献引用了另一个文献)、合著关系(例如,两个学者合作发表了一个论文)、发表关系(例如,某个文献发表在某个会议上,某个学者在某个期刊上发布了文献)等等。因此,学术网络可以看作是一种异质信息网络,其包含了多种类型的学术对象以及各学术对象之间多种类型的关系,如文献与文献之间的引用关系、文献与学者之间的从属关系、学者与会议或期刊之间的发表关系、文献与会议或期刊之间的发表关系等等。
为方便描述,下文均以包含论文、会议和学者三种类型的对象的学术异质信息网络为例进行说明,但并不旨在对于对象和关系的类型进行任何限制。该学术网络中节点类型为:论文、会议和学者;各对象之间的关系以节点之间的边来指示,边的类型例如可以为:撰写/被撰写、出版/被出版、引用/被引用等。在异质信息网络中两个对象类型可以通过不同的路径相连,这些路径所表达的语义也不同,这些路径称为元路径。也就是说,元路径是定义在网络模式上的链接两类对象的一条路径。例如可以将元路径MP表示为对象类型序列A1A2…Ai…Am,其中m标识元路径的长度,A1称为元路径的源对象,Am称为元路径的目标对象,Ai表示学术网络中的第i个对象类型。假定另一条元路径tp为Astart…Aend,如果该元路径tp对应的序列Astart…Aend是元路径MP对应的序列A1A2…Ai…Am的连续子序列,则可以将元路径tp为元路径MP的子路径。元路径可以刻画对象之间的语义关系。仍以上述的包含论文、会议和学者三种类型的对象的学术异质信息网络为例,从中可以提取很多条元路径,例如APA和APCPA,其中A、P、C分别表示学者类型、论文类型和会议类型。可以看出,基于不同的元路径,对象之间的语义关系是不同的。元路径APA(学者-论文-学者)表示两个学者合作撰写了同一篇论文;元路径APCPA(学者-论文-会议-论文-学者)表示两个学者在同一会议上发表了论文。元路径包含了异质信息网络中的对象类型之间的复合关系,具有丰富的语义信息,很多关于异质信息网络中对象的研究和分析是基于元路径进行的。以分析学术网络中学者重要性为例,当所取的元路径为CPA时,基于元路径上各对象类型之间的关联关系来构建邻接矩阵,例如Wconference,paper、Wpaper,conference、Wpaper,author、Wauthor,paper等,其中Wconference,paper和Wpaper,conference都可表示会议与论文的收录关系,Wpaper,author和Wauthor,paper都可表示学者与论文的撰写关系。这样,论文类型对象的重要性排名向量Rankpaper可以基于该对象与其在元路径上的前一对象之间的邻接矩阵和该前一对象的重要性排名向量来确定,例如:
Rankpaper=Wpaper,conference Rankconference;或者
Rankpaper=(Wpaper,conference)T(Wconference,paper)T(Wpaper,conference)T Rankconference;其中Rankconference是会议类型对象的重要性排名向量,其中各元素分别指示该学术网络中相应会议节点的重要性分数。Rankpaper中各元素分别指示该学术网络中相应论文节点的重要性分数。学者节点的重要性排名向量Rankauthor各元素分别指示该学术网络中相应论文节点的重要性分数,可以如下公式计算:
Rankauthor=Wpaper,author Rankpaper;或者
Rankauthor=(Wauthor,paper)T(Wpaper,author)T(Wauthor,paper)T Rankpaper
但是,基于这样方式得到的重要性排名只考虑到了不同类型对象之间的相关关系,例如会议对象与论文对象的相关关系,论文对象与学者对象的相关关系,元路径捕捉的语义不足,获得的重要性分数不准确。
图1给出了根据本发明一个实施例的基于学术网络选择评审专家的方法的流程示意图。仍以上文包含论文、会议和学者三种类型的对象的学术异质信息网络为例,从中获取学者重要性排名以便根据重要性来选出符合参与学术同行评审评议的学者。如图1所示,在步骤S101,在学术网络中确定与待评审文本相关的范围。也就是确定学术网络中与待评审文本领域相关的节点的集合。这在一方面可以缩小搜索范围,减少计算和时间成本;另一方面还可以确保是从与待评审文本属于相同或相关领域的学术网络范围中寻找符合评审条件的同行学者来参与评审,提高排名的相关性和准确性。以学术网络中会议类型的节点为例,可以将该会议上所有发表的论文的标题集合在一个文本中作为该会议类型节点的学术行为文本,然后计算该会议类型节点的学术行为文本与待评审文本之间的相关度或相似度,选择相关度或相似度高的前K个会议类型节点或相关度满足设定阈值的会议类型节点加入至与待评审文本相关的学术网络范围。当某个会议类型节点加入该范围时,在该会议上发表的论文以及撰写每篇论文的学者对应的节点也都相应地加入该范围。类似地,对于学者类型的节点,可以将该学者发表的所有论文的题目集合在一个文本中作为该学者类型节点的学术行为文本,然后通过计算该学者类型节点的学术行为文本与待评审文本之间的相关度或相似度来选择相应学者类型节点加入至与待评审文本相关的学术网络范围。当某个学者类型节点加入该范围时,该学者的所有论文及论文所发表的会议对应的节点也都相应地加入该范围。对于论文类型节点,可以直接将论文文本本身或者论文标题作为该节点的学术行为文本,进行上述相关度或相似度计算来选择相应学者类型节点加入至与待评审文本相关的学术网络范围。当论文类型节点加入该范围时,发布该论文的会议以及该论文的作者的节点也都相应地加入该范围。应理解,为计算简单,可以利用会议类型节点、学者类型节点或论文类型节点的其中一个或两个而非全部来确定与待评审文本相关的学术网络范围。并且除了计算文本的相似度或相关度之外,还可以利用现有的其他方式来获取与待评审文本相关的节点,本文对此不做限制。
在一个实施例中,可以基于主题相似度来确定与待评审文本相关的范围。例如对于学术网络中各节点的学术行为文本与待评审文本进行LDA主题提取,并计算主题相似度得分。以会议类型节点为例,分别对待评审文本和第j个会议节点的学术行为文本进行主题提取得到主题集合RZ和RCj及每个主题所占比重得分,设RZ和RCj中主题元素的个数为num_topic,其中相同的主题集合RCOINj记为:RCOINj=RZ∩RCj,则待评审文本和第j个会议节点的学术行为文本的主题相似性得分Conference_Scorej以如下公式计算:
其中RZ(k)表示的是待评审文本的主题集合RZ的第k个主题元素,RCj(k)表示第j个会议节点的学术行为文本RCj的第k个主题元素,k=1,2,…,num_topic;SZ(m)表示待评审文本的主题集合的第m个主题元素的比重得分,m=1,2,…,num_topic,SCj(d)表示第j个会议节点的学术行为文本的主题集合中第d个主题元素的比重得分,d=1,2,…,num_topic。
继续参考图1,在步骤S102,在所确定的学术网络范围中选择以被排名对象为目标对象的元路径。以学术评审为例,其中被排名的对象为学者,因此在所确定的范围内选择的是以学者为目标对象的元路径。如上文提到的,假设以对象类型序列A1A2…Ai…Am表示元路径MP,A1称为元路径的源对象,Am称为元路径的目标对象,Ai表示学术网络中的第i个对象类型,那么在所确定的学术网络范围中通常存在多条到达目标对象的元路径。以上文包含论文、会议和学者三种类型的对象的学术网络为例,到达学者的元路径包括PA、CA、APA、ACA、CPA等。在一个实施例中,可以从中选择以被排名对象A为目标对象且不为源对象并包含节点类型数据最多的其中一条元路径作为主元路径,例如CPA。通过选取包含对象类型数目最多的元路径作为主元路径可以最大范围地利用异质学术信息网络中的语义信息。
在步骤S103,为该主元路径中每个对象类型选择选择以该对象类型作为源对象和目标对象的元路径作为辅助元路径。对于所选择的主元路径MP:A1A2…Ai…Am,选取的辅助元路径集合其中为与Ai对应的辅助元路径,是一条链接在主元路径MP的对象类型上用于补充Ai对象语义信息的元路径。也就是需要针对主元路径MP上的每类对象,在所确定的学术网络范围中选取一条元路径作为辅助元路径加入到辅助元路径集合LP中,通常,辅助元路径的选取需要遵循3个规则:
规则I.类型相同规则。辅助元路径的源对象与目标对象类型相同,即辅助元路径As...Ae满足As=Ae
规则II.语义不重复规则。辅助元路径不可以与主元路径中包含的语义重复,即主元路径与辅助元路径不可互为子路径。
规则III.长度最短规则。当选取Ai对象的辅助元路径时,若满足规则I和规则II的元路径有r条(r>1),记为candp1,candp2...candpr,则选取长度最短,包含对象类型最少的元路径作为辅助元路径利用上述方式选取的辅助元路径的选取可以更好地捕获反映某类型对象内部关系的语义信息,以便于根据某类型对象本身的重要性来进一步分析与其相关的对象的重要性。
继续参考图1,在步骤S104,对于主元路径中每个对象类型,沿主元路径获取该对象类型的相关关系排名向量,沿辅助元路径获取该对象类型的内部关系排名向量,并基于所获取的对象类型的相关关系排名向量和内部关系排名向量确定该对象类型的重要性排名向量。其中,每个对象类型的相关关系排名向量可以是根据反映该对象类型与其在主元路径上的前一对象类型之间的关联关系的邻接矩阵与该前一对象类型的重要性排名向量来确定的。每个对象类型的内部关系排序向量是根据该对象类型的重要性排名向量和反映该辅助元路径上源对象与目标对象之间的关联关系的邻接矩阵确定的。为方便描述,下文以选取主元路径MP为CPA,辅助元路径集合LP为{PP,APA}为例来对重要性排名向量的计算步骤进行说明。
例如,首先对主元路径MP上的每一对象类型都初始化其重要性排名向量。每个对象类型的初始化的重要性排名向量中各元素的值均相同,例如都设为1,以指示在进行初始计算时学术网络中属于该对象类型的各节点的重要性都相同。以主元路径CPA为例,该路径的源对象为会议类型对象C,其初始化重要性排名向量记为Rankconference;其在辅助元路径集合中没有对应的辅助元路径,即没有以C开始又以C结束的辅助元路径,因此,确定该主元路径MP上源对象C的重要性排名向量为Rankconference
接下来是论文类型的对象P,该对象P的沿主元路径的相关关系排名向量R2paper=(Wpaper,conference)T(Wconference,paper)T(Wpaper,conference)T Rankconference,其中Wconference,paper和Wpaper,conference是会议类型对象与论文类型对象之间的关联关系的邻接矩阵。该关联关系例如可以是会议与论文的收录关系,假设在所确定的学术网络范围中有N个会议和M篇论文,则Wconference,paper是N*M的矩阵,其中每个元素表示某篇论文是否在某个会议上发表,若发表则该元素为1,否则为0,而Rankconference是N维的会议类型对象的重要性排名向量,其每个元素指示每个会议节点的重要性分数。同时,在辅助元路径集合LP中对于该论文类型的对象P存在相应的辅助元路径PP,则根据该辅助元路径PP构造反映该辅助元路径上源对象与目标对象之间的关联关系的邻接矩阵Wpaper,paper,其中Wpaper,paper为M*M的矩阵,其反映论文与论文之间的互相引用关系,其中每个元素表示两篇论文之间是否存在引用关系,如果存在,则该元素为1,如果不存在则该元素为0。设Rankpaper的初始化值是Rank0paper,这样,该论文类型对象P的当前的内部关系排名向量R1paper=Wpaper,paperRank0paper。当确定了该论文类型对象P的相关关系排名向量R2paper与内部关系排名向量R1paper之后,可以采用线性组合的方式综合二者得到该论文类型对象P的当前的重要性排名向量Rankpaper,例如Rankpaper=λpR2paper+(1-λp)R1paper,其中λp表示P的线性组合参数,0<λp<1。
接下来是MP路径中目标对象类型A,与上述论文类型对象P的方法类似,该对象A的沿主元路径的相关关系排名向量R2author=(Wauthor,paper)T(Wpaper,author)T(Wauthor,paper)TRankpaper,其中Wpaper,author和Wauthor,paper是反映论文类型对象与学者类型对象之间关联关系的邻接矩阵。该关联关系例如是论文与学者之间的撰写关系,假定在所确定的学术网络范围中有M篇论文和K个学者,则Wpaper,author是M*K的矩阵,其中每个元素表示某篇论文是否由某个学者所著,若是则该元素为1,否则为0,而Rankpaper是M维的论文类型对象的重要性排名向量,其每个元素指示每篇论文的重要性分数。同时,在辅助元路径集合LP中对于该学者类型的对象A存在相应的辅助元路径APA,根据该辅助元路径APA构造反映该辅助元路径上源对象与目标对象之间的关联关系的邻接矩阵Wauhtor,author,其中Wauhtor,author为K*K的矩阵,其中每个元素表示两个学者之间是否存在合著关系,即两个学者合作撰写一篇论文,如果存在,则该元素为1,如果不存在则该元素为0。设Rankauhtor的初始化值是Rank0auhtor,这样,该学者类型对象A的当前的内部关系排名向量R1author=Wauhtor,authorRank0auhtor。当确定了该学者类型对象P的相关关系排名向量R2author与内部关系排名向量R1auhtor之后,以线性组合的方式综合二者得到该学者类型对象A当前的重要性排名向量Rankauhor,例如Rankauthor=λAR2author+(1-λA)R1auhtor,其中λA表示A的线性组合参数,0<λA<1。至此,得到了被排名对象A的重要性排名向量Rankauhor
继续参考图1,在步骤S105,根据被排名对象的重要性排名向量为待评审文本选择参与评审的专家。根据实际需求,从被排名对象A的重要性排名向量Rankauhor中选择重要性分数较高的前若干个学者作为参与评审的专家。
通过上述过程可以看出,根据图1介绍的方法的实施例不仅考虑了主元路径上各对象类型之间的相关关系,还兼顾了辅助元路径上各对象内部关系,扩展了语义捕捉的范围,使得得到的重要性排名结果更精确,从而更有利于评审专家的选择和学术评审质量的改善。
图2给出了根据本发明又一个实施例的基于学术网络选择评审专家的方法的流程示意图。该实施例中的S201-S204基本上与图1中实施例中步骤S101-S104的类似,区别在于在步骤S202选定主元路径之后,还可以将该主元路径的目标对象关联至该主元路径的源对象,例如通过构建反映主元路径中目标对象与源对象之间的关联关系的邻接矩阵来将目标对象关联至源对象,从而可以基于新构建的邻接矩阵重新计算源对象的重要性排名向量,以使得在后续处理过程中可以沿主元路径循环迭代,重新计算主元路径中各对象类型的重要性排名向量。仍以上文的主元路径MP为CPA,辅助元路径集合LP为{PP,APA}为例,更具体地,在步骤S202,通过构建目标对象A与源对象C之间的邻接矩阵Wauthor,conferencer来将目标对象与源对象进行连接,从而形成可循环的元路径;其中Wauthor,conferencer是K*N的矩阵,其中每个元素表示某个学者是否在某个会议上发表了论文,若是则该元素为1,否则为0。由此可以将会议类型对象的重要性排名Rankconference更新为Wauthor,conferenceRankauhor,以此作为后续下一次迭代计算的开始,以便通过多次迭代计算使重要性排名收敛以得到稳定可信的重要性得分。
图2的实施例与图1的实施例的区别还在于还包括针对每次循环迭代更新步长的步骤(步骤S208-S209)和判断是否需要结束循环迭代的步骤(步骤S205-S206)。更具体地,在步骤S205,计算经步骤S204获得的被排名对象的当前的重要性排名向量与上次获得的该被排名对象的重要性排名向量之间的距离,例如欧氏距离,曼哈顿距离、杰卡德距离等等。如果是第一次循环,则计算被排名对象的当前的重要性排名向量与其初始化的重要性排名向量之间的距离。接着在步骤S206,通过判断该距离是否满足预设条件来确定是否可以结束循环而输出被排名对象的重要性向量。例如,通过判断前后两次重要性排名向量之间的距离小于预设的稳定性阈值来确定是否结束循环迭代。若被排名对象的前后两次重要性排名向量之间的距离小于预设的稳定性阈值,则进行至步骤S207,根据该排名对象的重要性排名向量为待评审文本选择参与评审的专家(与步骤S105类似)。如果被排名对象的前后两次重要性排名向量之间的距离大于预设的稳定性阈值,则进行至步骤S208,开始更新步长,以进入下一次循环迭代。该稳定性阈值可以根据实际的对于重要性排名稳定性的需求而设置,设置的越小,表明对于重要性排名稳定性要求越严格。
继续参考图2,在步骤S208,对于主元路径上每个对象类型,计算其当前的重要性排名向量的信息熵。以第j次迭代时Ai对象的重要性排名向量的信息熵为例,以如下公式计算:
其中X指示该Ai对象当前的重要性排名向量,xi代表该向量中的第i个元素;p(x)代表元素x在向量X中出现的概率。
接着,在步骤S209,对于主元路径上每个对象类型,将其当前重要性排名向量的信息熵与上一次重要性排名向量信息熵进行比较,利用前后两次信息熵的差值来更新用于计算该对象类型的重要性排名的线性组合参数λ,例如在步骤S104中的线性组合参数λA,λP。在一个实施例中,可以指数加权平均法来计算每次循环迭代时线性组合参数λ的更新步长。例如以当前获得的第j次迭代时的信息熵与上一次迭代的信息熵(即第j-1次迭代的重要性排名向量的信息熵)的差值的绝对值作为指数加权平均法的输入计算组合参数在第j次迭代计算的更新步长
这里,μ是指数加权平均法的超参数。相应地,利用更新步长对线性组合参数λ进行更新,例如
与结合图1介绍的实施例相比,结合图2描述的实施例在通过辅助元路径与主元路径构建组合元路径,扩大了语义捕捉的范围,使学者重要性排名更精准的同时,还将主元路径的目标对象关联至元路径的源对象,建立了沿主元路径循环迭代的计算结构,通过沿主元路径多次循环迭代计算,并在计算过程中以最大化重要性排名的信息熵为目标对辅助元路径的组合参数进行优化调整,使学者重要性排名更趋于稳定性。
在上文的实施例中是以学者作为被排名对象来进行举例说明,实际上通过上述的实施例可以适用于确定学术网络中各种对象类型的重要性排名。在本发明的又一个实施例中,提供了一种用于确定学术网络中对象重要性排名的方法,包括:步骤A1)在学术网络中选择以被排名对象为目标对象的且包含对象类型数目最多的元路径作为主元路径,该步骤与步骤S102和步骤S202类似,在此不再赘述;步骤A2)为该主元路径中每个对象类型选择以该对象类型作为源对象和目标对象的元路径作为辅助元路径;该步骤与步骤S103和步骤S203类似,在此不再赘述;A3)对于主元路径中每个对象类型,沿主元路径获取该对象类型的相关关系排名向量,沿辅助元路径获取该对象类型的内部关系排名向量,并基于所获取的相关关系排名向量和内部关系排名向量确定该对象类型的重要性排名向量,该步骤与步骤S104和步骤S204类似。在又一个实施例中,该用于确定学术网络中对象重要性排名的方法还可以包括如结合图2实施例描述的循环迭代计算的步骤,具体可参见上文步骤S205-S206和步骤S208-S209的相关描述。
图3为根据本发明一个实施例的基于学术网络选择评审专家的系统的结构示意图。如图3所示,该系统300包括评审范围选择模块301,组合路径选择模块302和重要性分析模块303。尽管该框图以功能上分开的方式来描述组件,但这样的描述仅为了说明的目的。图中所示的组件可以任意地进行组合或被分为独立的软件、固件和/或硬件组件。而且,无论这样的组件是如何被组合或划分的,它们都可以在同一计算装置或多个计算装置上执行,其中多个计算装置可以是由一个或多个网络连接。
其中评审范围选择模块301采用如上文结合步骤S101或S201介绍的方式来在学术网络中确定与待评审文本相关的学术网络范围。组合路径选择模块302采用如上文结合步骤S102-S103或步骤S202-S203介绍的方式确定主元路径及其辅助元路径。重要性分析模块303可以如上文结合步骤S104-S105或步骤S204-S209介绍的那样确定被排名对象的重要性排名向量并为待评审文本选择参与评审的专家。
本说明书中针对“各个实施例”、“一些实施例”、“一个实施例”、或“实施例”等的参考指代的是结合所述实施例所描述的特定特征、结构、或性质包括在至少一个实施例中。因此,短语“在各个实施例中”、“在一些实施例中”、“在一个实施例中”、或“在实施例中”等在整个说明书中各地方的出现并非必须指代相同的实施例。此外,特定特征、结构、或性质可以在一个或多个实施例中以任何合适方式组合。因此,结合一个实施例中所示出或描述的特定特征、结构或性质可以整体地或部分地与一个或多个其他实施例的特征、结构、或性质无限制地组合,只要该组合不是非逻辑性的或不能工作。
本说明书中“包括”和“具有”以及类似含义的术语表达,意图在于覆盖不排他的包含,例如包含了一系列步骤或单元的过程、方法、系统、产品或设备并不限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。“一”或“一个”也不排除多个的情况。另外,本申请附图中的各个元素仅仅为了示意说明,并非按比例绘制。
虽然本发明已经通过上述实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims (10)

1.一种基于学术网络选择评审专家的方法,包括:
S1)在学术网络中确定与待评审文本相关的学术网络范围;
S2)在所确定的学术网络范围中选择以作为被排名对象的学者为目标对象的且包含对象类型数目最多的元路径作为主元路径;
S3)为该主元路径中每个对象类型选择以该对象类型作为源对象和目标对象的元路径作为辅助元路径;
S4)对于主元路径中每个对象类型,沿主元路径获取该对象类型的相关关系排名向量,沿辅助元路径获取该对象类型的内部关系排名向量,并基于所获取的相关关系排名向量和内部关系排名向量确定该对象类型的重要性排名向量;
S5)根据被排名对象的重要性排名向量为待评审文本选择参与评审的专家。
2.一种用于确定学术网络中对象重要性排名的方法,包括:
A1)在学术网络中选择以被排名对象为目标对象的且包含对象类型数目最多的元路径作为主元路径;
A2)为该主元路径中每个对象类型选择以该对象类型作为源对象和目标对象的元路径作为辅助元路径;
A3)对于主元路径中每个对象类型,沿主元路径获取该对象类型的相关关系排名向量,沿辅助元路径获取该对象类型的内部关系排名向量,并基于所获取的相关关系排名向量和内部关系排名向量确定该对象类型的重要性排名向量。
3.根据权利要求1或2所述的方法,其中主元路径中每个对象类型的辅助元路径的选取满足下列条件:
I)辅助元路径的源对象与目标对象类型相同;
II)辅助元路径不可以与主元路径互为子路径;
III)当存在满足条件I)和II)的多条元路径时,选取长度最短的元路径作为辅助元路径。
4.根据权利要求3所述的方法,其中主元路径中每个对象类型的相关关系排名向量是根据反映该对象类型与其在主元路径上的前一对象类型之间的关联关系的邻接矩阵和该前一对象类型的重要性排名向量来确定的。
5.根据权利要求3所述的方法,其中每个对象类型的内部关系排名向量是根据该对象类型的当前重要性排名向量和反映该对象类型的辅助元路径上源对象与目标对象之间的关联关系的邻接矩阵来确定的。
6.根据权利要求3所述的方法,其中每个对象类型的重要性排名向量是基于该对象类型的相关关系排名向量和内部关系排名向量的线性组合得到的。
7.根据权利要求6所述的方法,还包括构建反映主元路径中目标对象与源对象之间的关联关系的邻接矩阵并基于新构建的邻接矩阵重新计算源对象的重要性排名向量。
8.根据权利要求7所述的方法,还包括:
计算当前获得的被排名对象的重要性排名向量与上次获得的被排名对象的重要性排名向量之间的距离;
判断该距离是否满足预设的稳定性阈值,若满足,则输出当前获得的重要性排名向量;若不满足则执行下列操作:
计算各对象类型当前的重要性排名向量的信息熵;
基于各对象类型的当前重要性排名向量的信息熵与其上一次重要性排名向量的信息熵的差值来更新用于进行线性组合的参数;
返回至步骤S4)或步骤A3)重新确定主元路径上各对象类型的重要性排名向量。
9.根据权利要求8所述的方法,其中更新用于进行线性组合的参数包括基于所述差值采用指数加权平均法来确定用于进行线性组合的参数的更新步长。
10.一种基于学术网络选择评审专家的系统,包括:
评审范围选择模块,用于在学术网络中确定与待评审文本相关的学术网络范围;
组合路径选择模块,用于在所确定的学术网络范围中选择以作为被排名对象的学者为目标对象的且包含对象类型数目最多的元路径作为主元路径,并为该主元路径中每个对象类型选择以该对象类型作为源对象和目标对象的元路径作为辅助元路径;
重要性分析模块,用于对于主元路径中每个对象类型,沿主元路径获取该对象类型的相关关系排名向量,沿辅助元路径获取该对象类型的内部关系排名向量,并基于所获取的相关关系排名向量和内部关系排名向量确定该对象类型的重要性排名向量,以及根据被排名对象的重要性排名向量为待评审文本选择参与评审的专家。
CN201910813797.XA 2019-08-30 2019-08-30 基于学术网络确定对象重要性排名及选择评审专家的方法和系统 Active CN110609889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910813797.XA CN110609889B (zh) 2019-08-30 2019-08-30 基于学术网络确定对象重要性排名及选择评审专家的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910813797.XA CN110609889B (zh) 2019-08-30 2019-08-30 基于学术网络确定对象重要性排名及选择评审专家的方法和系统

Publications (2)

Publication Number Publication Date
CN110609889A true CN110609889A (zh) 2019-12-24
CN110609889B CN110609889B (zh) 2021-11-23

Family

ID=68890744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910813797.XA Active CN110609889B (zh) 2019-08-30 2019-08-30 基于学术网络确定对象重要性排名及选择评审专家的方法和系统

Country Status (1)

Country Link
CN (1) CN110609889B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115971A (zh) * 2020-08-13 2020-12-22 中国科学院计算技术研究所 一种基于异质学术网络进行学者画像的方法及系统
CN112597535A (zh) * 2020-12-21 2021-04-02 中国科学院计算技术研究所 支持评审专家隐私保护的评审能力计算方法及系统
CN113516094A (zh) * 2021-07-28 2021-10-19 中国科学院计算技术研究所 一种用于为文档匹配评议专家的系统以及方法
CN115601742A (zh) * 2022-11-21 2023-01-13 松立控股集团股份有限公司(Cn) 一种基于图关系排名的尺度敏感车牌检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559320A (zh) * 2013-11-21 2014-02-05 北京邮电大学 对异质网络中对象进行排序的方法
CN106778894A (zh) * 2016-12-29 2017-05-31 大连理工大学 一种学术异构信息网络中作者合作关系预测的方法
US20180020250A1 (en) * 2015-09-08 2018-01-18 Tencent Technology (Shenzhen) Company Limited Recommendation information pushing method, server, and storage medium
CN108304496A (zh) * 2018-01-11 2018-07-20 上海交通大学 异构信息网中基于组合元路径的节点相似关系检测方法
CN109271582A (zh) * 2018-08-20 2019-01-25 东南大学 一种基于带属性元路径的个性化信息推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559320A (zh) * 2013-11-21 2014-02-05 北京邮电大学 对异质网络中对象进行排序的方法
US20180020250A1 (en) * 2015-09-08 2018-01-18 Tencent Technology (Shenzhen) Company Limited Recommendation information pushing method, server, and storage medium
CN106778894A (zh) * 2016-12-29 2017-05-31 大连理工大学 一种学术异构信息网络中作者合作关系预测的方法
CN108304496A (zh) * 2018-01-11 2018-07-20 上海交通大学 异构信息网中基于组合元路径的节点相似关系检测方法
CN109271582A (zh) * 2018-08-20 2019-01-25 东南大学 一种基于带属性元路径的个性化信息推荐方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
HUAN ZHAO 等: "Learning with Heterogeneous Side Information Fusion for Recommender Systems", 《HTTPS://ARXIV.ORG/ABS/1801.02411》 *
QINCHEN WU 等: "Combinational Meta-paths Mining for Correlation Relationship Evaluation in Bibliographic Networks", 《COLLABORATECOM 2017: COLLABORATIVE COMPUTING: NETWORKING, APPLICATIONS AND WORKSHARING》 *
WEI ZHANG 等: "Representation Learning in Academic Network Based on Research Interest and Meta-path", 《KSEM 2019: KNOWLEDGE SCIENCE, ENGINEERING AND MANAGEMENT》 *
WU T.等: "Multiple Meta Paths Combined for Vertex Embedding in Heterogeneous Networks", 《BIG DATA 2018: BIG DATA》 *
YITONG LI 等: "HRank: A Path based Ranking Framework in Heterogeneous Information Network", 《HTTPS://ARXIV.ORG/ABS/1403.7315》 *
张舒虹: "学术异构信息网络中的作者合作关系预测", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
徐红艳 等: "融合潜在狄利克雷分布与分析的用户相关性度量方法", 《计算机应用》 *
郭晨阳: "一种面向合作关系的异质信息网络链路预测方法", 《中国优秀博硕士学位论文全文数据库(硕士) 基础科学辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115971A (zh) * 2020-08-13 2020-12-22 中国科学院计算技术研究所 一种基于异质学术网络进行学者画像的方法及系统
CN112115971B (zh) * 2020-08-13 2024-01-09 中国科学院计算技术研究所 一种基于异质学术网络进行学者画像的方法及系统
CN112597535A (zh) * 2020-12-21 2021-04-02 中国科学院计算技术研究所 支持评审专家隐私保护的评审能力计算方法及系统
CN112597535B (zh) * 2020-12-21 2023-09-12 中国科学院计算技术研究所 支持评审专家隐私保护的评审能力计算方法及系统
CN113516094A (zh) * 2021-07-28 2021-10-19 中国科学院计算技术研究所 一种用于为文档匹配评议专家的系统以及方法
CN113516094B (zh) * 2021-07-28 2024-03-08 中国科学院计算技术研究所 一种用于为文档匹配评议专家的系统以及方法
CN115601742A (zh) * 2022-11-21 2023-01-13 松立控股集团股份有限公司(Cn) 一种基于图关系排名的尺度敏感车牌检测方法

Also Published As

Publication number Publication date
CN110609889B (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN110609889B (zh) 基于学术网络确定对象重要性排名及选择评审专家的方法和系统
Liu et al. Related pins at pinterest: The evolution of a real-world recommender system
Khan et al. Modelling to identify influential bloggers in the blogosphere: A survey
CN110516146B (zh) 一种基于异质图卷积神经网络嵌入的作者名字消歧方法
US8543532B2 (en) Method and apparatus for providing a co-creation platform
Åkerlind Growing and developing as a university researcher
Kong et al. Exploring dynamic research interest and academic influence for scientific collaborator recommendation
CN100583804C (zh) 基于专家值传播算法的社会网络专家信息处理系统及方法
CN109255586B (zh) 一种面向电子政务办事的在线个性化推荐方法
US20130103681A1 (en) Relevant persons identification leveraging both textual data and social context
US8032469B2 (en) Recommending similar content identified with a neural network
US20140186817A1 (en) Ranking and recommendation of open education materials
CN103020096A (zh) 检索装置和检索方法
JP6237378B2 (ja) 候補キュレーションアイテムをランキングする方法及びシステム
Lumbreras et al. Applying trust metrics based on user interactions to recommendation in social networks
KR101088710B1 (ko) 온라인 커뮤니티 사용자 간 상호작용 기반 온라인 커뮤니티 포스트 검색 방법, 장치 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체
US9058328B2 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
CN112115971A (zh) 一种基于异质学术网络进行学者画像的方法及系统
Zhao et al. An improved user identification method across social networks via tagging behaviors
Morgan et al. Automatically assembling a full census of an academic field
US20170371970A1 (en) Automated storyline content selection and qualitative linking based on context
Yeung et al. A k-nearest-neighbour method for classifying web search results with data in folksonomies
Karyukin et al. On the development of an information system for monitoring user opinion and its role for the public
Terán et al. A literature review for recommender systems techniques used in microblogs
Chang et al. Authorrank: a new scheme for identifying field-specific key researchers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant