CN115828895A - 学术影响力确定方法、介质和电子设备 - Google Patents
学术影响力确定方法、介质和电子设备 Download PDFInfo
- Publication number
- CN115828895A CN115828895A CN202211551240.1A CN202211551240A CN115828895A CN 115828895 A CN115828895 A CN 115828895A CN 202211551240 A CN202211551240 A CN 202211551240A CN 115828895 A CN115828895 A CN 115828895A
- Authority
- CN
- China
- Prior art keywords
- paper
- cited
- sentence
- papers
- influence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008451 emotion Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 description 7
- 230000002996 emotional effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000002906 microbiologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000004745 nonwoven fabric Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/382—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using citations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Abstract
本公开涉及一种学术影响力确定方法、介质和电子设备,属于电子技术领域,能够有效地评估学者和出版物的真正的学术影响力。一种学术影响力确定方法,包括:对引用论文进行数据预处理,得到预处理后的数据;根据所述预处理后的数据,确定各个所述参考文献论文对所述引用论文的影响类别和各个所述参考文献论文对所述引用论文的贡献排序;根据各个所述参考文献论文的影响类别和贡献排序,确定各个所述参考文献论文对所述引用论文的局部影响因子;以及根据所述局部影响因子和所述引用论文的全局影响因子,确定各个所述参考文献论文的全局影响因子。
Description
技术领域
本公开涉及电子技术领域,具体地,涉及一种学术影响力确定方法、介质和电子设备。
背景技术
如今,每年发表的论文数量有了很大的增长。然而,目前的学术影响力评价指标大多只注重论文数量,导致不能有效地评估学者和出版物的真正的学术影响力。
发明内容
本公开的目的是提供一种学术影响力确定方法、介质和电子设备,能够有效地评估学者和出版物的真正的学术影响力。
为了实现上述目的,本公开提供一种学术影响力确定方法,包括:对引用论文进行数据预处理,得到预处理后的数据,其中,所述引用论文指的是引用了参考文献的论文,所述预处理后的数据包括所述引用论文中参考文献列表中的参考文献论文的参考文献编号、所述参考文献论文的标题、所述参考文献论文的作者、所述参考文献论文的出版年份、所述参考文献论文与所述引用论文的作者之间的重叠、所述引用论文中的句子标识、所述引用论文中的章节类别、所述参考文献论文在所述引用论文中的引用次数、所述引用论文中包含所述参考文献编号的句子的文本、位于包含所述参考文献编号的句子前面的相关句子、位于包含所述参考文献编号的句子后面的相关句子、所述引用论文对所述参考文献论文的情感;根据所述预处理后的数据,确定各个所述参考文献论文对所述引用论文的影响类别和各个所述参考文献论文对所述引用论文的贡献排序;根据各个所述参考文献论文的影响类别和贡献排序,确定各个所述参考文献论文对所述引用论文的局部影响因子;以及根据所述局部影响因子和所述引用论文的全局影响因子,确定各个所述参考文献论文的全局影响因子。
可选地,所述对引用论文进行数据预处理,得到预处理后的数据,包括:对所述引用论文进行解析,确定所述引用论文的标题、所述引用论文的作者、所述引用论文的出版年份、所述引用论文中所述参考文献列表中的所述参考文献论文的参考文献编号、所述参考文献论文的标题、所述参考文献论文的作者、所述参考文献论文的出版年份、以及所述引用论文中的引文标记;对所述引用论文中的句子和章节分别进行分割,并确定分割得到的句子的标识和分割得到的章节的类别;在每个所确定的句子中对所述引文标记进行定位,以确定所述引用论文中包含所述参考文献编号的句子的文本;将所定位的所述引文标记与所述参考文献编号进行匹配,以确定每个所述参考文献论文在所述引用论文中的引用次数;根据所述引用论文的作者的集合和每个所述参考文献论文的作者的集合,确定每个所述参考文献论文与所述引用论文的作者之间的重叠。
可选地,所述对所述引用论文中的句子进行分割,并确定分割得到的句子的标识,包括:使用正则表达式匹配对所述引用论文中的句子进行分割;根据分割得到的句子的出现顺序,确定分割得到的句子的标识。
可选地,所述对所述引用论文中的章节进行分割,并确定分割得到的章节的类别,包括:基于关键词的匹配,对所述引用论文中的章节进行分割并确定分割得到的章节的类别。
可选地,所述对引用论文进行数据预处理,得到预处理后的数据,还包括:利用BERT分类器,迭代地确定所述引用论文中包含所述参考文献编号的句子的前后句子中、与包含所述参考文献编号的句子存在相关性的句子;将位于包含所述参考文献编号的句子前面的、与包含所述参考文献编号的句子存在相关性的句子确定为位于包含所述参考文献编号的句子前面的相关句子;将位于包含所述参考文献编号的句子后面的、与包含所述参考文献编号的句子存在相关性的句子确定为位于包含所述参考文献编号的句子后面的相关句子;
其中,所述BERT分类器是利用人工注释的数据集进行训练的分类器,所述人工注释的数据集中包含被标记为“相关”或“不相关”的句子对,而且每个所述句子对都是从单篇学术论文中产生的。
可选地,所述方法还包括:在以下任一迭代中止条件满足的情况下,所述BERT分类器的迭代中止:所述BERT分类器确定存在与包含所述参考文献编号的句子不相关的句子;正在被确定是否与包含所述参考文献编号的句子存在相关性的句子、与包含所述参考文献编号的句子不处于同一段落中。
可选地,所述根据所述预处理后的数据,确定各个所述参考文献论文对所述引用论文的影响类别,包括:由预训练的分类器根据所述预处理后的数据确定各个所述参考文献论文对所述引用论文的影响类别,其中,所述影响类别包括所述引用论文受到所述参考文献论文的高度影响、所述引用论文使用了所述参考文献论文中的研究、所述引用论文与所述参考文献论文是相关的研究、以及所述引用论文对所述参考文献论文是负面情感。
可选地,所述根据各个所述参考文献论文的影响类别和贡献排序,确定各个所述参考文献论文对所述引用论文的局部影响因子,包括:根据各个所述参考文献论文的影响类别和贡献排序,计算各个参考文献论文的贡献值,将所述贡献值归一化到[0,1]中,得到每个所述参考文献论文的局部影响因子。
可选地,所述方法还包括:确定待分析学术影响力的学者对所述学者发表的每篇论文的贡献;基于所述学者对所述学者发表的每篇论文的贡献以及每篇论文的全局影响因子,确定所述学者的学术影响因子。
本公开还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开任一项所述方法的步骤。
本公开还提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现本公开任一项所述方法的步骤。
通过上述技术方案,由于在确定全局影响因子时考虑了引用论文对参考文献论文的情感极性,因此能够有效地评估参考文献论文的真正学术价值。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开一种实施例的学术影响力确定方法的流程图。
图2示出了根据本公开实施例的对引用论文进行数据预处理的流程示意图。
图3示例性地示出了根据本公开实施例的全局影响因子传播方式示意图。
图4示例性地示出了初级引文和次级引文。
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
需要说明的是,本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
图1是根据本公开一种实施例的学术影响力确定方法的流程图。如图1所示,该方法可以包括以下步骤S11至S14。
在步骤S11中,对引用论文进行数据预处理,得到预处理后的数据。
在一些实施例中,引用论文指的是引用了参考文献的论文。举例而言,论文A引用了论文B和C,那么论文A就被称为引用论文,论文B和C就被称为参考文献论文或者被称为被引论文。
引用论文可以是字符串格式的论文,以便能够方便地进行预处理。如果引用论文不是字符串格式的论文,可以将其转换为字符串格式的论文。
表1示出了预处理后的数据的示意列表。
表1预处理后的数据
表1中,au_overlap的取值范围[0,1]指的是参考文献论文与引用论文的作者之间的重叠度,如果au_overlap的取值为0,则说明参考文献论文与引用论文的作者完全不重叠,如果au_overlap的取值为1,则说明参考文献论文与引用论文的作者完全重叠,如果au_overlap的取值位于0与1之间,则说明参考文献论文与引用论文的作者部分重叠。举例而言,如果引用论文的作者有5个,参考文献列表中的某一参考文献的作者中有2个是与引用论文的作者相同的,则参考文献论文与引用论文的作者之间的重叠度为2/5=0.4。
表1中,“引用论文中的章节类别”中的“相关工作介绍”通常是指引用论文中的引言章节或者其他背景相关的引文,“主体”包括引用论文的方法章节、实验章节等,“结论”表示引用论文的结论和其他部分。
表1中,“引用论文对cit_id的情感极性”指的是引用论文对参考文献论文的情感极性。
图2示出了根据本公开实施例的对引用论文进行数据预处理的流程示意图,其可以包括步骤S111至步骤S115。
如图2所示,首先,在步骤S111中,对引用论文进行解析,确定引用论文的标题、引用论文的作者、引用论文的出版年份、引用论文中参考文献列表中的参考文献论文的参考文献编号、参考文献论文的标题、参考文献论文的作者、参考文献论文的出版年份、以及引用论文中的引文标记。引文标记指的是引文中出现的参考文献编号,引文指的是引用论文中引用参考文献的文本。
在一些实施例中,可以利用flari(参见Johan S.G.Chu和James A.Evans于2021年在Proceedings of the National Academy of Sciences of the UnitedStates ofAmerica上发表的“Slowed canonical progress in largefields of science”)进行解析。
然后,在步骤S112中,对引用论文中的句子和章节分别进行分割,并确定分割得到的句子的标识和分割得到的章节的类别。
在一些实施例中,可以使用正则表达式匹配对引用论文中的句子进行分割,并根据分割得到的句子的出现顺序,确定分割得到的句子的标识。举例而言,在使用正则表达式匹配对引用论文中的句子进行分割之后,将出现顺序为2的句子的标识确定为2,并可以使用该句子标识对该句子进行标注。
在一些实施例中,可以基于关键词的匹配,对引用论文中的章节进行分割并确定分割得到的章节的类别。例如,关键词可以包括引言、方法、实验、结论等等,将引用论文中的章节标题与这些关键词进行匹配,就可以确定引用论文中各个章节的类别。章节的类别已经在表1中进行描述,在此不再赘述。
然后,在步骤S113中,在每个所确定的句子中对引文标记进行定位,以确定引用论文中包含参考文献编号的句子的文本。
也即,通过对引文标记进行定位,就能够确定引用论文中哪些句子是包含引文标记的,继而就能够确定这些句子的文本。
然后,在步骤S114中,将所定位的引文标记与参考文献编号进行匹配,以确定每个参考文献论文在引用论文中的引用次数。
举例而言,假设有N个句子中的引文标记均与同一参考文献编号相匹配,则可以确定该参考文献编号所对应的参考文献论文在引用论文中被引用了N次。
然后,在步骤S115中,根据引用论文的作者的集合和每个参考文献论文的作者的集合,确定每个参考文献论文与引用论文的作者之间的重叠。
在一些实施例中,可以通过以下公式来计算每个参考文献论文与引用论文的作者之间的重叠:
其中,A为引用论文的作者集合,B为某一参考文献论文的作者集合。
继续参考图2。对引用论文进行数据预处理的流程还可以包括以下步骤S116至S118。
在步骤S116中,利用BERT分类器,迭代地确定引用论文中包含参考文献编号的句子的前后句子中、与包含参考文献编号的句子存在相关性的句子。其中,如果两个句子讨论的对象的关联度比较大,例如在讨论同一个对象,或者所讨论的对象之间的关联度大于预设阈值,那么可以认为这两个句子是相关的,否则认为这两个句子是不相关的。通过考虑前后句之间的相关性,可以扩大对所引文献相关句子范围,以提高对所引论文工作评价精度。
BERT分类器是利用人工注释的数据集进行训练的分类器,人工注释的数据集中包含被标记为“相关”或“不相关”的句子对(例如,包含1000多个被标记为“相关”或“不相关”的句子对),而且每个句子对都是从单篇学术论文中产生的。经过人工注释的数据集训练的BERT分类器的准确性能够达到94.5%。
在步骤S117中,将位于包含参考文献编号的句子前面的、与包含参考文献编号的句子存在相关性的句子确定为位于包含参考文献编号的句子前面的相关句子。
在步骤S118中,将位于包含参考文献编号的句子后面的、与包含参考文献编号的句子存在相关性的句子确定为位于包含参考文献编号的句子后面的相关句子。
举例而言,为了获得包含参考文献编号的句子(也即cit_context)的上下文,可以将上述的BERT分类器迭代地应用于句子对(S[sent_id-i],S[sent_id]),其中S代表引用论文中所有句子的列表,此处的sent_id指的是包含参考文献编号的句子,i从1开始增加。一旦BERT分类器报告有“不相关”的句子对,迭代就会中止,则将S[sent_id-i:sent_id]作为context_a。另一个迭代中止的标准是,S[sent_id-i]应该总是与S[sent_id]处于同一段落。对句子对(S[sent_id+i],S[sent_id])执行类似迭代过程,得到context_b。
另外,对于“sen_label”,也即引用论文对cit_id的情感极性,可以通过预训练的分类器来确定。例如,可以将预先被标注为正面情感、中性情感、负面情感的样本输入到分类器中进行训练,训练完成之后就可以用来对引用论文对参考文献的情感极性进行分类。
通过图2的技术方案,就能够获取到表1中所示的所有预处理后的数据。
在得到了所有预处理后的数据之后,就可以执行图1中的步骤S12。在步骤S12中,根据预处理后的数据,确定各个参考文献论文对引用论文的影响类别和各个参考文献论文对引用论文的贡献排序。
在一些实施例中,可以由预训练的分类器根据预处理后的数据确定各个参考文献论文对引用论文的影响类别。
例如,假设对于一篇参考文献,在引用论文中总共有5处引用了该参考文献,则可以利用预训练的分类器分别确定这5处引用的影响类别,然后综合考虑这5处引用的影响类别(例如加权平均或者其他处理),得到该篇参考文献对于引用论文的影响类别。
再例如,在确定影响类别的过程中,还可以考虑引用论文对参考文献的情感极性。举例而言,对于一篇参考文献而言,针对该篇参考文献的引文中,具有正面极性的引文越多,则说明该篇参考文献对引用论文的影响越大,反之,具有负面极性的引文越多,则说明该篇参考文献对引用论文的影响越小。
预训练的分类器可以是Naive Bayesian分类器。影响类别可以包括引用论文受到参考文献论文的高度影响(例如,参考文献论文给引用论文带来了灵感,则可以认为引用论文受到参考文献论文的高度影响)、引用论文使用了参考文献论文中的研究、引用论文与参考文献论文是相关的研究、以及引用论文对参考文献论文是负面情感(例如引用论文反驳了参考文献论文)。
在一些实施例中,可以使用预训练的排名模型来预测参考文献论文对引用论文的贡献排序。预训练的排名模型可以是基于LambdaMART的。LambdaMART是LambdaRank的提升树版本,解决了排名模型中使用的非光滑成本函数的梯度问题。
接下来描述如何预测参考文献论文对引用论文的贡献排序。令Cij表示引用论文中关于第i篇参考文献论文的引文中的第j个引文。向预训练的排名模型中输入形状为(∑in_citi,4)的矩阵,其中,n_citi表示第i篇参考文献论文在引用论文中的引用次数,4代表特征四元数(au_overlap,n_cit,cit_word,sen_label)。其中,cit_word被计算为context_a+cite_text+context_b中的单词总数。然后,预训练的排名模型对每一次引文Cij单独计算得分sij,对引用论文中关于第i篇参考文献论文的所有引文的得分进行平均,得到第i篇参考文献论文的得分参考文献论文的得分体现了参考文献论文对引用论文的贡献大小,因此,可以根据每篇参考文献论文的得分对每篇参考文献论文进行排名,即可得到每个参考文献论文对引用论文的贡献排序。
在一些实施例中,可以用标签来表示不同的影响类别,如表2所示,其中,标签数值越大,代表对引用论文的贡献越大。
标签 | 描述 |
3 | 对参考文献论文进行了扩展;受到参考文献论文的高度影响 |
2 | 使用参考文献论文中的研究 |
1 | 引用论文与参考文献论文是相关的研究 |
0 | 引用论文对参考文献论文是负面情感 |
表2影响类别
在步骤S13中,根据各个参考文献论文的影响类别和贡献排序,确定各个参考文献论文对引用论文的局部影响因子。
在一些实施例中,可以根据各个参考文献论文的影响类别和贡献排序,计算每个参考文献论文的贡献值,将每个参考文献论文的贡献值归一化到[0,1]中,得到每个参考文献论文的局部影响因子。也即,贡献值是根据参考文献论文的影响类别和贡献排序确定的。举例而言,如果一篇参考文献论文对引用论文的影响类别是高度影响而且其贡献排序非常靠前,则该篇参考文献论文对引用论文的贡献值越大。例如,可以使用预训练的卷积神经网络来确定每个参考文献论文对引用论文的贡献值。
在步骤S14中,根据局部影响因子和引用论文的全局影响因子,确定各个参考文献论文的全局影响因子。
在一些实施例中,用A表示全局影响因子AFA被初始化为1的引用论文,用RA表示A的所有参考文献论文,用表示A的参考文献论文对A的局部影响因子,例如表示A的参考文献论文i对A的局部影响因子。用CA表示引用A的所有引用论文的集合,则,对于j∈CA而言,表示A对j的局部影响因子。因此,A的全局影响因子被更新为:
也即,A的全局影响因子是A对引用A的引用论文的局部影响因子与该引用论文的全局影响因子的乘积之和。
通过前面所述的全局影响因子的传播更新方式,就可以得到一个数据库中的所有论文的全局影响因子。图3示例性地示出了根据本公开实施例的全局影响因子传播方式示意图,也即,先将数据库中的其中一篇论文作为引用论文,更新该引用论文的所有参考文献论文的全局影响因子,然后将该引用论文的参考文献论文作为新的引用论文,继续更新新的引用论文的参考文献论文的全局影响因子,如此进行传播,即可对数据库中的所有论文的全局影响因子进行更新。
通过采用上述技术方案,由于在确定全局影响因子时考虑了引用论文对参考文献论文的情感极性,因此能够有效地评估参考文献论文的真正学术价值。
在一些实施例中,根据本公开实施例的方法还可以包括:确定待分析学术影响力的学者对学者发表的每篇论文的贡献;基于学者对学者发表的每篇论文的贡献以及每篇论文的全局影响因子,确定学者的学术影响因子。
举例而言,对于发表了论文集Pa的作者a,其对论文i∈Pa的贡献Cia∈[0,1],作者a的学术影响因子是:
通过上述技术方案,就能够有效地评估一个学者的学术影响力。
接下来选择一些学者和他们的出版物作为目标,并基于初级引文和次级引文关系,来比较根据本公开实施例的学术影响力确定方法与相关技术中的学术影响力确定方法的优劣。图4示例性地示出了初级引文和次级引文。如图4所示,对于论文A而言:论文B和C是直接引用论文A的,因此将论文B和C称为初级引用论文;由于论文D和E均是间接引用论文A的,因此论文D被称为二级引用论文,论文E被称为三级引用论文。
让学者Y表示某个学者,并将展示学者Y和图灵奖得主Pat.Hanrahan的学术影响力差异。需要强调的是,Pat.Hanrahan比学者Y更有影响力,不仅是因为Pat.Hanrahan获得了图灵奖,而且是基于可靠的引文统计,例如,He等人(参见Kaiming He、Xiangyu Zhang、ShaoqingRen和Jian Sun于2015年发表的“Deep ResidualLearning for ImageRecognition”,arXiv:1512.03385[cs.CV])将学者Y的一篇论文作为基线,在11个基线中只比一个基线表现好。表3列出了学者Y和Pat.Hanrahan的出版物数量和引用次数。表4显示了Aminer、Google Scholar、Semantic Scholar和本公开的学术影响力确定方法对学者Y和Pat.Hanrahan的评价结果。很明显,学者Y比Pat.Hanrahan更高产。然而,这些数字掩盖了一些重要的事实,即并不是所有的论文都有同等的影响力,也不是所有的引文都意味着与被引论文相一致。表4中,h代表h-指数,g代表g-指数,i10代表i10-指数,HIC是指高度影响力引文的数量。h-指数,也被称为指数h,是由Jorge E.Hirsch提出的,其定义是引用次数高于或等于h的论文数量。g-指数的定义是:使得前g篇文章总共收到至少g2次引用的最大数量。Google Scholar提出了i10-指数,即至少被引用10次的出版物的数量。h-指数、g-指数、i10-指数都是从引文中得出的,并没有揭示出引文中的真相。Semantic Scholar利用具有RBF核的SVM和随机森林,将引文分为4类:高度影响力引文、背景引文、方法引文和结果引文。Semantic Scholar使用的特征是直接引文总数、每节直接引文数、间接引文总数和每节间接引文数、作者重叠、被认为有帮助、引文出现在表格和标题中、1/参考文献数、论文引文数/所有引文、摘要之间的相似性、PageRank、传递闭包之后的总引用论文数以及被引论文的领域。从78663篇论文中收集了引用了学者Y的XX篇论文,从56383篇论文中收集了引用了Patrick Hanrahan的XX篇论文。只利用初级引用论文,根据本公开实施例的学术影响力确定方法得到学者Y和Patrick Hanrahan的全局影响因子分别为0.40和0.52。PatrickHanrahan比学者Y的全局影响因子高30%。而Aminer、GoogleScholar、Semantic Scholar的评价结果显示,学者Y比Patrick Hanrahan更有生产力和影响力。结果表明,根据本公开实施例的学术影响力确定方法能够识别一篇论文或一个学者的真正价值。
表3学者Y和Hanrahan的出版物数量和被引用次数
表4对学者Y和Pat.Hanrahan的评价结果
另外,一系列的实验证明根据本公开实施例的学术影响力确定方法是合理。
首先,实验证明,给定一篇论文中的参考文献论文的集合,从该参考文献论文集合中移除任何一个参考文献论文都不会改变剩余参考文献论文的相关顺序。而当每次移除一个参考文献论文时,剩余的参考文献论文也会保持相关顺序。
其次,实验证明,在一定的论文池下,最终的得分是稳定的,且对传播顺序不敏感。根据本公开的学术影响力确定方法的策略是从默认全局影响因子1.0开始,遍历每篇论文,并相继地更新全局影响因子。实验证明,无论更新顺序如何,每篇论文的最终得分都是一样的。
进一步地,实验还证明,根据本公开实施里的学术影响力确定方法还满足引文跨度的要求。在实验中,对大约345个引用句子的引文跨度进行注释,并将其作为数据集来训练和测试基线模型。首先,使用SpaCy(参见BesnikFetahu、KatjaMarkert和AvishekAnand,Fine Grained CitationSpan for References in Wikipedia,Proceedings of the 2017Conference on EmpiricalMethods in Natural Language Processing,Association forComputationalLinguistics,Copenhagen,Denmark,1990–1999,https://doi.org/10.18653/v1/D17-1212)提供的分词器工具将每个引用句子的文本分割成令牌,并使用标记器和解析器工具为每个令牌号分配部分语音标记和依赖标签。然后,提取表5中列出的特征作为基线模型的输入。分别使用SVM、Logistic Regression和CRF进行训练。使用10倍交叉验证进行训练和测试。表6列出了三个模型的精度、召回率和F1。
表5用于引文跨度的特征
表6引文跨度的三种不同模型的结果
图5是根据一示例性实施例示出的一种电子设备700的框图。如图5所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的学术影响力确定方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的学术影响力确定方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的学术影响力确定方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的学术影响力确定方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的学术影响力确定方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (11)
1.一种学术影响力确定方法,其特征在于,包括:
对引用论文进行数据预处理,得到预处理后的数据,其中,所述引用论文指的是引用了参考文献的论文,所述预处理后的数据包括所述引用论文中参考文献列表中的参考文献论文的参考文献编号、所述参考文献论文的标题、所述参考文献论文的作者、所述参考文献论文的出版年份、所述参考文献论文与所述引用论文的作者之间的重叠、所述引用论文中的句子标识、所述引用论文中的章节类别、所述参考文献论文在所述引用论文中的引用次数、所述引用论文中包含所述参考文献编号的句子的文本、位于包含所述参考文献编号的句子前面的相关句子、位于包含所述参考文献编号的句子后面的相关句子、所述引用论文对所述参考文献论文的情感;
根据所述预处理后的数据,确定各个所述参考文献论文对所述引用论文的影响类别和各个所述参考文献论文对所述引用论文的贡献排序;
根据各个所述参考文献论文的影响类别和贡献排序,确定各个所述参考文献论文对所述引用论文的局部影响因子;以及
根据所述局部影响因子和所述引用论文的全局影响因子,确定各个所述参考文献论文的全局影响因子。
2.根据权利要求1所述的方法,其特征在于,所述对引用论文进行数据预处理,得到预处理后的数据,包括:
对所述引用论文进行解析,确定所述引用论文的标题、所述引用论文的作者、所述引用论文的出版年份、所述引用论文中所述参考文献列表中的所述参考文献论文的参考文献编号、所述参考文献论文的标题、所述参考文献论文的作者、所述参考文献论文的出版年份、以及所述引用论文中的引文标记;
对所述引用论文中的句子和章节分别进行分割,并确定分割得到的句子的标识和分割得到的章节的类别;
在每个所确定的句子中对所述引文标记进行定位,以确定所述引用论文中包含所述参考文献编号的句子的文本;
将所定位的所述引文标记与所述参考文献编号进行匹配,以确定每个所述参考文献论文在所述引用论文中的引用次数;
根据所述引用论文的作者的集合和每个所述参考文献论文的作者的集合,确定每个所述参考文献论文与所述引用论文的作者之间的重叠。
3.根据权利要求2所述的方法,其特征在于,所述对所述引用论文中的句子进行分割,并确定分割得到的句子的标识,包括:
使用正则表达式匹配对所述引用论文中的句子进行分割;
根据分割得到的句子的出现顺序,确定分割得到的句子的标识。
4.根据权利要求2所述的方法,其特征在于,所述对所述引用论文中的章节进行分割,并确定分割得到的章节的类别,包括:
基于关键词的匹配,对所述引用论文中的章节进行分割并确定分割得到的章节的类别。
5.根据权利要求2所述的方法,其特征在于,所述对引用论文进行数据预处理,得到预处理后的数据,还包括:
利用BERT分类器,迭代地确定所述引用论文中包含所述参考文献编号的句子的前后句子中、与包含所述参考文献编号的句子存在相关性的句子;
将位于包含所述参考文献编号的句子前面的、与包含所述参考文献编号的句子存在相关性的句子确定为位于包含所述参考文献编号的句子前面的相关句子;
将位于包含所述参考文献编号的句子后面的、与包含所述参考文献编号的句子存在相关性的句子确定为位于包含所述参考文献编号的句子后面的相关句子;
其中,所述BERT分类器是利用人工注释的数据集进行训练的分类器,所述人工注释的数据集中包含被标记为“相关”或“不相关”的句子对,而且每个所述句子对都是从单篇学术论文中产生的。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:在以下任一迭代中止条件满足的情况下,所述BERT分类器的迭代中止:
所述BERT分类器确定存在与包含所述参考文献编号的句子不相关的句子;
正在被确定是否与包含所述参考文献编号的句子存在相关性的句子、与包含所述参考文献编号的句子不处于同一段落中。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述根据所述预处理后的数据,确定各个所述参考文献论文对所述引用论文的影响类别,包括:
由预训练的分类器根据所述预处理后的数据确定各个所述参考文献论文对所述引用论文的影响类别,其中,所述影响类别包括所述引用论文受到所述参考文献论文的高度影响、所述引用论文使用了所述参考文献论文中的研究、所述引用论文与所述参考文献论文是相关的研究、以及所述引用论文对所述参考文献论文是负面情感。
8.根据权利要求1所述的方法,其特征在于,所述根据各个所述参考文献论文的影响类别和贡献排序,确定各个所述参考文献论文对所述引用论文的局部影响因子,包括:
根据各个所述参考文献论文的影响类别和贡献排序,计算各个参考文献论文的贡献值,将所述贡献值归一化到[0,1]中,得到每个所述参考文献论文的局部影响因子。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定待分析学术影响力的学者对所述学者发表的每篇论文的贡献;
基于所述学者对所述学者发表的每篇论文的贡献以及每篇论文的全局影响因子,确定所述学者的学术影响因子。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。
11.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-9中任一项所述方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202263300197P | 2022-01-17 | 2022-01-17 | |
US63/300,197 | 2022-01-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115828895A true CN115828895A (zh) | 2023-03-21 |
Family
ID=85545175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211551240.1A Pending CN115828895A (zh) | 2022-01-17 | 2022-12-05 | 学术影响力确定方法、介质和电子设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230252066A1 (zh) |
CN (1) | CN115828895A (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6886010B2 (en) * | 2002-09-30 | 2005-04-26 | The United States Of America As Represented By The Secretary Of The Navy | Method for data and text mining and literature-based discovery |
US20060149720A1 (en) * | 2004-12-30 | 2006-07-06 | Dehlinger Peter J | System and method for retrieving information from citation-rich documents |
US7747630B2 (en) * | 2006-09-28 | 2010-06-29 | Amazon Technologies, Inc. | Assessing author authority and blog influence |
US7953724B2 (en) * | 2007-05-02 | 2011-05-31 | Thomson Reuters (Scientific) Inc. | Method and system for disambiguating informational objects |
US9129017B2 (en) * | 2009-12-01 | 2015-09-08 | Apple Inc. | System and method for metadata transfer among search entities |
JP5992404B2 (ja) * | 2010-06-15 | 2016-09-14 | トムソン ルーターズ (サイエンティフィック) エルエルシー | 参考文献検証のための引用処理、提示および移送用のシステムおよび方法 |
US8396889B2 (en) * | 2010-08-26 | 2013-03-12 | Lexisnexis, A Division Of Reed Elsevier Inc. | Methods for semantics-based citation-pairing information |
US10635705B2 (en) * | 2015-05-14 | 2020-04-28 | Emory University | Methods, systems and computer readable storage media for determining relevant documents based on citation information |
EP3096277A1 (en) * | 2015-05-19 | 2016-11-23 | ResearchGate GmbH | Enhanced online user-interaction tracking |
-
2022
- 2022-12-05 CN CN202211551240.1A patent/CN115828895A/zh active Pending
-
2023
- 2023-01-13 US US18/096,779 patent/US20230252066A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230252066A1 (en) | 2023-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
WO2021051521A1 (zh) | 获取应答信息的方法、装置、计算机设备及存储介质 | |
CN111291156B (zh) | 一种基于知识图谱的问答意图识别方法 | |
US20150095017A1 (en) | System and method for learning word embeddings using neural language models | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN111191275A (zh) | 敏感数据识别方法、系统及其装置 | |
CN111460820A (zh) | 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN110992988B (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
CN113157859A (zh) | 一种基于上位概念信息的事件检测方法 | |
CN114003709A (zh) | 一种基于问句匹配的智能问答系统和方法 | |
CN115146629A (zh) | 一种基于对比学习的新闻文本与评论相关性分析方法 | |
CN110795942A (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN112307364B (zh) | 一种面向人物表征的新闻文本发生地抽取方法 | |
Hussain et al. | A technique for perceiving abusive bangla comments | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN114742062B (zh) | 文本关键词提取处理方法及系统 | |
CN115828895A (zh) | 学术影响力确定方法、介质和电子设备 | |
Sun et al. | Detecting new words from Chinese text using latent semi-CRF models | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN112989001B (zh) | 一种问答处理方法、装置、介质及电子设备 | |
Singh et al. | Deep neural based name entity recognizer and classifier for English language | |
CN113076740A (zh) | 政务服务领域的同义词挖掘方法及装置 | |
Li et al. | Attention-based LSTM-CNNs for uncertainty identification on Chinese social media texts | |
CN116340481B (zh) | 自动回复提问的方法及装置、计算机可读存储介质、终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |