CN111666472A

CN111666472A - 一种学术链节点的智能识别方法

Info

Publication number: CN111666472A
Application number: CN202010534572.3A
Authority: CN
Inventors: 郑远攀; 陈广玉; 王泽宇; 吴庆岗
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-09-15
Anticipated expiration: 2040-06-12
Also published as: CN111666472B

Abstract

本发明提出了一种学术链节点的智能识别方法，其步骤为：首先，选择检索主题词，按照被引频次降序在科技文献数据库网站上爬取文献数据，得到文献列表链接以及施引文献列表链接；其次，抽取施引文献链接引用文献链接中的语句，并利用自然语言处理方法对语句进行三要素识别；最后，将完整的三要素保存为文献链接的节点信息，重复上述过程，得到文献列表链接中的所有文献链接的节点信息。本发明能够快速、有效地定位关键语句，避免了遍历全文，解决了学术链节点识别的实时性和效率问题，实现了学术链节点信息的结构化封装，为构建学术链数据库提供了通用方法。

Description

一种学术链节点的智能识别方法

技术领域

本发明涉及计算机自然语言处理技术领域，特别是指一种学术链节点的智能识别方法。

背景技术

20世纪80年代末，影响因子及SCI(Science Citation Index)作为重要的科研绩效评价标准引入国内，学者对其关注程度逐渐提高。然而，随着学术评价体系的不断发展，影响因子及SCI的局限性和片面性也越来越明显。在发明之初，SCI(科学引文索引)主要用于新文献的检索，影响因子主要用来帮助图书馆决定购买哪本期刊。一般而言，一本期刊的影响因子越高，被引用的次数就越多，然而，目前它已经演变成为判断研究人员及其论文质量的“最”重要标准，这种分析过于以偏概全，甚至造成了以刊评文的现象。

2020年2月17日，科技部印发《关于破除科技评价中“唯论文”不良导向的若干措施(试行)》的通知，同年2月20日，教育部、科技部印发《关于规范高等学校SCI论文相关指标使用树立正确评价导向的若干意见》通知，其中指出影响因子等不是评价学术水平与创新贡献的直接依据，而如今却存在把高影响因子期刊等作为根本目标的异化现象，学术评价重点应该是论文的创新水平和科学价值，因此鼓励改进科技评价体系。

实际上，学术论文是为了发布科学研究的成果，要判断其价值，首先要看其选题是否为该领域的重要问题，其次要看其解决问题的程度，即是否有原创成果，这才是学术影响力的源泉。而学术论文之间的关系，最重要的、也是本质的，是学术成果的传承和传播。学术创新是一个不断积累、传承和突破的过程，这一过程通过学术论文记录下来，这些记录呈“链”状模式不断扩张，并表现出明显的连续性、集聚性、扩散性与合作性。这就是所谓的“学术传承效应”或“学术链”。有了学术链，论文的学术价值评价将直接基于论文本身而不是论文所出自的期刊。

2016年中国科学院和中国国家自然科学基金委主办的期刊《科学通报》发表了题为《对话冯长根：用学术影响力评价学术论文》的文章，提倡在建立学术传承效应(学术链数据库)的基础上科学合理地评价学术论文。无独有偶，2017年3月15日《人民日报》第18版刊载了院中国科协副主席冯长根教授的关于提倡基于学术链进行学术评价的文章《一种自然而然的科技成果评价方法值得推广》。

可见，由学术评论句及其关系结构组成的学术链体系将是未来科技成果评价的新导向。

而目前关于学术链节点的识别方法存在诸多问题。如今存在的学术评论句的识别方法可以分为两种：一是北京理工大学冯长根教授带领的“学术链”研究团队在进行人工识别，很多高校的研究生都正在参与此项工作，人工识别过程主要是以期刊为单位，逐篇论文进行识别，通过人眼逐句判断是否符合要求，若符合，则须找全论文及其作者的相关信息并填写在团队预先制订的表格里，后续团队需要审核其是否符合要求。这种识别方法全程需要人工参与，不仅费时费力，而且效率低，面对层出不穷的学术论文，此方法缺乏实时性。并且依靠个人分析并判断，主观性太强，易造成较高遗漏率。二是中国医学科学院医学信息研究所郭倩影等人分别在2018年提出的以外部特征分析和内容特征分析方法结合的“学术链”识别框架，2019年提出的基于引文网络的学术传承性文献识别框架2.0。这两种方法首先均需要RPYS和muti-RPYS、HistCite等软件工具的辅助，通过相关阈值设定，筛选出具有长期影响力或者被领域内大量文献引用的文献作为候选文献，然后进行人工识别学术评论句。该方法通过自定义长期引用时长等阈值，主观性太强，很容易将符合要求的文献遗漏。

发明内容

针对上述背景技术中存在的不足，本发明提出了一种学术链节点的智能识别方法，解决了现有学术链节点识别技术的识别准确率低、实时性差的技术问题。

本发明的技术方案是这样实现的：

一种学术链节点的智能识别方法，其步骤如下：

S1、用户根据检索需要确定检索主题词，按照被引频次降序在科技文献数据库网站上检索文献数据，得到文献列表链接A＝{a(1),a(2),…,a(i),…,a(k)}以及文献链接a(i)对应的施引文献列表链接B(i)＝{b(1),b(2),…,b(j),…,b(l_i)}，其中，k表示文献列表的数量，l_i施引文献列表的数量；

S2、对步骤S1中的文献列表链接A中的所有文献链接进行爬取，将文献链接对应的文章被引频次大于0的文献列表链接A中的前n个文献链接a(i)以及施引文献列表链接B(i)保存至待深度爬取的URL队列组合{a(i),B(i)}中，其中，n≤k；

S3、对于文献链接a(i)和施引文献列表链接B(i)，抽取施引文献链接b(j)中与文献链接a(i)中相关的语句；

S4、利用自然语言处理方法对步骤S3中得到的语句进行三要素识别，其中，三要素包括标志词、作者名、时间词；

S5、如果三要素均存在，则将三要素保存为文献链接a(i)的节点信息，并计算文献链接a(i)的学术评价指标F1，否则，执行步骤S6；

S6、j＝j+1，如果j≤l_i，循环执行步骤S3至S6，否则，计算文献链接a(i)的学术评价指标F2、F3，执行步骤S7；

S7、i＝i+1，如果i≤n，循环执行步骤S3至S7，否则，文献列表链接A中的所有文献链接被爬取完成，得到文献列表链接A中的所有文献链接的节点信息。

所述步骤S4中利用自然语言处理方法对步骤S3中得到的语句进行三要素识别的方法为：

S41、模糊匹配标志词：

S41.1、将英文输入文本格式转化为字符串数组，数组中的每一个元素对应一个英文单词；

S41.2、将滑动距离设为1，滑动窗口的长度为N，将字符串数组从左到右依次滑动得到M组候选词组，其中，N表示标志词词典中所有词的最大长度；

S41.3、将M组候选词组分别与标志词词典中的词进行模糊匹配；模糊匹配是指将候选词组与标志词词典中的词进行匹配，因候选词组中的词的长度均为N，而标志词词典中的词的长度为1～N，故将所有词进行左对齐匹配，如果候选词组的前n个单词与词典中的某个长度为n的标志词相同，即视为匹配成功，候选词组的后N-n个词不做匹配工作，其中，1≤n≤N；

S41.4、若M组候选词组中有一组候选词组与标志词词组匹配成功，执行步骤S42，进行作者名和时间词的识别；若匹配失败，则删除语句；

S42、作者名、时间词的识别：

S42.1、数据集的获取：在学术论文数据库中爬取的不同领域的学术论文，对学术论文进行文本预处理；

S42.2、采用BIOES标注方法定义的标签集对预处理后的学术论文进行命名实体标注，得到数据集，其中，命名实体包括作者名、时间词；

S42.3、分析作者名和时间词的特征信息，并利用特征信息构造特征函数，借助特征信息构造特征模板，通过训练确定每种特征信息的权重，合理的标记在训练样本中，特征信息出现的次数多，对应的权重就高，其中，特征信息包括标点符号、关键字、指示词、方向词、位置词、中心词、词性和句法等；

S42.4、将特征函数融入CRF模型中，得到改进的CRF模型；

S42.5、随机选取数据集中的一部分数据作为训练集，将训练集输入改进的CRF模型中进行训练，得到命名实体识别模型；

S42.6、将数据集中的其余数据作为测试集，并将测试集输入命名实体识别模型中进行测试，重复执行步骤S42.5，得到最优的识别模型；

S42.7、将语句输入最优的识别模型中进行识别，输出作者名和时间词。

所述命名实体识别模型为：

其中：X为观测序列，Y为输出标注序列，λ_j是特征函数F_j(Y,X)的权重，1/Z(X)是归一化因子。

所述特征函数F_j(Y,X)包含了转移函数和状态函数，则命名实体识别模型转化为：

其中，λ_k为转移函数的权值，μ_l为状态函数的权值，t_k(y_i-1,y_i,i)为转移函数，s_l(y_i,X,i)为状态函数。

本技术方案能产生的有益效果：

1)本发明针对现有的学术链节点识别方法存在的问题，通过使用大数据技术，为学术链节点识别提供了一种自动化、智能化方法。

2)本发明能够快速、准确和有效定位关键语句，进行识别与匹配，避免了遍历全文，解决了学术链节点识别的实时性和效率问题，实现了学术链节点信息的结构化封装，为构建学术链数据库提供了通用方法。

3)本发明结合学术评价性语句(学术评论句)的特点，首先判断是否存在标志词，可快速的剔除不符合要求的文献，并将识别目标的构造特征加入机器学习模型进行学习与训练，进而不断扩大特征词典，从而降低遗漏率，提高覆盖率。

4)本发明能够极大地推进新的科技成果评价方法(基于学术传承和学术影响力的采用学术链理论的新型科技论文评价技术)的实现和推广应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图；

图2为本发明的节点信息识别框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种学术链节点的智能识别方法，其步骤如下：

S3、对于文献链接a(i)和施引文献列表链接B(i)，抽取施引文献链接b(j)中与引用文献链接a(i)相关的语句；

S4、利用自然语言处理方法(Natural Language Processing，NLP)对步骤S3中得到的语句进行三要素识别，其中，三要素包括标志词、作者名、时间词；如图2所示，三要素的识别方法为：

S41、模糊匹配标志词：

S41.3、将M组候选词组分别与标志词词典中的词进行模糊匹配；模糊匹配是指：将候选词组与标志词词典中的词进行匹配，由于候选词组中的词的长度均为N，而标志词词典中的词的长度为1～N，故将所有词进行左对齐匹配，如果候选词组的前n个单词与词典中的某个长度为n的标志词相同，即视为匹配成功，候选词组的后N-n个词不做匹配工作，其中，1≤n≤N；

例：“The CGP framework was originally proposed by Lentine in 2010.”这句话可以转换成数组(The，CGP，framework，was，originally，proposed，by，Lentine，in，2010)，以每个单词作为首词进行匹配，假设N为5，则待匹配的候选词组有6组：

(The，CGP，framework，was，originally)，

(CGP，framework，was，originally，proposed)

(framework，was，originally，proposed，by)

(was，originally，proposed，by，Lentine)

(originally，proposed，by，Lentine，in)

(proposed，by，Lentine，in，2010)

依次将6组候选词组与标志词词典进行匹配，若某组词组匹配成功，则视为标志词识别成功，停止匹配词组，进行作者名、时间词的识别；若匹配失败，则视为识别三要素失败，将当前语句删除，对下一施引文献链接的语句进行识别。

标志词词典目前由人工识别总结得出标志词词库构成，该词典会根据后续识别工作的继续进行不断扩充，并且根据同义词典WordNet可生成目前未被总结出，但与目前的标志词同义的词或词组，形成新的标志词。

S42、作者名、时间词的识别：

S42.1、数据集的获取：在学术论文数据库中爬取的不同领域的学术论文，对学术论文进行文本预处理；具体方法为：

S42.1.1、拼写检查：检查学术论文中的文本的单词是否有误，若有误，做出正确修改；

S42.1.2、分句：将文本拆分成句子；

S42.1.3、分词：将句子拆分成单词；

S42.1.4、扩展缩略词：将缩写的单词扩展成完整形式。

S42.3、分析作者名和时间词的特征信息，并利用特征信息构造特征函数，其中，特征信息包括标点符号、关键字、指示词、方向词、位置词、中心词、词性和句法，借助特征信息构造特征模板，通过训练确定每种特征信息的权重，合理的标记在训练样本中，特征信息出现的次数多，对应的权重就高，(比如：当前词类别，当前词左边第一个词类别，当前词左边第一个词形，当前词是否包含数字等均属于特征信息)；

例：The CGP framework was originally proposed by Lentine in 2010.

“by”可作为作者名的上文，“in”可作为时间词的上文。

特征信息标注示例：

观测序列

Chris

Lewis

works

at

Tsinghua

University

in

Beijing

.

标注序列

B-PER

I-PER

O

B-ORG

I-ORG

O

S-LOC

O

标签列表如下:

(1)B，即Begin，表示开始；

(2)I，即Inside，表示中间；

(3)E，即End，表示结尾；

(4)S，即Single，表示单个字符；

(5)O，即Other，表示其他，用于标记无关字符；

将每个元素标注为“B-X”、“I-X”或者“O”。其中，“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头，“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O”表示不属于任何类型。

S42.4、将特征函数融入CRF模型中，得到改进的CRF模型；

S42.5、将训练集输入改进的CRF模型中进行训练，得到命名实体识别模型；

例：一个实体词不可能有两个开始词，“两个相连的B结构打负分”可对应一条转移特征函数；“把某个词标注为S可以打正分”可对应一条状态特征函数。

定义一个特征函数集，每个特征函数都以整个句子s，当前位置i，位置i和i-1的标签为输入。然后为每一个特征函数赋予一个权重，然后针对每一个标注序列I，对所有的特征函数加权求和，必要的话，可以把求和的值转化为一个概率值(即归一化)。

S42.6、将测试集输入命名实体识别模型中进行测试，重复执行步骤S42.5，得到最优的识别模型；测试就是针对每句话的多种标注序列中，选出最靠谱的标注序列作为句子的标注，即目标是求解arg max_yP(y|x)，通过训练和测试可以得到测试结果的最大值对应的模型为最优的识别模型。

S5、如果三要素均存在，则将三要素保存为文献链接a(i)的节点信息，并计算文献链接a(i)的学术评价指标F1，否则，执行步骤S6；如果一篇学术论文在发表后，对该论文进行学术传承性评价的论文有h篇，则学术评价指标F1等于h。学术评价指标F1体现创新性，该指数越高，说明该论文具备越高的学术创新性。

S6、j＝j+1，如果j≤l_i，循环执行步骤S3至S6，否则，计算文献链接a(i)的学术评价指标F2、F3，执行步骤S7；学术评价指标F2涉及到一个具体课题在逐年发展和推进中形成的“学术链”的节点，学术评价指标F2是指某一篇论文在发表以后，出现后续“节点”的数量。即，该节点后续节点数之和就是F2的值。学术评价指标F2体现某论文在某专业领域发展过程中的重要程度，也体现了某论文所作研究在某课题领域发展的时间轴中的位置，该指数越高，说明该论文对于该领域发展越重要，而且该论文所做的研究年份越久远。学术评价指标F3能够体现文献的传承性，如果一篇论文中引用了1句学术评论句，这篇论文的学术评价指标F3就是1。学术评价指标F3体现传承性，该指数越高，说明该论文对该领域内之前的学术成果研究的越深入，挖掘出了具有较高学术影响力的论文成果，就体现越高的传承性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种学术链节点的智能识别方法，其特征在于，其步骤如下：

2.根据权利要求1所述的学术链节点的智能识别方法，其特征在于，所述步骤S4中利用自然语言处理方法对步骤S3中得到的语句进行三要素识别的方法为：

S41、模糊匹配标志词：

S42、作者名、时间词的识别：

S42.4、将特征函数融入CRF模型中，得到改进的CRF模型；

3.根据权利要求2所述的学术链节点的智能识别方法，其特征在于，所述命名实体识别模型为：

4.根据权利要求3所述的学术链节点的智能识别方法，其特征在于，所述特征函数F_j(Y,X)包含了转移函数和状态函数，则命名实体识别模型转化为：