CN111666472A - 一种学术链节点的智能识别方法 - Google Patents

一种学术链节点的智能识别方法 Download PDF

Info

Publication number
CN111666472A
CN111666472A CN202010534572.3A CN202010534572A CN111666472A CN 111666472 A CN111666472 A CN 111666472A CN 202010534572 A CN202010534572 A CN 202010534572A CN 111666472 A CN111666472 A CN 111666472A
Authority
CN
China
Prior art keywords
academic
document
words
link
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010534572.3A
Other languages
English (en)
Other versions
CN111666472B (zh
Inventor
郑远攀
陈广玉
王泽宇
吴庆岗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN202010534572.3A priority Critical patent/CN111666472B/zh
Publication of CN111666472A publication Critical patent/CN111666472A/zh
Application granted granted Critical
Publication of CN111666472B publication Critical patent/CN111666472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种学术链节点的智能识别方法,其步骤为:首先,选择检索主题词,按照被引频次降序在科技文献数据库网站上爬取文献数据,得到文献列表链接以及施引文献列表链接;其次,抽取施引文献链接引用文献链接中的语句,并利用自然语言处理方法对语句进行三要素识别;最后,将完整的三要素保存为文献链接的节点信息,重复上述过程,得到文献列表链接中的所有文献链接的节点信息。本发明能够快速、有效地定位关键语句,避免了遍历全文,解决了学术链节点识别的实时性和效率问题,实现了学术链节点信息的结构化封装,为构建学术链数据库提供了通用方法。

Description

一种学术链节点的智能识别方法
技术领域
本发明涉及计算机自然语言处理技术领域,特别是指一种学术链节点的智能识别方法。
背景技术
20世纪80年代末,影响因子及SCI(Science Citation Index)作为重要的科研绩效评价标准引入国内,学者对其关注程度逐渐提高。然而,随着学术评价体系的不断发展,影响因子及SCI的局限性和片面性也越来越明显。在发明之初,SCI(科学引文索引)主要用于新文献的检索,影响因子主要用来帮助图书馆决定购买哪本期刊。一般而言,一本期刊的影响因子越高,被引用的次数就越多,然而,目前它已经演变成为判断研究人员及其论文质量的“最”重要标准,这种分析过于以偏概全,甚至造成了以刊评文的现象。
2020年2月17日,科技部印发《关于破除科技评价中“唯论文”不良导向的若干措施(试行)》的通知,同年2月20日,教育部、科技部印发《关于规范高等学校SCI论文相关指标使用树立正确评价导向的若干意见》通知,其中指出影响因子等不是评价学术水平与创新贡献的直接依据,而如今却存在把高影响因子期刊等作为根本目标的异化现象,学术评价重点应该是论文的创新水平和科学价值,因此鼓励改进科技评价体系。
实际上,学术论文是为了发布科学研究的成果,要判断其价值,首先要看其选题是否为该领域的重要问题,其次要看其解决问题的程度,即是否有原创成果,这才是学术影响力的源泉。而学术论文之间的关系,最重要的、也是本质的,是学术成果的传承和传播。学术创新是一个不断积累、传承和突破的过程,这一过程通过学术论文记录下来,这些记录呈“链”状模式不断扩张,并表现出明显的连续性、集聚性、扩散性与合作性。这就是所谓的“学术传承效应”或“学术链”。有了学术链,论文的学术价值评价将直接基于论文本身而不是论文所出自的期刊。
2016年中国科学院和中国国家自然科学基金委主办的期刊《科学通报》发表了题为《对话冯长根:用学术影响力评价学术论文》的文章,提倡在建立学术传承效应(学术链数据库)的基础上科学合理地评价学术论文。无独有偶,2017年3月15日《人民日报》第18版刊载了院中国科协副主席冯长根教授的关于提倡基于学术链进行学术评价的文章《一种自然而然的科技成果评价方法值得推广》。
可见,由学术评论句及其关系结构组成的学术链体系将是未来科技成果评价的新导向。
而目前关于学术链节点的识别方法存在诸多问题。如今存在的学术评论句的识别方法可以分为两种:一是北京理工大学冯长根教授带领的“学术链”研究团队在进行人工识别,很多高校的研究生都正在参与此项工作,人工识别过程主要是以期刊为单位,逐篇论文进行识别,通过人眼逐句判断是否符合要求,若符合,则须找全论文及其作者的相关信息并填写在团队预先制订的表格里,后续团队需要审核其是否符合要求。这种识别方法全程需要人工参与,不仅费时费力,而且效率低,面对层出不穷的学术论文,此方法缺乏实时性。并且依靠个人分析并判断,主观性太强,易造成较高遗漏率。二是中国医学科学院医学信息研究所郭倩影等人分别在2018年提出的以外部特征分析和内容特征分析方法结合的“学术链”识别框架,2019年提出的基于引文网络的学术传承性文献识别框架2.0。这两种方法首先均需要RPYS和muti-RPYS、HistCite等软件工具的辅助,通过相关阈值设定,筛选出具有长期影响力或者被领域内大量文献引用的文献作为候选文献,然后进行人工识别学术评论句。该方法通过自定义长期引用时长等阈值,主观性太强,很容易将符合要求的文献遗漏。
发明内容
针对上述背景技术中存在的不足,本发明提出了一种学术链节点的智能识别方法,解决了现有学术链节点识别技术的识别准确率低、实时性差的技术问题。
本发明的技术方案是这样实现的:
一种学术链节点的智能识别方法,其步骤如下:
S1、用户根据检索需要确定检索主题词,按照被引频次降序在科技文献数据库网站上检索文献数据,得到文献列表链接A={a(1),a(2),…,a(i),…,a(k)}以及文献链接a(i)对应的施引文献列表链接B(i)={b(1),b(2),…,b(j),…,b(li)},其中,k表示文献列表的数量,li施引文献列表的数量;
S2、对步骤S1中的文献列表链接A中的所有文献链接进行爬取,将文献链接对应的文章被引频次大于0的文献列表链接A中的前n个文献链接a(i)以及施引文献列表链接B(i)保存至待深度爬取的URL队列组合{a(i),B(i)}中,其中,n≤k;
S3、对于文献链接a(i)和施引文献列表链接B(i),抽取施引文献链接b(j)中与文献链接a(i)中相关的语句;
S4、利用自然语言处理方法对步骤S3中得到的语句进行三要素识别,其中,三要素包括标志词、作者名、时间词;
S5、如果三要素均存在,则将三要素保存为文献链接a(i)的节点信息,并计算文献链接a(i)的学术评价指标F1,否则,执行步骤S6;
S6、j=j+1,如果j≤li,循环执行步骤S3至S6,否则,计算文献链接a(i)的学术评价指标F2、F3,执行步骤S7;
S7、i=i+1,如果i≤n,循环执行步骤S3至S7,否则,文献列表链接A中的所有文献链接被爬取完成,得到文献列表链接A中的所有文献链接的节点信息。
所述步骤S4中利用自然语言处理方法对步骤S3中得到的语句进行三要素识别的方法为:
S41、模糊匹配标志词:
S41.1、将英文输入文本格式转化为字符串数组,数组中的每一个元素对应一个英文单词;
S41.2、将滑动距离设为1,滑动窗口的长度为N,将字符串数组从左到右依次滑动得到M组候选词组,其中,N表示标志词词典中所有词的最大长度;
S41.3、将M组候选词组分别与标志词词典中的词进行模糊匹配;模糊匹配是指将候选词组与标志词词典中的词进行匹配,因候选词组中的词的长度均为N,而标志词词典中的词的长度为1~N,故将所有词进行左对齐匹配,如果候选词组的前n个单词与词典中的某个长度为n的标志词相同,即视为匹配成功,候选词组的后N-n个词不做匹配工作,其中,1≤n≤N;
S41.4、若M组候选词组中有一组候选词组与标志词词组匹配成功,执行步骤S42,进行作者名和时间词的识别;若匹配失败,则删除语句;
S42、作者名、时间词的识别:
S42.1、数据集的获取:在学术论文数据库中爬取的不同领域的学术论文,对学术论文进行文本预处理;
S42.2、采用BIOES标注方法定义的标签集对预处理后的学术论文进行命名实体标注,得到数据集,其中,命名实体包括作者名、时间词;
S42.3、分析作者名和时间词的特征信息,并利用特征信息构造特征函数,借助特征信息构造特征模板,通过训练确定每种特征信息的权重,合理的标记在训练样本中,特征信息出现的次数多,对应的权重就高,其中,特征信息包括标点符号、关键字、指示词、方向词、位置词、中心词、词性和句法等;
S42.4、将特征函数融入CRF模型中,得到改进的CRF模型;
S42.5、随机选取数据集中的一部分数据作为训练集,将训练集输入改进的CRF模型中进行训练,得到命名实体识别模型;
S42.6、将数据集中的其余数据作为测试集,并将测试集输入命名实体识别模型中进行测试,重复执行步骤S42.5,得到最优的识别模型;
S42.7、将语句输入最优的识别模型中进行识别,输出作者名和时间词。
所述命名实体识别模型为:
Figure BDA0002536582210000031
其中:X为观测序列,Y为输出标注序列,λj是特征函数Fj(Y,X)的权重,1/Z(X)是归一化因子。
所述特征函数Fj(Y,X)包含了转移函数和状态函数,则命名实体识别模型转化为:
Figure BDA0002536582210000041
其中,λk为转移函数的权值,μl为状态函数的权值,tk(yi-1,yi,i)为转移函数,sl(yi,X,i)为状态函数。
本技术方案能产生的有益效果:
1)本发明针对现有的学术链节点识别方法存在的问题,通过使用大数据技术,为学术链节点识别提供了一种自动化、智能化方法。
2)本发明能够快速、准确和有效定位关键语句,进行识别与匹配,避免了遍历全文,解决了学术链节点识别的实时性和效率问题,实现了学术链节点信息的结构化封装,为构建学术链数据库提供了通用方法。
3)本发明结合学术评价性语句(学术评论句)的特点,首先判断是否存在标志词,可快速的剔除不符合要求的文献,并将识别目标的构造特征加入机器学习模型进行学习与训练,进而不断扩大特征词典,从而降低遗漏率,提高覆盖率。
4)本发明能够极大地推进新的科技成果评价方法(基于学术传承和学术影响力的采用学术链理论的新型科技论文评价技术)的实现和推广应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程图;
图2为本发明的节点信息识别框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种学术链节点的智能识别方法,其步骤如下:
S1、用户根据检索需要确定检索主题词,按照被引频次降序在科技文献数据库网站上检索文献数据,得到文献列表链接A={a(1),a(2),…,a(i),…,a(k)}以及文献链接a(i)对应的施引文献列表链接B(i)={b(1),b(2),…,b(j),…,b(li)},其中,k表示文献列表的数量,li施引文献列表的数量;
S2、对步骤S1中的文献列表链接A中的所有文献链接进行爬取,将文献链接对应的文章被引频次大于0的文献列表链接A中的前n个文献链接a(i)以及施引文献列表链接B(i)保存至待深度爬取的URL队列组合{a(i),B(i)}中,其中,n≤k;
S3、对于文献链接a(i)和施引文献列表链接B(i),抽取施引文献链接b(j)中与引用文献链接a(i)相关的语句;
S4、利用自然语言处理方法(Natural Language Processing,NLP)对步骤S3中得到的语句进行三要素识别,其中,三要素包括标志词、作者名、时间词;如图2所示,三要素的识别方法为:
S41、模糊匹配标志词:
S41.1、将英文输入文本格式转化为字符串数组,数组中的每一个元素对应一个英文单词;
S41.2、将滑动距离设为1,滑动窗口的长度为N,将字符串数组从左到右依次滑动得到M组候选词组,其中,N表示标志词词典中所有词的最大长度;
S41.3、将M组候选词组分别与标志词词典中的词进行模糊匹配;模糊匹配是指:将候选词组与标志词词典中的词进行匹配,由于候选词组中的词的长度均为N,而标志词词典中的词的长度为1~N,故将所有词进行左对齐匹配,如果候选词组的前n个单词与词典中的某个长度为n的标志词相同,即视为匹配成功,候选词组的后N-n个词不做匹配工作,其中,1≤n≤N;
S41.4、若M组候选词组中有一组候选词组与标志词词组匹配成功,执行步骤S42,进行作者名和时间词的识别;若匹配失败,则删除语句;
例:“The CGP framework was originally proposed by Lentine in 2010.”这句话可以转换成数组(The,CGP,framework,was,originally,proposed,by,Lentine,in,2010),以每个单词作为首词进行匹配,假设N为5,则待匹配的候选词组有6组:
(The,CGP,framework,was,originally),
(CGP,framework,was,originally,proposed)
(framework,was,originally,proposed,by)
(was,originally,proposed,by,Lentine)
(originally,proposed,by,Lentine,in)
(proposed,by,Lentine,in,2010)
依次将6组候选词组与标志词词典进行匹配,若某组词组匹配成功,则视为标志词识别成功,停止匹配词组,进行作者名、时间词的识别;若匹配失败,则视为识别三要素失败,将当前语句删除,对下一施引文献链接的语句进行识别。
标志词词典目前由人工识别总结得出标志词词库构成,该词典会根据后续识别工作的继续进行不断扩充,并且根据同义词典WordNet可生成目前未被总结出,但与目前的标志词同义的词或词组,形成新的标志词。
S42、作者名、时间词的识别:
S42.1、数据集的获取:在学术论文数据库中爬取的不同领域的学术论文,对学术论文进行文本预处理;具体方法为:
S42.1.1、拼写检查:检查学术论文中的文本的单词是否有误,若有误,做出正确修改;
S42.1.2、分句:将文本拆分成句子;
S42.1.3、分词:将句子拆分成单词;
S42.1.4、扩展缩略词:将缩写的单词扩展成完整形式。
S42.2、采用BIOES标注方法定义的标签集对预处理后的学术论文进行命名实体标注,得到数据集,其中,命名实体包括作者名、时间词;
S42.3、分析作者名和时间词的特征信息,并利用特征信息构造特征函数,其中,特征信息包括标点符号、关键字、指示词、方向词、位置词、中心词、词性和句法,借助特征信息构造特征模板,通过训练确定每种特征信息的权重,合理的标记在训练样本中,特征信息出现的次数多,对应的权重就高,(比如:当前词类别,当前词左边第一个词类别,当前词左边第一个词形,当前词是否包含数字等均属于特征信息);
例:The CGP framework was originally proposed by Lentine in 2010.
“by”可作为作者名的上文,“in”可作为时间词的上文。
特征信息标注示例:
观测序列 Chris Lewis works at Tsinghua University in Beijing .
标注序列 B-PER I-PER O O B-ORG I-ORG O S-LOC O
标签列表如下:
(1)B,即Begin,表示开始;
(2)I,即Inside,表示中间;
(3)E,即End,表示结尾;
(4)S,即Single,表示单个字符;
(5)O,即Other,表示其他,用于标记无关字符;
将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
S42.4、将特征函数融入CRF模型中,得到改进的CRF模型;
S42.5、将训练集输入改进的CRF模型中进行训练,得到命名实体识别模型;
Figure BDA0002536582210000071
其中:X为观测序列,Y为输出标注序列,λj是特征函数Fj(Y,X)的权重,1/Z(X)是归一化因子。
所述特征函数Fj(Y,X)包含了转移函数和状态函数,则命名实体识别模型转化为:
Figure BDA0002536582210000072
其中,λk为转移函数的权值,μl为状态函数的权值,tk(yi-1,yi,i)为转移函数,sl(yi,X,i)为状态函数。
例:一个实体词不可能有两个开始词,“两个相连的B结构打负分”可对应一条转移特征函数;“把某个词标注为S可以打正分”可对应一条状态特征函数。
定义一个特征函数集,每个特征函数都以整个句子s,当前位置i,位置i和i-1的标签为输入。然后为每一个特征函数赋予一个权重,然后针对每一个标注序列I,对所有的特征函数加权求和,必要的话,可以把求和的值转化为一个概率值(即归一化)。
S42.6、将测试集输入命名实体识别模型中进行测试,重复执行步骤S42.5,得到最优的识别模型;测试就是针对每句话的多种标注序列中,选出最靠谱的标注序列作为句子的标注,即目标是求解arg maxyP(y|x),通过训练和测试可以得到测试结果的最大值对应的模型为最优的识别模型。
S42.7、将语句输入最优的识别模型中进行识别,输出作者名和时间词。
S5、如果三要素均存在,则将三要素保存为文献链接a(i)的节点信息,并计算文献链接a(i)的学术评价指标F1,否则,执行步骤S6;如果一篇学术论文在发表后,对该论文进行学术传承性评价的论文有h篇,则学术评价指标F1等于h。学术评价指标F1体现创新性,该指数越高,说明该论文具备越高的学术创新性。
S6、j=j+1,如果j≤li,循环执行步骤S3至S6,否则,计算文献链接a(i)的学术评价指标F2、F3,执行步骤S7;学术评价指标F2涉及到一个具体课题在逐年发展和推进中形成的“学术链”的节点,学术评价指标F2是指某一篇论文在发表以后,出现后续“节点”的数量。即,该节点后续节点数之和就是F2的值。学术评价指标F2体现某论文在某专业领域发展过程中的重要程度,也体现了某论文所作研究在某课题领域发展的时间轴中的位置,该指数越高,说明该论文对于该领域发展越重要,而且该论文所做的研究年份越久远。学术评价指标F3能够体现文献的传承性,如果一篇论文中引用了1句学术评论句,这篇论文的学术评价指标F3就是1。学术评价指标F3体现传承性,该指数越高,说明该论文对该领域内之前的学术成果研究的越深入,挖掘出了具有较高学术影响力的论文成果,就体现越高的传承性。
S7、i=i+1,如果i≤n,循环执行步骤S3至S7,否则,文献列表链接A中的所有文献链接被爬取完成,得到文献列表链接A中的所有文献链接的节点信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种学术链节点的智能识别方法,其特征在于,其步骤如下:
S1、用户根据检索需要确定检索主题词,按照被引频次降序在科技文献数据库网站上检索文献数据,得到文献列表链接A={a(1),a(2),…,a(i),…,a(k)}以及文献链接a(i)对应的施引文献列表链接B(i)={b(1),b(2),…,b(j),…,b(li)},其中,k表示文献列表的数量,li施引文献列表的数量;
S2、对步骤S1中的文献列表链接A中的所有文献链接进行爬取,将文献链接对应的文章被引频次大于0的文献列表链接A中的前n个文献链接a(i)以及施引文献列表链接B(i)保存至待深度爬取的URL队列组合{a(i),B(i)}中,其中,n≤k;
S3、对于文献链接a(i)和施引文献列表链接B(i),抽取施引文献链接b(j)中与文献链接a(i)中相关的语句;
S4、利用自然语言处理方法对步骤S3中得到的语句进行三要素识别,其中,三要素包括标志词、作者名、时间词;
S5、如果三要素均存在,则将三要素保存为文献链接a(i)的节点信息,并计算文献链接a(i)的学术评价指标F1,否则,执行步骤S6;
S6、j=j+1,如果j≤li,循环执行步骤S3至S6,否则,计算文献链接a(i)的学术评价指标F2、F3,执行步骤S7;
S7、i=i+1,如果i≤n,循环执行步骤S3至S7,否则,文献列表链接A中的所有文献链接被爬取完成,得到文献列表链接A中的所有文献链接的节点信息。
2.根据权利要求1所述的学术链节点的智能识别方法,其特征在于,所述步骤S4中利用自然语言处理方法对步骤S3中得到的语句进行三要素识别的方法为:
S41、模糊匹配标志词:
S41.1、将英文输入文本格式转化为字符串数组,数组中的每一个元素对应一个英文单词;
S41.2、将滑动距离设为1,滑动窗口的长度为N,将字符串数组从左到右依次滑动得到M组候选词组,其中,N表示标志词词典中所有词的最大长度;
S41.3、将M组候选词组分别与标志词词典中的词进行模糊匹配;模糊匹配是指将候选词组与标志词词典中的词进行匹配,因候选词组中的词的长度均为N,而标志词词典中的词的长度为1~N,故将所有词进行左对齐匹配,如果候选词组的前n个单词与词典中的某个长度为n的标志词相同,即视为匹配成功,候选词组的后N-n个词不做匹配工作,其中,1≤n≤N;
S41.4、若M组候选词组中有一组候选词组与标志词词组匹配成功,执行步骤S42,进行作者名和时间词的识别;若匹配失败,则删除语句;
S42、作者名、时间词的识别:
S42.1、数据集的获取:在学术论文数据库中爬取的不同领域的学术论文,对学术论文进行文本预处理;
S42.2、采用BIOES标注方法定义的标签集对预处理后的学术论文进行命名实体标注,得到数据集,其中,命名实体包括作者名、时间词;
S42.3、分析作者名和时间词的特征信息,并利用特征信息构造特征函数,借助特征信息构造特征模板,通过训练确定每种特征信息的权重,合理的标记在训练样本中,特征信息出现的次数多,对应的权重就高,其中,特征信息包括标点符号、关键字、指示词、方向词、位置词、中心词、词性和句法等;
S42.4、将特征函数融入CRF模型中,得到改进的CRF模型;
S42.5、随机选取数据集中的一部分数据作为训练集,将训练集输入改进的CRF模型中进行训练,得到命名实体识别模型;
S42.6、将数据集中的其余数据作为测试集,并将测试集输入命名实体识别模型中进行测试,重复执行步骤S42.5,得到最优的识别模型;
S42.7、将语句输入最优的识别模型中进行识别,输出作者名和时间词。
3.根据权利要求2所述的学术链节点的智能识别方法,其特征在于,所述命名实体识别模型为:
Figure FDA0002536582200000021
其中:X为观测序列,Y为输出标注序列,λj是特征函数Fj(Y,X)的权重,1/Z(X)是归一化因子。
4.根据权利要求3所述的学术链节点的智能识别方法,其特征在于,所述特征函数Fj(Y,X)包含了转移函数和状态函数,则命名实体识别模型转化为:
Figure FDA0002536582200000022
其中,λk为转移函数的权值,μl为状态函数的权值,tk(yi-1,yi,i)为转移函数,sl(yi,X,i)为状态函数。
CN202010534572.3A 2020-06-12 2020-06-12 一种学术链节点的智能识别方法 Active CN111666472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010534572.3A CN111666472B (zh) 2020-06-12 2020-06-12 一种学术链节点的智能识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010534572.3A CN111666472B (zh) 2020-06-12 2020-06-12 一种学术链节点的智能识别方法

Publications (2)

Publication Number Publication Date
CN111666472A true CN111666472A (zh) 2020-09-15
CN111666472B CN111666472B (zh) 2023-03-28

Family

ID=72387250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010534572.3A Active CN111666472B (zh) 2020-06-12 2020-06-12 一种学术链节点的智能识别方法

Country Status (1)

Country Link
CN (1) CN111666472B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114691814A (zh) * 2022-04-15 2022-07-01 北京工业大学 信息处理方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020520A (ja) * 1998-07-07 2000-01-21 Keiichi Kato 言語解析認識処理の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体方法
CN110852096A (zh) * 2019-06-27 2020-02-28 暨南大学 一种中文文献综述自动生成的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020520A (ja) * 1998-07-07 2000-01-21 Keiichi Kato 言語解析認識処理の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体方法
CN110852096A (zh) * 2019-06-27 2020-02-28 暨南大学 一种中文文献综述自动生成的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
沈小玲等: "网络科技论文学术影响力评价指标的选择", 《图书情报工作》 *
郭倩影等: "学术传承意义上"学术链"的识别方法探讨――以2014年诺贝尔化学奖为例", 《情报资料工作》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114691814A (zh) * 2022-04-15 2022-07-01 北京工业大学 信息处理方法、装置、电子设备及存储介质
CN114691814B (zh) * 2022-04-15 2023-11-10 北京工业大学 信息处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111666472B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN109857990B (zh) 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN109284400B (zh) 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN114020768B (zh) 中文自然语言的sql语句生成模型的构建方法及应用
CN111143549A (zh) 一种基于主题的舆情情感演化的方法
CN112836046A (zh) 一种四险一金领域政策法规文本实体识别方法
WO2018153215A1 (zh) 一种自动生成语义相近句子样本的方法
CN110175585B (zh) 一种简答题自动批改系统及方法
CN110781670B (zh) 基于百科知识库和词向量的中文地名语义消歧方法
CN114880468B (zh) 基于BiLSTM与知识图谱的建筑规范审查方法与系统
CN113806563A (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN114036281B (zh) 基于知识图谱的柑橘管控问答模块构建方法及问答系统
CN113360647B (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
CN112051986B (zh) 基于开源知识的代码搜索推荐装置及方法
CN114943230A (zh) 一种融合常识知识的中文特定领域实体链接方法
CN111444704B (zh) 基于深度神经网络的网络安全关键词抽取方法
CN112364623A (zh) 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法
CN115599902B (zh) 一种基于知识图谱的油气百科问答方法及系统
CN114297987B (zh) 基于文本分类和阅读理解的文档信息抽取方法及系统
CN117349420A (zh) 基于本地知识库和大型语言模型的回复方法和装置
CN112257442A (zh) 一种基于扩充语料库神经网络的政策文件信息提取方法
CN117573894B (zh) 一种基于知识图谱的资源推荐系统及方法
CN117609477B (zh) 一种基于领域知识的大模型问答方法和装置
CN111666472B (zh) 一种学术链节点的智能识别方法
Kambarami et al. Computational modeling of agglutinative languages: the challenge for southern bantu languages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant