CN110020024B - 一种科技文献中链接资源的分类方法、系统、设备 - Google Patents

一种科技文献中链接资源的分类方法、系统、设备 Download PDF

Info

Publication number
CN110020024B
CN110020024B CN201910266285.6A CN201910266285A CN110020024B CN 110020024 B CN110020024 B CN 110020024B CN 201910266285 A CN201910266285 A CN 201910266285A CN 110020024 B CN110020024 B CN 110020024B
Authority
CN
China
Prior art keywords
word
resource
layer
resources
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910266285.6A
Other languages
English (en)
Other versions
CN110020024A (zh
Inventor
叶宇铭
罗准辰
赵赫
刘晓鹏
罗威
谭玉珊
田昌海
毛彬
宋宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MILITARY SCIENCE INFORMATION RESEARCH CENTER OF MILITARY ACADEMY OF THE CHINESE PLA
Original Assignee
Military Science Information Research Center Of Military Academy Of Chinese Pla
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Military Science Information Research Center Of Military Academy Of Chinese Pla filed Critical Military Science Information Research Center Of Military Academy Of Chinese Pla
Publication of CN110020024A publication Critical patent/CN110020024A/zh
Application granted granted Critical
Publication of CN110020024B publication Critical patent/CN110020024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种科技文献中链接资源的分类方法、系统、设备和存储介质,所述方法包括:提取待分类资源的描述文本;将描述文本输入预先训练得到的分类模型,得到基于知识表示框架的分类结果,实现对待分类资源的分类。本发明的方法针对科技文献中链接资源的语义特点,基于上下文信息,通过神经网络的方法构建识别模型,能够有效提高对资源的识别,有助于对科技链接资源的管理、分析与推荐。

Description

一种科技文献中链接资源的分类方法、系统、设备
技术领域
本发明涉及信息检索技术领域,尤其涉及科技文献中链接资源检索、管理与评估领域,具体涉及一种科技文献中链接资源的分类方法、系统、设备。
背景技术
随着科技飞速发展,大量科技文献发表,同时伴随着海量在线资源被发布或使用。因此,面向例如软件工具和数据库这样的科技资源,进行跟踪和建模就变得尤为重要和具有挑战性。谷歌在2017年发布了一款搜索引擎来帮助科学家们搜索需要的数据集。然而这一搜索引擎,只有凭借准确的名字才能搜索到对应的数据库。
针对科技文献中的资源发现的方法研究,此前通过正则表达式和启发式规则来从摘要和正文中提取URL信息;依靠人工编写正则表达式来实现资源命名、功能检测、资源分类,从而生成资源清单;或者是通过从文献中抽取规则构建命名实体识别系统来实现对数据库或者软件的名称识别。此前对于资源分类的研究偏向于生物医学和药学领域,并没有适用于通用领域的细粒度科技文献中链接资源模型框架。
发明内容
本发明的目的在于,克服当前对于科技文献中链接资源的类型和作用缺少有效的表示和识别方法这一不足,建立了一种适用于科技文献中链接资源引用的分类模型,从而提供一种科技文献中链接资源分类方法。
为了实现上述目的,本发明提出了一种科技文献中链接资源的分类方法,所述方法包括:
提取待分类资源的描述文本;
将描述文本输入预先训练得到的分类模型,得到基于知识表示框架的分类结果,实现对待分类资源的分类。
作为上述方法的一种改进,所述提取待分类资源的描述文本,具体为:从待分类资源的文献的正文和脚注中抽取资源的超链接,抽取超链接的前后五句话作为资源的描述文本。
作为上述方法的一种改进,在所述提取待分类资源的描述文本中后还包括:在描述文本中加入引用位置标示符,即在文中出现引用的位置插入<CITE>标记,作为一个独立的词加入文本中,用于指明当前位置出现资源引用。
作为上述方法的一种改进,所述知识表示框架包括:资源类型和资源作用类型;所述资源类型包括:工具、代码、数据、网页、算法、文档、媒体、许可和论文;所述资源作用类型包括:使用、提出、介绍、对比和延伸。
作为上述方法的一种改进,所述分类模型包括依次连接的输入层、词LSTM层、注意力层和输出层;
所述输入层的输入为:描述文本;利用分词器和词性标注器对描述文本进行预处理;然后基于词嵌入的特征提取方法,对预处理后的描述文本的每个词,利用词嵌入向量词典提取三个特征向量:基于字符的嵌入向量、词嵌入向量和基于单词大小写及词性特征的嵌入向量;输出为:整合后字母-词综合嵌入向量;
所述词嵌入向量词典是利用Word2Vec的词嵌入方法,对已有文献数据集进行预先训练得到的;
所述词LSTM层的输入为:整合后字母-词综合嵌入向量;输出为:通过前向和后向LSTM隐藏层状态堆叠获得的词表征;
所述注意力层的输入为:词表征状态;输出为:每个词表征状态与各自的加权因子的乘积得到的词表征状态的加权结果;
所述输出层的输入为:词表征状态的加权结果;输出为:经过softmax函数处理后得到分类结果,包括:资源类型和资源作用类型。
作为上述方法的一种改进,所述注意力层的输出表示为:
Figure BDA0002016949280000021
Figure BDA0002016949280000022
Figure BDA0002016949280000023
其中,ei是注意力层的输出;i为上下文信息的序号,j为第i段上下文信息中单词的序号,li为单词的数量;hi,j为词LSTM层输出的词表征状态,αi,j为hi,j的加权因子,也是每个词的注意力得分的统计值;
Figure BDA0002016949280000024
为每个词的注意力得分的预测值;f(wi,jw)为利用双层的前向反馈神经网络进行注意力得分的预测函数,wi,j为对应词的词嵌入表示,θw表示预测词注意力的参数。
作为上述方法的一种改进,所述分类模型的训练步骤包括:
步骤S1)基于已有文献数据集构建资源引用训练数据集;所述训练数据集包括资源超链接及其相关资源描述文本;
步骤S2)基于知识表示框架标注训练数据集作为训练样本,然后将训练样本划分成训练集、测试集和验证集;
通过人工标注的方式,获得资源分类和资源作用分类描述的对应的标注文本;
步骤S3)利用训练样本和Adam优化器对构建的分类模型的参数进行训练,直至模型在验证集中得到最优效果。
一种科技文献中链接资源的分类系统,所述系统包括:
描述文本提取模块,用于提取待分类资源的描述文本;和
分类模块,用于将描述文本输入预先训练得到的分类模型,得到基于知识表示框架的分类结果,实现对待分类资源的分类。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述的方法。
本发明的优势在于:
1、本发明提供了一种科技文献中链接资源的分类方法,该方法针对科技文献中链接资源的语义特点,基于上下文信息,通过神经网络的方法构建识别模型,能够有效提高对资源的识别,有助于对科技链接资源的管理、分析与推荐。
2、本发明的方法使得用户能够识别并提取文献集合中的资源,用以反映科技资源的演化和成熟度,有助于对科技链接资源的管理、分析与推荐。
附图说明
图1为本发明的实施例1提供的适用于科技文献中资源引用的分类模型的建立方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
实施例1
如图1所示,本发明的实施例1提供了一种适用于科技文献中链接资源引用的分类模型的建立方法,所述方法包括:
步骤S1)利用已有文献数据集构建资源引用数据集;所述数据集包括资源超链接及其相关资源描述文本;
资源引用:作者在文中提及的超链接,直接指向特定的在线资源;资源描述文本:作者在资源引用附近出现的连续文本,特别是在超链接及其前后出现的文本。从文献的正文和脚注中抽取资源的超链接,抽取超链接的前后五句话作为资源的描述文本;
步骤S2)基于知识表示框架标注训练数据集;通过人工标注的方式,获得资源分类和作用描述的对应的标注文本,作为训练样本;
其中科技文献中链接资源引用知识表示框架包括两部分:资源类型和资源作用。
资源类型分为9类:
工具:包括工具包、软件、系统以及项目;
代码:包括代码库、依赖库或者实现;
数据:包括数据集、数据库或语料;
网页:包括主页、服务、在线平台或者接口;
算法:包括方法、模型或者解决方案;
文档:包括补充、教程、说明书或者使用指南;
媒体:包括游戏、音乐以及视频;
许可:提供所用的许可的授权和详细描述;
论文:从网站上选取的(短/长)会议论文
资源作用分为6类:
使用:表示当前论文中使用了此资源;
提出,表示这一资源在当前论文中首次被形成或者被发布;
介绍:表示这一资源的背景、特点以及应用在论文中被介绍;
对比:表示这一资源与其他资源进行对比;
延伸:表示这一资源是当前论文工作的基础或是基于此提出一些改进;
其他:不属于上述5类的资源作用归类到其他分类中;
步骤S3)利用分词器和词性标注器对描述文本进行预处理;利用每个标注文本及其前后的信息,提取相关特征;相关特征包括:基于字符的嵌入向量、词嵌入向量和基于单词大小写及词性特征的嵌入向量;
嵌入向量指:将文本空间中的某个单词,通过一定的方法,映射或者嵌到另一个数值向量空间。将一个单词转换成固定长度的向量来表示。通过对一个数据集内所有词的频次以及在句子中出现的,可以获得一转移矩阵。该矩阵包含着单词之间的语义关机。基于神经网络对矩阵进行处理,可以得到每个单词的表征向量。这一固定长度的表征向量的产生,使得单词之间的语义关系,可以用过这些向量之间的距离关系来表示。
本方法中运用主流的Word2Vec词嵌入技术,基于待训练的文本数据集,通过预先训练,获得这一数据集的词嵌入向量词典。
基于字符的嵌入向量:通过将Bi-LSTM其前向和后向隐藏状态拼接获得;
词嵌入向量:基于Word2Bec的词嵌入方法,将单词转换成固定长度的向量表示。
基于单词大小写及词性特征的嵌入向量:大小写特征(包括所有的大写、首字母大写、全小写、除了首字母外的大写)以及词性标注特征分别映射到向量中。
词性标注:根据上下文对单词打上词性标签。英文中单词主要有8种词性—名词、动词、形容词、代词、副词、连词、介词、和感叹词。
步骤S4)构建分类模型,所述分类模型为四层神经网络模型;具体包括:
步骤S4-1)构建词表征层;词表示层以步骤S1)中的描述文本作为输入内容,并将步骤S3)中获得的,每个词的三个特征连接起来。
其中输入文本加入引用位置标示符,即在文中出现引用的位置插入<CITE>标记,作为一个独立的词加入文本中,用以指明当前位置出现资源引用;
步骤S4-2)构建词LSTM层;将步骤S4-1)中整合后字母-词综合嵌入向量作为输入。基于词的层面,采用Bi-LSTM方法,通过前向、后向LSTM隐藏层状态堆叠获得的词表征,并作为输出传到注意力层。
步骤S4-3)构建注意力层;将步骤S4-2)中的词表征作为输入。将每个词表征与各自的加权因子相乘后,作为输出传到输出层。
其中注意力机制中加权因子的获得方法:注意力机制集合考虑所有LSTM单元的表征结果形成上下文的表征。
所述注意力层的输出表示为:
Figure BDA0002016949280000051
Figure BDA0002016949280000052
Figure BDA0002016949280000053
其中,ei是注意力层的输出;i为上下文信息的序号,j为第i段上下文信息中单词的序号,li为单词的数量;hi,j为词LSTM层输出的词表征状态,αi,j为hi,j的加权因子,也是每个词的注意力得分的统计值;
Figure BDA0002016949280000054
为每个词的注意力得分的预测值;f(wi,jw)为利用双层的前向反馈神经网络进行注意力得分的预测函数,wi,j为对应词的词嵌入表示,θw表示预测词注意力的参数。
步骤S4-4)构建输出层;将步骤S4-3)中的词表征的加权结果作为输入。经过softmax函数处理后,获得对资源的类型和作用的预测结果。
模型的最终目的是能对科技文献中出现的科技资源的引用情况进行识别,能够对其中出现的资源类型和资源作用进行分类识别。
步骤S5)训练步骤S4)构建的分类模型;
将训练样本划分成训练集、测试集、验证集,利用Adam优化器对模型参数进行优化,直至模型在验证集中得到最优效果。
实施例2
基于上述方法建立的知识表示框架和分类模型,本发明还提供一种科技文献中链接资源的分类方法,所述方法包括:
步骤T1)提取待分类资源的描述文本;
从待分类资源的文献的正文和脚注中抽取资源的超链接,抽取超链接的前后五句话作为资源的描述文本。在所述提取待分类资源的描述文本中后还包括:在描述文本中加入引用位置标示符,即在文中出现引用的位置插入<CITE>标记,作为一个独立的词加入文本中,用于指明当前位置出现资源引用。
步骤T2)将描述文本输入预先训练得到的分类模型,得到基于知识表示框架的分类结果,实现对待分类资源的分类;
根据历史文献中资源的出现情况以及资源的作用的演化情况,能够体现出相应资源的成熟情况。
实施例3
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例2的方法。
实施例4
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行实施例2的方法。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种科技文献中链接资源的分类方法,所述方法包括:
提取待分类资源的描述文本;
将描述文本输入预先训练得到的分类模型,得到基于知识表示框架的分类结果,实现对待分类资源的分类;
所述提取待分类资源的描述文本,具体为:从待分类资源的文献的正文和脚注中抽取资源的超链接,抽取超链接的前后五句话作为资源的描述文本;
在所述提取待分类资源的描述文本中后还包括:在描述文本中加入引用位置标示符,即在文中出现引用的位置插入<CITE>标记,作为一个独立的词加入文本中,用于指明当前位置出现资源引用;
所述知识表示框架包括:资源类型和资源作用类型;所述资源类型包括:工具、代码、数据、网页、算法、文档、媒体、许可和论文;所述资源作用类型包括:使用、提出、介绍、对比和延伸;
所述分类模型包括依次连接的输入层、词LSTM层、注意力层和输出层;
所述输入层的输入为:描述文本;利用分词器和词性标注器对描述文本进行预处理;然后基于词嵌入的特征提取方法,对预处理后的描述文本的每个词,利用词嵌入向量词典提取三个特征向量:基于字符的嵌入向量、词嵌入向量和基于单词大小写及词性特征的嵌入向量;输出为:整合后字母-词综合嵌入向量;
所述词嵌入向量词典是利用Word2Vec的词嵌入方法,对已有文献数据集进行预先训练得到的;
所述词LSTM层的输入为:整合后字母-词综合嵌入向量;输出为:通过前向和反向LSTM隐藏层状态堆叠获得的词表征;
所述注意力层的输入为:词表征状态;输出为:每个词表征状态与各自的加权因子的乘积得到的词表征状态的加权结果;
所述输出层的输入为:词表征状态的加权结果;输出为:经过softmax函数处理后得到分类结果,包括:资源类型和资源作用类型;
所述注意力层的输出表示为:
Figure FDA0002992392640000011
Figure FDA0002992392640000012
Figure FDA0002992392640000021
其中,ei是注意力层的输出;i为上下文信息的序号,j为第i段上下文信息中单词的序号,li为单词的数量;hi,j为词LSTM层输出的词表征状态,αi,j为hi,j的加权因子,也是每个词的注意力得分的统计值;
Figure FDA0002992392640000022
为每个词的注意力得分的预测值;f(wi,jw)为利用双层的前向反馈神经网络进行注意力得分的预测函数,wi,j为对应词的词嵌入表示,θw表示预测词注意力的参数。
2.根据权利要求1所述的科技文献中链接资源的分类方法,其特征在于,所述分类模型的训练步骤包括:
步骤S1)基于已有文献数据集构建资源引用训练数据集;所述训练数据集包括资源超链接及其相关资源描述文本;
步骤S2)基于知识表示框架标注训练数据集作为训练样本,然后将训练样本划分成训练集、测试集和验证集;
通过人工标注的方式,获得资源分类和资源作用分类描述的对应的标注文本;
步骤S3)利用训练样本和Adam优化器对构建的分类模型的参数进行训练,直至模型在验证集中得到最优效果。
3.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至2中任一项所述的方法。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行权利要求1至2任一项所述的方法。
CN201910266285.6A 2019-03-15 2019-04-03 一种科技文献中链接资源的分类方法、系统、设备 Active CN110020024B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910198053 2019-03-15
CN2019101980531 2019-03-15

Publications (2)

Publication Number Publication Date
CN110020024A CN110020024A (zh) 2019-07-16
CN110020024B true CN110020024B (zh) 2021-07-30

Family

ID=67190573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910266285.6A Active CN110020024B (zh) 2019-03-15 2019-04-03 一种科技文献中链接资源的分类方法、系统、设备

Country Status (1)

Country Link
CN (1) CN110020024B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765359B (zh) * 2019-10-30 2022-09-16 北京速途网络科技股份有限公司 新媒体内容推荐方法和系统
CN113051496B (zh) * 2019-12-27 2024-01-26 中国电信股份有限公司 训练用于分类统一资源定位符的分类器的方法及系统
CN113868548A (zh) * 2021-09-10 2021-12-31 中国人民解放军军事科学院军事科学信息研究中心 一种基于社交媒体学术会议信息的热点研究发现方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和系统
CN108170681A (zh) * 2018-01-15 2018-06-15 中南大学 文本情感分析方法、系统及计算机可读存储介质
CN108364028A (zh) * 2018-03-06 2018-08-03 中国科学院信息工程研究所 一种基于深度学习的互联网网站自动分类方法
CN108875019A (zh) * 2018-06-20 2018-11-23 淮阴工学院 一种资源结构化链接的信息快速分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190080207A1 (en) * 2017-07-06 2019-03-14 Frenzy Labs, Inc. Deep neural network visual product recognition system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和系统
CN108170681A (zh) * 2018-01-15 2018-06-15 中南大学 文本情感分析方法、系统及计算机可读存储介质
CN108364028A (zh) * 2018-03-06 2018-08-03 中国科学院信息工程研究所 一种基于深度学习的互联网网站自动分类方法
CN108875019A (zh) * 2018-06-20 2018-11-23 淮阴工学院 一种资源结构化链接的信息快速分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"国内外链接分类研究综述";董珏 等;《中国科技资源导刊》;20080528;第26-31页 *

Also Published As

Publication number Publication date
CN110020024A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
JP5167546B2 (ja) 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
US9645988B1 (en) System and method for identifying passages in electronic documents
Kmail et al. An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
CN110020024B (zh) 一种科技文献中链接资源的分类方法、系统、设备
Curtotti et al. Corpus based classification of text in Australian contracts
CN114329225A (zh) 基于搜索语句的搜索方法、装置、设备及存储介质
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
CN114997288A (zh) 一种设计资源关联方法
CN115759071A (zh) 基于大数据的政务敏感信息识别系统和方法
CN111859950A (zh) 一种自动化生成讲稿的方法
US7827029B2 (en) Systems and methods for user-interest sensitive note-taking
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测系统
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
VeeraSekharReddy et al. An attention based bi-LSTM DenseNet model for named entity recognition in english texts
CN116644183B (zh) 文本分类方法、装置及存储介质
CN112633007A (zh) 一种语义理解模型构建方法及装置、语义理解方法及装置
US7801723B2 (en) Systems and methods for user-interest sensitive condensation
CN114943220B (zh) 一种面向科研立项查重的句向量生成方法及查重方法
Li et al. Detecting relevant differences between similar legal texts
Zhang et al. Dual attention model for citation recommendation with analyses on explainability of attention mechanisms and qualitative experiments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210630

Address after: No.26 Fucheng Road, Haidian District, Beijing 100142

Applicant after: MILITARY SCIENCE INFORMATION RESEARCH CENTER OF MILITARY ACADEMY OF THE CHINESE PLA

Address before: 100142 courtyard 26, Fucheng Road, Haidian District, Beijing

Applicant before: Ye Yuming

Applicant before: MILITARY SCIENCE INFORMATION RESEARCH CENTER OF MILITARY ACADEMY OF THE CHINESE PLA

GR01 Patent grant
GR01 Patent grant