CN110020024B

CN110020024B - 一种科技文献中链接资源的分类方法、系统、设备

Info

Publication number: CN110020024B
Application number: CN201910266285.6A
Authority: CN
Inventors: 叶宇铭; 罗准辰; 赵赫; 刘晓鹏; 罗威; 谭玉珊; 田昌海; 毛彬; 宋宇
Original assignee: Military Science Information Research Center Of Military Academy Of Chinese Pla
Current assignee: MILITARY SCIENCE INFORMATION RESEARCH CENTER OF MILITARY ACADEMY OF THE CHINESE PLA
Priority date: 2019-03-15
Filing date: 2019-04-03
Publication date: 2021-07-30
Anticipated expiration: 2039-04-03
Also published as: CN110020024A

Abstract

本发明公开了一种科技文献中链接资源的分类方法、系统、设备和存储介质，所述方法包括：提取待分类资源的描述文本；将描述文本输入预先训练得到的分类模型，得到基于知识表示框架的分类结果，实现对待分类资源的分类。本发明的方法针对科技文献中链接资源的语义特点，基于上下文信息，通过神经网络的方法构建识别模型，能够有效提高对资源的识别，有助于对科技链接资源的管理、分析与推荐。

Description

一种科技文献中链接资源的分类方法、系统、设备

技术领域

本发明涉及信息检索技术领域，尤其涉及科技文献中链接资源检索、管理与评估领域，具体涉及一种科技文献中链接资源的分类方法、系统、设备。

背景技术

随着科技飞速发展，大量科技文献发表，同时伴随着海量在线资源被发布或使用。因此，面向例如软件工具和数据库这样的科技资源，进行跟踪和建模就变得尤为重要和具有挑战性。谷歌在2017年发布了一款搜索引擎来帮助科学家们搜索需要的数据集。然而这一搜索引擎，只有凭借准确的名字才能搜索到对应的数据库。

针对科技文献中的资源发现的方法研究，此前通过正则表达式和启发式规则来从摘要和正文中提取URL信息；依靠人工编写正则表达式来实现资源命名、功能检测、资源分类，从而生成资源清单；或者是通过从文献中抽取规则构建命名实体识别系统来实现对数据库或者软件的名称识别。此前对于资源分类的研究偏向于生物医学和药学领域，并没有适用于通用领域的细粒度科技文献中链接资源模型框架。

发明内容

本发明的目的在于，克服当前对于科技文献中链接资源的类型和作用缺少有效的表示和识别方法这一不足，建立了一种适用于科技文献中链接资源引用的分类模型，从而提供一种科技文献中链接资源分类方法。

为了实现上述目的，本发明提出了一种科技文献中链接资源的分类方法，所述方法包括：

提取待分类资源的描述文本；

将描述文本输入预先训练得到的分类模型，得到基于知识表示框架的分类结果，实现对待分类资源的分类。

作为上述方法的一种改进，所述提取待分类资源的描述文本，具体为：从待分类资源的文献的正文和脚注中抽取资源的超链接，抽取超链接的前后五句话作为资源的描述文本。

作为上述方法的一种改进，在所述提取待分类资源的描述文本中后还包括：在描述文本中加入引用位置标示符，即在文中出现引用的位置插入<CITE>标记，作为一个独立的词加入文本中，用于指明当前位置出现资源引用。

作为上述方法的一种改进，所述知识表示框架包括：资源类型和资源作用类型；所述资源类型包括：工具、代码、数据、网页、算法、文档、媒体、许可和论文；所述资源作用类型包括：使用、提出、介绍、对比和延伸。

作为上述方法的一种改进，所述分类模型包括依次连接的输入层、词LSTM层、注意力层和输出层；

所述输入层的输入为：描述文本；利用分词器和词性标注器对描述文本进行预处理；然后基于词嵌入的特征提取方法，对预处理后的描述文本的每个词，利用词嵌入向量词典提取三个特征向量：基于字符的嵌入向量、词嵌入向量和基于单词大小写及词性特征的嵌入向量；输出为：整合后字母-词综合嵌入向量；

所述词嵌入向量词典是利用Word2Vec的词嵌入方法，对已有文献数据集进行预先训练得到的；

所述词LSTM层的输入为：整合后字母-词综合嵌入向量；输出为：通过前向和后向LSTM隐藏层状态堆叠获得的词表征；

所述注意力层的输入为：词表征状态；输出为：每个词表征状态与各自的加权因子的乘积得到的词表征状态的加权结果；

所述输出层的输入为：词表征状态的加权结果；输出为：经过softmax函数处理后得到分类结果，包括：资源类型和资源作用类型。

作为上述方法的一种改进，所述注意力层的输出表示为：

其中，e_i是注意力层的输出；i为上下文信息的序号，j为第i段上下文信息中单词的序号，l_i为单词的数量；h_i,j为词LSTM层输出的词表征状态，α_i,j为h_i,j的加权因子，也是每个词的注意力得分的统计值；

为每个词的注意力得分的预测值；f(w_i,j,θ_w)为利用双层的前向反馈神经网络进行注意力得分的预测函数，w_i,j为对应词的词嵌入表示，θ_w表示预测词注意力的参数。

作为上述方法的一种改进，所述分类模型的训练步骤包括：

步骤S1)基于已有文献数据集构建资源引用训练数据集；所述训练数据集包括资源超链接及其相关资源描述文本；

步骤S2)基于知识表示框架标注训练数据集作为训练样本，然后将训练样本划分成训练集、测试集和验证集；

通过人工标注的方式，获得资源分类和资源作用分类描述的对应的标注文本；

步骤S3)利用训练样本和Adam优化器对构建的分类模型的参数进行训练，直至模型在验证集中得到最优效果。

一种科技文献中链接资源的分类系统，所述系统包括：

描述文本提取模块，用于提取待分类资源的描述文本；和

分类模块，用于将描述文本输入预先训练得到的分类模型，得到基于知识表示框架的分类结果，实现对待分类资源的分类。

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述的方法。

本发明的优势在于：

1、本发明提供了一种科技文献中链接资源的分类方法，该方法针对科技文献中链接资源的语义特点，基于上下文信息，通过神经网络的方法构建识别模型，能够有效提高对资源的识别，有助于对科技链接资源的管理、分析与推荐。

2、本发明的方法使得用户能够识别并提取文献集合中的资源，用以反映科技资源的演化和成熟度，有助于对科技链接资源的管理、分析与推荐。

附图说明

图1为本发明的实施例1提供的适用于科技文献中资源引用的分类模型的建立方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细的说明。

实施例1

如图1所示，本发明的实施例1提供了一种适用于科技文献中链接资源引用的分类模型的建立方法，所述方法包括：

步骤S1)利用已有文献数据集构建资源引用数据集；所述数据集包括资源超链接及其相关资源描述文本；

资源引用：作者在文中提及的超链接，直接指向特定的在线资源；资源描述文本：作者在资源引用附近出现的连续文本，特别是在超链接及其前后出现的文本。从文献的正文和脚注中抽取资源的超链接，抽取超链接的前后五句话作为资源的描述文本；

步骤S2)基于知识表示框架标注训练数据集；通过人工标注的方式，获得资源分类和作用描述的对应的标注文本，作为训练样本；

其中科技文献中链接资源引用知识表示框架包括两部分：资源类型和资源作用。

资源类型分为9类：

工具：包括工具包、软件、系统以及项目；

代码：包括代码库、依赖库或者实现；

数据：包括数据集、数据库或语料；

网页：包括主页、服务、在线平台或者接口；

算法：包括方法、模型或者解决方案；

文档：包括补充、教程、说明书或者使用指南；

媒体：包括游戏、音乐以及视频；

许可：提供所用的许可的授权和详细描述；

论文：从网站上选取的(短/长)会议论文

资源作用分为6类：

使用：表示当前论文中使用了此资源；

提出，表示这一资源在当前论文中首次被形成或者被发布；

介绍：表示这一资源的背景、特点以及应用在论文中被介绍；

对比：表示这一资源与其他资源进行对比；

延伸：表示这一资源是当前论文工作的基础或是基于此提出一些改进；

其他：不属于上述5类的资源作用归类到其他分类中；

步骤S3)利用分词器和词性标注器对描述文本进行预处理；利用每个标注文本及其前后的信息，提取相关特征；相关特征包括：基于字符的嵌入向量、词嵌入向量和基于单词大小写及词性特征的嵌入向量；

嵌入向量指：将文本空间中的某个单词，通过一定的方法，映射或者嵌到另一个数值向量空间。将一个单词转换成固定长度的向量来表示。通过对一个数据集内所有词的频次以及在句子中出现的，可以获得一转移矩阵。该矩阵包含着单词之间的语义关机。基于神经网络对矩阵进行处理，可以得到每个单词的表征向量。这一固定长度的表征向量的产生，使得单词之间的语义关系，可以用过这些向量之间的距离关系来表示。

本方法中运用主流的Word2Vec词嵌入技术，基于待训练的文本数据集，通过预先训练，获得这一数据集的词嵌入向量词典。

基于字符的嵌入向量：通过将Bi-LSTM其前向和后向隐藏状态拼接获得；

词嵌入向量：基于Word2Bec的词嵌入方法，将单词转换成固定长度的向量表示。

基于单词大小写及词性特征的嵌入向量：大小写特征(包括所有的大写、首字母大写、全小写、除了首字母外的大写)以及词性标注特征分别映射到向量中。

词性标注：根据上下文对单词打上词性标签。英文中单词主要有8种词性—名词、动词、形容词、代词、副词、连词、介词、和感叹词。

步骤S4)构建分类模型，所述分类模型为四层神经网络模型；具体包括：

步骤S4-1)构建词表征层；词表示层以步骤S1)中的描述文本作为输入内容，并将步骤S3)中获得的，每个词的三个特征连接起来。

其中输入文本加入引用位置标示符，即在文中出现引用的位置插入<CITE>标记，作为一个独立的词加入文本中，用以指明当前位置出现资源引用；

步骤S4-2)构建词LSTM层；将步骤S4-1)中整合后字母-词综合嵌入向量作为输入。基于词的层面，采用Bi-LSTM方法，通过前向、后向LSTM隐藏层状态堆叠获得的词表征，并作为输出传到注意力层。

步骤S4-3)构建注意力层；将步骤S4-2)中的词表征作为输入。将每个词表征与各自的加权因子相乘后，作为输出传到输出层。

其中注意力机制中加权因子的获得方法：注意力机制集合考虑所有LSTM单元的表征结果形成上下文的表征。

所述注意力层的输出表示为：

步骤S4-4)构建输出层；将步骤S4-3)中的词表征的加权结果作为输入。经过softmax函数处理后，获得对资源的类型和作用的预测结果。

模型的最终目的是能对科技文献中出现的科技资源的引用情况进行识别，能够对其中出现的资源类型和资源作用进行分类识别。

步骤S5)训练步骤S4)构建的分类模型；

将训练样本划分成训练集、测试集、验证集，利用Adam优化器对模型参数进行优化，直至模型在验证集中得到最优效果。

实施例2

基于上述方法建立的知识表示框架和分类模型，本发明还提供一种科技文献中链接资源的分类方法，所述方法包括：

步骤T1)提取待分类资源的描述文本；

从待分类资源的文献的正文和脚注中抽取资源的超链接，抽取超链接的前后五句话作为资源的描述文本。在所述提取待分类资源的描述文本中后还包括：在描述文本中加入引用位置标示符，即在文中出现引用的位置插入<CITE>标记，作为一个独立的词加入文本中，用于指明当前位置出现资源引用。

步骤T2)将描述文本输入预先训练得到的分类模型，得到基于知识表示框架的分类结果，实现对待分类资源的分类；

根据历史文献中资源的出现情况以及资源的作用的演化情况，能够体现出相应资源的成熟情况。

实施例3

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例2的方法。

实施例4

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行实施例2的方法。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种科技文献中链接资源的分类方法，所述方法包括：

提取待分类资源的描述文本；

将描述文本输入预先训练得到的分类模型，得到基于知识表示框架的分类结果，实现对待分类资源的分类；

所述提取待分类资源的描述文本，具体为：从待分类资源的文献的正文和脚注中抽取资源的超链接，抽取超链接的前后五句话作为资源的描述文本；

在所述提取待分类资源的描述文本中后还包括：在描述文本中加入引用位置标示符，即在文中出现引用的位置插入<CITE>标记，作为一个独立的词加入文本中，用于指明当前位置出现资源引用；

所述知识表示框架包括：资源类型和资源作用类型；所述资源类型包括：工具、代码、数据、网页、算法、文档、媒体、许可和论文；所述资源作用类型包括：使用、提出、介绍、对比和延伸；

所述分类模型包括依次连接的输入层、词LSTM层、注意力层和输出层；

所述词LSTM层的输入为：整合后字母-词综合嵌入向量；输出为：通过前向和反向LSTM隐藏层状态堆叠获得的词表征；

所述输出层的输入为：词表征状态的加权结果；输出为：经过softmax函数处理后得到分类结果，包括：资源类型和资源作用类型；

所述注意力层的输出表示为：

2.根据权利要求1所述的科技文献中链接资源的分类方法，其特征在于，所述分类模型的训练步骤包括：

3.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至2中任一项所述的方法。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行权利要求1至2任一项所述的方法。