CN115905554A

CN115905554A - 一种基于多学科分类的中文学术知识图谱构建方法

Info

Publication number: CN115905554A
Application number: CN202211269241.7A
Authority: CN
Inventors: 周锋; 乔雷
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2023-04-04

Abstract

本申请涉及一种基于多学科分类的中文学术知识图谱构建方法。该方法包括：获取多来源的初始中文文献数据，其中包括论文题目、作者、单位、摘要、发表载体、时间、单一类别等基本信息，生成初始文献数据集；设计领域与学科间类别映射，提取部分初始文献数据集中的数据进行初步映射，生成单学科分类的学术文献数据集；将所述单学科分类的学术文献数据集输入预设学科分类模型，完成学科分类模型训练，生成学科分类模型；将初始文献数据集输入完成训练的学科分类模型，完成初始文献数据集的多学科分类，生成多学科分类的文献数据集；通过预设本体模型和预设关系抽取模型，对所述多学科分类的文献数据集进行实体和关系抽取，生成三元组数据，构建多学科分类的中文学术知识图谱。通过本申请的方法，解决了学术资源庞杂混乱，存储、检索困难，学术论文领域划分混乱，缺少多学科支持的问题。

Description

一种基于多学科分类的中文学术知识图谱构建方法

技术领域

本发明涉及学术知识图谱技术领域，特别是涉及一种基于预训练语言模型和文本分类模型的多学科分类的中文学术知识图谱构建方法。

背景技术

随着大数据时代的到来，互联网上海量的学术资源虽然充分满足了科研人员对于学术信息的需求，但是也给科研人员带来了严重的信息过载压力。以往的学术知识存储与检索通常是通过关系型数据库来完成，需要预先设计关系模型，这种方法的优点是符合行、列设计贴合逻辑世界，易于理解，支持ACID特性，一致性表现好，缺点是在更新数据时按照预设模型准备数据，限制较多，导致关系型数据库的扩展性较差，不支持分词能力，文本检索功能弱。而在做学术数据分析时，往往涉及数据更新、模糊查询等，由于关系型数据库对横向扩展、模糊查询的支持较弱，所以并不能完全满足学术数据分析要求。知识图谱的出现，解决了关系型数据库扩展性差、文本检索功能弱的问题，它以节点和边的方式描述数据及其之间的关系，没有特定的关系模型对数据做出限制，自然地表达了现实世界事物之间的关系，可以高效的插入任何类型的数据，对于文本模糊查询、关联查询都提供了很好的支持，很适合用来存储和检索学术数据。

所有学术文献都有其所属的技术领域，一是由于近年来学科间出现交叉融合的趋势，导致学术文献以不再单独属于某个技术领域，目前对学术文献的单领域划分已不再合适；二是目前技术领域的划分既繁杂又混乱，不断有新的领域出现或消失，领域划分及其不稳定。专业学科是一个相对稳定的文献划分方式，所有技术领域均可由单个学科或多个学科交叉、融合形成，因此学术文献的多学科分类更利于学术发展。预训练语言模型和文本分类技术，从海量的语料中可以学习通用的语言表示并利用神经网络进行文本分类，在准确度上已经接近人类水平，使得海量文献数据的多学科划分成为可能。

构建多学科分类的学术知识图谱既有利于学术资源的整合与应用，又促进学术知识的融合与交叉。

发明内容

本申请提出一种基于多学科分类的中文学术知识图谱构建方法，以解决学术资源庞杂混乱，存储、检索困难，学术论文领域划分混乱，缺少多学科支持的问题。

本申请提供了一种多学科分类的中文学术知识图谱的构建方法，所述构建步骤包括：

步骤S101，获取多来源的初始中文文献数据，其中包括论文题目、作者、单位、摘要、发表载体、时间、领域等基本信息，生成初始文献数据集；

步骤S102，设计领域与学科间类别映射，提取部分初始文献数据集中的数据进行初步映射，生成单学科分类的学术文献数据集；

步骤S103，将所述单学科分类的学术文献数据集输入预设学科分类模型进行训练，生成学科分类模型；

步骤S104，将初始文献数据集输入学科分类模型，完成初始文献数据集的多学科分类，生成多学科分类的文献数据集；

步骤S105，通过预设本体模型和预设关系抽取模型，对所述多学科分类的文献数据集进行实体和关系抽取，生成三元组数据，构建多学科分类的中文学术知识图谱。

在步骤S101中获取多来源的初始中文文献数据，生成初始文献数据集包括：通过selenium数据采集工具获取多来源的初始中文文献数据；获取多个来源的类别信息建立类别url集合；依次遍历所述类别url集合中的类别url，获取所述类别url下的所有中文文献url，建立文献url集合；依次遍历所述文献url集合中的文献url，解析所述词条url的页面结构提取初始中文文献的公开信息，整理生成初始文献数据集。

在步骤S102中，设计领域与学科间类别映射，提取部分初始文献数据集中的数据进行初步映射，生成单学科分类的学术文献数据集包括：将多个来源的原始领域信息分别映射到对应的学科类别，抽取部分初始文献数据集中的数据，根据得到的类别映射，重新划分学科，生成单学科分类的学术文献数据集，用于学科分类模型的训练。

在步骤S103中，将单学科分类的学术文献数据集输入预设学科分类模型进行训练，生成学科分类模型包括：将单学科分类的学术文献数据集分成若干大小相等的batch，输入预训练语言模型得到句子的向量表示，将句子的向量表示输入文本分类模型和一个激活函数中得到分类结果，再通过反向传播算法更新模型参数，经过若干个epoch的训练后，生成学科分类模型。

在步骤S104中，将初始文献数据集输入学科分类模型，完成初始文献数据集的多学科分类，生成多学科分类的文献数据集包括：对于初始文献数据集中每一个文献数据：一、首先将数据中的摘要按标点符号进行分句处理；二、将处理好的每一个分句分别输入到上述学科分类模型中，得到分句的学科分类；三、多对个分句学科分类进行堆叠集成，得到所属文献的多学科分类；四、最后整理数据集中的所有完成多学科分类数据，生成多学科分类的文献数据集。

在步骤S105中，通过预设本体模型和预设实体关系抽取模型，对所述多学科分类的文献数据集进行实体和关系抽取，生成三元组数据，构建多学科分类的中文学术知识图谱包括：通过基于规则的关系抽取模型，对所述多学科分类的文献数据集进行实体关系抽取；根据预设本体模型和实体关系抽取结果，生成三元组数据，其中所述三元组数据的类型包括<实体，关系，实体>和<实体，属性，属性值>；整合三元组数据构建多学科分类的中文学术知识图谱。

在构建多学科分类的学术知识图谱后，方法包括：将知识图谱中的三元组数据转换成RDF格式存储到Apache Jena提供的TDB2数据库中；在学术知识图谱展示时，通过SPARQL查询获取TDB2数据库中对应的三元组数据，将三元组数据转化成RDF格式的文件；利用所述转化后的RDF文件对web页面进行渲染，完成学术知识图谱的可视化展示。

本申请提供了一种基于多学科分类的中文学术知识图谱构建方法，通过获取多来源的初始中文文献数据，其中包括论文题目、作者、单位、摘要、发表载体、时间、领域等基本信息，生成初始文献数据集；设计领域与学科间类别映射，提取部分初始文献数据集中的数据进行初步映射，映射到相应的学科中，生成单学科分类的学术文献数据集；将单学科分类的学术文献数据集输入预设学科分类模型，生成学科分类模型，将初始文献数据集输入完成训练的学科分类模型，完成初始文献数据集的多学科分类，生成多学科分类的文献数据集；通过预设本体模型与实体和关系抽取模型，对多学科分类文献数据集进行实体和关系抽取，生成三元组数据，构建多学科分类的中文学术知识图谱，解决了学术资源庞杂混乱，存储、检索困难，学术论文领域划分混乱，缺少多学科支持的问题。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中以流程图和示意图的形式介绍了本方法的步骤流程及主要算法。本领域技术人员应该理解，这些附图未必是可直接实施的。本发明的目标及特征考虑到如下结合附图的描述将更加明显，在附图中：

图1为基于学科分类的学术知识图谱构建方法流程示意图。

图2为获取初始文献数据流程示意图。

图3为学科分类模型结构图。

图4为Bert模型输入预处理示意图。

图5为CNN模型结构图。

图6为多学科分类结构示意图。

图7为本体模型结构示意图。

具体实施方式

为了使得本发明能够针对其发明要点更加明显易懂，下面将结合附图和实例对本发明作进一步的说明。在下面的描述中阐述了很多细节和具体实例，提供这些实例是为了能够更透彻地理解本发明，并且能够将本发明完整形象地传达给本领域的技术人员。虽然本发明能够以很多不同于此的描述的其它方式实施，但是本领域技术人员可以在不违背本发明内涵的情况下做相应的推广，因此本发明不受下面公开的具体实例及具体附图所限制。

虽然本发明已经参考特定的说明性实施例进行了描述，但是不会受到这些实施例的限定而仅仅受到附加权利要求的限定。本领域技术人员应当理解可以在不偏离本发明的保护范围和精神的情况下对本发明的实施例能够进行改动和修改。

图1是本发明的多学科分类的中文学术知识图谱的构建方法的流程示意图，根据图1所示，本方法包括以下步骤：

步骤S101，获取多来源的初始中文文献数据，生成初始文献数据集。

具体地，图2是获取初始文献数据的流程示意图。如图2所示，通过selenium等数据采集工具解析检索url的内容，筛选出所有文献分类url建立一个类别url集合；依次遍历类别url集合中的各个类别url并进行检索；对于每一个类别url，获取到检索结果，筛选出所有文献url组成文献url集合；遍历文献url集合中的所有文献url，对于每一个文献url，通过selenium解析其页面结构及页面信息，对页面信息进行整理生成文献数据。

需要说明的是，多来源主要包括各学术网站(如中国知网、万方学术等)，各个来源站的页面结构差别很大，需要单独设计解析方法。由于此方案获取到的数据信息庞杂，会存在一定数量的低质量数据，如会议纲要、会议致辞等无效数据，所以在检索时需要对检索内容进行限制，如检索范围设定为SCI、EI等文献索引收录的期刊，设定标题最小字数限制等，这样对提高文献数据的质量大有益处。本发明专注于中文学术知识图谱的建立，所以，在检索时需要筛选中文文献，由于站点限制，无法直接筛选，需要在检索结果中自行判断，按标题和摘要中中文比例进行筛选。获取到的具体数据类别如下：标题、领域、作者、机构、摘要、关键字、会议名称、会议时间、会议地点、期刊名称、期刊年份、期刊卷数、期刊期数。

步骤S102，设计领域与学科间类别映射，提取部分初始文献数据集中的数据进行初步映射，生成单学科分类的学术文献数据集。

具体地，对所获去的初始文献数据集中的每篇文献，在步骤S101中所述数据类别中均有领域类别，这是依据中国图书馆分类法进行领域划分，将中国图书馆分类法的所有领域均映射到教育部公布的一级学科(交叉学科除外)中。然后将初始文献数据集的领域类别删除，增加学科类别，将每篇文献均划分到映射后的学科类别中，完成初始文献数据集的单学科划分，生成单学科分类的学术文献数据集。

需要说明的是，在做学科映射工作时，有几点需要注意。一、为减小工作量，在映射相对精确的原则上，对中国图书馆分类法的领域进行学科类别映射的过程中，采取最大匹配原则，例如学术网站中的“核科学技术”这一领域，下辖“核燃料及其生产”、“加速器”等等细分领域，根据最大匹配原则，“核科学技术“及其所辖细分领域均应映射到“核科学与技术”学科。二、学科目录中的某些学科也存在相似度极高的情况，需要予以合并，如“化学”和“化学工程与技术”，虽然一个属于理学范畴，另一个属于工学范畴，但在学术文献的研究内容上，存在极高的重合度，因此需要合并处理。三、从学术网站获取的领域类别由于领域交叉等情况无法映射到具体的某一个学科类别，需要予以排除。

步骤S103，将单学科分类的学术文献数据集输入预设学科分类模型进行训练，生成学科分类模型。

具体地，将单学科分类的学术文献数据集中的文献的文献摘要输入到Bert模型中得到文献摘要的向量表示，将文献摘要的向量表示输入到CNN模型中并使CNN模型输出接入一个全连接层和softmax函数得到学科分类预测，使用得到的学科分类预测和真实分类计算损失函数，最后根据损失函数和前述模型的计算结果基于梯度下降算法作反向传播更新模型参数完成一次训练。重复上述步骤直至损失函数降低到阈值以下。

需要说明的是，图3是文本分类模型结构图。如图3所示，特征表示方面，我们可以直接使用Bert的特征表示作为该任务的词嵌入特征。文本分类方面，将特征表示输出的特征向量输入到卷积神经网络CNN中，利用多个不同size的kernel来提取句子中的关键信息，从而能够更好地捕捉局部相关性。

在步骤S103中，在将文献摘要输入Bert模型获取向量表示前需要进行预处理工作。图4是Bert模型输入预处理示意图。如图4所示，需要进行如下预处理：①Bert模型要求输入以[CLS]开头，以[SEP]结尾，所以要在摘要开头和结尾分别加入[CLS]和[SEP]标志。②规定Bert模型的输入长度为512，对文献摘要做长截短补，过长的摘要需要截取大于512字的部分，过短的摘要需要在后面补[PAD]标志，对于长截短补的摘要，需要一个mask向量，区分摘要部分(用1表示)和补充部分(用0表示)③Bert属于预训练语言模型，已经经过大量的语料训练，提供各个字的原始向量表示作为Bert输入，需要将文献摘要中的每一个字转换为原始向量的id表示，以便Bert识别。经过预处理后的摘要如图4所示，id₁、id₂等表示每个单词在单词表中的向量id。最后的n×k的矩阵表示处理后的摘要输入Bert模型后，Bert模型根据向量id查询到的原始向量矩阵，n表示每个摘要预处理后的长度，k表示词向量维度，其中n＝512，k＝768。综上，Bert的输入分为两部分，第一部分是摘要部分，尺寸是n×k，即512×768；第二部分是mask向量部分，尺寸与摘要部分相同。预处理后的摘要输入Bert后得到特征向量的输出，输出尺寸是n×k。

进一步的，图5是CNN模型结构图。如图5所示，CNN模型分为三层：第一层为输入层。输入层是一个n×k的矩阵，其中n为一个句子中的单词数，k是每个词对应的词向量的维度,使用x_i表示句子中第i个单词的k维词嵌入。第二层为卷积层，在输入尺寸为n×k的矩阵上，使用一个卷积核w(一个尺寸为h×k的卷积核)与一个窗口x_i:i+h-1进行卷积操作，产生一个特征c_i，即：c_i＝f(w·x_i:i+h-1+b)，其中x_i:i+h-1代表由输入矩阵的第i行到第i+h-1行所组成的一个大小为h×k的窗口，由x_i、x_i+1、...、x_i+h-1拼接而成。h表示窗口中的单词数，w为h×k维的权重矩阵，b为偏置参数，f为非线性函数。过滤器filter应用到一个句子上，从上往下一次移动一步(i＝1...n-h+1)，如在x_1:h上经卷积操作得到c₁，在x_2:h+1上经卷积操作得到c₂，然后将它们拼接起来得到c＝[c₁,c₂,...,c_n-h+1]；第三层是池化层。如图5中所示的网络采用了最大池化，即为从每个滑动窗口产生的特征向量中筛选出一个最大的特征，然后将这些特征拼接起来构成新的向量表示。得到文本句子的新的向量表示之后接入一个全连接层，并使用Softmax激活函数输出每个类别的概率，根据概率和损失函数基于梯度下降算法作反向传播更新模型参数完成训练。

步骤S104，将初始文献数据集输入完成训练的学科分类模型，完成初始文献数据集的多学科分类，生成多学科分类的文献数据集。

具体地，图6为多学科分类结构示意图，如图6所示，将初始文献数据集中文献的摘要部分以标点为界限进行分句处理，将所有分句分别输入学科分类模型得到n个学科分类，去除其中预测概率值小于阈值的学科，得到文献的m个学科分类，最后将m个学科分类集成，即合并相同的学科分类，计算各学科分类在m个学科分类所占比例，按照比例数值排序，得到文献所属的所有学科分类。

需要说明的是，在计算比例数值时，假设模型已经预测出m个学科分类，对于学科分类m_i，其预测概率值为p_i，那么对于相同的学科预测，累加其所有概率值得到比例数值，即P(x)＝∑p_i(m_i＝x)。对所有比例数值进行归一化处理，得到本篇文献中的学科占比。

步骤S105，通过预设本体模型和预设关系抽取模型，对多学科分类的文献数据集进行实体和关系抽取，生成三元组数据，构建多学科分类的中文学术知识图谱。

具体地，设计本体模型，根据本体模型对多学科分类的文献数据集进行实体抽取，根据本体模型中本体间的关系使用基于规则的关系抽取模型对多学科分类的文献数据集进行关系抽取。获得所有实体和关系后，整理生成SPO三元组，具体的三元组类型包括<实体，关系，实体>，<实体，属性，属性值>。整理所有三元组，构建多学科分类的中文学术知识图谱。

步骤S105中的本体设计依据需求进行，其中既包括文献的基础数据又包括文献的学科分类数据。具体的本体类别如下：文献、作者、机构、期刊、会议、学科。

步骤S105中，根据本体模型绘制的本体模型结构示意图如图7所示，其中矩形代表本体，连线代表关系或属性，椭圆形代表属性值。依据本体模型和关系抽取模型抽取到的三元组如下：<文献id，类别，文献>,<文献id，标题，标题值>,<文献id，摘要，摘要值>,<文献id，分类到，学科id>,<文献id，关键字，关键字值>,<文献id，作者是，作者id>,<文献id，属于，机构id>,<文献id，被发布，会议id>,<文献id，被发布，期刊id>,<作者id，类别，作者>,<作者id，姓名，姓名值>,<作者id，隶属于，机构id>,<机构id，类别，机构>,<机构id，名称，名称值>,<会议id，类别，会议>,<会议id，会议名，会议名值>,<会议id，时间，时间值>,<会议id，地点，地点值>,<期刊id，类别，期刊>,<期刊id，期刊名，期刊名值>,<期刊id，期数，期数值>,<学科id，类别，学科>,<学科id，学科名，学科名值>。

在构建多学科分类的学术知识图谱后，仍需要将其存储在网络上，使其便于展示和使用，具体步骤如下：将知识图谱中的三元组数据转换为RDF文件存储到Apache Jena的TDB2数据库中；在学术知识图谱展示时，通过SPARQL查询获取TDB2数据库中对应的三元组数据，将三元组数据转化成RDF格式的文件；利用所述转化后的RDF文件对web页面进行渲染，完成学术知识图谱的可视化展示。

需要说明的是，RDF为目前描述知识图谱最常用的标准，使用RDF便于和其他学术知识图谱融合。RDF(Resource Description Framework，资源描述框架)是一种资源描述语言，它受到元数据标准、框架系统、面向对象语言等多方面的影响，被用来描述各种网络资源，其出现为人们在Web上发布结构化数据提供一个标准的数据描述框架。使用RDF语言，有利于在网络上形成人机可读，并可由机器自动处理的文件。

Claims

1.一种基于多学科分类的中文学术知识图谱构建方法，其特征在于包括以下步骤：

步骤S103，将所述单学科分类的学术文献数据集输入预设学科分类模型，完成学科分类模型训练，生成学科分类模型；

步骤S104，将初始文献数据集输入完成训练的学科分类模型，完成初始文献数据集的多学科分类，生成多学科分类的文献数据集；

2.根据权利要求1所述的一种基于多学科分类的中文学术知识图谱构建方法，其特征在于步骤S102中生成单学科分类的学术文献数据集的具体方法为：对所获去的初始文献数据集中的每篇文献，在步骤S101中所述数据类别中均有领域类别，这是依据中国图书馆分类法进行领域划分，将中国图书馆分类法的所有领域依据预设规则映射到教育部公布的相应一级学科中；具体规则包括，最大领域匹配原则、舍弃多学科交叉领域文献、合并高匹配度学科等；然后将初始文献数据集的领域类别删除，增加学科类别，将每篇文献均划分到映射后的学科类别中，完成初始文献数据集的单学科划分，生成单学科分类的学术文献数据集。

3.根据权利要求1所述的一种基于多学科分类的中文学术知识图谱构建方法，其特征在于步骤S103中将单学科分类的学术文献数据集输入预设学科分类模型进行训练，生成学科分类模型的具体方法为：将单学科分类的学术文献数据集中的文献的文献摘要输入到预训练语言模型中得到文献摘要的向量表示，将文献摘要的向量表示输入到学科分类模型中并使学科分类模型输出接入一个全连接层和激活函数得到学科分类预测，使用得到的学科分类预测和真实分类计算损失函数，最后根据损失函数和前述模型的计算结果基于反向传播算法更新模型参数完成一次训练。重复上述步骤直至损失函数降低到阈值以下。

4.根据权利要求1所述的一种基于多学科分类的中文学术知识图谱构建方法，其特征在于步骤S104中将初始文献数据集输入学科分类模型，完成初始文献数据集的多学科分类，生成多学科分类的文献数据集的具体方法为：将初始文献数据集中文献的摘要部分以标点为界限进行分句处理，将所有分句分别输入学科分类模型得到n个学科分类，去除其中预测概率值小于阈值的学科，得到文献的m个学科分类，最后将m个学科分类集成，即合并相同的学科分类，计算各学科分类在m个学科分类所占比例，按照比例数值排序，得到文献所属的所有学科分类。

5.根据权利要求1所述的一种基于多学科分类的中文学术知识图谱构建方法，其特征在于步骤S105中通过预设本体模型和预设关系抽取模型，对所述多学科分类的文献数据集进行实体和关系抽取，生成三元组数据，构建多学科分类的中文学术知识图谱具体方法为：根据预设本体模型对多学科分类的文献数据集进行实体抽取，根据本体模型中本体间的关系使用基于规则的关系抽取模型对多学科分类的文献数据集进行关系抽取，具体本体模型包括，文献、作者、机构、期刊、会议、学科、相互关系及其所属属性；获得以文献为主的所有实体和关系后，整理生成SPO三元组，具体的三元组类型包括<实体，关系，实体>，<实体，属性，属性值>，整理所有三元组，构建多学科分类的中文学术知识图谱。