CN111339318B

CN111339318B - 基于深度学习的大学计算机基础知识图谱构建方法

Info

Publication number: CN111339318B
Application number: CN202010132852.1A
Authority: CN
Inventors: 朱磊; 刘尧林; 黑新宏; 吕泓瑾; 冯林林; 张晋源; 王一川; 姬文江; 孟海宁
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-02-29
Filing date: 2020-02-29
Publication date: 2023-05-05
Anticipated expiration: 2040-02-29
Also published as: CN111339318A

Abstract

本发明公开了一种基于深度学习方法的大学计算机基础知识图谱构建方法；采用BERT‑IDCNN‑CRF算法训练知识点实体识别模型，从大学计算机基础课本文本内容中自动抽取知识点实体；采用BERT‑BiLSTM‑CNN算法训练关系识别模型，自动抽取知识点实体之间的关系；基于word2vec生成知识点实体词向量，通过计算知识点实体之间的相似度进行实体消歧。大大减少了人工构建大学计算机基础知识图谱的工作量，省时省力。

Description

基于深度学习的大学计算机基础知识图谱构建方法

技术领域

本发明属于人工智能领域的一个重要方向，具体涉及一种基于深度学习的大学计算机基础知识图谱构建方法。

背景技术

伴随着信息技术发展的突飞猛进，人工智能技术已经延伸到各行各业，并与许多传统行业有效地结合到一起，其中“互联网+教育”的模式应用十分广泛。大学计算机基础对于当代大学生是一门非常重要的基础课，这门课程涵盖了关于计算机的多个方面，包含计算机的起源与发展、硬件组成、操作系统、计算机网络、算法与数据结构、常用的办公软件操作等内容。通过学习大学计算机基础这门课程，学生对计算机的历史，计算机的组成结构、工作方式，计算机网络的工作机制，程序的设计可以有一个科学清楚的认识。

但是由于大学计算机基础知识面覆盖广，知识点较为繁杂，大部分学生难以系统地掌握所学知识点，对知识点的理解是孤立零散的，而效果好的学习应该对知识点的掌握是系统化的，结构清晰的。所以将大学计算机基础的知识点构建成知识图谱，利用知识图谱强大的语义处理能力和开放互联能力解决这个问题是十分有必要的。而人工构建知识图谱的工作量是十分巨大的，需要耗费大量的人力物力。本发明采用基于深度学习的方法训练模型，经过训练的模型可以自动抽取大学计算机基础课本文本内容中的实体以及实体之间的关系，减少了人工构建图谱的工作量。

发明内容

本发明的目的是提供一种基于深度学习方法的大学计算机基础知识图谱构建方法，解决了现有技术中存在的人工构建知识图谱工作量大，费时费力的问题。

本发明一种基于深度学习方法的大学计算机基础知识图谱构建方法，采用BERT-IDCNN-CRF算法训练知识点实体识别模型，从大学计算机基础课本文本内容中自动抽取知识点实体；采用BERT-BiLSTM-CNN算法训练关系识别模型，自动抽取知识点实体之间的关系；基于word2vec生成知识点实体词向量，通过计算知识点实体之间的相似度进行实体消歧。

知识图谱构建方法具体包括以下步骤：

步骤1，对知识点实体识别训练集的语料进行预处理，分离文本中的标点符号，将文本以句号划分以及词性标注；

步骤2，使用BERT-IDCNN-CRF算法进行训练生成知识点实体识别模型；

步骤3，对关系识别训练集的语料进行预处理，分离文本中的标点符号，将文本以句号划分以及词性标注；

步骤4，使用BERT-BiLSTM-CNN算法进行训练生成关系识别模型；

步骤5，对大学计算机基础课本文本内容进行预处理，分离文本中的标点符号以及将文本以句号划分；

步骤6，将步骤5预处理过的大学计算机基础课本内容输入步骤2生成的知识点实体识别模型中，抽取知识点实体；

步骤7，对步骤6获取到的知识点实体采用基于word2vec计算知识点实体相似度的方法对知识点实体表达的歧义进行消除；

步骤8，对大学计算机基础课本的各级目录通过人工筛选的方式获取知识面实体；

步骤9，将步骤6、步骤7提取的知识点实体、知识面实体储存到实体数据库；

步骤10，将步骤5预处理过的大学计算机基础课本内容输入步骤4生成的关系识别模型中，抽取知识点之间的关系；

步骤11，基于匹配算法提取知识面实体之间，知识面实体与知识点实体之间的关系；

步骤12，对步骤9、步骤10提取的关系信息，存入关系信息数据库；

步骤13，将实体数据库中的实体数据和关系数据库中的关系数据相匹配，构成形如“实体-关系-实体”的RDF三元组形式；

步骤14，将步骤13中得到的RDF三元组存储到neo4j图形数据库中，得到大学计算机基础知识图谱；

步骤2中，使用BERT-IDCNN-CRF算法训练实体识别模型，整个模型分为三层，分别是BERT层、IDCNN层和CRF层；BERT预训练模型可以得到上下文相关的字向量表示，IDCNN层抽取文本的特征，CRF层能通过考虑标签之间的相邻关系得到概率最大的标签序列。

步骤4中，使用BERT-BiLSTM-CNN算法训练关系识别模型，整个模型分为三层，分别是BERT层、BiLSTM层和CNN层；BERT层可以得到一个字的上下文相关表示，能够表示句子的句法特征，BiLSTM层可以从正向和反向充分考虑句子结构表达的信息，提取句子的特征，因为在自然语言处理中，单词在句中的位置和语义有很大关系，CNN能够抽取更为丰富的文本特征信息，并对冗余的信息进行过滤；

步骤8中，实体有两种类型，分别为知识面实体和知识点实体；知识面实体为概括性的知识，知识点实体为知识面实体下更为具体的知识，例如“计算机网络”为一个一个概括性的知识，是一个知识面，“ARPANET”则为“计算机网络”下一个具体的知识，是一个知识点。因为大学计算机基础课本中，目录中包含的是所有概括性的知识，所以从目录中抽取知识面实体。

步骤11中，在大学计算机基础知识图谱中，知识面实体之间有前驱关系，前驱关系代表了知识的连续性，只有掌握了前一部分知识，才可以掌握下一部分知识，知识面实体与知识点实体之间有包含关系。

本发明的有益效果是：

本发明针对人工构建大学计算机基础知识图谱的工作量大的问题，提出了一种基于深度学习的大学计算机基础知识图谱构建方法。采用BERT-IDCNN-CRF算法训练知识点实体识别模型，从大学计算机基础课本文本内容中自动抽取知识点实体；采用BERT-BiLSTM-CNN算法训练关系识别模型，自动抽取知识点实体之间的关系；基于word2vec生成知识点实体词向量，通过计算知识点实体之间的相似度进行实体消歧；大大减少了人工构建大学计算机基础知识图谱的工作量。

附图说明

图1为本发明基于深度学习的大学计算机基础知识图谱构建方法总流程图；

图2为本发明基于BERT-IDCNN-CRF算法构建知识点实体识别模型的过程；

图3为本发明基于BERT-BiLSTM-CNN算法构建关系识别模型的过程；

图4为本发明在构建大学计算机基础知识图谱时进行知识点实体消歧的过程。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图1，本发明基于深度学习的大学计算机基础知识图谱构建方法，具体包括以下步骤：

步骤1.1，读取实体训练集的语料，对文本进行清洗，分离文本中的标点符号以及将文本以句号划分；

步骤1.2，对步骤1.1中经过清洗的文本进行词性标注，本发明采用BIO标注模式；

步骤2，如图2所示，对经过预处理的实体训练集语料使用BERT-IDCNN-CRF算法进行训练并生成实体抽取模型，构建实体识别模型的伪代码如下：

步骤3.1，读取关系训练集的语料，对文本进行清洗，分离文本中的标点符号以及将文本以句号划分；

步骤3.2，对步骤3.1中经过清洗的文本进行词性标注，本发明采用的是PTB项目的标注模式；

步骤4，如图3所示，使用BERT-BiLSTM-CNN算法进行训练并生成关系抽取模型，构建关系识别模型的伪代码如下：

步骤5，对大学计算机基础课本内容进行预处理，分离文本中的标点符号以及将文本以句号划分；

步骤6，将步骤5预处理过的大学计算机基础课本内容输入步骤2生成的实体识别模型中，抽取知识点实体；

步骤7，如图4所示，对步骤6获取到的知识点实体采用基于word2vec计算知识点实体相似度的方法对知识点实体表达的歧义进行消除，实体消歧的伪代码如下：

步骤11，基于匹配算法提取知识面实体之间，知识面实体与知识点实体之间的关系。对于知识面之间的关系，按照大学计算机基础课本目录中的知识面实体的先后顺序定义，知识面实体A₁出现在知识面实体A₂之前，则A₁对A₂有前驱关系；

步骤14，将步骤13中得到的RDF三元组存储到neo4j图形数据库中，得到大学计算机基础知识图谱。

本发明采用BERT-IDCNN-CRF算法训练知识点实体识别模型，从大学计算机基础课本文本内容中自动抽取知识点实体；采用BERT-BiLSTM-CNN算法训练关系识别模型，自动抽取知识点实体之间的关系；基于word2vec生成知识点实体词向量，通过计算知识点实体之间的相似度进行实体消歧；大大减少了人工构建大学计算机基础知识图谱的工作量。

Claims

1.一种基于深度学习方法的大学计算机基础知识图谱构建方法，其特征在于，包括以下步骤：

步骤4，使用BERT-BiLSTM-CNN算法进行训练生成关系识别模型；

所述步骤2中，使用BERT-IDCNN-CRF算法训练实体识别模型，整个模型分为三层，分别是BERT层、IDCNN层和CRF层；BERT预训练模型可以得到上下文相关的字向量表示，IDCNN层抽取文本的特征，CRF层能通过考虑标签之间的相邻关系得到概率最大的标签序列；

所述步骤4中，使用BERT-BiLSTM-CNN算法训练关系识别模型，整个模型分为三层，分别是BERT层、BiLSTM层和CNN层； BERT层可以得到一个字的上下文相关表示，能够表示句子的句法特征；BiLSTM层可以从正向和反向充分考虑句子结构表达的信息，提取句子的特征；CNN能够抽取更为丰富的文本特征信息，并对冗余的信息进行过滤。

2.根据权利要求1所述的一种基于深度学习方法的大学计算机基础知识图谱构建方法，其特征在于，所述步骤8中，节点有两种类型，分别为知识面节点和知识点节点；知识面实体为概括性的知识，知识点实体为知识面实体下更为具体的知识，因为目录中包含的是所有概括性的知识，所以从目录中抽取知识面实体。

3.根据权利要求1所述的一种基于深度学习方法的大学计算机基础知识图谱构建方法，其特征在于，所述步骤11中，在大学计算机基础知识图谱中，知识面实体之间有前驱关系，前驱关系代表了知识的连续性，只有掌握了前一部分知识，才可以掌握下一部分知识，知识面实体与知识点实体之间有包含关系。