CN111339318B - 基于深度学习的大学计算机基础知识图谱构建方法 - Google Patents
基于深度学习的大学计算机基础知识图谱构建方法 Download PDFInfo
- Publication number
- CN111339318B CN111339318B CN202010132852.1A CN202010132852A CN111339318B CN 111339318 B CN111339318 B CN 111339318B CN 202010132852 A CN202010132852 A CN 202010132852A CN 111339318 B CN111339318 B CN 111339318B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- entity
- knowledge point
- basic
- bert
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习方法的大学计算机基础知识图谱构建方法;采用BERT‑IDCNN‑CRF算法训练知识点实体识别模型,从大学计算机基础课本文本内容中自动抽取知识点实体;采用BERT‑BiLSTM‑CNN算法训练关系识别模型,自动抽取知识点实体之间的关系;基于word2vec生成知识点实体词向量,通过计算知识点实体之间的相似度进行实体消歧。大大减少了人工构建大学计算机基础知识图谱的工作量,省时省力。
Description
技术领域
本发明属于人工智能领域的一个重要方向,具体涉及一种基于深度学习的大学计算机基础知识图谱构建方法。
背景技术
伴随着信息技术发展的突飞猛进,人工智能技术已经延伸到各行各业,并与许多传统行业有效地结合到一起,其中“互联网+教育”的模式应用十分广泛。大学计算机基础对于当代大学生是一门非常重要的基础课,这门课程涵盖了关于计算机的多个方面,包含计算机的起源与发展、硬件组成、操作系统、计算机网络、算法与数据结构、常用的办公软件操作等内容。通过学习大学计算机基础这门课程,学生对计算机的历史,计算机的组成结构、工作方式,计算机网络的工作机制,程序的设计可以有一个科学清楚的认识。
但是由于大学计算机基础知识面覆盖广,知识点较为繁杂,大部分学生难以系统地掌握所学知识点,对知识点的理解是孤立零散的,而效果好的学习应该对知识点的掌握是系统化的,结构清晰的。所以将大学计算机基础的知识点构建成知识图谱,利用知识图谱强大的语义处理能力和开放互联能力解决这个问题是十分有必要的。而人工构建知识图谱的工作量是十分巨大的,需要耗费大量的人力物力。本发明采用基于深度学习的方法训练模型,经过训练的模型可以自动抽取大学计算机基础课本文本内容中的实体以及实体之间的关系,减少了人工构建图谱的工作量。
发明内容
本发明的目的是提供一种基于深度学习方法的大学计算机基础知识图谱构建方法,解决了现有技术中存在的人工构建知识图谱工作量大,费时费力的问题。
本发明一种基于深度学习方法的大学计算机基础知识图谱构建方法,采用BERT-IDCNN-CRF算法训练知识点实体识别模型,从大学计算机基础课本文本内容中自动抽取知识点实体;采用BERT-BiLSTM-CNN算法训练关系识别模型,自动抽取知识点实体之间的关系;基于word2vec生成知识点实体词向量,通过计算知识点实体之间的相似度进行实体消歧。
知识图谱构建方法具体包括以下步骤:
步骤1,对知识点实体识别训练集的语料进行预处理,分离文本中的标点符号,将文本以句号划分以及词性标注;
步骤2,使用BERT-IDCNN-CRF算法进行训练生成知识点实体识别模型;
步骤3,对关系识别训练集的语料进行预处理,分离文本中的标点符号,将文本以句号划分以及词性标注;
步骤4,使用BERT-BiLSTM-CNN算法进行训练生成关系识别模型;
步骤5,对大学计算机基础课本文本内容进行预处理,分离文本中的标点符号以及将文本以句号划分;
步骤6,将步骤5预处理过的大学计算机基础课本内容输入步骤2生成的知识点实体识别模型中,抽取知识点实体;
步骤7,对步骤6获取到的知识点实体采用基于word2vec计算知识点实体相似度的方法对知识点实体表达的歧义进行消除;
步骤8,对大学计算机基础课本的各级目录通过人工筛选的方式获取知识面实体;
步骤9,将步骤6、步骤7提取的知识点实体、知识面实体储存到实体数据库;
步骤10,将步骤5预处理过的大学计算机基础课本内容输入步骤4生成的关系识别模型中,抽取知识点之间的关系;
步骤11,基于匹配算法提取知识面实体之间,知识面实体与知识点实体之间的关系;
步骤12,对步骤9、步骤10提取的关系信息,存入关系信息数据库;
步骤13,将实体数据库中的实体数据和关系数据库中的关系数据相匹配,构成形如“实体-关系-实体”的RDF三元组形式;
步骤14,将步骤13中得到的RDF三元组存储到neo4j图形数据库中,得到大学计算机基础知识图谱;
步骤2中,使用BERT-IDCNN-CRF算法训练实体识别模型,整个模型分为三层,分别是BERT层、IDCNN层和CRF层;BERT预训练模型可以得到上下文相关的字向量表示,IDCNN层抽取文本的特征,CRF层能通过考虑标签之间的相邻关系得到概率最大的标签序列。
步骤4中,使用BERT-BiLSTM-CNN算法训练关系识别模型,整个模型分为三层,分别是BERT层、BiLSTM层和CNN层;BERT层可以得到一个字的上下文相关表示,能够表示句子的句法特征,BiLSTM层可以从正向和反向充分考虑句子结构表达的信息,提取句子的特征,因为在自然语言处理中,单词在句中的位置和语义有很大关系,CNN能够抽取更为丰富的文本特征信息,并对冗余的信息进行过滤;
步骤8中,实体有两种类型,分别为知识面实体和知识点实体;知识面实体为概括性的知识,知识点实体为知识面实体下更为具体的知识,例如“计算机网络”为一个一个概括性的知识,是一个知识面,“ARPANET”则为“计算机网络”下一个具体的知识,是一个知识点。因为大学计算机基础课本中,目录中包含的是所有概括性的知识,所以从目录中抽取知识面实体。
步骤11中,在大学计算机基础知识图谱中,知识面实体之间有前驱关系,前驱关系代表了知识的连续性,只有掌握了前一部分知识,才可以掌握下一部分知识,知识面实体与知识点实体之间有包含关系。
本发明的有益效果是:
本发明针对人工构建大学计算机基础知识图谱的工作量大的问题,提出了一种基于深度学习的大学计算机基础知识图谱构建方法。采用BERT-IDCNN-CRF算法训练知识点实体识别模型,从大学计算机基础课本文本内容中自动抽取知识点实体;采用BERT-BiLSTM-CNN算法训练关系识别模型,自动抽取知识点实体之间的关系;基于word2vec生成知识点实体词向量,通过计算知识点实体之间的相似度进行实体消歧;大大减少了人工构建大学计算机基础知识图谱的工作量。
附图说明
图1为本发明基于深度学习的大学计算机基础知识图谱构建方法总流程图;
图2为本发明基于BERT-IDCNN-CRF算法构建知识点实体识别模型的过程;
图3为本发明基于BERT-BiLSTM-CNN算法构建关系识别模型的过程;
图4为本发明在构建大学计算机基础知识图谱时进行知识点实体消歧的过程。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
如图1,本发明基于深度学习的大学计算机基础知识图谱构建方法,具体包括以下步骤:
步骤1.1,读取实体训练集的语料,对文本进行清洗,分离文本中的标点符号以及将文本以句号划分;
步骤1.2,对步骤1.1中经过清洗的文本进行词性标注,本发明采用BIO标注模式;
步骤2,如图2所示,对经过预处理的实体训练集语料使用BERT-IDCNN-CRF算法进行训练并生成实体抽取模型,构建实体识别模型的伪代码如下:
步骤3.1,读取关系训练集的语料,对文本进行清洗,分离文本中的标点符号以及将文本以句号划分;
步骤3.2,对步骤3.1中经过清洗的文本进行词性标注,本发明采用的是PTB项目的标注模式;
步骤4,如图3所示,使用BERT-BiLSTM-CNN算法进行训练并生成关系抽取模型,构建关系识别模型的伪代码如下:
步骤5,对大学计算机基础课本内容进行预处理,分离文本中的标点符号以及将文本以句号划分;
步骤6,将步骤5预处理过的大学计算机基础课本内容输入步骤2生成的实体识别模型中,抽取知识点实体;
步骤7,如图4所示,对步骤6获取到的知识点实体采用基于word2vec计算知识点实体相似度的方法对知识点实体表达的歧义进行消除,实体消歧的伪代码如下:
步骤8,对大学计算机基础课本的各级目录通过人工筛选的方式获取知识面实体;
步骤9,将步骤6、步骤7提取的知识点实体、知识面实体储存到实体数据库;
步骤10,将步骤5预处理过的大学计算机基础课本内容输入步骤4生成的关系识别模型中,抽取知识点之间的关系;
步骤11,基于匹配算法提取知识面实体之间,知识面实体与知识点实体之间的关系。对于知识面之间的关系,按照大学计算机基础课本目录中的知识面实体的先后顺序定义,知识面实体A1出现在知识面实体A2之前,则A1对A2有前驱关系;
步骤12,对步骤9、步骤10提取的关系信息,存入关系信息数据库;
步骤13,将实体数据库中的实体数据和关系数据库中的关系数据相匹配,构成形如“实体-关系-实体”的RDF三元组形式;
步骤14,将步骤13中得到的RDF三元组存储到neo4j图形数据库中,得到大学计算机基础知识图谱。
本发明采用BERT-IDCNN-CRF算法训练知识点实体识别模型,从大学计算机基础课本文本内容中自动抽取知识点实体;采用BERT-BiLSTM-CNN算法训练关系识别模型,自动抽取知识点实体之间的关系;基于word2vec生成知识点实体词向量,通过计算知识点实体之间的相似度进行实体消歧;大大减少了人工构建大学计算机基础知识图谱的工作量。
Claims (3)
1.一种基于深度学习方法的大学计算机基础知识图谱构建方法,其特征在于,包括以下步骤:
步骤1,对知识点实体识别训练集的语料进行预处理,分离文本中的标点符号,将文本以句号划分以及词性标注;
步骤2,使用BERT-IDCNN-CRF算法进行训练生成知识点实体识别模型;
步骤3,对关系识别训练集的语料进行预处理,分离文本中的标点符号,将文本以句号划分以及词性标注;
步骤4,使用BERT-BiLSTM-CNN算法进行训练生成关系识别模型;
步骤5,对大学计算机基础课本文本内容进行预处理,分离文本中的标点符号以及将文本以句号划分;
步骤6,将步骤5预处理过的大学计算机基础课本内容输入步骤2生成的知识点实体识别模型中,抽取知识点实体;
步骤7,对步骤6获取到的知识点实体采用基于word2vec计算知识点实体相似度的方法对知识点实体表达的歧义进行消除;
步骤8,对大学计算机基础课本的各级目录通过人工筛选的方式获取知识面实体;
步骤9,将步骤6、步骤7提取的知识点实体、知识面实体储存到实体数据库;
步骤10,将步骤5预处理过的大学计算机基础课本内容输入步骤4生成的关系识别模型中,抽取知识点之间的关系;
步骤11,基于匹配算法提取知识面实体之间,知识面实体与知识点实体之间的关系;
步骤12,对步骤9、步骤10提取的关系信息,存入关系信息数据库;
步骤13,将实体数据库中的实体数据和关系数据库中的关系数据相匹配,构成形如“实体-关系-实体”的RDF三元组形式;
步骤14,将步骤13中得到的RDF三元组存储到neo4j图形数据库中,得到大学计算机基础知识图谱;
所述步骤2中,使用BERT-IDCNN-CRF算法训练实体识别模型,整个模型分为三层,分别是BERT层、IDCNN层和CRF层;BERT预训练模型可以得到上下文相关的字向量表示,IDCNN层抽取文本的特征,CRF层能通过考虑标签之间的相邻关系得到概率最大的标签序列;
所述步骤4中,使用BERT-BiLSTM-CNN算法训练关系识别模型,整个模型分为三层,分别是BERT层、BiLSTM层和CNN层; BERT层可以得到一个字的上下文相关表示,能够表示句子的句法特征;BiLSTM层可以从正向和反向充分考虑句子结构表达的信息,提取句子的特征;CNN能够抽取更为丰富的文本特征信息,并对冗余的信息进行过滤。
2.根据权利要求1所述的一种基于深度学习方法的大学计算机基础知识图谱构建方法,其特征在于,所述步骤8中,节点有两种类型,分别为知识面节点和知识点节点;知识面实体为概括性的知识,知识点实体为知识面实体下更为具体的知识,因为目录中包含的是所有概括性的知识,所以从目录中抽取知识面实体。
3.根据权利要求1所述的一种基于深度学习方法的大学计算机基础知识图谱构建方法,其特征在于,所述步骤11中,在大学计算机基础知识图谱中,知识面实体之间有前驱关系,前驱关系代表了知识的连续性,只有掌握了前一部分知识,才可以掌握下一部分知识,知识面实体与知识点实体之间有包含关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010132852.1A CN111339318B (zh) | 2020-02-29 | 2020-02-29 | 基于深度学习的大学计算机基础知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010132852.1A CN111339318B (zh) | 2020-02-29 | 2020-02-29 | 基于深度学习的大学计算机基础知识图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339318A CN111339318A (zh) | 2020-06-26 |
CN111339318B true CN111339318B (zh) | 2023-05-05 |
Family
ID=71183806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010132852.1A Active CN111339318B (zh) | 2020-02-29 | 2020-02-29 | 基于深度学习的大学计算机基础知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339318B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112015907A (zh) * | 2020-08-18 | 2020-12-01 | 大连东软教育科技集团有限公司 | 一种学科知识图谱快速构建方法、装置及存储介质 |
CN112101009B (zh) * | 2020-09-23 | 2024-03-26 | 中国农业大学 | 一种基于知识图谱的红楼梦人物关系框架相似度评判方法 |
CN113204970A (zh) * | 2021-06-07 | 2021-08-03 | 吉林大学 | 一种BERT-BiLSTM-CRF命名实体检测模型及装置 |
CN113989810A (zh) * | 2021-10-29 | 2022-01-28 | 深圳前海环融联易信息科技服务有限公司 | 基于深度学习的招标文书项目名称识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334186A (zh) * | 2019-07-08 | 2019-10-15 | 北京三快在线科技有限公司 | 数据查询方法、装置、计算机设备及计算机可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10170114B2 (en) * | 2013-05-30 | 2019-01-01 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
CN110598000B (zh) * | 2019-08-01 | 2023-06-09 | 达而观信息科技(上海)有限公司 | 一种基于深度学习模型的关系抽取及知识图谱构建方法 |
-
2020
- 2020-02-29 CN CN202010132852.1A patent/CN111339318B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334186A (zh) * | 2019-07-08 | 2019-10-15 | 北京三快在线科技有限公司 | 数据查询方法、装置、计算机设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
"A Movie Trailer Recommendation System Based on Pre-trained Vector of Relationship and Scenario Content Discovered from Plot Summaries and Social Media";Chun-Yu Chien等;《2019 International Conference on Technologies and Applications of Artificial Intelligence (TAAI)》;第1-4页 * |
"基于BERT-IDCNN-CRF的中文命名实体识别方法";李妮等;《山东大学学报(理学版)》;第102-109页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111339318A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339318B (zh) | 基于深度学习的大学计算机基础知识图谱构建方法 | |
CN110110054B (zh) | 一种基于深度学习的从非结构化文本中获取问答对的方法 | |
CN106951558B (zh) | 一种基于深度搜索的税务智能咨询平台的数据处理方法 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN112101028A (zh) | 一种多特征双向门控领域专家实体抽取方法及系统 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN113312922B (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN112101014A (zh) | 一种混合特征融合的中文化工文献分词方法 | |
CN113934909A (zh) | 基于预训练语言结合深度学习模型的金融事件抽取方法 | |
CN116070602B (zh) | 一种pdf文档智能标注与抽取方法 | |
CN111159356A (zh) | 基于教学内容的知识图谱构建方法 | |
CN111967267A (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN111209362A (zh) | 基于深度学习的地址数据解析方法 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及系统 | |
CN116258137A (zh) | 文本纠错方法、装置、设备和存储介质 | |
CN115935995A (zh) | 面向知识图谱生成的非遗丝织领域实体关系抽取方法 | |
CN106897274B (zh) | 一种跨语种的点评复述方法 | |
CN113609840B (zh) | 一种汉语法律判决摘要生成方法及系统 | |
CN109446522B (zh) | 一种试题自动分类系统及方法 | |
CN113361259B (zh) | 一种服务流程抽取方法 | |
CN112905746A (zh) | 一种基于知识图谱技术的制度档案知识挖掘处理方法 | |
CN116484852A (zh) | 一种基于关系图注意力网络的中文专利实体关系联合抽取方法 | |
Žitko et al. | Automatic question generation using semantic role labeling for morphologically rich languages | |
CN115017271A (zh) | 用于智能生成rpa流程组件块的方法及系统 | |
Yang et al. | A general solution and practice for automatically constructing domain knowledge graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |