CN114896417A - 一种基于知识图谱构建计算机教育知识图谱的方法 - Google Patents

一种基于知识图谱构建计算机教育知识图谱的方法 Download PDF

Info

Publication number
CN114896417A
CN114896417A CN202210555029.0A CN202210555029A CN114896417A CN 114896417 A CN114896417 A CN 114896417A CN 202210555029 A CN202210555029 A CN 202210555029A CN 114896417 A CN114896417 A CN 114896417A
Authority
CN
China
Prior art keywords
knowledge
graph
data
education
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210555029.0A
Other languages
English (en)
Inventor
朱颢东
李红婵
路延通
韩朝阳
李展鹏
王建文
朱状
马钰
马紫帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN202210555029.0A priority Critical patent/CN114896417A/zh
Publication of CN114896417A publication Critical patent/CN114896417A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data

Abstract

本发明公开了一种基于知识图谱构建计算机教育知识图谱的方法,包括以下步骤:步骤一:构建教育知识图谱,S1:进行数据获取,S2:进行知识抽取,S3:进行知识标识,S4:进行知识存储,S5:进行知识融合,S6:进行质量控制,步骤二:教育知识图谱的平台建设,A:搭建网页,所述搭建网页包括教育知识图谱展示模块、智能问答模块和知识点查询模块。本发明基于互联网获取到的教育大数据构建面向教育大数据的知识图谱,以可视化的形式对网络安全知识进行直观展示,并对其中所存在的不完整知识利用知识图谱补全技术进行补全,解决了教学分析面临的信息采集不全和信息采集难度高的难度。

Description

一种基于知识图谱构建计算机教育知识图谱的方法
技术领域
本发明涉及知识图谱技术领域,特别涉及一种基于知识图谱构建计算机教育知识图谱的方法。
背景技术
将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论称为知识图谱。
大数据时代为当代教育模式的创新发展提供了新的发展环境,教学过程中产生的大量异构数据能为教学质量的精准分析与评估提供依据,目前教学分析由于没有完整的教育知识图谱,故面临着信息采集不全和信息采集难度高的难题。
发明内容
本发明的目的在于提供一种基于知识图谱构建计算机教育知识图谱的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于知识图谱构建计算机教育知识图谱的方法,包括以下步骤:
步骤一:构建教育知识图谱;
S1:进行数据获取,运用爬虫技术获取网络上的数据;
S2:进行知识抽取,从结构化、半结构化和非结构化的资源中进行实体提取、关系提取和属性提取;
S3:进行知识标识,采用三元组进行标识;
S4:进行知识存储,将爬取到的知识存储到Neo4j图数据库中;
S5:进行知识融合,对初步构建成的知识图谱中缺失实体的三元组进行补全,然后添加到知识图谱当中;
S6:进行质量控制,采用知识消歧、知识补全和知识更新进行教育知识图谱质量控制;
步骤二:教育知识图谱的平台建设:
搭建网页,所述搭建网页包括教育知识图谱展示模块、智能问答模块和知识点查询模块。
优选的,所述S1中数据来自于书籍、文献和技术网站,所述S1中爬虫技术是通过浏览器向服务器发送请求,获取到需要的数据,所述S1中使用Scrapy框架来实现数据爬取,Scrapy框架包含request、下载器、解析器和twisted。
优选的,所述S2中实体抽取是从文本中识别人名、地名和机构名并对其分类,所述S2中关系抽取是从一个文本数据中抽取两个实体的关系,所述S2中属性抽取是对时间和常量进行抽取。
优选的,所述S3中三元组表示为:
<数据结构、包括、数组>。
优选的,所述S4中采用Py2neo工具包来对数据进行存取操作,Py2neo应用程序与命令行能够与Neo4j建立连接。
优选的,所述S5中补全方式是检测出当前知识图谱中缺失的三元组
Figure BDA0003654534330000021
对于头和尾实体进行补全,需给定三元组的头和尾的实体以及关系,然后组成正确三元组的实体。
优选的,所述步骤二中搭建网页采用B/S架构;
所述步骤二中教育知识图谱展示模块使用Echarts来实现知识图谱的可视化,Echarts可视化开源框架是采用JavaScript技术,底层依靠矢量图形库ZRender,采用Canvas进行绘图,Echarts的关系图采用力引导布局算法,两节点较远时相互吸引,达到阈值又会相互排斥;
所述步骤二中知识点查询模块运用Python语言得到实体识别后的目标数组,并进行判断是实体查询还是关系查询,再执行Neo4j数据库的Cypher查询语句,将返回的数据处理成JSON格式并用ECharts关系图展示到前端;
所述步骤二中智能问答模块使用jieba分词中文分词来解析问题,并从知识图谱当中获取问题的回答然后返回到前端界面给以解答。
优选的,所述步骤二中网页使用步骤:
a:利用Cypher语句查询所有关系的数据;
b:数据处理,将数据转化成JSON格式;
c:点击知识图谱全貌选项卡时调用数据,以关系图的形式展示到前端。
优选的,所述步骤二中页面采用Layui提供的弹出框组件实现了点击图谱知识点弹出知识结构的功能,当点击图谱中的知识点时,界面右侧会弹出一个知识框,以input框的形式显示该知识的词条,同时获得修改权限后还能对其进行自由编辑;
所述步骤二中页面的右端采用css和js技术,在搜索框的下边展示了一个知识点球,点击计算机常见知识就可以展示知识图谱。
本发明的技术效果和优点:
(1)本发明基于表示学习的知识图谱补全技术加以应用,提升知识图谱的质量,并使用ECharts可视化库实现图谱的前端展示,设计了分级知识界面,并通过Flask框架实现系统前后端的交互,系统包括知识点查询、知识全图展示、知识路径查询和知识智能问答等功能,将复杂的计算机知识点可视化,简明清晰地展示知识点之间的关系,能够正确理解的语义进行Cypher查询并获取答案,帮助使用者更好的学习理解计算机课程内容。
附图说明
图1为本发明教育知识图谱构建流程图。
图2为本发明爬虫流程图。
图3为本发明系统流程图。
图4为本发明三元组补全效果展示一示意图。
图5为本发明三元组补全效果展示二示意图。
图6为本发明知识点检索模块流程图。
图7为本发明智能问答模块流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了如图1-7所示的一种基于知识图谱构建计算机教育知识图谱的方法,包括以下步骤:
步骤一:构建教育知识图谱;
S1:进行数据获取,运用爬虫技术获取网络上的数据,S1中数据来自于书籍、文献和技术网站,S1中爬虫技术是通过浏览器向服务器发送请求,获取到需要的数据,爬虫技术又称网络蜘蛛,是数据采集中常用的一种技术程序,爬虫技术模拟浏览器向服务器发送请求,获取到需要的数据,同时它也可以为搜索引擎中数据的获取提供强有力的支持,因此也是搜索引擎的组成部分,使用爬虫技术进行数据获取包括网站抓取、页面分析和数据存储三个流程,S1中使用Scrapy框架来实现数据爬取,Scrapy框架包含request、下载器、解析器和twisted,request是指异步调度和处理,下载器选用多线程的Downloader,解析器选用selector,twisted是指异步处理,Scrapy框架对于网站的内容爬取,其速度非常快捷,Scrapy框架简单、高效,且被广泛应用于数据的挖掘、监测和自动测试;
S2:进行知识抽取,从结构化、半结构化和非结构化的资源中进行实体提取、关系提取和属性提取,S2中实体抽取是从文本中识别人名、地名和机构名并对其分类,S2中关系抽取是从一个文本数据中抽取两个实体的关系,S2中属性抽取是对时间和常量进行抽取;
S3:进行知识标识,采用三元组进行标识,S3中三元组表示为:<数据结构、包括、数组>;
S4:进行知识存储,将爬取到的知识存储到Neo4j图数据库中,S4中采用Py2neo工具包来对数据进行存取操作,Py2neo应用程序与命令行能够与Neo4j建立连接,Py2neo封装了官方驱动程序,添加了对HTTP的支持、高级别的API、OGM、管理工具、交互式控制台和用于Pygaments的Cypher-Lexer功能,Py2neo包提供了Neo4j的解析和存储功能,利用py2neo包,我们可以在计算机内存中建立和存储Neo4j的模型,通过生成节点与关系、过滤重复的数据,最终可生成Neo4j图形数据库;
S5:进行知识融合,对初步构建成的知识图谱中缺失实体的三元组进行补全,然后添加到知识图谱当中,使知识图谱更加的完善,S5中补全方式是检测出当前知识图谱中缺失的三元组
Figure BDA0003654534330000051
对于头和尾实体进行补全,需给定三元组的头和尾的实体以及关系,然后组成正确三元组的实体;
S6:进行质量控制,构建知识图谱过程中,会出现指称项与事实对象之间的歧义和知识缺失的数据质量问题,可采用知识消歧、知识补全和知识更新进行教育知识图谱质量控制;
步骤二:教育知识图谱的平台建设:
搭建网页,搭建网页包括教育知识图谱展示模块、智能问答模块和知识点查询模块,步骤二中教育知识图谱展示模块使用Echarts来实现知识图谱的可视化,Echarts可视化开源框架是采用JavaScript技术,底层依靠矢量图形库ZRender,采用Canvas进行绘图,Echarts的关系图采用力引导布局算法,两节点较远时相互吸引,达到阈值又会相互排斥,Echarts拥有丰富的组件和高度个性化的可视化方案,使用简单,通过简单的配置就能达到想要的形式和视觉效果,基于ECharts的可视化图表可以跨终端显示,兼容性比较强;
步骤二中智能问答模块使用jieba分词中文分词来解析问题,并从知识图谱当中获取问题的回答然后返回到前端界面给以解答,中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自然语言处理时,通常需要先进行分词,jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图,再采用了动态规划查找最大概率路径,找出词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法,可以通过简单的处理就能构建出自定义词典,智能问答模块中设计了一个基于LTP技术的语句检索模型,主要实现三个子模块:分词、词性标注和实体抽取,能够理解的语义返回符合条件的结果,分词是对语句处理的基础工作,能否正确分词会直接影响搜索结果,在智能问答模块中,输入问句后首先会根据自定义词典进行语句分词,经过LTP的处理得到目标数组,接着对目标数组进行判断,当结果为空时会直接对输入问句进行查询,当只得到一个值时,就查询该概念实体,当数组中有实体和关系时,会调用知识库的关系查询;
步骤二中知识点查询模块运用Python语言得到实体识别后的目标数组,并进行判断是实体查询还是关系查询,再执行Neo4j数据库的Cypher查询语句,将返回的数据处理成JSON格式并用ECharts关系图展示到前端;
知识点查询模块中具有图谱下载功能,学习者搜索到想要的知识图谱关系图后,可点击导出为图片按钮将图片保存到本地,以便后续的学习和分享;
为了使图谱的层次结构明显,同时提供交互功能,对知识图谱内知识分类进行了标注,包括数据结构、操作系统、计算机网络、计算机组成原理、C语言、Python和Java七门类别的筛选标签,在生成结点时,根据计算机不同的教学科目设置了不同的节点颜色,同时可以进行结点拖拽以及通过鼠标滚轮实现对知识图谱结点的放大与缩小,为了方便看清知识点在全图展示中的关系,当鼠标悬浮到某个概念时,与该知识点的第一层级概念会高亮显示,而其他概念则显示灰暗状态,该界面可以选择限制目前显示数据量的大小,为了使显示较少数据量时能够优先展示每一科最的概念,而不是随机的展示,对所有的数据节点进行了等级标注,并利用cypher语句的limit限制实现了该功能;
步骤二中页面采用Layui提供的弹出框组件实现了点击图谱知识点弹出知识结构的功能,当点击图谱中的知识点时,界面右侧会弹出一个知识框,以input框的形式显示该知识的词条,同时获得修改权限后还能对其进行自由编辑;
步骤二中页面的右端采用css和js技术,在搜索框的下边展示了一个知识点球,点击计算机常见知识就可以展示知识图谱,当进行知识检索时,后台会获取前端输入的文本,连接到Neo4j数据库进行查询,将返回的结果处理生成echarts图所需要的JSON格式;
步骤二中网页使用步骤:
a:利用Cypher语句查询所有关系的数据;
b:数据处理,将数据转化成JSON格式;
c:点击知识图谱全貌选项卡时调用数据,以关系图的形式展示到前端。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于知识图谱构建计算机教育知识图谱的方法,其特征在于,包括以下步骤:
步骤一:构建教育知识图谱;
S1:进行数据获取,运用爬虫技术获取网络上的数据;
S2:进行知识抽取,从结构化、半结构化和非结构化的资源中进行实体提取、关系提取和属性提取;
S3:进行知识标识,采用三元组进行标识;
S4:进行知识存储,将爬取到的知识存储到Neo4j图数据库中;
S5:进行知识融合,对初步构建成的知识图谱中缺失实体的三元组进行补全,然后添加到知识图谱当中;
S6:进行质量控制,采用知识消歧、知识补全和知识更新进行教育知识图谱质量控制;
步骤二:教育知识图谱的平台建设:
搭建网页,所述搭建网页包括教育知识图谱展示模块、智能问答模块和知识点查询模块。
2.根据权利要求1所述的一种基于知识图谱构建计算机教育知识图谱的方法,其特征在于,所述S1中数据来自于书籍、文献和技术网站,所述S1中爬虫技术是通过浏览器向服务器发送请求,获取到需要的数据,所述S1中使用Scrapy框架来实现数据爬取,Scrapy框架包含request、下载器、解析器和twisted。
3.根据权利要求1所述的一种基于知识图谱构建计算机教育知识图谱的方法,其特征在于,所述S2中实体抽取是从文本中识别人名、地名和机构名并对其分类,所述S2中关系抽取是从一个文本数据中抽取两个实体的关系,所述S2中属性抽取是对时间和常量进行抽取。
4.根据权利要求1所述的一种基于知识图谱构建计算机教育知识图谱的方法,其特征在于,所述S3中三元组表示为:
<数据结构、包括、数组>。
5.根据权利要求1所述的一种基于知识图谱构建计算机教育知识图谱的方法,其特征在于,所述S4中采用Py2neo工具包来对数据进行存取操作,Py2neo应用程序与命令行能够与Neo4j建立连接。
6.根据权利要求1所述的一种基于知识图谱构建计算机教育知识图谱的方法,其特征在于,所述S5中补全方式是检测出当前知识图谱中缺失的三元组
Figure FDA0003654534320000021
对于头和尾实体进行补全,需给定三元组的头和尾的实体以及关系,然后组成正确三元组的实体。
7.根据权利要求1所述的一种基于知识图谱构建计算机教育知识图谱的方法,其特征在于,所述步骤二中搭建网页采用B/S架构;
所述步骤二中教育知识图谱展示模块使用Echarts来实现知识图谱的可视化,Echarts可视化开源框架是采用JavaScript技术,底层依靠矢量图形库ZRender,采用Canvas进行绘图,Echarts的关系图采用力引导布局算法,两节点较远时相互吸引,达到阈值又会相互排斥;
所述步骤二中知识点查询模块运用Python语言得到实体识别后的目标数组,并进行判断是实体查询还是关系查询,再执行Neo4j数据库的Cypher查询语句,将返回的数据处理成JSON格式并用ECharts关系图展示到前端;
所述步骤二中智能问答模块使用jieba分词中文分词来解析问题,并从知识图谱当中获取问题的回答然后返回到前端界面给以解答。
8.根据权利要求1所述的一种基于知识图谱构建计算机教育知识图谱的方法,其特征在于,所述步骤二中网页使用步骤:
a:利用Cypher语句查询所有关系的数据;
b:数据处理,将数据转化成JSON格式;
c:点击知识图谱全貌选项卡时调用数据,以关系图的形式展示到前端。
9.根据权利要求1所述的一种基于知识图谱构建计算机教育知识图谱的方法,其特征在于,所述步骤二中页面采用Layui提供的弹出框组件实现了点击图谱知识点弹出知识结构的功能,当点击图谱中的知识点时,界面右侧会弹出一个知识框,以input框的形式显示该知识的词条,同时获得修改权限后还能对其进行自由编辑;
所述步骤二中页面的右端采用css和js技术,在搜索框的下边展示了一个知识点球,点击计算机常见知识就可以展示知识图谱。
CN202210555029.0A 2022-05-20 2022-05-20 一种基于知识图谱构建计算机教育知识图谱的方法 Pending CN114896417A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210555029.0A CN114896417A (zh) 2022-05-20 2022-05-20 一种基于知识图谱构建计算机教育知识图谱的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210555029.0A CN114896417A (zh) 2022-05-20 2022-05-20 一种基于知识图谱构建计算机教育知识图谱的方法

Publications (1)

Publication Number Publication Date
CN114896417A true CN114896417A (zh) 2022-08-12

Family

ID=82724006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210555029.0A Pending CN114896417A (zh) 2022-05-20 2022-05-20 一种基于知识图谱构建计算机教育知识图谱的方法

Country Status (1)

Country Link
CN (1) CN114896417A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115599367A (zh) * 2022-10-16 2023-01-13 国网吉林省电力有限公司经济技术研究院(Cn) 能源大数据的采集、整理及建立可视化平台的方法
CN115878818A (zh) * 2023-02-21 2023-03-31 创意信息技术股份有限公司 一种地理知识图谱构建方法、装置、终端及存储介质
CN116127090A (zh) * 2022-12-28 2023-05-16 中国航空综合技术研究所 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN116361586A (zh) * 2023-06-02 2023-06-30 成都无糖信息技术有限公司 一种网页内实现http协议请求数据高亮的方法
CN116680249A (zh) * 2023-06-06 2023-09-01 森纵艾数(北京)科技有限公司 一种用于数字化技能认证题库的构建方法、系统及设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115599367A (zh) * 2022-10-16 2023-01-13 国网吉林省电力有限公司经济技术研究院(Cn) 能源大数据的采集、整理及建立可视化平台的方法
CN116127090A (zh) * 2022-12-28 2023-05-16 中国航空综合技术研究所 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN116127090B (zh) * 2022-12-28 2023-11-21 中国航空综合技术研究所 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN115878818A (zh) * 2023-02-21 2023-03-31 创意信息技术股份有限公司 一种地理知识图谱构建方法、装置、终端及存储介质
CN116361586A (zh) * 2023-06-02 2023-06-30 成都无糖信息技术有限公司 一种网页内实现http协议请求数据高亮的方法
CN116361586B (zh) * 2023-06-02 2023-10-03 成都无糖信息技术有限公司 一种网页内实现http协议请求数据高亮的方法
CN116680249A (zh) * 2023-06-06 2023-09-01 森纵艾数(北京)科技有限公司 一种用于数字化技能认证题库的构建方法、系统及设备

Similar Documents

Publication Publication Date Title
CN114896417A (zh) 一种基于知识图谱构建计算机教育知识图谱的方法
CN110347894A (zh) 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质
US9594730B2 (en) Annotating HTML segments with functional labels
US20090119584A1 (en) Software Tool for Creating Outlines and Mind Maps that Generates Subtopics Automatically
Varanka et al. The map as knowledge base
WO2019153685A1 (zh) 文本处理方法、装置、计算机设备和存储介质
CN111488931A (zh) 文章质量评估方法、文章推荐方法及其对应的装置
DE102019001267A1 (de) Dialogartiges System zur Beantwortung von Anfragen
Joorabchi et al. Text mining stackoverflow: An insight into challenges and subject-related difficulties faced by computer science learners
CN104881428B (zh) 一种信息图网页的信息图提取、检索方法和装置
CN112115252B (zh) 智能辅助写作处理方法、装置、电子设备及存储介质
CN113886567A (zh) 一种基于知识图谱的教学方法及系统
CN113505195A (zh) 知识库及其构建、检索方法、基于其的出题方法和系统
US7313527B2 (en) Registering an utterance and an associated destination anchor with a speech recognition engine
Bottoni et al. An analysis and case study of digital annotation
CN112052332A (zh) 检索方法、装置、电子设备及可读存储介质
CN116975254A (zh) 可视化数据的呈现方法、装置和存储介质
CN115640403A (zh) 基于知识图谱的知识管控方法及装置
CN111368093A (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
Morie et al. Information extraction model to improve learning game metadata indexing
CN110516157A (zh) 一种文献检索方法、设备和存储介质
CN116383354A (zh) 一种基于知识图谱的图可视化自动问答方法
CN115878818A (zh) 一种地理知识图谱构建方法、装置、终端及存储介质
CN115546815A (zh) 一种表格识别方法、装置、设备及存储介质
CN114331932A (zh) 目标图像生成方法和装置、计算设备以及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination