CN115840805A - 基于计算机学科知识图谱的智能问答系统的构建方法 - Google Patents

基于计算机学科知识图谱的智能问答系统的构建方法 Download PDF

Info

Publication number
CN115840805A
CN115840805A CN202211605555.XA CN202211605555A CN115840805A CN 115840805 A CN115840805 A CN 115840805A CN 202211605555 A CN202211605555 A CN 202211605555A CN 115840805 A CN115840805 A CN 115840805A
Authority
CN
China
Prior art keywords
entity
knowledge
computer science
constructing
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211605555.XA
Other languages
English (en)
Inventor
王利琴
杨树帆
王旭
许智宏
董永峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Original Assignee
Hebei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology filed Critical Hebei University of Technology
Priority to CN202211605555.XA priority Critical patent/CN115840805A/zh
Publication of CN115840805A publication Critical patent/CN115840805A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于计算机学科知识图谱的智能问答系统的构建方法,首先构建计算机学科本体,然后利用爬虫技术采集电子图书和百度百科等非结构化数据,基于Colabeler工具、BiLSTM‑CRF、BiLSTM‑ATT完成知识加工,将抽取到的实体、关系等数据存储到Neo4j,最后基于后端Flask框架和前端React框架建立智能问答系统。首先对问题进行关键词抽取、模版匹配,若没有匹配到答案,则对问题进行相关度分析,并将问题存储至关系数据库,由教师解答,采用知识抽取模型抽取教师答案有效信息,补充至知识图谱中,实现知识图谱更新。本发明具有数据结构化、存储精细化、问答智能化三大特点,解决计算机学科数据零散不规则、学科知识粒度粗、搜索结果不准确等痛点问题。

Description

基于计算机学科知识图谱的智能问答系统的构建方法
技术领域
本发明属于知识图谱和自然语言处理领域,尤其是涉及一种基于计算机学科知识图谱的智能问答系统的构建方法。
背景技术
随着我国教育与科学研究事业的繁荣与发展,各个学科的知识体系日益复杂,如何对各学科的知识点进行系统地梳理和总结,日益成为一个必要而紧迫的任务。以大学的计算机学科为例,教材、慕课以及各种博客学习资料庞杂繁复,大量数据存在分布零散、格式多样、数据不一致等问题;传统的学科建设粒度粗,往往以课程为单位,而课程里包含的底层知识点缺少系统性地梳理,大学生在初学阶段很难清晰地理解各个知识点以及知识点之间的关系,难以充分掌握知识点;此外,学生借助搜索引擎可以获取到相关知识,但搜索引擎只能给出相近答案,无法提供准确的结果。
发明内容
有鉴于此,本发明旨在提出一种基于计算机学科知识图谱的智能问答系统的构建方法,以解决计算机学科的数据零散不规则、学科建设粒度粗、搜索引擎结果不准确等痛点问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于计算机学科知识图谱的智能问答系统的构建方法:
(1)本体构建:采用自顶向下的方法确定计算机学科领域实体类型为课程类实体、概念类实体、操作类实体和方法类实体,确定关系为概念层级关系、前后序关系和关联关系;
(2)计算机学科数据获取:数据源为非结构化数据,一部分为计算机学科电子图书数据,另一部分为通过Python网络爬虫在百度百科上爬取的相关数据,初步过滤和整合后,得到原始文本数据集;
(3)知识加工:通过Colabeler工具标注部分的原始数据集,生成实体原始数据集和关系原始数据集。Python实现实体原始数据集的自动化BIO格式标注和关系原始数据集的结构化表示,生成模型可用的实体数据集和关系数据集;采用BiLSTM-CRF模型完成非结构化数据的实体识别;采用BiLSTM-ATT模型完成非结构化数据的关系抽取;
(4)计算机学科知识图谱构建:将抽取到的实体和关系进行去重和对齐操作,并生成实体列表和关系列表;将实体列表和关系列表存入图数据库Neo4j,完成计算机学科知识图谱的存储和可视化;
(5)智能问答系统构建:基于后端Flask框架和前端React框架建立智能问答系统,通过问答的众包模式进行数据不间断扩充更新。在智能问答中,首先对学生问题进行关键词抽取、模版匹配,在系统查询到数据后,以对话方式可视化返回结果;若没有匹配到数据,则对问题进行相关度分析,返回与问题相关的知识点,并将该问题存储至关系型数据库,扩充原始数据源;然后教师对未匹配到答案的学生问题进行解答,采用知识抽取模型抽取教师答案有效信息,补充至知识图谱中,实现知识图谱更新。
进一步的,所述步骤(1)中,本体构建定义了课程、概念、操作、方法四类实体。其中,课程实体代表学科中含有的课程,概念实体代表课程中包含的重要部分,操作实体代表具体的知识单元,方法实体代表知识单元的具体的知识点,是知识、理论等的相对独立的最小单元。定义了概念层级、前后续、关联三类关系。其中,概念层级关系代表不同类别的实体之间的包含;前后序关系代表同类实体之间的学习顺序的前后关系;关系关联关系代表同类实体之间的关联关系,定义标准为同题同现原则。
进一步的,所述步骤(2)中,基于Python语言进行网络爬虫,获取计算机学科知识数据。具体流程为首先使用爬虫入口函数读取目标知识点关键字的列表,进行依次遍历;再通过递归http://baike.baidu.com/item+关键字进行拼接,使用request库模拟向服务器发送请求,抓取网页源码,通过BeautifulSoup解析HTML,然后将数据输出保存为UTF-8,输出为txt文件格式。最后,经人工筛选整理后,整合成原始语料文件。
进一步的,所述步骤(3)中,实体数据集和关系数据集中,实体标注规则采用BIO格式,将每个元素标注为“B-N”、“I-N”或者“O”。其中,“B-N”表示此元素所在的片段属于N实体并且是此实体的开头,“I-N”表示此元素所在的片段属于N实体并且是此实体的中间位置元素,“O”表示不属于任何类型。关系标注采用<实体1实体2关系实体所在句子>的格式标注。
进一步的,所述步骤(4)中,计算机学科知识图谱构建,具体包括:
首先,分别构建实体和关系的同义映射表,实现相同含义实体或关系映射到唯一的实体或关系名上;
其次,根据同义映射表,将实体识别和关系抽取中获得的实体和关系进行同义替换;
最后,对替换后的实体和关系进行去重处理,生成实体列表和关系列表,其中关系列表采用三元组<实体,关系,实体>表示。
进一步的,所述步骤(5)中,实现知识图谱可视化交互,具体包括:
首先,React前端向Flask系统后端服务发起HTTP请求,以JSON格式传输用户所点击节点的数据;
其次,后端接收到请求,生成Cypher查询语句,并连接Neo4j图数据库。根据查询语句检索节点信息,包括节点名称、类型和属性信息。将查询结构返回后端;
最后,后端接收到Neo4j图数据库查询结果,将数据打包为JSON格式,返回到前端界面,展示在节点信息卡片上。另外,前端采用D3.js开源JavaScript库中的力导向图实现知识图谱可视化,支持知识图谱的动态交互,包括图谱的放大、缩小、节点拖拽。
进一步的,所述步骤(5)中,实现学生智能问答,具体包括:
(5.1)React前端向Flask系统后端服务发起HTTP请求,以JSON格式传输用户问题语句;
(5.2)后端解析问题语句并返回信息;
(5.3)将Neo4j返回的信息根据对话模板进行重组织,以JSON格式传输给前端界面,前端以对话形式展示问题答案。
进一步的,所述步骤(5.2)中,后端解析问题语句并返回信息,具体包括:
(5.2.1)根据步骤(4)中生成的实体和关系列表构建AC树,以模板匹配的方式,使用AC树提取问题语句中的实体和关系,生成<实体,关系>对;
(5.2.2)根据<实体,关系>对生成Cypher查询语句,向Neo4j发起查询请求;
(5.2.3)查询成功,则Neo4j向后端返回实体的相关信息及其相关子图;若查询失败,则进行解答失败处理。
进一步的,所述步骤(5.2.3)中,解答失败处理,具体包括:
首先,将用户问题存入Mysql关系数据库中的疑难问题列表;
其次,调用Python jieba中文分词库,对问题语句进行分词;
然后,将问题语句中的分词结果与实体和关系列表中所有词进行词语相似度的计算,返回相似度最高的词语;
最后,根据相似度最高的词语生成Cypher语句,查询Neo4j图数据库,并向后端返回相关信息。
进一步的,所述步骤(5)中,实现教师疑难解答,具体包括:
首先,React前端向Flask后端请求疑难问题列表,后端连接Mysql关系数据库,向前端返回所有疑难问题列表信息,以问题的赞同数为依据进行排序,前端进行疑难问题展示;
其次,用户在前端界面输入选中问题的解答,提交后传输给后端;
最后,后端将问题对应的解答信息存入Mysql数据库,经人工收集整理后扩充原始数据集,采用步骤(3)的模型进行实体识别和关系抽取,实现知识图谱的定期更新。
进一步的,所述步骤(5)中,学生智能问答与教师疑难解答采用众包模式扩充数据集,具体包括:
首先,随机选择实体列表内的实体,按照预设问题模板生成学习测试。学习测试问题存储在Mysql数据库中,经前后端交互展示在前端界面。问题模板包括:“请问实体1和实体2是否在一道题目同时被考察?”,“请问学习实体1之前是否需要了解实体2的相关知识?”,“请问实体1的关键内容有什么?”
其次,用户参与学习测试,答案经前后端交互存入Mysql数据库。
最后,预设问答回答数达到设置最低阈值后,以多数原则统计结果,生成<实体1,关系,实体2>三元组,补充实体之间的关系。
上述基于计算机学科知识图谱的智能问答系统的构建方法,所述BeautifulSoup模块、Colabeler工具、BiLSTM、CRF、Attention机制、Neo4j数据库、Cypher语言、Flask框架和React框架都是本领域公知的。
相对于现有技术,本发明所述的基于计算机学科知识图谱的智能问答系统的构建方法具有以下优势:
(1)本发明所述的系统以知识点为基本设计单位,将知识点科学合理地组织为计算机学科知识图谱,实现了课程、概念、操作、方法的层级嵌套与网状的知识组织结构。
(2)本发明所述的系统基于众包模式不断扩充知识点间的关系,基于相关度分析以对话方式返回相关度高的节点和属性数据,提供解释、链接等内容,避免了出现垃圾信息的情况,为大学生培养和教学活动提供了专业化地智能问答服务。
(3)本发明所述的系统基于知识抽取模型和问题点赞实现了智能答疑功能,将疑难问题存储至关系型数据库进而扩充原始数据源,依据问题赞同数动态调整优先级,为教师答疑提供参考,采用知识抽取模型抽取解答信息中的有效信息,实现知识图谱的数据更新。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的智能问答系统功能示意图;
图2为本发明实施例所述的计算机学科知识图谱构建示意图;
图3为本发明实施例所述的实体识别示意图;
图4为本发明实施例所述的关系抽取示意图;
图5为本发明实施例所述的智能问答系统流程示意图;
图6为本发明实施例所述的智能问答系统学生端示意图;
图7为本发明实施例所述的智能问答系统教师端示意图。
具体实施方式
下面将参考附图并结合实施例来详细说明本发明。
如图1所示,本发明方法的智能问答系统功能有如下功能:大学生向系统发送问题,系统查询数据库后以对话方式回答;当问题无答案时,系统请求老师进行解答,老师提供优质解析后完善系统数据,再给学生回复,这也使得系统具有不断学习完善的特点。
实施例1:
一种基于计算机学科知识图谱的智能问答系统的构建方法,如图2所示,包含以下步骤:
(1)计算机学科数据获取,数据源为非结构化数据,一部分为计算机学科电子图书数据,另一部分为通过Python网络爬虫在百度百科上爬取的相关数据,初步过滤和整合后,得到原始文本数据集;
具体流程为首先使用爬虫入口函数读取目标知识点关键字的列表,进行依次遍历;再通过递归http://baike.baidu.com/item+关键字进行拼接,使用request库模拟向服务器发送请求,抓取网页源码,通过BeautifulSoup解析HTML,主要是解析百科词条中的一些标签信息,包括标记了<div class=”lemma-summary”>等标签内容,然后将数据输出保存为UTF-8,输出为txt文件格式。最后,经人工筛选整理后,整合成原始语料文件,并按照“。”划分语句;
(2)知识加工:通过Colabeler工具标注部分的原始数据集,生成实体原始数据集和关系原始数据集。Python实现实体原始数据集的自动化BIO格式标注和关系原始数据集的结构化表示,生成模型可用的实体数据集和关系数据集;实体数据集和关系数据集中,实体标注规则采用BIO格式,将每个元素标注为“B-N”、“I-N”或者“O”。其中,“B-N”表示此元素所在的片段属于N实体并且是此实体的开头,“I-N”表示此元素所在的片段属于N实体并且是此实体的中间位置元素,“O”表示不属于任何类型。进一步将BIO应用到实体标注中,来定义所有的实体(课程、概念、操作、方法),则标注类别有B-Subj、I-Subj、B-Conc、I-Conc、B-Oper、I-Oper、B-Meth、I-Meth、O;每个语句至少包含一个单词和其对应标签,语句间使用空行分隔;关系标注采用<实体1实体2关系实体所在句子>的格式标注类别有<实体1实体2Contain实体所在句子>、<实体1实体2Before and after实体所在句子>、<实体1实体2Correlation实体所在句子>。
(3)实体识别:采用BiLSTM-CRF模型完成非结构化数据的实体识别任务,使用上述第(2)步的实体标注数据集进行模型训练,如图3所示;
首先,输入含有n个词的语句,经过词嵌入层处理,每个词由一个d维向量表示X=(x1,x2,…,xn);
其次,每个词t分别经单层前向LSTM单元和单层后向LSTM单元计算出其上下文相关的表示
Figure BDA0003998726440000081
和/>
Figure BDA0003998726440000082
则BiLSTM模块为输入语句中每个单词t计算出隐藏层输出为
Figure BDA0003998726440000083
将ht送入输出通道为n的隐藏层,得到单词t的BiLSTM模块输出yi
最后,采用条件随机场(CRF)结合相邻标签信息生成对每个单词yi的最终预测结果。
模型训练采取半监督的方式,通过部分标注数据集训练模型,模型训练超参数设置为:学习率为0.0005,词嵌入维数和LSTM隐向量维数为256,epoch为1000。运用BiLSTM-CRF模型在人工标注的数据集上进行训练,采用准确率(Precession)、召回率(Recall)和F1值对模型关系抽取结果进行评估,结果如表1所示,识别效果良好,训练结束后,模型将保存为pkl文件。
使用训练好的模型对未标注原始数据进行自动化实体抽取,结果保存到result.txt文件中,该文件经处理后符合关系抽取模型数据集格式,将用于后续自动化抽取关系。随后,将人工标注和自动化抽取出的实体去重和实体对齐处理。实体对齐方法为:定义entity_same.csv文件,具有相同含义的实体将映射到唯一的实体名。所有实体将经人工审核后生成计算机学科知识图谱的实体列表文件entity.csv。最终抽取出实体4351个,其中包含课程实体20个,概念实体326个,操作实体1247个,方法实体2758个;
表1实体抽取模型结果
Figure BDA0003998726440000091
(4)关系抽取:采用BiLSTM-ATT模型完成非结构化数据的关系抽取任务,使用上述第(2)步的关系标注数据集进行模型训练,如图4所示。模型分为输入层、词嵌入层、双向长短期记忆网络层、注意力层、输出层。对于一个完整的句子,输入层将句子拆分成词语,将其作为词嵌入层的输入,词嵌入层将词语映射到低维空间当中,作为双向长短期记忆网络层的输入,进行高级特征提取,输入到注意力层并且与该层生成的权重向量相乘,使每一次迭代中的词语级特征合并为句子级的特征,最后输出层将句子级的特征向量进行关系分类,完成整个的关系抽取。
模型训练采取半监督的方式,通过部分标注数据集训练模型,模型训练超参数设置为:学习率为0.005,词嵌入维数dw为100,epoch为1000,batch为64,L2正则化参数λ为10-5。结果如表2所示,训练结束后,模型将保存为pkl文件。
表2关系抽取模型的训练结果
Figure BDA0003998726440000101
使用训练好的模型对未标注原始数据进行自动化关系抽取,所有关系将经人工审核后生成计算机学科知识图谱的关系列表文件relation.csv。最终抽取出实体间关系总数共3672个,其中包含关系2913个,前后序关系136个,关联关系623个;
(5)三元组构建:将抽取到的实体和关系进行去重和对齐操作,并生成实体列表和关系列表,步骤如下;
首先,分别构建实体和关系的同义映射表,实现相同含义实体或关系映射到唯一的实体或关系名上;
其次,根据同义映射表,将实体识别任务和关系抽取任务中获得的实体和关系进行同义替换;
最后,对替换后的实体和关系进行去重处理,生成实体列表和关系列表,其中关系列表采用三元组<实体,关系,实体>表示。
(6)知识存储:将上述步骤获取的实体列表entity.csv和关系列表relation.csv存入图数据库Neo4j中,为每个实体创建节点以及各节点之间的关系;
(7)计算机学科知识图谱智能问答系统构建:基于后端Flask框架和前端React框架建立智能问答系统,流程如图5所示,系统的输入是用户的自然语言问句,系统首先对问句进行预处理,基于词典库进行实体识别,基于意图关系库进行关系识别;在查询模板库中匹配问题,然后使用Cypher语言在知识图谱图数据库中查询答案,若查询到问题中的答案,则提供解答;若没有匹配到对应的实体或关系,则计算问题与实体的相关度,返回相关度大于90%的知识点,若没有则提供友好提示。具体包含如下三个部分:
(7.1)实现知识图谱可视化交互,具体步骤如下:
(7.1.1)React前端向Flask系统后端服务发起HTTP请求,以JSON格式传输用户所点击节点的数据;
(7.1.2)后端接收到请求,生成Cypher查询语句,并连接Neo4j图数据库。根据查询语句检索节点信息,包括节点名称、类型和属性信息。将查询结构返回后端;
(7.1.3)后端接收到Neo4j图数据库查询结果,将数据打包为JSON格式,返回到前端界面,展示在节点信息卡片上。另外,前端采用D3.js开源JavaScript库中的力导向图实现知识图谱可视化,支持知识图谱的动态交互,包括图谱的放大、缩小、节点拖拽。
(7.2)实现学生智能问答,具体步骤如下:
(7.2.1)React前端向Flask系统后端服务发起HTTP请求,以JSON格式传输用户问题语句;
(7.2.2)根据步骤(5)中生成的实体和关系列表构建AC树,以模板匹配的方式,使用AC树提取问题语句中的实体和关系,生成<实体,关系>对;根据<实体,关系>对生成Cypher查询语句,向Neo4j发起查询请求;查询成功,则Neo4j向后端返回实体的相关信息及其相关子图;若查询失败,则将用户问题存入Mysql关系数据库中的疑难问题列表;调用Python jieba中文分词库,对问题语句进行分词;然后将问题语句中的分词结果与实体和关系列表中所有词进行词语相似度的计算,返回相似度最高的词语;最后,根据相似度最高的词语生成Cypher语句,查询Neo4j图数据库,并向后端返回相关信息。
(7.2.3)将Neo4j返回的信息根据对话模板进行重组织,以JSON格式传输给前端界面,前端以对话形式展示问题答案。
(7.3)实现教师疑难解答,具体步骤如下:
(7.3.1)React前端向Flask后端请求疑难问题列表,后端连接Mysql关系数据库,向前端返回所有疑难问题列表信息,以问题的赞同数为依据进行排序,前端进行疑难问题展示;
(7.3.2)用户在前端界面输入选中问题的解答,提交后传输给后端;
(7.3.3)后端将问题对应的解答信息存入Mysql数据库,经人工收集整理后扩充原始数据集,采用步骤(3)和步骤(4)的模型进行实体和关系抽取,实现知识图谱的定期更新。
图6所示实施例表明,本发明方法构建智能问答系统学生端为大学生提供服务:系统左半部分为智能问答助手,为学生答疑,提供问题解析;系统右半部分将其展示在系统界面,收集用户的答案,对答案进行分析来扩充数据。例如,通过“请问实体1和实体2是否在一道题目同时被考察?”此类问题来扩充知识点之间的关联关系;通过“请问学习实体1之前是否需要了解实体2的相关知识?”此类问题来扩充知识点之间的前后序关系;通过“请问实体1的关键内容有什么?”此类问题来扩充知识点的属性值。
图7所示实施例表明,本发明方法构建智能问答系统教师端向老师寻求答案:教师用户进入教师解答界面后,左侧展示疑难问题列表,问题根据优先级排序。右侧为教师解答卡片,教师用户点击列表中的问题,通过右侧卡片输入答案并进行提交。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于计算机学科知识图谱的智能问答系统的构建方法,其特征在于,应用于计算机学科知识的辅助学习,构建方法为:
(1)本体构建:采用自顶向下的方法确定计算机学科领域实体类型为课程类实体、概念类实体、操作类实体和方法类实体,确定关系为概念层级关系、前后序关系和关联关系;
(2)计算机学科数据获取:数据源一部分为计算机学科电子图书数据,另一部分为基于Python网络爬虫在百度百科上爬取的相关数据,初步过滤和整合后,得到原始文本数据集;
(3)知识加工:通过Colabeler工具及python标注部分的原始数据集,生成实体数据集和关系数据集;采用BiLSTM-CRF,即Bi Long Short-Term Memory-Conditional RandomField模型完成实体识别;采用BiLSTM-ATT,即Bi Long Short-Term Memory-Attention模型完成关系抽取;
(4)计算机学科知识图谱构建:将抽取到的实体和关系进行去重和对齐操作,生成实体列表和关系列表并存入图数据库Neo4j;
(5)智能问答系统构建:基于后端Flask框架和前端React框架建立智能问答系统,通过问答的众包模式进行数据不间断扩充更新,在智能问答中,首先对学生问题进行关键词抽取、模版匹配,在系统查询到数据后,以对话方式可视化返回结果;若没有匹配到数据,则对问题进行相关度分析,返回与问题相关的知识点,并将该问题存储至关系型数据库,扩充原始数据源;然后教师对未匹配到答案的学生问题进行解答,采用知识抽取模型抽取教师答案有效信息,补充至知识图谱中,实现知识图谱更新。
2.根据权利要求1所述的基于计算机学科知识图谱的智能问答系统的构建方法,其特征在于,步骤(1)中,本体构建定义了课程、概念、操作、方法四类实体。课程类实体代表学科中含有的课程,概念类实体代表课程中包含的重要概念,操作类实体代表具体的知识单元,方法类实体代表具体的知识点,是知识的最小单元,定义了概念层级、前后续、关联三类关系,其中,概念层级关系代表不同类别实体之间的包含关系,前后序关系代表同类实体之间学习顺序的前后关系,关系关联关系代表同类实体之间的关联关系,定义标准为同题同现原则。
3.根据权利要求1所述的基于计算机学科知识图谱的智能问答系统的构建方法,其特征在于,步骤(2)中,计算机学科数据包括计算机学科电子图书数据和基于Python网络爬虫在百度百科上爬取的相关数据,从不同数据源中融合出统一的信息,将数据输出保存为UTF-8,输出为txt文件格式。
4.根据权利要求1所述的基于计算机学科知识图谱的智能问答系统的构建方法,其特征在于,步骤(3)中,实体标注规则采用BIO格式,将每个元素标注为“B-N”、“I-N”或者“O”,N表示课程、概念、操作、方法四类实体,关系标注采用<实体1实体2关系实体所在句子>的格式标注。
5.根据权利要求1所述的基于计算机学科知识图谱的智能问答系统的构建方法,其特征在于,步骤(4)计算机学科知识图谱构建,具体包括:
首先,分别构建实体和关系的同义映射表,实现相同含义实体或关系映射到唯一的实体或关系名上;
其次,根据同义映射表,将实体识别任务和关系抽取任务中获得的实体和关系进行同义替换;
最后,对替换后的实体和关系进行去重处理,生成实体列表和关系列表。
6.根据权利要求1所述的基于计算机学科知识图谱的智能问答系统的构建方法,其特征在于,步骤(5)中,实现知识图谱可视化交互,具体包括:
首先,React前端向Flask系统后端服务发起HTTP请求,以JSON格式传输用户所点击节点的数据;
其次,后端接收到请求,生成Cypher查询语句,并连接Neo4j图数据库。根据查询语句检索节点信息,包括节点名称、类型和属性信息,将查询结构返回后端;
最后,后端接收到Neo4j图数据库查询结果,将数据打包为JSON格式,返回到前端界面,展示在节点信息卡片上,另外,前端采用D3.js开源JavaScript库中的力导向图实现知识图谱可视化,支持知识图谱的动态交互,包括图谱的放大、缩小、节点拖拽。
7.根据权利要求1所述的基于计算机学科知识图谱的智能问答系统的构建方法,其特征在于,步骤(5)中,实现学生智能问答,具体包括:
(5.1)React前端向Flask系统后端服务发起HTTP请求,以JSON格式传输用户问题语句;
(5.2)后端解析问题语句并返回信息;
(5.3)将Neo4j返回的信息根据对话模板进行重组织,以JSON格式传输给前端界面,前端以对话形式展示问题答案。
8.根据权利要求7所述的基于计算机学科知识图谱的智能问答系统的构建方法,其特征在于,步骤(5.2)中,后端解析问题语句并返回信息,具体包括:
(5.2.1)根据生成的实体和关系列表构建AC树,以模板匹配的方式,使用AC树提取问题语句中的实体和关系,生成<实体,关系>对;
(5.2.2)根据<实体,关系>对生成Cypher查询语句,向Neo4j发起查询请求;
(5.2.3)查询成功,则Neo4j向后端返回实体的相关信息及其相关子图;若查询失败,则进行解答失败处理。
9.根据权利要求8所述的基于计算机学科知识图谱的智能问答系统的构建方法,其特征在于,步骤(5.2.3)中,解答失败处理,具体包括:
首先,将用户问题存入Mysql关系数据库中的疑难问题列表;
其次,调用Python jieba中文分词库,对问题语句进行分词;
然后,将问题语句中的分词结果与实体和关系列表中所有词进行词语相似度的计算,返回相似度最高的词语;
最后,根据相似度最高的词语生成Cypher语句,查询Neo4j图数据库,并向后端返回相关信息。
10.根据权利要求1所述的基于计算机学科知识图谱的智能问答系统的构建方法,其特征在于,步骤(5)中,实现教师疑难解答,具体包括:
首先,React前端向Flask后端请求疑难问题列表,后端连接Mysql关系数据库,向前端返回所有疑难问题列表信息,以问题的赞同数为依据进行排序,前端进行疑难问题展示;
其次,教师用户在前端界面输入选中问题的解答,提交后传输给后端;
最后,后端将问题对应的解答信息存入Mysql数据库,经人工收集整理后扩充原始数据集,采用步骤(3)的模型进行实体识别和关系抽取,实现知识图谱的定期更新。
CN202211605555.XA 2022-12-14 2022-12-14 基于计算机学科知识图谱的智能问答系统的构建方法 Pending CN115840805A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211605555.XA CN115840805A (zh) 2022-12-14 2022-12-14 基于计算机学科知识图谱的智能问答系统的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211605555.XA CN115840805A (zh) 2022-12-14 2022-12-14 基于计算机学科知识图谱的智能问答系统的构建方法

Publications (1)

Publication Number Publication Date
CN115840805A true CN115840805A (zh) 2023-03-24

Family

ID=85578595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211605555.XA Pending CN115840805A (zh) 2022-12-14 2022-12-14 基于计算机学科知识图谱的智能问答系统的构建方法

Country Status (1)

Country Link
CN (1) CN115840805A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033608A (zh) * 2023-09-28 2023-11-10 中国电子科技集团公司第十研究所 一种基于大语言模型的知识图谱生成式问答方法及系统
CN117668304A (zh) * 2023-10-11 2024-03-08 中国科学院空间应用工程与技术中心 一种数据处理方法、数据处理系统及计算机可读介质
CN117744784A (zh) * 2024-02-04 2024-03-22 徐州医科大学 一种医学科研知识图谱构建与智能检索方法及系统
CN118261244A (zh) * 2024-05-31 2024-06-28 南通话时代信息科技有限公司 结合图论的智能客服知识库优化方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033608A (zh) * 2023-09-28 2023-11-10 中国电子科技集团公司第十研究所 一种基于大语言模型的知识图谱生成式问答方法及系统
CN117033608B (zh) * 2023-09-28 2023-12-22 中国电子科技集团公司第十研究所 一种基于大语言模型的知识图谱生成式问答方法及系统
CN117668304A (zh) * 2023-10-11 2024-03-08 中国科学院空间应用工程与技术中心 一种数据处理方法、数据处理系统及计算机可读介质
CN117744784A (zh) * 2024-02-04 2024-03-22 徐州医科大学 一种医学科研知识图谱构建与智能检索方法及系统
CN117744784B (zh) * 2024-02-04 2024-04-30 徐州医科大学 一种医学科研知识图谱构建与智能检索方法及系统
CN118261244A (zh) * 2024-05-31 2024-06-28 南通话时代信息科技有限公司 结合图论的智能客服知识库优化方法及系统

Similar Documents

Publication Publication Date Title
CN110825882B (zh) 一种基于知识图谱的信息系统管理方法
CN109255031B (zh) 基于知识图谱的数据处理方法
US9779085B2 (en) Multilingual embeddings for natural language processing
CN115840805A (zh) 基于计算机学科知识图谱的智能问答系统的构建方法
CN111475623A (zh) 基于知识图谱的案件信息语义检索方法及装置
US20230136368A1 (en) Text keyword extraction method, electronic device, and computer readable storage medium
CN112131872A (zh) 一种文献作者重名消歧方法和构建系统
CN103440287A (zh) 一种基于产品信息结构化的Web问答检索系统
CN111241410B (zh) 一种行业新闻推荐方法及终端
CN112115252B (zh) 智能辅助写作处理方法、装置、电子设备及存储介质
Miao et al. A dynamic financial knowledge graph based on reinforcement learning and transfer learning
CN115309885A (zh) 一种用于科技服务的知识图谱构建、检索和可视化方法及系统
CN115203338A (zh) 一种标签及标签实例推荐方法
CN111291086A (zh) 一种课程内容搜索方法、系统、设备及存储介质
CN113988071A (zh) 一种基于金融知识图谱的智能对话方法及装置、电子设备
CN114579705A (zh) 一种面向可持续发展教育的学习辅助方法及系统
Pan [Retracted] Construction and Application of College English Blended Teaching System Based on Multidata Fusion
CN114547342A (zh) 一种基于知识图谱的高校专业智能问答系统及方法
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN117909466A (zh) 领域问答系统、构造方法、电子设备及存储介质
Zadgaonkar et al. An Approach for analyzing unstructured text data using topic modeling techniques for efficient information extraction
CN112905744A (zh) 一种侨情问答方法、装置、设备及存储装置
CN112084376A (zh) 基于图谱知识的推荐方法、推荐系统及电子装置
CN115757720A (zh) 基于知识图谱的项目信息搜索方法、装置、设备和介质
CN115905554A (zh) 一种基于多学科分类的中文学术知识图谱构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination