CN110888989B - 一种智能学习平台及其构建方法 - Google Patents
一种智能学习平台及其构建方法 Download PDFInfo
- Publication number
- CN110888989B CN110888989B CN201911024667.4A CN201911024667A CN110888989B CN 110888989 B CN110888989 B CN 110888989B CN 201911024667 A CN201911024667 A CN 201911024667A CN 110888989 B CN110888989 B CN 110888989B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- data
- resources
- learning
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title abstract description 12
- 238000004458 analytical method Methods 0.000 claims abstract description 84
- 238000007418 data mining Methods 0.000 claims abstract description 23
- 238000013480 data collection Methods 0.000 claims abstract description 11
- 238000005065 mining Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 41
- 238000003058 natural language processing Methods 0.000 claims description 32
- 238000012360 testing method Methods 0.000 claims description 32
- 238000013473 artificial intelligence Methods 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 claims description 3
- 230000008439 repair process Effects 0.000 claims description 2
- 238000009960 carding Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 9
- 230000001149 cognitive effect Effects 0.000 abstract description 3
- 239000013598 vector Substances 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000059 patterning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Primary Health Care (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Marketing (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种智能学习平台及其构建方法,智能学习平台包括知识图谱模块,用于存储学科知识体系;数据收集模块,用于收集在线学习资源形成数据集;数据挖掘及语义分析模块,基于知识图谱模块对数据收集模块的在线学习资源进行数据挖掘和语义分析,将在线学习资源与知识图谱模块中的学科知识体系进行关联,得到关联资源信息;数据关联提示及呈现模块,用户使用时,呈现关联资源信息。本发明的智能学习平台,依据建立的学科知识图谱,利用人工智能技术对海量的在线学习资源进行智能分析和挖掘,从而建立海量线上学习资源的关联互通并简明扼要地呈现给用户,让用户在学习时降低认知负荷、提高学习的针对性和精准性,达到“策略学习”的目的。
Description
技术领域
本发明属于在线教育学习技术领域,尤其是涉及一种智能学习平台及其构建方法。
背景技术
机器学习是人工智能的核心,是使计算机具有智能的根本途径,其理论和方法已被广泛应用于解决工程应用和科学领域的复杂问题。机器学习方法是计算机利用已有的数据(经验),得出了某种模型(规律),并利用此模型预测未来(判断)的一种方法。机器学习与人类思考的经验过程是类似的,不过它能考虑更多的情况,执行更加复杂的计算。事实上,机器学习的一个主要目的就是把人类思考归纳经验的过程转化为计算机通过对数据的处理计算得出模型的过程。经过计算机得出的模型能够以近似于人的方式解决很多灵活复杂的问题。
知识的结构化、图式化一直以来都是在线教育领域所重点关注的话题。知识图谱最早可追溯到20世纪70年代,属于科学计量学的范畴,主要用于揭示科学知识的增长规律和结构关系变化。在计算机科学领域,知识图谱的本质是结构化的语义知识网络,图中的节点代表实体或者概念(可以是各种的事物、人物或地方),边代表节点之间的各种语义关系。而在教育领域,知识图谱与学科知识本体的内涵比较接近,知识图谱可以看成是一个完整的学科知识体系,是某个具体学科领域中所有概念及其之间语义关系的集合,是对特定领域内的知识和知识结构的形式化表征,主要表现在学科知识、教材组织和学科教学三个层面。
近年来,随着我国高等教育领域对于信息化资源建设的重视程度不断增加,数万门的慕课、微课精品资源已在爱课程、学堂在线、好大学在线等国内平台上线,并向社会公众开放。而一个迫在眉睫的新的需求产生了,如何将这些孤立的学习资源融合贯通,建立它们之间的关联关系?
发明内容
本发明的一个目的在于提供一种智能学习平台,根据知识图谱,利用人工智能技术对海量的在线学习资源进行智能分析和挖掘,从而建立海量线上学习资源的关联互通,让学习者在学习时降低认知负荷、提高学习的针对性和精准性,打破学习孤岛,达到“策略学习”的目的。在不干扰学习者主学习途径的情况下,对学习者有可能需要的相关的学习资源,能及时准确地反馈关联资源信息,且学习者可简单方便地调用。
本发明的另一个目的在于提供一种智能学习平台的构建方法,把海量线上学习资源进行关联并简明扼要地呈现给用户,帮助用户更有目的更轻松地学习。
为了实现上述目的,本发明采用如下技术方案:
一种智能学习平台,包括知识图谱模块,用于存储学科知识体系;数据收集模块,用于收集在线学习资源形成数据集;数据挖掘及语义分析模块,基于知识图谱模块对数据收集模块的在线学习资源进行数据挖掘和语义分析,将在线学习资源与知识图谱模块中的学科知识体系进行关联,得到关联资源信息;数据关联提示及呈现模块,用户使用时,呈现关联资源信息。
进一步地,所述数据挖掘及语义分析模块依据学科知识图谱和数据集,构建人工智能语义分析模型,依据人工智能语义分析模型的分析结果,挖掘在线学习资源的关联信息,构建与知识图谱相关的关联资源信息数据库。
进一步地,所述数据挖掘及语义分析模块所构建的人工智能语义分析模型包括:数据预处理单元,对数据收集模块的数据集进行处理,形成结构化的数据集;数据切分单元,根据自然语言处理模型,把数据预处理单元处理后的结构化数据集划分为训练集和测试集;数据语义识别和模型训练单元,依据知识图谱,利用自然语言处理模型对结构化的数据集中的训练集进行语义识别分析并进行样本标注,得到语义识别分析结果同时对自然语言处理模型进行训练;测试及验证单元,利用训练后的自然语言处理模型对测试集的数据进行语义识别分析,得到模型的输出结果,根据输出结果评估模型训练前后的准确率。
进一步地,所述关联资源信息数据库,包括学习资源之间的关联,和/或学习资源与知识图谱的节点之间的关联。
进一步地,所述关联资源信息在用户查看学习资源时呈现,或者在用户检索关键词时呈现;
优选的,所述关联资源信息以动态图文的形式呈现;
更优选的,用户查看学习资源时,动态图文呈现关键字在学习资源的位置信息、关联资源提示;用户检索关键词时,动态图文呈现关键词的概要信息、关联资源信息、关键词的图谱关系。
一种智能学习平台的构建方法,包括以下步骤:S1、构建学科知识图谱;S2、收集在线学习资源形成数据集;S3、基于所构建的学科知识图谱对所收集的在线学习资源进行数据挖掘和语义分析,将在线学习资源与学科知识图谱进行关联;S4、用户使用时,呈现所关联的资源信息。
进一步地,所述S3包括以下步骤:S31、依据学科知识图谱和数据集,以自然语言处理模型为基础构建人工智能语义分析模型;S32、依据人工智能语义分析模型的分析结果,挖掘在线学习资源的关联信息,构建与知识图谱相关的关联资源信息数据库。
进一步地,所述构建人工智能语义分析模型包括以下步骤:S311、数据预处理,对数据集进行处理,形成结构化的数据集;S312、数据切分,根据自然语言处理模型,把结构化数据集划分为训练集和测试集;S313、数据语义识别和模型训练,依据知识图谱,利用自然语言处理模型对结构化的数据集中的训练集进行语义识别分析并进行样本标注,得到语义识别分析结果同时对自然语言处理模型进行训练;S314、测试及验证,利用训练后的自然语言处理模型对测试集的数据进行语义识别分析,得到模型的输出结果,根据输出结果评估模型训练前后的准确率。
进一步地,所述挖掘在线学习资源的关联信息,包括挖掘学习资源之间的关联,和/或挖掘学习资源与知识图谱节点的关联。
进一步地,用户查看学习资源时,以动态图文呈现与之关联的资源信息;用户检索关键词时,以动态图文呈现与之关联的资源信息。
采用本发明所述的技术方案后,带来以下有益效果:
本发明提供的智能学习平台,依据建立的学科知识图谱,利用人工智能技术对海量的在线学习资源进行智能分析和挖掘,从而建立海量线上学习资源的关联互通并简明扼要地呈现给用户,让用户在学习时降低认知负荷、提高学习的针对性和精准性,打破学习孤岛,达到“策略学习”的目的。
本发明提供的智能学习平台的构建方法,把海量线上学习资源进行关联并简明扼要地呈现给用户,帮助用户更有目的更轻松地学习。
附图说明
图1:本发明实施例中提供的智能学习平台的示意图;
图2:本发明实施例中提供的智能学习平台的流程图;
图3:本发明实施例中提供的构建知识图谱库的流程图;
图4:本发明实施例中提供的结构化数据集处理的流程图;
图5:本发明实施例中提供的数据挖掘及智能分析的流程图;
图6:本发明实施例中提供的建立资源关联互通的流程图;
图7:本发明实施例中提供的资源关联呈现的流程图。
图8:本发明实施例中提供的智能学习平台构建方法的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明作进一步详细的说明,旨在用于解释本发明,而不能理解为对本发明的限制。需要说明的是,附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示或描述的步骤。
如图1所示,一种智能学习平台,包括知识图谱模块,用于存储学科知识体系;数据收集模块,用于收集在线学习资源形成数据集;数据挖掘及语义分析模块,基于知识图谱模块对数据收集模块的在线学习资源进行数据挖掘和语义分析,将在线学习资源与知识图谱模块中的学科知识体系进行关联,得到关联资源信息;数据关联提示及呈现模块,呈现关联资源信息。
本发明的学习平台,并不仅仅是为用户提供学习资源,而是依据建立的学科知识图谱,利用人工智能技术对海量的在线学习资源进行智能分析和挖掘,从而建立海量线上学习资源的关联互通并简明扼要地呈现给用户。本学习平台主要包括知识图谱模块、数据收集模块、数据挖掘及语义分析模块、数据关联提示及呈现模块,数据挖掘及语义分析模块将在线学习资源与知识图谱模块中的学科知识体系进行关联并通过数据关联提示及呈现模块呈现出来,使用户在查看学习资源或检索学习资源时,清楚明了地获知关联的资源信息。本平台的实现流程如图2所示,下面详述各个模块。
在教育领域,知识图谱可以看成是一个完整的学科知识体系,是某个具体学科领域中所有概念及其之间语义关系的集合,是对特定领域内的知识和知识结构的形式化表征,主要表现在学科知识、教材组织和学科教学三个层面。因此,知识图谱模块用于存储诸多的学科知识体系,所存储的诸多学科知识体系构成知识图谱库。
知识图谱库主要用于存放专业学科课程知识点、概念术语的信息和之间的关联关系。对专业学科而言,知识图谱的节点就是学科知识体系的组成内容,如知识点、概念术语等,而知识图谱的边就是学科的知识点、概念术语相互间的关系以及学习次序,如拓展、延伸、先修等,本发明的学习平台,就围绕上述两方面建立知识图谱库。如图3所示,专业学科专家或课程教师根据学科知识体系标准,按照所属学科、知识点名称、知识点之间的关联关系三个要素进行知识点梳理,形成规范的Excel文档;通过.NET文件导入及读取程序对Excel文件进行遍历,通过SaveKnowledge函数将学科、知识点名称、知识点关联关系写入知识图谱模块。专业学科的知识图谱,专业性强,本发明采用上述自顶向下的数据建立模式,确保了数据的可靠性。现代社会中,科学日新月异,各学科的知识点及相互关系也有可能随着变化,若这种变化都需要通过上述的方式才能更新到知识图谱模块中,则过于麻烦且效率低下。本发明的知识图谱模块设置了可视化的知识图谱编辑工具,专业学科专家或课程教师可利用该工具在线编辑页面,手动建立和调整知识点以及相互间的关联关系,并存储于知识图谱模块中,使知识点及相互间的关联关系得到进一步优化,适应时代发展。当然,若专业学科专家或课程教师发现上述导入的知识图谱有错误的地方,也可在线编辑进行调整。
数据收集模块用于收集海量的在线学习资源并对所收集的资源进行处理,形成文本文件的数据集。海量的在线学习资源包括视音频资源和文稿资源,这些没有经过任何处理的学习资源形成原始的专业课程群数据集。其中,视音频资源通过智能语音识别技术识别后得到srt的唱词文本文件,文稿资源通过OCR文字识别技术得到文本文件。相关人员,如课程老师或学科助教,对上述识别结果进行复核和校对,从而得到相对可靠的数据集。
如图5、图6所示,在建立了比较完整的学科知识体系和数据集的基础上,数据挖掘及语义分析模块以自然语言处理模型为基础构建各学科的人工智能语义分析模型,依据人工智能语义分析模型的分析结果,挖掘在线学习资源的关联信息,构建与知识图谱相关的关联资源信息数据库。构建人工智能语义分析模型主要包括四个步骤的工作:(1)数据预处理;(2)数据切分;(3)数据语义识别和模型训练;(4)测试及验证。因此,数据挖掘及语义分析模块所构建的人工智能语义分析模型包括相对应的单元:
数据预处理单元,对文件进行检查,清洗掉文本中隐藏的分隔字符、封闭错误数据、转义字符等,然后将文本统一调整编码为utf-8编码,经过多轮的清洗及数据格式化工作,最终形成格式化、结构化的数据集。
数据切分单元,根据自然语言处理模型,把数据预处理单元处理后的结构化数据集划分为训练集和测试集。训练机器学习模型目的是使用已有数据来预测未知的数据,模型对未知数据的预测能力称为泛化能力。为了评估一个模型的泛化能力,通常会将数据集切分训练集和测试集,训练集用来训练模型,测试集用来评估模型的泛化能力和测试模型的输出结果。训练集和测试集的比例为8:2。
数据语义识别和模型训练单元,把结构化的数据集导入自然语言处理模型中,完成切词、词性标注、专有名词识别等语义识别分析以及样本标注工作。这个单元,主要利用自然语言处理模型对训练集进行语义识别分析并进行样本标注,得到语义识别分析结果同时对自然语言处理模型进行训练。其中,切词,是将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列的过程。词性标注,是指为自然语言文本中的每个词汇赋予一个词性的过程;专有名词识别,即“专名识别”,是指识别自然语言文本中具有特定意义的实体,一般主要包括人名、地名、机构名、时间日期等,在本发明中则为专业概念术语、知识点等关键词。本发明中,模型依据知识图谱库存放的数据对结构化的数据进行语义识别,如,“在平面直角坐标系中,任意一个矢量都可以表示为任意两个不共线的矢量的线性组合”这个句子,将被切分成如下单独的词语:“在”、“平面直角坐标系”、“中”、“任意”、“一个”、“矢量”、“都”、“可以”、“表示”、“为”、“任意”、“两个”、“不”、“共线”、“的”、“矢量”、“的”、“线性”、“组合”。每个词语都被赋予一个词性,比如,“在”的词性为介词,“平面直角坐标系”的词性为名词,等等。这个句子中,属于专名识别的词语包括“平面直角坐标系”、“矢量”和“线性”,这些都是相关学科的关键词。在模型语义识别分析完成以后,需要进行样本标注工作以对模型进行训练。如,“平面直角系”这个专业名词,是否为该专业有效专业样本,如果样本有效且与前后语义描述关联非常大,则标注通过,反之则可标注不是或无效样本;另外,如果样本有效但与前后语义描述关联不大,可对样本标注不确定。通过这样的标注对模型不断训练,完成模型的优化和完善。模型输出的结果就是语义识别出的专业学科的关键词,且关键词与所在位置的上下文语义关联度较高。
测试及验证单元,在模型训练完成后,利用划分出来的测试集,对模型进行测试及验证。即,模型训练完成后,利用训练后的自然语言处理模型对测试集的数据进行语义识别分析,得到模型的输出结果,根据输出结果评估模型训练前后的准确率。如果模型输出结果不理想,需调整优化模型参数并对模型进一步训练。
本发明的人工智能语义分析模型,所识别出的关键词,返回的结果为json格式。
如,“正弦信号”返回的结果为:
其中,"content"为“正弦信号”这个关键词所在学习资源的摘要,"file"为所在的资源位置,"idx"为索引位置,"time"为所在学习资源中起点和结束点时间。通过返回的json结果,可以得知“3-1.srt”唱词文件所对应的视音频资源中8分44秒~9分20秒,都在阐述“正弦信号”这个关键词。
数据挖掘及语义分析模块包括关联数据库单元,这个单元依据人工智能语义分析模型的分析结果,获知某个学习资源与某个关键词关联,从而通过该关键词挖掘与该学习资源关联的资源并使这些相关的资源和信息关联起来,构建关联资源信息数据库。
关联的建立主要有以下几种:一、资源和知识点(即知识图谱的节点)之间的关联。如,在学习资源“1-1.MP4”中,人工智能语义分析模型返回的结果为“平面直角坐标系”,并且“平面直角坐标系”在资源“1-1.MP4”中的8分44秒~9分20秒阐述,则很显然,资源“1-1.MP4”与知识点“平面直角坐标系”是关联的,可对资源“1-1.MP4”和知识点“平面直角坐标系”进行关联。二、同一知识点与不同资源之间的关联。如,资源“1-1.MP4”与知识点“平面直角坐标系”是关联的,资源“3-2.MP4”与知识点“平面直角坐标系”也是关联的,则资源“1-1.MP4”与资源“3-2.MP4”是关联的,可对资源“1-1.MP4”与资源“3-2.MP4”进行关联。三、不同知识点与不同资源之间的关联。如,资源“1-1.MP4”与知识点“平面直角坐标系”是关联的,资源“4-3.MP4”与知识点“高斯平面直角坐标系”是关联的,而“平面直角坐标系”是“高斯平面直角坐标系”的前置知识点,则资源“1-1.MP4”是资源“4-3.MP4”的前置关联资源,可对资源“1-1.MP4”与资源“4-3.MP4”进行前置关联。当然,关联的建立并不局限于上述几种实施例,关联数据库单元可对更多相关的关联资源和信息进行关联。通过上述关联的建立,挖掘出学习资源之间、学习资源与关键词之间的关联,从而构建关联资源信息数据库。人工智能语义分析模型是在建立了比较完整的学科知识体系和数据集的基础上,以自然语言处理模型为基础构建的,因此关联资源信息数据库,如图6所述,包括学习资源之间的关联,学习资源与知识图谱的节点之间的关联。
如图7所示,关联资源信息通过“智能助教机器人”这种动画图文的形式呈现。动画图文这种表现形式,既有图画又有文字,同时又是动态甚至能配上声音,不仅容易吸引人的注意力,而且简单明了、一目了然。如,当用户查看学习资源,浏览到某个位置时出现了关键词,这里的位置对视音频资源而言是时间点,对文稿资源而言是具体查看的页码,则触发了关联事件,“智能助教机器人”呈现与当前位置的关键词相关联的资源信息,包括位置信息、关联资源提示等。位置信息指关键字在学习资源中的时间点或页码,关联资源提示指有哪些关联的资源以及与知识图谱的关联。若是同时出现多个关键词,“智能助教机器人”将一一呈现与当前位置的关键词相关联的资源信息。当用户点击“智能助教机器人”,输入关键词进行检索,可查看该关键词(即知识点)的概要信息、与其相关联的资源信息、关键词(即知识点)图谱关系。
本发明还提供了一种智能学习平台的构建方法,如图8所示,包括以下步骤:S1、构建学科知识图谱;S2、收集在线学习资源形成数据集;S3、基于所构建的学科知识图谱对所收集的在线学习资源进行数据挖掘和语义分析,将在线学习资源与学科知识图谱进行关联;S4、用户使用时,呈现所关联的资源信息。
本发明的智能学习平台的构建方法,根据所建立的学科知识图谱,利用人工智能技术对海量的在线学习资源进行智能分析和挖掘,从而建立海量线上学习资源的关联互通并简明扼要地呈现给用户。下面详述各个步骤。
S1、构建学科知识图谱。
如图3所示,专业学科专家或课程教师根据学科知识体系标准,按照所属学科、知识点名称、知识点之间的关联关系三个要素进行知识点梳理,形成规范的Excel文档;通过.NET文件导入及读取程序对Excel文件进行遍历,通过SaveKnowledge函数将学科、知识点名称、知识点关联关系写入知识图谱模块。
专业学科的知识图谱,专业性强,本发明采用上述自顶向下的数据建立模式,确保了数据的可靠性。现代社会中,科学日新月异,各学科的知识点及相互关系也有可能随着变化,若这种变化都需要通过上述的方式才能更新到知识图谱模块中,则过于麻烦且效率低下。本发明的知识图谱模块设置了可视化的知识图谱编辑工具,专业学科专家或课程教师可利用该工具在线编辑页面,手动建立和调整知识点以及相互间的关联关系,并存储于知识图谱模块中,使知识点及相互间的关联关系得到进一步优化,适应时代发展。当然,若专业学科专家或课程教师发现上述导入的知识图谱有错误的地方,也可在线编辑进行调整。
S2、收集在线学习资源形成数据集。
海量的在线学习资源包括视、音频资源和文稿资源,这些没有经过任何处理的学习资源形成原始的专业课程群数据集。如图4所示,经过处理,视音频资源和文稿资源都转化成文本文件的数据集。其中,视音频资源通过智能语音识别技术识别后得到srt的唱词文本文件,文稿资源通过OCR文字识别技术得到文本文件。相关人员,如课程老师或学科助教,对上述识别结果进行复核和校对,从而得到相对可靠的数据集。
S3、基于所构建的学科知识图谱对所收集的在线学习资源进行数据挖掘和语义分析,将在线学习资源与学科知识图谱进行关联。
在建立了比较完整的学科知识体系和数据集的基础上,便可对该学科进行数据挖掘和语义分析,将在线学习资源与学科知识图谱进行关联。
首先,根据学科知识图谱和数据集,以自然语言处理模型为基础构建人工智能语义分析模型,包括四个步骤的工作:(1)数据预处理;(2)数据切分;(3)数据语义识别和模型训练;(4)测试及验证。然后,依据人工智能语义分析模型的分析结果,挖掘在线学习资源的关联信息,构建与知识图谱相关的关联资源信息数据库。
数据预处理,对文件进行检查,清洗掉文本中隐藏的分隔字符、封闭错误数据、转义字符等,然后将文本统一调整编码为utf-8编码,经过多轮的清洗及数据格式化工作,最终形成格式化、结构化的数据集。
数据切分,根据自然语言处理模型,把结构化数据集划分为训练集和测试集。训练机器学习模型目的是使用已有数据来预测未知的数据,模型对未知数据的预测能力称为泛化能力。为了评估一个模型的泛化能力,通常会将数据集切分训练集和测试集,训练集用来训练模型,测试集用来评估模型的泛化能力和测试模型的输出结果。训练集和测试集的比例为8:2。
数据语义识别和模型训练,把结构化的数据集导入自然语言处理模型中,完成切词、词性标注、专有名词识别等语义识别分析以及样本标注工作。主要利用自然语言处理模型对训练集进行语义识别分析并进行样本标注,得到语义识别分析结果同时对自然语言处理模型进行训练。其中,切词,是将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列的过程。词性标注,是指为自然语言文本中的每个词汇赋予一个词性的过程;专有名词识别,即“专名识别”,是指识别自然语言文本中具有特定意义的实体,一般主要包括人名、地名、机构名、时间日期等,在本发明中则为专业概念术语、知识点等关键词。本发明中,模型依据知识图谱库存放的数据对结构化的数据进行语义识别,如,“在平面直角坐标系中,任意一个矢量都可以表示为任意两个不共线的矢量的线性组合”这个句子,将被切分成如下单独的词语:“在”、“平面直角坐标系”、“中”、“任意”、“一个”、“矢量”、“都”、“可以”、“表示”、“为”、“任意”、“两个”、“不”、“共线”、“的”、“矢量”、“的”、“线性”、“组合”。每个词语都被赋予一个词性,比如,“在”的词性为介词,“平面直角坐标系”的词性为名词,等等。这个句子中,属于专名识别的词语包括“平面直角坐标系”、“矢量”和“线性”,这些都是相关学科的关键词。在模型语义识别分析完成以后,需要进行样本标注工作以对模型进行训练。如,“平面直角系”这个专业名词,是否为该专业有效专业样本,如果样本有效且与前后语义描述关联非常大,则标注通过,反之则可标注不是或无效样本;另外,如果样本有效但与前后语义描述关联不大,可对样本标注不确定。通过这样的标注对模型不断训练,完成模型的优化和完善。模型输出的结果就是语义识别出的专业学科的关键词,且关键词与所在位置的上下文语义关联度较高。
测试及验证,在模型训练完成后,利用划分出来的测试集,对模型进行测试及验证。即,模型训练完成后,利用训练后的自然语言处理模型对测试集的数据进行语义识别分析,得到模型的输出结果,根据输出结果评估模型训练前后的准确率。如果模型输出结果不理想,需调整优化模型参数并对模型进一步训练。
本发明的人工智能语义分析模型,所识别出的关键词,返回的结果为json格式。
如,“正弦信号”返回的结果为:
其中,"content"为“正弦信号”这个关键词所在学习资源的摘要,"file"为所在的资源位置,"idx"为索引位置,"time"为所在学习资源中起点和结束点时间。通过返回的json结果,可以得知“3-1.srt”唱词文件所对应的视音频资源中8分44秒~9分20秒,都在阐述“正弦信号”这个关键词。
依据人工智能语义分析模型的分析结果,可获知某个学习资源与某个关键词关联,从而通过该关键词挖掘与该学习资源关联的资源并使这些相关的资源和信息关联起来,构建关联资源信息数据库。
关联的建立主要有以下几种:一、资源和知识点(即知识图谱的节点)之间的关联。如,在学习资源“1-1.MP4”中,人工智能语义分析模型返回的结果为“平面直角坐标系”,并且“平面直角坐标系”在资源“1-1.MP4”中的8分44秒~9分20秒阐述,则很显然,资源“1-1.MP4”与知识点“平面直角坐标系”是关联的,可对资源“1-1.MP4”和知识点“平面直角坐标系”进行关联。二、同一知识点与不同资源之间的关联。如,资源“1-1.MP4”与知识点“平面直角坐标系”是关联的,资源“3-2.MP4”与知识点“平面直角坐标系”也是关联的,则资源“1-1.MP4”与资源“3-2.MP4”是关联的,可对资源“1-1.MP4”与资源“3-2.MP4”进行关联。三、不同知识点与不同资源之间的关联。如,资源“1-1.MP4”与知识点“平面直角坐标系”是关联的,资源“4-3.MP4”与知识点“高斯平面直角坐标系”是关联的,而“平面直角坐标系”是“高斯平面直角坐标系”的前置知识点,则资源“1-1.MP4”是资源“4-3.MP4”的前置关联资源,可对资源“1-1.MP4”与资源“4-3.MP4”进行前置关联。当然,关联的建立并不局限于上述几种实施例,关联数据库单元可对更多相关的关联资源和信息进行关联。通过上述关联的建立,挖掘出学习资源之间、学习资源与关键词之间的关联,从而构建关联资源信息数据库。人工智能语义分析模型是在建立了比较完整的学科知识体系和数据集的基础上,以自然语言处理模型为基础构建的,因此关联资源信息数据库,如图6所述,包括学习资源之间的关联,学习资源与知识图谱的节点之间的关联。
S4、用户使用时,呈现所关联的资源信息
如图7所示,关联资源信息通过“智能助教机器人”这种动画图文的形式呈现。动画图文这种表现形式,既有图画又有文字,同时又是动态甚至能配上声音,不仅容易吸引人的注意力,而且简单明了、一目了然。如,当用户查看学习资源,浏览到某个位置时出现了关键词,这里的位置对视音频资源而言是时间点,对文稿资源而言是具体查看的页码,则触发了关联事件,“智能助教机器人”呈现与当前位置的关键词相关联的资源信息,包括位置信息、关联资源提示等。位置信息指关键字在学习资源中的时间点或页码,关联资源提示指有哪些关联的资源以及与知识图谱的关联。若是同时出现多个关键词,“智能助教机器人”将一一呈现与当前位置的关键词相关联的资源信息。当用户点击“智能助教机器人”,输入关键词进行检索,可查看该关键词(即知识点)的概要信息、与其相关联的资源信息、关键词(即知识点)图谱关系。
以上所述仅为本发明的优选实施方式,应当指出,对于本领域的普通技术人员而言,在不脱离本发明原理前提下,还可以做出多种变形和改进,这也应该视为本发明的保护范围。
Claims (8)
1.一种智能学习平台,其特征在于,包括:
知识图谱模块,用于存储学科知识体系,专业学科专家或课程教师按照所属学科、知识点名称、知识点之间的关联关系三个要素进行知识点梳理,形成规范的Excel文档;通过.NET文件导入及读取程序对Excel文件进行遍历,通过SaveKnowledge函数将学科、知识点名称、知识点关联关系写入知识图谱模块;
数据收集模块,用于收集在线学习资源,形成文本文件的数据集;
数据挖掘及语义分析模块,基于知识图谱模块对数据收集模块的在线学习资源进行数据挖掘和语义分析,将在线学习资源与知识图谱模块中的学科知识体系进行关联,得到关联资源信息;
数据关联提示及呈现模块,用户使用时,呈现关联资源信息;
所述关联资源信息在用户查看学习资源时,或者在用户检索关键词时通过“智能助教机器人”以动态图文的形式呈现;
所述动态图文呈现与当前位置的关键词相关联的资源信息,包括位置信息、关联资源提示,所述位置信息指关键字在学习资源中的时间点或页码,所述关联资源提示指有哪些关联的资源以及与知识图谱的关联;或者所述动态图文呈现关键词的概要信息、关联资源信息、关键词的图谱关系;
关联资源信息数据库,包括资源和知识点之间的关联,同一知识点与不同资源之间的关联,不同知识点与不同资源之间的关联;所述不同知识点之间的关联包括知识点之间的前置关联,所述不同资源之间的关联包括资源之间的前置关联;
所述关联资源信息的呈现:当用户查看学习资源,浏览到某个位置时出现了关键词,这里的位置对视音频资源而言是时间点,对文稿资源而言是具体查看的页码,则触发了关联事件,“智能助教机器人”呈现与当前位置的关键词相关联的资源信息,包括位置信息、关联资源提示,关联资源提示指有哪些关联的资源以及与知识图谱的关联;若是同时出现多个关键词,“智能助教机器人”将一一呈现与当前位置的关键词相关联的资源信息;当用户点击“智能助教机器人”,输入关键词进行检索,可查看该关键词的概要信息、与其相关联的资源信息、关键词图谱关系,所述关键词为知识点。
2.根据权利要求1所述的一种智能学习平台,其特征在于,所述知识图谱模块中的知识图谱的节点为学科知识体系的组成内容,包括知识点、概念术语,知识图谱的边为学科的知识点、概念术语相互间的关系以及学习次序,包括拓展、延伸、先修;所述数据挖掘及语义分析模块依据学科知识图谱和数据集,构建人工智能语义分析模型,依据人工智能语义分析模型的分析结果,获知某个学习资源与某个关键词关联,从而通过该关键词挖掘与该学习资源关联的资源并使这些相关的资源和信息关联起来,构建与知识图谱相关的关联资源信息数据库。
3.根据权利要求2所述的一种智能学习平台,其特征在于,所述数据挖掘及语义分析模块所构建的人工智能语义分析模型包括:
数据预处理单元,对文件进行检查,清洗掉文本中隐藏的分隔字符、封闭错误数据、转义字符,然后将文本统一调整编码为utf-8编码,经过多轮的清洗及数据格式化工作,最终形成格式化、结构化的数据集;
数据切分单元,根据自然语言处理模型,把数据预处理单元处理后的结构化数据集划分为训练集和测试集;
数据语义识别和模型训练单元,依据知识图谱,利用自然语言处理模型对结构化的数据集中的训练集进行语义识别分析,包括切词、词性标注、专有名词识别;所述切词是将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列的过程;所述词性标注是为自然语言文本中的每个词汇赋予一个词性的过程;所述专有名词识别是识别专业概念术语、知识点的关键词;并进行样本标注,得到语义识别分析结果同时对自然语言处理模型进行训练;
测试及验证单元,利用训练后的自然语言处理模型对测试集的数据进行语义识别分析,得到模型的输出结果,根据输出结果评估模型训练前后的准确率;
所述数据语义识别和模型训练单元识别出的关键词,返回的结果为json格式,包括:“content”为这个关键词所在学习资源的摘要,“File”为所在的资源位置,“Idx”为索引位置,“Time”为所在学习资源中起点和结束点时间/页码。
4.一种权利要求1-3任一项所述的智能学习平台的构建方法,其特征在于,包括以下步骤:
S1、构建学科知识图谱;
S2、收集在线学习资源形成数据集;
S3、基于所构建的学科知识图谱对所收集的在线学习资源进行数据挖掘和语义分析,将在线学习资源与学科知识图谱进行关联;
S4、用户使用时,呈现所关联的资源信息。
5.根据权利要求4所述的智能学习平台的构建方法,其特征在于,所述S3包括以下步骤:
S31、依据学科知识图谱和数据集,以自然语言处理模型为基础构建人工智能语义分析模型;
S32、依据人工智能语义分析模型的分析结果,挖掘在线学习资源的关联信息,构建与知识图谱相关的关联资源信息数据库。
6.根据权利要求5所述的智能学习平台的构建方法,其特征在于,所述构建人工智能语义分析模型包括以下步骤:
S311、数据预处理,对数据集进行处理,形成结构化的数据集;
S312、数据切分,根据自然语言处理模型,把结构化数据集划分为训练集和测试集;
S313、数据语义识别和模型训练,依据知识图谱,利用自然语言处理模型对结构化的数据集中的训练集进行语义识别分析并进行样本标注,得到语义识别分析结果同时对自然语言处理模型进行训练;
S314、测试及验证,利用训练后的自然语言处理模型对测试集的数据进行语义识别分析,得到模型的输出结果,根据输出结果评估模型训练前后的准确率。
7.根据权利要求5所述的智能学习平台的构建方法,其特征在于,所述挖掘在线学习资源的关联信息,包括挖掘学习资源之间的关联,和/或挖掘学习资源与知识图谱节点的关联。
8.根据权利要求5-7任一所述的智能学习平台的构建方法,其特征在于,用户查看学习资源时,以动态图文呈现与之关联的资源信息;用户检索关键词时,以动态图文呈现与之关联的资源信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911024667.4A CN110888989B (zh) | 2019-10-25 | 2019-10-25 | 一种智能学习平台及其构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911024667.4A CN110888989B (zh) | 2019-10-25 | 2019-10-25 | 一种智能学习平台及其构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110888989A CN110888989A (zh) | 2020-03-17 |
CN110888989B true CN110888989B (zh) | 2023-09-22 |
Family
ID=69746478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911024667.4A Active CN110888989B (zh) | 2019-10-25 | 2019-10-25 | 一种智能学习平台及其构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110888989B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723213A (zh) * | 2020-06-02 | 2020-09-29 | 广东小天才科技有限公司 | 学习数据获取方法及电子设备、计算机可读存储介质 |
CN112232756A (zh) * | 2020-09-16 | 2021-01-15 | 南京睿圣人工智能研究院有限公司 | 一种人机互动的智能学习平台及关联方法 |
CN113312472A (zh) * | 2021-05-20 | 2021-08-27 | 北京黑岩方碑网络科技有限公司 | 一种智能化的协同知识图谱记录和展示系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052672A (zh) * | 2017-12-29 | 2018-05-18 | 北京师范大学 | 利用群体学习行为促进结构化知识图谱构建系统及方法 |
US20180366013A1 (en) * | 2014-08-28 | 2018-12-20 | Ideaphora India Private Limited | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter |
-
2019
- 2019-10-25 CN CN201911024667.4A patent/CN110888989B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180366013A1 (en) * | 2014-08-28 | 2018-12-20 | Ideaphora India Private Limited | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter |
CN108052672A (zh) * | 2017-12-29 | 2018-05-18 | 北京师范大学 | 利用群体学习行为促进结构化知识图谱构建系统及方法 |
Non-Patent Citations (1)
Title |
---|
王亮 ; .深度学习视角下基于多模态知识图谱的MOOC课程重构.现代教育技术.2018,第28卷(第10期),第100-106页. * |
Also Published As
Publication number | Publication date |
---|---|
CN110888989A (zh) | 2020-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Neculoiu et al. | Learning text similarity with siamese recurrent networks | |
US11721230B2 (en) | Personalized learning system and method for the automated generation of structured learning assets based on user data | |
CN111259631B (zh) | 一种裁判文书结构化方法及装置 | |
CN110888989B (zh) | 一种智能学习平台及其构建方法 | |
CN111177399B (zh) | 一种知识图谱构建方法和装置 | |
CN109949637B (zh) | 一种客观题目的自动解答方法和装置 | |
CN111159356B (zh) | 基于教学内容的知识图谱构建方法 | |
CN113886567A (zh) | 一种基于知识图谱的教学方法及系统 | |
CN110110090A (zh) | 搜索方法、教育搜索引擎系统及装置 | |
Maher et al. | Teaching master thesis writing to engineers: Insights from corpus and genre analysis of introductions | |
Shekhawat | Sentiment classification of current public opinion on brexit: Naïve Bayes classifier model vs Python’s Textblob approach | |
CN112380868A (zh) | 一种基于事件三元组的信访目的多分类装置及其方法 | |
Jiménez et al. | Sentiment Analysis of Student Surveys--A Case Study on Assessing the Impact of the COVID-19 Pandemic on Higher Education Teaching. | |
CN115757720A (zh) | 基于知识图谱的项目信息搜索方法、装置、设备和介质 | |
Tian et al. | Semantic similarity measure of natural language text through machine learning and a keyword‐aware cross‐encoder‐ranking summarizer—A case study using UCGIS GIS &T body of knowledge | |
CN106844448A (zh) | 一种中文事件事实性识别方法和系统 | |
Liu et al. | Design of adaptive learning system based on big data | |
Huang et al. | Professional competence management for university students based on knowledge graph technology | |
Ngo et al. | Exploration and integration of job portals in Vietnam | |
CN115906867B (zh) | 基于隐知识空间映射的试题特征提取及知识点标注方法 | |
Zhang et al. | Research and exploration for deep learning of artificial intelligence based on intelligent voice interaction in engineering experiment project guidance | |
Liu et al. | An Enhanced Intelligent Teaching Support System for College Courses | |
Deng et al. | From the Construction of Knowledge System to the Generation of Learner Portrait Based on Knowledge Graph | |
CN109947953B (zh) | 英语领域知识本体的构造方法、系统及设备 | |
Xue et al. | An ontology-supported inquiry learning technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |