CN112287037A - 一种多实体混合知识图谱构建方法、装置及存储介质 - Google Patents
一种多实体混合知识图谱构建方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112287037A CN112287037A CN202011147178.0A CN202011147178A CN112287037A CN 112287037 A CN112287037 A CN 112287037A CN 202011147178 A CN202011147178 A CN 202011147178A CN 112287037 A CN112287037 A CN 112287037A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- teaching
- graph
- resources
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims description 19
- 230000006399 behavior Effects 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000011835 investigation Methods 0.000 claims abstract description 31
- 230000008569 process Effects 0.000 claims description 24
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000005065 mining Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000005295 random walk Methods 0.000 description 4
- 230000001364 causal effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001483 mobilizing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Game Theory and Decision Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Operations Research (AREA)
- Primary Health Care (AREA)
- Fuzzy Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种多实体混合知识图谱构建方法、装置及存储介质。方法将知识点,学生,教学资源作为实体加入到知识图谱中。通过OCR算法、LSTM算法、TFIDF算法为教学资源匹配相应的考察知识点并构建教学资源与知识点间的关系,结合学生在不同教学资源上的学习行为进一步维护学生对知识点的掌握程度以及学习资源的偏好程度。
Description
技术领域
本发明涉及在线教育及混合教育领域,具体而言,尤其涉及一种针对教育领域的多实体混合知识图谱构建方法、装置及存储介质。
背景技术
在教育领域中,知识图谱的实体一般局限于学科本身的章、节及知识点。在构建过程中,一般通过人工手动构建方法,或通过文本识别与专家标识相结合的混合构建方法。这种传统的知识图谱结构能够有效得描述学科内的知识点与知识点间的详细关系,但在教学过程中与学生之间的关联较弱,尤其是没有将学生在学习中产生的多种类型数据进行有效地融合和利用,因此很难体现不同学生间的区别以及同一学生在不同阶段的掌握程度变化。
近期,部分K12领域的研究者将多媒体资源加入至传统的知识图谱中,从而调动学习者的学习兴趣和主动性。但更多偏重于图谱的可视化框架以解决纯文本型图谱在教学过程中的枯燥性。也有研究者利用知识图谱中的节点对教学资源进行匹配,从而达到教学资源间的链接。但以上研究均没有考虑到学生学习行为对知识图谱的影响,无法满足教师和学生对个性化图谱的需求。
针对此类以知识点为主体的知识图谱,仅能够通过图结构特征来分析知识点间的联系,而无法综合考虑到知识点、学生及教学资源间的关系,更无法通过海量的学生学习行为数据来挖掘各种实体间的潜在关联,如知识点间的逻辑顺序关系、学生间的相似关系、学生对学习资源类型的偏好关系等。
发明内容
本发明提供了一种多实体混合知识图谱构建方法、装置及存储介质。解决了现有技术中无法综合考虑到知识点、学生及教学资源间的关系,更无法通过海量的学生学习行为数据来挖掘各种实体间的潜在关联的问题,通过OCR算法、LSTM算法、TFIDF算法为教学资源匹配相应的考察知识点并构建教学资源与知识点间的关系,结合学生在不同教学资源上的学习行为进一步维护学生对知识点的掌握程度以及学习资源的偏好程度。
本发明采用的技术手段如下:
一种多实体混合知识图谱构建方法,包括:
S1、获取学科内容,并构建以知识内容为主体的初级知识图谱,所述初级知识图谱的实体按照粒度划分为课程、章、节、知识点,所述学科内容包括教学大纲和教材;
S2、将学习资源作为实体加入所述初级知识图谱中,并将所述学习资源对知识点的考察关系作为关系类型、将考察难度作为权重关联到对应的知识点,由此得到二级知识图谱;
S3、将学生作为实体加入所述二级知识图谱中,建立学生与教学资源间的偏好程度关系,以及学生与知识点间的掌握程度关系,从而得到多实体混合知识图谱。
进一步地,还包括
S4、根据学生在学习过程中会产生的学习行为,对所述多实体混合知识图谱进行动态的更新。
进一步地,步骤S4包括:
获取学生的学号信息,根据学号信息识别学生在当前知识图谱中的历史数据;
收集学生在学习过程中产生学习行为数据,并由教学平台收集存储至数据库中;
将所述学习行为数据量化为行为得分;
按照学习行为中教学资源的编号在知识图谱中查询此资源所考察的知识点;
结合教学资源的考察难度关系,更新学生对相应知识点的掌握程度。
进一步地,步骤S1包括:
S101、根据教学大纲构建“课程-章-节”的知识树主干;
S102、根据教材内容识别出每个章节内的知识点实体,从而建立出知识点与章节间的所属分类关系;
S103、获取教材的文本数据并进一步挖掘,构建知识点实体间的关系;
S104、建立Neo4j数据库结构,将由步骤S101-S103获取数据进行存储,从而构建学科知识点的初级知识图谱。
进一步地,步骤S2包括:
S201、分别对文本类教学资源、图像类教学资源以及视频类教学资源进行数据预处理,提取有效的教学资源文本数据;
S202、利用TFIDF算法,对所述有效的教学资源文本数据进行分析,识别教学资源考察的知识点;
S203、将教学资源作为实体加入所述初级知识图谱中,并根据所述教学资源考察的知识点建立教学资源与知识点间的考察关系,得到二级知识图谱。
一种多实体混合知识图谱构建装置,包括:
初级知识图谱构建模块,用于获取学科内容并构建以知识内容为主体的初级知识图谱,所述初级知识图谱的实体按照粒度划分为课程、章、节、知识点,所述学科内容包括教学大纲和教材;
二级知识图谱构建模块,用于将学习资源作为实体加入所述初级知识图谱中,并将所述学习资源对知识点的考察关系作为关系类型、将考察难度作为权重关联到对应的知识点,由此得到二级知识图谱;
多实体混合知识图谱构建模块,用于将学生作为实体加入所述二级知识图谱中,建立学生与教学资源间的偏好程度关系,以及学生与知识点间的掌握程度关系,从而得到多实体混合知识图谱。
进一步地,还包括知识图谱更新模块,用于根据学生在学习过程中会产生的学习行为,对所述多实体混合知识图谱进行动态的更新,具体包括:
历史查询单元,用于获取学生的学号信息,根据学号信息识别学生在当前知识图谱中的历史数据;
学习行为存储单元,用于收集学生在学习过程中产生学习行为数据,并由教学平台收集存储至数据库中;
评价单元,用于将所述学习行为数据量化为行为得分;
查询单元,用于按照学习行为中教学资源的编号在知识图谱中查询此资源所考察的知识点;
更新单元,用于结合教学资源的考察难度关系,更新学生对相应知识点的掌握程度。
进一步地,所述初级知识图谱构建模块包括:
知识树主干建立单元,用于根据教学大纲构建“课程-章-节”的知识树主干;
识别单元,用于根据教材内容识别出每个章节内的知识点实体,从而建立出知识点与章节间的所属分类关系;
关系构建单元,用于获取教材的文本数据并进一步挖掘,构建知识点实体间的关系;
初级知识图谱建立单元,用于建立Neo4j数据库结构,将获取数据进行存储,从而构建学科知识点的初级知识图谱。
进一步地,所述二级知识图谱构建模块包括:
预处理单元,用于分别对文本类教学资源、图像类教学资源以及视频类教学资源进行数据预处理,提取有效的教学资源文本数据;
分析单元,用于利用TFIDF算法,对所述有效的教学资源文本数据进行分析,识别教学资源考察的知识点;
二级知识图谱建立单元,将教学资源作为实体加入所述初级知识图谱中,并根据所述教学资源考察的知识点建立教学资源与知识点间的考察关系,得到二级知识图谱。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令集;所述计算机指令集被处理器执行时实现上述任一项所述的多实体混合知识图谱构建方法。
较现有技术相比,本发明具有以下优点:
1、本发明能够从全局角度考虑知识点、教学资源、学生以及各实体内部的关系,能够在教师准备课程内容时提供清晰的知识点结构,便于其准备配套的教学资源,知识图谱中学生对知识点掌握度的实时反馈有利于教师直观准确地了解每一位学生的学习状态,便于因材施教。
2、目前教育领域内的多种学生画像算法及推荐系统算法均以图结构为基础提出了新颖的思路,而图结构数据是支撑相应算法的重要内容。多实体混合知识图谱能够更好地描述教学过程中各个主体间的关系以及学生的学习行为,因此能够从中提取出更完整的知识点特征和学生特征,能够支撑后续算法达到更好的效果。
本发明将知识点、学生及教育资源作为实体构建一种教育领域内多实体混合的新型知识图谱,在实体类别增加的基础上丰富实体间的关系,如知识点间的因果逻辑关系及所属分类关系、教学资源与知识点间的考察关系、学生对知识点的掌握程度关系、学生对教学资源的偏好关系等。通过完善多种实体关系的知识图谱能够从多维度表征学生的学习过程,从而达到因材施教的目的,提高教学效果。
基于上述理由本发明可在在线教育及混合教育等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明多实体混合知识图谱构建方法流程图。
图2为本发明知识点间关系示意图。
图3为本发明多实体混合知识图谱更新流程图。
图4为实施例中基于本发明构建知识图谱及学生画像的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明提供了一种多实体混合知识图谱构建方法,如图2所示,多实体混合知识图谱的实体包含:学科知识点(课程、章、节),教学资源,学生。实体间的关系包含:学科知识点间的因果逻辑关系(必需知识点),学科知识点间的所属分类关系,教学资源与学科知识点间的考察或教学关系,学生对学科知识点的掌握程度关系,学生对教学资源的偏好关系等。如图1所示,本方法步骤包括:
S1、获取学科内容,并构建以知识内容为主体的初级知识图谱,所述初级知识图谱的实体按照粒度划分为课程、章、节、知识点,所述学科内容包括教学大纲和教材。具体包括:
S101、以教学大纲为权威性参考,构建“课程-章-节”的知识树主干。
S102、以教材为完善内容参考,识别出每个章节内的知识点实体,从而建立出知识点与章节间的所属分类关系。
S103、以教材为基础,通过对教材中文本信息的进一步挖掘,构建知识点实体间的关系,主要为因果逻辑关系。
S104、设计Neo4j数据库结构,将以上获取数据进行存储,构建学科知识点的初级知识图谱。
S2、将学习资源作为实体加入所述初级知识图谱中,并将所述学习资源对知识点的考察关系和考察难度作为关系类型和关系权重关联到对应的知识点,由此得到二级知识图谱。具体包括:
S201、多模态教学资源数据预处理,包括:
a.对文本类教学资源的预处理,包括对数据进行清洗和格式化。
b.对图像类教学资源的预处理,包括使用OCR算法,从PPT,PDF,图像类教学资源中提取文本信息。
c.对视频类教学资源的预处理,首先从视频资源中提取出音频信息,使用LSTM算法将音频信息转换为文本信息。
S202、利用TFIDF算法,对预处理后的教育资源文本数据进行分析,识别教学资源考察的知识点。
S203、将教学资源作为实体加入至Neo4j知识图谱中,并根据TFIDF算法的结果建立教学资源与知识点间的考察关系,从而建立二级知识图谱。
S3、将学生作为实体加入所述二级知识图谱中,建立学生与教学资源间的偏好程度关系,以及学生与知识点间的掌握程度关系,从而得到多实体混合知识图谱。具体包括:
S301、将学生作为实体加入Neo4j知识图谱中,并对实体属性即学生基本信息进行初始化。
S302、建立学生与教学资源间的偏好程度关系,并对关系权值进行初始化。
S303、建立学生与知识点间的掌握程度关系,并对权值进行初始化,进而建立多实体混合知识图谱。
学生在学习过程中会产生大量的学习行为,这些多模态的学习行为数据能够体现学生自己的学习能力或兴趣偏好,通过这些学习行为数据能够对多实体混合的知识图谱进行动态的更新,从而保证知识图谱能够体现学生在每个知识点上的学习进度信息和掌握程度信息。为了结合学生在不同教学资源上的学习行为进一步维护学生对知识点的掌握程度以及学习资源的偏好程度,本发明进一步优选地,还包括:
S4、根据学生在学习过程中会产生的学习行为,对所述多实体混合知识图谱进行动态的更新。具体包括:
S401、获取学生的学号信息,根据学号信息识别学生在当前知识图谱中的历史数据。学生登录教学平台系统,系统获取学生的学号信息,以此识别学生在知识图谱中的历史数据。
S402、收集学生在学习过程中产生的学习行为数据,并由教学平台收集存储至MySQL数据库中。具体的学习行为包括:教学视频的观看时长、教学PPT的观看时长、在线教学中的师生互动次数、课堂测试的正确率、课后作业的正确率、课程设计的完成度等。
S403、将所述学习行为数据量化为行为得分。根据学习行为数据进行打分,学习行为的时长越长、师生互动次数越多、测试的正确率越高、课程设计完成度越高,得分越高。以此建立学习行为与知识点的掌握程度的关系。
S404、按照学习行为中教学资源的编号在知识图谱中查询此资源所考察的知识点;
S405、结合教学资源的考察难度关系,更新学生对相应知识点的掌握程度。
作为本发明更进一步的实施方式,本实施例提供了一种应用上述方法构建学生画像的应用。构建学生画像是教育领域内常见的应用场景,相较于传统的关系型数据建模方法,使用多实体混合知识图谱能够构建更完善的学生画像。学生在学习过程中会产生大量学习行为,通过本方法的使用可以实时更新每个学生的个性化实例知识图谱,对学生的掌握程度进行粒度更小的、更科学的评价。同时,由于多实体混合的知识图谱能够表征“知识点-教学资源-学生”间的复杂网络关系,可以通过图算法提取学生结点的网络特征。在此基础上,可以对每一位学生的学习状态进行画像,利用此画像能够为学生进行个性化的教学资源推荐,学习路径规划等功能。
以本文中提出的多实体知识图谱和DeepWalk算法为例,如图4所示,其构建流程包括:
S100、设置随机行走的路径长度N,随机路径数目M。
S200、在知识图谱中随机选取路径的起始结点。
S300、从与当前结点有关联的结点集合中选取随机游走的下一个结点,选取策略以关系的权重为基础,边的权重属性越大,则被选为下一个随机游走点的可能性则越大。
S400、重复过程S200~S300直到路径长度满足随机游走步长N。
S500、重复S200~S400可以获得多组随机游走路径。
S600、将M条随机路径作为训练集,训练skip-gram浅层神经网络。
S700、训练后的神经网络参数信息能够表征知识图谱中结点的图结构信息,即学生画像。
本发明还公开了一种多实体混合知识图谱构建装置,包括初级知识图谱构建模块、二级知识图谱构建模块以及多实体混合知识图谱构建模块。
初级知识图谱构建模块,用于获取学科内容并构建以知识内容为主体的初级知识图谱,所述初级知识图谱的实体按照粒度划分为课程、章、节、知识点,所述学科内容包括教学大纲和教材。具体包括:
知识树主干建立单元,用于根据教学大纲构建“课程-章-节”的知识树主干;
识别单元,用于根据教材内容识别出每个章节内的知识点实体,从而建立出知识点与章节间的所属分类关系;
关系构建单元,用于获取教材的文本进行并进一步挖掘,构建知识点实体间的关系;
初级知识图谱建立单元,用于建立Neo4j数据库结构,将获取数据进行存储,从而构建学科知识点的初级知识图谱。
二级知识图谱构建模块,用于将学习资源作为实体加入所述初级知识图谱中,并将所述学习资源作为关系类型关联到对应的知识点,由此得到二级知识图谱。具体包括:
预处理单元,用于分别对文本类教学资源、图像类教学资源以及视频类教学资源进行数据预处理,提取有效的教学资源文本数据;
分析单元,用于利用TFIDF算法,对所述有效的教学资源文本数据进行分析,识别教学资源考察的知识点;
二级知识图谱建立单元,将教学资源作为实体加入所述初级知识图谱中,并根据所述教学资源考察的知识点建立教学资源与知识点间的考察关系,得到二级知识图谱。
多实体混合知识图谱构建模块,用于将学生作为实体加入所述二级知识图谱中,建立学生与教学资源间的偏好程度关系,以及学生与知识点间的掌握程度关系,从而得到多实体混合知识图谱。
进一步地,装置还包括知识图谱更新模块,用于根据学生在学习过程中会产生的学习行为,对所述多实体混合知识图谱进行动态的更新,具体包括:
历史查询单元,用于获取学生的学号信息,根据学号信息识别学生在当前知识图谱中的历史数据;
学习行为存储单元,用于收集学生在学习过程中产生学习行为数据,并由教学平台收集存储至数据库中;
评价单元,用于将所述学习行为数据量化为行为得分;
查询单元,用于按照学习行为中教学资源的编号在知识图谱中查询此资源所考察的知识点;
更新单元,用于结合教学资源的考察难度关系,更新学生对相应知识点的掌握程度。
对于本发明实施例的而言,由于其与上面实施例中的相对应,所以描述的比较简单,相关相似之处请参见上面实施例中部分的说明即可,此处不再详述。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令集;所述计算机指令集被处理器执行时实现上述任一项所述的多实体混合知识图谱构建方法。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种多实体混合知识图谱构建方法,其特征在于,包括:
S1、获取学科内容,并构建以知识内容为主体的初级知识图谱,所述初级知识图谱的实体按照粒度划分为课程、章、节、知识点,所述学科内容包括教学大纲和教材;
S2、将学习资源作为实体加入所述初级知识图谱中,并将所述学习资源对知识点的考察关系作为关系类型、将考察难度作为权重关联到对应的知识点,由此得到二级知识图谱;
S3、将学生作为实体加入所述二级知识图谱中,建立学生与教学资源间的偏好程度关系,以及学生与知识点间的掌握程度关系,从而得到多实体混合知识图谱。
2.根据权利要求1所述的多实体混合知识图谱构建方法,其特征在于,还包括:
S4、根据学生在学习过程中会产生的学习行为,对所述多实体混合知识图谱进行动态的更新。
3.根据权利要求2所述的多实体混合知识图谱构建方法,其特征在于,步骤S4包括:
获取学生的学号信息,根据学号信息识别学生在当前知识图谱中的历史数据;
收集学生在学习过程中产生学习行为数据,并由教学平台收集存储至数据库中;
将所述学习行为数据量化为行为得分;
按照学习行为中教学资源的编号在知识图谱中查询此资源所考察的知识点;
结合教学资源的考察难度关系,更新学生对相应知识点的掌握程度。
4.根据权利要求1所述的多实体混合知识图谱构建方法,其特征在于,步骤S1包括:
S101、根据教学大纲构建“课程-章-节”的知识树主干;
S102、根据教材内容识别出每个章节内的知识点实体,从而建立出知识点与章节间的所属分类关系;
S103、获取教材的文本数据并进一步挖掘,构建知识点实体间的关系;
S104、建立Neo4j数据库结构,将由步骤S101-S103获取数据进行存储,从而构建学科知识点的初级知识图谱。
5.根据权利要求1所述的多实体混合知识图谱构建方法,其特征在于,步骤S2包括:
S201、分别对文本类教学资源、图像类教学资源以及视频类教学资源进行数据预处理,提取有效的教学资源文本数据;
S202、利用TFIDF算法,对所述有效的教学资源文本数据进行分析,识别教学资源考察的知识点;
S203、将教学资源作为实体加入所述初级知识图谱中,并根据所述教学资源考察的知识点建立教学资源与知识点间的考察关系,得到二级知识图谱。
6.一种多实体混合知识图谱构建装置,其特征在于,包括:
初级知识图谱构建模块,用于获取学科内容并构建以知识内容为主体的初级知识图谱,所述初级知识图谱的实体按照粒度划分为课程、章、节、知识点,所述学科内容包括教学大纲和教材;
二级知识图谱构建模块,用于将学习资源作为实体加入所述初级知识图谱中,并将所述学习资源对知识点的考察关系作为关系类型、将考察难度作为权重关联到对应的知识点,由此得到二级知识图谱;
多实体混合知识图谱构建模块,用于将学生作为实体加入所述二级知识图谱中,建立学生与教学资源间的偏好程度关系,以及学生与知识点间的掌握程度关系,从而得到多实体混合知识图谱。
7.根据权利要求6所述的多实体混合知识图谱构建装置,其特征在于,还包括知识图谱更新模块,用于根据学生在学习过程中会产生的学习行为,对所述多实体混合知识图谱进行动态的更新,具体包括:
历史查询单元,用于获取学生的学号信息,根据学号信息识别学生在当前知识图谱中的历史数据;
学习行为存储单元,用于收集学生在学习过程中产生学习行为数据,并由教学平台收集存储至数据库中;
评价单元,用于将所述学习行为数据量化为行为得分;
查询单元,用于按照学习行为中教学资源的编号在知识图谱中查询此资源所考察的知识点;
更新单元,用于结合教学资源的考察难度关系,更新学生对相应知识点的掌握程度。
8.根据权利要求6所述的多实体混合知识图谱构建装置,其特征在于,所述初级知识图谱构建模块包括:
知识树主干建立单元,用于根据教学大纲构建“课程-章-节”的知识树主干;
识别单元,用于根据教材内容识别出每个章节内的知识点实体,从而建立出知识点与章节间的所属分类关系;
关系构建单元,用于获取教材的文本数据并进一步挖掘,构建知识点实体间的关系;
初级知识图谱建立单元,用于建立Neo4j数据库结构,将获取数据进行存储,从而构建学科知识点的初级知识图谱。
9.根据权利要求6所述的多实体混合知识图谱构建装置,其特征在于,所述二级知识图谱构建模块包括:
预处理单元,用于分别对文本类教学资源、图像类教学资源以及视频类教学资源进行数据预处理,提取有效的教学资源文本数据;
分析单元,用于利用TFIDF算法,对所述有效的教学资源文本数据进行分析,识别教学资源考察的知识点;
二级知识图谱建立单元,将教学资源作为实体加入所述初级知识图谱中,并根据所述教学资源考察的知识点建立教学资源与知识点间的考察关系,得到二级知识图谱。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机指令集;所述计算机指令集被处理器执行时实现如权利要求1-5任一项所述的多实体混合知识图谱构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011147178.0A CN112287037B (zh) | 2020-10-23 | 2020-10-23 | 一种多实体混合知识图谱构建方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011147178.0A CN112287037B (zh) | 2020-10-23 | 2020-10-23 | 一种多实体混合知识图谱构建方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287037A true CN112287037A (zh) | 2021-01-29 |
CN112287037B CN112287037B (zh) | 2024-05-31 |
Family
ID=74423735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011147178.0A Active CN112287037B (zh) | 2020-10-23 | 2020-10-23 | 一种多实体混合知识图谱构建方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287037B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819669A (zh) * | 2021-02-10 | 2021-05-18 | 联想(北京)有限公司 | 教学资源的处理方法及电子设备 |
CN113407733A (zh) * | 2021-07-12 | 2021-09-17 | 南京尚哲智能科技有限公司 | 基于培养方案的课程知识图谱自动生成方法及系统 |
CN113837910A (zh) * | 2021-09-28 | 2021-12-24 | 科大讯飞股份有限公司 | 试题推荐方法、装置、电子设备和存储介质 |
CN114529266A (zh) * | 2022-02-23 | 2022-05-24 | 福建国科信息科技有限公司 | 基于ai大数据平台及其人岗匹配算法 |
CN115796132A (zh) * | 2023-02-08 | 2023-03-14 | 北京大学 | 基于知识图谱的教学教材编写方法和编写装置 |
CN116452072A (zh) * | 2023-06-19 | 2023-07-18 | 华南师范大学 | 一种教学评价方法、系统、设备和可读存储介质 |
CN116797052A (zh) * | 2023-08-25 | 2023-09-22 | 之江实验室 | 基于编程学习的资源推荐方法、装置、系统和存储介质 |
CN116976351A (zh) * | 2023-09-22 | 2023-10-31 | 之江实验室 | 基于学科实体的语言模型构建方法以及学科实体识别装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107085803A (zh) * | 2017-03-31 | 2017-08-22 | 弘成科技发展有限公司 | 基于知识图谱和能力测评的个性化教学资源推荐系统 |
CN107633075A (zh) * | 2017-09-22 | 2018-01-26 | 吉林大学 | 一种多源异构数据融合平台及融合方法 |
CN109359215A (zh) * | 2018-12-03 | 2019-02-19 | 江苏曲速教育科技有限公司 | 视频智能推送方法和系统 |
CN109670110A (zh) * | 2018-12-20 | 2019-04-23 | 蒋文军 | 一种教育资源推荐方法、装置、设备及存储介质 |
CN110532331A (zh) * | 2019-09-05 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 一种对象类型确定的方法以及相关装置 |
CN111046194A (zh) * | 2019-12-31 | 2020-04-21 | 重庆和贯科技有限公司 | 构建多模态教学知识图谱的方法 |
CN111538894A (zh) * | 2020-06-19 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 查询反馈方法、装置、计算机设备及存储介质 |
-
2020
- 2020-10-23 CN CN202011147178.0A patent/CN112287037B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107085803A (zh) * | 2017-03-31 | 2017-08-22 | 弘成科技发展有限公司 | 基于知识图谱和能力测评的个性化教学资源推荐系统 |
CN107633075A (zh) * | 2017-09-22 | 2018-01-26 | 吉林大学 | 一种多源异构数据融合平台及融合方法 |
CN109359215A (zh) * | 2018-12-03 | 2019-02-19 | 江苏曲速教育科技有限公司 | 视频智能推送方法和系统 |
CN109670110A (zh) * | 2018-12-20 | 2019-04-23 | 蒋文军 | 一种教育资源推荐方法、装置、设备及存储介质 |
CN110532331A (zh) * | 2019-09-05 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 一种对象类型确定的方法以及相关装置 |
CN111046194A (zh) * | 2019-12-31 | 2020-04-21 | 重庆和贯科技有限公司 | 构建多模态教学知识图谱的方法 |
CN111538894A (zh) * | 2020-06-19 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 查询反馈方法、装置、计算机设备及存储介质 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819669A (zh) * | 2021-02-10 | 2021-05-18 | 联想(北京)有限公司 | 教学资源的处理方法及电子设备 |
CN112819669B (zh) * | 2021-02-10 | 2024-05-28 | 联想(北京)有限公司 | 教学资源的处理方法及电子设备 |
CN113407733A (zh) * | 2021-07-12 | 2021-09-17 | 南京尚哲智能科技有限公司 | 基于培养方案的课程知识图谱自动生成方法及系统 |
CN113837910A (zh) * | 2021-09-28 | 2021-12-24 | 科大讯飞股份有限公司 | 试题推荐方法、装置、电子设备和存储介质 |
CN113837910B (zh) * | 2021-09-28 | 2024-04-16 | 科大讯飞股份有限公司 | 试题推荐方法、装置、电子设备和存储介质 |
CN114529266A (zh) * | 2022-02-23 | 2022-05-24 | 福建国科信息科技有限公司 | 基于ai大数据平台及其人岗匹配算法 |
CN115796132A (zh) * | 2023-02-08 | 2023-03-14 | 北京大学 | 基于知识图谱的教学教材编写方法和编写装置 |
CN116452072A (zh) * | 2023-06-19 | 2023-07-18 | 华南师范大学 | 一种教学评价方法、系统、设备和可读存储介质 |
CN116452072B (zh) * | 2023-06-19 | 2023-08-29 | 华南师范大学 | 一种教学评价方法、系统、设备和可读存储介质 |
CN116797052A (zh) * | 2023-08-25 | 2023-09-22 | 之江实验室 | 基于编程学习的资源推荐方法、装置、系统和存储介质 |
CN116976351A (zh) * | 2023-09-22 | 2023-10-31 | 之江实验室 | 基于学科实体的语言模型构建方法以及学科实体识别装置 |
CN116976351B (zh) * | 2023-09-22 | 2024-01-23 | 之江实验室 | 基于学科实体的语言模型构建方法以及学科实体识别装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112287037B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287037B (zh) | 一种多实体混合知识图谱构建方法、装置及存储介质 | |
Recker | Scientific research in information systems: a beginner's guide | |
Lee et al. | Computational thinking integration patterns along the framework defining computational thinking from a disciplinary perspective | |
Altujjar et al. | Predicting critical courses affecting students performance: a case study | |
CN112184500A (zh) | 基于深度学习和知识图谱的课外学习辅导系统及实现方法 | |
CN113886567A (zh) | 一种基于知识图谱的教学方法及系统 | |
CN113656687B (zh) | 基于教研数据的教师画像构建方法 | |
Xu et al. | Curriculum recommendations using transformer base model with infonce loss and language switching method | |
Popchev et al. | Towards a multistep method for assessment in e-learning of emerging technologies | |
CN117252047B (zh) | 基于数字孪生的教学信息处理方法及系统 | |
Alloghani et al. | Application of machine learning on student data for the appraisal of academic performance | |
CN111275239A (zh) | 一种基于多模态的网络化教学数据分析方法及系统 | |
JP2021106062A (ja) | 試験問題予測システム及び試験問題予測方法 | |
CN115544268A (zh) | 一种教学与就业辅助知识图谱的构建及应用方法 | |
CN113934846A (zh) | 一种联合行为-情感-时序的在线论坛主题建模方法 | |
Alshareef et al. | Mining survey data on university students to determine trends in the selection of majors | |
Ghazali et al. | Development and Validation of Student's MOOC-Efficacy Scale: Exploratory Factor Analysis. | |
Woo et al. | Exploring the AI topic composition of K-12 using NMF-based topic modeling | |
CN116226410B (zh) | 一种知识元联结学习者状态的教学评估与反馈方法及系统 | |
Nawang et al. | Classification model and analysis on students’ performance | |
CN116228361A (zh) | 基于特征匹配的课程推荐方法、装置、设备和存储介质 | |
Ogunkunle et al. | A data mining based optimization of selecting learning material in an intelligent tutoring system for advancing STEM education | |
Ezenkwu et al. | Automated Career Guidance Expert System Using Case-Based Reasoning | |
CN115129971A (zh) | 基于能力评估数据的课程推荐方法、设备及可读存储介质 | |
CN112507082A (zh) | 一种智能识别不当文本交互的方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 116000 room 206, no.8-9, software garden road, Ganjingzi District, Dalian City, Liaoning Province Applicant after: Neusoft Education Technology Group Co.,Ltd. Address before: 116000 room 206, no.8-9, software garden road, Ganjingzi District, Dalian City, Liaoning Province Applicant before: Dalian Neusoft Education Technology Group Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |