CN111797222B - 课程知识图谱构建方法、装置、终端及存储介质 - Google Patents
课程知识图谱构建方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN111797222B CN111797222B CN202010615832.XA CN202010615832A CN111797222B CN 111797222 B CN111797222 B CN 111797222B CN 202010615832 A CN202010615832 A CN 202010615832A CN 111797222 B CN111797222 B CN 111797222B
- Authority
- CN
- China
- Prior art keywords
- keyword
- course
- knowledge
- keywords
- word frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000012216 screening Methods 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008676 import Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据分析技术领域,提供一种课程知识图谱构建方法、装置、终端及存储介质,包括:从全量文本数据中提取出领域关键词并任意组合成关键词对,计算关键词对在同一个文本数据中的共现特征;根据共现特征对关键词对进行聚类,并筛选出多个正向关键词对;基于多个正向关键词对确定第一关键词作为第一级知识点及确定与第一关键词对应的多个第二关键词多个第二级知识点;提取出与每个知识点对应的问题点及提取出与知识点对应的相关课程;根据知识点、问题点、相关课程构建课程知识图谱,进行课程推荐。本发明可应用于智慧教育中,通过建立课程知识图谱提高课程的推荐质量和效率。此外,本发明还涉及区块链,课程知识图谱存储于区块链节点中。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种课程知识图谱构建方法、装置、终端及存储介质。
背景技术
随着移动网络的发展,在线教育变得越来越普及。在线教育的课程数目得到了极大的丰富,授课方向也得到了极大的扩充。在线教育的应用场景中,存在大量分散上传的课程,缺乏课程与课程之间的连续性。用户在学习完一门课程后,面对陌生的知识体系,难以循序渐进的选择知识进行学习。因此,对于浩如烟海的知识海洋,提取出一张知识点组成的知识体系,有利于用户有针对性的获取知识。同时,具有完备的知识体系,也有利于教育网站进行课程的分发与推送。
传统的知识体系构建依赖于人工对课程进行编辑与标注。然而随着课程数量的极大丰富,课程提供方的多样化,依赖于教育平台集中对所有课程的知识点进行编辑,整合是不现实的,也难以做到实时性的更新。使用传统的知识图谱技术建立知识体系,在当前的应用场景也存在一些缺陷。首先,传统的知识图谱技术通常从结构化数据中抽取,而课程内容为非结构化的纯文本数据。其级,知识图谱技术通常用于抽取实体之间的关系,而课程的知识体系中,需要提取知识点、知识概念、课程名等多元的相关关系,二者在概念中存在本质差距,因而效果极差。
因而,有必要提供一种课程知识体系的构建方法,来进行课程推荐。
发明内容
鉴于以上内容,有必要提出一种课程知识图谱构建方法、装置、终端及存储介质,能够建立课程知识图谱,提高课程的推荐质量和效率。
本发明的第一方面提供一种课程知识图谱构建方法,所述方法包括:
利用预设的新词发现算法从全量文本数据中提取出多个领域关键词;
从所述多个领域关键词中任意选取两个领域关键词组合成关键词对,并计算每一个所述关键词对在同一个文本数据中的共现特征;
调用无监督的聚类算法根据所述共现特征对多个所述关键词对进行聚类,并根据聚类结果从多个所述关键词对中筛选出多个正向关键词对;
基于所述多个正向关键词对确定第一关键词及与所述第一关键词对应的多个第二关键词,并将所述第一关键词作为第一级知识点,将对应的多个第二关键词作为所述第一级知识点对应的多个第二级知识点;
获取用户的搜索关键词,根据所述搜索关键词匹配出知识点并将所述搜索关键词作为所述知识点对应的问题点,及从课程数据库中提取出与每个知识点对应的相关课程;
根据所述第一级知识点及与所述第一级知识点对应的问题点、相关课程及所述多个第二级知识点构建课程知识图谱。
根据本发明的一个可选实施例,所述利用预设的新词发现算法从全量文本数据中提取出多个领域关键词包括:
利用所述新词发现算法识别出所述全量文本数据中的多个字词;
根据文本数据的来源将所述全量文本数据划分为第一语料库和第二语料库;
计算每个所述字词在所述第一语料库中的第一词频-逆文件词频值及计算每个所述字词在所述第二语料库中的第二词频-逆文件词频值;
根据所述第一词频-逆文件词频值及所述第二词频-逆文件词频值,筛选出多个领域关键词。
根据本发明的一个可选实施例,所述计算每一个所述关键词对在同一个文本数据中的共现特征包括:
针对同一个文本数据,计算所述关键词对同时出现在课程标题中的第一词频;
计算所述关键词对同时出现在课程介绍中的第二词频;
计算所述关键词对同时出现在课程关键词中的第三词频;
计算所述关键词对中的一个关键词出现在所述课程标题中,另一个关键词出现在所述课程介绍中的第四词频;
计算所述关键词对中的一个关键词出现在所述课程标题中,另一个关键词出现在所述课程关键词中的第五词频;
计算所述关键词对中的一个关键词出现在所述课程介绍中,另一个关键词出现在所述课程关键词中的第六词频;
确定所述关键词对出现的共现句子及在所述共现句子中介于所述关键词对之间的关键词作为词袋;
将所述关键词对、所述第一词频、所述第二词频、所述第三词频、所述第四词频、所述第五词频、所述第六词频及所述词袋组合成共现特征列表。
根据本发明的一个可选实施例,所述基于所述多个正向关键词对确定第一关键词及与所述第一关键词对应的多个第二关键词,并将所述第一关键词作为第一级知识点,将对应的多个第二关键词作为所述第一级知识点对应的多个第二级知识点包括:
从所述多个正向关键词对中任意选取一个第一目标正向关键词对及任意选取所述第一目标正向关键词对中的一个关键词作为第一关键词,另一个关键词作为第二关键词;
获取包括有所述第二关键词的多个第二目标正向关键词对,将每个所述第二目标正向关键词对中的另一个关键词作为第三关键词;
判断是否存在包括所述第一关键词及所述第三关键词的第三目标正向关键词对;
当确定存在包括所述第一关键词及所述第三关键词的第三目标正向关键词对时,删除所述第三目标正向关键词对;
将所述第一关键词作为第一级知识点及将所述第二关键词作为所述第一级知识点对应的第二级知识点。
根据本发明的一个可选实施例,所述根据所述搜索关键词匹配出知识点并将所述搜索关键词作为所述知识点对应的问题点包括:
获取与所述搜索关键词对应的搜索日志;
提取出所述搜索日志中的多个目标关键词并计算每个所述目标关键词与每个所述知识点之间的匹配度;
将所述匹配度从大到小进行排序并获取排序在前预设数量的匹配度对应的目标知识点;
将所述搜索关键词作为所述目标知识点对应的问题点。
根据本发明的一个可选实施例,所述根据所述第一级知识点及与所述第一级知识点对应的问题点、相关课程及所述多个第二级知识点构建课程知识图谱包括:
将所述第一级知识点作为课程知识图谱的根节点;
将与所述第一级知识点对应的问题点作为所述根节点下的第一父节点、将与所述第一级知识点对应的相关课程作为所述根节点下的第二父节点及将与所述第一级知识点对应的多个第二级知识点作为所述根节点下的第三父节点;
将与所述第二级知识点对应的问题点作为所述第三父节点下的第一子节点、将与所述第二级知识点对应的相关课程作为所述第三父节点下的第二子节点及将与所述第二级知识点对应的多个第三级知识点作为所述第三父节点下的第三子节点,重复上述过程直至完成课程知识图谱的构建。
根据本发明的一个可选实施例,所述利用所述课程知识图谱进行课程推荐包括:
接收课程推荐请求并解析所述课程推荐请求得到解析结果;
当所述解析结果为知识点时,确定所述知识点在所述课程知识图谱中的节点;
获取所述节点的子节点及获取所述子节点对应的知识点及相关课程;
将所述子节点对应的知识点及相关课程推荐给用户。
本发明的第二方面提供一种课程知识图谱构建装置,所述装置包括:
发现模块,用于利用预设的新词发现算法从全量文本数据中提取出多个领域关键词;
计算模块,用于从所述多个领域关键词中任意选取两个领域关键词组合成关键词对,并计算每一个所述关键词对在同一个文本数据中的共现特征;
筛选模块,用于调用无监督的聚类算法根据所述共现特征对多个所述关键词对进行聚类,并根据聚类结果从多个所述关键词对中筛选出多个正向关键词对;
确定模块,用于基于所述多个正向关键词对确定第一关键词及与所述第一关键词对应的多个第二关键词,并将所述第一关键词作为第一级知识点,将对应的多个第二关键词作为所述第一级知识点对应的多个第二级知识点;
提取模块,用于获取用户的搜索关键词,根据所述搜索关键词匹配出知识点并将所述搜索关键词作为所述知识点对应的问题点,及从课程数据库中提取出与每个知识点对应的相关课程;
构建模块,用于根据所述第一级知识点及与所述第一级知识点对应的问题点、相关课程及所述多个二级知识点构建课程知识图谱。
本发明的第三方面提供一种终端,所述终端包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述课程知识图谱构建方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述课程知识图谱构建方法。
综上所述,本发明所述的课程知识图谱构建方法、装置、终端及存储介质,通过人工智能+聚类算法相结合的思想,从海量的非结构化的数据中提取并建立课程知识图谱,能够在用户学习完一门课程后,通过课程知识图谱推荐出与当前学习的知识点相关的下一个知识点,从而使得用户能够循序渐进的选择知识进行学习。从用户友好的角度提升了用户的学习体验。同时,课程知识图谱可以应用于搜索、推荐、推送等多个领域,协助在线教育平台提升搜索、推荐、推送的效率和质量。
附图说明
图1是本发明实施例一提供的课程知识图谱构建方法的流程图。
图2是本发明构建的课程知识体系的示意图。
图3是本发明实施例二提供的课程知识图谱构建装置的结构图。
图4是本发明实施例三提供的终端的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
图1是本发明实施例一提供的课程知识图谱构建方法的流程图。所述课程知识图谱构建方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,利用预设的新词发现算法从全量文本数据中提取出多个领域关键词。
所述全量文本数据包括来自于企业内部的文本数据和来自于互联网的文本数据。由于不同的领域,课程的内容不同,其新词分布也不同,因此需要基于领域内的全量文本数据做新词发现,才能实现更精确的文本语义分析及搜索。
在一个可选的实施例中,所述利用预设的新词发现算法从全量文本数据中提取出多个领域关键词包括:
利用所述新词发现算法识别出所述全量文本数据中的多个字词;
根据文本数据的来源将所述全量文本数据划分为第一语料库和第二语料库;
计算每个所述字词在所述第一语料库中的第一词频-逆文件词频值及计算每个所述字词在所述第二语料库中的第二词频-逆文件词频值;
根据所述第一词频-逆文件词频值及所述第二词频-逆文件词频值,筛选出多个领域关键词。
该可选的实施例中,将来自于企业课程数据库中的文本数据划分为第一语料库,将来自于企业外部公开的语料数据库中的文本数据划分为第二语料库。
所述字词可以包括,但不限于:1gram,2gram,3gram,…,ngram。其中,1gram代表单独的一个字,例如,“的”,“和”;2gram代表两个字组成的词,例如,“人脸”,“保险”;3gram代表三个字组成的一个词,例如,“保险费”,“生存金”;ngram则代表n个字组成的一个词组,例如,“保险险种”。
若某个字词的第一词频-逆文件词频值及第二词频-逆文件词频值均大于预设词频-逆文件词频阈值,说明该字词越有可能成为领域内的专有课程名词,则保留该字词;若某个字词的第一词频-逆文件词频值及第二词频-逆文件词频值不都大于预设词频-逆文件词频阈值,说明该字词越成为领域内的专有课程名词的可能性较低,则删除该字词。将保留后的字词通过词性过滤后得到领域关键词。计算某个字词的词频-逆文件词频值(TermFrequency-Inverse Document Frequency,TF-IDF)为现有技术,本发明不再详细赘述。
S12,从所述多个领域关键词中任意选取两个领域关键词组合成关键词对,并计算每一个所述关键词对在同一个文本数据中的共现特征。
可以多次从多个领域关键词中有放回的任意选取两个领域关键词,并将每次抽取的两个领域关键词组合成一个关键词对,从而得到多个关键词对,表示为关键词对(V1,V2),然后计算每一个关键词对在句子中的共现特征。
在一个可选的实施例中,所述计算每一个所述关键词对在同一个文本数据中的共现特征包括:
针对同一个文本数据,计算所述关键词对同时出现在课程标题中的第一词频;
计算所述关键词对同时出现在课程介绍中的第二词频;
计算所述关键词对同时出现在课程关键词中的第三词频;
计算所述关键词对中的一个关键词出现在所述课程标题中,另一个关键词出现在所述课程介绍中的第四词频;
计算所述关键词对中的一个关键词出现在所述课程标题中,另一个关键词出现在所述课程关键词中的第五词频;
计算所述关键词对中的一个关键词出现在所述课程介绍中,另一个关键词出现在所述课程关键词中的第六词频;
确定所述关键词对出现的共现句子及在所述共现句子中介于所述关键词对之间的关键词作为词袋;
将所述关键词对、所述第一词频、所述第二词频、所述第三词频、所述第四词频、所述第五词频、所述第六词频及所述词袋组合成共现特征列表。
该可选的实施例中,预先设置多个场景,所述多个场景包括:关键词对同时出现在课程关键词中;同时出现在课程介绍中;同时出现在课程关键词中;一个关键词出现在课程标题中,另一个出现在课程介绍中;一个出现在课程标题中,另一个出现在课程关键词中;一个出现在课程介绍中,另一个出现在课程关键词中。根据这些场景,能够计算出关键词对中的两个关键词之间的关联关系。
示例性的,假设关键词对(在线教育,构建),某一个语句为“基于在线教育的企业知识体系自动构建方法”,则介于所述关键词对(在线教育,构建)之间的关键词为“企业”、“知识”、“体系”及“自动”。因此,确定关键词“企业”、“知识”、“体系”及“自动”为所述关键词对(在线教育,构建)的词袋。
S13,调用无监督的聚类算法根据所述共现特征对多个所述关键词对进行聚类,并根据聚类结果从多个所述关键词对中筛选出多个正向关键词对。
本实施例可以采用无监督的聚类算法根据每个关键词对(V1,V2)的共现特征进行分类,判断构建的特征对之间的边E是否有效。
在每个中心关键词对应的所有关键词对中,利用启发式规则构建正例样本,最后将关键词聚为正负两类,保留聚类结果为正的边E。
无监督的聚类算法和启发式规则为现有技术,本发明在此不再详细阐述。
S14,基于所述多个正向关键词对确定第一关键词及与所述第一关键词对应的多个第二关键词,并将所述第一关键词作为第一级知识点,将对应的多个第二关键词作为所述第一级知识点对应的多个第二级知识点。
得到正向关键词对后,表明正向关键词对中的两个关键词之间具有很强的关联关系,此时可以将每一个正向关键词对中的关键词作为一个知识点。
在一个可选的实施例中,所述基于所述多个正向关键词对确定第一关键词及与所述第一关键词对应的多个第二关键词,并将所述第一关键词作为第一级知识点,将对应的多个第二关键词作为所述第一级知识点对应的多个第二级知识点包括:
从所述多个正向关键词对中任意选取一个第一目标正向关键词对及任意选取所述第一目标正向关键词对中的一个关键词作为第一关键词,另一个关键词作为第二关键词;
获取包括有所述第二关键词的多个第二目标正向关键词对,将每个所述第二目标正向关键词对中的另一个关键词作为第三关键词;
判断是否存在包括所述第一关键词及所述第三关键词的第三目标正向关键词对;
当确定存在包括所述第一关键词及所述第三关键词的第三目标正向关键词对时,删除所述第三目标正向关键词对;
将所述第一关键词作为第一级知识点及将所述第二关键词作为所述第一级知识点对应的第二级知识点。
示例性的,假设正向关键词对(V1,V2),(V2,V3),(V1,V3),将关键词对(V1,V2)作为第一目标正向关键词对,并将第一目标正向关键词对中的关键词V1作为第一关键词,V2作为第二关键词;包括有所述第二关键词V2的第二目标正向关键词对为(V2,V3),那么关键词V3作为第三关键词;而由于正向关键词对(V1,V3)中既包括关键词V1,又包括关键词V3,则可以删除正向关键词对(V1,V3);如此迭代计算下去,即可确定出二层的分层知识点。
当然,在其他实施例中,由于上述利用启发式规则构建正例样本,最后保留了聚类结果为正的边E,即得到的正向关键词对之间具有虚拟的边,对于每个关键词V1,统计所有与V1相关的V2,V3,……,Vn。如果存在V1->V2,V2->V3,V1->V3的边,则删除V1->V3的边,即可形成二层的分层知识点。
S15,获取用户的搜索关键词,根据所述搜索关键词匹配出知识点并将所述搜索关键词作为所述知识点对应的问题点,及从课程数据库中提取出与每个知识点对应的相关课程。
每个用户在遇到问题时,会从各种搜索引擎中获取相关内容,从搜索引擎显示出的相关内容中提取出知识点,从而确定每个知识点对应的问题点。
课程数据库中预先记录有多个知识点及每个知识点对应的相关课程,还根据专家对每一个相关课程进行了打分。分值越大,对应的相关课程越显示在前面,分值越小,对应的相关课程越显示在后面。
在一个可选的实施例中,所述根据所述搜索关键词匹配出知识点并将所述搜索关键词作为所述知识点对应的问题点包括:
获取与所述搜索关键词对应的搜索日志;
提取出所述搜索日志中的多个目标关键词并计算每个所述目标关键词与每个所述知识点之间的匹配度;
将所述匹配度从大到小进行排序并获取排序在前预设数量的匹配度对应的目标知识点;
将所述搜索关键词作为所述目标知识点对应的问题点。
该可选的实施例中,匹配度越大,对应的目标关键词与知识点越显示在前面,匹配度越小,对应的目标关键词与知识点越显示在后面。
根据匹配度显示问题点和根据分值显示相关课程能够让用户一目了然的清楚哪些是热点问题和热点课程。
S16,根据所述第一级知识点及与所述第一级知识点对应的问题点、相关课程及所述多个第二级知识点构建课程知识图谱。
第一级知识点对应有问题点、相关课程和第二级知识点,同样的,每一个第二级知识点也对应有问题点、相关课程和相关的其他知识点,即每一个第二级知识点也可以作为相关的其他知识点的第一级知识点,此时,相关的其他知识点称之为第二级知识点。每个知识点将连接到多个一层,或二层的分层知识点,每个相关联的知识点都可以展开作为中心知识点。
在一个可选的实施例中,所述根据所述第一级知识点及与所述第一级知识点对应的问题点、相关课程及所述多个第二级知识点构建课程知识图谱包括:
将所述第一级知识点作为课程知识图谱的根节点;
将与所述第一级知识点对应的问题点作为所述根节点下的第一父节点、将与所述第一级知识点对应的相关课程作为所述根节点下的第二父节点及将与所述第一级知识点对应的多个第二级知识点作为所述根节点下的第三父节点;
将与所述第二级知识点对应的问题点作为所述第三父节点下的第一子节点、将与所述第二级知识点对应的相关课程作为所述第三父节点下的第二子节点及将与所述第二级知识点对应的多个第三级知识点作为所述第三父节点下的第三子节点,重复上述过程直至完成课程知识图谱的构建。
该可选的实施例中,通过将所有知识点及与每一个知识点对应的问题点、相关课程及关联的其他知识点构建成课程知识图谱,使得各个知识点之间形成了关联关系,且具有明显的层级关系,便于后续推荐出最有效的课程。
在一个可选的实施例中,所述课程知识图谱构建方法还可以包括:利用所述课程知识图谱进行课程推荐。
用户可以发送课程推荐请求,请求计算机设备推荐出合适的课程。计算机设备根据课程知识图谱的父子节点关系即可确定出应该推荐的课程。
在一个可选的实施例中,所述利用所述课程知识图谱进行课程推荐包括:
接收课程推荐请求并解析所述课程推荐请求得到解析结果;
当所述解析结果为知识点时,确定所述知识点在所述课程知识图谱中的节点;
获取所述节点的子节点及获取所述子节点对应的知识点及相关课程;
将所述子节点对应的知识点及相关课程推荐给用户。
该可选的实施例中,解析所述课程推荐请求可能得到知识点结果,也可能得到课程问题结果,还可能得到相关课程结果,对于课程问题结果和相关课程结果,则首先需要确定与课程问题及相关课程对应的知识点,再根据知识点进行课程推荐。
示例性的,如图2所示,假设用户当前学习的知识点为保额销售,在课程知识图谱中,保额销售为根节点,保险理念导入、险种、画图讲解等为根节点下的父节点,则将保险理念导入、险种、画图讲解中的一种或者全部推荐给用户。
综上所述,本发明通过人工智能+聚类算法相结合的思想,从海量的非结构化的数据中提取并建立课程知识图谱,能够在用户学习完一门课程后,通过课程知识图谱推荐出与当前学习的知识点相关的下一个知识点,从而使得用户能够循序渐进的选择知识进行学习。从用户友好的角度提升了用户的学习体验。同时,课程知识图谱可以应用于搜索、推荐、推送等多个领域,协助在线教育平台提升搜索、推荐、推送的效率和质量。
此外,本案构建的课程知识图谱具有良好的拓展性,易于维护,可以进行实时的更新。具体表现为从新加入的课程与搜索记录中,可以计算出新的关键词并作为新的知识点,重复上述过程将新的知识点更新到原有的课程知识图谱中。
需要强调的是,为进一步保证上述课程知识图谱的私密性和安全性,上述课程知识图谱可存储于区块链的节点中。
图3是本发明实施例二提供的课程知识图谱构建装置的结构图。
在一些实施例中,所述课程知识图谱构建装置30可以包括多个由计算机程序段所组成的功能模块。所述课程知识图谱构建装置30中的各个程序段的计算机程序可以存储于终端的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)课程知识图谱构建的功能。
本实施例中,所述课程知识图谱构建装置30根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:发现模块301、计算模块302、筛选模块303、确定模块304、提取模块305、构建模块306及推荐模块307。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述发现模块301,用于利用预设的新词发现算法从全量文本数据中提取出多个领域关键词。
所述全量文本数据包括来自于企业内部的文本数据和来自于互联网的文本数据。由于不同的领域,课程的内容不同,其新词分布也不同,因此需要基于领域内的全量文本数据做新词发现,才能实现更精确的文本语义分析及搜索。
在一个可选的实施例中,所述发现模块301利用预设的新词发现算法从全量文本数据中提取出多个领域关键词包括:
利用所述新词发现算法识别出所述全量文本数据中的多个字词;
根据文本数据的来源将所述全量文本数据划分为第一语料库和第二语料库;
计算每个所述字词在所述第一语料库中的第一词频-逆文件词频值及计算每个所述字词在所述第二语料库中的第二词频-逆文件词频值;
根据所述第一词频-逆文件词频值及所述第二词频-逆文件词频值,筛选出多个领域关键词。
该可选的实施例中,将来自于企业课程数据库中的文本数据划分为第一语料库,将来自于企业外部公开的语料数据库中的文本数据划分为第二语料库。
所述字词可以包括,但不限于:1gram,2gram,3gram,…,ngram。其中,1gram代表单独的一个字,例如,“的”,“和”;2gram代表两个字组成的词,例如,“人脸”,“保险”;3gram代表三个字组成的一个词,例如,“保险费”,“生存金”;ngram则代表n个字组成的一个词组,例如,“保险险种”。
若某个字词的第一词频-逆文件词频值及第二词频-逆文件词频值均大于预设词频-逆文件词频阈值,说明该字词越有可能成为领域内的专有课程名词,则保留该字词;若某个字词的第一词频-逆文件词频值及第二词频-逆文件词频值不都大于预设词频-逆文件词频阈值,说明该字词越成为领域内的专有课程名词的可能性较低,则删除该字词。将保留后的字词通过词性过滤后得到领域关键词。计算某个字词的词频-逆文件词频值(TermFrequency-Inverse Document Frequency,TF-IDF)为现有技术,本发明不再详细赘述。
所述计算模块302,用于从所述多个领域关键词中任意选取两个领域关键词组合成关键词对,并计算每一个所述关键词对在同一个文本数据中的共现特征。
可以多次从多个领域关键词中有放回的任意选取两个领域关键词,并将每次抽取的两个领域关键词组合成一个关键词对,从而得到多个关键词对,表示为关键词对(V1,V2),然后计算每一个关键词对在句子中的共现特征。
在一个可选的实施例中,所述计算模块302计算每一个所述关键词对在同一个文本数据中的共现特征包括:
针对同一个文本数据,计算所述关键词对同时出现在课程标题中的第一词频;
计算所述关键词对同时出现在课程介绍中的第二词频;
计算所述关键词对同时出现在课程关键词中的第三词频;
计算所述关键词对中的一个关键词出现在所述课程标题中,另一个关键词出现在所述课程介绍中的第四词频;
计算所述关键词对中的一个关键词出现在所述课程标题中,另一个关键词出现在所述课程关键词中的第五词频;
计算所述关键词对中的一个关键词出现在所述课程介绍中,另一个关键词出现在所述课程关键词中的第六词频;
确定所述关键词对出现的共现句子及在所述共现句子中介于所述关键词对之间的关键词作为词袋;
将所述关键词对、所述第一词频、所述第二词频、所述第三词频、所述第四词频、所述第五词频、所述第六词频及所述词袋组合成共现特征列表。
该可选的实施例中,预先设置多个场景,所述多个场景包括:关键词对同时出现在课程关键词中;同时出现在课程介绍中;同时出现在课程关键词中;一个关键词出现在课程标题中,另一个出现在课程介绍中;一个出现在课程标题中,另一个出现在课程关键词中;一个出现在课程介绍中,另一个出现在课程关键词中。根据这些场景,能够计算出关键词对中的两个关键词之间的关联关系。
示例性的,假设关键词对(在线教育,构建),某一个语句为“基于在线教育的企业知识体系自动构建方法”,则介于所述关键词对(在线教育,构建)之间的关键词为“企业”、“知识”、“体系”及“自动”。因此,确定关键词“企业”、“知识”、“体系”及“自动”为所述关键词对(在线教育,构建)的词袋。
所述筛选模块303,用于调用无监督的聚类算法根据所述共现特征对多个所述关键词对进行聚类,并根据聚类结果从多个所述关键词对中筛选出多个正向关键词对。
本实施例可以采用无监督的聚类算法根据每个关键词对(V1,V2)的共现特征进行分类,判断构建的特征对之间的边E是否有效。
在每个中心关键词对应的所有关键词对中,利用启发式规则构建正例样本,最后将关键词聚为正负两类,保留聚类结果为正的边E。
无监督的聚类算法和启发式规则为现有技术,本发明在此不再详细阐述。
所述确定模块304,用于基于所述多个正向关键词对确定第一关键词及与所述第一关键词对应的多个第二关键词,并将所述第一关键词作为第一级知识点,将对应的多个第二关键词作为所述第一级知识点对应的多个第二级知识点。
得到正向关键词对后,表明正向关键词对中的两个关键词之间具有很强的关联关系,此时可以将每一个正向关键词对中的关键词作为一个知识点。
在一个可选的实施例中,所述确定模块304基于所述多个正向关键词对确定第一关键词及与所述第一关键词对应的多个第二关键词,并将所述第一关键词作为第一级知识点,将对应的多个第二关键词作为所述第一级知识点对应的多个第二级知识点包括:
从所述多个正向关键词对中任意选取一个第一目标正向关键词对及任意选取所述第一目标正向关键词对中的一个关键词作为第一关键词,另一个关键词作为第二关键词;
获取包括有所述第二关键词的多个第二目标正向关键词对,将每个所述第二目标正向关键词对中的另一个关键词作为第三关键词;
判断是否存在包括所述第一关键词及所述第三关键词的第三目标正向关键词对;
当确定存在包括所述第一关键词及所述第三关键词的第三目标正向关键词对时,删除所述第三目标正向关键词对;
将所述第一关键词作为第一级知识点及将所述第二关键词作为所述第一级知识点对应的第二级知识点。
示例性的,假设正向关键词对(V1,V2),(V2,V3),(V1,V3),将关键词对(V1,V2)作为第一目标正向关键词对,并将第一目标正向关键词对中的关键词V1作为第一关键词,V2作为第二关键词;包括有所述第二关键词V2的第二目标正向关键词对为(V2,V3),那么关键词V3作为第三关键词;而由于正向关键词对(V1,V3)中既包括关键词V1,又包括关键词V3,则可以删除正向关键词对(V1,V3);如此迭代计算下去,即可确定出二层的分层知识点。
当然,在其他实施例中,由于上述利用启发式规则构建正例样本,最后保留了聚类结果为正的边E,即得到的正向关键词对之间具有虚拟的边,对于每个关键词V1,统计所有与V1相关的V2,V3,……,Vn。如果存在V1->V2,V2->V3,V1->V3的边,则删除V1->V3的边,即可形成二层的分层知识点。
所述提取模块305,用于获取用户的搜索关键词,根据所述搜索关键词匹配出知识点并将所述搜索关键词作为所述知识点对应的问题点,及从课程数据库中提取出与每个知识点对应的相关课程。
每个用户在遇到问题时,会从各种搜索引擎中获取相关内容,从搜索引擎显示出的相关内容中提取出知识点,从而确定每个知识点对应的问题点。
课程数据库中预先记录有多个知识点及每个知识点对应的相关课程,还根据专家对每一个相关课程进行了打分。分值越大,对应的相关课程越显示在前面,分值越小,对应的相关课程越显示在后面。
在一个可选的实施例中,所述提取模块305根据所述搜索关键词匹配出知识点并将所述搜索关键词作为所述知识点对应的问题点包括:
获取与所述搜索关键词对应的搜索日志;
提取出所述搜索日志中的多个目标关键词并计算每个所述目标关键词与每个所述知识点之间的匹配度;
将所述匹配度从大到小进行排序并获取排序在前预设数量的匹配度对应的目标知识点;
将所述搜索关键词作为所述目标知识点对应的问题点。
该可选的实施例中,匹配度越大,对应的目标关键词与知识点越显示在前面,匹配度越小,对应的目标关键词与知识点越显示在后面。
根据匹配度显示问题点和根据分值显示相关课程能够让用户一目了然的清楚哪些是热点问题和热点课程。
所述构建模块306,用于根据所述第一级知识点及与所述第一级知识点对应的问题点、相关课程及所述多个第二级知识点构建课程知识图谱。
第一级知识点对应有问题点、相关课程和第二级知识点,同样的,每一个第二级知识点也对应有问题点、相关课程和相关的其他知识点,即每一个第二级知识点也可以作为相关的其他知识点的第一级知识点,此时,相关的其他知识点称之为第二级知识点。每个知识点将连接到多个一层,或二层的分层知识点,每个相关联的知识点都可以展开作为中心知识点。
在一个可选的实施例中,所述构建模块306根据所述第一级知识点及与所述第一级知识点对应的问题点、相关课程及所述多个第二级知识点构建课程知识图谱包括:
将所述第一级知识点作为课程知识图谱的根节点;
将与所述第一级知识点对应的问题点作为所述根节点下的第一父节点、将与所述第一级知识点对应的相关课程作为所述根节点下的第二父节点及将与所述第一级知识点对应的多个第二级知识点作为所述根节点下的第三父节点;
将与所述第二级知识点对应的问题点作为所述第三父节点下的第一子节点、将与所述第二级知识点对应的相关课程作为所述第三父节点下的第二子节点及将与所述第二级知识点对应的多个第三级知识点作为所述第三父节点下的第三子节点,重复上述过程直至完成课程知识图谱的构建。
该可选的实施例中,通过将所有知识点及与每一个知识点对应的问题点、相关课程及关联的其他知识点构建成课程知识图谱,使得各个知识点之间形成了关联关系,且具有明显的层级关系,便于后续推荐出最有效的课程。
所述推荐模块307,用于利用所述课程知识图谱进行课程推荐。
用户可以发送课程推荐请求,请求计算机设备推荐出合适的课程。计算机设备根据课程知识图谱的父子节点关系即可确定出应该推荐的课程。
在一个可选的实施例中,所述推荐模块307利用所述课程知识图谱进行课程推荐包括:
接收课程推荐请求并解析所述课程推荐请求得到解析结果;
当所述解析结果为知识点时,确定所述知识点在所述课程知识图谱中的节点;
获取所述节点的子节点及获取所述子节点对应的知识点及相关课程;
将所述子节点对应的知识点及相关课程推荐给用户。
该可选的实施例中,解析所述课程推荐请求可能得到知识点结果,也可能得到课程问题结果,还可能得到相关课程结果,对于课程问题结果和相关课程结果,则首先需要确定与课程问题及相关课程对应的知识点,再根据知识点进行课程推荐。
示例性的,如图2所示,假设用户当前学习的知识点为保额销售,在课程知识图谱中,保额销售为根节点,保险理念导入、险种、画图讲解等为根节点下的父节点,则将保险理念导入、险种、画图讲解中的一种或者全部推荐给用户。
综上所述,本发明通过人工智能+聚类算法相结合的思想,从海量的非结构化的数据中提取并建立课程知识图谱,能够在用户学习完一门课程后,通过课程知识图谱推荐出与当前学习的知识点相关的下一个知识点,从而使得用户能够循序渐进的选择知识进行学习。从用户友好的角度提升了用户的学习体验。同时,课程知识图谱可以应用于搜索、推荐、推送等多个领域,协助在线教育平台提升搜索、推荐、推送的效率和质量。
此外,本案构建的课程知识图谱具有良好的拓展性,易于维护,可以进行实时的更新。具体表现为从新加入的课程与搜索记录中,可以计算出新的关键词并作为新的知识点,重复上述过程将新的知识点更新到原有的课程知识图谱中。
需要强调的是,为进一步保证上述课程知识图谱的私密性和安全性,上述课程知识图谱可存储于区块链的节点中。
参阅图4所示,为本发明实施例三提供的终端的结构示意图。在本发明较佳实施例中,所述终端4包括存储器41、至少一个处理器42、至少一条通信总线43及收发器44。
本领域技术人员应该了解,图4示出的终端的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述终端4还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述终端4是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的终端,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述终端4还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述终端4仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器41中存储有计算机程序,且所述至少一个处理器42可调用所述存储器41中存储的计算机程序以执行相关的功能。例如,上述实施例中所述的各个模块是存储在所述存储器41中的计算机程序,并由所述至少一个处理器42所执行,从而实现所述各个模块的功能。所述存储器41包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器42是所述终端4的控制核心(ControlUnit),利用各种接口和线路连接整个终端4的各个部件,通过运行或执行存储在所述存储器41内的程序或者模块,以及调用存储在所述存储器41内的数据,以执行终端4的各种功能和处理数据。例如,所述至少一个处理器42执行所述存储器中存储的计算机程序时实现本发明实施例中所述的课程知识图谱构建方法的全部或者部分步骤。所述至少一个处理器42可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processingunit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线43被设置为实现所述存储器41以及所述至少一个处理器42等之间的连接通信。
尽管未示出,所述终端4还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器42逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述终端4还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (9)
1.一种课程知识图谱构建方法,其特征在于,所述方法包括:
利用预设的新词发现算法从全量文本数据中提取出多个领域关键词;
从所述多个领域关键词中任意选取两个领域关键词组合成关键词对,并计算每一个所述关键词对在同一个文本数据中的共现特征,包括:针对同一个文本数据,计算所述关键词对同时出现在课程标题中的第一词频;计算所述关键词对同时出现在课程介绍中的第二词频;计算所述关键词对同时出现在课程关键词中的第三词频;计算所述关键词对中的一个关键词出现在所述课程标题中,另一个关键词出现在所述课程介绍中的第四词频;计算所述关键词对中的一个关键词出现在所述课程标题中,另一个关键词出现在所述课程关键词中的第五词频;计算所述关键词对中的一个关键词出现在所述课程介绍中,另一个关键词出现在所述课程关键词中的第六词频;确定所述关键词对出现的共现句子及在所述共现句子中介于所述关键词对之间的关键词作为词袋;将所述关键词对、所述第一词频、所述第二词频、所述第三词频、所述第四词频、所述第五词频、所述第六词频及所述词袋组合成共现特征列表;
调用无监督的聚类算法根据所述共现特征对多个所述关键词对进行聚类,并根据聚类结果从多个所述关键词对中筛选出多个正向关键词对;
基于所述多个正向关键词对确定第一关键词及与所述第一关键词对应的多个第二关键词,并将所述第一关键词作为第一级知识点,将对应的多个第二关键词作为所述第一级知识点对应的多个第二级知识点;
获取用户的搜索关键词,根据所述搜索关键词匹配出知识点并将所述搜索关键词作为所述知识点对应的问题点,及从课程数据库中提取出与每个知识点对应的相关课程;
根据所述第一级知识点及与所述第一级知识点对应的问题点、相关课程及所述多个第二级知识点构建课程知识图谱。
2.如权利要求1所述的课程知识图谱构建方法,其特征在于,所述利用预设的新词发现算法从全量文本数据中提取出多个领域关键词包括:
利用所述新词发现算法识别出所述全量文本数据中的多个字词;
根据文本数据的来源将所述全量文本数据划分为第一语料库和第二语料库;
计算每个所述字词在所述第一语料库中的第一词频-逆文件词频值及计算每个所述字词在所述第二语料库中的第二词频-逆文件词频值;
根据所述第一词频-逆文件词频值及所述第二词频-逆文件词频值,筛选出多个领域关键词。
3.如权利要求1所述的课程知识图谱构建方法,其特征在于,所述基于所述多个正向关键词对确定第一关键词及与所述第一关键词对应的多个第二关键词,并将所述第一关键词作为第一级知识点,将对应的多个第二关键词作为所述第一级知识点对应的多个第二级知识点包括:
从所述多个正向关键词对中任意选取一个第一目标正向关键词对及任意选取所述第一目标正向关键词对中的一个关键词作为第一关键词,另一个关键词作为第二关键词;
获取包括有所述第二关键词的多个第二目标正向关键词对,将每个所述第二目标正向关键词对中的另一个关键词作为第三关键词;
判断是否存在包括所述第一关键词及所述第三关键词的第三目标正向关键词对;
当确定存在包括所述第一关键词及所述第三关键词的第三目标正向关键词对时,删除所述第三目标正向关键词对;
将所述第一关键词作为第一级知识点及将所述第二关键词作为所述第一级知识点对应的第二级知识点。
4.如权利要求1所述的课程知识图谱构建方法,其特征在于,所述根据所述搜索关键词匹配出知识点并将所述搜索关键词作为所述知识点对应的问题点包括:
获取与所述搜索关键词对应的搜索日志;
提取出所述搜索日志中的多个目标关键词并计算每个所述目标关键词与每个所述知识点之间的匹配度;
将所述匹配度从大到小进行排序并获取排序在前预设数量的匹配度对应的目标知识点;
将所述搜索关键词作为所述目标知识点对应的问题点。
5.如权利要求1所述的课程知识图谱构建方法,其特征在于,所述根据所述第一级知识点及与所述第一级知识点对应的问题点、相关课程及所述多个第二级知识点构建课程知识图谱包括:
将所述第一级知识点作为课程知识图谱的根节点;
将与所述第一级知识点对应的问题点作为所述根节点下的第一父节点、将与所述第一级知识点对应的相关课程作为所述根节点下的第二父节点及将与所述第一级知识点对应的多个第二级知识点作为所述根节点下的第三父节点;
将与所述第二级知识点对应的问题点作为所述第三父节点下的第一子节点、将与所述第二级知识点对应的相关课程作为所述第三父节点下的第二子节点及将与所述第二级知识点对应的多个第三级知识点作为所述第三父节点下的第三子节点,重复上述过程直至完成课程知识图谱的构建。
6.如权利要求1至5中任意一项所述的课程知识图谱构建方法,其特征在于,所述方法还包括:
接收课程推荐请求并解析所述课程推荐请求得到解析结果;
当所述解析结果为知识点时,确定所述知识点在所述课程知识图谱中的节点;
获取所述节点的子节点及获取所述子节点对应的知识点及相关课程;
将所述子节点对应的知识点及相关课程推荐给用户。
7.一种课程知识图谱构建装置,其特征在于,所述装置包括如权利要求1至6中任意一项所述的课程知识图谱构建方法的模块,所述装置包括:
发现模块,用于利用预设的新词发现算法从全量文本数据中提取出多个领域关键词;
计算模块,用于从所述多个领域关键词中任意选取两个领域关键词组合成关键词对,并计算每一个所述关键词对在同一个文本数据中的共现特征;
筛选模块,用于调用无监督的聚类算法根据所述共现特征对多个所述关键词对进行聚类,并根据聚类结果从多个所述关键词对中筛选出多个正向关键词对;
确定模块,用于基于所述多个正向关键词对确定第一关键词及与所述第一关键词对应的多个第二关键词,并将所述第一关键词作为第一级知识点,将对应的多个第二关键词作为所述第一级知识点对应的多个第二级知识点;
提取模块,用于获取用户的搜索关键词,根据所述搜索关键词匹配出知识点并将所述搜索关键词作为所述知识点对应的问题点,及从课程数据库中提取出与每个知识点对应的相关课程;
构建模块,用于根据所述第一级知识点及与所述第一级知识点对应的问题点、相关课程及所述多个二级知识点构建课程知识图谱。
8.一种终端,其特征在于,所述终端包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至6中任意一项所述课程知识图谱构建方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述课程知识图谱构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010615832.XA CN111797222B (zh) | 2020-06-29 | 2020-06-29 | 课程知识图谱构建方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010615832.XA CN111797222B (zh) | 2020-06-29 | 2020-06-29 | 课程知识图谱构建方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797222A CN111797222A (zh) | 2020-10-20 |
CN111797222B true CN111797222B (zh) | 2023-12-22 |
Family
ID=72810791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010615832.XA Active CN111797222B (zh) | 2020-06-29 | 2020-06-29 | 课程知识图谱构建方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797222B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395432B (zh) * | 2021-01-19 | 2021-04-06 | 平安科技(深圳)有限公司 | 课程推送方法、装置、计算机设备及存储介质 |
CN112861530A (zh) * | 2021-03-17 | 2021-05-28 | 华南农业大学 | 一种基于文本挖掘的课程设置分析方法 |
CN112948508B (zh) * | 2021-04-15 | 2024-04-30 | 平安科技(深圳)有限公司 | 基于多层关联知识图谱的信息预测方法、装置、设备及介质 |
CN113301371A (zh) * | 2021-05-20 | 2021-08-24 | 读书郎教育科技有限公司 | 双师直播课程习题视频片段与知识点关联的系统及方法 |
CN114969273B (zh) * | 2022-07-28 | 2022-11-15 | 广州宏途数字科技有限公司 | 一种高考专业推荐方法、装置、设备及存储介质 |
CN116128055A (zh) * | 2023-04-07 | 2023-05-16 | 中关村科学城城市大脑股份有限公司 | 图谱构建方法、装置、电子设备和计算机可读介质 |
CN118245600B (zh) * | 2024-03-20 | 2024-09-10 | 佛山职业技术学院 | 一种基于数字化的思政课程知识图谱构建方法及相关装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708100A (zh) * | 2011-03-28 | 2012-10-03 | 北京百度网讯科技有限公司 | 挖掘相关实体词的关系关键词的方法和装置及其应用 |
WO2016179938A1 (zh) * | 2015-05-14 | 2016-11-17 | 百度在线网络技术(北京)有限公司 | 题目推荐方法和题目推荐装置 |
CN110489558A (zh) * | 2019-08-23 | 2019-11-22 | 网易传媒科技(北京)有限公司 | 文章聚合方法和装置、介质和计算设备 |
CN110851610A (zh) * | 2018-07-25 | 2020-02-28 | 百度在线网络技术(北京)有限公司 | 知识图谱生成方法、装置、计算机设备以及存储介质 |
CN111274411A (zh) * | 2020-01-22 | 2020-06-12 | 文思海辉智科科技有限公司 | 课程推荐方法、装置、电子设备及可读存储介质 |
-
2020
- 2020-06-29 CN CN202010615832.XA patent/CN111797222B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708100A (zh) * | 2011-03-28 | 2012-10-03 | 北京百度网讯科技有限公司 | 挖掘相关实体词的关系关键词的方法和装置及其应用 |
WO2016179938A1 (zh) * | 2015-05-14 | 2016-11-17 | 百度在线网络技术(北京)有限公司 | 题目推荐方法和题目推荐装置 |
CN110851610A (zh) * | 2018-07-25 | 2020-02-28 | 百度在线网络技术(北京)有限公司 | 知识图谱生成方法、装置、计算机设备以及存储介质 |
CN110489558A (zh) * | 2019-08-23 | 2019-11-22 | 网易传媒科技(北京)有限公司 | 文章聚合方法和装置、介质和计算设备 |
CN111274411A (zh) * | 2020-01-22 | 2020-06-12 | 文思海辉智科科技有限公司 | 课程推荐方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111797222A (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797222B (zh) | 课程知识图谱构建方法、装置、终端及存储介质 | |
CN111737495B (zh) | 基于领域自分类的中高端人才智能推荐系统及其方法 | |
US10956471B2 (en) | Readability awareness in natural language processing systems | |
US10380156B2 (en) | Readability awareness in natural language processing systems | |
Schneider et al. | A review of argumentation for the social semantic web | |
Daumé III et al. | A large-scale exploration of effective global features for a joint entity detection and tracking model | |
US9317594B2 (en) | Social community identification for automatic document classification | |
US9536444B2 (en) | Evaluating expert opinions in a question and answer system | |
CN107807915B (zh) | 基于纠错平台的纠错模型建立方法、装置、设备和介质 | |
CN112417090A (zh) | 利用未提交的用户输入数据来提高任务性能 | |
EP2430568A1 (en) | Methods and systems for knowledge discovery | |
CN112149409B (zh) | 医疗词云生成方法、装置、计算机设备及存储介质 | |
CN111858962B (zh) | 数据处理方法、装置及计算机可读存储介质 | |
US20240185734A1 (en) | Methods, Systems, Devices, and Software for Managing and Conveying Knowledge | |
Guiñazú et al. | Employing online social networks in precision-medicine approach using information fusion predictive model to improve substance use surveillance: A lesson from Twitter and marijuana consumption | |
Moreno-Jiménez et al. | A new e-learning tool for cognitive democracies in the Knowledge Society | |
CN113705191A (zh) | 样本语句的生成方法、装置、设备及存储介质 | |
CN116821373A (zh) | 基于图谱的prompt推荐方法、装置、设备及介质 | |
CN116303945A (zh) | 视觉问答模型的样本生成方法及相关设备 | |
CN117390145A (zh) | 临床试验的自动文本对话方法、装置、设备及介质 | |
CN113571196A (zh) | 构建医疗训练样本的方法及装置、医疗文本的检索方法 | |
CN116701752A (zh) | 基于人工智能的新闻推荐方法、装置、电子设备及介质 | |
Zhao et al. | Smartwiki: A reliable and conflict-refrained wiki model based on reader differentiation and social context analysis | |
Kawash et al. | Prediction and Inference from Social Networks and Social Media | |
CN115292620B (zh) | 地域信息识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |