CN106326443A - 一种针对教育行业的多维数据抽取方法 - Google Patents

一种针对教育行业的多维数据抽取方法 Download PDF

Info

Publication number
CN106326443A
CN106326443A CN201610731777.4A CN201610731777A CN106326443A CN 106326443 A CN106326443 A CN 106326443A CN 201610731777 A CN201610731777 A CN 201610731777A CN 106326443 A CN106326443 A CN 106326443A
Authority
CN
China
Prior art keywords
data
thematic
index
server
thematic data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610731777.4A
Other languages
English (en)
Inventor
陈静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Hankang Information Industry Co Ltd
Original Assignee
Chengdu Hankang Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Hankang Information Industry Co Ltd filed Critical Chengdu Hankang Information Industry Co Ltd
Priority to CN201610731777.4A priority Critical patent/CN106326443A/zh
Publication of CN106326443A publication Critical patent/CN106326443A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种针对于教育行业的多维数据抽取方法。上述方法包括以下步骤:专题数据提取服务器无限循环遍历教学数据存储器内的数据,根据其维护的GUID列表,按照第一规则,获得专题数据,并将专题数据存储至专题数据存储器;索引数据处理服务器无限循环遍历专题数据存储器内的专题数据,并根据专题数据生成专题数据索引表;索引数据处理服务器根据专题数据索引表,按照第二规则生成元数据索引表及按照第三规则生成词句数据索引表;当用户进行数据搜索时,查询服务器根据用户输入的查询信息至索引数据处理服务器依次查询元数据索引表及词句数据索引表,以获得初始查询结果,查询服务器根据评估算法及初始查询结果得到最终查询结果。

Description

一种针对教育行业的多维数据抽取方法
技术领域
本发明属于数据处理技术,尤其涉及一种针对于教育行业的多维数据抽取方法。
背景技术
目前,随着云教育平台的不断发展,云教育平台会产生大量的教学资料。然而,如何在海量的教学资料中快速精准地找到用户想要的数据,成为亟需解决的重要问题之一。
发明内容
本发明提供一种针对于教育行业的多维数据抽取方法,以解决上述问题。
本发明提供一种云教育平台的数据搜索方法。上述方法包括以下步骤:专题数据提取服务器无限循环遍历教学数据存储器内的数据,根据其维护的GUID列表,按照第一规则,获得专题数据,并将专题数据存储至专题数据存储器;索引数据处理服务器无限循环遍历专题数据存储器内的专题数据,并根据专题数据生成专题数据索引表;索引数据处理服务器根据专题数据索引表,按照第二规则生成元数据索引表及按照第三规则生成词句数据索引表;当用户进行数据搜索时,查询服务器根据用户输入的查询信息至索引数据处理服务器依次查询元数据索引表及词句数据索引表,以获得初始查询结果,查询服务器根据评估算法及初始查询结果得到最终查询结果。
本发明还提供一种针对于教育行业的多维数据抽取系统,包括教学数据存储器、专题数据提取服务器、专题数据存储器、索引数据处理服务器以及查询服务器。专题数据提取服务器连接教学数据存储器及专题数据存储器,索引数据处理服务器连接专题数据存储器及查询服务器。其中,专题数据提取服务器,用于无限循环遍历教学数据存储器内的数据,根据其维护的GUID列表,按照第一规则,获得专题数据,并将专题数据存储至专题数据存储器。索引数据处理服务器,用于无限循环遍历专题数据存储器内的专题数据,并根据专题数据生成专题数据索引表。索引数据处理服务器,用于根据专题数据索引表,按照第二规则生成元数据索引表及按照第三规则生成词句数据索引表。当用户进行数据搜索时,查询服务器根据用户输入的查询信息至索引数据处理服务器依次查询元数据索引表及词句数据索引表,以获得初始查询结果,查询服务器根据评估算法及初始查询结果得到最终查询结果。
相较于先前技术,根据本发明专题数据提取服务器按照第一规则获得专题数据,并将专题数据存储至专题数据存储器,如此通过专题数据的提炼,提高了数据的查询效率。另外,当用户进行数据搜索时,查询服务器根据用户输入的查询信息至索引数据处理服务器依次查询元数据索引表及词句数据索引表,以获得初始查询结果,查询服务器根据评估算法及初始查询结果得到最终查询结果。如此,通过依次查询元数据索引表及词句数据索引表,提高了初始查询结果的命中率,而且,再根据评估算法及初始查询结果获取最终查询结果,大大提高了查询的准确性。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细说明。
图1所示为根据本发明的较佳实施例的流程图。
图2所示为根据本发明的较佳实施例的示意图。
具体实施方式
下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。
[实施例]
图1所示为根据本发明的较佳实施例提供的云教育平台的数据搜索方法的流程图。如图1所示,本发明的较佳实施例提供的云教育平台的数据搜索方法包括步骤101~104。
于步骤101,专题数据提取服务器无限循环遍历教学数据存储器内的数据,根据其维护的GUID列表,按照第一规则,获得专题数据,并将所述专题数据存储至专题数据存储器。
于步骤101,专题数据提取服务器无限循环遍历教学数据存储器内的数据,根据其维护的GUID列表,按照第一规则,获得专题数据,并将所述专题数据存储至专题数据存储器。
于本实施例中,教学数据存储器存储云教育平台上的教学数据。具体而言,云教育平台上的老师会将教学课件存储至教学数据存储器的教学课件专区,然后,老师在授课时实时录制的视频亦可存储至教学数据存储器的教学视频专区。学生在线听课,并在听完课之后给老师评分,评分结果可存储至教学数据存储器的学生评分专区。老师布置作业,并将作业存储至教学数据存储器的学生作业专区。学生完成作业,老师例如通过云教育平台批阅后,将作业得分存储至教学数据存储器的作业得分专区。此外,老师亦会总结本节课程的主要内容,并输入相应的关键词作为元数据。其中,云教育平台会为每节课程生成一个全局唯一的编号,用于标识该节课程的所有资源(例如,课件、视频、评分、作业、得分、元数据)。举例而言,若老师A准备“信息系统的生命周期”的课程,当老师A制作教学课件并上传至教学数据存储器后,云教育平台会为该课件产生一个全局唯一的编号GUID:a1484645-786e-4f7e-bc09-0ecf36add696,该教学课程之后产生的教学视频、学生评分、学生作业、作业得分、元数据等教学数据都会采用a1484645-786e-4f7e-bc09-0ecf36add696作为GUID编号,以便于专题数据整理。
于本实施例中,专题数据提取服务器无限循环遍历教学数据存储器内的数据,根据其维护的GUID列表,按照第一规则,获得专题数据的过程为:专题数据提取服务器无限循环遍历教学数据存储器内的数据,获取数据的GUID,并比对GUID是否存在于GUID列表,若不存在,则获取GUID对应的数据归档为专题数据。具体而言,专题数据提取服务器维护GUID列表,若专题数据提取服务器在教学数据存储器内获取的数据GUID存在于GUID列表,则说明该数据已经被提取,如果该数据的GUID未存在于GUID列表中,则说明该数据未被提取,此时,专题数据提取服务器将教学数据存储器内的该GUID对应的教学数据均提取出来,并归档至一个静态文件,形成一条专题数据,且将该专题数据存储于专题数据存储器。同时,完成该GUID对应的教学数据的提取后,专题数据提取服务器会将该GUID更新至其维护的GUID列表。于此,每个专题数据例如包括编号GUID、教学课件、教学视频、学生评分、学生作业、作业得分、元数据等教学数据。
于步骤102,索引数据处理服务器无限循环遍历所述专题数据存储器内的专题数据,并根据所述专题数据生成专题数据索引表。
于本实施例中,专题数据索引表包括序号、专题GUID、物理位置、元数据及词句数据等内容。具体而言,索引数据处理服务器无限循环遍历专题数据存储器内的专题数据,并比对专题数据的GUID是否存在于专题数据索引表中,若存在,说明此专题数据已被提炼至专题数据索引表中,若不存在,则说明该专题数据尚未被提炼至专题数据索引表中,此时需要将该专题数据的相关信息加入专题数据索引表。
按照上述的实施例,即可很好的完成本发明。
如上所述即为本发明的实施例。本发明不局限于上述实施方式,任何人应该得知在本发明的启示下做出的结构变化,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。

Claims (4)

1.一种针对于教育行业的多维数据抽取方法,它包括,其特征在于:其特征在于,包括以下步骤:专题数据提取服务器无限循环遍历教学数据存储器内的数据,根据其维护的GUID列表,按照第一规则,获得专题数据,并将所述专题数据存储至专题数据存储器;索引数据处理服务器无限循环遍历所述专题数据存储器内的专题数据,并根据所述专题数据生成专题数据索引表;索引数据处理服务器根据所述专题数据索引表,按照第二规则生成元数据索引表及按照第三规则生成词句数据索引表;当用户进行数据搜索时,查询服务器根据用户输入的查询信息至所述索引数据处理服务器依次查询所述元数据索引表及所述词句数据索引表,以获得初始查询结果,所述查询服务器根据评估算法及所述初始查询结果得到最终查询结果;所述评估算法为:根据每个专题数据对应的评分和得分获得平均评分和平均得分,每个专题数据的评估值等于所述专题数据的平均评分与第一比例的乘积和平均得分与第二比例的乘积的和值,其中,所述第一比例与所述第二比例的和值为1;所述最终查询结果依次排列元数据查询结果及词句数据查询结果,且每个类型中按照所述评估算法获得的每个专题数据的评估值由大至小的顺序排列;所述查询服务器根据所述评估算法及所述初始查询结果得到最终查询结果后,向专题数据存储器获取相应的专题数据,并将获取的专题数据输出给用户。
2.根据权利要求1所述的一种针对于教育行业的多维数据抽取方法,其特征在于:所述专题数据提取服务器无限循环遍历所述教学数据存储器内的数据,根据其维护的GUID列表,按照第一规则,获得专题数据的过程为:所述专题数据提取服务器无限循环遍历所述教学数据存储器内的数据,获取所述数据的GUID,并比对所述GUID是否存在于所述GUID列表,若不存在,则获取所述GUID对应的数据归档为专题数据。
3.根据权利要求1所述的一种针对于教育行业的多维数据抽取方法,其特征在于:所述索引数据处理服务器根据所述专题数据索引表,按照第二规则生成元数据索引表的过程为:所述索引数据处理服务器依次遍历所述专题数据索引表中所有的元数据,将相同的元数据组织到一个元数据索引项中,其中,元数据索引项包括元数据及其所对应的索引位置。
4.根据权利要求1所述的一种针对于教育行业的多维数据抽取方法,其特征在于:所述索引数据处理服务器根据所述专题数据索引表,按照第三规则生成词句数据索引表的过程为:所述索引数据处理服务器依次遍历所述专题数据索引表中所有的词句数据,将相同的词句数据组织到一个词句数据索引项中,其中,词句数据索引项包括词句数据及其所对应的索引位置;每个专题数据包括编号GUID、教学课件、教学视频、学生评分、学生作业、作业得分以及元数据。
CN201610731777.4A 2016-08-26 2016-08-26 一种针对教育行业的多维数据抽取方法 Pending CN106326443A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610731777.4A CN106326443A (zh) 2016-08-26 2016-08-26 一种针对教育行业的多维数据抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610731777.4A CN106326443A (zh) 2016-08-26 2016-08-26 一种针对教育行业的多维数据抽取方法

Publications (1)

Publication Number Publication Date
CN106326443A true CN106326443A (zh) 2017-01-11

Family

ID=57791705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610731777.4A Pending CN106326443A (zh) 2016-08-26 2016-08-26 一种针对教育行业的多维数据抽取方法

Country Status (1)

Country Link
CN (1) CN106326443A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164534A (zh) * 2013-04-11 2013-06-19 苏州阔地网络科技有限公司 一种基于云教育平台的数据搜索方法及系统
CN103164536A (zh) * 2013-04-11 2013-06-19 苏州阔地网络科技有限公司 一种实现云教育平台数据搜索的方法及系统
CN103198128A (zh) * 2013-04-11 2013-07-10 苏州阔地网络科技有限公司 一种云教育平台的数据搜索方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164534A (zh) * 2013-04-11 2013-06-19 苏州阔地网络科技有限公司 一种基于云教育平台的数据搜索方法及系统
CN103164536A (zh) * 2013-04-11 2013-06-19 苏州阔地网络科技有限公司 一种实现云教育平台数据搜索的方法及系统
CN103198128A (zh) * 2013-04-11 2013-07-10 苏州阔地网络科技有限公司 一种云教育平台的数据搜索方法及系统

Similar Documents

Publication Publication Date Title
CN103198128A (zh) 一种云教育平台的数据搜索方法及系统
CN102262634B (zh) 一种自动问答方法及系统
CN112395403B (zh) 一种基于知识图谱的问答方法、系统、电子设备及介质
CN110443571A (zh) 基于知识图谱进行简历评估的方法、装置及设备
CN113590956B (zh) 知识点推荐方法、装置、终端及计算机可读存储介质
CN106649524A (zh) 一种改进型基于计算机云数据的深度学习智能应答系统
CN105740404A (zh) 标签关联方法及装置
CN111143672A (zh) 基于知识图谱的专业特长学者推荐方法
CN101105854A (zh) 基于决策树的远程教育环境中学生情况在线检测方法
CN110888989B (zh) 一种智能学习平台及其构建方法
CN110110090A (zh) 搜索方法、教育搜索引擎系统及装置
CN103164534A (zh) 一种基于云教育平台的数据搜索方法及系统
CN114911949A (zh) 一种课程知识图谱构建方法及系统
CN103164536B (zh) 一种实现云教育平台数据搜索的方法及系统
CN106897272A (zh) 基于英语音节计算方法在可读性评测中的应用方法与平台
KR101794547B1 (ko) 단어장 자동 생성 및 학습훈련 시스템 및 방법
CN113190692A (zh) 一种知识图谱的自适应检索方法、系统及装置
Limongelli et al. Towards the recommendation of resources in coursera
CN106326443A (zh) 一种针对教育行业的多维数据抽取方法
CN115757720A (zh) 基于知识图谱的项目信息搜索方法、装置、设备和介质
US20210375148A1 (en) System and method for autonomous learning of contents using a machine learning algorithm
Hudayah an Analysis of Indonesian Moral Values Found in the Song Lyrics Forgive Me Album By Maher Zain
KR102488842B1 (ko) 유사 수학문제 검색장치 및 컴퓨터 프로그램
CN103164535B (zh) 一种云教育平台的数据搜索实现方法及系统
CN110223206A (zh) 课文专业方向确定方法及系统和解析课件匹配方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170111