CN110334122A - 教育数据的查询分析方法及系统 - Google Patents
教育数据的查询分析方法及系统 Download PDFInfo
- Publication number
- CN110334122A CN110334122A CN201910625930.9A CN201910625930A CN110334122A CN 110334122 A CN110334122 A CN 110334122A CN 201910625930 A CN201910625930 A CN 201910625930A CN 110334122 A CN110334122 A CN 110334122A
- Authority
- CN
- China
- Prior art keywords
- data
- query
- module
- instruction
- student
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 75
- 238000012795 verification Methods 0.000 claims description 92
- 238000000034 method Methods 0.000 claims description 28
- 230000000007 visual effect Effects 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 12
- 230000014759 maintenance of location Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 5
- 238000004088 simulation Methods 0.000 claims description 5
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 abstract 1
- 230000009471 action Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Educational Technology (AREA)
- Primary Health Care (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种教育数据的查询分析方法及系统。教育数据的查询分析方法包括:获取教育数据;将教育数据抽取到数据仓库模型中,在数据仓库模型中生成不同主题下的事实表与维度表构成数据仓库;将事实表与维度表同步至Hive工具;获取用户输入的目标指令,对目标指令进行解析生成查询指令;将查询指令发送至presto查询引擎;presto查询引擎根据查询指令在Hive中的事实表与维度表中进行查询,得到查询分析结果。本发明能够实现多维度数据的即时查询分析。
Description
技术领域
本发明涉及教育信息化技术领域,更具体地,涉及一种教育数据的查询分析方法及系统。
背景技术
目前随着数字信息化在教育领域的应用,越来越多的教育网络平台、终端教育软件应运而生,用户在使用教育平台或者教育软件时会产生大量的数据,这些数据的存储占用了大量的空间,而如何利用这些数据进行数据分析是业内需要考虑的问题。目前对于教育领域数据进行分析通常采用的方式为:提前预设数据的多维组合方式,根据预设的多维组合方式进行数据预计算,然后用户基于预计算好的数据进行分析查询,而如果遇到预设中没有的维度组合方式,就无法使用。
因此,提供一种教育数据的查询分析方法及系统,实现多维度数据的即时查询分析,是本领域亟待解决的技术问题。
发明内容
有鉴于此,本发明提供了一种教育数据的查询分析方法及系统,解决了上述技术问题。
本发明提供一种教育数据的查询分析方法,包括:
获取教育数据;
将教育数据抽取到数据仓库模型中,在数据仓库模型中生成不同主题下的事实表与维度表构成数据仓库,其中,数据仓库模型包括根据逻辑主题进行划分的至少六个主题模型,将主题模型依次经过数据留存层、细粒度模型层、轻度汇总层以及中度汇总层执行装载,构建数据仓库,主题至少包括学生主题、教师主题、考试主题、试题主题、行为主题和流量主题;
将事实表与维度表同步至Hive工具;
获取用户输入的目标指令,对目标指令进行解析生成查询指令,目标指令包括至少一个指标和至少一个维度,包括:
获取用户输入的至少一个指标和至少一个维度,并根据用户输入的指标与维度分别读取配置表,其中,配置表包括第一类配置表和第二类配置表,第一类配置表为指标与物理存储信息之间的映射关系表,第二类配置表为维度与物理存储信息之间的映射关系表,物理存储信息至少包括字段名称和表名;
根据读取配置表得到的物理存储信息结合主键形成关联关系,输出相应的sql语言,sql语言作为查询指令;
将查询指令发送至presto查询引擎;
presto查询引擎根据查询指令在Hive中的事实表与维度表中进行查询,得到查询分析结果。
可选的,教育数据包括结构化数据、半结构化数据和非结构化数据;
将教育数据抽取到数据仓库模型中,包括:将半结构化数据和非结构化数据转化为结构化数据后,并对结构化数据进行消歧处理后抽取到数据仓库模型中。
可选的,presto查询引擎根据查询指令在Hive中查询,得到查询分析结果,具体包括:
presto查询引擎执行查询指令在Hive中查询,得到执行结果;
将执行结果封装成数据集;
根据数据集,展示相关的数据报表以及可视化图形内容,将相关的数据报表以及可视化图形内容作为查询分析结果。
可选的,在教育数据仓库中:
学生主题下的信息包括:学生编号、学生年龄、学生性别、学生生日、学生的变更记录、学生学校、学生年级、学生班级、学生联系方式中至少之一;
教师主题下的信息包括:教师的联系方式、从教时间、教授科目、教授的班级、班级学生明细中至少之一;
考试主题下的信息包括:作业练习、模拟考试、期中考试、期末考试、试卷信息记录、参考数据记录至少之一;
试题主题下的信息包括:试题与考试的对应关系、试题知识点信息;
行为主题下的信息包括:教师出卷记录、教师阅卷记录、学生作答记录;
流量主题下的信息包括:学生在教育软件或者教育网站上产生的所有行为日志、教师在教育软件或者教育网站上产生的所有行为日志。
可选的,获取用户输入的目标指令,对目标指令进行解析生成查询指令之前还包括:
接收用户输入的第一权限验证信息,第一权限验证信息包括账户名和密码;
对第一权限验证信息进行验证,验证通过后生成第二权限验证信息,并将第二权限验证信息发送给用户的手机,第二权限验证信息为随机生成的数字验证码;
接收用户输入的第二权限验证信息,并返回权限通知。
基于同一发明构思,本发明还提供一种教育数据的查询分析系统,包括:数据获取模块、数据仓库模块、查询分析模块;其中,
数据获取模块,与数据仓库模块相连接,用于获取教育数据,并将教育数据发送给数据仓库模块;
数据仓库模块,与查询分析模块相连接,数据仓库模块内构建有数据仓库模型,教育数据在数据仓库模型中生成不同主题下的事实表与维度表构成数据仓库,其中,数据仓库模型包括根据逻辑主题进行划分的至少六个主题模型,将主题模型依次经过数据留存层、细粒度模型层、轻度汇总层以及中度汇总层执行装载,构建数据仓库,主题至少包括学生主题、教师主题、考试主题、试题主题、行为主题和流量主题;
查询分析模块包括:查询工具模块,指令解析模块,查询引擎模块;
查询工具模块内配置有Hive工具,Hive工具用于同步数据仓库模块生成的事实表与维度表;
指令解析模块用于获取用户输入的目标指令,并对目标指令进行解析生成查询指令,目标指令包括至少一个指标和至少一个维度,指令解析模块包括配置查询子模块和指令生成子模块,其中,
配置查询子模块用于获取用户输入的至少一个指标和至少一个维度,并根据用户输入的指标与维度分别读取配置表,配置表包括第一类配置表和第二类配置表,第一类配置表为指标与物理存储信息之间的映射关系表,第二类配置表为维度与物理存储信息之间的映射关系表,物理存储信息至少包括字段名称和表名;
指令生成子模块用于根据读取配置表得到的物理存储信息结合主键形成关联关系,输出相应的sql语言,sql语言作为查询指令,并将查询指令发送给查询引擎模块;
查询引擎模块与查询工具模块相连接,查询引擎模块内配置有presto查询引擎,presto查询引擎用于根据查询指令在Hive中的事实表与维度表中进行查询,得到查询分析结果。
可选的,教育数据包括结构化数据、半结构化数据和非结构化数据;
数据获取模块还用于将半结构化数据和非结构化数据转化为结构化数据后,并对结构化数据进行消歧处理后抽取到数据仓库模块中。
可选的,查询分析模块还包括可视化输出子模块;
presto查询引擎执行查询指令在Hive中查询,得到执行结果,并将执行结果封装成数据集发送给可视化输出子模块;
可视化输出子模块根据数据集,展示相关的数据报表以及可视化图形内容。
可选的,还包括权限验证模块,权限验证模块包括第一权限验证模块、第二权限验证模块和验证码生成模块;其中,
第一权限验证模块,用于接收用户输入的第一权限验证信息,并对第一权限验证信息进行验证,将通过验证的结果发送给验证码生成模块,其中,第一权限验证信息包括账户名和密码;
验证码生成模块接收通过验证的结果后生成第二权限验证信息,并将第二权限验证信息发送给用户的手机,第二权限验证信息为随机生成的数字验证码;
第二权限验证模块,用于接收用户输入的第二权限验证信息,并返回权限通知。
与现有技术相比,本发明提供的教育数据的查询分析方法及系统,至少实现了如下的有益效果:
采用本发明提供的教育数据的查询分析方法,根据互联网教育数据的特点,抽象出多个主题模型构建了教育数据仓库,不需要对多维数据的组合方式进行预计算,能够支持对教育数据进行多维度即时查询分析,适用各种频繁多变的分析场景。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1为本发明实施例提供的教育数据的查询分析方法流程图;
图2为本发明实施例中查询分析的一种可选实施方式流程图;
图3为本发明实施例提供的教育数据的查询分析方法中权限验证流程图;
图4为本发明实施例提供的教育数据的查询分析系统框图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为本发明实施例提供的教育数据的查询分析方法流程图。如图1所示,教育数据的查询分析方法包括:
步骤S101:获取教育数据;
步骤S102:将教育数据抽取到数据仓库模型中,在数据仓库模型中生成不同主题下的事实表与维度表构成数据仓库,其中,数据仓库模型包括根据逻辑主题进行划分的至少六个主题模型,将主题模型依次经过数据留存层、细粒度模型层、轻度汇总层以及中度汇总层执行装载,构建数据仓库,主题至少包括学生主题、教师主题、考试主题、试题主题、行为主题和流量主题;实际中根据数据分析需要增加主题模型,本发明中主题模型不限于上述六个。
可选的,数据仓库模型中数据留存层用于保存接收到的教育数据,该层保存了所有数据的历史,作为用户回查与基础支撑;细粒度模型层用于对数据留存层的数据进行主题域内的数据整合处理,能够支持各类数据查询场景,同时也支持明细数据的访问与再开发;轻度汇总层用于对细粒度模型层的数据进行相关业务的拆分、汇总处理;中度汇总层用于根据系统应用需求将轻度汇总层的数据生成统计型数据。
步骤S103:将事实表与维度表同步至Hive工具;Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql(StructuredQuery Language,结构化查询语言)查询功能,可以将sql语句转换为MapReduce(用于大规模数据集的并行运算的编程模型)任务进行运行。
获取用户输入的目标指令,对目标指令进行解析生成查询指令,目标指令包括至少一个指标和至少一个维度,其中,目标指令即为用户想要查询分析的指标和维度,本发明提供的方法能够支持多指标和多维度同时查询。
可选的,可以预置多个指标和多个维度供用户选择,预置的多个指标包括:满分题量、零分题量、失分题量、考试题量等,预置的多个维度包括:城市、年级、学科、考试类别等,具体的指标和维度可根据具体的查询分析需求进行设置。
对目标指令的解析过程包括:
步骤S104:获取用户输入的至少一个指标和至少一个维度,并根据用户输入的指标与维度分别读取配置表,其中,配置表包括第一类配置表和第二类配置表,第一类配置表为指标与物理存储信息之间的映射关系表,第二类配置表为维度与物理存储信息之间的映射关系表,存储信息至少包括字段名称和表名。
每一张配置表中均包含多列的数据,表1为本发明实施例提供的第一类配置表的示意表,如表1所示的,当用户输入的指标包括满分题量这一指标时,读取如下的配置表能够确定满分题量的物理存储信息为:存储的表T_1中,存储的字段名称为T_1_C_1。第二类配置表与第一类配置表类似,在此不再举例说明。
表1为本发明实施例提供的第一类配置表的示意表
表名 | 字段名称 | 显示文字 |
T_1 | T_1_C_1 | 满分题量 |
T_1 | T_1_C_2 | 失分题量 |
T_1 | T_1_C_3 | 0分题量 |
T_1 | T_1_C_4 | 考试题量 |
步骤S105:根据读取配置表得到的物理存储信息结合主键形成关联关系,输出相应的sql语言,sql语言作为查询指令;其中,主键即为主关键字是表中的一个或多个字段,它的值用于唯一地标识表中的某一条记录。
根据用户输入的指标与维度分别读取配置表后,会得到各自对应的物理存储信息,然后将分别得到的物理存储信息拼成一个完成的物理存储信息,然后结合主键形成关联关系,输出相应的sql语言。
步骤S106:将查询指令发送至presto查询引擎;presto查询引擎能够实现快速的交互式分析。
步骤S107:presto查询引擎根据查询指令在Hive中的事实表与维度表中进行查询,得到查询分析结果。
比如用户选择了[满分题量]指标,[城市]维度,最终得到查询分析结果如下:
城市 | 满分题量 |
北京 | 500 |
上海 | 600 |
比如用户选择了[满分题量]指标,[城市]和[年级]维度,最终得到查询分析结果如下:
城市 | 年级 | 满分题量 |
北京 | 高一 | 100 |
北京 | 高二 | 300 |
北京 | 高三 | 100 |
上海 | 高一 | 200 |
上海 | 高二 | 150 |
上海 | 高三 | 250 |
可选的,教育数据包括结构化数据、半结构化数据和非结构化数据;本发明实施例中,步骤S102还包括:将半结构化数据和非结构化数据转化为结构化数据后,并对结构化数据进行消歧处理后抽取到数据仓库模型中。由于教育数据可能来自不同的数据源,所以有可能存在重复的数据属性,针对重复的数据属性,本发明能够进行消歧处理。另外,也有可能采集的部分教育数据的属性与本发明提供的查询分析目标无关,所以本发明能够针对此类无关数据属性进行剔除。上述消歧处理能够达到降低数据维度的效果,同时,也为后续的处理减少了数据量。
可选的,本发明提供的数据仓库模型中:学生主题包含学生基本信息,学生主题下的信息包括:学生编号、学生年龄、学生性别、学生生日、学生的变更记录、学生学校、学生年级、学生班级、学生联系方式中至少之一;学生的变更记录可以为升学年,升学段,转学等记录。教师主题包含教师基本信息和组织关系等,教师主题下的信息包括:教师的联系方式、从教时间、教授科目、教授的班级、班级学生明细中至少之一。考试主题包含考试信息,其中,作业练习、模拟考试、正式考试等都算作一次考试,或者也可以根据用户自定义的规则划分考试。考试主题下的信息包括:作业练习、模拟考试、期中考试、期末考试、试卷信息记录、参考数据记录至少之一;参考数据记录为参加考试的学生记录,比如参加考试的人参,缺考人数等。试题主题下的信息包括:试题与考试的对应关系、试题知识点信息;行为主题下的信息包括:教师出卷记录、教师阅卷记录、学生作答记录;流量主题下的信息包括:学生在教育软件或者教育网站上产生的所有行为日志、教师在教育软件或者教育网站上产生的所有行为日志。
本发明中的主题抽象了互联网教育的多种核心业务场景,当业务新增或变更时,可新增主题,或在主题内扩充业务表。本发明提供了良好的扩展性,可读性,与易用性。
比如,某教学软件中记录有数据一:学生编号、学生手机号。某教学系统中记录有数据二:学生编号、学生作答题号、本题得分。根据本发明中逻辑主题的划分,数据一将被分入学生主题中,数据二将被分入行为主题中。
本发明提供的数据仓库中,可选的,数据留存层有以下数据:
学生基本信息(学生ID,学生年龄,学生性别,学生生日……)
学生教育信息(学生ID,学生学校,学生年级,学生班级)
学生作答(学生编号,学生作答题号,本题得分)
……
上述数据将在细粒度模型层被合并处理为以下数据:
学生详情(学生ID,学生年龄,学生性别,学生生日,学生ID,学生学校,学生年级,学生班级)
学生作答(学生编号,学生作答题号,本题得分,本题所属知识点,是否是高考题…….)
然后轻度汇总层对来源于细粒度模型层的数据进行进一步处理,以缓解后续的计算压力,处理后的数据如下:
学生基本统计(学校,年级,班级,男生数,女生数,生日7月前生日数)
学生作答统计(学生ID,知识点,满分题量,失分题量,0分题量)
最后,中度汇总层对来源于轻度汇总层的数据进一步处理形成统计型数据。
其中,ID为编号、身份标识号或者账号。
可选的,图2为本发明实施例中查询分析的一种可选实施方式流程图,如图2所示,步骤S107:presto查询引擎根据查询指令在Hive中查询,得到查询分析结果,具体包括:
步骤S1071:presto查询引擎执行查询指令在Hive中查询,得到执行结果;
步骤S1072:将执行结果封装成数据集;
步骤S1073:根据数据集,展示相关的数据报表以及可视化图形内容,将相关的数据报表以及可视化图形内容作为查询分析结果。
该实施方式能够实现输出可视化的查询分析结果,能够将数据报表和可视化图形进行结合后进行直观展示,使得分析结果更加直观易懂。
可选的,本发明实施例提供的教育数据的查询分析方法,还包括权限验证过程,图3为本发明实施例提供的教育数据的查询分析方法中权限验证流程图。如图3所示,权限验证过程包括:
步骤301:接收用户输入的第一权限验证信息,第一权限验证信息包括账户名和密码;
步骤302:对第一权限验证信息进行验证,验证通过后生成第二权限验证信息,并将第二权限验证信息发送给用户的手机,第二权限验证信息为随机生成的数字验证码;
步骤303:接收用户输入的第二权限验证信息,并返回权限通知。
该实施方式中,需要对用户进行权限验证后,用户采用进行查询分析的操作,设置两次权限验证的方式能够提升安全性。
基于同一发明构思,本发明还提供一种教育数据的查询分析系统,图4为本发明实施例提供的教育数据的查询分析系统框图,如图4所示,包括:数据获取模块11、数据仓库模块12、查询分析模块13;其中,
数据获取模块11,与数据仓库模块12相连接,用于获取教育数据,并将教育数据发送给数据仓库模块12。可选的,教育数据包括结构化数据、半结构化数据和非结构化数据;数据获取模块11还用于将半结构化数据和非结构化数据转化为结构化数据后,并对结构化数据进行消歧处理后抽取到数据仓库模块12中。
数据仓库模块12,与查询分析模块13相连接,数据仓库模块12内构建有数据仓库模型,教育数据在数据仓库模型中生成不同主题下的事实表与维度表构成数据仓库,其中,数据仓库模型包括根据逻辑主题进行划分的至少六个主题模型,将多个主题模型依次经过数据留存层、细粒度模型层、轻度汇总层以及中度汇总层执行装载,构建数据仓库,主题至少包括学生主题、教师主题、考试主题、试题主题、行为主题和流量主题;
可选的,在教育数据仓库中:学生主题下的信息包括:学生编号、学生年龄、学生性别、学生生日、学生的变更记录、学生学校、学生年级、学生班级、学生联系方式中至少之一;教师主题下的信息包括:教师的联系方式、从教时间、教授科目、教授的班级、班级学生明细中至少之一;考试主题下的信息包括:作业练习、模拟考试、期中考试、期末考试、试卷信息记录、参考数据记录至少之一;试题主题下的信息包括:试题与考试的对应关系、试题知识点信息;行为主题下的信息包括:教师出卷记录、教师阅卷记录、学生作答记录;流量主题下的信息包括:学生在教育软件或者教育网站上产生的所有行为日志、教师在教育软件或者教育网站上产生的所有行为日志。
查询分析模块13包括:查询工具模块131,指令解析模块132,查询引擎模块133;
查询工具模块131内配置有Hive工具,Hive工具用于同步数据仓库模块12生成的事实表与维度表;
指令解析模块132用于获取用户输入的目标指令,并对目标指令进行解析生成查询指令,目标指令包括至少一个指标和至少一个维度,指令解析模块包括配置查询子模块1321和指令生成子模块1322,其中,配置查询子模块1321用于获取用户输入的至少一个指标和至少一个维度,并根据用户输入的指标与维度分别读取配置表,配置表包括第一类配置表和第二类配置表,第一类配置表为指标与物理存储信息之间的映射关系表,第二类配置表为维度与物理存储信息之间的映射关系表,存储信息至少包括字段名称和表名;指令生成子模块1322用于根据读取配置表得到的物理存储信息结合主键形成关联关系,输出相应的sql语言,sql语言作为查询指令,并将查询指令发送给查询引擎模块;
查询引擎模块133与查询工具模块131相连接,查询引擎模块133内配置有presto查询引擎,presto查询引擎用于根据查询指令在Hive中的事实表与维度表中进行查询,得到查询分析结果。
可选的,查询分析模块还包括可视化输出子模块;presto查询引擎执行查询指令在Hive中查询,得到执行结果,并将执行结果封装成数据集发送给可视化输出子模块;可视化输出子模块根据数据集,展示相关的数据报表以及可视化图形内容。该实施方式能够实现输出可视化的查询分析结果,能够将数据报表和可视化图形进行结合后进行直观展示,使得分析结果更加直观易懂。
可选的,本发明实施例提供的的查询分析系统,还包括权限验证模块,权限验证模块包括第一权限验证模块、第二权限验证模块和验证码生成模块;其中,
第一权限验证模块,用于接收用户输入的第一权限验证信息,并对第一权限验证信息进行验证,将通过验证的结果发送给验证码生成模块,其中,第一权限验证信息包括账户名和密码;
验证码生成模块接收通过验证的结果后生成第二权限验证信息,并将第二权限验证信息发送给用户的手机,第二权限验证信息为随机生成的数字验证码;
第二权限验证模块,用于接收用户输入的第二权限验证信息,并返回权限通知。
该实施方式中,需要对用户进行权限验证后,用户采用进行查询分析的操作,设置两次权限验证的方式能够提升安全性。
通过上述实施例可知,本发明提供的教育数据的查询分析方法及系统,至少实现了如下的有益效果:
采用本发明提供的教育数据的查询分析方法,根据互联网教育数据的特点,抽象出多个主题模型构建了教育数据仓库,不需要对多维数据的组合方式进行预计算,能够支持对教育数据进行多维度即时查询分析,适用各种频繁多变的分析场景。
虽然已经通过例子对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上例子仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。
Claims (9)
1.一种教育数据的查询分析方法,其特征在于,包括:
获取教育数据;
将所述教育数据抽取到数据仓库模型中,在所述数据仓库模型中生成不同主题下的事实表与维度表构成数据仓库,其中,所述数据仓库模型包括根据逻辑主题进行划分的至少六个主题模型,将所述主题模型依次经过数据留存层、细粒度模型层、轻度汇总层以及中度汇总层执行装载,构建所述数据仓库,所述主题至少包括学生主题、教师主题、考试主题、试题主题、行为主题和流量主题;
将所述事实表与所述维度表同步至Hive工具;
获取用户输入的目标指令,对所述目标指令进行解析生成查询指令,所述目标指令包括至少一个指标和至少一个维度,包括:
获取用户输入的至少一个指标和至少一个维度,并根据用户输入的指标与维度分别读取配置表,其中,所述配置表包括第一类配置表和第二类配置表,所述第一类配置表为指标与物理存储信息之间的映射关系表,所述第二类配置表为维度与物理存储信息之间的映射关系表,所述物理存储信息至少包括字段名称和表名;
根据读取所述配置表得到的物理存储信息结合主键形成关联关系,输出相应的sql语言,所述sql语言作为所述查询指令;
将所述查询指令发送至presto查询引擎;
presto查询引擎根据所述查询指令在Hive中的所述事实表与所述维度表中进行查询,得到查询分析结果。
2.根据权利要求1所述的教育数据的查询分析方法,其特征在于,
所述教育数据包括结构化数据、半结构化数据和非结构化数据;
将所述教育数据抽取到数据仓库模型中,包括:将半结构化数据和非结构化数据转化为结构化数据后,并对结构化数据进行消歧处理后抽取到数据仓库模型中。
3.根据权利要求1所述的教育数据的查询分析方法,其特征在于,
presto查询引擎根据所述查询指令在Hive中查询,得到查询分析结果,具体包括:
presto查询引擎执行所述查询指令在Hive中查询,得到执行结果;
将所述执行结果封装成数据集;
根据所述数据集,展示相关的数据报表以及可视化图形内容,将所述相关的数据报表以及所述可视化图形内容作为所述查询分析结果。
4.根据权利要求1所述的教育数据的查询分析方法,其特征在于,在所述教育数据仓库中:
所述学生主题下的信息包括:学生编号、学生年龄、学生性别、学生生日、学生的变更记录、学生学校、学生年级、学生班级、学生联系方式中至少之一;
所述教师主题下的信息包括:教师的联系方式、从教时间、教授科目、教授的班级、班级学生明细中至少之一;
所述考试主题下的信息包括:作业练习、模拟考试、期中考试、期末考试、试卷信息记录、参考数据记录至少之一;
所述试题主题下的信息包括:试题与考试的对应关系、试题知识点信息;
所述行为主题下的信息包括:教师出卷记录、教师阅卷记录、学生作答记录;
所述流量主题下的信息包括:学生在教育软件或者教育网站上产生的所有行为日志、教师在教育软件或者教育网站上产生的所有行为日志。
5.根据权利要求1所述的教育数据的查询分析方法,其特征在于,
获取用户输入的目标指令,对所述目标指令进行解析生成查询指令之前还包括:
接收用户输入的第一权限验证信息,所述第一权限验证信息包括账户名和密码;
对所述第一权限验证信息进行验证,验证通过后生成第二权限验证信息,并将所述第二权限验证信息发送给用户的手机,所述第二权限验证信息为随机生成的数字验证码;
接收用户输入的所述第二权限验证信息,并返回权限通知。
6.一种教育数据的查询分析系统,其特征在于,包括:数据获取模块、数据仓库模块、查询分析模块;其中,
所述数据获取模块,与所述数据仓库模块相连接,用于获取教育数据,并将所述教育数据发送给所述数据仓库模块;
所述数据仓库模块,与所述查询分析模块相连接,所述数据仓库模块内构建有数据仓库模型,所述教育数据在所述数据仓库模型中生成不同主题下的事实表与维度表构成数据仓库,其中,所述数据仓库模型包括根据逻辑主题进行划分的至少六个主题模型,将所述主题模型依次经过数据留存层、细粒度模型层、轻度汇总层以及中度汇总层执行装载,构建所述数据仓库,所述主题至少包括学生主题、教师主题、考试主题、试题主题、行为主题和流量主题;
所述查询分析模块包括:查询工具模块,指令解析模块,查询引擎模块;
所述查询工具模块内配置有Hive工具,Hive工具用于同步所述数据仓库模块生成的所述事实表与所述维度表;
所述指令解析模块用于获取用户输入的目标指令,并对所述目标指令进行解析生成查询指令,所述目标指令包括至少一个指标和至少一个维度,所述指令解析模块包括配置查询子模块和指令生成子模块,其中,
所述配置查询子模块用于获取用户输入的至少一个指标和至少一个维度,并根据用户输入的指标与维度分别读取配置表,所述配置表包括第一类配置表和第二类配置表,所述第一类配置表为指标与物理存储信息之间的映射关系表,所述第二类配置表为维度与物理存储信息之间的映射关系表,所述物理存储信息至少包括字段名称和表名;
所述指令生成子模块用于根据读取所述配置表得到的物理存储信息结合主键形成关联关系,输出相应的sql语言,所述sql语言作为所述查询指令,并将所述查询指令发送给所述查询引擎模块;
所述查询引擎模块与所述查询工具模块相连接,所述查询引擎模块内配置有presto查询引擎,presto查询引擎用于根据所述查询指令在Hive中的所述事实表与所述维度表中进行查询,得到查询分析结果。
7.根据权利要求6所述的查询分析系统,其特征在于,
所述教育数据包括结构化数据、半结构化数据和非结构化数据;
所述数据获取模块还用于将半结构化数据和非结构化数据转化为结构化数据后,并对结构化数据进行消歧处理后抽取到数据仓库模块中。
8.根据权利要求6所述的查询分析系统,其特征在于,
所述查询分析模块还包括可视化输出子模块;
presto查询引擎执行所述查询指令在Hive中查询,得到执行结果,并将所述执行结果封装成数据集发送给所述可视化输出子模块;
所述可视化输出子模块根据所述数据集,展示相关的数据报表以及可视化图形内容。
9.根据权利要求6所述的查询分析系统,其特征在于,还包括权限验证模块,所述权限验证模块包括第一权限验证模块、第二权限验证模块和验证码生成模块;其中,
所述第一权限验证模块,用于接收用户输入的第一权限验证信息,并对所述第一权限验证信息进行验证,将通过验证的结果发送给所述验证码生成模块,其中,所述第一权限验证信息包括账户名和密码;
所述验证码生成模块接收所述通过验证的结果后生成第二权限验证信息,并将所述第二权限验证信息发送给用户的手机,所述第二权限验证信息为随机生成的数字验证码;
所述第二权限验证模块,用于接收用户输入的所述第二权限验证信息,并返回权限通知。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910625930.9A CN110334122A (zh) | 2019-07-11 | 2019-07-11 | 教育数据的查询分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910625930.9A CN110334122A (zh) | 2019-07-11 | 2019-07-11 | 教育数据的查询分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110334122A true CN110334122A (zh) | 2019-10-15 |
Family
ID=68146469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910625930.9A Pending CN110334122A (zh) | 2019-07-11 | 2019-07-11 | 教育数据的查询分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334122A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111212030A (zh) * | 2019-12-11 | 2020-05-29 | 远光软件股份有限公司 | 一种结算信息实时共享系统及方法 |
CN111797124A (zh) * | 2020-07-17 | 2020-10-20 | 上海掌学教育科技有限公司 | 考情分析方法、装置、存储介质及系统 |
CN111831636A (zh) * | 2020-07-28 | 2020-10-27 | 平安国际融资租赁有限公司 | 一种数据处理方法、装置、计算机系统及可读存储介质 |
CN112598508A (zh) * | 2020-12-28 | 2021-04-02 | 中国农业银行股份有限公司 | 征信数据使用方法及系统 |
CN112650900A (zh) * | 2020-12-22 | 2021-04-13 | 贵州树精英教育科技有限责任公司 | 一种基于教育平台的数据管理及分析系统 |
CN112860711A (zh) * | 2021-03-18 | 2021-05-28 | 杭州云灵科技有限公司 | 数据储存方法及系统、数据查询方法及系统 |
CN113535752A (zh) * | 2021-07-12 | 2021-10-22 | 上海中通吉网络技术有限公司 | Presto查询引擎查询数据仓库Hive的方法 |
CN115544151A (zh) * | 2022-11-04 | 2022-12-30 | 五石炼成(上海)信息科技有限公司 | 一种基于证据的教育数据转化模型的构建方法及其系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070203892A1 (en) * | 2006-02-27 | 2007-08-30 | Business Objects, S.A. | Apparatus and method for using vertical hierarchies in conjuction with hybrid slowly changing dimension tables |
CN104123346A (zh) * | 2014-07-02 | 2014-10-29 | 广东电网公司信息中心 | 一种结构化数据搜索方法 |
CN106528787A (zh) * | 2016-11-09 | 2017-03-22 | 合网络技术(北京)有限公司 | 一种基于海量数据多维分析的查询方法及装置 |
CN108052542A (zh) * | 2017-11-22 | 2018-05-18 | 链家网(北京)科技有限公司 | 一种基于presto的数据的多维数据的分析方法 |
-
2019
- 2019-07-11 CN CN201910625930.9A patent/CN110334122A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070203892A1 (en) * | 2006-02-27 | 2007-08-30 | Business Objects, S.A. | Apparatus and method for using vertical hierarchies in conjuction with hybrid slowly changing dimension tables |
CN104123346A (zh) * | 2014-07-02 | 2014-10-29 | 广东电网公司信息中心 | 一种结构化数据搜索方法 |
CN106528787A (zh) * | 2016-11-09 | 2017-03-22 | 合网络技术(北京)有限公司 | 一种基于海量数据多维分析的查询方法及装置 |
CN108052542A (zh) * | 2017-11-22 | 2018-05-18 | 链家网(北京)科技有限公司 | 一种基于presto的数据的多维数据的分析方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111212030A (zh) * | 2019-12-11 | 2020-05-29 | 远光软件股份有限公司 | 一种结算信息实时共享系统及方法 |
CN111797124A (zh) * | 2020-07-17 | 2020-10-20 | 上海掌学教育科技有限公司 | 考情分析方法、装置、存储介质及系统 |
CN111831636A (zh) * | 2020-07-28 | 2020-10-27 | 平安国际融资租赁有限公司 | 一种数据处理方法、装置、计算机系统及可读存储介质 |
CN111831636B (zh) * | 2020-07-28 | 2024-07-09 | 平安国际融资租赁有限公司 | 一种数据处理方法、装置、计算机系统及可读存储介质 |
CN112650900A (zh) * | 2020-12-22 | 2021-04-13 | 贵州树精英教育科技有限责任公司 | 一种基于教育平台的数据管理及分析系统 |
CN112598508A (zh) * | 2020-12-28 | 2021-04-02 | 中国农业银行股份有限公司 | 征信数据使用方法及系统 |
CN112598508B (zh) * | 2020-12-28 | 2024-01-19 | 中国农业银行股份有限公司 | 征信数据使用方法及系统 |
CN112860711A (zh) * | 2021-03-18 | 2021-05-28 | 杭州云灵科技有限公司 | 数据储存方法及系统、数据查询方法及系统 |
CN113535752A (zh) * | 2021-07-12 | 2021-10-22 | 上海中通吉网络技术有限公司 | Presto查询引擎查询数据仓库Hive的方法 |
CN115544151A (zh) * | 2022-11-04 | 2022-12-30 | 五石炼成(上海)信息科技有限公司 | 一种基于证据的教育数据转化模型的构建方法及其系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334122A (zh) | 教育数据的查询分析方法及系统 | |
CN109360550B (zh) | 语音交互系统的测试方法、装置、设备和存储介质 | |
Paulheim | Generating possible interpretations for statistics from linked open data | |
CN110334088A (zh) | 教育数据管理系统 | |
US11861320B1 (en) | Text reduction and analysis interface to a text generation modeling system | |
Jacsó | Using Google Scholar for journal impact factors and the h‐index in nationwide publishing assessments in academia–siren songs and air‐raid sirens | |
CN101872349A (zh) | 处理自然语言问题的方法和装置 | |
WO2024182039A1 (en) | Natural language database generation and query system | |
CN109637238B (zh) | 一种练习题的生成方法、装置、设备和存储介质 | |
CN105447080A (zh) | 一种社区问答搜索中的查询补全方法 | |
Brown et al. | Librarian's guide to online searching: Cultivating database skills for research and instruction | |
CN112330510A (zh) | 一种志愿推荐方法、装置、服务器及计算机可读存储介质 | |
CN109542891B (zh) | 数据融合方法及计算机存储介质 | |
CN117312509A (zh) | 一种海量信息下基于大语言模型的知识库问答方法及装置 | |
Condon et al. | Personality trait descriptors: 2,818 trait descriptive adjectives characterized by familiarity, frequency of use, and prior use in psycholexical research | |
Kothyari et al. | CRUSH4SQL: Collective retrieval using schema hallucination for Text2SQL | |
JP6942759B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
CN105787099A (zh) | 一种获取学习资料的方法及装置 | |
CN117313683A (zh) | 元数据处理方法、装置、服务器及存储介质 | |
Anthony | Introducing fireant: A freeware, multiplatform social media data-analysis tool | |
Shanmukhaa et al. | Retracted: Construction of Knowledge Graphs for video lectures | |
Gallagher et al. | A far cry from school history: massive online open courses as a generative source for historical research | |
CN115757720A (zh) | 基于知识图谱的项目信息搜索方法、装置、设备和介质 | |
US20210279605A1 (en) | Efficiently generating accurate responses to a multi-facet question by a question answering system | |
CN112597772A (zh) | 一种热点信息确定方法、计算机设备以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |