CN110059117A - 一种教学大数据的分析处理方法及装置 - Google Patents
一种教学大数据的分析处理方法及装置 Download PDFInfo
- Publication number
- CN110059117A CN110059117A CN201910322950.9A CN201910322950A CN110059117A CN 110059117 A CN110059117 A CN 110059117A CN 201910322950 A CN201910322950 A CN 201910322950A CN 110059117 A CN110059117 A CN 110059117A
- Authority
- CN
- China
- Prior art keywords
- data
- teaching
- analysis
- structured
- semi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 85
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 239000000284 extract Substances 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 238000000556 factor analysis Methods 0.000 claims description 10
- 238000007405 data analysis Methods 0.000 claims description 8
- 230000006399 behavior Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 230000001052 transient effect Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 30
- 238000010586 diagram Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000035484 reaction time Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种教学大数据的分析处理方法及装置,方法包括:获取各区域服务器中的结构化教学数据和半结构化日志文件;对半结构化日志文件进行解析,提取半结构化日志文件中的实体关系,并根据实体关系将半结构化日志文件转换为结构化特征数据;根据所述结构化教学数据和所述结构化特征数据建立分析模型,并根据所述分析模型进行教学大数据的分析。通过获取各区域服务器中的结构化教学数据和半结构化日志文件,数据来源较为广泛;通过对半结构化日志文件解析为结构化特征数据,使得数据结构一致,方便建立分析模型,实现教学大数据的科学建模和分析,能够对学生学习的各个方面进行监测、评价和诊断,指导教师不断调整为更好的教学方式。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种教学大数据的分析处理方法及装置。
背景技术
近年来,随着人工智能、移动互联网和物联网的兴起,大数据越变越大,也带来无限想象力和商业应用价值。与此同时,我国大数据也发展迅猛,技术创新取得明显突破,大数据应用推进势头良好,产业体系初具雏形,支撑能力日益增强。无论是从研究范式、技术应用,还是实践案例都在快速发展之中。作为大数据的细分领域,教育大数据具有推动教育变革的巨大潜力,其正在成为教育领域不可忽视的新型驱动力,在教育教学研究与实践中发挥着越来越重要的作用。
教育大数据有非常激动人心的应用场景,比如学生数字画像,学科知识图谱的建立和使用,学生自主学习路径的规划,学习资源的智能推荐等等。在我国教育领域中,各大企业都开始对教育数据的分析与应用展开探索。但总体而言,目前,我国教育大数据相关应用主要聚焦于适应性教学,题库类产品居多,缺乏管理类的应用,对于教学决策的支持不足,在在功能上较为单一。上述教育大数据的应用场景都离不开不同数据模型的支持。目前教育行业在数据建模和分析方面,所采用的数据建模与分析方法也有一定局限,统计分析仍占有很大的比重,缺乏高水平产品与服务。
综上,现有技术的问题在于:一、数据来源比较窄,当前数据主要来源为数字化校园系统产生的,而更为宝贵的课堂教学数据则通常是缺失的,这通常依赖于PAD互动课堂教学应用的常态化应用;二、没有形成数据中心,各个内部系统数据互相不通,数据结构也不一样;三、缺乏领域专家知识,无法实现科学的建模和分析。
发明内容
由于现有方法存在上述问题,本发明实施例提出一种教学大数据的分析处理方法及装置。
第一方面,本发明实施例提出一种教学大数据的分析处理方法,包括:
获取各区域服务器中的结构化教学数据和半结构化日志文件;
对所述半结构化日志文件进行解析,提取所述半结构化日志文件中的实体关系,并根据所述实体关系将所述半结构化日志文件转换为结构化特征数据;
根据所述结构化教学数据和所述结构化特征数据建立分析模型,并根据所述分析模型进行教学大数据的分析。
第二方面,本发明实施例还提出一种教学大数据的分析处理装置,包括:
数据获取模块,用于获取各区域服务器中的结构化教学数据和半结构化日志文件;
文件解析模块,用于对所述半结构化日志文件进行解析,提取所述半结构化日志文件中的实体关系,并根据所述实体关系将所述半结构化日志文件转换为结构化特征数据;
模型建立模块,用于根据所述结构化教学数据和所述结构化特征数据建立分析模型,并根据所述分析模型进行教学大数据的分析。
第三方面,本发明实施例还提出一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述方法。
第四方面,本发明实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述方法。
由上述技术方案可知,本发明实施例通过获取各区域服务器中的结构化教学数据和半结构化日志文件,数据来源较为广泛;通过对半结构化日志文件解析为结构化特征数据,使得数据结构一致,方便建立分析模型,实现教学大数据的科学建模和分析,能够对学生学习的各个方面进行监测、评价和诊断,指导教师不断调整为更好的教学方式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明一实施例提供的一种教学大数据的分析处理方法的流程示意图;
图2为本发明另一实施例提供的一种教学大数据的分析处理方法的流程示意图;
图3为本发明一实施例提供的一种教学大数据的分析处理装置的结构示意图;
图4为本发明一实施例提供的电子设备的逻辑框图。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
图1示出了本实施例提供的一种教学大数据的分析处理方法的流程示意图,包括:
S101、获取各区域服务器中的结构化教学数据和半结构化日志文件。
其中,所述区域服务器用于存储教学数据和教学过程中的日志文件。本实施例中包括多个区域服务器,如图2所示的区域服务器1、区域服务器2等。
教学数据存储在区域服务器的区域教学数据库中,由于教学数据为结构化数据,因此本实施例中称为结构化教学数据。
日志文件存储在区域服务器中,由于日志文件为半结构化数据,因此本实施例中称为半结构化日志文件。
举例来说,日志文件中存储了各种上课行为数据,例如学生的浏览行为、点赞行为等,教学数据包括答题情况、测试成绩等。以互动课堂教学大数据为基础,核心数据规模如下表所示:
S102、对所述半结构化日志文件进行解析,提取所述半结构化日志文件中的实体关系,并根据所述实体关系将所述半结构化日志文件转换为结构化特征数据。
具体地,由于日志文件为半结构化数据,无法直接进行建模,因此需要将其转换为结构化数据,通过提取所述半结构化日志文件中的实体关系,并依据该实体关系对日志文件进行处理,将其转换为结构化特征数据。
S103、根据所述结构化教学数据和所述结构化特征数据建立分析模型,并根据所述分析模型进行教学大数据的分析。
其中,所述分析模型包括学生成绩因子分析模型、学生成绩预测模型、学习情况分析模型和学生分类模型,如图2所示。
本实施例通过获取各区域服务器中的结构化教学数据和半结构化日志文件,数据来源较为广泛;通过对半结构化日志文件解析为结构化特征数据,使得数据结构一致,方便建立分析模型,实现教学大数据的科学建模和分析,能够对学生学习的各个方面进行监测、评价和诊断,指导教师不断调整为更好的教学方式。
进一步地,在上述方法实施例的基础上,S101具体包括:
采用Spark ETL加增量拉取的方式获取各区域服务器中的结构化教学数据,采用Rsync获取各区域服务器中的半结构化日志文件。
其中,所述Spark ETL(Spark Extract-Transform-Load,内存计算框架,提取-转换-加载)是一个对数据进行批处理的过程,一个Spark ETL程序就是一个批处理脚本,执行时能将一堆数据转化成需要的形式。
Rsync是linux系统下的数据镜像备份工具,使用该快速增量备份工具可以远程同步,支持本地复制,或者与其他主机同步。
通过Spark ETL加增量拉取的方式和Rsync能够方便快速地获取各区域服务器中的结构化教学数据和半结构化日志文件。
进一步地,在上述方法实施例的基础上,S103之前,还包括:
S1023、对所述结构化教学数据进行数据清洗,过滤所述结构化教学数据中的非法数据,补全所述结构化教学数据中的缺失信息,得到清洗后的结构化教学数据,并对所述清洗后的结构化教学数据进行特征提取和降维处理。
具体地,在进行数据清洗时,首先需要过滤非法数据,比如对于不满足有效课时条件的数据进行删除的过滤;还需要进行信息补全,对于某些关键数据的缺失进行预测,例如课时结束时间,某些情况下,如果老师在下课后没有手动点击PAD教学软件的下课,那么就要对下课时间进行补全。例如,上课时长服从正态分布,采用均值为μ作为上课时长的极大似然估计。
在特征提取时,可以采用LDA(Latent Dirichlet Allocation,文档主题生成模型,也称为三层贝叶斯概率模型)和PCA(principal Component Analysis,主成分分析方法)相结合的方法进行特征提取。
另外,针对源数据集中线性相关的一些特征,比如成绩、区分度、难易度等进行降维处理,以更方便地建立模型。
本实施例依托海量常态化互动课堂教学大数据,在对数据处理,特征提取基础上,包括数据预处理,特征提取,模型建立和模型验证,从适应性教学、教育规律发现和精准管理支持的角度,提出了一种互动教学数据建模的系统方法,有效地支撑了教学应用分析和教学质量分析等上层应用的搭建,能够很好的服务老师的教学和学生的学习,能指导老师进行教学策略分析和教学质量分析。
进一步地,在上述方法实施例的基础上,S102具体包括:
对所述半结构化日志文件进行解析,提取所述半结构化日志文件中的实体关系,并根据所述实体关系构建带权重的无向图,得到无向图表示的结构化特征数据。
其中,所述无向图的节点的权重表示学生课堂行为的力度。
具体地,针对半结构化日志文件进行解析,提取实体关系。例如学生A评论了学生B,学生B浏览了学生C。通过算法构建一个带权重的无向图,节点之间的权重表征学生课堂行为的力度。通过谱聚类算法对该无向图进行处理,可以将班级学生分成不同的小组,方便后续进行专家判断,同时可以知道老师进行教学安排。
进一步地,在上述方法实施例的基础上,S103具体包括:
S1031、根据所述结构化教学数据建立学生成绩因子分析模型、学生成绩预测模型和学习情况分析模型,根据所述结构化特征数据建立学生分类模型。
S1032、根据所述学生成绩因子分析模型、所述学生成绩预测模型、所述学习情况分析模型和所述学生分类模型进行教学大数据的分析。
具体来说,如图2所示为本实施例提出的教学大数据的分析处理方法,具体包括以下步骤:
A1、数据收集,课堂教学的数据和日志文件存在于不同的区域服务器上,其中结构化的数据保存在MySQL中,PAD教学的日志文件存在于服务器文件系统中。
A2、针对半结构化数据,进行解析,提取实体和关系,通过算法构建一个带权重的无向图,节点之间的权重表征学生课堂行为的力度;并通过谱聚类算法,将班级学生分成不同的小组,基于社交网络建立学生分类模型。
A3、对于结构化的离线数据,首先要进行数据清洗:过滤非法数据,比如对于不满足有效课时条件的数据进行删除的过滤;信息补全,对于某些关键数据的缺失进行预测;然后采用LDA和PCA相结合的方法进行特征提取。
A4、基于特征提取的结果,可以构建学生成绩因子分析模型、学生成绩预测模型和学习情况分析模型:
学生成绩因子分析模型,数据特征包括测试成绩(标准分)、答题时长、测试学生、查看解析时长、查看解析次数、课堂提问次数、浏览/被浏览次数、点赞/被点赞次数、评论/被评论次数、重复提交次数、自主练题次数、查看资源数和查看资源时长等。设定最小支持度和最小可信度,可以采用Apriori算法进行强关联规则挖掘。经评测发现该学生成绩因子分析模型能有效发现影响成绩的范式,例如查看解析次数越多,查看解析时长越长,则成绩通常越好,说明自主学习能力强的学生一般都成绩很好。
学生成绩预测模型,数据特性与学生成绩因子分析模型相同,首先对数据的各个特征进行标准化和归一化,由于学生学习都是循序渐进的过程,可以认为t时刻的成绩会受到t时刻之前成绩时间序列的影响。这里采用IndRNN(Independently Recurrent NeuralNetwork,独立循环神经网络)模型进行建模和训练,采用relu作为激活函数,通过调节基于时间的梯度反向传播,避免了梯度消失和梯度爆炸问题。模型验证中,将数据集按照8:2的比例拆分,百分之八十用来训练模型,百分之二十用来预测,采用交叉验证的方法进行检验,最终成绩预测准确率可达93%以上。
学习情况分析模型,可以采用K-means对数据特征中的成绩和平均答题时间进行聚类分析。调整簇的数量为4,最终得到如下学生学习的分类特征包括:1.优秀型(成绩高,答题所用时间短);2.勤能补拙型(成绩高,答题所用时间长);3.毛躁马虎型(成绩低,答题所用时间短);4.学习困难性(成绩低,答题所用时间长)。
采用LDA和PCA相结合的方法进行特征提取,采用Apriori算法对影响学生成绩的一系列相关因素进行分析,找出最相关的因素来指导教学,采用IndRNN模型对学生的成绩进行预测,以及对成绩变化趋势进行分析和诊断,采用K-Means聚类算法来对学生按照学习情况进行聚类分析,找出不同小组的特征,可以指导教学更具有针对性和精准性。
本实施例通过对教学环节中产生的结构化、半结构化的数据进行清洗,针对学生的社交网络分析,成绩相关因子分析,成绩预测以及学习情况分析建立不同的模型,有效地建立了学生画像,对学生学习的各个方面进行监测、评价和诊断。
图3示出了本实施例提供的一种教学大数据的分析处理装置的结构示意图,所述装置包括:数据获取模块301、文件解析模块302和模型建立模块303,其中:
所述数据获取模块301用于获取各区域服务器中的结构化教学数据和半结构化日志文件;
所述文件解析模块302用于对所述半结构化日志文件进行解析,提取所述半结构化日志文件中的实体关系,并根据所述实体关系将所述半结构化日志文件转换为结构化特征数据;
所述模型建立模块303用于根据所述结构化教学数据和所述结构化特征数据建立分析模型,并根据所述分析模型进行教学大数据的分析。
具体地,所述数据获取模块301获取各区域服务器中的结构化教学数据和半结构化日志文件;所述文件解析模块302对所述半结构化日志文件进行解析,提取所述半结构化日志文件中的实体关系,并根据所述实体关系将所述半结构化日志文件转换为结构化特征数据;所述模型建立模块303根据所述结构化教学数据和所述结构化特征数据建立分析模型,并根据所述分析模型进行教学大数据的分析。
本实施例通过获取各区域服务器中的结构化教学数据和半结构化日志文件,数据来源较为广泛;通过对半结构化日志文件解析为结构化特征数据,使得数据结构一致,方便建立分析模型,实现教学大数据的科学建模和分析,能够对学生学习的各个方面进行监测、评价和诊断,指导教师不断调整为更好的教学方式。
进一步地,在上述装置实施例的基础上,所述数据获取模块301具体用于采用内存计算框架Spark ETL加增量拉取的方式获取各区域服务器中的结构化教学数据,采用数据镜像备份工具Rsync获取各区域服务器中的半结构化日志文件。
进一步地,在上述装置实施例的基础上,所述教学大数据的分析处理装置还包括:
数据清洗模块,用于对所述结构化教学数据进行数据清洗,过滤所述结构化教学数据中的非法数据,补全所述结构化教学数据中的缺失信息,得到清洗后的结构化教学数据,并对所述清洗后的结构化教学数据进行特征提取和降维处理。
进一步地,在上述装置实施例的基础上,所述文件解析模块302具体用于对所述半结构化日志文件进行解析,提取所述半结构化日志文件中的实体关系,并根据所述实体关系构建带权重的无向图,得到无向图表示的结构化特征数据;
其中,所述无向图的节点的权重表示学生课堂行为的力度。
进一步地,在上述方法实施例的基础上,所述模型建立模块具体用于:
根据所述结构化教学数据建立学生成绩因子分析模型、学生成绩预测模型和学习情况分析模型,根据所述结构化特征数据建立学生分类模型;
根据所述学生成绩因子分析模型、所述学生成绩预测模型、所述学习情况分析模型和所述学生分类模型进行教学大数据的分析。
本实施例所述的教学大数据的分析处理装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
参照图4,所述电子设备,包括:处理器(processor)401、存储器(memory)402和总线403;
其中,
所述处理器401和存储器402通过所述总线403完成相互间的通信;
所述处理器401用于调用所述存储器402中的程序指令,以执行上述各方法实施例所提供的方法。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种教学大数据的分析处理方法,其特征在于,包括:
获取各区域服务器中的结构化教学数据和半结构化日志文件;
对所述半结构化日志文件进行解析,提取所述半结构化日志文件中的实体关系,并根据所述实体关系将所述半结构化日志文件转换为结构化特征数据;
根据所述结构化教学数据和所述结构化特征数据建立分析模型,并根据所述分析模型进行教学大数据的分析。
2.根据权利要求1所述的教学大数据的分析处理方法,其特征在于,所述获取各区域服务器中的结构化教学数据和半结构化日志文件,具体包括:
采用内存计算框架Spark ETL加增量拉取的方式获取各区域服务器中的结构化教学数据,采用数据镜像备份工具Rsync获取各区域服务器中的半结构化日志文件。
3.根据权利要求1所述的教学大数据的分析处理方法,其特征在于,所述根据所述结构化教学数据和所述结构化特征数据建立分析模型,并根据所述分析模型进行教学大数据的分析之前,还包括:
对所述结构化教学数据进行数据清洗,过滤所述结构化教学数据中的非法数据,补全所述结构化教学数据中的缺失信息,得到清洗后的结构化教学数据,并对所述清洗后的结构化教学数据进行特征提取和降维处理。
4.根据权利要求1所述的教学大数据的分析处理方法,其特征在于,所述对所述半结构化日志文件进行解析,提取所述半结构化日志文件中的实体关系,并根据所述实体关系将所述半结构化日志文件转换为结构化特征数据,具体包括:
对所述半结构化日志文件进行解析,提取所述半结构化日志文件中的实体关系,并根据所述实体关系构建带权重的无向图,得到无向图表示的结构化特征数据;
其中,所述无向图的节点的权重表示学生课堂行为的力度。
5.根据权利要求1-4任一项所述的教学大数据的分析处理方法,其特征在于,所述根据所述结构化教学数据和所述结构化特征数据建立分析模型,并根据所述分析模型进行教学大数据的分析,具体包括:
根据所述结构化教学数据建立学生成绩因子分析模型、学生成绩预测模型和学习情况分析模型,根据所述结构化特征数据建立学生分类模型;
根据所述学生成绩因子分析模型、所述学生成绩预测模型、所述学习情况分析模型和所述学生分类模型进行教学大数据的分析。
6.一种教学大数据的分析处理装置,其特征在于,包括:
数据获取模块,用于获取各区域服务器中的结构化教学数据和半结构化日志文件;
文件解析模块,用于对所述半结构化日志文件进行解析,提取所述半结构化日志文件中的实体关系,并根据所述实体关系将所述半结构化日志文件转换为结构化特征数据;
模型建立模块,用于根据所述结构化教学数据和所述结构化特征数据建立分析模型,并根据所述分析模型进行教学大数据的分析。
7.根据权利要求6所述的教学大数据的分析处理装置,其特征在于,所述数据获取模块具体用于采用内存计算框架Spark ETL加增量拉取的方式获取各区域服务器中的结构化教学数据,采用数据镜像备份工具Rsync获取各区域服务器中的半结构化日志文件。
8.根据权利要求6所述的教学大数据的分析处理装置,其特征在于,所述教学大数据的分析处理装置还包括:
数据清洗模块,用于对所述结构化教学数据进行数据清洗,过滤所述结构化教学数据中的非法数据,补全所述结构化教学数据中的缺失信息,得到清洗后的结构化教学数据,并对所述清洗后的结构化教学数据进行特征提取和降维处理。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一所述的教学大数据的分析处理方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一所述的教学大数据的分析处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910322950.9A CN110059117A (zh) | 2019-04-22 | 2019-04-22 | 一种教学大数据的分析处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910322950.9A CN110059117A (zh) | 2019-04-22 | 2019-04-22 | 一种教学大数据的分析处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110059117A true CN110059117A (zh) | 2019-07-26 |
Family
ID=67319972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910322950.9A Pending CN110059117A (zh) | 2019-04-22 | 2019-04-22 | 一种教学大数据的分析处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110059117A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112925775A (zh) * | 2021-02-07 | 2021-06-08 | 浙江免编码科技有限公司 | 一种大数据清洗与分析系统 |
CN112990848A (zh) * | 2021-02-05 | 2021-06-18 | 太原太工天宇教育科技有限公司 | 一种基于大数据的课堂教学分析评测系统以及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120041901A1 (en) * | 2007-10-19 | 2012-02-16 | Quantum Intelligence, Inc. | System and Method for Knowledge Pattern Search from Networked Agents |
CN106777970A (zh) * | 2016-12-15 | 2017-05-31 | 北京锐软科技股份有限公司 | 一种医疗信息系统数据模板化的集成系统及方法 |
CN108132989A (zh) * | 2017-12-15 | 2018-06-08 | 华中师范大学 | 一种基于教育大数据的分布式系统 |
-
2019
- 2019-04-22 CN CN201910322950.9A patent/CN110059117A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120041901A1 (en) * | 2007-10-19 | 2012-02-16 | Quantum Intelligence, Inc. | System and Method for Knowledge Pattern Search from Networked Agents |
CN106777970A (zh) * | 2016-12-15 | 2017-05-31 | 北京锐软科技股份有限公司 | 一种医疗信息系统数据模板化的集成系统及方法 |
CN108132989A (zh) * | 2017-12-15 | 2018-06-08 | 华中师范大学 | 一种基于教育大数据的分布式系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990848A (zh) * | 2021-02-05 | 2021-06-18 | 太原太工天宇教育科技有限公司 | 一种基于大数据的课堂教学分析评测系统以及方法 |
CN112925775A (zh) * | 2021-02-07 | 2021-06-08 | 浙江免编码科技有限公司 | 一种大数据清洗与分析系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111602148B (zh) | 正则化神经网络架构搜索 | |
CN113407694B (zh) | 客服机器人知识库歧义检测方法、装置及相关设备 | |
CN113139628B (zh) | 样本图像的识别方法、装置、设备及可读存储介质 | |
US11423307B2 (en) | Taxonomy construction via graph-based cross-domain knowledge transfer | |
US20180336792A1 (en) | Method, apparatus, and computer program for operating machine-learning framework | |
Pardos et al. | Imputing KCs with representations of problem content and context | |
CN110516697A (zh) | 基于证据图聚合与推理的声明验证方法及系统 | |
JP2021119397A (ja) | データを分析する方法、装置、及びコンピュータプログラム | |
CN110134777A (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN110059117A (zh) | 一种教学大数据的分析处理方法及装置 | |
CN111200607B (zh) | 一种基于多层lstm的线上用户行为分析方法 | |
CN113239143B (zh) | 融合电网故障案例库的输变电设备故障处理方法及系统 | |
Priyadarshini et al. | Artificial intelligence: applications and innovations | |
CN114048024A (zh) | 任务部署方法、装置、设备、存储介质及产品 | |
Gao et al. | On the variability of software engineering needs for deep learning: Stages, trends, and application types | |
Fezari et al. | Augmanting Reality: The Power of Generative AI | |
Kumar et al. | Spectral clustering algorithm based web mining and quadratic support vector machine for learning style prediction in E-learning platform | |
CN116662527A (zh) | 用于生成学习资源的方法及相关产品 | |
CN109657710A (zh) | 数据筛选方法、装置、服务器及存储介质 | |
KR102411906B1 (ko) | 목표 학과 및 교과 성취기준 기반의 탐구활동 컨설팅 방법 | |
Stirrup et al. | Advanced Analytics with R and Tableau | |
CN115293275A (zh) | 数据识别方法、装置、电子设备和存储介质 | |
CN114896294A (zh) | 产品测试数据表生成方法、装置、设备及存储介质 | |
CN115116548A (zh) | 数据处理方法、装置、计算机设备、介质及程序产品 | |
KR102187586B1 (ko) | 신약 후보 물질 발굴을 위한 데이터 처리 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190726 |