CN108132989A

CN108132989A - 一种基于教育大数据的分布式系统

Info

Publication number: CN108132989A
Application number: CN201711372588.3A
Authority: CN
Inventors: 张�浩; 黄涛; 刘三女牙; 杨华利; 李永丹; 张文君
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University; Central China Normal University
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-06-08

Abstract

本发明涉及一种基于教育大数据的分布式系统，属于数据处理技术领域。该分布式系统包括：至少一个部署于一学校的节点子系统和与至少一个节点子系统连接的区域服务器。区域服务器包括：第一存储器、第一处理器以及处理模块。处理模块存储于第一存储器中并包含一个或多个由第一处理器执行的软件功能模组。其中，节点子系统部署在本辖区的高校内，用于采集该校区内的教育数据；区域服务器用于对各个节点子系统采集的数据进行整理、分析，并根据分析的结果有针对性的提供服务，以便改善本辖区内的教学质量和教学效率，达到事半功倍的效果。

Description

一种基于教育大数据的分布式系统

技术领域

本发明属于数据处理技术领域，具体涉及一种基于教育大数据的分布式系统。

背景技术

随着科技的发展，物联网技术逐渐成为当前热门话题之一，众多国际知名企业纷纷投入到物联网技术的研究中。与此同时，伴随着电子技术与无线通信技术的快速发展，“智能家居”、“智慧教室”、“智慧城市”等概念也分别涌现，这也成为了科技发展的趋势。现有的智慧教室应用系统是一种构架在整个校园网上的分布式系统，各个分散的网关设备和集中部署的应用服务器之间采用基于物联网技术的三层架构设计，包括感知层、传输层和应用层。目前关于教育大数据的研究与应用还处于开始阶段，采集的数据主要是一个课堂或者扩展为一个学校的范围，没有覆盖到一个片区的范围，数据采集覆盖面窄，表现为获取到的数据不够全面，以致于无法通过数据分析进行教育决策，实现有限的教育资源在各级各类教育之间、各地区之间和各学校之间进行分配，使投入的教育资源得到充分有效的使用。

发明内容

鉴于此，本发明的目的在于提供一种基于教育大数据的分布式系统，以有效地改善上述问题。

本发明的实施例是这样实现的：

本发明实施例提供了一种基于教育大数据的分布式系统，包括：至少一个部署于一学校的节点子系统和与至少一个所述节点子系统连接的区域服务器。所述区域服务器包括：第一存储器、第一处理器以及处理模块，所述处理模块存储于所述第一存储器中并包含一个或多个由所述第一处理器执行的软件功能模组。所述处理模块包括：第一获取子模块，用于获取所述至少一个所述节点子系统采集的第一数据；第一判断子模块，用于判断所述第一数据是否经过清洗；第一分类子模块，在为是时，用于对第一数据进行分类，得到第一分类数据；第一保存子模块，用于将所述第一分类数据存储到与所述第一分类数据相对应的第一数据库；第一提取子模块，在需要对存储于所述第一数据库中的第一数据进行分析时，用于从所述第一数据中提取第一特征量；第一分析子模块，用于基于所述第一特征量和第一预设数据分析模型获得第一分析结果；发送子模块，用于基于所述第一分析结果，将与所述第一分析结果相对应的第一特定信息发送至相对应的所述节点子系统。

在本发明较佳的实施例中，所述处理模块还包括：第一清洗子模块，在获取到的所述第一数据没有进行清洗时，用于按照预设标准格式对获取到的第一数据进行清洗，过滤掉冗余信息。

在本发明较佳的实施例中，所述处理模块还包括：第二判断子模块，用于判断清洗后的第一数据的格式是否与所述预设标准格式一致，若一致，则执行所述对清洗后的第一数据进行分类，得到第一分类数据的步骤，若不一致，则执行所述按照预设标准格式对获取到的第一数据进行清洗，过滤掉冗余信息的步骤。

在本发明较佳的实施例中，所述第一分类子模块包括：第一识别单元用于对清洗后的第一数据的类型进行识别；第一分类单元，用于将识别出的类型打上分类标签，得到第一分类数据。

在本发明较佳的实施例中，所述处理模块还包括：第一建模子模块，用于基于第一预设规则和第一样本构建所述第一预设数据分析模型。

在本发明较佳的实施例中，每个所述节点子系统包括：至少一套采集设备、与所述至少一套采集设备连接的分析设备和与所述分析设备连接的服务设备；所述分析设备包括：第二存储器、第二处理器以及分析模块，所述分析模块存储于所述第二存储器中并包含一个或多个由所述第二处理器执行的软件功能模组，所述分析模块包括：第二获取子模块，用于获取所述至少一套采集设备所采集的第二数据；第二清洗子模块，用于对获取到的所述第二数据进行清洗，过滤掉冗余信息；第二分类子模块，对清洗后的第二数据进行分类，得到第二分类数据；第二保存子模块，用于将所述第二分类数据存储到与所述第二分类数据相对应的第二数据库；第二提取子模块，在需要对存储于所述第二数据库中的第二数据进行分析时，用于从所述第二数据中提取第二特征量；第二分析子模块，用于基于所述第二特征量和第二预设数据分析模型获得第二分析结果，以使所述服务设备基于所述第二分析结果，将与所述第二分析结果相对应的第二特定信息发送至预设终端设备。

在本发明较佳的实施例中，所述第二分类子模块包括：第二识别单元，用于对清洗后的第二数据的类型进行识别；第二分类单元，用于将识别出的类型打上分类标签，得到第二分类数据。

在本发明较佳的实施例中，所述分析模块还包括：第二建模子模块，用于基于第二预设规则和第二样本构建所述第二预设数据分析模型。

在本发明较佳的实施例中，所述第二样本为课程的学生成绩分析数据表，所述第二预设规则为决策树算法，所述第二建模子模块包括：获取单元，用于获取所述学生成绩分析数据表中的每个属性的信息增益率，共至少一个信息增益率；划分单元，用于从所述至少一个信息增益率中选取最大信息增益率对应的属性作为根节点，并按其值划分数据集合，获得至少两个子数据集；递归单元，用于使所述获取单元对每个子数据集执行步骤所述获取所述学生成绩分析数据表中的每个属性的信息增益率，共至少一个信息增益率；以及使所述划分单元对每个子数据集执行步骤从所述至少一个信息增益率中选取最大信息增益率对应的属性作为根节点，并按其值划分数据集合，获得至少两个子数据集，以构建学生成绩预测的第一决策树模型。

在本发明较佳的实施例中，所述第二样本为课程的学生活动基本数据表，所述第二预设规则为聚类分析算法，所述第二建模子模块包括：选取单元，用于将所述学生活动基本数据表中每个维度系数映射为多维空间的点，获得至少三个点，从所述至少三个点中随机选取3个聚类质心点；第一计算单元，用于计算每个点到每个所述聚类质心点的欧氏距离，并按照预设规则对每个点进行分类，获得三个类别；第二计算单元，用于将每个类别中的所有对象所对应的均值作为每个类别的聚类中心，计算与每个类别的聚类中心对应的目标函数的值；判断单元，用于判断每个聚类中心和与之相对应的目标函数的值是否发生改变，若改变，则执行步骤所述计算每个点到每个所述聚类质心点的欧氏距离，并按照预设规则对每个点进行分类，获得三个类别，以构建学生相似度划分的相似度分析模型。

本发明实施例提供的基于教育大数据的分布式系统，包括：至少一个部署于一学校的节点子系统和与至少一个所述节点子系统连接的区域服务器。区域服务器在获取到至少一个节点子系统采集的第一数据后，首先判断该第一数据是否经过清洗过，若该数据已经经过处理时，则将其存储到与之相对应的第一数据库，以便统一进行管理，在需要对存储于所述第一数据库中的第一数据进行分析时，从第一数据中提取第一特征量，并基于提取到的第一特征量和第一预设数据分析模型获得第一分析结果，以及根据该结果有针对性的提供服务，以便改善本辖区内的教学质量和教学效率，达到事半功倍的效果。其中，节点子系统部署在本辖区的高校内，用于采集该校区内的教育数据。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本发明的主旨。

图1示出了本发明实施例提供的一种分布式系统的结构示意图。

图2示出了本发明实施例提供的区域服务器的结构示意图。

图3示出了本发明实施例提供的处理模块的模块示意图。

图4示出了本发明实施例提供的第一分类子模块的模块示意图。

图5示出了本发明实施例提供的节点子系统的结构示意图。

图6示出了本发明实施例提供的分析设备的结构示意图。

图7示出了本发明实施例提供的分析模块的模块示意图。

图8示出了本发明第一实施例提供的第二建模子模块的模块示意图。

图9示出了本发明第二实施例提供的第二建模子模块的模块示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本发明实施例提供了一种基于教育大数据的分布式系统10，如图1所示。该分布式系统10包括：节点子系统12和区域服务器11。

节点子系统12部署在本辖区内的高校内，用于获取该高校的教育数据。其数量可以是1个，也可以是2个，还可以是两个以上，取决于该校区内高校的个数，在此不作限定。

区域服务器11用于对至少一个节点子系统12采集数据以及人工导入的数据进行汇总，获得本辖区内的各个高校的教育数据，并对该数据进行分析，以及根据分析结果有针对性的提供服务，以便改善本辖区内的教学质量。

其中，如图2所示，该区域服务器11包括：第一存储器111、第一存储控制器112、第一处理器113和处理模块114。

所述第一存储器111、第一存储控制器112、第一处理器113各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述处理模块114包括至少一个可以软件或固件(firmware)的形式存储于所述第一存储器111中或固化在所述区域服务器11的操作系统(operating system，OS)中的软件功能模块。所述第一处理器113用于执行第一存储器111中存储的可执行模块，例如所述处理模块114包括的软件功能模块或计算机程序。

其中，第一存储器111可以是，但不限于，随机存取存储器(Random AccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead－Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read－OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read－OnlyMemory，EEPROM)等。其中，第一存储器111用于存储程序，所述第一处理器113在接收到执行指令后，执行所述程序，后述本发明实施例任一实施例揭示的流程定义的区域服务器11所执行的方法可以应用于第一处理器113中，或者由第一处理器113实现。

第一处理器113可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该第一处理器113也可以是任何常规的处理器等。

其中，请参阅图3，该处理模块114包括：第一获取子模块1141、第一判断子模块1142、第一分类子模块1143、第一保存子模块1144、第一清洗子模块1145、第二判断子模块1146、第一提取子模块1147、第一分析子模块1148、发送子模块1149和第一建模子模块1150。

所述第一获取子模块1141，用于获取所述至少一个所述节点子系统采集的第一数据。其中，第一数据来源于每个节点子系统采集的数据，以及人工导入的数据。

第一判断子模块1142，用于判断所述第一数据是否经过清洗。在获取到数据后，判断该数据是否经过清洗，若已经经过清洗了，则继续执行后续的操作，若没有经过清洗，则执行清洗工作。作为一种实施方式，可以通过判断该第一数据的格式是否与预设标准格式一致，来判断该第一数据是否经过清洗，即若格式一致，则说明已经经过清洗了，若不一致，则说明没有经过清洗，或清洗不够彻底。

其中，该预设标准格式可以根据实际需要来设定，本实施例中，该预设标准格式可以是结构化、非结构化以及半结构化的标准格式。

第一分类子模块1143，用于对第一数据进行分类，得到第一分类数据。若该数据已经经过清洗了，则需要对其进行分类，以便统一管理。进一步地，如图4所示，该第一分类子模块1143包括：第一识别单元11431和第一分类单元11432。

第一识别单元11431，用于对清洗后的第一数据的类型进行识别。既然要分类，就应该对清洗后的数据的类别进行识别，以便识别出该数据属于何种类型，由于清洗的时候是按照预设标准格式进行清洗的，也就是说，本实施例中，清洗后的数据包括结构化、非结构化以及半结构化的三种数据，由于每一种结构的属性不同，因此可以据此将其识别出来。

第一分类单元11432，用于将识别出的类型打上分类标签，得到第一分类数据。当识别出该数据所属的类型后，将该数据打上分类标签，从而得到分类数据，为了便于理解，下面将举例进行说明，例如，当识别出该数据的类别为结构化类型时，便打上表征结构化类型的标签；当识别出该数据的类别为非结构化类型时，便打上表征非结构化类型的标签；当识别出该数据的类别为半结构化类型时，便打上表征半结构化类型的标签。

第一保存子模块1144，用于将所述第一分类数据存储到与所述第一分类数据相对应的第一数据库。得到分类数据后，将其存储到与之相对应的第一数据库，其中，所述第一数据库包括：Hadoop数据库、Mysql数据库和Nosql数据库。即将属于非结构化类型的数据存储到Hadoop数据库，将属于结构化类型的数据存储到Mysql数据库，将属于半结构化类型的数据存储到Nosql数据库。

第一清洗子模块1145，用于按照预设标准格式对获取到的第一数据进行清洗，过滤掉冗余信息。在获取到的所述第一数据没有进行清洗时，由于经节点子系统采集的数据以及人工导入的数据是最基本的原始数据，不仅结构多样化而且还携带有很多冗余信息，因此需要对获取到的数据进行清洗，将结构多样、内容杂乱的数据清洗成统一标准格式的数据，并在清洗的过程中过滤掉冗余信息。其中，预设标准格式可以根据实际使用需求来设定，例如，可以是结构化、非结构化以及半结构化的标准格式。

其中，在对数据进行清理时，可以包括缺失值清洗、格式内容清洗以及逻辑错误清洗。缺失值是最常见的数据问题，处理缺失值也有很多方法，这里可以采用以下几个步骤进行：首先是，根据确定的缺失值范围，计算每个字段的缺失值比例，然后按照缺失比例和字段重要性，分别制定策略；其次是，删除、去除不需要的字段，最后，填充缺失内容，其中，某些缺失值可以进行填充，可以根据业务知识和经验推测填充缺失值，或者根据需求设定一个标准，以求其均值或者其他方法补充缺失值。当然，数据缺失量较大，错误率较高的情况下，可以请求重新获取数据或者从其他渠道获取相关的数据。

其中，日志信息是重要的数据来源，通常其数据格式和内容方面基本上会与元数据的描述一致。而如果是人工收集或者用户填写的，则其格式可能会和内容上存在一定的偏差。所以对于收集到的数据，要将其同类的数据处理成一致的格式，清除内容中不应该存在的字符，以及清除某一字段内与该字段不符的内容。

其中，逻辑错误清洗主要是去除一些简单的逻辑上可以发现的问题，如一个人的名字中间有空格，则系统会将其判断为两个人，所以通过简单的分析算法将其去重处理；还有就是去除一些不合理值，如一个人的年龄几百、甚至几千岁，这种很明显的错误可以将其删除或者按照缺失值处理。

第二判断子模块1146，用于判断清洗后的第一数据的格式是否与所述预设标准格式一致。为了避免对收集的数据清洗得不够彻底，需要对清洗后的数据进行验证，判断清洗后的数据的格式是否与预设标准格式一致，若格式一致，则说明清洗彻底了，则执行所述对清洗后的第一数据进行分类，得到第一分类数据的步骤；若不一致，则说明数据清洗不够彻底，还需要继续清洗，则执行所述按照预设标准格式对获取到的第一数据进行清洗，过滤掉冗余信息的步骤。

第一提取子模块1147，用于从所述第一数据中提取第一特征量。在需要对存储于所述第一数据库中的第一数据进行分析时，从第一数据中提取第一特征量。想要分析什么数据，就决定了提取什么样的第一特征量，例如，若要分析专业课程设置问题时，则从第一数据库中提取各高校的某一专业(例如，测控技术与仪器专业)的报考人数、学生的学习绩效数据(各种考试成绩、课程设计以及参加的各种专业竞赛等情况)、学生的课程评价、课程是否设置实践环节、学生的就业率以及就业方向、企业关于学生的反馈信息、当前的就业形势等课程特征量。再例如，预测各高中的高考录取率时，从第一数据中提取各学校近两届学生三年时间内的上课平均时长、出勤率、在寝室的平均时长、每月平均消费、请假学生比例、自习平均时长、请假时长、模拟考试次数、全省模拟考试成绩整体排名等高考特征量。

第一分析子模块1148，用于基于所述第一特征量和第一预设数据分析模型获得第一分析结果。要分析什么，就决定了要选取什么样的第一预设数据分析模型，以及提取什么样的第一特征量。针对不同的使用需求，选取不同的第一特征量和不同的第一预设数据分析模型即可获得需要的分析结果。例如，基于高考录取率评估模型和高考特征量即可获得各个高校的高考录取率的预测结果；又例如，基于课程特征量和专业课程设置问题模型即可获得某一专业是否有必要设置该课程的预测结果。同时，在对提取的特征量进行分析的过程中，也可以不断的对与之对应的预设数据分析模型进行学习，以提高识别的准确率。

其中，上述的高考录取率评估模型和专业课程设置问题模型都属于第一预设数据分析模型，该第一预设数据分析模型远不止这两类，可以根据不同的需求，构建不同的分析模型。

第一建模子模块1149，用于基于第一预设规则和第一样本构建所述第一预设数据分析模型。只有先建立适当的模型，才能对教学中的数据进行合理的分析，进而改善本辖区内的教学质量。需要分析什么，决定了需要构建什么样的模型，例如，以第一样本为高考特征量，第一预设规则为线性回归算法来构建高考录取率评估模型。

发送子模块1150，用于基于所述第一分析结果，将与所述第一分析结果相对应的第一特定信息发送至相对应的所述节点子系统。在获得分析结果后，便可以提供针对性的服务，例如，根据高考特征量和高考录取率评估模型预测出的各学校的高考录取人数比例，便以此预测结果为依据，为教学决策者提供依据，从而改善教学方法，解决教育质量与均衡以及教育突出的问题。进一步地，若某个学校的录取比例比较低，则可以将录取比例较高的学校的教学方法发送给部署于该学校的节点子系统，以便该学校的教学决策者改善教学方法。

其中，如图5所示，每个节点子系统12包括：至少一套采集设备121、分析设备122和服务设备123。

为了使采集的数据全面，即涉及学生和教师行为的方方面面，上述中的每套采集设备121均是由构架于一个网络体系中的多个元器件构成的。例如，每套采集设备121包括多个元器件，例如包括：摄像头、电子白板与激光笔、投影仪与激光笔、触摸屏、麦克风阵列等仪器等，以及一些辅助设备，例如，智能手机、个人电脑、笔记本电脑、平板电脑、智能手环等设备。

所述分析设备122用于对至少一套采集设备121采集的数据进行分析处理，例如，以教室为例，通过一些匹配算法对摄像头所采集到的教室中的学生的动作行为，例如，坐姿、举手、走路的姿态等动作进行处理，便可以知道该学生上课时的注意力集中度，是否睡觉，有无举手，期间有无离开等数据。同理，也可以对通过摄像头、麦克风等获取的行为数据进行处理，便可以知道该教师在上课时是否有提问，教学进度，作业的布置情况及讲解情况等数据。以及该分析设备122还用于将获得的分析结果发送给所述服务设备123。

所述服务设备123基于所述分析结果，将与所述分析结果相对应的特定信息发送至预设终端设备。例如，当预测出每个学生基于某一课程的期末预测成绩时，针对成绩处于危险边缘的学生，发送一些有利于他们学习的信息至他们的终端设备，以提醒这些人注意，并有针对性的学习。又或者是，当分析出有很多一部分学生在上课睡觉时，可以发送一些提示信息至该教师的手机上，以提醒该教师对学生的上课纪律进行监督，以及改变自己上课的方式，多与学生进行互动，提高学生的兴趣等。也就是说，服务设备123可以根据分析结果对学生和/或教师提供个性化的服务，发送有针对性的内容来改善教学过程中存在的不足，提高教学质量。其中，该服务设备123预先存储有该校所有学生和教师的联系方式，在有需要时可以将针对性的服务发送至该学生或教师的终端设备。其中，该终端设备包括但不限于手机。

其中，如图6所示，该分析设备122包括：第二存储器1221、第二存储控制器1222、第二处理器1223和分析模块1224。

所述第二存储器1221、第二存储控制器1222、第二处理器1223各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述分析模块1224包括至少一个可以软件或固件(firmware)的形式存储于所述第二存储器1221中或固化在所述分析设备122的操作系统(operating system，OS)中的软件功能模块。所述第二处理器1223用于执行第二存储器1221中存储的可执行模块，例如所述分析模块1224包括的软件功能模块或计算机程序。

其中，第二存储器1221可以是，但不限于，随机存取存储器(Random AccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead－Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read－OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read－OnlyMemory，EEPROM)等。其中，第二存储器1221用于存储程序，所述第二处理器1223在接收到执行指令后，执行所述程序，后述本发明实施例任一实施例揭示的流程定义的分析设备122所执行的方法可以应用于第二处理器1223中，或者由第二处理器1223实现。

第二处理器1223可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该第二处理器1223也可以是任何常规的处理器等。

其中，请参阅图7，该分析模块1124包括：第二获取子模块11241、第二清洗子模块11242、第二分类子模块11243、第二保存子模块11244、第二提取子模块11245、第二分析子模块11246和第二建模子模块11247。

第二获取子模块11241，用于获取所述至少一套采集设备所采集的第二数据。其中，第二数据来源于每套采集设备所采集的数据，以及人工导入的数据。

第二清洗子模块11242，用于对获取到的所述第二数据进行清洗，过滤掉冗余信息。其中，清洗的具体过程参见上述的第一清洗子模块1145的描述。

第二分类子模块11243，对清洗后的第二数据进行分类，得到第二分类数据。其中，分类的具体过程参见上述的第一分类子模块1143的描述。需要说明的是，该第二分类子模块11243包括：第二识别单元和第二分类单元。其中，第二识别单元用于对清洗后的第二数据的类型进行识别；第二分类单元用于将识别出的类型打上分类标签，得到第二分类数据。

第二保存子模块11244，用于将所述第二分类数据存储到与所述第二分类数据相对应的第二数据库。具体过程参见上述的第一保存子模块1144的描述。其中，需要说明的是，该第二数据库与第一数据库相同。

第二提取子模块11245，用于从所述第二数据中提取第二特征量。在需要对存储于所述第二数据库中的第二数据进行分析时，从中提取第二特征量，想要分析什么数据，就决定了提取什么样的第二特征量，例如，要分析每个学生对应某一课程的预测成绩时，则从第二数据中提取与成绩相关性较大的性别、专业、是否感兴趣、初始知识水平、上课回答问题的次数、随堂测试成绩、课程成绩等七个属性构成的学生成绩分析数据表作为特征量；又例如，分析每个学生的兴趣度时，则从第二数据中提取与学生活动相关性较大的学生应答次数、主动提问次数、与同学讨论次数、做练习时长、观看媒体演示时长、使用多媒体设备与老师交互次数，课堂小测验成绩、自己阅读资料时长等八个属性构成的学生活动基本数据表作为特征量。又例如，需要对学生的成长进行评估时，则从数据库中提取与学生成长相关的数据，如基于学生的学习成绩、出入图书馆情况、教师或学生评语、是否担任班级或学校干部、参加班级或校园活动情况、社会实践创新能力、校园卡消费情况等数据。再例如，需要完善高校专业课程设置的问题时，则从数据库中提取与专业课程相关的数据，如基于专业的报考人数、学生的学习绩效数据(各种考试成绩、课程设计以及参加的各种专业竞赛等情况)、学生的课程评价、课程是否设置实践环节、学院是否举办校企合作、学生的就业率以及就业方向、企业关于学生的反馈信息、当前的就业形势以及互联网发展现状等数据

第二分析子模块11246，用于基于所述第二特征量和第二预设数据分析模型获得第二分析结果，以使所述服务设备基于所述第二分析结果，将与所述第二分析结果相对应的第二特定信息发送至预设终端设备。针对不同的使用需求，选取不同的特征量和不同的预设数据分析模型即可获得需要的分析结果。例如，基于学生成绩分析数据表和预设的第一决策树模型，即可获得每个学生对应某一课程的预测成绩；又例如，基于学生活动基本数据表和预设的相似度分析模型，即可获得将每个学生按照一定相似度进行划分的分组结果。同时，在对提取的特征量进行分析的过程中，也可以不断的对与之对应的预设数据分析模型进行学习，以提高识别的准确率。

其中，上述的第一决策树模型和相似度分析模型都属于第二预设数据分析模型，该第二预设数据分析模型远不止这两类，可以根据不同的需求，构建不同的分析模型。

第二建模子模块11247，用于基于第二预设规则和第二样本构建所述第二预设数据分析模型。只有先建立适当的模型，才能对教学中的数据进行合理地数据分析，进而为学习者和教师提供有针对性的服务。

其中，为了便于理解上述中的基于第二预设规则和第二样本构建所述第二预设数据分析模型的过程，下面结合具体例子，对这一过程进行进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。作为一种实施方式，基于决策树算法，构建学生模型，选取表1所示的与成绩相关性较大的性别、专业、是否感兴趣、初始知识水平、上课回答问题的次数、随堂测试成绩、课程成绩七个属性作为成绩预测决策树模型的依据。

表1

假设该表1收集了《教育学原理》这门课程中500名学生的成绩信息，来建立第一决策树模型，其中80％的数据作为训练集，20％的数据作为测试集。表中感兴趣程度分为：一般、感兴趣、非常感兴趣；初始知识水平通过教学前的水平测试，并将成绩通过离散化处理将学生划分为A、B、C三个等级；上课回答问题的次数为每节课回答问题的次数，经过离散化处理后分为：不回答问题为0，回答问题的次数为1－2次和回答问题的次数为＞2次；随堂测试的成绩和课程成绩同样经过离散化处理分为：不及格、及格、良好、优秀四个等级。

基于表1中的样本数据，应用决策树算法(例如，C4.5算法)构建第一决策树模型，其步骤如下：

1)获取所述学生成绩分析数据表中的每个属性的信息增益率，共至少一个信息增益率；

2)从所述至少一个信息增益率中选取最大信息增益率对应的属性作为根节点，并按其值划分数据集合，获得至少两个子数据集；

3)对每个子数据集递归执行步骤1)、2)，以构建学生成绩预测的第一决策树模型。

此时，如图8所示，该所述第二建模子模块11247包括：获取单元112471、划分单元112472和递归单元112473。

所述获取单元112471，用于获取所述学生成绩分析数据表中的每个属性的信息增益率，共至少一个信息增益率。

所述划分单元112472，用于从所述至少一个信息增益率中选取最大信息增益率对应的属性作为根节点，并按其值划分数据集合，获得至少两个子数据集。

所述递归单元112473，用于使所述获取单元对每个子数据集执行步骤所述获取所述学生成绩分析数据表中的每个属性的信息增益率，共至少一个信息增益率；以及使所述划分单元对每个子数据集执行步骤从所述至少一个信息增益率中选取最大信息增益率对应的属性作为根节点，并按其值划分数据集合，获得至少两个子数据集，以构建学生成绩预测的第一决策树模型。

通过以上步骤，就建立了学生成绩预测的第一决策树模型。通过训练集的模型训练，就能预测测试集中学生的课程成绩到底是属于不及格、及格、良好还是优秀。如果预测出某学生的课程成绩可能不及格，就要分析导致该学生成绩不及格的因素，如：对这门课的兴趣度不高、初始知识水平不够或是上课不够积极，如果是兴趣度不高，服务模块便可以根据该学生的兴趣偏好将教学内容以不同的媒体形式呈现以提高学生对课程的兴趣度。如果是该学生初始知识水平不够，服务模块则可以降低教学内容的难度，制定一条适合该学生的学习路径。如果是学生上课不够专心，经常开小差则可以通过教师适当地进行监督管控。

其中，可以理解的是，上述涉及到七个属性只是与学生学习成绩相关性较大的属性，而该节点子系统12可获取的数据远不仅于此。此外上述提到的机器学习算法C4.5只是本发明分析设备基于大数据分析模型中的一种，其他的数据分析模型如：神经网络、SVM、关联规则等针对具体的应用场景采用相应的分析模型。

其中，最为一种实施方式，还可以是基于采集设备所采集的数据，构建学生模型，选取表2所示的与学生活动相关性较大的学生应答次数、主动提问次数、与同学讨论次数、做练习时长、观看媒体演示时长、使用多媒体设备与老师交互次数，课堂小测验成绩、自己阅读资料时长八个维度作为评定教学策略的依据。

表2

假设该表2收集了《数字化教学资源设计》这门课中400名学生的课堂活动信息，来建立相似度分类模型。数据真实地反映出课堂中学生丰富的行为活动，通过分析学生在教学中参与教学、与教师互动、与同伴互动、如何使用技术和多媒体的行为表现，针对不同类别的学生，采用相应的教学方式。将八个维度的数据通过离散化处理，学生应答次数分为：0次、1－3次、大于3次；主动提问次数分为：0次、1－3次、大于3次；与同学讨论次数分为：0次、1－3次、大于3次；使用多媒体设备与老师交互次数分为：0次、1－3次、大于3次；做练习时长分为：0分钟、5－10分钟、大于10分钟；观看媒体演示时长分为：0分钟、5－10分钟、大于10分钟；自己阅读资料时长分为：0分钟、5－10分钟、大于10分钟；课堂小测验成绩分为A、B、C、D。

基于表2中的样本数据，应用聚类分析算法(例如，k－means算法)构建相似度分析模型，将学生数据集划分为若干类，使得类内之间的数据最为相似，各类之间的数据相似度差别尽可能大。(聚类分析就是以相似性为基础，对数据集进行聚类划分，属于无监督学习)其步骤如下：

1)将所述学生活动基本数据表中每个维度系数映射为多维空间的点，获得至少三个点，从所述至少三个点中随机选取3个聚类质心点；

2)计算每个点到每个所述聚类质心点的欧氏距离，并按照预设规则对每个点进行分类，获得三个类别；

3)将每个类别中的所有对象所对应的均值作为每个类别的聚类中心，计算与每个类别的聚类中心对应的目标函数的值；

4)判断每个聚类中心和与之相对应的目标函数的值是否发生改变，若改变，则执行步骤2)，若不变，则输出结果，以构建学生相似度划分的相似度分析模型。

此时，如图9所示，该所述第二建模子模块11247包括：选取单元112471、第一计算单元112472、第二计算单元112473和判断单元112474。

所述选取单元112471，用于将所述学生活动基本数据表中每个维度系数映射为多维空间的点，获得至少三个点，从所述至少三个点中随机选取3个聚类质心点；

所述第一计算单元112472，用于计算每个点到每个所述聚类质心点的欧氏距离，并按照预设规则对每个点进行分类，获得三个类别；

所述第二计算单元112473，用于将每个类别中的所有对象所对应的均值作为每个类别的聚类中心，计算与每个类别的聚类中心对应的目标函数的值；

所述判断单元112474，用于判断每个聚类中心和与之相对应的目标函数的值是否发生改变，若改变，则执行步骤所述计算每个点到每个所述聚类质心点的欧氏距离，并按照预设规则对每个点进行分类，获得三个类别，以构建学生相似度划分的相似度分析模型。

通过以上步骤，就建立了学生根据活动情况的相似度分类模型。通过对数据集进行运算，就能得到三个学生分组。对于不同组的学生，采用不同的教学策略和方法，提高学生对课程的兴趣度，提升学习效率，进而可以提高学生成绩。对于性格以及学习方法不同的学生，引导不同的学习路径。

其中，上述涉及到八个属性只是与学生活动行为比较有代表性的属性，而采集设备采集的数据远不仅于此。此外上述提到的机器学习算法k－means只是本实施例分析设备基于大数据分析模型中的一种，其他的数据分析模型如：贝叶斯网络、逻辑回归等针对具体的应用场景采用相应的分析模型。

可以理解的是，上述所示例的第一决策树模型和相似度分析模型仅仅是分析设备122基于大数据分析模型中的2种模型，而预设的数据分析模型远不止这两种，例如，还可以是基于课程的教师教学相关数据表，构建预测教师教学能力的第二决策树模型；还可以是基于学生的学习成绩、出入图书馆情况、教师或学生评语、是否担任班级或学校干部、参加班级或校园活动情况、社会实践创新能力、校园卡消费情况等属性构建的学生成长相关数据表，结合回归算法构建学生成长评估模型；以及基于专业的报考人数、学生的学习绩效数据(各种考试成绩、课程设计以及参加的各种专业竞赛等情况)、学生的课程评价、课程是否设置实践环节、学院是否举办校企合作、学生的就业率以及就业方向、企业关于学生的反馈信息、当前的就业形势以及互联网发展现状等属性构建专业课程设置问题模型；以及针对学生教师管理、教学科研管理、资产财务管理、招生就业管理、校园安全管理等日常业务管理需要，构建教育管理业务问题模型和教育管理业务决策模型等；亦或者，针对教育发展和教育管理业务中的若干问题，构建教育宏观政策决策模型其中，教育宏观政策决策模型包括教育质量与均衡问题，教育突出问题，教育政策评估等方面；因此不能将其理解成是对本发明的限制。

需要说明的是，在本申请所提供的几个实施例中，应该理解到，所揭露的装置，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图中的每个方框、以及框图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read－Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于教育大数据的分布式系统，其特征在于，包括：至少一个部署于一学校的节点子系统和与至少一个所述节点子系统连接的区域服务器；所述区域服务器包括：第一存储器、第一处理器以及处理模块，所述处理模块存储于所述第一存储器中并包含一个或多个由所述第一处理器执行的软件功能模组，所述处理模块包括：

第一获取子模块，用于获取所述至少一个所述节点子系统采集的第一数据；

第一判断子模块，用于判断所述第一数据是否经过清洗；

第一分类子模块，在为是时，用于对第一数据进行分类，得到第一分类数据；

第一保存子模块，用于将所述第一分类数据存储到与所述第一分类数据相对应的第一数据库；

第一提取子模块，在需要对存储于所述第一数据库中的第一数据进行分析时，用于从所述第一数据中提取第一特征量；

第一分析子模块，用于基于所述第一特征量和第一预设数据分析模型获得第一分析结果；

发送子模块，用于基于所述第一分析结果，将与所述第一分析结果相对应的第一特定信息发送至相对应的所述节点子系统。

2.根据权利要求1所述的分布式系统，其特征在于，所述处理模块还包括：

第一清洗子模块，在获取到的所述第一数据没有进行清洗时，用于按照预设标准格式对获取到的第一数据进行清洗，过滤掉冗余信息。

3.根据权利要求2所述的分布式系统，其特征在于，所述处理模块还包括：

第二判断子模块，用于判断清洗后的第一数据的格式是否与所述预设标准格式一致，若一致，则执行所述对清洗后的第一数据进行分类，得到第一分类数据的步骤，若不一致，则执行所述按照预设标准格式对获取到的第一数据进行清洗，过滤掉冗余信息的步骤。

4.根据权利要求1所述的分布式系统，其特征在于，所述第一分类子模块包括：

第一识别单元，用于对清洗后的第一数据的类型进行识别；

第一分类单元，用于将识别出的类型打上分类标签，得到第一分类数据。

5.根据权利要求1－4任意一项所述的分布式系统，其特征在于，所述处理模块还包括：第一建模子模块，用于基于第一预设规则和第一样本构建所述第一预设数据分析模型。

6.根据权利要求5所述的分布式系统，其特征在于，每个所述节点子系统包括：至少一套采集设备、与所述至少一套采集设备连接的分析设备和与所述分析设备连接的服务设备；所述分析设备包括：第二存储器、第二处理器以及分析模块，所述分析模块存储于所述第二存储器中并包含一个或多个由所述第二处理器执行的软件功能模组，所述分析模块包括：

第二获取子模块，用于获取所述至少一套采集设备所采集的第二数据；

第二清洗子模块，用于对获取到的所述第二数据进行清洗，过滤掉冗余信息；

第二分类子模块，对清洗后的第二数据进行分类，得到第二分类数据；

第二保存子模块，用于将所述第二分类数据存储到与所述第二分类数据相对应的第二数据库；

第二提取子模块，在需要对存储于所述第二数据库中的第二数据进行分析时，用于从所述第二数据中提取第二特征量；

第二分析子模块，用于基于所述第二特征量和第二预设数据分析模型获得第二分析结果，以使所述服务设备基于所述第二分析结果，将与所述第二分析结果相对应的第二特定信息发送至预设终端设备。

7.根据权利要求6所述的分布式系统，其特征在于，所述第二分类子模块包括：

第二识别单元，用于对清洗后的第二数据的类型进行识别；

第二分类单元，用于将识别出的类型打上分类标签，得到第二分类数据。

8.根据权利要求6所述的分布式系统，其特征在于，所述分析模块还包括：第二建模子模块，用于基于第二预设规则和第二样本构建所述第二预设数据分析模型。

9.根据权利要求8所述的分布式系统，其特征在于，所述第二样本为课程的学生成绩分析数据表，所述第二预设规则为决策树算法，所述第二建模子模块包括：

获取单元，用于获取所述学生成绩分析数据表中的每个属性的信息增益率，共至少一个信息增益率；

划分单元，用于从所述至少一个信息增益率中选取最大信息增益率对应的属性作为根节点，并按其值划分数据集合，获得至少两个子数据集；

递归单元，用于使所述获取单元对每个子数据集执行步骤所述获取所述学生成绩分析数据表中的每个属性的信息增益率，共至少一个信息增益率；以及使所述划分单元对每个子数据集执行步骤从所述至少一个信息增益率中选取最大信息增益率对应的属性作为根节点，并按其值划分数据集合，获得至少两个子数据集，以构建学生成绩预测的第一决策树模型。

10.根据权利要求8所述的分布式系统，其特征在于，所述第二样本为课程的学生活动基本数据表，所述第二预设规则为聚类分析算法，所述第二建模子模块包括：

选取单元，用于将所述学生活动基本数据表中每个维度系数映射为多维空间的点，获得至少三个点，从所述至少三个点中随机选取3个聚类质心点；

第一计算单元，用于计算每个点到每个所述聚类质心点的欧氏距离，并按照预设规则对每个点进行分类，获得三个类别；

第二计算单元，用于将每个类别中的所有对象所对应的均值作为每个类别的聚类中心，计算与每个类别的聚类中心对应的目标函数的值；

判断单元，用于判断每个聚类中心和与之相对应的目标函数的值是否发生改变，若改变，则执行步骤所述计算每个点到每个所述聚类质心点的欧氏距离，并按照预设规则对每个点进行分类，获得三个类别，以构建学生相似度划分的相似度分析模型。