CN110457283A

CN110457283A - 一种基于数据挖掘的教学点评与推荐系统及其方法

Info

Publication number: CN110457283A
Application number: CN201910441038.5A
Authority: CN
Inventors: 刘顺; 赵克林
Original assignee: Sichuan Information Vocational And Technical College (guangyuan Radio Technical School)
Current assignee: Sichuan Information Vocational And Technical College (guangyuan Radio Technical School)
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-11-15

Abstract

一种基于数据挖掘的教学点评与推荐系统及其方法，本发明通过计算当前学生选课页面访问相似度、当前学生课程评分相似度、当前学生选课记录相似度，并构建课程图谱树后各自得到推荐的选课集，然后将上述得到的选课集进行加权合并最终得到推荐选课集。本发明考虑了多种维度，实现课程的个性化推荐，有效解决学生选课的盲目性；可以更好地利用学校现有系统数据；使用了成熟的协同过滤及基于内容的推荐技术，实现较为容易。

Description

一种基于数据挖掘的教学点评与推荐系统及其方法

技术领域

本发明涉及数据分析领域，具体而言是一种基于选课数据的一种基于数据挖掘的教学点评与推荐系统及其方法。

背景技术

高校教育体制改革以后，高校纷纷向多学科综合型方向发展。学科专业覆盖面不断扩大，课程的开设也随之不断增加。课程数目的增加为学生选修课程带来更多的选择，但是过多的课程也使得学生的选课不可避免地出现盲目性。目前，教学管理系统的广泛应用积累了大量的教学实践数据，但是，这些数据隐含的信息并没有被充分挖掘利用。为了充分利用已有的教学实践数据，关联规则数据挖掘已被广泛地应用到了教学管理中来，主要可以分为面向学生、面向教师和面向课程的分析。关联规则的应用对提高教学质量起到了一定的促进作用，但是如果支持度和置信度选取不当，会造成计算时间过长或者严重影响挖掘效果。同时，利用关联规则挖掘出的信息都针对所有用户，没有充分地考虑到用户的兴趣度。学生对课程的评分很大程度上代表了学生兴趣爱好，但是大量的学生评价数据以及过往选课数据并未得到有效利用。如果能利用学生评价数据，加上已有的学生选课数据以及课程关联性数据，就可能对每一个学生作出个性化的课程推荐，可以有效地解决学生选课的盲目性。在目前的个性化推荐技术中，基于内容和协同过滤技术是最为成功和应用最为广泛的个性化推荐技术。本专利给出一种基于协同过滤和内容的多维度智能课程推荐系统。

发明内容

针对上述问题，本发明提供一种基于选课数据的一种基于数据挖掘的教学点评与推荐系统及其方法，实现各类教学数据从生成、汇聚、清洗、标准化，再到关联融合、评估、挖掘分析、推荐的过程进行一体化的管理。用于解决多源异构数据资源融合关联与兴趣、质量评估的问题，并达到以下目的:

1)提供多种数据治理工具，按标准整合汇聚各类数据资源，形成课程、教师、学生数据资源库，利用大数据分布式存储技术分库存储资源，以支撑检索、知识库、分析挖掘、数据共享需求，解决多源异构数据的汇聚与清洗。

2)采用自织网模型，对汇聚的各类数据与应用解耦，在数据层面自动进行深度融合关联，建立知识图谱及多路径关联通道，构建课程、教师、学生等一体化关联数据知识网，打破传统门户式的分库检索模式，解决数据的“一键式关联”和深度挖掘问题，满足了基层实战对多源异构数据关联融合的需求。

为达到上述目的，本发明构建基于教学数据的一种基于数据挖掘的教学点评与推荐系统及其方法，其内容如下:

包括资源目录模块、标准库管理模块、教学评分模块、数据采集模块、数据资源管理模块、教学推荐模块、运维管理模块。由资源目录模块进行目录划分、数据分类；标准库管理模块建立数据标准规范体系；教学评分模块进行课程、教师点评并统计；数据采集模块使用多种方式采集数据，并由数据资源管理模块进行数据检索挖掘分析；然后通过教学推荐模块建立推荐模型，实现各类课程数据从生成、汇聚、清洗、标准化，再到关联融合、评估、挖掘分析、推荐的过程进行一体化的管理；最后运维管理模块对系统用户、角色、组织机构、资源菜单、操作日志进行维护管理。

所述的资源目录模块包括目录分类和数据资源清单两部分；目录分类即数据所属资源大类，数据资源清单由多个字段组成，包含资源代码、资源名称、资源摘要、资源所含字段、资源提供方信息。

所述的标准库管理模块包括标准数据元管理单元、代码管理单元、以及各接入数据业源系统的标准映射管理单元。

所述的教学评分模块包括教师评分、课程评分、改进建议。

所述的数据采集模块包括数据源注册单元、采集任务管理单元、数据采集监控单元、录入工具单元、场所信息管理单元。

所述的数据资源管理模块包括数据全文检索、分类检索、二次检索、一键特征关联分析、知识图谱分析、其他数据用途。

所述的教学推荐模块包括数据源元数据管理、评估因子管理、评估模型管理、评估维度配置。

所述的运维管理模块包括用户管理、角色管理、组织机构管理、职位管理、菜单资源管理、日志管理。

所述的基于数据挖掘的教学点评与推荐系统的解决方法，具体步骤如下：

S1：通过计算获得与当前学生网上选课行为相似的学生的集合，综合这一集合中的学生对可选课程的评价计算当前学生对课程的网上选课行为的预测评分，获得当前学生的推荐选课集Class_set1；

S2：通过计算获得与当前学生的课程评分相似的学生的集合，综合这一集合中的学生对可选课程的评价计算当前学生对课程评分预测值，获得当前学生的推荐选课集Class_set2；

S3：通过计算获得与当前学生的选课相似的学生的集合，将已经被这一集合中的学生选择的课程作为当前学生的推荐选课集Class_ set3；

S4：通过课程图谱树得到推荐选课集Class_set4；

S5：从同专业的近三年内的学长所选的课程中得到推荐选课集 Class_set5；

S6：综合Class_set1、Class_set2、Class_set3和Class_set4，合并Class_set5，得到推荐选课集。

(1)所述步骤S1包括：

S11：获取学生对课程的网上选课行为的评分：P_i，j；

S12：计算各学生与当前学生网上选课行为的相似度：

S13：选取与当前学生网上选课行为的相似度最大的前N1个学生组成学生集Student_set1，包含有网上选课行为的评分的预期值；

S14：根据学生集Student_set1中学生对课程的网上选课行为的评分以及与当前学生网上选课行为的相似度计算当前学生对课程的网上选课行为的预测评分：

S15：选取当前学生对可选课程的网上选课行为的预测评分最高的前N2个课程组成Class_set1；

其中，P_i，j为第i个学生对第j课程的网上选课行为的评分；P_0，j为当前学生对第j课程的网上选课行为的评分；为当前学生网上选课行为评分的平均值；为第i个学生网上选课行为评分的平均值； SA_i为第i个学生与当前学生的网上选课行为相似度；TA_j为当前学生对第j课程的网上选课行为的预测评分。

(2)所述步骤S2包括：

S21：获取学生对课程的评分：C_i，j；

S22：计算与当前学生评分相似度：

S23：选取与当前学生评分相似度最大的前N3个学生组成学生集 Student_set2，包含有课程评分的预期值；

S24：根据学生集Student_set2中学生对课程的评分以及与当前学生评分相似度计算当前学生对各课程评分的预期值

S25：选取当前学生对各课程评分的预期值最高的前N4个课程组成Class_set2；

其中，C_i，j为第i个学生对第j课程的评分；C_0，j为当前学生对第j课程的评分；为当前学生对各课程的评分的平均值；为第i 个学生对各课程的评分的平均值；SS_i为第i个学生与当前学生的课程评分相似度；TS_j为当前学生对第j课程的评分的预期值。

(3)所述步骤S3包括：

S31：计算与当前学生的选课相似度：其中B₀为当前学生的选课向量，B_i为第i个学生的选课向量，SC_i为第i个学生与当前学生的选课相似度；

S32：获取与当前学生的选课相似度最高的N5个学生选过的课程组成课程集Class_setX；

S33：选取课程集Class_setX中的选课人数最多的前N6个课程组成Class_set3，包含有选课人数值。

(4)所述步骤S4包括：

S41：获取课程图谱G＝{<V，E，W>}；其中，V为课程集合；E 为课程间关联关系集合；W为课程间关联关系的权重值的集合；

S42：从课程图谱G中获取其中，V₀为当前学生已选的课程；

S43：计算Vx中各课程与V₀中各课程的课程间关联关系的权重值之和W_i；其中W_i为Vx中第i课程与V₀中各课程的课程间关联关系的权重值之和；

S44：从Vx中选出权重值之和W_i最大的前N7个课程组成 Class_set4，包含有课程间关联关系的权重值之和。

(5)所述步骤S6包括：

S61：合并Class_set＝Class_set1∪Class_set2∪Class_set3U Class_set4；

S62：计算Class_set中课程的优先值Priorityi＝a×ta_i+b×ts_i +c×cp_i+d×wt_i；其中Priority_i为Class_set中第i个课程的优先值，ta_i为Class_set中第i个课程的网上选课行为的预测评分； ts_i为Class_set中第i个课程的评分的预期值；cp_i为Class_set中第i个课程对应的选课人数值；wt_i为Class_set中第i个课程对应的课程间关联关系的权重值之和；a、b、c、d为常量；

S63：从Class_set中选择优先值Priority_i最高的前N8门课程作为最终的推荐选课集。

本发明目前主要在教学领域进行了实践，主要产生了以下效果：

1、本发明提供了数据来源多样度、时效性、支持度三个维度对数据的准确性、有效性、融合关联的正确性自动进行评估，可以根据数据项的特点，灵活选择和评估维度进行数据评估建模。

2、本发明提供了多种数据治理工具，满足多源异构数据的采集与清洗需求，更好地利用学校现有系统数据。

3、在数据关联融合的基础上，根据业务需求实现了数据的深度应用，如一键关联分析、课程动态管控、多维记录分析、一键布控、动态推荐更新等实战服务应用，实现课程的个性化推荐，有效解决学生选课的盲目性。

附图说明

图1:本发明学生选课推荐系统的功能模块组成示意图

图2:本发明学生选课推荐系统数据处理流程图

图3:资源目录管理流程图

图4:映射管理操作流程图

图5:离散数据导入操作步骤图

图6:评估模型创建流程图

图7:用户及权限管理流程图

图8:本发明学生选课推荐系统方法的流程示意图

图9:计算机专业的部分课程图谱示例

图10：HDFS存储示意图

具体实施方式:

一.构建一种基于数据挖掘的教学点评与推荐系统，包括资源目录模块、标准库管理模块、教学评分模块、数据采集模块、数据资源管理模块、教学推荐模块、运维管理模块；由资源目录模块进行目录划分、数据分类；标准库管理模块建立数据标准规范体系；教学评分模块进行课程、教师点评并统计；数据采集模块使用多种方式采集数据，并由数据资源管理模块进行数据检索挖掘分析；然后通过教学推荐模块建立评估与推荐模型，实现各类教学数据从生成、汇聚、清洗、标准化，再到关联融合、评估、挖掘分析、推荐的过程进行一体化的管理；最后运维管理模块对系统用户、角色、组织机构、资源菜单、操作日志进行维护管理。见图1。

二.基于数据挖掘的教学点评与推荐系统的数据处理流程如下，参考图2。

1)利用采集工具汇聚离散数据、实时数据、中间库数据等各种数据资源，对数据进行有效性验证、清洗、标准化后，形成数据资源库；

2)利用自织网模型，对汇聚的各类数据与应用解耦，在数据层面自动进行深度融合关联，建立知识图谱及多路径关联通道，构建人、事、物、组织等一体化关联数据知识网；

3)自评估模型，从数据来源可信度、时效性、支持度三个维度对数据的真实性、有效性、融合关联的正确性自动进行评估。

三.基于数据挖掘的教学点评与推荐系统功能模块

具体的说，资源目录模块如下:

资源目录模块主要是对有单位有哪些资源进行梳理，并按业务要求分层分级管理。建立统一的数据资源目录，为数据采集、数据检索、数据应用提供依据。

资源目录包括目录分类和数据资源清单两部分。目录分类即数据所属资源大类，数据资源清单即由多个字段组成的数据集合。数据资源清单包含资源代码、资源名称、资源摘要、资源所含字段，资源提供方等信息。

资源目录管理流程如下，参考图3。

1)先创建目录分类

2)在目录分类下添加资源清单，录入基本信息选择字段后，即可完成资源清单的新增；

3)发布和保存资源清单时需做必填项验证，如未通过需重新录入相关信息，通过则发布成功；

4)对发布的资源清单可执行撤销操作，撤销后的资源清单状态为未发布状态，根据需要可再次进行发布操作；

具体的说，标准库模块如下:

标准库模块参考行业标准规范、国家标准规范建立数据标准规范体系，包括标准数据元、相关公共代码、以及各接入数据业源系统的标准映射管理、实现数据的完整性、有效性、一致性、规范性和开放性管理。

数据元管理:数据元管理是对系统各个数据元进行标准定义，通过对数据字段的命名、类型、长度、等属性进行规范处理，实现数据元的统一标准建设，为数据质量提供可靠保障。该版块的功能包括数据元目录管理、数据元的新增、修改、删除、发布、excel导入、移动、复制、启用、停用以及版本信息等操作。

代码管理:即对公共代码标准进行管理，包括新增、变更、废止、审核、导入\导出。

映射管理:为两个数据元素之间建立对应关系，这一过程，即为数据元映射过程。数据映射管理是后续数据集成任务的第一步，实现为内外部业务数据使用和交换的一致性和准确性。包括查询、新增以及取消映射关系。

其中映射管理操作流程如下所示，参考图4。

1)选择外部系统需要进行映射字段所属数据元集；

2)从外部系统的数据元集中选择需要映射的字段；

3)从同部系统标准库中依次选择对应的字段，形成一一对应的关系；

4)设置完所所有字段对应关系后，保存即可完成字段映射；

具体的说，教学评分模块如下:

1)课程评分，课程评分是一个价值判断的过程，价值判断要求在事实描述的基础上，体现评价者的价值观念和主观愿望。不同的评价主体因其自身的需要和观念的不同对同一事物或活动会产生不同的判断。

2)教师评分，按教师评价目的通常有两种形式：业绩评价和教师发展评价。业绩评价关注于可达到的、相对短期的目标，倾向于在某个时间段内给教师的业绩和能力下一个结论，对于教学质量的监控有重要作用。一般说来，业绩评价和教师的名誉及利益是相关的。

3)改进建议，可从提高兴趣度、增强活跃度、转变教授方式等方面对教学提出有价值的见解，促进教学质量提升。

具体的说，数据采集模块如下:

数据采集模块可以教学资源采集、数据库抽取、离散数据融合、电围/wifi融合等数据治理工具，按标准规范采集汇聚各类数据，并进行统一的数据接入、清洗、监测管理，解决数据资源离散存储，存储文件杂乱的问题。在数据采集方面采用了以下方法:

1)、离线采集:

工具:ETL；

在数据仓库的语境下，ETL基本上就是数据采集的代表，包括数据的提取(Extract)、转换(Transform)和加载(Load)。在转换的过程中，需要针对具体的业务场景对数据进行治理，例如进行非法数据监测与过滤、格式转换与数据规范化、数据替换、保证数据完整性等。

2)、实时采集:

工具:Flume/Kafka；

实时采集主要用在考虑流处理的业务场景，比如，用于记录数据源的执行的各种操作活动，比如网络监控的流量管理、web服务器记录的用户访问行为。在流处理场景，数据采集会成为Kafka的消费者，就像一个水坝一般将上游源源不断的数据拦截住，然后根据业务场景做对应的处理(例如去重、去噪、中间计算等)，之后再写入到对应的数据存储中。这个过程类似传统的ETL，但它是流式的处理方式，而非定时的批处理Job，些工具均采用分布式架构，能满足每秒数百 MB的日志数据采集和传输需求。

3)、互联网采集:

工具:Crawler、DPI等；

Scribe是Facebook开发的数据(日志)收集系统。又被称为网页蜘蛛，网络机器人，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它支持图片、音频、视频等文件或附件的采集。

除了网络中包含的内容之外，对于网络流量的采集可以使用DPI 或DFI等带宽管理技术进行处理。

数据的采集是挖掘数据价值的第一步，当数据量越来越大时，可提取出来的有用数据必然也就更多。只要善用数据化处理平台，便能够保证数据分析结果的有效性，助力教学实现数据驱动。

数据采集模块主要包括以下功能:

数据源注册:根据实际情况对采集数据的来源进行管理。

采集任务管理:按需求进行创建、启用、停用采集任务。

数据采集监控:对各类数据采集情况进行监控。

录入工具:提供在线选课、点评记录录入，以及外部离散数据导入功能。

场所信息管理:对系统涉及的各类场信息进行维护。

中间库和实时数据采集主要通过FTP、库对库等方式接入数据，其采集管理依次包括数据源注册、采集任务创建和采集任务监控三部分。

离散数据导入是指对本地的Excel文件进行导入，系统提供统一文件导入功能，采用Web方式对导入的文件进行模板配置、管理以及数据关系建立。导入分为添加数据和新增数据两种方式。添加数据即同一个表里在原有的数据下再次添加数据。新增数据即新建一张表，并新增数据。

离散数据导入操作步骤如下，参考图5。

1)选择导入离散数据的方式，新增数据还是添加数据；

2)如选择新增数据操作步骤如下:

第一步:模版下载，选择需要新增数据的模版并下载；

第二步:数据预览，在按模板新增完数据后，选择新增数据目录、输入上传表名称、数据来源后，上传数据，上传数据后在数据列表中可查看所有新增数据信息；

第三步:选择字段和关系定义，从模版中选择需要入库的字段，并将其定义到所属信息分类中；

第四步:标准字段匹配，将新增入库的字段和标准库中的字段进行字段映射，依次从入库字段和标准字段中选择需要映射的字段即可完成字段的映射；

第五步:数据上传，选择入库模式后，点击“数据上传”后，开始对上传数据的有效性进行验证，验证通过但开始入库；

第六步:数据上传完成后可可查看添加数据的操作日志，同时在操作日志中支持上传数据的下载。

3)如选择添加数据操作步骤如下:

第一步:下载数据表，在数据模版列表中选择需要添加数据的数据表模版并下载；

第二步:增加数据后上传，在下载的模板中增加数据，然后选择上传目录、输入表名称、数据来源、选择导入模式后，选择文件后点击“数据上传”即可完成新增数据的导入；

第三步:数据上传完成后可可查看添加数据的操作日志，同时在操作日志中支持上传数据的下载。

具体的说，数据资源管理模块如下:

方便进行有效性验证、清洗、标准化，及其以下效果:

1).可以及时释放资源:提醒自己使用后放回原处，封装一个好用的资源类，让释放资源自动化，通常我们通过Resource Decorator 模式来实现。

2).最小化资源打开的间隔:对于资源，我们需要的是一种按需索取的原则，有需要的时候才去获得并且操作相应的资源，而不是过早地据为己有。设置Timeout来防止应用程序占用某一资源的时间过长也是一种很好的方法，常用的模式是Resource Timer模式。

3).使用资源池:由于资源初始化是一个花销巨大的操作，及早初始化一定的资源，就可以减少滞留、卡顿、缺额。类似连接池的应用，相应的模式就是Resource Pool模式。

具体用途如下:

数据全文检索:全文数据库是全文检索系统的主要构成部分。全文数据库是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。全文数据库不仅存储了信息，而且还有对全文数据进行词、字、段落等更深层次的编辑、加工的功能，而且所有全文数据库无一不是海量信息数据库。全文检索大体分两个过程，索引创建和搜索索引。索引创建:将现实世界中所有的结构化和非结构化数据提取信息，创建索引的过程。搜索索引:就是得到用户的查询请求，搜索创建的索引，然后返回结果的过程。

分类检索:将各种概念按照学科、专业性质进行分类和系统排列。

二次检索:在当前这次检索结果的文献范围内，再次输入检索条件进行查询的功能。在检索输入框中输入内容后，即可执行二次检索。可以逐渐缩小文献范围，达到查询目标，其作用相当于在前、后两次检索之间做逻辑与运算。

一键特征关联分析:通过对大量数字资料的观察，消除偶然因素的影响，探求现象之间相关关系的密切程度和表现形式。主要研究内容:现象之间是否相关、相关的方向、密切程度等，不区分自变量与因变量，也不关心各变量的构成形式。主要分析方法:绘制相关图、计算相关系数、检验相关系数。

其中相关系数r的计算通常有三种:

1):Pearson相关系数:对定距连续变量的数据进行计算。是介于-1和1之间的值，用于描述两组线性的数据一同变化移动的趋势。

当两个变量的线性关系增强时，相关系数趋于1或-1；

当其中一个变量增大时，另一个变量也跟着增大，则两个变量正相关，相关系数大于0；

当其中一个变量增大时，另一个变量却跟着减小，则两个变量负相关，则相关系数小于0；

当两个变量的相关系数等于0时，则表明两个变量之间不存在线性相关关系。

2):Spearman秩相关系数:是度量两个变量之间的统计相关性的指标，用来评估当前单调函数来描述俩个变量之间的关系有多好。

在没有重复数据的情况下，如果一个变量是另一个变量的严格单调函数，按摩二者之间的spearman秩相关系数就是1或+1，称为完全soearman相关。

如果其中一个变量增大时，另一个变量也跟着增大时，则 spearman秩相关系数是正的。

如果其中一个变量增大时，另一个变量却跟着减少时，则 spearman秩相关系数是负的。

如果其中一个变量变化时候，另一个变量没有变化，spearman 秩相关系为0。

随着两个变量越来越接近严格单调函数时，spearman秩相关系数在数值上越来越大。

3):Kendall(肯德尔等级)相关系数:肯德尔相关系数是一个用来测量两个随机变量相关性的统计值。

一个肯德尔检验是一个无参数假设检验，它使用计算而得的相关系数去检验两个随机变量的统计依赖性。

肯德尔相关系数的取值范围在-1到1之间，

当τ为1时，表示两个随机变量拥有一致的等级相关性；当τ为 -1时，表示两个随机变量拥有完全相反的等级相关性；

当τ为0时，表示两个随机变量是相互独立的。

知识图谱分析:知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。为学科研究提供切实的、有价值的参考。

其他数据用途方式:如数据预测、数据挖掘、数据运营、记忆、识别、重组等。

具体的说，教学推荐模块如下:

教学推荐模块主要通过自评估模型实现对数据有效性、对数据的真实性、有效性、融合关联的正确性自动进行评估。包括数据源元数据管理、评估因子管理、评估模型管理、评估维度配置四个部分组成。

1)数据源元数据管理:主要是对数据源元数据进行管理，包括数据来源单位、数据源描述、数据创建时间、数据源路径、数据入库时间、数据源更新周期、数据源接入方式，分为接口、数据库、excel 文件、ftp文件；通过对数据源元数据的管理，实现数据的溯源功能。

2)评估因子管理:对数据源的每个数据项进行管理，为评估模型提供评估依据，主要有数据分级分类信息、数据脱敏信息、数据类型、清洗状态、来源数据表名称，清洗人信息、数据是否核实、数据使用对象、数据价值度、数据可信值等信息。

3)评估模型管理:针对不同的数据项的特点进行评估模型的建立，从数据有效性、数据时效性、数据支持度等维度进行评估规则的配置。系统根据评估配置自动计算数据可信度，为用户准确使用数据提供依据。

评估模型创建流程参考图6，其中数据来源可信度为必选项。

4)评估维度配置，如完整性、有效性、稳定性、准确性各方面配置参数进行评价对比。

具体的说，运维管理模块如下:

运维管理主要是对系统用户、角色、组织机构、操作日志进行维护管理，主要包括用户管理、角色管理、组织机构管理、职位管理、资源菜单管理、日志管理。

用户管理:对系统用户进行添加、修改、删除、查询、停用/启用的操作。

角色管理:角色管理主要是对具有一相同操作权限的用户组进行管理，以便通过角色来控制用户的操作权限。角色管理可对角色进行添加、删除、修改、启用/停用的操作。

组织机构管理:对系统用户所属的组织机构进行管理，包括新增、修改、删除、排序。

职位管理:对学校各职位教师及管理人员进行管理，包括新增、修改、删除的操作。

菜单资源管理:菜单资源管理主要是系统开发者对系统展示模块及菜单进行管理。

日志管理:对系统登录和业务操作进行记录。可按关键字、系统、日志类型、操作成功与否、操作日期对日志进行检索。

对于不同的学生，用户及权限管理流程如下所示，参考图7。

1)系统管理员成功登录系统；

2)创建角色，并为角色分配系统操作权限；

3)创建用户，并为用户选择所属角色，保存后即可完成创建用户的操作。

四.基于数据挖掘的教学点评与推荐系统的解决方法，通过对选课页面行为记录、课程评分、选课记录以及课程图谱等数据的分析产生推荐课程，其具体步骤如下:

S1:通过计算获得与当前学生网上选课行为相似的学生的集合，综合这一集合中的学生对可选课程的评价计算当前学生对课程的网上选课行为的预测评分，获得当前学生的推荐选课集Class_set1；

S2:通过计算获得与当前学生的课程评分相似的学生的集合，综合这一集合中的学生对可选课程的评价计算当前学生对课程评分预测值，获得当前学生的推荐选课集Class_set2；

S3:通过计算获得与当前学生的选课相似的学生的集合，将已经被这集合的学生选择的课程作为当前学生的推荐选课集Class_set3；

S4:通过课程图谱树得到推荐选课集Class_set4；

S5:从同专业的近三年内的学长所选的课程中得到推荐选课集 Class_set5；

S6:综合Class_set1、Class_set2、Class_set3和Class_set4，合并Class_set5，得到推荐选课集。

(1)、根据选课页面行为记录产生推荐选课集

本步骤即为前述步骤S1。

首先步骤S11，获取学生对课程网上选课行为的评分。这里的学生是指所有学生，这里的课程网上选课行为包括但不限于:学生在对应课程页面停留的时间，学生登录选课系统次数，学生点击对应课程的次数。学生对课程网上选课行为的评分表达了该学生对该课程的感兴趣程度。各学生对各课程网上选课行为的评分构成了一个评分矩阵，该矩阵中每一项可以用P_i,j表示，P_i,j为该矩阵中第i个学生对第j课程的网上选课行为的评分。相应地，当前学生对第j课程的网上选课行为的评分可以用P_0,j表示。P_i,j可以通过以下公式计算获得:P_i,j＝∑wa_k×a_k(式1)。式1中，a_k为网上选课行为评分项，a_k∈A， A为网上选课行为评分项集合，至少包括:学生在对应课程页面停留的时间和学生点击对应课程的次数；wa_k为网上选课行为评分项，a_k为对应的权重系数，wa_k为预先设定的常量。

然后步骤S12，根据学生对课程网上选课行为的评分计算与当前学生的网上选课行为的相似度。与当前学生的网上选课行为的相似度采用如下公式计算:

式2中，为当前学生对各课程的访问行为的评分的平均值；为第i个学生对各课程的网上选课行为的评分的平均值；SA_i为第i个学生与当前学生的课程网上选课行为相似度。以下述表1中网上选课行为的数据为例，可以计算得到学生1、学生2、学生3、学生4与当前学生的相似度分别为:0.8，1，－0.91，0.96。

	课程A	课程B	课程C
				当前学生	3	6	8
学生1	6	6	7
				学生2	4	7	9
学生3	8	6	6
				学生4	4	6	9

表1

再是步骤S13，选取与当前学生网上选课行为的相似度最大的前 N1个学生组成学生集Student_set1。这里N1为预先设定的常量。如表1中的数据，设N1＝3，选取与当前学生网上选课行为的相似度最大的前3个学生后得到学生集Student_set1＝{学生1、学生 2、学生4}。

再然后是步骤S14，根据学生集Student_set1中学生对课程的网上选课行为的评分以及与当前学生网上选课行为的相似度计算当前学生对课程的网上选课行为的预测评分TA_j。TA_j为当前学生对第j 课程的网上选课行为的评分的预期值。TA_j的计算公式如下:

根据表1中的数据，学生集Student_set1，得到学生集Student_set1 中学生对课程的网上选课行为的评分如下表2的数据:

	课程A	课程B	课程C
				当前学生	3	6	8
学生1	6	6	7
				学生2	4	7	9
学生4	4	6	9

表2

根据表2中的数据和公式3计算当前学生对课程A、课程B、课程C 的网上选课行为的评分的预期值分别为:0.46，28.53，29.31。

再最后为步骤S15，选取当前学生对各课程的网上选课行为的评分的预期值最高的前N2个课程组成Class_set1。这里N2为预先设定的常量。例如，根据前述表1中的数据，得到的当前学生对课程A、课程B、课程C的网上选课行为的评分的预期值分别为:0.46，28.53，29.31。设N2＝2，则Class_set1＝{课程B，课程C}。

(2)、根据课程评分产生推荐选课集

本步骤即为前述步骤S2。

首先步骤S21，获取学生对课程的评分。课程评分是学校为提高教学质量，为了能更有效地利用学生对课程的评分，更准确地反映课程对学生的吸引力的而设定的指标数据。课程评分由很多评分项组成，比如，课程内容的丰富程度、课程的趣味性、教师讲课的生动性等等评分项。课程评分是由经上了该课程的学生对各预先设定的评分项的打分数后经加权运算获得。本发明中的课程评分为体现学分还以该课程的学分值作为加权值相乘后得到。各学生对各课程的评分构成了一个评分矩阵，该矩阵中每一项可以用C_i,j表示，C_i,j为该矩阵中第i个学生对第j课程的评分。具体的公式如下:C_i,j＝∑ws_k×s_k(式 4)。式4中，s_k为第i个学生对第j课程的第k个课程评分项的打分值，ws_k为第k个课程评分项s_k对应的权重系数，ws_k为预先设定的常量。

然后步骤S22，根据学生对课程评分计算与当前学生评分相似度。该步骤的计算公式与前述步骤S12相同，具体到课程评分中，可表示为公式:

式5中，为当前学生对各课程的评分的平均值；为第i个学生对各课程的评分的平均值；SS_i为第i个学生与当前学生的课程评分相似度。本领域技术人员理解，式5与步骤S12中的式2相同。

再是步骤S23，选取与当前学生课程评分的相似度最大的前N3 个学生组成学生Student_set2。这里N2为预先设定的常量。步骤S23 与前述步骤S13相同。如表1中的数据，设N1＝3，选取与当前学生课程评分的相似度最大的前3个学生后得到学生集Student_set2＝{学生1、学生2、学生4}。

再然后是步骤24，根据学生集Student_set2中学生对课程的评分以及与当前学生评分相似度计算当前学生对各课程评分的预期值TSj。TSj为当前学生对第j课程的评分的预期值，计算公式为:

本领域技术人员理解，式6与步骤S13中的式3相同。

再最后为步骤S24，获取当前学生对各课程评分的预期值最高的前N4个课程组成Class_set2，这里N2为预先设定的常量。

(3)、根据学生选课记录产生推荐选课集

本步骤即为前述步骤S3。

首先是步骤S31，计算与当前学生的选课相似度。这里的学生选课记录是指除了当前学期之外的历史选课记录。所有的课程构成一课程集，设学生选修过的课程标记为1，未选修过的课程标记为0，则学生之于课程集可以构成一用0和1标记的选课向量。则可以通过选课向量之间的余弦公式计算与当前学生之间的相似度，具体公式为:式7中，B₀为当前学生的选课向量，B_i为第i 个学生的选课向量，SC_i为第i个学生与当前学生的选课相似度。

	课程A	课程B	课程C
				当前学生	1	1	0
学生1	0	1	0
				学生2	1	1	0
学生3	0	1	1

表3

以上述表3中的数据为例。课程A、课程B、课程C构成课程集。表2中的四个学生的选课记录分别构成四个课程向量，其中，当前学生的选课向量用B₀表示，学生1、学生学生2、学生3的选课向量分别为B₁、B₂、B₃表示，其中B₀＝{1，1，0}；B₁＝{0，1，0}；B₂＝{1，1，0}；B₃＝{0，1，1}。则有:

学生1与当前学生的相似度

学生2与当前学生的相似度

学生3与当前学生的相似度

然后是步骤S32:获取与当前学生的选课相似度最高的N3个学生的选过的课程组成课程集Class_setX。这里N3为预先设定的常数。以上述表2中的数据为例，取N3＝2，则选课相似度最高的2 个学生为学生2和学生1。学生2和学生1的选过的课程组成的课程集Class_setX＝{课程A，课程B}。

最后是步骤S33，从课程集Class_setX中选出选课人数最多的前N4个课程组成Class_set3。这里N4为预先设定的常数。实际应用中，步骤S32获得的课程集Class_setX中的课程数较多，因此需要再一次过滤。假如Class_setX中的课程数不大于N4，则不需要本步骤。

(4)、根据课程图谱产生推荐选课集

本步骤即为前述步骤S4。

本发明所指的课程图谱是一种带权值的有向图，用于表示课程间的关联关系。课程用图的节点表示，课程间的关联关系用图的节点之间的有向边表示。课程间的关联关系，即课程图谱的有向边，带有权值。图9是计算机专业的部分课程图谱示例。课程间的关联关系用于表示课程间的学科的依赖关系。比如，高等数学和普通物理之间，普通物理很多内容需要用高等数学中的内容解决，则在课程图谱中。如图2所示，从高等数学至普通物理方向的边，表示普通物理依赖于高等数学。再比如，数据结构依赖于基础编程、离散数学、计算机原理等课程，则相应地，在课程图谱中有基础编程、离散数学、计算机原理至数据结构的单向边。课程之间的依赖关系是n:m的关系，表示某课程可能依赖于多个学科的课程，而该课程也可能是多个学科的课程之依赖。有的课程之间的依赖关系是必须的，但有些课程间的依赖关系是不一定是必须的，但假如学了某课程对于增加另外一课程的理解有非常好的帮助。比如学习编译原理对高级编程的理解非常具有好处，可以称之为高级编程依赖于编译原理，但这种依赖关系显而易见地不如普通物理依赖于高等数学，这种依赖关系的重要性用有向图的边的权重值表示。边的权重值也表达了依赖关系的权重。还有一些的依赖是双向的，比如学习编译原理对操作系统的课程理解非常有好处，同样学习了操作系统的课程同样会增强对编译原理的理解，由此这种依赖关系可以是双向的。本发明中，课程图谱是由预先设定，并由人工输入，在实际使用中可动态调整。课程图谱可表示成G＝{〈V， E，W〉}。其中，V为课程集合；E为课程间关联关系集合；W为课程间关联关系的权重值的集合。本发明中，根据课程图谱产生推荐选课集的步骤如下：

首先是步骤S41，获取课程图谱:

然后是步骤S42，根据当前学生已选的课程从课程图谱G中获取其中，V₀为当前学生已选的课程的集合，<v_i,v_j>是指v_i至v_j的有向边。该步骤可以通过图的节点的遍历的方法实现。以图2中的课程图谱为例，假设V₀＝{高等数学，线性代数，排列组合}，则V_x＝{离散数学，计算代数，概率论，普通物理}。

再然后是步骤S43，计算V_x中各课程与V₀中各课程的课程间关联关系的权重值之和wi；其中wi为Vx中第i课程与V0中各课程的课程间关联关系的权重值之和。以上述Vx为例，Vx中离散数学的课程有三条单向边分别为：R1＝<高等数学，离散数学>，R2 ＝<线性代数，离散数学>，R3＝<排列组合，离散数学>。其中R1、 R2、R3对应的权重值分别为：6、3、4；则离散数学这门课程的权重值之和＝6+3+4＝13。

最后为步骤S44，从V_x中选出权重值之和w_i最大的前N5个课程组成Class_set4。这里N5为预先设定的常数。

(5)、推荐选课集的合并

本步骤即为前述步骤S6。

即将前述的Class_set1、Class_set2、Class_set3、Class_set4 合并成最终的推荐选课集Class_set。一般来说，合并采用集合的合并运算即:Class_set＝Class_set1∪Class_set2∪Class_set3∪Class_set4。但通常Class_set1、Class_set2、Class_set3、Class_set4中的课程数每个均有3～5个，合并运算后的Class_set 中的课程数量可以达到10～20个，这对于推荐的选课集来说太多了。为此，本发明在步骤S6中的合并采用加权合并的方法，具体的步骤如下：

首先步骤S61，合并Class_set＝Class_set1∪Class_set2∪ Class_set3∪Class_set4。

然后步骤S62，计算Class_set中课程的优先值Priority_i＝a ×ta_i+b×ts_i+c×cp_i+d×wt_i。其中，Priority_i为Class_set中第i 个课程的优先值，ta_i为Class_set中第i个课程对应的网上选课行为的评分的预期值；ts_i为Class_set中第i个课程对应的网上选课行为的评分的预期值；cp_i为Class_set中第i个课程对应的选课人数值；wt_i为Class_set中第i个课程对应的课程间关联关系的权重值之和，a、b、c、d为常量。ta_i、ts_i、cp_i、wt_i分别由前述的步骤S1、S2、S3和S4中计算获得。需要说明的是，如果Class_set中第i个课程不在Class_set1中，则ta_i＝0；如果Class_set中第i 个课程不在Class_set2中，则ts_i＝0；如果Class_set中第i个课程不在Class_set3中，则cp_i＝0；如果Class_set中第i个课程不在Class_set4，则wt_i＝0。

最后是步骤S63，从Class_set中选择优先值Priority_i最高的前N6门课程作为最终的推荐选课集。这里N6为常量。

(6)、子集补充

前述最终的推荐选课集Class_set由四个推荐选课子集合并而成。四个推荐选课子集分别是Class_set1、Class_set2、Class_set3、 Class_set4。本领域技术人员理解，上述四个推荐选课子集还可以根据不同的要求进行扩充。本实施例是推荐选课子集的扩充的实施例。本实施例从同专业的近三年内的学长所选的课程中得到推荐选课集 Class_set5，然后在前述的步骤S6中增加一个合并Class_set5的步骤，即步骤S6替换为：将Class_set1、Class_set2、Class_set3、 Class_set4、Class_set5合并成最终的推荐选课集Class_set。从同专业的近三年内的学长所选的课程中得到推荐选课集Class_set5 为步骤S5，具体的方法步骤如下:首先，获取同专业的近三年内的学长所选的课程得到一课程集Class_setY。课程集Class_setY中课程来自历史选课记录。比如，当前学生为计算机软件专业的2012期学生，当前为大三第一学期，则可以从2009期、2010期、2011期的计算机软件专业的学长中获取大三第一学期的选课，组成课程集。然后可以根据前述步骤S33中的方法，从课程集Class_setY中选出选课人数最多的前N7个课程组成Class_set5。这里N7为常量。

Claims

1.一种基于数据挖掘的教学点评与推荐系统，其特征如下:包括资源目录模块、标准库管理模块、教学评分模块、数据采集模块、数据资源管理模块、教学推荐模块、运维管理模块；由资源目录模块进行目录划分、数据分类；标准库管理模块建立数据标准规范体系；教学评分模块进行课程、教师点评并统计；数据采集模块使用多种方式采集数据，并由数据资源管理模块进行数据检索挖掘分析；然后通过教学推荐模块建立评估与推荐模型，实现各类教学数据从生成、汇聚、清洗、标准化，再到关联融合、评估、挖掘分析、推荐的过程进行一体化的管理；最后运维管理模块对系统用户、角色、组织机构、资源菜单、操作日志进行维护管理。

2.如权利要求1所述的一种基于数据挖掘的教学点评与推荐系统，其特征在于:所述的资源目录模块包括目录分类和数据资源清单两部分；目录分类即数据所属资源大类，数据资源清单由多个字段组成，包含资源代码、资源名称、资源摘要、资源所含字段、资源提供方信息。

3.如权利要求1所述的一种基于数据挖掘的教学点评与推荐系统，其特征在于:所述的标准库管理模块包括标准数据元管理单元、代码管理单元、以及各接入数据业源系统的标准映射管理单元。

4.如权利要求1所述的一种基于数据挖掘的教学点评与推荐系统，其特征在于:所述的数据采集模块包括数据源注册单元、采集任务管理单元、数据采集监控单元、录入工具单元、场所信息管理单元。

5.如权利要求1所述的一种基于数据挖掘的教学点评与推荐系统，其特征在于:所述的数据资源管理模块包括数据全文检索、分类检索、二次检索、一键特征关联分析、知识图谱分析、其他数据用途。

6.根据权利要求1所述的基于数据挖掘的教学点评与推荐系统的解决方法，其特征在于，包括以下步骤:

S3:通过计算获得与当前学生的选课相似的学生的集合，将已经被这一集合中的学生选择的课程作为当前学生的推荐选课集Class_set3；

S4:通过课程图谱树得到推荐选课集Class_set4；

S5:从同专业的近三年内的学长所选的课程中得到推荐选课集Class_set5；

S6:综合Class_set1、Class_set2、Class_set3和Class_set4,合并Class_set5，得到推荐选课集。

7.如权利要求6所述的基于数据挖掘的教学点评与推荐系统的解决方法，其特征在于:

(1)所述步骤S1包括:

S11:获取学生对课程的网上选课行为的评分:P_i，j；

S12:计算各学生与当前学生网上选课行为的相似度:

S13:选取与当前学生网上选课行为的相似度最大的前N1个学生组成学生集Student_set1，包含有网上选课行为的评分的预期值；

S14:根据学生集Student_set1中学生对课程的网上选课行为的评分以及与当前学生网上选课行为的相似度计算当前学生对课程的网上选课行为的预测评分:

S15:选取当前学生对可选课程的网上选课行为的预测评分最高的前N2个课程组成Class_set1；

其中，P_i，j为第i个学生对第j课程的网上选课行为的评分；P_0，j为当前学生对第j课程的网上选课行为的评分；为当前学生网上选课行为评分的平均值；为第i个学生网上选课行为评分的平均值；SA_i为第i个学生与当前学生的网上选课行为相似度；TA_j为当前学生对第j课程的网上选课行为的预测评分。

(2)所述步骤S2包括:

S21:获取学生对课程的评分:C_i，j；

S22:计算与当前学生评分相似度:

S23:选取与当前学生评分相似度最大的前N3个学生组成学生集Student_set2，包含有课程评分的预期值；

S24:根据学生集Student_set2中学生对课程的评分以及与当前学生评分相似度计算当前学生对各课程评分的预期值

S25:选取当前学生对各课程评分的预期值最高的前N4个课程组成Class_set2；

其中，C_i，j为第i个学生对第j课程的评分；C_0，j为当前学生对第j课程的评分；为当前学生对各课程的评分的平均值；为第i个学生对各课程的评分的平均值；SS_i为第i个学生与当前学生的课程评分相似度；TS_j为当前学生对第j课程的评分的预期值。

(3)所述步骤S3包括:

S31:计算与当前学生的选课相似度:其中B₀为当前学生的选课向量，B_i为第i个学生的选课向量，SC_i为第i个学生与当前学生的选课相似度；

S32:获取与当前学生的选课相似度最高的N5个学生选过的课程组成课程集Class_setX；

S33:选取课程集Class_setX中的选课人数最多的前N6个课程组成Class_set3，包含有选课人数值。

(4)所述步骤S4包括:

S41:获取课程图谱G＝{〈V，E，W〉}；其中，V为课程集合；E为课程间关联关系集合；W为课程间关联关系的权重值的集合；

S42:从课程图谱G中获取

其中,V₀为当前学生已选的课程；

S43:计算Vx中各课程与V₀中各课程的课程间关联关系的权重值之和w_i；其中w_i为Vx中第i课程与V₀中各课程的课程间关联关系的权重值之和；

S44:从Vx中选出权重值之和W_i最大的前N7个课程组成Class_set4，包含有课程间关联关系的权重值之和。

(5)所述步骤S6包括:

S61:合并Class_set＝Class_set1∪Class_set2∪Class_set3∪Class_set4；

S62:计算Class_set中课程的优先值Priority_i＝a×ta_i+b×ts_i+c×cp_i+d×wt_i；其中Priority_i为Class_set中第i个课程的优先值，ta_i为Class_set中第i个课程的网上选课行为的预测评分；ts_i为Class_set中第i个课程的评分的预期值；cp_i为Class_set中第i个课程对应的选课人数值；wt_i为Class_set中第i个课程对应的课程间关联关系的权重值之和；a、b、c、d为常量；

S63:从Class_set中选择优先值Priority_i最高的前N8门课程作为最终的推荐选课集。