CN111260969B - 数据挖掘课程教学实践系统和基于系统的教学实践方法 - Google Patents
数据挖掘课程教学实践系统和基于系统的教学实践方法 Download PDFInfo
- Publication number
- CN111260969B CN111260969B CN202010150693.8A CN202010150693A CN111260969B CN 111260969 B CN111260969 B CN 111260969B CN 202010150693 A CN202010150693 A CN 202010150693A CN 111260969 B CN111260969 B CN 111260969B
- Authority
- CN
- China
- Prior art keywords
- data
- mining
- module
- development
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000007418 data mining Methods 0.000 title claims abstract description 57
- 238000011161 development Methods 0.000 claims abstract description 74
- 238000005065 mining Methods 0.000 claims abstract description 67
- 230000008569 process Effects 0.000 claims abstract description 32
- 238000012800 visualization Methods 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 238000002360 preparation method Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 24
- 238000004519 manufacturing process Methods 0.000 claims description 23
- 238000007781 pre-processing Methods 0.000 claims description 17
- 230000009467 reduction Effects 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000007726 management method Methods 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 7
- 238000003066 decision tree Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000012706 support-vector machine Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 230000006872 improvement Effects 0.000 claims description 6
- 238000004886 process control Methods 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 238000004806 packaging method and process Methods 0.000 claims description 4
- 241000288113 Gallirallus australis Species 0.000 claims description 3
- 208000025174 PANDAS Diseases 0.000 claims description 3
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 claims description 3
- 235000016496 Panda oleosa Nutrition 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000012098 association analyses Methods 0.000 claims description 3
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 238000013144 data compression Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000013401 experimental design Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 238000012731 temporal analysis Methods 0.000 claims description 3
- 238000000700 time series analysis Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000009960 carding Methods 0.000 claims description 2
- 240000000220 Panda oleosa Species 0.000 claims 1
- 230000009897 systematic effect Effects 0.000 abstract description 2
- 238000006722 reduction reaction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 240000004718 Panda Species 0.000 description 2
- 238000004138 cluster model Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/02—Electrically-operated educational appliances with visual presentation of the material to be studied, e.g. using film strip
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/0053—Computers, e.g. programming
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据挖掘课程教学实践系统和基于系统的教学实践方法,系统包括由下至上依次连接的挖掘业务与数据层、理论方法层、应用与可视化层,挖掘业务与数据层具有数据准备模块,用于设置数据挖掘业务和获取所需数据;理论方法层为各种挖掘流程框架、算法原理、使用范式和开发实现方法;应用与可视化层通过人机界面连接理论方法层和挖掘业务与数据层,应用与可视化层具有核心功能开发模块,用于系统菜单设置、参数配置可视化、输入输出操作、调用理论方法层的存储内容处理数据、数据挖掘业务的开发过程和结果可视化。本发明可以方便教师授课和使学生对数据挖掘业务、流程框架有更系统性的认识,提升学生的数据科学思维。
Description
技术领域
本发明涉及数据挖掘和教学技术领域,特别涉及一种数据挖掘课程教学实践系统和基于系统的教学实践方法。
背景技术
近年来,数据驱动的智能产品不断扩展了制造业的新领域;制造数据作为生产资料的智能生产正在引领生产方式变革;基于大数据的个性化定制、精准供应链等智能服务正在重塑产业价值链体系。为适应甚至引领依赖于数据的智能制造产业(智能产品、生产和服务)变革,面向智能制造的机械专业学生数据思维即挖掘数据所蕴藏的知识、规律和模式以支持决策的思维模式培养需求迫切。
开设数据挖掘或大数据课程是加强数据思维培养的重要手段。但当前数据挖掘课程教学实践主要基于如下两种模式:一种是在已封装接口或页面上开展挖掘分析实践,在这种模式下算法的原理介绍和具体实现脱节,并且学生的程序拓展开发实践也得不到训练。另一种是以训练程序开发实践为主,学生针对不同算法开发小程序,但其统一性、集成性和系统性差,不利于支持教师示范演示和学生在统一平台开展挖掘分析实践。
发明内容
本发明的第一目的在于克服现有技术的缺点与不足,提供一种数据挖掘课程教学实践系统,该系统可以方便教师授课和使学生对数据挖掘业务、流程框架有更系统性的认识,提升学生的数据科学思维。
本发明的第二目的在于提供一种基于数据挖掘课程教学实践系统的教学实践方法。
本发明的第一目的通过下述技术方案实现:一种数据挖掘课程教学实践系统,包括:由下至上依次连接的挖掘业务与数据层、理论方法层、应用与可视化层,其中,
挖掘业务与数据层具有数据准备模块,用于根据课程教学内容设置相应的数据挖掘业务和获取所需数据;
理论方法层为各种挖掘流程框架、算法原理、使用范式和开发实现方法;
应用与可视化层通过人机界面连接理论方法层和挖掘业务与数据层,应用与可视化层具有核心功能开发模块,用于系统菜单设置、参数配置可视化、输入输出操作、调用理论方法层的存储内容对数据进行处理、数据挖掘业务的开发过程和结果可视化。
优选的,挖掘业务与数据层获取的数据包括仿真数据、观测数据、实验设计所得数据,数据通过收集和从数据仓库、数据集市、数据库和数据文件这些数据源选取或者融合得到。
优选的,核心功能开发模块包括依次连接的数据基本统计模块、数据预处理模块、挖掘分析模块、评价和解释模块以及开发实现模块,数据基本统计模块和数据预处理模块均连接数据准备模块,其中,
数据基本统计模块用于对数据进行数量统计、计算最大值、最小值、中位数、均值和方差;
数据预处理模块用于对准备的数据进行数据清洗、转换、消减和离散的预处理;
挖掘分析模块用于对经过预处理的数据进行描述型挖掘或者预测型挖掘,描述型挖掘包括对数据的概述、聚类分析、关联分析和序列模式挖掘;预测型挖掘包括对数据的分类、预测、时间序列分析和异常检测;
评价和解释模块用于将开发过程和结果按照不同挖掘业务的相应指标进行评价说明和以图表的可视化形式进行解释;
开发实现模块用于供学生利用各种开发语言和平台、软件、算法专用包和自行开发程序包编译开发数据挖掘的相关功能。
更进一步的,数据清洗包括冗余数据检测和删除、异常数据处理、噪声消除、缺失值处理、离群值筛选;
数据转换是指数据形式的变换处理,包括数据归一化;
数据消减包括参数降维、数据约简和压缩,数据约简包括数据抽样,数据压缩包括主成分分析;
数据离散是指数据的离散化处理。
更进一步的,描述型挖掘所用到的模型为聚类模型,包括K-means模型、Agglomerative模型、DBSCAN模型、FCM模型、自组织映射神经网络、快速搜索密度峰值聚类模型;
预测型挖掘所用到的模型为分类模型或者预测模型,其中,分类模型包括逻辑回归模型、C4.5决策树、CART决策树、随机森林、贝叶斯网络、支持向量机、人工神经网络、深度置信网络;预测模型包括线性回归模型、随机森林、支持向量机、人工神经网络、深度置信网络。
更进一步的,开发语言包括C语言、C++、Python;
平台包括Tensorflow、Pandas Caffe、Torch、Spark、MapReduce;
软件包括Orange、R software、Weka、KNIME、Rapidminer或者其他免费软件,以及Sisense、Oracle data mining、IBM Intelligent Miner、SAP Business Objects、SAS、SPSS modeler、Matlab或者其他商业软件。
更进一步的,系统采用Matlab和Python联合开发,其中,系统的三层框架、应用与可视化层的核心功能和可视化采用Matlab实现。
本发明的第二目的通过下述技术方案实现:一种基于本发明第一目的所述的数据挖掘课程教学实践系统的教学实践方法,步骤如下:
S1、教师通过数据挖掘课程教学实践系统对课程教学内容进行示范性讲授,并针对不同专业和课程要求的学生布置相应的课程任务;
S2、基于数据挖掘课程教学实践系统和待完成的课程任务,学生通过人机界面设置数据准备模块的数据挖掘业务和获取所需数据,在核心功能开发模块上调用理论方法层的存储内容和配置参数来进行编译开发,得到可视化的开发过程和结果;
S3、教师根据系统上可视化的开发过程和结果对学生的实操进行指导分析。
优选的,步骤S1中讲授的内容包括:介绍产品全生命周期的挖掘业务和数据;梳理挖掘的流程;梳理各个算法的关键原理和重要参数;在核心功能开发模块上进行开发编译的案例演示;
编译开发的过程包括在系统的开发实现模块上编写和修改代码、参数配置和调优、算法选择、调试以及封装,在评价和解释模块上查看可视化图表和数据指标解释。
更进一步的,产品全生命周期数据类型包括:工程数据、企业资源环境数据、生产计划数据、制造结果数据等、交易和交互数据;产品全生命周期的挖掘业务包括:质量改进、生产管理、过程控制、客户管理、供应链优化;
对于机械设计或者制造工程专业的学生,数据准备模块上设置的数据挖掘业务和选取的数据偏向于质量改进、生产管理业务;
对于自动化、电子工程、机电专业的学生,数据准备模块上设置的数据挖掘业务和选取的数据偏向于数据驱动的过程控制、故障诊断与预测业务。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明数据挖掘课程教学实践系统,包括由下至上依次连接的挖掘业务与数据层、理论方法层、应用与可视化层,其中,挖掘业务与数据层具有数据准备模块,用于根据课程教学内容设置相应的数据挖掘业务和获取所需数据;理论方法层为各种挖掘流程框架、算法原理、使用范式和开发实现方法;应用与可视化层通过人机界面连接理论方法层和挖掘业务与数据层,应用与可视化层具有核心功能开发模块,用于系统菜单设置、参数配置可视化、输入输出操作、调用理论方法层的存储内容对数据进行处理、数据挖掘业务的开发过程和结果可视化。本发明系统可供师生使用,统一性、集成性和系统性更佳,既方便教师授课,又能使学生对数据挖掘业务、流程框架有更系统性的认识,在算法原理理解、开发实现、参数调优、不同算法特性对比等方面得到良好训练,使学生的数据科学思维得以提升。
(2)本发明系统中,核心功能开发模块能够实现对数据的基本统计、各种预处理,挖掘分析、对实现的功能进行评价和解释以及拓展开发,挖掘流程完整,功能全面,能够满足不同专业的课程教学实践要求。
(3)本发明系统的开发实现模块可支持各种开发语言和平台、软件、算法专用包和自行开发程序包来实现编译开发,学生可在此开展知识点驱动的自主学习,以便更好地理解算法原理、查看源代码、调优参数等,提高学习效率和效果,可见,系统的灵活性和可开拓性强。
附图说明
图1是本发明数据挖掘课程教学实践系统的框架示意图。
图2是图1系统中数据准备模块和核心功能开发模块的连接示意图。
图3是本发明教学实践方法的流程图。
图4是常用算法的关键原理和重要参数。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本实施例公开了一种数据挖掘课程教学实践系统,如图1所示,包括:由下至上依次连接的挖掘业务与数据层、理论方法层、应用与可视化层。
如图2所示,挖掘业务与数据层具有数据准备模块,用于根据课程教学内容设置相应的数据挖掘业务和获取所需数据,数据包括仿真数据、观测数据、实验设计所得数据,具体可通过收集和从数据仓库、数据集市、数据库和数据文件这些数据源选取或者融合得到。
理论方法层为各种挖掘流程框架、算法原理、使用范式和开发实现方法。
应用与可视化层通过人机界面连接理论方法层和挖掘业务与数据层,应用与可视化层具有核心功能开发模块,用于系统菜单设置、参数配置可视化、输入输出操作、调用理论方法层的存储内容对数据进行处理、数据挖掘业务的开发过程和结果可视化。
核心功能开发模块包括依次连接的数据基本统计模块、数据预处理模块、挖掘分析模块、评价和解释模块以及开发实现模块,数据基本统计模块和数据预处理模块均连接数据准备模块,具体如下:
数据基本统计模块用于对数据进行数量统计、计算最大值、最小值、中位数、均值和方差。
数据预处理模块用于对准备的数据进行数据清洗、转换、消减和离散的预处理。其中,参见图2,数据清洗包括冗余数据检测和删除、异常数据处理、噪声消除、缺失值处理、离群值筛选。数据转换是指数据形式的变换处理,包括数据归一化。数据消减包括参数降维、数据约简和压缩,数据约简包括数据抽样,数据压缩包括主成分分析。数据离散是指数据的离散化处理。
挖掘分析模块用于对经过预处理的数据进行描述型挖掘或者预测型挖掘,描述型挖掘包括对数据的概述、聚类分析、关联分析和序列模式挖掘,所用到的模型为聚类模型,不仅包括经典算法模型例如K-means模型、Agglomerative模型、DBSCAN模型(Density-based spatial clustering of applications with noise)、FCM模型(Fuzzy C-means)和自组织映射神经网络,还包括了近年来高水平研究成果,比如快速搜索密度峰值聚类模型。
预测型挖掘包括对数据的分类、预测、时间序列分析和异常检测,所用到的模型为分类模型或者预测模型,其中,分类模型包括逻辑回归模型、C4.5决策树、CART决策树、随机森林、贝叶斯网络、支持向量机(Support vector machine,SVM)、人工神经网络(Artificial Neural Network,ANN)、深度置信网络;预测模型包括线性回归模型、随机森林、支持向量机、人工神经网络、深度置信网络。
评价和解释模块用于将开发过程和结果按照不同挖掘业务的相应指标进行评价说明和以图表的可视化形式例如决策树或者决策图进行解释。
开发实现模块用于供学生利用各种开发语言和平台、软件、算法专用包和自行开发程序包编译开发数据挖掘的相关功能。其中,开发语言包括C语言、C++、Python。平台包括Tensorflow、Pandas Caffe、Torch、Spark、MapReduce。软件包括Orange、R software、Weka、KNIME、Rapidminer或者其他免费软件,以及Sisense、Oracle data mining、IBMIntelligent Miner、SAP Business Objects、SAS、SPSS modeler、Matlab或者其他商业软件。
在本实施例中,系统采用Matlab和Python联合开发,其中,系统的三层框架、应用与可视化层的核心功能和可视化采用Matlab实现,部分算法采用Python开发实现,比如特征选择算法调用Python3.6开发的机器学习库sklearn实现。
并且,本实施例系统菜单整体主要被划分为基本统计、数据预处理、分类模型、预测模型、聚类模型这五个一级子菜单。其中,基本统计具有数量统计、最大值、最小值、中位数、均值和方差的二级子菜单,每个二级子菜单对应一个页面。数据预处理菜单具有数据清洗、转换、消减和离散这四个二级子菜单,每个二级子菜单具有相应的三级子菜单,例如,数据消减二级子菜单具有参数降维、数据约简和压缩的三级子菜单,每个三级子菜单对应一个页面,其独立完成相应预处理功能。而分类、预测和聚类模型菜单下分别对应一个执行页面,具体实现机制可在对应执行页面中的算法列表中选择调用。整体上各页面一般可完成数据(或配置文件)的选择、参数的配置(弹出参数设置页面)、结果(包括中间迭代结果)的可视化以及最终结果输出操作等。
如图3所示,本实施例还公开了一种基于上述数据挖掘课程教学实践系统的教学实践方法,步骤如下:
S1、教师通过数据挖掘课程教学实践系统对课程教学内容进行示范性讲授。讲授的内容可包括:(1)介绍产品全生命周期的挖掘业务和数据,产品全生命周期数据类型包括:工程数据、企业资源环境数据、生产计划数据、制造结果数据等、交易和交互数据;产品全生命周期的挖掘业务包括:质量改进、生产管理、过程控制、客户管理、供应链优化。(2)梳理挖掘的流程(数据准备、数据预处理、挖掘分析、评价和解释、开发实现),可参见图2。(3)梳理各个算法的关键原理和重要参数,常用算法可参见图4,有利于指导开发时页面封装、参数传递和代码编写。(4)在核心功能开发模块上进行开发编译的案例演示,可以使得学生对核心课程内容有系统性认识。
教师针对不同专业和课程要求的学生布置相应的课程任务。例如,对于机械设计或者制造工程专业的学生,数据准备模块上设置的数据挖掘业务和选取的数据偏向于质量改进、生产管理业务。对于自动化、电子工程、机电专业的学生,数据准备模块上设置的数据挖掘业务和选取的数据偏向于数据驱动的过程控制、故障诊断与预测业务。学生可在具体需求引导下探索挖掘技术,以提高其关联问题、数据以及算法的能力。
S2、基于数据挖掘课程教学实践系统和待完成的课程任务,学生通过人机界面设置数据准备模块的数据挖掘业务和获取所需数据,在核心功能开发模块上调用理论方法层的存储内容和配置参数来进行编译开发,得到可视化的开发过程和结果。编译开发的过程包括在系统的开发实现模块上编写和修改代码、参数配置和调优、算法选择、调试以及封装,在评价和解释模块上查看可视化图表和数据指标解释。
S3、教师根据系统上可视化的开发过程和结果对学生的实操进行指导分析。
利用上述方法,学生能够发挥群体智能,针对课程任务完成分组分工,通过网络视频(比如慕课)、查阅论文、论坛等方式完成资料查阅、算法选择;通过源代码查阅、调试等完成程序开发实践,加深对算法原理的理解;基于数据挖掘课程教学实践系统完成参数调优、案例测试、报告撰写等挖掘分析实践;最后通过教师指导、分享、讨论互动等强化效果,内化知识,以此提升能力;学有余力的学生还可以根据存在问题研究新的理论方法、开展扩展开发。教师在数据挖掘课程教学实践系统的基础上,可以研究PBL等教学模式与混合式学习、翻转课堂、慕课等结合的教学方式方法,在实践中以产品生产服务等具体挖掘问题、案例和项目为基础,以学生为主体,以教师为向导开展更高效的教学。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种数据挖掘课程教学实践系统,其特征在于,包括:由下至上依次连接的挖掘业务与数据层、理论方法层、应用与可视化层,其中,
挖掘业务与数据层具有数据准备模块,用于根据课程教学内容设置相应的数据挖掘业务和获取所需数据;
理论方法层为各种挖掘流程框架、算法原理、使用范式和开发实现方法;
应用与可视化层通过人机界面连接理论方法层和挖掘业务与数据层,应用与可视化层具有核心功能开发模块,用于系统菜单设置、参数配置可视化、输入输出操作、调用理论方法层的存储内容对数据进行处理、数据挖掘业务的开发过程和结果按照不同挖掘业务的相应指标做评价说明以及可视化;
核心功能开发模块包括依次连接的数据基本统计模块、数据预处理模块、挖掘分析模块、评价和解释模块以及开发实现模块,数据基本统计模块和数据预处理模块均连接数据准备模块,其中,
数据基本统计模块用于对数据进行数量统计、计算最大值、最小值、中位数、均值和方差;
数据预处理模块用于对准备的数据进行数据清洗、转换、消减和离散的预处理;
挖掘分析模块用于对经过预处理的数据进行描述型挖掘或者预测型挖掘,描述型挖掘包括对数据的概述、聚类分析、关联分析和序列模式挖掘;预测型挖掘包括对数据的分类、预测、时间序列分析和异常检测;
评价和解释模块用于将开发过程和结果按照不同挖掘业务的相应指标进行评价说明和以图表的可视化形式进行解释;
开发实现模块用于供学生利用各种开发语言和平台、软件、算法专用包和自行开发程序包编译开发数据挖掘的相关功能。
2.根据权利要求1所述的数据挖掘课程教学实践系统,其特征在于,挖掘业务与数据层获取的数据包括仿真数据、观测数据、实验设计所得数据,数据通过收集和从数据仓库、数据集市、数据库和数据文件这些数据源选取或者融合得到。
3.根据权利要求1所述的数据挖掘课程教学实践系统,其特征在于,数据清洗包括冗余数据检测和删除、异常数据处理、噪声消除、缺失值处理、离群值筛选;
数据转换是指数据形式的变换处理,包括数据归一化;
数据消减包括参数降维、数据约简和压缩,数据约简包括数据抽样,数据压缩包括主成分分析;
数据离散是指数据的离散化处理。
4.根据权利要求1所述的数据挖掘课程教学实践系统,其特征在于,描述型挖掘所用到的模型为聚类模型,包括K-means模型、Agglomerative模型、DBSCAN模型、FCM模型、自组织映射神经网络、快速搜索密度峰值聚类模型;
预测型挖掘所用到的模型为分类模型或者预测模型,其中,分类模型包括逻辑回归模型、C4.5决策树、CART决策树、随机森林、贝叶斯网络、支持向量机、人工神经网络、深度置信网络;预测模型包括线性回归模型、随机森林、支持向量机、人工神经网络、深度置信网络。
5.根据权利要求1所述的数据挖掘课程教学实践系统,其特征在于,开发语言包括C语言、C++、Python;
平台包括Tensorflow、Pandas Caffe、Torch、Spark、MapReduce;
软件包括Orange、R software、Weka、KNIME、Rapidminer或者其他免费软件,以及Sisense、Oracledata mining、IBM Intelligent Miner、SAP Business Objects、SAS、SPSSmodeler、Matlab或者其他商业软件。
6.根据权利要求1所述的数据挖掘课程教学实践系统,其特征在于,系统采用Matlab和Python联合开发,其中,系统的三层框架、应用与可视化层的核心功能和可视化采用Matlab实现。
7.一种基于权利要求1至权利要求6中任一项所述的数据挖掘课程教学实践系统的教学实践方法,其特征在于,步骤如下:
S1、教师通过数据挖掘课程教学实践系统对课程教学内容进行示范性讲授,并针对不同专业和课程要求的学生布置相应的课程任务;
S2、基于数据挖掘课程教学实践系统和待完成的课程任务,学生通过人机界面设置数据准备模块的数据挖掘业务和获取所需数据,在核心功能开发模块上调用理论方法层的存储内容和配置参数来进行编译开发,得到按照不同挖掘业务的相应指标来评价说明以及可视化的开发过程和结果;
S3、教师根据系统上可视化的开发过程和结果对学生的实操进行指导分析。
8.根据权利要求7所述的教学实践方法,其特征在于,步骤S1中讲授的内容包括:介绍产品全生命周期的挖掘业务和数据;梳理挖掘的流程;梳理各个算法的关键原理和重要参数;在核心功能开发模块上进行开发编译的案例演示;
编译开发的过程包括在系统的开发实现模块上编写和修改代码、参数配置和调优、算法选择、调试以及封装,在评价和解释模块上查看可视化图表和数据指标解释。
9.根据权利要求8所述的教学实践方法,其特征在于,产品全生命周期数据类型包括:工程数据、企业资源环境数据、生产计划数据、制造结果数据、交易和交互数据;产品全生命周期的挖掘业务包括:质量改进、生产管理、过程控制、客户管理、供应链优化;
对于机械设计或者制造工程专业的学生,数据准备模块上设置的数据挖掘业务和选取的数据偏向于质量改进、生产管理业务;
对于自动化、电子工程、机电专业的学生,数据准备模块上设置的数据挖掘业务和选取的数据偏向于数据驱动的过程控制、故障诊断与预测业务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010150693.8A CN111260969B (zh) | 2020-03-06 | 2020-03-06 | 数据挖掘课程教学实践系统和基于系统的教学实践方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010150693.8A CN111260969B (zh) | 2020-03-06 | 2020-03-06 | 数据挖掘课程教学实践系统和基于系统的教学实践方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111260969A CN111260969A (zh) | 2020-06-09 |
CN111260969B true CN111260969B (zh) | 2021-12-14 |
Family
ID=70947643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010150693.8A Active CN111260969B (zh) | 2020-03-06 | 2020-03-06 | 数据挖掘课程教学实践系统和基于系统的教学实践方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111260969B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111752995A (zh) * | 2020-06-30 | 2020-10-09 | 成都信息工程大学 | 一种学生数据挖掘系统及方法 |
CN113887158B (zh) * | 2021-12-06 | 2022-03-01 | 山东科技大学 | 虚拟仿真教学方法、系统以及计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108205579A (zh) * | 2016-12-20 | 2018-06-26 | 广东技术师范学院 | 基于海量数据的大数据挖掘系统 |
CN108665396A (zh) * | 2018-05-14 | 2018-10-16 | 有时数联科技(北京)有限公司 | 一种大数据教育实训方法及系统 |
CN108958947A (zh) * | 2018-09-17 | 2018-12-07 | 北京市计算中心 | 一种大数据一体机及其使用方法 |
KR101996382B1 (ko) * | 2018-02-14 | 2019-07-03 | 동서대학교 산학협력단 | 빅데이터를 이용한 플랫폼 기반 대학 정보 데이터 분석 시스템 |
CN110008259A (zh) * | 2019-02-20 | 2019-07-12 | 中科恒运股份有限公司 | 可视化数据分析的方法及终端设备 |
CN110019414A (zh) * | 2017-12-30 | 2019-07-16 | 广州明领基因科技有限公司 | 基于分布式并行计算的大数据挖掘系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100476819C (zh) * | 2006-12-27 | 2009-04-08 | 章毅 | 一种基于Web的数据挖掘系统及其控制方法 |
CN100583098C (zh) * | 2007-12-06 | 2010-01-20 | 中国电信股份有限公司 | 一种数据挖掘系统和方法 |
CN102789702B (zh) * | 2011-12-08 | 2015-03-25 | 南京奥派信息技术有限责任公司 | 基于云计算的网络实践教学平台 |
CN106503039A (zh) * | 2016-09-20 | 2017-03-15 | 南京邮电大学 | 一种可视化实时数据挖掘系统及方法 |
CN108460139B (zh) * | 2018-03-09 | 2022-09-06 | 上海开放大学 | 基于网络爬虫数据挖掘在线课程教学质量评估管理系统 |
CN108874861B (zh) * | 2018-04-19 | 2021-05-04 | 华南师范大学 | 一种教学大数据可视化分析系统及方法 |
CN108710696A (zh) * | 2018-05-23 | 2018-10-26 | 国网浙江省电力有限公司电力科学研究院 | 一种电网数据挖掘分析平台及其实现方法 |
-
2020
- 2020-03-06 CN CN202010150693.8A patent/CN111260969B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108205579A (zh) * | 2016-12-20 | 2018-06-26 | 广东技术师范学院 | 基于海量数据的大数据挖掘系统 |
CN110019414A (zh) * | 2017-12-30 | 2019-07-16 | 广州明领基因科技有限公司 | 基于分布式并行计算的大数据挖掘系统 |
KR101996382B1 (ko) * | 2018-02-14 | 2019-07-03 | 동서대학교 산학협력단 | 빅데이터를 이용한 플랫폼 기반 대학 정보 데이터 분석 시스템 |
CN108665396A (zh) * | 2018-05-14 | 2018-10-16 | 有时数联科技(北京)有限公司 | 一种大数据教育实训方法及系统 |
CN108958947A (zh) * | 2018-09-17 | 2018-12-07 | 北京市计算中心 | 一种大数据一体机及其使用方法 |
CN110008259A (zh) * | 2019-02-20 | 2019-07-12 | 中科恒运股份有限公司 | 可视化数据分析的方法及终端设备 |
Non-Patent Citations (1)
Title |
---|
"大数据应用的关键技术研究";陈凯;《电信网技术》;20150831(第8期);第1-4页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111260969A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
de Assis Dornelles et al. | Smart Working in Industry 4.0: How digital technologies enhance manufacturing workers' activities | |
Semeraro et al. | Digital twin paradigm: A systematic literature review | |
Schneidewind | The state of software maintenance | |
CN107590319B (zh) | 一种用于机械产品方案辅助设计的知识建模方法和系统 | |
US5701400A (en) | Method and apparatus for applying if-then-else rules to data sets in a relational data base and generating from the results of application of said rules a database of diagnostics linked to said data sets to aid executive analysis of financial data | |
Tanchoco | Material flow systems in manufacturing | |
EP2250589A2 (en) | Systems and methods for mapping enterprise data | |
Lavalle et al. | Visualization requirements for business intelligence analytics: a goal-based, iterative framework | |
Michalczyk et al. | A state-of-the-art overview and future research avenues of self-service business intelligence and analytics | |
CN111260969B (zh) | 数据挖掘课程教学实践系统和基于系统的教学实践方法 | |
CN116485576A (zh) | 一种航空制造业知源大脑数据智能制造管理平台 | |
CN115438199A (zh) | 一种基于智慧城市场景数据中台技术的知识平台系统 | |
CN115718472A (zh) | 水电机组故障扫描诊断方法 | |
Worley et al. | Adding decision support to workflow systems by reusable standard software components | |
Thilagaraj et al. | A Review of Educational Data Mining in Higher Education System. | |
Berio et al. | The M*-OBJECT methodology for information system design in CIM environments | |
CN114862233A (zh) | 智能决策方法和智能决策系统 | |
Ivaschenko et al. | Accented visualization for augmented reality | |
CN109308563A (zh) | 一种模块化工业服务平台、工作方法及配置方法 | |
Djebali et al. | Survey and insights on digital twins design and smart grid’s applications | |
Burd et al. | A method for the identification of reusable units through the reengineering of legacy code | |
CN112132534B (zh) | 一种武器装备全寿命周期综合保障数据的管理方法及系统 | |
Quashem | Design structure matrix: models, applications and data exchange format | |
Wang | Auxiliary Code Automatic Generation Algorithm Of Intelligent Art Platform Design Framework Based On Visual 3D Information Modeling | |
Rembold et al. | An integrated framework for the design of material flow systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |