CN109376185A - 大数据环境下的数据挖掘系统及其应用 - Google Patents

大数据环境下的数据挖掘系统及其应用 Download PDF

Info

Publication number
CN109376185A
CN109376185A CN201811250595.0A CN201811250595A CN109376185A CN 109376185 A CN109376185 A CN 109376185A CN 201811250595 A CN201811250595 A CN 201811250595A CN 109376185 A CN109376185 A CN 109376185A
Authority
CN
China
Prior art keywords
data
mining
module
under big
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811250595.0A
Other languages
English (en)
Inventor
秦爱民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jinxi Information Technology Service Co Ltd
Original Assignee
Guangzhou Jinxi Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jinxi Information Technology Service Co Ltd filed Critical Guangzhou Jinxi Information Technology Service Co Ltd
Priority to CN201811250595.0A priority Critical patent/CN109376185A/zh
Publication of CN109376185A publication Critical patent/CN109376185A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了大数据环境下的数据挖掘系统及其应用,数据挖掘系统包括数据预处理模块、数据挖掘模块、模式评估模块、知识表示和系统后台管理模块,该系统可应用于物联网系统、地理信息系统、电力调度自动化系统、远程监控系统、农业信息化系统、金融保险信息系统、电子商务系统。该系统为海量的数据信息库、大量挖掘算法和各类可视化构件的编写事先制定好标准,把符合标准的构件全部接人平台,以便其他组件调用;通过利用GEF和RCP技术使用户拥有简单便捷的操作界面,提高数据挖掘的可视化;它能够支持大量的数据预处理算法、多种结构复杂的数据源和许多经典的挖掘算法,能够在多行业多领域的分析搜索和研究决策。

Description

大数据环境下的数据挖掘系统及其应用
技术领域
本发明涉及数据挖掘系统,尤其涉及大数据环境下的数据挖掘系统及其应用。
背景技术
随着信息技术高速发展,社会各行各业不断产生各种海量数据,导致数据爆炸性增长,进入大数据时代。各个行业所积累的海量数据中一般都包含丰富的隐性可用价值的知识,但同时大数据还具有内容不可预测、多样性的特点、因此亟需强大的数据分析工具对数据进行分析与处理,从而为商业决策、教育等领域提供强有力的信息支持。数据挖掘技术是信息时代的标志,是指从大量存放在各种信息库系统、数据库或数据仓库中的结构复杂、数日庞杂的海量数据中寻找有用信息的过程。数据挖掘又称为知识发现,可以从大量的、有噪音的、不完整的、模糊的、随机的数据中搜寻隐含在其中的信息。
在国外数据挖掘技术早已被广泛应用于保险业、生物医学、金融业和旅游业等领域,国内虽然已在理论研究方面取得了显著的科研成果,并已被应用在各个领域,进行相关数据信息的统计分析。例如,淘宝软件利用数据挖掘技术对消费者的商品信息和用户个人资料进行挖掘分析,研究出买家的心理价位和网购需求等信息,由此为消费者推荐合适的商品,这样就能节省消费者查找商品的时间,提高网购效率。但常用的传统数据挖掘是采用搜索算法从数据库大量信息中提取所需的有用数据,但在数据挖掘系统软件开发和应用方面还处在刚起步的初级阶段。
发明内容
本发明的目的是克服上述现有技术的缺点,提供一种高可靠性、高扩展性、高通用性的大数据环境下的数据挖掘系统及其应用。
本发明是通过以下技术方案来实现的:
大数据环境下的数据挖掘系统,包括:
数据预处理模块,用于从数据源中收集所需要挖掘的原始数据,再利用清洗算法和调用模型的相关接口服务对所述的原始数据进行清洗操作并输出清洗结果,然后按类别集成所述清洗结果并选出有利用价值的相关数据,最后将预处理结果通过类型转化后提交给控制层;
数据挖掘模块,首先通过控制器将所述数据预处理模块的预处理结果按类别分开;其次利用相应的分类算法对不同种类的数据进行分析研究,查找出隐避的有价值数据;最后控制器根据抽样结果类型选择最优的挖掘类型和挖掘算法,完成数据挖掘任务;并将挖掘结果提交给评估层;
模式评估模块,通过对所述数据挖掘模块的挖掘结果实现模式对比和评估,鉴别出最理想的挖掘结果并进行分离;
知识表示,根据用户特点和个性需求来评估知识表示模式,对所述模式评估模块选出的最优挖掘结果进行可视化处理后利用知识表示的形式展示给用户;
系统后台管理模块,用于对数据挖掘平台的管理,包括用户个人信息、平台安全、系统服务和数据资源;通过后台管理模块为用户提供相关数据、服务和软件来响应来自客户端的请求信息。
进一步的,所述数据挖掘系统是以模板语言Apache Velocity为基础,利用GEF图形编辑框架通过面向对象的方式来实现。
进一步的,所述数据挖掘模块提供数据预处理、统计分析、机器学习、文本处理的数据挖掘组件。
进一步的,所述挖掘算法为朴素贝叶斯算法、神经网络算法、决策树算法中的一种或几种。
进一步的,所述知识表示中包括用于可视化展示给用户的可视化用户接口。
该系统可应用于物联网系统、地理信息系统、电力调度自动化系统、远程监控系统、农业信息化系统、金融保险信息系统、电子商务系统。
进一步的,该系统应用于物联网系统中的数据是通过结合传感器网络、有线网络、无线网络来实现;数据挖掘模块包括区分、关联、特征、聚类、趋势和演化分析、偏差分析、类似性分析。
进一步的,该系统应用于电力调度自动化系统中的数据挖掘技术包括灰色分析法、神经网络法、模糊分析法;所述应用包括负荷管理系统、线路故障系统、状态检修系统。
进一步的,该系统应用于地理信息系统中的数据包括3D数据、公共地理框架数据以及街景、实时位置以及感知数据、网络设备传输的流数据;所述应用包括城市人文信息的挖掘、公安应急应用、环境与卫生监测、交通出行规划应用。
本发明的数据挖掘系统采用MVC架构软件设计模式,为各种数据挖掘算法提供一个良好的应用环境,为海量的数据信息库、大量挖掘算法和各类可视化构件的编写事先制定好标准,把符合标准的构件全部接人平台,以便其他组件调用;通过利用GEF和RCP技术使用户拥有简单便捷的操作界面,提高了数据挖掘的可视化;它能够支持大量的数据预处理算法、多种结构复杂的数据源和许多经典的挖掘算法,能够在多行业多领域的分析搜索和研究决策。
具体实施方式
大数据环境下的数据挖掘系统,包括:
数据预处理模块,用于从数据源中收集所需要挖掘的原始数据,再利用清洗算法和调用模型的相关接口服务对所述的原始数据进行清洗操作并输出清洗结果,然后按类别集成所述清洗结果并选出有利用价值的相关数据,最后将预处理结果通过类型转化后提交给控制层;
数据挖掘模块,首先通过控制器将所述数据预处理模块的预处理结果按类别分开;其次利用相应的分类算法对不同种类的数据进行分析研究,查找出隐避的有价值数据;最后控制器根据抽样结果类型选择最优的挖掘类型和挖掘算法,完成数据挖掘任务;并将挖掘结果提交给评估层;
模式评估模块,通过对所述数据挖掘模块的挖掘结果实现模式对比和评估,鉴别出最理想的挖掘结果并进行分离;
知识表示,根据用户特点和个性需求来评估知识表示模式,对所述模式评估模块选出的最优挖掘结果进行可视化处理后利用知识表示的形式展示给用户;
系统后台管理模块,用于对数据挖掘平台的管理,包括用户个人信息、平台安全、系统服务和数据资源;通过后台管理模块为用户提供相关数据、服务和软件来响应来自客户端的请求信息。
所述数据挖掘系统是以模板语言Apache Velocity为基础,利用GEF图形编辑框架通过面向对象的方式来实现。
所述数据挖掘模块提供数据预处理、统计分析、机器学习、文本处理的数据挖掘组件。
所述挖掘算法为朴素贝叶斯算法、神经网络算法、决策树算法中的一种或几种。
所述知识表示中包括用于可视化展示给用户的可视化用户接口。
该系统可应用于物联网系统、地理信息系统、电力调度自动化系统、远程监控系统、农业信息化系统、金融保险信息系统、电子商务系统。
该系统应用于物联网系统中的数据是通过结合传感器网络、有线网络、无线网络来实现;数据挖掘模块包括区分、关联、特征、聚类、趋势和演化分析、偏差分析、类似性分析。
该系统应用于电力调度自动化系统中的数据挖掘技术包括灰色分析法、神经网络法、模糊分析法;所述应用包括负荷管理系统、线路故障系统、状态检修系统。
该系统应用于地理信息系统中的数据包括3D数据、公共地理框架数据以及街景、实时位置以及感知数据、网络设备传输的流数据;所述应用包括城市人文信息的挖掘、公安应急应用、环境与卫生监测、交通出行规划应用。
上列详细说明是针对本发明可行实施例的具体说明,该实施例并非用以限制本发明的专利范围,凡未脱离本发明所为的等效实施或变更,均应包含于本案的专利范围中。

Claims (9)

1.大数据环境下的数据挖掘系统,其特征在于,所述数据挖掘系统包括:
数据预处理模块,用于从数据源中收集所需要挖掘的原始数据,再利用清洗算法和调用模型的相关接口服务对所述的原始数据进行清洗操作并输出清洗结果,然后按类别集成所述清洗结果并选出有利用价值的相关数据,最后将预处理结果通过类型转化后提交给控制层;
数据挖掘模块,首先通过控制器将所述数据预处理模块的预处理结果按类别分开;其次利用相应的分类算法对不同种类的数据进行分析研究,查找出隐避的有价值数据;最后控制器根据抽样结果类型选择最优的挖掘类型和挖掘算法,完成数据挖掘任务;并将挖掘结果提交给评估层;
模式评估模块,通过对所述数据挖掘模块的挖掘结果实现模式对比和评估,鉴别出最理想的挖掘结果并进行分离;
知识表示,根据用户特点和个性需求来评估知识表示模式,对所述模式评估模块选出的最优挖掘结果进行可视化处理后利用知识表示的形式展示给用户;
系统后台管理模块,用于对数据挖掘平台的管理,包括用户个人信息、平台安全、系统服务和数据资源;通过后台管理模块为用户提供相关数据、服务和软件来响应来自客户端的请求信息。
2.根据权利要求1所述的大数据环境下的数据挖掘系统,其特征在于,所述数据挖掘系统是以模板语言Apache Velocity为基础,利用GEF图形编辑框架通过面向对象的方式来实现。
3.根据权利要求1所述的大数据环境下的数据挖掘系统,其特征在于,所述数据挖掘模块提供数据预处理、统计分析、机器学习、文本处理的数据挖掘组件。
4.根据权利要求1所述的大数据环境下的数据挖掘系统,其特征在于,所述挖掘算法为朴素贝叶斯算法、神经网络算法、决策树算法中的一种或几种。
5.根据权利要求1所述的大数据环境下的数据挖掘系统,其特征在于,所述知识表示中包括用于可视化展示给用户的可视化用户接口。
6.权利要求1所述的大数据环境下的数据挖掘系统的应用,其特征在于,应用于物联网系统、地理信息系统、电力调度自动化系统、远程监控系统、农业信息化系统、金融保险信息系统、电子商务系统。
7.根据权利要求6所述的大数据环境下的数据挖掘系统的应用,其特征在于,所述物联网系统中的数据是通过结合传感器网络、有线网络、无线网络来实现;数据挖掘模块包括区分、关联、特征、聚类、趋势和演化分析、偏差分析、类似性分析。
8.根据权利要求6所述的大数据环境下的数据挖掘系统的应用,其特征在于,所述电力调度自动化系统中的数据挖掘技术包括灰色分析法、神经网络法、模糊分析法;所述应用包括负荷管理系统、线路故障系统、状态检修系统。
9.根据权利要求6所述的大数据环境下的数据挖掘系统的应用,其特征在于,所述地理信息系统中的数据包括3D数据、公共地理框架数据以及街景、实时位置以及感知数据、网络设备传输的流数据;所述应用包括城市人文信息的挖掘、公安应急应用、环境与卫生监测、交通出行规划应用。
CN201811250595.0A 2018-10-25 2018-10-25 大数据环境下的数据挖掘系统及其应用 Pending CN109376185A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811250595.0A CN109376185A (zh) 2018-10-25 2018-10-25 大数据环境下的数据挖掘系统及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811250595.0A CN109376185A (zh) 2018-10-25 2018-10-25 大数据环境下的数据挖掘系统及其应用

Publications (1)

Publication Number Publication Date
CN109376185A true CN109376185A (zh) 2019-02-22

Family

ID=65401384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811250595.0A Pending CN109376185A (zh) 2018-10-25 2018-10-25 大数据环境下的数据挖掘系统及其应用

Country Status (1)

Country Link
CN (1) CN109376185A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008273A (zh) * 2019-04-11 2019-07-12 宁夏隆基宁光仪表股份有限公司 一种智能电能表大数据模型处理系统及处理方法
CN110096529A (zh) * 2019-04-16 2019-08-06 中科金联(北京)科技有限公司 一种基于多维矢量数据的网络数据挖掘方法和系统
CN110147406A (zh) * 2019-05-29 2019-08-20 深圳市城市屋超科技有限公司 一种面向云计算的可视化数据挖掘系统及其架构方法
CN111160759A (zh) * 2019-12-27 2020-05-15 上海建工集团股份有限公司 建筑工程施工安全监控大数据的预处理方法及系统
CN112527889A (zh) * 2020-12-25 2021-03-19 贵州树精英教育科技有限责任公司 精准学习数据挖掘
CN112632146A (zh) * 2020-12-03 2021-04-09 成都大数据产业技术研究院有限公司 多人协作的可视化数据挖掘系统
CN113515506A (zh) * 2020-04-10 2021-10-19 中国石油化工股份有限公司 基于大数据挖掘分析的ldar评估系统及方法
CN113723714A (zh) * 2021-11-01 2021-11-30 边缘智能研究院南京有限公司 一种基于物联网的碳达峰预测平台

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008273A (zh) * 2019-04-11 2019-07-12 宁夏隆基宁光仪表股份有限公司 一种智能电能表大数据模型处理系统及处理方法
CN110096529A (zh) * 2019-04-16 2019-08-06 中科金联(北京)科技有限公司 一种基于多维矢量数据的网络数据挖掘方法和系统
CN110147406A (zh) * 2019-05-29 2019-08-20 深圳市城市屋超科技有限公司 一种面向云计算的可视化数据挖掘系统及其架构方法
CN111160759A (zh) * 2019-12-27 2020-05-15 上海建工集团股份有限公司 建筑工程施工安全监控大数据的预处理方法及系统
CN113515506A (zh) * 2020-04-10 2021-10-19 中国石油化工股份有限公司 基于大数据挖掘分析的ldar评估系统及方法
CN112632146A (zh) * 2020-12-03 2021-04-09 成都大数据产业技术研究院有限公司 多人协作的可视化数据挖掘系统
CN112632146B (zh) * 2020-12-03 2023-04-07 成都大数据产业技术研究院有限公司 多人协作的可视化数据挖掘系统
CN112527889A (zh) * 2020-12-25 2021-03-19 贵州树精英教育科技有限责任公司 精准学习数据挖掘
CN113723714A (zh) * 2021-11-01 2021-11-30 边缘智能研究院南京有限公司 一种基于物联网的碳达峰预测平台
CN113723714B (zh) * 2021-11-01 2022-03-25 边缘智能研究院南京有限公司 一种基于物联网的碳达峰预测平台

Similar Documents

Publication Publication Date Title
CN109376185A (zh) 大数据环境下的数据挖掘系统及其应用
Marjani et al. Big IoT data analytics: architecture, opportunities, and open research challenges
Yoon et al. Structuring technological information for technology roadmapping: data mining approach
CN110197280A (zh) 一种知识图谱构建方法、装置及系统
Liu et al. A spatio‐temporal ensemble method for large‐scale traffic state prediction
CN110555568B (zh) 一种基于社交网络信息的道路交通运行状态实时感知方法
Huang et al. A visualization approach for frauds detection in financial market
Yanbin et al. Research on optimization of crane fault predictive control system based on data mining
Lai et al. Application of big data in smart grid
Aghimien et al. A review of the application of data mining for sustainable construction in Nigeria
Singh et al. Analysis on data mining models for Internet Of Things
Kaur et al. Handbook of research on big data and the IoT
CN109784525A (zh) 基于天空地一体化数据的预警方法及装置
CN116959249A (zh) 基于cim的城市信息管理平台及方法
Ge et al. Application of rough set-based analysis to extract spatial relationship indicator rules: An example of land use in Pearl River Delta
CN114780735A (zh) 基于数据分析的政策匹配方法、系统和可读存储介质
Corso Toward predictive crime analysis via social media, big data, and gis spatial correlation
Gokilakrishnan et al. A Review of Applications, Enabling Technologies, Growth Challenges and Solutions for IoT/IIoT
Luo et al. TransFlower: An Explainable Transformer-Based Model with Flow-to-Flow Attention for Commuting Flow Prediction
Li et al. Real-time GIS Programming and Geocomputation
Gulhane et al. TensorFlow Based Website Click through Rate (CTR) Prediction Using Heat maps
Bashynska et al. Global trends in digitalization and smartization of economies and society.
Mei et al. Research on User Behavior Analysis Model of Financial Industry in Big Data Environment
CN118278750B (zh) 一种基于大数据技术的电网规划风险识别方法、装置、设备及存储介质
Zhong et al. Implementation of Logistics Information System Based on Data Mining and High Performance Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190222

WD01 Invention patent application deemed withdrawn after publication