CN115878686A - 一种数据挖掘系统及方法 - Google Patents

一种数据挖掘系统及方法 Download PDF

Info

Publication number
CN115878686A
CN115878686A CN202211072509.8A CN202211072509A CN115878686A CN 115878686 A CN115878686 A CN 115878686A CN 202211072509 A CN202211072509 A CN 202211072509A CN 115878686 A CN115878686 A CN 115878686A
Authority
CN
China
Prior art keywords
data
mining
submodule
algorithm
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211072509.8A
Other languages
English (en)
Inventor
苏笑难
邱雨
李兆坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Cloudlayer Intelligent Technology Co ltd
Original Assignee
Anhui Cloudlayer Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Cloudlayer Intelligent Technology Co ltd filed Critical Anhui Cloudlayer Intelligent Technology Co ltd
Priority to CN202211072509.8A priority Critical patent/CN115878686A/zh
Publication of CN115878686A publication Critical patent/CN115878686A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据挖掘技术领域,公开了一种数据挖掘系统,所述数据挖掘系统包括主控制器、数据处理模块、数据管理模块和数据挖掘模块;本发明通过数据处理模块对获取的数据进行预处理,保证数据挖掘算法使用的数据是干净、准确、有针对性的数据,从而减少数据挖掘算法的数据处理量,提高挖掘效率和挖掘质量;本发明通过数据管理模块为用户展示原始数据最直观信息的概念,从而让用户结合挖掘方向有针对性的选择对应算法,提高数据挖掘的质量;本发明通过算法管理子模块进行算法管理,可以满足多样化的数据挖掘需求。

Description

一种数据挖掘系统及方法
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种数据挖掘系统及方法。
背景技术
随着信息技术高速发展,社会各行各业不断产生各种海量数据,导致数据爆炸性增长,进入大数据时代。各个行业所积累的海量数据中一般都包含丰富的隐性可用价值的知识,但同时大数据还具有内容不可预测、多样性的特点、因此亟需强大的数据分析工具对数据进行分析与处理,从而为商业决策、教育等领域提供强有力的信息支持。数据挖掘技术是信息时代的标志,是指从大量存放在各种信息库系统、数据库或数据仓库中的结构复杂、数日庞杂的海量数据中寻找有用信息的过程。
中国专利“CN106603624B”公开了一种数据挖掘系统,包括:客户端和云平台,各组织通过各自的客户端完成组织网络中数据的共享策略的配置,并通过客户端收集组织网络中的共享数据以及将该共享数据上传至第三方云平台进行汇总分析处理,进而通过该云平台,得到从各组织提供的共享数据中所挖掘到的挖掘数据,并将挖掘数据推送给各参与数据共享的组织,进而可以实现不同组织间网络数据的共享,从而使得各组织都能够利用其他组织所提供的共享数据,进行组织的运作及决策管理。
上述专利虽然可以使得各组织都能够利用其他组织所提供的共享数据进行数据挖掘,并将挖掘的数据进行共享,但是忽略了在数据挖掘前对数据进行预处理的研究,尤其是各个组织之间的数据可以共享,就会出现海量的数据,海量数据中往往存在大量与数据挖掘任务无关的成分,这些成分会造成数据挖掘结果的偏差。
面对大数据多样、海量等特征,上述系统在功能和效率上都存在不足,针对这些不足,本发明提出了一种数据挖掘系统及方法。
发明内容
本发明的目的在于提供一种数据挖掘系统及方法,解决上述背景技术中提出的问题。
本发明的目的可以通过以下技术方案实现:
一种数据挖掘系统,所述数据挖掘系统包括主控制器、数据处理模块、数据管理模块和数据挖掘模块;
数据处理模块:与主控制器连接,包括数据提取子模块和数据预处理子模块;
数据提取子模块用于获取数据,并将经过预处理后的数据存储起来;
数据预处理子模块对数据提取子模块集成到数据库表中的数据进行缺失值、噪声等通用处理,处理后的数据可用于数据挖掘;
数据管理模块:与主控制器连接,包括数据可视化子模块和数据基础统计子模块;
数据可视化子模块:包括原始数据可视化子模块和挖掘结果可视化子模块;
原始数据可视化子模块用于为用户展示原始数据最直观信息的概念;
挖掘结果可视化子模块用于展示挖掘结果,方便用户对挖掘结果理解和查看;
数据基础统计子模块用于在数据可视化的基础上,获得用户需要进一步理解数据的一些基本统计信息。
数据挖掘模块:与主控制器连接,包括算法管理子模块和数据分析子模块;
算法管理子模块用于管理系统中的算法,可以将用户上传的算法模块集成到系统中去供用户选择;
数据分析子模块用于通过调用系统内的算法对经过预处理的数据进行分析。
作为本发明方案的进一步描述,所述数据挖掘方法包括:
S1、通过数据提取子模块获取原始数据并存储,然后通过数据预处理子模块对获取的数据进行预处理;
S2、通过数据基础统计子模块对预处理后的原始数据进行基础统计,获得原始数据的基本信息;
S3、根据获得的原始数据基本信息,通过数据可视化子模块选择相应的视图,并展示出来;
S4、根据展示出来的视图通过算法管理子模块针对性的选择算法,然后通过数据分析子模块调用选择好的算法完成数据挖掘;
S5、通过数据可视化子模块选择相应的视图将数据挖掘结果展示出来。
作为本发明方案的进一步描述,所述步骤S1中数据预处理方法为:
S1.1、辨别出原始数据中各个数据源的孤立点并删除;
S1.2、将原始数据中不同数据源的数据进行合并处理,解决数据语义的不一致性,将多数据源整合成一致的数据存储;
S1.3、在不影响数据挖掘的前提下,对原始数据进行去冗余处理来压缩数据,提高数据的挖掘质量;
S1.4、针对对需要处理离散型数据的挖掘任务,识别出原始数据中的连续性数据,并将其离散化。
作为本发明方案的进一步描述,所述步骤S2中的获得原始数据的基本信息方法为:
S2.1、用户通过数据基础统计子模块进入数据数据基础统计功能界面;
S2.2、选择需要统计的数据;
S2.3、选择需要统计的类型;
S2.3、获取各个统计类型的参数;
S2.4、查看统计结果。
作为本发明方案的进一步描述,所述步骤S3中的视图展示方法为:
S3.1、用户通过数据可视化子模块进入数据可视化功能界面;
S3.2、选择需要可视化的数据;
S3.3、选择视图;
S3.4、设置视图参数;
S3.5、查看视图。
作为本发明方案的进一步描述,所述S4中选择算法的具体方法为:
S4.1、用户先查看数据分析子模块是否有所需的算法和数据;
S4.2、若不存在,则跳转到数据处理模块和算法管理子模块;
S4.3、若存在,则直接选择好输出和参数后,进行相应的数据挖掘。
作为本发明方案的进一步描述,所述步骤S4.2的具体方法为:用户首先通过步骤S1、S2和S3获取的数据基本信息和可视化视图,结合数据挖掘的方向在算法管理子模块选择对应的算法,若算法管理子模块中没有用户需要的算法,用户通过算法管理子模块添加新的算法,最后将预处理过得数据和对应的算法发送到数据分析子模块,选择好输出和参数后,进行相应的数据挖掘。
本发明的有益效果:
1、本发明可以通过数据预处理子模块对获取的数据进行预处理,辨别出原始数据中各个数据源的孤立点并删除,将原始数据中不同数据源的数据进行合并处理,解决数据语义的不一致性,将多数据源整合成一致的数据存储,在不影响数据挖掘的前提下,对原始数据进行去冗余处理来压缩数据,数据预处理模块保证数据挖掘算法使用的数据是干净、准确、有针对性的数据,从而减少数据挖掘算法的数据处理量,提高挖掘效率和挖掘质量。
2、本发明通过数据管理模块为用户展示原始数据最直观信息的概念,方便了解其特征,从而使用户能更加有针对性地选择数据挖掘算法,通过数据基础统计子模块在数据可视化的基础上,获得用户需要进一步理解数据的一些基本统计信息,从而让用户结合挖掘方向有针对性的选择对应算法,提高数据挖掘的质量。
3、本发明通过算法管理子模块进行算法管理,可以满足多样化的数据挖掘需求。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明提供的数据挖掘系统及其调度方法的模块框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种数据挖掘系统,其特征在于,所述数据挖掘系统包括主控制器、数据处理模块、数据管理模块和数据挖掘模块;
数据处理模块:与主控制器连接,包括数据提取子模块和数据预处理子模块;
数据提取子模块用于获取数据,并将经过预处理后的数据存储起来;
数据预处理子模块对数据提取子模块集成到数据库表中的数据进行缺失值、噪声等通用处理,处理后的数据可用于数据挖掘;
数据管理模块:与主控制器连接,包括数据可视化子模块和数据基础统计子模块;
数据可视化子模块:包括原始数据可视化子模块和挖掘结果可视化子模块;
原始数据可视化子模块用于为用户展示原始数据最直观信息的概念,方便了解其特征,从而使用户能更加有针对性地选择数据挖掘算法;
挖掘结果可视化子模块用于展示挖掘结果,方便用户对挖掘结果理解和查看;
数据基础统计子模块用于在数据可视化的基础上,获得用户需要进一步理解数据的一些基本统计信息。
数据挖掘模块:与主控制器连接,包括算法管理子模块和数据分析子模块;
算法管理子模块用于管理系统中的算法,可以将用户上传的算法模块集成到系统中去供用户选择,以实现系统算法的集成、可定制的功能;
数据分析子模块用于通过调用系统内的算法对经过预处理的数据进行分析,为用户提供快速高效的数据挖掘服务。
实施例
一种数据挖掘方法,其特征在于,所述数据挖掘方法包括:
S1、通过数据提取子模块获取原始数据并存储,然后通过数据预处理子模块对获取的数据进行预处理;
S1.1、辨别出原始数据中各个数据源的孤立点并删除;
S1.2、将原始数据中不同数据源的数据进行合并处理,解决数据语义的不一致性,将多数据源整合成一致的数据存储;
S1.3、在不影响数据挖掘的前提下,对原始数据进行去冗余处理来压缩数据,提高数据的挖掘质量;
S1.4、针对对需要处理离散型数据的挖掘任务,识别出原始数据中的连续性数据,并将其离散化。
S2、通过数据基础统计子模块对预处理后的原始数据进行基础统计,获得原始数据的基本信息;
S2.1、用户通过数据基础统计子模块进入数据数据基础统计功能界面;
S2.2、选择需要统计的数据;
S2.3、选择需要统计的类型,如均值、方差、众数等常见的统计量;
S2.3、获取各个统计类型的参数;
S2.4、查看统计结果。
S3、根据获得的原始数据基本信息,通过数据可视化子模块选择相应的视图,并展示出来;
S3.1、用户通过数据可视化子模块进入数据可视化功能界面;
S3.2、选择需要可视化的数据;
S3.3、选择视图,如散点图;
S3.4、设置视图参数;
S3.5、查看视图。
S4、根据展示出来的视图通过算法管理子模块针对性的选择算法,然后通过数据分析子模块调用选择好的算法完成数据挖掘;
S4.1、用户先查看数据分析子模块是否有所需的算法和数据;
S4.2、若不存在,则跳转到数据处理模块和算法管理子模块;
用户首先通过步骤S1、S2和S3获取的数据基本信息和可视化视图,结合数据挖掘的方向在算法管理子模块选择对应的算法,如散点图显示数据呈线性分布,则可用线性回归分析方法进行建模分析,若算法管理子模块中没有用户需要的算法,用户通过算法管理子模块添加新的算法,最后将预处理过得数据和对应的算法发送到数据分析子模块,选择好输出和参数后,进行相应的数据挖掘。
S4.3、若存在,则直接选择好输出和参数后,进行相应的数据挖掘。
S5、通过数据可视化子模块选择相应的视图将数据挖掘结果展示出来。
以上对本发明的一个实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。

Claims (7)

1.一种数据挖掘系统,其特征在于,所述数据挖掘系统包括主控制器、数据处理模块、数据管理模块和数据挖掘模块;
数据处理模块:与主控制器连接,包括数据提取子模块和数据预处理子模块;
数据提取子模块用于获取数据,并将经过预处理后的数据存储起来;
数据预处理子模块对数据提取子模块集成到数据库表中的数据进行缺失值、噪声等通用处理,处理后的数据可用于数据挖掘;
数据管理模块:与主控制器连接,包括数据可视化子模块和数据基础统计子模块;
数据可视化子模块:包括原始数据可视化子模块和挖掘结果可视化子模块;
原始数据可视化子模块用于为用户展示原始数据最直观信息的概念,方便了解其特征,从而使用户能更加有针对性地选择数据挖掘算法;
挖掘结果可视化子模块用于展示挖掘结果,方便用户对挖掘结果理解和查看;
数据基础统计子模块用于在数据可视化的基础上,获得用户需要进一步理解数据的一些基本统计信息。
数据挖掘模块:与主控制器连接,包括算法管理子模块和数据分析子模块;
算法管理子模块用于管理系统中的算法,可以将用户上传的算法模块集成到系统中去供用户选择,以实现系统算法的集成、可定制的功能;
数据分析子模块用于通过调用系统内的算法对经过预处理的数据进行分析,为用户提供快速高效的数据挖掘服务。
2.一种数据挖掘方法,其特征在于,所述数据挖掘方法包括:
S1、通过数据提取子模块获取原始数据并存储,然后通过数据预处理子模块对获取的数据进行预处理;
S2、通过数据基础统计子模块对预处理后的原始数据进行基础统计,获得原始数据的基本信息;
S3、根据获得的原始数据基本信息,通过数据可视化子模块选择相应的视图,并展示出来;
S4、根据展示出来的视图通过算法管理子模块针对性的选择算法,然后通过数据分析子模块调用选择好的算法完成数据挖掘;
S5、通过数据可视化子模块选择相应的视图将数据挖掘结果展示出来。
3.根据权利要求2所述的数据挖掘方法,其特征在于,所述步骤S1中数据预处理方法为:
S1.1、辨别出原始数据中各个数据源的孤立点并删除;
S1.2、将原始数据中不同数据源的数据进行合并处理,解决数据语义的不一致性,将多数据源整合成一致的数据存储;
S1.3、在不影响数据挖掘的前提下,对原始数据进行去冗余处理来压缩数据,提高数据的挖掘质量;
S1.4、针对对需要处理离散型数据的挖掘任务,识别出原始数据中的连续性数据,并将其离散化。
4.根据权利要求2所述的数据挖掘方法,其特征在于,所述步骤S2中的获得原始数据的基本信息方法为:
S2.1、用户通过数据基础统计子模块进入数据数据基础统计功能界面;
S2.2、选择需要统计的数据;
S2.3、选择需要统计的类型;
S2.3、获取各个统计类型的参数;
S2.4、查看统计结果。
5.根据权利要求2所述的数据挖掘方法,其特征在于,所述步骤S3中的视图展示方法为:
S3.1、用户通过数据可视化子模块进入数据可视化功能界面;
S3.2、选择需要可视化的数据;
S3.3、选择视图;
S3.4、设置视图参数;
S3.5、查看视图。
6.根据权利要求2所述的数据挖掘方法,其特征在于,所述S4中选择算法的具体方法为:
S4.1、用户先查看数据分析子模块是否有所需的算法和数据;
S4.2、若不存在,则跳转到数据处理模块和算法管理子模块;
S4.3、若存在,则直接选择好输出和参数后,进行相应的数据挖掘。
7.根据权利要求7所述的数据挖掘方法,其特征在于,所述步骤S4.2的具体方法为:用户首先通过步骤S1、S2和S3获取的数据基本信息和可视化视图,结合数据挖掘的方向在算法管理子模块选择对应的算法,若算法管理子模块中没有用户需要的算法,用户通过算法管理子模块添加新的算法,最后将预处理过得数据和对应的算法发送到数据分析子模块,选择好输出和参数后,进行相应的数据挖掘。
CN202211072509.8A 2022-09-02 2022-09-02 一种数据挖掘系统及方法 Withdrawn CN115878686A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211072509.8A CN115878686A (zh) 2022-09-02 2022-09-02 一种数据挖掘系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211072509.8A CN115878686A (zh) 2022-09-02 2022-09-02 一种数据挖掘系统及方法

Publications (1)

Publication Number Publication Date
CN115878686A true CN115878686A (zh) 2023-03-31

Family

ID=85769704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211072509.8A Withdrawn CN115878686A (zh) 2022-09-02 2022-09-02 一种数据挖掘系统及方法

Country Status (1)

Country Link
CN (1) CN115878686A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117171238A (zh) * 2023-11-02 2023-12-05 菲特(天津)检测技术有限公司 一种大数据算法平台和数据挖掘方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117171238A (zh) * 2023-11-02 2023-12-05 菲特(天津)检测技术有限公司 一种大数据算法平台和数据挖掘方法
CN117171238B (zh) * 2023-11-02 2024-02-23 菲特(天津)检测技术有限公司 一种大数据算法平台和数据挖掘方法

Similar Documents

Publication Publication Date Title
CN113392646A (zh) 一种数据中台系统、构建方法及装置
US20080021867A1 (en) Database analysis program, database analysis apparatus, and database analysis method
CN110750650A (zh) 企业知识图谱的构建方法及装置
CN110825805B (zh) 一种数据的可视化方法及装置
CN114218309A (zh) 数据处理方法、系统和计算机设备
CN115878686A (zh) 一种数据挖掘系统及方法
CN111105137A (zh) 工单派发方法、装置、介质及电子设备
CN110413708B (zh) 一种面向业务术语的数据分析系统
CN114547453A (zh) 一种通用top-n智能推荐系统及方法
CN112559538A (zh) 关联关系生成方法、装置、计算机设备和存储介质
CN111080326A (zh) 设备售后数据监控方法、装置、系统和空调售后监控系统
US10261998B2 (en) Search apparatus and search method
CN114020960A (zh) 音乐推荐方法、装置、服务器及存储介质
CN111400289B (zh) 智能用户分类方法、服务器及存储介质
CN110389944B (zh) 一种基于模型的元数据管理系统及方法
Migliorini et al. A context-based approach for partitioning big data
CN116089490A (zh) 数据分析方法、装置、终端和存储介质
CN113220530B (zh) 数据质量监控方法及平台
CN115062086A (zh) 应用程序功能推送方法、装置、计算机设备和存储介质
KR101748378B1 (ko) 개발공정에서의 응용프로그램의 성능관리 시스템 및 그 방법
CN114312930A (zh) 基于日志数据的列车运行异常诊断方法和装置
CN113886465A (zh) 一种用于汽车物流的大数据分析平台
CN114757805A (zh) 基于区块链的便民政务服务系统
CN113095794A (zh) 基于马尔科夫链的生产问题检查方法及装置
CN113344023A (zh) 一种代码推荐方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20230331

WW01 Invention patent application withdrawn after publication