CN107577771B - 一种大数据挖掘系统 - Google Patents
一种大数据挖掘系统 Download PDFInfo
- Publication number
- CN107577771B CN107577771B CN201710799148.XA CN201710799148A CN107577771B CN 107577771 B CN107577771 B CN 107577771B CN 201710799148 A CN201710799148 A CN 201710799148A CN 107577771 B CN107577771 B CN 107577771B
- Authority
- CN
- China
- Prior art keywords
- data
- module
- mining
- result
- data mining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种大数据挖掘系统,包括大数据存储模块、数据提取模块、数据检查模块、数据挖掘模块、结果验证模块、数据报告模块和日志模块。数据提取模块从大数据存储模块中提取符合用户需求的数据集,将数据集发送给数据检查模块;数据检查模块检查数据集的完整性并对数据集进行过滤,去除数据集中错误的或不一致的数据,保证了有效数据集的有效性,将过滤后的有效数据集发送给数据挖掘模块;数据挖掘模块采用多种挖掘算法对有效数据集进行挖掘分析,既能够提高大数据挖掘的准确性,又能保护用户隐私信息不被泄露;结果验证模块验证数据挖掘结果的准确性;数据报告模块根据数据挖掘结果生成数据报告;日志模块记录数据挖掘过程中产生的日志数据。
Description
技术领域
本发明涉及数据处理技术领域,具体说是一种大数据挖掘系统。
背景技术
数据挖掘是指从大量的、有噪声的、随机的数据中提取潜在的、有效的、新颖的、有用的模式或信息,用于决策者进行相应的决策。近年来,随着网络技术的迅猛发展,海量数据不断增长,数据挖掘引起了信息产业界的极大关注,多元化、个性化的数据挖掘需求越来越强,其主要原因是存在大量数据,迫切需要将这些数据转换成有用的信息和知识。
目前对数据挖掘的研究主要集中在改进挖掘算法方法,但如何从大量数据中提取有用信息,得出有效的数据挖掘结果仍然是目前亟待解决的问题。并且现有的数据挖掘系统可能导致用户隐私信息泄露。因此需要提出一种新的大数据挖掘系统,能够提高大数据挖掘的有效性并且保护用户隐私信息不被泄露。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种基于大数据的智能家居系统,能够提高大数据挖掘的速度和准确性,又能保护用户隐私信息不被泄露,同时便于工作人员对数据挖掘过程的监控和管理。
为达到以上目的,本发明采取的技术方案是:
一种大数据挖掘系统,包括大数据存储模块、数据提取模块、数据检查模块、数据挖掘模块、结果验证模块、数据报告模块和日志模块;
所述数据提取模块用于根据用户需求、通过回归统计分析从大数据存储模块中提取符合用户需求的数据集,将数据集发送给数据检查模块;
所述数据检查模块用于根据用户需求检查数据集,并对数据集进行过滤,去除数据集中错误的或不一致的数据,过滤后的有效数据构成有效数据集,将有效数据集发送给数据挖掘模块;
所述数据挖掘模块用于采用挖掘算法对有效数据集进行挖掘分析,获得数据挖掘结果,将数据挖掘结果发送给结果验证模块;
所述结果验证模块用于验证数据挖掘结果的准确性,准确性低于用户预设阈值时,返回数据提取模块,重新进行数据提取;准确性达到或超过用户预设阈值时,将数据挖掘结果发送给数据报告模块;
所述数据报告模块用于根据数据挖掘结果生成数据报告;
所述日志模块用于记录整个数据挖掘过程中产生的日志数据。
在上述方案的基础上,所述大数据存储模块包括存储层、管理层、应用接口层和访问层。
在上述方案的基础上,所述存储层为满足FC协议、iSCSI协议和NAS协议的存储设备。
在上述方案的基础上,所述管理层是大数据存储模块的核心,用于通过集群、分布式文件系统和网格计算实现多存储设备间的协同工作。
在上述方案的基础上,所述应用接口层用于提供各种应用服务接口。
在上述方案的基础上,所述访问层用于控制数据提取模块的访问权限;所述数据提取模块接收用户需求,向大数据存储模块发送访问请求,大数据存储模块中的访问层对数据提取模块进行权限认证,认证通过后,大数据存储模块将相应数据发送给数据提取模块。
在上述方案的基础上,所述数据检查模块根据用户需求检查数据集的完整性和一致性,当数据集中的数据不完整时,返回数据提取模块继续进行数据提取。
在上述方案的基础上,所述数据挖掘模块内嵌有敏感关联规则隐藏算法模块、决策树挖掘分类算法模块和K-Means聚类算法模块,采用这三种算法分别对有效数据集进行挖掘分析。
在上述方案的基础上,所述数据挖掘模块进行数据挖掘的流程如下:
步骤1,采用敏感关联规则隐藏算法对有效数据集进行挖掘分析,获得数据挖掘结果Ⅰ;
步骤2,采用决策树挖掘分类算法对有效数据集进行挖掘分析,获得数据挖掘结果Ⅱ;
步骤3,采用K-Means聚类算法对有效数据集进行挖掘分析,获得数据挖掘结果Ⅲ;
步骤4,数据挖掘结果Ⅰ、数据挖掘结果Ⅱ和数据挖掘结果Ⅲ同时发送给结果验证模块,进行准确性验证;
步骤5,选取准确率最高的数据挖掘结果发送给数据报告模块。
上述步骤1中采用敏感关联规则隐藏算法进行挖掘分析的具体过程如下:
(1)找出有效数据集中各数据项之间的关联性,根据各数据项之间的关联性预设最小支持度阈值和最小置信度阈值;
(2)根据Partition算法,挖掘出有效数据集中满足最小支持度阈值的所有数据项,构成频繁项集;
(3)从频繁项集中挖掘出所有满足最小置信度阈值的数据项,生成强关联规则集R;
(4)根据需求预设敏感规则集RH,通过清理算法降低敏感规则集RH中数据项的支持度和置信度,使之低于最小支持度阈值和最小置信度阈值,从而实现对敏感规则的隐藏。
在上述方案的基础上,所述决策树挖掘分类算法为基于Hadoop的混合并行共享决策树挖掘分类算法。
本发明所述的一种大数据挖掘系统,具有以下有益效果:
1、所述大数据存储模块中具有海量并行扩容、强大的负载均衡功能、统一管理、统一向外提供服务、管理效率高和高速缓存等优点,大幅提高了系统的存储性能。
2、所述数据检查模块根据用户需求检查数据集的完整性和一致性,并对数据集进行过滤,去除数据集中错误的或不一致的数据,保证了有效数据集的有效性。
3、所述数据挖掘模块采用多种算法对有效数据集进行挖掘,既能够提高大数据挖掘的准确性,又能保护用户隐私信息不被泄露;本发明采用的Partition算法是分别求每个区的频繁项集,因此可分别同时对各区进行操作,大大提高了算法的效率。
4、所述结果验证模块可以验证数据挖掘结果的准确性,当准确性较低时重新进行数据提取和数据挖掘,极大地提高了结果的准确性。
5、所述日志模块可以记录整个数据挖掘过程中的日志数据,便于工作人员对数据挖掘过程的监控和管理。
附图说明
本发明有如下附图:
图1本发明的结构示意图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
如图1所示,本发明所述的一种大数据挖掘系统,包括大数据存储模块、数据提取模块、数据检查模块、数据挖掘模块、结果验证模块、数据报告模块和日志模块;
所述数据提取模块用于根据用户需求、通过回归统计分析从大数据存储模块中提取符合用户需求的数据集,将数据集发送给数据检查模块;
所述数据检查模块用于根据用户需求检查数据集,并对数据集进行过滤,去除数据集中错误的或不一致的数据,过滤后的有效数据构成有效数据集,将有效数据集发送给数据挖掘模块;
所述数据挖掘模块用于采用挖掘算法对有效数据集进行挖掘分析,获得数据挖掘结果,将数据挖掘结果发送给结果验证模块;
所述结果验证模块用于验证数据挖掘结果的准确性,准确性低于用户预设阈值时,返回数据提取模块,重新进行数据提取;准确性达到或超过用户预设阈值时,将数据挖掘结果发送给数据报告模块;
所述数据报告模块用于根据数据挖掘结果生成数据报告;
所述日志模块用于记录整个数据挖掘过程中产生的日志数据。
在上述方案的基础上,所述大数据存储模块包括存储层、管理层、应用接口层和访问层。
在上述方案的基础上,所述存储层为满足FC协议、iSCSI协议和NAS协议的存储设备。
在上述方案的基础上,所述管理层是大数据存储模块的核心,用于通过集群、分布式文件系统和网格计算实现多存储设备间的协同工作。
在上述方案的基础上,所述应用接口层用于提供各种应用服务接口。
在上述方案的基础上,所述访问层用于控制数据提取模块的访问权限;所述数据提取模块接收用户需求,向大数据存储模块发送访问请求,大数据存储模块中的访问层对数据提取模块进行权限认证,认证通过后,大数据存储模块将相应数据发送给数据提取模块。
在上述方案的基础上,所述数据检查模块根据用户需求检查数据集的完整性和一致性,当数据集中的数据不完整时,返回数据提取模块继续进行数据提取。
在上述方案的基础上,所述数据挖掘模块内嵌有敏感关联规则隐藏算法模块、决策树挖掘分类算法模块和K-Means聚类算法模块,采用这三种算法分别对有效数据集进行挖掘分析。
在上述方案的基础上,所述数据挖掘模块进行数据挖掘的流程如下:
步骤1,采用敏感关联规则隐藏算法对有效数据集进行挖掘分析,获得数据挖掘结果Ⅰ;
步骤2,采用决策树挖掘分类算法对有效数据集进行挖掘分析,获得数据挖掘结果Ⅱ;
步骤3,采用K-Means聚类算法对有效数据集进行挖掘分析,获得数据挖掘结果Ⅲ;
步骤4,数据挖掘结果Ⅰ、数据挖掘结果Ⅱ和数据挖掘结果Ⅲ同时发送给结果验证模块,进行准确性验证;
步骤5,选取准确率最高的数据挖掘结果发送给数据报告模块。
上述步骤1中采用敏感关联规则隐藏算法进行挖掘分析的具体过程如下:
(1)找出有效数据集中各数据项之间的关联性,根据各数据项之间的关联性预设最小支持度阈值和最小置信度阈值;
(2)根据Partition算法,挖掘出有效数据集中满足最小支持度阈值的所有数据项,构成频繁项集;
(3)从频繁项集中挖掘出所有满足最小置信度阈值的数据项,生成强关联规则集R;
(4)根据需求预设敏感规则集RH,通过清理算法降低敏感规则集RH中数据项的支持度和置信度,使之低于最小支持度阈值和最小置信度阈值,从而实现对敏感规则的隐藏。
在上述方案的基础上,所述决策树挖掘分类算法为基于Hadoop的混合并行共享决策树挖掘分类算法。
本发明所述大数据存储模块中具有海量并行扩容、强大的负载均衡功能、统一管理、统一向外提供服务、管理效率高和高速缓存等优点,大幅提高了系统的存储性能。
本发明所述数据检查模块根据用户需求检查数据集的完整性和一致性,并对数据集进行过滤,去除数据集中错误的或不一致的数据,保证了有效数据集的有效性。
本发明所述数据挖掘模块采用多种挖掘算法对有效数据集进行挖掘,既能够提高大数据挖掘的准确性,又能保护用户隐私信息不被泄露。本发明采用的Partition算法是一种基于对数据集进行划分的挖掘算法,思路是:先将有效数据集划分为几个逻辑上互相独立的区域,在每个区域中,利用挖掘算法挖掘出他们各自的频繁项集;然后将这些频繁相集合成一个候选集;最后计算出候选集的支持度,挖掘铲复合不小于最小支持度的最终频繁项集。Partition算法在第一次划分时扫描一次数据集,在最后求候选项集支持度时再一次扫描数据集,全程只扫描两次数据集,大大减小了I/O操作,提高了算法的效率。
本发明所述结果验证模块可以验证数据挖掘结果的准确性,当准确性较低时重新进行数据提取和数据挖掘,极大地提高了结果的准确性。本发明所述日志模块可以记录整个数据挖掘过程中的日志数据,便于工作人员对数据挖掘过程的监控和管理。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (6)
1.一种大数据挖掘系统,其特征在于:包括大数据存储模块、数据提取模块、数据检查模块、数据挖掘模块、结果验证模块、数据报告模块和日志模块;
所述数据提取模块用于根据用户需求、通过回归统计分析从大数据存储模块中提取符合用户需求的数据集,将数据集发送给数据检查模块;
所述数据检查模块用于根据用户需求检查数据集,并对数据集进行过滤,去除数据集中错误的或不一致的数据,过滤后的有效数据构成有效数据集,将有效数据集发送给数据挖掘模块;
所述数据挖掘模块用于采用挖掘算法对有效数据集进行挖掘分析,获得数据挖掘结果,将数据挖掘结果发送给结果验证模块;
所述结果验证模块用于验证数据挖掘结果的准确性,准确性低于用户预设阈值时,返回数据提取模块,重新进行数据提取;准确性达到或超过用户预设阈值时,将数据挖掘结果发送给数据报告模块;
所述数据报告模块用于根据数据挖掘结果生成数据报告;
所述日志模块用于记录整个数据挖掘过程中产生的日志数据;
所述数据挖掘模块内嵌有敏感关联规则隐藏算法模块、决策树挖掘分类算法模块和K-Means聚类算法模块,采用这三种算法分别对有效数据集进行挖掘分析;
所述数据挖掘模块进行数据挖掘的流程如下:
步骤1,采用敏感关联规则隐藏算法对有效数据集进行挖掘分析,获得数据挖掘结果Ⅰ;
步骤2,采用决策树挖掘分类算法对有效数据集进行挖掘分析,获得数据挖掘结果Ⅱ;
步骤3,采用K-Means聚类算法对有效数据集进行挖掘分析,获得数据挖掘结果Ⅲ;
步骤4,数据挖掘结果Ⅰ、数据挖掘结果Ⅱ和数据挖掘结果Ⅲ同时发送给结果验证模块,进行准确性验证;
步骤5,选取准确率最高的数据挖掘结果发送给数据报告模块;
步骤1中采用敏感关联规则隐藏算法进行挖掘分析的具体过程如下:
(1)找出有效数据集中各数据项之间的关联性,根据各数据项之间的关联性预设最小支持度阈值和最小置信度阈值;
(2)根据Partition算法,挖掘出有效数据集中满足最小支持度阈值的所有数据项,构成频繁项集;
(3)从频繁项集中挖掘出所有满足最小置信度阈值的数据项,生成强关联规则集R;
(4)根据需求预设敏感规则集RH,通过清理算法降低敏感规则集RH中数据项的支持度和置信度,使之低于最小支持度阈值和最小置信度阈值,从而实现对敏感规则的隐藏。
2.根据权利要求1所述的大数据挖掘系统,其特征在于:所述大数据存储模块包括存储层、管理层、应用接口层和访问层。
3.根据权利要求2所述的大数据挖掘系统,其特征在于:所述存储层为满足FC协议、iSCSI协议和NAS协议的存储设备;
所述管理层是大数据存储模块的核心,用于通过集群、分布式文件系统和网格计算实现多存储设备间的协同工作;
所述应用接口层用于提供各种应用服务接口;
所述访问层用于控制数据提取模块的访问权限。
4.根据权利要求3所述的大数据挖掘系统,其特征在于:所述数据提取模块接收用户需求,向大数据存储模块发送访问请求,大数据存储模块中的访问层对数据提取模块进行权限认证,认证通过后,大数据存储模块将相应数据发送给数据提取模块。
5.根据权利要求1所述的大数据挖掘系统,其特征在于:所述数据检查模块根据用户需求检查数据集的完整性和一致性,当数据集中的数据不完整时,返回数据提取模块继续进行数据提取。
6.根据权利要求1所述的大数据挖掘系统,其特征在于:所述决策树挖掘分类算法为基于Hadoop的混合并行共享决策树挖掘分类算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710799148.XA CN107577771B (zh) | 2017-09-07 | 2017-09-07 | 一种大数据挖掘系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710799148.XA CN107577771B (zh) | 2017-09-07 | 2017-09-07 | 一种大数据挖掘系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107577771A CN107577771A (zh) | 2018-01-12 |
CN107577771B true CN107577771B (zh) | 2020-02-07 |
Family
ID=61031200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710799148.XA Active CN107577771B (zh) | 2017-09-07 | 2017-09-07 | 一种大数据挖掘系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107577771B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664802B (zh) * | 2018-03-20 | 2021-10-08 | 西安烽火软件科技有限公司 | 一种敏感数据保护的方法和系统 |
CN108475292B (zh) * | 2018-03-20 | 2021-08-24 | 深圳大学 | 大规模数据集的频繁项集挖掘方法、装置、设备及介质 |
CN108830106A (zh) * | 2018-06-19 | 2018-11-16 | 中国电子信息产业集团有限公司第六研究所 | 一种隐私数据提供方法及装置 |
CN109376759A (zh) * | 2018-09-10 | 2019-02-22 | 平安科技(深圳)有限公司 | 用户信息分类方法、装置、计算机设备和存储介质 |
CN109450689B (zh) * | 2018-11-19 | 2022-02-22 | 郑州云海信息技术有限公司 | 一种日志打印方法、装置、存储介质和计算机设备 |
CN109669967B (zh) * | 2018-12-13 | 2022-04-15 | 深圳市信义科技有限公司 | 一种基于大数据技术的时空数据关联分析方法 |
CN109947820A (zh) * | 2019-03-12 | 2019-06-28 | 山东浪潮云信息技术有限公司 | 一种基于Hadoop的数据治理系统 |
CN110059502B (zh) * | 2019-04-22 | 2020-08-21 | 鹏城实验室 | 隐私数据感知方法及装置 |
CN111241187A (zh) * | 2020-02-26 | 2020-06-05 | 肖莎莎 | 一种大数据挖掘系统 |
CN111813834A (zh) * | 2020-07-14 | 2020-10-23 | 滁州职业技术学院 | 一种数据挖掘系统以及数据挖掘方法 |
CN111930806B (zh) * | 2020-08-13 | 2023-12-05 | 衢州学院 | 一种新型数据挖掘用存储装置 |
CN113298686A (zh) * | 2021-05-18 | 2021-08-24 | 深圳市博网科技有限公司 | 一种基于物联网的大数据应用系统及方法 |
CN117591578B (zh) * | 2024-01-18 | 2024-04-09 | 山东科技大学 | 一种基于大数据的数据挖掘系统及其挖掘方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103341506A (zh) * | 2013-07-10 | 2013-10-09 | 鞍钢股份有限公司 | 一种基于数据模式的板形时间序列数据挖掘方法 |
CN106484844A (zh) * | 2016-09-30 | 2017-03-08 | 广州特道信息科技有限公司 | 大数据挖掘方法及系统 |
CN106603317A (zh) * | 2017-02-20 | 2017-04-26 | 山东浪潮商用系统有限公司 | 一种基于数据挖掘技术的告警监控策略的分析方法 |
-
2017
- 2017-09-07 CN CN201710799148.XA patent/CN107577771B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103341506A (zh) * | 2013-07-10 | 2013-10-09 | 鞍钢股份有限公司 | 一种基于数据模式的板形时间序列数据挖掘方法 |
CN106484844A (zh) * | 2016-09-30 | 2017-03-08 | 广州特道信息科技有限公司 | 大数据挖掘方法及系统 |
CN106603317A (zh) * | 2017-02-20 | 2017-04-26 | 山东浪潮商用系统有限公司 | 一种基于数据挖掘技术的告警监控策略的分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107577771A (zh) | 2018-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107577771B (zh) | 一种大数据挖掘系统 | |
CN111832002B (zh) | 使用事件日志检测异常账户 | |
CN103051707A (zh) | 一种基于动态用户行为的云取证方法及系统 | |
CN103226675B (zh) | 一种分析入侵行为的溯源系统及方法 | |
CN103812699A (zh) | 基于云计算的监控管理系统 | |
JP2016152594A (ja) | ネットワーク攻撃監視装置、ネットワーク攻撃監視方法、及びプログラム | |
CN103092867A (zh) | 一种数据管理方法及系统、数据分析装置 | |
CN105589791A (zh) | 一种云计算环境下应用系统日志监控管理的方法 | |
CN115225386B (zh) | 基于事件序列关联融合的业务识别与风险分析方法及系统 | |
CN103581198A (zh) | 基于Apriori算法的安全日志分析方法 | |
CN111159152B (zh) | 基于大数据处理技术的二次运维数据融合方法 | |
CN104573530A (zh) | 一种服务器安全加固系统 | |
CN104871171A (zh) | 分布式模式发现 | |
JP2021027505A (ja) | 監視装置、監視方法、および監視プログラム | |
CN108833442A (zh) | 一种分布式网络安全监控装置及其方法 | |
CN103106277A (zh) | 一种基于云计算的取证方法 | |
CN107302530A (zh) | 一种基于白名单的工控系统攻击检测装置及其检测方法 | |
CN113672924A (zh) | 分布式云计算系统的数据入侵检测方法及装置 | |
CN112581027A (zh) | 一种风险信息管理方法、装置、电子设备及存储介质 | |
CN105069158A (zh) | 数据挖掘方法及系统 | |
CN116383189A (zh) | 业务数据的处理方法、装置、计算机设备、存储介质 | |
US10223529B2 (en) | Indexing apparatus and method for search of security monitoring data | |
CN105487936A (zh) | 云环境下面向等级保护的信息系统安全性测评方法 | |
Salunkhe et al. | Data analysis of file forensic investigation | |
CN112839029B (zh) | 一种僵尸网络活跃度的分析方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |