CN111382329A - 一种用于大数据分析的数据挖掘方法及系统 - Google Patents

一种用于大数据分析的数据挖掘方法及系统 Download PDF

Info

Publication number
CN111382329A
CN111382329A CN202010096167.8A CN202010096167A CN111382329A CN 111382329 A CN111382329 A CN 111382329A CN 202010096167 A CN202010096167 A CN 202010096167A CN 111382329 A CN111382329 A CN 111382329A
Authority
CN
China
Prior art keywords
data
analysis
mining
rule
generate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010096167.8A
Other languages
English (en)
Inventor
迟殿委
Original Assignee
Shandong Foreign Affairs Vocational University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Foreign Affairs Vocational University filed Critical Shandong Foreign Affairs Vocational University
Priority to CN202010096167.8A priority Critical patent/CN111382329A/zh
Publication of CN111382329A publication Critical patent/CN111382329A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种大数据分析的数据挖掘方法及系统,包括步骤:S1、数据采集:根据需要从数据库中获取数据挖掘的数据集;S2、数据处理:检查所述数据集中各数据的完整性和一致性,对每个数据进行去噪声处理、填补缺失域以及删除无效数据,对清洗后的数据转换成目标数据,将目标数据进行提取生成预处理数据;S3、数据分析:根据分析规则对数据向量进行修正;并对修正后的数据进行汇总和多维度分析,生成数据分析结果;S4、数据管理:对所述数据分析结果进行解释和评价,生成数据挖掘报告。对数据的采集、存储、处理和分析,然后再将经过分析的数据用文字、图片和表格等方式呈现给用户,达到数据整合的目的,快速直观。

Description

一种用于大数据分析的数据挖掘方法及系统
技术领域
本发明涉及数据挖掘技术领域,特别是涉及一种用于大数据分析的数据挖掘方法及系统。
背景技术
大数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息以及形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实际应用中,数据分析可帮助人们作出判断,以便采取适当行动。
近年来,随着数据库信息量的急剧增长和存储设备的不断升级,数据的多样化也越发的明显。数据多样化的形成主要有两方面的原因:一是数据来源多,有搜索引擎、社交网络、通话记录、传感器等等;二是数据格式多,有结构数据、半结构数据和非结构数据等多种种类。
目前的数据分析面临的问题是数据量大、多种结构形式和实时性等多样化要求,数据采集和整合困难。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种用于大数据分析的数据挖掘方法及系统,用于解决现有技术中数据量大、多种结构形式和实时性等多样化要求,数据采集和整合困难的问题。
本发明提供一种用于大数据分析的数据挖掘方法,包括步骤:S1、数据采集:实现数据的初步汇总,对数据进行分类和储存,并根据需要从数据库中获取数据挖掘的数据集;S2、数据处理:检查所述数据集中各数据的完整性和一致性,并判断数据是否有缺失;若是,则返回步骤S1从数据库中选取对应区间的相应数据进行替换;若否,则对每个数据进行去噪声处理、填补缺失域以及删除无效数据,对清洗后的数据转换成目标数据,将目标数据进行提取生成预处理数据;S3、数据分析:生成数据挖掘规则和数据挖掘模型,设置迭代矩阵,通过数据库中的特征向量结合所述迭代矩阵对数据进行修正;根据所述数据挖掘规则和所述数据挖掘模型对所述预处理数据进行分析,生成数据分析结果;其中,分析过程为利用模糊关联规则挖掘选取数据库中的数据模型,将所述预处理数据迭代入所述数据模型,将对应的特征向量的字符串数组作为分析序列的参量;根据模糊关联规则挖掘中设定挖掘模型中计算的支持度下限和置信度下限;同时根据模糊关联规则生成的挖掘模型中的动态链接库,结合参量对应的双精度数值型数据、支持度下限和置信度下限计算关联规则进行整理,生成分析规则,并根据分析规则对数据向量进行修正;并对修正后的数据进行汇总和多维度分析,生成数据分析结果;S4、数据管理:对所述数据分析结果进行解释和评价,生成数据挖掘报告。
于本发明的一实施例中,所述步骤S2中数据清洗包括步骤:从有关的数据中选择适用于数据挖掘应用的数据,舍弃与数据挖掘无关的数据;利用系统发现的错误和不一致的数据,用交互的方式来消除数据源中的噪声、孤立点数据,纠正数据中的不一致。
于本发明的一实施例中,所述步骤S3包括步骤:S31、通过选取样本功能筛选出具体样本数据,然后计算出基本区间计算量化属性的归属类别分类;S32、将所述预处理的数据按照属性划分入数据归属类别并设置数据权重;S33、根据数据归属类别和数据权重对数据向量进行修正;S34、对修正后的数据进行汇总和多维度分析,生成数据分析结果。
于本发明的一实施例中,所述步骤S4包括步骤:S41、生成数据分析管理指令;S42、以表格、图片和文字的形式生成数据分析结果;S43、将数据分析结果发送至用户终端。
本发明还提供了一种用于大数据分析的数据挖掘系统,包括:数据采集模块,实现数据的初步汇总,对数据进行分类和储存,并根据需要从数据库中获取数据挖掘的数据集;数据处理模块,用于检查所述数据集中各数据的完整性和一致性,并判断数据是否有缺失;在有缺失时从数据库中选取对应区间的相应数据进行替换;在没有缺失时对每个数据进行去噪声处理、填补缺失域以及删除无效数据,对清洗后的数据转换成目标数据,将目标数据进行提取生成预处理数据;数据分析模块,用于生成数据挖掘规则和数据挖掘模型,设置迭代矩阵,通过数据库中的特征向量结合所述迭代矩阵对数据进行修正;根据所述数据挖掘规则和所述数据挖掘模型对所述预处理数据进行分析,生成数据分析结果;其中,分析过程为利用模糊关联规则挖掘选取数据库中的数据模型,将所述预处理数据迭代入所述数据模型,将对应的特征向量的字符串数组作为分析序列的参量;根据模糊关联规则挖掘中设定挖掘模型中计算的支持度下限和置信度下限;同时根据模糊关联规则生成的挖掘模型中的动态链接库,结合参量对应的双精度数值型数据、支持度下限和置信度下限计算关联规则进行整理,生成分析规则,并根据分析规则对数据向量进行修正;并对修正后的数据进行汇总和多维度分析,生成数据分析结果;数据管理模块,用于对所述数据分析结果进行解释和评价,生成数据挖掘报告。
于本发明的一实施例中,所述清洗单元还用于从有关的数据中选择适用于数据挖掘应用的数据,舍弃与数据挖掘无关的数据;利用系统发现的错误和不一致的数据,用交互的方式来消除数据源中的噪声、孤立点数据,纠正数据中的不一致。
于本发明的一实施例中,所述数据分析模块包括:预处理单元,用于通过选取样本功能筛选出具体样本数据,然后计算出基本区间计算量化属性的归属类别分类;设置单元,用于将所述预处理的数据按照属性划分入数据归属类别并设置数据权重;修正单元,用于根据数据归属类别和数据权重对数据向量进行修正;分析单元,用于对修正后的数据进行汇总和多维度分析,生成数据分析结果。
于本发明的一实施例中,所述数据管理模块包括:指令生成单元,用于生成数据分析管理指令;结果分析单元,用于以表格、图片和文字的形式生成数据分析结果;通信单元,用于将数据分析结果发送至用户终端。
如上所述,本发明的一种用于大数据分析的数据挖掘方法及系统,具有以下有益效果:
对数据的采集、存储、处理和分析,然后再将经过分析的数据用文字、图片和表格等方式呈现给用户,达到数据整合的目的,快速直观。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1显示为本发明中用于大数据分析的数据挖掘方法的流程方框示意图。
图2显示为本发明中用于大数据分析的数据挖掘方法的结构方框示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
参见图1和图2,须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
如图1所示,图1显示为本发明中用于大数据分析的数据挖掘方法的流程方框示意图。本发明提供了一种用于大数据分析的数据挖掘方法,包括步骤:
S1、数据采集:实现数据的初步汇总,对数据进行分类和储存,并根据需要从数据库中获取数据挖掘的数据集;获取时,可以是采用爬虫法或者其他遍历方法获取数据库中的数据信息,也可以是定期将数据库文件的更新内容导入数据集。
S2、数据处理:检查所述数据集中各数据的完整性和一致性,并判断数据是否有缺失;若是,则返回步骤S1从数据库中选取对应区间的相应数据进行替换;若否,则对每个数据进行去噪声处理、填补缺失域以及删除无效数据,对清洗后的数据转换成目标数据,将目标数据进行提取生成预处理数据;进一步地,数据清洗包括步骤:从有关的数据中选择适用于数据挖掘应用的数据,舍弃与数据挖掘无关的数据;利用系统发现的错误和不一致的数据,用交互的方式来消除数据源中的噪声、孤立点数据,纠正数据中的不一致。
S3、数据分析:生成数据挖掘规则和数据挖掘模型,设置迭代矩阵,通过数据库中的特征向量结合所述迭代矩阵对数据进行修正;根据所述数据挖掘规则和所述数据挖掘模型对所述预处理数据进行分析,生成数据分析结果;其中,分析过程为利用模糊关联规则挖掘选取数据库中的数据模型,将所述预处理数据迭代入所述数据模型,将对应的特征向量的字符串数组作为分析序列的参量;根据模糊关联规则挖掘中设定挖掘模型中计算的支持度下限和置信度下限;同时根据模糊关联规则生成的挖掘模型中的动态链接库,结合参量对应的双精度数值型数据、支持度下限和置信度下限计算关联规则进行整理,生成分析规则,并根据分析规则对数据向量进行修正;并对修正后的数据进行汇总和多维度分析,生成数据分析结果;在一实施例中,所述步骤S3包括步骤:S31、通过选取样本功能筛选出具体样本数据,然后计算出基本区间计算量化属性的归属类别分类;S32、将所述预处理的数据按照属性划分入数据归属类别并设置数据权重;S33、根据数据归属类别和数据权重对数据向量进行修正;S34、对修正后的数据进行汇总和多维度分析,生成数据分析结果。例如,确定特征向量中个元素的权重值,对特征向量进行修正;根据目标集合的格式设置迭代矩阵,随机选择符合要求的迭代矩阵,通过迭代进行修正,逐步靠近目标;将数据集合与迭代矩阵相乘,然后与修正后的特征向量相乘,得到第一中间数据集合,求出第一中间数据集合与数据集合的第一偏移率;使用第一中间数据集合与迭代矩阵相乘,然后与修正后的特征向量相乘,得到第二中间数据集合,求出第二中间数据集合与第一中间数据集合的第二偏移率,当第二偏移率小于第一偏移率时,继续上述迭代过程,直至第N偏移率小于设定的阈值,得到目标数据集合,当第二偏移率大于第一偏移率时,修订迭代举着,重新进行迭代;将目标数据结合的数据进行归一化,将归一化过程中删除的数据进行原始位置标记,并存入数据缓冲集合;根据数据归一化的结合,从决策表中选取相应决策。
S4、数据管理:对所述数据分析结果进行解释和评价,生成数据挖掘报告。进一步地,所述步骤S4包括步骤:S41、生成数据分析管理指令;S42、以表格、图片和文字的形式生成数据分析结果;S43、将数据分析结果发送至用户终端。
如图2所示,图2显示为本发明中用于大数据分析的数据挖掘方法的结构方框示意图。本发明还提供了一种用于大数据分析的数据挖掘系统,包括:数据采集模块,实现数据的初步汇总,对数据进行分类和储存,并根据需要从数据库中获取数据挖掘的数据集;数据处理模块,用于检查所述数据集中各数据的完整性和一致性,并判断数据是否有缺失;在有缺失时从数据库中选取对应区间的相应数据进行替换;在没有缺失时对每个数据进行去噪声处理、填补缺失域以及删除无效数据,对清洗后的数据转换成目标数据,将目标数据进行提取生成预处理数据;数据分析模块,用于生成数据挖掘规则和数据挖掘模型,设置迭代矩阵,通过数据库中的特征向量结合所述迭代矩阵对数据进行修正;根据所述数据挖掘规则和所述数据挖掘模型对所述预处理数据进行分析,生成数据分析结果;其中,分析过程为利用模糊关联规则挖掘选取数据库中的数据模型,将所述预处理数据迭代入所述数据模型,将对应的特征向量的字符串数组作为分析序列的参量;根据模糊关联规则挖掘中设定挖掘模型中计算的支持度下限和置信度下限;同时根据模糊关联规则生成的挖掘模型中的动态链接库,结合参量对应的双精度数值型数据、支持度下限和置信度下限计算关联规则进行整理,生成分析规则,并根据分析规则对数据向量进行修正;并对修正后的数据进行汇总和多维度分析,生成数据分析结果;数据管理模块,用于对所述数据分析结果进行解释和评价,生成数据挖掘报告。
进一步地,所述数据分析模块包括:预处理单元,用于通过选取样本功能筛选出具体样本数据,然后计算出基本区间计算量化属性的归属类别分类;设置单元,用于将所述预处理的数据按照属性划分入数据归属类别并设置数据权重;修正单元,用于根据数据归属类别和数据权重对数据向量进行修正;分析单元,用于对修正后的数据进行汇总和多维度分析,生成数据分析结果。例如,确定特征向量中个元素的权重值,对特征向量进行修正;根据目标集合的格式设置迭代矩阵,随机选择符合要求的迭代矩阵,通过迭代进行修正,逐步靠近目标;将数据集合与迭代矩阵相乘,然后与修正后的特征向量相乘,得到第一中间数据集合,求出第一中间数据集合与数据集合的第一偏移率;使用第一中间数据集合与迭代矩阵相乘,然后与修正后的特征向量相乘,得到第二中间数据集合,求出第二中间数据集合与第一中间数据集合的第二偏移率,当第二偏移率小于第一偏移率时,继续上述迭代过程,直至第N偏移率小于设定的阈值,得到目标数据集合,当第二偏移率大于第一偏移率时,修订迭代举着,重新进行迭代;将目标数据结合的数据进行归一化,将归一化过程中删除的数据进行原始位置标记,并存入数据缓冲集合;根据数据归一化的结合,从决策表中选取相应决策。
优选地,所述数据管理模块包括:指令生成单元,用于生成数据分析管理指令;结果分析单元,用于以表格、图片和文字的形式生成数据分析结果;通信单元,用于将数据分析结果发送至用户终端。
综上所述,本发明的用于大数据分析的数据挖掘方法及系统,对数据的采集、存储、处理和分析,然后再将经过分析的数据用文字、图片和表格等方式呈现给用户,达到数据整合的目的,快速直观。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种用于大数据分析的数据挖掘方法,其特征在于,包括步骤:
S1、数据采集:实现数据的初步汇总,对数据进行分类和储存,并根据需要从数据库中获取数据挖掘的数据集;
S2、数据处理:检查所述数据集中各数据的完整性和一致性,并判断数据是否有缺失;若是,则返回步骤S1从数据库中选取对应区间的相应数据进行替换;若否,则对每个数据进行去噪声处理、填补缺失域以及删除无效数据,对清洗后的数据转换成目标数据,将目标数据进行提取生成预处理数据;
S3、数据分析:生成数据挖掘规则和数据挖掘模型,设置迭代矩阵,通过数据库中的特征向量结合所述迭代矩阵对数据进行修正;根据所述数据挖掘规则和所述数据挖掘模型对所述预处理数据进行分析,生成数据分析结果;其中,分析过程为利用模糊关联规则挖掘选取数据库中的数据模型,将所述预处理数据迭代入所述数据模型,将对应的特征向量的字符串数组作为分析序列的参量;根据模糊关联规则挖掘中设定挖掘模型中计算的支持度下限和置信度下限;同时根据模糊关联规则生成的挖掘模型中的动态链接库,结合参量对应的双精度数值型数据、支持度下限和置信度下限计算关联规则进行整理,生成分析规则,并根据分析规则对数据向量进行修正;并对修正后的数据进行汇总和多维度分析,生成数据分析结果;
S4、数据管理:对所述数据分析结果进行解释和评价,生成数据挖掘报告。
2.根据权利要求1所述的用于大数据分析的数据挖掘方法,其特征在于,所述步骤S2中数据清洗包括步骤:
从有关的数据中选择适用于数据挖掘应用的数据,舍弃与数据挖掘无关的数据;利用系统发现的错误和不一致的数据,用交互的方式来消除数据源中的噪声、孤立点数据,纠正数据中的不一致。
3.根据权利要求1所述的用于大数据分析的数据挖掘方法,其特征在于,所述步骤S3包括步骤:
S31、通过选取样本功能筛选出具有样本数据,然后计算出基本区间计算量化属性的归属类别分类;
S32、将所述预处理的数据按照属性划分入数据归属类别并设置数据权重;
S33、根据数据归属类别和数据权重对数据向量进行修正;
S34、对修正后的数据进行汇总和多维度分析,生成数据分析结果。
4.根据权利要求1所述的用于大数据分析的数据挖掘方法,其特征在于,所述步骤S4包括步骤:
S41、生成数据分析管理指令;
S42、以表格、图片和文字的形式生成数据分析结果;
S43、将数据分析结果发送至用户终端。
5.一种用于大数据分析的数据挖掘系统,其特征在于,包括:
数据采集模块,实现数据的初步汇总,对数据进行分类和储存,并根据需要从数据库中获取数据挖掘的数据集;
数据处理模块,用于检查所述数据集中各数据的完整性和一致性,并判断数据是否有缺失;在有缺失时从数据库中选取对应区间的相应数据进行替换;在没有缺失时对每个数据进行去噪声处理、填补缺失域以及删除无效数据,对清洗后的数据转换成目标数据,将目标数据进行提取生成预处理数据;
数据分析模块,用于生成数据挖掘规则和数据挖掘模型,设置迭代矩阵,通过数据库中的特征向量结合所述迭代矩阵对数据进行修正;根据所述数据挖掘规则和所述数据挖掘模型对所述预处理数据进行分析,生成数据分析结果;其中,分析过程为利用模糊关联规则挖掘选取数据库中的数据模型,将所述预处理数据迭代入所述数据模型,将对应的特征向量的字符串数组作为分析序列的参量;根据模糊关联规则挖掘中设定挖掘模型中计算的支持度下限和置信度下限;同时根据模糊关联规则生成的挖掘模型中的动态链接库,结合参量对应的双精度数值型数据、支持度下限和置信度下限计算关联规则进行整理,生成分析规则,并根据分析规则对数据向量进行修正;并对修正后的数据进行汇总和多维度分析,生成数据分析结果;
数据管理模块,用于对所述数据分析结果进行解释和评价,生成数据挖掘报告。
6.根据权利要求5所述的用于大数据分析的数据挖掘系统,其特征在于,所述清洗单元还用于从有关的数据中选择适用于数据挖掘应用的数据,舍弃与数据挖掘无关的数据;利用系统发现的错误和不一致的数据,用交互的方式来消除数据源中的噪声、孤立点数据,纠正数据中的不一致。
7.根据权利要求5所述的用于大数据分析的数据挖掘系统,其特征在于,所述数据分析模块包括:
预处理单元,用于通过选取样本功能筛选出具体样本数据,然后计算出基本区间计算量化属性的归属类别分类;
设置单元,用于将所述预处理的数据按照属性划分入数据归属类别并设置数据权重;
修正单元,用于根据数据归属类别和数据权重对数据向量进行修正;
分析单元,用于对修正后的数据进行汇总和多维度分析,生成数据分析结果。
8.根据权利要求5所述的用于大数据分析的数据挖掘系统,其特征在于,所述数据管理模块包括:
指令生成单元,用于生成数据分析管理指令;
结果分析单元,用于以表格、图片和文字的形式生成数据分析结果;
通信单元,用于将数据分析结果发送至用户终端。
CN202010096167.8A 2020-02-17 2020-02-17 一种用于大数据分析的数据挖掘方法及系统 Withdrawn CN111382329A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010096167.8A CN111382329A (zh) 2020-02-17 2020-02-17 一种用于大数据分析的数据挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010096167.8A CN111382329A (zh) 2020-02-17 2020-02-17 一种用于大数据分析的数据挖掘方法及系统

Publications (1)

Publication Number Publication Date
CN111382329A true CN111382329A (zh) 2020-07-07

Family

ID=71217010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010096167.8A Withdrawn CN111382329A (zh) 2020-02-17 2020-02-17 一种用于大数据分析的数据挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN111382329A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897853A (zh) * 2020-07-08 2020-11-06 东莞理工学院城市学院 一种基于大数据的计算机数据挖掘探索方法及系统
CN112487262A (zh) * 2020-11-25 2021-03-12 建信金融科技有限责任公司 一种数据处理的方法和装置
CN112559828A (zh) * 2020-07-08 2021-03-26 北京德风新征程科技有限公司 一种大数据可视化分析和展示的组件式系统和交互方法
CN113297744A (zh) * 2021-05-28 2021-08-24 国网浙江省电力有限公司营销服务中心 一种适用于误差监测计算的充电桩数据清洗方法及充电站
CN114116831A (zh) * 2021-10-28 2022-03-01 福州外语外贸学院 一种大数据挖掘处理方法及装置
CN116244369A (zh) * 2023-05-12 2023-06-09 山东云力信息科技有限公司 一种基于大数据可视化的数据挖掘方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995873A (zh) * 2014-05-22 2014-08-20 长春工业大学 一种数据挖掘方法及数据挖掘系统
CN104182596A (zh) * 2014-09-16 2014-12-03 哈尔滨工业大学 一种基于LabVIEW与Matlab混合编程的无线数传设备测试数据挖掘系统及方法
CN106484844A (zh) * 2016-09-30 2017-03-08 广州特道信息科技有限公司 大数据挖掘方法及系统
CN106815451A (zh) * 2015-11-27 2017-06-09 北京全民互动科技有限公司 一种基于行为特性模型的网络游戏反外挂的解决方案
CN108427753A (zh) * 2018-03-13 2018-08-21 河海大学 一种新的数据挖掘方法
CN109189842A (zh) * 2018-08-02 2019-01-11 莆田学院 大数据分析方法
CN109784721A (zh) * 2019-01-15 2019-05-21 东莞市友才网络科技有限公司 一种就业数据分析与数据挖掘分析的平台系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995873A (zh) * 2014-05-22 2014-08-20 长春工业大学 一种数据挖掘方法及数据挖掘系统
CN104182596A (zh) * 2014-09-16 2014-12-03 哈尔滨工业大学 一种基于LabVIEW与Matlab混合编程的无线数传设备测试数据挖掘系统及方法
CN106815451A (zh) * 2015-11-27 2017-06-09 北京全民互动科技有限公司 一种基于行为特性模型的网络游戏反外挂的解决方案
CN106484844A (zh) * 2016-09-30 2017-03-08 广州特道信息科技有限公司 大数据挖掘方法及系统
CN108427753A (zh) * 2018-03-13 2018-08-21 河海大学 一种新的数据挖掘方法
CN109189842A (zh) * 2018-08-02 2019-01-11 莆田学院 大数据分析方法
CN109784721A (zh) * 2019-01-15 2019-05-21 东莞市友才网络科技有限公司 一种就业数据分析与数据挖掘分析的平台系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
迟殿委: "浅析大数据关联规则挖掘算法及应用", 《电子元器件与信息技术》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897853A (zh) * 2020-07-08 2020-11-06 东莞理工学院城市学院 一种基于大数据的计算机数据挖掘探索方法及系统
CN112559828A (zh) * 2020-07-08 2021-03-26 北京德风新征程科技有限公司 一种大数据可视化分析和展示的组件式系统和交互方法
CN112487262A (zh) * 2020-11-25 2021-03-12 建信金融科技有限责任公司 一种数据处理的方法和装置
CN113297744A (zh) * 2021-05-28 2021-08-24 国网浙江省电力有限公司营销服务中心 一种适用于误差监测计算的充电桩数据清洗方法及充电站
CN113297744B (zh) * 2021-05-28 2023-11-07 国网浙江省电力有限公司营销服务中心 一种适用于误差监测计算的充电桩数据清洗方法及充电站
CN114116831A (zh) * 2021-10-28 2022-03-01 福州外语外贸学院 一种大数据挖掘处理方法及装置
CN116244369A (zh) * 2023-05-12 2023-06-09 山东云力信息科技有限公司 一种基于大数据可视化的数据挖掘方法及系统

Similar Documents

Publication Publication Date Title
CN111382329A (zh) 一种用于大数据分析的数据挖掘方法及系统
US8983936B2 (en) Incremental visualization for structured data in an enterprise-level data store
CN110442516B (zh) 信息处理方法、设备及计算机可读存储介质
US7797356B2 (en) Dynamically detecting exceptions based on data changes
CN117056867B (zh) 一种可用于数字孪生的多源异构数据融合方法及系统
CN108959395B (zh) 一种面向多源异构大数据的层次约减联合清洗方法
Deming et al. Exploratory Data Analysis and Visualization for Business Analytics
CN113505583B (zh) 基于语义决策图神经网络的情感原因子句对提取方法
CN114168608A (zh) 一种用于更新知识图谱的数据处理系统
US11074276B2 (en) Methods and systems for optimized visual summarization for sequences of temporal event data
JP2024515692A (ja) 正しいデータ又は欠落データ並びにデータ異常を予測するシステム及び方法
CN113254630A (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
CN113535939A (zh) 文本处理方法和装置、电子设备以及计算机可读存储介质
CN110008282A (zh) 交易数据同步对接方法、装置、计算机设备及存储介质
CN113626483B (zh) 一种填写表单的前端缓存方法、系统、设备及存储介质
CN114550157A (zh) 弹幕聚集识别方法以及装置
CN104091127A (zh) 一种清理隐私记录的方法和装置
CN111353860A (zh) 产品信息推送方法及系统
CN110334055B (zh) 一种获取材料计算数据的方法
CN113886686A (zh) 向用户推荐物品信息的方法、设备、存储介质及程序产品
CN113722288A (zh) 一种时空数据统计的建模方法
US20230409783A1 (en) A machine learning based approach to well test analysis
CN116303376B (zh) 一种基于资产大数据平台的资产管理优化方法及系统
CN116451787B (zh) 内容风险识别方法、装置、系统及设备
CN113988067B (zh) 语句分词方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200729

Address after: Li Cun, Liangxiang Township, Fangshan District, Beijing 102488

Applicant after: Liu Miao

Address before: 264500 Silver Beach tourist resort in Rushan, Weihai, Shandong

Applicant before: Shandong Foreign Affairs Vocational University

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201012

Address after: 264500 Silver Beach tourist resort in Rushan, Weihai, Shandong

Applicant after: Shandong Foreign Affairs Vocational University

Address before: Li Cun, Liangxiang Township, Fangshan District, Beijing 102488

Applicant before: Liu Miao

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210325

Address after: No.85, wenxinwu Road, Nanshan District, Shenzhen, Guangdong 518000

Applicant after: Wang Yuling

Address before: 264500 Yintan Tourist Resort, Rushan City, Weihai City, Shandong Province

Applicant before: Shandong Foreign Affairs Vocational University

WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200707