CN105354208A

CN105354208A - 一种大数据信息挖掘方法

Info

Publication number: CN105354208A
Application number: CN201510611191.XA
Authority: CN
Inventors: 瞿亚军; 卞长存; 刘通
Original assignee: Jiangsu Xunhu Information Technology Co Ltd
Current assignee: Jiangsu Xunhu Information Technology Co Ltd
Priority date: 2015-09-21
Filing date: 2015-09-21
Publication date: 2016-02-24

Abstract

本发明提供一种大数据信息挖掘方法，其包括以下步骤：建立输入的数据集；对数据进行筛选；数据预处理；对信息数据进行预挖掘；挖掘评估；评估判断和信息数据显示，本发明利用可视化技术或其它本发明采用聚类算法，数据挖掘快速、信息可靠，通过设置数据筛选、数据预处理、挖掘评估和评估判断，能够有效的提高大数据挖掘的可靠性与安全性，本发明的方法能够在大数据的环境下，快速、高效的执行，同时，对大数据的挖掘也便于管理与维护。

Description

一种大数据信息挖掘方法

技术领域

本发明涉及大数据技术领域，具体为一种大数据信息挖掘方法。

背景技术

数据挖掘是一门新兴的学科，它诞生于20世纪80年代，主要面向商业应用的人工智能研究领域。从技术角度看，数据挖掘就是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程。从商业角度来说，数据挖掘就是从庞大的数据库中抽取、转换、分析一些潜在规律和价值，从中获取辅助商业决策的关键信息和有用知识。

大数据是体量巨大、多种多样、高速变化、真实质差的复杂数据集合，已经难以用现有的数据工具管理利用，在这些数据中，空间数据占了绝大多数，大约80％的数据与空间位置有关，空间数据是人们通过信息世界认识现实世界的基础数据和智慧源泉，大数据与应用密切相关，空间数据挖掘为其主要应用。

对于大数据来说，分析方法是数据挖掘的核心工作，通过科学可靠的算法才能实现数据的挖掘，找出数据中潜在的规律。通过不同的分析方法，将解决不同类型的问题，在现实中针对不同的分析目标，找出相对应的方法。目前常用的分析方法主要有聚类分析、分类和预测、关联分析等。其中，聚类分析就是将物理或抽象对象的集合进行分组，然后组成为由类似或相似的对象组成的多个分类的分析过程，其目的就是通过相似的方法来收集数据分类。它是一种无先前知识，无监督的学习过程，从数据对象中找出有意义的数据，然后将其划分在一个未知的类。这不同于分类，因为它无法获知对象的属性。“物以类聚，人以群分”，通过聚类来分析事物之间类聚的潜在规律，聚类分析广泛运用于心理学、统计学、医学、生物学、市场销售、数据识别、机器智能学习等领域。聚类分析根据隶属度的取值范围可分为硬聚类和模糊聚类两种方法，硬聚类就是将对象划分到距离最近聚类的类，非此即彼，也就是说属于一类，就必然不属于另一类.模糊聚类就是根据隶属度的取值范围的大小差异来划分类.一个样本可能属于多个类.常见的聚类算法主要有密度聚类算法、层次聚类算法、划分聚类算法、网格聚类算法、模型聚类算法等。

20世纪90年代中后期，数据挖掘领域的一些较成熟的技术，如关联规则挖掘、分类预测与聚类等被逐渐用于时间序列数据挖掘和空间数据挖掘，以发现与时间或空间相关的有价值的模式。近年来数据挖掘研究又有拓展，已渗透到时空数据、智能交通、生物信息、医疗卫生、金融证券、多媒体数据挖掘、文本数据挖掘、Web数据、社交网络、图数据、轨迹数据及大数据等各个领域，这些领域对数据挖掘的理论与技术提出了新的挑战，是当前数据挖掘研究的重点与难点。

基于以上技术问题，本发明提供了一种大数据信息挖掘方法，采用聚类算法，数据挖掘快速、信息可靠，通过设置数据筛选、数据预处理、挖掘评估和评估判断，能够有效的提高大数据挖掘的可靠性与安全性，本发明的方法能够在大数据的环境下，快速、高效的执行，同时，对大数据的挖掘也便于管理与维护。

发明内容

本发明的目的是提供一种结构和使用简单、合理，算法简单，性能稳定的一种大数据信息挖掘方法。

为实现上述目的，本发明采用如下技术方案：一种大数据信息挖掘方法，其特征在于，其包括以下步骤：

(1)建立输入的数据集；

(2)对数据进行筛选：将数据集中的干扰数据筛除掉，选择出与挖掘目标相关的数据，组成新的数据集；

(3)数据预处理：通过聚类算法，对数据进行预处理；

(4)对信息数据进行预挖掘：对所述步骤(3)中预处理后的数据进行预挖掘，从而在预处理的数据集中进行知识发现；

(5)挖掘评估：对预挖掘的数据进行评估，得到其代表的知识模式；

(6)评估判断：如果岁挖掘的数据评估合格，则进入步骤(7)，如果不合格，则转至所述步骤(2)；

(7)信息数据显示：利用可视化技术或其它显示技术将挖掘到的信息数据直观显示给用户。

进一步，作为优选，所述步骤(1)中，建立输入的数据集的格式为：Di＝{e1，e2，…，en}，其中，n为大于等于3的自然数；聚簇的个数为k；所述步骤(3)中数据预处理的具体步骤为：首先计算聚类中心点C_ij及相应的对象个数m_ij，其中，i＝1，2，…，n，j＝1，2，…，k；C_ij的计算公式为：

C_{i j} = Σ_{i = 1, j = 1}^{i = n, j = n} (C_{i j} \times m_{i j}) / Σ_{i = 1, j = 1}^{i = n, j = n} m_{i j};

然后，中心站点随机产生k个初始聚簇中心，并发送到从站点S_i(i＝1，2，…，n)；之后计算直到每个聚类不再发生变化；

所述步骤(4)中，对信息数据进行预挖掘的具体步骤为：

用AP算法对聚类先不发生变化的聚簇中心数据点进行聚类，得到初始模型，当出现某一个新的点到达时，找出与该点的距离最近的聚簇中心点，并利用欧式距离公式计算出之间的距离d，如果若d小于阈值ε，则更新初始的模型，如果d大于阈值ε，则将该点暂时放入暂存盒，如果重新达到聚类标准，则重新建立初始模型，之后清空暂存盒，其中，更新初始的模型的方法为将现有的初始模型中的中心点和暂存盒中的点用加权算法进行聚类，得到更新初始的模型。

进一步，作为优选，所述挖掘评估(5)的具体步骤为：

首先将用户聚类分成C类，在每一类用户中找出一个点代表此类用户对每个项目的评分，具体表示为C₁(R_i1，R_i2……R_in)，对于待预测的评分，先利用相似度计算当前用户与哪类用户最接近，再在类中求出最近邻，根据最近邻的评价值而做出预测。

进一步，作为优选，所述步骤(6)与所述步骤(7)之间还设置有同态加密步骤，在所述步骤(7)中，还设置有解密步骤。

进一步，作为优选，所述步骤(7)之后还包括大数据存储步骤，其中，大数据存储步骤是将可视化技术或其它显示技术显示的挖掘到的信息数据存储到存储模块中，其中存储模块的存储模式采用数据信息属性和数据信息内容分别各自单独存储的方式。

进一步，作为优选，所述步骤(6)评估判断的具体子步骤为：

(1)选取合适的随机数，利用随机数选择方法，设置变量的初始值：X0＝random(N)，y0＝random(M)，并设置目标函数F(x，y，z)；

(2)设定两个合适的正数μ，Φ，其中，μ为迭代步长，Φ为终止条件阈值；

(3)求出当前位置的负值梯度

- &dtri; F (x, y, z) = (- \frac{\partial F}{\partial x}, \frac{\partial F}{\partial y}, \frac{\partial F}{\partial z});

(4)利用迭代法更新变量：

X n + i = X n - μ \frac{\partial F}{\partial x}, Y n + i = Y n - μ \frac{\partial F}{\partial y}, Z n + i = Z n - P \frac{\partial F}{\partial z};

(5)重复步骤(3)-(4)，直至目标函数变化量小于Φ，此时的目标函数值即为所述步骤(6)评估判断的得分值。

进一步，作为优选，所述步骤(2)中对数据进行筛选的方法是先采用最优值填充方法对数据进行清理，然后根据数据的相关性对数据信息进行数据集成，之后采用最小-最大规范化法对数据进行规范，最后采用数据分层抽样的方式对规范的数据进行筛选。

本发明的有益效果在于：

本发明提供的一种大数据信息挖掘方法，采用聚类算法，数据挖掘快速、信息可靠，通过设置数据筛选、数据预处理、挖掘评估和评估判断，能够有效的提高大数据挖掘的可靠性与安全性，本发明的方法能够在大数据的环境下，快速、高效的执行，同时，对大数据的挖掘也便于管理与维护。

附图说明

图1是本发明的一种大数据信息挖掘方法的流程结构示意图；

具体实施方式

以下结合附图来对本发明进行详细的描绘。然而应当理解，附图的提供仅为了更好地理解本发明，它们不应该理解成对本发明的限制。

如图1所示，本发明提供一种大数据信息挖掘方法，其特征在于，其包括以下步骤：

(1)建立输入的数据集；

(3)数据预处理：通过聚类算法，对数据进行预处理；

在本实施例中，所述步骤(1)中，建立输入的数据集的格式为：Di＝{e1，e2，…，en}，其中，n为大于等于3的自然数；聚簇的个数为k；所述步骤(3)中数据预处理的具体步骤为：首先计算聚类中心点C_ij及相应的对象个数m_ij，其中，i＝1，2，…，n，j＝1，2，…，k；C_ij的计算公式为：

C_{i j} = Σ_{i = 1, j = 1}^{i = n, j = n} (C_{i j} \times m_{i j}) / Σ_{i = 1, j = 1}^{i = n, j = n} m_{i j};

所述步骤(4)中，对信息数据进行预挖掘的具体步骤为：

同时，在本实施例中，所述挖掘评估(5)的具体步骤为：

此外，所述步骤(6)评估判断的具体子步骤为：

(3)求出当前位置的负值梯度

- &dtri; F (x, y, z) = (- \frac{\partial F}{\partial x}, \frac{\partial F}{\partial y}, \frac{\partial F}{\partial z});

(4)利用迭代法更新变量：

X n + i = X n - μ \frac{\partial F}{\partial x}, Y n + i = Y n - μ \frac{\partial F}{\partial y}, Z n + i = Z n - μ \frac{\partial F}{\partial z};

另外，所述步骤(2)中对数据进行筛选的方法是先采用最优值填充方法对数据进行清理，然后根据数据的相关性对数据信息进行数据集成，之后采用最小-最大规范化法对数据进行规范，最后采用数据分层抽样的方式对规范的数据进行筛选。

本发明采用聚类算法，数据挖掘快速、信息可靠，通过设置数据筛选、数据预处理、挖掘评估和评估判断，能够有效的提高大数据挖掘的可靠性与安全性，本发明的方法能够在大数据的环境下，快速、高效的执行，同时，对大数据的挖掘也便于管理与维护。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种大数据信息挖掘方法，其特征在于，其包括以下步骤：

(1)建立输入的数据集；

(3)数据预处理：通过聚类算法，对数据进行预处理；

2.根据权利要求1所述的一种大数据信息挖掘方法，其特征在于，所述步骤(1)中，建立输入的数据集的格式为：Di＝{e1，e2，…，en)，其中，n为大于等于3的自然数；聚簇的个数为k；所述步骤(3)中数据预处理的具体步骤为：首先计算聚类中心点C_ij及相应的对象个数m_ij，其中，i＝1，2，…，n，j＝1，2，…，k；C_ij的计算公式为：

C_{i j} = Σ_{i = 1, j = 1}^{i = n, j = n} (C_{i j} \times m_{i j}) / Σ_{i = 1, j = 1}^{i = n, j = n} m_{i j};

所述步骤(4)中，对信息数据进行预挖掘的具体步骤为：

3.根据权利要求2所述的一种大数据信息挖掘方法，其特征在于，所述挖掘评估(5)的具体步骤为：

首先将用户聚类分成C类，在每一类用户中找出一个点代表此类用户对每个项目的评分，具体表示为C₁(R_i1，R_i2……R_1n)，对于待预测的评分，先利用相似度计算当前用户与哪类用户最接近，再在类中求出最近邻，根据最近邻的评价值而做出预测。

4.根据权利要求1所述的一种大数据信息挖掘方法，其特征在于，所述步骤(6)与所述步骤(7)之间还设置有同态加密步骤，在所述步骤(7)中，还设置有解密步骤。

5.根据权利要求1所述的一种大数据信息挖掘方法，其特征在于，所述步骤(7)之后还包括大数据存储步骤，其中，大数据存储步骤是将可视化技术或其它显示技术显示的挖掘到的信息数据存储到存储模块中，其中存储模块的存储模式采用数据信息属性和数据信息内容分别各自单独存储的方式。

6.根据权利要求1所述的一种大数据信息挖掘方法，其特征在于，所述步骤(6)评估判断的具体子步骤为：

(3)求出当前位置的负值梯度

- &dtri; F (x, y, z) = (- \frac{\partial F}{\partial x}, \frac{\partial F}{Q y}, \frac{\partial F}{\partial z});

(4)利用迭代法更新变量：

\begin{matrix} X n + i = X n - μ \frac{\partial F}{\partial x}, & Y n + i = Y n - μ \frac{\partial F}{\partial y}, & Z n + i = Z n - μ \frac{\partial F}{\partial z} \end{matrix};

7.根据权利要求1所述的一种大数据信息挖掘方法，其特征在于，所述步骤(2)中对数据进行筛选的方法是先采用最优值填充方法对数据进行清理，然后根据数据的相关性对数据信息进行数据集成，之后采用最小-最大规范化法对数据进行规范，最后采用数据分层抽样的方式对规范的数据进行筛选。