CN111143436A

CN111143436A - 用于大数据的数据挖掘方法

Info

Publication number: CN111143436A
Application number: CN201911380336.4A
Authority: CN
Inventors: 黄晨
Original assignee: Nantong Qinchen Information Technology Co Ltd
Current assignee: Nantong Qinchen Information Technology Co Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-12

Abstract

本发明涉及计算机信息处理技术领域，且公开了用于大数据的数据挖掘方法，包括以下步骤：1)数据挖掘对象；2)数据挖掘分类；3)定义问题；4)数据准备；5)数据挖掘；6)数据挖掘的方法；7)结果分析，对数据挖掘的结果进行解释和评价，转换成为能够最终被用户理解的知识。该用于大数据的数据挖掘方法，通过将大量数据有目的分类，从中找到一些有价值的，潜在的信息，适用于预测模型的算法，具备描述简单，分类速度快，特别适合大规模的数据处理的优点，达到了计算机信息处理的目的，解决了现有的技术方案存在由于挖掘时要处理整个数据库，所需时间较长，数据挖掘的效率较低的问题。

Description

用于大数据的数据挖掘方法

技术领域

本发明涉及计算机信息处理技术领域，具体为用于大数据的数据挖掘方法。

背景技术

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程，数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标，近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识，随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富，从海量数据记录中有效地挖掘出不同类别的对象以便针对不同类别的对象实施不同的处理方案变的越来越重要。

目前，数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的和随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程，然而，现有的技术方案存在由于挖掘时要处理整个数据库，所需时间较长，数据挖掘的效率较低，故而提出用于大数据的数据挖掘方法解决上述问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了用于大数据的数据挖掘方法，具备数据挖掘效率高等优点，解决了现有的技术方案存在由于挖掘时要处理整个数据库，所需时间较长，数据挖掘的效率较低的问题。

(二)技术方案

为实现上述数据挖掘效率高的目的，本发明提供如下技术方案：

用于大数据的数据挖掘方法，包括以下步骤：

1)数据挖掘对象，根据信息存储格式，用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等；

2)数据挖掘分类，直接数据挖掘：目标是利用可用的数据建立一个模型，这个模型对剩余的数据，对一个特定的变量(可以理解成数据库中表的属性，即列)进行描述，间接数据挖掘：目标中没有选出某一具体的变量，用模型进行描述，而是在所有的变量中建立起某种关系；

3)定义问题，清晰地定义出业务问题，确定数据挖掘的目的；

4)数据准备，数据准备包括：选择数据–在大型数据库和数据仓库目标中提取数据挖掘的目标数据集；数据预处理–进行数据再加工，包括检查数据的完整性及数据的一致性和去噪声，填补丢失的域，删除无效数据等；

5)数据挖掘，根据数据功能的类型和数据的特点选择相应的算法，在净化和转换过的数据集上进行数据挖掘；

6)数据挖掘的方法，采用信息增益作为选择属性的标准来对样本集进行划分，选取信息增益最大的属性作为当前节点，利用信息熵、信息增益和信息条件熵来计算信息增益，其中：

信息熵也称为香农熵，是随机变量的期望，度量信息的不确定程度，信息的熵越大，信息就越不容易搞清楚，处理信息就是为了把信息搞清楚，就是熵减少的过程，其公式为：

信息条件熵公式为：

(以上公式为属性A的信息条件熵)；

信息增益，用于度量属性A降低样本集合X熵的贡献大小，信息增益越大，越适于对X分类，其公式为：

Gain(A)＝Info(D)-Info_A(D)

自顶向下的贪婪搜索遍历可能的决策树空间构造决策树，从“哪一个属性将在树的根节点被测试”开始，使用统计测试来确定每一个实例属性单独分类样例的能力，分类能力最好的属性作为树的根结点测试(利用信息增益or信息增益率定义或者评判属性是否为最好的分类能力)，然后为根结点属性的每个可能值产生一个分支，并把样例排列到适当的分支(也就是说，样例的该属性值对应的分支)之下，重复这个过程，用每个分支结点关联的样例来选取在该点被测试的最佳属性，这形成了对合格决策树的贪婪搜索；

寻找最佳属性的Python代码：

7)结果分析，对数据挖掘的结果进行解释和评价，转换成为能够最终被用户理解的知识。

(三)有益效果

与现有技术相比，本发明提供了用于大数据的数据挖掘方法，具备以下有益效果：

该用于大数据的数据挖掘方法，通过将大量数据有目的分类，从中找到一些有价值的，潜在的信息，适用于预测模型的算法，具备描述简单，分类速度快，特别适合大规模的数据处理的优点，达到了计算机信息处理的目的。

具体实施方式

下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

用于大数据的数据挖掘方法，包括以下步骤：

信息条件熵公式为：

(以上公式为属性A的信息条件熵)；

Gain(A)＝Info(D)-Info_A(D)

寻找最佳属性的Python代码：

本发明的有益效果是：通过将大量数据有目的分类，从中找到一些有价值的，潜在的信息，适用于预测模型的算法，具备描述简单，分类速度快，特别适合大规模的数据处理的优点，达到了计算机信息处理的目的，解决了现有的技术方案存在由于挖掘时要处理整个数据库，所需时间较长，数据挖掘的效率较低的问题。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。