CN111143436A - 用于大数据的数据挖掘方法 - Google Patents
用于大数据的数据挖掘方法 Download PDFInfo
- Publication number
- CN111143436A CN111143436A CN201911380336.4A CN201911380336A CN111143436A CN 111143436 A CN111143436 A CN 111143436A CN 201911380336 A CN201911380336 A CN 201911380336A CN 111143436 A CN111143436 A CN 111143436A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- attribute
- data mining
- entropy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机信息处理技术领域,且公开了用于大数据的数据挖掘方法,包括以下步骤:1)数据挖掘对象;2)数据挖掘分类;3)定义问题;4)数据准备;5)数据挖掘;6)数据挖掘的方法;7)结果分析,对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。该用于大数据的数据挖掘方法,通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息,适用于预测模型的算法,具备描述简单,分类速度快,特别适合大规模的数据处理的优点,达到了计算机信息处理的目的,解决了现有的技术方案存在由于挖掘时要处理整个数据库,所需时间较长,数据挖掘的效率较低的问题。
Description
技术领域
本发明涉及计算机信息处理技术领域,具体为用于大数据的数据挖掘方法。
背景技术
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程,数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标,近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,从海量数据记录中有效地挖掘出不同类别的对象以便针对不同类别的对象实施不同的处理方案变的越来越重要。
目前,数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的和随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,然而,现有的技术方案存在由于挖掘时要处理整个数据库,所需时间较长,数据挖掘的效率较低,故而提出用于大数据的数据挖掘方法解决上述问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了用于大数据的数据挖掘方法,具备数据挖掘效率高等优点,解决了现有的技术方案存在由于挖掘时要处理整个数据库,所需时间较长,数据挖掘的效率较低的问题。
(二)技术方案
为实现上述数据挖掘效率高的目的,本发明提供如下技术方案:
用于大数据的数据挖掘方法,包括以下步骤:
1)数据挖掘对象,根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等;
2)数据挖掘分类,直接数据挖掘:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述,间接数据挖掘:目标中没有选出某一具体的变量,用模型进行描述,而是在所有的变量中建立起某种关系;
3)定义问题,清晰地定义出业务问题,确定数据挖掘的目的;
4)数据准备,数据准备包括:选择数据–在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理–进行数据再加工,包括检查数据的完整性及数据的一致性和去噪声,填补丢失的域,删除无效数据等;
5)数据挖掘,根据数据功能的类型和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘;
6)数据挖掘的方法,采用信息增益作为选择属性的标准来对样本集进行划分,选取信息增益最大的属性作为当前节点,利用信息熵、信息增益和信息条件熵来计算信息增益,其中:
信息熵也称为香农熵,是随机变量的期望,度量信息的不确定程度,信息的熵越大,信息就越不容易搞清楚,处理信息就是为了把信息搞清楚,就是熵减少的过程,其公式为:
信息条件熵公式为:
(以上公式为属性A的信息条件熵);
信息增益,用于度量属性A降低样本集合X熵的贡献大小,信息增益越大,越适于对X分类,其公式为:
Gain(A)=Info(D)-InfoA(D)
自顶向下的贪婪搜索遍历可能的决策树空间构造决策树,从“哪一个属性将在树的根节点被测试”开始,使用统计测试来确定每一个实例属性单独分类样例的能力,分类能力最好的属性作为树的根结点测试(利用信息增益or信息增益率定义或者评判属性是否为最好的分类能力),然后为根结点属性的每个可能值产生一个分支,并把样例排列到适当的分支(也就是说,样例的该属性值对应的分支)之下,重复这个过程,用每个分支结点关联的样例来选取在该点被测试的最佳属性,这形成了对合格决策树的贪婪搜索;
寻找最佳属性的Python代码:
7)结果分析,对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。
(三)有益效果
与现有技术相比,本发明提供了用于大数据的数据挖掘方法,具备以下有益效果:
该用于大数据的数据挖掘方法,通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息,适用于预测模型的算法,具备描述简单,分类速度快,特别适合大规模的数据处理的优点,达到了计算机信息处理的目的。
具体实施方式
下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
用于大数据的数据挖掘方法,包括以下步骤:
1)数据挖掘对象,根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等;
2)数据挖掘分类,直接数据挖掘:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述,间接数据挖掘:目标中没有选出某一具体的变量,用模型进行描述,而是在所有的变量中建立起某种关系;
3)定义问题,清晰地定义出业务问题,确定数据挖掘的目的;
4)数据准备,数据准备包括:选择数据–在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理–进行数据再加工,包括检查数据的完整性及数据的一致性和去噪声,填补丢失的域,删除无效数据等;
5)数据挖掘,根据数据功能的类型和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘;
6)数据挖掘的方法,采用信息增益作为选择属性的标准来对样本集进行划分,选取信息增益最大的属性作为当前节点,利用信息熵、信息增益和信息条件熵来计算信息增益,其中:
信息熵也称为香农熵,是随机变量的期望,度量信息的不确定程度,信息的熵越大,信息就越不容易搞清楚,处理信息就是为了把信息搞清楚,就是熵减少的过程,其公式为:
信息条件熵公式为:
(以上公式为属性A的信息条件熵);
信息增益,用于度量属性A降低样本集合X熵的贡献大小,信息增益越大,越适于对X分类,其公式为:
Gain(A)=Info(D)-InfoA(D)
自顶向下的贪婪搜索遍历可能的决策树空间构造决策树,从“哪一个属性将在树的根节点被测试”开始,使用统计测试来确定每一个实例属性单独分类样例的能力,分类能力最好的属性作为树的根结点测试(利用信息增益or信息增益率定义或者评判属性是否为最好的分类能力),然后为根结点属性的每个可能值产生一个分支,并把样例排列到适当的分支(也就是说,样例的该属性值对应的分支)之下,重复这个过程,用每个分支结点关联的样例来选取在该点被测试的最佳属性,这形成了对合格决策树的贪婪搜索;
寻找最佳属性的Python代码:
7)结果分析,对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。
本发明的有益效果是:通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息,适用于预测模型的算法,具备描述简单,分类速度快,特别适合大规模的数据处理的优点,达到了计算机信息处理的目的,解决了现有的技术方案存在由于挖掘时要处理整个数据库,所需时间较长,数据挖掘的效率较低的问题。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (1)
1.用于大数据的数据挖掘方法,其特征在于,包括以下步骤:
1)数据挖掘对象,根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等;
2)数据挖掘分类,直接数据挖掘:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述,间接数据挖掘:目标中没有选出某一具体的变量,用模型进行描述,而是在所有的变量中建立起某种关系;
3)定义问题,清晰地定义出业务问题,确定数据挖掘的目的;
4)数据准备,数据准备包括:选择数据–在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理–进行数据再加工,包括检查数据的完整性及数据的一致性和去噪声,填补丢失的域,删除无效数据等;
5)数据挖掘,根据数据功能的类型和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘;
6)数据挖掘的方法,采用信息增益作为选择属性的标准来对样本集进行划分,选取信息增益最大的属性作为当前节点,利用信息熵、信息增益和信息条件熵来计算信息增益,其中:
信息熵也称为香农熵,是随机变量的期望,度量信息的不确定程度,信息的熵越大,信息就越不容易搞清楚,处理信息就是为了把信息搞清楚,就是熵减少的过程,其公式为:
信息条件熵公式为:
(以上公式为属性A的信息条件熵);
信息增益,用于度量属性A降低样本集合X熵的贡献大小,信息增益越大,越适于对X分类,其公式为:
Gain(A)=Info(D)-InfoA(D)
自顶向下的贪婪搜索遍历可能的决策树空间构造决策树,从“哪一个属性将在树的根节点被测试”开始,使用统计测试来确定每一个实例属性单独分类样例的能力,分类能力最好的属性作为树的根结点测试(利用信息增益or信息增益率定义或者评判属性是否为最好的分类能力),然后为根结点属性的每个可能值产生一个分支,并把样例排列到适当的分支(也就是说,样例的该属性值对应的分支)之下,重复这个过程,用每个分支结点关联的样例来选取在该点被测试的最佳属性,这形成了对合格决策树的贪婪搜索;
寻找最佳属性的Python代码:
7)结果分析,对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911380336.4A CN111143436A (zh) | 2019-12-27 | 2019-12-27 | 用于大数据的数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911380336.4A CN111143436A (zh) | 2019-12-27 | 2019-12-27 | 用于大数据的数据挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111143436A true CN111143436A (zh) | 2020-05-12 |
Family
ID=70521103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911380336.4A Withdrawn CN111143436A (zh) | 2019-12-27 | 2019-12-27 | 用于大数据的数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111143436A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822309A (zh) * | 2020-09-25 | 2021-12-21 | 京东科技控股股份有限公司 | 用户的分类方法、装置和非易失性计算机可读存储介质 |
-
2019
- 2019-12-27 CN CN201911380336.4A patent/CN111143436A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822309A (zh) * | 2020-09-25 | 2021-12-21 | 京东科技控股股份有限公司 | 用户的分类方法、装置和非易失性计算机可读存储介质 |
CN113822309B (zh) * | 2020-09-25 | 2024-04-16 | 京东科技控股股份有限公司 | 用户的分类方法、装置和非易失性计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104881706B (zh) | 一种基于大数据技术的电力系统短期负荷预测方法 | |
Arbin et al. | Comparative analysis between k-means and k-medoids for statistical clustering | |
CN111311401A (zh) | 一种基于LightGBM的金融违约概率预测模型 | |
CN110750524A (zh) | 一种有源配电网故障特征的确定方法及系统 | |
CN112613536B (zh) | 一种基于smote和深度学习的近红外光谱柴油牌号识别方法 | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
CN110990718B (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN104361135A (zh) | 一种图像检索方法 | |
CN117556369A (zh) | 一种动态生成的残差图卷积神经网络的窃电检测方法及系统 | |
CN117725437B (zh) | 一种基于机器学习的数据精准匹配分析方法 | |
CN109597901B (zh) | 一种基于生物数据的数据分析方法 | |
CN113743453A (zh) | 一种基于随机森林的人口数量预测方法 | |
CN111143436A (zh) | 用于大数据的数据挖掘方法 | |
CN116702059B (zh) | 一种基于物联网的智能生产车间管理系统 | |
CN116365519B (zh) | 一种电力负荷预测方法、系统、存储介质及设备 | |
CN113705110A (zh) | 一种基于双重随机森林回归方法的爆破振动速度预测方法 | |
CN111523576B (zh) | 一种适用于电子质量检测的密度峰值聚类离群点检测方法 | |
CN112214524A (zh) | 一种基于深度数据挖掘的数据评估系统及评估方法 | |
CN110990383A (zh) | 一种基于工业大数据集的相似度计算方法 | |
CN116090331A (zh) | 一种页岩气水平井压裂参数优化的方法 | |
Li et al. | A novel approach to remote sensing image retrieval with multi-feature VP-tree indexing and online feature selection | |
CN114490645A (zh) | 一种用于电网结构化数据的自动机器学习方法 | |
CN110032933B (zh) | 一种图像数据的获取方法、装置、终端及存储介质 | |
Diachenko et al. | “Dark matter” of hunter‐gatherers archaeology: How many artifacts does a site lack? | |
CN111967911A (zh) | 衍生品的监控分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200512 |