CN108427753A

CN108427753A - 一种新的数据挖掘方法

Info

Publication number: CN108427753A
Application number: CN201810205935.1A
Authority: CN
Inventors: 史宇清; 朱跃龙
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2018-08-21

Abstract

本发明公开了一种新的数据挖掘方法，所述方法包括下列步骤：步骤1：根据目标数据集中的记录统计每个目标对象的特征向量以构成粗糙数据集，每个特征向量包括其所对应的目标对象的至少一个属性数据的值；步骤2：从粗糙数据集中筛选出所有已知的第一类目标对象所对应的特征向量，对筛选出的特性向量执行数据筛选，最后获得特征向量的样本；步骤3：对数据迭代处理；步骤4：基于所述样本构建回归模型，并随之使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象。本发明通过优化数据处理流程，显著提高对数据挖掘的处理速度；能够根据目标对象的综合特征来挖掘和分类目标对象，显著地提高判定操作的效率和准确性。

Description

一种新的数据挖掘方法

技术领域

本发明涉及一种新的数据挖掘方法，属于数据挖掘技术领域。

背景技术

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式，可以发现的模式有很多种，按功能可以分为两大类：预测性(Predictive)模式和描述(Descriptive)模式。在应用中往往根据模式的实际作用细分为以下几种：分类，估值，预测，相关性分析，序列，时间序列，描述和可视化等。数据挖掘涉及的学科领域和技术很多，有多种分类法。根据挖掘任务分，可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等；根据挖掘对象分，有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web；根据挖掘方法分，可粗分为：机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中，可细分为：归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中，可细分为：回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中，可细分为：前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法，另外还有面向属性的归纳方法等等。

目前，随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富，从与特定的对象相关的海量数据记录中有效地挖掘出不同类别的对象以便针对不同类别的对象实施不同的处理方案变的越来越重要。在现有的技术方案中，通常根据与目标对象相关联的一个或多个属性数据来对目标对象进行分类，即基于每个目标对象的某个或某些特定的属性数据的值对目标对象进行分类。然而，现有的技术方案存在如下问题：由于仅仅基于单一或数个属性数据对目标对象进行分类，故分类结果的精确度较低，并且由于需要对每个目标对象的属性数据进行相同的评估操作，故数据挖掘的效率较低。因此，需要设计一种新的方案给予解决。

发明内容

本发明正是针对现有技术存在的不足，提供一种新的数据挖掘方法，以解决现有技术存在的不足，满足水利领域和图书档案管理等领域的实际使用要求。

为解决上述问题，本发明所采取的技术方案如下：

一种新的数据挖掘方法，所述数据挖掘方法包括下列步骤：

步骤1：根据目标数据集中的记录统计每个目标对象的特征向量以构成粗糙数据集，每个所述特征向量包括其所对应的目标对象的至少一个属性数据的值；

步骤2：从所述粗糙数据集中筛选出所有已知的第一类目标对象所对应的特征向量，并对筛选出的特性向量执行数据筛选(确定特征向量中各个元素的权重值，设权重值为L，元素即特征向量的组成部分对数据挖掘的重要性参数为b，则L＝b2，对特征向量进行修正)，最后获得特征向量的样本；

步骤3：对数据迭代处理，迭代的目的是为了得到一个满足标准的特征向量集合，根据目标集合的格式设置迭代矩阵，随机选择符合要求的迭代矩阵，通过循环迭代进行修正，逐步靠近目标；将数据集合与迭代矩阵相乘，然后与修正后的特征向量相乘，得到第一中间数据集合，求出第一中间数据集合与数据集合的第一偏移率；使用第一中间数据集合与迭代矩阵相乘，然后与修正后的特征向量相乘，得到第二中间数据集合，求出第二中间数据集合与第一中间数据集合的第二偏移率，当第二偏移率小于第一偏移率时，继续上述迭代过程，直至第N偏移率小于设定的阈值，得到目标数据集合，当第二偏移率大于第一偏移率时，修订迭代矩阵，重新进行迭代；

步骤4：基于所述样本构建回归模型，并随之使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象。

作为上述技术方案的改进，所述回归模型所包含的特征向量包括所有第一类目标对象共有的属性特征数据的值。

作为上述技术方案的改进，所述数据筛选包括根据预定的标准从筛选出的特性向量中过滤掉噪点。

作为上述技术方案的改进，所述步骤4进一步包括抽取所述样本中第一部分作为训练样本以构建所述回归模型；抽取所述样本中的第二部分作为测试样本以测试已构建的回归模型；抽取所述样本中的第三部分作为应用样本以测试已构建的回归模型稳定性。

作为上述技术方案的改进，所述步骤4进一步包括在构建回归模型之前对每个样本中的每个字段执行规范化操作，其包括：(1)处理缺失值；(2)处理奇异值；(3)对离散型的字符型字段进行重新编码；(4)对每个样本中的每个字段以z-score方式进行规范化，以消除量纲不一致的影响。

作为上述技术方案的改进，所述步骤4进一步包括在所述规范化操作执行完成之后进一步对每个样本中的每个字段执行离散化操作，其包括：(1)对连续型的数据以划分区间的方式进行离散化，其中区间之间的划分点是导致目标变量出现明显转折的点；(2)根据WOE值曲线的趋势来判断区间划分结果的优劣，其中如果WOE值曲线是递增、递减或者只有一个转折点的趋势，则确定划分结果是优良的并随之终止离散化操作，否则返回步骤(1)以继续在该区间内进行划分。

作为上述技术方案的改进，以如下方式使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象：基于回归模型针对已知的第二类目标对象所对应的特征向量计算该已知的第二类目标对象属于第一类目标对象的概率，且如果计算出的概率大于预定的分类阈值，则判定该已知的第二类目标对象潜在地属于第一类目标对象。

本发明与现有技术相比较，本发明的实施效果如下：

本发明所述通过优化数据处理流程，显著提高了对数据挖掘的处理速度；能够根据目标对象的综合特征来挖掘和分类目标对象，并且由于使用回归模型进行判定，故复用性较高并且能够显著地提高判定操作的效率和准确性。

附图说明

图1为本发明数据挖掘流程示意图。

具体实施方式

下面将结合具体的实施例来说明本发明的内容。

如图1所示，为本发明所述的一种新的数据挖掘方法流程示意图。

本发明所述一种新的数据挖掘方法，所述数据挖掘方法包括下列步骤：

其中，所述回归模型所包含的特征向量包括所有第一类目标对象共有的属性特征数据的值；所述数据筛选包括根据预定的标准从筛选出的特性向量中过滤掉噪点。

进一步改进地，所述步骤4进一步包括抽取所述样本中第一部分作为训练样本以构建所述回归模型；抽取所述样本中的第二部分作为测试样本以测试已构建的回归模型；抽取所述样本中的第三部分作为应用样本以测试已构建的回归模型稳定性。

进一步改进地，所述步骤4进一步包括在构建回归模型之前对每个样本中的每个字段执行规范化操作，其包括：(1)处理缺失值；(2)处理奇异值；(3)对离散型的字符型字段进行重新编码；(4)对每个样本中的每个字段以z-score方式进行规范化，以消除量纲不一致的影响。

进一步改进地，所述步骤4进一步包括在所述规范化操作执行完成之后进一步对每个样本中的每个字段执行离散化操作，其包括：(1)对连续型的数据以划分区间的方式进行离散化，其中区间之间的划分点是导致目标变量出现明显转折的点；(2)根据WOE值曲线的趋势来判断区间划分结果的优劣，其中如果WOE值曲线是递增、递减或者只有一个转折点的趋势，则确定划分结果是优良的并随之终止离散化操作，否则返回步骤(1)以继续在该区间内进行划分。

具体地，以如下方式使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象：基于回归模型针对已知的第二类目标对象所对应的特征向量计算该已知的第二类目标对象属于第一类目标对象的概率，且如果计算出的概率大于预定的分类阈值，则判定该已知的第二类目标对象潜在地属于第一类目标对象。

以上内容是结合具体的实施例对本发明所作的详细说明，不能认定本发明具体实施仅限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明保护的范围。

Claims

1.一种新的数据挖掘方法，其特征在于：所述数据挖掘方法包括下列步骤：

2.根据权利要求1所述新的数据挖掘方法，其特征在于：所述回归模型所包含的特征向量包括所有第一类目标对象共有的属性特征数据的值。

3.根据权利要求2所述新的数据挖掘方法，其特征在于：所述数据筛选包括根据预定的标准从筛选出的特性向量中过滤掉噪点。

4.根据权利要求3所述新的数据挖掘方法，其特征在于：所述步骤4进一步包括抽取所述样本中第一部分作为训练样本以构建所述回归模型；抽取所述样本中的第二部分作为测试样本以测试已构建的回归模型；抽取所述样本中的第三部分作为应用样本以测试已构建的回归模型稳定性。

5.根据权利要求4所述新的数据挖掘方法，其特征在于：所述步骤4进一步包括在构建所述回归模型之前对每个样本中的每个字段执行规范化操作，其包括：(1)处理缺失值；(2)处理奇异值；(3)对离散型的字符型字段进行重新编码；(4)对每个样本中的每个字段以z-score方式进行规范化，以消除量纲不一致的影响。

6.根据权利要求5所述新的数据挖掘方法，其特征在于：所述步骤4进一步包括在所述规范化操作执行完成之后进一步对每个样本中的每个字段执行离散化操作，其包括：(1)对连续型的数据以划分区间的方式进行离散化，其中区间之间的划分点是导致目标变量出现明显转折的点；(2)根据WOE值曲线的趋势来判断区间划分结果的优劣，其中如果WOE值曲线是递增、递减或者只有一个转折点的趋势，则确定划分结果是优良的并随之终止离散化操作，否则返回步骤(1)以继续在该区间内进行划分。

7.根据权利要求6所述新的数据挖掘方法，其特征在于：以如下方式使用所构建的回归模型确定所有已知的第二类目标对象中的每个是否潜在地属于第一类目标对象：基于所述回归模型针对已知的第二类目标对象所对应的特征向量计算该已知的第二类目标对象属于第一类目标对象的概率，并且如果计算出的概率大于预定的分类阈值，则判定该已知的第二类目标对象潜在地属于第一类目标对象。