CN105447090A

CN105447090A - 一种自动化数据挖掘预处理方法

Info

Publication number: CN105447090A
Application number: CN201510752372.4A
Authority: CN
Inventors: 莫益军; 尹强; 廖振松
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2015-11-05
Filing date: 2015-11-05
Publication date: 2016-03-30
Anticipated expiration: 2035-11-05
Also published as: CN105447090B

Abstract

本发明公开了一种自动化数据挖掘预处理方法，其特征在于，包括：建立数据库和预处理规则库，在该数据库中新建数据表且标准化命名，将待预处理数据进行抽样后导入新建数据表中，同时对抽样后的预处理数据的每一个字段的值进行数理统计；提取数据表的关键字A、B和C，在预处理规则库中查询是否存在这些关键字，如果不存在则将数据表的关键字和所有字段添加到预处理规则库中，然后采用分箱法和数据平滑法对所有预处理数据进行处理，以生成新的规则，并将其添加到原有规则库中。本发明通过对预处理结果进行评分和反馈，调整字段映射函数，提高预处理的质量。

Description

一种自动化数据挖掘预处理方法

技术领域

本发明属于数据挖掘领域，更具体地，涉及一种自动化数据挖掘预处理方法。

背景技术

在数据挖掘的工程应用中，数据预处理往往占到了80％甚至更多工作。学者们已经对数据挖掘的方法已经进行了大量的研究，并取得了一定的成果，但是，数据挖掘预处理，特别是如何自动化的进行数据预处理，仍然是一个问题。目前，已有一些企业和研究机构提出了一些数据挖掘预处理的方法。

例如，中国发明CN200910236744.2中提出了一种数据挖掘系统中数据预处理的方法、系统及装置，其中，数据预处理对应具有设定执行次序的多个预处理方式，主要技术方案包括：确定数据预处理对应的当前预处理方式；在确定若根据当前预处理方式处理得到的处理结果无需合并并且当前预处理方式不为数据预处理的最后一个预处理方式时，在各操作节点根据当前预处理方式处理待处理数据后，控制各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。根据该技术方案，减少了不同节点之间由于待处理数据的读取以及处理结果的写入而需要的传输过程，提高了数据挖掘系统中数据预处理的效率，提高了整个数据挖掘系统的性能。该发明提出了一种高效的分布式数据预处理方法，但是，无法对海量数据进行自动化数据预处理。

中国发明申请CN201210337315.6公开了一种基于excel的数据挖掘方法，借助excel工具和数据挖掘外接程序以及数据库来进来数据挖掘，通过对企业多年的经营的数据或者生产的数据进行挖掘，根据数据挖掘算法发现的有用的模式，可以运用这些模式来改善经营策略，提高劳动生产率，减少成本，增加企业利润。一般要进行数据挖掘需要专业的人员和花费大量的金钱才能实现，是一般中小企业所不能承受的。该发明阐述用excel来实现数据挖掘，可以让大部分懂excel的人都可以进行数据挖掘。该发明能让数据挖掘预处理变得更易操作，但是仍然需要耗费很大的工作量，无法对海量数据进行自动化数据预处理。

专利CN102609501A提出了一种基于实时历史数据库的数据预处理方法，涉及到实时历史数据库测点的创建、过程数据的采集、实时库数据的查询、数据特性分析，最后提出了一种以阈值和倍率为参数的横向清洗算法，将不同采集周期过程数据进行了描述，最终得到了过程控制数据采集减少了不同节点之间由于待处理数据的读取以及处理结果的写入而需要的传输过程，提高了数据挖掘系统中数据预处理的效率，提高了整个数据挖掘系统的性能。该发明通过一种基于历史数据库的方法，能够在一定程度上进行自动化的数据预处理，但是缺乏反馈和参数控制，因此预处理的质量无法得到保障。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种自动化数据挖掘预处理方法，其目的在于，通过构建规则库和样本库，将新数据与已有的样本数据进行字段映射，将新数据的字段变换成已有样本库中的特征字段，并使用相应的数据预处理方法进行自动化的数据预处理；同时，通过对预处理结果进行评分和反馈，调整字段映射函数，提高预处理的质量。

为实现上述目的，按照本发明的一个方面，提供了一种自动化数据挖掘预处理方法，包括以下步骤：

(1)建立数据库和预处理规则库，在该数据库中新建数据表且标准化命名，将待预处理数据进行抽样后导入新建数据表中，同时对抽样后的预处理数据的每一个字段的值进行数理统计；

(2)提取数据表的关键字A、B和C，在预处理规则库中查询是否存在这些关键字，如果不存在则进入步骤(3)，如果存在则跳转步骤(4)；

(3)将数据表的关键字和所有字段添加到预处理规则库中，然后跳转到步骤(7)；

(4)找到数据表中抽样后的数据的所有字段，确定这些字段对应数值的类型，根据数据表中的关键字和字段对应数值的类型是否与规则库中的关键字及类型一致来判断规则库中的字段是否符合数据表字段，如果符合则进入步骤(5)，不符合则跳转到步骤(7)；

(5)计算数据表中的每一字段特征向量和规则库中符合字段的特征向量，并根据两个特征向量之间的误差判断来修正误差阈值ξ，进而修正并确立数据表字段和已有规则库中字段之间的映射关系；

(6)将所有待预处理数据导入到新建数据表中，按照规则库中的数据预处理方法对该数据进行数据预处理，并对预处理结果进行评估；

(7)采用分箱法和数据平滑法对所有预处理数据进行处理，以生成新的规则，并将其添加到原有规则库中。

(8)输出步骤(6)和(7)的预处理结果，并记录预处理日志。

优选地，步骤(1)包括以下子步骤：

(1.1)建立数据库，同时建立预处理规则库；

(1.2)在数据库中新建数据表且进行标准化命名，其命名规则为A+B+C+建表时间的形式，其中A、B和C分别表示该数据表数据相关信息、代表的行业和行业的业务类型；

(1.3)将待预处理数据进行抽样并导入数据表；

(1.4)对数据表中抽样后的数据的每个字段的值进行数理统计，得到的数理统计特性用于组成该数据的特征向量。

优选地，步骤(5)包括以下子步骤：

(5.1)设置计数器k＝1；

(5.2)选择抽样后的待预处理数据的第k个字段，并计算它的特征向量λ，其中1≤k≤n，n为待预处理数据所包括的字段总数；

(5.3)选择数据表中第k个字段对应的规则库字段I，并计算其特征向量λ'；

(5.4)设置计数器m＝1；

(5.5)判断是否有成立，如果成立则跳至步骤(5.8)，不满足则进入步骤(5.6)；其中ξ为误差阈值；

(5.6)使用逻辑回归算法计算该第k个字段到规则库中相应字段的映射关系f_m(λ')＝f(f_m-1(λ'))，其中f₀(λ')＝λ'；

(5.7)判断是否有成立；如果不成立则设置m＝m+1，并返回步骤(5.6)，如果成立则进入步骤(5.8)；

(5.8)记录并输出数据表中该第k个字段与规则库中对应字段的映射关系；

(5.9)判断k是否等于n，即抽样后的待预处理数据是否存在未处理的字段，如果不等于，则设置k＝k+1，返回步骤(5.2)，否则进入步骤(6)。

优选地，步骤(6)包括以下子步骤：

(6.1)将所有的待预处理数据导入到新建数据表中，根据步骤5中确立的映射关系，将待预处理的数据变换成相应映射的数据，通过规则库提取与该数据相应的数据预处理方法；

(6.2)依照规则库中的预处理方法，对所有待预处理数据进行数值缺失和数据冗余处理；

(6.3)对步骤(6.2)处理后的数据进行合并、拆分和归一化处理；

(6.4)对步骤(6.3)处理后的数据进行属性交换、属性变换和属性删除处理；

(6.5)计算预处理数据各字段的特征向量λ＝(λ₁,λ₂...λ_n)和规则库字段特征向量λ'＝(λ₁',λ₂'...λ_n')，并得到向量集合D＝{(λ₁,λ₁'),(λ₂,λ₂')...(λ_n,λ_n')}，使用公式作为评估函数对预处理过程进行评估，并判断是否有S＞ψ，ψ为预先设定的误差阈值，如果是则进入步骤(7)，否则跳转步骤(8)。

优选地，输出预处理日志包括预处理时间、预处理数据、匹配字段、预处理操作、预处理后数据、预处理质量评估、未处理字段、新建规则。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、本发明能够实现数据预处理工作的自动化，由于采用了步骤(1)、(4)、(5)、(6)通过构建规则库，查询待预处理数据中符合规则库中字段的字段，得到两者之间的映射关系，按照预处理规则库中的预处理方法对新数据进行自动化的预处理操作。代替了人工预处理操作，减少了投入提升了数据预处理的效率，减少了数据挖掘整个过程的周期

2、本发明由于采用了步骤(2)、(3)、(7)建立了一个依托各具体的业务系统的规则库，通过分析具体业务系统海量数据，构建自动化预处理规则库，在预处理数据的不断壮大中，规则库也被不断地更新。规则库越来越壮大对预处理数据对象的适应能力越强，自动化程度越高，预处理能力越强，预处理的质量更高，后续数据挖掘得到的信息精度更高，信息更丰富。

附图说明

图1是本发明自动化数据挖掘预处理方法的流程图。

图2是本发明方法中步骤(1)的细化流程图。

图3是本发明方法中步骤(5)的细化流程图。

图4是本发明方法中步骤(6)的细化流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明的自动化数据挖掘预处理方法包括以下步骤：

步骤1：建立数据库和预处理规则库，在该数据库中新建数据表且标准化命名，将待预处理数据进行抽样后导入新建数据表中，同时对抽样后的预处理数据的每一个字段的值进行数理统计，本步骤包括以下子步骤(见图2)：

步骤1.1：建立数据库，同时建立预处理规则库；

步骤1.2：在数据库中新建数据表且进行标准化命名，其命名规则为A+B+C+建表时间的形式，其中A、B和C分别表示该数据表数据相关信息、代表的行业和行业的业务类型，比如，A可以为四月份消费明细表，B表示银行业，C表示现金业务等；

步骤1.3：将待预处理数据进行抽样并导入数据表；

步骤1.4：对数据表中抽样后的数据的每个字段的值进行数理统计(包括计算众数、均值、或方差等)，得到的数理统计特性用于组成该数据的特征向量。

步骤2：提取数据表的关键字A、B和C，在预处理规则库中查询是否存在这些关键字，如果不存在则进入步骤3，如果存在则跳转步骤4；

步骤3：将数据表的关键字和所有字段添加到预处理规则库中，然后跳转到步骤7；

步骤4：找到数据表中抽样后的数据的所有字段，确定这些字段对应数值的类型(字段值的类型一般包括文本、二元值、整形等)，根据数据表中的关键字和字段对应数值的类型是否与规则库中的关键字及类型一致来判断规则库中的字段是否符合数据表字段，如果符合则进入步骤5，不符合则跳转到步骤7；

步骤5：计算数据表中的每一字段特征向量和规则库中符合字段的特征向量，并根据两个特征向量之间的误差判断来修正误差阈值ξ，进而修正并确立数据表字段和已有规则库中字段之间的映射关系。该步骤包括以下子步骤：(见图4流程)

步骤5.1：设置计数器k＝1；

步骤5.2：选择抽样后的待预处理数据的第k个字段(1≤k≤n，n为待预处理数据所包括的字段总数)，并计算它的特征向量λ；具体的过程和上述步骤1.4相同，在此不再赘述；

步骤5.3：选择数据表中第k个字段对应的规则库字段I，并计算其特征向量λ'；

步骤5.4：设置计数器m＝1；

步骤5.5：判断是否有成立，如果成立则跳至步骤5.8，不满足则进入步骤5.6；其中ξ为误差阈值，其取值是预先设定，且取值范围是0≤ξ≤1，ξ的取值越小，则本发明方法的精度越高，反之则越低；

步骤5.6：使用逻辑回归算法计算该第k个字段到规则库中相应字

段的映射关系f_m(λ')＝f(f_m-1(λ'))，其中f₀(λ')＝λ'；

步骤5.7：判断是否有成立；如果不成立则设置m＝m+1，并返回步骤5.6，如果成立则进入步骤5.8；

步骤5.8：记录并输出数据表中该第k个字段与规则库中对应字段的映射关系；

步骤5.9：判断k是否等于n，即抽样后的待预处理数据是否存在未处理的字段，如果不等于，则设置k＝k+1，返回步骤5.2，否则进入步骤6；

步骤6：将所有待预处理数据导入到新建数据表中，按照规则库中的数据预处理方法对该数据进行数据预处理，并对预处理结果进行评估；该步骤进一步包括以下步骤：

步骤6.1：将所有的待预处理数据导入到新建数据表中，根据步骤5中确立的映射关系，将待预处理的数据变换成相应映射的数据，通过规则库提取与该数据相应的数据预处理方法；

步骤6.2：依照规则库中的预处理方法，对所有待预处理数据进行数值缺失和数据冗余处理；

步骤6.3：对上一步处理后的数据进行合并、拆分和归一化处理；

步骤6.4：对上一步处理后的数据进行属性交换、属性变换和属性删除处理；

步骤6.5：计算预处理数据各字段的特征向量λ＝(λ₁,λ₂...λ_n)和规则库字段特征向量λ'＝(λ₁',λ₂'...λ_n')，并得到向量集合D＝{(λ₁,λ₁'),(λ₂,λ₂')...(λ_n,λ_n')}，使用公式)作为评估函数对预处理过程进行评估，ψ为预先设定的误差阈值，取值范围为0≤ψ≤1，如果评估S＞ψ则预处理数据质量偏低，进入步骤7，否则跳转步骤8。

步骤7：采用分箱法和数据平滑法对所有预处理数据进行处理，以生成新的规则，并将其添加到原有规则库中。

步骤8：输出步骤6和7的预处理结果，并记录预处理日志。

输出预处理日志包括预处理时间、预处理数据、匹配字段、预处理操作、预处理后数据、预处理质量评估、未处理字段、新建规则等几个主要部分。预处理时间是指执行数据预处理操作的具体时间；预处理数据是指待预处理的数据；匹配字段是指待预处理数据与规则库中匹配的字段；预处理操作指针对该数据项的预处理动作；预处理后的数据则是指执行规则后的最终数据；预处理质量评估是指预处理结果的评价；未处理字段是指未与规则库字段匹配的字段，这些字段需要进一步分析；新建规则是针对未匹配字段建立的预处理规则。日志便于日后对数据处理历史进行记录，同时也可用于数据质量分析等。

总而言之，本发明通过分析历史数据构建数据挖掘预处理自动化规则库，将新数据的字段映射到规则库中的字段，并使用规则库字段的预处理方法对新数据进行自动化的预处理。自动化数据预处理完毕后，通过预处理质量评估进行反馈，调整误差阈值和映射参数，提高数据预处理的质量。同时，在数据分析中不断迭代和更新规则库，不断提高数据挖掘预处理自动化程度。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自动化数据挖掘预处理方法，其特征在于，包括以下步骤：

(8)输出步骤(6)和(7)的预处理结果，并记录预处理日志。

2.根据权利要求1所述的自动化数据挖掘预处理方法，其特征在于，步骤(1)包括以下子步骤：

(1.1)建立数据库，同时建立预处理规则库；

(1.3)将待预处理数据进行抽样并导入数据表；

3.根据权利要求2所述的自动化数据挖掘预处理方法，其特征在于，步骤(5)包括以下子步骤：

(5.1)设置计数器k＝1；

(5.4)设置计数器m＝1；

4.根据权利要求3所述的自动化数据挖掘预处理方法，其特征在于，步骤(6)包括以下子步骤：

(6.3)对步骤(6.2)处理后的数据进行合并、拆分和归一化处理；

5.根据权利要求4所述的自动化数据挖掘预处理方法，其特征在于，输出预处理日志包括预处理时间、预处理数据、匹配字段、预处理操作、预处理后数据、预处理质量评估、未处理字段、新建规则。