CN110765216A

CN110765216A - 数据挖掘方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN110765216A
Application number: CN201911004941.1A
Authority: CN
Inventors: 蒋诗伟; 陈丹; 顾玉莲
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-02-07

Abstract

本发明实施例提供了一种数据挖掘方法、装置、计算机设备及计算机可读存储介质，其中，该方法包括：将待处理数据中与目标变量相关的特征项进行分组，分为初始分组数；每次分组后，分别计算将当前分组中任意相邻两组合并的情况下，所有分组的皮尔森卡方统计量，在得到的皮尔森卡方统计量中，按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并，合并后的分组情况视为重新分组，直至分组数为预设分组数，完成数据分箱，皮尔森卡方统计量的大小表示当前分组情况下目标变量的第一分类和目标变量的第二分类之间的差异度；基于数据分箱后预设分组数的数据进行数据挖掘。该方案使得数据分箱更合理、更准确，有利于提高数据挖掘结果的精度。

Description

数据挖掘方法、装置、计算机设备及计算机可读存储介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种数据挖掘方法、装置、计算机设备及计算机可读存储介质。

背景技术

近年来，随着大数据技术的发展，数据挖掘技术也日趋成熟，数据挖掘技术一般是指从大量的数据中通过算法搜索出隐藏信息的方法。数据挖掘技术广泛应用在很多行业，例如：金融业、通信业、交通业、大型零售以及保险业等行业。传统数据挖掘过程中，对于连续型变量进行特征工程时，需要进行分箱，传统的分箱方法主要有等频、等距以及根据一些指标人工分箱等，由于传统的分箱方法数据分箱模式比较单一，且影响分箱准确度低，使得影响数据挖掘结果的精度。此外，由于数据挖掘过程中涉及到的数据特征项经常很多，在挖掘的过程中往往还会衍生出新的特征项，通过人工分箱很容易出现无从下手、分箱不合理导致信息损失以及模型稳定度下降的问题；同时，人工分箱效率较低，耗费时间。

发明内容

本发明实施例提供了一种数据挖掘方法，以解决现有技术中由于分箱准确度低使得数据挖掘精度低的技术问题。该方法包括：

接收待处理数据，将待处理数据中与目标变量相关的特征项进行等频或等距分组，分为初始分组数；

每次分组后，分别计算将当前分组中任意相邻两组合并的情况下，所有分组的皮尔森卡方统计量，在得到的皮尔森卡方统计量中，按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并，合并后的分组情况视为重新分组，直至分组数为预设分组数，完成数据分箱，其中，皮尔森卡方统计量的大小表示当前分组情况下目标变量的第一分类和目标变量的第二分类之间的差异度，所述预设分组数小于所述初始分组数；

基于数据分箱后所述预设分组数的数据进行数据挖掘。

本发明实施例还提供了一种数据挖掘装置，以解决现有技术中由于分箱准确度低使得数据挖掘精度低的技术问题。该装置包括：

初始分组模块，用于接收待处理数据，将待处理数据中与目标变量相关的特征项进行等频或等距分组，分为初始分组数；

循环分组模块，用于每次分组后，分别计算将当前分组中任意相邻两组合并的情况下，所有分组的皮尔森卡方统计量，在得到的皮尔森卡方统计量中，按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并，合并后的分组情况视为重新分组，直至分组数为预设分组数，其中，皮尔森卡方统计量的大小表示当前分组情况下目标变量的第一分类和目标变量的第二分类之间的差异度，所述预设分组数小于所述初始分组数；

数据处理模块，用于基于数据分箱后所述预设分组数的数据进行数据挖掘。

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意的数据挖掘方法，以解决现有技术中由于分箱准确度低使得数据挖掘精度低的技术问题。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述任意的数据挖掘方法的计算机程序，以解决现有技术中由于分箱准确度低使得数据挖掘精度低的技术问题。

在本发明实施例中，通过将待处理数据中与目标变量相关的特征项进行等频或等距分组，分为初始分组数，进而在每次分组后，分别计算将当前分组中任意相邻两组合并的情况下，所有分组的皮尔森卡方统计量，在得到的皮尔森卡方统计量中，按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并，合并后的分组情况视为重新分组，重复多次合并相邻两组的过程，直至分组数为预设分组数，完成数据分箱，最后，基于数据分箱后所述预设分组数的数据进行数据挖掘。由于在合并相邻两组重新分组的过程中，引进了皮尔森卡方统计量的概念，并采用皮尔森卡方统计量来衡量不同分组情况下目标变量的的第一分类和目标变量的第二分类之间的差异度，每次采用目标变量的第一分类和目标变量的第二分类差异度相对最大的合并方式将相邻两组合并，来实现重新分组、缩小分组数的目的，直到分组情况由初始分组数缩小到预设分组数，完成数据分箱的过程，使得数据分箱更合理、更准确，基于分箱后的数据进行数据挖掘，有利于提高数据挖掘结果的精度；同时，数据分箱过程不需要人工干涉，有利于提高数据分箱的效率和准确度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1是本发明实施例提供的一种数据挖掘方法的流程图；

图2是本发明实施例提供的一种数据分箱的流程图；

图3是本发明实施例提供的一种计算机设备的结构框图；

图4是本发明实施例提供的一种数据挖掘装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在本发明实施例中，提供了一种数据挖掘方法，如图1所示，该方法包括：

步骤102：接收待处理数据，将待处理数据中与目标变量相关的特征项进行等频或等距分组，分为初始分组数；

步骤104：每次分组后，分别计算将当前分组中任意相邻两组合并的情况下，所有分组的皮尔森卡方统计量，在得到的皮尔森卡方统计量中，按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并，合并后的分组情况视为重新分组，直至分组数为预设分组数，其中，皮尔森卡方统计量的大小表示当前分组情况下目标变量的第一分类和目标变量的第二分类之间的差异度，所述预设分组数小于所述初始分组数；

步骤106：基于数据分箱后所述预设分组数的数据进行数据挖掘。

由图1所示的流程可知，在本发明实施例中，通过将待处理数据中与目标变量相关的特征项进行等频或等距分组，分为初始分组数，进而在每次分组后，分别计算将当前分组中任意相邻两组合并的情况下，所有分组的皮尔森卡方统计量，在得到的皮尔森卡方统计量中，按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并，合并后的分组情况视为重新分组，重复多次合并相邻两组的过程，直至分组数为预设分组数，完成数据分箱，完成数据分箱，最后，基于数据分箱后所述预设分组数的数据进行数据挖掘。由于在合并相邻两组重新分组的过程中，引进了皮尔森卡方统计量的概念，并采用皮尔森卡方统计量来衡量不同分组情况下目标变量的第一分类和目标变量的第二分类之间的差异度，每次采用目标变量的第一分类和目标变量的第二分类差异度相对最大的合并方式将相邻两组合并，来实现重新分组、缩小分组数的目的，直到分组情况由初始分组数缩小到预设分组数，完成数据分箱的过程，使得数据分箱更合理、更准确，基于分箱后的数据进行数据挖掘，有利于提高数据挖掘结果的精度；同时，数据分箱过程不需要人工干涉，有利于提高数据分箱的效率和准确度。

具体实施时，输入待处理数据时，可以数据excel格式的数据、文本，也可以直接与数据库连接来读取数据。

具体实施时，上述数据分箱是指对于连续变量进行离散化的过程，特征变量离散化后，在数据挖掘过程中模型会更加稳定，有利于降低模型过拟合的风险。

具体实施时，为了进一步完善数据分箱过程，提高数据分箱的准确度、合理性，在本实施例中，分别计算将当前分组中任意相邻两组合并的情况下，所有分组的皮尔森卡方统计量，在得到的皮尔森卡方统计量中，将最大的皮尔森卡方统计量对应的合并方式将相邻两组合并，合并后的分组情况视为重新分组，直至分组数为预设分组数，包括：

循环执行以下步骤，直至分组数为所述预设分组数：

针对当前分组，分别计算将当前分组中任意相邻两组合并的情况下，所有分组的皮尔森卡方统计量；

在得到的各合并情况下的皮尔森卡方统计量中，确定最大的皮尔森卡方统计量；

按照最大的皮尔森卡方统计量对应的合并方式将相应的相邻两组合并，合并后的分组情况视为重新分组；

判断当前分组数是否为所述预设分组数，若是，结束流程，若否，继续执行下一步骤。

例如，以预设分组数为5组、初始分组数为50组为例，如图2所示，上述数据分箱的过程包括以下步骤：

第一步：接收数据宽表(即待处理数据)，将待处理数据中与目标变量相关的特征项进行等频或等距分组，分为50组(一般等频或等距分组的间距参数可调整)，分别为A1，A2，A3，····，A50；

第二步：针对当前分组后，分别计算将当前分组中任意相邻两组合并的情况下，所有分组的皮尔森卡方统计量，例如，在A1和A2合并的情况下，基于合并后的49组计算的皮尔森卡方统计量为X1；在A2与A3合并的情况下，基于合并后的49组计算的皮尔森卡方统计量为X2，以此类推，最终，得到49个皮尔森卡方统计量，分别为X1至X49，如果49个皮尔森卡方统计量中X1最大，则在当前分组中，按照X1对应的合并方式将A1和A2合并，合并后的分组情况视为重新分组；

第三步：判断当前分组数是否为5，如是，结束流程，若否，执行上述步骤二，直至达到目标分箱数量5组为止。

具体实施时，在本实施例中，通过以下公式基于所有分组计算皮尔森卡方统计量：

其中，X²为皮尔森卡方统计量；O_i,j为第j个分组中属于目标变量第i个分类的样本数；E_i,j为第j个分组中属于目标变量第i个分类的期望值；r为目标变量的分类数；c为基于特征变量(该特征变量是指分组时所参照的特征量，即基于特征变量进行分组)的当前分组数量。

具体的，可以通过以下公式来计算E_i,j：

其中，A_j为第j个分组中的样本数；M_i为所有样本中属于目标变量第i个分类的样本数；M为所有样本数。

具体实施时，目标变量的分类数可以根据不同需求来确定，本申请不做具体限定。一般情况下，目标变量的分类包括两种，即第一分类和第二分类，第一分类和第二分类属于互斥类型，每个样本只能属于第一分类和第二分类中的一个分类，可以采用数字“1”表示第一分类，可以采用数字“0”表示第二分类。

具体实施时，皮尔森卡方统计量的数值越大，表示当前分组情况下目标变量和目标变量1的差异度越大。

具体实施时，为了进一步提高数据分箱的准确性，在本实施例中，将待处理数据中与目标变量相关的特征项进行等频或等距分组，分为初始分组数，包括：

将待处理数据中与目标变量相关的特征项进行排序；例如，可以按照升序或降序的方式进行排序。

对排序后的特征项进行等频或等距分组，分为初始分组数。

在本实施例中，提供了一种计算机设备，如图3所示，包括存储器302、处理器304及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意的数据挖掘方法。

具体的，该计算机设备可以是计算机终端、服务器或者类似的运算装置。

在本实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述任意的数据挖掘方法的计算机程序。

具体的，计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读存储介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

基于同一发明构思，本发明实施例中还提供了一种数据挖掘装置，如下面的实施例所述。由于数据挖掘装置解决问题的原理与数据挖掘方法相似，因此数据挖掘装置的实施可以参见数据挖掘方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是本发明实施例的数据挖掘装置的一种结构框图，如图4所示，该装置包括：

初始分组模块402，用于接收待处理数据，将待处理数据中与目标变量相关的特征项进行等频或等距分组，分为初始分组数；

循环分组模块404，用于每次分组后，分别计算将当前分组中任意相邻两组合并的情况下，所有分组的皮尔森卡方统计量，在得到的皮尔森卡方统计量中，按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并，合并后的分组情况视为重新分组，直至分组数为预设分组数，其中，皮尔森卡方统计量的大小表示当前分组情况下目标变量的第一分类和目标变量的第二分类之间的差异度，所述预设分组数小于所述初始分组数；

数据处理模块406，用于基于数据分箱后所述预设分组数的数据进行数据挖掘。

在一个实施例中，所述循环分组模块，具体用用于循环执行以下步骤，直至分组数为所述预设分组数：

在一个实施例中，所述循环分组模块通过以下公式基于所有分组计算皮尔森卡方统计量：

其中，X²为皮尔森卡方统计量；O_i,j为第j个分组中属于目标变量第i个分类的样本数；E_i,j为第j个分组中属于目标变量第i个分类的期望值；r为目标变量的分类数；c为基于特征变量的当前分组数量。

在一个实施例中，所述初始分组模块，包括：

排序单元，用于将待处理数据中与目标变量相关的特征项进行排序；

初始分组单元，用于对排序后的特征项进行等频分组，分为初始分组数。

本发明实施例实现了如下技术效果：通过将待处理数据中与目标变量相关的特征项进行等频或等距分组，分为初始分组数，进而在每次分组后，分别计算将当前分组中任意相邻两组合并的情况下，所有分组的皮尔森卡方统计量，在得到的皮尔森卡方统计量中，按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并，合并后的分组情况视为重新分组，重复多次合并相邻两组的过程，直至分组数为预设分组数，完成数据分箱，最后，基于数据分箱后所述预设分组数的数据进行数据挖掘。由于在合并相邻两组重新分组的过程中，引进了皮尔森卡方统计量的概念，并采用皮尔森卡方统计量来衡量不同分组情况下目标变量的第一分类和目标变量的第二分类之间的差异度，每次采用目标变量的第一分类和目标变量的第二分类差异度相对最大的合并方式将相邻两组合并，来实现重新分组、缩小分组数的目的，直到分组情况由初始分组数缩小到预设分组数，完成数据分箱的过程，使得数据分箱更合理、更准确，基于分箱后的数据进行数据挖掘，有利于提高数据挖掘结果的精度；同时，数据分箱过程不需要人工干涉，有利于提高数据分箱的效率和准确度。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据挖掘方法，其特征在于，包括：

基于数据分箱后所述预设分组数的数据进行数据挖掘。

2.如权利要求1所述的数据挖掘方法，其特征在于，每次分组后，分别计算将当前分组中任意相邻两组合并的情况下，所有分组的皮尔森卡方统计量，在得到的皮尔森卡方统计量中，将最大的皮尔森卡方统计量对应的合并方式将相邻两组合并，合并后的分组情况视为重新分组，直至分组数为预设分组数，包括：

循环执行以下步骤，直至分组数为所述预设分组数：

3.如权利要求1所述的数据挖掘方法，其特征在于，通过以下公式基于所有分组计算皮尔森卡方统计量：

4.如权利要求1至3中任一项所述的数据挖掘方法，其特征在于，将待处理数据中与目标变量相关的特征项进行等频或等距分组，分为初始分组数，包括：

将待处理数据中与目标变量相关的特征项进行排序；

对排序后的特征项进行等频或等距分组，分为初始分组数。

5.一种数据挖掘装置，其特征在于，包括：

6.如权利要求5所述的数据挖掘装置，其特征在于，所述循环分组模块，具体用用于循环执行以下步骤，直至分组数为所述预设分组数：

7.如权利要求5所述的数据挖掘装置，其特征在于，所述循环分组模块通过以下公式基于所有分组计算皮尔森卡方统计量：

8.如权利要求5至7中任一项所述的数据挖掘装置，其特征在于，所述初始分组模块，包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的数据挖掘方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至4中任一项所述的数据挖掘方法的计算机程序。