CN110765216A - 数据挖掘方法、装置、计算机设备及计算机可读存储介质 - Google Patents

数据挖掘方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110765216A
CN110765216A CN201911004941.1A CN201911004941A CN110765216A CN 110765216 A CN110765216 A CN 110765216A CN 201911004941 A CN201911004941 A CN 201911004941A CN 110765216 A CN110765216 A CN 110765216A
Authority
CN
China
Prior art keywords
grouping
data
chi
target variable
square statistic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911004941.1A
Other languages
English (en)
Inventor
蒋诗伟
陈丹
顾玉莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN201911004941.1A priority Critical patent/CN110765216A/zh
Publication of CN110765216A publication Critical patent/CN110765216A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种数据挖掘方法、装置、计算机设备及计算机可读存储介质,其中,该方法包括:将待处理数据中与目标变量相关的特征项进行分组,分为初始分组数;每次分组后,分别计算将当前分组中任意相邻两组合并的情况下,所有分组的皮尔森卡方统计量,在得到的皮尔森卡方统计量中,按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并,合并后的分组情况视为重新分组,直至分组数为预设分组数,完成数据分箱,皮尔森卡方统计量的大小表示当前分组情况下目标变量的第一分类和目标变量的第二分类之间的差异度;基于数据分箱后预设分组数的数据进行数据挖掘。该方案使得数据分箱更合理、更准确,有利于提高数据挖掘结果的精度。

Description

数据挖掘方法、装置、计算机设备及计算机可读存储介质
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据挖掘方法、装置、计算机设备及计算机可读存储介质。
背景技术
近年来,随着大数据技术的发展,数据挖掘技术也日趋成熟,数据挖掘技术一般是指从大量的数据中通过算法搜索出隐藏信息的方法。数据挖掘技术广泛应用在很多行业,例如:金融业、通信业、交通业、大型零售以及保险业等行业。传统数据挖掘过程中,对于连续型变量进行特征工程时,需要进行分箱,传统的分箱方法主要有等频、等距以及根据一些指标人工分箱等,由于传统的分箱方法数据分箱模式比较单一,且影响分箱准确度低,使得影响数据挖掘结果的精度。此外,由于数据挖掘过程中涉及到的数据特征项经常很多,在挖掘的过程中往往还会衍生出新的特征项,通过人工分箱很容易出现无从下手、分箱不合理导致信息损失以及模型稳定度下降的问题;同时,人工分箱效率较低,耗费时间。
发明内容
本发明实施例提供了一种数据挖掘方法,以解决现有技术中由于分箱准确度低使得数据挖掘精度低的技术问题。该方法包括:
接收待处理数据,将待处理数据中与目标变量相关的特征项进行等频或等距分组,分为初始分组数;
每次分组后,分别计算将当前分组中任意相邻两组合并的情况下,所有分组的皮尔森卡方统计量,在得到的皮尔森卡方统计量中,按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并,合并后的分组情况视为重新分组,直至分组数为预设分组数,完成数据分箱,其中,皮尔森卡方统计量的大小表示当前分组情况下目标变量的第一分类和目标变量的第二分类之间的差异度,所述预设分组数小于所述初始分组数;
基于数据分箱后所述预设分组数的数据进行数据挖掘。
本发明实施例还提供了一种数据挖掘装置,以解决现有技术中由于分箱准确度低使得数据挖掘精度低的技术问题。该装置包括:
初始分组模块,用于接收待处理数据,将待处理数据中与目标变量相关的特征项进行等频或等距分组,分为初始分组数;
循环分组模块,用于每次分组后,分别计算将当前分组中任意相邻两组合并的情况下,所有分组的皮尔森卡方统计量,在得到的皮尔森卡方统计量中,按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并,合并后的分组情况视为重新分组,直至分组数为预设分组数,其中,皮尔森卡方统计量的大小表示当前分组情况下目标变量的第一分类和目标变量的第二分类之间的差异度,所述预设分组数小于所述初始分组数;
数据处理模块,用于基于数据分箱后所述预设分组数的数据进行数据挖掘。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的数据挖掘方法,以解决现有技术中由于分箱准确度低使得数据挖掘精度低的技术问题。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的数据挖掘方法的计算机程序,以解决现有技术中由于分箱准确度低使得数据挖掘精度低的技术问题。
在本发明实施例中,通过将待处理数据中与目标变量相关的特征项进行等频或等距分组,分为初始分组数,进而在每次分组后,分别计算将当前分组中任意相邻两组合并的情况下,所有分组的皮尔森卡方统计量,在得到的皮尔森卡方统计量中,按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并,合并后的分组情况视为重新分组,重复多次合并相邻两组的过程,直至分组数为预设分组数,完成数据分箱,最后,基于数据分箱后所述预设分组数的数据进行数据挖掘。由于在合并相邻两组重新分组的过程中,引进了皮尔森卡方统计量的概念,并采用皮尔森卡方统计量来衡量不同分组情况下目标变量的的第一分类和目标变量的第二分类之间的差异度,每次采用目标变量的第一分类和目标变量的第二分类差异度相对最大的合并方式将相邻两组合并,来实现重新分组、缩小分组数的目的,直到分组情况由初始分组数缩小到预设分组数,完成数据分箱的过程,使得数据分箱更合理、更准确,基于分箱后的数据进行数据挖掘,有利于提高数据挖掘结果的精度;同时,数据分箱过程不需要人工干涉,有利于提高数据分箱的效率和准确度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是本发明实施例提供的一种数据挖掘方法的流程图;
图2是本发明实施例提供的一种数据分箱的流程图;
图3是本发明实施例提供的一种计算机设备的结构框图;
图4是本发明实施例提供的一种数据挖掘装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在本发明实施例中,提供了一种数据挖掘方法,如图1所示,该方法包括:
步骤102:接收待处理数据,将待处理数据中与目标变量相关的特征项进行等频或等距分组,分为初始分组数;
步骤104:每次分组后,分别计算将当前分组中任意相邻两组合并的情况下,所有分组的皮尔森卡方统计量,在得到的皮尔森卡方统计量中,按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并,合并后的分组情况视为重新分组,直至分组数为预设分组数,其中,皮尔森卡方统计量的大小表示当前分组情况下目标变量的第一分类和目标变量的第二分类之间的差异度,所述预设分组数小于所述初始分组数;
步骤106:基于数据分箱后所述预设分组数的数据进行数据挖掘。
由图1所示的流程可知,在本发明实施例中,通过将待处理数据中与目标变量相关的特征项进行等频或等距分组,分为初始分组数,进而在每次分组后,分别计算将当前分组中任意相邻两组合并的情况下,所有分组的皮尔森卡方统计量,在得到的皮尔森卡方统计量中,按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并,合并后的分组情况视为重新分组,重复多次合并相邻两组的过程,直至分组数为预设分组数,完成数据分箱,完成数据分箱,最后,基于数据分箱后所述预设分组数的数据进行数据挖掘。由于在合并相邻两组重新分组的过程中,引进了皮尔森卡方统计量的概念,并采用皮尔森卡方统计量来衡量不同分组情况下目标变量的第一分类和目标变量的第二分类之间的差异度,每次采用目标变量的第一分类和目标变量的第二分类差异度相对最大的合并方式将相邻两组合并,来实现重新分组、缩小分组数的目的,直到分组情况由初始分组数缩小到预设分组数,完成数据分箱的过程,使得数据分箱更合理、更准确,基于分箱后的数据进行数据挖掘,有利于提高数据挖掘结果的精度;同时,数据分箱过程不需要人工干涉,有利于提高数据分箱的效率和准确度。
具体实施时,输入待处理数据时,可以数据excel格式的数据、文本,也可以直接与数据库连接来读取数据。
具体实施时,上述数据分箱是指对于连续变量进行离散化的过程,特征变量离散化后,在数据挖掘过程中模型会更加稳定,有利于降低模型过拟合的风险。
具体实施时,为了进一步完善数据分箱过程,提高数据分箱的准确度、合理性,在本实施例中,分别计算将当前分组中任意相邻两组合并的情况下,所有分组的皮尔森卡方统计量,在得到的皮尔森卡方统计量中,将最大的皮尔森卡方统计量对应的合并方式将相邻两组合并,合并后的分组情况视为重新分组,直至分组数为预设分组数,包括:
循环执行以下步骤,直至分组数为所述预设分组数:
针对当前分组,分别计算将当前分组中任意相邻两组合并的情况下,所有分组的皮尔森卡方统计量;
在得到的各合并情况下的皮尔森卡方统计量中,确定最大的皮尔森卡方统计量;
按照最大的皮尔森卡方统计量对应的合并方式将相应的相邻两组合并,合并后的分组情况视为重新分组;
判断当前分组数是否为所述预设分组数,若是,结束流程,若否,继续执行下一步骤。
例如,以预设分组数为5组、初始分组数为50组为例,如图2所示,上述数据分箱的过程包括以下步骤:
第一步:接收数据宽表(即待处理数据),将待处理数据中与目标变量相关的特征项进行等频或等距分组,分为50组(一般等频或等距分组的间距参数可调整),分别为A1,A2,A3,····,A50;
第二步:针对当前分组后,分别计算将当前分组中任意相邻两组合并的情况下,所有分组的皮尔森卡方统计量,例如,在A1和A2合并的情况下,基于合并后的49组计算的皮尔森卡方统计量为X1;在A2与A3合并的情况下,基于合并后的49组计算的皮尔森卡方统计量为X2,以此类推,最终,得到49个皮尔森卡方统计量,分别为X1至X49,如果49个皮尔森卡方统计量中X1最大,则在当前分组中,按照X1对应的合并方式将A1和A2合并,合并后的分组情况视为重新分组;
第三步:判断当前分组数是否为5,如是,结束流程,若否,执行上述步骤二,直至达到目标分箱数量5组为止。
具体实施时,在本实施例中,通过以下公式基于所有分组计算皮尔森卡方统计量:
其中,X2为皮尔森卡方统计量;Oi,j为第j个分组中属于目标变量第i个分类的样本数;Ei,j为第j个分组中属于目标变量第i个分类的期望值;r为目标变量的分类数;c为基于特征变量(该特征变量是指分组时所参照的特征量,即基于特征变量进行分组)的当前分组数量。
具体的,可以通过以下公式来计算Ei,j
Figure BDA0002242457650000052
其中,Aj为第j个分组中的样本数;Mi为所有样本中属于目标变量第i个分类的样本数;M为所有样本数。
具体实施时,目标变量的分类数可以根据不同需求来确定,本申请不做具体限定。一般情况下,目标变量的分类包括两种,即第一分类和第二分类,第一分类和第二分类属于互斥类型,每个样本只能属于第一分类和第二分类中的一个分类,可以采用数字“1”表示第一分类,可以采用数字“0”表示第二分类。
具体实施时,皮尔森卡方统计量的数值越大,表示当前分组情况下目标变量和目标变量1的差异度越大。
具体实施时,为了进一步提高数据分箱的准确性,在本实施例中,将待处理数据中与目标变量相关的特征项进行等频或等距分组,分为初始分组数,包括:
将待处理数据中与目标变量相关的特征项进行排序;例如,可以按照升序或降序的方式进行排序。
对排序后的特征项进行等频或等距分组,分为初始分组数。
在本实施例中,提供了一种计算机设备,如图3所示,包括存储器302、处理器304及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的数据挖掘方法。
具体的,该计算机设备可以是计算机终端、服务器或者类似的运算装置。
在本实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的数据挖掘方法的计算机程序。
具体的,计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
基于同一发明构思,本发明实施例中还提供了一种数据挖掘装置,如下面的实施例所述。由于数据挖掘装置解决问题的原理与数据挖掘方法相似,因此数据挖掘装置的实施可以参见数据挖掘方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是本发明实施例的数据挖掘装置的一种结构框图,如图4所示,该装置包括:
初始分组模块402,用于接收待处理数据,将待处理数据中与目标变量相关的特征项进行等频或等距分组,分为初始分组数;
循环分组模块404,用于每次分组后,分别计算将当前分组中任意相邻两组合并的情况下,所有分组的皮尔森卡方统计量,在得到的皮尔森卡方统计量中,按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并,合并后的分组情况视为重新分组,直至分组数为预设分组数,其中,皮尔森卡方统计量的大小表示当前分组情况下目标变量的第一分类和目标变量的第二分类之间的差异度,所述预设分组数小于所述初始分组数;
数据处理模块406,用于基于数据分箱后所述预设分组数的数据进行数据挖掘。
在一个实施例中,所述循环分组模块,具体用用于循环执行以下步骤,直至分组数为所述预设分组数:
针对当前分组,分别计算将当前分组中任意相邻两组合并的情况下,所有分组的皮尔森卡方统计量;
在得到的各合并情况下的皮尔森卡方统计量中,确定最大的皮尔森卡方统计量;
按照最大的皮尔森卡方统计量对应的合并方式将相应的相邻两组合并,合并后的分组情况视为重新分组;
判断当前分组数是否为所述预设分组数,若是,结束流程,若否,继续执行下一步骤。
在一个实施例中,所述循环分组模块通过以下公式基于所有分组计算皮尔森卡方统计量:
Figure BDA0002242457650000071
其中,X2为皮尔森卡方统计量;Oi,j为第j个分组中属于目标变量第i个分类的样本数;Ei,j为第j个分组中属于目标变量第i个分类的期望值;r为目标变量的分类数;c为基于特征变量的当前分组数量。
在一个实施例中,所述初始分组模块,包括:
排序单元,用于将待处理数据中与目标变量相关的特征项进行排序;
初始分组单元,用于对排序后的特征项进行等频分组,分为初始分组数。
本发明实施例实现了如下技术效果:通过将待处理数据中与目标变量相关的特征项进行等频或等距分组,分为初始分组数,进而在每次分组后,分别计算将当前分组中任意相邻两组合并的情况下,所有分组的皮尔森卡方统计量,在得到的皮尔森卡方统计量中,按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并,合并后的分组情况视为重新分组,重复多次合并相邻两组的过程,直至分组数为预设分组数,完成数据分箱,最后,基于数据分箱后所述预设分组数的数据进行数据挖掘。由于在合并相邻两组重新分组的过程中,引进了皮尔森卡方统计量的概念,并采用皮尔森卡方统计量来衡量不同分组情况下目标变量的第一分类和目标变量的第二分类之间的差异度,每次采用目标变量的第一分类和目标变量的第二分类差异度相对最大的合并方式将相邻两组合并,来实现重新分组、缩小分组数的目的,直到分组情况由初始分组数缩小到预设分组数,完成数据分箱的过程,使得数据分箱更合理、更准确,基于分箱后的数据进行数据挖掘,有利于提高数据挖掘结果的精度;同时,数据分箱过程不需要人工干涉,有利于提高数据分箱的效率和准确度。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据挖掘方法,其特征在于,包括:
接收待处理数据,将待处理数据中与目标变量相关的特征项进行等频或等距分组,分为初始分组数;
每次分组后,分别计算将当前分组中任意相邻两组合并的情况下,所有分组的皮尔森卡方统计量,在得到的皮尔森卡方统计量中,按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并,合并后的分组情况视为重新分组,直至分组数为预设分组数,完成数据分箱,其中,皮尔森卡方统计量的大小表示当前分组情况下目标变量的第一分类和目标变量的第二分类之间的差异度,所述预设分组数小于所述初始分组数;
基于数据分箱后所述预设分组数的数据进行数据挖掘。
2.如权利要求1所述的数据挖掘方法,其特征在于,每次分组后,分别计算将当前分组中任意相邻两组合并的情况下,所有分组的皮尔森卡方统计量,在得到的皮尔森卡方统计量中,将最大的皮尔森卡方统计量对应的合并方式将相邻两组合并,合并后的分组情况视为重新分组,直至分组数为预设分组数,包括:
循环执行以下步骤,直至分组数为所述预设分组数:
针对当前分组,分别计算将当前分组中任意相邻两组合并的情况下,所有分组的皮尔森卡方统计量;
在得到的各合并情况下的皮尔森卡方统计量中,确定最大的皮尔森卡方统计量;
按照最大的皮尔森卡方统计量对应的合并方式将相应的相邻两组合并,合并后的分组情况视为重新分组;
判断当前分组数是否为所述预设分组数,若是,结束流程,若否,继续执行下一步骤。
3.如权利要求1所述的数据挖掘方法,其特征在于,通过以下公式基于所有分组计算皮尔森卡方统计量:
Figure FDA0002242457640000011
其中,X2为皮尔森卡方统计量;Oi,j为第j个分组中属于目标变量第i个分类的样本数;Ei,j为第j个分组中属于目标变量第i个分类的期望值;r为目标变量的分类数;c为基于特征变量的当前分组数量。
4.如权利要求1至3中任一项所述的数据挖掘方法,其特征在于,将待处理数据中与目标变量相关的特征项进行等频或等距分组,分为初始分组数,包括:
将待处理数据中与目标变量相关的特征项进行排序;
对排序后的特征项进行等频或等距分组,分为初始分组数。
5.一种数据挖掘装置,其特征在于,包括:
初始分组模块,用于接收待处理数据,将待处理数据中与目标变量相关的特征项进行等频或等距分组,分为初始分组数;
循环分组模块,用于每次分组后,分别计算将当前分组中任意相邻两组合并的情况下,所有分组的皮尔森卡方统计量,在得到的皮尔森卡方统计量中,按照最大的皮尔森卡方统计量对应的合并方式将相邻两组合并,合并后的分组情况视为重新分组,直至分组数为预设分组数,其中,皮尔森卡方统计量的大小表示当前分组情况下目标变量的第一分类和目标变量的第二分类之间的差异度,所述预设分组数小于所述初始分组数;
数据处理模块,用于基于数据分箱后所述预设分组数的数据进行数据挖掘。
6.如权利要求5所述的数据挖掘装置,其特征在于,所述循环分组模块,具体用用于循环执行以下步骤,直至分组数为所述预设分组数:
针对当前分组,分别计算将当前分组中任意相邻两组合并的情况下,所有分组的皮尔森卡方统计量;
在得到的各合并情况下的皮尔森卡方统计量中,确定最大的皮尔森卡方统计量;
按照最大的皮尔森卡方统计量对应的合并方式将相应的相邻两组合并,合并后的分组情况视为重新分组;
判断当前分组数是否为所述预设分组数,若是,结束流程,若否,继续执行下一步骤。
7.如权利要求5所述的数据挖掘装置,其特征在于,所述循环分组模块通过以下公式基于所有分组计算皮尔森卡方统计量:
Figure FDA0002242457640000021
其中,X2为皮尔森卡方统计量;Oi,j为第j个分组中属于目标变量第i个分类的样本数;Ei,j为第j个分组中属于目标变量第i个分类的期望值;r为目标变量的分类数;c为基于特征变量的当前分组数量。
8.如权利要求5至7中任一项所述的数据挖掘装置,其特征在于,所述初始分组模块,包括:
排序单元,用于将待处理数据中与目标变量相关的特征项进行排序;
初始分组单元,用于对排序后的特征项进行等频分组,分为初始分组数。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的数据挖掘方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至4中任一项所述的数据挖掘方法的计算机程序。
CN201911004941.1A 2019-10-22 2019-10-22 数据挖掘方法、装置、计算机设备及计算机可读存储介质 Pending CN110765216A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911004941.1A CN110765216A (zh) 2019-10-22 2019-10-22 数据挖掘方法、装置、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911004941.1A CN110765216A (zh) 2019-10-22 2019-10-22 数据挖掘方法、装置、计算机设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110765216A true CN110765216A (zh) 2020-02-07

Family

ID=69332755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911004941.1A Pending CN110765216A (zh) 2019-10-22 2019-10-22 数据挖掘方法、装置、计算机设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110765216A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115420A (zh) * 2020-09-21 2020-12-22 携程计算机技术(上海)有限公司 基于离散分组的数据统计方法、系统、设备及存储介质
CN115082135A (zh) * 2022-08-23 2022-09-20 成都乐超人科技有限公司 一种信息差异识别方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050273477A1 (en) * 2002-12-19 2005-12-08 Marc Boulle Method of discretion of a source attribute of a database
CN1881218A (zh) * 2005-06-16 2006-12-20 株式会社东芝 聚类装置和聚类方法
US20110161280A1 (en) * 2009-12-31 2011-06-30 Congnan Luo System, method, and computer-readable medium that facilitate in-database analytics with supervised data discretization
CN107832633A (zh) * 2017-11-22 2018-03-23 广西师范大学 关系事务数据发布的隐私保护方法
CN109325639A (zh) * 2018-12-06 2019-02-12 南京安讯科技有限责任公司 一种用于信用预测评估的信用评分卡自动化分箱方法
CN109325792A (zh) * 2017-07-31 2019-02-12 北京嘀嘀无限科技发展有限公司 信用评估变量的分箱方法及分箱装置、设备和存储介质
CN109840843A (zh) * 2019-01-07 2019-06-04 杭州排列科技有限公司 基于相似性合并的连续型特征自动分箱算法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050273477A1 (en) * 2002-12-19 2005-12-08 Marc Boulle Method of discretion of a source attribute of a database
CN1881218A (zh) * 2005-06-16 2006-12-20 株式会社东芝 聚类装置和聚类方法
US20110161280A1 (en) * 2009-12-31 2011-06-30 Congnan Luo System, method, and computer-readable medium that facilitate in-database analytics with supervised data discretization
CN109325792A (zh) * 2017-07-31 2019-02-12 北京嘀嘀无限科技发展有限公司 信用评估变量的分箱方法及分箱装置、设备和存储介质
CN107832633A (zh) * 2017-11-22 2018-03-23 广西师范大学 关系事务数据发布的隐私保护方法
CN109325639A (zh) * 2018-12-06 2019-02-12 南京安讯科技有限责任公司 一种用于信用预测评估的信用评分卡自动化分箱方法
CN109840843A (zh) * 2019-01-07 2019-06-04 杭州排列科技有限公司 基于相似性合并的连续型特征自动分箱算法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115420A (zh) * 2020-09-21 2020-12-22 携程计算机技术(上海)有限公司 基于离散分组的数据统计方法、系统、设备及存储介质
CN115082135A (zh) * 2022-08-23 2022-09-20 成都乐超人科技有限公司 一种信息差异识别方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN109272115A (zh) 一种神经网络训练方法及装置、设备、介质
US8352470B2 (en) Adaptive aggregation: improving the performance of grouping and duplicate elimination by avoiding unnecessary disk access
CN110765216A (zh) 数据挖掘方法、装置、计算机设备及计算机可读存储介质
CN107168977A (zh) 一种数据查询的优化方法及装置
CN106202092A (zh) 数据处理的方法及系统
CN110362563A (zh) 数据表的处理方法及装置、存储介质、电子装置
CN109388636A (zh) 业务数据插入数据库方法、装置、计算机设备及存储介质
CN111507846A (zh) 一种资产筛选封包方法、装置、储存介质及电子设备
CN110765100B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN110020954B (zh) 一种收益分配方法、装置及计算机设备
CN110322173B (zh) 规划存储设备的方法和装置
US11940890B2 (en) Timing index anomaly detection method, device and apparatus
CN116028873A (zh) 一种基于支持向量机的多类服务器故障预测方法
CN115563268A (zh) 一种文本摘要的生成方法及装置、电子设备、存储介质
CN101799803B (zh) 信息处理方法、模块及系统
CN112669128A (zh) 一种实时聚类推荐的方法、设备及介质
CN113794727A (zh) 威胁情报特征库的生成方法、装置、存储介质及处理器
CN107122485A (zh) 一种车型数据拆分匹配方法及设备
CN113610629A (zh) 一种从大规模特征集中筛选客户数据特征的方法及装置
CN108090088A (zh) 特征提取方法及装置
CN110019971B (zh) 一种索引创建方法、装置及数据库系统
CN110782351A (zh) 适于日终交易的数据处理方法、系统、装置及存储介质
CN113282624B (zh) 规则匹配方法、装置、电子设备及存储介质
Ye et al. [Retracted] A Study on China’s Cultural Product Export Trade and Its Forecast Based on Hausmann’s Export Complexity
CN105893393B (zh) 数据保存方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200207