CN112990487A - 一种快速卡方分箱的方法及装置 - Google Patents

一种快速卡方分箱的方法及装置 Download PDF

Info

Publication number
CN112990487A
CN112990487A CN202110521538.7A CN202110521538A CN112990487A CN 112990487 A CN112990487 A CN 112990487A CN 202110521538 A CN202110521538 A CN 202110521538A CN 112990487 A CN112990487 A CN 112990487A
Authority
CN
China
Prior art keywords
node
chi
value
characteristic
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110521538.7A
Other languages
English (en)
Other versions
CN112990487B (zh
Inventor
顾凌云
谢旻旗
段湾
王逸卿
张涛
潘峻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai IceKredit Inc
Original Assignee
Shanghai IceKredit Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai IceKredit Inc filed Critical Shanghai IceKredit Inc
Priority to CN202110521538.7A priority Critical patent/CN112990487B/zh
Publication of CN112990487A publication Critical patent/CN112990487A/zh
Application granted granted Critical
Publication of CN112990487B publication Critical patent/CN112990487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种快速卡方分箱的方法及装置,能够根据特征值进行特征值排序,得到特征值排序结果,通过特征值排序结果将每个特征值划分为多个特征区间并进行计算,得到多个初始卡方值并保存在预设哈希列表中,通过初始双向链表连通相邻的所述特征区间。通过哈希列表中的预设键值获得位置标签,确定最小卡方值的位置标签对应的当前节点,根据当前节点内容和后一个节点内容,得到合并后的节点,将后一个节点删除,对前一个节点的卡方值更新直到满足设定条件。通过双向链表能有效地保存每次操作的记录,在删除节点后,在可能存在相关处理结果不能达到预期的前提下,可以进行初始双向链表的恢复,进而能有效地避免重新分箱而导致时间浪费的问题。

Description

一种快速卡方分箱的方法及装置
技术领域
本公开涉及卡方分箱技术领域,特别涉及一种快速卡方分箱的方法及装置。
背景技术
在相关云业务的机器学习建模的特征工程中,变量分箱是非常重要的一个步骤,其中,变量分箱对于异常值/缺失值处理、模型非线性表达以及降低过拟合风险等方面都有很重要的作用。
在相关的监督分箱中,卡方分箱是一种主流的且有效的方案。其原理是两个分箱的卡方值相差越小,表示数据具有相似类别的分布情况,这样就可以进行合并,反之则不能进行合并。通常情况下卡方分箱是预先设置的排序方法进行特征值排序,并进行划分类属区间,计算每一对相邻区间对应的卡方值,将最小的区间进行合并,循环迭代直到触发终止条件包括卡方阈值、最大分箱数和单调性等。但是,相关卡方分箱技术存在耗时较长的技术问题。
发明内容
为改善上述背景技术存在的技术问题,本公开提供了一种快速卡方分箱的方法及装置。
本申请提供了一种快速卡方分箱的方法,所述方法包括:
获取特征值,并对所述特征值进行排序,得到特征值排序结果;
根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中;
通过初始双向链表连通相邻的所述特征区间,通过所述哈希列表中的预设键值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签;
从所述哈希列表中查询最小卡方值的位置标签对应的当前节点,对所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容进行节点内容合并,以得到合并后的节点,将所述后一个节点删除,并对所述当前节点的前一个节点的卡方值进行更新,得到当前双向链表,直到满足设定条件。
优选地,获取特征值,并对所述特征值进行排序,得到特征值排序结果,包括:
获取特征值,将所述特征值按照从小到大的顺序进行排序,得到特征值排序结果。
优选地,根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中,包括:
根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,根据矩阵训练模型对每个所述特征区间进行计算,得到初始卡方值,并将所述初始卡方值保存在哈希列表中。
优选地,通过初始双向链表连通相邻的所述特征区间,通过所述哈希列表中的预设键值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签,包括:
通过初始双向链表连通相邻的所述特征区间;
将所述特征区间中的好坏样本数、卡方值和相邻区间信息转化成链表节点;
根据所述哈希列表中的所述链表节点和所述卡方值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签。
优选地,从所述哈希列表中查询最小卡方值的位置标签对应的当前节点,对所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容进行节点内容合并,以得到合并后的节点,将所述后一个节点删除,并对所述当前节点的前一个节点的卡方值进行更新,得到当前双向链表,直到满足设定条件,包括:
重复执行以下步骤,直至满足设定条件:
从所述哈希列表中查询最小卡方值的位置标签对应的当前节点;
根据所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容,进行好坏样本数的合并,得到合并后的好坏样本数;
根据所述合并后的好坏样本数对所述卡方值进行重新计算,得到目标卡方值;
对所述当前节点中的前后链节点地址信息进行更新,得到所述当前节点对应的目标前后链节点地址信息,并将所述后一个节点进行删除。
本申请提供了一种快速卡方分箱的装置,包括:
特征排序模块,用于获取特征值,并对所述特征值进行排序,得到特征值排序结果;
卡方计算模块,用于根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中;
位置定位模块,用于通过初始双向链表连通相邻的所述特征区间,通过所述哈希列表中的预设键值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签;
节点更新模块,用于从所述哈希列表中查询最小卡方值的位置标签对应的当前节点,对所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容进行节点内容合并,以得到合并后的节点,将所述后一个节点删除,并对所述当前节点的前一个节点的卡方值进行更新,得到当前双向链表,直到满足设定条件。
优选地,所述特征排序模块,具体用于:
获取特征值,将所述特征值按照从小到大的顺序进行排序,得到特征值排序结果。
优选地,所述卡方计算模块,具体用于:
根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,根据矩阵训练模型对每个所述特征区间进行计算,得到初始卡方值,并将所述初始卡方值保存在哈希列表中。
优选地,所述位置定位模块,具体用于:
通过初始双向链表连通相邻的所述特征区间;
将所述特征区间中的好坏样本数、卡方值和相邻区间信息转化成链表节点;
根据所述哈希列表中的所述链表节点和所述卡方值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签。
优选地,所述节点更新模块,具体用于:
重复执行以下步骤,直至满足设定条件:
从所述哈希列表中查询最小卡方值的位置标签对应的当前节点;
根据所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容,进行好坏样本数的合并,得到合并后的好坏样本数;
根据所述合并后的好坏样本数对所述卡方值进行重新计算,得到目标卡方值;
对所述当前节点中的前后链节点地址信息进行更新,得到所述当前节点对应的目标前后链节点地址信息,并将所述后一个节点进行删除。
本公开的实施例提供的技术方案可以包括以下有益效果。
一种快速卡方分箱的方法及装置,能够根据特征值进行特征值排序,得到特征值排序结果,通过特征值排序结果将每个特征值划分为多个特征区间,对每个特征区间进行计算,得到多个初始卡方值并保存在预设哈希列表中,通过初始双向链表连通相邻的所述特征区间。通过哈希列表中的预设键值获得位置标签,确定最小卡方值的位置标签对应的当前节点,根据当前节点内容和当前节点的后一个节点内容,得到合并后的节点,将后一个节点删除,并对当前节点的前一个节点的卡方值进行更新,直到满足设定条件。通过双向链表能有效地保存每次操作的记录,在删除节点后,在可能存在相关处理结果不能达到预期的前提下,可以进行初始双向链表的恢复,进而能有效地避免重新分箱而导致时间浪费的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1为本发明实施例所提供的一种快速卡方分箱的方法的流程图;
图2为本发明实施例所提供的一种快速卡方分箱的装置的功能模块框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在上述基础上,请结合参阅图1,为本发明实施例所提供的快速卡方分箱的方法的流程示意图,进一步地,所述快速卡方分箱的的方法具体可以包括以下步骤S21-步骤S24所描述的节点内容。
步骤S21,获取特征值,并对所述特征值进行排序,得到特征值排序结果。
示例性的,所述特征值表示相关数据离散性系数,所述排序表示一种预先设置的排序方法,其中,包括按照特征值从小到大的方式进行排序的方式。
步骤S22,根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中。
示例性的,所述特征区间包括的内容有主键(key)、该区间对应卡方值(val)、区间好样本数(good)、区间坏样本数(bad)、左区间节点(left)、右区间节点(right)以及合并记录(his)。
步骤S23,通过初始双向链表连通相邻的所述特征区间,通过所述哈希列表中的预设键值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签。
示例性的,所述位置标签可以理解为对位置进行区分的标签,对每个所述特征区间进行标记,这样有利于后续查找的过程更加的快捷。
步骤S24,从所述哈希列表中查询最小卡方值的位置标签对应的当前节点,对所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容进行节点内容合并,以得到合并后的节点,将所述后一个节点删除,并对所述当前节点的前一个节点的卡方值进行更新,得到当前双向链表,直到满足设定条件。
示例性的,所述设定条件表示卡方值更新到触发边界条件,例如:最大分箱数以及最低卡方值等。
可以理解,在执行上述步骤S21-步骤S24所描述的节点内容时,能够根据特征值进行特征值排序,得到特征值排序结果,通过特征值排序结果将每个特征值划分为多个特征区间,对每个特征区间进行计算,得到多个初始卡方值并保存在预设哈希列表中,通过初始双向链表连通相邻的所述特征区间。通过哈希列表中的预设键值获得位置标签,确定最小卡方值的位置标签对应的当前节点,根据当前节点内容和当前节点的后一个节点内容,得到合并后的节点,将后一个节点删除,并对当前节点的前一个节点的卡方值进行更新,直到满足设定条件。通过双向链表能有效地保存每次操作的记录,在删除节点后,在可能存在相关处理结果不能达到预期的前提下,可以进行初始双向链表的恢复,进而能有效地避免重新分箱而导致时间浪费的问题。
在实际操作过程中,发明人发现,获取特征值,并对所述特征值进行排序时,存在排序混乱的技术问题,从而难以精确地得到特征值排序结果,为了改善上述技术问题,步骤S21所描述的获取特征值,并对所述特征值进行排序,得到特征值排序结果的步骤,具体可以包括以下步骤S211所描述的内容。
步骤S211,获取特征值,将所述特征值按照从小到大的顺序进行排序,得到特征值排序结果。
可以理解,在执行上述步骤S211所描述的内容时,获取特征值,并对所述特征值进行排序时,避免排序混乱的技术问题,因此,通过从小到大的排序方式能够精确地得到特征值排序结果。
在实际操作过程中,发明人发现,相关技术因为存在特征值比较多的情况,从而导致在每一轮循环迭代中,都需要重复计算区间卡方值,这样就需要消耗大量的时间,从而导致计算速度过慢的问题,为了改善上述技术问题,步骤S22所描述的根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中的步骤,具体可以包括以下步骤S221所描述的内容。
步骤S221,根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,根据矩阵训练模型对每个所述特征区间进行计算,得到初始卡方值,并将所述初始卡方值保存在哈希列表中。
可以理解,在执行上述步骤S221所描述的内容时,本申请可以将大量计算后的特征值进行存储,由于可以直接提取存储的特征值,因而无需重新进行特征值的计算,能有效地降低计算特征值所消耗的时间。
在实际操作过程中,发明人发现,通过初始双向链表连通相邻的所述特征区间,通过所述哈希列表中的预设键值对每个所述特征区间进行标记时,存在位置标记错误的技术问题,从而难以精确地得到每个所述特征区间对应的位置标签,为了改善上述技术问题,步骤S23所描述的通过初始双向链表连通相邻的所述特征区间,通过所述哈希列表中的预设键值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签的步骤,具体可以包括以下步骤S231-步骤S233所描述的内容。
步骤S231,通过初始双向链表连通相邻的所述特征区间。
步骤S232,将所述特征区间中的好坏样本数、卡方值和相邻区间信息转化成链表节点。
步骤S233,根据所述哈希列表中的所述链表节点和所述卡方值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签。
可以理解,在执行上述步骤S231-步骤S233所描述的内容时,通过初始双向链表连通相邻的所述特征区间,通过所述哈希列表中的预设键值对每个所述特征区间进行标记时,有效地避免位置标记错误的技术问题,从而能够精确地得到每个所述特征区间对应的位置标签。
在实际操作过程中,发明人发现,现有技术在进行单变量分析时,会存在对变量分箱效果不满足预设条件的情况,这样就需要重新进行分箱的工作,但是在手动调整时,又因为之前的区间合并操作没有记录,这样重新进行分箱的工作效率就难以得到保证(比如首先需要重新计算合并之前的内容,然后才能重新分箱)。为了改善上述技术问题,步骤S24所描述的从所述哈希列表中查询最小卡方值的位置标签对应的当前节点,对所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容进行节点内容合并,以得到合并后的节点,将所述后一个节点删除,并对所述当前节点的前一个节点的卡方值进行更新,得到当前双向链表,直到满足设定条件的步骤,具体可以包括以下步骤S241-步骤S245所描述的内容。
步骤S241,重复执行以下步骤,直至满足设定条件:
步骤S242,从所述哈希列表中查询最小卡方值的位置标签对应的当前节点。
步骤S243,根据所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容,进行好坏样本数的合并,得到合并后的好坏样本数。
步骤S244,根据所述合并后的好坏样本数对所述卡方值进行重新计算,得到目标卡方值。
步骤S245,对所述当前节点中的前后链节点地址信息进行更新,得到所述当前节点对应的目标前后链节点地址信息,并将所述后一个节点进行删除。
可以理解,在执行上述步骤S241-步骤S245所描述的内容时,在目标卡方值不满足预期值时,不用重新进行分箱的操作过程,可以进行初始双向链表的恢复,然后对初始双向链表进行重新合并计算的步骤,这样能避免在重新分箱浪费资源的情况发生,从而有效地节约了时间。
基于上述同样的发明构思,请结合参阅图2,还提供了快速卡方分箱的装置20的功能模块框图,关于所述快速卡方分箱的装置20的详细描述如下。
一种快速卡方分箱的装置20,所述装置20包括:
特征排序模块21,用于获取特征值,并对所述特征值进行排序,得到特征值排序结果;
卡方计算模块22,用于根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中;
位置定位模块23,用于通过初始双向链表连通相邻的所述特征区间,通过所述哈希列表中的预设键值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签;
节点更新模块24,用于从所述哈希列表中查询最小卡方值的位置标签对应的当前节点,对所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容进行节点内容合并,以得到合并后的节点,将所述后一个节点删除,并对所述当前节点的前一个节点的卡方值进行更新,得到当前双向链表,直到满足设定条件。
进一步地,所述特征排序模块21,具体用于:
获取特征值,将所述特征值按照从小到大的顺序进行排序,得到特征值排序结果。
进一步地,所述卡方计算模块22,具体用于:
根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,根据矩阵训练模型对每个所述特征区间进行计算,得到初始卡方值,并将所述初始卡方值保存在哈希列表中。
进一步地,所述位置定位模块23,具体用于:
通过初始双向链表连通相邻的所述特征区间;
将所述特征区间中的好坏样本数、卡方值和相邻区间信息转化成链表节点;
根据所述哈希列表中的所述链表节点和所述卡方值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签。
进一步地,所述节点更新模块24,具体用于:
重复执行以下步骤,直至满足设定条件:
从所述哈希列表中查询最小卡方值的位置标签对应的当前节点;
根据所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容,进行好坏样本数的合并,得到合并后的好坏样本数;
根据所述合并后的好坏样本数对所述卡方值进行重新计算,得到目标卡方值;
对所述当前节点中的前后链节点地址信息进行更新,得到所述当前节点对应的目标前后链节点地址信息,并将所述后一个节点进行删除。
综上,本发明实施例提供的一种快速卡方分箱的方法及装置,能够根据特征值进行特征值排序,得到特征值排序结果,通过特征值排序结果将每个特征值划分为多个特征区间,对每个特征区间进行计算,得到多个初始卡方值并保存在预设哈希列表中,通过初始双向链表连通相邻的所述特征区间。通过哈希列表中的预设键值获得位置标签,确定最小卡方值的位置标签对应的当前节点,根据当前节点内容和当前节点的后一个节点内容,得到合并后的节点,将后一个节点删除,并对当前节点的前一个节点的卡方值进行更新,直到满足设定条件。通过双向链表能有效地保存每次操作的记录,在删除节点后,在可能存在相关处理结果不能达到预期的前提下,可以进行初始双向链表的恢复,进而能有效地避免重新分箱而导致时间浪费的问题。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种快速卡方分箱的方法,其特征在于,所述方法包括:
获取特征值,并对所述特征值进行排序,得到特征值排序结果;
根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中;
通过初始双向链表连通相邻的所述特征区间,通过所述哈希列表中的预设键值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签;
从所述哈希列表中查询最小卡方值的位置标签对应的当前节点,对所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容进行节点内容合并,以得到合并后的节点,将所述后一个节点删除,并对所述当前节点的前一个节点的卡方值进行更新,得到当前双向链表,直到满足设定条件。
2.根据权利要求1所述的方法,其特征在于,获取特征值,并对所述特征值进行排序,得到特征值排序结果,包括:
获取特征值,将所述特征值按照从小到大的顺序进行排序,得到特征值排序结果。
3.根据权利要求1所述的方法,其特征在于,根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中,包括:
根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,根据矩阵训练模型对每个所述特征区间进行计算,得到初始卡方值,并将所述初始卡方值保存在哈希列表中。
4.根据权利要求1所述的方法,其特征在于,通过初始双向链表连通相邻的所述特征区间,通过所述哈希列表中的预设键值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签,包括:
通过初始双向链表连通相邻的所述特征区间;
将所述特征区间中的好坏样本数、卡方值和相邻区间信息转化成链表节点;
根据所述哈希列表中的所述链表节点和所述卡方值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签。
5.根据权利要求4所述的方法,其特征在于,从所述哈希列表中查询最小卡方值的位置标签对应的当前节点,对所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容进行节点内容合并,以得到合并后的节点,将所述后一个节点删除,并对所述当前节点的前一个节点的卡方值进行更新,得到当前双向链表,直到满足设定条件,包括:
重复执行以下步骤,直至满足设定条件:
从所述哈希列表中查询最小卡方值的位置标签对应的当前节点;
根据所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容,进行好坏样本数的合并,得到合并后的好坏样本数;
根据所述合并后的好坏样本数对所述卡方值进行重新计算,得到目标卡方值;
对所述当前节点中的前后链节点地址信息进行更新,得到所述当前节点对应的目标前后链节点地址信息,并将所述后一个节点进行删除。
6.一种快速卡方分箱的装置,其特征在于,包括:
特征排序模块,用于获取特征值,并对所述特征值进行排序,得到特征值排序结果;
卡方计算模块,用于根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中;
位置定位模块,用于通过初始双向链表连通相邻的所述特征区间,通过所述哈希列表中的预设键值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签;
节点更新模块,用于从所述哈希列表中查询最小卡方值的位置标签对应的当前节点,对所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容进行节点内容合并,以得到合并后的节点,将所述后一个节点删除,并对所述当前节点的前一个节点的卡方值进行更新,得到当前双向链表,直到满足设定条件。
7.根据权利要求6所述的装置,其特征在于,所述特征排序模块,具体用于:
获取特征值,将所述特征值按照从小到大的顺序进行排序,得到特征值排序结果。
8.根据权利要求6所述的装置,其特征在于,所述卡方计算模块,具体用于:
根据所述特征值排序结果对所述特征值进行区间划分,得到多个特征区间,根据矩阵训练模型对每个所述特征区间进行计算,得到初始卡方值,并将所述初始卡方值保存在哈希列表中。
9.根据权利要求6所述的装置,其特征在于,所述位置定位模块,具体用于:
通过初始双向链表连通相邻的所述特征区间;
将所述特征区间中的好坏样本数、卡方值和相邻区间信息转化成链表节点;
根据所述哈希列表中的所述链表节点和所述卡方值对每个所述特征区间进行标记,得到每个所述特征区间对应的位置标签。
10.根据权利要求9所述的装置,其特征在于,所述节点更新模块,具体用于:
重复执行以下步骤,直至满足设定条件:
从所述哈希列表中查询最小卡方值的位置标签对应的当前节点;
根据所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容,进行好坏样本数的合并,得到合并后的好坏样本数;
根据所述合并后的好坏样本数对所述卡方值进行重新计算,得到目标卡方值;
对所述当前节点中的前后链节点地址信息进行更新,得到所述当前节点对应的目标前后链节点地址信息,并将所述后一个节点进行删除。
CN202110521538.7A 2021-05-13 2021-05-13 一种快速卡方分箱的方法及装置 Active CN112990487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110521538.7A CN112990487B (zh) 2021-05-13 2021-05-13 一种快速卡方分箱的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110521538.7A CN112990487B (zh) 2021-05-13 2021-05-13 一种快速卡方分箱的方法及装置

Publications (2)

Publication Number Publication Date
CN112990487A true CN112990487A (zh) 2021-06-18
CN112990487B CN112990487B (zh) 2021-08-03

Family

ID=76337657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110521538.7A Active CN112990487B (zh) 2021-05-13 2021-05-13 一种快速卡方分箱的方法及装置

Country Status (1)

Country Link
CN (1) CN112990487B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8135667B2 (en) * 2009-12-31 2012-03-13 Teradata Us, Inc. System, method, and computer-readable medium that facilitate in-database analytics with supervised data discretization
US20170185904A1 (en) * 2015-12-29 2017-06-29 24/7 Customer, Inc. Method and apparatus for facilitating on-demand building of predictive models
CN107480076A (zh) * 2017-07-31 2017-12-15 北京小米移动软件有限公司 系统分区的保护处理方法、装置及终端
CN110807700A (zh) * 2019-11-05 2020-02-18 浪潮卓数大数据产业发展有限公司 一种基于政府数据的无监督融合模型个人信用评分方法
US20200364516A1 (en) * 2019-05-15 2020-11-19 EMC IP Holding Company LLC Data compression using nearest neighbor cluster
CN112597525A (zh) * 2021-03-04 2021-04-02 支付宝(杭州)信息技术有限公司 基于隐私保护的数据处理方法、装置和服务器
CN112632045A (zh) * 2021-03-10 2021-04-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8135667B2 (en) * 2009-12-31 2012-03-13 Teradata Us, Inc. System, method, and computer-readable medium that facilitate in-database analytics with supervised data discretization
US20170185904A1 (en) * 2015-12-29 2017-06-29 24/7 Customer, Inc. Method and apparatus for facilitating on-demand building of predictive models
CN107480076A (zh) * 2017-07-31 2017-12-15 北京小米移动软件有限公司 系统分区的保护处理方法、装置及终端
US20200364516A1 (en) * 2019-05-15 2020-11-19 EMC IP Holding Company LLC Data compression using nearest neighbor cluster
CN110807700A (zh) * 2019-11-05 2020-02-18 浪潮卓数大数据产业发展有限公司 一种基于政府数据的无监督融合模型个人信用评分方法
CN112597525A (zh) * 2021-03-04 2021-04-02 支付宝(杭州)信息技术有限公司 基于隐私保护的数据处理方法、装置和服务器
CN112632045A (zh) * 2021-03-10 2021-04-09 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RAHUL KUMAR等: "Machine Learning based Malware Detection in Cloud Environment using Clustering Approach", 《2020 11TH INTERNATIONAL CONFERENCE ON COMPUTING, COMMUNICATION AND NETWORKING TECHNOLOGIES (ICCCNT)》 *
刘祺: "用于信息检索的监督哈希方法", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Also Published As

Publication number Publication date
CN112990487B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN109871954B (zh) 训练样本生成方法、异常检测方法及装置
CN111815432B (zh) 金融服务风险预测方法及装置
CN104699772A (zh) 一种基于云计算的大数据文本分类方法
Du et al. Parallel processing of improved KNN text classification algorithm based on Hadoop
CN104715021A (zh) 一种基于哈希方法的多标记学习的设计方法
CN111242358A (zh) 一种双层结构的企业情报流失预测方法
CN110399487A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN113780367A (zh) 分类模型训练和数据分类方法、装置、电子设备
CN113918733A (zh) 一种获取目标知识图谱的数据处理系统
Li et al. Scalable random forests for massive data
US10733156B2 (en) Parallel discretization of continuous variables in supervised or classified dataset
CN105183792A (zh) 一种基于局部敏感哈希的分布式快速文本分类方法
CN110765276A (zh) 知识图谱中的实体对齐方法及装置
CN112990487B (zh) 一种快速卡方分箱的方法及装置
US11977993B2 (en) Data source correlation techniques for machine learning and convolutional neural models
CN112199376B (zh) 一种基于聚类分析的标准知识库管理方法及系统
CN111949720B (zh) 基于大数据和人工智能的数据分析方法及云端数据服务器
CN112949778A (zh) 基于局部敏感哈希的智能合约分类方法、系统及电子设备
CN109740750B (zh) 数据收集方法及装置
CN111538859A (zh) 一种动态更新视频标签的方法、装置及电子设备
CN111159135A (zh) 数据处理方法、装置、电子设备及存储介质
CN116049644A (zh) 特征筛选和聚类分箱方法、装置、电子设备及存储介质
CN114780712A (zh) 一种基于质量评价的新闻专题生成方法及装置
CN109582795B (zh) 基于全生命周期的数据处理方法、设备、系统和介质
CN114238768A (zh) 资讯信息的推送方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant