CN112990487A

CN112990487A - 一种快速卡方分箱的方法及装置

Info

Publication number: CN112990487A
Application number: CN202110521538.7A
Authority: CN
Inventors: 顾凌云; 谢旻旗; 段湾; 王逸卿; 张涛; 潘峻
Original assignee: Shanghai IceKredit Inc
Current assignee: Shanghai IceKredit Inc
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-06-18
Anticipated expiration: 2041-05-13
Also published as: CN112990487B

Abstract

本申请公开了一种快速卡方分箱的方法及装置，能够根据特征值进行特征值排序，得到特征值排序结果，通过特征值排序结果将每个特征值划分为多个特征区间并进行计算，得到多个初始卡方值并保存在预设哈希列表中，通过初始双向链表连通相邻的所述特征区间。通过哈希列表中的预设键值获得位置标签，确定最小卡方值的位置标签对应的当前节点，根据当前节点内容和后一个节点内容，得到合并后的节点，将后一个节点删除，对前一个节点的卡方值更新直到满足设定条件。通过双向链表能有效地保存每次操作的记录，在删除节点后，在可能存在相关处理结果不能达到预期的前提下，可以进行初始双向链表的恢复，进而能有效地避免重新分箱而导致时间浪费的问题。

Description

一种快速卡方分箱的方法及装置

技术领域

本公开涉及卡方分箱技术领域，特别涉及一种快速卡方分箱的方法及装置。

背景技术

在相关云业务的机器学习建模的特征工程中，变量分箱是非常重要的一个步骤，其中，变量分箱对于异常值/缺失值处理、模型非线性表达以及降低过拟合风险等方面都有很重要的作用。

在相关的监督分箱中，卡方分箱是一种主流的且有效的方案。其原理是两个分箱的卡方值相差越小，表示数据具有相似类别的分布情况，这样就可以进行合并，反之则不能进行合并。通常情况下卡方分箱是预先设置的排序方法进行特征值排序，并进行划分类属区间，计算每一对相邻区间对应的卡方值，将最小的区间进行合并，循环迭代直到触发终止条件包括卡方阈值、最大分箱数和单调性等。但是，相关卡方分箱技术存在耗时较长的技术问题。

发明内容

为改善上述背景技术存在的技术问题，本公开提供了一种快速卡方分箱的方法及装置。

本申请提供了一种快速卡方分箱的方法，所述方法包括：

获取特征值，并对所述特征值进行排序，得到特征值排序结果；

根据所述特征值排序结果对所述特征值进行区间划分，得到多个特征区间，计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中；

通过初始双向链表连通相邻的所述特征区间，通过所述哈希列表中的预设键值对每个所述特征区间进行标记，得到每个所述特征区间对应的位置标签；

从所述哈希列表中查询最小卡方值的位置标签对应的当前节点，对所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容进行节点内容合并，以得到合并后的节点，将所述后一个节点删除，并对所述当前节点的前一个节点的卡方值进行更新，得到当前双向链表，直到满足设定条件。

优选地，获取特征值，并对所述特征值进行排序，得到特征值排序结果，包括：

获取特征值，将所述特征值按照从小到大的顺序进行排序，得到特征值排序结果。

优选地，根据所述特征值排序结果对所述特征值进行区间划分，得到多个特征区间，计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中，包括：

根据所述特征值排序结果对所述特征值进行区间划分，得到多个特征区间，根据矩阵训练模型对每个所述特征区间进行计算，得到初始卡方值，并将所述初始卡方值保存在哈希列表中。

优选地，通过初始双向链表连通相邻的所述特征区间，通过所述哈希列表中的预设键值对每个所述特征区间进行标记，得到每个所述特征区间对应的位置标签，包括：

通过初始双向链表连通相邻的所述特征区间；

将所述特征区间中的好坏样本数、卡方值和相邻区间信息转化成链表节点；

根据所述哈希列表中的所述链表节点和所述卡方值对每个所述特征区间进行标记，得到每个所述特征区间对应的位置标签。

优选地，从所述哈希列表中查询最小卡方值的位置标签对应的当前节点，对所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容进行节点内容合并，以得到合并后的节点，将所述后一个节点删除，并对所述当前节点的前一个节点的卡方值进行更新，得到当前双向链表，直到满足设定条件，包括：

重复执行以下步骤，直至满足设定条件：

从所述哈希列表中查询最小卡方值的位置标签对应的当前节点；

根据所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容，进行好坏样本数的合并，得到合并后的好坏样本数；

根据所述合并后的好坏样本数对所述卡方值进行重新计算，得到目标卡方值；

对所述当前节点中的前后链节点地址信息进行更新，得到所述当前节点对应的目标前后链节点地址信息，并将所述后一个节点进行删除。

本申请提供了一种快速卡方分箱的装置，包括：

特征排序模块，用于获取特征值，并对所述特征值进行排序，得到特征值排序结果；

卡方计算模块，用于根据所述特征值排序结果对所述特征值进行区间划分，得到多个特征区间，计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中；

位置定位模块，用于通过初始双向链表连通相邻的所述特征区间，通过所述哈希列表中的预设键值对每个所述特征区间进行标记，得到每个所述特征区间对应的位置标签；

节点更新模块，用于从所述哈希列表中查询最小卡方值的位置标签对应的当前节点，对所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容进行节点内容合并，以得到合并后的节点，将所述后一个节点删除，并对所述当前节点的前一个节点的卡方值进行更新，得到当前双向链表，直到满足设定条件。

优选地，所述特征排序模块，具体用于：

优选地，所述卡方计算模块，具体用于：

优选地，所述位置定位模块，具体用于：

通过初始双向链表连通相邻的所述特征区间；

优选地，所述节点更新模块，具体用于：

重复执行以下步骤，直至满足设定条件：

本公开的实施例提供的技术方案可以包括以下有益效果。

一种快速卡方分箱的方法及装置，能够根据特征值进行特征值排序，得到特征值排序结果，通过特征值排序结果将每个特征值划分为多个特征区间，对每个特征区间进行计算，得到多个初始卡方值并保存在预设哈希列表中，通过初始双向链表连通相邻的所述特征区间。通过哈希列表中的预设键值获得位置标签，确定最小卡方值的位置标签对应的当前节点，根据当前节点内容和当前节点的后一个节点内容，得到合并后的节点，将后一个节点删除，并对当前节点的前一个节点的卡方值进行更新，直到满足设定条件。通过双向链表能有效地保存每次操作的记录，在删除节点后，在可能存在相关处理结果不能达到预期的前提下，可以进行初始双向链表的恢复，进而能有效地避免重新分箱而导致时间浪费的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1为本发明实施例所提供的一种快速卡方分箱的方法的流程图；

图2为本发明实施例所提供的一种快速卡方分箱的装置的功能模块框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在上述基础上，请结合参阅图1，为本发明实施例所提供的快速卡方分箱的方法的流程示意图，进一步地，所述快速卡方分箱的的方法具体可以包括以下步骤S21-步骤S24所描述的节点内容。

步骤S21，获取特征值，并对所述特征值进行排序，得到特征值排序结果。

示例性的，所述特征值表示相关数据离散性系数，所述排序表示一种预先设置的排序方法，其中，包括按照特征值从小到大的方式进行排序的方式。

步骤S22，根据所述特征值排序结果对所述特征值进行区间划分，得到多个特征区间，计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中。

示例性的，所述特征区间包括的内容有主键（key）、该区间对应卡方值（val）、区间好样本数（good）、区间坏样本数（bad）、左区间节点（left）、右区间节点（right）以及合并记录（his）。

步骤S23，通过初始双向链表连通相邻的所述特征区间，通过所述哈希列表中的预设键值对每个所述特征区间进行标记，得到每个所述特征区间对应的位置标签。

示例性的，所述位置标签可以理解为对位置进行区分的标签，对每个所述特征区间进行标记，这样有利于后续查找的过程更加的快捷。

步骤S24，从所述哈希列表中查询最小卡方值的位置标签对应的当前节点，对所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容进行节点内容合并，以得到合并后的节点，将所述后一个节点删除，并对所述当前节点的前一个节点的卡方值进行更新，得到当前双向链表，直到满足设定条件。

示例性的，所述设定条件表示卡方值更新到触发边界条件，例如：最大分箱数以及最低卡方值等。

可以理解，在执行上述步骤S21-步骤S24所描述的节点内容时，能够根据特征值进行特征值排序，得到特征值排序结果，通过特征值排序结果将每个特征值划分为多个特征区间，对每个特征区间进行计算，得到多个初始卡方值并保存在预设哈希列表中，通过初始双向链表连通相邻的所述特征区间。通过哈希列表中的预设键值获得位置标签，确定最小卡方值的位置标签对应的当前节点，根据当前节点内容和当前节点的后一个节点内容，得到合并后的节点，将后一个节点删除，并对当前节点的前一个节点的卡方值进行更新，直到满足设定条件。通过双向链表能有效地保存每次操作的记录，在删除节点后，在可能存在相关处理结果不能达到预期的前提下，可以进行初始双向链表的恢复，进而能有效地避免重新分箱而导致时间浪费的问题。

在实际操作过程中，发明人发现，获取特征值，并对所述特征值进行排序时，存在排序混乱的技术问题，从而难以精确地得到特征值排序结果，为了改善上述技术问题，步骤S21所描述的获取特征值，并对所述特征值进行排序，得到特征值排序结果的步骤，具体可以包括以下步骤S211所描述的内容。

步骤S211，获取特征值，将所述特征值按照从小到大的顺序进行排序，得到特征值排序结果。

可以理解，在执行上述步骤S211所描述的内容时，获取特征值，并对所述特征值进行排序时，避免排序混乱的技术问题，因此，通过从小到大的排序方式能够精确地得到特征值排序结果。

在实际操作过程中，发明人发现，相关技术因为存在特征值比较多的情况，从而导致在每一轮循环迭代中，都需要重复计算区间卡方值，这样就需要消耗大量的时间，从而导致计算速度过慢的问题，为了改善上述技术问题，步骤S22所描述的根据所述特征值排序结果对所述特征值进行区间划分，得到多个特征区间，计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中的步骤，具体可以包括以下步骤S221所描述的内容。

步骤S221，根据所述特征值排序结果对所述特征值进行区间划分，得到多个特征区间，根据矩阵训练模型对每个所述特征区间进行计算，得到初始卡方值，并将所述初始卡方值保存在哈希列表中。

可以理解，在执行上述步骤S221所描述的内容时，本申请可以将大量计算后的特征值进行存储，由于可以直接提取存储的特征值，因而无需重新进行特征值的计算，能有效地降低计算特征值所消耗的时间。

在实际操作过程中，发明人发现，通过初始双向链表连通相邻的所述特征区间，通过所述哈希列表中的预设键值对每个所述特征区间进行标记时，存在位置标记错误的技术问题，从而难以精确地得到每个所述特征区间对应的位置标签，为了改善上述技术问题，步骤S23所描述的通过初始双向链表连通相邻的所述特征区间，通过所述哈希列表中的预设键值对每个所述特征区间进行标记，得到每个所述特征区间对应的位置标签的步骤，具体可以包括以下步骤S231-步骤S233所描述的内容。

步骤S231，通过初始双向链表连通相邻的所述特征区间。

步骤S232，将所述特征区间中的好坏样本数、卡方值和相邻区间信息转化成链表节点。

步骤S233，根据所述哈希列表中的所述链表节点和所述卡方值对每个所述特征区间进行标记，得到每个所述特征区间对应的位置标签。

可以理解，在执行上述步骤S231-步骤S233所描述的内容时，通过初始双向链表连通相邻的所述特征区间，通过所述哈希列表中的预设键值对每个所述特征区间进行标记时，有效地避免位置标记错误的技术问题，从而能够精确地得到每个所述特征区间对应的位置标签。

在实际操作过程中，发明人发现，现有技术在进行单变量分析时，会存在对变量分箱效果不满足预设条件的情况，这样就需要重新进行分箱的工作，但是在手动调整时，又因为之前的区间合并操作没有记录，这样重新进行分箱的工作效率就难以得到保证（比如首先需要重新计算合并之前的内容，然后才能重新分箱）。为了改善上述技术问题，步骤S24所描述的从所述哈希列表中查询最小卡方值的位置标签对应的当前节点，对所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容进行节点内容合并，以得到合并后的节点，将所述后一个节点删除，并对所述当前节点的前一个节点的卡方值进行更新，得到当前双向链表，直到满足设定条件的步骤，具体可以包括以下步骤S241-步骤S245所描述的内容。

步骤S241，重复执行以下步骤，直至满足设定条件：

步骤S242，从所述哈希列表中查询最小卡方值的位置标签对应的当前节点。

步骤S243，根据所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容，进行好坏样本数的合并，得到合并后的好坏样本数。

步骤S244，根据所述合并后的好坏样本数对所述卡方值进行重新计算，得到目标卡方值。

步骤S245，对所述当前节点中的前后链节点地址信息进行更新，得到所述当前节点对应的目标前后链节点地址信息，并将所述后一个节点进行删除。

可以理解，在执行上述步骤S241-步骤S245所描述的内容时，在目标卡方值不满足预期值时，不用重新进行分箱的操作过程，可以进行初始双向链表的恢复，然后对初始双向链表进行重新合并计算的步骤，这样能避免在重新分箱浪费资源的情况发生，从而有效地节约了时间。

基于上述同样的发明构思，请结合参阅图2，还提供了快速卡方分箱的装置20的功能模块框图，关于所述快速卡方分箱的装置20的详细描述如下。

一种快速卡方分箱的装置20，所述装置20包括：

特征排序模块21，用于获取特征值，并对所述特征值进行排序，得到特征值排序结果；

卡方计算模块22，用于根据所述特征值排序结果对所述特征值进行区间划分，得到多个特征区间，计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中；

位置定位模块23，用于通过初始双向链表连通相邻的所述特征区间，通过所述哈希列表中的预设键值对每个所述特征区间进行标记，得到每个所述特征区间对应的位置标签；

节点更新模块24，用于从所述哈希列表中查询最小卡方值的位置标签对应的当前节点，对所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容进行节点内容合并，以得到合并后的节点，将所述后一个节点删除，并对所述当前节点的前一个节点的卡方值进行更新，得到当前双向链表，直到满足设定条件。

进一步地，所述特征排序模块21，具体用于：

进一步地，所述卡方计算模块22，具体用于：

进一步地，所述位置定位模块23，具体用于：

通过初始双向链表连通相邻的所述特征区间；

进一步地，所述节点更新模块24，具体用于：

重复执行以下步骤，直至满足设定条件：

综上，本发明实施例提供的一种快速卡方分箱的方法及装置，能够根据特征值进行特征值排序，得到特征值排序结果，通过特征值排序结果将每个特征值划分为多个特征区间，对每个特征区间进行计算，得到多个初始卡方值并保存在预设哈希列表中，通过初始双向链表连通相邻的所述特征区间。通过哈希列表中的预设键值获得位置标签，确定最小卡方值的位置标签对应的当前节点，根据当前节点内容和当前节点的后一个节点内容，得到合并后的节点，将后一个节点删除，并对当前节点的前一个节点的卡方值进行更新，直到满足设定条件。通过双向链表能有效地保存每次操作的记录，在删除节点后，在可能存在相关处理结果不能达到预期的前提下，可以进行初始双向链表的恢复，进而能有效地避免重新分箱而导致时间浪费的问题。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种快速卡方分箱的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，获取特征值，并对所述特征值进行排序，得到特征值排序结果，包括：

3.根据权利要求1所述的方法，其特征在于，根据所述特征值排序结果对所述特征值进行区间划分，得到多个特征区间，计算每个所述特征区间对应的初始卡方值并保存在预设哈希列表中，包括：

4.根据权利要求1所述的方法，其特征在于，通过初始双向链表连通相邻的所述特征区间，通过所述哈希列表中的预设键值对每个所述特征区间进行标记，得到每个所述特征区间对应的位置标签，包括：

通过初始双向链表连通相邻的所述特征区间；

5.根据权利要求4所述的方法，其特征在于，从所述哈希列表中查询最小卡方值的位置标签对应的当前节点，对所述当前节点中的节点内容和所述当前节点的后一个节点中的节点内容进行节点内容合并，以得到合并后的节点，将所述后一个节点删除，并对所述当前节点的前一个节点的卡方值进行更新，得到当前双向链表，直到满足设定条件，包括：

重复执行以下步骤，直至满足设定条件：

6.一种快速卡方分箱的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述特征排序模块，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述卡方计算模块，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述位置定位模块，具体用于：

通过初始双向链表连通相邻的所述特征区间；

10.根据权利要求9所述的装置，其特征在于，所述节点更新模块，具体用于：

重复执行以下步骤，直至满足设定条件：