CN112148706A

CN112148706A - 一种变量分组方法及相关设备

Info

Publication number: CN112148706A
Application number: CN201910583362.0A
Authority: CN
Inventors: 张焯
Original assignee: Simplecredit Micro-Lending Co ltd
Current assignee: Simplecredit Micro-Lending Co ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2020-12-29

Abstract

本发明实施例公开了一种变量分组方法及相关设备，所述方法应用于机器学习技术领域，包括：将变量对应的多个取值依照预设顺序排列，并根据每个取值的排列顺序创建每个取值对应的索引。进一步地，可以依照预设划分规则将第一索引至第n索引之间的索引区域划分为至少一种区域组，并确定变量在至少一种区域组中每种区域组下的皮尔森卡方统计量，从至少一种区域组中确定出对应的皮尔森卡方统计量最大的目标区域组，进而基于目标区域组对变量进行分组。采用本申请，可以对变量进行离散化分组，有利于增大变量的皮尔森卡方统计量，提高该变量所构建数据安全模型输出结果的准确率。

Description

一种变量分组方法及相关设备

技术领域

本发明涉及信息处理技术领域，尤其涉及一种变量分组方法及相关设备。

背景技术

防止数据泄露对每个企业来说都是比较棘手的问题，一般情况下，企业会通过建立数据安全模型对企业员工的数据使用情况进行监控。在数据安全模型的建模过程中，通常涉及到对变量(例如员工账户健康度)的离散化，离散化后得到的类别型变量与目标变量之间关联性强弱决定了最终模型输出结果的准确性。皮尔逊卡方(PearsonChi-square)统计量是衡量类别型变量与目标变量之间关联性的指标，构建模型所采用变量的皮尔逊卡方统计量越大，类别型变量与目标变量之间关联性越强，则构建后模型的输出结果越准确。

对于同一个变量而言，采用不同的分组方式进行分组，得到的皮尔逊卡方统计量存在差异。目前，对变量进行分组通常采用的方法为等容分组方法，但采用该方法分组得到变量的皮尔逊卡方统计量较低。因此，如何更好的对变量进行分组，以提高模型输出结果的准确率，成为一个亟待解决的问题。

发明内容

本发明实施例提供了一种变量分组方法及相关设备，有利于增大变量的皮尔森卡方统计量，提高该变量所构建数据安全模型输出结果的准确率。

第一方面，本发明实施例提供了一种变量分组方法，该方法包括：

将变量对应的多个取值依照预设顺序排列，并根据每个取值的排列顺序创建所述每个取值对应的索引；

依照预设划分规则将第一索引至第n索引之间的索引区域划分为至少一种区域组，每种区域组表征了对所述索引区域的一种划分方式，所述每种区域组包括至少两个区域，所述第一索引对应取值的排列顺序为1，所述第n索引对应取值的排列顺序为n，所述n为大于或者等于1的整数；

确定所述变量在所述每种区域组下的皮尔森卡方统计量，并从所述至少一种区域组中确定出皮尔森卡方统计量最大的目标区域组；

基于所述目标区域组对所述变量进行分组。

在一个实施例中，所述依照预设划分规则将第一索引至第n索引之间的索引区域划分为至少一种区域组的具体实施方式为：依照预设划分规则对第一索引至第n索引之间的索引区域进行递归分割，得到至少一种区域组。

在一个实施例中，所述确定所述变量在所述至少一种区域组中每种区域组下的皮尔森卡方统计量的具体实施方式为：获取预先存储的所述变量在第一区域组下各个区域的皮尔森卡方统计量，所述第一区域组是所述至少一种区域组中的任一种，各个区域对应的样本量大于或等于预设样本量阈值；对所述各个区域的皮尔森卡方统计量进行求和，并将求和结果确定为所述变量在所述第一区域组下的皮尔森卡方统计量。

在一个实施例中，所述获取预先存储的所述变量在第一区域组下各个区域的皮尔森卡方统计量之前，还可以基于所述预设样本量阈值对所述第一索引至第n索引之间的索引区域进行划分，得到所述索引区域对应的至少两个子区域，每个子区域对应的样本量大于或者等于所述预设样本量阈值；计算所述变量在各个子区域下的皮尔森卡方统计量，并将各个子区域与对应的皮尔森卡方统计量关联存储；

其中，所述获取预先存储的所述变量在第一区域组下各个区域的皮尔森卡方统计量的具体实施方式为：从预先存储的所述各个子区域中确定与第一区域组的各个区域匹配的目标子区域，并将与各个目标子区域关联存储的皮尔森卡方统计量确定为所述变量在所述第一区域组下各个区域的皮尔森卡方统计量。

在一个实施例中，所述从所述至少一种区域组中确定出对应的皮尔森卡方统计量最大的目标区域组之后，还可以将所述目标区域组对应的皮尔森卡方统计量确定为所述第一索引至第n索引之间的索引区域的目标皮尔森卡方统计量；依照预设索引结构创建所述第一索引至第n索引之间的索引区域的目标皮尔森卡方统计量对应的皮尔森卡方统计量索引；将所述目标皮尔森卡方统计量与所述皮尔森卡方统计量索引关联存储至预设存储区域。

在一个实施例中，所述依照预设划分规则将第一索引至第n索引之间的索引区域划分为至少一种区域组的具体实施方式为：获取用户从至少一个单调模式中选择的目标单调模式；从至少一个预设划分规则中获取与所述目标单调模式匹配的目标预设划分规则；基于所述目标预设划分规则将第一索引至第n索引之间的索引区域划分为至少一种区域。

在一个实施例中，所述将变量对应的多个取值依照预设顺序排列之前，还可以获取所有样本数据中所述变量的取值；若存在目标样本数据的所述变量的取值缺失，则将所述目标样本数据的所述变量设置为一个小于或者等于预设负数阈值的取值；若不存在目标样本数据的所述变量的取值缺失，则触发执行所述将变量对应的多个取值依照预设顺序排列的步骤。

第二方面，本发明实施例提供了一种变量分组装置，该变量分组装置包括用于执行上述第一方面的方法的模块。

第三方面，本发明实施例提供了一种服务器，该服务器包括处理器、通信接口和存储器，所述处理器、通信接口和存储器相互连接，其中，所述通信接口受所述处理器的控制用于收发消息，所述存储器用于存储支持服务器执行上述方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

本申请实施例中，可以将变量对应的多个取值依照预设顺序排列，并根据每个取值的排列顺序创建每个取值对应的索引。进一步地，可以依照预设划分规则将第一索引至第n索引之间的索引区域划分为至少一种区域组，并确定变量在至少一种区域组中每种区域组下的皮尔森卡方统计量，从至少一种区域组中确定出对应的皮尔森卡方统计量最大的目标区域组，进而基于目标区域组对变量进行分组。采用本申请实施例，可以对变量进行离散化分组，有利于增大变量的皮尔森卡方统计量，提高该变量所构建数据安全模型输出结果的准确率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种变量分组系统的结构示意图；

图2是本发明实施例提供的一种变量分组方法的流程示意图；

图3是本发明实施例提供的另一种变量分组方法的流程示意图；

图4a是本发明实施例提供的一种变量的分组示意图；

图4b是本发明实施例提供的另一种变量的分组示意图；

图5是本发明实施例提供的一种变量分组装置的示意性框图；

图6是本发明实施例提供的一种服务器的示意性框图。

具体实施方式

目前，对变量进行分组的方法通常采用等容分组法和贪心搜索法。其中，采用等容分组法分组后的变量，每个分组下的样本量是相同的，等容分组法虽然实现简单快捷，但是分组得到的皮尔逊卡方统计量较低，若每个变量都采用这种等容分组法进行分组，最后这些变量建立的模型输出结果的准确率较低。贪心搜索法是基于设定的最小样本量不断对变量的值域进行二分，二分的两段分别再二分，以此类推，直到全部分割完成。贪心搜索法在等容分组法的基础上，提高了分组得到的变量的皮尔逊卡方统计量，通常情况下，该方法可以得到较高的皮尔逊卡方统计量，但在少数情况下，由于贪心搜索的不断循环二分的缺点，甚至可能得到比等容分组更小的皮尔逊卡方统计量，具有一定不稳定性。

为了解决上述问题，本申请实施例提出了一种变量分组方法，可以将变量对应的多个取值依照预设顺序排列，并根据每个取值的排列顺序创建每个取值对应的索引。进一步地，可以依照预设划分规则将第一索引至第n索引之间的索引区域划分为至少一种区域组，并确定变量在每种区域组下的皮尔森卡方统计量，从至少一种区域组中确定出对应的皮尔森卡方统计量最大的目标区域组，进而基于目标区域组对变量进行分组。采用这样的方式，可以高效地对变量进行离散化分组，增大该变量的皮尔森卡方统计量。

在一个实施例中，上述变量分组方法可以应用于服务器，该服务器可以为用于进行变量分组的服务器或者服务器组。在其他实施例中，也可以通过功能强大、软硬件资源丰富的个人电脑来实现，本发明对此不作具体限定。

参见图1所述的变量分组系统的结构示意图，该变量分组系统包括皮尔森卡方统计量预计算模块、动态规划模块，两者的流程关系是，首先运行独立的皮尔森卡方统计量预计算模块，然后运行动态规划模块，其中，该动态规划模块中还嵌套有后备忘录模块。

在一个实施例中，皮尔森卡方统计量预计算模块可以将变量对应的至少一个取值依照从小到大的顺序排列，并根据每个取值的排列顺序创建每个取值对应的索引，进一步地，可以基于预设样本量阈值对第一索引至第n索引之间的索引区域进行划分，得到索引区域对应的至少一个子区域，使得每一个子区域对应的样本量大于或者等于预设样本量阈值，进而计算变量在各个子区域下的皮尔森卡方统计量，并将各个子区域与对应的皮尔森卡方统计量关联存储。其中，第一索引对应取值的排列顺序为1，第n索引对应取值的排列顺序为n，n 为大于或者等于1的整数。

在一个实施例中，假设变量存在n个唯一取值，相应存在n个索引，可以将第一索引至第n索引之间的索引区域划分为n(n+1)/2个不同的子区域。在一个实施例中，皮尔森卡方统计量预计算模块在预计算各个子区域的皮尔森卡方统计量之前，可以首先检测n(n+1)/2个子区域中各个子区域对应的样本量是否大于或者等于预设样本量阈值，若否，则直接不计算该子区域，若是，则计算该子区域的皮尔森卡方统计量，直到计算完所有样本量大于或者等于预设样本量阈值的子区域的皮尔森卡方统计量后，将各个子区域与对应的皮尔森卡方统计量关联存储。

例如，预设样本量阈值为300，皮尔森卡方统计量预计算模块检测到任一子区域(例如第i索引到第j索引之间的区域)对应的样本量为300，则可以不计算该任一子区域的皮尔森卡方统计量。

在一个实施例中，皮尔森卡方统计量预计算模块计算完所有样本量大于或者等于预设样本量阈值的子区域的皮尔森卡方统计量后，可以依照预设子区域索引结构创建上述样本量大于或者等于预设样本量阈值的各个子区域对应皮尔森卡方统计量的皮尔森卡方统计量索引，并将各个子区域的皮尔森卡方统计量索引与各自对应的皮尔森卡方统计量关联存储。示例性地，该预设子区域索引结构例如可以为self.p结构。例如，self.p[i][j]表征了索引i到索引j的皮尔森卡方统计量，当需要获取索引i到索引j的皮尔森卡方统计量时，可以直接读取预先存储的self.p[i][j]的值。

进一步地，当皮尔森卡方统计量预计算模块将各个子区域与对应的皮尔森卡方统计量关联存储后，动态规划模块可以依照预设划分规则将第一索引至第n 索引之间的索引区域划分为至少一种区域组，每种区域组表征了对索引区域的一种划分方式，每种区域组包括至少两个区域，该第一索引对应取值的排列顺序为1，该第n索引对应取值的排列顺序为n，n为大于或者等于1的整数。进一步地，动态规划模块可以确定变量在至少一种区域组中每种区域组下的皮尔森卡方统计量，并从至少一种区域组中确定出对应的皮尔森卡方统计量最大的目标区域组，进而基于目标区域组对该变量进行分组。

其中，动态规划模块的主要目的是为了获得使得变量对应皮尔森卡方统计量最大化的划分方式。从这个目的出发，可以基于预设划分规则不断去分解出子问题，要得到原始问题的最优解就是逐层去寻求子问题的最优解。示例性地，假设某一VariableA变量，其对应的取值有n个，第一个取值为0，最后一个取值为n-1，该变量对应所有取值所构成的值域为[0，n-1]。针对这种情况，为了得到使得皮尔森卡方统计量最大化的划分方式，要解决的原始问题为在[0，n-1] 上找到使得皮尔森卡方统计量最大化的划分。这种情况下，动态规划模块可以基于预设划分规则将该原始问题转换成子问题，假设[0，n-1]之间存在一个值v，在本方案中若确定(v，n-1]为最优划分，则值域[0，n-1]对应的全局最优皮尔森卡方统计量为[0，v]与(v，n-1]的皮尔森卡方统计量之和。可以看出，这样的v 有很多，动态规划模块可以遍历v，最后确定出使得[0，v]与(v，n-1]的皮尔森卡方统计量之和最大的那个v。可以看出，在这个正向的过程中，无法直接获得v，因为首先要求解出(v，n-1]的最优皮尔森卡方统计量，(v，n-1]就是[0，n-1]的子问题，同样(v，n-1]又能分解出更多的子问题(例如，找到再一个v₁，使得[0， v]、(v，v₁]和(v₁，n-1]三者之间的皮尔森卡方统计量之和最大)，不断递归求解子问题最优解，以此类推，直到子问题的边界。其中，该v，v₁可以称为分割点，其中，该v为一级分割点，v₁为一级分割点v的下级分割点，可以称为一级分割点v的二级分割点，以此类推，随着不断的递归求解子问题的最优解，该v₁还可以存在其对应的下级分割点v₂，该v₂可以称为一级分割点v的三级分割点。

依照上述获得使得皮尔森卡方统计量最大化的划分方式的思想，在本申请实施例中，假设变量存在n个唯一取值，将n个取值依照从小到大的顺序排列，并根据每个取值的排列顺序创建每个取值对应的索引，假设第一个取值对应的索引(即第一索引)是0，最后一个取值对应索引(即第n索引)是n-1，n为大于或者等于1的整数。针对这种情况，动态规划模块要解决的原始问题是在第一索引至第n索引之间的索引区域[0，n-1]上找到使得皮尔森卡方统计量最大化的划分，针对这种情况，可以基于预设划分规则将该原始问题转换成子问题，不断递归求解子问题最优解，从而将该索引区域[0，n-1]划分为多种区域组。

具体地，动态规划模块可以基于预设划分规则首先遍历n-1个一级分割点v (0<v<n-1的整数)对索引区域[0，n-1]将索引区域划分为2^n-1-1种区域组。例如 n为4，可以遍历3个一级分割点分别为0、1和2，分别将索引区域[0，3]分为三种区域组，第一区域组{[0，0]，[1，3]}，第二区域组{[0，1]，[2，3]}，第三区域组{[0，2]，[3，3]}，其中，第一区域组下包括两个区域[0，0]和[1，3]，第二区域组下包括两个区域[0，1]和[2，3]，第三区域组下包括两个区域[0，2]和[3， 3]。进一步地，动态规划模块可以遍历一级分割点v下的二级分割点v₂(v₂<n-1) 对一级分割点v划分得到的区域组进行再次划分。例如，上述一级分割点0对索引区域[0，3]划分得到第一区域组{[0，0]，[1，3]}，动态模块检测到该一级分割点0还存在一个对应的二级分割点1，则可以基于该二级分割点1对第一区域分组{[0，0]，[1，3]}进行再次划分，划分为{[0，0]，[1，1]，[2，3]}，该{[0， 0]，[1，1]，[2，3]}可以确定为索引区域[0，3]对应的第三种区域组，简称第三区域组。与之相似的，动态模块还可以基于一级分割点1对应的二级分割点2，对第二区域组进行划分，将第二区域组划分为{[0，0]，[1，2]，[3，3]}；基于一级分割点2对应的二级分割点3，对第三区域组进行划分，将第三区域组划分为{[0，1]，[2，2]，[3，3]}。

进一步地，动态规划模块可以遍历各个二级分割点v₂下的三级分割点v₃ (v₂<v₃<n-1)对二级分割点v划分得到的区域组进行再次划分。例如，上述二级分割点1划分得到第三区域组{[0，0]，[1，1]，[2，3]}，动态模块检测到该二级分割点1还存在一个对应的三级分割点2，则可以基于该三级分割点2对第三区域分组进行再次划分，划分为{[0，0]，[1，1]，[2，2]，[3，3]}。

以此类推，采用这种递归的方式对第一索引至第n索引之间的索引区域进行递归分割，可以得到该索引区域对应的至少一种区域组。可以看出，当n为4 时，采用上述递归的方式对索引区域[0，3]进行划分，可以将该索引区域[0，3] 划分为7种区域组。

进一步地，动态规划模块可以确定变量在至少一种区域组中每种区域组下的皮尔森卡方统计量，并从至少一种区域组中确定出对应的皮尔森卡方统计量最大的目标区域组，进而基于目标区域组对该变量进行分组，从而实现该变量的全局最大化皮尔森卡方统计量。

在一个实施例中，服务器可以基于递归函数求得变量的全局最大化皮尔森卡方统计量，设定皮尔森卡方统计量用v表示，则该递归函数对应的公式如公式1所示：

该公式1中，k<＝i<m，该self.p[k][i]表征了皮尔森卡方统计量预计算模块中预先计算的索引k到索引i的皮尔森卡方统计量，max_v_i(k，m)表征了从索引k到索引m之间区域的最大皮尔森卡方统计量，max_v_i(i+1，m)表征了从索引i+1到索引m之间区域的最大皮尔森卡方统计量。

示例性地，假设变量对应有n个唯一取值的变量，对该n个变量从小到大排列，第一个取值对应第一索引0，第n个取值对应第n个索引n-1。针对这种情况，服务器可以直接调用该递归函数max_v_i(0，n-1)计算出该变量对应的第一索引0至第n索引n-1之间索引区域的最大皮尔森卡方统计量，进一步地，服务器可以确定出该最大皮尔森卡方统计量对应的i值，该i可以包括至少一个，进而基于该至少一个i值对变量进行分组，从而实现该变量的全局最大化皮尔森卡方统计量。

在一个实施例中，该动态规划模块中还嵌套有后备忘录模块，用于在动态规划模块确定出第k索引至第n索引之间的索引区域的最大皮尔森卡方统计量时，依照预设索引结构创建第k索引至第n索引之间的索引区域的最大皮尔森卡方统计量对应的皮尔森卡方统计量索引，进而将该最大皮尔森卡方统计量与皮尔森卡方统计量索引关联存储至预设备忘录(该预设备忘录可以理解为一个存储区域)中。当后续需要用到该第k索引至第n索引之间的索引区域下的最大皮尔森卡方统计量时，可以通过该皮尔森卡方统计量索引得到该最大皮尔森卡方统计量，而无需重新计算，从而减少计算开销。其中，该k为小于或者等于n，且大于或者等于0的整数。

示例性地，该预设索引结构例如可以为self.v_i结构，例如，self.v_i[k]表征了索引k至索引n这一区域组下的最大皮尔森卡方统计量。假设有一个小于k 的索引a和索引b，在计算索引a至索引n之间，以及索引b至索引n之间各自对应索引区域的最大皮尔森卡方统计量时，均会涉及到对索引k至索引n之间索引区域对应最大皮尔森卡方统计量的计算，则可以直接从上述预设备忘录中读取self.v_i[k]的值，从而减少计算开销。

参见图2，图2是本发明实施例提供的一种变量分组方法的流程示意图，本实施例可由服务器执行，如图所示，该变量分组方法可包括：

S201：将变量对应的多个取值依照预设顺序排列，并根据每个取值的排列顺序创建每个取值对应的索引。其中，该预设顺序可以为从小到大的顺序，或者从大到小的顺序，本申请实施例对此不作具体限定。

其中，上述变量对应的多个取值均为唯一取值。在一个实施例中，服务器可以将变量对应的多个取值依照从小到大的顺序排列，并根据每个取值的排列顺序创建每个取值对应的索引，每一个索引表征了对应取值的排列顺序。

示例性地，变量对应的取值为3、4、2，这种情况下，服务器可以依照从小到大的顺序对上述取值进行排列，排列结果为2、3、4，进而将排序第一的取值 2对应的索引(即第一索引)确定为0，将排序第二的取值3对应的索引(即第二索引)确定为1，将排序第三的取值4对应的索引(即第三索引)确定为2。

S202：依照预设划分规则将第一索引至第n索引之间的索引区域划分为至少一种区域组，每种区域组表征了对索引区域的一种划分方式，每种区域组包括至少两个区域，第一索引对应取值的排列顺序为1，第n索引对应取值的排列顺序为n，n为大于或者等于1的整数。在一个实施例中，该第n索引对应取值的排列顺序为最后一位，例如，变量对应的取值包括2个分别为1、2，那么，这种情况下，该n为2，该第n索引对应的取值为2，排序为最后一位。

在一个实施例中，服务器可以依照预设划分规则对第一索引至第n索引之间的索引区域进行递归分割，得到至少一种区域组。其中，如何基于预设划分规则对第一索引至第n索引之间的索引区域进行递归分割，得到至少一种区域组的相关描述，可以参照上述实施例中动态规划模块的相关描述，此处不再赘述。

S203：确定变量在每种区域组下的皮尔森卡方统计量，并从至少一种区域组中确定出对应的皮尔森卡方统计量最大的目标区域组，进而基于目标区域组对变量进行分组。

在一个实施例中，服务器可以确定变量在至少一种区域组中每种区域组下的皮尔森卡方统计量，并比较每种区域组下的皮尔森卡方统计量大小，进而将最大皮尔森卡方统计量对应的区域组确定为目标区域组，并基于目标区域组对变量进行分组。进一步地，服务器可以采用步骤上S201～步骤S203的方法对多个变量进行分组，并采用分组后的上述多个变量构建模型，由于构建该模型的每个变量的皮尔森卡方统计量均是最优皮尔森卡方统计量(即最大皮尔森卡方统计量)，不仅可以保证所构建模型的鲁棒性，还可以提高该模型输出结果的准确度。

在一个实施例中，上述目标区域组包括至少两个区域。针对这种情况，可以基于查询每个区域中两个端点索引对应的端点取值，进而依据每个区域对应的端点取值，得到每个区域对应的值域，进而基于每个区域对应的值域对变量对应的值域进行分组，从而完成对变量的分组。

示例性地，假设变量对应的变量取值为2、3、4、1，服务器依照从小到大的顺序对上述取值进行排列，排列结果为1、2、3、4，将排序第一的取值1对应的索引(即第一索引)确定为0，将排序第二的取值2对应的索引(即第二索引)确定为1，将排序第三的取值3对应的索引(即第三索引)确定为2，将排序第三的取值4对应的索引(即第三索引)确定为3，该变量对应的值域为[1， 4]，目标区域组为{[0，1]，(1，3]}，该目标区域组包括第一区域[0，1]和第二区域(1，3]。针对这种情况，服务器确定第一区域中两个端点索引0和1对应的端点取值分别为1和2，第二区域中两个端点索引1和3对应的端点取值分别为2 和4，得到第一区域对应的值域为[1，2]，第二区域对应的值域为(2，4]，进而基于该第一区域对应的值域和第二区域对应的值域，将变量的值域[1，4]划分为 [1，2]和(2，4]这两个组。

在一个实施例中，服务器从至少一种区域组中确定出对应的皮尔森卡方统计量最大的目标区域组之后，还可以将目标区域组对应的皮尔森卡方统计量确定为第一索引至第n索引之间的索引区域的目标皮尔森卡方统计量，并依照预设索引结构创建第一索引至第n索引之间的索引区域的目标皮尔森卡方统计量对应的皮尔森卡方统计量索引，进而将目标皮尔森卡方统计量与皮尔森卡方统计量索引关联存储至预设存储区域。

参见图3，图3是本发明实施例提供的另一种变量分组方法的流程示意图，本实施例可由服务器执行，如图所示，该变量分组方法可包括：

S301：将变量对应的多个取值依照预设顺序排列，并根据每个取值的排列顺序创建每个取值对应的索引。

S302：基于预设样本量阈值对第一索引至第n索引之间的索引区域进行划分，得到索引区域对应的至少两个子区域，每一个子区域对应的样本量大于或者等于预设样本量阈值，第一索引对应取值的排列顺序为1，第n索引对应取值的排列顺序为n，n为大于或者等于1的整数。

S303：计算变量在各个子区域下的皮尔森卡方统计量，并将各个子区域与对应的皮尔森卡方统计量关联存储。

在一个实施例中，假设变量存在n个唯一取值，服务器可以将第一索引至第n索引之间的索引区域划分为n(n+1)/2个不同的子区域。针对这种情况，服务器可以首先检测n(n+1)/2个子区域中各个子区域对应的样本量是否大于或者等于预设样本量阈值，若否，则直接不计算该子区域，若是，则计算该子区域的皮尔森卡方统计量，直到计算完所有样本量大于或者等于预设样本量阈值的子区域的皮尔森卡方统计量后，将样本量大于或者等于预设样本量阈值的各个子区域与对应的皮尔森卡方统计量关联存储。

在一个实施例中，服务器可以依照预设子区域索引结构创建上述样本量大于或者等于预设样本量阈值的各个子区域对应皮尔森卡方统计量的皮尔森卡方统计量索引，并将各个子区域的皮尔森卡方统计量索引与各自对应的皮尔森卡方统计量关联存储。示例性地，该预设子区域索引结构例如可以为self.p结构。例如，self.p[i][j]表征了索引i到索引j的皮尔森卡方统计量，当需要获取索引i 到索引j的皮尔森卡方统计量时，可以直接读取预先存储的self.p[i][j]的值。

S304：依照预设划分规则将第一索引至第n索引之间的索引区域划分为至少一种区域组，每种区域组表征了对索引区域的一种划分方式，每种区域组包括至少两个区域。

S305：获取预先存储的变量在第一区域组下各个区域的皮尔森卡方统计量，第一区域组是至少一种区域组中的任一种。

S306：对第一区域组的各个区域下的皮尔森卡方统计量进行求和，并将求和结果确定为第一区域组下的皮尔森卡方统计量。

在一个实施例中，可以从预先存储的各个子区域中确定与第一区域组的各个区域匹配的目标子区域，并将与各个目标子区域关联存储的皮尔森卡方统计量确定为变量在第一区域组下各个区域的皮尔森卡方统计量。

其中，上述第一区域组的数量包括至少一个，若步骤304中划分了p种区域组，那么该第一区域组的数量为p。服务器可以依据步骤S305～步骤306的方法确定出p个第一区域组各自对应的皮尔森卡方统计量。

S307：从至少一种区域组中确定出对应的皮尔森卡方统计量最大的目标区域组，进而基于目标区域组对变量进行分组。其中，步骤S307的具体实施方式，可以参见上述实施例中，步骤S203的相关描述，此处不再赘述。

在一个实施例中执行步骤S302～步骤S307，可以确定出变量对应的最大皮尔森卡方统计量(也即为目标区域组对应的皮尔森卡方统计量)，但并没有考虑到正例的占比positive rate与变量分组的单调关系，对于二元因变量，一般标记为1或者0，1即positive，也叫阳性、正例，0即negative，也叫阴性、负例， positive rate就是正例的占比。

示例性地，假设变量“员工账户健康度”的值域为[301，848]，样本容量是 5843，服务器执行步骤S301～步骤S307，将该变量“员工账户健康度”分为5 组，分别为[301,520]、(520，659]、(659，751]、(751，811]和(811，848]，该变量“员工账户健康度”对应的分组图可以参见图4a所示，图4a中的折线为正例的占比，即positive rate，随着变量“员工账户健康度”的分组从小到大，positive rate逐渐降低，positive rate相对于变量VariableA呈单调递减。

不同安全维度的变量，所需求的positive rate相对于该变量呈现的单调模式也不同，该单调模式可以包括单调递增、单调递减和非单增单减等等。假设一个变量VariableB，按照其安全维度，positive rate在VariableB上应该呈现单调递增的态势，如果直接执行步骤S302～步骤S307对变量进行分组不加任何约束，有可能会出现少量的拐点，例如图4b所示。

为了解决上述拐点问题，在一个实施例中，可以预先设置至少一个单调模式供用户选择，每一个单调模式对应一种约束条件，也即，可以理解为一种单调模式对应一种预设划分规则，每种单调模式对应的预设划分规则包括该单调模式对应的约束条件。

其中，该至少一个单调模式可以包括单调递增模式、单调递减模式、非单增单减模式。在一个实施例中，用户可以根据变量的安全维度从至少一个单调模式中选择其中一种模式，服务器可以获取用户从至少一个单调模式中选择的目标单调模式，并从至少一个预设划分规则中获取与目标单调模式匹配的目标预设划分规则，进而基于目标预设划分规则将第一索引至第n索引之间的索引区域划分为至少一种区域。

其中，单调递增模式，分组需满足rate1<rate2<rate3<....；单调递减模式，分组需满足rate1>rate2>rate3>....，其中rate1表示第一组的positive rate；如果选择非单增单减模式，则分组没有约束。

在一个实施例中，上述至少一个单调模式可以包括单调递增模式、单调递减模式、非单增单减模式。服务器可以基于这三种单调模式各自匹配的目标预设划分规则执行步骤S302～步骤S307，确定出各个单调模式下变量对应的最大皮尔森卡方统计量，并对各个单调模式下变量对应的最大皮尔森卡方统计量进行比对分析。若比对分析结果显示：一个变量单调递增模式和单调递减模式都能获得预设皮尔森卡方统计量阈值(例如0.02以上的皮尔森卡方统计量)，而非单增单减模式趋势混乱，则可以直接删除该变量，后续不采用该变量创建模型。

在一个实施例中，若服务器基于这三种单调模式各自匹配的目标预设划分规则执行步骤S302～步骤S307，对变量进行分组的过程中，确定出该变量只有单调递增模式，单调递减模式下无法对变量进行分组，且非单增单减模式仍然表现出了单调递增趋势，可以确定该变量为一个趋势良好的变量，且该趋势又与安全维度相符，则可以将该变量确定为模型变量，用于创建模型。

在一个实施例中，服务器将变量对应的多个取值依照预设顺序排列之前，还可以获取所有样本数据中变量的取值，若存在目标样本数据的变量的取值缺失，则将目标样本数据的变量设置为一个小于或者等于预设负数阈值的取值；若不存在目标样本数据的变量的取值缺失，则触发执行将变量对应的多个取值依照预设顺序排列的步骤。

其中，该预设负数阈值可以由开发人员预先预设，后续用户在使用过程中，可以根据自身需求对该预设负数阈值进行调整。示例性地，该预设负数阈值为 -9999，变量为“员工账户健康度”，样本数据为企业每个员工的健康样本数据，每个员工对应一个样本数据，服务器检测所有样本数据中该变量的取值，检测到某一员工对应样本数据(即目标样本数据)中该变量“员工账户健康度”的取值缺失，即目标样本数据中不存在该员工的员工账户健康度，则可以将该目标样本数据的变量设置为一个小于或者等于-9999的取值(以下称为特殊值)。该设置的取值不参与到变量最大化皮尔森卡方统计量分组的过程，也不参与到单调性的考察中，每一个特殊值单独为一组。由于参数可自定义设置，使得本申请实施例的最大化皮尔森卡方统计量分组方法也适用于含有任意负数范围的变量。

本申请实施例中，可以将变量对应的多个取值依照预设顺序排列，并根据每个取值的排列顺序创建每个取值对应的索引，基于预设样本量阈值对第一索引至第n索引之间的索引区域进行划分，得到索引区域对应的至少两个子区域。进一步地，可以计算变量在各个子区域下的皮尔森卡方统计量，并将各个子区域与对应的皮尔森卡方统计量关联存储，依照预设划分规则将第一索引至第n 索引之间的索引区域划分为至少一种区域组，获取预先存储的变量在第一区域组下各个区域的皮尔森卡方统计量，第一区域组是至少一种区域组中的任一种，调用预设信息值皮尔森卡方统计量函数对第一区域组的各个区域下的皮尔森卡方统计量进行求和，并将求和结果确定为第一区域组下的皮尔森卡方统计量，从至少一种区域组中确定出对应的皮尔森卡方统计量最大的目标区域组，进而基于目标区域组对变量进行分组。采用这样的方式，可以预先计算各个子区域下的皮尔森卡方统计量，后续进行变量分组时，可以直接采用预先计算的第一区域组的各个区域下的皮尔森卡方统计量，有利于减少计算开销。

本发明实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现上述实施例中描述的相应方法。

本发明实施例还提供了一种变量分组装置，该装置包括用于执行前述图2 或者图3所述的方法的模块，配置于服务器。具体地，参见图5，是本发明实施例提供的变量分组装置的示意框图。本实施例的变量分组装置包括：

索引模块50，用于将变量对应的多个取值依照预设顺序排列，并根据每个取值的排列顺序创建所述每个取值对应的索引；

划分模块51，用于依照预设划分规则将第一索引至第n索引之间的索引区域划分为至少一种区域组，每种区域组表征了对所述索引区域的一种划分方式，所述每种区域组包括至少两个区域，所述第一索引对应取值的排列顺序为1，所述第n索引对应取值的排列顺序为n，所述n为大于或者等于1的整数；

确定模块52，用于确定所述变量在所述每种区域组下的皮尔森卡方统计量，并从所述至少一种区域组中确定出皮尔森卡方统计量最大的目标区域组；

分组模块53，用于基于所述目标区域组对所述变量进行分组。

在一个实施例中，所述划分模块，具体用于依照预设划分规则对第一索引至第n索引之间的索引区域进行递归分割，得到至少一种区域组。

在一个实施例中，所述确定模块52，具体用于获取预先存储的所述变量在第一区域组下各个区域的皮尔森卡方统计量，所述第一区域组是所述至少一种区域组中的任一种，各个区域对应的样本量大于或等于预设样本量阈值；对所述各个区域的皮尔森卡方统计量进行求和，并将求和结果确定为所述变量在所述第一区域组下的皮尔森卡方统计量。

在一个实施例中，划分模块51，还用于基于所述预设样本量阈值对所述第一索引至第n索引之间的索引区域进行划分，得到所述索引区域对应的至少两个子区域，每个子区域对应的样本量大于或者等于所述预设样本量阈值；计算所述变量在各个子区域下的皮尔森卡方统计量，并将各个子区域与对应的皮尔森卡方统计量关联存储，从预先存储的所述各个子区域中确定与第一区域组的各个区域匹配的目标子区域，并将与各个目标子区域关联存储的皮尔森卡方统计量确定为所述变量在所述第一区域组下的各个区域的皮尔森卡方统计量。

在一个实施例中，所述确定模块52，还用于将所述目标区域组对应的皮尔森卡方统计量确定为所述第一索引至第n索引之间的索引区域的目标皮尔森卡方统计量；依照预设索引结构创建所述第一索引至第n索引之间的索引区域的目标皮尔森卡方统计量对应的皮尔森卡方统计量索引；将所述目标皮尔森卡方统计量与所述皮尔森卡方统计量索引关联存储至预设存储区域。

在一个实施例中，所述划分模块51，还具体用于获取用户从至少一个单调模式中选择的目标单调模式；从至少一个预设划分规则中获取与所述目标单调模式匹配的目标预设划分规则；基于所述目标预设划分规则将第一索引至第n 索引之间的索引区域划分为至少一种区域。

在一个实施例中，所述索引模块50，还用于获取所有样本数据中所述变量的取值；若存在目标样本数据的所述变量的取值缺失，则将所述目标样本数据的所述变量设置为一个小于或者等于预设负数阈值的取值；若不存在目标样本数据的所述变量的取值缺失，则将变量对应的多个取值依照预设顺序排列。

需要说明的是，本发明实施例所描述的变量分组装置的各功能模块的功能可根据上述图2或者图3所述的所述的方法实施例中的方法具体实现，其具体实现过程可以参照图2或者图3的方法实施例的相关描述，此处不再赘述。

请参见图6，图6是本发明实施例提供的一种服务器的示意性框图，如图6 所示，该服务器包括，处理器601、存储器602和通信接口603。上述处理器601、存储器602和通信接口603可通过总线或其他方式连接，在本发明实施例所示图6中以通过总线连接为例。其中，通信接口603受所述处理器的控制用于收发消息，存储器602用于存储计算机程序，所述计算机程序包括程序指令，处理器601用于执行存储器602存储的程序指令。其中，处理器601被配置用于调用所述程序指令执行：将变量对应的多个取值依照预设顺序排列，并根据每个取值的排列顺序创建所述每个取值对应的索引；依照预设划分规则将第一索引至第n索引之间的索引区域划分为至少一种区域组，每种区域组表征了对所述索引区域的一种划分方式，所述每种区域组包括至少两个区域，所述第一索引对应取值的排列顺序为1，所述第n索引对应取值的排列顺序为n，所述n为大于或者等于1的整数；确定所述变量在所述每种区域组下的皮尔森卡方统计量，并从所述至少一种区域组中确定出皮尔森卡方统计量最大的目标区域组；基于所述目标区域组对所述变量进行分组。

在一个实施例中，所述处理器601，具体用于依照预设划分规则对第一索引至第n索引之间的索引区域进行递归分割，得到至少一种区域组。

在一个实施例中，所述处理器601，还具体用于获取预先存储的所述变量在第一区域组下各个区域的皮尔森卡方统计量，所述第一区域组是所述至少一种区域组中的任一种，各个区域对应的样本量大于或等于预设样本量阈值；对所述各个区域的皮尔森卡方统计量进行求和，并将求和结果确定为所述变量在所述第一区域组下的皮尔森卡方统计量。

在一个实施例中，所述处理器601，还用于基于所述预设样本量阈值对所述第一索引至第n索引之间的索引区域进行划分，得到所述索引区域对应的至少两个子区域，每个子区域对应的样本量大于或者等于所述预设样本量阈值；计算所述变量在各个子区域下的皮尔森卡方统计量，并将各个子区域与对应的皮尔森卡方统计量关联存储，从预先存储的所述各个子区域中确定与第一区域组的各个区域匹配的目标子区域，并将与各个目标子区域关联存储的皮尔森卡方统计量确定为所述变量在所述第一区域组下的各个区域的皮尔森卡方统计量。在一个实施例中，所述处理器601，还用于将所述目标区域组对应的皮尔森卡方统计量确定为所述第一索引至第n索引之间的索引区域的目标皮尔森卡方统计量；依照预设索引结构创建所述第一索引至第n索引之间的索引区域的目标皮尔森卡方统计量对应的皮尔森卡方统计量索引；将所述目标皮尔森卡方统计量与所述皮尔森卡方统计量索引关联存储至预设存储区域。

在一个实施例中，所述处理器601，还具体用于获取用户从至少一个单调模式中选择的目标单调模式；从至少一个预设划分规则中获取与所述目标单调模式匹配的目标预设划分规则；基于所述目标预设划分规则将第一索引至第n索引之间的索引区域划分为至少一种区域。

在一个实施例中，所述处理器601，还用于获取所有样本数据中所述变量的取值；若存在目标样本数据的所述变量的取值缺失，则将所述目标样本数据的所述变量设置为一个小于或者等于预设负数阈值的取值；若不存在目标样本数据的所述变量的取值缺失，则将变量对应的多个取值依照预设顺序排列。

应当理解，在本发明实施例中，所称处理器601可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器601还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器602可以包括只读存储器和随机存取存储器，并向处理器601提供指令和数据。存储器602的一部分还可以包括非易失性随机存取存储器。例如，存储器602还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器601、存储器602和通信接口 603可执行本发明实施例提供的图2或者图3所述的方法实施例所描述的实现方式，也可执行本发明实施例所描述的变量分组服务器的实现方式，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory， ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明的部分实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种变量分组方法，其特征在于，所述方法包括：

基于所述目标区域组对所述变量进行分组。

2.根据权利要求1所述的方法，其特征在于，所述依照预设划分规则将第一索引至第n索引之间的索引区域划分为至少一种区域组，包括：

依照预设划分规则对第一索引至第n索引之间的索引区域进行递归分割，得到至少一种区域组。

3.根据权利要求2所述的方法其特征在于，所述确定所述变量在所述每种区域组下的皮尔森卡方统计量，包括：

获取预先存储的所述变量在第一区域组下各个区域的皮尔森卡方统计量，所述第一区域组是所述至少一种区域组中的任一种，各个区域对应的样本量大于或等于预设样本量阈值；

对所述各个区域的皮尔森卡方统计量进行求和，并将求和结果确定为所述变量在所述第一区域组下的皮尔森卡方统计量。

4.根据权利要求3所述的方法，其特征在于，所述获取预先存储的所述变量在第一区域组下各个区域的皮尔森卡方统计量之前，所述方法还包括：

基于所述预设样本量阈值对所述第一索引至第n索引之间的索引区域进行划分，得到所述索引区域对应的至少两个子区域，每个子区域对应的样本量大于或者等于所述预设样本量阈值；

计算所述变量在各个子区域下的皮尔森卡方统计量，并将各个子区域与对应的皮尔森卡方统计量关联存储；

其中，所述获取预先存储的所述变量在第一区域组下各个区域的皮尔森卡方统计量，包括：

从预先存储的所述各个子区域中确定与第一区域组的各个区域匹配的目标子区域，并将与各个目标子区域关联存储的皮尔森卡方统计量确定为所述变量在所述第一区域组下各个区域的皮尔森卡方统计量。

5.根据权利要求1所述的方法，其特征在于，所述从所述至少一种区域组中确定出皮尔森卡方统计量最大的目标区域组之后，所述方法还包括：

将所述目标区域组对应的皮尔森卡方统计量确定为所述第一索引至第n索引之间的索引区域的目标皮尔森卡方统计量；

依照预设索引结构创建所述第一索引至第n索引之间的索引区域的目标皮尔森卡方统计量对应的皮尔森卡方统计量索引；

将所述目标皮尔森卡方统计量与所述皮尔森卡方统计量索引关联存储至预设存储区域。

6.根据权利要求1所述的方法，其特征在于，所述依照预设划分规则将第一索引至第n索引之间的索引区域划分为至少一种区域组，包括：

获取用户从至少一个单调模式中选择的目标单调模式；

从至少一个预设划分规则中获取与所述目标单调模式匹配的目标预设划分规则；

基于所述目标预设划分规则将第一索引至第n索引之间的索引区域划分为至少一种区域。

7.根据权利要求1所述的方法，其特征在于，所述将变量对应的多个取值依照预设顺序排列之前，所述方法还包括：

获取所有样本数据中所述变量的取值；

若存在目标样本数据的所述变量的取值缺失，则将所述目标样本数据的所述变量设置为一个小于或者等于预设负数阈值的取值；

若不存在目标样本数据的所述变量的取值缺失，则触发执行所述将变量对应的多个取值依照预设顺序排列的步骤。

8.一种变量分组装置，其特征在于，所述装置包括：

索引模块，用于将变量对应的多个取值依照预设顺序排列，并根据每个取值的排列顺序创建所述每个取值对应的索引；

划分模块，用于依照预设划分规则将第一索引至第n索引之间的索引区域划分为至少一种区域组，每种区域组表征了对所述索引区域的一种划分方式，所述每种区域组包括至少两个区域，所述第一索引对应取值的排列顺序为1，所述第n索引对应取值的排列顺序为n，所述n为大于或者等于1的整数；

确定模块，用于确定所述变量在所述每种区域组下的皮尔森卡方统计量，并从所述至少一种区域组中确定出皮尔森卡方统计量最大的目标区域组；

分组模块，用于基于所述目标区域组对所述变量进行分组。

9.一种服务器，其特征在于，包括处理器和存储器，所述处理器和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1-7任一项所述的方法。