CN116049644A - 特征筛选和聚类分箱方法、装置、电子设备及存储介质 - Google Patents

特征筛选和聚类分箱方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116049644A
CN116049644A CN202211644968.9A CN202211644968A CN116049644A CN 116049644 A CN116049644 A CN 116049644A CN 202211644968 A CN202211644968 A CN 202211644968A CN 116049644 A CN116049644 A CN 116049644A
Authority
CN
China
Prior art keywords
feature
result
screening
binning
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211644968.9A
Other languages
English (en)
Inventor
倪向洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Welab Information Technology Shenzhen Ltd
Original Assignee
Welab Information Technology Shenzhen Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Welab Information Technology Shenzhen Ltd filed Critical Welab Information Technology Shenzhen Ltd
Priority to CN202211644968.9A priority Critical patent/CN116049644A/zh
Publication of CN116049644A publication Critical patent/CN116049644A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明涉及数据处理领域,揭露一种特征筛选和聚类分箱方法,包括:根据第一评分卡模型的管道模块的数量,将训练集划分成与数量相等的子训练集;在每个管道模块的特征分箱模型对子训练集执行特征分箱处理后,将多个特征区间作为第一分箱结果,逻辑回归模型对各个特征区间进行特征拟合处理后,输出用户特征的特征值及属性值;筛选出大于第一阈值的用户特征生成特征集,计算所有特征集的交集,得到目标特征;从第一分箱结果中筛选出符合目标特征的特征区间作为第二分箱结果,对第二分箱结果进行聚类处理,得到目标分箱结果。本发明还提供一种特征筛选和聚类分箱装置、电子设备及存储介质。本发明实现了评分卡模型能够输出稳定的准确的结果。

Description

特征筛选和聚类分箱方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种特征筛选和聚类分箱方法、装置、电子设备及存储介质。
背景技术
在互联网金融行业中,评分卡模型广泛地应用在信贷和反欺诈等项目。其中,特征的分箱,特征的选择,逻辑回归,这三部分是整个评分卡模型中最核心的环节,通常都是不断的尝试调整三部分的细节,从而得到评分卡模型的最优的输出结果。
然而,在随机抽样准备的训练集数据不一样时,则特征的分箱,特征的选择,逻辑回归这三个阶段的中间结果都可能完全不一样,容易导致最终的评分卡模型的输出结果出现不稳定的问题。
发明内容
鉴于以上内容,有必要提供一种特征筛选和聚类分箱方法,其目的在于解决现有技术中评分卡模型的输出结果出现不稳定的问题。
本发明提供的特征筛选和聚类分箱方法,包括:
根据预先构建的第一评分卡模型的管道模块的数量,将训练集划分成与所述数量相等的子训练集,每个管道模块包括一个特征分箱模型和一个逻辑回归模型,所述训练集包含预设数量的用户样本,每个用户样本包含多个用户特征,每个用户特征对应多个属性;
将各个子训练集分别输入对应的管道模块,在每个管道模块的特征分箱模型对所述子训练集执行特征分箱处理后,将输出结果的多个特征区间作为第一分箱结果,逻辑回归模型对各个所述特征区间进行特征拟合处理后,输出每个用户特征的特征值及各个属性的属性值;
筛选出大于第一阈值的用户特征,生成各个属性对应的特征集,计算所有属性的特征集的交集,得到目标特征;
从所述第一分箱结果中筛选出符合所述目标特征的特征区间作为第二分箱结果,对所述第二分箱结果进行聚类处理,得到目标分箱结果。
可选的,所述将训练集划分成与所述数量相等的子训练集,包括:
根据预设的比例,对输入至所述第一评分卡模型的样本集划分出训练集和测试集;
根据预设的随机算法,将所述训练集划分成与所述第一评分卡模型的管道模块的数量相等的子训练集。
可选的,所述在每个管道模块的特征分箱模型对所述子训练集执行特征分箱处理后,将输出结果的多个特征区间作为第一分箱结果,包括:
获取所述子训练集的特征值的排序结果对所述子训练集的每个特征值进行区间划分,得到多个初始特征区间;
根据预设的分箱算法,对每个初始特征区间对应的初始卡方值进行迭代合并,直至满足设定条件得到所述子训练集的特征区间;
将所有的子训练集的特征区间作为所述第一分箱结果。
可选的,所述逻辑回归模型对各个所述特征区间进行特征拟合处理后,输出每个用户特征的特征值及各个属性的属性值,包括:
提取所述第一分箱结果中共线性小于或等于预设阈值的特征进行证据权重的编码,得到所述子训练集的编码特征;
将所述子训练集的编码特征输入至所述逻辑回归模型进行特征拟合处理,得输出每个用户特征的特征值及各个属性的属性值。
可选的,所述筛选出大于第一阈值的用户特征,生成各个属性对应的特征集,计算所有属性的特征集的交集,得到目标特征,包括:
针对管道模块的每个属性,建立一个字典键值对,键为各个管道模块对应子训练集的每个用户特征,将每个用户特征的特征值设置为0;
从所述字典键值对中筛选出用户特征的特征值大于第二阈值的用户特征,将筛选出的用户特征的值设置为1;
计算每个用户特征的平均值,筛选出大于第一阈值的平均值对应的用户特征,生成所述属性的特征集;
计算所有属性的特征集的交集,得到所述目标特征。
可选的,所述第二分箱结果包括连续型特征的分箱结果、离散型特征的分箱结果,所述对所述第二分箱结果进行聚类处理,得到目标分箱结果,包括:
根据预设的聚类算法,对所述连续型特征的分箱结果进行聚类处理,得到第三分箱结果;
对所述离散型特征的分箱结果进行相似度矩阵计算,得到第四分箱结果;
将所述第三分箱结果和所述第四分箱结果作为所述目标分箱结果。
可选的,所述的特征筛选和聚类分箱方法,还包括:
将所述目标特征、所述目标分箱结果作为第二评分卡模型的第二训练集,以对所述第二评分卡模型进行训练。
为了解决上述问题,本发明还提供一种特征筛选和聚类分箱装置,所述装置包括:
划分模块,用于根据预先构建的第一评分卡模型的管道模块的数量,将训练集划分成与所述数量相等的子训练集,每个管道模块包括一个特征分箱模型和一个逻辑回归模型,所述训练集包含预设数量的用户样本,每个用户样本包含多个用户特征,每个用户特征对应多个属性;
处理模块,用于将各个子训练集分别输入对应的管道模块,在每个管道模块的特征分箱模型对所述子训练集执行特征分箱处理后,将输出结果的多个特征区间作为第一分箱结果,逻辑回归模型对各个所述特征区间进行特征拟合处理后,输出每个用户特征的特征值及各个属性的属性值;
筛选模块,用于筛选出大于第一阈值的用户特征,生成各个属性对应的特征集,计算所有属性的特征集的交集,得到目标特征;
聚类模块,用于从所述第一分箱结果中筛选出符合所述目标特征的特征区间作为第二分箱结果,对所述第二分箱结果进行聚类处理,得到目标分箱结果。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的特征筛选和聚类分箱程序,所述特征筛选和聚类分箱程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述特征筛选和聚类分箱方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有特征筛选和聚类分箱程序,所述特征筛选和聚类分箱程序可被一个或者多个处理器执行,以实现上述特征筛选和聚类分箱方法。
相较现有技术,本发明通过构建一个具有多个管道模块的第一评分卡模型,通过提取各个子训练集在对应的管道模块的特征分箱模型输出的多个特征区间作为第一分箱结果作为第一分箱结果,及提取逻辑回归模型对各个特征区间进行特征拟合处理后,输出每个用户特征的特征值及各个属性的属性值;实现对逻辑回归模型不使用超参数,相对于现有技术中对逻辑回归模型反复调整超参数,更加节省时间和提高训练效率。
筛选出大于第一阈值的用户特征,生成各个属性对应的特征集,计算所有属性的特征集的交集,得到目标特征,从第一分箱结果中筛选出符合目标特征的特征区间作为第二分箱结果,对第二分箱结果进行聚类处理,得到目标分箱结果;可以针对第二分箱结果的连续型特征的分箱结果、离散型特征的分箱结果,分别进行不同聚类处理,确保得到各个子训练集的最综合的分箱结果,实现评分卡模型能够输出稳定的,准确的结果。
附图说明
图1为本发明一实施例提供的特征筛选和聚类分箱方法的流程示意图;
图2为本发明一实施例提供的特征筛选和聚类分箱装置的模块示意图;
图3为本发明一实施例提供的实现特征筛选和聚类分箱方法的电子设备的结构示意图;
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种特征筛选和聚类分箱方法。参照图1所示,为本发明一实施例提供的特征筛选和聚类分箱方法的流程示意图。该方法由电子设备执行。
S1、根据预先构建的第一评分卡模型的管道模块的数量,将训练集划分成与所述数量相等的子训练集,每个管道模块包括一个特征分箱模型和一个逻辑回归模型,所述训练集包含预设数量的用户样本,每个用户样本包含多个用户特征,每个用户特征对应多个属性;
本实施例中,评分卡模型是常用的金融风控分析模型之一,利用评分卡模型对收集到的客户的样本集(例如,样本集包括用户特征和标签,用户特征包括连续型特征和离散型特征,连续型特征包括用户年龄、收入等,离散型特征包括职业、兴趣等)进行分析,从而决定是否对客户给予授信。
当接收一个训练集时,根据预先构建的第一评分卡模型的管道模块的数量,将该训练集划分成与管道模块的数量一样多的子训练集(例如,管道模块的数量为20,那么划分的子训练集的数量也为20)。
现有技术中评分卡模型通常采用单个管道模块构建,单个管道模块中只包含一个逻辑回归模型,因为逻辑回归模型的解释性极其的强,能结合业务给出风险的分数;现有技术为了防止过拟合,尝试对训练集做抽样,一旦训练集的数据有变化,特征分箱的结果有变化,特征的选择会有改动,紧接着逻辑回归模型的结果也会有差异。
本发明参考了随机森林的思想,使用多个树模型,针对不同的抽样出来的子训练集进行训练,最终通过少数服从多数的这种方法来投票做最终的预测。这种思路的好处是,抽样出来的子训练集有好有坏,绝大部分是质量相对来说比较高的数据集,从而使得训练出来的绝大部分的树模型是正确的学习了特征和标签之前的规律,最终再通过投票的方式,合理有效的降低噪音或者异常数据的影响。
本发明将随机森林的思想和交叉验证的思想,迁移到评分卡模型的逻辑回归上,但是其用法不是在预测上,而是在稳定特征的选择,以及确定特征的分箱上,这是本发明重要的创新构思之一。
训练集包含预设数量(例如,50000份)的用户样本,每个用户样本包含多个(例如,100个)用户特征,每个用户特征对应多个属性。属性是逻辑回归模型对每个特征处理时,对每个特征的重要系数的记录值,在本实施例中,对每个用户特征对应多个属性包括5个属性,如表1:
Figure BDA0004008734160000061
在表1的每个条件的数值可以根据实际场景来调整的,在其它实施例中,对每个用户特征对应多个属性的数量并不作限定。
在一个实施例中,所述将训练集划分成与所述数量相等的子训练集,包括:
根据预设的比例,对输入至所述第一评分卡模型的样本集划分出训练集和测试集;
根据预设的随机算法,将所述训练集划分成与所述第一评分卡模型的管道模块的数量相等的子训练集。
预设的随机算法包括但不限于蒙特卡洛(Monte Carlo)算法、拉斯维加斯(LasVegas)算法和舍伍德(Sherwood)算法。
当第一评分卡模型接收到一个样本集后,对该样本集按预设的比例(9:1)划分成训练集和测试集,根据随机算法、第一评分卡模型的管道模块的数量,对该训练集划分成与管道模块的数量相等的子训练集。
从而确保每个管道模块的处理数据不同,和每个管道模块处理结果也不同,更加符合实现业务场景的需求。
在另一个实施例中,每个管道模块包括一个特征分箱模型、一个特征筛选模型和一个逻辑回归模型。
特征分箱模型,用于对用户特征(例如,子训练集包含的离散型特征与连续型特征)进行分箱处理;例如,根据预设的分箱算法,分别对离散型特征与连续型特征进行特征区间划分,得到两种类型的分箱结果(离散型特征的分箱结果与连续型特征的分箱结果)。
特征筛选模型,用于对从分箱后的特征中删除共线性(例如,共线性是指两个用户特征之间存在高度相关关系)较大的特征;特征筛选模型,可以为逐步回归模型(StepwiseRegression),逐步回归模型是一种线性回归模型自变量选择方法,其基本思想是遍历所有特征的最优组合,以保证最终模型的特征组合为最优。在其它实施例中,特征筛选模型也可以采用其它模型。
逻辑回归模型,可以为二元分类以及多分类任务的分类模型;逻辑回归模型对分箱后保留的共线性较小的特征进行拟合处理,得到拟合后的用户特征的特征值及各个属性的属性值作为输出结果。
每个管道模块依次由特征分箱模型、特征筛选模型、逻辑回归模型构建而成,在第一评分卡模型的管道模块的数量可以根据实际场景来设定的,例如,管道模块的数量越多,得到的输出结果越准确,对于具体的数量并不作限定。对于第一评分卡模型的其它处理环节(例如,数据导入、数据清洗等)为现有技术,在此不再赘述。
本发明基于随机森林的思想,采用多个管道模块的设计构思,解决现有技术中只采用单个管道模块存在的问题,例如,在现有技术中,每次输入的训练数据不一样时,对于单个管道模块来说,特征的分箱,特征的选择,逻辑回归这三个阶段的输出结果都可能完全不一样,容易导致评分卡模型的最终输出结果不稳定的问题。
而本发明采用多个管道模块的方法,即使在略微变动的数据集下,该方法可以有效的给出一个综合的特征重要性,以及综合的特征的分箱,相对来说提供更加稳定的最终输出结果。
S2、将各个子训练集分别输入对应的管道模块,在每个管道模块的特征分箱模型对所述子训练集执行特征分箱处理后,将输出结果的多个特征区间作为第一分箱结果,逻辑回归模型对各个所述特征区间进行特征拟合处理后,输出每个用户特征的特征值及各个属性的属性值;
在一个实施例中,所述在每个管道模块的特征分箱模型对所述子训练集执行特征分箱处理后,将输出结果的多个特征区间作为第一分箱结果,包括:
获取所述子训练集的特征值的排序结果对所述子训练集的每个特征值进行区间划分,得到多个初始特征区间;
根据预设的分箱算法,对每个初始特征区间对应的初始卡方值进行迭代合并,直至满足设定条件得到所述子训练集的特征区间;
将所有的子训练集的特征区间作为所述第一分箱结果。
预设的分箱算法包括但不限于有监督的卡方(Chi-merge)分箱算法,卡方分箱是依赖于卡方检验的分箱方法,在统计指标上选择卡方统计量(Chi-Square)进行判别,通过判断相邻的两个区间是否有分布差异,基于卡方统计量的结果进行自下而上的合并,直到满足分箱的限制条件为止。在其它实施例中,也可以采用其它分箱算法(例如,决策树(decision tree)分箱、best ks分箱等),在此不作限定。
将各个子训练集输入对应的管道模块的特征分箱模型中进行处理,在各个特征分箱模型获取对应的子训练集的特征值后,对特征值按照从低到高进行排序,得到特征值排序结果,根据特征值排序结果对特征值进行区间划分,得到多个特征区间,计算每个特征区间对应的初始卡方值并保存在预设哈希列表中;
通过初始双向链表连通相邻的特征区间,通过哈希列表中的预设键值对每个特征区间进行标记,得到每个特征区间对应的位置标签;
从哈希列表中查询最小卡方值的位置标签对应的当前节点,对当前节点中的节点内容和当前节点的后一个节点中的节点内容进行节点内容合并,以得到合并后的节点,将后一个节点删除,并对当前节点的前一个节点的卡方值进行更新,得到当前双向链表,直到满足设定条件,得到子训练集的特征区间,将所有的子训练集的特征区间作为第一分箱结果。
通过双向链表能有效地保存每次操作的记录,在删除节点后,在可能存在相关处理结果不能达到预期的前提下,可以进行初始双向链表的恢复,进而能有效地避免重新分箱而导致时间浪费的问题。
在一个实施例中,所述逻辑回归模型对各个所述特征区间进行特征拟合处理后,输出每个用户特征的特征值及各个属性的属性值,包括:
提取所述第一分箱结果中共线性小于或等于预设阈值的特征进行证据权重的编码,得到所述子训练集的编码特征;
将所述子训练集的编码特征输入至所述逻辑回归模型进行特征拟合处理,得输出每个用户特征的特征值及各个属性的属性值。
在特征筛选模型对第一分箱结果的处理过程中,通过删除第一分箱结果的相似性高度相关的共线性特征,保留小于或等于预设阈值(例如,预设阈值为0.5)的特征进行证据权重的编码,得到各个子训练集的编码特征;证据权重的编码是指WOE(Weight ofEvidence)编码,也称作自变量的一种编码。
通过各个子训练集的编码特征输入至对应的管道模块的逻辑回归模型进行特征拟合,得到每个用户特征的特征值及各个属性的属性值,实现对逻辑回归模型不使用超参数,相对于现有技术中在逻辑回归模型阶段中需要反复调整超参数,更加节省时间和提高训练效率。
S3、筛选出大于第一阈值的用户特征,生成各个属性对应的特征集,计算所有属性的特征集的交集,得到目标特征;
具体的,所述步骤S3包括:
针对管道模块的每个属性,建立一个字典键值对,键为各个管道模块对应子训练集的每个用户特征,将每个用户特征的特征值设置为0;
从所述字典键值对中筛选出用户特征的特征值大于第二阈值的用户特征,将筛选出的用户特征的值设置为1;
计算每个用户特征的平均值,筛选出大于第一阈值的平均值对应的用户特征,生成所述属性的特征集;
计算所有属性的特征集的交集,得到所述目标特征。
字典键值对,用于表示同一个属性下各个子训练集的所有用户特征的集合<name,value>。
Figure BDA0004008734160000091
表2
下面结合表2举例说明,如何得到目标特征。
例如,针对PSI属性生成各个子训练集与各个用户特征的字典键值对(即图2的PSI的用户特征集合),字典键值对的列键为各个用户特征(例如,用户特征1、用户特征2、、、用户特征P),字典键值对的行键为各个子训练集的数字编号(数字编号是对各个子训练集进行统一管理的编号,例如子训练集1、子训练集2、、、子训练集N),将每个用户特征的特征值在字典中暂时设置为0;
在PSI属性的字典键值对中筛选出用户特征的特征值大于第二阈值(例如,第二阈值为0.1)的用户特征,将这些大于第二阈值的用户特征的特征值从0变为1;
将PSI属性的字典键值对中每个用户特征对应一列的所有值进行求和,得到每个用户特的特征值的总和,将总和除以子训练集的数量,得到每个用户特征的平均值,从所有的平均值中选取出大于预设的第一阈值(例如,第一阈值为0.5)的用户特征作为PSI属性的特征集。通过求各个用户特征的平均值,可以从大量的不确定的用户特征中将优秀、稳定的用户特征快速筛选出来,提高特征筛选的准确率。
其它的属性(例如,coef,Pvalue,VIF,Std)参照生成PSI属性的特征集的方法,得到各自属性的特征集。对所有属性的特征集进行交集计算,选取出各个特征集中相同的用户特征作为目标特征。
例如,PSI属性的特征集为【A、B、C、D】,coef属性的特征集为【A、B、C、D、E、H】,Pvalue属性的特征集为【B、C、D、E、H、K】,VIF属性的特征集为【B、C、D、E】,Std属性的特征集为【B、C、D】,则PSI、coef、Pvalue,VIF,Std属性交集出来的目标特征为【B、C、D】。
通过将各个属性的特征集进行交集,得到稳定性最强且符合所有属性值的用户特征,可以解决现有技术中无论数据集怎样变化,这些稳定性最强的用户特征总是很大概率能被模型选中,是确保第一评分卡模型能输出稳定的结果的重要步骤。
S4、从所述第一分箱结果中筛选出符合所述目标特征的特征区间作为第二分箱结果,对所述第二分箱结果进行聚类处理,得到目标分箱结果。
例如,第一分箱结果的数量为200个分箱且包含有100个特征,目标特征只包含5个特征,那么从第一分箱结果中选取出符合这5个特征的特征区间的分箱作为第二分箱结果,对第二分箱结果进行聚类处理,得到目标分箱结果。
通过目标特征筛选出第二分箱结果,可以避免计算机程序对大量的第一分箱结果的特征进行处理,而只对少量的具有优秀特征的第二分箱结果进行处理,有效地提高计算机程序的处理效率,节省系统资源。
在一个实施例中,所述第二分箱结果包括连续型特征的分箱结果、离散型特征的分箱结果,所述对所述第二分箱结果进行聚类处理,得到目标分箱结果,包括:
根据预设的聚类算法,对所述连续型特征的分箱结果进行聚类处理,得到第三分箱结果;
对所述离散型特征的分箱结果进行相似度矩阵计算,得到第四分箱结果;
将所述第三分箱结果和所述第四分箱结果作为所述目标分箱结果。
在一个实施例中,所述对所述连续型特征的分箱结果进行聚类处理,得到第三分箱结果,包括:
读取每个目标特征对应的连续型特征的分箱结果按照从低到高的顺序进行排序,得到排序结果;
从排序结果中选取预设数量排序靠前的用户特征作为聚类类别个数进行聚类迭代,得到每个簇的质心值,将每个所述簇的质心值作为所述第三分箱结果。
Figure BDA0004008734160000111
表3
下面结合表3举例说明,如何得到第三分箱结果:
预设的聚类算法包括但不限于Kmeans算法;读取每个目标特征对应的连续型特征的分箱结果(数组)进行拼接和合并(例如,对拼接结果内重复的数据合并),再按照数值从低到高的顺序进行排序,得到排序结果;
通过Kmeans算法的极大似然估计的方法(MLE),从排序结果中自动选取最优的(排名先前)聚类类别个数出来,取出Kmeans算法中每一个簇的聚类中心进行迭代,直至每个聚类中心不再变化,得到最终的质心值,这些质心值就是综合出来的分箱的边界。根据这些质心值,确定下来每一个连续型特征的分箱。
通过聚类算法对连续型特征的分箱结果进行聚类处理,可以将不同分箱的最优的聚类类别划分出来,根据最优的聚类类别确定出一个综合的分箱的边界,提高了分箱的准确率。
在一个实施例中,所述对所述离散型特征的分箱结果进行相似度矩阵计算,得到第四分箱结果,包括:
针对每个子训练集对应的离散型特征的分箱结果,生成n×n的矩阵,将每个用户特征的特征值设置为0;
判断所述矩阵的行索引特征和列索引特征是否属于同一分箱结果的同一分组内,若是,则将所述行索引特征和列索引特征的对角线的特征值设置为1;
计算所有矩阵的每个用户特征的平均值生成一个注意力矩阵,根据预设的聚类算法,对所述注意力矩阵的平均值进行聚类处理,得到所述第四分箱结果。
Figure BDA0004008734160000121
表4
下面结合表4举例说明,如何得到第四分箱结果:
例如,选取子训练集1对应的离散型特征的第二分箱结果是一个职业的分箱,该职业的分箱包含有3个组:[牙医,法医,外科医生],[民警,刑警,警犬],[宠物店长,兽医];这个分箱的离散型特征一共有8个值(例如,一个职业为一个值),将这8个值生成一个8×8的矩阵,分别将这8个值(职业)依次作为所述矩阵的数组表的每行的键、每列的键,将矩阵所有的值设置为0;
判断矩阵的每行索引特征和每列索引特征是否相似,例如,特征B牙医和特征C法医,这两个特征在[牙医,法医,外科医生]这个组中,则判断特征B或特征C的行索引特征和列索引特征是属于同一个组内,将矩阵的特征B牙医和特征C法医对应的对角线位置的0值改为1;
比如特征B牙医和特征F刑警,这两个特征不在[牙医,法医,外科医生]这个组中,则判断特征B或特征F的行索引特征和列索引特征不是属于同一个组内,在矩阵的数组表中特征B牙医和特征F刑警对应的对角线的0值保持不变。
职业的分箱内所有离散型特征参照上述矩阵的每行索引特征和每列索引特征是否相似的判断方法,得到子训练集1更新后的矩阵。其它子训练集也参照子训练集1生成更新后的矩阵的方法,得到各自的子训练集更新后的矩阵。
计算所有子训练集更新后的矩阵的平均值生成一个注意力矩阵,根据预设的聚类算法,对注意力矩阵的平均值进行聚类处理,得到第四分箱结果。
离散型特征本身不是连续的值,现有技术中对离散型特征的融合方式非常的困难,本发明对离散型特征的分箱结果进行相似度矩阵计算的构思,借鉴了transformers深度学习模型中的attention矩阵的思路,再结合聚类的方法巧妙的做分箱的融合,从而有效地克服了离散型特征整合困难的问题。
在一个实施例中,所述的特征筛选和聚类分箱方法,还包括:
将所述目标特征、所述目标分箱结果作为第二评分卡模型的第二训练集,以对所述第二评分卡模型进行训练。
第二评分卡模型可以是单个管道模块的评分卡模型;将第一评分卡模型得到目标特征、目标分箱结果,输入第二评分卡模型进行训练,得到第二评分卡模型的输出结果,由于第一评分卡模型的目标特征是训练集中稳定性最强的特征,目标分箱结果又是训练集中最综合的分箱结果,所以第二评分卡模型的输出结果是十分稳定的。
如图2所示,为本发明一实施例提供的特征筛选和聚类分箱装置的模块示意图。
本发明所述特征筛选和聚类分箱装置100可以安装于电子设备中。根据实现的功能,所述特征筛选和聚类分箱装置100可以包括划分模块110、处理模块120、筛选模块130及聚类模块140。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
划分模块110,用于根据预先构建的第一评分卡模型的管道模块的数量,将训练集划分成与所述数量相等的子训练集,每个管道模块包括一个特征分箱模型和一个逻辑回归模型,所述训练集包含预设数量的用户样本,每个用户样本包含多个用户特征,每个用户特征对应多个属性;
处理模块120,用于将各个子训练集分别输入对应的管道模块,在每个管道模块的特征分箱模型对所述子训练集执行特征分箱处理后,将输出结果的多个特征区间作为第一分箱结果,逻辑回归模型对各个所述特征区间进行特征拟合处理后,输出每个用户特征的特征值及各个属性的属性值;
筛选模块130,用于筛选出大于第一阈值的用户特征,生成各个属性对应的特征集,计算所有属性的特征集的交集,得到目标特征;
聚类模块140,用于从所述第一分箱结果中筛选出符合所述目标特征的特征区间作为第二分箱结果,对所述第二分箱结果进行聚类处理,得到目标分箱结果。
在一个实施例中,所述将训练集划分成与所述数量相等的子训练集,包括:
根据预设的比例,对输入至所述第一评分卡模型的样本集划分出训练集和测试集;
根据预设的随机算法,将所述训练集划分成与所述第一评分卡模型的管道模块的数量相等的子训练集。
在一个实施例中,所述在每个管道模块的特征分箱模型对所述子训练集执行特征分箱处理后,将输出结果的多个特征区间作为第一分箱结果,包括:
获取所述子训练集的特征值的排序结果对所述子训练集的每个特征值进行区间划分,得到多个初始特征区间;
根据预设的分箱算法,对每个初始特征区间对应的初始卡方值进行迭代合并,直至满足设定条件得到所述子训练集的特征区间;
将所有的子训练集的特征区间作为所述第一分箱结果。
在一个实施例中,所述逻辑回归模型对各个所述特征区间进行特征拟合处理后,输出每个用户特征的特征值及各个属性的属性值,包括:
提取所述第一分箱结果中共线性小于或等于预设阈值的特征进行证据权重的编码,得到所述子训练集的编码特征;
将所述子训练集的编码特征输入至所述逻辑回归模型进行特征拟合处理,得输出每个用户特征的特征值及各个属性的属性值。
在一个实施例中,所述筛选出大于第一阈值的用户特征,生成各个属性对应的特征集,计算所有属性的特征集的交集,得到目标特征,包括:
针对管道模块的每个属性,建立一个字典键值对,键为各个管道模块对应子训练集的每个用户特征,将每个用户特征的特征值设置为0;
从所述字典键值对中筛选出用户特征的特征值大于第二阈值的用户特征,将筛选出的用户特征的值设置为1;
计算每个用户特征的平均值,筛选出大于第一阈值的平均值对应的用户特征,生成所述属性的特征集;
计算所有属性的特征集的交集,得到所述目标特征。
在一个实施例中,所述第二分箱结果包括连续型特征的分箱结果、离散型特征的分箱结果,所述对所述第二分箱结果进行聚类处理,得到目标分箱结果,包括:
根据预设的聚类算法,对所述连续型特征的分箱结果进行聚类处理,得到第三分箱结果;
对所述离散型特征的分箱结果进行相似度矩阵计算,得到第四分箱结果;
将所述第三分箱结果和所述第四分箱结果作为所述目标分箱结果。
在一个实施例中,所述的特征筛选和聚类分箱方法,还包括:
将所述目标特征、所述目标分箱结果作为第二评分卡模型的第二训练集,以对所述第二评分卡模型进行训练。
如图3所示,为本发明一实施例提供的实现特征筛选和聚类分箱方法的电子设备的结构示意图。
在本实施例中,电子设备1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有特征筛选和聚类分箱程序10,所述特征筛选和聚类分箱程序10可被所述处理器12执行。图3仅示出了具有组件11-13以及特征筛选和聚类分箱程序10的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作系统和各类应用软件,例如存储本发明一实施例中的特征筛选和聚类分箱程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行特征筛选和聚类分箱程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与终端(图中未画出)之间建立通信连接。
可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的特征筛选和聚类分箱程序10是多个指令的组合,在所述处理器12中运行时,可以实现:
根据预先构建的第一评分卡模型的管道模块的数量,将训练集划分成与所述数量相等的子训练集,每个管道模块包括一个特征分箱模型和一个逻辑回归模型,所述训练集包含预设数量的用户样本,每个用户样本包含多个用户特征,每个用户特征对应多个属性;
将各个子训练集分别输入对应的管道模块,在每个管道模块的特征分箱模型对所述子训练集执行特征分箱处理后,将输出结果的多个特征区间作为第一分箱结果,逻辑回归模型对各个所述特征区间进行特征拟合处理后,输出每个用户特征的特征值及各个属性的属性值;
筛选出大于第一阈值的用户特征,生成各个属性对应的特征集,计算所有属性的特征集的交集,得到目标特征;
从所述第一分箱结果中筛选出符合所述目标特征的特征区间作为第二分箱结果,对所述第二分箱结果进行聚类处理,得到目标分箱结果。
具体地,所述处理器12对上述特征筛选和聚类分箱程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是非易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
所述计算机可读存储介质上存储有特征筛选和聚类分箱程序10,所述特征筛选和聚类分箱程序10可被一个或者多个处理器执行,本发明计算机可读存储介质具体实施方式与上述特征筛选和聚类分箱方法各实施例基本相同,在此不作赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种特征筛选和聚类分箱方法,其特征在于,所述方法包括:
根据预先构建的第一评分卡模型的管道模块的数量,将训练集划分成与所述数量相等的子训练集,每个管道模块包括一个特征分箱模型和一个逻辑回归模型,所述训练集包含预设数量的用户样本,每个用户样本包含多个用户特征,每个用户特征对应多个属性;
将各个子训练集分别输入对应的管道模块,在每个管道模块的特征分箱模型对所述子训练集执行特征分箱处理后,将输出结果的多个特征区间作为第一分箱结果,逻辑回归模型对各个所述特征区间进行特征拟合处理后,输出每个用户特征的特征值及各个属性的属性值;
筛选出大于第一阈值的用户特征,生成各个属性对应的特征集,计算所有属性的特征集的交集,得到目标特征;
从所述第一分箱结果中筛选出符合所述目标特征的特征区间作为第二分箱结果,对所述第二分箱结果进行聚类处理,得到目标分箱结果。
2.如权利要求1所述的特征筛选和聚类分箱方法,其特征在于,所述将训练集划分成与所述数量相等的子训练集,包括:
根据预设的比例,对输入至所述第一评分卡模型的样本集划分出训练集和测试集;
根据预设的随机算法,将所述训练集划分成与所述第一评分卡模型的管道模块的数量相等的子训练集。
3.如权利要求1所述的特征筛选和聚类分箱方法,其特征在于,所述在每个管道模块的特征分箱模型对所述子训练集执行特征分箱处理后,将输出结果的多个特征区间作为第一分箱结果,包括:
获取所述子训练集的特征值的排序结果对所述子训练集的每个特征值进行区间划分,得到多个初始特征区间;
根据预设的分箱算法,对每个初始特征区间对应的初始卡方值进行迭代合并,直至满足设定条件得到所述子训练集的特征区间;
将所有的子训练集的特征区间作为所述第一分箱结果。
4.如权利要求1所述的特征筛选和聚类分箱方法,其特征在于,所述逻辑回归模型对各个所述特征区间进行特征拟合处理后,输出每个用户特征的特征值及各个属性的属性值,包括:
提取所述第一分箱结果中共线性小于或等于预设阈值的特征进行证据权重的编码,得到所述子训练集的编码特征;
将所述子训练集的编码特征输入至所述逻辑回归模型进行特征拟合处理,得输出每个用户特征的特征值及各个属性的属性值。
5.如权利要求1所述的特征筛选和聚类分箱方法,其特征在于,所述筛选出大于第一阈值的用户特征,生成各个属性对应的特征集,计算所有属性的特征集的交集,得到目标特征,包括:
针对管道模块的每个属性,建立一个字典键值对,键为各个管道模块对应子训练集的每个用户特征,将每个用户特征的特征值设置为0;
从所述字典键值对中筛选出用户特征的特征值大于第二阈值的用户特征,将筛选出的用户特征的值设置为1;
计算每个用户特征的平均值,筛选出大于第一阈值的平均值对应的用户特征,生成所述属性的特征集;
计算所有属性的特征集的交集,得到所述目标特征。
6.如权利要求1所述的特征筛选和聚类分箱方法,其特征在于,所述第二分箱结果包括连续型特征的分箱结果、离散型特征的分箱结果,所述对所述第二分箱结果进行聚类处理,得到目标分箱结果,包括:
根据预设的聚类算法,对所述连续型特征的分箱结果进行聚类处理,得到第三分箱结果;
对所述离散型特征的分箱结果进行相似度矩阵计算,得到第四分箱结果;
将所述第三分箱结果和所述第四分箱结果作为所述目标分箱结果。
7.如权利要求1所述的特征筛选和聚类分箱方法,其特征在于,该方法还包括:
将所述目标特征、所述目标分箱结果作为第二评分卡模型的第二训练集,以对所述第二评分卡模型进行训练。
8.一种特征筛选和聚类分箱装置,其特征在于,所述装置包括:
划分模块,用于根据预先构建的第一评分卡模型的管道模块的数量,将训练集划分成与所述数量相等的子训练集,每个管道模块包括一个特征分箱模型和一个逻辑回归模型,所述训练集包含预设数量的用户样本,每个用户样本包含多个用户特征,每个用户特征对应多个属性;
处理模块,用于将各个子训练集分别输入对应的管道模块,在每个管道模块的特征分箱模型对所述子训练集执行特征分箱处理后,将输出结果的多个特征区间作为第一分箱结果,逻辑回归模型对各个所述特征区间进行特征拟合处理后,输出每个用户特征的特征值及各个属性的属性值;
筛选模块,用于筛选出大于第一阈值的用户特征,生成各个属性对应的特征集,计算所有属性的特征集的交集,得到目标特征;
聚类模块,用于从所述第一分箱结果中筛选出符合所述目标特征的特征区间作为第二分箱结果,对所述第二分箱结果进行聚类处理,得到目标分箱结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的特征筛选和聚类分箱程序,所述特征筛选和聚类分箱程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的特征筛选和聚类分箱方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有特征筛选和聚类分箱程序,所述特征筛选和聚类分箱程序可被一个或者多个处理器执行,以实现如权利要求1至7任一项所述的特征筛选和聚类分箱方法。
CN202211644968.9A 2022-12-20 2022-12-20 特征筛选和聚类分箱方法、装置、电子设备及存储介质 Pending CN116049644A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211644968.9A CN116049644A (zh) 2022-12-20 2022-12-20 特征筛选和聚类分箱方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211644968.9A CN116049644A (zh) 2022-12-20 2022-12-20 特征筛选和聚类分箱方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116049644A true CN116049644A (zh) 2023-05-02

Family

ID=86130401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211644968.9A Pending CN116049644A (zh) 2022-12-20 2022-12-20 特征筛选和聚类分箱方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116049644A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116244650A (zh) * 2023-05-12 2023-06-09 北京富算科技有限公司 特征分箱方法、装置、电子设备和计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116244650A (zh) * 2023-05-12 2023-06-09 北京富算科技有限公司 特征分箱方法、装置、电子设备和计算机可读存储介质
CN116244650B (zh) * 2023-05-12 2023-10-03 北京富算科技有限公司 特征分箱方法、装置、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN111782644A (zh) 一种基于区块链技术的科研数据管理控制系统及方法
CN113505936A (zh) 项目审批结果的预测方法、装置、设备及存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
CN111815432A (zh) 金融服务风险预测方法及装置
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
CN112686301A (zh) 基于交叉验证的数据标注方法及相关设备
CN112508456A (zh) 食品安全风险评估方法、系统、计算机设备及存储介质
CN116049644A (zh) 特征筛选和聚类分箱方法、装置、电子设备及存储介质
Bateman et al. The The Supervised Learning Workshop: A New, Interactive Approach to Understanding Supervised Learning Algorithms
CN115018588A (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN113658002B (zh) 基于决策树的交易结果生成方法、装置、电子设备及介质
CN113268485B (zh) 数据表关联分析方法、装置、设备及存储介质
CN117155771B (zh) 一种基于工业物联网的设备集群故障溯源方法及装置
CN113268665A (zh) 基于随机森林的信息推荐方法、装置、设备及存储介质
CN114153839A (zh) 多源异构数据的集成方法、装置、设备及存储介质
US10956129B1 (en) Using genetic programming to create generic building blocks
CN114495137B (zh) 票据异常检测模型生成方法与票据异常检测方法
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN113705201B (zh) 基于文本的事件概率预测评估算法、电子设备及存储介质
CN114444721A (zh) 模型训练方法、装置、电子设备及计算机存储介质
CN114170000A (zh) 信用卡用户风险类别识别方法、装置、计算机设备和介质
CN112529319A (zh) 基于多维特征的评分方法、装置、计算机设备及存储介质
CN112182218A (zh) 文本数据的分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination