CN114429178A

CN114429178A - 显著标签生成方法、设备及存储介质

Info

Publication number: CN114429178A
Application number: CN202111679757.4A
Authority: CN
Inventors: 吴杨; 向彪; 赵占胜
Original assignee: Cd Finance Project Management Co ltd
Current assignee: Cd Finance Project Management Co ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-05-03

Abstract

本发明公开了一种显著标签生成方法、设备及存储介质，包括：获取目标业务场景下的样本数据；提取所述样本数据中的多个连续特征值，采用特征分箱聚类模型对多个所述连续特征值进行分箱处理，得到多个所述连续特征值对应的最优分箱策略，以及，所述连续特征值在最优分箱策略下分箱得到的各个标签客群的重要度排序结果；根据所述重要度排序结果提取显著标签。本发明通过特征分箱聚类模型，对连续特征值进行迭代分箱操作，得到连续特征值的最优分箱策略，同时客观量化分箱得到的标签客群的重要程度，提取显著标签，能够为风控策略的生成提供依据，提高风控的效率与准确性。

Description

显著标签生成方法、设备及存储介质

技术领域

本发明属于风险识别与监测控制技术领域，具体涉及一种显著标签生成方法、设备及存储介质。

背景技术

随着信息技术和互联网技术的快速发展，在线业务得到了快速的发展和广泛的应用，如支付业务、注册业务、营销业务、信用贷等。但是，随着在线业务的快速发展，经常会出现一些不法分子利用各种手段在在线业务中执行欺诈行为。因此，如何提高在线业务的安全性、对在线业务的风险进行控制得到了越来越多的关注和重视。在这种背景下，在线业务(业务场景)对应的风控模型(风险模型)也随之产生了。

风控领域的模型在上线后，往往需要等待一个完整的观察期后，才能对模型的特征进行重要度排序，因为只有经过完整的观察期，线上数据才会产生对应的数据标签，此时才可以基于线上数据与数据标签进行建模，输出线上数据的特征重要度分析结果，从而进行风险控制。此外，风控领域的分析对象一般是特征，而不是标签客群。如上月贷款余额这个特征，风控领域一般会将这个特征按某种方法划分为几个标签客群进行分析、对比，如将上月贷款余额这个特征划分为5000以下、5000-10000、10000-20000、20000以上四个标签，按现有技术，此时就算完成了特征的重要度排序，也无法知道标签的重要度，这是风控领域实现数据分析自动化的一个重要瓶颈。

发明内容

鉴于以上所述现有技术的不足，本发明的目的在于：提供一种显著标签生成方法、设备及存储介质，该方法基于特征分箱聚类模型，对样本中的多个连续特征值进行分箱处理，利用聚类分析量化目标业务场景对应的标签客群的重要程度，据此提取出其中的显著性标签客群，实现准确的风险监测与控制。

为实现上述发明目的，本发明提供以下技术方案：

一种显著标签生成方法，所述方法包括：

获取目标业务场景下的样本数据；

提取所述样本数据中的多个连续特征值，

采用特征分箱聚类模型对多个所述连续特征值进行分箱处理，得到多个所述连续特征值对应的最优分箱策略，以及，所述连续特征值在最优分箱策略下分箱得到的各个标签客群的重要度排序结果；

根据所述重要度排序结果提取显著标签。

根据一种具体的实施方式，上述风险标签处理方法中，所述采用特征分箱聚类模型对多个所述连续特征值进行分箱处理，包括：

遍历每个所述连续特征值，针对每个所述连续特征值，进行N次模拟分箱，在每次模拟分箱中，计算当前模拟分箱策略对应的差异分布值；根据N次模拟分箱的差异分布值确定该连续特征值对应的最优分箱策略，以及，该连续特征值在所述最优分箱策略下分箱得到的各个标签客群的重要度排序结果；

遍历结束后，得到每个所述连续特征值对应的最优分箱策略，以及，标签客群的重要度排序结果。

根据一种具体的实施方式，上述风险标签处理方法中，在提取所述样本数据中的多个连续特征值之前，

所述方法还包括：获取目标业务场景对应的风险模型，利用所述风险模型对所述样本数据进行预测，得到第一预测结果；

所述在每次模拟分箱中，计算当前模拟分箱策略对应的差异分布值，包括：

假设当前模拟分箱策略将连续特征值A分为M个标签客群，对M个所述所述标签客群分别进行掩码处理，得到连续特征值A对应的M个掩码特征值；利用M个掩码特征值分别替换所述样本数据中的连续特征值A，得到M个掩码样本；

利用所述风险模型对M个掩码样本进行预测，得到M个掩码预测结果，分别计算M个所述掩码预测结果与所述第一预测结果的差异值，根据M个所述掩码预测结果的差异值生成所述当前模拟分箱策略对应的差异分布值。

根据一种具体的实施方式，上述风险标签处理方法中，通过以下方法确定该连续特征值在所述最优分箱策略下分箱得到的各个标签客群的重要度排序结果，包括：

获取该连续特征值在所述最优分箱策略下分箱得到的各个标签客群的差异值，基于各个标签客群的差异值，进行由小到大的排序，得到各个标签客群的重要度排序结果。

根据一种具体的实施方式，上述风险标签处理方法中，基于K-means算法建立所述特征分箱聚类模型。

根据一种具体的实施方式，上述风险标签处理方法中，所述获取目标业务场景下的样本数据，包括：

对目标业务场景下的用户进行用户画像，基于原始用户画像数据生产所述目标业务场景下的样本数据。

根据一种具体的实施方式，上述风险标签处理方法中，所述目标业务场景，包括：违规违禁监测业务场景、投资理财金融业务场景、借贷业务场景、保险业务场景。

本发明的另一方面，提供一种显著标签生成装置，所述装置包括：

获取模块，用于获取目标业务场景下的样本数据；

解析模块，用于提取所述样本数据中的多个连续特征值，

计算模块，用于采用特征分箱聚类模型对多个所述连续特征值进行分箱处理，得到多个所述连续特征值对应的最优分箱策略，以及，所述连续特征值在最优分箱策略下分箱得到的各个标签客群的重要度排序结果；

生成模块，根据所述重要度排序结果提取显著标签。

本发明的另一方面，提供一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述风险标签处理方法，或者，实现上述显著标签生成方法。

本发明的另一方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现上述风险标签处理方法，或者，实现上述显著标签生成方法。

与现有技术相比，本发明的有益效果：

本发明实施例所提供的方法，通过获取目标业务场景下的样本数据；提取所述样本数据中的多个连续特征值，采用特征分箱聚类模型对多个所述连续特征值进行分箱处理，得到多个所述连续特征值对应的最优分箱策略，以及，所述连续特征值在最优分箱策略下分箱得到的各个标签客群的重要度排序结果；根据所述重要度排序结果提取显著标签；据此，本发明通过特征分箱聚类模型，对连续特征值进行迭代分箱操作，得到连续特征值的最优分箱策略，同时客观量化分箱得到的标签客群的重要程度，提取显著标签，能够为风控策略的生成提供依据，提高风控的效率与准确性。

附图说明

图1为本发明实施例的显著标签生成方法示意图；

图2为本发明实施例的特征分箱聚类模型分箱流程示意图。

图3为本发明实施例的显著标签生成装置架构示意图；

图4为本发明实施例的电子设备架构示意图

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

实施例1

请参阅图1，图1是本发明实施例所提供的风险标签处理方法，其包括以下步骤：

S1：获取目标业务场景下的样本数据；

S2：提取所述样本数据中的多个连续特征值；

S3：采用特征分箱聚类模型对多个所述连续特征值进行分箱处理(分箱即将特征分为多个标签客群)，得到多个所述连续特征值对应的最优分箱策略，以及，所述连续特征值在最优分箱策略下分箱得到的各个标签客群的重要度排序结果。

本实施例中，通过特征分箱聚类模型，对连续特征值进行迭代分箱操作，得到连续特征值的最优分箱策略，同时客观量化分箱得到的标签客群的重要程度，提取显著标签，能够为风控策略的生成提供依据，提高风控的效率与准确性。

在一种可能的实现方式中，上述S1中，在本发明较佳的实施例中，业务样本数据主要来源于用户基础画像、用户行为信息、第三方提供的用户信息等；其中用户基础画像，主要包括年龄，性别，学历，婚姻状况，地域等。相应的，目标业务场景包括：违规违禁业务场景、反作弊业务场景、投资理财业务场景以及欺诈业务场景、信用借贷业务场景等。以信用借贷业务场景为例：抓取过去一段时间的用户信贷交易流水、用户基础画像等特征，构造出业务样本数据为：X＝[x1,x2,...,xi]。

在一种可能的实现方式中，标签化的对象一般来说是针对连续值特征，如身高、体重等，对于枚举值特征，如性别、学历等，一般不用作此处理。因此，在S2中，通过过滤枚举值来提取所述样本数据中的多个连续特征值。

可以理解的是，本发明实施例所述的训练样本的特征矩阵中的特征，是指特征矩阵中除标签列之外的某一列数据；对特征进行标签化编码，相应的标签区别于本发明实施例所述的训练样本标签(数据标签也即是样本的label)，标签化编码中的标签，可以是枚举特征的每个具体取值，如性别这个枚举特征有两个标签：男、女。也可以是连续特征，经过分箱后的每个具体部分。例如：风险借贷场景下，用户的上月贷款余额，就是一个特征。对用户的上月贷款余额进行标签分箱后，可以得到四个标签：小于5000、5000-10000、10000-20000、大于20000；据此生成新的特征矩阵X_new。

在一种可能的实现方式中，上述S3中，首先对K-means算法进行改造，将其类簇个数提取为后续训练过程中的超参数，同时改进其内部细节，使其满足此本发明实施例所要求解的显著标签下的输出样式要求，然后基于此改进型K-means算法，进行特征的标签化，使用K-means算法进行特征的标签化时，将K-means算法的类簇个数，设计为超参数，参与后续特征相对重要度排序算法的训练，训练完成后，就能得到最优的类簇个数超参数，而不用人为调整。

在一种可能的实现方式中，上述S3中，所述采用特征分箱聚类模型对多个所述连续特征值进行分箱处理，包括：遍历每个所述连续特征值，针对每个所述连续特征值，进行N次模拟分箱，在每次模拟分箱中，计算当前模拟分箱策略对应的差异分布值；根据N次模拟分箱的差异分布值确定该连续特征值对应的最优分箱策略，以及，该连续特征值在所述最优分箱策略下分箱得到的各个标签客群的重要度排序结果。遍历结束后，得到每个所述连续特征值对应的最优分箱策略，以及，标签客群的重要度排序结果。其中，针对每个所述连续特征值，进行N次模拟分箱，包括：设定最大分箱数N，从分箱1次、分箱2次…到分箱N次，对每个所述连续特征值进行N次模拟分箱。

在一种可能的实现方式中，上述S1中，在获取目标业务场景下的样本数据的同时，获取目标业务场景对应的风险模型，例如，获取到信用贷业务场景下的逻辑回归风险模型model。同时利用获取到的风险模型对样本数据进行预测分析，得到的预测结果，将此结果作为基准结果result_0。使用风险模型对多个样本数据分别进行预测，即可得到多个原始数据样本的预测结果，以此，作为后续每个样本聚类分箱的差异性计算依据。

在一种可能的实现方式中，所述在每次模拟分箱中，计算当前模拟分箱策略对应的差异分布值，包括：

假设当前模拟分箱策略将连续特征值A分为M个标签客群，对M个所述所述标签客群分别进行掩码处理，得到连续特征值A对应的M个掩码特征值；利用M个掩码特征值分别替换所述样本数据中的连续特征值A，得到M个掩码样本；利用所述风险模型对M个掩码样本进行预测，得到M个掩码预测结果，分别计算M个所述掩码预测结果与所述第一预测结果的差异值，根据M个所述掩码预测结果的差异值生成所述当前模拟分箱策略对应的差异分布值。

其中，在当前模拟分箱策略将连续特征值A分为M个标签客群后，A变为：{A₁、A₂…A_m}，此时对M个所述所述标签客群分别进行掩码处理，具体为：对A1进行掩码处理将A变为：{A₂…A_m}、对A₂进行掩码处理将A变为：{A₁、A₃…A_m}、…对A_m进行掩码处理将A变为：{A₁、…A_m-1}；从而得到A对应的M个掩码特征值。进而利用M个掩码特征值分别替换所述样本数据中的连续特征值A，即可得到M个掩码样本。可选地，采用科恩D值函数或者皮尔森系数函数来计算M个掩码样本对应预测结果与所述第一预测结果的差异。

图2示出了本发明实施例所述的特征分箱聚类模型对连续特征进行分箱时的具体流程。在利用特征分箱聚类模型进行分箱时，将每个待分箱特征的类簇个数作为超参数nj，表示第n个特征的最优分箱个数,nj参与后续的相对重要度排序算法,此算法最终会返回最优的分箱个数与最优分箱策略下标签的相对重要度排序：

1、设此时上线模型为model、线上数据的特征矩阵为X＝[x1,x2,...,xi]，i为特征矩阵中的特征个数。

2、当遍历到待分箱特征xi时，遍历不同的分箱数，最大分箱个数为10。

3、当分箱个数为nj时，调用自定义的K-means算法，此K-means算法改进了原始K-means算法的输出，输出形式为：

[[part1_indexs],[part2_indexs],...,[partnj_indexs]]，表示每个分箱段的样本下标。

4、再遍历此时的每一个分箱段，遍历到分箱段xi_part时，将原始特征xi的xi_part部分进行随机掩码处理，生成新的xi，更新X特征矩阵，然后使用model模型进行预测，得到分箱个数nj、处理分箱段为xi_part时的预测结果result_i_index。

5、计算result_i_index与原始数据预测结果result_0之间的统计学差异，差异函数可以用科恩D值函数或者皮尔森系数函数来实现。

6、最后，遍历完每一种分箱可能下每个特征的分箱，若分箱个数为key时，此时所有标签的加权平均差异度最小，则此分箱个数为最优分箱个数。

7、此时的分箱结果既为特征标签化结果，标签的差异度得分即为标签的重要度评价依据，差异度得分越小，标签重要度越高。

上述特征分箱聚类模型的关键部分伪代码如下：

8、对特征矩阵执行完上述算法后，即可得到最优分箱策略和标签的相对重要度排序结果。输出重要度排名前列的标签客群作为显著标签客群供后续分析。

本发明的另一方面，还提供一种风控方法，包括：

S201、采用上述显著标签生成方法计算得到目标业务场景对应的显著标签；

S202、针对每个所述高风险标签设置相应的监控维度，根据每个所述高风险标签的监控维度，生成每个所述高风险标签对应的SQL监控描述，以对所述目标业务场景下的高风险标签进行监控。

在一种可能的实现方式中，上述S202中，所设定的监控维度包括且不限于：标签客群占所有客群比率、标签客群当前周期比上一周期变化率、标签客群的瞬间脉冲量(脉冲量＝标签客群占所有客群比率*(当前标签客群人数/上一标签客群人数)^2，用来衡量此客群的瞬间冲量。通过正则或者抽象语法树的算法，基于监控维度，自动生成一段监控SQL代码，用来对风险客群的相关统计学指标进行持续的监控。两种方法的实现实例如下：

在本实施例中，可以在不需要数据标签的情况下，通过K-means算法自动对所有连续值特征进行分箱，然后将每个特征进行聚类时的类簇个数作为超参数，共同参与标签的相对重要度排序算法建模，排序完成时，每个特征的最佳类簇个数也随之确定。在输出了风险标签后，还可以自动生成用于标签统计学监控的SQL代码，自动完成风险标签的监控部署，实现准确风控。

实施例2

本发明的另一方面，图3示出了本申请实施例提供的显著标签生成装置，包括：

获取模块，用于获取目标业务场景下的样本数据；

解析模块，用于提取所述样本数据中的多个连续特征值，

生成模块，根据所述重要度排序结果提取显著标签。

本发明的另一方面，图4示出了本申请实施例提供的风控系统，包括：上述显著标签生成装置以及、SQL组件生成模块、执行模块。其中，所述SQL组件生成模块用于针对每个所述显著标签设置相应的监控维度，根据每个所述高风险标签的监控维度，生成每个所述显著标签对应的SQL监控描述，执行模块，用于基于生成的SQL监控描述所述目标业务场景下的高风险标签进行监控。

在一种可能的实现方式中，所述SQL组件生成模块被配置为通过正则或者抽象语法树的算法，生成每个所述高风险标签对应的SQL监控描述。

在本发明的另一方面，还提供一种电子设备，如图4所示，该电子设备(可以为终端、服务器、计算机等)包括处理器、网络接口和存储器，所述处理器、所述网络接口和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述显著标签生成方法。

在本发明的实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

本发明的另一方面，还提供一种计算机存储介质，所述计算机存储介质中存储有程序指令，所述程序指令被至少一个处理器执行时，用于实现上述显著标签生成方法。

在一中可能的实现方式中，上述存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

应该理解到，本发明所揭露的系统，可通过其它的方式实现。例如所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，模块之间的通信连接可以是通过一些接口，服务器或单元的间接耦合或通信连接，可以是电性或其它的形式。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种显著标签生成方法，其特征在于，所述方法包括：

获取目标业务场景下的样本数据；

提取所述样本数据中的多个连续特征值；

根据所述重要度排序结果提取显著标签。

2.根据权利要求1所述的风险标签处理方法，其特征在于，所述采用特征分箱聚类模型对多个所述连续特征值进行分箱处理，包括：

3.根据权利要求2所述的风险标签处理方法，其特征在于，在提取所述样本数据中的多个连续特征值之前，

4.根据权利要求3所述的风险标签处理方法，其特征在于，通过以下方法确定该连续特征值在所述最优分箱策略下分箱得到的各个标签客群的重要度排序结果，包括：

5.根据权利要求1-4任一所述的风险标签处理方法，其特征在于，基于K-means算法建立所述特征分箱聚类模型。

6.根据权利要求1-4任一所述的风险标签处理方法，其特征在于，所述获取目标业务场景下的样本数据，包括：

7.根据权利要求6所述的风险标签处理方法，其特征在于，所述目标业务场景，包括：违规违禁监测业务场景、投资理财金融业务场景、借贷业务场景、保险业务场景。

8.一种显著标签生成装置，其特征在于，所述装置包括：

获取模块，用于获取目标业务场景下的样本数据；

解析模块，用于提取所述样本数据中的多个连续特征值；

生成模块，根据所述重要度排序结果提取显著标签。

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7任一所述的显著标签生成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7任一所述的显著标签生成方法。