CN111583017A

CN111583017A - 基于客群定位的风险策略生成方法、装置及电子设备

Info

Publication number: CN111583017A
Application number: CN202010275248.4A
Authority: CN
Inventors: 郑彦; 贾光华; 秦佳豪; 何锲; 曲喜超; 吕文怡
Original assignee: Shanghai Qiyu Information Technology Co ltd
Current assignee: Shanghai Qiyu Information Technology Co ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2020-08-25

Abstract

本发明公开了一种基于客群定位的风险策略生成方法、装置及电子设备，所述方法包括：根据用户属性对用户进行客群定位分类；分别从各个客群定位分类中选择训练集和测试集，并对所述训练集和所述测试集中的变量进行处理；创建并通过变量处理后的各个训练集训练所述风险策略模型，计算所述风险策略模型的第一KS曲线；基于测试集验证所述风险策略模型的第二KS曲线；当所述第一KS曲线和所述第二KS曲线满足预设条件时，采用所述风险策略模型生成用户风险策略。本发明本发明基于客群定位建立风险策略模型，让风险策略模型在每个客群中选择不同的评估方法，能够有效的提高模型的预测力，同时对客群的风险识别度会更加的精准。

Description

基于客群定位的风险策略生成方法、装置及电子设备

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种基于客群定位的风险策略生成方法、装置、电子设备及计算机可读介质。

背景技术

现有征信体系不够完善，出现大部分人群的征信记录不完全，信用资料缺乏的现象，导致无法准确的解决这些人的授信问题。一方面，商业银行难以覆盖到这类人群并为其提供金融服务；另一方面，金融科技的快速发展，加快了普惠金融的步伐。各互联网金融机构、小贷公司通过让用户提交各类材料，现场或者电话交谈来判断用户的资金需求的真实性及偿还能力，这在一定程度上解决了无信用记录的金融服务对象的授信问题。但这种方式中通常采用简单的风险策略，比如查询客户信用记录被查询的次数、性别等通过这些策略来判断和识别客户的金融风险。

但在实际操作中，这种简单的风险策略存在一些弊端和缺陷：1、用户填写资料可能会造假，核实人力成本和难度均较大；2、存在用户户享受到金融服务后将相关财产变卖转移的风险；3、在真实的应用场景中人群也会不稳定带来策略的不稳定性。因此，这种简单的风险策略对风险的预测性和准确性很有限，可能会错过优质客户，接纳低质客户。

发明内容

本发明旨在解决现有风险策略设计简单，对风险的预测性和准确性低的问题。

为了解决上述技术问题，本发明第一方面提出一种基于客群定位的风险策略生成方法，所述方法包括：

根据用户属性对用户进行客群定位分类；

分别从各个客群定位分类中选择训练集和测试集，并对所述训练集和所述测试集中的变量进行处理；

创建并通过变量处理后的各个训练集训练所述风险策略模型，计算所述风险策略模型的第一KS曲线；

基于测试集验证所述风险策略模型的第二KS曲线；

当所述第一KS曲线和所述第二KS曲线满足预设条件时，采用所述风险策略模型生成用户风险策略。

根据本发明一种较佳的实施方式，所述对所述训练集和所述测试集中的变量进行处理包括：

基于变量重要性及变量分布稳定性进行变量筛选。

根据本发明一种较佳的实施方式，所述基于变量重要性及变量分布稳定性进行变量筛选包括：

基于IV法选择所述训练集和所述测试集的自变量中定性变量对因变量影响最显著的第一指标。

根据本发明一种较佳的实施方式，所述基于变量重要性及变量分布稳定性进行变量筛选还包括：

基于Boruta法选择所述训练集和所述测试集的自变量中对因变量影响最显著的第二指标。

根据本发明一种较佳的实施方式，所述对所述训练集和所述测试集中的变量进行处理之后，所述方法还包括：

将所述训练集和所述测试集中的第一指标和所述第二指标生成对应的变量处理后的训练集和测试集。

根据本发明一种较佳的实施方式，所述用户属性包括用户基本信息、用户借款信息、用户存款信息中的至少一种。

根据本发明一种较佳的实施方式，所述风险策略模型为Logistic回归模型或XGB模型。

为了解决上述技术问题，本发明第二方面提供一种基于客群定位的风险策略生成装置，所述装置包括：

分类模块，用于根据用户属性对用户进行客群定位分类；

变量处理模块，用于分别从各个客群定位分类中选择训练集和测试集，并对所述训练集和所述测试集中的变量进行处理；

第一计算模块，用于创建并通过变量处理后的各个训练集训练所述风险策略模型，计算所述风险策略模型的第一KS曲线；

第二计算模块，用于基于测试集验证所述风险策略模型的第二KS曲线；

生成模块，用于当所述第一KS曲线和所述第二KS曲线满足预设条件时，采用所述风险策略模型生成用户风险策略。

根据本发明一种较佳的实施方式，所述变量处理模块具体用于基于变量重要性及变量分布稳定性进行变量筛选。

根据本发明一种较佳的实施方式，所述变量处理模块包括：

第一选择模块，用于基于IV法选择所述训练集和所述测试集的自变量中定性变量对因变量影响最显著的第一指标。

根据本发明一种较佳的实施方式，所述变量处理模块还包括：

第二选择模块，用于基于Boruta法选择所述训练集和所述测试集的自变量中对因变量影响最显著的第二指标。

子生成模块，用于将所述训练集和所述测试集中的第一指标和所述第二指标生成对应的变量处理后的训练集和测试集。

为解决上述技术问题，本发明第三方面提供一种电子设备，包括：

处理器；以及

存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行上述的方法。

为了解决上述技术问题，本发明第四方面提出一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，当所述一个或多个程序被处理器执行时，实现上述方法。

本发明根据用户属性对用户进行客群定位分类；基于客群定位分类进行变量处理，再建立风险策略模型，将区分度最大的变量用于区分客群，一方面可以避免一个变量对整个风险策略模型的贡献性过强，导致风险策略模型的稳定性太差。同时可以让更多“长尾”的变量引入风险策略模型中，提高风险策略模型的预测性。本发明基于客群定位建立风险策略模型，让风险策略模型在每个客群中选择不同的评估方法，能够有效的提高模型的预测力，同时对客群的风险识别度会更加的精准。

附图说明

为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚，下面将参照附图详细描述本发明的具体实施例。但需声明的是，下面描述的附图仅仅是本发明的示例性实施例的附图，对于本领域的技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他实施例的附图。

图1是本发明一种基于客群定位的风险策略生成方法的流程示意图；

图2是本发明中某个用户对不同价格的接受概率图；

图3是本发明中随机抽取的10个用户对不同价格的接受概率图；

图4a是本发明本发明对某一用户描绘的利率敏感度曲线；

图4b本发明在相同动支概率情况下对图4a的建议定价Psug加价后模拟动支概率的变化示意图；

图5是本发明一种基于客群定位的风险策略生成装置的结构框架示意图；

图6是根据本发明的一种电子设备的示例性实施例的结构框图；

图7是本发明一个计算机可读介质实施例的示意图。

具体实施方式

现在将参考附图来更加全面地描述本发明的示例性实施例，虽然各示例性实施例能够以多种具体的方式实施，但不应理解为本发明仅限于在此阐述的实施例。相反，提供这些示例性实施例是为了使本发明的内容更加完整，更加便于将发明构思全面地传达给本领域的技术人员。

在符合本发明的技术构思的前提下，在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/ 步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

请参阅图1，图1是本发明提供的一种基于客群定位的风险策略生成方法的流程图，如图1所示，所述方法包括：

S1、根据用户属性对用户进行客群定位分类；

其中，所述用户属性包括但不限于用户基本信息、用户借款信息、用户存款信息。所述用户基本信息包括：用户身份信息、联系方式、住址信息、征信状况、用户职业等。所述用户借款信息包括用户借款及还款的所有记录。本发明具体可以根据用户属性信息通过分类算法(如贝叶斯分类算法、人工神经网络算法、决策树算法等)对用户进行客群定位分类。

S2、分别从各个客群定位分类中选择训练集和测试集，并对所述训练集和所述测试集中的变量进行处理；

具体的，对于不同的客群定位分类可以选择对应的一个训练集和测试集，这样，对于N各客群定位分类可以得到N个对应的训练集和测试集。

其中，所述对所述训练集和所述测试集中的变量进行处理具体为：基于变量重要性及变量分布稳定性进行变量筛选。变量筛选是模型构建的一个重要方面，是指从模型中删除相关的变量，它有助于排除相关变量、偏见和不必要噪音的限制来建立预测模型。

本发明中，所述变量重要性可以根据对客群定位分类区分度大小来确定，本实施例中，将对客群定位分类区分度大于阈值的变量作为重要性变量，将区分度最大的变量用于区分客群，一方面可以避免一个变量对整个风险策略模型的贡献性过强，导致风险策略模型的稳定性太差。同时可以让更多“长尾”的变量引入风险策略模型，提高风险策略模型的效能。所述变量分布稳定性可以根据变量的箱线图来确定。

所述基于变量重要性及变量分布稳定性进行变量筛选包括：

S21、基于IV法选择所述训练集和所述测试集的自变量中定性变量对因变量影响最显著的第一指标。

其中，IV法的基本思想是当某个说明变量与随机项相关时，选择一个与此说明变量强相关而与相应的随机项又不相关的前定变量作为工具，来达到消除该说明变量与随机项之间的依赖关系的目的。本发明通过IV 法可以选择出N个对应训练集和测试集的自变量中定性变量对因变量影响最显著的变量，称为第一指标。如图2为本发明基于IV法选择自变量中定性变量对因变量影响最显著的指标。

S22、基于Boruta法选择所述训练集和所述测试集的自变量中对因变量影响最显著的第二指标。

Boruta是一种特征选择算法。精确地说，它是随机森林周围的一种包装算法。Boruta遵循所有相关的特征选择方法，它可以捕获结果变量有关的所有的特征。相比之下，大多数传统的特征选择算法都遵循一个最小的优化方法，它们依赖于特征的一个小的子集，会在选择分类上产生最小错误。在对数据集进行随机森林模型的拟合时，可以递归地处理每个迭代过程中表现不佳的特征。该方法能够最大限度地减少随机森林模型的误差，这将最终形成一个最小化最优特征子集。本发明基于Boruta法选择所述训练集和所述测试集的自变量中对因变量影响最显著的变量，称为第二指标。

本步骤中，为了清楚反映变量的分布情况，可以进一步根据第二指标描绘箱线图。其中，箱线图是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。它主要用于反映原始数据分布的特征，还可以进行多组数据分布特征的比较。如图3为本发明基于Boruta法选择自变量中对因变量影响最显著的指标绘制的箱线图。

S23、将所述训练集和所述测试集中的第一指标和所述第二指标生成对应的变量处理后的训练集和测试集。

具体的，在各个测试集和训练集中选出包含第一指标和第二指标的变量作为对应的变量处理后的训练集和测试集。

通过本步骤，根据变量的重要性和变量分布的稳定性，删除了测试集和训练集中与模型相关的变量，将对客群定位分类区分度大于阈值的变量作为重要性变量，将区分度最大的变量用于区分客群，一方面可以避免一个变量对整个风险策略模型的贡献性过强，导致风险策略模型的稳定性太差。同时可以让更多“长尾”的变量引入风险策略模型，提高风险策略模型的效能。

S3、创建并通过变量处理后的各个训练集训练所述风险策略模型，计算所述风险策略模型的第一KS曲线；

本发明中，所述风险策略模型为可以是Logistic回归模型，或者是XGB 模型。其中，KS曲线是两条线，其横轴是阈值，纵轴是真正类率(true positive rate，TPR)与假正类率(false positive rate，FPR)的值，取值范围为[0，1]。两条曲线之间相距最远的地方对应的阈值，就是最能划分模型的阈值。本实施例中，将通过变量处理后各个训练集训练的风险策略模型的KS曲线称为第一KS曲线，第一KS曲线是反应风险策略模型区分因变量分类能力的指标，具体如图4a所示。

S4、基于测试集验证所述风险策略模型的第二KS曲线；

具体的，可以基于时间外测试集验证风险策略模型的KS曲线，称为第二KS曲线，第二KS曲线反应风险策略模型区分因变量分类能力的指标及风险策略模型的稳定性能，具体如图4b所示。

S5、当所述第一KS曲线和所述第二KS曲线满足预设条件时，采用所述风险策略模型生成用户风险策略。

其中，所述预设条件可以根据实际需要预先设置。

图5是本发明一种基于客群定位的风险策略生成装置的架构示意图，如图5所示，所述装置包括：

分类模块51，用于根据用户属性对用户进行客群定位分类；优选的，所述用户属性包括用户基本信息、用户借款信息、用户存款信息中的至少一种。

变量处理模块52，用于分别从各个客群定位分类中选择训练集和测试集，并对所述训练集和所述测试集中的变量进行处理；

第一计算模块53，用于创建并通过变量处理后的各个训练集训练所述风险策略模型，计算所述风险策略模型的第一KS曲线；优选的，所述风险策略模型为Logistic回归模型或XGB模型。

第二计算模块54，用于基于测试集验证所述风险策略模型的第二KS 曲线；

生成模块55，用于当所述第一KS曲线和所述第二KS曲线满足预设条件时，采用所述风险策略模型生成用户风险策略。

在一种实施方式中，所述变量处理模块52具体用于基于变量重要性及变量分布稳定性进行变量筛选。所述变量处理模块52包括：

第一选择模块521，用于基于IV法选择所述训练集和所述测试集的自变量中定性变量对因变量影响最显著的第一指标。

第二选择模块522，用于基于Boruta法选择所述训练集和所述测试集的自变量中对因变量影响最显著的第二指标。

子生成模块523，用于将所述训练集和所述测试集中的第一指标和所述第二指标生成对应的变量处理后的训练集和测试集。

本领域技术人员可以理解，上述装置实施例中的各模块可以按照描述分布于装置中，也可以进行相应变化，分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

下面描述本发明的电子设备实施例，该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节，应视为对于上述方法或装置实施例的补充；对于在本发明电子设备实施例中未披露的细节，可以参照上述方法或装置实施例来实现。

图6是根据本发明的一种电子设备的示例性实施例的结构框图。图6 显示的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，该示例性实施例的电子设备600以通用数据处理设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元 610、至少一个存储单元620、连接不同电子设备组件(包括存储单元620 和处理单元610)的总线630、显示单元640等。

其中，所述存储单元620存储有计算机可读程序，其可以是源程序或都只读程序的代码。所述程序可以被处理单元610执行，使得所述处理单元610执行本发明各种实施方式的步骤。例如，所述处理单元610可以执行如图1所示的步骤。

所述存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205 包括但不限于：操作电子设备、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备300(例如键盘、显示器、网络设备、蓝牙设备等)通信，使得用户能经由这些外部设备600与该电子设备600交互，和/或使得该电子设备600能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入 /输出(I/O)接口650进行，还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)进行。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图6中未示出，电子设备600中可使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID电子设备、磁带驱动器以及数据备份存储电子设备等。

图7是本发明的一个计算机可读介质实施例的示意图。如图7所示，所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的电子设备、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时，使得该计算机可读介质能够实现本发明的上述方法，即：根据用户属性对用户进行客群定位分类；分别从各个客群定位分类中选择训练集和测试集，并对所述训练集和所述测试集中的变量进行处理；创建并通过变量处理后的各个训练集训练所述风险策略模型，计算所述风险策略模型的第一KS曲线；基于测试集验证所述风险策略模型的第二KS曲线；当所述第一KS曲线和所述第二KS曲线满足预设条件时，采用所述风险策略模型生成用户风险策略。

通过以上的实施方式的描述，本领域的技术人员易于理解，本发明描述的示例性实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个计算机可读的存储介质(可以是 CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语音的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语音包括面向对象的程序设计语音—诸如 Java、C++等，还包括常规的过程式程序设计语音—诸如“C”语音或类似的程序设计语音。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述，本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器 (DSP)等通用数据处理设备来实现本发明的一些或者全部功能。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者电子设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于客群定位的风险策略生成方法，其特征在于，所述方法包括：

根据用户属性对用户进行客群定位分类；

基于测试集验证所述风险策略模型的第二KS曲线；

2.根据权利要求1所述的方法，其特征在于，所述对所述训练集和所述测试集中的变量进行处理包括：

基于变量重要性及变量分布稳定性进行变量筛选。

3.根据权利要求1-2中任一项所述的方法，其特征在于，所述基于变量重要性及变量分布稳定性进行变量筛选包括：

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述基于变量重要性及变量分布稳定性进行变量筛选还包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述对所述训练集和所述测试集中的变量进行处理之后，所述方法还包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述用户属性包括用户基本信息、用户借款信息、用户存款信息中的至少一种。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述风险策略模型为Logistic回归模型或XGB模型。

8.一种基于客群定位的风险策略生成装置，其特征在于，所述装置包括：

分类模块，用于根据用户属性对用户进行客群定位分类；

9.一种电子设备，包括：

处理器；以及

存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，当所述一个或多个程序被处理器执行时，实现权利要求1-7中任一项所述的方法。