CN111598678A

CN111598678A - 基于增量学习的用户金融风险识别方法、装置及电子设备

Info

Publication number: CN111598678A
Application number: CN202010728265.9A
Authority: CN
Inventors: 姜润洲; 丁楠; 苏绥绥
Original assignee: Beijing Qilu Information Technology Co Ltd
Current assignee: Beijing Qilu Information Technology Co Ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-08-28

Abstract

本发明公开了一种基于增量学习的用户金融风险识别方法、装置及电子设备，所述方法包括：将历史用户数据根据用户金融行为表现期的起始时间顺序分为多个时间段，使用终点为t_i‑1的时间段的历史用户数据训练分类模型M_i，将终点为t_i的时间段的历史用户数据输入所述训练好的分类模型M_i中进行训练，得到分类模型M_i+1；根据各个分类模型M₁、M₂、……、M_n+1识别新用户的金融风险。本发明的分类模型M_i既学习到了t_i‑1时间段的样本特征，也学习到了t_i时间段的样本特征，最终输出结果既能保留前期样本的充足性，又能学习到近期样本的代表性，从而提高对用户近期行为判断的准确性。

Description

基于增量学习的用户金融风险识别方法、装置及电子设备

技术领域

本发明涉及计算机信息处理技术领域，具体而言，涉及一种基于增量学习的用户金融风险识别方法、装置、电子设备及计算机可读介质。

背景技术

目前，具备完善的风险识别能力的企业往往希望能够准确识别用户在风险场景中的风险等级。现有方案中，通常采用已有用户数据训练得到一个风险预测模型，通过风险预测模型来预测用户的潜在风险。

在用户风险识别过程中，很多用户只有短期的用户数据，例如短期借贷用户。发明人发现：采用长期的用户数据，由于数据周期长，其无法准确预测近期用户行为。采用短期用户数据预测则因数据时间太短，表现性不够，无法全面的预测用户行为。因此，需要既能反映售后老用户的真实数据，又能避免数据时间太长导致无法预测用户近期风险的问题。

发明内容

本发明旨在解决风险预测中单纯采用长期用户数据或者单纯采用短期用户数据均会导致对用户近期风险预测不准确的技术问题。

为了解决上述技术问题，本发明第一方面提出一种基于增量学习的用户金融风险识别方法，所述方法包括：

将历史用户数据根据用户金融行为表现期的起始时间顺序分为多个时间段，各时间段的分隔点分别记为t₀、t₁、…、t_i、…、t_n，其中i、n为正整数；

使用终点为t_i-1的时间段的历史用户数据训练分类模型M_i，将终点为t_i的时间段的历史用户数据输入所述训练好的分类模型M_i中进行训练，得到分类模型M_i+1；

根据各个分类模型M₁、M₂、……、M_n+1识别新用户的金融风险。

根据本发明一种优选的实施方式，所述终点为t_i的时间段所包含的时间长度随i的增加依次减小。

根据本发明一种优选的实施方式，所述分类模型为决策树模型。

根据本发明一种优选的实施方式，决策树模型M_i+1基于决策树模型M_i的残差值学习。

根据本发明一种优选的实施方式，所述根据各个分类模型M₁、M₂、……、M_n+1识别新用户的金融风险包括：

将新用户的用户数据输入各个决策树模型M₁、M₂、……、M_n+1；

将各个决策树模型M₁、M₂、……、M_n+1的输出结果累加，得到最终输出结果；

根据所述最终输出结果识别新用户的金融风险。

根据本发明一种优选的实施方式，所述历史用户数据包括：用户资源归还率、用户资源请求次数、用户属性信息中的至少一种。

为了解决上述技术问题，本发明第二方面提供一种基于增量学习的用户金融风险识别装置，所述装置包括：

分割模块，用于将历史用户数据根据用户金融行为表现期的起始时间顺序分为多个时间段，各时间段的分隔点分别记为t₀、t₁、…、t_i、…、t_n，其中i、n为正整数；

训练模块，用于使用终点为t_i-1的时间段的历史用户数据训练分类模型M_i，将终点为t_i的时间段的历史用户数据输入所述训练好的分类模型M_i中进行训练，得到分类模型M_i+1；

识别模块，用于根据各个分类模型M₁、M₂、……、M_n+1识别新用户的金融风险。

根据本发明一种优选的实施方式，所述识别模块包括：

输入模块，用于将新用户的用户数据输入各个决策树模型M₁、M₂、……、M_n+1；

累加模块，用于将各个决策树模型M₁、M₂、……、M_n+1的输出结果累加，得到最终输出结果；

子识别模块，用于根据所述最终输出结果识别新用户的金融风险。

为解决上述技术问题，本发明第三方面提供一种电子设备，包括：

处理器；以及

存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行上述的方法。

为了解决上述技术问题，本发明第四方面提出一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，当所述一个或多个程序被处理器执行时，实现上述方法。

本发明将历史用户数据根据用户金融行为表现期的起始时间顺序分为多个时间段，使用终点为t_i-1的时间段的历史用户数据训练分类模型M_i，将终点为t_i的时间段的历史用户数据输入所述训练好的分类模型Mi中进行训练，得到分类模型M_i+1；再根据各个分类模型M₁、M₂、……、M_n+1识别新用户的金融风险。通过这种方式，分类模型M_i既学习到了t_i-1时间段的样本特征，也学习到了t_i时间段的样本特征，从而实现分类模型M_i对不同时间段样本的迭代学习，最终输出结果既能保留前期样本的充足性，又能学习到近期样本的代表性，从而提高对用户近期行为判断的准确性。

附图说明

为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚，下面将参照附图详细描述本发明的具体实施例。但需声明的是，下面描述的附图仅仅是本发明的示例性实施例的附图，对于本领域的技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他实施例的附图。

图1是本发明一种基于增量学习的用户金融风险识别方法的流程示意图；

图2是本发明将历史用户数据根据用户金融行为表现期的起始时间顺序分为多个时间段步骤的示意图；

图3是本发明一种基于增量学习的用户金融风险识别装置的结构框架示意图；

图4是根据本发明的一种电子设备的示例性实施例的结构框图；

图5是本发明一个计算机可读介质实施例的示意图。

具体实施方式

现在将参考附图来更加全面地描述本发明的示例性实施例，虽然各示例性实施例能够以多种具体的方式实施，但不应理解为本发明仅限于在此阐述的实施例。相反，提供这些示例性实施例是为了使本发明的内容更加完整，更加便于将发明构思全面地传达给本领域的技术人员。

在符合本发明的技术构思的前提下，在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

本发明中，增量学习是指一个学习系统能不断地从新样本中学习新的知识，并能保存大部分以前已经学习到的知识。增量学习由于其无需保存历史数据，从而减少存储空间的占用；另一方面增量学习在当前的样本训练中充分利用了历史的训练结果，从而显著地减少了后续训练的时间。目前增量学习主要应用于两方面：一是用于数据库非常大的情形，例如Web日志记录；二是用于流数据，因为这些数据随着时间在不断的变化，例如股票交易数据。本发明的发明人在研究风控体系预测用户近期风险时发现：若采用长期的用户数据，由于数据周期长，其无法准确预测近期用户行为。若采用短期用户数据预测则因数据时间太短，表现性不够，无法全面的预测用户行为。因此，发明人基于增量学习将长期用户数据和短期的用户数据相结合来训练模型，使模型的最终输出结果既能保留前期样本的充足性，又能学习到近期样本的代表性，从而提高对用户近期行为判断的准确性。

请参阅图1，图1是本发明提供的一种基于增量学习的用户金融风险识别方法的流程图，如图1所示，所述方法包括：

S1、将历史用户数据根据用户金融行为表现期的起始时间顺序分为多个时间段，

本发明中，将各时间段的分隔点分别记为t₀、t₁、…、t_i、…、t_n，其中i、n为正整数；所述用户金融行为表现期指金融分期，比如，3个月分期，6个月分期等。

原则上，各个个时间段只需要根据用户金融行为表现期的起始时间顺序来划分即可，每个时间段包含的时间长度可以任意设置。比如，终点为t₀的时间段的时间长度为3个月，终点为t₁的时间段的时间长度为3个月，终点为t₂的时间段的时间长度为5个月等。

本发明为了提高最终预测的准确性，所述终点为t_i的时间段所包含的时间长度随i的增加依次减小。其中，所述终点为t_i的时间段距离当前时间点的时间长度依次减小。例如图2中，当前时间点为T，用户历史数据的起始时间点为t₀，将t₀-T的时间根据用户金融行为表现期的起始时间顺序分为：终点为t₀的时间段、t₀-t₁时间段、t₁-t₂时间段。其中，终点为t₀的时间段到当前时间点T的时间长度大于终点为t₁的时间段到当前时间点T的时间长度，终点为t₁的时间段到当前时间点T的时间长度大于终点为t₂的时间段到当前时间点T的时间长度，即t₀、t₁、t₂距离当前时间点越来越近，终点为t₀的时间段、t₀-t₁时间段、t₁-t₂时间段的时间长度依次减小，比如终点为t₀的时间段是距离当前时间T之前6-12个月的时间段，t₀-t₁时间段是距离当前时间T之前3-6个月的时间段，t₁-t₂时间段是距离当前时间T之前2-3个月的时间段，因此，终点为t₀的时间段、t₀-t₁时间段具有表现充足的样本，t₁-t₂时间段距离当前时间点T最近。

本发明中，所述历史用户数据根据实际业务确定，以金融业务为例，所述用户数据包括：用户资源归还率、用户资源请求次数、用户属性信息中的至少一种。其中，用户属性信息可以包括：用于识别用户的身份信息（如用户ID等）和联系信息（如手机号码，地址等），还可以进一步包括：职业信息、学历信息等可以反映用户收入的信息。

S2、使用终点为t_i-1的时间段的历史用户数据训练分类模型M_i，将终点为t_i的时间段的历史用户数据输入所述训练好的分类模型M_i中进行训练，得到分类模型M_i+1；

其中，所述分类模型可以采用决策树模型，也可以采用神经网络模型，本发明优选采用决策树模型。决策树是一个预测模型，他代表对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，每个分叉路径则代表某个可能的属性值，每个叶结点对应从根节点到该叶节点所经历的路径所表示的对象的值。

具体的，通过终点为t₀时间段的历史用户数据训练决策树模型M₁；将t₀-t₁时间段的历史用户数据输入训练好的决策树M₁中进行训练，得到决策树模型M₂，依次类推，使用终点为t_i-1的时间段的历史用户数据训练决策树模型M_i，将终点为t_i的时间段的历史用户数据输入所述训练好的决策树模型M_i中进行训练，得到决策树模型M_i+1。这样，决策树模型M_i既学习到了终点为t_i-1的时间段的样本特征，也学习到了终点为t_i的时间段的样本特征。

本发明中，决策树模型M_i可以通过ID3、 C4.5、C5.0或者 CART算法中的任意一种进行训练。

本发明在训练过程中，对于同一个样本，决策树模型M_i+1基于决策树模型M_i的残差值。即对于同一历史用户，先用终点为t₀的时间段的数据学习决策树模型M₁，在叶子节点处可以得到该历史用户预测的值，以及预测之后的残差，然后，将t₀-t₁时间段的历史用户数据输入训练好的决策树M₁中进行训练，得到决策树模型M₂，决策树模型M₂基于决策树模型M₁的残差来学习，依次类推，直到预测值和真实值的残差为零。例如，在一次样本训练中，决策树模型M₁预测的总分数是0.9，则决策树模型M₂基于M₁的残差0.1进行学习。

S3、根据各个分类模型M₁、M₂、……、M_n+1识别新用户的金融风险。

通过上述步骤S2训练出来具有迭代特征的各个分类模型M₁、M₂、……、M_n+1。本步骤将各个分类模型的结果迭代来识别新用户的金融风险。示例性的，以决策树模型为例，本步骤包括：

S31、将新用户的用户数据输入各个决策树模型M₁、M₂、……、M_n+1；

S32、将各个决策树模型M₁、M₂、……、M_n+1的输出结果累加，得到最终输出结果；

由于在训练过程中，决策树模型M_i+1的总分数是决策树模型M_i的残差值。则对于新用户的预测值，就是各个决策树模型M₁、M₂、……、M_n+1的预测值的累加。整个过程都是每次学习一点（真实值的一部分），最后累加。实现分类模型M_i对不同时间段样本的迭代学习，这样得到的最终输出结果既能保留前期样本的充足性，又能学习到近期样本的代表性，从而提高对用户近期行为判断的准确性。

S33、根据所述最终输出结果识别新用户的金融风险。

本步骤中，为了便于识别用户风险，可以先将模型的最终输出结果通过 Sigmoid函数转换为0~1之间的一个数值R，根据数值R的大小识别新用户的金融风险。

图3是本发明一种基于增量学习的用户金融风险识别装置的架构示意图，如图3所示，所述装置包括：

分割模块31，用于将历史用户数据根据用户金融行为表现期的起始时间顺序分为多个时间段，各时间段的分隔点分别记为t₀、t₁、…、t_i、…、t_n，其中，i、n为正整数；所述历史用户数据包括：用户资源归还率、用户资源请求次数、用户属性信息中的至少一种。

训练模块32，用于使用终点为t_i-1的时间段的历史用户数据训练分类模型M_i，将终点为t_i的时间段的历史用户数据输入所述训练好的分类模型M_i中进行训练，得到分类模型M_i+1；

识别模块33，用于根据各个分类模型M₁、M₂、……、M_n+1识别新用户的金融风险。

在一种具体实施方式中，所述终点为t_i的时间段所包含的时间长度随i的增加依次减小。

优选的，所述分类模型为决策树模型。决策树模型M_i+1的总分数是决策树模型M_i的残差值。

在一种具体实施方式中，所述识别模块33包括：

输入模块331，用于将新用户的用户数据输入各个决策树模型M₁、M₂、……、M_n+1；

累加模块332，用于将各个决策树模型M₁、M₂、……、M_n+1的输出结果累加，得到最终输出结果；

子识别模块333，用于根据所述最终输出结果识别新用户的金融风险。

本领域技术人员可以理解，上述装置实施例中的各模块可以按照描述分布于装置中，也可以进行相应变化，分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

下面描述本发明的电子设备实施例，该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节，应视为对于上述方法或装置实施例的补充；对于在本发明电子设备实施例中未披露的细节，可以参照上述方法或装置实施例来实现。

图4是根据本发明的一种电子设备的示例性实施例的结构框图。图4显示的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，该示例性实施例的电子设备400以通用数据处理设备的形式表现。电子设备400的组件可以包括但不限于：至少一个处理单元410、至少一个存储单元420、连接不同电子设备组件（包括存储单元420和处理单元410）的总线430、显示单元440等。

其中，所述存储单元420存储有计算机可读程序，其可以是源程序或都只读程序的代码。所述程序可以被处理单元410执行，使得所述处理单元410执行本发明各种实施方式的步骤。例如，所述处理单元410可以执行如图1所示的步骤。

所述存储单元420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元（RAM）4201和/或高速缓存存储单元4202，还可以进一步包括只读存储单元（ROM）4203。所述存储单元420还可以包括具有一组（至少一个）程序模块4205的程序/实用工具4204，这样的程序模块4205包括但不限于：操作电子设备、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备400也可以与一个或多个外部设备300（例如键盘、显示器、网络设备、蓝牙设备等）通信，使得用户能经由这些外部设备400与该电子设备400交互，和/或使得该电子设备400能与一个或多个其它数据处理设备（例如路由器、调制解调器等等）进行通信。这种通信可以通过输入/输出（I/O）接口450进行，还可以通过网络适配器460与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）进行。网络适配器460可以通过总线430与电子设备400的其它模块通信。应当明白，尽管图4中未示出，电子设备400中可使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID电子设备、磁带驱动器以及数据备份存储电子设备等。

图5是本发明的一个计算机可读介质实施例的示意图。如图5所示，所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的电子设备、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时，使得该计算机可读介质能够实现本发明的上述方法，即：将历史用户数据根据用户金融行为表现期的起始时间顺序分为多个时间段，各时间段的分隔点分别记为t₀、t₁、…、t_i、…、t_n，其中i、n为正整数；使用终点为t_i-1的时间段的历史用户数据训练分类模型M_i，将终点为t_i的时间段的历史用户数据输入所述训练好的分类模型M_i中进行训练，得到分类模型M_i+1；根据各个分类模型M₁、M₂、……、M_n+1识别新用户的金融风险。

通过以上的实施方式的描述，本领域的技术人员易于理解，本发明描述的示例性实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个计算机可读的存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台数据处理设备（可以是个人计算机、服务器、或者网络设备等）执行根据本发明的上述方法。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语音的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语音包括面向对象的程序设计语音—诸如Java、C++等，还包括常规的过程式程序设计语音—诸如“C”语音或类似的程序设计语音。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

综上所述，本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器（DSP）等通用数据处理设备来实现本发明的一些或者全部功能。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者电子设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于增量学习的用户金融风险识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述终点为t_i的时间段所包含的时间长度随i的增加依次减小。

3.根据权利要求1-2中任一项所述的方法，其特征在于，所述分类模型为决策树模型。

4.根据权利要求3所述的方法，其特征在于，决策树模型M_i+1基于决策树模型M_i的残差值学习。

5.根据权利要求4所述的方法，其特征在于，所述根据各个分类模型M₁、M₂、……、M_n+1识别新用户的金融风险包括：

根据所述最终输出结果识别新用户的金融风险。

6.根据权利要求1所述的方法，其特征在于，所述历史用户数据包括：用户资源归还率、用户资源请求次数、用户属性信息中的至少一种。

7.一种基于增量学习的用户金融风险识别装置，其特征在于，所述装置包括：

8.一种电子设备，包括：

处理器；以及

存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，当所述一个或多个程序被处理器执行时，实现权利要求1-6中任一项所述的方法。