CN108416669A

CN108416669A - 用户行为数据处理方法、装置、电子设备及计算机可读介质

Info

Publication number: CN108416669A
Application number: CN201810203630.7A
Authority: CN
Inventors: 黄巩怡; 陈谦; 刘成烽; 陈培炫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2018-08-17

Abstract

本公开涉及一种用户行为数据处理方法、装置、电子设备及计算机可读介质。涉及计算机信息处理领域，该方法包括：通过多个数据源获取用户的行为数据；根据所述行为数据确定所述用户的第一评估系数与第二评估系数，所述第一评估系数表示所述用户的意愿强度，所述第二评估系数表示所述用户的能力强度；根据所述行为数据确定所述用户的多个风险特征概率；以及通过所述第一评估系数、所述第二评估系数，以及所述多个风险特征概率确定所述用户的风险级别。本公开的用户行为数据处理方法、装置、电子设备及计算机可读介质，能够对欠款用户进行风险等级分级及风险因素分析，以便债权人合理安排催收顺序、催收强度，提高催收效率。

Description

用户行为数据处理方法、装置、电子设备及计算机可读介质

技术领域

本公开涉及计算机信息处理领域，具体而言，涉及一种用户行为数据处理方法、装置、电子设备及计算机可读介质。

背景技术

不良资产，主要是指不良贷款，包括逾期贷款(贷款到期限未还的贷款)、呆滞贷款(逾期两年以上的贷款)和呆帐贷款(需要核销的收不回的贷款)三种情况。不良资产账率一方面和客户信用风险高度相关；另一方面，催收方式也影响催收效果、效率。

在现有技术中，不良资产公司实现债后催收，一般分为两种模式，一种是发生债务直接去催收；另一种是贷后监控，例如通过人工监控欠债人的资产状况、收入支出、居住位置、工作地、通讯录等，进而去监控欠债人的资信状态。以上两种方式均需要在催收前期投入大量的人力物力成本去进行监控和分析，但催收的效果却不尽人意。

因此，需要一种新的用户行为数据处理方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开提供一种用户行为数据处理方法、装置、电子设备及计算机可读介质，能够对欠款用户进行风险等级分级及风险因素分析，以便债权人合理安排催收顺序，催收强度，提高催收效率。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提出一种用户行为数据处理方法，该方法包括：通过多个数据源获取用户的行为数据；根据所述行为数据确定所述用户的第一评估系数与第二评估系数，所述第一评估系数表示所述用户的意愿强度，所述第二评估系数表示所述用户的能力强度；根据所述行为数据确定所述用户的多个风险特征概率；以及通过所述第一评估系数、所述第二评估系数，以及所述多个风险特征概率确定所述用户的风险级别。

根据本公开的一方面，提出一种用户行为数据处理装置，该装置包括：数据获取模块，用于通过多个数据源获取用户的行为数据；用户分群模块，用于根据所述行为数据确定所述用户的第一评估系数与第二评估系数；风险概率模块，用于根据所述行为数据确定所述用户的多个风险特征概率；以及级别确定模块，用于通过所述第一评估系数、所述第二评估系数，以及所述多个风险特征概率确定所述用户的风险级别。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本公开的用户行为数据处理方法、装置、电子设备及计算机可读介质，能够对欠款用户进行风险等级分级及风险因素分析，以便债权人合理安排催收顺序，催收强度，提高催收效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一实施例示出的一种用户行为数据处理方法的系统框图。

图2是根据一实施例示出的一种用户行为数据处理方法的用户场景示意图。

图3是根据一实施例示出的一种用户行为数据处理方法的流程图。

图4是根据另一实施例示出的一种用户行为数据处理方法的流程图。

图5是根据另一实施例示出的一种用户行为数据处理方法的流程图。

图6是根据另一实施例示出的一种用户行为数据处理方法的流程图。

图7是根据另一实施例示出的一种用户行为数据处理方法的示意图。

图8是根据一实施例示出的一种用户行为数据处理装置的框图。

图9是根据另一实施例示出的一种用户行为数据处理装置的框图。

图10是根据一实施例示出的一种电子设备的框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

图1是根据一示例性实施例示出的一种用户行为数据处理方法的系统框图。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的即时通信软件提供支持的后台管理服务器。服务器105还能够对接收到的用户的聊天信息、金融信息或者其他征信相关信息，进行分析等处理，生成处理结果(用户风险等级)。

服务器105可支持多种数据源的数据采集，服务器105通过多个数据源获取用户的行为数据；服务器105还能够根据所述行为数据确定所述用户的第一评估系数与第二评估系数；服务器105还能够根据所述行为数据确定所述用户的多个风险特征概率；服务器105还能够通过所述第一评估系数、所述第二评估系数，以及所述多个风险特征概率确定所述用户的风险级别。如图2所示，使用者通过在终端设备101、102、103上提交待计算的用户基本信息，服务器105通过通过多个数据源获取待计算的用户的行为数据，最后输出该用户的风险评估等级，还可例如同时输出对该用户的后续处理建议等信息。

又例如，服务器105用于通过历史用户的行为数据训练分类算法以获取第一评估模型；服务器105还用于通过历史用户的行为数据训练分类算法以获取第二评估模型；以及服务器105还用于通过历史分类数据训练分类算法以获取风险特征模型。

需要说明的是，本公开实施例所提供的用户行为数据处理方法一般由服务器105执行，相应地，用户行为数据处理装置一般设置于服务器105中。

以下对本发明实施例的相关技术方案进行详细阐述：

在本公开中，不良资产主要是指不良贷款，包括逾期贷款(贷款到期限未还的贷款)、呆滞贷款(逾期两年以上的贷款)和呆帐贷款(需要核销的收不回的贷款)三种情况。

催收分级，在本公开中主要是根据用户的还款意愿、还款能力将用户划分为多个类型和等级，然后推断相应的欠款风险因素，从而对欠款用户分级，决定催收顺序和强度。

本公开的申请人发现，不良资产坏账率一方面和客户信用风险高度相关；另一方面，催收方式也影响催收效果、效率。通过贷后持续监控实现债后催收可以提高催收效率，而且更有针对性。然而现在大多债后催收业务均是从线下生活角度考虑的：一方面，数据完整性不一定能保证；另一方面，债务人的数据很容易捏造。本公开的申请人发现，对于债后催收，如果可以选择性的对情节严重的债务人发起催收程序、或是发起不良资金管理，对另一部分具有还款意愿或是具有还款能力的债务人，根据欠款风险因素综合推断后，给予适当的宽限时间或是援助措施，有助于提高收回欠款的可能性，降低坏账率。有鉴于此，本公开关注在于利用债务人的相关数据，对该债务人进行风险评级，并获取主要欠款风险因素的种类，以根据该债务人的风险评级制定不同的催收程序，提高收回欠款的可能性。

图3是根据一示例性实施例示出的一种用户行为数据处理方法的流程图。参照图3所示，该用户行为数据处理方法至少包括步骤S302至步骤S308，详细介绍如下：

如图3所示，在S302中，通过多个数据源获取用户的行为数据。上文提到的债务人，在本申请中被称为用户。例如，通过多个数据源获取用户的基础数据；以及将所述基础数据进行数据预处理以获取用户的所述行为数据。

在一个实施例中，通过社交平台的数据源获取用户的行为数据作为基础数据；可例如获取用户社交活跃性数据，包括：社交软件登录、社交好友数、聊天、评论点赞、表情头像、游戏等。用户兴趣变化数据，包括：公众号阅读、朋友圈、XX兴趣群、XX兴趣部落。

在一个实施例中，通过医疗平台的数据源获取用户的行为数据作为基础数据；可例如获取用户的健康医疗等相关信息，以及运动记录、医疗记录等。

在一个实施例中，通过征信平台的数据源获取用户的行为数据作为基础数据；可例如获取用户征信评分，还可例如获取各金融机构对于该用户的信用评分。

在一个实施例中，通过金融平台的数据源获取用户的行为数据作为基础数据。可例如获取用户收支变化数据，包括：消费、转账、收款等。还可例如获取用户实体金融类数据，包括：信用卡消费、投资理财、贷款记录等。

在一个实施例中，可例如将如下数据作为基础数据，获取用户出行数据，包括：交通费用、交通费类别(机票、火车、大巴、公交、自驾)、使用频率、里程(距离)。还可例如获取用户基础信息：性别、年龄、学历、职业、地区、婚姻状况等。

将基础数据进行数据预处理以获取用户的所述行为数据。数据预处理可例如包括：真实性考查、异常值剔除、缺失值填补、去重等步骤数据预处理的步骤与内容将在后文中进行详细描述。

在S304中，根据所述行为数据确定所述用户的第一评估系数与第二评估系数，所述第一评估系数表示所述用户的意愿强度，所述第二评估系数表示所述用户的能力强度。例如，将所述行为数据输入第一评估模型以获取所述第一评估系数S1；所述第一评估模型通过分类算法建立。所述分类算法，包括：随机森林分类算法、逻辑回归分类算法、以及梯度提升决策树分类算法。还可例如，将所述行为数据输入第二评估模型以获取所述第二评估系数S2；所述第二评估模型通过分类算法建立。所述分类算法，包括：随机森林分类算法、逻辑回归分类算法、以及梯度提升决策树分类算法。

其中，随机森林(Random Forest)指的是利用多棵树对样本进行训练并预测的一种分类器。随机森林通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习中的集成学习(Ensemble Learning)方法。

其中，逻辑回归分类算法(Logistic regression algorithm)基本思路为，面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数，然后测试验证这个求解的模型的好坏。

其中，梯度提升决策树分类算法(Gradient Boosting Decision Tree，GBDT)，基本思路为串行训练n(n>2)棵决策树，其中第i(1<i≤n)棵树学习第i-1棵树的负梯度(可理解为残差或增量)，n棵树的输出结果累加作为最终输出结果。

本公开中的第一评估模型与第二评估模型还可例如通过其他的机器学习分类算法建立，本公开不以此为限。

在S306中，根据所述行为数据确定所述用户的多个风险特征概率。例如，将所述行为数据进行分类，生成多个分类数据，将所述多个分类数据分别输入到与其对应的风险特征模型以获取多个风险特征概率；以及风险特征模型通过分类算法建立。所述分类算法，包括：随机森林分类算法、逻辑回归分类算法、以及梯度提升决策树分类算法。

在一个实施例中，风险特征包括收支、资信、变故、盗号、欺诈、社交活跃等特征，将上文中获取的用户行为数据，依据各个风险特征的特点进行分类，分别生成针对于不同风险特征的分类数据。例如，通过用户的金融数据生成金融类数据，通过金融类数据来评估用户的收支风险特征概率；还可例如，通过用户在即时通信软件中的登录IP等数据，生成通信数据，以评估该用户是否存在盗号的风险特征。

在一个实施例中，将行为数据进行分类，分别计算每个风险特征的概率，第一个风险特征的概率记为p1，第二个风险特征的概率记为p2，以此类推，第n个风险特征的概率记为pn，将所有用户的信息列表整合起来得到风险因素及分数列表。

在S308中，通过所述第一评估系数、所述第二评估系数，以及所述多个风险特征概率确定所述用户的风险级别。通过上文得到的第一评估系数S1、所述第二评估系数S2，以及多个风险特征的概率p1p2，……，pn，通过以上的概率值，综合确定该用户的欠款如期还款的风险级别。

在一个实施例中，将第一评估系数小于第一阈值，且所述第二评估系数小于第二阈值的用户确定为第一风险等级的用户。可例如，设定第一阈值为0.6，第一评估系数小于0.6的用户可认为是无意愿还款用户。设定第二阈值为0.6，第二评估系数小于0.6的用户可认为是无能力还款的用户。对于无能力也无意愿还款的用户，确定为第一风险等级用户，后续可直接进入催收程序。

在一个实施例中，第一评估系数小于第一阈值，第二评估系数大于等于第二阈值的用户可认为是无意愿但是有能力还款的用户，可例如将此类用户确定为第二风险等级用户；对与此类用户可通过适当的措施敦促其还款。

在一个实施例中，第一评估系数大于等于第一阈值，第二评估系数小于第二阈值的用户可认为是有意愿但是无能力还款的用户，可例如将此类用户确定为第三风险等级用户；对于此类用户可给予其更多的时间进行还款。

在一个实施例中，第一评估系数大于等于第一阈值，第二评估系数大于等于第二阈值的用户可认为是有能力有意愿还款的用户，可例如将此类用户确定为第四风险等级用户。对于此类用户可认为风险等级较低，可以正常等待其还款即可。

在一个实施例中，对于第一评估系数大于等于第一阈值，或所述第二评估系数大于等于第二阈值的用户，可例如再计算所述用户对应的多个风险特征概率的综合值；以及通过所述综合值在对所述用户的风险等级进行更详细划分。对于无意愿但是有能力还款的用户，有意愿但是无能力还款的用户，有能力有意愿还款的用户可继续评估其风险概率，以综合评价该用户的评级，风险概率也可用作对于用户不还款的风险原因进行分析。

债后催收相关业务大致可以分为三个方向：不良资产购买和管理、坏账催收、以及催收业务相关的支撑性业务(例如催收人力培训)。其中，不良资产公司可以分为三大派系：资产管理公司，坏账催收公司，结合互联网金融。其中结合互联网金融进行不良资产管理可以提升催收效率，本公开中的方法可以应用于各类金融服务公司和金融场景。

根据本公开的用户行为数据处理方法，通过借助于多种来源的用户互联网中的社交数据以及金融等数据，进而能够综合考量用户还款的第一评估系数、第二评估系数风险特征概率，从而能够对欠款用户进行风险等级分级及风险因素分析，以便债权人合理安排催收顺序，催收强度，提高催收效率。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

社交数据内容丰富、可以包含用户很多行为信息，而且社交数据是用户日常生活的积累和反映，不容易捏造。但是不同的数据源之间数据形式存在很大的差异，真实性与准确度都需要进行考核。图3是根据一示例性实施例示出的一种用户行为数据处理方法的流程图。本公开中对不同数据源获得的数据首先进行预处理，以获得真实准确的用户行为数据。

如图4所示，在S402中，通过多个数据源获取用户的基础数据。包括：通过社交平台的数据源获取用户的行为数据；通过医疗平台的数据源获取用户的行为数据；通过征信平台的数据源获取用户的行为数据；以及通过金融平台的数据源获取用户的行为数据。将以上用户的行为数据作为用户的基础数据。

在S404中，将所述基础数据进行数据预处理以获取用户的所述行为数据。数据预处理(data preprocessing)是指在主要的处理以前对数据进行的一些处理。现实世界中数据大体上都是不完整，不一致的脏数据，无法直接进行数据挖掘，或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。数据预处理有多种方法：数据清理，数据集成，数据变换，数据归约等。这些数据处理技术在数据挖掘之前使用，大大提高了数据挖掘模式的质量，降低实际挖掘所需要的时间。数据的预处理是指对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理。

数据预处理可例如包括如下过程：数据清理，数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标：格式标准化，异常数据清除，错误纠正，重复数据的清除。

数据集成，数据集成例程将多个数据源中的数据结合起来并统一存储，建立数据仓库的过程实际上就是数据集成。

数据变换，通过平滑聚集，数据概化，规范化等方式将数据转换成适用于数据挖掘的形式。

数据归约，数据挖掘时往往数据量非常大，在少量数据上进行挖掘分析需要很长的时间，数据归约技术可以用来得到数据集的归约表示，它小得多，但仍然接近于保持原数据的完整性，并结果与归约前结果相同或几乎相同。

在本公开中，数据预处理可包括S406至S412所述的步骤。

在S406中，去除所述基础数据中存疑数据以生成所述行为数据。可例如，去除基础数据中前后矛盾的数据，或者明显不合符常理的数据。比如某用户的年龄为十几岁，但是存款达到几百万，而还有欠款的情况发生，此时，需要对此用户的基础数据进行再次考量。

在S408中，去除所述基础数据中的异常值数据以生成所述行为数据。去除基础数据中明显的异常数据，可例如年龄超过正常年龄范围，学历与年龄明显不对应的数据等等。

在S410中，对所述基础数据进行缺失值填补以生成所述行为数据。对某些缺失的基础数据进行填补，在缺失值填补中可例如通过某数据的平均值填补，或者通过其他变量对缺失值进行预测，进而得到预估值进行填补。可例如，某用户学历为本科，生活城市为二线城市，工作内容为IT相关，但是此用户的收入值缺失，此时，可根据该用户的年龄与居住城市，工作行业获取具有该特征的其他用户的收入值作为参考，生成该用户的缺失值。

在S412中，去除所述基础数据中的重复数据以生成所述行为数据。

社交数据内容丰富、可以包含用户很多行为信息，而且社交数据是用户日常生活的积累和反映，不容易捏造。根据本公开的用户行为数据处理方法，通过将社交网络中的数据进行预处理，再利用该数据进行后续处理的方式，能够在数据源头处控制数据的准确性，以便获得更加清晰准确的后续分析数据。

根据本公开的用户行为数据处理方法，使用社交数据可以提高本申请中方法的适用性，适用的用户覆盖面。本申请中的用户行为数据处理方法，采集多个平台中的用户数据来生成本申请中使用的行为数据，这种方式可以避免，在现有技术中因为无法采集到某一种单一平台的用户基础数据而导致对用户金融风险评估结果不准确的现象。

图5是根据一示例性实施例示出的一种用户行为数据处理方法的流程图。图5示例性的描述了建立第一评估模型的过程。第二评估模型的建立过程与第一评估模型的建立过程类似，本公开在此不再赘述。

如图5所示，在S502中，获取基础用户，并为用户指定标签。例如，联合各大金融服务业收集欠款用户(例如信用卡违约、小贷违约、民间借贷欠款等)和正常还款用户，根据催收记录划分客户类型(可例如，将有意愿有能力的用户对应正常还款用户，有意愿无能力、无意愿有能力、无意愿无能力对应欠款用户；其中正常还款用户在本公开中称为好用户、欠款用户称为坏用户。)

在S504中，获取基础用户对应的历史行为数据数据。确定样本的好坏标识及客户类型后，收集用户的社交数据和其他来源的数据，例如，通过多个数据源获取用户的历史基础数据。包括：通过社交平台的数据源获取用户的行为数据；通过医疗平台的数据源获取用户的行为数据；通过征信平台的数据源获取用户的行为数据；以及通过金融平台的数据源获取用户的行为数据。将以上用户的行为数据作为用户的历史基础数据。将历史基础数据进行数据预处理以获取用户的历史行为数据。

在S506中，通过历史用户的行为数据训练所述分类算法以获取第一评估模型，所述第一评估模型通过分类算法建立。以第一评估模型为例，按用户类型将用户分为有意愿、无意愿两组人，分别打上好、坏标签(好用户为1，坏用户为0)；根据用户唯一标识(如身份证、如手机号、如微信号)匹配预处理后的数据，得到用户数据列表，每个用户得到一个标签及多列数据信息。选择合适的分类器，如随机森林，逻辑回归、gbdt等方法构建第一评估模型。使得输入用户数据信息，可以得到还款概率，作为还款意愿得分S1。

其中，随机森林(Random Forest)指的是利用多棵树对样本进行训练并预测的一种分类器。逻辑回归分类算法(Logistic regression algorithm)基本思路为，面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数，然后测试验证这个求解的模型的好坏。梯度提升决策树分类算法(Gradient Boosting DecisionTree，GBDT)，基本思路为串行训练n(n>2)棵决策树，其中第i(1<i≤n)棵树学习第i-1棵树的负梯度，n棵树的输出结果累加作为最终输出结果。

通过随机森林算法建立第一评估模型的过程可例如如下：按用户类型将用户分为有意愿、无意愿两组人，分别设定为好用户，数学代表值为1；坏用户，数学代表值为0。好坏两种用户作为两个标签，用来在随机森林分类器中训练模型使用。

根据用户唯一标识(如身份证)匹配预处理后的数据，得到用户数据列表，每个用户得到一个标签(好用户与坏用户标签)及多列数据信息。将多个用户中每一个用户对应的标签与多列数据输入随机森林算法模型中，建立随机森林算法中的多颗树集合，随机森林通过集成学习的思想将多棵树集成的一种算法。首先从用户数据生成的样本集中通过重采样的方式产生数个样本；然后，假设样本特征数目为a，对n个样本选择a中的k个特征，用建立决策树的方式获得最佳分割点；将以上获得最佳分割点的过程重复m次，产生m棵决策树，最后采用多数投票机制来进行预测。预测的最优化的模型作为本申请中的第一评估模型。

通过逻辑回归分类算法建立第一评估模型的过程可例如如下：按用户类型将用户分为有意愿、无意愿两组人，分别设定为好用户，数学代表值为1；坏用户，数学代表值为0。好坏两种用户作为两个标签，用来在通过逻辑回归分类器中训练模型使用。

根据用户唯一标识(如身份证)匹配预处理后的数据，得到用户数据列表，每个用户得到一个标签(好用户与坏用户标签)及多列数据信息。将多个用户中每一个用户对应的标签与多列数据输入逻辑回归分类算法模型中，逻辑回归分类算法对本申请中第一评估模型中的目标结果(第一评估系数)作为一个分类问题的目标值，对该问题建立代价函数，然后逻辑回归分类算法通过优化方法迭代求解出最优的模型参数，然后测试验证这个求解的模型的好坏。测试验证通过的求解模型可例如作为本申请中的第一评估模型。

通过梯度提升决策树分类算法建立第一评估模型的过程可例如如下：按以上处理步骤将好坏两种用户作为两个标签，用来在梯度提升决策树中训练模型使用。

将多个用户中每一个用户对应的标签与多列数据输入梯度提升决策树分类算法模型中形成多个决策树，梯度提升决策树分类算法串行训练n(n>2)棵决策树，其中第i(1<i≤n)棵树学习第i-1棵树的负梯度，n棵树的输出结果累加作为最终输出结果(训练模型)。最后测试验证这个训练的模型的好坏。测试验证通过的训练模型可例如作为本申请中的第一评估模型。

本公开中的第一评估模型还可例如通过其他的机器学习分类算法建立，本公开不以此为限。

通过历史用户的行为数据训练所述分类算法以获取第二评估模型，所述第二评估模型通过分类算法建立。第二评估模型的建立过程与第一评估模型建立过程相似，本公开在此不再赘述。

根据本公开的用户行为数据处理方法，利用多个平台的社交数据构建模型，划分用户类型，同时推断用户的欠款风险因素，实现用户催收分级，可以有针对性的实现债后催收。

图6是根据一示例性实施例示出的一种用户行为数据处理方法的流程图。图6示例性的描述了多个风险特征模型中的一个风险特征模型的建立过程。其他风险特征模型的建立过程与此实施例中的风险特征模型的建立过程类似，本公开在此不再赘述。

如图6所示，在S602中，获取基础用户，并为用户指定标签。联合各大金融服务业收集欠款用户和正常还款用户，根据催收记录划分客户类型(有意愿有能力对应正常还款用户，有意愿无能力、无意愿有能力、无意愿无能力对应欠款用户。在基础用户中分开有意愿、有能力两个客群在后续分别建模，得到各子模型得分。以有意愿人群建模为例，提取有意愿有能力、有意愿无能力客户，分别标记为好、坏用户(好用户为1，坏用户为0)根据用户唯一标识(如身份证、如手机号、如微信号)匹配预处理后的数据，得到用户数据列表，每个用户得到一个标签及多列数据信息。

在S604中，将历史用户行为数据进行分类，生成多个历史分类数据，其中一个分类数据与一个风险特征模型对应。

在一个实施例中，通过社交平台的数据源获取用户的行为数据作为基础数据；可例如获取用户社交活跃性数据，包括：社交软件登录、社交好友数、聊天、评论点赞、表情头像、游戏等。用户兴趣变化数据，包括：公众号阅读、朋友圈、XX兴趣群、XX兴趣部落。可例如将此分类数据用于构建社交活跃类的风险特征模型。

在一个实施例中，通过医疗平台的数据源获取用户的行为数据作为基础数据；可例如获取用户的健康医疗数据，以及运动记录、医疗记录等数据。可例如将此分类数据用于构建变故类的风险特征模型。

在一个实施例中，通过征信平台的数据源获取用户的行为数据作为基础数据；可例如获取用户征信评分：各金融机构对该用户的信用评分。可例如将此分类数据用于构建征信类的风险特征模型。

在一个实施例中，通过金融平台的数据源获取用户的行为数据作为基础数据。可例如获取用户收支变化数据，包括：消费、转账、收款等。还可例如获取用户实体金融数据，包括：信用卡消费、投资理财、贷款记录等。可例如将此分类数据用于构建金融类的风险特征模型。

在一个实施例中，可例如将如下数据作为基础数据，获取用户出行数据，包括：交通费用、交通费类别(机票、火车、大巴、公交、自驾)、使用频率、里程(距离)。可例如获取用户基础信息：性别、年龄、学历、职业、地区、婚姻状况等。可例如将此分类数据用于构建欺诈或盗号类的风险特征模型。

在S606中，通过多个历史分类数据分别训练分类算法以获取多个风险特征模型。按数据内容将用户数据分为多个子模型对应的构建中，每个子模型分别选择合适的分类器，如随机森林，逻辑回归、gbdt等方法构建风险因素模型。使得输入用户数据信息可以分别得到多个子模型对应的还款概率，作为子模型还款意愿得分p1，p2，p3，……，pn。

可例如，以有意愿的人群数据作为基础，建立该特征人群的社交活跃类的风险特征模型为例，进行说明。首先提取所有用户的社交活跃类数据，将其中有意愿有能力、有意愿无能力客户，分别标记为好、坏用户(好用户为1，坏用户为0)，选择分类器，通过以上数据进行分类器的训练。分类算法可包括随机森林，逻辑回归、gbdt等方法。本公开中的风险特征模型还可例如通过其他的机器学习分类算法建立，本公开不以此为限。

有还款能力人群建模，需提取有意愿有能力、有能力无需求客户，建模方式类似。分别对不同客户群的用户分别构建风险子模型，其他风险特征子模型的建立过程相似，不同的人群对应不同的风险子模型。但是构建子模型的过程相似，本公开在此不再赘述。

图7是根据另一示例性实施例示出的一种用户行为数据处理方法的示意图。图7示意性的说明了对于某一个待进行行为分析的用户的处理流程。

其中，在S702中，收集用户数据，将此数据作为基础数据。

在S704中，将用户数据进行预处理，预处理之后得到用户的行为数据。

在S706中，将用户的行为数据输入第一评估模型中，通过第一评估模型计算该用户的第一评估系数，该数值可认为代表该用户的还款意愿评分，记做S1，分数越高代表还款意愿越强。其中，通过历史用户的行为数据训练所述分类算法以获取第一评估模型。

在S708中，将用户的行为数据输入第二评估模型中，通过第二评估模型计算该用户的第二评估系数，该数值可认为代表该用户的还款能力评分，记做S2，分数越高代表还款能力越强。其中，通过历史用户的行为数据训练所述分类算法以获取第二评估模型。

在S710中，数据过滤，可例如，对应上文中计算得到的用户数据，如果该用户S1<c1且S2<c2，则判断该用户为无意愿无能力客群，直接进入催收程序。(阈值c1,c2为预先设定的阈值，该阈值可例如通过经验数据获得。)

在S7101中，第一风险因素推断，将S1》c1，S2》c2的用户行为数据继续输入到多个子模型中，分别确定风险因素的得分情况。根据该用户S1与S2得分的情况，分别将其输入到对应于该分类的子模型中，本公开以6个风险因素子模型的计算为例，进行示意性说明。将用户数据输入到该用户S1与S2评分对应的第一风险因素模型中，第一风险因素可例如为收支风险因素，可例如，将该用户行为数据进行分类，可例如，获取用户收支变化数据，包括：消费、转账、收款。将以上数据输入第一风险因素模型中以获取评分，该评分可记为P1，分数越高代表从该项因素看，用户可能还款的几率越高。

其中，将历史用户行为数据进行分类，生成多个历史分类数据；通过多个历史分类数据分别训练分类算法以获取第一风险因素模型中以及后文中的其他风险因素模型。

在S7102中，第二风险因素推断，将用户数据输入第二风险因素模型中，第二风险因素可例如为资信风险因素，可例如，将该用户行为数据进行分类，可例如获取用户征信分。将用户数据输入到该用户S1与S2评分对应第二风险因素模型中以获取评分，该评分可记为P2，分数越高代表从该项因素看，用户可能还款的几率越高。

在S7103中，第三风险因素推断，将用户数据输入第三风险因素模型中，第三风险因素可例如为变故风险因素，可例如，将该用户行为数据进行分类，可例如获取用户的健康医疗：运动记录、医疗记录。将用户数据输入到该用户S1与S2评分对应的第三风险因素模型中以获取评分，该评分可记为P3，分数越高代表从该项因素看，用户可能还款的几率越高。

在S7104中，第四风险因素推断，将用户数据输入第四风险因素模型中，第二风险因素可例如为盗号风险因素，可例如，将该用户行为数据进行分类，可例如，获取用户的交通费用、交通费类别(机票、火车、大巴、公交、自驾)、使用频率、里程(距离)等。将用户数据输入到该用户S1与S2评分对应的第四风险因素模型中以获取评分，该评分可记为P4，分数越高代表从该项因素看，用户可能还款的几率越高。

在S7105中，第五风险因素推断，将用户数据输入第五风险因素模型中，第五风险因素可例如为欺诈风险因素，可例如，将该用户行为数据进行分类，可例如，获取用户基础信息：性别、年龄、学历、职业、地区、婚姻状况等。将用户数据输入到该用户S1与S2评分对应的第五风险因素模型中以获取评分，该评分可记为P5，分数越高代表从该项因素看，用户可能还款的几率越高。

在S7106中，第六风险因素推断，将用户数据输入第六风险因素模型中，第六风险因素可例如为社交活跃风险因素，可例如，将该用户行为数据进行分类，可例如，获取用户社交活跃性数据，包括：社交软件登录、社交好友数、聊天、评论点赞、表情头像、游戏等。用户兴趣变化数据，包括：公众号阅读、朋友圈、XX兴趣群、XX兴趣部落。将用户数据输入到该用户S1与S2评分对应的第六风险因素模型中以获取评分，该评分可记为P6，分数越高代表从该项因素看，用户可能还款的几率越高。

在S712中，得通过以上步骤得到的S1，S2，p1，p2，p3，p4，p5，p6，按照分数排序，记录在该用户的信息列表中。最后将所有用户的信息列表整合起来得到风险因素及分数列表，供下一步催收分级使用。

综上，本公开的用户行为数据处理方法，通过两层模型分析，确定用户的风险评级。

第一层为客户分群模型：分别按还款意愿、还款能力两个角度分别建立模型，得到客户的还款意愿评分S1，还款能力评分S2。

表一：每个分群下面对应的好坏用户

第二层为风险因素推断：对于无能力、无意愿人群不推断风险因素，直接进入催收环节。对于其他类型的客户推断风险因素，再根据风险因素采取合理的催收措施。分别针对有还款意愿，或是有还款能力的客户，分别建立多个子模型(例如，第一风险模型为收支模型、第二风险模型为资信模型、第三风险模型为变故模型、第四风险模型为盗号模型、第五风险模型为欺诈模型、第六风险模型为社交活跃模型)，根据子模型推断风险因素评分情况。

根据本公开的用户行为数据处理方法，首先根据还款意愿S1排序，然后根据还款能力S2排序，并将每个用户的6个子模型得分从高到低列出，得到用户风险因素列表。不良资产管理公司根据评分及列表，作为催收顺序、强度安排的参考因素，发起个性化催收程序。

根据本公开的用户行为数据处理方法，通过催收分级的方式，有助于提高收回欠款的可能性，降低坏账率。有助于合理安排催收顺序，催收强度，提高催收效率。

根据本公开的用户行为数据处理方法，扩大考虑的因素，不局限于线下场景数据，能够对用户的债务情况进行更全面评估。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图8是根据一示例性实施例示出的一种用户行为数据处理装置的框图。用户行为数据处理装置80包括：数据获取模块802，用户分群模块804，风险概率模块806，级别确定模块808。

其中，数据获取模块802用于通过多个数据源获取用户的行为数据。例如，通过多个数据源获取用户的基础数据；以及将所述基础数据进行数据预处理以获取用户的所述行为数据。

用户分群模块804用于根据所述行为数据确定所述用户的第一评估系数与第二评估系数。例如，将所述行为数据输入第一评估模型以获取所述第一评估系数S1；所述第一评估模型通过分类算法建立。所述分类算法，包括：随机森林分类算法、逻辑回归分类算法、以及梯度提升决策树分类算法。还可例如，将所述行为数据输入第二评估模型以获取所述第二评估系数S2；所述第二评估模型通过分类算法建立。所述分类算法，包括：随机森林分类算法、逻辑回归分类算法、以及梯度提升决策树分类算法。

风险概率模块806用于根据所述行为数据确定所述用户的多个风险特征概率。例如，将所述行为数据进行分类，生成多个分类数据，将所述多个分类数据分别输入到与其对应的风险特征模型以获取多个风险特征概率；以及风险特征模型通过分类算法建立。所述分类算法，包括：随机森林分类算法、逻辑回归分类算法、以及梯度提升决策树分类算法。

级别确定模块808用于通过所述第一评估系数、所述第二评估系数，以及所述多个风险特征概率确定所述用户的风险级别。通过上文得到的第一评估系数、所述第二评估系数，以及第一个风险特征的概率记为p1，第二个风险特征的概率记为p2，以此类推，第n个风险特征的概率记为pn，综合评定用户的风险级别。

在一个实施例中，第一评估系数大于等于第一阈值，第二评估系数小于第二阈值的用户可认为是有意愿但是无能力还款的用户，可例如将此类用户确定为第三风险等级用户；对于此类用户可通过放宽时间等措施，给予其更多的时间进行还款。

根据本公开的用户行为数据处理装置，通过借助于多种来源的用户互联网中的社交数据以及金融等数据，进而能够综合考量用户还款的第一评估系数、第二评估系数风险特征概率，从而能够对欠款用户进行风险等级分级及风险因素分析，以便债权人合理安排催收顺序，催收强度，提高催收效率。

图9是根据另一示例性实施例示出的一种用户行为数据处理装置的框图。用户行为数据处理装置90在包括图8所示的模块之外，还包括：第一评估模型模块902，第二评估模型将模块904，风险特征模型模块906。

其中，第一评估模型模块902用于将所述行为数据输入第一评估模型以获取所述第一评估系数，所述第二评估模型通过分类算法建立。

第二评估模型模块904用于所述行为数据输入第二评估模型以获取所述第二评估系数，所述第一评估模型通过分类算法建立。

风险特征模型模块906用于通过历史分类数据训练分类算法以获取风险特征模型，所述风险特征模型通过分类算法建立。

图10是根据一示例性实施例示出的一种电子设备的框图。

下面参照图10来描述根据本公开的这种实施方式的电子设备1000。图10显示的电子设备1000仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于：至少一个处理单元1010、至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030、显示单元1040等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1010执行，使得所述处理单元1010执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元1010可以执行如图3，4，5，6，7中所示的步骤。

所述存储单元1020可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)10201和/或高速缓存存储单元10202，还可以进一步包括只读存储单元(ROM)10203。

所述存储单元1020还可以包括具有一组(至少一个)程序模块10205的程序/实用工具10204，这样的程序模块10205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1030可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1000也可以与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1000交互的设备通信，和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且，电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器1060可以通过总线1030与电子设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如上文所示的各个步骤。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

此外，本说明书说明书附图所示出的结构、比例、大小等，均仅用以配合说明书所公开的内容，以供本领域技术人员了解与阅读，并非用以限定本公开可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本公开所能产生的技术效果及所能实现的目的下，均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语，也仅为便于叙述的明了，而非用以限定本公开可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当也视为本公开可实施的范畴。

Claims

1.一种用户行为数据处理方法，其特征在于，包括：

通过多个数据源获取用户的行为数据；

根据所述行为数据确定所述用户的第一评估系数与第二评估系数，所述第一评估系数表示所述用户的意愿强度，所述第二评估系数表示所述用户的能力强度；

根据所述行为数据确定所述用户的多个风险特征概率；以及

通过所述第一评估系数、所述第二评估系数，以及所述多个风险特征概率确定所述用户的风险级别。

2.如权利要求1所述的方法，其特征在于，通过多个数据源获取用户的行为数据包括：

通过多个数据源获取用户的基础数据；以及

将所述基础数据进行数据预处理以获取用户的所述行为数据。

3.如权利要求2所述的方法，其特征在于，将所述基础数据进行数据预处理以获取用户的所述行为数据包括：

去除所述基础数据中的存疑数据以生成所述行为数据；

去除所述基础数据中的异常值数据以生成所述行为数据；

对所述基础数据进行缺失值填补以生成所述行为数据；以及

去除所述基础数据中的重复数据以生成所述行为数据。

4.如权利要求1所述的方法，其特征在于，所述通过多个数据源获取用户的行为数据包括：

通过社交平台的数据源获取用户的行为数据；

通过医疗平台的数据源获取用户的行为数据；

通过征信平台的数据源获取用户的行为数据；和/或

通过金融平台的数据源获取用户的行为数据。

5.如权利要求1所述的方法，其特征在于，根据所述行为数据确定所述用户的第一评估系数与第二评估系数包括：

将所述行为数据输入第一评估模型以获取所述第一评估系数；

所述第一评估模型通过分类算法建立。

6.如权利要求1所述的方法，其特征在于，根据所述行为数据确定所述用户的第一评估系数与第二评估系数包括：

将所述行为数据输入第二评估模型以获取所述第二评估系数；

所述第二评估模型通过分类算法建立。

7.如权利要求5、6任一所述的方法，其特征在于，根据所述行为数据确定所述用户的第一评估系数与第二评估系数还包括：

通过历史用户的行为数据训练所述分类算法以获取所述第一评估模型；以及

通过历史用户的行为数据训练所述分类算法以获取所述第二评估模型。

8.如权利要求1所述的方法，其特征在于，根据所述行为数据确定所述用户的多个风险特征概率包括：

将所述行为数据进行分类，生成多个分类数据，其中一个分类数据与一个风险特征模型对应；

将所述多个分类数据分别输入到与其对应的风险特征模型以获取多个风险特征概率；以及

风险特征模型通过分类算法建立。

9.如权利要求8所述的方法，其特征在于，根据所述行为数据确定所述用户的多个风险特征概率包括：

将历史用户行为数据进行分类，生成多个历史分类数据；

通过多个历史分类数据分别训练分类算法以获取所述多个风险特征模型。

10.如权利要求1所述的方法，其特征在于，通过所述第一评估系数、所述第二评估系数，以及所述多个风险特征概率确定所述用户的风险级别包括：

将所述第一评估系数小于第一阈值，且所述第二评估系数小于第二阈值的用户确定为第一风险等级的用户。

11.如权利要求1所述的方法，其特征在于，通过所述第一评估系数、所述第二评估系数，以及所述多个风险特征概率确定所述用户的风险级别包括：

对所述第一评估系数大于等于第一阈值，或所述第二评估系数大于等于第二阈值的用户，计算其对应的多个风险特征概率的综合值；以及

通过所述综合值确定所述用户的风险等级。

12.一种用户行为数据处理装置，其特征在于，包括：

数据获取模块，用于通过多个数据源获取用户的行为数据；

用户分群模块，用于根据所述行为数据确定所述用户的第一评估系数与第二评估系数；

风险概率模块，用于根据所述行为数据确定所述用户的多个风险特征概率；以及

级别确定模块，用于通过所述第一评估系数、所述第二评估系数，以及所述多个风险特征概率确定所述用户的风险级别。

13.如权利要求12所述的装置，其特征在于，还包括：

第一评估模型模块，用于通过历史用户的行为数据训练分类算法以获取第一评估模型；

第二评估模型模块，用于通过历史用户的行为数据训练分类算法以获取第二评估模型；以及

风险特征模型模块，用于通过历史分类数据训练分类算法以获取风险特征模型。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。

15.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-11中任一所述的方法。