CN112990369A

CN112990369A - 一种基于社交网络的逃废债行为识别方法及系统

Info

Publication number: CN112990369A
Application number: CN202110450980.5A
Authority: CN
Inventors: 王萍; 贾坤
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2021-06-18
Anticipated expiration: 2041-04-26
Also published as: CN112990369B

Abstract

本发明涉及人工智能与软件系统技术领域，尤其是一种基于社交网络的逃废债行为识别方法及系统。本发明通过挖掘用户关联的QQ/微信群相关信息，分别构建基于AUC的XGBoost二分类模型和基于多分类logloss损失函数的XGBoost多分类模型，即逃废债群判别模型和逃废债等级，并通过模型系统部署双重模型，在风控系统贷前实时调用，“事前判断”用户逃废债等级，将逃废债高风险用户拦之门外，真正做到防范于未然，大大的降低了逃废债带来的资金损失。

Description

一种基于社交网络的逃废债行为识别方法及系统

技术领域

本发明涉及人工智能与软件系统技术领域,尤其是一种基于社交网络的逃废债行为识别方法及系统。

背景技术

逃废债是一种民事违约行为，不是所有的欠债都是逃废债，它强调债务人的主观故意，确切地说，有履行能力而不尽力履行债务的行为就是逃废债。逃废债的主要特征有：第一，逾期时间超过6个月，甚至更长；第二，贷款额比较大，相关法律条款中没有明确规定这较大到底有多大，但我们可以参考信用卡的相关条款，制定了5万元的法律界定线；第三，已进行了合法催收环节和必要的催收，违法的催收行为不再此范畴，有证据表明借款人有能力还款，但拒绝还款。

受逃废债产业链的影响，金融机构资产端受创严重，逾期和不良情况激增。在令人堪忧的不良率指标背后，无论是银行、持牌消费金融公司，还是小贷公司、互金机构，都面临着逃废债产业链的侵扰。

当前行业关于逃废债问题的解决方案，主要是通过事后司法打击的方式进行。对于金融机构来说，“事前预防”远比“事后治理”来得更为重要。通过深入研究逃废债用户行为，发现逃废债用户一般都会通过微信或QQ与逃废债黑产中介联系，进而加入逃废债群。

综上所述，本发明提出了一种基于社交网络的逃废债行为识别方法及系统，可以起到“事前预防”逃废债的问题。

发明内容

针对上述现有技术中存在的不足，本发明的目的在于提供一种基于社交网络的逃废债行为识别方法及系统，解决当前行业关于逃废债无法做到“事前预防”的问题。

为解决上述问题，本发明公开了一种基于社交网络的逃废债行为识别方法，包括以下步骤：

步骤1：种子样本挖掘

通过爬虫技术获取各类群相关信息，最终由案件调查员对群及群成员进行案件定性，形成种子样本；

步骤2：社交网络构建

采用开源的Neo4j图形数据库，构建基于社交网络的逃废债群关系图谱；

步骤3：基于社交网络的特征挖掘

从社交网络基础属性、网络节点群的统计属性、一度关联特征、二度关联特征和社交网络关联特征5个维度构建社交网络的特征体系；

步骤4：构建基于XGBoost的逃废债群二分类模型

基于人工标记的“是否逃废债群”标签及基于社交网络加工的群特征，采用XGBoost算法，构建逃废债群二分类模型，以AUC为度量方法，生成最优的逃废债群判别模型；

步骤5：构建基于XGBoost的逃废债等级多分类模型

基于人工标记的“群用户逃废债等级”标签及基于社交网络加工的用户特征，采用XGBoost算法，构建用户逃废债等级多分类模型，以多分类logloss损失函数为度量方法，生成最优的逃废债等级模型；

步骤6：模型部署

通过模型系统配置模型入参和模型出参，导入逃废债群判别模型的PMML文件和逃废债等级模型的PMML文件，并生成API接口供风控系统调用；模型系统主要包括模型属性模块、模型入参模块、模型文件模块、模型出参4个模块内容；

步骤7：策略应用

分别在贷前、贷中环节通过风控系统调用逃废债模型，综合识别逃废债风险，并实时拦截逃废债高风险用户。

作为优选，步骤1具体包括以下步骤：

步骤1.1：逃废债群判别定性

基于与逃废债的相关性对群定性打标，判别是否为逃废债群，若是，则标记为1，否则标记为0；

步骤1.2：群成员逃废债等级定性打标

对逃废债群里的成员进行逃废债等级标记，主要分为4类，标记为0，1，2，3，等级越高，风险越高；其中逃废债等级0，表示无逃废债风险用户；逃废债等级1，表示逃废债低风险；逃废债等级2，表示逃废债中风险用户；逃废债等级3，表示逃废债高风险用户。

作为优选，步骤2具体包括以下步骤：

步骤2.1：群信息爬虫

通过python的itchat库爬虫群相关信息；

步骤2.2：基于社交网络的逃废债群关系图谱

采用开源的Neo4j图形数据库构建基于社交网络的逃废债群关系图谱；关系图谱由网络节点和网络关系组成，其中网络节点有2类，用户和群；网络关系表示用户和群之间的关联关系，包括：群主关系、群成员关系两大类。

作为优选，步骤3具体包括以下步骤：

步骤3.1：社交网络基础属性

基础属性包括网络节点和网络关系的基础属性，网络节点包括群和用户，其中群的基础属性包括：群聊名称、群聊备注、群聊ID、群公告、是否为逃废债群；用户的基础属性包括：群成员ID、群成员昵称、群成员性别、群成员签名、群成员省份、群成员城市；网络关系基础属性包括用户与群的关系，包括：是否群主、是否普通用户；

步骤3.2：网络节点群的统计属性

统计属性指的是基于群的统计属性，包括2类加工方式，即：人数统计和比例统计；人数统计指的是统计某个群节点中满足某种条件的群成员人数，比例统计指的是统计某个群节点中满足某种条件的群成员占比；

步骤3.3：一度关联特征

基于查询用户，统计以该用户为中心点，一度关联范围内的关联属性信息，其中一度关联范围指的是中心节点-关联的群-群成员范围；一度关联特征包括：一度关联的群属性和一度关联的用户属性；一度关联的群属性，即统计中心用户一度关联范围内满足某条件的群个数；一度关联的用户属性，即统计中心用户一度关联范围内满足某条件的用户个数；

步骤3.4：二度关联特征

基于查询用户统计以该用户为中心点，二度关联范围内的关联属性信息，其中二度关联范围指的是中心节点-关联的群-群成员-群成员关联的群-群成员范围；二度关联特征包括：二度关联的群属性和二度关联的用户属性；二度关联的群属性，即统计中心用户二度关联范围内满足某条件的群个数；二度关联的用户属性，即统计中心用户二度关联范围内满足某条件的用户个数；

步骤3.5：社交网络关联特征

基于查询用户，统计该用户所在的社交网络范围内的关联属性信息；社交网络关联特征包括：社交网络关联的群属性和社交网络关联的用户属性；社交网络关联的群属性，即统计中心用户社交网络关联范围内满足某条件的群个数；社交网络关联的用户属性，即统计中心用户社交网络关联范围内满足某条件的用户个数。

作为优选，步骤4具体包括以下步骤：

步骤4.1：数据预处理

以群ID为主键，人工标记的“是否逃废债群”为目标变量，记作

其中

表示该群为非逃废债群，

表示该群为逃废债群；以基于社交网络的群特征集为自变量，假设该集合包含

个特征变量，记作

；

步骤4.2：模型训练

采用XGBoost二分类方法，寻找最优的函数

，使得

和

的误差最小；通过python的xgboost库进行模型训练和参数调整，设置最小化的损失函数参数objective=’binary:logistic’，即：二分类的逻辑回归，返回预测的概率；设置度量方法参数eval_metric=’auc’，即ROC曲线下与坐标轴围成的面积，数值越大模型效果越优；并采用交叉验证的方式对模型进行验证；

步骤4.3：模型选择与模型确定

选择最优的分类模型，并输出逃废债群判别模型的PMML文件。

作为优选，步骤5具体包括以下步骤：

步骤5.1：数据预处理

以用户ID为主键，人工标记的“群用户逃废债等级”为目标变量，记作

其中

表示该用户为非逃废债用户，

表示该用户为逃废债低风险用户，

表示该用户为逃废债中风险用户，

表示该用户为逃废债高风险用户；以基于社交网络的用户特征集和

为自变量，假设该集合包含

个特征变量，记作

；

步骤5.2：模型训练

采用XGBoost多分类方法，寻找最优的函数

，使得

和

的误差最小；通过python的xgboost库进行模型训练和参数调整，设置最小化的损失函数参数objective=’multi:softmax’，即：softmax的多分类器，返回预测的类别；并设置类别数目num_class=4；设置度量方法参数eval_metric=’ mlogloss’，即：多分类logloss损失函数；并采用交叉验证的方式对模型进行验证；

步骤5.3：模型选择与模型确定

选择最优的分类模型，并输出逃废债等级模型的PMML文件。

作为优选，步骤6具体包括以下步骤：

步骤6.1：模型属性配置

在模型系统配置模型属性变量，包括模型名称、模型编号、计算周期、创建人、响应设置、异常返回、备注合计7个配置参数；模型名称表示模型的中文名；模型编号为模型的唯一主键，由字母、数字及下划线组成；计算周期表示模型调用时的延迟计算时间，可通过系统配置延时的具体分钟数；创建人即模型的管理人员；响应设置，为了满足不同业务的调用响应时长需求，通过界面设置最大响应时长，若超过该时长则返回空；异常返回，当系统发生故障时为保障业务连续性，设置模型的返回值；备注，即对该模型其余信息的补充说明；

步骤6.2：模型入参

在模型系统中配置模型的入参信息，选择模型文件所需的所有参数特征；

步骤6.3：模型文件

在模型系统中配置上传模型PMML文件，选择该模型包含的所有子模型的PMML文件；

步骤6.4：模型出参

在模型系统中配置模型的输出变量，输出参数默认为JSON字符串，用户可通过界面自定义选择需要输出的变量值。

作为优选，步骤7具体包括以下步骤：

步骤7.1：贷前授信环节实时应用

在用户授信环节，通过风控系统实时调用逃废债模型，针对于逃废债高风险用户做拒绝处理，逃废债中风险用户做转人工处理，逃废债低风险用户结合其他变量制定综合策略；

步骤7.2：贷中信维阶段定时应用

在用户贷中环节，通过风控系统定期调用逃废债模型，查看用户逃废债风险变化情况，针对于由逃废债低风险变成逃废债高风险的用户做冻结额度处理，逃废债中风险用户做提前入催处理。

作为优选，还包括步骤8：基于步骤7的识别结果，进行案件调查，人工定性，收集更多的样本标签，即重复步骤1到7的流程，持续监控模型效果。

为解决上述问题，本发明还公开了一种基于社交网络的逃废债行为识别系统，包括以下7大模块：

种子样本挖掘模块：通过爬虫技术获取各类群相关信息，最终由案件调查员对群及群成员进行案件定性，形成种子样本；

社交网络构建模块：采用开源的Neo4j图形数据库，构建基于社交网络的逃废债群关系图谱；

基于社交网络的特征挖掘模块：从社交网络基础属性、网络节点群的统计属性、一度关联特征、二度关联特征和社交网络关联特征5个维度构建社交网络的特征体系；

构建基于XGBoost的逃废债群二分类模型模块：基于人工标记的“是否逃废债群”标签及基于社交网络加工的群特征，采用XGBoost算法，构建逃废债群二分类模型，以AUC为度量方法，生成最优的逃废债群判别模型；

构建基于XGBoost的逃废债等级多分类模型模块：基于人工标记的“群用户逃废债等级”标签及基于社交网络加工的用户特征，采用XGBoost算法，构建用户逃废债等级多分类模型，以多分类logloss损失函数为度量方法，生成最优的逃废债等级模型；

模型部署模块：通过模型系统配置模型入参和模型出参，导入逃废债群判别模型的PMML文件和逃废债等级模型的PMML文件，并生成API接口供风控系统调用；模型系统主要包括模型属性模块、模型入参模块、模型文件模块、模型出参4个模块内容；

策略应用模块：分别在贷前、贷中环节通过风控系统调用逃废债模型，综合识别逃废债风险，并实时拦截逃废债高风险用户。

由于采用上述技术方案，本发明有着如下有益效果：

1、本发明从逃废债群体行为模式入手，重新定义了逃废债行为，并构建了一种用于“事前识别”的逃废债行为识别模型及系统，从贷前拦截打击逃废债行为；较传统的“事后打击”的解决方法，大大降低了金融机构的风险损失，保障了金融机构的资产质量，为行业提供了打击逃废债的新思路；

2、本发明基于串行建模的思路框架，构建了基于XGBoost的逃废债群二分类模型和基于XGBoost的逃废债等级多分类模型，大大提升了逃废债群体识别的准确性；

3、本发明从种子样本挖掘、社交网络构建、到模型部署及策略应用，实现了繁琐流程的线上标准化；特别是模型系统，通过界面化的方式部署模型，降低了模型部署的复杂程度；

4、本发明基于社交网络构建了基于群和用户的关系图谱，并提出了5种特征挖掘方法，从群属性及用户属性双维度构建社交网络特征，最大程度的挖掘了社交网络的显著信息。

附图说明

图1是一种基于社交网络的逃废债行为识别方法；

图2是基于社交网络的逃废债群关系图谱；

图3是模型系统模块图示；

图4是模型系统模型属性配置界面；

图5是模型系统模型入参配置界面；

图6是模型系统模型文件配置界面；

图7是模型系统模型出参配置界面。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

在银行信贷业务场景，为事前识别拦截逃废债风险用户降低风险损失，本发明提供一个具体实例以说明：

步骤1：种子样本挖掘。为事前预防识别逃废债行为，通过深入研究逃废债群体的行为模式及逃废债黑产中介的运营模式，本文提出了一个新概念“逃废债行为”，并赋予其新的含义。通过潜入多个逃废债群，挖掘逃废债群信息，并通过爬虫技术获取各类群相关信息，最终由案件调查员对群及群成员进行案件定性，形成种子样本。

步骤1.1：逃废债群判别定性。为深入研究逃废债群的特性，案调人员加入多个金融群、贷款投诉群、疑似逃废债群等微信/QQ群，基于与逃废债的相关性对群定性打标，判别是否为逃废债群，若是，则标记为1，否则标记为0。

步骤1.2：群成员逃废债等级定性打标。对逃废债群里的成员进行逃废债等级标记，主要分为4类，标记为0，1，2，3，等级越高，风险越高。

步骤2：社交网络构建。图形数据库是NoSQL数据库的一种类型，它应用图形理论存储实体之间的关系信息。采用开源的Neo4j图形数据库，构建基于社交网络的逃废债群关系图谱。

步骤2.1：群信息爬虫。通过python的itchat库爬虫群相关信息。具体包括：群聊名称、群聊备注、群聊ID、群成员是否群主、群成员ID、群成员昵称、群成员性别、群成员签名、群成员省份、群成员城市等信息。

步骤2.2：基于社交网络的逃废债群关系图谱。采用开源的Neo4j图形数据库构建基于社交网络的逃废债群关系图谱。关系图谱由网络节点和网络关系组成，其中网络节点有2类，用户和群；网络关系表示用户和群之间的关联关系，包括：群主关系、群成员关系两大类。

步骤3：基于社交网络的特征挖掘。基于社交网络，挖掘显著特征，用以识别逃废债群和用户逃废债风险等级。本文从社交网络基础属性、网络节点群的统计属性、一度关联特征、二度关联特征、社交网络关联特征5个维度构建社交网络的特征体系。

步骤3.1：社交网络基础属性。基础属性包括网络节点和网络关系的基础属性。网络节点包括群和用户，其中群的基础属性包括：群聊名称、群聊备注、群聊ID、群公告、是否为逃废债群等，分别记作

；用户的基础属性包括：群成员ID、群成员昵称、群成员性别、群成员签名、群成员省份、群成员城市、群成员逃废债等级等,分别记作

。网络关系基础属性包括用户与群的关系，包括：是否群主、是否普通用户，分别记作

。

步骤3.2：网络节点群的统计属性。统计属性指的是基于群的统计属性，包括2类加工方式，即：人数统计和比例统计。人数统计指的是统计某个群节点中满足某种条件的群成员人数，如：群总人数、群中女性人数、群中逃废债等级为3的用户的人数、群中逃废债等级为2的人数、群中逃废债等级为1的人数、群中城市为一线城市（北京、上海、广州、深圳）的人数，分别记作

。比例统计指的是统计某个群节点中满足某种条件的群成员占比，如：群中女性人数占比、群中逃废债等级>=1的用户占比、群中逃废债等级>=3的用户占比、群中昵称名字大于等于10个字的用户占比、群中城市为一线城市的人数占比，分别记作

。

步骤3.3：一度关联特征。基于查询用户，统计以该用户为中心点，一度关联范围内的关联属性信息，其中一度关联范围指的是中心节点-关联的群-群成员范围。一度关联特征包括：一度关联的群属性和一度关联的用户属性。一度关联的群属性，即统计中心用户一度关联范围内满足某条件的群个数，如：中心用户一度关联范围内的逃废债群个数、中心用户一度关联范围内的群中男性人数占比大于80%的群个数、中心用户一度关联范围内的群中群中逃废债用户大于等于10个的群个数，分别记作

。一度关联的用户属性，即统计中心用户一度关联范围内满足某条件的用户个数，如：中心用户一度关联范围内的女性人数、中心用户一度关联范围内逃废债群关联的总人数、中心用户一度关联内一线城市人数、中心用户一度关联内逃废债等级为3的用户人数、中心用户一度关联内群间的最大关联人数，分别记作

。

步骤3.4：二度关联特征。基于查询用户，统计以该用户为中心点，二度关联范围内的关联属性信息，其中二度关联范围指的是中心节点-关联的群-群成员-群成员关联的群-群成员范围。二度关联特征包括：二度关联的群属性和二度关联的用户属性。二度关联的群属性，即统计中心用户二度关联范围内满足某条件的群个数，如：中心用户二度关联范围内的逃废债群个数、中心用户二度关联范围内的群中男性人数占比大于80%的群个数、中心用户二度联范围内的群中群中逃废债用户大于等于10个的群个数，分别记作

。二度关联的用户属性，即统计中心用户二度关联范围内满足某条件的用户个数，如：中心用户二度关联范围内的女性人数、中心用户二度关联范围内逃废债群关联的总人数、中心用户二度关联内一线城市人数、中心用户二度关联内逃废债等级为3的用户人数、中心用户二度关联内群间的最大关联人数，分别记作

。

步骤3.5：社交网络关联特征。基于查询用户，统计该用户所在的社交网络范围内的关联属性信息。社交网络关联特征包括：社交网络关联的群属性和社交网络关联的用户属性。社交网络关联的群属性，即统计中心用户社交网络关联范围内满足某条件的群个数，如：中心用户社交网络关联范围内的逃废债群个数、中心用户社交网络关联范围内的群中男性人数占比大于80%的群个数、中心用户社交网络关联范围内的群中逃废债用户大于等于10个的群个数，分别记作

。社交网络关联的用户属性，即统计中心用户社交网络关联范围内满足某条件的用户个数，如：中心用户社交网络关联范围内的女性人数、中心用户社交网络关联范围内逃废债群关联的总人数、中心用户社交网络关联内一线城市人数、中心用户社交网络关联内逃废债等级为3的用户人数、中心用户社交网络关联内群间的最大关联人数，分别记作

。

步骤4：构建基于XGBoost的逃废债群二分类模型。基于人工标记的“是否逃废债群”标签及基于社交网络加工的群特征，采用XGBoost算法，构建逃废债群二分类模型，以AUC为度量方法，生成最优的逃废债群判别模型。

步骤4.1：数据预处理。以群ID为主键，人工标记的“是否逃废债群”为目标变量，记作

其中

表示该群为非逃废债群，

表示该群为逃废债群；以基于社交网络的群特征集为自变量，记作

。

步骤4.2。模型训练。采用XGBoost二分类方法，寻找最优的函数

，使得

和

的误差最小。通过python的xgboost库进行模型训练和参数调整，设置最小化的损失函数参数objective=’binary:logistic’，即：二分类的逻辑回归，返回预测的概率；设置度量方法参数eval_metric=’auc’，即ROC曲线下与坐标轴围成的面积，数值越大模型效果越优；并采用交叉验证的方式对模型进行验证。

步骤4.3：模型选择与模型确定。选择最优的分类模型，并输出逃废债群判别模型的PMML文件。

步骤5：构建基于XGBoost的逃废债等级多分类模型。基于人工标记的“群用户逃废债等级”标签及基于社交网络加工的用户特征，采用XGBoost算法，构建用户逃废债等级多分类模型，以多分类logloss损失函数为度量方法，生成最优的逃废债等级模型。

步骤5.1：数据预处理。以用户ID为主键，人工标记的“群用户逃废债等级”为目标变量，记作

其中

表示该用户为非逃废债用户，

表示该用户为逃废债低风险用户，

表示该用户为逃废债中风险用户，

为自变量，记作

。

步骤5.2。模型训练。采用XGBoost多分类方法，寻找最优的函数

，使得

和

的误差最小。通过python的xgboost库进行模型训练和参数调整，设置最小化的损失函数参数objective=’ multi:softmax’，即：softmax的多分类器，返回预测的类别；并设置类别数目num_class=4；设置度量方法参数eval_metric=’ mlogloss’，即：多分类logloss损失函数；并采用交叉验证的方式对模型进行验证。

步骤5.3：模型选择与模型确定。选择最优的分类模型，并输出逃废债等级模型的PMML文件。

步骤6：模型部署。通过模型系统配置模型入参和模型出参，导入逃废债群判别模型的PMML文件和逃废债等级模型的PMML文件，并生成API接口供风控系统调用。模型系统主要包括模型属性模块、模型入参模块、模型文件模块、模型出参4个模块内容。

步骤6.1：模型属性配置。在模型系统配置模型属性变量，包括模型名称、模型编号、计算周期、创建人、响应设置、异常返回、备注合计7个配置参数。模型名称设置为“逃废债模型”；模型编号设置为“TFZ_MODE”；计算周期通过系统配置延时的具体分钟数为0，即实时运行；创建人即模型的管理人员；响应设置，设置最大响应时长为300ms，若超过该时长则返回空；异常返回，当系统发生故障时为保障业务连续性，设置模型的返回值为“-99”；备注设置为“逃费债模型将输出逃废债群判别模型和逃废债行为识别模型”。

步骤6.2：模型入参。在模型系统中配置模型的入参信息，选择模型文件所需的所有参数特征

。

步骤6.3：模型文件。在模型系统中配置上传模型PMML文件，选择该模型包含的所有子模型的PMML文件。

步骤6.4：模型出参。在模型系统中配置模型的输出变量，输出参数默认为JSON字符串，设置模型的输出格式形如：

。

步骤7：策略应用。分别在贷前、贷中环节通过风控系统调用逃废债模型，综合识别逃废债风险，并实时拦截逃废债高风险用户。

步骤7.1：贷前授信环节实时应用。在用户授信环节，通过风控系统实时调用逃废债模型，针对于逃废债高风险用户(

)做拒绝处理，逃废债中风险用户(

)做转人工处理，逃废债低风险用户(

)结合其他变量制定综合策略。

步骤7.2：贷中信维阶段定时应用。在用户贷中环节，通过风控系统定期调用逃废债模型，查看用户逃废债风险变化情况，针对于由逃废债低风险变成逃废债高风险的用户做冻结额度处理，逃废债中风险用户做提前入催处理。

步骤8：模型优化。基于步骤7的识别结果，进行案件调查，人工定性，收集更多的样本标签，并定期开展模型优化工作，即重复步骤1到7的流程，持续监控模型效果。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。