CN112990369A - 一种基于社交网络的逃废债行为识别方法及系统 - Google Patents
一种基于社交网络的逃废债行为识别方法及系统 Download PDFInfo
- Publication number
- CN112990369A CN112990369A CN202110450980.5A CN202110450980A CN112990369A CN 112990369 A CN112990369 A CN 112990369A CN 202110450980 A CN202110450980 A CN 202110450980A CN 112990369 A CN112990369 A CN 112990369A
- Authority
- CN
- China
- Prior art keywords
- debt
- model
- group
- user
- social network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000002699 waste material Substances 0.000 title claims abstract description 109
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000006399 behavior Effects 0.000 title description 19
- 238000013145 classification model Methods 0.000 claims abstract description 30
- 238000000691 measurement method Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 238000005065 mining Methods 0.000 claims description 10
- 238000012797 qualification Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000003111 delayed effect Effects 0.000 claims description 3
- 238000011835 investigation Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000009412 basement excavation Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000009977 dual effect Effects 0.000 abstract 1
- 238000002790 cross-validation Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Technology Law (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及人工智能与软件系统技术领域,尤其是一种基于社交网络的逃废债行为识别方法及系统。本发明通过挖掘用户关联的QQ/微信群相关信息,分别构建基于AUC的XGBoost二分类模型和基于多分类logloss损失函数的XGBoost多分类模型,即逃废债群判别模型和逃废债等级,并通过模型系统部署双重模型,在风控系统贷前实时调用,“事前判断”用户逃废债等级,将逃废债高风险用户拦之门外,真正做到防范于未然,大大的降低了逃废债带来的资金损失。
Description
技术领域
本发明涉及人工智能与软件系统技术领域,尤其是一种基于社交网络的逃废债行为识别方法及系统。
背景技术
逃废债是一种民事违约行为,不是所有的欠债都是逃废债,它强调债务 人的主观故意,确切地说,有履行能力而不尽力履行债务的行为就是逃废债。 逃废债的主要特征有:第一,逾期时间超过6个月,甚至更长;第二,贷款 额比较大,相关法律条款中没有明确规定这较大到底有多大,但我们可以参 考信用卡的相关条款,制定了5万元的法律界定线;第三,已进行了合法催 收环节和必要的催收,违法的催收行为不再此范畴,有证据表明借款人有能 力还款,但拒绝还款。
受逃废债产业链的影响,金融机构资产端受创严重,逾期和不良情况激增。在令人堪忧的不良率指标背后,无论是银行、持牌消费金融公司,还是小贷公司、互金机构,都面临着逃废债产业链的侵扰。
当前行业关于逃废债问题的解决方案,主要是通过事后司法打击的方式进行。对于金融机构来说,“事前预防”远比“事后治理”来得更为重要。通过深入研究逃废债用户行为,发现逃废债用户一般都会通过微信或QQ与逃废债黑产中介联系,进而加入逃废债群。
综上所述,本发明提出了一种基于社交网络的逃废债行为识别方法及系统,可以起到“事前预防”逃废债的问题。
发明内容
针对上述现有技术中存在的不足,本发明的目的在于提供一种基于社交网络的逃废债行为识别方法及系统,解决当前行业关于逃废债无法做到“事前预防”的问题。
为解决上述问题,本发明公开了一种基于社交网络的逃废债行为识别方法,包括以下步骤:
步骤1:种子样本挖掘
通过爬虫技术获取各类群相关信息,最终由案件调查员对群及群成员进行案件定性,形成种子样本;
步骤2:社交网络构建
采用开源的Neo4j图形数据库,构建基于社交网络的逃废债群关系图谱;
步骤3:基于社交网络的特征挖掘
从社交网络基础属性、网络节点群的统计属性、一度关联特征、二度关联特征和社交网络关联特征5个维度构建社交网络的特征体系;
步骤4:构建基于XGBoost的逃废债群二分类模型
基于人工标记的“是否逃废债群”标签及基于社交网络加工的群特征,采用XGBoost算法,构建逃废债群二分类模型,以AUC为度量方法,生成最优的逃废债群判别模型;
步骤5:构建基于XGBoost的逃废债等级多分类模型
基于人工标记的“群用户逃废债等级”标签及基于社交网络加工的用户特征,采用XGBoost算法,构建用户逃废债等级多分类模型,以多分类logloss损失函数为度量方法,生成最优的逃废债等级模型;
步骤6:模型部署
通过模型系统配置模型入参和模型出参,导入逃废债群判别模型的PMML文件和逃废债等级模型的PMML文件,并生成API接口供风控系统调用;模型系统主要包括模型属性模块、模型入参模块、模型文件模块、模型出参4个模块内容;
步骤7:策略应用
分别在贷前、贷中环节通过风控系统调用逃废债模型,综合识别逃废债风险,并实时拦截逃废债高风险用户。
作为优选,步骤1具体包括以下步骤:
步骤1.1:逃废债群判别定性
基于与逃废债的相关性对群定性打标,判别是否为逃废债群,若是,则标记为1,否则标记为0;
步骤1.2:群成员逃废债等级定性打标
对逃废债群里的成员进行逃废债等级标记,主要分为4类,标记为0,1,2,3,等级越高,风险越高;其中逃废债等级0,表示无逃废债风险用户;逃废债等级1,表示逃废债低风险;逃废债等级2,表示逃废债中风险用户;逃废债等级3,表示逃废债高风险用户。
作为优选,步骤2具体包括以下步骤:
步骤2.1:群信息爬虫
通过python的itchat库爬虫群相关信息;
步骤2.2:基于社交网络的逃废债群关系图谱
采用开源的Neo4j图形数据库构建基于社交网络的逃废债群关系图谱;关系图谱由网络节点和网络关系组成,其中网络节点有2类,用户和群;网络关系表示用户和群之间的关联关系,包括:群主关系、群成员关系两大类。
作为优选,步骤3具体包括以下步骤:
步骤3.1:社交网络基础属性
基础属性包括网络节点和网络关系的基础属性,网络节点包括群和用户,其中群的基础属性包括:群聊名称、群聊备注、群聊ID、群公告、是否为逃废债群;用户的基础属性包括:群成员ID、群成员昵称、群成员性别、群成员签名、群成员省份、群成员城市;网络关系基础属性包括用户与群的关系,包括:是否群主、是否普通用户;
步骤3.2:网络节点群的统计属性
统计属性指的是基于群的统计属性,包括2类加工方式,即:人数统计和比例统计;人数统计指的是统计某个群节点中满足某种条件的群成员人数,比例统计指的是统计某个群节点中满足某种条件的群成员占比;
步骤3.3:一度关联特征
基于查询用户,统计以该用户为中心点,一度关联范围内的关联属性信息,其中一度关联范围指的是中心节点-关联的群-群成员范围;一度关联特征包括:一度关联的群属性和一度关联的用户属性;一度关联的群属性,即统计中心用户一度关联范围内满足某条件的群个数;一度关联的用户属性,即统计中心用户一度关联范围内满足某条件的用户个数;
步骤3.4:二度关联特征
基于查询用户统计以该用户为中心点,二度关联范围内的关联属性信息,其中二度关联范围指的是中心节点-关联的群-群成员-群成员关联的群-群成员范围;二度关联特征包括:二度关联的群属性和二度关联的用户属性;二度关联的群属性,即统计中心用户二度关联范围内满足某条件的群个数;二度关联的用户属性,即统计中心用户二度关联范围内满足某条件的用户个数;
步骤3.5:社交网络关联特征
基于查询用户,统计该用户所在的社交网络范围内的关联属性信息;社交网络关联特征包括:社交网络关联的群属性和社交网络关联的用户属性;社交网络关联的群属性,即统计中心用户社交网络关联范围内满足某条件的群个数;社交网络关联的用户属性,即统计中心用户社交网络关联范围内满足某条件的用户个数。
作为优选,步骤4具体包括以下步骤:
步骤4.1:数据预处理
步骤4.2:模型训练
采用XGBoost二分类方法,寻找最优的函数,使得和的误差最小;通过python的xgboost库进行模型训练和参数调整,设置最小化的损失函数参数objective=’binary:logistic’,即:二分类的逻辑回归,返回预测的概率;设置度量方法参数eval_metric=’auc’,即ROC曲线下与坐标轴围成的面积,数值越大模型效果越优;并采用交叉验证的方式对模型进行验证;
步骤4.3:模型选择与模型确定
选择最优的分类模型,并输出逃废债群判别模型的PMML文件。
作为优选,步骤5具体包括以下步骤:
步骤5.1:数据预处理
以用户ID为主键,人工标记的“群用户逃废债等级”为目标变量,记作其中表示该用户为非逃废债用户,表示该用户为逃废债低风险用户,表示该用户为逃废债中风险用户,表示该用户为逃废债高风险用户;以基于社交网络的用户特征集和为自变量,假设该集合包含个特征变量,记作;
步骤5.2:模型训练
采用XGBoost多分类方法,寻找最优的函数,使得和的误差最小;通过python的xgboost库进行模型训练和参数调整,设置最小化的损失函数参数objective=’multi:softmax’,即:softmax的多分类器,返回预测的类别;并设置类别数目num_class=4;设置度量方法参数eval_metric=’ mlogloss’,即:多分类logloss损失函数;并采用交叉验证的方式对模型进行验证;
步骤5.3:模型选择与模型确定
选择最优的分类模型,并输出逃废债等级模型的PMML文件。
作为优选,步骤6具体包括以下步骤:
步骤6.1:模型属性配置
在模型系统配置模型属性变量,包括模型名称、模型编号、计算周期、创建人、响应设置、异常返回、备注合计7个配置参数;模型名称表示模型的中文名;模型编号为模型的唯一主键,由字母、数字及下划线组成;计算周期表示模型调用时的延迟计算时间,可通过系统配置延时的具体分钟数;创建人即模型的管理人员;响应设置,为了满足不同业务的调用响应时长需求,通过界面设置最大响应时长,若超过该时长则返回空;异常返回,当系统发生故障时为保障业务连续性,设置模型的返回值;备注,即对该模型其余信息的补充说明;
步骤6.2:模型入参
在模型系统中配置模型的入参信息,选择模型文件所需的所有参数特征;
步骤6.3:模型文件
在模型系统中配置上传模型PMML文件,选择该模型包含的所有子模型的PMML文件;
步骤6.4:模型出参
在模型系统中配置模型的输出变量,输出参数默认为JSON字符串,用户可通过界面自定义选择需要输出的变量值。
作为优选,步骤7具体包括以下步骤:
步骤7.1:贷前授信环节实时应用
在用户授信环节,通过风控系统实时调用逃废债模型,针对于逃废债高风险用户做拒绝处理,逃废债中风险用户做转人工处理,逃废债低风险用户结合其他变量制定综合策略;
步骤7.2:贷中信维阶段定时应用
在用户贷中环节,通过风控系统定期调用逃废债模型,查看用户逃废债风险变化情况,针对于由逃废债低风险变成逃废债高风险的用户做冻结额度处理,逃废债中风险用户做提前入催处理。
作为优选,还包括步骤8:基于步骤7的识别结果,进行案件调查,人工定性,收集更多的样本标签,即重复步骤1到7的流程,持续监控模型效果。
为解决上述问题,本发明还公开了一种基于社交网络的逃废债行为识别系统,包括以下7大模块:
种子样本挖掘模块:通过爬虫技术获取各类群相关信息,最终由案件调查员对群及群成员进行案件定性,形成种子样本;
社交网络构建模块:采用开源的Neo4j图形数据库,构建基于社交网络的逃废债群关系图谱;
基于社交网络的特征挖掘模块:从社交网络基础属性、网络节点群的统计属性、一度关联特征、二度关联特征和社交网络关联特征5个维度构建社交网络的特征体系;
构建基于XGBoost的逃废债群二分类模型模块:基于人工标记的“是否逃废债群”标签及基于社交网络加工的群特征,采用XGBoost算法,构建逃废债群二分类模型,以AUC为度量方法,生成最优的逃废债群判别模型;
构建基于XGBoost的逃废债等级多分类模型模块:基于人工标记的“群用户逃废债等级”标签及基于社交网络加工的用户特征,采用XGBoost算法,构建用户逃废债等级多分类模型,以多分类logloss损失函数为度量方法,生成最优的逃废债等级模型;
模型部署模块:通过模型系统配置模型入参和模型出参,导入逃废债群判别模型的PMML文件和逃废债等级模型的PMML文件,并生成API接口供风控系统调用;模型系统主要包括模型属性模块、模型入参模块、模型文件模块、模型出参4个模块内容;
策略应用模块:分别在贷前、贷中环节通过风控系统调用逃废债模型,综合识别逃废债风险,并实时拦截逃废债高风险用户。
由于采用上述技术方案,本发明有着如下有益效果:
1、本发明从逃废债群体行为模式入手,重新定义了逃废债行为,并构建了一种用于“事前识别”的逃废债行为识别模型及系统,从贷前拦截打击逃废债行为;较传统的“事后打击”的解决方法,大大降低了金融机构的风险损失,保障了金融机构的资产质量,为行业提供了打击逃废债的新思路;
2、本发明基于串行建模的思路框架,构建了基于XGBoost的逃废债群二分类模型和基于XGBoost的逃废债等级多分类模型,大大提升了逃废债群体识别的准确性;
3、本发明从种子样本挖掘、社交网络构建、到模型部署及策略应用,实现了繁琐流程的线上标准化;特别是模型系统,通过界面化的方式部署模型,降低了模型部署的复杂程度;
4、本发明基于社交网络构建了基于群和用户的关系图谱,并提出了5种特征挖掘方法,从群属性及用户属性双维度构建社交网络特征,最大程度的挖掘了社交网络的显著信息。
附图说明
图1是一种基于社交网络的逃废债行为识别方法;
图2是基于社交网络的逃废债群关系图谱;
图3是模型系统模块图示;
图4是模型系统模型属性配置界面;
图5是模型系统模型入参配置界面;
图6是模型系统模型文件配置界面;
图7是模型系统模型出参配置界面。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
在银行信贷业务场景,为事前识别拦截逃废债风险用户降低风险损失,本发明提供一个具体实例以说明:
步骤1:种子样本挖掘。为事前预防识别逃废债行为,通过深入研究逃废债群体的行为模式及逃废债黑产中介的运营模式,本文提出了一个新概念“逃废债行为”,并赋予其新的含义。通过潜入多个逃废债群,挖掘逃废债群信息,并通过爬虫技术获取各类群相关信息,最终由案件调查员对群及群成员进行案件定性,形成种子样本。
步骤1.1:逃废债群判别定性。为深入研究逃废债群的特性,案调人员加入多个金融群、贷款投诉群、疑似逃废债群等微信/QQ群,基于与逃废债的相关性对群定性打标,判别是否为逃废债群,若是,则标记为1,否则标记为0。
步骤1.2:群成员逃废债等级定性打标。对逃废债群里的成员进行逃废债等级标记,主要分为4类,标记为0,1,2,3,等级越高,风险越高。
步骤2:社交网络构建。图形数据库是NoSQL数据库的一种类型,它应用图形理论存储实体之间的关系信息。采用开源的Neo4j图形数据库,构建基于社交网络的逃废债群关系图谱。
步骤2.1:群信息爬虫。通过python的itchat库爬虫群相关信息。具体包括:群聊名称、群聊备注、群聊ID、群成员是否群主、群成员ID、群成员昵称、群成员性别、群成员签名、群成员省份、群成员城市等信息。
步骤2.2:基于社交网络的逃废债群关系图谱。采用开源的Neo4j图形数据库构建基于社交网络的逃废债群关系图谱。关系图谱由网络节点和网络关系组成,其中网络节点有2类,用户和群;网络关系表示用户和群之间的关联关系,包括:群主关系、群成员关系两大类。
步骤3:基于社交网络的特征挖掘。基于社交网络,挖掘显著特征,用以识别逃废债群和用户逃废债风险等级。本文从社交网络基础属性、网络节点群的统计属性、一度关联特征、二度关联特征、社交网络关联特征5个维度构建社交网络的特征体系。
步骤3.1:社交网络基础属性。基础属性包括网络节点和网络关系的基础属性。网络节点包括群和用户,其中群的基础属性包括:群聊名称、群聊备注、群聊ID、群公告、是否为逃废债群等,分别记作;用户的基础属性包括:群成员ID、群成员昵称、群成员性别、群成员签名、群成员省份、群成员城市、群成员逃废债等级等,分别记作。网络关系基础属性包括用户与群的关系,包括:是否群主、是否普通用户,分别记作。
步骤3.2:网络节点群的统计属性。统计属性指的是基于群的统计属性,包括2类加工方式,即:人数统计和比例统计。人数统计指的是统计某个群节点中满足某种条件的群成员人数,如:群总人数、群中女性人数、群中逃废债等级为3的用户的人数、群中逃废债等级为2的人数、群中逃废债等级为1的人数、群中城市为一线城市(北京、上海、广州、深圳)的人数,分别记作。比例统计指的是统计某个群节点中满足某种条件的群成员占比,如:群中女性人数占比、群中逃废债等级>=1的用户占比、群中逃废债等级>=3的用户占比、群中昵称名字大于等于10个字的用户占比、群中城市为一线城市的人数占比,分别记作。
步骤3.3:一度关联特征。基于查询用户,统计以该用户为中心点,一度关联范围内的关联属性信息,其中一度关联范围指的是中心节点-关联的群-群成员范围。一度关联特征包括:一度关联的群属性和一度关联的用户属性。一度关联的群属性,即统计中心用户一度关联范围内满足某条件的群个数,如:中心用户一度关联范围内的逃废债群个数、中心用户一度关联范围内的群中男性人数占比大于80%的群个数、中心用户一度关联范围内的群中群中逃废债用户大于等于10个的群个数,分别记作。一度关联的用户属性,即统计中心用户一度关联范围内满足某条件的用户个数,如:中心用户一度关联范围内的女性人数、中心用户一度关联范围内逃废债群关联的总人数、中心用户一度关联内一线城市人数、中心用户一度关联内逃废债等级为3的用户人数、中心用户一度关联内群间的最大关联人数,分别记作。
步骤3.4:二度关联特征。基于查询用户,统计以该用户为中心点,二度关联范围内的关联属性信息,其中二度关联范围指的是中心节点-关联的群-群成员-群成员关联的群-群成员范围。二度关联特征包括:二度关联的群属性和二度关联的用户属性。二度关联的群属性,即统计中心用户二度关联范围内满足某条件的群个数,如:中心用户二度关联范围内的逃废债群个数、中心用户二度关联范围内的群中男性人数占比大于80%的群个数、中心用户二度联范围内的群中群中逃废债用户大于等于10个的群个数,分别记作。二度关联的用户属性,即统计中心用户二度关联范围内满足某条件的用户个数,如:中心用户二度关联范围内的女性人数、中心用户二度关联范围内逃废债群关联的总人数、中心用户二度关联内一线城市人数、中心用户二度关联内逃废债等级为3的用户人数、中心用户二度关联内群间的最大关联人数,分别记作。
步骤3.5:社交网络关联特征。基于查询用户,统计该用户所在的社交网络范围内的关联属性信息。社交网络关联特征包括:社交网络关联的群属性和社交网络关联的用户属性。社交网络关联的群属性,即统计中心用户社交网络关联范围内满足某条件的群个数,如:中心用户社交网络关联范围内的逃废债群个数、中心用户社交网络关联范围内的群中男性人数占比大于80%的群个数、中心用户社交网络关联范围内的群中逃废债用户大于等于10个的群个数,分别记作。社交网络关联的用户属性,即统计中心用户社交网络关联范围内满足某条件的用户个数,如:中心用户社交网络关联范围内的女性人数、中心用户社交网络关联范围内逃废债群关联的总人数、中心用户社交网络关联内一线城市人数、中心用户社交网络关联内逃废债等级为3的用户人数、中心用户社交网络关联内群间的最大关联人数,分别记作。
步骤4:构建基于XGBoost的逃废债群二分类模型。基于人工标记的“是否逃废债群”标签及基于社交网络加工的群特征,采用XGBoost算法,构建逃废债群二分类模型,以AUC为度量方法,生成最优的逃废债群判别模型。
步骤4.2。模型训练。采用XGBoost二分类方法,寻找最优的函数,使得和的误差最小。通过python的xgboost库进行模型训练和参数调整,设置最小化的损失函数参数objective=’binary:logistic’,即:二分类的逻辑回归,返回预测的概率;设置度量方法参数eval_metric=’auc’,即ROC曲线下与坐标轴围成的面积,数值越大模型效果越优;并采用交叉验证的方式对模型进行验证。
步骤4.3:模型选择与模型确定。选择最优的分类模型,并输出逃废债群判别模型的PMML文件。
步骤5:构建基于XGBoost的逃废债等级多分类模型。基于人工标记的“群用户逃废债等级”标签及基于社交网络加工的用户特征,采用XGBoost算法,构建用户逃废债等级多分类模型,以多分类logloss损失函数为度量方法,生成最优的逃废债等级模型。
步骤5.1:数据预处理。以用户ID为主键,人工标记的“群用户逃废债等级”为目标变量,记作其中表示该用户为非逃废债用户,表示该用户为逃废债低风险用户,表示该用户为逃废债中风险用户,表示该用户为逃废债高风险用户;以基于社交网络的用户特征集和为自变量,记作。
步骤5.2。模型训练。采用XGBoost多分类方法,寻找最优的函数,使得和的误差最小。通过python的xgboost库进行模型训练和参数调整,设置最小化的损失函数参数objective=’ multi:softmax’,即:softmax的多分类器,返回预测的类别;并设置类别数目num_class=4;设置度量方法参数eval_metric=’ mlogloss’,即:多分类logloss损失函数;并采用交叉验证的方式对模型进行验证。
步骤5.3:模型选择与模型确定。选择最优的分类模型,并输出逃废债等级模型的PMML文件。
步骤6:模型部署。通过模型系统配置模型入参和模型出参,导入逃废债群判别模型的PMML文件和逃废债等级模型的PMML文件,并生成API接口供风控系统调用。模型系统主要包括模型属性模块、模型入参模块、模型文件模块、模型出参4个模块内容。
步骤6.1:模型属性配置。在模型系统配置模型属性变量,包括模型名称、模型编号、计算周期、创建人、响应设置、异常返回、备注合计7个配置参数。模型名称设置为“逃废债模型”;模型编号设置为“TFZ_MODE”;计算周期通过系统配置延时的具体分钟数为0,即实时运行;创建人即模型的管理人员;响应设置,设置最大响应时长为300ms,若超过该时长则返回空;异常返回,当系统发生故障时为保障业务连续性,设置模型的返回值为“-99”;备注设置为“逃费债模型将输出逃废债群判别模型和逃废债行为识别模型”。
步骤6.3:模型文件。在模型系统中配置上传模型PMML文件,选择该模型包含的所有子模型的PMML文件。
步骤7:策略应用。分别在贷前、贷中环节通过风控系统调用逃废债模型,综合识别逃废债风险,并实时拦截逃废债高风险用户。
步骤7.1:贷前授信环节实时应用。在用户授信环节,通过风控系统实时调用逃废债模型,针对于逃废债高风险用户()做拒绝处理,逃废债中风险用户()做转人工处理,逃废债低风险用户()结合其他变量制定综合策略。
步骤7.2:贷中信维阶段定时应用。在用户贷中环节,通过风控系统定期调用逃废债模型,查看用户逃废债风险变化情况,针对于由逃废债低风险变成逃废债高风险的用户做冻结额度处理,逃废债中风险用户做提前入催处理。
步骤8:模型优化。基于步骤7的识别结果,进行案件调查,人工定性,收集更多的样本标签,并定期开展模型优化工作,即重复步骤1到7的流程,持续监控模型效果。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于社交网络的逃废债行为识别方法,其特征在于,包括:
步骤1:种子样本挖掘
通过爬虫技术获取各类群相关信息,最终由案件调查员对群及群成员进行案件定性,形成种子样本;
步骤2:社交网络构建
采用开源的Neo4j图形数据库,构建基于社交网络的逃废债群关系图谱;
步骤3:基于社交网络的特征挖掘
从社交网络基础属性、网络节点群的统计属性、一度关联特征、二度关联特征和社交网络关联特征5个维度构建社交网络的特征体系;
步骤4:构建基于XGBoost的逃废债群二分类模型
基于人工标记的“是否逃废债群”标签及基于社交网络加工的群特征,采用XGBoost算法,构建逃废债群二分类模型,以AUC为度量方法,生成最优的逃废债群判别模型;
步骤5:构建基于XGBoost的逃废债等级多分类模型
基于人工标记的“群用户逃废债等级”标签及基于社交网络加工的用户特征,采用XGBoost算法,构建用户逃废债等级多分类模型,以多分类logloss损失函数为度量方法,生成最优的逃废债等级模型;
步骤6:模型部署
通过模型系统配置模型入参和模型出参,导入逃废债群判别模型的PMML文件和逃废债等级模型的PMML文件,并生成API接口供风控系统调用;模型系统主要包括模型属性模块、模型入参模块、模型文件模块、模型出参4个模块内容;
步骤7:策略应用
分别在贷前、贷中环节通过风控系统调用逃废债模型,综合识别逃废债风险,并实时拦截逃废债高风险用户。
2.根据权利要求1所述的一种基于社交网络的逃废债行为识别方法,其特征在于,步骤1具体包括以下步骤:
步骤1.1:逃废债群判别定性
基于与逃废债的相关性对群定性打标,判别是否为逃废债群,若是,则标记为1,否则标记为0;
步骤1.2:群成员逃废债等级定性打标
对逃废债群里的成员进行逃废债等级标记,主要分为4类,标记为0,1,2,3,等级越高,风险越高;其中逃废债等级0,表示无逃废债风险用户;逃废债等级1,表示逃废债低风险;逃废债等级2,表示逃废债中风险用户;逃废债等级3,表示逃废债高风险用户。
3.根据权利要求2所述的一种基于社交网络的逃废债行为识别方法,其特征在于,步骤2具体包括以下步骤:
步骤2.1:群信息爬虫
通过python的itchat库爬虫群相关信息;
步骤2.2:基于社交网络的逃废债群关系图谱
采用开源的Neo4j图形数据库构建基于社交网络的逃废债群关系图谱;关系图谱由网络节点和网络关系组成,其中网络节点有2类,用户和群;网络关系表示用户和群之间的关联关系,包括:群主关系、群成员关系两大类。
4.根据权利要求3所述的一种基于社交网络的逃废债行为识别方法,其特征在于,步骤3具体包括以下步骤:
步骤3.1:社交网络基础属性
基础属性包括网络节点和网络关系的基础属性,网络节点包括群和用户,其中群的基础属性包括:群聊名称、群聊备注、群聊ID、群公告、是否为逃废债群;用户的基础属性包括:群成员ID、群成员昵称、群成员性别、群成员签名、群成员省份、群成员城市;网络关系基础属性包括用户与群的关系,包括:是否群主、是否普通用户;
步骤3.2:网络节点群的统计属性
统计属性指的是基于群的统计属性,包括2类加工方式,即:人数统计和比例统计;人数统计指的是统计某个群节点中满足某种条件的群成员人数,比例统计指的是统计某个群节点中满足某种条件的群成员占比;
步骤3.3:一度关联特征
基于查询用户,统计以该用户为中心点,一度关联范围内的关联属性信息,其中一度关联范围指的是中心节点-关联的群-群成员范围;一度关联特征包括:一度关联的群属性和一度关联的用户属性;一度关联的群属性,即统计中心用户一度关联范围内满足某条件的群个数;一度关联的用户属性,即统计中心用户一度关联范围内满足某条件的用户个数;
步骤3.4:二度关联特征
基于查询用户统计以该用户为中心点,二度关联范围内的关联属性信息,其中二度关联范围指的是中心节点-关联的群-群成员-群成员关联的群-群成员范围;二度关联特征包括:二度关联的群属性和二度关联的用户属性;二度关联的群属性,即统计中心用户二度关联范围内满足某条件的群个数;二度关联的用户属性,即统计中心用户二度关联范围内满足某条件的用户个数;
步骤3.5:社交网络关联特征
基于查询用户,统计该用户所在的社交网络范围内的关联属性信息;社交网络关联特征包括:社交网络关联的群属性和社交网络关联的用户属性;社交网络关联的群属性,即统计中心用户社交网络关联范围内满足某条件的群个数;社交网络关联的用户属性,即统计中心用户社交网络关联范围内满足某条件的用户个数。
5.根据权利要求4所述的一种基于社交网络的逃废债行为识别方法,其特征在于,步骤4具体包括以下步骤:
步骤4.1:数据预处理
步骤4.2:模型训练
采用XGBoost二分类方法,寻找最优的函数,使得和的误差最小;通过python的xgboost库进行模型训练和参数调整,设置最小化的损失函数参数objective=’binary:logistic’,即:二分类的逻辑回归,返回预测的概率;设置度量方法参数eval_metric=’auc’,即ROC曲线下与坐标轴围成的面积,数值越大模型效果越优;并采用交叉验证的方式对模型进行验证;
步骤4.3:模型选择与模型确定
选择最优的分类模型,并输出逃废债群判别模型的PMML文件。
6.根据权利要求5所述的一种基于社交网络的逃废债行为识别方法,其特征在于,步骤5具体包括以下步骤:
步骤5.1:数据预处理
以用户ID为主键,人工标记的“群用户逃废债等级”为目标变量,记作其中表示该用户为非逃废债用户,表示该用户为逃废债低风险用户,表示该用户为逃废债中风险用户,表示该用户为逃废债高风险用户;以基于社交网络的用户特征集和为自变量,假设集合包含个特征变量,记作;
步骤5.2:模型训练
采用XGBoost多分类方法,寻找最优的函数,使得和的误差最小;通过python的xgboost库进行模型训练和参数调整,设置最小化的损失函数参数objective=’multi:softmax’,即:softmax的多分类器,返回预测的类别;并设置类别数目num_class=4;设置度量方法参数eval_metric=’ mlogloss’,即:多分类logloss损失函数;并采用交叉验证的方式对模型进行验证;
步骤5.3:模型选择与模型确定
选择最优的分类模型,并输出逃废债等级模型的PMML文件。
7.根据权利要求6所述的一种基于社交网络的逃废债行为识别方法,其特征在于,步骤6具体包括以下步骤:
步骤6.1:模型属性配置
在模型系统配置模型属性变量,包括模型名称、模型编号、计算周期、创建人、响应设置、异常返回、备注合计7个配置参数;模型名称表示模型的中文名;模型编号为模型的唯一主键,由字母、数字及下划线组成;计算周期表示模型调用时的延迟计算时间,可通过系统配置延时的具体分钟数;创建人即模型的管理人员;响应设置,为了满足不同业务的调用响应时长需求,通过界面设置最大响应时长,若超过该时长则返回空;异常返回,当系统发生故障时为保障业务连续性,设置模型的返回值;备注,即对该模型其余信息的补充说明;
步骤6.2:模型入参
在模型系统中配置模型的入参信息,选择模型文件所需的所有参数特征;
步骤6.3:模型文件
在模型系统中配置上传模型PMML文件,选择该模型包含的所有子模型的PMML文件;
步骤6.4:模型出参
在模型系统中配置模型的输出变量,输出参数默认为JSON字符串,用户可通过界面自定义选择需要输出的变量值。
8.根据权利要求7所述的一种基于社交网络的逃废债行为识别方法,其特征在于,步骤7具体包括以下步骤:
步骤7.1:贷前授信环节实时应用
在用户授信环节,通过风控系统实时调用逃废债模型,针对于逃废债高风险用户做拒绝处理,逃废债中风险用户做转人工处理,逃废债低风险用户结合其他变量制定综合策略;
步骤7.2:贷中信维阶段定时应用
在用户贷中环节,通过风控系统定期调用逃废债模型,查看用户逃废债风险变化情况,针对于由逃废债低风险变成逃废债高风险的用户做冻结额度处理,逃废债中风险用户做提前入催处理。
9.根据权利要求8所述的一种基于社交网络的逃废债行为识别方法,其特征在于,还包括步骤8:基于步骤7的识别结果,进行案件调查,人工定性,收集更多的样本标签,即重复步骤1到7的流程,持续监控模型效果。
10.一种基于社交网络的逃废债行为识别系统,其特征在于,包括以下7大模块:
种子样本挖掘模块:通过爬虫技术获取各类群相关信息,最终由案件调查员对群及群成员进行案件定性,形成种子样本;
社交网络构建模块:采用开源的Neo4j图形数据库,构建基于社交网络的逃废债群关系图谱;
基于社交网络的特征挖掘模块:从社交网络基础属性、网络节点群的统计属性、一度关联特征、二度关联特征和社交网络关联特征5个维度构建社交网络的特征体系;
构建基于XGBoost的逃废债群二分类模型模块:基于人工标记的“是否逃废债群”标签及基于社交网络加工的群特征,采用XGBoost算法,构建逃废债群二分类模型,以AUC为度量方法,生成最优的逃废债群判别模型;
构建基于XGBoost的逃废债等级多分类模型模块:基于人工标记的“群用户逃废债等级”标签及基于社交网络加工的用户特征,采用XGBoost算法,构建用户逃废债等级多分类模型,以多分类logloss损失函数为度量方法,生成最优的逃废债等级模型;
模型部署模块:通过模型系统配置模型入参和模型出参,导入逃废债群判别模型的PMML文件和逃废债等级模型的PMML文件,并生成API接口供风控系统调用;模型系统主要包括模型属性模块、模型入参模块、模型文件模块、模型出参4个模块内容;
策略应用模块:分别在贷前、贷中环节通过风控系统调用逃废债模型,综合识别逃废债风险,并实时拦截逃废债高风险用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110450980.5A CN112990369B (zh) | 2021-04-26 | 2021-04-26 | 一种基于社交网络的逃废债行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110450980.5A CN112990369B (zh) | 2021-04-26 | 2021-04-26 | 一种基于社交网络的逃废债行为识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990369A true CN112990369A (zh) | 2021-06-18 |
CN112990369B CN112990369B (zh) | 2021-10-08 |
Family
ID=76340213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110450980.5A Active CN112990369B (zh) | 2021-04-26 | 2021-04-26 | 一种基于社交网络的逃废债行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990369B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007090036A (ja) * | 2005-09-02 | 2007-04-12 | Mvno Co Ltd | 遊技装置用遊技媒体貸出システム |
CN106651190A (zh) * | 2016-12-28 | 2017-05-10 | 深圳微众税银信息服务有限公司 | 一种企业风险等级评估方法以及系统 |
CN107194803A (zh) * | 2017-05-19 | 2017-09-22 | 南京工业大学 | 一种p2p网贷借款人信用风险评估的装置 |
CN107749031A (zh) * | 2017-11-29 | 2018-03-02 | 南京甄视智能科技有限公司 | 贷后风险控制系统的自动更新方法、贷后风险控制系统 |
CN110188198A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种基于知识图谱的反欺诈方法及装置 |
CN110263227A (zh) * | 2019-05-15 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 基于图神经网络的团伙发现方法和系统 |
US10482542B1 (en) * | 2015-10-23 | 2019-11-19 | Hrb Innovations, Inc. | Tax fraud detection through linked relationships |
CN110619568A (zh) * | 2019-09-17 | 2019-12-27 | 王文斌 | 风险评估报告的生成方法、装置、设备及存储介质 |
CN111401798A (zh) * | 2020-06-02 | 2020-07-10 | 南京百敖软件有限公司 | 一种企业逃废债风险预警系统及构建方法 |
US20200327514A1 (en) * | 2019-04-09 | 2020-10-15 | Chia-Yeh Hsu | Debt repayment system and debt management method |
CN112200340A (zh) * | 2019-08-08 | 2021-01-08 | 北京天德博源科技有限公司 | 预测逃废债区块链系统 |
CN112396151A (zh) * | 2020-11-09 | 2021-02-23 | 江汉大学 | 谣言事件的分析方法、装置、设备及计算机可读存储介质 |
CN112613977A (zh) * | 2020-12-17 | 2021-04-06 | 中国建设银行股份有限公司 | 一种基于政务数据的个人信用贷款准入授信方法及系统 |
-
2021
- 2021-04-26 CN CN202110450980.5A patent/CN112990369B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007090036A (ja) * | 2005-09-02 | 2007-04-12 | Mvno Co Ltd | 遊技装置用遊技媒体貸出システム |
US10482542B1 (en) * | 2015-10-23 | 2019-11-19 | Hrb Innovations, Inc. | Tax fraud detection through linked relationships |
CN106651190A (zh) * | 2016-12-28 | 2017-05-10 | 深圳微众税银信息服务有限公司 | 一种企业风险等级评估方法以及系统 |
CN107194803A (zh) * | 2017-05-19 | 2017-09-22 | 南京工业大学 | 一种p2p网贷借款人信用风险评估的装置 |
CN107749031A (zh) * | 2017-11-29 | 2018-03-02 | 南京甄视智能科技有限公司 | 贷后风险控制系统的自动更新方法、贷后风险控制系统 |
US20200327514A1 (en) * | 2019-04-09 | 2020-10-15 | Chia-Yeh Hsu | Debt repayment system and debt management method |
CN110188198A (zh) * | 2019-05-13 | 2019-08-30 | 北京一览群智数据科技有限责任公司 | 一种基于知识图谱的反欺诈方法及装置 |
CN110263227A (zh) * | 2019-05-15 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 基于图神经网络的团伙发现方法和系统 |
CN112200340A (zh) * | 2019-08-08 | 2021-01-08 | 北京天德博源科技有限公司 | 预测逃废债区块链系统 |
CN110619568A (zh) * | 2019-09-17 | 2019-12-27 | 王文斌 | 风险评估报告的生成方法、装置、设备及存储介质 |
CN111401798A (zh) * | 2020-06-02 | 2020-07-10 | 南京百敖软件有限公司 | 一种企业逃废债风险预警系统及构建方法 |
CN112396151A (zh) * | 2020-11-09 | 2021-02-23 | 江汉大学 | 谣言事件的分析方法、装置、设备及计算机可读存储介质 |
CN112613977A (zh) * | 2020-12-17 | 2021-04-06 | 中国建设银行股份有限公司 | 一种基于政务数据的个人信用贷款准入授信方法及系统 |
Non-Patent Citations (3)
Title |
---|
JUN ZHUO 等: "Research on Risk Assessment of International Factoring Financing Business: Illustrated by the Example of Bank A Zhejiang Branch", 《2016 JOINT INTERNATIONAL CONFERENCE ON ECONOMICS AND MANAGEMENT ENGINEERING (ICEME 2016) AND》 * |
YOLANDA: "XGBoost多分类预测", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/107682092》 * |
互连众信: "提醒各位借款人:个人信用无价,远离恶意逃废债", 《HTTPS://WWW.SOHU.COM/A/437370479_229411》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112990369B (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7522731B2 (ja) | マネーロンダリング防止分析のためのシステムおよび方法 | |
US20220358516A1 (en) | Advanced learning system for detection and prevention of money laundering | |
CN109492945A (zh) | 企业风险识别监控方法、装置、设备及存储介质 | |
CN112767136A (zh) | 基于大数据的信贷反欺诈识别方法、装置、设备及介质 | |
CN108492001A (zh) | 一种用于担保贷款网络风险管理的方法 | |
CN113139876B (zh) | 风险模型训练方法、装置、计算机设备及可读存储介质 | |
Van Thiel et al. | Artificial intelligent credit risk prediction: An empirical study of analytical artificial intelligence tools for credit risk prediction in a digital era | |
US20220351209A1 (en) | Automated fraud monitoring and trigger-system for detecting unusual patterns associated with fraudulent activity, and corresponding method thereof | |
Yang et al. | Deepcredit: Exploiting user cickstream for loan risk prediction in p2p lending | |
Barman et al. | A complete literature review on financial fraud detection applying data mining techniques | |
CN115564449A (zh) | 交易账户的风险管控方法、装置及电子设备 | |
Breslow et al. | The new frontier in anti–money laundering | |
Tatineni et al. | Enhancing Financial Security: Data Science's Role in Risk Management and Fraud Detection | |
CN110347669A (zh) | 基于流式大数据分析的风险防范方法 | |
CN118096170A (zh) | 风险预测方法及装置、设备、存储介质和程序产品 | |
Ni et al. | A Victim‐Based Framework for Telecom Fraud Analysis: A Bayesian Network Model | |
CN112990369B (zh) | 一种基于社交网络的逃废债行为识别方法及系统 | |
Eshghi et al. | Introducing a method for combining supervised and semi-supervised methods in fraud detection | |
Kamusweke et al. | Data mining for fraud detection in large scale financial transactions | |
US20240232892A1 (en) | Computerized-method for identifying synthetic identity fraud operating a financial-activity in a digital financial account, in a financial institution | |
Kawahara et al. | Cash flow prediction of a bank deposit using scalable graph analysis and machine learning | |
US11348115B2 (en) | Method and apparatus for identifying risky vertices | |
CN114066624A (zh) | 基于图计算的黑名单关联图谱挖掘方法及系统 | |
Hou et al. | A Trial of Student Self‐Sponsored Peer‐to‐Peer Lending Based on Credit Evaluation Using Big Data Analysis | |
Gandhi et al. | Navigating the Complexity of Money Laundering: Anti–money Laundering Advancements with AI/ML Insights |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |