CN110910235A - 一种基于用户关系网络的贷中异常行为检测方法 - Google Patents
一种基于用户关系网络的贷中异常行为检测方法 Download PDFInfo
- Publication number
- CN110910235A CN110910235A CN201911010274.8A CN201911010274A CN110910235A CN 110910235 A CN110910235 A CN 110910235A CN 201911010274 A CN201911010274 A CN 201911010274A CN 110910235 A CN110910235 A CN 110910235A
- Authority
- CN
- China
- Prior art keywords
- network
- information
- user
- graph
- structural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 206010000117 Abnormal behaviour Diseases 0.000 title claims abstract description 14
- 230000008859 change Effects 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 8
- 238000004891 communication Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000005295 random walk Methods 0.000 claims description 6
- 230000000977 initiatory effect Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000003068 static effect Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 11
- 230000001131 transforming effect Effects 0.000 abstract 2
- 230000003993 interaction Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011273 social behavior Effects 0.000 description 2
- 230000003997 social interaction Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Technology Law (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于用户关系网络变动的贷中异常行为检测方法,步骤如下:步骤一、构建用户关系网络;步骤二、按时序拆分子图;步骤三、网络结构特征转化;步骤三、网络结构特征转化;步骤四、网络结构特征提取;步骤五、整合连接信息和结构信息;步骤六、基于时序信息构建嵌入向量。本发明从用户社区关系这一角度创新性的考虑了拓扑结构在异常检测上的应用;融合了拓扑结构信息中的链接特征和结构特征从而进一步提高检测的准确性。
Description
技术领域
本发明一种基于用户关系网络变动的贷中异常行为检测方法,通过NE(网络结构嵌入,Network Embedding)抽取用户关系网络图连接信息、结构信息,并以其在不同时间窗口下变动量对用户信贷欺诈风险进行评估。
本发明涉及信贷领域的风险评估技术,具体涉及到信贷场景下用户网络结构变动量化。同时涉及图算法中的嵌入理论,在其之上进行了多方面考虑以提升精度。
背景技术
随着互联网技术的发展和大数据的应用,互联网金融在满足细分的个性化需求上扮演了非常重要的角色。其中互联网信贷的诞生源于满足个人信贷长尾市场的需求。个人信贷业务与经济生活中的每一个人密切相关,个人需求越来越呈现出差异性,互联网信贷模式也随之花样翻新,演变出众多新兴业态。但是,风险管理一直是金融信贷业务的核心业务。由于个人信贷业务具有“海量、高频”的特殊性,在风险管理方面,风险计量技术发挥了重要的作用。因此,大数据应用的信贷风险管理方式作用逐步凸显。
个人信贷业务通常具有单户授信金额较小的特点,看起来似乎并不受诈骗分子的青睐;同时,由于个人信贷分散化的特征,单户欺诈的发生似乎对总体业务影响并不大。而事实是伴随着互联网金融的出现,个人信贷逐步出现了造假、违约成本低的特点,甚至出现了专业化的中介组织,其中的业务风险愈演愈烈。
传统的异常行为检测多为基于用户历史行为的单点行为预测或是基于用户属性的异常检测,难以获得用户在整个社群中的拓扑关系特征。本发明旨在基于用户关系网络结构变动信息提出一种新的异常行为检测方式,从用户社交关系在各个时间窗口下的变动这一角度来进行检测。
发明内容
本发明的目的在于提供一种基于用户关系网络变动的贷中异常行为检测方法,以弥补传统异常行为检测中仅考虑单点用户而忽略用户社群关系的缺陷。
社会网络是一种基于节点之间的相互连接“网络”的社会组织形式,是从西方社会学兴起的一种分析视角。社会网络是指社会个体成员之间因为互动而形成的关系体系,社会网络关注的是人们之间的互动和通信,社会互动会影响人们的社会行为。
基于其“社会互动会影响人们的社会行为”这一理论,本发明在信贷领域中以用户社会网络关系为出发点,通过网络嵌入方法从中提取结构信息,并通过度量不同窗口下用户关系结构变化进行异常检测。
本发明基于用户之间通信构建用户关系网络,按照不同时间窗口从中抽取子图;在此基础上对每个子图进行网络嵌入计算,抽取网络结构特征,将网络结构特征表征成为不同节点(用户)的特征向量;最终分析单个用户网络结构特征在不同时间窗口下的变动情况并汇总分类,验证不同种类用户之间网络结构变动存在显著性差异。
本发明方法基本步骤包括用户关系网络构建、子图拆分、网络结构特征提取、变动量计算及差异性验证五部分,具体如下:
一、构建用户关系网络
本发明参照社会网络理论,将用户个体本身定义为节点,将用户之间的通信定义为边。具体到本发明上即将用户主动向另一用户发起的通信定义为两节点之间的有向边,从而将数据信息构建成当前用户集下的关系网络图。
即,定义
G(V,E)
其中V为用户抽象点集,E为从发起通信用户指向接受通信用户的有向边集合。
二、按时序拆分子图
根据图关系网络G边上附加信息,即用户间进行通信的时间,对图进行拆分。得到不同时间窗口下的用户关系子图:G1,G2,G3…GN;
三、网络结构特征转化
根据图关系网络G的原邻接矩阵,以每个图中节点周围一阶子图为特征,采用衡量图结构相似度的核算法比较各个子图间结构差异以作为两点之间结构差异,从而构建结构邻接矩阵。
此处邻接矩阵通过输入的图边信息转化而来:
1)构建数据全零的邻接矩阵
2)遍历边信息,修改完善相应点上的邻接矩阵权重
四、网络结构特征提取
本发明在网络结构特征提取的过程中基于Deepwalk算法进行了大量扩展。DeepWalk是一种学习网络中节点的表示方法。该方法通过将语义模型的方法用在了社交网络上,进而应用深度学习的方法,不仅可以表示节点,还可以表示出节点之间的拓扑关系,基于此表示用户在社交网络中的结构信息。
DeepWalk的主要思路是利用构造节点在网络上的随机游走路径,来模仿文本生成的过程,提供一个节点序列,然后用Skip-gram和Hierarchical Softmax模型对随机游走序列中每个局部窗口内的节点对进行概率建模,最大化随机游走序列的似然概率,并使用最终随机梯度下降学习参数。
本发明所述的网络结构特征提取整合的过程,是在步骤三种提取出来的结构邻接矩阵和原邻接矩阵上分别游走并记录两点之间游走步长,形成两个张量序列,即连接信息张量和结构信息张量;
具体如下:
S41、输入G′∈G1,G2,G3…GN,G1,G2,G3…GN为上述不同时序下子图,G′为其中任意一个子图。
S43、对结构邻接矩阵采用同样处理方式。
五、整合连接信息和结构信息
通过Attention机制压缩步骤四所获得的海量连接信息张量和结构信息张量,期间通过Infomax构建梯度下降损失函数使指标最大化以尽量减少压缩过程中的信息损失。
六、基于时序信息构建嵌入向量
S61.将步骤五压缩的连接信息和结构信息整合并通过深度神经网络和infomax指标进行融合,从而获得在静态条件下图上各个节点的嵌入向量。
S62.在得到上一时刻嵌入的基础上,使用当前时刻浅入量作为未知量,与上一时刻嵌入整合,重构网络结构。通过与真实网络结构比较,得出预测值与真实值差异,并通过最小化差异的方式反推当前时刻嵌入。
本发明方法一种基于用户关系网络变动的贷中异常行为检测方法,其优点及功效在于以下几点
1)从用户社区关系这一角度创新性的考虑了拓扑结构在异常检测上的应用;
2)融合了拓扑结构信息中的链接特征和结构特征从而进一步提高检测的准确性。
附图说明
图1基于用户动态关系网络的贷中异常行为检测方法流程图
具体实施方式
为说明本发明专利的有效性,我们基于某金融科技公司提供的用户关系网络及互联网开放数据集进行验证,下文以华融融通数据为例进行说明。
一、数据导入
本次验证数据分为两部分,第一部分为数据中带有发起通信用户id,接受通信用户id及用户通信时间,分别用于构建网络结构及分割字图。第二部分为部分用户分类信息,这里将用户按照信贷风险高低分为高风险用户和低风险用户。
通过上述图边信息转邻接矩阵的方法获取原邻接矩阵G。
二、构建用户关系网络
本次选取各个用户之间的通信关系构建社会网络结构。根据数据将单个用户抽象成图中节点,赋予唯一id,并在该节点上附加用户的标签数据。由数据中的边数据由发起通信用户向接收通信用户构造有向边,并在边上附加通信时间数据。
由此构建关系网络图G(V,E)
三、按时序拆分子图
本次选取时间窗口以月为单位,分别抽取了2018年11月,2018年12月和2019年1月的数据。
遍历关系网络图G(V,E)边信息E,若信息中通信时间存在2018年11月中则将此边用于构建子图G1。同样分别检测通信信息是否在2018年12月和2019年1月出现,若出现则分别用于构建子图G2,G3。
四、网络结构特征转化
根据关系网络图G的原邻接矩阵,使用WL-GraphKernel比较各个子图间结构差异以作为两点之间结构差异,从而构建结构邻接矩阵。此处WL-GraphKernel可以替换为其他任何衡量图结构相似度的核算法。
五、网络特征提取整合
分别在原始图邻接矩阵和步骤四中构造的结构图邻接矩阵上采用随机游走序列,分别获得连接信息相关的游走序列和结构信息相关的游走序列。
以上两个序列通过寻找带步长信息的共现对用于确定图中任意两点在连接和结构两个维度上的相似度。
六、整合连接信息和结构信息
通过Attention机制压缩步骤四所获得的海量连接信息张量和结构信息张量,期间通过Infomax构建梯度下降损失函数使指标最大化以尽量减少压缩过程中的信息损失。
七、基于时序信息构建嵌入向量
S71、静态网络嵌入
将步骤六压缩的连接信息和结构信息整合并在此通过深度神经网络和infomax指标进行融合,从而获得在静态条件下图上各个节点的嵌入向量。
S72、动态网络嵌入
在得到上一时刻嵌入的基础上,使用当前时刻浅入量作为未知量,与上一时刻嵌入整合,重构网络结构。通过与真实网络结构比较,得出预测值与真实值差异,并通过最小化差异的方式反推当前时刻嵌入。
八、验证及应用
本发明已经在诸多网络公开数据集上进行了链路预测、异常检测实验,与众多其他图嵌入算法想对比在上述应用的准确率上都有一定提升。
具体试验结果如下:
1.表1、2为链路预测AUC值对比
数据集 | DeepWalk | LINE | Node2vec | Struc2vec |
0.455 | 0.510 | 0.578 | 0.513 | |
Enron | 0.544 | 0.466 | 0.674 | 0.481 |
Math | 0.550 | 0.580 | 0.888 | 0.464 |
表1
数据集 | DynGEM | DynamicTriad | TIMERS | DySPE(本发明) |
0.501 | 0.491 | 0.498 | 0.911 | |
Enron | 0.499 | 0.521 | 0.516 | 0.861 |
Math | 0.527 | 0.562 | 0.472 | 0.904 |
表2
注:Facebook用户关系网络图,边缘代表好友关系。来源:http://networkrepository.com/fb-wosn-friends.php。
Enron邮件交互关系网络,边缘代表交互关系。来源:http://networkrepository.com/ia-enron-email-dynamic.php。
Math Overflow网站交互信息,边缘代表交互信息。来源:http://snap.stanford.edu/data/sx-mathoverflow.html。
同时,本发明法所得嵌入结果可以单纯作为一种图拓扑结构特征进行后续处理以拓展其他应用。
以上所述,仅为本发明的较佳实施样例,并非对本发明的技术范围做任何限制,故凡是依据本发明的技术实质对以上实施样例所做的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (4)
1.一种基于用户关系网络变动的贷中异常行为检测方法,其特征在于:所述的方法步骤如下:
步骤一、构建用户关系网络
参照社会网络理论,将用户个体本身定义为节点,将用户之间的通信定义为边;即将用户主动向另一用户发起的通信定义为两节点之间的有向边,从而将数据信息构建成当前用户集下的关系网络图;即,定义
G(V,E)
其中V为用户抽象点集,E为从发起通信用户指向接受通信用户的有向边集合;
步骤二、按时序拆分子图
根据关系网络图G边上附加信息,即用户间进行通信的时间,对图进行拆分;得到不同时间窗口下的用户关系子图:G1,G2,G3…GN;
步骤三、网络结构特征转化
根据图关系网络G的原邻接矩阵,以每个图中节点周围一阶子图为特征,采用衡量图结构相似度的核算法比较各个子图间结构差异以作为两点之间结构差异,从而构建结构邻接矩阵;
步骤三、网络结构特征转化
根据关系网络图的原邻接矩阵,以每个图中节点周围一阶子图为特征,采用衡量图结构相似度的核算法比较各个子图间结构差异以作为两点之间结构差异,从而构建结构邻接矩阵;
步骤四、网络结构特征提取
在步骤三种提取出来的结构邻接矩阵和原邻接矩阵上分别游走并记录两点之间游走步长,形成两个张量序列,即连接信息张量和结构信息张量;
步骤五、整合连接信息和结构信息
压缩步骤四所获得的海量连接信息张量和结构信息张量,期间通过构建梯度下降损失函数使指标最大化以尽量减少压缩过程中的信息损失;
步骤六、基于时序信息构建嵌入向量。
2.根据权利要求1所述的一种基于用户关系网络变动的贷中异常行为检测方法,其特征在于:所述的原邻接矩阵,是通过输入的图边信息转化而来:
1)构建数据全零的邻接矩阵
2)遍历边信息,修改完善相应点上的邻接矩阵权重。
4.根据权利要求1所述的一种基于用户关系网络变动的贷中异常行为检测方法,其特征在于:所述的步骤六,具体过程如下:
S61.将步骤五压缩的连接信息和结构信息整合并通过深度神经网络和infomax指标进行融合,从而获得在静态条件下图上各个节点的嵌入向量;
S62.在得到上一时刻嵌入的基础上,使用当前时刻浅入量作为未知量,与上一时刻嵌入整合,重构网络结构;通过与真实网络结构比较,得出预测值与真实值差异,并通过最小化差异的方式反推当前时刻嵌入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911010274.8A CN110910235A (zh) | 2019-10-23 | 2019-10-23 | 一种基于用户关系网络的贷中异常行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911010274.8A CN110910235A (zh) | 2019-10-23 | 2019-10-23 | 一种基于用户关系网络的贷中异常行为检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110910235A true CN110910235A (zh) | 2020-03-24 |
Family
ID=69815049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911010274.8A Pending CN110910235A (zh) | 2019-10-23 | 2019-10-23 | 一种基于用户关系网络的贷中异常行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110910235A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597401A (zh) * | 2020-05-20 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 基于图关系网络的数据处理方法、装置、设备及介质 |
CN112650968A (zh) * | 2020-11-18 | 2021-04-13 | 天津大学 | 一种多网络基于异常对齐模型的异常子图检测方法 |
CN116680633A (zh) * | 2023-05-06 | 2023-09-01 | 国网四川省电力公司广安供电公司 | 基于多任务学习的异常用户检测方法、系统及存储介质 |
-
2019
- 2019-10-23 CN CN201911010274.8A patent/CN110910235A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597401A (zh) * | 2020-05-20 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 基于图关系网络的数据处理方法、装置、设备及介质 |
CN112650968A (zh) * | 2020-11-18 | 2021-04-13 | 天津大学 | 一种多网络基于异常对齐模型的异常子图检测方法 |
CN116680633A (zh) * | 2023-05-06 | 2023-09-01 | 国网四川省电力公司广安供电公司 | 基于多任务学习的异常用户检测方法、系统及存储介质 |
CN116680633B (zh) * | 2023-05-06 | 2024-01-26 | 国网四川省电力公司广安供电公司 | 基于多任务学习的异常用户检测方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Anastasopoulos et al. | Machine learning for public administration research, with application to organizational reputation | |
CN109389151B (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN110910235A (zh) | 一种基于用户关系网络的贷中异常行为检测方法 | |
CN113407784B (zh) | 一种基于社交网络的社团划分方法、系统及存储介质 | |
CN110162711B (zh) | 一种基于网络嵌入法的资源智能推荐方法及系统 | |
CN113918833B (zh) | 通过社交网络关系的图卷积协同过滤实现的产品推荐方法 | |
CN112215604A (zh) | 交易双方关系信息识别方法及装置 | |
CN112989059A (zh) | 潜在客户识别方法及装置、设备及可读计算机存储介质 | |
Sandeep Kumar et al. | Location identification for real estate investment using data analytics | |
CN115688024A (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN115687760A (zh) | 一种基于图神经网络的用户学习兴趣标签预测方法 | |
CN116401379A (zh) | 金融产品数据推送方法、装置、设备及存储介质 | |
CN114036298B (zh) | 一种基于图卷积神经网络与词向量的节点分类方法 | |
CN115080868A (zh) | 产品推送方法、装置、计算机设备、存储介质和程序产品 | |
CN108304568B (zh) | 一种房地产公众预期大数据处理方法及系统 | |
CN116664253B (zh) | 一种基于广义矩阵分解与遮蔽注意力的项目推荐方法 | |
Ahan et al. | Social network analysis using data segmentation and neural networks | |
CN113409157A (zh) | 一种跨社交网络用户对齐方法以及装置 | |
CN114119191A (zh) | 风控方法、逾期预测方法、模型训练方法及相关设备 | |
Zhang et al. | Multi-view dynamic heterogeneous information network embedding | |
CN116304518A (zh) | 用于信息推荐的异质图卷积神经网络模型构建方法及系统 | |
CN114461943B (zh) | 基于深度学习的多源poi语义匹配方法、装置及其存储介质 | |
Chen et al. | Gaussian mixture embedding of multiple node roles in networks | |
Hamad et al. | Sentiment analysis of restaurant reviews in social media using naïve bayes | |
CN112463964B (zh) | 文本分类及模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200324 |