CN114996371A - 基于图论算法的关联企业反欺诈模型构建方法及系统 - Google Patents

基于图论算法的关联企业反欺诈模型构建方法及系统 Download PDF

Info

Publication number
CN114996371A
CN114996371A CN202210929936.7A CN202210929936A CN114996371A CN 114996371 A CN114996371 A CN 114996371A CN 202210929936 A CN202210929936 A CN 202210929936A CN 114996371 A CN114996371 A CN 114996371A
Authority
CN
China
Prior art keywords
entity
node
entities
good
bad
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210929936.7A
Other languages
English (en)
Inventor
麦健尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Zhongyingshengda Digital Technology Co ltd
Original Assignee
Guangdong Zhongyingshengda Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Zhongyingshengda Digital Technology Co ltd filed Critical Guangdong Zhongyingshengda Digital Technology Co ltd
Priority to CN202210929936.7A priority Critical patent/CN114996371A/zh
Publication of CN114996371A publication Critical patent/CN114996371A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于图论算法的关联企业反欺诈模型构建方法及系统,属于数据挖掘技术领域,其方法包括:提取实体和实体对应的属性,将实体作为图谱中的节点,于各个节点之间建立关系边线;统计每两个节点的关系深度;计算并筛选入模特征变量,划分训练样本和测试样本,训练模型并评估模型效果;其系统包括构建关联图谱模块、统计关联入模特征变量模块、筛选入模特征变量模块、划分训练和测试样本模块、训练模型模块和评估模型有效性模块。所述基于图论算法的关联企业反欺诈模型构建方法及系统解决了现有的反欺诈模型构建方式得到的反欺诈模型反映出的企业情况精准度低的问题。

Description

基于图论算法的关联企业反欺诈模型构建方法及系统
技术领域
本发明涉及数据挖掘技术领域,特别是一种基于图论算法的关联企业反欺诈模型构建方法及系统。
背景技术
金融机构对于企业的风控模型相对不够成熟完善,一方面企业信息对比个人信息维度较单一,格式化程度也较低,企业的经营信息更多停留在纸质存储且格式不一的物流收发单、水电单、发票订单以及未经审计的财务报表,反映企业真实经营状况有限;另一方面,现有的针对企业的征信产品大同小异,主要是公开的工商和司法涉诉信息,虽然提供了企业间的关联信息,但只是局部的部分关联,而且没有进一步结合企业本身的经营标签作为客群好坏区分,如此,用得到的反欺诈模型反映出的企业情况精准度低。
发明内容
针对上述缺陷,本发明的一个目的在于提出一种基于图论算法的关联企业反欺诈模型构建方法,解决了现有的反欺诈模型构建方式得到的反欺诈模型反映出的企业情况精准度低的问题。
针对上述缺陷,本发明的另一个目的在于提出一种基于图论算法的关联企业反欺诈模型构建系统,解决了现有的反欺诈模型构建方式得到的反欺诈模型反映出的企业情况精准度低的问题。
为达此目的,本发明采用以下技术方案:一种基于图论算法的关联企业反欺诈模型构建方法,包括:
构建关联图谱步骤:从传统关系型数据库中获取原业务数据,并提取原业务数据中的实体和实体对应的属性,将实体作为图谱中的节点,于各个节点之间建立关系边线;其中,所述实体为原业务数据中的企业和个人,实体对应的属性包括实体的好坏标签;
统计关联入模特征变量步骤:利用Dijkstra算法计算图谱中任意两个节点间的最短路径后,统计每两个节点的关系深度为
Figure DEST_PATH_IMAGE001
度,计算关系深度为
Figure DEST_PATH_IMAGE002
度下的维度属性关联指标,得到特征变量,其中,
Figure DEST_PATH_IMAGE003
为两个节点间的最短路径的关系边线的数量,且
Figure DEST_PATH_IMAGE004
筛选入模特征变量步骤:根据实体的好坏标签以及不同深度的特征变量,计算每个特征变量对应的特征性能评估指标IV;筛选出IV大于0.02的特征变量作为入模特征变量;
划分训练和测试样本步骤:根据随机种子将含有入模特征变量的全部实体划分为训练样本和测试样本;
训练模型步骤:将训练样本输入LR逻辑回归模型进行训练;
评估模型有效性步骤:将测试样本输入到训练后的LR逻辑回归模型得到输出的模型预测结果,将输出的模型预测结果结合测试样本的好坏标签,计算训练后的LR逻辑回归模型的KS指标和AUC指标;输出KS指标位于KS有效阈值区间以及AUC指标大于AUC有效阈值的训练后的LR逻辑回归模型。
值得说明的是,在所述统计关联入模特征变量步骤中,所述Dijkstra算法具体为:
S1:设定图谱G={V,E},其中V为图谱中的所有节点的集合,E为各个节点之间的关系边线的集合;设定集合S={V0},V0为在集合V中随机选取的首节点;设定未确定最短路径的节点的集合T=V-S;计算集合T中的所有节点与首节点V0的距离d(V0,Vi),Vi为集合T中的第i个节点;当节点Vi与首节点V0能在集合E中寻找到直接的关系边线时,距离d(V0,Vi)为首节点V0和节点Vi之间的弧上的权值;当节点Vi与首节点V0没有在集合E中寻找到直接的关系边线时,距离d(V0,Vi)为无限大;
S2:从集合T中选取一个与集合S中的首节点V0能建立关系边线且距离d(V0,Vi)最小的节点Vi作为中间节点W,并加入到集合S中;
S3:将中间节点W从集合T中删除以更新集合T,计算集合T中的所有节点与首节点V0的距离d(V0,Vi);当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)小于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时,将距离d(V0,Vi)更新为加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi);当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)大于或等于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时,不更新距离d(V0,Vi);
重复步骤S2和S3,直到集合T内的节点数为0为止。
可选地,在所述筛选入模特征变量步骤中,特征变量对应的特征性能评估指标IV的计算公式为:
Figure DEST_PATH_IMAGE005
其中,对于每个特征变量,于该特征变量的值域内按卡方分箱方式分为
Figure DEST_PATH_IMAGE006
个分箱,
Figure DEST_PATH_IMAGE007
为该特征变量中第
Figure DEST_PATH_IMAGE008
个分箱的好坏标签为坏的实体的数量,
Figure DEST_PATH_IMAGE009
为该特征变量中第
Figure DEST_PATH_IMAGE010
个分箱的好坏标签为好的实体的数量,
Figure DEST_PATH_IMAGE011
为原业务数据中好坏标签为坏的实体的数量,
Figure 100002_DEST_PATH_IMAGE012
为原业务数据中好坏标签为好的实体的数量,
Figure 100002_DEST_PATH_IMAGE014
具体地,在所述评估模型有效性步骤中,KS指标的计算步骤为:
利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值;
根据模型结果分值对所有实体进行升序排列,并对升序排列后的所有实体进行等距分组;
单独计算每个分组的好实体比率
Figure DEST_PATH_IMAGE016
Figure 100002_DEST_PATH_IMAGE017
表示第j分组中好坏标签为好的实体的累计数量占原业务数据中好坏标签为好的实体的数量的比率,j=1,……y,y为分组数,并计算好实体累加比率,所述好实体累加比率包括
Figure 100002_DEST_PATH_IMAGE019
Figure 100002_DEST_PATH_IMAGE021
,其中
Figure 436932DEST_PATH_IMAGE019
为第1个分组的比率
Figure DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
为第1个分组的比率
Figure 100002_DEST_PATH_IMAGE025
至第y个分组的比率
Figure 100002_DEST_PATH_IMAGE027
的总和;单独计算每个分组的坏实体比率
Figure 100002_DEST_PATH_IMAGE029
Figure 449012DEST_PATH_IMAGE029
表示第j分组中好坏标签为坏的实体的累计数量占原业务数据中好坏标签为坏的实体的数量的比率,然后计算坏实体累加比率,坏实体累加比率包括
Figure 100002_DEST_PATH_IMAGE031
Figure DEST_PATH_IMAGE033
,其中
Figure 100002_DEST_PATH_IMAGE034
为第1个分组的比率
Figure DEST_PATH_IMAGE036
Figure 510640DEST_PATH_IMAGE033
为第1个分组的比率
Figure 100002_DEST_PATH_IMAGE037
至第y个分组的比率
Figure DEST_PATH_IMAGE039
的总和;将每个好实体累加比率与每个坏实体累加比率均做减法运算后取绝对值,并选取最大值为KS指标。
优选的,在所述评估模型有效性步骤中,AUC指标的计算步骤为:
利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值;
在模型结果分值域内,从小到大等距分组,其中每个分组的分值上限为该分组的好坏阈值;
测试样本中的所有实体均与每个分组的好坏阈值进行比较,进行预测好坏判定;当单个实体的模型结果分值大于或等于对应分组的好坏阈值时,判定该实体为该分组中的预测好实体,当单个实体的模型结果分值小于对应分组的好坏阈值时,判定该实体为该分组中的预测坏实体;在每个分组中,当好坏标签为好的实体为预测好实体时,标记该实体为真阳;当好坏标签为好的实体为预测坏实体时,标记该实体为假阴;当好坏标签为坏的实体为预测好实体时,标记该实体为假阳;当好坏标签为坏的实体为预测坏实体时,标记该实体为真阴;分别统计每个分组中的真阳的实体个数为TP,假阴的实体个数为FN,假阳的实体个数为FP,真阴的实体个数为TN;
计算每个分组内的真阳率TPR=TP/(TP+FN);计算每个分组内的的假阳率FPR=FP/(FP+TN);以假阳率FPR为X轴、真阳率TPR为Y轴,将不同分组的点(FPR,TPR)连通得到ROC曲线,AUC指标为ROC曲线下的面积。
值得说明的是,一种基于图论算法的关联企业反欺诈模型构建系统,包括:
构建关联图谱模块:用于从传统关系型数据库中获取原业务数据,并提取原业务数据中的实体和实体对应的属性;用于将实体作为图谱中的节点,于各个节点之间建立关系边线;其中,所述实体为原业务数据中的企业和个人,实体对应的属性包括实体的好坏标签;
统计关联入模特征变量模块:用于根据Dijkstra算法计算图谱中任意两个节点间的最短路径后,统计每两个节点的关系深度为
Figure DEST_PATH_IMAGE040
度,计算关系深度为
Figure DEST_PATH_IMAGE041
度下的维度属性关联指标,得到特征变量,其中,
Figure DEST_PATH_IMAGE042
为两个节点间的最短路径的关系边线的数量,且
Figure DEST_PATH_IMAGE043
筛选入模特征变量模块:用于根据实体的好坏标签以及不同深度的特征变量,计算每个特征变量对应的特征性能评估指标IV;用于筛选出IV大于0.02的特征变量作为入模特征变量;
划分训练和测试样本模块:用于根据随机种子将含有入模特征变量的全部实体划分为训练样本和测试样本;
训练模型模块:用于将训练样本输入LR逻辑回归模型进行训练;
评估模型有效性模块:用于将测试样本输入到训练后的LR逻辑回归模型得到输出的模型预测结果,将输出的模型预测结果结合测试样本的好坏标签,计算训练后的LR逻辑回归模型的KS指标和AUC指标;用于输出KS指标位于KS有效阈值区间以及AUC指标大于AUC有效阈值的训练后的LR逻辑回归模型。
可选地,所述统计关联入模特征变量模块的Dijkstra算法具体用于设定图谱G={V,E},其中V为图谱中的所有节点的集合,E为各个节点之间的关系边线的集合;设定集合S={V0},V0为在集合V中随机选取的首节点;用于设定未确定最短路径的节点的集合T=V-S;用于计算集合T中的所有节点与首节点V0的距离d(V0,Vi),Vi为集合T中的第i个节点;用于当节点Vi与首节点V0能在集合E中寻找到直接的关系边线时,距离d(V0,Vi)为首节点V0和节点Vi之间的弧上的权值;用于当节点Vi与首节点V0没有在集合E中寻找到直接的关系边线时,距离d(V0,Vi)为无限大;
用于重复执行:从集合T中选取一个与集合S中的首节点V0能建立关系边线且距离d(V0,Vi)最小的节点Vi作为中间节点W,并加入到集合S中;将中间节点W从集合T中删除以更新集合T,计算集合T中的所有节点与首节点V0的距离d(V0,Vi);用于当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)小于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时,将距离d(V0,Vi)更新为加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi);用于当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)大于或等于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时,不更新距离d(V0,Vi);直到集合T内的节点数为0为止。
具体地,特征变量对应的特征性能评估指标IV的计算公式为:
Figure DEST_PATH_IMAGE044
其中,对于每个特征变量,于该特征变量的值域内按卡方分箱方式分为
Figure 63107DEST_PATH_IMAGE006
个分箱,
Figure 159370DEST_PATH_IMAGE007
为该特征变量中第
Figure 778570DEST_PATH_IMAGE008
个分箱的好坏标签为坏的实体的数量,
Figure 842341DEST_PATH_IMAGE009
为该特征变量中第
Figure 323132DEST_PATH_IMAGE010
个分箱的好坏标签为好的实体的数量,
Figure 788748DEST_PATH_IMAGE011
为原业务数据中好坏标签为坏的实体的数量,
Figure 578850DEST_PATH_IMAGE012
为原业务数据中好坏标签为好的实体的数量,
Figure DEST_PATH_IMAGE046
。优选的,所述评估模型有效性模块具体用于利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值;
用于根据模型结果分值对所有实体进行升序排列,并对升序排列后的所有实体进行等距分组;
用于单独计算每个分组的好实体比率
Figure DEST_PATH_IMAGE047
Figure DEST_PATH_IMAGE048
表示第j分组中好坏标签为好的实体的累计数量占原业务数据中好坏标签为好的实体的数量的比率,j=1,……y,y为分组数,并计算好实体累加比率,所述好实体累加比率包括
Figure 552753DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE049
,其中
Figure 899552DEST_PATH_IMAGE019
为第1个分组的比率
Figure 954096DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE050
为第1个分组的比率
Figure 5446DEST_PATH_IMAGE025
至第y个分组的比率
Figure DEST_PATH_IMAGE051
的总和;用于单独计算每个分组的坏实体比率
Figure DEST_PATH_IMAGE052
Figure 653596DEST_PATH_IMAGE052
表示第j分组中好坏标签为坏的实体的累计数量占原业务数据中好坏标签为坏的实体的数量的比率,然后计算坏实体累加比率,坏实体累加比率包括
Figure DEST_PATH_IMAGE053
Figure 272927DEST_PATH_IMAGE033
,其中
Figure DEST_PATH_IMAGE054
为第1个分组的比率
Figure 260606DEST_PATH_IMAGE036
Figure 392510DEST_PATH_IMAGE033
为第1个分组的比率
Figure DEST_PATH_IMAGE055
至第y个分组的比率
Figure DEST_PATH_IMAGE056
的总和;用于将每个好实体累加比率与每个坏实体累加比率均做减法运算后取绝对值,并选取最大值为KS指标。
值得说明的是,所述评估模型有效性模块具体用于利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值;
用于在模型结果分值域内,从小到大等距分组,其中每个分组的分值上限为该分组的好坏阈值;
用于将测试样本中的所有实体均与每个分组的好坏阈值进行比较,进行预测好坏判定;用于当单个实体的模型结果分值大于或等于对应分组的好坏阈值时,判定该实体为该分组中的预测好实体,当单个实体的模型结果分值小于对应分组的好坏阈值时,判定该实体为该分组中的预测坏实体;用于在每个分组中,当好坏标签为好的实体为预测好实体时,标记该实体为真阳;当好坏标签为好的实体为预测坏实体时,标记该实体为假阴;当好坏标签为坏的实体为预测好实体时,标记该实体为假阳;当好坏标签为坏的实体为预测坏实体时,标记该实体为真阴;用于分别统计每个分组中的真阳的实体个数为TP,假阴的实体个数为FN,假阳的实体个数为FP,真阴的实体个数为TN;
用于计算每个分组内的真阳率TPR=TP/(TP+FN);用于计算每个分组内的的假阳率FPR=FP/(FP+TN);用于以假阳率FPR为X轴、真阳率TPR为Y轴,将不同分组的点(FPR,TPR)连通得到ROC曲线,AUC指标为ROC曲线下的面积。
上述技术方案中的一个技术方案具有如下有益效果:在所述基于图论算法的关联企业反欺诈模型构建方法中,利用构建关联图谱步骤结合图论算法,得到各个实体之间的关系边线,使用有向图中Dijkstra算法解决了两个关联实体的最短路径问题,避免重复关联或其他复杂关联,保证了入模特征变量的有效性,从而能全方面对各个实体进行关联,提高了得到的反欺诈模型反映的企业情况的精准度。
附图说明
图1是本发明的一个实施例的基于图论算法的关联企业反欺诈模型构建方法的流程图;
图2是本发明的一个实施例的基于图论算法的关联企业反欺诈模型构建系统的系统框图;
图3是本发明的一个实施例中节点间的关系深度示意图;
图4是本发明的一个实施例中Dijkstra算法的示意图。
具体实施方式
下面详细描述本发明的实施方式,实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
下文的公开提供了许多不同的实施方式或例子用来实现本发明的实施方式的不同结构。为了简化本发明的实施方式的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明的实施方式可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。
如图1所示,一种基于图论算法的关联企业反欺诈模型构建方法,包括:
构建关联图谱步骤:从传统关系型数据库中获取原业务数据,并提取原业务数据中的实体和实体对应的属性,将实体作为图谱中的节点,于各个节点之间建立关系边线;其中,所述实体为原业务数据中的企业和个人,实体对应的属性包括实体的好坏标签;实体的好坏标签包括法人的好坏标签和企业的好坏标签,所述实体对应的属性为实体本身的元素,实体对应的属性还包括法人的年龄和企业的成立年限;所述关系边线包括直接的关系边线和间接的关系边线;其中,直接的关系边线为两个节点间的连线,间接的关系边线为三个及三个以上的节点间连线;比如,有节点一、节点二和节点三,节点一和节点二之间的连线一为直接的关系边线,节点二和节点三之间的连线二为直接的关系边线,连线一和连线二为节点一和节点三之间的间接的关系边线;
具体地,由传统关系型数据库获得存储的原业务相关数据,并分为三个子步骤进行构建关联图谱步骤:(1)定义实体:包含企业和个人,作为图谱中的节点;(2)定义关系:连通节点间的关系边线,如某法人代表某公司,那么就形成一条有向的边线,同样地某公司被某法人代表,那么就形成一条反向的边线,两实体间的关系是相互双向的;再有,若同一法人代表两间不同的公司,那么两公司就存在一条两层深度的间接关系;(3)定义属性:实体本身的元素,如法人的年龄、法人的好坏标签等、企业的成立年限和企业的好坏标签等;此处明确反欺诈模型的好坏标签定义,将样本表现为从首期出现逾期并且持续逾期天数超过15天及以上的特征客户的好坏标签标记为坏,作为反欺诈标签中的坏客户,将样本表现为还款周期超过6个月且历史最大逾期天数指标不超过5天的特征客户的好坏标签标记为好,其余客户为灰客户标签,待观察不做入模;另外,关系边线的属性可根据个人与企业的关系定义关系中的权重属性,权重越小代表两个实体间的关系越密切,如企业与个人A的关系是实控关系记为关系属性值1,而与个人B的关系是法人代表关系记为关系属性值2,那么可认为实控的关系密切度大于法人代表关系。基于六度关系理论,当存量业务样本量足够大时,任意两个实体在六层深度内都能找到连通的关系边线,从而构建一个关系复杂的企业关联图谱。
统计关联入模特征变量步骤:利用Dijkstra算法计算图谱中任意两个节点间的最短路径后,统计每两个节点的关系深度为
Figure DEST_PATH_IMAGE057
度,计算关系深度为
Figure DEST_PATH_IMAGE058
度下的维度属性关联指标,得到特征变量,其中,
Figure DEST_PATH_IMAGE059
为两个节点间的最短路径的关系边线的数量,且
Figure DEST_PATH_IMAGE060
;应用图论中Dijkstra算法可统计任意两个节点间的最短路径,若两个节点间的最短路径只有一条边线,则认为两个节点的关系深度为一度;若两个节点间连通另外第三个节点,并由两条关系边线间接连通,则认为这两个节点间的关系深度为二度,由此同理推论到更大的关系深度。根据以上关系深度计算逻辑,可统计任意节点中关系深度为一度到N度内的客户数,从而能分别统计好坏客户的占比等衍生指标。
筛选入模特征变量步骤:根据实体的好坏标签以及不同深度的特征变量,计算每个特征变量对应的特征性能评估指标IV;筛选出IV大于0.02的特征变量作为入模特征变量;结合客户本身的好坏客标签,以及衍生的多项特征变量(如关系深度为一度的好坏标签为坏的实体的占比,关系深度为二度好坏标签为坏的实体的占比,关系深度为二度内好坏标签为坏的实体的占比等),逐一计算特征性能评估指标IV(Information Value),筛选出IV值大于0.02的特征变量作为入模标准。
划分训练和测试样本步骤:根据随机种子将含有入模特征变量的全部实体划分为训练样本和测试样本;根据随机种子按比例划分训练样本和测试样本,用于模型训练后的交叉校验,防止训练环节导致的过拟合,保证模型的稳定性。
训练模型步骤:将训练样本输入LR逻辑回归模型进行训练;输入训练样本中的衍生关联特征变量和好坏客标签。LR逻辑回归模型又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。
评估模型有效性步骤:将测试样本输入到训练后的LR逻辑回归模型得到输出的模型预测结果,将输出的模型预测结果结合测试样本的好坏标签,计算训练后的LR逻辑回归模型的KS指标和AUC指标;输出KS指标位于KS有效阈值区间以及AUC指标大于AUC有效阈值的训练后的LR逻辑回归模型。由于当存量业务样本量足够大时,任意两个实体在六层深度内都能找到连通的关系,从而构建一个关系复杂的企业关联图谱,如此,
Figure DEST_PATH_IMAGE061
最大为6。KS有效阈值区间为[0.23,0.45]。在本实施例中,当
Figure DEST_PATH_IMAGE062
时,且训练后的LR逻辑回归模型的KS指标没有位于KS有效阈值区间或者经过训练后的模型的AUC指标小于或等于AUC有效阈值,则结束所述基于图论算法的关联企业反欺诈模型构建方法。
在本实施例中,结合图论算法,将关联企业和关联企业个人作为图谱中的关系节点,以关联的关系作为图谱中的关系边线,关联的职位作为关系边线中的权重,以企业本身的经营表现作为企业节点的属性,从此得出由海量企业主和企业节点间连通得到的网状图谱,并根据每个节点本身的好坏标签,结合图论算法中的有向图最短路径深度计算,从而衍生出可供建模的关联特征变量,最终达成以下目的:1.将存量业务的企业和个人信息构建全局的关联图谱,清晰了解存量企业间的直接间接关系;2.由图论算法计算得出的企业间层级关联特征变量,通过关联企业和个人的表现来推断融资企业的违约概率;3、统计存量历史表现的企业和个人样本标签数据,建立关联企业的反欺诈模型。
在本实施例中,结合了图论算法技术和本身的存量客户表现标签数据,并应用于历史业务,从而提高客户评估的精度;丰富了中小微企业入模特征变量的维度,能够提高模型的准确性;使用有向图中Dijkstra算法解决了两个关联企业的最短路径问题,避免重复关联或其他复杂关联,保证了入模特征变量的有效性;明确了反欺诈模型的标签属性定义,细分到客群在反欺诈环节的应用模型,从而提高对应客群的区分度。
在所述基于图论算法的关联企业反欺诈模型构建方法中,利用构建关联图谱步骤结合图论算法,得到各个实体时间的关系边线,使用有向图中Dijkstra算法解决了两个关联实体的最短路径问题,避免重复关联或其他复杂关联,保证了入模特征变量的有效性,从而能全方面对各个实体进行关联,提高了得到的反欺诈模型反映的企业情况的精准度。
一些实施例中,在所述统计关联入模特征变量步骤中,所述Dijkstra算法具体为:
S1:设定图谱G={V,E},其中V为图谱中的所有节点的集合,E为各个节点之间的关系边线的集合;设定集合S={V0},V0为在集合V中随机选取的首节点;设定未确定最短路径的节点的集合T=V-S;计算集合T中的所有节点与首节点V0的距离d(V0,Vi),Vi为集合T中的第i个节点;当节点Vi与首节点V0能在集合E中寻找到直接的关系边线时,距离d(V0,Vi)为首节点V0和节点Vi之间的弧上的权值;当节点Vi与首节点V0没有在集合E中寻找到直接的关系边线时,距离d(V0,Vi)为无限大;
S2:从集合T中选取一个与集合S中的首节点V0能建立关系边线且距离d(V0,Vi)最小的节点Vi作为中间节点W,并加入到集合S中;
S3:将中间节点W从集合T中删除以更新集合T,计算集合T中的所有节点与首节点V0的距离d(V0,Vi);当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)小于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时,将距离d(V0,Vi)更新为加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi);当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)大于或等于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时,不更新距离d(V0,Vi);
重复步骤S2和S3,直到集合T内的节点数为0为止。
如图3和4所示,在本实施例中,(1)初始确定集S只包含节点1,已知节点1到节点2、节点3和节点6的距离分别是2、3和4,余下的节点4和节点5无直接关联记为∞;其中节点2距离集合S={节点1}的距离最短,为2,将节点2加入集合S,S={节点1,节点2},并将节点2作为中间节点W,计算经过中间节点W的路径,得到路径(1-2-4)的距离总值为2+5=7<∞(节点1与节点4的初始距离值),更新节点1到节点4的最短距离为7。(2)未确定最短路径的节点的集合T={节点3,节点4,节点5,节点6},其中节点3与集合S={节点1,节点2}的距离最短,为3,将节点3加入到集合S,S={节点1,节点2,节点3},并将节点3作为中间节点W,计算经过中间节点W的路径,得到路径(1-3-5)的距离总值为3+6=9<∞(节点1与节点5的初始距离值),更新节点1到节点5的最短距离为9。(3)未确定最短路径的节点的集合T={节点4,节点5,节点6},其中节点6与集合S={节点1,节点2,节点3}的距离最短,为4,将节点6加入到集合S,S={节点1,节点2,节点3,节点6},并将节点6作为中间节点W,计算经过中间节点W的路径,得不到路径,不更新值。(4)未确定最短路径的节点的集合T={节点4,节点5},其中节点4与集合S={节点1,节点2,节点3,节点6}的距离最短,为5,将节点4加入到集合S,S={节点1,节点2,节点3,节点6,节点4},并将节点4作为中间节点W,计算经过中间节点W的路径,得不到路径,不更新值。(5)未确定最短路径的节点的集合T={节点5}中节点5与集合S={节点1,节点2,节点3,节点6,节点4}的距离最短,为6,将节点5加入到集合S,S={节点1,节点2,节点3,节点6,节点4,节点5},并将节点5作为中间节点W,计算经过中间节点W的路径,得不到路径,不更新值。如此,所有节点已确定,结束计算。根据以上结果,统计所有路径及对应关系深度可得:一度关系有:节点1连接节点2、节点1连接节点3和节点1连接节点6;二度关系有:节点1经过节点2连接节点4和节点1经过节点3连接节点5;非最短路径有:实体1经过实体2再经过实体4连接实体6和实体1经过实体3再经过实体5连接实体6。
值得说明的是,在所述筛选入模特征变量步骤中,特征变量对应的特征性能评估指标IV的计算公式为:
Figure DEST_PATH_IMAGE063
;由此得到每个特征变量对应的特征性能评估指标IV;
其中,对于每个特征变量,于该特征变量的值域内按卡方分箱方式分为
Figure 622896DEST_PATH_IMAGE006
个分箱,
Figure 249181DEST_PATH_IMAGE007
为该特征变量中第
Figure 278317DEST_PATH_IMAGE008
个分箱的好坏标签为坏的实体的数量,
Figure 846702DEST_PATH_IMAGE009
为该特征变量中第
Figure 328498DEST_PATH_IMAGE010
个分箱的好坏标签为好的实体的数量,
Figure 24053DEST_PATH_IMAGE011
为原业务数据中好坏标签为坏的实体的数量,
Figure 173275DEST_PATH_IMAGE012
为原业务数据中好坏标签为好的实体的数量,
Figure DEST_PATH_IMAGE065
。本实施例中,IV大于0.02为入模的有效阈值,IV小于0.02时区分度较低为无效特征变量,IV大于0.2为强区分度特征变量。
可选地,在所述评估模型有效性步骤中,KS指标的计算步骤为:
利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值;
根据模型结果分值对所有实体进行升序排列,并对升序排列后的所有实体进行等距分组;具体地,等距分组的组数控制在10-20组之间;
单独计算每个分组的好实体比率
Figure DEST_PATH_IMAGE066
Figure DEST_PATH_IMAGE067
表示第j分组中好坏标签为好的实体的累计数量占原业务数据中好坏标签为好的实体的数量的比率,j=1,……y,y为分组数,并计算好实体累加比率,所述好实体累加比率包括
Figure 335397DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE068
,其中
Figure 383118DEST_PATH_IMAGE019
为第1个分组的比率
Figure 334894DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE069
为第1个分组的比率
Figure 417251DEST_PATH_IMAGE025
至第y个分组的比率
Figure DEST_PATH_IMAGE070
的总和;单独计算每个分组的坏实体比率
Figure DEST_PATH_IMAGE071
Figure 937225DEST_PATH_IMAGE071
表示第j分组中好坏标签为坏的实体的累计数量占原业务数据中好坏标签为坏的实体的数量的比率,然后计算坏实体累加比率,坏实体累加比率包括
Figure DEST_PATH_IMAGE072
Figure 472242DEST_PATH_IMAGE033
,其中
Figure DEST_PATH_IMAGE073
为第1个分组的比率
Figure 29039DEST_PATH_IMAGE036
Figure 887274DEST_PATH_IMAGE033
为第1个分组的比率
Figure DEST_PATH_IMAGE074
至第y个分组的比率
Figure 781412DEST_PATH_IMAGE075
的总和;将每个好实体累加比率与每个坏实体累加比率均做减法运算后取绝对值,并选取最大值为KS指标。将每个好实体累加比率与每个坏实体累加比率均做减法运算指将y个好实体累加比率中的每一个分别与y个坏实体累加比率进行减法运算得到y*y个减法结果。
在本实施例中,可以直观理解到,将每个好实体累加比率与每个坏实体累加比率均做减法运算后取绝对值,并选取最大值,是好坏标签为坏的实体的占比与好坏标签为好的实体的占比的差值最大,区分开好坏标签为坏的实体与好坏标签为好的实体的效果最好,以此作为模型的准入阈值,可以在牺牲最少好坏标签为坏的实体的代价下,最大化拦截好坏标签为坏的实体准入,从而降低整体客群风险。
优选的,在所述评估模型有效性步骤中,AUC指标的计算步骤为:
利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值;
在模型结果分值域内,从小到大等距分组,其中每个分组的分值上限为该分组的好坏阈值;
测试样本中的所有实体均与每个分组的好坏阈值进行比较,进行预测好坏判定;当单个实体的模型结果分值大于或等于对应分组的好坏阈值时,判定该实体为该分组中的预测好实体,当单个实体的模型结果分值小于对应分组的好坏阈值时,判定该实体为该分组中的预测坏实体;在每个分组中,当好坏标签为好的实体为预测好实体时,标记该实体为真阳;当好坏标签为好的实体为预测坏实体时,标记该实体为假阴;当好坏标签为坏的实体为预测好实体时,标记该实体为假阳;当好坏标签为坏的实体为预测坏实体时,标记该实体为真阴;分别统计每个分组中的真阳的实体个数为TP,假阴的实体个数为FN,假阳的实体个数为FP,真阴的实体个数为TN;在本实施例中,测试样本中的所有实体的模型结果分值并不作分组,只对模型结果分值域进行分组,比如,模型结果分值域为[1,90],其中[1,30]为第一组,(30,60]为第二组,(60,90]为第三组,因此第一组的好坏阈值为30,第二组的好坏阈值为60,第三组的好坏阈值为90,当测试样本中的某个实体的模型结果分值为40时,40大于第一组的好坏阈值,因此,该实体为第一组中的预测好实体,40小于第二组的好坏阈值,因此,该实体为第二组中的预测坏实体,40小于第三组的好坏阈值,因此,该实体为第二组中的预测坏实体;
计算每个分组内的真阳率TPR=TP/(TP+FN);计算每个分组内的的假阳率FPR=FP/(FP+TN);以假阳率FPR为X轴、真阳率TPR为Y轴,将不同分组的点(FPR,TPR)连通得到ROC曲线,AUC指标为ROC曲线下的面积。
在本实施例中,AUC有效阈值大于或等于0.7。
一些实施例中,如图2所示,一种基于图论算法的关联企业反欺诈模型构建系统,包括:
构建关联图谱模块:用于从传统关系型数据库中获取原业务数据,并提取原业务数据中的实体和实体对应的属性;用于将实体作为图谱中的节点,于各个节点之间建立关系边线;其中,所述实体为原业务数据中的企业和个人,实体对应的属性包括实体的好坏标签;
统计关联入模特征变量模块:用于根据Dijkstra算法计算图谱中任意两个节点间的最短路径后,统计每两个节点的关系深度为
Figure DEST_PATH_IMAGE076
度,计算关系深度为
Figure DEST_PATH_IMAGE077
度下的维度属性关联指标,得到特征变量,其中,
Figure DEST_PATH_IMAGE078
为两个节点间的最短路径的关系边线的数量,且
Figure DEST_PATH_IMAGE079
筛选入模特征变量模块:用于根据实体的好坏标签以及不同深度的特征变量,计算每个特征变量对应的特征性能评估指标IV;用于筛选出IV大于0.02的特征变量作为入模特征变量;
划分训练和测试样本模块:用于根据随机种子将含有入模特征变量的全部实体划分为训练样本和测试样本;
训练模型模块:用于将训练样本输入LR逻辑回归模型进行训练;
评估模型有效性模块:用于将测试样本输入到训练后的LR逻辑回归模型得到输出的模型预测结果,将输出的模型预测结果结合测试样本的好坏标签,计算训练后的LR逻辑回归模型的KS指标和AUC指标;用于输出KS指标位于KS有效阈值区间以及AUC指标大于AUC有效阈值的训练后的LR逻辑回归模型。
值得说明的是,所述统计关联入模特征变量模块通的Dijkstra算法具体用于设定图谱G={V,E},其中V为图谱中的所有节点的集合,E为各个节点之间的关系边线的集合;设定集合S={V0},V0为在集合V中随机选取的首节点;用于设定未确定最短路径的节点的集合T=V-S;用于计算集合T中的所有节点与首节点V0的距离d(V0,Vi),Vi为集合T中的第i个节点;用于当节点Vi与首节点V0能在集合E中寻找到直接的关系边线时,距离d(V0,Vi)为首节点V0和节点Vi之间的弧上的权值;用于当节点Vi与首节点V0没有在集合E中寻找到直接的关系边线时,距离d(V0,Vi)为无限大;
用于重复执行:从集合T中选取一个与集合S中的首节点V0能建立关系边线且距离d(V0,Vi)最小的节点Vi作为中间节点W,并加入到集合S中;将中间节点W从集合T中删除以更新集合T,计算集合T中的所有节点与首节点V0的距离d(V0,Vi);用于当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)小于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时,将距离d(V0,Vi)更新为加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi);用于当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)大于或等于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时,不更新距离d(V0,Vi);直到集合T内的节点数为0为止。
可选地,特征变量对应的特征性能评估指标IV的计算公式为:
Figure DEST_PATH_IMAGE080
其中,对于每个特征变量,于该特征变量的值域内按卡方分箱方式分为
Figure 492141DEST_PATH_IMAGE006
个分箱,
Figure 316878DEST_PATH_IMAGE007
为该特征变量中第
Figure 29619DEST_PATH_IMAGE008
个分箱的好坏标签为坏的实体的数量,
Figure 766762DEST_PATH_IMAGE009
为该特征变量中第
Figure 463322DEST_PATH_IMAGE010
个分箱的好坏标签为好的实体的数量,
Figure 560591DEST_PATH_IMAGE011
为原业务数据中好坏标签为坏的实体的数量,
Figure 409730DEST_PATH_IMAGE012
为原业务数据中好坏标签为好的实体的数量,
Figure 567042DEST_PATH_IMAGE065
具体地,所述评估模型有效性模块具体用于利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值;
用于根据模型结果分值对所有实体进行升序排列,并对升序排列后的所有实体进行等距分组;
用于单独计算每个分组的好实体比率
Figure 485319DEST_PATH_IMAGE066
Figure 402591DEST_PATH_IMAGE067
表示第j分组中好坏标签为好的实体的累计数量占原业务数据中好坏标签为好的实体的数量的比率,j=1,……y,y为分组数,并计算好实体累加比率,所述好实体累加比率包括
Figure 824345DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE081
,其中
Figure 231186DEST_PATH_IMAGE019
为第1个分组的比率
Figure 371181DEST_PATH_IMAGE023
Figure 341411DEST_PATH_IMAGE069
为第1个分组的比率
Figure 633983DEST_PATH_IMAGE025
至第y个分组的比率
Figure 398677DEST_PATH_IMAGE070
的总和;用于单独计算每个分组的坏实体比率
Figure 291546DEST_PATH_IMAGE071
Figure 550620DEST_PATH_IMAGE071
表示第j分组中好坏标签为坏的实体的累计数量占原业务数据中好坏标签为坏的实体的数量的比率,然后计算坏实体累加比率,坏实体累加比率包括
Figure 946967DEST_PATH_IMAGE072
Figure 882562DEST_PATH_IMAGE033
,其中
Figure 13460DEST_PATH_IMAGE073
为第1个分组的比率
Figure 794334DEST_PATH_IMAGE036
Figure 576345DEST_PATH_IMAGE033
为第1个分组的比率
Figure 433574DEST_PATH_IMAGE074
至第y个分组的比率
Figure DEST_PATH_IMAGE082
的总和;用于将每个好实体累加比率与每个坏实体累加比率均做减法运算后取绝对值,并选取最大值为KS指标。将每个好实体累加比率与每个坏实体累加比率均做减法运算指将y个好实体累加比率中的每一个分别与y个坏实体累加比率进行减法运算得到y*y个减法结果。
优选的,所述评估模型有效性模块具体用于利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值;
用于在模型结果分值域内,从小到大等距分组,其中每个分组的分值上限为该分组的好坏阈值;
用于将测试样本中的所有实体均与每个分组的好坏阈值进行比较,进行预测好坏判定;用于当单个实体的模型结果分值大于或等于对应分组的好坏阈值时,判定该实体为该分组中的预测好实体,当单个实体的模型结果分值小于对应分组的好坏阈值时,判定该实体为该分组中的预测坏实体;用于在每个分组中,当好坏标签为好的实体为预测好实体时,标记该实体为真阳;当好坏标签为好的实体为预测坏实体时,标记该实体为假阴;当好坏标签为坏的实体为预测好实体时,标记该实体为假阳;当好坏标签为坏的实体为预测坏实体时,标记该实体为真阴;用于分别统计每个分组中的真阳的实体个数为TP,假阴的实体个数为FN,假阳的实体个数为FP,真阴的实体个数为TN;
用于计算每个分组内的真阳率TPR=TP/(TP+FN);用于计算每个分组内的的假阳率FPR=FP/(FP+TN);用于以假阳率FPR为X轴、真阳率TPR为Y轴,将不同分组的点(FPR,TPR)连通得到ROC曲线,AUC指标为ROC曲线下的面积。
在本说明书的描述中,参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施实施进行变化、修改、替换和变型。

Claims (10)

1.一种基于图论算法的关联企业反欺诈模型构建方法,其特征在于,包括:
构建关联图谱步骤:从传统关系型数据库中获取原业务数据,并提取原业务数据中的实体和实体对应的属性,将实体作为图谱中的节点,于各个节点之间建立关系边线;其中,所述实体为原业务数据中的企业和个人,实体对应的属性包括实体的好坏标签;
统计关联入模特征变量步骤:利用Dijkstra算法计算图谱中任意两个节点间的最短路径后,统计每两个节点的关系深度为
Figure 725109DEST_PATH_IMAGE001
度,计算关系深度为
Figure 111091DEST_PATH_IMAGE002
度下的维度属性关联指标,得到特征变量,其中,
Figure 156408DEST_PATH_IMAGE002
为两个节点间的最短路径的关系边线的数量,且
Figure 20458DEST_PATH_IMAGE003
筛选入模特征变量步骤:根据实体的好坏标签以及不同深度的特征变量,计算每个特征变量对应的特征性能评估指标IV;筛选出IV大于0.02的特征变量作为入模特征变量;
划分训练和测试样本步骤:根据随机种子将含有入模特征变量的全部实体划分为训练样本和测试样本;
训练模型步骤:将训练样本输入LR逻辑回归模型进行训练;
评估模型有效性步骤:将测试样本输入到训练后的LR逻辑回归模型得到输出的模型预测结果,将输出的模型预测结果结合测试样本的好坏标签,计算训练后的LR逻辑回归模型的KS指标和AUC指标;输出KS指标位于KS有效阈值区间以及AUC指标大于AUC有效阈值的训练后的LR逻辑回归模型。
2.根据权利要求1所述的基于图论算法的关联企业反欺诈模型构建方法,其特征在于:
在所述统计关联入模特征变量步骤中,所述Dijkstra算法具体为:
S1:设定图谱G={V,E},其中V为图谱中的所有节点的集合,E为各个节点之间的关系边线的集合;设定集合S={V0},V0为在集合V中随机选取的首节点;设定未确定最短路径的节点的集合T=V-S;计算集合T中的所有节点与首节点V0的距离d(V0,Vi),Vi为集合T中的第i个节点;当节点Vi与首节点V0能在集合E中寻找到直接的关系边线时,距离d(V0,Vi)为首节点V0和节点Vi之间的弧上的权值;当节点Vi与首节点V0没有在集合E中寻找到直接的关系边线时,距离d(V0,Vi)为无限大;
S2:从集合T中选取一个与集合S中的首节点V0能建立关系边线且距离d(V0,Vi)最小的节点Vi作为中间节点W,并加入到集合S中;
S3:将中间节点W从集合T中删除以更新集合T,计算集合T中的所有节点与首节点V0的距离d(V0,Vi);当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)小于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时,将距离d(V0,Vi)更新为加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi);当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)大于或等于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时,不更新距离d(V0,Vi);
重复步骤S2和S3,直到集合T内的节点数为0为止。
3.根据权利要求2所述的基于图论算法的关联企业反欺诈模型构建方法,其特征在于:在所述筛选入模特征变量步骤中,特征变量对应的特征性能评估指标IV的计算公式为:
Figure 38093DEST_PATH_IMAGE004
其中,对于每个特征变量,于该特征变量的值域内按卡方分箱方式分为
Figure 594976DEST_PATH_IMAGE005
个分箱,
Figure 330851DEST_PATH_IMAGE006
为该特征变量中第
Figure 231549DEST_PATH_IMAGE007
个分箱的好坏标签为坏的实体的数量,
Figure 369269DEST_PATH_IMAGE008
为该特征变量中第
Figure 628212DEST_PATH_IMAGE009
个分箱的好坏标签为好的实体的数量,
Figure 851383DEST_PATH_IMAGE010
为原业务数据中好坏标签为坏的实体的数量,
Figure 260499DEST_PATH_IMAGE011
为原业务数据中好坏标签为好的实体的数量,
Figure DEST_PATH_IMAGE012
4.根据权利要求3所述的基于图论算法的关联企业反欺诈模型构建方法,其特征在于:
在所述评估模型有效性步骤中,KS指标的计算步骤为:
利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值;
根据模型结果分值对所有实体进行升序排列,并对升序排列后的所有实体进行等距分组;
单独计算每个分组的好实体比率
Figure 721567DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE014
表示第j分组中好坏标签为好的实体的累计数量占原业务数据中好坏标签为好的实体的数量的比率,j=1,……y,y为分组数,并计算好实体累加比率,所述好实体累加比率包括
Figure 587630DEST_PATH_IMAGE015
Figure 298097DEST_PATH_IMAGE016
,其中
Figure 838799DEST_PATH_IMAGE015
为第1个分组的比率
Figure DEST_PATH_IMAGE017
Figure 419954DEST_PATH_IMAGE018
为第1个分组的比率
Figure DEST_PATH_IMAGE019
至第y个分组的比率
Figure 692803DEST_PATH_IMAGE020
的总和;单独计算每个分组的坏实体比率
Figure DEST_PATH_IMAGE021
Figure 61205DEST_PATH_IMAGE021
表示第j分组中好坏标签为坏的实体的累计数量占原业务数据中好坏标签为坏的实体的数量的比率,然后计算坏实体累加比率,坏实体累加比率包括
Figure 405599DEST_PATH_IMAGE022
Figure 372418DEST_PATH_IMAGE023
,其中
Figure 612906DEST_PATH_IMAGE024
为第1个分组的比率
Figure DEST_PATH_IMAGE025
Figure 501228DEST_PATH_IMAGE023
为第1个分组的比率
Figure 586996DEST_PATH_IMAGE026
至第y个分组的比率
Figure DEST_PATH_IMAGE027
的总和;将每个好实体累加比率与每个坏实体累加比率均做减法运算后取绝对值,并选取最大值为KS指标。
5.根据权利要求4所述的基于图论算法的关联企业反欺诈模型构建方法,其特征在于:
在所述评估模型有效性步骤中,AUC指标的计算步骤为:
利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值;
在模型结果分值域内,从小到大等距分组,其中每个分组的分值上限为该分组的好坏阈值;测试样本中的所有实体均与每个分组的好坏阈值进行比较,进行预测好坏判定;当单个实体的模型结果分值大于或等于对应分组的好坏阈值时,判定该实体为该分组中的预测好实体,当单个实体的模型结果分值小于对应分组的好坏阈值时,判定该实体为该分组中的预测坏实体;在每个分组中,当好坏标签为好的实体为预测好实体时,标记该实体为真阳;当好坏标签为好的实体为预测坏实体时,标记该实体为假阴;当好坏标签为坏的实体为预测好实体时,标记该实体为假阳;当好坏标签为坏的实体为预测坏实体时,标记该实体为真阴;分别统计每个分组中的真阳的实体个数为TP,假阴的实体个数为FN,假阳的实体个数为FP,真阴的实体个数为TN;
计算每个分组内的真阳率TPR=TP/(TP+FN);计算每个分组内的的假阳率FPR=FP/(FP+TN);以假阳率FPR为X轴、真阳率TPR为Y轴,将不同分组的点(FPR,TPR)连通得到ROC曲线,AUC指标为ROC曲线下的面积。
6.一种基于图论算法的关联企业反欺诈模型构建系统,其特征在于,包括:
构建关联图谱模块:用于从传统关系型数据库中获取原业务数据,并提取原业务数据中的实体和实体对应的属性;用于将实体作为图谱中的节点,于各个节点之间建立关系边线;其中,所述实体为原业务数据中的企业和个人,实体对应的属性包括实体的好坏标签;
统计关联入模特征变量模块:用于根据Dijkstra算法计算图谱中任意两个节点间的最短路径后,统计每两个节点的关系深度为
Figure 673900DEST_PATH_IMAGE028
度,计算关系深度为
Figure 819711DEST_PATH_IMAGE002
度下的维度属性关联指标,得到特征变量,其中,
Figure DEST_PATH_IMAGE029
为两个节点间的最短路径的关系边线的数量,且
Figure 490601DEST_PATH_IMAGE030
筛选入模特征变量模块:用于根据实体的好坏标签以及不同深度的特征变量,计算每个特征变量对应的特征性能评估指标IV;用于筛选出IV大于0.02的特征变量作为入模特征变量;
划分训练和测试样本模块:用于根据随机种子将含有入模特征变量的全部实体划分为训练样本和测试样本;
训练模型模块:用于将训练样本输入LR逻辑回归模型进行训练;
评估模型有效性模块:用于将测试样本输入到训练后的LR逻辑回归模型得到输出的模型预测结果,将输出的模型预测结果结合测试样本的好坏标签,计算训练后的LR逻辑回归模型的KS指标和AUC指标;用于输出KS指标位于KS有效阈值区间以及AUC指标大于AUC有效阈值的训练后的LR逻辑回归模型。
7.根据权利要求6所述的基于图论算法的关联企业反欺诈模型构建系统,其特征在于:
所述统计关联入模特征变量模块的Dijkstra算法具体用于设定图谱G={V,E},其中V为图谱中的所有节点的集合,E为各个节点之间的关系边线的集合;设定集合S={V0},V0为在集合V中随机选取的首节点;用于设定未确定最短路径的节点的集合T=V-S;用于计算集合T中的所有节点与首节点V0的距离d(V0,Vi),Vi为集合T中的第i个节点;用于当节点Vi与首节点V0能在集合E中寻找到直接的关系边线时,距离d(V0,Vi)为首节点V0和节点Vi之间的弧上的权值;用于当节点Vi与首节点V0没有在集合E中寻找到直接的关系边线时,距离d(V0,Vi)为无限大;
用于重复执行:从集合T中选取一个与集合S中的首节点V0能建立关系边线且距离d(V0,Vi)最小的节点Vi作为中间节点W,并加入到集合S中;将中间节点W从集合T中删除以更新集合T,计算集合T中的所有节点与首节点V0的距离d(V0,Vi);用于当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)小于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时,将距离d(V0,Vi)更新为加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi);用于当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)大于或等于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时,不更新距离d(V0,Vi);直到集合T内的节点数为0为止。
8.根据权利要求7所述的基于图论算法的关联企业反欺诈模型构建系统,其特征在于:
特征变量对应的特征性能评估指标IV的计算公式为:
Figure 380060DEST_PATH_IMAGE004
其中,对于每个特征变量,于该特征变量的值域内按卡方分箱方式分为
Figure 321471DEST_PATH_IMAGE005
个分箱,
Figure 638183DEST_PATH_IMAGE006
为该特征变量中第
Figure 828993DEST_PATH_IMAGE007
个分箱的好坏标签为坏的实体的数量,
Figure 522142DEST_PATH_IMAGE008
为该特征变量中第
Figure 786902DEST_PATH_IMAGE009
个分箱的好坏标签为好的实体的数量,
Figure 336832DEST_PATH_IMAGE010
为原业务数据中好坏标签为坏的实体的数量,
Figure 218200DEST_PATH_IMAGE011
为原业务数据中好坏标签为好的实体的数量,
Figure DEST_PATH_IMAGE031
9.根据权利要求8所述的基于图论算法的关联企业反欺诈模型构建系统,其特征在于:
所述评估模型有效性模块具体用于利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值;
用于根据模型结果分值对所有实体进行升序排列,并对升序排列后的所有实体进行等距分组;
用于单独计算每个分组的好实体比率
Figure 715040DEST_PATH_IMAGE032
Figure 864000DEST_PATH_IMAGE033
表示第j分组中好坏标签为好的实体的累计数量占原业务数据中好坏标签为好的实体的数量的比率,j=1,……y,y为分组数,并计算好实体累加比率,所述好实体累加比率包括
Figure 256935DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE034
,其中
Figure 891179DEST_PATH_IMAGE015
为第1个分组的比率
Figure 660552DEST_PATH_IMAGE017
Figure 431061DEST_PATH_IMAGE035
为第1个分组的比率
Figure 57215DEST_PATH_IMAGE019
至第y个分组的比率
Figure 647596DEST_PATH_IMAGE036
的总和;用于单独计算每个分组的坏实体比率
Figure DEST_PATH_IMAGE037
Figure 751818DEST_PATH_IMAGE037
表示第j分组中好坏标签为坏的实体的累计数量占原业务数据中好坏标签为坏的实体的数量的比率,然后计算坏实体累加比率,坏实体累加比率包括
Figure 845676DEST_PATH_IMAGE038
Figure 621827DEST_PATH_IMAGE023
,其中
Figure 699504DEST_PATH_IMAGE039
为第1个分组的比率
Figure 138576DEST_PATH_IMAGE025
Figure 618098DEST_PATH_IMAGE023
为第1个分组的比率
Figure 789317DEST_PATH_IMAGE040
至第y个分组的比率
Figure 354290DEST_PATH_IMAGE041
的总和;用于将每个好实体累加比率与每个坏实体累加比率均做减法运算后取绝对值,并选取最大值为KS指标。
10.根据权利要求9所述的基于图论算法的关联企业反欺诈模型构建系统,其特征在于:
所述评估模型有效性模块具体用于利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值;
用于在模型结果分值域内,从小到大等距分组,其中每个分组的分值上限为该分组的好坏阈值;
用于将测试样本中的所有实体均与每个分组的好坏阈值进行比较,进行预测好坏判定;用于当单个实体的模型结果分值大于或等于对应分组的好坏阈值时,判定该实体为该分组中的预测好实体,当单个实体的模型结果分值小于对应分组的好坏阈值时,判定该实体为该分组中的预测坏实体;用于在每个分组中,当好坏标签为好的实体为预测好实体时,标记该实体为真阳;当好坏标签为好的实体为预测坏实体时,标记该实体为假阴;当好坏标签为坏的实体为预测好实体时,标记该实体为假阳;当好坏标签为坏的实体为预测坏实体时,标记该实体为真阴;用于分别统计每个分组中的真阳的实体个数为TP,假阴的实体个数为FN,假阳的实体个数为FP,真阴的实体个数为TN;
用于计算每个分组内的真阳率TPR=TP/(TP+FN);用于计算每个分组内的的假阳率FPR=FP/(FP+TN);用于以假阳率FPR为X轴、真阳率TPR为Y轴,将不同分组的点(FPR,TPR)连通得到ROC曲线,AUC指标为ROC曲线下的面积。
CN202210929936.7A 2022-08-03 2022-08-03 基于图论算法的关联企业反欺诈模型构建方法及系统 Pending CN114996371A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210929936.7A CN114996371A (zh) 2022-08-03 2022-08-03 基于图论算法的关联企业反欺诈模型构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210929936.7A CN114996371A (zh) 2022-08-03 2022-08-03 基于图论算法的关联企业反欺诈模型构建方法及系统

Publications (1)

Publication Number Publication Date
CN114996371A true CN114996371A (zh) 2022-09-02

Family

ID=83023230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210929936.7A Pending CN114996371A (zh) 2022-08-03 2022-08-03 基于图论算法的关联企业反欺诈模型构建方法及系统

Country Status (1)

Country Link
CN (1) CN114996371A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115934963A (zh) * 2022-12-26 2023-04-07 深度(山东)数字科技集团有限公司 用于企业金融获客的商业汇票大数据分析方法及应用图谱

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523185A (zh) * 2018-11-28 2019-03-26 上海点融信息科技有限责任公司 基于人工智能生成催收评分卡的方法、装置及存储介质
CN111191731A (zh) * 2020-01-02 2020-05-22 同盾控股有限公司 数据处理的方法、装置、存储介质及电子设备
CN111949744A (zh) * 2020-07-31 2020-11-17 北京明略昭辉科技有限公司 基于知识图谱的关联信息挖掘方法及装置
US20210264272A1 (en) * 2018-07-23 2021-08-26 The Fourth Paradigm (Beijing) Tech Co Ltd Training method and system of neural network model and prediction method and system
CN113554504A (zh) * 2021-06-10 2021-10-26 浙江惠瀜网络科技有限公司 一种车贷风控模型生成方法、装置及评分卡生成方法
CN113724061A (zh) * 2021-08-18 2021-11-30 杭州信雅达泛泰科技有限公司 基于客户分群的消费金融产品信用评分方法及装置
US11250368B1 (en) * 2020-11-30 2022-02-15 Shanghai Icekredit, Inc. Business prediction method and apparatus
CN114638688A (zh) * 2022-03-21 2022-06-17 江苏城乡建设职业学院 一种用于信贷反欺诈的拦截策略衍生方法、系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210264272A1 (en) * 2018-07-23 2021-08-26 The Fourth Paradigm (Beijing) Tech Co Ltd Training method and system of neural network model and prediction method and system
CN109523185A (zh) * 2018-11-28 2019-03-26 上海点融信息科技有限责任公司 基于人工智能生成催收评分卡的方法、装置及存储介质
CN111191731A (zh) * 2020-01-02 2020-05-22 同盾控股有限公司 数据处理的方法、装置、存储介质及电子设备
CN111949744A (zh) * 2020-07-31 2020-11-17 北京明略昭辉科技有限公司 基于知识图谱的关联信息挖掘方法及装置
US11250368B1 (en) * 2020-11-30 2022-02-15 Shanghai Icekredit, Inc. Business prediction method and apparatus
CN113554504A (zh) * 2021-06-10 2021-10-26 浙江惠瀜网络科技有限公司 一种车贷风控模型生成方法、装置及评分卡生成方法
CN113724061A (zh) * 2021-08-18 2021-11-30 杭州信雅达泛泰科技有限公司 基于客户分群的消费金融产品信用评分方法及装置
CN114638688A (zh) * 2022-03-21 2022-06-17 江苏城乡建设职业学院 一种用于信贷反欺诈的拦截策略衍生方法、系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚玲洁: "基于机器学习的贷款欺诈预测研究和应用", 《电脑知识与技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115934963A (zh) * 2022-12-26 2023-04-07 深度(山东)数字科技集团有限公司 用于企业金融获客的商业汇票大数据分析方法及应用图谱
CN115934963B (zh) * 2022-12-26 2023-07-18 深度(山东)数字科技集团有限公司 用于企业金融获客的商业汇票大数据分析方法及应用图谱

Similar Documents

Publication Publication Date Title
Yue et al. A review of data mining-based financial fraud detection research
CN106157132A (zh) 信用风险监控系统及方法
CN109492945A (zh) 企业风险识别监控方法、装置、设备及存储介质
CN111311402A (zh) 一种基于XGBoost的互联网金融风控模型
CN112668944A (zh) 一种基于大数据征信的企业风控方法、装置、设备及介质
CN104321794B (zh) 一种使用多维评级来确定一实体的未来商业可行性的系统和方法
Kirkos et al. Identifying qualified auditors' opinions: a data mining approach
Dbouk et al. Towards a machine learning approach for earnings manipulation detection
Garrido et al. A Robust profit measure for binary classification model evaluation
CN112101769A (zh) 供应链风险管理系统
Deng et al. Combining self-organizing map and k-means clustering for detecting fraudulent financial statements
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
Čičak et al. Determining the level of accounting conservatism through the fuzzy logic system
CN113159461A (zh) 基于样本迁移学习的中小微企业信用评价方法
CN114996371A (zh) 基于图论算法的关联企业反欺诈模型构建方法及系统
CN111951104A (zh) 一种基于关联图谱的风险传导预警方法
CN104537383A (zh) 一种基于粒子群的海量组织机构数据分类方法及系统
Hu et al. An intelligent model for software project risk prediction
Glennon et al. Development and validation of credit scoring models
CN109858832A (zh) 一种多属性绿色指标分级协调评价方法
Apparao et al. Financial statement fraud detection by data mining
Deng Detection of fraudulent financial statements based on Naïve Bayes classifier
CN106778252A (zh) 基于粗糙集理论与waode算法的入侵检测方法
Hu Overdue invoice forecasting and data mining
CN115330526A (zh) 一种企业信用评分方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220902

RJ01 Rejection of invention patent application after publication