CN114996371A

CN114996371A - 基于图论算法的关联企业反欺诈模型构建方法及系统

Info

Publication number: CN114996371A
Application number: CN202210929936.7A
Authority: CN
Inventors: 麦健尧
Original assignee: Guangdong Zhongyingshengda Digital Technology Co ltd
Current assignee: Guangdong Zhongyingshengda Digital Technology Co ltd
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-09-02

Abstract

本发明公开了一种基于图论算法的关联企业反欺诈模型构建方法及系统，属于数据挖掘技术领域，其方法包括：提取实体和实体对应的属性，将实体作为图谱中的节点，于各个节点之间建立关系边线；统计每两个节点的关系深度；计算并筛选入模特征变量，划分训练样本和测试样本，训练模型并评估模型效果；其系统包括构建关联图谱模块、统计关联入模特征变量模块、筛选入模特征变量模块、划分训练和测试样本模块、训练模型模块和评估模型有效性模块。所述基于图论算法的关联企业反欺诈模型构建方法及系统解决了现有的反欺诈模型构建方式得到的反欺诈模型反映出的企业情况精准度低的问题。

Description

基于图论算法的关联企业反欺诈模型构建方法及系统

技术领域

本发明涉及数据挖掘技术领域，特别是一种基于图论算法的关联企业反欺诈模型构建方法及系统。

背景技术

金融机构对于企业的风控模型相对不够成熟完善，一方面企业信息对比个人信息维度较单一，格式化程度也较低，企业的经营信息更多停留在纸质存储且格式不一的物流收发单、水电单、发票订单以及未经审计的财务报表，反映企业真实经营状况有限；另一方面，现有的针对企业的征信产品大同小异，主要是公开的工商和司法涉诉信息，虽然提供了企业间的关联信息，但只是局部的部分关联，而且没有进一步结合企业本身的经营标签作为客群好坏区分，如此，用得到的反欺诈模型反映出的企业情况精准度低。

发明内容

针对上述缺陷，本发明的一个目的在于提出一种基于图论算法的关联企业反欺诈模型构建方法，解决了现有的反欺诈模型构建方式得到的反欺诈模型反映出的企业情况精准度低的问题。

针对上述缺陷，本发明的另一个目的在于提出一种基于图论算法的关联企业反欺诈模型构建系统，解决了现有的反欺诈模型构建方式得到的反欺诈模型反映出的企业情况精准度低的问题。

为达此目的，本发明采用以下技术方案：一种基于图论算法的关联企业反欺诈模型构建方法，包括：

构建关联图谱步骤：从传统关系型数据库中获取原业务数据，并提取原业务数据中的实体和实体对应的属性，将实体作为图谱中的节点，于各个节点之间建立关系边线；其中，所述实体为原业务数据中的企业和个人，实体对应的属性包括实体的好坏标签；

统计关联入模特征变量步骤：利用Dijkstra算法计算图谱中任意两个节点间的最短路径后，统计每两个节点的关系深度为

度，计算关系深度为

度下的维度属性关联指标，得到特征变量，其中，

为两个节点间的最短路径的关系边线的数量，且

；

筛选入模特征变量步骤：根据实体的好坏标签以及不同深度的特征变量，计算每个特征变量对应的特征性能评估指标IV；筛选出IV大于0.02的特征变量作为入模特征变量；

划分训练和测试样本步骤：根据随机种子将含有入模特征变量的全部实体划分为训练样本和测试样本；

训练模型步骤：将训练样本输入LR逻辑回归模型进行训练；

评估模型有效性步骤：将测试样本输入到训练后的LR逻辑回归模型得到输出的模型预测结果，将输出的模型预测结果结合测试样本的好坏标签，计算训练后的LR逻辑回归模型的KS指标和AUC指标；输出KS指标位于KS有效阈值区间以及AUC指标大于AUC有效阈值的训练后的LR逻辑回归模型。

值得说明的是，在所述统计关联入模特征变量步骤中，所述Dijkstra算法具体为：

S1：设定图谱G={V,E}，其中V为图谱中的所有节点的集合，E为各个节点之间的关系边线的集合；设定集合S={V0},V0为在集合V中随机选取的首节点；设定未确定最短路径的节点的集合T=V-S；计算集合T中的所有节点与首节点V0的距离d(V0,Vi)，Vi为集合T中的第i个节点；当节点Vi与首节点V0能在集合E中寻找到直接的关系边线时，距离d(V0,Vi)为首节点V0和节点Vi之间的弧上的权值；当节点Vi与首节点V0没有在集合E中寻找到直接的关系边线时，距离d(V0,Vi)为无限大；

S2：从集合T中选取一个与集合S中的首节点V0能建立关系边线且距离d(V0,Vi)最小的节点Vi作为中间节点W，并加入到集合S中；

S3：将中间节点W从集合T中删除以更新集合T，计算集合T中的所有节点与首节点V0的距离d(V0,Vi)；当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)小于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时，将距离d(V0,Vi)更新为加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)；当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)大于或等于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时，不更新距离d(V0,Vi)；

重复步骤S2和S3，直到集合T内的节点数为0为止。

可选地，在所述筛选入模特征变量步骤中，特征变量对应的特征性能评估指标IV的计算公式为：

；

其中，对于每个特征变量，于该特征变量的值域内按卡方分箱方式分为

个分箱，

为该特征变量中第

个分箱的好坏标签为坏的实体的数量，

为该特征变量中第

个分箱的好坏标签为好的实体的数量，

为原业务数据中好坏标签为坏的实体的数量，

为原业务数据中好坏标签为好的实体的数量，

。

具体地，在所述评估模型有效性步骤中，KS指标的计算步骤为：

利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值；

根据模型结果分值对所有实体进行升序排列，并对升序排列后的所有实体进行等距分组；

单独计算每个分组的好实体比率

，

表示第j分组中好坏标签为好的实体的累计数量占原业务数据中好坏标签为好的实体的数量的比率，j=1，……y，y为分组数，并计算好实体累加比率，所述好实体累加比率包括

至

，其中

为第1个分组的比率

，

为第1个分组的比率

至第y个分组的比率

的总和；单独计算每个分组的坏实体比率

，

表示第j分组中好坏标签为坏的实体的累计数量占原业务数据中好坏标签为坏的实体的数量的比率，然后计算坏实体累加比率，坏实体累加比率包括

至

，其中

为第1个分组的比率

，

为第1个分组的比率

至第y个分组的比率

的总和；将每个好实体累加比率与每个坏实体累加比率均做减法运算后取绝对值，并选取最大值为KS指标。

优选的，在所述评估模型有效性步骤中，AUC指标的计算步骤为：

在模型结果分值域内，从小到大等距分组，其中每个分组的分值上限为该分组的好坏阈值；

测试样本中的所有实体均与每个分组的好坏阈值进行比较，进行预测好坏判定；当单个实体的模型结果分值大于或等于对应分组的好坏阈值时，判定该实体为该分组中的预测好实体，当单个实体的模型结果分值小于对应分组的好坏阈值时，判定该实体为该分组中的预测坏实体；在每个分组中，当好坏标签为好的实体为预测好实体时，标记该实体为真阳；当好坏标签为好的实体为预测坏实体时，标记该实体为假阴；当好坏标签为坏的实体为预测好实体时，标记该实体为假阳；当好坏标签为坏的实体为预测坏实体时，标记该实体为真阴；分别统计每个分组中的真阳的实体个数为TP，假阴的实体个数为FN，假阳的实体个数为FP，真阴的实体个数为TN；

计算每个分组内的真阳率TPR=TP/(TP+FN)；计算每个分组内的的假阳率FPR=FP/(FP+TN)；以假阳率FPR为X轴、真阳率TPR为Y轴，将不同分组的点（FPR，TPR）连通得到ROC曲线，AUC指标为ROC曲线下的面积。

值得说明的是，一种基于图论算法的关联企业反欺诈模型构建系统，包括：

构建关联图谱模块：用于从传统关系型数据库中获取原业务数据，并提取原业务数据中的实体和实体对应的属性；用于将实体作为图谱中的节点，于各个节点之间建立关系边线；其中，所述实体为原业务数据中的企业和个人，实体对应的属性包括实体的好坏标签；

统计关联入模特征变量模块：用于根据Dijkstra算法计算图谱中任意两个节点间的最短路径后，统计每两个节点的关系深度为

度，计算关系深度为

度下的维度属性关联指标，得到特征变量，其中，

为两个节点间的最短路径的关系边线的数量，且

；

筛选入模特征变量模块：用于根据实体的好坏标签以及不同深度的特征变量，计算每个特征变量对应的特征性能评估指标IV；用于筛选出IV大于0.02的特征变量作为入模特征变量；

划分训练和测试样本模块：用于根据随机种子将含有入模特征变量的全部实体划分为训练样本和测试样本；

训练模型模块：用于将训练样本输入LR逻辑回归模型进行训练；

评估模型有效性模块：用于将测试样本输入到训练后的LR逻辑回归模型得到输出的模型预测结果，将输出的模型预测结果结合测试样本的好坏标签，计算训练后的LR逻辑回归模型的KS指标和AUC指标；用于输出KS指标位于KS有效阈值区间以及AUC指标大于AUC有效阈值的训练后的LR逻辑回归模型。

可选地，所述统计关联入模特征变量模块的Dijkstra算法具体用于设定图谱G={V,E}，其中V为图谱中的所有节点的集合，E为各个节点之间的关系边线的集合；设定集合S={V0},V0为在集合V中随机选取的首节点；用于设定未确定最短路径的节点的集合T=V-S；用于计算集合T中的所有节点与首节点V0的距离d(V0,Vi)，Vi为集合T中的第i个节点；用于当节点Vi与首节点V0能在集合E中寻找到直接的关系边线时，距离d(V0,Vi)为首节点V0和节点Vi之间的弧上的权值；用于当节点Vi与首节点V0没有在集合E中寻找到直接的关系边线时，距离d(V0,Vi)为无限大；

用于重复执行：从集合T中选取一个与集合S中的首节点V0能建立关系边线且距离d(V0,Vi)最小的节点Vi作为中间节点W，并加入到集合S中；将中间节点W从集合T中删除以更新集合T，计算集合T中的所有节点与首节点V0的距离d(V0,Vi)；用于当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)小于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时，将距离d(V0,Vi)更新为加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)；用于当加入中间节点W后的首节点V0到节点Vi的距离d(V0,Vi)大于或等于未加入中间节点W前的首节点V0到节点Vi的距离d(V0,Vi)时，不更新距离d(V0,Vi)；直到集合T内的节点数为0为止。

具体地，特征变量对应的特征性能评估指标IV的计算公式为：

；

个分箱，

为该特征变量中第

个分箱的好坏标签为坏的实体的数量，

为该特征变量中第

个分箱的好坏标签为好的实体的数量，

为原业务数据中好坏标签为坏的实体的数量，

为原业务数据中好坏标签为好的实体的数量，

。优选的，所述评估模型有效性模块具体用于利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值；

用于根据模型结果分值对所有实体进行升序排列，并对升序排列后的所有实体进行等距分组；

用于单独计算每个分组的好实体比率

，

至

，其中

为第1个分组的比率

，

为第1个分组的比率

至第y个分组的比率

的总和；用于单独计算每个分组的坏实体比率

，

至

，其中

为第1个分组的比率

，

为第1个分组的比率

至第y个分组的比率

的总和；用于将每个好实体累加比率与每个坏实体累加比率均做减法运算后取绝对值，并选取最大值为KS指标。

值得说明的是，所述评估模型有效性模块具体用于利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值；

用于在模型结果分值域内，从小到大等距分组，其中每个分组的分值上限为该分组的好坏阈值；

用于将测试样本中的所有实体均与每个分组的好坏阈值进行比较，进行预测好坏判定；用于当单个实体的模型结果分值大于或等于对应分组的好坏阈值时，判定该实体为该分组中的预测好实体，当单个实体的模型结果分值小于对应分组的好坏阈值时，判定该实体为该分组中的预测坏实体；用于在每个分组中，当好坏标签为好的实体为预测好实体时，标记该实体为真阳；当好坏标签为好的实体为预测坏实体时，标记该实体为假阴；当好坏标签为坏的实体为预测好实体时，标记该实体为假阳；当好坏标签为坏的实体为预测坏实体时，标记该实体为真阴；用于分别统计每个分组中的真阳的实体个数为TP，假阴的实体个数为FN，假阳的实体个数为FP，真阴的实体个数为TN；

用于计算每个分组内的真阳率TPR=TP/(TP+FN)；用于计算每个分组内的的假阳率FPR=FP/(FP+TN)；用于以假阳率FPR为X轴、真阳率TPR为Y轴，将不同分组的点（FPR，TPR）连通得到ROC曲线，AUC指标为ROC曲线下的面积。

上述技术方案中的一个技术方案具有如下有益效果：在所述基于图论算法的关联企业反欺诈模型构建方法中，利用构建关联图谱步骤结合图论算法，得到各个实体之间的关系边线，使用有向图中Dijkstra算法解决了两个关联实体的最短路径问题，避免重复关联或其他复杂关联，保证了入模特征变量的有效性，从而能全方面对各个实体进行关联，提高了得到的反欺诈模型反映的企业情况的精准度。

附图说明

图1是本发明的一个实施例的基于图论算法的关联企业反欺诈模型构建方法的流程图；

图2是本发明的一个实施例的基于图论算法的关联企业反欺诈模型构建系统的系统框图；

图3是本发明的一个实施例中节点间的关系深度示意图；

图4是本发明的一个实施例中Dijkstra算法的示意图。

具体实施方式

下面详细描述本发明的实施方式，实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

下文的公开提供了许多不同的实施方式或例子用来实现本发明的实施方式的不同结构。为了简化本发明的实施方式的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明。此外，本发明的实施方式可以在不同例子中重复参考数字和/或参考字母，这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施方式和/或设置之间的关系。

如图1所示，一种基于图论算法的关联企业反欺诈模型构建方法，包括：

构建关联图谱步骤：从传统关系型数据库中获取原业务数据，并提取原业务数据中的实体和实体对应的属性，将实体作为图谱中的节点，于各个节点之间建立关系边线；其中，所述实体为原业务数据中的企业和个人，实体对应的属性包括实体的好坏标签；实体的好坏标签包括法人的好坏标签和企业的好坏标签，所述实体对应的属性为实体本身的元素，实体对应的属性还包括法人的年龄和企业的成立年限；所述关系边线包括直接的关系边线和间接的关系边线；其中，直接的关系边线为两个节点间的连线，间接的关系边线为三个及三个以上的节点间连线；比如，有节点一、节点二和节点三，节点一和节点二之间的连线一为直接的关系边线，节点二和节点三之间的连线二为直接的关系边线，连线一和连线二为节点一和节点三之间的间接的关系边线；

具体地，由传统关系型数据库获得存储的原业务相关数据，并分为三个子步骤进行构建关联图谱步骤：（1）定义实体：包含企业和个人，作为图谱中的节点；（2）定义关系：连通节点间的关系边线，如某法人代表某公司，那么就形成一条有向的边线，同样地某公司被某法人代表，那么就形成一条反向的边线，两实体间的关系是相互双向的；再有，若同一法人代表两间不同的公司，那么两公司就存在一条两层深度的间接关系；（3）定义属性：实体本身的元素，如法人的年龄、法人的好坏标签等、企业的成立年限和企业的好坏标签等；此处明确反欺诈模型的好坏标签定义，将样本表现为从首期出现逾期并且持续逾期天数超过15天及以上的特征客户的好坏标签标记为坏，作为反欺诈标签中的坏客户，将样本表现为还款周期超过6个月且历史最大逾期天数指标不超过5天的特征客户的好坏标签标记为好，其余客户为灰客户标签，待观察不做入模；另外，关系边线的属性可根据个人与企业的关系定义关系中的权重属性，权重越小代表两个实体间的关系越密切，如企业与个人A的关系是实控关系记为关系属性值1，而与个人B的关系是法人代表关系记为关系属性值2，那么可认为实控的关系密切度大于法人代表关系。基于六度关系理论，当存量业务样本量足够大时，任意两个实体在六层深度内都能找到连通的关系边线，从而构建一个关系复杂的企业关联图谱。

度，计算关系深度为

度下的维度属性关联指标，得到特征变量，其中，

为两个节点间的最短路径的关系边线的数量，且

；应用图论中Dijkstra算法可统计任意两个节点间的最短路径，若两个节点间的最短路径只有一条边线，则认为两个节点的关系深度为一度；若两个节点间连通另外第三个节点，并由两条关系边线间接连通，则认为这两个节点间的关系深度为二度，由此同理推论到更大的关系深度。根据以上关系深度计算逻辑，可统计任意节点中关系深度为一度到N度内的客户数，从而能分别统计好坏客户的占比等衍生指标。

筛选入模特征变量步骤：根据实体的好坏标签以及不同深度的特征变量，计算每个特征变量对应的特征性能评估指标IV；筛选出IV大于0.02的特征变量作为入模特征变量；结合客户本身的好坏客标签，以及衍生的多项特征变量（如关系深度为一度的好坏标签为坏的实体的占比，关系深度为二度好坏标签为坏的实体的占比，关系深度为二度内好坏标签为坏的实体的占比等），逐一计算特征性能评估指标IV(Information Value)，筛选出IV值大于0.02的特征变量作为入模标准。

划分训练和测试样本步骤：根据随机种子将含有入模特征变量的全部实体划分为训练样本和测试样本；根据随机种子按比例划分训练样本和测试样本，用于模型训练后的交叉校验，防止训练环节导致的过拟合，保证模型的稳定性。

训练模型步骤：将训练样本输入LR逻辑回归模型进行训练；输入训练样本中的衍生关联特征变量和好坏客标签。LR逻辑回归模型又称logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。

评估模型有效性步骤：将测试样本输入到训练后的LR逻辑回归模型得到输出的模型预测结果，将输出的模型预测结果结合测试样本的好坏标签，计算训练后的LR逻辑回归模型的KS指标和AUC指标；输出KS指标位于KS有效阈值区间以及AUC指标大于AUC有效阈值的训练后的LR逻辑回归模型。由于当存量业务样本量足够大时，任意两个实体在六层深度内都能找到连通的关系，从而构建一个关系复杂的企业关联图谱，如此，

最大为6。KS有效阈值区间为[0.23,0.45]。在本实施例中，当

时，且训练后的LR逻辑回归模型的KS指标没有位于KS有效阈值区间或者经过训练后的模型的AUC指标小于或等于AUC有效阈值，则结束所述基于图论算法的关联企业反欺诈模型构建方法。

在本实施例中，结合图论算法，将关联企业和关联企业个人作为图谱中的关系节点，以关联的关系作为图谱中的关系边线，关联的职位作为关系边线中的权重，以企业本身的经营表现作为企业节点的属性，从此得出由海量企业主和企业节点间连通得到的网状图谱，并根据每个节点本身的好坏标签，结合图论算法中的有向图最短路径深度计算，从而衍生出可供建模的关联特征变量，最终达成以下目的：1.将存量业务的企业和个人信息构建全局的关联图谱，清晰了解存量企业间的直接间接关系；2.由图论算法计算得出的企业间层级关联特征变量，通过关联企业和个人的表现来推断融资企业的违约概率；3、统计存量历史表现的企业和个人样本标签数据，建立关联企业的反欺诈模型。

在本实施例中，结合了图论算法技术和本身的存量客户表现标签数据，并应用于历史业务，从而提高客户评估的精度；丰富了中小微企业入模特征变量的维度，能够提高模型的准确性；使用有向图中Dijkstra算法解决了两个关联企业的最短路径问题，避免重复关联或其他复杂关联，保证了入模特征变量的有效性；明确了反欺诈模型的标签属性定义，细分到客群在反欺诈环节的应用模型，从而提高对应客群的区分度。

在所述基于图论算法的关联企业反欺诈模型构建方法中，利用构建关联图谱步骤结合图论算法，得到各个实体时间的关系边线，使用有向图中Dijkstra算法解决了两个关联实体的最短路径问题，避免重复关联或其他复杂关联，保证了入模特征变量的有效性，从而能全方面对各个实体进行关联，提高了得到的反欺诈模型反映的企业情况的精准度。

一些实施例中，在所述统计关联入模特征变量步骤中，所述Dijkstra算法具体为：

重复步骤S2和S3，直到集合T内的节点数为0为止。

如图3和4所示，在本实施例中，（1）初始确定集S只包含节点1，已知节点1到节点2、节点3和节点6的距离分别是2、3和4，余下的节点4和节点5无直接关联记为∞；其中节点2距离集合S={节点1}的距离最短，为2，将节点2加入集合S，S={节点1，节点2}，并将节点2作为中间节点W，计算经过中间节点W的路径，得到路径（1-2-4）的距离总值为2+5=7<∞（节点1与节点4的初始距离值），更新节点1到节点4的最短距离为7。（2）未确定最短路径的节点的集合T={节点3，节点4，节点5，节点6}，其中节点3与集合S={节点1，节点2}的距离最短，为3，将节点3加入到集合S，S={节点1，节点2，节点3}，并将节点3作为中间节点W，计算经过中间节点W的路径，得到路径(1-3-5)的距离总值为3+6=9<∞（节点1与节点5的初始距离值），更新节点1到节点5的最短距离为9。（3）未确定最短路径的节点的集合T={节点4，节点5，节点6}，其中节点6与集合S={节点1，节点2，节点3}的距离最短，为4，将节点6加入到集合S，S={节点1，节点2，节点3，节点6}，并将节点6作为中间节点W，计算经过中间节点W的路径，得不到路径，不更新值。（4）未确定最短路径的节点的集合T={节点4，节点5}，其中节点4与集合S={节点1,节点2，节点3，节点6}的距离最短，为5，将节点4加入到集合S，S={节点1，节点2，节点3，节点6，节点4}，并将节点4作为中间节点W，计算经过中间节点W的路径，得不到路径，不更新值。（5）未确定最短路径的节点的集合T={节点5}中节点5与集合S={节点1,节点2，节点3，节点6，节点4}的距离最短，为6，将节点5加入到集合S，S={节点1，节点2，节点3，节点6，节点4，节点5}，并将节点5作为中间节点W，计算经过中间节点W的路径，得不到路径，不更新值。如此，所有节点已确定，结束计算。根据以上结果，统计所有路径及对应关系深度可得：一度关系有：节点1连接节点2、节点1连接节点3和节点1连接节点6；二度关系有：节点1经过节点2连接节点4和节点1经过节点3连接节点5；非最短路径有：实体1经过实体2再经过实体4连接实体6和实体1经过实体3再经过实体5连接实体6。

值得说明的是，在所述筛选入模特征变量步骤中，特征变量对应的特征性能评估指标IV的计算公式为：

；由此得到每个特征变量对应的特征性能评估指标IV；

个分箱，

为该特征变量中第

个分箱的好坏标签为坏的实体的数量，

为该特征变量中第

个分箱的好坏标签为好的实体的数量，

为原业务数据中好坏标签为坏的实体的数量，

为原业务数据中好坏标签为好的实体的数量，

。本实施例中，IV大于0.02为入模的有效阈值，IV小于0.02时区分度较低为无效特征变量，IV大于0.2为强区分度特征变量。

可选地，在所述评估模型有效性步骤中，KS指标的计算步骤为：

根据模型结果分值对所有实体进行升序排列，并对升序排列后的所有实体进行等距分组；具体地，等距分组的组数控制在10-20组之间；

单独计算每个分组的好实体比率

，

至

，其中

为第1个分组的比率

，

为第1个分组的比率

至第y个分组的比率

的总和；单独计算每个分组的坏实体比率

，

至

，其中

为第1个分组的比率

，

为第1个分组的比率

至第y个分组的比率

的总和；将每个好实体累加比率与每个坏实体累加比率均做减法运算后取绝对值，并选取最大值为KS指标。将每个好实体累加比率与每个坏实体累加比率均做减法运算指将y个好实体累加比率中的每一个分别与y个坏实体累加比率进行减法运算得到y*y个减法结果。

在本实施例中，可以直观理解到，将每个好实体累加比率与每个坏实体累加比率均做减法运算后取绝对值，并选取最大值，是好坏标签为坏的实体的占比与好坏标签为好的实体的占比的差值最大，区分开好坏标签为坏的实体与好坏标签为好的实体的效果最好，以此作为模型的准入阈值，可以在牺牲最少好坏标签为坏的实体的代价下，最大化拦截好坏标签为坏的实体准入，从而降低整体客群风险。

测试样本中的所有实体均与每个分组的好坏阈值进行比较，进行预测好坏判定；当单个实体的模型结果分值大于或等于对应分组的好坏阈值时，判定该实体为该分组中的预测好实体，当单个实体的模型结果分值小于对应分组的好坏阈值时，判定该实体为该分组中的预测坏实体；在每个分组中，当好坏标签为好的实体为预测好实体时，标记该实体为真阳；当好坏标签为好的实体为预测坏实体时，标记该实体为假阴；当好坏标签为坏的实体为预测好实体时，标记该实体为假阳；当好坏标签为坏的实体为预测坏实体时，标记该实体为真阴；分别统计每个分组中的真阳的实体个数为TP，假阴的实体个数为FN，假阳的实体个数为FP，真阴的实体个数为TN；在本实施例中，测试样本中的所有实体的模型结果分值并不作分组，只对模型结果分值域进行分组，比如，模型结果分值域为[1,90]，其中[1,30]为第一组，(30,60]为第二组，(60,90]为第三组，因此第一组的好坏阈值为30，第二组的好坏阈值为60，第三组的好坏阈值为90，当测试样本中的某个实体的模型结果分值为40时，40大于第一组的好坏阈值，因此，该实体为第一组中的预测好实体，40小于第二组的好坏阈值，因此，该实体为第二组中的预测坏实体，40小于第三组的好坏阈值，因此，该实体为第二组中的预测坏实体；

在本实施例中，AUC有效阈值大于或等于0.7。

一些实施例中，如图2所示，一种基于图论算法的关联企业反欺诈模型构建系统，包括：

度，计算关系深度为

度下的维度属性关联指标，得到特征变量，其中，

为两个节点间的最短路径的关系边线的数量，且

；

值得说明的是，所述统计关联入模特征变量模块通的Dijkstra算法具体用于设定图谱G={V,E}，其中V为图谱中的所有节点的集合，E为各个节点之间的关系边线的集合；设定集合S={V0},V0为在集合V中随机选取的首节点；用于设定未确定最短路径的节点的集合T=V-S；用于计算集合T中的所有节点与首节点V0的距离d(V0,Vi)，Vi为集合T中的第i个节点；用于当节点Vi与首节点V0能在集合E中寻找到直接的关系边线时，距离d(V0,Vi)为首节点V0和节点Vi之间的弧上的权值；用于当节点Vi与首节点V0没有在集合E中寻找到直接的关系边线时，距离d(V0,Vi)为无限大；

可选地，特征变量对应的特征性能评估指标IV的计算公式为：

；

个分箱，

为该特征变量中第

个分箱的好坏标签为坏的实体的数量，

为该特征变量中第

个分箱的好坏标签为好的实体的数量，

为原业务数据中好坏标签为坏的实体的数量，

为原业务数据中好坏标签为好的实体的数量，

。

具体地，所述评估模型有效性模块具体用于利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值；

用于单独计算每个分组的好实体比率

，

至

，其中

为第1个分组的比率

，

为第1个分组的比率

至第y个分组的比率

的总和；用于单独计算每个分组的坏实体比率

，

至

，其中

为第1个分组的比率

，

为第1个分组的比率

至第y个分组的比率

的总和；用于将每个好实体累加比率与每个坏实体累加比率均做减法运算后取绝对值，并选取最大值为KS指标。将每个好实体累加比率与每个坏实体累加比率均做减法运算指将y个好实体累加比率中的每一个分别与y个坏实体累加比率进行减法运算得到y*y个减法结果。

优选的，所述评估模型有效性模块具体用于利用经过训练后的模型对测试样本中的每个实体进行评估打分得到模型结果分值；

在本说明书的描述中，参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施方式，可以理解的是，上述实施方式是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施实施进行变化、修改、替换和变型。

Claims

1.一种基于图论算法的关联企业反欺诈模型构建方法，其特征在于，包括：

度，计算关系深度为

度下的维度属性关联指标，得到特征变量，其中，

为两个节点间的最短路径的关系边线的数量，且

；

训练模型步骤：将训练样本输入LR逻辑回归模型进行训练；

2.根据权利要求1所述的基于图论算法的关联企业反欺诈模型构建方法，其特征在于：

在所述统计关联入模特征变量步骤中，所述Dijkstra算法具体为：

重复步骤S2和S3，直到集合T内的节点数为0为止。

3.根据权利要求2所述的基于图论算法的关联企业反欺诈模型构建方法，其特征在于：在所述筛选入模特征变量步骤中，特征变量对应的特征性能评估指标IV的计算公式为：

；

个分箱，

为该特征变量中第

个分箱的好坏标签为坏的实体的数量，

为该特征变量中第

个分箱的好坏标签为好的实体的数量，

为原业务数据中好坏标签为坏的实体的数量，

为原业务数据中好坏标签为好的实体的数量，

。

4.根据权利要求3所述的基于图论算法的关联企业反欺诈模型构建方法，其特征在于：

在所述评估模型有效性步骤中，KS指标的计算步骤为：

单独计算每个分组的好实体比率

，

至

，其中

为第1个分组的比率

，

为第1个分组的比率

至第y个分组的比率

的总和；单独计算每个分组的坏实体比率

，

至

，其中

为第1个分组的比率

，

为第1个分组的比率

至第y个分组的比率

5.根据权利要求4所述的基于图论算法的关联企业反欺诈模型构建方法，其特征在于：

在所述评估模型有效性步骤中，AUC指标的计算步骤为：

在模型结果分值域内，从小到大等距分组，其中每个分组的分值上限为该分组的好坏阈值；测试样本中的所有实体均与每个分组的好坏阈值进行比较，进行预测好坏判定；当单个实体的模型结果分值大于或等于对应分组的好坏阈值时，判定该实体为该分组中的预测好实体，当单个实体的模型结果分值小于对应分组的好坏阈值时，判定该实体为该分组中的预测坏实体；在每个分组中，当好坏标签为好的实体为预测好实体时，标记该实体为真阳；当好坏标签为好的实体为预测坏实体时，标记该实体为假阴；当好坏标签为坏的实体为预测好实体时，标记该实体为假阳；当好坏标签为坏的实体为预测坏实体时，标记该实体为真阴；分别统计每个分组中的真阳的实体个数为TP，假阴的实体个数为FN，假阳的实体个数为FP，真阴的实体个数为TN；

6.一种基于图论算法的关联企业反欺诈模型构建系统，其特征在于，包括：

度，计算关系深度为

度下的维度属性关联指标，得到特征变量，其中，

为两个节点间的最短路径的关系边线的数量，且

；

7.根据权利要求6所述的基于图论算法的关联企业反欺诈模型构建系统，其特征在于：

所述统计关联入模特征变量模块的Dijkstra算法具体用于设定图谱G={V,E}，其中V为图谱中的所有节点的集合，E为各个节点之间的关系边线的集合；设定集合S={V0},V0为在集合V中随机选取的首节点；用于设定未确定最短路径的节点的集合T=V-S；用于计算集合T中的所有节点与首节点V0的距离d(V0,Vi)，Vi为集合T中的第i个节点；用于当节点Vi与首节点V0能在集合E中寻找到直接的关系边线时，距离d(V0,Vi)为首节点V0和节点Vi之间的弧上的权值；用于当节点Vi与首节点V0没有在集合E中寻找到直接的关系边线时，距离d(V0,Vi)为无限大；

8.根据权利要求7所述的基于图论算法的关联企业反欺诈模型构建系统，其特征在于：

特征变量对应的特征性能评估指标IV的计算公式为：