CN117035082A - 一种用于识别欺诈团伙的知识图谱实时运算方法和系统 - Google Patents

一种用于识别欺诈团伙的知识图谱实时运算方法和系统 Download PDF

Info

Publication number
CN117035082A
CN117035082A CN202311301196.3A CN202311301196A CN117035082A CN 117035082 A CN117035082 A CN 117035082A CN 202311301196 A CN202311301196 A CN 202311301196A CN 117035082 A CN117035082 A CN 117035082A
Authority
CN
China
Prior art keywords
data
fraud
node
graph
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311301196.3A
Other languages
English (en)
Inventor
孟洁
郑磊
黄生勇
兰杰
侯禹新
朱耀明
陈宇
黄颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiangrongxin Technology Co ltd
Original Assignee
Beijing Jiangrongxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiangrongxin Technology Co ltd filed Critical Beijing Jiangrongxin Technology Co ltd
Priority to CN202311301196.3A priority Critical patent/CN117035082A/zh
Publication of CN117035082A publication Critical patent/CN117035082A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及大数据处理技术领域,具体公开了一种用于识别欺诈团伙的知识图谱实时运算方法和系统,包括:收集业务数据并对业务数据进行预处理;建立各个实体节点,并创建各个实体节点之间的所属关系,再根据反欺诈业务需求增加属性节点,构建图结构;利用Node2Vec算法将图结构中的节点和边映射到低维向量空间,为每个节点生成特征向量;将特征向量与实体节点的标签结合,构建数据集;使用XGBoost算法对数据集进行评估生成训练模型,使用训练模型对待测个体进行预测,根据预测结果判断和标注个体是否存在欺诈风险;利用LPA算法对图结构中具有相似特征和紧密连接的节点进行聚类和识别社群,并对所识别的社群进行欺诈特征提炼。

Description

一种用于识别欺诈团伙的知识图谱实时运算方法和系统
技术领域
本发明涉及大数据处理技术领域,具体涉及一种用于识别欺诈团伙的知识图谱实时运算方法和系统。
背景技术
之前已有的反欺诈相关知识图谱技术,主要是通过对数据源的直接应用构建社群。在构建的社群中,未说明根据业务实际需求的数据特征加工及改进方法。
欺诈定义是故意欺骗、盗用财产或违反法律的行为,业内通常根据欺诈主体本质分为个人欺诈和团伙欺诈。
知识图谱是基于图数据库的可视化分析产品。该产品以可视化技术,图算法为基石,结合模式匹配、团伙分割算法,辅助地址模糊匹配、机器学习算法等,提供全方位的图设计、图搜索、图分析、图规则、识别团伙、图探索等功能,帮助用户快速发现风险点和可疑团伙,实现“人机结合”形式的智能化分析、研判和决策。
本发明与现有技术相比较,自身的特点主要是:1.相对于传统机器学习方法使用Node2Vec算法和XGBoost算法组合后的改进算法考虑到了网络结构,可以捕捉图中节点之间的结构信息。2.将Node2Vec算法生成的特征向量输入到XGBoost分类器中,可以使模型在欺诈检测任务上具有更好的泛化能力和准确性。3.Node2Vec和XGBoost都具有良好的可扩展性,可以处理大规模的数据集。4.在银行信贷金融产品欺诈风险管控上,使用基于标签传播的团伙挖掘技术,LPA算法(标签传播算法)和XGBoost算法可以自动提取和学习数据中的重要特征,而无需人工进行特征选择,降低了人工干预的成本和难度,并表现出较好的区分特性。
因此,如何提供一种根据业务实际需求的数据特征加工及改进方法,是本领域技术人员亟待解决的技术问题。
发明内容
为实现本发明目的提供的一种用于识别欺诈团伙的知识图谱实时运算方法,包括:
步骤S1:收集业务数据并对所述业务数据进行预处理;
步骤S2:基于所述预处理后的业务数据建立各个实体节点,并创建各个实体节点之间的所属关系,再根据反欺诈业务需求增加属性节点,从而构建图结构;
步骤S3:利用Node2Vec算法将所述图结构中的节点和边映射到低维向量空间,为每个节点生成特征向量;
步骤S4:将所述特征向量与所述实体节点的标签结合,构建数据集;
步骤S5:使用XGBoost算法对所述训练数据集进行评估生成训练模型,使用所述训练模型对待测个体进行预测,根据预测结果判断和标注所述个体是否存在欺诈风险;
步骤S6:利用LPA社群识别算法对所述图结构中具有相似特征和紧密连接的节点进行聚类和识别社群,并基于所识别的社群进行欺诈特征提炼,输出带有欺诈团伙标注的拓扑网络数据关系。
在其中一些具体实施例中,所述业务数据包括:客户数据、访问行为数据、进件审批数据、交易数据、三方征信数据,并基于geohash编码算法、一致性验证、常驻归属圈的方式对数据特征加工,对收集的数据进行清洗、去重、缺失值处理,确保数据质量。
在其中一些具体实施例中,所述实体节点包括:客户、联系人、设备、网络代码、位置、交易、进件。
在其中一些具体实施例中,所述步骤S3中,在将所述图结构中的节点或边映射到低维向量空间的同时,保留原始图的拓扑结构和节点信息。
在其中一些具体实施例中,所述步骤S4中的数据集包括数据训练集和数据测试集,并将所述数据训练集和数据测试集用特征标签进行标记。
为实现本发明目的还提供了一种用于识别欺诈团伙的知识图谱实时运算系统,包括:
数据预处理模块:用于收集业务数据并对所述业务数据进行预处理;
节点创建模块:用于基于所述预处理后的业务数据建立各个实体节点,并创建各个实体节点之间的所属关系,再根据反欺诈业务需求增加属性节点,从而构建图结构;
特征向量生成模块:用于利用Node2Vec算法将所述图结构中的节点和边映射到低维向量空间,为每个节点生成特征向量;
数据集构建模块:用于将所述特征向量与所述实体节点的标签结合,构建数据集;
训练模型生成模块:用于使用XGBoost算法对所述训练数据集进行评估生成训练模型,使用所述训练模型对待测个体进行预测,根据预测结果判断和标注所述个体是否存在欺诈风险;
欺诈特征提炼模块:用于利用LPA社群识别算法对所述图结构中具有相似特征和紧密连接的节点进行聚类和识别社群,并基于所识别的社群进行欺诈特征提炼,输出带有欺诈团伙标注的拓扑网络数据关系。
在其中一些具体实施例中,所述业务数据包括:客户数据、访问行为数据、进件审批数据、交易数据、三方征信数据,并基于geohash编码算法、一致性验证、常驻归属圈的方式对数据特征加工,对收集的数据进行清洗、去重、缺失值处理,确保数据质量。
在其中一些具体实施例中,所述实体节点包括:客户、联系人、设备、网络代码、位置、交易、进件。
在其中一些具体实施例中,所述特征向量生成模块用于在将所述图结构中的节点或边映射到低维向量空间的同时,保留原始图的拓扑结构和节点信息。
在其中一些具体实施例中,所述数据集构建模块中的数据集包括数据训练集和数据测试集,并将所述数据训练集和数据测试集用特征标签进行标记。
上述技术方案的有益效果:
(1)使用XGBoost模型对上述社群数据集进行训练和预测社群是否存在欺诈风险。LPA算法和XGBoost算法相较于传统方法在欺诈团伙识别方面具有更高的准确性、灵敏度和实时性。
(2)LPA算法和XGBoost算法可以自动提取和学习数据中的重要特征,而无需人工进行特征选择,降低了人工干预的成本和难度。这两种方法在处理大量数据时具有较高的准确率和灵敏度,能够更有效地检测潜在的欺诈团伙。LPA算法和XGBoost算法还能够处理复杂的非线性关系,可以在预测欺诈行为时具有更高的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一个实施例提供的为实现本发明目的提供的一种用于识别欺诈团伙的知识图谱实时运算方法的流程示意图;
图2为本发明的一个实施例提供的一种用于识别欺诈团伙的知识图谱实时运算系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
所述实施例的示例在附图中示出,其中自始至终相同或类似的符号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
实施例一
本发明的一个实施例提供了一种用于识别欺诈团伙的知识图谱实时运算方法,参照图1所示,包括:
步骤S1:收集业务数据并对所述业务数据进行预处理。
在本发明的一个具体实施例中,所述收集的数据包括:客户数据、访问行为数据、进件审批数据、交易数据、三方征信数据,并基于geohash编码算法、一致性验证、常驻归属圈的方式对数据特征加工,进行清洗、去重、缺失值处理,确保数据质量。
具体地,收集的数据主要包括:客户数据、访问行为数据、进件审批数据、交易数据、三方征信数据,同时针对这些数据进行清洗、去重、缺失值处理等预处理工作,确保数据质量。
以欺诈防控实际应用为图谱构建的核心是业务数据的应用。本申请不仅对业务流程、客户信息及三方数据做了变量处理,还根据业务特点引入了如基于geohash编码算法、一致性验证、常驻归属圈等方式的数据特征加工,从而提升业务应用价值。范围包括:个人信息及主键、设备网络类信息、特征偏好信息、行为一致性信息、交易行为异常、逾期类信息、申请状态及原因、黑灰名单信息、营销员信息、流程信息等。同时,数据加工后产生的运算结果,可做为衍生变量赋能至风险策略、模型构建,以实现图谱效果的最大化。
在欺诈检测领域中,高质量特征的选取对模型性能影响尤为显著。由于欺诈行为通常具有较强的隐蔽性和变异性,需要细致地挖掘潜在特征以便区分正常行为和欺诈行为。因此在特征工程阶段,应充分利用领域知识和数据分析技术,筛选出与欺诈行为紧密相关的特征,以提高模型的预测能力和稳定性。主要包括几类特征:
(1)网络及设备终端信息:例如设备指纹、IP地址、代理服务器、操作系统、浏览器类型等,这些信息有助于揭示潜在的欺诈行为。
(2)位置信息:包括:地理坐标(经纬度)转换(geohash编码)、距离特征提取、密度特征提取、频率特征提取。
(3)客户行为信息:包括登录次数、登录频率、页面访问路径等。分析这些行为数据可帮助检测异常活动,如短时间内频繁登录或操作。
(4)业务事件频次:对客户进行的交易次数、申请次数等进行统计,分析其在特定时间段内的频率,以便识别出异常交易或申请行为。
(5)申请信息:客户在申请贷款、信用卡等业务时提供的个人信息,如年龄、性别、职业、收入等,可用于评估客户的信用风险。
步骤S2:基于所述预处理后的业务数据建立各个实体节点,并创建各个实体节点之间的所属关系,再根据反欺诈业务需求增加属性节点,从而构建图结构。
在本发明的一个具体实施例中,基于数据预处理之后创建实体和实体之间的所属关系,实体包括客户、联系人、设备、网络(IP、代理、SSID)、位置、交易、进件等实体。然后根据反欺诈业务需求增加属性节点,例如用户年龄、交易金额、设备类型、登录地点、交易频率等信息,有助于对客户行为进行深入分析,从而检测潜在的欺诈行为并采取相应措施。业务逻辑如步骤一相关解释。
具体地,创建实体和实体之间的所属关系,再根据反欺诈业务需求增加属性节点,其中,所述实体包括:客户、联系人、设备、网络代码、位置、交易、进件。
步骤S3:利用Node2Vec算法将所述图结构中的节点和边映射到低维向量空间,为每个节点生成特征向量。
具体地,利用Node2Vec算法,将图结构中的节点和边映射到低维向量空间,同时保留原始图的拓扑结构和节点信息,可以有效提取节点和边的特征信息,为后续步骤提供输入。
Node2Vec算法是一种综合考虑DFS邻域和BFS邻域的graph embedding方法。简单来说,Node2walk可以看作是deepwalk的一种扩展,即结合了DFS和BFS随机游走的deepwalk。Node2vec算法会通过游走去构造训练的节点段,那么如果孤立节点没有连边的话,节点是无法出现在训练集当中。为了解决该问题,引入一个解决推荐系统冷启动的算法——EGES,将每一个节点的属性特征映射到一个embedding特征,然后将每一个属性的embedding特征置于注意力层进行处理,比如将N个随机特征通过注意力加权,可以获得最终的一个节点层面的embedding特征,新增的节点将不再依赖于关系网络以及用户的一些交互行为,新增的节点可以通过自身的属性特征就直接获得我们的embedding特征,不需要考虑用户关系从而解决孤立点的问题。
步骤S4:将所述特征向量与所述实体节点的标签结合,构建数据集。
在本发明的一个具体实施例中,所述数据集包括数据训练集和数据测试集,并将所述数据训练集和数据测试集用特征标签进行标记。
具体地,为每个节点生成特征向量后,将所述特征向量与节点的标签(如:正常、欺诈等)结合,构建训练数据集。同时,需要将数据集划分为训练集和测试集。所使用的特征标签有:
(1)ssid一度关联手机号、设备、账号等;
(2)单位名称一度关联手机号;单位名称二度关联策略拒绝标识;单位名称三度关联直亲手机号等;
(3)位置转换编码一度关联手机号;位置转换编码二度关联客群等级;位置转换编码三度关联个人评分;手机号一度关联客群等级;手机号二度关联个人评分等;
(4)业务账号一度关联设备;设备一度关联IP;业务账号三度关联手机号;设备二度关联手机号等;
(5)IP一度关联业务账号;IP二度关联位置转换编码;IP三度关联手机号等。
步骤S5:使用XGBoost算法对所述训练数据集进行评估生成训练模型,使用所述训练模型对待测个体进行预测,根据预测结果判断和标注所述个体是否存在欺诈风险。
具体地,XGBoost(即Extreme Gradient Boosting),它是一种梯度提升算法、残差决策树。它的基本思想是一棵树一棵树逐渐加入模型里,每加一棵CRAT决策树时,要使得整体的效果有所提升,也就是目标函数有所下降。XGBoost中的基学习器除了可以是CART,也可以是线性分类器(Gblinear)。
(1)初始化所有样本在K个类别上的估计值
Fk0(x)=0,k=1,2,…K。这其实是对样本x,在所有类别上的分别给出的估计,其实是一个for循环操作,这样写为了看起来简洁。如上所示,就是一个向量。
(2)对每个样本的函数估计值做logistic变换
pk(x):经过Logistic变换后的数据,将F(x)转换成0~1之间的概率值。第4行后面的k=1,…K表示计算for循环,分别计算p1(x),p2(x),p3(x),p4(x),p5(x)。Logistic变换后的数据p(x)=(0.16,0.21,0.29,0.16,0.16)。
(3)遍历所有样本的每个类别的概率,求每个样本在第k类上概率梯度
通常我们建立代价函数。代价函数是对数似然函数的形式为:
通过求导的梯度下降法来学习:
第i个样本属于第k个类别的残差=真实的概率-估计的概率,yik为输入的样本数据的实际类别,当一个样本x属于类别k时,yik=1,否则yik=0。
(4)沿着梯度方法学习到J个叶子结点的回归树
学习的伪代码:
输入所有样本xi,i=1~N,以及每个样本在第k个类别上概率的残差作为更新方向,我们学习到有J个叶子的回归树。
(5)求每个叶子结点的增益
每个结点的增益计算公式为:
(6)更新所有样本在第k类下的估计值
上一步中求得的增益是基于梯度计算得到的,而且前面说到的梯度和残差有一定的关联,我们可以利用这个增益更新样本的估计值;
第m次迭代中的第k类下,所有样本的估计值F可以通过上次迭代m-1中,这些样本的估计值+增益向量求得。
步骤S6:利用LPA社群识别算法对所述图结构中具有相似特征和紧密连接的节点进行聚类和识别社群,并基于所识别的社群进行欺诈特征提炼。
在本发明的一个具体实施例中,通过步骤S5使用XGBoost模型算法标注出个体欺诈风险,再使用步骤S6中的标签传播算法LPA形成社群结构,基于此获得的社群结果,统计社群风险特征并使用再次使用XGBoost算法,生成欺诈风险社群网络关系;最终输出结果为带有欺诈团伙标注的拓扑网络数据关系。标签传播算法(LPA)是一种基于图的半监督学习方法,被用于快速发现社群。在反欺诈建模中,LPA通过使用业务数据快速传播标签来识别社区结构,从而发现潜在的欺诈群体。LPA算法简单易实现,计算复杂度较低,因此在处理大规模网络时具有较高的计算效率。这使得LPA在金融反欺诈场景中具有较大的应用价值,能够有效地挖掘出潜在的欺诈行为,降低金融风险。在完成社群识别之后,围绕着反欺诈场景进行社群特征提炼和训练数据集构建,主要关注以下特征:
(1)总资产和负债:诈骗团体可能拥有较高的总资产和负债,以支持其非法活动。
(2)性别和年龄分布:诈骗团体成员的性别和年龄分布可能与普通群体有所不同,这有助于进一步了解诈骗团体的组成。
地理位置:揭示出诈骗团体可能活动的地域性特征。
社群结构:社群内部成员之间的连接紧密程度,如密度,用以衡量社群的紧凑性。
社群规模:社群中成员的数量,反映了该社群的影响力大小。
交易特征:包括交易频率、金额和时间等特征,异常的交易行为可能表明存在欺诈活动。
社群中心性:中心性指标(如度中心性、接近中心性、介数中心性等)可用于衡量社群内成员的重要性,帮助识别核心成员和管理人员。
社群内部相似性:衡量社群内成员之间属性的相似性,如共享相同业务行为、公共联系方式等。
(1)全连接图建立
标签传播算法(LPA)对于相邻的数据点具有相同的标签,建立一个全连接图,让每一个样本点(有标签的和无标签的)都作为一个节点。用以下权重计算方式来设定两点i,j之间边的权重,所以两点间的距离dij越小,权重wij越大,wij的表达式如下所示:
让每一个带有标签的节点通过边传播到所有的节点,权重大的边的节点更容易影响到相邻的节点。
(2)定义概率传播矩阵
T∈(l+u)×(l+u),Tij为标签j传播到标签i的概率,表达式如下:
(3)定义标签矩阵
Y∈(l+u)×C,Yi,C=δ(yi,C),第i行表示节点yi的标注概率。Yi,C=1说明节点yi的标签为C。通过概率传播,使其概率分布集中于给定类别,然后通过边的权重来传递节点标签。
(4)算法步骤
输入:l个标记的数据及标签,u个未标记数据;
输出:u个未标记数据的标签;
第1步:初始化,利用权重公式计算每条边的权重wij,得到数据间相似度;
第2步:根据得到的权重wij,计算节点j到节点i的传播概率Tij
第3步:定义矩阵Y∈(l+u)×C;
第4步:执行传播,每个节点按传播概率将周围节点传播的标注值按权重相加,并更新到自己的概率分布,Yt=T×Yt–1;
第5步:重置Y中已标记样本的标签,限定已标注的数据,把已标注的数据的概率分布重新赋值为初始值;
第6步:重复步骤4和5,直至Y收敛。
相对于传统机器学习方法使用Node2Vec算法和XGBoost算法组合后的改进算法进行个体反欺诈具有以下优势:
(1)考虑到网络结构:Node2Vec是一种网络嵌入方法,可以捕捉图中节点之间的结构信息。在欺诈检测中,这意味着我们可以利用客户之间的关系来捕捉潜在的欺诈模式,而传统机器学习方法通常只关注单个客户的行为。
(2)表示学习:Node2Vec通过学习节点的向量表示可以更好地捕捉网络结构中的高阶相似性。这使得模型可以识别出在网络中有相似结构的潜在欺诈者,从而改善预测准确性。
(3)强大的分类器:XGBoost是一种基于梯度提升决策树的集成学习方法,它在许多机器学习竞赛中表现出优越的性能。将Node2Vec生成的特征输入到XGBoost分类器中,可以使模型在欺诈检测任务上具有更好的泛化能力和准确性。
(4)可扩展性:Node2Vec和XGBoost都具有良好的可扩展性,可以处理大规模的数据集。这意味着,在实际应用中,这种组合方法可以更好地适应不断增长的数据量和复杂性。
通过对业务数据使用XGBoost分类器学习,从而实现将个体欺诈特征快速识别的效果。
实施例二
本发明的一个实施例提供了一种用于识别欺诈团伙的知识图谱实时运算系统,参照图2所示,包括:
数据预处理模块10:收集业务数据并对所述业务数据进行预处理。
在本发明的一个具体实施例中,所述收集的数据包括:客户数据、访问行为数据、进件审批数据、交易数据、三方征信数据,并基于geohash编码算法、一致性验证、常驻归属圈的方式对数据特征加工,进行清洗、去重、缺失值处理,确保数据质量。
具体地,收集的数据主要包括:客户数据、访问行为数据、进件审批数据、交易数据、三方征信数据,同时针对这些数据进行清洗、去重、缺失值处理等预处理工作,确保数据质量。
以欺诈防控实际应用为图谱构建的核心是业务数据的应用。本申请不仅对业务流程、客户信息及三方数据做了变量处理,还根据业务特点引入了如基于geohash编码算法、一致性验证、常驻归属圈等方式的数据特征加工,从而提升业务应用价值。范围包括:个人信息及主键、设备网络类信息、特征偏好信息、行为一致性信息、交易行为异常、逾期类信息、申请状态及原因、黑灰名单信息、营销员信息、流程信息等。同时,数据加工后产生的运算结果,可做为衍生变量赋能至风险策略、模型构建,以实现图谱效果的最大化。
在欺诈检测领域中,高质量特征的选取对模型性能影响尤为显著。由于欺诈行为通常具有较强的隐蔽性和变异性,需要细致地挖掘潜在特征以便区分正常行为和欺诈行为。因此在特征工程阶段,应充分利用领域知识和数据分析技术,筛选出与欺诈行为紧密相关的特征,以提高模型的预测能力和稳定性。主要包括几类特征:
(1)网络及设备终端信息:例如设备指纹、IP地址、代理服务器、操作系统、浏览器类型等,这些信息有助于揭示潜在的欺诈行为。
(2)位置信息:包括:地理坐标(经纬度)转换(geohash编码)、距离特征提取、密度特征提取、频率特征提取。
(3)客户行为信息:包括登录次数、登录频率、页面访问路径等。分析这些行为数据可帮助检测异常活动,如短时间内频繁登录或操作。
(4)业务事件频次:对客户进行的交易次数、申请次数等进行统计,分析其在特定时间段内的频率,以便识别出异常交易或申请行为。
(5)申请信息:客户在申请贷款、信用卡等业务时提供的个人信息,如年龄、性别、职业、收入等,可用于评估客户的信用风险。
节点创建模块20:基于所述预处理后的业务数据建立各个实体节点,并创建各个实体节点之间的所属关系,再根据反欺诈业务需求增加属性节点,从而构建图结构。
在本发明的一个具体实施例中,基于数据预处理之后创建实体和实体之间的所属关系,实体包括客户、联系人、设备、网络(IP、代理、SSID)、位置、交易、进件等实体。然后根据反欺诈业务需求增加属性节点,例如用户年龄、交易金额、设备类型、登录地点、交易频率等信息,有助于对客户行为进行深入分析,从而检测潜在的欺诈行为并采取相应措施。业务逻辑如步骤一相关解释。
具体地,创建实体和实体之间的所属关系,再根据反欺诈业务需求增加属性节点,其中,所述实体包括:客户、联系人、设备、网络代码、位置、交易、进件。
特征向量生成模块30:利用Node2Vec算法将所述图结构中的节点和边映射到低维向量空间,为每个节点生成特征向量。
具体地,利用Node2Vec算法,将图结构中的节点和边映射到低维向量空间,同时保留原始图的拓扑结构和节点信息,可以有效提取节点和边的特征信息,为后续步骤提供输入。
Node2Vec算法是一种综合考虑DFS邻域和BFS邻域的graph embedding方法。简单来说,Node2walk可以看作是deepwalk的一种扩展,即结合了DFS和BFS随机游走的deepwalk。Node2vec算法会通过游走去构造训练的节点段,那么如果孤立节点没有连边的话,节点是无法出现在训练集当中。为了解决该问题,引入一个解决推荐系统冷启动的算法——EGES,将每一个节点的属性特征映射到一个embedding特征,然后将每一个属性的embedding特征置于注意力层进行处理,比如将N个随机特征通过注意力加权,可以获得最终的一个节点层面的embedding特征,新增的节点将不再依赖于关系网络以及用户的一些交互行为,新增的节点可以通过自身的属性特征就直接获得我们的embedding特征,不需要考虑用户关系从而解决孤立点的问题。
数据集构建模块40:将所述特征向量与所述实体节点的标签结合,构建数据集。
在本发明的一个具体实施例中,所述数据集包括数据训练集和数据测试集,并将所述数据训练集和数据测试集用特征标签进行标记。
具体地,为每个节点生成特征向量后,将所述特征向量与节点的标签(如:正常、欺诈等)结合,构建训练数据集。同时,需要将数据集划分为训练集和测试集。所使用的特征标签有:
(1)ssid一度关联手机号、设备、账号等;
(2)单位名称一度关联手机号;单位名称二度关联策略拒绝标识;单位名称三度关联直亲手机号等;
(3)位置转换编码一度关联手机号;位置转换编码二度关联客群等级;位置转换编码三度关联个人评分;手机号一度关联客群等级;手机号二度关联个人评分等;
(4)业务账号一度关联设备;设备一度关联IP;业务账号三度关联手机号;设备二度关联手机号等;
(5)IP一度关联业务账号;IP二度关联位置转换编码;IP三度关联手机号等。
训练模型生成模块50:使用XGBoost算法对所述训练数据集进行评估生成训练模型,使用所述训练模型对待测个体进行预测,根据预测结果判断和标注所述个体是否存在欺诈风险。
具体地,XGBoost(即Extreme Gradient Boosting),它是一种梯度提升算法、残差决策树。它的基本思想是一棵树一棵树逐渐加入模型里,每加一棵CRAT决策树时,要使得整体的效果有所提升,也就是目标函数有所下降。XGBoost中的基学习器除了可以是CART,也可以是线性分类器(Gblinear)。
(1)初始化所有样本在K个类别上的估计值
Fk0(x)=0,k=1,2,…K。这其实是对样本x,在所有类别上的分别给出的估计,其实是一个for循环操作,这样写为了看起来简洁。如上所示,就是一个向量。
(2)对每个样本的函数估计值做logistic变换
pk(x):经过Logistic变换后的数据,将F(x)转换成0~1之间的概率值。第4行后面的k=1,…K表示计算for循环,分别计算p1(x),p2(x),p3(x),p4(x),p5(x)。Logistic变换后的数据p(x)=(0.16,0.21,0.29,0.16,0.16)。
(3)遍历所有样本的每个类别的概率,求每个样本在第k类上概率梯度
通常我们建立代价函数。代价函数是对数似然函数的形式为:
通过求导的梯度下降法来学习:
第i个样本属于第k个类别的残差=真实的概率-估计的概率,yik为输入的样本数据的实际类别,当一个样本x属于类别k时,yik=1,否则yik=0。
(4)沿着梯度方法学习到J个叶子结点的回归树
学习的伪代码:
输入所有样本xi,i=1~N,以及每个样本在第k个类别上概率的残差作为更新方向,我们学习到有J个叶子的回归树。
(5)求每个叶子结点的增益
每个结点的增益计算公式为:
(6)更新所有样本在第k类下的估计值
上一步中求得的增益是基于梯度计算得到的,而且前面说到的梯度和残差有一定的关联,我们可以利用这个增益更新样本的估计值;
第m次迭代中的第k类下,所有样本的估计值F可以通过上次迭代m-1中,这些样本的估计值+增益向量求得。
欺诈特征提炼模块60:利用LPA社群识别算法对所述图结构中具有相似特征和紧密连接的节点进行聚类和识别社群,并基于所识别的社群进行欺诈特征提炼。
在本发明的一个具体实施例中,通过训练模型生成模块50使用XGBoost模型算法标注出个体欺诈风险,再使用欺诈特征提炼模块60中的标签传播算法LPA形成社群结构,基于此获得的社群结果,统计社群风险特征并使用再次使用XGBoost算法,生成欺诈风险社群网络关系;最终输出结果为带有欺诈团伙标注的拓扑网络数据关系。标签传播算法(LPA)是一种基于图的半监督学习方法,被用于快速发现社群。在反欺诈建模中,LPA通过使用业务数据快速传播标签来识别社区结构,从而发现潜在的欺诈群体。LPA算法简单易实现,计算复杂度较低,因此在处理大规模网络时具有较高的计算效率。这使得LPA在金融反欺诈场景中具有较大的应用价值,能够有效地挖掘出潜在的欺诈行为,降低金融风险。在完成社群识别之后,围绕着反欺诈场景进行社群特征提炼和训练数据集构建,主要关注以下特征:
(1)总资产和负债:诈骗团体可能拥有较高的总资产和负债,以支持其非法活动。
(2)性别和年龄分布:诈骗团体成员的性别和年龄分布可能与普通群体有所不同,这有助于进一步了解诈骗团体的组成。
地理位置:揭示出诈骗团体可能活动的地域性特征。
社群结构:社群内部成员之间的连接紧密程度,如密度,用以衡量社群的紧凑性。
社群规模:社群中成员的数量,反映了该社群的影响力大小。
交易特征:包括交易频率、金额和时间等特征,异常的交易行为可能表明存在欺诈活动。
社群中心性:中心性指标(如度中心性、接近中心性、介数中心性等)可用于衡量社群内成员的重要性,帮助识别核心成员和管理人员。
社群内部相似性:衡量社群内成员之间属性的相似性,如共享相同业务行为、公共联系方式等。
具体地,标签传播算法(LPA)对于相邻的数据点具有相同的标签,建立一个全连接图,让每一个样本点(有标签的和无标签的)都作为一个节点。用以下权重计算方式来设定两点i,j之间边的权重,所以两点间的距离dij越小,权重wij越大,wij的表达式如下所示:
让每一个带有标签的节点通过边传播到所有的节点,权重大的边的节点更容易影响到相邻的节点。
(2)定义概率传播矩阵
T∈(l+u)×(l+u),Tij为标签j传播到标签i的概率,表达式如下:
(3)定义标签矩阵
Y∈(l+u)×C,Yi,C=δ(yi,C),第i行表示节点yi的标注概率。Yi,C=1说明节点yi的标签为C。通过概率传播,使其概率分布集中于给定类别,然后通过边的权重来传递节点标签。
(4)算法步骤
输入:l个标记的数据及标签,u个未标记数据;
输出:u个未标记数据的标签;
第1步:初始化,利用权重公式计算每条边的权重wij,得到数据间相似度;
第2步:根据得到的权重wij,计算节点j到节点i的传播概率Tij
第3步:定义矩阵Y∈(l+u)×C;
第4步:执行传播,每个节点按传播概率将周围节点传播的标注值按权重相加,并更新到自己的概率分布,Yt=T×Yt–1;
第5步:重置Y中已标记样本的标签,限定已标注的数据,把已标注的数据的概率分布重新赋值为初始值;
第6步:重复步骤4和5,直至Y收敛。
使用XGBoost模型对上述社群数据集进行训练和预测社群是否存在欺诈风险。LPA算法和XGBoost算法相较于传统方法在欺诈团伙识别方面具有更高的准确性、灵敏度和实时性,主要优势有:
(1)自动特征学习:LPA算法和XGBoost算法可以自动提取和学习数据中的重要特征,而无需人工进行特征选择,降低了人工干预的成本和难度。
(2)高准确率和灵敏度:这两种方法在处理大量数据时具有较高的准确率和灵敏度,能够更有效地检测潜在的欺诈团伙。
(3)处理非线性关系:LPA算法和XGBoost算法能够处理复杂的非线性关系,这使得它们在预测欺诈行为时具有更高的准确性。
(4)处理不均衡数据:欺诈数据通常是高度不均衡的,这两种方法可以很好地处理这种情况,提高模型性能。
(5)模型可解释性:尤其是基于XGBoost算法的模型,其模型可解释性较好,能够为业务人员提供有关重要特征的信息,有助于优化业务流程和风险控制措施。
(6)快速迭代和调优:这两种方法可以进行快速的模型迭代和调优,满足金融科技领域对实时反欺诈的需求。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的方法和装置行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、“一个具体实施例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种用于识别欺诈团伙的知识图谱实时运算方法,其特征在于,包括:
步骤S1:收集业务数据并对所述业务数据进行预处理;
步骤S2:基于所述预处理后的业务数据建立各个实体节点,并创建各个实体节点之间的所属关系,再根据反欺诈业务需求增加属性节点,从而构建图结构;
步骤S3:利用Node2Vec算法将所述图结构中的节点和边映射到低维向量空间,为每个节点生成特征向量;
步骤S4:将所述特征向量与所述实体节点的标签结合,构建数据集;
步骤S5:使用XGBoost算法对所述数据集进行评估生成训练模型,使用所述训练模型对待测个体进行预测,根据预测结果判断和标注所述个体是否存在欺诈风险;
步骤S6:利用LPA社群识别算法对所述图结构中具有相似特征和紧密连接的节点进行聚类和识别社群,并基于所识别的社群进行欺诈特征提炼,输出带有欺诈团伙标注的拓扑网络数据关系。
2.根据权利要求1所述的一种用于识别欺诈团伙的知识图谱实时运算方法,其特征在于,所述业务数据包括:客户数据、访问行为数据、进件审批数据、交易数据、三方征信数据,并基于geohash编码算法、一致性验证、常驻归属圈的方式对数据特征加工,对收集的数据进行清洗、去重、缺失值处理。
3.根据权利要求1所述的一种用于识别欺诈团伙的知识图谱实时运算方法,其特征在于,所述实体节点包括:客户、联系人、设备、网络代码、位置、交易、进件。
4.根据权利要求1所述的一种用于识别欺诈团伙的知识图谱实时运算方法,其特征在于,所述步骤S3中,在将所述图结构中的节点或边映射到低维向量空间的同时,保留原始图的拓扑结构和节点信息。
5.根据权利要求1所述的一种用于识别欺诈团伙的知识图谱实时运算方法,其特征在于,所述步骤S4中的数据集包括数据训练集和数据测试集,并将所述数据训练集和数据测试集用特征标签进行标记。
6.一种用于识别欺诈团伙的知识图谱实时运算系统,其特征在于,包括:
数据预处理模块:用于收集业务数据并对所述业务数据进行预处理;
节点创建模块:用于基于所述预处理后的业务数据建立各个实体节点,并创建各个实体节点之间的所属关系,再根据反欺诈业务需求增加属性节点,从而构建图结构;
特征向量生成模块:用于利用Node2Vec算法将所述图结构中的节点和边映射到低维向量空间,为每个节点生成特征向量;
数据集构建模块:用于将所述特征向量与所述实体节点的标签结合,构建数据集;
训练模型生成模块:用于使用XGBoost算法对所述训练数据集进行评估生成训练模型,使用所述训练模型对待测个体进行预测,根据预测结果判断和标注所述个体是否存在欺诈风险;
欺诈特征提炼模块:用于利用LPA社群识别算法对所述图结构中具有相似特征和紧密连接的节点进行聚类和识别社群,并基于所识别的社群进行欺诈特征提炼,输出带有欺诈团伙标注的拓扑网络数据关系。
7.根据权利要求6所述的一种用于识别欺诈团伙的知识图谱实时运算系统,其特征在于,所述业务数据包括:客户数据、访问行为数据、进件审批数据、交易数据、三方征信数据,并基于geohash编码算法、一致性验证、常驻归属圈的方式对数据特征加工,对收集的数据进行清洗、去重、缺失值处理,确保数据质量。
8.根据权利要求6所述的一种用于识别欺诈团伙的知识图谱实时运算系统,其特征在于,所述节点创建模块还用于创建实体和实体之间的所属关系,再根据反欺诈业务需求增加属性节点,其中,所述实体包括:客户、联系人、设备、网络代码、位置、交易、进件。
9.根据权利要求6所述的一种用于识别欺诈团伙的知识图谱实时运算系统,其特征在于,所述特征向量生成模块用于在将所述图结构中的节点或边映射到低维向量空间的同时,保留原始图的拓扑结构和节点信息。
10.根据权利要求6所述的一种用于识别欺诈团伙的知识图谱实时运算系统,其特征在于,所述数据集构建模块中的数据集包括数据训练集和数据测试集,并将所述数据训练集和数据测试集用特征标签进行标记。
CN202311301196.3A 2023-10-10 2023-10-10 一种用于识别欺诈团伙的知识图谱实时运算方法和系统 Pending CN117035082A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311301196.3A CN117035082A (zh) 2023-10-10 2023-10-10 一种用于识别欺诈团伙的知识图谱实时运算方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311301196.3A CN117035082A (zh) 2023-10-10 2023-10-10 一种用于识别欺诈团伙的知识图谱实时运算方法和系统

Publications (1)

Publication Number Publication Date
CN117035082A true CN117035082A (zh) 2023-11-10

Family

ID=88639463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311301196.3A Pending CN117035082A (zh) 2023-10-10 2023-10-10 一种用于识别欺诈团伙的知识图谱实时运算方法和系统

Country Status (1)

Country Link
CN (1) CN117035082A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150161622A1 (en) * 2013-12-10 2015-06-11 Florian Hoffmann Fraud detection using network analysis
CN109685647A (zh) * 2018-12-27 2019-04-26 阳光财产保险股份有限公司 信贷欺诈检测方法及其模型的训练方法、装置和服务器
CN109918511A (zh) * 2019-01-29 2019-06-21 华融融通(北京)科技有限公司 一种基于bfs和lpa的知识图谱反欺诈特征提取方法
CN110084468A (zh) * 2019-03-14 2019-08-02 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN110413707A (zh) * 2019-07-22 2019-11-05 百融云创科技股份有限公司 互联网中欺诈团伙关系的挖掘与排查方法及其系统
CN112506983A (zh) * 2020-09-18 2021-03-16 上海欣方智能系统有限公司 一种基于大数据支撑的反欺诈方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150161622A1 (en) * 2013-12-10 2015-06-11 Florian Hoffmann Fraud detection using network analysis
CN109685647A (zh) * 2018-12-27 2019-04-26 阳光财产保险股份有限公司 信贷欺诈检测方法及其模型的训练方法、装置和服务器
CN109918511A (zh) * 2019-01-29 2019-06-21 华融融通(北京)科技有限公司 一种基于bfs和lpa的知识图谱反欺诈特征提取方法
CN110084468A (zh) * 2019-03-14 2019-08-02 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN110413707A (zh) * 2019-07-22 2019-11-05 百融云创科技股份有限公司 互联网中欺诈团伙关系的挖掘与排查方法及其系统
CN112506983A (zh) * 2020-09-18 2021-03-16 上海欣方智能系统有限公司 一种基于大数据支撑的反欺诈方法

Similar Documents

Publication Publication Date Title
EP3985578A1 (en) Method and system for automatically training machine learning model
CN110188198B (zh) 一种基于知识图谱的反欺诈方法及装置
Xiang et al. Modeling relationship strength in online social networks
CN112307472B (zh) 基于智能决策的异常用户识别方法、装置及计算机设备
CN108876600A (zh) 预警信息推送方法、装置、计算机设备和介质
CN111932130A (zh) 业务类型识别方法及装置
CN112016855B (zh) 基于关系网匹配的用户行业识别方法、装置和电子设备
CN116402512B (zh) 一种基于人工智能的账户安全排查管理方法
CN111428092B (zh) 基于图模型的银行精准营销方法
Zhou et al. Cryptocurrency transaction network embedding from static and dynamic perspectives: An overview
CN116151954A (zh) 一种实时团伙反欺诈检测方法及系统
CN113314188B (zh) 图结构增强的小样本学习方法、系统、设备及存储介质
Paraschiv et al. A unified graph-based approach to disinformation detection using contextual and semantic relations
Rea-Guaman et al. Systematic review: Cybersecurity risk taxonomy
CN110619564B (zh) 一种反欺诈特征生成方法和装置
CN114723554B (zh) 异常账户识别方法及装置
CN109410035B (zh) 一种协助反欺诈分析群组结构的方法及工具
Ball et al. Anomaly detection using autoencoders with network analysis features
CN116821759A (zh) 类别标签的识别预测方法、装置和处理器及电子设备
CN117035082A (zh) 一种用于识别欺诈团伙的知识图谱实时运算方法和系统
Chang et al. Automated feature engineering for fraud prediction in online credit loan services
Xiao et al. Explainable fraud detection for few labeled time series data
Ampel et al. Disrupting ransomware actors on the bitcoin blockchain: A graph embedding approach
CN116150429A (zh) 异常对象识别方法、装置、计算设备以及存储介质
CN109919811B (zh) 基于大数据的保险代理人培养方案生成方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination