CN115761396A - 节点性质判断的方法及装置 - Google Patents

节点性质判断的方法及装置 Download PDF

Info

Publication number
CN115761396A
CN115761396A CN202211332485.5A CN202211332485A CN115761396A CN 115761396 A CN115761396 A CN 115761396A CN 202211332485 A CN202211332485 A CN 202211332485A CN 115761396 A CN115761396 A CN 115761396A
Authority
CN
China
Prior art keywords
node
graph
sample
subgraph
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211332485.5A
Other languages
English (en)
Inventor
胡逸飞
王宝坤
傅幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202211332485.5A priority Critical patent/CN115761396A/zh
Publication of CN115761396A publication Critical patent/CN115761396A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种判断节点性质的方法,包括步骤:获取用户拓扑图,用户拓扑图中的各节点用于表征群组用户中的各用户,用户拓扑图中的各边用于表征各用户之间的关系;在各节点中确定待识别节点,并通过图游走算法获取用户拓扑图中的若干局部子图;针对每个局部子图,通过预先训练的判断模型,判断该局部子图是否为以待识别节点为起点游走出的局部子图;根据针对每个局部子图的判断结果识别待识别节点的性质。相应地,本发明公开了判断节点性质的装置。

Description

节点性质判断的方法及装置
技术领域
本申请涉及机器学习与图神经网络技术领域,尤其涉及一种节点性质判断方法及装置。
背景技术
团伙挖掘一般是在大网络上,通过一些(可能结合了节点属性的)社区分割算法,挖掘、提纯出关系紧密的局部子图。在实际风控业务里,该局部子图对应了一批处于一个社区中、关系紧密、大概率具有风险的账户。但是这些账户中仍然会存在一些实际上无风险的白账户,若直接将整个团伙内的账户输出为风险账户,将对这些白账户造成不必要的打扰。然而,如何对团伙内部账户风险程度进行判定和细分一直是一个难题。
在现有技术中,通常的排白方案大致包括基于结构判定、基于属性判定、基于有监督模型等。其中,基于结构判定是根据一些人工抽象的业务规则,去对账户周围的局部连接关系做匹配判定,一方面,这需要大量的业务经验输入,风险发生变化时,业务规则也必须做出相应变化,鲁棒性较低;另一方面,图结构匹配本身也具有较大的计算开销。基于属性判定是针对属性的异常点检测,但是异常点检测的前提假设是大部分是正常点,少部分是异常点,因此在这些业务场景中,检测出来的异常点其实是风险较低的账户。该方案由于没有考虑账户间的连接关系,当某些业务场景的账户特征不完备,或者本身账户特征都很相似时,就难以做出正确的判定。在有监督模型方案中,以树模型和有监督图神经网络节点分类模型为例,其同样没有考虑账户连接关系,虽然有监督图神经网络节点分类考虑到了账户属性和连接关系,但是这二者都需要大量的业务黑标签、白标签输入,在标签缺失的情况下难以工作。此外,一旦风险形式发生变化,业务标签出现波动,模型就需要重新进行训练。
有鉴于此,如何提供一种对团伙内部账户风险进行排白的解决方案,以克服上述现有方案的缺陷或不足,就成为本领域技术人员亟待解决的技术问题。
发明内容
针对现有技术的对团伙内部账户风险进行排白的方案所存在的上述缺陷,本申请提供了一种节点性质判断方法及装置。
依据本申请的一个方面,提供一种节点性质判断方法,包括步骤:
获取用户拓扑图,所述用户拓扑图中的各节点用于表征群组用户中的各用户,所述用户拓扑图中的各边用于表征所述各用户之间的关系;
在所述各节点中确定待识别节点,并通过图游走算法获取所述用户拓扑图中的若干局部子图;
针对每个局部子图,通过预先训练的判断模型,判断该局部子图是否为以所述待识别节点为起点游走出的局部子图;
根据针对每个局部子图的判断结果识别所述待识别节点的性质。
进一步地,在一些实施方式中,判断模型的输出结果是预测分值,所述预测分值用于判断该局部子图是否为以所述待识别节点为起点游走出的局部子图,所述方法包括:
根据多个预测分值的分布情况判断待识别节点的性质。
进一步地,在一些实施方式中,根据多个预测分值的分布情况判断待识别节点的性质,包括:
在所述预测分值的两极离散化程度低于预设程度的情况下,判断所述待识别节点为第一性质。
进一步地,在一些实施方式中,根据多个预测分值的分布情况判断待识别节点的性质,包括:
获取n个以所述待识别节点为起点游走出的局部子图的第一预测分值,以及n个不以所述待识别节点为起点游走出的局部子图的第二预测分值;
计算所述第二预测分值与所述第一预测分值的差值平均值,在该平均值小于预设阈值时,判断待识别节点为第一性质。
进一步地,在一些实施方式中,通过图游走算法获取所述用户拓扑图中的若干局部子图包括:
以图中任意节点为起点,通过随机游走算法获取所述用户拓扑图中的若干局部子图。
进一步地,在一些实施方式中,所述判断模型基于下述步骤获得:
获取样本图,其中,样本图中节点用于表征样本用户,各个节点的集合为样本团伙,节点和节点之间的边用于表征样本用户之间的关系;
确定样本团伙中的第一节点,并获取样本图的样本子图,其中以第一节点为起点的样本子图存为正样本对训练集,不以第一节点为起点的样本子图存为负样本对训练集;
确定第一节点的节点表征,以及所述正样本对训练集和负样本对训练集中各个样本子图的子图表征;
根据节点表征和子图表征建立训练模型,根据正样本对训练集和负样本对训练集对所述训练模型进行训练,得到训练好的判断模型。
进一步地,在一些实施方式中,确定第一节点的节点表征,包括:
通过图同构神经网络,将第一节点本身信息和第一节点的邻居节点信息聚合,得到节点表征。
进一步地,在一些实施方式中,确定各个样本子图的子图表征,包括:
获取样本子图中所包括的各个节点的节点表征;
基于各个节点的节点表征,通过图读出函数确定子图表征。
进一步地,在一些实施方式中,根据节点表征和子图表征建立训练模型,包括:
根据所述节点表征和所述子图表征建立双线性评分函数,作为训练模型。
进一步地,在一些实施方式中,获取样本图的样本子图包括:
通过随机游走算法采集第一节点所对应的正样本对训练集和负样本对训练集。
进一步地,在一些实施方式中,获取样本图的样本子图之后,所述方法还包括:
对所述样本子图进行匿名化处理,并存入相应的正样本对训练集或者负样本对训练集。
依据本申请的另一个方面,提供一种节点性质判断装置,其包括模型模块,以及与模型模块数据通信的采样模块和判断模块:
所述采样模块获取用户拓扑图,所述用户拓扑图中的各节点用于表征群组用户中的各用户,所述用户拓扑图中的各边用于表征所述各用户之间的关系;
所述采样模块在所述各节点中确定待识别节点,并通过图游走算法获取所述用户拓扑图中的若干局部子图;
所述模型模块针对每个局部子图,通过预先训练的判断模型,判断该局部子图是否为以所述待识别节点为起点游走出的局部子图;
所述判断模块根据针对每个局部子图的判断结果识别所述待识别节点的性质。
进一步地,在一些实施方式中,所述模型模块中判断模型的输出结果预测分值,所述预测分值用于判断该局部子图是否为以所述待识别节点为起点游走出的局部子图,
所述判断模块还用于根据多个预测分值的分布情况判断待识别节点的性质。
进一步地,在一些实施方式中,所述判断模块还用于在所述预测分值的两极离散化程度低于预设程度的情况下,判断所述待识别节点为第一性质。
进一步地,在一些实施方式中,所述判断模块还用于
获取n个以所述待识别节点为起点游走出的局部子图的第一预测分值,以及n个不以所述待识别节点为起点游走出的局部子图的第二预测分值;
以及,计算第二预测分值与第一预测分值的差值平均值,在该平均值小于预设阈值时,判断待识别节点为第一性质。
进一步地,在一些实施方式中,所述模型模块还包括训练模块,用于训练所述判断模型,
训练模块获取样本图,其中,样本图中节点用于表征样本用户,各个节点的集合为样本团伙,节点和节点之间的边用于表征样本用户之间的关系;确定样本团伙中的第一节点,并获取样本图的样本子图,其中以第一节点为起点的样本子图存为正样本对训练集,不以第一节点为起点的样本子图存为负样本对训练集;
训练模块确定第一节点的节点表征,以及所述正样本对训练集和负样本对训练集中各个样本子图的子图表征;
训练模块根据节点表征和子图表征建立训练模型,根据正样本对训练集和负样本对训练集对所述训练模型进行训练,得到训练好的判断模型。
进一步地,在一些实施方式中,所述训练模块通过图同构神经网络,将第一节点本身信息和第一节点的邻居节点信息聚合,得到节点表征。
进一步地,在一些实施方式中,所述训练模块基于各个节点的节点表征,通过图读出函数确定子图表征。
进一步地,在一些实施方式中,所述训练模块根据所述节点表征和所述子图表征建立双线性评分函数,作为训练模型。
进一步地,在一些实施方式中,所述训练模块通过随机游走算法采集样本子图,对所述样本子图进行匿名化处理,并存入相应的正样本对训练集或者负样本对训练集。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行本发明所述的节点性质判断方法中的步骤。
本发明还提供了一种计算设备,其包括存储器和处理器,所述存储器中存储有可执行代码,当所述处理器执行可执行代码时,其执行本发明所述的节点性质判断方法中的步骤。
采用本申请的节点性质判断方法及装置,首先获取图,图中节点的集合为团伙,节点和节点的关系为边,然后确定待识别节点,获取图的随机的局部子图。之后,将待识别节点和所述局部子图组成待识别样本对,将待识别样本对输入预先训练好的判断模型,得到输出结果,输出结果用于判断待识别样本对为正样本对或是负样本对,其中正样本对指示局部子图是以待识别节点为起点的,负样本对指示局部子图不是以待识别节点为起点。最后,待识别节点所对应的多组待识别样本对分别通过判断模型,得到多个输出结果,根据输出结果判断待识别节点的性质。
相比于现有技术,本申请的节点性质判断方法及装置具有下列优点至少其中之一:
本方案设计的对比学习样本对是节点-节点局部子图和节点-随机采样子图,又使用了图神经网络进行编码,因此同时考虑了节点属性、局部结构以及不同节点与其局部子图的连接差异情况,对于图关系的挖掘非常充分;
本方案依靠区分节点-节点局部子图和节点-随机采样子图的自监督任务进行模型训练,因此不需要业务标签输入;
本方案的节点-子图级别的样本对设计可实现分别针对每个节点做局部采样,即使在团伙规模很大的情况下,也能高效进行采样,可扩展性强:
本方案在业务风险发生变化时,风险团伙内部大部分节点存在风险,少部分节点无风险的基本假设不会变,因此训练模型仍然可以正常工作而无需重训。
附图说明
读者在参照附图阅读了本申请的具体实施方式以后,将会更清楚地了解本申请的各个方面。其中:
图1示例性地显示了本发明所述的节点性质判断方法在一种实施方式下的流程示意图;
图2示例性地显示了本发明所述的节点性质判断方法中样本对采样在一种实施方式下执行的流程示意图;
图3示例性地显示了本发明所述的节点性质判断方法中获取判断模型在一种实施方式下的流程;
图4示例性地显示了本发明所述的节点性质判断装置在一种实施方式下的示意图。
具体实施方式
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图神经网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。
在风控场景中,我们认为不同风险类型的节点,在和其局部子结构的关系上会存在差异。举个例子,某些欺诈场景中,欺诈账户会更多地和正常账户相连,而和其他欺诈账户相连比较少;正常账户则会同时和正常账户、部分欺诈账户相连。当我们去观察某个账户和与它交互的账户这个组合时,就会发现这种规律。因此我们设计了节点-节点局部子图级别的样本对来捕捉这种差异。
团伙挖掘一般是在大网络上,通过一些可能结合了节点属性的社区分割算法,挖掘、提纯出关系紧密的局部子图。在实际风控业务里,该局部子图对应了一批处于一个社区中、关系紧密、大概率具有风险的账户。团伙是指在较大群体内部,结构上紧密关联或者属性上极为相似的小部分群体。但是这些账户中仍然会存在一些实际上无风险的白账户,排白则指判定某个对象不具有业务风险。
自监督学习,采用自我监督方法,可以看作是一种具有监督形式的特殊形式的非监督学习方法,这里的监督是由自我监督任务而不是预设先验知识诱发的。与完全不受监督的设置相比,自监督学习使用数据集本身的信息来构造伪标签。对比学习是典型的判别式自监督学习,其指导原则是:通过自动构造相似实例和不相似实例,要求习得一个表征学习模型,通过这个模型,使得相似的实例在投影空间中比较接近,而不相似的实例在投影空间中距离比较远。
本发明也是基于图神经网络和自监督学习的对比学习样本对,即节点-节点局部子图和节点-随机采样子图,又使用了图神经网络进行编码,同时考虑了节点属性、局部结构和不同节点与其局部子图的连接差异情况,对于图关系的挖掘非常充分。
在本发明的一个实施例中,提出了一种节点性质判断方法。图1示例性地显示了本发明所述的节点性质判断方法在一种实施方式下的流程示意图。
如图1所示,节点性质判断方法包括步骤:
100:获取用户拓扑图。用户拓扑图中的各节点用于表征群组用户中的各用户,图中节点的集合为团伙,用户拓扑图中的各边用于表征所述各用户之间的关系。该图也可以看作是需要进行排白的经团伙挖掘得到的某个团伙所对应的全图(full graph),图上的节点对应团伙中的各个账户,而该图的边则表示了账户与账户之间的关系属性。上述用户也可以是任何其他形式的主体。
110:在各节点中确定待识别节点,并通过图游走算法获取用户拓扑图中的若干局部子图。
确定该团伙中需要进行性质判断的节点,也即需要进行风险判定的账户。上述的节点性质判断,即为账户风险高低的判断,在该团伙中的多数账户节点已知为高风险账户或者被判断为高风险账户,而待识别节点被判断为低风险账户的情况下,就实现了风险团伙中的账户排白。
需要说明的是,高风险团伙中的账目排白只是本发明提供的节点性质判断方法的一个应用场景,在本发明的实施例中,以本应用场景对该方法进行解释和说明,但本应用场景并不用于限制该方法。例如,在一些实施例中,如果团伙中大多数节点账户节点已知为低风险账户或者被判断为低风险账户,该方法也可以用于筛选高风险账户。更进一步地,上述方法可以用于在包含任意不同属性的用户节点集群中,分辨用户节点的不同性质。
通过图游走算法获取局部子图,是以图中的任意节点为起点,以预设的任意图游走算法游走得到的,游走算法可以是同构图类型也可以是异构图类型或者其它用于获得局部子图的方式。在一些实施例中,通过有概率回到上一位置的随机游走算法(random walkwith restart)获取局部子图。局部子图中的节点数目可以是预设确定的,也可以是不受限制的。
120:针对每个局部子图,通过预先训练的判断模型,判断该局部子图是否为以待识别节点为起点游走出的局部子图。
在一些更具体的实施例中,为了方便描述待识别节点与各个局部子图之间的关系,可以通过样本对的形式进行判断结果的描述,其中正样本对指示局部子图是以待识别节点为起点的,负样本对指示局部子图不是以待识别节点为起点,输出结果即为判断所述待识别样本对为正样本对或是负样本对。示例性的,全图中存在节点1,以及通过游走算法得到的随机选择的局部子图1和局部子图2,那么(节点1,局部子图1)以及(节点1,局部子图2)都可以组成待识别样本对。将这两组待识别样本对分别输入预先训练好的判断模型,而判断模型就是被训练为判断待识别样本对是正样本对还是负样本对的,因此,判断模型可以输出上述待识别样本对各自的输出结果。输出结果为正样本对,则说明判断模型的先验知识认为局部子图1是以节点1为起点形成的局部子图;类似地,输出结果为负样本对,则说明判断模型的先验知识认为局部子图2不是以节点1为起点形成的局部子图。上述样本对只是用于描述待识别节点与局部子图之间关系的一种形式,并不限制其判断模型的输入必须是样本对,其本质还是用于判断局部子图与待识别节点之间的关系。
130:根据针对每个局部子图的判断结果识别所述待识别节点的性质。
为了说明输出结果与节点性质之间的关联,需要对判断模型的训练过程进行阐述。
在一些实施例中,图2示例性地显示了本发明所述的节点性质判断方法中获取判断模型在一种实施方式下的流程,如图2所示,步骤120中的判断模型的训练过程包括以下步骤:
200:获取样本图。其中,样本图中节点用于表征样本用户,各个节点的集合为样本团伙,节点和节点之间的边用于表征样本用户之间的关系。
样本图是经团伙挖掘得到的某个样本团伙所对应的全图(full graph),图上的节点对应样本团伙中的各个账户,而该图的边则表示了账户与账户之间的关系属性。
210:确定样本团伙中的第一节点,并获取样本图的样本子图。其中以第一节点为起点的样本子图存为正样本对训练集,不以第一节点为起点的样本子图存为负样本对训练集。
步骤210可以视为对比样本对采样过程。图3示例性地显示了本发明所述的节点性质判断方法中样本对采样在一种实施方式下执行的流程示意图。如图3所示,从其出发,以节点6为例,使用图游走算法采样得到节点6的局部子图。在一些实施例中,通过随机游走算法采集局部子图。在一些实施例中,在采集到样本子图后,对样本子图进行匿名化处理,并存入相应的正样本对训练集或者负样本对训练集。因为匿名化后的样本子图不再带有明显的节点特征,可以更好地训练判断模型通过节点之间的关系进行样本对类型判断,也可以得到能够更好地得到能够用于上述节点性质判断方法的判断模型。则节点6和匿名化之后的子图形成了一个正样本对。
负样本对的产生过程类似,不过随机游走的起始点不是节点6而是随机选择的另一个节点,如图2中是节点8。那么,节点6和节点8产生的匿名化局部子图就形成了一个负样本对。
按照这种方法采样出很多的正、负样本对存储到一个池子里,就完成了该步骤。采样出来的正、负样本对用于训练图神经网络模型。
假设有一个样本对:
Figure BDA0003913721620000111
其中vi表示目标节点,
Figure BDA0003913721620000112
表示局部子图,yi是该样本对的标签,当样本子图是由目标节点游走得到的,Pi为正样本对,样本对的标签yi取值为1,否则Pi为负样本对,样本对的标签yi取值为0。
220:确定第一节点的节点表征,以及正样本对训练集和负样本对训练集中各个样本子图的子图表征。
在一些实施例中,通过图同构神经网络,将第一节点本身信息和第一节点的邻居节点信息聚合,得到节点表征。
在一些更具体的实施例中,同时考虑节点的属性和拓扑结构信息,对所述目标节点自身的信息以及邻居节点的信息进行聚合,得到节点表征:
Figure BDA0003913721620000113
其中
Figure BDA0003913721620000114
Figure BDA0003913721620000115
分别表示第(l-1)层和第l层的节点表征矩阵,
Figure BDA0003913721620000116
表示第(l-1)层的可学习卷积参数矩阵。较佳地,图网络结构可以为GCN(Graph ConvolutionalNetwork,图卷积神经网络)、GAT(Graph Attention Network,图注意力网络)或者GIN(Graph Isomorphism Network,图同构神经网络)。在一些实施例中,可以使用现阶段在图级别任务上表现较好的图同构神经网络GIN以提取节点的局部子图表征。
在一些实施例中,获取样本子图中所包括的各个节点的节点表征;基于各个节点的节点表征,通过图读出函数确定子图表征。
在一个更具体的实施例中,上述GNN模型可以得到节点表征,但是我们对比样本对中还有子图结构,当计算出子图中全部节点的表征之后,对比样本对中还具有局部子图结构,因此可由图读出(Readout)模块得到子图的表征:
Figure BDA0003913721620000121
其中
Figure BDA0003913721620000122
表示局部子图的表征,Ei表示局部子图的节点表征矩阵,(Ei)k表示Ei的第k行,ni表示局部子图中的节点数量。
确定了节点表征和子图表征后,最终要建立起训练模型并且确定用于对训练模型进行优化的目标损失函数。
230:根据节点表征和子图表征建立训练模型,根据正样本对训练集和负样本对训练集对训练模型进行训练,得到训练好的判断模型。
在一些实施例中,根据节点表征和子图表征建立双线性评分函数,作为训练模型。
在一个更具体的实施例中,训练模型通过使用双线性评分函数对当前的正负样本对进行标签预测:
Figure BDA0003913721620000123
这里使用一个简单的双线性评分函数,其中
Figure BDA0003913721620000124
Figure BDA0003913721620000125
分别表示目标节点表征和局部子图表征,W(d)表示判别器的权重矩阵。得到的si表示判别器对于当前样本对标签的预测,而真实的样本对标签使用yi表示。通过前述步骤中采集到的样本第一节点和局部子图组成的样本对,并判断该样本对的标签判别器模块的输出量。
在此,采用二分类交叉熵损失函数,对于批尺寸为N的一个批次
Figure BDA0003913721620000126
损失函数为:
Figure BDA0003913721620000127
其中
Figure BDA0003913721620000131
表示包含上述判断模型的训练过程所涉及的步骤的整个对比学习模块。
通过上述步骤,再根据采样得到的正样本对训练集以及负样本对训练集对训练模型进行训练,直至损失函数符合预设的条件,获得训练好的判断模型。
从上述样本采集以及训练过程,结合风险团伙排白的应用场景可知,风险团伙内部的有一些基本特点,例如:一、大部分节点都有风险,仅少部分节点没有风险;以及:二、节点有无风险的一个重要特征是其和邻居子图的关系(agreement)。
基于上述特点一,训练模型学习到了风险节点和其局部子图的连接关系,而由于无风险节点占比很少,无风险节点和其局部子图的连接关系并没有被学习到,再结合特点二,可以认为即使是训练好的判断模型也无法有效区分无风险节点的正、负样本对。
根据上述结论回到步骤130:待识别节点所对应的多个局部子图分别通过判断模型,得到多个输出结果,根据输出结果判断待识别节点的性质。待识别节点的多组待识别样本对通过判断模型得到的输出结果准确性越高,则待识别节点为风险节点的可能性也越高。相应地,待识别节点的多组待识别样本对通过判断模型得到的输出结果准确性越低,甚至同样的待识别样本对多次通过判断模型得到的输出结果不同的概率较高,则待识别节点为风险节点的可能性也越高。
在一些实施例中,判断模型的输出结果是待识别样本对的预测分值,预测分值用于正负样本对的分类,根据多个预测分值的分布情况判断待识别节点的性质。有一些二分类的模型中,模型的输出结果是一个在预设范围内的数值,根据数值所在区间进行分类。如前述实施例中的si,可以视为可以表示输出结果的预测分值,则对结果准确性的判断可以通过预测分值的分布进行更加直观和量化程度更高的判断。
更进一步地,在一些实施例中,在预测分值的两极离散化程度低于预设程度的情况下,判断待识别节点为第一性质。由于预测分值在预设区间,例如,si被设置在[0.1]之间,那么该预测分值趋近于1则判断样本对为正样本对,趋近于0则判断样本对为负样本对。那么对于风险点而言,其组成的待识别样本对通过判断模型后得到的预测分值会更加趋近于两极。相反地,对于非风险点而言,其组成地待识别样本对得到地预测分值则会更加不明确,甚至可能在可取数据范围中部波动,两极化离散的程度更低。
可选地,在一些实施例中,为了进一步量化其分离程度,根据多个预测分值的分布情况判断待识别节点的性质,包括:
获取n个以待识别节点为起点游走出的局部子图的第一预测分值,以及n个不以待识别节点为起点游走出的局部子图的第二预测分值。根据前述正负样本对的定义,也可以理解为,获取待识别节点的n个正样本对以及各个正样本对的预测分值,n个负样本对以及各个负样本对的预测分值;
计算负样本对预测分值与正样本对预测分值的差值平均值,在该平均值小于预设阈值时,判断待识别节点为第一性质。
在一个更具体的实施例中,本申请定义用于计算目标节点的离群分数的函数f(vi):
Figure BDA0003913721620000141
其中,R表示对节点采样了R个正负样本
Figure BDA0003913721620000142
计算正负样本的分数差值并取平均,消除随机误差。对于风险节点,模型能够较为准确地判断出其样本对的Si值,对于该节点的负样本对si(-)预测值趋于0,正样本Si(+)趋于1,差值平均值趋于-1,而低风险节点,模型则判断模糊,会导致si(-)和Si(+)都在中间值附近上下波动,差值会趋于0。因此,从离群分数的数值来看,对于团伙中占大部分的节点,如风险节点,该分数会趋近于-1;对于占少部分的节点,如无风险节点,该分数则会趋近于0。也就是说,可找出离群分数近似于0的节点对应于风险团伙中的低风险账户,进行排白。
本发明所提供的节点性质判断方法,根据对比学习样本对,通过图神经网络进行编码,同时考虑了节点属性、局部结构和不同节点与其局部子图的连接差异情况,对于图关系的挖掘较为充分。靠区分正样本对和负样本对的自监督任务进行模型训练,不需要业务标签输入。节点-子图级别的样本对设计决定了可以分别对每个节点做局部采样,可以分布式完成,即使在团伙或者子图规模很大的情况下,也可以高效进行。另外,业务风险发生变化时,风险团伙内部大部分节点存在风险,少部分节点无风险的基本假设不会变,因此模型仍然可以正常工作而无需重训。
图4示例性地显示了本发明所述的节点性质判断装置在一种实施方式下的示意图。如图4所示,本发明的另一种实施方式还提供了一种节点性质判断装置40,其包括模型模块41,以及与模型模块数据通信的采样模块43和判断模块45。
该节点性质判断装置被设置为执行下述步骤:
310:采样模块获取用户拓扑图。用户拓扑图中的各节点用于表征群组用户中的各用户,用户拓扑图中的各边用于表征所述各用户之间的关系。
320:采样模块在各节点中确定待识别节点,并通过图游走算法获取用户拓扑图中的若干局部子图。确定该团伙中需要进行性质判断的节点,也即需要进行风险判定的账户。上述的节点性质判断,即为账户风险高低的判断,在该团伙中的多数账户节点已知为高风险账户或者被判断为高风险账户,而待识别节点被判断为低风险账户的情况下,就实现了风险团伙中的账户排白。
需要说明的是,高风险团伙中的账目排白只是本发明提供的节点性质判断方法的一个应用场景,在本发明的实施例中,以本应用场景对该方法进行解释和说明,但本应用场景并不用于限制该方法。例如,在一些实施例中,如果团伙中大多数节点账户节点已知为低风险账户或者被判断为低风险账户,该方法也可以用于筛选高风险账户。更进一步地,上述方法可以用于在包含任意不同属性的节点集群中,分辨节点的不同性质。
采样模块通过图游走算法获取全局拓扑图的局部子图,是以图中的任意节点为起点,以预设的任意图游走算法游走得到的,游走算法可以是同构图类型也可以是异构图类型或者其它用于获得局部子图的方式。在一些实施例中,通过有概率回到上一位置的随机游走算法(random walk with restart)获取局部子图。局部子图中的节点数目可以是预设确定的,也可以是不受限制的。
采集到的待识别样本对将被输入到模型模块,模型模块包括有预先训练好的判断模型。
330:模型模块针对每个局部子图,通过预先训练的判断模型,判断该局部子图是否为以所述待识别节点为起点游走出的局部子图。
在一些更具体的实施例中,为了方便描述待识别节点与各个局部子图之间的关系,可以通过样本对的形式进行判断结果的描述,其中正样本对指示局部子图是以待识别节点为起点的,负样本对指示局部子图不是以待识别节点为起点,输出结果即可描述为用于判断待识别样本对为正样本对或是负样本对。示例性的,全图中存在节点1,以及通过游走算法得到的随机选择的局部子图1和局部子图2,那么(节点1,局部子图1)以及(节点1,局部子图2)都可以组成待识别样本对。将这两组待识别样本对分别输入预先训练好的判断模型,而判断模型就是被训练为判断待识别样本对是正样本对还是负样本对的,因此,判断模型可以输出上述待识别样本对各自的输出结果。输出结果为正样本对,则说明判断模型的先验知识认为局部子图1是以节点1为起点形成的局部子图;类似地,输出结果为负样本对,则说明判断模型的先验知识认为局部子图2不是以节点1为起点形成的局部子图。上述样本对只是用于描述待识别节点与局部子图之间关系的一种形式,并不限制其判断模型的输入必须是样本对,其本质还是用于判断局部子图与待识别节点之间的关系
340:判断模块根据针对每个局部子图的判断结果识别待识别节点的性质。
为了说明判断模块中输出结果与节点性质之间的判断逻辑,需要对判断模型的训练过程进行阐述。
在一些实施例中,模型模块还包括训练模块,用于训练判断模型。
训练模块获取样本图,样本图中节点的集合为样本团伙,节点和节点的关系为边;确定样本团伙中的第一节点,并获取样本图的样本子图,其中以第一节点为起点的样本子图存为正样本对训练集,不以第一节点为起点的样本子图存为负样本对训练集;
训练模块确定第一节点的节点表征,以及正样本对训练集和负样本对训练集中各个样本子图的子图表征;
训练模块根据节点表征和子图表征建立训练模型,根据正样本对训练集和负样本对训练集对所述训练模型进行训练,得到训练好的判断模型。
在一个更具体的实施例中,训练模块包括对比样本对采样模块和基于神经网络的对比学习模块。
对比样本对采样图模块从团伙挖掘得到的某个团伙样本出发,例如以团伙中的节点6为例,使用有概率回到上一位置的随机游走算法(random walk with restart)采样得到节点6的局部子图,然后对该局部子图做匿名化,则节点6和匿名化之后的子图形成了一个正样本对。负样本对的产生过程完全相同,不过随机游走的起始点不是节点6而是随机选择的另一个节点,例如节点8,那么节点6和节点8产生的匿名化局部子图就形成了一个负样本对。按照这种方法采样出很多的正、负样本对存储到一个池子里,就完成了该步骤。
采样出来的正、负样本对用于训练图神经网络模型。假设有一个样本对:
Figure BDA0003913721620000171
其中vi表示目标节点,其特征为
Figure BDA0003913721620000172
则是局部子图,yi是该样本对的标签,当局部子图是由目标节点游走得到的,则Pi为正样本,yi取值为1,否则yi取值为0。
对比学习模块又分成三个子模块,分别是GNN模块、图读出(Readout)模块和判别器模块。
在一些实施例中,训练模块通过图同构神经网络,将第一节点本身信息和第一节点的邻居节点信息聚合,得到节点表征。
在一些更具体地实施例中,GNN模块的作用是同时考虑节点的属性和拓扑结构信息,将节点本身信息和其邻居节点信息做聚合,得到节点表征:
Figure BDA0003913721620000181
其中
Figure BDA0003913721620000182
Figure BDA0003913721620000183
分别表示第l-1层和第l层的节点表征矩阵,
Figure BDA0003913721620000184
表示第l-1层的可学习卷积参数矩阵。上面的选型可以是GCN、GAT、GIN等常见的图网络结构,考虑到也需要提取子图表征,这里我们使用在图级别任务上表现最好的图同构神经网络GIN。
上述GNN模块可以得到节点表征,但是我们对比样本对中还有子图结构,在一些实施例中,训练模块基于各个节点的节点表征,通过图读出函数确定子图表征。
在一些更具体的实施例中,当计算出子图中全部节点的表征之后,可以由图读出(readout)模块得到子图的表征:
Figure BDA0003913721620000185
其中
Figure BDA0003913721620000186
表示局部子图的表征,Ei表示局部子图的节点表征矩阵,(Ei)k表示Ei的第k行,ni表示局部子图中的节点数量。
在一些实施例中,训练模块根据所述节点表征和所述子图表征建立双线性评分函数,作为训练模型。
在一些更具体的实施例中,判别器模块接受一组目标节点和局部子图组成的样本对,来判断该样本对的标签:
Figure BDA0003913721620000187
这里使用了一个简单的双线性评分函数,其中
Figure BDA0003913721620000188
Figure BDA0003913721620000189
分别表示目标节点表征和局部子图表征,W(d)表示判别器的权重矩阵。得到的si表示判别器对于当前样本对label的预测,真实label用yi表示,采用了一个常见的二分类交叉熵损失函数,对于批尺寸为N的一个批次
Figure BDA00039137216200001810
损失函数为:
Figure BDA00039137216200001811
其中
Figure BDA0003913721620000191
表示上述的整个对比学习模块。
从上述样本采集以及训练过程,结合风险团伙排白的应用场景可知,风险团伙内部的有一些基本特点,例如:一、大部分节点都有风险,仅少部分节点没有风险;以及:二、节点有无风险的一个重要特征是其和邻居子图的关系(agreement)。
基于上述特点一,训练模型学习到了风险节点和其局部子图的连接关系,而由于无风险节点占比很少,无风险节点和其局部子图的连接关系并没有被学习到,再结合特点二,可以认为即使是训练好的判断模型也无法有效区分无风险节点的正、负样本对。
因此,判断模块获取模型模块的多个输出结果,根据输出结果判断待识别节点的性质过程中,待识别节点的多组待识别样本对通过判断模型得到的输出结果准确性越高,则待识别节点为风险节点的可能性也越高。相应地,待识别节点的多组待识别样本对通过判断模型得到的输出结果准确性越低,甚至同样的待识别样本对多次通过判断模型得到的输出结果不同的概率较高,则待识别节点为风险节点的可能性也越高。
在一些实施例中,判断模型的输出结果是待识别样本对的预测分值,预测分值用于正负样本对的分类,根据多个预测分值的分布情况判断待识别节点的性质。有一些二分类的模型中,模型的输出结果是一个在预设范围内的数值,根据数值所在区间进行分类。如前述实施例中的si,可以视为可以表示输出结果的预测分值,则对结果准确性的判断可以通过预测分值的分布进行更加直观和量化程度更高的判断。
更进一步地,在一些实施例中,在预测分值的两极离散化程度低于预设程度的情况下,判断待识别节点为第一性质。由于预测分值在预设区间,例如,si被设置在[0.1]之间,那么该预测分值趋近于1则判断样本对为正样本对,趋近于0则判断样本对为负样本对。那么对于风险点而言,其组成的待识别样本对通过判断模型后得到的预测分值会更加趋近于两极。相反地,对于非风险点而言,其组成地待识别样本对得到地预测分值则会更加不明确,甚至可能在可取数据范围中部波动,两极化离散的程度更低。
可选地,在一些实施例中,为了进一步量化其分离程度,根据多个预测分值的分布情况判断待识别节点的性质,包括:
获取待识别节点的n个正样本对以及各个正样本对的预测分值,n个负样本对以及各个负样本对的预测分值;
计算负样本对预测分值与正样本对预测分值的差值平均值,在该平均值小于预设阈值时,判断待识别节点为第一性质。
在一个更具体的实施例中,本申请定义用于计算目标节点的离群分数的函数f(vi):
Figure BDA0003913721620000201
其中,R表示对节点采样了R个正负样本
Figure BDA0003913721620000202
计算正负样本的分数差值并取平均,消除随机误差。对于风险节点,模型能够较为准确地判断出其样本对的Si值,对于该节点的负样本对si(-)预测值趋于0,正样本Si(+)趋于1,差值平均值趋于-1,而低风险节点,模型则判断模糊,会导致si(-)和Si(+)都在中间值附近上下波动,差值会趋于0。因此,从离群分数的数值来看,对于团伙中占大部分的节点,如风险节点,该分数会趋近于-1;对于占少部分的节点,如无风险节点,该分数则会趋近于0。也就是说,可找出离群分数近似于0的节点对应于风险团伙中的低风险账户,进行排白。
本发明所提供的节点性质判断装置,根据对比学习样本对,通过图神经网络进行编码,同时考虑了节点属性、局部结构和不同节点与其局部子图的连接差异情况,对于图关系的挖掘较为充分。靠区分正样本对和负样本对的自监督任务进行模型训练,不需要业务标签输入。节点-子图级别的样本对设计决定了可以分别对每个节点做局部采样,可以分布式完成,即使在团伙或者子图规模很大的情况下,也可以高效进行。另外,业务风险发生变化时,风险团伙内部大部分节点存在风险,少部分节点无风险的基本假设不会变,因此模型仍然可以正常工作而无需重训。
本发明的一种实施方式还提供了一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机中执行时,令计算机执行令计算机执行本发明上述实施方式中的节点性质判断方法的步骤。由于其执行的步骤与上文所述的节点性质判断方法的步骤相同,故在此不再重复描述。
本发明的一种实施方式提供了一种计算设备,其包括存储器和处理器,存储器中存储有可执行代码,当处理器执行可执行代码时,其执行本发明上述实施方式中的节点性质判断方法所执行的步骤。由于其执行的步骤与上文所述的节点性质判断方法执行的步骤相同,故在此不再重复描述。
需要注意的是,以上列举的仅为本发明的具体实施例,显然本发明不限于以上实施例,随之有着许多的类似变化。本领域的技术人员如果从本发明公开的内容直接导出或联想到的所有变形,均应属于本发明的保护范围。

Claims (20)

1.一种节点性质判断方法,包括步骤:
获取用户拓扑图,所述用户拓扑图中的各节点用于表征群组用户中的各用户,所述用户拓扑图中的各边用于表征所述各用户之间的关系;
在所述各节点中确定待识别节点,并通过图游走算法获取所述用户拓扑图中的若干局部子图;
针对每个局部子图,通过预先训练的判断模型,判断该局部子图是否为以所述待识别节点为起点游走出的局部子图;
根据针对每个局部子图的判断结果识别所述待识别节点的性质。
2.如权利要求1所述的节点性质判断方法,判断模型的输出结果是预测分值,所述预测分值用于判断该局部子图是否为以所述待识别节点为起点游走出的局部子图,所述方法包括:
根据多个预测分值的分布情况判断待识别节点的性质。
3.如权利要求2所述的节点性质判断方法,根据多个预测分值的分布情况判断待识别节点的性质,包括:
在所述预测分值的两极离散化程度低于预设程度的情况下,判断所述待识别节点为第一性质。
4.如权利要求2所述的节点性质判断方法,根据多个预测分值的分布情况判断待识别节点的性质,包括:
获取n个以所述待识别节点为起点游走出的局部子图的第一预测分值,以及n个不以所述待识别节点为起点游走出的局部子图的第二预测分值;
计算所述第二预测分值与所述第一预测分值的差值平均值,在该平均值小于预设阈值时,判断待识别节点为第一性质。
5.如权利要求1所述的节点性质判断方法,所述通过图游走算法获取所述用户拓扑图中的若干局部子图包括:
以图中任意节点为起点,通过随机游走算法获取所述用户拓扑图中的若干局部子图。
6.如权利要求1所述的节点性质判断方法,所述判断模型基于下述步骤获得:
获取样本图,其中,样本图中节点用于表征样本用户,各个节点的集合为样本团伙,节点和节点之间的边用于表征样本用户之间的关系;
确定样本团伙中的第一节点,并获取样本图的样本子图,其中以第一节点为起点的样本子图存为正样本对训练集,不以第一节点为起点的样本子图存为负样本对训练集;
确定第一节点的节点表征,以及所述正样本对训练集和负样本对训练集中各个样本子图的子图表征;
根据节点表征和子图表征建立训练模型,根据正样本对训练集和负样本对训练集对所述训练模型进行训练,得到训练好的判断模型。
7.如权利要求6所述的节点性质判断方法,确定第一节点的节点表征,包括:
通过图同构神经网络,将第一节点本身信息和第一节点的邻居节点信息聚合,得到节点表征。
8.如权利要求6所述的节点性质判断方法,确定各个样本子图的子图表征,包括:
获取样本子图中所包括的各个节点的节点表征;
基于各个节点的节点表征,通过图读出函数确定子图表征。
9.如权利要求6所述的节点性质判断方法,根据节点表征和子图表征建立训练模型,包括:
根据所述节点表征和所述子图表征建立双线性评分函数,作为训练模型。
10.如权利要求6所述的节点性质判断方法,获取样本图的样本子图包括:
通过随机游走算法采集第一节点所对应的正样本对训练集和负样本对训练集。
11.如权利要求6所述的节点性质判断方法,获取样本图的样本子图之后,所述方法还包括:
对所述样本子图进行匿名化处理,并存入相应的正样本对训练集或者负样本对训练集。
12.一种节点性质判断装置,其包括模型模块,以及与模型模块数据通信的采样模块和判断模块:
所述采样模块获取用户拓扑图,所述用户拓扑图中的各节点用于表征群组用户中的各用户,所述用户拓扑图中的各边用于表征所述各用户之间的关系;
所述采样模块在所述各节点中确定待识别节点,并通过图游走算法获取所述用户拓扑图中的若干局部子图;
所述模型模块针对每个局部子图,通过预先训练的判断模型,判断该局部子图是否为以所述待识别节点为起点游走出的局部子图;
所述判断模块根据针对每个局部子图的判断结果识别所述待识别节点的性质。
13.如权利要求12所述的节点性质判断装置,所述模型模块中判断模型的输出结果预测分值,所述预测分值用于判断该局部子图是否为以所述待识别节点为起点游走出的局部子图,
所述判断模块还用于根据多个预测分值的分布情况判断待识别节点的性质。
14.如权利要求13所述的节点性质判断装置,所述判断模块还用于在所述预测分值的两极离散化程度低于预设程度的情况下,判断所述待识别节点为第一性质。
15.如权利要求13所述的节点性质判断装置,所述判断模块还用于获取n个以所述待识别节点为起点游走出的局部子图的第一预测分值,以及n个不以所述待识别节点为起点游走出的局部子图的第二预测分值;
以及,计算第二预测分值与第一预测分值的差值平均值,在该平均值小于预设阈值时,判断待识别节点为第一性质。
16.如权利要求12所述的节点性质判断装置,所述模型模块还包括训练模块,用于训练所述判断模型,
训练模块获取样本图,其中,样本图中节点用于表征样本用户,各个节点的集合为样本团伙,节点和节点之间的边用于表征样本用户之间的关系;确定样本团伙中的第一节点,并获取样本图的样本子图,其中以第一节点为起点的样本子图存为正样本对训练集,不以第一节点为起点的样本子图存为负样本对训练集;
训练模块确定第一节点的节点表征,以及所述正样本对训练集和负样本对训练集中各个样本子图的子图表征;
训练模块根据节点表征和子图表征建立训练模型,根据正样本对训练集和负样本对训练集对所述训练模型进行训练,得到训练好的判断模型。
17.如权利要求16所述的节点性质判断装置,所述训练模块通过图同构神经网络,将第一节点本身信息和第一节点的邻居节点信息聚合,得到节点表征。
18.如权利要求16所述的节点性质判断装置,所述训练模块基于各个节点的节点表征,通过图读出函数确定子图表征。
19.如权利要求16所述的节点性质判断装置,所述训练模块根据所述节点表征和所述子图表征建立双线性评分函数,作为训练模型。
20.如权利要求16所述的节点性质判断装置,所述训练模块通过随机游走算法采集样本子图,对所述样本子图进行匿名化处理,并存入相应的正样本对训练集或者负样本对训练集。
CN202211332485.5A 2022-10-28 2022-10-28 节点性质判断的方法及装置 Pending CN115761396A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211332485.5A CN115761396A (zh) 2022-10-28 2022-10-28 节点性质判断的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211332485.5A CN115761396A (zh) 2022-10-28 2022-10-28 节点性质判断的方法及装置

Publications (1)

Publication Number Publication Date
CN115761396A true CN115761396A (zh) 2023-03-07

Family

ID=85355641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211332485.5A Pending CN115761396A (zh) 2022-10-28 2022-10-28 节点性质判断的方法及装置

Country Status (1)

Country Link
CN (1) CN115761396A (zh)

Similar Documents

Publication Publication Date Title
Stadler et al. Graph posterior network: Bayesian predictive uncertainty for node classification
CN107391369A (zh) 一种基于数据筛选和数据过采样的跨项目缺陷预测方法
CN112435137B (zh) 一种基于社团挖掘的欺诈信息检测方法及系统
CN114626890A (zh) 一种基于图结构学习的异常用户检测方法
CN111176953B (zh) 一种异常检测及其模型训练方法、计算机设备和存储介质
Belouadah et al. Initial classifier weights replay for memoryless class incremental learning
WO2021084623A1 (ja) 劣化抑制プログラム、劣化抑制方法および情報処理装置
Abdellatif et al. Active learning with noisy labelers for improving classification accuracy of connected vehicles
CN112309126A (zh) 车牌检测方法、装置、电子设备及计算机可读存储介质
CN109308564A (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
JP7438365B2 (ja) 学習活用システム、活用装置、学習装置、プログラム及び学習活用方法
CN113314188B (zh) 图结构增强的小样本学习方法、系统、设备及存储介质
CN112926984B (zh) 基于区块链安全大数据的信息预测方法及区块链服务系统
Stracuzzi et al. Quantifying Uncertainty to Improve Decision Making in Machine Learning.
Neto et al. PIC-Score: Probabilistic Interpretable Comparison Score for Optimal Matching Confidence in Single-and Multi-Biometric Face Recognition
CN108229692B (zh) 一种基于双重对比学习的机器学习识别方法
CN113344091A (zh) 基于标签相关性的多标签流特征确定最优特征子集的方法
CN116881916A (zh) 基于异质图神经网络的恶意用户检测方法及装置
Khoshgoftaar et al. Detecting outliers using rule-based modeling for improving CBR-based software quality classification models
CN117313141A (zh) 一种异常检测方法、装置、设备及可读存储介质
CN115761396A (zh) 节点性质判断的方法及装置
Kaltenpoth et al. Causal discovery with hidden confounders using the algorithmic Markov condition
CN110880117A (zh) 虚假业务识别方法、装置、设备和存储介质
WO2022095807A1 (zh) 一种任务学习系统、方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination