CN117520927B - 检测异常账户的方法和装置 - Google Patents
检测异常账户的方法和装置 Download PDFInfo
- Publication number
- CN117520927B CN117520927B CN202410014918.5A CN202410014918A CN117520927B CN 117520927 B CN117520927 B CN 117520927B CN 202410014918 A CN202410014918 A CN 202410014918A CN 117520927 B CN117520927 B CN 117520927B
- Authority
- CN
- China
- Prior art keywords
- node
- target
- nodes
- graph
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 66
- 238000012512 characterization method Methods 0.000 claims abstract description 57
- 238000003062 neural network model Methods 0.000 claims abstract description 24
- 238000013145 classification model Methods 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 15
- 230000002547 anomalous effect Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 10
- 238000003066 decision tree Methods 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 14
- 238000005065 mining Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 230000002776 aggregation Effects 0.000 description 7
- 238000004220 aggregation Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 3
- 238000009412 basement excavation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供一种检测异常账户的方法和装置,方法包括:从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图;将目标子图输入图神经网络模型,得到目标节点的节点表征向量;获取目标节点在目标图谱中对应的图结构特征的特征值;图结构特征包括节点特征和关系特征;节点特征用于反映目标节点在目标图谱中的重要程度或其归属子图的稠密程度,关系特征用于反映目标节点与目标图谱中的其他节点之间的相关性;将节点表征向量和特征值输入分类模型,得到目标账户是否属于异常账户的检测结果。该方法能够提升检测异常账户的准确率。
Description
技术领域
本说明书的一个或多个实施例涉及计算机领域,尤其涉及检测异常账户的方法和装置。
背景技术
在金融、风控及社交网络上,团伙挖掘是重要且备受关注的问题。团伙挖掘即挖掘异常团伙,异常团伙中的成员共同实现预设风险行为。例如,涉及资金的一些风险行为,使得财产安全受到威胁。利用算法去智能化地挖掘异常团伙,可以显著地节省人力物力成本。
挖掘异常团伙的核心是检测或判别异常团伙实体,也就是检测异常账户,异常账户对应的实体属于共同实现预设风险行为的团伙中的成员。在大规模知识图谱数据上,以图神经网络为代表的表示学习类方法是主流的图学习方法,现有技术中常常利用图神经网络检测异常账户。然而,图神经网络对数据量要求较高,同时,可能涉及用户的隐私数据。实际应用中通常对异常节点进行打标的人工成本较高,因此业务中往往不具有大量的数据标签,从而使得检测异常账户的准确率较低。
发明内容
本说明书一个或多个实施例描述了一种检测异常账户的方法和装置,能够提升检测异常账户的准确率。
第一方面,提供了一种检测异常账户的方法,方法包括:
从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图;
将所述目标子图输入图神经网络模型,得到所述目标节点的节点表征向量;
获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性;
将所述节点表征向量和所述特征值输入分类模型,得到所述目标账户是否属于异常账户的检测结果。
在一种可能的实施方式中,所述图神经网络模型采用如下的训练方式:
利用图神经网络模型,确定第一节点和第二节点分别对应的第一表征向量和第二表征向量;
基于所述第一表征向量和所述第二表征向量,得到第一节点和第二节点之间是否存在连接边的链接预测结果;
根据所述链接预测结果是否符合所述目标图谱中第一节点和第二节点之间关于连接边的实际情况,对所述图神经网络模型进行训练。
在一种可能的实施方式中,所述节点特征包括如下至少一项子特征:
用于标识节点重要性的第一子特征;
用于标识是否属于稠密子图的第二子特征;
用于标识预设跳数的邻居节点数目的第三子特征。
在一种可能的实施方式中,所述关系特征包括如下至少一项子特征:
用于标识其邻居节点之间的连接边的数目的第四子特征;
用于标识包括所述目标节点在内的两个中心节点之间相关性的第五子特征;
用于标识所述目标节点周围的三角稠密度的第六子特征,所述第六子特征基于包括所述目标节点在内的三个中心节点的度而确定。
进一步地,所述两个中心节点具有共同的多个邻居节点;
所述第五子特征采用如下的确定方式:
针对任一中心节点计算所述多个邻居节点分别对该中心节点的贡献值,各贡献值构成第一向量;
针对另一中心节点计算所述多个邻居节点分别对该中心节点的贡献值,各贡献值构成第二向量;
将第一向量和第二向量之间的相似度作为所述第五子特征。
进一步地,所述多个邻居节点中一个邻居节点对该中心节点的贡献值采用如下的确定方式:
确定该邻居节点与该中心节点之间的连接边的权重;
确定该中心节点的度的第一数值和该邻居节点的度的第二数值;
确定两个中心节点共同的邻居节点的数目;
基于所述权重、所述第一数值、所述第二数值和所述数目进行预设运算,得到所述贡献值。
进一步地,所述三个中心节点及连接边构成三角形;
所述第六子特征采用如下的确定方式:
针对任一中心节点确定该中心节点的度的第三数值;
确定另外两个中心节点分别具有的邻居节点的并集具有的节点数;
基于所述目标节点为顶点的三角形的数目、所述第三数值和所述节点数进行预设运算,得到所述第六子特征。
在一种可能的实施方式中,所述分类模型采用有监督的训练方式。
在一种可能的实施方式中,所述分类模型为决策树模型。
在一种可能的实施方式中,所述目标图谱为,交易关系图,或交易领域的知识图谱。
第二方面,提供了一种检测异常账户的装置,装置包括:
子图提取单元,用于从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图;
节点表征单元,用于将所述子图提取单元提取的目标子图输入图神经网络模型,得到所述目标节点的节点表征向量;
结构表征单元,用于获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性;
团伙检测单元,用于将所述节点表征单元得到的节点表征向量和所述结构表征单元获取的特征值输入预先训练的分类模型,得到所述目标账户是否属于异常账户的检测结果。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图;然后将所述目标子图输入图神经网络模型,得到所述目标节点的节点表征向量;接着获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性;最后将所述节点表征向量和所述特征值输入分类模型,得到所述目标账户是否属于异常账户的检测结果。由上可见,本说明书实施例检测异常账户,实质上是进行团伙挖掘。节点的图结构特征能够捕捉和描述异常账户对应的节点与其他节点的聚集和联动行为,将其和节点表征向量共同作为分类模型的输入,有助于对团伙实体的判别,从而提升检测异常账户的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的检测异常账户的方法流程图;
图3示出根据一个实施例的归一化相关度的计算场景示意图;
图4示出根据一个实施例的归一化三角系数的计算场景示意图;
图5示出根据一个实施例的系统框架示意图;
图6示出根据一个实施例的检测异常账户的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及检测异常账户,异常账户对应的实体属于共同实现预设风险行为的团伙中的成员。参照图1,示出了知识图谱中的一个异常子图。知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点可以表示实体或概念,边则代表节点之间的关系。其中,节点可以与账户相对应。团伙挖掘:检测大规模异质图谱中的异常节点、关系或子图,一个异常子图对应一个团伙。图结构特征:描述图数据拓扑结构的特征。相较于检测单个异常节点,团伙挖掘任务中需要更好地捕捉异常主体的团伙特性,即节点聚类为一定规模且具有某些联系。图结构特征对于检测异常账户是至关重要的特征,捕捉和描述异常节点聚集和联动行为对团伙挖掘是必要的。
表示学习:将研究对象的语义信息表达为低维稠密向量,该技术可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题。
在大规模知识图谱数据上,以图神经网络为代表的表示学习类方法是主流的图学习方法。然而,图神经网络对节点属性特征有较强的拟合能力却对图结构特征学习可能不够充分,同时图神经网络在训练时对数据量要求较高,因此本说明书实施例引入了启发式方法作为表示学习的补充,能够减少对训练数据的需求,并达到较好的团伙挖掘效果。
启发式方法:基于直观或经验构造的算法,参数通常由人为设置而不是从数据中学习得到。
本说明书实施例,针对检测异常账户所针对的预设风险行为的不同,可以设置不同的图结构特征。以图1为例,该异常子图对应于异常转账行为,其图结构特征可以包括两跳度,两跳度可以用于标识目标节点的跳数为2的邻居节点数目,例如,图1中,用圆来代表节点,若标识了数字1的节点为目标节点,则该目标节点的两跳度为28,这个两跳度能够反映出异常转账行为的团伙联动的特点。
需要说明的是,图结构特征的含义广泛,可以但不限于包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性。
图2示出根据一个实施例的检测异常账户的方法流程图,该方法可以基于图1所示的实施场景。如图2所示,该实施例中检测异常账户的方法包括以下步骤:步骤21,从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图;步骤22,将所述目标子图输入图神经网络模型,得到所述目标节点的节点表征向量;步骤23,获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性;步骤24,将所述节点表征向量和所述特征值输入分类模型,得到所述目标账户是否属于异常账户的检测结果。下面描述以上各个步骤的具体执行方式。
首先在步骤21,从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图。可以理解的是,可以采用通常的提取子图的方式,例如,提取目标节点和其之间的跳数为1的邻居节点构成目标子图,或者,提取目标节点和其之间的跳数为1或2的邻居节点构成目标子图。
本说明书实施例,提取目标子图,不仅意味着提取目标子图包括的节点和连接边,还意味着提取节点属性以及连接边的边属性。
在一个示例中,所述目标图谱为,交易关系图,或交易领域的知识图谱。
该示例中,具有交易关系的两个节点之间具有连接边,该方法可以从目标图谱中识别具有交易风险的异常节点,上述交易风险可以导致资金损失或者违反法律法规等。
然后在步骤22,将所述目标子图输入图神经网络模型,得到所述目标节点的节点表征向量。可以理解的是,节点表征向量可以反映出目标子图中各个节点的节点属性和/或连接边的边属性。
其中,图神经网络模型(graph neural networks,GNN)可以但不限于采用GeniePath等。
在一个示例中,所述图神经网络模型采用如下的训练方式:
利用图神经网络模型,确定第一节点和第二节点分别对应的第一表征向量和第二表征向量;
基于所述第一表征向量和所述第二表征向量,得到第一节点和第二节点之间是否存在连接边的链接预测结果;
根据所述链接预测结果是否符合所述目标图谱中第一节点和第二节点之间关于连接边的实际情况,对所述图神经网络模型进行训练。
该示例中,将链接预测作为代理子任务进行自监督的图表征学习,避免了人工标注数据不足的问题。
接着在步骤23,获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性。可以理解的是,对于团伙挖掘任务来说,团伙成员之间的联系和互动反映了其形成何种性质或形式的团伙,因此图结构特征至关重要。在此步骤中,以显式的启发式结构特征来增强团伙挖掘,将图结构特征分为节点层面的特征和节点间关系层面的特征。
在一个示例中,所述节点特征包括如下至少一项子特征:
用于标识节点重要性的第一子特征;
用于标识是否属于稠密子图的第二子特征;
用于标识预设跳数的邻居节点数目的第三子特征。
该示例中,节点特征即节点层面的特征,主要刻画了节点的重要程度或其归属子图的稠密程度。第一子特征可以采用经典的PageRank等算法,第二子特征可以采用K-Core等稠密子图挖掘算法,第三子特征可以采用两跳度。两跳度即节点两跳邻居的数目,在具体的业务实践中,两跳度是挖掘发生预设交易风险的团伙的重要特征。参照图1,团伙常形成账户1-账户2-账户3的两级转账结构,因此两跳度这一特征在区分异常团伙和正常社区上非常有用。
在一个示例中,所述关系特征包括如下至少一项子特征:
用于标识其邻居节点之间的连接边的数目的第四子特征;
用于标识包括所述目标节点在内的两个中心节点之间相关性的第五子特征;
用于标识所述目标节点周围的三角稠密度的第六子特征,所述第六子特征基于包括所述目标节点在内的三个中心节点的度而确定。
该示例中,关系特征即节点间关系层面的特征,其更能反映节点之间的交互行为,是判定团伙的重要特征。第四子特征可以采用点聚类系数,第五子特征体现了双节点间关系,第六子特征体现了三节点间关系。
本说明书实施例,所述关系特征可以包括体现更多数目节点间关系的子特征,例如,四节点间关系、五节点间关系等。
进一步地,所述两个中心节点具有共同的多个邻居节点;
所述第五子特征采用如下的确定方式:
针对任一中心节点计算所述多个邻居节点分别对该中心节点的贡献值,各贡献值构成第一向量;
针对另一中心节点计算所述多个邻居节点分别对该中心节点的贡献值,各贡献值构成第二向量;
将第一向量和第二向量之间的相似度作为所述第五子特征。
进一步地,所述多个邻居节点中一个邻居节点对该中心节点的贡献值采用如下的确定方式:
确定该邻居节点与该中心节点之间的连接边的权重;
确定该中心节点的度的第一数值和该邻居节点的度的第二数值;
确定两个中心节点共同的邻居节点的数目;
基于所述权重、所述第一数值、所述第二数值和所述数目进行预设运算,得到所述贡献值。
举例来说,双节点间关系主要以共同邻居为介质去度量两节点间相关性。在共同邻居数目的基础上,Jaccard系数和Adamic-Adar系数分别根据中心节点的并集邻居数和共同邻居度进行归一化。本说明书实施例还可以采用自设计的归一化相关度,兼顾中心节点和共同邻居的热度归一化。
图3示出根据一个实施例的归一化相关度的计算场景示意图。参照图3,中心节点u1和中心节点u2具有两个共同的邻居节点,即邻居节点d1和邻居节点d2,需要计算中心节点u1和中心节点u2之间的归一化相关度。首先,对两个中心节点u1和u2,按tf-idf算法计算每个共同邻居节点的贡献。例如,d1对u1的贡献公式化如下:
;
其中,w[u1,d1]为中心节点u1和邻居节点d1之间的连接边的权重,D[u1]为中心节点u1的度,D[d1]为邻居节点d1的度,N[d]为中心节点u1和中心节点u2共同的邻居节点的数目。
可以采取同样的方式计算每个共同邻居节点对中心节点的贡献值,得到一个tfidf向量,它衡量中心节点对各共同邻居的偏好:
;
其中,代表中心节点u1的邻居节点,/>代表中心节点u2的邻居节点,d代表中心节点u1和中心节点u2共同的邻居节点。
然后,对两个中心节点,可以以它们的偏好来衡量其相似或相关程度。如下式所示,可采用余弦相似度、皮尔逊相关系数等确定两个tfidf向量之间的相似或相关程度。
,
;
其中,代表中心节点u1和中心节点u2的归一化相关度。
进一步地,所述三个中心节点及连接边构成三角形;
所述第六子特征采用如下的确定方式:
针对任一中心节点确定该中心节点的度的数值;
确定另外两个中心节点分别具有的邻居节点的并集具有的节点数;
基于所述目标节点为顶点的三角形的数目、所述度的数值和所述节点数进行预设运算,得到所述第六子特征。
三角形是团伙稳定不易变化的结构形式,基于三角形数目的三角系数等特征可以描述节点周围的三角稠密度。在本说明书实施例中,更有效的是采用自设计的归一化三角系数。
图4示出根据一个实施例的归一化三角系数的计算场景示意图。参照图4,中心节点u具有邻居节点v1、v2、v3、v4,节点v1和v2之间具有连接边,从而使得节点u、v1和v2以及连接边构成三角形,节点v3和v4之间具有连接边,从而使得节点u、v3和v4以及连接边构成三角形,需要计算中心节点u的归一化三角系数,用于表征中心节点u周围的三角稠密度。将待计算的中心节点视作三角形另两个顶点的共同邻居,将Jaccard系数和Adamic-Adar指标融合,分别在共同邻居基础上根据中心节点的并集邻居数和共同邻居度进行归一化,得到中心节点u的归一化三角系数可以表示如下:
其中,u表示目标节点,也就是待计算归一化三角系数的中心节点,v1和v2表示与节点u一起形成三角形的节点u的邻居节点,表示图上边的集合,du表示节点u的度,/>表示节点v1的邻居节点的集合,双竖线表示计数。求和部分下标的含义为寻找与节点u形成三角形的邻居节点,而分式则为对三角形的数目的归一化。
分式中,一方面,表示中心节点度归一,若中心节点是热点,即其度的数值较大,则形成各种结构的数目可能都较多,而非典型的三角团簇结构,因此以中心节点度进行归一化可以反映三角结构的密度,而/>属于可视为更温和的归一化,取对数避免了中心节点是热点时三角系数几乎完全泯灭。
另一方面,表示以邻居节点的并集邻居数来对三角系数进行归一化。如图4所示,邻接三角形u-v1-v2未必对中心节点u而言有重要意义。邻居节点v1和v2是热点,例如明星、大商户等,它们对中心节点u的贡献被稀释。相比而言,三角形u-v3-v4则可能是更重要的邻居三角形,因为邻居v3和v4热度较低,在图中结构主要依赖于三角形u-v3-v4,也几乎完全贡献于此三角形。因此,邻居节点度较低的三角形是更加稳固和重要的三角结构。
最后在步骤24,将所述节点表征向量和所述特征值输入分类模型,得到所述目标账户是否属于异常账户的检测结果。可以理解的是,所述节点表征向量和所述特征值可以视为目标节点的两部分特征。
在一个示例中,所述分类模型采用有监督的训练方式。
在一个示例中,所述分类模型为决策树模型。
通过本说明书实施例提供的方法,首先从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图;然后将所述目标子图输入图神经网络模型,得到所述目标节点的节点表征向量;接着获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性;最后将所述节点表征向量和所述特征值输入分类模型,得到所述目标账户是否属于异常账户的检测结果。由上可见,本说明书实施例检测异常账户,实质上是进行团伙挖掘。节点的图结构特征能够捕捉和描述异常账户对应的节点与其他节点的聚集和联动行为,将其和节点表征向量共同作为分类模型的输入,有助于对团伙实体的判别,从而提升检测异常账户的准确率。
图5示出根据一个实施例的系统框架示意图。参照图5,本说明书实施例,不同于常规的有监督端到端分类任务,而是将团伙挖掘建模为两阶段任务,即特征提取和团伙判别。其中,第一阶段的特征提取中采用无监督和自监督的方式,而在第二阶段的分类判别中采用浅模型进行有监督的分类。由于在第一阶段得到的是较高级语义特征,因此第二阶段的浅层树模型容易收敛且不至于过拟合。在第一阶段中,主要进行自监督的隐式的属性表征学习和无监督的显式的结构特征提取。其中,表征学习又称为表示学习,可以采用GNN模型,例如,GeniePath。在不使用标签信息的情况下,将链接预测作为代理子任务进行自监督的图学习,产出节点表征将用于下游团伙判别。在显式的结构特征提取中,图结构特征包括节点特征和关系特征,其中,节点特征包括PageRank、K-Core、两跳度等多项子特征,关系特征包括点聚类系数、归一化相关度、归一化三角系数等多项子特征。在第二阶段,浅层树模型可以采用决策树、LightGBM等。
本说明书实施例,在模型训练中采用了两阶段学习模式,第一阶段为自监督或无监督的学习模式,第二阶段为有监督的学习模式,极大地减小了对带标签数据量的要求,有效避免过拟合;通过显式的结构特征提取,弥补了表征学习对结构信息捕捉的不足,从而能够以较低的数据标注成本和训练成本达到较好的团伙挖掘效果。
根据另一方面的实施例,本说明书实施例还提供一种检测异常账户的装置,该装置用于执行本说明书实施例提供的方法。图6示出根据一个实施例的检测异常账户的装置的示意性框图。如图6所示,该装置600包括:
子图提取单元61,用于从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图;
节点表征单元62,用于将所述子图提取单元61提取的目标子图输入图神经网络模型,得到所述目标节点的节点表征向量;
结构表征单元63,用于获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性;
团伙检测单元64,用于将所述节点表征单元62得到的节点表征向量和所述结构表征单元63获取的特征值输入分类模型,得到所述目标账户是否属于异常账户的检测结果。
可选地,作为一个实施例,所述图神经网络模型采用如下的训练方式:
利用图神经网络模型,确定第一节点和第二节点分别对应的第一表征向量和第二表征向量;
基于所述第一表征向量和所述第二表征向量,得到第一节点和第二节点之间是否存在连接边的链接预测结果;
根据所述链接预测结果是否符合所述目标图谱中第一节点和第二节点之间关于连接边的实际情况,对所述图神经网络模型进行训练。
可选地,作为一个实施例,所述节点特征包括如下至少一项子特征:
用于标识节点重要性的第一子特征;
用于标识是否属于稠密子图的第二子特征;
用于标识预设跳数的邻居节点数目的第三子特征。
可选地,作为一个实施例,所述关系特征包括如下至少一项子特征:
用于标识其邻居节点之间的连接边的数目的第四子特征;
用于标识包括所述目标节点在内的两个中心节点之间相关性的第五子特征;
用于标识所述目标节点周围的三角稠密度的第六子特征,所述第六子特征基于包括所述目标节点在内的三个中心节点的度而确定。
进一步地,所述两个中心节点具有共同的多个邻居节点;
所述第五子特征采用如下的确定方式:
针对任一中心节点计算所述多个邻居节点分别对该中心节点的贡献值,各贡献值构成第一向量;
针对另一中心节点计算所述多个邻居节点分别对该中心节点的贡献值,各贡献值构成第二向量;
将第一向量和第二向量之间的相似度作为所述第五子特征。
进一步地,所述多个邻居节点中一个邻居节点对该中心节点的贡献值采用如下的确定方式:
确定该邻居节点与该中心节点之间的连接边的权重;
确定该中心节点的度的第一数值和该邻居节点的度的第二数值;
确定两个中心节点共同的邻居节点的数目;
基于所述权重、所述第一数值、所述第二数值和所述数目进行预设运算,得到所述贡献值。
进一步地,所述三个中心节点及连接边构成三角形;
所述第六子特征采用如下的确定方式:
针对任一中心节点确定该中心节点的度的第三数值;
确定另外两个中心节点分别具有的邻居节点的并集具有的节点数;
基于所述目标节点为顶点的三角形的数目、所述第三数值和所述节点数进行预设运算,得到所述第六子特征。
可选地,作为一个实施例,所述分类模型采用有监督的训练方式。
可选地,作为一个实施例,所述分类模型为决策树模型。
可选地,作为一个实施例,所述目标图谱为,交易关系图,或交易领域的知识图谱。
通过本说明书实施例提供的装置,首先提取单元61从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图;然后表征单元62将所述目标子图输入图神经网络模型,得到所述目标节点的节点表征向量;接着获取单元63获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性;最后检测单元64将所述节点表征向量和所述特征值输入分类模型,得到所述目标账户是否属于异常账户的检测结果。由上可见,本说明书实施例检测异常账户,实质上是进行团伙挖掘。节点的图结构特征能够捕捉和描述异常账户对应的节点与其他节点的聚集和联动行为,将其和节点表征向量共同作为分类模型的输入,有助于对团伙实体的判别,从而提升检测异常账户的准确率。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (11)
1.一种检测异常账户的方法,所述方法包括:
从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图;
将所述目标子图输入图神经网络模型,得到所述目标节点的节点表征向量;
获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性;
将所述节点表征向量和所述特征值输入分类模型,得到所述目标账户是否属于异常账户的检测结果;
其中,所述关系特征包括:用于标识包括所述目标节点在内的两个中心节点之间相关性的第五子特征;所述两个中心节点具有共同的多个邻居节点;
所述第五子特征采用如下的确定方式:
针对任一中心节点计算所述多个邻居节点分别对该中心节点的贡献值,各贡献值构成第一向量;
针对另一中心节点计算所述多个邻居节点分别对该中心节点的贡献值,各贡献值构成第二向量;
将第一向量和第二向量之间的相似度作为所述第五子特征;
其中,所述多个邻居节点中一个邻居节点对该中心节点的贡献值采用如下的确定方式:
确定该邻居节点与该中心节点之间的连接边的权重;
确定该中心节点的度的第一数值和该邻居节点的度的第二数值;
确定两个中心节点共同的邻居节点的数目;
基于所述权重、所述第一数值、所述第二数值和所述数目进行预设运算,得到所述贡献值。
2.如权利要求1所述的方法,其中,所述图神经网络模型采用如下的训练方式:
利用图神经网络模型,确定第一节点和第二节点分别对应的第一表征向量和第二表征向量;
基于所述第一表征向量和所述第二表征向量,得到第一节点和第二节点之间是否存在连接边的链接预测结果;
根据所述链接预测结果是否符合所述目标图谱中第一节点和第二节点之间关于连接边的实际情况,对所述图神经网络模型进行训练。
3.如权利要求1所述的方法,其中,所述节点特征包括如下至少一项子特征:
用于标识节点重要性的第一子特征;
用于标识是否属于稠密子图的第二子特征;
用于标识预设跳数的邻居节点数目的第三子特征。
4.如权利要求1所述的方法,其中,所述关系特征还包括如下至少一项子特征:
用于标识其邻居节点之间的连接边的数目的第四子特征;
用于标识所述目标节点周围的三角稠密度的第六子特征,所述第六子特征基于包括所述目标节点在内的三个中心节点的度而确定。
5.如权利要求4所述的方法,其中,所述三个中心节点及连接边构成三角形;
所述第六子特征采用如下的确定方式:
针对任一中心节点确定该中心节点的度的第三数值;
确定另外两个中心节点分别具有的邻居节点的并集具有的节点数;
基于所述目标节点为顶点的三角形的数目、所述第三数值和所述节点数进行预设运算,得到所述第六子特征。
6.如权利要求1所述的方法,其中,所述分类模型采用有监督的训练方式。
7.如权利要求1所述的方法,其中,所述分类模型为决策树模型。
8.如权利要求1所述的方法,其中,所述目标图谱为,交易关系图,或交易领域的知识图谱。
9.一种检测异常账户的装置,所述装置包括:
提取单元,用于从目标图谱中提取目标账户对应的目标节点和其邻居节点构成的目标子图;
表征单元,用于将所述提取单元提取的目标子图输入图神经网络模型,得到所述目标节点的节点表征向量;
获取单元,用于获取所述目标节点在所述目标图谱中对应的图结构特征的特征值;所述图结构特征包括节点特征和关系特征;所述节点特征用于反映目标节点在所述目标图谱中的重要程度或其归属子图的稠密程度,所述关系特征用于反映目标节点与所述目标图谱中的其他节点之间的相关性;
检测单元,用于将所述表征单元得到的节点表征向量和所述获取单元获取的特征值输入分类模型,得到所述目标账户是否属于异常账户的检测结果;
其中,所述关系特征包括:用于标识包括所述目标节点在内的两个中心节点之间相关性的第五子特征;所述两个中心节点具有共同的多个邻居节点;
所述第五子特征采用如下的确定方式:
针对任一中心节点计算所述多个邻居节点分别对该中心节点的贡献值,各贡献值构成第一向量;
针对另一中心节点计算所述多个邻居节点分别对该中心节点的贡献值,各贡献值构成第二向量;
将第一向量和第二向量之间的相似度作为所述第五子特征;
其中,所述多个邻居节点中一个邻居节点对该中心节点的贡献值采用如下的确定方式:
确定该邻居节点与该中心节点之间的连接边的权重;
确定该中心节点的度的第一数值和该邻居节点的度的第二数值;
确定两个中心节点共同的邻居节点的数目;
基于所述权重、所述第一数值、所述第二数值和所述数目进行预设运算,得到所述贡献值。
10.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
11.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项的所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410014918.5A CN117520927B (zh) | 2024-01-04 | 2024-01-04 | 检测异常账户的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410014918.5A CN117520927B (zh) | 2024-01-04 | 2024-01-04 | 检测异常账户的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117520927A CN117520927A (zh) | 2024-02-06 |
CN117520927B true CN117520927B (zh) | 2024-05-21 |
Family
ID=89755332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410014918.5A Active CN117520927B (zh) | 2024-01-04 | 2024-01-04 | 检测异常账户的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117520927B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245787A (zh) * | 2019-05-24 | 2019-09-17 | 阿里巴巴集团控股有限公司 | 一种目标群体预测方法、装置及设备 |
CN112153221A (zh) * | 2020-09-16 | 2020-12-29 | 北京邮电大学 | 一种基于社交网络图计算的通信行为识别方法 |
CN113821798A (zh) * | 2021-08-23 | 2021-12-21 | 中山大学 | 一种基于异构图神经网络的以太坊非法账户检测方法及系统 |
CN114971892A (zh) * | 2022-07-19 | 2022-08-30 | 中国工商银行股份有限公司 | 贷款行为识别方法、装置、计算机设备和存储介质 |
WO2023071845A1 (zh) * | 2021-10-25 | 2023-05-04 | 支付宝(杭州)信息技术有限公司 | 知识图谱处理 |
CN116091208A (zh) * | 2023-01-16 | 2023-05-09 | 张一超 | 基于图神经网络的信贷风险企业识别方法和装置 |
CN116305033A (zh) * | 2023-02-27 | 2023-06-23 | 北京奇艺世纪科技有限公司 | 一种异常账户识别方法、装置及电子设备 |
CN116541510A (zh) * | 2023-05-09 | 2023-08-04 | 西安电子科技大学 | 一种基于知识图谱的故障案例推荐方法 |
CN116883151A (zh) * | 2023-07-17 | 2023-10-13 | 支付宝(杭州)信息技术有限公司 | 对用户风险的评估系统进行训练的方法及装置 |
CN117216736A (zh) * | 2022-12-02 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 异常账号的识别方法、数据调度平台及图计算平台 |
-
2024
- 2024-01-04 CN CN202410014918.5A patent/CN117520927B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245787A (zh) * | 2019-05-24 | 2019-09-17 | 阿里巴巴集团控股有限公司 | 一种目标群体预测方法、装置及设备 |
CN112153221A (zh) * | 2020-09-16 | 2020-12-29 | 北京邮电大学 | 一种基于社交网络图计算的通信行为识别方法 |
CN113821798A (zh) * | 2021-08-23 | 2021-12-21 | 中山大学 | 一种基于异构图神经网络的以太坊非法账户检测方法及系统 |
WO2023071845A1 (zh) * | 2021-10-25 | 2023-05-04 | 支付宝(杭州)信息技术有限公司 | 知识图谱处理 |
CN114971892A (zh) * | 2022-07-19 | 2022-08-30 | 中国工商银行股份有限公司 | 贷款行为识别方法、装置、计算机设备和存储介质 |
CN117216736A (zh) * | 2022-12-02 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 异常账号的识别方法、数据调度平台及图计算平台 |
CN116091208A (zh) * | 2023-01-16 | 2023-05-09 | 张一超 | 基于图神经网络的信贷风险企业识别方法和装置 |
CN116305033A (zh) * | 2023-02-27 | 2023-06-23 | 北京奇艺世纪科技有限公司 | 一种异常账户识别方法、装置及电子设备 |
CN116541510A (zh) * | 2023-05-09 | 2023-08-04 | 西安电子科技大学 | 一种基于知识图谱的故障案例推荐方法 |
CN116883151A (zh) * | 2023-07-17 | 2023-10-13 | 支付宝(杭州)信息技术有限公司 | 对用户风险的评估系统进行训练的方法及装置 |
Non-Patent Citations (3)
Title |
---|
Community Detection using Semi-supervised Learning with Graph Convolutional Network on GPUs;Naw Safrin Sattar et al.;《2020 IEEE International Conference on Big Data》;20210319;5237-5246 * |
Exploring financially constrained small-and medium-sized enterprises based on a multi-relation translational graph attention network;Qianqiao LIANG et al.;《Frontiers of Information Technology&Electronic Engineering》;20230331;388-402 * |
基于图神经网络的比特币异常交易检测研究;皇甫姣姣;《万方学位论文》;20230505;1-75 * |
Also Published As
Publication number | Publication date |
---|---|
CN117520927A (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ahmed et al. | An efficient algorithm for link prediction in temporal uncertain social networks | |
WO2022088972A1 (zh) | 面向带权异质图的恶意行为识别方法、系统和存储介质 | |
CN110457404B (zh) | 基于复杂异质网络的社交媒体账户分类方法 | |
WO2022121145A1 (zh) | 一种基于图分类的以太坊网络钓鱼诈骗检测方法及装置 | |
CN108009710A (zh) | 基于相似度和TrustRank算法的节点测试重要度评估方法 | |
Yin et al. | An anomaly detection model based on deep auto-encoder and capsule graph convolution via sparrow search algorithm in 6G internet-of-everything | |
Qiu et al. | An adaptive social spammer detection model with semi-supervised broad learning | |
Li et al. | An intrusion detection method based on active transfer learning | |
WO2023010502A1 (en) | Method and apparatus for anomaly detection on graph | |
WO2023284516A1 (zh) | 基于知识图谱的信息推荐方法、装置、设备、介质及产品 | |
Wang et al. | Detecting shilling groups in online recommender systems based on graph convolutional network | |
Zhang et al. | Temporal burstiness and collaborative camouflage aware fraud detection | |
Zhang et al. | An intrusion detection method based on stacked sparse autoencoder and improved gaussian mixture model | |
CN117272195A (zh) | 基于图卷积注意力网络的区块链异常节点检测方法及系统 | |
Fu et al. | Robust representation learning for heterogeneous attributed networks | |
CN113343123A (zh) | 一种生成对抗多关系图网络的训练方法和检测方法 | |
Zhu et al. | Network embedding-based anomalous density searching for multi-group collaborative fraudsters detection in socialmedia | |
CN117520927B (zh) | 检测异常账户的方法和装置 | |
Morshed et al. | LeL-GNN: Learnable edge sampling and line based graph neural network for link prediction | |
Gao et al. | GCN-ALP: addressing matching collisions in anchor link prediction | |
CN116633589A (zh) | 社交网络中恶意账户检测方法、设备及存储介质 | |
Chen et al. | Anomaly subgraph mining in large-scale social networks | |
CN113297500B (zh) | 一种社交网络孤立节点链接预测方法 | |
Wang et al. | Detecting Ethereum Phishing Scams with Temporal Motif Features of Subgraph | |
CN114519605A (zh) | 广告点击欺诈检测方法、系统、服务器和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |