CN116467666A - 一种基于集成学习和主动学习的图异常检测方法和系统 - Google Patents
一种基于集成学习和主动学习的图异常检测方法和系统 Download PDFInfo
- Publication number
- CN116467666A CN116467666A CN202310495695.4A CN202310495695A CN116467666A CN 116467666 A CN116467666 A CN 116467666A CN 202310495695 A CN202310495695 A CN 202310495695A CN 116467666 A CN116467666 A CN 116467666A
- Authority
- CN
- China
- Prior art keywords
- node
- graph
- anomaly detection
- model
- anomaly
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 99
- 238000012549 training Methods 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 34
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 36
- 230000005856 abnormality Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 230000004069 differentiation Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003012 network analysis Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于主动学习和集成学习的图异常检测方法和系统,包括:采集数据并预处理,选择不同的图异常检测模型,并对每个模型进行训练,计算出图数据上每个节点的异常分数及嵌入向量;利用主动学习的策略,根据数据特征,从未标记数据中选择一些样本进行标记,并将其加入到集成模型的训练集中;使用主动学习获得的训练集,来训练集成模型,集成模型的输入是节点在多个图异常检测模型中的节点嵌入和节点异常打分。集成模型包含一个权重预测模块,给出每个图异常检测模型的集成权重,这个权重最终会乘上对应图异常检测模型输出的异常得分,然后求和获得每个节点的最终得分作为集成模型的最终得分。本发明能利用少量标记数据提高异常检测的准确性。
Description
技术领域:
本发明涉及一种基于集成学习和主动学习的图异常检测方法和系统,属于计算机人工智能领域。
背景技术:
图上的节点异常检测是一种广泛应用于图分析领域的技术,它旨在通过对节点和边的特征分析,发现图中存在的异常点或异常边。相比于传统的异常检测方法,基于图的异常检测方法可以更好地应对复杂网络结构等各种挑战。
在现实生活中,图上的异常检测具有广泛的应用前景。以电子商务欺诈检测为例,电子商务平台上的卖家数量庞大,但其中也存在一定数量的虚假卖家,他们通过各种手段骗取消费者的钱财。针对这个问题,基于图的异常检测算法可以分析卖家的属性和连接关系,识别出那些有欺诈行为的卖家。此外,在社交网络识别、金融风险管理、医疗诊断等领域,图上异常检测的技术也被广泛应用。
尽管在过去几十年里,已经发展了很多图上的异常检测方法,但是现有的方法仍然存在一些局限性。例如,许多方法需要大量标记数据来训练模型,这会增加人力成本和时间成本;而也有许多方法需要手动选择特征或调整参数,这会使算法的泛化性能受到限制。同时,现有的图异常检测方法往往在不同的数据集上表现相差很大,对于一些数据集,现有的图异常检测算法可能会表现良好,而在另一些数据集上表现较差。这可能会导致算法的应用范围受到限制,并且需要耗费大量时间和精力来进行算法调优和参数选择。
发明内容:
针对现有技术的以上问题和难点,本发明提出了一种基于集成学习和主动学习的图异常检测方法和系统。
本发明提出了一种基于集成学习和主动学习的图异常检测方法,它使用集成学习和主动学习的方式学习一个映射,将几种图异常检测模型进行集成,从而在不同的数据集上都能够达到较好的效果。这种方法可以更好地应对不同领域、不同规模、不同结构的数据,从而提高了算法的泛化性和鲁棒性。
一种基于集成学习和主动学习的图异常检测方法,包括如下步骤:
S1:采集数据并对数据进行预处理
S1-1:确定数据集的范围和类别:首先需要确定所需的数据集的范围和类别,例如需要采集哪些类型的图数据、需要采集多少数据等。
S1-2:数据获取:在获取数据时,可以使用各种不同的数据接口来获取数据。
S1-3:数据清洗:获取的原始数据可能包含缺失、重复或错误的信息。因此需要对原始数据进行清洗和处理,例如填补缺失值、去除重复数据以及删除错误数据等。对于图数据,还需要检查并修正节点和结构信息的错误。
S1-4:特征提取:在将图数据用于机器学习或深度学习模型之前,需要将其转换为特征向量。特征提取的方法应根据具体任务而定,例如特征嵌入等。
S2:选择几个不同的图异常检测模型,并对每个模型进行训练,计算出在图数据上每个节点的异常分数以及每个节点的嵌入向量;
S3:利用主动学习的策略,从未标记数据中选择一些样本进行标记,并将其加入到训练集中;
S4:使用训练集来训练集成模型,集成模型会使用节点的异常分数和节点的嵌入向量计算获得每个节点的最终异常得分;
S5:重复步骤S3至S4,直到达到预设的迭代次数;
S6:输出最终节点的异常得分。
优选地,集成模型的优化目标,可以形式化如公式(1):
其中,公式中的θ*是要求解的集成模型的模型参数;函数f(·)代表着要求解的集成模型θ是它的参数;[Z1,Z2...ZK]代表一个K个不同的图异常检测模型;k是每个不同模型的编号;Xi和Yi分别代表着节点vi的属性和标签;Dl是指已经通过查询拥有标签的那一部分训练数据集,训练中使用的节点都是来自Dl;公式中使用的损失函数是交叉熵损失函数;而损失函数/>是每个图异常检测算法Zk各自定义的自监督损失函数,它们会根据自己各自的算法流程来训练,其中A代表图结构,X代表节点属性。
而对于集成模型的函数f具体的有公式(2):
其中,Ek(Xi)代表每个图异常检测模型[Z1,Z2...ZK]对节点Xi的节点嵌入向量;g(·)是参数为θ的权重预测函数,它会使用节点嵌入向量Ek(Xi)计算出一个权重;Sk(Xi)是图异常检测模型Zk对节点Xi的异常打分,它会和对应的权重相乘。然后一共K个权重和异常打分的乘积的和将作为当前节点的最终异常打分。
优选地,S1中采用的数据为真实采集的数据集或者现成的数据集。
优选地,S2中选择几个不同的基于图自动编码器的图异常检测模型,具体为:
DOMINANT模型,这是一种基于深度学习的属性图异常检测算法,它由一个共享的图卷积编码器、一个结构重建解码器和一个属性重建解码器组成,它可以同时利用图的结构和属性信息来识别异常节点;
AnomalyDAE模型,这是一种双自编码器的属性图异常检测算法,它由一个结构自编码器和一个属性自编码器组成。它可以同时学习节点的嵌入和属性的嵌入,并在隐空间中进行异常检测。结构自编码器使用图注意力层来捕捉图的拓扑信息,属性自编码器使用两个非线性特征变换来压缩和重建节点的属性信息;
CONAD模型,这是一种对比属性网络异常检测算法,它由一个共享的图卷积编码器、一个结构重建解码器和一个属性重建解码器组成。它可以同时学习节点的结构和属性特征,并在隐空间中进行对比学习,从而区分正常节点和异常节点。
优选地,S3中采用的主动学习策略中包含节点中心性策略,具体为:
节点中心性是一种用于衡量网络中节点重要性的指标,它基于节点在网络结构中的位置和角色,衡量节点对网络的控制和影响能力。在社交网络、信息网络、交通网络等实际应用中,节点中心性具有广泛的应用。
常用的节点中心性指标包括:
1.度中心性:度中心性是指节点的度数,即与该节点相连的边的数量。度中心性较高的节点在网络中具有较大的影响力。
2.接近中心性:接近中心性是指节点与其他节点的平均距离的倒数。接近中心性较高的节点在网络中具有较大的影响力,能够更快地传播信息。
3.介数中心性:介数中心性是指节点在所有最短路径上出现的频率。介数中心性较高的节点在网络中扮演着重要的中介角色,能够连接不同的社区和集群。
4.特征向量中心性:特征向量中心性是指节点在网络中的邻居节点中具有较高中心性的节点数量。特征向量中心性较高的节点在网络中具有较大的影响力。
5.PageRank中心性:是由Google公司创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)提出的一种中心性指标,用于衡量网页在搜索引擎排名中的重要性。PageRank中心性是基于节点之间的链接关系来计算的,它认为一个网页的重要性取决于其他页面链接到它的数量和质量。
常用的节点中心性指标都能被使用在本发明所提出的方法中,可以根据数据集不同的特点来选择合适的节点中心性指标来使用。计算出所有节点的节点中心性,并在每次查询中选择节点中心性值最大的节点。因为那些在图上最为中心的节点往往更加能代表整个图的特点,查询这些节点的实际标签往往能对模型最终效果带来较大的提升。
S3中采用的主动学习策略中包含不确定度策略,具体为:
根据每个节点在各个图异常检测算法中获得的异常得分,选择那些在多个图异常检测算法中整体具有高度不确定性的节点进行标注,每个节点整体的不确定度计算如公式(3)所示:
其中,φUC(vi)表示节点vi的不确定度;pk(vi)是由第k个图异常检测算法Zk给出的关于节点vi的属于异常的概率,在这里pk(vi)=Sk(Xi)。这样可以算出整体上所有图异常检测算法在节点vi上的不确定度,可以体现出图异常检测算法对当前节点是否属于异常的不确定程度。通过公式(3)计算出每个节点的不确定度,并在每次查询时选择未标记节点中不确定度最大的节点。因为查询那些不确定度较高的节点的实际标签往往能对模型最终效果带来较大的提升。
S3中采用的主动学习策略中包含节点传播可疑度策略,具体为:
节点的传播可疑度分数如公式(4)所示:
φSU(vi)=DEP(vi)-RP(vi) (4)
其中,RP(vi)是节点的传播可信度,它是由节点的初始可信度R0(v)在图上传播而来,对于所有查询过标签的节点v∈Dl定义初始可信度为1,所有未查询过标签的节点v∈Du的初始可信度定为0。在图结构上对节点的可信度进行总共P轮的标签传播的过程如公式(5)所示:
RP(v)=APR0(v) (5)
DEP(vi)是节点的传播争议度分数,它由节点的初始争议度分数DE0(v)在图上进行有注意力的传播获得。对于每个节点,定义它们的初始争议度分数为:DE0(vi)=max(S(vi))-min(S(vi))。公式中的S(vi)=[S1(Xi),S2(Xi)...SK(Xi)]是每个图异常检测模型[Z1,Z2...ZK]对于当前节点vi的异常打分,这些打分中max和min之间的差值能体现出不同的图异常检测算法对当前节点判断的争议程度,因此定义为节点的初始争议度分数。然后,在图结构上对节点的争议度进行传播,传播的过程采用注意力机制,总共传播P轮,具体公式(6)如下:
其中αij是节点vi和邻居节点vj之间的注意力分数如公式(7):
其中,Ek(Xi)和Ek(Xj)是节点vi和vj由第k个图异常检测算法给出的节点嵌入向量。通过计算他们之间的余弦相似度来获得他们之间的相关性系数eij。
这样便得到了每个节点的最终可信度RP(v)以及争议度DEP(v),把二者的差值定义为节点的传播可疑度,并在每次查询时选择未标记节点Du中传播可疑度分数最大的节点,因为查询最可疑的节点的实际标签往往能对模型最终效果带来较大的提升。
S3中采用的主动学习策略中包含节点区分度策略,具体为:
根据节点的嵌入特征,选择与其他剩余节点相距最远的那一个节点,每个节点的区分度如公式(8)所示:
其中,φDI(vi;t)代表节点vi在当前第t轮的区分度;而d(Ek(Xi),Ek(Xj))代表节点vi和节点vj在第k个图异常检测算法中节点嵌入向量之间的欧式距离;Dl代表当前t轮已经获得标签的节点集。通过公式(8)计算出每个节点vi∈Du与Dl中节点的整体区分度,并选择其中区分度最大的节点。因为当一直使用一些固定的策略来查询节点时,会使得被查询的节点趋向于同质化,造成信息的冗余,因此需要查询更多不同的节点来获得更多的信息,以此来获得模型性能提升。
优选地,S3中在每一个轮次t中都会通过以上的每一种主动学习策略各自挑选出一个查询节点来查询,然后加入到已获得查询的节点集Dl中。
优选地,在S4中集成学习被作为一种将多个基本模型进行融合的方法,得到比基本的图异常检测模型更准确和稳定的最终预测结果。集成学习的具体流程为:
使用主动学习获得的带有标签信息的图数据作为训练集来训练集成模型,使其能够在未见过的数据上实现较好的异常检测效果。其中,集成模型由多个基本图异常检测模型组成,每个图异常检测模型都会关注到图上不同类型的异常。通过将这些基本模型的输出进行融合,集成模型可以利用每个节点的节点嵌入以及异常打分来得到最终预测结果。
优选地,对于S4中集成模型常用的解决方法有简单平均、加权平均、投票法、堆叠等。在本专利中,选择使用可学习的集成模型,可以更好的获取数据节点的特征与异常打分之间的关系。通过为每个基本模型分配相应的权重,且这些权重可以由集成模型自动学习得到,集成模型可以更加高效地使用不同基本模型之间的信息,并且不会受到手动调整权重所带来的主观性和局限性的影响。具体的,由公式(2)可以将集成模型的优化目标公式(1)写为:
其中,g(Ek(Xi);θ)是一个用于预测图异常检测模型重要性权重预测模块,这个权重预测模块的输入是图神经网络模型对节点的嵌入,输出是对应的图异常检测模型训练获得的异常得分在最终的集成模型中所占的权重。权重预测模块的参数θ是由模型最终给出的节点异常得分和节点的实际标签之间的交叉熵损失函数来更新的。因此集成模型的训练目标就是为了找到一个最优的参数θ,它可以很好的用不同图异常检测模型给出的节点嵌入预测出模型权重,然后使用这个权重对不同图异常检测模型给出的节点异常打分进行加权求和,获得优于所有图异常检测模型的结果。例如,对于S2中选取的三个模型,会分别得到三个节点的嵌入,这三个嵌入会一起作为权重预测模块的输入,权重预测模块会使用三个节点的嵌入计算获得三个权重,它们分别会乘上对应的图异常检测模型给出的异常得分,然后全部相加获得最终的节点异常得分。
本发明还涉及一种基于集成学习和主动学习的图异常检测系统,包括:
数据采集和预处理模块,用于采集数据并对数据进行预处理;
节点异常分数和嵌入向量计算模块,选择不同的图异常检测模型,并对每个图异常检测模型进行训练,计算出在图数据上每个节点的异常分数以及每个节点的嵌入向量;
数据标记模块,利用主动学习的策略,从未标记数据中选择一些样本进行标记,并将其加入到训练集中;
节点最终异常得分计算模块,使用训练集来训练集成模型,集成模型使用节点的异常分数和节点的嵌入向量计算获得每个节点的最终异常得分;
迭代模块,重复步骤S3至S4,直到达到预设的迭代次数;
结果输出模块,用于输出最终节点的异常得分。
本发明还涉及一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现本发明的方法。
本发明具有如下优点:
(1)通过主动学习的方式,可以有效地利用少量标记数据来提高异常检测的准确性;
(2)通过集成学习的方式,可以有效地融合不同类型的图异常检测模型,从而利用它们各自的优势以捕捉图数据中各类复杂信息;
(3)通过本发明提出的方法,可以在不同领域、不同规模、不同结构的图数据上都能够达到较好的异常检测效果,从而提高了算法的泛化性和鲁棒性。
附图说明:
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明方法的总体流程图。
图2是本发明系统的结构图。
具体实施方式:
下面将参照附图更详细地描述本公开的示例性实施例。下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本发明所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
一种基于集成学习和主动学习的图异常检测方法,包括如下步骤:
S1:选择数据集
本实施例采用了开源的Torch_Geometric库中提供的现成的数据集,该数据集包含了多个不同领域、不同规模、不同结构的属性图数据。例如,其中一个数据集是Cora数据集,它是一个引文网络,每个节点代表一篇论文,每条边代表两篇论文之间的引用关系。每个节点有1433维的特征向量,表示论文中出现的单词。每个节点也有一个类别标签,表示论文所属的领域。具体为:
Planetoid数据库,它包含三个Citation网络数据集:Cora,CiteSeer和PubMed,这些数据集是基于引文网络构建的,用于节点分类任务,每个节点表示一个文档,并且具有一个文档的特征向量和标签,边缘表示引用关系,即一个文档引用另一个文档;
Weibo数据集,微博数据集是一个包含有关中国社交媒体平台“微博”的数据集。数据集包含来自2012年至2016年的微博文章、用户、关系和标签数据。它可用于社交网络分析、情感分析、用户行为分析等领域的研究;
Reddit数据集,Reddit数据集是一个包含了Reddit社区发布的公共内容的数据集,包括文章、评论、用户和社区信息。该数据集可用于进行文本分析、社交网络分析、情感分析、主题建模等领域的研究;
Disney数据集,迪士尼数据集是一个包含有关迪士尼电影的数据集,其中包括了电影、电视节目、角色和声优等信息。这个数据集可以用于分析迪士尼电影的特点、观众群体和市场策略等方面的研究;
Books数据集,图书数据集是一个包含各种类型图书信息的数据集,包括书名、作者、出版日期、ISBN等信息。这个数据集可以用于推荐系统、图书分类、销售分析等领域的研究。
DGraph数据集,DGraph数据集是一个包含了图形数据库DGraph的数据集,其中包括了社交网络、食品营养、短语学习等不同类型的数据。这个数据集可以用于研究图形数据库的性能、存储和查询等方面的问题。
S1-1:插入异常节点
由于挑选的数据集本身并不含有异常节点,因此要在图数据中插入异常节点。插入异常节点的方法选择使用开源的python库PYGOD中实现的gen_contextual_outliers和gen_structural_outliers方法。
其中,gen_contextual_outliers是生成上下文异常的方法,它的做法是在属性图数据中随机选择一些节点,然后修改它们的属性特征,使其与其他节点的属性特征差异较大,从而形成上下文异常。举例地来说,对于实例中使用的数据集Cora,首先随机选择70个节点作为属性扰动候选节点。对于每个选定的节点vi,从数据集中再次随机选择另外10个节点,通过最大化节点欧几里得距离,选择其属性与节点vi偏离最大的节点vj。然后,将节点vi的属性xi更改为xj,这样就获得了70个异常节点。
其中,gen_structural_outliers是生成结构异常的方法,它的做法是在图数据中随机选择一些节点,然后增加它们之间的边缘连接,使其形成一个完全连通的团,从而形成结构异常。举例来说,对于实例中使用的数据集Cora,首先从网络中随机选取10个节点,然后将这些节点完全连接起来,然后将集团中的所有10个节点视为离群值。然后迭代地重复这个过程,直到产生一定数量的7个团,从而产生的结构异常值的总数为70。
S2:选择几个不同的属性图异常检测算法并进行训练
选择几个不同的属性图异常检测算法,例如在开源的python库PYGOD中实现的DOMINANT模型、AnomalyDAE模型、CONAD模型等。对每个模型进行初始化和训练,并计算出在属性图数据上每个节点的异常分数,以及获得每个模型对每个节点的嵌入向量。
S3:计算主动学习得分
使用主动学习的策略,基于上一步计算获得的异常分数以及每个节点的嵌入向量,计算这一轮每个节点的四种主动学习策略的得分,四种主动学习策略分别是:节点中心性策略、不确定度策略、传播可疑度策略、节点区分度策略。从未标记过的数据中根据每一种主动学习策略分别挑选一个样本然后获取它们的标签,并将它们加入到训练集中,以提高集成模型的性能。
S4:训练神经网络
使用通过主动学习获得的训练集,来训练一个集成模型。集成模型的输入是每个训练集中的节点在多个属性图异常检测算法中的节点嵌入以及节点异常打分,集成模型的输出是每个节点的最终异常得分。
S5:迭代
重复步骤S3至S4,直到达到预设的迭代次数或者满足停止条件。
S6:输出结果
输出图深度学习模型得到的节点的最终异常得分。
实施例2
本实施例涉及应用本发明的一种基于集成学习和主动学习的图异常检测方法的电子商务欺诈检测方法,包括如下步骤:
S1:采集数据并对数据进行预处理;
具体为:在一种电子商务平台的应用场景下,以信用卡交易为例,图异常检测的任务为检测出用户交易记录中的欺诈交易,属于节点分类任务。各交易平台以各种方式获取到每个用户和每笔交易的相关数据,提取其中的用户作为节点集合V,提取用户之间的交易关系作为连边集合E,提取用户的各类信息作为特征X,构建了图网络G(V,E,X)。
S2:选择几个不同的图异常检测模型,并对每个模型进行训练,计算出在图数据上每个节点的异常分数以及每个节点的嵌入向量;
S3:利用主动学习的策略,从未标记的用户中选择一些可疑的样本进行标记,并将其加入到训练集中;
所选取的主动学习策略具体包括以下四种:节点中心性、节点不确定度、传播可疑度、节点区分度。
其中,节点中心性可以采用各自不同的节点中心性指标以适应不同的图结构类型,如:度中心性、接近中心性、介数中心性、特征向量中心性、PageRank中心性。
其中,节点不确定度公式(3)为:
pk(vi)是由第k个图异常检测算法Zk给出的关于节点vi的属于异常的概率,其含义与节点vi的异常打分相同,因此在这里pk(vi)就是节点vi在第k个图异常检测算法Zk中的异常得分Sk(Xi)。
其中,节点传播可疑度公式(4)为:
φSU(vi)=DEP(vi)-RP(vi) (4)
RP(v)是节点的可信度以及DEP(v)是节点的争议度。节点可信度公式是:
RP(v)=APR0(v) (5)
对于所有查询过标签的节点v∈Dl定义初始可信度R0(v)为1,所有未查询过标签的节点v∈Du的初始可信度R0(v)定为0。而A是图结构的邻接矩阵。节点争议度公式是:
αij是节点vi和邻居节点vj之间的注意力分数: Ek(Xi)和Ek(Xj)是节点vi和vj由第k个图异常检测算法给出的节点嵌入向量,通过计算他们之间的余弦相似度来获得他们之间的相关性系数eij。而节点的初始争议度分数为:DE0(vi)=max(S(vi))-min(S(vi))。其中max(S(vi))和min(S(vi))是每个图异常检测模型[Z1,Z2...ZK]对于当前节点vi的异常打分S(vi)=[S1(Xi),S2(Xi)...SK(Xi)]中的最大值和最小值。
其中,节点区分度公式(8)为:
d(Ek(Xj),Ek(Xj))代表节点vi和节点vj在第k个图异常检测算法中节点嵌入向量之间的欧式距离,且每个未查询的节点只会和已经查询过标签的节点集Dl中的节点计算欧式距离。
对于上述的四种主动学习策略,每次会将所使用的每一种主动学习策略挑选的节点都加入查询列表。反复经过多轮的查询来构建集成学习的训练集。
S4:使用训练集来训练集成模型,集成模型会使用节点的异常分数和节点的嵌入向量计算获得每个节点的最终异常得分;
具体为:集成模型的输入是前面步骤S2中获得的每个训练集中的节点在多个图异常检测模型中的嵌入和对节点的异常打分,集成模型的输出是节点的异常打分。
S5:重复步骤S3至S4,直到达到预设的迭代次数;
S6:输出最终节点的异常得分,实现电子商务欺诈检测;
对于被模型赋予较高异常得分的节点往往意味着该节点代表的信用卡用户有较大的可能是一个信用卡欺诈用户,应该进一步的调查他的信用卡使用行为。
实施例3
参照图2,本实施例涉及本发明还涉及一种基于集成学习和主动学习的图异常检测系统,包括:
数据采集和预处理模块,用于采集数据并对数据进行预处理;
节点异常分数和嵌入向量计算模块,选择不同的图异常检测模型,并对每个图异常检测模型进行训练,计算出在图数据上每个节点的异常分数以及每个节点的嵌入向量;
数据标记模块,利用主动学习的策略,从未标记数据中选择一些样本进行标记,并将其加入到训练集中;
节点最终异常得分计算模块,使用训练集来训练集成模型,集成模型使用节点的异常分数和节点的嵌入向量计算获得每个节点的最终异常得分;
迭代模块,重复步骤S3至S4,直到达到预设的迭代次数;
结果输出模块,用于输出最终节点的异常得分。
实施例4
本发明还涉及一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现实施例1的方法。
Claims (10)
1.一种基于集成学习和主动学习的图异常检测方法,其特征在于,包括以下步骤:
S1:采集数据并对数据进行预处理
S2:选择不同的图异常检测模型,并对每个图异常检测模型进行训练,计算出在图数据上每个节点的异常分数以及每个节点的嵌入向量;
S3:利用主动学习的策略,从未标记数据中选择一些样本进行标记,并将其加入到训练集中;
S4:使用训练集来训练集成模型,集成模型使用节点的异常分数和节点的嵌入向量计算获得每个节点的最终异常得分;
S5:重复步骤S3至S4,直到达到预设的迭代次数;
S6:输出最终节点的异常得分。
2.根据权利要求1所述的基于主动学习和集成学习的图异常检测方法的具体步骤,其特征在于:步骤S4所述的集成模型的优化目标,能形式化如公式(1):
其中,公式中的θ*是要求解的集成模型的模型参数;函数f(·)代表着要求解的集成模型θ是它的参数;[Z1,Z2…ZK]代表一个K个不同的图异常检测模型;k是每个不同模型的编号;Xi和Yi分别代表着节点vi的属性和标签;Dl是指已经通过查询拥有标签的那一部分训练数据集,训练中使用的节点都是来自Dl;公式中使用的损失函数是交叉熵损失函数;而损失函数/>是每个图异常检测算法Zk各自定义的自监督损失函数,它们会根据自己各自的算法流程来训练,其中A代表图结构,X代表节点属性;
对于集成模型的函数f具体的有公式(2):
其中,Ek(Xi)代表每个图异常检测模型[Z1,Z2…ZK]对节点Xi的节点嵌入向量;g(·)是参数为θ的权重预测函数,它会使用节点嵌入向量Ek(Xi)计算出一个权重;Sk(Xi)是图异常检测模型Zk对节点Xi的异常打分,和对应的权重相乘;然后一共K个权重和异常打分的乘积的和将作为当前节点的最终异常打分。
3.根据权利要求1所述的基于主动学习和集成学习的图异常检测方法的具体步骤,其特征在于:所述步骤S2中,通过对所选择的图异常检测模型进行训练,不仅要获得每个节点的异常得分,还要获得每个节点的节点嵌入用于接下来的步骤。
4.据权利要求1所述的基于集成学习和主动学习的图异常检测方法的具体步骤,其特征在于,步骤S3中所使用的主动学习策略包括以下一种或多种:节点中心性、节点不确定度、传播可疑度、节点区分度。
5.据权利要求3所述的方法,其特征在于,所述的节点中心性可以采用各自不同的节点中心性指标以适应不同的图结构类型,如:度中心性、接近中心性、介数中心性、特征向量中心性、PageRank中心性。
6.据权利要求3所述的方法,其特征在于,所述的节点不确定度公式(3)为:
其中pk(vi)是由第k个图异常检测算法Zk给出的关于节点vi的属于异常的概率,其含义与节点vi的异常打分相同,因此在这里pk(vi)就是节点vi在第k个图异常检测算法Zk中的异常得分Sk(Xi)。
所述的节点传播可疑度公式(4)为:
φSU(vi)=DEP(vi)-RP(vi) (4)
其中RP(vi)是节点的可信度以及DEP(vi)是节点的争议度。
所述的节点可信度公式是:
RP(v)=APR0(v) (5)
其中,对于所有查询过标签的节点v∈Dl定义初始可信度R0(v)为1,所有未查询过标签的节点v∈Du的初始可信度R0(v)定为0;而A是图结构的邻接矩阵。
所述的节点争议度公式是:
其中αij是节点vi和邻居节点vj之间的注意力分数: 其中,/>Ek(Xi)和Ek(Xj)是节点vi和vj由第k个图异常检测算法给出的节点嵌入向量,通过计算他们之间的余弦相似度来获得他们之间的相关性系数eij;而节点的初始争议度分数为:DE0(vi)=max(S(vi))-min(S(vi))。其中max(S(vi))和min(S(vi))是每个图异常检测模型[Z1,Z2…ZK]对于当前节点vi的异常打分S(vi)=[S1(Xi),S2(Xi)…SK(Xi)]中的最大值和最小值。
所述的节点区分度公式(8)为:
其中d(Ek(Xi),Ek(Xj))代表节点vi和节点vj在第k个图异常检测算法中节点嵌入向量之间的欧式距离,且每个未查询的节点只会和已经查询过标签的节点集Dl中的节点计算欧式距离。
7.据权利1所述的基于集成学习和主动学习的图异常检测方法的具体步骤,其特征在于,步骤S3中每次会将所使用的每一种主动学习策略挑选的节点都加入查询列表。
8.根据权利要求1所述的基于集成学习和主动学习的图异常检测方法,其特征在于,步骤S4中的集成模型的输入是前面步骤S2中获得的每个训练集中的节点在多个图异常检测模型中的嵌入和对节点的异常打分,集成模型的输出是节点的异常打分。
9.一种基于集成学习和主动学习的图异常检测系统,其特征在于,包括:
数据采集和预处理模块,用于采集数据并对数据进行预处理;
节点异常分数和嵌入向量计算模块,选择不同的图异常检测模型,并对每个图异常检测模型进行训练,计算出在图数据上每个节点的异常分数以及每个节点的嵌入向量;
数据标记模块,利用主动学习的策略,从未标记数据中选择一些样本进行标记,并将其加入到训练集中;
节点最终异常得分计算模块,使用训练集来训练集成模型,集成模型使用节点的异常分数和节点的嵌入向量计算获得每个节点的最终异常得分;
迭代模块,重复步骤S3至S4,直到达到预设的迭代次数;
结果输出模块,用于输出最终节点的异常得分。
10.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310495695.4A CN116467666A (zh) | 2023-04-28 | 2023-04-28 | 一种基于集成学习和主动学习的图异常检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310495695.4A CN116467666A (zh) | 2023-04-28 | 2023-04-28 | 一种基于集成学习和主动学习的图异常检测方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116467666A true CN116467666A (zh) | 2023-07-21 |
Family
ID=87180782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310495695.4A Pending CN116467666A (zh) | 2023-04-28 | 2023-04-28 | 一种基于集成学习和主动学习的图异常检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116467666A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117150403A (zh) * | 2023-08-22 | 2023-12-01 | 国网湖北省电力有限公司营销服务中心(计量中心) | 一种决策节点行为异常检测方法和系统 |
CN117763486A (zh) * | 2024-02-22 | 2024-03-26 | 福建理工大学 | 一种基于图数据结构和特征的金融网络异常检测方法 |
-
2023
- 2023-04-28 CN CN202310495695.4A patent/CN116467666A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117150403A (zh) * | 2023-08-22 | 2023-12-01 | 国网湖北省电力有限公司营销服务中心(计量中心) | 一种决策节点行为异常检测方法和系统 |
CN117150403B (zh) * | 2023-08-22 | 2024-05-28 | 国网湖北省电力有限公司营销服务中心(计量中心) | 一种决策节点行为异常检测方法和系统 |
CN117763486A (zh) * | 2024-02-22 | 2024-03-26 | 福建理工大学 | 一种基于图数据结构和特征的金融网络异常检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bamakan et al. | Opinion leader detection: A methodological review | |
Qi et al. | Attentive relational networks for mapping images to scene graphs | |
Wang et al. | Edge2vec: Edge-based social network embedding | |
Li et al. | Competitive analysis for points of interest | |
CN113535974B (zh) | 诊断推荐方法及相关装置、电子设备、存储介质 | |
Ding et al. | Cross-domain graph anomaly detection | |
CN112529168A (zh) | 一种基于gcn的属性多层网络表示学习方法 | |
CN116467666A (zh) | 一种基于集成学习和主动学习的图异常检测方法和系统 | |
Mallek et al. | Evidential link prediction in social networks based on structural and social information | |
Wang et al. | Link prediction in heterogeneous information networks: An improved deep graph convolution approach | |
CN116401380B (zh) | 面向异构知识图谱的对比学习预测方法及系统 | |
Zhu et al. | DeepAD: A joint embedding approach for anomaly detection on attributed networks | |
Wang et al. | Link prediction in heterogeneous collaboration networks | |
Kumar et al. | Graph Convolutional Neural Networks for Link Prediction in Social Networks | |
KR102663767B1 (ko) | Ai기반 가상자산 고위험 지갑주소 db 자동 업데이트 방법 | |
Lan et al. | Improving network embedding with partially available vertex and edge content | |
Bi et al. | Judicial knowledge-enhanced magnitude-aware reasoning for numerical legal judgment prediction | |
CN117009613A (zh) | 一种图数据分类方法、系统、装置及介质 | |
Arya et al. | Node classification using deep learning in social networks | |
Xie et al. | PathMLP: Smooth Path Towards High-order Homophily | |
CN115618926A (zh) | 一种面向纳税人企业分类的重要因子提取方法及装置 | |
Le et al. | Enhancing Anchor Link Prediction in Information Networks through Integrated Embedding Techniques | |
CN113159976B (zh) | 一种微博网络重要用户的识别方法 | |
CN112307343B (zh) | 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法 | |
Zhao et al. | Detecting fake reviews via dynamic multimode network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |