CN116340793A - 一种数据处理方法、装置、设备以及可读存储介质 - Google Patents
一种数据处理方法、装置、设备以及可读存储介质 Download PDFInfo
- Publication number
- CN116340793A CN116340793A CN202310404239.4A CN202310404239A CN116340793A CN 116340793 A CN116340793 A CN 116340793A CN 202310404239 A CN202310404239 A CN 202310404239A CN 116340793 A CN116340793 A CN 116340793A
- Authority
- CN
- China
- Prior art keywords
- feature
- graph
- detection
- service attribute
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据处理方法、装置、设备以及可读存储介质,方法包括:基于检测对象集合中每个检测对象分别在业务中的业务属性特征,构建对象关系图;在图自编解码器中确定每个业务属性特征分别对应的聚合表示特征,以及对象关系图对应的重构关系图;将每个聚合表示特征进行特征聚类处理得到类簇分布结果,基于类簇分布结果、重构关系图以及对象关系图,对图自编解码器进行优化;在优化得到的优化图自编解码器中输出每个业务属性特征分别对应的优化聚合表示特征;将每个优化聚合表示特征进行特征聚类处理;基于特征聚类处理得到的优化类簇分布结果识别异常对象群体。采用本申请,可以在异常对象群体的检测业务中,减少检测成本,提升检测效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备以及可读存储介质。
背景技术
目前,在不同领域(如金融领域、医保领域)中,由于领域中的监管体系不健全、约束机制不完善等原因,使得各个领域中异常行为频发。例如,在医保领域中,部分参保对象或组织机构在参加医疗保险、享受医疗保险待遇的过程中,存在弄虚作假、异常消费、虚假报销等异常行为。
为了减少各个领域中异常行为发生的频率,相关检查组织会花费大量的人力和时间去对海量对象进行过滤和排查,以查找在各个领域中发生了异常行为的异常对象。通常情况下,对于不同领域中的异常行为往往是由不同的对象组织参与的,即不同的成员会组成一个对象群体来执行异常行为,这将为检查组织在排查异常对象时带来很高的难度,检查组织需要检测出同一个异常行为所涉及到的每个成员,以最终检测出发生异常行为的对象群体。目前,对于发生异常行为的对象群体的检测,主要是基于某个已检测出的异常对象,来逐一排查其他对象是否与该异常对象存在关联,从而来逐一排查得到最终的异常对象群体。这种方式将花费非常高的时间成本与人力成本,而且效率非常低下。
发明内容
本申请实施例提供一种数据处理方法、装置、设备以及可读存储介质,可以在异常对象群体的检测业务中,减少检测成本,提升检测效率。
本申请实施例一方面提供了一种数据处理方法,包括:
基于检测对象集合中,每个检测对象分别在业务中的业务属性特征,构建以每个检测对象为对象节点的对象关系图;
调用图自编解码器,在图自编解码器中,基于对象关系图中对象节点之间的连接关系,确定每个业务属性特征分别对应的聚合表示特征,以及对象关系图对应的重构关系图;
将每个聚合表示特征进行特征聚类处理,得到检测对象集合对应的类簇分布结果;
基于类簇分布结果、重构关系图以及对象关系图,对图自编解码器进行优化,得到优化图自编解码器;
在优化图自编解码器中,基于对象关系图中对象节点之间的连接关系,输出每个业务属性特征分别对应的优化聚合表示特征;
将每个优化聚合表示特征进行特征聚类处理,得到检测对象集合对应的优化类簇分布结果;
基于优化类簇分布结果识别检测对象集合中的异常对象群体。
本申请实施例一方面提供了一种数据处理装置,包括:
图构建模块,用于基于检测对象集合中,每个检测对象分别在业务中的业务属性特征,构建以每个检测对象为对象节点的对象关系图;
调用模块,用于调用图自编解码器;
特征确定模块,用于在图自编解码器中,基于对象关系图中对象节点之间的连接关系,确定每个业务属性特征分别对应的聚合表示特征,以及对象关系图对应的重构关系图;
第一聚类模块,用于将每个聚合表示特征进行特征聚类处理,得到检测对象集合对应的类簇分布结果;
优化模块,用于基于类簇分布结果、重构关系图以及对象关系图,对图自编解码器进行优化,得到优化图自编解码器;
优化特征输出模块,用于在优化图自编解码器中,基于对象关系图中对象节点之间的连接关系,输出每个业务属性特征分别对应的优化聚合表示特征;
第二聚类模块,用于将每个优化聚合表示特征进行特征聚类处理,得到检测对象集合对应的优化类簇分布结果,
群体识别模块,用于基于优化类簇分布结果识别检测对象集合中的异常对象群体。
在一个实施例中,检测对象集合包含检测对象Si,每个检测对象分别在业务中的业务属性特征,包含检测对象Si在业务中的业务属性特征Ti;i为正整数;
对于图构建模块基于检测对象集合中,每个检测对象分别在业务中的业务属性特征,构建以每个检测对象为对象节点的对象关系图的具体方式,可以包括:
构建检测对象集合中,每个检测对象分别对应的对象节点,得到对象节点集合;
基于业务属性特征Ti,以及剩余检测对象在业务中的业务属性特征,在检测对象集合中确定检测对象Si对应的关联对象;剩余检测对象是指检测对象集合中,除检测对象Si以外的检测对象;
将检测对象Si对应的对象节点,确定为目标对象节点,将检测对象Si对应的关联对象所对应的对象节点,确定为关联对象节点;
在目标对象节点与关联对象节点之间构建连接边,得到目标对象节点对应的关联边;
当确定出对象节点集合中,每个对象节点分别对应的关联边时,将包含对象节点集合以及每个对象节点分别对应的关联边的结构图,确定为对象关系图。
在一个实施例中,剩余检测对象的数量为M个;M为正整数;
对于图构建模块基于业务属性特征Ti,以及剩余检测对象在业务中的业务属性特征,在检测对象集合中确定检测对象Si对应的关联对象的具体方式,可以包括:
将M个剩余检测对象中,每个剩余检测对象在业务中的业务属性特征,均确定为剩余业务属性特征;
确定业务属性特征Ti与每个剩余业务属性特征之间的特征相似度,得到M个特征相似度;
将M个特征相似度中大于相似度阈值的特征相似度,确定为目标特征相似度,将目标特征相似度对应的剩余业务属性特征确定为相似业务属性特征;
将检测对象集合中的相似业务属性特征所对应的剩余检测对象,确定为检测对象Si对应的关联对象。
在一个实施例中,M个剩余业务属性特征中包含剩余业务属性特征Tj,M个特征相似度包含剩余业务属性特征Tj与业务属性特征Ti之间的特征相似度,j为正整数;每个业务属性特征包含业务参与时刻;
对于图构建模块确定业务属性特征Ti与每个剩余业务属性特征之间的特征相似度,得到M个特征相似度的具体方式,可以包括:
将业务属性特征Ti所包含的业务参与时刻,确定为第一参与时刻,将剩余业务属性特征Tj所包含的业务参与时刻,确定为第二参与时刻;
确定第一参与时刻与第二参与时刻之间的间隔时长;
获取时长映射表;时长映射表包含配置时间区间集合与配置相似度集合之间的映射关系;配置时间区间集合中的一个配置时长区间,与配置相似度集合中的一个配置相似度之间具有映射关系;
将配置时长区间集合中,间隔时长所属的配置时长区间确定为目标时长区间,将配置相似度集合中,与目标时长区间之间具有映射关系的配置相似度,确定为剩余业务属性特征Tj与业务属性特征Ti之间的特征相似度。
在一个实施例中,图自编解码器包含图编码器与图解码器;
对于特征确定模块在图自编解码器中,基于对象关系图中对象节点之间的连接关系,确定每个业务属性特征分别对应的聚合表示特征,以及对象关系图对应的重构关系图的具体方式,可以包括:
调用图自编解码器中的图编码器,在图编码器中,通过对象关系图中对象节点之间的连接关系,对每个业务属性特征分别进行编码处理,得到每个业务属性特征分别对应的聚合表示特征;
调用图自编解码器中的图解码器,在图解码器中,基于每个业务属性特征分别对应的聚合表示特征,对对象关系图中对象节点之间的连接关系进行重构,得到重构关系图。
在一个实施例中,检测对象集合包含检测对象Si,每个检测对象分别在业务中的业务属性特征,包含检测对象Si在业务中的业务属性特征Ti;i为正整数;
对于特征确定模块在图编码器中,通过对象关系图中对象节点之间的连接关系,对每个业务属性特征分别进行编码处理,得到每个业务属性特征分别对应的聚合表示特征的具体方式,包括:
在图编码器中,将检测对象Si对应的对象节点确定为目标对象节点,将对象关系图中与目标对象节点之间存在连接关系的对象节点,确定为目标对象节点的邻接节点;
将邻接节点对应的邻接业务属性特征,与业务属性特征Ti进行编码融合处理,得到业务属性特征Ti对应的聚合表示特征;邻接节点对应的邻接业务属性特征,是指邻接节点对应的检测对象在业务中的业务属性特征。
在一个实施例中,特征确定模块将邻接节点对应的邻接业务属性特征,与业务属性特征Ti进行编码融合处理,得到业务属性特征Ti对应的聚合表示特征的具体方式,可以包括:
获取对象关系图对应的关系邻接矩阵;关系邻接矩阵用于表征对象关系图中对象节点之间的连接关系;
将关系邻接矩阵进行归一化处理,得到关系邻接矩阵对应的归一化邻接矩阵;
获取图编码器中的编码参数矩阵,通过图编码器的逻辑运算函数,将关系邻接矩阵、业务属性特征Ti、邻接业务属性特征以及编码参数矩阵进行运算处理,得到业务属性特征Ti对应的聚合表示特征。
在一个实施例中,对象关系图由对象节点集合,以及对象节点集合中每个对象节点分别对应的关联边所组成;对象节点集合中的一个对象节点对应检测对象集合中的一个检测对象;
特征确定模块在图解码器中,基于每个业务属性特征分别对应的聚合表示特征,对对象关系图中对象节点之间的连接关系进行重构,得到重构关系图的具体方式,可以包括:
获取每个业务属性特征分别对应的聚合表示特征所共同组成的表示特征向量,将表示特征向量进行转置变换处理,得到表示特征向量对应的转置变换向量;
将表示特征向量与转置变换向量进行点积运算处理,得到重构邻接矩阵;重构邻接矩阵包含Q个重构连接概率,Q个重构连接概率中的一个重构连接概率,是指对象节点集合中的两个对象节点之间具有连接关系的预测概率;Q为正整数;
将对象关系图中,每个对象节点分别对应的关联边进行删除,得到中间对象关系图;
将Q个重构连接概率中,大于连接概率阈值的重构连接概率,确定为目标重构连接概率,在中间对象关系图中,在目标重构连接概率对应的两个对象节点之间构建连接边,得到重构关系图。
在一个实施例中,优化模块基于类簇分布结果、重构关系图以及对象关系图,对图自编解码器进行优化,得到优化图自编解码器的具体方式,可以包括:
对类簇分布结果进行分布误差计算处理,得到类簇分布结果对应的类簇分布损失值;
获取重构关系图对应的重构邻接矩阵,以及对象关系图对应的关系邻接矩阵;关系邻接矩阵用于表征对象关系图中对象节点之间的连接关系,重构邻接矩阵用于表征重构关系图中对象节点之间的连接关系;
对重构邻接矩阵以及关系邻接矩阵进行预测误差计算处理,得到重构关系图对应的连接预测损失值;
根据类簇分布损失值与连接预测损失值,确定图自编解码器对应的总损失值,根据总损失值对图自编解码器进行优化,得到优化图自编解码器。
在一个实施例中,类簇分布结果包含W个特征类簇,W个特征类簇中的每个特征类簇均包含一个或多个聚合表示特征;W为正整数;每个业务属性特征分别对应的聚合表示特征包含聚合表示特征Uv,v为正整数;
优化模块对类簇分布结果进行分布误差计算处理,得到类簇分布结果对应的类簇分布损失值的具体方式,可以包括:
获取每个特征类簇分别对应的类簇中心;
分别计算聚合表示特征Uv与每个类簇中心之间的类簇距离,根据聚合表示特征Uv与每个类簇中心之间的类簇距离,确定聚合表示特征Uv对应的距离损失值;
当确定出每个聚合表示特征分别对应的距离损失值时,将每个聚合表示特征分别对应的距离损失值进行运算处理,得到类簇分布损失值。
在一个实施例中,优化类簇分布结果包含至少两个优化特征类簇,至少两个优化特征类簇中的每个优化特征类簇均包含一个或多个优化聚合表示特征;至少两个优化特征类簇中包含优化特征类簇Kc,c为正整数;
群体识别模块基于优化类簇分布结果识别检测对象集合中的异常对象群体的具体方式,包括:
识别优化特征类簇Kc中所包含的异常对象,将优化特征类簇Kc中所包含的异常对象,所组成的集合确定为优化特征类簇Kc对应的类簇异常子群体;
当确定出每个优化特征类簇分别对应的类簇异常子群体时,将每个优化特征类簇分别对应的类簇异常子群体,均确定为检测对象集合中的异常对象群体。
在一个实施例中,优化特征类簇Kc中包含异常标签对象;异常标签对象是指在业务中,存在异常标签行为的对象;
群体识别模块识别优化特征类簇Kc中所包含的异常对象的具体方式,可以包括:
将优化特征类簇Kc所包含的一个或多个优化聚合表示特征中,异常标签对象对应的优化聚合表示特征,确定为目标表示特征,将优化特征类簇Kc所包含的一个或多个优化聚合表示特征中,除目标表示特征以外的优化聚合表示特征,确定为目标表示特征对应的候选异常表示特征;
将候选异常表示特征对应的检测对象,确定为候选异常对象;
获取候选异常对象在业务中的业务行为数据,确定业务行为数据与异常标签行为之间的行为关联度;
在行为关联度大于关联度阈值时,将候选异常对象确定为异常标签对象对应的异常关联对象,将异常标签对象与异常关联对象,均确定为优化特征类簇Kc中所包含的异常对象。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本申请实施例中的方法。
本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行本申请实施例中一方面提供的方法。
在本申请实施例中,在针对某个业务中的异常对象群体挖掘任务中,引入图结构,采用基于图结构的自监督学习的方式来检测业务中的异常对象群体。具体的,对于某个检测对象集合,若期望检测该检测对象集合中所包含的异常对象群体,那么可以先基于每个检测对象分别在业务中的业务属性特征,构建出以每个检测对象为对象节点的对象关系图;随后,可以调用图自编解码器,通过图自编码器可以基于对象关系图中对象节点之间的连接关系,学习到每个对象节点分别对应的聚合表示特征(即每个业务属性特征分别对应的聚合表示特征),同时还可以计算得到该对象关系图所对应的重构关系图;而对于该每个对象节点分别对应的聚合表示特征,可以用于进行类簇划分,最后,可以基于类簇划分后所得到的类簇分布结果、重构关系图以及对象关系图,对图自编解码器进行训练优化,以使得训练优化后的图自编解码器能够输出有效的准确的优化聚合表示特征,基于该优化聚合表示特征即可准确的将检测对象集合进行划分,得到准确的优化类簇分布结果,该优化类簇分布结果即可作为识别检测对象集合中的异常对象群体的参考。应当理解,本申请可以基于检测对象集合中不同检测对象的业务属性特征,构建对象关系图,而基于该对象关系图可以对图自编解码器进行自监督学习,使得图自编解码器能够基于对象关系图中对象节点之间的连接关系,有效且准确的确定出每个对象节点分别对应的优化聚合表示特征,随后即可基于该有效且准确的优化聚合表示特征将检测对象集合进行类簇划分,所得到的优化类簇分布结果能够在识别检测对象集合中的异常对象群体的任务中,作为参考辅助,例如,基于某个已检测出的异常对象,可以在其所属的类簇中排查与之存在关联的关联对象,从而高效且准确的在对象数量较少的类簇中,找到某个异常对象的关联对象,无需在海量对象中逐一排查即可高效的排查得到异常对象群体,由此可以很好地减少人力成本与时间成本,提升识别效率。综上,本申请可以在异常对象群体的检测业务中,减少检测成本,提升检测效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构图;
图2是本申请实施例提供的一种数据处理方法的方法流程示意图;
图3是本申请实施例提供的一种构建对象关系图的示意图;
图4是本申请实施例提供的一种通过图自编解码器,输出聚合表示特征以及重构关系图的流程示意图;
图5是本申请实施例提供的一种对图自编解码器进行优化,得到优化图自编解码器的流程示意图;
图6是本申请实施例提供的一种系统架构图;
图7是本申请实施例提供的一种数据处理装置的结构示意图;
图8是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例涉及人工智能及其相关概念,为便于理解,以下将优先对人工智能及其相关概念进行简要阐述:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案属于人工智能领域下属的机器学习((MachineLearning,ML)。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
为便于理解,请参见图1,图1是本申请实施例提供的一种网络架构图。如图1所示,该网络架构可以包括数据处理服务器10000、业务服务器1000和终端设备集群,终端设备集群可以包括一个或者多个终端设备,这里将不对终端设备的数量进行限制。如图1所示,多个终端设备可以包括终端设备100a、终端设备100b、终端设备100c、…、终端设备100n;如图1所示,终端设备100a、终端设备100b、终端设备100c、…、终端设备100n可以分别与业务服务器1000进行网络连接,以便于每个终端设备可以通过该网络连接与业务服务器1000之间进行数据交互;终端设备集群中的任一终端设备可以与数据处理服务器10000之间存在通信连接,例如终端设备100b与数据处理服务器10000之间存在通信连接。同理,业务服务器1000可以与数据处理服务器10000之间存在通信连接,以便于业务服务器1000与数据处理服务器10000之间进行数据交互。
如图1所示的业务服务器1000可以为任一企业或机构(如医疗机构、保险机构)对应的后台服务器,终端设备集群中的某个终端设备可以是指企业或机构的相关人员所对应的终端(例如,业务服务器1000为医疗结构对应的后台服务器时,终端设备100a可以是指医疗机构中的成员所对应的终端,终端设备100b可以是指医疗机构的病患所对应的终端),终端设备集群中的某个终端设备用于为企业或机构提供相关服务(如为医疗机构提供智能就诊服务),而每个终端设备可以存储通过自身所产生的服务数据,业务服务器1000可以用于存储企业或机构中所产生的所有业务数据(包括上述每个终端设备的服务数据)。例如,以机构为医疗机构为例,假设终端设备100a为医疗机构中的某个成员所对应的终端,该终端设备100a可以用于提供智能就诊服务,通过该终端设备100a所产生的智能服务数据,可以于该终端设备本地存储,终端设备100a还可以将该智能服务数据发送至业务服务器1000,业务服务器1000也会将该智能服务数据进行同步存储。
应当理解,在医疗保险领域中,由于监管体系不健全、约束机制不完善等原因,使得医疗保险领域中的异常行为频发。例如,在医疗保险领域中,部分参保对象或组织结构在参加医疗保险、享受医疗保险待遇的过程中,存在弄虚作假、异常消费、虚假报销等异常行为。为了减少医保(医疗保险)领域中异常行为发生的频率,相关检查组织(如相关执法组织)会花费大量的人力和时间去对海量对象进行过滤和排查,以查找在医保领域中发生了异常行为的对象(如用户,可称之为异常对象)。而对于医疗保险领域中的异常行为,部分是由个体所独立参与产生的,部分是由团体(或群体)所共同参与产生的,对于由团体所共同参与的异常行为而言,需要通过相关规则来对对象进行识别检测以找到这个团体。而本申请中的数据处理服务器10000,可以是指用于将不同对象进行群体划分的服务器,该数据处理服务器10000可以将可能存在较大关联的对象划分到一起,由此,相关检查组织即可基于数据处理服务器10000所划分得到的结果,来高效地判断和识别共同参与同一个异常行为的异常对象群体(团体)。
具体的,假设某批对象均在医疗机构中进行就诊,此时需要从这批对象中识别出发生了异常行为的异常对象群体,那么可以将这批对象均确定为检测对象,这批对象可以共同组成一个检测对象集合。数据处理服务器10000可以从业务服务器1000处获取到检测对象集合中,每个检测对象在该医疗机构中的医疗就诊数据(该医疗就诊数据中可以包含检测对象的就诊信息,例如,可以包含检测对象的就诊时间、每次就诊的就诊疾病类型、每次就诊的治疗方案等等。本申请可以将检测对象在医疗业务中的医疗就诊数据称为检测对象在医疗业务中的业务属性特征);基于这些检测对象集合中这些检测对象的医疗就诊数据,数据处理服务器10000可以构建检测对象之间的关联关系(检测对象之间的关联关系可以按照一定的关系构建规则来构建,例如,可以按照医疗就诊数据中的医疗就诊时间来构建检测对象之间的关联关系,具体的,若两个检测对象的医疗就诊时间前后相差在预设时长(如5分钟、4分钟、30分钟……)以内,则可以确定这两个检测对象之间存在关联关系),从而可以基于检测对象集合中不同检测对象之间的关联关系,构建得到一个对象关系图(该对象关系图中,是以每个检测对象作为节点(可称之为对象节点),一个检测对象可作为一个节点,且该对象关系图中,不同的对象节点之间存在连接边,具体的,若两个检测对象之间存在关联关系,那么这两个检测对象对应的两个对象节点之间,即会存在连接边)。
进一步地,数据处理服务器10000可以将该对象关系图,以及每个检测对象在该医疗业务中的医疗就诊数据(也就是检测对象的业务属性特征),输入至图自编解码器(图自编解码器可以由图编码器和图解码器组成,其中,图编码器可以将输入数据(如检测对象的业务属性特征)编码成隐变量从而学习业务属性特征的表征信息,而图解码器可以将图编码器编码得到的隐变量解码为原始输入)中。而在该图自编解码器中,通过图编码器可以基于对象关系图中,对象节点之间的连接关系,对每个业务属性特征进行编码处理,由此可以得到每个业务属性特征分别对应的隐变量(由于图编码器在对某个业务属性特征进行编码处理时,会传递聚合其邻接节点的特征信息,以聚合得到该业务属性特征对应的聚合信息,所以本申请可以将隐变量称之为聚合表示特征);随后,通过图解码器,可以对这些隐变量进行重构,由此可以重构对象节点之间的连接关系,得到一个新的关系图(可称之为重构关系图)。也就是说,通过图自编解码器,可以确定出每个业务属性特征分别对应的聚合表示特征,以及对象关系图对应的重构关系图。
进一步地,对于图自编解码器所输出的每个聚合表示特征,数据处理服务器10000可以将其进行特征聚类处理,其中,特征聚类处理即是这些聚合表示特征进行聚类划分处理,对聚合表示特征进行聚类处理时,可以采用任意一种聚类算法对其进行聚类处理,例如,可以采用K-means算法对其进行聚类处理,这里将不对具体的聚类方法进行限制。应当理解,对聚合表示特征进行特征聚类处理后,可以得到一个类簇分布结果,该类簇分布结果中可以包含有不同的特征类簇(每个特征类簇包含有不同的聚合表示特征)。为了提升聚类效果,使得检测对象集合的群体划分结果更为准确,本申请实施例可以根据类簇分布结果对图自编解码器进行训练,使得图自编解码器所输出的聚合表示特征能够与聚类任务进行强相关(即图自编解码器所输出的聚合表示特征,是与后续的聚类任务具备较高关联性的)。
同时,可以理解的是,对于上述图解码器所输出的重构关系图,是图解码器基于图编码器所编码得到的聚合表示特征所确定的,那么通过该重构关系图即可反映出图编码器所编码得到的聚合表示特征的准确情况,例如,若该重构关系图所表征的对象节点之间的连接关系与该对象关系图所表征的连接关系之间的误差较小,即可说明基于图编码器输出的聚合表示特征,可以确定出一个接近真实连接关系的关系图,进而可说明图编码器输出的聚合表示特征已较为准确;相反,若该重构关系图所表征的对象节点之间的连接关系,与对象关系图所表征的连接关系之间的误差较大,即可说明图编码器输出的聚合表示特征还不具备较高的准确性,此时需要基于误差值对图自编解码器进行训练,直至图自编解码器能够输出准确的有效的聚合表示特征。也就是说,本申请实施例中,可以基于图解码器所输出的重构关系图以及真实的对象关系图,来对图自编解码器进行训练。而基于训练后的图自编解码器(可称之为优化图自编解码器),可以输出具备较高准确性与有效性的各个聚合表示特征(可称之为优化聚合表示特征),而基于各个优化聚合表示特征,即可聚类得到具备较高准确性的聚类结果(可称之为优化类簇分布结果),基于该优化类簇分布结果,即可识别出该检测对象集合中的异常对象群体。
综上,本申请可以从输入数据(包含对象关系图与业务属性特征)中,获取监督信息(对象关系图中的真实连接关系),基于该监督信息与聚类结果来共同训练图自编解码器,从而来让图自编解码器学习到对后续任务有用的表征信息(即每个业务属性特征分别对应的聚合表示特征)。换言之,本申请可以采用图自监督学习的方式来训练图自编解码器,无需采用任何预设标签、也无需人工提前标注标签(如提前标注标准异常对象群体标签),即可很好地对图自编解码器进行训练,得到准确的聚合表示特征,由此可以在没有标签的情况下,即可准确的对异常对象群体进行挖掘,从而可以在有效减少人工标注数据的时间,提升训练效率的同时,提升异常对象群体的检测准确性。
可以理解的是,本申请实施例所提供的方法可以由计算机设备执行,计算机设备包括但不限于图1中所提及的终端设备或数据处理服务器或业务服务器。上述数据处理服务器或业务服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、台式计算机、移动互联网设备(MID,mobile internet device)、POS(Point Of Sales,销售点)机、智能音箱、智能手表、智能车载终端等,但并不局限于此。终端设备与业务服务器或数据处理服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
可选的,可以理解的是,上述计算机设备(如上述业务服务器1000、终端设备100a、终端设备100b等等)可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成的点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。在分布式系统中,任意形式的计算机设备,比如业务服务器、终端设备等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。为便于理解,以下将对区块链的概念进行说明:区块链是一种分布式数据存储、点对点传输、共识机制以及加密算法等计算机技术的新型应用模式,主要用于对数据按时间顺序进行整理,并加密成账本,使其不可被篡改和伪造,同时可进行数据的验证、存储和更新。当计算机设备为区块链节点时,由于区块链的不可被篡改特性与防伪造特性,可以使得本申请中的数据(如检测对象的医疗就诊数据等等)具备真实性与安全性,从而可以使得基于这些数据进行相关数据处理后,得到的结果更为可靠。
可以理解的是,本申请提出的数据处理方法可以应用于各种领域中的异常对象检测群体场景中,而应用于不同领域时,检测对象在业务中的业务属性特征也会相应不同。例如,本申请提出的数据处理方法可以应用于上述医疗领域(具体可以应用于医保领域)中,通过本申请的方式可以高效且准确地将检测对象集合进行聚类划分,从而可以高效且准确地识别出在医疗领域中发生异常行为的异常对象群体,而应用于医疗领域时,检测对象在业务中的业务属性特征可以是指检测对象在医疗业务中的医疗就诊数据;又如,本申请提出的数据处理方法可以应用于金融领域中,通过本申请的方式可以高效且准确地将检测对象集合进行聚类划分,从而可以高效且准确的识别出在金融领域中发生异常行为的异常对象群体,而应用于金融领域时,检测对象在业务中的业务属性特征可以是指检测对象在金融相关业务(如金融产品的购买业务)中的业务数据;又如,本申请提出的数据处理方法还可以应用于游戏领域中,检测对象在业务中的业务属性特征可以是指检测对象在游戏业务中的游戏数据。当然,对于上述医疗领域、金融领域、游戏领域均是举例说明,本申请实施例所提供的方法所应用的领域,并不限制于此,例如还可以应用于短视频领域、教育领域等等。而为便于理解,下文均以本申请提供的方法应用于医疗领域,以检测医疗领域中的异常对象群体为例进行叙述,其他应用领域中的异常对象群体检测的场景可以参考下文的描述。
针对目前医疗领域中,需耗费极大的人力物力来发现挖掘发生异常行为的异常对象群体的问题,本申请实施例提供一种基于图自监督学习的方式来对检测对象集合进行聚类划分的方法,可以帮助相关检查人员(如医疗机构、或执法组织)通过聚类划分的结果,高效地识别医疗领域中的异常对象群体。具体实现过程可以参见下文。
需要说明的是,在本申请的具体实施方式中,涉及到用户信息、用户数据(如上述所提及的医疗就诊数据、游戏数据等等)等相关的数据,均是需要经过用户手动授权许可(即经过用户同意)才进行获取得到的。也就是说,当本申请以上实施例运用到具体产品或技术中时,本申请实施例所提供的方法与相关功能是在获得用户许可或者同意下所运行的(可以由用户主动开启本申请实施例所提供的功能),且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
进一步地,请参见图2,图2是本申请实施例提供的一种数据处理方法的方法流程示意图。本申请实施例所提供的方法可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。该方法可以由终端设备(例如,上述图1所示的终端设备集群中的任一终端设备,如终端设备100a)执行,也可以由服务器(如上述图1所对应实施例中的业务服务器1000,或上述图1所对应实施例中的数据处理服务器10000)所执行,还可以由终端设备和服务器共同执行。为便于理解,本实施例以该方法由服务器执行为例进行说明。如图2所示,该数据处理方法至少可以包括以下步骤S101-步骤S107:
步骤S101,基于检测对象集合中,每个检测对象分别在业务中的业务属性特征,构建以每个检测对象为对象节点的对象关系图。
本申请中,业务可以是指某个应用领域中服务于用户的功能业务,例如,业务可以是指金融领域中的相关金融业务(如金融产品购买业务、关联产品展示业务等等);也可以是指医疗领域中的医疗业务(如医疗就诊业务、医保报销业务等等);还可以是短视频领域中的视频推荐业务等等。以上应用领域以及应用领域中的业务仅是举例描述,对于本申请中的应用领域以及应用领域中的业务,当然并不限制于此,例如,应用领域还可以为保险领域、多媒体领域,而业务可以是指保险领域中的保险业务、多媒体领域中的广告投放业务等等,这里将不再一一进行举例描述。下文将以应用领域为医疗领域(具体可以为医保领域),业务为医疗业务(具体可为医保报销业务)为例进行叙述说明。
应当理解,在医疗保险领域中,存在有不同的对象组织起来产生弄虚作假、异常消费、虚假报销等异常行为,而为了减少这些异常行为的发生频率,需要对这些发生异常行为的异常对象群体进行排查挖掘。而这里的检测对象集合,可以是指由检测对象所组成的集合,每个检测对象可以是指待排查的对象,换言之,每个检测对象是指需要对其进行检测,以确定其是否为发生异常行为的对象。对于每个检测对象,可以获取到其在业务中的业务属性特征,其中,这里的业务属性特征可以包含该检测对象的对象属性特征、以及该检测对象在业务中所产生的业务行为特征,对象属性特征可以是指用于描述对象属性的特征(如描述对象年龄、居住地域等属性的特征),业务行为特征可以是指该对象在业务中所产生的相关行为特征。例如,对于医疗业务而言,业务行为特征可以是指对象在医疗业务中所产生的就诊行为特征,对象在医疗业务中,于不同时间在某个医疗机构进行诊治,该业务行为特征即可包含有检测对象的就诊时间、就诊原因、诊断的疾病类型、治疗方案等等,总体来说,对于医疗业务而言,检测对象在医疗业务中的业务属性特征,可以是指检测对象的医疗就诊数据(包含有检测对象的年龄、居住地域、就诊时间、就诊原因、诊断的疾病类型、治疗方案等等信息)。
本申请中,服务器可以获取到每个检测对象在业务中的业务属性特征,基于这些业务属性特征,服务器可以按照预设的关系检验规则,来确定不同检测对象之间是否存在关联关系,由此可以基于检测对象之间的关联关系,构建得到检测对象集合的对象关系图。
以检测对象集合包含检测对象Si,每个检测对象分别在业务中的业务属性特征,包含检测对象Si在业务中的业务属性特征Ti(i为正整数)为例,对于基于检测对象集合中,每个检测对象分别在业务中的业务属性特征,构建以每个检测对象为对象节点的对象关系图的具体实现方式可为:可以构建检测对象集合中,每个检测对象分别对应的对象节点,由此可以得到对象节点集合;随后,基于业务属性特征Ti,以及剩余检测对象在业务中的业务属性特征,可以在检测对象集合中确定检测对象Si对应的关联对象;其中,剩余检测对象是指检测对象集合中,除检测对象Si以外的检测对象;进一步地,可以将检测对象Si对应的对象节点,确定为目标对象节点,并将检测对象Si对应的关联对象所对应的对象节点,确定为关联对象节点;可以在目标对象节点与关联对象节点之间构建连接边,由此可以得到目标对象节点对应的关联边;而当确定出对象节点集合中,每个对象节点分别对应的关联边时,即可将包含对象节点集合以及每个对象节点分别对应的关联边的结构图,确定为该检测对象集合对应的对象关系图。
其中,需要说明的是,检测对象集合中所包含的检测对象的数量通常较多,对于检测对象集合中除检测对象Si以外的剩余检测对象,可能并不止一个,也就是说,剩余检测对象的数量可能为一个也可能为至少两个,而这里的基于剩余检测对象在业务中的业务属性特征来确定出检测对象Si对应的关联对象,实际上是基于所有剩余检测对象在业务中的业务属性特征,在所有的剩余检测对象中,确定检测对象Si对应的关联对象。具体的,以剩余检测对象的数量为M(M为正整数)个为例,对于基于业务属性特征Ti,以及剩余检测对象在业务中的业务属性特征,在检测对象集合中确定检测对象Si对应的关联对象的具体实现方式可为:可以将M个剩余检测对象中,每个剩余检测对象在业务中的业务属性特征,均确定为剩余业务属性特征;随后,可以确定业务属性特征Ti与每个剩余业务属性特征之间的特征相似度,由此可以得到M个特征相似度;进一步地,可以将M个特征相似度中大于相似度阈值的特征相似度,确定为目标特征相似度,并将目标特征相似度对应的剩余业务属性特征确定为相似业务属性特征;随后,即可将检测对象集合中的相似业务属性特征所对应的剩余检测对象,确定为检测对象Si对应的关联对象。
其中,以M个剩余业务属性特征中包含剩余业务属性特征Tj(j为正整数),M个特征相似度包含剩余业务属性特征Tj与业务属性特征Ti之间的特征相似度,每个业务属性特征包含业务参与时刻为例,对于确定业务属性特征Ti与每个剩余业务属性特征之间的特征相似度,得到M个特征相似度的具体实现方式可为:可以将业务属性特征Ti所包含的业务参与时刻,确定为第一参与时刻,并将剩余业务属性特征Tj所包含的业务参与时刻,确定为第二参与时刻;可以确定第一参与时刻与第二参与时刻之间的间隔时长;随后,可以获取时长映射表;其中,该时长映射表包含有配置时间区间集合与配置相似度集合之间的映射关系;且配置时间区间集合中的一个配置时长区间,与配置相似度集合中的一个配置相似度之间具有映射关系;进一步地,可以将配置时长区间集合中,间隔时长所属的配置时长区间确定为目标时长区间,并将配置相似度集合中,与目标时长区间之间具有映射关系的配置相似度,确定为剩余业务属性特征Tj与业务属性特征Ti之间的特征相似度。
可以理解的是,本申请实施例中,在构建检测对象集合对应的对象关系图时,可以先构建每个检测对象对应的对象节点,随后可以将任意两个检测对象对应的业务属性特征进行比较,以计算两个业务属性特征之间的特征相似度,若两个业务属性特征之间的特征相似度低于相似度阈值,那么即可确定这两个检测对象之间在该业务上,是存在关联关系的,由此即可在两个检测对象对应的两个对象节点之间,构建一个连接边,进而可以得到包含不同对象节点以及连接边的对象关系图。也就是说,该对象关系图可以用于表征该检测对象集合中,任意两个检测对象之间的关联关系(若两个对象节点之间存在连接边,那么即可确定这两个对象节点对应的检测对象之间存在关联关系)。本申请中的检测对象之间的关联关系可以基于业务的不同而不同,例如,在医疗业务中,本申请可以将检测对象之间的集中就诊关系确定为该关联关系,也就是说,通过检测对象的业务属性特征,可以确定检测对象之间是否存在集中就诊关系,若存在集中就诊关系即存在关联关系。
其中,对于医疗业务中,判断检测对象是否存在集中就诊关系的方法,可以通过检测对象的就诊时间(可以理解为参与医疗业务的时间,也就是业务参与时间,参与业务的时间可精确到一个具体的时刻,所以该业务参与时间也可称为业务参与时刻)来进行判断。例如,本申请可以提前预设一个时长阈值(时长阈值可基于实际的业务需求来进行确定),若两个检测对象的就诊时间(就诊时刻)之间的间隔,小于该时长阈值,即可说明这两个检测对象存在一个共同就诊行为,进而可以说明这两个检测对象之间存在集中就诊关系。可选的,本申请也可以预先配置一个不同时长区间(可称之为配置时长区间)与相似度(可称之为配置相似度)之间的映射表,随后可以确定两个检测对象的就诊时刻的间隔时长,是落于哪一个时长区间内,进而基于间隔时长所在的时长区间,确定出这两个检测对象之间的特征相似度,在这两个检测对象之间的特征相似度小于相似度阈值时,即可确定这两个检测对象之间存在集中就诊关系。
为便于理解,以下将结合图3,对构建检测对象集合的对象关系图的具体方式进行说明。其中,图3是本申请实施例提供的一种构建对象关系图的示意图。如图3所示,以检测对象集合为检测对象集合300为例,该检测对象集合300中包含检测对象3001、检测对象3002、检测对象3003…检测对象300n,假设业务属性特征Ti为检测对象3001在医疗业务中的医疗就诊数据,业务属性特征Tj为检测对象3002在医疗业务中的医疗就诊数据,可以在检测对象3001的医疗就诊数据中,获取到检测对象3001的就诊时刻(检测对象3001参与医疗业务的业务参与时刻),也可以在检测对象3002的医疗就诊数据中,获取到检测对象3002的就诊时刻(检测对象3002参与医疗业务的业务参与时刻)。
这里假设检测对象3001的就诊时刻为时刻a1,检测对象3002的就诊时刻为时刻a2,假设时刻a2与时刻a1之间的就诊间隔时长为2分钟,基于这个就诊间隔时长(2分钟),即可确定检测对象3001与检测对象3002之间是否存在集中就诊关系。具体的,本申请实施例可以预先配置一个时长映射表,用于配置不同的时长区间与相似度之间的映射关系。例如,本申请所配置的时长映射表可以如表1所示:
表1
配置时长区间(min) | 配置相似度 |
[0,1] | 90% |
(1,2] | 80% |
(2,3] | 70% |
(3,4] | 60% |
(4,5] | 50% |
>5 | 0 |
其中,如表1所示的配置时长区间可以是指预先配置的时长区间(一个时长区间可以是指一个时长范围),具体可以包括时长区间[0,1]、时长区间(1,2]、时长区间(2,3]、时长区间(3,4]、时长区间(4,5]、时长区间>5,对于每个时长区间,可以为其配置一个相似度相对应(配置时长区间对应的配置相似度,也就是与该配置时长区间之间存在映射关系),例如,时长区间[0,1]对应的配置近似度为90%,时长区间(1,2]对应的配置相似度为80%,…,时长区间>5所对应的配置近似度为0。
进一步地,可以在这些配置时长区间中,查找到上述就诊间隔时长2分钟所处的配置时长区间为(1,2],那么即可确定该检测对象3001与检测对象3002之间的特征相似度为80%(业务属性特征Ti与剩余业务属性特征Tj之间的特征相似度为80%)。假设相似度阈值为50%,由于该特征相似度80%已经大于该相似度阈值,那么可以即可将检测对象3002确定为检测对象3001的关联对象(同理,对于检测对象3002而言,检测对象3001也是检测对象3002的关联对象),可以确定检测对象3001与检测对象3002之间存在关联关系(集中就诊关系)。同理,采用确定检测对象3001与检测对象3002之间的关联关系的方式,可以确定出该检测对象集合300中,任意两个检测对象之间的关联关系,由此可以得到该检测对象集合300中,不同检测对象之间的关联关系。随后即可基于不同检测对象之间的关联关系,构建对象关系图。例如,可以先创建每个检测对象分别对应的对象节点(假设检测对象3001对应的对象节点为对象节点3001、检测对象3002对应的对象节点为对象节点3002、…、检测对象300n对应的对象节点为对象节点300n),随后,可以将具有关联关系的两个检测对象所对应的对象节点,进行连接,由此即可得到如图3所示的对象关系图300A,在该对象关系图300A中,由于检测对象3001与检测对象3002之间存在关联关系,那么对象节点3001与对象节点3002之间,也会存在一条连接边(对象节点3001与对象节点3002之间是连接的)。
可选的,在确定两个检测对象之间是否存在关联关系时,还可以采用直接比较业务参与时刻的方式来确定,即若两个业务参与时刻之间的间隔时长小于时长阈值(如5分钟,10分钟等等,该时长阈值可预先进行配置,具体可以通过人工预先配置),那么即可直接确定这两个检测对象之间存在关联关系,无需引入特征相似度。
步骤S102,调用图自编解码器,在图自编解码器中,基于对象关系图中对象节点之间的连接关系,确定每个业务属性特征分别对应的聚合表示特征,以及对象关系图对应的重构关系图。
本申请中,在确定出对象关系图后,可以调用图自编解码器(例如,可以将该对象关系图与每个检测对象的业务属性特征,一并输入至图自编解码器中),通过该图自编解码器可以输出每个业务属性特征分别对应的聚合表示特征,以及对象关系图对应的重构关系图。具体的,这里的图自编解码器可以是指包含有图编码器与图解码器的模型,对于图编码器与图解码器均可以是指某个图神经网络。这里的图神经网络可以是指利用深度神经网络(如,卷积网络、循环神经网络、自编码器等)来处理图结构数据、学习节点表示特征、图表示等信息的神经网络,常见的图神经网络可以包含有图卷积网络、图注意力网络等等。
应当理解,在图自编码器中的图编码器中,可以基于对象关系图中的连接关系,将每个业务属性特征进行编码处理,由此可以得到每个业务属性特征分别对应的聚合表示特征(编码得到的隐变量)。具体的,对于某个检测对象(假设为检测对象A)的业务属性特征而言,在对其进行编码时,可以获取到该检测对象在对象关系图中的对象节点(假设为对象节点A),并获取到与该对象节点A具有连接关系的对象节点,可以将与该对象节点A具有连接关系的对象节点,作为该对象节点A的邻接节点,随后,图编码器可以向该对象节点A对应的业务属性特征(也就是检测对象A的业务属性特征),传递并聚合所有邻接节点对应的业务属性特征,由此即可聚合得到一个表示特征,该聚合得到的表示特征即可作为该检测对象A的业务属性特征所对应的聚合表示特征(也就是对象节点A的通过编码聚合后的节点表示特征)。同理可以得到每一个对象节点对应的节点表示特征,即可以得到每一个业务属性特征分别对应的聚合表示特征。
进一步地,对于图编码器所得到的每个聚合表示特征,在图解码器中,可以对其进行解码重构,由此可以得到重构出对象节点之间的新的连接关系(可称之为图自编解码器所输出的预测连接关系),通过重构得到的不同对象节点之间的新的连接关系,可以得到一个新的关系图,该关系图即可称之为重构关系图。对于在图自编解码器中,基于对象关系图中对象节点之间的连接关系,确定每个业务属性特征分别对应的聚合表示特征,以及对象关系图对应的重构关系图的具体实现方式,可以参见后续实施例中描述。
步骤S103,将每个聚合表示特征进行特征聚类处理,得到检测对象集合对应的类簇分布结果。
本申请中,当通过图自编解码器确定出每个业务属性特征对应的聚合表示特征后,对于每个聚合表示特征而言,均包含有具有关联关系的其他检测对象的相关特征信息,那么可以通过各个聚合表示特征来将检测对象集合进行聚类划分。具体的,可以将各个聚合表示特征进行特征聚类处理,由此可以得到一个类簇分布结果。其中,本申请中,可以采用某种聚类算法来进行聚类处理,聚类算法是数据挖掘中常用且重要的数据分析方法,其本质是通过样本表征空间下的距离度量将相似的样本或模式聚合在一起,起到分类的效果,聚类算法的结果可以用于广泛的下游数据应用业务之中,可以大大方便生产与生活。典型的聚类算法模式,是将待聚类的样本收集起来,基于某种确定的度量方式,将距离度量最为接近的样本归为一类(如K-均值聚类算法)。常见的具有代表性的聚类算法包含有K-means聚类(K均值聚类)、流形学习、层次聚类、密度聚类、协方差聚类等算法。本申请可以采用任一种聚类算法来对数据(如聚合表示特征)进行聚类处理,而为便于理解,下文将以基于K-means聚类算法来进行聚类处理为例进行叙述。应当理解,K-means算法是一种经典的聚类算法,其首先需要使用者设定一个K值,算法就会将样本聚类到K类。首先算法会先初始化K个中心,而后重复两个步骤直到中心不再变化。具体的两个步骤可包含步骤一,计算每个样本到各个中心的距离,将样本分配到距离最近的中心所指示的那一类;步骤二,将中心变更为这一类样本的(每个维度的平均值)中心点。两个步骤往复,直至满足收敛条件。
那么对于本申请实施例而言,在图自编解码器输出各个聚合表示特征后,可以采用K-means聚类算法的聚类原理,将各个聚合表示特征进行聚类处理,具体步骤可以包括步骤1:随机选取K个聚合表示特征作为各个类簇的质心向量(也就是,将K个聚合表示特征作为类簇的中心);2:计算每个聚合表示特征,分别与K个质心向量之间的距离(向量距离,如欧式距离),由此可以将每个聚合表示特征划分至距离其最近的一个类簇(例如,对于某个聚合表示特征而言,可以计算该聚合表示特征分别与K个质心向量之间的距离,由此可以在K个距离中确定出一个最小距离,而该最小距离所对应的质心向量,可以确定为距离该聚合表示特征最近的一个质心向量,那么可以将该聚合表示特征划分至该最近的质心向量所在的类簇中);3:将各个聚合表示特征划分至不同的类簇后,对于K个类簇,可以基于所包含的聚合表示特征,重新计算出每个类簇分别对应的新的质心向量(例如,可以将类簇内所包含的聚合表示特征求取平均值,该平均值即可作为该类簇的新的质心向量);4:重复上述步骤2与步骤3,直至满足收敛条件(如达到预设的迭代次数),最后输出各个聚合表示特征最终所在的类簇,以及每个类簇最终的质心向量。
基于此,可以确定基于K-means算法将每个聚合表示特征进行特征聚类处理后,可以得到一个类簇分布结果,且该类簇分布结果中包含有多个(多个是指两个及两个以上)类簇(这里可将类簇称为特征类簇),每个特征类簇中包含有一个或多个聚合表示特征,且一个特征类簇中所包含的聚合表示特征是具备相似性的。
步骤S104,基于类簇分布结果、重构关系图以及对象关系图,对图自编解码器进行优化,得到优化图自编解码器。
本申请中,为了提升上述聚类效果,使得检测对象集合的类簇划分结果更为准确,本申请实施例可以根据类簇分布结果对图自编解码器进行训练,使得图自编解码器所输出的聚合表示特征能够与聚类任务进行强相关(即图自编解码器所输出的聚合表示特征,是与后续的聚类任务具备较高关联性的),由此来提升图自编解码器所输出的聚合表示特征的有效性。同时,可以理解的是,对于上述图解码器所输出的重构关系图,是图解码器基于图编码器所编码得到的聚合表示特征所确定的,那么通过该重构关系图即可反映出图编码器所编码得到的聚合表示特征的准确情况,例如,若该重构关系图所表征的对象节点之间的连接关系与该对象关系图所表征的连接关系之间的误差较小,即可说明基于图编码器输出的聚合表示特征,可以确定出一个接近真实连接关系的关系图,进而可说明图编码器输出的聚合表示特征已较为准确;相反,若该重构关系图所表征的对象节点之间的连接关系,与对象关系图所表征的连接关系之间的误差较大,即可说明图编码器输出的聚合表示特征还不具备较高的准确性,此时需要基于误差值对图自编解码器进行训练,直至图自编解码器能够输出准确的有效的聚合表示特征。也就是说,本申请实施例中,可以基于图解码器所输出的重构关系图以及真实的对象关系图,来对图自编解码器进行训练。那么基于此,本申请可以基于重构关系图、对象关系图以及聚类得到的类簇分布结果,共同对图自编解码器进行训练。通过重构关系图与对象关系图的训练,可以用于训练对象节点之间的连接关系,使得重构关系图所反映的连接关系能够更接近于对象关系图中得到连接关系;而通过类簇分布结果的训练,可以用于训练聚合表示特征与各个类簇的质心之间的距离。那么通过重构关系图与类簇分布结果对图自编解码器进行联合优化的方式,可以使得优化后的图自编解码器所输出的聚合表示特征,能够更为准确且与聚类任务是强相关的。换言之,对于优化图自编解码器所输出的聚合表示特征(称之为优化聚合表示特征)是具备有效性与准确性的,且基于优化聚合表示特征所得到的类簇分布结果(称之为优化类簇分布结果)具备更高的准确性,即聚类效果更好。对于基于类簇分布结果、重构关系图以及对象关系图,对图自编解码器进行优化,得到优化图自编解码器的具体实现方式,可以参见后续图5所对应实施例中的描述。
步骤S105,在优化图自编解码器中,基于对象关系图中对象节点之间的连接关系,输出每个业务属性特征分别对应的优化聚合表示特征。
本申请中,进一步地,当训练得到优化图自编解码器后,即可调用该优化图自编解码器,通过该优化图自编解码器输出每个业务属性特征分别对应的优化聚合表示特征。具体的,可以将对象关系图与每个业务属性特征输入至优化图自编解码器,在优化图自编解码器中,可以基于对象关系图中对象节点之间的连接关系,确定每个业务属性特征分别对应的优化聚合表示特征。
步骤S106,将每个优化聚合表示特征进行特征聚类处理,得到检测对象集合对应的优化类簇分布结果。
本申请中,在得到每个业务属性特征分别对应的优化聚合表示特征后,即可基于该优化聚合表示特征来进行特征聚类处理,由此可以得到新的类簇分布结果(称为优化类簇分布结果),基于该优化类簇分布结果,可以确定出该检测对象集合中的异常对象群体。其中,这里同样可以采用某种聚类算法来对每个优化聚合表示特征进行特征聚类处理,具体可以优选与上述步骤S103中相同的聚类算法(如K-means聚类算法)来进行特征聚类处理。
步骤S107,基于优化类簇分布结果识别检测对象集合中的异常对象群体。
本申请中,以优化类簇分布结果包含至少两个优化特征类簇,且至少两个优化特征类簇中的每个优化特征类簇均包含一个或多个优化聚合表示特征、至少两个优化特征类簇中包含优化特征类簇Kc(c为正整数)为例,对于基于优化类簇分布结果识别检测对象集合中的异常对象群体的具体方式可为:可以识别优化特征类簇Kc中所包含的异常对象,随后可以将优化特征类簇Kc中所包含的异常对象,所组成的集合确定为优化特征类簇Kc对应的类簇异常子群体;采用同样的原理,可以确定出每个优化特征类簇分别对应的类簇异常子群体,而当确定出每个优化特征类簇分别对应的类簇异常子群体时,可以将每个优化特征类簇分别对应的类簇异常子群体,均确定为检测对象集合中的异常对象群体。
应当理解的是,当通过优化聚合表示特征将检测对象集合进行聚类划分得到优化类簇分布结果后,由于优化类簇分布结果中所包含的每个优化特征类簇中,均为优化聚合表示特征相似的检测对象,换言之,被划分至统一优化特征类簇中的检测对象,存在关联的可能性非常大,同一个优化特征类簇中的各个异常对象(发生了异常行为的对象),即可理解为是一个发生了异常行为的团体(称之为类簇异常子群体),各个优化特征类簇中的类簇异常子群体,均可以认为是该检测对象集合中的异常对象群体。需要说明的是,本申请中,服务器在得到优化类簇分布结果后,可以直接输出该优化类簇分布结果作为人工识别异常对象群体的参考,例如,相关人员(如异常对象群体排查人员)可以基于该优化类簇分布结果中各个优化特征类簇所反映的检测对象之间的关联关系,来高效准确地识别出检测对象集合中的异常对象群体;当然,在得到优化类簇分布结果后,服务器还可以先识别出各个优化特征类簇中的异常对象,得到各个优化特征类簇对应的类簇异常子群体后,再将该优化类簇分布结果以及各个优化特征类簇对应的类簇异常子群体一并输出,服务器所识别出的各个优化特征类簇对应的类簇异常子群体,也可以作为人工识别异常对象群体的参考。
其中,以优化特征类簇Kc中包含异常标签对象(异常标签对象是指在业务中,存在异常标签行为的对象)为例,对于识别优化特征类簇Kc中所包含的异常对象的具体方式可为:可以将优化特征类簇Kc所包含的一个或多个优化聚合表示特征中,异常标签对象对应的优化聚合表示特征,确定为目标表示特征,并将优化特征类簇Kc所包含的一个或多个优化聚合表示特征中,除目标表示特征以外的优化聚合表示特征,确定为目标表示特征对应的候选异常表示特征;随后,可以将候选异常表示特征对应的检测对象,确定为候选异常对象;可以获取候选异常对象在业务中的业务行为数据,可以确定业务行为数据与异常标签行为之间的行为关联度;在行为关联度大于关联度阈值时,即可将候选异常对象确定为异常标签对象对应的异常关联对象,将异常标签对象与异常关联对象,均确定为优化特征类簇Kc中所包含的异常对象。
应当理解,在医保领域中,若多个异常对象组成一个团体以执行某个异常行为(如构造虚假票据、制造虚假的治疗方案、虚假买卖药品等等异常行为)时,通常这些异常对象会分别执行不同的异常步骤,最终这些异常步骤可以串联起来以实现该异常行为,那么对于团体中的异常对象来说,这些异常对象的行为数据会存在一定的关联度。基于此,在识别优化特征类簇Kc中所包含的异常对象时,若优先确定了该优化特征类簇Kc中,某个检测对象在业务中发生了某个异常标签行为(异常标签行为可以是指某个被预先设定为异常的行为),那么即可将该检测对象确定为异常标签对象,随后,即可在该优化特征类簇Kc所包含的其他检测对象中,查找与该异常标签对象存在行为关联的检测对象(业务行为数据与该异常标签行为之间的行为关联度,大于关联度阈值的检测对象,其中,关联度阈值可以为预先配置的值),这些检测对象即可确定为该异常标签对象的异常关联对象,可将之与该异常标签对象一起确定为一个异常群体(类簇异常子群体)。
需要说明的是,本申请实施例所提供的方法可以用于异常对象群体的检测场景中,通过本申请实施例提供的方法可以准确高效地将检测对象集合进行聚类划分,将特征相似的检测对象划分到一起,从而可以辅助相关人员高效准确地识别出检测对象集合中的异常对象群体。而本申请实施例中,对于基于聚类结果(如优化类簇分布结果),识别检测对象集合中的异常对象群体的方式,是一种示例性的描述,对于基于聚类结果识别检测对象集合中的异常对象群体的具体方式,可以基于实际业务需求来动态确定,本申请对此并不进行限制。
在本申请实施例中,可以基于检测对象集合中不同检测对象的业务属性特征,构建对象关系图,而基于该对象关系图可以对图自编解码器进行自监督学习,使得图自编解码器能够基于对象关系图中对象节点之间的连接关系,有效且准确的确定出每个对象节点分别对应的优化聚合表示特征,随后即可基于该有效且准确的优化聚合表示特征将检测对象集合进行类簇划分,所得到的优化类簇分布结果能够在识别检测对象集合中的异常对象群体的任务中,作为参考辅助,例如,基于某个已检测出的异常对象,可以在其所属的类簇中排查与之存在关联的关联对象,从而高效且准确的在对象数量较少的类簇中,找到某个异常对象的关联对象,无需在海量对象中逐一排查即可高效的排查得到异常对象群体,由此可以很好地减少人力成本与时间成本,提升识别效率。
进一步地,请参见图4,图4是本申请实施例提供的一种通过图自编解码器,输出聚合表示特征以及重构关系图的流程示意图。其中,该流程可以对应于上述图2所对应实施例中,对于在图自编解码器中,基于对象关系图中对象节点之间的连接关系,确定每个业务属性特征分别对应的聚合表示特征,以及对象关系图的流程。如图4所示,该流程可以至少包括以下步骤S401-步骤S402:
步骤S401,调用图自编解码器中的图编码器,在图编码器中,通过对象关系图中对象节点之间的连接关系,对每个业务属性特征分别进行编码处理,得到每个业务属性特征分别对应的聚合表示特征。
具体的,基于上述可知,图自编解码器可以包含图编码器与图解码器,而在得到对象关系图后,可以先调用图自编解码器中的图编码器,具体可以将该对象关系图与每个业务属性特征,先输入至图编码器中,通过图编码器,可以将图的结构信息以及对象节点对应的业务属性特征编码为聚合表示特征,具体的,图编码器可以通过传递和聚合对象关系图中,邻接节点对应的相关特征信息,来得到某个对象节点的聚合表示特征,从而使得各个对象节点对应的聚合表示特征同时编码了对象关系图的结构信息(即连接关系)和邻接节点的相关特征信息。
以检测对象集合包含检测对象Si,每个检测对象分别在业务中的业务属性特征,包含检测对象Si在业务中的业务属性特征Ti(i为正整数)为例,对于在图编码器中,通过对象关系图中对象节点之间的连接关系,对每个业务属性特征分别进行编码处理,得到每个业务属性特征分别对应的聚合表示特征的具体实现方式可为:在图编码器中,可以将检测对象Si对应的对象节点确定为目标对象节点,并将对象关系图中与目标对象节点之间存在连接关系的对象节点,确定为目标对象节点的邻接节点;随后,可以将邻接节点对应的邻接业务属性特征,与业务属性特征Ti进行编码融合处理,由此即可得到业务属性特征Ti对应的聚合表示特征;其中,邻接节点对应的邻接业务属性特征,是指邻接节点对应的检测对象在业务中的业务属性特征(也就是说,对于某个检测对象而言,创建其对应的对象节点后,该检测对象的业务属性特征,也可以理解为该对象节点对应的业务属性特征)。应当理解,对于某个对象节点对应的业务属性特征而言,可以通过传递并聚合其邻接节点的相关特征信息,来得到该对象节点对应的聚合表示特征。
其中,对于将邻接节点对应的邻接业务属性特征,与业务属性特征Ti进行编码融合处理,得到业务属性特征Ti对应的聚合表示特征的具体实现方式可为:可以获取对象关系图对应的关系邻接矩阵;其中,关系邻接矩阵用于表征对象关系图中对象节点之间的连接关系;随后,可以将关系邻接矩阵进行归一化处理,由此可以得到关系邻接矩阵对应的归一化邻接矩阵;进一步地,可以获取图编码器中的编码参数矩阵,通过图编码器的逻辑运算函数,可以将关系邻接矩阵、业务属性特征Ti、邻接业务属性特征以及编码参数矩阵进行运算处理,最后即可得到业务属性特征Ti对应的聚合表示特征。
应当理解,对象关系图对应的关系邻接矩阵,是基于对象关系图中对象节点之间的连接关系所确定的,具体的,若对象关系图中,两个对象节点之间存在连接关系,则可以将对象节点共同对应的关系数据设置为有效值(如数值1),而若对象关系图中,两个对象节点之间不存在连接关系,则可以将对象节点共同对应的关系数据设置为无效值(如数值0),由此即可得到包含有效值与无效值的关系邻接矩阵(需要说明的是,关系数据是基于两个对象节点共同对应所产生的,本申请可以将对象节点与对象节点自身所共同对应的关系数据,设置为有效值)。为便于理解,以对象节点集合包含对象节点1、对象节点2以及对象节点3为例,假设对象节点1与对象节点2之间存在连接关系、对象节点1与对象节点3之间不存在连接关系、对象节点2与对象节点3之间存在连接关系,那么基于对象节点1、对象节点2以及对象节点3之间的连接关系,可以得到一个用于表征对象节点之间的连接关系的关系邻接矩阵A1,关系邻接矩阵A1如下列矩阵所示:
其中,对于该关系邻接矩阵A1中关系数据11可用于表征对象节点1与对象节点1之间的连接关系(默认为存在连接关系)、关系数据22可用于表征对象节点2与对象节点2之间的连接关系(默认为存在连接关系)、关系数据33可用于表征对象节点3与对象节点3之间的连接关系(默认为存在连接关系),该关系数据11、关系数据22、关系数33均可为有效值1;关系数据12与关系数据21均可用于表征对象节点1与对象节点2之间的连接关系,该关系数据12与关系数据21均可为有效值1;关系数据13与关系数据31均可用于表征对象节点1与对象节点3之间的连接关系,该关系数据13与关系数据31均可为无效值0;关系数据23与关系数据32均可用于表征对象节点2与对象节点3之间的连接关系,关系数据23与关系数据32均可为有效值1。基于此,可以得到用于表征对象节点之间的连接关系的关系邻接矩阵A2,关系邻接矩阵A2如下列矩阵所示:
为便于理解,请参见公式(1),公式(1)为图编码器对业务属性特征进行编码处理,得到聚合表示特征的具体实现方式,如公式(1)所示:
H(l)=ReLu(A′H(l-1)W(l)) 公式(1)
其中,如公式(1)所示的A可用于表征对象关系图对应的关系邻接矩阵;A′可用于表征将关系邻接矩阵进行归一化处理后所得到的矩阵(即归一化邻接矩阵);H(l)可用于表征图编码器中,第l层编码层得到的聚合表示特征;H(l-1)可表征图编码器中,第l层的上一层编码器所得到的聚合表示特征;W(l)可用于表征图编码器中,第l层的参数。ReLu()表示激活函数(即逻辑运算函数)。应当理解的是,图编码器可以由多层编码器层所组成(例如,图编码器为图神经网络时,可以由多层神经网络层所组成,每层神经网络可理解为一层编码层),那么对于业务属性特征,可以逐层进行编码(每一层编码的输入,是上一层的输出,对于第一层编码层而言,输入则为最初的业务属性特征),最后一层所得到的聚合表示特征,即可理解为该图编码器所输出的聚合表示特征。
总的来说,对于图编码器输出聚合表示特征的方式可如公式(2)所示:
H=fe(A,X) 公式(2)
其中,如公式(2)所示的A可用于表征对象关系图对应的关系邻接矩阵;X可用于表征各个业务属性特征所组成的特征向量(包含有每个业务属性特征);H可用于表征图编码器所输出的由各个聚合表示特征所组成的特征向量(包含有每个业务属性特征分别对应的聚合表示特征);fe可用于表征图编码器。
步骤S402,调用图自编解码器中的图解码器,在图解码器中,基于每个业务属性特征分别对应的聚合表示特征,对对象关系图中对象节点之间的连接关系进行重构,得到重构关系图。
具体的,在图解码器中,可以将图编码器编码得到的聚合表示特征,解码为图的结构信息(即,解码得到一个新的关系图,该新的关系图可以称为重构关系图)。基于上述可知,对象关系图由对象节点集合(对象节点集合中的一个对象节点对应检测对象集合中的一个检测对象),以及对象节点集合中每个对象节点分别对应的关联边(一个关联边也就是两个对象节点之间的连接边)所组成,那么对于在图解码器中,基于每个业务属性特征分别对应的聚合表示特征,对对象关系图中对象节点之间的连接关系进行重构,得到重构关系图的具体实现方式可为:可以获取每个业务属性特征分别对应的聚合表示特征所共同组成的表示特征向量,可以将表示特征向量进行转置变换处理,由此可以得到表示特征向量对应的转置变换向量;随后,可以将表示特征向量与转置变换向量进行点积运算处理,由此可以得到重构邻接矩阵;其中,重构邻接矩阵包含Q个(Q为正整数)重构连接概率,Q个重构连接概率中的一个重构连接概率,是指对象节点集合中的两个对象节点之间具有连接关系的预测概率;进一步地,可以将对象关系图中,每个对象节点分别对应的关联边进行删除,可以将删除后的对象关系图确定为中间对象关系图;可以将Q个重构连接概率中,大于连接概率阈值(通常为预设的值)的重构连接概率,确定为目标重构连接概率,随后可以在中间对象关系图中,在目标重构连接概率对应的两个对象节点之间构建连接边,由此即可得到重构关系图(也就是说,重构关系图中对象节点之间的连接关系,与对象关系图中对象节点之间的连接关系可能是不同的)。
为便于理解,请参见公式(3),公式(3)为图解码器对聚合表示特征进行解码,得到重构邻接矩阵的具体实现方式,如公式(3)所示:
其中,如公式(3)所示的H可以是指上述公式(2)所示的表示特征向量(由聚合表示特征所组成);HT可用于表征H的转置,即将H进行转置变换后所得到的转置变换向量;可用于表征计算得到的重构邻接矩阵。应当理解的是,在将两个向量进行点积运算时,对于一个向量中的每个数值(如对于表示特征向量H中的每个聚合表示特征),会与另一个向量中的所有数值(转置变换后的聚合表示特征)均进行内积运算,基于内积运算的结果,即可确定两个对象节点之间是否存在连接关系,该内即运算的结果即可理解为两个对象节点之间存在连接关系的预测概率值(连接预测概率,或称之为重构连接概率)。例如,若两个数值之间的内积结果越大,即可说明这两个对象节点之间存在连接关系的概率越大,基于此,即可将重构邻接矩阵中,重构连接概率大于连接概率阈值的重构连接概率,所对应的两个对象节点之间,构建一个连接边。
总的来说,对于图解码器解码得到重构邻接矩阵的方式可如公式(4)所示:
在本申请实施例中,在异常对象群体的识别任务中,引入图自编解码器,在图自编解码器中可以从输入数据中,获取部分信息作为标签,从而可以进行自监督学习得到包含有关联对象的特征的聚合特征,由此,在训练阶段,无需人工对数据进行提前标注,即可完成训练,能够在训练过程中,有效减少人工标注数据得到标签的时间,加快训练进程。
为便于理解上述训练优化图自编解码器的过程,请一并参见图5,图5是本申请实施例提供的一种对图自编解码器进行优化,得到优化图自编解码器的流程示意图。其中,该流程可以对应于上述图2所对应实施例中,对于基于类簇分布结果、重构关系图以及对象关系图,对图自编解码器进行优化,得到优化图自编解码器的流程。如图5所示,该流程可以至少包括以下步骤S501-步骤S504:
步骤S501,对类簇分布结果进行分布误差计算处理,得到类簇分布结果对应的类簇分布损失值。
具体的,可以预先配置用于训练聚类结果的损失函数,该损失函数可作为计算聚类结果误差的类簇损失函数,通过类簇损失函数可以对类簇分布结果进行分布误差计算处理,由此可以确定出类簇分布结果的类簇分布损失值。这里以类簇分布结果包含W(W为正整数)个特征类簇,W个特征类簇中的每个特征类簇均包含一个或多个聚合表示特征;每个业务属性特征分别对应的聚合表示特征包含聚合表示特征Uv(v为正整数)为例,对于确定类簇分布结果的类簇分布损失值的具体实现方式可为:可以获取每个特征类簇分别对应的类簇中心;随后,可以分别计算聚合表示特征Uv与每个类簇中心之间的类簇距离,而根据聚合表示特征Uv与每个类簇中心之间的类簇距离,可以确定聚合表示特征Uv对应的距离损失值;当确定出每个聚合表示特征分别对应的距离损失值时,即可将每个聚合表示特征分别对应的距离损失值进行运算处理,由此可以得到类簇分布损失值。
对于确定类簇分布损失值的具体方式可如公式(5)所示:
其中,如公式(5)所示的Hi可用于表征某个对象节点i所对应的聚合表示特征;可用于表征通过特征聚类后,类簇分布结果中,该聚合表示特征Hi所在的类簇(所在的特征类簇)的质心向量(即该特征类簇的中心,即类簇中心);/>可用于表征类簇分布结果中,某个未包含该聚合表示特征Hi的特征类簇的类簇中心;τ可用于表征一个超参数。如公式(5)所示的函数可用于表征类簇损失函数(该类簇损失函数具体为一个对比损失函数),而对于某个聚合表示特征而言(如聚合表示特征Uv),可以计算该聚合表示特征与每个类簇中心之间的类簇距离,由此即可代入至公式(5),由此即可得到该聚合表示特征对应的距离损失值,而将所有的聚合表示特征的距离值进行如公式(5)所示的运算处理(如相加运算后求取负值)后,即可得到最终的类簇分布损失值L2。
其中,需要说明的是,如公式(5)所示的类簇损失函数,是以所划分的特征类簇的数量为k为例,但在实际场景中,类簇分布结果中的特征类簇的数量可能不一定是定值,那么假设该特征类簇的数量的取值范围[1,…,K](特征类簇的数量的最大取值),此时可以将上述公式(5)所示的损失函数更改为如公式(6)所示的损失函数,如公式(6)所示:
其中,如公式(6)所示的K用于表征特征类簇的数量的最大取值。
步骤S502,获取重构关系图对应的重构邻接矩阵,以及对象关系图对应的关系邻接矩阵;关系邻接矩阵用于表征对象关系图中对象节点之间的连接关系,重构邻接矩阵用于表征重构关系图中对象节点之间的连接关系。
具体的,对象关系图对应的关系邻接矩阵,是基于对象关系图中对象节点之间的连接关系所确定的,具体的,若对象关系图中,两个对象节点之间存在连接关系,则可以将对象节点共同对应的关系数据设置为有效值(如数值1),而若对象关系图中,两个对象节点之间不存在连接关系,则可以将对象节点共同对应的关系数据设置为无效值(如数值0),由此即可得到包含有效值与无效值的关系邻接矩阵。上述关系邻接矩阵A2可以作为关系邻接矩阵的一种示例性矩阵。
步骤S503,对重构邻接矩阵以及关系邻接矩阵进行预测误差计算处理,得到重构关系图对应的连接预测损失值。
具体的,基于重构邻接矩阵以及关系邻接矩阵,可以进行预测误差计算处理(即计算重构邻接矩阵所表征的预测节点连接关系与关系邻接矩阵所表征的真实节点连接关系之间的误差),由此可以确定重构关系图所对应的连接预测损失值,对于对重构邻接矩阵以及关系邻接矩阵进行预测误差计算处理,得到重构关系图对应的连接预测损失值的具体方式可如公式(7)所示:
其中,如公式(7)所示的L1可用于表征连接预测损失值,Aij可用于表征关系邻接矩阵中,对象节点i与对象节点j之间的关系数据(即对象节点i与对象节点j之间是否存在连接关系,存在连接关系时,Aij可为1;否则可为0);可用于表征重构邻接矩阵中,对象节点i与对象节点j之间的连接预测概率(即上述重构连接概率);如公式(7)所示的函数可用于表征连接预测损失函数,将关系邻接矩阵与重构邻接矩阵中的各个数值代入其中,即可得到连接预测损失值。
步骤S504,根据类簇分布损失值与连接预测损失值,确定图自编解码器对应的总损失值,根据总损失值对图自编解码器进行优化,得到优化图自编解码器。
应当理解,在确定出类簇分布损失值与连接预测损失值后,即可基于类簇分布损失值与连接预测损失值,确定出图自编解码器对应的总损失值,其具体实现方式可如公式(8)所示:
L=L1+λL2 公式(8)
其中,如公式(8)所示的L1可用于表征上述连接预测损失值;L2可用于表征上述类簇分布损失值;λ可用于表征类簇分布损失值L2的权重系数,可以通过调节λ的大小来改变类簇分布损失值L2的重要性;L可用于表征总损失值。基于该总损失值即可对图自编解码器进行联合优化(优化更新图自编解码器中的计算参数),具体的,本申请实施例中,可以采用任一优化算法(如Adam优化算法)来对图自编解码器进行优化。也就是说,在确定出类簇分布损失值与连接预测损失值后,可以将类簇分布损失值与权重系数λ进行相乘运算处理,由此即可得到该类簇分布损失值的运算分布损失值(其中,若类簇分布损失值的重要程度较高,那么可以将权重系数λ设置为一个较大的数值,那么该运算分布损失值也会相应较大;而若类簇分布损失值的重要程度较低,那么可以将权重系数λ设置为一个较小的数值,那么该运算分布损失值也会相应较小。对于类簇分布损失值的重要程度可以由人工预先设定);随后,可以将该运算分布损失值与该连接预测损失值进行求和运算处理,即可得到用于训练调整图自编解码器的总损失值。
在本申请实施例中,在异常对象群体的识别任务中,引入图自编解码器,在图自编解码器中可以从输入数据中,获取部分信息作为标签,从而可以进行自监督学习得到包含有关联对象的特征的聚合特征,由此,在训练阶段,无需人工对数据进行提前标注,即可完成训练,能够在训练过程中,有效减少人工标注数据得到标签的时间,加快训练进程;同时,本申请可以基于每次的聚类结果(如类簇分布结果),与重构关系图一起对图自编解码器进行联合训练优化,由此不仅可以提升图自编解码器预测对象节点之间的连接关系的准确性,还可以使得图自编解码器输出与聚类任务强相关的聚合表示特征,由此可以优化聚类效果。
进一步地,请参见图6,图6是本申请实施例提供的一种系统架构图。如图6所示,该系统架构中可以至少包括关系图构建组件、图自编解码器、聚类模块、连接预测损失确定组件、聚类损失确定组件以及总损失确定组件。为便于理解,以下将对该系统架构中的各个组件所实现的功能进行阐述:
关系图构建组件,关系图构建组件可以用于基于检测对象集合中,每个检测对象分别对应的业务属性特征,构建出一个以检测对象为对象节点的对象关系图。
图自编解码器,图自编解码器用于基于对象关系图中,对象节点的连接关系,对各个业务属性特征进行编码处理得到每个业务属性特征分别对应的聚合表示特征,同时,图自编解码器还用于对聚合表示特征进行解码,由此将对象节点之间的连接关系进行重构,得到一个重构关系图。
聚类组件,聚类组件用于对图自编解码器所编码得到的聚合表示特征进行特征聚类处理。
重构损失确定组件,重构损失确定组件用于计算重构关系图与对象关系图之间的误差,以得到一个连接预测损失值。
聚类损失确定组件,聚类损失确定组件用于计算聚类结果(如类簇分布结果)的损失,以得到一个类簇分布损失值。
总损失确定组件,总损失确定组件用于基于上述连接预测损失值与类簇分布损失值,确定出一个总损失值,该总损失值可用于对图自编解码器进行训练优化,以得到一个优化图自编解码器,从而通过优化图自编解码器输出更为准确的聚合表示特征。
其中,对于各个组件的具体实现方式,可以参见上述图2-图5所对应实施例中的描述,这里将不再进行过于赘述。其带来的有益效果,也不再进行赘述。
进一步地,请参见图7,图7是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该数据处理装置可以用于执行图3所示的方法。如图7所示,该数据处理装置1可以包括:图构建模块11、调用模块12、特征确定模块13、第一聚类模块14以及优化模块15、优化特征输出模块16、第二聚类模块17以及群体识别模块18。
图构建模块11,用于基于检测对象集合中,每个检测对象分别在业务中的业务属性特征,构建以每个检测对象为对象节点的对象关系图;
调用模块12,用于调用图自编解码器;
特征确定模块13,用于在图自编解码器中,基于对象关系图中对象节点之间的连接关系,确定每个业务属性特征分别对应的聚合表示特征,以及对象关系图对应的重构关系图;
聚类模块14,用于将每个聚合表示特征进行特征聚类处理,得到检测对象集合对应的类簇分布结果;
优化模块15,用于基于类簇分布结果、重构关系图以及对象关系图,对图自编解码器进行优化,得到优化图自编解码器;
优化特征输出模块16,用于在优化图自编解码器中,基于对象关系图中对象节点之间的连接关系,输出每个业务属性特征分别对应的优化聚合表示特征;
第二聚类模块17,用于将每个优化聚合表示特征进行特征聚类处理,得到检测对象集合对应的优化类簇分布结果,
群体识别模块18,用于基于优化类簇分布结果识别检测对象集合中的异常对象群体。
其中,图构建模块11、调用模块12、特征确定模块13、第一聚类模块14以及优化模块15、优化特征输出模块16、第二聚类模块17以及群体识别模块18的具体实现方式,可以参见上述图2所对应实施例中步骤S101-步骤S107的描述,这里将不再进行赘述。
在一个实施例中,检测对象集合包含检测对象Si,每个检测对象分别在业务中的业务属性特征,包含检测对象Si在业务中的业务属性特征Ti;i为正整数;
图构建模块11,还具体用于构建检测对象集合中,每个检测对象分别对应的对象节点,得到对象节点集合;
图构建模块11,还具体用于基于业务属性特征Ti,以及剩余检测对象在业务中的业务属性特征,在检测对象集合中确定检测对象Si对应的关联对象;剩余检测对象是指检测对象集合中,除检测对象Si以外的检测对象;
图构建模块11,还具体用于将检测对象Si对应的对象节点,确定为目标对象节点,将检测对象Si对应的关联对象所对应的对象节点,确定为关联对象节点;
图构建模块11,还具体用于在目标对象节点与关联对象节点之间构建连接边,得到目标对象节点对应的关联边;
图构建模块11,还具体用于当确定出对象节点集合中,每个对象节点分别对应的关联边时,将包含对象节点集合以及每个对象节点分别对应的关联边的结构图,确定为对象关系图。
在一个实施例中,剩余检测对象的数量为M个;M为正整数;
图构建模块11,还具体用于将M个剩余检测对象中,每个剩余检测对象在业务中的业务属性特征,均确定为剩余业务属性特征;
图构建模块11,还具体用于确定业务属性特征Ti与每个剩余业务属性特征之间的特征相似度,得到M个特征相似度;
图构建模块11,还具体用于将M个特征相似度中大于相似度阈值的特征相似度,确定为目标特征相似度,将目标特征相似度对应的剩余业务属性特征确定为相似业务属性特征;
图构建模块11,还具体用于将检测对象集合中的相似业务属性特征所对应的剩余检测对象,确定为检测对象Si对应的关联对象。
在一个实施例中,M个剩余业务属性特征中包含剩余业务属性特征Tj,M个特征相似度包含剩余业务属性特征Tj与业务属性特征Ti之间的特征相似度,j为正整数;每个业务属性特征包含业务参与时刻;
图构建模块11,还具体用于将业务属性特征Ti所包含的业务参与时刻,确定为第一参与时刻,将剩余业务属性特征Tj所包含的业务参与时刻,确定为第二参与时刻;
图构建模块11,还具体用于确定第一参与时刻与第二参与时刻之间的间隔时长;
图构建模块11,还具体用于获取时长映射表;时长映射表包含配置时间区间集合与配置相似度集合之间的映射关系;配置时间区间集合中的一个配置时长区间,与配置相似度集合中的一个配置相似度之间具有映射关系;
图构建模块11,还具体用于将配置时长区间集合中,间隔时长所属的配置时长区间确定为目标时长区间,将配置相似度集合中,与目标时长区间之间具有映射关系的配置相似度,确定为剩余业务属性特征Tj与业务属性特征Ti之间的特征相似度。
在一个实施例中,图自编解码器包含图编码器与图解码器;
特征确定模块13,还具体用于调用图自编解码器中的图编码器,在图编码器中,通过对象关系图中对象节点之间的连接关系,对每个业务属性特征分别进行编码处理,得到每个业务属性特征分别对应的聚合表示特征;
特征确定模块13,还具体用于调用图自编解码器中的图解码器,在图解码器中,基于每个业务属性特征分别对应的聚合表示特征,对对象关系图中对象节点之间的连接关系进行重构,得到重构关系图。
在一个实施例中,检测对象集合包含检测对象Si,每个检测对象分别在业务中的业务属性特征,包含检测对象Si在业务中的业务属性特征Ti;i为正整数;
特征确定模块13,还具体用于在图编码器中,将检测对象Si对应的对象节点确定为目标对象节点,将对象关系图中与目标对象节点之间存在连接关系的对象节点,确定为目标对象节点的邻接节点;
特征确定模块13,还具体用于将邻接节点对应的邻接业务属性特征,与业务属性特征Ti进行编码融合处理,得到业务属性特征Ti对应的聚合表示特征;邻接节点对应的邻接业务属性特征,是指邻接节点对应的检测对象在业务中的业务属性特征。
在一个实施例中,特征确定模块13,还具体用于获取对象关系图对应的关系邻接矩阵;关系邻接矩阵用于表征对象关系图中对象节点之间的连接关系;
特征确定模块13,还具体用于将关系邻接矩阵进行归一化处理,得到关系邻接矩阵对应的归一化邻接矩阵;
特征确定模块13,还具体用于获取图编码器中的编码参数矩阵,通过图编码器的逻辑运算函数,将关系邻接矩阵、业务属性特征Ti、邻接业务属性特征以及编码参数矩阵进行运算处理,得到业务属性特征Ti对应的聚合表示特征。
在一个实施例中,对象关系图由对象节点集合,以及对象节点集合中每个对象节点分别对应的关联边所组成;对象节点集合中的一个对象节点对应检测对象集合中的一个检测对象;
特征确定模块13,还具体用于获取每个业务属性特征分别对应的聚合表示特征所共同组成的表示特征向量,将表示特征向量进行转置变换处理,得到表示特征向量对应的转置变换向量;
特征确定模块13,还具体用于将表示特征向量与转置变换向量进行点积运算处理,得到重构邻接矩阵;重构邻接矩阵包含Q个重构连接概率,Q个重构连接概率中的一个重构连接概率,是指对象节点集合中的两个对象节点之间具有连接关系的预测概率;Q为正整数;
特征确定模块13,还具体用于将对象关系图中,每个对象节点分别对应的关联边进行删除,得到中间对象关系图;
特征确定模块13,还具体用于将Q个重构连接概率中,大于连接概率阈值的重构连接概率,确定为目标重构连接概率,在中间对象关系图中,在目标重构连接概率对应的两个对象节点之间构建连接边,得到重构关系图。
在一个实施例中,优化模块15,还具体用于对类簇分布结果进行分布误差计算处理,得到类簇分布结果对应的类簇分布损失值;
优化模块15,还具体用于获取重构关系图对应的重构邻接矩阵,以及对象关系图对应的关系邻接矩阵;关系邻接矩阵用于表征对象关系图中对象节点之间的连接关系,重构邻接矩阵用于表征重构关系图中对象节点之间的连接关系;
优化模块15,还具体用于对重构邻接矩阵以及关系邻接矩阵进行预测误差计算处理,得到重构关系图对应的连接预测损失值;
优化模块15,还具体用于根据类簇分布损失值与连接预测损失值,确定图自编解码器对应的总损失值,根据总损失值对图自编解码器进行优化,得到优化图自编解码器。
在一个实施例中,类簇分布结果包含W个特征类簇,W个特征类簇中的每个特征类簇均包含一个或多个聚合表示特征;W为正整数;每个业务属性特征分别对应的聚合表示特征包含聚合表示特征Uv,v为正整数;
优化模块15,还具体用于获取每个特征类簇分别对应的类簇中心;
优化模块15,还具体用于分别计算聚合表示特征Uv与每个类簇中心之间的类簇距离,根据聚合表示特征Uv与每个类簇中心之间的类簇距离,确定聚合表示特征Uv对应的距离损失值;
优化模块15,还具体用于当确定出每个聚合表示特征分别对应的距离损失值时,将每个聚合表示特征分别对应的距离损失值进行运算处理,得到类簇分布损失值。
在一个实施例中,优化类簇分布结果包含至少两个优化特征类簇,至少两个优化特征类簇中的每个优化特征类簇均包含一个或多个优化聚合表示特征;至少两个优化特征类簇中包含优化特征类簇Kc,c为正整数;
群体识别模块18,还具体用于识别优化特征类簇Kc中所包含的异常对象,将优化特征类簇Kc中所包含的异常对象,所组成的集合确定为优化特征类簇Kc对应的类簇异常子群体;
群体识别模块18,还具体用于当确定出每个优化特征类簇分别对应的类簇异常子群体时,将每个优化特征类簇分别对应的类簇异常子群体,均确定为检测对象集合中的异常对象群体。
在一个实施例中,优化特征类簇Kc中包含异常标签对象;异常标签对象是指在业务中,存在异常标签行为的对象;
群体识别模块18,还具体用于将优化特征类簇Kc所包含的一个或多个优化聚合表示特征中,异常标签对象对应的优化聚合表示特征,确定为目标表示特征,将优化特征类簇Kc所包含的一个或多个优化聚合表示特征中,除目标表示特征以外的优化聚合表示特征,确定为目标表示特征对应的候选异常表示特征;
群体识别模块18,还具体用于将候选异常表示特征对应的检测对象,确定为候选异常对象;
群体识别模块18,还具体用于获取候选异常对象在业务中的业务行为数据,确定业务行为数据与异常标签行为之间的行为关联度;
群体识别模块18,还具体用于在行为关联度大于关联度阈值时,将候选异常对象确定为异常标签对象对应的异常关联对象,将异常标签对象与异常关联对象,均确定为优化特征类簇Kc中所包含的异常对象。
根据本申请的一个实施例,图2所示的数据处理方法所涉及的步骤可由图7所示的数据处理装置1中的各个模块来执行。例如,图2中所示的步骤S101可由图7中的图构建模块11来执行,图2中所示的步骤S102可由图7中的调用模块12与特征确定模块13来共同执行;图2中所示的步骤S103可由图7中的聚类模块14所执行;图2所示的步骤S104可由图7中的优化模块15来执行;图2所示的步骤S105可由图7中的优化特征输出模块16来执行;图2所示的步骤S106可由图7中的第二聚类模块17来执行;图2所示的步骤S107可由图7中的群体识别模块18来执行。
在本申请实施例中,可以基于检测对象集合中不同检测对象的业务属性特征,构建对象关系图,而基于该对象关系图可以对图自编解码器进行自监督学习,使得图自编解码器能够基于对象关系图中对象节点之间的连接关系,有效且准确的确定出每个对象节点分别对应的优化聚合表示特征,随后即可基于该有效且准确的优化聚合表示特征将检测对象集合进行类簇划分,所得到的优化类簇分布结果能够在识别检测对象集合中的异常对象群体的任务中,作为参考辅助,例如,基于某个已检测出的异常对象,可以在其所属的类簇中排查与之存在关联的关联对象,从而高效且准确的在对象数量较少的类簇中,找到某个异常对象的关联对象,无需在海量对象中逐一排查即可高效的排查得到异常对象群体,由此可以很好地减少人力成本与时间成本,提升识别效率。
进一步地,请参见图8,图8是本申请实施例提供的一种计算机设备的结构示意图。如图8所示,上述图7所对应实施例中的数据处理装置1可以应用于上述计算机设备8000,上述计算机设备8000可以包括:处理器8001,网络接口8004和存储器8005,此外,上述计算机设备8000还包括:用户接口8003,和至少一个通信总线8002。其中,通信总线8002用于实现这些组件之间的连接通信。其中,用户接口8003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口8003还可以包括标准的有线接口、无线接口。网络接口8004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器8005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器8005可选的还可以是至少一个位于远离前述处理器8001的存储装置。如图8所示,作为一种计算机可读存储介质的存储器8005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图8所示的计算机设备8000中,网络接口8004可提供网络通讯功能;而用户接口8003主要用于为用户提供输入的接口;而处理器8001可以用于调用存储器8005中存储的设备控制应用程序,以实现:
基于检测对象集合中,每个检测对象分别在业务中的业务属性特征,构建以每个检测对象为对象节点的对象关系图;
调用图自编解码器,在图自编解码器中,基于对象关系图中对象节点之间的连接关系,确定每个业务属性特征分别对应的聚合表示特征,以及对象关系图对应的重构关系图;
将每个聚合表示特征进行特征聚类处理,得到检测对象集合对应的类簇分布结果,基于类簇分布结果、重构关系图以及对象关系图,对图自编解码器进行优化,得到优化图自编解码器;
在优化图自编解码器中,基于对象关系图中对象节点之间的连接关系,输出每个业务属性特征分别对应的优化聚合表示特征;
将每个优化聚合表示特征进行特征聚类处理,得到检测对象集合对应的优化类簇分布结果,
基于优化类簇分布结果识别检测对象集合中的异常对象群体。
应当理解,本申请实施例中所描述的计算机设备8000可执行前文图2到图5所对应实施例中对该数据处理方法的描述,也可执行前文图7所对应实施例中对该数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的数据处理的计算机设备8000所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图2到图5所对应实施例中对上述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中一方面提供的方法。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (16)
1.一种数据处理方法,其特征在于,包括:
基于检测对象集合中,每个检测对象分别在业务中的业务属性特征,构建以所述每个检测对象为对象节点的对象关系图;
调用图自编解码器,在所述图自编解码器中,基于所述对象关系图中对象节点之间的连接关系,确定所述每个业务属性特征分别对应的聚合表示特征,以及所述对象关系图对应的重构关系图;
将每个聚合表示特征进行特征聚类处理,得到所述检测对象集合对应的类簇分布结果;
基于所述类簇分布结果、所述重构关系图以及所述对象关系图,对所述图自编解码器进行优化,得到优化图自编解码器;
在所述优化图自编解码器中,基于所述对象关系图中对象节点之间的连接关系,输出所述每个业务属性特征分别对应的优化聚合表示特征;
将每个优化聚合表示特征进行特征聚类处理,得到所述检测对象集合对应的优化类簇分布结果;
基于所述优化类簇分布结果识别所述检测对象集合中的异常对象群体。
2.根据权利要求1所述的方法,其特征在于,所述检测对象集合包含检测对象Si,所述每个检测对象分别在业务中的业务属性特征,包含所述检测对象Si在所述业务中的业务属性特征Ti;i为正整数;
所述基于检测对象集合中,每个检测对象分别在业务中的业务属性特征,构建以所述每个检测对象为对象节点的对象关系图,包括:
构建所述检测对象集合中,每个检测对象分别对应的对象节点,得到对象节点集合;
基于所述业务属性特征Ti,以及剩余检测对象在所述业务中的业务属性特征,在所述检测对象集合中确定所述检测对象Si对应的关联对象;所述剩余检测对象是指所述检测对象集合中,除所述检测对象Si以外的检测对象;
将所述检测对象Si对应的对象节点,确定为目标对象节点,将所述检测对象Si对应的关联对象所对应的对象节点,确定为关联对象节点;
在所述目标对象节点与所述关联对象节点之间构建连接边,得到所述目标对象节点对应的关联边;
当确定出所述对象节点集合中,每个对象节点分别对应的关联边时,将包含所述对象节点集合以及所述每个对象节点分别对应的关联边的结构图,确定为所述对象关系图。
3.根据权利要求2所述的方法,其特征在于,所述剩余检测对象的数量为M个;M为正整数;
所述基于所述业务属性特征Ti,以及剩余检测对象在所述业务中的业务属性特征,在所述检测对象集合中确定所述检测对象Si对应的关联对象,包括:
将M个剩余检测对象中,每个剩余检测对象在所述业务中的业务属性特征,均确定为剩余业务属性特征;
确定所述业务属性特征Ti与每个剩余业务属性特征之间的特征相似度,得到M个特征相似度;
将M个特征相似度中大于相似度阈值的特征相似度,确定为目标特征相似度,将所述目标特征相似度对应的剩余业务属性特征确定为所述相似业务属性特征;
将所述检测对象集合中的所述相似业务属性特征所对应的剩余检测对象,确定为所述检测对象Si对应的关联对象。
4.根据权利要求3所述的方法,其特征在于,M个剩余业务属性特征中包含剩余业务属性特征Tj,所述M个特征相似度包含所述剩余业务属性特征Tj与所述业务属性特征Ti之间的特征相似度,j为正整数;所述每个业务属性特征包含业务参与时刻;
所述确定所述业务属性特征Ti与每个剩余业务属性特征之间的特征相似度,得到M个特征相似度,包括:
将所述业务属性特征Ti所包含的业务参与时刻,确定为第一参与时刻,将所述剩余业务属性特征Tj所包含的业务参与时刻,确定为第二参与时刻;
确定所述第一参与时刻与所述第二参与时刻之间的间隔时长;
获取时长映射表;所述时长映射表包含配置时间区间集合与配置相似度集合之间的映射关系;所述配置时间区间集合中的一个配置时长区间,与所述配置相似度集合中的一个配置相似度之间具有映射关系;
将所述配置时长区间集合中,所述间隔时长所属的配置时长区间确定为目标时长区间,将所述配置相似度集合中,与所述目标时长区间之间具有映射关系的配置相似度,确定为所述剩余业务属性特征Tj与所述业务属性特征Ti之间的特征相似度。
5.根据权利要求1所述的方法,其特征在于,所述图自编解码器包含图编码器与图解码器;
所述在所述图自编解码器中,基于所述对象关系图中对象节点之间的连接关系,确定所述每个业务属性特征分别对应的聚合表示特征,以及所述对象关系图对应的重构关系图,包括:
调用所述图自编解码器中的所述图编码器,在所述图编码器中,通过所述对象关系图中对象节点之间的连接关系,对所述每个业务属性特征分别进行编码处理,得到所述每个业务属性特征分别对应的聚合表示特征;
调用所述图自编解码器中的所述图解码器,在所述图解码器中,基于所述每个业务属性特征分别对应的聚合表示特征,对所述对象关系图中对象节点之间的连接关系进行重构,得到所述重构关系图。
6.根据权利要求5所述的方法,其特征在于,所述检测对象集合包含检测对象Si,所述每个检测对象分别在业务中的业务属性特征,包含所述检测对象Si在所述业务中的业务属性特征Ti;i为正整数;
所述在所述图编码器中,通过所述对象关系图中对象节点之间的连接关系,对所述每个业务属性特征分别进行编码处理,得到所述每个业务属性特征分别对应的聚合表示特征,包括:
在所述图编码器中,将所述检测对象Si对应的对象节点确定为目标对象节点,将所述对象关系图中与所述目标对象节点之间存在连接关系的对象节点,确定为所述目标对象节点的邻接节点;
将所述邻接节点对应的邻接业务属性特征,与所述业务属性特征Ti进行编码融合处理,得到所述业务属性特征Ti对应的聚合表示特征;所述邻接节点对应的邻接业务属性特征,是指所述邻接节点对应的检测对象在业务中的业务属性特征。
7.根据权利要求6所述的方法,其特征在于,所述将所述邻接节点对应的邻接业务属性特征,与所述业务属性特征Ti进行编码融合处理,得到所述业务属性特征Ti对应的聚合表示特征,包括:
获取所述对象关系图对应的关系邻接矩阵;所述关系邻接矩阵用于表征所述对象关系图中对象节点之间的连接关系;
将所述关系邻接矩阵进行归一化处理,得到所述关系邻接矩阵对应的归一化邻接矩阵;
获取所述图编码器中的编码参数矩阵,通过所述图编码器的逻辑运算函数,将所述关系邻接矩阵、所述业务属性特征Ti、所述邻接业务属性特征以及所述编码参数矩阵进行运算处理,得到所述业务属性特征Ti对应的聚合表示特征。
8.根据权利要求5~7任一项所述的方法,其特征在于,所述对象关系图由对象节点集合,以及所述对象节点集合中每个对象节点分别对应的关联边所组成;所述对象节点集合中的一个对象节点对应所述检测对象集合中的一个检测对象;
所述在所述图解码器中,基于所述每个业务属性特征分别对应的聚合表示特征,对所述对象关系图中对象节点之间的连接关系进行重构,得到所述重构关系图,包括:
获取所述每个业务属性特征分别对应的聚合表示特征所共同组成的表示特征向量,将所述表示特征向量进行转置变换处理,得到所述表示特征向量对应的转置变换向量;
将所述表示特征向量与所述转置变换向量进行点积运算处理,得到重构邻接矩阵;所述重构邻接矩阵包含Q个重构连接概率,所述Q个重构连接概率中的一个重构连接概率,是指所述对象节点集合中的两个对象节点之间具有连接关系的预测概率;Q为正整数;
将所述对象关系图中,每个对象节点分别对应的关联边进行删除,得到中间对象关系图;
将所述Q个重构连接概率中,大于连接概率阈值的重构连接概率,确定为目标重构连接概率,在所述中间对象关系图中,在所述目标重构连接概率对应的两个对象节点之间构建连接边,得到所述重构关系图。
9.根据权利要求1所述的方法,其特征在于,所述基于所述类簇分布结果、所述重构关系图以及所述对象关系图,对所述图自编解码器进行优化,得到优化图自编解码器,包括:
对所述类簇分布结果进行分布误差计算处理,得到所述类簇分布结果对应的类簇分布损失值;
获取所述重构关系图对应的重构邻接矩阵,以及所述对象关系图对应的关系邻接矩阵;所述关系邻接矩阵用于表征所述对象关系图中对象节点之间的连接关系,所述重构邻接矩阵用于表征所述重构关系图中对象节点之间的连接关系;
对所述重构邻接矩阵以及所述关系邻接矩阵进行预测误差计算处理,得到所述重构关系图对应的连接预测损失值;
根据所述类簇分布损失值与所述连接预测损失值,确定所述图自编解码器对应的总损失值,根据所述总损失值对所述图自编解码器进行优化,得到优化图自编解码器。
10.根据权利要求9所述的方法,其特征在于,所述类簇分布结果包含W个特征类簇,所述W个特征类簇中的每个特征类簇均包含一个或多个聚合表示特征;W为正整数;所述每个业务属性特征分别对应的聚合表示特征包含聚合表示特征Uv,v为正整数;
所述对所述类簇分布结果进行分布误差计算处理,得到所述类簇分布结果对应的类簇分布损失值,包括:
获取所述每个特征类簇分别对应的类簇中心;
分别计算所述聚合表示特征Uv与每个类簇中心之间的类簇距离,根据所述聚合表示特征Uv与每个类簇中心之间的类簇距离,确定所述聚合表示特征Uv对应的距离损失值;
当确定出每个聚合表示特征分别对应的距离损失值时,将所述每个聚合表示特征分别对应的距离损失值进行运算处理,得到所述类簇分布损失值。
11.根据权利要求1所述的方法,其特征在于,所述优化类簇分布结果包含至少两个优化特征类簇,所述至少两个优化特征类簇中的每个优化特征类簇均包含一个或多个优化聚合表示特征;所述至少两个优化特征类簇中包含优化特征类簇Kc,c为正整数;
所述基于所述优化类簇分布结果识别所述检测对象集合中的异常对象群体,包括:
识别所述优化特征类簇Kc中所包含的异常对象,将所述优化特征类簇Kc中所包含的异常对象,所组成的集合确定为所述优化特征类簇Kc对应的类簇异常子群体;
当确定出所述每个优化特征类簇分别对应的类簇异常子群体时,将所述每个优化特征类簇分别对应的类簇异常子群体,均确定为所述检测对象集合中的异常对象群体。
12.根据权利要求11所述的方法,其特征在于,所述优化特征类簇Kc中包含异常标签对象;所述异常标签对象是指在所述业务中,存在异常标签行为的对象;
所述识别所述优化特征类簇Kc中所包含的异常对象,包括:
将所述优化特征类簇Kc所包含的一个或多个优化聚合表示特征中,所述异常标签对象对应的优化聚合表示特征,确定为目标表示特征,将所述优化特征类簇Kc所包含的一个或多个优化聚合表示特征中,除所述目标表示特征以外的优化聚合表示特征,确定为所述目标表示特征对应的候选异常表示特征;
将所述候选异常表示特征对应的检测对象,确定为候选异常对象;
获取所述候选异常对象在所述业务中的业务行为数据,确定所述业务行为数据与所述异常标签行为之间的行为关联度;
在所述行为关联度大于关联度阈值时,将所述候选异常对象确定为所述异常标签对象对应的异常关联对象,将所述异常标签对象与所述异常关联对象,均确定为所述优化特征类簇Kc中所包含的异常对象。
13.一种数据处理装置,其特征在于,包括:
图构建模块,用于基于检测对象集合中,每个检测对象分别在业务中的业务属性特征,构建以所述每个检测对象为对象节点的对象关系图;
调用模块,用于调用图自编解码器;
特征确定模块,用于在所述图自编解码器中,基于所述对象关系图中对象节点之间的连接关系,确定所述每个业务属性特征分别对应的聚合表示特征,以及所述对象关系图对应的重构关系图;
第一聚类模块,用于将每个聚合表示特征进行特征聚类处理,得到所述检测对象集合对应的类簇分布结果;
优化模块,用于基于所述类簇分布结果、所述重构关系图以及所述对象关系图,对所述图自编解码器进行优化,得到优化图自编解码器;
优化特征输出模块,用于在所述优化图自编解码器中,基于所述对象关系图中对象节点之间的连接关系,输出所述每个业务属性特征分别对应的优化聚合表示特征;
第二聚类模块,用于将每个优化聚合表示特征进行特征聚类处理,得到所述检测对象集合对应的优化类簇分布结果,
群体识别模块,用于基于所述优化类簇分布结果识别所述检测对象集合中的异常对象群体。
14.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供网络通信功能,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使所述计算机设备执行权利要求1-12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行权利要求1-12任一项所述的方法。
16.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,所述计算机程序适于由处理器读取并执行,以使得具有所述处理器的计算机设备执行权利要求1-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310404239.4A CN116340793A (zh) | 2023-04-06 | 2023-04-06 | 一种数据处理方法、装置、设备以及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310404239.4A CN116340793A (zh) | 2023-04-06 | 2023-04-06 | 一种数据处理方法、装置、设备以及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116340793A true CN116340793A (zh) | 2023-06-27 |
Family
ID=86885827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310404239.4A Pending CN116340793A (zh) | 2023-04-06 | 2023-04-06 | 一种数据处理方法、装置、设备以及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116340793A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541262A (zh) * | 2023-07-07 | 2023-08-04 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备以及可读存储介质 |
CN117472595A (zh) * | 2023-12-27 | 2024-01-30 | 苏州元脑智能科技有限公司 | 资源分配方法、装置、车辆、电子设备以及存储介质 |
-
2023
- 2023-04-06 CN CN202310404239.4A patent/CN116340793A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541262A (zh) * | 2023-07-07 | 2023-08-04 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备以及可读存储介质 |
CN116541262B (zh) * | 2023-07-07 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备以及可读存储介质 |
CN117472595A (zh) * | 2023-12-27 | 2024-01-30 | 苏州元脑智能科技有限公司 | 资源分配方法、装置、车辆、电子设备以及存储介质 |
CN117472595B (zh) * | 2023-12-27 | 2024-03-22 | 苏州元脑智能科技有限公司 | 资源分配方法、装置、车辆、电子设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11853891B2 (en) | System and method with federated learning model for medical research applications | |
US11615331B2 (en) | Explainable artificial intelligence | |
CN111444952B (zh) | 样本识别模型的生成方法、装置、计算机设备和存储介质 | |
CN116340793A (zh) | 一种数据处理方法、装置、设备以及可读存储介质 | |
CN112580902B (zh) | 对象数据处理方法、装置、计算机设备和存储介质 | |
CN111401447A (zh) | 一种基于人工智能的流量作弊识别方法、装置、电子设备 | |
CN116843400A (zh) | 基于图表示学习的区块链碳排放交易异常检测方法和装置 | |
CN112258250A (zh) | 基于网络热点的目标用户识别方法、装置和计算机设备 | |
CN114692007A (zh) | 表示信息的确定方法、装置、设备及存储介质 | |
CN114328277A (zh) | 一种软件缺陷预测和质量分析方法、装置、设备及介质 | |
Lyu et al. | Understanding political polarization via jointly modeling users, connections and multimodal contents on heterogeneous graphs | |
CN113821587A (zh) | 文本相关性确定方法、模型训练方法、装置及存储介质 | |
WO2022143431A1 (zh) | 一种反洗钱模型的训练方法及装置 | |
CN116958622A (zh) | 数据的分类方法、装置、设备、介质及程序产品 | |
CN114970670A (zh) | 模型公平性评估方法及装置 | |
CN114912538A (zh) | 信息推送模型训练方法和信息推送方法、装置及设备 | |
CN114612246A (zh) | 对象集合识别方法、装置、计算机设备及存储介质 | |
CN115049397A (zh) | 识别社交网络中的风险账户的方法及装置 | |
CN112950222A (zh) | 资源处理异常检测方法、装置、电子设备及存储介质 | |
Liang et al. | Experimental evaluation of a machine learning approach to improve the reproducibility of network simulations | |
CN117009883B (zh) | 对象分类模型构建方法、对象分类方法、装置和设备 | |
Mahmoudi et al. | Echo Chambers in Online Social Networks: A Systematic Literature Review | |
Bashar et al. | ALGAN: Time Series Anomaly Detection with Adjusted-LSTM GAN | |
Ragunathan | Convolutional Neural Network for Link Prediction Based on Subgraphs in Social Networks | |
Wang et al. | Detection of social groups in class by affinity propagation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40087295 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |