CN115203487B - 基于多方安全图的数据处理方法及相关装置 - Google Patents
基于多方安全图的数据处理方法及相关装置 Download PDFInfo
- Publication number
- CN115203487B CN115203487B CN202211118569.9A CN202211118569A CN115203487B CN 115203487 B CN115203487 B CN 115203487B CN 202211118569 A CN202211118569 A CN 202211118569A CN 115203487 B CN115203487 B CN 115203487B
- Authority
- CN
- China
- Prior art keywords
- graph
- vertex
- data
- intersection
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种基于多方安全图的数据处理方法及相关装置,方法包括:对各自的本地图数据进行顶点ID提取,得到多个顶点ID,每一顶点ID对应一个用户;确定多个顶点ID之间的交集用户,得到目标交集用户;依据目标交集用户以及非交集用户与交集用户的边,构成第一图网络;基于第一图网络,将不同机构内交集用户相同的顶点属性进行合并,得到第二图网络;确定第二图网络中的至少一个图特征表示;将第二图网络中各顶点属性以及至少一个图特征表示拼接,得到需求方的特征数据;利用需求方的标签数据、特征数据和各个数据提供方的顶点属性数据进行联邦学习建模,得到风险评估模型。采用本申请实施例可以提升图数据的价值。
Description
技术领域
本申请涉及隐私计算技术领域以及计算机技术领域,具体涉及一种基于多方安全图的数据处理方法及相关装置。
背景技术
实际应用中,图(Graph)是由一些点和这些点之间的连线所组成的,是基于事物关联关系的模型表达,具有天然解释性,在不同的图网络中,仍保留着普遍的拓扑性质,在越来越多的场景中得到广泛应用,如反欺诈、反洗钱、社区发现、精准营销、智能交通、电信诈骗防范等。
其中,图计算的主要优势是基于拓扑结构的消息传递范式(一种聚合邻接顶点信息来更新中心顶点信息的范式),然而因为数据孤岛问题,这种消息传递范式被打断,使得图计算的效果大打折扣,从而,降低了图数据的价值。
发明内容
本申请实施例提供了一种基于多方安全图的数据处理方法及相关装置,可以提升图数据的价值。
第一方面,本申请实施例提供一种基于多方安全图的数据处理方法,应用于多方计算系统,所述多方计算系统包括多个参与方,每一参与方对应一个本地图数据和一个机构,所述多个参与方包括一个需求方和若干个数据提供方;所述方法包括:
通过所述多个参与方中每一参与方对各自的本地图数据进行顶点ID提取,得到多个顶点ID,每一顶点ID对应一个用户;
通过所述多个参与方利用隐私集合求交技术确定所述多个顶点ID之间的交集用户,得到目标交集用户;
通过所述多个参与方依据所述目标交集用户以及非交集用户与交集用户的边,构成第一图网络;
基于所述第一图网络,将不同机构内交集用户相同的顶点属性进行合并,得到第二图网络;
确定所述第二图网络中至少一个顶点的图特征表示,得到至少一个图特征表示;
将所述第二图网络中各顶点属性以及所述至少一个图特征表示进行拼接,得到所述需求方的特征数据;
通过所述需求方利用所述需求方的标签数据、所述特征数据和各个数据提供方的顶点属性数据进行联邦学习建模,得到用户的风险评估模型。
第二方面,本申请实施例提供了一种基于多方安全图的数据处理装置,应用于多方计算系统,所述多方计算系统包括多个参与方,每一参与方对应一个本地图数据和一个机构,所述多个参与方包括一个需求方和若干个数据提供方;所述装置包括:提取单元、确定单元、构造单元、拼接单元和建模单元,其中,
所述提取单元,用于通过所述多个参与方中每一参与方对各自的本地图数据进行顶点ID提取,得到多个顶点ID,每一顶点ID对应一个用户;
所述确定单元,用于通过所述多个参与方利用隐私集合求交技术确定所述多个顶点ID之间的交集用户,得到目标交集用户;
所述构造单元,用于通过所述多个参与方依据所述目标交集用户以及非交集用户与交集用户的边,构成第一图网络;基于所述第一图网络,将不同机构内交集用户相同的顶点属性进行合并,得到第二图网络;
所述确定单元,还用于确定所述第二图网络中至少一个顶点的图特征表示,得到至少一个图特征表示;
所述拼接单元,用于将所述第二图网络中各顶点属性以及所述至少一个图特征表示进行拼接,得到所述需求方的特征数据;
所述建模单元,用于通过所述需求方利用所述需求方的标签数据、所述特征数据和各个数据提供方的顶点属性数据进行联邦学习建模,得到用户的风险评估模型。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
实施本申请实施例,具备如下有益效果:
可以看出,本申请实施例中所描述的基于多方安全图的数据处理方法及相关装置,应用于多方计算系统,多方计算系统包括多个参与方,每一参与方对应一个本地图数据和一个机构,多个参与方包括一个需求方和若干个数据提供方,通过多个参与方中每一参与方对各自的本地图数据进行顶点ID提取,得到多个顶点ID,每一顶点ID对应一个用户,通过多个参与方利用隐私集合求交技术确定多个顶点ID之间的交集用户,得到目标交集用户,通过多个参与方依据目标交集用户以及非交集用户与交集用户的边,构成第一图网络,基于第一图网络,将不同机构内交集用户相同的顶点属性进行合并,得到第二图网络,确定第二图网络中至少一个顶点的图特征表示,得到至少一个图特征表示,将第二图网络中各顶点属性以及至少一个图特征表示进行拼接,得到需求方的特征数据,通过需求方利用需求方的标签数据、特征数据和各个数据提供方的顶点属性数据进行联邦学习建模,得到用户的风险评估模型,即可以在不泄露各方数据隐私的前提下利用多方图数据信息,进而,可以在虚拟的全局图网络基础上进行消息传递,可以最大限度地释放多方图数据的最大价值,而且还有助于提升风险评估模型的模型精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种用于实现基于多方安全图的数据处理方法的多方计算系统的架构示意图;
图2是本申请实施例提供的一种基于多方安全图的数据处理方法的流程示意图;
图3是本申请实施例提供的另一种基于多方安全图的数据处理方法的流程示意图;
图4是本申请实施例提供的一种电子设备的结构示意图;
图5是本申请实施例提供的一种基于多方安全图的数据处理装置500的功能单元组成框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例所描述的电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、行车记录仪、服务器、笔记本电脑、移动互联网设备(MID,Mobile Internet Devices)或穿戴式设备(如智能手表、蓝牙耳机)等,上述仅是举例,而非穷举,包含但不限于上述电子设备,该电子设备也可以为云服务器,或者,该电子设备也可以为计算机集群。
下面对本申请实施例进行详细介绍。
相关技术中,将各机构图数据集中在一起使用的方法面临很大隐私泄露和违规的风险;基于传统联邦学习的思路虽然可以用到各机构的图数据,但其仍然是各自本地进行消息传递与聚合,再将本地中间结果融合使用,无法达到最大效益;很多基于MPC的解决方案,图数据需以密态的形式进行非线性运算,面临很大的性能瓶颈。
为了解决相关技术中的缺陷,请参阅图1,图1是本申请实施例提供的一种用于实现基于多方安全图的数据处理方法的多方计算系统的架构示意图,如图所示,所述多方计算系统包括多个参与方,每一参与方对应一个本地图数据和一个机构,所述多个参与方包括一个需求方和若干个数据提供方;该系统能够实现如下功能:
通过所述多个参与方中每一参与方对各自的本地图数据进行顶点ID提取,得到多个顶点ID,每一顶点ID对应一个用户;
通过所述多个参与方利用隐私集合求交技术确定所述多个顶点ID之间的交集用户,得到目标交集用户;
通过所述多个参与方依据所述目标交集用户以及非交集用户与交集用户的边,构成第一图网络;
基于所述第一图网络,将不同机构内交集用户相同的顶点属性进行合并,得到第二图网络;
确定所述第二图网络中至少一个顶点的图特征表示,得到至少一个图特征表示;
将所述第二图网络中各顶点属性以及所述至少一个图特征表示进行拼接,得到所述需求方的特征数据;
通过所述需求方利用所述需求方的标签数据、所述特征数据和各个数据提供方的顶点属性数据进行联邦学习建模,得到用户的风险评估模型。
可选的,所述基于所述第一图网络,将不同机构内交集用户相同的顶点属性进行合并,得到第二图网络,包括:
确定不同机构内的交集用户相同的顶点属性,得到多个顶点属性;
根据所述多个顶点属性进行聚合运算,得到目标聚合值;
根据所述目标聚合值对相应的顶点属性进行更新,得到所述第二图网络。
可选的,所述根据所述多个顶点属性进行聚合运算,得到目标聚合值,包括:
基于混淆电路或者秘密分享技术,根据所述多个顶点属性进行聚合运算,得到所述目标聚合值。
可选的,所述目标交集用户的图特征表示存储在所述需求方,所述目标交集用户之外的图特征表示存储在各自本地。
可选的,该系统能够实现如下功能:
确定所述多个参与方的最小用户数量;
确定所述目标交集用户对应的目标用户数量;
在所述目标用户数量与所述最小用户数量之间的比值小于预设阈值时,执行所述通过所述多个参与方依据所述目标交集用户以及非交集用户与交集用户的边,构成第一图网络的步骤。
请参阅图2,图2是本申请实施例提供的一种基于多方安全图的数据处理方法的流程示意图,应用于图1所示的多方计算系统,所述多方计算系统包括多个参与方,每一参与方对应一个本地图数据和一个机构,所述多个参与方包括一个需求方和若干个数据提供方;如图所示,本基于多方安全图的数据处理方法包括:
201、通过所述多个参与方中每一参与方对各自的本地图数据进行顶点ID提取,得到多个顶点ID,每一顶点ID对应一个用户。
其中,本申请实施例中,多方计算系统可以包括多个参与方,每一参与方可以对应一个本地图数据且每一参与方对应一个机构,该多个参与方可以包括一个需求方和若干个数据提供方,即多个参与方中一个为需求方,其余的参与方均为数据提供方。本地图数据可以包括多个顶点,每一顶点对应一个顶点ID,每一顶点ID对应一个用户,每一顶点可以对应至少一个边,每一顶点可以对应至少一个顶点标签,顶点标签用于标识是否为风险用户。本地图数据也可以被称之为本地图数据网络。ID可以标识为身份标识(identification,ID)。
本申请实施例中,可以通过多个参与方中每一参与方对各自的本地图数据进行顶点ID提取,得到多个顶点ID,每一顶点ID对应一个用户。例如,以两个参与方为例,其中,该两个参与方可以包括A方和B方,A方为需求方,B方为数据提供方。则A方、B方可以提取各自图数据的顶点ID(用户)。
202、通过所述多个参与方利用隐私集合求交技术确定所述多个顶点ID之间的交集用户,得到目标交集用户。
本申请实施例中,则可以通过多个参与方利用隐私集合求交技术确定多个顶点ID之间的交集用户,得到目标交集用户,即可以获得各机构间交集用户,并且不暴露各机构交集外的用户。
203、通过所述多个参与方依据所述目标交集用户以及非交集用户与交集用户的边,构成第一图网络。
本申请实施例中,可以依据交集用户,其中,交集用户代表着顶点,则可以由顶点以及非交集用户与交集用户间的边,构成一个全局的图网络,即第一图网络,相当于构成一个全局的图网络。
204、基于所述第一图网络,将不同机构内交集用户相同的顶点属性进行合并,得到第二图网络。
其中,本申请实施例中,顶点属性一般是对这个顶点的描述,也就是对顶点代表的用户的描述,该顶点属性可以包括以下至少一种:用户画像、行为数据等等,在此不做限定,用户画像可以包括以下至少一种:身高、年龄、性别、工资等等,在此不做限定,行为数据可以包括以下至少一种:消费金额、贷款金额、违约频率等等,在此不做限定。如该顶点代表用户的身高、年龄、性别、工资等用户画像,或者是该用户近半年的消费金额,贷款金额、违约频率等行为数据。
本申请实施例中,可以利用秘密分享,和/或,混淆电路等技术将不同机构内交集用户相同的顶点属性(画像)进行合并,具体的,可取不同机构间相同属性(如:最大值,最小值,均值,众数等),例如:假设每一参与方均拥有用户的年龄信息,可能因为标注差异,多个参与方的年龄信息不一致,则可以利用混淆电路或秘密分享技术求出多方年龄的均值,将各方顶点属性进行更新,从而可以得到第二图网络。
本申请实施例中,可以在不泄露各方数据隐私的前提下利用多方图数据信息。进而,可以在虚拟的全局图网络基础上进行消息传递,可以最大限度地释放多方图数据的最大价值。实际应用中,减少了很多基于MPC的非线性运算,具有很高的运算效率。
可选的,上述步骤204,基于所述第一图网络,将不同机构内交集用户相同的顶点属性进行合并,得到第二图网络,包括:
41、确定不同机构内的交集用户相同的顶点属性,得到多个顶点属性;
42、根据所述多个顶点属性进行聚合运算,得到目标聚合值;
43、根据所述目标聚合值对相应的顶点属性进行更新,得到所述第二图网络。
本申请实施例中,可以利用秘密分享和混淆电路等技术将不同机构内交集用户相同的顶点属性(画像)进行合并,例如,可以确定不同机构内的交集用户相同的顶点属性,得到多个顶点属性,根据多个顶点属性进行聚合运算,得到目标聚合值,根据目标聚合值对相应的顶点属性进行更新,得到第二图网络。
其中,聚合运算可以包括以下至少一种:均值运算、求众数运算、求中位数运算、求最大/最小值运算等等,在此不做限定。
可选的,上述步骤42,根据所述多个顶点属性进行聚合运算,得到目标聚合值,可以按照如下方式实施:
基于混淆电路或者秘密分享技术,根据所述多个顶点属性进行聚合运算,得到所述目标聚合值。
具体实现中,根据多个顶点属性进行聚合运算,得到目标聚合值,再基于混淆电路或者秘密分享技术实现目标聚合值对相应顶点属性进行更新。
具体的,可取不同机构间相同属性的最大值,最小值,均值,众数等,作为顶点属性,如:A、B两方均拥有用户的年龄信息,可能因为标注差异,两方信息不一致,利用混淆电路或秘密分享技术求出两方年龄的均值,将各方顶点属性进行更新。
205、确定所述第二图网络中至少一个顶点的图特征表示,得到至少一个图特征表示。
其中,本申请实施例中,图特征表示可以用于表示顶点的图结构的拓扑特征,该图特征表示可以包括以下至少一种:顶点在全局图中的出度、顶点在全局图中的入度、顶点在全局图中的排名(如:pageRank)、顶点在全局图中的阶数中心度等等,在此不做限定。
具体的,可以利用秘密分享和混淆电路等技术,求全局图拓扑网络的一些顶点的图特征表示,如每个顶点在全局图中的出度、入度、排名(如:pageRank)、阶数中心度等。
可选的,所述目标交集用户的图特征表示存储在所述需求方,所述目标交集用户之外的图特征表示存储在各自本地。
具体实现中,可以将交集用户的图特征表示存储在需求方,交集用户外的图特征表示存储在各自本地,进而,保证数据安全性。
206、将所述第二图网络中各顶点属性以及所述至少一个图特征表示进行拼接,得到所述需求方的特征数据。
本申请实施例中,特征数据可以包括各顶点属性以及相应的顶点的图特征表示。
具体实现中,可以将第二图网络中各顶点属性以及至少一个图特征表示进行拼接,得到需求方的特征数据。上述“拼接”可以理解为维度的增长,比如,原来描述一个用户只有年龄、性别、消费金额的三个维度,现在新增了出度、入度、排名这三个维度,就有6个维度了。
207、通过所述需求方利用所述需求方的标签数据、所述特征数据和各个数据提供方的顶点属性数据进行联邦学习建模,得到用户的风险评估模型。
本申请实施例中,标签数据可以用于标识是否为风险用户,和/或,构造联邦学习模型的目标变量。具体的,可以是训练一个联邦逻辑回归模型、联邦极致提升树模型、联邦深度学习模型等,得到用户的风险评估模型。
由于得到的风险评估模型,因为利用了不同参与方用户间的拓扑关系,可以很大提升模型的准确性。例如,用户a在一个机构的图网络中有边关系的人都是好人,如果仅使用单方数据,则很容易误判其为低风险用户;但在另一个机构的图网络中,用户a与违约用户有着频繁交易,则利用本申请实施例提取出的图特征,便于风险模型捕捉到这种信息。
本申请实施例中,将整个图计算过程分为多方全局图的构建,多方安全图表示和多方图学习三步,且采用混合应用隐私集合求交、秘密分享、混淆电路、联邦学习技术,实现高效的图数据价值释放。
实际应用中,需要最大限度地释放多方图数据的最大价值,需充分利用图数据的消息传递范式,全局图的构建是必不可少的,在各自数据不出本地的前提下,如何安全构建虚拟的全局图是本申请实施例的一个重点,在全局图构建完成后,则需要在全局图的基础上进行数据价值挖掘,包括了图特征的提取,以及基于图特征的本地或者联邦学习,进而,提升图数据价值。
可选的,还可以包括如下步骤:
A1、确定所述多个参与方的最小用户数量;
A2、确定所述目标交集用户对应的目标用户数量;
A3、在所述目标用户数量与所述最小用户数量之间的比值小于预设阈值时,执行所述通过所述多个参与方依据所述目标交集用户以及非交集用户与交集用户的边,构成第一图网络的步骤。
具体实现中,预设阈值可以预先设置或者系统默认。可以确定多个参与方的最小用户数量,再确定目标交集用户对应的目标用户数量,在目标用户数量与最小用户数量之间的比值小于预设阈值时,则可以执行步骤203,即在各个机构重合信息较少时,利用在虚拟的全局图网络基础上进行消息传递,可以最大限度地释放多方图数据的最大价值,而且还有助于提升风险评估模型的模型精度,保证在交集数量较少时,尽可能地提升风险评估模型的模型能力,保证其评估精准度。
举例说明下,考虑如下场景,银行A拥有用户间转账的图数据网络和是否为风险用户的标签,运营商B拥有用户间通信的图数据网络(通信与转账信息均可看作两个用户间是有联系的)。银行A、运营商B存在着一定的交集用户,且银行A、运营商B均拥有一些用户画像信息,但画像重合度不高,如银行A的画像集中在借贷、风控侧的表现,运营商B的画像集中在通信、消费侧的表现。银行A要利用银行A、运营商B的图网络信息(图的拓扑结构)和画像信息(图的顶点属性),构建一个用户的风险评估模型。
举例说明下,本申请实施例中,以两个参与方的情况加以说明,其中,A方为需求方,B方为数据提供方,其具体流程如下:
1、A方、B方提取各自图数据的顶点ID(用户);
2、A方、B方利用隐私集合求交技术,获得各机构间交集用户,并且不暴露各机构交集外的用户;
3、A、B两方依据交集用户,以及非交集用户与交集用户间的边,构成一个全局的图网络;
4、利用秘密分享和混淆电路等技术将不同机构内交集用户相同的顶点属性(画像)进行合并,可取不同机构间相同属性的最大值,最小值,均值,众数等,如:A、B两方均拥有用户的年龄信息,可能因为标注差异,两方信息不一致,利用混淆电路或秘密分享技术求出两方年龄的均值,将各方顶点属性进行更新;
5、利用秘密分享和混淆电路等技术,求全局图拓扑网络的一些顶点的图特征表示,如每个顶点在全局图中的出度、入度、排名(如:pageRank)、阶数中心度等;
6、将交集用户的图特征表示存储在A方(需求方),交集用户外的图特征表示存储在各自本地;
7、A方将步骤4中合并后的各顶点属性和步骤5中提取的图特征表示进行拼接,形成A方的特征数据;
8、A方利用标签数据、步骤7中的特征数据和B方顶点的顶点属性数据进行联邦学习建模,获得用户的风险评估模型。
具体实现中,如图3所示,多方图数据输入,再各方图数据用户ID提取,隐私集合求交,基于MPC的顶点属性合并,基于MPC的图特征提取,再将合并后的特征以及特征提取后的特征实现基于图特征的联邦学习,最后输出模型。
本申请实施例中,将整个图计算过程分为三步,即多方全局图的构建,多方安全图表示和多方图学习,混合应用多方安全计算技术(MPC,如隐私集合求交、秘密分享、混淆电路)和联邦学习(FL)技术,实现高效的图数据价值释放。
可以看出,本申请实施例中所描述的基于多方安全图的数据处理方法,应用于多方计算系统,多方计算系统包括多个参与方,每一参与方对应一个本地图数据和一个机构,多个参与方包括一个需求方和若干个数据提供方,通过多个参与方中每一参与方对各自的本地图数据进行顶点ID提取,得到多个顶点ID,每一顶点ID对应一个用户,通过多个参与方利用隐私集合求交技术确定多个顶点ID之间的交集用户,得到目标交集用户,通过多个参与方依据目标交集用户以及非交集用户与交集用户的边,构成第一图网络,基于第一图网络,将不同机构内交集用户相同的顶点属性进行合并,得到第二图网络,确定第二图网络中至少一个顶点的图特征表示,得到至少一个图特征表示,将第二图网络中各顶点属性以及至少一个图特征表示进行拼接,得到需求方的特征数据,通过需求方利用需求方的标签数据、特征数据和各个数据提供方的顶点属性数据进行联邦学习建模,得到用户的风险评估模型,即可以在不泄露各方数据隐私的前提下利用多方图数据信息,进而,可以在虚拟的全局图网络基础上进行消息传递,可以最大限度地释放多方图数据的最大价值,而且还有助于提升风险评估模型的模型精度。
与上述实施例一致地,请参阅图4,图4是本申请实施例提供的一种电子设备的结构示意图,如图所示,该电子设备包括处理器、存储器、通信接口以及一个或多个程序,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,应用于多方计算系统,所述多方计算系统包括多个参与方,每一参与方对应一个本地图数据和一个机构,所述多个参与方包括一个需求方和若干个数据提供方;本申请实施例中,上述程序包括用于执行以下步骤的指令:
通过所述多个参与方中每一参与方对各自的本地图数据进行顶点ID提取,得到多个顶点ID,每一顶点ID对应一个用户;
通过所述多个参与方利用隐私集合求交技术确定所述多个顶点ID之间的交集用户,得到目标交集用户;
通过所述多个参与方依据所述目标交集用户以及非交集用户与交集用户的边,构成第一图网络;
基于所述第一图网络,将不同机构内交集用户相同的顶点属性进行合并,得到第二图网络;
确定所述第二图网络中至少一个顶点的图特征表示,得到至少一个图特征表示;
将所述第二图网络中各顶点属性以及所述至少一个图特征表示进行拼接,得到所述需求方的特征数据;
通过所述需求方利用所述需求方的标签数据、所述特征数据和各个数据提供方的顶点属性数据进行联邦学习建模,得到用户的风险评估模型。
可选的,在所述基于所述第一图网络,将不同机构内交集用户相同的顶点属性进行合并,得到第二图网络方面,上述程序包括用于执行以下步骤的指令:
确定不同机构内的交集用户相同的顶点属性,得到多个顶点属性;
根据所述多个顶点属性进行聚合运算,得到目标聚合值;
根据所述目标聚合值对相应的顶点属性进行更新,得到所述第二图网络。
可选的,在所述根据所述多个顶点属性进行聚合运算,得到目标聚合值方面,上述程序包括用于执行以下步骤的指令:
基于混淆电路或者秘密分享技术,根据所述多个顶点属性进行聚合运算,得到所述目标聚合值。
可选的,所述目标交集用户的图特征表示存储在所述需求方,所述目标交集用户之外的图特征表示存储在各自本地。
可选的,上述程序还包括用于执行以下步骤的指令:
确定所述多个参与方的最小用户数量;
确定所述目标交集用户对应的目标用户数量;
在所述目标用户数量与所述最小用户数量之间的比值小于预设阈值时,执行所述通过所述多个参与方依据所述目标交集用户以及非交集用户与交集用户的边,构成第一图网络的步骤。
其中,电子设备可以为多个参与方中的至少一个参与方。
图5是本申请实施例中所提供的一种基于多方安全图的数据处理装置500的功能单元组成框图。该基于多方安全图的数据处理装置500应用于多方计算系统,所述多方计算系统包括多个参与方,每一参与方对应一个本地图数据和一个机构,所述多个参与方包括一个需求方和若干个数据提供方;所述装置500包括:提取单元501、确定单元502、构造单元503、拼接单元504和建模单元505,其中,
所述提取单元501,用于通过所述多个参与方中每一参与方对各自的本地图数据进行顶点ID提取,得到多个顶点ID,每一顶点ID对应一个用户;
所述确定单元502,用于通过所述多个参与方利用隐私集合求交技术确定所述多个顶点ID之间的交集用户,得到目标交集用户;
所述构造单元503,用于通过所述多个参与方依据所述目标交集用户以及非交集用户与交集用户的边,构成第一图网络;基于所述第一图网络,将不同机构内交集用户相同的顶点属性进行合并,得到第二图网络;
所述确定单元502,还用于确定所述第二图网络中至少一个顶点的图特征表示,得到至少一个图特征表示;
所述拼接单元504,用于将所述第二图网络中各顶点属性以及所述至少一个图特征表示进行拼接,得到所述需求方的特征数据;
所述建模单元505,用于通过所述需求方利用所述需求方的标签数据、所述特征数据和各个数据提供方的顶点属性数据进行联邦学习建模,得到用户的风险评估模型。
可选的,在所述基于所述第一图网络,将不同机构内交集用户相同的顶点属性进行合并,得到第二图网络方面,所述构造单元503具体用于:
确定不同机构内的交集用户相同的顶点属性,得到多个顶点属性;
根据所述多个顶点属性进行聚合运算,得到目标聚合值;
根据所述目标聚合值对相应的顶点属性进行更新,得到所述第二图网络。
可选的,在所述根据所述多个顶点属性进行聚合运算,得到目标聚合值方面,所述构造单元503具体用于:
基于混淆电路或者秘密分享技术,根据所述多个顶点属性进行聚合运算,得到所述目标聚合值。
可选的,所述目标交集用户的图特征表示存储在所述需求方,所述目标交集用户之外的图特征表示存储在各自本地。
可选的,所述装置500还具体用于:
确定所述多个参与方的最小用户数量;
确定所述目标交集用户对应的目标用户数量;
在所述目标用户数量与所述最小用户数量之间的比值小于预设阈值时,执行所述通过所述多个参与方依据所述目标交集用户以及非交集用户与交集用户的边,构成第一图网络的步骤。
可以理解的是,本实施例的基于多方安全图的数据处理装置500的各程序模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory ,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (6)
1.一种基于多方安全图的数据处理方法,其特征在于,应用于多方计算系统,所述多方计算系统包括多个参与方,每一参与方对应一个本地图数据和一个机构,所述多个参与方包括一个需求方和若干个数据提供方;所述方法包括:
通过所述多个参与方中每一参与方对各自的本地图数据进行顶点ID提取,得到多个顶点ID,每一顶点ID对应一个用户;
通过所述多个参与方利用隐私集合求交技术确定所述多个顶点ID之间的交集用户,得到目标交集用户;
通过所述多个参与方依据所述目标交集用户以及非交集用户与交集用户的边,构成第一图网络;
基于所述第一图网络,将不同机构内交集用户相同的顶点属性进行合并,得到第二图网络;
确定所述第二图网络中至少一个顶点的图特征表示,得到至少一个图特征表示,所述图特征表示用于表示顶点的图结构的拓扑特征,该图特征表示包括以下至少一种:顶点在全局图中的出度、顶点在全局图中的入度、顶点在全局图中的排名、顶点在全局图中的阶数中心度;
将所述第二图网络中各顶点属性以及所述至少一个图特征表示进行拼接,得到所述需求方的特征数据;
通过所述需求方利用所述需求方的标签数据、所述特征数据和各个数据提供方的顶点属性数据进行联邦学习建模,得到用户的风险评估模型;
其中,所述基于所述第一图网络,将不同机构内交集用户相同的顶点属性进行合并,得到第二图网络,包括:
确定不同机构内的交集用户相同的顶点属性,得到多个顶点属性;
根据所述多个顶点属性进行聚合运算,得到目标聚合值;
根据所述目标聚合值对相应的顶点属性进行更新,得到所述第二图网络;
其中,所述根据所述多个顶点属性进行聚合运算,得到目标聚合值,包括:
基于混淆电路或者秘密分享技术,根据所述多个顶点属性进行聚合运算,得到所述目标聚合值。
2.根据权利要求1所述的方法,其特征在于,所述目标交集用户的图特征表示存储在所述需求方,所述目标交集用户之外的图特征表示存储在各自本地。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
确定所述多个参与方的最小用户数量;
确定所述目标交集用户对应的目标用户数量;
在所述目标用户数量与所述最小用户数量之间的比值小于预设阈值时,执行所述通过所述多个参与方依据所述目标交集用户以及非交集用户与交集用户的边,构成第一图网络的步骤。
4.一种基于多方安全图的数据处理装置,其特征在于,应用于多方计算系统,所述多方计算系统包括多个参与方,每一参与方对应一个本地图数据和一个机构,所述多个参与方包括一个需求方和若干个数据提供方;所述装置包括:提取单元、确定单元、构造单元、拼接单元和建模单元,其中,
所述提取单元,用于通过所述多个参与方中每一参与方对各自的本地图数据进行顶点ID提取,得到多个顶点ID,每一顶点ID对应一个用户;
所述确定单元,用于通过所述多个参与方利用隐私集合求交技术确定所述多个顶点ID之间的交集用户,得到目标交集用户;
所述构造单元,用于通过所述多个参与方依据所述目标交集用户以及非交集用户与交集用户的边,构成第一图网络;基于所述第一图网络,将不同机构内交集用户相同的顶点属性进行合并,得到第二图网络;
所述确定单元,还用于确定所述第二图网络中至少一个顶点的图特征表示,得到至少一个图特征表示,所述图特征表示用于表示顶点的图结构的拓扑特征,该图特征表示包括以下至少一种:顶点在全局图中的出度、顶点在全局图中的入度、顶点在全局图中的排名、顶点在全局图中的阶数中心度;
所述拼接单元,用于将所述第二图网络中各顶点属性以及所述至少一个图特征表示进行拼接,得到所述需求方的特征数据;
所述建模单元,用于通过所述需求方利用所述需求方的标签数据、所述特征数据和各个数据提供方的顶点属性数据进行联邦学习建模,得到用户的风险评估模型;
其中,在所述基于所述第一图网络,将不同机构内交集用户相同的顶点属性进行合并,得到第二图网络方面,所述构造单元具体用于:
确定不同机构内的交集用户相同的顶点属性,得到多个顶点属性;
根据所述多个顶点属性进行聚合运算,得到目标聚合值;
根据所述目标聚合值对相应的顶点属性进行更新,得到所述第二图网络;
其中,在所述根据所述多个顶点属性进行聚合运算,得到目标聚合值方面,所述构造单元具体用于:
基于混淆电路或者秘密分享技术,根据所述多个顶点属性进行聚合运算,得到所述目标聚合值。
5.一种电子设备,其特征在于,包括处理器、存储器,所述存储器用于存储一个或多个程序,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-3任一项所述的方法中的步骤的指令。
6.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-3任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211118569.9A CN115203487B (zh) | 2022-09-15 | 2022-09-15 | 基于多方安全图的数据处理方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211118569.9A CN115203487B (zh) | 2022-09-15 | 2022-09-15 | 基于多方安全图的数据处理方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115203487A CN115203487A (zh) | 2022-10-18 |
CN115203487B true CN115203487B (zh) | 2022-12-20 |
Family
ID=83573419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211118569.9A Active CN115203487B (zh) | 2022-09-15 | 2022-09-15 | 基于多方安全图的数据处理方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115203487B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117592112B (zh) * | 2024-01-17 | 2024-04-05 | 蓝象智联(杭州)科技有限公司 | 一种基于图融合的联邦页面排名计算方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995031788A1 (en) * | 1994-05-18 | 1995-11-23 | Etak, Inc. | Method of clustering multi-dimensional related data |
CN103902988A (zh) * | 2014-04-21 | 2014-07-02 | 梁爽 | 一种基于Modular积图与最大团的草图形状匹配方法 |
CN112418520A (zh) * | 2020-11-22 | 2021-02-26 | 同济大学 | 一种基于联邦学习的信用卡交易风险预测方法 |
CN113240524A (zh) * | 2021-05-10 | 2021-08-10 | 深圳前海微众银行股份有限公司 | 联邦学习系统中账户的异常检测方法、装置及电子设备 |
CN113254996A (zh) * | 2021-05-31 | 2021-08-13 | 平安科技(深圳)有限公司 | 图神经网络训练方法、装置、计算设备及存储介质 |
CN113743677A (zh) * | 2021-09-16 | 2021-12-03 | 成都数融科技有限公司 | 基于联邦学习的个人信用评价模型训练方法及评价方法 |
CN114564752A (zh) * | 2022-04-28 | 2022-05-31 | 蓝象智联(杭州)科技有限公司 | 一种基于图联邦的黑名单传播方法 |
CN114595474A (zh) * | 2022-03-10 | 2022-06-07 | 深圳前海微众银行股份有限公司 | 联邦学习建模优化方法、电子设备、介质及程序产品 |
CN114782161A (zh) * | 2022-03-31 | 2022-07-22 | 度小满科技(北京)有限公司 | 识别风险用户的方法、装置、存储介质及电子装置 |
CN115033599A (zh) * | 2022-08-12 | 2022-09-09 | 深圳市洞见智慧科技有限公司 | 基于多方安全的图查询方法、系统及相关装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897787B (zh) * | 2018-06-08 | 2020-09-29 | 北京大学 | 基于simd指令的图数据库中集合求交方法和装置 |
CN113468382B (zh) * | 2021-07-01 | 2024-04-02 | 同盾控股有限公司 | 基于知识联邦的多方环路检测方法、装置及相关设备 |
-
2022
- 2022-09-15 CN CN202211118569.9A patent/CN115203487B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995031788A1 (en) * | 1994-05-18 | 1995-11-23 | Etak, Inc. | Method of clustering multi-dimensional related data |
CN103902988A (zh) * | 2014-04-21 | 2014-07-02 | 梁爽 | 一种基于Modular积图与最大团的草图形状匹配方法 |
CN112418520A (zh) * | 2020-11-22 | 2021-02-26 | 同济大学 | 一种基于联邦学习的信用卡交易风险预测方法 |
CN113240524A (zh) * | 2021-05-10 | 2021-08-10 | 深圳前海微众银行股份有限公司 | 联邦学习系统中账户的异常检测方法、装置及电子设备 |
CN113254996A (zh) * | 2021-05-31 | 2021-08-13 | 平安科技(深圳)有限公司 | 图神经网络训练方法、装置、计算设备及存储介质 |
CN113743677A (zh) * | 2021-09-16 | 2021-12-03 | 成都数融科技有限公司 | 基于联邦学习的个人信用评价模型训练方法及评价方法 |
CN114595474A (zh) * | 2022-03-10 | 2022-06-07 | 深圳前海微众银行股份有限公司 | 联邦学习建模优化方法、电子设备、介质及程序产品 |
CN114782161A (zh) * | 2022-03-31 | 2022-07-22 | 度小满科技(北京)有限公司 | 识别风险用户的方法、装置、存储介质及电子装置 |
CN114564752A (zh) * | 2022-04-28 | 2022-05-31 | 蓝象智联(杭州)科技有限公司 | 一种基于图联邦的黑名单传播方法 |
CN115033599A (zh) * | 2022-08-12 | 2022-09-09 | 深圳市洞见智慧科技有限公司 | 基于多方安全的图查询方法、系统及相关装置 |
Non-Patent Citations (4)
Title |
---|
FedGraph: Federated Graph Learning With Intelligent Sampling;Fahao Chen 等;《IEEE Transactions on Parallel and Distributed Systems》;20220801;第33卷(第8期);1775-1786 * |
云计算环境下保护隐私的关键字查询关键技术研究;滕一平;《中国博士学位论文全文数据库 信息科技辑》;20180215(第02期);I139-29 * |
满足隐私需求的服务组合信息流控制方法研究;姜家鑫 等;《计算机科学与探索》;20170615;第12卷(第3期);370-379 * |
隐私计算跨平台互联互通研究与实践;姚明 等;《中国科技信息》;20220815(第16期);140-143 * |
Also Published As
Publication number | Publication date |
---|---|
CN115203487A (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10521505B2 (en) | Cognitive mediator for generating blockchain smart contracts | |
CN106651303B (zh) | 一种基于模板的智能合约处理方法和系统 | |
CN110349004A (zh) | 基于用户节点关系网络的欺诈风险侦测方法及装置 | |
CN112613877B (zh) | 应用于区块链网络的智能合约触发方法、装置及相关设备 | |
CN110134880A (zh) | 评论数据的提供、显示方法、装置、电子设备及存储介质 | |
CN113393553B (zh) | 生成流程图的方法、装置和电子设备 | |
US20210157821A1 (en) | Blockchain-based data processing methods and apparatuses and computer devices | |
CN106375360A (zh) | 一种图数据更新方法、装置及系统 | |
WO2022174517A1 (zh) | 一种人群计数方法、装置、计算机设备及存储介质 | |
CN110363636A (zh) | 基于关系网络的欺诈风险识别方法及装置 | |
CN110348719A (zh) | 一种基于用户信息知识图谱的风险控制方法、装置和电子设备 | |
CN115203487B (zh) | 基于多方安全图的数据处理方法及相关装置 | |
CN112364102A (zh) | 一种基于区块链的大数据交易方法、装置、介质及设备 | |
CN111414490A (zh) | 确定失联修复信息的方法、装置、电子设备和存储介质 | |
CN110555482A (zh) | 基于人工智能的低俗图片识别方法、装置及电子设备 | |
CN111435367A (zh) | 知识图谱的构建方法、系统、设备及存储介质 | |
CN111383097A (zh) | 挖掘个人疑似账户的方法和装置 | |
CN109271564A (zh) | 保单查询方法及设备 | |
CN110363583A (zh) | 一种基于位置信息创建用户消费行为标签的方法、装置和电子设备 | |
CN113591934A (zh) | 业务分析模型的编排方法、装置和设备及存储介质 | |
CN115033599B (zh) | 基于多方安全的图查询方法、系统及相关装置 | |
CN117291722A (zh) | 对象管理方法、相关设备及计算机可读介质 | |
CN112765481A (zh) | 一种数据处理方法、装置、计算机及可读存储介质 | |
CN111191050A (zh) | 知识图谱本体模型构建的方法和装置 | |
CN110059097A (zh) | 数据处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |