CN114564752A - 一种基于图联邦的黑名单传播方法 - Google Patents
一种基于图联邦的黑名单传播方法 Download PDFInfo
- Publication number
- CN114564752A CN114564752A CN202210455537.1A CN202210455537A CN114564752A CN 114564752 A CN114564752 A CN 114564752A CN 202210455537 A CN202210455537 A CN 202210455537A CN 114564752 A CN114564752 A CN 114564752A
- Authority
- CN
- China
- Prior art keywords
- user
- degree
- edge
- user node
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图联邦的黑名单传播方法。它包括以下步骤:发起方与参与方采用隐私集合求交算法对用户信息求交集;参与方根据用户关联表生成有向图,并生成对应的反向混淆图发送给发起方,将反向混淆图的每个边权重用秘密分享算法分享给发起方;发起方将每个节点权重用秘密分享算法分享给参与方;发起方、参与方按照约定的图扩散算法各自进行T轮图扩散;参与方将节点权重秘密份额发送给发起方,发起方计算出节点权重,挑选出节点权重大于阈值的用户节点集合,从参与方获取用户节点集合中用户的信息构成新的黑名单。本发明使得发起方能够利用参与方拥有的用户关系数据挖掘潜在的黑名单,同时保护双方的私有数据隐私。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于图联邦的黑名单传播方法。
背景技术
图联邦学习是在保护用户数据隐私的基础上,针对于图结构数据,进行联邦建模。目前,图联邦方案的实现大多是基于Google提出的FedAvg算法上进行实现,FedAvg的实现架构适用于横向联邦的场景,对于只有一方拥有标签数据的场景无法支持。
标签传播算法基于关系图状的数据,数据中存在打标和未打标的数据。在算法向下传播的过程中,先从打标的数据向下传播,打标过的数据Label是不变的,未打标的数据是需要预测的数据集,它们的label会随着不断有标签信息传播过来而变化。在联邦学习的场景下,若要完成一次节点的传播,首先需要完成多方关系图状数据的聚合,接下来需要计算传播边的权重,若是按照传统的标签传播逻辑进行实现,会存在两个问题,其一是节点的数据安全难以保证,其二是整体的计算量会非常大。
在数学上,一个图(Graph)是表示物件与物件之间的关系的方法,是图论的基本研究对象。一个图看起来是由一些小圆点(称为顶点或结点)和连结这些圆点的直线或曲线(称为边)组成的。如果给图的每条边规定一个方向,那么得到的图称为有向图,其边也称为有向边。
目前,在贷款客户的风险分析方案中,黑名单是一个重要的风险分析指标,在现有技术中,一般基于风控或贷后团队外采的黑名单来确定申请人的历史贷款记录中黑名单的情况来完成黑名单指标的评估,直接以历史贷款记录中的黑名单情况作为黑名单分析结果,不能挖掘出潜在的黑名单群体。
当前普惠金融的市场环境下,线上欺诈风险变化非常频繁,以往单一的个体欺诈已迅速演变成有组织、有规模的团体欺诈和相应的关联风险,而现有方法无法根据千丝万缕的关系挖掘潜在的黑名单群体,这就需要基于网络的全局风险识别能力来覆盖该部分的风险漏洞。
发明内容
本发明为了解决上述技术问题,提供了一种基于图联邦的黑名单传播方法,其使得发起方能够利用参与方拥有的用户关系数据挖掘潜在的黑名单,且整个过程中保护了双方的私有数据隐私和安全。
为了解决上述问题,本发明采用以下技术方案予以实现:
本发明的一种基于图联邦的黑名单传播方法,发起方客户端拥有黑名单信息,参与方客户端拥有用户关联表,包括以下步骤:
S1:参与方客户端给用户关联表中的所有用户依次编号为1、2……n,n为用户关联表中含有的用户总数,发起方客户端与参与方客户端采用隐私集合求交算法将黑名单中的用户信息与用户关联表中的用户信息求交集,发起方客户端获得黑名单中位于交集内的用户对应的编号,并给这些用户对应的编号标记标签;
S2:参与方客户端根据用户关联表生成表示用户关联信息的有向图,有向图中的用户节点用该用户对应的编号表示,设置有向图中的边的边权重,设置每个用户节点的最大入度数、最大出度数都为K,对有向图中的每个用户节点的边进行裁剪,使得有向图中的所有用户节点的入度数和出度数都小于或等于K;
S3:参与方客户端根据有向图以及每个用户节点的最大入度数、最大出度数生成对应的反向混淆图,并将反向混淆图的结构信息发送给发起方客户端,将反向混淆图的每条边对应的边权重用秘密分享算法拆分为第一边权分片和第二边权分片,将每条边对应的第一边权分片发送给发起方客户端;
S4:发起方客户端给反向混淆图中有标记标签的编号对应的用户节点设置对应的节点权重,给没有标记标签的编号对应的用户节点设置对应的节点权重,将每个节点权重用秘密分享算法拆分为第一点权分片和第二点权分片,将每个用户节点对应的第二点权分片发送给参与方客户端;
S5:发起方客户端、参与方客户端按照约定的图扩散算法各自进行T轮图扩散,发起方客户端得到每个用户节点对应的第一点权分片的最新值,参与方客户端得到每个用户节点对应的第二点权分片的最新值;
S6:参与方客户端将每个用户节点对应的第二点权分片的最新值发送给发起方客户端,发起方客户端根据每个用户节点对应的第一点权分片和第二点权分片采用秘密分享算法计算出每个用户节点对应的节点权重,挑选出节点权重大于设定值A的用户节点集合,从参与方客户端获取该用户节点集合中用户的信息,这些用户信息构成新的黑名单。
在本方案中,发起方客户端一般为金融机构,拥有黑名单信息,且拥有黑名单里每个用户对应的标签;参与方客户端一般为运营商,拥有完整的用户关联表。
参与方客户端给用户关联表中的所有用户依次编号,通过用户编号表示用户节点,从而隐藏数据信息,发起方客户端与参与方客户端采用隐私集合求交算法将黑名单中的用户信息与用户关联表中的用户信息求交集后,发起方客户端可以获得黑名单中位于交集内的用户对应的编号,从而给这些编号赋予对应的标签。
参与方客户端根据用户关联表中用户的关系以及用户对应的编号生成表示用户关联信息的有向图,有向图中的用户节点用该用户对应的编号表示,隐藏用户信息,根据用户关联表设置有向图中的边的边权重(边权重记载在用户关联表里),对有向图中的每个用户节点的边进行裁剪,使得有向图中的所有用户节点的入度数和出度数都小于或等于K,接着,根据有向图以及每个用户节点的最大入度数、最大出度数生成对应的反向混淆图,并发送给发起方客户端,反向混淆图混淆了原图结构,使得发起方客户端无法获得原图信息。参与方客户端还利用秘密分享算法将每条边对应的边权重用秘密分享算法拆分为第一边权分片和第二边权分片,第一边权分片分享给发起方客户端,避免边权重信息外泄。
发起方客户端得到反向混淆图后,根据有标签的编号从反向混淆图中找到具有同样编号的用户节点,给这些用户节点赋予跟编号对应的标签值作为节点权重,给没有标记标签的编号对应的用户节点赋予预设的节点权重,并利用秘密分享算法将每个节点权重用秘密分享算法拆分为第一点权分片和第二点权分片,第二点权分片分享给参与方客户端,避免节点权重信息外泄。
之后,发起方客户端、参与方客户端按照同样的图扩散算法各自进行T轮图扩散,T轮图扩散后,发起方客户端得到反向混淆图中每个用户节点对应的第一点权分片的最新值,参与方客户端得到每个用户节点对应的第二点权分片的最新值。发起方客户端接收到参与方客户端发送的每个用户节点对应的第二点权分片的最新值后,利用秘密分享算法还原出每个用户节点对应的节点权重,挑选出节点权重大于设定值A的用户节点集合,用户节点集合中的用户节点对应的用户就是新的黑名单,最后发起方客户端通过明文查询或隐私查询方式从参与方客户端查询用户节点集合中用户的信息。
本方案采用两方去中心的拓扑结构实现图联邦,针对有向图连接度数进行裁剪,大大提高了计算效率,根据有向图生成对应的反向混淆图,混淆了原图结构,使得发起方客户端无法获得原图信息,利用秘密分享算法将每个节点权重、每条边对应的边权重进行拆分,避免节点权重、边权重信息外泄,保护了双方的私有数据隐私和安全。在金融风控领域,作为发起方的金融机构可以利用作为参与方的运营商侧的用户关联图信息,进行黑名单扩散,获取潜在或未发现的黑名单列表。
作为优选,所述隐私集合求交算法为PSI算法。
作为优选,所述步骤S2中对有向图中的每个用户节点的边进行裁剪,使得有向图中的所有用户节点的入度数和出度数都小于或等于K的方法包括以下步骤:
遍历所有用户节点,如果某个用户节点的入度边数量大于K,则将该用户节点的入度边的边权重从大至小排序,保留前K个边权重对应的入度边,删除其他入度边,边权重排序时,相等的边权重前后顺序随机;如果某个用户节点的出度边数量大于K,则将该用户节点的出度边的边权重从大至小排序,保留前K个边权重对应的出度边,删除其他出度边,边权重排序时,相等的边权重前后顺序随机。
作为优选,所述步骤S3中参与方客户端根据有向图以及每个用户节点的最大入度数、最大出度数生成对应的反向混淆图的方法包括以下步骤:
M1:将有向图中每个用户节点的入度边反向为出度边,并计算每个反向的出度边的边权重,计算某个用户节点的某个反向的出度边的边权重的方法如下:
该出度边的边权重为对应原入度边的边权重/该用户节点的原入度数;
M2:遍历所有用户节点,如果某个用户节点的入度边数量d小于K,则从与该用户节点的入度边没有连接的用户节点中随机选择K-d个出度边数量小于K的用户节点,将选出的K-d个用户节点分别向该用户节点连接一条边权重为0的入度边,最终得到所有用户节点的入度数都为K的反向混淆图。
某个用户节点的入度数为该用户节点的入度边的数量,某个用户节点的出度数为该用户节点的出度边的数量。生成反向混淆图时,为保证图混淆的质量,需要使用户节点的入度数为K、出度数不超过K,因为在图混淆时,难以保证所有用户节点的入度数和出度数均为K,因此在混淆时,选取了一种折中的策略,需要使用户节点的入度数为K、出度数不超过K。
作为优选,所述步骤S5中发起方客户端按照约定的图扩散算法进行T轮图扩散的方法如下:
按顺序依次计算编号为1至n的用户节点对应的第一点权分片的最新值,重复执行本步骤T次;
计算编号为g的用户节点对应的第一点权分片的最新值的方法如下,1≤g≤n:
找出编号为g的用户节点的K个入度边,计算每个入度边对应的第一中间结果,得到K个第一中间结果,采用秘密分享算法的加法对编号为g的用户节点对应的第一点权分片的当前值与K个第一中间结果进行累加计算得到累加值,该累加值为编号为g的用户节点对应的第一点权分片的最新值;
计算某个入度边对应的第一中间结果的方法如下:
计算该入度边对应的第一边权分片乘以该入度边的起始用户节点对应的第一点权分片的最新值,得到该入度边对应的第一中间结果;
所述步骤S5中参与方客户端按照约定的图扩散算法进行T轮图扩散的方法如下:
按顺序依次计算编号为1至n的用户节点对应的第二点权分片的最新值,重复执行本步骤T次;
计算编号为g的用户节点对应的第二点权分片的最新值的方法如下,1≤g≤n:
找出编号为g的用户节点的K个入度边,计算每个入度边对应的第二中间结果,得到K个第二中间结果,采用秘密分享算法的加法对编号为g的用户节点对应的第二点权分片的当前值与K个第二中间结果进行累加计算得到累加值,该累加值为编号为g的用户节点对应的第二点权分片的最新值;
计算某个入度边对应的第二中间结果的方法如下:
计算该入度边对应的第二边权分片乘以该入度边的起始用户节点对应的第二点权分片的最新值,得到该入度边对应的第二中间结果。
假设编号为g的用户节点对应的第一点权分片记为[enc(x)]1,编号为g的用户节点对应的第二点权分片记为[enc(x)]2,则enc(x)= [enc(x)]1+[enc(x)]2,x表示编号为g的用户节点对应的节点权重明文值,enc(x)表示采用秘密分享算法加密数值x得到的加密值。
假设编号为g的用户节点的K个入度边依次记为L1、L2、……LK、第r个入度边对应的第一边权分片记为[enc(yr)]1,第r个入度边对应的第二边权分片记为[enc(yr)]2,第r个入度边的起始用户节点对应的第一点权分片最新值记为[enc(zr)]1,第r个入度边的起始用户节点对应的第二点权分片最新值记为[enc(zr)]2;
计算编号为g的用户节点对应的第一点权分片的最新值的公式如下:
[enc(x)]1:= [enc(x)]1+[enc(y1)]1*[enc(z1)]1+[enc(y2)]1*[enc(z2)]1……+[enc(yK)]1*[enc(zK)]1。
计算编号为g的用户节点对应的第二点权分片的最新值的公式如下:
[enc(x)]2:= [enc(x)]2+[enc(y1)]2*[enc(z1)]2+[enc(y2)]2*[enc(z2)]2……+[enc(yK)]2*[enc(zK)]2。
作为优选,所述步骤S6中发起方客户端采用隐私查询方式从参与方客户端查询用户节点集合中用户的信息。
作为优选,所述步骤S6包括以下步骤:
参与方客户端将每个用户节点对应的第二点权分片的最新值发送给发起方客户端,发起方客户端根据每个用户节点对应的第一点权分片和第二点权分片采用秘密分享算法计算出每个用户节点对应的节点权重,挑选出节点权重大于设定值A的第一用户节点集合,挑选出节点权重大于设定值B且小于或等于设定值A的第二用户节点集合,设定值A>设定值B,发起方客户端从参与方客户端获取第一用户节点集合中用户的信息,这些用户信息构成新的黑名单,从参与方客户端获取第二用户节点集合中用户的信息,这些用户信息构成新的灰名单。
本发明的有益效果是:使得发起方能够利用参与方拥有的用户关系数据挖掘潜在的黑名单,采用两方去中心的拓扑结构实现图联邦,整个过程中双方数据没有泄露给对方,保护了双方的私有数据隐私和安全。
附图说明
图1是实施例1的流程图;
图2是实施例1举例的黑名单信息表;
图3是实施例1举例的用户关联表;
图4是实施例1举例的有向图的示意图;
图5是实施例1举例的有向图向反向混淆图转换的中间结果示意图;
图6是实施例1举例的反向混淆图的示意图;
图7是实施例1的生成反向混淆图的流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例1:本实施例的一种不暴露中间结果的私有数据隐匿求交方法,发起方客户端拥有黑名单信息,参与方客户端拥有完整的用户关联表,如图1所示,包括以下步骤:
S1:参与方客户端给用户关联表中的所有用户依次编号为1、2……n,n为用户关联表中含有的用户总数,发起方客户端与参与方客户端采用隐私集合求交算法(PSI算法)将黑名单中的用户信息与用户关联表中的用户信息求交集,发起方客户端获得黑名单中位于交集内的用户对应的编号,并给这些用户对应的编号标记对应的标签;
S2:参与方客户端根据用户关联表中用户的关系以及用户对应的编号生成表示用户关联信息的有向图,有向图中的用户节点用该用户对应的编号表示,根据用户关联表设置有向图中的边的边权重,设置每个用户节点的最大入度数、最大出度数都为K,对有向图中的每个用户节点的边进行裁剪,使得有向图中的所有用户节点的入度数和出度数都小于或等于K;
对有向图中的每个用户节点的边进行裁剪,使得有向图中的所有用户节点的入度数和出度数都小于或等于K的方法包括以下步骤:
遍历所有用户节点,如果某个用户节点的入度边数量大于K,则将该用户节点的入度边的边权重从大至小排序,保留前K个边权重对应的入度边,删除其他入度边,边权重排序时,相等的边权重前后顺序随机;如果某个用户节点的出度边数量大于K,则将该用户节点的出度边的边权重从大至小排序,保留前K个边权重对应的出度边,删除其他出度边,边权重排序时,相等的边权重前后顺序随机;
S3:参与方客户端根据有向图以及每个用户节点的最大入度数、最大出度数生成对应的反向混淆图,并将反向混淆图的结构信息发送给发起方客户端,将反向混淆图的每条边对应的边权重用秘密分享算法拆分为第一边权分片和第二边权分片,将每条边对应的第一边权分片发送给发起方客户端;
如图7所示,参与方客户端根据有向图以及每个用户节点的最大入度数、最大出度数生成对应的反向混淆图的方法包括以下步骤:
M1:将有向图中每个用户节点的入度边反向为出度边,并计算每个反向的出度边的边权重,计算某个用户节点的某个反向的出度边的边权重的方法如下:
该出度边的边权重为对应原入度边的边权重/该用户节点的原入度数,某个用户节点的入度数为该用户节点的入度边的数量,某个用户节点的出度数为该用户节点的出度边的数量;
M2:遍历所有用户节点,如果某个用户节点的入度边数量d小于K,则从与该用户节点的入度边没有连接的用户节点中随机选择K-d个出度边数量小于K的用户节点,将选出的K-d个用户节点分别向该用户节点连接一条边权重为0的入度边,最终得到所有用户节点的入度数都为K的反向混淆图;
S4:发起方客户端给反向混淆图中有标记标签的编号对应的用户节点设置对应的节点权重,给没有标记标签的编号对应的用户节点设置对应的节点权重,将每个节点权重用秘密分享算法拆分为第一点权分片和第二点权分片,将每个用户节点对应的第二点权分片发送给参与方客户端;
S5:发起方客户端、参与方客户端按照约定的图扩散算法各自进行T轮图扩散,发起方客户端得到每个用户节点对应的第一点权分片的最新值,参与方客户端得到每个用户节点对应的第二点权分片的最新值;
S6:参与方客户端将每个用户节点对应的第二点权分片的最新值发送给发起方客户端,发起方客户端根据每个用户节点对应的第一点权分片和第二点权分片采用秘密分享算法计算出每个用户节点对应的节点权重,挑选出节点权重大于设定值A的用户节点集合,发起方客户端采用明文查询或隐私查询方式从参与方客户端查询用户节点集合中用户的信息,这些用户信息构成新的黑名单。
在本方案中,发起方客户端一般为金融机构,拥有黑名单信息,且拥有黑名单里每个用户对应的标签;参与方客户端一般为运营商,拥有完整的用户关联表。
参与方客户端给用户关联表中的所有用户依次编号,通过用户编号表示用户节点,从而隐藏数据信息,发起方客户端与参与方客户端采用隐私集合求交算法将黑名单中的用户信息与用户关联表中的用户信息求交集后,发起方客户端可以获得黑名单中位于交集内的用户对应的编号,从而给这些编号赋予对应的标签。
参与方客户端根据用户关联表中用户的关系以及用户对应的编号生成表示用户关联信息的有向图,有向图中的用户节点用该用户对应的编号表示,隐藏用户信息,根据用户关联表设置有向图中的边的边权重(边权重记载在用户关联表里),对有向图中的每个用户节点的边进行裁剪,使得有向图中的所有用户节点的入度数和出度数都小于或等于K,接着,根据有向图以及每个用户节点的最大入度数、最大出度数生成对应的反向混淆图,并发送给发起方客户端,反向混淆图混淆了原图结构,使得发起方客户端无法获得原图信息。生成反向混淆图时,为保证图混淆的质量,需要使用户节点的入度数为K、出度数不超过K,因为在图混淆时,难以保证所有用户节点的入度数和出度数均为K,因此在混淆时,选取了一种折中的策略,需要使用户节点的入度数为K、出度数不超过K。
参与方客户端还利用秘密分享算法将每条边对应的边权重用秘密分享算法拆分为第一边权分片和第二边权分片,第一边权分片分享给发起方客户端,避免边权重信息外泄。发起方客户端得到反向混淆图后,根据有标签的编号从反向混淆图中找到具有同样编号的用户节点,给这些用户节点赋予跟编号对应的标签值作为节点权重,给没有标记标签的编号对应的用户节点设置赋予预设的节点权重,并利用秘密分享算法将每个节点权重用秘密分享算法拆分为第一点权分片和第二点权分片,第二点权分片分享给参与方客户端,避免节点权重信息外泄。
之后,发起方客户端、参与方客户端按照同样的图扩散算法各自进行T轮图扩散,T轮图扩散后,发起方客户端得到反向混淆图中每个用户节点对应的第一点权分片的最新值,参与方客户端得到每个用户节点对应的第二点权分片的最新值。发起方客户端接收到参与方客户端发送的每个用户节点对应的第二点权分片的最新值后,利用秘密分享算法还原出每个用户节点对应的节点权重,挑选出节点权重大于设定值A的用户节点集合,用户节点集合中的用户节点对应的用户就是新的黑名单,最后发起方客户端通过明文查询或隐私查询方式从参与方客户端查询用户节点集合中用户的信息。
本方案采用两方去中心的拓扑结构实现图联邦,针对有向图连接度数进行裁剪,大大提高了计算效率,根据有向图生成对应的反向混淆图,混淆了原图结构,使得发起方客户端无法获得原图信息,利用秘密分享算法将每个节点权重、每条边对应的边权重进行拆分,避免节点权重、边权重信息外泄,保护了双方的私有数据隐私和安全。在金融风控领域,作为发起方的金融机构可以利用作为参与方的运营商侧的用户关联图信息,进行黑名单扩散,获取潜在或未发现的黑名单列表。
步骤S5中发起方客户端按照约定的图扩散算法进行T轮图扩散的方法如下:
按编号顺序依次计算编号为1至n的用户节点对应的第一点权分片的最新值(依次得到每个用户节点对应的第一点权分片的最新值),重复执行本步骤T次;
计算编号为g的用户节点对应的第一点权分片的最新值的方法如下,1≤g≤n:
找出编号为g的用户节点的K个入度边,计算每个入度边对应的第一中间结果,得到K个第一中间结果,采用秘密分享算法的加法对编号为g的用户节点对应的第一点权分片的当前值与K个第一中间结果进行累加计算得到累加值,该累加值为编号为g的用户节点对应的第一点权分片的最新值;
计算某个入度边对应的第一中间结果的方法如下:
计算该入度边对应的第一边权分片乘以该入度边的起始用户节点对应的第一点权分片的最新值,得到该入度边对应的第一中间结果。
步骤S5中参与方客户端按照约定的图扩散算法进行T轮图扩散的方法如下:
按编号顺序依次计算编号为1至n的用户节点对应的第二点权分片的最新值(依次得到每个用户节点对应的第二点权分片的最新值),重复执行本步骤T次;
计算编号为g的用户节点对应的第二点权分片的最新值的方法如下,1≤g≤n:
找出编号为g的用户节点的K个入度边,计算每个入度边对应的第二中间结果,得到K个第二中间结果,采用秘密分享算法的加法对编号为g的用户节点对应的第二点权分片的当前值与K个第二中间结果进行累加计算得到累加值,该累加值为编号为g的用户节点对应的第二点权分片的最新值;
计算某个入度边对应的第二中间结果的方法如下:
计算该入度边对应的第二边权分片乘以该入度边的起始用户节点对应的第二点权分片的最新值,得到该入度边对应的第二中间结果。
假设编号为g的用户节点对应的第一点权分片记为[enc(x)]1,编号为g的用户节点对应的第二点权分片记为[enc(x)]2,则enc(x)= [enc(x)]1+[enc(x)]2,x表示编号为g的用户节点对应的节点权重明文值,enc(x)表示采用秘密分享算法加密数值x得到的加密值。
假设编号为g的用户节点的K个入度边依次记为L1、L2、……LK、第r个入度边对应的第一边权分片记为[enc(yr)]1,第r个入度边对应的第二边权分片记为[enc(yr)]2,第r个入度边的起始用户节点对应的第一点权分片最新值记为[enc(zr)]1,第r个入度边的起始用户节点对应的第二点权分片最新值记为[enc(zr)]2;
计算编号为g的用户节点对应的第一点权分片的最新值的公式如下:
[enc(x)]1:= [enc(x)]1+[enc(y1)]1*[enc(z1)]1+[enc(y2)]1*[enc(z2)]1……+[enc(yK)]1*[enc(zK)]1。
计算编号为g的用户节点对应的第二点权分片的最新值的公式如下:
[enc(x)]2:= [enc(x)]2+[enc(y1)]2*[enc(z1)]2+[enc(y2)]2*[enc(z2)]2……+[enc(yK)]2*[enc(zK)]2。
T轮图扩散后,参与方客户端将编号为g的用户节点对应的第二点权分片的最新值[enc(x)]2发送给发起方客户端,发起方客户端计算出enc(x)=[enc(x)]1+[enc(x)]2,利用秘密分享算法解密后得到编号为g的用户节点对应的节点权重x的明文值。
举例说明:
发起方客户端为金融机构,参与方客户端为运营商,发起方客户端拥有的黑名单信息,如图2所示,参与方客户端拥有的用户关联表,如图3所示。
参与方客户端给用户关联表中的所有用户依次编号,ID为1001的用户编号为1,ID为1002的用户编号为2,ID为1003的用户编号为3,ID为1004的用户编号为4,ID为1005的用户编号为5,ID为1006的用户编号为6。
发起方客户端与参与方客户端采用隐私集合求交算法将黑名单中的用户信息与用户关联表中的用户信息求交集,交集为ID为1001、1002、1003的用户,所以发起方客户端获得黑名单中ID为1001的用户对应的编号为1、ID为1002的用户对应的编号为2、ID为1003的用户对应的编号为3,并给编号1、2、3赋予对应的标签值1作为节点权重。
参与方客户端根据用户关联表生成表示用户关联信息的有向图,如图4所示,有向图中的用户节点用该用户对应的编号表示,图4中每条边上的数值就是该边的边权重,设置每个用户节点的最大入度数、最大出度数都为3。
将有向图中每个用户节点的入度边反向为出度边,并计算每个反向的出度边的边权重,反向的出度边的边权重为对应原入度边的边权重除以该用户节点的原入度数,最终得到的图如图5所示。即先将图4中的每条边反向,接着计算反向后的每条边的边权重,例如编号为2的用户节点的两个入度边反向为两个出度边,两个出度边分别指向编号为4、5的用户节点,编号为2的用户节点指向编号为4的用户节点的出度边的对应原入度边的边权重为1、编号为2的用户节点的原入度数为2,所以编号为2的用户节点指向编号为4的用户节点的出度边的边权重=1/2=0.5。
遍历所有用户节点,如果某个用户节点的入度边数量d小于3,则从与该用户节点的入度边没有连接的用户节点中随机选择3-d个出度边数量小于3的用户节点,将选出的3-d个用户节点分别向该用户节点连接一条边权重为0的入度边,最终得到所有用户节点的入度数都为3的反向混淆图,如图6所示。例如,图5中的编号为2的用户节点的入度边数量d=1,则从与编号为2的用户节点的入度边没有连接的用户节点中随机选择2个出度边数量小于3的用户节点,即从编号为3、4、5、6中随机选择2个用户节点,这里选择编号为3、6的用户节点,将编号为3的用户节点向编号为2的用户节点连接一条边权重为0的入度边(用虚线表示),将编号为6的用户节点向编号为2的用户节点连接一条边权重为0的入度边(用虚线表示),依次对编号为1、2、3、4、5、6的用户节点都进行上述操作,遍历所有用户节点后,最终得到所有用户节点的入度数都为3的反向混淆图,即图6。
参与方客户端将反向混淆图的每条边对应的边权重用秘密分享算法拆分为第一边权分片和第二边权分片,将每条边对应的第一边权分片发送给发起方客户端。
发起方客户端给编号1、2、3对应的用户节点的节点权重都设置为1,给编号4、5、6对应的用户节点的节点权重都设置为0,将每个节点权重用秘密分享算法拆分为第一点权分片和第二点权分片,将每个用户节点对应的第二点权分片发送给参与方客户端。
发起方客户端、参与方客户端按照约定的图扩散算法各自进行T轮图扩散,发起方客户端得到每个用户节点对应的第一点权分片的最新值,参与方客户端得到每个用户节点对应的第二点权分片的最新值。
发起方客户端按照约定的图扩散算法进行第一轮图扩散的具体方法如下:
计算编号为1的用户节点的节点权重:采用秘密分享算法的加法计算
[enc(1)]1+[enc(1)]1*[enc(0)]1+[enc(0)]1*[enc(0)]1+[enc(0)]1*[enc(0)]1,得到编号为1的用户节点的节点权重值[enc(1)]1;
同理,计算出编号为2的用户节点的节点权重:
[enc(1)]1+[enc(1)]1*[enc(1)]1+[enc(1)]1*[enc(0)]1+[enc(0)]1*[enc(0)]1=[enc(2)]1;
编号为3的用户节点的节点权重:
[enc(1)]1+[enc(1)]1*[enc(0)]1+[enc(0)]1*[enc(0)]1+[enc(0)]1*[enc(0)]1=[enc(1)]1;
编号为4的用户节点的节点权重:
[enc(0)]1+[enc(2)]1*[enc(0.5)]1+[enc(0)]1*[enc(0)]1+[enc(0)]1*[enc(0)]1=[enc(1)]1;
编号为5的用户节点的节点权重:
[enc(0)]1+[enc(1)]1*[enc(1)]1+[enc(2)]1*[enc(0.5)]1+[enc(0)]1*[enc(0)]1=[enc(2)]1;
编号为6的用户节点的节点权重:
[enc(0)]1+[enc(2)]1*[enc(1)]1+[enc(2)]1*[enc(0)]1+[enc(1)]1*[enc(1)]1=[enc(3)]1;
完成第一轮图扩散。
按照上述方法发起方客户端、参与方客户端各自进行T轮图扩散,发起方客户端得到每个用户节点对应的第一点权分片的最新值,参与方客户端得到每个用户节点对应的第二点权分片的最新值,参与方客户端将每个用户节点对应的第二点权分片的最新值发送给发起方客户端,发起方客户端根据每个用户节点对应的第一点权分片和第二点权分片采用秘密分享算法计算出每个用户节点对应的节点权重,挑选出节点权重大于设定值A的用户节点集合,从参与方客户端获取该用户节点集合中用户的信息,这些用户信息构成新的黑名单。
实施例2:本实施例的一种不暴露中间结果的私有数据隐匿求交方法,本实施例的方法与实施例1基本相同,不同之处在于:
步骤S6包括以下步骤:
参与方客户端将每个用户节点对应的第二点权分片的最新值发送给发起方客户端,发起方客户端根据每个用户节点对应的第一点权分片和第二点权分片采用秘密分享算法计算出每个用户节点对应的节点权重,挑选出节点权重大于设定值A的第一用户节点集合,挑选出节点权重大于设定值B且小于或等于设定值A的第二用户节点集合,设定值A>设定值B,发起方客户端从参与方客户端获取第一用户节点集合中用户的信息,这些用户信息构成新的黑名单,从参与方客户端获取第二用户节点集合中用户的信息,这些用户信息构成新的灰名单。
在本方案中,发起方客户端最终可以获得新的黑名单和灰名单,灰名单介于白名单和黑名单之间,灰名单为存在失约风险的用户,会被信审高度关注,信贷申请会被更加严格的审查。
Claims (7)
1.一种基于图联邦的黑名单传播方法,发起方客户端拥有黑名单信息,参与方客户端拥有用户关联表,其特征在于,包括以下步骤:
S1:参与方客户端给用户关联表中的所有用户依次编号为1、2……n,n为用户关联表中含有的用户总数,发起方客户端与参与方客户端采用隐私集合求交算法将黑名单中的用户信息与用户关联表中的用户信息求交集,发起方客户端获得黑名单中位于交集内的用户对应的编号,并给这些用户对应的编号标记标签;
S2:参与方客户端根据用户关联表生成表示用户关联信息的有向图,有向图中的用户节点用该用户对应的编号表示,设置有向图中的边的边权重,设置每个用户节点的最大入度数、最大出度数都为K,对有向图中的每个用户节点的边进行裁剪,使得有向图中的所有用户节点的入度数和出度数都小于或等于K;
S3:参与方客户端根据有向图以及每个用户节点的最大入度数、最大出度数生成对应的反向混淆图,并将反向混淆图的结构信息发送给发起方客户端,将反向混淆图的每条边对应的边权重用秘密分享算法拆分为第一边权分片和第二边权分片,将每条边对应的第一边权分片发送给发起方客户端;
S4:发起方客户端给反向混淆图中有标记标签的编号对应的用户节点设置对应的节点权重,给没有标记标签的编号对应的用户节点设置对应的节点权重,将每个节点权重用秘密分享算法拆分为第一点权分片和第二点权分片,将每个用户节点对应的第二点权分片发送给参与方客户端;
S5:发起方客户端、参与方客户端按照约定的图扩散算法各自进行T轮图扩散,发起方客户端得到每个用户节点对应的第一点权分片的最新值,参与方客户端得到每个用户节点对应的第二点权分片的最新值;
S6:参与方客户端将每个用户节点对应的第二点权分片的最新值发送给发起方客户端,发起方客户端根据每个用户节点对应的第一点权分片和第二点权分片采用秘密分享算法计算出每个用户节点对应的节点权重,挑选出节点权重大于设定值A的用户节点集合,从参与方客户端获取该用户节点集合中用户的信息,这些用户信息构成新的黑名单。
2.根据权利要求1所述的一种基于图联邦的黑名单传播方法,其特征在于,所述隐私集合求交算法为PSI算法。
3.根据权利要求1所述的一种基于图联邦的黑名单传播方法,其特征在于,所述步骤S2中对有向图中的每个用户节点的边进行裁剪,使得有向图中的所有用户节点的入度数和出度数都小于或等于K的方法包括以下步骤:
遍历所有用户节点,如果某个用户节点的入度边数量大于K,则将该用户节点的入度边的边权重从大至小排序,保留前K个边权重对应的入度边,删除其他入度边,边权重排序时,相等的边权重前后顺序随机;如果某个用户节点的出度边数量大于K,则将该用户节点的出度边的边权重从大至小排序,保留前K个边权重对应的出度边,删除其他出度边,边权重排序时,相等的边权重前后顺序随机。
4.根据权利要求3所述的一种基于图联邦的黑名单传播方法,其特征在于,所述步骤S3中参与方客户端根据有向图以及每个用户节点的最大入度数、最大出度数生成对应的反向混淆图的方法包括以下步骤:
M1:将有向图中每个用户节点的入度边反向为出度边,并计算每个反向的出度边的边权重,计算某个用户节点的某个反向的出度边的边权重的方法如下:
该出度边的边权重为对应原入度边的边权重/该用户节点的原入度数;
M2:遍历所有用户节点,如果某个用户节点的入度边数量d小于K,则从与该用户节点的入度边没有连接的用户节点中随机选择K-d个出度边数量小于K的用户节点,将选出的K-d个用户节点分别向该用户节点连接一条边权重为0的入度边,最终得到所有用户节点的入度数都为K的反向混淆图。
5.根据权利要求4所述的一种基于图联邦的黑名单传播方法,其特征在于,所述步骤S5中发起方客户端按照约定的图扩散算法进行T轮图扩散的方法如下:
按顺序依次计算编号为1至n的用户节点对应的第一点权分片的最新值,重复执行本步骤T次;
计算编号为g的用户节点对应的第一点权分片的最新值的方法如下,1≤g≤n:
找出编号为g的用户节点的K个入度边,计算每个入度边对应的第一中间结果,得到K个第一中间结果,采用秘密分享算法的加法对编号为g的用户节点对应的第一点权分片的当前值与K个第一中间结果进行累加计算得到累加值,该累加值为编号为g的用户节点对应的第一点权分片的最新值;
计算某个入度边对应的第一中间结果的方法如下:
计算该入度边对应的第一边权分片乘以该入度边的起始用户节点对应的第一点权分片的最新值,得到该入度边对应的第一中间结果;
所述步骤S5中参与方客户端按照约定的图扩散算法进行T轮图扩散的方法如下:
按顺序依次计算编号为1至n的用户节点对应的第二点权分片的最新值,重复执行本步骤T次;
计算编号为g的用户节点对应的第二点权分片的最新值的方法如下,1≤g≤n:
找出编号为g的用户节点的K个入度边,计算每个入度边对应的第二中间结果,得到K个第二中间结果,采用秘密分享算法的加法对编号为g的用户节点对应的第二点权分片的当前值与K个第二中间结果进行累加计算得到累加值,该累加值为编号为g的用户节点对应的第二点权分片的最新值;
计算某个入度边对应的第二中间结果的方法如下:
计算该入度边对应的第二边权分片乘以该入度边的起始用户节点对应的第二点权分片的最新值,得到该入度边对应的第二中间结果。
6.根据权利要求1所述的一种基于图联邦的黑名单传播方法,其特征在于,所述步骤S6中发起方客户端采用隐私查询方式从参与方客户端查询用户节点集合中用户的信息。
7.根据权利要求1所述的一种基于图联邦的黑名单传播方法,其特征在于,所述步骤S6包括以下步骤:
参与方客户端将每个用户节点对应的第二点权分片的最新值发送给发起方客户端,发起方客户端根据每个用户节点对应的第一点权分片和第二点权分片采用秘密分享算法计算出每个用户节点对应的节点权重,挑选出节点权重大于设定值A的第一用户节点集合,挑选出节点权重大于设定值B且小于或等于设定值A的第二用户节点集合,设定值A>设定值B,发起方客户端从参与方客户端获取第一用户节点集合中用户的信息,这些用户信息构成新的黑名单,从参与方客户端获取第二用户节点集合中用户的信息,这些用户信息构成新的灰名单。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210455537.1A CN114564752B (zh) | 2022-04-28 | 2022-04-28 | 一种基于图联邦的黑名单传播方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210455537.1A CN114564752B (zh) | 2022-04-28 | 2022-04-28 | 一种基于图联邦的黑名单传播方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114564752A true CN114564752A (zh) | 2022-05-31 |
CN114564752B CN114564752B (zh) | 2022-07-26 |
Family
ID=81721563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210455537.1A Active CN114564752B (zh) | 2022-04-28 | 2022-04-28 | 一种基于图联邦的黑名单传播方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114564752B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115080807A (zh) * | 2022-07-20 | 2022-09-20 | 北京达佳互联信息技术有限公司 | 数据查询方法、装置及电子设备 |
CN115203487A (zh) * | 2022-09-15 | 2022-10-18 | 深圳市洞见智慧科技有限公司 | 基于多方安全图的数据处理方法及相关装置 |
CN117592112A (zh) * | 2024-01-17 | 2024-02-23 | 蓝象智联(杭州)科技有限公司 | 一种基于图融合的联邦页面排名计算方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021114921A1 (zh) * | 2019-12-13 | 2021-06-17 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的关系网络构建方法及装置 |
CN113449336A (zh) * | 2021-06-11 | 2021-09-28 | 电子科技大学 | 一种在区块链中基于安全多方隐私保护的共享数据处理方法 |
CN113779615A (zh) * | 2021-11-15 | 2021-12-10 | 蓝象智联(杭州)科技有限公司 | 一种安全的去中心化的图联邦学习方法 |
CN114077901A (zh) * | 2021-11-23 | 2022-02-22 | 山东大学 | 一种基于聚类的图联邦学习的用户位置预测框架 |
CN114239074A (zh) * | 2022-02-25 | 2022-03-25 | 蓝象智联(杭州)科技有限公司 | 一种不暴露中间结果的私有数据隐匿求交方法 |
-
2022
- 2022-04-28 CN CN202210455537.1A patent/CN114564752B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021114921A1 (zh) * | 2019-12-13 | 2021-06-17 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的关系网络构建方法及装置 |
CN113449336A (zh) * | 2021-06-11 | 2021-09-28 | 电子科技大学 | 一种在区块链中基于安全多方隐私保护的共享数据处理方法 |
CN113779615A (zh) * | 2021-11-15 | 2021-12-10 | 蓝象智联(杭州)科技有限公司 | 一种安全的去中心化的图联邦学习方法 |
CN114077901A (zh) * | 2021-11-23 | 2022-02-22 | 山东大学 | 一种基于聚类的图联邦学习的用户位置预测框架 |
CN114239074A (zh) * | 2022-02-25 | 2022-03-25 | 蓝象智联(杭州)科技有限公司 | 一种不暴露中间结果的私有数据隐匿求交方法 |
Non-Patent Citations (2)
Title |
---|
ZELI GUAN等: "《2021 IEEE 7th International Conference on Cloud Computing and Intelligent Systems (CCIS)》", 14 April 2022 * |
董业等: "基于秘密分享和梯度选择的高效安全联邦学习", 《计算机研究与发展》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115080807A (zh) * | 2022-07-20 | 2022-09-20 | 北京达佳互联信息技术有限公司 | 数据查询方法、装置及电子设备 |
CN115203487A (zh) * | 2022-09-15 | 2022-10-18 | 深圳市洞见智慧科技有限公司 | 基于多方安全图的数据处理方法及相关装置 |
CN115203487B (zh) * | 2022-09-15 | 2022-12-20 | 深圳市洞见智慧科技有限公司 | 基于多方安全图的数据处理方法及相关装置 |
CN117592112A (zh) * | 2024-01-17 | 2024-02-23 | 蓝象智联(杭州)科技有限公司 | 一种基于图融合的联邦页面排名计算方法 |
CN117592112B (zh) * | 2024-01-17 | 2024-04-05 | 蓝象智联(杭州)科技有限公司 | 一种基于图融合的联邦页面排名计算方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114564752B (zh) | 2022-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114564752B (zh) | 一种基于图联邦的黑名单传播方法 | |
EP3075098B1 (en) | Server-aided private set intersection (psi) with data transfer | |
CN112906044B (zh) | 多方安全计算方法、装置、设备及存储介质 | |
CN113518092B (zh) | 实现多方隐私的集合交集方法 | |
CN111984984B (zh) | 基于集合运算的保密统计数据共享方法及系统 | |
CN107135061B (zh) | 一种5g通信标准下的分布式隐私保护机器学习方法 | |
CN112966283B (zh) | 基于多方集合求交集的垂直分区数据pparm方法 | |
CN114650134A (zh) | 一种基于秘密共享的纵向隐私保护逻辑回归方法 | |
CN112737772B (zh) | 私有集合交集数据的安全统计方法、终端设备及系统 | |
CN112532383B (zh) | 一种基于秘密分享的隐私保护计算方法 | |
CN116506124A (zh) | 多方隐私求交系统及方法 | |
JP2024515332A (ja) | 秘匿マルチパーティ計算に基づく極値の決定方法、装置、コンピュータ機器及びコンピュータプログラム | |
Liu et al. | Color image encryption based on deep learning and block embedding | |
CN113962286A (zh) | 一种基于分段函数的去中心化逻辑回归分类预测方法 | |
Sheikh et al. | A modified CK-secure sum protocol for multi-party computation | |
Biham | Advances in Cryptology–EUROCRYPT 2003: International Conference on the Theory and Applications of Cryptographic Techniques, Warsaw, Poland, May 4-8, 2003, Proceedings | |
Salam et al. | Efficient data collaboration using multi-party privacy preserving machine learning framework | |
CN116248247A (zh) | 一种基于国密sm2的加法同态加密的隐私集合交集方法 | |
Abdullah et al. | Review of image encryption using different techniques | |
Sanon et al. | Cross-Silo Horizontal Federated Learning Methods in Network Traffic Analysis | |
Tezuka et al. | A fast privacy-preserving multi-layer perceptron using ring-lwe-based homomorphic encryption | |
CN117592112B (zh) | 一种基于图融合的联邦页面排名计算方法 | |
CN114615090B (zh) | 基于跨域标签传播的数据处理方法及系统、设备及介质 | |
CN117272394B (zh) | 债券市场数据共享方法及装置、存储介质及电子设备 | |
RU2774815C2 (ru) | Способ безопасной передачи частей данных, описывающих единый объект и хранящихся в разных базах данных |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |