CN111046429B - 基于隐私保护的关系网络构建方法及装置 - Google Patents
基于隐私保护的关系网络构建方法及装置 Download PDFInfo
- Publication number
- CN111046429B CN111046429B CN201911284478.0A CN201911284478A CN111046429B CN 111046429 B CN111046429 B CN 111046429B CN 201911284478 A CN201911284478 A CN 201911284478A CN 111046429 B CN111046429 B CN 111046429B
- Authority
- CN
- China
- Prior art keywords
- composite
- nodes
- node
- candidate
- privacy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 239000002131 composite material Substances 0.000 claims abstract description 271
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 46
- 150000001875 compounds Chemical class 0.000 claims description 33
- 238000009826 distribution Methods 0.000 claims description 31
- 238000001514 detection method Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 10
- 230000002146 bilateral effect Effects 0.000 claims description 9
- 230000001186 cumulative effect Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000005295 random walk Methods 0.000 claims description 3
- 238000002922 simulated annealing Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims 1
- 230000004931 aggregating effect Effects 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 67
- 238000010586 diagram Methods 0.000 description 10
- 230000006399 behavior Effects 0.000 description 8
- 230000035945 sensitivity Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Computing Systems (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供了基于隐私保护的关系网络构建方法和装置,可以在提供用户关系网络时,将用户关系预先进行聚合,添加噪声,形成满足差分隐私的关系网络,从而在有效保护用户关系隐私的基础上,减少数据处理量,提高用户关系网络的有效性。进一步地,基于隐私保护的关系网络用于用户团体发掘时,不局限于特定的数据持有方,任意有计算能力的数据处理方都可以通过团体识别模型识别关系网络中的候选复合节点集合,并经由初始关系网络的数据持有方查询确定出用户团体中包含的用户ID,以提供给相应业务方,如此,可以在保证数据安全的基础上增加团体识别的便利性。
Description
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及基于隐私保护的关系网络构建方法及装置。
背景技术
随着大数据化的发展趋势,关系网络的应用越来越广泛。关系网络往往用于描述多个实体之间的关联关系。例如,将用户作为实体,关系网络中的每个节点对应有个用户,节点之间的边对应用户之间的连接关系,可以描述出一个人际关系网络。关系网络应用过程中,可能涉及一些团体活动数据,例如,通过人际关系网络输出具有聚集性的账户数据,作为打击批量攻击和有组织的黑产攻击的有效手段。这种团体活动数据如果涉及诸如好友数据、转账数据、同设备环境操作数据等具有用户隐私的关系数据,那么用户隐私的关系数据就非常容易被反解析甚至泄露。
发明内容
本说明书一个或多个实施例描述的基于隐私保护的关系网络构建方法及装置,可以用于解决背景技术部分提到的一个或多个问题。
根据第一方面,提供了一种基于隐私保护的关系网络构建方法,其中,其中,基于隐私保护的关系网络通过多个复合节点构成,所述多个复合节点之间通过连接边描述关联关系,单个复合节点对应候选关系网络中的多个原始节点,各个原始节点分别对应各个用户,原始节点之间的连接边描述相应用户之间的关联关系;所述方法包括:
获取所述候选关系网络;
将所述候选关系网络中的原始节点按照预设的复合节点容量,划分出多个复合节点,其中,单个复合节点对应的原始节点数量不超过所述复合节点容量;
针对所述多个复合节点,检测两两之间是否存在连接边;
基于检测结果,利用差分隐私方式对所述多个复合节点添加边和权重,从而构建基于隐私保护的关系网络。
在一个实施例中,所述候选关系网络通过以下方式获取:
获取基于第三业务方提供的多个候选用户的用户标识;
基于所述用户标识,从初始关系网络中筛选出所述多个候选用户对应的原始节点,及其预定阶数内的邻居节点,作为候选节点;
将所述候选节点构成的关系网络,作为候选关系网络。
在一个实施例中,所述将所述候选关系网络中的原始节点按照预设的复合节点容量,划分出多个复合节点包括:
确定所述候选关系网络中的原始节点数量;
根据所述原始节点数量和所述复合节点容量,确定第一数量,所述第一数量为,在各个复合节点对应的原始节点数量与所述复合节点容量相等的情况下,最多可以划分的复合节点数量;
从所述候选关系网络中的原始节点中,随机选取所述第一数量的原始节点,作为各个复合节点的基准节点;
对各个基准节点,分别从所述候选关系网络中确定第二数量的原始节点,和相应基准节点一起作为相应的复合节点,所述第二数量比所述第一数量小1个单位。
在一个实施例中,所述多个复合节点包括第一复合节点和第二复合节点,所述第一复合节点对应有第一原始节点,所述第二复合节点对应有第二原始节点,所述针对所述多个复合节点,检测两两之间是否存在连接边包括:
在所述第一原始节点和所述第二原始节点之间存在连接边的情况下,确定所述第一复合节点和所述第二复合节点之间存在连接边。
在一个实施例中,所述检测结果包括,各个复合节点之间的连接边集合,以及所述连接边集合中的连接边数量,所述基于检测结果,利用差分隐私方式对所述多个复合节点添加边和权重包括:
对所述连接边数量添加在第一隐私代价下的噪声。
在一个实施例中,所述在第一隐私代价下的噪声满足缩放参数为所述第一隐私代价的倒数的拉普拉斯分布。
在一个实施例中,所述在第一隐私代价下的噪声为,通过预定的随机算法生成第一随机值,在拉普拉斯分布的自变量为所述第一随机值时,拉普拉斯分布的因变量值。
在一个实施例中,所述基于检测结果,利用差分隐私方式对所述多个复合节点添加边和权重还包括:
从所述连接边集合中选择第三数量的连接边;
为各个复合节点构造第四数量的噪声连接边,所述噪声连接边是所述连接边集合之外的连接边。
在一个实施例中,对所述连接边数量添加在第一隐私代价下的噪声后得到第五数量,各个复合节点之间的最大连接边数量为第六数量,所述第三数量和所述第四数量的比值,与所述第五数量与所述第六数量的比值一致。
在一个实施例中,所述连接边集合中包括第一连接边,所述连接边集合中的连接边分别对应有给定一致的初始权重,所述从所述连接边集合中选择第三数量的连接边包括:
对于所述第一连接边,在给定的初始权重上,添加符合基于第二隐私代价的累积概率满足双边几何分布的噪声,得到相应的第一噪声权重,所述第二隐私代价是预定的整体隐私代价与所述第一隐私代价的差;
在所述第一噪声权重大于第一权重阈值的情况下,选择所述第一连接边作为基于隐私保护的关系网络中的连接边,并将所述第一噪声权重作为所述第一连接边的权重。
在一个实施例中,所述给定的初始权重为1,并且,通过以下方式为所述第一连接边添加噪声:
通过预定的随机算法为集合双边分布生成预定区间内的随机值;
确定双边几何分布的自变量在得到所述随机值的情况下自变量的取值;
为所述第一连接边添加噪声后的权重为所述初始权重与所述自变量的取值的和。
在一个实施例中,所述第一权重阈值是对所述连接边集合中的各个连接边,按照所述第二隐私代价下的高通滤波器进行单边滤波情况下,得到第一比例的连接边的自变量阈值,其中,所述第一比例是以下第一项与第二项的比值:
所述第一项为基于对所述连接边数量添加在第一隐私代价下的噪声后得到的第五数量;
所述第二项为各个复合节点之间的最大连接边数量。
在一个实施例中,所述第四数量是按照第二隐私代价下的高通滤波器的过滤比例确定的,所述第二隐私代价是预定的整体隐私代价与所述第一隐私代价的差,所述第四数量与以下项的差的比值与所述第二隐私代价下的高通滤波器的过滤比例一致:各个复合节点之间的最大连接边数量、基于对所述连接边数量添加在第一隐私代价下的噪声后得到的连接边数量。
在一个实施例中,所述多个复合节点包括第三复合节点和第四复合节点,所述第三复合节点和所述第四复合节点之间不存在所述连接边集合中的连接边相连,所述为各个复合节点构造第四数量的噪声连接边包括:
为所述第三复合节点和所述第四复合节点添加初始权重为0的第二连接边;
为所述第二连接边生成满足在所述第二隐私代价下的累积概率满足指数分布的噪声权重;
在为所述第二连接边生成的噪声权重大于0的情况下,将所述第二联街边确定为添加的连接边,所生成的噪声权重为所述第二连接边的权重。
在一个实施例中,通过以下方式为所述第二连接边生成满足在所述第二隐私代价下的指数分布的噪声权重:
通过预定的随机算法生成一个预定概率区间的第三随机值;
将在所述第二隐私代价下的指数分布取所述第三随机值的情况下,自变量的取值作为为所述第二连接边生成的噪声权重。
根据第二方面,提供了一种在多个候选用户中确定用户团体的方法,所述方法包括:
获取利用第一方面所述的方法为所述多个候选用户生成的基于隐私保护的关系网络;
利用预定的团体识别模型处理基于隐私保护的关系网络,得到多个复合节点集合;
从所述多个复合节点集合中确定至少一个候选复合节点集合,以供初始关系网络的数据方按照单个候选复合节点集合中的各个候选复合节点从所述多个候选用户中确定出相应的目标用户团体。
在一个实施例中,所述利用预定的团体识别模型处理基于隐私保护的关系网络,得到多个复合节点集合包括:
将基于隐私保护的关系网络作为初始的当前关系网络,在初始的当前关系网络中,每个复合节点作为一个社区;
执行以下模块度最大化步骤:将每个复合节点移动到与之相邻的复合节点所在的社区中,计算以社区为节点的当前关系网络的模块度大小,并选择使得模块度最大的一种移动方式;
对移动后在同一个社区内的复合节点合并到同一个社区,迭代执行所述模块度最大化步骤,直至当前关系网络的模块度不再变化;
针对各个社区,分别生成相应的各个复合节点集合。
在一个实施例中,当前关系网络的模块度通过对各个社区的节点度求和得到,当前关系网络中第一社区的节点度为,以下第一项与第二项的差:
所述第一项为,所述第一社区中总的连接边数量与当前关系网络中总的连接边数的比值;
所述第二项为,聚类到所述第一社区的各个复合节点的总度数与当前关系网络中总的连接边数的2倍的比值的平方。
在一个实施例中,所述模块度最大化步骤通过以下方式之一确定:贪心算法、仿真退火算法、随机游走算法、统计原理算法、标签传播算法、InfoMap算法、Louvain算法。
在一个实施例中,所述从所述多个复合节点集合中确定至少一个候选复合节点集合包括:
将复合节点的数量大于预定数量阈值的复合节点集合确定为候选复合节点集合;
从而使得初始关系网络的数据方通过以下方式按照单个候选复合节点集合中的各个候选复合节点从所述多个候选用户中确定出相应的目标用户团体:
按照预先设定的映射规则,将各个候选复合节点分别映射到初始关系网络的多个初始用户;
从所述多个初始用户中选择所述多个候选用户中的用户,并将选择出的用户识别为所述单个候选复合节点集合对应的目标用户团体。
在一个实施例中,所述方法的执行主体为初始关系网络的数据方,所述多个复合节点集合包括第一复合节点集合,所述从所述多个复合节点集合中确定至少一个候选复合节点集合包括:
按照预先设定的映射规则,将所述第一复合节点集合中的各个复合节点分别映射到初始关系网络的多个初始用户;
检测所述多个初始用户中,是否存在预定数量或预定比例的初始用户,注册时间短于预定的时间阈值;
若存在,则将所述第一复合节点集合确定为候选复合节点集合。
根据第三方面,提供了一种基于隐私保护的关系网络构建装置,其中,基于隐私保护的关系网络通过多个复合节点构成,所述多个复合节点之间通过连接边描述关联关系,单个复合节点对应候选关系网络中的多个原始节点,各个原始节点分别对应各个用户,原始节点之间的连接边描述相应用户之间的关联关系;所述装置包括:
获取单元,配置为获取所述候选关系网络;
节点构建单元,配置为将所述候选关系网络中的原始节点按照预设的复合节点容量,划分出多个复合节点,其中,单个复合节点对应的原始节点数量不超过所述复合节点容量;
检测单元,配置为针对所述多个复合节点,检测两两之间是否存在连接边;
边构建单元,配置为基于检测结果,利用差分隐私方式对所述多个复合节点添加边和权重,从而构建基于隐私保护的关系网络。
根据第四方面,提供了一种在多个候选用户中确定用户团体的装置,所述装置包括:
获取单元,配置为获取利用第三方面的装置为所述多个候选用户生成的基于隐私保护的关系网络;
处理单元,配置为利用预定的团体识别模型处理基于隐私保护的关系网络,得到多个复合节点集合;
确定单元,配置为从所述多个复合节点集合中确定至少一个候选复合节点集合,以供初始关系网络的数据方按照单个候选复合节点集合中的各个候选复合节点从所述多个候选用户中确定出相应的目标用户团体。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述第一方面或第二方面的方法。
根据第六方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述第一方面或第二方面的方法。
本说明书实施例提供了基于隐私保护的关系网络构建方法和装置,可以利用在提供用户关系网络时,将各个用户预先聚合,添加噪声,形成满足差分隐私的关系网络,从而在有效保护用户关系隐私的基础上,减少数据处理量,提高用户关系网络的有效性。进一步地,基于隐私保护的关系网络用于用户团体发掘时,不局限于特定的数据持有方,任意有计算能力的数据处理方都可以通过团体识别模型识别关系网络中的候选复合节点,并经由初始关系网络的数据持有方查询出用户团体中包含的用户ID,以提供给相应业务方,如此,可以在保证数据安全的基础上增加团体识别的便利性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出本说明书实施例的一个实施架构示意图;
图2示出本说明书实施例的一个实施场景示意图;
图3示出根据一个实施例的基于隐私保护的关系网络构建流程示意图;
图4示出根据一个实施例的在多个候选用户中确定用户团体的流程示意图;
图5示出根据一个实施例的基于隐私保护的关系网络构建装置示意图;
图6示出根据一个实施例的在多个候选用户中确定用户团体的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
首先,结合图1、图2示出一个具体实施场景进行说明。
图1给出了该具体实施场景的实施架构示意图。如图1所示,在该实施架构中,包括业务平台、业务方和用户。业务平台用于提供用户交流,以及业务方和用户之间进行业务交互的媒介。例如支付宝平台、微信平台,等等,可以是兼顾社交和商业服务的平台。用户可以在业务平台注册成为注册用户,各个业务方可以以子应用,或者在业务平台注册成为注册业务方等形式为用户提供相关业务。
业务平台可以记录用户在业务平台的行为信息(如支付行为数据、转账行为数据、消费行为数据等等),这些行为信息可以用来建立关系网络。关系网络中,每个节点都可以表示一个实体(如用户、商品、商户等等),实体之间的关联关系通过连接边来表示,具有直接关联关系的实体对应的节点之间通过连接边互相连接。如图1所示,每个圆圈代表一个实体,一条线段代表一个连接边。具有直接关联关系的节点可以互为一阶邻居节点。如果两个节点中间经过一个连接边、一个节点、另一个连接边的路径相连接,则这两个节点可以相互称为二阶邻居节点,以此类推。通常,邻居节点的阶数,与中间间隔的最少连接边数一致。在本说明书的实施架构下,关系网络中的实体可以是用户。
可以理解的是,图1中的业务方、用户仅为示例,实践中,分别可以是任意数量,业务平台的服务器形式也可能是服务器集群形式,本说明书对这些都不做限定。
请参考图2,给出在图1的实施架构下,一个具体实施场景示意图。在该实施场景中,计算平台预先存储或远程获取基于图1中的业务平台记录的用户行为数据生成的原始关系网络,该原始关系网络中以用户在业务平台注册的用户ID表示用户。业务方a疑似遭遇批量攻击或有组织的团伙攻击,其可以向计算平台提供自有用户数据中的各个用户ID。计算平台根据业务方a提供的用户ID从原始关系网络中抽取与这些用户相关的关系网络,作为候选关系网络,进一步地,将候选关系网络中的多个节点进行划分,形成复合节点,每个复合节点包括多个原始关系网络中的节点。如图2所示,每个复合节点用圆形或椭圆形虚线框标识,复合节点之间的连接关系通过虚线描述。该复合节点可以看作一个虚拟的用户,对应了初始关系网络中的多个用户。在建立复合节点的关系网络中,可以通过差分隐私的方式进行,对网络结构引入噪声,使得对引入噪声的关系网络的处理结果与对原关系网络的处理结果一致。如此,这个关系网络在有效保护用户之间的关系隐私数据基础上,不仅规模得到了有效精简,还可以提供准确的用户聚集性关系。该关系网络可以称为基于隐私保护的关系网络。
当该基于隐私保护的关系网络提供给任意第三方平台时,不会泄露用户的关系隐私数据。因此,计算平台可以向第三方平台提供基于隐私保护的关系网络,由第三方平台通过预先训练好的团体识别模型,识别关系网络中的团伙,并将识别结果反馈给业务方a。这样,可以帮助业务方a预防和打击攻击行为、黑产行为等的团伙作案,排除风险。
这里要说明的是,图2中的计算平台可以设于图1中的业务平台,也可以是设于负有保密职责的其他可信平台。第三方平台可以是具有一定计算能力的任意平台,其可以属于图2中的计算平台,也可以是独立的他方平台,本说明书对此不做限定。
其中,图1、图2仅给出了本说明书实施例的一个实施架构,实践中,图2中的计算平台在初始的关系网络的基础上构建基于隐私保护的关系网络的流程可以应用于任何涉及用户关系的相关场景中,例如挖掘恶意团伙、识别潜在客户等等,在此不再一一例举。
下面首先详细介绍基于隐私保护的关系网络构建的具体过程。
图3示出根据一个实施例的基于隐私保护的关系网络构建方法流程图。该方法的执行主体可以是任何具有计算、处理能力的系统、设备、装置、平台或服务器。例如图1示出的业务平台。基于隐私保护的关系网络在候选关系网络的基础上,将候选关系网络中的原始节点进行组合,并添加在预定隐私代价下的噪声,通过差分隐私方式隐藏节点之间的真实连接关系。
如图3所示,基于隐私保护的关系网络构建方法包括以下步骤:步骤301,获取候选关系网络;步骤302,将候选关系网络中的原始节点按照预设的复合节点容量,划分出多个复合节点,其中,单个复合节点包括的原始节点数量不超过复合节点容量;步骤303,针对上述多个复合节点,检测两两之间是否存在连接边;步骤304,基于检测结果,利用差分隐私方式对上述多个复合节点添加连接边和权重,从而构建基于隐私保护的关系网络。
首先,步骤301,获取候选关系网络。可以理解,候选关系网络是用来构建基于隐私保护的关系网络的基础网络。
初始的关系网络往往是根据应用场景构建的、包含实体之间的关联关系的关系网络,其包含了大量实体关系数据,例如用户关系数据。例如图1、图2示出的实施场景中,初始的关系网络可以用于描述用户关系的网络。在本说明书实施例中,初始关系网络中的节点可以称为原始节点。初始关系网络通常包含了相关场景下,所有实体之间的关联关系构成的网络。候选关系网络可以是初始关系网络本身,也可以是初始关系网络的一部分。
根据一个实施方式,可以通过预先给定的节点范围,从初始关系网络中提取候选节点对应的关系网络作为候选关系网络。
在一个实施例中,候选节点可以是上述给定的节点,以图2示出的实施场景为例,业务方a提供的用户列表中的各个用户。这些用户对应的节点就可以称作给定的节点。假如这些用户为用户a、用户b至用户z共26个用户,这26个用户对应的节点称为候选节点。此时,可以从初始关系网络中提取出用户a、用户b至用户z对应的节点及它们相互之间的连接关系,作为候选关系网络。举例而言,如果用户a和用户b、用户d对应的节点有连接关系,还和用户11对应的节点有连接关系,则由于候选关系网络中不包括用户11对应的节点,因此也不包括用户11对应的节点和用户a对应的节点之间的连接边,但包括用户a、用户b、用户d对应的节点,以及用户a对应的节点分别和用户b对应的节点、用户d对应的节点之间的连接边。
在另一个实施例中,候选节点可以与给定的节点相关联的节点,例如除了给定的节点,还包括给定的节点预定阶数内的邻居节点。以图2示出的实施场景为例,给定节点可以是业务方a提供的用户列表中的各个用户对应的节点,候选节点可以是给定节点以及其预定阶数(如二阶)内的邻居节点,如一阶邻居节点、二阶邻居节点等。此时,候选关系网络就可以是给定的节点及其预定阶数内的邻居节点组成的关系网络,在此不再赘述。
可以理解的是,由于候选关系网络中的节点个数可能是任意数量,在一些实施例中,为了复合节点中数量的均衡,在可选的实施例中,还可以对候选节点对应的关系网络进一步筛选后作为候选关系网络,详细过程在步骤302中描述。
由于候选关系网络是初始关系网络或者从初始关系网络中提取的部分网络,节点本身还是作为独立节点存在,也就是说节点没有变化,因此,还可以称为原始节点,仅仅是在候选关系网络中,一些原始节点的属性发生了变化,例如,连接边数(或邻居节点个数)减少。
步骤302,将候选关系网络中的节点按照预设的复合节点容量,划分出多个复合节点。其中,每个复合节点所包括的原始节点数量不超过上述复合节点容量。复合节点容量可以是根据经验或候选关系网络的规模(包含节点数)预设的数值,例如5、8、10等。一个复合节点对应的原始节点的数量不超过复合节点容量。通常,一个复合节点对应的原始节点的数量可以与复合节点容量一致。
在一个实施例中,可以根据复合节点容量(以下记为k)来确定复合节点的数量。例如,复合节点的数量可以为候选关系网络中的节点数量与复合节点容量k的比值的整数部分。在可选的实现方式中,复合节点的数量还可以为上述整数部分减去1。如此,可以使得在后续的差分隐私处理中,有一定的误差空间,从而可以在保证用户关系准确度的基础上维护关系隐私。
在可选的实现方式中,可以在确定复合节点数量之后,对候选关系网络进行随机过滤,使得候选关系网络中的节点数量,与复合节点的数量和复合节点容量k的乘积一致,或者与复合节点的数量加1后的数值与复合节点容量k的乘积一致的节点数,具体和复合节点的数量的确定方法相关。这样,相当于过滤掉了原候选关系网络与复合节点容量的余数部分的节点,和步骤301中描述的节点筛选对应。换句话说,筛选后的候选关系网络中的节点数,是原候选关系网络中的节点数减去原候选关系网络中的节点数除以复合节点容量k的余数后的数值。也就是说,根据候选关系网络中的原始节点数量和复合节点容量确定复合节点数量,再根据复合节点数量对候选关系网络中的原始节点进行筛选。如此,可以使得候选关系网络中的原始节点被均匀分配到各个复合节点,即每个复合节点均对应有k个原始节点,并据此确定复合节点的数量。
确定了复合节点的数量之后,可以针对候选关系网络中的各个原始节点划分复合节点。在各个复合节点对应的原始节点数量与复合节点容量相等的情况下,可以划分的符合节点数量可以记为第一数量。在一个实施例中,可以从候选关系网络中随机选择出第一数量的原始节点,作为各个复合节点的基准节点(类似“种子”的作用)。然后,按照复合节点容量k,将距离基准节点由近到远的k-1个(第二数量)节点加入到相应的复合节点。这里,距离可以理解为连接路径上的连接边数,例如基准节点和其一阶邻居节点之间的距离为1。可选地,遍历各个基准节点,检测距离由近到远的原始节点时,可以排除已经加入到其他复合节点的原始节点。
这样,由原始节点构成的候选关系网络,就变成了多个复合节点构成的集合。为了使得多个复合节点形成关系网络,进一步地,可以通过步骤303,针对多个复合节点,检测两两之间是否存在连接边。
首先,可以检测两两复合节点的原始节点之间是否存在连接边。如果存在连接边,则确定两个复合节点之间存在连接边。为了更清楚地进行描述,假设第一复合节点包括原始节点A、B、C、D、E,第二复合节点包括原始节点F、G、H、I、J,如果原始节点A、B、C、D、E中的任一节点(如节点C,也可以称为第一原始节点)和原始节点F、G、H、I、J任一节点(如节点H,可以称为第二原始节点)之间有连接边,则可以确定第一复合节点和第二复合节点之间有连接边。如果第一复合节点中没有一个原始节点和第二复合节点中的任意原始节点之间有连接边,则第一复合节点和第二复合节点之间没有连接边。
根据一个实施例,根据步骤303的检测结果,可以确定一个连接边集合,用于存储检测到的连接边。可选地,检测结果中还可以包括连接边集合中的连接边数量。
步骤304,基于检测结果,利用差分隐私方式对多个复合节点添加连接边和权重,从而构建基于隐私保护的关系网络。可以理解,利用关系网络进行业务处理时,往往还需要考虑节点之间的关联程度,该关联程度可以用连接边的权重来描述。
差分隐私(differential privacy)是密码学中的一种手段,旨在提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。设有随机算法M,PM为M所有可能的输出构成的集合。对于任意两个邻近数据集D和D'以及PM的任何子集SM,若随机算法M满足:Pr[M(D)∈SM]<=eε×Pr[M(D')∈SM],则称算法M提供ε-差分隐私保护,其中参数ε称为隐私保护预算,用于平衡隐私保护程度和准确度。ε通常可以预先设定。ε越接近0,eε越接近1,随机算法对两个邻近数据集D和D'的处理结果越接近,隐私保护程度越强。
差分隐私方法可以以添加受控噪声实现降低查询结果的灵敏度。差分隐私方法通常用于查询领域,在本说明书的实施架构下,设想利用差分隐私的方式生成基于隐私保护的关系网络。
本领域技术人员可以理解,差分隐私通常具有可组合性。两个隐私因子分别为ε1和ε2的差分隐私组合结果,其隐私因子为ε1+ε2。用ε表示整体的差分隐私代价,则ε=ε1+ε2。ε越大,隐私保护强度越低,因此,可以预先设定ε的最大值,作为最大隐私代价,例如ε设为1。
容易理解的是,差分隐私方法的目的是在隐私和准确度之间进行平衡,即,在保护隐私的基础上,兼顾准确度。为连接边添加噪声的目的,是为了使得随机算法处理添加噪声后的关系网络与处理原噪声网络得到相同的结果,从而达到保护隐私的目的。为了生成基于隐私保护的关系网络,可以从步骤303中检测到的连接边中选择一部分连接边,并在不存在连接边的复合节点之间添加一定数量的连接边。
在本说明书的一个可能设计中下,可以考虑连接边的满足第一隐私因子ε2差分隐私和连接边权重满足第二隐私因子ε1的差分隐私。在差分隐私方式中,隐私因子越小,个体对整体结果的影响越小,隐私保护越好,但准确度会越低,因此,隐私因子ε2可以根据经验预先设定。可选地,第一隐私因子ε2可以与复合节点总数量正相关,例如,复合节点的数量n1为1000,可以将ε2设为0.01。当整体的隐私因子ε和第一隐私因子ε2被设定时,第二隐私因子ε1可以由ε-ε2确定。
基于以上理论,首先对连接边进行差分隐私处理。复合节点之间的连接边集合可以记为E1,连接边数量可以记为|E1|。为了确保基于隐私保护的关系网络的准确性,可以对|E1|添加噪声,从而增加连接边集合中的连接边的选择比例(原理下文详细描述)。
在可选的实现方式中,可以通过拉普拉斯机制(Laplace)进行连接边数量的差分隐私。也就是说,为连接边集合中的连接边数量增加拉普拉斯噪声。符合拉普拉斯分布的噪声,其可以用概率密度函数:noise(y)∝e-|y|/λ表示,其均值为0,标准偏差是拉普拉斯机制是适用于连续数据的噪音机制。对于给定数据集D,差分隐私保护概念中的随机算法M(D)=f(D)+Y,算法M提供ε-差分隐私保护的情况下,Y服从参数为敏感度/ε的Laplace分布,即Lap(敏感度/ε)。其中,灵敏度用于表示至少改变数据集中的多少个数,会对输出结果产生影响。例如在由用户的关系数据构成的关系网络中,灵敏度可以为1,满足的ε2-差分隐私的Laplace分布可以记为Lap(1/ε2)。假设拉普拉斯分布噪声的表达为:
将连接边的拉普拉斯噪声的第一隐私因子ε2、敏感度1代入,则Y为p取1/ε2时的拉普拉斯分布。根据随机算法M(D)=f(D)+Y可知,随机算法针对的数据集为复合节点之间真实存在的连接边的集合E1时,f(D)表示边的数量,f(D)=|E1|,可以使得添加拉普拉斯噪声后的连接边数量为:m1=|E1|+P(1/ε2)。其中,使用预先选定的随机算法为x生成一个随机值(可以称为第一随机值),在x取该随机值时,拉普拉斯函数P(x|p)的值就是P(1/ε2)。P(1/ε2)可以看作增加的噪声边数量。在对连接边添加噪声后,还可以进一步根据添加噪声后的连接边数量选择和添加复合节点之间的连接边。在一个可能的实施例中,假设从步骤303中检测到的连接边中选择第三数量的连接边,为各个复合节点构造的噪声连接边(检测结果中不存在的连接边)数量为第四数量,对连接边数量添加在第一隐私代价下的噪声后得到连接边的数量为第五数量,各个复合节点之间的最大连接边数量为第六数量,则第三数量和第四数量的比值,与第五数量和以下数量的比值一致:第六数量与第五数量的差。由于第三数量对应的第五数量在本来检测到的连接边数量上添加了噪声数量,因此可以增加从检测到的连接边中选择的连接边的比例。
假设复合节点的数量为n1,则考虑指向复合节点自身的连接,最大连接边数量为m0=n1(n1-1)/2。也就是说,上文可选实施例中的第六数量m0可以基于复合节点的数量n1确定。第五数量为前述的m1=|E1|+P(1/ε2)。第三数量与第四数量的比值为:
下面详细介绍选择第三数量和添加第四数量的连接边的过程。
一方面,从E1中选择第三数量的连接边,通常,可以将权重较大的连接边保留,权重较小的连接边删除。
根据一个实施方式,可以对于步骤303中检测到的任意一个连接边(如集合E1中的连接边),记作第一连接边,对于第一连接边,在给定的初始权重上,添加符合基于第二隐私代价的双边几何分布的噪声,得到相应的第一噪声权重,在第一噪声权重大于第一权重阈值的情况下,选择第一连接边作为基于隐私保护的关系网络中的连接边,并将第一噪声权重作为第一连接边的权重。其中第二隐私代价ε1是预定的整体隐私代价ε与第一隐私代价ε2的差。
其中,取到所有δ的总概率为1,也就是说,Pr(Δ=δ|α)在0-1之间取值,可以由随机抽样确定。当确定一个累计概率值Pr(Δ=δ|α)时,可以唯一对应到一个δ。通过随机生成的概率值(可以称为第二随机值),可以确定相应的噪声δ。
对于检测到的连接边集合E1中的连接边e1,令其权重的初始值W0为1或0,其中,1表示初始状态真实存在一条连接边,否则为0,则e1的初始权重为1。添加噪声后,其添加噪声后的权重表示为1+δ。
如果连接边e1满足ε1-差分隐私,则其添加噪声后的权重应足够大,以与原始关系网络中的节点关系区分开。为了使得权重足够大,可以将添加噪声后的权重1+δ与第一权重阈值θ进行比较。也就是说,为W0添加噪声δ,得到权重We1,则有:W e1≥θ满足时,相应连接边e1满足ε1-差分隐私。此时,可以将e1确定为差分隐私下的关系网络中,复合节点之间的连接边。其中,连接边e1的权重为W e1。可以理解,该权重是添加噪声后的权重,因此,可以保证用户关系隐私。
在本说明书实施例中,适应单边滤波情形(排除负值噪声),即:
从而:
可选地,θ采用计算结果的上取整形式:
其中,当计算结果为小数时,θ的值为计算结果的整数部分加1。这是因为,θ作为添加噪声的下限权重阈值,θ的值较大时,可以保证噪声足够大,有利于维护用户关系隐私。
根据第一权重阈值θ,就可以在根据添加噪声后的连接边的权重与θ的比较,从步骤303中检测到的连接边中选择第三数量的连接边。
另一方面,需要在步骤303检测到的连接边(如集合E1中的连接边)之外,增加第四数量的连接边,作为基于隐私保护的关系网络中复合节点间的连接边。这些连接边是在添加连接边过程中暂时假设的连接边,也可以将其看作“权重为0的连接边”,如果满足条件,则被添加为基于隐私保护的关系网络中的连接边,否则,仍然视为不存在连接边。
根据一个可能的实施例,可以从上述各个“权重为0的连接边”随机选择出第四数量(如记为s个)连接边作为基于隐私保护的关系网络中的连接边,并为其随机生成预定取值范围(如0-1之间)的权重。其中,随机生成的权重可以大于预定阈值,如大于0.3等等。然后,按照生成的权重从大到小的顺序选择第四数量的连接边,各个连接边的权重为所生成的权重。
在可选的实现方式中,可以按照二项分布噪声为各个“权重为0的连接边”生成权重,并按照高通滤波器的原理选择s个连接边。
根据前述类似的高通滤波原理,在单边滤波的情况下:
于是:
也就是说,第四数量s可以通过第五数量m0、第六数量m1及前述的第一权重阈值θ、第二隐私代价ε1确定。其中,各个初始权重为0的连接边生成的噪声权重满足指数分布:
Pr[X≤x]=1-αx-θ+1
这是因为,用M′i表示第i个连接边的权重的情况下,通过高通滤波器需满足以下条件:
进一步地,对于所有概率大于θ的连接边,累计概率分布为:
因此,如果生成一个0-1之间的随机值(可以称为第三随机值)作为累计概率P(X≤x),那么可以唯一对应到一个自变量x的值,该自变量x的值也就是随机赋予当前连接边的噪声权重ω。
可以理解,由于x的值可能为正也可能为负,而在本说明书实施例中,只有权重为正的连接边才有意义,因此,如果所生成的权重ω≥0,那么可以将相应的连接边作为一条噪声边,相应的权重对应噪声边的噪声权重。如此,直至确定出s条噪声边。
以上过程中,边数量噪声满足拉普拉斯分布的情况下,任意随机算法对真实存在的连接边数量为|E1|的关系网络的处理结果,小于等于与该任意随机算法对连接边数量为:m1=|E1|+P(1/ε2)的关系网络的处理结果,所以满足ε2-差分隐私。对于连接边的权重,添加双边几何分布噪声或指数分布噪声,使得任意随机算法对包括连接边集合E1的关系网络的处理结果,小于等于与该任意随机算法对通过添加边数量噪声以及权重噪声的关系网络的处理结果,所以满足ε1-差分隐私。
如此,对已有连接边的数量进行基于第一隐私因子ε2的差分隐私处理,同时,在选择连接边时,对连接边权重进行基于第二隐私因子ε1的差分隐私处理,从而可以生成满足ε-差分隐私的关系网络,其中ε=ε2+ε1。
对于满足ε-差分隐私的关系网络,不仅简化了关系网络结构,而且加入了噪声,掩盖了原有的用户关系,因此,可以在保护用户隐私的情况下,挖掘用户之间的关系。例如,图1示出的实施场景中,根据商户提供的用户ID,发掘用户之间的团伙关系。基于隐私保护的关系网络,即使被提供给第三方平台,也不会泄露用户的关系隐私。
图4示出利用基于隐私保护的关系网络在多个候选用户中确定用户团体的方法。该方法可以由与图3所示的方法一致的执行主体执行,也可以由其他执行主体(例如图1中提供用户ID的商户)执行,在此不作限定。
图4示出的在多个候选用户中确定用户团体的方法包括以下步骤:步骤401,获取为多个候选用户生成的基于隐私保护的关系网络;步骤402,利用预定的团体识别模型处理基于隐私保护的关系网络,得到多个复合节点集合;步骤403,从多个复合节点集合中确定至少一个候选复合节点集合,以供初始关系网络的数据方按照单个候选复合节点集合中的各个候选复合节点从多个候选用户中确定出目标用户团体。
首先,在步骤401中,获取为多个候选用户生成的基于隐私保护的关系网络。可以理解,这里的候选用户可以由相应业务方提供。相应业务方例如是消费平台的业务提供方(如商户)。相应业务方提供的多个用户ID可以是其在某个业务平台的相对业务方(如消费者)在该业务平台的注册ID。每个用户ID对应一个候选用户。该业务平台作为初始关系网络的数据方,可以预先生成初始的用户关系网络。
初始关系网络的数据方可以根据这些候选用户从初始的关系网络中确定候选关系网络,并将候选关系网络中的原始节点按照预设的复合节点容量,划分出多个复合节点,针对多个复合节点,检测两两之间是否存在连接边,基于检测结果,利用差分隐私方式对上述多个复合节点添加连接边和权重,从而构建基于隐私保护的关系网络。可选地,候选关系网络中可以包括相应业务方提供的用户及其在初始关系网络中的预定阶数内的邻居节点。该过程已在图3示出的实施例中描述,在此不再赘述。
当图4示出的流程的执行主体与初始关系网络的数据方一致时,基于隐私保护的关系网络可以从本地获取。
然后,在步骤402中,利用预定的团体识别模型处理基于隐私保护的关系网络,得到多个复合节点集合。其中,预定的团体识别模型例如是Louvian算法、最大连通图等等。
以Louvian算法为例,可以将基于隐私保护的关系网络中的每个复合节点作为一个社区,然后将每个复合节点移动到与之相邻的复合节点的社区中,计算整个关系网络的模块度大小,并选择使得模块度最大的一种移动方式。接着,将移动后在同一个社区内的复合节点组合成一个新的社区,重复以上步骤,直到模块度不再增大为止。每个社区可以看作一个复合节点集合。
根据一个实施方式,模块度可以通过以下方式确定:
其中nc是当前关系网络中社区的个数,初始时为基于隐私保护的关系网络中社区的个数,lc是社区c中总连接边数,dc是社区c聚类到的各个复合节点的总度数,m是当前关系网络中总的连接边数,初始时为基于隐私保护的关系网络中总的连接边数。模块度优化算法可以采用诸如贪心算法(Newmann算法)、仿真退火算法、随机游走算法、统计原理算法、标签传播算法、InfoMap算法、Louvain算法之类的算法实现。
之后,在步骤403,从多个复合节点集合中确定至少一个候选复合节点集合。如此,如果将这至少一个候选复合节点集合提供给初始关系网络的数据方,可以使得初始关系网络的数据方按照单个候选复合节点集合中的各个候选复合节点从多个候选用户中确定出相应的目标用户团体。
根据一个可能的设计,可以将复合节点的数量大于预定数量阈值(如10个)的复合节点集合确定为候选复合节点集合。这样,可以使得初始关系网络的数据方通过以下方式按照单个候选复合节点集合中的各个候选复合节点从多个候选用户中确定出相应的目标用户团体:
按照预先设定的映射规则,将各个候选复合节点分别映射到初始关系网络的多个初始用户;从得到的多个初始用户中选择多个候选用户中的用户,并将选择出的用户识别为单个候选复合节点集合对应的目标用户团体。也就是说,查找到原始用户后,过滤掉非候选用户,剩下的用户构成目标用户团体。可选地,初始关系网络的生成方在生成基于隐私保护的关系网络时,可以记录复合节点与原始节点的对应关系。这里的映射规则就可以是这里的对应关系。
根据另一个可能的设计,图4示出的方法的执行主体为初始关系网络的数据方。此时,该执行主体可以按照前述可能设计中的方法确定候选复合节点集合,还可以通过其他方法确定候选复合节点集合。
例如,假设步骤402得到的多个复合节点集合包括第一复合节点集合,上述执行主体可以先按照预先设定的映射规则,将第一复合节点集合中的各个复合节点分别映射到初始关系网络的多个初始用户,然后,检测多个初始用户中,是否存在预定数量(如20个)或预定比例(如60%)的初始用户,注册时间短于预定的时间阈值(如1个月),若存在,则将第一复合节点集合确定为候选复合节点集合。否则,可以确定第一复合节点集合不是候选复合节点集合。
可以理解,由于步骤401中使用的基于隐私保护的关系网络,在相应业务方提供的多个用户ID基础上可能进行扩充和/或添加噪声,因此,候选用户ID中可能包含不在相应业务方提供的用户ID中的其他用户ID,通过对比从候选用户ID中筛除这些用户ID之后,剩余的候选用户ID可以被识别为用户团体。
候选复合节点集合中对应的目标用户团体,可以被提供给相应业务方。这里的用户团体可能是进行批量攻击或有组织的团伙的各个用户ID,相应业务方获取相应用户团体信息之后,可以进行相应的防御或追责处理。可选地,目标用户团体可能只有一个,也可能有多个,用于为相应业务方提供参考。
回顾以上过程,本说明书实施例所提供的基于隐私保护的关系网络构建方法,可以利用在提供用户关系网络时,将各个用户预先聚合,添加噪声,形成满足差分隐私的关系网络,从而在有效保护用户关系隐私的基础上,减少数据处理量,提高用户关系网络的有效性。进一步地,基于隐私保护的关系网络用于用户团体发掘时,不局限于特定的数据持有方,任意有计算能力的数据处理方都可以通过团体识别模型识别关系网络中的候选复合节点,并经由初始关系网络的数据持有方查询出用户团体中包含的用户ID,以提供给相应业务方,如此,可以在保证数据安全的基础上增加团体识别的便利性。
根据另一方面的实施例,还提供一种基于隐私保护的关系网络构建装置。其中,基于隐私保护的关系网络通过多个复合节点构成,多个复合节点之间通过连接边描述关联关系,单个复合节点对应候选关系网络中的多个原始节点,各个原始节点分别对应各个用户,原始节点之间的连接边描述相应用户之间的关联关系。图5示出根据一个实施例的基于隐私保护的关系网络构建装置的示意性框图。如图5所示,装置500包括:
获取单元51,配置为获取候选关系网络;
节点构建单元52,配置为将候选关系网络中的原始节点按照预设的复合节点容量,划分出多个复合节点,其中,单个复合节点对应的原始节点数量不超过复合节点容量;
检测单元53,配置为针对多个复合节点,检测两两之间是否存在连接边;
边构建单元54,配置为基于检测结果,利用差分隐私方式对多个复合节点添加边和权重,从而构建基于隐私保护的关系网络。
值得说明的是,以上对图5所示的基于隐私保护的关系网络构建装置500,与图3示出的方法实施例相对应,图3对应的方法实施例中的相应描述也适用于图5所示的基于隐私保护的关系网络构建装置,在此不再赘述。
根据另一方面的实施例,还提供一种在多个候选用户中确定用户团体的装置。图6示出了在多个候选用户中确定用户团体的装置600。装置600至少包括:
获取单元61,配置为获取利用装置500为多个候选用户生成的基于隐私保护的关系网络;
处理单元62,配置为利用预定的团体识别模型处理基于隐私保护的关系网络,得到多个复合节点集合;
确定单元63,配置为从上述多个复合节点集合中确定至少一个候选复合节点集合,以供初始关系网络的数据方按照单个候选复合节点集合中的各个候选复合节点从多个候选用户中确定出相应的目标用户团体。
值得说明的是,以上对图6所示的在多个候选用户中确定用户团体的装置600,与图4示出的方法实施例相对应,图4对应的方法实施例中的相应描述也适用于图6所示的在多个候选用户中确定用户团体的装置,在此不再赘述。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行相应描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现相应描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本本说明书的技术构思的具体实施方式而已,并不用于限定本说明书的技术构思的保护范围,凡在本本说明书的技术构思的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本本说明书的技术构思的保护范围之内。
Claims (25)
1.一种基于隐私保护的关系网络构建方法,其中,基于隐私保护的关系网络通过多个复合节点构成,所述多个复合节点之间通过连接边描述关联关系,单个复合节点对应候选关系网络中的多个原始节点,各个原始节点分别对应各个用户,原始节点之间的连接边描述相应用户之间的关联关系;所述方法包括:
获取所述候选关系网络;
将所述候选关系网络中的原始节点按照预设的复合节点容量,划分出多个复合节点,其中,单个复合节点对应的原始节点数量不超过所述复合节点容量;
针对所述多个复合节点,检测两两之间是否存在连接边;
基于检测结果确定的连接边集合E1,利用差分隐私对所述多个复合节点添加连接边和权重,从而构建基于隐私保护的关系网络,其中,在基于隐私保护的关系网络中,复合节点之间的连接边包括:从所述E1中选择的第三数量的连接边,以及在所述E1之外添加的第四数量的噪声连接边,复合节点之间的连接边数量基于对所述E1的连接边数量进行第一隐私代价下的差分隐私处理得到。
2.根据权利要求1所述的方法,其中,所述候选关系网络通过以下方式获取:
获取基于第三业务方提供的多个候选用户的用户标识;
基于所述用户标识,从初始关系网络中筛选出所述多个候选用户对应的原始节点,及其预定阶数内的邻居节点,作为候选节点;
将所述候选节点构成的关系网络,作为候选关系网络。
3.根据权利要求1所述的方法,其中,所述将所述候选关系网络中的原始节点按照预设的复合节点容量,划分出多个复合节点包括:
确定所述候选关系网络中的原始节点数量;
根据所述原始节点数量和所述复合节点容量,确定第一数量,所述第一数量为,在各个复合节点对应的原始节点数量与所述复合节点容量相等的情况下,最多可以划分的复合节点数量;
从所述候选关系网络中的原始节点中,随机选取所述第一数量的原始节点,作为各个复合节点的基准节点;
对各个基准节点,分别从所述候选关系网络中确定第二数量的原始节点,和相应基准节点一起作为相应的复合节点,所述第二数量比所述第一数量小1个单位。
4.根据权利要求1所述的方法,其中,所述多个复合节点包括第一复合节点和第二复合节点,所述第一复合节点对应有第一原始节点,所述第二复合节点对应有第二原始节点,所述针对所述多个复合节点,检测两两之间是否存在连接边包括:
在所述第一原始节点和所述第二原始节点之间存在连接边的情况下,确定所述第一复合节点和所述第二复合节点之间存在连接边。
5.根据权利要求1所述的方法,其中,所述检测结果包括,各个复合节点之间的连接边集合,以及所述连接边集合中的连接边数量,所述基于检测结果,利用差分隐私方式对所述多个复合节点添加边和权重包括:
对所述连接边数量添加在第一隐私代价下的噪声。
6.根据权利要求5所述的方法,其中,所述在第一隐私代价下的噪声满足缩放参数为所述第一隐私代价的倒数的拉普拉斯分布。
7.根据权利要求6所述的方法,其中,所述在第一隐私代价下的噪声为,通过预定的随机算法生成第一随机值,在拉普拉斯分布的自变量为所述第一随机值时,拉普拉斯分布的因变量值。
8.根据权利要求5所述的方法,其中,所述基于检测结果,利用差分隐私方式对所述多个复合节点添加边和权重还包括:
从所述连接边集合中选择第三数量的连接边;
为各个复合节点构造第四数量的噪声连接边,所述噪声连接边是所述连接边集合之外的连接边。
9.根据权利要求8所述的方法,其中,对所述连接边数量添加在第一隐私代价下的噪声后得到第五数量,各个复合节点之间的最大连接边数量为第六数量,所述第三数量和所述第四数量的比值,与所述第五数量和以下数量的比值一致:所述第六数量与所述第五数量的差。
10.根据权利要求8所述的方法,其中,所述连接边集合中包括第一连接边,所述连接边集合中的连接边分别对应有给定一致的初始权重,所述从所述连接边集合中选择第三数量的连接边包括:
对于所述第一连接边,在给定的初始权重上,添加符合基于第二隐私代价的累积概率满足双边几何分布的噪声,得到相应的第一噪声权重,所述第二隐私代价是预定的整体隐私代价与所述第一隐私代价的差;
在所述第一噪声权重大于第一权重阈值的情况下,选择所述第一连接边作为基于隐私保护的关系网络中的连接边,并将所述第一噪声权重作为所述第一连接边的权重。
11.根据权利要求10所述的方法,其中,所述给定的初始权重为1,并且,通过以下方式为所述第一连接边添加噪声:
通过预定的随机算法为双边几何分布 生成预定区间内的第二随机值;
确定双边几何分布的自变量在得到所述第二随机值的情况下自变量的取值;
为所述第一连接边添加噪声后的权重为所述初始权重与所述自变量的取值的和。
12.根据权利要求10所述的方法,其中,所述第一权重阈值是对所述连接边集合中的各个连接边,按照所述第二隐私代价下的高通滤波器进行单边滤波情况下,得到第一比例的连接边的自变量阈值,其中,所述第一比例是以下第一项与第二项的比值:
所述第一项为基于对所述连接边数量添加在第一隐私代价下的噪声后得到的第五数量;
所述第二项为各个复合节点之间的最大连接边数量与所述第五数量的差。
13.根据权利要求8所述的方法,所述第四数量是按照第二隐私代价下的高通滤波器的过滤比例确定的,所述第二隐私代价是预定的整体隐私代价与所述第一隐私代价的差,所述第四数量与以下项的差的比值与所述第二隐私代价下的高通滤波器的过滤比例一致:各个复合节点之间的最大连接边数量、基于对所述连接边数量添加在第一隐私代价下的噪声后得到的连接边数量。
14.根据权利要求13所述的方法,其中,所述多个复合节点包括第三复合节点和第四复合节点,所述第三复合节点和所述第四复合节点之间不存在所述连接边集合中的连接边相连,所述为各个复合节点构造第四数量的噪声连接边包括:
为所述第三复合节点和所述第四复合节点添加初始权重为0的第二连接边;
为所述第二连接边生成满足在所述第二隐私代价下的累积概率满足指数分布的噪声权重;
在为所述第二连接边生成的噪声权重大于0的情况下,将所述第二连接边确定为添加的连接边,所生成的噪声权重为所述第二连接边的权重。
15.根据权利要求14所述的方法,其中,通过以下方式为所述第二连接边生成满足在所述第二隐私代价下的指数分布的噪声权重:
通过预定的随机算法生成一个预定概率区间的第三随机值;
将在所述第二隐私代价下的指数分布取所述第三随机值的情况下,自变量的取值作为为所述第二连接边生成的噪声权重。
16.一种在多个候选用户中确定用户团体的方法,所述方法包括:
获取利用权利要求1的方法为所述多个候选用户生成的基于隐私保护的关系网络;
利用预定的团体识别模型处理基于隐私保护的关系网络,得到多个复合节点集合;
从所述多个复合节点集合中确定至少一个候选复合节点集合,以供初始关系网络的数据方按照单个候选复合节点集合中的各个候选复合节点从所述多个候选用户中确定出相应的目标用户团体。
17.根据权利要求16所述的方法,其中,所述利用预定的团体识别模型处理基于隐私保护的关系网络,得到多个复合节点集合包括:
将基于隐私保护的关系网络作为初始的当前关系网络,在初始的当前关系网络中,每个复合节点作为一个社区;
执行以下模块度最大化步骤:将每个复合节点移动到与之相邻的复合节点所在的社区中,计算以社区为节点的当前关系网络的模块度大小,并选择使得模块度最大的一种移动方式;
对移动后在同一个社区内的复合节点合并到同一个社区,迭代执行所述模块度最大化步骤,直至当前关系网络的模块度不再变化;
针对各个社区,分别生成相应的各个复合节点集合。
18.根据权利要求17所述的方法,其中,当前关系网络的模块度通过对各个社区的节点度求和得到,当前关系网络中第一社区的节点度为,以下第一项与第二项的差:
所述第一项为,所述第一社区中总的连接边数量与当前关系网络中总的连接边数的比值;
所述第二项为,聚类到所述第一社区的各个复合节点的总度数与当前关系网络中总的连接边数的2倍的比值的平方。
19.根据权利要求17-18任一所述的方法,其中,所述模块度最大化步骤通过以下方式之一确定:贪心算法、仿真退火算法、随机游走算法、统计原理算法、标签传播算法、InfoMap算法、Louvain算法。
20.根据权利要求16所述的方法,其中,所述从所述多个复合节点集合中确定至少一个候选复合节点集合包括:
将复合节点的数量大于预定数量阈值的复合节点集合确定为候选复合节点集合;
从而使得初始关系网络的数据方通过以下方式按照单个候选复合节点集合中的各个候选复合节点从所述多个候选用户中确定出相应的目标用户团体:
按照预先设定的映射规则,将各个候选复合节点分别映射到初始关系网络的多个初始用户;
从所述多个初始用户中选择所述多个候选用户中的用户,并将选择出的用户识别为所述单个候选复合节点集合对应的目标用户团体。
21.根据权利要求16所述的方法,其中,所述方法的执行主体为初始关系网络的数据方,所述多个复合节点集合包括第一复合节点集合,所述从所述多个复合节点集合中确定至少一个候选复合节点集合包括:
按照预先设定的映射规则,将所述第一复合节点集合中的各个复合节点分别映射到初始关系网络的多个初始用户;
检测所述多个初始用户中,是否存在预定数量或预定比例的初始用户,注册时间短于预定的时间阈值;
若存在,则将所述第一复合节点集合确定为候选复合节点集合。
22.一种基于隐私保护的关系网络构建装置,其中,基于隐私保护的关系网络通过多个复合节点构成,所述多个复合节点之间通过连接边描述关联关系,单个复合节点对应候选关系网络中的多个原始节点,各个原始节点分别对应各个用户,原始节点之间的连接边描述相应用户之间的关联关系;所述装置包括:
获取单元,配置为获取所述候选关系网络;
节点构建单元,配置为将所述候选关系网络中的原始节点按照预设的复合节点容量,划分出多个复合节点,其中,单个复合节点对应的原始节点数量不超过所述复合节点容量;
检测单元,配置为针对所述多个复合节点,检测两两之间是否存在连接边;
边构建单元,配置为基于检测结果确定的连接边集合E1,利用差分隐私对所述多个复合节点添加边和权重,从而构建基于隐私保护的关系网络,其中,在基于隐私保护的关系网络中,复合节点之间的连接边包括:从所述E1中选择的第三数量的连接边,以及在所述E1之外添加的第四数量的噪声连接边,复合节点之间的连接边数量基于对所述E1的连接边数量进行第一隐私代价下的差分隐私处理得到。
23.一种在多个候选用户中确定用户团体的装置,所述装置包括:
获取单元,配置为获取利用权利要求22的装置为所述多个候选用户生成的基于隐私保护的关系网络;
处理单元,配置为利用预定的团体识别模型处理基于隐私保护的关系网络,得到多个复合节点集合;
确定单元,配置为从所述多个复合节点集合中确定至少一个候选复合节点集合,以供初始关系网络的数据方按照单个候选复合节点集合中的各个候选复合节点从所述多个候选用户中确定出相应的目标用户团体。
24.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-21中任一项的所述的方法。
25.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-21中任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911284478.0A CN111046429B (zh) | 2019-12-13 | 2019-12-13 | 基于隐私保护的关系网络构建方法及装置 |
TW109115721A TWI724896B (zh) | 2019-12-13 | 2020-05-12 | 基於隱私保護的關係網路構建方法及裝置 |
PCT/CN2020/124282 WO2021114921A1 (zh) | 2019-12-13 | 2020-10-28 | 基于隐私保护的关系网络构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911284478.0A CN111046429B (zh) | 2019-12-13 | 2019-12-13 | 基于隐私保护的关系网络构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046429A CN111046429A (zh) | 2020-04-21 |
CN111046429B true CN111046429B (zh) | 2021-06-04 |
Family
ID=70236206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911284478.0A Active CN111046429B (zh) | 2019-12-13 | 2019-12-13 | 基于隐私保护的关系网络构建方法及装置 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN111046429B (zh) |
TW (1) | TWI724896B (zh) |
WO (1) | WO2021114921A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046429B (zh) * | 2019-12-13 | 2021-06-04 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的关系网络构建方法及装置 |
CN111626890B (zh) * | 2020-06-03 | 2023-08-01 | 四川大学 | 一种基于销售信息网络的显著社团发现方法 |
CN111783996B (zh) * | 2020-06-18 | 2023-08-25 | 杭州海康威视数字技术股份有限公司 | 一种数据处理方法、装置及设备 |
CN111737751B (zh) * | 2020-07-17 | 2020-11-17 | 支付宝(杭州)信息技术有限公司 | 实现隐私保护的分布式数据处理的方法及装置 |
CN112528166A (zh) * | 2020-12-16 | 2021-03-19 | 平安养老保险股份有限公司 | 用户关系分析方法、装置、计算机设备及存储介质 |
CN113361055B (zh) * | 2021-07-02 | 2024-03-08 | 京东城市(北京)数字科技有限公司 | 扩展社交网络中的隐私处理方法、装置、电子设备和存储介质 |
CN114564752B (zh) * | 2022-04-28 | 2022-07-26 | 蓝象智联(杭州)科技有限公司 | 一种基于图联邦的黑名单传播方法 |
CN115114664B (zh) * | 2022-06-24 | 2023-05-23 | 浙江大学 | 一种面向图数据的差分隐私保护发布方法及系统 |
CN115828312B (zh) * | 2023-02-17 | 2023-06-16 | 浙江浙能数字科技有限公司 | 一种面向电力用户社交网络的隐私保护方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866781A (zh) * | 2015-05-27 | 2015-08-26 | 广西师范大学 | 面向社区检测应用的社会网络数据发布隐私保护方法 |
CN105376243A (zh) * | 2015-11-27 | 2016-03-02 | 中国人民解放军国防科学技术大学 | 基于分层随机图的在线社会网络差分隐私保护方法 |
CN109299615A (zh) * | 2017-08-07 | 2019-02-01 | 南京邮电大学 | 一种面向社交网络数据的差分隐私处理发布方法 |
CN109344643A (zh) * | 2018-09-03 | 2019-02-15 | 华中科技大学 | 一种面向图中三角形数据发布的隐私保护方法及系统 |
CN110288358A (zh) * | 2019-06-20 | 2019-09-27 | 武汉斗鱼网络科技有限公司 | 一种设备团体确定方法、装置、设备及介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8468244B2 (en) * | 2007-01-05 | 2013-06-18 | Digital Doors, Inc. | Digital information infrastructure and method for security designated data and with granular data stores |
US20110105143A1 (en) * | 2009-11-03 | 2011-05-05 | Geosolutions B.V. | Proximal relevancy ranking in a layered linked node database |
CN106650487B (zh) * | 2016-09-29 | 2019-04-26 | 广西师范大学 | 基于多维敏感数据发布的多部图隐私保护方法 |
CN107689950B (zh) * | 2017-06-23 | 2019-01-29 | 平安科技(深圳)有限公司 | 数据发布方法、装置、服务器和存储介质 |
CN109639747B (zh) * | 2017-10-09 | 2020-06-26 | 阿里巴巴集团控股有限公司 | 数据请求处理、询问消息处理方法、装置以及设备 |
CN107918664B (zh) * | 2017-11-22 | 2021-07-27 | 广西师范大学 | 基于不确定图的社会网络数据差分隐私保护方法 |
KR102175167B1 (ko) * | 2018-05-09 | 2020-11-05 | 서강대학교 산학협력단 | K-평균 클러스터링 기반의 데이터 마이닝 시스템 및 이를 이용한 k-평균 클러스터링 방법 |
CN110032603A (zh) * | 2019-01-22 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种对关系网络图中的节点进行聚类的方法及装置 |
CN109829337B (zh) * | 2019-03-07 | 2023-07-25 | 广东工业大学 | 一种社会网络隐私保护的方法、系统及设备 |
CN110147996A (zh) * | 2019-05-21 | 2019-08-20 | 中央财经大学 | 一种基于区块链的数据交易本地化差分隐私保护方法及装置 |
CN111046429B (zh) * | 2019-12-13 | 2021-06-04 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的关系网络构建方法及装置 |
-
2019
- 2019-12-13 CN CN201911284478.0A patent/CN111046429B/zh active Active
-
2020
- 2020-05-12 TW TW109115721A patent/TWI724896B/zh active
- 2020-10-28 WO PCT/CN2020/124282 patent/WO2021114921A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866781A (zh) * | 2015-05-27 | 2015-08-26 | 广西师范大学 | 面向社区检测应用的社会网络数据发布隐私保护方法 |
CN105376243A (zh) * | 2015-11-27 | 2016-03-02 | 中国人民解放军国防科学技术大学 | 基于分层随机图的在线社会网络差分隐私保护方法 |
CN109299615A (zh) * | 2017-08-07 | 2019-02-01 | 南京邮电大学 | 一种面向社交网络数据的差分隐私处理发布方法 |
CN109344643A (zh) * | 2018-09-03 | 2019-02-15 | 华中科技大学 | 一种面向图中三角形数据发布的隐私保护方法及系统 |
CN110288358A (zh) * | 2019-06-20 | 2019-09-27 | 武汉斗鱼网络科技有限公司 | 一种设备团体确定方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
社会网络数据发布的局部差分隐私保护方法;许元磬;《中国优秀硕士学位论文全文数据库•信息科技辑》;20190115;第17-19页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111046429A (zh) | 2020-04-21 |
WO2021114921A1 (zh) | 2021-06-17 |
TW202123118A (zh) | 2021-06-16 |
TWI724896B (zh) | 2021-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046429B (zh) | 基于隐私保护的关系网络构建方法及装置 | |
Béres et al. | Blockchain is watching you: Profiling and deanonymizing ethereum users | |
Gai et al. | Differential privacy-based blockchain for industrial internet-of-things | |
Ruan et al. | Measurement theory-based trust management framework for online social communities | |
CN107358116B (zh) | 一种多敏感属性数据发布中的隐私保护方法 | |
CN110958220A (zh) | 一种基于异构图嵌入的网络空间安全威胁检测方法及系统 | |
Doyle et al. | Predicting complex user behavior from CDR based social networks | |
Kurdi et al. | TrustyFeer: A Subjective Logic Trust Model for Smart City Peer‐to‐Peer Federated Clouds | |
US20130211873A1 (en) | Determining a churn risk | |
Kuang et al. | A privacy protection model of data publication based on game theory | |
Nagar | Privacy-preserving blockchain based federated learning with differential data sharing | |
KR20180089479A (ko) | 사용자 데이터 공유 방법 및 디바이스 | |
Alsenani et al. | ProTrust: A probabilistic trust framework for volunteer cloud computing | |
Ma et al. | Fairness maximization among offline agents in online-matching markets | |
Raghebi et al. | A new trust evaluation method based on reliability of customer feedback for cloud computing | |
Galli et al. | Group privacy for personalized federated learning | |
CN109213801A (zh) | 基于关联关系的数据挖掘方法和装置 | |
CN111178678B (zh) | 基于社团影响力的网络节点重要性评估方法 | |
CN116628360A (zh) | 一种基于差分隐私的社交网络直方图发布方法及装置 | |
Song et al. | Local differential privacy preserving mechanism for multi-attribute data in mobile crowdsensing with edge computing | |
Shan et al. | KPI-HGNN: Key provenance identification based on a heterogeneous graph neural network for big data access control | |
CN110738418A (zh) | 一种弱连接重叠社区的检测方法 | |
Wang et al. | A TODIM· SIR method for multiple attribute decision making with interval grey uncertain linguistic based on a new distance measure | |
Makhdomi et al. | Blockchain based Scalable model for Secure Dynamic Spectrum Access | |
Qu et al. | Personalized Privacy Protection of IoTs Using GAN-Enhanced Differential Privacy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40028430 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |