CN110222058A

CN110222058A - 基于FP-growth的多源数据关联隐私泄露风险评估系统

Info

Publication number: CN110222058A
Application number: CN201910488174.XA
Authority: CN
Inventors: 白林; 周莅涛; 李适季; 施全立; 陈天立; 张宏伟
Original assignee: SHENZHEN YOUWANG TECHNOLOGY Co Ltd
Current assignee: SHENZHEN YOUWANG TECHNOLOGY Co Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2019-09-10

Abstract

本发明提供的基于FP‑growth的多源数据关联隐私泄露风险评估系统，脆弱性分析单元获取待分析数据源，并对待分析数据源进行脆弱性分析，构建隐私数据库；关联分析单元使用FP‑growth关联分析算法对隐私数据库进行多维关联性数据分析，获取强关联规则；风险值计算单元结合脆弱性分析结果，计算隐私数据库中单一数据源的隐私泄露风险值；评估单元结合隐私泄露风险值构建风险评估体系；还用于利用风险评估体系，对隐私数据库中单一数据源进行多源隐私泄露风险评估，获得待分析数据源的风险向量，对该待分析数据源进行评估。该系统能够判断已脱敏数据交由第三方合作是否存在隐私泄露的风险。

Description

基于FP-growth的多源数据关联隐私泄露风险评估系统

技术领域

本发明属于隐私泄露风险评估技术领域，具体涉及基于FP-growth的多源数据关联隐私泄露风险评估系统。

背景技术

已脱敏数据交由第三方进行合作时，第三方往往需要结合外部数据进行关联分析。而外部数据与已脱敏数据将会产生新的数据组合方式，可能存在数据泄密风险加大。例如第三方可能通过标示信息或者半标示信息，与外部数据进行匹配，进而获取完整的用户信息。

发明内容

针对现有技术中的缺陷，本发明提供一种基于FP-growth的多源数据关联隐私泄露风险评估系统，能够判断已脱敏数据交由第三方合作是否存在隐私泄露的风险。

一种基于FP-growth的多源数据关联隐私泄露风险评估系统，包括：

脆弱性分析单元：用于获取待分析数据源，并对所述待分析数据源进行脆弱性分析，构建隐私数据库；

关联分析单元：用于使用FP-growth关联分析算法对所述隐私数据库进行多维关联性数据分析，获取强关联规则；

风险值计算单元：用于结合脆弱性分析结果，计算所述隐私数据库中单一数据源的隐私泄露风险值；

评估单元：用于结合所述隐私泄露风险值构建风险评估体系；还用于利用所述风险评估体系，对所述隐私数据库中单一数据源进行多源隐私泄露风险评估，获得待分析数据源的风险向量，对该待分析数据源进行评估。

优选地，所述脆弱性分析单元具体用于：

对所述待分析数据源进行脆弱性分析；

结合预设的隐私类别，对经过脆弱性分析后的数据进行分类；

对分类后的数据进行数据格式处理，根据处理后的数据构建所述隐私数据库。

优选地，所述关联分析单元具体用于：

创建FP-tree，并利用FP-growth算法挖掘所述FP-tree的频繁项集；

设置最小支持度阈值和最小置信度阈值；

根据所述最小支持度阈值和最小置信度阈值获得各个项集之间的强关联规则。

优选地，所述关联分析单元具体用于：

对所述隐私数据库进行元素定义：定义I＝{i₁,i₂,...,i_m}为包含m个不同项目ij的集合，称为项集；则隐私数据库D分为n个项集I，即 D＝{I₁,I₂,…,I_n}，每个事务T为包含有若干个项集I的集合，即

扫描隐私数据库D，确定所述隐私数据库D中每个项集I的支持度，将频繁项集按照支持度的递减排序，排序结果为结果L；

再次扫描隐私数据库D，构建FP-tree：创建FP-tree的根节点，标记为 null；对于每一个隐私数据库D中的每个事务T，选择事务T中的频繁项集，并按照结果L中的次序进行排序；排序后的频繁项表记为[p|P]，其中p是第一个元素，P是剩余元素的表；

调用INSERT_TREE([p|P],T)；如果事务T有子节点N满足N.item-name ＝p.item-name，则N的计数增加1；否则创建一个新节点N，数值设置为1，链接到其父节点T上，并且通过节点链结构将其链接到具有相同item-name 的节点上；

如果P非空，则递归调用INSERT_TREE(P,N)，直到P为空。

优选地，所述关联分析单元具体用于：

将每一对项集表示为一个关联规则，扫描所有的关联规则，筛选出同时满足所述最小支持度阈值和最小置信度阈值的关联规则，即为各个项集之间的强关联规则。

优选地，所述风险值计算单元具体用于：

根据下式计算隐私数据库中单一数据源的隐私泄露风险值：

SR＝k₁·SR_c+k₂·SR_t+k₃·SR_v；

其中，和分别为评价集中，资产影响C、威胁频度T脆弱性严重程度V下评语权重集的转置矩阵；P_ci、P_ti、P_vi分别为评价集中，资产影响C、威胁频度T脆弱性严重程度V的隶属度矩阵；和分别为评价集中，资产影响C、威胁频度T脆弱性严重程度V风险项的权值；π₁、π₂、 π₃、π₄为稳态概率；k₁，k₂，k₃的取值为1/3。

优选地，所述评估单元具体用于：

根据所述隐私泄露风险值、数据关联泄露可能性P、隐私数据存活时间H 构建风险评估体系；

风险向量采用下式计算：

Risk＝[α·SR₁+β·SR₂]·P·H；

其中，权值α和β满足0≤α,β≤1，α+β＝1。

优选地，所述评估单元具体用于：

隐私数据存活时间H采用下式计算：

H＝ω_CS+ω_IM+ω_AL；

式中：ω_C、ω_I、ω_A。分别为隐私资产保密性、完整性和可用性在存储有效时间内的权重；S、M、L分别表示隐私信息短期、中期和长期存储有效时间上按权重分配的值，且S+M+L＝5。

优选地，所述评估单元具体用于：

数据关联泄露可能性P采用下式计算：

P＝[P₁,P₂,…P_k]；

其中，P_k为第k个项集强关联规则对应得到的置信度。

由上述技术方案可知，本发明提供的多源数据关联隐私泄露风险评估系统，具有以下优势：

1)通过引入关联分析，对因关联隐私或威胁产生的风险可能性进行量化，进而可以对多源数据关联造成的隐私泄露风险进行评估。

2)通过信息熵弱化了主观评价在评估过程中的作用，其风险评估结果更加客观可信。

3)利用FP-growth算法找出频繁项集和强关联规则，进而得出关联规则的概率，将多源数据关联的隐私度间接转化为求强关联规则的概率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明实施例提供的多源数据关联隐私泄露风险评估系统的模块框图。

图2为本发明实施例提供的该系统执行的流程图。

图3为本发明实施例提供的风险值计算单元执行的流程图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个” 及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和 /或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

实施例：

一种基于FP-growth的多源数据关联隐私泄露风险评估系统，系统框图参见图1，系统执行流程参见图2，包括：

脆弱性分析单元：用于获取待分析数据源，并对所述待分析数据源进行脆弱性分析，构建隐私数据库；优选地，所述脆弱性分析单元具体用于：

对所述待分析数据源进行脆弱性分析；

具体地，例如对数据源X₁与数据源X₂进行脆弱性分析，根据预设的隐私类别(例如身份隐私、位置隐私、网购习惯、浏览轨迹、社交网络等等)，将隐私数据进行分类、数据格式处理后，得到多源隐私数据库D。

关联分析单元：用于使用FP-growth关联分析算法对所述隐私数据库进行多维关联性数据分析，获取强关联规则；优选地，所述关联分析单元具体用于：

创建FP-tree，并挖掘所述FP-tree的频繁项集；

设置最小支持度阈值和最小置信度阈值；

首先，采用以下方法创建FP-tree：

对所述隐私数据库进行元素定义：定义I＝{i₁,i₂,...,i_m}为包含m个不同项目i_j的集合，称为项集；则隐私数据库D分为n个项集I，即 D＝{I₁,I₂,…,I_n}，每个事务T为包含有若干个项集I的集合，即每一个事务都具有一个标识符TID。每个关联规则可以表示为其中且A∩B＝φ。

扫描隐私数据库D，确定所述隐私数据库D中每个项集I的支持度，丢弃非频繁项集，将频繁项集按照支持度的递减排序，排序结果为结果L；

再次扫描隐私数据库D，构建FP-tree：创建FP-tree的根节点，标记为null；对于每一个隐私数据库D中的每个事务T，选择事务T中的频繁项集，并按照结果L中的次序进行排序；排序后的频繁项表记为[p|P]，其中p是第一个元素，P是剩余元素的表；

如果P非空，则递归调用INSERT_TREE(P,N)，直到P为空。

然后，采用利用FP-growth算法挖掘所述FP-tree的频繁项集。

最后，将每一对项集表示为一个关联规则，扫描所有的关联规则，筛选出同时满足所述最小支持度阈值和最小置信度阈值的关联规则，即为各个项集之间的强关联规则。

具体地，假设对于关联规则称在隐私数据库D中同时出现A和B的概率为支持度，可以记作Support，表示为：

称在A出现的条件下，B也出现的概率为置信度，可以记作Confidence，表示为：

设定最小支持度阈值minsupport和最小置信度阈值minconfidence。最后获得的强关联规则个数为k个。

风险值计算单元：其执行流程参见图3，用于结合脆弱性分析结果，计算所述隐私数据库中单一数据源的隐私泄露风险值；优选地，所述风险值计算单元具体用于：

1)根据脆弱性分析结果构建单一数据源的隐私泄露风险评价指标；

具体地，隐私泄露风险评价指标可以分为三部分，分别为资产影响C、威胁频度T和脆弱性严重程度V，如下表所示。包含1个目标项、4个二级指标与27个三级指标项。

表1：隐私泄露风险评价指标

2)构建因素集：当第i类风险下有n个风险因素r_in，则因素集为 R_i＝{r_i1,r_i2,…,r_in}；

3)根据所述隐私泄露风险评价指标构建评价集B；所述评价集中包括多个评语及对应的权重；

具体地，例如构建第i类风险下资产影响C、威胁频度T以及脆弱性严重程度V评判集合为B_c＝{b_c1,b_c2,…,b_cm}，B_t＝{b_t1,b_t2,…,b_tm}，B_v＝{b_v1,b_v2,…,b_vm}，其中m为对应评判集中的个数，本实施例中m＝5。本实施例中给予资产影响、威胁频度以及脆弱性严重程度赋值，评测表如下：

表2：资产影响评测表

表3：威胁频度评测表

表4：脆弱性严重程度评测表

评价集对应的评语权重分别为U_c＝(u_c1,u_c2,…u_cm)，U_t＝(u_t1,u_t2,…u_tm)， U_v＝(u_v1,u_v2,…u_vm)，风险级别越高，对应的风险影响重视程度越高。本实施例中评价集的权重向量分别为：

4)依据所述评价集对所述因素集中各个风险因素进行评估，获得各个风险因素对应的评语，并构建模糊映射f：R→F(B)，F(B)是B上的模糊集；

r_j→f(r_j)＝(p_j1,p_j2,…p_jm)∈F(B)，其中映射f表示风险因素r_j对评判集中各评语的支持程度，风险因素r_j对评判集B的隶属向量为P_j＝(p_j1,p_j2,…p_jm)，得到隶属矩阵为：

其中，m为评语的数量；

计算β_i类风险下，所述隐私泄露风险评价指标中各指标的隶属矩阵；例如：资产影响、威胁频度以及脆弱性严重程度的隶属度矩阵分别为P_ci、P_ti、P_vi。

5)确定隐私泄露风险因素熵权系数。

若风险项r_j评价集中指标的支持程度p_jk相差很大，那么其在总和评估中造成影响越大；反之若支持程度完全相同，则人员评估结果过于分散，那么造成的影响微弱。所以该系统应用信息熵计算各个指标支持度的权重。

风险项r_j的相对重要程度根据下面信息熵进行度量：

式中p_jk(k＝1,2,…,m)越逼近相等，其熵值越大，相应地隐私安全风险R_j对其评估的不确定程度就越大。当m个状态概率出现相等的情况下，表明等概率的分布的平均不确定性最大，求极值可得，当时，达到的最大熵值为： H_max＝ln m，使用最大熵值H_max做标准对上式进行归一化处理，得到该风险项的相对重要程度的熵值为：

当p_jk(k＝1,2,…,m)的值相同，即时，e_j取得最大值1，其取值满足： 0≤e_j≤1，因为其熵值达到最大，则表明评估人员的意见较为分散，那么风险因素对其系统风险评估贡献值达到最小，故可用来衡量隐私安全风险项的权。对e_j进行归一化处理，得到风险项的权值为：

各隐私风险项对应的权重向量为

计算在β_i类风险下资产影响、威胁频度以及脆弱性严重程度的风险因素熵权系数分别为

6)各个风险类β_i之间的稳态概率的确定。

对于每一个β_i类的因素分别计算类对应的资产影响、威胁频度和脆弱性严重程度的度量分别为：

第二层各风险类之间具有关联和相互转移性，结合马尔科夫链计算机原理，计算各个风险类β_i之间的稳态概率。各隐私风险类之间的转移矩阵为Q。

进一步对Q中每一行进行归一化处理：

即隐私泄露风险类之间的转移矩阵归一化后得到其归一化特征转移矩阵：

其中，对角线上的元素指该隐私风险单独发生的情况，非对角线上是风险可能相互转移，共同发生的情况。转移矩阵和稳态概率能使下列方程组成立

使用Matlab凸优化工具包cvx求解方程组，约束条件设置为 π₁+π₂+π₃+π₄＝1，输出稳态概率π＝{π₁,π₂,π₃,π₄}。

根据下式计算隐私数据库中单一数据源的隐私泄露风险值：

SR＝k₁·SR_c+k₂·SR_t+k₃·SR_v；

资产影响、威胁频度、脆弱性相对重要程度相等，安全事件发生的可能性采用加权平均方法计算云计算隐私安全风险隶属度等级，所以本实施例中，k₁， k₂，k₃的取值为1/3。该系统分别计算数据源X₁和数据源X₂的隐私泄露风险值。

评估单元：用于结合所述隐私泄露风险值构建风险评估体系；还用于利用所述风险评估体系，对所述隐私数据库中单一数据源进行多源隐私泄露风险评估，获得待分析数据源的风险向量，对该待分析数据源进行评估。优选地，所述评估单元具体用于：

风险向量采用下式计算：

Risk＝[α·SR₁+β·SR₂]·P·H；

其中，权值α和β满足0≤α,β≤1，α+β＝1。

1)针对FP-growth的多源数据关联算法，引入两个参数，数据关联泄露可能性P、隐私数据存活时间H。多源数据库中单一数据源隐私泄露影响为SR，基于FP-growth多源数据关联分析的风险值的计算方法如下：

Risk＝R(C,T,V,P,H)＝R(SR(C,T,V),P,H)

2)隐私数据存活时间H计算

各类隐私数据由于其本身价值或效用的大小，在存储有效时间上有所差异，如对于网购商品的用户来讲，一次性购买的用户所产生的隐私信息选择短期存储，之后根据其具体的购买情况再更改存储时间，不仅可以节省内存，还能有选择性的提供服务。本系统定义存储有效时间为：

H＝ω_CS+ω_IM+ω_AL

式中：ω_C、ω_I、ω_A分别为隐私资产保密性、完整性和可用性在存储有效时间内的权重，S、M、L分别表示隐私信息短期、中期和长期存储有效时间上按权重分配的值，且S+M+L＝5。

3)计算数据关联隐私泄露可能性P，P＝[P₁,P₂,…P_k]；其中，P_k为第k个项集强关联规则对应得到的置信度。

4)考虑到多源数据关联的隐私泄露风险包含两种情况：单一数据源隐私泄露导致数据关联后另一数据源隐私泄露以及多源数据关联后造成的隐私泄露。构造风险计算函数如下：

Risk＝[α·SR₁+β·SR₂]·P·H

其中，权值α和β满足0≤α,β≤1，α+β＝1。对于整个多源隐私数据库D，计算隐私风险向量为Risk＝[Risk₁,Risk₂,…Risk_k]。

如果多源数据隐私泄露风险值越大，则说明由于数据关联造成隐私泄露占全部隐私泄露行为比重越大，即本次多源数据关联的隐私泄露风险越大。

该方法在进行评估时，需要评估风险等级和关联规则项风险产生的作用。风险值越大说明风险等级越高。对应关联规则项风险产生的作用就越大，即说明由于数据关联造成隐私泄露占全部隐私泄露行为比重越大，本次多源数据关联的隐私泄露风险越大。具体风险等级可参照下表：

综上所述，本系统利用了FP-growth关联分析方法，设计大数据环境下的隐私泄露风险评估模型。综合隐私资产影响、威胁频度、脆弱性严重程度、隐私有效存储时间和多源数据关联隐私度五个隐私风险要素，建立隐私泄露风险评估指标体系。通过使用FP-growth关联分析方法对隐私数据库的关联规则及频繁项集的分析，计算脆弱隐私项之间的强关联规则，进而得出关联规则的概率，将多源数据关联的隐私度间接转化为求强关联规则的概率。其中，单一数据源隐私泄露风险综合隐私资产影响、威胁频度、脆弱性严重程度三个因素，使用模糊矩阵和马尔科夫链的方法进行定量的隐私泄露风险评估，得到单一数据源隐私泄露风险值。在此基础上，引入隐私有效存储时间和多源数据关联隐私度两个指标，进一步对多源数据关联隐私泄露风险进行评估。具有以下优势：

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于FP-growth的多源数据关联隐私泄露风险评估系统，其特征在于，包括：

2.根据权利要求1所述基于FP-growth的多源数据关联隐私泄露风险评估系统，其特征在于，所述脆弱性分析单元具体用于：

对所述待分析数据源进行脆弱性分析；

3.根据权利要求1所述基于FP-growth的多源数据关联隐私泄露风险评估系统，其特征在于，所述关联分析单元具体用于：

创建FP-tree，并利用FP-growth算法挖掘所述FP-tree的频繁项集；

设置最小支持度阈值和最小置信度阈值；

4.根据权利要求3所述基于FP-growth的多源数据关联隐私泄露风险评估系统，其特征在于，所述关联分析单元具体用于：

对所述隐私数据库进行元素定义：定义I＝{i₁,i₂,...,i_m}为包含m个不同项目i_j的集合，称为项集；则隐私数据库D分为n个项集I，即D＝{I₁,I₂,…,I_n}，每个事务T为包含有若干个项集I的集合，即

调用INSERT_TREE([p|P],T)；如果事务T有子节点N满足N.item-name＝p.item-name，则N的计数增加1；否则创建一个新节点N，数值设置为1，链接到其父节点T上，并且通过节点链结构将其链接到具有相同item-name的节点上；

如果P非空，则递归调用INSERT_TREE(P,N)，直到P为空。

5.根据权利要求3所述基于FP-growth的多源数据关联隐私泄露风险评估系统，其特征在于，所述关联分析单元具体用于：

6.根据权利要求1所述基于FP-growth的多源数据关联隐私泄露风险评估系统，其特征在于，所述风险值计算单元具体用于：

根据下式计算隐私数据库中单一数据源的隐私泄露风险值：

SR＝k₁·SR_c+k₂·SR_t+k₃·SR_v；

其中，和分别为评价集中，资产影响C、威胁频度T脆弱性严重程度V下评语权重集的转置矩阵；P_ci、P_ti、P_vi分别为评价集中，资产影响C、威胁频度T脆弱性严重程度V的隶属度矩阵；和φ_vi分别为评价集中，资产影响C、威胁频度T脆弱性严重程度V风险项的权值；π₁、π₂、π₃、π₄为稳态概率；k₁，k₂，k₃的取值为1/3。

7.根据权利要求6所述基于FP-growth的多源数据关联隐私泄露风险评估系统，其特征在于，所述评估单元具体用于：

根据所述隐私泄露风险值、数据关联泄露可能性P、隐私数据存活时间H构建风险评估体系；

风险向量采用下式计算：

Risk＝[α·SR₁+β·SR₂]·P·H；

其中，权值α和β满足0≤α,β≤1，α+β＝1。

8.根据权利要求7所述基于FP-growth的多源数据关联隐私泄露风险评估系统，其特征在于，所述评估单元具体用于：

隐私数据存活时间H采用下式计算：

H＝ω_CS+ω_IM+ω_AL；

式中：ω_C、ω_I、ω_A分别为隐私资产保密性、完整性和可用性在存储有效时间内的权重；S、M、L分别表示隐私信息短期、中期和长期存储有效时间上按权重分配的值，且S+M+L＝5。

9.根据权利要求7所述基于FP-growth的多源数据关联隐私泄露风险评估系统，其特征在于，所述评估单元具体用于：

数据关联泄露可能性P采用下式计算：

P＝[P₁,P₂,…P_k]；

其中，P_k为第k个项集强关联规则对应得到的置信度。