CN110222058A - 基于FP-growth的多源数据关联隐私泄露风险评估系统 - Google Patents

基于FP-growth的多源数据关联隐私泄露风险评估系统 Download PDF

Info

Publication number
CN110222058A
CN110222058A CN201910488174.XA CN201910488174A CN110222058A CN 110222058 A CN110222058 A CN 110222058A CN 201910488174 A CN201910488174 A CN 201910488174A CN 110222058 A CN110222058 A CN 110222058A
Authority
CN
China
Prior art keywords
risk
data
privacy leakage
source
growth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910488174.XA
Other languages
English (en)
Inventor
白林
周莅涛
李适季
施全立
陈天立
张宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN YOUWANG TECHNOLOGY Co Ltd
Original Assignee
SHENZHEN YOUWANG TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN YOUWANG TECHNOLOGY Co Ltd filed Critical SHENZHEN YOUWANG TECHNOLOGY Co Ltd
Priority to CN201910488174.XA priority Critical patent/CN110222058A/zh
Publication of CN110222058A publication Critical patent/CN110222058A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的基于FP‑growth的多源数据关联隐私泄露风险评估系统,脆弱性分析单元获取待分析数据源,并对待分析数据源进行脆弱性分析,构建隐私数据库;关联分析单元使用FP‑growth关联分析算法对隐私数据库进行多维关联性数据分析,获取强关联规则;风险值计算单元结合脆弱性分析结果,计算隐私数据库中单一数据源的隐私泄露风险值;评估单元结合隐私泄露风险值构建风险评估体系;还用于利用风险评估体系,对隐私数据库中单一数据源进行多源隐私泄露风险评估,获得待分析数据源的风险向量,对该待分析数据源进行评估。该系统能够判断已脱敏数据交由第三方合作是否存在隐私泄露的风险。

Description

基于FP-growth的多源数据关联隐私泄露风险评估系统
技术领域
本发明属于隐私泄露风险评估技术领域,具体涉及基于FP-growth的多源 数据关联隐私泄露风险评估系统。
背景技术
已脱敏数据交由第三方进行合作时,第三方往往需要结合外部数据进行关 联分析。而外部数据与已脱敏数据将会产生新的数据组合方式,可能存在数据 泄密风险加大。例如第三方可能通过标示信息或者半标示信息,与外部数据进 行匹配,进而获取完整的用户信息。
发明内容
针对现有技术中的缺陷,本发明提供一种基于FP-growth的多源数据关联 隐私泄露风险评估系统,能够判断已脱敏数据交由第三方合作是否存在隐私泄 露的风险。
一种基于FP-growth的多源数据关联隐私泄露风险评估系统,包括:
脆弱性分析单元:用于获取待分析数据源,并对所述待分析数据源进行脆 弱性分析,构建隐私数据库;
关联分析单元:用于使用FP-growth关联分析算法对所述隐私数据库进行 多维关联性数据分析,获取强关联规则;
风险值计算单元:用于结合脆弱性分析结果,计算所述隐私数据库中单一 数据源的隐私泄露风险值;
评估单元:用于结合所述隐私泄露风险值构建风险评估体系;还用于利用 所述风险评估体系,对所述隐私数据库中单一数据源进行多源隐私泄露风险评 估,获得待分析数据源的风险向量,对该待分析数据源进行评估。
优选地,所述脆弱性分析单元具体用于:
对所述待分析数据源进行脆弱性分析;
结合预设的隐私类别,对经过脆弱性分析后的数据进行分类;
对分类后的数据进行数据格式处理,根据处理后的数据构建所述隐私数据 库。
优选地,所述关联分析单元具体用于:
创建FP-tree,并利用FP-growth算法挖掘所述FP-tree的频繁项集;
设置最小支持度阈值和最小置信度阈值;
根据所述最小支持度阈值和最小置信度阈值获得各个项集之间的强关联 规则。
优选地,所述关联分析单元具体用于:
对所述隐私数据库进行元素定义:定义I={i1,i2,...,im}为包含m个不同 项目ij的集合,称为项集;则隐私数据库D分为n个项集I,即 D={I1,I2,…,In},每个事务T为包含有若干个项集I的集合,即
扫描隐私数据库D,确定所述隐私数据库D中每个项集I的支持度,将频 繁项集按照支持度的递减排序,排序结果为结果L;
再次扫描隐私数据库D,构建FP-tree:创建FP-tree的根节点,标记为 null;对于每一个隐私数据库D中的每个事务T,选择事务T中的频繁项集, 并按照结果L中的次序进行排序;排序后的频繁项表记为[p|P],其中p是第 一个元素,P是剩余元素的表;
调用INSERT_TREE([p|P],T);如果事务T有子节点N满足N.item-name =p.item-name,则N的计数增加1;否则创建一个新节点N,数值设置为1, 链接到其父节点T上,并且通过节点链结构将其链接到具有相同item-name 的节点上;
如果P非空,则递归调用INSERT_TREE(P,N),直到P为空。
优选地,所述关联分析单元具体用于:
将每一对项集表示为一个关联规则,扫描所有的关联规则,筛选出同时满 足所述最小支持度阈值和最小置信度阈值的关联规则,即为各个项集之间的 强关联规则。
优选地,所述风险值计算单元具体用于:
根据下式计算隐私数据库中单一数据源的隐私泄露风险值:
SR=k1·SRc+k2·SRt+k3·SRv
其中,分别为评价集中,资产影响C、威胁频度T脆弱性 严重程度V下评语权重集的转置矩阵;Pci、Pti、Pvi分别为评价集中,资产影 响C、威胁频度T脆弱性严重程度V的隶属度矩阵;分别为评 价集中,资产影响C、威胁频度T脆弱性严重程度V风险项的权值;π1、π2、 π3、π4为稳态概率;k1,k2,k3的取值为1/3。
优选地,所述评估单元具体用于:
根据所述隐私泄露风险值、数据关联泄露可能性P、隐私数据存活时间H 构建风险评估体系;
风险向量采用下式计算:
Risk=[α·SR1+β·SR2]·P·H;
其中,权值α和β满足0≤α,β≤1,α+β=1。
优选地,所述评估单元具体用于:
隐私数据存活时间H采用下式计算:
H=ωCS+ωIM+ωAL;
式中:ωC、ωI、ωA。分别为隐私资产保密性、完整性和可用性在存储有 效时间内的权重;S、M、L分别表示隐私信息短期、中期和长期存储有效时 间上按权重分配的值,且S+M+L=5。
优选地,所述评估单元具体用于:
数据关联泄露可能性P采用下式计算:
P=[P1,P2,…Pk];
其中,Pk为第k个项集强关联规则对应得到的置信度。
由上述技术方案可知,本发明提供的多源数据关联隐私泄露风险评估系 统,具有以下优势:
1)通过引入关联分析,对因关联隐私或威胁产生的风险可能性进行量化, 进而可以对多源数据关联造成的隐私泄露风险进行评估。
2)通过信息熵弱化了主观评价在评估过程中的作用,其风险评估结果更 加客观可信。
3)利用FP-growth算法找出频繁项集和强关联规则,进而得出关联规则的 概率,将多源数据关联的隐私度间接转化为求强关联规则的概率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将 对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附 图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分 并不一定按照实际的比例绘制。
图1为本发明实施例提供的多源数据关联隐私泄露风险评估系统的模块 框图。
图2为本发明实施例提供的该系统执行的流程图。
图3为本发明实施例提供的风险值计算单元执行的流程图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例 仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限 制本发明的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语 或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包 含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排 除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在 或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施 例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使 用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个” 及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和 /或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并 且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据 上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测 到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以 依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所 描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
实施例:
一种基于FP-growth的多源数据关联隐私泄露风险评估系统,系统框图参 见图1,系统执行流程参见图2,包括:
脆弱性分析单元:用于获取待分析数据源,并对所述待分析数据源进行脆 弱性分析,构建隐私数据库;优选地,所述脆弱性分析单元具体用于:
对所述待分析数据源进行脆弱性分析;
结合预设的隐私类别,对经过脆弱性分析后的数据进行分类;
对分类后的数据进行数据格式处理,根据处理后的数据构建所述隐私数据 库。
具体地,例如对数据源X1与数据源X2进行脆弱性分析,根据预设的隐私 类别(例如身份隐私、位置隐私、网购习惯、浏览轨迹、社交网络等等),将 隐私数据进行分类、数据格式处理后,得到多源隐私数据库D。
关联分析单元:用于使用FP-growth关联分析算法对所述隐私数据库进行 多维关联性数据分析,获取强关联规则;优选地,所述关联分析单元具体用于:
创建FP-tree,并挖掘所述FP-tree的频繁项集;
设置最小支持度阈值和最小置信度阈值;
根据所述最小支持度阈值和最小置信度阈值获得各个项集之间的强关联 规则。
首先,采用以下方法创建FP-tree:
对所述隐私数据库进行元素定义:定义I={i1,i2,...,im}为包含m个不同 项目ij的集合,称为项集;则隐私数据库D分为n个项集I,即 D={I1,I2,…,In},每个事务T为包含有若干个项集I的集合,即每一个 事务都具有一个标识符TID。每个关联规则可以表示为其中 且A∩B=φ。
扫描隐私数据库D,确定所述隐私数据库D中每个项集I的支持度,丢弃 非频繁项集,将频繁项集按照支持度的递减排序,排序结果为结果L;
再次扫描隐私数据库D,构建FP-tree:创建FP-tree的根节点,标记为null;对于每一个隐私数据库D中的每个事务T,选择事务T中的频繁项集, 并按照结果L中的次序进行排序;排序后的频繁项表记为[p|P],其中p是第 一个元素,P是剩余元素的表;
调用INSERT_TREE([p|P],T);如果事务T有子节点N满足N.item-name =p.item-name,则N的计数增加1;否则创建一个新节点N,数值设置为1, 链接到其父节点T上,并且通过节点链结构将其链接到具有相同item-name 的节点上;
如果P非空,则递归调用INSERT_TREE(P,N),直到P为空。
然后,采用利用FP-growth算法挖掘所述FP-tree的频繁项集。
最后,将每一对项集表示为一个关联规则,扫描所有的关联规则,筛选出 同时满足所述最小支持度阈值和最小置信度阈值的关联规则,即为各个项集之 间的强关联规则。
具体地,假设对于关联规则称在隐私数据库D中 同时出现A和B的概率为支持度,可以记作Support,表示为:
称在A出现的条件下,B也出现的概率为置信度,可以记作Confidence, 表示为:
设定最小支持度阈值minsupport和最小置信度阈值minconfidence。最后获 得的强关联规则个数为k个。
风险值计算单元:其执行流程参见图3,用于结合脆弱性分析结果,计算 所述隐私数据库中单一数据源的隐私泄露风险值;优选地,所述风险值计算单 元具体用于:
1)根据脆弱性分析结果构建单一数据源的隐私泄露风险评价指标;
具体地,隐私泄露风险评价指标可以分为三部分,分别为资产影响C、威 胁频度T和脆弱性严重程度V,如下表所示。包含1个目标项、4个二级指标 与27个三级指标项。
表1:隐私泄露风险评价指标
2)构建因素集:当第i类风险下有n个风险因素rin,则因素集为 Ri={ri1,ri2,…,rin};
3)根据所述隐私泄露风险评价指标构建评价集B;所述评价集中包括多 个评语及对应的权重;
具体地,例如构建第i类风险下资产影响C、威胁频度T以及脆弱性严 重程度V评判集合为Bc={bc1,bc2,…,bcm},Bt={bt1,bt2,…,btm},Bv={bv1,bv2,…,bvm}, 其中m为对应评判集中的个数,本实施例中m=5。本实施例中给予资产影响、 威胁频度以及脆弱性严重程度赋值,评测表如下:
表2:资产影响评测表
表3:威胁频度评测表
表4:脆弱性严重程度评测表
评价集对应的评语权重分别为Uc=(uc1,uc2,…ucm),Ut=(ut1,ut2,…utm), Uv=(uv1,uv2,…uvm),风险级别越高,对应的风险影响重视程度越高。本实施例 中评价集的权重向量分别为:
4)依据所述评价集对所述因素集中各个风险因素进行评估,获得各个风 险因素对应的评语,并构建模糊映射f:R→F(B),F(B)是B上的模糊集;
rj→f(rj)=(pj1,pj2,…pjm)∈F(B),其中映射f表示风险因素rj对评判集中各 评语的支持程度,风险因素rj对评判集B的隶属向量为Pj=(pj1,pj2,…pjm),得 到隶属矩阵为:
其中,m为评语的数量;
计算βi类风险下,所述隐私泄露风险评价指标中各指标的隶属矩阵;例如: 资产影响、威胁频度以及脆弱性严重程度的隶属度矩阵分别为Pci、Pti、Pvi
5)确定隐私泄露风险因素熵权系数。
若风险项rj评价集中指标的支持程度pjk相差很大,那么其在总和评估中 造成影响越大;反之若支持程度完全相同,则人员评估结果过于分散,那么造 成的影响微弱。所以该系统应用信息熵计算各个指标支持度的权重。
风险项rj的相对重要程度根据下面信息熵进行度量:
式中pjk(k=1,2,…,m)越逼近相等,其熵值越大,相应地隐私安全风险Rj对 其评估的不确定程度就越大。当m个状态概率出现相等的情况下,表明等概 率的分布的平均不确定性最大,求极值可得,当时,达到的最大熵值为: Hmax=ln m,使用最大熵值Hmax做标准对上式进行归一化处理,得到该风险项的 相对重要程度的熵值为:
当pjk(k=1,2,…,m)的值相同,即时,ej取得最大值1,其取值满足: 0≤ej≤1,因为其熵值达到最大,则表明评估人员的意见较为分散,那么风险 因素对其系统风险评估贡献值达到最小,故可用来衡量隐私安全风险项的权。 对ej进行归一化处理,得到风险项的权值为:
各隐私风险项对应的权重向量为
计算在βi类风险下资产影响、威胁频度以及脆弱性严重程度的风险因素熵 权系数分别为
6)各个风险类βi之间的稳态概率的确定。
对于每一个βi类的因素分别计算类对应的资产影响、威胁频度和脆弱性严 重程度的度量分别为:
第二层各风险类之间具有关联和相互转移性,结合马尔科夫链计算机原 理,计算各个风险类βi之间的稳态概率。各隐私风险类之间的转移矩阵为Q。
进一步对Q中每一行进行归一化处理:
即隐私泄露风险类之间的转移矩阵归一化后得到其归一化特征转移矩阵:
其中,对角线上的元素指该隐私风险单独发生的情况,非对角线上是风险 可能相互转移,共同发生的情况。转移矩阵和稳态概率能使下列方程组成立
使用Matlab凸优化工具包cvx求解方程组,约束条件设置为 π1234=1,输出稳态概率π={π1234}。
根据下式计算隐私数据库中单一数据源的隐私泄露风险值:
SR=k1·SRc+k2·SRt+k3·SRv
资产影响、威胁频度、脆弱性相对重要程度相等,安全事件发生的可能性 采用加权平均方法计算云计算隐私安全风险隶属度等级,所以本实施例中,k1, k2,k3的取值为1/3。该系统分别计算数据源X1和数据源X2的隐私泄露风险值。
评估单元:用于结合所述隐私泄露风险值构建风险评估体系;还用于利用 所述风险评估体系,对所述隐私数据库中单一数据源进行多源隐私泄露风险评 估,获得待分析数据源的风险向量,对该待分析数据源进行评估。优选地,所 述评估单元具体用于:
根据所述隐私泄露风险值、数据关联泄露可能性P、隐私数据存活时间H 构建风险评估体系;
风险向量采用下式计算:
Risk=[α·SR1+β·SR2]·P·H;
其中,权值α和β满足0≤α,β≤1,α+β=1。
1)针对FP-growth的多源数据关联算法,引入两个参数,数据关联泄露 可能性P、隐私数据存活时间H。多源数据库中单一数据源隐私泄露影响为SR, 基于FP-growth多源数据关联分析的风险值的计算方法如下:
Risk=R(C,T,V,P,H)=R(SR(C,T,V),P,H)
2)隐私数据存活时间H计算
各类隐私数据由于其本身价值或效用的大小,在存储有效时间上有所差 异,如对于网购商品的用户来讲,一次性购买的用户所产生的隐私信息选择短 期存储,之后根据其具体的购买情况再更改存储时间,不仅可以节省内存,还 能有选择性的提供服务。本系统定义存储有效时间为:
H=ωCS+ωIM+ωAL
式中:ωC、ωI、ωA分别为隐私资产保密性、完整性和可用性在存储有效 时间内的权重,S、M、L分别表示隐私信息短期、中期和长期存储有效时间 上按权重分配的值,且S+M+L=5。
3)计算数据关联隐私泄露可能性P,P=[P1,P2,…Pk];其中,Pk为第k个 项集强关联规则对应得到的置信度。
4)考虑到多源数据关联的隐私泄露风险包含两种情况:单一数据源隐私 泄露导致数据关联后另一数据源隐私泄露以及多源数据关联后造成的隐私泄 露。构造风险计算函数如下:
Risk=[α·SR1+β·SR2]·P·H
其中,权值α和β满足0≤α,β≤1,α+β=1。对于整个多源隐私数据库D, 计算隐私风险向量为Risk=[Risk1,Risk2,…Riskk]。
如果多源数据隐私泄露风险值越大,则说明由于数据关联造成隐私泄露占 全部隐私泄露行为比重越大,即本次多源数据关联的隐私泄露风险越大。
该方法在进行评估时,需要评估风险等级和关联规则项风险产生的作用。 风险值越大说明风险等级越高。对应关联规则项风险产生的作用就越大,即说 明由于数据关联造成隐私泄露占全部隐私泄露行为比重越大,本次多源数据关 联的隐私泄露风险越大。具体风险等级可参照下表:
综上所述,本系统利用了FP-growth关联分析方法,设计大数据环境下的 隐私泄露风险评估模型。综合隐私资产影响、威胁频度、脆弱性严重程度、隐 私有效存储时间和多源数据关联隐私度五个隐私风险要素,建立隐私泄露风险 评估指标体系。通过使用FP-growth关联分析方法对隐私数据库的关联规则及 频繁项集的分析,计算脆弱隐私项之间的强关联规则,进而得出关联规则的概 率,将多源数据关联的隐私度间接转化为求强关联规则的概率。其中,单一数 据源隐私泄露风险综合隐私资产影响、威胁频度、脆弱性严重程度三个因素, 使用模糊矩阵和马尔科夫链的方法进行定量的隐私泄露风险评估,得到单一数 据源隐私泄露风险值。在此基础上,引入隐私有效存储时间和多源数据关联隐 私度两个指标,进一步对多源数据关联隐私泄露风险进行评估。具有以下优势:
1)通过引入关联分析,对因关联隐私或威胁产生的风险可能性进行量化, 进而可以对多源数据关联造成的隐私泄露风险进行评估。
2)通过信息熵弱化了主观评价在评估过程中的作用,其风险评估结果更 加客观可信。
3)利用FP-growth算法找出频繁项集和强关联规则,进而得出关联规则的 概率,将多源数据关联的隐私度间接转化为求强关联规则的概率。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者 对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相 应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明 的权利要求和说明书的范围当中。

Claims (9)

1.一种基于FP-growth的多源数据关联隐私泄露风险评估系统,其特征在于,包括:
脆弱性分析单元:用于获取待分析数据源,并对所述待分析数据源进行脆弱性分析,构建隐私数据库;
关联分析单元:用于使用FP-growth关联分析算法对所述隐私数据库进行多维关联性数据分析,获取强关联规则;
风险值计算单元:用于结合脆弱性分析结果,计算所述隐私数据库中单一数据源的隐私泄露风险值;
评估单元:用于结合所述隐私泄露风险值构建风险评估体系;还用于利用所述风险评估体系,对所述隐私数据库中单一数据源进行多源隐私泄露风险评估,获得待分析数据源的风险向量,对该待分析数据源进行评估。
2.根据权利要求1所述基于FP-growth的多源数据关联隐私泄露风险评估系统,其特征在于,所述脆弱性分析单元具体用于:
对所述待分析数据源进行脆弱性分析;
结合预设的隐私类别,对经过脆弱性分析后的数据进行分类;
对分类后的数据进行数据格式处理,根据处理后的数据构建所述隐私数据库。
3.根据权利要求1所述基于FP-growth的多源数据关联隐私泄露风险评估系统,其特征在于,所述关联分析单元具体用于:
创建FP-tree,并利用FP-growth算法挖掘所述FP-tree的频繁项集;
设置最小支持度阈值和最小置信度阈值;
根据所述最小支持度阈值和最小置信度阈值获得各个项集之间的强关联规则。
4.根据权利要求3所述基于FP-growth的多源数据关联隐私泄露风险评估系统,其特征在于,所述关联分析单元具体用于:
对所述隐私数据库进行元素定义:定义I={i1,i2,...,im}为包含m个不同项目ij的集合,称为项集;则隐私数据库D分为n个项集I,即D={I1,I2,…,In},每个事务T为包含有若干个项集I的集合,即
扫描隐私数据库D,确定所述隐私数据库D中每个项集I的支持度,将频繁项集按照支持度的递减排序,排序结果为结果L;
再次扫描隐私数据库D,构建FP-tree:创建FP-tree的根节点,标记为null;对于每一个隐私数据库D中的每个事务T,选择事务T中的频繁项集,并按照结果L中的次序进行排序;排序后的频繁项表记为[p|P],其中p是第一个元素,P是剩余元素的表;
调用INSERT_TREE([p|P],T);如果事务T有子节点N满足N.item-name=p.item-name,则N的计数增加1;否则创建一个新节点N,数值设置为1,链接到其父节点T上,并且通过节点链结构将其链接到具有相同item-name的节点上;
如果P非空,则递归调用INSERT_TREE(P,N),直到P为空。
5.根据权利要求3所述基于FP-growth的多源数据关联隐私泄露风险评估系统,其特征在于,所述关联分析单元具体用于:
将每一对项集表示为一个关联规则,扫描所有的关联规则,筛选出同时满足所述最小支持度阈值和最小置信度阈值的关联规则,即为各个项集之间的强关联规则。
6.根据权利要求1所述基于FP-growth的多源数据关联隐私泄露风险评估系统,其特征在于,所述风险值计算单元具体用于:
根据下式计算隐私数据库中单一数据源的隐私泄露风险值:
SR=k1·SRc+k2·SRt+k3·SRv
其中,分别为评价集中,资产影响C、威胁频度T脆弱性严重程度V下评语权重集的转置矩阵;Pci、Pti、Pvi分别为评价集中,资产影响C、威胁频度T脆弱性严重程度V的隶属度矩阵;和φvi分别为评价集中,资产影响C、威胁频度T脆弱性严重程度V风险项的权值;π1、π2、π3、π4为稳态概率;k1,k2,k3的取值为1/3。
7.根据权利要求6所述基于FP-growth的多源数据关联隐私泄露风险评估系统,其特征在于,所述评估单元具体用于:
根据所述隐私泄露风险值、数据关联泄露可能性P、隐私数据存活时间H构建风险评估体系;
风险向量采用下式计算:
Risk=[α·SR1+β·SR2]·P·H;
其中,权值α和β满足0≤α,β≤1,α+β=1。
8.根据权利要求7所述基于FP-growth的多源数据关联隐私泄露风险评估系统,其特征在于,所述评估单元具体用于:
隐私数据存活时间H采用下式计算:
H=ωCS+ωIM+ωAL;
式中:ωC、ωI、ωA分别为隐私资产保密性、完整性和可用性在存储有效时间内的权重;S、M、L分别表示隐私信息短期、中期和长期存储有效时间上按权重分配的值,且S+M+L=5。
9.根据权利要求7所述基于FP-growth的多源数据关联隐私泄露风险评估系统,其特征在于,所述评估单元具体用于:
数据关联泄露可能性P采用下式计算:
P=[P1,P2,…Pk];
其中,Pk为第k个项集强关联规则对应得到的置信度。
CN201910488174.XA 2019-06-05 2019-06-05 基于FP-growth的多源数据关联隐私泄露风险评估系统 Pending CN110222058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910488174.XA CN110222058A (zh) 2019-06-05 2019-06-05 基于FP-growth的多源数据关联隐私泄露风险评估系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910488174.XA CN110222058A (zh) 2019-06-05 2019-06-05 基于FP-growth的多源数据关联隐私泄露风险评估系统

Publications (1)

Publication Number Publication Date
CN110222058A true CN110222058A (zh) 2019-09-10

Family

ID=67819553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910488174.XA Pending CN110222058A (zh) 2019-06-05 2019-06-05 基于FP-growth的多源数据关联隐私泄露风险评估系统

Country Status (1)

Country Link
CN (1) CN110222058A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737750A (zh) * 2020-06-30 2020-10-02 绿盟科技集团股份有限公司 一种数据处理方法、装置、电子设备及存储介质
CN111865899A (zh) * 2020-06-02 2020-10-30 中国科学院信息工程研究所 威胁驱动的协同采集方法及装置
CN112541193A (zh) * 2020-12-10 2021-03-23 支付宝(杭州)信息技术有限公司 隐私数据的保护方法和装置
CN113709090A (zh) * 2020-10-15 2021-11-26 天翼智慧家庭科技有限公司 确定群组隐私泄露风险的系统和方法
CN115618085A (zh) * 2022-10-21 2023-01-17 华信咨询设计研究院有限公司 一种基于动态标签的接口数据暴露探测方法
CN116226908A (zh) * 2022-12-27 2023-06-06 北京市大数据中心 基于大数据的数据安全应急管理分析方法及系统
CN117640699A (zh) * 2024-01-10 2024-03-01 广州雅图新能源科技有限公司 一种人员安全转移救援舱的控制系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111865899A (zh) * 2020-06-02 2020-10-30 中国科学院信息工程研究所 威胁驱动的协同采集方法及装置
CN111865899B (zh) * 2020-06-02 2021-07-13 中国科学院信息工程研究所 威胁驱动的协同采集方法及装置
CN111737750A (zh) * 2020-06-30 2020-10-02 绿盟科技集团股份有限公司 一种数据处理方法、装置、电子设备及存储介质
CN111737750B (zh) * 2020-06-30 2023-12-26 绿盟科技集团股份有限公司 一种数据处理方法、装置、电子设备及存储介质
CN113709090B (zh) * 2020-10-15 2023-03-17 天翼数字生活科技有限公司 确定群组隐私泄露风险的系统和方法
CN113709090A (zh) * 2020-10-15 2021-11-26 天翼智慧家庭科技有限公司 确定群组隐私泄露风险的系统和方法
CN112541193A (zh) * 2020-12-10 2021-03-23 支付宝(杭州)信息技术有限公司 隐私数据的保护方法和装置
CN112541193B (zh) * 2020-12-10 2024-05-24 支付宝(杭州)信息技术有限公司 隐私数据的保护方法和装置
CN115618085A (zh) * 2022-10-21 2023-01-17 华信咨询设计研究院有限公司 一种基于动态标签的接口数据暴露探测方法
CN115618085B (zh) * 2022-10-21 2024-04-05 华信咨询设计研究院有限公司 一种基于动态标签的接口数据暴露探测方法
CN116226908A (zh) * 2022-12-27 2023-06-06 北京市大数据中心 基于大数据的数据安全应急管理分析方法及系统
CN116226908B (zh) * 2022-12-27 2024-03-29 北京市大数据中心 基于大数据的数据安全应急管理分析方法及系统
CN117640699A (zh) * 2024-01-10 2024-03-01 广州雅图新能源科技有限公司 一种人员安全转移救援舱的控制系统

Similar Documents

Publication Publication Date Title
CN110222058A (zh) 基于FP-growth的多源数据关联隐私泄露风险评估系统
Taha et al. SIIMCO: A forensic investigation tool for identifying the influential members of a criminal organization
CN109800600A (zh) 面向保密需求的海洋大数据敏感度评估系统及防范方法
CN111292008A (zh) 一种基于知识图谱的隐私保护数据发布风险评估方法
Ganapathy et al. A novel weighted fuzzy C–means clustering based on immune genetic algorithm for intrusion detection
Kim et al. SMS spam filterinig using keyword frequency ratio
Cheng et al. An unsupervised ensemble framework for node anomaly behavior detection in social network
Raihan et al. Human behavior analysis using association rule mining techniques
Singh et al. Rumour veracity estimation with deep learning for Twitter
Ovelgönne et al. Covertness centrality in networks
CN109344848A (zh) 基于Adaboost的移动智能终端安全等级分类方法
Hui Construction of information security risk assessment model in smart city
Ratul et al. Evaluating attribution methods in machine learning interpretability
Prathyusha et al. Cyberbully detection using hybrid techniques
Li et al. An Intuitionistic Fuzzy Stochastic Decision‐Making Method Based on Case‐Based Reasoning and Prospect Theory
Szyman et al. Link prediction in organizational social network based on e-mail communication
Koelle et al. Applications of bayesian belief networks in social network analysis
Kovaliuk et al. Environmental monitoring and population protection from environmental factors
Zhang et al. A new weight and sensitivity based variable maximum distance to average vector algorithm for wearable sensor data privacy protection
Jiang et al. Ai and machine learning for industrial security with level discovery method
Tang et al. Customer characteristics analysis method based on the selection of electricity consumption characteristics and behavioral portraits of different groups of people
Yuan et al. OLAP4R: A top-k recommendation system for OLAP Sessions
Wang et al. A principal component analysis-boosted dynamic Gaussian mixture clustering model for ignition factors of Brazil’s rainforests
Moussaoui et al. Clustering social network profiles using possibilistic c-means algorithm
Tiwari et al. Terrorism And Fake News Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190910

RJ01 Rejection of invention patent application after publication