CN106572111B

CN106572111B - 一种面向大数据的隐私信息发布暴露链的发现方法

Info

Publication number: CN106572111B
Application number: CN201610986711.XA
Authority: CN
Inventors: 柯昌博; 肖甫
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Chongqing Lingtong Technology Consulting Co.,Ltd.; Sichuan Minghoutian Information Technology Co ltd
Priority date: 2016-11-09
Filing date: 2016-11-09
Publication date: 2019-06-28
Anticipated expiration: 2036-11-09
Also published as: CN106572111A

Abstract

本发明公开了一种面向大数据的隐私信息发布暴露链的发现方法，以本体映射为理论基础，包括步骤：1.分别对隐私数据的概念相似度sim_d、属性相似度simT和结构相似度sims进行度量计算；2.通过隐私数据的暴露向量进行其暴露代价度量计算；3.经过对所述的隐私数据的概念相似度和暴露代价的度量计算，获取隐私数据信息暴露链的特征属性；4.根据暴露链的特征发现用户发布数据中的隐私暴露链，从而达到保护用户隐私数据信息发布过程的安全。现有的隐私保护技术大多数采用加密或匿名的方式，而隐私数据在参与云服务计算过程中必须要明文，本发明是面向计算过程采用的一种隐私数据的发布方法，可以有效地防止用户的隐私数据在多方服务计算过程中的泄露。

Description

一种面向大数据的隐私信息发布暴露链的发现方法

技术领域

本发明属于面向大数据用户隐私数据安全保护技术领域，涉及面向大数据的隐私暴露链的发现方法，特别是一种面向大数据的隐私信息发布暴露链的发现方法。

背景技术

大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，具有数量大、种类多、实时变化、的特征。据统计，平均每秒有200万用户在使用谷歌搜索，Facebook用户每天共享的信息超过40亿，Twitter每天处理的推特数量超过3.4亿；而且每年的数据量在以指数形式增长，其中3/4是由个体人在创建或移动数字文件时贡献的，如一个标准的美国上班族每年贡献180万MB的数据量。由于社交网络和移动互联网的快速发展，如，Fackbook、Twitter、微信、QQ等，使得大数据中基于个体人的信息量快速增大并实时更新，这给面向个人隐私信息挖掘的数据代理结构提供了机会。他们可能对大数据平台进行攻击对商业隐私数据进行窃取，或者部分社交网络和电子商务机构将用户的个人隐私信息进行出售以获得商业利润。为了获取用户的个人敏感隐私信息，他们通常对商业大数据进行深度挖掘和知识推理以获取用户的个人偏好、敏感隐私信息，如姓名、地址、电话号码、卡号，等，以及个体之间的关系、商业取向，甚至对用户进行行为预测以便商业机构更好的推销产品和服务提供。其中包含大量的个人隐私信息可以被数据代理商挖掘并用于商业用途，如安客诚(Acxiom)公司通过数据处理手段获取500多万名分布在世界各地的消费者的个人信息，并且可以通过数据关联和逻辑推理等技术分析个人的行为及心理倾向。2014年，美国罗彻斯特大学的Adam Sadilek和微软实验室的John Krumm通过大数据中的信息可以预测一个人未来可能到达的位置，其准备率高达80％。某知名移动应用由于不注意保护位置大数据，导致根据三角测量方法可以推断出用户的家庭住址等敏感信息，已引发多起犯罪案件。而社交网络分析研究表明，可以通过其中的群组特性发现用户的属性，例如，通过分析用户的Twitter信息，可以发现用户的政治倾向，消费习惯等个人偏好。因此，面向大数据，如何保护个人隐私信息已经成为广大学者研究的热点。

但是大数据的商业价值是潜在的，同时用户泄露个人隐私信息也是潜在的，因此大数据尚未想到的用途无法提前告诉用户，企业也无法承担发现大数据的创新性用途后通知每个用户并请求用户同意再进行使用的成本。因此，面向大数据的隐私数据发布检测与保护成为研究焦点。

为了满足用户的功能需求，各种传感器或云服务终端必须收集用户的隐私信息，并且在云服务协同组合过程中透明交互，并且，当传感器和云服务终端将用户隐私数据上传到大数据中心后，可以利用数据挖掘或逻辑推理的方法获取用户的敏感数据。由于传统的信息安全技术在多方计算过程中无法实现，即计算过程用户的隐私数据必须为明文，这时采用传统的信息安全技术很难对交互与共享计算中的隐私数据进行保护。因此，本发明基于隐私数据的生命周期，可以在隐私数据的发布阶段，通过对隐私数据相似度和暴露代价的度量来检测用户发布的或传感器收集的隐私数据中是否存在暴露链，从而保证用户隐私数据在交互与共享计算中的安全。

发明内容

本发明的目的在于克服现有技术的不足，提供一种面向大数据的隐私信息发布暴露链的发现方法，可以在隐私数据的发布阶段，通过对隐私数据的分类确定对不同隐私数据的度量参数和使用的不同的度量方法，并通过对隐私数据的相似度和敏感度的度量来发现隐私数据中的暴露链，从而有效保护大数据中的隐私数据信息。

为了解决现有技术的上述问题，本发明采用以下技术方案。

本发明的一种面向大数据的隐私信息发布暴露链的发现方法，其特征在于，所述方法以本体映射为理论基础，包括以下步骤：

步骤一、分别对隐私数据的概念相似度sim_d、属性相似度sim_T和结构相似度sim_s进行度量计算；

步骤二、通过隐私数据的暴露向量进行其暴露代价度量计算；

步骤三、经过对所述的隐私数据的概念相似度和暴露代价的度量计算，获取隐私数据信息暴露链的特征属性；所述的隐私数据的暴露代价是指用户为了获取功能服务而暴露个人隐私信息的代价；

步骤四、根据所述的暴露链的特征发现用户发布数据中的隐私暴露链，从而达到保护用户隐私数据信息发布过程的安全。

进一步的，在所述步骤一中：

所述的隐私数据的概念相似度是在分层的基础上定义：根据需求树和描述本体树两棵树中节点之间的关系，将所述的隐私数据的概念相似度分为三个层次，记为：其中，R表示需求树中的节点，D表示描述本体树中的节点，T表示两节点间的层次关系，即：T＝{e,su,p}；由于所述的两棵树有相同的根节点Thing，故：

①同层exact：所述的需求本体树中的R节点与描述本体树中的D节点具有相同的层次数，并且后代节点之间是一一对应的，即：

②上下层subsume：需求本体树中的R节点的层次数小于描述本体树中的D节点的层次数，并且需求本体树中的节点R的孩子与描述本体树节点D的后代节点对应，即：

③下上层plugin：需求本体树中的R节点的层次数大于描述本体树中的D节点的层次数，并且需求本体树中的节点R的孩子与描述本体树节点D的后代节点对应，即：

在基于语义词典Wordnet的计算方法中，每个节点s表示一个概念，Pantel和Lin等人根据Wordnet定义了两个概念的相似度：

其中，p(s)＝count(s)/total表示在Wordnet中概念节点s及其子节点所包含的单词个数在整个词典中所占的比例，total是Wordnet的单词总数，概念节点s是概念节点s₁和概念节点s₂的公共祖先概念节点。

进一步的，在所述步骤一的对属性相似度sim_T进行度量，是指：

设在两颗树Tq、Td中，假如某节点为对象，两个对象分别为OA、OB；而OA、OB中的属性分为两类；其中，第一类是简单属性，如：整型或者是字符型，此类相似度可以直接根据概念相似度sim_d求得；第二类为关系类，即两个属性值可以通过某种关系函数计算得到其相似度；其关系函数计为：f_r＝(ID_A,ID_B,P_A,P_B)；

设两个对象:O_A＝<ID_A,C_A,P_A>,O_B＝<ID_B,C_B,P_B>，并且有共同的属性；其中，所述的T为共同的属性集，则属性相似度sim_p可以定义为：

其中，f_r是根据属性之间的特定的语义关系所确定的；如果所得到的属性值是一致的，则属性相似度为1，否则为0；那么，对象节点的属性相似度sim_T可以定义为：

进一步的，在所述步骤一中的对结构相似度sim_s进行度量，是指：

设查询本体树Tq和描述本体树Td，由于每种树中均有三种节点，即：类、对象和属性；则应分以下三种节点情况对结构相似度sim_s进行度量：

(1)假若此节点为属性，则可以直接用属性相似度与所属的对象的概念相似度进行计算，故，所述属性节点的结构相似度为：

(2)假若此节点为类，则可以根据超类和子类的相似度计算：

超类的相似度为：sim_d(supc(s_q),supc(s_d))

子类的相似度为：因此，节点类的结构相似度为：

(3)假若此节点为对象，如果节点s_q与s_d有相似的祖先节点，并且这两个节点属性相似；其中，两个节点的属性可分以下三种情况：

①对于两个节点s_q，s_d,有并且sim_T(s_q,s_d)＝1，则就有

②对于两个节点s_q，s_d,有包含关系，即：

③对于两个节点s_q，s_d,这三种关系称为属性间的相容关系；

若使得并且，sim_T(s_q,s_d)＞β；其中，α和β分别为概念相似和结构相似的阈值；

此时，节点的结构相似度为：

因此，两棵本体树之间对应节点的总相似度为：

其中，总相似度的阈值为γ。

进一步的，在所述步骤三中的对隐私数据的暴露代价的度量计算，包括以下过程：

(1)对隐私敏感度进行度量：

所述的隐私敏感度是用户对个人隐私数据的敏感程度，设p＝[p₁,p₂,…,p_n]为用户的隐私数据链，隐私敏感度可以表示为：sv＝[sv₁,sv₂,…,sv_n]，其中sv_i表示数据p_i的敏感度，1≤i≤n；

将用户的隐私敏感度分为两类：第一类是用户有隐私需求，则根据用户的隐私需求，将用户的隐私信息的敏感程度定义为[0,1]区间上的任意实数，其中0表示敏感度最弱，1表示敏感度最强；第一类是用户无隐私需求，则将用户的隐私信息根据第一类用户对隐私数据的敏感程度，将其分为5个等级：

A++非常敏感；A+比较敏感；A敏感；B+一般敏感；B不敏感；

(2)隐私数据暴露代价的度量：

隐私数据暴露向量是指用户对个人隐私数据集是否暴露给云服务提供者，所对应的真值向量，dv＝[dv₁,dv₂,dv₃,…dv_n]，其中dv_i∈{0,1}；如果dv_i取值为1，表示暴露隐私数据对象p_i；dv_i取值为0，表示不暴露数据对象p_i，1≤i≤n，p_i∈p；

所述的隐私数据暴露代价是指用户为了获取功能服务而暴露个人隐私信息的代价；隐私数据暴露代价是隐私数据敏感度与隐私数据暴露向量的函数，并且暴露代价分别与敏感度和暴露向量具有正比关系，即隐私数据敏感度越大，隐私数据暴露代价越大；隐私数据暴露得越多，隐私数据暴露代价越大；隐私数据暴露代价从量上可以利用敏感度向量矩阵与暴露向量矩阵计算得到，具体可以表示为：

Disp＝[dv₁,dv₂,dv₃,…dv_n]×[sv₁,sv₂,…,sv_n]^T，其中Disp∈R⁺，1≤i≤n。

进一步的，在所述步骤四中的根据暴露链的特征属性发现用户发布数据中的隐私暴露链，包括以下过程：

将暴露代价大于1的隐私数据集，称为暴露链，即：所述的隐私数据集包括两种类型：

第一种类型是服务要求用户暴露的最小隐私数据集，即：PES_s＝{pd_s1,pd_s2,…pd_si……pd_sk}，其中pd_si为云服务提供商所要求用户暴露的隐私项，在集合上为服务输入和前置条件的子集，即：PES为服务的隐私项集，P和I分别表示服务的前置条件和输入；

第二种类型是当用户向云服务提供商发出服务请求时，用户隐私需求中愿意暴露的隐私集，即：PES_u＝{pd_u1,pd_u2,…pd_ui……pd_uk}，pd_ui为用户隐私需求中愿意暴露的隐私项；

因此：设用户隐私需求暴露链中隐私数据的个数为n，如果PES_s中包含长度为n-1的隐私暴露链，则PES_s就会暴露用户的敏感隐私数据；

通过对云服务提供者的隐私数据集PES_s进行暴露链的构造，并与用户的敏感隐私数据进行匹配，从而确定服务提供者所要求用户提供的隐私数据集PES_s是否安全。

与现有技术相比，本发明具有以下优点和有益效果：

现有的隐私保护技术大多数采用加密或匿名的方式，而隐私数据在参与云服务计算过程中必须要明文，本发明正是面向计算过程采用的一种隐私数据的发布方法，可以有效的防止用户的隐私数据在多方服务计算过程中的泄露。

附图说明

图1是本发明的发明动机示意图。

图2是本发明的一种实施例的本体树中层次对应关系的示意图。

图3是本发明的一种实施例的隐私敏感度示例的示意图。

图4是本发明的一种实施例的隐私暴露链的构造过程的示意图。

图5是本发明的一种实施例的云服务隐私信息暴露取证系统框架的示意图。

图6是本发明的一种实施例的方法流程图。

具体实施方式

下面结合附图对本发明做进一步详细说明。

图6是本发明的一种实施例的方法流程图。如图6所示，本发明的一种实施例方法，以本体映射为理论基础，对隐私数据相似性度量采用本体树的映射，假设用户隐私需求本体树和服务隐私描述本体树之间具有上下文层次语义关系的一致性。假若需求本体树中的某个节点sq在描述本体树中的所对应的层次为i，则，其子类节点或者其属性必须在描述本体树中的第i+α层。

图2是本发明的一种实施例的本体树中层次对应关系的示意图。如图2所示，左为需求本体树，右为描述本体树。本发明实施例包括以下步骤：

在上述步骤一中，所述的隐私数据的概念相似度是在分层的基础上定义：根据需求树和描述本体树两棵树中节点之间的关系，将所述的隐私数据的概念相似度分为三个层次，记为：其中，R表示需求树中的节点，D表示描述本体树中的节点，T表示两节点间的层次关系，即：T＝{e,su,p}；由于所述的两棵树有相同的根节点Thing，故：

本发明实施例采用基于语义词典Wordnet的概念相似度的计算方法。在基于语义词典Wordnet的计算方法中，每个节点s表示一个概念，Pantel和Lin等人根据Wordnet定义了两个概念的相似度：

所述的对属性相似度sim_T进行度量，是指：

其中，f_r是根据属性之间的特定的语义关系所确定的；不同的属性有着不同的语义关系，这其中有一对一的关系，也有一对多的关系；例如：对象O_A是指某个人Tom，O_B指Jack，假如Tom的属性项包含年龄(Age)，而Jack的属性项包含生日(Birthday)，则这两个属性就是关系型的，即f_r＝Υ(Age,Birthday)，Age＝PresentYear-Birthday；又如：O_A和O_B分别指两个圆，而O_A的属性项包含圆的半径(r)；而O_B的属性项包含面积(S)，同理为关系型的，即：f_r＝Υ(r,S)，S＝πr²。此时，如果所得到的属性值是一致的，则属性相似度为1，否则为0；那么，对象节点的属性相似度sim_T可以定义为：

所述的对结构相似度sim_s进行度量，是指：

其中，要证明公式(4)为属性节点的结构相似度是合理，必须分以下两个方面证明：

(a)必须要有结构信息，即满足对象到属性的层次关系。由定义可知，是满足的。

(b)相似度的值必须要在0到1之间。由于0≤sim_d(O(s_q),O(s_d))≤1，且0≤sim_p(O_A,O_B)≤1，故0≤sim_s(s_q,s_d)≤1。由(a)，(b)可知，(4)式的结构相似度是合理的。

(2)假若此节点为类，则可以根据超类和子类的相似度计算：

超类的相似度为：sim_d(supc(s_q),supc(s_d))

子类的相似度为：因此，节点类的结构相似度为：

证明：由对公式(4)的证明可知，只需对第二方面进行证明即可。设：

a＝min(|subc(s_q)|,|subc(s_d)|,|subc(s_q)∩subc(s_d)|)

由于:0≤sim_d(supc(s_q),supc(s_d))≤1 (a)

所以，0≤(a)+(b)≤a+1，故，0≤sim_s(s_q,s_d)≤1，得证。

(3)假若此节点为对象，如果节点s_q与s_d有相似的祖先节点，并且这两个节点属性相似；此处，两个节点的属性可分以下三种情况：

④对于两个节点s_q，s_d,有并且sim_T(s_q,s_d)＝1，则就有

⑤对于两个节点s_q，s_d,有包含关系，即：

⑥对于两个节点s_q，s_d,这三种关系称为属性间的相容关系；

此时，节点的结构相似度为：

因此，两棵本体树之间对应节点的总相似度为：

其中，总相似度的阈值为γ。

其中，证明节点的结构相似度为合理，其过程与上述公式(5)之后的证明相同。

在所述步骤三中，所述的对隐私数据的暴露代价的度量计算，包括以下过程：

(1)对隐私敏感度进行度量：

A++非常敏感；A+比较敏感；A敏感；B+一般敏感；B不敏感；

(2)隐私数据暴露代价的度量：

举例1：当用户A向云服务提供商发送购物订单请求OrdRed！消息时，云服务提供商要求用户提供Name,Address,Postcode,Phone-No和Credit-Card-No隐私数据。因此，该操作对应的暴露向量为dv_OrdReq！＝[1,1,1,1,1]，假设根据用户的需求得出用户的隐私数据敏感度向量sv为sv＝[0.8,0.8,0.1,0.8,1.0]，故，隐私数据暴露代价可以得到：

因此，用户A获取服务功能的隐私数据暴露代价为3.4。

在所述步骤四中，根据所述的暴露链的特征属性发现用户发布数据中的隐私暴露链，包括以下过程：

第二种类型是当用户向云服务提供商发出服务请求时，用户隐私需求中愿意暴露的隐私集，即：PES_u＝{pd_u1,pd_u2,...pd_ui……pd_uk}，pd_ui为用户隐私需求中愿意暴露的隐私项；

由此得出定理1：设用户隐私需求暴露链中隐私数据的个数为n，如果PES_s中包含长度为n-1的隐私暴露链，则PES_s就会暴露用户的敏感隐私数据；

上述定理1的证明思路为：从某一个隐私数据出发，通过语义匹配构造一条隐私数据链，证明此隐私数据链就是暴露链。

证明：假设隐私数据集中包含了一条长度为m的数据链，m＜n，它的隐私数据序列为pd₁,pd₂,...,pd_m，如果pd₁或pd_m邻接于不在这条链上的一个隐私数据，立刻扩展这条链，使之包含这个隐私数据，从而得到长度为m的链。否则，pd₁和pd_m都邻接于这条链上的隐私属性，若pd₁邻接于pd_m，则存在一个回链包含pd₁,pd₂,...,pd_m，这时以这个回链为整体，搜索与回链相邻的隐私数据，并将其包含，如图4(a)。若pd₁不邻接于pd_m，假设与pd₁邻接的结点集是{pd_r,pd_s,...,pd_u,...,pd_v}，其中r≥2，s,...,u,...v≤m-1，如果pd_m邻接于{pd_r-1,pd_s-1,...,pd_u-1,...,pd_v-1}中之一，譬如说pd_m邻接于pd_u-1，如图4(b)所示，就出现pd₁,pd₂,pd₃...pd_r-1,pd_m,pd_m-1,...,pd_u-1,...,pd_r,pd₁的回链。

假若PES_s中有不属于此回链，但与回链具有语义相似关系的隐私数据pd_x，于是就得一条包含pd_x的链(pd_s-1,pd_r,pd₁,pd₂,pd₃...pd_r-1,pd_m,pd_m-1,...,pd_s,pd_x)。如图4(c)(d)所示，重复前述构造法，直到得到n-1的链。如果构造成功，则此隐私数据集为连续隐私数据。如果搜索了所有的隐私数据，还构造不出n-1的链，就说明此隐私数据集为离散隐私数据。

利用隐私信息的相似度和暴露代价来检测云服务提供商所要求用户暴露的隐私集中是否包含隐私暴露链或关键隐私数据，即判断云服务提供商隐私数据集是离散的隐私数据还是连续的隐私数据。如果满足以下两个条件，即：

且Disp_OrdReq！≥δ

就认为隐私集中包含暴露链或关键隐私数据。其中sim_i表示用户隐私数据与云服务所要求的隐私数据之间的相似度，dv_i表示隐私数据暴露向量，表示相似度的阈值，Disp_OrdReq！表示隐私数据暴露代价，δ表示隐私数据暴露代价的阈值，由于隐私数据的敏感度的最大值为1，故，通常设δ的值为1。

举例2：利用例1的场景，通过暴露链的检测找出云服务提供商所要求用户提供隐私数据集中的暴露链。

设被检测的隐私数据满足所设定的相似度值。根据例1的计算方法可知，{Name,Address}，{Name,Phone-No}和Credit-Card-No的Disp_OrdReq！的值分别为1.6，1.6和1。所以{Name,Address}，{Name,Phone-No}和Credit-Card-No分别为暴露链和关键隐私数据。

在本发明的实际应用中，用户(客户端)可以采用以下方法建立与服务端的秘密通道，包括如下步骤：

步骤一、用户申请建立与服务端的连接。用户向服务端发送服务请求消息，并将可处理的加密类型信息发送给服务端；

步骤二、服务端返回给客户端Hello消息，并将自己的X.509证书发送过去，以便用户进行认证；

步骤三、用户认证完服务端后，将生成主密钥，然后采用RSA加密算法，用服务羰的公钥加密后传送过去；

步骤四、服务端用私钥解密用户发送过来的信息。用户传送会话ID给服务端，服务端发送Finished消息级用户，包括以主密钥加密会话的ID，安全连接建立。

步骤五、建立起安全连接的服务端和客户端将会通过本体匹配服务器匹配用户隐私数据集与服务端所要求的隐私项集中的暴露链，从而确定服务端所要求的隐私数据集的安全性，如果安全，便向服务端请求功能服务。

另外，在本发明的实际应用中，进行本体树的构建与匹配，可以将用户和服务提供者的隐私数据集转换成本体树，并通过相似度的度量来实现敏感隐私数据的匹配。该本体树的构建与匹配方法包括如下步骤：

步骤一、本体匹配服务器将用户和服务器端所要求的隐私数据按照隐私本体原模型的规则分别构建用户隐私本体树和服务端隐私本体树；

步骤二、利用本体匹配服务器计算出本体树对应节点的相似度，包括概念相似度、属性相似度和结构相似度；

步骤三、本体匹配服务器根据暴露向量计算出暴露代价，如果本体树中相应的隐私项满足以下两个条件，即：

且Disp_OrdReq！≥δ

就认为隐私集中包含暴露链或关键隐私数据。

步骤四、本体匹配服务器将匹配的结果分别发送给用户端和服务端。如果上式成立，则分别向用户端和服务端发送Conflict！如果上式不成立，则分别向用户端和服务端发送ok！转向用户端与服务端之间的交互，完成相应的功能服务。

Claims

1.一种面向大数据的隐私信息发布暴露链的发现方法，其特征在于，所述方法以本体映射为理论基础，包括以下步骤：

步骤三、经过对所述的隐私数据的相似度和暴露代价的度量计算，获取隐私数据信息暴露链的特征属性；所述的隐私数据的暴露代价是指用户为了获取功能服务而暴露个人隐私信息的代价；

步骤四、根据所述的暴露链的特征属性发现用户发布数据中的隐私暴露链，从而达到保护用户隐私数据信息发布过程的安全；

所述的以本体映射为理论基础，是指：对隐私数据相似性度量采用本体树的映射，假设用户隐私需求本体树和服务隐私描述本体树之间具有上下文层次语义关系的一致性；假若所述的需求本体树中的某个节点s_q在描述本体树中的所对应的层次为i，则：其子类节点或者其属性必须在描述本体树中的第i+α层；

所述的隐私数据的概念相似度是在分层的基础上定义：根据需求本体树和描述本体树两棵树中节点之间的关系，将所述的隐私数据的概念相似度分为三个层次，记为：其中，R表示需求本体树中的节点，D表示描述本体树中的节点，T表示两节点间的层次关系，即：T＝{e,su,p}；由于所述的两棵树有相同的根节点Thing，故：

其中，p(s)＝count(s)/total表示在Wordnet中概念节点s及其子节点所包含的单词个数在整个词典中所占的比例，total是Wordnet的单词总数，概念节点s是概念节点s₁和概念节点s₂的公共祖先概念节点；

所述的对属性相似度sim_T进行度量，是指：

其中，sim_d是整型或字符型；f_r＝Υ(ID_A,ID_B,P_A,P_B)是关系型；f_r是根据属性之间的特定的语义关系所确定的；如果所得到的属性值是一致的，则属性相似度为1，否则为0；那么，对象节点的属性相似度sim_T可以定义为：

所述的对结构相似度sim_s进行度量，是指：

(2)假若此节点为类，则可以根据超类和子类的相似度计算：

超类的相似度为：sim_d(supc(s_q),supc(s_d))

子类的相似度为：因此，节点类的结构相似度为：

①对于两个节点s_q,s_d,有并且sim_T(s_q,s_d)＝1，则就有

②对于两个节点,s_q，s_d有包含关系，即：

③对于两个节点s_q，s_d 这三种关系称为属性间的相容关系；

若S_D∈supc(s_d)，S_Q∈supc(s_q)，使得并且，sim_T(s_q,s_d)＞β；其中，α和β分别为概念相似和结构相似的阈值；

此时，节点的结构相似度为：

因此，两棵本体树之间对应节点的总相似度为：

其中，总相似度的阈值为γ。

2.根据权利要求1所述的一种面向大数据的隐私信息发布暴露链的发现方法，其特征在于，在所述步骤三中，所述的对隐私数据的暴露代价的度量计算，包括以下过程：

(1)对隐私敏感度进行度量：

A++非常敏感；A+比较敏感；A敏感；B+一般敏感；B不敏感；

(2)隐私数据暴露代价的度量：

3.根据权利要求1所述的一种面向大数据的隐私信息发布暴露链的发现方法，其特征在于，在所述步骤四中，根据所述的暴露链的特征发现用户发布数据中的隐私暴露链，包括以下过程：

第一种类型是服务要求用户暴露的最小隐私数据集，即：PES_s＝{pd_s1,pd_s2,…pd_si……pd_sk}，其中pd_si为云服务提供商所要求用户暴露的隐私项，在集合上为服务输入和前置条件的子集，即：0≤i≤k；PES为服务的隐私项集，P和I分别表示服务的前置条件和输入；