CN106572111B - 一种面向大数据的隐私信息发布暴露链的发现方法 - Google Patents

一种面向大数据的隐私信息发布暴露链的发现方法 Download PDF

Info

Publication number
CN106572111B
CN106572111B CN201610986711.XA CN201610986711A CN106572111B CN 106572111 B CN106572111 B CN 106572111B CN 201610986711 A CN201610986711 A CN 201610986711A CN 106572111 B CN106572111 B CN 106572111B
Authority
CN
China
Prior art keywords
node
privacy
private data
exposure
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610986711.XA
Other languages
English (en)
Other versions
CN106572111A (zh
Inventor
柯昌博
肖甫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Lingtong Technology Consulting Co.,Ltd.
Sichuan Minghoutian Information Technology Co ltd
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201610986711.XA priority Critical patent/CN106572111B/zh
Publication of CN106572111A publication Critical patent/CN106572111A/zh
Application granted granted Critical
Publication of CN106572111B publication Critical patent/CN106572111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Abstract

本发明公开了一种面向大数据的隐私信息发布暴露链的发现方法,以本体映射为理论基础,包括步骤:1.分别对隐私数据的概念相似度simd、属性相似度simT和结构相似度sims进行度量计算;2.通过隐私数据的暴露向量进行其暴露代价度量计算;3.经过对所述的隐私数据的概念相似度和暴露代价的度量计算,获取隐私数据信息暴露链的特征属性;4.根据暴露链的特征发现用户发布数据中的隐私暴露链,从而达到保护用户隐私数据信息发布过程的安全。现有的隐私保护技术大多数采用加密或匿名的方式,而隐私数据在参与云服务计算过程中必须要明文,本发明是面向计算过程采用的一种隐私数据的发布方法,可以有效地防止用户的隐私数据在多方服务计算过程中的泄露。

Description

一种面向大数据的隐私信息发布暴露链的发现方法
技术领域
本发明属于面向大数据用户隐私数据安全保护技术领域,涉及面向大数据的隐私暴露链的发现方法,特别是一种面向大数据的隐私信息发布暴露链的发现方法。
背景技术
大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,具有数量大、种类多、实时变化、的特征。据统计,平均每秒有200万用户在使用谷歌搜索,Facebook用户每天共享的信息超过40亿,Twitter每天处理的推特数量超过3.4亿;而且每年的数据量在以指数形式增长,其中3/4是由个体人在创建或移动数字文件时贡献的,如一个标准的美国上班族每年贡献180万MB的数据量。由于社交网络和移动互联网的快速发展,如,Fackbook、Twitter、微信、QQ等,使得大数据中基于个体人的信息量快速增大并实时更新,这给面向个人隐私信息挖掘的数据代理结构提供了机会。他们可能对大数据平台进行攻击对商业隐私数据进行窃取,或者部分社交网络和电子商务机构将用户的个人隐私信息进行出售以获得商业利润。为了获取用户的个人敏感隐私信息,他们通常对商业大数据进行深度挖掘和知识推理以获取用户的个人偏好、敏感隐私信息,如姓名、地址、电话号码、卡号,等,以及个体之间的关系、商业取向,甚至对用户进行行为预测以便商业机构更好的推销产品和服务提供。其中包含大量的个人隐私信息可以被数据代理商挖掘并用于商业用途,如安客诚(Acxiom)公司通过数据处理手段获取500多万名分布在世界各地的消费者的个人信息,并且可以通过数据关联和逻辑推理等技术分析个人的行为及心理倾向。2014年,美国罗彻斯特大学的Adam Sadilek和微软实验室的John Krumm通过大数据中的信息可以预测一个人未来可能到达的位置,其准备率高达80%。某知名移动应用由于不注意保护位置大数据,导致根据三角测量方法可以推断出用户的家庭住址等敏感信息,已引发多起犯罪案件。而社交网络分析研究表明,可以通过其中的群组特性发现用户的属性,例如,通过分析用户的Twitter信息,可以发现用户的政治倾向,消费习惯等个人偏好。因此,面向大数据,如何保护个人隐私信息已经成为广大学者研究的热点。
但是大数据的商业价值是潜在的,同时用户泄露个人隐私信息也是潜在的,因此大数据尚未想到的用途无法提前告诉用户,企业也无法承担发现大数据的创新性用途后通知每个用户并请求用户同意再进行使用的成本。因此,面向大数据的隐私数据发布检测与保护成为研究焦点。
为了满足用户的功能需求,各种传感器或云服务终端必须收集用户的隐私信息,并且在云服务协同组合过程中透明交互,并且,当传感器和云服务终端将用户隐私数据上传到大数据中心后,可以利用数据挖掘或逻辑推理的方法获取用户的敏感数据。由于传统的信息安全技术在多方计算过程中无法实现,即计算过程用户的隐私数据必须为明文,这时采用传统的信息安全技术很难对交互与共享计算中的隐私数据进行保护。因此,本发明基于隐私数据的生命周期,可以在隐私数据的发布阶段,通过对隐私数据相似度和暴露代价的度量来检测用户发布的或传感器收集的隐私数据中是否存在暴露链,从而保证用户隐私数据在交互与共享计算中的安全。
发明内容
本发明的目的在于克服现有技术的不足,提供一种面向大数据的隐私信息发布暴露链的发现方法,可以在隐私数据的发布阶段,通过对隐私数据的分类确定对不同隐私数据的度量参数和使用的不同的度量方法,并通过对隐私数据的相似度和敏感度的度量来发现隐私数据中的暴露链,从而有效保护大数据中的隐私数据信息。
为了解决现有技术的上述问题,本发明采用以下技术方案。
本发明的一种面向大数据的隐私信息发布暴露链的发现方法,其特征在于,所述方法以本体映射为理论基础,包括以下步骤:
步骤一、分别对隐私数据的概念相似度simd、属性相似度simT和结构相似度sims进行度量计算;
步骤二、通过隐私数据的暴露向量进行其暴露代价度量计算;
步骤三、经过对所述的隐私数据的概念相似度和暴露代价的度量计算,获取隐私数据信息暴露链的特征属性;所述的隐私数据的暴露代价是指用户为了获取功能服务而暴露个人隐私信息的代价;
步骤四、根据所述的暴露链的特征发现用户发布数据中的隐私暴露链,从而达到保护用户隐私数据信息发布过程的安全。
进一步的,在所述步骤一中:
所述的隐私数据的概念相似度是在分层的基础上定义:根据需求树和描述本体树两棵树中节点之间的关系,将所述的隐私数据的概念相似度分为三个层次,记为:其中,R表示需求树中的节点,D表示描述本体树中的节点,T表示两节点间的层次关系,即:T={e,su,p};由于所述的两棵树有相同的根节点Thing,故:
①同层exact:所述的需求本体树中的R节点与描述本体树中的D节点具有相同的层次数,并且后代节点之间是一一对应的,即:
②上下层subsume:需求本体树中的R节点的层次数小于描述本体树中的D节点的层次数,并且需求本体树中的节点R的孩子与描述本体树节点D的后代节点对应,即:
③下上层plugin:需求本体树中的R节点的层次数大于描述本体树中的D节点的层次数,并且需求本体树中的节点R的孩子与描述本体树节点D的后代节点对应,即:
在基于语义词典Wordnet的计算方法中,每个节点s表示一个概念,Pantel和Lin等人根据Wordnet定义了两个概念的相似度:
其中,p(s)=count(s)/total表示在Wordnet中概念节点s及其子节点所包含的单词个数在整个词典中所占的比例,total是Wordnet的单词总数,概念节点s是概念节点s1和概念节点s2的公共祖先概念节点。
进一步的,在所述步骤一的对属性相似度simT进行度量,是指:
设在两颗树Tq、Td中,假如某节点为对象,两个对象分别为OA、OB;而OA、OB中的属性分为两类;其中,第一类是简单属性,如:整型或者是字符型,此类相似度可以直接根据概念相似度simd求得;第二类为关系类,即两个属性值可以通过某种关系函数计算得到其相似度;其关系函数计为:fr=(IDA,IDB,PA,PB);
设两个对象:OA=<IDA,CA,PA>,OB=<IDB,CB,PB>,并且有共同的属性;其中,所述的T为共同的属性集,则属性相似度simp可以定义为:
其中,fr是根据属性之间的特定的语义关系所确定的;如果所得到的属性值是一致的,则属性相似度为1,否则为0;那么,对象节点的属性相似度simT可以定义为:
进一步的,在所述步骤一中的对结构相似度sims进行度量,是指:
设查询本体树Tq和描述本体树Td,由于每种树中均有三种节点,即:类、对象和属性;则应分以下三种节点情况对结构相似度sims进行度量:
(1)假若此节点为属性,则可以直接用属性相似度与所属的对象的概念相似度进行计算,故,所述属性节点的结构相似度为:
(2)假若此节点为类,则可以根据超类和子类的相似度计算:
超类的相似度为:simd(supc(sq),supc(sd))
子类的相似度为:因此,节点类的结构相似度为:
(3)假若此节点为对象,如果节点sq与sd有相似的祖先节点,并且这两个节点属性相似;其中,两个节点的属性可分以下三种情况:
①对于两个节点sq,sd,有并且simT(sq,sd)=1,则就有
②对于两个节点sq,sd,有包含关系,即:
③对于两个节点sq,sd,这三种关系称为属性间的相容关系;
使得并且,simT(sq,sd)>β;其中,α和β分别为概念相似和结构相似的阈值;
此时,节点的结构相似度为:
因此,两棵本体树之间对应节点的总相似度为:
其中,总相似度的阈值为γ。
进一步的,在所述步骤三中的对隐私数据的暴露代价的度量计算,包括以下过程:
(1)对隐私敏感度进行度量:
所述的隐私敏感度是用户对个人隐私数据的敏感程度,设p=[p1,p2,…,pn]为用户的隐私数据链,隐私敏感度可以表示为:sv=[sv1,sv2,…,svn],其中svi表示数据pi的敏感度,1≤i≤n;
将用户的隐私敏感度分为两类:第一类是用户有隐私需求,则根据用户的隐私需求,将用户的隐私信息的敏感程度定义为[0,1]区间上的任意实数,其中0表示敏感度最弱,1表示敏感度最强;第一类是用户无隐私需求,则将用户的隐私信息根据第一类用户对隐私数据的敏感程度,将其分为5个等级:
A++非常敏感;A+比较敏感;A敏感;B+一般敏感;B不敏感;
(2)隐私数据暴露代价的度量:
隐私数据暴露向量是指用户对个人隐私数据集是否暴露给云服务提供者,所对应的真值向量,dv=[dv1,dv2,dv3,…dvn],其中dvi∈{0,1};如果dvi取值为1,表示暴露隐私数据对象pi;dvi取值为0,表示不暴露数据对象pi,1≤i≤n,pi∈p;
所述的隐私数据暴露代价是指用户为了获取功能服务而暴露个人隐私信息的代价;隐私数据暴露代价是隐私数据敏感度与隐私数据暴露向量的函数,并且暴露代价分别与敏感度和暴露向量具有正比关系,即隐私数据敏感度越大,隐私数据暴露代价越大;隐私数据暴露得越多,隐私数据暴露代价越大;隐私数据暴露代价从量上可以利用敏感度向量矩阵与暴露向量矩阵计算得到,具体可以表示为:
Disp=[dv1,dv2,dv3,…dvn]×[sv1,sv2,…,svn]T,其中Disp∈R+,1≤i≤n。
进一步的,在所述步骤四中的根据暴露链的特征属性发现用户发布数据中的隐私暴露链,包括以下过程:
将暴露代价大于1的隐私数据集,称为暴露链,即:所述的隐私数据集包括两种类型:
第一种类型是服务要求用户暴露的最小隐私数据集,即:PESs={pds1,pds2,…pdsi……pdsk},其中pdsi为云服务提供商所要求用户暴露的隐私项,在集合上为服务输入和前置条件的子集,即:PES为服务的隐私项集,P和I分别表示服务的前置条件和输入;
第二种类型是当用户向云服务提供商发出服务请求时,用户隐私需求中愿意暴露的隐私集,即:PESu={pdu1,pdu2,…pdui……pduk},pdui为用户隐私需求中愿意暴露的隐私项;
因此:设用户隐私需求暴露链中隐私数据的个数为n,如果PESs中包含长度为n-1的隐私暴露链,则PESs就会暴露用户的敏感隐私数据;
通过对云服务提供者的隐私数据集PESs进行暴露链的构造,并与用户的敏感隐私数据进行匹配,从而确定服务提供者所要求用户提供的隐私数据集PESs是否安全。
与现有技术相比,本发明具有以下优点和有益效果:
现有的隐私保护技术大多数采用加密或匿名的方式,而隐私数据在参与云服务计算过程中必须要明文,本发明正是面向计算过程采用的一种隐私数据的发布方法,可以有效的防止用户的隐私数据在多方服务计算过程中的泄露。
附图说明
图1是本发明的发明动机示意图。
图2是本发明的一种实施例的本体树中层次对应关系的示意图。
图3是本发明的一种实施例的隐私敏感度示例的示意图。
图4是本发明的一种实施例的隐私暴露链的构造过程的示意图。
图5是本发明的一种实施例的云服务隐私信息暴露取证系统框架的示意图。
图6是本发明的一种实施例的方法流程图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
图6是本发明的一种实施例的方法流程图。如图6所示,本发明的一种实施例方法,以本体映射为理论基础,对隐私数据相似性度量采用本体树的映射,假设用户隐私需求本体树和服务隐私描述本体树之间具有上下文层次语义关系的一致性。假若需求本体树中的某个节点sq在描述本体树中的所对应的层次为i,则,其子类节点或者其属性必须在描述本体树中的第i+α层。
图2是本发明的一种实施例的本体树中层次对应关系的示意图。如图2所示,左为需求本体树,右为描述本体树。本发明实施例包括以下步骤:
步骤一、分别对隐私数据的概念相似度simd、属性相似度simT和结构相似度sims进行度量计算;
步骤二、通过隐私数据的暴露向量进行其暴露代价度量计算;
步骤三、经过对所述的隐私数据的概念相似度和暴露代价的度量计算,获取隐私数据信息暴露链的特征属性;所述的隐私数据的暴露代价是指用户为了获取功能服务而暴露个人隐私信息的代价;
步骤四、根据所述的暴露链的特征发现用户发布数据中的隐私暴露链,从而达到保护用户隐私数据信息发布过程的安全。
在上述步骤一中,所述的隐私数据的概念相似度是在分层的基础上定义:根据需求树和描述本体树两棵树中节点之间的关系,将所述的隐私数据的概念相似度分为三个层次,记为:其中,R表示需求树中的节点,D表示描述本体树中的节点,T表示两节点间的层次关系,即:T={e,su,p};由于所述的两棵树有相同的根节点Thing,故:
①同层exact:所述的需求本体树中的R节点与描述本体树中的D节点具有相同的层次数,并且后代节点之间是一一对应的,即:
②上下层subsume:需求本体树中的R节点的层次数小于描述本体树中的D节点的层次数,并且需求本体树中的节点R的孩子与描述本体树节点D的后代节点对应,即:
③下上层plugin:需求本体树中的R节点的层次数大于描述本体树中的D节点的层次数,并且需求本体树中的节点R的孩子与描述本体树节点D的后代节点对应,即:
本发明实施例采用基于语义词典Wordnet的概念相似度的计算方法。在基于语义词典Wordnet的计算方法中,每个节点s表示一个概念,Pantel和Lin等人根据Wordnet定义了两个概念的相似度:
其中,p(s)=count(s)/total表示在Wordnet中概念节点s及其子节点所包含的单词个数在整个词典中所占的比例,total是Wordnet的单词总数,概念节点s是概念节点s1和概念节点s2的公共祖先概念节点。
所述的对属性相似度simT进行度量,是指:
设在两颗树Tq、Td中,假如某节点为对象,两个对象分别为OA、OB;而OA、OB中的属性分为两类;其中,第一类是简单属性,如:整型或者是字符型,此类相似度可以直接根据概念相似度simd求得;第二类为关系类,即两个属性值可以通过某种关系函数计算得到其相似度;其关系函数计为:fr=(IDA,IDB,PA,PB);
设两个对象:OA=<IDA,CA,PA>,OB=<IDB,CB,PB>,并且有共同的属性;其中,所述的T为共同的属性集,则属性相似度simp可以定义为:
其中,fr是根据属性之间的特定的语义关系所确定的;不同的属性有着不同的语义关系,这其中有一对一的关系,也有一对多的关系;例如:对象OA是指某个人Tom,OB指Jack,假如Tom的属性项包含年龄(Age),而Jack的属性项包含生日(Birthday),则这两个属性就是关系型的,即fr=Υ(Age,Birthday),Age=PresentYear-Birthday;又如:OA和OB分别指两个圆,而OA的属性项包含圆的半径(r);而OB的属性项包含面积(S),同理为关系型的,即:fr=Υ(r,S),S=πr2。此时,如果所得到的属性值是一致的,则属性相似度为1,否则为0;那么,对象节点的属性相似度simT可以定义为:
所述的对结构相似度sims进行度量,是指:
设查询本体树Tq和描述本体树Td,由于每种树中均有三种节点,即:类、对象和属性;则应分以下三种节点情况对结构相似度sims进行度量:
(1)假若此节点为属性,则可以直接用属性相似度与所属的对象的概念相似度进行计算,故,所述属性节点的结构相似度为:
其中,要证明公式(4)为属性节点的结构相似度是合理,必须分以下两个方面证明:
(a)必须要有结构信息,即满足对象到属性的层次关系。由定义可知,是满足的。
(b)相似度的值必须要在0到1之间。由于0≤simd(O(sq),O(sd))≤1,且0≤simp(OA,OB)≤1,故0≤sims(sq,sd)≤1。由(a),(b)可知,(4)式的结构相似度是合理的。
(2)假若此节点为类,则可以根据超类和子类的相似度计算:
超类的相似度为:simd(supc(sq),supc(sd))
子类的相似度为:因此,节点类的结构相似度为:
证明:由对公式(4)的证明可知,只需对第二方面进行证明即可。设:
a=min(|subc(sq)|,|subc(sd)|,|subc(sq)∩subc(sd)|)
由于:0≤simd(supc(sq),supc(sd))≤1 (a)
所以,0≤(a)+(b)≤a+1,故,0≤sims(sq,sd)≤1,得证。
(3)假若此节点为对象,如果节点sq与sd有相似的祖先节点,并且这两个节点属性相似;此处,两个节点的属性可分以下三种情况:
④对于两个节点sq,sd,有并且simT(sq,sd)=1,则就有
⑤对于两个节点sq,sd,有包含关系,即:
⑥对于两个节点sq,sd,这三种关系称为属性间的相容关系;
使得并且,simT(sq,sd)>β;其中,α和β分别为概念相似和结构相似的阈值;
此时,节点的结构相似度为:
因此,两棵本体树之间对应节点的总相似度为:
其中,总相似度的阈值为γ。
其中,证明节点的结构相似度为合理,其过程与上述公式(5)之后的证明相同。
在所述步骤三中,所述的对隐私数据的暴露代价的度量计算,包括以下过程:
(1)对隐私敏感度进行度量:
所述的隐私敏感度是用户对个人隐私数据的敏感程度,设p=[p1,p2,…,pn]为用户的隐私数据链,隐私敏感度可以表示为:sv=[sv1,sv2,…,svn],其中svi表示数据pi的敏感度,1≤i≤n;
将用户的隐私敏感度分为两类:第一类是用户有隐私需求,则根据用户的隐私需求,将用户的隐私信息的敏感程度定义为[0,1]区间上的任意实数,其中0表示敏感度最弱,1表示敏感度最强;第一类是用户无隐私需求,则将用户的隐私信息根据第一类用户对隐私数据的敏感程度,将其分为5个等级:
A++非常敏感;A+比较敏感;A敏感;B+一般敏感;B不敏感;
(2)隐私数据暴露代价的度量:
隐私数据暴露向量是指用户对个人隐私数据集是否暴露给云服务提供者,所对应的真值向量,dv=[dv1,dv2,dv3,…dvn],其中dvi∈{0,1};如果dvi取值为1,表示暴露隐私数据对象pi;dvi取值为0,表示不暴露数据对象pi,1≤i≤n,pi∈p;
所述的隐私数据暴露代价是指用户为了获取功能服务而暴露个人隐私信息的代价;隐私数据暴露代价是隐私数据敏感度与隐私数据暴露向量的函数,并且暴露代价分别与敏感度和暴露向量具有正比关系,即隐私数据敏感度越大,隐私数据暴露代价越大;隐私数据暴露得越多,隐私数据暴露代价越大;隐私数据暴露代价从量上可以利用敏感度向量矩阵与暴露向量矩阵计算得到,具体可以表示为:
Disp=[dv1,dv2,dv3,…dvn]×[sv1,sv2,…,svn]T,其中Disp∈R+,1≤i≤n。
举例1:当用户A向云服务提供商发送购物订单请求OrdRed!消息时,云服务提供商要求用户提供Name,Address,Postcode,Phone-No和Credit-Card-No隐私数据。因此,该操作对应的暴露向量为dvOrdReq!=[1,1,1,1,1],假设根据用户的需求得出用户的隐私数据敏感度向量sv为sv=[0.8,0.8,0.1,0.8,1.0],故,隐私数据暴露代价可以得到:
因此,用户A获取服务功能的隐私数据暴露代价为3.4。
在所述步骤四中,根据所述的暴露链的特征属性发现用户发布数据中的隐私暴露链,包括以下过程:
将暴露代价大于1的隐私数据集,称为暴露链,即:所述的隐私数据集包括两种类型:
第一种类型是服务要求用户暴露的最小隐私数据集,即:PESs={pds1,pds2,…pdsi……pdsk},其中pdsi为云服务提供商所要求用户暴露的隐私项,在集合上为服务输入和前置条件的子集,即:PES为服务的隐私项集,P和I分别表示服务的前置条件和输入;
第二种类型是当用户向云服务提供商发出服务请求时,用户隐私需求中愿意暴露的隐私集,即:PESu={pdu1,pdu2,...pdui……pduk},pdui为用户隐私需求中愿意暴露的隐私项;
由此得出定理1:设用户隐私需求暴露链中隐私数据的个数为n,如果PESs中包含长度为n-1的隐私暴露链,则PESs就会暴露用户的敏感隐私数据;
通过对云服务提供者的隐私数据集PESs进行暴露链的构造,并与用户的敏感隐私数据进行匹配,从而确定服务提供者所要求用户提供的隐私数据集PESs是否安全。
上述定理1的证明思路为:从某一个隐私数据出发,通过语义匹配构造一条隐私数据链,证明此隐私数据链就是暴露链。
证明:假设隐私数据集中包含了一条长度为m的数据链,m<n,它的隐私数据序列为pd1,pd2,...,pdm,如果pd1或pdm邻接于不在这条链上的一个隐私数据,立刻扩展这条链,使之包含这个隐私数据,从而得到长度为m的链。否则,pd1和pdm都邻接于这条链上的隐私属性,若pd1邻接于pdm,则存在一个回链包含pd1,pd2,...,pdm,这时以这个回链为整体,搜索与回链相邻的隐私数据,并将其包含,如图4(a)。若pd1不邻接于pdm,假设与pd1邻接的结点集是{pdr,pds,...,pdu,...,pdv},其中r≥2,s,...,u,...v≤m-1,如果pdm邻接于{pdr-1,pds-1,...,pdu-1,...,pdv-1}中之一,譬如说pdm邻接于pdu-1,如图4(b)所示,就出现pd1,pd2,pd3...pdr-1,pdm,pdm-1,...,pdu-1,...,pdr,pd1的回链。
假若PESs中有不属于此回链,但与回链具有语义相似关系的隐私数据pdx,于是就得一条包含pdx的链(pds-1,pdr,pd1,pd2,pd3...pdr-1,pdm,pdm-1,...,pds,pdx)。如图4(c)(d)所示,重复前述构造法,直到得到n-1的链。如果构造成功,则此隐私数据集为连续隐私数据。如果搜索了所有的隐私数据,还构造不出n-1的链,就说明此隐私数据集为离散隐私数据。
利用隐私信息的相似度和暴露代价来检测云服务提供商所要求用户暴露的隐私集中是否包含隐私暴露链或关键隐私数据,即判断云服务提供商隐私数据集是离散的隐私数据还是连续的隐私数据。如果满足以下两个条件,即:
且DispOrdReq!≥δ
就认为隐私集中包含暴露链或关键隐私数据。其中simi表示用户隐私数据与云服务所要求的隐私数据之间的相似度,dvi表示隐私数据暴露向量,表示相似度的阈值,DispOrdReq!表示隐私数据暴露代价,δ表示隐私数据暴露代价的阈值,由于隐私数据的敏感度的最大值为1,故,通常设δ的值为1。
举例2:利用例1的场景,通过暴露链的检测找出云服务提供商所要求用户提供隐私数据集中的暴露链。
设被检测的隐私数据满足所设定的相似度值。根据例1的计算方法可知,{Name,Address},{Name,Phone-No}和Credit-Card-No的DispOrdReq!的值分别为1.6,1.6和1。所以{Name,Address},{Name,Phone-No}和Credit-Card-No分别为暴露链和关键隐私数据。
在本发明的实际应用中,用户(客户端)可以采用以下方法建立与服务端的秘密通道,包括如下步骤:
步骤一、用户申请建立与服务端的连接。用户向服务端发送服务请求消息,并将可处理的加密类型信息发送给服务端;
步骤二、服务端返回给客户端Hello消息,并将自己的X.509证书发送过去,以便用户进行认证;
步骤三、用户认证完服务端后,将生成主密钥,然后采用RSA加密算法,用服务羰的公钥加密后传送过去;
步骤四、服务端用私钥解密用户发送过来的信息。用户传送会话ID给服务端,服务端发送Finished消息级用户,包括以主密钥加密会话的ID,安全连接建立。
步骤五、建立起安全连接的服务端和客户端将会通过本体匹配服务器匹配用户隐私数据集与服务端所要求的隐私项集中的暴露链,从而确定服务端所要求的隐私数据集的安全性,如果安全,便向服务端请求功能服务。
另外,在本发明的实际应用中,进行本体树的构建与匹配,可以将用户和服务提供者的隐私数据集转换成本体树,并通过相似度的度量来实现敏感隐私数据的匹配。该本体树的构建与匹配方法包括如下步骤:
步骤一、本体匹配服务器将用户和服务器端所要求的隐私数据按照隐私本体原模型的规则分别构建用户隐私本体树和服务端隐私本体树;
步骤二、利用本体匹配服务器计算出本体树对应节点的相似度,包括概念相似度、属性相似度和结构相似度;
步骤三、本体匹配服务器根据暴露向量计算出暴露代价,如果本体树中相应的隐私项满足以下两个条件,即:
且DispOrdReq!≥δ
就认为隐私集中包含暴露链或关键隐私数据。
步骤四、本体匹配服务器将匹配的结果分别发送给用户端和服务端。如果上式成立,则分别向用户端和服务端发送Conflict!如果上式不成立,则分别向用户端和服务端发送ok!转向用户端与服务端之间的交互,完成相应的功能服务。

Claims (3)

1.一种面向大数据的隐私信息发布暴露链的发现方法,其特征在于,所述方法以本体映射为理论基础,包括以下步骤:
步骤一、分别对隐私数据的概念相似度simd、属性相似度simT和结构相似度sims进行度量计算;
步骤二、通过隐私数据的暴露向量进行其暴露代价度量计算;
步骤三、经过对所述的隐私数据的相似度和暴露代价的度量计算,获取隐私数据信息暴露链的特征属性;所述的隐私数据的暴露代价是指用户为了获取功能服务而暴露个人隐私信息的代价;
步骤四、根据所述的暴露链的特征属性发现用户发布数据中的隐私暴露链,从而达到保护用户隐私数据信息发布过程的安全;
所述的以本体映射为理论基础,是指:对隐私数据相似性度量采用本体树的映射,假设用户隐私需求本体树和服务隐私描述本体树之间具有上下文层次语义关系的一致性;假若所述的需求本体树中的某个节点sq在描述本体树中的所对应的层次为i,则:其子类节点或者其属性必须在描述本体树中的第i+α层;
所述的隐私数据的概念相似度是在分层的基础上定义:根据需求本体树和描述本体树两棵树中节点之间的关系,将所述的隐私数据的概念相似度分为三个层次,记为:其中,R表示需求本体树中的节点,D表示描述本体树中的节点,T表示两节点间的层次关系,即:T={e,su,p};由于所述的两棵树有相同的根节点Thing,故:
①同层exact:所述的需求本体树中的R节点与描述本体树中的D节点具有相同的层次数,并且后代节点之间是一一对应的,即:
②上下层subsume:需求本体树中的R节点的层次数小于描述本体树中的D节点的层次数,并且需求本体树中的节点R的孩子与描述本体树节点D的后代节点对应,即:
③下上层plugin:需求本体树中的R节点的层次数大于描述本体树中的D节点的层次数,并且需求本体树中的节点R的孩子与描述本体树节点D的后代节点对应,即:
在基于语义词典Wordnet的计算方法中,每个节点s表示一个概念,Pantel和Lin等人根据Wordnet定义了两个概念的相似度:
其中,p(s)=count(s)/total表示在Wordnet中概念节点s及其子节点所包含的单词个数在整个词典中所占的比例,total是Wordnet的单词总数,概念节点s是概念节点s1和概念节点s2的公共祖先概念节点;
所述的对属性相似度simT进行度量,是指:
设在两颗树Tq、Td中,假如某节点为对象,两个对象分别为OA、OB;而OA、OB中的属性分为两类;其中,第一类是简单属性,如:整型或者是字符型,此类相似度可以直接根据概念相似度simd求得;第二类为关系类,即两个属性值可以通过某种关系函数计算得到其相似度;其关系函数计为:fr=(IDA,IDB,PA,PB);
设两个对象:OA=<IDA,CA,PA>,OB=<IDB,CB,PB>,并且有共同的属性;其中,所述的T为共同的属性集,则属性相似度simp可以定义为:
其中,simd是整型或字符型;fr=Υ(IDA,IDB,PA,PB)是关系型;fr是根据属性之间的特定的语义关系所确定的;如果所得到的属性值是一致的,则属性相似度为1,否则为0;那么,对象节点的属性相似度simT可以定义为:
所述的对结构相似度sims进行度量,是指:
设查询本体树Tq和描述本体树Td,由于每种树中均有三种节点,即:类、对象和属性;则应分以下三种节点情况对结构相似度sims进行度量:
(1)假若此节点为属性,则可以直接用属性相似度与所属的对象的概念相似度进行计算,故,所述属性节点的结构相似度为:
(2)假若此节点为类,则可以根据超类和子类的相似度计算:
超类的相似度为:simd(supc(sq),supc(sd))
子类的相似度为:因此,节点类的结构相似度为:
(3)假若此节点为对象,如果节点sq与sd有相似的祖先节点,并且这两个节点属性相似;此处,两个节点的属性可分以下三种情况:
①对于两个节点sq,sd,有并且simT(sq,sd)=1,则就有
②对于两个节点,sq,sd有包含关系,即:
③对于两个节点sq,sd 这三种关系称为属性间的相容关系;
SD∈supc(sd),SQ∈supc(sq),使得并且,simT(sq,sd)>β;其中,α和β分别为概念相似和结构相似的阈值;
此时,节点的结构相似度为:
因此,两棵本体树之间对应节点的总相似度为:
其中,总相似度的阈值为γ。
2.根据权利要求1所述的一种面向大数据的隐私信息发布暴露链的发现方法,其特征在于,在所述步骤三中,所述的对隐私数据的暴露代价的度量计算,包括以下过程:
(1)对隐私敏感度进行度量:
所述的隐私敏感度是用户对个人隐私数据的敏感程度,设p=[p1,p2,…,pn]为用户的隐私数据链,隐私敏感度可以表示为:sv=[sv1,sv2,…,svn],其中svi表示数据pi的敏感度,1≤i≤n;
将用户的隐私敏感度分为两类:第一类是用户有隐私需求,则根据用户的隐私需求,将用户的隐私信息的敏感程度定义为[0,1]区间上的任意实数,其中0表示敏感度最弱,1表示敏感度最强;第一类是用户无隐私需求,则将用户的隐私信息根据第一类用户对隐私数据的敏感程度,将其分为5个等级:
A++非常敏感;A+比较敏感;A敏感;B+一般敏感;B不敏感;
(2)隐私数据暴露代价的度量:
隐私数据暴露向量是指用户对个人隐私数据集是否暴露给云服务提供者,所对应的真值向量,dv=[dv1,dv2,dv3,…dvn],其中dvi∈{0,1};如果dvi取值为1,表示暴露隐私数据对象pi;dvi取值为0,表示不暴露数据对象pi,1≤i≤n,pi∈p;
所述的隐私数据暴露代价是指用户为了获取功能服务而暴露个人隐私信息的代价;隐私数据暴露代价是隐私数据敏感度与隐私数据暴露向量的函数,并且暴露代价分别与敏感度和暴露向量具有正比关系,即隐私数据敏感度越大,隐私数据暴露代价越大;隐私数据暴露得越多,隐私数据暴露代价越大;隐私数据暴露代价从量上可以利用敏感度向量矩阵与暴露向量矩阵计算得到,具体可以表示为:
Disp=[dv1,dv2,dv3,…dvn]×[sv1,sv2,…,svn]T,其中Disp∈R+,1≤i≤n。
3.根据权利要求1所述的一种面向大数据的隐私信息发布暴露链的发现方法,其特征在于,在所述步骤四中,根据所述的暴露链的特征发现用户发布数据中的隐私暴露链,包括以下过程:
将暴露代价大于1的隐私数据集,称为暴露链,即:所述的隐私数据集包括两种类型:
第一种类型是服务要求用户暴露的最小隐私数据集,即:PESs={pds1,pds2,…pdsi……pdsk},其中pdsi为云服务提供商所要求用户暴露的隐私项,在集合上为服务输入和前置条件的子集,即:0≤i≤k;PES为服务的隐私项集,P和I分别表示服务的前置条件和输入;
第二种类型是当用户向云服务提供商发出服务请求时,用户隐私需求中愿意暴露的隐私集,即:PESu={pdu1,pdu2,…pdui……pduk},pdui为用户隐私需求中愿意暴露的隐私项;
因此:设用户隐私需求暴露链中隐私数据的个数为n,如果PESs中包含长度为n-1的隐私暴露链,则PESs就会暴露用户的敏感隐私数据;
通过对云服务提供者的隐私数据集PESs进行暴露链的构造,并与用户的敏感隐私数据进行匹配,从而确定服务提供者所要求用户提供的隐私数据集PESs是否安全。
CN201610986711.XA 2016-11-09 2016-11-09 一种面向大数据的隐私信息发布暴露链的发现方法 Active CN106572111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610986711.XA CN106572111B (zh) 2016-11-09 2016-11-09 一种面向大数据的隐私信息发布暴露链的发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610986711.XA CN106572111B (zh) 2016-11-09 2016-11-09 一种面向大数据的隐私信息发布暴露链的发现方法

Publications (2)

Publication Number Publication Date
CN106572111A CN106572111A (zh) 2017-04-19
CN106572111B true CN106572111B (zh) 2019-06-28

Family

ID=58540599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610986711.XA Active CN106572111B (zh) 2016-11-09 2016-11-09 一种面向大数据的隐私信息发布暴露链的发现方法

Country Status (1)

Country Link
CN (1) CN106572111B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660579B (zh) * 2017-10-11 2022-02-25 阿里巴巴集团控股有限公司 数据处理方法、系统及电子设备
CN108494760A (zh) * 2018-03-14 2018-09-04 安徽大学 一种保护隐私的群智感知真值发现方法
CN109598139A (zh) * 2018-11-21 2019-04-09 金色熊猫有限公司 隐私信息处理方法、装置、电子设备及计算机可读介质
CN109670339B (zh) * 2018-12-28 2021-02-26 北京工业大学 基于本体的面向隐私保护的访问控制方法及装置
CN109670342B (zh) * 2018-12-30 2021-02-26 北京工业大学 信息泄露风险度量的方法和装置
CN109886030B (zh) * 2019-01-29 2021-06-11 南京邮电大学 一种面向服务组合的隐私最小暴露方法
CN110210244B (zh) * 2019-05-10 2020-12-29 中国科学院计算技术研究所 检测社交媒体用户隐私泄露的方法和系统
CN112084411B (zh) * 2020-09-10 2021-04-20 绍兴文理学院 一种面向个性化信息检索的用户隐私保护方法
CN112580097B (zh) * 2020-12-18 2023-12-26 北京工业大学 基于语义推理的用户隐私数据保护的方法、装置、电子设备及存储介质
CN112733196B (zh) * 2021-04-02 2021-07-06 之江实验室 基于向量混淆的抗成员推理攻击的隐私保护方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104378370A (zh) * 2014-11-12 2015-02-25 南京邮电大学 一种云计算中隐私数据的安全使用方法
CN104660495A (zh) * 2015-01-28 2015-05-27 腾讯科技(深圳)有限公司 一种信息处理方法、客户端及服务器
CN105245499A (zh) * 2015-08-31 2016-01-13 南京邮电大学 一种云服务隐私信息暴露取证方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104378370A (zh) * 2014-11-12 2015-02-25 南京邮电大学 一种云计算中隐私数据的安全使用方法
CN104660495A (zh) * 2015-01-28 2015-05-27 腾讯科技(深圳)有限公司 一种信息处理方法、客户端及服务器
CN105245499A (zh) * 2015-08-31 2016-01-13 南京邮电大学 一种云服务隐私信息暴露取证方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于MAH-ABE的云计算隐私保护访问控制;陈丹伟等;《电子学报》;20140415;第42卷(第4期);第821-827页

Also Published As

Publication number Publication date
CN106572111A (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
CN106572111B (zh) 一种面向大数据的隐私信息发布暴露链的发现方法
KR102185191B1 (ko) 암호화폐 거래 분석 방법 및 시스템
Ji et al. Graph data anonymization, de-anonymization attacks, and de-anonymizability quantification: A survey
Fire et al. Organization mining using online social networks
US9195777B2 (en) System, method and computer program product for normalizing data obtained from a plurality of social networks
Lorek et al. Automated credibility assessment on Twitter
CN104378370B (zh) 一种云计算中隐私数据的安全使用方法
Orlov et al. Using behavior and text analysis to detect propagandists and misinformers on twitter
Xu et al. Trust2Privacy: A novel fuzzy trust-to-privacy mechanism for mobile social networks
Kotenko et al. Monitoring and counteraction to malicious influences in the information space of social networks
Buccafurri et al. A model to support multi-social-network applications
Livraga et al. Data confidentiality and information credibility in on-line ecosystems
Geng et al. Did-efed: Facilitating federated learning as a service with decentralized identities
Chang et al. Detecting fake review with rumor model—Case study in hotel review
CN108921413B (zh) 一种基于用户意愿的社交网络信任度计算方法
Venkatesh et al. Malicious account detection based on short URLs in twitter
Kanakaris et al. Impact of AnonStalk (Anonymous Stalking) on users of Social Media: A Case Study.
Yang et al. TAPESTRY: a de-centralized service for trusted interaction online
Koly et al. Towards a location-aware blockchain-based solution to distinguish fake news in social media
Alessandra et al. Who tweets in Italian? Demographic characteristics of Twitter users
Patel et al. Privacy preserving techniques for big data: A survey
Liu et al. FGAC: A Fine-Grained Access Control Framework for Supply Chain Data Sharing
Kumar et al. A Blockchain-Oriented Framework for Cloud-Assisted System to Countermeasure Phishing for Establishing Secure Smart City
Pendergrass The intersection of human trafficking and technology
Li et al. A blockchain-based material donation platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: No. 66, New Model Road, Gulou District, Nanjing City, Jiangsu Province, 210000

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: 210023 9 Wen Yuan Road, Qixia District, Nanjing, Jiangsu.

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191216

Address after: 610041 No.2, building 2-1, tourist village, Wuhou District, Chengdu, Sichuan Province

Patentee after: SICHUAN MINGHOUTIAN INFORMATION TECHNOLOGY CO.,LTD.

Address before: 400000 floors 1-3, Baihuayuan podium building, 1889 Longhua Avenue, Longxi street, Yubei District, Chongqing

Patentee before: Chongqing Lingtong Technology Consulting Co.,Ltd.

Effective date of registration: 20191216

Address after: 400000 floors 1-3, Baihuayuan podium building, 1889 Longhua Avenue, Longxi street, Yubei District, Chongqing

Patentee after: Chongqing Lingtong Technology Consulting Co.,Ltd.

Address before: 210000, 66 new model street, Gulou District, Jiangsu, Nanjing

Patentee before: NANJING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right