CN108830106A - 一种隐私数据提供方法及装置 - Google Patents

一种隐私数据提供方法及装置 Download PDF

Info

Publication number
CN108830106A
CN108830106A CN201810627814.6A CN201810627814A CN108830106A CN 108830106 A CN108830106 A CN 108830106A CN 201810627814 A CN201810627814 A CN 201810627814A CN 108830106 A CN108830106 A CN 108830106A
Authority
CN
China
Prior art keywords
private data
frequent item
network operator
item set
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810627814.6A
Other languages
English (en)
Inventor
孙浩楠
刘智国
张尼
朱广宇
杨永刚
杨丰源
刘晓鹏
李建忠
赵云龙
唐球
卢凯
陈波
秦媛媛
张松清
张宏斌
于增明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
No6 Research Institute Of China Electronics Corp
Original Assignee
No6 Research Institute Of China Electronics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by No6 Research Institute Of China Electronics Corp filed Critical No6 Research Institute Of China Electronics Corp
Priority to CN201810627814.6A priority Critical patent/CN108830106A/zh
Publication of CN108830106A publication Critical patent/CN108830106A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种隐私数据提供方法及装置,涉及隐私保护领域。本发明提供的一种隐私数据提供方法,首先概括抽取全部用户隐私数据(全部用户针对不同网络运营商所开放的隐私数据),以产生相应的隐私数据的隐私数据项;再对这些隐私数据项进行频繁项集挖掘,用频繁项集来表示关于某一网络运营商的隐私数据的特征部分;接下来,利用频繁项集进行聚类处理,将具有相似隐私数据的网络运营商聚为一簇;最后,在每一簇的网络运营商所对应的隐私数据中抽取具有代表性的参考隐私数据,并将参考隐私数据作为网络运营商能够将直接获取的数据,进而,将参考隐私数据向指定的网络运营商发送,以完成隐私数据的上传。这种上传隐私数据的方式,一定程度上能够避免用户隐私数据被过度泄露。

Description

一种隐私数据提供方法及装置
技术领域
本发明涉及隐私保护领域,具体而言,涉及一种隐私数据提供方法及装置。
背景技术
随着计算机与网络技术的飞速发展,人们生产生活所产生的数据量急剧增长,越来越多的个人数据被存储到了用户的手机中,这些用户的个人数据关系到用户的个人隐私,因此为了避免隐私泄露,手机通常对这些隐私数据设置了较高的保密级别。
正是由于这些隐私数据设置了较高的保密级别,网络运营商(如QQ、微信)在获取这些数据之前,首先需要经过用户的同意,也就是,只有在用户同意后,网络运营商才能够从用户的手机中获取这些隐私信息。
运营商在获取这些隐私数据前,为了降低自己的风险,都会先向用户展示很长的一段免责条款,而由于这段免责条款过长,导致了用户在没有完全阅读这段免责条款的情况下就点击了确认,以表示用户同意运营商从其手机中获取隐私数据。这就造成了用户可能在无意中就泄露了自己的隐私数据。
发明内容
本发明的目的在于提供一种隐私数据提供方法及装置。
第一方面,本发明实施例提供了一种隐私数据提供方法,包括:
获取不同用户对每个网络运营商所开放的基础隐私信息;基础隐私信息包括:姓名,身份证号,手机号,交易记录,手机定位数据,读写存储权限;
从基础隐私信息中提取表示隐私属性的隐私数据项;隐私数据项由多个基础隐私信息所组成;
根据隐私数据项,使用FP-Growth算法生成每个网络运营商所对应的隐私数据的一般频繁项集的集合;
根据频繁项集的支持度和频繁项集中数据项的个数,从一般频繁项集的集合中,选择用于表征每个网络运营商所对应的隐私数据的优选频繁项集;
从优选频繁项集中选择重要频繁项集;
根据重要频繁项集的数量确定聚类簇数K,并将每个网络运营商分别划分至不同的簇中;
分别确定每个簇所对应的参考隐私数据;
根据参考隐私数据与每个簇的对应关系,将指定的隐私数据向指定的网络运营商进行发送。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,步骤获取不同用户对每个网络运营商所开放的基础隐私信息包括:
获取不同用户向每个网络运营商所开放的设备权限;
获取不同用户在使用网络运营商所对应的网络服务时,所开放的个人信息;基础隐私信息包括开放的设备权限的信息和开放的个人信息。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,步骤根据隐私数据项,使用FP-Growth算法生成每个网络运营商所对应的隐私数据的一般频繁项集的集合包括:
按照隐私数据项中基础隐私信息出现的次数,删除出现次数小于最小支持度的基础隐私信息;
根据隐私数据项生成FP树;FP树中拥有相同前缀的隐私数据项被关联起来;前缀是隐私数据项中的一个基础隐私信息;
根据FP树抽取条件模式基;条件模式基用于描述每个前缀路径出现的频度;
依据条件模式基构造条件FP树并递归生成每个网络运营商所对应的隐私数据的一般频繁项集的集合。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,步骤根据重要频繁项集的数量确定聚类簇数K,并将每个网络运营商分别划分至不同的簇中包括:
构建关于优选频繁项集的拉普拉斯矩阵L;
计算拉普拉斯矩阵L的前K个最小特征值所对应的特征向量F;
对特征向量F进行规范化处理,得到矩阵Nor_F;
使用K-means算法将Nor_F中的各行聚类为K个簇;
按照如下方式将网络运营商进行划分:若Nor_F中的第i行分在第j簇中,则将优选频繁项集vi分到第j簇中,以及将vi所对应的网络运营商分到第j簇中。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,步骤分别确定每个簇所对应的参考隐私数据包括:
计算每一簇中各个频繁项集之间的Jaccard相似系数;
抽取出每簇中与其他频繁项集相似度最大的频繁项集所对应的隐私数据作为参考隐私数据。
第二方面,本发明实施例还提供了一种隐私数据提供装置,包括:
获取模块,用于获取不同用户对每个网络运营商所开放的基础隐私信息;基础隐私信息包括:姓名,身份证号,手机号,交易记录,手机定位数据,读写存储权限;
提取模块,用于从基础隐私信息中提取表示隐私属性的隐私数据项;隐私数据项由多个基础隐私信息所组成;
生成模块,用于根据隐私数据项,使用FP-Growth算法生成每个网络运营商所对应的隐私数据的一般频繁项集的集合;
第一选择模块,用于根据频繁项集的支持度和频繁项集中数据项的个数,从一般频繁项集的集合中,选择用于表征每个网络运营商所对应的隐私数据的优选频繁项集;
第二选择模块,用于从优选频繁项集中选择重要频繁项集;
划分模块,用于根据重要频繁项集的数量确定聚类簇数K,并将每个网络运营商分别划分至不同的簇中;
确定模块,用于分别确定每个簇所对应的参考隐私数据;
发送模块,用于根据参考隐私数据与每个簇的对应关系,将指定的隐私数据向指定的网络运营商进行发送。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,获取模块包括:
第一获取单元,用于获取不同用户向每个网络运营商所开放的设备权限;
第二获取单元,用于获取不同用户在使用网络运营商所对应的网络服务时,所开放的个人信息;基础隐私信息包括开放的设备权限的信息和开放的个人信息。
结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,生成模块包括:
删除单元,用于按照隐私数据项中基础隐私信息出现的次数,删除出现次数小于最小支持度的基础隐私信息;
第一生成单元,用于根据隐私数据项生成FP树;FP树中拥有相同前缀的隐私数据项被关联起来;前缀是隐私数据项中的一个基础隐私信息;
第一抽取单元,用于根据FP树抽取条件模式基;条件模式基用于描述每个前缀路径出现的频度;
第二生成单元,用于依据条件模式基构造条件FP树并递归生成每个网络运营商所对应的隐私数据的一般频繁项集的集合。
结合第二方面,本发明实施例提供了第二方面的第三种可能的实施方式,其中,确定模块包括:
构建单元,用于构建关于优选频繁项集的拉普拉斯矩阵L;
第一计算单元,用于计算拉普拉斯矩阵L的前K个最小特征值所对应的特征向量F;
规范化处理单元,用于对特征向量F进行规范化处理,得到矩阵Nor_F;
聚类单元,用于使用K-means算法将Nor_F中的各行聚类为K个簇;
划分单元,用于按照如下方式将网络运营商进行划分:若Nor_F中的第i行分在第j簇中,则将优选频繁项集vi分到第j簇中,以及将vi所对应的网络运营商分到第j簇中。
结合第二方面,本发明实施例提供了第二方面的第四种可能的实施方式,其中,确定模块包括:
第二计算单元,用于计算每一簇中各个频繁项集之间的Jaccard相似系数;
第二抽取单元,用于抽取出每簇中与其他频繁项集相似度最大的频繁项集所对应的隐私数据作为参考隐私数据。
本发明实施例提供的一种隐私数据提供方法,首先概括抽取全部用户隐私数据(全部用户针对不同网络运营商所开放的隐私数据),以产生相应的隐私数据的隐私数据项;再对这些隐私数据项进行频繁项集挖掘,用频繁项集来表示关于某一网络运营商的隐私数据的特征部分;接下来,利用频繁项集进行聚类处理,将具有相似隐私数据的网络运营商聚为一簇;最后,在每一簇的网络运营商所对应的隐私数据中抽取具有代表性的参考隐私数据,并将参考隐私数据作为网络运营商能够将直接获取的数据,进而,将参考隐私数据向指定的网络运营商发送,以完成隐私数据的上传。这种上传隐私数据的方式,一定程度上能够避免用户隐私数据被过度泄露。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的一种隐私数据提供方法的基本流程图;
图2示出了本发明实施例所提供的一种隐私数据提供方法的第一个优化流程图;
图3示出了本发明实施例所提供的一种隐私数据提供方法中,由隐私数据项转化为FP树的示意图;
图4示出了本发明实施例所提供的一种隐私数据提供方法的第二个优化流程图;
图5示出了本发明实施例所提供的计算设备的示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,由于用户通常是在没有完全阅读隐私区域的免责条款的情况下,就同意运营商从自己的手机中提取隐私数据,这造成了用户可能在无意中就泄露自己的隐私数据。针对这种情况,本申请提供了一种隐私数据提供方法,如图1所示,该方法包括如下内容:
S101,获取不同用户对每个网络运营商所开放的基础隐私信息;基础隐私信息包括:姓名,身份证号,手机号,交易记录,手机定位数据,读写存储权限
S102,从基础隐私信息中提取表示隐私属性的隐私数据项;隐私数据项由多个基础隐私信息所组成;
S103,根据隐私数据项,使用FP-Growth算法生成每个网络运营商所对应的隐私数据的一般频繁项集的集合;
S104,根据频繁项集的支持度和频繁项集中数据项的个数,从一般频繁项集的集合中,选择用于表征每个网络运营商所对应的隐私数据的优选频繁项集;
S105,从优选频繁项集中选择重要频繁项集;
S106,根据重要频繁项集的数量确定聚类簇数K,并将每个网络运营商分别划分至不同的簇中;
S107,分别确定每个簇所对应的参考隐私数据;
S108,根据参考隐私数据与每个簇的对应关系,将指定的隐私数据向指定的网络运营商进行发送。
其中,FP-Growth算法是韩嘉炜等人在2000年提出的关联分析算法,该算法采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。在该算法中使用了一种称为频繁模式树(即,FP树,Frequent Pattern Tree)的数据结构。
频繁项集是指满足预定义的最小支持度的项集,重要频繁项集:长度较长,且能够覆盖相似(同类型)的频繁项集的项集。
支持度是指在一次事务中,项集出现的次数。此处的一次事务指对于某一运营商收集的不同用户的开放隐私数据。
本申请所提供的方案,首先概括抽取全部用户隐私数据(全部用户针对不同网络运营商所开放的隐私数据),以产生相应的隐私数据的隐私数据项;再对这些隐私数据项进行频繁项集挖掘,用频繁项集来表示关于某一网络运营商的隐私数据的特征部分;接下来,利用频繁项集进行聚类处理,将具有相似隐私数据的网络运营商聚为一簇;最后,在每一簇的网络运营商所对应的隐私数据中抽取具有代表性的参考隐私数据,并将参考隐私数据作为网络运营商能够将直接获取的数据,进而,将参考隐私数据向指定的网络运营商发送,以完成隐私数据的上传。
具体的,上述步骤S101可以按照如下方式执行:
S1011,获取不同用户向每个网络运营商所开放的设备权限;
S1012,获取不同用户在使用网络运营商所对应的网络服务时,所开放的个人信息;基础隐私信息包括开放的设备权限的信息和开放的个人信息。
其中,设备权限主要包括:手机定位的权限、读写短信的权限、读写联系人列表的权限、获取手机信息的权限(如:手机号、硬件设备信息等)、使用相机的权限、使用录音的权限、读写存储器的权限,开启/关闭网络连接的权限等。
个人信息包括:姓名、身份证、手机号、家庭住址等信息,以及交易记录、转账记录等信息。
进而,步骤S102可以按照如下方式执行:
在获取到设备权限和个人信息后,抽取表示隐私属性的隐私数据项,隐私数据项的形式如{姓名,身份证号,手机号,交易记录,手机定位,读写存储}。一般情况下,不同的用户对于同一应用程序将会产生不同的数据项,将这些数据项进行收集做下一步处理。
具体的,步骤S103可以按照如下方式执行:
S1031,按照隐私数据项中基础隐私信息出现的次数,删除出现次数小于最小支持度的基础隐私信息;
S1032,根据隐私数据项生成FP树;FP树中拥有相同前缀的隐私数据项被关联起来;前缀是隐私数据项中的一个基础隐私信息;
S1033,根据FP树抽取条件模式基;条件模式基用于描述每个前缀路径出现的频度;
S1034,依据条件模式基构造条件FP树并递归生成每个网络运营商所对应的隐私数据的一般频繁项集的集合。
更具体的,下面例举一个步骤S1031执行时的例子:
关于同一运营商收集到的不同用户所提交的数据项有个四个,分别是:
数据项1,{姓名,年龄,性别,职业,身份证号};
数据项2,{手机,邮箱,姓名,性别};
数据项3,{姓名,年龄,手机};
数据项4,{姓名,身份证号,手机};
由此可见,这四个集合中,姓名出现4次,手机出现3次,年龄、性别、身份证号出现2次,职业、邮箱出现1次,根据需求可以设定最小支持度为2,则需要删除职业和邮箱这两个仅出现一次的基础隐私信息,最后依据降序排序,得到结果为{姓名,年龄,性别,身份证号},{姓名,手机,性别},{姓名,手机,年龄},{姓名,手机,身份证号}。
更具体的,步骤S1032,根据隐私数据项生成FP树中,所使用的隐私数据项是执行过步骤S1031后的隐私数据项。
如图3所示,示出了由隐私数据项转化为FP树的示意图,图3中,左侧是步骤S1031中,删除了指定基础隐私信息的隐私数据项,右侧是将隐私数据项中的每个基础隐私信息组成FP树。该树中还使用头指针列表来指向FP树中的频繁数据项(如FP树中的姓名、手机、性别等)。
步骤S1033中,前缀路径就是FP树中,由频繁数据项所组成的路径,比如最右侧的身份证号的前缀路径就是姓名和手机。
依据图3,可以根据头指针列表中的“身份证号”一项,生成条件模式基,如:从图3中的FP树可知,以“身份证号”为结尾的路径有{姓名(4),年龄(1),性别(1),身份证号(1)}和{姓名(4),手机(3),身份证号(1)}两项,且数量都为1。其前缀路径分别为{姓名(4),年龄(1),性别(1)}和{姓名(4),手机(3)},由于之前设置的最小支持度为2,因此在上述两条前缀路径中,删除“年龄”和“性别”,得到的路径为{姓名}和{姓名,手机},这两条路径依据之前构建FP树的原理,构建一个新的FP树,这个新的FP树就是“身份证号”的条件FP树,该条件FP树与本次的数据项(即“身份证号”)生成的数据集,即为本次迭代的产生频繁项集,之后依据本次产生的条件FP树,再次构造新的条件FP树,记录每次产生的频繁项集,直到无法迭代为止,其他头指针列表中的数据项以此类推。
进而,步骤S104可以按照如下方式执行:
根据频繁项集的支持度和项集中数据项的个数,选择支持度和数据项个数符合预定要求(支持度和数据项个数均较高)的项集作为代表指定网络运营商所对应的隐私数据的优选频繁项集。
步骤S105可以按照如下方式执行:
将生成的优选频繁项集过滤,使用SIF(similarity-based itemset filtering,即基于相似度的过滤)策略,产生重要频繁项集。首先设所有频繁项集的集合为All_I={I1,I2,…,IN},其中Ii(i=1,2,3,…N)表示某一频繁项集,若初始的重要频繁项集为其中,Key_I是重要频繁项集,All_I是所有频繁项集的集合,产生重要频繁项集的具体过程如下:
若Ii是Ij的子集,将Ii从All_I中移除;若Ii是Ij的交叉集,计算Ii与Ij之间的Jaccard相似系数J(Ii,Ij)=|Ii∩Ij|/|Ii∪Ij|,若J(Ii,Ij)>α,则将Ii从All_I中移除,否则对Ii计数:counti++(即counti+1)。其中,counti是在All_I中取出的每一项Ii经过第一步过滤后的计数表示;Ij是指从Key_I中取出的每一项,j为它的下标表示;α是用户设定的一个阈值,当Jaccard相似系数大于这个阈值时就将Ii从All_I中移除。
若counti=|Key_I|,即项集Ii不是重要项集集合Key_I中任一个项集Ij的子集或者相似交叉集,则将Ii添加到Key_I中。
重复上述1、2步骤,直到Key_I=All_I(即经过上述算法过滤后的所有频繁项集的集合All_I与筛选出来的重要频繁项集Key_I相等)。最后,Key_I即为重要频繁项集;
将重要频繁项集的数量设定为聚类的簇数K。
如图4所示,步骤S106可以按照如下方式执行:
S1061,构建关于优选频繁项集的拉普拉斯矩阵L;
S1062,计算拉普拉斯矩阵L的前K(K为重要频繁项集的数量)个最小特征值所对应的特征向量F;
S1063,对特征向量F进行规范化处理,得到矩阵Nor_F(其中,Nor表示经过规范化处理F后得到的矩阵,实际并无特殊指代,只是为了说明该矩阵是特征向量F经过规范化(normalization)后得到的);
S1064,使用K-means算法将Nor_F中的各行聚类为K个簇;
S1065,按照如下方式将网络运营商进行划分:若Nor_F中的第i行分在第j簇中,则将优选频繁项集vi分到第j簇中,以及将vi所对应的网络运营商分到第j簇中。
其中,K-means算法是硬聚类算法,K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。该算法采用误差平方和准则函数作为聚类准则函数。
步骤S1061具体按照如下方式实现:
设G=(V,E)为无向加权图,其中vi∈V为重要频繁项集的结点,结点vi与结点vj之间边的权重为wij=sim(Ii,Ij)(wji=0)(其中,Sim(Ii,Ij)这个表示计算Ii,Ij之间的相似度,Ii,Ij表示重要频繁项集中两个不同的频繁项集),基于图G中所有结点的相似度权重,形成一个相似矩阵W={wij|vi,vj∈V}(其中,Wij为上面公式计算出来两个频繁项集的相似度,表示Vi与Vj两个结点的权重,Vi与Vj是表示重要频繁项集中不同的两个频繁项集,在图G中以Vi和Vj形式存在,大写的V表示图中所有结点的集合),则频繁项集聚类问题即可以转化为图G的K路划分问题。其准则是使得划分的各个子图内部相似度最大,子图(图G的一种子集)之间相似度最小,依据谱聚类算法可将子图划分问题转为基于拉普拉斯矩阵的前K个特增值对应特征向量在Rn空间的聚类问题。
进而,可以得到关于优选频繁项集的拉普拉斯矩阵L;L=Λ-1/2(Λ-W)Λ-1/2=I-Λ-1/2-1/2
其中,Λ为对角矩阵,W为前文中所公开的相似矩阵,I表示单位矩阵。
步骤S1063中,关于矩阵Nor_F符合如下条件:Nor_Fij表示矩阵Nor_F中第i行,第j列的元素,Fij表示第i个特征向量F中的第j个元素。
步骤S107可以按照如下方式执行:
计算每一簇中各个频繁项集之间的Jaccard相似系数;
抽取出每簇中与其他频繁项集相似度最大的频繁项集所对应的隐私数据作为参考隐私数据。
其中,Jaccard相似系数用于比较有限样本集之间的相似性与差异性。Jaccard相似系数的值越大,样本相似度越高。
步骤S107中能够确定出每个簇所对应的参考隐私数据,实际上,每个簇中的网络运营商的参考隐私数据均是相同的,也就是步骤S107就能够确定出每个网络运营商的参考隐私数据(网络运营商的参考隐私数据就是该网络运营商所在的簇所对应的参考隐私数据)。
进而,步骤S108中,在有网络运营商需要用户提供隐私数据的时候,就可以按照参考隐私数据与每个簇的对应关系(参考隐私数据与网络运营商的),将对应的参考隐私数据向指定的网络运营商发送。
在具体实现的时候,可以在用户的手机中设置两种模式,分别是自动模式和手动模式,在自动模式下,可以直接按照类似上述步骤S108的方式来执行,进而,步骤S108可以按照如下方式执行:
在获取到网络运营商所发出的隐私数据获取请求后,查找当前隐私数据提供模式;
若隐私数据提供模式是自动模式,则根据参考隐私数据与每个簇的对应关系,将指定的隐私数据向指定的网络运营商进行发送。
在手动模式下,则手机需要先行询问用户是否同意将某一种隐私数据向网络运营商发送。也就是,在获取到网络运营商所发出的隐私数据获取请求后,查找当前隐私数据提供模式;
若隐私数据提供模式是手动模式,则根据参考隐私数据与每个簇的对应关系,向用户展示对应的隐私数据;
若接收到用户所下达的确认指令,则将指定的隐私数据向指定的网络运营商进行发送;
若接收到用户所下达的否认指令,则终止当前流程。
与上述方法相对应的,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行一种隐私数据提供方法。
如图5所示,为本申请实施例所提供的计算设备示意图,该计算设备50包括:处理器51、存储器52和总线53,存储器52存储有执行指令,当计算设备运行时,处理器51与存储器52之间通过总线53通信,处理器51执行存储器52中存储的一种隐私数据提供方法的步骤。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种隐私数据提供方法,其特征在于,包括:
获取不同用户对每个网络运营商所开放的基础隐私信息;基础隐私信息包括:姓名,身份证号,手机号,交易记录,手机定位数据,读写存储权限;
从基础隐私信息中提取表示隐私属性的隐私数据项;隐私数据项由多个基础隐私信息所组成;
根据隐私数据项,使用FP-Growth算法生成每个网络运营商所对应的隐私数据的一般频繁项集的集合;
根据频繁项集的支持度和频繁项集中数据项的个数,从一般频繁项集的集合中,选择用于表征每个网络运营商所对应的隐私数据的优选频繁项集;
从优选频繁项集中选择重要频繁项集;
根据重要频繁项集的数量确定聚类簇数K,并将每个网络运营商分别划分至不同的簇中;
分别确定每个簇所对应的参考隐私数据;
根据参考隐私数据与每个簇的对应关系,将指定的隐私数据向指定的网络运营商进行发送。
2.根据权利要求1所述的方法,其特征在于,步骤获取不同用户对每个网络运营商所开放的基础隐私信息包括:
获取不同用户向每个网络运营商所开放的设备权限;
获取不同用户在使用网络运营商所对应的网络服务时,所开放的个人信息;基础隐私信息包括开放的设备权限的信息和开放的个人信息。
3.根据权利要求1所述的方法,其特征在于,步骤根据隐私数据项,使用FP-Growth算法生成每个网络运营商所对应的隐私数据的一般频繁项集的集合包括:
按照隐私数据项中基础隐私信息出现的次数,删除出现次数小于最小支持度的基础隐私信息;
根据隐私数据项生成FP树;FP树中拥有相同前缀的隐私数据项被关联起来;前缀是隐私数据项中的一个基础隐私信息;
根据FP树抽取条件模式基;条件模式基用于描述每个前缀路径出现的频度;
依据条件模式基构造条件FP树并递归生成每个网络运营商所对应的隐私数据的一般频繁项集的集合。
4.根据权利要求1所述的方法,其特征在于,步骤根据重要频繁项集的数量确定聚类簇数K,并将每个网络运营商分别划分至不同的簇中包括:
构建关于优选频繁项集的拉普拉斯矩阵L;
计算拉普拉斯矩阵L的前K个最小特征值所对应的特征向量F;
对特征向量F进行规范化处理,得到矩阵Nor_F;
使用K-means算法将Nor_F中的各行聚类为K个簇;
按照如下方式将网络运营商进行划分:若Nor_F中的第i行分在第j簇中,则将优选频繁项集vi分到第j簇中,以及将vi所对应的网络运营商分到第j簇中。
5.根据权利要求1所述的方法,其特征在于,步骤分别确定每个簇所对应的参考隐私数据包括:
计算每一簇中各个频繁项集之间的Jaccard相似系数;
抽取出每簇中与其他频繁项集相似度最大的频繁项集所对应的隐私数据作为参考隐私数据。
6.一种隐私数据提供装置,其特征在于,包括:
获取模块,用于获取不同用户对每个网络运营商所开放的基础隐私信息;基础隐私信息包括:姓名,身份证号,手机号,交易记录,手机定位数据,读写存储权限;
提取模块,用于从基础隐私信息中提取表示隐私属性的隐私数据项;隐私数据项由多个基础隐私信息所组成;
生成模块,用于根据隐私数据项,使用FP-Growth算法生成每个网络运营商所对应的隐私数据的一般频繁项集的集合;
第一选择模块,用于根据频繁项集的支持度和频繁项集中数据项的个数,从一般频繁项集的集合中,选择用于表征每个网络运营商所对应的隐私数据的优选频繁项集;
第二选择模块,用于从优选频繁项集中选择重要频繁项集;
划分模块,用于根据重要频繁项集的数量确定聚类簇数K,并将每个网络运营商分别划分至不同的簇中;
确定模块,用于分别确定每个簇所对应的参考隐私数据;
发送模块,用于根据参考隐私数据与每个簇的对应关系,将指定的隐私数据向指定的网络运营商进行发送。
7.根据权利要求6所述的装置,其特征在于,获取模块包括:
第一获取单元,用于获取不同用户向每个网络运营商所开放的设备权限;
第二获取单元,用于获取不同用户在使用网络运营商所对应的网络服务时,所开放的个人信息;基础隐私信息包括开放的设备权限的信息和开放的个人信息。
8.根据权利要求6所述的装置,其特征在于,生成模块包括:
删除单元,用于按照隐私数据项中基础隐私信息出现的次数,删除出现次数小于最小支持度的基础隐私信息;
第一生成单元,用于根据隐私数据项生成FP树;FP树中拥有相同前缀的隐私数据项被关联起来;前缀是隐私数据项中的一个基础隐私信息;
第一抽取单元,用于根据FP树抽取条件模式基;条件模式基用于描述每个前缀路径出现的频度;
第二生成单元,用于依据条件模式基构造条件FP树并递归生成每个网络运营商所对应的隐私数据的一般频繁项集的集合。
9.根据权利要求6所述的装置,其特征在于,确定模块包括:
构建单元,用于构建关于优选频繁项集的拉普拉斯矩阵L;
第一计算单元,用于计算拉普拉斯矩阵L的前K个最小特征值所对应的特征向量F;
规范化处理单元,用于对特征向量F进行规范化处理,得到矩阵Nor_F;
聚类单元,用于使用K-means算法将Nor_F中的各行聚类为K个簇;
划分单元,用于按照如下方式将网络运营商进行划分:若Nor_F中的第i行分在第j簇中,则将优选频繁项集vi分到第j簇中,以及将vi所对应的网络运营商分到第j簇中。
10.根据权利要求6所述的装置,其特征在于,确定模块包括:
第二计算单元,用于计算每一簇中各个频繁项集之间的Jaccard相似系数;
第二抽取单元,用于抽取出每簇中与其他频繁项集相似度最大的频繁项集所对应的隐私数据作为参考隐私数据。
CN201810627814.6A 2018-06-19 2018-06-19 一种隐私数据提供方法及装置 Pending CN108830106A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810627814.6A CN108830106A (zh) 2018-06-19 2018-06-19 一种隐私数据提供方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810627814.6A CN108830106A (zh) 2018-06-19 2018-06-19 一种隐私数据提供方法及装置

Publications (1)

Publication Number Publication Date
CN108830106A true CN108830106A (zh) 2018-11-16

Family

ID=64141561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810627814.6A Pending CN108830106A (zh) 2018-06-19 2018-06-19 一种隐私数据提供方法及装置

Country Status (1)

Country Link
CN (1) CN108830106A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492435A (zh) * 2019-01-10 2019-03-19 贵州财经大学 基于数据开放共享的隐私泄露风险评估方法、装置及系统
CN110059502A (zh) * 2019-04-22 2019-07-26 鹏城实验室 隐私数据感知方法及装置
CN112968873A (zh) * 2021-01-29 2021-06-15 上海竞动科技有限公司 一种用于隐私数据传输的加密方法和装置
CN113949514A (zh) * 2020-07-16 2022-01-18 中国电信股份有限公司 应用越权检测方法、装置和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092837A (zh) * 2017-04-25 2017-08-25 华中科技大学 一种支持差分隐私的频繁项集挖掘方法和系统
CN107577771A (zh) * 2017-09-07 2018-01-12 北京海融兴通信息安全技术有限公司 一种大数据挖掘系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092837A (zh) * 2017-04-25 2017-08-25 华中科技大学 一种支持差分隐私的频繁项集挖掘方法和系统
CN107577771A (zh) * 2017-09-07 2018-01-12 北京海融兴通信息安全技术有限公司 一种大数据挖掘系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
彭敏,黄佳佳等: ""基于频繁项集的海量短文本聚类与主题抽取"", 《计算机研究与发展》 *
邝青青: ""基于个人隐私泄露的风险评估"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
黄佳佳: ""面向微博文本的主题探测与追踪研究"", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492435A (zh) * 2019-01-10 2019-03-19 贵州财经大学 基于数据开放共享的隐私泄露风险评估方法、装置及系统
CN109492435B (zh) * 2019-01-10 2022-03-08 贵州财经大学 基于数据开放共享的隐私泄露风险评估方法、装置及系统
CN110059502A (zh) * 2019-04-22 2019-07-26 鹏城实验室 隐私数据感知方法及装置
CN110059502B (zh) * 2019-04-22 2020-08-21 鹏城实验室 隐私数据感知方法及装置
CN113949514A (zh) * 2020-07-16 2022-01-18 中国电信股份有限公司 应用越权检测方法、装置和存储介质
CN113949514B (zh) * 2020-07-16 2024-01-26 中国电信股份有限公司 应用越权检测方法、装置和存储介质
CN112968873A (zh) * 2021-01-29 2021-06-15 上海竞动科技有限公司 一种用于隐私数据传输的加密方法和装置

Similar Documents

Publication Publication Date Title
CN108830106A (zh) 一种隐私数据提供方法及装置
Ahmad et al. A k-mean clustering algorithm for mixed numeric and categorical data
Chen et al. Purtreeclust: A clustering algorithm for customer segmentation from massive customer transaction data
Li et al. Using multidimensional clustering based collaborative filtering approach improving recommendation diversity
Sun et al. Ranking-based clustering of heterogeneous information networks with star network schema
CN104573130B (zh) 基于群体计算的实体解析方法及装置
Huang et al. Topic detection from large scale of microblog stream with high utility pattern clustering
CN112488716B (zh) 一种异常事件检测系统
CN107729466B (zh) 关系网络的构建方法、装置及电子设备
CN108595461A (zh) 兴趣探索方法、存储介质、电子设备及系统
CN109597858B (zh) 一种商户的分类方法及其装置和商户的推荐方法及其装置
Poddar et al. Author-aware aspect topic sentiment model to retrieve supporting opinions from reviews
KR20190128246A (ko) 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체
CN109388657A (zh) 数据处理方法、装置、计算机设备及存储介质
CN109102326A (zh) 一种基于大数据特征分析的云餐饮平台及分析方法
Alkhamees et al. Event detection from social network streams using frequent pattern mining with dynamic support values
Eravci et al. Location recommendations for new businesses using check-in data
JP2004532488A (ja) データバンク操作の性能を向上させるための統計モデル
CN103870489B (zh) 基于搜索日志的中文人名自扩展识别方法
Yang et al. Identifying points of interest using heterogeneous features
CN116595262A (zh) 商旅方案推荐方法、装置、电子设备及计算机存储介质
CN111598645A (zh) 一种融合随机森林与协同过滤二手房推荐方法
JP2006251975A (ja) テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置
CN110347922A (zh) 基于相似度的推荐方法、装置、设备和存储介质
CN110413770A (zh) 将群消息归类到群话题的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181116

RJ01 Rejection of invention patent application after publication