CN107886010A - 大数据环境下保护用户隐私的数据管理方法 - Google Patents
大数据环境下保护用户隐私的数据管理方法 Download PDFInfo
- Publication number
- CN107886010A CN107886010A CN201711396987.3A CN201711396987A CN107886010A CN 107886010 A CN107886010 A CN 107886010A CN 201711396987 A CN201711396987 A CN 201711396987A CN 107886010 A CN107886010 A CN 107886010A
- Authority
- CN
- China
- Prior art keywords
- data
- privacy
- user
- secret protection
- managing method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2107—File encryption
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
本发明涉及一种大数据环境下保护用户隐私的数据管理方法,包括:明确原始数据库中需要隐藏的用户隐私数据;将需要隐藏的隐私数据用随机数据替换,形成一个隐私保护表,同时建立一个随机数据与隐私数据相对应的隐私对应表;将所述隐私保护表和所述隐私对应表组成的隐私保护数据库替代原始数据库,供大数据分析使用。本发明在保证大数据的分析操作的同时,为原始数据提供方提供了保留了对自身重要数据的管理权,同时为保护用户隐私提供保障。
Description
技术领域
本发明涉及数据库管理的技术领域,尤其是指一种大数据环境下保护用户隐私的数据管理方法。
背景技术
大数据是一种战略资源,在当今社会和经济发展中发挥着越来越重要的作用,优化大数据环境可以为企业等带来巨大的经济效益。随着大数据技术的发展,电力企业迫切希望利用大数据技术挖掘自身电力数据的价值,为指导业务发展提供服务和支撑。
近年来,在《网络安全法》发布后,国家把公民个人隐私的保护提高到了法律的高度,公民的个人信息已构成了大数据的一个重要部分,因此对目前大数据业务的开展带来了很大的冲击。由于在大数据应用中,所有用户数据都保存在“大数据平台”中,以供分析比对。这种操作方式使得不同的数据所有者(电力企业的各业务部门)失去了对各自业务数据的“控制”能力,难以贯彻对用户隐私保护的承诺。而大数据平台也很难应对多家数据所有者的数据保护要求。
为了克服上述问题,现有中国发明专利(CN106254389A)公开了一种大数据安全管理方法及系统,包括:接收用户数据以及隐私设定需求,根据用户数据的来源生成该用户数据相应的用户标识;所述用户数据包括若干个逻辑模块;根据隐私设定需求对相应的逻辑模块进行加密;接收用户端的访问请求,访问请求包括筛选条件;从所有用户数据中筛选出符合筛选条件的用户数据为目标数据;将该目标数据所对应的用户标识匿名为匿名标识;将该匿名标识和目标数据发送至用户端。上述根据用户需求对部分逻辑模块进行加密,将用户隐私数据进行隐藏,并且对发送给用户端的用户标识进行匿名,因此避免了个人信息公开流通,但是这种加密的方式往往会对数据分析造成影响,使大数据分析结果“失真”,从而影响大数据分析的效果。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中在保护隐私数据的同时影响大数据分析效果的问题从而提供一种有效保护用户隐私数据且保证大数据分析效果的大数据环境下保护用户隐私的数据管理方法。
为解决上述技术问题,本发明的一种大数据环境下保护用户隐私的数据管理方法,对涉及用户隐私的数据进行防护处理,包括如下步骤:步骤S1:明确原始数据库中需要隐藏的用户隐私数据;步骤S2:将需要隐藏的隐私数据用随机数据替换,形成一个隐私保护表,同时建立一个随机数据与隐私数据相对应的隐私对应表;步骤S3:将所述隐私保护表和所述隐私对应表组成的隐私保护数据库替代所述原始数据库,供大数据分析使用。
在本发明的一个实施例中,所述隐私保护表中,将存在隐私数据的相关列的字段类型设置为varchar变长字符类型。
在本发明的一个实施例中,所述隐私保护数据库中建立随机值表,且所述随机值表中存储系统随机产生的多位字符。
在本发明的一个实施例中,所述多位字符的位数根据需要自行设定。
在本发明的一个实施例中,所述随机值表定期更新,用新的随机值替换所述隐私保护表和所述隐私对应表中的随机标识。
在本发明的一个实施例中,所述隐私数据保护库中替代隐私数据的随机值由系统按照顺序从所述随机值表中选取。
在本发明的一个实施例中,所述随机值由系统按照顺序从所述随机值表中选取时,在同一数据库中的随机值表中的随机标识循环使用。
在本发明的一个实施例中,所述隐私保护表允许自由访问,所述隐私对应表只允许业务部门访问。
在本发明的一个实施例中,所述业务部门对数据分析员提出的查询请求采取以下三种响应方式:拒绝反馈用户隐私数据;反馈用户隐私数据;仅反馈对隐私数据的处理结果。
在本发明的一个实施例中,所述数据分析人员通过所述原始数据库直接访问各个隐私保护数据库中的公开数据和所述隐私保护表,并在资源池中对数据进行处理。
本发明的上述技术方案相比现有技术具有以下优点:
本发明所述的大数据环境下保护用户隐私的数据管理方法,在大数据应用的背景下,利用隐私数据和随机数据与隐私数据相对应的隐私对应表保护用户隐私数据,通过保护所述隐私对应表实现对隐私数据的保护,并为业务数据的所有者保留其对数据的管理权限提供了一种有效的解决方案。
在保证大数据分析效果的同时,本发明通过将原始数据库中重要用户的隐私数据转化为无意义的随机数据标识实现对用户隐私的保护,其中无意义的随机数据标识可隐藏用户隐私;通过将随机数据标识进行动态更新,防止用户隐私被通过推理的方式泄露。
在原始数据库中统一保存各业务部门数据,为众多数据分析人员提供基础数据的环境下,通过所述隐私保护表和隐私对应表的设计允许数据的所有者随意指定需要保护的隐私数据。同时,还允许业务部门以表格为单位细粒度的划分隐私数据的读取权限。
通过随机数据标识的设计和定期重新生成随机值表及隐私数据库的机制,防止被数据分析人员通过分析比对,猜测被随机数据替代隐私数据的风险。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明大数据环境下保护用户隐私的数据管理方法流程图;
图2是本发明大数据平台中隐私保护数据库的管理。
具体实施方式
如图1所示,本实施例提供一种大数据环境下保护用户隐私的数据管理方法,对涉及用户隐私的数据进行防护处理,包括如下步骤:步骤S1:明确原始数据库中需要隐藏的用户隐私数据;步骤S2:将需要隐藏的隐私数据用随机数据替换,形成一个隐私保护表,同时建立一个随机数据与隐私数据相对应的隐私对应表;步骤S3:将所述隐私保护表和所述隐私对应表组成的隐私保护数据库替代所述原始数据库,供大数据分析使用。
本实施例所述大数据环境下保护用户隐私的数据管理方法,对涉及用户隐私的数据进行防护处理,包括如下步骤:所述步骤S1中,明确原始数据库中需要隐藏的用户隐私数据,允许数据的所有者随意指定需要保护的隐私数据;所述步骤S2中,将需要隐藏的隐私数据用随机数据替换,形成一个隐私保护表,由于用户的隐私数据转化为无意义的随机数据标识,实现了隐藏用户的隐私,同时建立一个随机数据与隐私数据相对应的隐私对应表,以方便后期查询,从而实现了对用户隐私的保护;所述步骤S3中,将所述隐私保护表和所述隐私对应表组成的隐私保护数据库替代所述原始数据库,供大数据分析使用,保证了大数据的分析操作,为原始数据提供方提供了保留了对自身重要数据的管理权,并且为保护用户隐私提供了保障。
下面以原始数据库中的一个原表格Table1为例详细介绍如何形成隐私保护表以及建立隐私对应表:
先将原表格Table1的数据复制到隐私保护表Table 1`中,再将需要隐藏的隐私数据用随机值进行替换(表中加粗标记部分),具体地,若原表格Table1中的V21、V22、V23、V24、V32、V42、V44这七组数据需要隐藏,对应在隐私保护表中,这七组数据对应的位置分别替换为S1、S2、S3、S4、S5、S6、S7,同时新建一个随机数据标识与真实隐私数据的隐私对应表Table1s,即:所述S1对应V21、所述S2对应V22、所述S3对应V23、所述S4对应V24、所述S5对应V32、所述S6对应V42、所述S7对应V44,从而方便后期查询,如下表所示:
每个存在需要保护隐私数据的表格都进行上述处理,使新生成的隐私保护表Table 1`和所述隐私对应表Table 1s组成新的数据库:隐私保护数据库,并把新的隐私保护数据库提交给所述原始数据库中,以供大数据分析。在所述隐私保护数据库中所述隐私保护表Table 1`允许自由访问,而所述隐私对应表Table 1s只允许业务部门访问。当对原始数据库中进行数据分析需要使用相关数据时,则必须将访问请求提交给业务部门,由业务部门根据情况决定是否将原始数据反馈给查询者,或者只反馈比对或统计结果。
在新生成所述隐私保护表Table 1`时,存在隐私数据的列往往需要修改字段类型,为与原始字段类型兼容,所述隐私保护表中,将存在隐私数据的相关列的字段类型设置为varchar变长字符类型(其中varchar指数据库管理系统中可以保存字母和数字的字段(或列)的数据类型)。
为防止在利用随机值时出现重复,所述隐私保护数据库中建立随机值表,且所述随机值表中存储系统随机产生的多位字符。具体地,为与所述原始数据库中存储的一般数据相区分,替代隐私数据的随机标识以‘S$_’作为开头,其后的随机值默认为8位字符(取值范围:A~Z、a~z、0~9),如所述随机值表中存放系统随机产生的8位字符,并通过建立主键索引的方式防止出现重复值。为防止数据分析人员通过对所述隐私保护数据库的数据进行分析比对,猜测被随机数据替代的隐私数据,所述随机值表定期更新,用新的随机值替换所述隐私保护表和所述隐私对应表中的随机标识。所述隐私数据保护库中替代隐私数据的随机值由系统按照顺序从所述随机值表中选取。具体地,所述随机值由系统按照顺序从所述随机值表中选取时,在同一数据库中的随机值表中的随机标识循环使用,但是,不允许在同一个表中循环使用随机值表中的随机值。当所示随机值表中的随机值无法满足系统使用时,所述多位字符的位数根据需要自行设定(如:16位、32位等)。
在本方案中,各业务部门产生的隐私保护数据库虽然统一保存在所述原始数据库中,但管理和维护工作由各业务部门自行负责。其中各业务部门对各自的隐私保护数据库拥有完整的管理权限,允许公开哪些数据,保护那些隐私数据,在哪种情况下对哪些数据分析人员开放哪些用户隐私数据,都由各业务部门自行决定。具体的,所述隐私保护表允许自由访问,所述隐私对应表只允许业务部门访问。另外,业务部门对隐私保护数据库的授权管理可以进一步细化。如:对不同的隐私对应表指定读权限,仅允许本部门指定的管理员对所述随机值表和隐私对应表同时拥有读写权限。数据分析人员可以通过所述原始数据库直接访问各个隐私保护数据库中的公开数据和所述隐私保护表,并在资源池中对数据进行处理。如图2所示,对于多个业务部门通过各自的原始数据库直接访问所述隐私保护数据库,如业务部门1通过原始数据库1直接访问隐私保护数据库1,业务部门2通过原始数据库2直接访问隐私保护数据库2,业务部门3通过原始数据库3直接访问隐私保护数据库3,业务部门4通过原始数据库4直接访问隐私保护数据库4;而各个数据分析人员可以直接访问各个隐私保护数据库中的公开数据和所述隐私保护表,并在资源池中对数据进行处理。
各业务部门对数据分析员提出的查询请求可以采取如下几种响应方式:方式一:拒绝反馈用户隐私数据。具体地,当数据分析人员未获得查询用户隐私数据的授权;或重要用户的隐私数据极其敏感,不宜向业务部之外的人员扩散时,应拒绝数据分析人员的用户隐私数据查询请求。方式二:反馈用户隐私数据。具体地,在确保相关隐私数据仅在小范围内临时使用,且不会向无关人员泄露的前提下,可以将部分用户隐私数据反馈给数据分析人员。方式三:仅反馈对隐私数据的处理结果。具体地,接受包含用户隐私数据的数据处理请求,在不泄露用户隐私数据和用户敏感属性关联关系的前提下,仅将处理结果反馈给数据分析人员。其中相关的数据处理请求包括:数据比对结果、数据统计结果、涉及用户隐私数据的跨表关联查询结果等。
本实施例中,所述隐私数据可以是数据库中的一张表,可以是某个表中的一列数据,也可以是某个表中的一条记录或一条记录的某个值。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种大数据环境下保护用户隐私的数据管理方法,对涉及用户隐私的数据进行防护处理,其特征在于,包括如下步骤:
步骤S1:明确原始数据库中需要隐藏的用户隐私数据;
步骤S2:将需要隐藏的隐私数据用随机数据替换,形成一个隐私保护表,
同时建立一个随机数据与隐私数据相对应的隐私对应表;
步骤S3:将所述隐私保护表和所述隐私对应表组成的隐私保护数据库替代所述原始数据库,供大数据分析使用。
2.根据权利要求1所述大数据环境下保护用户隐私的数据管理方法,其特征在于:所述隐私保护表中,将存在隐私数据的相关列的字段类型设置为varchar变长字符类型。
3.根据权利要求2所述大数据环境下保护用户隐私的数据管理方法,其特征在于:所述隐私保护数据库中建立随机值表,且所述随机值表中存储系统随机产生的多位字符。
4.根据权利要求3所述大数据环境下保护用户隐私的数据管理方法,其特征在于:所述多位字符的位数根据需要自行设定。
5.根据权利要求3所述大数据环境下保护用户隐私的数据管理方法,其特征在于:所述随机值表定期更新,用新的随机值替换所述隐私保护表和所述隐私对应表中的随机标识。
6.根据权利要求5所述大数据环境下保护用户隐私的数据管理方法,其特征在于:所述隐私数据保护库中替代隐私数据的随机值由系统按照顺序从所述随机值表中选取。
7.根据权利要求6所述大数据环境下保护用户隐私的数据管理方法,其特征在于:所述随机值由系统按照顺序从所述随机值表中选取时,在同一数据库中的随机值表中的随机标识循环使用。
8.根据权利要求1所述大数据环境下保护用户隐私的数据管理方法,其特征在于:所述隐私保护表允许自由访问,所述隐私对应表只允许业务部门访问。
9.根据权利要求8所述大数据环境下保护用户隐私的数据管理方法,其特征在于:所述业务部门对数据分析员提出的查询请求采取以下三种响应方式:拒绝反馈用户隐私数据;反馈用户隐私数据;仅反馈对隐私数据的处理结果。
10.根据权利要求9所述大数据环境下保护用户隐私的数据管理方法,其特征在于:所述数据分析人员通过所述原始数据库直接访问各个隐私保护数据库中的公开数据和所述隐私保护表,并在资源池中对数据进行处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711396987.3A CN107886010A (zh) | 2017-12-21 | 2017-12-21 | 大数据环境下保护用户隐私的数据管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711396987.3A CN107886010A (zh) | 2017-12-21 | 2017-12-21 | 大数据环境下保护用户隐私的数据管理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107886010A true CN107886010A (zh) | 2018-04-06 |
Family
ID=61772144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711396987.3A Pending CN107886010A (zh) | 2017-12-21 | 2017-12-21 | 大数据环境下保护用户隐私的数据管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107886010A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307510A (zh) * | 2020-11-02 | 2021-02-02 | 国网江苏省电力有限公司信息通信分公司 | 数据中台数据资产权限管理方法和管理系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294967A (zh) * | 2013-05-10 | 2013-09-11 | 中国地质大学(武汉) | 大数据挖掘下的用户隐私保护方法及系统 |
CN103488957A (zh) * | 2013-09-17 | 2014-01-01 | 北京邮电大学 | 一种关联隐私的保护方法 |
CN105447409A (zh) * | 2015-12-11 | 2016-03-30 | 清华大学 | 一种大数据隐私处理方法及装置 |
CN105577368A (zh) * | 2016-01-14 | 2016-05-11 | 西安电子科技大学 | 双向隐私保护的医疗诊断服务查询系统及方法 |
CN106936820A (zh) * | 2017-03-06 | 2017-07-07 | 桂林电子科技大学 | 数据变长修改方法及其在大数据加密中的应用 |
KR101775517B1 (ko) * | 2016-06-23 | 2017-09-06 | 한국전자통신연구원 | 빅데이터 보안 점검 클라이언트, 빅데이터 보안 점검 장치 및 방법 |
CN107211259A (zh) * | 2015-01-20 | 2017-09-26 | 三星电子株式会社 | 用于提高个人信息数据安全性的装置和方法 |
CN107347096A (zh) * | 2017-07-07 | 2017-11-14 | 安徽大学 | 一种基于云服务器的位置隐私保护方法 |
CN107483200A (zh) * | 2017-10-18 | 2017-12-15 | 成都鼎智汇科技有限公司 | 云计算大数据隐私保护方法 |
-
2017
- 2017-12-21 CN CN201711396987.3A patent/CN107886010A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294967A (zh) * | 2013-05-10 | 2013-09-11 | 中国地质大学(武汉) | 大数据挖掘下的用户隐私保护方法及系统 |
CN103488957A (zh) * | 2013-09-17 | 2014-01-01 | 北京邮电大学 | 一种关联隐私的保护方法 |
CN107211259A (zh) * | 2015-01-20 | 2017-09-26 | 三星电子株式会社 | 用于提高个人信息数据安全性的装置和方法 |
CN105447409A (zh) * | 2015-12-11 | 2016-03-30 | 清华大学 | 一种大数据隐私处理方法及装置 |
CN105577368A (zh) * | 2016-01-14 | 2016-05-11 | 西安电子科技大学 | 双向隐私保护的医疗诊断服务查询系统及方法 |
KR101775517B1 (ko) * | 2016-06-23 | 2017-09-06 | 한국전자통신연구원 | 빅데이터 보안 점검 클라이언트, 빅데이터 보안 점검 장치 및 방법 |
CN106936820A (zh) * | 2017-03-06 | 2017-07-07 | 桂林电子科技大学 | 数据变长修改方法及其在大数据加密中的应用 |
CN107347096A (zh) * | 2017-07-07 | 2017-11-14 | 安徽大学 | 一种基于云服务器的位置隐私保护方法 |
CN107483200A (zh) * | 2017-10-18 | 2017-12-15 | 成都鼎智汇科技有限公司 | 云计算大数据隐私保护方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307510A (zh) * | 2020-11-02 | 2021-02-02 | 国网江苏省电力有限公司信息通信分公司 | 数据中台数据资产权限管理方法和管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105681276B (zh) | 一种敏感信息泄露主动监控与责任认定方法与装置 | |
CN106789964B (zh) | 云资源池数据安全检测方法及系统 | |
CN107292183A (zh) | 一种数据处理方法及设备 | |
KR100696316B1 (ko) | 개인 정보 관리 방법 및 장치 | |
CN107315968A (zh) | 一种数据处理方法及设备 | |
CN109359480B (zh) | 一种面向数字图书馆的用户隐私保护方法及系统 | |
US20140164405A1 (en) | Dynamic data masking method and database system | |
CN106713347A (zh) | 一种电力移动应用越权访问漏洞检测方法 | |
CN111737703A (zh) | 一种基于动态数据脱敏技术的数据湖安全的实现方法 | |
CN107358122A (zh) | 一种存储数据的访问管理方法及系统 | |
CN114157457A (zh) | 一种网络数据信息安全用的权限申请及监控方法 | |
CN116049884A (zh) | 基于角色访问控制的数据脱敏方法、系统及介质 | |
CN107844708A (zh) | 面向装备管理业务的数据权限控制系统及其控制方法 | |
AU2011254219A1 (en) | System and method for controlling and monitoring access to data processing applications | |
Jain et al. | A relative study on different database security threats and their security techniques | |
Ikenwe et al. | Information security in the digital age: The case of developing countries | |
CN114205118B (zh) | 基于数据安全法范畴的数据访问控制分析方法 | |
CN107886010A (zh) | 大数据环境下保护用户隐私的数据管理方法 | |
Menascé | The insider threat security architecture: a framework for an integrated, inseparable, and uninterrupted self-protection mechanism | |
CN108959950A (zh) | 基于动态模糊化技术的隐私数据保护方法 | |
Turn et al. | Privacy and security in computer systems: The vulnerability of computerized information has prompted measures to protect both the rights of individual subjects and the confidentiality of research data bases | |
Romansky et al. | Cyber space features–security and data protection requirements | |
CN108600178A (zh) | 一种征信数据的安全保障方法及系统、征信平台 | |
Nanda et al. | Oracle Privacy Security Auditing: Includes Federal Law Compliance with HIPAA, Sarbanes Oxley and the Gramm Leach Bliley Act GLB | |
CN107895121A (zh) | 一种银行客户数据安全管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180406 |