CN113158252A - 一种基于深度学习的大数据隐私保护方法 - Google Patents
一种基于深度学习的大数据隐私保护方法 Download PDFInfo
- Publication number
- CN113158252A CN113158252A CN202110507079.7A CN202110507079A CN113158252A CN 113158252 A CN113158252 A CN 113158252A CN 202110507079 A CN202110507079 A CN 202110507079A CN 113158252 A CN113158252 A CN 113158252A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- privacy
- feature extractor
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大数据领域及计算机领域基于深度学习的大数据隐私保护方法,该方法的具体步骤如下S1通过众包方式采集用户数据;S2将采集的用户数据存入云数据库并进行格式统一;S3利用深度学习算法训练出一个特征提取器;S4对特征提取器设置变量因子λ并调整λ数值得到最优解;S5利用训练好的最优λ特征提取器从原始数据中提取特征;S6数据搜集器模块汇总提取后的数据中间表征。本发明通过提出来一个可以提供隐私保护的数据特征提取器,保证从数据中提取出的特征尽可能少的包含所需要保护的隐私信息,满足隐私安全性需求;同时保证提取的中间特征尽可能多的保留有效的信息,防止大数据时代用户个人信息被滥用。
Description
技术领域
本发明涉及大数据领域以及计算机技术领域,公开了大数据领域一种基于深度学习的大数据隐私保护方法。
背景技术
一方面随着科技的发展,大数据行业发展空前繁荣,但是近年来,各种信息泄露事件频繁发生,引发广泛社会关注。数据共享的时代背景下,如何在数据收集过程中加强隐私保护,防止个人信息被滥用,俨然已成为重要研究课题。,另一方面,计算机技术的发展,深度学习技术日益成为人工智能行业的主流。但深度学习技术依赖大数据集,既需要通过数据集提取特征来学习训练出高效的模型,也需要大量数据集来检验模型的效果。为了平衡大数据特征提取的有效性和个人隐私泄露之间的矛盾,我们提出了一种基于深度学习的大数据隐私保护方法投入使用,以解决上述问题。
发明内容
解决的技术问题
针对现有的大数据时代用户信息泄露严重,个人隐私保护难的情况,本发明的目的在于提供一种基于深度学习的的大数据隐私保护方法,具备在保证用户个人隐私信息不被泄露的同时兼顾数据集特征提取的有效性等优点,以解决上述背景技术中提出的问题。
本发明的技术方案如下:一种基于深度学习的大数据隐私保护方法包括应对众包数据采集模块、云数据库存储模块、特征提取器模块、数据搜集器模块。
所述众包数据采集模块,通过产业众包平台、个人分包、企业分包等形式搜集企业机构或个人的原始信息数据,其中包括但不限于文本、音频、视频等形式。
所述云数据库存储模块,根据上述规则每条收集到原始大数据信息进行规则划分,其划分包括对相似信息进行格式化统一分存入相应云数据库中,使业务者能够更快地理解和处理信息。
所述特征提取器模块,利用深度学习技术训练出一个特征提取器,将得到的原始大数据输入特征提取器中,提取出任务需要的数据有效特征。
所述数据搜集器模块,根据从原始数据中提取到的特征检验其有效性,将无效特征剔除,将剩余的有效特征提取。
优选的,云数据库存储系统采用安全性高,高并发量,动态获取延时低的AWS或Oracle。并通过大数据的分析、统计以及常规习惯将信息进行预先处理,采用第三方工具Matplotlib或finebi。
优选的,所述特征提取器模块通过引入可控参数λ来表示效用-隐私平衡因子,将特征有效性最大化和个人隐私泄露最小化两个目标结合起来,得到最终的目标函数。
优选的,所述数据搜集器模块无需传输原始数据,利用收集到的中间表征来训练深度学习DNN模型,保证无法逆向还原出准确的受保护隐私信息,这使得任何人无法从原始数据中获取用户个人隐私信息。
有益效果
与现有技术相比,本发明的有益效果是:通过上述技术方案本发明提供的一种基于深度学习的大数据隐私保护方法,学习一个特征提取器,隐藏中间表征中的隐私信息,同时最大限度地保留原始数据中嵌入的原始信息,以供数据收集器完成未知的学习任务。与现有的表示学习和对抗学习法相比在安全性和通用性上领先,达到数据特征学习效果和隐私保护两方面的相对平衡。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中需要使用的附图作简单地介绍,显而易见地,下面描述是本发明的一些附图。
图1为本发明方法流程图;
图2为本发明方法模块图;
图3为本发明算法的数学公式原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图2所示,本发明提供的一种基于深度学习的大数据隐私保护方法,包括众包数据采集模块、云数据库存储模块、特征提取器模块、数据搜集器模块。
所述众包数据采集模块,采集到的用户大数据主要来源于众包数据平台、个人众包以及企业及机构众包,采集到的用户数据中不可避免地包含用户个人隐私信息,在获取个人数据的过程中尽可能多地保留原始信息,不对数据进行任何处理,并制定详细的众包采集方案。
所述云数据库存储模块,将原始数据集存入分布式云数据库优先采用例如Oracle或AWS中以便实时动态调用数据,数据库需要建立严格的防信息泄漏机制,保证用户隐私信息在存储阶段不被攻击者获取。并通过大数据的分析、统计以及常规习惯将信息进行预先处理,采用第三方工具Matplotlib或finebi。
所述特征提取器模块,目标有两个一是提取出的特征尽可能少的包含所需要保护的隐私信息,满足安全性需求;二是在目标任务未知的情况下,所提取的中间特征尽可能多的保留原有的信息。不影响数据集学习训练的效果。并且利用互信息(mutualinformation)思想,通过理论推导,将两个目标转化为最优化问题,目标一最小化提取到的特征和隐私信息的互信息也就是它们的交集尽可能小,目标二最大化原始数据和提取特征、隐私属性的联合分布之间的互信息。通过引入可控参数λ来表示效用-隐私预算,将两个目标结合起来,得到最终的目标函数。λ因子作为一个控制变量因子,范围在0到1之间,λ越大表示隐私保护程度越高,λ越小表示特征提取有效性越高,这样通过控制λ大小得到最优解实现两种的平衡。
所述数据搜集器模块,采用混合学习算法(hybrid learning method)汇总经特征提取器模块提取出的数据中间表征,用于后续的任何目的的深度学习任务具备通用性,同时实现无法通过算法还原用户个人隐私信息。
如图1方法流程图所示,该方法包括:S1通过众包方式采集用户数据;S2将采集的用户数据存入云数据库并进行格式统一;S3利用深度学习算法训练出一个特征提取器;S4对特征提取器设置变量因子λ并调整λ数值得到最优解;S5利用训练好的最优λ特征提取器从原始数据中提取特征;S6数据搜集器模块汇总提取后的数据中间表征。
图3为数学分析模型的原理图,该图详细展示了特征提取器的数学公式和原理,基于该原理实现特征提取器的两个目标:一、提取出的特征尽可能少包含需要保护的隐私信息,二、在目标任务未知的情况下提取的中间特征尽可能多地保留原有信息,不影响数据集学习训练效果。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (7)
1.一种基于深度学习的大数据隐私保护方法,包括众包数据采集模块、云数据库存储模块、特征提取器模块、数据搜集器模块;
所述众包数据采集模块,根据现有的用户数据搜集途径通过个人分包、公司分包、机构分包以及各类数据众包平台实现用户数据的搜集工作。
所述云数据库存储模块,用于将每条收集到大数据信息进行规则划分,其划分包括对相似信息进行格式化统一分存入相应云数据库中。
2.所述特征提取器模块运用了深度学习算法,利用互信息Mutual information思想,目标转化为最优化问题,目标一最小化提取到的特征和隐私信息的互信息也就是它们的交集尽可能小,目标二最大化原始数据和提取特征、隐私属性的联合分布之间的互信息。
3.所述数据搜集器模块,汇总经特征提取器模块提取出的数据中间表征可用于后续的任何目的的深度学习任务,具备通用性,同时实现无法通过算法逆向还原用户个人隐私信息。
4.优选的,云数据库系统采用安全性高,高并发量,动态获取延时低的AWS或Oracle。
5.优选的,所述云数据库存储模块通过大数据的分析、统计以及常规习惯将信息进行预先处理,采用第三方工具Matplotlib或finebi。
6.优选的,所述数据搜集器模块采用混合学习算法Hybrid learning method。
7.优选的,所述特征提取器模块采用引入可控参数因子λ来表示效用-隐私预算,关联两个最优化目标,通过控制λ大小得到最优解实现两种目标的平衡。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110507079.7A CN113158252A (zh) | 2021-05-10 | 2021-05-10 | 一种基于深度学习的大数据隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110507079.7A CN113158252A (zh) | 2021-05-10 | 2021-05-10 | 一种基于深度学习的大数据隐私保护方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113158252A true CN113158252A (zh) | 2021-07-23 |
Family
ID=76874200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110507079.7A Withdrawn CN113158252A (zh) | 2021-05-10 | 2021-05-10 | 一种基于深度学习的大数据隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113158252A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113672985A (zh) * | 2021-08-25 | 2021-11-19 | 支付宝(杭州)信息技术有限公司 | 用于隐私保护的机器学习算法脚本编译方法和编译器 |
-
2021
- 2021-05-10 CN CN202110507079.7A patent/CN113158252A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113672985A (zh) * | 2021-08-25 | 2021-11-19 | 支付宝(杭州)信息技术有限公司 | 用于隐私保护的机器学习算法脚本编译方法和编译器 |
CN113672985B (zh) * | 2021-08-25 | 2023-11-14 | 支付宝(杭州)信息技术有限公司 | 用于隐私保护的机器学习算法脚本编译方法和编译器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991568B (zh) | 目标识别方法、装置、设备和存储介质 | |
CN111475848B (zh) | 保障边缘计算数据隐私的全局和局部低噪声训练方法 | |
Tian et al. | User and entity behavior analysis under urban big data | |
CN102571746A (zh) | 一种面向云计算环境侧通道攻击防御的虚拟机部署方法 | |
CN109800600A (zh) | 面向保密需求的海洋大数据敏感度评估系统及防范方法 | |
CN112990583B (zh) | 一种数据预测模型的入模特征确定方法及设备 | |
CN113704410B (zh) | 情绪波动检测方法、装置、电子设备及存储介质 | |
CN108959958A (zh) | 一种关联大数据的隐私保护方法及系统 | |
CN111475838A (zh) | 基于深度神经网络的图数据匿名方法、装置、存储介质 | |
Hindistan et al. | A hybrid approach with gan and dp for privacy preservation of iiot data | |
CN113158252A (zh) | 一种基于深度学习的大数据隐私保护方法 | |
Terumalasetti et al. | A comprehensive study on review of AI techniques to provide security in the digital world | |
CN107944287A (zh) | 一种dem几何精度脱密与恢复方法 | |
CN110019070A (zh) | 一种基于Hadoop的安全日志聚类方法与追责系统 | |
CN114595635A (zh) | 火电机组主汽温度数据的特征选择方法、系统及设备 | |
Shen et al. | Concerned or Apathetic? Exploring online public opinions on climate change from 2008 to 2019: A Comparative study between China and other G20 countries | |
Chen et al. | Qualitative rules mining and reasoning based on cloud model | |
CN116992274A (zh) | 基于改进主成分回归模型的短期风速预测方法及系统 | |
CN103065047A (zh) | 基于恐怖组织背景知识子空间的恐怖行为预测方法 | |
Li et al. | Research and simulation of network security situation prediction algorithm | |
CN114495137A (zh) | 票据异常检测模型生成方法与票据异常检测方法 | |
Ke et al. | Aq-dp: a new differential privacy scheme based on quasi-identifier classifying in big data | |
Wang et al. | An anomaly detection model based on cloud model and danger theory | |
Lande et al. | The analysis of cybersecurity subject area terms based on the information diffusion model | |
Wu et al. | A Study on the User Privacy-Preserving Personalized Recommendation Based on Random Perturbation for online Services in the Background of Big Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210723 |
|
WW01 | Invention patent application withdrawn after publication |