CN104866775A - 一种金融数据的漂白方法 - Google Patents
一种金融数据的漂白方法 Download PDFInfo
- Publication number
- CN104866775A CN104866775A CN201510323813.9A CN201510323813A CN104866775A CN 104866775 A CN104866775 A CN 104866775A CN 201510323813 A CN201510323813 A CN 201510323813A CN 104866775 A CN104866775 A CN 104866775A
- Authority
- CN
- China
- Prior art keywords
- data
- bleaching
- database
- finance
- business
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2107—File encryption
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了一种金融数据的数据漂白方法,包括以下步骤:1)测试中心提交数据需求;2)将数据从生产环境的带库恢复到磁盘上,同时将数据文件加载到数据库中进行数据抽取;3)根据测试中心数据需求进行数据漂白;4)待数据漂白完成后将数据库导出成数据文件并将数据文件加密后发送给测试中心;5)测试中心将得到的数据文件进行装载。本发明的方法可对在非生产环境中将涉及个人隐私或其它需要保护的敏感金融业务数据,进行移除、屏蔽以及转换,将敏感数据进行脱敏处理,以达到对其保护的目的。
Description
技术领域
本发明涉及信息安全领域,特别涉及一种金融数据的漂白方法。
背景技术
随着信息时代的到来,人们几乎可以从任何位置访问各种信息。因此,付账、访问账户信息、购买等活动变得非常容易,人们足不出户就可以完成。但随之而来的信息安全问题越来越突出,收集、管理、存储的各种信息已经成为各种居心不良的人的主要目标,个人信息的倒卖已经成为一个灰色的产业链条。确保机密数据在整个企业内的安全已经成为关键的企业问题,特别是金融行业的个人信息资料最全,保存有海量的个人信息资料。
现在国内的银行都注重业务,至于信息系统的开发维护都交给软件外包公司去做,下面的几种情况就有可能造成个人资料外泄。
① 银行将核心业务的外围系统承包给某软件外包公司;
② 系统开发完成后需要海量数据作系统的性能测试;
③ 银行将生产环境上的备份数据库拷贝一份给开发商用于作性能测试;
④ 有人拿到数据后倒卖给了别人。
目前国内的银行生产数据到测试数据没有经过脱敏、变形处理而直接加载到测试环境, 这将存在泄漏客户信息的风险并严重违反监管机构的要求。根据银监会《银行业金融机构重要信息系统投产及变更管理办法》第二十二条规定“银行业金融机构应加强重要信息系统投产及变更过程中的数据管理与质量控制,测试环境中使用的敏感生产数据应进行脱敏、变形处理”,所以客户信息数据脱敏、变形工作迫在眉睫。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种金融数据的数据漂白方法,在非生产环境中将涉及个人隐私或其它需要保护的敏感业务数据,进行移除、屏蔽以及转换,将敏感数据进行脱敏处理,以达到对其保护的目的。
为了实现上述发明目的,本发明提供了以下技术方案:
一种金融数据的数据漂白方法,包括以下步骤:
1)测试中心提交数据需求;
2)将数据从生产环境的带库恢复到磁盘上, 同时将数据文件加载到数据库中进行数据抽取;
3)根据测试中心数据要求进行数据漂白;
4)待数据漂白完成后将数据库导出成数据文件并将数据文件加密后发送给测试中心;
5)测试中心将得到的数据文件进行装载。
优选的,所述步骤3)中数据漂白对于业务语义关联性的数据具体采用以下步骤:
a. 利用Base64对需要加密的字符串进行编码,生成无意义的Base64字符串;
b.利用凯撒加密方式对Base64字符串进行漂白。
优选的,所述业务语义关联性的数据为数据库的外键、数据库的主键、社保编号、身份证号。
优选的,所述步骤3)中数据漂白对于无业务语义关联性的数据采用随机数替换方式。
优选的,所述无业务语义关联性的数据为手机号码、电话号码、公司地址、家庭住址。
与现有技术相比,本发明的有益效果:
1. 可以实现金融数据的去隐私化与保持真实性:数据漂白的基本原则是对隐私数据进行脱敏处理,然而过度的处理往往会带来负面的问题:数据失去了原有的格式以及含义,不满足测试对数据保持仿真度的要求。本发明的数据漂白方法在脱敏保证数据安全的同时,也保持了原来业务数据的特点,能保证其在测试场景中的可用性;
2. 可以保持业务规则与漂白通用性:保证数据业务规则不变是数据漂白的基本要求,包括:保持漂白数据的数据关联性以及业务语义不变等。其中数据关联性包括主外键关联性、关联字段的业务语义关联性等。总体上来讲,业务规则是千变万化的,数据漂白需要根据不同的漂白需求设计不同的漂白流程,但如果数据漂白方案设计没有考虑通用性,会带来管理上的问题以及不能适应漂白需求的变化,最终导致数据漂白项目不可控。本发明的方法综合考虑业务规则以及漂白通用性,解决了上述问题;
3. 实现了漂白结果一致性与不可逆需求:在数据漂白项目中,同样的数据进行多遍漂白的情况是很常见的:因此保证不同漂白过程中漂白结果的一致很重要,而做到漂白结果最理想情况是能做到数据值的一一映射。然而实现一一映射却会带来另外一个问题:被变形的数据有可能会被逆转,得到真实的原始数据,从而失去数据漂白的意义。综合考虑这两个因素,本发明的方法将实现数据映射规则和实施数据漂白分开,设计时实现映射算法并保证算法的不可被逆推,保证在有效取值范围内实现一一映射,同时保留外部能影响映射的参数。而在实施数据漂白时才指定控制参数,进而得到唯一的映射规则。
附图说明
图1为本发明数据漂白的示意图
图2为本发明数据漂白方法中的凯撒加密+Base64加密过程
图3为本发明无业务语义关联性的数据住址码表的示意图
图4为本发明数据漂白方法的具体流程图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
如图1所示,数据漂白 ( 又叫数据脱敏或数据变形 ) 是指在非生产环境中将涉及个人隐私或其它需要保护的敏感业务数据,进行移除、屏蔽以及转换的一系列系统过程,目的是将敏感数据进行脱敏处理,以达到对其保护的目的。金融行业中的敏感数据通常被视为敏感的业务数据,包含客户个人隐私数据以及某些关键的敏感业务数据,具体包括:
1.名称类: 如客户姓名、客户名等;
2.证件类: 如身份证号码等;
3.联系方式类: 如联系电话号、手机号、地址等;
4.密码类: 如查询密码、取款密码、柜员密码;
5.资金类: 如存款金额、贷款金额等;
6.时间日期类: 如生日等。
本发明的数据漂白方法采用了两种数据漂白算法,对于不同的业务数据可以选择不同的算法:
(1)凯撒加密+Base64算法
需要进行数据漂白的数据可以分为两大类:有业务语义关联性的数据和无业务语义关联性的数据。有业务语义关联性的数据一般是指与其它字段有关联的数据,例如:数据库的外键,数据库的主键,社保编号,身份证号等等。本发明采用基于凯撒加密+Base64的算法,比较适用于有业务语义关联性的数据。
凯撒加密(Caesar cipher)是一种简单的消息编码方式:它根据字母表将消息中的每个字母移动常量位k。举个例子如果k等于3,则在编码后的消息中,每个字母都会向前移动3位:a会被替换为d;b会被替换成e;依此类推。字母表末尾将回卷到字母表开头。于是,w会被替换为z,x会被替换为。但是这种方式太过简单,根据字母使用频度表,分析密文中的字母频率,将其对照即可破解。不仅如此,凯撒加密对加密数据也是有要求的,一般情况下,它只支持对基本的英文字母进行加密,不能支持对中文等亚太地区的文字进行加密。虽然可以扩展这个算法,使它支持所有的文字,这么做是可行的,如果采用同余式的方式实现,只要字符集本身是Unicode就可以了。但是这种加密的安全性很难满足应用的要求。如果采用单字母替换的方式,程序将需要构建两个巨大的字符数组去保存他们的映射关系,并且扩展性也不好。本发明采用的是一种基于凯撒加密+Base64的算法,如图2所示,加密步骤如下:
1.利用Base64对需要加密的字符串进行编码,生成毫无意义的Base64 String。
2.利用凯撒加密方式对Base64 String进行漂白。
例如银行客户的身份证号码是511381198787123123,经过base64编码技术将身份证号码编码为NTExMzgxMTk4Nzg3MTIzMTIzIQ==,再经过凯撒加密技术经过系统的密文表将base64位编码加密为OYPqKhbqKYt4Ohb3KYJhKYJhJR==。OYPqKhbqKYt4Ohb3KYJhKYJhJR==即漂白后的身份证号码。经过此次数据漂白,不仅保存了客户资料的隐私性,还能保持数据库的外键映射关系。
(2)随机算法
无业务语义关联性的数据(手机号码、电话号码、公司地址,家庭住址等)一般没有对数据的还原要求也没有保持数据库的映射关系要求,并且这类数据要具有可读性。对于这类数据可以采用随机数替换,如18721773207,可以采取把187后面的数字随机换掉,公司地址、家庭地址之类的数据可以构建一张地址表,并从这张地址表中随机选择一个地址替换,如图3所示是一个地址码表示例。
数据漂白流程跟ETL一致,ETL是数据抽取(Extract〕、清洗(Cleaning)、转换(Transform)、装载( Load) 的过程,如图4所示,本发明的数据漂白方法的具体流程如下:
1)测试中心提交数据需求;
2)将数据从生产环境的带库恢复到磁盘上, 同时将数据文件加载到数据库中进行数据抽取;
3)根据测试中心数据需求进行数据漂白;
4)待数据漂白完成后将数据库导出成数据文件并将数据文件加密后发送给测试中心;
5)测试中心将得到的数据文件进行装载。
Claims (5)
1.一种金融数据的数据漂白方法,其特征在于,包括以下步骤:
1)测试中心提交数据需求;
2)将数据从生产环境的带库恢复到磁盘上, 同时将数据文件加载到数据库中进行数据抽取;
3)根据测试中心数据需求进行数据漂白;
4)待数据漂白完成后将数据库导出成数据文件并将数据文件加密后发送给测试中心;
5)测试中心将得到的数据文件进行装载。
2.根据权利要求1所述的金融数据的数据漂白方法,其特征在于,所述步骤3)中数据漂白对于业务语义关联性的数据具体采用以下步骤:
a. 利用Base64对需要加密的字符串进行编码,生成无意义的Base64字符串;
b.利用凯撒加密方式对Base64字符串进行漂白。
3.根据权利要求2所述的金融数据的数据漂白方法,其特征在于,所述业务语义关联性的数据为数据库的外键、数据库的主键、社保编号、身份证号。
4.根据权利要求1所述的金融数据的数据漂白方法,其特征在于,所述步骤3)中数据漂白对于无业务语义关联性的数据采用随机数替换方式。
5.根据权利要求4所述的金融数据的数据漂白方法,其特征在于,所述无业务语义关联性的数据为手机号码、电话号码、公司地址、家庭住址。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510323813.9A CN104866775A (zh) | 2015-06-12 | 2015-06-12 | 一种金融数据的漂白方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510323813.9A CN104866775A (zh) | 2015-06-12 | 2015-06-12 | 一种金融数据的漂白方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104866775A true CN104866775A (zh) | 2015-08-26 |
Family
ID=53912597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510323813.9A Pending CN104866775A (zh) | 2015-06-12 | 2015-06-12 | 一种金融数据的漂白方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104866775A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105590066A (zh) * | 2015-12-02 | 2016-05-18 | 中国银联股份有限公司 | 不泄露隐私的大数据安全融合方法 |
CN105653981A (zh) * | 2015-12-31 | 2016-06-08 | 中国电子科技网络信息安全有限公司 | 大数据平台的数据流通与交易的敏感数据保护系统及方法 |
CN106355105A (zh) * | 2016-08-30 | 2017-01-25 | 安徽易联众信息技术有限公司 | 银联社保卡个人信息加密方法 |
CN106407843A (zh) * | 2016-10-17 | 2017-02-15 | 深圳中兴网信科技有限公司 | 数据脱敏方法和数据脱敏装置 |
CN106991337A (zh) * | 2017-04-06 | 2017-07-28 | 北京数聚世界信息技术有限公司 | 一种出生日期数据的脱敏方法及装置 |
CN107563219A (zh) * | 2017-08-28 | 2018-01-09 | 深圳市华傲数据技术有限公司 | 一种数据库管理方法及装置 |
CN108416229A (zh) * | 2018-03-21 | 2018-08-17 | 西安电子科技大学 | 一种针对类别信息的数据脱敏方法 |
CN109698839A (zh) * | 2019-02-21 | 2019-04-30 | 湖南智远数通科技股份有限公司 | 一种基于非对称算法的脱敏数据比对方法及装置 |
CN110138792A (zh) * | 2019-05-21 | 2019-08-16 | 上海市疾病预防控制中心 | 一种公共卫生地理数据去隐私处理方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120047552A1 (en) * | 2005-11-23 | 2012-02-23 | Beyondcore, Inc. | Dynamically updated secure handling of documents containing restricted information |
CN103177007A (zh) * | 2011-12-22 | 2013-06-26 | 中国移动通信集团公司 | 去隐私化处理方法和装置 |
-
2015
- 2015-06-12 CN CN201510323813.9A patent/CN104866775A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120047552A1 (en) * | 2005-11-23 | 2012-02-23 | Beyondcore, Inc. | Dynamically updated secure handling of documents containing restricted information |
CN103177007A (zh) * | 2011-12-22 | 2013-06-26 | 中国移动通信集团公司 | 去隐私化处理方法和装置 |
Non-Patent Citations (3)
Title |
---|
余笑轩 等: ""一种基于Caesar密码的数据加密算法的研究"", 《计算机安全》 * |
刘杨: ""基于iOS的Base64和3DES加密的研究和实现"", 《计算机安全》 * |
许中华 等: ""商业银行生产数据漂白设计与实现"", 《现代经济信息》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105590066A (zh) * | 2015-12-02 | 2016-05-18 | 中国银联股份有限公司 | 不泄露隐私的大数据安全融合方法 |
CN105590066B (zh) * | 2015-12-02 | 2018-08-10 | 中国银联股份有限公司 | 不泄露隐私的大数据安全融合方法 |
CN105653981B (zh) * | 2015-12-31 | 2018-11-30 | 中国电子科技网络信息安全有限公司 | 大数据平台的数据流通与交易的敏感数据保护系统及方法 |
CN105653981A (zh) * | 2015-12-31 | 2016-06-08 | 中国电子科技网络信息安全有限公司 | 大数据平台的数据流通与交易的敏感数据保护系统及方法 |
CN106355105A (zh) * | 2016-08-30 | 2017-01-25 | 安徽易联众信息技术有限公司 | 银联社保卡个人信息加密方法 |
CN106355105B (zh) * | 2016-08-30 | 2018-12-28 | 安徽易联众信息技术有限公司 | 银联社保卡个人信息加密方法 |
CN106407843A (zh) * | 2016-10-17 | 2017-02-15 | 深圳中兴网信科技有限公司 | 数据脱敏方法和数据脱敏装置 |
CN106991337A (zh) * | 2017-04-06 | 2017-07-28 | 北京数聚世界信息技术有限公司 | 一种出生日期数据的脱敏方法及装置 |
CN106991337B (zh) * | 2017-04-06 | 2019-10-22 | 北京数聚世界信息技术有限公司 | 一种出生日期数据的脱敏方法及装置 |
CN107563219A (zh) * | 2017-08-28 | 2018-01-09 | 深圳市华傲数据技术有限公司 | 一种数据库管理方法及装置 |
CN107563219B (zh) * | 2017-08-28 | 2020-04-24 | 深圳市华傲数据技术有限公司 | 一种数据库管理方法及装置 |
CN108416229A (zh) * | 2018-03-21 | 2018-08-17 | 西安电子科技大学 | 一种针对类别信息的数据脱敏方法 |
CN108416229B (zh) * | 2018-03-21 | 2022-05-03 | 西安电子科技大学 | 一种针对类别信息的数据脱敏方法 |
CN109698839A (zh) * | 2019-02-21 | 2019-04-30 | 湖南智远数通科技股份有限公司 | 一种基于非对称算法的脱敏数据比对方法及装置 |
CN109698839B (zh) * | 2019-02-21 | 2021-07-06 | 湖南智远数通科技股份有限公司 | 一种基于非对称算法的脱敏数据比对方法及装置 |
CN110138792A (zh) * | 2019-05-21 | 2019-08-16 | 上海市疾病预防控制中心 | 一种公共卫生地理数据去隐私处理方法及系统 |
CN110138792B (zh) * | 2019-05-21 | 2020-01-14 | 上海市疾病预防控制中心 | 一种公共卫生地理数据去隐私处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104866775A (zh) | 一种金融数据的漂白方法 | |
Woodside et al. | Blockchain technology adoption status and strategies | |
WO2017162113A1 (zh) | 一种风险信息输出、风险信息构建方法及装置 | |
CN105337928B (zh) | 用户身份识别方法、安全保护问题生成方法及装置 | |
CN107145799A (zh) | 一种数据脱敏方法及装置 | |
US20210256154A1 (en) | Batch tokenization service | |
US20220261395A1 (en) | Multi-table data validation tool | |
US11373006B2 (en) | Processing system using natural language processing for performing dataset filtering and sanitization | |
CN112036995A (zh) | 基于区块链的大型企业财务数据管理方法、系统和可读存储介质 | |
CN113032001B (zh) | 一种智能合约分类方法及装置 | |
CN104391865A (zh) | 一种基于触发器原理实现操作日志记录的方法 | |
US20240320373A1 (en) | Synthesizing user transactional data for de-identifying sensitive information | |
CN114547204A (zh) | 数据同步方法、装置、计算机设备和存储介质 | |
CN111639179B (zh) | 一种银行前端查询系统批量客户信息隐私控制方法和装置 | |
CN113095507A (zh) | 机器学习模型进行训练、预测的方法、装置、设备及介质 | |
CN117574425A (zh) | 用于数据库的数据脱敏方法、系统、存储介质及设备 | |
CN112613065A (zh) | 一种基于差分隐私保护的数据共享方法及装置 | |
CN115146319A (zh) | 一种数据脱敏方法、数据脱敏装置及存储介质 | |
CN105635156A (zh) | 一种大型分布式财务终端系统 | |
CN113129058B (zh) | 员工异常交易行为识别方法、装置、设备及存储介质 | |
US20220209956A1 (en) | Method for performing a transaction on the block chain and computer program product | |
CN113987574A (zh) | 一种区块链私密交易方法、装置、设备及可读存储介质 | |
Mahmudi | The Evolution of FinTech and its Effects on Financial Decision Making: A Systematic Literature Review | |
CN109756646B (zh) | 基于区块链的矢量章管理方法和系统 | |
US8275960B2 (en) | Method for protecting data in the hard disk |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150826 |