CN112100664A - 基于正则表达式验证的电力用户信息静态数据脱敏方法 - Google Patents
基于正则表达式验证的电力用户信息静态数据脱敏方法 Download PDFInfo
- Publication number
- CN112100664A CN112100664A CN202010992814.3A CN202010992814A CN112100664A CN 112100664 A CN112100664 A CN 112100664A CN 202010992814 A CN202010992814 A CN 202010992814A CN 112100664 A CN112100664 A CN 112100664A
- Authority
- CN
- China
- Prior art keywords
- desensitization
- data
- information
- values
- regular expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于电力系统数据脱敏领域,特别涉及一种基于正则表达式验证的电力用户信息静态数据脱敏方法,通过键值脱敏对业务数据进行脱敏,既满足业务应用系统测试需求,又保护用户信息和电力数据资产,也可以在对外发布时保护客户隐私信息,成本上远低于收费工具,且对敏感数据的加密结合业务需要和支撑硬件的性能进行调节,具有很强的而针对性和灵活性。
Description
技术领域
本发明属于电力系统数据脱敏领域,特别涉及一种基于正则表达式验证的电力用户信息静态数据脱敏方法。
背景技术
随着大数据时代的到来,大数据商业价值的挖掘,用户的精准定位,大数据中蕴藏的巨大商业价值被逐步挖掘出来,信息技术与当今的电力系统的行业技术发展密不可分、相辅相成,数据逐步成为电力系统基础性战略资源,进入大数据时代,企业运用过程中数据越来越多,对数据的安全性要求也越来越高,对数据安全性也带来了巨大的挑战--个人隐私、敏感信息的保护。如姓名、性别、身份证号等,这些都是人的隐私,也是我们所关注的一类敏感信息,在大数据价值挖掘的基础上如何保护人的隐私信息,也是数据脱敏必须解决的难题。电力公司包含了大量的客户信息,在电力用户快速推进信息化的同时,如何保护客户隐私也引起了电力公司高度关注,并开展敏感数据脱敏工作。
在研发业务应用系统软件时,必要时需要用到大量的、真实的、完整的业务数据进行功能测试和压力测试等,在以往的测试过程中,由于对敏感数据的重视程度不高,直接采用真实数据进行测试,出现了数据信息外流现象,后续随着对数据重要性认知的提升,采用模拟数据进行测试,但模拟数据在业务逻辑、数据量级等方面都与实际业务相差较远,使测试结果达不到预期的效果,当前也存在较多的数据脱敏工具,但均是收费工具,且价格比较昂贵,购买后脱敏方式完全受制于工具本身,不具备很好的灵活性。现有技术中最常用的方法是对称、非对称加密,具体方法是对原来为明文的数据按某种算法进行处理,使其成为不可读的乱码,从而达到保护数据而不被非法窃取、阅读的目的,传统加密技术由对称、非对称和散列算法构成,具有极高的安全强度,能够保证数据在传输过程中机密性和完整性,但是,由于数据在使用时必须完全解密,对最终用户而言,敏感数据依然明文,因而无法同事满足敏感数据安全性和可用性需求,亟须一种既能保证数据安全又能快速有效传输的数据脱敏方法出现。
发明内容
本发明通过键值脱敏对业务数据进行脱敏,既满足业务应用系统测试需求,又保护用户信息和电力数据资产,也可以在对外发布时保护客户隐私信息,同时本发明属于自主研发在成本上远低于收费工具,且对敏感数据的加密结合业务需要和支撑硬件的性能进行调节,具有很强的而针对性和灵活性;利用数据库的随机函数和汉字库码表,针对敏感数据随机生成不重复用户敏感信息(如:客户名称、身份证号、用户地址等),并与业务敏感数据组成键值对码表对业务敏感数据进行数据脱敏。
本发明一种基于正则表达式验证的电力用户信息静态数据脱敏方法,实现步骤如下:
步骤1:利用数据抽取技术电力业务系统生产库获取用户敏感数据信息。
步骤2:将用户敏感信息推送至随机脱敏接口,随机脱敏程序基于推送的用户重要信息类型(如:名称、手机号、地址、身份证、联系电话等)和敏感数据的数量,选择脱敏值的生成类型、脱敏数据量。
步骤3:通过脱敏类型、敏感数据量、数据库随机函数和汉字库码表,生成与敏感数据等类型、等数据量、不重复的脱敏值。
步骤4:将等量的敏感数据和脱敏值,进行随机匹配,并以键值对的形式写入脱敏码表中,脱敏码表包括:名字脱敏码表、手机脱敏码表、地址脱敏码表、电话脱敏码表、单位脱敏码表等,该脱敏码表存储于生产环境源端,具有较高的安全性,由于脱敏数据为随机生产,且在测试环境中或对外发布的环境中具有不可逆性,因此脱敏数据安全性较高。
步骤5:将业务用户相关信息分别与脱密码表关系进行,敏感信息替换,即原始业务中的真实用户信息全部用脱敏值替换,将脱敏后的数据提供给业务系统软件研发方、测试人员或对外发布脱密后的数据,有效的保护了用户信息,提升了电力数据资产的安全度。
与现有技术相比有益效果:本发明一种基于正则表达式验证的电力用户信息静态数据脱敏方法,是通过键值脱敏对电力业务数据进行脱敏,这种方法既满足业务应用系统测试需求,又保护用户信息和电力数据资产,也可以在对外发布时保护客户隐私信息,成本上远低于收费工具,且对敏感数据的加密结合业务需要和支撑硬件的性能进行调节,具有很强的而针对性和灵活性。
附图说明
图1数据脱敏流程图
具体的实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明:
如图1所示一种基于正则表达式验证的电力用户信息静态数据脱敏方法,脱敏方法如下:
步骤1:利用数据抽取工具KETTLE、informatica对电力业务系统生产库(业务数据库和测试数据库)获取用户敏感数据信息;
步骤2:将用户敏感信息推送至随机脱敏接口,随机脱敏程序基于推送的用户重要信息类型,即名称、手机号、地址、身份证、联系电话和敏感数据的数量,选择脱敏值的生成类型、脱敏数据量,即数据库表中的字段为字符型,或者全是汉字,则脱敏的时候也用汉字替换汉字;如果数据库表中的字段为数值型,则脱敏的时候也用数值进行替换数值,脱敏数据量是统一源端数据表得到的汇总数据值。
步骤3:通过脱敏类型、敏感数据量、数据库随机函数和汉字库码表,生成与敏感数据等类型、等数据量、不重复的脱敏值,具体脱敏值的生成方法,首先该脱敏值基于获取的脱敏类型表(见示例表1)判断需脱敏字段和需脱敏数量;其次通过脱敏类型表中的脱敏字段类型,确定脱敏值的正则表达式(见示例表2);第三通过脱敏类型表中的数量确定脱敏值的数量(见示例表2数量字段);第四通过随机函数random()按顺序遍历基于正则表达规则,从汉字库码表中获取符合正则表达式(见示例表2中正则表达式字段)并需脱敏数量一致,且不重复的脱敏值。
示例表1脱敏类型表
序号 | 流水号 | 脱敏表名 | 脱敏字段 | 类型 | 数量 |
1 | 201612301201220099 | C_CONS | CONS_NAME | 用户名 | 867309 |
2 | 201612301201220099 | C_CONS | CARD_ID | 身份证号 | 867309 |
3 | 201612301201220099 | C_CONS | PHONE_NUM | 手机号 | 867309 |
N | … | … | … | … | … |
示例表2脱敏类型正则表达式对应表
步骤4:将等量的敏感数据和脱敏值,进行随机匹配,并以键值对的形式写入脱敏码表中,脱敏码表包括:名字脱敏码表、手机脱敏码表、地址脱敏码表、电话脱敏码表、单位脱敏码表,数据一条一条的经过数据脱敏方法函数的,有一条数据过一次,随机函数就会生成一个随机数,然后通过这个随机数去汉字库码表中找对应的汉字或者数据,用来替换要替换的内容,该脱敏码表存储于生产环境源端,具有较高的安全性,由于脱敏数据为随机生产,且在测试环境中或对外发布的环境中具有不可逆性,因此脱敏数据安全性较高。
步骤5:将业务用户相关信息分别与脱密码表关系进行,敏感信息替换,即原始业务中的真实用户信息全部用脱敏值替换,将脱敏后的数据提供给业务系统软件研发方、测试人员或对外发布脱密后的数据,有效的保护了用户信息,提升了电力数据资产的安全度。
结果 | 赵峰 | 211003123456992000 | 13510003896 | 经三路1号 | 工商银行 |
Claims (2)
1.基于正则表达式验证电力用户信息静态数据脱敏方法,其特征在于,步骤如下:步骤1:利用数据抽取工具KETTLE、informatica对电力业务系统生产库即业务数据库和测试数据库,获取用户敏感数据信息;步骤2:将用户敏感信息推送至随机脱敏接口,随机脱敏程序基于推送的用户重要信息类型即名称、手机号、地址、身份证、联系电话等和敏感数据的数量,选择脱敏值的生成类型、脱敏数据量;步骤3:通过脱敏类型、敏感数据量、数据库随机函数和汉字库码表,生成与敏感数据等类型、等数据量、不重复的脱敏值;
步骤4:将等量的敏感数据和脱敏值,进行随机匹配,并以键值对的形式写入脱敏码表中,脱敏码表包括:名字脱敏码表、手机脱敏码表、地址脱敏码表、电话脱敏码表、单位脱敏码表等,该脱敏码表存储于生产环境源端,具有较高的安全性,由于脱敏数据为随机生产,且在测试环境中或对外发布的环境中具有不可逆性,因此脱敏数据安全性较高。步骤5:将业务用户相关信息分别与脱密码表关系进行,敏感信息替换,即原始业务中的真实用户信息全部用脱敏值替换,将脱敏后的数据提供给业务系统软件研发方、测试人员或对外发布脱密后的数据,有效的保护了用户信息,提升了电力数据资产的安全度。
2.根据权利要求1所述,基于正则表达式验证电力用户信息静态数据脱敏方法,其特征在于,步骤3:通过脱敏类型、敏感数据量、数据库随机函数和汉字库码表,生成与敏感数据等类型、等数据量、不重复的脱敏值,具体脱敏值的生成方法,首先该脱敏值基于获取的脱敏类型表见示例表1,判断需脱敏字段和需脱敏数量;其次通过脱敏类型表中的脱敏字段类型,确定脱敏值的正则表达式见示例表2;第三通过脱敏类型表中的数量确定脱敏值的数量见示例表2数量字段;第四通过随机函数random()按顺序遍历基于正则表达方法,从汉字库码表中获取符合正则表达式见示例表2中正则表达式字段并需脱敏数量一致,且不重复的脱敏值;
示例表1 脱敏类型表
示例表2脱敏类型正则表达式对应表
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010992814.3A CN112100664A (zh) | 2020-09-21 | 2020-09-21 | 基于正则表达式验证的电力用户信息静态数据脱敏方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010992814.3A CN112100664A (zh) | 2020-09-21 | 2020-09-21 | 基于正则表达式验证的电力用户信息静态数据脱敏方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112100664A true CN112100664A (zh) | 2020-12-18 |
Family
ID=73760101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010992814.3A Pending CN112100664A (zh) | 2020-09-21 | 2020-09-21 | 基于正则表达式验证的电力用户信息静态数据脱敏方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100664A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256350A (zh) * | 2017-12-29 | 2018-07-06 | 上海上讯信息技术股份有限公司 | 一种基于敏感信息类型关联的信息复合脱敏方法 |
CN110084053A (zh) * | 2019-05-07 | 2019-08-02 | 江苏满运软件科技有限公司 | 数据脱敏方法、装置、电子设备及存储介质 |
CN110399733A (zh) * | 2019-03-18 | 2019-11-01 | 国网安徽省电力有限公司黄山供电公司 | 一种针对结构化数据的脱敏平台 |
CN111259409A (zh) * | 2020-01-08 | 2020-06-09 | 北京字节跳动网络技术有限公司 | 一种信息加密方法、装置、电子设备及存储介质 |
-
2020
- 2020-09-21 CN CN202010992814.3A patent/CN112100664A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256350A (zh) * | 2017-12-29 | 2018-07-06 | 上海上讯信息技术股份有限公司 | 一种基于敏感信息类型关联的信息复合脱敏方法 |
CN110399733A (zh) * | 2019-03-18 | 2019-11-01 | 国网安徽省电力有限公司黄山供电公司 | 一种针对结构化数据的脱敏平台 |
CN110084053A (zh) * | 2019-05-07 | 2019-08-02 | 江苏满运软件科技有限公司 | 数据脱敏方法、装置、电子设备及存储介质 |
CN111259409A (zh) * | 2020-01-08 | 2020-06-09 | 北京字节跳动网络技术有限公司 | 一种信息加密方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
胡荣磊;何艳琼;曾萍;范晓红;: "一种大数据环境下医疗隐私保护方案设计与实现", 信息网络安全, no. 09, pages 48 - 54 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614816B (zh) | 数据脱敏方法、装置及存储介质 | |
CN107122660B (zh) | 一种Android应用软件用户隐私信息泄露检测方法 | |
CA2906475C (en) | Method and apparatus for substitution scheme for anonymizing personally identifiable information | |
CN105095737A (zh) | 检测弱密码的方法和装置 | |
JP5358549B2 (ja) | 保護対象情報マスキング装置、保護対象情報マスキング方法および保護対象情報マスキングプログラム | |
CN106228084A (zh) | 基于角色的敏感字段动态调整的数据保护方法和系统 | |
CN110933063B (zh) | 数据加密方法、数据解密方法及设备 | |
CN108075888B (zh) | 动态url生成方法及装置、存储介质、电子设备 | |
CN105898054A (zh) | 一种基于验证的消息显示方法及通信终端 | |
CN114374566B (zh) | 一种攻击检测方法及装置 | |
CN111767565A (zh) | 一种数据脱敏的处理方法、处理装置和存储介质 | |
CN106161095B (zh) | 数据泄露的预警方法及装置 | |
CN105827582A (zh) | 一种通信加密方法、装置和系统 | |
CN111737746A (zh) | 一种基于java注解的动态配置数据脱敏的方法 | |
CN113127915A (zh) | 数据加密脱敏方法、装置、电子设备及存储介质 | |
CN106685945B (zh) | 业务请求处理方法、业务办理号码的验证方法及其终端 | |
CN112287371B (zh) | 一种存储工业数据的方法、装置和计算机设备 | |
CN111723390B (zh) | 一种基于供应链管理的商业数据保护方法及系统 | |
CN112100664A (zh) | 基于正则表达式验证的电力用户信息静态数据脱敏方法 | |
CN110990848A (zh) | 基于hive数据仓库的敏感字加密方法及装置、存储介质 | |
CN109729076B (zh) | 数据脱敏、逆脱敏方法及装置、存储介质、终端 | |
CN110674383B (zh) | 舆情查询方法、装置及设备 | |
CN112417406A (zh) | 一种数据的脱敏方法、装置、可读存储介质及电子设备 | |
CN116702103A (zh) | 数据库水印处理方法、数据库水印溯源方法及装置 | |
CN112884258A (zh) | 检测应用风险的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |