CN113420330A - 大数据系统的可视化脱敏数据生成方法 - Google Patents
大数据系统的可视化脱敏数据生成方法 Download PDFInfo
- Publication number
- CN113420330A CN113420330A CN202110721329.7A CN202110721329A CN113420330A CN 113420330 A CN113420330 A CN 113420330A CN 202110721329 A CN202110721329 A CN 202110721329A CN 113420330 A CN113420330 A CN 113420330A
- Authority
- CN
- China
- Prior art keywords
- data
- desensitization
- database
- text
- import
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000586 desensitisation Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000000007 visual effect Effects 0.000 title abstract description 11
- 238000013515 script Methods 0.000 claims abstract description 26
- 230000008676 import Effects 0.000 claims description 30
- 238000010200 validation analysis Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 14
- 238000009795 derivation Methods 0.000 claims description 12
- 238000012800 visualization Methods 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013079 data visualisation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大数据系统的可视化脱敏数据生成方法,包括获取源端数据;对源端数据进行脱敏处理;将脱敏后的数据进行展示;根据用户的需求对展示的数据进行生成和导出。本发明提供的这种大数据系统的可视化脱敏数据生成方法,通过自编辑SPL脚本进行数据的脱敏,同时再根据数据类型的不同进行数据的生成和导出,保证了本发明方法的可靠性高、实用性好且科学稳定。
Description
技术领域
本发明属于数据处理领域,具体涉及一种大数据系统的可视化脱敏数据生成方法。
背景技术
随着经济技术的发展,大数据系统的数据可视化已经成为了越来越多的人和企业的需求。因此,大数据系统的可视化数据生成,就成为了现今的研究热点之一。
但是,现今的大数据系统的可视化数据生成方法中存在着许多问题,尤其在用户敏感信息的脱敏阶段。在数据脱敏阶段,要么不能保持原有数据的特征,使得测试人员不能明白测试数据的具体含义,使得测试具体功能时模棱两可,达不到测试的效果;要么不能保证数据之间的关联或者业务之间的关联,使得测试人员看不懂这些数据表之间的关联特性从而无法测试;要么就是脱敏力度不够,使得想活的相关具体信息的人能够较快的破解相关的信息。这些脱敏阶段的技术缺陷,使得现有的大数据系统的可视化数据生成方法存在极大的缺陷,从而严重限制了其应用范围和效果。
发明内容
本发明的目的在于提供一种可靠性高、实用性好且科学稳定的大数据系统的可视化脱敏数据生成方法。
本发明提供的这种大数据系统的可视化脱敏数据生成方法,包括如下步骤:
S1.获取源端数据;
S2.对步骤S1获取的源端数据进行脱敏处理;
S3.将步骤S2得到的脱敏后的数据进行展示;
S4.根据用户的需求,对展示的数据进行生成和导出。
步骤S2所述的对步骤S1获取的源端数据进行脱敏处理,具体为编写SPL脚本,从而实现对数据的脱敏处理。
所述的对步骤S1获取的源端数据进行脱敏处理,具体包括如下步骤:
1)数据替换:采用设置的固定虚构值替换真值,具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=替换值)
其中,A1用于导入文本数据;A2用于将选择字段列全部替换成了需要替换的数据;
2)数据无效化:通过对数据值进行处理,使得敏感数据脱敏且不再局域利用价值;所述的处理包括截断、加密和隐藏;具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=”.......”)
A3=A1.run(字段名=left(字段名,n)+”.......”),n为保留的数据数量
其中,A1用于导入文本数据;A2用于将数据值进行隐藏式无效化;A3用于将数据值进行截断式无效化;
3)数据随机化:采用随机数据代替真实数据值,并保持替换值的随机性以模拟样本的真实性;具体SPL脚本为:
A1=file("文本").import@it()
A2=file("数据脱敏验证表.txt").import@t()
A3=A2.run(name=A1(rand(A1.len())+1)+B1(rand(B1.len())+1))
其中,A1用于导入随机文本数据;A2用于导入文本数据;A3用于生成随机数据并替换;
4)数据偏移和取整:通过随机移位改变数字数据,从而在保持了数据的安全性的同时保证了范围的大致真实性;具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=string(字段名,"字段数据"))
其中,A1用于导入文本数据;A2用于数字数据的偏移和取整操作;
5)数据的掩码遮蔽:具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=left(string(字段名),n1)+"********"+right(string(字段名),n2))
其中,A1用于导入文本数据;A2用于生成掩码屏蔽后的数据;
6)数据的灵活编码:具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名="RAQA"+string(替换数据))+mid(string(字段名),n1,n2)+string(#,"原数据"));n1和n2为元数据被替换的始末位置;
其中,A1用于导入文本数据;A2用于生成灵活编码后的数据。
步骤S4所述的对展示的数据进行生成和导出,具体为针对不同数据格式的数据,编辑SPL脚本对展示的数据进行生成和导出。
所述的对展示的数据进行生成和导出,具体包括如下步骤:
(1)从文本分发至文本:具体的SPL导出规则为:
A4=file("脱敏数据结果表.txt").export@at(A3)
其中,A3为步骤S2得到的脱敏数据;A4为直接将脱敏数据导出至文本文件;
(2)从文本数据分发至数据:具体的SPL导出规则为:
A2=connect("数据库")
A4=A2.update(A3,导入数据库名,导出数据库字段1,....,导出数据库字段n)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏的数据导入至指定的数据库;A5为关闭数据库连接;
(3)从数据库分发至数据库:具体的SPL导出规则为:
A2=connect("数据库")
A4=A2.update(A3,导入数据库名,导出数据库字段1,....,导出数据库字段n)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏的数据导入至指定的数据库;A5为关闭数据库连接;
(4)从数据库分发至文本:具体的SPL导出规则为:
A2=connect("数据库")
A4=file("脱敏数据结果表.txt").export@at(A3)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏数据直接导出至文本;A5为关闭数据库连接。
本发明提供的这种大数据系统的可视化脱敏数据生成方法,通过自编辑SPL脚本进行数据的脱敏,同时再根据数据类型的不同进行数据的生成和导出,保证了本发明方法的可靠性高、实用性好且科学稳定。
附图说明
图1为本发明方法的方法流程示意图。
具体实施方式
如图1所示为本发明方法的方法流程示意图:本发明提供的这种大数据系统的可视化脱敏数据生成方法,包括如下步骤:
S1.获取源端数据;
S2.对步骤S1获取的源端数据进行脱敏处理;具体为编写SPL脚本,从而实现对数据的脱敏处理;
具体实施时,包括如下步骤:
1)数据替换:采用设置的固定虚构值替换真值,具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=替换值)
其中,A1用于导入文本数据;A2用于将选择字段列全部替换成了需要替换的数据;
2)数据无效化:通过对数据值进行处理,使得敏感数据脱敏且不再局域利用价值;所述的处理包括截断、加密和隐藏;具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=”.......”)
A3=A1.run(字段名=left(字段名,n)+”.......”),n为保留的数据数量
其中,A1用于导入文本数据;A2用于将数据值进行隐藏式无效化;A3用于将数据值进行截断式无效化;
3)数据随机化:采用随机数据代替真实数据值,并保持替换值的随机性以模拟样本的真实性;具体SPL脚本为:
A1=file("文本").import@it()
A2=file("数据脱敏验证表.txt").import@t()
A3=A2.run(name=A1(rand(A1.len())+1)+B1(rand(B1.len())+1))
其中,A1用于导入随机文本数据;A2用于导入文本数据;A3用于生成随机数据并替换;
4)数据偏移和取整:通过随机移位改变数字数据,从而在保持了数据的安全性的同时保证了范围的大致真实性;具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=string(字段名,"字段数据"))
其中,A1用于导入文本数据;A2用于数字数据的偏移和取整操作;
5)数据的掩码遮蔽:具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=left(string(字段名),n1)+"********"+right(string(字段名),n2))
其中,A1用于导入文本数据;A2用于生成掩码屏蔽后的数据;
6)数据的灵活编码:具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名="RAQA"+string(替换数据))+mid(string(字段名),n1,n2)+string(#,"原数据"));n1和n2为元数据被替换的始末位置;
其中,A1用于导入文本数据;A2用于生成灵活编码后的数据;
S3.将步骤S2得到的脱敏后的数据进行展示;
S4.根据用户的需求,对展示的数据进行生成和导出;具体为针对不同数据格式的数据,编辑SPL脚本对展示的数据进行生成和导出;
具体实施时,包括如下步骤:
(1)从文本分发至文本:具体的SPL导出规则为:
A4=file("脱敏数据结果表.txt").export@at(A3)
其中,A3为步骤S2得到的脱敏数据;A4为直接将脱敏数据导出至文本文件;
(2)从文本数据分发至数据:具体的SPL导出规则为:
A2=connect("数据库")
A4=A2.update(A3,导入数据库名,导出数据库字段1,....,导出数据库字段n)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏的数据导入至指定的数据库;A5为关闭数据库连接;
(3)从数据库分发至数据库:具体的SPL导出规则为:
A2=connect("数据库")
A4=A2.update(A3,导入数据库名,导出数据库字段1,....,导出数据库字段n)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏的数据导入至指定的数据库;A5为关闭数据库连接;
(4)从数据库分发至文本:具体的SPL导出规则为:
A2=connect("数据库")
A4=file("脱敏数据结果表.txt").export@at(A3)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏数据直接导出至文本;A5为关闭数据库连接。
Claims (5)
1.一种大数据系统的可视化脱敏数据生成方法,包括如下步骤:
S1.获取源端数据;
S2.对步骤S1获取的源端数据进行脱敏处理;
S3.将步骤S2得到的脱敏后的数据进行展示;
S4.根据用户的需求,对展示的数据进行生成和导出。
2.根据权利要求1所述的大数据系统的可视化脱敏数据生成方法,其特征在于步骤S2所述的对步骤S1获取的源端数据进行脱敏处理,具体为编写SPL脚本,从而实现对数据的脱敏处理。
3.根据权利要求2所述的大数据系统的可视化脱敏数据生成方法,其特征在于所述的对步骤S1获取的源端数据进行脱敏处理,具体包括如下步骤:
1)数据替换:采用设置的固定虚构值替换真值,具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=替换值)
其中,A1用于导入文本数据;A2用于将选择字段列全部替换成了需要替换的数据;
2)数据无效化:通过对数据值进行处理,使得敏感数据脱敏且不再局域利用价值;所述的处理包括截断、加密和隐藏;具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=”.......”)
A3=A1.run(字段名=left(字段名,n)+”.......”),n为保留的数据数量
其中,A1用于导入文本数据;A2用于将数据值进行隐藏式无效化;A3用于将数据值进行截断式无效化;
3)数据随机化:采用随机数据代替真实数据值,并保持替换值的随机性以模拟样本的真实性;具体SPL脚本为:
A1=file("文本").import@it()
A2=file("数据脱敏验证表.txt").import@t()
A3=A2.run(name=A1(rand(A1.len())+1)+B1(rand(B1.len())+1))
其中,A1用于导入随机文本数据;A2用于导入文本数据;A3用于生成随机数据并替换;
4)数据偏移和取整:通过随机移位改变数字数据,从而在保持了数据的安全性的同时保证了范围的大致真实性;具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=string(字段名,"字段数据"))
其中,A1用于导入文本数据;A2用于数字数据的偏移和取整操作;
5)数据的掩码遮蔽:具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=left(string(字段名),n1)+"********"+right(string(字段名),n2))
其中,A1用于导入文本数据;A2用于生成掩码屏蔽后的数据;
6)数据的灵活编码:具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名="RAQA"+string(替换数据))+mid(string(字段名),n1,n2)+string(#,"原数据"));n1和n2为元数据被替换的始末位置;
其中,A1用于导入文本数据;A2用于生成灵活编码后的数据。
4.根据权利要求2所述的大数据系统的可视化脱敏数据生成方法,其特征在于步骤S4所述的对展示的数据进行生成和导出,具体为针对不同数据格式的数据,编辑SPL脚本对展示的数据进行生成和导出。
5.根据权利要求4所述的大数据系统的可视化脱敏数据生成方法,其特征在于所述的对展示的数据进行生成和导出,具体包括如下步骤:
(1)从文本分发至文本:具体的SPL导出规则为:
A4=file("脱敏数据结果表.txt").export@at(A3)
其中,A3为步骤S2得到的脱敏数据;A4为直接将脱敏数据导出至文本文件;
(2)从文本数据分发至数据:具体的SPL导出规则为:
A2=connect("数据库")
A4=A2.update(A3,导入数据库名,导出数据库字段1,....,导出数据库字段n)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏的数据导入至指定的数据库;A5为关闭数据库连接;
(3)从数据库分发至数据库:具体的SPL导出规则为:
A2=connect("数据库")
A4=A2.update(A3,导入数据库名,导出数据库字段1,....,导出数据库字段n)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏的数据导入至指定的数据库;A5为关闭数据库连接;
(4)从数据库分发至文本:具体的SPL导出规则为:
A2=connect("数据库")
A4=file("脱敏数据结果表.txt").export@at(A3)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏数据直接导出至文本;A5为关闭数据库连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110721329.7A CN113420330A (zh) | 2021-06-28 | 2021-06-28 | 大数据系统的可视化脱敏数据生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110721329.7A CN113420330A (zh) | 2021-06-28 | 2021-06-28 | 大数据系统的可视化脱敏数据生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113420330A true CN113420330A (zh) | 2021-09-21 |
Family
ID=77717818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110721329.7A Pending CN113420330A (zh) | 2021-06-28 | 2021-06-28 | 大数据系统的可视化脱敏数据生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420330A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116796361A (zh) * | 2023-03-15 | 2023-09-22 | 深圳优钱信息技术有限公司 | 基于国密散列函数的敏感数据脱敏方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135184A (zh) * | 2018-02-09 | 2019-08-16 | 中兴通讯股份有限公司 | 一种静态数据脱敏的方法、装置、设备及存储介质 |
CN110727954A (zh) * | 2019-09-19 | 2020-01-24 | 平安科技(深圳)有限公司 | 数据授权脱敏自动化方法、装置及存储介质 |
CN110866281A (zh) * | 2019-11-20 | 2020-03-06 | 满江(上海)软件科技有限公司 | 一种用于敏感数据的安全合规处理系统及方法 |
CN111221825A (zh) * | 2020-01-03 | 2020-06-02 | 浪潮软件集团有限公司 | 一种基于大数据系统的可视化的数据生成方法 |
-
2021
- 2021-06-28 CN CN202110721329.7A patent/CN113420330A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135184A (zh) * | 2018-02-09 | 2019-08-16 | 中兴通讯股份有限公司 | 一种静态数据脱敏的方法、装置、设备及存储介质 |
CN110727954A (zh) * | 2019-09-19 | 2020-01-24 | 平安科技(深圳)有限公司 | 数据授权脱敏自动化方法、装置及存储介质 |
CN110866281A (zh) * | 2019-11-20 | 2020-03-06 | 满江(上海)软件科技有限公司 | 一种用于敏感数据的安全合规处理系统及方法 |
CN111221825A (zh) * | 2020-01-03 | 2020-06-02 | 浪潮软件集团有限公司 | 一种基于大数据系统的可视化的数据生成方法 |
Non-Patent Citations (1)
Title |
---|
润乾: "数据脱敏的处理方法及查询", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/53163513》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116796361A (zh) * | 2023-03-15 | 2023-09-22 | 深圳优钱信息技术有限公司 | 基于国密散列函数的敏感数据脱敏方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Stables et al. | SAFE: A system for extraction and retrieval of semantic audio descriptors | |
CN107992727B (zh) | 一种基于原有数据变形实现的水印处理和数据溯源方法 | |
CN107992726B (zh) | 一种基于伪行伪列的水印处理和数据溯源方法 | |
US8280847B2 (en) | Apparatus, method, and computer program product for synchronizing data sources | |
US20240036788A1 (en) | Creation of component templates and removal of dead content therefrom | |
CN109815448B (zh) | 幻灯片生成方法及装置 | |
CN113420330A (zh) | 大数据系统的可视化脱敏数据生成方法 | |
CN108510084A (zh) | 用于生成信息的方法和装置 | |
CN105244041A (zh) | 歌曲试唱的评价方法及装置 | |
CN114510410B (zh) | 合成去识别的测试数据 | |
Li et al. | CCCIH: content-consistency coverless information hiding method based on generative models | |
CN110188037B (zh) | 一种数据模拟方法及装置 | |
WO2021035978A1 (zh) | 信息隐写方法、装置、设备及存储介质 | |
CN110309062A (zh) | 用例生成方法、装置、电子设备及存储介质 | |
CN115544156A (zh) | 一种实现数据溯源可视化的方法 | |
CN111859985A (zh) | Ai客服模型测试方法、装置、电子设备及存储介质 | |
CN110619883A (zh) | 音乐的信息嵌入方法、提取方法、装置、终端及存储介质 | |
CN115470229B (zh) | 数据表处理方法、装置、电子设备及存储介质 | |
CN117910022B (zh) | 数据搜索方法、装置、计算机设备、存储介质和产品 | |
CN116955967B (zh) | 一种在网络靶场中模拟侦查调证的系统和方法 | |
Yuan et al. | OpenVNA: A Framework for Analyzing the Behavior of Multimodal Language Understanding System under Noisy Scenarios | |
CN105426306A (zh) | 一种系统测试中内存测试的方法 | |
CN115587027A (zh) | 测试数据生成方法、装置、设备及存储介质 | |
CN117851462A (zh) | 一种财富数据交互式管理系统及方法 | |
Li et al. | TAS: Personalized Text-guided Audio Spatialization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210921 |