CN113420330A - 大数据系统的可视化脱敏数据生成方法 - Google Patents

大数据系统的可视化脱敏数据生成方法 Download PDF

Info

Publication number
CN113420330A
CN113420330A CN202110721329.7A CN202110721329A CN113420330A CN 113420330 A CN113420330 A CN 113420330A CN 202110721329 A CN202110721329 A CN 202110721329A CN 113420330 A CN113420330 A CN 113420330A
Authority
CN
China
Prior art keywords
data
desensitization
database
text
import
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110721329.7A
Other languages
English (en)
Inventor
马骏
凌笑
蒋破荒
余琦
薛静远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Hunan Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202110721329.7A priority Critical patent/CN113420330A/zh
Publication of CN113420330A publication Critical patent/CN113420330A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据系统的可视化脱敏数据生成方法,包括获取源端数据;对源端数据进行脱敏处理;将脱敏后的数据进行展示;根据用户的需求对展示的数据进行生成和导出。本发明提供的这种大数据系统的可视化脱敏数据生成方法,通过自编辑SPL脚本进行数据的脱敏,同时再根据数据类型的不同进行数据的生成和导出,保证了本发明方法的可靠性高、实用性好且科学稳定。

Description

大数据系统的可视化脱敏数据生成方法
技术领域
本发明属于数据处理领域,具体涉及一种大数据系统的可视化脱敏数据生成方法。
背景技术
随着经济技术的发展,大数据系统的数据可视化已经成为了越来越多的人和企业的需求。因此,大数据系统的可视化数据生成,就成为了现今的研究热点之一。
但是,现今的大数据系统的可视化数据生成方法中存在着许多问题,尤其在用户敏感信息的脱敏阶段。在数据脱敏阶段,要么不能保持原有数据的特征,使得测试人员不能明白测试数据的具体含义,使得测试具体功能时模棱两可,达不到测试的效果;要么不能保证数据之间的关联或者业务之间的关联,使得测试人员看不懂这些数据表之间的关联特性从而无法测试;要么就是脱敏力度不够,使得想活的相关具体信息的人能够较快的破解相关的信息。这些脱敏阶段的技术缺陷,使得现有的大数据系统的可视化数据生成方法存在极大的缺陷,从而严重限制了其应用范围和效果。
发明内容
本发明的目的在于提供一种可靠性高、实用性好且科学稳定的大数据系统的可视化脱敏数据生成方法。
本发明提供的这种大数据系统的可视化脱敏数据生成方法,包括如下步骤:
S1.获取源端数据;
S2.对步骤S1获取的源端数据进行脱敏处理;
S3.将步骤S2得到的脱敏后的数据进行展示;
S4.根据用户的需求,对展示的数据进行生成和导出。
步骤S2所述的对步骤S1获取的源端数据进行脱敏处理,具体为编写SPL脚本,从而实现对数据的脱敏处理。
所述的对步骤S1获取的源端数据进行脱敏处理,具体包括如下步骤:
1)数据替换:采用设置的固定虚构值替换真值,具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=替换值)
其中,A1用于导入文本数据;A2用于将选择字段列全部替换成了需要替换的数据;
2)数据无效化:通过对数据值进行处理,使得敏感数据脱敏且不再局域利用价值;所述的处理包括截断、加密和隐藏;具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=”.......”)
A3=A1.run(字段名=left(字段名,n)+”.......”),n为保留的数据数量
其中,A1用于导入文本数据;A2用于将数据值进行隐藏式无效化;A3用于将数据值进行截断式无效化;
3)数据随机化:采用随机数据代替真实数据值,并保持替换值的随机性以模拟样本的真实性;具体SPL脚本为:
A1=file("文本").import@it()
A2=file("数据脱敏验证表.txt").import@t()
A3=A2.run(name=A1(rand(A1.len())+1)+B1(rand(B1.len())+1))
其中,A1用于导入随机文本数据;A2用于导入文本数据;A3用于生成随机数据并替换;
4)数据偏移和取整:通过随机移位改变数字数据,从而在保持了数据的安全性的同时保证了范围的大致真实性;具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=string(字段名,"字段数据"))
其中,A1用于导入文本数据;A2用于数字数据的偏移和取整操作;
5)数据的掩码遮蔽:具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=left(string(字段名),n1)+"********"+right(string(字段名),n2))
其中,A1用于导入文本数据;A2用于生成掩码屏蔽后的数据;
6)数据的灵活编码:具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名="RAQA"+string(替换数据))+mid(string(字段名),n1,n2)+string(#,"原数据"));n1和n2为元数据被替换的始末位置;
其中,A1用于导入文本数据;A2用于生成灵活编码后的数据。
步骤S4所述的对展示的数据进行生成和导出,具体为针对不同数据格式的数据,编辑SPL脚本对展示的数据进行生成和导出。
所述的对展示的数据进行生成和导出,具体包括如下步骤:
(1)从文本分发至文本:具体的SPL导出规则为:
A4=file("脱敏数据结果表.txt").export@at(A3)
其中,A3为步骤S2得到的脱敏数据;A4为直接将脱敏数据导出至文本文件;
(2)从文本数据分发至数据:具体的SPL导出规则为:
A2=connect("数据库")
A4=A2.update(A3,导入数据库名,导出数据库字段1,....,导出数据库字段n)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏的数据导入至指定的数据库;A5为关闭数据库连接;
(3)从数据库分发至数据库:具体的SPL导出规则为:
A2=connect("数据库")
A4=A2.update(A3,导入数据库名,导出数据库字段1,....,导出数据库字段n)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏的数据导入至指定的数据库;A5为关闭数据库连接;
(4)从数据库分发至文本:具体的SPL导出规则为:
A2=connect("数据库")
A4=file("脱敏数据结果表.txt").export@at(A3)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏数据直接导出至文本;A5为关闭数据库连接。
本发明提供的这种大数据系统的可视化脱敏数据生成方法,通过自编辑SPL脚本进行数据的脱敏,同时再根据数据类型的不同进行数据的生成和导出,保证了本发明方法的可靠性高、实用性好且科学稳定。
附图说明
图1为本发明方法的方法流程示意图。
具体实施方式
如图1所示为本发明方法的方法流程示意图:本发明提供的这种大数据系统的可视化脱敏数据生成方法,包括如下步骤:
S1.获取源端数据;
S2.对步骤S1获取的源端数据进行脱敏处理;具体为编写SPL脚本,从而实现对数据的脱敏处理;
具体实施时,包括如下步骤:
1)数据替换:采用设置的固定虚构值替换真值,具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=替换值)
其中,A1用于导入文本数据;A2用于将选择字段列全部替换成了需要替换的数据;
2)数据无效化:通过对数据值进行处理,使得敏感数据脱敏且不再局域利用价值;所述的处理包括截断、加密和隐藏;具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=”.......”)
A3=A1.run(字段名=left(字段名,n)+”.......”),n为保留的数据数量
其中,A1用于导入文本数据;A2用于将数据值进行隐藏式无效化;A3用于将数据值进行截断式无效化;
3)数据随机化:采用随机数据代替真实数据值,并保持替换值的随机性以模拟样本的真实性;具体SPL脚本为:
A1=file("文本").import@it()
A2=file("数据脱敏验证表.txt").import@t()
A3=A2.run(name=A1(rand(A1.len())+1)+B1(rand(B1.len())+1))
其中,A1用于导入随机文本数据;A2用于导入文本数据;A3用于生成随机数据并替换;
4)数据偏移和取整:通过随机移位改变数字数据,从而在保持了数据的安全性的同时保证了范围的大致真实性;具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=string(字段名,"字段数据"))
其中,A1用于导入文本数据;A2用于数字数据的偏移和取整操作;
5)数据的掩码遮蔽:具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=left(string(字段名),n1)+"********"+right(string(字段名),n2))
其中,A1用于导入文本数据;A2用于生成掩码屏蔽后的数据;
6)数据的灵活编码:具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名="RAQA"+string(替换数据))+mid(string(字段名),n1,n2)+string(#,"原数据"));n1和n2为元数据被替换的始末位置;
其中,A1用于导入文本数据;A2用于生成灵活编码后的数据;
S3.将步骤S2得到的脱敏后的数据进行展示;
S4.根据用户的需求,对展示的数据进行生成和导出;具体为针对不同数据格式的数据,编辑SPL脚本对展示的数据进行生成和导出;
具体实施时,包括如下步骤:
(1)从文本分发至文本:具体的SPL导出规则为:
A4=file("脱敏数据结果表.txt").export@at(A3)
其中,A3为步骤S2得到的脱敏数据;A4为直接将脱敏数据导出至文本文件;
(2)从文本数据分发至数据:具体的SPL导出规则为:
A2=connect("数据库")
A4=A2.update(A3,导入数据库名,导出数据库字段1,....,导出数据库字段n)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏的数据导入至指定的数据库;A5为关闭数据库连接;
(3)从数据库分发至数据库:具体的SPL导出规则为:
A2=connect("数据库")
A4=A2.update(A3,导入数据库名,导出数据库字段1,....,导出数据库字段n)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏的数据导入至指定的数据库;A5为关闭数据库连接;
(4)从数据库分发至文本:具体的SPL导出规则为:
A2=connect("数据库")
A4=file("脱敏数据结果表.txt").export@at(A3)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏数据直接导出至文本;A5为关闭数据库连接。

Claims (5)

1.一种大数据系统的可视化脱敏数据生成方法,包括如下步骤:
S1.获取源端数据;
S2.对步骤S1获取的源端数据进行脱敏处理;
S3.将步骤S2得到的脱敏后的数据进行展示;
S4.根据用户的需求,对展示的数据进行生成和导出。
2.根据权利要求1所述的大数据系统的可视化脱敏数据生成方法,其特征在于步骤S2所述的对步骤S1获取的源端数据进行脱敏处理,具体为编写SPL脚本,从而实现对数据的脱敏处理。
3.根据权利要求2所述的大数据系统的可视化脱敏数据生成方法,其特征在于所述的对步骤S1获取的源端数据进行脱敏处理,具体包括如下步骤:
1)数据替换:采用设置的固定虚构值替换真值,具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=替换值)
其中,A1用于导入文本数据;A2用于将选择字段列全部替换成了需要替换的数据;
2)数据无效化:通过对数据值进行处理,使得敏感数据脱敏且不再局域利用价值;所述的处理包括截断、加密和隐藏;具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=”.......”)
A3=A1.run(字段名=left(字段名,n)+”.......”),n为保留的数据数量
其中,A1用于导入文本数据;A2用于将数据值进行隐藏式无效化;A3用于将数据值进行截断式无效化;
3)数据随机化:采用随机数据代替真实数据值,并保持替换值的随机性以模拟样本的真实性;具体SPL脚本为:
A1=file("文本").import@it()
A2=file("数据脱敏验证表.txt").import@t()
A3=A2.run(name=A1(rand(A1.len())+1)+B1(rand(B1.len())+1))
其中,A1用于导入随机文本数据;A2用于导入文本数据;A3用于生成随机数据并替换;
4)数据偏移和取整:通过随机移位改变数字数据,从而在保持了数据的安全性的同时保证了范围的大致真实性;具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=string(字段名,"字段数据"))
其中,A1用于导入文本数据;A2用于数字数据的偏移和取整操作;
5)数据的掩码遮蔽:具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名=left(string(字段名),n1)+"********"+right(string(字段名),n2))
其中,A1用于导入文本数据;A2用于生成掩码屏蔽后的数据;
6)数据的灵活编码:具体SPL脚本为:
A1=file("数据脱敏验证表.txt").import@t()
A2=A1.run(字段名="RAQA"+string(替换数据))+mid(string(字段名),n1,n2)+string(#,"原数据"));n1和n2为元数据被替换的始末位置;
其中,A1用于导入文本数据;A2用于生成灵活编码后的数据。
4.根据权利要求2所述的大数据系统的可视化脱敏数据生成方法,其特征在于步骤S4所述的对展示的数据进行生成和导出,具体为针对不同数据格式的数据,编辑SPL脚本对展示的数据进行生成和导出。
5.根据权利要求4所述的大数据系统的可视化脱敏数据生成方法,其特征在于所述的对展示的数据进行生成和导出,具体包括如下步骤:
(1)从文本分发至文本:具体的SPL导出规则为:
A4=file("脱敏数据结果表.txt").export@at(A3)
其中,A3为步骤S2得到的脱敏数据;A4为直接将脱敏数据导出至文本文件;
(2)从文本数据分发至数据:具体的SPL导出规则为:
A2=connect("数据库")
A4=A2.update(A3,导入数据库名,导出数据库字段1,....,导出数据库字段n)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏的数据导入至指定的数据库;A5为关闭数据库连接;
(3)从数据库分发至数据库:具体的SPL导出规则为:
A2=connect("数据库")
A4=A2.update(A3,导入数据库名,导出数据库字段1,....,导出数据库字段n)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏的数据导入至指定的数据库;A5为关闭数据库连接;
(4)从数据库分发至文本:具体的SPL导出规则为:
A2=connect("数据库")
A4=file("脱敏数据结果表.txt").export@at(A3)
A5=A2.close()
其中,A2为建立数据库连接;A3为步骤S2得到的脱敏数据;A4为将脱敏数据直接导出至文本;A5为关闭数据库连接。
CN202110721329.7A 2021-06-28 2021-06-28 大数据系统的可视化脱敏数据生成方法 Pending CN113420330A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110721329.7A CN113420330A (zh) 2021-06-28 2021-06-28 大数据系统的可视化脱敏数据生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110721329.7A CN113420330A (zh) 2021-06-28 2021-06-28 大数据系统的可视化脱敏数据生成方法

Publications (1)

Publication Number Publication Date
CN113420330A true CN113420330A (zh) 2021-09-21

Family

ID=77717818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110721329.7A Pending CN113420330A (zh) 2021-06-28 2021-06-28 大数据系统的可视化脱敏数据生成方法

Country Status (1)

Country Link
CN (1) CN113420330A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116796361A (zh) * 2023-03-15 2023-09-22 深圳优钱信息技术有限公司 基于国密散列函数的敏感数据脱敏方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135184A (zh) * 2018-02-09 2019-08-16 中兴通讯股份有限公司 一种静态数据脱敏的方法、装置、设备及存储介质
CN110727954A (zh) * 2019-09-19 2020-01-24 平安科技(深圳)有限公司 数据授权脱敏自动化方法、装置及存储介质
CN110866281A (zh) * 2019-11-20 2020-03-06 满江(上海)软件科技有限公司 一种用于敏感数据的安全合规处理系统及方法
CN111221825A (zh) * 2020-01-03 2020-06-02 浪潮软件集团有限公司 一种基于大数据系统的可视化的数据生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135184A (zh) * 2018-02-09 2019-08-16 中兴通讯股份有限公司 一种静态数据脱敏的方法、装置、设备及存储介质
CN110727954A (zh) * 2019-09-19 2020-01-24 平安科技(深圳)有限公司 数据授权脱敏自动化方法、装置及存储介质
CN110866281A (zh) * 2019-11-20 2020-03-06 满江(上海)软件科技有限公司 一种用于敏感数据的安全合规处理系统及方法
CN111221825A (zh) * 2020-01-03 2020-06-02 浪潮软件集团有限公司 一种基于大数据系统的可视化的数据生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
润乾: "数据脱敏的处理方法及查询", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/53163513》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116796361A (zh) * 2023-03-15 2023-09-22 深圳优钱信息技术有限公司 基于国密散列函数的敏感数据脱敏方法

Similar Documents

Publication Publication Date Title
Stables et al. SAFE: A system for extraction and retrieval of semantic audio descriptors
CN107992727B (zh) 一种基于原有数据变形实现的水印处理和数据溯源方法
CN107992726B (zh) 一种基于伪行伪列的水印处理和数据溯源方法
US8280847B2 (en) Apparatus, method, and computer program product for synchronizing data sources
US20240036788A1 (en) Creation of component templates and removal of dead content therefrom
CN109815448B (zh) 幻灯片生成方法及装置
CN113420330A (zh) 大数据系统的可视化脱敏数据生成方法
CN108510084A (zh) 用于生成信息的方法和装置
CN105244041A (zh) 歌曲试唱的评价方法及装置
CN114510410B (zh) 合成去识别的测试数据
Li et al. CCCIH: content-consistency coverless information hiding method based on generative models
CN110188037B (zh) 一种数据模拟方法及装置
WO2021035978A1 (zh) 信息隐写方法、装置、设备及存储介质
CN110309062A (zh) 用例生成方法、装置、电子设备及存储介质
CN115544156A (zh) 一种实现数据溯源可视化的方法
CN111859985A (zh) Ai客服模型测试方法、装置、电子设备及存储介质
CN110619883A (zh) 音乐的信息嵌入方法、提取方法、装置、终端及存储介质
CN115470229B (zh) 数据表处理方法、装置、电子设备及存储介质
CN117910022B (zh) 数据搜索方法、装置、计算机设备、存储介质和产品
CN116955967B (zh) 一种在网络靶场中模拟侦查调证的系统和方法
Yuan et al. OpenVNA: A Framework for Analyzing the Behavior of Multimodal Language Understanding System under Noisy Scenarios
CN105426306A (zh) 一种系统测试中内存测试的方法
CN115587027A (zh) 测试数据生成方法、装置、设备及存储介质
CN117851462A (zh) 一种财富数据交互式管理系统及方法
Li et al. TAS: Personalized Text-guided Audio Spatialization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210921