CN108446571A - 一种大数据脱敏方法 - Google Patents

一种大数据脱敏方法 Download PDF

Info

Publication number
CN108446571A
CN108446571A CN201810241751.0A CN201810241751A CN108446571A CN 108446571 A CN108446571 A CN 108446571A CN 201810241751 A CN201810241751 A CN 201810241751A CN 108446571 A CN108446571 A CN 108446571A
Authority
CN
China
Prior art keywords
data
database
code
treated
condition code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810241751.0A
Other languages
English (en)
Inventor
赵世
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui 1186 Materials Technology Co Ltd
Original Assignee
Anhui 1186 Materials Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui 1186 Materials Technology Co Ltd filed Critical Anhui 1186 Materials Technology Co Ltd
Priority to CN201810241751.0A priority Critical patent/CN108446571A/zh
Publication of CN108446571A publication Critical patent/CN108446571A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种大数据脱敏方法,其特征在于,所述方法包括如下步骤:S1:在数据采集后将采集的数据进行检测,通过预先输入数据库的特征码与采集的数据进行的特征码进行比对,将采集数据的特征码与数据库内预存的特征码一致的数据进行列出;S2:将列出的数据进行的预存特征码进行删除,并保留数据的其他数据源代码,将处理后的数据与原数据进行数据对比,将对比结果输出至外部设备;S3:通过外部设备进行反馈,并根据反馈结果进行下一步操作,若反馈结果为终止,则停止对处理后的数据进行脱敏,直接将处理后的数据发送至数据库内进行存储,若反馈结果需要进行脱敏,进入步骤S4;S4:将处理后的数据中加入数据变形码。

Description

一种大数据脱敏方法
技术领域
本发明涉及一种大数据脱敏方法,具体涉及一种大数据脱敏方法。
背景技术
现有技术下,为了保障数据使用过程中的安全,一般采用数据脱敏的方法,对敏感数据进行脱敏,但是已有的方法都是针对数据库进行脱敏,具体的过程如下:
1、基于规则的方式识别数据库中的敏感数据和敏感字段;
2、采用遮挡、替换、随机变换、加密的方式对敏感数据进行脱敏;
3、记录数据脱敏的日志,以供用户查询脱敏任务的执行情况。
随着数据隐私保护越来越重要,政府和企业都采用了数据库脱敏的方式来保障数据的安全,但是仍然存在以下问题:
1、数据资源有结构化、半结构化和非结构化的数据类型,目前,大多数据研究都只针对结构化的数据库数据,如何对图片、文件和多媒体(视频、音频)进行敏感数据脱敏仍然处于探索阶段,没有成熟的方法和流程。
2、已有的敏感数据识别大都是基于规则发现和人工定义的方法,基于规则发现的方法可以有效识别符合规则定义的敏感数据,但是会遗漏掉大量无规则的敏感数据,降低敏感数据识别的准确率;另一方面基于人工定义的方式在数据量比较大的情况下,会增加用户的负担,降低系统的可用性与易用性。
3、现有的数据脱敏仅仅考虑了单个节点敏感数据的识别,忽略了多级部门的敏感数据脱敏及监管的问题。
4、数据拥有者和政府如何对数据脱敏的过程进行监控,分析脱敏日志,实时审计,监测异常行为,及时防止敏感数据泄露,是大部分数据脱敏系统并未考虑的问题,却是亟待解决的问题。
因此,大数据领域亟需一种安全、高效的大数据脱敏方法,既可以实现各种数据类型的敏感数据精准识别与数据脱敏,保障数据的可用性,又可以保证数据脱敏性能的同时,实现敏感数据的多级安全管理。
发明内容
本发明所要解决的技术问题是需要在高效的进行大数据脱敏时,还能够对数据内的异常数据进行判断分离删除,保证存储数据的准确、安全,目的在于提供一种大数据脱敏方法,解决上述的问题。
本发明通过下述技术方案实现:
一种大数据脱敏方法,其特征在于,所述方法包括如下步骤:
S1:在数据采集后将采集的数据进行检测,通过预先输入数据库的特征码与采集的数据进行的特征码进行比对,将采集数据的特征码与数据库内预存的特征码一致的数据进行列出; S2:将列出的数据进行的预存特征码进行删除,并保留数据的其他数据源代码,将处理后的数据与原数据进行数据对比,将对比结果输出至外部设备;S3:通过外部设备进行反馈,并根据反馈结果进行下一步操作,若反馈结果为终止,则停止对处理后的数据进行脱敏,直接将处理后的数据发送至数据库内进行存储,若反馈结果需要进行脱敏,进入步骤S4;S4:将处理后的数据中加入数据变形码,将处理后的数据进行变形,将变形后的数据发送至数据库内进行存储。在目前的大数据脱敏方法中,通常重点都在脱敏上,但是目前的技术对数据脱敏程度还是较低,若使用比较复杂的脱敏技术,则会造成原本数据的杂余数据量增多,增大存储量的难度。目前,数据内部的木马程序增多,并且无关数据字符也有很多,这样进行存储,在加上脱敏所需要的代码对存储模块的要求很高,对此,本申请文件将对采集的数据进行一侧筛检,利用数据库预先存储的特征码进行对比,在对比一致后,能够将有该类特征码的数据进行查验出来,并将该部分特征码进行删除,并处理后的数据发送至外部设置,由人工进行判断是否进行存储,而这些特征码则可以采用木马数据库内的木马特征、杂余数据特征等信息进行判断。若需要则继续脱敏,若不需要进行脱敏则直接就可以进行存储,这样能够将数据字节压缩,保证数据安全和完整的前提下,能够有效的进行数据量的存储,还能够根据用户的要求,进行脱敏操作。
进一步地,所述数据变形码采用分段结构,在采集数据中任意一个字节位置加入一段掩码字节,通过掩码字节对目标数据代码进行掩藏。通过分段结构的数据变形,能够加入多段的掩码字节,保证数据安全进行脱敏。
进一步地,所述外部设备采用PC机、笔记本电脑、平板电脑、手机中任意一种。采用多种外部设备进行结果输出的接收,能够让用户在第一时间获取输出结果的信息,进行及时的处理。
进一步地,所述数据库对数据进行种类分类,所述数据库数据溢出后将最早存储的数据内容进行覆盖。为了避免出现数据库内的最新数据遗失的情况,采用这种覆盖式数据式的存储方式,能够有效避免最新产生的数据遗失。而较早的数据内容能够通过移动硬盘进行导出,节省存储空间。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明一种大数据脱敏方法,能够在数据脱敏前,对数据情况进行判断,避免出现木马数据影响数据库;
2、本发明一种大数据脱敏方法,设置的外部设备,能够让用户在第一时间获取数据信息,能够及时进行判断;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
本发明一种大数据脱敏方法,其特征在于,所述方法包括如下步骤:
S1:在数据采集后将采集的数据进行检测,通过预先输入数据库的特征码与采集的数据进行的特征码进行比对,将采集数据的特征码与数据库内预存的特征码一致的数据进行列出; S2:将列出的数据进行的预存特征码进行删除,并保留数据的其他数据源代码,将处理后的数据与原数据进行数据对比,将对比结果输出至外部设备;S3:通过外部设备进行反馈,并根据反馈结果进行下一步操作,若反馈结果为终止,则停止对处理后的数据进行脱敏,直接将处理后的数据发送至数据库内进行存储,若反馈结果需要进行脱敏,进入步骤S4;S4:将处理后的数据中加入数据变形码,将处理后的数据进行变形,将变形后的数据发送至数据库内进行存储。在目前的大数据脱敏方法中,通常重点都在脱敏上,但是目前的技术对数据脱敏程度还是较低,若使用比较复杂的脱敏技术,则会造成原本数据的杂余数据量增多,增大存储量的难度。目前,数据内部的木马程序增多,并且无关数据字符也有很多,这样进行存储,在加上脱敏所需要的代码对存储模块的要求很高,对此,本申请文件将对采集的数据进行一侧筛检,利用数据库预先存储的特征码进行对比,在对比一致后,能够将有该类特征码的数据进行查验出来,并将该部分特征码进行删除,并处理后的数据发送至外部设置,由人工进行判断是否进行存储,而这些特征码则可以采用木马数据库内的木马特征、杂余数据特征等信息进行判断。若需要则继续脱敏,若不需要进行脱敏则直接就可以进行存储,这样能够将数据字节压缩,保证数据安全和完整的前提下,能够有效的进行数据量的存储,还能够根据用户的要求,进行脱敏操作。
所述数据变形码采用分段结构,在采集数据中任意一个字节位置加入一段掩码字节,通过掩码字节对目标数据代码进行掩藏。通过分段结构的数据变形,能够加入多段的掩码字节,保证数据安全进行脱敏。所述外部设备采用PC机、笔记本电脑、平板电脑、手机中任意一种。采用多种外部设备进行结果输出的接收,能够让用户在第一时间获取输出结果的信息,进行及时的处理。
所述数据库对数据进行种类分类,所述数据库数据溢出后将最早存储的数据内容进行覆盖。为了避免出现数据库内的最新数据遗失的情况,采用这种覆盖式数据式的存储方式,能够有效避免最新产生的数据遗失。而较早的数据内容能够通过移动硬盘进行导出,节省存储空间。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种大数据脱敏方法,其特征在于,所述方法包括如下步骤:
S1:在数据采集后将采集的数据进行检测,通过预先输入数据库的特征码与采集的数据进行的特征码进行比对,将采集数据的特征码与数据库内预存的特征码一致的数据进行列出;
S2:将列出的数据进行的预存特征码进行删除,并保留数据的其他数据源代码,将处理后的数据与原数据进行数据对比,将对比结果输出至外部设备;
S3:通过外部设备进行反馈,并根据反馈结果进行下一步操作,若反馈结果为终止,则停止对处理后的数据进行脱敏,直接将处理后的数据发送至数据库内进行存储,若反馈结果需要进行脱敏,进入步骤S4;
S4:将处理后的数据中加入数据变形码,将处理后的数据进行变形,将变形后的数据发送至数据库内进行存储。
2.根据权利要求1所述的一种大数据脱敏方法,其特征在于,所述数据变形码采用分段结构,在采集数据中任意一个字节位置加入一段掩码字节,通过掩码字节对目标数据代码进行掩藏。
3.根据权利要求1所述的一种大数据脱敏方法,其特征在于,所述外部设备采用PC机、笔记本电脑、平板电脑、手机中任意一种。
4.根据权利要求1所述的一种大数据脱敏方法,其特征在于,所述数据库对数据进行种类分类,所述数据库数据溢出后将最早存储的数据内容进行覆盖。
CN201810241751.0A 2018-03-22 2018-03-22 一种大数据脱敏方法 Withdrawn CN108446571A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810241751.0A CN108446571A (zh) 2018-03-22 2018-03-22 一种大数据脱敏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810241751.0A CN108446571A (zh) 2018-03-22 2018-03-22 一种大数据脱敏方法

Publications (1)

Publication Number Publication Date
CN108446571A true CN108446571A (zh) 2018-08-24

Family

ID=63196177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810241751.0A Withdrawn CN108446571A (zh) 2018-03-22 2018-03-22 一种大数据脱敏方法

Country Status (1)

Country Link
CN (1) CN108446571A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109698839A (zh) * 2019-02-21 2019-04-30 湖南智远数通科技股份有限公司 一种基于非对称算法的脱敏数据比对方法及装置
CN110941604A (zh) * 2018-09-20 2020-03-31 北京国双科技有限公司 一种数据存储方法及装置
CN111090884A (zh) * 2019-12-20 2020-05-01 宜宾宝包网络技术有限公司 一种网络数据的结构化处理方法
CN111143875A (zh) * 2019-12-17 2020-05-12 航天信息股份有限公司 一种基于大数据的数据信息脱敏方法及系统
CN113420328A (zh) * 2021-06-23 2021-09-21 鹤壁国立光电科技股份有限公司 一种大数据批量共享交换系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130283059A1 (en) * 2012-04-23 2013-10-24 Verizon Patent And Licensing Inc. Data masking
CN106339942A (zh) * 2016-08-31 2017-01-18 国信优易数据有限公司 一种金融信息处理方法和系统
CN106599713A (zh) * 2016-11-11 2017-04-26 中国电子科技网络信息安全有限公司 一种基于大数据的数据库脱敏系统及方法
CN107526813A (zh) * 2017-08-23 2017-12-29 北京明朝万达科技股份有限公司 一种脱敏数据的处理方法和装置
CN107609418A (zh) * 2017-08-31 2018-01-19 深圳市牛鼎丰科技有限公司 文本数据的脱敏方法、装置、存储设备以及计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130283059A1 (en) * 2012-04-23 2013-10-24 Verizon Patent And Licensing Inc. Data masking
CN106339942A (zh) * 2016-08-31 2017-01-18 国信优易数据有限公司 一种金融信息处理方法和系统
CN106599713A (zh) * 2016-11-11 2017-04-26 中国电子科技网络信息安全有限公司 一种基于大数据的数据库脱敏系统及方法
CN107526813A (zh) * 2017-08-23 2017-12-29 北京明朝万达科技股份有限公司 一种脱敏数据的处理方法和装置
CN107609418A (zh) * 2017-08-31 2018-01-19 深圳市牛鼎丰科技有限公司 文本数据的脱敏方法、装置、存储设备以及计算机设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941604A (zh) * 2018-09-20 2020-03-31 北京国双科技有限公司 一种数据存储方法及装置
CN109698839A (zh) * 2019-02-21 2019-04-30 湖南智远数通科技股份有限公司 一种基于非对称算法的脱敏数据比对方法及装置
CN111143875A (zh) * 2019-12-17 2020-05-12 航天信息股份有限公司 一种基于大数据的数据信息脱敏方法及系统
CN111143875B (zh) * 2019-12-17 2024-03-08 航天信息股份有限公司 一种基于大数据的数据信息脱敏方法及系统
CN111090884A (zh) * 2019-12-20 2020-05-01 宜宾宝包网络技术有限公司 一种网络数据的结构化处理方法
CN113420328A (zh) * 2021-06-23 2021-09-21 鹤壁国立光电科技股份有限公司 一种大数据批量共享交换系统
CN113420328B (zh) * 2021-06-23 2023-04-28 鹤壁国立光电科技股份有限公司 一种大数据批量共享交换系统

Similar Documents

Publication Publication Date Title
CN108446571A (zh) 一种大数据脱敏方法
US11003773B1 (en) System and method for automatically generating malware detection rule recommendations
US10601848B1 (en) Cyber-security system and method for weak indicator detection and correlation to generate strong indicators
CN108804299B (zh) 应用程序异常处理方法及装置
US7961633B2 (en) Method and system for real time detection of threats in high volume data streams
CN110113315B (zh) 一种业务数据的处理方法及设备
CN107742079B (zh) 恶意软件识别方法及系统
CN106897197B (zh) 错误日志的去重方法及装置
CN113486350B (zh) 恶意软件的识别方法、装置、设备及存储介质
CN113489713A (zh) 网络攻击的检测方法、装置、设备及存储介质
CN109450869B (zh) 一种基于用户反馈的业务安全防护方法
WO2021120628A1 (zh) 基于区块链的敏感词检测方法、装置、计算机设备和计算机可读存储介质
CN103488947A (zh) 即时通信客户端盗号木马程序的识别方法及装置
CN116340989A (zh) 一种数据脱敏方法、装置、电子设备及存储介质
CN112769823A (zh) 一种基于信息管理的安全网络审计方法及系统
CN115174233A (zh) 基于大数据的网络安全分析方法、设备、系统及介质
CN109240916B (zh) 信息输出控制方法、装置及计算机可读存储介质
CN113114691B (zh) 一种网络入侵检测方法、系统、设备和可读存储介质
CN113378161A (zh) 一种安全检测方法、装置、设备及存储介质
CN112685255A (zh) 一种接口监控方法、装置、电子设备及存储介质
CN114584391B (zh) 异常流量处理策略的生成方法、装置、设备及存储介质
CN113518055B (zh) 数据安全防护的处理方法及装置、存储介质、终端
US11763004B1 (en) System and method for bootkit detection
CN107103242B (zh) 数据的获取方法及装置
CN114741692A (zh) 一种后门流量识别的方法、系统、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180824