CN111199054A - 一种数据脱敏方法、装置及数据脱敏设备 - Google Patents

一种数据脱敏方法、装置及数据脱敏设备 Download PDF

Info

Publication number
CN111199054A
CN111199054A CN201911330452.5A CN201911330452A CN111199054A CN 111199054 A CN111199054 A CN 111199054A CN 201911330452 A CN201911330452 A CN 201911330452A CN 111199054 A CN111199054 A CN 111199054A
Authority
CN
China
Prior art keywords
data
desensitized
desensitization
preset
queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911330452.5A
Other languages
English (en)
Other versions
CN111199054B (zh
Inventor
刘永波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ankki Technology Co ltd
Original Assignee
Shenzhen Ankki Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ankki Technology Co ltd filed Critical Shenzhen Ankki Technology Co ltd
Priority to CN201911330452.5A priority Critical patent/CN111199054B/zh
Publication of CN111199054A publication Critical patent/CN111199054A/zh
Application granted granted Critical
Publication of CN111199054B publication Critical patent/CN111199054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及数据安全技术领域,尤其涉及一种数据脱敏方法、装置及数据脱敏设备,该方法通过获取数据库的dump文件;从所述dump文件中提取待脱敏的数据,并将所述待脱敏的数据存储至预设的数据队列中;识别所述数据队列中的待脱敏的数据的敏感类型;根据所述待脱敏的数据的敏感类型,确定对应的脱敏规则;根据对应的脱敏规则,对所述待脱敏的数据进行脱敏处理,并对所述脱敏处理后的数据进行存储。通过上述方式,首先从dump文件中高效地获取待脱敏的数据,然后确定敏感类型以及对应的脱敏规则,实现数据脱敏,能有效地对数据进行脱敏,脱敏效率高并且准确,可以对敏感数据进行有效的保护,防止核心数据泄露,并且脱敏后的数据不影响用户的业务系统。

Description

一种数据脱敏方法、装置及数据脱敏设备
技术领域
本发明实施例涉及数据安全技术领域,尤其涉及一种数据脱敏方法、装置及数据脱敏设备。
背景技术
数据脱敏是通过对某些敏感信息使用数据脱敏策略进行数据的变形,从而实现敏感隐私数据可靠保护的技术,其目的就是为了保证数据的安全性,避免数据泄露,将核心的数据脱敏成即符合用户要求,满足客户的需要的数据,同时也保证了数据的安全性。
本发明发明人在实现本发明实施例的过程中,发现:目前,数据脱敏产品,一方面,采用oracle数据库作为间接产品,实现dump文件脱敏,脱敏效率低,用户成本大;另一方面,通过操作指令判断sql语句的类型,确定敏感类型,准确率低,导致脱敏失败。
发明内容
本发明实施例主要解决的技术问题是提供一种数据脱敏方法、装置及数据脱敏设备,能够有效地对数据进行脱敏,脱敏效率高并且准确。
为解决上述技术问题,本发明实施例采用以下技术方案:
为解决上述技术问题,第一方面,本发明实施例中提供给了一种数据脱敏方法,包括:
获取数据库的dump文件;
从所述dump文件中提取待脱敏的数据,并将所述待脱敏的数据存储至预设的数据队列中;
识别所述数据队列中的待脱敏的数据的敏感类型;
根据所述待脱敏的数据的敏感类型,确定对应的脱敏规则;
根据对应的脱敏规则,对所述待脱敏的数据进行脱敏处理,并对所述脱敏处理后的数据进行存储。
在一些实施例中,所述从所述dump文件中提取待脱敏的数据,并将所述待脱敏的数据存储至预设的数据队列中的步骤,进一步包括:
读取所述dump文件中的数据信息,对所述数据信息进行修饰符去除处理;
对所述进行修饰符去除处理后的数据信息进行SQL解析,获取所述数据信息中的操作指令;
根据所述操作指令,提取与所述操作指令对应的数据对象,并将所述数据对象作为待脱敏的数据;
将所述待脱敏的数据存储至预设的数据队列中。
在一些实施例中,所述预设的数据队列为多个,
所述将所述待脱敏的数据存储至所述预设的数据队列中的步骤,进一步包括:
根据所述操作指令的类别,将所述待脱敏的数据分类;
每一类所述待脱敏的数据分别存储至对应的数据队列中。
在一些实施例中,所述识别所述数据队列中的待脱敏的数据的敏感类型的步骤,进一步包括:
将所述待脱敏的数据输入预设的数据结构分类模型,识别所述待脱敏的数据的数据结构;
结合与所述数据结构对应的预设敏感分类模型,识别所述待脱敏的数据的敏感类型。
在一些实施例中,所述结合与所述数据结构对应的预设敏感分类模型,识别所述待脱敏的数据的敏感类型的步骤,进一步包括:
根据所述待脱敏的数据的数据结构,按照预设的数据结构与敏感分类模型的对应关系,确定与所述数据结构对应的预设敏感分类模型;
将所述待脱敏的数据输入预设敏感分类模型,识别所述待脱敏的数据的敏感类型。
在一些实施例中,所述根据所述待脱敏的数据的敏感类型,确定对应的脱敏规则的步骤,进一步包括:
预设与各敏感类型分别对应的脱敏规则;
根据所待脱敏的数据的敏感类型,确定对应的脱敏规则。
在一些实施例中,所述对所述脱敏处理后的数据进行存储的步骤,包括:
将所述脱敏处理后的数据封装至所述dump文件中。
为解决上述技术问题,第二方面,本发明实施例中提供给了一种数据脱敏装置,包括:
获取模块,用于获取数据库的dump文件;
提取模块,用于从所述dump文件中提取待脱敏的数据,并将所述待脱敏的数据存储至预设的数据队列中;
识别模块,用于识别所述数据队列中的待脱敏的数据的敏感类型;
确定模块,用于根据所述待脱敏的数据的敏感类型,确定对应的脱敏规则;
脱敏模块,用于根据对应的脱敏规则,对所述待脱敏的数据进行脱敏处理,并对脱敏处理后的数据进行存储。
为解决上述技术问题,第三方面,本发明实施例中还提供了一种数据脱敏设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上第一方面所述的方法。
为解决上述技术问题,第四方面,本发明实施例中还提供了一种包含程序代码的计算机程序产品,其特征在于,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行如上第一方面所述的方法。
本发明实施例的有益效果:区别于现有技术的情况,本发明实施例提供的一种数据脱敏方法、装置及数据脱敏设备,该方法通过获取数据库的dump文件;从所述dump文件中提取待脱敏的数据,并将所述待脱敏的数据存储至预设的数据队列中;识别所述数据队列中的待脱敏的数据的敏感类型;根据所述待脱敏的数据的敏感类型,确定对应的脱敏规则;根据对应的脱敏规则,对所述待脱敏的数据进行脱敏处理,并对所述脱敏处理后的数据进行存储。通过上述方式,首先从dump文件中高效地获取待脱敏的数据,然后确定敏感类型以及对应的脱敏规则,实现数据脱敏,能够有效地对数据进行脱敏,脱敏效率高并且准确,可以对敏感数据进行有效的保护,防止核心数据泄露,并且脱敏后的数据不影响用户的业务系统。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明实施例中数据脱敏方法的实施例的应用环境示意图;
图2是本发明实施例提供的一种数据脱敏方法的流程图;
图3是图2所示方法中步骤120的一子流程图;
图4是图3所示方法中步骤124的一子流程图;
图5是图2所示方法中步骤130的一子流程图;
图6是图5所示方法中步骤132的一子流程图;
图7是图2所示方法中步骤140的一子流程图;
图8是本发明实施例提供的一种数据脱敏装置的结构示意图;
图9是本发明实施例提供的执行上述数据脱敏方法的数据脱敏设备的硬件结构示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,如果不冲突,本发明实施例中的各个特征可以相互结合,均在本申请的保护范围之内。另外,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。此外,本文所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定,仅是对功能和作用基本相同的相同项或相似项进行区分。
除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本说明书中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
请参见图1,为应用于本发明的数据脱敏方法的实施例的应用环境的示意图,该系统包括:数据库服务器10和数据脱敏设备20。
所述数据库服务器10和所述数据脱敏设备20通信连接,所述通信连接可以是有线连接,例如:光纤电缆,也可以是无线通信连接,例如:WIFI连接、蓝牙连接、4G无线通信连接,5G无线通信连接等等。
所述数据脱敏设备20为能够按照程序运行,自动、高速处理海量数据的设备,其通常是由硬件系统和软件系统所组成,例如:计算机、智能手机等等。数据脱敏设备20可以是本地设备,其直接与所述数据库服务器10连接;也可以是云设备,例如:云服务器、云主机、云服务平台、云计算平台等。云设备通过网络与所述数据库服务器10连接,并且两者通过预定的通信协议通信连接,在一些实施例,该通信协议可以是TCP/IP、NETBEUI和IPX/SPX等协议。
所述数据库服务器10可以是物理服务器,也可以是云服务器、云主机、云服务平台和云计算平台等。所述数据库服务器10装有一个或多个数据库,例如Oracle数据库或者mysql数据库,可以理解的是,所述服务器还可以为装有一个或多个数据库的计算机。
在本发明实施例中,首先由数据库服务器10中的数据库生成dump文件,然后将所述dump文件发送给数据脱敏设备20,以由所述数据脱敏设备20对dump文件中的数据进行脱敏。可以理解的是,所述dump文件也可由人工导出后,拷贝至所述数据脱敏设备20,然后数据脱敏设备20对所述dump文件中的数据进行脱敏。
本发明实施例提供了一种应用于上述应用环境的数据脱敏方法,该方法可被上述数据脱敏设备20执行,请参阅图2,该方法包括:
步骤110:获取数据库的dump文件。
所述dump文件是数据库中进程的内存镜像,存储有访问数据库的程序及其执行状态,即dump文件中的数据信息包括数据访问请求信息以及回复信息。数据库中的数据通常采用表的形式存储,用记录号表示行,用字段名称表示列,每条记录均有各自的id,例如在学生信息表中,id可为学生的学号,记录可包括学生的姓名、班级或学号等。所述访问请求信息包含SQL语句指令,一般规定了对数据库中表的访问范围,例如请求某个id的记录或者某个字段;所述回复信息是数据库根据请求信息回复对应的数据,例如在学生信息表中,若请求查询学生A的班级号,则根据学生A的id以及字段“班级号”,定位到学生A的班级号。
数据库的dump文件是指用户使用的数据库中的dump文件。所述数据库的dump文件由用户提供,即所述dump文件可由用户的数据库管理系统自身提供的工具直接生成或者由导出命令符直接导出dump文件,例如通过plsql的工具导出,或者,mysql的导出命令mysqldump等。然后,将生成的脱敏前的dump文件传递给数据脱敏设备。可以理解的是,所述脱敏前的dump文件可由通信传输或人工拷贝至数据脱敏设备。通过dump文件存储数据信息,存储和传递效率高,便于后续的脱敏处理。
步骤120:从所述dump文件中提取待脱敏的数据,并将所述待脱敏的数据存储至预设的数据队列中。
所述待脱敏的数据是指在数据库的访问以及回复中涉及的敏感数据,包括写入表中的数据和数据库回复的相应表中的数据,例如电话号码、身份证或者邮箱等。由于dump文件中的数据信息包括数据访问请求信息(包括SQL语句)以及回复信息(表中的记录或字段),因此首先需要从所述访问请求信息以及回复信息中,提取涉及的敏感数据,作为待脱敏的数据。将所述待脱敏的数据存储至预设的数据队列中,以便进行脱敏处理。
在一些实施例中,请参阅图3,所述步骤120进一步包括:
步骤121:读取所述dump文件中的数据信息,对所述数据信息进行修饰符去除处理。
所述修饰符包括数据对象号、数据文件号、数据文件中的块号以及块中的行号,对数据信息进行修饰符去除处理,即删除修饰符,方便SQL语句的解析,提高SQL解析速度。
步骤122:对所述进行修饰符去除处理后的数据信息进行SQL解析,获取所述数据信息中的操作指令。
所述SQL解析是指对数据信息中的SQL语句进行拆分识别,从而解析出操作指令,所述操作指令可以是所述数据信息中的SQL语法。可以通过现有的一些SQL语法分析软件或SQL语法分析方法对所述数据信息中的SQL语句的语法进行分析,以获取操作指令。
通常,所述操作指令包括建表、修改表、删除表、修改字段、查询数据等访问操作。所述访问操作可分为两类,一是对数据库中现有的数据对象进行引用、管理、读取及修改等操作,另一类是向数据库中添加新的数据,例如建表、添加记录等。
步骤123:根据所述操作指令,提取与所述操作指令对应的数据对象,并将所述数据对象作为待脱敏的数据。
所述数据对象是指被所述操作指令操作的数据,例如执行select语句指令查询表A中字段1的语句,则表A和字段1为select语句指令对应的数据对象;例如在数据库中新建一个表B,表B中的字段2中的数据为表A中字段1中指定的数据,则表A和字段1为建表操作指令所对应的数据对象,在此不对各操作指令进行赘述。
操作指令与被所述操作指令操作的数据是对应的,因此可通过操作指令,获取与所述操作指令对应的数据对象,
步骤124:将所述待脱敏的数据存储至预设的数据队列中。
所述数据队列即为一种特殊的线性表,线性表的队头进行删除操作,线性表的队尾进行插入操作。在获取待脱敏的数据后,将其插入所述数据队列的队尾以进行脱敏,对完成脱敏后的数据,将其从队头删除。通过此方式,提取待脱敏的数据和脱敏处理可同时进行,即多线程处理,能实现高效率地对敏感信息进行脱敏处理。
在一些实施例中,所述预设的数据队列为多个,请参阅图4,所述步骤124进一步包括:
步骤1241:根据所述操作指令的类别,将所述待脱敏的数据分类。
所述操作指令可按功能进行分类,例如可分为增、删、改、查这四类,则所述待脱敏的数据相应的也分为增、删、改、查这四类。由于每一类待脱敏的数据均有各自的特点,例如对于drop操作指令对应的数据对象,直接进行删除即可,无需进行脱敏或相应的脱敏判断;对于select操作指令对应的数据对象,应进一步判断select操作指令查询的数据是否需要进行脱敏处理,因此,将待脱敏的数据按操作指令的类别分类,便于后续的脱敏处理,可提高脱敏速度。
步骤1242:每一类所述待脱敏的数据分别存储至对应的数据队列中。
每一类待脱敏的数据分别存储至对应的数据队列中,从而多个数据队列可并行脱敏扫描及处理,多线程处理,能能实现高效率地对敏感信息进行脱敏处理。
步骤130:识别所述数据队列中的待脱敏的数据的敏感类型。
所述敏感类型包括身份证号码、手机号、地址、姓名、邮件、email、公司或宗教等,可根据用户需求自行定义,可以理解的是,敏感类型基于的数据,一般为结构化数据,例如身份证号码和手机号均有特定的结构格式。在脱敏处理中,脱敏规则是依据敏感类型而设置的,例如手机号码隐藏中间4位数字等。在确定脱敏规则之前,应该识别待脱敏的数据的敏感类型,以进行满足用户需求的脱敏处理。其中,识别待脱敏的数据的敏感类型可通过训练好的分类算法或其组合变形实现,所述分类算法可为现有的文本分类算法,例如TextCNN算法或者softmax分类算法等。
在一些实施例中,请参阅图5,所述步骤130进一步包括:
步骤131:将所述待脱敏的数据输入预设的数据结构分类模型,识别所述待脱敏的数据的数据结构。
由于敏感类型基于的数据,一般为结构化数据,有一定的结构规律,例如手机号码为11位数,并且以1开头,若待脱敏的数据为11位以1开头的数字,则才有可能为手机号码。所述数据结构分类模型可识别出待脱敏的数据的数据结构,以对所述待脱敏的数据进行粗略判断,节省识别敏感类型的时间,提高识别效率。可以理解的是,所述数据结构分类模型可由通过判断文本长度(len)、数据类型(整数或字符串等)、首字符等组合而编写。
步骤132:结合与所述数据结构对应的预设敏感分类模型,识别所述待脱敏的数据的敏感类型。
在对所述待处理的敏感数据进行粗略判断后,可确定待处理的敏感数据的数据结构,每一数据结构有相应的敏感分类模型,例如若待脱敏的数据为11为以1开头的数字,则对应手机号码分类模型,进一步通过手机号码分类模型判断所述待脱敏的数据是否为手机号码。通过此种方式,将敏感类型的多分类问题,转化为多个二分类问题,可减少循环判断的次数,从而可提高识别效率。
在一些实施例中,请参阅图6,所述步骤132进一步包括:
步骤1321:根据所述待脱敏的数据的数据结构,按照预设的数据结构与敏感分类模型的对应关系,确定与所述数据结构对应的预设敏感分类模型。
由于所述待脱敏的数据的数据结构与敏感分类模型一一对应,从而根据所述待脱敏的数据的数据结构,按照预设的数据结构与敏感分类模型的对应关系,即可确定与所述数据结构对应的预设敏感分类模型。可以理解的是,所述数据结构和预设敏感分类模型可根据用户需求以及脱敏数据的用户而设置,例如当贷款表用于分析贷款金额情况时,不应对贷款金额进行脱敏,可对客户属性进行脱敏,当贷款表用于分析客户画像时,则不应对客户属性进行脱敏,可以对贷款金额进行脱敏等。
步骤1322:将所述待脱敏的数据输入预设敏感分类模型,识别所述待脱敏的数据的敏感类型。
在确定敏感分类模型后,将所述待脱敏的数据输入预设敏感分类模型,从而可以识别所述待脱敏的数据的敏感类型。可以理解的是,所述预设敏感分类模型可正则表达式等对文本操作语言进行编写,所述正则表达式可筛选出或识别出符合某个结构(规则)的文本。
通过上述方式,将敏感类型的多分类问题,转化为多个二分类问题,且识别模型得到了进一步简化,一方面,减少了循环判断的次数,另一方面,简化的识别模型可提高识别效率,同时,相对于多分类模型,具有更高的准确性。
步骤140:根据所述待脱敏的数据的敏感类型,确定对应的脱敏规则。
在确定所述待脱敏的数据的敏感类型后,可根据经验或需求设置对应的脱敏规则,所述脱敏规则包括替换、无效化(用特殊符号代替真值或部分真值)、掩码、乱序、平均值等,以隐藏真实数据,对真实数据进行脱敏。可以理解的是,用户可根据实际需求,确定对应的脱敏规则,例如根据保密等级,设置对应的脱敏规则。
在一些实施例中,请参阅图7,所述步骤140进一步包括:
步骤141:预设与各敏感类型分别对应的脱敏规则。
敏感类型与脱敏规则相对应,所述脱敏规则可根据需求设置,例如对于工资,即可以通过平均值的方式脱敏,也可通过无效化或掩码等方式进行脱敏。
步骤142:根据所待脱敏的数据的敏感类型,确定对应的脱敏规则。
在识别出待脱敏的数据的敏感类型后,根据敏感类型与脱敏规则的映射关系,即可确定对应的脱敏规则。
根据对应的脱敏规则,对所述待脱敏的数据进行相应的替换、掩码等脱敏处理,以隐藏真实数据,保护数据安全。
步骤150:根据对应的脱敏规则,对所述待脱敏的数据进行脱敏处理,并对所述脱敏处理后的数据进行存储。
在确定脱敏规则后,按脱敏规则对待脱敏的数据进行脱敏处理,并对脱敏处理后的数据进行存储,以方便后续的应用,例如将脱敏后的数据用于测试、开发、分析等,满足业务需要的同时保障生产数据库的安全。在一些实施例中,所述对所述脱敏处理后的数据进行存储,具体可将所述脱敏处理后的数据封装至所述dump文件中。通过dump文件存储数据信息,存储和传递效率高。
本发明中的实施例,通过获取数据库的dump文件;从所述dump文件中提取待脱敏的数据,并将所述待脱敏的数据存储至预设的数据队列中;识别所述数据队列中的待脱敏的数据的敏感类型;根据所述待脱敏的数据的敏感类型,确定对应的脱敏规则;根据对应的脱敏规则,对所述待脱敏的数据进行脱敏处理,并对所述脱敏处理后的数据进行存储。通过上述方式,首先从dump文件中高效地获取待脱敏的数据,然后确定敏感类型以及对应的脱敏规则,实现数据脱敏,能够有效地对数据进行脱敏,脱敏效率高并且准确,可以对敏感数据进行有效的保护,防止核心数据泄露,并且脱敏后的数据不影响用户的业务系统。
本发明实施例还提供了一种数据脱敏装置,请参阅图8,其示出了本申请实施例提供的一种数据脱敏装置的结构,该数据脱敏装置200包括:获取模块210、提取模块220、识别模块230、确定模块240和脱敏模块250。
获取模块210,用于获取数据库的dump文件。提取模块220,用于从所述dump文件中提取待脱敏的数据,并将所述待脱敏的数据存储至预设的数据队列中。识别模块230,用于识别所述数据队列中的待脱敏的数据的敏感类型。确定模块240,用于根据所述待脱敏的数据的敏感类型,确定对应的脱敏规则。脱敏模块250,用于根据对应的脱敏规则,对所述待脱敏的数据进行脱敏处理,并对脱敏处理后的数据进行存储。在一些实施例中,对所述脱敏处理后的数据进行存储具体为将所述脱敏处理后的数据封装至所述dump文件中
在一些实施例中,所述提取模块220还包括处理单元、获取单元、提取单元和存储单元(图未示)。其中,处理单元,用于读取所述dump文件中的数据信息,对所述数据信息进行修饰符去除处理。获取单元,用于对所述进行修饰符去除处理后的数据信息进行SQL解析,获取所述数据信息中的操作指令。提取单元,用于根据所述操作指令,提取与所述操作指令对应的数据对象,并将所述数据对象作为待脱敏的数据。存储单元,用于将所述待脱敏的数据存储至预设的数据队列中。
在一些实施例中,所述预设的数据队列为多个,所述存储单元具体用于所述将所述待脱敏的数据存储至所述预设的数据队列中的步骤,进一步包括:根据所述操作指令的类别,将所述待脱敏的数据分类;每一类所述待脱敏的数据分别存储至对应的数据队列中。
在一些实施例中,所述识别模块还包括第一识别单元和第二识别单元(图未示)。其中,第一识别单元,用于将所述待脱敏的数据输入预设的数据结构分类模型,识别所述待脱敏的数据的数据结构。第二识别单元,用于结合与所述数据结构对应的预设敏感分类模型,识别所述待脱敏的数据的敏感类型。
在一些实施例中,所述第二识别单元具体用于根据所述待脱敏的数据的数据结构,按照预设的数据结构与敏感分类模型的对应关系,确定与所述数据结构对应的预设敏感分类模型;将所述待脱敏的数据输入预设敏感分类模型,识别所述待脱敏的数据的敏感类型。
在一些实施例中,所述确定模块240具体用于预设与各敏感类型分别对应的脱敏规则;根据所待脱敏的数据的敏感类型,确定对应的脱敏规则。
本发明中的实施例,该数据脱敏装置200通过获取模块210获取数据库的dump文件;提取模块220从所述dump文件中提取待脱敏的数据,并将所述待脱敏的数据存储至预设的数据队列中;识别模块230识别所述数据队列中的待脱敏的数据的敏感类型;确定模块240根据所述待脱敏的数据的敏感类型,确定对应的脱敏规则;脱敏模块250根据对应的脱敏规则,对所述待脱敏的数据进行脱敏处理,并对所述脱敏处理后的数据进行存储。通过上述方式,首先从dump文件中高效地获取待脱敏的数据,然后确定敏感类型以及对应的脱敏规则,实现数据脱敏,能够有效地对数据进行脱敏,脱敏效率高并且准确,可以对敏感数据进行有效的保护,防止核心数据泄露,并且脱敏后的数据不影响用户的业务系统。
本发明实施例还提供了一种数据脱敏设备300,请参阅图9,所述智能设备包括:至少一个处理器310;以及,与所述至少一个处理器通信连接的存储器320,图9中以一个处理器为例。
所述存储器320存储有可被所述至少一个处理器310执行的指令,所述指令被所述至少一个处理器310执行,以使所述至少一个处理器310能够执行上述图2至图7所述数据脱敏方法。所述处理器310和所述存储器320可以通过总线或者其他方式连接,图9中以通过总线连接为例。
存储器320作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的数据脱敏方法的程序指令/模块,例如,附图8所示的各个模块。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例数据脱敏方法。
存储器320可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据数据脱敏装置的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器320,还可以包括非易失性存储器320,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器320可选包括相对于处理器310远程设置的存储器320,这些远程存储器320可以通过网络连接至数据脱敏装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器320中,当被所述一个或者多个处理器310执行时,执行上述任意方法实施例中的数据脱敏方法,例如,执行以上描述的图2至图7的方法步骤,实现图8中的各模块的功能。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例还提供了一种包含程序代码的计算机程序产品,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行上述任一方法实施例中数据脱敏方法,例如,执行以上描述的图2至图7的方法步骤,实现图8中各模块的功能。
本发明实施例的有益效果:区别于现有技术的情况,本发明实施例提供的一种数据脱敏方法、装置及数据脱敏设备,该方法通过获取数据库的dump文件;从所述dump文件中提取待脱敏的数据,并将所述待脱敏的数据存储至预设的数据队列中;识别所述数据队列中的待脱敏的数据的敏感类型;根据所述待脱敏的数据的敏感类型,确定对应的脱敏规则;根据对应的脱敏规则,对所述待脱敏的数据进行脱敏处理,并对所述脱敏处理后的数据进行存储。通过上述方式,首先从dump文件中高效地获取待脱敏的数据,然后确定敏感类型以及对应的脱敏规则,实现数据脱敏,能够有效地对数据进行脱敏,脱敏效率高并且准确,可以对敏感数据进行有效的保护,防止核心数据泄露,并且脱敏后的数据不影响用户的业务系统。
需要说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种数据脱敏方法,其特征在于,包括:
获取数据库的dump文件;
从所述dump文件中提取待脱敏的数据,并将所述待脱敏的数据存储至预设的数据队列中;
识别所述数据队列中的待脱敏的数据的敏感类型;
根据所述待脱敏的数据的敏感类型,确定对应的脱敏规则;
根据对应的脱敏规则,对所述待脱敏的数据进行脱敏处理,并对所述脱敏处理后的数据进行存储。
2.根据权利要求1所述的数据脱敏方法,其特征在于,所述从所述dump文件中提取待脱敏的数据,并将所述待脱敏的数据存储至预设的数据队列中的步骤,进一步包括:
读取所述dump文件中的数据信息,对所述数据信息进行修饰符去除处理;
对所述进行修饰符去除处理后的数据信息进行SQL解析,获取所述数据信息中的操作指令;
根据所述操作指令,提取与所述操作指令对应的数据对象,并将所述数据对象作为待脱敏的数据;
将所述待脱敏的数据存储至预设的数据队列中。
3.根据权利要求2所述的数据脱敏方法,其特征在于,所述预设的数据队列为多个,
所述将所述待脱敏的数据存储至所述预设的数据队列中的步骤,进一步包括:
根据所述操作指令的类别,将所述待脱敏的数据分类;
每一类所述待脱敏的数据分别存储至对应的数据队列中。
4.根据权利要求1所述的数据脱敏方法,其特征在于,所述识别所述数据队列中的待脱敏的数据的敏感类型的步骤,进一步包括:
将所述待脱敏的数据输入预设的数据结构分类模型,识别所述待脱敏的数据的数据结构;
结合与所述数据结构对应的预设敏感分类模型,识别所述待脱敏的数据的敏感类型。
5.根据权利要求4所述的数据脱敏方法,其特征在于,所述结合与所述数据结构对应的预设敏感分类模型,识别所述待脱敏的数据的敏感类型的步骤,进一步包括:
根据所述待脱敏的数据的数据结构,按照预设的数据结构与敏感分类模型的对应关系,确定与所述数据结构对应的预设敏感分类模型;
将所述待脱敏的数据输入预设敏感分类模型,识别所述待脱敏的数据的敏感类型。
6.根据权利要求1所述的数据脱敏方法,其特征在于,所述根据所述待脱敏的数据的敏感类型,确定对应的脱敏规则的步骤,进一步包括:
预设与各敏感类型分别对应的脱敏规则;
根据所待脱敏的数据的敏感类型,确定对应的脱敏规则。
7.根据权利要求1所述的数据脱敏方法,其特征在于,所述对所述脱敏处理后的数据进行存储的步骤,包括:
将所述脱敏处理后的数据封装至所述dump文件中。
8.一种数据脱敏装置,其特征在于,包括:
获取模块,用于获取数据库的dump文件;
提取模块,用于从所述dump文件中提取待脱敏的数据,并将所述待脱敏的数据存储至预设的数据队列中;
识别模块,用于识别所述数据队列中的待脱敏的数据的敏感类型;
确定模块,用于根据所述待脱敏的数据的敏感类型,确定对应的脱敏规则;
脱敏模块,用于根据对应的脱敏规则,对所述待脱敏的数据进行脱敏处理,并对脱敏处理后的数据进行存储。
9.一种数据脱敏设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7任一项所述的方法。
10.一种包含程序代码的计算机程序产品,其特征在于,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行如权利要求1至7中任一项所述的方法。
CN201911330452.5A 2019-12-20 2019-12-20 一种数据脱敏方法、装置及数据脱敏设备 Active CN111199054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911330452.5A CN111199054B (zh) 2019-12-20 2019-12-20 一种数据脱敏方法、装置及数据脱敏设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911330452.5A CN111199054B (zh) 2019-12-20 2019-12-20 一种数据脱敏方法、装置及数据脱敏设备

Publications (2)

Publication Number Publication Date
CN111199054A true CN111199054A (zh) 2020-05-26
CN111199054B CN111199054B (zh) 2023-09-19

Family

ID=70747048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911330452.5A Active CN111199054B (zh) 2019-12-20 2019-12-20 一种数据脱敏方法、装置及数据脱敏设备

Country Status (1)

Country Link
CN (1) CN111199054B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528339A (zh) * 2020-12-25 2021-03-19 深圳昂楷科技有限公司 一种基于Caché数据库的数据脱敏方法及电子设备
CN112765658A (zh) * 2021-01-15 2021-05-07 杭州数梦工场科技有限公司 一种数据脱敏方法、装置及电子设备和存储介质
CN112800474A (zh) * 2021-03-19 2021-05-14 北京安华金和科技有限公司 一种数据脱敏方法、装置、存储介质及电子装置
CN113268768A (zh) * 2021-05-24 2021-08-17 平安普惠企业管理有限公司 一种敏感数据的脱敏方法、装置、设备及介质
CN116561795A (zh) * 2023-04-26 2023-08-08 合芯科技(苏州)有限公司 一种数据并行脱敏处理方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090282036A1 (en) * 2008-05-08 2009-11-12 Fedtke Stephen U Method and apparatus for dump and log anonymization (dala)
US20110276610A1 (en) * 2010-05-04 2011-11-10 Salesforce.Com, Inc. Method and system for scrubbing information
US20150113240A1 (en) * 2013-10-17 2015-04-23 International Business Machines Corporation Restricting access to sensitive data in system memory dumps
CN104881611A (zh) * 2014-02-28 2015-09-02 国际商业机器公司 保护软件产品中的敏感数据的方法和装置
CN106599713A (zh) * 2016-11-11 2017-04-26 中国电子科技网络信息安全有限公司 一种基于大数据的数据库脱敏系统及方法
CN108256350A (zh) * 2017-12-29 2018-07-06 上海上讯信息技术股份有限公司 一种基于敏感信息类型关联的信息复合脱敏方法
CN109460676A (zh) * 2018-10-30 2019-03-12 全球能源互联网研究院有限公司 一种混合数据的脱敏方法、脱敏装置及脱敏设备
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
CN110110543A (zh) * 2019-03-14 2019-08-09 深圳壹账通智能科技有限公司 数据处理方法、装置、服务器及存储介质
CN110134665A (zh) * 2019-04-17 2019-08-16 北京百度网讯科技有限公司 基于流量镜像的数据库自学习优化方法及装置
CN110196861A (zh) * 2018-02-24 2019-09-03 中兴通讯股份有限公司 一种数据脱敏方法和装置
CN110489993A (zh) * 2019-07-08 2019-11-22 全球能源互联网研究院有限公司 一种用电客户数据的脱敏系统及方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090282036A1 (en) * 2008-05-08 2009-11-12 Fedtke Stephen U Method and apparatus for dump and log anonymization (dala)
US20110276610A1 (en) * 2010-05-04 2011-11-10 Salesforce.Com, Inc. Method and system for scrubbing information
US20150113240A1 (en) * 2013-10-17 2015-04-23 International Business Machines Corporation Restricting access to sensitive data in system memory dumps
CN104881611A (zh) * 2014-02-28 2015-09-02 国际商业机器公司 保护软件产品中的敏感数据的方法和装置
CN106599713A (zh) * 2016-11-11 2017-04-26 中国电子科技网络信息安全有限公司 一种基于大数据的数据库脱敏系统及方法
CN108256350A (zh) * 2017-12-29 2018-07-06 上海上讯信息技术股份有限公司 一种基于敏感信息类型关联的信息复合脱敏方法
CN110196861A (zh) * 2018-02-24 2019-09-03 中兴通讯股份有限公司 一种数据脱敏方法和装置
CN109460676A (zh) * 2018-10-30 2019-03-12 全球能源互联网研究院有限公司 一种混合数据的脱敏方法、脱敏装置及脱敏设备
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
CN110110543A (zh) * 2019-03-14 2019-08-09 深圳壹账通智能科技有限公司 数据处理方法、装置、服务器及存储介质
CN110134665A (zh) * 2019-04-17 2019-08-16 北京百度网讯科技有限公司 基于流量镜像的数据库自学习优化方法及装置
CN110489993A (zh) * 2019-07-08 2019-11-22 全球能源互联网研究院有限公司 一种用电客户数据的脱敏系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王敏;: "敏感数据的定义模型与现实悖论:基于92个国家隐私相关法规以及200个数据泄露案例的分析", 新闻界, no. 06, pages 6 - 14 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528339A (zh) * 2020-12-25 2021-03-19 深圳昂楷科技有限公司 一种基于Caché数据库的数据脱敏方法及电子设备
CN112765658A (zh) * 2021-01-15 2021-05-07 杭州数梦工场科技有限公司 一种数据脱敏方法、装置及电子设备和存储介质
CN112800474A (zh) * 2021-03-19 2021-05-14 北京安华金和科技有限公司 一种数据脱敏方法、装置、存储介质及电子装置
CN113268768A (zh) * 2021-05-24 2021-08-17 平安普惠企业管理有限公司 一种敏感数据的脱敏方法、装置、设备及介质
CN113268768B (zh) * 2021-05-24 2024-04-16 重庆颂车网络科技有限公司 一种敏感数据的脱敏方法、装置、设备及介质
CN116561795A (zh) * 2023-04-26 2023-08-08 合芯科技(苏州)有限公司 一种数据并行脱敏处理方法
CN116561795B (zh) * 2023-04-26 2024-04-16 合芯科技(苏州)有限公司 一种数据并行脱敏处理方法

Also Published As

Publication number Publication date
CN111199054B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN111199054B (zh) 一种数据脱敏方法、装置及数据脱敏设备
CN108021806B (zh) 一种恶意安装包的识别方法和装置
CN109189888B (zh) 电子装置、侵权分析的方法及存储介质
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN112346775B (zh) 指标数据通用处理方法、电子设备和存储介质
CN111259207A (zh) 短信的识别方法、装置及设备
CN115544558A (zh) 敏感信息检测方法、装置、计算机设备及存储介质
CN113869789A (zh) 一种风险监控的方法、装置、计算机设备及存储介质
CN109815736A (zh) 一种数据库脱敏方法、装置及脱敏设备
CN113342954A (zh) 一种应用于问答系统的图像信息处理方法、装置及电子设备
CN110188106B (zh) 一种数据管理方法和装置
CN111209266A (zh) 一种基于Redis数据库的审计方法、装置及电子设备
CN113791860B (zh) 一种信息转换方法、装置和存储介质
CN113032836B (zh) 数据脱敏方法和装置
CN111459774A (zh) 一种应用程序的流量的获取方法、装置、设备及存储介质
CN115543339A (zh) 代码转换方法和装置、计算机设备及存储介质
CN106294433B (zh) 设备信息处理方法及装置
CN113888760A (zh) 基于软件应用的违规信息监控方法、装置、设备及介质
CN114303352B (zh) 推送内容的处理方法、装置、电子设备以及存储介质
CN113449506A (zh) 一种数据检测方法、装置、设备及可读存储介质
CN113515771A (zh) 数据敏感度判定方法、电子设备及计算机可读存储介质
CN113515591A (zh) 文本不良信息识别方法、装置、电子设备及存储介质
CN117874211B (zh) 基于saas软件的智能问答方法、系统、介质及电子设备
CN114359904B (zh) 图像识别方法、装置、电子设备以及存储介质
CN114819910A (zh) 一种工程信息安全管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant