CN111428273B

CN111428273B - 基于机器学习的动态脱敏方法及装置

Info

Publication number: CN111428273B
Application number: CN202010329187.5A
Authority: CN
Inventors: 唐更新; 任洪权; 宋辉; 赵卫国
Original assignee: Beijing Zhongan Xingyun Software Technology Co ltd
Current assignee: Beijing Zhongan Xingyun Software Technology Co ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2023-08-25
Anticipated expiration: 2040-04-23
Also published as: CN111428273A

Abstract

本发明公开了基于机器学习的动态脱敏方法及装置，涉及数据处理技术领域，包括以从数据库中获取原始样本，并对原始样本进行分类已得到多个已分类样本；对多个已分类样本进行训练以得到多个分类模型；扫描目标文字段，将目标文字段归类至对应分类模型中，并判断目标文字段是否包括待脱敏字段，若包括，则采用数据脱敏平台中配置的与待脱敏字段对应的脱敏规则对待脱敏字段进行脱敏。本申请技术方案解决了现有技术只能根据事先定义好的敏感数据规则通过关键字匹配或者正则匹配的方式来匹配敏感数据，脱敏精度低的问题，且可以对不同类型的数据进行脱敏处理，例如文本类型数据、二进制类型数据和音频类型数据都可以根据定义做脱敏处理，而且比较精确。

Description

基于机器学习的动态脱敏方法及装置

技术领域

本发明涉及数据处理技术领域，具体而言，涉及基于机器学习的动态脱敏方法及装置。

背景技术

动态脱敏是一款针对敏感数据进行数据抽取、数据漂白和动态掩码的专业数据脱敏技术。在原理上是通过SQL改写技术，在不动数据库中原始数据的前提下，完成敏感数据的脱敏。

但目前现有技术的常规敏感字段扫描方法只能根据事先定义好的敏感数据规则通过关键字匹配或者正则匹配的方式来匹配敏感数据，比如1开头的11位数字来标识为手机号码，针对所有的手机号码应用手机脱敏规则，脱敏精度低，并且对于二进制数据或者图像数据，音频数据无法进行敏感字段扫描。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明实施例提供基于机器学习的动态脱敏方法及装置，以提高脱敏精度。

本发明的实施例是这样实现的：

基于机器学习的动态脱敏方法，包括以下步骤：

从数据库中获取原始样本，并对原始样本进行分类已得到多个已分类样本；

对多个已分类样本进行训练以得到多个分类模型；

扫描目标文字段，将目标文字段归类至对应分类模型中，并判断目标文字段是否包括待脱敏字段，若包括，则采用数据脱敏平台中配置的与待脱敏字段对应的脱敏规则对待脱敏字段进行脱敏。

在本发明的一些实施例中，基于机器学习的动态脱敏方法，对多个分类样本进行训练以得到多个分类模型的方法包括：将多个已分类样本喂入神经网络，采用softmax作为分类器进行分类模型训练。

在本发明的一些实施例中，基于机器学习的动态脱敏方法，原始样本包括文本类型数据、二进制类型数据、图像类型数据和音频类型数据，对文本类型数据、二进制类型数据、图像类型数据和音频类型数据进行训练，训练出的分类模型分别为文本敏感信息识别模型、二进制敏感信息识别模型、图像敏感信息识别模型和音频敏感信息识别模型。

在本发明的一些实施例中，基于机器学习的动态脱敏方法，二进制类型数据是指存入数据库的数据就是二进制数据。

在本发明的一些实施例中，基于机器学习的动态脱敏方法，对多个已分类样本进行训练的步骤之前对已分类样本进行预处理，预处理的方法包括：创建卷积层、池化层、全连接层和softmax层后进行模型训练，模块训练完成后，把训练好的敏感信息识别模型和基于表和列的敏感字段相关联。

在本发明的一些实施例中，基于机器学习的动态脱敏方法，检测到用户通过客户端访问数据库时，脱敏引擎截获SQL语句，基于SQL词法分析语法分析解析出相应的表和列，根据扫描后关联的脱敏规则对原始SQL进行改写，改写完成后根据不同的数据库协议对SQL数据包进行重构处理，发送给数据库，完成动态脱敏。

在本发明的一些实施例中，基于机器学习的动态脱敏方法，对多个已分类样本进行训练以得到多个分类模型的步骤中，模型收敛的准则根据训练的准确率是否达到预设准确率来确定。

在本发明的一些实施例中，基于机器学习的动态脱敏方法，预设准确率为95％。

基于机器学习的动态脱敏装置，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现基于机器学习的动态脱敏方法。

一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现基于机器学习的动态脱敏方法。

本发明实施例至少具有如下优点或有益效果：

基于机器学习的动态脱敏方法及装置，对样本进行分类后得到多个分类样本，将扫描的文字段类至对应分类模型中若文字段包括待脱敏字段，则采用数据脱敏平台中配置的与待脱敏字段对应的脱敏规则对待脱敏字段进行脱敏，解决了现有技术只能根据事先定义好的敏感数据规则通过关键字匹配或者正则匹配的方式来匹配敏感数据，脱敏精度低的问题，且可以对不同类型的数据进行脱敏处理，例如文本类型数据、二进制类型数据和音频类型数据都可以根据定义做脱敏处理，而且比较精确。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明基于机器学习的动态脱敏方法一实施例的流程图；

图2为本发明基于机器学习的动态脱敏方法一实施例中把训练好的敏感信息识别模型和基于表和列的敏感字段相关联的流程图；

图3为本发明基于机器学习的动态脱敏方法一实施例中客户端访问数据库时动态脱敏流程图；

图4为本发明基于机器学习的动态脱敏装置一实施例的结构图。

图标：11-处理器，12-存储器，13-通信接口，14-数据总线。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，“多个”代表至少2个。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本申请所提供的实施例中，应该理解到，所揭露的方法及装置，也可以通过其它的方式实现。以上所描述的方法及装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的方法，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例1

请参照图1，本实施例提供基于机器学习的动态脱敏方法，包括以下步骤：

S101：从数据库中获取原始样本，并对原始样本进行分类已得到多个已分类样本；

S102：对多个已分类样本进行训练以得到多个分类模型；

S103：扫描目标文字段，将目标文字段归类至对应分类模型中，并判断目标文字段是否包括待脱敏字段，若包括，则采用数据脱敏平台中配置的与待脱敏字段对应的脱敏规则对待脱敏字段进行脱敏。

通过上述步骤，对样本进行分类后得到多个分类样本，将扫描的文字段类至对应分类模型中若文字段包括待脱敏字段，则采用数据脱敏平台中配置的与待脱敏字段对应的脱敏规则对待脱敏字段进行脱敏，解决了现有技术只能根据事先定义好的敏感数据规则通过关键字匹配或者正则匹配的方式来匹配敏感数据，脱敏精度低的问题，且可以对不同类型的数据进行脱敏处理，例如文本类型数据、二进制类型数据和音频类型数据都可以根据定义做脱敏处理，而且比较精确。

在本发明的一些实施例中，基于机器学习的动态脱敏方法，对多个分类样本进行训练以得到多个分类模型的方法包括：将多个已分类样本喂入神经网络，采用softmax作为分类器进行分类模型训练。需要说明的是，神经网络输入端的网元个数可以灵活设置，比如设置400个，隐藏层数量可以设置为3层，softmax和隐藏层的最后一层连接，Softmax分类器对不同的脱敏类型进行分类，比如对于一个输入，Softmax分类器识别为手机号码，另外一个输入，识别为银行卡号等等。

在本发明的一些实施例中，基于机器学习的动态脱敏方法，原始样本包括文本类型数据、二进制类型数据、图像类型数据和音频类型数据，对文本类型数据、二进制类型数据、图像类型数据和音频类型数据进行训练，训练出的分类模型分别为文本敏感信息识别模型、二进制敏感信息识别模型、图像敏感信息识别模型和音频敏感信息识别模型。本申请发明使用机器学习技术，结合数据库本身的数据量，分别训练出文本信息敏感识别模型，二进制敏感信息识别模型，图像敏感信息识别模型和音频敏感信息识别模型；例如：文本信息敏感识别模型，从数据库中获取样本：比如获取10000个手机号的样本，标识为1，获取10000个固定电话标识为2，获取10000个银行卡号码标识为3，获取10000个通信地址标识为4，把这些分类好的数据喂入神经网络，采用softmax作为分类器，当训练好模型后，扫描对应的字段，把对应的字段归入某项分类中，并同时关联对应的脱敏规则；二进制敏感信息识别模型或音频数据敏感信息识别模型，采用Tensorflow实现卷积神经网络来训练敏感图片数据和音频数据，二进制类型数据是指存入数据库的数据就是二进制数据。进一步的，对多个已分类样本进行训练的步骤之前对已分类样本进行预处理，预处理的方法包括：创建卷积层、池化层、全连接层和softmax层后进行模型训练，模块训练完成后，把训练好的敏感信息识别模型和基于表和列的敏感字段相关联，具体流程请参照图2。需要明确的是，TensorFlow是一个基于数据流编程(dataflow programming)的符号数学系统，被广泛应用于各类机器学习(machine learning)算法的编程实现，其前身是谷歌的神经网络算法库DistBelief，拥有多层级结构，可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算。

请参照图3，在本发明的一些实施例中，基于机器学习的动态脱敏方法，检测到用户通过客户端访问数据库时，脱敏引擎截获SQL语句，基于SQL词法分析语法分析解析出相应的表和列，根据扫描后关联的脱敏规则对原始SQL进行改写，改写完成后根据不同的数据库协议对SQL数据包进行重构处理，发送给数据库，完成动态脱敏。

在本发明的一些实施例中，基于机器学习的动态脱敏方法，对多个已分类样本进行训练以得到多个分类模型的步骤中，模型收敛的准则根据训练的准确率是否达到预设准确率来确定。进一步的，预设准确率为95％。需要说明的是，模型收敛的准则可以根据实际情况确定，既预设准确率不作限定。

请参考图4，基于机器学习的动态脱敏装置，包括：至少一个处理器11、至少一个存储器12以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现基于机器学习的动态脱敏方法。

具体地，上述处理器11可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。存储器12可以包括用于数据或指令的大容量存储器。举例来说而非限制存储器12可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器12可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器12可在数据处理装置的内部或外部。在特定实施例中，存储器12是非易失性固态存储器。在特定实施例中，存储器12包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器11通过读取并执行存储器12中存储的计算机程序指令，以实现上述实施例中的任意一种动态脱敏方法。

在一个示例中，动态脱敏装置还可包括通信接口13和数据总线14。其中，如图4所示，处理器11、存储器12、通信接口13通过数据总线14连接并完成相互间的通信。通信接口13，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

数据总线14包括硬件、软件或两者，将动态脱敏装置的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，数据总线14可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

该动态脱敏装置可以基于获取到的数据，执行本发明实施例中的动态脱敏方法，从而实现结合图1描述的动态脱敏方法。

另外，结合上述实施例中的动态脱敏方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种动态脱敏方法。

综上，本发明的实施例提供基于机器学习的动态脱敏方法及装置，对样本进行分类后得到多个分类样本，将扫描的文字段类至对应分类模型中若文字段包括待脱敏字段，则采用数据脱敏平台中配置的与待脱敏字段对应的脱敏规则对待脱敏字段进行脱敏，解决了现有技术只能根据事先定义好的敏感数据规则通过关键字匹配或者正则匹配的方式来匹配敏感数据，脱敏精度低的问题，且可以对不同类型的数据进行脱敏处理，例如文本类型数据、二进制类型数据和音频类型数据都可以根据定义做脱敏处理，而且比较精确。

以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.基于机器学习的动态脱敏方法，其特征在于，包括以下步骤：

从数据库中获取原始样本，所述原始样本包括文本类型数据、二进制类型数据、图像类型数据和音频类型数据；

对多个已分类样本进行训练以得到多个分类模型；具体包括：将多个已分类样本喂入神经网络，采用softmax作为分类器进行分类模型训练，对所述文本类型数据、二进制类型数据、图像类型数据和音频类型数据进行训练，训练好的分类模型分别为文本敏感信息识别模型、二进制敏感信息识别模型、图像敏感信息识别模型和音频敏感信息识别模型，把训练好的分类模型和基于表和列的敏感字段相关联；其中，文本信息敏感识别模型的训练方式包括从数据库中获取10000个手机号的样本，标识为1，获取10000个固定电话标识为2，获取10000个银行卡号码标识为3，获取10000个通信地址标识为4；二进制敏感信息识别模型、图像类型数据和音频数据敏感信息识别模型，采用Tensorflow实现卷积神经网络来训练；

扫描目标文字段，将目标文字段归类至对应分类模型中，并判断目标文字段是否包括待脱敏字段，若包括，则采用数据脱敏平台中配置的与待脱敏字段对应的脱敏规则对待脱敏字段进行脱敏；

检测到用户通过客户端访问所述数据库时，脱敏引擎截获SQL语句，基于SQL词法分析语法分析解析出相应的表和列，根据扫描后关联的脱敏规则对原始SQL进行改写，改写完成后根据不同的数据库协议对SQL数据包进行重构处理，发送给所述数据库，完成动态脱敏。

2.根据权利要求1所述的基于机器学习的动态脱敏方法，其特征在于，所述二进制类型数据是指存入数据库的数据就是二进制数据。

3.根据权利要求1所述的基于机器学习的动态脱敏方法，其特征在于，所述对多个已分类样本进行训练以得到多个分类模型的步骤中，模型收敛的准则根据训练的准确率是否达到预设准确率来确定。

4.根据权利要求3所述的基于机器学习的动态脱敏方法，其特征在于，所述预设准确率为95％。

5.基于机器学习的动态脱敏装置，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-4中任一项所述的方法。

6.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-4中任一项所述的方法。