CN116186759A

CN116186759A - 一种面向隐私计算的敏感数据识别与脱敏方法

Info

Publication number: CN116186759A
Application number: CN202211684823.1A
Authority: CN
Inventors: 刘旭东; 李博; 薛晨; 刘永生
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-05-30

Abstract

本发明通过网络安全领域的方法，实现了一种面向隐私计算的敏感数据识别与脱敏方法。设计包括管理中心服务、高可用代理、数据代理服务3个部分的系统实现面向隐私计算的敏感数据识别与脱敏。本发明提供的方法对目标业务数据，基于自然语言深度学习textCNN+预测范围限定的方式对敏感数据进行识别，能够更精准地发现数据库中的敏感数据，同时可以通过自定义脚本进行识别能力的扩充；同时采用基于嵌入数据库脱敏函数的动态脱敏方法：通过代理服务，捕获业务系统对数据库的请求报文，然后通过协议解析能力，提取查询请求SQL，之后结合脱敏规则，将SQL中的敏感字段替换成带有脱敏函数的字段，实现对返回数据的脱敏。

Description

一种面向隐私计算的敏感数据识别与脱敏方法

技术领域

本发明涉及数据安全技术领域，尤其涉及一种面向隐私计算的敏感数据识别与脱敏方法。

背景技术

隐私计算平台的数据库中保存着来自业务系统的敏感数据，这些数据将与对端的隐私计算节点的数据进行联合计算，从而得出结果。而隐私计算的数据库中的这些数据在运维期间，还是可以被运维人员或开发人员访问，从而引起敏感数据泄露。而本发明通过代理方式屏蔽了外界与数据库之间的访问，并针对敏感数据访问进行脱敏处理，防止敏感数据泄露。

针对敏感数据识别，目前技术大部分采用关键字或正则匹配的方式，其识别准确率不高，本发明提出了一种基于自然语言深度学习算法+自定义挖掘脚本方法来进行敏感数据识别，提高了识别准确率。

目前数据脱敏技术的实现大部分是在数据库中立脱敏视图，在数据库查询SQL被代理端截获后，将SQL中的查询的表名改成此视图名称，从而实现对查询数据的脱敏。这种实现方式很难做到高效的动态脱敏，对数据库的侵入较大，每个脱敏表都需要建立对应的脱敏视图。而且针对新增表结构后，还需要增加对应的脱敏视图，后期运维阶段也需大量的维护工作。

针对敏感数据识别，即识别数据库请求中的敏感数据，目前技术针对敏感数据大多采用关键字或正则匹配的方式，其识别准确率不高，本发明提出了一种基于自然语言深度学习算法+自定义挖掘脚本方法，提高了识别准确率，并可通过自定义脚本灵活扩充挖掘能力。

针对数据脱敏，目前技术是在数据库建立脱敏视图，并将查询SQL表名替换成视图名称的方案，存在对数据库侵入较大，后期运维工作量大的问题。

发明内容

为此，本发明首先提出一种面向隐私计算的敏感数据识别与脱敏方法，设计包括管理中心服务、高可用代理、数据代理服务3个部分的系统实现面向隐私计算的敏感数据识别与脱敏，首先管理中心服务由管理员维护各个数据库脱敏函数，并将脱敏函数内容设置到对应的数据库中；然后再结合脱敏函数，维护脱敏规则，在规则中确定使用的脱敏函数名称内容，并将脱敏规则下发给数据库代理服务；数据库代理服务在将中心服务下发的脱敏规则加载后，对捕获到的每条数据库SQL访问请求，解析sql语句内容，获得请求SQL的用户，库表信息，结合中心端配置的脱敏规则，对当前请求进行验证，当判断出当前请求需要进行脱敏处理，则对当前请求进行脱敏处理，进而将当前sql中需要防护的字段替换成脱敏函数，形成新的请求sql，并重新加工sql请求报文，转发给后端的数据库，最后由数据库执行脱敏函数，并返回脱敏后的数据给业务系统。

所述脱敏处理的具体方法为：首先设计基于自然语言深度学习算法加自定义挖掘脚本的敏感数据识别方法识别敏感数据，之后设计基于嵌入数据库脱敏函数的动态脱敏方法进行脱敏操作。

所述设计基于自然语言深度学习算法加自定义挖掘脚本的敏感数据识别方法的具体流程为：首先，采集业务数据：通过中心服务端维护的数据库信息，定量采集业务数据到本地，供数据识别算法进行分析；之后，遍历业务数据：循环遍历每一条业务数据，利用数据识别算法对业务数据进行识别；接着遍历当前业务数据记录：循环遍历当前采集的业务数据；之后识别当前业务一条数据：在循环过程中对每一条业务数据进行识别，判断当前数据是否满足敏感数据类型，如果符合将匹配合计数+1；之后计算匹配率：当完成当前算法的数据识别后，计算匹配率，匹配率＝匹配合计数/数据总数，当匹配率大于规定的数值，则进行下一步判断；之后判读数据库元数据是否符敏感判断规则：根据规则中定义的元数据判断内容，对采集的业务资产元数据内容进行判断，是否符合规定，如何符合进入下一步流程；最后标记敏感数据：将当前识别的数据内容定义成敏感数据，并对数据进行存储，并重复上述循环。

所述基于嵌入数据库脱敏函数的动态脱敏方法具体为：首先由数据代理服务接收业务系统请求报文，根据数据库通信报文协议，解析业务系统请求报文结构，如果是查询报文，则读取报文中的操作信息，包括：用户名、数据库名、请求SQL，并将上述信息提供给控制层分析，将SQL脚本进行解析，分析出表、字段等信息，如果SQL语句中有的字段内容是‘*’，将字段内容为‘*’的部分进行替换，在采集到的数据库元数据中找到对应的数据库表字段，对其进行替换。然后再结合管理中心下发的脱敏策略，对查询SQL做分析，判断是否需要将报文进行脱敏处理，如果需要，则对SQL进行再加工，将SQL语句中涉及到的敏感字段替换成预先定义好的脱敏函数，重新生成新的脱敏SQL，并将结果返回给代理层，代理层根据操作结果内容，遵循数据库通信协议，将带有脱敏函数的SQL查询脚本重新生成查询请求报文，发送给数据库服务，完成对查询数据库请求的动态脱敏。

本发明所要实现的技术效果在于：

1)基于自然语言深度学习算法+自定义挖掘脚本的敏感数据识别：对目标业务数据，基于自然语言深度学习textCNN+预测范围限定的方式对敏感数据进行识别。如果还有未识别的数据，再通过自定义挖掘脚本进一步发现敏感数据。此方法照比传统的关键字与正则表达式方法，能够更精准地发现数据库中的敏感数据，同时可以通过自定义脚本进行识别能力的扩充。

2)基于嵌入数据库脱敏函数的动态脱敏方法：通过代理服务，捕获业务系统对数据库的请求报文，然后通过协议解析能力，提取查询请求SQL。之后结合脱敏规则，将SQL中的敏感字段替换成带有脱敏函数的字段，实现对返回数据的脱敏。针对SQL中含义*的情况，采用全部字段，可解决*无法脱敏的问题。此方法照比目前采用脱敏视图的方式，具有更多的灵活性，无需在数据库中建立脱敏视图，后期维护简单。

附图说明

图1面向隐私计算的敏感数据识别与脱敏方法架构；

图2敏感数据的识别流程；

图3敏感数据的脱敏流程；

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

本发明提出了一种面向隐私计算的敏感数据识别与脱敏方法。

通过设计包括管理中心服务、高可用代理、数据代理服务3个部分的系统实现面向隐私计算的敏感数据识别与脱敏。首先管理中心服务由管理员维护各个数据库脱敏函数，并将脱敏函数内容设置到对应的数据库中；然后再结合脱敏函数，维护脱敏规则，在规则中确定使用的脱敏函数名称内容，并将脱敏规则下发给数据库代理服务；数据库代理服务在将中心服务下发的脱敏规则加载后，对捕获到的每条数据库SQL访问请求，解析sql语句内容，获得请求SQL的用户，库表等信息，结合中心端配置的脱敏规则，对当前请求进行验证。当判断出当前请求需要进行脱敏处理，则对当前请求进行脱敏处理，将当前sql中需要防护的字段替换成脱敏函数，形成新的请求sql，并重新加工sql请求报文，转发给后端的数据库，最后由数据库执行脱敏函数，并返回脱敏后的数据给业务系统

其中管理中心服务用于负责维护脱敏防护策略、设置脱敏函数、以及将脱敏策略规则下发到数据代理服务；

高可用代理用于用可横向扩展的技术部署方案，解决数据高并发问题，接收访问数据库的数据包，通过代理端口转发给数据库代理服务；

数据代理服务用于作为数据库代理服务，串行在业务系统跟数据库之间，负责接收业务系统对数据库的请求，分析请求内容，根据脱敏防护策略，对返回的结果数据进行脱敏。

中心服务端维护脱敏防护策略内容、定义脱敏函、设置函数数参数，并将维护好的信息形成格式化配置信息，下发给代理服务。代理服务接收到中心端下发的配置信息后，加载、解析内容，生成脱敏规则，并利用这些规则检查业务系统访问数据库的查询sql，并对需要脱敏处理的sql语句进行处理，生成脱敏sql，再将脱敏后的sql发送给数据库进行业务数据请求，完成对查询数据的脱敏。

具体内容如图1所示。

脱敏处理采用如下手段实现：

首先设计基于自然语言深度学习算法+自定义挖掘脚本的敏感数据识别方法：

通过管理中心服务的数据库元数据采集功能，先采集数据库元数据，然后对数据进行遍历，采用自然语言深度学习算法+自定义挖掘脚本挖掘敏感数据。

自然语言深度学习算法的逻辑是：通过自然语言学习深度学习的textCNN(利用卷积神经网络对文本进行分类)的算法,先将A字段对应列的每条文本设置为相同长度(以最长文本为基准，不足则前置0补齐)，然后将每条文本转换为数字列表，最后将每条文本转换为词向量，通过对有标签的文本数据进行建模训练，预测无标签文本对应的标签(每条文本预测出多个标签，按概率大小排列)，最后通过皮尔逊相关系数计算预测标签与A字段逻辑含义的相似性，值最大的作为最终结果(根据实际需确定值大于某阈值才有效)。

自定义挖掘脚本的逻辑是：遍历每个业务数据，并用挖掘脚本进行匹配，计算出数据的匹配率，当匹配率达到要求的数值后再进行下一步判断，再结合数据库元数据(包括：表、字名称、表注释、字段注释信息)进行识别、分析，最终确定敏感数据。流程如图2.

敏感数据识别的具体流程为：管理中心服务通过维护的数据库信息对业务数据库进行链接，并采集定量的业务数据，并采用数据识别算法对数据进行识别，发下业务数据中的敏感数据，相关流程如下：1)采集业务数据：通过中心服务端维护的数据库信息，定量采集业务数据到本地，供数据识别算法进行分析；2)遍历业务数据：循环遍历每一条业务数据，利用数据识别算法对业务数据进行识别；3)遍历当前业务数据记录：循环遍历当前采集的业务数据；4)识别当前业务一条数据：在循环过程中对每一条业务数据进行识别，判断当前数据是否满足敏感数据类型，如果符合将匹配合计数+1；5)计算匹配率：当完成当前算法的数据识别后，计算匹配率，匹配率＝匹配合计数/数据总数，当匹配率大于规定的数值，则进行下一步判断；6)判读数据库元数据是否符敏感判断规则：根据规则中定义的元数据判断内容，对采集的业务资产元数据内容进行判断，是否符合规定，如何符合进入下一步流程；7)标记敏感数据：将当前识别的数据内容定义成敏感数据，并对数据进行存储。重复上述操作，直到循环结束。

基于嵌入数据库脱敏函数的动态脱敏方法如图3所示：

数据代理服务接收业务系统请求报文，根据数据库通信报文协议，解析业务系统请求报文结构，如果是查询报文，则读取报文中的操作信息，包括：用户名、数据库名、请求SQL，并将上述信息提供给控制层分析，将SQL脚本进行解析，分析出表、字段等信息。如果SQL语句中有的字段内容是‘*’，将字段内容为‘*’的部分进行替换，在采集到的数据库元数据中找到对应的数据库表字段，对其进行替换。然后再结合管理中心下发的脱敏策略，对查询SQL做分析，判断是否需要将报文进行脱敏处理，如果需要，则对SQL进行再加工，将SQL语句中涉及到的敏感字段替换成预先定义好的脱敏函数，重新生成新的脱敏SQL，并将结果返回给代理层，代理层根据操作结果内容，遵循数据库通信协议，将带有脱敏函数的SQL查询脚本重新生成查询请求报文，发送给数据库服务，完成对查询数据库请求的动态脱敏。

Claims

1.一种面向隐私计算的敏感数据识别与脱敏方法，其特征在于：设计包括管理中心服务、高可用代理、数据代理服务3个部分的系统实现面向隐私计算的敏感数据识别与脱敏，首先管理中心服务由管理员维护各个数据库脱敏函数，并将脱敏函数内容设置到对应的数据库中；然后再结合脱敏函数，维护脱敏规则，在规则中确定使用的脱敏函数名称内容，并将脱敏规则下发给数据库代理服务；数据库代理服务在将中心服务下发的脱敏规则加载后，对捕获到的每条数据库SQL访问请求，解析sql语句内容，获得请求SQL的用户，库表信息，结合中心端配置的脱敏规则，对当前请求进行验证，当判断出当前请求需要进行脱敏处理，则对当前请求进行脱敏处理，进而将当前sql中需要防护的字段替换成脱敏函数，形成新的请求sq l，并重新加工sql请求报文，转发给后端的数据库，最后由数据库执行脱敏函数，并返回脱敏后的数据给业务系统。

2.如权利要求1所述的一种面向隐私计算的敏感数据识别与脱敏方法，其特征在于：所述脱敏处理的具体方法为：首先设计基于自然语言深度学习算法加自定义挖掘脚本的敏感数据识别方法识别敏感数据，之后设计基于嵌入数据库脱敏函数的动态脱敏方法进行脱敏操作。

3.如权利要求2所述的一种面向隐私计算的敏感数据识别与脱敏方法，其特征在于：所述设计基于自然语言深度学习算法加自定义挖掘脚本的敏感数据识别方法的具体流程为：首先，采集业务数据：通过中心服务端维护的数据库信息，定量采集业务数据到本地，供数据识别算法进行分析；之后，遍历业务数据：循环遍历每一条业务数据，利用数据识别算法对业务数据进行识别；接着遍历当前业务数据记录：循环遍历当前采集的业务数据；之后识别当前业务一条数据：在循环过程中对每一条业务数据进行识别，判断当前数据是否满足敏感数据类型，如果符合将匹配合计数+1；之后计算匹配率：当完成当前算法的数据识别后，计算匹配率，匹配率＝匹配合计数/数据总数，当匹配率大于规定的数值，则进行下一步判断；之后判读数据库元数据是否符敏感判断规则：根据规则中定义的元数据判断内容，对采集的业务资产元数据内容进行判断，是否符合规定，如何符合进入下一步流程；最后标记敏感数据：将当前识别的数据内容定义成敏感数据，并对数据进行存储，并重复上述循环。

4.如权利要求3所述的一种面向隐私计算的敏感数据识别与脱敏方法，其特征在于：所述基于嵌入数据库脱敏函数的动态脱敏方法具体为：首先由数据代理服务接收业务系统请求报文，根据数据库通信报文协议，解析业务系统请求报文结构，如果是查询报文，则读取报文中的操作信息，包括：用户名、数据库名、请求SQL，并将上述信息提供给控制层分析，将SQL脚本进行解析，分析出表、字段等信息，如果SQL语句中有的字段内容是‘*’，将字段内容为‘*’的部分进行替换，在采集到的数据库元数据中找到对应的数据库表字段，对其进行替换。然后再结合管理中心下发的脱敏策略，对查询SQL做分析，判断是否需要将报文进行脱敏处理，如果需要，则对SQL进行再加工，将SQL语句中涉及到的敏感字段替换成预先定义好的脱敏函数，重新生成新的脱敏SQL，并将结果返回给代理层，代理层根据操作结果内容，遵循数据库通信协议，将带有脱敏函数的SQL查询脚本重新生成查询请求报文，发送给数据库服务，完成对查询数据库请求的动态脱敏。