CN116305240A - 一种可扩展的动态数据脱敏系统和方法 - Google Patents
一种可扩展的动态数据脱敏系统和方法 Download PDFInfo
- Publication number
- CN116305240A CN116305240A CN202211717096.4A CN202211717096A CN116305240A CN 116305240 A CN116305240 A CN 116305240A CN 202211717096 A CN202211717096 A CN 202211717096A CN 116305240 A CN116305240 A CN 116305240A
- Authority
- CN
- China
- Prior art keywords
- desensitization
- module
- sensitive
- data
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了一种可扩展的动态数据脱敏系统和方法,包括应用配置子系统、脱敏驱动模块、协议模块、敏感识别模块、策略规则模块、算法模块、缓存模块;所述脱敏驱动模块上接所述应用配置子系统,下接所述协议模块,内部对接所述敏感识别模块、策略规则模块和脱敏算法模块。本发明能够更好更快的支持业务层面多样化的数据源,灵活配置的策略规则和脱敏函数算子化且支持UDF扩展,能够更快速响应不同的业务脱敏规则的要求,全协议双模式技术带来高效的脱敏,精准的敏感识别技术提高脱敏准确率,缓存的多样化能够适应不同业务场景下的缓存要求,分布式的部署方式可以解决单点故障问题,旁路代理的部署方式可以实现原有业务系统的无感脱敏。
Description
技术领域
本发明涉及数据处理的技术领域,尤其是一种可扩展的动态数据脱敏系统和方法。
背景技术
随着大数据和数据库技术的发展,数据的处理和存储能力不断提升,企业政府等存在的数据量越来越大,敏感数据也越来越多,数据安全形势越显严峻。数据泄露将会给企业或政府带来严重的后果和巨大的损失,因此针对敏感数据的脱敏系统是不可或缺的。
数据脱敏,数据安全技术之一,是指对敏感信息通过脱敏规则进行的数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号,手机号,卡号等个人信息都需要进行数据脱敏。
为了应对不同的使用场景,数据脱敏可分为静态脱敏和动态脱敏两类,静态脱敏是将数据抽取进行脱敏处理后,下发测试库。开发、测试等相关人员可以随意取用测试数据,并进行读写,脱敏后的数据与生产环境隔离,满足业务需要的同时保障生产数据库的安全,可概括为“搬移并仿真替换”,因此静态脱敏适用于将数据抽取出生产环境脱敏后分发至测试、开发、培训、分析等场景;动态脱敏能够对生产库返回的数据进行实时脱敏处理,确保返回数据可用而安全,例如应用需要呈现部分数据,但是又不希望账号可以看到全部数据,动态脱敏可概括为“边脱敏边使用”,因此动态脱敏适用于不脱离生产环境,对敏感数据的查询和调用结果进行实时脱敏。
现有的脱敏系统,有静态脱敏和动态脱敏两种。静态脱敏针对不同脱敏规则将数据脱敏生成到不同的库表中,缺点是存储和计算的成本较大,实时性差,适配不同数据源困难,脱敏的策略规则配置不灵活等;一种动态脱敏系统是通过在程序代码中注解实现,缺点是不够灵活,大量敏感库表就会产生大量的Java对象和注解,开发成本大,脱敏效率低;另一种动态脱敏系统是利用一个工具类来统一处理脱敏,缺点是需要较多的人为预判,即人为判断哪些是需要脱敏的数据,要开发很多的脱敏算法函数,且算法函数开发困难,维护不易,无法灵活扩展,无法灵活配置规则,实现和维护代价大,脱敏效率低。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种可扩展的动态数据脱敏系统和方法,以解决上述技术问题。
根据本发明的一个方面,提出了一种可扩展的动态数据脱敏系统,包括:
应用配置子系统,提供可视化界面,包括数据源管理、敏感数据识别和脱敏管理;
脱敏驱动模块,用于脱敏代理服务的注册、启动、停止和恢复重启;
协议模块,提供截取分析不同协议不同类型的数据包,协议模块内设置有解析器和执行器,解析器用于拦截并修改协议数据包,提供各类协议的解析、sql提取、结果集提取;执行器接收解析器提取出来的sql或结果集,进行语法和词法的分析,形成抽象语法树,得到元数据的库、表、列,再匹配事实敏感识别规则,执行脱敏处理,将新的查询sql或新的结果集返回给解析器;
敏感识别模块,配置用于配置的敏感识别规则,对数据源中的元数据进行扫描、标识,构造可用于脱敏的结构并缓存;
策略规则模块,提供脱敏策略规则的服务接口,包括策略规则的缓存,策略规则的合并排序,匹配规则与算法处理;
算法模块,包含多种算法类型和算法函数,用于实现SQL改写和结果集改写;
缓存模块,通过缓存适配的方式,将缓存服务接口同具体缓存组件解耦;
脱敏驱动模块上接应用配置子系统,下接协议模块,内部对接敏感识别模块、策略规则模块和脱敏算法模块。
在一些具体的实施例中,数据源管理包括数据源的发现和添加;敏感数据识别包括敏感识别规则的配置、敏感识别任务配置和任务扫描、敏感数据资产添加;脱敏管理包括脱敏算法配置、脱敏策略配置、脱敏方案配置。
在一些具体的实施例中,不同协议不同类型的数据包包括mysql协议的登录连接阶段的数据包、命令阶段的数据包。
在一些具体的实施例中,敏感识别模块提供统一服务接口,对外置敏感识别配置信息进行接收和缓存服务;提供关联策略规则服务;提供生成脱敏所需的事实字段敏感规则信息的服务;提供转换为脱敏处理的Map结构的接口服务。
在一些具体的实施例中,敏感数据识别方式包括正则表达式和NER文本识别,通过字段名、字段别名、数据类型和字段值识别敏感数据。
在一些具体的实施例中,策略规则的合并排序中,策略类型包括库级策略和表级策略,表级策略优先于库级策略;匹配规则与算法处理中,调用算法模块中的匹配算法函数,提取规则对应的算法内容,包括动态调用的类的全路径限定名称加上方法名组成,以及算法函数对应的sql表达式。
根据本发明的第二方面,提出了一种可扩展的动态数据脱敏方法,基于上述可扩展的动态数据脱敏系统,包括:
S1:在应用配置子系统中配置脱敏信息,脱敏信息包括待脱敏的数据源信息、敏感识别规则、敏感识别任务、脱敏算法和脱敏策略规则;
S2:应用配置子系统中触发敏感识别任务,启动脱敏方案;
S3:应用配置子系统发起启动脱敏方案的请求,有脱敏驱动模块接收并处理请求,处理过程包括脱敏代理服务的注册和缓存,脱敏配置的处理和缓存,脱敏代理服务的启动;
S4:协议模块监听指定端口中通信的协议数据包,交由解析器解析并提取出数据包中查询SQL和数据包中结果集集合,传递至执行器分析出查询SQL的库名、表名和字段名,调用敏感识别模块获取事实字段脱敏规则,进行敏感字段数据的替换,产生新的SQL或结果集,回传解析器,解析器将脱敏后的结果重新封装成数据包,加入连接通道,供客户端接收使用。
在一些具体的实施例中,还包括脱敏服务的停止,应用配置子系统发起终止脱敏方案的请求,由脱敏驱动模块接收并处理请求,处理过程包括从内存Map中获取对应的代理服务对象,调用对象的close方法关闭连接通道,从内存和缓存中删除脱敏服务对象及其对应的脱敏相关配置信息。
在一些具体的实施例中,脱敏配置的处理和缓存具体包括:
获取脱敏策略规则信息;获取敏感字段规则信息;整合排序敏感策略规则;拉取对应脱敏算法函数表达式;策略规则加入事实敏感字段规则信息,并将处理结果通过缓存模块保存,作为协议模块的执行器构造所需事实字段脱敏规则的参数。
根据本发明的第三方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述任一项的系统。
本发明提出了一种可扩展的动态数据脱敏系统和方法,插件式的对接数据源,能够更好更快的支持业务层面多样化的数据源,灵活配置的策略规则和脱敏函数算子化且支持UDF扩展,能够更快速响应不同的业务脱敏规则的要求,全协议双模式技术带来高效的脱敏,精准的敏感识别技术提高脱敏准确率,缓存的多样化能够适应不同业务场景下的缓存要求,分布式的部署方式可以解决单点故障问题,旁路代理的部署方式可以实现原有业务系统的无感脱敏。本申请实现了动态适配多数据源、灵活配置策略规则,脱敏算法算子化和UDF扩展支持、全协议解析,支持sql改写和结果集改写的双模式,精准的敏感识别技术、支持缓存多样化,支持分布式部署,旁路并联部署,脱敏效率高。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例的可扩展的动态数据脱敏系统的框架图;
图2是本申请的一个具体的实施例的可扩展的动态数据脱敏系统的界面示意图;
图3是本申请的一个实施例的可扩展的动态数据脱敏方法的流程图;
图4是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本申请的一个实施例的可扩展的动态数据脱敏系统,图1示出了根据本发明的实施例的可扩展的动态数据脱敏系统的框架图,该系统采用的技术和组件包括:采用的技术及组件:Java、Netty、SpringBoot、MySQL、Redis、ElasticSearch、druid等。该系统包括6个大模块和一个子系统,具体包括:脱敏驱动(masker)模块、协议模块、敏感识别模块、策略规则模块、算法模块、缓存模块、应用配置子系统。
在具体的实施例中,脱敏驱动模块上接应用配置子系统,下接协议模块,内部对接其他模块,通过模块内部封装的接口方法调用其他模块的服务接口,它是脱敏整体流程的集成者,包括以下功能:脱敏代理服务的注册、启动、停止和恢复重启功能,利用缓存模块,实现对相关配置信息的存取功能等。
在具体的实施例中,协议模块是脱敏实现的底层核心,它实现了在协议层面对各类数据源的适配,该模块提供截取分析不同协议不同类型的数据包,如mysql协议的登录连接阶段的数据包、命令阶段的数据包等,模块内含解析器和执行器,分别负责不同的职责。解析器(Parser),拦截并修改协议数据包,提供各类协议的解析,sql提取,结果集提取;执行器(Worker),接收解析器提取出来的sql或结果集,进行语法和词法的分析,形成抽象语法树,得到元数据的库、表、列,再匹配事实敏感识别规则,执行脱敏处理,然后将执行结果(新的查询sql或新的结果集),返回给写解析器。
在具体的实施例中,敏感识别模块:通过灵活配置的敏感识别规则,对数据源中的元数据进行扫描、标识,构造可用于脱敏的结构并缓存,以便后续协议模块使用。该模块提供统一的服务接口,提供对外置敏感识别配置信息进行接收和缓存服务,提供关联策略规则服务,提供生成脱敏所需的事实字段敏感规则信息的服务,提供转换为脱敏处理的特定Map结构的接口服务。敏感数据识别手段包括:正则表达式和NER文本识别,模块以正则识别为主,NER识别为辅,可通过字段名、字段别名、数据类型、字段值等方面来识别敏感数据,同时支持模糊、精确和字典表等多种方式,并能够设置相似度阈值和优先级。模块支持内外置的敏感识别规则,来发现和识别数据源中的敏感元数据,外置的敏感识别规则需要经应用配置子系统上传。支持脱敏数据源的事实字段敏感规则的接收和缓存。
在具体的实施例中,策略规则模块提供脱敏策略规则相关的服务接口,与算法模块紧密联系,包括策略规则的缓存,策略规则的合并排序,匹配规则与算法处理等。对于策略规则的合并排序,因为策略类型有库级策略和表级策略,这两大类,表级策略优先于库级策略,且有可配置的优先级字段,同时策略规则是可以多条的,因此需要结合起来进行合并及排序来决定规则所要优先应用的算法函数。对于匹配规则与算法,调用算法模块提供的匹配算法函数,将规则对应的算法内容,提取出来,该内容可以是用于动态调用的类的全路径限定名称加上方法名组成,也可以是算法函数对应的sql表达式,算法内容由算法模块统一处理封装。策略规则的缓存管理,包括存与取。支持内置的策略规则和外置的策略规则,外置的策略规则需要通过应用配置子系统上传。
在具体的实施例中,算法模块内含八大算法类型,二十多种算法函数,且均实现SQL改写和结果集改写,这两种模式下的算法实现,利用适配器的设计模式,灵活巧妙地适配并扩展各类数据源,支持算法的udf功能,只需继承并实现算法模块定义的抽象类和对应算法类型接口,就可以扩展支持算法函数和数据源类型。比如加密算法类型,其下有AES128、AES192、AES256三种算法函数,算法从SQL和结果集,这两个分支来实现算法类型和函数,而实现的算法类型和函数又是可以适配不同数据源的,对于结果集的实现是天然支持各类数据源,而对于sql的实现则需要针对数据源,遵循扩展的标准(接口方法已统一定义),进行轻量适配开发。
在具体的实施例中,缓存模块是缓存脱敏处理流程中各类相关配置信息的关键,模块提供缓存服务的基础接口和通用服务接口方法,以便各模块可以各自独立封装相关业务的缓存服务方法类,但核心都是调用缓存模块来进行实际的缓存。模块通过缓存适配的方式,将缓存服务接口同具体缓存组件解耦,因此可以支持不同类型的缓存组件,默认实现redis和内存缓存,若要扩展其他缓存组件,只需实现适配器定义的标准方法即可,调用模块无需改动。
在具体的实施例中,应用配置子系统是一个后台子系统,给用户提供可视化的界面,方便用户配置各类信息。该子系统提供三个块内容:数据源管理,敏感数据识别,脱敏管理。数据源管理,包括数据源的发现和添加等功能;敏感数据识别包括敏感识别规则的配置、敏感识别任务配置和任务扫描、敏感数据资产添加等功能;脱敏管理包括脱敏算法配置、脱敏策略配置、脱敏方案配置等。该系统的效果示意图可以参考图2示出的根据本申请的一个具体的实施例的可扩展的动态数据脱敏系统的界面示意图。在可视化界面下可以获悉数据库、敏感资产、脱敏管理、脱敏状态等,插件式的对接数据源,能够更好更快的支持业务层面多样化的数据源,灵活配置的策略规则和脱敏函数算子化且支持UDF扩展,能够更快速响应不同的业务脱敏规则的要求,全协议双模式技术带来高效的脱敏,精准的敏感识别技术提高脱敏准确率,缓存的多样化能够适应不同业务场景下的缓存要求,分布式的部署方式可以解决单点故障问题,旁路代理的部署方式可以实现原有业务系统的无感脱敏。
继续参考图3,图3示出了根据本申请的实施例的可扩展的动态数据脱敏方法的流程图。如图3所示,该方法包括:
S1:在应用配置子系统中配置脱敏信息,脱敏信息包括待脱敏的数据源信息、敏感识别规则、敏感识别任务、脱敏算法和脱敏策略规则。
在具体的实施例中,配置待脱敏的数据源信息,填写如ip地址、端口、库名、用户名、密码等信息。配置敏感识别规则,填写如匹配方式,匹配方案,匹配内容、适用类型、匹配阈值、优先级等,如邮箱地址识别规则,匹配方式选择内容匹配,匹配方法选择正则匹配,适用类型选择字符串类型或全部,相似度填85%,优先级选1等。本发明会默认先执行NLP匹配,若NLP执行结果不满足,再执行正则匹配,NLP的匹配是可以通过配置开关来决定是否启用,默认启用。配置敏感识别任务,创建任务并填写相关信息,如数据库可上从上面配置好的数据源列表中选择,选择任务执行周期,敏感识别规则可从上面配置好的敏感识别规则列表中选择等。配置脱敏算法,填入算法名称,来源,算法类型,脱敏字段类型等信息,如加密算法,算法类型填加密算法,加密算法选择AES128,输入加密算法使用的加密key,脱敏字段类型选邮箱地址识别规则等。配置脱敏策略规则,填入策略名称,策略来源,选择策略包含的规则,规则里是包含上面已配置好的算法。如邮箱脱敏规则,选择邮箱地址识别,对应算法可从已配置好的脱敏算法中选择加密算法。
S2:应用配置子系统中触发敏感识别任务,启动脱敏方案。敏感识别任务和脱敏方案启动,从应用配置子系统中触发,脱敏引擎提供执行支持。
在具体的实施例中,启动并执行敏感识别任务,该任务会扫描数据源的元数据,包括库、表、列信息,并对数据源中的列进行识别,将其中识别到的敏感字段保存到MySQL数据库,形成敏感数据资产。配置脱敏方案,待脱敏的数据源从敏感数据资产列表中选择,填入脱敏服务器IP和映射端口,脱敏策略从上述配置好的脱敏策略列表选择。填入待脱敏的数据表(非必须),因为支持库级和表级,不填默认表示库级。启动脱敏方案,即会触发数据源脱敏服务的注册启动。
S3:应用配置子系统发起启动脱敏方案的请求,有脱敏驱动模块接收并处理请求,处理过程包括脱敏代理服务的注册和缓存,脱敏配置的处理和缓存,脱敏代理服务的启动。该步骤主要在脱敏引擎中完成,涉及应用配置子系统、脱敏驱动(masker)模块、敏感识别模块、策略规则模块、算法模块、缓存模块。
在具体的实施例中,应用配置子系统发起的启动脱敏方案的请求,由脱敏驱动(masker)模块的对外api接口接收并处理该请求,处理的过程可划分为3部分,脱5敏代理服务的注册和缓存,脱敏配置的处理和缓存,脱敏代理服务的启动。具体的:
脱敏代理服务的注册和缓存:该步骤由脱敏驱动(masker)模块、缓存模块和协议模块完成。首先将请求参数处理成自定义的脱敏服务对象,调用该对象的注册接口,该接口会初始化协议模块中与数据源适配的解析器和执行器以及连接通道对象,以完成注册,最后将该对象通过缓存模块的接口缓存起来。
0脱敏配置的处理和缓存,包括以下步骤:
获取脱敏策略规则信息,由脱敏驱动(masker)模块调用应用配置子系统提供的相应的获取接口将此信息上传到脱敏引擎端,以便后续使用;也支持通过策略规则模块直接读取内置的配置信息。
获取敏感字段规则信息,由脱敏驱动(masker)模块调用应用配置子系统提供的5相应的获取接口将此信息上传到脱敏引擎端,以便后续使用,也支持通过策略规则模
块直接读取内置的配置信息。
整合排序敏感策略规则,由脱敏驱动(masker)模块调用策略规则模块的服务接口完成,实现根据优先级和策略类型(表级和库级)来对策略规则进行合并及排序。
拉取对应脱敏算法函数表达式,由脱敏驱动(masker)模块发起,经策略规则模0块,核心是调用算法模块的matchFunc接口,实现适配各类算法,并根据脱敏模式,返
回脱敏函数的类的全限定名称(结果集改写模式)或sql表达式(sql改写模式)。
策略规则join事实敏感字段规则信息,由脱敏驱动(masker)模块调用策略规则模块的服务接口完成。通过库表列组合的key来关联两者,实现事实敏感字段的规则均可以找到对应的算法函数表达式。
5缓存处理结果,将上一步的处理结果通过缓存模块的接口缓存起来,以便后续协
议模块执行器构造所需的事实字段脱敏规则时可作为参数传入。
脱敏代理服务的启动:调用脱敏服务对象的启动接口,绑定并监听端口,等待异步关闭代理服务,以释放资源。
S4:协议模块监听指定端口中通信的协议数据包,交由解析器解析并提取出数据0包中查询SQL和数据包中结果集集合,传递至执行器分析出查询SQL的库名、表名和字段名,调用敏感识别模块获取事实字段脱敏规则,进行敏感字段数据的替换,产生新的SQL或结果集,回传解析器,解析器将脱敏后的结果重新封装成数据包,加入连接通道,供客户端接收使用。
在具体的实施例中,脱敏服务的执行,主要由脱敏引擎中完成,涉及协议模块、敏感识别模块、缓存模块。协议模块中注册时创建的连接通道会监听指定端口中通信的协议数据包,并交由解析器的解析方法处理,解析器会解析并提取出数据包中查询SQL和数据包中结果集集合,然后传递给执行器处理,执行器会调用语法词法分析工具,分析出查询SQL的库名、表名、字段名等元素,然后调用敏感识别模块的接口来获取事实字段脱敏规则,结合分析处理的这些元素和获取的事实字段脱敏规则进行敏感字段数据的替换,产生新的SQL或结果集,再回传给解析器,解析器在将脱敏后的结果重新封装成数据包,加入到连接通道中,最后修改后的数据包就会被客户端接收并使用,从而实现数据脱敏。
在具体的实施例中,还包括脱敏服务的停止,由脱敏引擎中完成,涉及脱敏驱动(masker)模块、缓存模块。具体的,应用配置子系统发起的终止脱敏方案的请求,由脱敏驱动(masker)模块的对外api接口接收并处理该请求,处理过程包括从内存Map中获取对应的代理服务对象,调用该对象的close方法进行关闭,close方法会关闭连接通道,然后释放资源,最后从内存和缓存中删除该脱敏服务对象和其对应的脱敏相关配置信息。
在具体的实施例中,还包括脱敏系统的重启和服务的恢复,由脱敏引擎中完成,涉及masker模块、缓存模块。具体的:程序启动时会创建一个后台线程来执行一系列的初始化及恢复操作,如从缓存中获取所有已注册并启动过的代理服务,循环这些代理服务,利用异步任务技术,多线程独立执行一个脱敏代理服务的启动过程,该启动过程同上述脱敏代理服务的启动。
在具体的实施例中,本发明的数据库包括数据源表1、数据源发现任务表2、敏感识别规则表3、敏感识别任务表4、敏感资产表5、脱敏方案表6、脱敏策略规则表7和脱敏算法表8,具体如下表所示:
表1.数据源表
表2.数据源发现任务表
表3.敏感识别规则表
表4.敏感识别任务表4
表5.敏感资产表
字段名 | 数据类型 | 长度 | 说明 |
id | int | 11 | 主键 |
ds_code | varchar | 50 | 数据资产编号 |
ds_table | varchar | 20 | 数据表 |
ds_fname | varchar | 10 | 字段名称 |
r_code | varchar | 50 | 发现规则编号 |
r_name | varchar | 20 | 发现规则名称 |
f_remark | varchar | 100 | 字段备注 |
demo | varchar | 20 | 样本 |
f_types | varchar | 10 | 数据类型 |
find_time | datetime | 发现时间 | |
… |
表6.脱敏方案表
表7.脱敏策略规则
字段名 | 数据类型 | 长度 | 说明 |
id | int | 11 | 主键 |
stra_name | varchar | 50 | 策略(分类)名称 |
stra_desc | varchar | 250 | 策略描述 |
white_list | varchar | 500 | 白名单(用;隔开) |
status | int | 1 | 策略状态(0未启用,1启用) |
origin | int | 1 | 策略来源(0预设,1自定义) |
stra_code | varchar | 50 | 脱敏策略编号 |
r_code | varchar | 50 | 发现规则编号 |
alg_code | varchar | 50 | 脱敏算法编号 |
… |
表8.脱敏算法表8
下面参考图4,其示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。图4示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的系统的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的系统中限定的上述功能。需要说明的是,本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装
配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一5个或者多个程序被该电子设备执行时,使得该电子设备:在应用配置子系统中配置
脱敏信息,脱敏信息包括待脱敏的数据源信息、敏感识别规则、敏感识别任务、脱敏算法和脱敏策略规则;应用配置子系统中触发敏感识别任务,启动脱敏方案;应用配置子系统发起启动脱敏方案的请求,有脱敏驱动模块接收并处理请求,处理过
程包括脱敏代理服务的注册和缓存,脱敏配置的处理和缓存,脱敏代理服务的启0动;协议模块监听指定端口中通信的协议数据包,交由解析器解析并提取出数据包
中查询SQL和数据包中结果集集合,传递至执行器分析出查询SQL的库名、表名和字段名,调用敏感识别模块获取事实字段脱敏规则,进行敏感字段数据的替换,产生新的SQL或结果集,回传解析器,解析器将脱敏后的结果重新封装成数据包,加入连接通道,供客户端接收使用。
5以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人
员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种可扩展的动态数据脱敏系统,其特征在于,包括:
应用配置子系统,提供可视化界面,包括数据源管理、敏感数据识别和脱敏管理;
脱敏驱动模块,用于脱敏代理服务的注册、启动、停止和恢复重启;
协议模块,提供截取分析不同协议不同类型的数据包,所述协议模块内设置有解析器和执行器,所述解析器用于拦截并修改协议数据包,提供各类协议的解析、sql提取、结果集提取;执行器接收所述解析器提取出来的sql或结果集,进行语法和词法的分析,形成抽象语法树,得到元数据的库、表、列,再匹配事实敏感识别规则,执行脱敏处理,将新的查询sql或新的结果集返回给所述解析器;
敏感识别模块,配置用于配置的敏感识别规则,对数据源中的元数据进行扫描、标识,构造可用于脱敏的结构并缓存;
策略规则模块,提供脱敏策略规则的服务接口,包括策略规则的缓存,策略规则的合并排序,匹配规则与算法处理;
算法模块,包含多种算法类型和算法函数,用于实现SQL改写和结果集改写;
缓存模块,通过缓存适配的方式,将缓存服务接口同具体缓存组件解耦;
所述脱敏驱动模块上接所述应用配置子系统,下接所述协议模块,内部对接所述敏感识别模块、策略规则模块和脱敏算法模块。
2.根据权利要求1所述的可扩展的动态数据脱敏系统,其特征在于,所述数据源管理包括数据源的发现和添加;所述敏感数据识别包括敏感识别规则的配置、敏感识别任务配置和任务扫描、敏感数据资产添加;所述脱敏管理包括脱敏算法配置、脱敏策略配置、脱敏方案配置。
3.根据权利要求1所述的可扩展的动态数据脱敏系统,其特征在于,所述不同协议不同类型的数据包包括mysql协议的登录连接阶段的数据包、命令阶段的数据包。
4.根据权利要求1所述的可扩展的动态数据脱敏系统,其特征在于,所述敏感识别模块提供统一服务接口,对外置敏感识别配置信息进行接收和缓存服务;提供关联策略规则服务;提供生成脱敏所需的事实字段敏感规则信息的服务;提供转换为脱敏处理的Map结构的接口服务。
5.根据权利要求4所述的可扩展的动态数据脱敏系统,其特征在于,敏感数据识别方式包括正则表达式和NER文本识别,通过字段名、字段别名、数据类型和字段值识别敏感数据。
6.根据权利要求1所述的可扩展的动态数据脱敏系统,其特征在于,所述策略规则的合并排序中,策略类型包括库级策略和表级策略,所述表级策略优先于所述库级策略;所述匹配规则与算法处理中,调用所述算法模块中的匹配算法函数,提取规则对应的算法内容,包括动态调用的类的全路径限定名称加上方法名组成,以及算法函数对应的sql表达式。
7.一种可扩展的动态数据脱敏方法,其特征在于,基于权利要求1-6中任一项所述的可扩展的动态数据脱敏系统,包括:
S1:在所述应用配置子系统中配置脱敏信息,所述脱敏信息包括待脱敏的数据源信息、敏感识别规则、敏感识别任务、脱敏算法和脱敏策略规则;
S2:所述应用配置子系统中触发敏感识别任务,启动脱敏方案;
S3:所述应用配置子系统发起启动脱敏方案的请求,有所述脱敏驱动模块接收并处理所述请求,处理过程包括脱敏代理服务的注册和缓存,脱敏配置的处理和缓存,脱敏代理服务的启动;
S4:所述协议模块监听指定端口中通信的协议数据包,交由所述解析器解析并提取出数据包中查询SQL和数据包中结果集集合,传递至所述执行器分析出查询SQL的库名、表名和字段名,调用所述敏感识别模块获取事实字段脱敏规则,进行敏感字段数据的替换,产生新的SQL或结果集,回传所述解析器,所述解析器将脱敏后的结果重新封装成数据包,加入连接通道,供客户端接收使用。
8.根据权利要求7所述的可扩展的动态数据脱敏方法,其特征在于,还包括脱敏服务的停止,所述应用配置子系统发起终止脱敏方案的请求,由所述脱敏驱动模块接收并处理所述请求,处理过程包括从内存Map中获取对应的代理服务对象,调用所述对象的close方法关闭连接通道,从内存和缓存中删除所述脱敏服务对象及其对应的脱敏相关配置信息。
9.根据权利要求7所述的可扩展的动态数据脱敏方法,其特征在于,脱敏配置的处理和缓存具体包括:
获取脱敏策略规则信息;获取敏感字段规则信息;整合排序敏感策略规则;拉取对应脱敏算法函数表达式;策略规则加入事实敏感字段规则信息,并将处理结果通过所述缓存模块保存,作为所述协议模块的执行器构造所需事实字段脱敏规则的参数。
10.一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施权利要求7至9任一项所述的系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211717096.4A CN116305240A (zh) | 2022-12-29 | 2022-12-29 | 一种可扩展的动态数据脱敏系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211717096.4A CN116305240A (zh) | 2022-12-29 | 2022-12-29 | 一种可扩展的动态数据脱敏系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116305240A true CN116305240A (zh) | 2023-06-23 |
Family
ID=86798547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211717096.4A Pending CN116305240A (zh) | 2022-12-29 | 2022-12-29 | 一种可扩展的动态数据脱敏系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116305240A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975043A (zh) * | 2023-09-21 | 2023-10-31 | 国网信息通信产业集团有限公司 | 一种基于流式框架的数据实时传输构建方法 |
CN117235781A (zh) * | 2023-08-21 | 2023-12-15 | 广州市玄武无线科技股份有限公司 | 一种数据脱敏方法、系统、装置及存储介质 |
-
2022
- 2022-12-29 CN CN202211717096.4A patent/CN116305240A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235781A (zh) * | 2023-08-21 | 2023-12-15 | 广州市玄武无线科技股份有限公司 | 一种数据脱敏方法、系统、装置及存储介质 |
CN116975043A (zh) * | 2023-09-21 | 2023-10-31 | 国网信息通信产业集团有限公司 | 一种基于流式框架的数据实时传输构建方法 |
CN116975043B (zh) * | 2023-09-21 | 2023-12-08 | 国网信息通信产业集团有限公司 | 一种基于流式框架的数据实时传输构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116305240A (zh) | 一种可扩展的动态数据脱敏系统和方法 | |
US9529662B1 (en) | Dynamic rule-based automatic crash dump analyzer | |
CN113032244B (zh) | 接口测试方法、装置、计算机系统和计算机可读存储介质 | |
CN113961919B (zh) | 恶意软件检测方法和装置 | |
WO2019085290A1 (zh) | 测试前置实现方法、装置、终端设备及存储介质 | |
CN110515647A (zh) | 一种静态资源管理方法、装置、设备和存储介质 | |
CN111563257A (zh) | 数据检测方法及装置、计算机可读介质及终端设备 | |
CN110659210A (zh) | 一种信息获取方法、装置、电子设备及存储介质 | |
US9064042B2 (en) | Instrumenting computer program code by merging template and target code methods | |
CN113420046A (zh) | 非关系型数据库的数据操作方法、装置、设备及存储介质 | |
CN112965736A (zh) | 代码处理方法、装置、电子设备及介质 | |
CN112039975A (zh) | 一种报文字段的处理方法、装置、设备及存储介质 | |
CN116795701A (zh) | 一种接口程序的通用测试实例的生成方法和装置 | |
US9201937B2 (en) | Rapid provisioning of information for business analytics | |
US20190026090A1 (en) | Systems to remove object relational mappings from a software project | |
CN110348226A (zh) | 一种工程文件的扫描方法、装置、电子设备及存储介质 | |
US9110893B2 (en) | Combining problem and solution artifacts | |
CN111367500A (zh) | 数据的处理方法和装置 | |
CN111488286B (zh) | 一种Android模块独立开发的方法及装置 | |
CN114219643A (zh) | 一种交易调用方法、装置、设备及存储介质 | |
CN114090514A (zh) | 分布式系统的日志检索方法及装置 | |
CN109062797B (zh) | 生成信息的方法和装置 | |
CN110471708B (zh) | 基于可重用组件的配置项获取的方法及装置 | |
CN113050987A (zh) | 一种接口文档的生成方法、装置、存储介质及电子设备 | |
CN109976765B (zh) | 一种应用群部署方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |