CN115600241A - 一种基于大数据技术的数据流实时脱敏方法及系统 - Google Patents

一种基于大数据技术的数据流实时脱敏方法及系统 Download PDF

Info

Publication number
CN115600241A
CN115600241A CN202211218894.2A CN202211218894A CN115600241A CN 115600241 A CN115600241 A CN 115600241A CN 202211218894 A CN202211218894 A CN 202211218894A CN 115600241 A CN115600241 A CN 115600241A
Authority
CN
China
Prior art keywords
desensitization
data
data packet
database
original data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211218894.2A
Other languages
English (en)
Inventor
唐更新
张洪林
赵卫国
宋辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongan Xingyun Software Technology Co ltd
Original Assignee
Beijing Zhongan Xingyun Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongan Xingyun Software Technology Co ltd filed Critical Beijing Zhongan Xingyun Software Technology Co ltd
Priority to CN202211218894.2A priority Critical patent/CN115600241A/zh
Publication of CN115600241A publication Critical patent/CN115600241A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出了一种基于大数据技术的数据流实时脱敏方法及系统,涉及数据脱敏技术领域。该方法包括:对TCP/IP数据包进行抓取和重组,得到重组数据包。从重组数据包中提取完整的SQL请求报文,根据SQL请求报文,从数据库中提取原始数据。根据访问主体信息和访问客体信息,得到对应的脱敏策略。利用该脱敏策略对原始数据进行数据脱敏得到脱敏数据包发送至用户端口。实现了针对从数据库中调取的原始数据,根据SQL请求报文对原始数据进行对应的脱敏处理的目的,也就实现了在原始数据调取后立即进行脱敏处理的目的,避免需要大容量的缓存空间对数据进行缓存,使得数据动态脱敏速度快,减少了数据延时。

Description

一种基于大数据技术的数据流实时脱敏方法及系统
技术领域
本发明涉及数据脱敏技术领域,具体而言,涉及一种基于大数据技术的数据流实时脱敏方法及系统。
背景技术
目前现有动态脱敏的实现方法为:首先,通过数据包抓包技术抓取数据库的TCP/IP数据包,缓存需要动态脱敏的数据包,当抓取的数据包为完整的数据库协议包,则根据已经设置的脱敏规则对完成数据报文协议解析后的数据进行遮蔽或者替换,完成一个脱敏过程。如果数据包不是完整的数据库协议包,就需要继续缓存数据,直至缓存完整个协议包,再根据设置的脱敏规则对缓存的数据进行转换。但是,这样的技术方案存在着一定的缺陷。
问题一:缓存空间可能不足,在脱敏过程中需要的缓存数据包大小不可判断。因为在脱敏之前需要缓存数据,缓存数据的多少和具体的数据库查询方式有关。当多个并发查询,数据包较大时,系统现有的存储空间可能会无法满足需要而导致系统无法继续正常工作。
问题二:针对实时数据交互响应差。因为需要先缓存所有数据,等待缓存结束之后才能进行数据脱敏,数据脱敏后才能返回结果,经过前面一些列的数据处理动作和过程,对所有数据进行缓存和对大量数据进行脱敏的方式需要耗费大量时间,因此会导致返回的脱敏数据存在较大时延问题。
发明内容
本发明的目的在于提供一种基于大数据技术的数据流实时脱敏方法及系统,用以改善现有技术中由于需要缓存完整个协议包,导致缓存空间不足且存在较大时延的问题。
本发明的实施例是这样实现的:
第一方面,本申请实施例提供一种基于大数据技术的数据流实时脱敏方法,其包括如下步骤:
对用户端口发送的TCP/IP数据包进行抓取和重组,得到重组数据包;
从重组数据包中提取完整的SQL请求报文,其中,SQL请求报文包括访问主体信息和访问客体信息;
根据SQL请求报文,从数据库中提取对应的原始数据;
根据访问主体信息和访问客体信息,匹配得到对应的脱敏策略;
根据脱敏策略对原始数据进行数据脱敏得到脱敏数据包,并将脱敏数据包发送至用户端口。
在本发明的一些实施例中,上述根据脱敏策略对原始数据进行数据脱敏得到脱敏数据包,并将脱敏数据包发送至用户端口的步骤包括:
通过flume采集数据库中的原始数据后,利用SparkStreaming根据脱敏策略对原始数据进行数据脱敏得到脱敏数据包;
根据SQL协议对脱敏数据包进行协议封装后,发送至用户端口。
在本发明的一些实施例中,上述通过flume采集数据库中的原始数据的步骤包括:
通过flume同时收集多个数据库发送的原始数据;
flume按照预设组合顺序,对收集的原始数据进行组合后,发送至SparkStreaming。
在本发明的一些实施例中,上述根据访问主体信息和访问客体信息,匹配得到对应的脱敏策略的步骤之前,该方法还包括:
预先设置多个脱敏策略和任一脱敏策略对应的匹配条件。
在本发明的一些实施例中,上述对用户端口发送的TCP/IP数据包进行抓取和重组,得到重组数据包的步骤包括:
响应于用户端口发起的SQL会话请求,对用户端口发送的TCP/IP数据包进行抓取和重组,以得到包含完整SQL请求报文的重组数据包。
在本发明的一些实施例中,上述预先设置多个脱敏策略和任一脱敏策略对应的匹配条件的步骤包括:
若原始数据对应的源数据库账号与预设数据库账号一致,则对应的脱敏策略设置为当原始数据为姓名信息时,对该姓名信息进行遮蔽。
在本发明的一些实施例中,上述访问主体信息至少包括源IP、源MAC、源端口、源数据库账号和时间中的一种或多种,访问客体信息至少包括数据库IP、数据库MAC、数据库端口、操作的表和字段信息中的一种或多种。
第二方面,本申请实施例提供一种基于大数据技术的数据流实时脱敏系统,其包括:
抓包模块,用于对用户端口发送的TCP/IP数据包进行抓取和重组,得到重组数据包;
协议解析模块,用于从重组数据包中提取完整的SQL请求报文,其中,SQL请求报文包括访问主体信息和访问客体信息;
原始数据提取模块,用于根据SQL请求报文,从数据库中提取对应的原始数据;
脱敏策略匹配模块,用于根据访问主体信息和访问客体信息,匹配得到对应的脱敏策略;
动态脱敏模块,用于根据脱敏策略对原始数据进行数据脱敏得到脱敏数据包,并将脱敏数据包发送至用户端口。
第三方面,本申请实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器。当一个或多个程序被处理器执行时,实现如上述第一方面中任一项的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。
相对于现有技术,本发明的实施例至少具有如下优点或有益效果:
本发明提供一种基于大数据技术的数据流实时脱敏方法及系统,其包括如下步骤:对用户端口发送的TCP/IP数据包进行抓取和重组,以得到包含完整SQL请求报文的重组数据包。从重组数据包中提取完整的SQL请求报文,并根据SQL请求报文,从数据库中提取对应的原始数据。同时根据访问主体信息和访问客体信息进行策略匹配,得到对应的脱敏策略。利用该脱敏策略对原始数据进行数据脱敏得到脱敏数据包发送至用户端口。实现了针对从数据库中调取的原始数据,根据SQL请求报文对原始数据进行对应的脱敏处理的目的,也就实现了在原始数据调取后立即进行脱敏处理的目的,避免需要大容量的缓存空间对数据进行缓存,使得数据动态脱敏速度快,减少了数据延时。从而达到对大流量数据实时动态脱敏的高吞吐和低延迟,不仅具备高冗余能力,同时降低了数据包处理和转发的网络延迟,更保障了数据的保密性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种基于大数据技术的数据流实时脱敏方法的流程图;
图2为本发明实施例提供的一种实时数据动态脱敏系统部署架构图;
图3为本发明实施例提供的一种实现动态脱敏处理的流程图;
图4为本发明实施例提供的一种基于大数据技术的数据流实时脱敏系统的结构框图;
图5为本发明实施例提供的一种电子设备的示意性结构框图。
图标:110-抓包模块;120-协议解析模块;130-原始数据提取模块;140-脱敏策略匹配模块;150-动态脱敏模块;101-存储器;102-处理器;103-通信接口。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,若出现术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,若出现由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本申请的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。
实施例
请参照图1和图2,图1所示为本发明实施例提供的一种基于大数据技术的数据流实时脱敏方法的流程图,图2所示为本发明实施例提供的一种实时数据动态脱敏系统部署架构图。本申请实施例提供一种基于大数据技术的数据流实时脱敏方法,其包括如下步骤:
S110:对用户端口发送的TCP/IP数据包进行抓取和重组,得到重组数据包;
在本实施例的一些实施方式中,上述对用户端口发送的TCP/IP数据包进行抓取和重组,得到重组数据包的步骤包括:响应于用户端口发起的SQL会话请求,对用户端口发送的TCP/IP数据包进行抓取和重组,以得到包含完整SQL请求报文的重组数据包。
具体的,用户端口发起的SQL会话请求可能会通过多个数据包中进行分开发送,则获取用户端口发送的TCP/IP数据包,并对TCP/IP数据包进行抓取和重组,以保证得到的重组数据包包含完整SQL请求报文。
S120:从重组数据包中提取完整的SQL请求报文,其中,SQL请求报文包括访问主体信息和访问客体信息;
S130:根据SQL请求报文,从数据库中提取对应的原始数据;
示例性的,根据SQL请求报文包含的数据提取条件(例如源IP、源MAC、源端口、源数据库账号、时间、数据库IP、数据库MAC、数据库端口、操作的表、字段信息等),从对应的所有数据库中提取对应的原始数据。
S140:根据访问主体信息和访问客体信息,匹配得到对应的脱敏策略;
其中,上述根据访问主体信息和访问客体信息,匹配得到对应的脱敏策略的步骤之前,该方法还包括:预先设置多个脱敏策略和任一脱敏策略对应的匹配条件。从而使得该方法包含多种脱敏策略,可以针对不同用户实现更多的脱敏算法,算法的集成度更高。
具体的,根据访问主体信息和访问客体信息,从预先设置的多个脱敏策略中选择相匹配的脱敏策略,以利用该脱敏策略对从数据库中提取的原始数据进行数据脱敏。
示例性的,若匹配条件是数据库账号为A,请求IP为B,请求时间为早上9点至下午五点,则设置脱敏策略为将用户访问的身份证号码的中间10位替换为“*”。如果用户端口发起的SQL会话请求的时间为早上10点,且访问主体信息显示访问的数据库账号为A,请求IP为B,则根据预先设置的脱敏策略,将用户访问的身份证号码的中间10位替换为“*”,例如,真实身份证号码为“123456789012345678”,利用脱敏策略进行数据脱敏后,得到的身份证号码为“1234**********5678”。
S150:根据脱敏策略对原始数据进行数据脱敏得到脱敏数据包,并将脱敏数据包发送至用户端口。
上述实现过程中,该方法首先对TCP/IP数据包进行抓取和重组,以得到包含完整SQL请求报文的重组数据包。然后从重组数据包中提取完整的SQL请求报文,并根据SQL请求报文,从数据库中提取对应的原始数据。同时根据访问主体信息和访问客体信息进行策略匹配,得到对应的脱敏策略。最后利用该脱敏策略对原始数据进行数据脱敏得到脱敏数据包发送至用户端口。实现了针对从数据库中调取的原始数据,根据SQL请求报文对原始数据进行对应的脱敏处理的目的,也就实现了在原始数据调取后立即进行脱敏处理的目的,避免需要大容量的缓存空间对数据进行缓存,使得数据动态脱敏速度快,减少了数据延时。从而达到对大流量数据实时动态脱敏的高吞吐和低延迟,不仅具备高冗余能力,同时降低了数据包处理和转发的网络延迟,更保障了数据的保密性。
请参照图3,图3所示为本发明实施例提供的一种实现动态脱敏处理的流程图。在本实施例的一些实施方式中,上述根据脱敏策略对原始数据进行数据脱敏得到脱敏数据包,并将脱敏数据包发送至用户端口的步骤包括:
通过flume采集数据库中的原始数据后,利用SparkStreaming根据脱敏策略对原始数据进行数据脱敏得到脱敏数据包;
根据SQL协议对脱敏数据包进行协议封装后,发送至用户端口。
其中,flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
具体的,通过flume收集数据库发出的原始数据,并通过Spark Streaming根据脱敏策略对原始数据进行数据脱敏。通过flume和Spark Streaming相结合的大数据技术使得实时数据脱敏的效率相比传统动脱方式数据缓存效率更高,数据处理速度更快。其性能可以通过扩展集群能力达到线性增长。最后对得到的脱敏数据包进行协议封装,以成功发送至用户端口。
在本实施例的一些实施方式中,上述通过flume采集数据库中的原始数据的步骤包括:
通过flume同时收集多个数据库发送的原始数据;
flume按照预设组合顺序,对收集的原始数据进行组合后,发送至SparkStreaming。
示例性的,当有十个数据库同时根据SQL请求报文返回原始数据时,flume可同时收集这十个数据库发送的原始数据,并按照预设组合顺序,对收集的原始数据进行组合后,按照组合依次发送至SparkStreaming。从而进一步实现了对大流量数据实时动态脱敏的高吞吐和低延迟。例如,如果flume收集了100个原始数据,则按照10个一组向SparkStreaming转发。
在本实施例的一些实施方式中,上述预先设置多个脱敏策略和任一脱敏策略对应的匹配条件的步骤包括:
若原始数据对应的源数据库账号与预设数据库账号一致,则对应的脱敏策略设置为当原始数据为姓名信息时,对该姓名信息进行遮蔽。
在本实施例的一些实施方式中,上述访问主体信息至少包括源IP、源MAC、源端口、源数据库账号和时间中的一种或多种,访问客体信息至少包括数据库IP、数据库MAC、数据库端口、操作的表和字段信息中的一种或多种。
请参照图4,图4所示为本发明实施例提供的一种基于大数据技术的数据流实时脱敏系统的结构框图。本申请实施例提供一种基于大数据技术的数据流实时脱敏系统,其包括:
抓包模块110,用于对用户端口发送的TCP/IP数据包进行抓取和重组,得到重组数据包;
协议解析模块120,用于从重组数据包中提取完整的SQL请求报文,其中,SQL请求报文包括访问主体信息和访问客体信息;
原始数据提取模块130,用于根据SQL请求报文,从数据库中提取对应的原始数据;
脱敏策略匹配模块140,用于根据访问主体信息和访问客体信息,匹配得到对应的脱敏策略;
动态脱敏模块150,用于根据脱敏策略对原始数据进行数据脱敏得到脱敏数据包,并将脱敏数据包发送至用户端口。
上述实现过程中,该系统首先对TCP/IP数据包进行抓取和重组,以得到包含完整SQL请求报文的重组数据包。然后从重组数据包中提取完整的SQL请求报文,并根据SQL请求报文,从数据库中提取对应的原始数据。同时根据访问主体信息和访问客体信息进行策略匹配,得到对应的脱敏策略。最后利用该脱敏策略对原始数据进行数据脱敏得到脱敏数据包发送至用户端口。实现了针对从数据库中调取的原始数据,根据SQL请求报文对原始数据进行对应的脱敏处理的目的,也就实现了在原始数据调取后立即进行脱敏处理的目的,避免需要大容量的缓存空间对数据进行缓存,使得数据动态脱敏速度快,减少了数据延时。从而达到对大流量数据实时动态脱敏的高吞吐和低延迟,不仅具备高冗余能力,同时降低了数据包处理和转发的网络延迟,更保障了数据的保密性。
请参照图5,图5为本申请实施例提供的电子设备的一种示意性结构框图。电子设备包括存储器101、处理器102和通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,如本申请实施例所提供的一种基于大数据技术的数据流实时脱敏系统对应的程序指令/模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(ReadOnlyMemory,ROM),可编程只读存储器(ProgrammableRead-OnlyMemory,PROM),可擦除只读存储器(ErasableProgrammableRead-OnlyMemory,EPROM),电可擦除只读存储器(ElectricErasableProgrammableRead-OnlyMemory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器,包括中央处理器(CentralProcessingUnit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DigitalSignalProcessing,DSP)、专用集成电路(Application SpecificIntegratedCircuit,ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图5所示的结构仅为示意,电子设备还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种基于大数据技术的数据流实时脱敏方法,其特征在于,包括如下步骤:
对用户端口发送的TCP/IP数据包进行抓取和重组,得到重组数据包;
从所述重组数据包中提取完整的SQL请求报文,其中,所述SQL请求报文包括访问主体信息和访问客体信息;
根据所述SQL请求报文,从数据库中提取对应的原始数据;
根据所述访问主体信息和所述访问客体信息,匹配得到对应的脱敏策略;
根据所述脱敏策略对所述原始数据进行数据脱敏得到脱敏数据包,并将所述脱敏数据包发送至所述用户端口。
2.根据权利要求1所述的基于大数据技术的数据流实时脱敏方法,其特征在于,根据所述脱敏策略对所述原始数据进行数据脱敏得到脱敏数据包,并将所述脱敏数据包发送至所述用户端口的步骤包括:
通过flume采集数据库中的原始数据后,利用Spark Streaming根据所述脱敏策略对所述原始数据进行数据脱敏得到脱敏数据包;
根据SQL协议对所述脱敏数据包进行协议封装后,发送至用户端口。
3.根据权利要求2所述的基于大数据技术的数据流实时脱敏方法,其特征在于,所述通过flume采集数据库中的原始数据的步骤包括:
通过flume同时收集多个数据库发送的原始数据;
所述flume按照预设组合顺序,对收集的原始数据进行组合后,发送至SparkStreaming。
4.根据权利要求1所述的基于大数据技术的数据流实时脱敏方法,其特征在于,根据所述访问主体信息和所述访问客体信息,匹配得到对应的脱敏策略的步骤之前,还包括:
预先设置多个脱敏策略和任一所述脱敏策略对应的匹配条件。
5.根据权利要求1所述的基于大数据技术的数据流实时脱敏方法,其特征在于,所述对用户端口发送的TCP/IP数据包进行抓取和重组,得到重组数据包的步骤包括:
响应于用户端口发起的SQL会话请求,对用户端口发送的TCP/IP数据包进行抓取和重组,以得到包含完整SQL请求报文的重组数据包。
6.根据权利要求4所述的基于大数据技术的数据流实时脱敏方法,其特征在于,所述预先设置多个脱敏策略和任一所述脱敏策略对应的匹配条件的步骤包括:
若原始数据对应的源数据库账号与预设数据库账号一致,则对应的脱敏策略设置为当原始数据为姓名信息时,对该姓名信息进行遮蔽。
7.根据权利要求1所述的基于大数据技术的数据流实时脱敏方法,其特征在于,所述访问主体信息至少包括源IP、源MAC、源端口、源数据库账号和时间中的一种或多种,所述访问客体信息至少包括数据库IP、数据库MAC、数据库端口、操作的表和字段信息中的一种或多种。
8.一种基于大数据技术的数据流实时脱敏系统,其特征在于,包括:
抓包模块,用于对用户端口发送的TCP/IP数据包进行抓取和重组,得到重组数据包;
协议解析模块,用于从所述重组数据包中提取完整的SQL请求报文,其中,所述SQL请求报文包括访问主体信息和访问客体信息;
原始数据提取模块,用于根据所述SQL请求报文,从数据库中提取对应的原始数据;
脱敏策略匹配模块,用于根据所述访问主体信息和所述访问客体信息,匹配得到对应的脱敏策略;
动态脱敏模块,用于根据所述脱敏策略对所述原始数据进行数据脱敏得到脱敏数据包,并将所述脱敏数据包发送至所述用户端口。
9.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN202211218894.2A 2022-10-07 2022-10-07 一种基于大数据技术的数据流实时脱敏方法及系统 Pending CN115600241A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211218894.2A CN115600241A (zh) 2022-10-07 2022-10-07 一种基于大数据技术的数据流实时脱敏方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211218894.2A CN115600241A (zh) 2022-10-07 2022-10-07 一种基于大数据技术的数据流实时脱敏方法及系统

Publications (1)

Publication Number Publication Date
CN115600241A true CN115600241A (zh) 2023-01-13

Family

ID=84844072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211218894.2A Pending CN115600241A (zh) 2022-10-07 2022-10-07 一种基于大数据技术的数据流实时脱敏方法及系统

Country Status (1)

Country Link
CN (1) CN115600241A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131236A (zh) * 2023-10-28 2023-11-28 深圳海云安网络安全技术有限公司 一种敏感数据的检测方法及系统
CN117313161A (zh) * 2023-11-29 2023-12-29 中邮消费金融有限公司 数据脱敏方法、组件、设备及存储介质
CN117633901A (zh) * 2024-01-25 2024-03-01 深圳昂楷科技有限公司 数据库动态脱敏方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131236A (zh) * 2023-10-28 2023-11-28 深圳海云安网络安全技术有限公司 一种敏感数据的检测方法及系统
CN117131236B (zh) * 2023-10-28 2024-02-02 深圳海云安网络安全技术有限公司 一种敏感数据的检测方法及系统
CN117313161A (zh) * 2023-11-29 2023-12-29 中邮消费金融有限公司 数据脱敏方法、组件、设备及存储介质
CN117313161B (zh) * 2023-11-29 2024-05-17 中邮消费金融有限公司 数据脱敏方法、组件、设备及存储介质
CN117633901A (zh) * 2024-01-25 2024-03-01 深圳昂楷科技有限公司 数据库动态脱敏方法及系统
CN117633901B (zh) * 2024-01-25 2024-05-07 深圳昂楷科技有限公司 数据库动态脱敏方法及系统

Similar Documents

Publication Publication Date Title
CN115600241A (zh) 一种基于大数据技术的数据流实时脱敏方法及系统
US9639578B2 (en) System and method for investigating large amounts of data
CN113342564B (zh) 日志审计方法、装置、电子设备和介质
CN103152352B (zh) 一种基于云计算环境的全信息安全取证监听方法和系统
US10691748B2 (en) Methods and apparatus to process call packets collected in a communications network
US20110125748A1 (en) Method and Apparatus for Real Time Identification and Recording of Artifacts
US11188443B2 (en) Method, apparatus and system for processing log data
US20120290555A1 (en) Method, System and Apparatus of Hybrid Federated Search
CN105681397A (zh) 一种网络流量数据存储方法及系统、查询方法及装置
CN107634848A (zh) 一种采集分析网络设备信息的系统和方法
CN109525495B (zh) 一种数据处理装置、方法和fpga板卡
WO2016107306A1 (zh) 消息订阅方法、处理节点设备和消息总线
CN111740868A (zh) 告警数据的处理方法和装置及存储介质
WO2018156979A1 (en) Selective distribution of messages in a publish-subscribe system
CN112632129A (zh) 一种码流数据管理方法、装置及存储介质
CN108880980A (zh) 基于微信群信息的数据分析系统
JP2016167799A (ja) ネットワークモニタリング方法及び装置、並びにパケットフィルタリング方法及び装置
CN114640504B (zh) Cc攻击防护方法、装置、设备和存储介质
CN112069048A (zh) 日志处理方法、装置及存储介质
WO2022183794A1 (zh) 一种流量处理方法、及防护系统
CN106254395B (zh) 一种数据过滤方法及系统
CN114189455B (zh) 基于ebpf技术的容器网络流量监控统计方法及系统
CN110781232A (zh) 数据处理方法、装置、计算机设备和存储介质
US20130205015A1 (en) Method and Device for Analyzing Data Intercepted on an IP Network in order to Monitor the Activity of Users on a Website
US9716600B1 (en) Augmented router processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination