CN112783602A - 一种敏感数据发现与检测的方法及系统 - Google Patents

一种敏感数据发现与检测的方法及系统 Download PDF

Info

Publication number
CN112783602A
CN112783602A CN202110025154.6A CN202110025154A CN112783602A CN 112783602 A CN112783602 A CN 112783602A CN 202110025154 A CN202110025154 A CN 202110025154A CN 112783602 A CN112783602 A CN 112783602A
Authority
CN
China
Prior art keywords
data
protocol
detection
matching
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110025154.6A
Other languages
English (en)
Inventor
韩浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110025154.6A priority Critical patent/CN112783602A/zh
Publication of CN112783602A publication Critical patent/CN112783602A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45562Creating, deleting, cloning virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45587Isolation or security of virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种检测准确度较高、非侵入式、易部署、覆盖面广的敏感数据检测方法和系统,包括全流量采集平台、IP分片处理、TCP会话流重组、应用层协议自识别、HTTP应用协议解析器和MYSQL应用协议解析器、结构化数据对象处理。统一流量采集平台支持:采集物理交换机镜像端口流量、虚拟化环境采集虚拟机交换机端口镜像流量、docker环境sidecar采集容器镜像流量;基于获取的流量进行分析,构建完整会话流并提取应用请求和响应payload;对应用层请求和响应payload进行分析处理;识别结构化数据对象并作结构化处理;利用关键字检测和正则匹配进行敏感数据的敏感内容检测;记录匹配内容及匹配结果和其在原文中的偏移量,有助于人工分析和调优。

Description

一种敏感数据发现与检测的方法及系统
技术领域
本发明涉及数据安全技术领域,具体涉及一种敏感数据发现与检测的方法及系统。
背景技术
互联网和大数据的蓬勃发展给数据安全和隐私保护带来前所未有的挑战。数据泄露往往带来严重的后果。进行数据安全防护的首要前提是需要知道数据,尤其是敏感数据在各类业务系统及组件中的具体分布情况,从而进一步建立相对应的安全防护措施。故而需要一种敏感数据的发现与检测装置用于从海量数据中发现需要防护的敏感数据。
目前市面上的敏感数据发现与检测装置侧重于数据防泄露,重点关注数据流出的方向,并且部署实施的成本较高,需要复杂的配置。尚且不能与数据分级分类进行联动,形成有机整体。准确性低,误报率高,数据发现的覆盖面窄。
发明内容
针对现有技术的不足,本发明公开了一种敏感数据发现与检测的方法及系统,用于解决目前市面上的敏感数据发现与检测装置侧重于数据防泄露,重点关注数据流出的方向,并且部署实施的成本较高,需要复杂的配置。尚且不能与数据分级分类进行联动,形成有机整体。准确性低,误报率高,数据发现的覆盖面窄的问题。
本发明通过以下技术方案予以实现:
第一方面,本发明公开一种敏感数据发现与检测的方法,包括以下步骤:
S1采集物理交换机镜像端口流量、虚拟化环境采集虚拟机交换机端口镜像流量、docker环境sidecar采集容器镜像流量;
S2基于获取的流量进行分析,构建完整会话流并提取应用请求和响应payload;
S3对应用层请求和响应payload进行分析处理;
S4识别结构化数据对象并作结构化处理;
S5利用关键字检测和正则匹配进行敏感数据的敏感内容检测;
S6记录匹配内容及匹配结果和其在原文中的偏移量,有助于人工分析和调优。
更进一步的,所述方法中,应用与应用、节点与节点的交互均通过网络进行,并在数据链路层用MTU来限制所能传输的数据包大小,当发送的IP数据包的大小超过MTU时,IP层对数据进行分片处理,故而需要实现IP分片处理模块用于重组分片的IP数据包。
更进一步的,所述方法中,通过序列号、检验和、确认应答信号、重发控制、连接管理、窗口控制、流量控制、拥塞控制机制在镜像流量中实现TCP会话流重组,进而提取TCP协议的数据段用于应用层协议自识别和应用层协议解析。
更进一步的,所述方法中,利用HTTP协议层有限状态机从镜像流量中提取HTTP请求的Method、Header、URL、请求体、响应体信息;通过MYSQL协议层有限状态机从镜像流量中提取MYSQL请求的操作方法、SQL语句、请求体、响应体信息。
更进一步的,所述方法中,通过HTTP Header解析模块,判别数据交换协议类型,进而调用相对应的交换协议解析引擎;
通过JSON交互协议的协议解析引擎,将JSON格式的请求、响应的payload转换成结构化数据对象;
通过XML交互协议的协议解析引擎,将XML格式的请求、响应的payload转换成结构化数据对象;
通过protobuf交互协议的协议解析引擎,将protobuf格式的请求、响应的payload转换成结构化数据对象;
通过MYSQL的请求分析模块,识别存在数据传输的操作命令;
通过Row Data解析引擎,将MYSQL请求、响应的业务数据转换成结构化数据对象。
更进一步的,所述方法中,实现可与数据分级分类管理联动的规则引擎,包括基于关键字和字典的元数据管理和基于正则匹配的主数据管理系统,并创建字典和正则叠加组合的规则体系用于支持复杂的数据分级分类规则。
更进一步的,所述方法中,通过扫描引擎按需定制敏感数据检测规则,并动态构建对应的规则扫描引擎,对待扫描的内容进行字符集检查并转换成UTF8编码;
对转换成UTF8编码的待扫描内容运用字符串匹配算法实现关键字检测;
对转换成UTF8编码的待扫描内容运用正则匹配算法实现主数据检测,对存在确定校验算法的主数据,调用检验器检测引擎。
更进一步的,所述方法中,通过处理引擎对扫描结果进行处理,对于关键字匹配成功的结果,记录匹配到的具体关键字已经关键字在待扫描内容中的偏移量,对主数据正则匹配成功的结果,记录具体的匹配成功内容以及该内容在待扫描内容中的偏移量。
更进一步的,所述方法中,通过动态决策树引擎,实现字典和正则叠加组合的复杂规则,在字典与正则各自的匹配结果之上,进一步计算组合规则的匹配结果,通过结构化数据结果归并模块,基于结构化数据的语义信息,提升检测结果的准确性。
第二方面,本发明公开了一种敏感数据发现与检测的系统,所述系统用于执行第一方面所述的敏感数据发现与检测的方法,包括全流量采集、IP分片处理、TCP会话流重组、应用层协议自识别、HTTP应用协议解析器和MYSQL应用协议解析器、结构化数据对象处理,所述系统针对http传输文件的场景,可将HTTP payload保存为文件,并基于文件扩展名和文件类型特征码自动识别文件类型,并提取文档类文件的文件内容至内存缓冲区,用于进一步敏感数据检测。
本发明的有益效果为:
1.支持全流量采集、全流量分析,极大提高敏感数据检测的覆盖面。
2.基于TCP协议层有限状态机的TCP会话流重组支持将业务数据的请求、应答进行关联分析,保留业务上下文语义信息;基于TCP协议层有限状态机可以解决重传、乱序、丢包等流量分析面临的技术问题;基于TCP协议层有限状态机可以支持应用层协议动态自识别、自添加,降低该装置部署的复杂度;基于协议特征码的应用层协议自识别使得装置可以实现即插即用,智能化、自动化,无需复杂配置。
3.HTTP协议层有限状态机可以完整还原Method、Header、URL、请求体、响应体等信息,保留尽可能多的业务层语义信息,并支撑交互协议的协议解析引擎以及文件传输场景实现,MYSQL协议层有限状态机可以完整还原请求的操作方法、SQL语句、请求体、响应体等信息,保留尽可能多的业务层语义信息,并支撑Row Data协议解析引擎的实现。
4.交互协议的协议解析引擎还原数据的上下文语义信息。有助于提升检测结果的准确性,Row Data协议解析引擎还原数据的上下文语义信息。有助于提升检测结果的准确性;文件类型自识别,内容自动抽取,支持文件上传、下载业务场景的敏感文件检测,并且无需复杂配置;智能识别待检测内容的字符集类型,并统一标准化成UTF8字符集,用以解决不同字符集带来的检测结果不一致问题,以及检测结果在原文中不对应的问题。
5.字典检测引擎可对接元数据管理系统,正则检测引擎可对接主数据管理系统。进而使得该检测装置可以对接数据分级分类管理体系;复杂规则的定义,以及基于决策树的复杂扫描引擎有助于提升检测结果的准确性。
6.结构化数据扫描结果的归并处理,有助于提升结构化数据检测结果的准确性;记录匹配内容、匹配结果在原文中的偏移量,详细的检测结果记录有助于辅助相应的工作人员进行人工分析和调优。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种敏感数据发现与检测的方法的原理示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参照图1所示,本实施例公开一种敏感数据发现与检测的方法,包括以下步骤:
S1采集物理交换机镜像端口流量、虚拟化环境采集虚拟机交换机端口镜像流量、docker环境sidecar采集容器镜像流量;
S2基于获取的流量进行分析,构建完整会话流并提取应用请求和响应payload;
S3对应用层请求和响应payload进行分析处理;
S4识别结构化数据对象并作结构化处理;
S5利用关键字检测和正则匹配进行敏感数据的敏感内容检测;
S6记录匹配内容及匹配结果和其在原文中的偏移量,有助于人工分析和调优。
本实施例中,应用与应用、节点与节点的交互均通过网络进行,并在数据链路层用MTU来限制所能传输的数据包大小,当发送的IP数据包的大小超过MTU时,IP层对数据进行分片处理,故而需要实现IP分片处理模块用于重组分片的IP数据包。通过序列号、检验和、确认应答信号、重发控制、连接管理、窗口控制、流量控制、拥塞控制机制在镜像流量中实现TCP会话流重组,进而提取TCP协议的数据段用于应用层协议自识别和应用层协议解析。
本实施例利用HTTP协议层有限状态机从镜像流量中提取HTTP请求的Method、Header、URL、请求体、响应体信息;通过MYSQL协议层有限状态机从镜像流量中提取MYSQL请求的操作方法、SQL语句、请求体、响应体信息。
本实施例通过HTTP Header解析模块,判别数据交换协议类型,进而调用相对应的交换协议解析引擎;
通过JSON交互协议的协议解析引擎,将JSON格式的请求、响应的payload转换成结构化数据对象;
本实施例通过XML交互协议的协议解析引擎,将XML格式的请求、响应的payload转换成结构化数据对象;
本实施例通过protobuf交互协议的协议解析引擎,将protobuf格式的请求、响应的payload转换成结构化数据对象;
本实施例通过MYSQL的请求分析模块,识别存在数据传输的操作命令;
本实施例通过Row Data解析引擎,将MYSQL请求、响应的业务数据转换成结构化数据对象。
本实施例实现规则引擎用于数据分级分类管理、基于关键字和字典的元数据管理和基于正则匹配的主数据管理系统,并支持创建字典和正则叠加组合的复杂规则体系。
本实施例通过扫描引擎按需定制敏感数据检测规则,并动态构建对应的规则扫描引擎,对待扫描的内容进行字符集检查并转换成UTF8编码;
本实施例对转换成UTF8编码的待扫描内容运用字符串匹配算法实现关键字检测;
本实施例对转换成UTF8编码的待扫描内容运用正则匹配算法实现主数据检测,对存在确定校验算法的主数据,调用检验器检测引擎。
本实施例通过处理引擎对扫描结果进行处理,对于关键字匹配成功的结果,记录匹配到的具体关键字已经关键字在待扫描内容中的偏移量,对主数据正则匹配成功的结果,记录具体的匹配成功内容以及该内容在待扫描内容中的偏移量。
本实施例通过动态决策树引擎,实现字典和正则叠加组合的复杂规则,在字典与正则各自的匹配结果之上,进一步计算组合规则的匹配结果,通过结构化数据结果归并模块,基于结构化数据的语义信息,提升检测结果的准确性。
实施例2
本实施例公开一种检测准确度较高、非侵入式、易部署、覆盖面广的敏感数据检测方法;
1.通过应用协议自识别,然后动态自添加使得该装置即插即用,无需复杂配置;
2.通过构建TCP会话流重组,使得该装置技能关注流出系统的敏感数据,还能关注流入系统的敏感数据,并且敏感数据的流出和流入可以进行关联;
3.该装置通过元数据管理与主数据管理,与数据分级分类形成联动,更好的适配相应的法律法规要求;
4.基于镜像流量分析技术,该装置实现成非侵入,无需改动原有的业务架构;并且通过物理交换机镜像端口流量采集、虚拟化层虚拟交换机镜像流量采集、容器层sidecar流量采集实现全流量分析,提升敏感数据检测与发现的覆盖率;
5.智能数据检测引擎基于关键字、字典、正则,并支持字典、正则任意组合的复杂规则,并且引入校验器检测算法与装置,可以极大地提升检测准确性;
6.支持文件上传、下载场景中,文件类型自识别及其基于文件内容的敏感文件检测;
7.对结构化数据传输场景,还原结构化数据原始语义,有助于提升检测的准确性;
8.支持应用层HTTP和MYSQL的内容检测;
9.详细的检测结果包括匹配到的具体关键字及其关键字在原始输入数据中的偏移量,正则匹配成功的具体内容及其该内容在原始输入数据中的偏移量。
实施例3
本实施例公开一种基于流量分析提取应用请求、响应payload方法,包括:全流量采集;IP分片处理;TCP会话流重组;应用层协议自识别;HTTP应用协议解析器;MYSQL应用协议解析器;
在本发明的实施例中,通过采集物理交换机镜像端口流量、虚拟化环境采集虚拟机交换机端口镜像流量、docker环境sidecar采集容器镜像流量实现全流量采集,分布式环境中应用与应用、节点与节点的交互均通过网络进行,采集网络的全流量可以实现敏感数据检测的全覆盖。
在本发明的实施例中,数据链路层用MTU(Maximum Transmission Unit,最大传输单元)来限制所能传输的数据包大小,当发送的IP数据包的大小超过了MTU时,IP层就需要对数据进行分片。故而需要在技术角度实现IP分片处理。
在本发明的实施例中,研究并实现TCP协议层有限状态机(Finite-statemachine,FSM),该状态机通过序列号、检验和、确认应答信号、重发控制、连接管理、窗口控制、流量控制、拥塞控制机制在镜像流量中实现TCP会话流重组,进而提取TCP协议的数据段用于应用层协议自识别和应用层协议解析。
在本发明的实施例中,通过实现协议自识别使得敏感数据检测装置可以即插即用,降低部署成本。协议自识别在技术层面不局限于特定端口号识别,基于应用层协议特征码的识别,用以提高协议识别的准确率。
在本发明的实施例中,实现HTTP协议层有限状态机(Finite-state machine,FSM),用作HTTP报文协议解析,基于此,可从镜像流量中提取HTTP请求的Method、Header、URL、请求体、响应体等重要信息。
在本发明的实施例中,实现MYSQL协议层有限状态机(Finite-state machine,FSM),用作MYSQL报文协议解析,基于此,可从镜像流量中提取MYSQL请求的操作方法、SQL语句、请求体、响应体等重要信息。
实施例4
本实施例公开一种实现内容处理引擎,对应用层请求、响应payload进行分析处理的装置。
在本发明的实施例中,针对HTTP应用层协议传输场景,通过HTTP Header解析模块,用以判别数据交换协议类型,进而调用相对应的交换协议解析引擎。针对文件传输场景,调用文件处理引擎。
在本发明的实施例中,实现JSON交互协议的协议解析引擎,用于将JSON格式的请求、响应的payload转换成结构化数据对象。
在本发明的实施例中,实现XML交互协议的协议解析引擎,用于将XML格式的请求、响应的payload转换成结构化数据对象。
在本发明的实施例中,实现protobuf交互协议的协议解析引擎,用于将protobuf格式的请求、响应的payload转换成结构化数据对象。
在本发明的实施例中,实现MYSQL的请求分析模块,识别存在数据传输的操作命令。
在本发明的实施例中,实现Row Data解析引擎,用于将MYSQL请求、响应的业务数据转换成结构化数据对象。
在本发明的实施例中,针对HTTP文件传输场景,实现一种装置用于将HTTPpayload保存为文件。
在本发明的实施例中,实现一种装置用于自动识别文件类型,文件类型识别不局限于文件扩展名,还包括文件类型特征码识别。
在本发明的实施例中,实现一种装置用于提取各类文本文件的文件内容至内存缓冲区,用于进一步敏感数据检测。
实施例5
本实施例公开一种基于关键字检测、正则匹配的敏感内容检测引擎。
在本发明的实施例中,实现规则引擎用于数据分级分类管理、基于关键字和字典的元数据管理系统和基于正则匹配的主数据管理系统。支持创建字典和正则叠加组合的复杂规则体系。
在本发明的实施例中,实现扫描引擎用于按需定制敏感数据检测规则,并动态构建对应的规则扫描引擎。对待扫描的内容进行字符集检查并转换成UTF8编码。
在本发明的实施例中,对转换成UTF8编码的待扫描内容运用字符串匹配算法实现关键字检测
在本发明的实施例中,对转换成UTF8编码的待扫描内容运用正则匹配算法实现主数据检测,对于某些存在确定校验算法的主数据,进一步调用检验器检测引擎,进一步提高检测的准确性。
在本发明的实施例中,实现结果处理引擎对扫描结果进行处理,对于关键字匹配成功的结果,记录匹配到的具体关键字已经关键字在待扫描内容中的偏移量。
在本发明的实施例中,对于主数据正则匹配成功的结果,记录具体的匹配成功内容以及该内容在待扫描内容中的偏移量。
在本发明的实施例中,实现动态决策树引擎,用于字典和正则叠加组合的复杂规则,在字典与正则各自的匹配结果之上,进一步计算组合规则的匹配结果。
在本发明的实施例中,实现结构化数据结果归并模块,基于结构化数据的语义信息,提升检测结果的准确性。
综上,本发明支持全流量采集、全流量分析,极大提高敏感数据检测的覆盖面。
本发明基于TCP协议层有限状态机的TCP会话流重组支持将业务数据的请求、应答进行关联分析,保留业务上下文语义信息;基于TCP协议层有限状态机可以解决重传、乱序、丢包等流量分析面临的技术问题;基于TCP协议层有限状态机可以支撑应用层协议动态自识别、自添加,降低该装置部署的复杂度;基于协议特征码的应用层协议自识别使得装置可以实现即插即用,智能化、自动化,无需复杂配置。
本发明HTTP协议层有限状态机可以完整还原Method、Header、URL、请求体、响应体等信息,保留尽可能多的业务层语义信息,并支撑交互协议的协议解析引擎以及文件传输场景实现,MYSQL协议层有限状态机可以完整还原请求的操作方法、SQL语句、请求体、响应体等信息,保留尽可能多的业务层语义信息,并支撑Row Data协议解析引擎的实现。
本发明交互协议的协议解析引擎还原数据的上下文语义信息。有助于提升检测结果的准确性,Row Data协议解析引擎还原数据的上下文语义信息。有助于提升检测结果的准确性;文件类型自识别,内容自动抽取,支持文件上传、下载业务场景的敏感文件检测,并且无需复杂配置;智能识别待检测内容的字符集类型,并统一标准化成UTF8字符集,用以解决不同字符集带来的检测结果不一致问题,以及检测结果在原文中不对应的问题。
本发明字典检测引擎可对接元数据管理系统,正则检测引擎可对接主数据管理系统。进而使得该检测装置可以对接数据分级分类管理体系;复杂规则的定义,以及基于决策树的复杂扫描引擎有助于提升检测结果的准确性。
本发明结构化数据扫描结果的归并处理,有助于提升结构化数据检测结果的准确性;记录匹配内容、匹配结果在原文中的偏移量,详细的检测结果记录有助于辅助相应的工作人员进行人工分析和调优。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种敏感数据发现与检测的方法,其特征在于,所述方法包括以下步骤:
S1采集物理交换机镜像端口流量、虚拟化环境采集虚拟机交换机端口镜像流量、docker环境sidecar采集容器镜像流量;
S2基于获取的流量进行分析,构建完整会话流并提取应用请求和响应payload;
S3对应用层请求和响应payload进行分析处理;
S4识别结构化数据对象并作结构化处理;
S5利用关键字检测和正则匹配进行敏感数据的敏感内容检测;
S6记录匹配内容及匹配结果和其在原文中的偏移量,有助于人工分析和调优。
2.根据权利要求1所述的敏感数据发现与检测的方法,其特征在于,所述方法中,应用与应用、节点与节点的交互均通过网络进行,并在数据链路层用MTU来限制所能传输的数据包大小,当发送的IP数据包的大小超过MTU时,IP层对数据进行分片处理,故而需要实现IP分片处理模块用于重组分片的IP数据包。
3.根据权利要求1所述的敏感数据发现与检测的方法,其特征在于,所述方法中,通过序列号、检验和、确认应答信号、重发控制、连接管理、窗口控制、流量控制、拥塞控制机制在镜像流量中实现TCP会话流重组,进而提取TCP协议的数据段用于应用层协议自识别和应用层协议解析。
4.根据权利要求1所述的敏感数据发现与检测的方法,其特征在于,所述方法中,利用HTTP协议层有限状态机从镜像流量中提取HTTP请求的Method、Header、URL、请求体、响应体信息;通过MYSQL协议层有限状态机从镜像流量中提取MYSQL请求的操作方法、SQL语句、请求体、响应体信息。
5.根据权利要求1所述的敏感数据发现与检测的方法,其特征在于,所述方法中,通过HTTP Header解析模块,判别数据交换协议类型,进而调用相对应的交换协议解析引擎;
通过JSON交互协议的协议解析引擎,将JSON格式的请求、响应的payload转换成结构化数据对象;
通过XML交互协议的协议解析引擎,将XML格式的请求、响应的payload转换成结构化数据对象;
通过protobuf交互协议的协议解析引擎,将protobuf格式的请求、响应的payload转换成结构化数据对象;
通过MYSQL的请求分析模块,识别存在数据传输的操作命令;
通过Row Data解析引擎,将MYSQL请求、响应的业务数据转换成结构化数据对象。
6.根据权利要求1所述的敏感数据发现与检测的方法,其特征在于,所述方法中,实现可与数据分级分类管理联动的规则引擎,包括基于关键字和字典的元数据管理和基于正则匹配的主数据管理系统,并创建字典和正则叠加组合的规则体系用于支持复杂的数据分级分类规则。
7.根据权利要求1所述的敏感数据发现与检测的方法,其特征在于,所述方法中,通过扫描引擎按需定制敏感数据检测规则,并动态构建对应的规则扫描引擎,对待扫描的内容进行字符集检查并转换成UTF8编码;
对转换成UTF8编码的待扫描内容运用字符串匹配算法实现关键字检测;在关键字检测结果基础之上,运用更高层次的算法实现字典匹配结果的计算。
对转换成UTF8编码的待扫描内容运用正则匹配算法实现主数据检测,对存在确定校验算法的主数据,调用检验器检测引擎。
8.根据权利要求1所述的敏感数据发现与检测的方法,其特征在于,所述方法中,通过处理引擎对扫描结果进行处理,对于关键字匹配成功的结果,记录匹配到的具体关键字以及关键字在待扫描内容中的偏移量,对主数据正则匹配成功的结果,记录具体的匹配成功内容以及该内容在待扫描内容中的偏移量。
9.根据权利要求1所述的敏感数据发现与检测的方法,其特征在于,所述方法中,通过动态决策树引擎,实现字典和正则叠加组合的复杂规则,在字典与正则各自的匹配结果之上,进一步计算组合规则的匹配结果,通过结构化数据结果归并模块,基于结构化数据的语义信息,提升检测结果的准确性。
10.一种敏感数据发现与检测的系统,所述系统用于执行如权利要求1-9任一项所述的敏感数据发现与检测的方法,其特征在于,包括全流量采集、IP分片处理、TCP会话流重组、应用层协议自识别、HTTP应用协议解析器和MYSQL应用协议解析器、结构化数据对象处理,所述系统针对http传输文件的场景,可将HTTP payload保存为文件,并基于文件扩展名和文件类型特征码自动识别文件类型,并提取文档类文件的文件内容至内存缓冲区,用于进一步敏感数据检测。
CN202110025154.6A 2021-01-08 2021-01-08 一种敏感数据发现与检测的方法及系统 Pending CN112783602A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110025154.6A CN112783602A (zh) 2021-01-08 2021-01-08 一种敏感数据发现与检测的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110025154.6A CN112783602A (zh) 2021-01-08 2021-01-08 一种敏感数据发现与检测的方法及系统

Publications (1)

Publication Number Publication Date
CN112783602A true CN112783602A (zh) 2021-05-11

Family

ID=75756970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110025154.6A Pending CN112783602A (zh) 2021-01-08 2021-01-08 一种敏感数据发现与检测的方法及系统

Country Status (1)

Country Link
CN (1) CN112783602A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114374635A (zh) * 2021-12-14 2022-04-19 阿里巴巴(中国)有限公司 路由检测方法、装置、设备及存储介质
CN114944997A (zh) * 2022-03-24 2022-08-26 浙江大华技术股份有限公司 一种协议检测方法、协议检测装置和计算机可读存储介质
CN117097571A (zh) * 2023-10-19 2023-11-21 中孚安全技术有限公司 一种网络传输敏感数据的检测方法、系统、装置及介质
CN117421670A (zh) * 2023-11-16 2024-01-19 国网江苏省电力有限公司信息通信分公司 一种敏感信息识别方法、装置、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114374635A (zh) * 2021-12-14 2022-04-19 阿里巴巴(中国)有限公司 路由检测方法、装置、设备及存储介质
CN114374635B (zh) * 2021-12-14 2023-12-05 阿里巴巴(中国)有限公司 路由检测方法、装置、设备及存储介质
CN114944997A (zh) * 2022-03-24 2022-08-26 浙江大华技术股份有限公司 一种协议检测方法、协议检测装置和计算机可读存储介质
CN114944997B (zh) * 2022-03-24 2024-02-20 浙江大华技术股份有限公司 一种协议检测方法、协议检测装置和计算机可读存储介质
CN117097571A (zh) * 2023-10-19 2023-11-21 中孚安全技术有限公司 一种网络传输敏感数据的检测方法、系统、装置及介质
CN117421670A (zh) * 2023-11-16 2024-01-19 国网江苏省电力有限公司信息通信分公司 一种敏感信息识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112783602A (zh) 一种敏感数据发现与检测的方法及系统
US9264378B2 (en) Network monitoring by using packet header analysis
US11399288B2 (en) Method for HTTP-based access point fingerprint and classification using machine learning
US8065722B2 (en) Semantically-aware network intrusion signature generator
CN112468520B (zh) 一种数据检测方法、装置、设备及可读存储介质
US9806974B2 (en) Efficient acquisition of sensor data in an automated manner
CN109902274B (zh) 一种将json字符串转化为thrift二进制流的方法及系统
CN113364752B (zh) 一种流量异常检测方法、检测设备及计算机可读存储介质
CN106936791B (zh) 拦截恶意网址访问的方法和装置
CN112333706B (zh) 物联网设备异常检测方法、装置、计算设备及存储介质
RU2697648C2 (ru) Система классификации трафика
CN107528812B (zh) 一种攻击检测方法及装置
US20030167325A1 (en) Network based middleware that manipulates media objects
CN114422271B (zh) 数据处理方法、装置、设备及可读存储介质
CN116723058B (zh) 网络攻击检测和防护方法和装置
Yang et al. Fingerprinting Industrial IoT devices based on multi-branch neural network
JP4429173B2 (ja) デジタル通信データに基づいてアクションをトリガーする方法及びコンピュータ・システム
WO2016058401A1 (zh) 一种超文本传输协议数据还原方法及装置
CN113382003B (zh) 一种基于两级过滤器的rtsp混合入侵检测方法
EP3985920A1 (en) Network traffic analysis
CN112565259B (zh) 过滤dns隧道木马通信数据的方法及装置
Wan et al. DevTag: A benchmark for fingerprinting IoT devices
CN114205151A (zh) 基于多特征融合学习的http/2页面访问流量识别方法
CN108809900B (zh) 一种统一资源访问的框架及方法
CN111404920B (zh) 应用于工业控制环境的异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination