CN109766525A

CN109766525A - 一种数据驱动的敏感信息泄露检测框架

Info

Publication number: CN109766525A
Application number: CN201910030202.3A
Authority: CN
Inventors: 孙建华; 陈颖
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-01-14
Filing date: 2019-01-14
Publication date: 2019-05-17

Abstract

本发明涉及敏感信息泄露检测领域。具体涉及到通过对网络数据包的捕获、分析以及还原等来发现敏感信息泄露的方法。本发明提出了一种数据驱动的敏感信息泄露检测框架，该框架主要由五部分组成：信息收集模块、文本提取模块、指纹生成模块、指纹数据库、文本分析模块。信息收集模块首先对网络出入口上的数据包进行捕获，之后还原出数据包中的原始文件，然后文本提取模块对这些文件进行文本内容的提取，指纹生成模块生成相应文件的指纹信息，最后文本分析模块会把生成的指纹信息与指纹数据库中的敏感信息的指纹进行文本相似性计算，从而判断是否出现了敏感信息泄露。其结构如图1所示。该框架可以快速地检测出敏感信息泄露并及时做出响应。

Description

一种数据驱动的敏感信息泄露检测框架

技术领域

本发明涉及敏感信息泄露检测领域。具体涉及到通过对网络数据包的捕获、分析以及还原等来发现敏感信息泄露的方法。

背景技术

敏感信息在其创建、存储、传输、使用、销毁等生命周期的各个阶段时刻都遭受着泄露的风险，存在很多值得深入研究的问题。随着互联网的迅速发展，敏感信息面临更多的网络威胁。在网络和信息设施层，专用网、公众网、计算和存储设施均面临着大量的攻击威胁，一旦网络和基础设施被攻击劫持将可能导致敏感信息泄露。此外高速网络带宽的急剧增长也对敏感信息泄露的检测带来了巨大的困难。

目前用于检测敏感信息泄露的技术主要使用静态分析和动态分析这两种方式，静态分析大部分用于离线检测应用程序所存在的漏洞，不能对应用程序的执行状态进行实时监控，因而无法对应用程序发生的敏感信息泄露进行检测。同时，为了使静态分析的结果足够准确，需要事先进行大量的先验测试。动态分析主要采用动态污点跟踪技术对敏感信息泄露进行检测。这种方式可以辅助静态分析进行离线检测，同时能够实时检测，但该方式存在运行效率低下、复杂度高等问题。传统的检测敏感信息泄露的方法主要场景是针对于应用程序的，通过静态或动态的分析方法来发现应用程序所存在的潜在漏洞，从而修复漏洞来避免敏感信息泄露，能够实时跟踪敏感数据的很少。另外在如今的高速网络环境下，存在大量的网络数据，传统的检测方法并不能对数据进行及时的检测，一般采取对相应的数据进行存储后转为离线检测，这会严重影响检测的时效性。

在网络信息安全领域，入侵检测技术作为其中的关键技术之一，可以有效地防止敏感信息发生泄露问题。入侵检测技术主要分为基于主机的入侵检测和基于网络的入侵检测两大类。目前大多数的入侵检测产品都属于基于网络的入侵检测，该类型的入侵检测系统的数据来源是网络中的实时数据包。该系统可以放置在网络中的任意节点上，选择不同的放置位置可适应不同的网络结构，可以实时监控网络流量，检查网络状态和其他可疑活动。在这种类型的入侵检测系统中，通常将某台主机的网卡模式设置为混杂模式，监听并检测本网段内的所有流过的网络数据包。该类型的入侵检测系统能够保护整个网段内的所有主机。它实时地监测本网段中的各种数据包，对通过本网段的所有数据包进行特征提取与分析，比较数据包内容与规则库里的规则是否相匹配。若二者相匹配，该入侵检测系统就判定发生了入侵，同时依照默认设置发出警报并采取响应措施。但入侵检测技术严重依赖于规则库的更新，由于规则库里的规则并不能应对所有的情况，针对某种新型的入侵攻击会出现入侵检测失败的问题，同时该技术并不能有效地防止敏感信息内部泄露的问题。

发明内容

本发明针对传统检测敏感信息泄露的方法存在的实时性与运行效率低下的问题，以及现有方法的缺点，提出了一种数据驱动的敏感信息泄露检测框架。该框架可以对网络数据包进行实时的监控与分析，并且可以对敏感信息的泄露立即响应，提高了检测的效率；同时对高速网络环境下的敏感信息泄露检测有了很好的支持，充分地解决在这个过程中容易出现的丢包、数据包处理速度慢以及不能及时判断响应等问题。具体内容如下：

1.框架简介

该框架的具体实现结构如图1所示，主要由五部分组成：信息收集模块、文本提取模块、指纹生成模块、指纹数据库、文本分析模块。信息收集模块首先对网络出入口上的数据包进行捕获，并对收集到的数据包进行逐层协议解析和分析，还原出数据包中的原始文件，然后文本提取模块对这些原始文件进行文本内容的提取，指纹生成模块用于生成相应文件的指纹信息，最后文本分析模块会把生成的指纹信息与指纹数据库中所存的敏感信息的指纹进行文本相似性计算，从而判断是否出现了敏感信息泄露。

各个模块使用了统一的数据流编程模型来设计，具体包括输入通道、输出通道、计算任务以及运行环境等组件，如图2所示。数据流模型是一种由数据驱动的高性能并行程序执行模型，其执行模型可以用有向图来表示，图中的每个节点表示为一个计算块，用来执行计算任务，每条边表示为一条数据传输通道，相邻节点间通过数据传输通道连接，前一个节点处理后的数据作为下一个计算块的输入数据，从而实现了数据处理和数据传输的分离。

与传统的多线程编程模型相比，数据流模型中的各个节点都是一个独立的计算块，即独立于其他任何节点存在，相互间不会干扰。这种执行模型允许输入数据到达节点后立即执行，由于在整个过程中相互之间没有数据依赖性，不会出现死锁等问题，无需管理和手动生成线程或处理信号量等并发问题，降低了开发的复杂性。因此各个模块无需集中控制，对于其中的任一计算块，只要输入具有可用资源，该计算块便可正常执行计算任务，所以可以非常容易地在各个阶段充分利用所有可用的并行性。在各个模块内部，计算任务与运行环境构成一个计算块，输入、输出通道组成数据传输通道，各模块具体的计算任务如下：

2.信息收集模块

信息收集模块，主要负责对网络出入口上传送的数据包进行捕获，从而完成对信息源的收集工作。可以指定特殊的网络接口或者将网卡设置为混杂模式，信息源收集模块会监视并捕获所有经过该网络接口或流经该网卡的数据包。

由于传统的数据包捕获机制在高速网络下存在性能瓶颈，因此可采用“零拷贝”的思想实现数据包的捕获工作。基于零拷贝的捕包机制最基本的思想就是将数据包直接从网络设备复制到用户态空间，减少系统调用以及数据包的内存拷贝次数，减少CPU的参与，使CPU专注于上层数据包的处理工作。具体的实现是基于内存区域映射技术和直接存储器访问(DMA)技术。

信息收集模块在接收到数据包之后，会对捕获到的数据包进行逐层协议解析和分析，将数据包各层协议的内容分析出来，从而还原数据包中的原始文件。原理主要基于协议分析与还原技术。

(1)协议分析，即利用网络协议的高度规范性，通过对网络中传输的数据包的各层协议进行分析，获得数据包的基本协议信息，将解析结果填充到相应的数据结构中，为后面的流重组和应用还原做准备。如果解析出数据包发生了分片或者分段，还要对数据包进行分片或分段的重组。

(2)协议还原，是在协议分析和流重组基础上，对应用层的协议进行分析。其不是对某一个数据包进行分析，而是对由一系列数据包组成的应用层会话进行分析，即在判断应用层协议类型的基础上，根据各种应用层协议独有的工作流程和特征(如格式、关键字段等)，从会话中提取用户所关心的信息和应用层报文正文，在进行解压缩、解码等处理后，将整个会话过程传输的应用数据内容还原出来。

3.文本提取模块

文本信息提取模块主要负责对信息收集模块中还原出来的各种文件进行文本内容提取。从文件的数据类型的角度可以将其分为半结构化数据和非结构化数据两大类。前者是结构化数据的一种，然而并不符合传统关系数据库的模型结构，但包含相关标记，用来对字段和记录进行分层以及分隔语义元素，常见的属于半结构数据的文件类型有JSON、HTML以及XML等。另外一类非结构化数据主要指没有固定结构的数据，常见的各种图片、文档、音频/视频等均属于非结构化数据。

针对半结构化数据的文件类型，其中JSON、HTML以及XML等都属于标准化的标记语言，可以根据其特定的语言结构生成相应的解析器，从而方便提取文本信息。其中HTML的定义使用了DTD(文档类型定义)的格式，该格式包括了所有能够使用的元素以及其层次结构和属性的定义。对于HTML的解析，主要是对标记的解析，解析的结果为一棵“解析树”，即由各属性结点与DOM元素所构成的树，标记与DOM之间是一一对应的关系。解析过程主要分为两个阶段进行，

(1)词法分析的过程：即标记化，将输入信息解析为多个标记，标记主要包括开始标记、结束标记、属性值以及属性名称等；

(2)构造DOM树的过程：上个阶段的输出结果为各种HTML标记，这些标记通过标记生成器传递到树构造器，每个标记对应的DOM元素在接受到相应标记后创建，并添加到DOM树中。

而针对大多数的非结构化数据的文件类型，虽然各种文档，图片均无统一规定的类型，而具体到其中的某一类文档时，这类文档会具有通用的文件结构。例如PDF文档等，均由文件头、文件尾以及文件体组成。文件头主要由文档的版本、大小以及日期等信息确定；文件尾主要保存了索引以及加密等安全信息；而文件体主要由各种具体对象组成，包括图像、文本、各种线条以及字体等。由于该模块的目的是为了提取文本信息，同样可以构造出针对特定文档的解析器用于对文件体进行信息提取，通过获取到页面中各文本的确切位置，从而提取出相应的文本、线条、字体大小及名称等方面的信息。而对于图片中的文本信息提取，可以借助于成熟的光学字符识别(OCR)技术，通过对图像进行二值化、去除噪声、校正及识别等处理进行信息提取。

4.指纹生成模块

指纹生成模块主要用来生成文本文件的指纹信息。该文本指的是文本提取模块提取出的文本文件。生成指纹信息的方法一般是指通过提取整个文本的特征词，将这些特征词集合散列成哈希值，用这些哈希值来代表整个文本。

传统的哈希算法从原理上看均属于伪随机数生成算法的范畴，可能会出现两个信息内容相差很小的文本，生成的指纹信息会存在较大的差别，这会对之后要进行的文本分析过程造成巨大的影响；同时通过传统的哈希算法得到的两个文本的指纹信息，若指纹不相同只能说明原来的文本内容不同，而无法得到更多的信息。

为了解决以上问题，本发明借鉴了局部敏感哈希算法的思想，并在其基础上进行了改进。局部敏感哈希算法最大的特点就是能够保持数据间的相似性，即两个在内容上差别很小的文本通过该局部哈希算法后，只在局部体现出差别，同时尽最大可能保持了两者的相似性。其基本思想是找到整个文本的特征词，通过哈希算法生成这些特征词的哈希值，按照特征词的词频生成对应数字串，将所有特征词的数字串经过加权、累加以及降维等操作得到一个数字串。其具体实现过程包括以下几个部分：

(1)分词。即将一个连续的句子按照规范拆分为一个个单独的词的过程。对于英文文本而言，各个单词间均以空格作为分界符，故只需识别出空格即可完成分词过程。然而对于大多数的中文文本而言，文本主要由句子构成，句子是最基本的单位，无明显的分界符。对于中文的分词，可使用基于字符串正向最大匹配与反向最大匹配结合的方法，通过将待分词的字符串从两个方向开始与机器词典中词条进行匹配，分别统计两个方向上匹配词的个数，取两者中最大值，该方向的词组作为最终的分词结果。

(2)去噪。在对文本进行分词之后，无论是中文文本还是英文文本的分词结果都会存在许多与文本信息相关性无关的噪声词，如英文中的“a”、“the”以及中文中的“着”、“的”、“好”等，同时还有大量的标点符号。去除这些噪声词及标点符号既能保留整个文本的主要信息，同时保证了特征词的精确性。

(3)提取特征词。根据上述经过去噪后的分词结果，统计各个词组在分词结果中出现的频率，并按照降序排列所有的特征词，同时以序号+特征词+词频的格式输出结果。由于是针对单个文本的提取，以词频降序排列的特征词在很大程度上代表了整个文本的内容。

(4)局部敏感哈希。首先通过哈希算法把上述的特征词变成一串串哈希值，即由数字“0”，“1”组成的数字串；之后将这些哈希值根据对应特征词的词频变成加权数字串，即数字为“1”的位加上词频，数字为“0”的位加上词频的相反数；然后把经过加权后的所有特征词的哈希值按照每一位进行累加得到一个序列值；最后对这个累加后的序列值进行降维处理，即对于该序列值的每一位，小于0的位上标记为0，大于0的位上标记为1。这个经过降维操作后的序列值就作为该文本的指纹信息，用于后面的文本分析。

5.文本分析模块

指纹数据库是用来存储原始文本的指纹信息，此处原始文本是指事先需要保护的敏感内容的文本信息。该指纹同样是通过上述文本提取模块与指纹生成模块来提前生成。指纹数据库内部按照敏感文件的文件名、文件大小以及文件类型进行排列，提供多种方式来查询相关指纹，同时可以通过指纹来定位文件。

文本分析模块的主要工作是将该指纹信息与指纹数据库中保存的敏感信息的指纹进行文本相似性的计算，用文本相似度的结果作为判断是否发生了敏感信息泄露的依据。若两个指纹信息之间的文本相似度高于事先设定的安全阈值，即这两个文本的内容信息在很大程度上是相同或相近的，则说明保存的重要文件的内容信息发生了泄露。

因为指纹信息是由特征词经过局部敏感哈希后生成的特征向量，该指纹信息在很大程度上可以代表整个文本信息，两个文本信息之间的相似性度量就可以转换为由文本信息生成的指纹信息间的相似性比较。由于指纹信息在本质上是经过处理后的特征向量，而向量之间的相似性比较可以通过向量间的距离来体现。向量间的距离通过汉明距离来衡量，即统计两个等长字符串在对应位置上不同字符的个数。整个文本分析模块的具体实现如下：

(1)根据指纹信息对应的原文本文件大小在指纹数据库中查询相关的指纹；或者根据指纹信息对应的原文本文件类型在指纹数据库中查询相关指纹；

(2)计算生成的指纹信息和查询得到的各指纹信息两者间的汉明距离；

(3)比较各组汉明距离与安全阈值的大小，找到小于等于安全阈值的那组距离；

(4)确认敏感信息泄露，发出报警信息，通过指纹确定泄露的敏感文件。

6.框架工作流程

对于信息收集模块而言，具体的计算任务由数据包捕获、协议分析和协议还原组成。首先在需要监测的网络出入口上，使用零拷贝的捕包机制来捕获数据包，同时将具体捕获数据包的大小设置为固定值，这会加快数据包的捕获速度而不至于遗漏数据包，另外固定的数据包大小提高了数据包的读取与存储操作的效率。之后信息收集模块会对捕获的数据包进行协议分析与协议还原操作，对于由不同的协议封装的数据包进行分类后用不同的协议分析器并行处理，同样根据不同的应用层协议对相应数据包还原出原始文件，因而分别提高了协议分析和协议还原操作的并行度。

信息收集模块从捕获的数据包还原出文件后，通过输出通道将还原出的多个文件传递到文本提取模块，同时继续捕获网络中的数据包。文本提取模块在其输入通道接收到文件后，根据不同的文件类型将这些文件分为非结构化数据与半结构化数据两大类，对于半结构化数据类型的文件通过词法分析以及构建DOM树等处理来提取文本信息，同样对于非结构数据类型的文件分为图像类与非图像两大类，前者使用OCR技术来提取文本信息，后者使用特定结构化文件解析器来提取文本信息，从而在模块内部实现并行处理提取文本的任务。

文本提取模块会将提取出的文本信息经过输出通道传递到指纹生成模块。指纹生成模块只要在其输入通道中接收到文本信息，便会开始进行指纹生成的工作，经过分词、去除噪声词以及标点符号、提取整个文本的特征词以及局部敏感哈希等过程后得到最终的指纹信息。之后指纹生成模块会把生成的指纹信息经过输出通道传递到文本分析模块。

文本分析模块在其输入通道中接收到指纹信息后，根据此指纹的原始文件信息在指纹数据库中查找与之相近的指纹信息集合，之后在该模块内部进行此指纹与指纹信息集合间的文本相似性的计算，比较文本相似度与安全阈值二者间的大小，从而判断是否发生了敏感信息泄露。

以上各个模块相互独立，在运行时相互之间不会影响任何中间状态，同时也不会存在写入冲突等问题，模块间由输入、输出通道进行数据驱动，模块内部并行处理计算任务。因为输入、输出通道本质上是非阻塞的单向FIFO队列，在各个模块内部，只要输入通道里有数据满足要求，该模块便会进行工作，不会出现等待的情况，各个模块在整体上构成了一个由数据驱动的对敏感信息泄露进行实时检测的流水线。本发明提出的数据驱动的敏感信息泄露检测框架中的各个模块均使用了统一的数据流编程模型，同时敏感信息的泄露检测最终通过指纹间的文本相似性来表征，提高了检测效率，充分地解决了在高速网络环境下进行敏感信息泄露检测中会出现的数据包丢失、数据包的处理速度慢以及不能及时判断响应等问题。

附图说明

图1：框架结构图

图2：模块编程模型图

具体实施方式

本发明的开发环境主要是基于一台PC主机。其中，PC机的CPU为Intel(R)Core(TM)i5-4570CPU@3.20GHz，GPU为Intel(R)Haswell Desktop，内存为4GB RAM，硬盘大小为204.2G，系统为ubuntu 16.04LTS，64位操作系统，网卡速率为1000Mb/s。

本发明中各个模块的计算任务主要使用python，bash等语言开发。数据包的捕获以及文件提取借助于bro工具的FileAnalysis Framework。Python版本为2.7.12，bash版本为4.3.48。

实验数据为测试机器在文件下载、传输过程中捕获到的数据包以及互联网上用于安全方面练习与研究的网络数据包。

主要操作主要分为三部分，第一部分为文本信息提取部分，第二部分为指纹信息生成部分，第三部分为文本分析部分。

1.文本信息提取部分

(1)算法描述

算法输入：Files

算法输出：T

说明：Files为信息收集模块从数据包中还原出的文件集合，T为从文件中提取到的文本信息的集合。

算法步骤：

1)对文件集合中的文件分为半结构化数据和非结构化数据两类进行处理；

2)对于半结构化数据类型的文件，通过词法分析的过程将输入文件解析成多个标记，然后将这些标记构造成一棵DOM树，最后通过遍历整棵数完成对标记信息的读取，进而提取出文本信息；

3)对于非结构化数据类型的文件，分为图像和非图像两种类型进行处理；

4)对于图像类型的文件，使用光学字符识别技术(OCR)处理，主要经过图像二值化、去除噪声、校正以及识别等处理来得到文本信息；

5)对于其余的非结构化数据类型文件，使用特定文件类型的解析器来提取文本。

2.指纹信息生成部分

(1)算法描述

算法输入：T，N，W，len

算法输出：F

说明：T为从文件中提取到的文本信息的集合，N为人工创建的噪声词以及标点符号的集合，W为中文词典构成的词库，len为词库中词组的最大长度，F为生成的指纹信息的集合。

算法步骤：

1)对文本信息集合中的文本逐个进行分词处理，生成分词后的文本；

2)根据提供的噪声词集合，对分词后的文本进行降噪处理，除去文本中的噪声词及标点符号；

3)在降噪后的文本中统计各个词组出现的次数，并将词组按照出现次数进行降序排列，得到特征词的集合；

4)通过哈希算法将各个特征词变成哈希值；

5)对哈希值进行加权、累加、降维等处理后生成最终的指纹信息。

其伪代码如下：

3.文本分析部分

(1)算法描述

算法输入：Finger_1，fingerDatabase，Thresholds

算法输出：Result

说明：Finger_1是生成的待检测的指纹信息，fingerDatabse是指纹信息库，Thresholds是文本相似性比较设置的安全阈值，Result是文本分析的结果，用来表示是否发生了敏感信息泄露。

算法步骤：

1)在指纹数据库中查找与待检测指纹相近的指纹信息集合；

2)计算生成的指纹信息和查询得到的各指纹信息两者间的汉明距离；

3)比较各组汉明距离与安全阈值的大小，找到小于等于安全阈值的那组距离；

4)确认敏感信息泄露，发出报警信息。

其伪代码如下：

Claims

1.一种数据驱动的敏感信息泄露检测框架，其特征在于包括：

(1)信息收集模块，用于对网络出入口上传送的数据包进行捕获，对捕获后的数据包进行协议分析与解析来还原出原始数据内容；

(2)文本提取模块，用于对信息收集模块中还原出来的数据内容进行文本提取，根据不同的数据类型分别提取文本；

(3)指纹生成模块，用于将提取出来的文本通过局部敏感哈希来生成相应的指纹信息；

(4)指纹数据库，用于存储事先需要保护的敏感内容的指纹信息；

(5)文本分析模块，用于将生成的指纹信息与指纹数据库中保存的敏感信息的指纹进行文本相似性的计算，用文本相似度的结果作为判断是否发生了敏感信息泄露的依据。

2.根据权利要求1所述的由数据驱动的敏感信息泄露检测框架，其特征在于本该检测框架的信息收集模块会对监测的网络进行信息收集并从中还原出数据：

(1)对监测的网络节点上流通的数据包利用零捕包机制进行捕获；

(2)将捕获的数据包按照其传输协议进行协议分析，得到不同类型的数据包；

(3)通过流重组以及协议还原，从数据包中还原出原始的数据内容。

3.根据权利要求1所述的由数据驱动的敏感信息泄露检测框架，其特征在于本检测框架的文本提取模块会对还原出的数据分为半结构化和非结构化两种类型进行文本提取：

(1)对于还原出的半结构化的数据，通过词法分析以及构建DOM树两个阶段来解析整个数据，递归地从DOM树中提取文本；

(2)对于还原出的结构化的数据，分为图像类和非图像类两类分别进行处理，前者使用光学字符识别来提取文本，后者借助于特定文件类型的解析器来提取文本。

4.根据权利要求1所述的由数据驱动的敏感信息泄露检测框架，其特征在于本检测框架的指纹生成模块会对提取出来的文本，采用局部敏感哈希算法来生成代表整个文本的指纹，其实现步骤如下：

(1)将整个文本内容通过字符串最大匹配算法拆分成一个个单独的词组；

(2)去除文本中的各种无意义的噪声词以及标点符号；

(3)对去噪后的文本按照词组出现的频率进行降序排列，提取出代表整个文本的特征词；

(4)通过对特征词进行哈希运算，对各个特征词的哈希值进行加权、累加以及降维等处理后得到最终的指纹信息。

5.根据权利要求1或4所述的由数据驱动的敏感信息泄露检测框架，其特征在于本检测框架的指纹数据库存储了事先需要保护的敏感内容的指纹信息，其指纹同样由指纹生成模块生成，该指纹数据库内部按照敏感内容的文件名、文件大小以及文件类型进行排列，可以通过多种方式来查询相关指纹，同时可以通过指纹来定位文件。

6.根据权利要求1或5所述的由数据驱动的敏感信息泄露检测框架，其特征在于本检测框架的文本分析模块会通过指纹间的文本相似性来快速判断是否发生了敏感信息泄露：

(1)根据指纹生成模块生成的待检测的指纹信息，在指纹数据库中查找同类型的指纹，得到相近指纹信息集合；

(2)计算待检测指纹和同类型指纹集合这两者间的汉明距离；

(3)比较各组汉明距离与安全阈值距离间的大小，若存在其中一组汉明距离小于等于安全阈值距离，代表这一组指纹信息的内容基本相同，说明待检测指纹所对应的原文本内容就是受保护的敏感信息，也就检测出了敏感信息泄露的发生。