CN105429968B

CN105429968B - 基于布隆过滤器的网络取证载荷归属方法及系统

Info

Publication number: CN105429968B
Application number: CN201510752320.7A
Authority: CN
Inventors: 卫易辰; 徐菲; 卿斯汉
Original assignee: Beijing Shuzhiyuan Technology Co Ltd
Current assignee: Beijing Shuzhiyuan Technology Co Ltd
Priority date: 2015-11-06
Filing date: 2015-11-06
Publication date: 2018-10-30
Anticipated expiration: 2035-11-06
Also published as: CN105429968A

Abstract

本发明提出了一种基于布隆过滤器的网络取证载荷归属方法及系统，包括：抓取预备取证的网络数据流，对网络数据流进行预处理；并对载荷进行分块，将分块内容代入指定的哈希函数中，得到的哈希函数的结果为对应的布隆过滤器的编号，将分块内容根据布隆过滤器的编号分别存储至对应的布隆过滤器中；获取预备查询的字段，对预备查询字段中的所有分块逐个进行哈希运算，判断预备查询的字段的所有分块是否均映射到对应的布隆过滤器的位置，如果是则判断载荷包括预备查询的字段。本发明能够较好地支持通配符的查询，不仅解决了首块偏移问题、对齐问题和连续性问题，而且在可接受的数据压缩比率下，减小了假阳性误报比率，提高了查询速度和验证准确度。

Description

基于布隆过滤器的网络取证载荷归属方法及系统

技术领域

本发明涉及网络取证技术领域，特别涉及一种基于布隆过滤器的网络取证载荷归属方法及系统。

背景技术

随着信息技术的飞速发展，网络上的犯罪行为日益猖獗，由于网络犯罪的复杂性、不确定性以及多样性，无法从技术上完全遏制网络犯罪的发生，因此，网络取证技术逐渐成为研究的热点，网络犯罪事件发生之后的溯源、追踪与处置发挥着越来越重要的作用。于是，对于数据流量的高效存储并提供事后的精确查询成为值得研究的方向。

载荷归属是识别出现在网络上的和包含特定字段的所有包的源和目的的一个过程。载荷归属结构对网络流量进行相应的处理存储以便事后的识别分析，在帮助判定网络事件的攻击者和受害者并分析安全事件方面是一个极其有价值的工具。

在载荷归属的研究中，最重要的是载荷的收集、存储和字段的查询。解决这些问题的最直观的方法就是对网络数据流量进行分块。最经典的一个数据结构就是布隆过滤器(Bloom Filter，BF)。

传统的Bloom Filter用于判断集合中的元素是否存在，它是一个大小为m的位数组，带有k个随机选取的哈希函数。但是由于其结构的原因，存在着假阳性误报的可能。在Bloom Filter的基础上，又提出了基于分块的布隆过滤器(BBF)、分层布隆过滤器(HBF)结构、旋转布隆过滤器(RBF)结构、固定分块重叠(FBS)、可变分块重叠(VBS)、高级可变分块重叠(EVBS)、多哈希(MH)、高级多哈希(EMH)、Winnowing分块重叠(WBS)、Winnowing多哈希(WMH)等结构。这些分块方法可以按照不同的分类方法进行分类，如表1所示。

表1

但是，上述这些方法均存在着一些问题，例如：首块偏移问题、对齐问题、连续性问题，而且大多不支持通配符的查询。

通配符是一种替代字符，可以用“？”和“*”两种符号来表示，仅用于占位而不具体指代某一个或某一些字符，表示出现该符号的位置可以是任何一个或多个字符。通常情况下，“？”用于匹配1个字符，“*”则用于匹配0个或以上的任意字符。现有的技术限制于自身能够响应的查询类型，导致不能够很好地支持通配符查询。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的目的在于提出一种基于布隆过滤器的网络取证载荷归属方法及系统，能够较好地支持通配符的查询，不仅解决了首块偏移问题、对齐问题和连续性问题，而且在可接受的数据压缩比率下，减小了假阳性误报比率，提高了查询速度和验证准确度。

为了实现上述目的，本发明一方面的实施例提供一种基于布隆过滤器的网络取证载荷归属方法，包括如下步骤：

步骤S1，抓取预备取证的网络数据流，并对所述网络数据流进行预处理，得到预处理后的网络数据流作为载荷；

步骤S2，对所述载荷进行分块，并将分块内容代入指定的哈希函数中，得到的哈希函数的结果为对应的布隆过滤器的编号，将所述分块内容根据所述布隆过滤器的编号分别存储至对应的布隆过滤器中，在所述步骤S2中，对所述载荷进行分块，包括如下步骤：

设所述载荷为{c₁,c₂,...,c_n}，

首先，在所述载荷上设置一个大小为k的滑动窗口，其中，第i个窗口内的字符为{c_i,c_i+1,...,c_i+k-1}，1≤i≤n-k+1；

然后，对每个所述窗口计算哈希值H(c_i,c_i+1,...,c_i+k-1)，其中，

H(c_i,c_i+1,...,c_i+k-1)＝(c_i mod q)×p^k-1+(c_i+1 mod q)×p^k-2+...+(c_i+k-1 mod q)×p⁰

其中，p为预设固定的素数，q为预设常数，mod为取模运算；

其次，将计算出的哈希值H(c_i,c_i+1,...,c_i+k-1)存入哈希数组{h₁,h₂,...,h_i,...}，其中第i项h_i＝H(c_i,c_i+1,...,c_i+k-1)；

最后，在所述哈希数组{h₁,h₂,...,h_i,...}上滑动一个大小为w的窗口，在每一个窗口内选取最小值，在选取的哈希值所对应的载荷窗口的首个字符后插入一个块边界，每两个连续的块边界之间的内容连接上紧邻的u个字符的内容，作为分块内容；

步骤S3，获取预备查询的字段，对所述预备查询字段中的所有分块逐个进行哈希运算，分别得到对应的布隆过滤器，判断所述预备查询的字段的所有分块是否均映射到对应的所述布隆过滤器的位置，如果是则判断所述载荷包括所述预备查询的字段。

进一步，在所述步骤S1中，对所述网络数据流进行预处理，包括如下步骤：去除所述网络数据流中头部数据和元数据，仅保留用于传输的真实数据，作为载荷。

进一步，所述在每一个窗口内选取最小值，包括如下步骤：

如果在一个窗口内，存在一个以上的最小值，则根据数值在窗口内的顺序，在多个最小值中，选择最右边的值作为所述最小值。

进一步，在所述步骤S3中，判断所述预备查询的字段的所有分块是否均映射到对应的所述布隆过滤器的位置，包括如下步骤：判断所述预备查询的字段的所有分块被映射到所属布隆过滤器的位置是否置1，如果是，则判断所述载荷包括所述预备查询的字段。

本发明的实施例还提出一种基于布隆过滤器的支持通配符的网络取证载荷归属系统，包括：网络数据流抓取模块，用于抓取预备取证的网络数据流，并对所述网络数据流进行预处理，得到预处理后的网络数据流作为载荷；载荷分块模块，用于对所述载荷进行分块，得到分块内容，所述载荷分块模块对所述载荷进行分块，包括：

设所述载荷为{c₁,c₂,...,c_n}，

其中，p为预设固定的素数，q为预设常数，mod为取模运算；

最后，在所述哈希数组{h₁,h₂,...,h_i,...}上滑动一个大小为w的窗口，在每一个窗口内选取最小值，在选取的哈希值所对应的载荷窗口的首个字符后插入一个块边界，每两个连续的块边界之间的内容连接上紧邻的u个字符的内容，作为分块内容；布隆过滤器存储模块，用于将所述分块内容代入指定的哈希函数中，得到的哈希函数的结果为对应的布隆过滤器的编号，将所述分块内容根据所述布隆过滤器的编号分别存储至对应的布隆过滤器中；查询模块，用于获取预备查询的字段，对所述预备查询字段中的所有分块逐个进行哈希运算，分别得到对应的布隆过滤器，判断所述预备查询的字段的所有分块是否均映射到对应的所述布隆过滤器的位置，如果是则判断所述载荷包括所述预备查询的字段。

进一步，所述网络数据流抓取模块用于去除所述网络数据流中头部数据和元数据，仅保留用于传输的真实数据，作为载荷。

进一步，如果在一个窗口内，存在一个以上的最小值，则所述载荷分块模块根据数值在窗口内的顺序，在多个最小值中，选择最右边的值作为所述最小值。

进一步，所述查询模块判断所述预备查询的字段的所有分块被映射到所属布隆过滤器的位置是否置1，如果是，则判断所述载荷包括所述预备查询的字段。

根据本发明实施例的基于布隆过滤器的网络取证载荷归属方法及系统，采用相比于同类算法更为有优势的Winnowing指纹算法，得到的分块进行哈希运算后插入到布隆过滤器中存储起来，能够较好地支持通配符的查询，不仅解决了首块偏移问题、对齐问题和连续性问题，而且在可接受的数据压缩比率下，减小了假阳性误报比率，提高了查询速度和验证准确度。实验表明，同等条件下，本发明的通配符查询速度大约是目前已有最优方法的20倍。通过严密的数学推导证明，本发明中的假阳性误报可以近似看作仅由布隆过滤器的假阳性误报造成，算法具有可接受的准确率。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于布隆过滤器的网络取证载荷归属方法的流程图；

图2为根据本发明实施例的滑动载荷窗口的示意图；

图3为根据本发明实施例的滑动哈希窗口的示意图；

图4为根据本发明实施例的基于布隆过滤器的网络取证载荷归属方法的查询准确率的示意图；

图5为根据本发明实施例的基于布隆过滤器的网络取证载荷归属方法的查询速度的示意图；

图6为根据本发明实施例的基于布隆过滤器的网络取证载荷归属系统的结构图；

图7为根据本发明实施例的摘要设备和取证服务器的系统拓扑结构图；

图8为根据本发明实施例的摘要设备和取证服务器的内部结构图；

图9为根据本发明实施例的摘要设备和取证服务器的数据流程图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明提出一种基于布隆过滤器的网络取证载荷归属方法及系统，可以支持对通配符的查询，具有较高的准确性和时效性。

如图1所示，本发明实施例的基于布隆过滤器的网络取证载荷归属方法，包括如下步骤：

步骤S1，抓取预备取证的网络数据流，并对网络数据流进行预处理，得到预处理后的网络数据流作为载荷。

具体地，对网络数据流进行预处理，包括如下步骤：去除网络数据流中头部数据和元数据等额外信息，仅保留用于传输的真实数据，作为载荷。即，仅抓取由去向目的地的数据包所发送的真实数据，即出于传输的基本目的而传输的真实数据。

步骤S2，对载荷进行分块，并将分块内容代入指定的哈希函数中，得到的哈希函数的结果为对应的布隆过滤器的编号，将分块内容根据布隆过滤器的编号分别存储至对应的布隆过滤器中。这部分是本发明的核心。

下面对载荷的分块过程进行说明。设载荷为{c₁,c₂,...,c_n}。

第一步，在载荷上设置一个大小为k的滑动窗口，其中，第i个窗口内的字符为{c_i,c_i+1,...,c_i+k-1}，1≤i≤n-k+1。具体地，第一个窗口内的字符为{c₁,c₂,...,c_k}，第二个窗口内的字符为{c₂,c₃,...,c_k+1}，依此类推，第i个窗口内的字符为{c_i,c_i+1,...,c_i+k-1}，1≤i≤n-k+1。

第二步，对每个窗口计算哈希值H(c_i,c_i+1,...,c_i+k-1)，其中，

其中，p是一个固定的素数，q是一个常数，q≤p＜256，mod为取模运算。

根据多项式的性质，为了加快处理速度，后一个载荷窗口的哈希值可以由前一个载荷窗口计算而得，即：

H(c_i+1,c_i+2,...,c_i+k)＝pH(c_i,c_i+1,...,c_i+k-1)+(c_i+k mod q)-(c_i mod q)×p^k

第三步，将计算出的哈希值H(c_i,c_i+1,...,c_i+k-1)存入哈希数组{h₁,h₂,...,h_i,...}，其中第i项h_i＝H(c_i,c_i+1,...,c_i+k-1)。

第四步，在哈希数组{h₁,h₂,...,h_i,...}上滑动一个大小为w的窗口，在每一个窗口内选取最小值，在选取的哈希值所对应的载荷窗口的首个字符后插入一个块边界。例如，某窗口内选取的最小哈希值为h_i，则在载荷中的字符c_i后插入一个块边界。每两个连续的块边界之间的内容连接上紧邻的u个字符的内容，作为分块内容。其中，u为根据实验得到的经验数值。

需要说明的是，如果在一个窗口内，存在一个以上的最小值，则根据数值在窗口内的顺序，在多个最小值中，选择最右边的值作为最小值。

本发明采用多个布隆过滤器对数据进行存储，将得到的分块内容存入对应的布隆过滤器中。使用256个独立的Bloom Filter，编号范围是[0，255]。对于每个分块，将其代入指定的哈希函数中，得到的结果就是对应布隆过滤器的编号，将相应分块插入将对应布隆过滤器中。为了提高处理速度，本发明中的每一个布隆过滤器仅使用一个哈希函数。

在本发明中，对上述载荷分块和布隆过滤器的存储中涉及的参数采用t组不同的值来替换，再依次执行t遍上述的操作。其中，t值越小查询速度越快，但是t值过小又会影响方法的准确性。因此，用户可以根据自身对时效性的要求选取t值。

步骤S3，获取预备查询的字段，对预备查询字段中的所有分块逐个进行哈希运算，分别得到对应的布隆过滤器，判断预备查询的字段的所有分块是否均映射到对应的布隆过滤器的位置，如果是则判断载荷包括预备查询的字段。

首先接收查询请求，从该查询请求中获取预备查询的字段，对该预备预备查询的字段进行分块，分块过程参考上述实施例，不再赘述。对查询字段中的所有分块分别代入指定的哈希函数中，得到的结果就是对应布隆过滤器的编号，查询分块映射到布隆滤波器的位置是否被置1。如果循环t次后，字段所有分块被映射到的位置都被置1，则认为载荷中包含相应字段。

下面参考图2和图3对本发明实施例的基于布隆过滤器的网络取证载荷归属方法进行说明。以字符串“thisistheWMWQinstance”一次循环的处理过程为例，

如图2所示，设载荷窗口的大小k＝6，则滑动产生16个窗口的内容依次为：

“thisis”、”hisist”、”isisth”、”sisthe”、”istheW”、”stheWM”、”theWMW”、”heWMWQ”、”eWMWQi”、”WMWQin”、”MWQins”、”WQinst”、”Qinsta”、”instan”、”nstanc”、”stance”。

分别计算每个窗口内容的哈希值得数组为：

{652，245，323，955，475，63，164，478，384，728，959，617，814，697，339，756}。

如图3所示，在该数组上滑动一个大小为w＝5的窗口，则产生的12个窗口的内容一次为{652，245，323，955，475}、{245，323，955，475，63}、{323，955，475，63，164}、{955，475，63，164，478}、{475，63，164，478，384}、{63，164，478，384，728}、{164，478，384，728，95}、{478，384，728，959，617}、{384，728，959，617，814}、{728，959，617，814，697}、{959，617，814，697，339}、{617，814，697，339，756}。

对上述每个窗口选取最小哈希值，依次为：245、63、164、384、617、339。参考图2，每个窗口的最小值相应于载荷中的字符下标依次为1、5、6、8、11、14，分块边界即插入在这些字符的后面。再连接上紧邻的u＝2个字符的内容，于是第一次循环产生的分块依次为“isisth”、“the”、“heWM”、“WMWQi”、“Qinst”。

接着，对于参数k、w、p、q、o，设置t组新的取值，再进行t次类似的操作，这就完成了载荷的处理过程。其中，t＝2。

接收查询请求，从该查询请求中获取预备查询的字段，对该预备预备查询的字段进行分块，分块过程参考上述实施例，不再赘述。对查询字段中的所有分块分别代入指定的哈希函数中，得到的结果就是对应布隆过滤器的编号，查询分块映射到布隆滤波器的位置是否被置1。如果循环2次后，字段所有分块被映射到的位置都被置1，则认为载荷中包含相应字段。

在本发明的实施例中，分块边界的选择基于载荷内容本身，可以有效地解决在字段的查询阶段由于字段中第一个匹配的分块从哪个位置开始未知而需要尝试所有可能位置的对齐问题。

为了支持通配符查询，在哈希值的计算中以q为模数，这样就可以将每一个字符映射到[0，q-1]之间的一个类中，因此可以限制查询空间。在哈希值的计算中只会用到[0，q-1]范围内的值而不是[0，255]之间的所有可能值。

具体地，假设需要查询字符串“abcd？eghi”，模数q＝4。查询是通过构建4个子串来处理的：“abcd0eghi”、“abcd1eghi”、“abcd2eghi”、“abcd3eghi”。每一个子串被独立查询，如果任何一个子串被查询到，则判断原始字段包含在载荷中。

本发明也能够处理更复杂的查询。例如，查询字段是“abcde[m-p]fghij”，模数q＝8。那么通过将4个可能的未知字符(m，n，o，p)映射到[0，7]之间恰当的分类中来创建子串，分别是“abcde5fghij”、“abcde6fghij”、“abcde7fghij”、“abcde0fghij”。

通过求模运算，大大减小了运算空间，加快了处理速度，以致于7个未知字符的通配符查询仅需要不到1秒的时间来处理，但是如果采用先前的方法处理相同的查询则需要4500年，本发明大大提高了查询速度。

图4为根据本发明实施例的基于布隆过滤器的网络取证载荷归属方法的查询准确率的示意图。其中，1-本发明的基于布隆过滤器的网络取证载荷归属方法，2-WMH，3-CMBF。

如图4所示，在实验环境中，使用Wireshark工具捕捉实验室一周内的网络流量。当查询字段长度分别为50、70、100、120、150、200、250字节时，本发明的查询准确率比同类方法高。

图5为根据本发明实施例的基于布隆过滤器的网络取证载荷归属方法的查询速度的示意图。A-本发明的基于布隆过滤器的网络取证载荷归属方法，B-CMBF。

如图5所示，在通配符数量分别是5、6、7、8时，本发明的查询速度明显大于同类其它方法，并且随着通配符数量的增加趋势更加明显。

综上，通过对本发明设计的数据结构的性能进行评估，并且与之前已被证明性能最优的结构WMH、CMBF进行比较。实验表明，在可接受的数据压缩比率下，本发明提供的基于布隆过滤器的网络取证载荷归属方法具有更高的查询准确率和更快的查询速度。

具体地，判断预备查询的字段的所有分块被映射到所属布隆过滤器的位置是否置1，如果是，则判断载荷包括预备查询的字段。

本发明实施例还提出一种基于布隆过滤器的支持通配符的网络取证载荷归属系统，在介绍该网络取证载荷归属系统之前，首先对其原型设计进行说明。如图7所示，该原型设计包括两个重要的功能组件：摘要设备和取证服务器。

摘要设备定期向取证服务器发送摘要，取证服务器负责存储和查询。存储的数据有两个时间戳：开始时间和结束时间。一段时间间隔内的负载存储在一个布隆滤波器(Bloom Filter)中，需要存储所有流经的网络数据流的ID(flow ID)。该信息也可以从防火墙、入侵检测系统或其它日志文件收集的连接记录中来。

摘要设备最关键的部分是处理摘要的数据结构和算法。其中，构建数据流的摘要有许多方法，本发明采用布隆滤波器(Bloom Filter)，处理摘要的数据结构采用WMWQ数据结构，核心算法则是Winnowig算法。摘要设备能够被集成到网络组件中，例如交换机或路由器，它可以概括和记录在一段长时间内它附近的网络事件，并且能够以特定的置信度证实这些事件。

取证服务器集中管理它的取证域内的摘要设备组。取证服务器接收来自取证域外部的查询要求，协调取证域中的摘要设备进行处理，再经过验证后向发送者返回结果。在负载处理阶段，经过部署了负载归属系统的网络的所有流量的负载会被检测，一些信息被保存到永久存储设备中。这必须是线性速度完成的，内部的原始包捕获组件会对数据包进行一些过滤，例如，选择只处理HTTP流，过滤掉其他类型的数据流。

联网的摘要设备形成基层，它的上层是取证服务器的联网，每个取证服务器管理其取证域范围内的摘要设备，如图7所示。联网一个取证域内的摘要设备将有利于它们共享数据和存储，使得它们能够正确地协作回答查询。这些摘要设备在没有中心控制的情况下能够以一个纯粹的P2P架构排布来互相合作。使用一个分层的结构更为简便并且将工作得更好。

在分层结构中，一个取证域内的所有摘要设备形成一个网络并同域内的取证服务器相联系。取证服务器的作用是在域内进行集中管理控制，经认证之后，从域外接收查询，将查询传递到取证服务器上的查询处理器和存储管理单元。

具体地，摘要设备的网络形成了分层结构的第一层。将取证服务器也联网起来在内部取证域中协同工作，这形成了分层结构的第二层。需要跨越域边界的查询会经过恰当的取证服务器。取证服务器是从域边界之外发送到取证域内的查询的网关。发送到一个取证域的查询由这个域内的取证服务器来处理，由服务器进行验证并将查询传递到域内恰当的摘要设备。同样地，来自于摘要设备的结果被发送到取证域内的取证服务器并进行验证。事实上，查询可能起始于分层结构中一个分支的叶节点，在更高层上遍历取证服务器，截止于另一个分支的叶节点。查询通常与网络攻击或网络犯罪反方向进行。

如图8所示，原型设计系统包括：网络流过滤器、摘要引擎、摘要控制器、缓冲区管理器、安全管理器、配置管理器、查询处理器、隐私处理器。

下面对上述各个器件的功能进行说明。

摘要设备可能不需要处理经过路由器的每一个数据包，其处理网络过滤器抽取的有用数据包。概要引擎的核心内容是本文提出的WMWQ数据结构和Winnowing算法，能够精炼地表示网络流量。

由于数据压缩比率和假阳性误报比率之间是一种权衡，出于其它的考虑，也可以使用配置管理器调节数据结构和算法以及其中的参数。经过滤器传送进入摘要引擎的数据包是否要被处理的依据是从摘要控制器接收来的信号。摘要控制器指示摘要引擎中的摘要技术是否要处理一个数据包。

用户提出的规则集和配置管理器处理的规则集允许用户修改数据包被摘要引擎处理的方式。配置管理器是网络管理员跟摘要设备之间的接口，它允许网络管理员调整摘要设备的多种操作。将会由查询处理器响应的每一个查询必须由安全管理器验证以使得来自于未知用户的恶意查询会被简单地忽略。

安全管理器会对每一个写入数据库中的条目签名并打上时间戳以确保完整性和能够用于法庭。查询处理器处理所有的数据库访问和查询处理问题。

如图9所示，数据流程为：网络流量经过网络过滤器的过滤后进入摘要引擎，默认情况下摘要引擎使用WMWQ数据结构和Winnowing算法对数据进行摘要处理，进入的数据包是否需要进行处理受到摘要控制器的控制。这里可以通过配置管理器修改摘要设备中的参数，优化系统性能。摘要设备的缓冲区管理器定期将缓冲器中的数据发送到取证服务器进行存档。

下面举例对本发明的基于布隆过滤器的支持通配符的网络取证载荷归属方法进行说明。

假设某蠕虫通过感染运行在UDP端口1434上的未打补丁的SQL服务器来传播，分析人员需要找到该蠕虫的源头。假设本发明被广泛部署于互联网上，分析人员需要判定蠕虫从互联网的哪个区域开始它的传播。

因为摘要设备跟踪了本地环境中的许多事件，分析人员将能够判定任何网络内对于端口1434的流量的渗透。从任何一个网络开始，分析人员可以查询到在网络中对于端口1434增量活动的首次出现，并且递归查询报告最早的任何网络。这些递归查询将最终能够找到蠕虫起始传播的特定网络。这样一来，分析人员就可以集中他们的调查资源到一个特定的网络中，以便定位发送第一个恶意数据包到端口1434的主机。对于主机的进一步定位可以用到前述类似的方式，以便找到蠕虫的真正发出者。

下面参考图6对本发明实施例的基于布隆过滤器的支持通配符的网络取证载荷归属系统进行说明。

如图6所示，本发明还提出一种基于布隆过滤器的支持通配符的网络取证载荷归属系统，包括：网络数据流抓取模块1、载荷分块模块2、布隆过滤器存储模块3和查询模块4。

具体地，网络数据流抓取模块1用于抓取预备取证的网络数据流，并对网络数据流进行预处理，得到预处理后的网络数据流作为载荷。

在本发明的一个实施例中，网络数据流抓取模块1去除网络数据流中头部数据和元数据，仅保留用于传输的真实数据，作为载荷。即，网络数据流抓取模块1仅抓取由去向目的地的数据包所发送的真实数据，即出于传输的基本目的而传输的真实数据。

下面对载荷分块模块2的分块过程进行说明。设载荷为{c₁,c₂,...,c_n}。

第一步，载荷分块模块2在载荷上设置一个大小为k的滑动窗口，其中，第i个窗口内的字符为{c_i,c_i+1,...,c_i+k-1}，1≤i≤n-k+1。具体地，第一个窗口内的字符为{c₁,c₂,...,c_k}，第二个窗口内的字符为{c₂,c₃,...,c_k+1}，依此类推，第i个窗口内的字符为{c_i,c_i+1,...,c_i+k-1}，1≤i≤n-k+1。

第二步，载荷分块模块2对每个窗口计算哈希值H(c_i,c_i+1,...,c_i+k-1)，其中，

第三步，载荷分块模块2将计算出的哈希值H(c_i,c_i+1,...,c_i+k-1)存入哈希数组{h₁,h₂,...,h_i,...}，其中第i项h_i＝H(c_i,c_i+1,...,c_i+k-1)。

第四步，载荷分块模块2在哈希数组{h₁,h₂,...,h_i,...}上滑动一个大小为w的窗口，在每一个窗口内选取最小值，在选取的哈希值所对应的载荷窗口的首个字符后插入一个块边界。例如，某窗口内选取的最小哈希值为h_i，则在载荷中的字符c_i后插入一个块边界。每两个连续的块边界之间的内容连接上紧邻的u个字符的内容，作为分块内容。其中，u为根据实验得到的经验数值。

布隆过滤器存储模块3用于将分块内容代入指定的哈希函数中，得到的哈希函数的结果为对应的布隆过滤器的编号，将分块内容根据布隆过滤器的编号分别存储至对应的布隆过滤器中。

在本发明中，对上述载荷分块和布隆过滤器的存储中涉及的参数采用t组不同的值来替换，再依次执行t遍上述的操作。其中，t值越小查询速度越快，但是t值过小又会影响方法的准确性。因此，用户可以自身对时效性的要求选取t值。

查询模块4用于获取预备查询的字段，对预备查询字段中的所有分块逐个进行哈希运算，分别得到对应的布隆过滤器，判断预备查询的字段的所有分块是否均映射到对应的布隆过滤器的位置，如果是则判断载荷包括预备查询的字段。

具体地，首先查询模块4接收查询请求，从该查询请求中获取预备查询的字段，对该预备预备查询的字段进行分块，分块过程参考上述实施例，不再赘述。查询模块4对查询字段中的所有分块分别代入指定的哈希函数中，得到的结果就是对应布隆过滤器的编号，查询分块映射到布隆滤波器的位置是否被置1。如果循环t次后，字段所有分块被映射到的位置都被置1，则认为载荷中包含相应字段。根据本发明实施例的基于布隆过滤器的网络取证载荷归属方法及系统，采用相比于同类算法更为有优势的Winnowing指纹算法，得到的分块进行哈希运算后插入到布隆过滤器中存储起来，能够较好地支持通配符的查询，不仅解决了首块偏移问题、对齐问题和连续性问题，而且在可接受的数据压缩比率下，减小了假阳性误报比率，提高了查询速度和验证准确度。实验表明，同等条件下，本发明的通配符查询速度大约是目前已有最优方法的20倍。通过严密的数学推导证明，本发明中的假阳性误报可以近似看作仅由布隆过滤器的假阳性误报造成，算法具有可接受的准确率。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求极其等同限定。

Claims

1.一种基于布隆过滤器的网络取证载荷归属方法，其特征在于，包括如下步骤：

设所述载荷为{c₁,c₂,...,c_n}，

H(c_i,c_i+1,...,c_i+k-1)＝(c_i mod q)×p^k-1+(c_i+1mod q)×p^k-2+...+(c_i+k-1modq)×p⁰

其中，p为预设固定的素数，q为预设常数，mod为取模运算；

2.如权利要求1所述的基于布隆过滤器的网络取证载荷归属方法，其特征在于，在所述步骤S1中，对所述网络数据流进行预处理，包括如下步骤：去除所述网络数据流中头部数据和元数据，仅保留用于传输的真实数据，作为载荷。

3.如权利要求1所述的基于布隆过滤器的网络取证载荷归属方法，其特征在于，所述在每一个窗口内选取最小值，包括如下步骤：

4.如权利要求1所述的基于布隆过滤器的网络取证载荷归属方法，其特征在于，在所述步骤S3中，判断所述预备查询的字段的所有分块是否均映射到对应的所述布隆过滤器的位置，包括如下步骤：

判断所述预备查询的字段的所有分块被映射到所属布隆过滤器的位置是否置1，如果是，则判断所述载荷包括所述预备查询的字段。

5.一种基于布隆过滤器的支持通配符的网络取证载荷归属系统，其特征在于，包括：

网络数据流抓取模块，用于抓取预备取证的网络数据流，并对所述网络数据流进行预处理，得到预处理后的网络数据流作为载荷；

载荷分块模块，用于对所述载荷进行分块，得到分块内容，所述载荷分块模块对所述载荷进行分块，包括：

设所述载荷为{c₁,c₂,...,c_n}，

其中，p为预设固定的素数，q为预设常数，mod为取模运算；

布隆过滤器存储模块，用于将所述分块内容代入指定的哈希函数中，得到的哈希函数的结果为对应的布隆过滤器的编号，将所述分块内容根据所述布隆过滤器的编号分别存储至对应的布隆过滤器中；

查询模块，用于获取预备查询的字段，对所述预备查询字段中的所有分块逐个进行哈希运算，分别得到对应的布隆过滤器，判断所述预备查询的字段的所有分块是否均映射到对应的所述布隆过滤器的位置，如果是则判断所述载荷包括所述预备查询的字段。

6.如权利要求5所述的基于布隆过滤器的网络取证载荷归属系统，其特征在于，所述网络数据流抓取模块用于去除所述网络数据流中头部数据和元数据，仅保留用于传输的真实数据，作为载荷。

7.如权利要求5所述的基于布隆过滤器的网络取证载荷归属系统，其特征在于，如果在一个窗口内，存在一个以上的最小值，则所述载荷分块模块根据数值在窗口内的顺序，在多个最小值中，选择最右边的值作为所述最小值。

8.如权利要求5所述的基于布隆过滤器的网络取证载荷归属系统，其特征在于，所述查询模块判断所述预备查询的字段的所有分块被映射到所属布隆过滤器的位置是否置1，如果是，则判断所述载荷包括所述预备查询的字段。