CN102301342A

CN102301342A - 正则表达式匹配方法和系统及查找装置

Info

Publication number: CN102301342A
Application number: CN2009801552228A
Authority: CN
Inventors: 胡睿; 陈建
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2009-07-29
Filing date: 2009-07-29
Publication date: 2011-12-28
Anticipated expiration: 2029-07-29
Also published as: EP2437173A4; EP2437173A1; US20120102055A1; US9390134B2; WO2011011916A1; CN102301342B

Abstract

本发明公开了一种正则表达式匹配方法和系统及查找装置。该方法包括将待匹配的数据流进行字符串过滤，当所述数据流中的关键字与预先设定的特征字具有至少一相同特征时，则表明所述数据流通过字符串过滤；将通过字符串过滤的数据流进行正则表达式过滤。本发明实施例中的字符串过滤过程是当所述数据流的关键字哈希映射的位置是特征字哈希映射的位置的子集时，即表明所述数据流通过字符串过滤，无需保存关键字，也不需要进一步比较关键字和特征字，可以节省存储空间，提高性能。

Description

正则表达式匹配方法和系统及查找装置

技术领域

本发明涉及信息处理技术，特别涉及一种正则表达式匹配方法和系统及查找装置。背景技术

随着 IP网络承载业务的日益丰富、网络安全需求的日益重要，数据通信设备仅仅识别传输控制协议 I国际协议（ Transfer Control Protocol/Internet Protocol, TCP/IP ) 协议族四层和四层以下的信息是不够的。深度报文识别 ( Deep Packet Inspection, DPI )技术可以实现才艮文的深层解析， DPI的工作过程是报文静荷的数据流和特征字库比较的过程，通过判断报文静荷是否与特征字库中的一个或多个匹配，进而进行相应的处理。其中匹配可以分为字符串匹配和正则表达式匹配。现有可以证明用正则表达式匹配可以使 DPI效率更高，但是，正则表达式匹配的运算复杂度与待匹配的报文的长度成正比，当报文的长度较长时，正则表达式匹配的运算复杂度较高。

现有解决方案之一是采用改进的正则表达式匹配方法，流程大致如下：对待匹配的报文的数据流首先进行字符串过滤，对通过字符串过滤的数据流再进行正则表达式过滤，每个过滤过程中采用对应的字符串匹配或者正则表达式匹配采用的算法。这样就相当于对报文首先进行分组，而每个分组的长度较短，对应的正则表达式较少，相比于将整个报文整体进行正则表达式过滤，可以降低运算复杂度。现有技术中，在字符串过滤时采用的是精确匹配的方法，即只有在待匹配的数据流中的关键字与特征字完全一致时才能通过字符串过滤。这种精确匹配的方式需要保存待匹配的数据流中的关键字，并可能需要进一步比较关键字和特征字。术需要保存数据流中的关键字，占用较多的空间；需要进一步比较关键字和特征字时性能会下降。发明内容

本发明提供一种正则表达式匹配方法和系统及查找装置，解决现有需要保存关键字造成的占用空间较大，及需要进一步比较关键字和特征字造成的性能下降问题。

本发明实施例提供了一种正则表达式匹配方法，包括：

将待匹配的数据流进行字符串过滤，当所述数据流中的关键字与预先设定的特征字具有至少一相同特征时，则表明所述数据流通过字符串过滤；将通过字符串过滤的数据流进行正则表达式过滤。

本发明实施例提供了一种查找装置，包括：

字符串过滤模块，用于将待匹配的数据流进行字符串过滤，当所述数据流中的关键字与预先设定的特征字具有至少一相同特征时，则表明所述数据流通过字符串过滤；

正则表达式过滤模块，用于将通过字符串过滤的数据流进行正则表达式过滤。

本发明实施例提供了一种正则表达式匹配系统，包括上述的查找装置，还包括更新装置，所述更新装置包括：

划分模块，用于将输入规则划分为特征字和正则表达式；

字符串规则库，用于根据所述特征字得到，所述字符串过滤模块具体用于根据所述字符串规则库进行字符串过滤；

正则表达式规则库，用于保存所述正则表达式，所述正则表达式过滤模

由上述技术方案可知，本发明实施例中的字符串过滤过程是当所述数据流中的关键字与预先设定的特征字具有相同的特征时，而无须两者完全相同，即表明所述数据流通过字符串过滤，因此无需保存关键字，也不需要进一步比较关键字和特征字，可以节省存储空间，提高性能。附图说明

图 1为本发明实施例参考的布隆过滤器的初始化状态的结构示意图；图 2为本发明实施例参考的布隆过滤器置位后的结构示意图；

图 3为本发明实施例参考的布隆过滤器判定时的结构示意图；

图 4为本发明第一实施例的方法流程示意图；

图 5为本发明第二实施例的方法流程示意图；

图 6为本发明第二实施例中初始化字符串规则库的方法流程示意图；图 7 为本发明第二实施例中字符串规则库的添加流程的方法流程示意图；

图 8 为本发明第二实施例中字符串规则库的删除流程的方法流程示意图；

图 9为本发明第二实施例中的字符串过滤的方法流程示意图；

图 10为本发明第一实施例中进行正则表达式过滤的方法流程示意图；图 11为本发明第三实施例的查找装置的结构示意图；

图 12为本发明第四实施例的系统的结构示意图。具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。为了更好地理解本发明实施例，下面先介绍一下本发明实施例参考的布隆过滤器（ Bloom Filter )技术。

布隆过滤器是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。布隆过滤器可能会把不属于这个集合的元素判定为属于这个集合，但不会把属于这个集合的元素判定为不属于这个集合。在能容忍低错误率的应用场合下，布隆过滤器通过极少的错误换取了存储空间的极大节省。

图 1为本发明实施例参考的布隆过滤器的初始化状态的结构示意图。参见图 1, 在初始状态时，布隆过滤器是一个包含 m位的位数组，每一位都置为 0。

图 2为本发明实施例参考的布隆过滤器置位后的结构示意图。为了表达 S = }这样一个 n个元素的集合，布隆过滤器使用 k个相互独立的哈希（ hash )函数，它们分别将集合中的每个元素映射到 { 1 , ... ,m}的位置范围中。对任意一个元素 X, 第 i 个哈希函数映射的位置/^ X)中的数值就会被置为 1 ( \<i<k )₀当一个位置中的数值多次被置为 1时，那么只有第一次会起作用，后面几次将没有任何效果。例如，参见图 2, 本实施例以 k=3, 且有两个哈希函数选中同一个位置（从左边数第五位）为例。

图 3为本发明实施例参考的布隆过滤器判定时的结构示意图。在判断 y 是否属于这个集合（S)时，首先对 y进行 k次哈希运算，如果所有/^ ( （ \<i<k ) 的位置都是 1, 那么就认为 y是这个集合中的元素，否则就认为 y不是这个集合中的元素。例如，参见图 3, 不是这个集合中的元素， ₂是这个集合中的元素。当然，由于不同元素也可能被哈希到同一个位置，因此 ₂可能事实上属于这个集合，也可能事实上不属于这个集合，是被误判属于这个集合的。

在现有技术精确字符串过滤时，当确定一个元素映射的位置均为 1后，为了避免误判，还需要继续进行关键字和特征字的比较。即现有技术中，对应上述的布隆过滤器的某一位下挂一个链表，该链表用于保存特征字（例如上述的集合 S), 当确定一个关键字映射的位置均为 1后，还需要保存该关键字（例如 ₂ ), 之后，再比对 j₂和集合 S, 判定 ₂是否确实属于 S, 当 ₂确实属于 S时，才表明 _Λ通过字符串过滤。

但是，由于正则表达式匹配过程是包括字符串过滤和正则表达式过滤的，对于通过字符串过滤的数据流还要进行后续的正则表达式过滤，而后续的正则表达式过滤已被证明效率及精度都很高，因此，之前的字符串过滤是无需这样精确的，并且精确的字符串过滤需要占用大量的存储空间及多次的查找 , 以大空间占用和性能下降换取意义不大的精确字符串过滤是不适合的。

本发明实施例正是为了克服正则表达式匹配时，精确字符串过滤存在的上述问题。本发明实施例主要基于如下的思路：

1、本发明实施例同样采用字符串过滤和正则表达式过滤结合的方式进行正则表达式匹配。

由于将待匹配的数据流整体进行正则表达式过滤时，运算量较大。例如，从理论的最坏情况看，长度为 n 的正则表达式用非确定性有限状态机 ( Non-deterministic Finite Automata, NFA )表示的空间复杂度是 0(n), 时间复杂度是 0("²), 用确定性有限状态机（Deterministic Finite Automata, DFA ) 表示的空间复杂度是 0(2"), 时间复杂度是 0(1)。而字符串过滤和正则表达式过滤结合的方式具有如下优点：

首先，字符串过滤的处理比较简单；

其次，字符串过滤可以将正则表达式分组，一个组只对应少数几个正则表达式，对于 snort (—种网络工具，可以用于协议分析），大多数的组只有一个正则表达式，自然的降低了正则表达式处理的复杂度；

再次，只有匹配上字符串部分的报文或报文片段才需要继续进行正则表达式匹配，减轻了正则表达式匹配的压力，有助于提高性能。

2、本发明实施例在字符串过滤时并不采用精确过滤，即并不需要关键字与特征字完全一致，因此不需要保存关键字和进行关键字与特征字的比对，因此可以节省存储空间，提高性能。

图 4为本发明第一实施例的方法流程示意图，包括：

41 : 查找装置将待匹配的数据流进行字符串过滤，当所述数据流中的关键字与预先设定的特征字具有至少一相同特征时，则表明所述数据流通过字符串过滤； 42：查找装置将通过字符串过滤的数据流进行正则表达式过滤。

本实施例中字符串过滤过程是当所述数据流中的关键字与预先设定的特征字具有相同的特征时，而无须两者完全相同，即表明所述数据流通过字符串过滤，因此无需保存关键字，也不需要进一步比较关键字和特征字，可以节省存储空间，提高性能。

在字符串过滤及正则表达式过滤时可以根据预先得到的规则库进行，因此，本发明实施例在第一实施例的基础上进一步包括在数据流匹配之前得到对应的规则库的过程。具体可以如第二实施例所述：

图 5为本发明第二实施例的方法流程示意图，包括：

51 : 更新装置根据输入规则得到字符串规则库和正则表达式规则库。由于正则表达式匹配的效率更高，因此目前通常的输入规则都是正则表达式，为了进行字符串匹配，需要在为正则表达式的输入规则中提取出字符串，利用提取出的字符串进行字符串匹配，其中，提取出的字符串称为特征字。具体实施例中，例如，假定待匹配的数据流的关键字的最大长度为 L, 则可以将为正则表达式的输入规则中的第一个长度为 L 的字符串作为特征字，如果输入规则中不能提取出长度为 L的字符串，也可以将长度最接近 L 的字符串作为特征字。

之后，用特征字构建字符串规则库，用提取特征字后的输入规则构建正则表达式规则库。其中，用特征字构建字符串规则库的流程可以是一个动态维护的流程，即首先初始化字符串规则库，之后，可以动态添加或者删除特征字。

52: 查找装置将待匹配的数据流，根据字符串规则库进行字符串过滤。当所述数据流的关键字哈希映射的位置是特征字哈希映射的位置的子集时，表明所述数据流通过字符串过滤。

53: 查找装置将通过字符串匹配的数据流，根据正则表达式规则库进行正则表达式过滤。本实施例中的字符串过滤过程是当所述数据流的关键字哈希映射的位置属于特征字哈希映射的位置时，即表明所述数据流通过字符串过滤，无需保存关键字，也不需要进一步比较关键字和特征字，可以节省存储空间，提高性能。

其中，可以参考布隆过滤器的方法用特征字构建并动态维护字符串规则库。但是，现有布隆过滤器的位数组的每位只能是 0或 1 , 当多个特征字映射到同一位时，该位仍旧只能是 1 , 当需要删除该多个特征字中的任一个时，该映射的位置处的处理会出现问题。例如，当删除某一特征字时，该特征字原来映射的位置应该被置 0, 而不再是 1 , 但是，由于还存在其他的特征字映射到该位，因此还不能修改为 0, 这样便会存在矛盾，难以确定该位是置 0还是 1。

为了解决上述矛盾的问题，本发明实施例还可以对应布隆过滤器的位数组设置一个计数数组，该计数数组的每一个计数元素分别与布隆过滤器的位数组的每一位对应，用于计算映射到对应位的特征字的个数。例如，布隆过滤器的位数组为 m位（即哈希运算得到的哈希值为 l〜m ), 则构建的计数数值包括 m个计数元素，每个计数元素的位宽为「log₂ N] ,其中「*]表示向上取整， N为特征字的个数。之所以将每个计数元素的位宽设置为「log₂ N] , 是可以保证所有的特征字都映射到某一位这种极端情况。在实施例时通常特征字的个数不是 4艮多，通常每个计数元素的位宽取为 16位（bit )或 32位即可。

在上述分析的基础上，本发明实施例的维护字符串规则库的流程可以包括初始化流程、添加流程和删除流程。具体如下：

图 6为本发明第二实施例中初始化字符串规则库的方法流程示意图，本包括：

61 : 开始。

62: 将计数数组的计数元素置 0。

63 : 将计数数组的计数元素对应的链表指针初始化为空指针。

类似现有布隆过滤器用位元素下挂链表的方式，本实施例用计数元素下挂链表，该链表用于保存特征字，当然，该链表也可以下挂在位数组的位元素下。

64: 结束。

图 7 为本发明第二实施例中字符串规则库的添加流程的方法流程示意图，包括：

701 : 开始。

702: 将待添加的特征字用 k个相互独立的哈希函数进行 k次哈希运算，得到 M个哈希值。其中， k的数值及哈希函数可以根据实际需要设定。

703: 在 M个哈希值中确定一个用于下挂链表，该链表用于保存特征字，例如，将得到的 M个哈希值中的最小值确定为用于下挂链表的地址。

704: 遍历该最小值下挂的链表中是否有该特征字，若有，执行 705 , 否则，执行 706。

705: 返回 "重复添加" 信息。之后，执行 710。

步骤 706: 将该特征字添加到该链表中。

707: 将该 M个哈希值对应的计数元素的值增加 1。例如， M个哈希值分别为 1、 3、 5 , 则将计数数组的第 1、 3、 5个计数元素的值 +1。

708: 判断是否存在某一计数元素的值由 0变为非 0 (例如 1 ), 若是，执行 709, 否则，执行 710。

709: 将该计数元素对应的位元素的值置为 1。其中，位元素为位数组中的元素，位数组为布隆过滤器。

710: 结束。

对于每个特征字都执行上述的流程，从上述流程可知，计数元素的值可能为 0〜N†的任一个值，其中， N为特征字的个数。但是，位元素的值只能是 0或 1 , 与布隆过滤器类似，只有第一次映射起作用。

图 8 为本发明第二实施例中字符串规则库的删除流程的方法流程示意图，包括： 801 : 开始。

802: 将待删除的特征字用 k个相互独立的哈希函数进行 k次哈希运算，得到 M个哈希值。

803: 在 M个哈希值中确定一个用于下挂链表，该链表用于保存特征字，例如，将得到的 M个哈希值中的最小值确定为用于下挂链表的地址。

804: 遍历该最小值下挂的链表中是否有该特征字，若有，执行 806, 否则，执行 805。

805: 返回 "删除不存在的特征字" 信息。之后，执行 810。

806: 将该特征字从该链表中删除。

807: 将该 M个哈希值对应的计数元素的值减 1。例如， M个哈希值分别为 1、 3、 5 , 则将计数数组的第 1、 3、 5个计数元素的值 -1。

808: 判断计数元素的值是否由非 0变为 0, 若是，执行 809, 否则，执行 810。

809: 将该计数元素对应的位元素的值置为 0。其中，位元素为位数组中的元素，位数组为布隆过滤器。例如，计数数组的第 1个计数元素由非 0变为 0 (由于计数元素的值是依次减 1的，因此这里通常是由 1变为 0 ), 则将位数组中的第 1 个位元素置 0。也就是说，当存在多个特征字映射到同一个位置时，只有在该多个特征字都被删除后，该对应的位置上的值才被置 0, 否则保持为 1。

810: 结束。

对于每个特征字都执行上述的流程，从上述流程可知，通过设置计数数组，可以在多个特征字映射到同一个位置时，只有在该多个特征字都被删除后，该对应的位置上的值才被置 0, 解决现有只有位数组造成的删除冲突问题。

在上述构建了字符串规则库的基础上，本发明实施例在字符串过滤时便可以根据构建的字符串规则库进行字符串过滤。具体可以参见如下实施例：图 9为本发明第二实施例中的字符串过滤的方法流程示意图，包括： 91 : 开始。

92: 查找装置将待匹配的数据流中的关键字（Key )用 k个哈希函数进行 k次哈希运算，得到一个或多个哈希值。其中， k个哈希函数需要与特征字处理时的 k个哈希函数相同。

93 : 查找装置根据字符串规则库中的位数组，判断该一个或多个哈希值对应的位元素的值是否均为 1 , 若是，执行 94, 否则，执行 95。

根据图 7所示的实施例可知，当特征字映射到位数组的某一位时，该位即被置为 1 , 当 93中的哈希值对应的位元素的值为 1时，表明了该关键字哈希映射的位置属于特征字哈希映射的位置，该关键字将通过字符串过滤。

94: 得到该数据流通过字符串过滤。之后，执行 96。

在现有技术的精确字符串匹配过程中，当关键字的哈希值对应的位元素均为 1 时，还不能得到该数据流通过字符串匹配，其还要进一步比较关键值和特征字，只有在关键值和特征字完全相同时，才表明通过字符串匹配。而本实施例无需进行后续的进一步比较的过程，与现有精确字符串匹配相比，本实施例可以称为模糊字符串匹配。由于数据流通过字符串匹配后还要进行正则表达式匹配，而正则表达式匹配的精度较高，在此之前的字符串匹配的精度可以无需太高，之前的字符串匹配主要实现分组的目的，这样可以降低纯粹正则表达式匹配的运算复杂度。并且，本实施例虽然是模糊匹配，但是由于进行了 k次哈希运算，在一定程度上是可以提高精度的。

95: 得到该数据流未通过字符串过滤。之后，执行 96。

96: 结束。

本实施例中的字符串过滤过程是当所述数据流的关键字哈希映射的位置属于特征字哈希映射的位置时，即表明所述数据流通过字符串过滤，无需保存关键字，也不需要进一步比较关键字和特征字，可以节省存储空间，提高性能。

上述对字符串过滤的流程进行了描述，当通过字符串过滤的数据流之后了特征字后的输入规则。该正则表达式可以保存在片外随机访问存储器

( Random Access Memory , RAM ) 中，具体可以采用动态随机访问存储器 ( Dynamic Random Access Memory DRAM ), 也可以采用静态随机访问存储器（ Static Random Access Memory SRAM )。并且，正则表达式保存的首地址可以根据对应的特征字的哈希值确定，例如，一个输入规则被划分为了第一特征字和第一正则表达式，则第一正则表达式的首地址 A可以采用如下方法确定：利用上述 k个哈希函数中的一个或者其他的某一哈希函数（哈希函数 H ), 对该第一特征字进行哈希运算得到哈希值 B, 之后，根据第一正则表达式的大小确定一个左移的位数 b, 然后，将 B左移 b位后得到八。之后，将第一正则表达式保存在以 A为首地址的 RAM中。

在上述正则表达式保存在片外 RAM 的基础上，本发明实施例进行正则表达式过滤的流程如下：

图 10为本发明第一实施例中进行正则表达式过滤的方法流程示意图，包括：

101 : 得到通过字符串过滤的数据流。之后，分别执行 102和 105。

102: 对该数据流的关键字再进行一次哈希运算，得到第一哈希地址，该哈希运算采用的哈希函数为保存正则表达式时采用的哈希函数 H。

103: 对第一哈希地址进行左移，得到第二哈希地址，该左移的位数为保存正则表达式时的 b。

104: 根据第二哈希地址从片外 RAM中得到正则表达式。

105: 对该数据流进行延时处理，延时处理的时间与在片外 RAM中获取正则表达式的时间相同。

106: 用该正则表达式对该数据流进行正则表达式过滤。

其中，进行正则表达式过滤时采用的算法可以为 NFA、 DFA或者 HFA ( NFA和 DFA的混合算法）。本发明实施例的重点是在正则表达式匹配时处于预匹配阶段的字符串过滤采用上述模糊匹配的方式，而在具体的正则表达式过滤阶段的具体算法则不限定，可以采用现有任何一种（或混合的）正则表达式过滤方法。

图 11为本发明第三实施例的查找装置的结构示意图，包括字符串过滤模块 111和正则表达式过滤模块 112。字符串过滤模块 111用于将待匹配的数据流进行字符串过滤，当所述数据流中的关键字与预先设定的特征字具有至少一相同特征时，则表明所述数据流通过字符串过滤；正则表达式过滤模块 112 用于将通过字符串过滤的数据流进行正则表达式过滤。

具体地，字符串模块可以包括第一单元、第二单元和第三单元；第一单元用于将所述数据流的关键字进行哈希运算，得到关键字的哈希值；第二单元用于判断所述数据流的关键字哈希映射的位置是否为特征字哈希映射的位置的子集；第三单元用于当所述数据流的关键字哈希映射的位置是特征字哈希映射的位置的子集时，得到所述数据流通过字符串过滤。

本实施例中的字符串过滤过程是当所述数据流中的关键字与预先设定的特征字具有相同的特征时，而无须两者完全相同，即表明所述数据流通过字符串过滤，因此无需保存关键字，也不需要进一步比较关键字和特征字，可以节省存储空间，提高性能。

图 12为本发明第四实施例的系统的结构示意图，包括如图 11所述的查找装置，即包括字符串过滤模块 121 和正则表达式过滤模块 122, 还包括更新模块，该更新模块包括划分模块 123、字符串规则库 124和正则表达式规则库 125。划分模块 123用于将输入规则划分为特征字和正则表达式；字符串规则库 124用于根据所述特征字得到，所述字符串过滤模块 121具体用于根据所述字符串规则库进行字符串过滤；正则表达式规则库 125用于保存所述正则表达式，所述正则表达式过滤模块 122具体用于根据所述正则表达式规则库进行正则表达式过滤。

具体地，字符串规则库可以包括初始化单元和添加单元；初始化单元用于建立对应特征字的位数组、与位数组对应的计数数组和用于保存特征字的下挂链表；并将所述计数数组中的计数元素均置为 0, 将指向所述链表的链表指针置为空指针。添加单元用于对待添加的特征字用 k个哈希函数进行 k 次哈希运算，得到待添加的特征字的哈希值；将待添加的特征字的哈希值对应的计数数组中计数元素的值增加 1 ; 将从 0变为非 0的计数元素对应的位元素的值置为 1。此时，所述第二单元具体用于对所述数据流的关键字用所述 k个哈希函数进行哈希运算后得到关键字的哈希值，当所述关键字的哈希值对应的位元素的值均为 1 时，判断得到所述数据流的关键字哈希映射的位置是特征字哈希映射的位置的子集。

本实施例的字符串规则库还可以包括：删除单元，用于对待删除的特征字用所述 k个哈希函数进行 k次哈希运算，得到待删除的特征字的哈希值；将待删除的特征字的哈希值对应的计数数组中计数元素的值减 1 ; 将从非 0 变为 0的计数元素对应的位元素的值置为 0。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括： ROM、 RAM, 磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的 4青神和范围。

Claims

权利要求

1、一种正则表达式匹配方法，其特征在于，包括：

将待匹配的数据流进行字符串过滤，当所述数据流中的关键字与预先设定的特征字具有至少一相同特征时，则表明所述数据流通过字符串过滤；将通过字符串过滤的数据流进行正则表达式过滤。
2、根据权利要求 1所述的方法，其特征在于，

所述具有至少一相同特征为：所述数据流的关键字哈希映射的位置是特征字哈希映射的位置的子集；

所述将待匹配的数据流进行字符串过滤，当所述数据流中的关键字与预先设定的特征字具有至少一相同特征时，则表明所述数据流通过字符串过滤包括：

将所述数据流的关键字进行哈希运算，得到关键字的哈希值；

判断所述数据流的关键字哈希映射的位置是否属于特征字哈希映射的位置；

当所述数据流的关键字哈希映射的位置是特征字哈希映射的位置的子集时 , 得到所述数据流通过字符串过滤。
3、根据权利要求 2所述的方法，其特征在于，还包括：

根据输入规则得到字符串规则库和正则表达式规则库；

所述将待匹配的数据流进行字符串过滤包括：根据所述字符串规则库，将待匹配的数据流进行字符串过滤；

所述将通过字符串过滤的数据流进行正则表达式过滤包括：根据所述正则表达式规则库，将通过字符串过滤的数据流进行正则表达式过滤。
4、根据权利要求 3所述的方法，其特征在于，所述根据输入规则得到字符串规则库包括：

在所述输入规则中提取出特征字；

建立对应特征字的位数组、与位数组对应的计数数组和用于保存特征字的下挂链表；

根据所述计数数组、位数组和链表得到字符串规则库。
5、根据权利要求 4所述的方法，其特征在于，所述得到字符串规则库包括初始化字符串规则库，

所述初始化字符串规则库包括：

将所述计数数组中的计数元素均置为 0;

将指向所述链表的链表指针置为空指针。
6、根据权利要求 5所述的方法，其特征在于，所述得到字符串规则库还包括在字符串规则库中添加特征字的流程，

所述在字符串规则库中添加特征字的流程包括：

对待添加的特征字用 k个哈希函数进行 k次哈希运算，得到待添加的特征字的哈希值；

将待添加的特征字的哈希值对应的计数数组中计数元素的值增加 1；将从 0变为非 0的计数元素对应的位元素的值置为 1 ;

所述数据流的关键字哈希映射的位置是特征字哈希映射的位置的子集具体为：所述数据流的关键字用所述 k个哈希函数进行哈希运算后得到的哈希值对应的位元素的值均为 1。
7、根据权利要求 6所述的方法，其特征在于，还包括：

在所述待添加的特征字的哈希值中确定一个用于下挂所述链表；当所述链表中没有所述待添加的特征字时，将所述待添加的特征字添加到所述链表中。
8、根据权利要求 6所述的方法，其特征在于，所述得到字符串规则库还包括在字符串规则库中删除特征字的流程，

所述在字符串规则库中删除特征字的流程包括：

对待删除的特征字用所述 k个哈希函数进行 k次哈希运算，得到待删除的特征字的哈希值；将待删除的特征字的哈希值对应的计数数组中计数元素的值减 1；将从非 0变为 0的计数元素对应的位元素的值置为 0。
9、根据权利要求 8所述的方法，其特征在于，还包括：

当所述链表中存在所述待删除的特征字时，将所述待删除的特征字从所述链表中删除。
10、根据权利要求 1所述的方法，其特征在于，所述将通过字符串过滤的数据流进行正则表达式过滤包括：

获取用于正则表达式过滤的正则表达式；

将所述通过字符串过滤的数据流进行延时处理，所述延时处理的时间与获取正则表达式的时间相同；

用所述正则表达式，对所述通过字符串过滤的数据流进行正则表达式过滤。
11、一种查找装置，其特征在于，包括：

字符串过滤模块，用于将待匹配的数据流进行字符串过滤，当所述数据流中的关键字与预先设定的特征字具有至少一相同特征时，则表明所述数据流通过字符串过滤；

正则表达式过滤模块，用于将通过字符串过滤的数据流进行正则表达式过滤。
12、根据权利要求 11所述的查找装置，其特征在于，所述字符串过滤模块包括：

第一单元，用于将所述数据流的关键字进行哈希运算，得到关键字的哈希值；

第二单元，用于判断所述数据流的关键字哈希映射的位置是否为特征字哈希映射的位置的子集；

第三单元，用于当所述数据流的关键字哈希映射的位置是特征字哈希映 13、一种正则表达式匹配系统，其特征在于，包括权利要求 11所述的查找装置，还包括更新装置，所述更新装置包括：

划分模块，用于将输入规则划分为特征字和正则表达式；

字符串规则库，用于根据所述特征字得到，所述字符串过滤模块具体用于根据所述字符串规则库进行字符串过滤；

正则表达式规则库，用于保存所述正则表达式，所述正则表达式过滤模则表达式规则库进行正则表达式过; ¾

14、根据权利要求 13所述的系统，其特征在于，所述字符串规则库包括：初始化单元，用于建立对应特征字的位数组、与位数组对应的计数数组和用于保存特征字的下挂链表；并将所述计数数组中的计数元素均置为 0, 将指向所述链表的链表指针置为空指针；

添加单元，用于对待添加的特征字用 k个哈希函数进行 k次哈希运算，得到待添加的特征字的哈希值；将待添加的特征字的哈希值对应的计数数组中计数元素的值增加 1 ;将从 0变为非 0的计数元素对应的位元素的值置为 1 ; 所述第二单元具体用于对所述数据流的关键字用所述 k个哈希函数进行哈希运算后得到关键字的哈希值，当所述关键字的哈希值对应的位元素的值均为 1 时，判断得到所述数据流的关键字哈希映射的位置是特征字哈希映射的位置的子集。
15、根据权利要求 14所述的系统，其特征在于，所述字符串规则库还包括：

删除单元，用于对待删除的特征字用所述 k个哈希函数进行 k次哈希运算，得到待删除的特征字的哈希值；将待删除的特征字的哈希值对应的计数数组中计数元素的值减 1 ; 将从非 0变为 0的计数元素对应的位元素的值置为 0。