CN104714951A - 一种并行多模式匹配的方法及系统 - Google Patents
一种并行多模式匹配的方法及系统 Download PDFInfo
- Publication number
- CN104714951A CN104714951A CN201310677507.6A CN201310677507A CN104714951A CN 104714951 A CN104714951 A CN 104714951A CN 201310677507 A CN201310677507 A CN 201310677507A CN 104714951 A CN104714951 A CN 104714951A
- Authority
- CN
- China
- Prior art keywords
- keyword
- rule
- sub
- services end
- filtering services
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种并行多模式匹配的方法与系统,包括关键词过滤服务端Servlet、关键词过滤服务端KeywordFilterService与关键词过滤服务端AhoCorasick,通关键词过滤服务端Servlet接收并处理客户端参数,之后关键词过滤服务端KeywordFilterService获取关键词图型结构AhoCorasick的JAVA对象,最后由关键词过滤服务端AhoCorasick查找关键词并剔除关键词,该并行多模式匹配的方法与系统解决了正则表达式匹配关键词耗时长,服务器负载高等问题,只需要2台服务器且响应时间为毫秒级,极大的提高了文本过滤效率。
Description
技术领域
本发明属于计算机领域,特别是电子商务领域,具体涉及一种并行多模式匹配规则的文本过滤系统。
背景技术
多模式匹配是计算机科学领域中的基本问题之一,用于快速判断某一数据块中是否包含规则集中的某一或某些规则,从而进行一系列诸如删除、合并等操作。多模式匹配技术广泛应用于文本处理、网络内容分析、入侵检测、生物信息学、信息检索等领域。
中国专利申请200810104416.2“一种并行多模式匹配的方法及系统”提供了一种应用AC算法来处理含有通配符的非确定规则的并行多模式匹配的方法。该发明公开了一种并行多模式匹配的系统,包括:生成模块,用于读取包含匹配规则的规则集;匹配模块,用于读取搜索对象和所述AC自动机,按AC算法应用所述AC自动机进行搜索,判断所述搜索对象是否按子规则在所述匹配规则中的顺序匹配所述匹配规则的所有子规则,如果是,则所述搜索对象匹配所述匹配规则,并输出匹配结果。
再如专利号为200810222506的中国专利“匹配规则包含次数指示符的并行多模式匹配的方法及系统”公开了一种匹配规则包含次数指示符的并行多模式匹配的系统,包括:
生成模块,用于读取包含匹配规则的规则集,将所述规则集中包含次数指示符的匹配规则从次数指示符处分割成所述匹配规则的子规则,所述子规则为确定规则,所述次数指示符规定的次数为所述次数指示符前面相连的子规则对应的连续重复次数,所述规则集中为确定规则的匹配规则作为其自身的子规则,所述子规则对应的连续重复次数为1,并将所有子规则按照AC算法生成AC自动机;
匹配模块,用于读取搜索对象,按AC算法应用所述AC自动机进行搜索,判断所述搜索对象是否按子规则在所述匹配规则中的顺序和子规则对应的规定连续重复次数匹配所述匹配规则的所有子规则,如果是,则所述搜索对象匹配所述匹配规则,并输出匹配结果。
以上的过滤服务系统,平均有5台左右的机器提供过滤服务,每台机器平均负载在5左右,过滤时间为秒级。服务器负载过高与过滤服务响应慢,已经无法通过增加服务器得到解决。
发明内容
为解决上述问题,本发明公开了一种并行多模式匹配的方法及系统,以基于AC算法来处理指定的关键字高效过滤文本信息。
本发明第一个方面公开了一种并行多模式匹配的系统,包括生成模块与匹配模块,所述并行多模式匹配系统包括关键词过滤服务端Servlet、关键词过滤服务端KeywordFilterService与关键词过滤服务端AhoCorasick。
优选的是,所述关键词过滤服务端Servlet用于接收并处理客户端参数。
在上述任一方案中优选的是,所述客户端参数包括有需要过滤的文本内容、过滤级别、过滤词范围。
在上述任一方案中优选的是,所述关键词过滤服务端Servlet处理客户端参数是指对主要参数进行非空验证和取值范围验证。
在上述任一方案中优选的是,所述关键词过滤服务端KeywordFilterService用于获取关键词图型结构AhoCorasick 的JAVA对象。
在上述任一方案中优选的是,所述关键词图型结构AhoCorasick 的JAVA对象为事先定义好的静态的JAVA对象。
在上述任一方案中优选的是,所述关键词图型结构AhoCorasick 的JAVA对象为所述关键词过滤服务端KeywordFilterService创建。
在上述任一方案中优选的是,所述关键词过滤服务端AhoCorasick用于查找关键词并剔除关键词。
本发明另一方面还公开了一种并行多模式匹配的方法,包含以下步骤:
S1、关键词过滤服务端Servlet接收并处理客户端参数;
S2、关键词过滤服务端KeywordFilterService获取关键词图型结构AhoCorasick 的JAVA对象;
S3、关键词过滤服务端AhoCorasick查找关键词并剔除关键词。
在上述任一方案中优选的是,所述S1步骤中关键词过滤服务端Servlet处理客户端参数为对主要参数进行非空验证和取值范围验证。
在上述任一方案中优选的是,所述S2步骤中关键词过滤服务端KeywordFilterService获取的关键词图型结构AhoCorasick 的JAVA对象为已经定义好的静态的JAVA对象,如果该JAVA对象为空,则由所述关键词过滤服务端KeywordFilterService进行创建。
在上述任一方案中优选的是,所述过滤服务端KeywordFilterService创建所述关键词图型结构AhoCorasick 的JAVA对象包括以下步骤:
S201、所述过滤服务端KeywordFilterService从关键词表中查出所有关键词;
S202、所述过滤服务端KeywordFilterService将所有关键词重排;
S203、所述过滤服务端KeywordFilterService将每个关键词拆成类型为字符型的数组;
S204、所述过滤服务端KeywordFilterService将每个字符型数据存入类型为AhoCorasick的JAVA对象的多维度集合对象中,每个字符型数据的ASCII码和集合下标相对应。最后一个字符型数据对应的集合对象指向这个关键词的值。
在上述任一方案中优选的是,在所述S3步骤中,所述关键词过滤服务端AhoCorasick遍历客户端输入的文本内容字节数组,逐维度检测所述多维度集合对象中每个字符的ASCII码对应下标的值是否为空。如果不为空则匹配到了当前字符型数组对应的关键词。并在组装的新文本内容中跳过该关键词。
在上述任一方案中优选的是,所述并行多模式匹配的方法还可通过读取子规则集来匹配关键字,具体包括以下步骤:
步骤A1,读取包含匹配规则的规则集;
步骤A2,读取搜索对象;
步骤A3,进行多模式匹配。
在上述任一方案中优选的是,所述多模式匹配象包括以下几步:
步骤S301,按AC算法转移状态;
步骤S302,判断状态节点是否为终态节点,如果是,执行步骤S505,否则,继续读取搜索对象;
步骤S303,查找节点规则表;
步骤S304,判断是否满足子规则的顺序号;
步骤S305,判断是是否匹配完子规则。
附图说明
图1为按照本发明的并行多模式匹配方法的一优选实施例的流程图。
具体实施方式
下面结合附图和优选的实施方式对本发明作进一步的详细描述。
实施例1:
本发明第一个方面公开了一种并行多模式匹配的系统,包括生成模块与匹配模块,所述并行多模式匹配系统包括关键词过滤服务端Servlet、关键词过滤服务端KeywordFilterService与关键词过滤服务端AhoCorasick。
在本实施例中,所述关键词过滤服务端Servlet用于接收并处理客户端参数。所述客户端参数包括有需要过滤的文本内容、过滤级别、过滤词范围。所述关键词过滤服务端Servlet处理客户端参数是指对主要参数进行非空验证和取值范围验证。
在本实施例中,所述关键词过滤服务端KeywordFilterService用于获取关键词图型结构AhoCorasick 的JAVA对象,所述关键词图型结构AhoCorasick 的JAVA对象为事先定义好的静态的JAVA对象,如果没有该JAVA对象,则所述关键词图型结构AhoCorasick 的JAVA对象由关键词过滤服务端KeywordFilterService创建。
在本实施例中,所述关键词过滤服务端AhoCorasick用于查找关键词并剔除关键词。
本发明另一方面还公开了一种并行多模式匹配的方法,如图1所示,具体包含以下步骤:
S1、关键词过滤服务端Servlet接收并处理客户端参数;
S2、关键词过滤服务端KeywordFilterService获取关键词图型结构AhoCorasick 的JAVA对象;
S3、关键词过滤服务端AhoCorasick查找关键词并剔除关键词。
在所述S1步骤中,关键词过滤服务端Servlet处理客户端参数为对主要参数进行非空验证和取值范围验证。
在所述S2步骤中关键词过滤服务端KeywordFilterService获取的关键词图型结构AhoCorasick 的JAVA对象为已经定义好的静态的JAVA对象,如果该JAVA对象为空,则由所述关键词过滤服务端KeywordFilterService进行创建。
在本实施例中,所述过滤服务端KeywordFilterService创建所述关键词图型结构AhoCorasick 的JAVA对象包括以下步骤:
S201、所述过滤服务端KeywordFilterService从关键词表中查出所有关键词;
S202、所述过滤服务端KeywordFilterService将所有关键词重排;
S203、所述过滤服务端KeywordFilterService将每个关键词拆成类型为字符型的数组;
S204、所述过滤服务端KeywordFilterService将每个字符型数据存入类型为AhoCorasick的JAVA对象的多维度集合对象中,每个字符型数据的ASCII码和集合下标相对应。最后一个字符型数据对应的集合对象指向这个关键词的值。
在所述S3步骤中,所述关键词过滤服务端AhoCorasick遍历客户端输入的文本内容字节数组,逐维度检测所述多维度集合对象中每个字符的ASCII码对应下标的值是否为空。如果不为空则匹配到了当前字符型数组对应的关键词。并在组装的新文本内容中跳过该关键词。
实施例2:
与实施例1相似,所不同的是,本发明系统包括生成模块和匹配模块。
生成模块,用于读取包含匹配规则的规则集。
匹配模块,用于读取搜索对象,按AC算法应用生成模块生成的 AC自动机进行搜索,判断该搜索对象是否按子规则在匹配规则中的顺序和子规则对应的规定连续重复次数匹配该匹配规则的所有子规则,如果是,则所述搜索对象匹配该匹配规则,并输出匹配结果。
在本实施例中,具体包括以下步骤:
步骤A1,读取包含匹配规则的规则集,将规则集中包含次数指示符的匹配规则从次数指示符处分割成该匹配规则的子规则,该子规则为确定规则,次数指示符规定的次数为该次数指示符前面相连的子规则对应的规定连续重复次数,规则集中为确定规则的匹配规则作为其自身的子规则,该子规则对应的规定连续重复次数为1,并将所有子规则按照AC算法生成AC自动机;对于为确定规则的匹配规则,由于其子规则是其自身,所以规则集中为确定规则的匹配规则可以不做替换直接保留。
步骤A2,读取搜索对象,按AC算法应用生成的AC自动机进行搜索,判断搜索对象是否按子规则在匹配规则中的顺序和子规则对应的规定连续重复次数匹配该匹配规则的所有子规则,如果是,则所述搜索对象匹配该匹配规则,并输出匹配结果。
步骤A3,进行多模式匹配。
生成模块还用以生成匹配状态表和节点规则表。
匹配状态表用以记录匹配规则的子规则总数、最近匹配的子规则的顺序号、最近匹配的子规则的规定连续重复次数、最近匹配的子规则的已连续重复次数和最近匹配的子规则的匹配位置。
节点规则表用以记录在所述AC自动机中的终态节点处匹配的所有子规则 标识、每个所述子规则对应的规定连续重复次数和子规则长度。
生成模块包括,规则解析模块、节点处理模块和匹配状态表生成模块。
规则解析模块,用于逐条判断规则集中的匹配规则是否包含次数指示符,如果包含,则查找匹配规则中次数指示符的位置,在次数指示符位置处将匹配规则分割为子规则,该子规则为确定规则,如果不包含,并且匹配规则为确定规则,则该匹配规则作为其自身的子规则,将规则集中的匹配规则用该匹配规则的子规则替换,使规则集转换为仅包含确定规则的规则集,并用子规则所属的匹配规则的标识和该子规则在该匹配规则中的顺序号标识该子规则。
匹配状态表生成模块,用于生成匹配状态表,该匹配状态表中的一行对应于规则集中的一个匹配规则,每行记录对应匹配规则包含的子规则总数、最近匹配的子规则的顺序号、最近匹配的子规则的匹配位置、最近匹配的子规则的已连续重复次数和最近匹配的子规则的规定连续重复次数,以供匹配模块 在搜索时查找。
子规则的匹配位置,为该子规则在搜索对象中匹配的字符串中最后一个字 符在搜索对象中的位置。子规则的已连续重复次数,为子规则被连续匹配的次数。
子规则长度,为子规则包含的字符数量。
节点处理模块,用于生成节点规则表,记录在所述AC自动机中的终态节点处匹配的所有子规则、每个子规则对应的规定连续重复次数和子规则长度,以供匹配模块在搜索时查找。
状态转移模块,用于读取搜索对象,按AC算法应用AC自动机进行搜索,当转移到终态节点时,启动参数获得模块。
参数获得模块,用于查找节点规则表以获得匹配的子规则标识、该子 规则对应的规定连续重复次数和子规则长度,查找匹配状态表,获得该子规则所属匹配规则的子规则总数、最近匹配的子规则顺序号、最近匹配的子规则的规定连续重复次数、最近匹配的子规则的已连续重复次数和最近匹配的子规则的匹配位置。
匹配判断模块,用于判断是否满足匹配的子规则的顺序号减去获得的最近匹配的子规则顺序号等于1并且获得的最近匹配的子规则的已连续重复次数在获得的最近匹配的子规则的规定连续重复次数范围内,或者,匹配的子规则是其所属匹配规则的第一个子规则并且获得的最近匹配的子规则顺序号大于1,如果满足,则将匹配状态表中该匹配规则对应的最近匹配的子规则顺序号更新为所述子规则的顺序号,最近匹配的子规则的规定连续重复次数更新为该子规则对应的规定连续重复次数,最近匹配的子规则的已连续重复次数更新为1,最近匹配的子规则的匹配位置更新为所述子规则的匹配位置,启动结果输出模块,否则,启动重复判断模块。
重复判断模块,用于判断是否满足匹配的子规则的顺序号同获得的最近匹配的子规则顺序号相同,并且匹配的子规则的匹配位置减去获得的最近匹配的子规则的匹配位置等于获得的子规则长度,如果满足,则将匹配状态表中该匹配规则对应的最近匹配的子规则的已连续重复次数加1,最近匹配的子规则的匹配位置更新为该子规则的匹配位置,启动结果输出模块,否则,启动搜索继续模块。
结果输出模块,用于根据获得的子规则顺序号和子规则总数判断所述子规则是否是匹配规则的最后一个子规则,并且判断匹配规则表中该匹配规则对应的最近匹配的子规则的已连续重复次数是否在最近匹配的子规则的规定连续重复次数范围内,如果都为是,则搜索对象同该匹配规则匹配,输出匹配结果,在上述判断都完成后,启动搜索继续模块。
搜索继续模块,用于判断在当前终态节点处是否还有匹配的子规则,如果有,启动匹配判断模块,否则,在搜索对象还有未读取字符时,继续读取搜索对象的下一个字符,将搜索位置P加1启动状态转移模块。
进行多模式匹配包括以下几步:
步骤B501,标识规则集的匹配规则,判断规则集的匹配规则中是否包含次数指示符,如果包含,在次数指示符处将匹配规则划分为不包含次数指示符的子规则,如果不包含并且匹配规则为确定规则,则该匹配规则作为其自身的子规则,然后将所有子规则按AC算法生成AC自动机,并生成节点规则表和匹配状态表。
节点规则表,记录在所述AC自动机中的终态节点处匹配的所有子规则和每个子规则对应的规定连续重复次数和子规则长度,子规则用其所属匹配规则的标识和该子规则在匹配规则中的顺序号标识。包含次数指示符的匹配规则的子规则对应的规定连续重复次数为次数指示符规定的次数,为确定规则的匹配规则的子规则对应的规定连续重复次数为1。
匹配状态表中的每一行对应于一个匹配规则,记录该匹配规则的子规则总数、最近匹配的子规则的顺序号、最近匹配的子规则的匹配位置、最近匹配的子规则的已连续重复次数和最近匹配的子规则的规定连续重复次数,每个匹配规则的最近匹配的子规则的顺序号、匹配位置、已连续重复次数和规定连续重复次数均初始化为0。
步骤S502,读取搜索对象。
步骤S503,按AC算法转移状态。
步骤S504,判断状态节点是否为终态节点,如果是,执行步骤S505,否则,执行步骤S502。
步骤S505,查找节点规则表,获得该终态节点匹配的子规则的标识和该子规则对应的规定连续重复次数和子规则长度,按子规则标识中的所属匹配规则的标识查找匹配状态表,获得子规则所属匹配规则的子规则总数和最近匹配的子规则的顺序号、最近匹配的子规则的匹配位置、最近匹配的子规则的已连续重复次数和最近匹配的子规则的规定连续重复次数。
步骤S506,判断是否满足子规则的顺序号减去获得的最近匹配的子规则顺序号等于1并且获得的最近匹配的子规则的已连续重复次数在获得的最近匹配的子规则的规定连续重复次数范围内,或者,该子规则是所述匹配规则的第一个子规则并且获得的最近匹配的子规则顺序号大于1,如果满足,执行步骤S508,否则,执行步骤S507。
步骤S507,判断是否满足该子规则的顺序号同获得的最近匹配的子规则顺序号相同,并且该子规则的匹配位置减去获得的最近匹配的子规则的匹配位置等于该子规则长度,如果满足,则执行步骤S509,否则,执行步骤S511。
步骤S508,将所述匹配状态表中匹配规则对应的最近匹配的子规则顺序号更新为该子规则的顺序号,最近匹配的子规则的规定连续重复次数更新为该子规则对应的规定连续重复次数,最近匹配的子规则的已连续重复次数更新为1,最近匹配的子规则的匹配位置更新为该子规则的匹配位置,执行步骤S511。
步骤S509,将匹配状态表中匹配规则对应的最近匹配的子规则的已连续重复次数加1,最近匹配的子规则的匹配位置更新为该子规则的匹配位置,执行步骤S510。
步骤S510,根据该子规则的顺序号和获得的子规则总数判断该子规则是否是匹配规则的最后一个子规则,并且判断匹配规则表中匹配规则对应的最近匹配的子规则的已连续重复次数是否在最近匹配的子规则的规定连续重复次数范围内,如果都为是,则搜索对象同所述匹配规则匹配,输出匹配结果,在所述判断都完成后,执行步骤S510。
步骤S510,判断在当前终态节点处是否还有匹配的子规则,如果有,执行步骤S505,否则,在搜索对象还有未读取字符时,执行步骤S502。
需要说明的是,本发明的并行多模式匹配方法及系统的方案的范畴包括但不限于上述各部分之间的任意组合。尽管具体地参考其优选实施例来示出并描述了本发明,但本领域的技术人员可以理解,可以做出形式和细节上的各种改变而不脱离所附权利要求书中所述的本发明的范围。以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。
Claims (10)
1.一种并行多模式匹配的系统,包括生成模块与匹配模块,其特征在于:所述并行多模式匹配系统包括关键词过滤服务端Servlet、关键词过滤服务端KeywordFilterService与关键词过滤服务端AhoCorasick。
2.如权利要求1所述的并行多模式匹配的系统,其特征在于:所述关键词过滤服务端Servlet用于接收并处理客户端参数。
3.如权利要求2所述的并行多模式匹配的系统,其特征在于:所述客户端参数包括有需要过滤的文本内容、过滤级别、过滤词范围。
4.如权利要求3所述的并行多模式匹配的系统,其特征在于:所述关键词过滤服务端Servlet处理客户端参数是指对主要参数进行非空验证和取值范围验证。
5.如权利要求4所述的并行多模式匹配的系统,其特征在于:所述关键词过滤服务端KeywordFilterService用于获取关键词图型结构AhoCorasick 的JAVA对象。
6.一种并行多模式匹配的方法,其特征在于包含以下步骤:
S1、关键词过滤服务端Servlet接收并处理客户端参数;
S2、关键词过滤服务端KeywordFilterService获取关键词图型结构AhoCorasick 的JAVA对象;
S3、关键词过滤服务端AhoCorasick查找关键词并剔除关键词。
7.如权利要求7所述的并行多模式匹配的方法,其特征在于:所述S1步骤中关键词过滤服务端Servlet处理客户端参数为对主要参数进行非空验证和取值范围验证。
8.如权利要求8所述的并行多模式匹配的方法,其特征在于:所述S2步骤中关键词过滤服务端KeywordFilterService获取的关键词图型结构AhoCorasick 的JAVA对象为已经定义好的静态的JAVA对象,如果该JAVA对象为空,则由所述关键词过滤服务端KeywordFilterService进行创建。
9.如权利要求9所述的并行多模式匹配的方法,其特征在于:所述过滤服务端KeywordFilterService创建所述关键词图型结构AhoCorasick 的JAVA对象包括以下步骤:
S201、所述过滤服务端KeywordFilterService从关键词表中查出所有关键词;
S202、所述过滤服务端KeywordFilterService将所有关键词重排;
S203、所述过滤服务端KeywordFilterService将每个关键词拆成类型为字符型的数组;
S204、所述过滤服务端KeywordFilterService将每个字符型数据存入类型为AhoCorasick的JAVA对象的多维度集合对象中,每个字符型数据的ASCII码和集合下标相对应,
最后一个字符型数据对应的集合对象指向这个关键词的值。
10.如权利要求10所述的并行多模式匹配的方法,其特征在于:在所述S3步骤中,所述关键词过滤服务端AhoCorasick遍历客户端输入的文本内容字节数组,逐维度检测所述多维度集合对象中每个字符的ASCII码对应下标的值是否为空,
如果不为空则匹配到了当前字符型数组对应的关键词,
并在组装的新文本内容中跳过该关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310677507.6A CN104714951A (zh) | 2013-12-13 | 2013-12-13 | 一种并行多模式匹配的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310677507.6A CN104714951A (zh) | 2013-12-13 | 2013-12-13 | 一种并行多模式匹配的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104714951A true CN104714951A (zh) | 2015-06-17 |
Family
ID=53414295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310677507.6A Pending CN104714951A (zh) | 2013-12-13 | 2013-12-13 | 一种并行多模式匹配的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104714951A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740400A (zh) * | 2016-01-27 | 2016-07-06 | 北京航空航天大学 | 动态调整多模匹配自动机的方法和装置 |
CN106933818A (zh) * | 2015-12-29 | 2017-07-07 | 北京明朝万达科技股份有限公司 | 一种快速的多关键字文本匹配方法及装置 |
CN107291761A (zh) * | 2016-04-05 | 2017-10-24 | 北京优朋普乐科技有限公司 | 一种正则表达式的匹配方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101051321A (zh) * | 2007-05-18 | 2007-10-10 | 北京哲安科技有限公司 | 一种多字符串匹配方法和芯片 |
CN101286988A (zh) * | 2008-04-18 | 2008-10-15 | 北京启明星辰信息技术股份有限公司 | 一种并行多模式匹配的方法及系统 |
CN101377816A (zh) * | 2008-08-15 | 2009-03-04 | 北京启明星辰信息技术股份有限公司 | 匹配规则包含位移指示符的并行多模式匹配的方法及系统 |
CN102184205A (zh) * | 2011-04-28 | 2011-09-14 | 哈尔滨工业大学 | 基于可扩展精度混沌哈希的多模式串匹配算法 |
CN102646115A (zh) * | 2012-02-17 | 2012-08-22 | 北京星网锐捷网络技术有限公司 | Ac状态机的构建方法及装置 |
CN102646123A (zh) * | 2012-02-23 | 2012-08-22 | 北京星网锐捷网络技术有限公司 | 多模式匹配方法、装置和设备 |
-
2013
- 2013-12-13 CN CN201310677507.6A patent/CN104714951A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101051321A (zh) * | 2007-05-18 | 2007-10-10 | 北京哲安科技有限公司 | 一种多字符串匹配方法和芯片 |
CN101286988A (zh) * | 2008-04-18 | 2008-10-15 | 北京启明星辰信息技术股份有限公司 | 一种并行多模式匹配的方法及系统 |
CN101377816A (zh) * | 2008-08-15 | 2009-03-04 | 北京启明星辰信息技术股份有限公司 | 匹配规则包含位移指示符的并行多模式匹配的方法及系统 |
CN102184205A (zh) * | 2011-04-28 | 2011-09-14 | 哈尔滨工业大学 | 基于可扩展精度混沌哈希的多模式串匹配算法 |
CN102646115A (zh) * | 2012-02-17 | 2012-08-22 | 北京星网锐捷网络技术有限公司 | Ac状态机的构建方法及装置 |
CN102646123A (zh) * | 2012-02-23 | 2012-08-22 | 北京星网锐捷网络技术有限公司 | 多模式匹配方法、装置和设备 |
Non-Patent Citations (3)
Title |
---|
彭江锋: ""基于CPU+GPU异构平台的字符串匹配算法研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
杨爱民: ""基于Java的主机涉密信息监测控制系统的研究"", 《中国优秀博硕士学位论文全文数据库 (硕士) 信息科技辑》 * |
马昀: ""运用信息过滤技术防止移动存储设备信息泄漏"", 《电脑知识与技术》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933818A (zh) * | 2015-12-29 | 2017-07-07 | 北京明朝万达科技股份有限公司 | 一种快速的多关键字文本匹配方法及装置 |
CN106933818B (zh) * | 2015-12-29 | 2019-06-11 | 北京明朝万达科技股份有限公司 | 一种快速的多关键字文本匹配方法及装置 |
CN105740400A (zh) * | 2016-01-27 | 2016-07-06 | 北京航空航天大学 | 动态调整多模匹配自动机的方法和装置 |
CN105740400B (zh) * | 2016-01-27 | 2019-08-06 | 北京航空航天大学 | 动态调整多模匹配自动机的方法和装置 |
CN107291761A (zh) * | 2016-04-05 | 2017-10-24 | 北京优朋普乐科技有限公司 | 一种正则表达式的匹配方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101788991B (zh) | 一种更新提醒的方法及系统 | |
JP6017155B2 (ja) | 改善された類似文書検出方法、装置、及びコンピュータ読み取り可能な記録媒体 | |
CN103997507B (zh) | 一种信息的推送方法及装置 | |
CN103593371B (zh) | 推荐搜索关键词的方法和装置 | |
WO2008073784A1 (en) | Web site structure analysis | |
CN101388013A (zh) | 用于网络文件聚类的方法和系统 | |
CN101154228A (zh) | 一种分段模式匹配方法及其装置 | |
JP2010501096A (ja) | ラッパー生成およびテンプレート検出の協同最適化 | |
CN106909630A (zh) | 基于动态词库的敏感词过滤方法及系统 | |
CN110719106B (zh) | 一种基于节点分类排序的社交网络图压缩方法及系统 | |
CN104714951A (zh) | 一种并行多模式匹配的方法及系统 | |
WO2018212929A1 (en) | System and method for enabling related searches for live events in data streams | |
Aberer | Semantic overlay networks | |
CN101377816B (zh) | 匹配规则包含位移指示符的并行多模式匹配的方法及系统 | |
CN107391650A (zh) | 一种文档的结构化拆分方法,装置及系统 | |
CN114282119B (zh) | 一种基于异构信息网络的科技信息资源检索方法及系统 | |
CN112312590B (zh) | 一种设备通信协议识别方法和装置 | |
CN112650964B (zh) | 一种业务处理方法、设备及机器可读存储介质 | |
CN101136927A (zh) | 一种网络论坛实现方法和系统 | |
CN101183394A (zh) | 一种订阅下载的方法及装置 | |
Sharma et al. | An approach for frequent access pattern identification in web usage mining | |
Liu et al. | An efficient method for top-k graph based node matching | |
KR20100068352A (ko) | 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 복구방법 | |
KR20100027841A (ko) | 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 고속검색방법 및 비-트리기반인덱싱로그 프로세서 | |
CN104809148B (zh) | 一种用于确定标杆对象的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150617 |
|
WD01 | Invention patent application deemed withdrawn after publication |