CN1801152A - 一种用于文本或网络内容分析的多关键词匹配方法 - Google Patents
一种用于文本或网络内容分析的多关键词匹配方法 Download PDFInfo
- Publication number
- CN1801152A CN1801152A CN 200610000801 CN200610000801A CN1801152A CN 1801152 A CN1801152 A CN 1801152A CN 200610000801 CN200610000801 CN 200610000801 CN 200610000801 A CN200610000801 A CN 200610000801A CN 1801152 A CN1801152 A CN 1801152A
- Authority
- CN
- China
- Prior art keywords
- node
- state
- character
- finite
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种用于文本或网络内容分析的多关键词匹配方法,属于文本或网络内容处理技术领域。首先根据待匹配的关键词,建立以状态为节点的有限状态自动机,并记录关键词中的字符;根据字符对上述有限状态自动机进行转换,得到以字符为节点的有限状态自动机,节点总数为m+1,m为上述关键词中的字符数;将待匹配的文本或网络数据流作为以字符为节点的有限状态自动机的输入,与关键词进行匹配。本发明方法与已有的AC方法相比,没有引入任何附加计算。当关键词集合中所出现的字符数量少于最大可能字符数时,可以大大降低内存空间消耗。
Description
技术领域
本发明涉及一种用于文本或网络内容分析的多关键词匹配方法,尤其涉及一种基于有限状态自动机的高效存储的快速多关键词匹配方法,属于文本或网络内容处理技术领域。
背景技术
多关键词匹配(Multiple Pattern String Matching)是计算机科学领域中的基本问题之一。其解决的问题是快速判断某一数据块中是否包含关键词集合中的某一或某些关键词。多关键词匹配技术广泛应用于文本处理、网络内容分析、入侵检测、生物信息学、信息检索等领域。
解决快速多关键词匹配问题的经典方法之一是基于有限状态自动机的方法。该方法最初有Alfred V.Aho和Margaret J.Corasick于1975年提出,通常以发明者的名字简称为AC多关键词匹配方法。AC方法的突出优点在于其具有相同的最坏和平均性能,可用于处理各种关键词集合(例如:不等长、大规模等),是一种高性能的多关键词匹配方法。
设关键词集合为:{he,hers,his,she},其对应的有限状态自动机如图1所示。有限状态自动机中每个“状态”实际代表了一个确定的关键词前缀,例如图1中状态‘5’代表了关键词前缀‘hi’。
已有AC多关键词匹配方法的描述如下:
1)预处理阶段
实现有限状态自动机。用符号AC有限状态自动机表示。AC多关键词匹配方法的有限状态自动机实现是基于“状态”的。每个节点代表一个状态,包含256个值,对应于单字节编码时所有可能的字符。
AC多关键词匹配方法实现的图1中的有限状态自动机如图2所示。节点中的值指明了在该“状态”下对应于某一输入字符时要跳转到的下一个“状态”。例如:从图2中‘state0’节点可以得知,在状态‘0’时输入字符‘h’,则跳转到状态‘1’。
将那些代表完整关键词的“状态”及其所代表的所有关键词信息存储为自动机的输出,如图3所示。将所有节点的存储地址存储在图2所示的索引表中。
2)匹配阶段
将待匹配的文本或网络数据流以字符为单位顺序输入自动机,判断其中是否包含某一或某些关键词。匹配过程如表1所示:
表1 AC多关键词匹配方法匹配流程 |
state=0; |
i=0;while(i<m)//m是待匹配数据的长度,以字节为单位{ State_Table=Index Table[state];next_state=State_Table[T[i]];//T代表待匹配数据state=nex_tate;if(match(state))//在状态state是否有输出?{output;}i++;} |
AC方法的有限状态自动机的主要缺点在于存储其自动机结构需要大量内存。例如图2中的自动机,当“节点”中用4字节时表示每个值时,每个“节点”需要消耗1024字节内存。10个节点共需10240字节内存。
发明内容
本发明的目的是提出一种用于文本或网络内容分析的多关键词匹配方法,是在保持已有AC多关键词匹配方法性能前提下,降低内存空间消耗,提高缓存命中率,从而提高多关键词匹配的速度。
本发明提出的用于文本或网络内容分析的多关键词匹配方法,包括以下步骤:
本发明提出的用于文本或网络内容分析的多关键词匹配方法,包括以下步骤:
(1)根据待匹配的关键词,建立以状态为节点的有限状态自动机,并记录关键词中的字符;
(2)根据上述字符对上述有限状态自动机进行转换,得到以字符为节点的有限状态自动机,节点总数为m+1,m为上述关键词中的字符数,将所有节点的地址存储为一个索引表;
(3)将待匹配的文本或网络数据流作为上述以字符为节点的有限状态自动机的输入,与关键词进行匹配。
上述方法中,对有限状态自动机进行转换的过程包括以下步骤:
(1)将以状态为节点的有限状态自动机的所有节点中与每个字符对应的值作为以字符为节点的有限状态自动机中节点的值;
(2)将以字符为节点的有限状态自动机中所有值都相同的多个节点合并为一个节点。
本发明提出的用于文本或网络内容分析的多关键词匹配方法,与已有的AC方法相比,没有引入任何附加计算。对于单字节编码文本,当关键词集合中所出现的字符数量少于最大可能字符数256时,可以大大降低内存空间消耗。对于实际应用,关键词集合中所出现的字符数总是小于256的。设自动机的状态数为n,关键词集合中出现的字符数量为m,自动机节点中用w字节表示每个值。已有AC方法的空间消耗为:n×256×w字节,本发明方法的内存空间消耗为:n×m×w字节。内存占用降低为原来的m/256。在实际应用中,通常关键词由英文字母组成,即使全部字母都出现,空间消耗也可以降低近5倍。对于图1示例的有限状态自动机,本发明方法的有限状态自动机节点空间占用仅为已有AC方法的2.34%。
附图说明
图1为与关键词集合{he,hers,his,she}对应的有限状态自动机示意图。
图2为与关键词集合{he,hers,his,she}对应的AC有限状态自动机示意图。
图3为与关键词集合{he,hers,his,she}对应的有限状态自动机的输出示意图。
图4为与关键词集合{he,hers,his,she}对应的本发明的有限状态自动机示意图。
具体实施方式
本发明提出的用于文本或网络内容分析的多关键词匹配方法,首先根据待匹配的关键词,建立以状态为节点的有限状态自动机,并记录关键词中的字符;根据上述字符对上述有限状态自动机进行转换,得到以字符为节点的有限状态自动机,节点总数为m+1,m为上述关键词中的字符数,将所有节点的地址存储为一个索引表;将待匹配的文本或网络数据流作为以字符为节点的有限状态自动机的输入,与关键词进行匹配。
上述方法中,对有限状态自动机进行转换的过程为:首先将以状态为节点的有限状态自动机的所有节点中与每个字符对应的值作为以字符为节点的有限状态自动机中节点的值;然后将以字符为节点的有限状态自动机中所有值都相同的多个节点合并为一个节点。
以下结合附图,详细介绍本发明方法的原理和过程:
图1所示的有限状态自动机,其AC有限状态自动机如图2所示。将AC有限状态自动机中所有节点中与每个字符对应的值作为以字符为节点的有限状态自动机中节点的值。例如,对于字符‘i’,AC有限状态自动机中所有节点中与其对应的值为:0(状态0),2(状态1),…,0(状态9)。将这10个值按照状态递增排列,作为以字符为节点的有限状态自动机中节点的值,如图4中节点‘i’。以字符为节点的有限状态自动机中节点的值指明了在该“输入字符”下对应于某一状态时要跳转到的下一个“状态”。例如:输入字符为‘h’,当前状态为‘0’时,则跳转到状态‘1’。
在AC有限状态自动机中,对于在关键词集合中未出现的字符,其在所有节点中对应的值都是相同的。因此在转换后的以字符为节点的有限状态自动机中在关键词集合中未出现的字符对应的节点,其值完全相同,将这些节点合并为一个节点,如图4中“其它”节点。将所有节点的地址存储在图4的索引表中。图2所示的AC有限状态自动机,转换成的以字符为节点的有限状态自动机如图4所示。
设有关键词集合P={p1,p2,…,pa},将以状态为节点的有限状态自动机转换为以字符为节点的有限状态自动机的过程可以如表2所示实现:
表2将以状态为节点的有限状态自动机转换为以字符为节点的有限状态自动机的过程 |
NewPrerocess(P,CL) |
以字符为节点的有限状态自动机建立之后,将待匹配的文本或网络数据流以字符为单位顺序输入以字符为节点的有限状态自动机,与关键词进行匹配。匹配过程可以如表3所示:
表3以字符为节点的有限状态自动机的匹配流程 |
state=0;i=0;while(i<m)∥m是待匹配数据的长度,以字节为单位{State_Table=Index Table[T[i]];next_state=State_Table[state];∥T代表待匹配数据state=next_stare;if(match(state))∥在状态state是否有输出?{output;}i++;} |
Claims (2)
1、一种用于文本或网络内容分析的多关键词匹配方法,其特征在于该方法包括以下步骤:
(1)根据待匹配的关键词,建立以状态为节点的有限状态自动机,并记录关键词中的字符;
(2)根据上述字符对上述有限状态自动机进行转换,得到以字符为节点的有限状态自动机,节点总数为m+1,m为上述关键词中的字符数,将所有节点的地址存储为一个索引表;
(3)将待匹配的文本或网络数据流作为上述以字符为节点的有限状态自动机的输入,与关键词进行匹配。
2、如权利要求1所述的方法,其特征在于其中所述的对有限状态自动机进行转换的过程包括以下步骤:
(1)将以状态为节点的有限状态自动机的所有节点中与每个字符对应的值作为以字符为节点的有限状态自动机中节点的值;
(2)将以字符为节点的有限状态自动机中所有值都相同的多个节点合并为一个节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100008013A CN100361128C (zh) | 2006-01-13 | 2006-01-13 | 一种用于文本或网络内容分析的多关键词匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100008013A CN100361128C (zh) | 2006-01-13 | 2006-01-13 | 一种用于文本或网络内容分析的多关键词匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1801152A true CN1801152A (zh) | 2006-07-12 |
CN100361128C CN100361128C (zh) | 2008-01-09 |
Family
ID=36811155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2006100008013A Active CN100361128C (zh) | 2006-01-13 | 2006-01-13 | 一种用于文本或网络内容分析的多关键词匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100361128C (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008141519A1 (fr) * | 2007-05-18 | 2008-11-27 | Beijing Zhean Technology Corporation | Méthode et structure de puce de mise en concordance de chaînes de caractères |
CN102521357A (zh) * | 2011-12-13 | 2012-06-27 | 曙光信息产业(北京)有限公司 | 一种利用自动机实现文本精确匹配的系统和方法 |
CN101876986B (zh) * | 2009-11-27 | 2012-11-21 | 福建星网锐捷网络有限公司 | 基于有限状态自动机的字符串匹配方法及内容过滤设备 |
CN106156006A (zh) * | 2016-07-05 | 2016-11-23 | 尼玛扎西 | 藏文字成分分析方法、藏文排序方法以及对应装置 |
CN106487803A (zh) * | 2016-11-10 | 2017-03-08 | 深圳市任子行科技开发有限公司 | 用于大流量网络入侵检测系统的模式匹配算法和系统 |
CN108133052A (zh) * | 2018-01-18 | 2018-06-08 | 广州汇智通信技术有限公司 | 一种多关键字的搜索方法、系统、介质及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6073098A (en) * | 1997-11-21 | 2000-06-06 | At&T Corporation | Method and apparatus for generating deterministic approximate weighted finite-state automata |
US6856981B2 (en) * | 2001-09-12 | 2005-02-15 | Safenet, Inc. | High speed data stream pattern recognition |
-
2006
- 2006-01-13 CN CNB2006100008013A patent/CN100361128C/zh active Active
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008141519A1 (fr) * | 2007-05-18 | 2008-11-27 | Beijing Zhean Technology Corporation | Méthode et structure de puce de mise en concordance de chaînes de caractères |
CN101876986B (zh) * | 2009-11-27 | 2012-11-21 | 福建星网锐捷网络有限公司 | 基于有限状态自动机的字符串匹配方法及内容过滤设备 |
CN102521357A (zh) * | 2011-12-13 | 2012-06-27 | 曙光信息产业(北京)有限公司 | 一种利用自动机实现文本精确匹配的系统和方法 |
CN106156006A (zh) * | 2016-07-05 | 2016-11-23 | 尼玛扎西 | 藏文字成分分析方法、藏文排序方法以及对应装置 |
CN106156006B (zh) * | 2016-07-05 | 2019-07-23 | 尼玛扎西 | 藏文字成分分析方法、藏文排序方法以及对应装置 |
CN106487803A (zh) * | 2016-11-10 | 2017-03-08 | 深圳市任子行科技开发有限公司 | 用于大流量网络入侵检测系统的模式匹配算法和系统 |
CN108133052A (zh) * | 2018-01-18 | 2018-06-08 | 广州汇智通信技术有限公司 | 一种多关键字的搜索方法、系统、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN100361128C (zh) | 2008-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Moffat | Word‐based text compression | |
Sadakane | Compressed text databases with efficient query algorithms based on the compressed suffix array | |
US6119120A (en) | Computer implemented methods for constructing a compressed data structure from a data string and for using the data structure to find data patterns in the data string | |
EP1578020B1 (en) | Data compressing method, program and apparatus | |
CN106797446B (zh) | 基于存储器的历史搜索 | |
US6012057A (en) | High speed data searching for information in a computer system | |
JP3225638B2 (ja) | データを圧縮するための装置及び方法並びにデータ処理システム | |
CN1801152A (zh) | 一种用于文本或网络内容分析的多关键词匹配方法 | |
US20070239881A1 (en) | Multiplexing binary encoding to facilitate compression | |
CA2103445A1 (en) | Data compression usin multipel levels | |
CN101630323B (zh) | 确定自动机的空间压缩方法 | |
KR20090115208A (ko) | 데이터 스트림의 생성 및 데이터 스트림 내부의 위치들의 식별 | |
CN1873643A (zh) | 使用词汇关联增强搜索引擎查询性能的方法和系统 | |
CN113139100B (zh) | 一种网络流量实时索引方法及系统 | |
Diwate et al. | Study of different algorithms for pattern matching | |
US6883087B1 (en) | Processing of binary data for compression | |
Andersson et al. | Suffix trees on words | |
US20100057809A1 (en) | Information storing/retrieving method and device for state transition table, and program | |
Teahan et al. | Combining PPM models using a text mining approach | |
US8010510B1 (en) | Method and system for tokenized stream compression | |
US20150082142A1 (en) | Method for storing and applying related sets of pattern/message rules | |
CN111884659B (zh) | 一种fst数据的压缩方法和装置 | |
Jung et al. | A dynamic construction algorithm for the Compact Patricia trie using the hierarchical structure | |
Ristov et al. | Ziv Lempel compression of huge natural language data tries using suffix arrays | |
Gasieniec et al. | Time/space efficient compressed pattern matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |