CN100505752C - 文本编码类协议通用解析器 - Google Patents

文本编码类协议通用解析器 Download PDF

Info

Publication number
CN100505752C
CN100505752C CNB2005100017821A CN200510001782A CN100505752C CN 100505752 C CN100505752 C CN 100505752C CN B2005100017821 A CNB2005100017821 A CN B2005100017821A CN 200510001782 A CN200510001782 A CN 200510001782A CN 100505752 C CN100505752 C CN 100505752C
Authority
CN
China
Prior art keywords
state
character
follow
terminal
terminal character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2005100017821A
Other languages
English (en)
Other versions
CN1809053A (zh
Inventor
赵宝华
屈玉贵
周颢
田野
王烁
李奇越
吕超
靳志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Huawei Technologies Co Ltd
Original Assignee
University of Science and Technology of China USTC
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC, Huawei Technologies Co Ltd filed Critical University of Science and Technology of China USTC
Priority to CNB2005100017821A priority Critical patent/CN100505752C/zh
Priority to PCT/CN2006/000118 priority patent/WO2006076869A1/zh
Priority to DE112006000260.0T priority patent/DE112006000260B4/de
Publication of CN1809053A publication Critical patent/CN1809053A/zh
Priority to US11/878,191 priority patent/US7636787B2/en
Application granted granted Critical
Publication of CN100505752C publication Critical patent/CN100505752C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Devices For Executing Special Programs (AREA)
  • Communication Control (AREA)

Abstract

本发明涉及一种文本编码类协议通用解析器。本发明包括:规则存储模块、待解析消息存储模块和消息解析模块,消息解析模块根据规则存储模块中保存的ABNF规则树信息对待解析消息存储模块中的消息文本进行解析处理,所述消息解析模块为基于FPGA(可编程逻辑芯片)实现。因此,本发明与软件实现方式相比,解析效率大为提高,有利于提高产品效率,降低成本。同时,本发明为基于ABNF规则进行解析,使得本发明具有良好的通用性,可以适用于各种基于ABNF进行规则定义的场合,从而极大地降低了相应的解析器的开发成本,提高了开发效率。

Description

文本编码类协议通用解析器
技术领域
本发明涉及网络通信技术领域,尤其涉及一种文本编码类协议通用解析器。
背景技术
Internet工程任务组(IETF,Internet Engineering Task Force)组织使用ABNF定义了多个协议中的报文格式,例如会话起始协议(SIP,SessionInitiation Protocol)等。在实现这些协议时,需要按照扩展巴克斯范式(ABNF,Augmented BNF)规则对报文进行分析和模式。
ABNF是IETF组织在RFC2234中定义的一个字符串模式匹配的文法定义。ABNF是在巴克斯范式(BNF)基础上的扩展,其与标准巴克斯范式的区别包括:命名规则,循环,选择,次序独立以及值域。
目前,常见的ABNF解析器的实现方案为:在通用微处理器上,使用软件来实现编译原理领域内的词法和语法解析算法。例如,常见的LL(1)文法解析算法,该算法是一种自上而下的非递归预测分析器,它通过计算文法的首终结符集合(First集合)和后继终结符集合(Follow集合)从而构造出该文法的预测分析表,进而利用分析表进行推导。LL(1)文法是无二义的文法,且不含左递归。LL(1)中的第一个“L”表示从左到右地扫描输入串;第二个“L”表示产生最左推导;1代表在决定分析器的每步动作时向前看一个输入符号。
由于ABNF是基于文本定义的语法,所以在对变长的字符串解析时,其复杂度高于基于二进制的定长数据解析。上述方案的优点在于解析器开发代价小,开发效率高。但是,由于通用处理器并不是专门针对ABNF解析进行设计的,因而其处理速度、吞吐量等性能参数往往受限。当需要高速处理能力时,例如,SIP软交换系统需要处理百万量级的连接,则为了达到性能要求需要采用更高级别的微处理器,这样,必然提高解析器产品的成本。
目前,采用的另一种ABNF解析方案是也是在通用微处理器上,针对特定领域内ABNF语法规则的特点设计特定的软件来进行处理。以SIP协议栈为例,常见的实现方式是根据SIP文法规则的特点,通过分割符将SIP报文分割为若干字段,再进行相应的语法规则检查。
在这一方案中针对特定语法规则进行设计,在效率上优于前面描述的技术方案。但是由于其针对特定规则进行处理,导致其通用性较差,针对新的语法规则必须重新进行设计,从而提高了解析器开发成本,导致开发效率较低。另一方面,由于其仍然是基于通用微处理器进行的,在需要高速处理能力的情况下仍然会存在前面描述的第一种方案所存在的问题。
发明内容
鉴于上述现有技术所存在的问题,本发明的目的是提供一种文本编码类协议通用解析器,提高解析器的解析效率,并使解析器具有良好的通用性。
本发明的目的是通过以下技术方案实现的:
本发明提供了一种文本编码类协议通用解析器,该解析器包括:规则存储模块、待解析消息存储模块和消息解析模块,其中:
所述消息解析模块根据所述规则存储模块中保存的规则信息对所述待解析消息存储模块中的消息文本进行解析处理;所述消息解析模块为采用逻辑芯片实现;
所述规则存储模块为规则树存储模块,所述规则树存储模块中保存有基于扩展巴克斯范式ABNF方法定义规则生成的规则树;
所述的规则树为不包含增式选择、序列组及可选序列结构的规则树,且所述的规则树为以各规则中的一个规则为顶点,采用递归的方式生成的规则树。
所述的逻辑芯片包括:
现场可编程逻辑门列阵FPGA或复杂可编程逻辑器件CPLD。
所述的消息解析模块进一步包括:
主进程处理部分:用于根据栈顶节点的类型控制分别进入解析终结符部分、匹配首终结符部分或匹配后继终结符部分的处理过程;
解析终结符部分:用于当栈顶节点为终结节点时,由主进程处理部分控制启动,并进行终结节点的终结符的解析处理,解析完成后通知主进程处理部分;
匹配首终结符部分:用于对当栈顶节点为非终结点时,且为首终结符集合时,由主进程处理部分控制启动,并进行首终结符的匹配处理,判断当前字符是否在节点首终结符集合内,匹配完成后通知主进程处理部分;
匹配后继终结符部分:用于对当栈顶节点为非终结点时,且为后继终结符集合时,由主进程处理部分控制启动,并进行后继终结符的匹配处理,判断当前字符是否在节点后继终结符集合内,匹配完成后通知主进程处理部分。
所述的消息解析模块采用状态机实现。
所述的主进程处理部分对应的状态机包括:
循环解析PARSE_LOOP状态,在该状态下进行消息报文的解析;
到达最大重复次数REPEAT_MAX状态,在该状态下判断保存首规则树节点的节点栈的栈顶节点的类型是否为终结节点;
匹配终结符TERM_MATCH状态,在该状态下进行终结符的匹配处理张,并启动解析终结符部分;
进入首终结符集合判断IN_FIRST状态,在该状态下进行首终结符集合的判断处理,并在确定存在首终结符集合时,启动匹配首终结符部分;
所有的子节点已经处理ALLSUB状态,当IN_FIRST状态下所有的子节点处理完成时进入该状态,且在该状态下返回PARSE_LOOP状态;
后继终结符集判断JUDGE_FOLLOW状态,在该状态下进行后继终结符集合的判断处理,并在确定存在后继终结符集合时,进入FOLLOW集合判断IN_FOLLOW状态,启动匹配后继终结符部分,如果不存在后继终结符集合时进入下一规则NEXTRULE状态,并返回PARSE_LOOP状态的。
所述的解析终结符部分对应的状态机包括:
字符串类型终结符TERM_STRING状态,在该状态下对单个字符串循环进行单个字符的匹配处理;
字符编码连接类型终结符TERM_CODE_LIST状态,在该状态下对字符编码连接循环进行单个字符的匹配处理;
终结符匹配成功TERM_SUCCESS状态和终结符匹配失败TERM_FAIL状态,在该状态下通知主进程处理部分匹配处理结果。
所述的匹配首终结符部分对应的状态机包括:
列表循环处理LIST_LOOP状态,在该状态下判断编码类型为字符串字符编码连接;
字符串类型FIRST_STRING状态,在该状态下对单个字符串循环进行单个字符的匹配处理;
字符编码连接类型终结符FIRST_CODE_LIST状态,在该状态下对字符编码连接循环进行单个字符的匹配处理;
首终结符集合匹配成功FIRST_SUCCESS状态和首终结符集合匹配失败FIRST_FAIL状态,在该状态下通知主进程处理部分匹配处理结果。
所述的匹配后继终结符部分对应的状态机包括:
列表循环处理LIST_LOOP状态,在该状态下判断编码类型为字符串字符编码连接;
字符串类型FOLLOW_STRING状态,在该状态下对单个字符串循环进行单个字符的匹配处理;
字符编码连接类型FOLLOW_CODE_LIST状态,在该状态下对字符编码连接循环进行单个字符的匹配处理;
后继终结符匹配成功FOLLOW_SUCCESS状态和后继终结符匹配失败FOLLOW_FAIL状态,在该状态下通知主进程处理部分匹配处理结果。
由上述本发明提供的技术方案可以看出,本发明提供的基于FPGA硬件实现的通用ABNF文法解析与软件实现方式相比,解析效率大为提高,有利于提高产品效率,降低成本。同时,本发明为基于ABNF规则进行解析,使得本发明具有良好的通用性,可以适用于各种基于ABNF进行规则定义的场合,例如,对SIP协议栈、XML(可扩展标记语言)的处理等等;因此,本发明极大地降低了相应的解析器的开发成本,提高了开发效率。
附图说明
图1为本发明所述的解析器的结构示意图;
图2为本发明所述的消息解析模块的实现原理图;
图3为图2中的主进程的状态机模型;
图4为图2中的解析终结符进程的状态机模型;
图5为图2中的匹配首终结符进程的状态机模型;
图6为图2中的匹配后继终结符进程的状态机模型。
具体实施方式
本发明的核心是基于FPGA(可编程逻辑芯片)实现的硬件ABNF解析器,所述硬件ABNF解析器可以在保证通用性的前提下,通过硬件优化提高解析器的解码效率。
本发明是在LL(1)算法的基础上,提出一种FPGA实现的通用ABNF硬件解析器,可以对输入字符串依据ABNF规则进行解析。
本发明所述的基于FPGA实现的通用ABNF硬件解析器,其功能结构如图1所示,根据代表ABNF规则的规则树信息(即未赋值的规则树),对需要处理的字符串消息进行解析,结果为已经赋值的规则树。
本发明所述的文本编码类协议通用解析器主要包括:
规则树存储模块、待解析消息存储模块和消息解析模块组成,其中:
所述的规则树存储模块用于存储规则树数据,规则树节点通常需要按顺序存储,一次可以读入整个规则节点;
所述的待解析消息存储模块用于存放待解析的消息文本,通常可以以字节形式顺序存放;
所述的消息解析模块用于根据规则树信息对待解析的消息文件进行解码处理,以获得消息文件的解析处理结果。
本发明中主要涉及规则树的生成过程和消息解析模块的硬件实现方式,下面将分别对两个主要方面进行说明。
本发明中,所述的规则树信息可以按如下方式从ABNF规则文本生成:
(1)对ABNF规则进行展平处理,即将各规则进行简化描述,使得其不包含增式选择、序列组和可选序列等复杂结构,具体可以将简化描述后的规则保存于规则表中,每个表项对应一个简化处理后的新的规则,相应的处理步骤如下所述:
对于每个规则,在规则表(如哈希表)中添加一条规则表项;
对于包含增式选择的规则,将规则添加的选择内容加入到原规则中,更新原规则表的表项;
对于包含序列组的规则,将序列组内容定义为新规则,并用新规则替换原规则的序列组内容,重复此过程,直到新规则不包含序列组为止;
对于包含可选序列的规则,将可选序列内容定义为新规则,并用新规则替换原规则的可选序列内容,重复此过程,直到新规则不包含序列组为止;
(2)基于所述的规则表生成相应的规则树,具体为指定规则表中的某一规则为顶点,并以此为根节点递归生成对应的规则树;
(3)使用LL(1)解析算法中First集合和Follow集合的生成方法,对每个规则树节点计算其相应的First集合和Follow集合。
本发明中,所述的消息解析模块为核心处理部分,下面将对所述的消息解析模块的具体实现方式进行详细说明。
所述的消息解析模块主要包括四个进程,分别由四个状态机实现。其中主进程main控制其它三个子进程,其它三个子进程包括:parse_term(解析终结符)进程、match_first_proc(匹配first过程)和match_follow_proc(匹配follow过程),各进程关系如图2所示,由主进程在处理过程中控制其他三个进程的启动,并实现相应的功能;主进程判断符合启动相应的子进程的条件时,则迁移到相应的状态,向相应的子进程发送信号启动对应的子进程进行相应的处理,各子进程处理完成后需要将结果返回主进程,并由主进程输出成功或失败的解析结果信号。
下面将分别对各个进程的状态机包括的状态及具体处理过程进行说明。
(1)主进程main,即主进程处理部分
主进程main作为主控进程,由时钟上升沿驱动,包含以下状态:
IDLE(空闲),INIT(初始化),PARSE_LOOP(循环解析),REPEAT_MAX(到达最大重复次数),TERM_MATCH(匹配终结符),IN_FIRST(进行FIRST集合判断),FIRSTSUB(第一个子节点),ALLSUB(所有的子节点已经处理),CHOOSESUB(选择子节点),NEXTSUBO(下一个子节点0),NEXTSUB1(下一个子节点1),GETSUB(取子节点),JUDGE_FOLLOW(FOLLOW集判断),IN_FOLLOW(进入FOLLOW集合判断),NEXTRULE(下一规则),END_PARSE(解析结束);
其进程状态机模型如附图3所示,相应的状态迁移处理过程为:
当检测到上升沿信号时,状态机由IDLE状态进入PARSE_LOOP状态,开始消息报文的解析;状态机在REPEAT_MAX状态判断节点栈的栈顶节点的类型,所述的节点栈是在主进程实现时的一个节点栈,保存的内容是规则树的节点,用于跟踪当前基于相应的规则树的解析进度情况,并根据栈顶节点的类型确定进入相应的子进程进行处理,参照图2所示,具体如下:
如果是终结节点,则将终结符匹配信号match_term代入高电平,启动parse_term进程,等待终结符匹配结果match_term_result信号出现高电平后进入状态TERM_MATCH,并将信号match_term代入低电平以中止parse_term进程,状态机返回PARSE_LOOP状态;
如果栈顶节点是非终结节点,则将信号match_first代入高电平,启动match_first_proc进程,具体的处理过程为:
若match_first_success信号出现高电平,表示当前待解析字符在节点的first集合中,状态机进入状态FIRST_SUB,并把信号match_first代入低电平以中止match_first_proc进程,此时状态机选取正确的子节点压入栈中并返回PARSE_LOOP状态;
若match_first_fail信号出现高电平,表示当前待解析字符不在节点的first集合中,状态机进入状态JUDGE_FOLLOW状态,在此状态下,信号matcn_follow被代入高电平,启动match_follow_proc进程,等待matcn_follow_success信号或者match_follow_fail信号以判断能否进行下一节点的匹配,并返回PARSE_LOOP状态。
(2)子进程parse_term,即解析终结符进程
子进程parse_term为时钟上升沿驱动,用于完成终结节点的匹配,其对应的状态包括:
IDLE,START(启动),TERM_STRING(字符串类型终结符),TERM_CODE_LIST(字符编码连接类型终结符),TERM_SUCCESS(终结符匹配成功),TERM_FAIL(终结符匹配失败);
其进程状态机模型如附图4所示,当match_term信号被主进程代入高电平,状态机由IDLE状态进入START状态,在此状态下状态机判断编码类型,以根据不同的编码类型进入不同的状态进行处理:
如果是字符串,则进入TERM_ST RING状态,循环匹配单个字符,那当然,如果字符串仅包含单个字符编码或者单个字符的range编码,则直接判断是否匹配即可;
如果是字符编码连接,则进入TERM_CODE_LIST状态,循环进行单个字符的匹配;
最后,便可以根据匹配结果选择进入状态TERM_SUCCESS或者TERM_FAIL,将term_match_result代入高电平通知主状态机;
当主状态机将math_term置为低电平,则parse_term状态机回到IDLE状态,清除term_match_result信号等待下一次匹配。
(3)子进程match_first_proc,即匹配首终结符进程
进程match_first_proc为时钟上升沿驱动,用于比较当前字符是否存在于节点first集合中,相应的状态包括:
IDLE,LIST_LOOP(列表循环处理),FIRST_STRI NG(字符串类型),FIRST_CODE_LIST(字符编码连接类型),FIRST_SUCCESS(FIRST集合匹配成功),FIRST_FAIL(FIRST集合匹配失败);
其进程状态机模型如附图5所示,相应的状态迁移处理过程为:
当match_first信号被主进程代入高电平,状态机由I DLE状态进入LIST_LOOP状态,在此状态下状态机判断编码类型,并根据编码类型采用相应的处理:
如果是字符串,则进入FIRST_STRING状态,循环匹配单个字符;
如果是单个字符编码或者单个字符的range(有效范围)编码,则直接判断是否匹配;
如果是字符编码连接,则进入FIRST_CODE_LIST状态,循环匹配单个字符;
最后,根据匹配结果选择进入状态FIRST_SUCCESS或者回到LIST_LOOP匹配下一个列表内容,直到发现匹配的first集合元素或者到达列表尾部;
如果没有发现匹配的first元素,则状态机进入FIRST_FAIL状态;状态机在FIRST_SUCCESS和FIRST_FAIL分别把first_match_success和first_match_fail代入高电平通知主状态机;
当主状态机将match_first置为低电平,则match_first_proc状态机回到IDLE状态,清除match_first_success或match_first_fail信号,并等待下一次匹配。
(4)子进程match_follow_proc,即匹配后继终结符处理进程
进程match_follow_proc时钟上升沿驱动,用于比较当前字符是否存在于节点follow集合中,相应的状态包括:
IDLE,LIST_LOOP(列表循环处理),FOLLOW_STRING(字符串类型),FOLLOW_CODE_LIST(字符编码连接类型),FOLLOW_SUCCESS(FOLLOW匹配成功),FOLLOW_FAIL(FOLLOW匹配失败);
其进程状态机模型如附图6所示,相应的状态迁移处理过程为:
当match_follow信号被主进程代入高电平,状态机由IDLE状态进入LIST_LOOP状态,在此状态下状态机判断编码类型,同样需要根据编码类型进行不同的处理:
如果是字符串,则进入FOLLOW_STRING状态,循环匹配单个字符;
如果是单个字符编码或者单个字符的range编码,则直接判断是否匹配;
如果是字符编码连接,则进入FOLLOW_CODE_LIST状态,循环匹配单个字符;
最后,根据匹配结果选择进入状态FOLLOW_SUCCESS或者回到LIST_LOOP匹配下一个列表内容,直到发现匹配的FOLLOW集合元素或者到达列表尾部;如果没有发现匹配的FOLLOW元素,则状态机进入FOLLOW_FAIL状态;状态机在FOLLOW_SUCCESS和FOLLOW_FAIL分别将follow_match_success和follow_match_fail代入高电平通知主状态机;
当主状态机将match_follow置为低电平,则match_follow_proc状态机回到IDLE状态,清除match_follow_success或match_follow_fail信号,等待下一次匹配。
基于上述各状态机,则可以利用可编程逻辑器件实现通用的ABNF文法解析器。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1、一种文本编码类协议通用解析器,其特征在于,包括规则存储模块、待解析消息存储模块和消息解析模块,其中:
所述消息解析模块根据所述规则存储模块中保存的规则信息对所述待解析消息存储模块中的消息文本进行解析处理;所述消息解析模块为采用逻辑芯片实现;
所述规则存储模块为规则树存储模块,所述规则树存储模块中保存有基于扩展巴克斯范式ABNF方法定义规则生成的规则树;
所述的规则树为不包含增式选择、序列组及可选序列结构的规则树,且所述的规则树为以各规则中的一个规则为顶点,采用递归的方式生成的规则树。
2、根据权利要求1所述的文本编码类协议通用解析器,其特征在于,所述的逻辑芯片包括:
现场可编程逻辑门列阵FPGA或复杂可编程逻辑器件CPLD。
3、根据权利要求1或2所述的文本编码类协议通用解析器,其特征在于,所述的消息解析模块进一步包括:
主进程处理部分:用于根据栈顶节点的类型控制分别进入解析终结符部分、匹配首终结符部分或匹配后继终结符部分的处理过程;
解析终结符部分:用于当栈顶节点为终结节点时,由主进程处理部分控制启动,并进行终结节点的终结符的解析处理,解析完成后通知主进程处理部分;
匹配首终结符部分:用于对当栈顶节点为非终结点时,且为首终结符集合时,由主进程处理部分控制启动,并进行首终结符的匹配处理,判断当前字符是否在节点首终结符集合内,匹配完成后通知主进程处理部分;
匹配后继终结符部分:用于对当栈顶节点为非终结点时,且为后继终结符集合时,由主进程处理部分控制启动,并进行后继终结符的匹配处理,判断当前字符是否在节点后继终结符集合内,匹配完成后通知主进程处理部分。
4、根据权利要求3所述的文本编码类协议通用解析器,其特征在于,所述的消息解析模块采用状态机实现。
5、根据权利要求4所述的文本编码类协议通用解析器,其特征在于,所述的主进程处理部分对应的状态机包括:
循环解析PARSE_LOOP状态,在该状态下进行消息报文的解析;
到达最大重复次数REPEAT_MAX状态,在该状态下判断保存首规则树节点的节点栈的栈顶节点的类型是否为终结节点;
匹配终结符TERM_MATCH状态,在该状态下进行终结符的匹配处理,并启动解析终结符部分;
进入首终结符集合判断IN_FIRST犬态,在该状态下进行首终结符集合的判断处理,并在确定存在首终结符集合时,启动匹配首终结符部分;
所有的子节点已经处理ALLSUB状态,当IN_FIRST状态下所有的子节点处理完成时进入该状态,且在该状态下返回PARSE_LOOP状态;
后继终结符集判断JUDGE_FOLLOW状态,在该状态下进行后继终结符集合的判断处理,并在确定存在后继终结符集合时,进入FOLLOW集合判断IN_FOLLOW状态,启动匹配后继终结符部分,如果不存在后继终结符集合时进入下一规则NEXTRULE状态,并返回PARSE_LOOP状态的。
6、根据权利要求4所述的文本编码类协议通用解析器,其特征在于,所述的解析终结符部分对应的状态机包括:
字符串类型终结符TERM_STRING状态,在该状态下对单个字符串循环进行单个字符的匹配处理;
字符编码连接类型终结符TERM_CODE_LIST状态,在该状态下对字符编码连接循环进行单个字符的匹配处理;
终结符匹配成功TERM_SUCCESS状态和终结符匹配失败TERM_F AIL状态,在该状态下通知主进程处理部分匹配处理结果。
7、根据权利要求4所述的文本编码类协议通用解析器,其特征在于,所述的匹配首终结符部分对应的状态机包括:
列表循环处理LIST_LOOP状态,在该状态下判断编码类型为字符串或字符编码连接;
字符串类型FIRST_STRING状态,在该状态下对单个字符串循环进行单个字符的匹配处理;
字符编码连接类型终结符FIRST_CODE_LIST状态,在该状态下对字符编码连接循环进行单个字符的匹配处理;
首终结符集合匹配成功FIRST_SUCCESS状态和首终结符集合匹配失败FIRST_FAIL状态,在该状态下通知主进程处理部分匹配处理结果。
8、根据权利要求4所述的文本编码类协议通用解析器,其特征在于,所述的匹配后继终结符部分对应的状态机包括:
列表循环处理LIST_LOOP状态,在该状态下判断编码类型为字符串或字符编码连接;
字符串类型FOLLOW_STRING状态,在该状态下对单个字符串循环进行单个字符的匹配处理;
字符编码连接类型FOLLOW_CODE_LIST状态,在该状态下对字符编码连接循环进行单个字符的匹配处理;
后继终结符匹配成功FOLLOW_SUCCESS状态和后继终结符匹配失败FOLLOW_FAIL状态,在该状态下通知主进程处理部分匹配处理结果。
CNB2005100017821A 2005-01-21 2005-01-21 文本编码类协议通用解析器 Active CN100505752C (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CNB2005100017821A CN100505752C (zh) 2005-01-21 2005-01-21 文本编码类协议通用解析器
PCT/CN2006/000118 WO2006076869A1 (fr) 2005-01-21 2006-01-23 Analyseur de protocole du type a codage de texte
DE112006000260.0T DE112006000260B4 (de) 2005-01-21 2006-01-23 Parser zur Analyse eines textkodierten Protokolls
US11/878,191 US7636787B2 (en) 2005-01-21 2007-07-23 Parser for parsing text-coded protocol

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100017821A CN100505752C (zh) 2005-01-21 2005-01-21 文本编码类协议通用解析器

Publications (2)

Publication Number Publication Date
CN1809053A CN1809053A (zh) 2006-07-26
CN100505752C true CN100505752C (zh) 2009-06-24

Family

ID=36691991

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100017821A Active CN100505752C (zh) 2005-01-21 2005-01-21 文本编码类协议通用解析器

Country Status (4)

Country Link
US (1) US7636787B2 (zh)
CN (1) CN100505752C (zh)
DE (1) DE112006000260B4 (zh)
WO (1) WO2006076869A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354282A (zh) * 2015-10-30 2016-02-24 青岛海尔智能家电科技有限公司 一种xml文件检索方法及装置

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1842081B (zh) * 2005-03-30 2010-06-02 华为技术有限公司 扩展巴克斯范式字符串模式匹配和解析的方法及装置
US8291058B2 (en) * 2010-02-19 2012-10-16 Intrusion, Inc. High speed network data extractor
US8745748B2 (en) * 2010-10-15 2014-06-03 Microsoft Corporation Cancelling digital signatures for form files
EP2560338B1 (en) * 2011-06-13 2016-01-13 Huawei Technologies Co., Ltd. Method and apparatus for protocol parsing
KR101913313B1 (ko) * 2011-12-28 2018-10-31 삼성전자주식회사 게이트웨이에서 인터넷 프로토콜 기반 네트워크를 이용하여 컨텐츠 중심 네트워크를 구현하는 방법 및 그 게이트웨이
US9343506B2 (en) 2014-06-04 2016-05-17 Micron Technology, Inc. Memory arrays with polygonal memory cells having specific sidewall orientations
US10298482B2 (en) 2017-01-25 2019-05-21 Ringcentral, Inc. Systems and methods for regulating network resources to improve data-transmission quality
EP4155998B1 (en) * 2017-08-18 2023-10-11 Nippon Telegraph And Telephone Corporation Intrusion prevention device, intrusion prevention method, and program
CN111061482B (zh) * 2019-10-24 2023-12-08 贝壳技术有限公司 字符串中参数的解析方法、装置、存储介质及电子设备
US11449496B2 (en) 2019-10-25 2022-09-20 Servicenow, Inc. Enhanced natural language processing with semantic shortcuts
CN112860233B (zh) * 2019-11-28 2024-03-15 华为云计算技术有限公司 目标语法树的生成方法以及相关设备
CN110933077A (zh) * 2019-11-29 2020-03-27 深圳市风云实业有限公司 一种报文解析系统及方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5916305A (en) * 1996-11-05 1999-06-29 Shomiti Systems, Inc. Pattern recognition in data communications using predictive parsers
US6778949B2 (en) * 1999-10-18 2004-08-17 Sony Corporation Method and system to analyze, transfer and generate language expressions using compiled instructions to manipulate linguistic structures
EP1146690B1 (de) * 2000-04-14 2006-06-21 Tektronix Berlin GmbH & Co. KG Verfahren und Vorrichtung zur Analyse von Daten
JP3985944B2 (ja) * 2001-11-22 2007-10-03 株式会社日立超エル・エス・アイ・システムズ ネットワーク装置およびプログラム
US20030185220A1 (en) * 2002-03-27 2003-10-02 Moshe Valenci Dynamically loading parsing capabilities
US7187694B1 (en) * 2002-03-29 2007-03-06 Pmc-Sierra, Inc. Generic packet parser
US20040088425A1 (en) * 2002-10-31 2004-05-06 Comverse, Ltd. Application level gateway based on universal parser
US7062680B2 (en) * 2002-11-18 2006-06-13 Texas Instruments Incorporated Expert system for protocols analysis
EP1581869A2 (en) 2003-01-07 2005-10-05 International Business Machines Corporation A method and system for dynamically creating parsers in a message broker
EP1604277A2 (en) * 2003-02-28 2005-12-14 Lockheed Martin Corporation Hardware accelerator personality compiler
CN100356727C (zh) 2003-03-19 2007-12-19 华为技术有限公司 一种分析信令的方法
US7293113B1 (en) * 2003-05-28 2007-11-06 Advanced Micro Devices, Inc. Data communication system with hardware protocol parser and method therefor
US7451299B2 (en) * 2003-07-18 2008-11-11 Bea Systems, Inc. System and method for generating multi-way branches
US7328403B2 (en) * 2003-10-22 2008-02-05 Intel Corporation Device for structured data transformation
US7570661B2 (en) * 2005-06-14 2009-08-04 Microsoft Corporation Script-based parser

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354282A (zh) * 2015-10-30 2016-02-24 青岛海尔智能家电科技有限公司 一种xml文件检索方法及装置

Also Published As

Publication number Publication date
US7636787B2 (en) 2009-12-22
WO2006076869A1 (fr) 2006-07-27
CN1809053A (zh) 2006-07-26
US20080040496A1 (en) 2008-02-14
DE112006000260T5 (de) 2008-01-24
DE112006000260B4 (de) 2014-04-10

Similar Documents

Publication Publication Date Title
CN100505752C (zh) 文本编码类协议通用解析器
CN1842081B (zh) 扩展巴克斯范式字符串模式匹配和解析的方法及装置
CN101201836B (zh) 基于带记忆确定有限自动机的正则表达式匹配加速方法
CN101329665A (zh) 解析标记语言文档的方法和解析器
CN107025115B (zh) 一种适配多种接口采集的方法
CN101794318A (zh) Url解析方法及设备
Kitaev et al. Tetra-tagging: Word-synchronous parsing with linear-time inference
Nilsson AID: An alternative implementation of DCGs
CN106790108B (zh) 协议数据解析方法、装置和系统
Petasis et al. eg-GRIDS: Context-free grammatical inference from positive examples using genetic search
KR101985309B1 (ko) 최적화된 높이를 가지는 밸런스드 파스 트리를 생성하는 방법
CN113760358A (zh) 一种面向源代码分类模型的对抗样本生成方法
Črepinšek et al. Extracting grammar from programs: brute force approach
EP4242832A1 (en) Method and apparatus for parsing programming language, and non-volatile storage medium
Paakki Prolog in practical compiler writing
CN115687399A (zh) 一种sql语句的语法解析方法及装置
Fischer et al. A simple, fast, and effective LL (1) error repair algorithm
Fung et al. Maximum-likelihood syntactic decoding
Schwarz et al. Efficiently extracting full parse trees using regular expressions with capture groups
CN114510922B (zh) 一种文本匹配方法及装置
Li et al. Extensible Command Parsing Method for Network Device
CN112466307A (zh) 语音的回复方法和装置、存储介质、电子装置
Vilares et al. Parsing incomplete sentences revisited
Daniel et al. Towards trusted compilation for querying in wireless sensor networks
CN115167860A (zh) 将程序码于不同程序语言间进行转换及优化的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant