CN102609459A - 基于正则表达式的字符串匹配方法和装置 - Google Patents
基于正则表达式的字符串匹配方法和装置 Download PDFInfo
- Publication number
- CN102609459A CN102609459A CN2012100092729A CN201210009272A CN102609459A CN 102609459 A CN102609459 A CN 102609459A CN 2012100092729 A CN2012100092729 A CN 2012100092729A CN 201210009272 A CN201210009272 A CN 201210009272A CN 102609459 A CN102609459 A CN 102609459A
- Authority
- CN
- China
- Prior art keywords
- regular expression
- substring
- character string
- matched
- row
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于正则表达式的字符串匹配方法,包括:步骤100、根据字符串格式判断匹配字符串的匹配类型为段模式还是行模式,设置匹配类型标识;步骤200、根据匹配类型标识将匹配字符串按段分割或按行分割为多个子字符串,对每个子字符串确定正则表达式生成模式,并根据正则表达式生成模式以不同的连接正则表达式连接词组生成子字符串正则表达式,获得包含至少一个子字符串正则表达式的正则表达式列表;步骤300、根据匹配类型标识对待匹配数据进行按段分割或按行分割获得待匹配子字符串,按子字符串正则表达式逐一地对分割得到的待匹配子字符串进行匹配,输出匹配结果。
Description
技术领域
本发明涉及数据处理领域,特别涉及基于正则表达式的字符串匹配方法和装置。
背景技术
正则表达式是一种正规的描述字符串模式的方法,可以用来进行文本匹配,具体为在给定的字符串中寻找与给定的正则表达式相匹配的部分。正则表达式由普通字符和元字符组成,普通字符包括数字和大小写的字母,而元字符是具有特殊的含义的字符,例如,“\s”表示任何空白字符,包括空格、制表符、换页符等,“.”表示除换行元字符“\n”以外的任意字符,“*”表示前面的子表达式重复零次或多次。正则表达式可以用来进行文本匹配,具体为在给定的字符串中寻找和匹配正则表达式相匹配的部分。正则表达式广泛应用在通信行业中,用于对数据流量进行模式匹配检查,例如进行协议解析、病毒检测和业务分类等。
在实际应用中,在进行文本匹配时,需要根据不同的匹配内容编写不同的字符串匹配结构,设计过程较为繁琐,而匹配内容的格式一旦改变,就需要重新设计字符串匹配结构,造成维护困难。
由此,需要自动根据正则表达式设计进行字符串匹配的方法和装置
发明内容
本发明的目的在于提供易于维护基于正则表达式的字符串匹配方法和装置。
本发明公开了一种基于正则表达式的字符串匹配方法,包括:
步骤100、解析匹配字符串,根据预先设定的段模式分隔符以及字符串格式判断匹配字符串的匹配类型为段模式还是行模式,根据判断得到的匹配类型设置匹配类型标识;
步骤200、根据匹配类型标识将匹配字符串按段分割或按行分割为多个子字符串,对每个子字符串确定正则表达式生成模式,并根据正则表达式生成模式以不同的连接式连接所述子字符串中以预定词组标记标识的词组生成子字符串正则表达式,获得包含至少一个子字符串正则表达式的正则表达式列表;
步骤300、根据匹配类型标识对待匹配数据进行按段分割或按行分割获得待匹配子字符串,按子字符串正则表达式逐一地对分割得到的待匹配子字符串进行匹配,输出匹配结果。
优选地,匹配类型为段模式是指所述匹配字符串的格式以所述预定的段模式分隔符为界进行重复,匹配类型为行模式是指所述匹配字符串格式为不符合段模式的其它模式。
优选地,所述按段分割是以预定段模式分隔符为界截取子字符串,所述按行分割是以换行符为界截取子字符串。
优选地,所述正则表达式生成模式包括列模式和非列模式,对于列模式,利用代表至少一个空白字符的连接正则表达式连接词组生成子字符串正则表达式,对于非列模式,利用代表至少一个非换行符的任意字符的连接则正表达式生成子字符串正则表达式。
优选地,所述步骤100包括:
步骤101、解析所述匹配字符串;
步骤102、判断所述匹配字符串的格式是否以预定的段模式分隔符为界进行重复,如果是,所述匹配字符串匹配类型为段模式,执行步骤103,如果否,所述匹配字符串匹配类型为行模式,执行步骤104;
步骤103、设置所述匹配字符串的匹配类型标识为段模式,结束步骤100流程;
步骤104、设置所述匹配字符串的匹配类型标识为行模式,结束100流程。
优选地,所述步骤200包括:
步骤201、判断所述匹配字符串的匹配类型标识为段模式还是行模式,如果为段模式,则执行步骤202,如果为行模式则执行步骤203;
步骤202、按段模式分隔符将所述匹配字符串分割为多个匹配子字符串,执行步骤204;
步骤203、按换行符将所述匹配字符串分割为多个子字符串,执行步骤204;
步骤204、取出一个未处理的匹配子字符串,根据预定的词组标记提取其中的由词组标记标识的词组和词组间字符;
步骤205、根据词组间字符判断所述匹配子字符串的正则表达式生成模式为列模式还是非列模式,如果是列模式,则执行步骤206,如果是非列模式,则执行步骤207;
步骤206、将在步骤204中提取的词组用表示至少一个空白字符的连接正则表达式连接为子字符串正则表达式,执行步骤208;
步骤207、将在步骤204中提取的词组用表示至少一个非换行符的任意字符的连接正则表达式连接为子字符串正则表达式,执行步骤208;
步骤208、将得到的子字符串正则表达式加入正则表达式列表;
步骤209、判断是否还有未处理的匹配子字符串,如果有,则执行步骤204,如果没有,则执行步骤210;
步骤210、结束正则表达式生成。
优选地,所述步骤300包括:
步骤301、判断所述匹配类型标识为段模式还是行模式,如果为段模式,则执行步骤302,如果为行模式则执行步骤303;
步骤302、将待匹配数据按段分割为待匹配子字符串,执行步骤304;
步骤303、将待匹配数据按行分割为待匹配子字符串,执行步骤304;
步骤304、按顺序从所述正则表达式列表中读取一个未处理的子字符串正则表达式;
步骤305、用子字符串正则表达式与待匹配子字符串进行匹配;
步骤306、判断子字符串匹配是否成功,如果失败执行步骤307,如果成功执行步骤308;
步骤307、输出字符串匹配失败,结束匹配流程;
步骤308、判断是否还有未处理的子字符串正则表达式,如果有,则执行步骤304,如果没有,则执行步骤309;
步骤309、输出字符串匹配成功,结束匹配流程。
本发明还公开了一种基于正则表达式的字符串匹配装置,包括:
解析模块,用于解析匹配字符串,根据预先设定的段模式分隔符以及字符串格式判断匹配字符串的匹配类型为段模式还是行模式,根据判断得到的匹配类型设置匹配类型标识;
正则表达式生成模块,用于根据匹配类型标识将匹配字符串按段分割或按行分割为多个子字符串,对每个子字符串确定正则表达式生成模式,并根据正则表达式生成模式以不同的连接式连接所述子字符串中以预定词组标记标识的词组生成子字符串正则表达式,获得包含至少一个子字符串正则表达式的正则表达式列表;
数据匹配模块,用于根据匹配类型标识对待匹配数据进行按段分割或按行分割获得待匹配子字符串,按子字符串正则表达式逐一地对分割得到的待匹配子字符串进行匹配,输出匹配结果。
本发明通过不同匹配模式来覆盖所有的字符串匹配形式,通过设置正则表达式生成模式从而简化了字符串匹配结构体的设计过程。使匹配高效,设计简单,维护方便。
附图说明
图1是本发明的基于正则表达式的字符串匹配方法的流程图;
图2是本发明的基于正则表达式的字符串匹配方法的解析子过程的流程图;
图3是本发明的基于正则表达式的字符串匹配方法的正则表达式生成子过程的流程图;
图4是本发明的基于正则表达式的字符串匹配方法的数据匹配子过程的流程图;
图5是本发明的基于正则表达式的字符串匹配装置的框图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
本发明实施例根据匹配字符串的排列方式特点,对匹配字符串类型进行分配,根据不同类型进行不同的正则表达式生成和字符串匹配操作,从而实现简化字符串匹配结构的设计过程的目的。
其中,本发明实施例根据匹配字符串的分隔特点,将匹配字符串的匹配模式分为行模式和段模式。其中,匹配模式为段模式的匹配字符串中被匹配内容是按照某种固定格式重复出现的,即在整个字符串中字符组合以相同格式重复出现(以特定字符/字符串分隔重复,例如,字符串“123**234**789**”中,内容以“**”为分隔符每三个字符重复出现)。不具备段模式特点的字符串(即字符串内容不按照特定格式重复)被分类为行模式的字符串。在一个优选实施例中,匹配模式为行模式的字符串可以根据是否存在换行符进一步分为单行模式和多行模式,单行模式的匹配字符串在匹配字符串内没有换行符,匹配字符串只在同一行中出现,而多行模式的匹配字符串内存在至少一个换行符,匹配字符串在多行中出现。本发明按照不同的模式来对匹配字符串进行分割和匹配。
同时,本发明实施例在根据匹配字符串生成正则表达式时,还根据字符串中词组的特点,将匹配字符串分为列模式和非列模式。此处所述的词组是字符串中利用词组标记标示的字符组合,例如字符串“$catch$ $it$”,利用“$”作为词组标记标示了两个词组“catch”和“it”,通过这种方式可以在解析时识别字符串中的哪些字符组合是词组。在列模式中,匹配字符串的词组之间仅使用至少一个空白字符(包括空格、制表符等)连接,即匹配字符串的词组在逻辑上是紧密相连的,在相邻词组之间不存在其他字符,例如上述的“$catch$$it$”就是列模式的字符串。而在非列模式中,匹配字符串的词组之间包括除空白字符外的其它字符,例如“$catched$,$it$”。
图1示出了本发明的基于正则表达式的字符串匹配方法的流程图。其具体流程如下:
步骤100、解析匹配字符串,根据预先设定的段模式分隔符以及字符串格式判断匹配字符串的匹配类型为段模式还是行模式,根据判断得到的匹配类型为匹配字符串设置代表其匹配类型的标识,即匹配类型标识。
步骤200、按匹配类型标识将匹配字符串划分为多个子字符串组成的字符串列表,对每个子字符串确定正则表达式生成模式,并根据正则表达式生成模生成子字符串匹配正则表达式。其中,对于段模式的匹配字符串,将该匹配字符串按分隔符进行分割,对于行模式的匹配字符串,将该匹配字符串按换行符进行分割。分割后,对于每一个子字符串,按预先设定的词组标记解析该子字符串,获得子字符串中的词组以及词组之间的字符,根据所述词组之间的字符判断该子字符串的正则表达式生成类型是列模式还是非列模式,对于列模式的子字符串,在提取得到的词组之间用“\s*”元符号连接形成子字符串正则表达式,对于非列模式的子字符串,在提取得到的词组之间用“.*?”元符号连接形成子字符串正则表达式,最后将各子字符串正则表达式合并为子字符串正则表达式列表,并将所属匹配类型标识设置到所述正则表达式列表。
步骤300、进行数据匹配,获取正则表达式列表的匹配类型标识,根据匹配类型对待匹配数据进行划分,即,如果用于进行匹配的正则表达式列表为段模式,则按预定分隔符对待匹配数据进行分割(分隔符之间的部分或字符串开始/结束与分隔符之间的部分划分为一个子字符串)如果用于进行匹配的正则表达式列表为行模式,则按换行符对待匹配数据进行分割(换行符之间或字符串开始/结束与换行符之间的部分划分为一个子字符串)。分割后,按子字符串正则表达式逐一地对分隔得到的待匹配子字符串进行匹配。
图2是进一步说明所述步骤100的具体流程的方法流程图。如图2所示,所述步骤100包括:
步骤101、解析所述匹配字符串;
步骤102、判断所述匹配字符串的格式是否以预定的段模式分隔符为界进行重复,如果是,所述匹配字符串匹配类型为段模式,执行步骤103,如果否,所述匹配字符串匹配类型为行模式,执行步骤104;
步骤103、设置所述匹配字符串的匹配类型标识为段模式,结束;
步骤104、设置所述匹配字符串的匹配类型标识为行模式,结束。
图3是进一步说明所述步骤200的具体流程的方法流程图。如图3所示,所述步骤200包括:
步骤201、判断所述匹配字符串的匹配类型标识为段模式还是行模式,如果为段模式,则执行步骤202,如果为行模式则执行步骤203;
步骤202、按段模式分隔符将所述匹配字符串分割为多个匹配子字符串,即将以段模式分隔符为界重复的部分提取为子字符串,执行步骤204;
步骤203、按换行符将所述匹配字符串分割为多个子字符串,即将字符串中的每一行提取为子字符串,执行步骤204;
步骤204、取出一个匹配子字符串,根据预定的词组标记提取其中的由词组标记标识的词组和词组间字符;
步骤205、根据词组间字符判断所述匹配子字符串的正则表达式生成模式为列模式还是非列模式,如果是列模式,则执行步骤206,如果是非列模式,则执行步骤207;
步骤206、将在步骤204中提取的词组用表示至少一个空白字符的正则表达式“\s*”连接为子字符串正则表达式,执行步骤208;
步骤207、将在步骤204中提取的词组用表示至少一个非换行符的任意字符的正则表达式“.*?”连接为子字符串正则表达式,执行步骤208;
步骤208、将得到的子字符串正则表达式加入正则表达式列表;
步骤209、判断是否还有未处理的匹配子字符串,如果有,则执行步骤204,如果没有,则执行步骤210;
步骤210、结束正则表达式生成。
图4是进一步说明所述步骤300基于正则表达式进行字符串匹配的具体流程的方法流程图。如图4所示,所述步骤300包括:
步骤301、判断所述正则表达式列表的匹配类型标识为段模式还是行模式,如果为段模式,则执行步骤302,如果为行模式则执行步骤303;
步骤302、将待匹配数据按段分割为待匹配子字符串,执行步骤304;
步骤303、将待匹配数据按行分割为待匹配子字符串,执行步骤304;
步骤304、按顺序从所述正则表达式列表中读取一个未处理的子字符串正则表达式;
步骤305、用子字符串正则表达式与待匹配子字符串进行匹配;
步骤306、判断子字符串匹配是否成功,如果失败执行步骤307,如果成功执行步骤308;
步骤307、输出字符串匹配失败,结束匹配流程;
步骤308、判断是否还有未处理的子字符串正则表达式,如果有,则执行步骤304,如果没有,则执行步骤309;
步骤309、输出字符串匹配成功,结束匹配流程。
本发明通过不同匹配模式来覆盖所有的字符串匹配形式,通过设置正则表达式生成模式从而简化了字符串匹配结构体的设计过程。使匹配高效,设计简单,维护方便。
在本发明的另一个优选实施例中,可以对行模式进行进一步细分,将行模式分为单行模式和多行模式单行模式的匹配字符串在匹配字符串内没有换行符,匹配字符串只在同一行中出现,而多行模式的匹配字符串内存在至少一个换行符,匹配字符串在多行中出现。也就是说,将匹配类型分为三种类型,即段模式、单行模式和多行模式。在步骤200中分割所述匹配字符串时,对于单行模式的字符串不必进行分割,而对于多行模式的字符串按行进行分割获得多个匹配子字符串。在步骤300中对待匹配数据进行分割时,如果匹配正则表达式的匹配模式为单行模式,则对于待匹配数据不进行分割,如果匹配模式为多行模式,则将待匹配数据按行进行分割。
在本发明的又一个优选实施例中,在步骤305进行匹配时,逐字符进行匹配,直到整个子字符串匹配完成。
图5是本发明的另一优选实施例的基于正则表达式的字符串匹配装置,所述装置包括:
解析模块,用于解析匹配字符串,根据预先设定的段模式分隔符以及字符串格式判断匹配字符串的匹配类型为段模式还是行模式,根据判断得到的匹配类型为匹配字符串设置代表其匹配类型的标识,即匹配类型标识。
正则表达式生成模块,用于按匹配类型标识将匹配字符串划分为多个子字符串组成的字符串列表,对每个子字符串确定正则表达式生成模式,并根据正则表达式生成模生成子字符串匹配正则表达式。其中,对于段模式的匹配字符串,将该匹配字符串按分隔符进行分割,对于行模式的匹配字符串,将该匹配字符串按换行符进行分割。分割后,对于每一个子字符串,按预先设定的词组标记解析该子字符串,获得子字符串中的词组以及词组之间的字符,根据所述词组之间的字符判断该子字符串的正则表达式生成类型是列模式还是非列模式,对于列模式的子字符串,在提取得到的词组之间用“\s*”元符号连接形成子字符串正则表达式,对于非列模式的子字符串,在提取得到的词组之间用“.*?”元符号连接形成子字符串正则表达式,最后将各子字符串正则表达式合并为子字符串正则表达式列表,并将所属匹配类型标识设置到所述正则表达式列表。
数据匹配模块,用于进行数据匹配,获取正则表达式列表的匹配类型标识,根据匹配类型对待匹配数据进行划分,即,如果用于进行匹配的正则表达式列表为段模式,则按预定分隔符对待匹配数据进行分割(分隔符之间的部分或字符串开始/结束与分隔符之间的部分划分为一个子字符串)如果用于进行匹配的正则表达式列表为行模式,则按换行符对待匹配数据进行分割(换行符之间或字符串开始/结束与换行符之间的部分划分为一个子字符串)。分割后,按子字符串正则表达式逐一地对分割得到的待匹配子字符串进行匹配。
上述仅为本发明的较佳实施例及所运用技术原理,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。
Claims (8)
1.一种基于正则表达式的字符串匹配方法,包括:
步骤100、解析匹配字符串,根据预先设定的段模式分隔符以及字符串格式判断匹配字符串的匹配类型为段模式还是行模式,根据判断得到的匹配类型设置匹配类型标识;
步骤200、根据匹配类型标识将匹配字符串按段分割或按行分割为多个子字符串,对每个子字符串确定正则表达式生成模式,并根据正则表达式生成模式以不同的连接式连接所述子字符串中以预定词组标记标识的词组生成子字符串正则表达式,获得包含至少一个子字符串正则表达式的正则表达式列表;
步骤300、根据匹配类型标识对待匹配数据进行按段分割或按行分割获得待匹配子字符串,按子字符串正则表达式逐一地对分割得到的待匹配子字符串进行匹配,输出匹配结果。
2.如权利要求1所述的基于正则表达式的字符串匹配方法,其特征在于:匹配类型为段模式是指所述匹配字符串的格式以所述预定的段模式分隔符为界进行重复,匹配类型为行模式是指所述匹配字符串格式为不符合段模式的其它模式。
3.如权利要求1所述的基于正则表达式的字符串匹配方法,其特征在于:所述按段分割是以预定段模式分隔符为界截取子字符串,所述按行分割是以换行符为界截取子字符串。
4.如权利要求1所述的基于正则表达式的字符串匹配方法,其特征在于:所述正则表达式生成模式包括列模式和非列模式,对于列模式,利用代表至少一个空白字符的连接正则表达式连接词组生成子字符串正则表达式,对于非列模式,利用代表至少一个非换行符的任意字符的连接则正表达式生成子字符串正则表达式。
5.如权利要求1所述的基于正则表达式的字符串匹配方法,其特征在于,所述步骤100包括:
步骤101、解析所述匹配字符串;
步骤102、判断所述匹配字符串的格式是否以预定的段模式分隔符为界进行重复,如果是,所述匹配字符串匹配类型为段模式,执行步骤103,如果否,所述匹配字符串匹配类型为行模式,执行步骤104;
步骤103、设置所述匹配字符串的匹配类型标识为段模式,结束步骤100流程;
步骤104、设置所述匹配字符串的匹配类型标识为行模式,结束100流程。
6.如权利要求1所述的基于正则表达式的字符串匹配方法,其特征在于,所述步骤200包括:
步骤201、判断所述匹配字符串的匹配类型标识为段模式还是行模式,如果为段模式,则执行步骤202,如果为行模式则执行步骤203;
步骤202、按段模式分隔符将所述匹配字符串分割为多个匹配子字符串,执行步骤204;
步骤203、按换行符将所述匹配字符串分割为多个子字符串,执行步骤204;
步骤204、取出一个未处理的匹配子字符串,根据预定的词组标记提取其中的由词组标记标识的词组和词组间字符;
步骤205、根据词组间字符判断所述匹配子字符串的正则表达式生成模式为列模式还是非列模式,如果是列模式,则执行步骤206,如果是非列模式,则执行步骤207;
步骤206、将在步骤204中提取的词组用表示至少一个空白字符的连接正则表达式连接为子字符串正则表达式,执行步骤208;
步骤207、将在步骤204中提取的词组用表示至少一个非换行符的任意字符的连接正则表达式连接为子字符串正则表达式,执行步骤208;
步骤208、将得到的子字符串正则表达式加入正则表达式列表;
步骤209、判断是否还有未处理的匹配子字符串,如果有,则执行步骤204,如果没有,则执行步骤210;
步骤210、结束正则表达式生成。
7.如权利要求1所述的基于正则表达式的字符串匹配方法,其特征在于,所述步骤300包括:
步骤301、判断所述匹配类型标识为段模式还是行模式,如果为段模式,则执行步骤302,如果为行模式则执行步骤303;
步骤302、将待匹配数据按段分割为待匹配子字符串,执行步骤304;
步骤303、将待匹配数据按行分割为待匹配子字符串,执行步骤304;
步骤304、按顺序从所述正则表达式列表中读取一个未处理的子字符串正则表达式;
步骤305、用子字符串正则表达式与待匹配子字符串进行匹配;
步骤306、判断子字符串匹配是否成功,如果失败执行步骤307,如果成功执行步骤308;
步骤307、输出字符串匹配失败,结束匹配流程;
步骤308、判断是否还有未处理的子字符串正则表达式,如果有,则执行步骤304,如果没有,则执行步骤309;
步骤309、输出字符串匹配成功,结束匹配流程。
8.一种基于正则表达式的字符串匹配装置,包括:
解析模块,用于解析匹配字符串,根据预先设定的段模式分隔符以及字符串格式判断匹配字符串的匹配类型为段模式还是行模式,根据判断得到的匹配类型设置匹配类型标识;
正则表达式生成模块,用于根据匹配类型标识将匹配字符串按段分割或按行分割为多个子字符串,对每个子字符串确定正则表达式生成模式,并根据正则表达式生成模式以不同的连接式连接所述子字符串中以预定词组标记标识的词组生成子字符串正则表达式,获得包含至少一个子字符串正则表达式的正则表达式列表;
数据匹配模块,用于根据匹配类型标识对待匹配数据进行按段分割或按行分割获得待匹配子字符串,按子字符串正则表达式逐一地对分割得到的待匹配子字符串进行匹配,输出匹配结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210009272.9A CN102609459B (zh) | 2012-01-12 | 2012-01-12 | 基于正则表达式的字符串匹配方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210009272.9A CN102609459B (zh) | 2012-01-12 | 2012-01-12 | 基于正则表达式的字符串匹配方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102609459A true CN102609459A (zh) | 2012-07-25 |
CN102609459B CN102609459B (zh) | 2016-01-06 |
Family
ID=46526831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210009272.9A Active CN102609459B (zh) | 2012-01-12 | 2012-01-12 | 基于正则表达式的字符串匹配方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102609459B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617226A (zh) * | 2013-11-25 | 2014-03-05 | 华为技术有限公司 | 一种正则表达式匹配方法及装置 |
CN104238763A (zh) * | 2013-06-20 | 2014-12-24 | 腾讯科技(深圳)有限公司 | 输入框的信息输入控制方法及装置 |
CN104778171A (zh) * | 2014-01-10 | 2015-07-15 | 携程计算机技术(上海)有限公司 | 字符串匹配系统及方法 |
CN106294218A (zh) * | 2015-05-19 | 2017-01-04 | 腾讯科技(深圳)有限公司 | 一种终端应用的类型确定方法及装置 |
CN106326363A (zh) * | 2016-08-11 | 2017-01-11 | 海信集团有限公司 | 一种基于正则表达式的匹配方法及装置 |
CN106502207A (zh) * | 2016-09-21 | 2017-03-15 | 珠海格力智能装备有限公司 | 数据解析方法及装置 |
CN106919542A (zh) * | 2015-12-24 | 2017-07-04 | 北京国双科技有限公司 | 规则匹配方法及装置 |
CN108287855A (zh) * | 2017-01-10 | 2018-07-17 | 阿里巴巴集团控股有限公司 | 基于社工库的数据识别方法及装置、界面交互装置 |
CN110704298A (zh) * | 2019-08-23 | 2020-01-17 | 北京奇艺世纪科技有限公司 | 一种代码验证的方法、装置、终端设备及存储介质 |
CN111198953A (zh) * | 2018-11-16 | 2020-05-26 | 北京智慧正安科技有限公司 | 基于案件文本信息推荐类案的方法、系统及计算机可读存储介质 |
CN112115313A (zh) * | 2020-09-08 | 2020-12-22 | 北京百度网讯科技有限公司 | 正则表达式的生成、数据提取方法、装置、设备及介质 |
CN113609112A (zh) * | 2021-08-02 | 2021-11-05 | 北京值得买科技股份有限公司 | 一种电商商品属性数据规范化处理方法与系统 |
CN113641695A (zh) * | 2021-08-11 | 2021-11-12 | 杭州安恒信息技术股份有限公司 | 一种数据库语句的字符提取方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070112731A1 (en) * | 2005-11-08 | 2007-05-17 | International Business Machines Corporation | Method for retrieving constant values using regular expressions |
CN101154228A (zh) * | 2006-09-27 | 2008-04-02 | 西门子公司 | 一种分段模式匹配方法及其装置 |
CN101520770A (zh) * | 2008-02-29 | 2009-09-02 | 国际商业机器公司 | 分析、转换和拆分结构化数据的方法和装置 |
US20110153641A1 (en) * | 2009-12-21 | 2011-06-23 | At&T Intellectual Property I, L.P. | System and method for regular expression matching with multi-strings and intervals |
-
2012
- 2012-01-12 CN CN201210009272.9A patent/CN102609459B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070112731A1 (en) * | 2005-11-08 | 2007-05-17 | International Business Machines Corporation | Method for retrieving constant values using regular expressions |
CN101154228A (zh) * | 2006-09-27 | 2008-04-02 | 西门子公司 | 一种分段模式匹配方法及其装置 |
CN101520770A (zh) * | 2008-02-29 | 2009-09-02 | 国际商业机器公司 | 分析、转换和拆分结构化数据的方法和装置 |
US20110153641A1 (en) * | 2009-12-21 | 2011-06-23 | At&T Intellectual Property I, L.P. | System and method for regular expression matching with multi-strings and intervals |
Non-Patent Citations (1)
Title |
---|
李哲夫: "正则表达式在电信业务处理中的应用研究", 《中国优秀硕士学位论文全文数据库信息科技辑2009年》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104238763A (zh) * | 2013-06-20 | 2014-12-24 | 腾讯科技(深圳)有限公司 | 输入框的信息输入控制方法及装置 |
CN103617226A (zh) * | 2013-11-25 | 2014-03-05 | 华为技术有限公司 | 一种正则表达式匹配方法及装置 |
CN103617226B (zh) * | 2013-11-25 | 2017-06-20 | 华为技术有限公司 | 一种正则表达式匹配方法及装置 |
CN104778171A (zh) * | 2014-01-10 | 2015-07-15 | 携程计算机技术(上海)有限公司 | 字符串匹配系统及方法 |
CN106294218A (zh) * | 2015-05-19 | 2017-01-04 | 腾讯科技(深圳)有限公司 | 一种终端应用的类型确定方法及装置 |
CN106294218B (zh) * | 2015-05-19 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 一种终端应用的类型确定方法及装置 |
US10796077B2 (en) | 2015-12-24 | 2020-10-06 | Beijing Gridsum Technology Co., Ltd. | Rule matching method and device |
CN106919542B (zh) * | 2015-12-24 | 2020-04-21 | 北京国双科技有限公司 | 规则匹配方法及装置 |
CN106919542A (zh) * | 2015-12-24 | 2017-07-04 | 北京国双科技有限公司 | 规则匹配方法及装置 |
CN106326363B (zh) * | 2016-08-11 | 2019-09-17 | 海信集团有限公司 | 一种基于正则表达式的匹配方法及装置 |
CN106326363A (zh) * | 2016-08-11 | 2017-01-11 | 海信集团有限公司 | 一种基于正则表达式的匹配方法及装置 |
CN106502207B (zh) * | 2016-09-21 | 2019-01-01 | 珠海格力智能装备有限公司 | 数据解析方法及装置 |
CN106502207A (zh) * | 2016-09-21 | 2017-03-15 | 珠海格力智能装备有限公司 | 数据解析方法及装置 |
CN108287855A (zh) * | 2017-01-10 | 2018-07-17 | 阿里巴巴集团控股有限公司 | 基于社工库的数据识别方法及装置、界面交互装置 |
CN111198953A (zh) * | 2018-11-16 | 2020-05-26 | 北京智慧正安科技有限公司 | 基于案件文本信息推荐类案的方法、系统及计算机可读存储介质 |
CN111198953B (zh) * | 2018-11-16 | 2023-07-07 | 北京智慧正安科技有限公司 | 基于案件文本信息推荐类案的方法、系统及可读存储介质 |
CN110704298A (zh) * | 2019-08-23 | 2020-01-17 | 北京奇艺世纪科技有限公司 | 一种代码验证的方法、装置、终端设备及存储介质 |
CN112115313A (zh) * | 2020-09-08 | 2020-12-22 | 北京百度网讯科技有限公司 | 正则表达式的生成、数据提取方法、装置、设备及介质 |
CN112115313B (zh) * | 2020-09-08 | 2023-07-28 | 北京百度网讯科技有限公司 | 正则表达式的生成、数据提取方法、装置、设备及介质 |
CN113609112A (zh) * | 2021-08-02 | 2021-11-05 | 北京值得买科技股份有限公司 | 一种电商商品属性数据规范化处理方法与系统 |
CN113641695A (zh) * | 2021-08-11 | 2021-11-12 | 杭州安恒信息技术股份有限公司 | 一种数据库语句的字符提取方法、装置、设备及介质 |
CN113641695B (zh) * | 2021-08-11 | 2024-03-22 | 杭州安恒信息技术股份有限公司 | 一种数据库语句的字符提取方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102609459B (zh) | 2016-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102609459A (zh) | 基于正则表达式的字符串匹配方法和装置 | |
CN105426539B (zh) | 一种基于词典的lucene中文分词方法 | |
CN105956180B (zh) | 一种敏感词过滤方法 | |
RU2251737C2 (ru) | Способ автоматического определения языка распознаваемого текста при многоязычном распознавании | |
RU2309456C2 (ru) | Способ распознавания текстовой информации из векторно-растрового изображения | |
KR101909094B1 (ko) | 관계 추출 학습 데이터 생성 방법 | |
CN102637180B (zh) | 基于正则表达式的文字后处理方法和装置 | |
CN103688489A (zh) | 一种策略处理的方法及网络设备 | |
CN104504151B (zh) | 微信舆情监测系统 | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN106033462A (zh) | 一种新词发现方法及系统 | |
CN105574173A (zh) | 基于语音识别的商品搜索方法及商品搜索装置 | |
Ljubešić et al. | Standardizing tweets with character-level machine translation | |
CN105718795B (zh) | Linux下基于特征码的恶意代码取证方法及系统 | |
US8484229B2 (en) | Method and system for identifying traditional arabic poems | |
CN102467501B (zh) | 一种从新闻列表页抽取新闻记录元数据的方法及系统 | |
US8880391B2 (en) | Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program | |
Andrusyak et al. | Detection of Abusive Speech for Mixed Sociolects of Russian and Ukrainian Languages. | |
US20150286628A1 (en) | Information extraction system, information extraction method, and information extraction program | |
JP6856527B2 (ja) | メッセージ分析装置、メッセージ分析方法、および、メッセージ分析プログラム | |
US10673795B2 (en) | Methods and arrangements for content filtering | |
CN107871078A (zh) | 非结构化文本中提取漏洞信息的方法 | |
Horsmann et al. | LTL-UDE@ EmpiriST 2015: tokenization and PoS tagging of social media text | |
KR20030039575A (ko) | 문서 요약 방법 및 시스템 | |
CN117520148A (zh) | 基于大型语言模型的测试用例生成系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C53 | Correction of patent of invention or patent application | ||
CB03 | Change of inventor or designer information |
Inventor after: Liu Lei Inventor after: Xiang Yangchao Inventor before: Liu Lei |
|
COR | Change of bibliographic data |
Free format text: CORRECT: INVENTOR; FROM: LIU LEI TO: LIU LEI XIANG YANGCHAO |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |