CN106067039A - 基于决策树剪枝的模式匹配方法 - Google Patents

基于决策树剪枝的模式匹配方法 Download PDF

Info

Publication number
CN106067039A
CN106067039A CN201610367542.1A CN201610367542A CN106067039A CN 106067039 A CN106067039 A CN 106067039A CN 201610367542 A CN201610367542 A CN 201610367542A CN 106067039 A CN106067039 A CN 106067039A
Authority
CN
China
Prior art keywords
node
automat
suffix
output
beta pruning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610367542.1A
Other languages
English (en)
Other versions
CN106067039B (zh
Inventor
古天龙
王亚南
徐周波
常亮
陈帅
王敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201610367542.1A priority Critical patent/CN106067039B/zh
Publication of CN106067039A publication Critical patent/CN106067039A/zh
Application granted granted Critical
Publication of CN106067039B publication Critical patent/CN106067039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种基于决策树剪枝的模式匹配方法,其结合决策树剪枝方法的简化AC算法,包括自动机的生成、自动机的简化、计算失败指针、存储后缀表与匹配的执行等步骤。本发明将传统自动机类型模式匹配算法拆分为两个步骤:匹配可能的判定与匹配确认。通过简化自动机判别文本串与模式集中模式串有无匹配的可能,再进行匹配的确认。在保证速度的前提下,本发明提出的简化方法相比传统自动机类型模式匹配算法内存消耗减少35%‑40%。此外,本发明通过决策树剪枝方法可有效减小自动机规模,删除对分类判定无用的节点,有效降低传统自动机类型模式匹配的内存消耗。

Description

基于决策树剪枝的模式匹配方法
技术领域
本发明涉及信息安全技术领域,具体涉及一种基于决策树剪枝(Decision TreePruning)的模式匹配方法。
背景技术
模式匹配算法广泛应用于入侵检测、信息检索、模式识别、基因匹配等众多领域。性能稳定的模式匹配算法是网络入侵检测系统的“倍增器”。基于自动机的模式匹配算法具备性能稳定的特点,其中以AC算法为代表。由于AC算法拥有线性最差时间复杂度,柔性高,可容忍短模式,可抵抗复杂度攻击,因此是目前首选的在线匹配算法之一。
然而,随着对模式匹配性能需求的增加,基于自动机类的模式匹配算法成为高性能模式匹配体系结构设计的基础。但此类算法生成的DFSA规模较大,特别对于大规模模式集(10万以上模式集)生成自动机的规模需要大量的内存存储,这大大阻碍了自动机类匹配算法的应用。
发明内容
本发明所要解决的技术问题是针对现有基于自动机的模式匹配算法需要大量的内存存储的问题,提供一种基于决策树剪枝的模式匹配方法。
为解决上述问题,本发明是通过以下技术方案实现的:
基于决策树剪枝的模式匹配方法,包括如下步骤:
步骤A.即根据自动机生成规则,将模式集中的模式串依次添加到自动机中;
步骤B.在自动机生成过程中,每一个模式串添加完成,即将此模式串添加到当前节点的输出表中;
步骤C.对生成的自动机进行剪枝,去除对分类来说属于非必要的节点,减少自动机节点数量,简化自动机;在对自动机进行剪枝的过程中,生成后缀表;
步骤D.计算自动机各节点的状态深度,其中节点的状态深度为该节点距根节点的最短路径长度;
步骤E.根据节点状态深度,计算出各节点的失败指针;
步骤F.依次取出文本串中字符输入自动机,完成模式匹配。
上述步骤C的过程具体为:
步骤C1.对自动机的各个分支进行逐个遍历;
步骤C2.当从根节点遍历至终端叶子节点的过程中,仅存在终端叶子节点这一个输出节点,即输出节点为1个时,则从终端叶子节点开始向上回溯至最后一个单分枝节点,将该单分枝节点的剪枝标志位置为1,修剪掉该单分枝节点之后的枝叶,并将该单分枝节点的后续枝叶包含的后缀以字符串的形式存储于后缀表;
步骤C3.当从根节点遍历至终端叶子节点的过程中,存在除终端叶子节点这一个输出节点之外的其他输出节点,即输出节点为2个以上时,则从终端叶子节点开始向上回溯至倒数第二个输出节点,将该倒数第二个输出节点的剪枝标志位置为1,修剪掉该倒数第二个输出节点之后的枝叶,并将该倒数第二个输出节点的后续枝叶包含的后缀以字符串的形式存储于后缀表。
上述步骤E的过程具体为:
步骤E1.将自动机的根节点的失败指针(失败指针为节点匹配失败后的跳转方向指针)指向根节点;
步骤E2.将自动机中状态深度为1的节点的失败指针也指向根节点;
步骤E3.对于自动机中状态深度大于或等于2的节点s,若其父节点r经过字符a能够到达节点s即Goto(r,a)=s,则先将节点s的当前状态指向父节点r的失败状态,直至节点s的当前状态经过字符a存在下一跳节点t时,将节点s的失败指针指向节点t。
上述步骤F的过程具体为:
步骤F1.在执行阶段搜索过程中,自根节点开始,依次取出文本串中的字符,根据转移表Goto和失败表Fail确定下一状态节点。
步骤F2.检查状态节点输出标志位q.danger:
如节点输出标志位q.danger=1,则输出栈中字符串;
如节点输出标志位q.danger=0,则不进行输出。
步骤F3.继续检查节点剪枝标志位q.suffix。
如标志位q.suffix=1,则转向后缀存储位置指针q.suffix.pointer指针指向的后缀继续进行匹配判定,完成完整的字符串判定:如成功则输出栈中字符串和对应后缀作为完整的规则,并返回相应的叶子节点q;如不成功则应直接返回至相应的叶子节点q,再根据失败函数进行跳转,继续搜索。
如节点剪枝标志位q.suffix=0,则继续根据转移表Goto与失败表Fail来确定下一状态节点。
本发明提出一种结合决策树剪枝(Pruning)方法的简化AC(Aho-Corasick)算法,包括自动机的生成、自动机的简化、计算失败指针、存储后缀表与匹配的执行。本发明通过决策树剪枝方法可有效减小自动机规模,删除对分类判定无用的节点,有效降低传统自动机类型模式匹配的内存消耗。本发明在具体实现时,将传统自动机类型模式匹配算法拆分为两个步骤:匹配可能的判定与匹配确认。通过简化自动机判别文本串与模式集中模式串有无匹配的可能,再进行匹配的确认。在保证速度的前提下,本发明提出的简化方法相比传统自动机类型模式匹配算法内存消耗减少35%-40%。
与现有技术相比,本发明具有如下特点:
1.本发明是基于决策树剪枝的AC改进算法,通过应用决策树剪枝方法可有效降低基于DFSA的AC算法的自动机规模,去除对锁定模式集中模式串无用的节点,减少节点数量;
2.本发明在简化自动机规模,去除冗余节点的同时,达到降低AC算法内存消耗的目的,这一方法可应用到绝大多数自动机类型的模式匹配算法中,改善自动机类型模式匹配算法的空间复杂度;
3.本发明虽然引入了决策树剪枝方法,但传统AC算法的很多实现方法只需稍加修正依然适用,并不需要添加过多额外的计算,且实验表明在匹配速度与原AC算法基本持平的前提下,实现了内存空间节省35%-40%。
附图说明
图1为简化前的自动机;
图2为简化后的自动机;
图3为简化前节点的状态深度;
图4为简化后节点的状态深度;
图5为简化前节点的失败指针;
图6为简化后节点的失败指针。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,结合附图及实施例,对本发明做进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一种基于决策树剪枝的模式匹配方法,具体步骤为:
本实施例输入的文本串为T,模式集K{his,the,there,who},其中T为由任意字符组成的文本串,K中Ki为模式串。
阶段I:生成自动机。
步骤1,根据AC算法的自动机的生成规则,即Goto函数,将模式集中的模式串依次添加到自动机中,生成如图1所示的自动机。同时,自动机生成过程中,每一个模式串添加完成,即将此模式串添加到当前节点的输出表中。
自动机生成的具体步骤为:
步骤1-1.若模式集中模式串的个数n≤0,返回错误;当前模式串i=0。
步骤1-2.若当前模式串i≤模式集中模式串的个数n;取模式串pi,令s=0(s为当前状态指针);否则生成结束。
步骤1-3.取出模式串pi的下一个字符c;若字符c,存在则s=Goto(s,c),否则跳转步骤1-2。
步骤1-4.若当前状态s≠-1(-1代表状态为空),跳转至步骤1-3。
步骤1-5.Goto(s,c)=newstate(newstate为生成新状态),跳转至步骤1-3。
输出表的具体步骤为:
步骤1-6.计算Goto函数时,当一个模式串完成加入自动机操作后,应将该模式串加入到最后一个状态的输出表中。
步骤1-7.计算Fail函数(Fail函数为失败跳转函数)时,当r=Fail(s)时,将r的输出表中所包含的模式串添加到状态s的输出表中。
步骤2,根据下述规则简化自动机,简化后的自动机如附图2所示。
规则一:在逐个分支遍历的过程中,如遍历至终端叶子节点z,则向上回溯至最后一个单分枝节点a,将此节点标志位suffix(suffix为节点剪枝标志位)置1,并剪除节点a之后的枝叶,将a节点后续枝叶包含的后缀以字符串的形式存储于后缀表。
规则二:如从根节点遍历至终端叶子节点的过程中不止存在一个输出节点,如整个分支在向上回溯的过程中自底向上分别对应1,2...m,共m个输出节点,则只可修剪掉输出节点2之后的枝叶,此时输出节点2标志位suffix置1,并剪除输出节点2之后的枝叶,将输出节点2后续枝叶包含的后缀以字符串的形式存储于后缀表。
步骤2-1,从根节点开始逐位遍历经节点1、2至终端叶子节点3,向上回溯至最后一个单分支节点1,将节点1的剪枝标志位suffix置1,因节点1是非输出节点,故节点输出标志位danger(danger为节点输出标志位)置0,并将其后的枝叶包含的后缀is,以字符串的形式存储于后缀表。
步骤2-2,继续遍历,经节点4、5、6、7至终端叶子节点8,向上回溯至节点6,因节点6为输出,将节点6的剪枝标志位suffix置1,因节点6是输出节点,故节点输出标志位danger置1,并将其后的枝叶包含的后缀re,以字符串的形式存储于后缀表。
步骤2-3,继续遍历,经9、1根节点至终端叶子节点11,向上回溯至最后一个单分支节点9,将节点9的剪枝标志位suffix置1,因节点9为非输出节点,故节点输出标志位danger置0,并将其后的枝叶包含的后缀ho,以字符串的形式存储于后缀表;剪枝完成。
步骤3,上述简化过程中修剪掉的枝叶中所包含的后缀以字符串的形式存储于后缀表。表1所示为通过简化规则生成的后缀表。
表1
节点 1 6 9
后缀 is re ho
步骤4,计算自动机的状态深度。由于本发明对自动机进行了修剪,因此,只需计算修剪后剩余的每个节点的状态深度。图3为简化前节点的状态深度;图4为简化后节点的状态深度。
步骤4-1.根节点的状态深度为0。
步骤4-2.若节点a状态深度为d,那么其左子节点状态深度为d+1,右子节点状态深度为d。
步骤5,计算自动机的失败指针。图5为简化前节点的失败指针;图6为简化后节点的失败指针。
步骤5-1.根节点失败指针指向根节点。
步骤5-2.深度为1的节点,其失败指针也指向根节点。
步骤5-3.深度大于或等于2的节点s,若其父节点r经过字符a能够到达节点s即Goto(r,a)=s,则先将节点s的当前状态指向父节点r的失败状态,直至节点s的当前状态经过字符a存在下一跳节点t时,将节点s的失败指针指向节点t。
阶段II:执行匹配。
步骤6,执行阶段在搜索过程中,自根节点开始,依次取出文本串中的字符,确定下一状态节点。
步骤7,检查状态节点标志位q.danger是否为真:如为真,则输出栈中字符串;如为假,则不进行输出。
步骤8,检查q.suffix是否为真。
步骤8-1.如果为真,则转向后缀存储位置指针q.suffix.pointer指针指向的后缀继续比对,完成完整的字符串比对:如成功则输出栈中字符串和对应后缀作为完整的规则,并返回相应的叶子节点q;如不成功则应直接返回至相应的叶子节点q,再根据failstate跳转,继续搜索。
步骤8-2.如q.suffix为假则继续根据Goto函数与失败指针来确定下一状态节点。
本发明基于决策树剪枝的AC改进算法,包括自动机的生成、自动机的简化、计算失败指针、存储后缀表与匹配的执行。本发明在具体实现时,将传统自动机类型模式匹配算法拆分为两个步骤:匹配可能的判定与匹配确认。通过简化自动机判别文本串与模式集中模式串有无匹配的可能,再进行匹配的确认。在保持原有的匹配速度的前提下,有效减少自动机节点数量,去除自动机中冗余节点,达到简化自动机规模,降低模式匹配算法的内存消耗的目的。本发明可以针对绝大多数自动机类型的匹配算法进行简化。

Claims (4)

1.基于决策树剪枝的模式匹配方法,其特征是,包括如下步骤:
步骤A.即根据自动机生成规则,将模式集中的模式串依次添加到自动机中;
步骤B.在自动机生成过程中,每一个模式串添加完成,即将此模式串添加到当前节点的输出表中;
步骤C.对生成的自动机进行剪枝,去除对分类来说属于非必要的节点,减少自动机节点数量,简化自动机;在对自动机进行剪枝的过程中,生成后缀表;
步骤D.计算自动机各节点的状态深度,其中节点的状态深度为该节点距根节点的最短路径长度;
步骤E.根据节点状态深度,计算出各节点的失败指针;
步骤F.依次取出文本串中字符输入自动机,完成模式匹配。
2.根据权利要求1所述的基于决策树剪枝的模式匹配方法,其特征是,步骤C的过程具体为:
步骤C1.对自动机的各个分支进行逐个遍历;
步骤C2.当从根节点遍历至终端叶子节点的过程中,仅存在终端叶子节点这一个输出节点,即输出节点为1个时,则从终端叶子节点开始向上回溯至最后一个单分枝节点,将该单分枝节点的剪枝标志位置为1,修剪掉该单分枝节点之后的枝叶,并将该单分枝节点的后续枝叶包含的后缀以字符串的形式存储于后缀表;
步骤C3.当从根节点遍历至终端叶子节点的过程中,存在除终端叶子节点这一个输出节点之外的其他输出节点,即输出节点为2个以上时,则从终端叶子节点开始向上回溯至倒数第二个输出节点,将该倒数第二个输出节点的剪枝标志位置为1,修剪掉该倒数第二个输出节点之后的枝叶,并将该倒数第二个输出节点的后续枝叶包含的后缀以字符串的形式存储于后缀表。
3.根据权利要求1所述的基于决策树剪枝的模式匹配方法,其特征是,步骤E的过程具体为:
步骤E1.将自动机的根节点的失败指针指向根节点;
步骤E2.将自动机中状态深度为1的节点的失败指针也指向根节点;
步骤E3.对于自动机中状态深度大于或等于2的节点s,若其父节点r经过字符a能够到达节点s即Goto(r,a)=s,则先将节点s的当前状态指向父节点r的失败状态,直至节点s的当前状态经过字符a存在下一跳节点t时,将节点s的失败指针指向节点t。
4.根据权利要求1所述的基于决策树剪枝的模式匹配方法,其特征是,步骤F的过程具体为:
步骤F1.在执行阶段搜索过程中,自根节点开始,依次取出文本串中的字符,根据预先生成的转移表和失败表确定下一节点;
步骤F2.检查当前节点q的输出标志位q.danger:
如输出标志位q.danger=1,则输出栈中字符串;
如输出标志位q.danger=0,则不进行输出;
步骤F3.继续检查当前节点q的剪枝标志位q.suffix;
如剪枝标志位q.suffix=1,则转向节点q的后缀存储位置指针q.suffix.pointer指向的后缀继续进行匹配判定,完成完整的字符串判定:如成功则输出栈中字符串和对应后缀作为完整的规则,并返回相应的节点q;如不成功则应直接返回至相应的节点q,再根据预先生成的函数进行跳转,继续搜索;
如剪枝标志位q.suffix=0,则继续根据转移表与失败表来确定下一状态节点。
CN201610367542.1A 2016-05-30 2016-05-30 基于决策树剪枝的模式匹配方法 Active CN106067039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610367542.1A CN106067039B (zh) 2016-05-30 2016-05-30 基于决策树剪枝的模式匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610367542.1A CN106067039B (zh) 2016-05-30 2016-05-30 基于决策树剪枝的模式匹配方法

Publications (2)

Publication Number Publication Date
CN106067039A true CN106067039A (zh) 2016-11-02
CN106067039B CN106067039B (zh) 2019-01-29

Family

ID=57421411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610367542.1A Active CN106067039B (zh) 2016-05-30 2016-05-30 基于决策树剪枝的模式匹配方法

Country Status (1)

Country Link
CN (1) CN106067039B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106953801A (zh) * 2017-01-24 2017-07-14 上海交通大学 基于层级结构学习自动机的随机最短路径实现方法
CN107679686A (zh) * 2017-08-28 2018-02-09 阿里巴巴集团控股有限公司 一种业务执行方法及装置
CN108711074A (zh) * 2018-05-21 2018-10-26 阿里巴巴集团控股有限公司 业务分类方法、装置、服务器及可读存储介质
CN111046938A (zh) * 2019-12-06 2020-04-21 邑客得(上海)信息技术有限公司 基于字符串多模式匹配的网络流量分类识别方法和设备
CN111382323A (zh) * 2018-12-29 2020-07-07 贵州白山云科技股份有限公司 一种数据检索优化方法、装置和计算机设备
CN111782613A (zh) * 2020-06-23 2020-10-16 南昌航空大学 一种优化模型集成平台运行效率的方法
CN112348829A (zh) * 2020-11-02 2021-02-09 东华理工大学 基于模态点演化的地面LiDAR点云枝叶分离方法
CN113010882A (zh) * 2021-03-18 2021-06-22 哈尔滨工业大学 一种适用于缓存丢失攻击的自定义位置顺序模式匹配算法
CN113806371A (zh) * 2021-09-27 2021-12-17 重庆紫光华山智安科技有限公司 数据类型确定方法、装置、计算机设备及存储介质
WO2023028997A1 (en) * 2021-09-03 2023-03-09 Paypal, Inc. Exhaustive learning techniques for machine learning algorithms

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133523A1 (en) * 2004-07-26 2008-06-05 Sourcefire, Inc. Methods and systems for multi-pattern searching
CN101286988A (zh) * 2008-04-18 2008-10-15 北京启明星辰信息技术股份有限公司 一种并行多模式匹配的方法及系统
CN101442540A (zh) * 2008-12-30 2009-05-27 北京畅讯信通科技有限公司 基于现场可编程门阵列的高速模式匹配算法
CN101677318A (zh) * 2008-09-18 2010-03-24 北京启明星辰信息技术股份有限公司 匹配规则包含次数指示符的并行多模式匹配的方法及系统
CN102254034A (zh) * 2011-08-08 2011-11-23 浙江鸿程计算机系统有限公司 一种基于bide的olap查询日志挖掘及推荐方法
CN102867036A (zh) * 2012-08-29 2013-01-09 北京工业大学 实现Aho-Corasick算法所用数据结构动态生成的改进方法
CN103023883A (zh) * 2012-11-26 2013-04-03 清华大学 基于ac自动机和后缀树的字符串匹配方法
WO2015097428A1 (en) * 2013-12-23 2015-07-02 British Telecommunications Public Limited Company Improved pattern matching machine with mapping table

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133523A1 (en) * 2004-07-26 2008-06-05 Sourcefire, Inc. Methods and systems for multi-pattern searching
CN101286988A (zh) * 2008-04-18 2008-10-15 北京启明星辰信息技术股份有限公司 一种并行多模式匹配的方法及系统
CN101677318A (zh) * 2008-09-18 2010-03-24 北京启明星辰信息技术股份有限公司 匹配规则包含次数指示符的并行多模式匹配的方法及系统
CN101442540A (zh) * 2008-12-30 2009-05-27 北京畅讯信通科技有限公司 基于现场可编程门阵列的高速模式匹配算法
CN102254034A (zh) * 2011-08-08 2011-11-23 浙江鸿程计算机系统有限公司 一种基于bide的olap查询日志挖掘及推荐方法
CN102867036A (zh) * 2012-08-29 2013-01-09 北京工业大学 实现Aho-Corasick算法所用数据结构动态生成的改进方法
CN103023883A (zh) * 2012-11-26 2013-04-03 清华大学 基于ac自动机和后缀树的字符串匹配方法
WO2015097428A1 (en) * 2013-12-23 2015-07-02 British Telecommunications Public Limited Company Improved pattern matching machine with mapping table

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALFRED V. AHO 等: "Efficient String Matching: An Aid to Bibliographic Search", 《COMMUNICATIONS OF THE ACM》 *
QIU WEIDONG 等: "Bit Stream Oriented Enumeration Tree Pruning Algorithm", 《JOURNAL OF SHANGHAI JIAOTONG UNIVERSITY(SCIENCE)》 *
胡佩华 等: "基于有序二叉树的多模式匹配算法", 《计算机科学》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106953801A (zh) * 2017-01-24 2017-07-14 上海交通大学 基于层级结构学习自动机的随机最短路径实现方法
CN107679686A (zh) * 2017-08-28 2018-02-09 阿里巴巴集团控股有限公司 一种业务执行方法及装置
CN107679686B (zh) * 2017-08-28 2024-03-29 创新先进技术有限公司 一种业务执行方法及装置
CN108711074B (zh) * 2018-05-21 2021-08-24 创新先进技术有限公司 业务分类方法、装置、服务器及可读存储介质
CN108711074A (zh) * 2018-05-21 2018-10-26 阿里巴巴集团控股有限公司 业务分类方法、装置、服务器及可读存储介质
CN111382323A (zh) * 2018-12-29 2020-07-07 贵州白山云科技股份有限公司 一种数据检索优化方法、装置和计算机设备
CN111382323B (zh) * 2018-12-29 2023-08-11 贵州白山云科技股份有限公司 一种数据检索优化方法、装置和计算机设备
CN111046938A (zh) * 2019-12-06 2020-04-21 邑客得(上海)信息技术有限公司 基于字符串多模式匹配的网络流量分类识别方法和设备
CN111782613A (zh) * 2020-06-23 2020-10-16 南昌航空大学 一种优化模型集成平台运行效率的方法
CN111782613B (zh) * 2020-06-23 2023-06-02 南昌航空大学 一种优化模型集成平台运行效率的方法
CN112348829A (zh) * 2020-11-02 2021-02-09 东华理工大学 基于模态点演化的地面LiDAR点云枝叶分离方法
CN112348829B (zh) * 2020-11-02 2022-06-28 东华理工大学 基于模态点演化的地面LiDAR点云枝叶分离方法
CN113010882A (zh) * 2021-03-18 2021-06-22 哈尔滨工业大学 一种适用于缓存丢失攻击的自定义位置顺序模式匹配算法
WO2023028997A1 (en) * 2021-09-03 2023-03-09 Paypal, Inc. Exhaustive learning techniques for machine learning algorithms
CN113806371A (zh) * 2021-09-27 2021-12-17 重庆紫光华山智安科技有限公司 数据类型确定方法、装置、计算机设备及存储介质
CN113806371B (zh) * 2021-09-27 2024-01-19 重庆紫光华山智安科技有限公司 数据类型确定方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN106067039B (zh) 2019-01-29

Similar Documents

Publication Publication Date Title
CN106067039A (zh) 基于决策树剪枝的模式匹配方法
EP3846048A1 (en) Online log analysis method, system, and electronic terminal device thereof
CN101464905B (zh) 一种网页信息抽取的系统及方法
Lerman et al. Automatic data extraction from lists and tables in web sources
CN102867040B (zh) 一种面向中文搜索引擎混杂语言的查询纠错方法及系统
CN105608218A (zh) 智能问答知识库的建立方法、建立装置及建立系统
CN103198149B (zh) 一种查询纠错方法和系统
Talukdar et al. A context pattern induction method for named entity extraction
CN107797998A (zh) 含谣言用户生成内容识别方法和装置
CN107291783A (zh) 一种语义匹配方法及智能设备
CN101425084A (zh) 基于有序二叉树的模式匹配方法
CN110362824A (zh) 一种自动纠错的方法、装置、终端设备及存储介质
CN103425757A (zh) 融合多模态信息的跨媒体人物新闻检索方法与系统
CN108664237A (zh) 一种基于启发式和神经网络的非api成员推荐方法
CN107436955A (zh) 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置
CN102870116A (zh) 内容匹配方法和装置
CN114153980A (zh) 知识图谱构建方法和装置、检查方法、存储介质
Perot et al. Lmdx: Language model-based document information extraction and localization
CN117763363A (zh) 基于知识图谱与提示学习的跨网络学术社区资源推荐方法
CN110765781A (zh) 一种领域术语语义知识库人机协同构建方法
Kacupaj et al. Contrastive representation learning for conversational question answering over knowledge graphs
Pan et al. Boundary-aware backward-compatible representation via adversarial learning in image retrieval
CN117763077A (zh) 数据查询方法及装置
CN106295252A (zh) 用于基因产品的检索方法
Liu et al. CLIP-based Synergistic Knowledge Transfer for Text-based Person Retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant