CN106713273B - 一种基于字典树剪枝搜索的协议关键字识别方法 - Google Patents

一种基于字典树剪枝搜索的协议关键字识别方法 Download PDF

Info

Publication number
CN106713273B
CN106713273B CN201611051833.6A CN201611051833A CN106713273B CN 106713273 B CN106713273 B CN 106713273B CN 201611051833 A CN201611051833 A CN 201611051833A CN 106713273 B CN106713273 B CN 106713273B
Authority
CN
China
Prior art keywords
node
dictionary tree
depth
character
count
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611051833.6A
Other languages
English (en)
Other versions
CN106713273A (zh
Inventor
衣龙腾
齐维孔
周钠
李明
刘晓晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Space Technology CAST
Original Assignee
China Academy of Space Technology CAST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Space Technology CAST filed Critical China Academy of Space Technology CAST
Priority to CN201611051833.6A priority Critical patent/CN106713273B/zh
Publication of CN106713273A publication Critical patent/CN106713273A/zh
Application granted granted Critical
Publication of CN106713273B publication Critical patent/CN106713273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/02Protocol performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/06Notations for structuring of protocol data, e.g. abstract syntax notation one [ASN.1]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/12Protocol engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于字典树剪枝搜索的协议关键字识别方法,首先获取需要识别的数据流,将数据流中数据存入循环队列buffer,对buffer中字符串记进行扫描,生成字典树中分支,在每次字典树中分支生成过程中,当满足剪枝条件时计算各个节点的剪枝阈值进行字典树剪枝,最后获取精炼比例PurifyRate,根据精炼比例PurifyRate得到关键字,完成关键字识别。本发明方法通过引入字典树剪枝算法,解决了使用传统字典树算法进行协议关键字识别时使用的存储空间过大的缺陷,具有提高了计算机的空间利用效率的优点,具有较好的使用价值。

Description

一种基于字典树剪枝搜索的协议关键字识别方法
技术领域
本发明涉及一种关键字识别技术,特别是一种基于字典树剪枝搜索的协议关键字识别方法。
背景技术
协议逆向工程是指在不依赖于协议描述的情况下,通过对协议实体的网络输入输出、系统行为和指令执行流程等信息进行监控和分析,提取协议语法、语义和工作流程。协议逆向分为格式逆向和状态机逆向两大类。在格式逆向中,对协议中关键字的识别和提取是一项基本而重要的工作。协议的关键字是指在协议传输单元,即报文中,由协议规范所规定的对通信的控制起关键作用的信息,一般会频繁地出现在通信数据流中,现有的对协议关键字进行识别的方法主要有以下几种:
(1)基于多序列比对的协议关键字识别
在协议格式逆向的工作中,Beddoe首先将生物信息学中的多序列比对(MultipleSequence Alignment,MSA)算法引入到工程中,并尝试获得报文的结构信息。在生物信息学中,通过对多个DNA序列进行比对,可以发现某序列片段的功能、结构和进化信息。具体地说,多序列比对针对给定的多个字符串,通过对每个字符串分别添加、删除字母或加入空格,使它们具有最大的相似性。与此类似,通过比对相同格式的不同报文实例,可以识别报文中的不变字段与可变字段,从而初步获得报文结构信息。Beddoe等人利用构造系统树的启发式方法引导多序列比对的执行,有效地降低了算法的时间复杂度,提高了执行的效率。该方法的主要缺点在于,该方法对于紧凑、简单的报文识别效果较好,对于复杂、冗余字段较多的报文,其效率和准确度较低。
(2)基于报文内容变化分布特征的协议关键字识别
Trifilo等人提出了基于报文内容变化分布特征的报文格式挖掘方案。具体来说,首先以字节为单位获得每次会话过程中,每个字节在多个报文中取值的频率分布。然后以字节为单位获得多次会话过程中,每个字节的频率分布。根据频率分布推断出哪几个字节属于关键字或固定字段,哪几个字节属于参数字段。然而,这种方法存在两点不足:第一,有的字段宽度是变化的,如果在某个位置出现“错位”的情况,则后面的统计信息是没有意义的;第二,判断字段变化范围的阈值是经验值,缺乏客观性。
(3)基于字典树的协议特征字挖掘
字典树又称单词查找树、Trie树,是一种树形结构,也是一种哈希树的变种。它常常被应用于统计,排序和保存大量的字符串,其查找效率优于哈希树,所以经常被搜索引擎系统用于文本词频统计。字典树的根节点不包含字符,除根节点外每一个节点都只包含一个字符,从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串,每个节点的所有子节点包含的字符都不相同。
对数据流进行协议特征字挖掘时,传统的方法是设定一个固定大小的滑动窗口,将数据流开头的单词作为字典树的第一个单词,然后将窗口依次向后移动直到数据的结尾,将数据中出现的可能的单词全部存储在字典树中。在字典树建立好后,再次扫描整个数据,统计字典树中的所有单词出现的频率,将出现频率相对大的单词,即协议特征字作为可能的关键字,在接下来的分析过程中将这些协议特征字作为分析目标,最终挖掘出真正的协议关键字。采用传统的字典树对协议关键字进行挖掘存在两个重要的缺陷。
(1)存储空间占用过大:对于常见的二进制通信数据流,若采用长度为n的滑动窗口进行协议特征字挖掘,可能的单词组合最多有2的n次方种。随着协议特征字长度的增加,用于存储字典树的空间呈指数增加。在滑动窗口的大小n较大时,计算机的存储空间无法完整地存储整棵字典树。
(2)协议特征字长度固定:由于滑动窗口的大小是固定的,因此挖掘出的协议特征字的长度显然也是固定的。而对于实际的通信协议来说,协议关键字的长度往往是不可知的,有时甚至是不固定的。这种情况造成通过传统的字典树所挖掘出的协议特征字仅仅是真正的协议关键字的一部分,进而影响分析的准确性。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提供了一种基于字典树剪枝搜索的协议关键字识别方法,解决了现有的采用传统字典树对协议关键字进行挖掘带来的存储空间占用过大、协议特征字长度固定影响分析准确性的问题,提高协议关键字识别的效率和适用性。
本发明的技术解决方案是:一种基于字典树剪枝搜索的协议关键字识别方法,包括如下步骤:
(1)获取需要进行协议关键字识别的数据流,建立长度为24的循环队列buffer,将迭代器index定位在数据流第1位,建立变量DataCount记录扫描过的数据流长度,建立变量NodeNum记录字典树中节点数量,建立字典树root其中,DataCount的初值为0,NodeNum的初值为0;
(2)将以index为起点的数据流中的24位数据存入循环队列buffer,将buffer中存放的数据字符串记为A(a1a2...a24),从a1开始扫描字符串,将当前扫描的字符记为ai,若字典树root中某个节点存放的字符与ai相同,则将当前节点的计数值count加1,并将该字符赋值给当前节点,然后继续扫描字符串A(a1a2...a24),若字典树root中任何节点对应的字符都与ai不同,i=1,2,3…24,则将aiai+1…a24中的字符分别作为24-i+1个节点,并连接在字符为ai-1的节点上,包括字符aj的节点的深度depth为j、计数值count为1,NodeNum=NodeNum+(24-i+1),j=i,i+1,…24,其中,存储字符为a0的节点为根节点;
(3)index=index+1,DataCount=DataCount+1;
(4)判断变量NodeNum、DataCount,如果NodeNum>MaxNodeNum或者DataCount%CycleTime=0,则转入步骤(5),否则转入步骤(2),直至DataCount+24等于数据流长度,转入步骤(7);其中,符号%代表求模运算;
(7)计算得到深度为depth的节点的剪枝阈值MinCountList[depth]=DataCount/(2^depth)*10;
(8)从字典树的根节点开始遍历字典树,将当前遍历到的节点temp的深度记为deptht、计数值记为countt,如果countt小于MinCountList[deptht],则将temp节点、temp节点的所有子节点从字典树中删除,否则继续遍历字典树直至遍历完毕,并转入步骤(2);
(7)用字符串列表StrList记录协议关键字,获取精炼比例PurifyRate,从根节点开始遍历字典树,将当前遍历到节点记为temp,节点temp的深度记为deptht、计数值记为countt,节点temp的直接父节点记为parent,节点parent深度记为depthp、计数值记为countp,若countt/countp<PurifyRate,则将根节点到节点parent的分支上的所有节点记录的字符组成字符串,加入到StrList中,完成关键字识别。
所述的检测周期CycleTime为数据流长度的二十分之一到十分之一。
所述的MaxNodeNum的取值为1000000。
所述的精炼比例PurifyRate取值为一个大于0小于1的实数。
本发明与现有技术相比的优点在于:
(1)本发明通过引入字典树剪枝算法,解决了使用传统字典树算法进行协议关键字识别时使用的存储空间过大的缺陷,具有提高了计算机的空间利用效率的优点;
(2)本发明通过使用边建树边剪枝策略,解决了使用传统字典树算法进行协议关键字识别时搜索速度偏慢的缺陷,将不相关的模式串从字典树中剔除出去,具有使后序的统计和分析工作的效率显著提高的优点。
(3)本发明通过使用“关键字提炼”策略,解决了从字典树中提取候选协议关键字的问题,具有较好的使用价值。
附图说明
图1为本发明一种基于字典树剪枝搜索的协议关键字识别方法原理流程图;
图2为本发明方法中字符串加入字典树原理示意图;
图3为本发明方法中剪枝过程原理示意图;
图4为本发明方法中协议关键字提取原理示意图。
具体实施方式
本发明针对现有技术的不足,提供了一种基于字典树剪枝搜索的协议关键字识别方法,解决了现有的采用传统字典树对协议关键字进行挖掘带来的存储空间占用过大、协议特征字长度固定影响分析准确性的问题,提高协议关键字识别的效率和适用性,如图1为本发明一种基于字典树剪枝搜索的协议关键字识别方法原理流程图,本发明方法包括如下步骤:
(1)获取需要进行协议关键字识别的数据流,建立长度为24的循环队列buffer,将迭代器index定位在数据流第1位,建立变量DataCount记录扫描过的数据流长度,建立变量NodeNum记录字典树中节点数量,建立字典树root其中,DataCount的初值为0,NodeNum的初值为0,字典树是一个多叉树结构,本发明方法中字典树root除根节点外,其余节点均记录一个字符c、深度depth、计数值count。
(2)如图2所示为本发明方法中字符串加入字典树原理示意图,将以index为起点的数据流中的24位数据存入循环队列buffer,然后将循环队列buffer中数据存入到字典树。
将循环队列buffer中数据存入字典树的过程如下:若当前buffer中存放的字符串为A(a1a2...a24),从a1开始扫描字符串,当前扫描到的字符为ai:若字典树中某个子节点存放的字符与ai相同,则将该子节点的计数值count加1,并将该字符赋值给当前节点,继续进行扫描字符串A(a1a2...a24);若字典树中子节点中任何节点存放的字符都与ai不同,i=1,2,3…24,则将ai到a24中的字符建立一条树枝接在字典树节点之上,即树枝的每个节点记录字符aj(i<=j<=24),depth为j,计数值为1,NodeNum=NodeNum+(24-i+1)。
(3)index=index+1,DataCount=DataCount+1。
(4)判断变量NodeNum、DataCount,如果NodeNum>MaxNodeNum或者DataCount%CycleTime=0,则转入步骤(5),否则转入步骤(2),直至DataCount+24等于数据流长度,当DataCount+24等于数据流长度时,转入步骤(7);其中,符号%代表求模运算,即a%b等于以a为被除数,b为除数,a除以b所得的余数;检测周期CycleTime根据数据流长度来进行设置,一般情况下取值范围为数据流长度的二十分之一到十分之一之间。在某些特殊应用场景下可以根据实际需要对CycleTime的取值进行适当调整;MaxNodeNum的取值根据不同计算机系统的内存大小自行进行调整,默认取值为1000000。
(9)如图3为本发明方法中剪枝过程原理示意图,计算深度为depth的节点的剪枝阈值,使用数组MinCountList[1:24]记录每一个深度的节点的下限阈值,深度为depth的节点的剪枝阈值MinCountList[depth]=DataCount/(2^depth)*10,0<depth<24。
(10)从root树根开始遍历字典树。对于当前遍历到的节点temp,temp的深度为deptht,计数值为countt:如果countt小于MinCountList[deptht],则将temp节点和temp节点的所有子节点从字典树中删除;否则,不进行任何操作,若字典树遍历完毕,转入步骤(2)。
(7)如图4所示为本发明方法中协议关键字提取原理示意图,对字典树进行精炼,并提取协议关键字:用字符串列表StrList记录协议关键字。精炼比例为PurifyRate,从树根开始遍历字典树root,对于当前遍历到的节点temp,temp的深度为deptht,计数值为countt;temp的直接父节点为parent,parent深度为depthp,parent的计数值为countp:若countt/countp<PurifyRate,则将字典树root根节点到parent的分枝上的所有节点记录的字符组成字符串,加入到StrList中,停止遍历temp的子树,完成关键字识别,其中,精炼比例PurifyRate取值为一个大于0小于1的实数,默认值为1/4。PurifyRate的具体取值可根据实际情况进行适当调整。
本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

Claims (4)

1.一种基于字典树剪枝搜索的协议关键字识别方法,其特征在于包括如下步骤:
(1)获取需要进行协议关键字识别的数据流,建立长度为24的循环队列buffer,将迭代器index定位在数据流第1位,建立变量DataCount记录扫描过的数据流长度,建立变量NodeNum记录字典树中节点数量,建立字典树root, 其中,DataCount的初值为0,NodeNum的初值为0;
(2)将以index为起点的数据流中的24位数据存入循环队列buffer,将buffer中存放的数据字符串记为A(a1a2...a24),从a1开始扫描字符串,将当前扫描的字符记为ai,若字典树root中某个节点存放的字符与ai相同,则将当前节点的计数值count加1,并将该字符赋值给当前节点,然后继续扫描字符串A(a1a2...a24),若字典树root中任何节点对应的字符都与ai不同,i=1,2,3…24,则将aiai+1…a24中的字符分别作为24-i+1个节点,并连接在字符为ai-1的节点上,包括字符aj的节点的深度depth为j、计数值count为1,NodeNum=NodeNum+(24-i+1),j=i,i+1,…24,其中,存储字符为a0的节点为根节点;
(3)index=index+1,DataCount=DataCount+1;
(4)判断变量NodeNum、DataCount,如果NodeNum>MaxNodeNum或者DataCount%CycleTime=0,则转入步骤(5),否则转入步骤(2),直至DataCount+24等于数据流长度,转入步骤(7);其中,符号%代表求模运算;
(5)计算得到深度为depth的节点的剪枝阈值MinCountList[depth]=DataCount/(2^depth)*10;
(6)从字典树的根节点开始遍历字典树,将当前遍历到的节点temp的深度记为deptht、计数值记为countt,如果countt小于MinCountList[deptht],则将temp节点、temp节点的所有子节点从字典树中删除,否则继续遍历字典树直至遍历完毕,并转入步骤(2);
(7)用字符串列表StrList记录协议关键字,获取精炼比例PurifyRate,从根节点开始遍历字典树,将当前遍历到节点记为temp,节点temp的深度记为deptht、计数值记为countt,节点temp的直接父节点记为parent,节点parent深度记为depthp、计数值记为countp,若countt/countp<PurifyRate,则将根节点到节点parent的分支上的所有节点记录的字符组成字符串,加入到StrList中,完成关键字识别。
2.根据权利要求1所述的一种基于字典树剪枝搜索的协议关键字识别方法,其特征在于:所述的CycleTime为数据流长度的二十分之一到十分之一。
3.根据权利要求1或2所述的一种基于字典树剪枝搜索的协议关键字识别方法,其特征在于:所述的MaxNodeNum的取值为1000000。
4.根据权利要求1或2所述的一种基于字典树剪枝搜索的协议关键字识别方法,其特征在于:所述的精炼比例PurifyRate取值为一个大于0小于1的实数。
CN201611051833.6A 2016-11-23 2016-11-23 一种基于字典树剪枝搜索的协议关键字识别方法 Active CN106713273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611051833.6A CN106713273B (zh) 2016-11-23 2016-11-23 一种基于字典树剪枝搜索的协议关键字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611051833.6A CN106713273B (zh) 2016-11-23 2016-11-23 一种基于字典树剪枝搜索的协议关键字识别方法

Publications (2)

Publication Number Publication Date
CN106713273A CN106713273A (zh) 2017-05-24
CN106713273B true CN106713273B (zh) 2019-08-09

Family

ID=58933916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611051833.6A Active CN106713273B (zh) 2016-11-23 2016-11-23 一种基于字典树剪枝搜索的协议关键字识别方法

Country Status (1)

Country Link
CN (1) CN106713273B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590258B (zh) * 2017-09-20 2020-04-28 杭州安恒信息技术股份有限公司 关键字匹配方法及装置
CN107665191B (zh) * 2017-10-19 2020-08-04 中国人民解放军陆军工程大学 一种基于扩展前缀树的私有协议报文格式推断方法
CN108600195B (zh) * 2018-04-04 2022-01-04 国家计算机网络与信息安全管理中心 一种基于增量学习的快速工控协议格式逆向推断方法
CN113127692B (zh) * 2019-12-31 2023-08-18 北京奇艺世纪科技有限公司 一种数据存储结构、检索方法、数据存储方法及终端设备
CN111553669B (zh) * 2020-04-28 2021-09-10 腾讯科技(深圳)有限公司 一种交易路由方法、装置及计算机可读存储介质
CN112632285A (zh) * 2020-12-31 2021-04-09 北京有竹居网络技术有限公司 一种文本聚类方法、装置、电子设备及存储介质
CN114244708B (zh) * 2021-04-26 2023-08-08 无锡江南计算技术研究所 一种胖树网络结构上的通信优化方法
CN114938402B (zh) * 2022-04-11 2024-04-16 清华大学 基于字典树的未知协议帧结构识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737105A (zh) * 2012-03-31 2012-10-17 北京小米科技有限责任公司 一种字典树生成方法及搜索方法
CN105260354A (zh) * 2015-08-20 2016-01-20 及时标讯网络信息技术(北京)有限公司 一种基于关键词字典树构造的中文ac自动机工作方法
CN105373601A (zh) * 2015-11-09 2016-03-02 国家计算机网络与信息安全管理中心 一种基于关键字词频特征的多模式匹配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737105A (zh) * 2012-03-31 2012-10-17 北京小米科技有限责任公司 一种字典树生成方法及搜索方法
CN105260354A (zh) * 2015-08-20 2016-01-20 及时标讯网络信息技术(北京)有限公司 一种基于关键词字典树构造的中文ac自动机工作方法
CN105373601A (zh) * 2015-11-09 2016-03-02 国家计算机网络与信息安全管理中心 一种基于关键字词频特征的多模式匹配方法

Also Published As

Publication number Publication date
CN106713273A (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN106713273B (zh) 一种基于字典树剪枝搜索的协议关键字识别方法
CN107665191B (zh) 一种基于扩展前缀树的私有协议报文格式推断方法
CN106663129A (zh) 一种基于状态机上下文敏感多轮对话管理系统及方法
CN107832047B (zh) 一种基于lstm的非api函数实参推荐方法
CN104965999B (zh) 一种中短基因片段测序的分析拼接方法及设备
CN110096628B (zh) 一种基于字符串的快速匹配识别方法和装置
CN106708739A (zh) 基于扩展状态机模型的Web服务测试用例生成方法及系统
CN109190371A (zh) 一种基于行为图的Android恶意软件检测方法和技术
CN108845843A (zh) 一种函数处理方法、装置以及相关设备
CN111444677A (zh) 基于大数据的阅读模型优化方法、装置、设备及介质
CN105630797B (zh) 数据处理方法及系统
CN107679402A (zh) 恶意代码行为特征提取方法
CN109858025A (zh) 一种地址标准化语料的分词方法及系统
CN108629124B (zh) 一种基于活动图路径的仿真参数数据自动生成方法
CN114938337A (zh) 一种模型训练方法、装置及电子设备
CN112235254B (zh) 一种高速主干网中Tor网桥的快速识别方法
CN117714351A (zh) 一种网络协议模糊测试方法、系统、设备及介质
CN108897680B (zh) 一种基于soa的软件系统操作剖面构造方法
CN107784588A (zh) 保险用户信息合并方法和装置
CN103220274B (zh) 一种用于运营商网络出口的网络报文模式匹配方法及系统
CN103927613A (zh) 流程检索系统及其使用方法
CN114362992A (zh) 一种基于snort日志的隐马尔可夫攻击链预测方法及装置
CN105354144A (zh) 业务支撑系统信息模型一致性自动化测试方法与系统
CN111191102A (zh) 一种基于大数据检索和语义分析的快搜模型训练方法
CN109961153A (zh) 利用多模型之间语义关联优化数据理解处理的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant