CN104111931A - 一种协议自动识别方法及其所用分类器的构造方法 - Google Patents

一种协议自动识别方法及其所用分类器的构造方法 Download PDF

Info

Publication number
CN104111931A
CN104111931A CN201310134121.0A CN201310134121A CN104111931A CN 104111931 A CN104111931 A CN 104111931A CN 201310134121 A CN201310134121 A CN 201310134121A CN 104111931 A CN104111931 A CN 104111931A
Authority
CN
China
Prior art keywords
data
protocol
classifier
training set
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310134121.0A
Other languages
English (en)
Inventor
杨航
张宇
赵志军
潘大庆
杨子尧
赵汗青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Zhongke Intelligent Information Processing Research & Development Center Co ltd
Institute of Acoustics CAS
Original Assignee
Wuxi Zhongke Intelligent Information Processing Research & Development Center Co ltd
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Zhongke Intelligent Information Processing Research & Development Center Co ltd, Institute of Acoustics CAS filed Critical Wuxi Zhongke Intelligent Information Processing Research & Development Center Co ltd
Priority to CN201310134121.0A priority Critical patent/CN104111931A/zh
Publication of CN104111931A publication Critical patent/CN104111931A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种协议自动识别中所用分类器的构造方法,包括:采集原始数据样本,从中提取出训练集;其中,训练集中的一个元素对应原始数据样本中的一个数据,每一元素表示为:(x(i),y(i)),其中的y(i)为赋予给第i个数据的类标,表明该数据属于哪一种协议;x(i)表示特征值,反映了数据的内在特性;利用得到的训练集构造分类器。本发明还提供一种基于所述方法所构造的分类器实现协议自动识别的方法,包括:接收到数据后,提取出该数据的特征值;将所得到的某一数据的特征值代入分类器中,得到该数据所属协议的类别。

Description

一种协议自动识别方法及其所用分类器的构造方法
技术领域
本发明涉及物联网领域,特别涉及一种协议自动识别方法及其所用分类器的构造方法。
背景技术
近年来随着物联网技术的不断进步,整个物联网产业进入了快速发展阶段,各种新型的面向物联网的传感设备大量涌现,并出现了很多基于这些终端设备数据的创新应用。所有物联网应用的基础都是在传感网络所收集的数据,因此数据获取是物联网的一个核心内容。
物联网发展十分迅速,相比之下其规范标准则落后很多。直至目前,仍没有一个组织提出的标准能够被大多数的从业人员所认同,并且就现下情况来看,这也不是一个短时间内能够解决的问题。由此产生的弊端就是数据协议的多样化和随意性。传感数据有着各式各样的协议格式,并且很多的协议格式是私有协议,使用范围非常窄,这就给读取并理解传感数据制造了很多的麻烦。
现有技术中的解决方法可以概括为静态绑定模板方法。在该方法中,一个模板能够解析一种特定协议的数据,将一模板绑定在一个端口上,则能够解析该端口接收到的这种协议的数据。但是这样做的问题在于:一个端口可能会接收到不同协议的数据。以网络端口为例,各种不同的传感节点都可以通过网络上传数据,这样在网络端口接收到的数据往往包含了多种协议类型。在这种情况下,静态绑定的方法不可取。
发明内容
本发明的目的在于克服现有技术中的静态绑定方法无法满足网络数据协议识别的需要,从而提供一种更加智能、并能动态调整的协议自动识别方法。
为了实现上述目的,本发明提供了一种协议自动识别中所用分类器的构造方法,包括:
步骤11)、采集原始数据样本,从中提取出训练集;其中,
所述训练集中的一个元素对应原始数据样本中的一个数据,每一元素表示为:(x(i),y(i)),其中的y(i)为赋予给第i个数据的类标,表明该数据属于哪一种协议;x(i)表示特征值,反映了数据的内在特性;
步骤12)、利用步骤11)得到的训练集构造分类器。
上述技术方案中,在所述的步骤11)中,通过Tf-Idf方法求取所述特征值;包括:
步骤11-1)、根据原始数据样本中的数据构建词典;所述词典表示词汇的取值范围,所述词汇表示组成原始数据的字符串中若干个字符的组合;
步骤11-2)、将原始数据样本中的各个数据与步骤11-1)所得到的词典进行比较,根据比较结果得到各个数据的特征值。
上述技术方案中,在所述的步骤11-1)中还包括:计算所述词汇与词典的关联程度,将关联程度低的词汇从所述词典中删除。
上述技术方案中,在所述的步骤12)中,采用k类朴素贝叶斯方法构造分类器。
本发明还提供了一种基于所述方法所构造的分类器实现协议自动识别的方法,包括:
步骤21)、接收到数据后,提取出该数据的特征值;
步骤22)、将步骤21)所得到的某一数据的特征值代入所述分类器中,得到该数据所属协议的类别。
上述技术方案中,所述步骤22)包括:
步骤22-1)、将步骤21)所得到的某一数据的特征值代入分类器中,得到该特征值属于各个协议的概率值;
步骤22-2)、将步骤22-1)所得到的各个概率值与一用于表示显著性的阈值进行比较,若均小于该阈值,所述数据不属于任何已知协议,属于未分类,否则将概率最大值所对应的协议作为所述数据所属的协议;
步骤22-3)、对分类后的数据做进一步分析,将分析结果与实际情况较大的数据归为误分类。
上述技术方案中,在所述的步骤22)之后还包括:
步骤23)、记录并保存属于误分类或未分类的数据,达到一定量后,将这些数据按照权利要求1-4之一所述方法提取训练集,并与之前的训练集合并,形成新的训练集,进而构造另一分类器。
上述技术方案中,在所述的步骤22)之后还包括:
步骤24)、当删除的协议达到一定数量后,修改之前保存的训练集,从中删除所有属于删除协议的数据条目,得到新的训练集,然后按照权利要求1-4之一所述方法得到新的分类器。
与现有技术相比,本发明具有以下优点:
1、不再需要绑定端口和协议,使得数据的处理更加地智能和自动化。
2、能够动态地调整协议的数量,方便添加新增协议,删除过时协议,更适应真实的物联网场景。
附图说明
图1是本发明方法中构造分类器过程的流程图;
图2是本发明方法中利用分类器对数据做协议识别的流程图。
具体实施方式
现结合附图对本发明作进一步的描述。
本发明的方法总体上包括两个阶段,第一阶段是训练阶段,第二阶段是识别阶段,所述训练阶段用于构造分类器,而所述的识别阶段则是利用所构造的分类器识别所接收数据的协议格式。
下面就本发明的方法分阶段分别予以说明。
一、训练阶段
如图1所示,训练阶段包括以下步骤:
步骤11)、采集原始数据样本,从中提取出训练集。
网络中所传输的数据包采集后可作为原始数据样本,根据这些原始数据样本可得到训练集,所述训练集中与某一原始数据所对应的元素表示为:(x(i),y(i));其中,y(i)为赋予给第i个数据的类标,即表明该数据属于哪一种协议;x(i)表示特征值,所述特征值反映了数据的某一内在特性。
由于原始数据样本中的数据属于何种协议格式是已知的,因此可以得到y(i)的值。而特征值x(i)表的大小可通过如下方式构建:
首先,根据原始数据样本构建词典。每一个原始数据都是一串十六进制的字符串,将其视为一篇文档,其中每两个十六进制字符视为一个词汇,整个原始数据样本就能被视为一个文档集合。一个十六进制字符值范围为0到F,那么由两个十六进制组成的词汇取值范围为[00,01,…,FE,FF],这个取值范围也被称为词典V。词典中每个词汇出现频率以及其在文档集合中的分布是不同,或者说,每个词汇的重要程度是有区别的。比如说00在绝大多数的文档中都有出现,但是显然00只是作为一种占位符或者空数据出现,对于识别类标没有任何帮助,也就是说,00的区分能力很低。在本实施例中,使用Tf-Idf(Term Frequency–Inverse Document Frequency)方法来找出区分能力高的词汇,将区分能力高的词汇保留在词典中,将区分能力低的词汇从词典中删除。
]Tf-Idf是一种在信息检索领域(Information Retrieval)广泛使用的度量,用于衡量一篇文档与一个特定词汇之间的相关度,从而在一组文档集合中发现与该词汇相关的文档,并可根据此度量对这些文档排序。
Tf-Idf有多种变种,一种常见的计算方法为:
tf(t,d)=f(t,d)
idf ( t , D ) = log | D | | { d ∈ D : t ∈ d } |
其中f(t,d)为指定词汇t在文档d中出现的次数,idf(t,D)则表示了词汇t在整个集合D中的分布密集程度。Tf-Idf为
tfidf(t,d)=tf(t,d)*idf(t,D)
显而易见,若词汇t在某一文档d中出现次数较高,而在D中其他文档内出现次数较低或未出现,则Tf-Idf(t,d)较高,表明词汇t与文档d有较高关联度。
根据Tf-Idf的上述思想,可计算词汇t与词典V的关联程度。
计算
score = max ( tfidf ( t , d ) ) = max ( tf ( t , d ) ) * idf ( t , D ) , ∀ d ∈ D
若得到的score值小于某一预先设定的阈值T,则认为该词汇t不具有区分能力,将其从词典中删除,否则予以保留。
接着,根据词典生成样本中每一数据的特征值。对样本中每一个数据,找出其包含的所有词汇,然后与词典对比,若出现了词典上的词汇,则在对应的位置标记1,否则为0,得到的向量即为所述特征值。例如,一个数据为7E420009327E,包含的词汇有[7E,42,00,09,32],假设词典为[32,5C,7E],那么得到的特征向量为[1,0,1]T,该特征向量就是该数据的特征值。
步骤12)、利用步骤11)所得到的训练集构造分类器。
在本实施例中,采用k类朴素贝叶斯方法()构造分类器,其中k的值代表所有协议的数量。
朴素贝叶斯是一种广泛使用的分类方法,适用于离散特征值。用(x,y)表示训练集,其中x为特征值,y为类标,其基于贝叶斯假设:给定y,则各x之间条件独立,即
p(x1|y)=p(x1|y,x2)
已知训练集,假设x在条件y下的概率密度p(x|y)满足Bernoulli分布,通过最大化相似度
在训练集上拟合参数其中k表示y存在k种分类,m为训练集的大小。
计算得到的参数如下:
上述两个参数确定后,也就得到了确定的分类器。
二、识别阶段
分类器构造完成后,可利用分类器实现对数据的协议类型识别。如图2所示,具体实现步骤如下:
步骤21)、接收到数据后,提取出该数据的特征值。
如何提取某一数据的特征值在之前的说明中已经有相关的描述,因此不在此处重复。
步骤22)、将步骤21)所得到的某一数据的特征值代入分类器中,得到该数据所属协议的类别。
得到某一数据的特征值后,将该特征值代入到分类器中,通过贝叶斯公式计算其类标:
得到的结果为该特征值属于各类标的概率,取其中最大值作为其类标。若出现几个概率接近且均不显著的情况,则需要按照概率大小顺序匹配协议。
以上是对本发明方法基本实现步骤的描述。在工作阶段中,可能会增加训练阶段并未出现的新的协议格式,这就意味着会接收到新类型的数据。这些数据暂时不能被分类,或者会被误分类。记录并保存下来这些数据,等待达到一定量之后,再次按照上面阐述的方法提取出训练集,与之前保存的训练集合并形成新的训练集,并代入贝叶斯方法得到新的分类器。这样就完成了协议格式的动态增加。其中,当数据对应于每个协议的概率都没有达到某一用于表示显著性的阈值时,则该数据可被认为暂时没有分类,新的协议类型的数据往往是这种情况;当数据超过前述用于表示显著性的阈值,但对其做进一步分析后发现结果很离谱,则此类数据可被认为发生了误分类。
在某些情况下,某种特定的协议可能不再被使用,需要将此协议删除。删除少数几个协议不需要重新训练分类器,因为此时只是产生了少量的额外开销。当删除的协议达到一定数量后,修改之前保存的训练集,从中删除所有属于删除协议的数据条目,得到新的训练集并代入贝叶斯方法得到新的分类器。这样就完成了协议格式的动态减少。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种协议自动识别中所用分类器的构造方法,包括:
步骤11)、采集原始数据样本,从中提取出训练集;其中,
所述训练集中的一个元素对应原始数据样本中的一个数据,每一元素表示为:(x(i),y(i)),其中的y(i)为赋予给第i个数据的类标,表明该数据属于哪一种协议;x(i)表示特征值,反映了数据的内在特性;
步骤12)、利用步骤11)得到的训练集构造分类器。
2.根据权利要求1所述的协议自动识别中所用分类器的构造方法,其特征在于,在所述的步骤11)中,通过Tf-Idf方法求取所述特征值;包括:
步骤11-1)、根据原始数据样本中的数据构建词典;所述词典表示词汇的取值范围,所述词汇表示组成原始数据的字符串中若干个字符的组合;
步骤11-2)、将原始数据样本中的各个数据与步骤11-1)所得到的词典进行比较,根据比较结果得到各个数据的特征值。
3.根据权利要求2所述的协议自动识别中所用分类器的构造方法,其特征在于,在所述的步骤11-1)中还包括:计算所述词汇与词典的关联程度,将关联程度低的词汇从所述词典中删除。
4.根据权利要求1所述的协议自动识别中所用分类器的构造方法,其特征在于,在所述的步骤12)中,采用k类朴素贝叶斯方法构造分类器。
5.一种基于权利要求1-4之一所述方法所构造的分类器实现协议自动识别的方法,包括:
步骤21)、接收到数据后,提取出该数据的特征值;
步骤22)、将步骤21)所得到的某一数据的特征值代入所述分类器中,得到该数据所属协议的类别。
6.根据权利要求5所述的协议自动识别方法,其特征在于,所述步骤22)包括:
步骤22-1)、将步骤21)所得到的某一数据的特征值代入分类器中,得到该特征值属于各个协议的概率值;
步骤22-2)、将步骤22-1)所得到的各个概率值与一用于表示显著性的阈值进行比较,若均小于该阈值,所述数据不属于任何已知协议,属于未分类,否则将概率最大值所对应的协议作为所述数据所属的协议;
步骤22-3)、对分类后的数据做进一步分析,将分析结果与实际情况较大的数据归为误分类。
7.根据权利要求6所述的协议自动识别方法,其特征在于,在所述的步骤22)之后还包括:
步骤23)、记录并保存属于误分类或未分类的数据,达到一定量后,将这些数据按照权利要求1-4之一所述方法提取训练集,并与之前的训练集合并,形成新的训练集,进而构造另一分类器。
8.根据权利要求6所述的协议自动识别方法,其特征在于,在所述的步骤22)之后还包括:
步骤24)、当删除的协议达到一定数量后,修改之前保存的训练集,从中删除所有属于删除协议的数据条目,得到新的训练集,然后按照权利要求1-4之一所述方法得到新的分类器。
CN201310134121.0A 2013-04-17 2013-04-17 一种协议自动识别方法及其所用分类器的构造方法 Pending CN104111931A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310134121.0A CN104111931A (zh) 2013-04-17 2013-04-17 一种协议自动识别方法及其所用分类器的构造方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310134121.0A CN104111931A (zh) 2013-04-17 2013-04-17 一种协议自动识别方法及其所用分类器的构造方法

Publications (1)

Publication Number Publication Date
CN104111931A true CN104111931A (zh) 2014-10-22

Family

ID=51708726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310134121.0A Pending CN104111931A (zh) 2013-04-17 2013-04-17 一种协议自动识别方法及其所用分类器的构造方法

Country Status (1)

Country Link
CN (1) CN104111931A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224598A (zh) * 2015-08-31 2016-01-06 中国互联网络信息中心 一种基于动态特征的异构物联网标识识别方法及系统
CN106056154A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 故障码识别和分类的方法
CN108304936A (zh) * 2017-07-12 2018-07-20 腾讯科技(深圳)有限公司 机器学习模型训练方法和装置、表情图像分类方法和装置
CN110544182A (zh) * 2019-08-30 2019-12-06 海南电网有限责任公司 一种基于机器学习技术的配电通信网融合控制方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735589B2 (en) * 2001-06-07 2004-05-11 Microsoft Corporation Method of reducing dimensionality of a set of attributes used to characterize a sparse data set
CN1612135A (zh) * 2003-10-30 2005-05-04 中联绿盟信息技术(北京)有限公司 入侵检测(保护)产品与防火墙产品中的协议识别技术
JP4010179B2 (ja) * 2002-05-02 2007-11-21 日本電信電話株式会社 データ識別装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735589B2 (en) * 2001-06-07 2004-05-11 Microsoft Corporation Method of reducing dimensionality of a set of attributes used to characterize a sparse data set
JP4010179B2 (ja) * 2002-05-02 2007-11-21 日本電信電話株式会社 データ識別装置及びプログラム及びコンピュータ読み取り可能な記録媒体
CN1612135A (zh) * 2003-10-30 2005-05-04 中联绿盟信息技术(北京)有限公司 入侵检测(保护)产品与防火墙产品中的协议识别技术

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁要军 等: "基于SBN模型的Internet应用协议识别方法", 《华中科技大学学报(自然科学版)》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224598A (zh) * 2015-08-31 2016-01-06 中国互联网络信息中心 一种基于动态特征的异构物联网标识识别方法及系统
CN105224598B (zh) * 2015-08-31 2018-11-27 中国互联网络信息中心 一种基于动态特征的异构物联网标识识别方法及系统
CN106056154A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 故障码识别和分类的方法
CN108304936A (zh) * 2017-07-12 2018-07-20 腾讯科技(深圳)有限公司 机器学习模型训练方法和装置、表情图像分类方法和装置
CN108304936B (zh) * 2017-07-12 2021-11-16 腾讯科技(深圳)有限公司 机器学习模型训练方法和装置、表情图像分类方法和装置
US11537884B2 (en) 2017-07-12 2022-12-27 Tencent Technology (Shenzhen) Company Limited Machine learning model training method and device, and expression image classification method and device
US12079696B2 (en) 2017-07-12 2024-09-03 Tencent Technology (Shenzhen) Company Limited Machine learning model training method and device, and expression image classification method and device
CN110544182A (zh) * 2019-08-30 2019-12-06 海南电网有限责任公司 一种基于机器学习技术的配电通信网融合控制方法及系统
CN110544182B (zh) * 2019-08-30 2023-10-03 海南电网有限责任公司 一种基于机器学习技术的配电通信网融合控制方法及系统

Similar Documents

Publication Publication Date Title
JP6005837B2 (ja) 画像解析装置、画像解析システム、画像解析方法
US9141853B1 (en) System and method for extracting information from documents
WO2008026414A1 (fr) Procédé de reconnaissance d'image, dispositif de reconnaissance d'image et programme de reconnaissance d'image
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN106845358B (zh) 一种手写体字符图像特征识别的方法及系统
US11658989B1 (en) Method and device for identifying unknown traffic data based dynamic network environment
CN107909119B (zh) 集合间相似度的确定方法和装置
CN113221918B (zh) 目标检测方法、目标检测模型的训练方法及装置
CN104111931A (zh) 一种协议自动识别方法及其所用分类器的构造方法
EP3635586A1 (en) Computerized methods of data compression and analysis
CN107704520B (zh) 基于人脸识别的多文件检索方法和装置
CN116795947A (zh) 文档推荐方法、装置、电子设备及计算机可读存储介质
CN114187595A (zh) 基于视觉特征和语义特征融合的文档布局识别方法及系统
CN109409407A (zh) 一种基于le算法的工业监测数据聚类方法
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN112579783A (zh) 基于拉普拉斯图谱的短文本聚类方法
Jayady et al. Theme Identification using Machine Learning Techniques
CN116089648A (zh) 基于人工智能的档案管理系统及方法
CN108133387B (zh) 基于软信息的多标记k近邻算法
CN106776724B (zh) 一种题目分类方法及系统
CN116450581B (zh) 一种白名单本地快速匹配方法、系统和电子设备
Yuan et al. OSAP‐Loss: Efficient optimization of average precision via involving samples after positive ones towards remote sensing image retrieval
CN112464015B (zh) 一种基于深度学习的图像电子证据筛选方法
CN113486176B (zh) 一种基于二次特征放大的新闻分类方法
CN113378881B (zh) 基于信息熵增益svm模型的指令集识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141022