CN104111931A

CN104111931A - 一种协议自动识别方法及其所用分类器的构造方法

Info

Publication number: CN104111931A
Application number: CN201310134121.0A
Authority: CN
Inventors: 杨航; 张宇; 赵志军; 潘大庆; 杨子尧; 赵汗青
Original assignee: Wuxi Zhongke Intelligent Information Processing Research & Development Center Co ltd; Institute of Acoustics CAS
Current assignee: Wuxi Zhongke Intelligent Information Processing Research & Development Center Co ltd; Institute of Acoustics CAS
Priority date: 2013-04-17
Filing date: 2013-04-17
Publication date: 2014-10-22

Abstract

本发明涉及一种协议自动识别中所用分类器的构造方法，包括：采集原始数据样本，从中提取出训练集；其中，训练集中的一个元素对应原始数据样本中的一个数据，每一元素表示为：(x⁽ⁱ⁾,y⁽ⁱ⁾)，其中的y⁽ⁱ⁾为赋予给第i个数据的类标，表明该数据属于哪一种协议；x⁽ⁱ⁾表示特征值，反映了数据的内在特性；利用得到的训练集构造分类器。本发明还提供一种基于所述方法所构造的分类器实现协议自动识别的方法，包括：接收到数据后，提取出该数据的特征值；将所得到的某一数据的特征值代入分类器中，得到该数据所属协议的类别。

Description

一种协议自动识别方法及其所用分类器的构造方法

技术领域

本发明涉及物联网领域，特别涉及一种协议自动识别方法及其所用分类器的构造方法。

背景技术

近年来随着物联网技术的不断进步，整个物联网产业进入了快速发展阶段，各种新型的面向物联网的传感设备大量涌现，并出现了很多基于这些终端设备数据的创新应用。所有物联网应用的基础都是在传感网络所收集的数据，因此数据获取是物联网的一个核心内容。

物联网发展十分迅速，相比之下其规范标准则落后很多。直至目前，仍没有一个组织提出的标准能够被大多数的从业人员所认同，并且就现下情况来看，这也不是一个短时间内能够解决的问题。由此产生的弊端就是数据协议的多样化和随意性。传感数据有着各式各样的协议格式，并且很多的协议格式是私有协议，使用范围非常窄，这就给读取并理解传感数据制造了很多的麻烦。

现有技术中的解决方法可以概括为静态绑定模板方法。在该方法中，一个模板能够解析一种特定协议的数据，将一模板绑定在一个端口上，则能够解析该端口接收到的这种协议的数据。但是这样做的问题在于：一个端口可能会接收到不同协议的数据。以网络端口为例，各种不同的传感节点都可以通过网络上传数据，这样在网络端口接收到的数据往往包含了多种协议类型。在这种情况下，静态绑定的方法不可取。

发明内容

本发明的目的在于克服现有技术中的静态绑定方法无法满足网络数据协议识别的需要，从而提供一种更加智能、并能动态调整的协议自动识别方法。

为了实现上述目的，本发明提供了一种协议自动识别中所用分类器的构造方法，包括：

步骤11）、采集原始数据样本，从中提取出训练集；其中，

所述训练集中的一个元素对应原始数据样本中的一个数据，每一元素表示为：(x⁽ⁱ⁾,y⁽ⁱ⁾)，其中的y⁽ⁱ⁾为赋予给第i个数据的类标，表明该数据属于哪一种协议；x⁽ⁱ⁾表示特征值，反映了数据的内在特性；

步骤12）、利用步骤11）得到的训练集构造分类器。

上述技术方案中，在所述的步骤11）中，通过Tf-Idf方法求取所述特征值；包括：

步骤11-1）、根据原始数据样本中的数据构建词典；所述词典表示词汇的取值范围，所述词汇表示组成原始数据的字符串中若干个字符的组合；

步骤11-2）、将原始数据样本中的各个数据与步骤11-1）所得到的词典进行比较，根据比较结果得到各个数据的特征值。

上述技术方案中，在所述的步骤11-1）中还包括：计算所述词汇与词典的关联程度，将关联程度低的词汇从所述词典中删除。

上述技术方案中，在所述的步骤12）中，采用k类朴素贝叶斯方法构造分类器。

本发明还提供了一种基于所述方法所构造的分类器实现协议自动识别的方法，包括：

步骤21）、接收到数据后，提取出该数据的特征值；

步骤22）、将步骤21）所得到的某一数据的特征值代入所述分类器中，得到该数据所属协议的类别。

上述技术方案中，所述步骤22）包括：

步骤22-1）、将步骤21）所得到的某一数据的特征值代入分类器中，得到该特征值属于各个协议的概率值；

步骤22-2）、将步骤22-1）所得到的各个概率值与一用于表示显著性的阈值进行比较，若均小于该阈值，所述数据不属于任何已知协议，属于未分类，否则将概率最大值所对应的协议作为所述数据所属的协议；

步骤22-3）、对分类后的数据做进一步分析，将分析结果与实际情况较大的数据归为误分类。

上述技术方案中，在所述的步骤22）之后还包括：

步骤23）、记录并保存属于误分类或未分类的数据，达到一定量后，将这些数据按照权利要求1-4之一所述方法提取训练集，并与之前的训练集合并，形成新的训练集，进而构造另一分类器。

上述技术方案中，在所述的步骤22）之后还包括：

步骤24）、当删除的协议达到一定数量后，修改之前保存的训练集，从中删除所有属于删除协议的数据条目，得到新的训练集，然后按照权利要求1-4之一所述方法得到新的分类器。

与现有技术相比，本发明具有以下优点：

1、不再需要绑定端口和协议，使得数据的处理更加地智能和自动化。

2、能够动态地调整协议的数量，方便添加新增协议，删除过时协议，更适应真实的物联网场景。

附图说明

图1是本发明方法中构造分类器过程的流程图；

图2是本发明方法中利用分类器对数据做协议识别的流程图。

具体实施方式

现结合附图对本发明作进一步的描述。

本发明的方法总体上包括两个阶段，第一阶段是训练阶段，第二阶段是识别阶段，所述训练阶段用于构造分类器，而所述的识别阶段则是利用所构造的分类器识别所接收数据的协议格式。

下面就本发明的方法分阶段分别予以说明。

一、训练阶段

如图1所示，训练阶段包括以下步骤：

步骤11）、采集原始数据样本，从中提取出训练集。

网络中所传输的数据包采集后可作为原始数据样本，根据这些原始数据样本可得到训练集，所述训练集中与某一原始数据所对应的元素表示为：(x⁽ⁱ⁾,y⁽ⁱ⁾)；其中，y⁽ⁱ⁾为赋予给第i个数据的类标，即表明该数据属于哪一种协议；x⁽ⁱ⁾表示特征值，所述特征值反映了数据的某一内在特性。

由于原始数据样本中的数据属于何种协议格式是已知的，因此可以得到y⁽ⁱ⁾的值。而特征值x⁽ⁱ⁾表的大小可通过如下方式构建：

首先，根据原始数据样本构建词典。每一个原始数据都是一串十六进制的字符串，将其视为一篇文档，其中每两个十六进制字符视为一个词汇，整个原始数据样本就能被视为一个文档集合。一个十六进制字符值范围为0到F，那么由两个十六进制组成的词汇取值范围为[00,01,…,FE,FF]，这个取值范围也被称为词典V。词典中每个词汇出现频率以及其在文档集合中的分布是不同，或者说，每个词汇的重要程度是有区别的。比如说00在绝大多数的文档中都有出现，但是显然00只是作为一种占位符或者空数据出现，对于识别类标没有任何帮助，也就是说，00的区分能力很低。在本实施例中，使用Tf-Idf（Term Frequency–Inverse Document Frequency）方法来找出区分能力高的词汇，将区分能力高的词汇保留在词典中，将区分能力低的词汇从词典中删除。

]Tf-Idf是一种在信息检索领域（Information Retrieval）广泛使用的度量，用于衡量一篇文档与一个特定词汇之间的相关度，从而在一组文档集合中发现与该词汇相关的文档，并可根据此度量对这些文档排序。

Tf-Idf有多种变种，一种常见的计算方法为：

tf(t,d)=f(t,d)

idf (t, D) = \log \frac{| D |}{| {d &Element; D : t &Element; d} |}

其中f(t,d)为指定词汇t在文档d中出现的次数，idf(t,D)则表示了词汇t在整个集合D中的分布密集程度。Tf-Idf为

tfidf(t,d)=tf(t,d)*idf(t,D)

显而易见，若词汇t在某一文档d中出现次数较高，而在D中其他文档内出现次数较低或未出现，则Tf-Idf(t,d)较高，表明词汇t与文档d有较高关联度。

根据Tf-Idf的上述思想，可计算词汇t与词典V的关联程度。

对计算

score = \max (tfidf (t, d)) = \max (tf (t, d)) * idf (t, D), &ForAll; d &Element; D

若得到的score值小于某一预先设定的阈值T，则认为该词汇t不具有区分能力，将其从词典中删除，否则予以保留。

接着，根据词典生成样本中每一数据的特征值。对样本中每一个数据，找出其包含的所有词汇，然后与词典对比，若出现了词典上的词汇，则在对应的位置标记1，否则为0，得到的向量即为所述特征值。例如，一个数据为7E420009327E，包含的词汇有[7E,42,00,09,32]，假设词典为[32,5C,7E]，那么得到的特征向量为[1,0,1]^T，该特征向量就是该数据的特征值。

步骤12）、利用步骤11）所得到的训练集构造分类器。

在本实施例中，采用k类朴素贝叶斯方法（）构造分类器，其中k的值代表所有协议的数量。

朴素贝叶斯是一种广泛使用的分类方法，适用于离散特征值。用(x,y)表示训练集，其中x为特征值，y为类标，其基于贝叶斯假设：给定y，则各x之间条件独立，即

p(x₁|y)=p(x₁|y,x₂)

已知训练集，假设x在条件y下的概率密度p(x|y)满足Bernoulli分布，通过最大化相似度

在训练集上拟合参数其中k表示y存在k种分类，m为训练集的大小。

计算得到的参数如下：

上述两个参数确定后，也就得到了确定的分类器。

二、识别阶段

分类器构造完成后，可利用分类器实现对数据的协议类型识别。如图2所示，具体实现步骤如下：

步骤21）、接收到数据后，提取出该数据的特征值。

如何提取某一数据的特征值在之前的说明中已经有相关的描述，因此不在此处重复。

步骤22）、将步骤21）所得到的某一数据的特征值代入分类器中，得到该数据所属协议的类别。

得到某一数据的特征值后，将该特征值代入到分类器中，通过贝叶斯公式计算其类标：

得到的结果为该特征值属于各类标的概率，取其中最大值作为其类标。若出现几个概率接近且均不显著的情况，则需要按照概率大小顺序匹配协议。

以上是对本发明方法基本实现步骤的描述。在工作阶段中，可能会增加训练阶段并未出现的新的协议格式，这就意味着会接收到新类型的数据。这些数据暂时不能被分类，或者会被误分类。记录并保存下来这些数据，等待达到一定量之后，再次按照上面阐述的方法提取出训练集，与之前保存的训练集合并形成新的训练集，并代入贝叶斯方法得到新的分类器。这样就完成了协议格式的动态增加。其中，当数据对应于每个协议的概率都没有达到某一用于表示显著性的阈值时，则该数据可被认为暂时没有分类，新的协议类型的数据往往是这种情况；当数据超过前述用于表示显著性的阈值，但对其做进一步分析后发现结果很离谱，则此类数据可被认为发生了误分类。

在某些情况下，某种特定的协议可能不再被使用，需要将此协议删除。删除少数几个协议不需要重新训练分类器，因为此时只是产生了少量的额外开销。当删除的协议达到一定数量后，修改之前保存的训练集，从中删除所有属于删除协议的数据条目，得到新的训练集并代入贝叶斯方法得到新的分类器。这样就完成了协议格式的动态减少。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种协议自动识别中所用分类器的构造方法，包括：

步骤11）、采集原始数据样本，从中提取出训练集；其中，

步骤12）、利用步骤11）得到的训练集构造分类器。

2.根据权利要求1所述的协议自动识别中所用分类器的构造方法，其特征在于，在所述的步骤11）中，通过Tf-Idf方法求取所述特征值；包括：

3.根据权利要求2所述的协议自动识别中所用分类器的构造方法，其特征在于，在所述的步骤11-1）中还包括：计算所述词汇与词典的关联程度，将关联程度低的词汇从所述词典中删除。

4.根据权利要求1所述的协议自动识别中所用分类器的构造方法，其特征在于，在所述的步骤12）中，采用k类朴素贝叶斯方法构造分类器。

5.一种基于权利要求1-4之一所述方法所构造的分类器实现协议自动识别的方法，包括：

步骤21）、接收到数据后，提取出该数据的特征值；

6.根据权利要求5所述的协议自动识别方法，其特征在于，所述步骤22）包括：

7.根据权利要求6所述的协议自动识别方法，其特征在于，在所述的步骤22）之后还包括：

8.根据权利要求6所述的协议自动识别方法，其特征在于，在所述的步骤22）之后还包括：