CN106850338A

CN106850338A - 一种基于语义分析的r+1类应用层协议识别方法与装置

Info

Publication number: CN106850338A
Application number: CN201611258902.0A
Authority: CN
Inventors: 何宁宁; 刘元安; 胡鹤飞
Original assignee: CK TELECOM TECHNOLOGY EQUIPMENT (HEYUAN) Co Ltd
Current assignee: CK TELECOM TECHNOLOGY EQUIPMENT (HEYUAN) Co Ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2017-06-13
Anticipated expiration: 2036-12-30
Also published as: CN106850338B

Abstract

本发明公开了一种基于语义分析的R+1类应用层协议识别方法与装置包括：从训练数据包中提取分类特征；将训练数据包的分类特征训练分类器；从待识别数据包中提取分类特征；根据待测数据包的分类特征，使用分类器判断待测数据包使用的通信协议是否为目标协议，若是目标协议则进一步判断是何种目标协议。本发明能够使用一个特征提取模型和一个分类器，一次性判决出多种目标协议与非目标协议的数据包，提高了协议判决的效率与精确性。

Description

一种基于语义分析的R+1类应用层协议识别方法与装置

技术领域

本发明涉及机械测试领域，特别地，涉及一种基于语义分析的R+1类应用层协议识别方法与装置。

背景技术

现有基于语义分析的特征提取方法能有效地识别出单个目标协议中的协议特征，其中，利用语义消息将LDA模型应用在协议签名识别中，无须协议先验知识的情况下即可将单个目标协议从混杂原始数据流中识别出来，准确性较高。

在进行LDA提取协议特征之前，需要对原始数据包进行分割，现有N-Gram模型对原始网络数据包有效载荷进行预处理既适用于文本协议，也适用于二进制协议，具有较好的系统的通用性。

现有基于语义分析的协议识别方法是一种二类分类方法，而现实场景往往是多种协议判决问题，若将现有方法应用到多类问题中，存在如下问题：

第一，若要对R种目标协议进行识别，需要建立对应R个特征提取模型和R个分类器，在线上识别时需要经过R次判决，效率低下。

第二，在实际场景中，往往存在未经过训练的非目标协议，而现有分类器只考虑了R种目标协议的判决策略，若未对网络中的非目标协议进行过滤，非目标协议将会被当成目标协议划分到某类目标协议中，进而降低了该类协议的识别准确性。

针对现有技术中的上述问题，目前尚未有有效的解决方案。

发明内容

有鉴于此，本发明的目的在于提出一种基于语义分析的R+1类应用层协议识别方法与装置，能够使用一个特征提取模型和一个分类器，一次性判决出多种目标协议与非目标协议的数据包，提高了协议判决的效率与精确性。

基于上述目的，本发明提供的技术方案如下：

本发明实施例提供了一种基于语义分析的R+1类应用层协议识别方法，包括：

从训练数据包中提取分类特征；

将训练数据包的分类特征训练分类器；

从待识别数据包中提取分类特征；

根据待识别数据包的分类特征，使用分类器判断待识别数据包使用的通信协议是否为目标协议，若是目标协议则进一步判断是何种目标协议。

在一些实施方式中，所述从训练数据包与待识别数据包中提取分类特征包括：

对数据包进行预处理，生成N-gram序列，一个数据包对应一个N-gram序列；

使用潜在狄利克雷主题模型为每个N-gram序列生成“N-gram序列-特征字”的多项概率分布,其中特征字空间为R种目标协议的特征字集合；

将所有N-gram序列的多项概率分布作为对应数据包的分类特征。

在一些实施方式中，所述对数据包进行预处理，生成N-gram序列为：将每个数据包中的字符以N个字符为长度连续分割，每个数据包作为一个独立的N-gram序列。

在一些实施方式中，所述使用潜在狄利克雷主题模型为每个N-gram序列生成“N-gram序列-特征字”的多项概率分布包括：

确定每个N-gram序列中的特征字与N-gram词；

根据某一特征字中每个N-gram词出现的个数与每个N-gram词对应狄利克雷分布的超参数确定该特征字中每个N-gram词出现的概率；

根据该数据包中每个特征字出现的个数与每个特征字对应狄利克雷分布的超参数确定该数据包中每个特征字出现的概率；

根据该特征字中每个N-gram词出现的概率与该数据包中每个特征字出现的概率生成生成“N-gram序列-特征字”的多项概率分布。

在一些实施方式中，所述将训练数据包的分类特征训练分类器包括：

预先指定聚类个数，并随机指定聚类中心的位置；

计算每个分类特征到聚类中心的距离，并选择最近的聚类中心作为簇，更新聚类中心的位置；

重复上一步骤直到聚类中心的位置不再随更新而发生改变；

计算所有训练数据包的分类特征的方差，选择最小值作为分类器的判别依据。

在一些实施方式中，所述根据待识别数据包的分类特征，使用分类器判断待识别数据包使用的通信协议是否为目标协议包括：

计算待识别数据包的分类特征的方差；

比较待识别数据包的分类特征的方差与训练数据包的分类特征的方差的最小值的大小，若待识别数据包的分类特征的方差较大则判定待识别数据包使用的通信协议是目标协议，若待识别数据包的分类特征的方差较小则判定待识别数据包使用的通信协议是非目标协议。

在一些实施方式中，所述若是目标协议则进一步判断是何种目标协议包括：

计算待识别数据包的分类特征到每个聚类中心的距离；

指定待识别数据包的分类特征到聚类中心距离取到最小值的聚类中心所在的簇为新样本；

在新样本中选取预先指定数目的近邻分类特征进行K-近邻法判决；

根据K-近邻法判决结果确定该待识别数据包使用的目标协议。

在一些实施方式中，所述K-近邻法使用多数表决法对分类特征进行判决。

本发明实施例还提供了一种电子设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法。

从上面所述可以看出，本发明提供的技术方案通过线下训练时从训练数据包中提取分类特征、将训练数据包的分类特征训练分类器、线上识别时提取待识别数据包的分类特征，根据训练数据包的分类特征，使用分类器判断待识别数据包使用的通信协议是否为目标协议，若是目标协议则进一步判断是何种目标协议的技术手段，能够使用一个特征提取模型和一个分类器，一次性判决出多种目标协议与非目标协议的数据包，提高了协议判决的效率与精确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明的一种基于语义分析的R+1类应用层协议识别方法的流程图；

图2为根据本发明的一种基于语义分析的R+1类应用层协议识别方法的一个实施例中，LDA模型的结构图；

图3为根据本发明的一种基于语义分析的R+1类应用层协议识别方法的一个实施例中，R+1_Kmeans_KNN分类器的线下聚类分布图；

图4为本发明的执行一种基于语义分析的R+1类应用层协议识别方法的电子设备的一个实施例的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进一步进行清楚、完整、详细地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明使用的术语及其缩写：

服务质量＝＝QoS(Quality of Service)

深度包检测＝＝DPI(Deep Packet Inspection)

Internet标准＝＝RFC(Request For Comments)

潜在狄利克雷主题模型＝＝LDA(Latent Dirichlet Allocation)

支持向量机＝＝SVM(Support Vector Machine)

K-NN近邻法＝＝K-NN(K-Nearest Neighbor)

基于上述目的，本发明实施例的第一个方面，提出了一种基于语义分析的R+1类应用层协议识别方法的一个实施例。

如图1所示，根据本发明实施例提供的基于语义分析的R+1类应用层协议识别方法包括：

步骤S101，从训练数据包中提取分类特征；

步骤S103，将训练数据包的分类特征训练分类器；

步骤S105，从待识别数据包中提取分类特征；

步骤S107，根据待识别数据包的分类特征，使用分类器判断待识别数据包使用的通信协议是否为目标协议，若是目标协议则进一步判断是何种目标协议。

确定每个N-gram序列中的特征字与N-gram词；

预先指定聚类个数，并随机指定聚类中心的位置；

重复上一步骤直到聚类中心的位置不再随更新而发生改变；

计算待识别数据包的分类特征的方差；

计算待识别数据包的分类特征到每个聚类中心的距离；

综上所述，借助于本发明上述的技术方案，通过线下训练时从训练数据包中提取分类特征、将训练数据包的分类特征训练分类器、线上识别时从待识别数据包中提取分类特征，根据待识别数据包的分类特征，使用分类器判断待识别数据包使用的通信协议是否为目标协议，若是目标协议则进一步判断是何种目标协议的技术手段，能够使用一个特征提取模型和一个分类器，一次性判决出多种目标协议与非目标协议的数据包，提高了协议判决的效率与精确性。

基于上述目的，本发明实施例的第二个方面，提出了一种基于语义分析的R+1类应用层协议识别方法的一个实施例。

LDA是自然语言处理中常用的主题模型方法，其模型结构如图2所示。LDA由词、主题和文本组成，映射到协议分析中分别为N-gram词、特征字和N-gram序列，是一个三层贝叶斯概率模型。该模型假设每个N-gram序列包含K个隐含特征字,而每个特征字包含特定的N-gram词,N-gram序列和N-gram词间的关系通过隐含特征字z体现。隐含特征字之间是相互独立的，这些特征字被N-gram序列集合中的所有N-gram序列所共享，而每个N-gram序列d_m有一个特定的特征字分布

给定包含R种目标协议集的训练数据包，表示经过分割后的N-gram序列集合，包含M个N-gram序列和V个不同的N-gram词，N_m表示第m个N-gram序列中N-gram词的个数，其中特征字空间为R种目标协议的特征字集合。我们的目标是得到和即各特征字在N-gram词上的概率分布和各N-gram序列在特征字上的概率分布，需要根据给定D进行参数估计。根据Gibbs抽样方法可以实现LDA的参数估计。用L表示Gibbs抽样中的迭代次数，经过L次迭代，模型将收敛，概率分布如式(1)和(2)：

其中，表示第k个特征字中第v个N‐gram词出现的概率，表示第k个特征字出现词v的个数，β_v为词v对应的Dirichlet分布的超参数。θ_m,k表示第m个包中第k个特征字出现的概率，表示第m个包中出现第k个特征字的个数，α_k为第k个特征字对应的Dirichlet分布的超参数。

最后，得到所有目标协议的K个特征字集合及各目标协议在这K个特征字上的概率分布即为分类特征。

基于LDA的R+1类应用层协议识别系统由两阶段组成：线下训练和线上识别。

在本发明实施例中，线下训练时输入为R种已标记的目标协议的训练数据包集合，特征提取得到的是训练数据包在这R种目标协议特征字集合上的概率分布。分类器采用的是改进的R+1类分类器，即图3示出的R+1_Kmeans_KNN，不仅能对已标记的R种目标协议的数据包进行识别，还能过滤出使用未标记的非目标协议的数据包。

线下训练阶段首先对训练数据包进行预处理，预处理的目的是将数据进行分割。N‐gram模型将原始数据包以N为长度分割成N‐gram序列，如原始数据为MAIL FROM：<jack@google.com>，N＝3，分割出的N‐gram序列为{MAI、AIL、IL、LF、FR、FRO、ROM、OM:...}等等。接着采用LDA模型按照式(1)和(2)建立关于“特征字－N‐gram词”和“N‐gram序列－特征字”的多项概率分布模型。最后以“N‐gram序列－特征字”多项概率分布作为分类特征，用于分类器建模。

线上进行协议识别时，根据已建立好的特征库，计算待识别数据包在R种目标协议特征字集合上的概率分布，得到分类特征，分类器根据判决规则

输出待识别数据包使用的通信协议类型或标记为非目标协议。

KNN分类器虽然模型简单、准确率高，但由于其是基于实例的惰性学习方法，在寻找最邻近训练样本中，需要逐个计算与训练样本的距离，算法复杂度呈线性增长，因而在大数据集下的判决速度较慢。而Kmeans_KNN分类器是对KNN分类器的改进，通过线下Kmeans聚类方式将所有训练样本分为相似度较高的k_m簇，在线上分类时，只需通过计算待预测样本与每簇聚类中心的距离，找到最近的一簇，并将该簇样本作为新的样本对待测样本进行KNN分类。由于线下聚类已经将所有训练样本划分到相似度较大的簇中，同一簇的训练样本相似度较大，因而只对该簇进行KNN分类可充分保证分类的准确性。

由于LDA通过Gibbs抽样计算出待识别数据包在K个特征字下分布，在线上识别时，属于非目标协议的待测数据包在LDA模型中找不到相关特征字，会将该待识别数据包在特征字集合上进行强行分布，抽样结果将是一个近似均匀分布。针对这个特点，本发明以待识别数据包的分类特征的方差作为过滤非目标协议数据包的判决策略。当待识别数据包的分类特征的方差小于所有训练数据包的最小方差时，可以认为该待识别数据包使用的通信协议为非目标协议，直接归类到非目标类别中。

假定由R种协议组成的M个训练数据包，经过LDA后生成M个分类特征用σ² _min表示这M个样本特征字分布的最小方差，σ² _target表示待测协议特征字分布的方差，用1表示目标协议，0表示非目标协议，则判决结果g如式(3)：

下面说明面向R+1类的快速分类器R+1_Kmeans_KNN的线下训练与线上分类过程。

线下训练：

输入：M个训练数据包的分类特征簇个数k_m

输出：k_m个子簇，对应k_m个聚类中心及方差σ² _min

step1：随机选择k_m个聚类中心，重复step2。

step2：计算每个点到聚类中心的距离，选择最近的聚类中心作为簇，重新计算每个簇的聚类中心，直到簇不发生变化。

step3：计算每个训练数据包分类特征空间的方差，取最小方差σ² _min，结束。

线上分类：

输入：待识别数据包的特征字分布最邻近样本个数k_n

输出：待识别数据包使用的协议类型

step1：计算待识别数据包的特征字分布的方差，根据式(3)判断该数据包的协议类型是否为非目标协议，若是，输出类型为非目标协议，若否，到step2。

step2：计算特征字分布与k_m个聚类中心的距离，选择最近的一簇作为新样本，进行最近邻个数为k_n的KNN判决，输出对应协议类型。

综上所述，本发明设计了一种基于LDA的R+1类应用层协议识别系统，该系统无需任何先验知识，能对采用私有协议的数据包进行识别分类，具有较高的识别准确率。本发明在分类器的设计中，综合考虑了识别准确性和识别速度，通过引入非目标协议的判决策略，改进现有Kmeans_KNN分类器，实现了非目标协议的判决功能。该分类器能以大于90％的准确率对非目标协议进行过滤，降低非目标协议对R种目标协议的判决干扰，进而提高目标协议的识别准确性，是一种R+1类协议识别方法，在网络入侵检测和网络流量管理中具有更好的适用性。本发明实施例将LDA主题模型引入到多协议的特征提取中，建立了待识别数据包在R种目标协议的特征字集合上的概率分布，该方法提取的协议特征具有较高的准确性；从分类准确性上看，本专利通过分析LDA对未经过标记训练的非目标协议存在强行分布的特性，改进现有分类器，提出一种非目标协议判决策略能对非目标协议进行过滤，降低非目标协议对目标R种协议的干扰，是一种R+1类分类器；从线上识别速度上看，本发明与现有Kmeans_KNN只相差一个判决时间，即改进的R+1_Kmeans_KNN分类器在线上识别能保证较快的识别速率。

基于上述目的，本发明实施例的第三个方面，提出了一种执行所述基于语义分析的R+1类应用层协议识别方法的电子设备的一个实施例。

所述执行所述基于语义分析的R+1类应用层协议识别方法的电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述任意一种方法。

如图4所示，为本发明提供的执行所述实时通话中的语音处理方法的电子设备的一个实施例的硬件结构示意图。

以如图4所示的电子设备为例，在该电子设备中包括一个处理器401以及一个存储器402，并还可以包括：输入装置403和输出装置404。

处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器402作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的所述基于语义分析的R+1类应用层协议识别方法对应的程序指令/模块。处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的基于语义分析的R+1类应用层协议识别方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据基于语义分析的R+1类应用层协议识别装置的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置403可接收输入的数字或字符信息，以及产生与基于语义分析的R+1类应用层协议识别装置的用户设置以及功能控制有关的键信号输入。输出装置404可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器402中，当被所述处理器401执行时，执行上述任意方法实施例中的基于语义分析的R+1类应用层协议识别方法。

所述执行所述基于语义分析的R+1类应用层协议识别方法的电子设备的任何一个实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。所述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外，典型地，本公开所述的装置、设备等可为各种电子终端设备，例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等，也可以是大型终端设备，如服务器等，因此本公开的保护范围不应限定为某种特定类型的装置、设备。本公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。

此外，根据本公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本公开的方法中限定的上述功能。

此外，上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

此外，应该明白的是，本文所述的计算机可读存储介质(例如，存储器)可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的，非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM)，该RAM可以充当外部高速缓存存储器。作为例子而非限制性的，RAM可以以多种形式获得，比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)以及直接RambusRAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能，但是这种实现决定不应被解释为导致脱离本公开的范围。

结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行：通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器，但是可替换地，处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它这种配置。

结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器，使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中，所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中，处理器和存储介质可以作为分立组件驻留在用户终端中。

在一个或多个示例性设计中，所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外先、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

公开的示例性实施例，但是应当注公开的示例性实施例，但是应当注意，在不背离权利要求限定的本公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本公开的元素可以以个体形式描述或要求，但是也可以设想多个，除非明确限制为单数。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”(“a”、“an”、“the”)旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种基于语义分析的R+1类应用层协议识别方法，其特征在于，包括：

从训练数据包中提取分类特征；

将训练数据包的分类特征训练分类器；

从待识别数据包中提取分类特征；

2.根据权利要求1所述的方法，其特征在于，所述从训练数据包与待识别数据包中提取分类特征包括：

对数据包进行预处理，生成多个N-gram序列；

使用潜在狄利克雷主题模型为每个N-gram序列生成“N-gram序列-特征字”的多项概率分布，其中特征字空间为R种目标协议的特征字集合；

将所有N-gram序列的多项概率分布的集合作为该数据包的分类特征。

3.根据权利要求2所述的方法，其特征在于，所述对数据包进行预处理，生成N-gram序列为：将每个数据包中的字符以3个字符为长度连续分割，每个数据包作为一个独立的N-gram序列。

4.根据权利要求2所述的方法，其特征在于，所述使用潜在狄利克雷主题模型为每个N-gram序列生成“N-gram序列-特征字”的多项概率分布包括：

确定每个N-gram序列中的特征字与N-gram词；

5.根据权利要求2所述的方法，其特征在于，所述将训练数据包的分类特征训练分类器包括：

预先指定聚类个数，并随机指定聚类中心的位置；

重复上一步骤直到聚类中心的位置不再随更新而发生改变；

6.根据权利要求5所述的方法，其特征在于，所述根据待识别数据包的分类特征，使用分类器判断待识别数据包使用的通信协议是否为目标协议包括：

计算待识别数据包的分类特征的方差；

7.根据权利要求6所述的方法，其特征在于，所述若是目标协议则进一步判断是何种目标协议包括：

计算待识别数据包的分类特征到每个聚类中心的距离；

8.根据权利要求7所述的方法，其特征在于，所述K-近邻法使用多数表决法对分类特征进行判决。

9.一种电子设备，其特征在于，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-8任意一项所述的方法。