CN107302474B

CN107302474B - 网络数据应用的特征提取方法及装置

Info

Publication number: CN107302474B
Application number: CN201710538802.1A
Authority: CN
Inventors: 张磊; 刘静菠; 陈航; 刘嘉勇; 程芃森; 刘亮; 黄勇
Original assignee: Sichuan Silent Information Technology Co Ltd; Sichuan University
Current assignee: Sichuan Silent Information Technology Co Ltd; Sichuan University
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2020-02-04
Anticipated expiration: 2037-07-04
Also published as: CN107302474A

Abstract

本发明提供一种网络数据应用的特征提取方法及装置。所述方法包括：从网络应用层的特征候选集中读取待测网络数据应用对应的准特征值；基于读取的准特征值对待测网络数据应用进行识别，根据识别结果从特征候选集中提取与待测网络数据应用对应的应用特征。由此，在对待测网络数据应用进行识别时，自动提取了待测网络数据应用的应用特征，提高了应用识别效率。

Description

网络数据应用的特征提取方法及装置

技术领域

本发明涉及网络安全技术领域，具体而言，涉及一种网络数据应用的特征提取方法及装置。

背景技术

网络数据应用种类繁多，实现过程复杂，且不同的应用有不同的格式规范，上述原因导致应用特征提取非常复杂。现在一般是通过捕获数据包工具(比如，wireshark，tcpdump等)采集数据包，然后通过人工查找的方式获得应用特征。然而随着版本的更新、新应用的不断出现，人工查找效率太低。

目前对网络数据应用进行识别的方法主要包括：端口识别、基于流量特性的识别及基于应用层的特征的识别，但上述方法均存在一些不足。端口识别对于自定义的端口，适应性较差。基于流量特性的识别的识别准确率低，并且在大的流量环境下不易统计流量特性。基于应用层的特征的识别具有准确率高、识别效率高、易于维护等优点，但是对新应用适用性差，在出现新的应用时需要重新更新特征，特征的自提取直接影响该方法的效率。因此，如何在基于应用层的特征的识别方法中自动更新特征成为本领域技术人员急需解决的问题。

发明内容

为了克服现有技术中的上述不足，本发明所要解决的技术问题是提供一种网络数据应用的特征提取方法及装置，其能够在采用基于应用层的特征的识别方法时自动更新特征，提高应用识别效率。

本发明较佳实施例提供一种网络数据应用的特征提取方法，所述方法包括：

从网络应用层的特征候选集中读取待测网络数据应用对应的准特征值；

基于读取的准特征值对所述待测网络数据应用进行识别，根据识别结果从所述特征候选集中提取与所述待测网络数据应用对应的应用特征。

本发明较佳实施例还提供一种网络数据应用的特征提取装置，所述装置包括：

读取模块，用于从网络应用层的特征候选集中读取待测网络数据应用对应的准特征值；

特征提取模块，用于基于读取的准特征值对所述待测网络数据应用进行识别，根据识别结果从所述特征候选集中提取与所述待测网络数据应用对应的应用特征。

相对于现有技术而言，本发明具有以下有益效果：

本发明提供一种网络数据应用的特征提取方法及装置。通过网络应用层的特征候选集获得待测网络数据应用对应的准特征值。根据获得的准特征值对所述待测网络数据应用进行识别，得到一识别结果。依据所述识别结果从所述特征候选集中提取与所述待测网络数据应用对应的应用特征。由此，在对待测网络数据应用进行识别时，自动提取了待测网络数据应用的应用特征，提高了应用识别效率。

为使发明的上述目的、特征和优点能更明显易懂，下文特举本发明较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明较佳实施例提供的用户终端的方框示意图。

图2为本发明较佳实施例提供的网络数据应用的特征提取方法的一种流程示意图。

图3为图2中步骤S130包括的子步骤的流程示意图。

图4为图3中子步骤S134包括的部分子步骤的流程示意图。

图5为图3中子步骤S134包括的另一部分子步骤的流程示意图。

图6为本发明较佳实施例提供的网络数据应用的特征提取方法的另一种流程示意图。

图7为图6中步骤S110包括的子步骤的流程示意图。

图8为图7中子步骤S112包括的子步骤的流程示意图。

图9为本发明较佳实施例提供的网络数据应用的特征提取装置的方框示意图。

图标：100-用户终端；110-存储器；120-存储控制器；130-处理器；200-特征提取装置；220-读取模块；230-特征提取模块；231-识别子模块；232-处理子模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1是本发明较佳实施例提供的用户终端100的方框示意图。在本实施例中，所述用户终端100可以是，但不限于，个人电脑(personal computer，PC)、平板电脑等。所述用户终端100包括：特征提取装置200、存储器110、存储控制器120及处理器130。

所述存储器110、存储控制器120及处理器130各元件之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器110中存储有特征提取装置200，所述特征提取装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器110中的软件功能模块。所述处理器130通过运行存储在存储器110内的软件程序以及模块，如本发明实施例中的特征提取装置200，从而执行各种功能应用以及数据处理，即实现本发明实施例中的网络数据应用的特征提取方法。

其中，所述存储器110可以是，但不限于，随机存取存储器(Random AccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。其中，存储器110用于存储程序，所述处理器130在接收到执行指令后，执行所述程序。所述处理器130以及其他可能的组件对存储器110的访问可在所述存储控制器120的控制下进行。

所述处理器130可能是一种集成电路芯片，具有信号的处理能力。上述的处理器130可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

可以理解，图1所示的结构仅为示意，用户终端100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

请参照图2，图2是本发明较佳实施例提供的网络数据应用的特征提取方法的一种流程示意图。图2中的流程可以由所述处理器130实现。下面对网络数据应用的特征提取方法的具体流程进行详细阐述。

步骤S120，从网络应用层的特征候选集中读取待测网络数据应用对应的准特征值。

在本实施例中，通过已获得的特征候选集读取所述待测网络数据应用对应的准特征值。由于每种协议都有属于自身与其它协议不同的特征字符串，这些特征字符串是该协议独有的，而且在交互过程中出现的频率频繁。因此可以通过网络应用层数据获取特征字符串，从而获得由特征字符串组成的特征候选集，进而获得待测网络数据应用对应的准特征值。网络数据是指网络应用层上由网络行为(比如，浏览网页)产生的数据包。

步骤S130，基于读取的准特征值对所述待测网络数据应用进行识别，根据识别结果从所述特征候选集中提取与所述待测网络数据应用对应的应用特征。

请参照图3，图3是图2中步骤S130包括的子步骤的流程示意图。所述步骤S130可以包括子步骤S131、子步骤S132、子步骤S133及子步骤S134。

子步骤S131，根据准特征值对待测网络数据应用进行识别，得到一识别率。

在本实施例中，通过读取的准特征值对所述待测网络数据应用进行识别，得到的识别结果可以用识别率表示。

子步骤S132，判断所述识别率是否大于预设识别率阈值。

在本实施例中，通过将设定的预设识别率阈值与所述识别率进行比较，判断是否可以根据读取的准特征值识别出对应的待测网络数据应用。其中，所述预设识别率阈值可以根据实际情况进行设定(比如，将所述预设识别率阈值设置在80％-90％之间)。

在所述识别率大于预设识别率阈值时，执行子步骤S133。

子步骤S133，将所述准特征值对应的应用特征输出。

在本实施例中，当所述识别率不小于预设识别率阈值时，表征通过读取的准特征值可以识别出对应的所述待测网络数据应用，则可以将所述准特征值对应的应用特征输出，以实现应用特征的自动提取。其中，应用特征是指在网络应用层数据中频繁出现并且具有位置特性的字节或者组合。而应用特征提取就是从网络应用层数据中提取能够代表该应用的全部特征的集合。

在所述识别率小于预设识别率阈值时，执行子步骤S134。

在本实施例中，当所述识别率小于预设识别率阈值时，表征通过读取的准特征值不可以识别出对应的所述待测网络数据应用。因此，需要将读取的准特征值中不是所述待测网络数据应用的特征值进行过滤，以对读取的准特征值进行更新，从而得到可以识别所述待测网络数据应用的准特征值。

子步骤S134，调整设定的最小支持度及设定的最小通用度使所述识别率大于所述预设识别率阈值，以得到应用特征。

特征候选集中的特征是通过关联规则得到的，而关联规则中存在支持度及信任度，信任度即上述通用度，因此可以通过调整设定的最小支持度及设定的最小通用度对提取的准特征值进行更新。

关联规则的定义是：假设I＝{I1，I2，...，Im}是项的集合。给定一个交易数据库，其中每个事务(Transaction)t是I的非空子集，即，每一个交易都与唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度是D事务红同时包含X、Y的百分比，即概率。置信度是D事务已经包含X的情况下，包含Y的百分比，即条件概率。若满足设定的最小支持度及设定的最小置信度，则认为关联规则是有趣的。

下面以举例子的形式介绍支持度及置信度。

TID	网球拍	网球	运动鞋	羽毛球
					1	1	1	1	0
2	1	1	0	0
					3	1	0	0	0
4	1	0	1	0
					5	0	1	1	1
6	1	1	0	0

上述表格是数据库D，包含6个事务。项集I＝{网球拍，网球，运动鞋，羽毛球}。考虑关联规则(频繁二项集)：网球拍与网球，事务1、2、3、4、6包含网球拍，事务1、2、6同时包含网球拍和网球，X^Y＝3，D＝6，支持度(X^Y)/D＝0.5；X＝5，置信度(X^Y)/X＝0.6。若设定的最小支持度α＝0.5，设定的最小置信度β＝0.6，认为购买网球拍和购买网球之间存在关联。

请参照图4，图4是图3中子步骤S134包括的部分子步骤的流程示意图。所述子步骤S134可以包括子步骤S1341及子步骤S1342。

子步骤S1341，保持设定的最小通用度不变，将设定的最小支持度调整到下一个阶度。

在本实施例中，预先设定一最小通用度，在设定的最小通用度保持不变的情况下，调整设定的最小支持度。其中，最小支持度和最小通用度的设置直接决定特征候选集的规模，而准特征值是根据特征候选集获得的，因此，通过调整最小支持度可以改变所述特征候选集的规模，从而得到可以识别出待测网络数据应用的准特征值。

在设定初值的时候，要根据协议本身的特点进行设置。为了提高算法的准确性，一般选择从大到小设置初值，最小通用度和最小支持度的初值都可以设置为0.5。在本实施例的实施方式中，预先设定最小通用度及最小支持度均为1，在设定的最小通用度保持不变的情况下，将设定的最小支持度依次减小0.1，从而将设定的最小支持度调整到下一个阶度。

子步骤S1342，根据调整后的最小支持度将所述准特征值中冗余的特征值进行滤出以更新准特征值，在更新后的准特征值对应的识别率大于所述预设识别率阈值时，停止调整最小支持度，同时输出更新后的准特征值对应的应用特征。

在本实施例中，根据调整后的最小支持度减少与待测网络数据应用无关的特征值，以对提取的准特征值进行更新，从而提高识别率。直到所述识别率不小于预设识别率阈值时，停止调整最小支持度，同时得到不小于预设识别率阈值的识别率对应的应用特征。

请参照图5，图5是图3中子步骤S134包括的另一部分子步骤的流程示意图。所述子步骤S134还可以包括子步骤S1344及子步骤S1345。

子步骤S1344，在将设定的最小支持度调整到最低阶度，且所述识别率仍然小于所述预设识别率阈值时，将设定的最小通用度调整到下一个阶度。

在本实施例中，在保持设定的最小通用度不变，最小支持度调整到最低阶度时，得到一准特征值。若通过所述准特征值对待测网络数据应用进行识别得到的识别率仍然低于预设识别率阈值时，则对设定的最小通用度进行调整，从而得到可以识别待测网络数据应用的应用特征。

在本实施例的实施方式中，可以通过将设定的最小通用度依次减小0.1的方式，对设定的最小通用度进行调整。

子步骤S1345，根据调整后的最小通用度将所述更新后的准特征值中冗余的特征值进行滤出以再次更新准特征值，在再次更新后的准特征值对应的识别率大于所述预设识别率阈值时，停止调整最小通用度，同时输出再次更新后的准特征值对应的应用特征。

由此，通过对设定的最小支持度及设定的最小通用度进行调节，自动提取应用特征，减少人工参与，提高应用特征的提取效率。

请参照图6，图6是本发明较佳实施例提供的网络数据应用的特征提取方法的另一种流程示意图。所述方法还可以包括步骤S110。

步骤S110，从所述网络应用层获得特征候选集。

请参照图7，图7是图6中步骤S110包括的子步骤的流程示意图。所述步骤S110可以包括子步骤S112及子步骤S113。

子步骤S112，设定最小支持度，并根据设定的最小支持度由网络应用层的会话数据获得频繁项集。

在本实施例中，通过频繁挖掘算法由网络应用层的会话数据得到频繁项集。会话是指一次通信过程中从开始到结束所有发送和接受的数据包构成的序列。频繁挖掘算法通过逐层迭代，由低维到高维得到频繁项集。并从得到的频繁项集中找到关联规则，可以通过增加关联规则中的通用度的方式，消除在少数会话子集中出现的频繁项，提高特征的普适性和挖掘效率。其中，由于关联规则是在频繁项集基础上产生的，因而可以保证这些规则的支持度达到指定的水平，具有普遍性和令人信服的水平。

请参照图8，图8是图7中子步骤S112包括的子步骤的流程示意图。所述子步骤S112可以包括子步骤S1121、子步骤S1122及子步骤S1123。

子步骤S1121，扫描会话数据，获得支持度大于设定的最小支持度的字符长度为1的频繁项子集。

在本实施例中，对得到的会话数据进行扫描，得到所有字符长度为1且支持度大于设定的最小支持度的频繁序列的集合。根据字符长度为1且支持度大于设定的最小支持度的频繁序列的集合得到字符长度为1的频繁子项集。

子步骤S1122，从上一字符长度的频繁项子集中获取字符长度加1的频繁项子集，直到不能根据已获得的频繁项子集获得字符长度更长的频繁项子集为止，以获得字符长度最长的频繁项子集。

在本实施例中，根据字符长度为1的频繁子项集获得字符长度为2的候选序列，再从候选序列中查找出支持度大于设定的最小支持度的序列，将其列入字符长度为2的频繁项子集。按照此方法由字符长度k获取字符k+1长度的频繁项子集。如此循环，直到没有更长的频繁字串为止。

子步骤S1123，由支持度大于设定的最小支持度的字符长度从1到字符长度最长对应的频繁项子集得到频繁项集。

子步骤S113，通过对所述频繁项集进行过滤得到特征候选集。

由于冗余项在会话数据中频繁出现，因此得到的频繁项集中存在很多冗余项。而冗余项是不能作为应用层的特征串，因此需按照过滤策略将所述频繁项集中的冗余项进行滤除，以得到冗余项较少或者不含冗余项的特征候选集，从而在对待测网络数据应用进行识别时，可以有效提高准确性。

在本实施例中，所述过滤策略包括以下的任意一种或者之间的任意组合：

在所述频繁项集中同时包括子串及原串，且子串与原串出现的次数相同时，将所述子串滤除；或

计算频繁项在频繁项集中的位置固定度，将所述位置固定度小于预设位置固定度对应的频繁项滤除；或

将所述频繁项集中与待测网络数据应用无关的频繁项滤除。

在本实施例的实施方式中，由于子串的支持度不小于原串的支持度，子串的通用度不小于原串的通用度，因此可以通过支持度及通用度分辨子串及原串。其中，对于一个字符串变量，比如“adereegfbw”，它的子串就是像“ader”这样可以从中找到的连续的字符串。字符串“adereegfbw”就是原串。

根据支持度的定义公式，由集合x与集合y的项在同一条会话记录中同时出现的次数/数据记录的个数，可以看出如果x是y的子串，且x的支持度是与y的支持度相等的，那么特征串y出现的次数和特征串x出现的次数就是相等的，这样可以认为y出现时都包含了x，所以过滤掉x。如果x的支持度是大于y的支持度，保留x可以得到较高的识别率，保留y可以保证较低的误报率，因此，在这种情况下，x和y都要保留。

在本实施例的实施方式中，由于应用特征项在会话中的位置比较固定，而冗余项的位置比较随机，因此可以通过统计每个频繁项在会话中的偏移量的大小来过滤冗余项。其中，频繁项在会话中的偏移量的大小可以用位置固定度表示，位置固定度越大，对应的频繁项是应用特征项的可能就越大。扫描频繁项在每个报文中的位置，计算得到每个频繁项的位置固定度。

将得到的位置固定度与预设位置固定度进行比较。若一频繁项的位置固定度小于预设位置固定度，表征该频繁项极可能是冗余项，因此将该频繁项滤除。若一频繁项的位置固定度不小于预设位置固定度，表征该频繁项在会话中的位置比较固定，极可能是应用特征项，因此将该频繁项保留。依照上述方法，可减少冗余项。

在本实施例的实施方式中，还可以通过检查频繁项在其他应用中是否出现过的方式减少冗余项。若一频繁项在其他应用中出现，则将该频繁项删除。因为除了待测网络数据应用之外还有很多网络应用，不可能把频繁项和其他应用的频繁项全部进行比较，通常只抽取和待测网络数据应用相近或者容易混淆的应用。通过这种方式可最大程度地滤除冗余项。

请参照图9，图9是本发明较佳实施例提供的网络数据应用的特征提取装置200的方框示意图。所述特征提取装置200可以包括读取模块220及特征提取模块230。

读取模块220，用于从网络应用层的特征候选集中读取待测网络数据应用对应的准特征值。

在本实施例中，所述读取模块220用于执行图2中的步骤S120，关于所述读取模块220的具体描述可以参照步骤S120的描述。

特征提取模块230，用于基于读取的准特征值对所述待测网络数据应用进行识别，根据识别结果从所述特征候选集中提取与所述待测网络数据应用对应的应用特征。

所述特征提取模块230可以包括：

识别子模块231，用于根据准特征值对待测网络数据应用进行识别，得到一识别率；

处理子模块232，用于在所述识别率大于预设识别率阈值时，将所述准特征值对应的应用特征输出；

处理子模块232，还用于在所述识别率小于预设识别率阈值时，通过调整设定的最小支持度及设定的最小通用度使所述识别率大于所述预设识别率阈值，以得到应用特征。

处理子模块232在所述识别率小于预设识别率阈值时，通过调整设定的最小支持度及设定的最小通用度使所述识别率大于所述预设识别率阈值，以得到应用特征的方式包括：

保持设定的最小通用度不变，将设定的最小支持度调整到下一个阶度；

根据调整后的最小支持度将所述准特征值中冗余的特征值进行滤出以更新准特征值，在更新后的准特征值对应的识别率大于所述预设识别率阈值时，停止调整最小支持度，同时输出更新后的准特征值对应的应用特征。

在本实施例中，所述特征提取模块230用于执行图2中的步骤S130，关于所述特征提取模块230的具体描述可以参照步骤S130的描述。

综上所述，本发明提供一种网络数据应用的特征提取方法及装置。由待测网络数据应用的网络应用层的特征候选集获得所述待测网络数据应用对应的准特征值。根据获得的准特征值对所述待测网络数据应用进行识别，得到识别结果。由识别结果从所述特征候选集中提取与所述待测网络数据应用对应的应用特征。通过上述方法，在通过网络应用层的特征对待测网络数据应用进行识别时，可以自动提取并更新特征，从而获取待测网络数据应用的应用特征，完成对待测网络数据应用的识别，提高应用识别的效率。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络数据应用的特征提取方法，其特征在于，所述方法包括：

基于读取的准特征值对所述待测网络数据应用进行识别，根据识别结果从所述特征候选集中提取与所述待测网络数据应用对应的应用特征；

其中，所述基于读取的准特征值对所述待测网络数据应用进行识别，根据识别结果从所述特征候选集中提取与所述待测网络数据应用对应的应用特征的步骤包括：

根据准特征值对待测网络数据应用进行识别，得到一识别率；

在所述识别率小于预设识别率阈值时，通过调整设定的最小支持度及设定的最小通用度使所述识别率大于所述预设识别率阈值，以得到应用特征；

其中，所述在所述识别率小于预设识别率阈值时，通过调整设定的最小支持度及设定的最小通用度使所述识别率大于所述预设识别率阈值，以得到应用特征的步骤包括：

2.根据权利要求1所述的方法，其特征在于，所述基于读取的准特征值对所述待测网络数据应用进行识别，根据识别结果从所述特征候选集中提取与所述待测网络数据应用对应的应用特征的步骤还包括：

在所述识别率大于预设识别率阈值时，将所述准特征值对应的应用特征输出。

3.根据权利要求1所述的方法，其特征在于，所述在所述识别率小于所述预设识别率阈值时，通过调整设定的最小支持度及设定的最小通用度使所述识别率大于所述预设识别率阈值，以得到应用特征的步骤还包括：

在将设定的最小支持度调整到最低阶度，且所述识别率仍然小于所述预设识别率阈值时，将设定的最小通用度调整到下一个阶度；

根据调整后的最小通用度将所述更新后的准特征值中冗余的特征值进行滤出以再次更新准特征值，在再次更新后的准特征值对应的识别率大于所述预设识别率阈值时，停止调整最小通用度，同时输出再次更新后的准特征值对应的应用特征。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述网络应用层获得特征候选集；

所述从所述网络应用层获得特征候选集的步骤包括：

设定最小支持度，并根据设定的最小支持度由网络应用层的会话数据获得频繁项集；

通过对所述频繁项集进行过滤得到特征候选集。

5.根据权利要求4所述的方法，其特征在于，所述设定最小支持度，并根据设定的最小支持度由网络应用层的会话数据获得频繁项集的步骤包括：

扫描会话数据，获得支持度大于设定的最小支持度的字符长度为1的频繁项子集；

从上一字符长度的频繁项子集中获取字符长度加1的频繁项子集，直到不能根据已获得的频繁项子集获得字符长度更长的频繁项子集为止，以获得字符长度最长的频繁项子集；

由支持度大于设定的最小支持度的字符长度从1到字符长度最长对应的频繁项子集得到频繁项集。

6.根据权利要求4所述的方法，其特征在于，所述通过对所述频繁项集进行过滤得到特征候选集的步骤包括：

按照过滤策略将所述频繁项集中的冗余项进行滤除以得到特征候选集。

7.根据权利要求6所述的方法，其特征在于，所述过滤策略包括以下的任意一种或者之间的任意组合：

将所述频繁项集中与待测网络数据应用无关的频繁项滤除。

8.一种网络数据应用的特征提取装置，其特征在于，所述装置包括：

特征提取模块，用于基于读取的准特征值对所述待测网络数据应用进行识别，根据识别结果从所述特征候选集中提取与所述待测网络数据应用对应的应用特征；

其中，所述特征提取模块包括：

识别子模块，用于根据准特征值对待测网络数据应用进行识别，得到一识别率；

处理子模块，用于在所述识别率小于预设识别率阈值时，通过调整设定的最小支持度及设定的最小通用度使所述识别率大于所述预设识别率阈值，以得到应用特征；

其中，所述处理子模块在所述识别率小于预设识别率阈值时，通过调整设定的最小支持度及设定的最小通用度使所述识别率大于所述预设识别率阈值，以得到应用特征的方式：保持设定的最小通用度不变，将设定的最小支持度调整到下一个阶度；根据调整后的最小支持度将所述准特征值中冗余的特征值进行滤出以更新准特征值，在更新后的准特征值对应的识别率大于所述预设识别率阈值时，停止调整最小支持度，同时输出更新后的准特征值对应的应用特征。

9.根据权利要求8所述的装置，其特征在于，

所述处理子模块，还用于在所述识别率大于预设识别率阈值时，将所述准特征值对应的应用特征输出。