CN108092792A

CN108092792A - 一种ott应用字节流特征提取方法和装置

Info

Publication number: CN108092792A
Application number: CN201611048356.8A
Authority: CN
Inventors: 廖振松; 王冼
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Hubei Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Hubei Co Ltd
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2018-05-29

Abstract

本发明公开一种OTT应用字节流特征提取方法和装置，涉及通信技术领域，为解决无法提取出能够识别OTT应用的OTT应用字节流特征的问题。该OTT应用字节流特征提取方法包括：获取字节流数据包训练集，字节流数据包训练集包括至少一个OTT应用字节流数据包；提取具有相同偏移量的OTT应用字节流数据包的前N个字节，组成特征项集合；根据提取出的特征项集合和预设的特征项的最小支持度，利用关联规则算法，从特征项集合中挖掘得到多个OTT应用的多个完全频繁项集；对多个OTT应用的多个完全频繁项集进行处理，得到OTT应用字节流特征。

Description

一种OTT应用字节流特征提取方法和装置

技术领域

本发明涉及通信技术领域，尤其涉及一种OTT应用字节流特征提取方法和装置。

背景技术

OTT(Over The Top)应用是指通过互联网直接向用户提供服务的应用。目前大量的OTT应用由运营商之外的第三方提供，并且都需要使用运营商提供的网络。

随着用户需求的提高，应用程序市场上出现了越来越多的OTT应用，越来越多的用户终端上安装有OTT应用。OTT应用花费的流量往往比较多，运营商提供的网络需要根据OTT应用来制定合适的网络流量管理策略。但由于运营商提供的网络无法得知当前进行业务的数据包是否为OTT应用的数据包，因此无法针对OTT应用制定合适的网络流量管理策略，使得用户在使用OTT应用时，可能会造成由于网络流量管理策略制定不当而引起的运营商的网络负担承载过大的问题。

发明内容

本发明实施例提供了一种OTT应用字节流特征提取方法和装置，能够根据提取出的OTT应用字节流特征来确定OTT应用，从而制定合适的网络流量管理策略，避免运营商的网络负担承载过大。

第一方面，本发明实施例提供一种OTT应用字节流特征提取方法，包括：获取字节流数据包训练集，字节流数据包训练集包括至少一个OTT应用字节流数据包；提取具有相同偏移量的OTT应用字节流数据包的前N个字节，组成特征项集合，其中，每一个字节为特征项集合中的一个特征项，N为大于0的正整数；根据提取出的特征项集合和预设的最小支持度，利用关联规则算法，从特征项集合中挖掘得到多个OTT应用的多个完全频繁项集；对多个OTT应用的多个完全频繁项集进行处理，得到OTT应用字节流特征。

进一步地，在从特征项集合中挖掘得到多个OTT应用的多个完全频繁项集的步骤之后，还包括：根据多个OTT应用的多个完全频繁项集中第一个完全频繁项的位置的平均值，对最小支持度进行修正，具有不同偏移量的OTT应用字节流数据包对应有不同的完全频繁项集；根据挖掘得到的多个OTT应用的多个完全频繁项集，得到OTT应用字节流特征的步骤，包括：根据修正后的最小支持度，对挖掘得到的OTT应用的完全频繁项集进行过滤，将过滤后的OTT应用的完全频繁项集作为OTT应用字节流特征。

具体的，提取具有相同偏移量的OTT应用字节流数据包的前N个字节，组成特征项集合的步骤包括：提取具有相同偏移量的OTT应用字节流数据包的前N个字节；对前N个字节中的每一个字节进行编码，由编码后的每一个字节组成特征项集合，其中，编码后的每一个字节为特征项集合中的一个特征项。

具体的，根据提取出的特征项集合和预设的特征项的最小支持度，利用关联规则算法，从特征项集合中挖掘得到多个OTT应用的多个完全频繁项集的步骤包括：利用关联规则算法对提取出的特征项集合进行处理，得到提取出的特征项集合的频繁项；从特征项集合的频繁项中选取频繁项的支持度大于预设的最小支持度的频繁项，组成多个OTT应用的多个完全频繁项集。

具体的，根据多个OTT应用的多个完全频繁项集中第一个完全频繁项的位置的平均值，对最小支持度进行修正的步骤包括：根据以下公式对最小支持度进行修正：

sup_new(X)＝sup(X)×k₁，pos＝0，

sup_new(X)＝sup(X)×f₁(pos)，pos≠0，

其中，sup_new(X)表示经过修正后的最小支持度，sup(X)表示修正前的最小支持度，pos表示多个OTT应用的多个完全频繁项集中第一个完全频繁项的位置的平均值，0.9≤k₁＜1，f₁(pos)是当pos＞0时的一个关于pos的连续单调减函数，且0＜f₁(pos)≤k₁。

具体的，根据修正后的最小支持度，对挖掘得到的多个OTT应用的多个完全频繁项集进行过滤，将过滤后的OTT应用的完全频繁项集作为OTT应用字节流特征的步骤包括：从挖掘得到的多个OTT应用的多个完全频繁项集中选取完全频繁项的个数小于等于预设频繁项个数阈值的完全频繁项集，作为备选完全频繁项集；选取完全频繁项的支持度大于修正后的最小支持度的备选完全频繁项集作为OTT应用字节流特征。

进一步地，上述OTT应用字节流特征提取方法，还包括：利用OTT应用字节流特征识别OTT应用的数据包。

具体的，预设的最小支持度为0.02。

第二方面，本发明实施例提供一种OTT应用字节流特征提取装置，包括：训练集获取模块，被配置为获取字节流数据包训练集，字节流数据包训练集包括至少一个OTT应用字节流数据包；特征项集合获取模块，被配置为提取具有相同偏移量的OTT应用字节流数据包的前N个字节，组成特征项集合，其中，每一个字节为特征项集合中的一个特征项，N为大于0的正整数；挖掘模块，被配置为根据提取出的特征项集合和预设的最小支持度，利用关联规则算法，从特征项集合中挖掘得到多个OTT应用的多个完全频繁项集；字节流特征获取模块，被配置为对多个OTT应用的多个完全频繁项集进行处理，得到OTT应用字节流特征。

进一步地，上述OTT应用字节流特征提取装置，还包括：修正模块，被配置为根据多个OTT应用的多个完全频繁项集中第一个完全频繁项的位置的平均值，对最小支持度进行修正，具有不同偏移量的OTT应用字节流数据包对应有不同的完全频繁项集；字节流特征获取模块还被配置为根据修正后的最小支持度，对挖掘得到的多个OTT应用的多个完全频繁项集进行过滤，将过滤后的OTT应用的完全频繁项集作为OTT应用字节流特征。

具体的，特征项集合获取模块被配置为：提取具有相同偏移量的OTT应用字节流数据包的前N个字节；对前N个字节中的每一个字节进行编码，由编码后的每一个字节组成特征项集合，其中，编码后的每一个字节为特征项集合中的一个特征项。

具体的，挖掘模块被配置为：利用关联规则算法对提取出的特征项集合进行处理，得到提取出的特征项集合的频繁项；从特征项集合的频繁项中选取频繁项的支持度大于预设的最小支持度的频繁项，组成多个OTT应用的多个完全频繁项集。

具体的，修正模块被配置为根据以下公式对最小支持度进行修正：

sup_new(X)＝sup(X)×k₁，pos＝0，

sup_new(X)＝sup(X)×f₁(pos)，pos≠0，

其中，sup_new(X)表示经过修正后的最小支持度，sup(X)表示修正前的最小支持度，pos表示多个OTT应用的多个完全频繁项集中第一个完全频繁项的位置的平均值，0.9≤k₁＜1，f1(pos)是当pos＞0时的一个关于pos的连续单调减函数，且0＜f₁(pos)≤k₁。

具体的，字节流特征获取模块被配置为：从挖掘得到的多个OTT应用的多个完全频繁项集中选取完全频繁项的个数小于等于预设频繁项个数阈值的完全频繁项集，作为备选完全频繁项集；选取完全频繁项的支持度大于修正后的最小支持度的备选完全频繁项集作为OTT应用字节流特征。

进一步地，上述OTT应用字节流特征提取装置，还包括：OTT应用识别模块，被配置为利用OTT应用字节流特征识别OTT应用的数据包。

具体的，预设的最小支持度为0.02。

本发明实施例提供的OTT应用字节流特征提取方法和装置，可以获取字节流数据包训练集，提取具有相同偏移量的OTT应用字节流数据包的前N个字节，组成所述特征项集合，利用关联规则算法，通过特征项集合和最小支持度，得到OTT应用的完全频繁项集，根据OTT应用的完全频繁项集，得到OTT应用字节流特征。运营商的网络可以根据本发明实施例中提取出的OTT应用字节流特征来判定网络中传输的数据包是否为OTT应用的数据包，从而使得当用户使用OTT应用时，能够针对OTT应用制定合适的网络流量管理策略，避免运营商的网络负担承载过大。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中，相同或相似的附图标记表示相同或相似的特征。

图1为本发明一实施例提供的OTT应用字节流特征提取方法的流程图；

图2为本发明另一实施例提供的OTT应用字节流特征提取方法的流程图；

图3为本发明又一实施例中提供的OTT应用字节流特征提取方法的流程图；

图4为本发明一实施例提供的OTT应用字节流特征提取装置的结构示意图；

图5为本发明另一实施例提供的OTT应用字节流特征提取装置的结构示意图；

图6为本发明又一实施例提供的OTT应用字节流特征提取装置的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例。在下面的详细描述中，提出了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说很明显的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中，没有示出公知的结构和技术，以便避免对本发明造成不必要的模糊。

图1为本发明一实施例提供的OTT应用字节流特征提取方法的流程图，如图1所示的OTT应用字节流特征提取方法包括步骤101-步骤104。

在步骤101中，获取字节流数据包训练集。

其中，可以预先设置一个训练数据库，从训练数据库中随机选取数据包组成字节流数据包训练集。需要说明的是，字节流数据包训练集包括至少一个OTT应用字节流数据包。字节流数据包训练集是纯净的，也就是说，字节流数据包训练集包括同一种类型的字节流数据包。OTT应用是指通过互联网向用户提供各种应用服务，OTT应用利用运营商的网络，而服务由运营商之外的第三方提供。比如，互联网电视业务就是一种OTT应用业务。

在步骤102中，提取具有相同偏移量的OTT应用字节流数据包的前N个字节，组成特征项集合。

其中，每一个字节为特征项集合中的一个特征项，N为大于0的正整数。具体的，针对同一偏移量的OTT应用字节流数据包，可以迭代地提取OTT应用字节流数据包的前N个字节。比如，针对同一偏移量的OTT应用字节流数据包，可以先提取OTT应用字节流数据包的前1个字节(即OTT应用字节流数据包的第1个字节)，组成第一个特征项集合；再提取OTT应用字节流数据包的前2个字节(即OTT应用字节流数据包的第1个字节和第2个字节)，组成第二个特征项集合；再提取OTT应用字节流数据包的前3个字节(即OTT应用字节流数据包的第1个字节、第2个字节和第3个字节)，组成第三个特征项集合；以此类推，直至无法得到OTT应用字节流数据包的特征项集合。为了防止偏移量太小使得提取到的特征项集合在后续流程中不足以得到能够识别OTT应用的OTT应用字节流特征，针对偏移量，需要迭代提取具有相同偏移量的OTT应用字节流数据包的前N个字节。比如，先提取偏移量均为1的OTT应用字节流数据包的前N个字节，再提取偏移量均为2的OTT应用字节流数据包的前N个字节，以此类推，直至提取的具有相同偏移量的OTT应用字节流数据包的前N个字节足以在后续流程中得到能够识别出OTT应用的OTT应用字节流特征为止。

需要说明的是，在一可选实施例中，为了能够提高后续流程中挖掘得到OTT应用的完全频繁项集的效率，可以对具有相同偏移量的OTT应用字节流数据包的前N个字节进行编码，将编码后的具有相同偏移量的OTT应用字节流数据包的前N个字节组成特征项集合。也就是说，步骤102可以为：提取具有相同偏移量的OTT应用字节流数据包的前N个字节；对提取出的前N个字节中的每一个字节进行编码，由编码后的每一个字节组成特征项集合。在这种情况中，编码后的每一个字节为特征项集合中的一个特征项。编码方法在此并不限定，比如，将偏移量为M的OTT应用字节流数据包的前N个字节中的每一个字节，编码为一个特征项。该特征项包括5个字符，第1个字符为I；第2个字符和第3个字符表示该字节在应用层载荷中的位置的从零开始计数的十六进制表示；第4个字符和第5个字符是该字节的十六进制表示值。经过编码后的OTT应用字节流数据包的前N个字节可以表示为{I00xx，I01xx，I02xx，…，I0Nxx}。根据经过编码后的OTT应用字节流数据包的前N个字节组成的特征项集合，在后续利用关联规则算法挖掘OTT应用的完全频繁项集时，能够提高关联规则算法的效率。

在步骤103中，根据提取出的特征项集合和预设的最小支持度，利用关联规则算法，从特征项集合中挖掘得到多个OTT应用的多个完全频繁项集。

其中，关联规则算法可以采用Apriori算法，也可以采用其他关联规则算法，在此并不限定。特征项集合可以用I表示，I＝{I1，I2，…，Im}，m为正整数，Ii为特征项集合中的第i个特征项，1≤i≤m。

具体的，可以先利用关联规则算法和特征项集合，得到特征项集合的频繁项。由于频繁项的计算方法已经比较成熟，故在此不再赘述。需要说明的是，特征项集合包括未经编码的具有相同偏移量的OTT应用字节流数据包的前N个字节；或者，该特征项集合包括经过编码的具有相同偏移量的OTT应用字节流数据包的前N个字节。在频繁项中选取频繁项的支持度大于预设的最小支持度的频繁项，组成OTT应用的完全频繁项集。

在步骤104中，对多个OTT应用的多个完全频繁项集进行处理，得到OTT应用字节流特征。

其中，可以将挖掘得到的OTT应用的完全频繁项集中的完全频繁项按照完全频繁项在原来的特征项集合中的位置，从左到右递增排列，将完全频繁项经过排列后的完全频繁项集，作为OTT应用字节流特征。若特征项集合中包括的是未经编码的具有相同偏移量的OTT应用字节流数据包的前N个字节，则可以将根据特征项集合挖掘得到的OTT应用的完全频繁项集，作为OTT应用字节流特征。若特征项集合中包括的是经过编码的具有相同偏移量的OTT应用字节流数据包的前N个字节，则可以将根据特征项集合挖掘得到的OTT应用的完全频繁项集中的完全频繁项进行解码，将解码后的完全频繁项集作为OTT应用字节流特征，便于与网络中的数据包的字节流特征进行比对，判定OTT应用。

本发明实施例提供的OTT应用字节流特征提取方法，从获取的字节流数据包训练集中，提取具有相同偏移量的OTT应用字节流数据包的前N个字节，组成所述特征项集合，利用关联规则算法，通过特征项集合和预设的最小支持度，得到OTT应用的完全频繁项集，根据OTT应用的完全频繁项集，得到OTT应用字节流特征。运营商的网络可以根据本发明实施例中提取出的OTT应用字节流特征来判定网络中传输的数据包是否为OTT应用的数据包，从而使得当用户使用OTT应用时，能够针对OTT应用制定合适的网络流量管理策略，避免运营商的网络负担承载过大。

需要说明的是，上述实施例中预设的最小支持度可以为0.02，当最小支持度小于0.02时，可在OTT应用字节流数据包中挖掘到更多的OTT应用字节流特征，但这些OTT应用字节流特征之间的冗余较多，且对网络中的数据包是否为OTT应用的数据包的识别率并没有上升，而关联规则算法的效率因挖掘过滤掉过多冗余的完全频繁项而降低。当最小支持度大于0.02时，会丢失部分OTT应用字节流特征。因此，权衡OTT应用字节流特征提取的准确性和效率，选定预设的最小支持度为0.02。

图2为本发明另一实施例提供的OTT应用字节流特征提取方法的流程图，图2中的步骤101-步骤103与图1中的步骤101-步骤103基本相同。不同之处在于，图2所示的OTT应用字节流特征提取方法还包括步骤105，对应的，图1中的步骤104在图2中可以具体细化为步骤1041。

在步骤105中，根据多个OTT应用的多个完全频繁项集中第一个完全频繁项的位置的平均值，对最小支持度进行修正。

其中，由于字节流数据包训练集中的OTT应用字节流数据包可能不同，OTT应用字节流数据包的偏移量的起始位置可能不同，以及完全频繁项集中的完全频繁项之间的平均距离可能不同，在实际操作中，需要对最小支持度进行修正。具体的，可以根据以下公式(1)和公式(2)对最小支持度进行修正：

sup_new(X)＝sup(X)×k₁，pos＝0 公式(1)

sup_new(X)＝sup(X)×f₁(pos)，pos≠0 公式(2)

其中，sup_new(X)表示经过修正后的最小支持度，sup(X)表示修正前的最小支持度。pos_0i表示OTT应用的第i个完全频繁项集中第一个完全频繁项的位置，pos_0i即为OTT应用字节流数据包的偏移量的起始位置到频繁项集项的距离，M为OTT应用的完全频繁项集的数目，1≤i≤M。对于多个偏移量不同的OTT应用字节流数据包求得其各自第一个完全频繁项的位置pos_0i，然后求多个pos_0i的平均数pos，pos表示多个OTT应用的多个完全频繁项集中第一个完全频繁项的位置的平均值。也就是说，pos即为多个偏移量不同的OTT应用字节流数据包中偏移量的起始位置到频繁项集之间的平均距离。k₁为一个常数，且0.9≤k₁＜1，f₁(pos)是当pos＞0时的一个关于pos的连续单调减函数，且0＜f₁(pos)≤k₁。

在步骤1041中，根据修正后的最小支持度，对挖掘得到的多个OTT应用的多个完全频繁项集进行过滤，将过滤后的OTT应用的完全频繁项集作为OTT应用字节流特征。

由于在步骤105中对最小支持度进行了修正，因此，上述实施例中的步骤104的内容可以具体细化为上述步骤1041的内容。从挖掘得到的多个OTT应用的多个完全频繁项集中选取完全频繁项的个数小于等于预设频繁项个数阈值的完全频繁项集，作为备选完全频繁项集。选取完全频繁项的支持度大于修正后的最小支持度的备选完全频繁项集作为OTT应用字节流特征。

比如，预设频繁项个数阈值为4，则选取完全频繁项的数目小于等于4的完全频繁项集作为备选完全频繁项集。也就是说，备选完全频繁项集中的完全频繁项的数目最大为4。将完全频繁项的支持度小于等于修正后的最小支持度sup_new(X)的备选完全频繁项集过滤掉，选取完全频繁项的支持度大于修正后的最小支持度sup_new(X)的备选完全频繁项集作为OTT应用字节流特征。

本发明实施例提供的OTT应用字节流特征提取方法，对最小支持度进行了修正，并利用修正后的最小支持度对OTT应用的完全频繁集项进行过滤，从而得到OTT应用字节流特征。本发明实施例中得到的OTT应用字节流对识别OTT应用的数据包的准确性更高，可以提高OTT应用的数据包的识别的精准度。

图3为本发明又一实施例中提供的OTT应用字节流特征提取方法的流程图，图3中的步骤101-步骤104与图1中的步骤101-步骤104基本相同。不同之处在于，图3所示的OTT应用字节流特征提取方法还包括步骤106。

在步骤106中，利用OTT应用字节流特征识别OTT应用的数据包。

其中，可以将上述实施例中提取到的OTT应用字节流特征存储在数据库中。当网络中存在未知数据包时，可以提取未知数据包的字节流特征，根据存储在数据库中的OTT应用字节流特征，判断未知数据包的字节流特征与存储在数据库中的OTT应用字节流特征是否匹配。若未知数据包的字节流特征与存储在数据库中的OTT应用字节流特征匹配，则判断该未知数据包为OTT应用的数据包；若未知数据包的字节流特征与存储在数据库中的OTT应用字节流特征不匹配，则判断该未知数据包不是OTT应用的数据包。

比如：QQ属于OTT应用，利用本发明实施例中的OTT应用字节流特征提取方法，能够提取到QQ登录时的字节流特征{0X，02，30，37}，QQ在线即时通信的字节流特征{0X，00，30，37}与{0X，03，30，37}。若网络中的未知数据包中提取到的字节流特征与上述QQ登录时的字节流特征或QQ在线即时通信的字节流特征相同，则表明未知数据包为QQ登录的数据包或QQ在线即时通信的数据包。

图4为本发明一实施例提供的OTT应用字节流特征提取装置的结构示意图，如图4所示的OTT应用字节流特征提取装置200包括训练集获取模块201、特征项集合获取模块202、挖掘模块203和字节流特征获取模块204。

其中，训练集获取模块201，可被配置为获取字节流数据包训练集，字节流数据包训练集包括至少一个OTT应用字节流数据包。

特征项集合获取模块202，可被配置为提取具有相同偏移量的OTT应用字节流数据包的前N个字节，组成特征项集合，其中，每一个字节为特征项集合中的一个特征项，N为大于0的正整数。

挖掘模块203，可被配置为根据提取出的特征项集合和预设的最小支持度，利用关联规则算法，从特征项集合中挖掘得到多个OTT应用的多个完全频繁项集。

需要说明的是，预设的最小支持度可为0.02。

字节流特征获取模块204，可被配置为对多个OTT应用的多个完全频繁项集进行处理，得到OTT应用字节流特征。

本发明实施例提供的OTT应用字节流特征提取装置200，可以获取字节流数据包训练集，提取具有相同偏移量的OTT应用字节流数据包的前N个字节，组成特征项集合，利用关联规则算法，通过特征项集合和预设的最小支持度，得到OTT应用的完全频繁项集，根据OTT应用的完全频繁项集，得到OTT应用字节流特征。运营商的网络可以根据本发明实施例中提取出的OTT应用字节流特征来判定网络中传输的数据包是否为OTT应用的数据包，从而使得当用户使用OTT应用时，能够针对OTT应用制定合适的网络流量管理策略，避免运营商的网络负担承载过大。

需要说明的是，上述实施例中的特征项集合获取模块202可具体被配置为：提取具有相同偏移量的OTT应用字节流数据包的前N个字节；对具有相同偏移量的OTT应用字节流数据包的前N个字节中的每一个字节进行编码，由编码后的每一个字节组成特征项集合，其中，编码后的每一个字节为特征项集合中的一个特征项。

上述实施例中的挖掘模块203可具体被配置为：利用关联规则算法对提取出的特征项集合进行处理，得到提取出的特征项集合的频繁项；从特征项集合的频繁项中选取频繁项的支持度大于预设的最小支持度的频繁项，组成多个OTT应用的多个完全频繁项集。

图5为本发明另一实施例提供的OTT应用字节流特征提取装置的结构示意图，图5中的训练集获取模块201、特征项集合获取模块202、挖掘模块203和字节流特征获取模块204与图4中的训练集获取模块201、特征项集合获取模块202、挖掘模块203和字节流特征获取模块204基本相同。不同之处在于，图5所示的OTT应用字节流特征提取装置还包括修正模块205。

其中，修正模块205，被配置为根据多个OTT应用的多个完全频繁项集中第一个完全频繁项的位置的平均值，对最小支持度进行修正，具有不同偏移量的OTT应用字节流数据包对应有不同的完全频繁项集。

对应的，上述实施例中的字节流特征获取模块202还可被配置为根据修正后的最小支持度，对挖掘得到的多个OTT应用的多个完全频繁项集进行过滤，将过滤后的OTT应用的完全频繁项集作为OTT应用字节流特征。

需要说明的是，上述修正模块205具体被配置为根据以下公式(1)和公式(2)对最小支持度进行修正：

sup_new(X)＝sup(X)×k₁，pos＝0 公式(1)

sup_new(X)＝sup(X)×f₁(pos)，pos≠0 公式(2)

对应的，上述实施例中的字节流特征获取模块204可具体被配置为：从挖掘得到的多个OTT应用的多个完全频繁项集中选取完全频繁项的个数小于等于预设频繁项个数阈值的完全频繁项集，作为备选完全频繁项集；选取完全频繁项的支持度大于修正后的最小支持度的备选完全频繁项集作为OTT应用字节流特征。

本发明实施例提供的OTT应用字节流特征提取装置200，对最小支持度进行了修正，并利用修正后的最小支持度对OTT应用的完全频繁集项进行过滤，从而得到OTT应用字节流特征。本发明实施例中得到的OTT应用字节流对识别OTT应用的数据包的准确性更高，可以提高OTT应用的数据包的识别的精准度。

图6为本发明又一实施例提供的OTT应用字节流特征提取装置的结构示意图，图6中的训练集获取模块201、特征项集合获取模块202、挖掘模块203和字节流特征获取模块204与图4中的训练集获取模块201、特征项集合获取模块202、挖掘模块203和字节流特征获取模块204基本相同。不同之处在于，图6所示的OTT应用字节流特征提取装置还包括OTT应用识别模块206。其中，OTT应用识别模块206可被配置为利用OTT应用字节流特征识别OTT应用的数据包。

本发明实施例提供的OTT应用字节流特征提取装置200，能够准确的识别网络中的未知数据包是否为OTT应用的数据包。

以上所述的结构示意图中所示的功能模块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

但是，需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对已知方法技术的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神之后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

Claims

1.一种OTT应用字节流特征提取方法，包括：

获取字节流数据包训练集，所述字节流数据包训练集包括至少一个OTT应用字节流数据包；

提取具有相同偏移量的OTT应用字节流数据包的前N个字节，组成所述特征项集合，其中，每一个字节为所述特征项集合中的一个特征项，N为大于0的正整数；

根据提取出的特征项集合和预设的最小支持度，利用关联规则算法，从所述特征项集合中挖掘得到多个所述OTT应用的多个完全频繁项集；

对多个所述OTT应用的多个完全频繁项集进行处理，得到所述OTT应用字节流特征。

2.根据权利要求1所述的OTT应用字节流特征提取方法，在从所述特征项集合中挖掘得到多个所述OTT应用的多个完全频繁项集的步骤之后，还包括：

根据多个OTT应用的多个完全频繁项集中第一个完全频繁项的位置的平均值，对所述最小支持度进行修正，具有不同偏移量的OTT应用字节流数据包对应有不同的完全频繁项集；

对多个所述OTT应用的多个完全频繁项集进行处理，得到所述OTT应用字节流特征的步骤，包括：

根据修正后的最小支持度，对挖掘得到的多个所述OTT应用的多个完全频繁项集进行过滤，将过滤后的OTT应用的完全频繁项集作为OTT应用字节流特征。

3.根据权利要求1所述的OTT应用字节流特征提取方法，其中，提取具有相同偏移量的OTT应用字节流数据包的前N个字节，组成所述特征项集合的步骤包括：

提取具有相同偏移量的OTT应用字节流数据包的前N个字节；

对所述前N个字节中的每一个字节进行编码，由编码后的每一个字节组成所述特征项集合，其中，编码后的每一个字节为所述特征项集合中的一个特征项。

4.根据权利要求1所述的OTT应用字节流特征提取方法，其中，根据提取出的特征项集合和预设的特征项的最小支持度，利用关联规则算法，从所述特征项集合中挖掘得到多个所述OTT应用的多个完全频繁项集的步骤包括：

利用关联规则算法对所述提取出的特征项集合进行处理，得到所述提取出的特征项集合的频繁项；

从所述特征项集合的频繁项中选取频繁项的支持度大于所述预设的最小支持度的频繁项，组成多个所述OTT应用的多个完全频繁项集。

5.根据权利要求2所述的OTT应用字节流特征提取方法，其中，根据多个OTT应用的多个完全频繁项集中第一个完全频繁项的位置的平均值，对所述最小支持度进行修正的步骤包括：

根据以下公式对最小支持度进行修正：

sup_new(X)＝sup(X)×k₁，pos＝0，

sup_new(X)＝sup(X)×f₁(pos)，pos≠0，

6.根据权利要求2所述的OTT应用字节流特征提取方法，其中，根据修正后的最小支持度，对挖掘得到的多个OTT应用的多个完全频繁项集进行过滤，将过滤后的OTT应用的完全频繁项集作为OTT应用字节流特征的步骤包括：

从挖掘得到的多个OTT应用的多个完全频繁项集中选取完全频繁项的个数小于等于预设频繁项个数阈值的完全频繁项集，作为备选完全频繁项集；

选取完全频繁项的支持度大于修正后的最小支持度的备选完全频繁项集作为所述OTT应用字节流特征。

7.根据权利要求1所述的OTT应用字节流特征提取方法，还包括：

利用所述OTT应用字节流特征识别OTT应用的数据包。

8.根据权利要求1-6中任意一项所述的OTT应用字节流特征提取方法，其中，所述预设的最小支持度为0.02。

9.一种OTT应用字节流特征提取装置，包括：

训练集获取模块，被配置为获取字节流数据包训练集，所述字节流数据包训练集包括至少一个OTT应用字节流数据包；

特征项集合获取模块，被配置为提取具有相同偏移量的OTT应用字节流数据包的前N个字节，组成所述特征项集合，其中，每一个字节为所述特征项集合中的一个特征项，N为大于0的正整数；

挖掘模块，被配置为根据提取出的特征项集合和预设的最小支持度，利用关联规则算法，从所述特征项集合中挖掘得到多个所述OTT应用的多个完全频繁项集；

字节流特征获取模块，被配置为对多个所述OTT应用的多个完全频繁项集进行处理，得到所述OTT应用字节流特征。

10.根据权利要求9所述的OTT应用字节流特征提取装置，还包括：

修正模块，被配置为根据多个OTT应用的多个完全频繁项集中第一个完全频繁项的位置的平均值，对所述最小支持度进行修正，具有不同偏移量的OTT应用字节流数据包对应有不同的完全频繁项集；

所述字节流特征获取模块还被配置为根据修正后的最小支持度，对挖掘得到的多个OTT应用的多个完全频繁项集进行过滤，将过滤后的OTT应用的完全频繁项集作为OTT应用字节流特征。

11.根据权利要求9所述的OTT应用字节流特征提取装置，其中，所述特征项集合获取模块具体被配置为：

提取具有相同偏移量的OTT应用字节流数据包的前N个字节；

12.根据权利要求9所述的OTT应用字节流特征提取装置，其中，所述挖掘模块具体被配置为：

13.根据权利要求10所述的OTT应用字节流特征提取装置，其中，所述修正模块具体被配置为根据以下公式对最小支持度进行修正：

sup_new(X)＝sup(X)×k₁，pos＝0，

sup_new(X)＝sup(X)×f₁(pos)，pos≠0，

14.根据权利要求10所述的OTT应用字节流特征提取装置，其中，所述字节流特征获取模块具体被配置为：

15.根据权利要求9所述的OTT应用字节流特征提取装置，还包括：

OTT应用识别模块，被配置为利用所述OTT应用字节流特征识别OTT应用的数据包。

16.根据权利要求9-14中任意一项所述的OTT应用字节流特征提取装置，其中，所述预设的最小支持度为0.02。