CN112104518A

CN112104518A - 一种比特数据特征挖掘方法、系统、设备及可读介质

Info

Publication number: CN112104518A
Application number: CN201910789662.4A
Authority: CN
Inventors: 李雪; 姚秀娟; 王春梅; 闫毅; 高翔; 范亚楠
Original assignee: National Space Science Center of CAS
Current assignee: National Space Science Center of CAS
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2020-12-18
Anticipated expiration: 2039-08-26
Also published as: CN112104518B

Abstract

本发明公开了一种比特数据特征挖掘方法、系统、设备及可读介质，该方法包括：统计未知协议的通信数据中的长度为k的序列的出现位置，统计序列出现次数并排序；根据每个序列的出现位置计算相邻2个出现位置的位置间隔值，统计各位置间隔值的数量，获得优势位置间隔值；根据优势位置间隔值、其出现的次数以及数据库中数据的长度，计算优势位置间隔值出现的比例，对优势位置间隔值出现的比例和设定的阈值比较，根据比较结果确定频繁序列，将具有强关联规则的频繁序列归纳为极大频繁模式集；根据极大频繁模式集提取极大频繁项，将极大频繁项与协议的特征集合对比，查找与极大频繁项符合的协议特征项，获得比特数据单元采用的协议特征和数据格式信息。

Description

一种比特数据特征挖掘方法、系统、设备及可读介质

技术领域

本发明属于信息识别技术领域，具体而言，涉及一种比特数据特征挖掘方法、系统、设备及可读介质。

背景技术

随着人类探索空间活动的日益频繁，通讯协议种类日益增多，不同国家不同项目所选用的通信协议通常有或大或小的差异。面向建立空地一体化通信网络的迫切需求，为了解决因协议未知而造成的通信障碍，信息捕获不足等问题，协议特征信息识别技术研究成为一个重要的课题。通过对现有通信协议的数据结构进行研究可知，数据单元中通常都含有具有特定意义的标识序列，例如同步字、各类标识符、编码后的特征序列等。这类序列通常位于数据单元的固定位置，因此一般呈规律性地出现，识别这些特征序列对未知协议的识别具有重要意义。

关联规则挖掘是数据挖掘研究的一个重要分支，关联规则挖掘是在数据中查找存在于项目集合中的频繁模式、关联、相关性或因果结构。关联规则挖掘中的关键步骤之一即为频繁项集的挖掘，关联规则挖掘效率的关键也由频繁项集的挖掘算法决定。现有的经典频繁项集挖掘算法包含Apriori算法、Partition算法、FP-Growth算法等。Apriori算法是一种发现频繁项集的重要经典算法，算法利用“频繁项集的所有非空子集也一定是频繁的”这一先验性质，使用逐层搜索的迭代方法。随后，为了降低Apriori算法产生候选集的数量和扫描数据库的次数，先后出现了基于散列、事物剪枝、数据库分区、抽样、动态项集计数以及建立压缩性的数据结构等优化算法。Partition算法就是其中基于数据库分区的优化算法，该算法分块应用Apriori算法，需要遍历数据库两次，降低了扫描数据库的次数。FP-growth算法为了压缩被搜索的数据集大小，在内存中构造了一个FP-tree，将数据库中的项目以共享前缀的方式压缩到FP-tree上，该算法也仅需扫描两次数据库，FP-growth算法对于挖掘长的频繁模式和短的频繁模式都是有效的和可伸缩的，并且比Apriori算法快一个数量级。

上述算法直接应用于链路特征序列识别存在不足之处：利用Apriori算法会产生大量的候选项集，在数据文件较大时，重复扫描数据文件也会造成极大的资源开销；Partition算法虽然很好地解决了多次重复扫描数据库造成的资源开销问题，但在事务边际模糊的情况下，不能直接应用于频繁序列挖掘；FP-growth算法中能显著压缩数据存储空间的FP-tree结构，在面对通信数据特征字识别的情况下，也会失去优势，这是因为通信协议中的数据帧长度较长。具体分析如下：假设数据库包含的项集为I＝{i₁,i₂,...,i_q}，当数据库事务集具有互异性时，事务包含的项最多为q则经过推导计算，q个项可能产生的事务构成的最大FP树占用的空间SPACE_set仅与项的种类q有关，为

与项集不同，数据单元本身具有有序性且包含的序列不具备互异性，因此在构建的FP树是q叉树满树，最大占用空间SPACE_sequence不仅与字符集q大小有关，还与数据单元长度n有关，为

可以明显看出，数据FP树的空间占用度随着数据单元长度的增加呈指数上升，当q、n较大时，非常容易造成FP树占用存储空间过大的情况。

此外值得注意的是，上述经典算法是从{TID:itemset}，即水平数据格式的事务集中挖掘频繁模式。在挖掘大型数据库时会产生大量频繁项集，导致产生大量冗余信息。

综上所述，以上经典算法解决了数据挖掘中频繁项集挖掘的关键问题，但是在一体化通信网络中，面对种类繁多、数量繁杂的通信数据流，上述算法无法有效的进行数据特征信息提取。

发明内容

本发明的目的在于解决面对种类繁多、数量繁杂的通信数据流，现有的经典算法无法有效的进行数据特征信息提取的问题。

为实现上述目的，本发明提出一种比特数据特征挖掘方法，能够使计算机在不占用大量内存空间和I/O资源情况下，实现对未知通信协议数据特征识别，并且允许数据存在一定的误码；所述方法包括：

统计未知协议的链路通信数据文件中的每个长度为k的序列出现位置，并对所述序列出现次数进行统计并排序；

根据每个序列的出现位置计算相邻2个出现位置的位置间隔值，统计各位置间隔值的数量，数量最多的位置间隔值为优势位置间隔值；

根据优势位置间隔值、其出现的次数以及数据库中比特数据单元的长度，计算优势位置间隔值出现的比例，对优势位置间隔值出现的比例和设定的阈值比较，根据比较结果确定频繁序列，并依据频繁序列出现的位置，将具有强关联规则的频繁序列归纳为极大频繁模式集；

在极大频繁模式集中提取极大频繁项，将极大频繁项与协议的特征集合对比，查找与极大频繁项相符合的协议特征项，获得比特数据单元采用的协议特征和数据格式信息。

作为所述方法的一种改进，所述统计未知协议的链路通信数据文件中的每个长度为k的序列出现位置，并对所述序列出现次数进行统计并排序；具体包括：

步骤1-1)利用垂直投影技术存储未知协议的通信数据文件，将数据文件中的比特数据单元D由水平数据格式{TID:itemset}转化为垂直数据格式，即{item:TID_set}格式；

步骤1-2)统计比特数据单元D的长度；对垂直比特数据单元D分段扫描，记录每个长度为k的序列出现的位置，并统计每个所述序列出现次数；k小于数据单元长度；

步骤1-3)对每个所述序列出现的次数按从大到小的顺序进行排序。

作为所述方法的一种改进，在步骤1-3)之后还设置规避集合E，所述规避集合E为填充数列的集合，用于区分填充数列和所述序列。

作为所述方法的一种改进，所述根据每个序列的出现位置计算相邻2个出现位置的位置间隔值，统计各位置间隔值的数量，数量最多的位置间隔值为优势位置间隔值；具体包括：

步骤2-1)设序列s出现位置的集合为{a₁,a₂,...a_j,...,a_m}，则相邻的2个序列出现位置对应的位置间隔值d_j为：

d_j＝a_j+1-a_j,1≤j＜m (1)

其中，j和m为自然数；定义数据单元D为所有d_j组成的集合：

{D|d_j＝a_j+1-a_j,1≤j＜m} (2)

步骤2-2)统计序列s的各位置间隔值出现的数量，若存在数量最多的位置间隔值d_j，则位置间隔值d_j为优势位置间隔值；当不存在数量最多的位置间隔值时，若存在d_j为其他间隔值的最大公约数，则d_j为优势位置间隔值。

作为所述方法的一种改进，所述根据优势位置间隔值、其出现的次数以及数据库中比特数据单元的长度，计算优势位置间隔值出现的比例，对优势位置间隔值出现的比例和设定的阈值比较，根据比较结果确定频繁序列，并依据频繁序列出现的位置，将具有强关联规则的频繁序列归纳为极大频繁模式集，具体包括：

步骤3-1)统计优势位置间隔值d_j实际出现次数，计算其与所述序列s理论出现次数的比例值，其中序列s作为特征序列在无误码情况下的理论出现次数为L_D/l_s，L_D为数据单元D的长度，l_s为特征序列s的位置间隔值；

步骤3-2)比较所述比例值和设定的阈值min_sup，当所述比例值大于设定的阈值min_sup时，则该优势位置间隔对应的序列为频繁序列；

步骤3-3)确定长度为k的具有相同的优势位置间隔的频繁序列i_u和i_v出现的位置；其中u和v分别为频繁序列的序号；

步骤3-4)根据i_u和i_v的出现的位置，计算i_u和i_v以小于k的位置间隔出现的概率，若所述概率大于置信度阈值min_conf，则i_u和i_v之间具有强关联规则；

步骤3-5)通过遍历，对所有频繁序列的出现位置进行计算，查找所有具有强关联规则的频繁序列，将所有具有强关联规则的频繁序列归纳为极大频繁模式集L_j＝{i₁,i₂,...,i_n}。

作为所述方法的一种改进，在极大频繁模式集中提取若干极大频繁项，将极大频繁项与协议的特征集合对比，查找与极大频繁项相符合的协议特征项，获得比特数据单元采用的协议特征和数据格式信息，具体包括：

步骤4-1)提取极大频繁模式集L_j中具有相同强关联规则的频繁序列组合为极大频繁项，若干极大频繁项构成比特数据单元特征集合T'；

步骤4-2)将比特数据单元特征集合T'与已知协议的特征集合T进行分析比对，得到比特数据单元采用的协议特征和数据格式信息。

本发明还提出一种比特数据特征挖掘系统，所述系统包括：

序列统计模块，用于统计原始未知协议的链路通信数据文件中每个长度为k的序列的出现位置，并对所述序列出现次数进行统计并排序；

优势位置间隔统计模块，用于根据每个序列的出现位置计算相邻2个出现位置的位置间隔值，统计各位置间隔值的数量，数量最多的位置间隔值为优势位置间隔值；

极大频繁模式集归纳模块，用于根据序列的优势位置间隔值、其出现的次数以及该序列作为特征序列条件下的比特数据单元的长度，计算优势位置间隔值出现的比例，对优势位置间隔值出现的比例和设定的阈值比较，根据比较结果确定频繁序列，并依据频繁序列出现的位置，将具有强关联规则的频繁序列归纳为极大频繁模式集；

极大频繁项的协议特征获取模块，用于在极大频繁模式集中提取极大频繁项，将极大频繁项与协议的特征集合对比，查找与极大频繁项相符合的协议特征项，获得比特数据单元采用的协议特征和数据格式信息。

本发明还提出一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述任一项所述的方法。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述任一项所述的方法。

与现有技术相比，本发明的有益效果在于：

1、本发明的比特数据单元特征挖掘方法将关联规则挖掘技术与空间链路协议识别相结合，将通信数据中的特征序列的挖掘问题转化为在数据库中事务边际模糊的情况下，挖掘具有关联关系项的问题。实现了在数据特征不确定且数据受噪声影响的情况下，仅依靠对大量数据进行有价值特征的挖掘，实现在较小内存开销情况下的链路通信协议数据特征盲识别；

2、本发明的比特数据特征挖掘方法提出了一种算法，将数据由水平数据格式{TID:itemset}转化为垂直数据格式，即{item:TID_set}表示，仅扫描一遍数据库即可实现比特数据特征序列的识别；

3、本发明的比特数据特征挖掘方法通过增加约束条件缩小搜索空间，进一步提高了挖掘效率。

附图说明

图1为本发明比特数据挖掘方法的数据特征序列识别对象与关联规则挖掘对象的对应关系示意图；

图2为本发明比特数据挖掘方法的数据单元中的序列的位置情况示意图；

图3为本发明比特数据挖掘方法的通过挖掘数据特征识别协议类型的流程图；

图4为本发明比特数据挖掘方法的算法软件结构示意图；

图5为本发明比特数据挖掘方法的软件流程图；

图6为本发明比特数据挖掘方法的软件界面示意图；

图7为本发明比特数据挖掘方法的误码率与识别概率之间的关系示意图；

图8为本发明比特数据挖掘方法的算法耗时情况对比示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细的说明。

通过研究现有链路通信协议的数据结构，发现数据结构的数据单元中通常都含有具有特定意义的标识序列，例如数据同步字、飞行器标识符、虚拟信道标识符等。这类标识序列通常位于数据单元的固定位置，呈规律性地出现，通信数据的特征识别就是要发现这些特征序列。数据挖掘中的关联规则挖掘的对象是数据库事务中离散的项之间的联系。经研究发现，特征序列识别的对象与关联规则挖掘的对象具有一一对应的关系，如图1所示。

关联规则中“数据库”的概念，在针对采用未知协议的比特数据特征序列识别任务中，可以映射为储存在文件中的数据或者传输中的数据流；“事务”的概念则是依据协议格式划分的数据单元，协议的未知性决定了数据单元的长度信息在分析初期一般是隐藏在数据文件或数据流中的；“事务”包含的“项”对应为数据单元中的序列。则由此可见，对于采用未知通信协议的数据特征序列的挖掘就转化为在数据库中的事务边际模糊的情况下，挖掘具有关联规则的项。

模型可以形式化描述为：假设比特数据单元长度为n，字符集Ω＝{c₁，c₂，...，c_q}，一个比特数据单元内序列长度的集合为A_LENGTH＝{1，2，3，...，k，...，n}，对应的序列个数的集合分别为A_NUMBER＝{n，n-1，n-2，...，n-k+1，...，1}，长度为k的序列可能出现的形式为q^k种，k∈A_LENGTH。

如图2所示，对事务中序列的长度、数量和位置关系进行了说明。

假设通信数据中具有i个特征，特征序列集合为A_CHARACTER＝{a₁，a₂，...，a_i}。关联规则挖掘的目标就是在n未知的情况下，找到集合A_CHARACTER，A_CHARACTER表征着数据的特征。

通过分析现有的空间、地面链路层协议可知，链路层协议特征大体包含了帧长度、同步方式、编码方式、交织方式和随机化方式等。不同的协议标准蕴含了不同的数据特征信息。因此，对未知协议数据进行上述识别分析得到的数据特征信息，一定会出现相应协议的数据特征，这些数据特征则表征着某种协议规范。

要解决判别数据具体采用了哪种协议的问题，就转化为对数据包含的特征项进行识别和归纳，根据所归纳的数学特征项集与协议标准特征集的比对，即可得到识别结果。

如图3所示，描述了这种利用关联规则挖掘特征序列，从而识别未知协议类型的方法流程图。

所述流程图对应的数学模型包括协议数学特征、协议标准特征集、数据特征集和候选协议标准集；

所述协议数学特征为项目I，包括协议同步特定字段、信道编码的统计学特征等；

所述协议标准特征集包括非空项集T＝{i₁，i₂，...，i_m}，例如，可设CCSDS协议标准特征集为T₁，IRIG协议标准特征集为T₂；

所述数据特征集包括项集L＝{i₁，i₂，...，i_n}，代表由实际测试数据经过数据挖掘算法、同步字检测算法、编码检测算法等识别方式归纳的特征集合；

所述候选协议标准包括由项集L中的项产生的具有强关联规则的项集T′。

因此，对挖掘未知协议数据特征的一般方法进行归纳，步骤如下：

1)统计未知协议的通信数据中的比特数据单元的长度，提取未知协议比特数据单元D中的频繁序列；

2)依据频繁序列出现的位置，将具有强关联规则的频繁序列归纳为极大频繁模式集L_j＝{i₁，i₂，...，i_j}；

3)提取极大频繁模式集L_j中具有相同强关联规则的极大频繁项，若干极大频繁项构成比特数据特征集合T′₁、T′₂、......；

4)将T′₁，T′₂，......与现有已知协议的特征集合T₁，T₂，......进行分析比对，判断数据D采用的协议。

基于上述识别模型和识别方法，下面对基于该模型的数据流特征序列提取算法进行说明。

关联规则挖掘中的关键步骤之一即为频繁项集的挖掘，关联规则挖掘效率的关键也由频繁项集的挖掘算法决定。现有的经典频繁项集挖掘算法包含Apriori算法、Partition算法、FP-Growth算法等。

上述经典算法是从{TID：itemset}，即水平数据格式的事务集中挖掘频繁模式，在挖掘大型数据库时会产生大量频繁项集，导致产生大量冗余信息，无法用于缺乏先验知识情况下的链路协议数据的特征识别。经过研究发现，利用垂直投影技术存储原始数据库，可以将数据用项-TID集格式表示，即{item：TID_set}形式。垂直数据格式的优点是在由频繁k项集产生(k+1)项集时，可以通过取频繁k项集的TID集的交集，计算对应的(k+1)项集的TID集；另一个优点是不需要扫描数据库来确定(k+1)项集的支持度(k≥1)。此外，增加约束条件缩小搜索空间也是提高挖掘效率的有效手段。因此，为了在不占用大量内存空间和I/O资源情况下，实现对空间链路数据协议特征识别的目的，本发明根据空间链路数据特点，结合上述经典算法的思想以及提升挖掘效率的有效手段，提出一种基于位置关联规则的周期性特征序列识别算法。

所述算法利用周期性特征序列的位置关系，通过挖掘具有强关联规则的频繁项集，实现了在缺乏先验知识情况下对周期性特征序列识别，解决了空间链路数据周期性特征序列的问题，并且允许一定的误码存在。算法分为四个步骤，具体描述如下：

提取位置信息：对比特数据单元D分段扫描，记录长度为k(k远小于数据单元长度，即k<<n，)的序列的出现位置，并统计出现次数，按照出现的次数从大到小的顺序进行排序。具体为：将原始未知协议的链路通信数据由水平数据格式转化为垂直数据格式；根据数据的特性，算法不再需要通过扫描数据库确定项的支持度排序表，仅扫描一次数据，统计长度为k的序列的出现位置和出现次数，此时需要的处理空间仅为q^k，q^k<<qⁿ，合理的k值选取不仅可以使算法不占用大量的内存，还能获得较好的识别效率；采取分段扫描数据，可以避免因文件过大造成内存资源不足，也使该算法经过简单改进后就可以应用于数据流的实时处理；分段长度应根据设备内存大小和运算速度合理设定，分段长度过小会导致数据量不足无法识别或过多占用I/O资源的情况，分段长度过大会造成内存资源不足的情况。

查找频繁序列：根据序列出现位置查找优势位置间隔，当优势位置间隔所占比例大于阈值min_sup时，则对应的序列为频繁序列。具体为：假设序列出现位置的集合为{a₁,a₂,...a_j,...,a_m}，则相邻2个序列出现位置对应的位置间隔为{D|d_j＝a_j+1-a_j,1≤j＜m}，其中，j和m为自然数；

统计序列的各位置间隔出现的数量，若比特数据单元D中存在具有显著数量优势或数量最多的间隔d_j，则称d_j为优势位置间隔值；当D中不存在具有显著数量优势的间隔时，若存在d_j为其他元素的最大公约数，也称d_j为优势位置间隔值，其整倍数也参与统计其数量，此种查找方式适用于数据受噪声影响严重，造成大量同步字完整性被破坏的情况。在实际工程数据中，考虑到会有信道噪声引起的误码以及滑位，可根据具体情况将min_sup设定为合理的比例。

统计优势位置间隔值d_j实际出现次数，计算其与所述序列出现的次数的比例值，比较所述比例值和设定的阈值min_sup，当所述比例值大于设定的阈值min_sup时，则该优势位置间隔d_j对应的序列为频繁序列。

挖掘关联规则：将具有相同优势位置间隔的频繁序列划分在一个集合中。通过对集合内频繁序列的出现位置进行分析，找到所有具有强关联规则的频繁序列集I＝{I₁,I₂,...,I_m}。举例说明：若I_n(1≤n≤j)中的长度为k的频繁序列i_u和i_v具有相同的优势位置间隔，且i_u和i_v以小于k的位置间隔成对出现的概率大于min_conf，则认为i_u和i_v之间符合强关联规则；其中u和v分别为频繁序列的序号。对于具有相同优势位置间隔的频繁序列，仅需定性的判定其成对出现的概率，min_conf＞0即可。

产生极大频繁模式：根据项之间的位置关系，通过遍历，对所有频繁序列的出现位置进行计算和比较，将I_n(1≤n≤j)中的元素连接成极大频繁序列i_n，n＝1,2,...,j，则频繁序列集经连接后产生极大频繁模式集L_j＝{i₁,i₂,...,i_j}。

L_j中的极大频繁序列即表征数据的同步特征，通过对已知协议特征模板进行简单比对，就可以得到协议类型和数据格式信息。

在挖掘未知协议的数据特征时，由于事务边界是隐藏在数据中的，事务数量是不明确的。而在计算序列的支持度时需要事务数量的信息，因此需要对事务数量进行预判。可采用的计算方法如下：假设数据长度为L_D，序列s优势位置间隔为l_s，如果s是数据的特征序列，则s以间隔l_s规律性的出现在数据中，因此事务的个数为L_D/l_s。另一个需要注意的问题是，在实际工程数据中会出现用于填充的数据段，这些数据段具有数量大、重复度高的特点，因此为了避免统计此类序列造成时间和空间资源浪费，可以增加一个规则约束：规避集合E。E中存放提取位置信息过程中产生的数量显著高于其他序列的明显具有填充特征的序列，从而E中元素不会参与极大频繁模式集的生成，进一步提高算法效率。

发现数据特征序列识别对象与关联规则挖掘对象具备映射关系，本发明提出一种通过挖掘数据关联特征识别未知协议类型的比特数据特征挖掘方法，并建立相关数据模型和算法，实现了在没有任何先验知识且数据特征多样化的情况下，仅需扫描一遍数据库，就能够对含错的比特数据流实现数据通信协议特征的识别。

算法软件开发环境为Microsoft Visual Studio 2008，结构图参见图4所示。

软件分为预处理阶段和识别阶段。在预处理阶段，软件统计数据文件中包含的全部长度为l(可配置)的十六进制序列各自出现次数，并对序列出现频率进行排序，将统计结果显示于界面；在识别阶段，首先根据设定的阈值以及约束查找频繁序列，并依据频繁序列出现的位置关系划分为频繁项集，然后结合置信度阈值挖掘极大频繁项，最后根据极大频繁项输出协议特征信息。

如图5所示，软件设计流程图图中约束条件A为：比特数据单元长度≥min_frame_length(最小帧长度)，且比特数据单元数量≥min_frame_num(最小帧数量)；约束条件B为：数据冗余度≤max_data_redundancy(最大数据冗余度)。

软件界面参见图6所示，界面左侧是预处理结果显示区域，右侧是识别结果显示区域。在预处理显示区域上方可以进行打开文件、开始序列数量统计等操作，在识别显示区域上方，可以进行阈值、约束的设置，开始根据预处理阶段结果进行数据特征字、帧长和帧数量的识别工作。

选取目前常用的空间链路数据协议如CCSDS、IRIG协议簇对算法进行检测。选用采用CCSDS TM/AOS/TC以及IRIG Frame/Packet协议数据为输入数据。

实施例1

采用符合IRIG标准的工程仿真数据，对算法在不同误码率下的识别能力进行检测。测试数据为1000帧IRIG FRAME和1000包IRIG PACKET，对应的同步序列分别为0xFAF320、0xEB25，数据单元长度均为1024bits，数据域填充随机数。在实验中，统计的初始序列长度为4。

统计识别的特征序列数量与误码率之间的关系如图7所示。随着误码率的上升，本文方法识别特征序列的能力逐渐下降。当误码率不超过10^-2时，数据特征字识别概率均在大于70％，能够获得较好的识别准确度。误码率为10^-1时，识别概率不足20％。理论上，长度为l的q进制序列在BER为e的情况下不含错的概率为

图中识别率基本符合此公式，验证了算法的正确性。另一方面，IRIG FRAME和IRIG PACKET的识别概率在相同误码率下相差很小，说明识别准确度与特征序列的长度没有明显的关系，这是因为在识别两者的过程中采用的初始序列长度相同，因此避免了相同误码率下较长的特征序列的因其含错概率与长度成正比而造成的识别概率降低，体现了算法在克服信道误码上的具备一定优势。

实施例2

采用符合CCSDS遥测标准的某工程型号数据，对规避集合对算法识别效率的影响进行测试。测试数据同步序列为0x1ACFFC1D，统计不同数据文件大小的情况下，规避集对算法耗时的影响情况。在实验中，统计的初始序列长度为4，最小支持度阈值设置为90％。各算法耗时情况对比参见图8。

如图8所示，针对相同的数据文件，算法耗时情况为：本发明算法＜未使用约束条件的算法＜FP-Growth改进算法。统计可得，通过使用规避集作为约束条件，使本发明算法效率平均提高了约10倍。图中也表明文件大小并非是影响算法效率的唯一因素，识别效率也受到帧长度影响。这是因为帧长度较短会造成位置信息增多，易产生冗余的频繁序列和位置信息。因此，合理的设定最小支持度阈值和规避集能够降低时间开销。

实施例1和实施例2中的算法识别结果分别参见表1和表2。可以看出本发明提出的模型和算法能够有效识别链路数据的周期性特征序列：在实施例1中，成功识别出IRIG标准的同步序列FAF320、EB25；在实施例2中成功识别出CCSDS标准的同步字1ACFFC1D；在实施例2的有效结果中，还成功识别了版本号01、航天器标识00000000、虚拟信道标识000001/111111等；此外，实施例1中的规避集为空，实施例2中的规避集包含16进制序列0000和AAAA，是CCSDS标准中用于填充的序列。

表1 实施例1特征识别结果统计

表2 实验2特征识别结果统计(a)帧长8256bits，规避集E＝{0000,AAAA}

表3 实施例2特征识别结果统计(b)帧长1088bits，规避集E＝{0000}

同时，表1、表2和表3也显示了本发明算法在识别链路同步字时的虚警情况，其中IRIG标准数据识别结果中不存在虚警，CCSDS标准数据识别结果中则存在其他周期性特征字，即同步字的虚警。这是由于算法对同步特征序列的识别是基于序列位置信息的关联规则挖掘，从根本上降低了因数据域出现形似同步字的序列而造成虚警的可能性。

本发明还提出一种比特数据特征挖掘系统，所述系统包括：

序列统计模块，用于统计原始未知协议的链路通信数据文件中的每个长度为k的序列的出现位置，并对所述序列出现次数进行统计并排序；

极大频繁模式集归纳模块，用于根据优势位置间隔值、其出现的次数以及比特数据单元的长度，计算优势位置间隔值出现的比例，对优势位置间隔值出现的比例和设定的阈值比较，根据比较结果确定频繁序列，并依据频繁序列出现的位置，将具有强关联规则的频繁序列归纳为极大频繁模式集；

本发明还提出一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述方法。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种比特数据特征挖掘方法，所述方法包括：

根据优势位置间隔值、其出现的次数以及比特数据单元的长度，计算优势位置间隔值出现的比例，对优势位置间隔值出现的比例和设定的阈值比较，根据比较结果确定频繁序列，并依据频繁序列出现的位置，将具有强关联规则的频繁序列归纳为极大频繁模式集；

在极大频繁模式集中提取极大频繁项，将极大频繁项与协议的特征集合对比，查找与极大频繁项相符合的协议特征项即为协议特征序列，获得比特数据单元采用的协议特征和数据格式信息。

2.根据权利要求1所述的比特数据特征挖掘方法，其特征在于，所述统计未知协议的链路通信数据文件中的每个长度为k的序列出现位置，并对所述序列出现次数进行统计并排序，具体包括：

步骤1-1)利用垂直投影技术存储未知协议的链路通信数据文件，将数据文件中的比特数据单元D由水平数据格式{TID:itemset}转化为垂直数据格式，即{item:TID_set}格式；

步骤1-2)统计比特数据单元D中长度为k的序列的出现位置和出现次数；对垂直比特数据单元D分段扫描，记录每个长度为k的序列出现的位置，并统计每个所述序列出现次数；其中，k小于数据单元长度，

3.根据权利要求2所述的比特数据特征挖掘方法，其特征在于，所诉步骤1-3)还包括：设置规避集合E，所述规避集合E为填充数列的集合，用于区分填充数列和特征序列。

4.根据权利要求3所述的比特数据特征挖掘方法，其特征在于，所述根据每个序列的出现位置计算相邻2个出现位置的位置间隔值，统计各位置间隔值的数量，数量最多的位置间隔值为优势位置间隔值；具体包括：

d_j＝a_j+1-a_j,1≤j＜m (1)

其中，j和m为自然数；定义数据单元D为所有d_j组成的集合：

{D|d_j＝a_j+1-a_j,1≤j＜m} (2)

5.根据权利要求4所述的比特数据特征挖掘方法，其特征在于，所述根据优势位置间隔值、其出现的次数以及比特数据单元的长度，计算优势位置间隔值出现的比例，对优势位置间隔值出现的比例和设定的阈值比较，根据比较结果确定频繁序列，并依据频繁序列出现的位置，将具有强关联规则的频繁序列归纳为极大频繁模式集，具体包括：

6.根据权利要求5所述的比特数据特征挖掘方法，其特征在于，所述在极大频繁模式集中提取若干极大频繁项，将极大频繁项与协议的特征集合对比，查找与极大频繁项相符合的协议特征项，获得比特数据单元采用的协议特征和数据格式信息，具体包括：

7.一种比特数据特征挖掘系统，所述系统包括：

序列统计模块，用于统计未知协议的链路通信数据文件中的每个长度为k的序列出现位置，并对所述序列出现次数进行统计并排序；

8.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行权利要求1-6中任一项所述的方法。