CN108073575A

CN108073575A - 一种基于改进Prefixspan算法的雷达数据频繁模式挖掘方法

Info

Publication number: CN108073575A
Application number: CN201610416770.3A
Authority: CN
Inventors: 屈鸿; 曾志; 符明晟; 刘金凤; 刘昕彤; 樊珍
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-06-14
Filing date: 2016-06-14
Publication date: 2018-05-25

Abstract

本发明公开了一种基于改进Prefixspan算法的雷达数据频繁模式挖掘方法，属于数据挖掘的领域，解决现有挖掘算法需要多次扫描原始数据库、消耗大量内存等问题。本发明提出了一种基于改进Prefixspan算法的雷达数据频繁模式挖掘方法，改进算法采用位图思想，设计了一种链式存储结构，在读取数据时保存了频繁1‑项集的支持度数及项在序列中的位置，有效的解决了Spam算法在挖掘大量数据集时内存不足以及Prefixspan算法需要扫描两次数据库及在挖掘过程中构造大量投影数据库的问题，可以较好地实现对雷达信号数据频繁模式的挖掘。将挖掘出的频繁模式构建一个模式库，可以用于分析雷达的模式周期以及预警，同时通过对模式进行时间验证分析，可以得到事件之间的关联关系。

Description

一种基于改进Prefixspan算法的雷达数据频繁模式挖掘方法

技术领域

一种基于改进Prefixspan算法的雷达数据频繁模式挖掘方法，应用于雷达数据中的模式库的建立，分析模式周期，模式预警等，同时通过对模式进行时间验证分析，可以得到事件之间的关联关系。具体涉及数据块的划分、序列的映射及频繁模式挖掘等技术。

背景技术

数据挖掘技术可以扩展到很多方面，基于关联规则的序列模式挖掘是一个有重大应用价值的研究分支，其在各行各业也有着广泛的应用。例如商业营销中利用序列模式挖掘去研究客户的购买习惯和合理的摆放物品位置去增加销售额，“啤酒和尿布”就是从中发现的营销模式；生物学中利用序列模式挖掘来分析不同氨基酸突变模式来预防和治疗一些突变引起的疾病；金融证券行业利用序列模式挖掘并结合金融数据分析找出合理的经济行为联动杠杆模式以防止和规避金融风险；军事上利用序列模式去检测相关设备的工作情况以及相关预警功能等。同时，序列模式挖掘在预测自然灾害，家族疾病的诊断，网络安全检测分析等领域也有极大的需求和广泛的应用前景。

除了传统的存储在数据库中的静态数据，在许多实时应用领域出现了一类新的数据。如在网络监控中，随着时间的推移会不断的产生当前时间的信息数据；股市每天都会随着波动产生不同的走势图等，这是一类新的数据。它具有实时性，无限性，我们称这样的数据形态为数据流(Data Stream)。因为数据流的实时性，对数据流的挖掘算法有了更高的要求；数据流的无限性，限制了不能将所有的数据存进内存。所以对数据流的频繁模式挖掘不仅对挖掘算法有了限制，同时对存储结构也有了更高的要求。

随着信息化的到来，大量的电子设备在军事上投入使用，侦查获得的情报数据量庞大、数据类型复杂。雷达自从二战中出现以后，逐步在军用和民用领域得到了广泛的应用。很多时候，主要依据经验和相关知识对雷达数据进行分析和总结，然而由于雷达信号数据量过大、数据精密度过高等原因，通过人工的方法发现数据中潜在的信息变得捉襟见肘。随着数据挖掘的渐渐兴起和挖掘算法的不断改进，利用数据挖掘技术对雷达传送回的数据进行特征提取和挖掘，尤其是在军事领域，通过对雷达信号进行数据分析和序列模式挖掘，可以挖掘出隐藏在雷达信号数据内部的序列模式规律，以此来提高雷达信号数据质量、预测雷达扫描数据、发现入侵行为、进行故障诊断以及辅助军事侦察等方面都具有非常重要的意义。

发明内容

本发明针对现有技术的不足之处提供了一种基于改进Prefixspan算法的雷达数据频繁模式挖掘方法，解决现有算法中挖掘频繁模式的难点，如需要多遍扫描数据集，并构建大量的投影数据库，多遍扫描投影数据库进行统计计算序列的支持度数。除此之外，挖掘出大量频繁模式集合，造成结果集的膨胀，没有对结果进行一定的筛选。为了更好地构建模式库，分析模式周期，模式预警等工作，本发明采用的技术方案为：

一种基于改进Prefixspan算法的雷达数据频繁模式挖掘方法，其特征在于包括以下步骤：

步骤1、对预处理后待挖掘的序列进行一次扫描，得到频繁1-序列(单个的频繁项)，采用位图方法将频繁1-序列映射到链式存储结构中；

步骤1a、扫描待挖掘的序列，统计每个项的支持度数；

步骤1b、筛选支持度数大于阈值的项；

步骤1c、将支持度数大于阈值的项结合位图方法存储在链式存储结构中。

步骤2、将频繁序列的集合分为以频繁1-序列为开头的不同前缀的序列模式的子集；

序列模式：在序列中出现频率不低于设置的最小支持度的阈值的频繁子序列。(举例说明：频繁序列的集合：{acd，bcd，ca}，则集合中的任何一个频繁序列都可以认为是一种序列模式。)

步骤3、根据频繁1-序列的链式存储结构，采用分治的方法递归挖掘不同前缀的序列模式的子集，直到找出所有的频繁序列。

上述技术方案中，采用位图方法是指采用的十进制存储项在序列中的位置

上述技术方案中，所述步骤2具体包括以下步骤：

步骤21、对待挖掘的序列进行一次扫描得到超过设置阈值的所有频繁1-序列；

步骤22、将频繁序列的集合分为以频繁1-序列为开头的不同前缀的序列模式的子集。

上述技术方案中，所述分治方法具体为：

将一个规模为N的问题分解为k个规模较小的子问题，子问题相互独立且与原问题性质相同，即将原问题分解为几个小问题去解决。

上述技术方案中，所述步骤3具体步骤如下：

步骤31、根据链式存储结构中的单个的频繁项，分别计算不同前缀的序列模式；

步骤32、挖掘以某一个项为前缀的序列模式，通过链式存储结构中项在序列中的位置值，计算得到以该项为前缀的2-序列的支持度数；

2-序列就是由2个项组成的序列，跟前面的1-序列是一样的。整个挖掘过程是一个模式增长的，是由频繁1-序列逐渐增长，直至挖掘结束。

步骤33、如果满足支持度数的要求，则递归重复步骤32，直到以该项为前缀的序列挖掘结束为止；

步骤34、对其他不同的项的前缀的序列重复递归执行步骤32、步骤33，直至没有频繁序列产生。

由挖掘的过程，我们首先得到单个的频繁项，由性质1和2可知，频繁序列是单个频繁项的组合，由排列组合可知，频繁序列的集合可分为，由单个频繁项为前缀的不同的序列模式的子集。

例：

1	acde
		2	bda
3	acd
		4	bcda

上面的表格是待挖掘的序列，a,b,c,d,e是项，假设支持度数的阈值设为2，(即出现超过两次即认为是频繁的，需要挖掘出来)由挖掘过程的第一步可以得到单个的频繁项为 a,b,c,d。则挖掘得到的频繁序列肯定是a,b,c,d的组合，上文中讲到的以单个频繁项为前缀的不同序列的子集，通俗意义上讲就是以单个频繁项为开头的序列，频繁序列的集合为 {ac,ad,acd；bd,ba,bda；cd；da}所以，由组合的性质可将挖掘得到的结果分为几个不同前缀的组合)。

与现有技术相比，本发明的优点在于：

一、通过将序列映射到内存的链式存储结构，可以减少扫描原始数据库的次数；

二、通过采用链式存储结构避免了构建大量的投影数据库，节省了内存；

三、优化Prefixspan算法，计算得到序列的支持度数优于原算法中统计扫描得到结果；

四、适当的剪枝操作，减少了结果集爆炸式的增长，只保留部分信息。

附图说明

图1为本发明的整体结构流程示意图；

图2为本发明的挖掘流程示意图；

图3为本发明链式存储结构图。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

参阅图1，一种基于改进Prefixspan算法的雷达数据频繁模式挖掘方法，在挖掘频繁模式之前，首先需要对待挖掘的序列进行信号源的划分，数据预处理等工作，然后对预处理后的数据分块处理，再读取一块数据进行位图映射，最后通过改进的挖掘算法对块数据进行频繁模式挖掘。

在运用改进算法进行模式挖掘的过程中，数据预处理是一项非常重要的工作。因为在实际的雷达信号数据包含大量的噪声，无法直接进行模式挖掘，需要对原始数据进行去噪处理，使其适合模式挖掘。数据预处理之后，由于数据的无限性，无法一次将所有的数据读入内存，需要进行分块挖掘处理，所以借助于位图思想将分块的数据映射至内存，对每一块的数据进行模式挖掘。只要还有数据输入，就继续挖掘，否则，算法结束。

一种基于改进Prefixspan算法的雷达数据频繁模式挖掘方法，步骤如下：

(1)对预处理后待挖掘的序列进行一次扫描，得到频繁1-序列，将序列映射到内存的过程如下：

(11)扫描待挖掘的序列，统计每个项的支持度数；

(12)筛选支持度数大于阈值的项；

(13)将支持度数大于阈值的项结合位图思想存储在链式存储结构中，如图3所示结构，第一列存储的是频繁1-项集，第二列存储了该项的支持度数，剩余列代表了项在对应序列中出现的位置。

(2)频繁模式被分为几个不同前缀的序列模式的子集思想如下：

(21)基于模式增长的频繁模式挖掘算法主要采用分治的思想进行频繁模式挖掘；

(22)对待挖掘的序列进行一次扫描得到超过设置阈值的所有项；

(23)该序列的频繁模式的集合即为几个不同前缀序列模式的集合。

(3)根据每个频繁1-序列的链式存储结构计算并递归挖掘序列模式的子集，直到找出所有的频繁项步骤如下：

(31)根据链式存储结构中频繁1-序列，分别计算不同前缀的序列模式；

(32)挖掘以某一个项为前缀的序列模式，通过链式存储结构中项在序列中的位置值，计算得到以该项为前缀的2-序列的支持度数；

(33)如果满足支持度数的要求，则递归重复(32)中的操作，直到以该项为前缀的序列挖掘结束为止；

(34)对其他不同的项的前缀的序列重复递归执行(32)(33)的步骤，直至没有频繁序列产生。

Claims

1.一种基于改进Prefixspan算法的雷达数据频繁模式挖掘方法，其特征在于包括以下步骤：

步骤1、对预处理后待挖掘的序列进行一次扫描，得到频繁1-序列，采用位图方法将频繁1-序列映射到链式存储结构中；

步骤1a、扫描待挖掘的序列，统计每个项的支持度数；

步骤1b、筛选支持度数大于阈值的项；

2.根据权利要求1所述的一种基于改进Prefixspan算法的雷达数据频繁模式挖掘方法，其特征在于，采用位图方法是指使用十进制表示来存储项在序列中的位置。

3.根据权利要求1所述的一种基于改进Prefixspan算法的雷达数据频繁模式挖掘方法，其特征在于，所述步骤2具体包括以下步骤：

4.根据权利要求1所述的一种基于改进Prefixspan算法的雷达数据频繁模式挖掘方法，其特征在于，所述分治方法具体为：

5.根据权利要求1所述的一种基于改进Prefixspan算法的雷达数据频繁模式挖掘方法，其特征在于，所述步骤3具体步骤如下：

步骤31、根据链式存储结构中的单个的频繁项，分别计算不同前缀的序列模式子集；

步骤33、如果2-序列满足支持度数的要求，则递归重复步骤32，直到以该项为前缀的序列挖掘结束为止；

步骤34、对其他不同的项作为前缀的序列重复递归执行步骤32、步骤33，直至没有频繁序列产生。