CN111125198A

CN111125198A - 一种基于时间序列的计算机数据挖掘聚类方法

Info

Publication number: CN111125198A
Application number: CN201911373573.8A
Authority: CN
Inventors: 郭柯卿; 黄玉划; 王娜; 蓝天
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-08

Abstract

本发明涉及计算机数据挖掘聚类技术领域，公开了一种基于时间序列的计算机数据挖掘聚类方法，该方法具体包括如下步骤：步骤1：输入给定的特征样本a和b，并对获取到的特征样本进行预处理，得到相应的数据调用信息；步骤2：对时间序列下的a和b进行极值点求取，得到极值点序列a’和b’，并将类距离最大的两组进行合并处理，合并后类别数相应地减少一个；该方法能够有效地处理数据量大、纬度高的时间序列数据，操作过程中较为简易，能够高效地进行数据挖掘聚类，适用性得到了显著的提升，同时该方法根据量化后的元素来得到数据调用的相似程度，并根据数据调用的相似度来得到系统调用序列的相似度，可以增加取得的数据调用信息的精准度。

Description

一种基于时间序列的计算机数据挖掘聚类方法

技术领域

本发明涉及计算机数据挖掘聚类技术领域，具体是一种基于时间序列的计算机数据挖掘聚类方法。

背景技术

数据是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的的原始素材，数据是信息的表现形式和载体，可以是符号、文字、数字、语音、图像和视频等。数据和信息是不可分离的，数据是信息的表达，信息是数据的内涵。数据本身没有意义，数据只有对实体行为产生影响时才成为信息，在计算机系统中，数据以二进制信息单元0.1的形式表示。

时间序列是指按时间顺序排列的一组数据，是一类重要的复杂数据对象。作为数据库中的一种数据形式，它广泛存在于各种大型的商业、社会科学、医学和工程等数据库中，如股票价格、各种汇率、销售数量、产品的生产能力和天气数据等。大量时间序列数据真实地记录了系统在各个时刻的所有重要信息，提出某种高效的数据处理方法，同时理清各时间序列之间的关联，将极大提高人们对这类系统的认识和理解，进而进行有效的预测和控制。时间序列数据挖掘(Time Series Data Mining，TSDM)就是要从大量的时间序列数据中提取人们事先不知道的、与时间属性相关的有用信息和知识，用于指导人们的社会、经济、军事和生活等活动。时间序列挖掘对人类社会、科技和经济的发展具有重大意义，正逐渐成为数据挖掘的研究热点之一。

虽然现在国内外对数据挖掘的研究已经取得不少的成果，但是对各个应用领域的时间序列的挖掘却没有通用性，无法取得针对性的进展。因此，本领域技术人员提供了一种基于时间序列的计算机数据挖掘聚类方法，以解决上述背景技术中提出的问题。

发明内容

[发明目的]本领域技术人员提供了一种基于时间序列的计算机数据挖掘聚类方法，用来解决对各个应用领域的时间序列的数据挖掘没有通用性、效率低的问题，并且预测未来发展趋势，或者寻找相似发展模式或者是发现周期性发展规律等，使得能够在海量数据中挖掘潜在的有用的信息。

[技术方案]本发明方案主要包括以下内容：

一种基于时间序列的计算机数据挖掘聚类方法，该方法具体包括如下步骤：

步骤1：输入给定的特征样本a和b，并对获取到的特征样本进行预处理，得到相应的数据调用信息；

步骤2：对时间序列下的a和b进行极值点求取，得到极值点序列a’和b’，并将类距离最大的两组进行合并处理，合并后类别数相应地减少一个；

步骤3：将上述的数据调用信息进行分类，构建出相应的三元组模型，并将三元组模型中的元素进行量化处理，同时还应根据量化后的元素来得到数据调用的相似程度，并根据数据调用的相似度来得到系统调用序列的相似度；

步骤4：将上述的数据调用信息进行大数据切分，并得出切分后的多个数据模块，将得出的多个数据模块存储到云平台的文件系统HDFS中，并通过Hadoop来负责管理和协调切分后的数据模块；

步骤5：将上述的数据模块映射到步骤2中的极值点序列a’和b’上，即每个数据模块映射到一个超图上，并通过超图对每个数据模块分别进行聚类处理；

步骤6：对步骤5得到的每个数据模块的聚类结果进行再次聚类，最后即可得到理想的聚类结果。

作为本发明再进一步的方案：所述步骤1中获取到的特征样本预处理，是通过填写缺失值、噪声数据光滑化和识别删除离群点将现实世界的数据信息进行处理，并将来自不同数据源的数据信息进行规范化排列后再次整理，并将其转换为标准格式下的数据应用模式中投入应用。

作为本发明再进一步的方案：所述步骤1中获取到的特征样本预处理还包括对所述特征样本信息进行二进制插桩，并得出相应的数据调用信息，并对得出的数据调用信息进行紧急存储和记录处理。

作为本发明再进一步的方案：所述步骤5中的超图模型，具体包括：建立带权的超图H＝(V，E)，其中，V是顶点的集合，E是超边的集合，每个超边都能够连接两个以上的顶点，用超图的顶点来表示用来聚类的数据项，用超边来表示其所连接的顶点所表示的数据项的关联情况，并以此来衡量由超边连接起来的多个相关数据项之间的相关程度。

作为本发明再进一步的方案：所述步骤4在将得出的多个数据模块存储到云平台的文件系统HDFS中后，还应创建文件数据集来用于存放文件数据信息，并创建元数据集用于存储文件数据信息的元数据项。

[有益效果]本发明通过对数据调用信息进行分类，构建出相应的三元组模型，并将三元组模型中的元素进行量化处理，并根据数据调用的相似度来得到系统调用序列的相似度，并将取得的数据调用信息进行大数据切分，并得出切分后的多个数据模块，将数据模块映射到极值点序列a’和b’上，并通过超图对每个数据模块分别进行聚类处理，最后得到的每个数据模块的聚类结果进行再次聚类，最后即可得到理想的聚类结果，该方法能够有效地处理数据量大、纬度高的时间序列数据，操作过程中较为简易，能够高效地进行数据挖掘聚类，适用性得到了显著的提升，同时该方法根据量化后的元素来得到数据调用的相似程度，并根据数据调用的相似度来得到系统调用序列的相似度，可以增加取得的数据调用信息的精准度，降低误差。

[附图说明]

图1为步骤流程图。

[具体实施方式]

本发明实施例中，一种基于时间序列的计算机数据挖掘聚类方法，该方法具体包括如下步骤：

优选的：步骤1中获取到的特征样本预处理，是通过填写缺失值、噪声数据光滑化和识别删除离群点将现实世界的数据信息进行处理，并将来自不同数据源的数据信息进行规范化排列后再次整理，并将其转换为标准格式下的数据应用模式中投入应用。

优选的：步骤1中获取到的特征样本预处理还包括对特征样本信息进行二进制插桩，并得出相应的数据调用信息，并对得出的数据调用信息进行紧急存储和记录处理。

优选的：步骤5中的超图模型，具体包括：建立带权的超图H＝(V，E)，其中，V是顶点的集合，E是超边的集合，每个超边都能够连接两个以上的顶点，用超图的顶点来表示用来聚类的数据项，用超边来表示其所连接的顶点所表示的数据项的关联情况，并以此来衡量由超边连接起来的多个相关数据项之间的相关程度。

优选的：步骤4在将得出的多个数据模块存储到云平台的文件系统HDFS中后，还应创建文件数据集来用于存放文件数据信息，并创建元数据集用于存储文件数据信息的元数据项。

以上的，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于时间序列的计算机数据挖掘聚类方法，其特征在于，该方法具体包括如下步骤：

2.根据权利要求1所述的一种基于时间序列的计算机数据挖掘聚类方法，其特征在于，所述步骤1中获取到的特征样本预处理，是通过填写缺失值、噪声数据光滑化和识别删除离群点将现实世界的数据信息进行处理，并将来自不同数据源的数据信息进行规范化排列后再次整理，并将其转换为标准格式下的数据应用模式中投入应用。

3.根据权利要求1所述的一种基于时间序列的计算机数据挖掘聚类方法，其特征在于，所述步骤1中获取到的特征样本预处理还包括对所述特征样本信息进行二进制插桩，并得出相应的数据调用信息，并对得出的数据调用信息进行紧急存储和记录处理。

4.根据权利要求1所述的一种基于时间序列的计算机数据挖掘聚类方法，其特征在于，所述步骤5中的超图模型，具体包括：建立带权的超图H＝(V，E)，其中，V是顶点的集合，E是超边的集合，每个超边都能够连接两个以上的顶点，用超图的顶点来表示用来聚类的数据项，用超边来表示其所连接的顶点所表示的数据项的关联情况，并以此来衡量由超边连接起来的多个相关数据项之间的相关程度。

5.根据权利要求1所述的一种基于时间序列的计算机数据挖掘聚类方法，其特征在于，所述步骤4在将得出的多个数据模块存储到云平台的文件系统HDFS中后，还应创建文件数据集来用于存放文件数据信息，并创建元数据集用于存储文件数据信息的元数据项。