CN105512330A

CN105512330A - 一种基于大数据的计算机数据挖掘分类方法

Info

Publication number: CN105512330A
Application number: CN201510990612.4A
Authority: CN
Inventors: 李洁; 孙燕; 石成富
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-12-25
Filing date: 2015-12-25
Publication date: 2016-04-20

Abstract

本发明公开了一种基于大数据的计算机数据挖掘分类方法，该基于大数据的计算机数据挖掘分类方法通过对输入大数据样本集进行去噪、归一化处理，得到归一化后的时间序列数据；然后对区域极值点进行提取，得到区域极值点序列，对极值点序列进行等长处理和距离计算；再采用贝叶斯分类法对区域极值点序列进行分类，最后输出大数据样本集分类结果。该方法能够有效地对大数据样本集进行数据挖掘分类，采用了按时间序列进行预处理和对区域极值点提取法，提高了分类的性能，便于高效精确地对大数据样本进行快速分类。

Description

一种基于大数据的计算机数据挖掘分类方法

技术领域

本发明涉及计算机数据挖掘技术的领域，尤其是涉及一种基于大数据的计算机数据挖掘分类方法。

背景技术

随着社会信息化的不断发展，信息技术应用领域的不断拓展，各个应用领域包括经济、医疗、建筑、环境等均积累了越来越多的数据。自上世纪八十年代开始，世界各地的数据总量飞速增长，甚至几个月就会增长一倍，然而如何有效的利用、分析这些数据信息，并从中获取其隐藏的有用信息，则成了一个巨大的挑战。在这些海量的数据中，有一部分数据是按时间顺序有序排列的，这类数据便称之为时间序列(TimeSeries)。各个应用领域中均存在时间序列，通过深入研究这些时间序列，发现序列背后所隐藏的潜在规律以及有价值的信息具有重大的社会意义和经济价值。

近年来，随着数据量的增加，一些数据分析方法无法有效提取出更多有价值的数据信息，因此一种新的数据分析方法——数据挖掘(DataMining)技术便产生了。数据挖掘技术不仅能分析已有的数据，还可从原有数据中预测未来未知的信息，譬如，通过数据挖掘可以预测到下月某商场的销售量等。何为数据挖掘？数据挖掘可以以许多不同的形式被定义，简单来说，数据挖掘就是从海量的数据信息中提取出有价值的信息，原有的数据大部分是有模糊噪声的数据，但在这些数据中又存在着很多潜在价值。挖掘的过程是通过利用各个领域的技术知识对海量数据进行处理分析，挖掘出可以有益于人们进行更高层次的分析决策的内容。

目前，虽然国内外对数据挖掘的研究已取得不少的成果，但对各个应用领域的时间序列的挖掘却没有通用性，譬如对金融领域的数据挖掘的方法在医疗领域应用时所得到的性能效果不是很好。现在大多数的方法可能只是在某一个方面表现出较为良好的性能，而不能在其他各个方面综合起来有一个很好的性能。显然，以往对时间序列的研究还是存在着一些不足的，对于不同领域的时间序列挖掘问题，传统的挖掘方法己不适用，需寻求一些新的技术和方法。

发明内容

本发明的目的是克服背景技术中存在的技术缺陷，提供一种基于大数据的计算机数据挖掘分类方法，使其能够有效地对大数据样本集进行数据挖掘分类，提高分类的性能，便于高效精确地对大数据样本进行快速分类。

为了实现上述目的，本发明提供了一种基于大数据的计算机数据挖掘分类方法，该方法包括如下步骤：

步骤1：输入给定大数据样本集X，其中X＝{x₁,x₂,…,x_n}；

步骤2：按时间序列进行去噪、归一化处理，得到归一化后的时间序列数据X'，其中X'＝{(t₁,x₁)(t₂,x₂)…(t_n,x_n)}；

步骤3：对区域极值点进行提取，得到区域极值点序列f(x_i,R),其区域极值点序列f(x_i,R)表示为：

f (x_{i}, R) = {\begin{matrix} f (x_{i}, R - 1), x_{i} &GreaterEqual; x_{i + 1} \cap x_{i} &GreaterEqual; x_{i - 1} \cap R &GreaterEqual; 2 \\ f (x_{i}, 1 - R), x_{i} \leq x_{i + 1} \cap x_{i} \leq x_{i - 1} \cap R &GreaterEqual; 2 \\ 0, o t h e r s \end{matrix};

f (x_{i}, 1) = \{\begin{matrix} 1, x_{i} &GreaterEqual; x_{i + 1} \cap x_{i} &GreaterEqual; x_{i - 1} \\ - 1, x_{i} \leq x_{i + 1} \cap x_{i} \leq x_{i - 1} \\ 0, o t h e r s \end{matrix}

其中，f(x_i,R)为区域极值点序列，R表示在给定时间序列X'中，以某一点o(t_i,x_i)为中心，分别向前、后寻找时间点的个数所作的区域半径；x_i-1表示x_i点之前的一个时间点数据，x_i+1表示x_i点之后的一个时间点数据，f(x_i,1)表示点o(t_i,x_i)在半径为R＝1的区域内的数值特征，其中取值1表示点为区域极大值点，-1表示点为区域极小值点，0表示一般点；

步骤4：对极值点序列进行等长处理和距离计算；

步骤5：采用贝叶斯分析法对区域极值点序列进行分类；

步骤6：输出大数据样本集分类结果。

与现有技术相比，本发明的主要优势在于：

本发明提供了一种基于大数据的计算机数据挖掘分类方法，该基于大数据的计算机数据挖掘分类方法通过对输入大数据样本集进行去噪、归一化处理，得到归一化后的时间序列数据；然后对区域极值点进行提取，得到区域极值点序列，对极值点序列进行等长处理和距离计算；再采用贝叶斯分类法对区域极值点序列进行分类，最后输出大数据样本集分类结果。该方法能够有效地对大数据样本集进行数据挖掘分类，采用了按时间序列进行预处理和对区域极值点提取法，提高了分类的性能，便于高效精确地对大数据样本进行快速分类。

附图说明

图1为本发明的实现原理框图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明，以便本领域的技术人员更好地理解本发明。

如图1所示，是本发明所述的一种基于大数据的计算机数据挖掘分类方法的具体实施方式，其具体实施步骤为：

步骤1：输入给定大数据样本集X，其中X＝{x₁,x₂,…,x_n}；

f (x_{i}, R) = {\begin{matrix} f (x_{i}, R - 1), x_{i} &GreaterEqual; x_{i + 1} \cap x_{i} &GreaterEqual; x_{i - 1} \cap R &GreaterEqual; 2 \\ f (x_{i}, 1 - R), x_{i} \leq x_{i + 1} \cap x_{i} \leq x_{i - 1} \cap R &GreaterEqual; 2 \\ 0, o t h e r s \end{matrix};

f (x_{i}, 1) = \{\begin{matrix} 1, x_{i} &GreaterEqual; x_{i + 1} \cap x_{i} &GreaterEqual; x_{i - 1} \\ - 1, x_{i} \leq x_{i + 1} \cap x_{i} \leq x_{i - 1} \\ 0, o t h e r s \end{matrix}

步骤4：对极值点序列进行等长处理和距离计算；

步骤5：采用贝叶斯分析法对区域极值点序列进行分类；

步骤6：输出大数据样本集分类结果。

以上实施方式仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于大数据的计算机数据挖掘分类方法，其特征在于，该方法包括以下步骤：

步骤1：输入给定大数据样本集X，其中X＝{x₁,x₂,…,x_n}；

f (x_{i}, R) = \{\begin{matrix} f (x_{i}, R - 1), x_{i} &GreaterEqual; x_{i + 1} \cap x_{i} &GreaterEqual; x_{i - 1} \cap R &GreaterEqual; 2 \\ f (x_{i}, 1 - R), x_{i} \leq x_{i + 1} \cap x_{i} \leq x_{i - 1} \cap R &GreaterEqual; 2 \\ 0, o t h e r s \end{matrix};

f (x_{i}, 1) = \{\begin{matrix} 1, x_{i} &GreaterEqual; x_{i + 1} \cap x_{i} &GreaterEqual; x_{i - 1} \\ - 1, x_{i} \leq x_{i + 1} \cap x_{i} \leq x_{i - 1} \\ 0, o t h e r s \end{matrix}

步骤4：对极值点序列进行等长处理和距离计算；

步骤5：采用贝叶斯分析法对区域极值点序列进行分类；

步骤6：输出大数据样本集分类结果。