CN104462458A

CN104462458A - 大数据系统的数据挖掘方法

Info

Publication number: CN104462458A
Application number: CN201410783567.0A
Authority: CN
Inventors: 刘焰龙; 高辉
Original assignee: Wuhu Leruisi Information Consulting Co Ltd
Current assignee: Wuhu Leruisi Information Consulting Co Ltd
Priority date: 2014-12-16
Filing date: 2014-12-16
Publication date: 2015-03-25

Abstract

本发明涉及网络技术及数据处理方法领域，具体地说是一种能够快速从海量数据中完成目标数据提取的大数据系统的数据挖掘方法，其特征在于包括以下步骤：从逻辑数据库中抽取样本数据进行预处理，设定检索顺序，建立检索子模型，检索子模型对输入的样本数据进行运算，输出检索结果，本发明与现有技术相比，采用高效的优化方法和抽样方法，使得大数据集合在存储和运算挖掘过程中更高效，具有低复杂度、检索快速等显著的优点。

Description

大数据系统的数据挖掘方法

技术领域：

本发明涉及网络技术及数据处理方法领域，具体地说是一种能够快速从海量数据中完成目标数据提取的大数据系统的数据挖掘方法。

背景技术：

随着信息技术的高度发展，人们积累的数据量日益增长，如何从海量数据中快速的获得有效数据成为当务之急。大数据是指无法再当前条件下使用常规的工具对数据内容进行检索和管理的数据集，其具有数据量大、数据类型繁多、价值密度低、处理速度快等特点。目前检索时，用户通常希望能快速的从已有资料中获得自己需要的东西，这就涉及一个准确率和速度的问题，现阶段的数据检索方法例如KD-tree，M-tree等在数据维度小于10维时能够取得良好的效果，但对于大数据系统不适用。另外，网络检索过程中，用户越来越多的追求快速获得相同或相似的结果，现有的检索方法在近似检索中受到局限。

发明内容：

本发明针对现有技术中存在的缺点和不足，提出了一种能够快速从海量数据中完成目标数据提取的大数据系统的数据挖掘方法。

本发明可以通过以下措施达到：

一种大数据系统的数据挖掘方法，其特征在于包括以下步骤：

步骤1：从逻辑数据库中抽取样本数据进行预处理，先对每个样本数据赋唯一的id编号，并设定对该样本数据的检索类型T_i，然后根据样本数据归属的数据检索类型对样本数据进行初步分类；

步骤2：设定检索顺序，即获取所述样本数据的id编号以及检索类型；

步骤3：建立检索子模型，按照不同的检索顺序依次将样本数据送入多个检索子模型中；

步骤4：检索子模型对输入的样本数据进行运算，同时判断本次输入的样本数据是否有外部参数，外部参数指用于向该样本数据的变量传递数据的参数，如果具有外部参数，则调用该外部参数后执行当前检索子模型；

步骤5：输出检索结果。

本发明所述检索子模型可以采用哈希函数检索模型，检索子模型的建立包括以下步骤：

步骤3-1：从逻辑数据库中抽取数据组成训练集X，用于训练哈希函数，训练集的大小n由决定，其中t_α/2表示置信度的值，可以通过t分布临界值获得，ε表示最大的允许误差；

步骤3-2：用X训练哈希函数，首先涉及目标函数转高位实数数据到低维数据，目标函数定义为：

\min_{B, S} {| | X - BS | |}_{2} + λ_{1} Σ_{i, j} w_{i, j} {| | s_{i} - s_{j} | |}^{2} + λ_{2} {| | S | |}_{1}, s . t ., S > 0, Σ_{i} B_{i, j}^{2} \leq 1

，其中X为训练集，B为基空间，B的每一个向量均为训练集X中训练出来的基向量，S是X被投影在基空间B上的低维实数值，λ₁和λ₂是通过十折交叉验证方法取得的可调参数，w_i，j是X中两个实例X_i和X_j之间的欧式距离在高斯核上的投影，S_i和S_j是矩阵S中的两个向量，B_i，j是矩阵B中第i行和第j列的元素，i＝1，2，3，……，n为表示实例的记号，j＝1，2，3，……k表示基向量的标号，n是实例的个数，k是基向量的个数，s＞0表示S中每个元素非负；

步骤3-3：对大数据库中还没得到二进制代码的实例进行二进制编码，过称谓对每一个实例x，通过s＝(B’B+2I)^-1B’x得到x的低维实数值，然后通过哈希函数得到它的低维二进制代码，其中B是步骤3-2中定义的基空间，I是跟B同维度的单位矩阵，这样对整个大数据数据库进行编码；

步骤3-4：对新进入的测试实例x_t通过s＝(B’B+2I)^-1B’x运算得到x_t的低维实数值，然后通过哈希函数得到它的低维二进制代码，把测试实例的二进制代码跟大数据的二进制代码进行相似性检索，以得到与其相似的实例。

本发明与现有技术相比，采用高效的优化方法和抽样方法，使得大数据集合在存储和运算挖掘过程中更高效，具有低复杂度、检索快速等显著的优点。

附图说明：

附图1是本发明的流程图。

具体实施方式：

下面结合附图对本发明作进一步的说明。

如附图1所示，本发明提出了一种大数据系统的数据挖掘方法，其特征在于包括以下步骤：

步骤5：输出检索结果。

\min_{B, S} {| | X - BS | |}_{2} + λ_{1} Σ_{i, j} w_{i, j} {| | s_{i} - s_{j} | |}^{2} + λ_{2} {| | S | |}_{1}, s . t ., S > 0, Σ_{i} B_{i, j}^{2} \leq 1

Claims

1.一种大数据系统的数据挖掘方法，其特征在于包括以下步骤：

步骤1：从逻辑数据库中抽取样本数据进行预处理，先对每个样本数据赋唯一的id编号，并设定对该样本数据的检索类型Ti，然后根据样本数据归属的数据检索类型对样本数据进行初步分类；

步骤5：输出检索结果。

2.根据权利要求1所述的一种大数据系统的数据挖掘方法，其特征在于所述检索子模型采用哈希函数检索模型，检索子模型的建立包括以下步骤：

步骤3-3：对大数据库中还没得到二进制代码的实例进行二进制编码，过称谓对每一个实例x，通过s＝(B’B+2I)^-1B’x得到x的低维实数值，然后通过哈希函数得到它的低维二进制代码，其中B是步骤3-2中定义的基空间，I是跟B同维度的单位矩阵，这样对整个大数据数据库进行编码。

3.根据权利要求2所述的一种大数据系统的数据挖掘方法，其特征在于还包括对新进入的测试实例x_t通过s＝(B’B+2I)^-1B’x运算得到x_t的低维实数值，然后通过哈希函数得到它的低维二进制代码，把测试实例的二进制代码跟大数据的二进制代码进行相似性检索，以得到与其相似的实例。