CN103995873A

CN103995873A - 一种数据挖掘方法及数据挖掘系统

Info

Publication number: CN103995873A
Application number: CN201410219319.3A
Authority: CN
Inventors: 刘艳秋; 王小虎; 王春影; 胡婷; 丁健生; 闻喆; 王旭
Original assignee: Changchun University of Technology
Current assignee: Changchun University of Technology
Priority date: 2014-05-22
Filing date: 2014-05-22
Publication date: 2014-08-20
Anticipated expiration: 2034-05-22
Also published as: CN103995873B

Abstract

本发明公开了一种数据挖掘方法及数据挖掘系统，包括以下步骤：A、数据分隔；B、数据筛选；C、数据迭代处理；D、数据归一化；E、结果判断。本发明能够解决现有技术的不足，通过优化数据处理流程，显著提高了对于大数据量的数据挖掘的处理速度。

Description

一种数据挖掘方法及数据挖掘系统

技术领域

本发明属于数据挖掘技术领域，涉及一种数据挖掘方法及数据挖掘系统。

背景技术

数据挖掘(Data Mining，DM)是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。现有数据挖掘的方法计算量普遍较大，面对大数据量的数据源时经常出现反应慢的问题。

发明内容

本发明的目的在于提供一种数据挖掘方法，解决了现有的现有数据挖掘的方法计算量较大的问题。

本发明的另一个目的是提供一种数据挖掘系统。

本发明所采用的技术方案是按照以下步骤进行：

A、数据分隔：从数据源中抽取若干个采样数据,其中采样方法为系统每生成一个随机数，使用随机数从数据源中抽取对应位置的数据；计算采样数据的分布关系，并根据采样数据的分布关系将数据源中其余的数据进行分隔，形成若干个数据集合，每个采样数据代表一个数据集合。每个采样数据所包含的特征元素为其对应的数据集合的特征向量；根据数据类型和挖掘要求的不同而不同。

B、数据筛选：确定特征向量中各个元素的权重值，权重值根据各个元素对数据挖掘重要性的强弱进行设定，元素对数据挖掘的重要性使用1～10区间内的数值表示，设权重值为L，元素即特征向量的组成部分对数据挖掘的重要性参数为b，则L＝b²，对特征向量进行修正；

C、数据迭代处理：迭代的目的是为了得到一个满足标准的集合，提前设定的标准就是目标集合，根据目标集合的格式设置迭代矩阵，随机选择符合要求的迭代矩阵，通过循环迭代进行修正，逐步靠近目标。将数据集合与迭代矩阵相乘，然后与修正后的特征向量相乘，得到第一中间数据集合，求出第一中间数据集合与数据集合的第一偏移率；使用第一中间数据集合与迭代矩阵相乘，然后与修正后的特征向量相乘，得到第二中间数据集合，求出第二中间数据集合与第一中间数据集合的第二偏移率，当第二偏移率小于第一偏移率时，继续上述迭代过程，直至第N偏移率小于设定的阈值，得到目标数据集合(目标数据集合即最后一次的中间数据集合，当第二偏移率大于第一偏移率时，修订迭代矩阵，重新进行迭代；

D、数据归一化：将目标数据集合内的数据进行归一化，将归一化过程中删除的数据进行原始位置标记，并存入数据缓冲集合；原始位置标记采用三维数据组的形式，三个维度的数据分别为数据绝对位置、与上一个数据的相对位置、与下一个数据的相对位置；归一化的目标函数方法：

方法1：归一化的目标函数的形式为y＝ax²+bx+e^x+c；

方法2：归一化的目标函数的形式为y＝ax³+bx²+tan(x/lnx)；

E、结果判断：根据数据归一化的结果，从决策表中选取相应决策。决策表采用若干个堆栈结构并列设置而成。

进一步，所述步骤A中随机数据选取过程：记数据源的数据总量与采样数据的数量进行除法运算后的结果为a,例如数据源的数据总量为10000，采样数据量为10，那么a就是1000。任意两个随机数的差值均大于a/5。

进一步，所述步骤B中数据集合优选相邻的两个数据集合之间保留有10％～15％的重叠区，重叠区域同一个数据属于多个数据集合。

进一步，所述步骤B中特征向量修正过程为依照权重值由高至低的顺序依次对数据集合进行筛选，根据筛选的结果对特征向量的元素进行修正f(x，y)代表修正的特征向量：

方式1：修正公式如下：

f (x, y) = \underset{d}{Σ} {(x - y)}^{e^{1 / L}} - c

其中，x为数据集合内的元素，y为与x对应的特征向量的原始元素，c为最高阈值，阈值为修正前特征向量长度的10％。d为筛选数据范围；

方式2.修正公式如下：

P = {(\frac{x}{y})}^{e}

f (x, y) = \underset{d}{Σ} P \times \lg (\frac{1}{P^{2}})

其中，x为数据集合内的元素，y为与x对应的特征向量的原始元素，d为筛选数据范围。

进一步，所述步骤C中迭代矩阵采用对角矩阵。

进一步，所述步骤C中偏移率的计算方法为以下两种：

方法1：其中偏移率的计算，首先计算每个数据间的欧氏距离，然后将其欧氏距离设置为欧氏距离矩阵，欧氏距离矩阵的特征值即为所求偏移率，阈值设定为上述欧氏距离的3％。

方法2：其中偏移率的计算，其过程为求出第N-1中间数据集合的加和平均值，第N中间数据集合与第N-1中间数据集合的偏移率为第N中间数据集合中各个数据与N-1中间数据集合平均值差值的加权平均值，其中加权值为步骤B中特征向量中各个元素的修正权重值；阈值为上述加权平均值的1％。

应用于本发明方法中的一种数据挖掘系统，包括：

数据库，用于存储数据源；

分选模块，用于将数据库中数据源进行分隔；

筛选模块，用于依据权重值对数据进行筛选和修正；

迭代模块，用于对数据集合进行矩阵转换，并迭代计算；

转化模块，用于对目标数据集合进行归一化运算；

决策模块，用于存储决策条目，并根据选择函数使用数据归一化的结果进行选择。

本发明的有益效果是通过优化数据处理流程，显著提高了对于大数据量的数据挖掘的处理速度。

附图说明

图1是本发明数据挖掘步骤示意图；

图2是本发明数据迭代步骤示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图1所示为本发明方法步骤，下面列举具体实施例对本发明进行说明：

实施例1：

A、数据分隔

从数据源中抽取若干个采样数据，计算采样数据的分布关系，并根据采样数据的分布关系将数据源中其余的数据进行分隔，形成若干个数据集合，每个采样数据所包含的特征元素为其对应的数据集合的特征向量；

B、数据筛选

根据选定的筛选条件确定特征向量中各个元素的权重值，依照权重值由高至低的顺序依次对数据集合进行筛选，根据筛选的结果对特征向量的元素及其权重值进行修正；

C、数据迭代处理

如图2所示的迭代处理步骤，根据目标集合的格式设置迭代矩阵，将数据集合与迭代矩阵相乘，然后与修正后的特征向量相乘，得到第一中间数据集合，求出第一中间数据集合与数据集合的第一偏移率；使用第一中间数据集合与迭代矩阵相乘，然后与修正后的特征向量相乘，得到第二中间数据集合，求出第二中间数据集合与第一中间数据集合的第二偏移率，当第二偏移率小于第一偏移率时，继续上述迭代过程，直至第N偏移率小于设定的阈值，得到目标数据集合，当第二偏移率大于第一偏移率时，修订迭代矩阵，重新进行迭代；

D、数据归一化

将目标数据集合内的数据进行归一化，将归一化过程中删除的数据进行原始位置标记，并存入数据缓冲集合；

E、结果判断

根据数据归一化的结果，从决策表中选取相应决策。

所述步骤A中，系统每生成一个随机数，使用随机数从数据源中抽取对应位置的数据；记数据源的数据总量与采样数据的数量进行除法运算后的结果为a，任意两个随机数的差值均大于a/5。

步骤B中，所述权重值根据各个元素对数据挖掘重要性的强弱进行设定，元素对数据挖掘的重要性使用1～10区间内的数值表示。

步骤C中，所述迭代矩阵采用对称矩阵。

一种数据挖掘系统，包括：

数据库，用于存储数据源；

分选模块，用于将数据库中数据源进行分隔；

筛选模块，用于依据权重值对数据进行筛选和修正；

迭代模块，用于对数据集合进行矩阵转换，并迭代计算；

转化模块，用于对目标数据集合进行归一化运算；

实施例2：

A、数据分隔

从数据源中抽取若干个采样数据，计算采样数据的分布关系，并根据采样数据的分布关系将数据源中其余的数据进行分隔，形成若干个数据集合，相邻的两个数据集合之间保留有10％～15％的重叠区，每个采样数据所包含的特征元素为其对应的数据集合的特征向量；

B、数据筛选

根据选定的筛选条件确定特征向量中各个元素的权重值L，依照权重值由高至低的顺序依次对数据集合进行筛选，根据筛选的结果对特征向量的元素及其权重值进行修正；修正公式如下：

f (x, y) = \underset{d}{Σ} {(x - y)}^{e^{1 / L}} - c

其中，x为数据集合内的元素，y为与x对应的特征向量的原始元素，c为最高阈值，d为筛选数据范围；

C、数据迭代处理

如图2所示的迭代处理步骤，根据目标集合的格式设置迭代矩阵，将数据集合与迭代矩阵相乘，然后与修正后的特征向量相乘，得到第一中间数据集合，求出第一中间数据集合与数据集合的第一偏移率；使用第一中间数据集合与迭代矩阵相乘，然后与修正后的特征向量相乘，得到第二中间数据集合，求出第二中间数据集合与第一中间数据集合的第二偏移率，当第二偏移率小于第一偏移率时，继续上述迭代过程，直至第N偏移率小于设定的阈值，得到目标数据集合，当第二偏移率大于第一偏移率时，修订迭代矩阵，重新进行迭代；其中偏移率的计算，首先计算每个数据间的欧氏距离，然后将其欧氏距离设置为欧氏距离矩阵，欧氏距离矩阵的特征值即为所求偏移率，阈值设定为上述欧氏距离的3％。

D、数据归一化

将目标数据集合内的数据进行归一化，将归一化过程中删除的数据进行原始位置标记，并存入数据缓冲集合；归一化的目标函数的形式为y＝ax²+bx+e^x+c；

E、结果判断

根据数据归一化的结果，从决策表中选取相应决策，决策表采用若干个堆栈结构并列设置而成。

所述权重值根据各个元素对数据挖掘重要性的强弱进行设定，元素对数据挖掘的重要性使用1～10区间内的数值表示，设权重值为L，元素对数据挖掘的重要性参数为b，则L＝b²。

为本发明的一种优选技术方案，所述迭代矩阵采用对角矩阵。

一种数据挖掘系统，包括

数据库，用于存储数据源；

分选模块，用于将数据库中数据源进行分隔；

筛选模块，用于依据权重值对数据进行筛选和修正；

迭代模块，用于对数据集合进行矩阵转换，并迭代计算；

转化模块，用于对目标数据集合进行归一化运算；

实施例3：

A、数据分隔

B、数据筛选

根据选定的筛选条件确定特征向量中各个元素的权重值，依照权重值由高至低的顺序依次对数据集合进行筛选，根据筛选的结果对特征向量的元素及其权重值进行修正；修正公式如下：

P = {(\frac{x}{y})}^{e}

f (x, y) = \underset{d}{Σ} P \times \lg (\frac{1}{P^{2}})

C、数据迭代处理

如图2所示的迭代处理步骤，根据目标集合的格式设置迭代矩阵，将数据集合与迭代矩阵相乘，然后与修正后的特征向量相乘，得到第一中间数据集合，求出第一中间数据集合与数据集合的第一偏移率；使用第一中间数据集合与迭代矩阵相乘，然后与修正后的特征向量相乘，得到第二中间数据集合，求出第二中间数据集合与第一中间数据集合的第二偏移率，当第二偏移率小于第一偏移率时，继续上述迭代过程，直至第N偏移率小于设定的阈值，得到目标数据集合，当第二偏移率大于第一偏移率时，修订迭代矩阵，重新进行迭代；其中偏移率的计算，其过程为求出第N-1中间数据集合的平均值，第N中间数据集合与第N-1中间数据集合的偏移率为第N中间数据集合中各个数据与N-1中间数据集合平均值差值的加权平均值，其中加权值为步骤B中特征向量中各个元素的修正权重值；阈值为上述加权平均值的1％。

D、数据归一化

将目标数据集合内的数据进行归一化，将归一化过程中删除的数据进行原始位置标记，并存入数据缓冲集合；原始位置标记采用三维数据组的形式，三个维度的数据分别为数据绝对位置、与上一个数据的相对位置、与下一个数据的相对位置；归一化的目标函数的形式为y＝ax³+bx²+tan(x/lnx)；

E、结果判断

根据数据归一化的结果，从决策表中选取相应决策。决策表采用数据链表形式储存。

步骤C中，所述迭代矩阵采用共轭矩阵。

一种数据挖掘系统，包括

数据库，用于存储数据源；

分选模块，用于将数据库中数据源进行分隔；

筛选模块，用于依据权重值对数据进行筛选和修正；

迭代模块，用于对数据集合进行矩阵转换，并迭代计算；

转化模块，用于对目标数据集合进行归一化运算；

对同一个数据源进行数据挖掘测试，现有技术和上述的3个实施例的对比如下：

类别	现有技术	实施例1	实施例2	实施例3
					遍历时间	43s	24s	18s	19s
决策时间	43s	7s	7s	5s
					决策准确率	92％	96％	99％	98％

可以看出，本发明优点在于：通过对原始数据进行优化修正和简化处理，使得数据的规律性提高，噪音数据比例降低，使得系统在对数据进行分析挖掘时，可以在不进行遍历分析时即作出可靠性较高的预测性判断，然后再进行实时校正。这就大大减化了对数据的处理运算量。

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种数据挖掘方法，其特征在于按照以下步骤进行：

A、数据分隔：从数据源中抽取若干个采样数据,其中采样方法为系统每生成一个随机数，使用随机数从数据源中抽取对应位置的数据；计算采样数据的分布关系，并根据采样数据的分布关系将数据源中其余的数据进行分隔，形成若干个数据集合；

B、数据筛选：确定特征向量中各个元素的权重值，设权重值为L，元素即特征向量的组成部分对数据挖掘的重要性参数为b，则L＝b2，对特征向量进行修正；

C、数据迭代处理：迭代的目的是为了得到一个满足标准的集合，根据目标集合的格式设置迭代矩阵，随机选择符合要求的迭代矩阵，通过循环迭代进行修正，逐步靠近目标；将数据集合与迭代矩阵相乘，然后与修正后的特征向量相乘，得到第一中间数据集合，求出第一中间数据集合与数据集合的第一偏移率；使用第一中间数据集合与迭代矩阵相乘，然后与修正后的特征向量相乘，得到第二中间数据集合，求出第二中间数据集合与第一中间数据集合的第二偏移率，当第二偏移率小于第一偏移率时，继续上述迭代过程，直至第N偏移率小于设定的阈值，得到目标数据集合，当第二偏移率大于第一偏移率时，修订迭代矩阵，重新进行迭代；

D、数据归一化：将目标数据集合内的数据进行归一化，将归一化过程中删除的数据进行原始位置标记，并存入数据缓冲集合；

E、结果判断：根据数据归一化的结果，从决策表中选取相应决策。

2.按照权利要求1所述一种数据挖掘方法，其特征在于：所述步骤A中随机数据选取过程：记数据源的数据总量与采样数据的数量进行除法运算后的结果为a，例如数据源的数据总量为10000，采样数据量为10，那么a就是1000；任意两个随机数的差值均大于a/5。

3.按照权利要求1所述一种数据挖掘方法，其特征在于：所述步骤B中数据集合优选相邻的两个数据集合之间保留有10％～15％的重叠区，重叠区域同一个数据属于多个数据集合。

4.按照权利要求1所述一种数据挖掘方法，其特征在于：所述步骤B中特征向量修正过程为依照权重值由高至低的顺序依次对数据集合进行筛选，根据筛选的结果对特征向量的元素进行修正f(x，y)代表修正的特征向量：

方式1：修正公式如下：

f (x, y) = \underset{d}{Σ} {(x - y)}^{e^{1 / L}} - c,

其中，x为数据集合内的元素，y为与x对应的特征向量的原始元素，c为最高阈值，阈值为修正前特征向量长度的10％，d为筛选数据范围；

方式2.修正公式如下：

P = {(\frac{x}{y})}^{e}

f (x, y) = \underset{d}{Σ} P \times \lg (\frac{1}{P^{2}})

5.按照权利要求1所述一种数据挖掘方法，其特征在于：所述步骤C中迭代矩阵采用对角矩阵。

6.按照权利要求1所述一种数据挖掘方法，其特征在于：所述步骤C中偏移率的计算方法为以下两种：

方法1：其中偏移率的计算，首先计算每个数据间的欧氏距离，然后将其欧氏距离设置为欧氏距离矩阵，欧氏距离矩阵的特征值即为所求偏移率，阈值设定为上述欧氏距离的3％；

7.应用于权利要求1所述一种数据挖掘方法的数据挖掘系统，其特征在于：包括

数据库，用于存储数据源；

分选模块，用于将数据库中数据源进行分隔；

筛选模块，用于依据权重值对数据进行筛选和修正；

迭代模块，用于对数据集合进行矩阵转换，并迭代计算；

转化模块，用于对目标数据集合进行归一化运算；