CN101963983A

CN101963983A - 一种粗集优化神经网络的数据挖掘方法

Info

Publication number: CN101963983A
Application number: CN 201010294823
Authority: CN
Inventors: 李星
Original assignee: JIANGSU RIFETUNE SOFTWARE TECHNOLOGY Co Ltd
Current assignee: JIANGSU RIFETUNE SOFTWARE TECHNOLOGY Co Ltd
Priority date: 2010-09-28
Filing date: 2010-09-28
Publication date: 2011-02-02

Abstract

本发明公开一种粗集优化神经网络的数据挖掘方法，其特征在于：包括以下步骤：a、对样本数据进行分析，根据己知的领域知识形成一个初始的连续属性决策表；b、采用离散方法对连续属性进行离散化以形成离散属性决策表；c、对离散属性决策表进行约简；d、利用神经网络对数据进行训练。本发明可减少网络学习所需数据量，进一步提高了应用粗集和神经网络对大型实际数据库进行挖掘时的效率。

Description

一种粗集优化神经网络的数据挖掘方法

技术领域

本发明涉及一种数据挖掘方法，特别是涉及一种利用粗集优化神经网络的数据挖掘方法。

背景技术

随着数据库应用范围的扩展，每天都有海量的数据收集到数据库中，如何快速、准确地提供有效的数据就成为了系统所要解决的首要问题。

粗集理论是一种刻画不完整性和不确定性信息的数学工具，能有效地分析和处理不精确、不一致、不完整等各种不完备信息，并从中发现隐含的知识，揭示潜在的规律。粗集理论以观察和测量所得的数据并进行分类的方法为基础，它认为知识是基于对对象分类的能力，知识直接与真实或抽象世界有关的不同分类模式联系在一起。粗集用上近似、下近似和边界来刻画信息的不确定性。在处理大数据量，消除冗余信息等方面，粗集理论有着良好效果。

神经网络是通过网络中各连接权值的改变，实现信息的处理和存储。在神经网络中每个神经元既是信息的存储单元，又是信息的处理单元，信息的处理与存储合二为一，由这些神经元构成的网络在每个神经元的共同作用下，完成对输入模式的识别与记忆。人工神经网络以神经元间广泛的互连分布来存贮信息，以非线性神经元来协同处理信息。因此，它具有大规模并行处理、极强的鲁棒性和容错性，很强的自学习功能。

目前常用采用以下方式将粗集理论和神经网络结合起来：(1)将粗集作为神经网络的前端处理器；(2)强耦合方式：即先用粗集分析决策表得到初始规则，然后用神经网络精化；(3)粗神经网络：在普通BP网的输入层和隐层之间加一个粗神经元(全互连接)，以抑制输入层数据的波动；(4)用粗集优化神经网络的结构。除上述结合模式外，还存在许多新的集成方式。

在现行的各种结合方式中，粗集理论的属性约简是其中的重要组成部分之一，通过用其对神经网络的训练数据进行约简，减少网络学习所需数据量，达到进一步改善神经网络学习效率和精度的目的。但在实际应用中，对于一些规模较大的网络，粗集的处理效率仍然相对较低。

发明内容

发明目的：本发明的目的在于针对现有技术的不足，提供一种对数据的处理效率更高的利用粗集优化神经网的数据挖掘方法。

技术方案：一种粗集优化神经网络的数据挖掘方法，包括以下步骤：a、对样本数据进行分析，根据已知的领域知识形成一个初始的连续属性决策表；b、采用离散方法对连续属性进行离散化以形成离散属性决策表，即采用量化后的条件属性和决策属性值形成一张二维表格，每一行描述一个对象，每一列对应对象的一种属性；c、对离散属性决策表进行约简，对决策表约简的过程，就是从决策表系统的条件属性中去掉不必要的的条件属性，从而分析所得到约简中的条件属性对于决策属性的决策规则；d、利用神经网络对数据进行训练、挖掘。

较佳的，步骤c通过以下方法实现：用基于遗传算法的并行约简算法对数据进行属性约简，以约简后的属性作为输入层神经元，然后对数据进行垂直约简，以消除数据中的不一致对象和冗余对象。

较佳的，所述属性约简采用以下流程：

输入：条件属性集合C＝{Y11，Y12，……，Y53}，决策属性集合D＝{d}；

输出：一个属性约简集合REDU；

步骤1：计算条件属性C有D正域POSC(D)；

步骤2：对属性Yij∈C，计算去除它所得到的条件属性子集C\{Yij}的D正域POSc\{Yij}(D)；

步骤3：如果POSc\{Yij}(D)＝POSC(D)，则说明属性Yij对于决策属性d是不必要的，这时C＝C\{Yij}，转步骤2；否则，输出属性约简REDU＝C。

较佳的，所述不一致对象为条件属性相同而决策属性不同的对象，所述冗余对象为条件属性相同而决策属性也相同的对象。

用粗集方法对数据进行分析前，需要将连续变量离散化，离散化本质上可归结为利用选取的断点来对条件属性构成的空间进行划分的问题，把n维空间划分成有限个区域，使得每个区域中的对象的决策值相同。较佳的，步骤b中采用距离划分方法或等频率划分方法或Naive Scaler方法使连续属性进行离散化。

神经网络按类型可分为BP网络、ART网络、RBF网络和LVM网络，较佳的，所述神经网络为BP网络，即多层前馈网络。多层前馈网络，前馈是从网络结构上来说的，是前一层神经元单向馈入后一层神经元，而后面的神经元没有反馈到之前的神经元；而BP网络是从网络的训练方法上来说的，是指该网络的训练算法是反向传播算法，即神经元的链接权重的训练是从最后一层(输出层)开始，然后反向依次更新前一层的链接权重。

有益效果：通过粗集理论对神经网络的训练数据进行约简，减少网络学习所需数据量，达到进一步改善神经网络学习效率和精度的目的。基于并行遗传算法的属性约简方法可有效解决数据量大、维数多时的快速约简问题，因而我们可首先用其对神经网络的输入空间进行快速选取，在此基础上用神经网络进行数据挖掘，以进一步提高应用粗集和神经网络对大型实际数据库进行挖掘时的效率。

附图说明

图1为本发明的工作原理示意图。

具体实施方式

下面结合附图，通过实施例，对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

实施例1：如图1所示，一种粗集优化神经网络的数据挖掘方法，包括以下步骤：

a、对样本数据进行分析，根据已知的领域知识形成一个初始的连续属性决策表；

b、采用离散方法对连续属性进行离散化；

c、对数据进行约简；

d、利用神经网络对数据进行训练、挖掘。

步骤c通过以下方法实现：

用基于遗传算法的并行约简算法对数据进行属性约简，即水平简约，以约简后的属性作为输入层神经元，然后对数据进行垂直约简，以消除数据中的不一致对象和冗余对象。

所述属性约简采用以下流程：

输出：一个属性约简集合REDU；

步骤1：计算条件属性C有D正域POSC(D)；

步骤3：如果POSc\{Yij}(D)＝POSC(D)，跳转至步骤2；否则，输出属性约简REDU＝C。

所述不一致对象为条件属性相同而决策属性不同的对象，所述冗余对象为条件属性相同而决策属性也相同的对象。

步骤b中采用距离划分方法或等频率划分方法或Naive Scaler方法使连续属性进行离散化。

所述神经网络为BP网络(多层前馈网络)。

现将此方法应用于某超市会员购物的分析决策中，下面以会员特征分析为例进行说明：

营销分析人员希望分析出某段时间内，对顾客在超市购物的变化起决定性作用的客户特征，并以此为基础对未来顾客的消费趋势进行预测。其中，顾客这一主题所涉及的维有年龄、职业、收入、性别、婚姻状况等。在相关人员的帮助下，我们从超市会员数据仓库中选取2005年1月至2006年5月间的数据进行分析。结合现有数据的实际情况，选取的每条记录中包括各不同年龄、收入、职业、性别、婚姻的客户数日购物金额变化率作为输入的条件属性，整体的购物金额变化率作为决策属性D。以2005年1月至2005年12月的数据作为训练集，2006年1月至5月的数据作为测试集，按照本发明的模型进行处理，首先进行维数约简，得到对购物金额变化率影响大的客户类型为年龄在30-40，收入在4000-6000，职业为文教业，性别为男性的已婚客户，以此为基础利用BP神经网络进行预测，采用图1的结构，神经元激励函数采用sigmoid函数，即神经元的非线性作用函数f(x)＝1/(1+e-x)。同时研究传统的BP神经网络，粗糙集的预测结果，以比较本发明所提方法的性能。通过比较可以看出本发明提出的方法无论是在训练集还是测试集的预测精度都高于其他两种网络结构的预测精度，这说明了粗集预处理过程的有效性，粗集预处理的水平约简和垂直约简减小了网络的规模，从而减少了网络训练和测试的时间和复杂性；其中并行约简进一步提高了本发明的计算效率。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上作出各种变化。

Claims

1.一种粗集优化神经网络的数据挖掘方法，其特征在于：包括以下步骤：

a、对样本数据进行分析，根据己知的领域知识形成一个初始的连续属性决策表；

b、采用离散方法对连续属性进行离散化以形成离散属性决策表；

c、对离散属性决策表进行约简；

d、利用神经网络对数据进行训练、挖掘。

2.如权利要求1所述的粗集优化神经网络的数据挖掘方法，其特征是：步骤c通过以下方法实现：

用基于遗传算法的并行约简算法对数据进行属性约简，以约简后的属性作为输入层神经元，然后对数据进行垂直约简，以消除数据中的不一致对象和冗余对象。

3.如权利要求2所述的粗集优化神经网络的数据挖掘方法，其特征是：

所述属性约简采用以下流程：

输出：一个属性约简集合REDU；

步骤1：计算条件属性C有D正域POSC(D)；

4.如权利要求2所述的粗集优化神经网络的数据挖掘方法，其特征是：所述不一致对象为条件属性相同而决策属性不同的对象，所述冗余对象为条件属性相同而决策属性也相同的对象。

5.如权利要求1至4任一所述的粗集优化神经网络的数据挖掘方法，其特征是：步骤b中采用距离划分方法或等频率划分方法或Naive Scaler方法使连续属性进行离散化。

6.如权利要求1至4任一所述的粗集优化神经网络的数据挖掘方法，其特征是：所述神经网络为多层前馈网络。