CN101963983A - 一种粗集优化神经网络的数据挖掘方法 - Google Patents
一种粗集优化神经网络的数据挖掘方法 Download PDFInfo
- Publication number
- CN101963983A CN101963983A CN 201010294823 CN201010294823A CN101963983A CN 101963983 A CN101963983 A CN 101963983A CN 201010294823 CN201010294823 CN 201010294823 CN 201010294823 A CN201010294823 A CN 201010294823A CN 101963983 A CN101963983 A CN 101963983A
- Authority
- CN
- China
- Prior art keywords
- attribute
- neural network
- data
- rough set
- yojan
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种粗集优化神经网络的数据挖掘方法,其特征在于:包括以下步骤:a、对样本数据进行分析,根据己知的领域知识形成一个初始的连续属性决策表;b、采用离散方法对连续属性进行离散化以形成离散属性决策表;c、对离散属性决策表进行约简;d、利用神经网络对数据进行训练。本发明可减少网络学习所需数据量,进一步提高了应用粗集和神经网络对大型实际数据库进行挖掘时的效率。
Description
技术领域
本发明涉及一种数据挖掘方法,特别是涉及一种利用粗集优化神经网络的数据挖掘方法。
背景技术
随着数据库应用范围的扩展,每天都有海量的数据收集到数据库中,如何快速、准确地提供有效的数据就成为了系统所要解决的首要问题。
粗集理论是一种刻画不完整性和不确定性信息的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。粗集理论以观察和测量所得的数据并进行分类的方法为基础,它认为知识是基于对对象分类的能力,知识直接与真实或抽象世界有关的不同分类模式联系在一起。粗集用上近似、下近似和边界来刻画信息的不确定性。在处理大数据量,消除冗余信息等方面,粗集理论有着良好效果。
神经网络是通过网络中各连接权值的改变,实现信息的处理和存储。在神经网络中每个神经元既是信息的存储单元,又是信息的处理单元,信息的处理与存储合二为一,由这些神经元构成的网络在每个神经元的共同作用下,完成对输入模式的识别与记忆。人工神经网络以神经元间广泛的互连分布来存贮信息,以非线性神经元来协同处理信息。因此,它具有大规模并行处理、极强的鲁棒性和容错性,很强的自学习功能。
目前常用采用以下方式将粗集理论和神经网络结合起来:(1)将粗集作为神经网络的前端处理器;(2)强耦合方式:即先用粗集分析决策表得到初始规则,然后用神经网络精化;(3)粗神经网络:在普通BP网的输入层和隐层之间加一个粗神经元(全互连接),以抑制输入层数据的波动;(4)用粗集优化神经网络的结构。除上述结合模式外,还存在许多新的集成方式。
在现行的各种结合方式中,粗集理论的属性约简是其中的重要组成部分之一,通过用其对神经网络的训练数据进行约简,减少网络学习所需数据量,达到进一步改善神经网络学习效率和精度的目的。但在实际应用中,对于一些规模较大的网络,粗集的处理效率仍然相对较低。
发明内容
发明目的:本发明的目的在于针对现有技术的不足,提供一种对数据的处理效率更高的利用粗集优化神经网的数据挖掘方法。
技术方案:一种粗集优化神经网络的数据挖掘方法,包括以下步骤:a、对样本数据进行分析,根据已知的领域知识形成一个初始的连续属性决策表;b、采用离散方法对连续属性进行离散化以形成离散属性决策表,即采用量化后的条件属性和决策属性值形成一张二维表格,每一行描述一个对象,每一列对应对象的一种属性;c、对离散属性决策表进行约简,对决策表约简的过程,就是从决策表系统的条件属性中去掉不必要的的条件属性,从而分析所得到约简中的条件属性对于决策属性的决策规则;d、利用神经网络对数据进行训练、挖掘。
较佳的,步骤c通过以下方法实现:用基于遗传算法的并行约简算法对数据进行属性约简,以约简后的属性作为输入层神经元,然后对数据进行垂直约简,以消除数据中的不一致对象和冗余对象。
较佳的,所述属性约简采用以下流程:
输入:条件属性集合C={Y11,Y12,……,Y53},决策属性集合D={d};
输出:一个属性约简集合REDU;
步骤1:计算条件属性C有D正域POSC(D);
步骤2:对属性Yij∈C,计算去除它所得到的条件属性子集C\{Yij}的D正域POSc\{Yij}(D);
步骤3:如果POSc\{Yij}(D)=POSC(D),则说明属性Yij对于决策属性d是不必要的,这时C=C\{Yij},转步骤2;否则,输出属性约简REDU=C。
较佳的,所述不一致对象为条件属性相同而决策属性不同的对象,所述冗余对象为条件属性相同而决策属性也相同的对象。
用粗集方法对数据进行分析前,需要将连续变量离散化,离散化本质上可归结为利用选取的断点来对条件属性构成的空间进行划分的问题,把n维空间划分成有限个区域,使得每个区域中的对象的决策值相同。较佳的,步骤b中采用距离划分方法或等频率划分方法或Naive Scaler方法使连续属性进行离散化。
神经网络按类型可分为BP网络、ART网络、RBF网络和LVM网络,较佳的,所述神经网络为BP网络,即多层前馈网络。多层前馈网络,前馈是从网络结构上来说的,是前一层神经元单向馈入后一层神经元,而后面的神经元没有反馈到之前的神经元;而BP网络是从网络的训练方法上来说的,是指该网络的训练算法是反向传播算法,即神经元的链接权重的训练是从最后一层(输出层)开始,然后反向依次更新前一层的链接权重。
有益效果:通过粗集理论对神经网络的训练数据进行约简,减少网络学习所需数据量,达到进一步改善神经网络学习效率和精度的目的。基于并行遗传算法的属性约简方法可有效解决数据量大、维数多时的快速约简问题,因而我们可首先用其对神经网络的输入空间进行快速选取,在此基础上用神经网络进行数据挖掘,以进一步提高应用粗集和神经网络对大型实际数据库进行挖掘时的效率。
附图说明
图1为本发明的工作原理示意图。
具体实施方式
下面结合附图,通过实施例,对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
实施例1:如图1所示,一种粗集优化神经网络的数据挖掘方法,包括以下步骤:
a、对样本数据进行分析,根据已知的领域知识形成一个初始的连续属性决策表;
b、采用离散方法对连续属性进行离散化;
c、对数据进行约简;
d、利用神经网络对数据进行训练、挖掘。
步骤c通过以下方法实现:
用基于遗传算法的并行约简算法对数据进行属性约简,即水平简约,以约简后的属性作为输入层神经元,然后对数据进行垂直约简,以消除数据中的不一致对象和冗余对象。
所述属性约简采用以下流程:
输入:条件属性集合C={Y11,Y12,……,Y53},决策属性集合D={d};
输出:一个属性约简集合REDU;
步骤1:计算条件属性C有D正域POSC(D);
步骤2:对属性Yij∈C,计算去除它所得到的条件属性子集C\{Yij}的D正域POSc\{Yij}(D);
步骤3:如果POSc\{Yij}(D)=POSC(D),跳转至步骤2;否则,输出属性约简REDU=C。
所述不一致对象为条件属性相同而决策属性不同的对象,所述冗余对象为条件属性相同而决策属性也相同的对象。
步骤b中采用距离划分方法或等频率划分方法或Naive Scaler方法使连续属性进行离散化。
所述神经网络为BP网络(多层前馈网络)。
现将此方法应用于某超市会员购物的分析决策中,下面以会员特征分析为例进行说明:
营销分析人员希望分析出某段时间内,对顾客在超市购物的变化起决定性作用的客户特征,并以此为基础对未来顾客的消费趋势进行预测。其中,顾客这一主题所涉及的维有年龄、职业、收入、性别、婚姻状况等。在相关人员的帮助下,我们从超市会员数据仓库中选取2005年1月至2006年5月间的数据进行分析。结合现有数据的实际情况,选取的每条记录中包括各不同年龄、收入、职业、性别、婚姻的客户数日购物金额变化率作为输入的条件属性,整体的购物金额变化率作为决策属性D。以2005年1月至2005年12月的数据作为训练集,2006年1月至5月的数据作为测试集,按照本发明的模型进行处理,首先进行维数约简,得到对购物金额变化率影响大的客户类型为年龄在30-40,收入在4000-6000,职业为文教业,性别为男性的已婚客户,以此为基础利用BP神经网络进行预测,采用图1的结构,神经元激励函数采用sigmoid函数,即神经元的非线性作用函数f(x)=1/(1+e-x)。同时研究传统的BP神经网络,粗糙集的预测结果,以比较本发明所提方法的性能。通过比较可以看出本发明提出的方法无论是在训练集还是测试集的预测精度都高于其他两种网络结构的预测精度,这说明了粗集预处理过程的有效性,粗集预处理的水平约简和垂直约简减小了网络的规模,从而减少了网络训练和测试的时间和复杂性;其中并行约简进一步提高了本发明的计算效率。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上作出各种变化。
Claims (6)
1.一种粗集优化神经网络的数据挖掘方法,其特征在于:包括以下步骤:
a、对样本数据进行分析,根据己知的领域知识形成一个初始的连续属性决策表;
b、采用离散方法对连续属性进行离散化以形成离散属性决策表;
c、对离散属性决策表进行约简;
d、利用神经网络对数据进行训练、挖掘。
2.如权利要求1所述的粗集优化神经网络的数据挖掘方法,其特征是:步骤c通过以下方法实现:
用基于遗传算法的并行约简算法对数据进行属性约简,以约简后的属性作为输入层神经元,然后对数据进行垂直约简,以消除数据中的不一致对象和冗余对象。
3.如权利要求2所述的粗集优化神经网络的数据挖掘方法,其特征是:
所述属性约简采用以下流程:
输入:条件属性集合C={Y11,Y12,……,Y53},决策属性集合D={d};
输出:一个属性约简集合REDU;
步骤1:计算条件属性C有D正域POSC(D);
步骤2:对属性Yij∈C,计算去除它所得到的条件属性子集C\{Yij}的D正域POSc\{Yij}(D);
步骤3:如果POSc\{Yij}(D)=POSC(D),跳转至步骤2;否则,输出属性约简REDU=C。
4.如权利要求2所述的粗集优化神经网络的数据挖掘方法,其特征是:所述不一致对象为条件属性相同而决策属性不同的对象,所述冗余对象为条件属性相同而决策属性也相同的对象。
5.如权利要求1至4任一所述的粗集优化神经网络的数据挖掘方法,其特征是:步骤b中采用距离划分方法或等频率划分方法或Naive Scaler方法使连续属性进行离散化。
6.如权利要求1至4任一所述的粗集优化神经网络的数据挖掘方法,其特征是:所述神经网络为多层前馈网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010294823 CN101963983A (zh) | 2010-09-28 | 2010-09-28 | 一种粗集优化神经网络的数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010294823 CN101963983A (zh) | 2010-09-28 | 2010-09-28 | 一种粗集优化神经网络的数据挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101963983A true CN101963983A (zh) | 2011-02-02 |
Family
ID=43516856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010294823 Pending CN101963983A (zh) | 2010-09-28 | 2010-09-28 | 一种粗集优化神经网络的数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101963983A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102542335A (zh) * | 2011-06-16 | 2012-07-04 | 广州市龙泰信息技术有限公司 | 一种混合数据挖掘方法 |
CN102680016A (zh) * | 2012-05-14 | 2012-09-19 | 北京理工大学 | 一种光电编码器的误差补偿方法 |
CN104008418A (zh) * | 2013-12-31 | 2014-08-27 | 广西科技大学 | 贮灰坝安全预警方法 |
CN104200076A (zh) * | 2014-08-19 | 2014-12-10 | 钟亚平 | 一种运动员运动损伤风险预警方法 |
CN104298873A (zh) * | 2014-10-10 | 2015-01-21 | 浙江大学 | 一种基于遗传算法和粗糙集的属性约简方法及精神状态评估方法 |
CN105911476A (zh) * | 2016-04-13 | 2016-08-31 | 华北电力大学 | 一种基于数据挖掘的电池储能系统soc预测方法 |
CN106790139A (zh) * | 2016-12-28 | 2017-05-31 | 芜湖乐锐思信息咨询有限公司 | 基于云计算的安全用户数据处理系统 |
WO2017177442A1 (zh) * | 2016-04-15 | 2017-10-19 | 北京中科寒武纪科技有限公司 | 支持离散数据表示的人工神经网络正向运算装置和方法 |
CN107301453A (zh) * | 2016-04-15 | 2017-10-27 | 北京中科寒武纪科技有限公司 | 支持离散数据表示的人工神经网络正向运算装置和方法 |
CN107807819A (zh) * | 2017-07-20 | 2018-03-16 | 上海寒武纪信息科技有限公司 | 一种支持离散数据表示的用于执行人工神经网络正向运算的装置及方法 |
CN107958266A (zh) * | 2017-11-21 | 2018-04-24 | 重庆邮电大学 | 一种基于mpi并行将连续属性进行离散化的方法 |
CN109242171A (zh) * | 2018-08-28 | 2019-01-18 | 河南省豫晋高速公路建设有限公司 | 一种基于bim和rs-svr的盾构施工地表沉降预测方法 |
CN109558948A (zh) * | 2017-09-25 | 2019-04-02 | 成都万江港利科技股份有限公司 | 一种基于大数据的设备故障诊断方法及系统 |
CN110245390A (zh) * | 2019-05-27 | 2019-09-17 | 南京信息工程大学 | 一种基于rs-bp神经网络的汽车发动机油耗预测方法 |
CN110378481A (zh) * | 2019-06-18 | 2019-10-25 | 广州供电局有限公司 | 基于粗糙集的决策处理方法、装置、计算机和存储介质 |
CN111832846A (zh) * | 2019-04-18 | 2020-10-27 | 湖南师范大学 | 一种基于粗糙集规则挖掘的钢卷库房智能入库方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101110106A (zh) * | 2007-06-21 | 2008-01-23 | 上海交通大学 | 结合粗糙集和神经网络的多传感器信息融合方法 |
-
2010
- 2010-09-28 CN CN 201010294823 patent/CN101963983A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101110106A (zh) * | 2007-06-21 | 2008-01-23 | 上海交通大学 | 结合粗糙集和神经网络的多传感器信息融合方法 |
Non-Patent Citations (1)
Title |
---|
《万方学位论文》 20071231 张静 基于粗集理论的数据挖掘方法及应用研究 36-39 1-6 , 2 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102542335A (zh) * | 2011-06-16 | 2012-07-04 | 广州市龙泰信息技术有限公司 | 一种混合数据挖掘方法 |
CN102680016A (zh) * | 2012-05-14 | 2012-09-19 | 北京理工大学 | 一种光电编码器的误差补偿方法 |
CN102680016B (zh) * | 2012-05-14 | 2014-08-27 | 北京理工大学 | 一种光电编码器的误差补偿方法 |
CN104008418A (zh) * | 2013-12-31 | 2014-08-27 | 广西科技大学 | 贮灰坝安全预警方法 |
CN104200076A (zh) * | 2014-08-19 | 2014-12-10 | 钟亚平 | 一种运动员运动损伤风险预警方法 |
CN104298873B (zh) * | 2014-10-10 | 2017-06-06 | 浙江大学 | 一种基于遗传算法和粗糙集的属性约简方法及精神状态评估方法 |
CN104298873A (zh) * | 2014-10-10 | 2015-01-21 | 浙江大学 | 一种基于遗传算法和粗糙集的属性约简方法及精神状态评估方法 |
CN105911476A (zh) * | 2016-04-13 | 2016-08-31 | 华北电力大学 | 一种基于数据挖掘的电池储能系统soc预测方法 |
CN107301453A (zh) * | 2016-04-15 | 2017-10-27 | 北京中科寒武纪科技有限公司 | 支持离散数据表示的人工神经网络正向运算装置和方法 |
WO2017177442A1 (zh) * | 2016-04-15 | 2017-10-19 | 北京中科寒武纪科技有限公司 | 支持离散数据表示的人工神经网络正向运算装置和方法 |
CN109358900A (zh) * | 2016-04-15 | 2019-02-19 | 北京中科寒武纪科技有限公司 | 支持离散数据表示的人工神经网络正向运算装置和方法 |
CN109358900B (zh) * | 2016-04-15 | 2020-07-03 | 中科寒武纪科技股份有限公司 | 支持离散数据表示的人工神经网络正向运算装置和方法 |
CN106790139A (zh) * | 2016-12-28 | 2017-05-31 | 芜湖乐锐思信息咨询有限公司 | 基于云计算的安全用户数据处理系统 |
CN107807819A (zh) * | 2017-07-20 | 2018-03-16 | 上海寒武纪信息科技有限公司 | 一种支持离散数据表示的用于执行人工神经网络正向运算的装置及方法 |
CN109558948A (zh) * | 2017-09-25 | 2019-04-02 | 成都万江港利科技股份有限公司 | 一种基于大数据的设备故障诊断方法及系统 |
CN107958266A (zh) * | 2017-11-21 | 2018-04-24 | 重庆邮电大学 | 一种基于mpi并行将连续属性进行离散化的方法 |
CN109242171A (zh) * | 2018-08-28 | 2019-01-18 | 河南省豫晋高速公路建设有限公司 | 一种基于bim和rs-svr的盾构施工地表沉降预测方法 |
CN111832846A (zh) * | 2019-04-18 | 2020-10-27 | 湖南师范大学 | 一种基于粗糙集规则挖掘的钢卷库房智能入库方法 |
CN110245390A (zh) * | 2019-05-27 | 2019-09-17 | 南京信息工程大学 | 一种基于rs-bp神经网络的汽车发动机油耗预测方法 |
CN110245390B (zh) * | 2019-05-27 | 2024-01-05 | 南京信息工程大学 | 一种基于rs-bp神经网络的汽车发动机油耗预测方法 |
CN110378481A (zh) * | 2019-06-18 | 2019-10-25 | 广州供电局有限公司 | 基于粗糙集的决策处理方法、装置、计算机和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101963983A (zh) | 一种粗集优化神经网络的数据挖掘方法 | |
Kim et al. | Optimization of cluster-based evolutionary undersampling for the artificial neural networks in corporate bankruptcy prediction | |
Sun et al. | Data mining method for listed companies’ financial distress prediction | |
Yen et al. | Cluster-based under-sampling approaches for imbalanced data distributions | |
CN110400021B (zh) | 银行网点现金用量预测方法及装置 | |
Dumitru et al. | Solar photovoltaic energy production forecast using neural networks | |
Manley et al. | A review of machine learning and big data applications in addressing ecosystem service research gaps | |
KR102137583B1 (ko) | Lstm을 이용한 농산물 가격 및 판매량 예측 방법 | |
Claveria et al. | Evolutionary computation for macroeconomic forecasting | |
CN111738843B (zh) | 一种使用流水数据的量化风险评价系统和方法 | |
Zhang et al. | Distributed gas concentration prediction with intelligent edge devices in coal mine | |
Vannuccini et al. | Artificial Intelligence’s new clothes? A system technology perspective | |
Peng | Research on credit evaluation of financial enterprises based on the genetic backpropagation neural network | |
CN102542335A (zh) | 一种混合数据挖掘方法 | |
CN115760380A (zh) | 一种融合用电信息的企业信用评估方法与系统 | |
Liu et al. | A comprehensive methodology for assessing river ecological health based on subject matter knowledge and an artificial neural network | |
Wang et al. | The prediction model for haze pollution based on stacking framework and feature extraction of time series images | |
CN102279852A (zh) | 一种基于遗传算法的油藏自动历史拟合系统及其拟合方法 | |
Shan et al. | Incorporating user behavior flow for user risk assessment | |
Yu et al. | Computational intelligent data analysis for sustainable development | |
Wang et al. | Future of jobs in China under the impact of artificial intelligence | |
Pundir et al. | Machine learning for revenue forecasting: A case study in retail business | |
Simion-Constantinescu et al. | Deep neural pipeline for churn prediction | |
Pei et al. | A Predictive Analysis of the Business Environment of Economies along the Belt and Road Using the Fractional‐Order Grey Model | |
Potgieter | Machine learning and forecasting: a review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20110202 |