CN107958266A

CN107958266A - 一种基于mpi并行将连续属性进行离散化的方法

Info

Publication number: CN107958266A
Application number: CN201711164678.3A
Authority: CN
Inventors: 胡峰; 胡宗容; 刘柯; 张清华; 高延雨; 邓维斌; 于洪; 邓欣; 张其龙; 欧阳卫华
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2017-11-21
Filing date: 2017-11-21
Publication date: 2018-04-24

Abstract

本发明请求保护一种基于MPI并行将连续属性进行离散化的方法，涉及粗糙集，离散化，并行计算，聚类等概念。首先，读取信息系统的数据，将信息系统水平划分为m个样本数据子集，通过通信分配给n个节点；其次，每个节点并行对数据进行归一化处理，得到新的数据，再并行对属性进行聚类，通过通信合并聚类结果；最后根据聚类结果进行区间划分，并对不同的区间进行属性编码，从而得到连续属性离散化的结果，构造出属性离散化后的信息系统，从而能利用粗糙集知识进行属性约简等后续工作。本发明结合了粗糙集连续属性离散化方法和MPI并行计算，从而使得连续属性离散化过程可以并行求得，提高算法的效率。

Description

一种基于MPI并行将连续属性进行离散化的方法

技术领域

本发明属于一种数据挖掘，粗糙集，并行计算领域，基于MPI利用聚类并行将连续属性离散化的方法。

背景技术

随着近年来数据爆炸式增长，并行技术显得越来越重要，并行计算的主要目的是节省大型复杂问题或海量数据的处理时间，整合“廉价”的计算机资源组建并行计算平台克服单机计算性能瓶颈和单机存储空间的限制。

并行计算是指在并行计算机或并行计算平台上将一个大型计算任务拆分为多个子任务，分配到各处理器，各处理器之间相互协同完成子任务，从而达到提高求解效率或完成大规模任务的目的。待处理问题具有并行性是运用并行计算优化解决方案的关键。并行计算分为时间并行和空间并行，时间并行实际上指的是流水线技术，空间并行则为多个处理器同时参与计算，是并行计算的主要研究问题。并行计算又可以分为数据并行和任务并行，让多个处理器参与计算，提高效率和性能。

消息传递接口(Message Passing Interface，简称MPI)自20世纪90年代以来一直是高性能计算领域并行程序开发的事实标准，目前大部分高性能计算平台均提供MPI并行环境。MPI是目前最重要的并行编程工具，它具有移植性好，功能强大，效率高等多种优点，而且有多种不同的免费高效实用的实现版本，几乎所有的并行计算机厂商都提供对它的支持，这是其它所有的并行编程环境都无法比拟的。

MPI于1994年产生，虽然产生时间相对较晚，由于它吸收了其它多种并行环境的优点，同时兼顾性能功能移植性等特点，在短短的几年内便迅速普及成为消息传递并行编程模式的标准。这也从一个方面说明了MPI的生命力和优越性，MPI其实就是一个库，共有上百个函数调用接口，在C语言中可以直接对这些函数进行调用，MPI提供的调用虽然很多，但最常使用的只有6个，只需通过使用这6个函数就可以完成几乎所有的通信功能。

MPI的特性：(1)容易使用，可移植性好。几乎所有的并行计算机都支持 MPI框架，任何支持进程间通信的并行计算机都支持MPI的程序设计。(2)有完善的异步通信机制。每个并行进程有自己独立的内存空间，能够保证在不和其他并行的进程发生冲突下进行进程间通信，解决数据同步的问题，实现了真正的异步通信。(3)显式的数据交换。用户必须通过显式的发送和接收消息来实现并行进程间的消息和数据交换。(4)并行粒度大。消息传递模型的程序设计需要很好地分解任务，适应计算密集型应用，为减少通信消耗，适用于并行计算粒度大的大规模可扩展并行算法。

现实生活中信息系统的属性不仅多样化，维度高，而且包含噪音，冗余和不相关属性，为了解决数据计算的复杂性和准确性问题，消除噪音等对计算过程和最终结果造成的影响，减少规则抽取算法的计算时间，从而看清反应数据本质特征的分布情况，属性约简必不可少。但粗糙集只能处理离散数据，故连续属性离散化显得尤为重要。近年来，粗糙集理论成为处理不确定信息的有效的数学工具。

粗糙集：该理论由波兰学者Pawlak教授于1982年提出，是一种能有效处理不精确、不确定和模糊信息的数学理论。目前，粗糙集已成功应用到机器学习、数据挖掘、智能数据分析和控制算法获取等领域。粗糙集理论的主要思想是利用已知的知识库，将不精确或不确定的知识用已知知识库中的知识来(近似) 刻画。粗糙集可以不依赖先验知识，根据数据的决策与分布进行知识发现。

连续属性离散化：离散化是处理连续属性最常用的方法，连续属性的离散化方法也可以被称为分箱法，这种方法将一组连续的值根据一定的规则分别放到其术语的集合中，即将连续属性的邻近值分组，形成有限个区间。离散化技术有很多方法可以实现，如等区间宽度、等频率、等熵、或聚类等，可以根据如何对数据进行离散化加以分类，可以根据是否使用类信息或根据进行方向(即自顶向下或自底向上)分类。如果离散化过程使用决策信息，则称它为监督离散化，否则是非监督的。如果首先找出一点或几个点(称作分裂点或割点)来划分整个属性区间，然后在结果区间上递归地重复这一过程，则称它为自顶向下离散化或分裂。自底向上离散化或合并正好相反，首先将所有的连续值看作可能的分裂点，通过合并相邻域的值形成区间，然后递归地应用这一过程于结果区间。

在进行数据处理时，先对数据进行离散化有很多好处：算法需要，例如粗糙集本身只能处理离散数据，因此利用粗糙集处理连续数据时，首先要将其离散化；离散化可以有效地克服数据中隐藏的缺陷，使模型结果更加稳定；有利于对非线性关系进行诊断和描述，对连续型数据进行离散处理后，自变量和目标变量之间的关系变得清晰化。

聚类：聚类是数据挖掘中很重要的一个概念，将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。聚类分析又称群分析，它是研究分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类所要求划分的类是未知的。由于聚类得特征和离散化类似，因此可以用聚类的方法来将连续属性离散化。

k均值算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大，并将它们归为一类。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。对连续属性进行k均值聚类，进而可以将属性离散化成为不同的类，之后可以采用粗糙集约减理论进行属性约减。

本发明针对应用粗糙集理论时，只能处理离散数据，不能处理连续数据的情况，数据离散化是应用粗糙集理论不可或缺的步骤，而且离散化可以有效地减弱极端值和异常值的影响，也有利于数据的后续处理。信息系统中属性多样化，维度高，数据量大，现有的连续属性离散化方法普遍存在着计算量大、计算复杂度高、断点数多、效率低等问题，提出了一种利用聚类基于MPI并行将连续属性离散化的方法，来解决数据计算的复杂性和准确性问题，提高计算性能和计算效率。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种解决数据计算的复杂性和准确性问题，提高计算性能和计算效率的基于MPI并行将连续属性进行离散化的方法。本发明的技术方案如下：

一种基于MPI并行将连续属性进行离散化的方法，其包括以下步骤：

1)、首先，读取信息系统的数据，将信息系统水平划分为m个样本数据子集，通过通信分配给n个节点；2)、其次，每个节点并行对数据进行归一化处理，得到新的数据，再并行对新数据属性进行聚类，通过通信合并聚类结果；3)、最后根据聚类结果进行区间划分，并对不同的区间进行属性编码，从而得到连续属性离散化的结果，构造出属性离散化后的信息系统，再利用粗糙集知识进行属性约简。

进一步的，所述步骤1)的信息系统包含条件属性和决策属性，数据集的条件属性集，形式为{条件属性1，条件属性2，……条件属性p}，信息系统是一个四元组IS＝(U,A,V,f),其中U表示领域问题中所有对象的集合,称为论域；A＝C ∪D是属性集合,子集C和D分别表示条件属性集和决策属性集；

Va是属性a的值域；f:U×A→V是一个信息函数,对一个对象的每一个属性赋予一个信息值,即x∈U,有f(x,a)∈Va。

进一步的，所述步骤1)任务分配时，基于MPI进行并行程序设计时可以根据各节点间的相互关系将其分为对等程序设计模型和主从程序设计模型，采用对等程序设计模型进行程序设计时，各个节点相互协同共同完成任务，节点间不相互依赖；采用主从程序设计模型时，分为主节点和从节点，主节点负责分配计算任务，协调从节点进度和收集计算结果，从节点接收相应的任务并计算，协同完成任务。

进一步的，所述归一化方法采用min-max法，也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0，1]之间，转换函数如下：

其中max为样本数据的最大值，min为样本数据的最小值。

进一步的，所述步骤2)采用k均值算法进行聚类，采用k均值算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小，k均值算法是采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大；并行对属性聚类时，先设置区间数目，即k值，选定区间数目后，选择k个类中心，计算样本的属性值到各个类中心的距离，找出最短距离，即

if l₁<l₂ 样本属于类c1

else 样本属于类c2

从而实现归类，直到所有的属性值都归类，取各个簇类的点的均值作为新的类中心，循环计算距离并归类，直到样本所属的簇不再发生改变。

进一步的，所述步骤3)合并属性聚类结果后，节点通信采用标准通信模式和集合通信模式，标准通信模式属于阻塞通信，消息发送方的send调用需要接收方的recv调用的配合才可以完成MPI集合通信可以将自己创建的节点作为一个通信子集，让消息和数据只在这个通信子集中进行传递，不同于点对点通信，集合通信都是阻塞的，因此需要集合中所有并行进程都执行，执行完后才能做下一个操作，否则会陷入无限等待；集合通信的方向可以分为一对多通信，多对一通信和多对多通信三种模式，同步功能用来协调进程的执行进度，相当于设置了一个同步点，直到所有进程都执行到该同步点后才能继续操作，计算功能是指进程对接收到的数据进行处理。

进一步的，所述步骤3)连续属性离散化阶段，将聚类结果进行合并，聚类结果的合并操作即根据划分的任务，对各节点归类的结果简单拼接整合；在连续属性离散化阶段，首先，根据聚类结果，每一个聚类对应一个区间，将属性值划分成不同的区间，然后对区间进行属性编码，根据区间个数，从0开始编码，用整数表示各个区间，即0,1,2，…，k,最后，将得到的结果构造出连续属性离散化后的信息系统。

本发明的优点及有益效果如下：

本发明采用基于等价类水平划分的方式，使得同一个等价类的计算在同一个节点内，减少节点间的通信开销，从而提高整体的计算效率。将传统的属性约简方法与MPI相结合，采用并行方式得到一种更有效、精度更高的约简结果，求属性约简的方法直观、易于实现的同时，解决了效率问题，使之能够处理大规模数据集。

附图说明

图1是本发明提供优选实施例基于MPI的并行粗糙集属性离散化方法流程框图；

图2主从模式设计模型；

图3对等模式设计模型。

图4节点任务分配图；

图5并行聚类流程图；

图6MPI通信模式流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

图1为本发明流程框图。包括如下步骤：

(1)获取数据，分配并行任务阶段。

本阶段主要是读入信息系统并将信息系统的数据分块，划分并行任务，步骤如下：

①读入信息系统。

从UCI实验数据平台(网址：)下载数据集，数据集的形式为{条件属性1，条件属性2……,条件属性n，决策属性}，其中条件属性集为{条件属性1，条件属性2……,条件属性n}，决策属性集为{决策属性1，决策属性2，……决策属性p}。

一个四元组IS＝(U,A,V,f)是一个信息系统(也叫决策表),其中U表示领域问题中所有对象的集合,称为论域；A＝C∪D是属性集合,子集C和D分别表示条件属性集和决策属性集。

②数据分块。

根据信息系统的定义，由主节点读入信息系统的数据，根据数据的分布，将数据分块，将信息系统水平划分为p个数据子集。

③任务分配。

将这p个数据子集分配给不同的节点，以便下一步计算。任务分配时采用主从模式，由主节点分配数据子集给从节点。

由于样本数据子集的顺序不影响计算结果，故可以采用顺序分配或随机分配方式，哪一个节点处理的快，就可以多分配样本数据子集，每一次将样本数据子集分配给空闲的节点，且各节点的结果不分先后顺序。节点任务分配如图4。

下面举一个简单的例子说明如何分配并行任务。

比如，3个节点处理7个样本数据子集，先将其中三个样本数据子集分给三个节点，节点1，节点2，节点3。若节点2先处理完，还有四个样本数据子集未处理，则继续给节点2分配任务，若节点3处于空闲，则给节点3分配任务，以此类推，直到所有样本数据子集处理完。

(2)并行聚类阶段。

本阶段分为归一化、并行属性聚类和合并聚类结果三个步骤：

①归一化。

采用min-max的归一化方法，也称为离差标准化，即对原始数据进行线性变换使结果值映射到[0，1]之间。转换函数如下：

其中max为样本数据的最大值，min为样本数据的最小值。

②并行属性聚类，流程图如图5。

集群中的每一个节点根据分配到的任务，采用k均值算法对属性并行聚类。 k均值算法是基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。

k均值算法中涉及到的主要参数和计算方法有：k值，即原始数据最终要分成的类的个数；k个聚类的初始中心，随机选择；对任意一个样本，求其到k个中心的距离，在计算距离时，在欧氏空间中一般选用欧几里得距离，即：

其中，i＝(x_i1,x_i2,…,x_in)和j＝(x_j1,x_j2,…,x_jn)是两个n维数据对象。

并行对属性聚类时，先设置区间数目，即k值，选定区间数目后，选择k 个类中心，计算样本的属性值到各个类中心的距离，找出最短距离，即

if l₁<l₂ 样本属于类c1

else 样本属于类c2

从而实现归类，直到所有的属性值都归类，取各个簇类的点的均值作为新的类中心，循环计算距离并归类，直到样本所属的簇不再发生改变。考虑到样本属性值之间可能有关联，将明显有关联的属性可以一起计算距离，而相对独立的属性单独计算距离。

③合并聚类。

各从节点与主节点进行通信，合并属性聚类结果。进程通信方式采用标准模式。所谓合并聚类结果，即将所有聚类结果进行简单拼接整合，得到整个信息系统的聚类。

节点通信采用标准通信模式和集合通信模式。标准通信模式属于阻塞通信，消息发送方的send调用需要接收方的recv调用的配合才可以完成。标准模式的阻塞通信由MPI环境自身决定是否要对要发送的消息进行缓冲，如果MPI缓冲了发送的数据，即使接收端尚未启动接收动作，发送动作也可立即返回。处于性能和资源优化考虑，MPI环境会提供一定数量的缓冲区，超过之后则需阻塞直到有相应的接收操作收取完毕数据后才可返回。也就是说阻塞通信中，发送端完成与否不仅取决于本地进程的状态，还要受到远端接收进程的状态左右。

集合通信模式可以将自己创建的节点作为一个通信子集，让消息和数据只在这个通信子集中进行传递，不同于点对点通信，集合通信都是阻塞的，因此需要集合中所有并行进程都执行，执行完后才能做下一个操作，否则会陷入无限等待，相对于点对点通信，集合通信更能发挥并行计算效率。

(3)连续属性离散化阶段。

本阶段分为区间划分、并行属性编码和构造信息系统三个步骤：

①区间划分。

根据聚类结果，每一个聚类对应一个区间，将属性值划分成不同的区间。

②并行属性编码。

对不同区间的数据进行属性编码，根据区间个数，从0开始编码，用整数表示各个区间，即(0,1,2，…，k)。

③构造信息系统。

将得到的结果构造出连续属性离散化后的信息系统。

以下举例对本发明的实施作进一步说明。本实例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实例。

表1信息系统IS

步骤(1)获取数据，分配并行任务。读入信息系统并将信息系统的数据分块，划分并行任务。

①读入信息系统，数据分块。

读入信息系统的数据，将数据分块，如，每三个样本数据子集为一块，则将信息系统IS水平划分成4块，分为4个样本数据子集，即

表2.1数据子集IS₁

表2.2数据子集IS₂

表2.3数据子集IS₃

表2.4数据子集IS₄

②任务分配。

将信息系统水平划分为p个数据子集，并采用主从模式将这p个数据子集分配给不同的节点。假设将IS每三个数据对象划分为一个数据子集，则共有4 个数据子集IS₁，IS₂，IS₃，IS₄，分配给3个节点，计算时采用对等模式，即主节点也分配任务，这样，节点1为主节点，先分配IS₁给节点2，IS₂给节点3， IS₃给节点1，IS₄给节点2，完成任务的分配。

步骤(2)并行聚类。根据前一阶段分配好的任务，各个计算节点并行将数据进行归一化处理，然后对属性并行聚类，最后对各节点的计算结果进行整合，得到原信息系统的属性聚类结果。

①归一化。

采用min-max的归一化方法，转换函数如下：

其中x_max为样本数据的最大值，即x_max＝120，x_min为样本数据的最小值，即x_min＝20。则

那么，样本数据的a属性值分别为：

同理，

x₄ ^*＝0.35 x₅ ^*＝0.75 x₆ ^*＝1.00 x₇ ^*＝0.35

x₈ ^*＝0.50 x₉ ^*＝0.00 x₁₀ ^*＝0.65

即各个样本数据子集如下：

表3.1数据子集IS₁ ^*

表3.2数据子集IS₂ ^*

表3.3数据子集IS₃ ^*

表3.4数据子集IS₄ ^*

②并行属性聚类。

集群中的每一个节点根据分配到的任务，采用k均值算法对属性并行聚类。并行对属性聚类时，先设置区间数目，即k值，选定区间数目后，选择k个类中心，计算样本的属性值到各个类中心的距离，找出最短距离，当各个属性之间相互独立时，对各个属性分别进行聚类即可。如对a属性进行聚类，k＝2，选定2个类中心C₁＝0.20,C₂＝0.50，则计算每一个样本中a属性的值与类中心的距离，并将样本归类。

则x₁与类中心C₁的距离

l₁＝|0.20-0.20|＝0.00

与类中心C₂的距离

l₁’＝|0.20-0.50|＝0.30

l₁<l₁’，故x₁属于C₁类。

x₂与类中心C₁的距离

l₂＝|0.40-0.20|＝0.20

与类中心C₂的距离

l₂’＝|0.40-0.50|＝0.10

l₂<l₂’，故x₂属于C₂类。

同理，x₃属于C₂类，x₄属于C₂类，x₅属于C₂类，x₆属于C₂类，x₇属于C₂类， x₈属于C₂类，x₉属于C₁类，x₁₀属于C₂类。

更新类中心，即

计算各个样本中a属性的值与新的类中心的距离，并将样本归类。则x₁与类中心C₁ ^*的距离

l₁＝|0.20-0.10|＝0.10

与类中心C₂ ^*的距离

l₁’＝|0.20-0.6125|＝0.4125

l₁<l₁’，故x₁属于C₁ ^*类。

x₂与类中心C₁ ^*的距离

l₂＝|0.40-0.10|＝0.30

与类中心C₂ ^*的距离

l₂’＝|0.40-0.6125|＝0.2125

l₂<l₂’，故x₂属于C₂ ^*类。

同理，x₃属于C₂ ^*类，x₄属于C₁ ^*类，x₅属于C₂ ^*类，x₆属于C₂ ^*类，x₇属于C₁ ^*类，x₈属于C₂ ^*类，x₉属于C₁ ^*类，x₁₀属于C₂ ^*类。

更新类中心，即

l₁＝|0.20-0.225|＝0.025

与类中心C₂ ^*的距离

l₁’＝|0.20-0.70|＝0.50

l₁<l₁’，故x₁属于C₁ ^*类。

x₂与类中心C₁ ^*的距离

l₂＝|0.40-0.225|＝0.175

与类中心C₂ ^*的距离

l₂’＝|0.40-0.70|＝0.3

l₂>l₂’，故x₂属于C₁ ^*类。

更新类中心，即

l₁＝|0.20-0.26|＝0.06

与类中心C₂ ^*的距离

l₁’＝|0.20-0.76|＝0.56

l₁<l₁’，故x₁属于C₁ ^*类。

x₂与类中心C₁ ^*的距离

l₂＝|0.40-0.26|＝0.14

与类中心C₂ ^*的距离

l₂’＝|0.40-0.76|＝0.36

l₂>l₂’，故x₂属于C₁ ^*类。

同理，x₃属于C₂ ^*类，x₄属于C₁ ^*类，x₅属于C₂ ^*类，x₆属于C₂ ^*类，x₇属于C₁ ^*类，x₈属于C₁ ^*类，x₉属于C₁ ^*类，x₁₀属于C₂ ^*类。

更新类中心，即

l₁＝|0.20-0.30|＝0.10

与类中心C₂ ^*的距离

l₁’＝|0.20-0.825|＝0.625

l₁<l₁’，故x₁属于C₁ ^*类。

x₂与类中心C₁ ^*的距离

l₂＝|0.40-0.30|＝0.10

与类中心C₂ ^*的距离

l₂’＝|0.40-0.825|＝0.425

l₂>l₂’，故x₂属于C₁ ^*类。

同理，x₃属于C₂ ^*类，x₄属于C₁ ^*类，x₅属于C₂ ^*类，x₆属于C₂ ^*类，x₇属于C₁ ^*类，x₈属于C₁ ^*类，x₉属于C₁ ^*类，x₁₀属于C₂ ^*类，样本分类未发生改变，循环结束，最终得到类C₁ ^*和C₂ ^*。

③合并聚类结果。

采用主从模式，由主节点收集各从节点的聚类结果，因此得到整个信息系统的聚类。

步骤(3)连续属性离散化。先根据聚类结果划分区间、再各个节点并行对属性进行编码从而构造新的信息系统。

①区间划分。

根据聚类结果，以每一个聚类的最小值为分界点，将a属性的属性值划分成不同的区间。C₁ ^*类的最小值为0.00，C₂ ^*类的最小值为0.65，即划分为两个区间，[0.00，0.65]，(0.65,1.00]。

②并行属性编码。

对不同区间的数据进行属性编码，根据区间个数，从0开始编码，用整数表示各个区间，即(0,1,2，…，k)。则在区间[0.00，0.65]内的数据编码为0，在区间(0.65,1.00]内的数据编码为1。即各个样本数据子集如下：

表4.1数据子集IS₁’

表4.2数据子集IS₂’

表4.3数据子集IS₃’

表4.4数据子集IS₄’

③构造信息系统。

由主节点将各个从节点得到的结果进行整合，构造出连续属性离散化后的信息系统。如下：

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于MPI并行将连续属性进行离散化的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于MPI并行将连续属性进行离散化的方法，其特征在于，所述步骤1)的信息系统包含条件属性和决策属性，数据集的条件属性集，形式为{条件属性1，条件属性2，……条件属性p}，信息系统是一个四元组IS＝(U,A,V,f),其中U表示领域问题中所有对象的集合,称为论域；A＝C∪D是属性集合,子集C和D分别表示条件属性集和决策属性集；

<mrow> <mi>V</mi> <mo>=</mo> <munder> <mrow> <mi></mi> <mo>&cup;</mo> </mrow> <mrow> <mi>a</mi> <mo>&Element;</mo> <mi>A</mi> </mrow> </munder> <msub> <mi>V</mi> <mi>a</mi> </msub> </mrow>

3.根据权利要求1或2所述的基于MPI并行将连续属性进行离散化的方法，其特征在于，所述步骤1)任务分配时，基于MPI进行并行程序设计时可以根据各节点间的相互关系将其分为对等程序设计模型和主从程序设计模型，采用对等程序设计模型进行程序设计时，各个节点相互协同共同完成任务，节点间不相互依赖；采用主从程序设计模型时，分为主节点和从节点，主节点负责分配计算任务，协调从节点进度和收集计算结果，从节点接收相应的任务并计算，协同完成任务。

4.根据权利要求3所述的基于MPI并行将连续属性进行离散化的方法，其特征在于，所述归一化方法采用min-max法，也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0，1]之间，转换函数如下：

其中max为样本数据的最大值，min为样本数据的最小值。

5.根据权利要求4所述的基于MPI并行将连续属性进行离散化的方法，其特征在于，所述步骤2)采用k均值算法进行聚类，采用k均值算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小，k均值算法是采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大；并行对属性聚类时，先设置区间数目，即k值，选定区间数目后，选择k个类中心，计算样本的属性值到各个类中心的距离，找出最短距离，即

<mrow> <msub> <mi>l</mi> <mn>1</mn> </msub> <mo>=</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>u</mi> <mn>1</mn> </msub> <mo>|</mo> <mo>|</mo> <mo>=</mo> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <msup> <mrow> <mo>|</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>u</mi> <mn>1</mn> </msub> </mrow> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

<mrow> <msub> <mi>l</mi> <mn>2</mn> </msub> <mo>=</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>u</mi> <mn>2</mn> </msub> <mo>|</mo> <mo>|</mo> <mo>=</mo> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>d</mi> </munderover> <msup> <mrow> <mo>|</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>u</mi> <mn>2</mn> </msub> </mrow> <mo>|</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>

if l₁<l₂ 样本属于类c1

else 样本属于类c2

6.根据权利要求4所述的基于MPI并行将连续属性进行离散化的方法，其特征在于，所述步骤3)合并属性聚类结果后，节点通信采用标准通信模式和集合通信模式，标准通信模式属于阻塞通信，消息发送方的send调用需要接收方的recv调用的配合才可以完成MPI集合通信可以将自己创建的节点作为一个通信子集，让消息和数据只在这个通信子集中进行传递，不同于点对点通信，集合通信都是阻塞的，因此需要集合中所有并行进程都执行，执行完后才能做下一个操作，否则会陷入无限等待；集合通信的方向可以分为一对多通信，多对一通信和多对多通信三种模式，同步功能用来协调进程的执行进度，相当于设置了一个同步点，直到所有进程都执行到该同步点后才能继续操作，计算功能是指进程对接收到的数据进行处理。

7.根据权利要求6所述的基于MPI并行将连续属性进行离散化的方法，其特征在于，所述步骤3)连续属性离散化阶段，将聚类结果进行合并，聚类结果的合并操作即根据划分的任务，对各节点归类的结果简单拼接整合；在连续属性离散化阶段，首先，根据聚类结果，每一个聚类对应一个区间，将属性值划分成不同的区间，然后对区间进行属性编码，根据区间个数，从0开始编码，用整数表示各个区间，即0,1,2，…，k,最后，将得到的结果构造出连续属性离散化后的信息系统。