CN102054001B - 一种数据挖掘系统中数据预处理的方法、系统及装置 - Google Patents
一种数据挖掘系统中数据预处理的方法、系统及装置 Download PDFInfo
- Publication number
- CN102054001B CN102054001B CN200910236744A CN200910236744A CN102054001B CN 102054001 B CN102054001 B CN 102054001B CN 200910236744 A CN200910236744 A CN 200910236744A CN 200910236744 A CN200910236744 A CN 200910236744A CN 102054001 B CN102054001 B CN 102054001B
- Authority
- CN
- China
- Prior art keywords
- data
- fore
- pretreatment
- node
- pretreatment method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据挖掘系统中数据预处理的方法、系统及装置,其中,数据预处理对应具有设定执行次序的多个预处理方式,主要技术方案包括:确定数据预处理对应的当前预处理方式;在确定若根据当前预处理方式处理得到的处理结果无需合并并且当前预处理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据当前预处理方式处理待处理数据后,控制各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。根据该技术方案,减少了不同节点之间由于待处理数据的读取以及处理结果的写入而需要的传输过程,提高了数据挖掘系统中数据预处理的效率,提高了整个数据挖掘系统的性能。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种数据挖掘系统中数据预处理的方法、系统及装置。
背景技术
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的人们事先不知道但又是潜在有用的信息和知识的过程。数据挖掘流程通常包括:数据加载、数据预处理(ETL)、数据挖掘算法实现、结果展示等主要步骤。其中,ETL(Extraction-Transformation-Loading,抽取、转换和加载)占数据挖掘流程中60%以上的工作量。
ETL是负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。并且,ETL是数据仓库中的非常重要的一环。相对于关系数据库,数据仓库技术没有严格的数学理论基础,它更面向实际工程应用。所以从工程应用的角度来考虑,按照物理数据模型的要求加载数据并对数据进行一些系列处理,处理过程与经验直接相关,同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘的结果的质量。
目前数据挖掘系统通常采用并行ETL工具进行并行数据预处理,需要经过多次数据处理操作得到数据挖掘算法实现所需要的数据。现有并行数据处理过程通常采用工作流拖拽的方式进行数据预处理,也就是说数据预处理对应具有设定执行次序的多个预处理方式,每个预处理方式通过对应的功能组件实现,独立执行每个数据处理功能组件,每个数据处理功能组件在执行中包括完整的数据分片、数据处理、数据处理结果合并操作。例如,一个并行ETL流程包括数据缺值处理、数据冗余处理、属性交换以及属性删除四个预处理方式,其对应的执行过程如图1所示,这4个预处理方式之间对应设定的执行次序,在根据每个数据预处理方式处理数据时都需要先读取数据,然后进行相应处理,最后写入到硬盘。
上述并行ETL处理方案中,完成每一个数据处理流程(即根据设定的数据预处理方式处理数据),需要先将处理结果合并写入硬盘,进行下一个数据处理流程时再重新分片数据并读取硬盘。由于一个完整的ETL数据处理流程往往由几十甚至几百个数据处理功能组件完成数据的预处理,带来大量的I/O读写硬盘的操作,并且在每次读写时都引入了不同数据存储节点之间的数据传输,导致并行处理数据的效率低,从而影响整个数据挖掘系统的性能。
发明内容
有鉴于此,本发明实施例提供一种数据挖掘系统中数据预处理的方法、系统及装置,采用该技术方案,减少了对硬盘的读写操作以及数据存储节点之间的数据传输,提高了数据预处理的效率。
本发明实施例通过如下技术方案实现:
根据本发明实施例的一个方面,提供了一种数据挖掘系统中数据预处理的方法。
根据本发明实施例提供的数据挖掘系统中数据预处理的方法,所述数据预处理对应具有设定执行次序的多个预处理方式,包括:
确定数据预处理对应的当前预处理方式;
在确定若根据所述当前预处理方式处理得到的处理结果无需合并并且所述当前预处理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据所述当前预处理方式处理待处理数据后,控制所述各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。
根据本发明实施例的另一个方面,还提供了一种数据挖掘系统中数据预处理的系统。
根据本发明实施例提供的数据挖掘系统中数据预处理的系统,所述数据预处理对应具有设定执行次序的多个预处理方式,所述系统包括控制节点以及多个操作节点;其中:
所述控制节点用于,确定数据预处理对应的当前预处理方式,在确定若根据所述当前预处理方式处理得到的处理结果无需合并并且所述当前预处理方式不为数据预处理的最后一个预处理方式时,在所述多个操作节点分别根据所述当前预处理方式处理待处理数据后,控制所述多个操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理;
所述操作节点用于,在根据所述当前预处理方式处理待处理数据后,根据所述控制节点的控制对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。
根据本发明实施例的另一个方面,还提供了一种执行数据预处理的控制节点。
根据本发明实施例提供的执行数据预处理的控制节点,所述数据预处理对应具有设定执行次序的多个预处理方式,包括:
预处理方式确定单元,用于确定数据预处理对应的当前预处理方式;
判断单元,用于判断若根据所述当前预处理方式处理得到的处理结果是否需要合并,以及判断所述当前预处理方式是否为数据预处理的最后一个预处理方式;
控制单元,用于在所述判断单元确定若根据所述当前预处理方式处理得到的处理结果无需合并并且所述当前预处理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据所述当前预处理方式处理待处理数据后,控制所述各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。
通过本发明实施例提供的上述至少一个技术方案,首先确定数据预处理对应的当前预处理方式,在确定若根据当前预处理方式处理得到的处理结果无需合并并且当前预处理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据当前预处理方式处理待处理数据后,控制各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理,根据该技术方案,对于处理数据得到的处理结果无需合并并且不为数据预处理的最后一个预处理方式的预处理方式,在各操作节点采用该预处理方式处理完数据后,控制各操作节点直接根据该预处理方式的下一预处理方式处理数据,而无需执行处理结果合并的操作,从而减少了对节点中硬盘的写入以及读取操作,并且减少了不同节点之间由于待处理数据的读取以及处理结果的写入而需要的传输过程,提高了数据挖掘系统中数据预处理的效率,提高了整个数据挖掘系统的性能。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明背景技术提供的ETL处理流程示意图;
图2为本发明实施例提供的数据挖掘系统中数据预处理的系统示意图一;
图3为本发明实施例提供的数据挖掘系统中数据预处理的系统示意图二;
图4为本发明实施例提供的控制操作节点执行数据预处理的流程图;
图5为本发明实施例提供的执行数据预处理的示意图;
图6为本发明实施例提供的与图4对应的数据预处理流程图;
图7为本发明实施例提供的控制节点第一示意图;
图8为本发明实施例提供的控制节点第二示意图。
具体实施方式
为了给出提高数据预处理的效率的实现方案,本发明实施例提供了一种数据挖掘系统中数据预处理的方法、系统及装置,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
根据本发明实施例,提供了一种数据挖掘系统中数据预处理的系统,其中,数据预处理对应具有设定执行次序的多个预处理方式,如图2所示,该系统包括:
控制节点201以及多个操作节点202;
其中:
控制节点201用于,确定数据预处理对应的当前预处理方式,在确定若根据当前预处理方式处理得到的处理结果无需合并并且当前预处理方式不为数据预处理的最后一个预处理方式时,在多个操作节点202分别根据当前预处理方式处理待处理数据后,控制多个操作节点202对得到的处理结果根据当前预处理方式的下一预处理方式进行处理;
操作节点202用于,在根据当前预处理方式处理待处理数据后,根据控制节点201的控制对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。
参见图3,本发明又一实施例提供的数据预处理的系统在图2的基础上还包括至少一个合并节点203;
其中:控制节点201在实现上述功能的基础上,还用于在确定若根据当前预处理方式处理得到的处理结果需要合并或当前预处理方式为数据预处理的最后一个预处理方式时,在多个操作节点202根据当前预处理方式处理待处理数据后,控制至少一个合并节点203获取各操作节点202的处理结果;
合并节点202用于,根据控制节点201的控制获取多个操作节点202的处理结果并执行合并操作。
以上系统中所涉及的控制节点、操作节点以及合并节点在实际应用中都可以通过计算机实现。
本发明实施例上述系统中各实体所实现的更为详细的功能以及具体实现过程将在随后的实施例中体现,此处不再详细描述。
在进行数据预处理之前,设置数据预处理流程所涉及的所有预处理方式,各预处理方式之间对应设定次相互,然后根据流程设置依次对待挖掘数据采用设定的预处理方式进行处理。
较佳地,为了提高数据预处理的效率以及减少操作节点的处理压力,首先在根据控制节点的控制下,将待挖掘数据分布存储到多个操作节点中,控制节点根据数据预处理对应的当前预处理方式控制各操作节点对待处理数据进行处理,具体如图4所示,包括如下步骤:
步骤401、控制节点确定数据预处理对应的当前预处理方式。
步骤402、判断若根据当前预处理方式处理得到的处理结果是否需要合并,若否,执行步骤403,若是,执行步骤405。
步骤403、判断当前预处理方式是否为数据预处理对应的最后一个预处理方式,若否,执行步骤404,若是,执行步骤405。
步骤404、在各操作节点根据所述当前预处理方式处理待处理数据后,控制节点控制各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。
步骤405、在各操作节点根据所述当前预处理方式处理待处理数据后,控制指定的至少一个合并节点获取各操作节点的处理结果并执行合并操作。
上述流程中,步骤402和步骤403的执行顺序可调换。
上述步骤404中,控制各操作节点根据当前预处理方式处理待处理数据,具体包括:
控制各操作节点获取待处理数据;以及
控制各操作节点根据当前预处理方式,对获取的待处理数据进行处理。
具体地,控制各操作节点获取待处理数据,进一步包括:
控制各操作节点从本地获取待处理数据,其中获取的待处理数据为源数据(即未采用预处理方式处理的数据)或根据当前预处理方式的上一预处理方式处理得到的处理结果;或,
控制各操作节点从指定的至少一个合并节点获取待处理数据,其中获取的待处理数据为源数据或所述指定合并节点执行合并操作得到的数据。
例如,若当前预处理方式为数据预处理对应的第一个预处理方式,则为了减少不同操作节点之间的数据读取以及数据传输,控制节点可以控制存储待处理数据的操作节点为采用当前预处理方式处理数据的操作节点,该操作节点可以直接从本地获取待处理数据;或者,在确定当前预处理方式的上一预处理方式无需合并处理结果时,直接在本地获取当前预处理方式对应的待处理数据,该待处理数据即为根据上一预处理方式处理得到的处理结果。实际应用中,可以结合待处理数据的具体存储情况以及各操作节点的运行状况(例如操作节点负载情况以及配置等)而灵活确定数据的获取方式,此处不一一列举。
在传统的数据预处理流程中,由于采用设定预处理方式处理数据得到的处理结果的合并过程只是简单地将各操作节点的局部处理结果汇总,而无需执行其他处理,例如属性删除预处理方式,是将每一行数据的指定列删除,如两个操作节点各有100行处理结果数据,合并后得到200行处理结果数据,其中100行和操作节点1的处理结果一致,另100行和操作节点2的处理结果一致;再如缺值预处理方式,只是将每一行数据中有缺值的列进行替换,也属于简单地将各操作节点的局部处理结果汇总的过程,因此,对于若根据此类预处理方式处理数据得到的处理结果,可以不执行合并操作,而直接进入下一预处理方式的处理流程;
相应地,对应另一些预处理方式,处理结果的合并过程并不只是简单地将各个操作节点的局部处理结果汇总,而需要执行设定操作,以得到全局数据处理结果。例如冗余删除预处理方式,是将重复的数据行只保留一行,其余的删除。这时各操作节点的局部处理结果不一定和全局处理结果一致,如两行冗余数据分别在两个节点上,只有合并处理时才能发现是冗余数据并只保留一行数据;再如统计预处理方式,需要合并后才能得到全局的和、最大值、最小值、均值等统计信息,对于采用此类预处理方式处理数据得到的处理结果,一般都需要执行合并操作。
基于数据预处理的上述特征,上述步骤402中,控制节点判断若根据当前预处理方式处理得到的处理结果是否需要合并的过程,具体如下:
判断在若根据当前预处理方式的下一预处理方式处理数据之前,是否需要对若根据所述当前预处理方式处理得到的处理结果执行设定操作;
若否,则确定若根据所述当前预处理方式处理得到的处理结果无需合并;
若是,则确定若根据所述当前预处理方式处理得到的处理结果需要合并。
本发明又一实施例中,为了提高数据预处理的效率,可以预先确定数据预处理对应的各预处理方式分别对应的处理结果是否需要合并的信息,根据该实施例,在控制节点确定当前预处理方式后,直接根据预先确定的上述信息确定当前预处理方式对应的是否需要合并处理结果的信息,其中,确定若采用数据预处理对应的预处理方式处理得到的处理结果是否需要合并的判断过程与上述步骤402的具体判断过程相同,此处不再详细描述。
为了更好地理解本发明实施例提供的数据预处理方法,以下以数据预处理包括:缺值预处理方式、冗余预处理方式、属性交换预处理方式以及属性删除预处理方式为例,对本发明上述实施例进行更为详细的说明:
对于缺值预处理方式、属性交换预处理方式,其合并操作由于仅是将各个操作节点的处理结果简单合并,因此根据这两种预处理方式处理数据得到的处理结果无需合并,而对于冗余预处理方式,其合并过程是将冗余数据去除,对于属性删除预处理方式,其合并过程虽然也是将处理结果简单合并,但是由于该预处理方式为数据预处理的最后一个预处理方式,因此,采用这两个预处理方式处理数据后,都需要合并处理结果。
图5为该过程的处理流程示意图,从图5可以看出,本发明实施例中,在对数据根据缺值预处理方式处理时,读取数据,处理结束后无需合并以及写入数据(即处理结果)到合并节点,而直接在当前操作节点中根据当前预处理方式对应的下一预处理方式,即冗余预处理方式,对根据缺值预处理方式处理得到的处理结果进行处理,在执行完毕冗余预处理后才执行处理结果合并以及写入操作;在根据属性交换预处理方式处理数据时,再读取一次数据,读取的该数据为根据冗余预处理方式处理数据得到的处理结果的合并数据,根据属性交换预处理方式处理数据后,无需合并以及写入数据,而直接在当前操作节点执行根据属性删除预处理方式处理数据的过程,并在执行属性删除处理过程结束后执行合并以及写入操作。
图5对应的处理流程如图6所示,包括如下步骤:
步骤601、根据控制节点的控制将数据分散存储到多个操作节点;
步骤602、控制节点指定采用缺值预处理方式处理数据的操作节点(11、12、13),控制该指定的三个操作节点获取待处理数据并行采用缺值预处理方式处理数据;
步骤603、控制节点确定采用缺值预处理方式得到的处理结果无需合并后,进一步控制该操作节点(11、12、13)在采用缺值预处理方式处理数据完毕后,继续采用冗余预处理方式处理数据;
步骤604、控制节点指定合并节点(21、22)为执行合并的节点,并控制该合并节点(21、22)从操作节点(11、12、13)获取根据冗余预处理方式处理数据得到的处理结果,并执行合并操作;
步骤605、控制节点指定根据属性交换预处理方式处理数据的操作节点(31、32、33),控制该指定的三个操作节点获取待处理数据并行根据属性交换预处理方式处理数据;
步骤606、控制节点确定根据属性交换预处理方式处理数据后无需合并处理结果后,进一步控制该操作节点(31、32、33)在根据属性交换预处理方式处理数据完毕后,继续根据属性删除预处理方式处理数据;
步骤607、控制节点确定属性删除预处理为数据预处理的最后一个预处理方式,无需合并处理结果,指定合并节点(41、42)为执行合并的节点,并控制该合并节点(41、42)从操作节点(31、32、33)获取根据属性删除预处理方式处理数据得到的处理结果,执行合并操作,结束数据预处理流程。
上述流程中,仅为实施本发明的一个具体实例,实际应用中,控制节点可以指定执行上一预处理的操作节点以及执行合并的合并节点为同一个节点,从而减少执行合并的合并节点获取根据上一预处理方式处理数据得到的处理结果时的数据传输过程,并且,控制节点指定的执行预处理的操作节点数量以及执行合并的合并节点的数量可以根据具体的数据处理量以及各节点的处理能力灵活确定,此处不一一列举。
图5以及图6所示的数据预处理过程与图1所示现有处理过程相比,节省了至少2次数据读取操作,以及至少2次数据合并写入操作,因此一方面减少了对硬盘的读写操作,另一方面,当待处理数据需要从其它操作节点获取时,还节省了不同操作节点之间的数据传输。由于实际应用中,数据挖掘的预处理流程涉及的预处理过程包括根据几十甚至几百个预处理方式的处理过程,并且待挖掘数据都很庞大,分散到多个操作节点中并行处理,因此,采用本发明实施例提供的技术方案可以减少对各操作节点中硬盘的大量读写操作以及减少各操作节点之间大量的数据传输,成倍提高数据挖掘预处理过程的执行效率。
与上述流程对应,本发明实施例还提供了一种操作节点,应用于数据挖掘系统中的数据预处理,其中,数据预处理对应具有设定执行次序的多个预处理方式,如图7所示,该控制节点包括:
预处理方式确定单元701、判断单元702以及控制单元703;
其中:
预处理方式确定单元701,用于确定数据预处理对应的当前预处理方式;
判断单元702,用于判断若根据当前预处理方式处理得到的处理结果是否需要合并,以及判断当前预处理方式是否为数据预处理的最后一个预处理方式;
控制单元703,用于在判断单元702确定若根据当前预处理方式处理得到的处理结果无需合并并且当前预处理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据当前预处理方式处理待处理数据后,控制各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。
进一步地,本发明一个实施例中,上述判断单元705可以包括第一判断模块或第二判断模块(未在图中标出):其中,
第一判断模块,用于判断在若根据当前预处理方式的下一预处理方式处理数据之前,是否需要对若根据当前预处理方式处理得到的处理结果执行设定操作,并在判断否时,确定若根据当前预处理方式处理得到的处理结果无需合并;或,
第二判断模块,用于获取预先确定的各预处理方式分别对应的处理结果是否需要合并的信息,并根据信息确定若根据当前预处理方式处理得到的处理结果是否需要合并。
进一步地,本发明一个实施例中,上述控制单元703还用于:
在判断单元702确定若根据当前预处理方式处理得到的处理结果需要合并或当前预处理方式为数据预处理的最后一个预处理方式时,在各操作节点根据当前预处理方式处理待处理数据后,控制指定的至少一个合并节点获取各操作节点的处理结果并执行合并操作。
进一步地,如图8所示,本发明一个实施例中,上述控制单元703包括:
获取控制模块703A,用于控制各操作节点获取待处理数据;
处理控制模块703B,用于控制各操作节点根据当前预处理方式,对获取的待处理数据进行处理。
进一步地,上述获取控制模块703A具体用于:
控制各操作节点从本地获取待处理数据,其中获取的待处理数据为源数据或根据当前预处理方式的上一预处理方式处理得到的处理结果;或,
控制各操作节点从指定的至少一个合并节点获取待处理数据,其中获取的待处理数据为源数据或指定合并节点执行合并操作得到的数据。
应当理解,该实施例提供的控制节点所实现的功能与上述实施例提供的数据预处理方法流程一一对应,对于该装置各个功能单元所实现的更为详细的处理流程,在上述方法实施例中已做详细描述,此处不再详细描述。
通过本发明实施例提供的上述至少一个技术方案,首先确定数据预处理对应的当前预处理方式,在确定若根据当前预处理方式处理得到的处理结果无需合并并且当前预处理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据当前预处理方式处理待处理数据后,控制各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理,根据该技术方案,对于处理数据得到的处理结果无需合并并且不为数据预处理的最后一个预处理方式的预处理方式,在各操作节点采用该预处理方式处理完数据后,控制各操作节点直接根据该预处理方式的下一预处理方式处理数据,而无需执行处理结果合并的操作,从而减少了对节点中硬盘的写入以及读取操作,并且减少了不同节点之间由于待处理数据的读取以及处理结果的写入而需要的传输过程,提高了数据挖掘系统中数据预处理的效率,提高了整个数据挖掘系统的性能。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种数据挖掘系统中数据预处理的方法,所述数据预处理对应具有设定执行次序的多个预处理方式,其特征在于,包括:
控制节点确定数据预处理对应的当前预处理方式;
控制节点在确定若根据所述当前预处理方式处理得到的处理结果无需合并并且所述当前预处理方式不为数据预处理的最后一个预处理方式时,在控制各操作节点根据所述当前预处理方式处理待处理数据后,控制所述各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理;
控制节点在确定若根据所述当前预处理方式处理得到的处理结果需要合并或所述当前预处理方式为数据预处理的最后一个预处理方式时,在各操作节点根据所述当前预处理方式处理待处理数据后,控制指定的至少一个合并节点获取所述各操作节点的处理结果并执行合并操作。
2.如权利要求1所述的方法,其特征在于,所述确定若根据所述当前预处理方式处理得到的处理结果无需合并,包括:
判断在若根据当前预处理方式的下一预处理方式处理数据之前,是否需要对若根据所述当前预处理方式处理得到的处理结果执行设定操作;
若否,则确定若根据所述当前预处理方式处理得到的处理结果无需合并。
3.如权利要求1所述的方法,其特征在于,所述确定若根据所述当前预处理方式处理得到的处理结果无需合并,包括:
获取预先确定的各预处理方式分别对应的处理结果是否需要合并的信息;
根据所述信息确定若根据所述当前预处理方式处理得到的处理结果是否需要合并。
4.如权利要求1所述的方法,其特征在于,控制各操作节点根据所述当前预处理方式处理待处理数据具体包括:
控制各操作节点获取待处理数据;以及
控制各操作节点根据所述当前预处理方式,对获取的待处理数据进行处理。
5.如权利要求4所述的方法,其特征在于,控制各操作节点获取待处理数据,具体包括:
控制各操作节点从本地获取待处理数据,其中获取的待处理数据为源数据或根据当前预处理方式的上一预处理方式处理得到的处理结果;或,
控制各操作节点从指定的至少一个合并节点获取待处理数据,其中获取的待处理数据为源数据或所述指定合并节点执行合并操作得到的数据。
6.一种数据挖掘系统中数据预处理的系统,所述数据预处理对应具有设定执行次序的多个预处理方式,其特征在于,所述系统包括控制节点以及多个操作节点以及至少一个合并节点;其中:
所述控制节点用于,确定数据预处理对应的当前预处理方式,在确定若根据所述当前预处理方式处理得到的处理结果无需合并并且所述当前预处理方式不为数据预处理的最后一个预处理方式时,在所述多个操作节点分别根据所述当前预处理方式处理待处理数据后,控制所述多个操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理;在确定若根据所述当前预处理方式处理得到的处理结果需要合并或所述当前预处理方式为数据预处理的最后一个预处理方式时,在所述多个操作节点根据所述当前预处理方式处理待处理数据后,控制所述至少一个合并节点获取所述各操作节点的处理结果;
所述操作节点用于,在根据所述当前预处理方式处理待处理数据后,根据所述控制节点的控制对得到的处理结果根据当前预处理方式的下一预处理方式进行处理;
所述合并节点用于,根据所述控制节点的控制获取所述多个操作节点的处理结果并执行合并操作。
7.一种执行数据预处理的控制节点,所述数据预处理对应具有设定执行次序的多个预处理方式,其特征在于,包括:
预处理方式确定单元,用于确定数据预处理对应的当前预处理方式;
判断单元,用于判断若根据所述当前预处理方式处理得到的处理结果是否需要合并,以及判断所述当前预处理方式是否为数据预处理的最后一个预处理方式;
控制单元,用于在所述判断单元确定若根据所述当前预处理方式处理得到的处理结果无需合并并且所述当前预处理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据所述当前预处理方式处理待处理数据后,控制所述各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理,在所述判断单元确定若根据所述当前预处理方式处理得到的处理结果需要合并或所述当前预处理方式为数据预处理的最后一个预处理方式时,在各操作节点根据所述当前预处理方式处理待处理数据后,控制指定的至少一个合并节点获取所述各操作节点的处理结果并执行合并操作。
8.如权利要求7所述的控制节点,其特征在于,所述判断单元包括:
第一判断模块,用于判断在若根据当前预处理方式的下一预处理方式处理数据之前,是否需要对若根据所述当前预处理方式处理得到的处理结果执行设定操作,并在判断否时,确定若根据所述当前预处理方式处理得到的处理结果无需合并;或,
第二判断模块,用于获取预先确定的各预处理方式分别对应的处理结果是否需要合并的信息,并根据所述信息确定若根据所述当前预处理方式处理得到的处理结果是否需要合并。
9.如权利要求7所述的控制节点,其特征在于,所述控制单元,包括:
获取控制模块,用于控制各操作节点获取待处理数据;
处理控制模块,用于控制各操作节点根据所述当前预处理方式,对获取的待处理数据进行处理。
10.如权利要求9所述的控制节点,其特征在于,所述获取控制模块具体用于:
控制各操作节点从本地获取待处理数据,其中获取的待处理数据为源数据或根据当前预处理方式的上一预处理方式处理得到的处理结果;或,
控制各操作节点从指定的至少一个合并节点获取待处理数据,其中获取的待处理数据为源数据或所述指定合并节点执行合并操作得到的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910236744A CN102054001B (zh) | 2009-10-28 | 2009-10-28 | 一种数据挖掘系统中数据预处理的方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910236744A CN102054001B (zh) | 2009-10-28 | 2009-10-28 | 一种数据挖掘系统中数据预处理的方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102054001A CN102054001A (zh) | 2011-05-11 |
CN102054001B true CN102054001B (zh) | 2012-10-03 |
Family
ID=43958335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910236744A Active CN102054001B (zh) | 2009-10-28 | 2009-10-28 | 一种数据挖掘系统中数据预处理的方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102054001B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577455A (zh) * | 2012-07-31 | 2014-02-12 | 国际商业机器公司 | 用于数据库聚集操作的数据处理方法和系统 |
CN105786860B (zh) * | 2014-12-23 | 2020-07-07 | 华为技术有限公司 | 一种数据建模中的数据处理方法及装置 |
CN106407215B (zh) * | 2015-07-31 | 2019-08-13 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
CN105447090B (zh) * | 2015-11-05 | 2018-10-26 | 华中科技大学 | 一种自动化数据挖掘预处理方法 |
CN106021543A (zh) * | 2016-05-26 | 2016-10-12 | 中国农业银行股份有限公司 | 一种数据预处理方法及装置 |
CN108231136A (zh) * | 2016-12-09 | 2018-06-29 | 长沙博为软件技术股份有限公司 | 一种医疗临床数据抓取预处理方法 |
CN109783201A (zh) * | 2017-11-13 | 2019-05-21 | 北京京东尚科信息技术有限公司 | 数据交换方法及其系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975720A (zh) * | 2006-12-27 | 2007-06-06 | 章毅 | 一种基于Web的数据挖掘系统及其控制方法 |
CN101227520A (zh) * | 2008-02-01 | 2008-07-23 | 中兴通讯股份有限公司 | 一种电信话务模型报表的生成方法及系统 |
-
2009
- 2009-10-28 CN CN200910236744A patent/CN102054001B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975720A (zh) * | 2006-12-27 | 2007-06-06 | 章毅 | 一种基于Web的数据挖掘系统及其控制方法 |
CN101227520A (zh) * | 2008-02-01 | 2008-07-23 | 中兴通讯股份有限公司 | 一种电信话务模型报表的生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102054001A (zh) | 2011-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102054001B (zh) | 一种数据挖掘系统中数据预处理的方法、系统及装置 | |
CN102521712B (zh) | 一种流程实例数据处理方法和装置 | |
CN107003935A (zh) | 优化数据库去重 | |
CN103455526A (zh) | 一种etl数据处理方法、装置及系统 | |
CN104714785A (zh) | 任务调度装置、方法及并行处理数据的设备 | |
CN114399227A (zh) | 一种基于数字孪生的生产调度方法、装置及计算机设备 | |
EP3396542B1 (en) | Database operating method and device | |
CN109886859A (zh) | 数据处理方法、系统、电子设备和计算机可读存储介质 | |
CN101685452B (zh) | 数据仓库调度方法及调度系统 | |
CN105653647A (zh) | Sql语句的信息采集方法及系统 | |
CN100592262C (zh) | 保留桌面管理界面动态信息的系统及方法 | |
CN100485640C (zh) | 用于企业软件系统的高速缓存 | |
CN101673374A (zh) | 一种单据处理方法和装置 | |
CN115391427A (zh) | Impala自动化伸缩的系统、方法、介质及设备 | |
CN102393830A (zh) | 数据处理时间获取方法和数据处理时间获取装置 | |
CN104239520B (zh) | 一种基于历史信息的hdfs数据块放置策略 | |
CN111708576A (zh) | 跨操作系统的设备网卡适配和管理方法、装置及系统 | |
CN100576182C (zh) | 计算机文件的实时监控系统和方法 | |
CN110928863A (zh) | 一种应用于数据清洗工具的任务断点续传的方法 | |
CN107783826A (zh) | 一种虚拟机迁移方法、装置及系统 | |
CN114185938B (zh) | 基于数字金融及大数据溯源的项目溯源分析方法及系统 | |
CN111290855B (zh) | 分布式环境中多gpu服务器的gpu卡管理方法、系统及存储介质 | |
CN112000312B (zh) | 基于Kettle和GeoTools的空间大数据自动化并行处理方法和系统 | |
CN105630789B (zh) | 一种查询计划转化方法及装置 | |
CN100357910C (zh) | 一种关键字驱动的导航方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |