CN101969402A - 基于并行处理的数据交换方法 - Google Patents
基于并行处理的数据交换方法 Download PDFInfo
- Publication number
- CN101969402A CN101969402A CN2010105105088A CN201010510508A CN101969402A CN 101969402 A CN101969402 A CN 101969402A CN 2010105105088 A CN2010105105088 A CN 2010105105088A CN 201010510508 A CN201010510508 A CN 201010510508A CN 101969402 A CN101969402 A CN 101969402A
- Authority
- CN
- China
- Prior art keywords
- data
- task
- exchanges
- processing
- exchanges data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 15
- 230000000694 effects Effects 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 description 8
- 238000004140 cleaning Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000013497 data interchange Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于并行处理的数据交换方法,属于计算机数据交换技术领域。该方法将数据交换流程划分为若干个数据交换步骤,在至少一个数据交换步骤中设定数据处理规则,所述数据处理规则包括数据分解策略,每个数据交换步骤均具有相应的任务池;数据交换流程运行至设有数据处理规则的数据交换步骤时,按照数据分解策略将数据分解成若干个数据块,把对每一个数据块的处理初始化为一个任务,载入任务池中并行执行。与现有技术相比,本发明的基于并行处理的数据交换方法具有数据交换效率高、可靠性强等特点,具有很好的推广应用价值。
Description
技术领域
本发明涉及数据交换技术领域,具体地说是一种基于并行处理的数据交换方法。
背景技术
目前,随着企业信息化应用的逐步广泛和深入,许多企业的各分子公司及部门已经设计和建设了属于本组织业务相关的业务应用系统,这些业务应用系统由于建设的时期不同、业务模式不同,信息化建设缺乏有效的总体规划,存在重复性建设;而且大多数系统都是由不同的厂商在不同的平台上,使用不同的语言进行开发的,由于缺乏统一的标准,从而导致信息交互共享困难,存在大量的信息孤岛和流程孤岛。因此,如何在各业务应用系统间实现互联互通、信息共享、业务协同已经成为企业信息化进一步深入发展需要迫切解决的问题,而如何在各业务应用系统间进行高效、可靠的数据交换是解决问题的关键。然而,现有技术中的数据交换方法在面对数据量大、交换频度高的数据交换时往往会产生数据交换的效率瓶颈,直接影响了数据交换的效率和可靠性。
发明内容
本发明的技术任务是针对上述现有技术的不足,提供一种基于并行处理的数据交换方法。该方法通过分解数据进而分解数据处理过程,并行处理,能够提高数据转换和交互的性能。
在具体的数据交换过程中,一次数据交换往往可分解为多个处理步骤,并且依据要交换数据之间的内在关系,也可以将本次交换的数据进行分解。本发明依据该规律,为数据交换过程设计一个可并行处理数据的结构。
本发明将分解后的数据定义为数据块。
本发明的技术任务是按以下方式实现的:基于并行处理的数据交换方法,其特点是:数据交换流程由若干个数据交换步骤组成,每个数据交换步骤中都设置有数据处理规则,数据交换步骤把接收的数据按照数据处理规则分解成多个数据块,把对每一个数据块的处理初始化为一个任务,载入任务池中并行执行,
运行过程包括以下步骤:
执行数据交换流程的第一个数据交换步骤;
把当前执行的数据交换步骤接收的数据按照数据处理规则拆分成多个数据块;
在当前执行的数据交换步骤中,把对每一个数据块的处理初始化为一个任务,加载到任务池中;
按照任务池的队列顺序依次并行执行任务;
当任务执行完毕时在任务池中注销该任务,并把该任务处理后的数据传输给下一个数据交换步骤;
重复执行上述的步骤,直至整个数据交换流程结束。
所述数据处理规则包括数据分解策略。
为了更高效地进行数据交换,可以以数据交换运行终端的资源可利用率决定任务池中各任务的执行状态,
当数据交换活动的运行终端的资源可利用率很低时,暂停执行任务池中余下的任务;当数据交换活动的运行终端的可利用资源比较高时,按照最优资源利用原则依次执行余下的任务。上述利用率很低或比较高的标准可以在结构上由使用者进行设置。
本发明的基于并行处理的数据交换方法与现有技术相比,为数据交换过程设计了一个可并行处理数据的结构,即把参与数据交换的数据包在各数据交换步骤中按照数据分解策略分解成多个的数据块,并把对各数据块的处理放在任务池中并行执行。依照本发明方法进行数据交换时,参与数据交换的计算结点具有良好的横向可伸缩性(将参与数据交换的计算结点部署在不同的应用服务器上),可充分利用运行终端的资源,达到最优的利用效果,极大地提高了数据交换的效率和可靠性。
附图说明
附图1是本发明方法中各实体的关系图(1*表示实体间一对多的关系);
附图2是本发明实施例中数据交换流程示意图;
附图3是本发明实施例中数据交换步骤处理数据的流程示意图;
附图4是本发明实施例中各时间段各数据交换步骤的数据处理状态示意图。
具体实施方式
参照说明书附图以具体实施例对本发明的基于并行处理的数据交换方法作以下详细地说明。
如附图1所示,本发明方法的数据交换流程由若干个数据交换步骤组成,每个数据交换步骤中都设置有数据处理规则,数据交换步骤把接收的数据按照数据处理规则分解成多个数据块,把对每一个数据块的处理初始化为一个任务,载入任务池中并行执行。
实施例:
如附图2所示,本实施例中的数据交换流程由数据加载、数据清洗、数据转换及数据更新等四个数据交换步骤组成。其中:
数据加载,是把接收的数据加载的缓冲数据库中。
数据清洗,是把数据进行筛选和校验。
数据转换,是按照设计时的数据转换规则对数据进行转换运算。
数据更新,是把转换后的数据更新到目标数据库中。
然后,设置每个数据交换步骤的数据分解策略。设置内容,如下表所示。
数据交换步骤 | 数据分解策略 | |
1 | 数据加载 | 参与数据交换的数据行数 |
2 | 数据清洗 | 无 |
3 | 数据转换 | 无 |
4 | 数据更新 | 无 |
如上表所示,该数据交换流程中只在数据加载这一数据交换步骤上设置了数据分解策略。数据交换流程运动至该步骤时,会将该步骤接收的数据分解为数据块。而数据交换步骤上无数据分解策略的,运行过程中该步骤接收的数据不需要进行分解。
如附图3所示,本发明实施实例的运行时,各数据交换步骤处理数据的流程为:
执行第一个数据交换步骤,即数据加载。
进一步包含以下步骤:
判断数据交换步骤是否设置数据分解策略;
根据数据分解策略,参与数据加载的数据分解为多个数据块;
把对每一个数据块的数据加载初始化为一个任务;
把任务加载到该数据交换步骤中的任务池中;
按照先进先出的原则依次执行任务池中的任务。在执行每一个任务之前,要判断当前运行终端的资源可利用率,当资源可利用率较低时暂停执行任务池余下的任务,等资源利用率达到最佳状态再执行任务池中余下的任务。
任务执行完毕时,从任务池中注销该任务,并且该任务处理后的数据传输到下一个数据交换步骤。
下一步数据交换步骤按照附图3的进行处理接收的数据,直至所有的数据块都完成最后一个数据交换步骤的处理。
如附图4所示,该实施例中各时间段各数据交换步骤的数据处理状态为:
时间段1:数据加载步骤任务池中有4个任务,由于运行终端的资源可利用率的限制,只有三个任务(加载数据块1、加载数据块2、加载数据块3)在执行,任务加载数据块4在等待资源释放,其他数据交换步骤中的任务池中没有任务;
时间段2:数据加载步骤中的加载数据块4任务也处于执行状态,加载数据块1已经执行完毕,加载数据块2、加载数据块3这两个任务还在执行,数据清洗步骤中的任务池中已经加载了任务“清洗数据块1”而且该任务处于执行状态;
时间段3:数据加载步骤中任务池中的两个任务“加载数据块2”和“加载数据块3”已经执行完毕,任务“加载数据块4”还在执行,数据清洗步骤中的“清洗数据块1”任务已经执行完毕,其任务池中有增加了“清洗数据块2”、“清洗数据块3”而且开始执行,数据转换步骤中的任务池加载了“转换数据块1”而且开始执行;
时间段4:数据加载步骤的任务池中任务全部执行完毕,数据清洗步骤中的“清洗数据块2”和“清洗数据块3”任务已经执行完毕,其任务池中又加载了“清洗数据块4”且开始执行,数据转换步骤中的“转换数据块1”已经执行完毕,其任务池中又加载了两个任务“转换数据块2”和“转换数据块3”,数据更新步骤的任务池加载了“更新数据块1”任务且开始执行;
时间段5:数据清洗步骤的任务池中的任务全部执行完毕,数据转换步骤中的两个任务“转换数据块2”和“转换数据块3”已经执行完毕,其任务池中又增加了任务“转换数据块4”,数据更新步骤的“更新数据块1”任务执行完毕,其任务池中又增加了任务“更新数据块2”、“更新数据块3”;
时间段6:数据转换步骤的任务池中的任务全部执行完毕,数据更新步骤中的“更新数据块2”页执行完毕,其任务池中又增加了“更新数据块4”任务且开始执行,任务“更新数据块3”还在执行;时间段7:数据更新步骤的任务池中的任务也执行完毕,至此整个数据交换流程结束。
Claims (3)
1.基于并行处理的数据交换方法,其特征在于:数据交换流程由若干个数据交换步骤组成,每个数据交换步骤中都设置有数据处理规则,数据交换步骤把接收的数据按照数据处理规则分解成多个数据块,把对每一个数据块的处理初始化为一个任务,载入任务池中并行执行,
运行过程包括以下步骤:
执行数据交换流程的第一个数据交换步骤;
把当前执行的数据交换步骤接收的数据按照数据处理规则拆分成多个数据块;
在当前执行的数据交换步骤中,把对每一个数据块的处理初始化为一个任务,加载到任务池中;
按照任务池的队列顺序依次并行执行任务;
当任务执行完毕时在任务池中注销该任务,并把该任务处理后的数据传输给下一个数据交换步骤;
重复执行上述的步骤,直至整个数据交换流程结束。
2.根据权利要求1所述的基于并行处理的数据交换方法,其特征在于,所述数据处理规则包括数据分解策略。
3.根据权利要求1所述的基于并行处理的数据交换方法,其特征在于,以数据交换运行终端的资源可利用率决定任务池中各任务的执行状态,
当数据交换活动的运行终端的资源可利用率很低时,暂停执行任务池中余下的任务;当数据交换活动的运行终端的可利用资源比较高时,按照最优资源利用原则依次执行余下的任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105105088A CN101969402B (zh) | 2010-10-18 | 2010-10-18 | 基于并行处理的数据交换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105105088A CN101969402B (zh) | 2010-10-18 | 2010-10-18 | 基于并行处理的数据交换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101969402A true CN101969402A (zh) | 2011-02-09 |
CN101969402B CN101969402B (zh) | 2012-05-23 |
Family
ID=43548507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010105105088A Active CN101969402B (zh) | 2010-10-18 | 2010-10-18 | 基于并行处理的数据交换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101969402B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104731891A (zh) * | 2015-03-17 | 2015-06-24 | 浪潮集团有限公司 | 一种etl中海量数据抽取的方法 |
CN105094990A (zh) * | 2015-08-18 | 2015-11-25 | 国云科技股份有限公司 | 一种高效的实现大规模数据交换的系统及其方法 |
CN105808361A (zh) * | 2016-01-20 | 2016-07-27 | 大连优弈数据科技有限公司 | 一种并行数据处理方法及系统 |
CN110737708A (zh) * | 2019-09-17 | 2020-01-31 | 中电万维信息技术有限责任公司 | 一种流水线式的高效数据转换处理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004077206A2 (en) * | 2003-02-27 | 2004-09-10 | Koninklijke Philips Electronics N.V. | Data processing system having a plurality of processing elements, a method of controlling a data processing system having a plurality of processing elements |
WO2006135554A2 (en) * | 2005-06-09 | 2006-12-21 | Qualcomm Incorporated | Microprocessor with automatic selection of simd parallelism |
CN101262352A (zh) * | 2008-03-04 | 2008-09-10 | 浙江大学 | 一体化安全管理中数据统一加速处理方法 |
-
2010
- 2010-10-18 CN CN2010105105088A patent/CN101969402B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004077206A2 (en) * | 2003-02-27 | 2004-09-10 | Koninklijke Philips Electronics N.V. | Data processing system having a plurality of processing elements, a method of controlling a data processing system having a plurality of processing elements |
WO2006135554A2 (en) * | 2005-06-09 | 2006-12-21 | Qualcomm Incorporated | Microprocessor with automatic selection of simd parallelism |
CN101262352A (zh) * | 2008-03-04 | 2008-09-10 | 浙江大学 | 一体化安全管理中数据统一加速处理方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104731891A (zh) * | 2015-03-17 | 2015-06-24 | 浪潮集团有限公司 | 一种etl中海量数据抽取的方法 |
CN105094990A (zh) * | 2015-08-18 | 2015-11-25 | 国云科技股份有限公司 | 一种高效的实现大规模数据交换的系统及其方法 |
CN105808361A (zh) * | 2016-01-20 | 2016-07-27 | 大连优弈数据科技有限公司 | 一种并行数据处理方法及系统 |
CN105808361B (zh) * | 2016-01-20 | 2019-01-29 | 大连优弈数据科技有限公司 | 一种并行数据处理方法及系统 |
CN110737708A (zh) * | 2019-09-17 | 2020-01-31 | 中电万维信息技术有限责任公司 | 一种流水线式的高效数据转换处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101969402B (zh) | 2012-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103365726B (zh) | 一种面向gpu集群的资源管理方法和系统 | |
CN102243598B (zh) | 分布式数据仓库中的任务调度方法及系统 | |
CN101969402B (zh) | 基于并行处理的数据交换方法 | |
CN102073540A (zh) | 分布式事务提交方法和装置 | |
CN104572272B (zh) | 一种任务调度方法、装置及系统 | |
CN102521712A (zh) | 一种流程实例数据处理方法和装置 | |
CN102722355A (zh) | 基于工作流机制的并发式etl转换方法 | |
CN106354574A (zh) | 一种用于大数据K‑Mean聚类算法的加速系统和方法 | |
CN101604264A (zh) | 超级计算机的任务调度方法及系统 | |
CN103023805A (zh) | 一种MapReduce系统 | |
CN101799773A (zh) | 并行计算的内存访问方法 | |
CN102810184A (zh) | 一种动态执行工作流的方法、装置及企业系统 | |
CN110187960A (zh) | 一种分布式资源调度方法及装置 | |
CN104462302A (zh) | 一种分布式数据处理协调方法及系统 | |
CN104615684A (zh) | 一种海量数据通信并发处理方法及系统 | |
CN101158849A (zh) | 一种防止工业自动化系统雪崩的方法 | |
CN103778005A (zh) | 自动化任务分配方法和装置 | |
Jie et al. | A high-efficient multi-deme genetic algorithm with better load-balance | |
CN110879753B (zh) | 基于自动化集群资源管理的gpu加速性能优化方法和系统 | |
CN105446812A (zh) | 一种多任务调度配置方法 | |
CN114896295B (zh) | 大数据场景下的数据脱敏方法、脱敏装置及脱敏系统 | |
CN106155786A (zh) | 一种云平台任务管理方法及系统 | |
CN107203633B (zh) | 数据表推数处理方法、装置及电子设备 | |
CN114356515A (zh) | 一种数据转换任务的调度方法 | |
CN111026809B (zh) | 一种调度流程分布式执行系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee |
Owner name: INSPUR GENERAL SOFTWARE CO., LTD. Free format text: FORMER NAME: SHANDONG UNIVERSAL SOFTWARE CO., LTD., LANGCHAO GROUP CORP. |
|
CP03 | Change of name, title or address |
Address after: 250101 No. 1036 wave road, Shandong, Ji'nan Patentee after: Langchao General Software Co., Ltd Address before: 250014 No. 224 mountain road, Lixia District, Shandong, Ji'nan Patentee before: Shandong Universal Software Co., Ltd., Langchao Group Corp. |