CN104639659A - 一种基于服务器集群技术的数据抽取转换方法 - Google Patents

一种基于服务器集群技术的数据抽取转换方法 Download PDF

Info

Publication number
CN104639659A
CN104639659A CN201510108370.1A CN201510108370A CN104639659A CN 104639659 A CN104639659 A CN 104639659A CN 201510108370 A CN201510108370 A CN 201510108370A CN 104639659 A CN104639659 A CN 104639659A
Authority
CN
China
Prior art keywords
cluster
server
data
schema
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510108370.1A
Other languages
English (en)
Inventor
王相成
刘斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510108370.1A priority Critical patent/CN104639659A/zh
Publication of CN104639659A publication Critical patent/CN104639659A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于服务器集群技术的数据抽取转换方法,属于数据变换领域。该方法包括如下步骤:A)定义一个集群schema,所述集群schema由一台主服务器,和若干子服务器组成,所述主服务器为该集群的控制器;B)以包含在步骤A所述集群schema中的元数据记录主服务器和子服务器之间怎样来回传递的数据。与现有技术相比,本发明的方法能够保障服务器资源利用的最大化,极大提高数据传输效率,且具有良好的实用性及推广应用价值。

Description

一种基于服务器集群技术的数据抽取转换方法
技术领域
本发明涉及数据变换领域,具体地说是一种基于服务器集群技术的数据抽取转换方法。
背景技术
随着计算机技术突飞猛进的发展,企业中的计算机数量正在不断增加,数据处理量也逐年提高。当有很多数据要处理的时候,能够有效地使用所有的计算资源是非常重要的。不管是台个人电脑,还是有数百台服务器,让软件能尽可能的使用所有可用的计算资源,并在可接受的时间范围内获取执行结果,并且能够根据服务器硬件配置的差异,设定不同的数据转换策略,最大限度的利用服务器资源,有效的提高数据转换的效率,是本领域技术人员急需解决的技术问题。
发明内容
本发明的技术任务是针对上述现有技术的不足,提供一种基于服务器集群技术的数据抽取转换方法。该方法将传统的单服务器处理方式改成服务器集群的处理方式,能够最大限度的使用计算机资源,有效的进行水平扩展。数据转换的基本组成是步骤,而通过服务器集群技术的应用,把转换中的每一个步骤都能放在单独的服务器里面并行的执行,将极大提高数据处理的效率。
本发明的技术任务是按以下方式实现的:一种基于服务器集群技术的数据抽取转换方法,包括如下步骤:
A)定义一个集群schema,所述集群schema由一台主服务器,和若干子服务器组成,所述主服务器为该集群的控制器;
B)以包含在步骤A所述集群schema中的元数据记录主服务器和子服务器之间怎样来回传递的数据。
作为优选,可以通过TCP/IP套接字在服务器之间传递数据,以提高处理速度,减少不必要的开销。
作为优选,定义和配置完成集群schema之后,定义的数据转换的每一个步骤的执行都可以选择集群schema中的任意一台子服务器,然后通过主服务器进行总的监控和调度。
上述方法的具体实现过程优选为:首先定义一个集群schema,通过slave-simple.xml配置文件记录服务器的主机名和子服务器应该监听的端口,还可以配置子服务器的各个方面。然后设计集群转换,得先建立一个标准的转换,然后再将其变成集群类型的。
最后在运行这个转换时,需要启用“Run this transformation in a clustered mode?”选项,使得这个转换运行在一个集群上。
与现有技术相比,本发明提供了一种全新的基于服务器集群技术的数据交换方法,并且提供了水平的扩展方式,能够保障服务器资源利用的最大化,极大提高数据传输效率,且具有良好的实用性。
附图说明
附图1是本发明实施例中集群schema定义示意图;
附图2是本发明实施例中集群转换示意图;
附图3是本发明实施例中执行和监控设置示意图。
具体实施方式
参照说明书附图以具体实施例对本发明的基于服务器集群技术的数据抽取转换方法作以下详细地说明。
实施例:
本发明的基于服务器集群技术的数据抽取转换方法包括如下步骤:
步骤一:
如附图1所示,在定义一个集群schema之前,需要定义一些子服务器,可以指定所有的细节给定义的集群schema。确保至少选择一台主服务器控制这个集群和一台或更多子服务器;
创建集群schema,以下基础选项可根据实际情况确实:
     端口:最小的TCP/IP socket端口被用来传输数据从一台子服务器到另一台。它仅仅是一个起始的端口。如果你的集群转换需要50个端口,就是端口号到端口号+50之间的所有端口都会被使用;
     Sockets缓存大小:缓存大小用来缓解子服务器之间通信。不要将这个值设的太高,否则可能会引起数据传输处理的不良振荡;
     Sockets刷新间隔(rows): 当数据记录行到达这个值后,转换引擎会在数据sockets上执行一个刷新,强制将数据推送到远程子服务器, 设置这个参数值产生的性能影响,很大程度上依赖子服务器之间的网络的速度和延迟;
    Sokets数据是否压缩:决定子服务器之前传输的数据是否压缩。在面对网络相对慢时(例如10Mbps)这个非常好, 设成“Yes”将会导致集群转换变慢,因为压缩和解压数据流需要附加的cpu时间。因此,通常情况下,在网络不是瓶颈时,最好不启用这个选项;
步骤二:
如附图2所示,先建立一个标准的转换。例如, 可能想从一个存储在共享网络驱动的大文件里面读取数据,排序数据,然后将数据写入另外一个文件。先建立一个标准的转换。然后如果想在3个子服务器上并行的读取和排序数据,选取你想要在子服务器上执行的步骤,“CSV file input”和“Sort rows”步骤。选择集群…从这个步骤的上下文菜单里面,选择这个步骤要运行的集群schema之后,你的转换将变成集群转换。当执行这个转换,所有的被定义成集群运行(在图2中那些有C×3)的步骤都将运行在这个子服务器上,而那些没有集群标识的步骤将运行在主服务器上;
步骤三:
如附图3所示,为了运行一个集群转换,是通过在IDI里面选择“Execute clustered”选项执行。为了调试的目的,可以使用下面几个集群选项:
    提交转换:提交生成的转换给子服务器和主服务器;
    准备执行:执行在子服务器和主服务器上生成的转换的初始化工作;
    开始执行:当这个选项启用,这个集群转换将在主服务器和字服务器上启动;
    显示转换:在IDI中打开主服务器和子服务器上的转换,使得你可以看到生成的转换。
要完全的运行一个转换,上述前三个选项必须启用;第四个选项非必须,仅仅能够看到这个生成的转换。

Claims (3)

1.一种基于服务器集群技术的数据抽取转换方法,其特征在于包括如下步骤:
A)定义一个集群schema,所述集群schema由一台主服务器,和若干子服务器组成,所述主服务器为该集群的控制器;
B)以包含在步骤A所述集群schema中的元数据记录主服务器和子服务器之间怎样来回传递的数据。
2.根据权利要求1所述的基于服务器集群技术的数据抽取转换方法,其特征在于,通过TCP/IP套接字在服务器之间传递数据。
3.根据权利要求2所述的基于服务器集群技术的数据抽取转换方法,其特征在于,定义和配置完成集群schema之后,定义的数据转换的每一个步骤的执行都可以选择集群schema中的任意一台子服务器,然后通过主服务器进行总的监控和调度。
CN201510108370.1A 2015-03-12 2015-03-12 一种基于服务器集群技术的数据抽取转换方法 Pending CN104639659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510108370.1A CN104639659A (zh) 2015-03-12 2015-03-12 一种基于服务器集群技术的数据抽取转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510108370.1A CN104639659A (zh) 2015-03-12 2015-03-12 一种基于服务器集群技术的数据抽取转换方法

Publications (1)

Publication Number Publication Date
CN104639659A true CN104639659A (zh) 2015-05-20

Family

ID=53217960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510108370.1A Pending CN104639659A (zh) 2015-03-12 2015-03-12 一种基于服务器集群技术的数据抽取转换方法

Country Status (1)

Country Link
CN (1) CN104639659A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108155998A (zh) * 2016-12-05 2018-06-12 天脉聚源(北京)科技有限公司 一种集群服务器发送广播信息的方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100989904B1 (ko) * 2009-03-27 2010-10-26 충북대학교 산학협력단 Pc 클러스터 기반 blast 고속 검색을 위한 파티셔닝방법
CN102200979A (zh) * 2010-03-26 2011-09-28 上海市浦东科技信息中心 一种分布式并行信息检索系统及其方法
CN102724290A (zh) * 2012-05-23 2012-10-10 华为技术有限公司 一种获取目标客户群的方法、设备及系统
CN104158860A (zh) * 2014-07-31 2014-11-19 国家超级计算深圳中心(深圳云计算中心) 一种作业调度方法及作业调度系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100989904B1 (ko) * 2009-03-27 2010-10-26 충북대학교 산학협력단 Pc 클러스터 기반 blast 고속 검색을 위한 파티셔닝방법
CN102200979A (zh) * 2010-03-26 2011-09-28 上海市浦东科技信息中心 一种分布式并行信息检索系统及其方法
CN102724290A (zh) * 2012-05-23 2012-10-10 华为技术有限公司 一种获取目标客户群的方法、设备及系统
CN104158860A (zh) * 2014-07-31 2014-11-19 国家超级计算深圳中心(深圳云计算中心) 一种作业调度方法及作业调度系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108155998A (zh) * 2016-12-05 2018-06-12 天脉聚源(北京)科技有限公司 一种集群服务器发送广播信息的方法和系统

Similar Documents

Publication Publication Date Title
US10069916B2 (en) System and method for transparent context aware filtering of data requests
CN110555012B (zh) 数据迁移方法及装置
CN109815283B (zh) 一种异构数据源可视化查询方法
CN106919697B (zh) 一种将数据同时导入多个Hadoop组件的方法
CN104219318A (zh) 一种分布式文件存储系统及方法
Jeong et al. Anomaly teletraffic intrusion detection systems on hadoop-based platforms: A survey of some problems and solutions
CN104391748A (zh) 一种mapreduce计算过程优化方法
CN109918450B (zh) 基于分析类场景下的分布式并行数据库及存储方法
US9275359B1 (en) Mechanism and techniques for discovery and prediction of long-term high-level nearly periodical business processes from low-level logs
US11221890B2 (en) Systems and methods for dynamic partitioning in distributed environments
US10162830B2 (en) Systems and methods for dynamic partitioning in distributed environments
CN112925792A (zh) 数据存储控制方法、装置、计算设备及介质
CN103117878A (zh) 一种基于Nagios的分布式监控系统的设计方法
CN113535677A (zh) 数据分析查询管理方法、装置、计算机设备及存储介质
CN103995827A (zh) MapReduce计算框架中的高性能排序方法
CN105550238A (zh) 一种数据库一体机的架构系统
CN203301532U (zh) 云桌面系统
CN101645073A (zh) 一种将已有数据库文件导入嵌入式数据库的方法
CN114547199A (zh) 数据库增量同步响应方法、装置及计算机可读存储介质
CN109165262A (zh) 一种关系型大表的分片集群系统及其分片方法
CN104299170B (zh) 间歇性能源海量数据处理方法
WO2016175880A1 (en) Merging incoming data in a database
Phan et al. On understanding the energy impact of speculative execution in hadoop
CN104639659A (zh) 一种基于服务器集群技术的数据抽取转换方法
CN104346575A (zh) 一种软件定义安全体系结构

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150520

WD01 Invention patent application deemed withdrawn after publication