CN103201740A - 与分布式数据库架构并靠的网格计算系统 - Google Patents

与分布式数据库架构并靠的网格计算系统 Download PDF

Info

Publication number
CN103201740A
CN103201740A CN2011800542141A CN201180054214A CN103201740A CN 103201740 A CN103201740 A CN 103201740A CN 2011800542141 A CN2011800542141 A CN 2011800542141A CN 201180054214 A CN201180054214 A CN 201180054214A CN 103201740 A CN103201740 A CN 103201740A
Authority
CN
China
Prior art keywords
gridding
component software
node
data
place
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800542141A
Other languages
English (en)
Other versions
CN103201740B (zh
Inventor
奥利弗·沙本伯格
史蒂夫·克鲁格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SAS Institute Inc
Original Assignee
SAS Institute Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SAS Institute Inc filed Critical SAS Institute Inc
Publication of CN103201740A publication Critical patent/CN103201740A/zh
Application granted granted Critical
Publication of CN103201740B publication Critical patent/CN103201740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供用于对存储于分布式数据库系统中的数据执行分析计算的网格计算系统的系统及方法。控制节点处的网格化软件组件经配置以:调用所述控制节点处的数据库管理软件DBMS以致使多个工作者节点处的DBMS使数据可用于在其节点本地的网格化软件组件;指示所述多个工作者节点处的所述网格化软件组件对所接收的数据执行分析计算且将所述数据分析的结果发送到所述控制节点处的所述网格化软件组件;以及汇编由所述多个工作者节点处的所述网格化软件组件执行的所述数据分析的所述结果。

Description

与分布式数据库架构并靠的网格计算系统
技术领域
本文中所描述的技术大体来说涉及分布式数据处理,且更具体来说涉及使用基于网格的计算系统及分布式数据库系统的分布式数据处理。
背景技术
高性能分析解涉及共置数据与分析代码。此可减少I/O额外开销,因为可跨越节点网格将大量数据加载到存储器中,且可发生并行计算。一种用于数据与分析代码的共置的技术称为数据库内模型。另一种技术称为数据库外模型。
在数据库内模型的情况下,分析代码在无共享环境中的分布式数据库系统的节点上执行。过程通常通过从SQL查询调用预安装在数据库管理系统上的用户定义函数(UDF)而开始。数据已在节点本地或按SQL查询的请求被移动到所述节点。
数据库内模型是以SQL为中心的无共享环境,其中UDF在数据库管理系统的控制下执行。也就是说,节点无法彼此进行通信,通常,信息无法在数据库节点上的查询之间持续,除非其被以表的形式写入到数据库管理系统,且数据库管理系统控制由UDF消耗的资源。在此模型中,可由数据库提供失效修复、复制及对事务的支持。
在数据库外模型的情况下,采用网格式计算环境,其中数据驻存于计算节点上的存储器中,且分析代码代替数据库管理系统来控制整个过程。通过将数据预分布到网格节点来共置所述数据,其中分析代码将本地数据加载到存储器中。
数据库外模型可为全共享环境,且也可因为不存在到分布式数据库的直接连接而被称为“无数据库”模型。举例来说,数据可能来自
Figure BDA00003170558600011
数据库,但在分析之前被分布到网格计算节点上,且与其中所述数据可能已始发的分布式数据库的连接被切断。在此环境中,分析代码通过添加消息传递协议而具有对节点对节点通信的完全控制。
发明内容
根据本文中所提供的教示,提供用于对存储于分布式数据库系统中的数据执行分析计算的网格计算系统的系统及方法。用于共置数据与分析代码的此技术(本文中称为与数据库模型并排)允许分析代码实行对分析过程的完全控制及对数据存取的完全控制,但使用分布式数据库将数据馈送到本地计算节点。其共置数据、分析代码及存储数据并执行分析代码所需的硬件。所述分析代码保持控制且允许节点对节点通信。直接从经共置分布式数据库检索数据以加载到网格节点上的存储器中,此允许如同在数据库外模型中一样执行分析且利用分布式数据库的失效修复、复制及事务安全的能力的灵活性。
举例来说,网格化软件组件在控制节点上执行且将命令提供到多个工作者节点网格化软件组件。工作者节点网格化软件组件中的每一者与单独节点相关联且在所述单独节点上执行。所述节点还执行管理可对其进行分析计算或查询或加载活动的数据的数据库管理软件(DBMS)。通过在每一节点上定位DBMS,与之前所述的数据库内及/或数据库外模型相比,可尽可能少地移动数据。通过在数据所驻存的数据库节点上处理所述处理,移动得以最小化。通过将在数据库过程之外的数据发送到DBMS中,可实现更多控制。举例来说,可在需要的情况下与其它节点进行通信。在数据库内部处理数据不会给出在工作单元(在DBMS节点上运行的UDF)之间通信的此机会。借助以此方式通信的能力,可执行难以或不可能在数据库内模型中执行的复杂得多的分析任务。使数据从DBMS移动到经共置过程中的另一优点为可高速缓存数据;必须多次通过数据的算法现在可利用数据的存储器内表示,而非从磁盘重新读取。控制节点处的网格化软件组件经配置以:调用所述控制节点处的DBMS以致使多个工作者节点处的DBMS使数据的一部分可用于在其节点本地的网格化软件组件;指示所述多个工作者节点处的所述网格化软件组件对所接收的数据执行分析计算且将所述数据分析的结果发送到所述控制节点处的所述网格化软件组件;及汇编由所述多个工作者节点处的所述网格化软件组件执行的所述数据分析的结果。
本发明尤其是针对一种用于对存储于分布式数据库系统中的数据执行分析计算的网格计算系统,所述网格计算系统包括:
多个网格计算节点,其包含一控制节点及多个工作者节点,每一节点包括:
处理器,其用于执行数据库管理软件(DBMS)且用于执行网格化软件组件,
本地缓冲存储器,其可由所述网格化软件组件存取,及
本地存储媒体,其可由所述DBMS存取以存储数据;
其中所述网格化软件组件经配置以对由数据库管理系统存储的所述数据的一部分执行所述分析计算;
所述控制节点处的所述网格化软件组件经配置以:
调用所述控制节点处的所述DBMS以致使多个所述工作者节点处的所述DBMS使所述数据的一部分可用于在其节点本地的所述网格化软件组件;
指示所述多个工作者节点处的所述网格化软件组件对所接收的数据执行分析计算且将所述数据分析的结果发送到所述控制节点处的所述网格化软件组件;及
汇编由所述多个工作者节点处的所述网格化软件组件执行的所述数据分析的所述结果。
特别优选地,多个工作者节点处的所述DBMS经配置以通过将所述数据保存到可由所述DBMS及所述多个工作者节点的本地网格化软件组件两者在本地存取的共享存储器来使所述数据可用于所述网格化软件组件。
此外,本发明提出多个工作者节点处的所述DBMS经配置以通过经由套接字连接通信来使所述数据可用于其本地网格化软件组件。
在之前所述的实施例中,尤其优选地,所述多个工作者节点的所述网格化软件组件经配置以使用共用端口地址打开套接字连接。
此外,本发明针对之前所提及的实施例提出所述控制节点处的所述网格化软件组件经配置以将所述共用端口地址提供到在其节点本地的所述DBMS,且所述控制节点处的所述DBMS经配置以将所述共用端口地址提供到所述多个工作者节点处的所述DBMS。
发明性系统的特征可进一步在于所述多个工作者节点处的所述网格化软件组件经配置以存储所接收的数据且使用其本地缓冲存储器执行所述数据分析。
还提出所述多个工作者节点经配置以将来自所述数据分析的所述结果传输到其本地DBMS以供存储于分布式数据库中。
所述系统的特征可进一步在于从所述多个工作者节点网格化软件组件接收的所述分析的所述结果是经由网络接收。
在有利实施例中,优选地,多个所述工作者节点网格化软件组件经由所述网络使用MPI来传输其结果。
此外,本发明提出由所述控制节点网格化软件组件汇编的所述结果存储于所述分布式数据库系统中。
还优选地,由所述控制节点网格化软件组件汇编的所述结果被传输到客户端节点处的网格化软件组件。
根据本发明的系统的特征可进一步在于在检测到所述工作者节点中的一者处的失效之后,即刻:
所述控制节点处的所述DBMS经配置以致使其余工作者节点中的一者处的所述DBMS将所述数据的先前分布到所述失效节点处的所述网格化软件组件的所述部分重新分布到在所述节点本地的所述网格化软件组件;
接收所述经重新分布数据的所述网格化软件组件经配置以对所述经重新分布数据执行分析计算且将结果提供到所述控制节点处的所述网格化软件组件;且
所述控制节点处的所述网格化软件组件经配置以汇编从所述其余工作者节点处的所述网格化软件组件接收到的所述结果。
此外,所述系统可包括客户端节点处的网格化软件组件:所述客户端节点处的所述网格化软件组件以第一执行模式及第二执行模式进行配置;
在所述第一执行模式中的所述客户端节点网格化软件组件经配置以执行本地数据分析以将结果提供到客户端软件;
在所述第二执行模式中的所述客户端节点网格化软件组件经配置以调用所述控制节点处的所述网格化软件组件以在基于网格的计算环境中执行所述数据分析;且
所述客户端节点处的所述网格化软件组件经配置以基于由所述客户端软件提供的指示而在所述第一模式或所述第二模式中操作。
在之前所述的实施例中,尤其优选地,所述客户端节点网格化软件组件经配置以从客户端应用程序接收特定问题且通过将由所述控制节点网格化软件组件汇编的所述结果提供到所述客户端应用程序来提供对所述特定问题的响应。
此外,本发明提出所述系统包括客户端节点网格化软件组件,所述客户端节点网格化软件组件经配置以从客户端应用程序接收特定问题且通过将由所述控制节点网格化软件组件汇编的所述结果提供到所述客户端应用程序来提供对所述特定问题的响应。
此外,提出所述控制节点处的所述网格化软件组件经配置以通过聚合及并置在工作者节点数据处理器处执行的所述分析的所述结果来汇编所述结果。
此外,系统的特征可在于多个所述网格计算节点处的所述网格化软件组件在每一节点处在虚拟机器环境中实施。
另一实施例的特征可在于多个所述网格计算节点处的所述数据库管理软件在每一节点处在虚拟机器环境中实施。
此外,优选地,所述多个所述网格计算节点处的所述网格化软件组件在每一节点处在单独虚拟机器环境中实施。
最终,针对所述系统提出所述多个所述网格计算节点处的所述网格化软件组件在每一节点处在与所述数据库管理软件共用的虚拟机器环境中实施。
此外,本发明提供一种在网格计算系统中用于对存储于分布式数据库系统中的数据执行分析计算的方法,所述方法包括:
提供包含一控制节点及多个工作者节点的多个网格计算节点,每一节点包括:处理器,其用于执行数据库管理软件(DBMS)且用于执行网格化软件组件;本地缓冲存储器,其可由所述网格化软件组件存取;及本地存储媒体,其可由所述DBMS存取以存储数据;
调用所述控制节点处的所述DBMS以致使多个所述工作者节点处的所述DBMS使所述数据的一部分可用于在其节点本地的所述网格化软件组件;
指示所述多个工作者节点处的所述网格化软件组件对所接收的数据执行分析计算且将所述数据分析的结果发送到所述控制节点处的所述网格化软件组件;及
汇编由所述多个工作者节点处的所述网格化软件组件执行的所述数据分析的所述结果。
尤其优选地,多个工作者节点处的所述DBMS经配置以通过将所述数据保存到可由所述DBMS及所述多个工作者节点的本地网格化软件组件两者在本地存取的共享存储器来使所述数据可用于所述网格化软件组件。
发明性方法的特征可在于多个工作者节点处的所述DBMS经配置以通过经由套接字连接通信来使所述数据可用于其本地网格化软件组件。
针对此实施例,尤其优选地,所述多个工作者节点处的所述网格化软件组件经配置以使用共用端口地址打开套接字连接。
之前所描述的实施例的特征可进一步在于所述控制节点处的所述网格化软件组件经配置以将所述共用端口地址提供到在其节点本地的所述DBMS,且所述控制节点处的所述DBMS经配置以将所述共用端口地址提供到所述多个工作者节点处的所述DBMS。
还优选地,所述多个工作者节点处的所述网格化软件组件经配置以存储所接收的数据且使用其本地缓冲存储器执行所述数据分析。
此外,本发明提出所述多个工作者节点经配置以将来自所述数据分析的所述结果传输到其本地DBMS以供存储于分布式数据库中。
发明性方法的特征可在于经由网络接收从所述多个工作者节点网格化软件组件接收的所述分析的所述结果。
在之前所述的实施例中,尤其优选地,多个所述工作者节点网格化软件组件经由所述网络使用MPI来传输其结果。
此外,本发明提出所述方法包括将由所述控制节点网格化软件组件汇编的所述结果存储于所述分布式数据库系统中。
本发明进一步提出,所述方法包括将由所述控制节点网格化软件组件汇编的所述结果传输到客户端节点处的网格化软件组件。
发明性方法的特征可进一步在于在检测到所述工作者节点中的一者处的失效之后,即刻:
所述控制节点处的所述DBMS经配置以致使其余工作者节点中的一者处的所述DBMS将所述数据的先前分布到所述失效节点处的所述网格化软件组件的所述部分重新分布到在所述节点本地的所述网格化软件组件;
接收所述经重新分布数据的所述网格化软件组件经配置以对所述经重新分布数据执行分析计算且将结果提供到所述控制节点处的所述网格化软件组件;且
所述控制节点处的所述网格化软件组件经配置以汇编从所述其余工作者节点处的所述网格化软件组件接收到的所述结果。
此外,提出所述方法进一步包括提供客户端节点处的网格化软件组件的步骤,其中:
所述客户端节点处的所述网格化软件组件以第一执行模式及第二执行模式进行配置;
在所述第一执行模式中的所述客户端节点网格化软件组件经配置以执行本地数据分析以将结果提供到客户端软件;
在所述第二执行模式中的所述客户端节点网格化软件组件经配置以调用所述控制节点处的所述网格化软件组件以在基于网格的计算环境中执行所述数据分析;且
所述客户端节点处的所述网格化软件组件经配置以基于由所述客户端软件提供的指示而在所述第一模式或所述第二模式中操作。
发明性方法的特征可进一步在于优选地所述客户端节点网格化软件组件经配置以从客户端应用程序接收特定问题且通过将由所述控制节点网格化软件组件汇编的所述结果提供到所述客户端应用程序来提供对所述特定问题的响应。
此外,本发明提出所述方法包括提供客户端节点网格化软件组件,所述客户端节点网格化软件组件经配置以从客户端应用程序接收特定问题且通过将由所述控制节点网格化软件组件汇编的结果提供到所述客户端应用程序来提供对所述特定问题的响应。
最终,提出所述汇编步骤包括聚合及并置在所述工作者节点数据处理器处执行的所述分析的所述结果。
附图说明
图1是描绘其中用户可与计算环境交互的环境的框图。
图2是描绘含有基于网格的计算系统及数据库管理系统的计算环境的框图。
图3是描绘基于网格的计算系统的硬件及软件组件的框图。
图4是描绘分布式数据库管理系统的硬件及软件组件的框图。
图5及6是描绘与分布式数据库系统共置的基于网格的计算系统的硬件及软件组件的框图。
图7到11是描绘基于网格的计算系统的用于在基于网格的环境或单独环境中分析数据的过程流程的过程流程图。
图12到16是描绘软件组件的用于在基于网格的计算环境中执行数据分析的过程流程的过程流程图。
具体实施方式
图1以30描绘针对许多不同类型的应用(例如针对需要很多计算机处理循环的科学、技术或商业应用)的用于处理大量数据的计算环境。用户计算机32可通过若干种方式(例如经由网络34)与计算环境30交互。
使用一个或一个以上数据存储装置36将待由计算环境30处理的数据以及由计算系统产生的任何中间或最终数据存储于非易失性存储器中。然而,在某些实施例中,计算环境30的配置允许其操作经执行使得中间及最终数据结果可单独地存储于易失性存储器(例如,RAM)中,而不需要将中间或最终数据结果存储到非易失性类型的存储器(例如,磁盘)。
在某些情形中此可为有用的,例如当计算环境30从用户接收到特定查询时及当需要即时产生通过处理大量数据而产生的响应。在此非限制性情形中,计算环境30经配置以将经处理信息保持在存储器内,使得可针对用户以不同细节水平产生响应,且允许用户对照此信息交互地进行查询。
图2图解说明实例性计算环境30。实例性计算环境30包含用于处理大量数据的基于网格的计算系统38及用于管理、存储及检索分布到且存储于多个数据存储装置36中的大量数据的数据库管理系统40,多个数据存储装置36驻存于分布式数据库系统内的不同位置处。如图2中的虚线打算指示,基于网格的计算系统38与数据库管理系统40中的计算节点共享相同处理器硬件。
图3图解说明基于网格的计算系统38的硬件及软件组件。基于网格的计算系统38包含若干个数据处理节点42、44,数据处理节点42、44包括多核心数据处理器。所述节点中的一者被指定为控制数据处理节点42,且多个节点被指定为工作者数据处理节点44。每一数据处理节点42、44包含网格化软件组件(GESC)46,GESC46在与所述节点相关联的数据处理器上执行且和也与所述节点相关联的缓冲存储器48介接。
各个节点42、44处的GESC46经由网络50连接且可使用例如消息传递接口(MPI)的预定通信协议彼此通信。每一GESC46可参加与另一节点处的GESC的点对点通信或经由网络50参加与多个GESC的集体通信。在此实例中,每一节点处的GESC46含有等同软件指令,且每一数据处理节点能够作为控制节点42或工作者节点44操作。控制节点42处的GESC可经由通信路径54与客户端应用程序52通信以从用户接收特定查询且在处理大量数据之后对那些特定查询做出响应。
图4图解说明分布式数据库管理系统40的硬件及软件组件。分布式数据库管理系统40包含数据库管理软件(DBMS)60,DBMS60在控制数据库节点56处的数据库服务器上且在多个工作者数据库节点58中的每一者处的数据库服务器上执行。每一数据库节点56、58包含一数据库服务器及附接到所述数据库服务器的一个或一个以上数据存储装置36。所述数据库服务器执行数据库管理软件(DBMS)60,DBMS60控制组织存储于数据存储装置36中的数据的数据库(即,数据结构)的创建、维持及使用。分布式数据库管理系统40的控制节点56处的DBMS与客户端应用程序62通信以接受对数据的请求且指示数据库管理系统传送适当数据。每一数据库节点处的DBMS60可经由网络64彼此通信。
在分布式数据库管理系统的情况下,跨越多个物理位置分布数据的集合。在此实例中,所述分布式系统中的每一数据库节点56、58在其相关联的数据存储装置36中存储总数据的由DBMS管理的一部分。通常由DBMS用来防御数据丢失的一种过程是复制。复制通常涉及将存储于一个节点上的数据的备份副本提供于一个或一个以上其它节点上。当采用复制时,如果一个节点失效,那么可从驻存于另一节点处的经复制副本恢复来自失效节点的数据。
如图4中所图解说明,分布式数据库系统中的每一数据库节点56、58具有不同数据存储装置36,例如磁盘或其它存储器装置以及不同主存储器。在其中在所有位置中数据保持最新的分布式数据库系统中,可发生分布式查询处理。此意味着,每一节点处的DBMS均可处理对数据的查询。
图5描绘与分布式数据库管理系统共置的基于网格的计算系统。在此实施例中,若干个数据处理器节点100、102中的每一者包含可由分布式数据库管理系统与基于网格的计算系统共享的数据处理器。每一数据处理节点包含可以存取缓冲存储器122的网格化软件组件(GESC)120及连接到数据存储装置136的数据库管理软件(DBMS)130。每一节点可执行GESC120及DBMS130两者。在各个节点处执行GESC120允许基于网格的计算环境执行复杂数据分析的操作。类似地,在所述节点处执行DBMS130允许分布式数据库管理系统存储待在数据分析中使用的数据的操作。
类似于图4中所图解说明的分布式数据库管理系统,每一节点100、102处的DBMS130可经由网络138与其它节点处的DBMS通信,且类似于图3中所图解说明的基于网格的计算系统,各个节点100、102处的GESC120经由网络124连接且可使用例如消息传递接口(MPI)的预定通信协议彼此通信。每一GESC120可参加与另一节点处的GESC的点对点通信或经由网络124参加与多个GESC的集体通信。在所图解说明的实施例中,控制节点100具有与工作者节点102相同的硬件配置。
在此实例中,每一节点处的GESC120含有等同软件指令。然而,所述GESC具有多个执行模式。由于所述多个执行模式,每一数据处理节点100、102能够作为控制节点100或工作者节点102操作。
在每一节点处与DBMS130一起提供的是用户定义函数(UDF)138。所述UDF提供用于使应用程序将数据传送到存储于由DBMS130管理的数据存储装置136中的数据库或从所述数据库接收数据的机制。举例来说,在数据处理节点100、102处,可由DBMS调用UDF138以将数据提供到GESC。在所图解说明的实施例中,UDF138与GESC建立用以传送数据的套接字连接。或者,如图5中的具有虚线标记的箭头所图解说明,UDF138可通过将数据写入到可由UDF及GESC两者存取的共享存储器而将数据传送到GESC。
图6图解说明其中客户端应用程序节点150通信地耦合到与分布式数据库管理系统共置的基于网格的计算系统的控制节点100的实施例。客户端应用程序节点150包含在共享数据处理器与存储器156上执行的客户端GESC152及客户端应用程序154。所图解说明的客户端应用程序154可请求由基于网格的计算系统执行数据分析。所图解说明的客户端GESC152与客户端应用程序154介接以从所述客户端应用程序接收对数据分析的请求且将所述数据分析的结果提供到客户端应用程序。
在此实例中,客户端GESC152含有等同于控制节点及工作者节点处的GESC120的软件指令的软件指令。在此实施例中,这些节点中的每一者处的GESC具有额外操作模式,即客户端模式。在客户端模式中,GESC152可(举例来说)经由例如TCP连接的套接字连接与控制节点处的GESC120通信以指示基于网格的计算环境执行数据分析且接收数据分析的结果以供提供到发请求的客户端应用程序。
在另一实施例中,客户端GESC152可在第一执行模式或单独模式中操作,其中客户端GESC152可在不使用基于网格的计算环境的情况下执行所请求的数据分析。在此实施例中,客户端应用程序154向客户端GESC152指示是应使用基于网格的计算环境在第二执行模式中还是应在客户端应用程序节点处在单独或第一执行模式中执行所请求的数据分析。通过使用这两种执行模式,系统针对不同任务变为兼容的。当问题的大小较小时,系统可经调适以在单个节点上运行以实现资源及速度优化。组织功能以实现多个作用的另一积极效应是可在对所述功能进行很少修改的情况下潜在地将基于网格的软件产品部署为不基于网格的产品。
如图6中所图解说明,可将基于网格的计算系统的驻存于每一处理节点100、102处的组件(展示为基于网格的计算系统组件125)实施为在位于所述节点处的数据处理器上操作的虚拟机器。此外或替代地,可将分布式数据库管理系统的驻存于每一处理节点100、102处的组件(展示为分布式数据库组件135)实施为在位于所述节点处的数据处理器上操作的虚拟机器。使组件125、135中的一者或两者作为虚拟机器操作允许共享由位于所述节点处的数据处理器提供的基础物理机器资源,同时维持基于网格的计算系统组件125与分布式数据库组件135之间的强隔离。实现虚拟机器环境的积极效应及技术优点是用户将不需要在数据库正在其上运行的同一虚拟机器上的帐户。此实现其中多个实体可隔离地使用相同资源的安全多租户环境,且此外加速计算过程且还减少待传输的数据量。或者,可使基于网格的计算系统组件125及分布式数据库组件135作为共用虚拟机器操作,从而为那些组件125、135提供与可共享基础物理机器资源的其它过程的隔离。因此,与分布式数据库管理系统共置的基于网格的计算系统可在以下配置中的任一者下操作:(i)其中不相对于基于网格的计算系统组件125或分布式数据库组件135采用虚拟机器的配置;(ii)其中针对基于网格的计算系统组件125而不针对分布式数据库组件135采用虚拟机器的配置;(iii)其中针对分布式数据库组件135而不针对基于网格的计算系统组件125采用虚拟机器的配置;(iv)其中针对基于网格的计算系统组件125及分布式数据库组件135中的每一者采用单独虚拟机器的配置;及(v)其中针对基于网格的计算系统组件125及分布式数据库组件135两者采用共用虚拟机器的配置。
图7图解说明用于执行数据分析的实例性过程。客户端节点处的GESC与客户端节点处的客户端应用程序通信以从用户接收特定查询且在已处理大量数据之后对那些特定查询做出响应。如步骤200处所图解说明,客户端应用程序向客户端GESC呈现要求执行数据分析的特定查询。所述特定查询可含有关于待执行的数据分析的类型及是否应使用基于网格的计算环境在第二执行模式中执行所述分析的指令。在步骤210处,客户端GESC起始所请求的数据分析且获得数据分析的结果。在步骤220处,客户端GESC将分析的结果提供到客户端应用程序。
在所图解说明的实施例中,起始所请求的数据分析及获得结果(步骤210)需要执行若干个步骤。如所展示,在步骤212处,客户端GESC确定所述特定查询是否需要使用基于网格的计算环境来执行数据分析。如果所述确定的回答是否,那么客户端GESC在步骤214处在客户端节点处执行数据分析。如果在步骤212处所做出的确定的回答为是,那么客户端GESC在步骤216处致使在基于网格的计算环境中实例化GESC且致使基于网格的计算系统执行数据分析。此确定还可涉及确定基于网格的计算环境的配置。举例来说,此确定可包含工作者节点的数目及在执行数据分析时将采用的每工作者节点线程的数目。在步骤218处,基于网格的计算环境中的GESC将分析的结果提供到客户端GESC。
所述结果从基于网格的计算环境到客户端节点的提供可由于基于网格的计算环境中的操作系统与在客户端节点上执行的操作系统之间的差异而需要数据的翻译。举例来说,执行控制节点GESC的数据处理器可具有64位Linux操作系统,且执行客户端GESC的数据处理器可具有32位操作系统,例如32位Windows PC操作系统。宽字符字符的表示在两种操作系统中不同,且必须将呈Linux格式的字符翻译成在Windows客户端上的恰当表示。
在图8处所图解说明的实施例中,提供实例性元件以图解说明从客户端应用程序到客户端GESC的特定查询的组件。在302处描绘客户端应用程序提供关于待执行的数据分析的类型的指令。在304处描绘客户端应用程序识别待在数据分析中使用的数据的源位置。在此实例中,待在数据分析中使用的数据存储于与基于网格的计算环境共置的分布式数据库系统中。最终,在306处,客户端应用程序指令是将利用单独计算环境还是利用基于网格的计算环境来执行所请求的数据分析。
在图9处所图解说明的实施例中,提供用于在基于网格的计算环境中实例化GESC以执行所请求的数据分析的实例性步骤。在步骤310处,客户端节点GESC致使在控制节点及多个工作者节点处实例化GESC。在步骤312处,控制节点GESC致使将待在分析中使用的数据传递到工作者节点处的GESC。在步骤314处,控制节点处的GESC在基于网格的计算环境中起始数据分析。最终,在步骤316处,控制节点处的GESC汇编来自由各个工作者节点处的GESC执行的分析的结果。
在图10处所描绘的实施例中,提供实例性步骤以图解说明供控制节点GESC用来将数据分析的结果提供到客户端节点GESC的方法。在步骤320处,控制节点GESC打开TCP套接字连接。在步骤322处,控制节点GESC串行化数据分析的结果。在步骤324处,控制节点经由TCP套接字将数据分析的经串行化结果提供到客户端节点GESC。
在图11处所描绘的实施例中,提供供客户端节点GESC用来将数据分析的结果提供到发请求的客户端应用程序的实例性步骤。通过使用控制节点来汇编结果,改进了分析结果到用户/客户端的呈现。所述控制节点即为客户端连接到的节点,且分布式计算环境中的分析的流程由所述节点控制。假如结果是从其它节点流回到客户端,那么所述环境将需要提供客户端与可潜在地往回通信的所有节点之间的连接。因此,通过使用所述节点来汇编进一步减少了待传输的数据量。此外,如果网格是在防火墙后面,那么管理网格与客户端之间的通信导致操作效率及安全性的增加。在步骤330处,客户端节点GESC将从控制节点GESC接收的经串行化数据分析结果翻译成可由客户端应用程序的操作系统辨识的格式。在步骤332处,客户端节点GESC将经翻译数据分析结果存储于在客户端节点GESC与客户端应用程序之间共享的本地存储器中。最终,在步骤334处,客户端节点GESC给客户端应用程序提供经翻译数据分析结果在共享存储器中的地址。
在图12处所描绘的实施例中,提供实例性步骤以图解说明用于在基于网格的计算环境中实例化GESC的方法。在步骤400处,实例化控制节点处的GESC。在步骤402处,基于可用的潜在工作者节点的数目及期望执行数据分析的工作者节点的数目,控制节点GESC致使实例化工作者节点处的GESC。在步骤404处,工作者节点及控制节点处的GESC试图打开用于套接字通信的共用端口。通过使用套接字连接,尤其是使用共用端口地址,与其它通信技术相比,实现相应优点。此允许指示所有节点上的UDF将其数据发送到同一机器上的另一过程。尤其是通过使用共用端口编号,有可能在其中多个用户正在运行或其中单个用户的应用程序希望对多个数据源执行同时读取或写入操作的并发系统中对用于特定分析的传输进行分组-共用端口编号则与特定数据源相关联。最终,在步骤406处,将来自工作者节点的共用端口地址传达给控制节点GESC,所述控制节点GESC也在相同地址处打开用于套接字通信的端口。
在图13中描绘图解说明供控制节点GESC使用以致使将待在分析中使用的数据提供到工作者节点GESC的方法的实例性步骤。在步骤410处,控制节点GESC向控制节点处的DBMS发出SQL查询且提供工作者节点套接字端口的共用端口编号。在步骤412处,控制节点DBMS调用所有节点上的用户定义函数(UDF)且将端口编号传递到所有节点上的UDF。在步骤414处,每一工作者节点UDF检索待在数据分析中使用的数据且经由所提供端口地址处的套接字连接将所述数据传递到其本地节点处的GESC。在此实例中,每一工作者节点GESC接收待在数据分析中使用的总体数据集的一部分。或者,工作者节点GESC中的每一者或一些可接收待在分析中使用的完整数据集。在步骤416处,工作者节点GESC将所接收的数据存储于其本地缓冲存储器中。存储于本地缓冲存储器中相比于存储于其它位置中的技术优点尤其是减少了所需的数据传输带宽且可增加处理速度。许多先进分析算法需要多遍次通过数据。将数据存储于本地缓冲存储器中允许在数据的初始检索之后快速处理后续遍次。其还允许存储原始数据的经处理形式,举例来说,通过移除由于空字段或其它缺陷而将不在分析中使用的观测。尤其是参与单个分析的不同分析组件可共享指向所述数据的指针而非多次从磁盘检索所述数据。作为步骤414及416的替代方案,每一UDF可检索待在数据分析中使用的数据且通过将数据存储于可由UDF及GESC两者存取的共用存储器中而将所述数据传递到其本地节点处的GESC。所述GESC可接着从共享存储器处理数据或将数据移动到专用存储器以供处理。
在图14处图解说明可在于基于网格的计算环境中起始数据分析时实施的实例性步骤。在步骤420处,控制节点GESC使用消息传递接口(MPI)经由通信网络与工作者节点GESC通信。在步骤422处,控制节点GESC将分析的一部分指派给工作者节点GESC。在此实例中,所有工作者节点GESC执行相同分析计算,但是对待在分析中使用的总体数据集的不同部分进行的。或者,控制节点GESC可指示多个工作者节点GESC执行不同分析步骤。
在图15处图解说明用于在控制节点处汇编数据分析结果的实例性步骤。在步骤430处,工作者节点GESC将来自其分析计算的结果发送到控制节点GESC。可将由工作者节点GESC产生的结果传输到控制节点GESC的一种方式是经由MPI。可传输结果的另一方式是通过工作者节点GESC将其数据分析结果存储于分布式数据库中且经由MPI将所述结果在分布式数据库中的位置提供到控制节点GESC。通过将所述结果存储于分布式数据库中,还增加了处理速度。取决于结果集的大小,用户可希望将其返回到客户端机器或将其存储于数据库中。如果结果集较小(举例来说,当其由概括分析结果的一系列小表组成时),经由网络发送结果是用以将结果呈现给客户端侧再现引擎的权宜之策。如果结果较大或如果结果集形似分布式输入数据,那么可避免通过单个节点(控制节点)经由网络的传输。当分析过程对输入数据进行记分(举例来说)以计算每一经处理观测的统计度量时,会发生其中结果集形似输入数据的情形。将结果集放置到数据库中并维持与输入数据相同的分布特性提供输入与输出数据的方便SQL联合,从而总体增加处理速度。在步骤432处,控制节点GESC聚合并汇编来自由工作者节点GESC执行的分析计算的结果。可将所述结果存储于本地存储器中或分布式数据库中。控制节点GESC还可在结果的最终汇编之前在432处对经聚合数据执行额外数学运算(例如,描述性统计计算)。
在于计算正在进行时节点失效的情况中,控制节点GESC可在不必重新分布待在数据分析中使用的数据之前在基于网格的计算环境中重新起始数据分析。由于各个工作者节点GESC与DBMS共置于节点处,因此分布式数据库管理系统保护机制可在节点失效期间防御数据丢失。本地DBMS可以存取待在数据分析中使用的数据的复制副本且将数据提供到各个工作者节点GESC。当由于节点失效而必需重新计算时,控制节点GESC可将分析的先前指派给失效节点的部分重新指派给其余工作者节点中的一者或一个者以上(或新工作者节点)处的GESC。此可涉及指示一个或一个以上工作者节点GESC对额外数据执行其分析计算。
在图16处描绘用于从节点失效恢复的实例性步骤。客户端节点GESC检测基于网格的计算环境中的失效(步骤500)。在步骤502处,客户端节点GESC指示控制节点GESC重新起始数据分析。在步骤504处,控制节点GESC向控制节点DBMS发出新的SQL查询。如果存在失效节点,那么DBMS致使驻存于失效节点上的数据由驻存于一个或一个以上未失效节点上的其复制副本替换。工作者UDF将先前提供到失效节点处的GESC的数据提供到不同节点处的GESC(步骤506)。此可导致节点中的一者处的GESC被提供最初提供到其的数据加上最初提供到失效节点处的GESC的数据。或者,其可导致新节点处的GESC被提供最初提供到失效节点处的GESC的数据。在步骤508处,控制节点处的GESC重新起始数据分析。此涉及在步骤510处控制节点GESC在无失效节点的情况下重新起始数据分析。在步骤514处,工作者节点GESC将来自其分析计算的结果发送到控制节点GESC。在步骤516处,控制节点GESC聚合并重新汇编来自数据分析的结果。在步骤518处,控制节点GESC将数据分析的结果传输到客户端节点GESC。
在图2中描绘涉及基于网格的计算环境的多用户环境。在此环境中,每一用户32将接收其自己的客户端GESC以处置其查询并与选定控制节点GESC通信。
此书面描述使用实例来揭示本发明(包含最佳模式),且还使得所属领域的技术人员能够制作并使用本发明。本发明的可取得专利权的范围可包含其它实例。
另外,可通过包括可由装置处理子系统执行的程序指令的程序代码在许多不同类型的处理装置上实施本文中所描述的方法及系统。所述软件程序指令可包含可操作以致使处理系统执行本文中所描述的方法及操作的源代码、目标代码、机器代码或任何其它所存储数据。然而,也可使用其它实施方案,例如经配置以执行本文中所描述的方法及系统的固件或甚至经适当设计的硬件。
可在一个或一个以上不同类型的计算机实施的数据存储装置中存储及实施所述系统及方法的数据(例如,关联、映射、数据输入、数据输出、中间数据结果、最终数据结果等),例如不同类型的存储装置及编程构造(例如,RAM、ROM、快闪存储器、平面文件、数据库、编程数据结构、编程变量、如果-则(IF-THEN)(或类似类型)语句构造等)。应注意,数据结构描述在组织数据及将数据存储于数据库、程序、存储器或其它计算机可读媒体中以供计算机程序使用时使用的格式。
本文中所描述的计算机组件、软件模块、功能、数据存储装置及数据结构可彼此直接或间接连接以便允许其操作所需的数据的流动。还注意,模块或处理器包含但不限于执行软件操作的代码单元,且可(例如)实施为子例程代码单元或实施为软件函数代码单元或实施为对象(呈面向对象的范例)或实施为小应用程序或以计算机脚本语言实施或实施为另一类型的计算机代码。软件组件和/或功能性可位于单个计算机上或跨越多个计算机分布,此取决于当前情形。
应理解,如本文的描述中所使用且在整个所附的权利要求书中,“一”及“所述”的含义包含多个提及物,除非上下文另有清楚指示。此外,如本文的描述中所使用且在整个所附的权利要求书中,“在…中”的含义包含“在…中”及“在…上”,除非上下文另有清楚指示。最终,如本文的描述中所使用且在整个所附的权利要求书中,“及”和“或”的含义包含连接词及析取词两者且可互换使用,除非上下文另有明确指示;短语“异或”可用来指示其中仅析取含义可适用的情形。

Claims (15)

1.一种用于对存储于分布式数据库系统中的数据执行分析计算的网格计算系统,所述网格计算系统包括:
多个网格计算节点,其包含一控制节点及多个工作者节点,每一节点包括:
处理器,其用于执行数据库管理软件DBMS且用于执行网格化软件组件,
本地缓冲存储器,其可由所述网格化软件组件存取,以及
本地存储媒体,其可由所述DBMS存取以存储数据;
其中所述网格化软件组件经配置以对由数据库管理系统存储的所述数据的一部分执行所述分析计算;
所述控制节点处的所述网格化软件组件经配置以:
调用所述控制节点处的所述DBMS以致使多个所述工作者节点处的所述DBMS使所述数据的一部分可用于在其节点本地的所述网格化软件组件;
指示所述多个工作者节点处的所述网格化软件组件对所接收的数据执行分析计算且将所述数据分析的结果发送到所述控制节点处的所述网格化软件组件;以及
汇编由所述多个工作者节点处的所述网格化软件组件执行的所述数据分析的所述结果。
2.根据权利要求1所述的系统,其中多个工作者节点处的所述DBMS经配置以通过将所述数据保存到可由所述DBMS及所述多个工作者节点的本地网格化软件组件两者在本地存取的共享存储器或通过经由套接字连接通信来使所述数据可用于所述网格化软件组件。
3.根据权利要求2所述的系统,其中所述多个工作者节点处的所述网格化软件组件经配置以使用共用端口地址打开套接字连接,其中优选地所述控制节点处的所述网格化软件组件经配置以将所述共用端口地址提供到在其节点本地的所述DBMS,且所述控制节点处的所述DBMS经配置以将所述共用端口地址提供到所述多个工作者节点处的所述DBMS。
4.根据前述权利要求中任一权利要求所述的系统,其中所述多个工作者节点处的所述网格化软件组件经配置以存储所述所接收的数据且使用其本地缓冲存储器执行所述数据分析,且/或其中所述多个工作者节点经配置以将来自所述数据分析的所述结果传输到其本地DBMS以供存储于分布式数据库中。
5.根据前述权利要求中任一权利要求所述的系统,其中从所述多个工作者节点网格化软件组件接收的所述分析的所述结果是经由网络接收的,其中尤其是多个所述工作者节点网格化软件组件经由所述网络使用MPI来传输其结果。
6.根据前述权利要求中任一权利要求所述的系统,其中由所述控制节点网格化软件组件汇编的所述结果存储于所述分布式数据库系统中,且/或其中由所述控制节点网格化软件组件汇编的所述结果被传输到客户端节点处的网格化软件组件。
7.根据前述权利要求中任一权利要求所述的系统,其中在检测到所述工作者节点中的一者处的失效之后,即刻:
所述控制节点处的所述DBMS经配置以致使其余工作者节点中的一者处的所述DBMS将所述数据的先前分布到所述失效节点处的所述网格化软件组件的所述部分重新分布到在所述节点本地的所述网格化软件组件;
接收所述经重新分布数据的所述网格化软件组件经配置以对所述经重新分布数据执行分析计算且将结果提供到所述控制节点处的所述网格化软件组件;且
所述控制节点处的所述网格化软件组件经配置以汇编从所述其余工作者节点处的所述网格化软件组件接收到的所述结果。
8.根据前述权利要求中任一权利要求所述的系统,其进一步包括客户端节点处的网格化软件组件:
所述客户端节点处的所述网格化软件组件以第一执行模式及第二执行模式进行配置;
在所述第一执行模式中的所述客户端节点网格化软件组件经配置以执行本地数据分析以将结果提供到客户端软件;
在所述第二执行模式中的所述客户端节点网格化软件组件经配置以调用所述控制节点处的所述网格化软件组件以在基于网格的计算环境中执行所述数据分析;且
所述客户端节点处的所述网格化软件组件经配置以基于由所述客户端软件提供的指示而在所述第一模式或所述第二模式中操作,其中尤其是所述客户端节点网格化软件组件经配置以从客户端应用程序接收特定问题且通过将由所述控制节点网格化软件组件汇编的所述结果提供到所述客户端应用程序来提供对所述特定问题的响应。
9.根据前述权利要求中任一权利要求所述的系统,其进一步包括客户端节点网格化软件组件,所述客户端节点网格化软件组件经配置以从客户端应用程序接收特定问题且通过将由所述控制节点网格化软件组件汇编的所述结果提供到所述客户端应用程序来提供对所述特定问题的响应,且/或其中所述控制节点处的所述网格化软件组件经配置以通过聚合及并置在工作者节点数据处理器处执行的所述分析的所述结果来汇编所述结果,其中多个所述网格计算节点处的所述网格化软件组件在每一节点处在虚拟机器环境中实施,且/或其中多个所述网格计算节点处的所述数据库管理软件在每一节点处在虚拟机器环境中实施,其中所述多个所述网格计算节点处的所述网格化软件组件在每一节点处在单独虚拟机器环境中实施,或其中优选地所述多个所述网格计算节点处的所述网格化软件组件在每一节点处在与所述数据库管理软件共用的虚拟机器环境中实施。
10.一种在网格计算系统中用于对存储于分布式数据库系统中的数据执行分析计算的方法,所述方法包括:
提供包含一控制节点及多个工作者节点的多个网格计算节点,每一节点包括:处理器,其用于执行数据库管理软件DBMS且用于执行网格化软件组件;本地缓冲存储器,其可由所述网格化软件组件存取;以及本地存储媒体,其可由所述DBMS存取以存储数据;
调用所述控制节点处的所述DBMS以致使多个所述工作者节点处的所述DBMS使所述数据的一部分可用于在其节点本地的所述网格化软件组件;
指示所述多个工作者节点处的所述网格化软件组件对所接收的数据执行分析计算且将所述数据分析的结果发送到所述控制节点处的所述网格化软件组件;以及
汇编由所述多个工作者节点处的所述网格化软件组件执行的所述数据分析的所述结果。
11.根据权利要求10所述的方法,其中多个工作者节点处的所述DBMS经配置以通过将所述数据保存到可由所述DBMS及所述多个工作者节点的本地网格化软件组件两者在本地存取的共享存储器及/或通过经由套接字连接通信来使所述数据可用于所述网格化软件组件,其中优选地所述多个工作者节点处的所述网格化软件组件经配置以使用共用端口地址打开套接字连接及/或所述控制节点处的所述网格化软件组件经配置以将所述共用端口地址提供到在其节点本地的所述DBMS,且所述控制节点处的所述DBMS经配置以将所述共用端口地址提供到所述多个工作者节点处的所述DBMS。
12.根据权利要求10或15所述的方法,其中所述多个工作者节点处的所述网格化软件组件经配置以存储所述所接收的数据且使用其本地缓冲存储器执行所述数据分析,其中所述多个工作者节点经配置以将来自所述数据分析的所述结果传输到其本地DBMS以供存储于分布式数据库中,其中经由网络接收从所述多个工作者节点网格化软件组件接收的所述分析的所述结果,其中尤其是多个所述工作者节点网格化软件组件经由所述网络使用MPI来传输其结果,且/或其中所述方法进一步包括将由所述控制节点网格化软件组件汇编的所述结果存储于所述分布式数据库系统中及/或将由所述控制节点网格化软件组件汇编的所述结果传输到客户端节点处的网格化软件组件。
13.根据权利要求10到12中任一权利要求所述的方法,其中在检测到所述工作者节点中的一者处的失效之后,即刻:
所述控制节点处的所述DBMS经配置以致使其余工作者节点中的一者处的所述DBMS将所述数据的先前分布到所述失效节点处的所述网格化软件组件的所述部分重新分布到在所述节点本地的所述网格化软件组件;
接收所述经重新分布数据的所述网格化软件组件经配置以对所述经重新分布数据执行分析计算且将结果提供到所述控制节点处的所述网格化软件组件;且
所述控制节点处的所述网格化软件组件经配置以汇编从所述其余工作者节点处的所述网格化软件组件接收到的所述结果。
14.根据权利要求10到13中任一权利要求所述的方法,其进一步包括提供客户端节点处的网格化软件组件的步骤,其中:
所述客户端节点处的所述网格化软件组件以第一执行模式及第二执行模式进行配置;
在所述第一执行模式中的所述客户端节点网格化软件组件经配置以执行本地数据分析以将结果提供到客户端软件;
在所述第二执行模式中的所述客户端节点网格化软件组件经配置以调用所述控制节点处的所述网格化软件组件以在基于网格的计算环境中执行所述数据分析;且
所述客户端节点处的所述网格化软件组件经配置以基于由所述客户端软件提供的指示而在所述第一模式或所述第二模式中操作,其中优选地所述客户端节点网格化软件组件经配置以从客户端应用程序接收特定问题且通过将由所述控制节点网格化软件组件汇编的所述结果提供到所述客户端应用程序来提供对所述特定问题的响应。
15.根据权利要求10到14中任一权利要求所述的方法,其进一步包括提供客户端节点网格化软件组件,所述客户端节点网格化软件组件经配置以从客户端应用程序接收特定问题且通过将由所述控制节点网格化软件组件汇编的结果提供到所述客户端应用程序来提供对所述特定问题的响应,且/或其中所述汇编步骤包括聚合及并置在工作者节点数据处理器处执行的所述分析的所述结果。
CN201180054214.1A 2010-11-15 2011-11-08 与分布式数据库架构并靠的网格计算系统 Active CN103201740B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/946,079 2010-11-15
US12/946,079 US8271537B2 (en) 2010-11-15 2010-11-15 Grid computing system alongside a distributed database architecture
PCT/US2011/059700 WO2012067890A1 (en) 2010-11-15 2011-11-08 Grid computing system alongside a distributed database architecture

Publications (2)

Publication Number Publication Date
CN103201740A true CN103201740A (zh) 2013-07-10
CN103201740B CN103201740B (zh) 2017-06-13

Family

ID=45002144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180054214.1A Active CN103201740B (zh) 2010-11-15 2011-11-08 与分布式数据库架构并靠的网格计算系统

Country Status (6)

Country Link
US (1) US8271537B2 (zh)
EP (1) EP2641191B1 (zh)
CN (1) CN103201740B (zh)
CA (1) CA2816716C (zh)
ES (1) ES2665781T3 (zh)
WO (1) WO2012067890A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106293960A (zh) * 2016-07-27 2017-01-04 福建富士通信息软件有限公司 一种基于strom和内存网格实现数据转换的方法及系统
CN111314125A (zh) * 2014-07-01 2020-06-19 萨思学会有限公司 用于容错通信的系统和方法
US11307943B2 (en) 2017-03-21 2022-04-19 Huawei Technologies Co., Ltd. Disaster recovery deployment method, apparatus, and system

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8874961B2 (en) * 2010-03-22 2014-10-28 Infosys Limited Method and system for automatic failover of distributed query processing using distributed shared memory
US9529846B2 (en) * 2010-12-16 2016-12-27 Sybase, Inc. Data grid advisor
US11216454B1 (en) 2011-12-19 2022-01-04 Actian Sub Iii, Inc. User defined functions for database query languages based on call-back functions
US9251209B2 (en) 2012-03-15 2016-02-02 International Business Machines Corporation Autonomic caching for in memory data grid query processing
US9251181B2 (en) 2012-06-18 2016-02-02 International Business Machines Corporation Dynamic map template discovery and map creation
CN102810115B (zh) * 2012-06-19 2014-10-22 公安部交通管理科学研究所 一种多层分布式文档管理体系的实现方法
CN103678425B (zh) * 2012-09-26 2019-03-15 Sap欧洲公司 多系统的集成分析
US9087085B2 (en) 2012-12-10 2015-07-21 International Business Machines Corporation Pre-assimilation values and post-assimilation values in hardware instance identifiers
US9665403B2 (en) 2013-03-15 2017-05-30 Miosoft Corporation Executing algorithms in parallel
US9613112B2 (en) 2013-03-15 2017-04-04 Miosoft Corporation Structuring data
US10192166B2 (en) 2013-04-27 2019-01-29 Sas Institute Inc. Computation of receiver operating characteristic curves
US9992090B2 (en) 2014-01-08 2018-06-05 Bank Of America Corporation Data metrics analytics
US9547834B2 (en) 2014-01-08 2017-01-17 Bank Of America Corporation Transaction performance monitoring
US9356986B2 (en) 2014-08-08 2016-05-31 Sas Institute Inc. Distributed stream processing
US9830373B2 (en) 2015-01-06 2017-11-28 Entit Software Llc Data transfer requests with data transfer policies
CN108183971B (zh) * 2015-03-13 2021-08-10 聚好看科技股份有限公司 一种分布式系统中的节点选举方法
US9990367B2 (en) 2015-07-27 2018-06-05 Sas Institute Inc. Distributed data set encryption and decryption
US9811524B2 (en) 2015-07-27 2017-11-07 Sas Institute Inc. Distributed data set storage and retrieval
US10489225B2 (en) 2017-08-10 2019-11-26 Bank Of America Corporation Automatic resource dependency tracking and structure for maintenance of resource fault propagation
US10771584B2 (en) * 2017-11-30 2020-09-08 Cisco Technology, Inc. Provisioning using pre-fetched data in serverless computing environments
US11914613B2 (en) * 2021-03-31 2024-02-27 Microsoft Technology Licensing, Llc Data visibility for nested transactions in distributed systems
CN113656520B (zh) * 2021-08-10 2022-10-28 广州市规划和自然资源自动化中心(广州市基础地理信息中心) 空间分析方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1946037A (zh) * 2005-10-04 2007-04-11 国际商业机器公司 管理网格计算环境的方法和系统
US20070282794A1 (en) * 2004-06-24 2007-12-06 International Business Machines Corporation Dynamically Selecting Alternative Query Access Plans
CN101256516A (zh) * 2007-02-28 2008-09-03 Sap股份公司 网格环境中的数据分布和任务实例
CN101322098A (zh) * 2005-11-29 2008-12-10 格丽顿株式会社 用于试验服务器应用程序性能的网格计算系统
US20090100180A1 (en) * 2003-08-14 2009-04-16 Oracle International Corporation Incremental Run-Time Session Balancing In A Multi-Node System

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6662174B2 (en) * 2000-04-17 2003-12-09 Brio Software, Inc. Analytical server including metrics engine
US7080090B2 (en) * 2000-04-27 2006-07-18 Hyperion Solutions Corporation Allocation measures and metric calculations in star schema multi-dimensional data warehouse
US6879984B2 (en) * 2000-10-05 2005-04-12 Clareos, Inc. Analytical database system that models data to speed up and simplify data analysis
EP1461719A4 (en) 2001-12-04 2007-11-07 Powerllel Corp SYSTEM, METHOD AND ARCHITECTURE FOR PARALLEL PROCESSING
US8032635B2 (en) 2005-07-29 2011-10-04 Sap Ag Grid processing in a trading network
US20070118839A1 (en) 2005-10-24 2007-05-24 Viktors Berstis Method and apparatus for grid project modeling language
KR100748187B1 (ko) 2007-06-01 2007-08-10 인하대학교 산학협력단 노드 가용도 예측 기반의 그리드 네트워크 혼잡 제어 장치및 방법
US8117606B2 (en) * 2007-06-04 2012-02-14 Infosys Technologies Ltd. System and method for application migration in a grid computing environment
EP2165260A1 (en) 2008-05-19 2010-03-24 The Mathworks, Inc. Parallel processing of distributed arrays

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090100180A1 (en) * 2003-08-14 2009-04-16 Oracle International Corporation Incremental Run-Time Session Balancing In A Multi-Node System
US20070282794A1 (en) * 2004-06-24 2007-12-06 International Business Machines Corporation Dynamically Selecting Alternative Query Access Plans
CN1946037A (zh) * 2005-10-04 2007-04-11 国际商业机器公司 管理网格计算环境的方法和系统
CN101322098A (zh) * 2005-11-29 2008-12-10 格丽顿株式会社 用于试验服务器应用程序性能的网格计算系统
CN101256516A (zh) * 2007-02-28 2008-09-03 Sap股份公司 网格环境中的数据分布和任务实例

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111314125A (zh) * 2014-07-01 2020-06-19 萨思学会有限公司 用于容错通信的系统和方法
CN106293960A (zh) * 2016-07-27 2017-01-04 福建富士通信息软件有限公司 一种基于strom和内存网格实现数据转换的方法及系统
CN106293960B (zh) * 2016-07-27 2019-10-25 中电福富信息科技有限公司 一种基于strom和内存网格实现数据转换的方法及系统
US11307943B2 (en) 2017-03-21 2022-04-19 Huawei Technologies Co., Ltd. Disaster recovery deployment method, apparatus, and system

Also Published As

Publication number Publication date
CA2816716A1 (en) 2012-05-24
US20120124100A1 (en) 2012-05-17
US8271537B2 (en) 2012-09-18
CA2816716C (en) 2015-05-26
EP2641191B1 (en) 2018-02-28
ES2665781T3 (es) 2018-04-27
WO2012067890A1 (en) 2012-05-24
CN103201740B (zh) 2017-06-13
EP2641191A1 (en) 2013-09-25

Similar Documents

Publication Publication Date Title
CN103201740A (zh) 与分布式数据库架构并靠的网格计算系统
CN111480154B (zh) 批量数据摄取的方法、系统和介质
CN106209947B (zh) 一种去中心化自治组织的数据处理方法及系统
CN102130950B (zh) 基于Hadoop集群的分布式监控方法
EP2752779B1 (en) System and method for distributed database query engines
US8255409B2 (en) Systems and methods for generating a change log for files in a managed network
US20130097130A1 (en) Method and system for resolving data inconsistency
CN103034735B (zh) 一种大数据分布式文件导出方法
CN106991035A (zh) 一种基于微服务架构的主机监控系统
CN110069572A (zh) 基于大数据平台的hive任务调度方法、装置、设备及存储介质
US20150244642A1 (en) Method and Apparatus For Supporting Scalable Multi-Modal Dialog Application Sessions
US10462261B2 (en) System and method for configuring a data access system
CN104572122A (zh) 一种软件应用数据的生成装置及方法
CN102473122A (zh) 容错的批量处理
US10038753B2 (en) Network-independent programming model for online processing in distributed systems
CN111970236B (zh) 跨网数据传输方法和装置
CN106970818A (zh) 一种用于Linux平台的软件持续集成方法及装置
CN106569896A (zh) 一种数据分发及并行处理方法和系统
WO2019118867A1 (en) Method, apparatus and computer program product for improving data indexing in a group-based communication platform
CN107908651A (zh) 一种分布式集群的审计方法
CN106021593A (zh) 一种第一数据库与第二数据库接管过程中的复制处理方法
CN106021566A (zh) 一种提高单台数据库并发处理能力的方法、装置及系统
CN105069029B (zh) 一种实时etl系统及方法
CN100485640C (zh) 用于企业软件系统的高速缓存
Youssef et al. New framework for improving big data analysis using mobile agent

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1182465

Country of ref document: HK

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1182465

Country of ref document: HK