CN104769551B - 分布式数据处理系统和分布式数据处理方法 - Google Patents

分布式数据处理系统和分布式数据处理方法 Download PDF

Info

Publication number
CN104769551B
CN104769551B CN201380057593.9A CN201380057593A CN104769551B CN 104769551 B CN104769551 B CN 104769551B CN 201380057593 A CN201380057593 A CN 201380057593A CN 104769551 B CN104769551 B CN 104769551B
Authority
CN
China
Prior art keywords
data
type
processing
types
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201380057593.9A
Other languages
English (en)
Other versions
CN104769551A (zh
Inventor
吉田慎郎
吉田慎一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN104769551A publication Critical patent/CN104769551A/zh
Application granted granted Critical
Publication of CN104769551B publication Critical patent/CN104769551B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明对多种数据的各个对有效地执行分布式处理。分布式数据处理系统(100)对N种类型的数据中的各个对执行预定算术处理(N是大于或等于2的自然数)。分布式数据处理系统(100)包括管理单元(111)和多个处理单元(121)。管理单元(111)将N种类型的数据内的第一种至第N‑1种类型中的每个指派给多个处理单元(121)中的任何一个。多个处理单元(121)中的每一个对包括由管理单元(111)指派的第i数据(i是1和N‑1之间的自然数,包括1和N‑1)和第i+1至第N数据中的每一个的对执行预定算术处理。

Description

分布式数据处理系统和分布式数据处理方法
技术领域
本发明涉及分布式数据处理系统和分布式数据处理方法,并且具体地,涉及对多种类型的数据中的各个对执行处理的分布式数据处理系统和分布式数据处理方法。
背景技术
PTL1描述了操作管理系统的一个示例,该操作管理系统使用关于系统性能的时序信息来对系统进行建模,并且使用所生成的模型来检测系统中的故障。
PTL1中描述的操作管理系统基于系统的多个度量的测量值来确定多个度量中的各个对的关联函数(correlation function),以生成该系统的关联模型。然后,操作管理系统使用所生成的关联模型来检测关联的破坏(关联破坏),并且基于关联破坏来确定故障的原因。以该方式基于关联破坏分析故障的原因的技术被称为不变关系分析。
在不变关系分析中,针对多个度量中的所有对计算关联函数。计算其关联函数的对的数目与度量的数目的平方成正比。因此,如果系统的规模(度量的数目)大,则计算其关联函数的对的数目变得巨大,这使得难以在预定时间段中生成关联模型。
对如上所述的大量数据执行计算的一种方式是分布式处理。在已知的典型分布式处理技术中的是例如NPL 1中公开的Hadoop。在Hadoop中,作为分布式文件系统的HDFS(Hadoop分布式文件系统)将待处理的数据分布到多个节点。然后,由MapReduce对多个节点并行地执行处理。
注意,在PTL 2中公开了相关技术,该技术是用于基于节点之间的通信延迟来确定在诸如Hadoop的分布式处理系统中对其执行处理的节点的方法。
[引用列表]
[专利文献]
[PTL1]日本专利公开No.4872944
[PTL2]日本专利申请特许公开No.2010-97489
[非专利文献]
[NPL1]阿帕奇软件基金会,“Hadoop”,[在线],检索于2012年9月27日,互联网<URL:http://hadoop.apache.org/index.html>
发明内容
[技术问题]
当使用Hadoop执行上述不变关系分析时,例如,多个度量中的各个对被分配给节点中的任何一个,并且各个节点针对所分配的对计算关联函数。在该情况下,每当分配对时,每个节点需要从数据被分布到的节点得到与所分配的对相关的度量数据。因此,在节点之间出现许多数据传输。如从上文明白的,Hadoop的问题在于,无法有效地执行对多种类型的数据中的各个对的分布式处理。
本发明的目的是解决该问题,并且提供能够有效地对多种类型的数据中的对执行分布式处理的分布式数据处理系统和分布式数据处理方法。
[对问题的解决方案]
根据本发明的示例性方面的分布式数据处理系统,该分布式数据处理系统对N种类型的数据中的各个对执行预定算术处理,其中,N是大于或等于2的自然数,该分布式数据处理系统包括:管理装置,用于将N种类型中的第一种至第(N-1)种类型中的每一个分配给多个处理装置中的任何一个;以及多个处理装置,用于对第i种类型的数据和第(i+1)种至第N种类型的数据中的每一个的对执行预定算术处理,其中,i是大于或等于1并且小于或等于N-1的自然数,第i种类型是由所述管理装置分配的。
根据本发明的示例性方面的分布式数据处理系统中的管理设备,该分布式数据处理系统对N种类型的数据中的各个对执行预定算术处理,其中,N是大于或等于2的自然数,该管理设备包括:管理装置,用于将N种类型中的第一种至第(N-1)种类型中的每一个分配给多个处理设备中的任何一个,该多个处理设备中的每一个对第(i)种类型的数据和第(i+1)种至第N种类型的数据中的每一个的对执行预定算术处理,其中,i是大于或等于1并且小于或等于N-1的自然数,第(i)种类型是由管理装置分配的。
根据本发明的示例性方面的分布式数据处理系统中的处理设备,该分布式数据处理系统对N种类型的数据中的各个对执行预定算术处理,其中,N是大于或等于2的自然数,该处理设备包括:处理装置,用于对第(i)种类型的数据和第(i+1)种至第N种类型的数据中的每一个的对执行预定算术处理,其中,i是大于或等于1并且小于或等于N-1的自然数,第(i)种类型是由管理设备分配的,该管理设备将N种类型中的第一种至第(N-1)种类型中的每一个分配给多个处理设备中的任何一个。
根据本发明的示例性方面的分布式数据处理方法,该分布式数据处理方法用于对N种类型的数据中的各个对执行预定算术处理,其中,N是大于或等于2的自然数,该分布式数据处理方法包括:在管理装置中,将N种类型中的第一种至第(N-1)种类型中的每一个分配给多个处理装置中的任何一个;以及在多个处理装置中,对第(i)种类型的数据和第(i+1)种至第N种类型的数据中的每一个的对执行预定算术处理,其中,i是大于或等于1并且小于或等于N-1的自然数,第(i)种类型是由所述管理装置分配的。
一种记录有用于分布式数据处理系统中的管理设备的程序的第一计算机可读存储介质,该分布式数据处理系统对N种类型的数据中的各个对执行预定算术处理,其中,N是大于或等于2的自然数,使得计算机执行包括下述的方法:将N种类型中的第一种至第(N-1)种类型中的每一个分配给多个处理装置中的任何一个,该多个处理装置中的每一个对第(i)种类型的数据和第(i+1)种至第N种类型的数据中的每一个的对执行预定算术处理,其中,i是大于或等于1并且小于或等于N-1的自然数,第(i)种类型是由所述管理设备分配的。
一种记录有用于分布式数据处理系统中的处理设备的程序的第二计算机可读存储介质,该分布式数据处理系统对N种类型的数据中的各个对执行预定算术处理,其中,N是大于或等于2的自然数,使得计算机执行包括下述的方法:对第(i)种类型的数据和第(i+1)种至第N种类型的数据中的每一个的对执行预定算术处理,其中,i是大于或等于1并且小于或等于N-1的自然数,第(i)种类型是由管理设备分配的,该管理设备将N种类型中的第一种至第(N-1)种类型中的每一个分配给多个处理设备中的任何一个。
[本发明的有益效果]
本发明的有益效果是可以有效地执行对多种类型的数据中的对的分布式处理。
附图说明
图1是图示本发明的第一示例性实施例的特性配置的框图。
图2是图示本发明的第一示例性实施例中的操作管理系统500的配置的框图。
图3是图示本发明的第一示例性实施例中的管理单元111所执行的处理的流程图。
图4是图示本发明的第一示例性实施例中的处理单元121所执行的处理的流程图。
图5是图示本发明的第一示例性实施例中的处理数据113的示例的示图。
图6是图示本发明的第一示例性实施例中的临时存储单元122中所存储的数据的示例的示图。
图7是图示本发明的第一示例性实施例中的处理结果133的示例的示图。
图8是图示本发明的第二示例性实施例中的操作管理系统500的配置的框图。
图9是图示本发明的第二示例性实施例中的处理设备控制单元114所执行的处理的流程图。
图10是图示本发明的第二示例性实施例中的操作状态信息116的示例的示图。
具体实施方式
本文中,将用分布式数据处理系统100在对系统执行不变量分析的操作管理系统500中生成关联模型的示例描述示例性实施例。
(第一示例性实施例)
将描述本发明的第一示例性实施例。
首先,将描述第一示例性实施例的配置。图2是图示本发明的第一示例性实施例中的操作管理系统500的配置的框图。
操作管理系统500基于从被分析系统600收集的性能信息来生成被分析系统600的关联模型,并且使用所生成的关联模型来检测被分析系统600中的故障和异常。
被分析系统600包括诸如WEB服务器、应用服务器(AP服务器)或数据库(DB服务器)的执行服务处理的一个或多个受监视设备。受监视设备以规律间隔(预定性能信息收集间隔)测量多个项的性能值的测量数据(测量值),并且向操作管理系统500发送测量数据。所使用的性能值项的示例包括计算机资源使用率或使用量,诸如CPU(中央处理单元)使用率、存储器使用率、磁盘访问频率和网络使用率。
受监视设备和性能值项的集合被称为度量(性能类型或简称为类型),并且相同时刻测量的N种类型的度量(N是满足2≤N的自然数)的值的集合被称为性能信息。此外,度量等同于PTL 1中的要素。
操作管理系统500包括分布式数据处理系统(关联模型生成系统)100、信息收集设备200、关联破坏检测设备300和故障分析设备400。
信息收集设备200以预定性能信息收集间隔从被分析系统600的受监视设备收集性能信息,并且将性能信息发送到分布式数据处理系统100的管理设备110。
分布式数据处理系统100基于性能信息来生成被分析系统600的关联模型。关联模型包括用于N种类型的度量中的对的关联函数。关联函数是用于从一对度量中的一个的值的时序预测该对度量中的另一个的值的时序的函数,并且表示该对度量之间的关联性。
分布式数据处理系统100包括管理设备110、多个处理设备120(120_1、120_2、…)和处理结果收集设备130。
管理设备110包括管理单元111(或主机)和数据存储单元112。
数据存储单元112将从信息收集设备200接收的性能信息的时序存储为处理数据113。
图5是图示本发明的第一示例性实施例中的处理数据113的示例的示图。在图5中的示例中,性能信息包括N种类型的度量(m1、m2、…、mN)的测量值(数据)。
响应于来自处理设备120中的任何一个的处理单元121的请求,管理单元111向处理设备120分配N种类型的度量中的第一种至第(N-1)种类型中的每一个。
每个处理设备120包括处理单元121(或工作器:worker)和临时存储单元122。
处理单元121计算由管理设备110分配的度量和另一度量的对的关联函数。如果分配了第i(1≤i≤N-1)种,则处理单元121计算第i种度量(mi)和第i+1种至第N种度量(mj,1+1≤j≤N)的各个对的关联函数。处理单元121从管理设备110获取度量的各个对的测量值,并且如PTL1中的操作管理设备一样执行系统识别处理以确定关联函数的系数。处理单元121将从管理设备110获取的度量的测量值存储在临时存储单元122中。
临时存储单元122临时存储(缓存)从数据存储单元112获取的度量数据。
图6是图示本发明的第一示例性实施例中的临时存储单元122中存储的数据的示例的示图。如图6中所示,临时存储单元122可以被划分成两个部分:存储第i种度量(mi)的数据的临时存储单元122a(第一临时存储单元)以及存储第i+1种至第N种度量(mj,i+1≤j≤N)的数据的临时存储单元122b(第二临时存储单元)。临时存储单元122b可以存储第i+1种至第N种度量(mj,i+1≤j≤N)中的预定数目的度量的数据。在该情况下,临时存储单元122b可以例如以FIFO(先进先出)模式存储度量的数据。替代地,临时存储单元122b可以以除了FIFO的模式(其中,留下尽可能多的具有较大i的度量)存储度量的数据。
处理结果收集设备130包括处理结果收集单元131和处理结果存储单元132。
处理结果收集单元131获取在处理设备120上计算的关联函数,并且将关联函数作为处理结果133存储在处理结果存储单元132中。
处理结果存储单元132存储处理结果133。处理结果133表示被分析系统600的关联模型。
图7是图示本发明的第一示例性实施例中的处理结果133的示例的示图。在图7中,f(i,j)表示用于输入度量mi和输出度量mj对的关联函数。例如,如果关联函数f(i,j)是mj=α×mi+β的形式,则针对mi和mj对确定系数α和β。注意,可以使用任何其他函数表达式作为关联函数,利用该函数表达式可以从一对度量中的一个的值的时序预测另一个度量的值的时序。
如在PTL1中,关联破坏检测设备300使用新输入的性能信息来检测关联模型中所包括的关联的关联破坏。
如在PTL1中,故障分析设备400基于关联破坏的检测的结果来估计故障的原因。
注意,管理设备110、处理设备120、处理结果收集设备130、信息收集设备200、关联破坏检测设备300和故障分析设备400中的每一个可以是计算机,该计算机包括CPU和存储程序的存储介质,并且在基于程序的控制下进行操作。替代地,管理设备110、处理设备120、处理结果收集设备130、信息收集设备200、关联破坏检测设备300和故障分析设备400中的每一个可以是在计算机上构建的虚拟计算机(虚拟机)。替代地,管理设备110、处理设备120、处理结果收集设备130、信息收集设备200、关联破坏检测设备300和故障分析设备400中的一些可构成一个设备。
以下,将描述第一示例性实施例的操作。
图3是图示本发明的第一示例性实施例中的管理单元111所执行的处理的流程图。
这里假设,信息收集设备200已经从被分析系统600收集到性能信息,并且结果,与如图5中所示的N种类型的度量相关的处理数据113已经被存储在管理设备110的数据存储单元112中。
首先,管理设备110的管理单元111将度量号初始化为1(步骤S101)。
管理单元111等待来自处理设备120中的任何一个的处理单元121的请求(步骤S102)。
如果来自处理单元121的请求是对度量号(步骤S103的“度量号”)的请求并且度量号小于N,则管理单元111将度量号发送到处理单元121(步骤S104)。
管理单元111对度量号加1(步骤S105)。
如果来自处理单元121的请求是度量的数据(步骤S103的“数据”),则管理单元111从数据存储单元112获取与所请求的度量号相关联的度量的数据,并且将数据发送到处理单元121(步骤S106)。
管理单元111重复从步骤S102至步骤S106的处理。
图4是图示本发明的第一示例性实施例中的处理单元121所执行的处理的流程图。
首先,每个处理设备120的处理单元121从管理单元111请求度量号i(步骤S201),并且获取度量号i。
处理单元121确定在临时存储单元122b中是否存在度量mi的数据(步骤S202)。
如果度量mi的数据在临时存储单元122b中(步骤S202的是),则处理单元121从临时存储单元122b获取度量mi的数据,并且将数据存储在临时存储单元122a中(步骤S203)。
如果度量mi的数据不在临时存储单元122b中(步骤S202的否),则处理单元121从管理单元111请求度量mi的数据(步骤S204),并且获取度量mi的数据。
处理单元121将度量mi的数据存储在临时存储单元122a中(步骤S205)。
然后,处理单元121将度量号j初始化为i+1(步骤S206)。
处理单元121确定在临时存储单元122b中是否存在度量mj的数据(步骤S207)。
如果临时存储单元122b中不存在度量mj的数据(步骤S207的否),则处理单元121从管理单元111请求度量mj的数据(步骤S208),并且获取度量mj的数据。
处理单元121将度量mj的数据存储在临时存储单元122b中(步骤S209)。例如,以FIFO模式将度量的数据存储在临时存储单元122b中。
处理单元121计算这对度量mi和mj的关联函数f(i,j)(步骤S210)。如果关联函数f(i,j)的输入和输出是不可交换的(即,如果f(i,j)不等于f(j,i)),则处理单元121还计算关联函数f(j,i)。
处理单元121将所计算的关联函数发送到处理结果收集设备130的处理结果收集单元131(步骤S211)。处理结果收集单元131将从处理设备120获取的关联函数设置在处理结果存储单元132中的处理结果133中。
处理单元121使度量号j加1(步骤S212),并且如果j小于或等于N(步骤S213中的是),则重复从步骤S207至步骤S212的处理(步骤S213)。
然后,处理单元121重复从步骤S201至步骤S213的处理。
例如,管理单元111响应于来自处理单元121的请求,将度量号1至N-1按顺序指派给处理单元121。
处理单元121_1从管理单元111获取度量号i=1。处理单元121_1从管理单元111获取度量m1的数据,并且将数据存储在临时存储单元122a中。然后,处理单元121_1从管理单元111获取度量m2的数据,并且将数据存储在临时存储单元122b中。处理单元121_1计算该对度量(m1,m2)的关联函数f(1,2)和关联函数f(2,1)。处理单元121_1进一步从管理单元111获取度量m3的数据,并且将数据存储在临时存储单元122b中。处理单元121_1计算该对度量(m1,m3)的关联函数f(1,3)和关联函数f(3,1)。以该方式,处理单元121_1计算度量对(m1,m2)、(m1,m3)、(m1,m4)、…、(m1,mN)的关联函数f(1,2)、f(1,3)、f(1,4)、…、f(1,N)和关联函数f(2,1)、f(3,1)、f(4,1)、…、f(N,1)(图7中的处理结果133中的一组关联函数134_1和一组关联函数134_2)。
处理单元121_2从管理单元111获取度量号i=2。处理单元121_2从管理单元111获取度量m2的数据,并且将数据存储在临时存储单元122a中。然后,处理单元121_2从管理单元111获取度量m3的数据,并且将数据存储在临时存储单元122b中。处理单元121_2计算该对度量(m2,m3)的关联函数f(2,3)和关联函数f(3,2)。以该方式,处理单元121_2计算度量对(m2,m3)、(m2,m4)、…、(m2,mN)的关联函数f(2,3)、f(2,4)、…、f(2,N)和关联函数f(3,2)、f(4,2)、…、f(N,2)(图7中的处理结果133中的一组关联函数135_1和一组关联函数135_2)。
然后,处理单元121_1从管理单元111获取度量号k(其中,k满足先前获取的i<k≤N-1关系)。处理单元121_1计算度量对(mk,mk+1)、(mk,mk+2)、…、(mk,mN)的关联函数f(k,k+1)、f(k,k+2)、…、f(k,N)和关联函数f(k+1,k)、f(k+2,k)、…、f(N,k)。如果在临时存储器122b中存在度量mk的数据,则处理单元121_1从临时存储单元122b获取度量mk的数据,将数据存储在临时存储器122a中并且使用该数据。如果在临时存储器122b中存在度量mk+1至mN的数据,则处理单元121_1使用这些条数据。
以该方式,多个处理单元121计算N种类型的度量中的所有对的关联函数,并且如图7中给出的处理结果133(关联模型)被存储在处理结果存储单元132中。
随后,以与PTL 1中相同的方式,使用处理结果存储单元132中存储的关联模型,来执行由关联破坏检测设备300对关联破坏的检测以及由故障分析设备400对故障的原因的估计。
这完成了本发明的第一示例性实施例的操作。
接下来,将描述本发明的第一示例性实施例的特性配置。图1是图示本发明的第一示例性实施例的特性配置的框图。
分布式数据处理系统100对N种类型的数据中的各个对执行预定算术处理,其中,N是大于或等于2的自然数。分布式数据处理系统100包括管理单元111和多个处理单元121。管理单元111向多个处理单元121中的任何一个分配N种类型中的第一种至第N-1种类型中的每一个。多个处理单元121中的每一个对第i种类型的数据和第i+1种至第N种类型的数据中的每一个的对执行预定算术处理,其中,i是大于或等于1且小于或等于N-1的自然数,由管理单元分配第i种类型。
以下,将描述本发明的第一示例性实施例的有益效果。
根据本发明的第一示例性实施例,可以有效地执行对多种类型的数据中的对的分布式处理。这是因为,管理单元111将N种类型的数据当中的第一种至第N-1种类型中的每一个分配给多个处理单元121中的任何一个,并且多个处理单元121中的每一个对管理单元111分配的第i种类型的数据和第i+1种至第N种类型的数据中的每一个的对执行预定算术处理。
例如,如果每当分配这样的对时处理单元121中的每一个获取与该对相关的数据,则数据传输的次数将是(2×(对的数目))=(2N(N-1)/2)。相比之下,根据本发明的第一示例性实施例,数据传输的数目减少至((N-1)+(对的数目))=((N+2)(N-1)/2)。
此外,数据传输的次数被进一步减少,因为管理单元111按顺序分配N种类型的数据中的第一种至第N-1种,所以每个处理单元121将第i+1种至第N种类型的数据存储在临时存储单元122b中,并且下一次分配给处理单元121的第k种类型的数据(其中,k满足先前获取的i<k≤N-1的关系)以及第k+1种至第N种类型的数据被存储在临时存储单元122b中。
如上所述的数据传输的数目的减少减少了管理设备110、处理设备120和处理结果收集设备130的I/O(输入/输出)上的负荷。
(第二示例性实施例)
接下来,将描述本发明的第二示例性实施例。
在操作管理系统500中,存在被分析系统600的关联模型随时间变化的情形。在这种情况下,需要在关联模型变化之前执行关联模型的生成以及使用关联模型进行分析;因此,需要在短时间内完成关联模型的生成。在本发明的第二示例性实施例中,处理单元121被动态添加,使得可以在处理完成时间内完成对N种类型的度量当中的所有对的关联函数的计算。
首先,将描述本发明的第二示例性实施例的配置。图8是图示本发明的第二示例性实施例中的操作管理系统500的配置的框图。
参考图8,分布式数据处理系统100包括活动处理设备120(120_1、120_2、…)和不活动处理设备120(120_4、120_5、…)。活动处理设备120执行从步骤S201至步骤S213的处理(图4)以计算关联函数。管理设备110进一步包括处理设备控制单元114(或控制单元)和操作状态存储单元115。
操作状态存储单元115存储指示处理设备120是活动的还是不活动的操作状态信息116。
图10是图示本发明的第二示例性实施例中的操作状态信息116的示例的示图。在图10中的示例中,操作状态信息116包括处理设备120的标识符和处理设备120的操作状态(活动还是不活动的指示)。
处理设备控制单元114计算由活动的处理设备120对N种类型的度量当中的所有对的关联函数的计算所需要的预测处理时间,并且基于预测处理时间来激活不活动处理设备120(添加处理设备120)。
以下,将描述本发明的第二示例性实施例的操作。
图9是图示本发明的第二示例性实施例中的处理设备控制单元114所执行的处理的流程图。
这里假设,处理设备120_1至120_3是活动的,处理设备120_4至120_6是不活动的,并且在操作状态信息存储单元115中设定如图10中所示的操作状态信息116。还假设活动处理设备120_1至120_3正在计算关联函数。
在从来自处理单元121的第一度量号请求起(处理单元121开始计算关联函数)度过了预定时段之后,管理设备110的处理设备控制单元114计算N种类型的度量当中的所有对所需要的预测处理时间(步骤S301)。处理设备控制单元114基于例如度过的时间和处理结果133中已经计算其关联函数的对的数目,来计算所有对的预测处理时间。
如果所计算的预测处理时间超过处理完成时间(步骤S302的是),则处理设备控制单元114参考操作状态信息116来计算在处理完成时间内计算所有对的关联函数所需要的处理设备120的数目(步骤S303)。这里假设,由诸如系统管理员的人基于关联模型变化的时间或其他因素来预先设定处理完成时间。处理设备控制单元114基于上述度过的时间、已经计算其关联函数的对的数目以及从操作状态信息116获取的活动的处理设备120的数目,来计算在处理完成时间内计算所有对的关联函数所需要的处理设备120的数目。
处理设备控制单元114激活不活动处理设备120,使得活动处理设备120的数目变得等于所计算的数目(步骤S304)。处理设备控制单元114更新在操作状态信息116中与被激活的处理设备120相关的操作状态。
然后,除了已经活动的处理设备120,新激活的处理设备120执行从步骤S201至S213的处理,以计算关联函数。
例如,如果在度过的时间(1/2×T,其中,T是预定处理完成时间)中已经计算了这些对中三分之一的关联函数,则处理设备控制单元114将预测处理时间计算为3/2×T。由于需要在预定处理完成时间的剩余1/2×T中计算所有对的2/3的关联函数,所以处理设备控制单元114将所需要的处理设备120的数目计算为6。处理设备控制单元114激活不活动处理设备120_4至120_6。然后,除了处理设备120_1至120_3之外,处理设备120_4至120_6计算关联函数。
注意,处理设备控制单元114可以在步骤S303向管理员或其他人呈现所计算的预测处理时间,并且可以根据来自管理员或其他人的指令来激活不活动处理设备120。
此外,处理设备控制单元114可以基于每个处理设备120上的负荷来计算所需要的处理设备120的数目,并且可以相应地激活不活动处理设备120。
如果处理设备120是虚拟机,则处理设备控制单元114可以通过在计算机上部署新虚拟机来添加处理设备120。
以下,将描述本发明的第二示例性实施例的有益效果。
根据本发明的第二示例性实施例,可以在处理完成时间内完成对N种类型的度量当中的所有对的关联函数的计算。这是因为,如果预测处理时间大于处理完成时间,则处理设备控制单元114计算在处理完成时间内计算所有对的关联函数所需要的处理设备120的数目,并且添加处理设备120以加速关联函数计算处理。
此外,根据本发明的第二示例性实施例,可以容易地加速关联计算处理。这是因为,管理设备110和每个处理设备120进行的处理不取决于处理设备120的数目,并且因此,可以容易地添加处理设备120。
虽然已经参考本发明的示例性实施例特别示出和描述了本发明,但本发明不限于这些实施例。本领域的普通技术人员应该理解,可在不脱离由权利要求书限定的本发明的精神和范围的情况下,在其中进行各种形式和细节的变化。
例如,虽然利用关联函数被计算为多个处理设备120对多种类型的数据中的每对数据的分布处理的示例来描述本发明的示例性实施例,但是可以对多种类型的数据中的各个对执行任何其他算术处理来替代计算关联函数。
此外,虽然在本发明的示例性实施例中提供了单个管理设备110和单个处理结果收集设备130,但是可以使用多个管理设备110和多个处理结果收集设备130。在该情况下,由多个管理设备110以分布式方式执行对处理设备120的度量的分配以及度量数据的传输。由多个处理结果收集设备130以分布式方式执行从处理设备120的关联函数的收集。这使得即使存在许多处理设备120,或者管理设备110、处理设备120和处理结果收集设备130之间的通信或I/O带宽达到上限,也能够进行高效的分布式处理。
本申请基于并且要求2012年11月1日提交的日本专利申请No.2012-241993的优先权的权益,其公开的全文以引用方式并入本文。
[附图标记列表]
100 分布式数据处理系统
110 管理设备
111 管理单元
112 数据存储单元
113 处理数据
114 处理设备控制单元
115 操作状态存储单元
116 操作状态信息
120 处理设备
121 处理单元
122 临时存储单元
130 处理结果收集设备
131 处理结果收集单元
132 处理结果存储单元
133 处理结果
200 信息收集设备
300 关联破坏检测设备
400 故障分析设备
500 操作管理系统
600 被分析系统

Claims (16)

1.一种分布式数据处理系统,所述分布式数据处理系统对N种类型的数据中的各个对执行预定算术处理,其中,N是大于或等于2的自然数,所述分布式数据处理系统包括:
管理单元,所述管理单元将所述N种类型中的第一种类型至第(N-1)种类型中的每一个分配给多个处理单元中的任何一个;以及
所述多个处理单元,所述多个处理单元对第(i)种类型的数据和第(i+1)种类型至第(N)种类型的数据中的每一个的对执行所述预定算术处理,其中,i是大于或等于1且小于或等于N-1的自然数,所述第(i)种类型是由所述管理单元分配的,其中,
所述N种类型的数据是系统中的N种类型的度量的测量值;并且
所述多个处理单元中的每一个计算所述第(i)度量的测量值和第(i+1)度量至第(N)度量中的每一个的测量值的对的关联函数,所述第(i)度量是由所述管理单元分配的。
2.根据权利要求1所述的分布式数据处理系统,进一步包括存储所述N种类型的数据的数据存储单元,其中,
所述多个处理单元中的每一个从所述数据存储单元获取所述第(i)种类型的数据和所述第(i+1)种类型至第(N)种类型的数据,并且执行所述预定算术处理。
3.根据权利要求1所述的分布式数据处理系统,进一步包括用于所述多个处理单元中的每一个的第一临时存储单元,其中,
所述多个处理单元中的每一个将从所述数据存储单元获取的所述第(i)种类型的数据存储在所述第一临时存储单元中,并且使用所述第一临时存储单元中所存储的数据来对所述第(i)种类型的数据和所述第(i+1)种类型至第(N)种类型的数据中的每一个的对执行所述预定算术处理。
4.根据权利要求1所述的分布式数据处理系统,进一步包括用于所述多个处理单元中的每一个的第二临时存储单元,其中,
所述多个处理单元中的每一个将从所述数据存储单元获取的所述第(i+1)种类型至第(N)种类型的数据中的至少一些存储在所述第二临时存储单元中,并且当所述管理单元新分配第(k)种类型的数据时,使用所述第二临时存储单元中所存储的数据来对所述第(k)种类型的数据和第(k+1)种类型至第(N)种类型的数据中的每一个的对执行所述预定算术处理,其中,k是大于或等于1且小于或等于N-1的自然数。
5.根据权利要求1所述的分布式数据处理系统,其中,
所述管理单元将所述N种类型中的第一种类型至第(N-1)种类型按顺序分配给所述多个处理单元中的任何一个。
6.根据权利要求1所述的分布式数据处理系统,进一步包括控制单元,所述控制单元在所述多个处理单元正在执行所述预定算术处理时添加新的所述处理单元。
7.根据权利要求6所述的分布式数据处理系统,其中,
当所述多个处理单元对所述N种类型的数据中的所有对进行所述预定算术处理所需要的预测处理时间超过预定处理完成时间时,所述控制单元计算在所述预定处理完成时间内完成对所述所有对的所述预定算术处理所需要的所述处理单元的数目,并且添加所述处理单元,使得所述处理单元的数目变成等于所计算的数目。
8.一种分布式数据处理系统中的管理设备,所述分布式数据处理系统对N种类型的数据中的各个对执行预定算术处理,其中,N是大于或等于2的自然数,所述管理设备包括:
管理单元,所述管理单元将所述N种类型中的第一种类型至第(N-1)种类型中的每一个分配给多个处理设备中的任何一个,所述多个处理设备中的每一个对第(i)种类型的数据和第(i+1)种类型至第(N)种类型的数据中的每一个的对执行所述预定算术处理,其中,i是大于或等于1且小于或等于N-1的自然数,所述第(i)种类型是由所述管理设备分配的,其中,
所述N种类型的数据是系统中的N种类型的度量的测量值;并且
所述多个处理单元中的每一个计算所述第(i)度量的测量值和第(i+1)度量至第(N)度量中的每一个的测量值的对的关联函数,所述第(i)度量是由所述管理单元分配的。
9.一种分布式数据处理系统中的处理设备,所述分布式数据处理系统对N种类型的数据中的各个对执行预定算术处理,其中,N是大于或等于2的自然数,所述处理设备包括:
处理单元,所述处理单元对第(i)种类型的数据和第(i+1)种至第(N)种类型的数据中的每一个的对执行所述预定算术处理,其中,i是大于或等于1且小于或等于N-1的自然数,所述第(i)种类型是由管理设备分配的,所述管理设备将所述N种类型中的第一种类型至第(N-1)种类型中的每一个分配给多个处理设备中的任何一个,其中,
所述N种类型的数据是系统中的N种类型的度量的测量值;并且
所述多个处理单元中的每一个计算所述第(i)度量的测量值和第(i+1)度量至第(N)度量中的每一个的测量值的对的关联函数,所述第(i)度量是由所述管理单元分配的。
10.一种用于对N种类型的数据中的各个对执行预定算术处理的分布式数据处理方法,其中,N是大于或等于2的自然数,所述分布式数据处理方法包括:
在管理装置中,将所述N种类型中的第一种类型至第(N-1)种类型中的每一个分配给多个处理装置中的任何一个;以及
在所述多个处理装置中的每一个中,对第(i)种类型的数据和第(i+1)种类型至第(N)种类型的数据中的每一个的对执行所述预定算术处理,其中,i是大于或等于1且小于或等于N-1的自然数,所述第(i)种类型是由所述管理装置分配的,其中,
所述N种类型的数据是系统中的N种类型的度量的测量值;并且
所述多个处理单元中的每一个计算所述第(i)度量的测量值和第(i+1)度量至第(N)度量中的每一个的测量值的对的关联函数,所述第(i)度量是由所述管理单元分配的。
11.根据权利要求10所述的分布式数据处理方法,其中,
在所述多个处理装置中的每一个中,从存储所述N种类型的数据的所述数据存储装置获取所述第(i)种类型的数据和所述第(i+1)种类型至第(N)种类型的数据,并且执行所述预定算术处理。
12.根据权利要求10所述的分布式数据处理方法,其中,
在所述多个处理装置中的每一个中,针对所述多个处理装置中的每一个,将从所述数据存储装置获取的所述第(i)种类型的数据存储在第一临时存储装置中,并且使用所述第一临时存储装置中所存储的数据来对所述第(i)种类型的数据和第(i+1)种类型至第(N)种类型的数据中的每一个的对执行所述预定算术处理。
13.根据权利要求10所述的分布式数据处理方法,其中,
在所述多个处理装置中的每一个中,针对所述多个处理装置中的每一个,将从所述数据存储装置获取的所述第(i+1)种类型至所述第(N)种类型的数据中的至少一些存储在第二临时存储装置中,并且当所述管理装置新分配第(k)种类型的数据时,使用所述第二临时存储装置中所存储的数据来对第(k)种类型的数据和第(k+1)种至第(N)种类型的数据中的每一个的对执行所述预定算术处理,其中,k是大于或等于1且小于或等于N-1的自然数。
14.根据权利要求10所述的分布式数据处理方法,其中,
在所述管理装置中,将所述N种类型中的第一种类型至第(N-1)种类型按顺序分配给所述多个处理装置中的任何一个。
15.根据权利要求10所述的分布式数据处理方法,进一步包括,
在控制装置中,在所述多个处理装置正在执行所述预定算术处理时,添加新的所述处理装置。
16.根据权利要求15所述的分布式数据处理方法,其中,
在所述控制装置中,当所述多个处理装置对所述N种类型的数据中的所有对进行所述预定算术处理所需要的预测处理时间超过预定处理完成时间时,计算在所述预定处理完成时间内完成对所述所有对的所述预定算术处理所需要的所述处理装置的数目,并且添加所述处理装置,使得所述处理装置的数目变成等于所计算的数目。
CN201380057593.9A 2012-11-01 2013-10-30 分布式数据处理系统和分布式数据处理方法 Expired - Fee Related CN104769551B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012241993 2012-11-01
JP2012-241993 2012-11-01
PCT/JP2013/006437 WO2014068980A1 (ja) 2012-11-01 2013-10-30 分散データ処理システム、及び、分散データ処理方法

Publications (2)

Publication Number Publication Date
CN104769551A CN104769551A (zh) 2015-07-08
CN104769551B true CN104769551B (zh) 2018-07-03

Family

ID=50626928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380057593.9A Expired - Fee Related CN104769551B (zh) 2012-11-01 2013-10-30 分布式数据处理系统和分布式数据处理方法

Country Status (5)

Country Link
US (1) US10296493B2 (zh)
EP (1) EP2916222A4 (zh)
JP (1) JP6070717B2 (zh)
CN (1) CN104769551B (zh)
WO (1) WO2014068980A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190253357A1 (en) * 2018-10-15 2019-08-15 Intel Corporation Load balancing based on packet processing loads

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146668A (ja) * 2004-11-22 2006-06-08 Ntt Data Corp 運用管理支援装置及び運用管理支援プログラム
JP2009199533A (ja) * 2008-02-25 2009-09-03 Nec Corp 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
WO2011070910A1 (ja) * 2009-12-07 2011-06-16 日本電気株式会社 データ配置・計算システム、データ配置・計算方法、マスタ装置、及びデータ配置方法
WO2012101933A1 (ja) * 2011-01-24 2012-08-02 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
WO2012128388A1 (ja) * 2011-03-23 2012-09-27 日本電気株式会社 運用管理システム、運用管理方法、及びプログラム
CN102713862A (zh) * 2010-02-15 2012-10-03 日本电气株式会社 故障原因提取装置、故障原因提取方法和程序记录介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2806262B2 (ja) * 1994-06-01 1998-09-30 日本電気株式会社 マルチプロセッサシステムのプロセス割当方法
US7490323B2 (en) * 2004-02-13 2009-02-10 International Business Machines Corporation Method and system for monitoring distributed applications on-demand
JP5245711B2 (ja) 2008-10-17 2013-07-24 日本電気株式会社 分散データ処理システム、分散データ処理方法および分散データ処理用プログラム
JP5408442B2 (ja) * 2010-01-21 2014-02-05 株式会社日立製作所 並列分散処理方法、及び、計算機システム
JP5843459B2 (ja) * 2011-03-30 2016-01-13 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理システム、情報処理装置、スケーリング方法、プログラムおよび記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146668A (ja) * 2004-11-22 2006-06-08 Ntt Data Corp 運用管理支援装置及び運用管理支援プログラム
JP2009199533A (ja) * 2008-02-25 2009-09-03 Nec Corp 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
WO2011070910A1 (ja) * 2009-12-07 2011-06-16 日本電気株式会社 データ配置・計算システム、データ配置・計算方法、マスタ装置、及びデータ配置方法
CN102713862A (zh) * 2010-02-15 2012-10-03 日本电气株式会社 故障原因提取装置、故障原因提取方法和程序记录介质
WO2012101933A1 (ja) * 2011-01-24 2012-08-02 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
WO2012128388A1 (ja) * 2011-03-23 2012-09-27 日本電気株式会社 運用管理システム、運用管理方法、及びプログラム

Also Published As

Publication number Publication date
EP2916222A1 (en) 2015-09-09
EP2916222A4 (en) 2016-04-13
JPWO2014068980A1 (ja) 2016-09-08
US20150293936A1 (en) 2015-10-15
JP6070717B2 (ja) 2017-02-01
CN104769551A (zh) 2015-07-08
WO2014068980A1 (ja) 2014-05-08
US10296493B2 (en) 2019-05-21

Similar Documents

Publication Publication Date Title
CN108874640B (zh) 一种集群性能的评估方法和装置
CN108009016B (zh) 一种资源负载均衡控制方法及集群调度器
JP4374378B2 (ja) 運用実績評価装置、運用実績評価方法、およびプログラム
CN106020715B (zh) 存储池容量管理
JP6571914B2 (ja) 情報の複数のドメインを組合せることによる仕事の実施データ内の異常の検知
CN105808634A (zh) 分布式映射化简网络
Park et al. GRAF: A graph neural network based proactive resource allocation framework for SLO-oriented microservices
Nakao et al. Network design in scarce data environment using moment-based distributionally robust optimization
Lutter et al. Improved handling of uncertainty and robustness in set covering problems
WO2022142013A1 (zh) 基于人工智能的ab测试方法、装置、计算机设备及介质
Gharbi et al. Numerical investigation of finite-source multiserver systems with different vacation policies
CN105354092A (zh) 一种应用性能风险预测方法、装置和系统
US20090217282A1 (en) Predicting cpu availability for short to medium time frames on time shared systems
CN111565216A (zh) 一种后端负载均衡方法、装置、系统及存储介质
Lu et al. VM scaling based on Hurst exponent and Markov transition with empirical cloud data
CN113158435B (zh) 基于集成学习的复杂系统仿真运行时间预测方法与设备
CN104769551B (zh) 分布式数据处理系统和分布式数据处理方法
Saxena et al. Modeling data backups as a batch-service queue with vacations and exhaustive policy
Sundari et al. Simulation of M/M/1 queuing system using ANN
Yang et al. Trust-based scheduling strategy for cloud workflow applications
CN112685157B (zh) 任务处理方法、装置、计算机设备及存储介质
CN111598390B (zh) 服务器高可用性评估方法、装置、设备和可读存储介质
Elhabbash et al. Attaining Meta-self-awareness through Assessment of Quality-of-Knowledge
JP5006837B2 (ja) 使用量予測システム、使用量予測方法及び使用量予測プログラム
Shawky Performance evaluation of dynamic resource allocation in cloud computing platforms using Stochastic Process Algebra

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180703

Termination date: 20191030

CF01 Termination of patent right due to non-payment of annual fee