CN1132097C - 配置方法 - Google Patents

配置方法 Download PDF

Info

Publication number
CN1132097C
CN1132097C CN95196680A CN95196680A CN1132097C CN 1132097 C CN1132097 C CN 1132097C CN 95196680 A CN95196680 A CN 95196680A CN 95196680 A CN95196680 A CN 95196680A CN 1132097 C CN1132097 C CN 1132097C
Authority
CN
China
Prior art keywords
processor
distribution unit
load
processors
redundant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN95196680A
Other languages
English (en)
Other versions
CN1169191A (zh
Inventor
A·N·I·豪尔特·罗斯特
S·B·安德森
R·A·拉鲁伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN1169191A publication Critical patent/CN1169191A/zh
Application granted granted Critical
Publication of CN1132097C publication Critical patent/CN1132097C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5019Workload prediction

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Lock And Its Accessories (AREA)
  • Surgical Instruments (AREA)
  • Steering Control In Accordance With Driving Conditions (AREA)
  • Water Treatment By Sorption (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Paper (AREA)
  • Undergarments, Swaddling Clothes, Handkerchiefs Or Underwear Materials (AREA)
  • Switches With Compound Operations (AREA)
  • Computer And Data Communications (AREA)
  • Telephonic Communication Services (AREA)
  • Exchange Systems With Centralized Control (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种分布式计算机的配置方法。这种方法包括向该系统中输入能使每一个应用子函数在该系统中运行时所需的处理器容量的大小及排列每一个应用子函数所需的处理器的个数。这种处理器包括一个冗余域。可在分配单元(D.U.)中集中的所有资源的分布遍及上述冗科域中的处理器,该冗余域是同这种处理器的容量成正比的并且考虑了处理器的期望负载,该期望负载可从处理器负载的历史数据中任意地得到。一个冗余转换方案是指在系统中出现负载不均衡或其它误操作而需要对其它处理器重新安排一个分配单元时,在该冗余域内分配给每个分配单元至少一个另外的处理器。

Description

配置方法
定义:
在本申请范围内,以下术语的含义定义如下:
“资源”意即可以在分布式系统内加以分配的,且人们希望能够存取因此是可寻址的某种东西。每种资源或资源表示法都有一个与之相关的标识符,该标识符为属于一个分配单元的所有对象所共有(请看详细说明中的定义)。它可被分为“硬件资源”(就象通信信道,线路接口电路(LIC))和“软件资源”(象用户数据)。硬件资源通常有一个软件表示法,这种软件表示法事实上正是人们需要存取的东西。之后,这种软件表示法成为软件资源,并构成了可在分配单元概念下操作的对象之一。这样,在这种应用目的下,“资源”是指软件资源。
“分配单元”(D.U.)意即单一的资源或一组资源。对一个分配单元内的资源来说,存在一个映像,该映像使人能够找到该分配单元的等同物(identity)。在其它的电信系统中一个分配单元可以包括任一个数据库(有关汽车、人的健康状况等的信息)中的任何对象,或者是代表硬件的进程分配的对象。在电信系统中,一个“分配单元”例如可以是电话号码最后两位数字相同的所有用户。尽管每个分配单元当然能表示许多真实用户,这样还是建立起总共一百个分配单元。在通常情况下一个分配单元可以包含几乎任何东西。至少它确切地包含什么取决于讨论中的应用。在系统设计中定义分配单元中的内容及有关一个分配单元的信息即它所包含的确切的东西,会在初始状态时装入系统。分配单元中的内容也可以在系统操作中的运行期内加入。
按以上的定义,一个分配单元可以包含若干资源,并且这个分配单元实际上包括什么取决于在讨论中的应用。这样,它可以是从数据库中的一组组对象到代表硬件的进程分配对象的任何信息。在电信系统中一个非常常用的构成一个分配单元的物质是一组代表与电信系统相联的单独的用户的数据。
每个分配单元有一个唯一的等同物,它可以被寻址分配单元的应用子函数所使用。这个等同物是由一个能识别出在讨论中的分配单元有关的应用子函数的部件,以及一个这个应用子函数中的分配单元的部件组成。
这可以从综合业务数字网络应用及“调用存取”应用子函数中得以验证。这时如果该另配单元是这个应用子函数中的第12个,那么其等同物是综合业务数字网络—“调用存取”12。
对电信系统中的用户,一个分配单元的各对象的通用的标识符可以是一个电话号码的最后两位数字。这样会建立起100个分配单元。
此外,每个分配单元可以被独立地分配给一个处理器。
由应用而限定的分配单元的数目确定了这种应用有可能分配到的处理器的最大数目。使用分配单元内容的好处就象发明中预测的那样,仅仅是因为用以操作的单元数减少而使巨大数目的数据变得更容易操作。在没有操作者的参与时处理器的中断也会由系统自由来操作。
另一个优点是因为在编址结构中明显地缩短了列表长度而有一个改进的编址容量。“地址域”也相应变短。
“冗余域”意指将一个及与其相同的子函数的代码调入的处理器的给定数目,这样在讨论中的子函数可以在冗余域中的所有处理器上执行。在该域中处理器的数目可以在运行期内改变。这里“冗余”意指即使一个处理器发生紧急故障或锁死时,系统仍可以继续工作。
“负载”意即在任意给定时间,系统中每个处理器的相对使用。
“负载失衡”意即一种可能引起重新配置的与所需负载相比所存在的偏差,这样就允许在预定义范围中有少量失衡。
“应用”意即在分布式计算机系统,例如电信系统上执行某种代码。“应用”的例子还有电话呼叫系统,综合业务数字网。
“应用子函数”意即将一些初等的或基本的处理合并起来以形成一个“应用”(例如“摘机”和“调用存取”函数,代码接收函数等)。每个子函数的代码可以在几个处理器上运行。每个处理器可以对不同的分配单元中的内容进行操作。发明所涉及的领域:
本发明涉及一种在分布式计算机系统特别是电信系统中软件资源及这类资源的运行的配置及再配置的方法的一个方面。在另一个方面本发明涉及已嵌入这种配置及再配置的函数性的电信系统。发明的背景技术:
在一个分布式计算机系统中,比如一个有着巨大数目用户的电信系统,对于定位在一个单个的处理器上的全体用户以及运行和对全体用户的控制操作来讲,要想得到它们的所有数据是不现实的,即一个函数必须具有在几个处理器上并行运行的能力。此外,配置范围包括软件资源的配置,以便尽可能有效地利用处理器。当由每个应用资源所使用的负载(容量)很难估计出的情况下,这种配置及再配置是一种极复杂的活动。这样就需要用一种工具把它们分配到许多处理器中。
即使建立一个可以称为“最佳的”系统的初始配置是可能的,但由于单个处理器上的负载会因在该处理器上执行的应用资源随时间而变的缘故或是处理器中断(例如处理器紧急故障,因维护而用的处理器的替代品等),这种状况也不会持续很长时间。
至此,即在处理器中断的情况下,在硬件得以修复或更换一个新硬件之前,在该处理器上运行的处理代码将处于暂停状态。这种行为可以会花费几十分钟甚至几个小时。考虑到当今在讨论中系统的易存取性的需求而论,这种时间的花费是令人难以接受的。
因此对于这种系统的极快速再配置的需求逐渐形成,这样以至系统不工作的时间可以降到几秒或至多几分钟的时间范围内。
同样是为了维护的目的,如果能迅速地获得再配置并且不用操作员的干预,这将是很便利的,尤其是在远程定位中出现了需要再配置的问题。通常在这种远程定位中,在操作员干预前可能会花费相当多的时间。
例如考虑到系统中的负载失衡,这种配置的“运行期调整”的机构会依赖于连续提供的诸如系统负载平衡之类系统状态信息。可通过较长时间针对某些参数监视系统来获取这种信息。这样测定出的数据将说明处理器负载随时间的改变,例如:一些处理器在大多数时间中比其它处理器具有更多的负载。这种信息可通过维护技术人员或是“建立”在系统中的函数性来启动系统中的再配置。在实现与系统的非干扰操作有关的需求的同时,要使这种运行期再配置的建立得以实现,必然要在操作系统中有一个强有力的机构来支持这种再配置,并由具体应用来实现。在先技术:
US-5,165,018公开了在分布式的基于信息的操作系统中的结点的自构系统。运行期配置是可以由基于结点的配置管理处理来获取,该处理与包含于资源确定信息中的数据相一致的。技术方案:
根据本发明的第一个方面,一种分布式计算机系统的配置方法,包括:将软件资源组成分布单元;一个应用子函数的代码被调至所述系统中的几个或所有处理器,运行子函数的处理器因此形成了冗余域;在冗余域内的处理器之间分配分布单元,以合理地平衡处理器的负载;通过将冗余域内处理器上的每个分配单元分配给冗余域内相应的另一个处理器来形成再分配机制,冗余再分配机制允许在系统中负载失衡或有其它故障时,将一个处理器上的一个或多个分布单元再分配给同一冗余域中的一个或多个其它处理器。
根据本发明的第二个方面,一种在分布式计算机系统中动态地获得对处理器容量的更有效使用的方法,其中,一个应用子函数的代码被调至所述系统中的几个或所有处理器中,运行子函数的处理器因此形成了冗余域,包括步骤:将软件资源组成为分布单元;根据分配方案在所述冗余单元中的处理器上分配分布单元,以合理地平衡处理器的负载;连续地监视处于操作中的每个处理器的状态,以检测在上述处理器中引起负载失衡的负载的变化;与所检测失衡相应,为这种遍及该处理器的所述分布单元计算一个分配的新方法,该计算分布被与上述处理器中负载平衡中的上述变化成比例地权衡;根据上述计算过的新分布,将分布单元的内容从一个负载很重的处理器分配到其它负荷较轻的处理器上;将处理过程从上述负载很重的处理器转到上述负载量较轻的处理器上。
根据本发明的第三个方面,一种将在一个分布式计算机系统的处理器上运行的资源重分配到其它处理器的方法;该资源聚集于分布单元中;与确定该系统中每个处理器的容量的参数相一致,该分布单元被分配于上述系统的该处理器中;这种方法包括以下步骤:在运行时监视每个处理器的状态并检测由处理器中断而引起的变化;根据冗余再分配方案,将与中断的处理器相联的全部分布单元安装于一个新处理器;计算一个新的冗余重分配方案。
根据本发明的第四个方面,在一个分布式计算机系统中更有效地使用处理器的一种方法,包括:考虑了确定每个处理器的容量的参数,对遍及上述处理器的分布单元的配置方案计算,以使被计算过的配置与同上述处理器间的容量差异成比例地被加权;对遍及在上述系统中的若干选择的处理器(形成冗余域)中的成群的资源(分布单元)进行分配以至根据上述分配的方法,处理器负载合理地保持平衡;通过将冗余域内处理器上的每个分配单元分配给同一冗余域内相应的另一个处理器来形成再分配机制,冗余再分配机制允许在系统中负载失衡或有其它故障时,将一个处理器上的一个或多个分布单元再分配给同一冗余域中的一个或多个其它处理器;在一个冗余区的处理器上装载相应的应用子函数的代码,从而使应用子函数有可能在所述冗余区中的所有处理器上运行;根据上述分配方案安装分布单元;运行这个系统。
根据本发明的第五个方面,配置分布式计算机系统,特别是分布式电信交换系统的方法,包括步骤:确定每个应用子函数需要多少容量,在确定时考虑了因为出现例如处理器紧急故障而有的容量损耗;确定运行每个应用子函数需要多少处理器,所述处理器形成一个冗余域,从而使这个域内的所有处理器全都能运行在讨论中的应用子函数,据此应用子函数中的代码将会被装载至所有上述处理器中;将软件资源组成分布单元;在冗余域内的处理器上初始分配分布单元,使得处理器负载合理平衡;通过将冗余域内处理器上的每个分布单元分配给冗余域内相应的另一个处理器来形成再分配机制,冗余再分配机制允许在系统中负载失衡或有其它故障时,将一个处理器上的一个或多个分布单元再分配给同一冗余域中的一个或多个其它处理器。
在这个方法中的资源分配的计算是由“分配单元”这个概念来支持的。这一概念是由本发明构设的。有关分配单元的定义已在“定义”下给出。
本发明的优点是改进了操作。自从分配单元内容的分配受到操作系统的支持,配置该系统就变得简单了。既然操作系统在运行时间内支持负载平衡,那么需要出色的初始配置的需求就会降低,对操作员操作的敏锐要求也会降低。同样因为操作系统支持在处理器中断时的冗余再配置,服务人员勿需立即访问存储单元。
本发明的另一个优点是其内在的耐久性。意即系统可以根据不正常类型例如处理器的紧急故障等,来自动看管负载失衡。这样,系统中的干扰减少了,遍布剩余处理器的负载配给将会保留。嵌入的冗余再配置减少了因为例如处理器中断而使函数无效的时间。
既然处理器的使用因此而得以显著提高,那么由于嵌入了负载平衡费用也会降低。如果在处理器上能更有效地分配资源,甚至减少系统中的处理器数目也是可能的。
附图的主要描述:
在图中:
图1a是本发明可能会在其中实现操作的电信交换系统的概观。
图1b是组成一个冗余域的三个处理器的部件图。
图1c展示了遍布冗余域的分配单元的分配方案;
图2a是与本发明一致的显示初始配置方案的流程图;
图2b显示了冗余配置的方案;
图3a是与本发明一致的显示分配单元的附加安装/消除的流程图;
图3b是将新的分布方案与旧的一起显示,并且执行操作以获得新方案;
图4a是显示与本发明一致的负载均衡的流程图(由系统初始化的);
图4b是显示与本发明一致的(操作员初始化的)负载均衡的流程图;
图4c显示了新、旧分配方案并且有在负载均衡上的操作;
图5a显示了处理器人工阻塞的流程图;
图5b显示了旧的分配方案及外加新分配方案的冗余再配置方案。这里还显示了用以完成新方案所需的操作;
图6a显示了处理器的自动阻塞。
图6b显示了旧的分配方案及外加新分配方案的冗余再配置方案。这里还显示了用以完成新方案的操作。
图7a显示了处理器解除阻塞;
图7b显示了新旧分配方案,也显示了完成新方案所需的操作。
图7c显示了处理器的附加物。本发明的详细描述:
现在本发明将会通过参考附图及一些不同状态而得到例证。这里状态是指本发明概念在其中能起作用的状态。这里有两种基本状态,即:
A.初始配置(当系统启动时)
B.再配置(当系统已运行一段时间时,由技术员或系统本身初始化)
状态B会依次应用到不同的状态,如:
a.分配单元的附加安装
b.分配单元的消除
c.负载均衡(人工或自动)
d.处理器的人工阻塞
e.处理器的自动阻塞(发生处理器紧急故障)
f.解除处理器的阻塞包括处理器在阻塞后返回和处理器的附加物
和必须先具有的方法一起,这种机构支持分配单元的(再)配置中的一些不同的情况。
必须先具有的方法是:—在操作系统中有一个名字寻址方法。该操作系统有能力访问配置单元的内容。—这个操作系统有一个“安全”数据库。该数据库中存有配置数据及方案。他们因此能够经受处理器的紧急故障的考验。这个数据库对所有处理器均是可存取的。—有一个将数据从“旧”处理器传递到“新”处理器的“状态传递”机构。
对(再)配置中的每种情况,要采用两种方案计算。第一种方案,即在冗余域内的处理器中的分布单元的配置的方案1,描述了考虑到确定每个处理器的容量的参数、可选测定的负载值,如何将聚集成为配置单元(象本申请的在先定义)的系统的资源分配到系统的处理器中。
另一种方案是对冗余进行重定位的,即方案2,描述了在因阻塞而发生处理器中断的情况下如何传送分布单元。
对于每一个分布单元来讲,这种方案优于另一种方案,再配置处于较新阶段的情况下,例如在上述状态a~f中,表明了每个分布单元将重分配于哪个处理器。
现在我们将参考一个例子来处理基本情况,同时展示了遍及域中的处理器的分布单元内容的分布图。箭头表示冗余方案。斜体字表示再配置后是如何实现方案的。例子:
在绘制的图中,其中展示了个别情况的流程图及相应的再分配方案,用斜体标明的这一代码序列表明了在启动重配置操作后,一种重计算所得分布的方法。
在图1a中显示了远距离通信系统的简要概论。它包括一些用户,每个用户至少有一个电话1。每个电话通过一个所谓的LIC(线性接口回路)联在系统中。这种线性接口回路按它自己的顺序与对系统中的所有单元间的通信有响应的开关2相联。对系统中的所有处理器3来讲,存在一个或更多子函数的执行。这里也可以提供一个包含用户数据等的数据库4。这种数据库是运行于处理器上的操作系统的一部分,并且通常驻存在主存储器(处理器中的一部分也可以装有盘,它用于包含数据库)中。另外磁盘主要用于装入媒体及备份的目的,但也可有其它功能。
在图1b中,显示了在图1a中的系统中,三个处理器3组成的冗余域(在虚线框中表示的),如在先定义的。每个处理器装载一个应用子函数APPL及一个包含数据库的操作系统OS的代码,从而构成数据库。
我们设想这个“子”系统被配置以一种应用。一个应用子函数会有30个分布单元的执行。他们被顺序地编号(0-29)(一个序列)。
这种度量产生了一个包含图1c所示的三个处理器的冗余域。
在这个简化的例子中,我们认为所有处理器是全等的,并且没有其它应用在冗余域内的处理器上执行,即分布单元将会在(一开始)被均匀地分配给遍及冗余域的处理器。A.初始配置
在一个电信系统的创建过程中,当然而且必须要根据一个预期使用计算其尺度,但这是一个标准过程的问题并且不构成本发明的一部分,所以不在这里讨论。这样当对本系统进行计算时必须决定每个将要在系统上运行的应用子函数会需要多少容量。在这一过程中设计者也要考虑运行能力的损失,例如因为处理器紧急故障或处理器的其它中断象处理器为维持目的而进行的删除等。这就意味着必须确定系统需要包含的处理器的数目。
此后必须确定执行每种应用需要多少处理器,即为“冗余域”建立一个初始的配置。这样对每种应用设计者确定会被装入同样代码的处理器的数目,并且这组处理器构成在讨论中的每个应用子函数的冗余域。这样做的结果使所有在冗余域内的处理器将能运行与该冗余域有关的应用子函数。应用子函数的代码将被装到冗余域内所有处理器中。
当一个冗余域被初始配置时,向冗余域分配应用中的分布单元。这就是(再配置机构(根据分配函数D=f(P0…Pn,L0…Ln,DU0…X)而执行,这里P=处理器,L=负载,n=处理器标识,DUx=冗余域内的第x个分布单元),该方法确定了分布单元是如何根据输入数据,象处理器的数目,处理器的容量,处理器的速度,负载平衡,分布单元的数目等被分配到遍及域内的处理器中的。
在我们的例子中,应用子函数(图1c)被定义了30个分布单元,这些分布单元带有从0至29的顺序的标识符。在这个例子中,因为在定义的冗余域内有三个相等的处理器,所以分布单元被(均匀地分)分为三组。
在处理器(图26)中的分布单元的分配方案进行初始计算时,同样分布单元的冗余重分配方案也在进行计算,于是每个分布单元在域内有一个更好的冗余处理器。
计算该方案以便以最大限度地按连贯顺序排列的分布单元保持协调。
图2a显示了初始配置的简单流程图。第一步,当输入数据(通常数据是被写入由操作系统阅读的文件中)时,操作系统装入了一些信息,该信息涉及配置要控制的那个应用子函数,冗余域是如何定义的,预备在配置中分配的分布单元序列。与上述数据相对应,操作系统将要计算遍及冗余域(图1c)中的现用处理器上的分布单元内容的分配方案。
接下来应用子函数代码会被调入讨论中的冗余域内的处理器。随后将会按此前计算的配置方案安装分布单元中的内容。由此应用分布单元被分配(并开始运转)于遍及域内的处理器。
对于指定用途的配置的上述方案的推算是由在先定义的分布单元的概念来支持的。为此会使用或多或少复杂的算法。
最简单的算法是将分布单元尽可能均匀地分配于遍及冗余域的现有处理器中。但是这一算法也可能已在最初考虑了处理器的存储能力,处理器的运行能力及运行于处理器上为其它应用而使使用的容量。这样,向单个的处理器分配的分布单元的数目将被权衡使之与这种考虑成比例。
最后要推算冗余再分配方案。
接下来的图(图2b)显示如何向处理器分配分布单元,该处理器被分为几组,在处理器阻塞的情况下,它们将会移动到仍在工作的最合适的处理器中。图中箭头表明在处理器发生中断的情况下,分布单元的内容是如何从一个处理器传到另一个处理器的。
另外分配算法最好保持向依次排列的处理器分配的分布单元的等同物。这样当分布单元在重配置时再分配于其它处理器,分配单元会再分配以最大限度地保持顺次排列的每个处理器上的分布单元的等同物(以下将更进一步地讨论并举例)。在这种方式中寻址会更迅速,因为在地址表中的供应序列在表中提供了较少的数据行。
在处理器中分布单元(0…29)的配置,导致每个处理器中10个分布单元为一组,(0…9),(10…19),(20…29)。(0…9)…中每组会被分为两个相同大的部份。在一个处理器阻塞时,这两部份将被分别传到两个剩余的处理器中。
在处理器中存在固有不均匀的情况时,为重分配目的的细分当然且必须将这种情况考虑入内,这样如果P1的容量是P2的2倍时,被重分配于处理器P1上的分布单元可能会是重分配于P2上的配置单元的2倍。
在冗余再分配执行且每种其它的再配置影响分配后,自动冗余再分配方案将进行重新计算。
对于应用子函数的操作和维护来讲,它们需要一个接口,这种接口会包含配置单元的初始安装(“安装”)、分布单元的迁移(“迁移”)及分布单元从在一个处理器上运行的一个应用子函数上移到在另一个处理器上运行的另一个子函数上的设备(后者是一件收编于此以备参考的未结案的瑞典专利申请,其序号为9503339-5,即“允许在平滑系统升级时状态改变的同步”)。未结案的参考申请中定义的函数或命令是“关闭”及“接收”。在代码触发某种动作时,该函数基本上被实现。以下会进行简短地描述。
“关闭”是为结束和即需即有的接管而准备的。“接收”将在旧的静态过程中的资源客体的控制变换到新的静态过程中。B.再配置情况
再配置即可由操作员人工也可由系统自身自动地实现,象在例如负载超越某些极限值时。人工再配置是极其复杂的,因此在此公开了向这个操作系统中提供的一种方法。
为达到上述目的,会对系统中的处理器的负载平衡进行连续的测量,即为了检测一个或更多的处理器与其它处理器相比是否具有更重的负载(这种测量机构在操作系统中是有效的且不会在性质上构成本发明的一部分,因此这里不予讨论)。考虑到测量结果而使它包含在为这种再配置的目的而有的一个新分布的计算内。这要求对于可接收的负载预定义一些阈值,偏离这些阈值将会触发一次再配置。
在运行时间内由维护技术员启动的操作如下:·附加分布单元的安装。将分布单元分配到冗余域中。·分布单元的迁移。将分布单元从冗余域内迁移出来。·负载均衡。当负载平衡不良时,操作员会启动再配置。·处理器的人工阻塞。当一个处理器出于某种原因不工作时,在该处理器上运行的所有分布单元必须到传冗余域内的其它处理器上。·(人工)解除处理器的阻塞。在冗余域内的处理器处于工作状态。移动分布单元是为了让该处理器工作及平衡负载。
由系统自身启动的操作如下:·负载均衡。长时间的测量能发现负载平衡不良。确定失衡来临时刻的阈值被定义。传递配置单元以实现良好的负载平衡。·自动阻塞:由处理器紧急故障启动的分布单元的再配置。·自动解除处理器的阻塞。在冗余域内的处理器处于工作状态。移动分布单元是为了使处理器工作及平衡负载。分布单元的附加安装:
将附加的分布单元加到冗余域中(图3a)(一个例子可以是在电信系统中用户增长的数目)。这会引出一个新的分配方案(及冗余再分配)。在图3b中显示了分布单元(30-39)的附加安装,它适用于我们的例子。
这样将要发生的第一件事是系统必须被“通知”要加入10个分布单元(30-39)。如先前描述,将数据写入一个由操作系统读取的文件。在域中处理器上的分布单元的分配方法将会由操作系统根据输入数据来重新估算(0…12),(13…26),(27…39)。为了得到重计算方案,根据分配的新方案(包含对“旧”处理器的“关闭”和相对于“新”处理器的接收),装载附加的(新)分布单元及将其它(原有)的分布单元移至处理器中。在对旧分布单元的内容进行删除的情况下,理当不用“安装”而需要“删除”。当实现再分配时,一个新的冗余(自动)分配方案会由基于代表该系统的数据(处理器数目,处理器容量等)来计算。负载均衡:
我们假设处理器2已超载(例如测量表明有30%的过载,因此操作系统得到通知),于是,被分配的分布单元中的四个必须从处理器2中移出。在域中的处理器中的分布单元的分配方案(看图4a,4b),首先将被重估算(0…11),(12…17),(18…29)。之后为获取重计算方案,需移动分布单元(对“旧”处理“关闭”及相对于“新”处理的“接管”)。当分配完成时,要计算一个新的冗余重分配方案。处理器的人工阻塞:
当一个处理器需要人工阻塞时,例如为了维修它应被移出,我们需要尽可能快地传递所有在那个处理器上运行的分布单元。在这种情况下,将使用一开始就计算冗余重分配的方案。为获取自动冗余重分配方案,分配给处理器2的分布单元会传到处理器1(10…14)和处理器3(15…19)中,同时对“旧”过程“关闭”,而相对“新”过程的“接收”(图5a和5b)。处理器的自动阻塞(处理器发生紧急故障):
当处理器自动阻塞,如因为发生处理器紧急故障,所有进程分配被丢失以至在所涉及的处理间没有状态转换,这是可理解的。因此分配于被阻塞的处理器上的分布单元不能随“关闭—接收”移动,但可以在接管运行的处理器上进行“重安装”。
操作系统用本来已知的机构来测试紧急故障。当紧急故障被迅速测出时,根据在初始配置时计算的冗余重分配方案或者根据在某些事件触发了一个由于其它原因而存在的重计算的情况下最后一次修改的方案而使分配到中断处理器上的分布单元的内容被“安装”。在更多复杂的状态下,一些附加的在仍处于当前处理器上的分布单元的内容可能会不得已变动以符合例如负载平衡标准。
图6b显示了一个由处理器自动阻塞(处理器紧急故障)引发的分布单元的自动重分配的例子。
为得到自动冗余再分配的方案,传递分配于处理器2上的分布单元,使之能随相对于“新”处理的“安装”而分配到处理器1(分布单元中的10…14)和处理器3(分布单元的15…19)上。处理器的添加:
添加一个新处理器的过程在图7c中显示。第一步,与初始配置的情况相似,必须通知系统,即应用子函数需要使用什么,及冗余域是什么。随后这个新处理器装载讨论中的应用子函数代码,且最终这个处理器被阻塞。包含处理器添加的在阻塞(解除阻塞)后的处理器的返回:
当一个处理器从阻塞状态时返回,在冗余域内的当前的处理器中的分布单元的分布方案将要重新计算。图7a是当一个处理器在被中断后重又处于工作状态时所发生的一系列步骤的流程图。首先操作系统检测一个被添加的或重安装的(从操作系统来看这两种情况是等同的)处理器。实现检测的方式是不相干的,它会受检查处理器是否存在的有效时隙的软件或操作员动作的影响。为本技术领域人员所公知有很多方法能实现这种功能。一旦一个新的或重安装的当前处理器被检测到,操作系统便会计算一个新的包含解除了阻塞的处理器的分配方案。
当计算新方案时,系统会根据上述方案启动分布单元内容的移动。
图7b显示了分布单元(10…14)和(15…19)是如何在相关的处理器之间移动的(对“旧”过程“关闭”,相对“新”过程“接收”)以达到获取分布的方案的目的。

Claims (16)

1.一种分布式计算机系统的配置方法,所述方法包括:
a)将软件资源组成分布单元,
b)一个应用子函数的代码被调至所述系统中的几个或所有处理器,运行子函数的处理器因此形成了冗余域,
c)在冗余域内的处理器之间分配分布单元,以合理地平衡处理器的负载;
d)通过将冗余域内处理器上的每个分配单元分配给冗余域内相应的另一个处理器来形成再分配机制,冗余再分配机制允许在系统中负载失衡或有其它故障时,将一个处理器上的一个或多个分布单元再分配给同一冗余域中的一个或多个其它处理器。
2.如权利要求1所述的方法,包含在处理器上运行的每个应用子函数需要的处理器容量大小的最初定义;确定每个应用子函数必须运行于其上的处理器的数目,该数目的处理器形成了冗余域。
3.如权利要求1所述的方法,其中根据确定系统中每个处理器的容量的参数进行初始分配。
4.根据权利要求3所述的方法,其中初始分配考虑了冗余域中的处理器所预期的负载,预期的负载选择性地基于处理器负载的历史数据。
5.根据权利要求2所述的方法,包括在所述系统中形成几个冗余域的步骤,每个冗余域包括相应数目的处理器。
6.根据权利要求1或5所述的方法,其中分布单元被顺序地编号并且如此再分配所述一个或多个分布单元,使得所述分布单元在所述一个或多个其它处理器上尽最大可能地按序排列。
7.一种在分布式计算机系统中动态地获得对处理器容量的更有效使用的方法,其中,一个应用子函数的代码被调至所述系统中的几个或所有处理器中,运行子函数的处理器因此形成了冗余域,该方法包括以下步骤:
a)将软件资源组成为分布单元;
b)根据分配方案在所述冗余单元中的处理器上分配分布单元,以合理地平衡处理器的负载;
c)连续地监视处于操作中的每个处理器的状态,以检测在上述处理器中引起负载失衡的负载的变化;
d)与所检测失衡相应,为这种遍及该处理器的所述分布单元计算一个分配的新方法,该计算分布被与上述处理器中负载平衡中的上述变化成比例地权衡;
e)根据上述计算过的新分布,将分布单元的内容从一个负载很重的处理器分配到其它负荷较轻的处理器上;
f)将处理过程从上述负载很重的处理器转到上述负载量较轻的处理器上。
8.根据权利要求7所述的方法,其中,上述再分配分布单元内容的步骤包含,当原始数据仍在上述重负载处理器上工作时,将分布单元的内容从上述重负载处理器上拷贝到一个轻负载处理器上。
9.根据权利要求8所述的方法,其中,所述分布单元被顺序地编号且一开始就按序分配在每个处理器上,其中,计算过的新分布将分布单元重分配于其它处理器上以致这个编号序列会最大限度地持续下去。
10.根据权利要求7所述的一种方法,其特征在于,只有在负载超越在先定义的极限时,才考虑负载的变化。
11.一种将在一个分布式计算机系统的处理器上运行的资源重分配到其它处理器的方法;该资源聚集于分布单元中;与确定该系统中每个处理器的容量的参数相一致,该分布单元被分配于上述系统的该处理器中;这种方法包括以下步骤:
a)在运行时监视每个处理器的状态并检测由处理器中断而引起的变化;
b)根据冗余再分配方案,将与中断的处理器相联的全部分布单元安装于一个新处理器;
c)计算一个新的冗余重分配方案。
12.根据权利要求11所述的方法,其中通过均匀地分配在处理器中的上述分配单元而估算配置。
13.根据权利要求11所述的方法,其中通过加权与处理器有关的分布单元的数目计算这种配置,这样做以至同负载很重(就象步骤a)中测量的)的或固有容量较低的处理器相联系的分布单元变得较少。
14.在一个分布式计算机系统中更有效地使用处理器的一种方法,包括:
a)考虑了确定每个处理器的容量的参数,对遍及上述处理器的分布单元的配置方案计算,以使被计算过的配置与同上述处理器间的容量差异成比例地被加权;
b)对遍及在上述系统中的若干选择的处理器(形成冗余域)中的成群的资源(分布单元)进行分配以至根据上述分配的方法,处理器负载合理地保持平衡;
c)通过将冗余域内处理器上的每个分配单元分配给同一冗余域内相应的另一个处理器来形成再分配机制,冗余再分配机制允许在系统中负载失衡或有其它故障时,将一个处理器上的一个或多个分布单元再分配给同一冗余域中的一个或多个其它处理器;
d)在一个冗余区的处理器上装载相应的应用子函数的代码,从而使应用子函数有可能在所述冗余区中的所有处理器上运行;
e)根据上述分配方案安装分布单元;
f)运行这个系统。
15.根据权利要求14所述的方法,其中分布式计算机系统是电信交换系统。
16.配置分布式计算机系统,特别是分布式电信交换系统的方法,所述方法包括步骤:
a)确定每个应用子函数需要多少容量,在确定时考虑了因为出现例如处理器紧急故障而有的容量损耗;
b)确定运行每个应用子函数需要多少处理器,所述处理器形成一个冗余域,从而使这个域内的所有处理器全都能运行在讨论中的应用子函数,据此应用子函数中的代码将会被装载至所有上述处理器中;
c)将软件资源组成分布单元;
d)在冗余域内的处理器上初始分配分布单元,使得处理器负载合理平衡;
e)通过将冗余域内处理器上的每个分布单元分配给冗余域内相应的另一个处理器来形成再分配机制,冗余再分配机制允许在系统中负载失衡或有其它故障时,将一个处理器上的一个或多个分布单元再分配给同一冗余域中的一个或多个其它处理器。
CN95196680A 1994-12-09 1995-12-08 配置方法 Expired - Lifetime CN1132097C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE94042959 1994-12-09
SE9404295-9 1994-12-09
SE9404295A SE9404295D0 (sv) 1994-12-09 1994-12-09 Sätt och anordning vid telekommunikation

Publications (2)

Publication Number Publication Date
CN1169191A CN1169191A (zh) 1997-12-31
CN1132097C true CN1132097C (zh) 2003-12-24

Family

ID=20396281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN95196680A Expired - Lifetime CN1132097C (zh) 1994-12-09 1995-12-08 配置方法

Country Status (17)

Country Link
EP (1) EP0796463B1 (zh)
JP (1) JPH10511785A (zh)
KR (1) KR100331492B1 (zh)
CN (1) CN1132097C (zh)
AT (1) ATE202225T1 (zh)
AU (1) AU716774B2 (zh)
BR (1) BR9509895A (zh)
CA (1) CA2206373A1 (zh)
DE (1) DE69521337T2 (zh)
DK (1) DK0796463T3 (zh)
ES (1) ES2161918T3 (zh)
FI (1) FI972407A (zh)
GR (1) GR3036045T3 (zh)
MX (1) MX9703872A (zh)
NO (1) NO972597L (zh)
SE (1) SE9404295D0 (zh)
WO (1) WO1996018149A2 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2206737C (fr) * 1997-03-27 2000-12-05 Bull S.A. Architecture en reseau de machine informatique
US6038677A (en) * 1997-03-31 2000-03-14 International Business Machines Corporation Automatic resource group formation and maintenance in a high availability cluster configuration
FR2773239A1 (fr) * 1997-12-30 1999-07-02 Bull Sa Configuration d'un systeme informatique multinodal
DE60233172D1 (de) * 2002-06-28 2009-09-10 Nokia Corp Lastausgleicheinrichtung und verfahren dafür
AU2002357568A1 (en) * 2002-12-31 2004-07-22 Zte Corporation A method of standby and controlling load in distributed data processing system
US7574708B2 (en) * 2004-03-04 2009-08-11 International Business Machines Corporation Mechanism for enabling the distribution of operating system resources in a multi-node computer system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0366344A2 (en) * 1988-10-27 1990-05-02 AT&T Corp. Multiprocessor load sharing arrangement
US5165018A (en) * 1987-01-05 1992-11-17 Motorola, Inc. Self-configuration of nodes in a distributed message-based operating system
EP0645702A1 (de) * 1993-09-24 1995-03-29 Siemens Aktiengesellschaft Verfahren zum Lastausgleich in einem Multiprozessorsystem

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5274838A (en) * 1987-06-03 1993-12-28 Ericsson Ge Mobile Communications Inc. Fail-soft architecture for public trunking system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5165018A (en) * 1987-01-05 1992-11-17 Motorola, Inc. Self-configuration of nodes in a distributed message-based operating system
EP0366344A2 (en) * 1988-10-27 1990-05-02 AT&T Corp. Multiprocessor load sharing arrangement
EP0645702A1 (de) * 1993-09-24 1995-03-29 Siemens Aktiengesellschaft Verfahren zum Lastausgleich in einem Multiprozessorsystem

Also Published As

Publication number Publication date
CN1169191A (zh) 1997-12-31
KR100331492B1 (ko) 2002-08-22
WO1996018149A3 (en) 1996-08-15
CA2206373A1 (en) 1996-06-13
NO972597L (no) 1997-08-05
JPH10511785A (ja) 1998-11-10
GR3036045T3 (en) 2001-09-28
DE69521337D1 (de) 2001-07-19
AU716774B2 (en) 2000-03-09
FI972407A0 (fi) 1997-06-06
FI972407A (fi) 1997-06-06
DE69521337T2 (de) 2001-10-11
EP0796463A2 (en) 1997-09-24
ATE202225T1 (de) 2001-06-15
SE9404295D0 (sv) 1994-12-09
MX9703872A (es) 1997-08-30
DK0796463T3 (da) 2001-09-03
BR9509895A (pt) 1997-11-25
WO1996018149A2 (en) 1996-06-13
NO972597D0 (no) 1997-06-06
KR980700611A (ko) 1998-03-30
ES2161918T3 (es) 2001-12-16
EP0796463B1 (en) 2001-06-13
AU4277196A (en) 1996-06-26

Similar Documents

Publication Publication Date Title
US5778224A (en) Method of executing a plurality of transactions and a distributed processing system for performing such a method
CN102479099B (zh) 虚拟机管理系统及其使用方法
US7529822B2 (en) Business continuation policy for server consolidation environment
CN105159775A (zh) 基于负载均衡器的云计算数据中心的管理系统和管理方法
JP2007114983A (ja) サーバプール管理方法
JP2003248668A (ja) データセンタ資源管理方法及び運用方法
CN105939389A (zh) 负载均衡方法及装置
US11886905B2 (en) Host upgrade method and device
KR101696698B1 (ko) 상호 의존 관계가 있는 컴포넌트 분배 및 관리 방법
CN1132097C (zh) 配置方法
US9058166B2 (en) Method and apparatus for managing processing resources in a distributed processing system
EP3319298B1 (en) Method and apparatus for sharing license resource between multiple virtual network functions
JP6374841B2 (ja) 仮想マシン配置装置および仮想マシン配置方法
CN108073408A (zh) 自助终端的系统更新方法和装置
JP2004178290A (ja) 管理サーバ装置,apサーバ,及びプログラムを記憶した記憶媒体
CN106254516A (zh) 负载均衡方法及装置
CN1913559A (zh) 一种实现数据业务割接的方法及系统
CN115202810A (zh) 一种Kubernetes工作节点分配方法及系统
NZ309840A (en) Determining availability of resources for creation of service packages on schedule for intelligent networks
CN112448823B (zh) 计费方法、系统以及存储介质
WO2024038605A1 (ja) 管理サーバ、管理方法、および、管理プログラム
Corradi et al. Dynamic load distribution in massively parallel architectures: the parallel objects example
CN110018898B (zh) 选择虚拟化基础设施管理器的方法及装置
CN106209944A (zh) 一种云服务系统的资源设备管理方法和装置
CN115952000A (zh) 虚拟资源的创建方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant