CN101051945A - 用于管理逻辑分区数据处理系统中的适配器的方法和系统 - Google Patents

用于管理逻辑分区数据处理系统中的适配器的方法和系统 Download PDF

Info

Publication number
CN101051945A
CN101051945A CNA2007100922729A CN200710092272A CN101051945A CN 101051945 A CN101051945 A CN 101051945A CN A2007100922729 A CNA2007100922729 A CN A2007100922729A CN 200710092272 A CN200710092272 A CN 200710092272A CN 101051945 A CN101051945 A CN 101051945A
Authority
CN
China
Prior art keywords
adapter
virtual
link state
ethernet
partition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007100922729A
Other languages
English (en)
Inventor
J·R·诺格拉斯
V·杰恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101051945A publication Critical patent/CN101051945A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0784Routing of error reports, e.g. with a specific transmission path or data flow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/40Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/30Definitions, standards or architectural aspects of layered protocol stacks
    • H04L69/32Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
    • H04L69/322Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
    • H04L69/323Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the physical layer [OSI layer 1]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供了一种用于将物理设备的链路状态传播给与该物理设备相关联的一个或多个虚拟设备的方法、装置和计算机指令。使用分区管理固件来识别表明物理设备中存在故障的关于该物理设备的链路状态信息。关于该物理设备的链路状态信息通过分区管理固件传播给与该物理设备相关联的一个或多个虚拟设备。使用该虚拟设备的逻辑分区使用该虚拟设备链路状态来确定到外部网络的物理链路是否掉线了,并且在有必要的情况下采取适当的补救措施。

Description

用于管理逻辑分区数据处理系统中的适配器的方法和系统
技术领域
本发明一般地涉及一种改进的数据处理系统并且特别地涉及一种用于处理数据的改进的方法和装置。更特别地,本发明提供了一种用于将来自物理以太网适配器的链路状态信息传播给具有逻辑分区(LPAR)的数据处理系统中的虚拟以太网适配器的方法和装置。
背景技术
在可被分为逻辑分区(LPAR)的数据处理系统中,使用虚拟以太网适配器(VEA)来提供逻辑分区之间的网络连通性。就逻辑分区的操作系统而言,虚拟以太网适配器的行为就和任意常规物理以太网适配器(PEA)一样。分区管理固件连接各个逻辑分区并且提供它们之间的网络连通性。管理程序(Hypervisor)是这种分区管理固件的一个例子。当网络活动被限制为逻辑分区之间的活动时,不需要虚拟以太网适配器的任何物理对应物。为此,尽管物理以太网适配器可能例如由于硬件故障、拔出以太网电缆和交换机存在故障而发生故障,但虚拟以太网适配器不会以这些方式发生故障。
然而,如果任意逻辑分区希望与由诸如管理程序之类的分区管理固件层提供的网络外部的数据处理系统进行通信,则需要像物理以太网适配器这样的物理设备。当物理以太网适配器成为包括虚拟以太网适配器和逻辑分区的通信网络的一部分时,必须考虑到由于到外部网络的物理链路有可能发生故障而引起的弱点。当前,当物理以太网适配器发生故障,或者到外部网络的物理链路发生故障时,虚拟以太网适配器不知道该情况。因此,使用虚拟以太网适配器的逻辑分区也不知道物理链路的故障。如果逻辑分区能够通过虚拟以太网适配器意识到物理以太网适配器或物理链路的故障,则逻辑分区可以采取措施来应对这种故障,并且利用逻辑分区配置中已经提供的方法来使用备用手段以重建外部网络通信。
目前,逻辑分区中的虚拟以太网适配器无法知道物理链路已经中断或者已经“掉线”。虚拟以太网适配器不知道物理以太网适配器的链路状态主要是因为虚拟以太网适配器和物理以太网适配器位于不同的逻辑分区上。因此,逻辑分区的任何上层,例如网际协议(IP)接口,也无法知道链路已经“掉线”。缺乏该信息使得逻辑分区的操作系统假定正在使用的虚拟以太网适配器操作正常,并且阻止诸如高可用性集群多处理(HACMP)和链路汇聚(Link Aggregation)之类的高可用性解决方案对中断的物理链路作出反应。
因此,有利的是具有一种改进的方法、装置和计算机指令,用于将物理以太网适配器的链路状态传播给虚拟以太网适配器,从而逻辑分区和逻辑分区中的其他上层可以采取适当的措施来处理中断的到外部网络的物理链路。
发明内容
说明性的实施例提供了一种用于管理逻辑分区数据处理系统中的适配器的计算机实现的方法、装置和计算机可用的程序代码。分区管理固件识别与一组虚拟适配器相关联并且被该组虚拟适配器使用的物理适配器。分区管理固件识别表明物理适配器中存在故障的该物理适配器的链路状态,并且将该链路状态发送给该组关联的虚拟适配器以作为该组虚拟适配器中的每个虚拟适配器的链路状态。
附图说明
在所附的权利要求中阐述了确信是本发明特性的新颖特征。然而,通过参考以下结合附图而阅读的对说明性实施例的详细描述可以最佳地理解本发明本身及其优选的使用模式、另外的目的和优点,在附图中:
图1是其中可以实现说明性实施例的数据处理系统的框图;
图2是其中可以实现说明性实施例的示例性逻辑分区平台的框图;
图3是根据说明性实施例说明连接到外部网络的逻辑分区数据处理系统的框图;
图4是根据说明性实施例说明将物理以太网适配器链路状态传播给关联的虚拟以太网适配器的步骤的流程图;并且
图5是根据说明性实施例说明逻辑分区中的上层如何使用虚拟以太网适配器链路状态来管理通过虚拟以太网适配器的数据流的流程图。
具体实施方式
现在参考各图,并且特别地参考图1,描述了其中可以实现说明性实施例的数据处理系统的框图。数据处理系统100可以是对称多处理器(SMP)系统,其包括多个处理器101、102、103和104,它们连接到系统总线106。例如,数据处理系统100可以是IBM eServer,即纽约阿芒克的国际商业机器公司的一款产品,实现为网络中的服务器。作为替代,可以使用单处理器系统。同样连接到系统总线106的是存储控制器/高速缓存108,其提供到多个本地存储器160-163的接口。I/O总线桥110连接到系统总线106,并且提供到I/O总线112的接口。存储控制器/高速缓存108和I/O总线桥110可以如描述的那样相集成。
数据处理系统100是逻辑分区(LPAR)数据处理系统。因此,数据处理系统100可以具有同时运行的多个异种操作系统(或单一操作系统的多个实例)。这多个操作系统中的每个操作系统可以在其内部执行任意数目的软件程序。数据处理系统100是经逻辑分区的,使得可以将不同的PCI I/O适配器120-121、128-129和136,图形适配器148以及硬盘适配器149分配给不同的逻辑分区。在该情况下,图形适配器148针对显示设备(未示出)进行连接,而硬盘适配器149连接到硬盘150并且控制硬盘150。
因此,例如,假设数据处理系统100被分为三个逻辑分区P1、P2和P3。PCI I/O适配器120-121、128-129和136,图形适配器148以及硬盘适配器149中的每一个,主处理器101-104中的每一个,以及本地存储器160-163中的存储器被分配给这三个分区中的每一个。在这些例子中,存储器160-163可以采取双列直插式存储器模块(DIMM)的形式。DIMM通常不会在每DIMM的基础上被分配给分区。相反,一个分区将获得平台所见的全部存储器的一部分。例如,处理器101,本地存储器160-163中的存储器的某个部分,以及I/O适配器120、128和129可以被分配给逻辑分区P1;处理器102-103,本地存储器160-163中的存储器的某个部分,以及PCI I/O适配器121和136可以被分配给逻辑分区P2;而处理器104,本地存储器160-163中的存储器的某个部分,以及图形适配器148和硬盘适配器149可以被分配给逻辑分区P3。
在数据处理系统100中执行的每个操作系统被分配给不同的逻辑分区。因此,数据处理系统100中执行的每个操作系统只可以访问其逻辑分区内的那些I/O单元。因此,例如,可以在分区P1内执行高级交互执行(AIX)操作系统的一个实例,可以在分区P2内执行AIX的第二实例(映像),并且可以在逻辑分区P3内执行Linux或OS/400操作系统。
连接到I/O总线112的外围组件互联(PCI)主桥114提供到PCI本地总线115的接口。多个PCI输入/输出适配器120-121通过PCI-PCI桥116、PCI总线118、PCI总线119、I/O插槽170和I/O插槽171连接到PCI总线115。PCI-PCI桥116提供到PCI总线118和PCI总线119的接口。PCI I/O适配器120和121分别被放置到I/O插槽170和171中。典型的PCI总线实现支持四个到八个I/O适配器(即,用于内插式连接器的扩展插槽)。每个PCI I/O适配器120-121提供数据处理系统100与输入/输出设备之间的接口,该输入/输出设备例如其他网络计算机,其是数据处理系统100的客户端。
附加PCI主桥122为附加PCI总线123提供接口。PCI总线123连接到多个PCI I/O适配器128-129。PCI I/O适配器128-129通过PCI-PCI桥124、PCI总线126、PCI总线127、I/O插槽172和I/O插槽173连接到PCI总线123。PCI-PCI桥124提供到PCI总线126和PCI总线127的接口。PCI I/O适配器128和129分别被放置到I/O插槽172和173中。以这种方式,可以通过每个PCI I/O适配器128-129支持诸如调制解调器或网络适配器之类的附加I/O设备。因此,数据处理系统100可实现到多个网络计算机的连接。
存储映射图形适配器148被插入I/O插槽174,并且通过PCI总线144、PCI-PCI桥142、PCI总线141和PCI主桥140连接到I/O总线112。硬盘适配器149可以被放置到I/O插槽175中,该I/O插槽175连接到PCI总线145。接着,该总线连接到PCI-PCI桥142,该PCI-PCI桥142通过PCI总线141连接到PCI主桥140。
PCI主桥130为PCI总线131提供连接到I/O总线112的接口。PCII/O适配器136连接到I/O插槽176,该I/O插槽176通过PCI总线133连接到PCI-PCI桥132。PCI-PCI桥132连接到PCI总线131。该PCI总线还将PCI主桥130连接到服务处理器邮箱接口和ISA总线访问传递(pass-through)逻辑194以及PCI-PCI桥132。服务处理器邮箱接口和ISA总线访问传递逻辑194转发去往PCI/ISA桥193的PCI访问。NVRAM存储器192连接到ISA总线196。服务处理器135通过其本地PCI总线195连接到服务处理器邮箱接口和ISA总线访问传递逻辑194。服务处理器135还经由多个JTAG/I2C总线134连接到处理器101-104。JTAG/I2C总线134是JTAG/扫描总线(参见IEEE 1149.1)和飞利浦I2C总线的组合。然而,作为替代,JTAG/I2C总线134可以仅用飞利浦I2C总线或仅用JTAG/扫描总线来替代。主处理器101、102、103和104的所有SP-ATTN信号一起连接到服务处理器135的中断输入信号。服务处理器135具有其自己的本地存储器191,并且有权访问硬件OP面板190。
当数据处理系统100初始开机时,服务处理器135使用JTAG/I2C总线134来询问系统(主)处理器101-104、存储控制器/高速缓存108和I/O桥110。在完成该步骤后,服务处理器135就具有了对该数据处理系统100的设备清单和拓扑的理解。服务处理器135还对通过询问主处理器101-104、存储控制器/高速缓存108和I/O总线桥110而发现的所有元件执行内置自测试(BIST)、基本保证测试(BAT)和存储器测试。由服务处理器135收集和报告针对在BIST、BAT和存储器测试期间检测到的故障的任何错误信息。
如果去掉在BIST、BAT和存储器测试期间发现的存在故障的元件后仍然可能存在系统资源的有意义的/有效的配置,则数据处理系统100可以继续进行到将可执行代码加载到本地(主)存储器160-163中。然后,服务处理器135释放主处理器101-104以便执行加载到本地存储器160-163中的代码。在主处理器101-104执行来自数据处理系统100内的各个操作系统的代码的同时,服务处理器135进入监视和报告错误的模式。服务处理器135监视的项目类型包括例如冷却风扇速度和操作、热传感器、电源调节器以及处理器101-104、本地存储器160-163和I/O桥110报告的可恢复的和不可恢复的错误。
服务处理器135保存和报告与数据处理系统100中的所有被监视项目有关的错误信息。服务处理器135还基于错误类型和所确定的阈值来采取措施。例如,服务处理器135可以记录处理器的高速缓冲存储器上的过多的可恢复错误,并且判定这是硬件故障的前兆。基于该判定,服务处理器135可以标出该资源,以便在当前正在运行的会话和将来的初始程序加载(IPL)期间取消配置。IPL有时也称作“引导”或“引导程序”。
数据处理系统100可以使用各种商用计算机系统来实现。例如,数据处理系统100可以使用可从国际商业机器公司获得的IBM eServeriSeries Model 840系统来实现。这样的系统可以支持使用OS/400操作系统的逻辑分区,OS/400操作系统也可以从国际商业机器公司获得。
本领域的普通技术人员将明白图1描述的硬件可以变化。例如,还可以使用诸如光盘驱动器等其他外围设备作为所描述的硬件的补充或替代。所描述的例子并不意味着暗示将体系结构限制为说明性的实施例。
现在参考图2,描述了其中可以实现说明性实施例的示例性逻辑分区平台的框图。逻辑分区平台200中的硬件可以实现为例如图1中的数据处理系统100。逻辑分区平台200包括经分区的硬件230,操作系统202、204、206、208,以及分区管理固件210。操作系统202、204、206和208可以是同时运行在逻辑分区平台200上的单一操作系统的多个副本或者多个异种操作系统。这些操作系统可以使用OS/400来实现,OS/400被设计为与诸如管理程序之类的分区管理固件接口连接。OS/400仅是用作这些说明性实施例的一个例子。当然,可以基于特定的实现而使用其他类型的操作系统,诸如AIX和Linux。操作系统202、204、206和208位于分区203、205、207和209中。管理程序软件是可以用来实现分区管理固件210的软件的一个例子,并且可以从国际商业机器公司获得。固件是存储在断电时能保持其内容的存储器芯片中的“软件”,该存储器芯片诸如只读存储器(ROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)和非易失性随机存取存储器(非易失性RAM)。
另外,这些分区还包括分区固件211、213、215和217。分区固件211、213、215和217可以使用初始引导程序代码、IEEE-1275标准开放固件和运行时抽象软件(RTAS)来实现,其中RTAS可以从国际商业机器公司获得。当分区203、205、207和209被初始化时,由平台固件210将引导程序代码的副本加载到分区203、205、207和209上。此后,将控制转移给引导程序代码,接着引导程序代码加载开放固件和RTAS。接着,将与分区相关联的处理器或分配给分区的处理器指派给分区的存储器,以便执行分区固件。
经分区的硬件230包括多个处理器232-238、多个系统内存单元240-246、多个输入/输出(I/O)适配器248-262和存储单元270。可以将处理器232-238、内存单元240-246、NVRAM存储器298和I/O适配器248-262中的每一个分配给逻辑分区平台200内的多个分区之一,每个分区对应于操作系统202、204、206和208之一。
分区管理固件210执行用于分区203、205、207和209的多个功能和服务以创建和实施对逻辑分区平台200的分区。分区管理固件210是固件实现的虚拟机,其与下层硬件相同。因此,通过对逻辑分区平台200的所有硬件资源进行虚拟化,分区管理固件210可实现同时执行独立的OS映像202、204、206和208。
服务处理器290可以用于提供各种服务,诸如处理分区中的平台错误。这些服务还可以用作服务代理以将错误报告回厂家,诸如国际商业机器公司。可以通过诸如硬件管理控制台280之类的硬件管理控制台来控制不同分区的操作。硬件管理控制台280是单独的数据处理系统,系统管理员可以从中执行各种功能,包括将资源重分配给不同的分区。
各逻辑分区可以使用虚拟以太网适配器在它们之间进行通信。需要访问外部网络的逻辑分区经由虚拟以太网适配器来利用物理以太网适配器(PEA)。现有技术不提供向逻辑分区通知到外部网络的基于虚拟以太网适配器的链路的状态的途径。目前,逻辑分区中的虚拟以太网适配器无法知道物理链路已经中断,或者已经“掉线”。虚拟以太网适配器不知道物理以太网适配器的链路状态主要是因为虚拟以太网适配器和物理以太网适配器位于不同的逻辑分区上。因此,逻辑分区的任何上层,例如网际协议(IP)接口,也无法知道链路已经“掉线”。缺乏该信息使得逻辑分区的操作系统假定正在使用的虚拟以太网适配器操作正常,并且阻止诸如高可用性集群多处理(HACMP)和链路汇聚之类的高可用性解决方案对中断的物理链路作出反应。
说明性实施例的各个方面提供了一种用于将物理以太网适配器的链路状态传播给虚拟以太网适配器的方法和装置。通过说明性实施例的各个方面,逻辑分区可以从位于该分区上的虚拟以太网适配器了解到外部网络的链路的状态。传统上,逻辑分区通过向外部网络上的已知的固定IP地址发送“ping”请求来确定物理链路是接通的还是“掉线”的。另外,该说明性实施例不再需要从逻辑分区向固定的IP地址发送“ping”请求并且分析“ping”请求的结果以确定到外部网络的链路是接通的还是掉线的。另外,该说明性实施例不再需要“ping”方法所需的额外网络带宽,比“ping”方法快得多,并且使得上层在检测到物理链路掉线时也能以这些上层已经惯用的方式操作。例如,可以使用设计为在物理链路发生故障的情况下进行故障切换(failover)的方法以在虚拟以太网适配器报告“掉线”的链路状态时同样进行故障切换。
该说明性实施例的各个方面还提供了相对于“ping”方法的另一优点。“ping”方法可能偶尔会由于并非由物理以太网适配器故障引起的“ping”返回的假性延迟而引起错误的故障切换。该说明性实施例不会引起这种错误的故障切换,原因是本发明并不依赖于“ping”返回。
现在转到图3,根据说明性实施例而描述了说明连接到外部网络的逻辑分区数据处理系统的框图。在该例子中,示出了逻辑分区302、304和306,每个逻辑分区与图2中的203、205、207和209中的任意一个相似。逻辑分区304和306包含虚拟以太网适配器312和314。
在使用逻辑分区的数据处理系统中,每个逻辑分区包含诸如虚拟以太网适配器或虚拟以太网桥(VEB,Virtual Ethernet Bridge)之类的虚拟设备。诸如虚拟以太网适配器之类的虚拟设备使得逻辑分区能够使用诸如管理程序之类的分区管理固件在它们之间进行通信。此处,IBM的管理程序产品仅被用作分区管理固件的一个例子。这样的使用并非旨在仅将说明性实施例限制为来自IBM的管理程序产品。本领域的普通技术人员将明白,可以使用其他分区管理固件产品来实现说明性实施例。
逻辑分区可能希望与外部网络360中的数据处理系统进行通信。外部网络360是逻辑分区连接到的分区管理固件340之外的网络。当期望这种到外部网络的连通性时,需要虚拟以太网桥320。虚拟以太网桥320是这样一种软件组件,其在虚拟网络和物理网络之间进行桥接或者用于在虚拟网络和物理网络之间传送数据,反之亦然。通常,流向和流出虚拟以太网适配器和物理以太网适配器的所有数据都经过虚拟以太网桥。根据说明性实施例,连接各个逻辑分区302、304和306的分区管理固件340是虚拟网络的一个例子,而外部网络360是物理网络的一个例子。为了获得该功能,虚拟以太网桥320有权访问至少一个物理以太网适配器322以能够与外部网络360进行通信。
在可能存在于逻辑分区配置中的各个逻辑分区中,将一个逻辑分区指定为具有这些例子中的虚拟以太网桥。尽管只示出了一个虚拟以太网桥320,但是在逻辑分区配置中可以存在多个虚拟以太网桥。所说明的实施例仅涉及一个这样的指定逻辑分区,在该逻辑分区上具有一个这样的虚拟以太网桥。逻辑分区302被示出为具有虚拟以太网桥320的指定逻辑分区。虚拟以太网桥320所连接的物理以太网适配器322也位于该指定逻辑分区302上。根据说明性实施例,该虚拟以太网桥存在于一个逻辑分区中,并且所有的其他逻辑分区可以使用其虚拟以太网适配器经由分区管理固件接到同一虚拟以太网桥,以便与外部网络进行通信。
向外部网络发送数据的逻辑分区将该数据发送给位于该分区上的虚拟以太网适配器。该虚拟以太网适配器与分区管理固件进行通信以将该数据传送给位于不同分区上的虚拟以太网桥。一旦数据到达虚拟以太网桥,就将该数据路由到与该虚拟以太网桥相关联的物理以太网适配器。物理以太网适配器将数据放置在外部网络上,以便使用诸如TCP/IP之类的所选择的数据通信协议将该数据发送到其最终目的地。相反,当外部网络向逻辑分区发送数据时,将数据发送给位于逻辑分区之一上的物理以太网适配器。物理以太网适配器将该数据传送给位于同一分区上的虚拟以太网桥。一旦数据到达虚拟以太网桥,就将该数据路由到位于目的地逻辑分区上的虚拟以太网适配器。
现在转到图4,根据说明性实施例描述了说明向关联的虚拟以太网适配器传播物理以太网适配器链路状态的操作的流程图。图4中说明的处理可以在固件组件中实现,固件组件诸如图3中示出的分区管理固件340。
该处理开始时,确定物理以太网适配器是否被虚拟以太网桥使用并且识别该物理以太网适配器(步骤404)。执行这种识别的方式之一是通过使用虚拟以太网桥的绑定信息。该绑定信息表明了虚拟以太网桥是否被“绑定”到一个物理以太网适配器并且正在使用该物理以太网适配器。下一步,该处理识别使用该虚拟以太网桥的所有的虚拟以太网适配器(步骤406)。在使用虚拟以太网桥的逻辑分区配置中可能存在一个或多个虚拟以太网适配器。通过步骤406中的确定,分区管理固件确定哪些虚拟以太网适配器和哪些逻辑分区参与了与外部网络的通信,其中的外部网络如图3中示出的外部网络360。
下一步,该处理确定物理以太网适配器的链路状态(步骤408)。一种确定物理以太网适配器的链路状态的方式将是使用符合公共数据链路接口(CDLL-compliant)的以太网适配器,该以太网适配器能够向上层返回异步状态通知,声明它们的链路已经“掉线”或者已经变为“接通”。目前,现有的数据处理系统利用了物理以太网适配器的这些能力。此处描述的这种用于确定链路状态的方法仅作为示例性的说明,并非旨在限于说明性实施例。
下一步,处理确定由物理以太网适配器报告的链路状态是否反映该链路“掉线”了(步骤410)。只要物理以太网适配器报告链路状态为“接通”(步骤410的“否”输出),该处理就重复检查物理以太网适配器。如果该处理根据物理以太网适配器链路状态确定到外部网络的链路“掉线”了(步骤410的“是”输出),该处理就通过虚拟以太网桥向使用该物理以太网适配器的所有虚拟以太网适配器通报“掉线”的链路状态(步骤412)。通常,分区管理固件将通过信号将该链路状态通知给虚拟设备的设备驱动器。设备驱动器可以接受分区管理固件通过信号通知的链路状态,并且根据实现设备驱动器的操作系统来进一步对其作出反应。
接着,逻辑分区的上层可以利用虚拟以太网适配器链路状态,就仿佛上层在从物理以太网适配器接收该链路状态通知一样。诸如IP接口之类的上层已经实现了用于确定物理以太网适配器的链路状态的方法。一种这样的方法是对物理以太网适配器进行轮询。通过对物理以太网适配器进行轮询,上层会知道物理以太网适配器链路是接通的还是掉线的。即使可以对虚拟以太网适配器使用相同的轮询方法,目前上层也不能对虚拟以太网适配器进行轮询,原因是现有技术不支持虚拟以太网适配器的链路状态。利用说明性实施例的各个方面,上层将能够对使用现有方法的所有适配器进行轮询,而不管该适配器是物理以太网适配器还是虚拟以太网适配器,原因是从任一类型的适配器都可以得到链路状态。
现在转到图5,其中的流程图说明了逻辑分区中的上层如何利用虚拟以太网适配器的链路状态。图4说明的处理可以在固件组件中实现,该固件组件诸如图3中示出的分区管理固件340。
该处理开始时,上层轮询虚拟以太网适配器的链路状态(步骤504)。上层可以像现有的上层方法对物理以太网适配器进行轮询那样轮询虚拟以太网适配器的链路状态。如果虚拟以太网适配器的链路状态是“接通”(步骤506的“接通”分支),则该处理使用虚拟以太网适配器来向外部网络360发送数据和从外部网络360接收数据(步骤508)。如果虚拟以太网适配器的链路状态是“掉线”(步骤506的“掉线”分支),则该处理采取措施以处理虚拟以太网适配器故障并且发现用于向外部网络360发送数据和从外部网络360接收数据的替代路由(步骤510)。上层可以使用已经存在的用于处理物理以太网适配器故障的方法来完成步骤510。
说明性实施例提供了一种用于提供逻辑分区环境中的虚拟以太网适配器的链路状态信息的机制。虚拟以太网适配器的链路状态类似于已经可以从物理以太网适配器获得的链路状态。分区管理固件识别与一组虚拟适配器相关联的并且由该组虚拟适配器使用的物理适配器。分区管理固件识别物理适配器的链路状态,并且将该链路状态发送给该组关联的虚拟适配器以作为该组虚拟适配器中的每个虚拟适配器的链路状态。
与物理以太网适配器用于显示链路状态通知的能力相似的虚拟以太网适配器用于显示链路状态通知的能力具有编程和管理上的优点。不再需要对逻辑分区的上层或使用到外部网络的通信链路的应用进行修改以绕过缺乏来自虚拟以太网适配器的这种通知的问题。当使用虚拟以太网适配器进行通信时,高可用性解决方案可以继续使用为处理物理以太网适配器的故障和物理链路的故障而开发的方法。
本发明可以采取完全硬件实施例的形式、完全软件实施例的形式或者同时包含硬件单元和软件单元的形式。在一个优选的实施例中,本发明以软件来实现,该软件包括但不限于固件、驻留软件、微代码等。
此外,本发明可以采取可从计算机可用的或计算机可读的介质访问的计算机程序产品的形式,其中该介质提供用于由计算机或任意指令执行系统使用或者结合计算机或任何指令系统使用的程序代码。出于该描述的目的,计算机可用的或计算机可读的介质可以是任意一种包含、存储、传送、传播或传输用于由指令执行系统、装置或设备使用或者结合指令执行系统、装置或设备使用的程序的有形装置。
这些介质可以是电的、磁的、光的、电磁的、红外的或半导体的系统(或装置或设备)或者传播媒介。计算机可读介质的例子包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘的当前例子包括压缩盘-只读存储器(CD-ROM)、可读写压缩盘(CD-R/W)和DVD。
适用于存储和/或执行程序代码的数据处理系统将包括至少一个直接耦合到或者通过系统总线耦合到存储单元的处理器。存储单元可以包括在实际执行程序代码期间使用的本地存储器、大容量存储器和高速缓冲存储器,这些高速缓冲存储器提供对至少某些程序代码的临时存储,以便减少在执行期间必须从大容量存储器获取代码的次数。
输入/输出或I/O设备(包括但不限于键盘、显示器、指示设备等)可以直接地或者通过中间I/O控制器耦合到系统。
网络适配器也可以耦合到系统,以便使数据处理系统能够耦合到其他数据处理系统或者通过中间专用网络或公共网络耦合到远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡只是一些当前可用的网络适配器类型。
越来越多的大型对称多处理器数据处理系统,诸如可从国际商业机器公司获得的IBM eServer P690、可从惠普公司获得的DHP9000高端企业服务器(Superdome Enterprise Server)和可从Sun微系统有限公司获得的Sunfire 15K服务器,不用作单一大型数据处理系统。相反,这些类型的数据处理系统被分区并且用作多个较小的系统。这些系统也称作为逻辑分区(LPAR)数据处理系统。数据处理系统中的逻辑分区功能性可实现在单一数据处理系统平台上同时运行单一操作系统的多个副本或者多个异种操作系统。给其中运行有操作系统映像的分区分配不重叠的平台资源子集。这些平台可分配资源(platform allocatableresource)包括一个或多个体系结构截然不同的处理器,这些处理器具有它们的中断管理区、系统内存区域和输入/输出(I/O)适配器总线插槽。由平台的固件向操作系统镜像呈现分区的资源。
一个平台内运行的每个截然不同的操作系统或操作系统的映像受到保护,从而不会互相影响,因此一个逻辑分区上的软件错误不会影响任何其他分区的正确操作。通过将一组不连续的平台资源分配为直接由每个操作系统映像管理并且通过提供用于保证各种映像不会控制没有分配给该映像的任何资源的机制而提供该保护。此外,防止在对分配给操作系统的资源进行控制时的软件错误影响任何其他映像的资源。因此,操作系统的每个映像或者每个不同的操作系统直接控制平台内的一组截然不同的可分配资源。
对于逻辑分区数据处理系统中的硬件资源,这些资源在各个分区之间不连续地进行共享。这些资源可以包括例如输入/输出(I/O)适配器、存储器DIMM、非易失性随机存取存储器(NVRAM)和硬盘驱动器。可以一次又一次地引导或关闭LPAR数据处理系统内的每个分区,而不需要对整个数据处理系统进行重启(power-circle)。
重要的是注意到,尽管已经在全功能数据处理系统的上下文中描述了说明性实施例,但是本领域的普通技术人员将明白,说明性实施例的处理能够以指令的计算机可读介质的形式和各种形式分布,并且不管实际用于执行该分布的信号承载介质的特定类型如何,该说明性实施例同样适用。计算机可读介质的例子包括可记录类型的介质,诸如软盘、硬盘驱动器、RAM、CD-ROM、DVD-ROM,以及传输类型的介质,诸如数字的和模拟的通信链路、使用诸如无线电频率和光波传输之类的传输形式的有线或无线的通信链路。计算机可读介质可以采取编码格式的形式,其中针对特定数据处理系统中的实际用途对这些编码格式进行解码。
出于说明和描述的目的,已经提出了对本发明的描述,并且该描述并非旨在穷举或者将本发明限于所公开的形式。对于本领域的普通技术人员,许多修改和变型是显而易见的。对实施例的选择和描述是为了最佳地说明本发明的原理、实际应用,并且使得本领域的普通技术人员能够理解本发明的具有适用于所考虑的特定用途的各种修改的各种实施例。

Claims (13)

1.一种用于管理逻辑分区数据处理系统中的适配器的计算机实现的方法,所述计算机实现的方法包括:
通过分区管理固件识别与所述逻辑分区数据处理系统中的一组虚拟适配器相关联的物理适配器;
通过所述分区管理固件识别所述物理适配器的链路状态;以及
响应于所述分区管理固件识别出表明所述物理适配器中存在故障的所述物理适配器的链路状态,将所述物理适配器的链路状态发送给所述一组虚拟适配器以作为所述一组虚拟适配器中的每个虚拟适配器的链路状态。
2.根据权利要求1所述的方法,其中所述物理适配器是物理以太网适配器,其中所述物理适配器的链路状态是所述物理以太网适配器的链路状态,其中所述一组虚拟适配器是一组虚拟以太网适配器,并且其中所述每个虚拟适配器的链路状态是所述一组虚拟以太网适配器中的每个虚拟以太网适配器的链路状态。
3.根据权利要求2所述的方法,其中多个虚拟以太网适配器中的每个虚拟以太网适配器位于多个逻辑分区中单独的一个逻辑分区上,并且其中所述多个逻辑分区连接到所述分区管理固件。
4.根据权利要求1所述的方法,其中使用桥来使所述物理适配器和所述一组虚拟适配器相关联。
5.根据权利要求4所述的方法,其中所述桥是虚拟以太网桥,并且其中所述桥和所述物理适配器位于专用逻辑分区上。
6.根据权利要求1所述的方法,其中逻辑分区的上层向所述一组虚拟适配器中的虚拟适配器轮询所述虚拟适配器的链路状态。
7.根据权利要求6所述的方法,其中所述上层使用所述虚拟适配器的链路状态来确定到网络的链路的状态。
8.一种用于管理逻辑分区数据处理系统中的适配器的数据处理系统,所述数据处理系统包括:
存储设备,其中所述存储设备存储计算机可用的程序代码;以及
处理器,其中所述处理器执行:
用于通过分区管理固件识别与所述逻辑分区数据处理系统中的一组虚拟适配器相关联的物理适配器的计算机可用的程序代码;
用于通过所述分区管理固件识别所述物理适配器的链路状态的计算机可用的程序代码;以及
响应于所述分区管理固件识别出表明所述物理适配器中存在故障的所述物理适配器的链路状态,用于将所述物理适配器的链路状态发送给所述一组虚拟适配器以作为所述一组虚拟适配器中的每个虚拟适配器的链路状态的计算机可用的程序代码。
9.根据权利要求8所述的数据处理系统,其中所述物理适配器是物理以太网适配器,其中所述物理适配器的链路状态是所述物理以太网适配器的链路状态,其中所述一组虚拟适配器是一组虚拟以太网适配器,并且其中所述每个虚拟适配器的链路状态是所述一组虚拟以太网适配器中的每个虚拟以太网适配器的链路状态。
10.根据权利要求9所述的数据处理系统,其中多个虚拟以太网适配器中的每个虚拟以太网适配器位于多个逻辑分区中单独的一个逻辑分区上,并且其中所述多个逻辑分区连接到所述分区管理固件。
11.根据权利要求8所述的数据处理系统,其中使用虚拟以太网桥来使所述物理适配器和所述一组虚拟适配器相关联,并且其中所述桥和所述物理适配器位于专用逻辑分区上。
12.根据权利要求8所述的数据处理系统,其中逻辑分区的上层向所述一组虚拟适配器中的虚拟适配器轮询所述虚拟适配器的链路状态。
13.根据权利要求12所述的数据处理系统,其中所述上层使用所述虚拟适配器的链路状态来确定到网络的链路的状态。
CNA2007100922729A 2006-04-04 2007-04-03 用于管理逻辑分区数据处理系统中的适配器的方法和系统 Pending CN101051945A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/397,845 US20070260910A1 (en) 2006-04-04 2006-04-04 Method and apparatus for propagating physical device link status to virtual devices
US11/397,845 2006-04-04

Publications (1)

Publication Number Publication Date
CN101051945A true CN101051945A (zh) 2007-10-10

Family

ID=38662513

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007100922729A Pending CN101051945A (zh) 2006-04-04 2007-04-03 用于管理逻辑分区数据处理系统中的适配器的方法和系统

Country Status (2)

Country Link
US (1) US20070260910A1 (zh)
CN (1) CN101051945A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103189847A (zh) * 2010-11-05 2013-07-03 国际商业机器公司 集群式数据处理系统中的存储装置管理
WO2013097745A1 (zh) * 2011-12-27 2013-07-04 华为技术有限公司 检测ip网络带宽的方法和装置
CN106330527A (zh) * 2015-07-03 2017-01-11 中兴通讯股份有限公司 路由链路状态数据的管理方法及装置
CN109361532A (zh) * 2018-09-11 2019-02-19 上海天旦网络科技发展有限公司 网络数据分析的高可用系统和方法及计算机可读存储介质

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4969258B2 (ja) * 2007-01-30 2012-07-04 株式会社日立製作所 仮想計算機システムのi/oデバイス障害処理方法
US8201166B2 (en) * 2008-04-30 2012-06-12 Hewlett-Packard Development Company, L.P. Virtualization platform configured with virtual connect control
US20100107148A1 (en) * 2008-10-28 2010-04-29 International Business Machines Corporation Check-stopping firmware implemented virtual communication channels without disabling all firmware functions
US20110103396A1 (en) 2009-10-29 2011-05-05 International Business Machines Corporation Selective link aggregation in a virtualized environment
US8385356B2 (en) 2010-03-31 2013-02-26 International Business Machines Corporation Data frame forwarding using a multitiered distributed virtual bridge hierarchy
US8594100B2 (en) 2010-03-31 2013-11-26 International Business Machines Corporation Data frame forwarding using a distributed virtual bridge
US8358661B2 (en) 2010-04-20 2013-01-22 International Business Machines Corporation Remote adapter configuration
US8489763B2 (en) 2010-04-20 2013-07-16 International Business Machines Corporation Distributed virtual bridge management
US8619796B2 (en) 2010-04-22 2013-12-31 International Business Machines Corporation Forwarding data frames with a distributed fiber channel forwarder
US8379642B2 (en) 2010-04-26 2013-02-19 International Business Machines Corporation Multicasting using a multitiered distributed virtual bridge hierarchy
US8644139B2 (en) 2010-04-26 2014-02-04 International Business Machines Corporation Priority based flow control within a virtual distributed bridge environment
US8369296B2 (en) 2010-04-26 2013-02-05 International Business Machines Corporation Distributed link aggregation
US8566257B2 (en) 2010-04-26 2013-10-22 International Business Machines Corporation Address data learning and registration within a distributed virtual bridge
US8447909B2 (en) 2010-07-19 2013-05-21 International Business Machines Corporation Register access in distributed virtual bridge environment
US8819235B2 (en) 2010-10-20 2014-08-26 International Business Machines Corporation Multi-adapter link aggregation for adapters with hardware based virtual bridges
US8755268B2 (en) 2010-12-09 2014-06-17 International Business Machines Corporation Communicating information in an information handling system
US8601134B1 (en) * 2011-06-30 2013-12-03 Amazon Technologies, Inc. Remote storage gateway management using gateway-initiated connections
US8891535B2 (en) 2012-01-18 2014-11-18 International Business Machines Corporation Managing a global forwarding table in a distributed switch
US8861400B2 (en) 2012-01-18 2014-10-14 International Business Machines Corporation Requesting multicast membership information in a distributed switch in response to a miss event
US8929254B2 (en) * 2012-10-30 2015-01-06 Ciena Corporation Systems and methods for constrained forwarding based packet network connectivity
US9344336B2 (en) * 2013-10-15 2016-05-17 Dell Products L.P. System and method for managing virtual link state
US10263832B1 (en) * 2016-12-29 2019-04-16 Juniper Networks, Inc. Physical interface to virtual interface fault propagation

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6651107B1 (en) * 1999-09-21 2003-11-18 Intel Corporation Reduced hardware network adapter and communication
US6823418B2 (en) * 2001-06-29 2004-11-23 Intel Corporation Virtual PCI device apparatus and method
JP3917491B2 (ja) * 2002-03-08 2007-05-23 株式会社ジェイテクト レンズアレイ及びレーザ集光装置
US6944847B2 (en) * 2002-05-02 2005-09-13 International Business Machines Corporation Virtualization of input/output devices in a logically partitioned data processing system
US7283473B2 (en) * 2003-04-10 2007-10-16 International Business Machines Corporation Apparatus, system and method for providing multiple logical channel adapters within a single physical channel adapter in a system area network

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103189847A (zh) * 2010-11-05 2013-07-03 国际商业机器公司 集群式数据处理系统中的存储装置管理
CN103189847B (zh) * 2010-11-05 2016-01-06 国际商业机器公司 用于操作数据处理系统的方法和装置
WO2013097745A1 (zh) * 2011-12-27 2013-07-04 华为技术有限公司 检测ip网络带宽的方法和装置
CN106330527A (zh) * 2015-07-03 2017-01-11 中兴通讯股份有限公司 路由链路状态数据的管理方法及装置
CN109361532A (zh) * 2018-09-11 2019-02-19 上海天旦网络科技发展有限公司 网络数据分析的高可用系统和方法及计算机可读存储介质

Also Published As

Publication number Publication date
US20070260910A1 (en) 2007-11-08

Similar Documents

Publication Publication Date Title
CN101051945A (zh) 用于管理逻辑分区数据处理系统中的适配器的方法和系统
US8381028B2 (en) Accelerating recovery in MPI environments
CN101165676B (zh) 隔离数据处理系统的多个输入/输出适配器单元的方法和系统
US7707465B2 (en) Routing of shared I/O fabric error messages in a multi-host environment to a master control root node
KR100530710B1 (ko) 이종 분할 시스템에서의 글로벌 에러 보고 방법 및 장치
US7484029B2 (en) Method, apparatus, and computer usable program code for migrating virtual adapters from source physical adapters to destination physical adapters
US7055071B2 (en) Method and apparatus for reporting error logs in a logical environment
EP2033101B1 (en) Computer-implemented method, apparatus, and computer program product for stalling dma operations during memory migration
US9189316B2 (en) Managing failover in clustered systems, after determining that a node has authority to make a decision on behalf of a sub-cluster
US20080273456A1 (en) Port Trunking Between Switches
US20080140824A1 (en) Partial link-down status for virtual ethernet adapters
JP2003323306A (ja) 論理パーティション・データ処理システムでのエラーまたはイベントを処理する方法、コンピュータ・プログラム、データ処理システム
CN1655123A (zh) 逻辑分区计算机系统各分区中逻辑资源共享结构和方法
US20100100892A1 (en) Managing hosted virtualized operating system environments
US20070174723A1 (en) Sub-second, zero-packet loss adapter failover
US7904564B2 (en) Method and apparatus for migrating access to block storage
JP2005327288A (ja) パーティション間の隠れストレージ・チャネル及びパーティション分析を排除する方法及び装置
US7617438B2 (en) Method and apparatus for supporting checksum offload in partitioned data processing systems
EP2375334A1 (en) Management device, management method, and program
US8024544B2 (en) Free resource error/event log for autonomic data processing system
US20080240127A1 (en) Method and apparatus for buffer linking in bridged networks
US7266631B2 (en) Isolation of input/output adapter traffic class/virtual channel and input/output ordering domains
US8139595B2 (en) Packet transfer in a virtual partitioned environment
US6898731B2 (en) System, method, and computer program product for preventing machine crashes due to hard errors in logically partitioned systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20071010

C20 Patent right or utility model deemed to be abandoned or is abandoned