CN116583825A - 多主机数据处理环境中的存储器迁移 - Google Patents
多主机数据处理环境中的存储器迁移 Download PDFInfo
- Publication number
- CN116583825A CN116583825A CN202180084177.2A CN202180084177A CN116583825A CN 116583825 A CN116583825 A CN 116583825A CN 202180084177 A CN202180084177 A CN 202180084177A CN 116583825 A CN116583825 A CN 116583825A
- Authority
- CN
- China
- Prior art keywords
- host
- memory
- source host
- destination host
- migrating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015654 memory Effects 0.000 title claims abstract description 359
- 238000012545 processing Methods 0.000 title claims abstract description 113
- 238000013508 migration Methods 0.000 title claims abstract description 72
- 230000005012 migration Effects 0.000 title claims abstract description 72
- 238000004891 communication Methods 0.000 claims abstract description 71
- 238000005192 partition Methods 0.000 claims abstract description 71
- 238000000034 method Methods 0.000 claims description 118
- 238000003860 storage Methods 0.000 claims description 42
- 238000013519 translation Methods 0.000 claims description 26
- 239000004744 fabric Substances 0.000 claims description 20
- 230000000977 initiatory effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 80
- 238000013461 design Methods 0.000 description 59
- 230000014616 translation Effects 0.000 description 23
- 239000008187 granular material Substances 0.000 description 16
- 238000012938 design process Methods 0.000 description 13
- 230000004044 response Effects 0.000 description 13
- 230000001427 coherent effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000004088 simulation Methods 0.000 description 10
- 238000012546 transfer Methods 0.000 description 8
- 238000004519 manufacturing process Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 4
- 239000000872 buffer Substances 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 238000005266 casting Methods 0.000 description 2
- 238000011010 flushing procedure Methods 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000000748 compression moulding Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011960 computer-aided design Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010894 electron beam technology Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000002076 thermal analysis method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0646—Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
- G06F3/0647—Migration mechanisms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0604—Improving or facilitating administration, e.g. storage management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0614—Improving the reliability of storage systems
- G06F3/0617—Improving the reliability of storage systems in relation to availability
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0673—Single storage device
- G06F3/0679—Non-volatile semiconductor memory device, e.g. flash memory, one time programmable memory [OTP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/4557—Distribution of virtual machine instances; Migration and load balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45583—Memory management, e.g. access or allocation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Memory System Of A Hierarchy Structure (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种数据处理系统包括系统结构、系统存储器、存储器控制器和链路控制器,该链路控制器通信地耦合到系统结构并且被配置为经由通信链路通信地耦合到源主机与其非相干的目的地主机。多个处理单元被配置为执行逻辑分区并且经由通信链路将逻辑分区迁移到目的地主机。逻辑分区的迁移包括经由通信链路将在源主机上执行的逻辑分区的数据集从源主机的系统存储器迁移到目的地主机的系统存储器。在迁移数据集的至少一部分之后,逻辑分区的状态经由通信链路从源主机迁移到目的地主机,使得逻辑分区此后在目的地主机上执行。
Description
背景技术
本发明一般涉及数据处理,并且特别涉及多主机数据处理环境内的存储器迁移。
通常,云计算是指其中数据处理、数据存储和网络资源、软件和数据对于远程数据处理系统可访问的计算模型,其中提供这样的资源的底层信息技术(IT)基础设施的细节对于云服务的消费者是透明的。在各种实现中,IT基础设施可以相对于云消费者是场内(on-premises)或场外(off-premises)(或两者的混合)。此外,云计算资源可以(但不要求)在地理上和/或拓扑上广泛分布。
云计算通过对远程计算网站的容易访问(例如,经由因特网或私有公司网络)来促进,并且经常采取云消费者可以通过web浏览器访问和使用的基于web的资源、工具或应用的形式,就好像资源、工具或应用是安装在云消费者的计算机系统上的本地程序一样。商业云实现通常被期望满足云消费者的服务质量(QoS)要求,其可以在服务级别协议(SLA)中指定。在典型的云实现中,云消费者消耗计算资源作为服务,并且仅为所使用的资源付费。
通过广泛利用虚拟化,已经促进了云计算的采用,虚拟化是创建计算资源的虚拟(而不是实际)实例,例如操作系统、服务器、存储设备、网络资源等。例如,虚拟机(VM),也称为逻辑分区(LPAR),是像物理机一样执行指令的物理机(例如,计算机系统)的软件实现。VM可以被分类为系统VM或进程VM。系统VM提供支持执行诸如Windows、Linux、Android等完整操作系统(OS)及其相关联的应用的完整系统平台。另一方面,进程VM通常被设计成运行单个程序并支持单个进程。在任一情况下,在VM上运行的任何应用软件都限于由该VM提供的资源和抽象。因此,通过部署可能来自多个不同云计算客户的多个VM,可以有效地管理和利用由公共IT基础设施提供的实际资源。实际IT资源的虚拟化和VM的管理通常由被称为VM监视器(VMM)或管理程序(hypervisor)的软件来提供。
在典型的虚拟化计算环境中,VM和VMM可以利用传统的输入/输出(I/O)和联网协议彼此通信,并且与计算环境的IT基础设施中的物理实体通信。如本领域所公知的,传统的网络协议通常以公知的七层开放系统互连(OSI)模型为前提,其包括(以升序)物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。在一些实现中,通过用虚拟网络连接代替传统的物理层连接,VM和VMM能够与其他网络实体通信,就好像VM和VMM是物理网络元件一样。这种传统的虚拟化I/O和网络基础结构在本领域中被称为虚拟输入输出服务器(VIOS)。
在如所描述的云计算环境中,计算工作负载一般可以被表征为包括两个组件:在执行工作负荷的物理主机的寄存器和高速缓存中维护的工作负荷状态以及驻留在物理主机的数据存储装置中的工作负荷数据集。这些计算工作负荷由于各种原因而频繁地在物理主机之间传送,这些原因包括例如数据处理系统维护和升级、负载平衡、规章合规、安全性和资源优化。
根据将执行工作负载从源主机传送到目的地主机的一种常规技术,源和目的地主机的操作系统或管理程序首先在逐存储器页(memory page-by-memory page)的基础上协调工作负载数据集经由VIOS从源主机的存储器到目的地主机的存储器的复制。在成功地传送工作负荷数据集之后,源和目的地主机的操作系统或管理程序协调工作负荷状态经由VIOS从源主机到目的地主机的传送。当在工作负荷从源主机转移到目的地主机期间工作负荷继续在源主机上运行时,工作负荷通常继续从工作负荷数据集读取和向其写入。使用该技术,由源主机对已经被传送到目的地主机的存储器页的每次更新(写入)都需要对现在更新的存储器页的第二传送,因此以不可预测的方式延长了工作负荷迁移所需的时间。
在一种替换技术中,源主机和目的地主机的操作系统或管理程序首先协调工作负荷状态经由VIOS从源主机到目的地主机的转移,开始在目的地主机上执行工作负荷,并且此后基于请求调页将存储器页从源主机迁移到目的地主机。因此,每当在目的地主机上执行的工作负载生成对驻留在源主机上的存储器页中的数据的访问请求时,生成软件页错误,并且操作系统或管理程序通过经由VIOS将所请求的存储器页从源主机复制到目的地主机来处理页错误。使用这种替代技术,存储器页仅从源主机传送到目的地主机一次,但是由于服务每个请求调页请求所需的显著等待时间,工作负载在整个工作负载迁移期间遭受差的响应性。
本文描述的两种传统工作负荷迁移技术都利用VIOS在非相干(non-coherent)主机之间转移工作负荷,VIOS的特征在于部分地由于必须被遍历以在主机之间传送工作负荷数据集和工作负荷状态的许多协议层而导致的高通信开销和延迟。
发明内容
本发明的各种实施例提供了对工作负载在非相干主机之间的动态迁移的支持,同时避免了与VIOS(或外部网络)相关联的通信开销和延迟,同时传送了工作负载状态和工作负载数据集。
在至少一个实施例中,一种服务于源主机的数据处理系统,逻辑分区从该源主机迁移,该数据处理系统可以包括系统结构、系统存储器、通信地耦合到系统结构的系统存储器的存储器控制器、以及通信地耦合到系统结构并被配置为经由通信链路通信地耦合到目的地主机的链路控制器,源主机与该目的地主机非相干。源主机另外包括通信地耦合到系统结构的多个处理单元。多个处理单元例如由管理程序或虚拟机监视器配置为执行具有驻留在系统存储器中的数据集的逻辑分区,并经由通信链路将逻辑分区迁移到目的地主机。逻辑分区的迁移包括经由通信链路将在源主机上执行的逻辑分区的数据集从源主机的系统存储器迁移到目的地主机的系统存储器。在迁移数据集的至少一部分之后,逻辑分区的状态经由通信链路从源主机迁移到目的地主机,使得逻辑分区此后在目的地主机上执行。这种迁移技术为迁移提供了减少的等待时间,并为逻辑分区提供了改进的抖动。
本发明的各方面也可被实现为数据处理的方法。在一个示例中,该方法可以包括经由通信链路将在源主机上执行的逻辑分区的数据集从源主机的系统存储器迁移到相对于源主机非相干的目的地主机的系统存储器。在迁移至少一部分数据集之后,经由通信链路将逻辑分区的状态从源主机迁移到目的地主机。在将逻辑分区的状态迁移到目的地主机之后,在目的地主机上执行逻辑分区。
本发明的各方面也可被实现为程序产品。在一个示例中,该程序产品包括计算机可读存储设备和存储在该计算机可读存储设备内的程序代码,当由用作源主机的数据处理系统执行时,该程序代码使该数据处理系统经由通信链路将在源主机上执行的逻辑分区的数据集从该源主机的系统存储器迁移到相对于该源主机非相干的目的地主机的系统存储器。该程序代码还使得数据处理系统在迁移至少一部分数据集之后,经由通信链路将逻辑分区的状态从源主机迁移到目的地主机,使得逻辑分区在目的地主机上执行。
在一些示例或操作场景中,迁移数据集包括在逻辑分区开始在目的地主机上执行之后将逻辑分区的数据集中的至少一些从源主机迁移到目的地主机。
在一些示例或操作场景中,迁移数据集包括源主机基于目的地主机的请求将数据集的一个或多个存储器页复制到目的地主机中的系统存储器。
在一些示例或操作场景中,迁移数据集包括源主机启动将数据集的一个或多个存储器页复制到目的地主机中的系统存储器。
在一些示例或操作场景中,数据集包括多个存储器页,每个存储器页具有相应的相关联的页表条目,该页表条目定义相关联的存储器页的虚拟到实地址转换,并且源主机在数据结构中跟踪多个存储器页的哪些页表条目已经被迁移到目的地主机。
在一些示例或操作场景中,迁移数据集包括源主机在系统结构上发出指定目的地主机的系统存储器中的实地址的存储请求,源主机中的链路控制器接收存储请求,并且基于实地址,经由通信链路将存储请求传送到目的地主机内的存储器控制器。
在一些示例中,迁移所述数据集包括源主机执行将数据集中经受由源主机更新的所有存储器页从源主机的高速缓存批量刷新到系统存储器。
在一些示例中,源主机利用经由网络连接的通信,诸如虚拟输入输出服务器(VIOS),协调逻辑分区从源主机到目的地主机的迁移,但是制止经由网络连接迁移数据集和逻辑分区的状态。
附图说明
现在将参考附图仅通过示例的方式描述本发明的实施例,在附图中:
图1是根据一个实施例的示例性主机数据处理系统的高级框图;
图2是根据一个实施例的主机数据处理系统的示例性处理单元的更详细的框图;
图3示出了根据一个实施例的示例性数据处理系统环境,其中多个主机通过非相干通信链路耦合在一起;
图4示出了根据一个实施例的示例性主机数据处理系统的管理程序和逻辑分区的逻辑视图;
图5示出了根据一个实施例的示例性页表条目(PTE);
图6描绘了根据一个实施例的示例性主机数据处理系统的各种存储器访问请求;
图7示出了根据一个实施例的示例性写入原语(primitive),两个主机数据处理系统可以通过该写入原语进行通信;
图8示出了根据一个实施例的两个主机数据处理系统可以用来通信的示例性读取原语;
图9是根据一个实施例的图7的写入原语中的示例性存储操作的高级逻辑流程图;
图10是根据一个实施例的图8的读取原语中的示例性加载操作的高级逻辑流程图;
图11A至图11B一起形成根据一个实施例的示例性方法的高级逻辑流程图,通过该方法,源主机将逻辑分区迁移到目的地主机;
图12是根据一个实施例的示例性方法的高级逻辑流程图,通过该示例性方法,源主机在逻辑分区的迁移期间处理页保护更新;
图13是根据一个实施例的示例性方法的高级逻辑流程图,通过该方法,源主机将逻辑分区的存储器页复制到目的地主机;
图14是根据一个实施例的示例性方法的高级逻辑流程图,目的地主机通过该方法接收和激活迁移逻辑分区;
图15是根据一个实施例的示例性方法的高级逻辑流程图,目的地主机通过该方法处理迁移逻辑分区的页错误;
图16是根据一个实施例的示例性方法的高级逻辑流程图,目的地主机通过该方法从源主机“拉取(pull)”迁移逻辑分区的存储器页;
图17是根据一个实施例的示例性方法的高级逻辑流程图,通过该方法,源主机处理来自目的地主机的对迁移逻辑分区的存储器页的“拉取”请求;
图18是根据一个实施例的示例性方法的高级逻辑流程图,通过该方法,源主机将迁移逻辑分区的存储器页“推送(push)”到目的地主机。
图19是根据一个实施例的示例性方法的高级逻辑流程图,目的地主机通过该方法处理来自源主机的对迁移逻辑分区的存储器页的“推送”请求;以及
图20是示出根据一个实施例的设计过程的数据流程图。
具体实施方式
现在参考附图,其中相同的附图标记始终表示相同和相应的部分,并且特别参考图1,示出了描述根据一个实施例的示例性数据处理系统100的高级框图。在各种使用情况和拓扑中,诸如数据处理系统100的数据处理系统,其包括硬件组件并且可以另外包括软件和/或固件组件,在本领域中可以被称为“主机”或“主机数据处理系统”。在各种操作场景中,任何给定主机可以是工作负载(例如,逻辑分区)可以从其迁移的源主机或工作负载被迁移到的目的地主机。
在所描述的实施例中,主机数据处理系统100是高速缓存一致多处理器(MP)数据处理系统,其包括用于处理数据和指令的多个处理节点102。处理节点102耦合到系统互连110,用于传送地址、数据和控制信息。系统互连110可以被实现为例如总线互连、交换互连或混合互连。
在所描述的实施例中,每个处理节点102被实现为包含一个或多个(例如,四个)处理单元104a-104d的多芯片模块(MCM),每个处理单元优选地被实现为相应的集成电路。每个处理节点102内的处理单元104通过本地互连114耦合以便彼此通信以及与系统互连110通信,该本地互连与系统互连110类似,例如可以利用一个或多个总线和/或开关来实现。系统互连110和本地互连114一起形成系统结构。在至少一些优选实施例中,系统结构上的通信符合所谓的主机总线协议,该协议特别定义了在通信参与方(例如,高速缓存、存储器控制器等)之间经由系统结构传送的合法请求、响应和控制信息的预定集合。
如以下参考图2更详细描述的,在一些实施例中,一个或多个处理单元104(以及可能所有处理单元104)各自包括耦合到本地互连114的存储器控制器106,以提供到相应系统存储器108的接口。驻留在系统存储器108中的数据和指令通常可以由数据处理系统100内的任何处理节点102的任何处理单元104中的处理器核访问、高速缓存和修改。在替代实施例中,一个或多个存储器控制器106(和系统存储器108)可以直接耦合或间接耦合(例如,经由交换机)到系统互连110而不是本地互连114。
本领域技术人员将理解,图1的数据处理系统100可以包括许多附加的未示出的组件,诸如互连桥接器、非易失性存储装置、用于连接到网络或附接设备的端口等。因为这些附加组件对于理解所描述的实施例不是必需的,所以它们未在图1中示出或在本文中进一步讨论。然而,还应当理解,本文描述的增强适用于不同架构的数据处理系统,并且决不限于图1中所示的一般化数据处理系统架构。
现在参考图2,描述了根据一个实施例的示例性处理单元104和系统存储器108的更详细的框图。在所描述的实施例中,每个处理单元104是包括用于处理指令和数据的一个或多个处理器核200的集成电路。在所描绘的示例中,处理器核200包括能够执行来自一个或多个同时硬件执行线程的指令的一个或多个执行单元202。
处理器核200还包括存储器管理单元(MMU)204,其负责将由执行单元202中的存储器引用指令的执行所确定的有效地址转换成由数据处理系统100内的所有处理单元104引用的实地址空间内的实地址。MMU 204通过参考一个或多个转换结构206,诸如转换后备缓冲器(TLB)、有效到实地址转换(ERAT)高速缓存、段后备缓冲器(SLB)等,执行有效到实地址转换。这些地址转换结构的数量和/或类型可以在实现和架构之间变化。地址转换结构206通过缓冲可以从系统存储器108检索的所选地址转换的本地副本来减少与地址转换相关联的等待时间,如下面进一步讨论的。
每个处理器核200的操作由多级存储器层次结构支持,该多级存储器层次结构在其最低层具有由各种系统存储器108提供的并且可经由存储器控制器106访问的复合系统存储器。例如,可以由管理程序和/或操作系统软件通过存储器控制器106内的一个或多个基址寄存器(BAR)216的适当配置来定义单独的存储器控制器106负责的(多个)实地址范围。如图所示,系统存储器108存储多个存储器页209,其提供了对各种工作负载的数据集(也称为“逻辑分区”(LPAR))的存储。另外,一个或多个系统存储器108存储包含多个页表条目(PTE)212的页帧表210,其中每个PTE 212为存在于系统存储器108之一中的相应的对应存储器页209指定有效到实地址的转换。PTE 212另外为不同的存储器页指定访问保护(例如只读、读/写(R/W)等)。MMU 204从页帧表210访问的PTE 212可以由MMU 204高速缓存,以便例如在地址转换结构206中进行后续访问。页帧表210可以例如通过在数据处理系统100内执行的操作系统和/或管理程序软件来建立、维护和更新。
每个处理器核200的多级存储器层次结构另外包括一级或多级高速缓存存储器,在说明性实施例中,其包括每个处理器核200内且对其专用的通过式存储一级(L1)高速缓存208和用于每个处理器核200的相应的存入二级(L2)高速缓存230。尽管所示的高速缓存层次结构仅包括两级高速缓存,但是本领域技术人员将理解,备选实施例可以包括附加级别(L3、L4等)的片上或片外、私有或共享、内嵌或后备高速缓存,其可以完全包括、部分包括或不包括较高级别的高速缓存的内容。
在所描述的实施例中,每个处理单元104还包括集成和分布式结构控制器214,其负责根据主机总线协议控制系统结构上的操作流,并且负责实现期望的高速缓存一致性协议所需的一致性通信。处理单元104还可包括支持一个或多个I/O设备和/或I/O通道(未示出)的附连的集成I/O(输入/输出)控制器218。
在所描绘的示例中,处理单元104还包括附加的非相干(NC)链路控制器220,其在至少一种操作模式中支持经由非相干通信链路附加到另一主机数据处理系统100的主机数据处理系统100。例如,图3示出了示例性数据处理系统环境300,其中主机数据处理系统100a和主机数据处理系统100b通过非相干通信链路302耦合在一起以进行通信。数据处理系统环境300可以可选地包括通过附加的非相干通信链路302耦合到主机100a和/或100b的一个或多个附加主机100。在这种布置中,主机数据处理系统100a、100b中的每一个都维持其自己的与其他主机非相干的相应实地址空间。每个主机100a、100b中的NC链路控制器220负责的实地址范围可例如由管理程序和/或操作系统软件通过NC链路控制器220内的一个或多个基址寄存器(BAR)224的适当配置来定义。一旦被配置,在主机100的系统结构上传输的指定由本地存储器控制器106的BAR 216定义的实地址范围内的实地址的存储器访问请求可以由该存储器控制器106通过参考相关联的系统存储器108来服务。NC链路控制器220通过NC通信链路106将系统结构上的指定了由NC链路控制器220的BAR224定义的实地址范围内的实地址的存储器访问请求传输至另一主机100a或100b。NC链路控制器220通过非相干通信链路302接收的入站存储器访问请求由NC链路控制器220在接收主机100的系统结构上发送。
再次参考图2,处理单元104还包括嵌套存储器管理单元(NMMU)228,其在经由系统结构请求时,向诸如NC链路控制器220的其他通信参与方提供地址转换。应当理解,在其他实现中,NMMU 228可以通信方式耦合,以替代或附加的方式向包括NC链路控制器220的通信参与方提供地址转换,例如,通过耦合至系统互连110而不是本地互连114。
图4描绘根据一个实施例的图1到图3的主机100a或100b的软件配置的逻辑视图。在该示例中,每个主机100的软件配置400包括管理主机100的硬件和软件资源的管理程序(或VMM)402。管理程序402通过实现一个或多个逻辑分区(LPAR)404来虚拟化主机100的许多底层资源。在该示例中,每个LPAR 404包括主机100的一个或多个处理器核200内的指定数量的硬件线程406、用于存储LPAR 404的数据集的指定实存储器地址处的存储器页408的集合(来自存储器页209)、操作系统410的实例(例如, 等)以及在OS 410上执行的应用412的集合。管理程序402还经由虚拟输入输出服务器(VIOS)420支持LPAR 404之间以及管理程序402与其他主机100之间的网络连接,其中VIOS虚拟化主机100经由I/O控制器218耦合到的物理网络连接。
如上所述,管理程序402可以确定出于各种原因中的任何原因,希望或需要将例如LPAR 404之一的活动工作负荷从其自己的主机100迁移到另一主机100。根据本文描述的实施例,迁移优选地通过NC通信链路302而不是通过VIOS 420支持的虚拟化网络连接(如常规的),将迁移LPAR 404的数据集和状态从LPAR 404最初在其上执行的主机100(本文称为“源主机”)复制到LPAR 404在其上继续其执行的另一主机100(本文称为“目的地主机”)。采用NC通信链路302而不是VIOS 420来迁移LPAR数据集具有减少或消除包括LPAR数据集的存储器页的重复传输的优点,从而加速LPAR迁移。采用NC通信链路302还具有为迁移LPAR的(一个或多个)应用412提供可预测的响应时间的优点。
现在参考图5,示出了根据一个实施例的示例性页表条目(PTE)212。在该示例中,PTE 212包括有效字段502,其指示PTE 212的内容是否有效,并且因此可用于在将存储器页209中相关联的一个中的虚拟地址转换为实地址时使用。另外,PTE 212包括虚拟地址(VA)字段504和实地址(RA)字段506,它们分别指定分配给相关联的存储器页209的基本存储位置的虚拟地址和实地址。PTE 212还包括指示相关联的存储器页209的一个或多个属性的一个或多个页保护字段。例如,在所示实施例中,页保护字段分别包括读(R)字段508和读写(RW)字段510,并且可替换地指示相关联的存储器页209是只读的还是受到读和写访问。此后,将假设字段值R=1、RW=0指示相关联的存储器页209是只读存储器页,并且字段值R=0、RW=1指示相关联的存储器页209是读写存储器页。
在所示的实施例中,PTE 212另外包括一个或多个迁移相关字段,迁移相关字段可以被管理程序402用来管理相关联的存储器页209从源主机100的系统存储器108到目的地主机100的系统存储器108的迁移。在该实施例中,这些迁移相关字段包括指示相关联的存储器页209是否已经从源主机100复制到目的地主机100的复制(CP)字段512、指示相关联的存储器页209中的所有数据是否已经被清除(即,所有修改的数据已经从高速缓存存储器写入到系统存储器108,使得系统存储器108中的存储器页的映像与任何高速缓存的数据一致)的清除(CL)字段514、以及指示PTE 212是否已经被迁移(即,驻留在目的地主机100的系统存储器108中)但未被验证的迁移(MI)字段516。应当理解,PTE 212中的迁移相关字段512-516的实现是设计选择,并且其它实施例可以从PTE 212中省略这些字段,而是利用一个或多个其它数据结构来管理LPAR数据集的迁移。
现在参考图6,描述了示例性主机数据处理系统100的各种存储器访问请求。在图6中,主机数据处理系统100(例如,主机数据处理系统100a)的核200在第一硬件线程中执行例如应用412的用户级指令,并且在第二硬件线程中执行管理程序402的指令。第一硬件线程中的用户级指令的执行生成存储器访问请求602,其中的每一个指定虚拟地址空间606中的要访问的相应目标虚拟(逻辑)地址(例如,虚拟地址610或612)。如上所述,核200的MMU204基于PTE212提供的地址转换,将目标虚拟地址610、612中的每一个转换成实地址空间608中的相应实地址614或616。在该示例中,实地址614标识本地存储器控制器106负责的主机数据处理系统100a的系统存储器108中的存储位置。相反,实地址616标识NC链路控制器220负责的主机数据处理系统100b的系统存储器108中的存储位置。因此,在主机数据处理系统100a的系统结构上传输的存储器访问请求可以启动对本地系统存储器108中的存储位置或另一主机数据处理系统100b(主机数据处理系统100a与其非相干)的远程系统存储器108中的存储位置的访问,这取决于主机数据处理系统100a、100b的管理程序402对实地址的分配。
在至少一些实施例中,管理程序402的存储器访问请求不需要经受应用于用户级存储器访问请求602的目标地址的相同地址转换。例如,图6进一步示出在核200的第二硬件线程中执行的管理程序402的指令也可生成存储器访问请求604。然而,在这种情况下,存储器访问请求604直接指定实地址空间608中的实地址614、616。因此,主机数据处理系统100a的管理程序402可以访问主机数据处理系统100a的本地系统存储器108中的存储位置和主机数据处理系统100b的远程系统存储器108中的存储位置,而不使用PTE 212中记录的虚拟到实地址转换。
现在参考图7,其示出了根据一个实施例的示例性写入原语700,通过该原语,主机数据处理系统100a、100b中的一个可以通过非相干通信链路302将数据写入到主机100a或100b中的另一个的系统存储器108中。写入原语700可以形成管理程序402、OS 410或应用412的指令序列的一部分。
如图所示,写入原语700包括将数据区组(granule)存储到存储器的第一存储操作702。图9提供了该存储操作的示例性实施例的高级逻辑流程图。在此所说明的实施例中,图9中所说明的存储操作开始于框900,且接着进行到框902,其说明主机100(下文中,假定为主机100a)的核200执行指定将数据区组存储到存储器的存储指令。在任何适用的虚拟到实地址转换之后,核200将该数据的区组存储到其与目标实地址相关联的高速缓存层次结构中(例如,在其L2高速缓存230中),该目标实地址被分配给另一主机100(即,主机100b)中的系统存储器108。因为主机100a、100b是非相干的,并且NC通信链路302不在主机100a、100b之间传送一致性消息,所以仅将数据区组存储到主机100a的高速缓存存储器中不足以向主机100b的硬件线程提供数据区组与目标实地址之间的关联的可见性。因此,存储操作还包括核200执行高速缓存清除指令以迫使数据区组从核200的高速缓存层次结构复制到主机100b的相关系统存储器108(框904)。此后,图9的过程在框906处结束。
回到图7,在存储操作702之后,写入原语700包括阻挡操作704,其在阻挡操作704之后的所有操作执行之前,对阻挡操作704之前的所有操作的执行按程序顺序进行排序。编程顺序写入原语700中的阻挡操作704之后包括第二存储操作706。存储操作706更新(例如,更新为值1)驻留在主机100a或主机100b的系统存储器108中的标志变量(其可由在主机100b上执行的过程轮询)以指示新数据区组已写入到主机100b的系统存储器108。如果标志驻留在主机100b上,则存储操作706可如上参考图9所述来执行。
现在参考图8,其中示出了根据一个实施例的示例性读取原语800,通过该原语,主机数据处理系统100a、100b之一可以通过非相干通信链路302从另一主机100a、100b的系统存储器108读取数据。读取原语800可以形成管理程序402、OS 410或应用412的指令序列的一部分。
如图所示,读取原语800包括从存储器加载标志的第一加载操作802。图10提供了该加载操作的示例性实施例的高级逻辑流程图。在此实施例中,加载操作开始于框1000,且接着进行到框1002,其说明主机100(下文中,假定为主机100a)的核200执行刷新(flush)指令,刷新指令指定从主机100a的高速缓存存储器移除主机100a内的与待加载的数据区组的实地址相关联的任何高速缓存数据(例如,标志)并将其写回到主机100b的相关存储器控制器106。加载操作还包括核200此后执行加载指令以从主机100b的相关系统存储器108加载数据区组(框1004)。此后,图10的过程在框1006处结束。
返回到图8,在加载操作802之后,加载原语800包括比较操作804,其将从主机100b加载的标志的值与预定值(例如,1)进行比较以确定加载数据的区组是否准备好被读取。如果比较操作804确定标志的值指示加载数据的区组准备好被读取,那么条件分支操作806致使加载原语800的执行继续进行加载操作810。从主机100b的系统存储器108加载数据区组的加载操作810可以如上文参考图10所述来执行,如果比较操作804确定指示加载数据区组未准备好读取的标志的值,那么分支操作808促使加载原语800的执行分支回到加载操作802,其已经被描述。
本领域的技术人员应当理解,以上参考图7至图10描述的信号量通信只是用于支持相互非相干的主机数据处理系统之间的读和写通信的多种替换技术中的一种。
现在参考图11A至图11B,示出了根据一个实施例的示例性方法的高层逻辑流程图,通过该方法,源主机100将LPAR 404从源主机100迁移到目的地主机100。该过程开始于框1100,并且前进到框1102,其示出源和目的地主机100(此后,分别假定为主机100a和100b)的管理程序402彼此通信以协商将主机100a、100b的资源(例如,硬件线程406、实存储器地址、存储器页209等)分配给LPAR 404,并建立某些存储器页209以供主机100a、110b之间的通信使用。在至少一些实施例中,源主机100a和目的地主机100b的管理程序402在框1102处经由VIOS 420通信。
处理从框1102进行到框1104,其示出源主机100a的管理程序402确定其是否已经完成将包括迁移LPAR 404的数据集的所有存储器页408从主机100a复制到主机100b中的系统存储器108。如果是,则该过程转到下面描述的框1112。然而,如果源主机100a的管理程序402在框1104确定包括从源主机100a到目的地主机100b的迁移LPAR的数据集的存储器页408的复制未完成,则该过程在框1106继续。框1106示出了源主机100a的管理程序402确定是否启动迁移LPAR 404的状态从源主机100a到目的地主机100b的移动。应当注意,管理程序402可以在迁移所有或一些数据集之前确定迁移LPAR 404的状态,或者可以等待迁移LPAR 404的状态,直到迁移LPAR 404的所有数据集都已经被复制到目的地主机100b。作为一个示例,管理程序402可以在框1106确定在作为最频繁(或最近)访问的存储器页408的子集中的所有存储器页408已经被迁移之后迁移LPAR 404的状态。响应于在框1106的肯定确定,该过程从框1106转到框1112。响应于在框1106处的否定确定,过程进行到框1108。
在框1108,源主机100a的管理程序402将迁移LPAR 404的数据集中的一个或多个存储器页408复制到目的地主机100b中的至少一个系统存储器108。在至少一些实施例中,在框1108处复制存储器页408可以根据以下参照图13描述的过程来执行,应当理解,复制存储器页408可能需要对连续的实地址序列执行多个存储原语。例如,存储器页408可为4KB,而由存储原语复制的个别数据区组的大小可为128B。在该示例中,复制存储器页408将需要执行32个存储原语。对于从源主机100a完全复制到目的地主机100b的每个存储器页408,源主机100a的管理程序402设置主机100a的系统存储器108中的相关联的PTE 212的CP字段512,以指示存储器页408已经被复制到目的地主机100b(框1110)。图11A的过程从框1110返回到框1104。
在框1112和随后的框,源主机110a的管理程序402将迁移LPAR 404的状态从源主机100a复制到目的地主机100b。具体参考框1112,源主机100a的管理程序402使迁移LPAR404的硬件线程406处于其控制之下。此外,管理程序402保存迁移LPAR 404的每个硬件线程406的状态(例如,与执行核200中的硬件线程406相关的数据和控制寄存器的内容),并将迁移LPAR 404的每个这样的硬件线程状态写入到目的地主机100b中的系统存储器108。在框1114处示出的迁移LPAR 404的硬件线程的状态的复制可以经由NC通信链路302利用写入原语700来执行,如上文参照图7和图9所述,在框1116处,源主机110a的管理程序402还通过使PTE 212无效(例如,将有效字段502重置为0)以及将迁移(MI)字段516置位(例如,设置为1)来更新与迁移LPAR 404的数据集中的存储器页408相关联的每个PTE 212。框1116还示出管理程序402使源主机100a的地址转换结构206中的与无效的PTE 212相对应的任何条目无效,并等待源主机100a中引用被无效的PTE转换的实地址的任何和所有正在进行的操作从源主机100a的核200排出。然后,该过程通过页连接符A到达图11B的框1120。
如虚线所示,框1120是可选步骤,在该步骤,源主机100a的管理程序402确定是否从源主机100a的高速缓存中刷新迁移LPAR 404的读写存储器页408(即,由它们的相关联的PTE 212的RW字段510标识为读写存储器页的那些)。响应于在框1120的否定判断,或者如果源主机100不支持有效刷新源主机100a的高速缓存的能力,则该过程进行到下面描述的框1126。然而,如果管理程序402在框1120确定从源主机100a的高速缓存中刷新迁移LPAR 404的读写存储器页408,则管理程序402执行从源主机100a的高速缓存中刷新属于迁移LPAR404的数据集的所有修改数据的过程(框1122)。在一些实施例中,在框1122处描绘的驱逐(eviction)可以通过从源主机100a的高速缓存批量刷新所有修改的数据来执行。应当注意,取决于底层存储器页408是否已经被迁移,在框1122处描绘的刷新过程可以需要将修改的数据写回到源主机100a的本地系统存储器108或目的地主机100b的系统存储器108。此外,在框1124,源主机110a的管理程序402为已经迁移到被清除的目的地主机100b的迁移LPAR 404的所有读写存储器页408更新源主机110a上的PTE 212(例如通过将CL字段514设置为1)。如框1120-1124所示,执行迁移分区404的读写存储器页408的批量刷新提供了减少或消除读写存储器页408的重复复制以及减少迁移LPAR 404在目的地主机100b上开始执行之后的抖动的优点。此外,迁移LPAR 404的读写存储器页408的批量刷新可以提供优于单独处理迁移LPAR 404的每个读写存储器页408的刷新的解决方案的改进性能。
现在参考框1126,源主机100a的管理程序402复制PTE 212,其将迁移LPAR 404的数据集的存储器页408中的地址从源主机100a转换到目的地主机100b。然后,管理程序402然后重置由PTE字段512-514标识为已复制和已清除的迁移LPAR 404的数据集中的每个读写存储器页的PTE 212中的MI字段516,并且重置由PTE字段512标识为已复制的迁移LPAR404的数据集中的每个只读存储器页的PTE 212中的MI字段516(框1128)。在框1128之后,源主机100a的管理程序402开始监视来自目的地主机100b的管理程序402的“拉取”请求,通过该“拉取”请求,目的地主机100b启动迁移LPAR 404的数据集中的一个或多个先前未迁移的存储器页408的迁移(框1130)。下面分别参考图16和图17描述目的地主机100b的管理程序402将迁移LPAR 404的数据集中的存储器页从源主机100a“拉取”到目的地主机100b的系统存储器108,以及源主机100a的管理程序402响应目的地主机100b的“拉取”请求的示例性过程。
如可选框1132所示,源主机100a的管理程序402可以替换地或附加地启动一过程,通过该过程,源主机100a将迁移LPAR 404的数据集中的任何剩余的未迁移和已迁移的、但不清除的存储器页408从源主机100a“推送”到目的地主机100b中的系统存储器108。下面分别参考图18和图19描述源主机100a的管理程序402将迁移LPAR 404的数据集中的存储器页408从源主机100a“推送”到目的地主机100b的系统存储器108,以及目的地主机100b的管理程序402响应源主机100a的“推送”请求的示例性过程。在框1132之后(或者如果省略框1132,则在框1130之后),图11B的过程在框1134处结束。
现在参考图12,描述了根据一个实施例的示例性方法的高级逻辑流程图,通过该方法,源主机100a在LPAR 404的迁移期间处理页保护更新。图12的过程开始于框1200,然后前进到框1202,其示出了源主机100a的管理程序402确定是否请求对迁移LPAR 404的存储器页408的PTE 212进行页保护更新。如果不是,则过程在框1202重复。然而,如果管理程序402确定请求对迁移LPAR 404的存储器页408的PTE 212进行页保护更新,则过程前进到框1204。
框1204示出管理程序402确定当前要更新的PTE 212是否指示相关联的存储器页408是读写页(例如,RW字段510被设置为RW=1)。如果不是(例如,R字段508被设置为R=1以指示只读存储器页),则该过程转到框1212,其示出了管理程序402执行其他处理。此后,图12的过程在框1214处结束。
返回到框1204,响应于管理程序402确定要更新的PTE 212当前指示关联的存储器页408是读写存储器页,管理程序402另外通过参考要更新的PTE 212的CP字段512来确定关联的存储器页408是否已经被迁移到目的地服务器100b的系统存储器108。如果是,则管理程序402执行一个或多个指令,其使得存储器页408的任何修改数据从源主机100a的高速缓存被刷新到目的地主机100b的系统存储器108中(框1208),然后例如通过复位R字段508和设置RW字段510,将存储器页408的页保护信息从读写更新为只读(框1210)。通过刷新对要更新保护的存储器页408的日期的任何高速缓存的修改,可以避免存储器页408从源主机100a到目的地主机100b的附加复制。如果管理程序402在框1206确定相关联的存储器页408还没有被迁移到目的地主机的系统存储器108,则管理程序402简单地更新页保护信息,如框1210所示,而不刷新存储器页408。在框1210之后,图12的过程在框1214处结束。
现在参考图13,示出了根据一个实施例的的示例性方法的高级逻辑流程图,通过该方法,源主机100a将迁移LPAR 404的存储器页408复制到目的地主机100b的系统存储器108。在至少一些实施例中,可以利用所示出的处理,例如,以将在图11A的框1108处从源主机100a复制的(一个或多个)存储器页408中的一个复制到目的地主机100b。
图13的过程开始于框1300,然后前进到框1302,其示出源主机100a的管理程序402例如通过将有效字段502重置为0来使与要迁移的存储器页408相关联的PTE 212无效,使PTE 212无效使得PTE 212暂时不可访问以进行地址转换,并且因此使得相关联的存储器页408仅可由管理程序402访问。框1302还示出管理程序402使源主机100a的地址转换结构206中与无效的PTE 212相对应的任何条目无效,并等待引用由无效的PTE转换的实地址的任何和所有进行中的操作以从源主机100a的核200排出。
然后,管理程序402使源主机100a的一个或多个核200执行指令,以将存储器页408复制到分配给目的地主机100b中的系统存储器108的实地址(框1304)。作为该复制过程的一部分,管理程序402从源主机100a(其驻留在源实地址范围)中的系统存储器108加载存储器页408的现有映像,并且将存储器页408的映像存储到指定目的地主机100b的系统存储器108中的存储位置的目的地实地址范围。作为优化,一些实施例使用数据高速缓存块零(DCBZ)、数据高速缓存块分配(DCBA)或在源主机100a的高速缓存存储器中创建高速缓存行(并且可选地将新创建的高速缓存行初始化为预定值(例如零))的类似的高速缓存行分配指令来分配与源主机100a的高速缓存存储器中的目的地实地址范围相对应的高速缓存行,而不提取相关联的数据。这些高速缓存行分配指令可以方便地在执行循环中实现,该执行循环迭代通过要迁移的存储器页408中的每个高速缓存行。在这样的执行循环中,优选地,每个高速缓存行分配指令被限制为在将数据从迁移的存储器页408的现有映像存储到新分配的高速缓存行中的相应的存储指令之前并且在时间上接近该相应的存储指令而执行。在这种执行限制下,更新目的地实地址范围内的高速缓存行的存储指令将避免高速缓存未命中和从目的地主机100b提取高速缓存行的伴随延迟的可能性很高。换句话说,所描述的优化具有避免从目的地主机100b提取目的地实地址范围内的数据的每个高速缓存行的副本以用来自迁移的存储器页408的数据重写该高速缓存行的高延迟的优点。
在框1308,管理程序402例如通过检查相关联的PTE 212的RW字段510来确定存储器页408是否是读写存储器页。响应于在框1308处确定存储器页408是读写存储器页,该过程转到框1312,这将在下面描述。然而,如果管理程序402确定存储器页408是只读存储器页(例如,R字段508被设置为R=1),则管理程序402使得一个或多个清除或刷新指令由源主机100a的一个或多个核200执行,以确保只读存储器页408的数据经由NC通信链路302从源主机100a的高速缓存被写入到目的地主机100b的系统存储器108(框1310)。在框1308或框1310之后,源主机100a的管理程序402更新PTE 212的RA字段506中为存储器页408指定的实地址(RA),以指定目的地主机100b的系统存储器108中的存储器页408的新的实地址,然后将源主机100a上的PTE 212的有效字段502更新为有效状态(例如V=1),以再次使PTE 212可访问以进行地址转换(框1312)。此后,图13的过程在框1314处结束。
现在参考图14,描述了根据一个实施例的示例性方法的高级逻辑流程图,通过该方法,目的地主机100b接收和激活迁移LPAR 404。图14的过程与前面描述的在源主机100a上执行的图11A至图11B的过程协作。
图14的过程开始于框1400,然后进行到框1402,其示出了目的地主机100b的管理程序402与在源主机100a上执行的管理程序402通信,以协商主机100a、100b到LPAR 404的资源(例如,硬件线程406、实存储器地址、存储器页209等)的分配,并建立某些存储器页209以供主机100a、110b之间的通信使用。在至少一些实施例中,源主机100a和目的地主机100b的管理程序402在框1402处经由VIOS 420通信。
处理从框1402前进到框1404,其示出了目的地主机100b的管理程序402经由NC通信链路302从源主机100a接收迁移LPAR 404的状态,并缓冲该LPAR状态。LPAR状态由源主机100a在图11A的框1114传送。另外,在框1406,目的地主机100b的管理程序402经由NC通信链路302从源主机100a接收并缓冲用于迁移LPAR 404的存储器页408的PTE 212。这些PTE 212由源主机100a在图11B的框1126处发送。
框1408示出了目的地主机100b的管理程序402在目的地服务器100b的系统存储器108中的页帧表210中建立与迁移LPAR 404的存储器页408相关联的PTE 212。对于由其相关联的PTE 212指示为已经被复制到目的地主机100b的每个只读存储器页408(例如,R字段508被设置为R=1,并且CP字段512被设置为CP=1),以及对于由其相关联的PTE 212指示为已经被复制到目的地主机100b并被清除(例如,RW字段510被设置为RW=1,并且CL字段514被设置为CL=1)的每个读写存储器页408,目的地主机100b的管理程序402更新实地址字段506以反映存储器页408在目的地主机100b的系统存储器108中的存储位置,重置迁移字段516(例如,MI=0),并且设置有效字段502(例如,V=1)。目的地主机100b的管理程序402由此使得这些PTE 212可用于目的地主机100b上的虚拟到实地址转换。
在框1410,目的地主机100b的管理程序402启动一过程,通过该过程,目的地服务器100b的管理程序402将迁移LPAR 404的任何剩余的未迁移的存储器页408从源主机100a经由NC通信链路302“拉取”到目的地主机100b中的系统存储器108。下面参考图16描述目的地主机100b从源主机100a拉取这种存储器页408的示例性过程,另外,在框1412,目的地主机100b的管理程序402可选地启动一过程,通过该过程,目的地服务器100b的管理程序402经由NC通信链路302接收从源主机100a“推送”到目的地主机100b中的系统存储器108的迁移LPAR 404的任何剩余的未迁移的存储器页408。下面参考图18描述目的地主机100b从源主机100a接收这样的存储器页408的示例性过程。目的地主机100b的管理程序402通过将迁移LPAR 404的各种硬件线程406的状态加载到目的地主机100b的一个或多个核200(框1414)并释放迁移LPAR 404的硬件线程406以开始执行(框1416),来启动迁移LPAR 404在目的地主机100b上的执行。图14的过程此后在框1416结束。
现在参考图15,示出了根据一个实施例的示例性方法的高级逻辑流程图,通过该方法,目的地主机100b在迁移LPAR 404的迁移期间处理页错误。图15的过程响应于引起页错误的目的地主机100b的存储器访问请求而开始于框1500。响应于页错误,处理从框1500进行到框1502,其示出在目的地主机100b上执行的页错误处理器例程通过参考包含存储器访问请求的目标实地址的存储器页209的PTE 212来确定迁移字段516是否被设置(例如MI=1)以指示存储器页209是迁移LPAR 404的存储器页408之一。如果不是(例如MI=0),则如框1504所示,页错误处理器使用其他可能常规的处理来处理页错误。在框1504之后,图15的过程在框1518处结束。
再次参考框1502,响应于确定设置了迁移字段516,目的地主机100b的管理程序402获得其上发生了页错误的存储器页408的锁(框1506)。目的地主机100b的管理程序402此后在框1508确定存储器页408的PTE 212的迁移字段516是否在获得锁的过程期间被重置(例如MI=0)。如果是,则该过程转到下面描述的框1516。然而,如果迁移字段516没有被重置,则管理程序402经由NC通信链路302向源主机100a发出一个或多个存储器访问请求,以便将存储器页408从源主机100a的系统存储器108拉取到目的地主机100b的系统存储器108(框1512)。在存储器页408的PTE 212中,目的地主机100b的管理程序402设置有效字段502(V=1),重置迁移字段516(MI=0),在读取字段508和读写字段510中设置适当的页保护,并且用目的地主机100b的系统存储器108中的存储器页408的新的实地址来更新实地址字段506(框1514)。在框1514之后,目的地主机100b的管理程序402释放存储器页408的锁(框1516)。此后,该过程转到框1504,其示出页错误处理器完成了对该页错误的处理,同时进行了其他潜在的常规处理。图15的过程此后在框1518处结束。
现在参考图16,其是根据一个实施例的示例性方法的高级逻辑流程图,通过该方法,目的地主机100b从源主机100a“拉取”迁移LPAR 404的存储器页。例如,可以在图14的框1410处执行该过程。
图16的过程开始于框1600,并且此后进行到框1602,其示出了目的地主机100b的管理程序402确定迁移字段516是否在迁移LPAR 404的所有存储器页408的PTE 212中被重置(例如,MI=0)。如果是,则完成从源主机100a到目的地主机100b的迁移LPAR 404的数据集的迁移。因此,图16的过程在框1604结束。
然而,如果目的地主机100b的管理程序402在框1602确定至少一个存储器页408仍然要被迁移到目的地主机100b,则目的地主机100b的管理程序402选择迁移LPAR 404的数据集中的未迁移的存储器页408之一(如其PTE 212的迁移字段516被设置所指示的),并获得该存储器页408的锁(框1606)。目的地主机100b的管理程序402此后在框1608确定在获得锁的过程期间是否重置了所选存储器页408的PTE 212的迁移字段516(例如MI=0)。如果是,则该过程转到框1610,这将在下面描述。然而,如果迁移字段516没有被重置,则管理程序402经由NC通信链路302向源主机100a发出一个或多个存储器访问请求,以便将存储器页408从源主机100a的系统存储器108拉取到目的地主机100b的系统存储器108(框1612)。在用于目的地主机100b上的存储器页408的PTE 212中,目的地主机100b的管理程序402设置有效字段502(例如,V=1),重置迁移字段516(例如,MI=0),在读取字段508和读写字段510中设置用于存储器页408的适当的页保护,并且用目的地主机100b的系统存储器108中的存储器页408的新的实地址来更新实地址字段506(框1614)。在框1614之后,目的地主机100b的管理程序402释放存储器页408的锁(框1610)。此后,图16的过程返回到已经描述的框1602。
现在参考图17,示出了根据一个实施例的示例性方法的高级逻辑流程图,通过该方法,源主机100a处理从目的地主机100b对迁移LPAR 408的存储器页408的拉取请求。例如,可以在图11B的框1130处执行所示出的过程。
图17的处理开始于框1700,其后进行到框1702,其示出了源主机100a的管理程序402确定对于迁移LPAR 404的数据集中的所有存储器页408,源主机100a上的PTE 212中的迁移字段516是否被重置(例如MI=0)。如果是,则完成从源主机100a到目的地主机100b的迁移LPAR 404的数据集的迁移。因此,图17的过程在框1704处结束。
然而,如果源主机100a的管理程序402在框1702确定至少一个存储器页408仍然要从源主机100a迁移到目的地主机100b,则源主机100a的管理程序402在框1706确定是否已经经由NC通信链路302从目的地主机100b接收到对迁移LPAR 404的数据集中的存储器页408的拉取请求。如果否,则图17的过程返回到已经描述的框1702。然而,如果接收到对迁移LPAR 404的数据集中的存储器页408的拉取请求,则源主机100a的管理程序402通过NC通信链路302向目的地主机100b的系统存储器108发送所请求的存储器页408,来响应目的地主机100b的拉取请求(框1708)。
在框1710,源主机100a的管理程序402确定在框1708迁移的存储器页408是否被标识为源主机100a上的相关联的PTE 212的读写字段510中的读写存储器页。如果不是(例如,RW=0),则过程前进到框1714,这将在下面描述。然而,如果存储器页408的PTE 212的读写字段510被设置为指示读写页(例如RW=1),则源主机100a的管理程序402从源主机100a的高速缓存中刷新存储器页408的所有区组(框1712)。源主机100a另外重置源主机100a的系统存储器108中的存储器页408的PTE 212中的迁移字段516(例如MI=0)(框1714)。在框1714之后,源主机100a的管理程序402例如通过设置标志来向目的地主机100b信令通知(signal)存储器页408已经被迁移到目的地主机100b的系统存储器108(框1716)。此后,图17的过程返回到已经描述的框1702。
现在参考图18,描述了根据一个实施例的示例性方法的高级逻辑流程图,通过该方法,源主机100a将迁移LPAR 404的存储器页408“推送”到目的地主机100b。例如,可以在图11B的框1132处执行该过程。
图18的过程开始于框1800,并且此后进行到框1802,其示出了源主机100a的管理程序402确定在源主机1004a上的迁移LPAR 404的所有存储器页408的PTE 212中迁移字段516是否被重置(例如MI=0)。如果是,则完成从源主机100a到目的地主机100b的迁移LPAR404的数据集的迁移。因此,图18的过程在框1804处结束。
然而,如果源主机100a的管理程序402在框1802确定至少一个存储器页408仍然要被迁移到目的地主机100b,则源主机100a的管理程序402选择迁移LPAR 404的数据集中的一个未迁移的存储器页408(如其PTE 212的迁移字段516被设置所指示的),并获得该存储器页408的锁(框1806)。源主机100a的管理程序402此后在框1808确定在获得锁时是否已经重置了所选存储器页408的PTE 212的迁移字段516(例如MI=0)。如果是,则该过程转到框1810,这将在下面描述。然而,如果迁移字段516没有被重置,则源主机100a的管理程序402通过NC通信链路302向目的地主机100b发出一个或多个存储器访问请求,以将存储器页408从源主机100a的系统存储器108推送到目的地主机100b的系统存储器108(框1812)。
在框1814,源主机100a的管理程序402确定在框1812迁移的存储器页408是否被标识为源主机100a的系统存储器108中的页帧表210中的相关联的PTE 212的读写字段510中的读写存储器页。如果不是(例如,RW=0),则过程前进到框1818,其将在下面描述。然而,如果存储器页408的PTE 212的读写字段510被设置为指示读写页(例如RW=1),则源主机100a的管理程序402将存储器页408的所有区组从源主机100a的高速缓存刷新到目的地主机100b的系统存储器108(框1816)。源主机100a另外重置源主机100a的系统存储器108中的存储器页408的PTE 212中的迁移字段516(例如MI=0)(框1818)。
在框1820,源主机100a的管理程序402通过NC通信链路302发送对目的地主机100b的请求,以更新目的地主机100b上的存储器页408的PTE 212。响应于PTE更新请求,目的地主机100b的管理程序402设置有效字段502(例如V=1),重置迁移字段516(例如MI=0),并且利用目的地主机100b的系统存储器108中的存储器页408的新的实地址来更新实地址字段506。在框1820之后,源主机100a的管理程序402监控经由NC通信链路302来自目的地主机100b的确认消息,该确认消息确认PTE 212的更新(框1822)。响应于接收到确认消息,源主机100a释放存储器页408的锁(框1810)。此后,图18的过程返回到已经描述的框1802。
现在参考图19,示出了根据一个实施例的示例性方法的高级逻辑流程图,通过该方法,目的地主机100b处理从源主机100a接收的对迁移LPAR 404的存储器页408的推送请求。例如,可以在图14的框1412处执行所示出的过程。
图19的过程开始于框1900,并且此后前进到框1902,其示出了目的地主机100b的管理程序402确定对于迁移LPAR 404的数据集中的所有存储器页408,源主机100a上的PTE212中的迁移字段516是否被重置(例如MI=0)。如果是,则完成从源主机100a到目的地主机100b的迁移LPAR 404的数据集的迁移。因此,图19的过程在框1904处结束。
然而,如果目的地主机100b的管理程序402在框1902确定至少一个存储器页408仍然要从源主机100a迁移到目的地主机100b,则目的地主机100b的管理程序402在框1906确定其是否已经经由NC通信链路302从源主机100a接收到请求更新迁移LPAR 404的数据集中的存储器页408的PTE 212的PTE更新请求。如果否,则图19的过程返回到已经描述的框1902。然而,如果已经接收到PTE更新请求,则目的地主机100b的管理程序402通过设置有效字段502(例如,V=1)、重置迁移字段516(例如,MI=0)以及利用目的地主机100b的系统存储器108中的存储器页408的新的实地址来更新实地址字段506,来响应PTE更新请求(框1908)。目的地主机100b的管理程序402向源主机100a发送确认消息,确认PTE 212的更新(框1910)。此后,图19的过程返回到已经描述的框1902。
现在参考图20,描述了例如在半导体IC逻辑设计、仿真、测试、布局和制造中使用的示例性设计流程2000的框图。设计流程2000包括用于处理设计结构或设备以生成本文描述的设计结构和/或设备的逻辑上或其他功能上等效的表示的过程、机器和/或机制。由设计流程2000处理和/或生成的设计结构可以在机器可读传输或存储介质上编码,以包括数据和/或指令,当在数据处理系统上执行或以其他方式处理时,所述数据和/或指令生成硬件组件、电路、设备或系统的逻辑上、结构上、机械上或以其他方式功能上等效的表示。机器包括但不限于在IC设计过程中使用的任何机器,例如设计、制造或仿真电路、组件、设备或系统。例如,机器可以包括:光刻机、用于产生掩模的机器和/或设备(例如电子束写入器)、用于仿真设计结构的计算机或设备、用于制造或测试过程的任何装置、或用于将设计结构的功能等效表示编程到任何介质中的任何机器(例如用于编程可编程门阵列的机器)。
设计流程2000可以根据正在设计的表示的类型而变化。例如,用于构建专用IC(ASIC)的设计流程2000可以不同于用于设计标准部件的设计流程2000或者不同于用于将设计实例化到可编程阵列中的设计流程2000,所述可编程阵列例如由Altera公司或Xilinx公司提供的可编程门阵列(PGA)或现场可编程门阵列(FPGA)。
图20示出了多个这样的设计结构,包括优选地由设计过程2000处理的输入设计结构2020。设计结构2020可以是由设计过程2000生成和处理的逻辑仿真设计结构,以产生硬件设备的逻辑上等效的功能表示。设计结构2020还可以或替换地包括数据和/或程序指令,其在由设计过程2000处理时生成硬件设备的物理结构的功能表示。无论是表示功能和/或结构设计特征,设计结构2020都可以使用诸如由核开发者/设计者实现的电子计算机辅助设计(ECAD)来生成。当编码在机器可读数据传输、门阵列或存储介质上时,设计结构2020可以由设计过程2000内的一个或多个硬件和/或软件模块访问和处理,以仿真或以其他方式功能性地表示诸如本文所示的那些的电子部件、电路、电子或逻辑模块、装置、设备或系统。这样,设计结构2020可以包括文件或其它数据结构,包括人和/或机器可读源代码、编译结构和计算机可执行代码结构,当由设计或仿真数据处理系统处理时,其在功能上仿真电路或以其它方式表示硬件逻辑设计的其它级。这样的数据结构可以包括硬件描述语言(HDL)设计实体或其他数据结构,其符合和/或兼容诸如Verilog和VHDL的低级HDL设计语言和/或诸如C或C++的高级设计语言。
设计过程2000优选地采用和合并硬件和/或软件模块,用于合成、转换或以其他方式处理本文所示的组件、电路、设备或逻辑结构的设计/仿真功能等效物,以生成可以包含诸如设计结构2020的设计结构的网表2080。网表2080可以包括例如编译或以其他方式处理的数据结构,其表示描述到集成电路设计中的其他元件和电路的连接的导线、分立部件、逻辑门、控制电路、I/O设备、模型等的列表。网表2080可以使用迭代过程来合成,在该迭代过程中网表2080取决于设备的设计规范和参数而被重新合成一次或多次。如同本文描述的其它设计结构类型,网表2080可以记录在机器可读存储介质上或编程到可编程门阵列中。该介质可以是非易失性存储介质,诸如磁盘或光盘驱动器、可编程门阵列、紧凑式闪存或其它闪存。另外,或者作为选择,介质可以是系统或高速缓存存储器,或者缓冲空间。
设计过程2000可以包括用于处理包括网表2080的各种输入数据结构类型的硬件和软件模块。这样的数据结构类型可以例如驻留在库元件2030内,并且包括一组常用的元件、电路和设备,包括用于给定制造技术(例如,不同的技术节点,32nm、45nm、90nm等)的模型、布局和符号表示。数据结构类型可进一步包括设计规范2040、特征数据2050、验证数据2060、设计规则2070和测试数据文件2085,其可包括输入测试模式、输出测试结果和其它测试信息。设计过程2000还可以包括例如标准机械设计过程,诸如应力分析、热分析、机械事件仿真、用于诸如铸造、模制和模压成形等的操作的过程仿真等。设计过程2000还可以包括用于执行标准电路设计过程的模块,所述标准电路设计过程例如时序分析、验证、设计规则检查、布局和布线操作等。
设计过程2000采用并结合逻辑和物理设计工具,例如HDL编译器和仿真模型构建工具,以处理设计结构2020以及所描述的支持数据结构的一些或全部以及任何附加的机械设计或数据(如果适用的话),以生成第二设计结构2090。设计结构2090以用于交换机械设备和结构的数据(例如,以IGES、DXF、Parastall XT、JT、DRG或用于存储或呈现这样的机械设计结构的任何其他适当格式存储的信息)的数据格式驻留在存储介质或可编程门阵列上。类似于设计结构2020,设计结构2090优选地包括一个或多个文件、数据结构或者其它计算机编码的数据或指令,其驻留在传输或数据存储介质上,并且当由ECAD系统处理时,产生本发明的一个或多个实施例的逻辑上或其它功能上等同的形式。在一个实施例中,设计结构2090可以包括在功能上仿真本文所示的设备的编译的可执行HDL仿真模型。
设计结构2090还可以采用用于交换集成电路的布图数据的数据格式和/或符号数据格式(例如,以GDSII(GDS2)、GL1、OASIS、图文件或用于存储这种设计数据结构的任何其他适当格式存储的信息)。设计结构2090可以包括信息,例如符号数据、图文件、测试数据文件、设计内容文件、制造数据、布局参数、布线、金属级、通孔、形状、用于通过生产线路由的数据以及制造商或其他设计者/开发者生产如上所述和本文所示的设备或结构所需的任何其他数据。设计结构2090然后可以进行到阶段2095,其中,例如,设计结构2090:进行流片、交付制造、交付掩模厂、送到另一设计厂、送回到客户等。
如上所述,在至少一个实施例中,服务于逻辑分区从其迁移的源主机的数据处理系统可以包括系统结构、系统存储器、通信地耦合到系统结构的系统存储器的存储器控制器、以及通信地耦合到系统结构并被配置为经由通信链路通信地耦合到源主机与之非相干的目的地主机的链路控制器。源主机另外包括通信地耦合到系统结构的多个处理单元。多个处理单元例如由管理程序或虚拟机监视器配置成执行具有驻留在系统存储器中的数据集的逻辑分区,并经由通信链路将逻辑分区迁移到目的地主机。逻辑分区的迁移包括经由通信链路将在源主机上执行的逻辑分区的数据集从源主机的系统存储器迁移到目的地主机的系统存储器。在迁移数据集的至少一部分之后,逻辑分区的状态经由通信链路从源主机迁移到目的地主机,使得逻辑分区此后在目的地主机上执行。这种迁移技术为迁移提供了减少的等待时间,并为逻辑分区提供了改进的抖动。
在之前描述的示例中,源主机利用实地址指定存储器页将被复制到的目的地主机的系统存储器中的存储位置。本领域技术人员将理解,在其他示例中,目的地主机的系统存储器中的存储位置可以替代地利用有效或虚拟地址来指定,这些地址经受一层或多层地址转换以获得目的地主机的实地址空间中的实地址。
尽管已经具体示出和描述了各种实施例,但是本领域技术人员将理解,在不脱离所附权利要求的范围的情况下,可以在形式和细节上对其进行各种改变,并且这些替代实现全部落入所附权利要求的范围内。
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中,框中所提及的功能可不按图中所提及的顺序发生。例如,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
尽管已经关于执行指导本发明的功能的程序代码的计算机系统描述了各方面,但是应当理解,本发明可以替代地被实现为包括存储程序代码的计算机可读存储设备的程序产品,所述程序代码可以由数据处理系统的处理器处理以使数据处理系统执行所描述的功能。计算机可读存储设备可以包括易失性或非易失性存储器、光盘或磁盘等,但排除非法定主题,诸如传播信号本身、传输介质本身以及能量形式本身。
作为示例,程序产品可以包括数据和/或指令,当在数据处理系统上执行或以其他方式处理时,所述数据和/或指令生成本文公开的硬件组件、电路、设备或系统的逻辑上、结构上或以其他方式功能上等效的表示(包括仿真模型)。这样的数据和/或指令可以包括硬件描述语言(HDL)设计实体或其他数据结构,其符合和/或兼容诸如Verilog和VHDL的低级HDL设计语言和/或诸如C或C++的高级设计语言。此外,数据和/或指令还可以采用用于交换集成电路的布局数据的数据格式和/或符号数据格式(例如,以GDSII(GDS2)、GL1、OASIS、映射文件或用于存储这样的设计数据结构的任何其它适当格式存储的信息)。
Claims (24)
1.一种在数据处理环境中进行数据处理的方法,所述方法包括:
经由通信链路将在源主机上执行的逻辑分区的数据集从所述源主机的系统存储器迁移到相对于所述源主机非相干的目的地主机的系统存储器;
在迁移所述数据集的至少一部分之后,经由所述通信链路将所述逻辑分区的状态从所述源主机迁移到所述目的地主机;以及
在将所述逻辑分区的状态迁移到所述目的地主机之后,在所述目的地主机上执行所述逻辑分区。
2.根据权利要求1所述的方法,其中迁移所述数据集包括在所述逻辑分区开始在所述目的地主机上执行之后,将所述逻辑分区的数据集中的至少一些从所述源主机迁移到所述目的地主机。
3.根据权利要求1所述的方法,其中迁移所述数据集包括所述源主机基于所述目的地主机的请求将所述数据集的一个或多个存储器页复制到所述目的地主机中的系统存储器。
4.根据权利要求1所述的方法,其中迁移所述数据集包括所述源主机启动将所述数据集的一个或多个存储器页复制到所述目的地主机中的系统存储器。
5.根据权利要求1所述的方法,其中:
所述数据集包括多个存储器页,每个存储器页具有相应的相关联的页表条目,所述页表条目定义针对相关联的存储器页的虚拟到实地址转换;以及
所述方法还包括所述源主机在数据结构中跟踪所述多个存储器页的哪些页表条目已经被迁移到所述目的地主机。
6.根据权利要求1所述的方法,其中迁移所述数据集包括:
所述源主机在系统结构上发出存储请求,所述存储请求指定所述目的地主机的系统存储器中的地址;以及
所述源主机中的链路控制器接收所述存储请求,并且基于所述地址,经由所述通信链路将所述存储请求传输到所述目的地主机内的存储器控制器。
7.根据权利要求1所述的方法,其中迁移所述数据集包括所述源主机执行将所述数据集中经受由所述源主机更新的所有存储器页从所述源主机的高速缓存批量刷新到系统存储器。
8.根据权利要求1所述的方法,并且还包括:
所述源主机利用经由网络连接的通信来协调所述逻辑分区从所述源主机到所述目的地主机的迁移;以及
所述源主机禁止经由网络连接迁移所述数据集和所述逻辑分区的状态。
9.一种作为源主机的数据处理系统,所述数据处理系统包括:
系统结构;
系统存储器;
所述系统存储器的存储器控制器,其中所述存储器控制器通信地耦合到所述系统结构;
链路控制器,通信地耦合到所述系统结构并且被配置为经由通信链路通信地耦合到目的地主机,其中所述目的地主机相对于所述源主机非相干;以及
多个处理单元,通信地耦合到所述系统结构,其中所述多个处理单元被配置为执行具有驻留在所述系统存储器中的数据集的逻辑分区,并且经由所述通信链路通过以下操作将所述逻辑分区迁移到所述目的地主机:
经由通信链路,将在所述源主机上执行的逻辑分区的数据集从所述源主机的系统存储器迁移到所述目的地主机的系统存储器;
在迁移所述数据集的至少一部分之后,经由所述通信链路将所述逻辑分区的状态从所述源主机迁移到所述目的地主机,使得所述逻辑分区此后在所述目的地主机上执行。
10.根据权利要求9所述的数据处理系统,其中迁移所述数据集包括在所述逻辑分区的执行在所述目的地主机上开始之后,将所述逻辑分区的数据集中的至少一些从所述源主机迁移到所述目的地主机。
11.根据权利要求9所述的数据处理系统,其中迁移所述数据集包括所述源主机基于所述目的地主机的请求将所述数据集的一个或多个存储器页复制到所述目的地主机中的系统存储器。
12.根据权利要求9所述的数据处理系统,其中迁移所述数据集包括所述源主机启动将所述数据集的一个或多个存储器页复制到所述目的地主机中的系统存储器。
13.根据权利要求9所述的数据处理系统,其中:
所述数据集包括多个存储器页,每个存储器页具有相应的相关联的页表条目,所述页表条目定义针对相关联的存储器页的虚拟到实地址转换;以及
所述多个处理单元还被配置为执行:
在数据结构中跟踪所述多个存储器页的哪些页表条目已经被迁移到所述目的地主机。
14.根据权利要求9所述的数据处理系统,其中迁移所述数据集包括:
所述源主机在所述系统结构上发出存储请求,所述存储请求指定所述目的地主机的系统存储器中的地址;以及
所述源主机的链路控制器接收存储请求,并且基于所述地址,经由通信链路将所述存储请求传输到所述目的地主机内的存储器控制器。
15.根据权利要求9所述的数据处理系统,其中迁移所述数据集包括所述源主机执行将所述数据集中经受由所述源主机更新的所有存储器页从所述源主机的高速缓存批量刷新到系统存储器。
16.根据权利要求9所述的数据处理系统,其中所述多个处理单元还被配置为执行:
所述源主机利用经由网络连接的通信来协调所述逻辑分区从所述源主机到所述目的地主机的迁移;以及
所述源主机禁止经由网络连接迁移所述数据集和所述逻辑分区的状态。
17.一种程序产品,包括:
计算机可读存储设备;以及
存储在所述计算机可读存储设备内的程序代码,当由用作源主机的数据处理系统执行时,所述程序代码使所述数据处理系统执行:
经由通信链路将在源主机上执行的逻辑分区的数据集从所述源主机的系统存储器迁移到相对于所述源主机非相干的目的地主机的系统存储器;
在迁移所述数据集的至少一部分之后,经由所述通信链路将所述逻辑分区的状态从所述源主机迁移到所述目的地主机;以及
在将所述逻辑分区的状态迁移到所述目的地主机之后,在所述目的地主机上执行所述逻辑分区。
18.根据权利要求17的程序产品,其中迁移所述数据集包括在所述逻辑分区开始在所述目的地主机上执行之后,将所述逻辑分区的数据集中的至少一些从所述源主机迁移到所述目的地主机。
19.根据权利要求17所述的程序产品,其中迁移所述数据集包括所述源主机基于所述目的地主机的请求将所述数据集的一个或多个存储器页复制到所述目的地主机中的系统存储器。
20.根据权利要求17所述的程序产品,其中迁移所述数据集包括所述源主机启动将所述数据集的一个或多个存储器页复制到所述目的地主机中的系统存储器。
21.根据权利要求17所述的程序产品,其中:
所述数据集包括多个存储器页,每个存储器页具有相应的相关联的页表条目,所述页表条目定义针对相关联的存储器页的虚拟到实地址转换;以及
所述程序代码还使得所述源主机在数据结构中跟踪所述多个存储器页的哪些页表条目已经被迁移到所述目的地主机。
22.根据权利要求17所述的程序产品,其中迁移所述数据集包括:
所述源主机在系统结构上发出存储请求,所述存储请求指定所述目的地主机的系统存储器中的地址;以及
所述源主机中的链路控制器接收所述存储请求,并且基于所述地址,经由所述通信链路将所述存储请求传输到所述目的地主机内的存储器控制器。
23.根据权利要求17所述的程序产品,其中迁移所述数据集包括所述源主机执行将所述数据集中经受由所述源主机更新的所有存储器页从所述源主机的高速缓存批量刷新到系统存储器。
24.根据权利要求17所述的程序产品,其中所述程序代码还使所述源主机执行:
所述源主机利用经由网络连接的通信来协调所述逻辑分区从所述源主机到所述目的地主机的迁移;以及
所述源主机禁止经由网络连接迁移所述数据集和所述逻辑分区的状态。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/122,035 | 2020-12-15 | ||
US17/122,035 US11662934B2 (en) | 2020-12-15 | 2020-12-15 | Migration of a logical partition between mutually non-coherent host data processing systems |
PCT/EP2021/083416 WO2022128430A1 (en) | 2020-12-15 | 2021-11-29 | Memory migration within a multi-host data processing environment |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116583825A true CN116583825A (zh) | 2023-08-11 |
Family
ID=78829793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180084177.2A Pending CN116583825A (zh) | 2020-12-15 | 2021-11-29 | 多主机数据处理环境中的存储器迁移 |
Country Status (10)
Country | Link |
---|---|
US (1) | US11662934B2 (zh) |
JP (1) | JP2024500659A (zh) |
KR (1) | KR20230093039A (zh) |
CN (1) | CN116583825A (zh) |
AU (1) | AU2021402110A1 (zh) |
DE (1) | DE112021005873T5 (zh) |
GB (1) | GB2617042A (zh) |
IL (1) | IL302048A (zh) |
MX (1) | MX2023006779A (zh) |
WO (1) | WO2022128430A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230019814A1 (en) * | 2021-07-14 | 2023-01-19 | Vmware, Inc. | Migration of virtual compute instances using remote direct memory access |
US11681455B2 (en) * | 2021-07-22 | 2023-06-20 | Dell Products L.P. | Shadow live migration over a smart network interface card |
US11586371B2 (en) * | 2021-07-23 | 2023-02-21 | Vmware, Inc. | Prepopulating page tables for memory of workloads during live migrations |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7484208B1 (en) * | 2002-12-12 | 2009-01-27 | Michael Nelson | Virtual machine migration |
US8429651B2 (en) * | 2010-01-20 | 2013-04-23 | International Business Machines Corporation | Enablement and acceleration of live and near-live migration of virtual machines and their associated storage across networks |
US8671238B2 (en) | 2010-07-13 | 2014-03-11 | Vmware, Inc. | Robust live migration using shared filesystem |
US8490092B2 (en) * | 2011-07-06 | 2013-07-16 | Microsoft Corporation | Combined live migration and storage migration using file shares and mirroring |
US9336042B1 (en) * | 2015-11-19 | 2016-05-10 | International Business Machines Corporation | Performing virtual machine live migration within a threshold time by adding available network path in multipath network |
US9942323B2 (en) * | 2016-05-23 | 2018-04-10 | Velostrata Ltd. | Workload migration across a hybrid network |
US9836402B1 (en) * | 2016-07-22 | 2017-12-05 | Red Hat, Inc. | Guest ordering of host file system writes |
US10380282B2 (en) | 2016-08-24 | 2019-08-13 | Improbable Worlds Ltd | Distributable and customizable load-balancing of data-associated computation via partitions and virtual processes |
US10643010B2 (en) | 2016-08-24 | 2020-05-05 | Improbable Worlds Ltd | Scalable simulation system with scalable data propagation |
US10579434B2 (en) | 2016-08-24 | 2020-03-03 | Improbable Worlds Ltd | Simulation systems and methods using query-based interest |
US9720863B1 (en) * | 2016-10-21 | 2017-08-01 | International Business Machines Corporation | Migrating MMIO from a source I/O adapter of a source computing system to a destination I/O adapter of a destination computing system |
US20180139101A1 (en) | 2016-11-15 | 2018-05-17 | Microsoft Technology Licensing, Llc | Flow sate transfer for live migration of virtual machine |
US10949235B2 (en) * | 2016-12-12 | 2021-03-16 | Intel Corporation | Network semantics integrated into central processing unit (CPU) chipset |
US10367712B2 (en) | 2017-03-20 | 2019-07-30 | Citrix Systems, Inc. | Auto tuning of hybrid wan links by adaptive duplication of packets on alternate links |
US11275599B1 (en) | 2017-05-09 | 2022-03-15 | Tintri By Ddn, Inc. | Hypervisor remote offload for VM data migration between storage devices |
US20190068466A1 (en) * | 2017-08-30 | 2019-02-28 | Intel Corporation | Technologies for auto-discovery of fault domains |
US10901738B2 (en) * | 2017-11-14 | 2021-01-26 | International Business Machines Corporation | Bulk store and load operations of configuration state registers |
US11809899B2 (en) * | 2019-06-28 | 2023-11-07 | Intel Corporation | Methods and apparatus for accelerating virtual machine migration |
US11188375B2 (en) * | 2019-08-09 | 2021-11-30 | International Business Machines Corporation | Virtual machine mobility for virtual machines using remote direct memory access connections |
US20210165675A1 (en) | 2019-12-02 | 2021-06-03 | Xiao Wang | Live migration for hardware accelerated para-virtualized io device |
US20200150997A1 (en) | 2020-01-17 | 2020-05-14 | Yu Bruce Chang | Windows live migration with transparent fail over linux kvm |
US11520671B2 (en) | 2020-01-29 | 2022-12-06 | EMC IP Holding Company LLC | Fast multipath failover |
-
2020
- 2020-12-15 US US17/122,035 patent/US11662934B2/en active Active
-
2021
- 2021-11-29 CN CN202180084177.2A patent/CN116583825A/zh active Pending
- 2021-11-29 KR KR1020237017556A patent/KR20230093039A/ko active Search and Examination
- 2021-11-29 DE DE112021005873.8T patent/DE112021005873T5/de active Pending
- 2021-11-29 IL IL302048A patent/IL302048A/en unknown
- 2021-11-29 GB GB2310290.8A patent/GB2617042A/en active Pending
- 2021-11-29 MX MX2023006779A patent/MX2023006779A/es unknown
- 2021-11-29 AU AU2021402110A patent/AU2021402110A1/en active Pending
- 2021-11-29 WO PCT/EP2021/083416 patent/WO2022128430A1/en active Application Filing
- 2021-11-29 JP JP2023534238A patent/JP2024500659A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
KR20230093039A (ko) | 2023-06-26 |
AU2021402110A1 (en) | 2023-06-15 |
GB2617042A (en) | 2023-09-27 |
IL302048A (en) | 2023-06-01 |
AU2021402110A9 (en) | 2024-02-08 |
US11662934B2 (en) | 2023-05-30 |
GB202310290D0 (en) | 2023-08-16 |
MX2023006779A (es) | 2023-06-20 |
WO2022128430A1 (en) | 2022-06-23 |
US20220188007A1 (en) | 2022-06-16 |
JP2024500659A (ja) | 2024-01-10 |
DE112021005873T5 (de) | 2023-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI470435B (zh) | 為本地與遠端實體記憶體間之共用虛擬記憶體提供硬體支援 | |
US11662934B2 (en) | Migration of a logical partition between mutually non-coherent host data processing systems | |
US7734843B2 (en) | Computer-implemented method, apparatus, and computer program product for stalling DMA operations during memory migration | |
US9547597B2 (en) | Selection of post-request action based on combined response and input from the request source | |
EP3757802B1 (en) | Methods and apparatus for accelerating virtual machine migration | |
US10430221B2 (en) | Post-copy virtual machine migration with assigned devices | |
US20150095576A1 (en) | Consistent and efficient mirroring of nonvolatile memory state in virtualized environments | |
US8788761B2 (en) | System and method for explicitly managing cache coherence | |
CN113924557A (zh) | 混合硬件-软件一致性框架 | |
US9632934B2 (en) | Maintaining coherence when removing nodes from a directory-based shared memory system | |
US20180095882A1 (en) | Modeling processor shared memory | |
JP2024503259A (ja) | 入出力デバイスによってアクセス可能なメモリのページの移行 | |
JP7485489B2 (ja) | 変換ロード命令 | |
JP2017033375A (ja) | 並列計算システム、マイグレーション方法、及びマイグレーションプログラム | |
US20230036054A1 (en) | Memory migration within a multi-host data processing environment | |
US11635968B2 (en) | Using idle caches as a backing store for boot code | |
JP6266767B2 (ja) | 仮想環境内での不揮発性メモリ状態の一貫した効率的ミラーリング | |
US11656796B2 (en) | Adaptive memory consistency in disaggregated datacenters | |
US20130262790A1 (en) | Method, computer program and device for managing memory access in a multiprocessor architecture of numa type |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |