CN114138422B

CN114138422B - 可扩展性的NVMe存储虚拟化方法和系统

Info

Publication number: CN114138422B
Application number: CN202111507944.4A
Authority: CN
Inventors: 姚建国; 吴志成; 彭博; 管海兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2024-05-28
Anticipated expiration: 2041-12-10
Also published as: CN114138422A

Abstract

本发明提供了一种可扩展性的NVMe存储虚拟化方法和系统，该方法基于中介透传虚拟化方案，支持对虚拟机、安全容器、容器的混合部署，同时满足对高密度部署安全容器、容器的可扩展性需求，该方案实现在系统NVMe驱动层，根据vfio mdev框架提供的接口，创建虚拟的mdev设备，将mdev设备通过vfio传递给虚拟机，从而提供虚拟机使用NVMe设备的能力。它通过修改物理队列分配与调度方式、优化I/O轮询线程处理I/O任务过程、修改存储资源分配方式、优化NVMe指令地址翻译过程这四个方面提高系统整体的可扩展性。

Description

可扩展性的NVMe存储虚拟化方法和系统

技术领域

本发明涉及存储虚拟化的技术领域，具体地，涉及可扩展性的NVMe存储虚拟化方法和系统，尤其涉及一种高可扩展性的NVMe存储虚拟化方法和系统。

背景技术

随着云计算技术，尤其是虚拟化技术的发展，云服务产商提供的云服务愈加稳定与成熟，这也吸引了更多的客户租用云服务，云环境更加复杂，需求更加多样。在存储方面，云服务产商一方面关注云存储性能，另一方面关注如何提高系统可扩展性，从而能为更多的客户提供服务，提高存储资源利用率，减少运营成本。近几年，具有轻便性，高可扩展性的容器技术以及结合传统虚拟机高隔离性特性的安全容器技术被广泛应用在云环境中，得益于容器的轻便性，云厂商使用容器来进行快速和大规模部署，对云环境混合部署虚拟机、安全容器、容器以及系统可扩展性提出新的要求，也给当前云存储虚拟化框架带来新的挑战。比如，在高密度容器云环境下，如果云存储虚拟化框架可扩展性较差，势必导致存储资源无法被充分利用，提高运营成本，降低竞争力。

当前一些传统虚拟化技术对可扩展性支持较差。传统NVMe SSD虚拟化框架更多关注单机单设备场景下对单一应用场景的存储支持，无法满足复杂云场景下虚拟机/安全容器和容器混合部署以及高可扩展性的需求。主流的软件管理NVMe虚拟化方案有virtio、spdk、vfio和mdev。Virtio主要包括virtio-blk和virtio-scsi，因为安全容器kata-container默认采用virtio-scsi，所以以virtio-scsi为代表进行分析，virtio-scsi支持安全容器和普通runc容器混部，但是通过实验进行性能测试，数据表明在容器密度较高的情况下多个容器之间性能差异较大，性能公平性较差，并且IOPS性能表现差于mdev方案，如图1所示。Spdk需要将NVMe设备与原始驱动先进行解绑，然后再与自己的用户态驱动进行绑定，所以只能支持安全容器运行，无法同时支持普通容器，而且当前kata-container对spdk的支持还不够成熟。Vfio虽然通过设备直通能够带来较好的性能提升，但缺牺牲了设备共享能力，不符合高密度多容器共享设备的需求。Mdev-NVMe方案基于VFIO-mdev，对宿主机的NVMe驱动进行修改，只要通过sysfs系统创建mdev设备就能供虚拟机使用，并且能够预留一部分NVMe物理队列资源给原生驱动，因此能够同时支持安全容器和容器进行混部，创建mdev设备需要预先分配好NVMe物理队列资源，并且在mdev设备释放之前无法重新分配物理队列资源，因此能创建mdev的数量受限于总的分配给mdev的物理队列资源，同时创建一个mdev设备就需要一个I/O轮询线程，对服务cpu资源占用较高，因此mdev方案的可扩展性较差。硬件辅助虚拟化方案主要是SR-IOV，通过PF创建多个VF后无法保留原生PF，只能将VF直通给虚拟机，因此不支持普通容器运行，同时SR-IOV需要硬件特性支持，硬件成本较高，缺乏虚拟机监控器的介入也限制了SR-IOV资源分配的灵活性和可扩展性。

在高密度云场景下，对NVMe存储资源的分配与调度必须具有灵活性和可扩展性，同时保证共享资源之间的隔离性与公平性，减少不同虚拟机和容器之间的性能干扰，以及不同虚拟机和容器之间物理资源的公平配置，以提供良好的整体服务质量。

在公开号为CN104049912A的专利文献中公开了一种基于虚拟化平台的虚拟化存储管理，该方法的具体方法包括：平台，并在虚拟化平台上开发一个存储管理虚拟机；2)存储管理虚拟把节点上的直连磁盘机汇聚成存储资源池；3)建立各台服务器节点上的存储管理虚拟机通信之间机制；4)每个节点上的存储资源池，汇聚成一个应用存储资源池；5)通过虚拟网络将应用存储资源池，提供给虚拟化平台，作为虚拟化的基础资源。

因此，需要提出一种技术方案以改善上述技术问题。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种可扩展性的NVMe存储虚拟化方法和系统。

根据本发明提供的一种可扩展性的NVMe存储虚拟化方法，所述方法包括如下步骤：

步骤S1：输入系统分配给虚拟机/安全容器的物理队列数目，构建物理资源池，剩余设备物理队列将预留给原生NVMe驱动，给普通容器使用；

步骤S2：输入系统所需要的轮询控制器数目，系统创建相应数目的轮询控制器，每个轮询控制器创建一个I/O轮询线程，处理I/O任务；

步骤S3：输入虚拟机/安全容器需要的存储资源数量，存储资源管理模块分配给相应的存储资源；

步骤S4：虚拟机/安全容器被分配给对应的轮询控制器；

步骤S5：轮询控制器给虚拟机/安全容器分配物理队列，I/O轮询线程处理虚拟机/安全容器的I/O任务，通过NVMe指令地址翻译模块进行地址翻译；

步骤S6：判断I/O任务是否结束，若没有结束则返回步骤S5继续执行。

优选地，所述步骤S1中构建物理队列资源池包括如下步骤：

步骤S1.1：根据输入系统的物理队列数目获取原生NVMe驱动中相应的物理队列数目，标识为mdev queue，与原生NVMe驱动其他物理队列进行区分；

步骤S1.2：将所有的mdev queues进行包装，添加mdev需要使用的属性，用全局结构pool维护；

步骤S1.3：提供轮询控制器模块申请物理队列资源的接口，分配给轮询控制器所需的物理队列资源。

优选地，所述步骤S2中创建轮询控制器包括如下步骤：

步骤S2.1：向物理资源池申请需要的物理队列资源，添加到预备物理资源池；

步骤S2.2：创建I/O轮询线程，并绑定到CPU核心上；

步骤S2.3：轮询控制器初始化虚拟机链表，创建虚拟机/安全容器时根据其虚拟控制器id分配到相应的轮询控制器，添加到虚拟机链表上；

步骤S2.4：I/O轮询线程遍历虚拟机链表，判断虚拟机是否有I/O任务需要处理，按设定的调度算法调度虚拟机；

步骤S2.5：初始化I/O上下文，根据虚拟机的虚拟队列从预备物理资源池获取物理队列，将物理队列与虚拟队列进行绑定，物理队列分为1:1物理队列以及1：N物理队列；

步骤S2.6：I/O轮询线程处理I/O任务，包括从虚拟提交队列读取NVMe指令、翻译NVMe指令和提交NVMe指令；从虚拟完成队列写入NVMe指令完成信息；从物理完成队列读取NVMe指令完成信息；

步骤S2.7：将物理队列与虚拟队列进行解绑，返回步骤S2.4。

优选地，所述步骤S3中分配虚拟机/安全容器需要的存储资源包括如下步骤：

步骤S3.1：通过fdisk创建一个NVMe分区，所有mdev设备共用该分区；

步骤S3.2：将该NVMe分区划分成固定大小的份额；

步骤S3.3：输入虚拟机/安全容器需要的存储资源数量，系统分配给相应的存储资源片段，记录该片段在分区的起始偏移量；下次分配从未分配的片段开始；

步骤S3.4：根据该片段在分区的起始偏移量翻译NVMe指令中的Start LogicalBlock Address，完成对相应存储资源的访问。

优选地，所述步骤S4中使用round-robin算法分配虚拟机/安全容器等额的运行时间片包括如下步骤：

步骤S4.1：设定round-robin的时间片vctrl_poll_ms以及虚拟机进入idle状态的时间阈值idle_timeout_ms，设n为一个轮询控制器需要调度的总虚拟机数量，求出idle_timeout_ms：

idle_timeout_ms＝vctrl_poll_ms*n*2

步骤S4.2：通过last记录虚拟机刚被调度的时间，now记录虚拟机当前的时间，设now与last的差值为δ，如果δ<vctrl_poll_ms，则说明虚拟机仍拥有执行I/O任务的时间片，继续执行I/O任务；如果δ≥vctrl_poll_ms，则调度下一个虚拟机；

步骤S4.3：通过last_io_t记录虚拟机最后一次执行I/O任务的时间，设当前时间now与last_io_t的差值为β，如果β>idle_timeout_ms，说明虚拟机无I/O活动的时间已经超过阈值idle_timeout_ms，进入idle状态，不再需要被调度，等到有I/O任务后再重新加入调度队列；

所述步骤S5中使用硬件IOMMU进行I/O地址翻译包括如下步骤：

步骤S5.1：加载NVMe模块时创建IOMMU domain；

步骤S5.2：虚拟机I/O地址空间发生变化时，添加一个虚拟机各异的起始偏移量，调用vfio_pin_pages接口获取连续的物理页的起始地址HPA，将物理页固定住，通过IOMMUdomain提供的接口进行IOMMU映射和反映射，记录GPA与HPA的映射关系；

步骤S5.3：翻译NVMe指令，将NVMe指令中的GPA添加一个虚拟机各异的起始偏移量；

步骤S5.4：IOMMU将GPA翻译成HPA，进行dma操作，完成I/O读写任务；

步骤S5.5：卸载NVMe模块时释放IOMMU domain的资源。

本发明还提供一种可扩展性的NVMe存储虚拟化系统，所述系统包括如下模块：

模块M1：输入系统分配给虚拟机/安全容器的物理队列数目，构建物理资源池，剩余设备物理队列将预留给原生NVMe驱动，给普通容器使用；

模块M2：输入系统所需要的轮询控制器数目，系统创建相应数目的轮询控制器，每个轮询控制器创建一个I/O轮询线程，处理I/O任务；

模块M3：输入虚拟机/安全容器需要的存储资源数量，存储资源管理模块分配给相应的存储资源；

模块M4：虚拟机/安全容器被分配给对应的轮询控制器；

模块M5：轮询控制器给虚拟机/安全容器分配物理队列，I/O轮询线程处理虚拟机/安全容器的I/O任务，通过NVMe指令地址翻译模块进行地址翻译；

模块M6：判断I/O任务是否结束，若没有结束则返回模块M5继续执行。

优选地，所述模块M1中构建物理队列资源池包括如下模块：

模块M1.1：根据输入系统的物理队列数目获取原生NVMe驱动中相应的物理队列数目，标识为mdev queue，与原生NVMe驱动其他物理队列进行区分；

模块M1.2：将所有的mdev queues进行包装，添加mdev需要使用的属性，用全局结构pool维护；

模块M1.3：提供轮询控制器模块申请物理队列资源的接口，分配给轮询控制器所需的物理队列资源。

优选地，所述模块M2中创建轮询控制器包括如下模块：

模块M2.1：向物理资源池申请需要的物理队列资源，添加到预备物理资源池；

模块M2.2：创建I/O轮询线程，并绑定到CPU核心上；

模块M2.3：轮询控制器初始化虚拟机链表，创建虚拟机/安全容器时根据其虚拟控制器id分配到相应的轮询控制器，添加到虚拟机链表上；

模块M2.4：I/O轮询线程遍历虚拟机链表，判断虚拟机是否有I/O任务需要处理，按设定的调度算法调度虚拟机；

模块M2.5：初始化I/O上下文，根据虚拟机的虚拟队列从预备物理资源池获取物理队列，将物理队列与虚拟队列进行绑定，物理队列分为1:1物理队列以及1：N物理队列；

模块M2.6：I/O轮询线程处理I/O任务，包括从虚拟提交队列读取NVMe指令、翻译NVMe指令和提交NVMe指令；从虚拟完成队列写入NVMe指令完成信息；从物理完成队列读取NVMe指令完成信息；

模块M2.7：将物理队列与虚拟队列进行解绑，返回模块M2.4。

优选地，所述模块M3中分配虚拟机/安全容器需要的存储资源包括如下模块：

模块M3.1：通过fdisk创建一个NVMe分区，所有mdev设备共用该分区；

模块M3.2：将该NVMe分区划分成固定大小的份额；

模块M3.3：输入虚拟机/安全容器需要的存储资源数量，系统分配给相应的存储资源片段，记录该片段在分区的起始偏移量；下次分配从未分配的片段开始；

模块M3.4：根据该片段在分区的起始偏移量翻译NVMe指令中的Start LogicalBlock Address，完成对相应存储资源的访问。

优选地，所述模块M4中使用round-robin算法分配虚拟机/安全容器等额的运行时间片包括如下模块：

模块M4.1：设定round-robin的时间片vctrl_poll_ms以及虚拟机进入idle状态的时间阈值idle_timeout_ms，设n为一个轮询控制器需要调度的总虚拟机数量，求出idle_timeout_ms：

idle_timeout_ms＝vctrl_poll_ms*n*2

模块M4.2：通过last记录虚拟机刚被调度的时间，now记录虚拟机当前的时间，设now与last的差值为δ，如果δ<vctrl_poll_ms，则说明虚拟机仍拥有执行I/O任务的时间片，继续执行I/O任务；如果δ≥vctrl_poll_ms，则调度下一个虚拟机；

模块M4.3：通过last_io_t记录虚拟机最后一次执行I/O任务的时间，设当前时间now与last_io_t的差值为β，如果β>idle_timeout_ms，说明虚拟机无I/O活动的时间已经超过阈值idle_timeout_ms，进入idle状态，不再需要被调度，等到有I/O任务后再重新加入调度队列；

所述模块M5中使用硬件IOMMU进行I/O地址翻译包括如下模块：

模块M5.1：加载NVMe模块时创建IOMMU domain；

模块M5.2：虚拟机I/O地址空间发生变化时，添加一个虚拟机各异的起始偏移量，调用vfio_pin_pages接口获取连续的物理页的起始地址HPA，将物理页固定住，通过IOMMUdomain提供的接口进行IOMMU映射和反映射，记录GPA与HPA的映射关系；

模块M5.3：翻译NVMe指令，将NVMe指令中的GPA添加一个虚拟机各异的起始偏移量；

模块M5.4：IOMMU将GPA翻译成HPA，进行dma操作，完成I/O读写任务；

模块M5.5：卸载NVMe模块时释放IOMMU domain的资源。

与现有技术相比，本发明具有如下的有益效果：

1、本发明通过构建物理队列资源池和细粒度存储资源管理模块提高系统可支持mdev设备的数量，提高系统的可扩展性；物理队列资源池将mdev设备资源(虚拟队列)与物理队列资源进行解耦，从而提高物理队列资源分配的灵活性；

2、本发明存储资源管理模块细粒度分配mdev设备存储资源，不再依靠NVMe分区进行存储资源的划分与隔离，从而提高存储资源分配的灵活性；本发明通过创建I/O轮询控制器模块和利用硬件IOMMU翻译减少系统在高密度安全容器环境下对CPU资源的消耗，从而提高系统的整体性能以及各个安全容器之间的性能公平性；

3、本发明I/O轮询控制器模块优化I/O轮询线程处理I/O任务的过程，提高线程CPU利用率；硬件IOMMU翻译模块利用硬件IOMMU进行I/O地址翻译，减少系统对宿主机CPU资源的占用；

4、本发明提出了一种基于中介透传方案的高可扩展性，支持安全容器和容器混合部署的高性能NVMe虚拟化系统方法。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明多容器微基准virtio-scsi、mdev随机读测试IOPS实验结果图；

图2为本发明高可扩展性的NVMe虚拟化方案系统架构图；

图3为本发明轮询控制器架构图；

图4为本发明80个安全容器微基准随机读测试IOPS实验结果图；

图5为本发明160个安全容器微基准随机读测试IOPS实验结果图；

图6为本发明整体性能对比实验结果图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

针对现有技术中的缺陷，为满足容器与安全容器混合部署，以及云环境中高密度容器可扩展性的需求，决定基于mdev方案进行开发与优化，本发明提出一种针对单机单设备高可扩展性的NVMe存储虚拟化方法和系统，图2为系统的整体架构图，从物理队列分配与调度、优化I/O轮询线程、修改存储资源分配方式、优化NVMe指令地址翻译过程这四个方面提高系统整体的可扩展性。

本发明包括物理队列资源池模块、轮询控制器模块、NVMe指令地址翻译模块、存储资源管理模块。

根据本发明提供高可扩展性的NVMe存储虚拟化方法和系统，包括：

步骤S1：输入系统分配给虚拟机/安全容器的物理队列数目，构建物理资源池，剩余设备物理队列将预留给原生NVMe驱动，从而给普通容器使用；

步骤S2：输入系统所需要的轮询控制器数目。系统会创建相应数目的轮询控制器，每个轮询控制器创建一个I/O轮询线程，负责处理I/O任务；

步骤S4：虚拟机/安全容器被分配给对应的轮询控制器；

物理队列资源池模块，主要解决的问题就是mdev物理队列资源分配对mdev设备数量的限制问题，原有设计中虚拟机的虚拟队列与物理队列一一对应，从而限制了可创建mdev设备的数量。解决方案是构建物理队列资源池，将mdev设备资源(虚拟队列)与物理队列资源进行解耦，从而提高物理队列资源分配的灵活性。

物理队列资源池包括如下步骤：

步骤S1.1：根据输入系统的物理队列数目获取原生NVMe驱动中相应的物理队列数目，标识为mdev queue，从而与原生NVMe驱动其他物理队列进行区分；

步骤S1.2：将所有的mdev queues进行包装，添加mdev需要使用的属性，然后用一个全局结构pool维护起来；

轮询控制器模块，主要解决的问题就是I/O轮询线程对系统可扩展性的限制。mdev方案中每创建一个虚拟机都需要创建一个对应的I/O轮询线程，并绑定到某个CPU核心上，如果多个虚拟机的I/O轮询线程绑定到不同的CPU核心上，则会使物理机多个CPU核心被占用，导致可供虚拟机虚拟化使用的CPU资源减少，从而限制了系统的可扩展性。一个轮询控制器只有一个轮询I/O线程，负责处理分配给该轮询控制器的所有虚拟机/安全容器，大大减少轮询线程的创建数量，提高了系统的整体可扩展性。

轮询控制器包括如下步骤：

步骤S2.1：向物理资源池申请需要的物理队列资源，添加到自己的预备物理资源池；

步骤S2.2：创建I/O轮询线程，并绑定到某个CPU核心上；

步骤S2.6：I/O轮询线程处理I/O任务，包括从虚拟提交队列读取NVMe指令、翻译NVMe指令、提交NVMe指令；从虚拟完成队列写入NVMe指令完成信息；从物理完成队列读取NVMe指令完成信息；

步骤S2.7：将物理队列与虚拟队列进行解绑，返回步骤S2.4。

调度算法基于round-robin算法包括如下步骤：

步骤S4.1：设定round-robin的时间片vctrl_poll_ms，以及虚拟机进入idle状态的时间阈值idle_timeout_ms，设n为一个轮询控制器需要调度的总虚拟机数量，那么可以求出idle_timeout_ms：

idle_timeout_ms＝vctrl_poll_ms*n*2

步骤S4.3：通过last_io_t记录虚拟机最后一次执行I/O任务的时间，设当前时间now与last_io_t的差值为β，如果β>idle_timeout_ms，说明虚拟机无I/O活动的时间已经超过阈值idle_timeout_ms，可以进入idle状态，不再需要被调度，等到有I/O任务后再重新加入调度队列。

NVMe指令地址翻译模块，主要通过硬件IOMMU来实现NVMe指令中I/O地址的翻译。Mdev方案中通过虚拟IOMMU，用软件形式实现了页表，页表维护了I/O Virtual Address(IOVA)、Host Physical Address(HPA)与Host I/O Virtual Address(host IOVA)之间的映射关系，翻译NVMe指令时都要占用CPU资源查询页表，进行翻译，将IOVA翻译成HostIOVA，虚拟IOMMU介入地址翻译，查询页表一定程度上占用了部分能给虚拟机提供的CPU资源。通过将这一部分逻辑硬件卸载到硬件IOMMU，能够减少I/O地址翻译占用的CPU资源，提高系统整体可扩展性。

通过硬件IOMMU进行I/O地址翻译，包括如下步骤：

步骤S5.1：加载NVMe模块的时候创建IOMMU domain；

步骤S5.2：虚拟机I/O地址空间发生变化时，添加一个虚拟机各异的起始偏移量，调用vfio_pin_pages接口获取连续的物理页的起始地址HPA，并且将物理页固定住，防止被换出，通过IOMMU domain提供的接口进行IOMMU映射和反映射，记录GPA与HPA的映射关系；

步骤S5.3：翻译NVMe指令，将NVMe指令中的GPA添加一个虚拟机各异的起始偏移量，防止GPA冲突；

步骤S5.4：IOMMU将GPA翻译成HPA，进行dma操作，完成I/O读写任务。

步骤S5.5：卸载NVMe模块的时候释放IOMMU domain的资源.

存储资源管理模块主要解决的问题是NVMe分区数目对系统可扩展性的限制。传统mdev方案中需要一个mdev设备需要占用一个NVMe分区，但是MBR和GPT分区都有数目上限，分别为60和128，因此限制了mdev设备的创建数量，从而限制系统的可扩展性，所以需要重新设计mdev NVMe分区管理方案，不再受linux分区数目上限的限制。

存储资源分区管理方案，包括如下步骤：

步骤S3.1：通过fdisk创建一个NVMe分区，所有mdev设备都共用该分区；

步骤S3.2：将该NVMe分区划分成固定大小的份额，如平均分成1024份；

步骤S3.3：输入虚拟机/安全容器需要的存储资源数量，即份数，系统分配给相应的存储资源片段，并记录该片段在分区的起始偏移量；下次分配从未分配的片段开始；

步骤S3.4：根据该片段在分区的起始偏移量翻译NVMe指令中的Start LogicalBlock Address(SLBA)，完成对相应存储资源的访问。

本发明提出了一种高可扩展性的NVMe存储虚拟化方法，该方法基于中介透传虚拟化方案，支持对虚拟机、安全容器、容器的混合部署，同时满足对高密度部署安全容器、容器的可扩展性需求，图2展示了该系统的整体架构图。该方案实现在系统NVMe驱动层，根据vfio mdev框架提供的接口，创建虚拟的mdev设备，将mdev设备通过vfio传递给虚拟机，从而提供虚拟机使用NVMe设备的能力。它通过修改物理队列分配与调度方式、优化I/O轮询线程处理I/O任务过程、修改存储资源分配方式、优化NVMe指令地址翻译过程这四个方面提高系统整体的可扩展性。

修改物理队列分配与调度方式具体体现在加载NVMe驱动模块时，将NVMe物理队列分为两类：一类与原来物理队列相同，作为原生物理队列提供给容器的存储支持；另一类为mdev物理队列，提供虚拟机和安全容器的存储支持。同时，针对mdev物理队列，构建物理队列资源池，按需分配给图2中的轮询控制器，物理队列也由轮询控制器来调度，如图3所示，通过分时复用的机制满足多个虚拟机共享有限物理队列资源的需求。轮询控制器中管理的物理队列也分为两类，一类为1:1物理队列；另一类为1：N物理队列，当虚拟机的虚拟队列数目大于轮询控制器的储备队列数目时，就需要将多个虚拟队列绑定到同一个物理队列。

一个轮询控制器会创建一个I/O轮询线程，轮询控制器如图3所示，主要有三项任务：一是负责进行虚拟机的调度，按照round-robin的调度算法分配给虚拟机运行的时间片；二是对被调度到的虚拟机进行物理队列的调度，将虚拟队列与物理队列进行绑定与解绑；三是通过I/O轮询线程处理I/O任务，具体地，会轮询虚拟机的虚拟提交队列，将虚拟提交队列中的NVMe指令转发到绑定的物理队列上，然后会轮询虚拟机的虚拟完成队列，向虚拟机注入中断通知NVMe指令完成信息，还会轮询硬件物理完成队列，通过轮询代替中断，有效降低时延，将物理完成队列中的NVMe完成信息写入到对应的虚拟完成队列。为了降低轮询带来的CPU损耗，提供一个检测虚拟机I/O活动的机制，当虚拟机在一段时间内没有I/O活动时，会标识该虚拟机为idle状态，将其移出调度队列，直到有新的I/O活动。

不同于传统mdev方案一个mdev设备需要一个NVMe分区，本发明只需要创建一个NVMe分区，再将该分区均分成多个小片段，虚拟机申请存储资源只需要指定需要的片段数目，系统便寻找可以分配的连续片段，将该连续片段分配给该虚拟机，并记录该片段在分区中的起始偏移量，当虚拟机需要访问存储资源时，只要将SLBA加上该起始偏移量即可得到真正的读写位置。

传统mdev方案中通过模拟页表实现软件IOMMU来进行GPA的地址翻译过程，本发明将虚拟机GPA的翻译逻辑硬件卸载到硬件IOMMU，从而优化了查询软件IOMMU的CPU资源开销。首先需要给系统申请一个IOMMU domain，通过该domain可以进行IOMMU页表的映射和反映射，然后基于事件通知链机制向vfio notifier注册内存空间变化的回调函数，当虚拟机的I/O空间发现变化时，通过回调函数可以获取相应的内存空间，再将内存空间通过vfio_pin_pages接口获取连续的物理页的起始地址HPA并将物理页固定住，防止被换页换出，最后通过iommu map/unmap接口创建GPA翻译到HPA的页表，供后续翻译查询页表使用。为了解决不同虚拟机GPA可能冲突的问题，给不同虚拟机设定不同的起始GPA偏移量，以此来识别不同的GPA地址空间。

以下通过举例来详细说明本发明的运行过程：

实验采用的NVMe设备是400GB的Intel Optane SSD DC P5800X。服务器平台配置则为双20核心Intel Xeon Gold 6248CPU，睿频2.5GHz，40线程，系统内存为384GB。服务器运行Ubuntu 18.04 64bit操作系统，Linux 5.0版本内核。安全容器采用kata-container镜像为Ubuntu 18.04服务器版操作系统，原生Linux 5.4.60内核。容器启动硬件配置为1个cpu和384M内存。将NVMe设备分为两个分区，分区1为300G，供虚拟机和安全容器使用，划分1024个片段，即一个片段300M。

假设我们要运行两组实验，一组运行80个安全容器，另外一组160个安全容器。每个安全容器使用1个片段，即300M空间大小，8个物理队列给安全容器使用，创建8个轮询控制器，即8个轮询线程，每个轮询控制器使用一个1个物理队列，80个安全容器实验组每个线程负责轮询10个安全容器，160个安全容器实验组每个线程负责轮询20个安全容器。

实验采用Fio(Flexible I/O tester)作为微基准测试工具，由于更加关注可扩展性，所以负载为iodepth为1，numjobs为1的轻负载，读写类型为随机读，块大小为4k。

测试结果分别展示在图4，图5和图6，图4为80个安全容器运行的情况，可以看到只用8个物理队列和8个轮询线程就可以支撑起80个安全容器，由于是轻负载，此时并未达到NVMe设备的负载上限，安全容器的性能表现都比较稳定，可以看到各个安全容器之间的性能表现差异很小。这一结果充分体现了各个安全容器之间资源配置的公平性和性能隔离性。图5为160个安全容器运行的情况，可以看到在轮询安全容器数目提升一倍的情况下，单个容器的性能大概是80个安全容器实验组的一半。图6是这两个实验组的整体累加性能比较，可以看到当轮询线程数目和物理队列数目固定时，容器数目提升一倍只造成很小的系统整体性能损失，只有2％，这一结果充分体现了系统对高可扩展性的支持。

模块M1：输入系统分配给虚拟机/安全容器的物理队列数目，构建物理资源池，剩余设备物理队列将预留给原生NVMe驱动，给普通容器使用；模块M1.1：根据输入系统的物理队列数目获取原生NVMe驱动中相应的物理队列数目，标识为mdev queue，与原生NVMe驱动其他物理队列进行区分；模块M1.2：将所有的mdev queues进行包装，添加mdev需要使用的属性，用全局结构pool维护；模块M1.3：提供轮询控制器模块申请物理队列资源的接口，分配给轮询控制器所需的物理队列资源。

模块M2：输入系统所需要的轮询控制器数目，系统创建相应数目的轮询控制器，每个轮询控制器创建一个I/O轮询线程，处理I/O任务；模块M2.1：向物理资源池申请需要的物理队列资源，添加到预备物理资源池；模块M2.2：创建I/O轮询线程，并绑定到CPU核心上；模块M2.3：轮询控制器初始化虚拟机链表，创建虚拟机/安全容器时根据其虚拟控制器id分配到相应的轮询控制器，添加到虚拟机链表上；模块M2.4：I/O轮询线程遍历虚拟机链表，判断虚拟机是否有I/O任务需要处理，按设定的调度算法调度虚拟机；模块M2.5：初始化I/O上下文，根据虚拟机的虚拟队列从预备物理资源池获取物理队列，将物理队列与虚拟队列进行绑定，物理队列分为1:1物理队列以及1：N物理队列；模块M2.6：I/O轮询线程处理I/O任务，包括从虚拟提交队列读取NVMe指令、翻译NVMe指令和提交NVMe指令；从虚拟完成队列写入NVMe指令完成信息；从物理完成队列读取NVMe指令完成信息；模块M2.7：将物理队列与虚拟队列进行解绑，返回模块M2.4。

模块M3：输入虚拟机/安全容器需要的存储资源数量，存储资源管理模块分配给相应的存储资源；模块M3.1：通过fdisk创建一个NVMe分区，所有mdev设备共用该分区；模块M3.2：将该NVMe分区划分成固定大小的份额；模块M3.3：输入虚拟机/安全容器需要的存储资源数量，系统分配给相应的存储资源片段，记录该片段在分区的起始偏移量；下次分配从未分配的片段开始；模块M3.4：根据该片段在分区的起始偏移量翻译NVMe指令中的StartLogical Block Address，完成对相应存储资源的访问。

模块M4：虚拟机/安全容器被分配给对应的轮询控制器；模块M4.1：设定round-robin的时间片vctrl_poll_ms以及虚拟机进入idle状态的时间阈值idle_timeout_ms，设n为一个轮询控制器需要调度的总虚拟机数量，求出idle_timeout_ms：

idle_timeout_ms＝vctrl_poll_ms*n*2

模块M4.2：通过last记录虚拟机刚被调度的时间，now记录虚拟机当前的时间，设now与last的差值为δ，如果δ<vctrl_poll_ms，则说明虚拟机仍拥有执行I/O任务的时间片，继续执行I/O任务；如果δ≥vctrl_poll_ms，则调度下一个虚拟机；模块M4.3：通过last_io_t记录虚拟机最后一次执行I/O任务的时间，设当前时间now与last_io_t的差值为β，如果β>idle_timeout_ms，说明虚拟机无I/O活动的时间已经超过阈值idle_timeout_ms，进入idle状态，不再需要被调度，等到有I/O任务后再重新加入调度队列。

模块M5：轮询控制器给虚拟机/安全容器分配物理队列，I/O轮询线程处理虚拟机/安全容器的I/O任务，通过NVMe指令地址翻译模块进行地址翻译；模块M5.1：加载NVMe模块时创建IOMMU domain；模块M5.2：虚拟机I/O地址空间发生变化时，添加一个虚拟机各异的起始偏移量，调用vfio_pin_pages接口获取连续的物理页的起始地址HPA，将物理页固定住，通过IOMMU domain提供的接口进行IOMMU映射和反映射，记录GPA与HPA的映射关系；模块M5.3：翻译NVMe指令，将NVMe指令中的GPA添加一个虚拟机各异的起始偏移量；模块M5.4：IOMMU将GPA翻译成HPA，进行dma操作，完成I/O读写任务；模块M5.5：卸载NVMe模块时释放IOMMU domain的资源。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种可扩展性的NVMe存储虚拟化方法，其特征在于，所述方法包括如下步骤：

步骤S4：虚拟机/安全容器被分配给对应的轮询控制器；

步骤S6：判断I/O任务是否结束，若没有结束则返回步骤S5继续执行；

所述步骤S2中创建轮询控制器包括如下步骤：

步骤S2.2：创建I/O轮询线程，并绑定到CPU核心上；

步骤S2.7：将物理队列与虚拟队列进行解绑，返回步骤S2.4；

所述步骤S3中分配虚拟机/安全容器需要的存储资源包括如下步骤：

步骤S3.2：将该NVMe分区划分成固定大小的份额；

步骤S3.4：根据该片段在分区的起始偏移量翻译NVMe指令中的Start Logical BlockAddress，完成对相应存储资源的访问；

所述步骤S5中使用硬件IOMMU进行I/O地址翻译包括如下步骤：

步骤S5.1：加载NVMe模块时创建IOMMU domain；

步骤S5.5：卸载NVMe模块时释放IOMMU domain的资源。

2.根据权利要求1所述的可扩展性的NVMe存储虚拟化方法，其特征在于，所述步骤S1中构建物理队列资源池包括如下步骤：

3.根据权利要求1所述的可扩展性的NVMe存储虚拟化方法，其特征在于，所述步骤S4中使用round-robin算法分配虚拟机/安全容器等额的运行时间片包括如下步骤：

idle_timeout_ms＝vctrl_poll_ms*n*2

步骤S4.3：通过last_io_t记录虚拟机最后一次执行I/O任务的时间，设当前时间now与last_io_t的差值为β，如果β>idle_timeout_ms，说明虚拟机无I/O活动的时间已经超过阈值idle_timeout_ms，进入idle状态，不再需要被调度，等到有I/O任务后再重新加入调度队列。

4.一种可扩展性的NVMe存储虚拟化系统，其特征在于，所述系统包括如下模块：

模块M4：虚拟机/安全容器被分配给对应的轮询控制器；

模块M6：判断I/O任务是否结束，若没有结束则返回模块M5继续执行；

所述模块M2中创建轮询控制器包括如下模块：

模块M2.2：创建I/O轮询线程，并绑定到CPU核心上；

模块M2.7：将物理队列与虚拟队列进行解绑，返回模块M2.4；

所述模块M3中分配虚拟机/安全容器需要的存储资源包括如下模块：

模块M3.2：将该NVMe分区划分成固定大小的份额；

模块M3.4：根据该片段在分区的起始偏移量翻译NVMe指令中的Start Logical BlockAddress，完成对相应存储资源的访问；

所述模块M5中使用硬件IOMMU进行I/O地址翻译包括如下模块：

模块M5.1：加载NVMe模块时创建IOMMU domain；

模块M5.5：卸载NVMe模块时释放IOMMU domain的资源。

5.根据权利要求4所述的可扩展性的NVMe存储虚拟化系统，其特征在于，所述模块M1中构建物理队列资源池包括如下模块：

6.根据权利要求4所述的可扩展性的NVMe存储虚拟化系统，其特征在于，所述模块M4中使用round-robin算法分配虚拟机/安全容器等额的运行时间片包括如下模块：

idle_timeout_ms＝vctrl_poll_ms*n*2

模块M4.3：通过last_io_t记录虚拟机最后一次执行I/O任务的时间，设当前时间now与last_io_t的差值为β，如果β>idle_timeout_ms，说明虚拟机无I/O活动的时间已经超过阈值idle_timeout_ms，进入idle状态，不再需要被调度，等到有I/O任务后再重新加入调度队列。