CN102497432B - 一种多路径访问i/o设备的方法、i/o多路径管理器及系统 - Google Patents

一种多路径访问i/o设备的方法、i/o多路径管理器及系统 Download PDF

Info

Publication number
CN102497432B
CN102497432B CN201110415345.XA CN201110415345A CN102497432B CN 102497432 B CN102497432 B CN 102497432B CN 201110415345 A CN201110415345 A CN 201110415345A CN 102497432 B CN102497432 B CN 102497432B
Authority
CN
China
Prior art keywords
hard partitioning
equipment
computing node
hard
partitioning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110415345.XA
Other languages
English (en)
Other versions
CN102497432A (zh
Inventor
雕峻峰
刘云海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201110415345.XA priority Critical patent/CN102497432B/zh
Publication of CN102497432A publication Critical patent/CN102497432A/zh
Priority to PCT/CN2012/079307 priority patent/WO2013086861A1/zh
Application granted granted Critical
Publication of CN102497432B publication Critical patent/CN102497432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4004Coupling between buses
    • G06F13/4022Coupling between buses using switching circuits, e.g. switching matrix, connection or expansion network

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种多路径访问I/O设备的方法、I/O多路径管理器及系统,涉及IT领域,能够使所有计算节点的与PCI-E交换机之间PCI-E链路有效,使从节点也能够通过自身的PCI-E链路访问I/O设备,消除了时延和高业务量情况下的瓶颈,提高了带宽的利用率。包括:根据接收到的第一硬分区的配置信息配置PCI-E交换机,使所述第一硬分区的计算节点只访问所述第一硬分区的I/O设备;根据接收到的所述第一硬分区的配置信息建立所述第一硬分区的计算节点和所述第一硬分区的I/O设备之间的映射关系,以使操作系统根据所述映射关系指示执行I/O任务的计算节点访问所述第一硬分区的I/O设备。本发明实施例用于多路径访问I/O设备。

Description

一种多路径访问I/O设备的方法、I/O多路径管理器及系统
技术领域
本发明涉及通信领域,尤其涉及一种多路径访问I/O设备的方法、I/O多路径管理器及系统。
背景技术
目前,网络通信中的计算节点,例如服务器,通过PCI-E(Peripheral Component Interconnect-Express,外设组件快速互连标准)来直接对外访问I/O(Input/Output,输入输出)设备大多基于集群(Cluster)场景,即默认PCI-E交换机的各个接口(port)都是连接到不同的系统上,并没有很好地考虑基于NUMA(Non-UniformMemory Access,非一致性内存访问)系统的场景。在NUMA系统中,将所有计算节点分成若干个节点集合,且每个节点集合都与其他的节点集合电气隔离,这样的一个集合就叫做硬分区(或者说是一个大节点),每个硬分区内包括一个或多个计算节点,每个计算节点都有RC(Root Complex,根集合体),可以对外连接PCI-E。
一个NUMA系统是由多个计算节点通过NUMA网络聚合而成,由一个OS(Operating System,操作系统)或管理程序(Hypervisor)统一管理这些物理节点的硬件资源。
以NUMA系统为例,如图1所示为只显示了一个大节点(或硬分区)的组网图,包括NUMA局和网络1、包括3个计算节点21~23的硬分区2、PCI-E交换机3、外部I/O设备4,其中每个计算节点有至少1颗CPU(Central Processing Unit,中央处理器)、一个NC(Node Controller,节点控制器),位于IOH(Input/Output Hub,输入输出集线器)中的根组件(Root Complex,RC),外部I/O设备6包括光纤通道网卡31和以太网卡32。假定计算节点21是主节点,承担主要的分区启动、资源管理的任务,计算节点22~24为从节点。3个计算节点通过NUMA聚合网络,总共组成一个6路系统(实际上这个PCI-E交换机还连接着NUMA系统中其他的硬分区的计算节点)。
如图1所示的系统里,计算节点21对外连接PCI-E交换机的PCI-E链路01是实线显示,计算节点22~23对外连接PCI-E交换机的PCI-E链路02、03是虚线显示。这是因为软件(例如Firmware、OS、I/O应用程序等)只能通过主节点连接到PCI-E交换机的链路才能看到以太网卡等IO设备,而软件是无法通过从节点访问到有效的I/O设备。如图2所示,为图1所示系统的资源信息表示意图,计算节点22~23无法直接看到以太网卡和光纤通道网卡等I/O设备,要访问以太网卡等I/O设备,必须要通过NUMA链路经过NUMA聚合网络,再通过计算节点21的链路来访问。这样就增加了延时,在业务量较大的情况下主节点本身会出现输入输出的瓶颈,而且其他从节点向外连接的PCI-E链路没有起到作用,带宽利用率低。
发明内容
本发明的实施例提供一种多路径访问I/O设备的方法、I/O多路径管理器及系统,能够使所有计算节点与PCI-E交换机之间的PCI-E链路有效,消除了时延和高业务量情况下的瓶颈,提高了带宽的利用率。
本发明的实施例采用如下技术方案:
一方面,提供一种多路径访问I/O设备的方法,包括:
根据接收到的第一硬分区的配置信息配置PCI-E交换机,以隔离除所述第一硬分区之外的其他硬分区,使所述第一硬分区的计算节点只访问所述第一硬分区的I/O设备;
根据接收到的所述第一硬分区的配置信息建立所述第一硬分区的计算节点和所述第一硬分区的I/O设备之间的映射关系,以使操作系统根据所述映射关系指示执行I/O任务的计算节点访问所述第一硬分区的I/O设备。
一方面,一种I/O多路径管理器,包括:
PCI-E交换机配置模块,用于根据接收到的第一硬分区的配置信息配置外设组件快速互连标准PCI-E交换机,以隔离除所述第一硬分区之外的其他硬分区,使所述第一硬分区的计算节点只访问所述第一硬分区的I/O设备;
I/O多路径配置模块,用于根据接收到的所述第一硬分区的配置信息建立所述第一硬分区的计算节点和所述第一硬分区的I/O设备之间的映射关系,以使操作系统根据所述映射关系指示执行I/O任务的计算节点访问所述第一硬分区的I/O设备。
另一方面,提供一种多路径访问I/O设备的系统,包括:
I/O多路径管理器,用于根据接收到的第一硬分区的配置信息配置PCI-E交换机,以隔离除所述第一硬分区之外的其他硬分区,使所述第一硬分区的计算节点只访问所述第一硬分区的I/O设备,根据接收到的所述第一硬分区的配置信息建立所述第一硬分区的计算节点和所述第一硬分区的I/O设备之间的映射关系,以使操作系统根据所述映射关系指示执行I/O任务的计算节点访问所述第一硬分区的I/O设备;所述I/O多路径管理器位于固件或者操作系统中;
聚合网络,用于连接系统内的计算节点,以便于系统通过一个操作系统控制计算节点;
至少两个硬分区,其中每个硬分区中包括至少一个计算节点;
PCI-E交换机,用于所述计算节点与I/O设备之间建立连接,以便于所述计算节点通过自身与所述PCI-E交换机之间建立的PCI-E链路访问所述计算节点所属硬分区的I/O设备;
I/O设备,用于所述计算节点与外部网络之间的连接;
存储设备,用于存储固件、操作系统、I/O应用程序。
本发明的实施例提供的多路径访问I/O设备的方法、I/O多路径管理器及系统,能够使所有计算节点的与PCI-E交换机之间PCI-E链路有效,使从节点也能够通过自身的PCI-E链路访问I/O设备,消除了时延和高业务量情况下的瓶颈,提高了带宽的利用率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术NUMA系统的组网逻辑示意图;
图2为现有技术NUMA系统的系统资源信息表结构示意图;
图3为本发明实施例提供的多路径访问I/O设备的方法流程示意图一;
图4为本发明实施例提供的多路径访问I/O设备的方法流程示意图二;
图5为本发明实施例提供的多路径访问I/O设备的方法流程示意图三;
图6为本发明实施例提供的I/O多路径管理器的结构示意图;
图7为本发明实施例提供的多路径访问I/O设备的NUMA系统的组网逻辑示意图;
图8为本发明实施例提供的另一种多路径访问I/O设备的NUMA系统的组网逻辑示意图;
图9为本发明实施例提供的NUMA系统的系统资源信息表结构示意图;
图10为本发明实施例提供的SMP系统的系统资源信息表结构示意图;
图11为本发明实施例提供的SMP系统的系统资源信息表结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供的多路径访问I/O设备的方法,如图3所示,包括:
S101、根据接收到的第一硬分区的配置信息配置PCI-E交换机,以隔离除第一硬分区之外的其他硬分区,使第一硬分区的计算节点只访问第一硬分区的I/O设备。
S102、根据接收到的第一硬分区的配置信息在第一硬分区的计算节点和第一硬分区的I/O设备之间建立映射关系,以使操作系统根据映射关系指示执行I/O任务的计算节点访问I/O设备。
本发明的实施例提供的多路径访问I/O设备的方法,通过在计算节点和I/O设备之间建立映射关系,使所有计算节点的与PCI-E交换机之间PCI-E链路有效,从而使从节点也能够通过自身的PCI-E链路访问I/O设备,进而消除了时延和高业务量情况下的瓶颈,提高了带宽的利用率。
实施例二
本发明实施例提供的多路径访问I/O设备的方法,如图4所示,包括:
S201、系统复位完成,第一硬分区的主节点开始运行固件,利用固件对主对节点内的处理器、内存以及芯片组进行初始化。
S202、主节点调用I/O多路径管理器,并接收分析第一硬分区的配置信息。
具体的,此配置信息一般来自系统管理模块,该系统管理模块(图中未画出)通过运行管理软件,从而管理整个NUMA系统。I/O多路径管理器接收到这个配置信息后分析配置信息中的第一硬分区的计算节点的中RC的数量、分析第一硬分区的I/O设备的数量以及设备的类型、识别PCI-E交换机中与第一硬分区的计算节点的对应端口以及PCI-E交换机中与第一硬分区的I/O设备的对应端口。
S203、主节点调用I/O多路径管理器配置PCI-E交换机,以隔离除第一硬分区之外的其他硬分区。
具体的,将上述PCI-E交换机中与第一硬分区的计算节点的对应端口以及PCI-E交换机中与第一硬分区的I/O设备的对应端口,配制成一个虚拟交换机,以隔离除第一硬分区之外的其他硬分区的I/O设备及I/O访问,使第一硬分区的计算节点只访问第一硬分区的I/O设备。
S204、主节点搜索I/O设备并引导从节点开始初始化。
具体的,主节点根据第一硬分区的配置信息中提供的第一硬分区的计算节点的数量以及第一硬分区的I/O设备的数量、类型,通过主节点内部的RC逐一扫描第一硬分区的I/O设备总线,搜索有效的I/O设备,搜索到I/O设备后分别为主节点内的RC和搜索到的I/O设备分配地址和内存,并且在扫描完成后引导从节点开始初始化。
S205、主节点调用I/O多路径管理器在第一硬分区的计算节点和第一硬分区的I/O设备之间建立映射关系。
具体的,主节点调用I/O多路径管理器将第一硬分区的I/O设备的地址通过指针发送给各个从节点的RC,该指针指向上述的I/O设备的地址,这样就在第一硬分区的计算节点和I/O设备之间建立了映射关系。
S206、主节点调用I/O多路径管理器形成系统资源信息表。
具体的,主节点调用I/O多路径管理器形成系统资源信息表并将系统资源信息表的指针发送给操作系统,该系统资源信息表包括上述第一硬分区的计算节点和I/O设备之间的映射关系、处理器信息和内存信息以及计算节点与PCI-E交换机之间可用的PCI-E链路。
S207、接收I/O任务,并根据系统资源信息表为I/O任务分配硬件资源。
具体的,操作系统接收I/O任务进入I/O任务列队,通过上述系统资源信息表的指针调用系统资源信息表,而后确定执行当前I/O任务的处理器并分配内存,根据I/O任务的类型确定要访问的I/O设备。
S208、操作系统根据系统资源信息表指示执行I/O任务的处理器通过最短路径来访问I/O设备。
具体的,操作系统根据系统资源信息表中的第一硬分区的计算节点和I/O设备之间的映射关系,以及计算节点与PCI-E交换机之间可用的PCI-E链路,选择一条执行当前I/O任务最短路径。一般情况下,此路径为执行当前I/O任务的处理器自身所在计算节点与PCI-E交换机之间的PCI-E链路。
当主节点因为故障或者资源重新分配等原因需要退出硬分区时,如图5所示,还包括:
S301、系统管理模块接收主节点发出退出请求指令。
通常情况下,当第一硬分区的主节点因为故障或者资源重新分配等原因需要退出第一硬分区时,主节点会通过系统管理模块向系统的管理软件发送退出请求指令。
S302、系统管理模块接收主节点发出退出响应指令,指示主节点退出第一硬分区。
S303、系统管理模块接收退出请求支指令后,向从节点中的一个发送升级为新的主节点的指令。
系统的管理模块在接收到退出请求指令后,根据系统的策略在从节点中选取一个,向其发送指令升级为新的主节点。
S304、新的主节点从原主节点接收硬件资源信息和I/O任务。其中,硬件资源信息包括执行I/O任务的处理器信息、执行I/O任务需要访问的I/O设备的信息、内存信息、执行I/O任务需要经过的PCI-E链路信息。
S305、原主节点退出第一硬分区,等待维修或者重新分配。
S306、新的主节点更新系统资源信息表。
S307、新的主节点启用I/O多路径管理器根据更新后的系统资源信息表配置PCI-E交换机,隔离出第一硬分区之外的其他硬分区,配制方法与图4中的步骤203完全相同,不再赘述。
本实施例中的系统可以是NUMA系统也可以是SMP系统,计算节点可以是服务器。
本发明的实施例提供的多路径访问I/O设备的方法,通过在计算节点和I/O设备之间建立映射关系,使所有计算节点的与PCI-E交换机之间PCI-E链路有效,从而使从节点也能够通过自身的PCI-E链路访问I/O设备,进而消除了时延和高业务量情况下的瓶颈,提高了带宽的利用率。
实施例三
本发明实施例提供的I/O多路径管理器10,如图6所示,包括:
调用函数接口101,用于第一硬分区的计算节点中的主节点通过操作系统或者固件调用所述I/O多路径管理器。
硬分区资源分析模块102,用于接收第一硬分区的配置信息,分析配置信息中的第一硬分区的计算节点的中RC的数量和地址、分析第一硬分区的I/O设备的数量以及设备的类型、识别PCI-E交换机中与第一硬分区的计算节点的对应端口以及PCI-E交换机中与第一硬分区的I/O设备的对应端口。
PCI-E交换机配置模块103,用于根据接收到的第一硬分区的配置信息配置PCI-E交换机,以隔离除第一硬分区之外的其他硬分区,使第一硬分区的计算节点只访问第一硬分区的I/O设备。
I/O多路径配置模块104,用于根据接收到的第一硬分区的配置信息建立第一硬分区的计算节点和第一硬分区的I/O设备之间的映射关系,以使操作系统根据映射关系指示执行I/O任务的计算节点访问第一硬分区的I/O设备。
本发明的实施例提供的I/O多路径管理器,通过在计算节点和I/O设备之间建立映射关系,使所有计算节点的与PCI-E交换机之间PCI-E链路有效,从而使从节点也能够通过自身的PCI-E链路访问I/O设备,进而消除了时延和高业务量情况下的瓶颈,提高了带宽的利用率。
实施例四
本发明实施提供的多路径访问I/O设备的系统,以NUMA系统为例进行说明,如图7所示,包括:
如图6所示的I/O多路径管理器10,位于固件51中,用于根据接收到的第一硬分区2的配置信息配置PCI-E交换机3,以隔离除第一硬分区2之外的其他硬分区,使计算节点21~22只访问第一硬分区2的I/O设备4,并且根据接收到的第一硬分区2的配置信息在计算节点21~23和I/O设备4之间建立映射关系,这样计算节点21~23与PCI-E交换机3之间PCI-E链路01~03都变成有效的,如图中7所示PCI-E链路01~03都为实线。而后,I/O多路径管理器10将计算节点21~23和I/O设备4的映射关系、处理器信息、内存信息以及计算节点21~23与PCI-E交换机3之间可用的PCI-E链路01~03关联起来形成系统资源信息表,如图9所示,操作系统52根据此系统资源信息表根据指示计算机点21~23通过最短路径访问I/O设备,一般情况下此最短路径为执行I/O任务的计算节点自身与PCI-E交换机的链路。
NUMA聚合网络1,用于将所有计算节点通过NC聚合连接,并通过一个操作系统控制所有的计算节点。
至少一个硬分区2(图7中只画出第一硬分区2,其他硬分区未画出),包括一个主节点21和两个从节点22、23,当然,还可以增加更多的从节点。
其中,每个计算节点中包括:一个节点控制器NC,用于计算节点与NUMA聚合网络的连接;两个CPU,用于执行I/O任务;一个RC,用于I/O设备的扫描以及计算节点与PCI-E的对应端口的连接。在本实施例中,RC位于IOH(Input-Output Hub,输入输出集线器)中,RC还可以位于CPU或者MUX(Multiplexer,多路复用器)中。上述计算节点可以是服务器。
PCI-E交换机3,用于将第一硬分区2的计算节点21~23与第一硬分区的I/O设备4之间建立链路,如图7所示,第一硬分区2的计算节点21~23与PCI-E交换机链路都为实线,计算节点21~23可以分别通过自身链路01~03直接访问第一硬分区2的I/O设备4。当然,PCI-E交换机还连接着其他硬分区,在图中未画出。
I/O设备4,包括光纤通道(Fibre Channel,FC)网卡4 1和以太网卡,用于各个计算节点与外部网络之间的连接。
存储设备5,用于存储固件51、操作系统52,固件51包括I/O多路径管理器511。
本实施提供的另一种多路径访问I/O设备的系统,以NUMA系统为例,如图8所示,存储设备5,用于存储固件51、操作系统52,I/O多路径管理器10位于操作系统52中,其余部分与图4所示系统完全一样,不再赘述,此NUMA系统的系统资源信息表如图9所示。
本发明的实施例提供的多路径访问I/O设备的系统,通过在计算节点和I/O设备之间建立映射关系,使所有计算节点的与PCI-E交换机之间PCI-E链路有效,从而使从节点也能够通过自身的PCI-E链路访问I/O设备,进而消除了时延和高业务量情况下的瓶颈,提高了带宽的利用率。
实施例五
本发明实施提供的多路径访问I/O设备的系统,以SMP(Symmetric Multiple Process,对称多处理)系统为例进行说明,如图10所示,包括:
如图6所示的I/O多路径管理器10,位于固件51中,用于根据接收到的第二硬分区2a的配置信息配置PCI-E交换机3,以隔离除第二硬分区之外的其他硬分区,使计算节点2a1~2a2只访问第二硬分区2a的I/O设备4,并且根据接收到的第二硬分区2a的配置信息在计算节点2a1~2a3和I/O设备4之间建立映射关系,这样计算节点2a1~2a3与PCI-E交换机3之间PCI-E链路01~03都变成有效的,如图中10所示PCI-E链路01~03都为实线。而后,I/O多路径管理器10将计算节点2a1~2a3和I/O设备4的映射关系、处理器信息、内存信息以及计算节点2a1~2a3与PCI-E交换机3之间可用的PCI-E链路0 1~03关联起来形成系统资源信息表,如图11所示,操作系统52根据此系统资源信息表根据指示计算机点2a1~2a3通过最短路径访问I/O设备,一般情况下此最短路径为执行I/O任务的计算节点自身与PCI-E交换机的链路。当然,I/O多路径管理器10也可以位于操作系统52中(图10中未画出)。
SMP聚合网络1,用于将所有计算节点的CPU直接互联,不需要NC,并通过一个操作系统控制所有的计算节点。
至少两个硬分区(图10中只画出第二硬分区2a,其他硬分区未画出),包括一个主节点2a1和两个从节点2a2、2a3,当然,还可以增加更多的从节点。
每个计算节点中包括:两个CPU,用于执行I/O任务以及各个节点之间的直接互联;一个RC,用于计算节点与PCI-E的对应端口的连接。在本实施例中,RC位于IOH中,RC还可以位于CPU或者MUX中。上述计算节点可以是服务器。
本实施例所提供的系统的其余部分与图7所示系统完全一样,不再赘述,本系统的系统资源表如图11所示。
本发明的实施例提供的多路径访问I/O设备的系统,通过在计算节点和I/O设备之间建立映射关系,使所有计算节点的与PCI-E交换机之间PCI-E链路有效,从而使从节点也能够通过自身的PCI-E链路访问I/O设备,进而消除了时延和高业务量情况下的瓶颈,提高了带宽的利用率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种多路径访问输入输出I/O设备的方法,其特征在于,包括:
根据接收到的第一硬分区的配置信息配置外设组件快速互连标准PCI-E交换机,以隔离除所述第一硬分区之外的其他硬分区,使所述第一硬分区的计算节点只访问所述第一硬分区的I/O设备;
根据接收到的所述第一硬分区的配置信息建立所述第一硬分区的计算节点和所述第一硬分区的I/O设备之间的映射关系,以使操作系统根据所述映射关系指示执行I/O任务的计算节点访问所述第一硬分区的I/O设备;
其中,所述第一硬分区的配置信息包括:
所述第一硬分区的各个计算节点的数量和标识;
所述第一硬分区的I/O设备的数量和类型;
所述PCI-E交换机中与所述第一硬分区的各个计算节点的对应端口;
所述PCI-E交换机中与所述第一硬分区的I/O设备的对应端口。
2.根据权利要求1所述的方法,其特征在于,在根据接收到的第一硬分区的配置信息配置外设组件快速互连标准PCI-E交换机,以隔离除所述第一硬分区之外硬分区,使所述第一硬分区的计算节点只访问所述第一硬分区的I/O设备之前还包括:
所述第一硬分区的计算节点中的主节点对处理器、内存和芯片组进行初始化;
所述主节点接收所述第一硬分区的配置信息;
所述主节点引导从节点进行初始化。
3.根据权利要求1或2所述方法,其特征在于,根据接收到的第一硬分区的配置信息配置外设组件快速互连标准PCI-E交换机,以隔离除所述第一硬分区之外硬分区,使所述第一硬分区的计算节点只访问所述第一硬分区的I/O设备包括:
将所述PCI-E交换机中与所述第一硬分区的各个计算节点的对应端口和所述PCI-E交换机中与所述第一硬分区的I/O设备的对应端口,配置成一个虚拟交换机,用于隔离除所述第一硬分区之外的其他的硬分区的I/O设备和I/O访问,使所述第一硬分区的计算节点只访问所述第一硬分区的I/O设备。
4.根据权利要求1或2所述方法,其特征在于,所述根据接收到的所述第一硬分区的配置信息建立所述第一硬分区的计算节点和所述第一硬分区的I/O设备之间的映射关系,以使操作系统根据所述映射关系指示执行I/O任务的计算节点访问所述第一硬分区的I/O设备包括:
所述第一硬分区的计算节点中的主节点根据所述第一硬分区的配置信息中提供的所述第一硬分区的计算节点的数量、标识以及所述第一硬分区的I/O设备的数量、类型,通过所述主节点内部的根组件逐一扫描所述第一硬分区的I/O设备总线,搜索有效的I/O设备,搜索到I/O设备后分别为所述主节点内的根组件和搜索到的I/O设备分配地址和内存;
将所述I/O设备已分配好的地址发送给从节点的根组件,从而在所述第一硬分区的计算节点和所述第一硬分区的I/O设备之间建立映射关系;
形成系统资源信息表,包括所述第一硬分区的计算节点和所述第一硬分区的I/O设备之间的映射关系、处理器信息和内存信息以及所述第一硬分区的计算节点与所述PCI-E交换机之间可用的PCI-E链路的信息;
所述操作系统接收所述I/O任务后,根据所述系统资源信息表为所述I/O任务分配硬件资源,所述硬件资源包括执行所述I/O任务的处理器、执行所述I/O任务需要访问的I/O设备和内存信息;
所述操作系统根据所述系统资源信息表中所述映射关系指示执行所述I/O任务的处理器在所述可用的PCI-E链路中选取一条最短的链路来访问所述需要访问的I/O设备。
5.一种I/O多路径管理器,其特征在于,包括:
PCI-E交换机配置模块,用于根据接收到的第一硬分区的配置信息配置外设组件快速互连标准PCI-E交换机,以隔离除所述第一硬分区之外的其他硬分区,使所述第一硬分区的计算节点只访问所述第一硬分区的I/O设备;
I/O多路径配置模块,用于根据接收到的所述第一硬分区的配置信息建立所述第一硬分区的计算节点和所述第一硬分区的I/O设备之间的映射关系,以使操作系统根据所述映射关系指示执行I/O任务的计算节点访问所述第一硬分区的I/O设备;
其中,所述第一硬分区的配置信息包括:
所述第一硬分区的各个计算节点的数量和标识;
所述第一硬分区的I/O设备的数量和类型;
所述PCI-E交换机中与所述第一硬分区的各个计算节点的对应端口;
所述PCI-E交换机中与所述第一硬分区的I/O设备的对应端口。
6.根据权利要求5所述的I/O多路径管理器,其特征在于,还包括:
硬分区资源分析模块,用于接收所述第一硬分区的配置信息,分析所述配置信息中的第一硬分区的计算节点中的根组件的数量和标识、分析所述第一硬分区的I/O设备的数量以及设备的类型、识别所述PCI-E交换机中与所述第一硬分区的计算节点的对应端口以及所述PCI-E交换机中与所述第一硬分区的I/O设备的对应端口;
调用函数接口,用于所述第一硬分区的计算节点中的主节点启用所述I/O多路径管理器。
7.一种多路径访问I/O设备的系统,其特征在于,包括:
如权利要求5至6任意一项权利要求所述的I/O多路径管理器,用于根据接收到的第一硬分区的配置信息配置PCI-E交换机,以隔离除所述第一硬分区之外的其他硬分区,使所述第一硬分区的计算节点只访问所述第一硬分区的I/O设备,根据接收到的所述第一硬分区的配置信息建立所述第一硬分区的计算节点和所述第一硬分区的I/O设备之间的映射关系,以使操作系统根据所述映射关系指示执行I/O任务的计算节点访问所述第一硬分区的I/O设备;所述I/O多路径管理器位于固件或者操作系统中;
聚合网络,用于连接系统内的计算节点,以便于系统通过一个操作系统控制计算节点;
至少两个硬分区,其中每个硬分区中包括至少一个计算节点;
PCI-E交换机,用于所述计算节点与I/O设备之间建立连接,以便于所述计算节点通过自身与所述PCI-E交换机之间建立的PCI-E链路访问所述计算节点所属硬分区的I/O设备;
I/O设备,用于所述计算节点与外部网络之间的连接;
存储设备,用于存储固件、操作系统、I/O应用程序。
8.根据权利要求7所述的系统,其特征在于,所述聚合网络包括:非一致性内存访问系统聚合网络、对称多处理系统聚合网络。
9.根据权利要求7所述的系统,其特征在于,所述计算节点包括:
两个中央处理器,用于所述计算节点执行I/O任务;
至少一个根组件,用于所述计算节点与PCI-E的连接。
10.根据权利要求9所述的系统,其特征在于,当所述聚合网络为非一致性内存访问系统聚合网络时,所述计算节点还包括:
节点控制器,用于所述计算节点与非一致性内存访问系统聚合网络的连接和对计算节点的控制。
CN201110415345.XA 2011-12-13 2011-12-13 一种多路径访问i/o设备的方法、i/o多路径管理器及系统 Active CN102497432B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110415345.XA CN102497432B (zh) 2011-12-13 2011-12-13 一种多路径访问i/o设备的方法、i/o多路径管理器及系统
PCT/CN2012/079307 WO2013086861A1 (zh) 2011-12-13 2012-07-28 一种多路径访问i/o设备的方法、i/o多路径管理器及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110415345.XA CN102497432B (zh) 2011-12-13 2011-12-13 一种多路径访问i/o设备的方法、i/o多路径管理器及系统

Publications (2)

Publication Number Publication Date
CN102497432A CN102497432A (zh) 2012-06-13
CN102497432B true CN102497432B (zh) 2014-06-25

Family

ID=46189217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110415345.XA Active CN102497432B (zh) 2011-12-13 2011-12-13 一种多路径访问i/o设备的方法、i/o多路径管理器及系统

Country Status (2)

Country Link
CN (1) CN102497432B (zh)
WO (1) WO2013086861A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102497432B (zh) * 2011-12-13 2014-06-25 华为技术有限公司 一种多路径访问i/o设备的方法、i/o多路径管理器及系统
CN103312720B (zh) * 2013-07-01 2016-05-25 华为技术有限公司 一种数据传输方法、设备及系统
CN108847957B (zh) * 2015-08-24 2021-04-02 上海天旦网络科技发展有限公司 发现与呈现网络应用访问信息的方法和系统
CN105959176B (zh) * 2016-04-25 2019-05-28 浪潮(北京)电子信息产业有限公司 基于Gem5模拟器的一致性协议测试方法和系统
US11249808B2 (en) * 2017-08-22 2022-02-15 Intel Corporation Connecting accelerator resources using a switch
US10585833B1 (en) * 2019-01-28 2020-03-10 Quanta Computer Inc. Flexible PCIe topology
CN110430601B (zh) * 2019-08-09 2023-05-09 西安科技大学 一种PCI Express链路速率管理系统和管理方法
CN115811446A (zh) * 2021-09-14 2023-03-17 华为技术有限公司 一种总线系统、通信方法及相关设备
CN114168499A (zh) * 2021-11-10 2022-03-11 上海安路信息科技股份有限公司 PCIe设备的访问控制方法、装置及系统
CN117492967B (zh) * 2023-12-28 2024-03-19 苏州元脑智能科技有限公司 一种存储系统资源管理的方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1976350A (zh) * 2005-10-27 2007-06-06 国际商业机器公司 用于分布式计算系统的方法和装置
CN101425046A (zh) * 2008-10-28 2009-05-06 北京航空航天大学 分布式i/o资源虚拟化技术的实现方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7752436B2 (en) * 2005-08-09 2010-07-06 Intel Corporation Exclusive access for secure audio program
US7395367B2 (en) * 2005-10-27 2008-07-01 International Business Machines Corporation Method using a master node to control I/O fabric configuration in a multi-host environment
CN101901207B (zh) * 2010-07-23 2012-03-28 中国科学院计算技术研究所 异构共享存储多处理机系统的操作系统及其工作方法
CN102497432B (zh) * 2011-12-13 2014-06-25 华为技术有限公司 一种多路径访问i/o设备的方法、i/o多路径管理器及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1976350A (zh) * 2005-10-27 2007-06-06 国际商业机器公司 用于分布式计算系统的方法和装置
CN101425046A (zh) * 2008-10-28 2009-05-06 北京航空航天大学 分布式i/o资源虚拟化技术的实现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种新结构的DM-multipath与动态负载平衡;阚闯等;《计算机应用》;20080229;第28卷(第2期);第289-291页 *
阚闯等.一种新结构的DM-multipath与动态负载平衡.《计算机应用》.2008,第28卷(第2期),第289-291页.

Also Published As

Publication number Publication date
CN102497432A (zh) 2012-06-13
WO2013086861A1 (zh) 2013-06-20

Similar Documents

Publication Publication Date Title
CN102497432B (zh) 一种多路径访问i/o设备的方法、i/o多路径管理器及系统
US8352665B2 (en) Computer system and bus assignment method
US9154451B2 (en) Systems and methods for sharing devices in a virtualization environment
US9858102B2 (en) Data path failover method for SR-IOV capable ethernet controller
US8725875B2 (en) Native cloud computing via network segmentation
US20090125706A1 (en) Software Pipelining on a Network on Chip
JP5160300B2 (ja) 仮想レーン資源を動的に再割当てするシステムおよび方法
WO2018118318A1 (en) Pinning of virtual network function (vnf) deployments using hardware metrics
WO2019233322A1 (zh) 资源池的管理方法、装置、资源池控制单元和通信设备
US10169102B2 (en) Load calculation method, load calculation program, and load calculation apparatus
JP2009075718A (ja) 仮想i/oパスの管理方法、情報処理システム及びプログラム
US10831539B2 (en) Hardware thread switching for scheduling policy in a processor
CN101980490A (zh) 虚拟交换机和物理交换机的链路建立方法及其装置
CN103609077A (zh) 用于数据传输的方法、装置和系统以及物理网卡
WO2014206078A1 (zh) 内存访问方法、装置及系统
CN113177018B (zh) 一种使用双槽cpu的服务器
WO2012057769A1 (en) Zoning data to a virtual machine
CN103455363A (zh) 一种虚拟机的指令处理方法、装置及物理主机
EP3679465A1 (en) Networked storage architecture
CN117130571A (zh) 基于多核异构系统的显示方法、设备、芯片、存储介质
US10331616B2 (en) Integration of network linecard (LC) to host operating system (OS)
CN114428757B (zh) 一种架构可重构的计算装置及其重构方法
CN115827148A (zh) 一种资源管理方法、装置、电子设备及存储介质
CN113392052A (zh) 一种基于四路服务器的bios系统、方法及计算机可读存储介质
CN115442239B (zh) 带宽资源分配方法、PCIe通道切换器及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant