CN115113987A - 一种非一致内存访问资源分配方法、装置、设备及介质 - Google Patents

一种非一致内存访问资源分配方法、装置、设备及介质 Download PDF

Info

Publication number
CN115113987A
CN115113987A CN202210899235.3A CN202210899235A CN115113987A CN 115113987 A CN115113987 A CN 115113987A CN 202210899235 A CN202210899235 A CN 202210899235A CN 115113987 A CN115113987 A CN 115113987A
Authority
CN
China
Prior art keywords
resource
memory access
uniform memory
information
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210899235.3A
Other languages
English (en)
Inventor
张国奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210899235.3A priority Critical patent/CN115113987A/zh
Publication of CN115113987A publication Critical patent/CN115113987A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45583Memory management, e.g. access or allocation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请公开了一种非一致内存访问资源分配方法、装置、设备及介质,涉及计算机技术领域,包括:将本地的虚拟化资源分配功能置为开启状态;利用本地的基本输入输出系统获取软件当前占用的非一致内存访问资源信息,并基于所述非一致内存访问资源信息进行资源占用检测;若资源占用检测不合格,则基于所述非一致内存访问资源信息进行非一致内存访问资源分配。通过本申请的上述技术方案,能够有效避免出现NUMA资源竞争冲突引起服务器宕机异常的情况,并增加服务器运行的稳定性。

Description

一种非一致内存访问资源分配方法、装置、设备及介质
技术领域
本发明涉及计算机技术领域,特别涉及一种非一致内存访问资源分配方法、装置、设备及介质。
背景技术
目前,主流的服务器还是Intel X86架构系列为主,Intel X86架构的服务近些年的发展一直停滞不前,由于时代的发展需要,服务器设备的更新换代提速,迫切需要一种新的形态服务器架构的出现,ARM(Advanced RISC Machine,进阶精简指令集机器)架构的服务器应运而生。近两年ARM架构的服务器得到迅猛发展,由于国产ARM服务器相对于目前已经成熟X86生态环境还存在一定差距,国产ARM服务器即CPU(Central Processing Unit,中央处理器)是国产CPU/固件(BIOS(Basic Input Output System,基本输出输入系统)/BMC(Baseboard Management Controller,基板管理控制器))是国产固件/系统OS(OperatingSystem,操作系统)也是国产系统等一整套国产生态系统,由于是生态系统环境的起步阶段可以会出现一些意想不到的问题状况,其中NUMA(Non Uniform Memory Access,非一致内存访问)资源的分配就是其中问题之一。CPU的NUMA节点的资源信息一般是自动打开的通过BIOS将相应的资源信息汇报给相应的硬件设备,在OS下同时使用相关的硬件资源造成相关的NUMA节点资源冲突,OS系统下使用出现硬件资源分配异常,加重CPU使用负担,引起系统宕机异常问题。
由上可见,在非一致内存访问资源分配的过程中,如何避免出现NUMA资源竞争冲突引起服务器宕机异常的情况,并增加服务器运行的稳定性是本领域有待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种非一致内存访问资源分配方法、装置、设备及介质,能够有效避免出现NUMA资源竞争冲突引起服务器宕机异常的情况,并增加服务器运行的稳定性。其具体方案如下:
第一方面,本申请公开了一种非一致内存访问资源分配方法,应用于服务器,包括:
将本地的虚拟化资源分配功能置为开启状态;
利用本地的基本输入输出系统获取软件当前占用的非一致内存访问资源信息,并基于所述非一致内存访问资源信息进行资源占用检测;
若资源占用检测不合格,则基于所述非一致内存访问资源信息进行非一致内存访问资源分配。
可选的,所述将本地的虚拟化资源分配功能置为开启状态,包括:
运行所述服务器的操作系统,并在所述操作系统下利用所述服务器的CPU将本地的虚拟化资源分配功能置为开启状态。
可选的,所述基于所述非一致内存访问资源信息进行资源占用检测,包括:
基于所述非一致内存访问资源信息确定出当前资源占用信息和当前资源运行节点;
对所述当前资源占用信息和所述当前资源运行节点进行资源占用检测;所述资源占用检测包括资源占用率检测和资源运行节点检测。
可选的,所述基于所述非一致内存访问资源信息进行资源占用检测,包括:
对所述当前资源占用信息和预先获取的服务器总资源信息进行计算,以得到当前资源占用率;
判断所述当前资源占用率是否大于预设阈值,若所述当前资源占用率大于预设阈值,则资源占用率检测不合格。
可选的,所述基于所述非一致内存访问资源信息进行资源占用检测,包括:
确定出与软件相对应的所有目标资源运行节点;
判断所述当前资源运行节点与所述目标资源运行节点是否相同,若所述当前资源运行节点与所述目标资源运行节点不相同,则资源运行节点检测不合格。
可选的,所述基于所述非一致内存访问资源信息进行非一致内存访问资源分配,包括:
若资源占用率检测不合格,则利用本地的CPU根据所述当前资源占用信息和所述服务器总资源信息进行非一致内存访问资源分配操作;
若资源运行节点检测不合格,则基于所述当前资源运行节点和所述目标资源运行节点确定出不合格资源运行节点,并利用本地的基本输入输出系统将所述不合格资源运行节点置为暂停状态。
可选的,所述非一致内存访问资源分配方法,还包括:
在基于所述非一致内存访问资源信息进行非一致内存访问资源分配之后,重新跳转至所述基于所述非一致内存访问资源信息进行资源占用检测的步骤。
第二方面,本申请公开了一种非一致内存访问资源分配装置,包括:
功能开启模块,用于将本地的虚拟化资源分配功能置为开启状态;
资源占用检测模块,用于利用本地的基本输入输出系统获取软件当前占用的非一致内存访问资源信息,并基于所述非一致内存访问资源信息进行资源占用检测;
资源分配模块,用于若资源占用检测不合格,则基于所述非一致内存访问资源信息进行非一致内存访问资源分配。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述的非一致内存访问资源分配方法。
第四方面,本申请公开了一种计算机存储介质,用于保存计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的非一致内存访问资源分配方法的步骤。
可见,本申请提供了一种非一致内存访问资源分配方法,包括将本地的虚拟化资源分配功能置为开启状态;利用本地的基本输入输出系统获取软件当前占用的非一致内存访问资源信息,并基于所述非一致内存访问资源信息进行资源占用检测;若资源占用检测不合格,则基于所述非一致内存访问资源信息进行非一致内存访问资源分配。本申请通过将虚拟化资源分配功能置为开启状态之后,然后判断当前非一致内存访问资源信息资源占用检测是否合格,如果不合格则进行资源合理分配和资源管理,确保对服务器OS做虚拟化任务的同时,做到开源节流的保持服务器HOST平稳高效的运行,从而有效避免出现NUMA资源竞争冲突引起服务器宕机异常的情况,并增加服务器运行的稳定性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种非一致内存访问资源分配方法流程图;
图2为本申请公开的一种非一致内存访问资源分配方法流程图;
图3为本申请公开的一种非一致内存访问资源分配方法具体流程图;
图4为本申请公开的一种非一致内存访问资源分配装置结构示意图;
图5为本申请提供的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,主流的服务器还是Intel X86架构系列为主,Intel X86架构的服务近些年的发展一直停滞不前,由于时代的发展需要,服务器设备的更新换代提速,迫切需要一种新的形态服务器架构的出现,ARM(Advanced RISC Machine,进阶精简指令集机器)架构的服务器应运而生。近两年ARM架构的服务器得到迅猛发展,由于国产ARM服务器相对于目前已经成熟X86生态环境还存在一定差距,国产ARM服务器即CPU(Central Processing Unit,中央处理器)是国产CPU/固件(BIOS(Basic Input Output System,基本输出输入系统)/BMC(Baseboard Management Controller,基板管理控制器))是国产固件/系统OS(OperatingSystem,操作系统)也是国产系统等一整套国产生态系统,由于是生态系统环境的起步阶段可以会出现一些意想不到的问题状况,其中NUMA(Non Uniform Memory Access,非一致内存访问)资源的分配就是其中问题之一。CPU的NUMA节点的资源信息一般是自动打开的通过BIOS将相应的资源信息汇报给相应的硬件设备,在OS下同时使用相关的硬件资源造成相关的NUMA节点资源冲突,OS系统下使用出现硬件资源分配异常,加重CPU使用负担,引起系统宕机异常问题。由上可见,在非一致内存访问资源分配的过程中,如何避免出现NUMA资源竞争冲突引起服务器宕机异常的情况,并增加服务器运行的稳定性是本领域有待解决的问题。
参见图1所示,本发明实施例公开了一种非一致内存访问资源分配方法,具体可以包括:
步骤S11:将本地的虚拟化资源分配功能置为开启状态。
本实施例中,应用于服务器,以FT2000+的服务器为例,将服务器正常上电开机,然后运行所述服务器的操作系统,并在所述操作系统下利用所述服务器的CPU将本地的虚拟化资源分配功能置为开启状态,在将虚拟化资源分配功能置为开启状态之后,开始进行建立虚拟机和云桌面等操作。
步骤S12:利用本地的基本输入输出系统获取软件当前占用的非一致内存访问资源信息,并基于所述非一致内存访问资源信息进行资源占用检测。
本实施例中,利用本地的基本输入输出系统获取软件当前占用的非一致内存访问资源信息,然后基于所述非一致内存访问资源信息确定出当前资源占用信息和当前资源运行节点,对所述当前资源占用信息和所述当前资源运行节点进行资源占用检测;其中,所述资源占用检测包括资源占用率检测和资源运行节点检测。
步骤S13:若资源占用检测不合格,则基于所述非一致内存访问资源信息进行非一致内存访问资源分配。
本市实施例中,具体对所述当前资源占用信息和所述当前资源运行节点进行资源占用检测的步骤如下:对所述当前资源占用信息和预先获取的服务器总资源信息进行计算,以得到当前资源占用率,判断所述当前资源占用率是否大于预设阈值,若所述当前资源占用率大于预设阈值,则资源占用率检测不合格。确定出与软件相对应的所有目标资源运行节点,然后判断所述当前资源运行节点与所述目标资源运行节点是否相同,若所述当前资源运行节点与所述目标资源运行节点不相同,则资源运行节点检测不合格。无论是资源占用率检测不合格还是资源运行节点检测不合格,均判定为资源占用检测不合格。
本申请应用于服务器,以FT2000+服务器为例,本申请基于FT2000+服务器BIOS避免NUMA资源竞争冲突引起服务器宕机异常,本申请主要解决在服务器HOST端的OS下使用NUMA节点时由于使用CPU NUMA资源过多造成资源竞争引起CPU内部资源集中一个模块的资源高而混乱的使用,引起CPU资源的局部崩溃一石激起千层浪进而造成系统的宕机和服务器的崩溃,为了避免此问题的发生需要避免服务器OS在调用CPU的NUMA硬件资源出现异常竞争混乱等问题造成CPU及硬件资源的集中浪费相互竞争的问题,需要对OS进行虚拟化操作调用CPU NUMA资源时做好合理分配和资源管理工作,确保对服务器OS做虚拟化任务的同时,做到开源节流的保持服务器HOST平稳高效的运行。本申请服务器的OS使用CPU的NUMA资源通过服务器固件BIOS提供ACPI的table通用汇报HOST的OS,因此可以使用BIOS提供ACPI汇报通道的特性对NUMA节点的相应的硬件资源做到合理分配和高效使用;NUMA资源冲突时BIOS识别出有效的资源利用并屏蔽部分冲突的资源汇报,NUMA资源使用部分硬件的资源占用率过高时,BIOS需要识别出使用率超出CPU硬件资源极限值的部分,并对相应的资源节源限流,保证服务器HOST客户正常使用同时也不会让CPU等相关的硬件出资源警戒线的边缘,维护服务器稳定高效的运行。通过固件BIOS的高效的控制机制,能确保ARM服务器在使用虚拟化操作时保持高效稳定的运行状态,助力国产ARM CPU平台服务器服务与国产事业的发展。
本实施例中,将本地的虚拟化资源分配功能置为开启状态;利用本地的基本输入输出系统获取软件当前占用的非一致内存访问资源信息,并基于所述非一致内存访问资源信息进行资源占用检测;若资源占用检测不合格,则基于所述非一致内存访问资源信息进行非一致内存访问资源分配。本申请通过将虚拟化资源分配功能置为开启状态之后,然后判断当前非一致内存访问资源信息资源占用检测是否合格,如果不合格则进行资源合理分配和资源管理,确保对服务器OS做虚拟化任务的同时,做到开源节流的保持服务器HOST平稳高效的运行,从而有效避免出现NUMA资源竞争冲突引起服务器宕机异常的情况,并增加服务器运行的稳定性。
参见图2所示,本发明实施例公开了一种非一致内存访问资源分配方法,具体可以包括:
步骤S21:将本地的虚拟化资源分配功能置为开启状态。
步骤S22:利用本地的基本输入输出系统获取软件当前占用的非一致内存访问资源信息,并基于所述非一致内存访问资源信息进行资源占用检测。
步骤S23:若资源占用检测不合格,则基于所述非一致内存访问资源信息进行非一致内存访问资源分配。
本实施例中,若资源占用率检测不合格,则利用本地的CPU根据所述当前资源占用信息和所述服务器总资源信息进行非一致内存访问资源分配操作;若资源运行节点检测不合格,则基于所述当前资源运行节点和所述目标资源运行节点确定出不合格资源运行节点,并利用本地的基本输入输出系统将所述不合格资源运行节点置为暂停状态。
可以理解的是,本申请在将本地的虚拟化资源分配功能置为开启状态时需要调用NUMA资源,BIOS对NUMA资源进行分配,然后利用本地的基本输入输出系统获取软件当前占用的非一致内存访问资源信息,并基于所述非一致内存访问资源信息进行资源占用检测,若资源占用检测不合格,即存在高占用NUMA资源的问题,则利用本地的CPU根据所述当前资源占用信息和所述服务器总资源信息进行非一致内存访问资源分配操作,具体通过对CPUNUMA资源的分配,限制部分异常硬件的高占用CPU NUMA虚拟化软件资源的使用;若资源运行节点检测不合格,即存在CPU NUMA资源的分配不均或者部分硬件配合服务器主机OS恶意强占NUMA资源的问题,则基于所述当前资源运行节点和所述目标资源运行节点确定出不合格资源运行节点,并利用本地的基本输入输出系统将所述不合格资源运行节点置为暂停状态,即BIOS需要甄别不同NUMA节点的使用,如果有异常则去除其他软件的占用,对相应的NUMA节点开启写保护策略。
步骤S24:在基于所述非一致内存访问资源信息进行非一致内存访问资源分配之后,重新跳转至所述基于所述非一致内存访问资源信息进行资源占用检测的步骤。
本实施例中,服务器固件BIOS会对上述步骤进行循环监控。
例如,如图3所示,首先FT2000+的服务器正常上电开机运行;然后运行所述服务器的操作系统,并在所述操作系统下利用所述服务器的CPU将本地的虚拟化资源分配功能置为开启状态,在将虚拟化资源分配功能置为开启状态之后,开始进行建立虚拟机和云桌面等操作,具体是通过国产服务器固件BIOS对CPU的NUMA节点的资源汇报,BIOS通过ACPI(Advanced Configuration and Power Management Interface,高级配置和电源管理接口)汇报服务器的HOST端的OS系统,BIOS主要汇报的是CPU相关的NUMA资源如内存相关的资源和PCIE(Peripheral Component Interconnect Express,高速串行计算机扩展总线标准)设备资源相关信息资源的汇报,对于服务器OS端使用NUMA阶段的功能一般是在OS进行虚拟化操作,如建立虚拟机和云桌面等操作;由于本申请在将本地的虚拟化资源分配功能置为开启状态时需要调用NUMA资源,然后利用本地的基本输入输出系统获取软件当前占用的非一致内存访问资源信息,并基于所述非一致内存访问资源信息进行资源占用检测,以便进行资源分配,其中,所述资源占用检测包括资源占用率检测和资源运行节点检测;具体对所述当前资源占用信息和所述当前资源运行节点进行资源占用检测的步骤如下:对所述当前资源占用信息和预先获取的服务器总资源信息进行计算,以得到当前资源占用率,判断所述当前资源占用率是否大于预设阈值,若所述当前资源占用率大于预设阈值,则资源占用率检测不合格。确定出与软件相对应的所有目标资源运行节点,然后判断所述当前资源运行节点与所述目标资源运行节点是否相同,若所述当前资源运行节点与所述目标资源运行节点不相同,则资源运行节点检测不合格。若资源占用检测不合格,即存在高占用NUMA资源的问题,则利用本地的CPU根据所述当前资源占用信息和所述服务器总资源信息进行非一致内存访问资源分配操作,具体通过对CPU NUMA资源的分配,限制部分异常硬件的高占用CPU NUMA虚拟化软件资源的使用;若资源运行节点检测不合格,即存在CPU NUMA资源的分配不均或者部分硬件配合服务器主机OS恶意强占NUMA资源的问题,则基于所述当前资源运行节点和所述目标资源运行节点确定出不合格资源运行节点,并利用本地的基本输入输出系统将所述不合格资源运行节点置为暂停状态,即BIOS需要甄别不同NUMA节点的使用,如果有异常则去除其他软件的占用,对相应的NUMA节点开启写保护策略;最后,在基于所述非一致内存访问资源信息进行非一致内存访问资源分配之后,重新跳转至所述基于所述非一致内存访问资源信息进行资源占用检测的步骤,并且服务器固件BIOS会对上述步骤进行循环监控。
本实施例中,对所述当前资源占用信息和所述当前资源运行节点进行资源占用检测的步骤为:对所述当前资源占用信息和预先获取的服务器总资源信息进行计算,以得到当前资源占用率,判断所述当前资源占用率是否大于预设阈值,若所述当前资源占用率大于预设阈值,则资源占用率检测不合格。确定出与软件相对应的所有目标资源运行节点,然后判断所述当前资源运行节点与所述目标资源运行节点是否相同,若所述当前资源运行节点与所述目标资源运行节点不相同,则资源运行节点检测不合格。具体的,根据BIOS ACPItable的汇报NUMA节点汇报资源的流通的数据大小,同,时增加固件BIOS从CPU NUMA节点获取NUMA节点资源竞争使用状态计算出NUMA节点的使用率,根据资源的使用率判断,NUMA资源冲突时BIOS识别出有效的资源利用并屏蔽部分冲突的资源汇报。若是NUMA资源的占用率过高时,服务器固件BIOS对占用资源并且浪费资源的硬件进行限制,服务器的固件BIOS本身不会对高占用的硬件资源的限制,但是它可以通过对CPU NUMA资源的分配,限制部分异常硬件的高占用CPU NUMA虚拟化软件资源的使用的问题;通过BIOS对CPU NUMA资源的汇报分配限制,实现CPU NUMA资源被合理使用;若是CPU NUMA资源的分配不均或者部分硬件配合服务器主机OS恶意强占NUMA资源的问题,资源的重复占用对CPU的正常使用和性能危害影响更大,服务器的硬件BIOS对分配的资源的监控的分配策略增加对危害不同NUMA通道的资源的使用问题,如果NUMA资源被重复使用,BIOS可以通过获取CPU NUMA资源利用率来判断的,是否存在冲突使用/恶意强占的问题,如果存在恶意抢占的问题,BIOS需要甄别不同NUMA节点的使用,如果有异常则去除其他软件的占用,对相应的NUMA节点开启写保护策略。
本申请应用于服务器,以FT2000+服务器为例,本申请基于FT2000+服务器BIOS避免NUMA资源竞争冲突引起服务器宕机异常,本申请主要解决在服务器HOST端的OS下使用NUMA节点时由于使用CPU NUMA资源过多造成资源竞争引起CPU内部资源集中一个模块的资源高而混乱的使用,引起CPU资源的局部崩溃一石激起千层浪进而造成系统的宕机和服务器的崩溃,为了避免此问题的发生需要避免服务器OS在调用CPU的NUMA硬件资源出现异常竞争混乱等问题造成CPU及硬件资源的集中浪费相互竞争的问题,需要对OS进行虚拟化操作调用CPU NUMA资源时做好合理分配和资源管理工作,确保对服务器OS做虚拟化任务的同时,做到开源节流的保持服务器HOST平稳高效的运行。本申请服务器的OS使用CPU的NUMA资源通过服务器固件BIOS提供ACPI的table通用汇报HOST的OS,因此可以使用BIOS提供ACPI汇报通道的特性对NUMA节点的相应的硬件资源做到合理分配和高效使用;NUMA资源冲突时BIOS识别出有效的资源利用并屏蔽部分冲突的资源汇报,NUMA资源使用部分硬件的资源占用率过高时,BIOS需要识别出使用率超出CPU硬件资源极限值的部分,并对相应的资源节源限流,保证服务器HOST客户正常使用同时也不会让CPU等相关的硬件出资源警戒线的边缘,维护服务器稳定高效的运行。通过固件BIOS的高效的控制机制,能确保ARM服务器在使用虚拟化操作时保持高效稳定的运行状态,助力国产ARM CPU平台服务器服务与国产事业的发展。
本实施例中,将本地的虚拟化资源分配功能置为开启状态;利用本地的基本输入输出系统获取软件当前占用的非一致内存访问资源信息,并基于所述非一致内存访问资源信息进行资源占用检测;若资源占用检测不合格,则基于所述非一致内存访问资源信息进行非一致内存访问资源分配。本申请通过将虚拟化资源分配功能置为开启状态之后,然后判断当前非一致内存访问资源信息资源占用检测是否合格,如果不合格则进行资源合理分配和资源管理,确保对服务器OS做虚拟化任务的同时,做到开源节流的保持服务器HOST平稳高效的运行,从而有效避免出现NUMA资源竞争冲突引起服务器宕机异常的情况,并增加服务器运行的稳定性。
参见图4所示,本发明实施例公开了一种非一致内存访问资源分配装置,具体可以包括:
功能开启模块11,用于将本地的虚拟化资源分配功能置为开启状态;
资源占用检测模块12,用于利用本地的基本输入输出系统获取软件当前占用的非一致内存访问资源信息,并基于所述非一致内存访问资源信息进行资源占用检测;
资源分配模块13,用于若资源占用检测不合格,则基于所述非一致内存访问资源信息进行非一致内存访问资源分配。
本实施例中,将本地的虚拟化资源分配功能置为开启状态;利用本地的基本输入输出系统获取软件当前占用的非一致内存访问资源信息,并基于所述非一致内存访问资源信息进行资源占用检测;若资源占用检测不合格,则基于所述非一致内存访问资源信息进行非一致内存访问资源分配。本申请通过将虚拟化资源分配功能置为开启状态之后,然后判断当前非一致内存访问资源信息资源占用检测是否合格,如果不合格则进行资源合理分配和资源管理,确保对服务器OS做虚拟化任务的同时,做到开源节流的保持服务器HOST平稳高效的运行,从而有效避免出现NUMA资源竞争冲突引起服务器宕机异常的情况,并增加服务器运行的稳定性。
本申请应用于服务器,以FT2000+服务器为例,本申请基于FT2000+服务器BIOS避免NUMA资源竞争冲突引起服务器宕机异常,本申请主要解决在服务器HOST端的OS下使用NUMA节点时由于使用CPU NUMA资源过多造成资源竞争引起CPU内部资源集中一个模块的资源高而混乱的使用,引起CPU资源的局部崩溃一石激起千层浪进而造成系统的宕机和服务器的崩溃,为了避免此问题的发生需要避免服务器OS在调用CPU的NUMA硬件资源出现异常竞争混乱等问题造成CPU及硬件资源的集中浪费相互竞争的问题,需要对OS进行虚拟化操作调用CPU NUMA资源时做好合理分配和资源管理工作,确保对服务器OS做虚拟化任务的同时,做到开源节流的保持服务器HOST平稳高效的运行。本申请服务器的OS使用CPU的NUMA资源通过服务器固件BIOS提供ACPI的table通用汇报HOST的OS,因此可以使用BIOS提供ACPI汇报通道的特性对NUMA节点的相应的硬件资源做到合理分配和高效使用;NUMA资源冲突时BIOS识别出有效的资源利用并屏蔽部分冲突的资源汇报,NUMA资源使用部分硬件的资源占用率过高时,BIOS需要识别出使用率超出CPU硬件资源极限值的部分,并对相应的资源节源限流,保证服务器HOST客户正常使用同时也不会让CPU等相关的硬件出资源警戒线的边缘,维护服务器稳定高效的运行。通过固件BIOS的高效的控制机制,能确保ARM服务器在使用虚拟化操作时保持高效稳定的运行状态,助力国产ARM CPU平台服务器服务与国产事业的发展。
在一些具体实施例中,所述功能开启模块11,具体可以包括:
功能开启模块,用于运行所述服务器的操作系统,并在所述操作系统下利用所述服务器的CPU将本地的虚拟化资源分配功能置为开启状态。
在一些具体实施例中,所述资源占用检测模块12,具体可以包括:
信息确定模块,用于基于所述非一致内存访问资源信息确定出当前资源占用信息和当前资源运行节点;
资源占用检测模块,用于对所述当前资源占用信息和所述当前资源运行节点进行资源占用检测;所述资源占用检测包括资源占用率检测和资源运行节点检测。
在一些具体实施例中,所述资源占用检测模块12,具体可以包括:
资源占用率计算模块,用于对所述当前资源占用信息和预先获取的服务器总资源信息进行计算,以得到当前资源占用率;
资源占用率检测模块,用于判断所述当前资源占用率是否大于预设阈值,若所述当前资源占用率大于预设阈值,则资源占用率检测不合格。
在一些具体实施例中,所述资源占用检测模块12,具体可以包括:
目标资源运行节点确定模块,用于确定出与软件相对应的所有目标资源运行节点;
资源运行节点检测模块,用于判断所述当前资源运行节点与所述目标资源运行节点是否相同,若所述当前资源运行节点与所述目标资源运行节点不相同,则资源运行节点检测不合格。
在一些具体实施例中,所述资源分配模块13,具体可以包括:
资源占用率分配模块,用于若资源占用率检测不合格,则利用本地的CPU根据所述当前资源占用信息和所述服务器总资源信息进行非一致内存访问资源分配操作;
资源运行节点分配模块,用于若资源运行节点检测不合格,则基于所述当前资源运行节点和所述目标资源运行节点确定出不合格资源运行节点,并利用本地的基本输入输出系统将所述不合格资源运行节点置为暂停状态。
在一些具体实施例中,所述资源分配模块13,具体可以包括:
步骤跳转模块,用于在基于所述非一致内存访问资源信息进行非一致内存访问资源分配之后,重新跳转至所述基于所述非一致内存访问资源信息进行资源占用检测的步骤。
图5为本申请实施例提供的一种电子设备的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的由电子设备执行的非一致内存访问资源分配方法中的相关步骤。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统221、计算机程序222及数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中数据223的运算与处理,其可以是Windows、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的非一致内存访问资源分配方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括非一致内存访问资源分配设备接收到的由外部设备传输进来的数据,也可以包括由自身输入输出接口25采集到的数据等。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
进一步的,本申请实施例还公开了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的非一致内存访问资源分配方法步骤。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种非一致内存访问资源分配方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种非一致内存访问资源分配方法,其特征在于,应用于服务器,包括:
将本地的虚拟化资源分配功能置为开启状态;
利用本地的基本输入输出系统获取软件当前占用的非一致内存访问资源信息,并基于所述非一致内存访问资源信息进行资源占用检测;
若资源占用检测不合格,则基于所述非一致内存访问资源信息进行非一致内存访问资源分配。
2.根据权利要求1所述的非一致内存访问资源分配方法,其特征在于,所述将本地的虚拟化资源分配功能置为开启状态,包括:
运行所述服务器的操作系统,并在所述操作系统下利用所述服务器的CPU将本地的虚拟化资源分配功能置为开启状态。
3.根据权利要求1所述的非一致内存访问资源分配方法,其特征在于,所述基于所述非一致内存访问资源信息进行资源占用检测,包括:
基于所述非一致内存访问资源信息确定出当前资源占用信息和当前资源运行节点;
对所述当前资源占用信息和所述当前资源运行节点进行资源占用检测;所述资源占用检测包括资源占用率检测和资源运行节点检测。
4.根据权利要求3所述的非一致内存访问资源分配方法,其特征在于,所述基于所述非一致内存访问资源信息进行资源占用检测,包括:
对所述当前资源占用信息和预先获取的服务器总资源信息进行计算,以得到当前资源占用率;
判断所述当前资源占用率是否大于预设阈值,若所述当前资源占用率大于预设阈值,则资源占用率检测不合格。
5.根据权利要求3所述的非一致内存访问资源分配方法,其特征在于,所述基于所述非一致内存访问资源信息进行资源占用检测,包括:
确定出与软件相对应的所有目标资源运行节点;
判断所述当前资源运行节点与所述目标资源运行节点是否相同,若所述当前资源运行节点与所述目标资源运行节点不相同,则资源运行节点检测不合格。
6.根据权利要求4至5任一项所述的非一致内存访问资源分配方法,其特征在于,所述基于所述非一致内存访问资源信息进行非一致内存访问资源分配,包括:
若资源占用率检测不合格,则利用本地的CPU根据所述当前资源占用信息和所述服务器总资源信息进行非一致内存访问资源分配操作;
若资源运行节点检测不合格,则基于所述当前资源运行节点和所述目标资源运行节点确定出不合格资源运行节点,并利用本地的基本输入输出系统将所述不合格资源运行节点置为暂停状态。
7.根据权利要求6所述的非一致内存访问资源分配方法,其特征在于,还包括:
在基于所述非一致内存访问资源信息进行非一致内存访问资源分配之后,重新跳转至所述基于所述非一致内存访问资源信息进行资源占用检测的步骤。
8.一种非一致内存访问资源分配装置,其特征在于,包括:
功能开启模块,用于将本地的虚拟化资源分配功能置为开启状态;
资源占用检测模块,用于利用本地的基本输入输出系统获取软件当前占用的非一致内存访问资源信息,并基于所述非一致内存访问资源信息进行资源占用检测;
资源分配模块,用于若资源占用检测不合格,则基于所述非一致内存访问资源信息进行非一致内存访问资源分配。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的非一致内存访问资源分配方法。
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的非一致内存访问资源分配方法。
CN202210899235.3A 2022-07-28 2022-07-28 一种非一致内存访问资源分配方法、装置、设备及介质 Pending CN115113987A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210899235.3A CN115113987A (zh) 2022-07-28 2022-07-28 一种非一致内存访问资源分配方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210899235.3A CN115113987A (zh) 2022-07-28 2022-07-28 一种非一致内存访问资源分配方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115113987A true CN115113987A (zh) 2022-09-27

Family

ID=83333960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210899235.3A Pending CN115113987A (zh) 2022-07-28 2022-07-28 一种非一致内存访问资源分配方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115113987A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470009A (zh) * 2022-11-15 2022-12-13 浪潮电子信息产业股份有限公司 一种内存资源管理方法、系统、装置及介质
CN117009091A (zh) * 2023-10-07 2023-11-07 浪潮(山东)计算机科技有限公司 一种资源调整方法、装置、设备及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470009A (zh) * 2022-11-15 2022-12-13 浪潮电子信息产业股份有限公司 一种内存资源管理方法、系统、装置及介质
CN115470009B (zh) * 2022-11-15 2023-03-24 浪潮电子信息产业股份有限公司 一种内存资源管理方法、系统、装置及介质
CN117009091A (zh) * 2023-10-07 2023-11-07 浪潮(山东)计算机科技有限公司 一种资源调整方法、装置、设备及可读存储介质
CN117009091B (zh) * 2023-10-07 2023-12-19 浪潮(山东)计算机科技有限公司 一种资源调整方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
US10635558B2 (en) Container monitoring method and apparatus
EP3507692B1 (en) Resource oversubscription based on utilization patterns in computing systems
CN115113987A (zh) 一种非一致内存访问资源分配方法、装置、设备及介质
US8904240B2 (en) Monitoring and resolving deadlocks, contention, runaway CPU and other virtual machine production issues
CN110119306B (zh) 作业自动调度均衡方法、装置、设备及存储介质
US9619288B2 (en) Deploying software in a multi-instance node
WO2019034095A1 (zh) 软件处理方法、装置、电子设备及计算机可读存储介质
CN110471769B (zh) 一种虚拟机的资源管理方法及装置
CN106020984B (zh) 电子设备中进程的创建方法及装置
CN113032102A (zh) 资源重调度方法、装置、设备和介质
US20200272526A1 (en) Methods and systems for automated scaling of computing clusters
US9128754B2 (en) Resource starvation management in a computer system
CN116560803B (zh) 基于sr-iov的资源管理方法及相关装置
CN108733536B (zh) 监控管理系统及方法
JP2016012344A (ja) アプリケーションを実行する方法及びリソースマネジャ
CN109783196B (zh) 一种虚拟机的迁移方法及装置
CN111767126A (zh) 分布式批量处理的系统和方法
CN115277398A (zh) 一种集群的网络配置方法和装置
CN115221092A (zh) Pci-e卡可分配的总线确定方法、装置、设备及存储介质
US11954512B2 (en) Control device and control method
CN114816662A (zh) 应用于Kubernetes的容器编排方法和系统
CN114817134A (zh) 一种快照任务监控方法、装置、设备及介质
JP2015121963A (ja) 情報処理システム、監視方法、及び、プログラム
CN113687908A (zh) Pmem虚拟机的创建方法、装置、设备及可读存储介质
CN112612578A (zh) 一种虚拟机监控方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination