CN104199768A - 多核处理器置位的方法和装置 - Google Patents

多核处理器置位的方法和装置 Download PDF

Info

Publication number
CN104199768A
CN104199768A CN201410416188.8A CN201410416188A CN104199768A CN 104199768 A CN104199768 A CN 104199768A CN 201410416188 A CN201410416188 A CN 201410416188A CN 104199768 A CN104199768 A CN 104199768A
Authority
CN
China
Prior art keywords
vcpu
polycaryon processor
threshold value
software
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410416188.8A
Other languages
English (en)
Other versions
CN104199768B (zh
Inventor
程岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datang Mobile Communications Equipment Co Ltd
Original Assignee
Datang Mobile Communications Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datang Mobile Communications Equipment Co Ltd filed Critical Datang Mobile Communications Equipment Co Ltd
Priority to CN201410416188.8A priority Critical patent/CN104199768B/zh
Publication of CN104199768A publication Critical patent/CN104199768A/zh
Application granted granted Critical
Publication of CN104199768B publication Critical patent/CN104199768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种多核处理器置位的方法,包括:检测到任一VCPU的预定故障事件时,判断在预定时间内该VCPU的软件置位次数与软件置位次数阈值的大小关系;当判断软件置位次数大于或等于软件置位次数阈值时,设置VCPU处于隔离状态;根据处于隔离状态的VCPU数量,对多核处理器进行硬件置位处理。本发明提出的实施例中,多核处理器承载数据业务后,在VCPU发生隐性故障时,采用软件置位和硬件置位相结合的方法,可避免单纯硬件置位多核处理器而导致的终端掉线,小区退服、用户感知下降等问题。同时,通过隔离故障VCPU以避免数据业务承载在故障VCPU上,并选择合适时机硬件置位整个多核处理器来解除故障。

Description

多核处理器置位的方法和装置
技术领域
本发明涉及置位技术领域,具体而言,本发明涉及多核处理器置位方法及装置。
背景技术
多核处理器是指在单个处理器中集成多个完整的计算引擎,即执行内核。多核处理器是单枚芯片,其能够直接插入单一的处理器单板插槽中,操作系统会利用所有相关的资源,将每个执行内核作为分立的逻辑处理器。通过在多个执行内核之间划分任务,多核处理器可在特定的时钟周期内执行更多任务,由于其能够在高集成化并占用较小空间的基础上提供更多的功能,相比传统的单核系统而言性能更好。VCPU(Virtual CentralProcessing Unit,虚拟中央处理器)技术是CPU的虚拟化技术,单CPU模拟多CPU并行,允许一个平台同时运行多个操作系统,并且应用程序可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率。当前,高效能的多核处理器得到了广泛应用,以XLR732为例,其包括8个内核,每个内核又包含4个独立的VCPU。每个VCPU可以运行LINUX、VXWORKS等操作系统,也可以直接运行于RMIOS操作系统。
目前RNC(Radio Network Controller,无线网络控制器)数据处理功能主要由多核处理器,如XLR732,所承载,可在单个内核上设置多个VCPU来承载用户面数据以执行相应处理,来实现小区建立,终端接入等功能。用户面数据处理软件部署在多核处理器上后,VCPU主要完成数据在无线UU接口和IU口之间的相互转发、调度等操作流程。由于数据报文转发系统的关键性能指标,如数据包转发、时延、吞吐量等,要求较高的处理效率,但与此伴随的是易于产生处理器运行异常,例如定时器异常,内存改写等。当此类异常发生时,VCPU处于正常状态,不影响其与主控CPU之间的心跳信号,但其所承载的业务无法正常处理,因此定义此类故障为隐性故障。目前RNC设备有隐性故障检测手段,可以及时发现此类故障,但在处理此类故障时,现有的一种解决方案是采取硬件置位单板或者CPU的方式。硬件置位指单板或者CPU上电重新启动,即掉电重启。软件置位指单板保持正常运行,应用程序释放掉所有相关资源后执行软件重新初始化过程,即特定软件模块重新运行。采取硬件置位多核处理器方法存在的问题是,由于多核处理器上分布多个VCPU且多个VCPU共用代码段,一个VCPU发生隐形故障即硬件置位多核处理器,会引起其他非故障VCPU上小区退服及在线终端掉线等问题,严重影响用户感知和通信性能指标。现有的另一种解决方案是在单个VCPU发生隐形故障时,对其执行软件置位处理,但由于VCPU的隐性故障可能是由于多个执行内核之间共享的内存资源引起,或是在多核处理器出现硬件故障时,软件置位单个VCPU均不能有效地解决问题。
发明内容
本发明的目的旨在至少解决上述技术缺陷之一,特别是硬件置位多核处理器而引起的非故障VCPU无法正常运行问题。
本发明提供了一种多核处理器置位的方法,包括:
检测到任一VCPU的预定故障事件时,判断在预定时间内所述VCPU的软件置位次数与软件置位次数阈值的大小关系;
当判断所述软件置位次数大于或等于所述软件置位次数阈值时,设置所述VCPU处于隔离状态;
根据处于隔离状态的VCPU数量,对所述多核处理器进行硬件置位处理。
本发明还提供了一种多核处理器置位的装置,其特征在于,包括判断模块,第一设置模块和置位模块:
所述判断模块,用于检测到任一VCPU的预定故障事件时,判断在预定时间内所述VCPU的软件置位次数与软件置位次数阈值的大小关系;
所述第一设置模块,用于当判断所述软件置位次数大于或等于所述软件置位次数阈值时,设置所述VCPU处于隔离状态;
所述置位模块,用于根据处于隔离状态的VCPU数量,对所述多核处理器进行硬件置位处理。
本发明提出的实施例中,多核处理器承载数据业务后,在VCPU发生预定故障事件时,采用软件置位和硬件置位相结合的方法,可避免单纯硬件置位多核处理器而导致的终端掉线,小区退服、用户感知下降等问题。同时,通过隔离故障VCPU可避免数据业务承载在故障VCPU上,并选择合适时机硬件置位整个多核处理器来解除故障。本发明提出的上述方案,对现有系统的改动很小,不会影响系统的兼容性,而且实现简单、高效。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的多核处理器置位的方法流程图;
图2为根据本发明一个具体实施例的多核处理器置位流程图;
图3为根据本发明实施例的多核处理器置位的设备功能示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
图1为根据本发明实施例的多核处理器置位的方法流程图。
在步骤S110中,检测到任一VCPU的预定故障事件时,判断在预定时间内该VCPU的软件置位次数与软件置位次数阈值的大小关系。
具体地,任一VCPU通过自检,或通过主控VCPU实时监测检测到该VCPU出现预定故障事件时,向多核处理器发送该VCPU故障检测通知消息;其中,所述预定故障事件包括但不限于可通过VCPU自检得到的关键资源如内存、定时器连续无法分配、内存改写、数据队列内容错误、协议处理连续错误等问题,及可通过主控VCPU监测到该VCPU上承载的数据业务连续多次无法正常连接等问题;接收到该VCPU故障检测通知消息后,触发多核处理器读取在预定时间内该VCPU的软件置位次数的数据记录,接着,判断软件置位次数与软件置位次数阈值的大小关系。
在步骤S120中,当判断软件置位次数大于或等于软件置位次数阈值时,设置VCPU处于隔离状态。
具体地,多核处理器判断在预定时间内该VCPU的软件置位次数不小于软件置位次数阈值时,如判断在2小时内,该VCPU的软件置位次数为7,大于软件置位次数阈值5时,确定该VCPU异常,通过给该VCPU标注标签等方式,设置该VCPU处于隔离状态,且不再将新的数据业务承载在该VCPU上。
在步骤S130中,根据处于隔离状态的VCPU数量,对多核处理器进行硬件置位处理。
其中,根据处于隔离状态的VCPU数量,对多核处理器进行硬件置位处理的方式,包括:
1)当判断处于隔离状态的VCPU数量不小于第一预定隔离阈值时,硬件置位多核处理器。
具体地,多核处理器判断处于隔离状态的VCPU数量不小于第一预定隔离阈值时,如判断处于隔离状态的VCPU为18个,大于第一预定隔离阈值16时,则立刻硬件置位多核处理器。
2)步骤S130(参照图1)包括步骤S131(图未示)和步骤S132(图未示),在步骤S131中,当判断处于隔离状态的VCPU数量小于第一预定隔离阈值且不小于第二预定隔离阈值时,对多核处理器进行闲时检测,其中,第二预定隔离阈值小于第一预定隔离阈值;在步骤S132中,当确定多核处理器处于闲时,硬件置位多核处理器。
具体地,多核处理器判断隔离状态的VCPU数量小于第一预定隔离阈值且不小于第二预定隔离阈值时,如判断处于隔离状态的VCPU为10个,小于第一预定隔离阈值16,且大于第二预定隔离阈值6时,则对多核处理器进行闲时检测;接着,当确定多核处理器处于闲时,则硬件置位多核处理器。
其中,对多核处理器进行闲时检测的方式包括:基于预定闲时检测周期检测多核处理器当前指标信息;当当前指标信息小于闲时指标阈值时,确定多核处理器处于闲时。当前指标信息,包括:数据流量;终端接入数量。
具体地,当前指标信息以在预定闲时检测周期内,如最近15分钟时间内,多核处理器上数据流量和/或终端接入数量为依据,判断多核处理器当前是否处于闲时;其中,闲时指标阈值指预定时间中在预定时间粒度下最低值的平均值,例如,连续N天中在每日24小时内的每15分钟粒度下,多核处理器上数据流量和/或终端接入数量的最低值的平均值,N为可配置时间周期,优选为7天,且当实际运行天数小于N时,将实际运行天数作为时间周期。优选地,可设置接入终端数目优先级高于流量统计作为置位条件。
多核处理器承载数据业务后,在VCPU发生预定故障时,采用软件置位和硬件置位相结合的方法,可避免单纯硬件置位多核处理器而导致的终端掉线,小区退服、用户感知下降等问题。同时,通过隔离故障VCPU可避免数据业务承载在故障VCPU上,随后选择合适时机硬件置位整个多核处理器来解除故障。
在一优选实施例中,当判断处于隔离状态的VCPU数量小于第一预定隔离阈值且不小于第二预定隔离阈值时,多核处理器置位的方法(参照图1)还包括步骤S140(图未示);在步骤S140中,当确定多核处理器不处于闲时,且当前时间处于预定时间段,硬件置位多核处理器。
具体地,当判断处于隔离状态的VCPU数量小于第一预定隔离阈值且不小于第二预定隔离阈值时,当通过闲时检测确定多核处理器不处于闲时,且当前时间处于预定时间段,如凌晨3点至5点时,则立即硬件置位多核处理器。
为防止重大事件、节假日导致数据流量及终端接入数量一段时间内始终高于第二预定隔离阈值不能及时执行硬件置位,通过统计分析确定数据流量及终端接入数量在如凌晨3点至5点之间处于低谷且主要以PS数据业务为主,执行硬件置位对用户感知影响较轻。因此,闲时检测确定多核处理器不处于闲时且当前时间处于预定时间段时,执行硬件置位多核处理器。
在另一优选实施例中,多核处理器置位的方法(参照图1)还包括步骤S150(图未示),步骤S150中,当判断软件置位次数小于软件置位次数阈值时,设置VCPU处于故障状态;迁移VCPU上的当前业务,软件置位VCPU。
具体地,步骤S150中,当判断软件置位次数小于软件置位次数阈值时,多核处理器的故障处理程序设置VCPU处于故障状态,即暂时不在该VCPU上承载数据业务;随后,将已接入该VCPU上的小区和终端的执行数据迁移到其他正常VCPU上,软件置位该VCPU;迁移的方式包括:重选一个正常VCPU,采用相同参数配置重建数据业务;接着,执行软件置位该VCPU;其中,软件置位的方式:通知各个协议层,如PDCP、IUUP、RLC、MAC、FP等,的程序进行资源释放,包括内存、定时器、终端、小区实例等释放,随后初始化全局变量,清除缓存数据。
在VCPU出现故障时,可优先执行软件置位尝试VCPU自愈,使得一些通过软件置位即可解决的故障快速解除,而不会产生终端掉线,小区退服、用户感知下降等问题。
优选地,多核处理器置位的方法(参照图1)还包括步骤S160(图未示),在步骤S160中,当检测到VCPU软件置位失败时,设置该VCPU处于隔离状态。具体地,当多核处理器检测到VCPU软件置位失败时,给该VCPU标记处于隔离状态的标签。
在又一优选实施例中,多核处理器置位的方法(参照图1)还包括步骤S170(图未示),在步骤S170中,检测每一VCPU的当前承载终端数量;根据当前承载终端数量与承载阈值的关系,确定多核处理器的终端承载方式。其中,终端承载方式,包括:负载均衡承载方式或轮询承载方式。
具体地,多核处理器检测每一VCPU的当前承载终端数量;若任一VCPU的当前承载终端数量低于承载阈值时,确定多核处理器上所有VCPU的终端承载方式为轮询承载方式,即终端接入时采用多核处理器上所有VCPU轮询分配策略;例如,多核处理器中一个VCPU的当前承载终端12个,小于承载阈值20个,则当有新终端需要接入时,采用轮询分配策略将该终端至分配至多核处理器上VCPU;若每一VCPU的当前承载终端数量均高于承载阈值时,确定该VCPU的终端承载方式为负载均衡承载方式,即将终端分配至当前承载终端数量最少的VCPU,以保证多核处理器每一VCPU上数据业务均衡。
由于在成功完成软件置位VCPU后,设置VCPU状态为正常,后续数据业务可以继续在该VCPU上承载,若采用负载均衡承载方式,新接入终端会优先承载在软件置位后的VCPU上。为了避免潜在的VCPU软件置位后可能并未解除故障而导致的数据业务连续接入失败,设置承载阈值来避免这个问题的发生,当多核处理器上每一VCPU的当前承载终端数量均大于承载阈值时,可以确定每一VCPU都处于正常状态,保证数据业务正常接入的成功率。
图2为根据本发明一个具体实施例的多核处理器置位流程图。
首先,检测到任一VCPU的预定故障事件后,收到VCPU故障检测通知消息;接着,判断在预定时间T1内该VCPU软件置位次数是否大于等于软件置位次数阈值M1,若小于M1,则设置该VCPU为故障状态;迁移CELL和UE至其他正常VCPU上;随后对该VCPU执行软件置位;当收到软件置位响应结果为该VCPU软件置位成功,设置该VCPU为正常状态,可向该VCPU分配新业务,结果整个流程;当收到软件置位响应结果为该VCPU软件置位失败,则将该VCPU隔离,并更新隔离数据记录;当断在预定时间T1内该VCPU软件置位次数大于等于第二预定隔离阈值M1时,该VCPU隔离,并更新隔离数据记录;随后,判断处于隔离状态的VCPU数量是否大于等于第一预定隔离阈值M3,当判断处于隔离状态的VCPU数量大于等于M3时,立刻硬件置位该多核处理器;当判断处于隔离状态的VCPU数量小于M3时,继续判断处于隔离状态的VCPU数量是否大于等于第二预定隔离阈值M2,若大于M2,则启动闲时检测,若小于M2,则结果整个流程。
图3为根据本发明实施例的多核处理器置位的设备功能示意图。如无特别说明,本文中多核处理器与多核处理器置位的装置100等同使用。
装置100包括判断模块110,第一设置模块120和置位模块130;首先,判断模块110检测到任一VCPU的预定故障事件时,判断在预定时间内该VCPU的软件置位次数与软件置位次数阈值的大小关系。
具体地,任一VCPU通过自检,或通过主控VCPU实时监测检测到该VCPU出现预定故障事件时,向多核处理器发送该VCPU故障检测通知消息;其中,所述预定故障事件包括但不限于可通过VCPU自检得到的关键资源如内存、定时器连续无法分配、内存改写、数据队列内容错误、协议处理连续错误等问题,及可通过主控VCPU监测到该VCPU上承载的数据业务连续多次无法正常连接等问题;接收到该VCPU故障检测通知消息后,触发多核处理器读取在预定时间内该VCPU的软件置位次数的数据记录,接着,判断模块110判断软件置位次数与软件置位次数阈值的大小关系。
接着,第一设置模块120当判断软件置位次数大于或等于软件置位次数阈值时,设置VCPU处于隔离状态。
具体地,多核处理器判断在预定时间内该VCPU的软件置位次数不小于软件置位次数阈值时,如判断在2小时内,该VCPU的软件置位次数为7,大于软件置位次数阈值5时,确定该VCPU异常,通过给该VCPU标注标签的方式,设置该VCPU处于隔离状态,且不再将新的数据业务承载在该VCPU上。
随后,置位模块130根据处于隔离状态的VCPU数量,对多核处理器进行硬件置位处理。
其中,根据处于隔离状态的VCPU数量,对多核处理器进行硬件置位处理的方式,包括:
1)当判断处于隔离状态的VCPU数量不小于第一预定隔离阈值时,硬件置位多核处理器。
具体地,多核处理器判断处于隔离状态的VCPU数量不小于第一预定隔离阈值时,如判断处于隔离状态的VCPU为18个,大于第一预定隔离阈值16时,则第一置位模块130立刻硬件置位多核处理器。
2)置位模块130当判断处于隔离状态的VCPU数量小于第一预定隔离阈值且不小于第二预定隔离阈值时,对多核处理器进行闲时检测,第二预定隔离阈值小于第一预定隔离阈值;当确定多核处理器处于闲时,硬件置位多核处理器。
具体地,多核处理器判断隔离状态的VCPU数量小于第一预定隔离阈值且不小于第二预定隔离阈值时,如判断处于隔离状态的VCPU为10个,小于第一预定隔离阈值16,且大于第二预定隔离阈值6时,则对多核处理器进行闲时检测;接着,当确定多核处理器处于闲时,则硬件置位多核处理器。
其中,对多核处理器进行闲时检测的方式包括:闲时检测模块基于预定闲时检测周期检测多核处理器当前指标信息;当当前指标信息小于闲时指标阈值时,确定多核处理器处于闲时。当前指标信息,包括:数据流量;终端接入数量。
具体地,当前指标信息以在预定检测周期内,如最近15分钟时间内,多核处理器上数据流量和/或终端接入数量为依据,判断多核处理器当前是否处于闲时;其中,闲时指标阈值指预定时间中在预定时间粒度下最低值的平均值,例如,连续N天中在每日24小时内的每15分钟粒度下,多核处理器上数据流量和/或终端接入数量的最低值的平均值,N为可配置时间周期,优选为7天,且当实际运行天数小于N时,将实际运行天数作为时间周期。优选地,可设置接入终端数目优先级高于流量统计作为置位条件。
多核处理器承载数据业务后,在VCPU发生预定故障时,采用软件置位和硬件置位相结合的方法,可避免单纯硬件置位多核处理器而导致的终端掉线,小区退服、用户感知下降等问题。同时,通过隔离故障VCPU以避免数据业务承载在故障VCPU上,并选择合适时机硬件置位整个多核处理器来解除故障。
在一优选实施例中,当判断处于隔离状态的VCPU数量小于第一预定隔离阈值且不小于第二预定隔离阈值时,当确定多核处理器不处于闲时,且当前时间处于预定时间段,置位模块130硬件置位多核处理器。
具体地,当判断处于隔离状态的VCPU数量小于第一预定隔离阈值且不小于第二预定隔离阈值时,当通过闲时检测确定多核处理器不处于闲时,且当前时间处于预定时间段,如凌晨3点至5点时,则立即硬件置位多核处理器。
为防止重大事件、节假日导致数据流量及终端接入数量一段时间内始终高于第二预定隔离阈值不能及时执行硬件置位,统计分析确定数据流量及终端接入数量在如凌晨3点至5点之间处于低谷且主要以PS数据业务为主,执行硬件置位对用户感知影响较轻。因此,闲时检测确定多核处理器不处于闲时且当前时间处于预定时间段时,执行硬件置位多核处理器。
在另一优选实施例中,装置100(参照图3)还包括第二设置模块(图未示)和迁移模块(图未示),当判断软件置位次数小于软件置位次数阈值时,第二设置模块设置VCPU处于故障状态;迁移模块迁移VCPU上的当前业务,软件置位VCPU。
具体地,当判断软件置位次数小于软件置位次数阈值时,多核处理器的故障处理程序设置VCPU处于故障状态,即暂时不在该VCPU上承载数据业务;随后,将已接入该VCPU上的小区和终端到的执行数据迁移到其他正常VCPU上,软件置位该VCPU;迁移的方式包括:重选一个正常VCPU,采用相同参数配置重建数据业务;接着,执行软件置位该VCPU;其中,软件置位的方式:通知各个协议层,如PDCP、IUUP、RLC、MAC、FP等,的程序进行资源释放,包括内存、定时器、终端、小区实例等释放,随后初始化全局变量,清除缓存数据。
在VCPU出现故障时,可优先执行软件置位尝试VCPU自愈,使得一些通过软件置位即可解决的故障快速解除,而不会产生终端掉线,小区退服、用户感知下降等问题。
优选地,装置100(参照图3)还包括第三设置模块(图未示),当检测到VCPU软件置位失败时,第三设置模块设置该VCPU处于隔离状态。具体地,当多核处理器检测到VCPU软件置位失败时,给该VCPU标记处于隔离状态的标签。
在又一优选实施例中,装置100(参照图3)还包括检测模块(图未示)和确定模块(图未示),检测模块检测每一VCPU的当前承载终端数量;确定模块根据当前承载终端数量与承载阈值的关系,确定多核处理器的终端承载方式。其中,终端承载方式,包括:负载均衡承载方式或轮询承载方式。
具体地,多核处理器检测每一VCPU的当前承载终端数量;若任一VCPU的当前承载终端数量低于承载阈值时,确定多核处理器上所有VCPU的终端承载方式为轮询承载方式,即终端接入时采用多核处理器上所有VCPU轮询分配策略;例如,多核处理器中一个VCPU的当前承载终端12个,小于承载阈值20个,则当有新终端需要接入时,采用轮询分配策略将该终端至分配至多核处理器上VCPU;若每一VCPU的当前承载终端数量均高于承载阈值时,确定该VCPU的终端承载方式为负载均衡承载方式,即将终端分配至当前承载终端数量最少的VCPU,以保证多核处理器每一VCPU上数据业务均衡。
由于在成功完成软件置位VCPU后,设置VCPU状态为正常,后续数据业务可以继续在该VCPU上承载,若采用负载均衡承载方式,新接入终端会优先承载在软件置位后的VCPU上。为了避免潜在的VCPU软件置位后可能并未解除故障而导致的数据业务连续接入失败,设置承载阈值来避免这个问题的发生,当多核处理器上每一VCPU的当前承载终端数量均大于承载阈值时,可以确定每一VCPU都处于正常状态,保证数据业务正常接入的成功率。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (18)

1.一种多核处理器置位的方法,其特征在于,包括:
检测到任一VCPU的预定故障事件时,判断在预定时间内所述VCPU的软件置位次数与软件置位次数阈值的大小关系;
当判断所述软件置位次数大于或等于所述软件置位次数阈值时,设置所述VCPU处于隔离状态;
根据处于隔离状态的VCPU数量,对所述多核处理器进行硬件置位处理。
2.根据权利要求1所述的多核处理器置位的方法,其特征在于,根据处于隔离状态的VCPU数量,对所述多核处理器进行硬件置位处理,包括:
当判断处于隔离状态的VCPU数量不小于第一预定隔离阈值时,硬件置位所述多核处理器;
当判断处于隔离状态的VCPU数量小于第一预定隔离阈值且不小于第二预定隔离阈值时,对所述多核处理器进行闲时检测,所述第二预定隔离阈值小于第一预定隔离阈值;当确定所述多核处理器处于闲时,硬件置位所述多核处理器。
3.根据权利要求2所述的多核处理器置位的方法,其特征在于,对所述多核处理器进行闲时检测,包括:
基于预定闲时检测周期检测所述多核处理器当前指标信息;
当所述当前指标信息小于闲时指标阈值时,确定所述多核处理器处于闲时。
4.根据权利要求3所述的多核处理器置位的方法,其特征在于,当前指标信息,包括以下至少任一项:
数据流量;终端接入数量。
5.根据权利要求2所述的多核处理器置位的方法,其特征在于,当判断处于隔离状态的VCPU数量小于第一预定隔离阈值且不小于第二预定隔离阈值时,还包括:
当确定所述多核处理器不处于闲时,且当前时间处于预定时间段,硬件置位所述多核处理器。
6.根据权利要求1所述的多核处理器置位的方法,其特征在于,还包括:
当判断所述软件置位次数小于所述软件置位次数阈值时,设置所述VCPU处于故障状态;
迁移所述VCPU上的当前业务,软件置位所述VCPU。
7.根据权利要求6所述的多核处理器置位的方法,其特征在于,还包括:
当检测到所述VCPU软件置位失败时,设置所述VCPU处于隔离状态。
8.根据权利要求1所述的多核处理器置位的方法,其特征在于,还包括:
检测每一VCPU的当前承载终端数量;
根据所述每一VCPU的当前承载终端数量与承载阈值的关系,确定所述多核处理器的终端承载方式。
9.根据权利要求8所述的多核处理器置位的方法,其特征在于,终端承载方式,包括:
负载均衡承载方式或轮询承载方式。
10.一种多核处理器置位的装置,其特征在于,包括判断模块,第一设置模块和置位模块:
所述判断模块,用于检测到任一VCPU的预定故障事件时,判断在预定时间内所述VCPU的软件置位次数与软件置位次数阈值的大小关系;
所述第一设置模块,用于当判断所述软件置位次数大于或等于所述软件置位次数阈值时,设置所述VCPU处于隔离状态;
所述置位模块,用于根据处于隔离状态的VCPU数量,对所述多核处理器进行硬件置位处理。
11.根据权利要求10所述的多核处理器置位的装置,其特征在于,所述置位模块用于当判断处于隔离状态的VCPU数量不小于第一预定隔离阈值时,硬件置位所述多核处理器;
当判断处于隔离状态的VCPU数量小于第一预定隔离阈值且不小于第二预定隔离阈值时,对所述多核处理器进行闲时检测,所述第二预定隔离阈值小于第一预定隔离阈值;当确定所述多核处理器处于闲时,硬件置位所述多核处理器。
12.根据权利要求11所述的多核处理器置位的装置,其特征在于,所述置位模块用于基于预定闲时检测周期检测所述多核处理器当前指标信息;当所述当前指标信息小于闲时指标阈值时,确定所述多核处理器处于闲时。
13.根据权利要求12所述的多核处理器置位的装置,其特征在于,当前指标信息,包括以下至少任一项:
数据流量;用户设备接入数量。
14.根据权利要求11所述的多核处理器置位的装置,其特征在于,所述置位模块还用于当确定所述多核处理器不处于闲时,且当前时间处于预定时间段,硬件置位所述多核处理器。
15.根据权利要求10所述的多核处理器置位的装置,其特征在于,还包括第二设置模块和迁移模块:
所述第二设置模块,用于判断在所述预定时间内所述VCPU的软件置位次数小于软件置位次数阈值时,设置所述VCPU处于故障状态;
所述迁移模块,用于迁移所述VCPU上的当前业务,软件置位所述VCPU。
16.根据权利要求15所述的多核处理器置位的装置,其特征在于,还包括第三设置模块:
所述第三设置模块,用于当检测到软件置位所述VCPU失败时,设置所述VCPU处于隔离状态。
17.根据权利要求11所述的多核处理器置位的装置,其特征在于,还包括检测模块和确定模块:
所述检测模块,用于检测每一VCPU的当前承载终端数量;
所述确定模块,用于根据所述每一VCPU的当前承载终端数量与承载阈值的关系,确定所述多核处理器的终端承载方式。
18.根据权利要求17所述的多核处理器置位的装置,其特征在于,终端承载方式,包括:
负载均衡承载方式或轮询承载方式。
CN201410416188.8A 2014-08-21 2014-08-21 多核处理器置位的方法和装置 Active CN104199768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410416188.8A CN104199768B (zh) 2014-08-21 2014-08-21 多核处理器置位的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410416188.8A CN104199768B (zh) 2014-08-21 2014-08-21 多核处理器置位的方法和装置

Publications (2)

Publication Number Publication Date
CN104199768A true CN104199768A (zh) 2014-12-10
CN104199768B CN104199768B (zh) 2017-04-05

Family

ID=52085064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410416188.8A Active CN104199768B (zh) 2014-08-21 2014-08-21 多核处理器置位的方法和装置

Country Status (1)

Country Link
CN (1) CN104199768B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126408A (zh) * 2016-06-28 2016-11-16 浪潮(北京)电子信息产业有限公司 一种基于linux网卡错误的诊断处理方法及系统
CN106844082A (zh) * 2017-01-18 2017-06-13 联想(北京)有限公司 处理器预测故障分析方法及装置
CN112527541A (zh) * 2019-09-19 2021-03-19 华为技术有限公司 一种确定多核处理器中故障计算核的方法及电子设备
CN116450009A (zh) * 2023-06-14 2023-07-18 深圳市微克科技有限公司 基于图形界面交互的手表菜单导航系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009046525A1 (en) * 2007-10-08 2009-04-16 Nathan John Walter Kube Automatic grammar based fault detection and isolation
US20090265715A1 (en) * 2004-04-30 2009-10-22 Microsoft Corporation VEX - Virtual Extension Framework
WO2009155433A2 (en) * 2008-06-20 2009-12-23 Netapp, Inc. System and method for achieving high performance data flow among user space processes in storage systems
CN101706742A (zh) * 2009-11-20 2010-05-12 北京航空航天大学 一种基于多核动态划分的非对称虚拟机i/o调度方法
CN103544105A (zh) * 2013-10-24 2014-01-29 大唐移动通信设备有限公司 多核处理器中基于vcpu的调试方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090265715A1 (en) * 2004-04-30 2009-10-22 Microsoft Corporation VEX - Virtual Extension Framework
WO2009046525A1 (en) * 2007-10-08 2009-04-16 Nathan John Walter Kube Automatic grammar based fault detection and isolation
WO2009155433A2 (en) * 2008-06-20 2009-12-23 Netapp, Inc. System and method for achieving high performance data flow among user space processes in storage systems
CN101706742A (zh) * 2009-11-20 2010-05-12 北京航空航天大学 一种基于多核动态划分的非对称虚拟机i/o调度方法
CN103544105A (zh) * 2013-10-24 2014-01-29 大唐移动通信设备有限公司 多核处理器中基于vcpu的调试方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
惠新忠: "Xen虚拟I/O优化策略", 《中国优秀硕士学位论文全文库》 *
马汝辉: "基于多核的虚拟化技术研究", 《中国博士学位论文全文库》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126408A (zh) * 2016-06-28 2016-11-16 浪潮(北京)电子信息产业有限公司 一种基于linux网卡错误的诊断处理方法及系统
CN106844082A (zh) * 2017-01-18 2017-06-13 联想(北京)有限公司 处理器预测故障分析方法及装置
CN112527541A (zh) * 2019-09-19 2021-03-19 华为技术有限公司 一种确定多核处理器中故障计算核的方法及电子设备
US11815990B2 (en) 2019-09-19 2023-11-14 Huawei Technologies Co., Ltd. Method for determining faulty computing core in multi-core processor and electronic device
CN116450009A (zh) * 2023-06-14 2023-07-18 深圳市微克科技有限公司 基于图形界面交互的手表菜单导航系统

Also Published As

Publication number Publication date
CN104199768B (zh) 2017-04-05

Similar Documents

Publication Publication Date Title
EP2614436B1 (en) Controlled automatic healing of data-center services
CN102325192B (zh) 云计算实现方法和系统
CN105095001B (zh) 分布式环境下虚拟机异常恢复方法
CN108334396B (zh) 一种数据处理方法和装置、资源组的创建方法和装置
US9292371B1 (en) Systems and methods for preventing failures of nodes in clusters
CN103440160A (zh) 虚拟机恢复方法和虚拟机迁移方法以及装置与系统
CN105159798A (zh) 一种虚拟机的双机热备方法、双机热备管理服务器和系统
CN111209110B (zh) 一种实现负载均衡的任务调度管理方法、系统和存储介质
CN104199768A (zh) 多核处理器置位的方法和装置
WO2017075989A1 (zh) 虚拟机迁移方法、装置及系统
CN103955398A (zh) 一种基于处理器性能监控的虚拟机共生调度方法
US20230418661A1 (en) Decentralized resource scheduling
CN112148485A (zh) 超融合平台故障恢复方法、装置、电子装置和存储介质
CN111324432A (zh) 处理器调度方法、装置、服务器及存储介质
CN107203413A (zh) 一种资源数据调度系统及方法
CN107395735B (zh) 一种容器集群的延时缩容调度方法及系统
CN104123183A (zh) 集群作业调度方法和装置
CN114064217B (zh) 一种基于OpenStack的节点虚拟机迁移方法及装置
CN104834584A (zh) 一种监测主机硬件负载的方法和系统
CN111538585A (zh) 一种基于node.js的服务器进程调度方法、系统和装置
CN103442033A (zh) 一种运行状态信息的同步方法和设备
CN109189615A (zh) 一种宕机处理方法和装置
Rauchfuss et al. Enhanced reliability in tiled manycore architectures through transparent task relocation
JP2010009258A (ja) ソフトウエアの異常検出装置
CN113626147A (zh) 基于虚拟化技术的海洋平台计算机控制方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant