CN102609327B - 提高多核处理器的可靠性的方法及装置 - Google Patents

提高多核处理器的可靠性的方法及装置 Download PDF

Info

Publication number
CN102609327B
CN102609327B CN201210015133.7A CN201210015133A CN102609327B CN 102609327 B CN102609327 B CN 102609327B CN 201210015133 A CN201210015133 A CN 201210015133A CN 102609327 B CN102609327 B CN 102609327B
Authority
CN
China
Prior art keywords
monokaryon
business
polycaryon processor
core
certain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210015133.7A
Other languages
English (en)
Other versions
CN102609327A (zh
Inventor
刘飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Digital Technologies Chengdu Co Ltd
Beijing Huawei Digital Technologies Co Ltd
Huawei Digital Technologies Co Ltd
Original Assignee
Beijing Huawei Digital Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huawei Digital Technologies Co Ltd filed Critical Beijing Huawei Digital Technologies Co Ltd
Priority to CN201210015133.7A priority Critical patent/CN102609327B/zh
Publication of CN102609327A publication Critical patent/CN102609327A/zh
Application granted granted Critical
Publication of CN102609327B publication Critical patent/CN102609327B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明实施例提供了一种提高多核处理器的可靠性的方法和装置。该方法主要包括:当多核处理器中的某个单核发生故障并且重启后也不能恢复故障后,将所述某个单核从所述多核处理器中隔离;基于所述多核处理器中的各个单核上部署的业务的优先级,将所述某个单核上部署的业务转移到其它所述多核处理器中的其它单核上。本发明实施例通过引入故障核隔离和业务在核之间动态部署的技术特点,即使在单核发生硬件故障通过重启也无法恢复的情况下,也能确保优先级高的业务不受到损伤。

Description

提高多核处理器的可靠性的方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种提高多核处理器的可靠性的方法和装置。
背景技术
因业务部署的需要,多核处理器在通信领域应用越来越广泛,并对多核处理器的可靠性有更高的要求。
影响多核处理器可靠性的重要原因是因为多核处理器上多部署(运行)不同的软件,一套软件的bug(漏洞)便会导致某核异常,故多核的可靠性要低于单核。
现有技术中的一种提高多核处理器的可靠性的方法为:单核重启方法。即选取一核作为控制核,控制核保存其它核的部署和状态。当其它核发生软件bug后将进行复位,或者控制核监控到其它核丢心跳后会主动其它核;其它核在启动过程中会向控制核报告自身的业务部署配置,从而达到通过单核重启恢复业务的目的。
上述现有技术中的提高多核处理器的可靠性的方法的缺点为:由软件导致的bug或者通过单核重启能够恢复的故障,通过该方法业务能够恢复,若是核硬件导致的故障,通过单核重启也无法解决,此时业务将受到损伤。
发明内容
本发明的实施例提供了一种提高多核处理器的可靠性的方法和装置,以实现在单核发生硬件故障通过重启也无法恢复的情况下,也不会使单核上部署的业务受到损伤。
本发明实施例是通过以下技术方案来实现的:
一种提高多核处理器的可靠性的方法,包括:
当多核处理器中的某个单核发生故障并且重启后也不能恢复故障后,将所述某个单核从所述多核处理器中隔离;
基于所述多核处理器中的各个单核上部署的业务的优先级,将所述某个单核上部署的业务转移到其它所述多核处理器中的其它单核上。
一种提高多核处理器的可靠性的装置,包括:
故障处理模块,用于当多核处理器中的某个单核发生故障并且重启后也不能恢复故障后,将所述某个单核从所述多核处理器中隔离;
业务转移模块,基于所述多核处理器中的各个单核上部署的业务的优先级,将所述某个单核上部署的业务转移到其它所述多核处理器中的其它单核上。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例通过引入故障核隔离和业务在核之间动态部署的技术特点,即使在单核发生硬件故障通过重启也无法恢复的情况下,也能确保优先级高的业务不受到损伤。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种提高多核处理器的可靠性的方法的处理流程图;
图2为本发明实施例一提供的一种分布式系统中的主控板对控制核进行故障检测和部署的示意图;
图3为本发明实施例一提供的一种控制核对各个转发核进行故障检测和部署的示意图;
图4为本发明实施例一提供的一种转发核2故障后将转发核2进行隔离的示意图。
图5为实施例二提供的一种提高多核处理器的可靠性的装置的具体结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
实施例一
该实施例提供的一种提高多核处理器的可靠性的方法的处理流程如图1所示,包括如下的处理步骤:
步骤11、当多核处理器中的某个单核发生故障并且重启后也不能恢复故障后,将所述某个单核从所述多核处理器中隔离。
该实施例提供的一种多核处理器中的主控板和控制核的功能示意图如图2所示,主要包括:
主控板和多核处理器构成分布式系统,上述分布式系统中的主控板检测并记录各个单核的状态,按照一定算法在状态正常的单核中选取某个单核为控制核,将其它单核作为转发核。
该实施例提供的一种分布式系统中的主控板对控制核进行故障检测和部署的示意图如图2所示,主控板对所述控制核进行故障检测,主控板可采取心跳检测结合控制核主动上报故障的方式对所述控制核进行故障检测。
主控板检测到控制核发生故障后,对控制核进行复位操作,并优先给重启前的控制核上电,上电后在一定时间内收不到控制核的注册消息,则将上述控制核进行隔离,重新选取控制核。
该实施例提供的一种控制核对各个转发核进行故障检测和部署的示意图如图3所示,所述控制核进行各个转发核的部署、故障检测和故障处理,同时为防止控制核故障,控制核要将各个转发核的部署情况上报给主控板保存或者在非易失介质保存。控制核检测并记录各个转发核的状态,当检测到某个转发核发生故障并且重启后也不能恢复故障后,将所述转发核从所述多核处理器中隔离。
比如,如图4所示,转发核2故障后,将转发核2进行隔离。
步骤12、基于所述多核处理器中的各个单核上部署的业务的优先级,将所述某个单核上部署的业务转移到其它所述多核处理器中的其它单核上。
本发明实施例将多核处理器中的各个单核上部署的业务划分为不同的优先级,控制核上部署的业务的优先级最高,各个转发核上部署的业务根据业务属性划分为不同的优先级。
各个转发核上部署的业务的优先级的排列顺序可以为用户配置或者预先指定。比如,预先指定的从高到低的排列顺序为:视频业务、快速检测业务(BFD、OAM等)、统计业务(NETSTREAM等)。上述快速检测业务可以包括BFD(Bidirectional Forwarding Detection,双向转发检测)业务、OAM(Operation Administration and Maintenance,操作管理维护)业务等,上述统计业务可以包括NETSTREAM,NetStream是一种基于网络流信息的采集、统计与发布技术,可以对网络中的通信量和资源使用情况进行分类统计,帮助用户实现对各种业务的管理和计费。
当存在没有部署业务的其它单核时,将所述某个单核上部署的业务转移到所述没有部署业务的其它单核上,即优先选取没有部署业务的空闲单核来进行业务转移。
当不存在没有部署业务的其它单核时,选择业务优先级比所述某个单核的业务优先级低的其它单核,将所述业务优先级低的其它单核复位,将所述某个单核上部署的业务在所述业务优先级低的其它单核上重新部署。此时,所述业务优先级低的其它单核上原先部署的业务将被挤占。
然后,控制核要将各个转发核的最新业务部署情况上报给主控板保存或者在非易失介质保存。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例通过引入故障核隔离和业务在核之间动态部署的技术特点,即使在单核发生硬件故障通过重启也无法恢复的情况下,也能确保优先级高的业务不受到损伤。
本发明实施例减少了多核处理器因为部分核故障而导致的整板返板维修,延长了单板的使用年限,减少返板维修费用。
实施例二
该实施例提供了一种提高多核处理器的可靠性的装置,其具体结构如图5所示,包括如下的模块:
故障处理模块51,用于当多核处理器中的某个单核发生故障并且重启后也不能恢复故障后,将所述某个单核从所述多核处理器中隔离;
业务转移模块52,基于所述多核处理器中的各个单核上部署的业务的优先级,将所述某个单核上部署的业务转移到其它所述多核处理器中的其它单核上。
具体的,所述的故障处理模块51,还用于检测并记录各个转发核的状态,当检测到某个转发核发生故障并且重启后也不能恢复故障后,将所述转发核从所述多核处理器中隔离,所述控制核为分布式系统中的主控板检测并记录各个单核的状态,按照一定算法在状态正常的单核中选取的。
具体的,所述的业务转移模块52,还用于将多核处理器中的各个单核上部署的业务划分为不同的优先级,控制核上部署的业务的优先级最高,各个转发核上部署的业务根据业务属性划分为不同的优先级。
具体的,所述的业务转移模块52,还用于当存在没有部署业务的其它单核时,将所述某个单核上部署的业务转移到所述没有部署业务的其它单核上;
当不存在没有部署业务的其它单核时,选择业务优先级比所述某个单核的业务优先级低的其它单核,将所述业务优先级低的其它单核复位,将所述某个单核上部署的业务在所述业务优先级低的其它单核上重新部署。此时,所述业务优先级低的其它单核上原先部署的业务将被挤占。
然后,控制核要将各个转发核的最新业务部署情况上报给主控板保存或者在非易失介质保存。
上述提高多核处理器的可靠性的装置可以设置在多核处理器中的控制核中。
应用本发明实施例的装置提高多核处理器的可靠性的具体过程与前述方法实施例类似,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本发明实施例通过引入故障核隔离和业务在核之间动态部署的技术特点,即使在单核发生硬件故障通过重启也无法恢复的情况下,也能确保优先级高的业务不受到损伤。
本发明实施例减少了多核处理器因为部分核故障而导致的整板返板维修,延长了单板的使用年限,减少返板维修费用。
本发明实施例可以较好地解决多核处理器中一个或者多个核故障时整板可靠性问题,在核增多时不会降低单板可靠性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (7)

1.一种提高多核处理器的可靠性的方法,其特征在于,包括:
当多核处理器中的某个单核发生故障并且重启后也不能恢复故障后,将所述某个单核从所述多核处理器中隔离;
基于所述多核处理器中的各个单核上部署的业务的优先级,将所述某个单核上部署的业务转移到其它所述多核处理器中的其它单核上;
所述的当多核处理器中的某个单核发生故障并且重启后也不能恢复故障后,将所述某个单核从所述多核处理器中隔离,包括:
多核处理器中的控制核检测并记录各个转发核的状态,当检测到某个转发核发生故障并且重启后也不能恢复故障后,将所述转发核从所述多核处理器中隔离,所述控制核为分布式系统中的主控板检测并记录各个单核的状态,按照一定算法在状态正常的单核中选取的。
2.根据权利要求1所述的提高多核处理器的可靠性的方法,其特征在于,所述的方法还包括:
将多核处理器中的各个单核上部署的业务划分为不同的优先级,控制核上部署的业务的优先级最高,各个转发核上部署的业务根据业务属性划分为不同的优先级。
3.根据权利要求2所述的提高多核处理器的可靠性的方法,其特征在于,所述的各个转发核上部署的业务根据业务属性划分为不同的优先级包括:
各个转发核上部署的业务的优先级的排列顺序为用户配置或者预先指定。
4.根据权利要求1至3中任一项所述的提高多核处理器的可靠性的方法,其特征在于,所述的基于所述多核处理器中的各个单核上部署的业务的优先级,将所述某个单核上部署的业务转移到其它所述多核处理器中的其它单核上包括:
当存在没有部署业务的其它单核时,将所述某个单核上部署的业务转移到所述没有部署业务的其它单核上;
当不存在没有部署业务的其它单核时,选择业务优先级比所述某个单核的业务优先级低的其它单核,将所述业务优先级低的其它单核复位,将所述某个单核上部署的业务在所述业务优先级低的其它单核上重新部署。
5.一种提高多核处理器的可靠性的装置,其特征在于,包括:
故障处理模块,用于当多核处理器中的某个单核发生故障并且重启后也不能恢复故障后,将所述某个单核从所述多核处理器中隔离;
业务转移模块,基于所述多核处理器中的各个单核上部署的业务的优先级,将所述某个单核上部署的业务转移到其它所述多核处理器中的其它单核上;
所述的故障处理模块,还用于控制核检测并记录各个转发核的状态,当检测到某个转发核发生故障并且重启后也不能恢复故障后,将所述转发核从所述多核处理器中隔离,所述控制核为分布式系统中的主控板检测并记录各个单核的状态,按照一定算法在状态正常的单核中选取的。
6.根据权利要求5所述的提高多核处理器的可靠性的装置,其特征在于:
所述的业务转移模块,还用于将多核处理器中的各个单核上部署的业务划分为不同的优先级,控制核上部署的业务的优先级最高,各个转发核上部署的业务根据业务属性划分为不同的优先级。
7.根据权利要求5所述的提高多核处理器的可靠性的装置,其特征在于:
所述的业务转移模块,还用于当存在没有部署业务的其它单核时,将所述某个单核上部署的业务转移到所述没有部署业务的其它单核上;
当不存在没有部署业务的其它单核时,选择业务优先级比所述某个单核的业务优先级低的其它单核,将所述业务优先级低的其它单核复位,将所述某个单核上部署的业务在所述业务优先级低的其它单核上重新部署。
CN201210015133.7A 2012-01-17 2012-01-17 提高多核处理器的可靠性的方法及装置 Expired - Fee Related CN102609327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210015133.7A CN102609327B (zh) 2012-01-17 2012-01-17 提高多核处理器的可靠性的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210015133.7A CN102609327B (zh) 2012-01-17 2012-01-17 提高多核处理器的可靠性的方法及装置

Publications (2)

Publication Number Publication Date
CN102609327A CN102609327A (zh) 2012-07-25
CN102609327B true CN102609327B (zh) 2015-07-22

Family

ID=46526719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210015133.7A Expired - Fee Related CN102609327B (zh) 2012-01-17 2012-01-17 提高多核处理器的可靠性的方法及装置

Country Status (1)

Country Link
CN (1) CN102609327B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929373B (zh) * 2012-10-18 2015-04-08 无锡江南计算技术研究所 多核处理器复位装置和复位方法
CN104657240B (zh) * 2013-11-18 2018-08-21 华为技术有限公司 多内核操作系统的失效控制方法及装置
CN105009086B (zh) * 2014-03-10 2019-01-18 华为技术有限公司 一种实现处理器切换的方法、计算机和切换装置
KR101747306B1 (ko) * 2014-09-23 2017-06-14 삼성전자주식회사 의료 영상 처리 장치 및 그에 따른 의료 영상 처리 방법
CN106844082A (zh) * 2017-01-18 2017-06-13 联想(北京)有限公司 处理器预测故障分析方法及装置
CN113515312A (zh) * 2020-03-25 2021-10-19 华为技术有限公司 芯片启动方法、装置及计算机设备
WO2022199390A1 (zh) * 2021-03-22 2022-09-29 北京灵汐科技有限公司 处理方法及装置、电子设备、存储介质
CN117234763A (zh) * 2022-06-07 2023-12-15 华为技术有限公司 处理器核故障处理方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231126A (zh) * 2011-07-28 2011-11-02 大唐移动通信设备有限公司 一种实现多核处理器中核间备份的方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101009836B (zh) * 2007-01-31 2010-05-26 浙江大学 基于双处理器的嵌入式视频播放装置
US8032772B2 (en) * 2007-11-15 2011-10-04 Intel Corporation Method, apparatus, and system for optimizing frequency and performance in a multi-die microprocessor

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231126A (zh) * 2011-07-28 2011-11-02 大唐移动通信设备有限公司 一种实现多核处理器中核间备份的方法及系统

Also Published As

Publication number Publication date
CN102609327A (zh) 2012-07-25

Similar Documents

Publication Publication Date Title
CN102609327B (zh) 提高多核处理器的可靠性的方法及装置
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN102394914A (zh) 集群脑裂处理方法和装置
US20060212754A1 (en) Multiprocessor system
KR20110044858A (ko) 데이터 센터들에 걸쳐 데이터 서버들내 데이터 무결정의 유지
CN102968360B (zh) 具有n+1冗余功能的存储系统及方法
CN106484565A (zh) 多数据中心间的数据同步方法及相关设备
CN103605620B (zh) 一种集群存储数据保护方法及装置
CN102664757B (zh) 一种存储设备的级联方法及装置
CN102457400B (zh) 一种防止磁盘镜像资源发生脑裂的方法
CN102404139A (zh) 一种提高容错服务器应用层级容错性能的方法
WO2020233001A1 (zh) 双控构架分布式存储系统、数据读取方法、装置和存储介质
CN104679623A (zh) 一种服务器硬盘的维护方法、系统及服务器监控设备
CN105224416B (zh) 修复方法及相关电子装置
CN104158843B (zh) 分布式文件存储系统的存储单元失效检测方法及装置
CN103297264A (zh) 一种云平台故障恢复方法和系统
CN102984739A (zh) 故障信息处理方法及装置
CN105159846A (zh) 一种支持虚拟化磁盘双控切换的方法和存储系统
CN104636082A (zh) 磁盘阵列raid的控制方法及装置
CN102487332A (zh) 故障处理方法、装置和系统
CN103414591A (zh) 一种端口故障恢复时的快速收敛方法和系统
CN103931139A (zh) 一种冗余保护方法、装置、设备及系统
CN112948484A (zh) 分布式数据库系统和数据灾备演练方法
CN106682040A (zh) 数据管理方法及装置
CN110677288A (zh) 一种通用于多场景部署的边缘计算系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: 100085 Beijing, Haidian District on the road, No. 3

Applicant after: Beijing Huawei Digital Technology Co.,Ltd.

Address before: 100085 Beijing, Haidian District on the road, No. 3

Applicant before: Huawei Digit Technology Co., Ltd.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: HUAWEI DIGIT TECHNOLOGY CO., LTD. TO: BEIJING HUAWEI DIGITAL TECHNOLOGY CO., LTD.

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150722

Termination date: 20190117

CF01 Termination of patent right due to non-payment of annual fee