CN115934358B - 数据处理装置集群的控制方法 - Google Patents

数据处理装置集群的控制方法 Download PDF

Info

Publication number
CN115934358B
CN115934358B CN202310010835.4A CN202310010835A CN115934358B CN 115934358 B CN115934358 B CN 115934358B CN 202310010835 A CN202310010835 A CN 202310010835A CN 115934358 B CN115934358 B CN 115934358B
Authority
CN
China
Prior art keywords
data processing
management card
processing apparatus
distribution
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310010835.4A
Other languages
English (en)
Other versions
CN115934358A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Moore Thread Intelligent Technology Chengdu Co ltd
Moore Threads Technology Co Ltd
Original Assignee
Moore Thread Intelligent Technology Chengdu Co ltd
Moore Threads Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Moore Thread Intelligent Technology Chengdu Co ltd, Moore Threads Technology Co Ltd filed Critical Moore Thread Intelligent Technology Chengdu Co ltd
Priority to CN202310010835.4A priority Critical patent/CN115934358B/zh
Publication of CN115934358A publication Critical patent/CN115934358A/zh
Application granted granted Critical
Publication of CN115934358B publication Critical patent/CN115934358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请涉及一种数据处理装置集群的控制方法,包括:通信分发装置接收远端设备的任务,并分发任务;以及管理卡接收所述通信分发装置分发的任务,并向所述管理卡所管理的数据处理装置分发任务,其中,所述控制方法还包括:在预定条件下,所述管理卡或所述远端设备选择数据处理装置,并向被选择的数据处理装置发送升级命令,所述升级命令用于指示被选择的数据处理装置升级为管理卡以接管至少一个其它的数据处理装置;和/或所述远端设备或所述通信分发装置为脱离管理的数据处理装置指定用于管理该数据处理装置的所述管理卡。该控制方法能够提高数据处理装置集群的可靠性。

Description

数据处理装置集群的控制方法
技术领域
本申请涉及数据处理技术领域,尤其涉及数据处理装置集群的控制方法。
背景技术
数据处理装置组合成集群,每一个数据处理装置都能够完成一定的数据处理任务,因此,数据处理装置集群能够完成复杂的数据处理任务。
在数据处理装置集群中,数据处理装置例如可以是:中央处理器(CPU)或图形处理器(GPU)等。
应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
具有高可靠性的数据处理装置集群能够高质量地完成数据处理任务,从而最大程度上发挥数据处理装置集群的优势。因此,如何不断提高数据处理装置集群的可靠性,是一个需要解决的问题,例如,当管理卡无法对数据处理装置进行管理时,如何实现数据处理装置集群的高可靠性运行等。
为了解决至少上述技术问题或类似的技术问题,本申请实施例提供一种数据处理装置集群的控制方法。该管理系统能够实现对数据处理装置集群的高可靠性管理框架,从而提高数据处理装置集群的可靠性。
本申请实施例提供一种数据处理装置集群的控制方法,所述控制方法包括:
通信分发装置接收远端设备的任务,并分发任务;以及
管理卡接收所述通信分发装置分发的任务,并向所述管理卡所管理的数据处理装置分发任务,
其中,所述控制方法还包括:
在预定条件下,所述管理卡或所述远端设备选择数据处理装置,并向被选择的数据处理装置发送升级命令,所述升级命令用于指示被选择的数据处理装置升级为管理卡以接管至少一个其它的数据处理装置;和/或
所述远端设备或所述通信分发装置为脱离管理的数据处理装置指定用于管理该数据处理装置的所述管理卡。
本申请实施例的有益效果在于:能够实现对数据处理装置集群的高可靠性管理。
参照后文的说明和附图,详细公开了本申请的特定实施方式,指明了本申请的原理可以被采用的方式。应该理解,本申请的实施方式在范围上并不因而受到限制。在所附权利要求的条款的范围内,本申请的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请第一方面的实施例中数据处理装置集群的管理系统以及数据处理装置集群的一个示意图;
图2是管理卡2与管理的数据处理装置4的一个示意图;
图3是通信分发装置1的一个示意图;
图4是管理卡的构成的一个示意图;
图5是数据处理装置集群的管理系统100进行任务分发和结果反馈流程的一个示意图;
图6是数据处理装置集群的管理系统100中切换管理卡的流程的一个示意图;
图7是数据处理装置集群的管理系统100中管理卡回切的流程的一个示意图;
图8是数据处理装置集群的管理系统100中规则配置流程的一个示意图;
图9是数据处理装置集群的管理系统100中进行管理卡复位的流程的一个示意图;
图10是数据处理装置集群的管理系统100进行控制的方法的一个示意图;
图11是数据处理装置集群的管理系统100进行控制的方法的另一个示意图;
图12是数据处理装置集群的管理系统100进行控制的方法的再一个示意图;
图13是数据处理装置4的一个示意图;
图14是远端设备3的一个示意图;
图15是数据处理装置集群的控制方法的一个示意图;
图16是数据处理装置集群的控制方法的另一个示意图;
图17是数据处理装置集群的控制方法的又一个示意图;
图18是数据处理装置的控制方法的一个示意图;
图19是远端设备的控制方法的一个示意图。
具体实施方式
参照附图,通过下面的说明书,本申请的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本申请的特定实施方式,其表明了其中可以采用本申请的原则的部分实施方式,应了解的是,本申请不限于所描述的实施方式,相反,本申请包括落入所附权利要求的范围内的全部修改、变型以及等同物。下面结合附图对本申请的各种实施方式进行说明。这些实施方式只是示例性的,不是对本申请的限制。
在本申请实施例中,术语“第一”、“第二”、“上”、“下”等用于对不同元素从称谓上进行区分,但并不表示这些元素的空间排列或时间顺序等,这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在,但并不排除存在或添加一个或多个其他特征、元素、元件或组件。
在本申请实施例中,单数形式“一”、“该”等包括复数形式,应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义;此外术语“所述”应理解为既包括单数形式也包括复数形式,除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”,术语“基于”应理解为“至少部分基于……”,除非上下文另外明确指出。
第一方面的实施例
本申请第一方面的实施例提供一种数据处理装置集群的管理系统。
图1是本申请第一方面的实施例中数据处理装置集群的管理系统以及数据处理装置集群的一个示意图。
如图1所示,该管理系统100包括:通信分发装置1和管理卡2。
其中,通信分发装置1能够接收远端设备3发送的任务,并进行任务的分发,例如,将任务分发给管理卡2或数据处理装置4;管理卡2与通信分发装置1连接,接收通信分发装置1分发的任务,并通过接口电路向该管理卡2所管理的至少一个数据处理装置4分发任务。
在至少一个实施例中,数据处理装置4的数量可以是两个以上,由此,该两个以上的数据处理装置4能够组成数据处理装置集群40。
如图1所示,管理系统100可以具有至少一个管理卡2,每个管理卡2可以管理至少一个数据处理装置4。
此外,在本申请中,数据处理装置4也能够与远端设备3和/或通信分发装置1进行通信。
图2是管理卡2与管理的数据处理装置4的一个示意图。如图2所示,每个管理卡2可以管理M个(M是自然数,例如,M为4)处理装置4。此外,本申请不限于此,即,每个管理卡2管理的数据处理装置4的数量可以是其它数量。
在至少一个实施例中,数据处理装置4具有数据处理功能。数据处理功能例如包括:图像处理,和/或音频处理,和/或视频处理,和/或数据计算等。在一个具体实例中,数据处理装置4例如是图形处理器(GPU)。
在至少一个实施例中,管理卡2可以是卡片状,能够被插入到电路板的卡槽中。由此,能够快速且便利地实现管理卡2的安装和更换,从而实现更为灵活的管理。此外,管理卡2也可以被封装为其它的形状。
管理卡2可以是专用的管理卡,即,仅具有管理数据处理装置4的功能。此外,管理卡2也可以既具有管理数据处理装置4的功能,也具有数据处理功能,例如,管理卡2可以是图形处理器(GPU),由此,管理卡2可以完成某些数据处理任务,或者,数据处理装置4在某些情况下可以升级为管理卡2。
在至少一个实施例中,管理卡2与数据处理装置4之间可以经由接口电路进行通信,该接口电路例如可以是PCIe接口,或者其它类型的接口,例如,自定义的可用于互联的接口电路。此外,该接口电路还可以提供不同数据处理装置4之间的通信,和/或不同管理卡2之间的通信。
在至少一个实施例中,在管理卡2的数量为多个(例如N个,分别为管理卡2_1、管理卡2_2,……,管理卡2_N等,N为自然数),数据处理装置4的数量为多个(例如K个,分别为数据处理装置4_1,数据处理装置4_2,……,数据处理装置4_K等,K为自然数)的情况下,该多个管理卡2和该多个数据处理装置4通过接口电路进行通信,因此,管理卡2与数据处理装置4之间的管理关系可以进行灵活地变更。即,一方面,针对各管理卡2,其管理的数据处理装置4可以变更;另一方面,针对各数据处理装置4,用于管理该数据处理装置4的管理卡2可以变更。
根据本申请第一方面的实施例,能够实现对数据处理装置集群40的高可靠性管理框架,从而提高数据处理装置集群40的可靠性。
图3是通信分发装置1的一个示意图。如图3所示,通信分发装置1包括:第一通信模块11,第一分发规则模块12以及负载均衡模块13。
第一通信模块11能够与各管理卡2通信,并且,能够与远端设备3通信。
此外,第一通信模块11还能够与管理卡2所管理的数据处理装置4通信。例如,第一通信模块11将从管理卡2和/或数据处理装置4接收的第一预定信息发送给远端设备3;又例如,第一通信模块11将从远端设备3收到的第二预定信息发送给管理卡2和/或数据处理装置4。
第一预定信息可以是:与管理卡2和/或数据处理装置4的异常、失败和恢复等至少一项有关的信息。例如,第一预定信息是与失效的管理卡有关的信息;又例如,第一预定信息是用于指示数据处理装置4的任务未成功完成的消息;再例如,第一预定信息是上线报告消息,上线报告消息用于指示管理卡2从失效状态恢复为正常状。
第二预定信息可以是:各种规则的配置信息,和/或为游离的数据处理装置4指定管理卡2的信息,和/或指定游离的数据处理装置4升级为管理卡2的信息等。游离的数据处理装置4是指,没有管理卡2进行管理的数据处理装置4。
第一分发规则模块12能够存储第一分发规则。该第一分发规则可以由远端设备3配置并发送给通信分发装置,或者,该第一分发规则可以由通信分发装置1自身进行配置。
此外,第一分发规则模块12还可以根据数据处理装置4的负载,调整第一分发规则。例如,根据原有的第一分发规则,某些任务可以优先分配给预定的数据处理装置4,但是,如果该预定的数据处理装置4的负载已经超出阈值,那么,可以调整第一分发规则,将上述任务优先分配给其他的数据处理装置4。
负载均衡模块13基于该第一分发规则、负载均衡算法以及管理卡2的状态中的至少一者,设置为管理卡2分发的任务。例如,基于第一分发规则,某些任务可以被优先分配给预定的管理卡2;又例如,某些管理卡2失效,则不向失效的管理卡2分配任务;再例如,对于未失效的管理卡2,基于负载均衡算法,为各管理卡2分配任务,从而使得各管理卡2所管理的数据处理装置4的负载差异维持在预定值以内。其中,对负载均衡算法的说明可以参考相关技术。
如图3所示,通信分发装置1还可以包括:第一状态监控模块14。第一状态监控模块14监控管理卡2的状态,管理卡2的状态包括:负载状态,异常状态和在位状态中的至少一者。其中,负载状态用于表示管理卡2当前的运行负荷。异常状态用于表示管理卡2是否能够正常工作,即,如果管理卡2处于异常状态,则无法正常工作。在位状态用于表示管理卡2是否能够与通信分发装置1正常通信,其中:在位,表示二者能正常通信;非在位,表示二者无法正常通信。
在至少一个实施例中,第一状态监控模块14还具有如下功能的至少一者:
监控通信分发装置1的状态,例如,监控通信分发装置1本身是否异常;
对通信分发装置1的异常进行处理;
对管理卡2和/或数据处理装置4的异常进行处理。
在至少一个实施例中,通信分发装置1还可以包括:管理卡指定单元15。管理卡指定单元15能够为脱离管理的数据处理装置指定管理卡,以接管该脱离管理的数据处理装置。此外,在本申请中,远端设备3也可以为脱离管理的数据处理装置指定管理卡。
例如,数据处理装置4在根据切换规则切换管理卡失败时,成为脱离管理的数据处理装置,该数据处理装置4向未失效的管理卡2、远端设备3和通信分发装置1中的至少一者发送切换失败消息;进而,远端设备3和/或通信分发装置1根据该切换失败消息,为数据处理装置4指定管理卡2,即,向指定的管理卡2发送指定消息,指示该管理卡2接管该数据处理装置4;然后,在指定的管理卡3接管了数据处理装置4的情况下,该数据处理装置4向该指定的管理卡3发送被接管成功消息。
其中,数据处理装置4切换管理卡失败,包括:在数据处理装置4的管理卡2失效的情况下,数据处理装置4基于切换规则,切换到正常的管理卡时失败;或者,在失效的管理卡2恢复正常的情况下,脱离该失效的管理卡2管理的数据处理装置4基于切换规则,切换到恢复正常的管理卡2或其它的管理卡2时失败。
在本申请中,远端设备3或通信分发装置1指定的管理卡包括:原有的管理卡,和/或,基于升级命令或选举规则从数据处理装置4升级而形成的管理卡。
在至少一个实施例中,通信分发装置1在硬件上可以是数据处理器(Data ProcessUnit,DPU)或网络接口控制器(network interface controller,NIC)。
图4是管理卡的构成的一个示意图。如图4所示,管理卡2可以包括:第二通信模块21,分发切换规则模块22以及任务分发模块23。
其中,第二通信模块 21能够与通信分发装置1通信,并且,第二通信模块21还能够与数据处理装置4通信。此外,第二通信模块21还可以与远端设备3通信。
分发切换规则模块22存储第二分发规则。该第二分发规则用于向数据处理装置4分发任务。第二分发规则可以由远端设备3配置、或者由通信分发装置1配置、或者由分发切换规则模块22配置。
任务分发模块23基于第二分发规则和/或数据处理装置4的状态,设置为数据处理装置4分发的任务,其中,设置的任务可以通过第二通信模块 21发送给数据处理装置4。
例如,任务分发模块23基于第二分发规则的规定,将某些任务优先被分配给某些预定的数据处理装置4等。
又例如,任务分发模块23不向异常状态的数据处理装置4设置任务,其中,数据处理装置4的异常状态是指,数据处理装置4失去了正常的数据处理能力。异常状态可以包括:数据处理装置4下线,数据处理装置4失效,或者数据处理装置4重启等。
在至少一个实施例中,分发切换规则模块22还可以存储切换规则。切换规则也可以被发送给数据处理装置4。
在管理卡2失效时,失效的管理卡2所管理的数据处理装置4可以基于切换规则选择接管该数据处理装置4的其他管理卡2,而其它管理卡2也可以基于切换规则确定是否接管该数据处理装置4。切换规则可以由远端设备3配置、或者由通信分发装置1配置、或者由分发切换规则模块22配置。
如图4所示,管理卡2还包括:失效切换模块24、回切模块25和查询模块26。
失效切换模块24控制管理卡2接管失效的管理卡的任务以及失效的管理卡所管理的数据处理装置3。即,在其它的管理卡2(例如,管理卡2_1)失效时,失效切换模块24可以控制当前的管理卡2(例如,管理卡2_2),使得当前的管理卡2接管失效的管理卡的任务以及失效的管理卡所管理的数据处理装置4。
当失效的管理卡2的功能恢复后,回切模块25进行控制,使属于失效的管理卡2所管理的数据处理装置4切换为由第一管理卡2进行管理。此外,当失效的管理卡2的功能恢复后,查询模块26可以确认该管理卡26失去管理的数据处理装置4,例如,查询模块26可以对归属表进行查询,从而确认失去管理的数据处理装置4。
在至少一个例子中:
管理卡2_1失效时,原本由管理卡2_1所管理的数据处理装置4由管理卡2_2接管,即,由管理卡2_2对装置4进行任务的分发等操作;
在管理卡2_1从失效状态恢复为正常状态的情况下,管理卡2_1至少向管理卡2_2发送回切请求和第一恢复通知中的至少一者,管理卡2_2在收到回切请求和第一恢复通知中的至少一者的情况下,管理卡2_2的回切模块使管理卡2_2停止向原本由管理卡2_1所管理的数据处理装置4下发任务,此外,管理卡2_1的查询模块26可以对归属表进行查询,从而确认管理卡2_2失去管理的数据处理装置4;
进而,在原本属于管理卡2_1所管理的数据处理装置4的任务结束后,回切模块25使管理卡2_2向原本属于管理卡2_1所管理的数据处理装置4下发回切命令或者由管理卡2_1向原本属于管理卡2_1所管理的数据处理装置4下发回切命令,使原本属于管理卡2_1所管理的数据处理装置4切换为由第一管理卡(例如,管理卡2_1或其它管理卡)进行管理。其中,原本属于管理卡2_1所管理的数据处理装置4可以基于自身存储的切换表或切换规则,来选择接管该数据处理装置4的第一管理卡(例如,管理卡2_1或其它管理卡)。该第一管理卡(例如,管理卡2_1或其它管理卡)可以是已经恢复正常的管理卡2_1,也可以是管理卡2_1之外的其它的管理卡。
其中,第一恢复通知和回切请求可以被承载在相同的消息中或者被承载在不同的消息中。此外,第一恢复通知可以在回切请求之前发送,或者,第一恢复通知可以与回切请求同时发送,或者,第一恢复通知可以在回切请求之后发送。
如图4所示,管理卡2还可以包括:复位模块27和状态监控模块28。
复位模块27与其它管理卡2连接,用于恢复或复位失效的其它管理卡2。例如,复位模块27基于看门狗电路或者其它的硬件电路,对失效的其它管理卡2进行恢复或复位。
状态监控及修复模块28具有如下功能中的至少一者:
监控管理卡2的状态和/或管理卡2所管理的数据处理装置4的状态;
修复该管理卡2所管理的数据处理装置中失效的数据处理装置4,例如,对于失效的数据处理装置4中的音频(audio)功能模块进行修复;
对管理卡2的故障进行修复,其中,管理卡2的故障包括软件故障和/或逻辑模块的硬件故障等。
在至少一个实施例中,状态监控及修复模块28可以自主地进行上述功能对应的操作,或者,可以在远端设备3或者服务器的控制下进行上述功能对应的操作。
此外,当数据处理装置4从失效状态恢复为正常状态时,可以向管理该数据处理装置4的管理卡发送恢复通知,该恢复通知用于指示:该数据处理装置4从失效状态恢复为正常状态。
如图4所示,管理卡2还可以包括:数据处理模块29。数据处理模块29能够进行数据处理,例如,数据处理模块29能够至少部分地执行数据处理装置4的数据处理。由此,管理卡2能够具有至少部分的数据处理能力。
在至少一个实施例中,如图4所示,管理卡2还可以包括:升级规则模块30。升级规则模块30可以存储升级规则。升级规则可以由远端设备3和/或通信分发装置1发送给管理卡2。
管理卡2可以根据升级规则选择数据处理装置4,并使数据处理装置4升级为管理卡,以管理其它的数据处理装置。升级规则例如是一个列表,按照优先级列出能够被升级为管理卡的数据处理装置4的信息等。
该预定条件例如可以是管理卡2的负荷超过阈值,或者管理卡2管理的数据处理装置4的数量超出预设值等。
例如,在预定条件下,管理卡2根据升级规则选择数据处理装置4,并向被选择的数据处理装置4发送升级命令,该升级命令用于指示被选择的数据处理装置4升级为管理卡以接管至少一个其它的数据处理装置。
在至少一个实施例中,如图4所示,管理卡2还可以包括:选举规则模块31。选举规则模块31可以为数据处理装置4配置选举规则。该选举规则用于从数据处理装置4中生成新的管理卡。例如,在没有通信分发装置1、管理卡2和远端设备3参与控制的情况下,一个数据处理装置4或多个数据处理装置4可以根据选举规则,选择至少一个数据处理装置4为新的管理卡,从而接管其它的数据处理装置4。选举规则例如是一个列表,按照优先级列出能够被升级为管理卡的数据处理装置4的信息等,根据该列表,可以从多个数据处理装置4中选出能够作为管理卡的数据处理装置4。
此外,在管理卡2为数据处理装置4配置选举规则失败时,可以向远端设备3和/或通信分发装置1发送选举规则配置失败消息。远端设备3和/或通信分发装置1可以根据选举规则配置失败消息,指示管理卡2再次为数据处理装置4配置选举规则,或者由远端设备3和/或通信分发装置1为数据处理装置4配置选举规则。
在至少一个实施例中,数据处理装置4有可能成为脱离管理的数据处理装置,即,不被任何管理卡2所管理的数据处理装置4。例如,数据处理装置4基于切换规则进行管理卡的切换时,系统100中的管理卡3都没有接管该数据处理装置4,由此,该数据处理装置4成为脱离管理的数据处理装置。
如果脱离管理的数据处理装置在预定时间内没有收到由远端设备3或通信分发装置1指定的管理卡有关的消息,和/或,脱离管理的数据处理装置在预定时间内没有收到升级命令,那么,该脱离管理的数据处理装置可以基于选举规则选择其它的数据处理装置作为新的管理卡并切换为由新的管理卡进行管理,或者,该脱离管理的数据处理装置被确定为新的管理卡以接管其它的脱离管理的数据处理装置。
在以上的说明中,管理卡2_1和管理卡2_2可以都具有图4所示的管理卡2的组成结构。
下面,对本申请的数据处理装置集群的管理系统100的一个工作原理进行说明。
图5是数据处理装置集群的管理系统100进行任务分发和结果反馈流程的一个示意图。
如图5所示,该流程包括:
操作501、通信分发装置1从远端设备3接收任务;
操作502、通信分发装置1基于第一分发规则、负载均衡算法以及管理卡2的状态中的至少一者,设置为管理卡分发的任务;
操作503、通信分发装置1向管理卡2分发任务,其中,管理卡2的数量可以是1个以上,例如,管理卡2的数量为N个,分别为管理卡2_1、管理卡2_2,……,管理卡2_N等,N为自然数;
操作504、管理卡2(例如,管理卡2_1)基于第二分发规则和/或数据处理装置4的状态,为各数据处理装置4设置分发的任务;
操作505、管理卡2将任务分发给该管理卡2所管理的数据处理装置4,例如,管理卡2_1将任务分发给管理卡2_1所管理的多个数据处理装置4(例如,数据处理装置4_1,数据处理装置4_2,……,数据处理装置4_K等,K为自然数);
操作506、数据处理装置4对收到的任务进行处理;
操作507、任务处理完成后,数据处理装置4将任务处理的结果发送给该数据处理装置4的管理卡2,例如,数据处理装置4_1将任务处理的结果发送给管理卡2_1;
操作508、管理卡2(例如,管理卡2_1)将收到的任务处理的结果发送给通信分发装置1;
操作509、通信分发装置1将收到的任务处理的结果发送给远端设备3。
图6是数据处理装置集群的管理系统100中切换管理卡的流程的一个示意图。在该示意图中,以“管理卡2_1失效,管理卡2_1管理的数据处理装置4_1被管理卡2_2接管”为例进行说明;该说明同样适用于其它的管理卡失效,或者失效的管理卡所管理的多个数据处理装置4被两个以上的其它管理卡2所接管的情形。
如图6所示,该流程包括:
操作601、数据处理装置4_1检测到管理该数据处理装置4_1的管理卡2_1失效,例如,在数据处理装置4_1与管理卡2_1通信未成功,或者管理卡2_1向数据处理装置4_1发送自身失效的通知消息等情况下,数据处理装置4_1能够检测为管理卡2_1失效,即,管理卡2_1无法正常工作,例如,无法进行任务分发等处理;
操作602、数据处理装置4_1根据其自身存储的切换规则,选择管理卡2_2作为数据处理装置4_1的新的管理卡,此外,数据处理装置4_1选择的管理卡的数量可以是2个以上;
操作603、数据处理装置4_1向选择的管理卡(其中包括管理卡2_2)发送选主信息,该选主信息用于请求该管理卡接管数据处理装置4_1;
操作604、管理卡2_2基于接收到的选主信息,或者管理卡2_2基于选主信息与管理卡2_2存储的切换规则,接管数据处理装置4_1,此外,管理卡2_2还可以接管管理卡2_1的任务。
例如,管理卡2_2接收到选主信息时,在管理卡2_2自身具有接管能力的情况下(例如,管理卡2_2具有能够管理8个数据处理装置4的能力,如果目前管理卡2_2已经管理了8个数据处理装置4,则管理卡2_2不具有接管数据处理装置4_1的能力,如果目前管理卡2_2已经管理了5个数据处理装置4,则管理卡2_2具有接管数据处理装置4_1的能力),管理卡2_2接管数据处理装置4_1,并且接管管理卡2_1的任务。
又例如,管理卡2_2接收到选主信息时,根据自身存储的切换规则判断是否可以接管数据处理装置4_1,如果判断为可以接管,则在管理卡2_2自身具有接管能力的情况下,管理卡2_2接管数据处理装置4_1,并且接管管理卡2_1的任务。
操作605、管理卡2_2向数据处理装置4_1发送确认消息,确认接管数据处理装置4_1;此外,如果管理卡2_2不进行接管,则向数据处理装置4_1发送拒绝接管应答,数据处理装置4_1等待其他的管理卡的接管;
操作606、数据处理装置4_1至少向管理卡2_2发送第一指示信息,该第一指示信息用于指示失效的管理卡2_1有关的信息;此外,数据处理装置4_1还可以将该第一指示信息发送给预定数量的其它管理卡2,该预定数量的其它管理卡与管理卡2_2可以构成管理卡群;在一个例子中,数据处理装置4_1向通信分发装置1的所有管理卡2_2都发送第一指示信息。
操作607、数据处理装置4_1发送第二指示信息,该第二指示信息用于表示管理卡2_2成为数据处理装置4_1的管理卡。其中,数据处理装置4_1可以将第二指示信息发送给管理卡2_2;或者,数据处理装置4_1可以将该第二指示信息发送给预定数量的管理卡2,该预定数量的管理卡可以包括管理卡2_2或者不包括管理卡2_2。在一个例子中,数据处理装置4_1向通信分发装置1的所有管理卡2_2都发送第二指示信息。
操作608、管理卡2_2向通信分发装置1和/或远端设备3发送与失效的管理卡2_1有关的信息;此外,远端设备3也可以主动查询各管理卡2的在位状态,从而识别出管理卡2_1失效。
操作609、数据处理装置4_1对接收到的任务进行处理,并将处理结果发送给管理卡2_2;
操作610、管理卡2_2向远端设备3发送数据处理装置4_1的任务处理结果。
例如,当数据处理装置4_1的任务成功完成时,管理卡2_2将数据处理装置4_1完成的任务处理结果(例如,渲染后的图像数据等)发送给远端设备3;
又例如,当数据处理装置4_1的任务未成功完成时,管理卡2_2可以向远端设备3和/或通信分发装置1反馈用于指示任务失败的消息;远端设备3和/或通信分发装置1可以对该未完成的任务重新进行分发,重新分发后,该任务有可能被重新分发给数据处理装置4_1,也可能被重新分发给其他的数据处理装置4。
图7是数据处理装置集群的管理系统100中管理卡回切的流程的一个示意图。在该示意图所示的流程基于“管理卡2_1失效,管理卡2_1管理的数据处理装置4_1被管理卡2_2接管”这样的前提,并且,该示意图以“管理卡2_1从失效恢复为正常,由管理卡2_2接管的数据处理装置4_1切换为由第一管理卡进行管理,其中,该第一管理卡是恢复为正常的管理卡2_1或其他管理卡”为例进行说明,其中,数据处理装置4_1也被称为第一数据数据处理装置。
如图7所示,该流程包括:
操作701、管理卡2_1从失效状态恢复为正常状态;
操作702、管理卡2_1向管理卡2_2发送回切请求和第一恢复通知中的至少一者,其中,该回切请求用于指示管理卡2_2释放(或停止)对数据处理装置4_1的管理,该第一恢复通知用于指示管理卡2_1从失效状态恢复为正常状态;
在操作702中,该回切请求和第一恢复通知可以被承载在相同的消息中进行发送,例如,回切请求和第一恢复通知合并为一个消息(例如,该消息的不同字节可以分别表示回切请求和第一恢复通知)进行发送。又例如,回切请求和第一恢复通知可以被承载在不同的消息中进行发送。
操作703、管理卡2_2在接收到回切请求和第一恢复通知中的至少一者后,停止向数据处理装置4_1下发任务。例如:管理卡2_2在接收到回切请求后,停止向数据处理装置4_1下发任务;或者,管理卡2_2在接收到第一恢复通知后,停止向数据处理装置4_1下发任务;或者,管理卡2_2在接收到第一恢复通知以及回切请求这二者后,停止向数据处理装置4_1下发任务。
操作704、数据处理装置4_1完成所有任务后(例如,数据处理装置4_1完成所有任务并且空闲的情况下),向管理卡2_2发送任务完成通知;此外,数据处理装置4_1还可以将该任务完成通知发送给管理卡2_1;
操作705、在数据处理装置4_1完成所有任务的情况下,管理卡2_2向数据处理装置4_1发送回切命令,以指示该数据处理装置4_1切换为由第一管理卡进行管理。
此外,在操作705的其它实施方式中,可以由管理卡2_1向数据处理装置4_1发送回切命令:例如,管理卡2_2在收到数据处理装置4_1的任务完成通知后,向管理卡2_1通知数据处理装置4_1的任务已完成,然后,管理卡2_1向数据处理装置4_1发送回切命令;又例如,管理卡2_1在收到数据处理装置4_1的任务完成通知后,管理卡2_1向数据处理装置4_1发送回切命令。
操作706、数据处理装置4_1在收到回切命令的情况下,根据数据处理装置4_1存储的切换规则,选择将要回切到哪个管理卡。例如,查询存储在数据处理装置4_1中的切换规则(例如,切换规则可以是表的形式),结合管理卡的列表,选择将要回切到哪个管理卡。
操作707、数据处理装置4_1回切到选择的管理卡(例如,管理卡2_1),即,数据处理装置4_1成为由选择的管理卡(例如,管理卡2_1)进行接管。
例如,在操作707中,数据处理装置4_1可以向管理卡2_1发出消息以请求回切到由管理卡2_1进行接管,如果管理卡2_1同意(例如,管理卡2_1根据数据处理装置4_1发送的消息可以判断该数据处理装置4_1之前是由管理卡2_1进行管理的,因而同意重新接管对数据处理装置4_1),那么由管理卡2_1重新接管数据处理装置4_1,即,数据处理装置4_1 从由管理卡2_2接管回切为由管理卡2_1接管。
此外,在至少一个实施例中,数据处理装置4_1可以维护(例如,存储和更新)一个管理卡的列表,如果选择的将要回切到的管理卡(例如,管理卡2_1)由于某些原因没有接管数据处理装置4_1,则数据处理装置4_1可以按照切换规则选择下一个将要回切到的管理卡,继续之前过程直至成功(即,被第一管理卡接管);如果数据处理装置4_1没有被任何一个管理卡接管,那么数据处理装置4_1可以上报失败消息给预定的管理卡(例如,所有的管理卡),通过管理卡告知或数据处理装置4_1告知远端设备3:该数据处理装置4_1需要被分配管理卡。随后,远端设备3可以根据实际情况为数据处理装置4_1指定新的管理卡作为第一管理卡。
操作708、在数据处理装置4_1回切到第一管理卡的情况下,数据处理装置4_1至少向管理卡2_2发送切换成功消息,该切换成功消息用于表示该数据处理装置4_1成功切换为由第一管理卡(例如,管理卡2_1)进行管理;此外,在另一些实施例中,数据处理装置4_1也可以向预定的多个管理卡2(例如,该预定的多个管理卡2可以组成管理卡群,并且包括管理卡2_1)发送切换成功消息;
操作709、在数据处理装置4_1回切到第一管理卡的情况下,管理卡2_2向该第一管理卡(例如,管理卡2_1)发送切换状态消息,该切换状态消息用于指示:从由管理卡2_2管理切换为由第一管理卡管理的第一数据处理装置的数量。此外,切换状态消息还可以包括第一数据处理装置的其它信息。此外,在操作709中,管理卡2_2还可以向该第一管理卡之外的管理卡发送切换状态消息,例如,管理卡2_2可以向包括第一管理卡的管理卡群组发送该切换状态消息,或者,管理卡2_2可以向通信分发装置1管理的所有管理卡发送该切换状态消息。
操作710、从失效状态恢复为正常状态的管理卡2_1可以向远端设备3和/或通信分发装置1发送上线报告消息,该上线报告消息用于指示:管理卡2_1从失效状态恢复为正常状态。由此,远端设备3和/或通信分发装置1能够确认管理卡2_1恢复正常,从而为管理卡2_1分发任务。此外,远端设备3和/或通信分发装置1能够主动查询管理卡2_1的状态,从而确认管理卡2_1恢复正常。
图8是数据处理装置集群的管理系统100中规则配置流程的一个示意图。如图8所示,该流程包括:
操作801、为通信分发装置1配置第一分发规则,为管理卡2配置第二分发规则;
操作802、判断配置第一分发规则和第二分发规则是否成功,判断为是,则进行到操作803,否则进行到操作805;
操作803、为管理卡2和/或数据处理装置4配置切换规则;
操作804、判断为管理卡2和/或数据处理装置4配置切换规则是否成功,判断为是,则结束,否则进行到操作805;
操作805、将配置异常消息上报给通信分发装置1和/或远端设备3。
图9是数据处理装置集群的管理系统100中进行管理卡复位的流程的一个示意图。如图9所示,该流程包括:
操作901、未失效的管理卡2的复位模块对出现故障的管理卡2的软件故障和/或硬件故障进行复位;
操作902、出现故障的管理卡2的看门狗模块对该管理卡2进行复位。
上面的图6和图7说明了管理系统100在通常情况下对数据处理装置集群的控制方法。
图10是数据处理装置集群的管理系统100进行控制的方法的一个示意图,对应于数据处理装置升级为管理卡的流程。如图10所示,该流程包括:
操作1001、管理卡2接收通信分发装置1和/或远端设备3发送的升级规则;
此外,如果管理卡2没有收到该升级规则,可以向通信分发装置1和/或远端设备3发送升级规则配置失败消息;
操作1002、通信分发装置1接收远端设备3的任务,并分发任务;
操作1003、管理卡2接收通信分发装置1分发的任务;
操作1004、管理卡2向管理卡2所管理的数据处理装置4分发任务;
操作1005、在预定条件下(例如,管理卡2管理的数据处理装置4的数量超过预定值),管理卡2或远端设备3选择数据处理装置4(例如,数据处理装置4_1),并向被选择的数据处理装置(例如,数据处理装置4_1)发送升级命令,该升级命令用于指示被选择的数据处理装置(例如,数据处理装置4_1)升级为管理卡以接管至少一个其它的数据处理装置(例如,数据处理装置4_2);
操作1006、被选择的数据处理装置(例如,数据处理装置4_1)根据升级命令,升级为管理卡;
操作1007、被选择的数据处理装置(例如,数据处理装置4_1)升级为管理卡后,接管至少一个其它的数据处理装置(例如,数据处理装置4_2)。
在操作1007之后的操作中,升级为管理卡的数据处理装置(例如,数据处理装置4_1)接收通信发发装置1分发的任务,并将任务分发给数据处理装置4_2等。
图11是数据处理装置集群的管理系统100进行控制的方法的另一个示意图,对应于为数据处理装置指定管理卡的流程。如图11所示,该流程包括:
操作1101、数据处理装置4(例如,数据处理装置4_1)在根据切换规则(例如,切换规则参见图6、图7的相关说明)切换管理卡失败时,该数据处理装置4(例如,数据处理装置4_1)向未失效的管理卡(例如,管理卡2_3)、远端设备3和通信分发装置1中的至少一者发送切换失败消息;其中,数据处理装置4(例如,数据处理装置4_1)成为脱离管理的数据处理装置;
操作1102、远端设备3或通信分发装置1根据切换失败消息,为数据处理装置4(例如,数据处理装置4_1)指定(例如,选择)用于管理该数据处理装置的管理卡2(例如,指定的管理卡为管理卡2_4);
操作1103、远端设备3或通信分发装置1向指定的管理卡(例如,管理卡2_4)发送指定消息,以指示该指定的管理卡接管脱离管理的数据处理装置4(例如,数据处理装置4_1);此外,远端设备3或通信分发装置1还可以将指定的管理卡(例如,管理卡2_4)的有关信息发送给脱离管理的数据处理装置4(例如,数据处理装置4_1);
操作1104、指定的管理卡(例如,管理卡2_4)接管脱离管理的数据处理装置4(例如,数据处理装置4_1);
操作1105、被接管的数据处理装置4(例如,数据处理装置4_1)向指定的管理卡(例如,管理卡2_4)发送被接管成功消息。
在上述的操作1101中,数据处理装置切换管理卡失败,包括:
在数据处理装置的管理卡失效的情况下,数据处理装置基于切换规则,切换到正常的管理卡时失败(例如,图6所示的流程失败);或者,在失效的管理卡恢复正常的情况下,脱离该失效的管理卡管理的数据处理装置基于切换规则,切换到恢复正常的管理卡或其它的管理卡时失败(例如,图7所示的流程失败)。
在上述的操作1101中,如果切换失败消息没有被发送给远端设备3或通信分发装置1,而是被发送给了未失效的管理卡(例如,管理卡2_3),那么,未失效的管理卡(例如,管理卡2_3)可以将切换失败消息转发给远端设备3或通信分发装置1,由此,远端设备3或通信分发装置1能够收到该切换失败消息。
在上述的操作1102中,远端设备3或通信分发装置1指定的管理卡包括:原有的管理卡,其中,原有的管理卡例如在数据处理装置集群的管理系统100初始化时就被配置为管理卡;和/或,基于升级命令从数据处理装置升级而形成的管理卡(例如,图10所示的流程而形成的管理卡)或基于选举规则从数据处理装置升级而形成的管理卡(例如,下面的图12所示的流程而形成的管理卡)。
图12是数据处理装置集群的管理系统100进行控制的方法的再一个示意图,对应于数据处理装置基于选举规则而成为管理卡的流程。如图12所示,该流程包括:
操作1201、管理卡2为数据处理装置4(例如,数据处理装置4_1和4_2)配置选举规则;
此外,如果管理卡2为数据处理装置4配置该选举规则失败时,可以向远端设备3和/或通信分发装置1发送选举规则配置失败消息(参见操作1201A);
操作1202、部分数据处理装置4(例如,数据处理装置4_1和4_2)成为脱离管理的数据处理装置;
操作1203、脱离管理的数据处理装置4(例如,数据处理装置4_1和4_2)在预定时间内没有收到与远端设备3或通信分发装置1指定的管理卡有关的消息,和/或,脱离管理的数据处理装置4(例如,数据处理装置4_1和4_2)在预定时间内没有收到升级命令;
操作1204、脱离管理的数据处理装置4(例如,数据处理装置4_1和4_2)基于选举规则,从脱离管理的数据处理装置4(例如,数据处理装置4_1和4_2)中选出新的管理卡,例如,数据处理装置4_1被选为新的管理卡;
操作1205、被选出的新的管理卡(例如,数据处理装置4_1)接管其它的数据处理装置4(例如,数据处理装置4_2)。
在操作1205之后的操作中,成为新的管理卡的数据处理装置(例如,数据处理装置4_1)接收通信发发装置1分发的任务,并将任务分发给数据处理装置4_2等。
第一方面的实施例对数据处理装置集群的管理系统100的构成和工作原理进行了说明,该管理系统100能够实现对数据处理装置集群的高可靠性管理框架,从而提高数据处理装置集群的可靠性。
第二方面的实施例
第二方面的实施例提供一种数据处理装置。该数据处理装置例如是第一方面实施例中所述的数据处理装置4。
图13是数据处理装置4的一个示意图。如图13所示,数据处理装置4至少包括处理模块41和控制模块42。
其中,处理模块41进行数据处理,例如,图像渲染,音频处理,视频处理等。控制模块42对该数据处理装置4的操作进行控制。
在至少一个实施例中,控制模块42能够控制数据处理装置4执行如下的操作:
检测到管理该数据处理装置4的管理卡2(例如,管理卡2_1)失效时,基于切换规则选择管理系统100中的其它管理卡(例如,管理卡2_2),并至少向该其它管理卡发送选主信息,该选主信息请求该其它管理卡接管该数据处理装置4;以及
至少向该其它管理卡发送第一指示信息,该第一指示信息用于指示失效的管理卡(例如,管理卡2_1)的信息。
此外,控制模块42控制数据处理装置4还执行如下的操作:
在该其它管理卡(例如,管理卡2_2)接管了该数据处理装置4的情况下,向该其它管理卡(例如,管理卡2_2)发送对于任务的处理结果。
在至少另一个实施例中,控制模块42能够控制数据处理装置4执行如下的操作:
接收管理卡(例如,管理卡2_2)发送的回切命令,该回切命令指示数据处理装置4切换为由第一管理卡(例如,管理卡2_1)进行管理;以及
数据处理装置4基于切换规则切换为由第一管理卡(例如,管理卡2_1)进行管理。
其中,数据处理装置4在完成已经被分发的任务后,接收该回切命令。
数据处理装置4基于切换规则切换为由第一管理卡(例如,管理卡2_1)管理的情况下,数据处理装置4至少向在数据处理装置4_1回切到第一管理卡的情况下,数据处理装置4至少向管理卡2_2发送切换成功消息,该切换成功消息用于表示该数据处理装置4成功切换为由第一管理卡(例如,管理卡2_1)进行管理;此外,数据处理装置4也可以向预定的多个管理卡2(例如,该预定的多个管理卡2可以组成管理卡群,并且包括管理卡2_1)发送切换成功消息。
此外,数据处理装置4还可以向远端设备3发送恢复通知,该恢复通知用于指示,该数据处理装置4从失效状态恢复为正常状态。
在至少一个实施例中,控制模块42可以控制数据处理装置4执行如下的操作:
数据处理装置4基于管理卡2或远端设备3发送的升级命令升级为管理卡以接管至少一个其它的数据处理装置4;和/或
数据处理装置4接收为该数据处理装置4指定的管理卡有关的信息;和/或
数据处理装置4基于选举规则,选择其它的数据处理装置作为新的管理卡,并切换为由新的管理卡进行管理,或者,数据处理装置4基于选举规则被确定为新的管理卡,并接管其它的数据处理装置。
关于第二方面的实施例中数据处理装置的详细说明,可以参考第一方面的实施例中的相关说明。
第三方面的实施例
第三方面的实施例提供一种远端设备。该远端设备例如是第一方面实施例中所述的远端设备3。
图14是远端设备3的一个示意图。远端设备3例如可以是计算机、服务器、工作站、膝上型计算机、智能手机,等等;但本申请实施例不限于此。
图14是远端设备3的一个示意图。如图14所示,远端设备1400可以包括:处理器(例如中央处理器CPU)1410和存储器1420;存储器1420耦合到中央处理器1410。其中该存储器1420可存储各种数据;此外还存储信息处理的程序1421,并且在处理器1410的控制下执行该程序1421。
在至少一个实施例中,远端设备1400被配置为进行如下的操作:
向数据处理装置集群的管理系统100下发第一分发规则、第二分发规则、切换规则中的至少一者,其中,第一分发规则用于所述管理系统的通信分发装置1向管理卡2分发任务,第二分发规则用于管理卡2向数据处理装置4分发任务,切换规则用于数据处理装置4切换管理卡2。
在至少一个实施例中,远端设备1400还被配置为具有如下功能的至少之一:
配置管理卡2与数据处理装置4之间的管理关系;
为数据处理装置集群40中的数据处理装置4分组;
查询管理卡2是否在位。
在至少一个实施例中,远端设备1400还被配置为:接收数据处理装置4发送的恢复通知,该恢复通知用于指示,该数据处理装置4从失效状态恢复为正常状态。
在至少一个实施例中,远端设备1400还被配置为:修复和/或复位管理系统100中的管理卡2和/或数据处理装置集群40中的数据处理装置40。
在至少一个实施例中,远端设备1400可以被配置为:
向数据处理装置集群的管理系统100下发升级规则和/或选举规则,其中,升级规则用于管理系统的管理卡选择数据处理装置并将其升级为管理卡,选举规则用于从数据处理装置中生成新的管理卡;和/或
为数据处理装置指定用于管理该数据处理装置的管理卡。
此外,如图14所示,远端设备1400还可以包括:输入输出(I/O)设备1430和显示器1440等;其中,上述部件的功能与现有技术类似,此处不再赘述。值得注意的是,主机1400也并不是必须要包括图14中所示的所有部件;此外,远端设备1400还可以包括图14中没有示出的部件,可以参考相关技术。
第四方面的实施例
第四方面的实施例提供一种数据处理装置集群的控制方法,对应于第一方面实施例中数据处理装置集群的管理系统100的操作。
图15是数据处理装置集群的控制方法的一个示意图。如图15所示,该控制方法包括:
操作1501、通信分发装置接收远端设备的任务,并分发任务;以及
操作1502、管理卡接收所述通信分发装置分发的任务,并向所述管理卡所管理的数据处理装置分发任务。
如图15所示,该方法还包括:
操作1503、在预定条件下,所述管理卡或所述远端设备选择数据处理装置,并向被选择的数据处理装置发送升级命令,所述升级命令用于指示被选择的数据处理装置升级为管理卡以接管至少一个其它的数据处理装置;和/或
操作1504、所述远端设备或所述通信分发装置为脱离管理的数据处理装置 指定用于管理该数据处理装置的所述管理卡。
关于图15所示的控制方法的进一步说明,可以参考第一方面的实施例的相关说明。
图16是数据处理装置集群的控制方法的另一个示意图。如图16所示,该控制方法应用于管理卡2,该控制方法包括:
操作1601、所述管理卡接收所述通信分发装置分发的任务,并向所述管理卡所管理的数据处理装置分发任务; 以及
操作1602、在预定条件下,所述管理卡选择数据处理装置,并向被选择的数据处理装置发送升级命令,所述升级命令用于指示被选择的数据处理装置升级为管理卡以接管至少一个其它的数据处理装置。
关于图16所示的控制方法的进一步说明,可以参考第一方面的实施例的说明。
图17是数据处理装置集群的控制方法的又一个示意图。如图17所示,该控制方法应用于通信分发装置1,该控制方法包括:
操作1701、所述通信分发装置接收远端设备的任务,并向管理卡分发任务;以及
操作1702、所述通信分发装置向管理卡发送升级规则。
关于图17所示的控制方法的进一步说明,可以参考第一方面的实施例的说明。
第四方面的实施例还提供一种数据处理装置的控制方法。
图18是数据处理装置的控制方法的一个示意图。如图18所示,该控制方法应用于数据处理装置4,该控制方法包括:
操作1801、数据处理装置基于管理卡或远端设备发送的升级命令升级为管理卡以接管至少一个其它的数据处理装置;和/或
操作1802、所述数据处理装置接收为所述数据处理装置指定的管理卡有关的信息;和/或
操作1803、所述数据处理装置基于所述选举规则,选择其它的数据处理装置作为新的管理卡,并切换为由所述新的管理卡进行管理,或者,所述数据处理装置基于所述选举规则被确定为新的管理卡,并接管其它的数据处理装置。
关于图18所示的控制方法的进一步说明,可以参考第一方面的实施例的说明。
第四方面的实施例还提供一种远端设备的控制方法。
图19是远端设备的控制方法的一个示意图。如图19所示,该控制方法应用于远端设备3,该控制方法包括:
1901、远端设备向所述数据处理装置集群的管理系统下发升级规则和/或选举规则,其中,所述升级规则用于所述管理系统的管理卡将选择的数据处理装置升级为管理卡,所述选举规则用于从数据处理装置中生成新的管理卡;和/或
1902、所述远端设备为脱离管理的数据处理装置指定用于管理该数据处理装置的管理卡。
关于图19所示的远端设备的控制方法,可以参考第一方面的实施例中对于远端设备3的说明。
本申请的实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第四方面的实施例中的方法。
本申请的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第四方面的实施例中的方法。
本申请的实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现第四方面的实施例中的方法。
本申请各实施例的技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (33)

1.一种数据处理装置集群的控制方法,其特征在于,所述控制方法由管理系统执行,所述管理系统包括通信分发装置和管理卡,所述控制方法包括:
所述通信分发装置接收远端设备的任务,并分发任务;以及
所述管理卡接收所述通信分发装置分发的任务,并向所述管理卡所管理的数据处理装置分发任务,
其中,所述控制方法还包括:
在预定条件下,所述管理卡或所述远端设备选择数据处理装置,并向被选择的数据处理装置发送升级命令,所述升级命令用于指示被选择的数据处理装置升级为管理卡以接管至少一个其它的数据处理装置;和
所述远端设备或所述通信分发装置将其它的所述管理卡指定为用于管理脱离管理的数据处理装置的管理卡,
其中,所述通信分发装置包括:
第一通信模块,其与所述管理卡和所述远端设备通信;
第一分发规则模块,其存储第一分发规则;以及
负载均衡模块,其基于所述第一分发规则、负载均衡算法以及所述管理卡的状态中的至少一者,设置为所述管理卡分发的任务,
其中,所述第一分发规则由所述远端设备配置或者由所述通信分发装置配置,
所述管理卡包括:
第二通信模块,其与所述通信分发装置和所述数据处理装置通信;
分发切换规则模块,其存储第二分发规则;以及
任务分发模块,其基于所述第二分发规则和/或所述数据处理装置的状态,设置为所述数据处理装置分发的任务,
其中,所述第二分发规则由所述远端设备配置、或者由所述通信分发装置配置、或者由所述分发切换规则模块配置。
2.如权利要求1所述的控制方法,其特征在于,所述控制方法还包括:
所述管理卡还接收所述通信分发装置和/或所述远端设备发送的升级规则,
所述管理卡根据所述升级规则选择数据处理装置。
3.如权利要求1所述的控制方法,其特征在于,所述控制方法还包括:
所述数据处理装置在根据切换规则切换管理卡失败时,所述数据处理装置向未失效的管理卡、远端设备和通信分发装置中的至少一者发送切换失败消息,
其中,所述远端设备或所述通信分发装置根据所述切换失败消息,为所述数据处理装置指定用于管理该数据处理装置的所述管理卡。
4.如权利要求3所述的控制方法,其特征在于,
所述数据处理装置切换管理卡失败,包括:
在所述数据处理装置的管理卡失效的情况下,所述数据处理装置基于切换规则,切换到正常的管理卡时失败;或者
在失效的管理卡恢复正常的情况下,脱离所述失效的管理卡管理的所述数据处理装置基于切换规则,切换到恢复正常的管理卡或其它的管理卡时失败。
5.如权利要求1所述的控制方法,其特征在于,所述控制方法还包括:
在指定的所述管理卡接管了所述数据处理装置的情况下,该指定的所述管理卡接收所述数据处理装置发送的被接管成功消息。
6.如权利要求1所述的控制方法,其特征在于,
所述远端设备或所述通信分发装置指定的管理卡包括:
原有的管理卡,和/或,基于所述升级命令或选举规则从数据处理装置升级而形成的管理卡。
7.如权利要求1所述的控制方法,其特征在于,所述控制方法还包括:
所述管理卡为所述数据处理装置配置选举规则,
所述选举规则用于从数据处理装置中生成新的管理卡。
8.如权利要求7所述的控制方法,其特征在于,所述控制方法还包括:
所述管理卡为所述数据处理装置配置所述选举规则失败时,向所述远端设备和/或所述通信分发装置发送选举规则配置失败消息。
9.如权利要求7所述的控制方法,其特征在于,所述控制方法还包括:
脱离管理的数据处理装置基于所述选举规则,选择其它的数据处理装置作为新的管理卡,并切换为由所述新的管理卡进行管理;或者,
脱离管理的数据处理装置基于所述选举规则被确定为所述新的管理卡,并接管其它的数据处理装置。
10.如权利要求7所述的控制方法,其特征在于,
所述脱离管理的数据处理装置在预定时间内没有收到由所述远端设备或所述通信分发装置指定的管理卡有关的消息的情况下,和/或,所述脱离管理的数据处理装置在预定时间内没有收到所述升级命令的情况下,
所述脱离管理的数据处理装置选择其它的数据处理装置作为新的管理卡,或者,所述脱离管理的数据处理装置被确定为新的管理卡。
11.一种数据处理装置集群的控制方法,应用于管理卡,其特征在于,所述管理卡与通信分发装置连接,接收所述通信分发装置分发的任务,并通过接口电路向所述管理卡所管理的至少一个数据处理装置分发任务,所述控制方法包括:
所述管理卡接收通信分发装置分发的任务,并向所述管理卡所管理的数据处理装置分发任务;以及
在预定条件下,所述管理卡选择数据处理装置,并向被选择的数据处理装置发送升级命令,所述升级命令用于指示被选择的数据处理装置升级为管理卡以接管至少一个其它的数据处理装置,
所述控制方法还包括:
所述管理卡还接收所述通信分发装置和/或远端设备发送的指定消息,
所述指定消息用于指定该管理卡接管脱离管理的数据处理装置,
所述管理卡包括:
第二通信模块,其与所述通信分发装置和所述数据处理装置通信;
分发切换规则模块,其存储第二分发规则;以及
任务分发模块,其基于所述第二分发规则和/或所述数据处理装置的状态,设置为所述数据处理装置分发的任务,
其中,所述第二分发规则由所述远端设备配置、或者由所述通信分发装置配置、或者由所述分发切换规则模块配置。
12.如权利要求11所述的控制方法,其特征在于,所述控制方法包括:
所述管理卡还接收所述通信分发装置和/或远端设备发送的升级规则,
所述管理卡根据所述升级规则选择数据处理装置。
13.如权利要求11所述的控制方法,其特征在于,所述控制方法包括:
在所述管理卡接管了脱离管理的数据处理装置的情况下,所述管理卡接收该数据处理装置发送的被接管成功消息。
14.如权利要求11所述的控制方法,其特征在于,所述控制方法包括:
所述管理卡为所述数据处理装置配置选举规则,
所述选举规则用于从数据处理装置中生成新的管理卡。
15.如权利要求11所述的控制方法,其特征在于,所述控制方法包括:
所述管理卡为所述数据处理装置配置选举规则失败时,向远端设备和/或所述通信分发装置发送选举规则配置失败消息。
16.一种数据处理装置集群的控制方法,应用于通信分发装置,其特征在于,所述控制方法包括:
所述通信分发装置接收远端设备的任务,并向管理卡分发任务;以及
所述通信分发装置向管理卡发送升级规则,
其中,所述升级规则用于选择升级为管理卡的数据处理装置,
所述控制方法还包括:
所述通信分发装置为脱离管理的数据处理装置指定用于管理该数据处理装置的所述管理卡,
其中,所述通信分发装置包括:
第一通信模块,其与所述管理卡和所述远端设备通信;
第一分发规则模块,其存储第一分发规则;以及
负载均衡模块,其基于所述第一分发规则、负载均衡算法以及所述管理卡的状态中的至少一者,设置为所述管理卡分发的任务,
其中,所述第一分发规则由所述远端设备配置或者由所述通信分发装置配置。
17.如权利要求16所述的控制方法,其特征在于,所述控制方法还包括:
所述通信分发装置接收脱离管理的数据处理装置切换管理卡失败的切换失败消息,
其中,所述通信分发装置根据所述切换失败消息,为所述数据处理装置指定用于管理该数据处理装置的所述管理卡。
18.如权利要求16所述的控制方法,其特征在于,
所述通信分发装置指定的管理卡包括:
原有的管理卡,和/或,基于升级命令或选举规则从数据处理装置升级而形成的管理卡。
19.如权利要求16所述的控制方法,其特征在于,所述控制方法还包括:
所述通信分发装置接收管理卡发送的选举规则配置失败消息,
所述选举规则配置失败消息用于指示所述管理卡为所述数据处理装置配置选举规则失败,
所述选举规则用于从数据处理装置中生成新的管理卡。
20.一种数据处理装置的控制方法,应用于数据处理装置,其特征在于,所述数据处理装置与管理系统通信,所述管理系统包括通信分发装置和管理卡,所述控制方法包括:
所述数据处理装置基于所述管理卡或远端设备发送的升级命令升级为管理卡以接管至少一个其它的数据处理装置;和
所述数据处理装置接收为所述数据处理装置指定的管理卡有关的信息,
其中,所述通信分发装置包括:
第一通信模块,其与所述管理卡和所述远端设备通信;
第一分发规则模块,其存储第一分发规则;以及
负载均衡模块,其基于所述第一分发规则、负载均衡算法以及所述管理卡的状态中的至少一者,设置为所述管理卡分发的任务,
其中,所述第一分发规则由所述远端设备配置或者由所述通信分发装置配置,
所述管理卡包括:
第二通信模块,其与所述通信分发装置和所述数据处理装置通信;
分发切换规则模块,其存储第二分发规则;以及
任务分发模块,其基于所述第二分发规则和/或所述数据处理装置的状态,设置为所述数据处理装置分发的任务,
其中,所述第二分发规则由所述远端设备配置、或者由所述通信分发装置配置、或者由所述分发切换规则模块配置。
21.如权利要求20所述的控制方法,其特征在于,所述方法还包括:
所述数据处理装置基于选举规则,选择其它的数据处理装置作为新的管理卡,并切换为由所述新的管理卡进行管理,或者,所述数据处理装置基于所述选举规则被确定为新的管理卡,并接管其它的数据处理装置。
22.如权利要求20所述的控制方法,其特征在于,所述方法还包括:
所述数据处理装置在根据切换规则切换管理卡失败时,所述数据处理装置向未失效的管理卡、远端设备和通信分发装置中的至少一者发送切换失败消息。
23.如权利要求20所述的控制方法,其特征在于,所述方法还包括:
在所述数据处理装置被指定的管理卡接管的情况下,
所述数据处理装置向指定的管理卡发送被接管成功消息。
24.如权利要求20所述的控制方法,其特征在于,所述方法还包括:
所述数据处理装置被配置选举规则,
所述选举规则用于从数据处理装置中生成新的管理卡。
25.如权利要求24所述的控制方法,其特征在于,
脱离管理的数据处理装置在预定时间内没有收到由所述远端设备或通信分发装置指定的管理卡有关的消息的情况下,和/或,所述脱离管理的数据处理装置在预定时间内没有收到所述升级命令的情况下,
所述脱离管理的数据处理装置基于所述选举规则选择其它的数据处理装置作为新的管理卡,或者,所述脱离管理的数据处理装置基于所述选举规则被确定为新的管理卡。
26.一种远端设备的控制方法,应用于远端设备,所述远端设备与数据处理装置集群的管理系统通信,其特征在于,所述管理系统包括通信分发装置和管理卡,所述控制方法包括:
所述远端设备向所述数据处理装置集群的管理系统下发升级规则和/或选举规则,其中,所述升级规则用于所述管理系统的管理卡将选择的数据处理装置升级为管理卡,所述选举规则用于从数据处理装置中生成新的管理卡;和
所述远端设备为脱离管理的数据处理装置指定用于管理该数据处理装置的管理卡,
其中,所述通信分发装置包括:
第一通信模块,其与所述管理卡和所述远端设备通信;
第一分发规则模块,其存储第一分发规则;以及
负载均衡模块,其基于所述第一分发规则、负载均衡算法以及所述管理卡的状态中的至少一者,设置为所述管理卡分发的任务,
其中,所述第一分发规则由所述远端设备配置或者由所述通信分发装置配置,
所述管理卡包括:
第二通信模块,其与所述通信分发装置和所述数据处理装置通信;
分发切换规则模块,其存储第二分发规则;以及
任务分发模块,其基于所述第二分发规则和/或所述数据处理装置的状态,设置为所述数据处理装置分发的任务,
其中,所述第二分发规则由所述远端设备配置、或者由所述通信分发装置配置、或者由所述分发切换规则模块配置。
27.如权利要求26所述的控制方法,其特征在于,所述控制方法还包括:
所述远端设备接收切换失败消息,
其中,
所述切换失败消息用于指示所述数据处理装置在根据切换规则切换管理卡时失败,
所述远端设备根据所述切换失败消息,为所述数据处理装置指定用于管理该数据处理装置的所述管理卡。
28.如权利要求26所述的控制方法,其特征在于,所述控制方法还包括:
在预定条件下,所述远端设备选择数据处理装置,并向被选择的数据处理装置发送升级命令,所述升级命令用于指示被选择的数据处理装置升级为管理卡以接管至少一个其它的数据处理装置。
29.一种数据处理装置,其特征在于,所述数据处理装置与管理系统通信,所述管理系统包括通信分发装置和管理卡,所述数据处理装置包括处理模块和控制模块,所述控制模块控制所述数据处理装置执行如下的步骤:
所述数据处理装置基于管理卡或远端设备发送的升级命令升级为管理卡以接管至少一个其它的数据处理装置;和
所述数据处理装置接收为所述数据处理装置指定的管理卡有关的信息,
其中,所述通信分发装置包括:
第一通信模块,其与所述管理卡和远端设备通信;
第一分发规则模块,其存储第一分发规则;以及
负载均衡模块,其基于所述第一分发规则、负载均衡算法以及所述管理卡的状态中的至少一者,设置为所述管理卡分发的任务,
其中,所述第一分发规则由所述远端设备配置或者由所述通信分发装置配置,
所述管理卡包括:
第二通信模块,其与所述通信分发装置和所述数据处理装置通信;
分发切换规则模块,其存储第二分发规则;以及
任务分发模块,其基于所述第二分发规则和/或所述数据处理装置的状态,设置为所述数据处理装置分发的任务,
其中,所述第二分发规则由所述远端设备配置、或者由所述通信分发装置配置、或者由所述分发切换规则模块配置。
30.如权利要求29所述的数据处理装置,其特征在于,
所述数据处理装置基于选举规则,选择其它的数据处理装置作为新的管理卡,并切换为由所述新的管理卡进行管理,或者,所述数据处理装置基于所述选举规则被确定为新的管理卡,并接管其它的数据处理装置。
31.一种远端设备,其与数据处理装置集群的管理系统通信,其特征在于,所述管理系统包括通信分发装置和管理卡,所述远端设备被配置为:
向所述数据处理装置集群的管理系统下发升级规则和/或选举规则,其中,所述升级规则用于所述管理系统的管理卡将选择的数据处理装置升级为管理卡,所述选举规则用于从数据处理装置中生成新的管理卡;和
为数据处理装置指定用于管理该数据处理装置的管理卡,
其中,所述通信分发装置包括:
第一通信模块,其与所述管理卡和远端设备通信;
第一分发规则模块,其存储第一分发规则;以及
负载均衡模块,其基于所述第一分发规则、负载均衡算法以及所述管理卡的状态中的至少一者,设置为所述管理卡分发的任务,
其中,所述第一分发规则由所述远端设备配置或者由所述通信分发装置配置,
所述管理卡包括:
第二通信模块,其与所述通信分发装置和所述数据处理装置通信;
分发切换规则模块,其存储第二分发规则;以及
任务分发模块,其基于所述第二分发规则和/或所述数据处理装置的状态,设置为所述数据处理装置分发的任务,
其中,所述第二分发规则由所述远端设备配置、或者由所述通信分发装置配置、或者由所述分发切换规则模块配置。
32.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至28中的任一项所述的控制方法。
33.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至28中的任一项所述的控制方法。
CN202310010835.4A 2023-01-05 2023-01-05 数据处理装置集群的控制方法 Active CN115934358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310010835.4A CN115934358B (zh) 2023-01-05 2023-01-05 数据处理装置集群的控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310010835.4A CN115934358B (zh) 2023-01-05 2023-01-05 数据处理装置集群的控制方法

Publications (2)

Publication Number Publication Date
CN115934358A CN115934358A (zh) 2023-04-07
CN115934358B true CN115934358B (zh) 2023-06-27

Family

ID=86652734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310010835.4A Active CN115934358B (zh) 2023-01-05 2023-01-05 数据处理装置集群的控制方法

Country Status (1)

Country Link
CN (1) CN115934358B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391759A (zh) * 2020-03-13 2021-09-14 华为技术有限公司 一种通信方法和设备
CN115543527A (zh) * 2021-06-29 2022-12-30 中国移动通信集团重庆有限公司 一种监控方法、装置、设备及可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10404568B2 (en) * 2015-07-31 2019-09-03 Cisco Technology, Inc. Agent manager for distributed transaction monitoring system
CN109802986B (zh) * 2017-11-17 2021-10-15 华为技术有限公司 设备管理方法、系统、装置及服务器
CN112148439B (zh) * 2019-06-28 2024-03-08 浙江宇视科技有限公司 任务处理方法、装置、设备及存储介质
CN114995860B (zh) * 2022-08-01 2022-11-11 摩尔线程智能科技(北京)有限责任公司 图形处理器固件升级的方法和图形处理器
CN115543393B (zh) * 2022-12-01 2023-08-22 摩尔线程智能科技(北京)有限责任公司 升级方法、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391759A (zh) * 2020-03-13 2021-09-14 华为技术有限公司 一种通信方法和设备
CN115543527A (zh) * 2021-06-29 2022-12-30 中国移动通信集团重庆有限公司 一种监控方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN115934358A (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
JP5243384B2 (ja) アプリケーションステーションで利用される冗長マネージャ
US20070270984A1 (en) Method and Device for Redundancy Control of Electrical Devices
US20210406127A1 (en) Method to orchestrate a container-based application on a terminal device
WO2012155630A1 (zh) 一种容灾的方法、装置及系统
CN104639615A (zh) 一种控制器集群中数据处理方法和装置
US6618819B1 (en) Sparing system and method to accommodate equipment failures in critical systems
US8510402B2 (en) Management of redundant addresses in standby systems
CN115934358B (zh) 数据处理装置集群的控制方法
KR101457733B1 (ko) Hmi 이중화 장치
US20220066436A1 (en) Industrial field device replacement system
CN115904738B (zh) 数据处理装置集群的管理系统和控制方法
CN115801790B (zh) 数据处理装置集群的管理系统和控制方法
JP3394189B2 (ja) 任意プロセッサのプログラム・データ無中断更新システム
CN115378557B (zh) 热备实现方法、装置、系统、电子设备及存储介质
GB2272611A (en) Control system for machinery and/or plant apparatus
CN112667428A (zh) Bmc故障处理电路、方法、装置、电子设备及存储介质
GB2410574A (en) Redundancy in a process control system
WO2013051145A1 (ja) コンピュータシステム、管理装置、管理方法、及びプログラム
JPH05160876A (ja) 通信制御プロセッサの管理方法
CN105591776A (zh) Sdn网络设备的主备链路切换方法和装置
CN114509981B (zh) 控制器硬件冗余控制方法及系统
JP2001042925A (ja) 発電所運転管理システム
CN114553900B (zh) 一种分布式块存储管理系统、方法及电子设备
CN112015601B (zh) 一种多数据中心数据处理的方法及装置
CN115665165A (zh) 一种分布式系统去中心化方法及去中心化的分布式系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant