CN115904738B - 数据处理装置集群的管理系统和控制方法 - Google Patents

数据处理装置集群的管理系统和控制方法 Download PDF

Info

Publication number
CN115904738B
CN115904738B CN202310010901.8A CN202310010901A CN115904738B CN 115904738 B CN115904738 B CN 115904738B CN 202310010901 A CN202310010901 A CN 202310010901A CN 115904738 B CN115904738 B CN 115904738B
Authority
CN
China
Prior art keywords
data processing
management card
distribution
management
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310010901.8A
Other languages
English (en)
Other versions
CN115904738A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Moore Thread Intelligent Technology Chengdu Co ltd
Moore Threads Technology Co Ltd
Original Assignee
Moore Thread Intelligent Technology Chengdu Co ltd
Moore Threads Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Moore Thread Intelligent Technology Chengdu Co ltd, Moore Threads Technology Co Ltd filed Critical Moore Thread Intelligent Technology Chengdu Co ltd
Priority to CN202310010901.8A priority Critical patent/CN115904738B/zh
Publication of CN115904738A publication Critical patent/CN115904738A/zh
Application granted granted Critical
Publication of CN115904738B publication Critical patent/CN115904738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本申请涉及一种数据处理装置集群的管理系统和控制方法,该数据处理装置集群的管理系统,包括:通信分发装置,其接收远端设备的任务,并分发任务;以及管理卡,其与所述通信分发装置连接,接收所述通信分发装置分发的任务,并通过接口电路向所述管理卡所管理的至少一个数据处理装置分发任务。该管理系统能够实现对数据处理装置集群的高可靠性管理框架,从而提高数据处理装置集群的可靠性。

Description

数据处理装置集群的管理系统和控制方法
技术领域
本申请涉及数据处理技术领域,尤其涉及数据处理装置集群的管理系统和控制方法。
背景技术
数据处理装置组合成集群,每一个数据处理装置都能够完成一定的数据处理任务,因此,数据处理装置集群能够完成复杂的数据处理任务。
在数据处理装置集群中,数据处理装置例如可以是:中央处理器(CPU)或图形处理器(GPU)等。
应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
具有高可靠性的数据处理装置集群能够高质量地完成数据处理任务,从而最大程度上发挥数据处理装置集群的优势。因此,如何不断提高数据处理装置集群的可靠性,是一个需要解决的问题。
为了解决至少上述技术问题或类似的技术问题,本申请实施例提供一种数据处理装置集群的管理系统和控制方法。该管理系统能够实现对数据处理装置集群的高可靠性管理框架,从而提高数据处理装置集群的可靠性。
本申请实施例提供一种数据处理装置集群的管理系统,所述管理系统包括:
通信分发装置,其接收远端设备的任务,并分发任务;以及
管理卡,其与所述通信分发装置连接,接收所述通信分发装置分发的任务,并通过接口电路向所述管理卡所管理的至少一个数据处理装置分发任务。
本申请实施例还提供一种数据处理装置集群的控制方法,所述控制方法包括:
通信分发装置接收远端设备的任务,并分发任务;以及
与所述通信分发装置连接的管理卡接收所述通信分发装置分发的任务,并通过接口电路向所述管理卡所管理的至少一个数据处理装置分发任务。
本申请实施例的有益效果在于:能够实现对数据处理装置集群的高可靠性管理框架,从而提高数据处理装置集群的可靠性。
参照后文的说明和附图,详细公开了本申请的特定实施方式,指明了本申请的原理可以被采用的方式。应该理解,本申请的实施方式在范围上并不因而受到限制。在所附权利要求的条款的范围内,本申请的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请第一方面的实施例中数据处理装置集群的管理系统以及数据处理装置集群的一个示意图;
图2是管理卡2与管理的数据处理装置4的一个示意图;
图3是通信分发装置1的一个示意图;
图4是管理卡的构成的一个示意图;
图5是数据处理装置集群的管理系统100进行任务分发和结果反馈流程的一个示意图;
图6是数据处理装置集群的管理系统100中切换管理卡的流程的一个示意图;
图7是数据处理装置集群的管理系统100中管理卡回切的流程的一个示意图;
图8是数据处理装置集群的管理系统100中规则配置流程的一个示意图;
图9是数据处理装置集群的管理系统100中进行管理卡复位的流程的一个示意图;
图10是数据处理装置4的一个示意图;
图11是远端设备3的一个示意图;
图12是数据处理装置集群的控制方法的一个示意图;
图13是数据处理装置集群的控制方法的另一个示意图;
图14是数据处理装置集群的控制方法的又一个示意图;
图15是数据处理装置的控制方法的一个示意图;
图16是数据处理装置的控制方法的另一个示意图;
图17是远端设备的控制方法的一个示意图。
具体实施方式
参照附图,通过下面的说明书,本申请的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本申请的特定实施方式,其表明了其中可以采用本申请的原则的部分实施方式,应了解的是,本申请不限于所描述的实施方式,相反,本申请包括落入所附权利要求的范围内的全部修改、变型以及等同物。下面结合附图对本申请的各种实施方式进行说明。这些实施方式只是示例性的,不是对本申请的限制。
在本申请实施例中,术语“第一”、“第二”、“上”、“下”等用于对不同元素从称谓上进行区分,但并不表示这些元素的空间排列或时间顺序等,这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在,但并不排除存在或添加一个或多个其他特征、元素、元件或组件。
在本申请实施例中,单数形式“一”、“该”等包括复数形式,应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义;此外术语“所述”应理解为既包括单数形式也包括复数形式,除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”,术语“基于”应理解为“至少部分基于……”,除非上下文另外明确指出。
第一方面的实施例
本申请第一方面的实施例提供一种数据处理装置集群的管理系统。
图1是本申请第一方面的实施例中数据处理装置集群的管理系统以及数据处理装置集群的一个示意图。
如图1所示,该管理系统100包括:通信分发装置1和管理卡2。
其中,通信分发装置1能够接收远端设备3发送的任务,并进行任务的分发,例如,将任务分发给管理卡2或数据处理装置4;管理卡2与通信分发装置1连接,接收通信分发装置1分发的任务,并通过接口电路向该管理卡2所管理的至少一个数据处理装置4分发任务。
在至少一个实施例中,数据处理装置4的数量可以是两个以上,由此,该两个以上的数据处理装置4能够组成数据处理装置集群40。
如图1所示,管理系统100可以具有至少一个管理卡2,每个管理卡2可以管理至少一个数据处理装置4。
图2是管理卡2与管理的数据处理装置4的一个示意图。如图2所示,每个管理卡2可以管理M个(M是自然数,例如,M为4)处理装置4。此外,本申请不限于此,即,每个管理卡2管理的数据处理装置4的数量可以是其它数量。
在至少一个实施例中,数据处理装置4具有数据处理功能。数据处理功能例如包括:图像处理,和/或音频处理,和/或视频处理,和/或数据计算等。在一个具体实例中,数据处理装置4例如是图形处理器(GPU)。
在至少一个实施例中,管理卡2可以是卡片状,能够被插入到电路板的卡槽中。由此,能够快速且便利地实现管理卡2的安装和更换,从而实现更为灵活的管理。此外,管理卡2也可以被封装为其它的形状。
管理卡2可以是专用的管理卡,即,仅具有管理数据处理装置4的功能。此外,管理卡2也可以既具有管理数据处理装置4的功能,也具有数据处理功能,例如,管理卡2可以是图形处理器(GPU),由此,管理卡2可以完成某些数据处理任务,或者,数据处理装置4在某些情况下可以升级为管理卡2。
在至少一个实施例中,管理卡2与数据处理装置4之间可以经由接口电路进行通信,该接口电路例如可以是PCIe接口,或者其它类型的接口,例如,自定义的接口电路(比如,MTlink等)。此外,该接口电路还可以提供不同数据处理装置4之间的通信,和/或不同管理卡2之间的通信。
在至少一个实施例中,在管理卡2的数量为多个(例如N个,分别为管理卡2_1、管理卡2_2,……,管理卡2_N等,N为自然数),数据处理装置4的数量为多个(例如K个,分别为数据处理装置4_1,数据处理装置4_2,……,数据处理装置4_K等,K为自然数)的情况下,该多个管理卡2和该多个数据处理装置4通过接口电路进行通信,因此,管理卡2与数据处理装置4之间的管理关系可以进行灵活地变更。即,一方面,针对各管理卡2,其管理的数据处理装置4可以变更;另一方面,针对各数据处理装置4,用于管理该数据处理装置4的管理卡2可以变更。
根据本申请第一方面的实施例,能够实现对数据处理装置集群40的高可靠性管理框架,从而提高数据处理装置集群40的可靠性。
图3是通信分发装置1的一个示意图。如图3所示,通信分发装置1包括:第一通信模块11,第一分发规则模块12以及负载均衡模块13。
第一通信模块11能够与各管理卡2通信,并且,能够与远端设备3通信。
此外,第一通信模块11还能够与管理卡2所管理的数据处理装置4通信。例如,第一通信模块11将从管理卡2和/或数据处理装置4接收的第一预定信息发送给远端设备3;又例如,第一通信模块11将从远端设备3收到的第二预定信息发送给管理卡2和/或数据处理装置4。
第一预定信息可以是:与管理卡2和/或数据处理装置4的异常、失败和恢复等至少一项有关的信息。例如,第一预定信息是与失效的管理卡有关的信息;又例如,第一预定信息是用于指示数据处理装置4的任务未成功完成的消息;再例如,第一预定信息是上线报告消息,上线报告消息用于指示管理卡2从失效状态恢复为正常状。
第二预定信息可以是:各种规则的配置信息,和/或为游离的数据处理装置4指定管理卡2的信息,和/或指定游离的数据处理装置4升级为管理卡2的信息等。游离的数据处理装置4是指,没有管理卡2进行管理的数据处理装置4。
第一分发规则模块12能够存储第一分发规则。该第一分发规则可以由远端设备3配置并发送给通信分发装置,或者,该第一分发规则可以由通信分发装置1自身进行配置。
此外,第一分发规则模块12还可以根据数据处理装置4的负载,调整第一分发规则。例如,根据原有的第一分发规则,某些任务可以优先分配给预定的数据处理装置4,但是,如果该预定的数据处理装置4的负载已经超出阈值,那么,可以调整第一分发规则,将上述任务优先分配给其他的数据处理装置4。
负载均衡模块13基于该第一分发规则、负载均衡算法以及管理卡2的状态中的至少一者,设置为管理卡2分发的任务。例如,基于第一分发规则,某些任务可以被优先分配给预定的管理卡2;又例如,某些管理卡2失效,则不向失效的管理卡2分配任务;再例如,对于未失效的管理卡2,基于负载均衡算法,为各管理卡2分配任务,从而使得各管理卡2所管理的数据处理装置4的负载差异维持在预定值以内。其中,对负载均衡算法的说明可以参考相关技术。
如图3所示,通信分发装置1还可以包括:第一状态监控模块14。第一状态监控模块14监控管理卡2的状态,管理卡2的状态包括:负载状态,异常状态和在位状态中的至少一者。其中,负载状态用于表示管理卡2当前的运行负荷。异常状态用于表示管理卡2是否能够正常工作,即,如果管理卡2处于异常状态,则无法正常工作。在位状态用于表示管理卡2是否能够与通信分发装置1正常通信,其中:在位,表示二者能正常通信;非在位,表示二者无法正常通信。
在至少一个实施例中,第一状态监控模块14还具有如下功能的至少一者:
监控通信分发装置1的状态,例如,监控通信分发装置1本身是否异常;
对通信分发装置1的异常进行处理;
对管理卡2和/或数据处理装置4的异常进行处理。
在至少一个实施例中,通信分发装置1在硬件上可以是数据处理器(Data ProcessUnit,DPU)或网络接口控制器(network interface controller,NIC)。
图4是管理卡的构成的一个示意图。如图4所示,管理卡2可以包括:第二通信模块21,分发切换规则模块22以及任务分发模块23。
其中,第二通信模块 21能够与通信分发装置1通信,并且,第二通信模块21还能够与数据处理装置4通信。此外,第二通信模块21还可以与远端设备3通信。
分发切换规则模块22存储第二分发规则。该第二分发规则用于向数据处理装置4分发任务。第二分发规则可以由远端设备3配置、或者由通信分发装置1配置、或者由分发切换规则模块22配置。
任务分发模块23基于第二分发规则和/或数据处理装置4的状态,设置为数据处理装置4分发的任务,其中,设置的任务可以通过第二通信模块 21发送给数据处理装置4。
例如,任务分发模块23基于第二分发规则的规定,将某些任务优先被分配给某些预定的数据处理装置4等。
又例如,任务分发模块23不向异常状态的数据处理装置4设置任务,其中,数据处理装置4的异常状态是指,数据处理装置4失去了正常的数据处理能力。异常状态可以包括:数据处理装置4下线,数据处理装置4失效,或者数据处理装置4重启等。
在至少一个实施例中,分发切换规则模块22还可以存储切换规则。切换规则也可以被发送给数据处理装置4。
在管理卡2失效时,失效的管理卡2所管理的数据处理装置4可以基于切换规则选择接管该数据处理装置4的其他管理卡2,而其它管理卡2也可以基于切换规则确定是否接管该数据处理装置4。切换规则可以由远端设备3配置、或者由通信分发装置1配置、或者由分发切换规则模块22配置。
如图4所示,管理卡2还包括:失效切换模块24、回切模块25和查询模块26。
失效切换模块24控制管理卡2接管失效的管理卡的任务以及失效的管理卡所管理的数据处理装置3。即,在其它的管理卡2(例如,管理卡2_1)失效时,失效切换模块24可以控制当前的管理卡2(例如,管理卡2_2),使得当前的管理卡2接管失效的管理卡的任务以及失效的管理卡所管理的数据处理装置4。
当失效的管理卡2的功能恢复后,回切模块25进行控制,使属于失效的管理卡2所管理的数据处理装置4切换为由第一管理卡2进行管理。此外,当失效的管理卡2的功能恢复后,查询模块26可以确认该管理卡26失去管理的数据处理装置4,例如,查询模块26可以对归属表进行查询,从而确认失去管理的数据处理装置4。
在至少一个例子中:
管理卡2_1失效时,原本由管理卡2_1所管理的数据处理装置4由管理卡2_2接管,即,由管理卡2_2对装置4进行任务的分发等操作;
在管理卡2_1从失效状态恢复为正常状态的情况下,管理卡2_1至少向管理卡2_2发送回切请求和第一恢复通知中的至少一者,管理卡2_2在收到回切请求和第一恢复通知中的至少一者的情况下,管理卡2_2的回切模块使管理卡2_2停止向原本由管理卡2_1所管理的数据处理装置4下发任务,此外,管理卡2_1的查询模块26可以对归属表进行查询,从而确认管理卡2_2失去管理的数据处理装置4;
进而,在原本属于管理卡2_1所管理的数据处理装置4的任务结束后,回切模块25使管理卡2_2向原本属于管理卡2_1所管理的数据处理装置4下发回切命令或者由管理卡2_1向原本属于管理卡2_1所管理的数据处理装置4下发回切命令,使原本属于管理卡2_1所管理的数据处理装置4切换为由第一管理卡(例如,管理卡2_1或其它管理卡)进行管理。其中,原本属于管理卡2_1所管理的数据处理装置4可以基于自身存储的切换表或切换规则,来选择接管该数据处理装置4的第一管理卡(例如,管理卡2_1或其它管理卡)。该第一管理卡(例如,管理卡2_1或其它管理卡)可以是已经恢复正常的管理卡2_1,也可以是管理卡2_1之外的其它的管理卡。
其中,第一恢复通知和回切请求可以被承载在相同的消息中或者被承载在不同的消息中。此外,第一恢复通知可以在回切请求之前发送,或者,第一恢复通知可以与回切请求同时发送,或者,第一恢复通知可以在回切请求之后发送。
如图4所示,管理卡2还可以包括:复位模块27和状态监控模块28。
复位模块27与其它管理卡2连接,用于恢复或复位失效的其它管理卡2。例如,复位模块27基于看门狗电路或者其它的硬件电路,对失效的其它管理卡2进行恢复或复位。
状态监控及修复模块28具有如下功能中的至少一者:
监控管理卡2的状态和/或管理卡2所管理的数据处理装置4的状态;
修复该管理卡2所管理的数据处理装置中失效的数据处理装置4,例如,对于失效的数据处理装置4中的音频(audio)功能模块进行修复;
对管理卡2的故障进行修复,其中,管理卡2的故障包括软件故障和/或逻辑模块的硬件故障等。
在至少一个实施例中,状态监控及修复模块28可以自主地进行上述功能对应的操作,或者,可以在远端设备3或者服务器的控制下进行上述功能对应的操作。
此外,当数据处理装置4从失效状态恢复为正常状态时,可以向管理该数据处理装置4的管理卡发送恢复通知,该恢复通知用于指示:该数据处理装置4从失效状态恢复为正常状态。
如图4所示,管理卡2还可以包括:数据处理模块29。数据处理模块29能够进行数据处理,例如,数据处理模块29能够至少部分地执行数据处理装置4的数据处理。由此,管理卡2能够具有至少部分的数据处理能力。
在以上的说明中,管理卡2_1和管理卡2_2可以都具有图4所示的管理卡2的组成结构。
下面,对本申请的数据处理装置集群的管理系统100的一个工作原理进行说明。
图5是数据处理装置集群的管理系统100进行任务分发和结果反馈流程的一个示意图。
如图5所示,该流程包括:
操作501、通信分发装置1从远端设备3接收任务;
操作502、通信分发装置1基于第一分发规则、负载均衡算法以及管理卡2的状态中的至少一者,设置为管理卡分发的任务;
操作503、通信分发装置1向管理卡2分发任务,其中,管理卡2的数量可以是1个以上,例如,管理卡2的数量为N个,分别为管理卡2_1、管理卡2_2,……,管理卡2_N等,N为自然数;
操作504、管理卡2(例如,管理卡2_1)基于第二分发规则和/或数据处理装置4的状态,为各数据处理装置4设置分发的任务;
操作505、管理卡2将任务分发给该管理卡2所管理的数据处理装置4,例如,管理卡2_1将任务分发给管理卡2_1所管理的多个数据处理装置4(例如,数据处理装置4_1,数据处理装置4_2,……,数据处理装置4_K等,K为自然数);
操作506、数据处理装置4对收到的任务进行处理;
操作507、任务处理完成后,数据处理装置4将任务处理的结果发送给该数据处理装置4的管理卡2,例如,数据处理装置4_1将任务处理的结果发送给管理卡2_1;
操作508、管理卡2(例如,管理卡2_1)将收到的任务处理的结果发送给通信分发装置1;
操作509、通信分发装置1将收到的任务处理的结果发送给远端设备3。
图6是数据处理装置集群的管理系统100中切换管理卡的流程的一个示意图。在该示意图中,以“管理卡2_1失效,管理卡2_1管理的数据处理装置4_1被管理卡2_2接管”为例进行说明;该说明同样适用于其它的管理卡失效,或者失效的管理卡所管理的多个数据处理装置4被两个以上的其它管理卡2所接管的情形。
如图6所示,该流程包括:
操作601、数据处理装置4_1检测到管理该数据处理装置4_1的管理卡2_1失效,例如,在数据处理装置4_1与管理卡2_1通信未成功,或者管理卡2_1向数据处理装置4_1发送自身失效的通知消息等情况下,数据处理装置4_1能够检测为管理卡2_1失效,即,管理卡2_1无法正常工作,例如,无法进行任务分发等处理;
操作602、数据处理装置4_1根据其自身存储的切换规则,选择管理卡2_2作为数据处理装置4_1的新的管理卡,此外,数据处理装置4_1选择的管理卡的数量可以是2个以上;
操作603、数据处理装置4_1向选择的管理卡(其中包括管理卡2_2)发送选主信息,该选主信息用于请求该管理卡接管数据处理装置4_1;
操作604、管理卡2_2基于接收到的选主信息,或者管理卡2_2基于选主信息与管理卡2_2存储的切换规则,接管数据处理装置4_1,此外,管理卡2_2还可以接管管理卡2_1的任务。
例如,管理卡2_2接收到选主信息时,在管理卡2_2自身具有接管能力的情况下(例如,管理卡2_2具有能够管理8个数据处理装置4的能力,如果目前管理卡2_2已经管理了8个数据处理装置4,则管理卡2_2不具有接管数据处理装置4_1的能力,如果目前管理卡2_2已经管理了5个数据处理装置4,则管理卡2_2具有接管数据处理装置4_1的能力),管理卡2_2接管数据处理装置4_1,并且接管管理卡2_1的任务。
又例如,管理卡2_2接收到选主信息时,根据自身存储的切换规则判断是否可以接管数据处理装置4_1,如果判断为可以接管,则在管理卡2_2自身具有接管能力的情况下,管理卡2_2接管数据处理装置4_1,并且接管管理卡2_1的任务。
操作605、管理卡2_2向数据处理装置4_1发送确认消息,确认接管数据处理装置4_1;此外,如果管理卡2_2不进行接管,则向数据处理装置4_1发送拒绝接管应答,数据处理装置4_1等待其他的管理卡的接管;
操作606、数据处理装置4_1至少向管理卡2_2发送第一指示信息,该第一指示信息用于指示失效的管理卡2_1有关的信息;此外,数据处理装置4_1还可以将该第一指示信息发送给预定数量的其它管理卡2,该预定数量的其它管理卡与管理卡2_2可以构成管理卡群;在一个例子中,数据处理装置4_1向通信分发装置1的所有管理卡2_2都发送第一指示信息。
操作607、数据处理装置4_1发送第二指示信息,该第二指示信息用于表示管理卡2_2成为数据处理装置4_1的管理卡。其中,数据处理装置4_1可以将第二指示信息发送给管理卡2_2;或者,数据处理装置4_1可以将该第二指示信息发送给预定数量的管理卡2,该预定数量的管理卡可以包括管理卡2_2或者不包括管理卡2_2。在一个例子中,数据处理装置4_1向通信分发装置1的所有管理卡2_2都发送第二指示信息。
操作608、管理卡2_2向通信分发装置1和/或远端设备3发送与失效的管理卡2_1有关的信息;此外,远端设备3也可以主动查询各管理卡2的在位状态,从而识别出管理卡2_1失效。
操作609、数据处理装置4_1对接收到的任务进行处理,并将处理结果发送给管理卡2_2;
操作610、管理卡2_2向远端设备3发送数据处理装置4_1的任务处理结果。
例如,当数据处理装置4_1的任务成功完成时,管理卡2_2将数据处理装置4_1完成的任务处理结果(例如,渲染后的图像数据等)发送给远端设备3;
又例如,当数据处理装置4_1的任务未成功完成时,管理卡2_2可以向远端设备3和/或通信分发装置1反馈用于指示任务失败的消息;远端设备3和/或通信分发装置1可以对该未完成的任务重新进行分发,重新分发后,该任务有可能被重新分发给数据处理装置4_1,也可能被重新分发给其他的数据处理装置4。
图7是数据处理装置集群的管理系统100中管理卡回切的流程的一个示意图。在该示意图所示的流程基于“管理卡2_1失效,管理卡2_1管理的数据处理装置4_1被管理卡2_2接管”这样的前提,并且,该示意图以“管理卡2_1从失效恢复为正常,由管理卡2_2接管的数据处理装置4_1切换为由第一管理卡进行管理,其中,该第一管理卡是恢复为正常的管理卡2_1或其他管理卡”为例进行说明,其中,数据处理装置4_1也被称为第一数据数据处理装置。
如图7所示,该流程包括:
操作701、管理卡2_1从失效状态恢复为正常状态;
操作702、管理卡2_1向管理卡2_2发送回切请求和第一恢复通知中的至少一者,其中,该回切请求用于指示管理卡2_2释放(或停止)对数据处理装置4_1的管理,该第一恢复通知用于指示管理卡2_1从失效状态恢复为正常状态;
在操作702中,该回切请求和第一恢复通知可以被承载在相同的消息中进行发送,例如,回切请求和第一恢复通知合并为一个消息(例如,该消息的不同字节可以分别表示回切请求和第一恢复通知)进行发送。又例如,回切请求和第一恢复通知可以被承载在不同的消息中进行发送。
操作703、管理卡2_2在接收到回切请求和第一恢复通知中的至少一者后,停止向数据处理装置4_1下发任务。例如:管理卡2_2在接收到回切请求后,停止向数据处理装置4_1下发任务;或者,管理卡2_2在接收到第一恢复通知后,停止向数据处理装置4_1下发任务;或者,管理卡2_2在接收到第一恢复通知以及回切请求这二者后,停止向数据处理装置4_1下发任务。
操作704、数据处理装置4_1完成所有任务后(例如,数据处理装置4_1完成所有任务并且空闲的情况下),向管理卡2_2发送任务完成通知;此外,数据处理装置4_1还可以将该任务完成通知发送给管理卡2_1;
操作705、在数据处理装置4_1完成所有任务的情况下,管理卡2_2向数据处理装置4_1发送回切命令,以指示该数据处理装置4_1切换为由第一管理卡进行管理。
此外,在操作705的其它实施方式中,可以由管理卡2_1向数据处理装置4_1发送回切命令:例如,管理卡2_2在收到数据处理装置4_1的任务完成通知后,向管理卡2_1通知数据处理装置4_1的任务已完成,然后,管理卡2_1向数据处理装置4_1发送回切命令;又例如,管理卡2_1在收到数据处理装置4_1的任务完成通知后,管理卡2_1向数据处理装置4_1发送回切命令。
操作706、数据处理装置4_1在收到回切命令的情况下,根据数据处理装置4_1存储的切换规则,选择将要回切到哪个管理卡。例如,查询存储在数据处理装置4_1中的切换规则(例如,切换规则可以是表的形式),结合管理卡的列表,选择将要回切到哪个管理卡。
操作707、数据处理装置4_1回切到选择的管理卡(例如,管理卡2_1),即,数据处理装置4_1成为由选择的管理卡(例如,管理卡2_1)进行接管。
例如,在操作707中,数据处理装置4_1可以向管理卡2_1发出消息以请求回切到由管理卡2_1进行接管,如果管理卡2_1同意(例如,管理卡2_1根据数据处理装置4_1发送的消息可以判断该数据处理装置4_1之前是由管理卡2_1进行管理的,因而同意重新接管对数据处理装置4_1),那么由管理卡2_1重新接管数据处理装置4_1,即,数据处理装置4_1 从由管理卡2_2接管回切为由管理卡2_1接管。
此外,在至少一个实施例中,数据处理装置4_1可以维护(例如,存储和更新)一个管理卡的列表,如果选择的将要回切到的管理卡(例如,管理卡2_1)由于某些原因没有接管数据处理装置4_1,则数据处理装置4_1可以按照切换规则选择下一个将要回切到的管理卡,继续之前过程直至成功(即,被第一管理卡接管);如果数据处理装置4_1没有被任何一个管理卡接管,那么数据处理装置4_1可以上报失败消息给预定的管理卡(例如,所有的管理卡),通过管理卡告知或数据处理装置4_1告知远端设备3:该数据处理装置4_1需要被分配管理卡。随后,远端设备3可以根据实际情况为数据处理装置4_1指定新的管理卡作为第一管理卡。
操作708、在数据处理装置4_1回切到第一管理卡的情况下,数据处理装置4_1至少向管理卡2_2发送切换成功消息,该切换成功消息用于表示该数据处理装置4_1成功切换为由第一管理卡(例如,管理卡2_1)进行管理;此外,在另一些实施例中,数据处理装置4_1也可以向预定的多个管理卡2(例如,该预定的多个管理卡2可以组成管理卡群,并且包括管理卡2_1)发送切换成功消息;
操作709、在数据处理装置4_1回切到第一管理卡的情况下,管理卡2_2向该第一管理卡(例如,管理卡2_1)发送切换状态消息,该切换状态消息用于指示:从由管理卡2_2管理切换为由第一管理卡管理的第一数据处理装置的数量。此外,切换状态消息还可以包括第一数据处理装置的其它信息。此外,在操作709中,管理卡2_2还可以向该第一管理卡之外的管理卡发送切换状态消息,例如,管理卡2_2可以向包括第一管理卡的管理卡群组发送该切换状态消息,或者,管理卡2_2可以向通信分发装置1管理的所有管理卡发送该切换状态消息。
操作710、从失效状态恢复为正常状态的管理卡2_1可以向远端设备3和/或通信分发装置1发送上线报告消息,该上线报告消息用于指示:管理卡2_1从失效状态恢复为正常状态。由此,远端设备3和/或通信分发装置1能够确认管理卡2_1恢复正常,从而为管理卡2_1分发任务。此外,远端设备3和/或通信分发装置1能够主动查询管理卡2_1的状态,从而确认管理卡2_1恢复正常。
图8是数据处理装置集群的管理系统100中规则配置流程的一个示意图。如图8所示,该流程包括:
操作801、为通信分发装置1配置第一分发规则,为管理卡2配置第二分发规则;
操作802、判断配置第一分发规则和第二分发规则是否成功,判断为是,则进行到操作803,否则进行到操作805;
操作803、为管理卡2和/或数据处理装置4配置切换规则;
操作804、判断为管理卡2和/或数据处理装置4配置切换规则是否成功,判断为是,则结束,否则进行到操作805;
操作805、将配置异常消息上报给通信分发装置1和/或远端设备3。
图9是数据处理装置集群的管理系统100中进行管理卡复位的流程的一个示意图。如图9所示,该流程包括:
操作901、未失效的管理卡2的复位模块对出现故障的管理卡2的软件故障和/或硬件故障进行复位;
操作902、出现故障的管理卡2的看门狗模块对该管理卡2进行复位。
第一方面的实施例对数据处理装置集群的管理系统100的构成和工作原理进行了说明,该管理系统100能够实现对数据处理装置集群的高可靠性管理框架,从而提高数据处理装置集群的可靠性。
第二方面的实施例
第二方面的实施例提供一种数据处理装置。该数据处理装置例如是第一方面实施例中所述的数据处理装置4。
图10是数据处理装置4的一个示意图。如图10所示,数据处理装置4至少包括处理模块41和控制模块42。
其中,处理模块41进行数据处理,例如,图像渲染,音频处理,视频处理等。控制模块42对该数据处理装置4的操作进行控制。
在至少一个实施例中,控制模块42能够控制数据处理装置4执行如下的操作:
检测到管理该数据处理装置4的管理卡2(例如,管理卡2_1)失效时,基于切换规则选择管理系统100中的其它管理卡(例如,管理卡2_2),并至少向该其它管理卡发送选主信息,该选主信息请求该其它管理卡接管该数据处理装置4;以及
至少向该其它管理卡发送第一指示信息,该第一指示信息用于指示失效的管理卡(例如,管理卡2_1)的信息。
此外,控制模块42控制数据处理装置4还执行如下的操作:
在该其它管理卡(例如,管理卡2_2)接管了该数据处理装置4的情况下,向该其它管理卡(例如,管理卡2_2)发送对于任务的处理结果。
在至少另一个实施例中,控制模块42能够控制数据处理装置4执行如下的操作:
接收管理卡(例如,管理卡2_2)发送的回切命令,该回切命令指示数据处理装置4切换为由第一管理卡(例如,管理卡2_1)进行管理;以及
数据处理装置4基于切换规则切换为由第一管理卡(例如,管理卡2_1)进行管理。
其中,数据处理装置4在完成已经被分发的任务后,接收该回切命令。
数据处理装置4基于切换规则切换为由第一管理卡(例如,管理卡2_1)管理的情况下,数据处理装置4至少向在数据处理装置4_1回切到第一管理卡的情况下,数据处理装置4至少向管理卡2_2发送切换成功消息,该切换成功消息用于表示该数据处理装置4成功切换为由第一管理卡(例如,管理卡2_1)进行管理;此外,数据处理装置4也可以向预定的多个管理卡2(例如,该预定的多个管理卡2可以组成管理卡群,并且包括管理卡2_1)发送切换成功消息。
此外,数据处理装置4还可以向远端设备3发送恢复通知,该恢复通知用于指示,该数据处理装置4从失效状态恢复为正常状态。
关于第二方面的实施例中数据处理装置的详细说明,可以参考第一方面的实施例中的相关说明。
第三方面的实施例
第三方面的实施例提供一种远端设备。该远端设备例如是第一方面实施例中所述的远端设备3。
图11是远端设备3的一个示意图。远端设备3例如可以是计算机、服务器、工作站、膝上型计算机、智能手机,等等;但本申请实施例不限于此。
图11是远端设备3的一个示意图。如图11所示,远端设备1100可以包括:处理器(例如中央处理器CPU)1110和存储器1120;存储器1120耦合到中央处理器1110。其中该存储器1120可存储各种数据;此外还存储信息处理的程序1121,并且在处理器1110的控制下执行该程序1121。
在至少一个实施例中,远端设备1100被配置为进行如下的操作:
向数据处理装置集群的管理系统100下发第一分发规则、第二分发规则、切换规则中的至少一者,其中,第一分发规则用于所述管理系统的通信分发装置1向管理卡2分发任务,第二分发规则用于管理卡2向数据处理装置4分发任务,切换规则用于数据处理装置4切换管理卡2。
在至少一个实施例中,远端设备1100还被配置为具有如下功能的至少之一:
配置管理卡2与数据处理装置4之间的管理关系;
为数据处理装置集群40中的数据处理装置4分组;
查询管理卡2是否在位。
在至少一个实施例中,远端设备1100还被配置为:接收数据处理装置4发送的恢复通知,该恢复通知用于指示,该数据处理装置4从失效状态恢复为正常状态。
在至少一个实施例中,远端设备1100还被配置为:修复和/或复位管理系统100中的管理卡2和/或数据处理装置集群40中的数据处理装置40。
此外,如图11所示,远端设备1100还可以包括:输入输出(I/O)设备1130和显示器1140等;其中,上述部件的功能与现有技术类似,此处不再赘述。值得注意的是,主机1100也并不是必须要包括图11中所示的所有部件;此外,远端设备1100还可以包括图11中没有示出的部件,可以参考相关技术。
第四方面的实施例
第四方面的实施例提供一种数据处理装置集群的控制方法,对应于第一方面实施例中数据处理装置集群的管理系统100的操作。
图12是数据处理装置集群的控制方法的一个示意图。如图12所示,该控制方法包括:
操作1201、通信分发装置接收远端设备的任务,并分发任务;以及
操作1202、与所述通信分发装置连接的管理卡接收所述通信分发装置分发的任务,并通过接口电路向所述管理卡所管理的至少一个数据处理装置分发任务。
关于图12所示的控制方法的进一步说明,可以参考图5所示的数据处理装置集群的管理系统100进行任务分发和结果反馈流程的说明。
图13是数据处理装置集群的控制方法的另一个示意图。如图13所示,该控制方法应用于管理卡2,该控制方法包括:
操作1301、管理卡接收选主信息,所述选主信息用于请求所述管理卡接管失效的管理卡所管理的数据处理装置; 以及
操作1302、该管理卡基于接收到的选主信息,或者所述选主信息与存储的切换规则,接管失效的管理卡的任务以及所述失效的管理卡所管理的数据处理装置。
关于图13所示的控制方法的进一步说明,可以参考图6所示的数据处理装置集群的管理系统100进行切换流程的说明。
图14是数据处理装置集群的控制方法的又一个示意图。如图14所示,该控制方法应用于管理卡2,该控制方法包括:
操作1401、管理卡接收回切请求和第一恢复通知中的至少一者,所述回切请求由从失效状态恢复为正常状态的其它管理卡发送,所述第一恢复通知用于指示所述其它管理卡从失效状态恢复为正常状态;以及
操作1402、管理卡或其它管理卡向第一数据处理装置发送回切命令,以指示所述第一数据处理装置切换为由第一管理卡进行管理。
关于图14所示的控制方法的进一步说明,可以参考图7所示的数据处理装置集群的管理系统100进行回切流程的说明。
第四方面的实施例还提供一种数据处理装置的控制方法。
图15是数据处理装置的控制方法的一个示意图。如图15所示,该控制方法应用于数据处理装置4,该控制方法包括:
操作1501、检测到管理所述数据处理装置的管理卡失效时,基于切换规则选择管理系统中的其它管理卡,并至少向所述其它管理卡发送选主信息,所述选主信息请求所述其它管理卡接管所述数据处理装置;以及
操作1502、至少向所述其它管理卡发送第一指示信息,所述第一指示信息用于指示失效的所述管理卡的信息。
关于图15所示的控制方法的进一步说明,可以参考图6所示的数据处理装置集群的管理系统100进行切换流程的说明。
图16是数据处理装置的控制方法的另一个示意图。如图16所示,该控制方法应用于数据处理装置4,该控制方法包括:
操作1601、接收管理卡发送的回切命令,所述回切命令指示所述数据处理装置切换为由第一管理卡进行管理;以及
操作1602、所述数据处理装置基于切换规则切换为由所述第一管理卡进行管理。
关于图16所示的控制方法的进一步说明,可以参考图7所示的数据处理装置集群的管理系统100进行回切流程的说明。
第四方面的实施例还提供一种远端设备的控制方法。
图17是远端设备的控制方法的一个示意图。如图17所示,该控制方法应用于远端设备3,该控制方法包括:
操作1701、向数据处理装置集群的管理系统下发第一分发规则、第二分发规则和切换规则中的至少一者。
其中,所述第一分发规则用于所述管理系统的通信分发装置向管理卡分发任务,所述第二分发规则用于所述管理卡向数据处理装置分发任务,所述切换规则用于所述数据处理装置切换管理卡。
关于图17所示的远端设备的控制方法,可以参考第一方面的实施例中对于操作远端设备3的说明。
本申请的实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第四方面的实施例中的方法。
本申请的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第四方面的实施例中的方法。
本申请的实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现第四方面的实施例中的方法。
本申请各实施例的技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (40)

1.一种数据处理装置集群的管理系统,其特征在于,所述管理系统包括:
通信分发装置,其接收远端设备的任务,并分发任务;以及
管理卡,其与所述通信分发装置连接,接收所述通信分发装置分发的任务,并通过接口电路向所述管理卡所管理的至少一个数据处理装置分发任务,
其中,在所述管理卡失效时,失效的所述管理卡所管理的数据处理装置基于切换规则选择接管所述数据处理装置的其他管理卡,
其中,所述通信分发装置包括:
第一通信模块,其与所述管理卡和所述远端设备通信;
第一分发规则模块,其存储第一分发规则;以及
负载均衡模块,其基于所述第一分发规则、负载均衡算法以及所述管理卡的状态中的至少一者,设置为所述管理卡分发的任务,
其中,所述第一分发规则由所述远端设备配置或者由所述通信分发装置配置,
所述管理卡包括:
第二通信模块,其与所述通信分发装置和所述数据处理装置通信;
分发切换规则模块,其存储第二分发规则;以及
任务分发模块,其基于所述第二分发规则和/或所述数据处理装置的状态,设置为所述数据处理装置分发的任务,
其中,所述第二分发规则由所述远端设备配置、或者由所述通信分发装置配置、或者由所述分发切换规则模块配置。
2.如权利要求1所述的管理系统,其特征在于,
所述第一通信模块还与所述管理卡所管理的所述数据处理装置通信,
其中,
所述第一通信模块将从所述管理卡和/或所述数据处理装置接收的第一预定信息发送给所述远端设备,和/或,所述第一通信模块将从所述远端设备收到的第二预定信息发送给所述管理卡和/或所述数据处理装置。
3.如权利要求1所述的管理系统,其特征在于,
所述第一分发规则模块还根据所述数据处理装置的负载,调整所述第一分发规则。
4.如权利要求1所述的管理系统,其特征在于,
所述通信分发装置还包括:
第一状态监控模块,其监控所述管理卡的状态,所述状态包括负载状态,异常状态和在位状态中的至少一者。
5.如权利要求4所述的管理系统,其特征在于,
所述第一状态监控模块还具有如下功能:
监控所述通信分发装置的状态;和/或
对所述通信分发装置的异常进行处理;和/或
对所述管理卡和/或所述数据处理装置的异常进行处理。
6.如权利要求1所述的管理系统,其特征在于,
所述任务分发模块不向异常状态的所述数据处理装置设置任务,
所述异常状态包括:所述数据处理装置下线,所述数据处理装置失效,或者所述数据处理装置重启。
7.如权利要求1所述的管理系统,其特征在于,
在所述管理卡处于异常状态时,所述任务分发模块不向所述数据处理装置下发任务,
所述异常状态包括:所述管理卡下线,所述管理卡失效,或者所述管理卡重启。
8.如权利要求1所述的管理系统,其特征在于,
所述分发切换规则模块还存储所述切换规则,
其中,所述切换规则由所述远端设备、所述通信分发装置以及所述分发切换规则模块中的至少一者配置。
9.如权利要求1所述的管理系统,其特征在于,
所述管理卡还包括:
失效切换模块,其控制所述管理卡接管失效的管理卡的任务以及所述失效的管理卡所管理的数据处理装置;以及
回切模块,在所述失效的管理卡的功能恢复后,使属于所述失效的管理卡所管理的数据处理装置切换为由第一管理卡进行管理。
10.如权利要求9所述的管理系统,其特征在于,
在所述管理卡收到回切请求和第一恢复通知中的至少一者的情况下,所述回切模块还使所述管理卡停止向属于所述失效的管理卡所管理的数据处理装置下发任务。
11.如权利要求10所述的管理系统,其特征在于,
在属于所述失效的管理卡所管理的数据处理装置的任务结束后,所述回切模块使所述管理卡向属于所述失效的管理卡所管理的数据处理装置下发回切命令,使属于所述失效的管理卡所管理的数据处理装置切换为由所述第一管理卡进行管理。
12.如权利要求1所述的管理系统,其特征在于,
所述管理卡还包括:
查询模块,在所述管理卡从失效状态恢复为正常状态后,所述查询模块确认所述管理卡失去管理的数据处理装置。
13.如权利要求1所述的管理系统,其特征在于,
所述管理卡还包括:
复位模块,其与其它管理卡连接,用于恢复或复位失效的所述其它管理卡;以及
状态监控及修复模块,
其中,所述状态监控及修复模块具有如下功能:
监控所述管理卡的状态和/或所述管理卡所管理的数据处理装置的状态;和/或
修复失效的所述数据处理装置;和/或
对所述管理卡自身的故障进行修复。
14.如权利要求1所述的管理系统,其特征在于,
所述管理卡具有数据处理装置的功能。
15.一种数据处理装置集群的控制方法,其特征在于,所述控制方法由管理系统执行,所述管理系统包括通信分发装置和管理卡,
所述控制方法包括:
所述通信分发装置接收远端设备的任务,并分发任务;以及
与所述通信分发装置连接的所述管理卡接收所述通信分发装置分发的任务,并通过接口电路向所述管理卡所管理的至少一个数据处理装置分发任务,
所述控制方法还包括:
在所述管理卡失效时,失效的所述管理卡所管理的数据处理装置基于切换规则选择接管所述数据处理装置的其他管理卡,
其中,所述通信分发装置包括:
第一通信模块,其与所述管理卡和所述远端设备通信;
第一分发规则模块,其存储第一分发规则;以及
负载均衡模块,其基于所述第一分发规则、负载均衡算法以及所述管理卡的状态中的至少一者,设置为所述管理卡分发的任务,
其中,所述第一分发规则由所述远端设备配置或者由所述通信分发装置配置,
所述管理卡包括:
第二通信模块,其与所述通信分发装置和所述数据处理装置通信;
分发切换规则模块,其存储第二分发规则;以及
任务分发模块,其基于所述第二分发规则和/或所述数据处理装置的状态,设置为所述数据处理装置分发的任务,
其中,所述第二分发规则由所述远端设备配置、或者由所述通信分发装置配置、或者由所述分发切换规则模块配置。
16.一种数据处理装置集群的控制方法,应用于管理卡,其特征在于,所述管理卡与通信分发装置连接,接收所述通信分发装置分发的任务,并通过接口电路向所述管理卡所管理的至少一个数据处理装置分发任务,
所述控制方法包括:
所述管理卡接收失效的管理卡所管理的数据处理装置发送的选主信息,所述选主信息用于请求所述管理卡接管失效的管理卡所管理的数据处理装置; 以及
所述管理卡基于接收到的选主信息,或者所述选主信息与存储的切换规则,接管失效的管理卡的任务以及所述失效的管理卡所管理的数据处理装置,
所述管理卡包括:
第二通信模块,其与所述通信分发装置和所述数据处理装置通信;
分发切换规则模块,其存储第二分发规则;以及
任务分发模块,其基于所述第二分发规则和/或所述数据处理装置的状态,设置为所述数据处理装置分发的任务,
其中,所述第二分发规则由远端设备配置、或者由所述通信分发装置配置、或者由所述分发切换规则模块配置。
17.如权利要求16所述的控制方法,其特征在于,所述控制方法还包括:
所述管理卡接收所述失效的管理卡所管理的数据处理装置发送的第一指示信息,所述第一指示信息用于指示所述失效的管理卡有关的信息。
18.如权利要求16所述的控制方法,其特征在于,
所述管理卡在具有接管能力的情况下,进行所述接管;和/或
所述管理卡在不具有接管能力的情况下,向所述失效的管理卡所管理的数据处理装置发送拒绝接管应答。
19.如权利要求16所述的控制方法,其特征在于,
所述管理卡向通信分发装置和/或远端设备发送与所述失效的管理卡有关的信息。
20.如权利要求16所述的控制方法,其特征在于,
所述管理卡接收所述失效的管理卡所管理的数据处理装置发送的任务处理结果;以及
向远端设备发送所述任务处理结果。
21.如权利要求16所述的控制方法,其特征在于,
所述失效的管理卡所管理的数据处理装置的任务未成功完成时,
所述管理卡向远端设备和/或通信分发装置反馈用于指示所述任务失败的消息。
22.一种数据处理装置集群的控制方法,应用于管理卡,其特征在于,所述管理卡与通信分发装置连接,接收所述通信分发装置分发的任务,并通过接口电路向所述管理卡所管理的至少一个数据处理装置分发任务,
所述控制方法包括:
所述管理卡接收回切请求和第一恢复通知中的至少一者,所述回切请求由从失效状态恢复为正常状态的其它管理卡发送,所述第一恢复通知用于指示所述其它管理卡从失效状态恢复为正常状态;以及
所述管理卡或所述其它管理卡向第一数据处理装置发送回切命令,以指示所述第一数据处理装置切换为由第一管理卡进行管理,
其中,
所述管理卡在接收到所述回切请求和所述第一恢复通知中的至少一者后,停止向所述第一数据处理装置下发任务,
其中,在所述第一数据处理装置完成所有任务时,所述管理卡或所述其它管理卡向所述第一数据处理装置发送所述回切命令,
所述管理卡包括:
第二通信模块,其与所述通信分发装置和所述数据处理装置通信;
分发切换规则模块,其存储第二分发规则;以及
任务分发模块,其基于所述第二分发规则和/或所述数据处理装置的状态,设置为所述数据处理装置分发的任务,
其中,所述第二分发规则由远端设备配置、或者由所述通信分发装置配置、或者由所述分发切换规则模块配置。
23.如权利要求22所述的控制方法,其特征在于,
所述回切请求和所述第一恢复通知被承载在相同的消息中或者被承载在不同的消息中。
24.如权利要求22所述的控制方法,其特征在于,
所述管理卡还至少向所述第一管理卡发送切换状态消息,所述切换状态消息用于指示:
从由所述管理卡管理切换为由所述第一管理卡管理的所述第一数据处理装置的数量。
25.如权利要求22所述的控制方法,其特征在于,
所述管理卡从失效状态恢复为正常状态的情况下,向其它管理卡发送回切请求;以及
所述管理卡接收所述其它管理卡发送的切换状态消息,
所述切换状态消息用于至少指示:从由所述其它管理卡管理切换为由所述管理卡管理的第一数据处理装置的数量。
26.如权利要求25所述的控制方法,其特征在于,
所述管理卡还发送第一恢复通知,所述第一恢复通知用于指示所述管理卡从失效状态恢复为正常状态。
27.如权利要求25所述的控制方法,其特征在于,
所述管理卡向远端设备和/或通信分发装置发送上线报告消息,所述上线报告消息用于指示所述管理卡从失效状态恢复为正常状态。
28.一种数据处理装置,其特征在于,所述数据处理装置与管理系统通信,所述管理系统包括通信分发装置和管理卡,
所述数据处理装置包括处理模块和控制模块,所述控制模块控制所述数据处理装置执行如下的步骤:
检测到管理所述数据处理装置的所述管理卡失效时,基于切换规则选择管理系统中的其它管理卡,并至少向所述其它管理卡发送选主信息,所述选主信息请求所述其它管理卡接管所述数据处理装置;以及
至少向所述其它管理卡发送第一指示信息,所述第一指示信息用于指示失效的所述管理卡的信息,
其中,所述通信分发装置包括:
第一通信模块,其与所述管理卡和远端设备通信;
第一分发规则模块,其存储第一分发规则;以及
负载均衡模块,其基于所述第一分发规则、负载均衡算法以及所述管理卡的状态中的至少一者,设置为所述管理卡分发的任务,
其中,所述第一分发规则由所述远端设备配置或者由所述通信分发装置配置,
所述管理卡包括:
第二通信模块,其与所述通信分发装置和所述数据处理装置通信;
分发切换规则模块,其存储第二分发规则;以及
任务分发模块,其基于所述第二分发规则和/或所述数据处理装置的状态,设置为所述数据处理装置分发的任务,
其中,所述第二分发规则由所述远端设备配置、或者由所述通信分发装置配置、或者由所述分发切换规则模块配置。
29.如权利要求28所述的数据处理装置,其特征在于,
所述控制模块控制所述数据处理装置还执行如下的操作:
向所述其它管理卡发送对于任务的处理结果。
30.一种数据处理装置,其特征在于,所述数据处理装置与管理系统通信,所述管理系统包括通信分发装置和第一管理卡,所述数据处理装置包括处理模块和控制模块,所述控制模块控制所述数据处理装置执行如下的操作:
接收管理卡发送的回切命令,所述回切命令指示所述数据处理装置切换为由所述第一管理卡进行管理;以及
所述数据处理装置基于切换规则切换为由所述第一管理卡进行管理,
其中,
所述数据处理装置在完成已经被分发的任务后,接收所述回切命令,
其中,所述通信分发装置包括:
第一通信模块,其与所述管理卡和远端设备通信;
第一分发规则模块,其存储第一分发规则;以及
负载均衡模块,其基于所述第一分发规则、负载均衡算法以及所述管理卡的状态中的至少一者,设置为所述管理卡分发的任务,
其中,所述第一分发规则由所述远端设备配置或者由所述通信分发装置配置,
所述第一管理卡包括:
第二通信模块,其与所述通信分发装置和所述数据处理装置通信;
分发切换规则模块,其存储第二分发规则;以及
任务分发模块,其基于所述第二分发规则和/或所述数据处理装置的状态,设置为所述数据处理装置分发的任务,
其中,所述第二分发规则由所述远端设备配置、或者由所述通信分发装置配置、或者由所述分发切换规则模块配置。
31.如权利要求30所述的数据处理装置,其中,
所述数据处理装置至少向所述管理卡发送切换成功消息,所述切换成功消息用于指示所述数据处理装置成功切换为由所述第一管理卡进行管理。
32.一种远端设备,其与数据处理装置集群的管理系统通信,
所述管理系统包括:
通信分发装置,其接收远端设备的任务,并分发任务;以及
管理卡,其与所述通信分发装置连接,接收所述通信分发装置分发的任务,并通过接口电路向所述管理卡所管理的至少一个数据处理装置分发任务,
其特征在于,
所述远端设备向所述数据处理装置集群的管理系统下发切换规则,
其中,在所述管理卡失效时,失效的所述管理卡所管理的数据处理装置基于所述切换规则选择接管所述数据处理装置的其他管理卡,
所述远端设备还向所述数据处理装置集群的管理系统下发第一分发规则和/或第二分发规则,其中,
所述第一分发规则用于所述管理系统的通信分发装置向管理卡分发任务,
所述第二分发规则用于所述管理卡向数据处理装置分发任务,
所述切换规则用于所述数据处理装置切换管理卡,
其中,所述通信分发装置包括:
第一通信模块,其与所述管理卡和所述远端设备通信;
第一分发规则模块,其存储第一分发规则;以及
负载均衡模块,其基于所述第一分发规则、负载均衡算法以及所述管理卡的状态中的至少一者,设置为所述管理卡分发的任务,
其中,所述第一分发规则由所述远端设备配置或者由所述通信分发装置配置,
所述管理卡包括:
第二通信模块,其与所述通信分发装置和所述数据处理装置通信;
分发切换规则模块,其存储第二分发规则;以及
任务分发模块,其基于所述第二分发规则和/或所述数据处理装置的状态,设置为所述数据处理装置分发的任务,
其中,所述第二分发规则由所述远端设备配置、或者由所述通信分发装置配置、或者由所述分发切换规则模块配置。
33.如权利要求32所述的远端设备,其特征在于,
所述远端设备还具有如下功能的至少之一:
配置所述管理卡与所述数据处理装置之间的管理关系;
为所述数据处理装置集群中的数据处理装置分组;
查询管理卡是否在位。
34.如权利要求32所述的远端设备,其特征在于,
所述远端设备接收数据处理装置发送的恢复通知,
所述恢复通知用于指示,所述数据处理装置从失效状态恢复为正常状态。
35.如权利要求32所述的远端设备,其特征在于,
所述远端设备用于修复和/或复位所述管理系统中的管理卡和/或所述数据处理装置集群中的数据处理装置。
36.一种数据处理装置的控制方法,应用于数据处理装置,其特征在于,所述数据处理装置与管理系统通信,所述管理系统包括通信分发装置和管理卡,所述控制方法包括:
检测到管理所述数据处理装置的所述管理卡失效时,基于切换规则选择管理系统中的其它管理卡,并至少向所述其它管理卡发送选主信息,所述选主信息请求所述其它管理卡接管所述数据处理装置;以及
至少向所述其它管理卡发送第一指示信息,所述第一指示信息用于指示失效的所述管理卡的信息,
其中,所述通信分发装置包括:
第一通信模块,其与所述管理卡和远端设备通信;
第一分发规则模块,其存储第一分发规则;以及
负载均衡模块,其基于所述第一分发规则、负载均衡算法以及所述管理卡的状态中的至少一者,设置为所述管理卡分发的任务,
其中,所述第一分发规则由所述远端设备配置或者由所述通信分发装置配置,
所述管理卡包括:
第二通信模块,其与所述通信分发装置和所述数据处理装置通信;
分发切换规则模块,其存储第二分发规则;以及
任务分发模块,其基于所述第二分发规则和/或所述数据处理装置的状态,设置为所述数据处理装置分发的任务,
其中,所述第二分发规则由所述远端设备配置、或者由所述通信分发装置配置、或者由所述分发切换规则模块配置。
37.一种数据处理装置的控制方法,应用于数据处理装置,其特征在于,所述数据处理装置与管理系统通信,所述管理系统包括通信分发装置和第一管理卡,所述控制方法包括:
所述数据处理装置在完成已经被分发的任务后,接收管理卡发送的回切命令,所述回切命令指示所述数据处理装置切换为由所述第一管理卡进行管理;以及
所述数据处理装置基于切换规则切换为由所述第一管理卡进行管理,
其中,所述通信分发装置包括:
第一通信模块,其与所述管理卡和远端设备通信;
第一分发规则模块,其存储第一分发规则;以及
负载均衡模块,其基于所述第一分发规则、负载均衡算法以及所述管理卡的状态中的至少一者,设置为所述管理卡分发的任务,
其中,所述第一分发规则由所述远端设备配置或者由所述通信分发装置配置,
所述第一管理卡包括:
第二通信模块,其与所述通信分发装置和所述数据处理装置通信;
分发切换规则模块,其存储第二分发规则;以及
任务分发模块,其基于所述第二分发规则和/或所述数据处理装置的状态,设置为所述数据处理装置分发的任务,
其中,所述第二分发规则由所述远端设备配置、或者由所述通信分发装置配置、或者由所述分发切换规则模块配置。
38.一种远端设备的控制方法,应用于远端设备,所述远端设备与数据处理装置集群的管理系统通信,
所述管理系统包括:
通信分发装置,其接收远端设备的任务,并分发任务;以及
管理卡,其与所述通信分发装置连接,接收所述通信分发装置分发的任务,并通过接口电路向所述管理卡所管理的至少一个数据处理装置分发任务,
其特征在于,所述控制方法包括:
向所述数据处理装置集群的管理系统下发切换规则,
其中,在所述管理卡失效时,失效的所述管理卡所管理的数据处理装置基于所述切换规则选择接管所述数据处理装置的其他管理卡,
所述控制方法还包括:
所述远端设备还向所述数据处理装置集群的管理系统下发第一分发规则和/或第二分发规则,其中,
所述第一分发规则用于所述管理系统的通信分发装置向管理卡分发任务,
所述第二分发规则用于所述管理卡向数据处理装置分发任务,
所述切换规则用于所述数据处理装置切换管理卡,
其中,所述通信分发装置包括:
第一通信模块,其与所述管理卡和所述远端设备通信;
第一分发规则模块,其存储第一分发规则;以及
负载均衡模块,其基于所述第一分发规则、负载均衡算法以及所述管理卡的状态中的至少一者,设置为所述管理卡分发的任务,
其中,所述第一分发规则由所述远端设备配置或者由所述通信分发装置配置,
所述管理卡包括:
第二通信模块,其与所述通信分发装置和所述数据处理装置通信;
分发切换规则模块,其存储第二分发规则;以及
任务分发模块,其基于所述第二分发规则和/或所述数据处理装置的状态,设置为所述数据处理装置分发的任务,
其中,所述第二分发规则由所述远端设备配置、或者由所述通信分发装置配置、或者由所述分发切换规则模块配置。
39.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求15至27中的任一项所述的控制方法,或者权利要求36至38中的任一项所述的控制方法。
40.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求15至27中的任一项所述的控制方法,或者权利要求36至38中的任一项所述的控制方法。
CN202310010901.8A 2023-01-05 2023-01-05 数据处理装置集群的管理系统和控制方法 Active CN115904738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310010901.8A CN115904738B (zh) 2023-01-05 2023-01-05 数据处理装置集群的管理系统和控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310010901.8A CN115904738B (zh) 2023-01-05 2023-01-05 数据处理装置集群的管理系统和控制方法

Publications (2)

Publication Number Publication Date
CN115904738A CN115904738A (zh) 2023-04-04
CN115904738B true CN115904738B (zh) 2023-06-06

Family

ID=86471244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310010901.8A Active CN115904738B (zh) 2023-01-05 2023-01-05 数据处理装置集群的管理系统和控制方法

Country Status (1)

Country Link
CN (1) CN115904738B (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014089767A1 (zh) * 2012-12-12 2014-06-19 华为技术有限公司 集群系统中数据处理方法及装置
CN103365726B (zh) * 2013-07-08 2016-05-25 华中科技大学 一种面向gpu集群的资源管理方法和系统
CN104767778A (zh) * 2014-01-07 2015-07-08 中兴通讯股份有限公司 任务处理方法及装置
CN108037995A (zh) * 2017-11-22 2018-05-15 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于gpu的分布式电磁态势仿真计算系统
CN110830283B (zh) * 2018-08-10 2021-10-15 华为技术有限公司 故障检测方法、装置、设备和系统
CN109271243B (zh) * 2018-08-31 2021-09-17 郑州云海信息技术有限公司 一种集群任务管理系统
CN110784350B (zh) * 2019-10-25 2022-04-05 北京计算机技术及应用研究所 一种实时高可用集群管理系统的设计方法
CN110784545B (zh) * 2019-10-31 2022-02-11 上海埃威航空电子有限公司 实时数据分发系统
CN115277691A (zh) * 2022-06-10 2022-11-01 新华三信息技术有限公司 一种信息处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Implementation of Association Rule Mining Algorithms on Distributed Data Processing Platforms;Duygu Sesver et al.;《IEEE Xplore》;全文 *

Also Published As

Publication number Publication date
CN115904738A (zh) 2023-04-04

Similar Documents

Publication Publication Date Title
JP5243384B2 (ja) アプリケーションステーションで利用される冗長マネージャ
CN101320339B (zh) 信息处理装置及信息处理装置系统
WO2012155630A1 (zh) 一种容灾的方法、装置及系统
US8510402B2 (en) Management of redundant addresses in standby systems
CN104639615A (zh) 一种控制器集群中数据处理方法和装置
CN101478422A (zh) 一种软件版本自协商方法及系统
US6618819B1 (en) Sparing system and method to accommodate equipment failures in critical systems
CN115904738B (zh) 数据处理装置集群的管理系统和控制方法
KR101457733B1 (ko) Hmi 이중화 장치
CN115934358B (zh) 数据处理装置集群的控制方法
CN115801790B (zh) 数据处理装置集群的管理系统和控制方法
JPH11119802A (ja) リモート型プロセス入出力装置のデータ伝送路切替方法及び記録媒体
CN115378557B (zh) 热备实现方法、装置、系统、电子设备及存储介质
WO2013051145A1 (ja) コンピュータシステム、管理装置、管理方法、及びプログラム
CN114553900B (zh) 一种分布式块存储管理系统、方法及电子设备
JP2001042925A (ja) 発電所運転管理システム
JPH07321799A (ja) 入出力機器管理方法
CN112015601B (zh) 一种多数据中心数据处理的方法及装置
CN109831325B (zh) 一种用于复判的服务器切换系统及方法
JP2003078633A (ja) 通信網のヘルスチェック方式
CN115514817A (zh) 一种信息处理方法、设备和计算机可读存储介质
CN114509981A (zh) 控制器硬件冗余控制方法及系统
JPS58182359A (ja) 電子交換機の自律系切替方式
CN117579465A (zh) 一种故障处理方法、装置、设备及存储介质
CN115665165A (zh) 一种分布式系统去中心化方法及去中心化的分布式系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant