CN113344767A - 数据处理装置、系统、板卡、方法、电子设备及存储介质 - Google Patents
数据处理装置、系统、板卡、方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113344767A CN113344767A CN202110727748.1A CN202110727748A CN113344767A CN 113344767 A CN113344767 A CN 113344767A CN 202110727748 A CN202110727748 A CN 202110727748A CN 113344767 A CN113344767 A CN 113344767A
- Authority
- CN
- China
- Prior art keywords
- data processing
- processing apparatus
- processing device
- mode
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Hardware Redundancy (AREA)
Abstract
本公开提供了一种数据处理装置、系统、板卡、方法、电子设备及存储介质,其中,该数据处理装置包括:所述多路复用器,用于响应于接收到端口选通信号,选通所述数据处理芯片用于获取配置信息的第一传输通路或者第二传输通路;所述数据处理芯片,用于响应于所述第一传输通路被选通,获取第一配置信息,基于所述第一配置信息,将自身模式确定为主控模式;响应于所述第二传输通路被选通,获取第二配置信息,并基于所述第二配置信息,将自身模式确定为被控模式。这样,可以摆脱对数据处理芯片的功能限制,使其可以根据实际的需求切换自身的模式,提升数据处理装置的稳定性。
Description
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种数据处理装置、系统、板卡、方法、电子设备及存储介质。
背景技术
在处理图像等数据时,通常会利用中央处理器(central processing unit,CPU)作为主控芯片,并辅以人工智能加速卡(Artificial Intelligence,AI)芯片作为加速卡,构建出“CPU+AI加速卡”硬件架构以实现数据处理,从而有效的提高数据处理的速度。但是,一旦作为主控芯片的CPU出现故障,就会导致无法再正常进行数据处理,造成硬件架构的稳定性较差。
发明内容
本公开实施例至少提供一种数据处理装置、系统、板卡、方法、电子设备及存储介质。
第一方面,本公开实施例提供了一种数据处理装置,包括:数据处理芯片以及多路复用器;其中,所述多路复用器,用于响应于接收到端口选通信号,选通所述数据处理芯片用于获取配置信息的第一传输通路或者第二传输通路;所述数据处理芯片,用于响应于所述第一传输通路被选通,获取第一配置信息,基于所述第一配置信息,将自身模式确定为主控模式;响应于所述第二传输通路被选通,获取第二配置信息,并基于所述第二配置信息,将自身模式确定为被控模式。
这样,通过在不同情况下将数据处理装置中的数据处理芯片切换为主控模式或者被控模式,从而可以摆脱传统的数据处理装置中对数据处理芯片的功能限制,数据处理芯片可以根据实际的需求切换自身的模式,提升数据处理装置的稳定性。
一种可选的实施方式中,所述数据处理芯片,还用于在自身模式处于所述主控模式下,响应于接收到数据处理任务,将所述数据处理任务分解为多个子任务,向处于被控模式的其他数据处理装置下发所述子任务;或者所述数据处理芯片,还用于在自身模式处于所述被控模式下,响应于接收到处于主控模式的其他数据处理装置下发的子任务,执行所述其他数据处理装置下发的子任务。
这样,对于自身模式处于主控模式下的数据处理芯片,其能够起到控制作用,向其他处于被控模式的下的数据处理装置下发与数据处理任务对应的子任务。对于自身模式处于被控模式下的数据处理芯片,其能够执行数据处理的具体任务,在存在多个被控模式下的数据处理芯片的情况下,多个被控模式下的数据处理芯片可以并行对对应的子任务进行数据处理,因此数据处理的效率较高。
一种可选的实施方式中,所述数据处理装置还包括:第一存储器和第二存储器;其中,所述第一存储器和所述第二存储器分别与所述多路复用器连接;所述多路复用器,用于响应于接收到端口选通信号,选通所述数据处理芯片和所述第一存储器之间的第一传输通路、或者选通所述数据处理芯片和所述第二存储器之间的第二传输通路。
这样,通过设置第一存储器和第二存储器,数据处理装置中的数据处理芯片在切换自身模式时,选通与对应模式下的存储器对应的传输通路即可,较为便捷,也可以有效的提升数据处理装置中的数据处理芯片在切换自身模式时的效率。
一种可选的实施方式中,所述数据处理装置还包括:所述信号转换器与所述多路复用器连接;以及与控制器连接;所述信号转换器用于基于预设的第一通信协议接收所述控制器发送的控制指令,并将所述控制指令转换为端口选通信号,向所述多路复用器发送所述端口选通信号。
这样,通过设置信号转换器,即可以接收到控制器发送的控制指令,并有效的将该控制指令转换为端口选通信号,并向多路复用器发送。
一种可选的实施方式中,所述数据处理装置还包括:监测芯片;所述监测芯片分别与所述数据处理芯片和所述信号转换器连接;所述监测芯片,用于监测所述数据处理芯片的工作状态,并向所述信号转换器发送与所述工作状态对应的监测信号;所述信号转换器,还用于接收所述监测芯片发送的所述监测信号,并基于预设的第二通信协议向所述控制器发送所述监测信号。
这样,通过设置监测芯片,可以实现便捷且准确的对数据处理芯片进行监测,以确定数据处理芯片的工作状态。
一种可选的实施方式中,所述数据处理装置还包括:类型寄存器;所述类型寄存器用于存储所述数据处理芯片的类型信息。
这样,通过设置类型寄存器,可以预先在类型寄存器中存储数据处理芯片的类型信息,以使控制器可以直接通过类型寄存器获知对应的数据处理芯片的类型,而无需在每次对其类型进行查看时都进行重复的检测,效率更高。
第二方面,本公开实施例还提供一种数据处理系统,包括:本公开实施例提供的数据处理装置、以及控制器;其中,所述数据处理装置有多个;多个所述数据处理装置包括:处于主控模式的第一数据处理装置、以及处于被控模式的第二数据处理装置;所述控制器,用于对所述第一数据处理装置的状态进行监测;响应于所述状态指示将所述第一数据处理装置切换为被控模式,向所述第一数据处理装置发送第一控制指令,以及向目标第二数据处理装置发送第二控制指令;所述第一数据处理装置,用于响应于接收到第一控制指令,将自身模式切换为被控模式;所述目标第二数据处理装置,用于响应于接收到第二控制指令,将自身模式切换为主控模式。
这样,在数据处理系统中的主控模式下的数据处理装置出现故障的情况下,可以由其他被控模式下的数据处理装置切换为主控模式,继续承担主控模式下的数据处理装置的功能,从而保证数据处理系统正常、稳定的运行。
一种可选的实施方式中,所述数据处理装置的状态,包括:工作状态和/或数据通路状态。
一种可选的实施方式中,所述控制器,在对所述第一数据处理装置的状态进行监测时,用于:接收所述第一数据处理装置发送的监测信号;基于所述监测信号,确定所述第一数据处理装置的工作状态;基于所述第一数据处理装置的工作状态,确定是否要将所述第一数据处理装置切换为被控模式。
这样,通过对第一数据处理装置的工作状态进行监测,即可以快速的确定数据处理系统当前是否能够正常工作;若数据处理系统由于第一数据处理装置的故障而导致不能工作,则确定将第一数据处理装置切换为被控模式,这样能够应急响应数据处理系统的故障,稳定性更强。
一种可选的实施方式中,所述数据处理系统还包括:通信交换机;多个所述数据处理装置分别通过所述通信交换机与所述控制器连接;所述控制器,在对所述第一数据处理装置的状态进行监测时,用于:监测所述第一数据处理装置与所述通信交换机之间的数据通路状态;基于所述第一数据处理装置与所述通信交换机之间的数据通路状态,确定是否要将所述第一数据处理装置切换为被控模式。
这样,通过设置通信交换机,可以监测第一数据处理装置与通信交换机之间的数据通路状态,并在数据通路状态存在异常时,确定将第一数据处理装置切换为被控模式。这样还可以在数据通路不正常时,将第一数据处理装置的自身模式切换,以保证第一数据处理装置的数据通路正常,从而保证主控模式下的数据处理装置可以将子任务正常的通过数据通路向其他数据处理装置下发。
一种可选的实施方式中,所述控制器,在对所述第一数据处理装置的状态进行监测时,用于:响应于所述第一数据处理装置的状态为异常状态,确定需要将所述第一数据处理装置切换为被控模式。
一种可选的实施方式中,所述控制器,在向目标第二数据处理装置发送第二控制指令之前,还用于:基于所述第二数据处理装置的状态,从所述第二数据处理装置中,确定要切换为主控模式的目标第二数据处理装置。
一种可选的实施方式中,所述控制器,在基于所述第二数据处理装置的状态,从所述第二数据处理装置中,确定要切换为主控模式的目标第二数据处理装置时,用于:响应于所述第一数据处理装置的状态为异常状态,从所述第二数据处理装置中确定备选数据处理装置,并检测所述备选数据处理装置的状态;响应于所述备选数据处理装置的状态为正常状态,将所述备选数据处理装置确定为所述目标第二数据处理装置;所述控制器,还用于:响应于所述备选数据处理装置的状态为异常状态,从所述第二数据处理装置中确定新的备选数据处理装置,并返回至检测所述备选数据处理装置的状态是否正常的步骤。
这样,通过先确定备选数据处理装置的状态是否正常,再确定其是否可以作为目标第二数据处理装置的方式,可以避免直接将备选数据处理装置切换为目标第二数据处理装置后,备选数据处理装置仍无法正常的完成数据处理任务的分解、下发等任务的情况,而是可以准确的确定可以切换为主控模式并执行该模式下数据处理任务的数据处理装置,因此可以避免重复多次对多个数据处理装置进行切换,效率更高。
一种可选的实施方式中,所述控制器,在从所述第二数据处理装置中,确定要切换为主控模式的目标第二数据处理装置时,还用于,从所述备选数据处理装置中读取类型信息;响应于读取到的所述类型信息为预设类型信息,将所述备选数据处理装置确定为所述目标第二数据处理装置。
这样,控制器还可以确定备选数据处理装置的类型信息,以避免将无法执行主控模式下数据处理任务的数据处理装置将自身模式切换为主控模式,导致数据处理系统无法继续正常工作,或者多次将备选数据处理装置作为主控模式下的数据处理装置的频繁切换。
一种可选的实施方式中,所述控制器,向所述第一数据处理装置发送第一控制指令,以及向目标第二数据处理装置发送第二控制指令时,用于:向所述第一数据处理装置、和所述目标第二数据处理装置发送复位信号;在复位信号发送成功后,向所述第一数据处理装置发送第一控制指令,以及向目标第二数据处理装置发送第二控制指令;所述第一数据处理装置,在响应于接收到第一控制指令,将自身模式切换为被控模式时,用于:响应于接收到所述复位信号,执行复位;并在完成复位后,响应于接收到所述第一控制指令,将自身模式切换为被控模式;所述目标第二数据处理装置,在响应于接收到第二控制指令,将自身模式切换为主控模式时,用于响应于接收到所述复位信号,执行复位;并在完成复位后,响应于接收到所述第二控制指令,将自身模式切换为主控模式。
这样,通过控制器向第一数据处理装置以及目标第二数据处理装置下发复位信号,第一数据处理装置和目标第二数据处理装置可以解除当前的自身模式,使得第一数据处理装置和目标第二数据处理装置在对自身模式进行切换时,可以直接通过选通其分别对应的数据处理芯片与第一存储器或者第二存储器之间的传输通路实现,这样可以较为简单的使第一数据处理装置、以及目标数据处理装置完成自身模式的切换,并有效的减少在切换时出现切换故障的情况发生。
一种可选的实施方式中,所述控制器,还用于:响应于接收到所述第一数据处理装置、和所述目标第二数据处理装置发送的成功切换信号,向所述第一数据处理装置、和所述目标第二数据处理装置发送解除复位信号;所述第一数据处理装置,响应于接收到所述解除复位信号,解除复位;所述目标第二数据处理装置,响应于接收到所述解除复位信号,解除复位。
这样,第一数据处理装置和目标第二数据处理装置在解除复位后,目标第二数据处理装置可以基于自身模式为主控模式,继续接收数据处理任务,并将其分解为子任务;同样的,第一数据处理装置可以基于自身模式为被控模式,对接受到的子任务进行任务处理,以使数据处理系统能够继续完成相应的数据处理任务,以恢复数据处理系统的正常数据处理状态。
一种可选的实施方式中,所述控制器还通过总线与所述数据处理装置连接;所述控制器,在向所述第一数据处理装置和所述目标第二数据处理装置发送复位信号时,用于:通过所述总线向所述第一数据处理装置和所述目标第二数据处理装置发送复位信号。
第三方面,本公开实施例还提供一种板卡,所述板卡包括本公开第一方面及其任一实施方式提供一种数据处理装置,或者本公开第二方面及其任一实施方式提供一种数据处理系统。
第四方面,本公开实施例还提供一种数据处理方法,应用于数据处理装置;所述数据处理方法包括:
多路复用器响应于接收到端口选通信号,选通数据处理芯片用于获取配置信息的第一传输通路或者第二传输通路;
所述数据处理芯片响应于所述第一传输通路被选通,获取第一配置信息,基于所述第一配置信息,将自身模式确定为主控模式;响应于所述第二传输通路被选通,获取第二配置信息,并基于所述第二配置信息,将自身模式确定为被控模式。
第五方面,本公开实施例还提供另一种数据处理方法,应用于数据处理系统;所述数据处理方法包括:
控制器对第一数据处理装置的状态进行监测;响应于所述状态指示将所述第一数据处理装置切换为被控模式,向所述第一数据处理装置发送第一控制指令,以及向目标第二数据处理装置发送第二控制指令;
所述第一数据处理装置响应于接收到第一控制指令,将自身模式切换为被控模式;
所述目标第二数据处理装置响应于接收到第二控制指令,将自身模式切换为主控模式。
第六方面,本公开可选实现方式还提供一种电子设备,处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述机器可读指令被所述处理器执行时执行上述第四方面,或第五方面中任一种可能的实施方式中的步骤。
第七方面,本公开可选实现方式还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被运行时执行上述第四方面,或第五方面中任一种可能的实施方式中的步骤。
关于上述板卡、数据处理方法、电子设备、及计算机可读存储介质的效果描述参见上述数据处理装置以及数据处理系统的说明,这里不再赘述。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种数据处理装置的示意图;
图2示出了本公开实施例所提供的一种数据处理装置的具体结构示意图;
图3示出了本公开实施例所提供的一种数据处理系统的示意图;
图4示出了本公开实施例所提供的一种数据处理系统的具体结构示意图;
图5示出了本公开实施例所提供的一种确定目标第二数据处理装置的示意图;
图6示出了本公开实施例所提供的一种控制器向数据处理装置发送数据复位信号时的示意图;
图7示出了本公开实施例所提供的一种控制器向数据处理装置发送数据复位信号时的示意图;
图8示出了本公开实施例所提供的一种板卡的示意图;
图9示出了本公开实施例所提供的一种数据处理方法的流程图;
图10示出了本公开实施例所提供的另一种数据处理方法的流程图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
经研究发现,在利用CPU进行对图像等的数据处理时,为了加快数据处理的速度以提高效率,通常辅以多个AI加速卡并行对数据进行处理。例如,在对多张图像进行数据处理时,CPU可以作为主控芯片,用于接收外界发送的数据处理任务,并将数据处理任务分解为多个子任务,向多个AI加速卡分配不同的子任务,由多个AI加速卡并行对子任务进行处理,以提升数据处理的效率。但是,在这种“CPU+AI加速卡”硬件架构下,一旦作为主控芯片的CPU出现故障,就会造成整个的数据处理过程受到影响,造成硬件架构的稳定性较差。
基于上述研究,本公开提供了一种数据处理装置,通过在不同情况下将数据处理装置中的数据处理芯片切换为主控模式或者被控模式,从而可以摆脱传统的数据处理装置中对数据处理芯片的功能限制,数据处理芯片可以根据实际的需求切换自身的模式,提升数据处理装置的稳定性。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种数据处理装置进行详细介绍。
参见图1所示,为本公开实施例提供的一种数据处理装置的示意图;所述数据处理装置100包括:数据处理芯片10以及多路复用器20;其中,
所述多路复用器20,用于响应于接收到端口选通信号,选通所述数据处理芯片10用于获取配置信息的第一传输通路或者第二传输通路;
所述数据处理芯片10,用于响应于所述第一传输通路被选通,获取第一配置信息,基于所述第一配置信息,将自身模式确定为主控模式;响应于所述第二传输通路被选通,获取第二配置信息,并基于所述第二配置信息,将自身模式确定为被控模式。
本公开实施例提供的数据处理装置中,多路复用器可以响应于接收到端口选通信号,选通数据处理芯片和第一存储器之间的第一传输通路,以使数据处理芯片将自身模式切换为主控模式;或者,选通数据处理芯片和第二存储器之间的第二传输通路,以使数据处理芯片将自身模式切换为被控模式。这种方式通过在不同情况下将数据处理装置中的数据处理芯片切换为主控模式或者被控模式,从而可以摆脱传统的数据处理装置中对数据处理芯片的功能限制,数据处理芯片可以根据实际的需求切换自身的模式,提升数据处理装置的稳定性。
在具体实施中,数据处理装置100中的多路复用器20例如可以包括数据选择器(multiplexer,MUX)。数据处理装置100中的数据处理芯片10例如可以包括但不限于下述至少一种:AI芯片、图形处理器(graphics processing unit,GPU)、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)、以及特殊应用集成电路(ApplicationSpecific Integrated Circuit,ASIC)。具体地,在数据处理芯片10包括AI芯片的情况下,对应包含该数据处理芯片10的数据处理装置100例如可以包括用于加速数据处理的硬件设备。此处,在数据处理芯片10中,例如还可以包括用于与外部网络对接的网络转接器(network adaptor),该网络转接器例如可以接收外部网络发送的数据,例如数据处理任务中的相关数据。
在本公开实施例中,数据处理芯片10在不同的模式下具有不同的功能。其中,在主控模式下,数据处理芯片10可以接收外界发送的数据处理任务,并将数据处理任务分解为多个子任务,并向其他处于被控模式的数据处理芯片10发送子任务,起到其他数据处理装置100的控制作用;在被控模式下,数据处理芯片10可以接收其他处于主控模式下的数据处理芯片10发送的子任务,并对子任务进行处理,起实际执行数据处理任务的作用。
示例性的,数据处理任务例如可以包括对多张图像进行分类识别,其中,将该数据处理任务分解为多个子任务后,每个子任务包括:对多张图像中的一张图像进行分类识别。或者,数据处理任务还可以包括对一张图像进行多种数据增强处理,其中,将该数据处理处理任务分解为多个子任务后,每个子任务包括:利用其中多种数据增强处理方式中的一种数据增强处理方式,对图像进行数据增强处理;多种数据增强处理例如包括:对图像进行平滑处理、高斯模糊处理、随机擦除处理、以及边界检测处理。另外,上述数据处理任务仅仅示出了两种示例,还可以利用本公开实施例提供的数据处理装置100执行其他的数据处理任务,本公开实施例中不做限定。
在具体实施中,数据处理芯片10在自身模式处于主控模式下、与自身模式处于被控模式下时,具有不同的功能。
具体地,对于在自身模式处于所述主控模式下的数据处理芯片10而言,数据处理芯片10可以响应于接收到数据处理任务,将所述数据处理任务分解为多个子任务,向处于被控模式的其他数据处理装置100下发所述子任务。
对于自身模式处于被控模式下的数据处理芯片10而言,数据处理芯片10可以响应于接收到处于主控模式的其他数据处理装置100下发的子任务,执行所述其他数据处理装置100下发的子任务。
示例性的,数据处理装置100中的数据处理芯片10例如可以用IC(integratedcircuit)表示。其中,对应于多个数据处理装置100(例如包括三个数据数据处理装置),其分别对应的数据处理芯片10可以分别表示为IC_1、IC_2、以及IC_3。当前,IC_1的自身模式处于主控模式、IC_2以及IC_3的自身模式处于被控模式。IC_1在接受到由主机(host)侧、或者由其他上位机设备发送的数据处理任务后,将接收到的数据处理任务分解为多个子任务。其中,多个子任务例如可以包括对第一张图像进行分类识别的子任务M_1、以及对第二张图像进行分类识别的子任务M_2。IC_1在确定子任务M_1以及M_2后,例如可以向处于被控模式的IC_2发送子任务M_1、以及向同样处于被控模式的IC_3发送子任务M_2。
IC_2在接收到子任务M_1后,执行该子任务M_1,对第一张图像进行分类识别;类似的,IC_3在接收到子任务M_2后,执行该子任务M_2,对第二张图像进行分类识别。在一种可能的实施方式中,处于被控状态的数据处理芯片10还可以在执行子任务后,将处理结果发送至处于主控状态的数据处理芯片10。例如,在IC_2确定分类(classification)识别结果为C1、以及IC_3确定分类识别结果为C2的情况下,还可以分别将识别结果C1以及识别结果C2发送至IC_1。
数据处理装置100中,若数据处理芯片10处于主控模式;数据处理芯片10在出现故障的情况下,可以将该数据处理芯片10的当前模式由主控模式切换为被控模式;同时,另一数据处理装置100中处于被控模式的数据处理芯片10,由被控模式切换为主控模式,这样,可以避免同时出现多个主控模式下的数据处理芯片10的情况产生。同时,由于数据处理芯片10模式的切换,保证了一旦处于主控模式的数据处理芯片10发生故障,就会有其他数据处理装置中的数据处理芯片10替代其主控功能,保证系统的稳定性。
在另一种可能的实施方式中,为了避免故障状态的数据处理芯片10影响数据处理任务的正常执行,也可以不将出现故障的数据处理芯片10由主控模式切换为被控模式,而是响应于当前主控模式下的数据处理芯片10出现故障,断开所述数据处理芯片10与其他数据处理芯片10之间的数据传输通路。在该种情况下,需要将另一数据处理装置100中的数据处理芯片10由被控模式切换为主控模式。
另外,由于包含数据处理芯片10的数据处理装置100可以单独被集成为集成电路、电路板或者芯片,也即数据处理装置100是可热插拔的,因此数据处理芯片10在出现故障时,可以将包含有该数据处理芯片10的数据处理装置100拔除,并更换新的数据处理装置100,且在该过程中,无需暂停其他数据处理装置100的正常使用,能够减少故障修复过程对其他数据处理装置100的影响,以及维护硬件架构的稳定性。
在本公开另一实施例中,数据处理芯片10的切换例如可以是利用数据处理装置100中还包括的第一存储器和第二存储器实现的。参见图2所示,示出了一种数据处理装置的具体结构示意图,其中,包括第一存储器30以及第二存储器40;所述第一存储器30和所述第二存储器40分别与所述多路复用器20中的端口A以及端口B连接。
具体地,第一存储器30和第二存储器40例如可以为闪存(flash)。多路复用器20响应于接受到端口选通信号,可以选通所述数据处理芯片10和所述第一存储器30之间的第一传输通路、或者选通所述数据处理芯片10和所述第二存储器40之间的第二传输通路,以使数据处理芯片10响应于第一传输通路被选通,将自身模式确定为主控模式;或者使数据处理芯片10响应于第二传输通路被选通,将自身模式确定为被控模式。
其中,在第一存储器30中,存储有第一配置信息。数据处理芯片10在获取第一配置信息后,例如可以接收由主机或者其他上位机设备发送的数据处理任务,或者,也可以对其他的数据处理装置100中的数据处理芯片10进行其他的数据配置。对应的,接收第一配置信息的数据处理芯片10即可以将自身模式确定为主控模式。
示例性的,数据处理芯片10与第一存储器30之间例如包括第一传输通路,第一传输通路例如可以包括串行外设接口(Serial Peripheral Interface,SPI)总线。由于多路复用器20与第一存储器30连接,因此在数据处理芯片10的自身模式确定为主控模式时,可以通过选通多路复用器20与第一存储器30之间的第一数据通路实现。其中,多路复用器20与第一存储器30之间的通信协议也可以包括SPI总线,也可以根据实际情况选取不同的协议,具体地在此不再赘述。
在第二存储器40中,存储有第二配置信息。数据处理芯片10在获取第二配置信息后,例如可以接收其他数据处理装置100中的数据处理芯片10发送的子任务,例如上述子任务M_1、以及子任务M_2。具体地,在本公开实施例中,接收第二配置信息的数据处理芯片10对向其发送子任务的数据处理芯片10是无感知的,其在接收到子任务后执行响应的数据处理任务即可。也即,对应接收第二配置信息的数据处理芯片10可以将自身模式切换为被控模式,并且继续执行由当前自身模式出于主控模式的数据处理芯片10发送的子任务,能够减少在执行数据处理任务时的中断,具有更好的处理连贯性。
示例性的,数据处理芯片10与第二存储器40之间例如可以包括第二传输通路。其中,第二传输通路例如也可以与第一传输通路相同的设置为SPI总线,以使数据处理芯片10在切换自身状态时无需切换通信协议,切换时较为简单,也可以在一定程度上提高效率。当数据处理芯片10出现故障时,对于此时可以切换为主控模式的其他数据处理芯片10,该可以切换为主控模式的数据处理芯片10中的多路复用器20与第二存储器40连接,因此在当前可以切换为主控模式的数据处理芯片10确定将自身模式切换为被控模式时,可以通过选通多路复用器20与第二存储器40之间的数据通路实现。
在另一实施例中,由于多路复用器20主要起转换开关的作用,其无法承担判断数据处理装置100中的数据处理芯片10是否需要对自身模式进行切换的任务,因此在数据处理装置100中还包括信号转换器以及监测芯片。参见图2所示,其示出了信号转换器50以及监测芯片60在数据处理装置100中的电路连接关系,详见下述对信号转换器50与监测芯片60的说明。
其中,监测芯片60可以用于对数据处理芯片10的状态进行监测,以判断数据处理芯片10是否可以正常工作,从而确定是否需要对数据处理芯片10的当前模式进行切换。另外,信号转换器50还与在数据处理装置外部的控制器连接,由于控制器无法直接利用总线(此处,总线包括系统管理总线(System Management Bus,SMBUS))直接读取监测芯片60确定的监测结果,因此控制器可以从信号转换器50中读取监测芯片60发送、并存储至信号转换器50中的监测结果,并进一步地向信号转换器发送控制指令,以控制多路复用器20选通第一传输通路、或者选通第二传输通路,以实现数据处理芯片10自身模式的切换。
具体地,针对监测芯片60而言,所述监测芯片60分别与所述数据处理芯片10和所述信号转换器50连接,具体的连接关系可以参见下述对信号转换器50的说明。所述监测芯片60,用于监测所述数据处理芯片10的工作状态,并向所述信号转换器50发送与所述工作状态对应的监测信号。
示例性的,监测芯片60例如可以选用SP706芯片,或者选用MAX706芯片。监测芯片60包括有多个管脚,可以接收或者发送不同的信号。具体地,监测芯片60例如可以包括看门狗信号输入(Watch Dog Input,WDI)管脚,该WDI管脚与数据处理芯片10连接,用于监测数据处理芯片10的工作状态。
示例性的,若监测芯片60的WDI管脚的输入/输出(Input/Output,I/O)端口在1.6秒内有电平变化时,监测芯片60中包括的看门狗信号输出(Watch Dog Output,WDO)管脚的输出信号为高电平,表征数据处理芯片10的工作状态正常。若监测芯片60的WDI管脚的I/O端口在1.6秒内没有电平变化时,监测芯片60中包括的WDO管脚的输出信号为低电平,表征数据处理芯片10的工作状态异常。
在监测芯片60对数据处理芯片10的工作状态进行监测后,可以确定与工作状态对应的监测信号。示例性的,可以直接将以高、低电平表示的WDO管脚的输出信号作为监测信号;或者,也可以另外设置电平逻辑确定监测信号,例如在确定数据处理芯片10的工作状态正常时,确定对应的监测信号为低电平,并在确定数据处理芯片10的工作状态异常时,确定对应的监测信号为高电平。具体地可以根据实际情况确定,这里不做出限定。
监测芯片60在确定监测信号后,可以向信号转换器50发送监测信号。此处,为了将数据处理装置100轻量化、并且可以利用一个控制器对多个数据处理装置100进行管理,因此可以在数据处理装置100外设置控制器,以根据监测信号判断是否需要对数据处理芯片10的自身状态进行切换。也即,控制器例如可以包括在数据处理装置外起判断决策作用的电子器件。
此处,控制器在读取监测芯片60确定的监测信号时,可以利用SMBUS读取该监测信号。但在选用SP706芯片作为监测芯片60时,由于控制器无法通过SMBUS直接读取SP706芯片确定的监测信号,但可以通过SMBUS有效地控制信号转换器50任意一个输入管脚的输出与监测信号对应的、且可以由控制器读取的电平信号,因此监测芯片60可以将监测信号发送至信号转换器50,然后控制器再通过SMBUS读取信号转换器50中存储的监测信号。
其中,在数据处理装置100的数量较多的情况下,由于控制器可以支持读取的SMBUS的数量有限,因此控制器只能通过SMBUS读取有限数量的数据处理装置100对应的监测信号。在该种情况下,还可以为控制器提供扩展芯片,例如PCA9548,以使控制器可以对当前所需监控的数据处理装置100进行监测信号的读取。同样的,对于控制器向数据处理装置100发送其他信号的情况,也可以通过为其扩展芯片的方式,实现向更多数量的数据处理装置100发发送信号。例如,在下述实施例中,控制器向数据处理装置100发送复位信号、以及解除复位信号时,也可以采用为控制器提供扩展芯片的方式,实现向单一设置控制器时未能接收到信号的其他数据处理装置100发送信号。在下文中不再重复赘述。
本公开另一实施例中,所述信号转换器50,还用于接收所述监测芯片60发送的所述监测信号,并基于预设的第二通信协议向所述控制器发送所述监测信号。
其中,信号转换器50例如可以选用PCA9555芯片。
示例性的,参见图2所示,信号转换器50例如可以包括两个输入/输出管脚,分别表示为I/O_1以及I/O_2;并包括一个同步串行总线(Inter-Integrated Circuit,I2C)接口。其中,信号转换器50中的I/O_1与监测芯片中的WDO连接。监测芯片60例如可以利用WDO将监测信号传输至信号转换器50;其中,I/O_1用于接收监测芯片60中WDO发送的监测信号,然后信号转换器50中的寄存器改写该监测信号,控制器可以从I2C读取改写后的监测信号,从而判断数据处理芯片10是否可以正常工作。在该种情况下,图2中指示的信号转换器50中的I2C与控制器之间的数据通路,是指控制器从I2C读取信号的数据通路。
其中,信号转换器50可以基于预设的第二通信协议向所述控制器发送监测信号。第二通信协议例如可以包括SMBUS使用的通信协议。
在本公开另一实施例中,由于在对数据处理芯片10的自身状态进行切换时,同时需要满足数据处理芯片10能够适应切换后的模式。例如,数据处理芯片10的类型包括仅能提供算力的计算芯片,以及可以提供算力、也可以执行子任务分发的其他芯片。则对于计算芯片而言,在将其自身状态切换由被控状态切换为主控状态时,由于该计算芯片无法承担分发子任务的功能,因此该计算芯片在将其自身模式切换为主控模式后,数据处理任务也无法正常执行,也即,计算芯片的自身模式不应被切换为主控模式。
因此,数据处理装置100中还可以包括类型寄存器。参见图2所示,其中示出了类型寄存器的电路连接示意图。其中,类型寄存器90例如可以选用带电可擦可编程只读存储器(Electrically Erasable Programmable read only memory,E2PROM),具体地可以选用现场可更换部件(Field-Replaceable Unit E2PROM,FRU E2PROM)。由于数据处理芯片10可以承担的任务是固定的,也即其类型是固定的,因此数据处理芯片10的类型信息可以预先确定。具体地,可以为数据处理芯片10确定对应的类型寄存器90,所述类型寄存器90用于存储所述数据处理芯片10的类型信息;并且,由于数据处理芯片10对应的类型信息是固定的,因此在制作数据处理装置100时,可以直接将类型信息烧录至类型寄存器90中,并且类型寄存器90中存储的类型信息保持不变。此处,类型寄存器90例如可以与与其对应的数据处理芯片10连接;或者在数据处理装置100中作为单独的寄存器存在,与数据处理芯片10中的其他模块无连接关系,在图2中示出了与数据处理芯片10中的其他模块无连接关系的类型寄存器90。另外,数据处理装置100外的控制器与该类型寄存器90连接;具体地,控制器也可以利用SMBUS读取类型寄存器90中存储的类型信息,并判断该数据处理芯片10是否能够切换自身模式。
示例性的,控制器可以确定当前自身模式处于被控模式的数据处理芯片10,然后对该数据处理芯片10进行监测,具体可以在接收到信号转换器50中存储的监测信号后,通过该监测信号判断对应的数据处理芯片10是否可以正常工作。在一种可能的情况下,若监测信号表征数据处理芯片10能够正常工作,则保持当前数据处理芯片10的自身模式不变,继续执行数据处理任务。
在另一种可能的情况下,若监测信号表征数据处理芯片10不能正常工作,则控制器例如可以控制该数据处理芯片10所在数据处理装置100中的信号选通器,以使信号选通器向多路复用器20中的端口选通接口发送端口选通信号。参见图2所示,示出了多路复用器的电路连接图。
具体地,所述信号转换器50用于基于预设的第一通信协议接收控制器发送的控制指令,并将所述控制指令转换为端口选通信号,向所述多路复用器20发送所述端口选通信号。其中,第一通信协议例如可以是与第二通信协议相同的通信协议,例如SMBUS,或者也可以根据实际情况选取与第一通信协议不同的其他通信协议。
其中,信号转换器50中的I/O_2,可以用于向与其连接的多路复用器20中的端口选通端口发送端口选通信号,该端口选通信号用于指示多路复用器20选通多路复用器20与第一存储器30或者第二存储器40之间的第一传输通路或者第二传输通路。
对应于当前不能正常工作的数据处理芯片10,控制器例如可以向其对应的数据处理装置100中的信号转换器50中的同步串行总线(Inter-Integrated Circuit,I2C)接口发送控制指令,以使信号转换器50在接收到该控制指令后,向多路复用器20的端口选通端口发送指示多路复用器20选通第二传输通路的端口选通信号PO_1。在该种情况下,图2中指示的信号转换器50中的I2C与控制器之间的数据通路,是指控制器向I2C发送控制指令的数据通路。此时,对于该数据处理芯片10,其自身模式将会由当前的主控模式切换为被控模式。
而对应于当前可以正常工作的数据处理芯片10,若控制器在读取该数据处理芯片10所在的数据处理装置100中的类型寄存器90,确定其类型信息指示该数据处理芯片10可以用作主控模式下的数据处理芯片10时,可以向其对应的信号转换器50中的I2C接口发送控制指令,以使在接收到该控制指令后,向多路复用器20的端口选通端口发送指示多路复用器20选通第一传输通路的端口选通信号PO_2。则对于该数据处理芯片10,其自身模式将会由当前的被控模式切换为主控模式。
本公开实施例还提供了一种数据处理系统。参见图3所示,为本公开实施例提供的一种数据处理系统200的示意图;所述数据处理系统200包括本公开实施例提供的数据处理装置100、以及控制器70;其中,所述数据处理装置100有多个;多个所述数据处理装置100包括:处于主控模式的第一数据处理装置101、以及处于被控模式的第二数据处理装置102;其中,
所述控制器70,用于对所述第一数据处理装置的状态进行监测;响应于所述状态指示将所述第一数据处理装置切换为被控模式,向所述第一数据处理装置发送第一控制指令,以及向目标第二数据处理装置发送第二控制指令;
所述第一数据处理装置101,用于响应于接收到第一控制指令,将自身模式切换为被控模式;
所述目标第二数据处理装置103,用于响应于接收到第二控制指令,将自身模式切换为主控模式。
本公开实施例提供的数据处理系统200,可以利用控制器确定第一数据处理装置的状态,确定是否需要对其模式进行切换。在控制器确定切换第一数据处理装置的自身模式时,可以向第一数据处理装置发送第一控制指令,以使其自身模式切换为被控模式;同时可以向第二数据处理装置中的目标第二数据处理装置发送第二控制指令,以使目标第二数据处理装置将自身模式切换为主控模式。这样,在数据处理系统200中的主控模式下的数据处理装置出现故障的情况下,可以由其他被控模式下的数据处理装置切换为主控模式,继续承担主控模式下的数据处理装置的功能,从而保证数据处理系统200正常、稳定的运行。
在具体实施中,第一数据处理装置101包括一个,其自身模式为主控模式,相应地在第一数据处理装置101中的数据处理芯片,其自身模式为主控模式。对应于第二数据处理装置102,其可以根据实际的数据处理任务需求、或者处于对数据处理系统200的工作稳定性的要求,设置为一个或多个。在第一数据处理装置101的工作状态出现异常时,可以在第二数据处理装置102中选择合适的目标第二数据处理装置103切换为主控模式,以替代异常的第一数据处理装置101,从而保证数据处理系统200正常、稳定的运行。
具体地,控制器70在对所述第一数据处理装置101的状态进行监测时,例如可以接收所述第一数据处理装置101发送的监测信号;基于所述监测信号,确定所述第一数据处理装置101的工作状态;基于所述第一数据处理装置101的工作状态,确定是否要将所述第一数据处理装置101切换为被控模式。
其中,第一数据处理装置101向控制器70发送监测信号的具体过程可以参见上述对数据处理装置100中的说明,在此不再赘述。
在具体实施中,控制器70基于所述监测信号,确定所述第一数据处理装置101的状态时,例如可以根据监测信号确定第一数据处理装置101的状态为工作状态和/或数据通路状态。
其中,在第一数据处理装置101在主控模式下正常工作时,例如第一数据处理装置101在接收到数据处理任务后将其处理为多个子任务,并向第二数据处理装置102分发子任务时,可以认为第一数据处理装置101的工作状态是工作状态,也即第一数据处理装置101在相应的执行数据处理任务。
或者第一数据处理装置101还可以包括有数据通路状态。例如,对于当前不能正常工作的第一数据处理装置101,其无法正常向第二数据处理装置102分发子任务,因此只有数据通路上的连接关系,则对应的将第一数据处理装置的状态确定为数据通路状态。
这样,可以较为直观的利用第一数据处理装置101的状态,确定是否需要将其切换为被控模式,下面以第一数据处理装置101仅包含工作状态或者数据通路状态两种情况为例进行说明。
另外,控制器70在基于监测信号确定第一数据处理装置101的工作状态时,可以简单的依据预设的监测信号、以及可选的状态判断结果之间的对应关系,为第一数据处理装置101确定其状态。例如,在第一数据处理装置101中的数据处理芯片的工作状态异常的情况下,可以向控制器70发送高电平的监测信号,控制器70在接受到该高电平的监测信号后,可以确定第一数据处理装置101的工作状态为工作状态。或者,在第一数据处理装置101中的数据处理芯片的工作状态正常的情况下,可以向控制器70发送低电平的监测信号,控制器70在接受到该低电平的监测信号后,可以确定第一数据处理装置101的工作状态为数据通路状态。
控制器70在确定第一数据处理装置101的工作状态后,还可以基于确定的第一数据处理装置101的工作状态,确定是否要将所述第一数据处理装置101切换为被控模式。具体地,控制器70可以监测所述第一数据处理装置101与所述通信交换机之间的数据通路状态;基于所述第一数据处理装置101与所述通信交换机之间的数据通路状态,确定是否要将所述第一数据处理装置101切换为被控模式。
其中,通信交换机例如可以包括高速串行计算机扩展总线标准交换机(Peripheral Component Interconnect Express Switch,PCIE Switch)。参见图4所示,为本公开实施例提供的一种数据处理系统的具体结构示意图;其中,多个数据处理装置分别通过所述通信交换机80与所述控制器70连接。另外,在多个数据处理装置分别与通信交换机80连接时,可以利用高速串行计算机扩展总线标准交换机卡槽(PCIE Slot)进行连接;在图4中示出了多个数据处理装置(数据处理装置以“DP”表示,图中示出的多个数据处理装置包括DP_1、DP_2、……、DP_n)分别对应的PCIE Slot,包括PCIE Slot#1、PCIE Slot#2、PCIESlot#3、……、PCIE Slot#n。这样,数据处理装置在向通信交换机80通信时,即可以选用PCIE协议进行通信。
具体地,控制器70可以通过通信交换机80主动发出的数据通路正常信号,例如PORT_GOOD#信号,确定当前的第一数据处理装置101的数据传输通路处于正常状态。
示例性的,参见图4所示,通信交换机80例如可以向控制器发送与多个数据处理装置DP_1至DP_n分别对应的PORT_GOOD#信号,例如可以包括图4中示出的PORT_GOOD#1至PORT_GOOD#n。
此处,若控制器70未能接收到通信交换机80发出的与任一数据处理装置对应的数据通路正常信号,则可以确定该数据处理装置与通信交换机80之间的数据通路状态出现异常。例如,控制器70若未能接收到PORT_GOOD#1,则可以确定数据处理装置DP_1与通信交换机80之间的数据传输通路状态出现异常,也即PCIE Slot#1对应的数据通路状态出现异常。
另外,由于控制器70在基于通信交换机80发送的PORT_GOOD#信号确定对应数据处理装置与通信交换机80之间的数据通路状态时,数据传输的方向为由数据处理装置向控制器进行数据传输的方向。但是,在一种可能的情况下,若在多个数据处理装置中确定自身模式为主控模式的第一数据处理装置101,则第一数据处理装置101也可以向其他处于被控状态的第二数据处理装置102发送子任务(例如在DP_1作为第一数据处理装置101时,其余的DP_2至DP_n均可以作为第二数据处理装置102)。因此在图4中示出的数据传输通路中也可以存在向第二数据处理装置102(也即DP_2至DP_n)发送的数据,则与上述确定数据通路状态时的数据传输方向相反。因此,在图2中未示出数据传输时的具体方向,但在具体的数据处理情况下,均可以代表对应于数据处理任务的数据传输方向。
此处,第一数据处理装置101的数据传输通路例如可以包括与PCIE通信协议对应的数据传输通路,或者也可以选取其他可以用于进行子任务传输的数据传输通路,并对应的替换所使用的通信交换机80。
控制器70在确定第一数据处理装置101与通信交换机80之间的数据通路状态后,还可以基于该数据通路状态,确定是否要将第一数据处理装置101切换为被控模式。具体地,控制器70在确定数据通路状态异常的情况下,确定第一数据处理装置101的状态为异常状态,并确定将第一数据处理装置101切换为被控模式;或者,控制器70在确定数据通路状态正常的情况下,保持第一数据处理装置101的自身状态为主控模式。
针对控制器70在确定将第一数据处理装置101切换为被控模式的情况,由于当前使用的第一数据处理装置101的工作状态出现异常无法正常工作,为了保证数据处理系统200能够继续完成对数据处理任务的分解、以及对分解后得到的子任务进行下发的工作,还可以在第二数据处理装置102中确定目标第二数据处理装置103,以将该目标第二数据处理装置103作为新的第一数据处理装置101,完成相应的数据处理任务。因此,控制器70还可以基于所述第二数据处理装置102的状态,从所述第二数据处理装置102中,确定要切换为主控模式的目标第二数据处理装置103。
在具体实施中,控制器70可以响应于所述第一数据处理装置101的状态为异常状态,从所述第二数据处理装置102中确定备选数据处理装置,并检测所述备选数据处理装置的状态;响应于所述备选数据处理装置的状态为正常状态,将所述备选数据处理装置确定为所述目标第二数据处理装置103。
具体地,参见图5所示,为本公开实施例提供的一种确定目标第二数据处理装置的示意图。在图5中,包括数据处理系统200中可使用的数据处理装置DP_1、DP_2、……、DP_n。其中,DP_1为当前的第一数据处理装置101。在确定DP_1的状态为异常状态后,在从第二数据处理装置102中确定备选数据处理装置时,例如可以确定与DP_1顺位相邻的第二数据处理装置102作为备选数据处理装置。
其中,在确定与第一数据处理装置101顺位相邻的第二数据处理装置102时,例如可以根据多个数据处理装置的顺序编号确定。示例性的,在确定数据处理系统200中的多个数据处理装置时,依次确定了n个数据处理装置,包括DP_1、DP_2、……、DP_n,则认为与第一数据处理装置DP_1顺位相邻的第二数据处理装置102可以是在确定多个数据处理装置时,确定该第一数据处理装置DP_1后确定的下一个数据处理装置,也即DP_2,并将DP_2作为备选数据处理装置。
或者,例如还可以依据除该第一数据处理装置101外的多个数据处理装置的当前状态,确定与第一数据处理装置101顺位相邻的第二数据处理装置102。例如,可以在确定备选数据处理装置时,首先对多个数据处理装置的运行温度等进行监控,并根据多个数据处理装置分别对应的运行温度,由较低的运行温度至较高的运行温度的方向,确定多个数据处理装置的排序。示例性的,在多个数据处理装置包括DP_2、DP_3、DP_4的情况下,对应的排序例如为DP_3、DP_4、DP_2。然后,在确定第一数据处理装置101顺位相邻的第二数据处理装置102时,确定运行温度最低的第二数据处理装置102,也即DP_3,作为备选数据处理装置。
此处,在确定多个数据处理装置的顺位时选取的方式不同,确定的备选数据处理装置也可能不同。具体地可以根据实际情况确定对应的备选数据处理装置,在此不做出限定。
在确定备选数据处理装置后,为了避免备选数据处理装置存在故障,导致将其自身状态切换为主控状态后,数据处理系统200仍不能正常工作的问题,也同时保证在对第一数据处理装置101以及第二数据处理装置102切换时的效率,控制器70还可以对备选数据处理装置的状态进行监测。
在一种可能的实施方式中,控制器70还可以响应于所述备选数据处理装置的状态为异常状态,从所述第二数据处理装置102中确定新的备选数据处理装置,并返回至检测所述备选数据处理装置的状态是否正常的步骤。
其中,确定新的备选数据处理装置的方式,与上述从第二数据处理装置102中确定备选数据处理装置的方式相似,在此不再赘述。
另外,控制器70在从所述第二数据处理装置102中,确定要切换为主控模式的目标第二数据处理装置103时,还用于从所述备选数据处理装置中读取类型信息;响应于读取到的类型信息为预设类型信息,将所述备选数据处理装置确定为所述目标第二数据处理装置103。
此处,与上述图1对应的数据处理装置中的说明相似,若备选数据处理装置的类型信息指示该数据处理装置不能作为主控模式下的数据处理装置时,即使该备选数据处理装置的状态为正常状态,也不能将该备选数据处理装置的自身状态切换为主控状态,并将其作为目标第二数据处理装置103。因此,控制器70还可以对备选数据处理装置的类型信息进行读取,确定其是否可以被选作目标第二数据处理装置103并作为主控模式下的数据处理装置工作。控制器70具体读取备选数据处理装置的类型信息的方式,可以参见上述图1对应的实施例中的相关说明,在此不再赘述。
这样,利用这种方式可以确定在将其自身模式切换为主控模式后,数据处理系统200可以正常使用时的备选数据处理装置,效率较高。在确定备选数据处理装置的状态为正常状态后,停止筛选第二数据处理装置102,并将该确定的备选数据处理装置,作为目标第二数据处理装置103。
控制器70在确定目标第二数据处理装置103后,即可以通过对第一数据处理装置101以及目标第二数据处理装置103分别对应的自身模式进行切换的方式,为数据处理系统200确定新的第一数据处理装置101。
在具体实施中,控制器70可以向所述第一数据处理装置101、和所述目标第二数据处理装置103发送复位信号;在复位信号发送成功后,向所述第一数据处理装置101发送第一控制指令,以及向目标第二数据处理装置103发送第二控制指令。
参见图6所示,为本公开实施例提供的一种控制器向数据处理装置发送数据复位信号时的示意图。其中,复位信号例如可以使用设备复位信号(PCIE Reset,PERST)。另外,控制器70还可以向通信交换机80发送设备复位信号。通信交换机80接收到复位信号后,执行复位操作。
另一实施例中,存在控制器70无法在向通信交换机80发送复位信号后,再由通信交换机80向数据处理装置发送复位信号的情况,在该种情况下,在图6中未示出通信交换机80与数据处理装置之间的连接关系,而是直接表达控制器70向通信交换机80以及数据处理装置发送复位信号的数据传输通路。
在具体实施中,控制器70还通过总线与所述数据处理装置连接;所述控制器70,在向所述第一数据处理装置101和所述目标第二数据处理装置103发送复位信号时,用于:通过所述总线向所述第一数据处理装置101和所述目标第二数据处理装置103发送复位信号。
示例性的,总线例如可以包括SMBUS。
在一种可能的情况下,对应于图4示出的电路结构,若通信交换机80可以使用SMBUS向数据处理装置DP_1~DP_n发送复位信号,则可以由控制器70向通信交换机80发送复位信号,再由通信交换器80向与其连接的数据处理装置DP_1~DP_n发送复位信号。在另一种可能的情况下,若通信交换机不能使用SMBUS向数据处理装置DP_1~DP_n发送复位信号,则控制器70利用可以利用上述图1示出的结构,通过SMBUS向数据处理装置中的信号转换器中的I2C发送复位信号,从而使得对应的数据处理装置复位。
控制器70向第一数据处理装置101以及目标第二数据处理装置103发送复位信号后,第一数据处理装置101和目标第二数据处理装置103可以解除当前的自身模式,这样在对二者分别对应的自身模式进行切换时,可以直接通过选通其分别对应的数据处理芯片与第一存储器或者第二存储器之间的传输通路实现,这样可以较为简单的使第一数据处理装置101、以及目标数据处理装置完成自身模式的切换,并有效的减少在切换时出现切换故障的情况发生。
具体地,通信交换机80接收到复位信号后,还可以停止向控制器70发送PORT_GOOD#信号,也即停止对数据处理装置对应数据通路的监测,以减小在切换时通信交换机80以及控制器70的功耗。在第一数据处理装置101和目标第二数据处理装置103接收到复位信号并完成复位后,控制器70可以向第一数据处理装置101发送第一控制指令,并向目标第二数据处理装置103发送第二控制指令。其中,第一控制指令用于指示第一数据处理装置101的自身状态切换为被控状态;第二控制指令用于指示目标数据处理装置的自身状态切换为主控状态。
对应的,对于第一数据处理装置101,在响应于接收到第一控制指令,将自身模式切换为被控模式时,用于响应于接收到所述复位信号,执行复位;并在完成复位后,响应于接收到所述第一控制指令,将自身模式切换为被控模式。对于目标数据处理装置,在响应于接收到第二控制指令,将自身模式切换为主控模式时,用于响应于接收到所述复位信号,执行复位;并在完成复位后,响应于接收到所述第二控制指令,将自身模式切换为主控模式。
以第一数据处理装置101为例,第一数据处理装置101在接收到第一控制指令后,参见本公开实施例提供的数据处理装置的说明,第一控制指令可以发送至第一数据处理装置101中的信号转换器,并通过由信号转换器向多路复用器发送端口选通信号的方式,将第一数据处理装置101中的数据处理芯片可以获取第二存储器中的第二配置信息,以将该第一数据处理装置101的自身模式切换为被控模式。类似的,目标第二数据处理装置103可以以相似的方式,将其自身模式切换为主控模式,在此不再赘述。
在第一数据处理装置101和目标第二数据处理装置103的自身模式完成切换后,例如还可以向控制器70分别发送成功切换信号。在一种可能的情况下,若控制器70未接收到两者分别发送的成功切换信号,例如可以直接报错,等待工作人员检查,并保持第一数据处理装置101和目标第二数据处理装置103的复位状态,或者也可以根据实际情况确定解决方法,在此不做出限定。
在另一种可能的情况下,若控制器70接受到第一数据处理装置101、和目标第二数据处理装置103的成功切换信号,可以向第一数据处理装置101、和目标第二数据处理装置103发送解除复位信号,并且也可以向通信交换机80发送接解除复位信号。对应的,第一数据处理装置101可以响应于接收到的解除复位信号,解除复位;同样的,目标第二数据处理装置103,也可以响应于接收到所述解除复位信号,解除复位。其中,控制器70向第一数据处理装置101、和目标第二数据处理装置103发送接触复位信号的方式,与向其发送复位信号的方式相似,在此不再赘述。通信交换机80在接收到解除复位信号后,可以重新对新的数据处理系统200中的多个数据处理装置进行对应数据通路的监测。这样,目标第二数据处理装置103可以基于自身模式为主控模式,继续接收数据处理任务,并将其分解为子任务;同样的,第一数据处理装置101可以基于自身模式为被控模式,对接受到的子任务进行任务处理,以使数据处理系统200能够继续完成相应的数据处理任务。
在本公开另一实施例中,还提供了一种数据处理系统200在对数据处理任务进行处理时的具体实施例。参见图7所示,为本公开实施例提供的一种数据处理系统在执行数据处理任务时的流程图;其中,
S701:控制器确定当前自身模式为主控模式的第一数据处理装置;
S702:数据处理系统执行数据处理任务;
S703:控制器监控第一数据处理装置的状态是否正常;其中,S703包括下述S7031至S7034;
S7031:控制器监控第一数据处理装置与通信交换机之间的数据通路状态,确定第一数据处理装置的状态是否正常;若是,执行S7032;若否,执行S7033;
S7032:控制器监控第一数据处理装置中的数据处理芯片是否可以正常工作;其中,S7032包括下述S70321、以及S70322;
S70321:监测芯片监测第一数据处理装置中的数据处理芯片的工作状态,并向信号转换器发送与工作状态对应的监测信号;
S70322:控制器读取信号转换器中存储的监测信号,确定第一数据处理装置的状态是否正常;若是,执行S7034;若否,执行S7033;
此处,S7031与S7032可以以相反的顺序执行,例如先执行S7032,然后再执行S7031;或者,S7031与S7032可以同步执行。
S7033:确定第一数据处理装置的状态为异常状态;
S7034:确定第一数据处理装置的状态为正常状态;返回执行S702:
S704:控制器从第二数据处理装置中确定备选数据处理装置;
S705:控制器监测备选数据处理装置的状态是否正常;若是,执行S706;若否,执行S707;
S706:控制器确定备选数据处理装置为目标第二数据处理装置;
S707:控制器从第二数据处理装置中确定新的备选数据处理装置;返回执行S705;
S708:控制器向第一数据处理装置、和目标第二数据处理装置发送复位信号,使第一数据处理装置、和目标第二数据处理装置复位;
S709:控制器向第一数据处理装置发送第一控制指令、以及向目标第二数据处理装置发送第二控制指令;
S710:第一数据处理装置、和目标第二数据处理装置切换自身模式;其中,S710包括S7101以及S71012;
S7101:第一数据处理装置响应于接收到第一控制指令,将自身模式切换为被控模式;
S7102:目标第二数据处理装置响应于接收到第二控制指令,将自身模式切换为主控模式;
S711:控制器向第一数据处理装置以及目标第二数据处理装置发送解除复位信号;第一数据处理装置以及目标第二数据处理装置解除复位。
基于同一发明构思,本公开实施例中还提供了一种板卡。本公开实施例提供的板卡可以包括本公开实施例公开的任一种数据处理装置,或者任一种数据处理系统。包括数据处理装置的板卡可以参见图1和图2,包括数据处理系统的板卡可以参见图8所示。
图8为本公开实施例提供的一种板卡的示意图;所述板卡300包括多个本公开实施例提供的数据处理装置100(图8中示出了n个数据处理装置100,包括DP_1~DP_n)、以及控制器70;其中,多个所述数据处理装置100分别通过通信交换机80与所述控制器70连接;
所述控制器70,用于对各个所述数据处理装置100的状态进行监测;根据各个所述数据处理装置100的状态,将其中一个数据处理装置100切换为主控模式,并将其他数据处理装置100切换为被控模式。
其中,在该板卡中不存在单独的CPU。对于图8中示出的板卡,其中主控模式下的数据处理装置100可以承担数据处理任务的接收、拆分、分发等任务,主控模式又称根处理模式(Root Complex,RC)。在被控模式下的数据处理装置100可以承担对子任务的处理等任务,被控模式又称节点处理模式(End Point,EP)。
在相关技术中,对于利用不同的CPU,例如CPU#1和CPU#2分别连接RC模式下的数据处理装置100和EP模式下的数据处理装置,这样的“CPU+数据处理中装置”硬件架构中,不同模式下的数据处理装置对应不同的CPU,以完成相关的数据处理任务。而在CPU或者数据处理装置中任一个损坏后,会导致整体无法正常使用,从而导致的数据处理任务无法正常执行。另外,在更换新的RC模式下的硬件架构时,还需要对与新的数据处理装置连接的CPU以及该新的数据处理装置整体进行单板验证,例如对“CPU#3+新选出的数据处理装置”的功能进行验证,以确定其是否可以作为新的RC模式下的硬件建构,这种方式也较为繁琐。
而对于本公开实施例提供的板卡而言,由于板卡中可以切换数据处理装置100的自身模式,也即相应的可以将数据处理装置100的模式切换为RC模式或EP模式,因此在RC模式下的数据处理装置100出现故障时,可以快速地通过由其他EP模式下的数据处理装置100切换为RC模式的方法,继续完成数据处理任务,因此该板卡在进行数据处理任务的执行时更灵活、更稳定。
基于同一发明构思,本公开实施例中还提供了与数据处理装置对应的数据处理方法,由于本公开实施例中的方法解决问题的原理与本公开实施例上述数据处理装置相似,因此方法的实施可以参见装置的实施,重复之处不再赘述。
参照图9所示,为本公开实施例提供的一种数据处理方法的流程图,所述数据处理方法应用于本公开实施例提供的数据处理装置;所述数据处理方法包括:
S901:多路复用器响应于接收到端口选通信号,选通所述数据处理芯片用于获取配置信息的第一传输通路或者第二传输通路;
S902:所述数据处理芯片响应于所述第一传输通路被选通,获取第一配置信息,基于所述第一配置信息,将自身模式确定为主控模式;响应于所述第二传输通路被选通,获取第二配置信息,并基于所述第二配置信息,将自身模式确定为被控模式。
一种可选的实施方式中,所述数据处理方法还包括:所述数据处理芯片在自身模式处于所述主控模式下,响应于接收到数据处理任务,将所述数据处理任务分解为多个子任务,向处于被控模式的其他数据处理装置下发所述子任务;或者所述数据处理芯片在自身模式处于所述被控模式下,响应于接收到处于主控模式的其他数据处理装置下发的子任务,执行所述其他数据处理装置下发的子任务。
一种可选的实施方式中,所述数据处理装置还包括:第一存储器和第二存储器;其中,所述第一存储器和所述第二存储器分别与所述多路复用器连接;所述数据处理方法还包括:所述多路复用器响应于接收到端口选通信号,选通所述数据处理芯片和所述第一存储器之间的第一传输通路、或者选通所述数据处理芯片和所述第二存储器之间的第二传输通路。
一种可选的实施方式中,所述数据处理装置还包括:信号转换器;所述信号转换器与所述多路复用器连接;以及与控制器连接;所述数据处理方法还包括:所述信号转换器基于预设的第一通信协议接收所述控制器发送的控制指令,并将所述控制指令转换为端口选通信号,向所述多路复用器发送所述端口选通信号。
一种可选的实施方式中,所述数据处理装置还包括:监测芯片;所述监测芯片分别与所述数据处理芯片和所述信号转换器连接;所述数据处理方法还包括监测芯片监测所述数据处理芯片的工作状态,并向所述信号转换器发送与所述工作状态对应的监测信号;所述信号转换器接收所述监测芯片发送的所述监测信号,并基于预设的第二通信协议向所述控制器发送所述监测信号。
一种可选的实施方式中,所述数据处理装置还包括:类型寄存器;所述类型寄存器用于存储所述数据处理芯片的类型信息。
另外,基于同一发明构思,本公开实施例中还提供了与数据处理系统对应的数据处理方法,由于本公开实施例中的方法解决问题的原理与本公开实施例上述数据处理系统相似,因此方法的实施可以参见系统的实施,重复之处不再赘述。
参照图10所示,为本公开实施例提供的另一种数据处理方法的流程图,所述数据处理方法应用于本公开实施例提供的数据处理系统;所述数据处理方法包括:
S1001:控制器对所述第一数据处理装置的状态进行监测;响应于所述状态指示将所述第一数据处理装置切换为被控模式,向所述第一数据处理装置发送第一控制指令,以及向目标第二数据处理装置发送第二控制指令;
S1002:所述第一数据处理装置响应于接收到第一控制指令,将自身模式切换为被控模式;
S1003:所述目标第二数据处理装置响应于接收到第二控制指令,将自身模式切换为主控模式。
一种可选的实施方式中,所述数据处理装置的状态,包括:工作状态和/或数据通路状态。
一种可选的实施方式中,所述控制器对所述第一数据处理装置的状态进行监测,包括:接收所述第一数据处理装置发送的监测信号;基于所述监测信号,确定所述第一数据处理装置的工作状态;基于所述第一数据处理装置的工作状态,确定是否要将所述第一数据处理装置切换为被控模式。
一种可选的实施方式中,所述数据处理系统还包括:通信交换机;多个所述数据处理装置分别通过所述通信交换机与所述控制器连接;所述控制器对所述第一数据处理装置的状态进行监测,包括:监测所述第一数据处理装置与所述通信交换机之间的数据通路状态;基于所述第一数据处理装置与所述通信交换机之间的数据通路状态,确定是否要将所述第一数据处理装置切换为被控模式。
一种可选的实施方式中,所述控制器对所述第一数据处理装置的状态进行监测,包括:响应于所述第一数据处理装置的状态为异常状态,确定将所述第一数据处理装置切换为被控模式。
一种可选的实施方式中,所述控制器向目标第二数据处理装置发送第二控制指令之前,包括:基于所述第二数据处理装置的状态,从所述第二数据处理装置中,确定要切换为主控模式的目标第二数据处理装置。
一种可选的实施方式中,所述控制器基于所述第二数据处理装置的状态,从所述第二数据处理装置中,确定要切换为主控模式的目标第二数据处理装置,包括:响应于所述第一数据处理装置的状态为异常状态,从所述第二数据处理装置中确定备选数据处理装置,并检测所述备选数据处理装置的状态;响应于所述备选数据处理装置的状态为正常状态,将所述备选数据处理装置确定为所述目标第二数据处理装置;所述控制器响应于所述备选数据处理装置的状态为异常状态,从所述第二数据处理装置中确定新的备选数据处理装置,并返回至检测所述备选数据处理装置的状态是否正常的步骤。
一种可选的实施方式中,所述控制器从所述第二数据处理装置中,确定要切换为主控模式的目标第二数据处理装置,包括:从所述备选数据处理装置中读取类型信息;响应于读取到的类型信息为预设类型信息,将所述备选数据处理装置确定为所述目标第二数据处理装置。
一种可选的实施方式中,所述控制器向所述第一数据处理装置发送第一控制指令,以及向目标第二数据处理装置发送第二控制指令,包括:向所述第一数据处理装置、和所述目标第二数据处理装置发送复位信号;在复位信号发送成功后,向所述第一数据处理装置发送第一控制指令,以及向目标第二数据处理装置发送第二控制指令;所述第一数据处理装置响应于接收到第一控制指令,将自身模式切换为被控模式,包括响应于接收到所述复位信号,执行复位;并在完成复位后,响应于接收到所述第一控制指令,将自身模式切换为被控模式;所述目标第二数据处理装置响应于接收到第二控制指令,将自身模式切换为主控模式,包括响应于接收到所述复位信号,执行复位;并在完成复位后,响应于接收到所述第二控制指令,将自身模式切换为主控模式。
一种可选的实施方式中,数据处理方法还包括:所述控制器响应于接收到所述第一数据处理装置、和所述目标第二数据处理装置发送的成功切换信号,向所述第一数据处理装置、和所述目标第二数据处理装置发送解除复位信号;所述第一数据处理装置,响应于接收到所述解除复位信号,解除复位;所述目标第二数据处理装置,响应于接收到所述解除复位信号,解除复位。
一种可选的实施方式中,所述控制器还通过总线与所述数据处理装置连接;所述控制器向所述第一数据处理装置和所述目标第二数据处理装置发送复位信号,包括:通过所述总线向所述第一数据处理装置和所述目标第二数据处理装置发送复位信号。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
本公开实施例还提供一种电子设备,包括:指令存储器和本公开实施例提供的数据处理装置,或者包括本公开实施例提供的数据处理系统,或者包括本公开实施例提供的板卡。
本公开实施例提供的数据处理装置、数据处理系统、或者板卡可以包括芯片、AI芯片等。本公开实施例提供的电子设备可以包括手机等智能终端,或者也可以是可以进行数据处理的其他设备、服务器等,这里并不限制。
板卡例如包括印刷电路板。
本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被多路复用器、数据处理芯片执行本公开任一数据处理方法实施例提供的方法;或者,被控制器、第一数据处理装置、目标第二数据处理装置执行本公开任一数据处理方法实施例提供的方法。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的数据处理方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
Claims (22)
1.一种数据处理装置,其特征在于,包括:数据处理芯片以及多路复用器;其中,
所述多路复用器,用于响应于接收到端口选通信号,选通所述数据处理芯片用于获取配置信息的第一传输通路或者第二传输通路;
所述数据处理芯片,用于响应于所述第一传输通路被选通,获取第一配置信息,基于所述第一配置信息,将自身模式确定为主控模式;响应于所述第二传输通路被选通,获取第二配置信息,并基于所述第二配置信息,将自身模式确定为被控模式。
2.根据权利要求1所述的数据处理装置,其特征在于,所述数据处理芯片,还用于在自身模式处于所述主控模式下,响应于接收到数据处理任务,将所述数据处理任务分解为多个子任务,向处于被控模式的其他数据处理装置下发所述子任务;或者
所述数据处理芯片,还用于在自身模式处于所述被控模式下,响应于接收到处于主控模式的其他数据处理装置下发的子任务,执行所述其他数据处理装置下发的子任务。
3.根据权利要求1或2所述的数据处理装置,其特征在于,还包括:
第一存储器和第二存储器;
其中,所述第一存储器和所述第二存储器分别与所述多路复用器连接;
所述多路复用器,用于响应于接收到端口选通信号,选通所述数据处理芯片和所述第一存储器之间的第一传输通路、或者选通所述数据处理芯片和所述第二存储器之间的第二传输通路。
4.根据权利要求1-3任一项所述的数据处理装置,其特征在于,还包括:信号转换器;
所述信号转换器与所述多路复用器连接;以及与控制器连接;
所述信号转换器用于基于预设的第一通信协议接收所述控制器发送的控制指令,并将所述控制指令转换为所述端口选通信号,向所述多路复用器发送所述端口选通信号。
5.根据权利要求1-4任一项所述的数据处理装置,其特征在于,还包括:监测芯片;
所述监测芯片分别与所述数据处理芯片和所述信号转换器连接;
所述监测芯片,用于监测所述数据处理芯片的工作状态,并向所述信号转换器发送与所述工作状态对应的监测信号;
所述信号转换器,还用于接收所述监测芯片发送的所述监测信号,并基于预设的第二通信协议向所述控制器发送所述监测信号。
6.根据权利要求1-5任一项所述的数据处理装置,其特征在于,还包括:类型寄存器;
所述类型寄存器用于存储所述数据处理芯片的类型信息。
7.一种数据处理系统,其特征在于,包括:如权利要求1-6任一项所述的数据处理装置、以及控制器;
其中,所述数据处理装置有多个;多个所述数据处理装置包括:处于主控模式的第一数据处理装置、以及处于被控模式的第二数据处理装置;
所述控制器,用于对所述第一数据处理装置的状态进行监测;响应于所述状态指示将所述第一数据处理装置切换为被控模式,向所述第一数据处理装置发送第一控制指令,以及向目标第二数据处理装置发送第二控制指令;
所述第一数据处理装置,用于响应于接收到所述第一控制指令,将自身模式切换为被控模式;
所述目标第二数据处理装置,用于响应于接收到所述第二控制指令,将自身模式切换为主控模式。
8.根据权利要求7所述的数据处理系统,其特征在于,所述数据处理装置的状态,包括:工作状态和/或数据通路状态。
9.根据权利要求7或8所述的数据处理系统,其特征在于,所述控制器,在对所述第一数据处理装置的状态进行监测时,用于:
接收所述第一数据处理装置发送的监测信号;基于所述监测信号,确定所述第一数据处理装置的工作状态;
基于所述第一数据处理装置的工作状态,确定是否要将所述第一数据处理装置切换为被控模式。
10.根据权利要求7-9任一项所述的数据处理系统,其特征在于,还包括:通信交换机;
多个所述数据处理装置分别通过所述通信交换机与所述控制器连接;
所述控制器,在对所述第一数据处理装置的状态进行监测时,用于:监测所述第一数据处理装置与所述通信交换机之间的数据通路状态;
基于所述第一数据处理装置与所述通信交换机之间的数据通路状态,确定是否要将所述第一数据处理装置切换为被控模式。
11.根据权利要求7-10任一项所述的数据处理系统,其特征在于,所述控制器,在对所述第一数据处理装置的状态进行监测时,用于:
响应于所述第一数据处理装置的状态为异常状态,确定将所述第一数据处理装置切换为被控模式。
12.根据权利要求7-11任一项所述的数据处理系统,其特征在于,所述控制器,在向目标第二数据处理装置发送第二控制指令之前,还用于:
基于所述第二数据处理装置的状态,从所述第二数据处理装置中,确定要切换为主控模式的目标第二数据处理装置。
13.根据权利要求12所述的数据处理系统,其特征在于,所述控制器,在基于所述第二数据处理装置的状态,从所述第二数据处理装置中,确定要切换为主控模式的目标第二数据处理装置时,用于:
响应于所述第一数据处理装置的状态为异常状态,从所述第二数据处理装置中确定备选数据处理装置,并检测所述备选数据处理装置的状态;响应于所述备选数据处理装置的状态为正常状态,将所述备选数据处理装置确定为所述目标第二数据处理装置;
所述控制器,还用于:响应于所述备选数据处理装置的状态为异常状态,从所述第二数据处理装置中确定新的备选数据处理装置,并返回至检测所述备选数据处理装置的状态是否正常的步骤。
14.根据权利要求12或13所述的数据处理系统,其特征在于,
所述控制器,在从所述第二数据处理装置中,确定要切换为主控模式的目标第二数据处理装置时,还用于,从所述备选数据处理装置中读取类型信息;响应于读取到的所述类型信息为预设类型信息,将所述备选数据处理装置确定为所述目标第二数据处理装置。
15.根据权利要求7-14任一项所述的数据处理系统,其特征在于,所述控制器,向所述第一数据处理装置发送第一控制指令,以及向目标第二数据处理装置发送第二控制指令时,用于:
向所述第一数据处理装置、和所述目标第二数据处理装置发送复位信号;在复位信号发送成功后,向所述第一数据处理装置发送第一控制指令,以及向目标第二数据处理装置发送第二控制指令;
所述第一数据处理装置,在响应于接收到第一控制指令,将自身模式切换为被控模式时,用于:响应于接收到所述复位信号,执行复位;并在完成复位后,响应于接收到所述第一控制指令,将自身模式切换为被控模式;
所述目标第二数据处理装置,在响应于接收到第二控制指令,将自身模式切换为主控模式时,用于:响应于接收到所述复位信号,执行复位;并在完成复位后,响应于接收到所述第二控制指令,将自身模式切换为主控模式。
16.根据权利要求15所述的数据处理系统,其特征在于,所述控制器,还用于:响应于接收到所述第一数据处理装置、和所述目标第二数据处理装置发送的成功切换信号,向所述第一数据处理装置、和所述目标第二数据处理装置发送解除复位信号;
所述第一数据处理装置,响应于接收到所述解除复位信号,解除复位;
所述目标第二数据处理装置,响应于接收到所述解除复位信号,解除复位。
17.根据权利要求15或16所述的数据处理系统,其特征在于,所述控制器还通过总线与所述数据处理装置连接;
所述控制器,在向所述第一数据处理装置和所述目标第二数据处理装置发送复位信号时,用于:通过所述总线向所述第一数据处理装置和所述目标第二数据处理装置发送复位信号。
18.一种板卡,其特征在于,包括:如权利要求1-6任一项提供的数据处理装置,或者如权利要求7-17任一项所述的数据处理系统。
19.一种数据处理方法,其特征在于,应用于如权利要求1-6任一项所述的数据处理装置;所述数据处理方法包括:
多路复用器响应于接收到端口选通信号,选通数据处理芯片用于获取配置信息的第一传输通路或者第二传输通路;
所述数据处理芯片响应于所述第一传输通路被选通,获取第一配置信息,基于所述第一配置信息,将自身模式确定为主控模式;响应于所述第二传输通路被选通,获取第二配置信息,并基于所述第二配置信息,将自身模式确定为被控模式。
20.一种数据处理方法,其特征在于,应用于如权利要求7-17任一项所述的数据处理系统;所述数据处理方法包括:
控制器对第一数据处理装置的状态进行监测;响应于所述状态指示将所述第一数据处理装置切换为被控模式,向所述第一数据处理装置发送第一控制指令,以及向目标第二数据处理装置发送第二控制指令;
所述第一数据处理装置响应于接收到第一控制指令,将自身模式切换为被控模式;
所述目标第二数据处理装置响应于接收到第二控制指令,将自身模式切换为主控模式。
21.一种电子设备,其特征在于,包括:指令存储器和如权利要求1-6中任一项所述的数据处理装置,或者包括如权利要求7-17任一项所述的数据处理系统。
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被电子设备运行时执行如权利要求19所述的数据处理方法的步骤,或者执行如权利要求20所述的数据处理方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110727748.1A CN113344767A (zh) | 2021-06-29 | 2021-06-29 | 数据处理装置、系统、板卡、方法、电子设备及存储介质 |
PCT/CN2021/134517 WO2023273146A1 (zh) | 2021-06-29 | 2021-11-30 | 数据处理装置、系统、方法及板卡 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110727748.1A CN113344767A (zh) | 2021-06-29 | 2021-06-29 | 数据处理装置、系统、板卡、方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113344767A true CN113344767A (zh) | 2021-09-03 |
Family
ID=77481480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110727748.1A Pending CN113344767A (zh) | 2021-06-29 | 2021-06-29 | 数据处理装置、系统、板卡、方法、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113344767A (zh) |
WO (1) | WO2023273146A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023273146A1 (zh) * | 2021-06-29 | 2023-01-05 | 深圳市商汤科技有限公司 | 数据处理装置、系统、方法及板卡 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102082667B (zh) * | 2010-11-17 | 2013-11-13 | 曙光云计算技术有限公司 | 一种加密卡主从模式切换的方法和加密卡 |
CN104965168B (zh) * | 2015-07-23 | 2017-11-10 | 北京华峰测控技术有限公司 | 一种用于集成电路测试的fpga配置系统及方法 |
CN106528244B (zh) * | 2016-11-25 | 2019-05-03 | 迈普通信技术股份有限公司 | Fpga配置文件自动加载系统及方法 |
JP2018160029A (ja) * | 2017-03-22 | 2018-10-11 | 株式会社東芝 | 半導体集積回路 |
CN108983695A (zh) * | 2018-07-23 | 2018-12-11 | 郑州云海信息技术有限公司 | 一种基于复杂可编程逻辑器件的主从切换方法和装置 |
CN112272024B (zh) * | 2020-10-29 | 2023-04-28 | 国核自仪系统工程有限公司 | Fpga器件的配置数据的刷新方法、电路和存储介质 |
CN113344767A (zh) * | 2021-06-29 | 2021-09-03 | 深圳市商汤科技有限公司 | 数据处理装置、系统、板卡、方法、电子设备及存储介质 |
-
2021
- 2021-06-29 CN CN202110727748.1A patent/CN113344767A/zh active Pending
- 2021-11-30 WO PCT/CN2021/134517 patent/WO2023273146A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023273146A1 (zh) * | 2021-06-29 | 2023-01-05 | 深圳市商汤科技有限公司 | 数据处理装置、系统、方法及板卡 |
Also Published As
Publication number | Publication date |
---|---|
WO2023273146A1 (zh) | 2023-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8957767B2 (en) | Monitoring operating parameters in a distributed computing system with active messages | |
US9471126B2 (en) | Power management for PCIE switches and devices in a multi-root input-output virtualization blade chassis | |
EP3206127B1 (en) | Method, computer, and apparatus for migrating memory data | |
US10846159B2 (en) | System and method for managing, resetting and diagnosing failures of a device management bus | |
CN113302677A (zh) | 用增强现实与传感器数据于数据中心内执行硬件管理及配置的系统及方法 | |
CN111966189B (zh) | 一种灵活配置的多计算节点服务器主板结构和程序 | |
US10691562B2 (en) | Management node failover for high reliability systems | |
EP3481008B1 (en) | Information processing system, battery module, control method, and program | |
CN113342727A (zh) | 一种信号传输装置、方法、计算机设备及存储介质 | |
US20200257994A1 (en) | Inference processing system, inference processing device, and computer program product | |
CN115905094A (zh) | 一种电子设备及其PCIe拓扑配置方法和装置 | |
CN113344767A (zh) | 数据处理装置、系统、板卡、方法、电子设备及存储介质 | |
US9946552B2 (en) | System and method for detecting redundant array of independent disks (RAID) controller state from baseboard management controller (BMC) | |
CN115543872A (zh) | 一种设备管理方法、装置及计算机存储介质 | |
CN115599191B (zh) | 智能网卡的上电方法及上电装置 | |
CN115905072A (zh) | 计算机系统、基于PCIe设备的控制方法及相关设备 | |
CN115933591A (zh) | 一种控制器诊断方法、装置、设备和存储介质 | |
CN113489607B (zh) | 一种业务处理系统、采集设备和汇聚设备 | |
CN113342613A (zh) | 数据处理装置、方法、计算机设备及存储介质 | |
CN116578446B (zh) | 虚拟机备份方法、装置、系统、电子设备及存储介质 | |
EP4379563A1 (en) | Scalable testing for smart cards | |
CN111190799B (zh) | 可实现故障板卡识别的计算机系统 | |
CN117648239A (zh) | 一种外接设备的误插检测方法及计算设备 | |
CN116401191A (zh) | 计算设备和pcie通道分配方法 | |
CN117076209A (zh) | 执行计算任务的方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40049950 Country of ref document: HK |