CN117234800A - 一种用于计算机设备的数据异常恢复方法、装置 - Google Patents

一种用于计算机设备的数据异常恢复方法、装置 Download PDF

Info

Publication number
CN117234800A
CN117234800A CN202311193056.9A CN202311193056A CN117234800A CN 117234800 A CN117234800 A CN 117234800A CN 202311193056 A CN202311193056 A CN 202311193056A CN 117234800 A CN117234800 A CN 117234800A
Authority
CN
China
Prior art keywords
task
data
processing
subtask
storage information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311193056.9A
Other languages
English (en)
Inventor
步显文
秦涛
周娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur General Software Co Ltd
Original Assignee
Inspur General Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur General Software Co Ltd filed Critical Inspur General Software Co Ltd
Priority to CN202311193056.9A priority Critical patent/CN117234800A/zh
Publication of CN117234800A publication Critical patent/CN117234800A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)

Abstract

本发明涉及数字数据处理技术领域,公开了一种用于计算机设备的数据异常恢复方法、装置,该方法通过对切分后的任务进行标记,形成与子任务对应的任务存储信息,并将任务存储信息存储在与处理机外部连接的存储设备中,以使在发生数据异常时,从存储设备获得任务存储信息,从而通过任务存储信息中储存的主机标识明确子任务是由哪台处理机执行的,通过线程标识明确是由处理机的哪些线程处理的,以及通过处理数据上下文明确子任务的内容,进而保证在任务出现数据异常后,数据被正确恢复,以此满足不同应用场景的需求,提供了数据异常恢复的适用性。

Description

一种用于计算机设备的数据异常恢复方法、装置
技术领域
本发明涉及数字数据处理技术领域,具体涉及一种用于计算机设备的数据异常恢复方法、装置。
背景技术
集群部署可以提高数据处理系统的可用性、吞吐量。大型或超大型任务的处理往往采用多机部署的应用场景,由于任务规模较大,通常需要每个处理机从任务中切分一小块任务进行处理,使得切分后的任务可以在相对较短的时间内完成,待切分的小块任务处理完成后,再去申请任务。但被切分的任务在被分配到处理机执行处理的过程中,如因遇到停电、断网等不可抗力原因导致任务无法继续进行时,将会导致数据异常的发生。
在相关技术中,为解决数据异常的发生,通常将发生数据异常后缓存中的信息认定为异常缓存信息,并通过将异常缓存信息进行清除,进入正常处理数据模式,即在系统重新启动后,重新切分任务,对任务进行再次分配。然而在该种方式中,若任务被切分后部分处理机已经完成了响应的任务处理,那么在重新切分任务,对任务进行再分配后,已经完成的任务会被其他处理机重复执行,从而导致数据冲突,如在金融交易场景中,任务被重复执行可能将导致交易重复,造成损失,从而降低了数据异常恢复的适用性,且现有的数据异常恢复无法保证任务在出现数据异常后被正确执行,进而也就无法满足部分应用场景。
发明内容
有鉴于此,本发明提供了一种用于计算机设备的数据异常恢复方法、装置,以解决数据异常恢复的适用性低的技术问题。
第一方面,本发明提供了一种用于计算机设备的数据异常恢复方法,包括:获取第一数据处理任务;切分第一数据处理任务,得到至少一个第一子任务;标记每个第一子任务,形成与第一子任务相对应的任务存储信息,任务存储信息包括:主机标识、线程标识、处理数据上下文;发送任务存储信息至存储设备;由与主机标识对应的处理机,处理第一子任务;在子任务的处理过程中发生数据异常时,从存储设备获取任务存储信息;基于任务存储信息,通过主机标识、线程标识、处理数据上下文,恢复对第一子任务的处理。
结合第一方面,在第一方面的一个可能的实现方式中,基于任务存储信息,通过主机标识、线程标识、处理数据上下文,恢复对第一子任务的处理,包括:基于主机标识,确定与主机标识对应的第一任务存储信息;基于线程标识与第一任务存储信息,确定与线程标识对应的第二任务存储信息;基于处理数据上下文与第二任务存储信息,对异常数据进行恢复。
结合第一方面,在第一方面的一个可能的实现方式中,基于处理数据上下文与第二任务存储信息,对异常数据进行恢复,包括:基于处理数据上下文与第二任务存储信息,将异常数据恢复为第二子任务;标记第二子任务,形成与第二子任务相对应的第二任务存储信息;发送第二任务存储信息至存储设备;由与第二任务存储信息对应的处理机,处理第二子任务。
结合第一方面,在第一方面的一个可能的实现方式中,基于处理数据上下文与第二任务存储信息,对异常数据进行恢复,包括:基于处理数据上下文与第二任务存储信息,将异常数据恢复为第二子任务;基于处理数据上下文与第二字子任务,将第二子任务恢复为第二数据处理任务;获取至少一台处理机的处理状态;基于处理状态,切分第二数据处理任务,得到至少一个第三子任务;标记至少一个第三子任务,形成与第三子任务相对应的第三任务存储信息;发送第三任务存储信息至存储设备;由与第三任务存储信息对应的处理机,处理第三子任务。
结合第一方面,在第一方面的一个可能的实现方式中,基于任务存储信息,通过主机标识、线程标识、处理数据上下文,恢复对第一子任务的处理,包括:基于主机标识、线程标识、处理数据上下文,通过预设的异步恢复程序,使第一子任务继续执行。
结合第一方面,在第一方面的一个可能的实现方式中,获取第一数据处理任务之后,还包括:基于第一数据处理任务,确定至少一个分组任务;标记每个分组任务,确定与分组任务相对应的分组标识;发送分组标识至存储设备。
结合第一方面,在第一方面的一个可能的实现方式中,切分第一数据处理任务,得到至少一个第一子任务,包括:切分每个分组任务,得到至少一个第一子任务。
第二方面,本发明提供了一种用于计算机设备的数据异常恢复装置,包括:任务获取模块,用于获取第一数据处理任务;切分模块,用于切分第一数据处理任务,得到至少一个第一子任务;标记模块,用于标记每个第一子任务,形成与第一子任务相对应的任务存储信息,任务存储信息包括:主机标识、线程标识、处理数据上下文;发送模块,用于发送任务存储信息至存储设备;任务处理模块,用于由与主机标识对应的处理机,处理第一子任务;信息获取模块,用于在子任务的处理过程中发生数据异常时,从存储设备获取任务存储信息;恢复模块,用于基于任务存储信息,通过主机标识、线程标识、处理数据上下文,恢复对第一子任务的处理。
第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的用于计算机的数据异常恢复方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的用于计算机的数据异常恢复方法。
本发明技术方案,具有如下优点:
本发明提供的一种用于计算机的数据异常恢复方法、装置,该方法通过对切分后的任务进行标记,形成与子任务对应的任务存储信息,并将任务存储信息存储在与处理机外部连接的存储设备中,以使在发生数据异常时,从存储设备获得任务存储信息,从而通过任务存储信息中储存的主机标识明确子任务是由哪台处理机执行的,通过线程标识明确是由处理机的哪些线程处理的,以及通过处理数据上下文明确子任务的内容,即保证恢复后的数据与切分后的子任务相符,进而保证在任务出现数据异常后,数据被正确恢复,满足不同应用场景的需求,提供了数据异常恢复的适用性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种用于计算机的数据异常恢复方法的应用场景示意图;
图2是根据本发明实施例的一种用于计算机的数据异常恢复方法的流程示意图;
图3是根据本发明实施例的一种用于计算机的数据异常恢复装置的结构框图;
图4是本发明实施例的计算机设备的硬件结构示意图;
图5是本发明实施例的计算机可读存储介质的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了一种用于计算机的数据异常恢复系统,如图1所示,示例性地示出用于计算机的数据异常恢复的应用场景,包括:计算机1、处理机21、处理机22、处理机23、存储设备31、存储设备32。其中计算机1分别于处理机21、处理机22、处理机23相连,计算机1对数据处理任务进行切分,并将切分后的子任务发送至各处理机中,每个子任务均具有与子任务相对应的任务存储信息,如计算机1将数据处理任务a,切分为子任务a1与子任务a2,并将子任务a1交由处理机21执行,子任务a2交由处理机23执行,那么在与处理机21相连的存储设备31中,存有与子任务a1对应的任务存储信息,其中,记录有处理机21的主机标识,以及处理机21用于执行子任务a1的线程的线程标识,以及用于明确子任务a1内容的处理数据上下文。存储设备32同理,在此不再进行赘述。应该理解的是,处理机以及存储设备的数量以及连接关系,包括但不限定于图1所示,存储设备可以与一台或多台处理机相连,只要在处理机遇到如停电、断网等不可抗力原因导致任务无法继续进行时,存储设备中的储存的任务存储信息不会丢失,并且可以由处理机获取储存的任务存储信息即可。
为保证在遇到数据异常时,数据可以被正确恢复,本实施例提供了一种用于计算机设备的数据异常恢复方法,如图2所示,包括如下步骤:
S101、获取第一数据处理任务。
S102、切分地数据处理任务,得到至少一个第一子任务。
具体地,第一子任务是指在发生数据异常前,数据处理任务被切分得到的子任务,其中,每个数据处理任务切分得到第一子任务的数量可根据实际工况决定。
S103、标记每个第一子任务,形成与第一子任务相对应的任务存储信息,任务存储信息包括:主机标识、线程标识、处理数据上下文。
具体地,主机标识用于明确子任务是由哪台处理机执行的,通常由出现宕机前后不会发生改变的标识构成,例如CPU ID、网卡MAC地址或其他标识中的一种或多种。线程标识用于明确子任务是由处理机的哪些线程处理的,即处理机的线程号,通常由数字组成。处理数据上下文是指当前处理机切分导数据的标识信息,即明确子任务的内容,若以a、b、c…z描述任务,切分后子任务1为a至g,子任务2为h至z,那么关于子任务1与子任务2的划分由处理数据上下文实现,即明确了子任务1、子任务2的内容。
在一种可选实施方式中,步骤S102与步骤S103是同步执行或在同一事务中进行的,即任务在被切分后先不交由处理机执行,而是在标记后形成任务存储信息后再执行,这样可以避免数据处理任务切分成功,但未被记录的情况发生。
S104、发送任务存储信息至存储设备。
S105、由与主机标识对应的处理机,处理第一子任务。
具体地,若由与主机标识对应的处理机,处理第一子任务,并完成了第一子任务,即第一子任务的执行过程中没有发生数据异常,则在第一子任务执行完毕后,清除与第一子任务相对应的任务存储信息。
S106、在子任务的处理过程中发生数据异常时,从存储设备获取任务存储信息。
具体地,由于存储设备外部设备与处理机相连,因此,在处理机发生停电、断网等不可抗力原因导致任务无法继续进行时,存储设备中的数据不会丢失。并且由于内存是受控启动的,即进程内有哪些线程在运行是可以通过程序判断出来的,在此基础上也就可以保证存储设备中存储的任务存储信息与发生数据异常前的数据保持一致,不会存在信息滞后。
S107、基于任务存储信息,通过主机标识、线程标识、处理数据上下文,恢复对第一子任务的处理。
具体地,基于任务存储信息,通过主机标识、线程标识、处理数据上下文,恢复对第一子任务的处理是指通过获取的任务存储信息,明确子任务由哪个处理机的哪些线程执行,以及子任务的内容,从而恢复对第一子任务的处理。恢复对第一子任务的处理是指通过恢复程序继续执行子任务,或者通过数据回滚重新执行子任务。
本发明实施例提供的一种用于计算机设备的数据异常恢复方法,通过对切分后的任务进行标记,形成与子任务对应的任务存储信息,并将任务存储信息存储在与处理机外部连接的存储设备中,以使在发生数据异常时,从存储设备获得任务存储信息,从而通过任务存储信息中储存的主机标识明确子任务是由哪台处理机执行的,通过线程标识明确是由处理机的哪些线程处理的,以及通过处理数据上下文明确子任务的内容,即保证恢复后的数据与切分后的子任务相符,进而保证在任务出现数据异常后,数据被正确恢复,满足不同应用场景的需求,提供了数据异常恢复的适用性。
在一种可选实施方式中,为保证在遇到数据异常时,数据被正确恢复,基于任务存储信息,通过主机标识、线程标识、处理数据上下文,恢复对第一子任务的处理,包括:
(1)基于主机标识,确定与主机标识对应的第一任务存储信息。
具体地,基于主机标识,确定与主机标识对应的第一任务存储信息是指通过主机标识,筛选在发生数据异常时,各处理机分别在执行哪些子任务,其中与第一任务存储信息相对应的子任务是指由通过主机标识筛选出的,各处理机处理的子任务。
(2)基于线程标识与第一任务存储信息,确定与线程标识对应的第二任务存储信息。
具体地,基于线程标识与第一任务存储信息,确定与线程标识对应的第二任务存储信息是指通过线程标识,确定各处理机的哪些线程分别执行了哪些子任务。其中,与第二任务存储信息相对应的子任务是指发生数据异常的子任务,即已经“死掉”,无法继续执行的子任务。基于线程标识与第一任务存储信息,还可以确定与线程标识对应的第四任务存储信息,与第四任务存储信息相对应的子任务是指正在执行的子任务。
(3)基于处理数据上下文与第二任务存储信息,对异常数据进行恢复。
在一种可选实施方式中,为保证在遇到数据异常时,进行数据回滚后与原子任务数据相同,即数据被正确恢复,基于处理数据上下文与第二任务存储信息,对异常数据进行恢复,包括:
(1)基于处理数据上下文与第二任务存储信息,将异常数据恢复为第二子任务。
具体地,基于处理数据上下文与第二任务存储信息,将异常数据恢复为第二子任务是指对异常数据进行数据回滚,回滚为被处理机执行前的状态,即第二子任务。其中,基于第二任务存储信息,明确是由哪台处理机的哪些线程在处理任务过程中遇到了异常数据,并通过处理数据上下文,保证回滚的数据是执行前的数据,即不能把别的处理机或别的线程的任务回滚,也不能有剩余数据未进行回滚。
(2)标记第二子任务,形成与第二子任务相对应的第二任务存储信息。具体过程可参见上述实施例中关于步骤S103的相关描述,在此不再赘述。
(3)发送第二任务存储信息至存储设备。具体过程可参见上述实施例中关于步骤S104的相关描述,在此不再赘述。
(4)由与第二任务存储信息对应的处理机,处理第二子任务。具体过程可参见上述实施例中关于步骤S105的相关描述,在此不再赘述。
通过实施本实施例,通过处理数据上下文与第二任务存储信息,将异常数据进行回滚,并对回滚后的数据重新进行标记,再次进行处理机以及线程的分配,使得原异常数据得以正常被执行,并且由于未处理完成的异常数据已被回滚,因此,避免了任务的重复执行,即保证了数据被正确恢复,满足不同应用场景的需求,提供了数据异常恢复的适用性。
在一种可选实施方式中,为保证在遇到数据异常时,进行数据回滚后与原子任务数据相同,并且根据处理机的处理状态重新分配任务,即保证数据被正确恢复,基于处理数据上下文与第二任务存储信息,对异常数据进行恢复,包括:
(1)基于处理数据上下文与第二任务存储信息,将异常数据恢复为第二子任务。具体过程可参见上述实施例中的相关描述,在此不再赘述。
(2)基于处理数据上下文与第二字子任务,将第二子任务恢复为第二数据处理任务。
具体地,基于处理数据上下文与第二字子任务,将第二子任务恢复为第二数据处理任务是指利用处理数据上下文,将已被切分的子任务还原为切分前的数据处理任务的过程。若原任务在切分后分为子任务1与子任务2,其中,子任务1描述为a至g,子任务2描述为h至z,处理数据上下文明确了子任务1与子任务2的内容,同样的,利用处理数据上下文可以将子任务1与子任务2还原为原任务,并且数据序列保持不变,即将原任务描述为a至z。
(3)获取至少一台处理机的处理状态。
具体地,处理机的处理状态是指处理室是否处于空闲状态,或处理机是否可以处理任务。
(4)基于处理状态,切分第二数据处理任务,得到至少一个第三子任务。
具体地,基于处理状态,切分第二数据处理任务,得到至少一个第三子任务是指根据可以处理任务的处理机的数量,对第二数据处理任务进行切分,使得每台处于空闲状态的处理机均能获得第三子任务。若在b时刻,处于空闲状态的处理机为4台,基于处理状态,可以将第二数据处理任务切分为4分,以使每台处理机均获得对应的第三子任务。
(5)标记至少一个第三子任务,形成与第三子任务相对应的第三任务存储信息。具体过程可参见上述实施例中关于步骤S103的相关描述,在此不再赘述。
(6)发送第三任务存储信息至存储设备;具体过程可参见上述实施例中关于步骤S104的相关描述,在此不再赘述。
(7)由与第三任务存储信息对应的处理机,处理第三子任务。具体过程可参见上述实施例中关于步骤S105的相关描述,在此不再赘述。
通过实施本实施例,通过处理数据上下文与第二任务存储信息,将异常数据进行回滚,并将回滚后的子任务还原为数据处理任务,并根据处理机的处理状态对数据处理任务进行切分,使数据处理任务的分配结合处理机的处理状态,从而使数据处理任务的切分更加合理,提升数据处理任务的处理效率。并通过重新对切分后的子任务进行标记,再次进行处理机以及线程的分配,使得原异常数据得以正常被执行,并且由于未处理完成的异常数据已被回滚,因此,避免了任务的重复执行,即保证了数据被正确恢复,满足不同应用场景的需求,提供了数据异常恢复的适用性。
在一种可选实施方式中,为保证在遇到数据异常时,通过恢复程序继续执行子任务,即数据被正确恢复,基于处理数据上下文与第二任务存储信息,对异常数据进行恢复,包括:基于主机标识、线程标识、处理数据上下文,通过预设的异步恢复程序,使第一子任务继续执行。
在一种可选实施方式中,为提升数据任务处理效率,获取第一数据处理任务之后,方法还包括:
基于第一数据处理任务,确定至少一个分组任务。
具体地,基于第一数据处理任务,确定至少一个分组任务是指通过第一数据处理任务与分组任务的对应关系,确定至少一个分组任务,其中,第一数据处理任务与分组任务的对应关系可以是预设的。例如:数据处理任务为车辆任务a,通过标记分组任务,使车辆任务a1分组表示焊车架,车辆任务a2分组表示装轮胎等等。
标记每个分组任务,确定与分组任务相对应的分组标识。
具体地,分组标识用于标识属于同一类业务的数据。
发送分组标识至存储设备。
具体地,将分组标识发送至存储设备后,在发生数据异常时,需要从存储设备获取分组标识,从而使在进行数据回滚时,可以根据分组标识将子任务恢复为数据处理任务。
切分第一数据处理任务,得到至少一个第一子任务,包括:切分每个分组任务,得到至少一个第一子任务。
通过实施本实施例,通过对切分前的数据添加分组标识,使得数据处理任务可以根据业务类型在被切分前,形成分组,并在切分后使数据处理任务被划分的更为精细,即相当于将数据处理任务划分为更多的子任务,使得可以被更多的处理机并行执行,从而提高数据处理任务的处理效率。
在本实施例中还提供了一种用于计算机的数据异常恢复装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种用于计算机的数据异常恢复装置,如图4所示,包括:
任务获取模块201,用于获取第一数据处理任务。具体过程可参见上述实施例中关于步骤S101的相关描述,在此不再赘述。
切分模块202,用于切分第一数据处理任务,得到至少一个第一子任务。具体过程可参见上述实施例中关于步骤S102的相关描述,在此不再赘述。
标记模块203,用于标记每个第一子任务,形成与第一子任务相对应的任务存储信息,任务存储信息包括:主机标识、线程标识、处理数据上下文。具体过程可参见上述实施例中关于步骤S103的相关描述,在此不再赘述。
发送模块204,用于发送任务存储信息至存储设备。具体过程可参见上述实施例中关于步骤S104的相关描述,在此不再赘述。
任务处理模块205,用于由与主机标识对应的处理机,处理第一子任务。具体过程可参见上述实施例中关于步骤S105的相关描述,在此不再赘述。
信息获取模块206,用于在子任务的处理过程中发生数据异常时,从存储设备获取任务存储信息。具体过程可参见上述实施例中关于步骤S106的相关描述,在此不再赘述。
恢复模块207,用于基于任务存储信息,通过主机标识、线程标识、处理数据上下文,恢复对第一子任务的处理。具体过程可参见上述实施例中关于步骤S107的相关描述,在此不再赘述。
本发明实施例还提供一种计算机设备,具有上述图4所示的用于计算机的数据异常恢复装置。
请参阅图4,图4是本发明可选实施例提供的一种计算机设备的结构示意图,如图4所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。
图4中以一个处理器10为例。处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,所述存储器20存储有可由至少一个处理器10执行的指令,以使所述至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括通信接口30,用于该计算机设备与其他设备或通信网络通信。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,如图5所示,本发明的实施例还提供了一种计算机可读存储介质40,计算机可读存储介质40存储有计算机指令401,计算机指令401被处理器执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种用于计算机设备的数据异常恢复方法,其特征在于,所述计算机与至少一台处理机相连,至少一台所述处理机与存储设备相连,所述方法包括:
获取第一数据处理任务;
切分所述第一数据处理任务,得到至少一个第一子任务;
标记每个所述第一子任务,形成与所述第一子任务相对应的任务存储信息,所述任务存储信息包括:主机标识、线程标识、处理数据上下文;
发送所述任务存储信息至所述存储设备;
由与所述主机标识对应的所述处理机,处理所述第一子任务;
在所述子任务的处理过程中发生数据异常时,从所述存储设备获取所述任务存储信息;
基于所述任务存储信息,通过所述主机标识、所述线程标识、所述处理数据上下文,恢复对所述第一子任务的处理。
2.根据权利要求1所述的方法,其特征在于,所述基于所述任务存储信息,通过所述主机标识、所述线程标识、所述处理数据上下文,恢复对所述第一子任务的处理,包括:
基于所述主机标识,确定与所述主机标识对应的第一任务存储信息;
基于所述线程标识与所述第一任务存储信息,确定与所述线程标识对应的第二任务存储信息;
基于所述处理数据上下文与所述第二任务存储信息,对异常数据进行恢复。
3.根据权利要求2所述的方法,其特征在于,所述基于所述处理数据上下文与所述第二任务存储信息,对异常数据进行恢复,包括:
基于所述处理数据上下文与所述第二任务存储信息,将异常数据恢复为第二子任务;
标记所述第二子任务,形成与所述第二子任务相对应的第二任务存储信息;
发送所述第二任务存储信息至所述存储设备;
由与所述第二任务存储信息对应的所述处理机,处理所述第二子任务。
4.根据权利要求2所述的方法,其特征在于,所述基于所述处理数据上下文与所述第二任务存储信息,对异常数据进行恢复,包括:
基于所述处理数据上下文与所述第二任务存储信息,将异常数据恢复为第二子任务;
基于所述处理数据上下文与所述第二字子任务,将所述第二子任务恢复为第二数据处理任务;
获取至少一台所述处理机的处理状态;
基于所述处理状态,切分所述第二数据处理任务,得到至少一个第三子任务;
标记至少一个所述第三子任务,形成与所述第三子任务相对应的第三任务存储信息;
发送所述第三任务存储信息至所述存储设备;
由与所述第三任务存储信息对应的所述处理机,处理所述第三子任务。
5.根据权利要求1所述的方法,其特征在于,所述基于所述任务存储信息,通过所述主机标识、所述线程标识、所述处理数据上下文,恢复对所述第一子任务的处理,包括:基于所述主机标识、所述线程标识、所述处理数据上下文,通过预设的异步恢复程序,使所述第一子任务继续执行。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述获取第一数据处理任务之后,还包括:
基于所述第一数据处理任务,确定至少一个分组任务;
标记每个所述分组任务,确定与所述分组任务相对应的分组标识;
发送所述分组标识至所述存储设备。
7.根据权利要求6所述的方法,其特征在于,所述切分所述第一数据处理任务,得到至少一个第一子任务,包括:切分每个所述分组任务,得到至少一个第一子任务。
8.一种用于计算机设备的数据异常恢复装置,其特征在于,计算机与至少一台处理机相连,所述处理机与存储设备相连,所述装置包括:
任务获取模块,用于获取第一数据处理任务;
切分模块,用于切分所述第一数据处理任务,得到至少一个第一子任务;
标记模块,用于标记每个所述第一子任务,形成与所述第一子任务相对应的任务存储信息,所述任务存储信息包括:主机标识、线程标识、处理数据上下文;
发送模块,用于发送所述任务存储信息至所述存储设备;
任务处理模块,用于由与所述主机标识对应的所述处理机,处理所述第一子任务;
信息获取模块,用于在所述子任务的处理过程中发生数据异常时,从所述存储设备获取所述任务存储信息;
恢复模块,用于基于所述任务存储信息,通过所述主机标识、所述线程标识、所述处理数据上下文,恢复对所述第一子任务的处理。
9.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至7中任一项所述的用于计算机设备的数据异常恢复。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的用于计算机设备的数据异常恢复。
CN202311193056.9A 2023-09-15 2023-09-15 一种用于计算机设备的数据异常恢复方法、装置 Pending CN117234800A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311193056.9A CN117234800A (zh) 2023-09-15 2023-09-15 一种用于计算机设备的数据异常恢复方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311193056.9A CN117234800A (zh) 2023-09-15 2023-09-15 一种用于计算机设备的数据异常恢复方法、装置

Publications (1)

Publication Number Publication Date
CN117234800A true CN117234800A (zh) 2023-12-15

Family

ID=89087333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311193056.9A Pending CN117234800A (zh) 2023-09-15 2023-09-15 一种用于计算机设备的数据异常恢复方法、装置

Country Status (1)

Country Link
CN (1) CN117234800A (zh)

Similar Documents

Publication Publication Date Title
CN107665234B (zh) 业务处理方法、装置、服务器和存储介质
US10866866B2 (en) Query fault processing method and processing apparatus
CN111274052A (zh) 数据分发方法、服务器及计算机可读存储介质
CN106572137B (zh) 一种分布式服务资源管理方法和装置
CN107391303B (zh) 数据处理方法、装置、系统、服务器及计算机存储介质
CN111666088A (zh) Pod的更替方法、装置、电子设备及计算机可读存储介质
CN114564281A (zh) 容器调度方法、装置、设备及存储介质
CN111984196B (zh) 一种文件迁移方法、装置、设备及可读存储介质
CN109327499B (zh) 业务接口的管理方法及装置、存储介质、终端
CN107766146B (zh) 用于资源重配置的方法以及相应的设备
CN117234800A (zh) 一种用于计算机设备的数据异常恢复方法、装置
US9430338B2 (en) Method and computing device for recording log entries
CN116627659A (zh) 模型检查点文件保存方法、装置、设备及存储介质
CN111767126A (zh) 分布式批量处理的系统和方法
CN109857629B (zh) 一种扫描检测方法及装置
CN112612604B (zh) 基于Actor模型的任务调度方法、装置
CN115941758A (zh) 基于动态规划的云服务控制台部署方法、系统及存储介质
CN110489208B (zh) 虚拟机配置参数核查方法、系统、计算机设备和存储介质
CN114553859A (zh) 一种bmc配置管理方法、装置、电子设备及存储介质
WO2020178091A1 (de) System und verfahren zum auffinden und identifizieren von rechenknoten in einem netzwerk
CN112685168A (zh) 资源管理方法、装置及设备
CN113726540B (zh) 一种网元处理方法、装置、电子设备和存储介质
JP2014170448A (ja) レプリケーションシステム、業務処理システム、レプリケーション方法、及びプログラム
CN117909025A (zh) 分布式存储操作系统在线切换方法及装置
CN115169981B (zh) 机台故障后的晶圆任务管理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination