CN1202256A - 作为计算机单元重新启动一部分的故障数据收集 - Google Patents

作为计算机单元重新启动一部分的故障数据收集 Download PDF

Info

Publication number
CN1202256A
CN1202256A CN96198321A CN96198321A CN1202256A CN 1202256 A CN1202256 A CN 1202256A CN 96198321 A CN96198321 A CN 96198321A CN 96198321 A CN96198321 A CN 96198321A CN 1202256 A CN1202256 A CN 1202256A
Authority
CN
China
Prior art keywords
data
computing machine
data structure
memory
primary memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN96198321A
Other languages
English (en)
Other versions
CN1105352C (zh
Inventor
劳里·塔达里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Siemens Networks Ltd
Nokia Oyj
Original Assignee
Nokia Telecommunications Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Telecommunications Oy filed Critical Nokia Telecommunications Oy
Publication of CN1202256A publication Critical patent/CN1202256A/zh
Application granted granted Critical
Publication of CN1105352C publication Critical patent/CN1105352C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Retry When Errors Occur (AREA)
  • Debugging And Monitoring (AREA)

Abstract

在计算机控制某个进程,例如呼叫传输出现问题的情况下,尽可能快地将维护操作以正确方式定位到正确地点是非常重要的。在根据本发明的故障数据收集方法中,使用关于哪类信息对解决问题有用的经验数据有选择地收集故障数据。在计算机操作系统的数据区(DA)中从进程族列表PL中搜索每一进程族的相关数据(P10A-P40A)。通过进程族的第一进程(P10),得到有关该族其它进程(P11-P14)的数据。进程(P10-P14)的数据结构(PA)提供与该进程所保留的存储器资源、时间监控等相关的数据。通过比较该数据结构(PA)的内容和经验性基值,从需要进一步详细检查的进程中将数据结构(PA)拷贝到存储区(SA)。在重新启动被激活之后,但是在新数据写入存储这些数据结构(PA)的主存储器部分之前,收集这些数据结构。

Description

作为计算机单元重新启动一部分的故障数据收集
本发明涉及计算机系统的故障数据收集。更精确地说,本发明涉及一种解决下述问题的方法:这些问题导致控制某个进程(process),例如呼叫的传输的计算机重新启动。
计算机及其软件的用户通常会碰到下述恼人的故障情况:计算机切换到初始状态,即它的表现好似电源刚刚打开。在这种情况下,计算机存储器中存储的数据通常会丢失。操作系统可以给出一个简短的出错消息,例如“一般保护故障”。这样一个出错消息几乎没有给用户或技术支持人员任何有关故障原因的信息,或者如何处理以使该情况不会再出现的建议。另一个极端由下述方式代表:其中特定局域网(NovellNetware)的软件报告故障情况。如果网络服务器软件在执行过程中出现差错,则允许技术支持人员将服务器的整个存储器存储在磁盘上,可能需要数十张磁盘。如果数据太多,显然不易发现出错原因。并且,已知方法的问题在于,这些方法都是在计算机重新启动之前向用户报告。如果出错情况已经影响了操作系统的磁盘处理例程,则出错之前的情况将无法存储在磁盘上。
计算机偶尔会重新启动。为了简明起见,在本申请中“重新启动”特指其原因尚待查明的重新启动。
在出错情况下将维护操作以正确方式导向正确位置是非常重要的。例如1995年8月的“PC Format”第27页针对计算机软件故障公开了在1990年1月15日,多达一半的美国AT&T电话网经常无法使用,在该天中7千万次呼叫没有完成。这种故障可以跟踪到面向软件控制的AT&T交换机的维护操作,它们没有按规划地那样有效工作。
图1示出了一种分布计算机系统。至少某些计算机10和20(在本例中是计算机10)每当其它计算机20的服务器。服务器10包括磁盘驱动器11,其中存储了系统软件。这些计算机通过链路1相互连接,链路1可以是局域网的电缆,或者是远程连接,例如保留的调制解调器线路、ISDN连接、无线链路或者类似连接。例如计算机20的启动方式本身众所周知,使计算机的支持电路25产生一个启动信号,该信号使中央处理单元24跳到某个预定地址,该地址指示包含初始装入程序的只读存储器22。中央处理单元24执行初始装入程序,引导例如网络接口21通过链路1从服务器10首先装入操作系统,操作系统可能包括更高级的装入程序。为了能够执行,操作系统和其它程序需要装入一个RAM或随机存取存储器23,此后将之称为主存储器。在装入操作系统之后,装入应用程序,计算机20执行这些程序以完成它的实际任务。作为通过链路1装入软件的一种可选方案,如果计算机20具有磁盘驱动器控制器26,也可以通过磁盘驱动器控制器26从本地磁盘驱动器装入软件。计算机20也可以包括一个输出设备28。
图2示出了计算机20操作系统中对本发明重要的部分。在该例示性情况下,操作系统OS包括4种基本功能OS2到OS5,即处理控制、存储器管理、消息传输和进程排斥。
图3示出了说明性的进程链。更精确地说,该链是进程控制块(PCB)链。该链可以是,例如可执行进程链、等待信号机中特定事件的进程链或类似链。进程Pn通常具有复杂的动态数据结构。在图3中,为了说明起见对其进行了简化,将与每个进程Pn相关的数据结构压缩成一个参数区PA,参数区PA包含例如进程和为进程保留的存储器区域的状态数据,以及进程族的前一个进程和后一个进程的数据。当进程中止时,它应该释放它所占用的所有存储器。通常引起的存储器问题是进程并没有释放它所占用的所有存储器。如果该进程占用存储器的次数足够多,却没有释放它以前占用的存储器,那么它最终将耗尽所有的可用存储器,致使其它进程无法再使用存储器。另一个故障机制可能是进程错误地位于一个环内,而不接收发向它的消息。
在1965年E.W.Dijkstra的Programming Languages,ed.Genuys,F.,London Academic Press的“Co-operating Sequential Processes”中公开了信号机和操作的形式描述。
上述进程描述在很大程度上得到了简化,但是它足够说明问题及其解决方案。如果程序(更精确地说是进程软件)装入计算机20,出现故障或例如在计算机中发生存储器错误,则计算机重新启动。在这种情况下,将重复上述软件装入过程。定位导致重新启动的错误原因的难点在于,首先,难以区分相关数据和不相关数据。另一个问题在于,软件功能的失效可能会影响控制网络接口21和/或磁盘驱动器控制器26的软件,从而在重新启动将新数据写入之前,可能根本无法存储数据。
已众所周知的是,在重新启动期间可以从计算机的数据区收集数据。例如US专利4930128描述了一种技术,它将分页数据集合存储在硬盘上作为初始程序装入的一部分。这种非选择性数据存储向试图定位错误的人员提供了太多的无关数据。如前所述,在定位错误时这么大量的未筛选数据实际上毫无用处。
基于上述引言,本发明的目的是提供一种收集计算机系统故障数据的方法,在该方法中存储与发现错误原因有关的数据,例如用于后续分析,但是不存储无关数据。另一个目的是提供实现该方法的装置。
本发明基于下述事实:在计算机操作系统上附加一种功能,该功能在重新启动期间收集对发现故障原因可能有重要作用的数据。根据本发明,计算机的存储器区域仅在存储了对定位故障有重要作用的部分存储器区域之后才初始化。更精确地说,实现本发明目的的方法和装置的特征在独立权利要求中公开。在相关权利要求中公开了更确切地定义故障数据收集的不同方式。
根据本发明的方法和装置首先提供了下述优点:计算机事先筛选了与重新启动相关的数据,从而无关数据不再不必要地增加人和计算机资源的负荷。资源的较少使用提供了进一步的优点:即使通过部分损坏的装置也能收集数据。另一个优点是,数据是在计算机处于一种良好状态时存储的,所以存储数据可能需要的外围设备及其驱动器是可用的。
下面结合附图通过优选实施例更详细地描述本发明,在附图中
图1示出了一种分布计算机系统;
图2示出了计算机操作系统的某些部分;
图3示出了一个例示性的进程链,以及
图4的流程图说明了故障数据收集程序的操作。
图2示出了计算机20操作系统的某些部分。根据本发明的故障数据收集功能OS1可以与操作系统的其它功能一样放置于操作系统。在图2中以操作系统第一功能的形式示出了故障数据收集功能OS1。这种安排是为了强调应当在,例如从磁盘驱动器装入软件和数据结构再次初始化之前收集故障数据。图2还示出了计算机20主存储器23的一部分保留作存储区SA,存储区SA的使用将结合图3予以解释。
图3示出了一个例示性的进程链。根据本发明的故障数据收集程序OS1,例如通过软件打包技术接收有关该链的源点信息。同一种技术可以用于,例如使通用库的使用成为可能。总思想在于,根据本发明的故障数据收集程序OS1发现不同进程的参数和进程族,其方式与其余软件OS2到OS5发现相应参数相同。基于该开始点定位进程P10的开始点P10A。进程P10与进程P11相关,进程P11则与进程P12和P13相关。图3还通过例子示出了进程P11还可能与进程P14相关的情况。首先假定这些进程可以被动态装入存储器,即装入任意地址,所以进程所在的存储器地址数据位于,例如该进程族前一个成员的参数区。
下面描述根据本发明的故障数据收集程序如何发现那个进程位于某个环中。例如可以通过下述方式检测这种死锁:存储上一次发送给该进程的消息,直至该进程准备接收下一个消息。如果该程序仍停留在环中,该消息通常也不被释放。根据本发明的故障数据收集程序OS1,例如通过检查参数区PA中的进程控制块PCB,可以检测到这种情况。
并且,在一些进程运行之后,可用存储器将支离破碎,无法向后续进程提供一块完整的存储区。通过操作系统的存储器管理的数据结构可以解决这种问题。
如果在重新启动期间以下述方式存储进程所占用的存储区数据,则对上述说明性问题的调查将更易于进行:
(i)从进程族列表PL中读出第一进程族的第一成员P10的地址P10A;
(ii)基于该地址读出该进程族的第一进程的参数区PA,并拷贝到存储区SA;
(iii)对该进程所调用的所有进程递归重复步骤(ii);
(iv)从该列表中读出下一进程族的第一成员的地址,重复步骤(ii)到(iii),直至处理完该进程组列表。
在这种前后关系中,参数区PA是指主存储器23中的某个区域,它与每个进程相关,存储与该进程相关且为本发明所需的数据。下面描述这种必要数据的确切性质。存储区SA也是位于主存储器23中的某个区域,它由根据本发明的数据收集软件建立,在重新启动期间进程参数区PA被拷贝到该区域。
上述方法可应用于进程可被装入任何存储器区域的一般情况。如果特定进程总是被装入特定地址,则在程序编译期间以已知方式直接得到它们的参数区的起始和终止地址。在根据本发明的分析程序中,可以参照这些地址,其方式也与建立其余软件时所参照的一样。在这种情况下,可以使用一种更简单的方法,该方法可以以下述伪码的形式表示:
将P10.PA拷贝到SA.PA1
将P11.PA拷贝到SA.PA2
Pn.PA是指进程Pn的参数区,相应地,SA.PAn是指进程Pn参数区被拷贝到的存储区SA中的区域。转换成一种实际的编程语言,上面给出的伪码将以下述方式实现:P10.PA的起始地址被装入源寄存器以进行拷贝,SA.PA1的起始地址被装入目标寄存器,而P10.PA的字节数则被装入指示拷贝字节数的寄存器。SA.PA2的起始地址由P10.PA的字节数加上SA.PA1的起始地址等得到。相应地,任一进程Pn的参数区PA被拷贝到存储区SA的某个地址,该地址通过前一进程Pn-1的参数区PA大小加上前一进程存储区的起始地址SA.PAn-1得到。
为了说明本发明,上面假定每个进程的参数区PA是一个完整的存储器区域。如果参数区被分布成若干不同区域,则必须对分布参数区的每一段重复上述将参数区拷贝到存储区SA的步骤。
通过检查与进程相关的信号机(semaphores)也可以得到有价值的数据。信号机是一个包括等待状态的计数器,通过它可以实现进程间的互斥。进程的使用方式通常是仅有一个进程能够处理信号机所保护的区域。这种由信号机所保护的区域由起始于所谓的P操作而终止于所谓的V操作的软件例程进行处理。P操作减小计数器的值,如果该值过小(负值),则进程自己加入信号机队列。否则进程继续运行P操作之后的代码。在代码结束处,进程执行V操作,该操作增大了计数器的值。如果该值已为负数,则启动备用进程,它则访问被保护的数据。
问题在于,如果进程在保护区中(即当它控制信号机时)出错,则该信号机队列终止,而没有任何特殊措施。另一方面,程序可能出现故障,它根本就不执行V操作。通过指示参数区中进程所控制的所有信号机的相关数据,可以解决这些问题。
对实际应用而言,上述方法产生了太多未充分筛选的数据。实际上,在数据被传送给人们进行分析之前,必须较精确地筛选数据。将清除故障所需的相关数据从大约32兆字节的主存储器压缩成几个或者甚至是一个可读页面应当例如作为一个目标。在这种情况下,必需从主存储器发现定位故障必需的0.01%的数据。一种合适的技术是,故障数据收集程序对进程所占用的存储器设置预定门限值。仅存储占用的存储器数量超过该门限的那些进程的参数区。可选地,故障数据收集程序可以以上述方式两次仔细检查进程链家族。第一次仅包括发现每个进程或进程族占用了多少存储器。第二次在存储区存储占用存储器最多的几个或仅一个进程族的参数区。
以上为了符合一般性假定了进程族列表PL是一个线性列表,即一个进程族的后继有且仅有一个进程族(或者就是该列表的结束)的链。还假定了在一个进程族内进程Pn可以形成树形结构。如果实际情况较前述之一更简单,例如进程族中的进程仅形成了线性列表,则为了简单可以删除树形结构的处理。
本发明必需的参数区PA的内容可以包括,例如下面与特定处理器(例如使用Intelx86)相关的事件:
-进程所占用的存储区(大小、占用时间、使用)
-进程已发送但仍未被接收的消息
-进程设置的时间监控
-进程所打开的文件
-进程所占用的共享资源,例如对共享信号机执行的P操作
-在栈中以及在数据区中的与具体应用相关的变量,以及由操作系统存储在这些区域中的数据。
相应地,所有进程共享的数据包括:
-存储器占用数据,尤其是与可用存储器相关的数据
-与存储器占用相关的信号机
-用于一般用途的信号机
-操作系统的出错记录
根据本发明的故障数据收集程序OSl,可以从存储器中发现这些数据结构并从中得到数据,其方式与其余软件处理相同数据结构的方式相同。同时,也有利于增补故障数据收集程序,并且可以通过强制控制记录来控制程序的操作,强制控制记录可以指令程序从特定存储区收集数据。待收集的这些存储区可以由绝对地址或符号标签指示(如果相应的链接表存储在该计算机的存储器中)。试图定位故障的技术支持人员可以通过任一简单的字处理程序生成这种强制控制记录。在最简单的形式下,这些记录可以仅包括两个参数:一个起始地址和一个终止地址,故障数据收集程序将这两个地址间区域的内容拷贝到存储区。程序还可以拷贝一个标识符,例如起始地址。实际上,故障大多发生在预料不到的地方。通过强制控制记录,也可以从启动故障数据收集程序时未预料到的地方收集数据。
图4示出了根据本发明的故障数据收集程序OSl的一种说明性实施例的可能步骤。该收集程序与其余软件一起被装入存储器(步骤S0)。在该步骤中,设置下一次重新启动之后所需进行的跳转,使之定向到该收集程序。下一次重新启动激活了该收集程序(步骤S5)。收集程序从主存储器23的强制控制记录表中读出第一记录(步骤S10)。如果存在这种记录,收集程序对其进行处理(步骤S20)。如果在步骤S15检测到已位于强制控制记录表末尾,则收集程序进行到步骤S25以搜索该进程的数据结构。在步骤S30中,检查是否已处理了所有的数据结构。如果没有,则在步骤S35检查该数据结构是否包含任何反常属性。如果没有,步骤S40中该数据结构的必要部分被拷贝到存储区SA。如果在步骤S30中检测到已位于该数据结构表末尾,则程序进行到步骤S45,装入软件的其它部分,其中处理外围设备,例如磁盘驱动器的例程对本发明是必要的。装入了处理外围设备的例程之后,在步骤S50拷贝存储区SA的内容以供技术支持人员使用。技术支持人员可能以打印出的报告、磁盘文件或通过发往远程工作站的电话接收到存储区SA的内容。
在某些系统中,故障程序可能会使主存储器变得完全混乱,甚至还会引起故障数据收集程序的失效。可以通过将故障数据收集程序放置在一个受到保护、至少不会被无意覆盖的存储器来限制这种风险。例如通过将故障数据收集程序放置在ROM或者FLASH存储器,或者通过处理器寄存器的使用,防止写入收集程序所在存储器段来实现这种保护。
以上通过针对Intelx86处理器的例子说明了本发明的实施例。显然,本发明并不局限与此,而可以应用于任何类型的处理器,从而自然地收集与所讨论的处理器族相关的存储器管理和其它数据。在本领域中术语的使用在某种程度上有所不同。本申请中使用的术语“进程”可以在另一些地方被称作“线程(thread)”,从而本申请中使用的术语“进程族”可以相应地被称作“进程”。但是,不应当认为本发明的范围依赖于所用的术语。并且对本领域中的技术人员而言,显然随着技术的发展,可以通过不同方式实现本发明的基本思想。本发明及其实施例并不局限于上述例子,它们在权利要求书的范围内可以有所变化。

Claims (13)

1.一种收集导致计算机(20)重新启动的故障数据的方法,所述计算机(20)包括具有一个或多个进程(Pn)的软件(OS),其特征在于,该方法包括:
-在计算机(20)已经重新启动之后,但是在新数据被写入软件(OS)的某些数据结构(PA)所存储的主存储器(23)部分之前,从计算机的主存储器(23)中至少读出这些数据结构(PA);
-将这些数据结构(PA)的内容与预定正常值进行比较;以及
-响应于所述数据结构(PA)的内容与预定正常值的不同,将从主存储器(23)中读出的数据结构(PA)拷贝到预定外围设备,以在重新启动之后维持这些数据结构(PA)的内容。
2.根据权利要求1的方法,其特征在于,该方法还包括:
-在计算机(20)重新启动之前,在计算机的主存储器(23)中保留预定存储区(SA)以收集故障数据;以及
-在重新启动之后,在这些数据结构(PA)被拷贝到外围设备(27,28)之前将其拷贝到预定存储区(SA)。
3.根据权利要求1或2的方法,其特征在于,导致重新启动的出错情况被划分成预定类,至少一些步骤是针对包含与所讨论的出错情况类相关的数据的数据结构(PA)。
4.根据权利要求3的方法,其特征在于,出错情况类包含下述类中的至少一种:内存不够、进程环回无休止运行、允许进程占用的存储区溢出以及未定义的命令。
5.根据权利要求4的方法,其特征在于,如果出错情况属于“内存不够”类,则该方法包括:
-在重新启动之前,确定占用主存储器(23)的主要的一个或最多几个进程(Pn);以及
-响应于包含与最多几个进程(Pn)相关的数据的所述数据结构(PA),拷贝这些数据结构(PA),前述进程是占用了主存储器的主要进程。
6.根据权利要求4的方法,其特征在于,如果出错情况属于“进程环回无休止运行”类,则该方法包括:
-确定发送了该进程(Pn)尚未释放的消息的进程(Pn);以及
-响应于包含与未释放发送给它的消息的进程(Pn)相关的数据的所述数据结构(PA),拷贝这些数据结构(PA)。
7.根据任一前述权利要求的方法,其特征在于,该方法还包括:
读取一组包含数据结构(PA)的强制控制记录;以及
将该强制控制记录中包含的数据结构(PA)拷贝到外围设备(27,28)。
8.一种计算机(20),包含一个中央处理单元(24)、软件(OS)、一个主存储器(23)和外围设备(21,26),软件(OS)通过至少一个外围设备装入主存储器(23),其特征在于,为了在重新启动期间收集故障数据,计算机(20)还包括一个故障数据收集程序(OS1):
-用于在重新启动开始之后,但是在新数据写入存储某些软件数据结构(PA)的主存储器(23)部分之前,从主存储器(23)至少读出这些数据结构;
-用于比较该数据结构(PA)和预定正常值;以及
-用于将不同于预定正常值的数据结构(PA)拷贝到预定外围设备,以在重新启动之后维持该数据结构(PA)的内容。
9.根据权利要求8的计算机,其特征在于,当计算机(20)执行故障数据收集程序(OS1)时,在数据结构(PA)被拷贝到外围设备(27,28)之前,它还将数据结构(PA)拷贝到预定存储区(SA)。
10.根据权利要求8或9的计算机,其特征在于,计算机(20)将数据结构拷贝到固定磁盘(27)。
11.根据权利要求8或9的计算机,其特征在于,计算机(20)通过电缆(1)将数据结构拷贝到服务器(10)。
12.根据权利要求8或9的计算机,其特征在于,计算机(20)将数据结构拷贝到输出设备(28)。
13.根据权利要求8到12中任意一项的计算机,其特征在于,故障数据收集程序(OS1)位于写保护的存储器。
CN96198321A 1995-10-30 1996-10-29 收集导致计算机重新启动的故障数据的方法以及计算机 Expired - Fee Related CN1105352C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI955186A FI102220B1 (fi) 1995-10-30 1995-10-30 Vikaantumistietojen keräys tietokoneyksikön uudelleenkäynnistyksen osana
FI955186 1995-10-30

Publications (2)

Publication Number Publication Date
CN1202256A true CN1202256A (zh) 1998-12-16
CN1105352C CN1105352C (zh) 2003-04-09

Family

ID=8544283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN96198321A Expired - Fee Related CN1105352C (zh) 1995-10-30 1996-10-29 收集导致计算机重新启动的故障数据的方法以及计算机

Country Status (11)

Country Link
US (1) US6145095A (zh)
EP (1) EP0870232B1 (zh)
JP (1) JP2000501210A (zh)
CN (1) CN1105352C (zh)
AU (1) AU714666B2 (zh)
BR (1) BR9611202A (zh)
CA (1) CA2236170C (zh)
DE (1) DE69618007T2 (zh)
FI (1) FI102220B1 (zh)
RU (1) RU2177636C2 (zh)
WO (1) WO1997016787A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100361554C (zh) * 2004-10-20 2008-01-09 华为技术有限公司 一种无线通信系统中记录功放工作状态信息的方法
CN100389395C (zh) * 2005-01-26 2008-05-21 富士通株式会社 存储器转储程序引导方法及设备

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000178209A (ja) * 1998-12-15 2000-06-27 Mitsubishi Chemicals Corp 分子設計装置及び方法並びに情報記憶媒体
JP2000267872A (ja) * 1999-03-17 2000-09-29 Fujitsu Ltd 2重化システムにおける再開処理方式
US6345331B1 (en) * 1999-04-20 2002-02-05 International Business Machines Corporation Device adapter being reintegrated with plurality of device adapters of network, or reestablishing permissions and resubmitting I/O requests depending on determined device state after failure
US6779132B2 (en) * 2001-08-31 2004-08-17 Bull Hn Information Systems Inc. Preserving dump capability after a fault-on-fault or related type failure in a fault tolerant computer system
DE10231653A1 (de) * 2002-07-12 2004-02-05 Infineon Technologies Ag Verfahren zum Einrichten einer programmgesteuerten Schaltungsanordnung und Schaltungsanordnung zur Durchführung des Verfahrens
US7181574B1 (en) * 2003-01-30 2007-02-20 Veritas Operating Corporation Server cluster using informed prefetching
KR100529330B1 (ko) * 2003-07-02 2005-11-17 삼성전자주식회사 에러 복구 가능한 인쇄 방법 및 장치와 컴퓨터 프로그램을저장하는 컴퓨터로 읽을 수 있는 기록 매체
US20050096924A1 (en) * 2003-10-30 2005-05-05 Enis James H. Solution network knowledge management system
DE10352172A1 (de) 2003-11-05 2005-06-09 Robert Bosch Gmbh Verfahren und Vorrichtung zur Anpassung von Funktionen zur Steuerung von Betriebsabläufen
US6988476B2 (en) * 2004-03-11 2006-01-24 Kold Ban International, Ltd. Vehicle with switched supplemental energy storage system for engine cranking
US7151643B2 (en) * 2005-04-22 2006-12-19 Kabushiki Kaisha Toshiba Apparatus and method for protecting a disk drive in a hardcopy device
US20120173713A1 (en) * 2010-12-30 2012-07-05 Brocade Communication Systems, Inc. Resources monitoring and recovery

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4381540A (en) * 1978-10-23 1983-04-26 International Business Machines Corporation Asynchronous channel error mechanism
JPS59123058A (ja) * 1982-12-29 1984-07-16 Fujitsu Ltd マシンチエツク処理方式
JPH07117863B2 (ja) * 1987-06-26 1995-12-18 株式会社日立製作所 オンラインシステムの再立上げ方式
JPH02294753A (ja) * 1989-05-09 1990-12-05 Fujitsu Ltd 入出力処理装置の初期化方式
US5056091A (en) * 1990-03-15 1991-10-08 Hewlett-Packard Company Method for handling errors detected in a computer system
US5410545A (en) * 1992-07-28 1995-04-25 Digital Equipment Corporation Long-term storage of controller performance
CA2106280C (en) * 1992-09-30 2000-01-18 Yennun Huang Apparatus and methods for fault-tolerant computing employing a daemon monitoring process and fault-tolerant library to provide varying degrees of fault tolerance

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100361554C (zh) * 2004-10-20 2008-01-09 华为技术有限公司 一种无线通信系统中记录功放工作状态信息的方法
CN100389395C (zh) * 2005-01-26 2008-05-21 富士通株式会社 存储器转储程序引导方法及设备

Also Published As

Publication number Publication date
DE69618007T2 (de) 2002-06-13
CA2236170A1 (en) 1997-05-09
FI955186A0 (fi) 1995-10-30
FI102220B (fi) 1998-10-30
CN1105352C (zh) 2003-04-09
BR9611202A (pt) 1999-03-30
WO1997016787A2 (en) 1997-05-09
FI102220B1 (fi) 1998-10-30
JP2000501210A (ja) 2000-02-02
RU2177636C2 (ru) 2001-12-27
AU714666B2 (en) 2000-01-06
CA2236170C (en) 2006-02-14
WO1997016787A3 (en) 1997-07-03
EP0870232B1 (en) 2001-12-12
AU7302896A (en) 1997-05-22
FI955186A (fi) 1997-05-01
EP0870232A2 (en) 1998-10-14
US6145095A (en) 2000-11-07
DE69618007D1 (de) 2002-01-24

Similar Documents

Publication Publication Date Title
CN1105352C (zh) 收集导致计算机重新启动的故障数据的方法以及计算机
US7953772B2 (en) Method and system for inspecting memory leaks and analyzing contents of garbage collection files
US5119377A (en) System and method for software error early detection and data capture
US20070255775A1 (en) Method and system for inspecting memory leaks
CN101819525A (zh) 用于查找系统中应用的配置文件的方法和设备
US20080320336A1 (en) System and Method of Client Side Analysis for Identifying Failing RAM After a User Mode or Kernel Mode Exception
CN1141644C (zh) 一种嵌入处理机内存的检测和监控方法
US20080010649A1 (en) Method Of Loading Software With An Intermediate Object Oriented Language In A Portable Device
US8793289B2 (en) Method and system for detecting memory leaks and copying garbage collection files
CN101154185A (zh) 软件运行时执行恢复与重放方法
EP4379554A1 (en) Data processing method and apparatus, and device, storage medium and program product
CN116594796A (zh) 一种基于eBPF的进程崩溃信息收集方法和装置
WO2022124720A1 (ko) 운영체제 커널 메모리의 실시간 오류 검출 방법
WO2023231704A1 (zh) 算法运行方法、装置、设备、存储介质
CN110764962A (zh) 日志处理方法和装置
CN111352631B (zh) 一种接口兼容性检测方法及装置
CN115705294B (zh) 用于获取函数调用信息的方法、装置、电子设备和介质
CN115129539A (zh) 一种日志优化方法、装置、设备及存储介质
CN114791884A (zh) 测试环境的构建方法、装置、存储介质及电子设备
Ogata et al. Replay compilation: improving debuggability of a just-in-time compiler
CN118519860B (zh) 接口调用的控制方法、装置、存储介质和电子设备
CN118519915B (zh) 一种基于全局内存保护的内核内存访问越界的调试方法
CN112860574B (zh) Linux内核的内存泄漏检测方法和装置、介质、设备
CN114201407A (zh) 野指针排查方法、装置、设备及存储介质
CN118069241A (zh) 一种用于并发java应用程序的管理系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NOKIA AND SIEMENS NETWORKS CO., LTD.

Free format text: FORMER OWNER: NOKIA NETWORKS OY

Effective date: 20080718

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee

Owner name: NOKIA NETWORKS OY

Free format text: FORMER NAME OR ADDRESS: NOKIA TELECOMMUNICATIONS OY

CP01 Change in the name or title of a patent holder

Address after: Espoo, Finland

Patentee after: NOKIA Corp.

Address before: Espoo, Finland

Patentee before: Nokia Telecommunications Oy

TR01 Transfer of patent right

Effective date of registration: 20080718

Address after: Espoo, Finland

Patentee after: Nokia Siemens Networks Ltd.

Address before: Espoo, Finland

Patentee before: NOKIA Corp.

C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee