CN103563306A - 使用停止信令来促进通信环境中的处理 - Google Patents
使用停止信令来促进通信环境中的处理 Download PDFInfo
- Publication number
- CN103563306A CN103563306A CN201280026398.5A CN201280026398A CN103563306A CN 103563306 A CN103563306 A CN 103563306A CN 201280026398 A CN201280026398 A CN 201280026398A CN 103563306 A CN103563306 A CN 103563306A
- Authority
- CN
- China
- Prior art keywords
- signal
- network
- network element
- action
- another
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 title claims abstract description 20
- 230000011664 signaling Effects 0.000 title description 5
- 230000009471 action Effects 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 19
- 230000005540 biological transmission Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 7
- 230000002093 peripheral effect Effects 0.000 claims description 4
- 238000011084 recovery Methods 0.000 abstract description 20
- 230000000644 propagated effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 20
- 239000013257 coordination network Substances 0.000 description 13
- 238000003860 storage Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000002955 isolation Methods 0.000 description 6
- 208000024891 symptom Diseases 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000001737 promoting effect Effects 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000007727 signaling mechanism Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000284 resting effect Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012812 general test Methods 0.000 description 1
- 230000001976 improved effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 206010025482 malaise Diseases 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- VIKNJXKGJWUCNN-XGXHKTLJSA-N norethisterone Chemical compound O=C1CC[C@@H]2[C@H]3CC[C@](C)([C@](CC4)(O)C#C)[C@@H]4[C@@H]3CCC2=C1 VIKNJXKGJWUCNN-XGXHKTLJSA-N 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Debugging And Monitoring (AREA)
- Exchange Systems With Centralized Control (AREA)
Abstract
促进通信环境内的处理,诸如调试和/或恢复处理。响应于检测到事件,通过通信环境的通信网络和每个网络元件来传播停止信号,所述网络元件接收停止信号,向其邻点(如果有的话)发送信号,并且然后根据其特定编程而执行动作。该动作可以是不采取动作、执行调试动作或执行恢复动作。接收信号并执行与其他元件相同的动作的元件形成提供协调结果的协调网络。
Description
技术领域
本发明的一个或多个方面一般地涉及通信环境内的处理,并且特别地涉及促进此类通信环境内的调试和/或恢复处理。
背景技术
企业级计算系统(诸如由国际商用机器公司提供的System z)除其处理特征的干线数据处理之外,还要求复杂的系统功能。可靠性、可用性和可服务性(RAS)是企业系统的关键的一组要求。企业系统实现先进的技术以在发生硬件故障时确保客户数据的完整性和服务的快速返回。构成系统的组合元件的复杂性要求增强的调试特征,以使得能够实现设计问题的高效隔离及其根源的识别。
恢复和调试能力的企业级特征仅仅是在最近被添加到某些互连技术,诸如PCI(外围部件互连)和PCIe(快速PCI)。随着PCI和PCIe的演进,其恢复和调试能力已变得越来越尖端,并且现在包括关于恢复和调试的某些企业级特征。然而,企业级特征的添加有时已导致不利情况。
发明内容
通过包括可编程逻辑块的网络元件的提供,克服了现有技术的缺点并提供了附加优点,所述可编程逻辑块被配置成:从另一网络元件接收信号,该网络元件是基于特定技术配置的,并且该信号是并非针对特定技术设计的边带信号;对信号执行逻辑运算以提供另一信号;将所述另一信号发送到一个或多个其他网络元件;以及响应于该信号而执行动作,其中,该动作是将由多个可编程逻辑块执行以提供协调结果的协调动作的一部分。
还描述了关于本发明的一个或多个方面的计算机程序产品、方法和系统,并且可以在此要求保护。此外,还描述了关于本发明的一个或多个方面的服务,并且可以在此要求保护。
通过本发明的一个或多个方面的技术实现了附加特征和优点。在此详细地描述了本发明的其他实施例和方面并将其视为要求保护的本发明的一部分。
附图说明
特别地指出了本发明的一个或多个方面并在本说明书结束时在权利要求中作为示例明确地要求保护。根据结合附图进行的以下详细描述,本发明的一个或多个方面的前述及其他目的、特征和优点是显而易见的,在所述附图中:
图1描述了用以结合并使用本发明的一个或多个方面的通信环境的一个实施例;
图2描述了根据本发明的一方面的图1的通信环境的通信网络的进一步细节的一个实施例;
图3A描述了图2的通信网络的一个实施例以及用以结合和/或使用本发明的一个或多个方面的附加电路/逻辑;
图3B描述了根据本发明的一方面的图3A中所示的逻辑块的进一步细节;
图4A描述了根据本发明的一方面的与发送停止信号相关联的逻辑的一个实施例;
图4B描述了根据本发明的一方面的与接收停止信号并响应于此而采取动作的逻辑的一个实施例;以及
图5描述了结合了本发明的一个或多个方面的计算机程序产品的一个实施例。
具体实施方式
根据本发明的一方面,提供了用于促进通信环境内的处理(诸如调试和/或恢复处理)的能力。特别地,响应于检测到事件,通过通信环境的通信网络和每个网络元件来传播停止信号,所述网络元件接收停止信号,向其邻点(如果有的话)发送信号,并且然后根据其特定程序设计而执行动作。作为示例,该动作可以是不采取动作、执行调试动作或执行恢复动作。接收到信号并执行与其他元件相同的动作的元件形成提供协调结果的协调网络。
例如,如果检测到触发调试功能的条件,则检测到该条件的网络元件向其邻点发送停止信号,该邻点然后将该停止信号发送到其邻点,以此类推。接收到停止信号的每个网络元件除将其传播之外还根据其如何被编程而采取动作。如果其被编程为用于调试,则其在其追踪能力内发起动作,诸如触发数据捕捉。被编程为用于调试的每个网络元件是用于调试的协调网络的一部分,其将提供协调追踪。
类似地,如果由网络元件检测到错误,则检测到错误的网络元件向其邻点发送停止信号,该邻点将该信号传播至其邻点。此外,每个网络元件根据其如何被编程而采取动作。如果其被编程为用于恢复,则其执行例如静寂(quiesce)操作。被编程为用于恢复的每个网络元件是用于恢复的协调网络的一部分,其提供协调网络内的元件的协调静寂。
参考图1来描述用以结合和使用本发明的一个或多个方面的通信环境的一个实施例。在一个示例中,通信环境10包括由国际商用机器公司提供的服务器。是基于由国际商用机器公司提供的。在20 1 O年8月的题为“一Principles of Operation'’的IBM出版物No.SA22-7832-08、第九版中描述了关于的细节,其被整体地通过引用结合到本文中。、和是纽约Armonk市的国际商用机器公司的注册商标。在此所使用的其他名称可以是国际商用机器公司或其他公司的注册商标、商标或产品名称。
在一个示例中,通信环境10包括经由存储器控制器16耦合到系统存储器14(也称为主存储器)的一个或多个中央处理单元(CPU)12。为了访问系统存储器14,中央处理单元12发出包括用来访问系统存储器的地址的读或写请求。包括地址(已转换,如果必要的话)的该请求被存储器控制器16接收到,其访问系统存储器。
在一个示例中,存储器控制器1 6由硬件组成且被用来仲裁对系统存储器的访问并保持存储器的一致性。此仲裁是针对从CPU 12接收到的请求以及针对从一个或多个端点30、35接收到的请求执行的。类似于中央处理单元,端点向系统存储器14发出请求以获得对系统存储器的访问。
在一个示例中,端点30、35是基于PCIe技术且可以是一个或多个适配器的一部分。端点发出经由交换机(例如,PCIe交换机)20路由到输入/输出集线器1 8(例如,PCIe集线器)的请求。在一个示例中,输入/输出集线器由硬件组成,包括一个或多个状态机器,并经由IO至存储器总线耦合到存储器控制器16。
输入/输出集线器包括例如根联合体17,其从交换机接收请求,将该请求传递至访问存储器的存储器控制器。在此示例中,根联合体、交换机和端点是通信网络的网络元件。通信网络是基于PCIe,并且因此每个元件是PCIe设备。
在通信环境的另一实施例中,除一个或多个CPU12之外或作为其替代,中央处理联合体耦合到存储器控制器16。中央处理联合体包括例如一个或多个分区或区(例如,逻辑分区)、一个或多个中央处理器以及用来管理逻辑分区的管理程序。还可以有其他变体。
虽然示出并描述了包括各种元件的网络的一个示例,但网络可以包括许多附加元件,作为示例,诸如不止一个根联合体、耦合到一个或多个根联合体的多个交换机、多个交换机层级(例如,连接到其他交换机等且然后至根联合体或一个或多个端点的交换机)以及更多的端点。在此描述了可以是较大网络的一部分的此网络以促进对在网络处理中可能出现的情况和如何使用本发明的一个或多个方面来解决这些情况的理解。虽然在此描述了较小网络或网络的一部分,但本发明的一个或多个方面同样适用于较大网络。
在上述网络中,已经添加了提供按比例增大PCI的恢复和调试特征;然而,从这些添加特征已出现了某些不期望情况。例如,添加恢复特征引发元件中的故障,该元件否则将不会由于由PCI提供的恢复程序造成的业务拥挤而受到故障元件的影响。这被称为同情病(sympathy sickness)。
此外,用于企业系统的按比例增大PCI的总体弱点来自于其在设计问题的隔离和调试方面对逻辑分析器的传统依赖。逻辑分析器是允许数据的海量收集的强大的调试工具。根据封装约束,其能够悬挂在遍及整个系统的链路处,并收集允许故障和错误源的良好隔离的协调全面视图。然而,由于许多原因,针对大部分的调试和故障隔离,企业级系统不能依赖于这种方法。首先,封装约束阻止分析器在许多关键链路上的附着。此外,企业系统的庞大规模使得分析器的使用不那么有效,因为在主机中的每个链路处都悬挂分析器是不切实际的。进一步地,企业系统具有客户数据中心中的卓越调试和隔离的传统市场要求。因此,存在跨各元件实现大型内部追踪阵列的历史。存在跨各元件协调追踪捕捉的要求。这是基于逻辑分析器的策略遗憾地达不到企业要求的情况。
因此,根据本发明的一方面,提供了用以解决PCIe的恢复缺点和调试弱点的能力。在一方面,提供了一种信令机制,其向和从经由PCIe接口链接在一起的子系统(例如,通信网络)中的每个元件传递停止信号。该停止信号允许针对恢复主动而配置的元件中的恢复主动,以防止由其他元件上的故障所导致的业务备份的结果。其还允许跨子系统的许多元件的全面调试追踪的协调捕捉,所述许多元件是针对此类捕捉而配置的。
参考图2来描述用以结合和使用本发明的一个或多个方面的基于PCIe的通信网络的一个示例。在本示例中,网络包括在层1开始且继续至层4的多个层级。层1是根联合体层且包括例如根联合体100和根联合体101。层1的根联合体经由一个或多个链路(例如,PCIe链路)耦合到层2处的交换机。例如,根联合体100耦合到交换机200且根联合体101耦合到交换机201。交换机200和交换机201相互耦合。此外,层2上的交换机再次地经由诸如PCIe链路的一个或多个链路耦合到层3上的一个或多个其他交换机。如在本示例中所示,交换机200耦合到交换机300和一个或多个其他交换机30x。此外,交换机201耦合到一个或多个交换机31x。层3上的交换机经由一个或多个链路(例如,PCIe链路)进一步耦合到层4上的适配器。例如,交换机300耦合到适配器400和一个或多个其他适配器40x。交换机30x和31x还耦合到未示出的一个或多个适配器。
虽然在此通信网络中示出了四个元件层级,但应理解的是可以存在更多的层级,包括附加的交换机层级。此外,每个层级可以包括比在这个示例中所示的更多或更少的元件。本示例仅仅用于举例说明的目的且并不意图以任何方式加以限制。
继续图2,示出了两个主子网络。第一个包括根联合体100,其在处理器节点集线器中,并经由多个交换机耦合到适配器;并且第二个包括根联合体101,其在另一处理器节点集线器中,并且还连接到下游元件。这两个主子网络连接使得任一集线器能够变成用于整组适配器的处理器业务源/接收器。这能够以两种方式发生。首先,当将在集线器或其处理器节点上执行服务时,通过控制切换。其次,当硬件故障破坏处理器节点或集线器时,其在不受控故障转移中发生。
网络中的每个元件(例如,根联合体、交换机、适配器或其子集)包括可编程追踪阵列,其可以设置成捕捉调试数据,由特定条件的检测触发。在某些情况下,用来实现元件的芯片是行业标准,并具有微乎其微的追踪能力;而在其他情况下,芯片是用户定制设计的并具有相当大的追踪能力。
在调试方案中,在网络的一个元件或一组元件中存在设计错误或硬件故障。其常常通过元件内的条件所识别。当情况如此时,调试能够继续进行在该元件的追踪中捕捉的数据。然而,存在某些情况,其中错误或故障条件是经由该元件内的追踪触发条件不可识别的。在这种情况下,不能简单地从标准PCIe网络的状态追踪收集调试数据。这使得追踪在确定问题的原因和解决方案方面是无效的。
在标准PCIe恢复方案中,到子系统中的许多适配器中的一个的PCIe链路变成不可响应。业务随着PCIe硬件通过超时注意到该条件而进行备份,并且然后尝试重新训练链路以使得其可响应。随着业务备份,其他适配器可以开始待决的超时操作。有时,业务是轻的,并且超时引起适当的恢复,并限制有故障元件的后果。然而,在其他时间,业务更重且其他设备受到影响,但是重试和隔开故障快速地修正该症状并防止更严重的后果。然而,取决于硬件要花费多长时间来识别到链路不能被重新训练,其他适配器可能从备份开始经历更严重的症状,并且其本身要求恢复动作以返回到可运行状态。这可能导致严重后果的症状,因为恢复被设计并测试以针对单个故障点有效地工作。随着恢复动作传播跨越大的域,存在命中未测试窗口的增加概率,这可能导致资源的更大损耗及甚至停歇。多个元件的恢复常常是成功的并将全套服务返回至所有适配器。然而,存在由于逐步上升的传播的症状而发生停歇和服务呼叫时的情况。
因此,根据本发明的一方面,提供了一种信令机制和关联逻辑以解决上述调试弱点和恢复缺点。该信令机制包括停止信号和关联处理,其允许跨网络中的许多元件的全面调试追踪的协调捕捉,并允许元件中的恢复主动,该恢复主动防止它们经历由其他元件上的故障引发的业务备份的后果。在本示例中,使用同一信号来执行两个功能,并且在特定元件中执行的功能取决于其配置,该配置是可重新编程的。
参考图3A,在本示例中,网络的每个元件具有相应的可编程逻辑块300。该逻辑块被具体地针对该逻辑块被包括在其中的元件进行编程。其可以被编程为执行调试动作、恢复动作或两者都不执行。在一个示例中,其是使用可编程硬件设备(诸如现场可编程门阵列)来实现的,并且因此如果期望的话,其编程可以被改变。(在另一实施例中,可以将一个或多个元件选择成不具有可编程逻辑块或参与所提供能力中的一个或多个。)
如图3B中所示,穿过这些块的信号是STOP_IN/STOP_OUT信号。当网络中的元件命中编程为触发停止的条件时,其从其逻辑块300发送STOP_OUT信号330。每个逻辑块从其相邻逻辑块接收停止信号作为STOP_IN信号332。根据本发明的一方面,接收逻辑块在逻辑上对其自己的信号与STOP_IN信号取OR334以提供作为STOP_OUT信号336发送出的组合信号。每个逻辑块在如何和是否确定其本地地对输入停止信号作出反应方面是可编程的。每个元件上的停止信令和关联逻辑组合而产生停止网络。该停止网络允许调试触发和捕捉能力的强大的可编程配置以及强大的恢复功能。下面更详细地描述这些中的每一个。
在使用本发明的一个或多个方面的理想芯片中,存在能够应用于停止信号生成的复杂逻辑,并且存在能够捕捉对调试一个问题有用的许多关键信号的大型且丰富的追踪能力。但是在某些行业标准芯片中,这是不可能的,并且仅存在允许参与停止网络的有限的追踪和最小的可编程逻辑能力。尽管如此,停止网络对跨网络的各种元件的能力进行组合和协调,给每个本地元件带来网络的整个调试能力的优点。
当在网络中的任何地方识别到错误条件时,在网络中到处捕捉数据(即,在针对调试功能进行编程的每一处)。这呈现跨广泛的一组视角的协调的故障画面,使得能够实现优越的问题洞察力和隔离能力。
考虑只有当特定类型的分组通过元件时才发生的故障的调试。可能在错误中并未起到直接作用的一个元件具有监视和触发PCIe报头的非常特定的一组特性的能力。该元件能够用信号发送被在破坏元件之前和之后的元件中的错误破坏的数据的捕捉。整个网络然后提供破坏之前和之后的数据的快照。这种能力从而大大地增加了网络中的元件的调试有效性。
在一个示例中,参与调试捕捉的每个元件响应于接收到停止信号而收集位于元件内的追踪阵列中的调试数据。然后从每个元件收集此数据。例如,通过对阵列进行寻址并每次读出一个字而通过PCI网络从追踪阵列读取该数据。
如前所述,停止网络具有恢复功能以及调试功能。当停止网络中的元件已检测到使其不可通信的条件时,其向其邻点发送停止信号,该邻点将该信号传播至其邻点,以此类推。此方案中的停止信号能够被编程为使元件处的业务静寂(例如,业务的发起)。因此,能够将停止网络配置成向整个网络发送静寂信号(即,停止信号)。
在一个示例中,配置成解释信号的适配器能够使用信号来发起业务的静寂(例如,直接存储器存取(DMA)业务或从适配器发起的任何业务,除恢复之外)。由适配器发起的此业务静寂根本上胜过业务进入由原始故障引起的网络内的业务阻塞。因此,基本上改善了备份的尺寸和严重程度。应注意的是此类停止能够由具有故障的元件或由检测到通信中断的元件或由已经被通知通信故障的主机(例如,主机上的固件)用信号通知。参与此业务静寂的适配器越多,业务阻塞的后果包含的越多。如果只有适配器的子集在参与,该机制仍是有效的。(在此所使用的固件包括例如处理器的微代码、毫代码和/或宏代码。其包括例如硬件级指令和/或在较高层机器代码的实现中使用的数据结构。在一个实施例中,其包括例如专有代码,该专有代码通常被作为包括可信软件的微代码或底层硬件所特定的微代码传送并控制操作系统对系统硬件的访问。)
限制业务阻塞的尺寸的特别有价值的方面源自于主机(例如,固件)在发生故障时采取动作并将该故障与系统隔离的能力。主机能够通过丢弃链路或通过提高围栏来做到这一点。这些动作中的任一个促使分组在其到达不可通信元件之前被丢弃。业务阻塞消散且网络中的其他元件并未遭受故障的任何后果。
参考图4A—4B来描述与停止信号及其相应处理相关联的逻辑的一个实施例。参考图4A,最初,网络的元件检测事件(例如,错误、调试条件等),步骤40。响应于此,元件向其相邻元件中的一个或多个发送STOP_OUT信号,步骤42。在一个特定示例中,其向其经由链路(例如,PCIe链路)连接到的每个相邻元件发送信号。
参考图4B,连接到发送元件的元件经由STOP_IN来接收停止信号,步骤44。响应于此,接收元件在逻辑上对STOP_IN信号与其自己的信号取OR,产生组合信号,步骤46。该组合信号然后作为STOP_OUT信号从接收元件发送到其相邻元件,步骤48。此外,接收元件基于其编程来执行动作,步骤50。作为示例,其不采取动作;其执行调试功能并捕捉追踪数据;或者其执行恢复动作,诸如不朝着根联合体发送出DMA请求以使网络中的业务最小化。通过不发送出DMA请求,减少了结构中的DMA请求和相应答复的量,这降低了由于业务阻塞而引起的同情病的可能性。
通过使用停止信号和关联逻辑,为通信网络创建的协调网络。这些协调网络是响应于接收到停止信号基于要执行的特定功能而动态地且自动地创建的逻辑网络。每个协调网络包括一个或多个元件,其中的每一个正在执行与协调网络内的其他元件相同的功能。例如,调试协调网络包括用以执行调试功能的所有元件,并且恢复协调网络包括用以执行恢复功能的所有元件。由于协调网络中的元件全部正在执行同一动作,所以提供了协调的结果(例如,用于调试协调网络中的所有元件的全面追踪数据,无论单独的调试能力如何;用于恢复协调网络的全面静寂)。
上文详细地描述了用于促进使用基于PCI的技术(诸如PCIe)的系统中的调试和恢复处理的能力。本发明的一个或多个方面通过大大地改善基于PCIe的硬件I/O子系统的总体调试追踪能力;增加追踪触发机制的捕捉率;以及增加捕捉到故障或其他条件时的跨子系统的追踪阵列的调试数据内容的体积和质量来促进调试处理。
对于调试能力而言,只要条件可被元件中的一个识别,就能够引起停止信号,无论其是有故障或引起该条件的元件还是另一元件。该信号被传播至例如网络中的所有元件。被编程为捕捉停止信号上的追踪的每个元件将触发而形成整个网络的大型相干追踪。这将最佳追踪的强度全部聚在一起,并使其对所有元件都有用。能够在事件之前和之后随着被破坏分组穿过网络而观察该被破坏分组。这可以是针对允许在不干扰客户的情况下用大量调试数据召回的现场问题而设置的。
此外,本发明的一个或多个方面通过通过当发生故障时使停止信号有效来降低同情病的可能性并在该停止被识别时使例如适配器(例如,使用信道子系统的系统中的信道)中的业务发生静寂而促进恢复处理;加速背压业务拥挤的分辨;减小拥挤和恢复的范围;增加最小症状的可能性;以及降低由于备份而引起的检查停止或停歇的可能性。
对于恢复而言,可以由引起错误或备份的元件(例如,硬件);检测到备份的元件;和/或检测到备份的固件来发送停止信号。作为示例,针对停止恢复被启用的适配器(例如,信道)可以使DMA业务(和/或其他业务)发生静寂以使业务阻塞最小化。较小的阻塞更快地清除并因此较少的超时。其减少了加入恢复的适配器的数目并增加完美恢复的可能性。
通过使用上述能力,经由边带信令能力的使用来增强PCI的可靠性。信令能力是边带的,因为其不是PCI的构造或设计特征。其在由PCI SIG(PCI特殊兴趣组)维护的PCI规范中未指定。替代地,其是根据本发明的一个或多个方面而添加的。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读信号介质可以包括具有在其中体现(例如在基带中或作为载波的一部分)的计算机可读程序代码的传播数据信号。此类传播信号可以采取多种形式中的任何一个,包括但不限于电磁、光或其任何适当组合。计算机可读信号介质可以是任何计算机可读介质,其并非计算机可读存储介质,并且能够发送、传播或传输程序以供指令执行系统、装置或设备使用或与之结合使用。
计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的示例(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
现在参考图5,在一个示例中,计算机程序产品500包括,例如,一个或多个非易失性计算机可读存储介质502,在其上存储有计算机可读的程序代码装置或逻辑504,以提供并方便本发明的一个或多个方面。
体现在计算机可读介质上的程序代码可以用任何适当的介质传输,所述介质包括但不限于:无线、有线、光缆、RF等,或上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本文中将参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品(manufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
除了上述,本发明的一个或多个方面可由服务提供商提供、许诺(offer)、部署、管理、服务等,该服务提供商提供用户环境的管理。例如,服务提供商可创建、维持、支持等计算机代码和/或计算机基础设施,其为一个或多个用户执行本发明的一个或多个方面。反过来,服务提供商可例如根据预订和/或费用协议从用户接受付费。额外地或可替换地,服务提供商可从向一个或多个第三方销售广告内容接受付费。
在本发明的一个方面,可部署用于执行本发明的一个或多个方面的应用。作为一个示例,部署应用包括提供计算机基础设施,其可操作以执行本发明的一个或多个方面。
作为本发明的又一个方面,可部署计算基础设施,其包括将计算机可读代码集成到计算机系统,其中与计算系统结合的代码能够执行本发明的一个或多个方面。
作为本发明的再一个方面,可提供用于集成计算基础设施包括将计算机可读码集成到计算机系统的过程。计算机系统包括计算机可读介质,其中计算机介质包括本发明的一个或多个方面。与计算机系统结合的代码能够执行本发明的一个或多个方面。
虽然上文描述了各种实施例,但这些仅仅是示例。例如,其他架构的计算环境可以结合并使用本发明的一个或多个方面。此外,其他互连技术可以受益于本发明的一个或多个方面。此外,停止信号和关联处理能够被用于除调试和恢复之外。
而且,其他类型的计算环境可受益于本发明的一个或多个方面。作为示例,环境可包括仿真器(例如,软件或其他仿真机制),其中特定架构(包括例如指令执行、诸如地址转换的架构功能、以及架构寄存器)或其子集被仿真(例如,在具有处理器和存储器的本机计算机系统中)。在这样的环境中,仿真器的一个或多个仿真功能可实施本发明的一个或多个方面,即使执行仿真器的计算机可具有与正被仿真的能力不同的架构。作为一个示例,在仿真模式中,解码正被仿真的特定指令或操作,且建立合适的仿真功能以实施单个指令或操作。
在仿真环境中,主计算机包括例如存储器以存储指令和数据;指令获取单元以从存储器获取指令,且可选地,提供用于获取的指令的本地缓冲;指令解码单元以接收获取的指令并确定已被获取的指令的类型;以及指令执行单元以执行该指令。执行可包括将数据从存储器加载到寄存器;从寄存器将数据存储回存储器;或执行如由解码单元确定的某些类型的算术或逻辑运算。在一个示例中,每个单元在软件中实现。例如,被所述单元执行的操作被实现为仿真器软件中的一个或多个子例程。
作为另一示例,可使用适合于存储和/或执行程序代码的数据处理系统,其包括通过系统总线被直接地或间接地耦合到存储器元件的至少一个处理器。该存储器元件包括例如在程序代码的实际执行期间所采用的本地存储器、大容量储存器以及高速缓冲存储器,其提供至少某些程序代码的临时存储以便减少在执行期间必须从大容量储存器检索代码的次数。
输入/输出或I/O设备(包括但不限于键盘、显示器、定点设备、DASD、磁带、CD、DVD、拇指驱动及其他存储介质等)可以直接地或通过中间I/O控制器被耦合到系统。还可以将网络适配器耦合到系统以使得数据处理系统能够通过中间私人或公共网络耦合到其他数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器以及以太网卡仅仅是几个可用类型的网络适配器。
在此使用的术语仅是为了描述特定实施例,且不旨在限制本发明。如在此使用的,单数形式“一”、“一个”和“该”也旨在包括复数形式,除非上下文另外清楚地指明。还将理解,当在说明书中使用时,术语“包括”和/或“包含”指明存在所述的特征、整体、步骤、操作、元件和/或组件,但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件和/或组件。
所附权利要求书中的所有装置或步骤加功能元件的相应结构、材料、操作以及等价物,如有的话,旨在包括用于结合如特别要求保护的其他所要求保护的元件来执行所述功能的任何结构、材料或操作。呈现本发明的说明是为了示出和描述的作用,但不是穷尽性的或将本发明限制于所公开的形式。许多修改和变化对本领域普通技术人员来说是明显的,且不脱离本发明的范围。选择和描述实施例是为了最佳地解释本发明的原理和实际应用,并使得本领域普通技术人员能针对适于考虑的特定用途的具有各种修改的各种实施例理解本发明。
Claims (16)
1.一种网络元件,包括:
可编程逻辑块,被配置成:
从另一网络元件接收信号,该网络元件是基于外围部件互连(PCI)技术配置的,并且该信号是并非针对PCI技术设计的边带信号;
对信号执行逻辑运算以提供另一信号;
将所述另一信号发送到一个或多个其他网络元件;以及
基于该信号来执行动作,其中,该动作是由多个可编程逻辑块执行以提供协调结果的协调动作的一部分。
2.如权利要求1所述的网络元件,其中,该动作包括停止直接存储器存取请求的发送。
3.如权利要求1所述的网络元件,其中,所述动作包括捕捉包括调试数据的追踪。
4.如权利要求1所述的网络元件,其中,所述逻辑运算包括逻辑OR运算。
5.如权利要求1所述的网络元件,其中,所述可编程逻辑块被配置成向连接到网络元件的每个相邻网络元件发送另一信号。
6.如权利要求1所述的网络元件,其中,所述信号是响应于由另一网络部件检测到事件而从所述另一网络部件接收到的。
7.一种促进通信网络中的处理的方法,所述方法包括:
由通信网络中的网络元件接收信号,该网络元件是基于外围部件互连(PCI)技术而配置的并包括可编程逻辑块,该可编程逻辑块接收信号,该信号是并非针对PCI技术设计的边带信号;
对信号执行逻辑运算以提供另一信号;
将所述另一信号发送到连接到网络元件一个或多个其他网络元件;以及
基于接收信号来执行动作,其中,该动作是由多个可编程逻辑块执行以提供协调结果的协调动作的一部分。
8.如权利要求7所述的方法,其中,所述动作包括停止直接存储器存取请求的发送。
9.如权利要求7所述的方法,其中,所述动作包括捕捉包括调试数据的追踪。
10.如权利要求7所述的方法,其中,所述发送包括向连接到网络元件的每个相邻网络元件发送另一信号。
11.如权利要求7所述的方法,其中,所述信号是响应于由另一网络部件检测到事件而从所述另一网络部件接收到的。
12.一种促进通信网络中的处理的计算机程序产品,所述计算机程序产品包括:
计算机可读存储介质,其可被处理电路读取并存储指令以供处理电路执行,以便执行一种方法,所述方法包括:
由通信网络中的网络元件接收信号,该网络元件是基于外围部件互连(PCI)技术而配置的,并且该信号是并非针对PCI技术设计的边带信号;
对信号执行逻辑运算以提供另一信号;
将所述另一信号发送到连接到网络元件一个或多个其他网络元件;以及
响应于接收信号,基于网络元件的可编程序逻辑块的配置来执行动作,其中,所述动作是由多个网络元件执行以提供协调结果的协调动作的一部分。
13.如权利要求12所述的计算机程序产品,其中,所述动作包括停止直接存储器存取业务的发送或捕捉包括调试数据的追踪中的一个。
14.如权利要求12所述的计算机程序产品,其中,所述逻辑运算包括逻辑OR运算。
15.如权利要求12所述的计算机程序产品,其中,所述发送包括向连接到网络元件的每个相邻网络元件发送另一信号。
16.如权利要求12所述的计算机程序产品,其中,所述信号是基于由另一网络部件检测到事件而从所述另一网络部件接收到的。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/151,119 | 2011-06-01 | ||
US13/151,119 US8880956B2 (en) | 2011-06-01 | 2011-06-01 | Facilitating processing in a communications environment using stop signaling |
PCT/IB2012/052297 WO2012164418A1 (en) | 2011-06-01 | 2012-05-09 | Facilitating processing in a communications environment using stop signaling |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103563306A true CN103563306A (zh) | 2014-02-05 |
CN103563306B CN103563306B (zh) | 2016-11-30 |
Family
ID=
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1534422A (zh) * | 2003-01-28 | 2004-10-06 | ����-��˹â��ϵͳ�ɷ�����˾ | 具有过程控制系统和安全系统的过程装置中的集成诊断法 |
CN1564558A (zh) * | 2004-04-01 | 2005-01-12 | 高金铎 | 一种通过互联网远程控制终端控制器的方法 |
CN1588332A (zh) * | 2004-07-06 | 2005-03-02 | 威盛电子股份有限公司 | 可支持基本输入功能的无线外设与控制方法 |
US20060159115A1 (en) * | 2005-01-14 | 2006-07-20 | Fujitsu Limited | Method of controlling information processing system, information processing system, direct memory access control device and program |
CN101155362A (zh) * | 2006-09-29 | 2008-04-02 | 联想(北京)有限公司 | 一种移动终端电源管理装置和方法 |
US20080309349A1 (en) * | 2007-06-15 | 2008-12-18 | Computer Access Technology Corporation | Flexible interposer system |
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1534422A (zh) * | 2003-01-28 | 2004-10-06 | ����-��˹â��ϵͳ�ɷ�����˾ | 具有过程控制系统和安全系统的过程装置中的集成诊断法 |
CN1564558A (zh) * | 2004-04-01 | 2005-01-12 | 高金铎 | 一种通过互联网远程控制终端控制器的方法 |
CN1588332A (zh) * | 2004-07-06 | 2005-03-02 | 威盛电子股份有限公司 | 可支持基本输入功能的无线外设与控制方法 |
US20060159115A1 (en) * | 2005-01-14 | 2006-07-20 | Fujitsu Limited | Method of controlling information processing system, information processing system, direct memory access control device and program |
CN101155362A (zh) * | 2006-09-29 | 2008-04-02 | 联想(北京)有限公司 | 一种移动终端电源管理装置和方法 |
US20080309349A1 (en) * | 2007-06-15 | 2008-12-18 | Computer Access Technology Corporation | Flexible interposer system |
Also Published As
Publication number | Publication date |
---|---|
US8880957B2 (en) | 2014-11-04 |
GB2503406B (en) | 2014-05-07 |
US20120311206A1 (en) | 2012-12-06 |
US20120311133A1 (en) | 2012-12-06 |
WO2012164418A1 (en) | 2012-12-06 |
GB201319322D0 (en) | 2013-12-18 |
GB2503406A (en) | 2013-12-25 |
US8880956B2 (en) | 2014-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10671468B2 (en) | Enhanced dump data collection from hardware fail modes | |
Long et al. | Automatic runtime error repair and containment via recovery shepherding | |
TWI229796B (en) | Method and system to implement a system event log for system manageability | |
US10489232B1 (en) | Data center diagnostic information | |
US20150234730A1 (en) | Systems and methods for performing software debugging | |
CN103563336B (zh) | 一种方便网络内处理的方法和装置 | |
JP2008547070A (ja) | アプリケーションを修理するための方法及びシステム | |
US9459989B2 (en) | Method and apparatus for reverse debugging source code using causal analysis | |
JPH0830476A (ja) | ソフトウエア故障回復のための再使用可能なソフトウエアモジュールを持つプログレッシブ再試行法及び装置 | |
US20130159764A1 (en) | PCI Express Error Handling and Recovery Action Controls | |
CN105468484A (zh) | 用于在存储系统中确定故障位置的方法和装置 | |
CN102419729A (zh) | 并行测试执行 | |
US20120221717A1 (en) | Methods, apparatuses, and computer program products for automated remote data collection | |
US11249861B2 (en) | Multi-layered disaster recovery manager | |
US10539614B2 (en) | Circuit design verification in a hardware accelerated simulation environment using breakpoints | |
Mogul et al. | Thinking about availability in large service infrastructures | |
TW201237749A (en) | Diagnosing code using single step execution | |
CN104598341A (zh) | 用于确定在互连/控制器之间的故障的位置的方法和系统 | |
US9678151B2 (en) | Efficiency of cycle-reproducible debug processes in a multi-core environment | |
US8880957B2 (en) | Facilitating processing in a communications environment using stop signaling | |
CN103563306B (zh) | 促进通信环境中的处理的方法和网络元件 | |
US20130159677A1 (en) | Instruction generation | |
CN113850664A (zh) | 一种数据异常检测方法及数据上报服务 | |
Pan et al. | Blind Men and the Elephant: Piecing together Hadoop for diagnosis | |
Mohd. Noor et al. | Extended heartbeat mechanism for fault detection service methodology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20161130 Termination date: 20200509 |
|
CF01 | Termination of patent right due to non-payment of annual fee |