JP6356822B2 - 計算機システム及びメモリダンプ方法 - Google Patents
計算機システム及びメモリダンプ方法 Download PDFInfo
- Publication number
- JP6356822B2 JP6356822B2 JP2016552742A JP2016552742A JP6356822B2 JP 6356822 B2 JP6356822 B2 JP 6356822B2 JP 2016552742 A JP2016552742 A JP 2016552742A JP 2016552742 A JP2016552742 A JP 2016552742A JP 6356822 B2 JP6356822 B2 JP 6356822B2
- Authority
- JP
- Japan
- Prior art keywords
- data structure
- memory
- failure
- unit
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0778—Dumping, i.e. gathering error/state information after a fault for later diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0712—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0784—Routing of error reports, e.g. with a specific transmission path or data flow
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
Description
Claims (15)
- プロセッサとメモリを有する物理計算機と、前記物理計算機に接続されて記憶装置を有する外部装置と、を備えた計算機システムであって、
前記物理計算機は、
1以上の仮想計算機を提供する仮想化部と、
前記物理計算機及び前記仮想化部の障害を検出する第1の障害監視部と、
前記仮想化部を割り当てた前記メモリの第1の領域を前記外部装置に複製する第1のメモリダンプ部と、
前記仮想計算機の障害を検出する第2の障害監視部と、
前記仮想化部が前記仮想計算機に割り当てた前記メモリの第2の領域を前記外部装置に複製する第2のメモリダンプ部と、を備え、
前記仮想化部は、
前記物理計算機と仮想化部で発生する障害の要因毎に第1の領域内でメモリダンプの対象とする第1のデータ構造と、仮想計算機で発生する障害の要因毎に前記第2の領域内でメモリダンプの対象とする第2のデータ構造がそれぞれ設定された取得領域情報と、
前記第1の領域内での前記第1のデータ構造の位置と範囲を特定する第1の状態管理情報と、を有し、
前記仮想計算機は、
前記第2の領域内での前記第2のデータ構造の位置と範囲を特定する第2の状態管理情報と、を有し、
前記第1のメモリダンプ部は、
前記第1の障害監視部と第2の障害監視部の少なくとも一方が障害を検出したときには、前記障害を検出した第1の障害監視部または第2の障害監視部から前記障害の要因を取得して、前記取得領域情報を参照して前記取得した障害の要因に設定された第1のデータ構造と第2のデータ構造をそれぞれ取得し、前記第1の状態管理情報を参照して前記第1の領域内で前記第1のデータ構造を含む第1のアドレス範囲を特定し、当該特定した第1のアドレス範囲を前記外部装置に複製し、前記第2のメモリダンプ部に前記第2のデータ構造を通知し、
前記第2のメモリダンプ部は、
前記第2の状態管理情報を参照して前記第2の領域内で前記通知された第2のデータ構造を含む第2のアドレス範囲を特定し、当該特定した第2のアドレス範囲を前記外部装置へ複製することを特徴とする計算機システム。 - 請求項1に記載の計算機システムであって、
前記取得領域情報は、
前記物理計算機と仮想化部及び仮想計算機で発生する障害の要因毎にメモリダンプを行う第1のデータ構造及び第2のデータ構造のそれぞれについて優先度を設定したことを特徴とする計算機システム。 - 請求項2に記載の計算機システムであって、
前記第1のメモリダンプ部は、
前記第1のデータ構造及び第2のデータ構造を取得する閾値として優先度を取得して、当該閾値以上の優先度が設定された前記第1のデータ構造及び第2のデータ構造を取得することを特徴とする計算機システム。 - 請求項3に記載の計算機システムであって、
前記第1のメモリダンプ部は、
前記閾値としての優先度を受け付けて、前記閾値として用いることを特徴とする計算機システム。 - 請求項1に記載の計算機システムであって、
前記取得領域情報は、
前記障害の要因毎に物理計算機上で稼働する仮想計算機の全停止、一部停止及び稼働継続のいずれかひとつが稼働停止対象として設定され、
前記第1のメモリダンプ部は、
前記障害の要因に応じて前記取得領域情報から前記稼働停止対象を取得して、前記稼働停止対象に基づいて前記仮想計算機を制御することを特徴とする計算機システム。 - 請求項1に記載の計算機システムであって、
前記仮想計算機は、
前記仮想化部と通信を行う第1の通信経路と、
前記外部装置と通信を行う第2の通信経路と、を有し、
前記取得領域情報は、
前記障害の要因毎に前記第1の通信経路と第2の通信経路の何れか一方を選択する経路情報が設定され、
前記第2のメモリダンプ部は、
前記取得領域情報の経路情報に基づいて前記第1の通信経路と第2の通信経路の一方から出力することを特徴とする計算機システム。 - 請求項1に記載の計算機システムであって、
前記物理計算機は、
前記物理計算機の資源を分割して稼働するハードウェア管理部をさらに有し、
前記取得領域情報は、
前記物理計算機と仮想化部で発生する障害の要因毎に第1の領域内でメモリダンプの対象とする第1のデータ構造と、仮想計算機で発生する障害の要因毎に前記第2の領域内でメモリダンプの対象とする第2のデータ構造と、前記ハードウェア管理部で発生する障害の要因毎に前記メモリの第3の領域内でメモリダンプの対象とする第3のデータ構造がそれぞれ設定され、
前記ハードウェア管理部は、
前記ハードウェア管理部の障害を検出する第3の障害監視部と、
前記ハードウェア管理部に割り当てた前記メモリの第3の領域を前記外部装置に複製する第3のメモリダンプ部と、
前記第3の領域内での前記第3のデータ構造の位置と範囲を特定する第3の状態管理情報と、を有し、
前記第1のメモリダンプ部は、
前記第1の障害監視部と第2の障害監視部と第3の障害監視部の少なくともひとつが障害を検出したときには、前記障害を検出した第1の障害監視部、第2の障害監視部または第3の障害監視部から前記障害の要因を取得して、前記取得領域情報を参照して前記取得した障害の要因に設定された第1のデータ構造と第2のデータ構造及び第3のデータ構造を取得し、前記第1の状態管理情報を参照して前記第1のデータ構造を含む第1のアドレス範囲を特定し、当該特定した第1のアドレス範囲を前記外部装置に複製し、前記第2のメモリダンプ部と前記第3のメモリダンプ部に前記第2のデータ構造と前記第3のデータ構造を通知し、
前記第3のメモリダンプ部は、
前記第3の状態管理情報を参照して、前記第3の領域内で前記通知された第3のデータ構造を含む第3のアドレス範囲を特定し、当該特定した第3のアドレス範囲を前記外部装置へ複製することを特徴とする計算機システム。 - プロセッサとメモリを有する物理計算機と、前記物理計算機に接続されて記憶装置を有する外部装置と、を備えて前記メモリのダンプを行うメモリダンプ方法であって、
前記物理計算機は、
1以上の仮想計算機を提供する仮想化部を有し、
前記仮想化部が、前記物理計算機及び当該仮想化部の障害を検出する第1のステップと、
前記仮想計算機が、当該仮想計算機の障害を検出する第2のステップと、
前記仮想化部が、前記物理計算機と当該仮想化部及び仮想計算機の少なくともひとつで障害を検出したときには、前記障害の要因を取得する第3のステップと、
前記仮想化部が、前記物理計算機と仮想化部で発生する障害の要因毎に前記メモリの第1の領域内でメモリダンプの対象とする第1のデータ構造と、前記仮想計算機で発生する障害の要因毎に前記メモリの第2の領域内でメモリダンプの対象とする第2のデータ構造がそれぞれ設定された取得領域情報を参照して、前記取得した障害の要因に対応する前記第1のデータ構造と前記第2のデータ構造をそれぞれ取得する第4のステップと、
前記仮想化部が、当該仮想化部を割り当てた前記メモリの第1の領域内で前記第1のデータ構造の位置と範囲を特定する第1の状態管理情報を参照して、前記第1の領域内で前記第1のデータ構造を含む第1のアドレス範囲を特定し、当該特定した第1のアドレス範囲を前記外部装置に複製する第5のステップと、
前記仮想化部が、前記第2のデータ構造を前記仮想計算機へ通知する第6のステップと、
前記仮想計算機が、前記仮想化部が当該仮想計算機に割り当てた前記メモリの第2の領域内で前記第2のデータ構造の位置と範囲を特定する第2の状態管理情報を参照して、前記第2の領域内で前記通知された前記第2のデータ構造を含む第2のアドレス範囲を特定する第7のステップと、
前記仮想計算機が、前記特定した第2のアドレス範囲を前記外部装置に複製する第8のステップと、
を含むことを特徴とするメモリダンプ方法。 - 請求項8に記載のメモリダンプ方法であって、
前記取得領域情報は、
前記物理計算機と仮想化部及び仮想計算機で発生する障害の要因毎にメモリダンプを行う第1のデータ構造及び第2のデータ構造のそれぞれについて優先度を設定したことを特徴とするメモリダンプ方法。 - 請求項9に記載のメモリダンプ方法であって、
前記第4のステップは、
前記第1のデータ構造及び第2のデータ構造を取得する閾値として優先度を取得して、当該閾値以上の優先度が設定された前記第1のデータ構造及び第2のデータ構造を取得することを特徴とするメモリダンプ方法。 - 請求項10に記載のメモリダンプ方法であって、
前記第4のステップは、
前記閾値としての優先度を受け付けて、前記閾値として用いることを特徴とするメモリダンプ方法。 - 請求項8に記載のメモリダンプ方法であって、
前記取得領域情報は、
前記障害の要因毎に物理計算機上で稼働する仮想計算機の全停止、一部停止及び稼働継続のいずれかひとつが稼働停止対象として設定され、
前記第4のステップは、
前記障害の要因に応じて前記取得領域情報から前記稼働停止対象を取得して、前記稼働停止対象に基づいて前記仮想計算機を制御することを特徴とするメモリダンプ方法。 - 請求項8に記載のメモリダンプ方法であって、
前記仮想計算機は、
前記仮想化部と通信を行う第1の通信経路と、
前記外部装置と通信を行う第2の通信経路と、を有し、
前記取得領域情報は、
前記障害の要因毎に前記第1の通信経路と第2の通信経路の何れか一方を選択する経路情報が設定され、
前記第8のステップは、
前記取得領域情報の経路情報に基づいて前記第1の通信経路と第2の通信経路の一方から出力することを特徴とするメモリダンプ方法。 - 請求項8に記載のメモリダンプ方法であって、
前記物理計算機は、
前記物理計算機の資源を分割して稼働するハードウェア管理部をさらに有し、
前記取得領域情報は、
前記物理計算機と仮想化部で発生する障害の要因毎に第1の領域内でメモリダンプの対象とする第1のデータ構造と、仮想計算機で発生する障害の要因毎に前記第2の領域内でメモリダンプの対象とする第2のデータ構造と、前記ハードウェア管理部で発生する障害の要因毎に前記メモリの第3の領域内でメモリダンプの対象とする第3のデータ構造がそれぞれ設定され、
前記第1のステップは、
前記仮想化部が、前記物理計算機及び当該仮想化部の障害を検出するステップと、
前記ハードウェア管理部が、当該ハードウェア管理部の障害を検出するステップと、を含み、
前記第3のステップは、
前記仮想化部が、前記物理計算機、当該仮想化部、前記仮想計算機または前記ハードウェア管理部の少なくともひとつで障害を検出したときには、前記障害の要因を取得し、
前記第6のステップは、
前記仮想化部が、前記第2のデータ構造と前記第3のデータ構造を前記仮想計算機と前記ハードウェア管理部へそれぞれ通知し、
前記ハードウェア管理部が、当該ハードウェア管理部に割り当てた前記メモリの第3の領域内で前記第3のデータ構造の位置と範囲を特定する第3の状態管理情報を参照して、前記第3の領域内で前記通知された第3のデータ構造を含む第3のアドレス範囲を特定する第9のステップと、
前記ハードウェア管理部が、前記特定した第3のアドレス範囲を前記外部装置に複製する第10のステップと、
をさらに含むことを特徴とするメモリダンプ方法。 - プロセッサと第1のメモリと専用処理部とを有する物理計算機と、前記物理計算機に接続されて記憶装置を有する外部装置と、を備えた計算機システムであって、
前記物理計算機は、
当該物理計算機を制御するシステム制御部と、
前記物理計算機及び前記システム制御部の障害を検出する第1の障害監視部と、
前記システム制御部を割り当てた前記第1のメモリの領域を前記外部装置に複製する第1のメモリダンプ部と、を有し、
前記専用処理部は、
当該専用処理部の障害を検出する第2の障害監視部と、
当該専用処理部が有する第2のメモリの領域を前記外部装置に複製する第2のメモリダンプ部と、を有し、
前記システム制御部は、
前記物理計算機と前記システム制御部で発生する障害の要因毎に第1のメモリの領域内でメモリダンプの対象とする第1のデータ構造と、前記専用処理部で発生する障害の要因毎に前記第2のメモリの領域内でメモリダンプの対象とする第2のデータ構造がそれぞれ設定された取得領域情報と、
前記第1のメモリ内で前記第1のデータ構造の位置と範囲を特定する第1の状態管理情報と、を有し、
前記専用処理部は、
前記第2のメモリ内で前記第2のデータ構造の位置と範囲を特定する第2の状態管理情報と、を有し、
前記第1のメモリダンプ部は、
前記第1の障害監視部と第2の障害監視部の少なくとも一方が障害を検出したときには、前記障害を検出した第1の障害監視部または第2の障害監視部から前記障害の要因を取得して、前記取得領域情報を参照して前記取得した障害の要因に設定された第1のデータ構造を取得し、前記第1の状態管理情報を参照して、前記第1のメモリの領域内で前記第1のデータ構造を含む第1のアドレス範囲を特定し、当該特定した第1のアドレス範囲を前記外部装置に複製し、前記第2のメモリダンプ部に前記第2のデータ構造を通知し、
前記第2のメモリダンプ部は、
前記通知された第2のデータ構造から前記第2の状態管理情報を参照して、前記第2のメモリの領域内で前記第2のデータ構造を含む第2のアドレス範囲を特定し、当該特定した第2のアドレス範囲を前記外部装置へ複製することを特徴とする計算機システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/076909 WO2016056074A1 (ja) | 2014-10-08 | 2014-10-08 | 計算機システム及びメモリダンプ方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016056074A1 JPWO2016056074A1 (ja) | 2017-06-22 |
JP6356822B2 true JP6356822B2 (ja) | 2018-07-11 |
Family
ID=55652734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016552742A Active JP6356822B2 (ja) | 2014-10-08 | 2014-10-08 | 計算機システム及びメモリダンプ方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10210035B2 (ja) |
JP (1) | JP6356822B2 (ja) |
WO (1) | WO2016056074A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016056074A1 (ja) * | 2014-10-08 | 2016-04-14 | 株式会社日立製作所 | 計算機システム及びメモリダンプ方法 |
JP6604241B2 (ja) * | 2016-03-09 | 2019-11-13 | 富士通株式会社 | 情報処理システム、情報処理装置、情報処理方法およびプログラム |
CN113536320A (zh) * | 2021-07-08 | 2021-10-22 | 联想(北京)有限公司 | 一种错误信息处理方法、装置及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04335449A (ja) * | 1991-05-13 | 1992-11-24 | Nec Corp | 端末障害情報採取方式 |
US6681348B1 (en) * | 2000-12-15 | 2004-01-20 | Microsoft Corporation | Creation of mini dump files from full dump files |
JP2007226413A (ja) * | 2006-02-22 | 2007-09-06 | Hitachi Ltd | メモリダンプ方法、メモリダンププログラム、及び、計算機システム |
US8122517B2 (en) * | 2008-04-02 | 2012-02-21 | International Business Machines Corporation | Mediated access of software dumped data through specialized analysis modules |
WO2012137239A1 (ja) | 2011-04-04 | 2012-10-11 | 株式会社日立製作所 | 計算機システム |
US9026860B2 (en) * | 2012-07-31 | 2015-05-05 | International Business Machines Corpoation | Securing crash dump files |
US9043653B2 (en) | 2012-08-31 | 2015-05-26 | International Business Machines Corporation | Introspection of software program components and conditional generation of memory dump |
WO2016056074A1 (ja) * | 2014-10-08 | 2016-04-14 | 株式会社日立製作所 | 計算機システム及びメモリダンプ方法 |
-
2014
- 2014-10-08 WO PCT/JP2014/076909 patent/WO2016056074A1/ja active Application Filing
- 2014-10-08 JP JP2016552742A patent/JP6356822B2/ja active Active
- 2014-10-08 US US15/506,295 patent/US10210035B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20170277587A1 (en) | 2017-09-28 |
US10210035B2 (en) | 2019-02-19 |
JPWO2016056074A1 (ja) | 2017-06-22 |
WO2016056074A1 (ja) | 2016-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11436091B2 (en) | Method and apparatus for generating virtual machine snapshot | |
US10169065B1 (en) | Live migration of hardware accelerated applications | |
US10261853B1 (en) | Dynamic replication error retry and recovery | |
US8464259B2 (en) | Migrating virtual machines configured with direct access device drivers | |
US8271743B2 (en) | Automated paging device management in a shared memory partition data processing system | |
US8713362B2 (en) | Obviation of recovery of data store consistency for application I/O errors | |
JP6003350B2 (ja) | 監視装置、情報処理装置、及び監視方法 | |
TWI554875B (zh) | 基於資源存取模式預測、診斷應用程式故障並從應用程式故障恢復 | |
US9575785B2 (en) | Cluster system and method for providing service availability in cluster system | |
US9354907B1 (en) | Optimized restore of virtual machine and virtual disk data | |
US8667337B2 (en) | Storage apparatus and method of controlling the same | |
US20160132380A1 (en) | Building an intelligent, scalable system dump facility | |
US9229843B2 (en) | Predictively managing failover in high availability systems | |
US20150363254A1 (en) | Storage system and storage system failure management method | |
WO2012004902A1 (ja) | 計算機システム及び計算機システムの系切替制御方法 | |
US9575855B2 (en) | Storage apparatus and failure location identifying method | |
JP2017091456A (ja) | 制御装置、制御プログラムおよび制御方法 | |
JP5561334B2 (ja) | データ転送装置 | |
JP6356822B2 (ja) | 計算機システム及びメモリダンプ方法 | |
US11630731B2 (en) | System and device for data recovery for ephemeral storage | |
US10983818B2 (en) | Method and system for preventing execution of a dirty virtual machine on an undesirable host server in a virtualization cluster environment | |
US11755438B2 (en) | Automatic failover of a software-defined storage controller to handle input-output operations to and from an assigned namespace on a non-volatile memory device | |
WO2012137239A1 (ja) | 計算機システム | |
US10514846B2 (en) | Computer system and management method for computer | |
JP2010231295A (ja) | 解析システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170302 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170302 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180109 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180529 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180614 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6356822 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |