JP7074294B2 - Computer system management device and management method - Google Patents

Computer system management device and management method Download PDF

Info

Publication number
JP7074294B2
JP7074294B2 JP2019008366A JP2019008366A JP7074294B2 JP 7074294 B2 JP7074294 B2 JP 7074294B2 JP 2019008366 A JP2019008366 A JP 2019008366A JP 2019008366 A JP2019008366 A JP 2019008366A JP 7074294 B2 JP7074294 B2 JP 7074294B2
Authority
JP
Japan
Prior art keywords
board
information storage
storage unit
determined
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019008366A
Other languages
Japanese (ja)
Other versions
JP2020119132A (en
Inventor
智孝 深見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2019008366A priority Critical patent/JP7074294B2/en
Publication of JP2020119132A publication Critical patent/JP2020119132A/en
Application granted granted Critical
Publication of JP7074294B2 publication Critical patent/JP7074294B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、製造事業者、保守事業者とのサポート契約等に基づきコンピュータシステムを保守管理することができる、コンピュータシステムにおける管理装置及び管理方法に関する。 The present invention relates to a management device and a management method in a computer system capable of maintaining and managing a computer system based on a support contract with a manufacturer and a maintenance company.

コンピュータシステムを構成する部品の保守交換に関する技術として特許文献1及び2が知られている。
特許文献1に示される管理システムでは、端末装置とネットワークを介して接続されかつデバイスの顧客情報が格納された顧客情報データベースと、デバイスに搭載された部品情報と各部品について交換が推奨される部品であることを表す要交換情報が格納された製品情報データベースと、を有するとの記載がある。
さらに、この管理システムでは、端末から送信される検索条件に基づくデバイスサポート情報の要求に応答して、検索条件に対応するデバイス識別情報とその顧客情報とを顧客データベースから取得すると共に、当該取得したデバイス識別情報の要交換情報をもつ部品情報を製品情報データベースから取得するデバイスサポート情報取得手段を有する。
Patent Documents 1 and 2 are known as techniques for maintenance and replacement of parts constituting a computer system.
In the management system shown in Patent Document 1, a customer information database connected to a terminal device via a network and storing customer information of the device, component information mounted on the device, and components for which replacement is recommended for each component are recommended. There is a description that it has a product information database in which exchange-required information indicating that the product needs to be exchanged is stored.
Further, in this management system, in response to the request for device support information based on the search condition sent from the terminal, the device identification information corresponding to the search condition and the customer information are acquired from the customer database, and the acquisition is performed. It has a device support information acquisition means for acquiring component information having exchange required information of device identification information from a product information database.

なお、要交換情報として、その部品交換の緊急性によって緊急度が設定可能であり、例えば、発生頻度が高くその影響が大きい不具合を持つ部品の緊急度を高くし、反対に発生頻度が低く影響も小さい不具合を持つ部品の緊急度は低いものとする、との記載がある。 As information requiring replacement, the urgency can be set according to the urgency of replacing the parts. There is a statement that the urgency of parts with minor defects is low.

また、特許文献2に示される情報処理装置では、制御パッケージが故障又は異常となった場合に、制御部に対して制御信号により障害通知を発信させる。そして、制御部では、障害通知を示す制御信号に基づき、該当スロット用給電線への電源供給を自動的に停止させる。 Further, in the information processing apparatus shown in Patent Document 2, when the control package fails or becomes abnormal, a failure notification is transmitted to the control unit by a control signal. Then, the control unit automatically stops the power supply to the feeder line for the corresponding slot based on the control signal indicating the failure notification.

特開2011-150565号公報Japanese Unexamined Patent Publication No. 2011-150565 特開平04-333118号公報Japanese Unexamined Patent Publication No. 04-333118

ところで、特許文献1及び2では、発生頻度が高くその影響の大きい部品についての部品交換の緊急度を、過去の交換情報についてのデータベースに含めるとの記載はあるものの、現在あるいは将来発生する問題のシステムへの影響度を考慮した技術ではない。
すなわち、特許文献1及び2は、故障発生時のリスクに対する予防処置が行われないことから、突発的な故障によるユーザ業務への影響を事前に防ぐことができず、この点において改善されることが期待されていた。
By the way, although there is a description in Patent Documents 1 and 2 that the urgency of parts replacement for parts that occur frequently and have a large influence is included in the database of past replacement information, problems that occur now or in the future It is not a technology that considers the degree of impact on the system.
That is, in Patent Documents 1 and 2, since preventive measures are not taken against the risk at the time of failure, it is not possible to prevent the influence on the user's business due to the sudden failure in advance, and it is improved in this respect. Was expected.

この発明は、上述した事情に鑑みてなされたものであって、問題がある基板について、故障発生時に、システムへの影響度・冗長性等を示すシステム影響レベルを予め定めた基準しきい値に基づき判断し、これにより適正な予防処置を講じることができるコンピュータシステムの管理装置及び管理方法を提供する。 The present invention has been made in view of the above-mentioned circumstances, and for a board having a problem, when a failure occurs, the system impact level indicating the degree of impact on the system, redundancy, etc. is set to a predetermined reference threshold value. Provided are a computer system management device and a management method capable of making a judgment based on the above and taking appropriate preventive measures.

上記課題を解決するために、この発明は以下の手段を提案している。
本発明の第1態様に示すコンピュータシステムの管理装置では、各基板に搭載されている部品のキーコードを基板コードと紐付けて保持する構成部品情報記憶部と、各基板の冗長性及びシステム影響度等の特性情報を基板コードと紐付けて保持するロケーション情報記憶部と、問題ロット情報を受信した場合に、前記構成部品情報記憶部を参照することで、当該問題ロット情報に含まれている部品のキーコードと一致するキーコードが構成部品情報記憶部に存在するか判定し、当該キーコードが存在する場合に、前記ロケーション情報記憶部を参照して、対応する基板コードに紐付けられている冗長性及びシステム影響度等の特性情報を示すシステム影響レベルが、予め定められている基準しきい値を越えたか否かに基づき予防処置を実施する管理制御部と、を具備することを特徴とする。
In order to solve the above problems, the present invention proposes the following means.
In the management device of the computer system shown in the first aspect of the present invention, the component information storage unit that holds the key code of the component mounted on each board in association with the board code, the redundancy of each board, and the influence of the system. The problem lot information is included in the problem lot information by referring to the location information storage unit that holds characteristic information such as the degree in association with the board code and the component information storage unit when the problem lot information is received. It is determined whether or not a key code matching the key code of the component exists in the component information storage unit, and if the key code exists, the location information storage unit is referred to and associated with the corresponding board code. It is characterized by having a management control unit that implements preventive measures based on whether or not the system impact level showing characteristic information such as the redundancy and the degree of system impact exceeds a predetermined reference threshold. And.

本発明の第2態様に示すコンピュータシステムの管理方法では、各基板に搭載されている部品のキーコードを基板コードと紐付けて保持する構成部品情報記憶段階と、各基板の冗長性及びシステム影響度等の特性情報を基板コードと紐付けて保持するロケーション情報記憶段階と、問題ロット情報を受信した場合に、当該問題ロット情報に含まれている部品のキーコードと一致するキーコードが予め記憶した情報内に存在するか判定し、当該キーコードが存在する場合に、対応する基板コードに紐付けられている冗長性及びシステム影響度等の特性情報を示すシステム影響レベルが、予め定められている基準しきい値を越えたか否かに基づき予防処置を実施する管理段階と、を有することを特徴とする。 In the computer system management method shown in the second aspect of the present invention, the component information storage stage of holding the key code of the component mounted on each board in association with the board code, the redundancy of each board, and the influence of the system The location information storage stage that holds characteristic information such as degree in association with the board code, and when the problem lot information is received, the key code that matches the key code of the part included in the problem lot information is stored in advance. A system impact level that indicates characteristic information such as redundancy and system impact associated with the corresponding board code is predetermined in advance. It is characterized by having a control stage in which preventive measures are taken based on whether or not a certain reference threshold is exceeded.

本発明によれば、問題がある基板について、システムへの影響度、冗長性等を示すシステム影響レベルが、予め定めた基準しきい値を越えたか否かに基づき判断することにより、適正な予防処置を講じることができる。 According to the present invention, for a board having a problem, appropriate prevention is made by determining whether or not the system impact level indicating the degree of impact on the system, redundancy, etc. exceeds a predetermined reference threshold value. You can take action.

本発明に係るコンピュータシステムの管理装置を示す図である。It is a figure which shows the management apparatus of the computer system which concerns on this invention. 本発明の実施形態に係るコンピュータシステムの管理装置を示す図である。It is a figure which shows the management apparatus of the computer system which concerns on embodiment of this invention. 部品情報テーブルの例を示す図であって、(A)は基板情報、(B)は基板部品情報をそれぞれ示している。It is a figure which shows the example of the part information table, (A) shows the board information, (B) shows the board part information, respectively. キーコードテーブルの例を示す図である。It is a figure which shows the example of the key code table. 構成部品情報の例を示す図である。It is a figure which shows the example of the component information. ロケーション情報の例を示す図である。It is a figure which shows the example of the location information. 問題ロット情報の例を示す図である。It is a figure which shows the example of the problem lot information. 管理モジュールの動作フローを示す図である。It is a figure which shows the operation flow of a management module.

本発明に係るコンピュータシステムCの管理装置Aについて図1を参照して説明する。
この管理装置Aは、構成部品情報記憶部1と、ロケーション情報記憶部2と、管理制御部3とを主な構成要素とする。
The management device A of the computer system C according to the present invention will be described with reference to FIG.
The management device A has a component information storage unit 1, a location information storage unit 2, and a management control unit 3 as main components.

構成部品情報記憶部1は、各基板Bに搭載されている部品のキーコードを基板コードと紐付けて保持するために設けられている。
ロケーション情報記憶部2は、各基板Bの冗長性及びシステム影響度等の特性情報を基板コードと紐付けて保持するために設けられている。
The component information storage unit 1 is provided to hold the key code of the component mounted on each board B in association with the board code.
The location information storage unit 2 is provided to hold characteristic information such as the redundancy and the degree of system influence of each board B in association with the board code.

管理制御部3は、外部のリモートサーバ(図示略)等から問題ロット情報4を受信した場合に、構成部品情報記憶部1を参照することで、当該問題ロット情報4に含まれている部品のキーコードと一致するキーコードが構成部品情報記憶部1に存在するか否かを判定する。
さらに、管理制御部3では、問題ロット情報4に含まれている部品のキーコードと一致するキーコードが構成部品情報記憶部1に存在する場合に、ロケーション情報記憶部2を参照して、対応する基板コードに紐付けられている冗長性及びシステム影響度等の特性情報を示すシステム影響レベルが、予め定められている基準しきい値を越えたか否かに基づき予防処置信号5の出力を実施する。
When the management control unit 3 receives the problem lot information 4 from an external remote server (not shown) or the like, the management control unit 3 refers to the component information storage unit 1 to display the parts included in the problem lot information 4. It is determined whether or not a key code matching the key code exists in the component information storage unit 1.
Further, when the component information storage unit 1 has a key code that matches the key code of the component included in the problem lot information 4, the management control unit 3 refers to the location information storage unit 2 to deal with the situation. The preventive action signal 5 is output based on whether or not the system impact level indicating characteristic information such as redundancy and system impact associated with the board code exceeds a predetermined reference threshold value. do.

すなわち、以上のように構成された管理装置Aでは、故障が生じた/故障の生じる恐れを有する問題がある基板Bについて、システムへの影響度、冗長性等を示すシステム影響レベルが、予め定めた基準しきい値を越えたか否かに基づき判断し、これにより適正な予防処置を講じることが可能となる。
なお、問題ロット情報4としては、異常発生時のショート故障、オープン故障、疑似エラー多発といった現象がある。
また、予防処置としては、対象部品を論理的・電気的に切り離すことで、突発的な故障発生によってユーザ業務が影響を受けることを事前に防ぐこと等がある。
That is, in the management device A configured as described above, the system influence level indicating the degree of influence on the system, the redundancy, etc. is predetermined for the substrate B having a problem of occurrence / possibility of failure. It is possible to make a judgment based on whether or not the standard threshold value has been exceeded, and to take appropriate preventive measures.
The problem lot information 4 includes phenomena such as a short failure when an abnormality occurs, an open failure, and frequent occurrence of pseudo errors.
Further, as a preventive measure, by logically and electrically separating the target parts, it is possible to prevent the user's business from being affected by the occurrence of a sudden failure in advance.

(実施形態)
本発明の実施形態に係るコンピュータシステムC1の管理装置A1ついて図2~図8を参照して説明する。
(Embodiment)
The management device A1 of the computer system C1 according to the embodiment of the present invention will be described with reference to FIGS. 2 to 8.

図2は本実施形態に係わる管理装置A1の全体構成図であって、ユーザサイト91に位置するコンピュータシステムC1と、外部領域90に位置するリモートサーバ10とを具備する。 FIG. 2 is an overall configuration diagram of the management device A1 according to the present embodiment, and includes a computer system C1 located at the user site 91 and a remote server 10 located at the external area 90.

コンピュータシステムC1は、全体を制御する管理モジュール20と、管理モジュール20に接続された複数の基板30, 40, 50とをシステム本体92内に有する。 The computer system C1 has a management module 20 that controls the whole, and a plurality of boards 30, 40, 50 connected to the management module 20 in the system main body 92.

基板30上には部品情報メモリ31、制御IC33、搭載部品301, 302 などが実装されている。
部品情報メモリ31は不揮発メモリであり、部品情報テーブル310が格納されている。
部品情報テーブル310には、図3(A)及び(B)に示されるような、「基板コード、シリアル番号等の基本情報313とともに、基板30上に実装されている各搭載部品301,302等の品名やロット情報を一意に特定できるキーコード311と、各部品の基板上の実装位置を示すロケーションコード312が記録されている。
A component information memory 31, a control IC 33, mounted components 301, 302, and the like are mounted on the board 30.
The component information memory 31 is a non-volatile memory and stores the component information table 310.
In the component information table 310, as shown in FIGS. 3A and 3B, "the basic information 313 such as the board code and serial number, as well as the mounted components 301, 302 and the like mounted on the substrate 30" are shown. The key code 311 that can uniquely identify the product name and lot information of each component and the location code 312 that indicates the mounting position of each component on the board are recorded.

また、この部品情報メモリ31は、基板30がコンピュータシステムC1へ組み込まれた際に、格納している部品情報テーブル310のデータを、管理モジュール20へ送信する機能を有している。
なお、ユーザは、キーコード311から部品の詳細情報は特定することはできず、保守員が保守作業時にリモートサーバ10に格納されたキーコードテーブル101にアクセスすることで、搭載部品の詳細情報を確認することができる。図4にキーコードテーブル101の例を示す。
Further, the component information memory 31 has a function of transmitting the data of the component information table 310 stored in the component information table 310 to the management module 20 when the board 30 is incorporated in the computer system C1.
The user cannot specify the detailed information of the parts from the key code 311, and the maintenance staff can access the key code table 101 stored in the remote server 10 during the maintenance work to obtain the detailed information of the mounted parts. You can check. FIG. 4 shows an example of the key code table 101.

制御IC33は、管理モジュール20から発行される制御命令30cに基づき、基板30上の各部品の電源ON/OFFや基板30全体の電源ON/OFF制御を行う。
なお、基板30上に部品情報メモリ31、制御IC33、搭載部品301, 302などが実装されている例を説明したが、基板40及び50にも同様の構成部材が実装されている。
The control IC 33 controls the power ON / OFF of each component on the board 30 and the power ON / OFF control of the entire board 30 based on the control command 30c issued from the management module 20.
Although an example in which the component information memory 31, the control IC 33, the mounted components 301, 302, and the like are mounted on the board 30, the same components are mounted on the boards 40 and 50.

管理モジュール20は、各基板30, 40, 50上の部品情報メモリ31より送信された構成部品情報30aに基づき、コンピュータシステムC1全体の情報を記憶する構成部品情報記憶部201を管理する。
また、この管理モジュール20として、構成部品情報記憶部201とともに、稼働時間情報記憶部202、ロケーション情報記憶部203、予防処置実施フラグ記憶部204、各種処理を実行する管理制御部21が設けられている。
なお、管理制御部21は、対応する基板コードに紐付けられている冗長性及びシステム影響度等の特性情報を示すシステム影響レベルが、予め定められている基準しきい値を越えたか否かに基づき予防処置を実施するためのものであるが、詳細は図8を参照して後述する。
The management module 20 manages the component information storage unit 201 that stores the information of the entire computer system C1 based on the component information 30a transmitted from the component information memory 31 on the boards 30, 40, and 50.
Further, as the management module 20, an operating time information storage unit 202, a location information storage unit 203, a preventive action execution flag storage unit 204, and a management control unit 21 for executing various processes are provided together with the component information storage unit 201. There is.
The management control unit 21 determines whether or not the system impact level indicating characteristic information such as redundancy and system impact associated with the corresponding board code exceeds a predetermined reference threshold value. It is intended to carry out preventive measures based on the above, and details will be described later with reference to FIG.

構成部品情報記憶部201としては、図5に示されるように、コンピュータシステムC1を構成する各基板30,40,50について基板種類別の基板コード2011、各基板に搭載される全部品のキーコード2012、各部品のロケーションを示すロケーションコード2013、冗長性2014の有無などが含まれる。
なお、これら基板コード2011、キーコード2012、ロケーションコード2013、冗長性2014として示される情報は、各基板30,40,50から適宜送信されるものである。
As shown in FIG. 5, the component information storage unit 201 includes board codes 2011 for each board type for each of the boards 30, 40, 50 constituting the computer system C1, and key codes of all parts mounted on each board. 2012, location code 2013 indicating the location of each component, presence / absence of redundancy 2014, and the like are included.
The information shown as the board code 2011, the key code 2012, the location code 2013, and the redundancy 2014 is appropriately transmitted from the boards 30, 40, and 50.

また、管理モジュール20では、保守作業で基板が交換された場合や、新たに基板が追加された場合には、新たな基板から送信される構成部品情報30,40,50を基に構成部品情報記憶部201を更新する。
また同様に、管理モジュール20では、各基板や各部品が冗長化されているかを監視し、構成部品情報記憶部201の冗長性2014の有無を適宜更新する。
Further, in the management module 20, when the board is replaced during maintenance work or when a new board is added, the component information is based on the component information 30, 40, 50 transmitted from the new board. The storage unit 201 is updated.
Similarly, the management module 20 monitors whether each board and each component is redundant, and appropriately updates the presence or absence of redundancy 2014 in the component information storage unit 201.

また、管理モジュール20の稼働時間情報記憶部202ではコンピュータシステムC1が稼働開始してからの稼働時間を記憶する。
また、管理モジュール20のロケーション情報記憶部203では、図6に示されるように、各基板2031のロケーションコード2032とともに、ロケーションコード2032毎に部品故障時のシステムへの影響度を示したシステム影響度2033を管理する。
Further, the operating time information storage unit 202 of the management module 20 stores the operating time after the computer system C1 starts operating.
Further, in the location information storage unit 203 of the management module 20, as shown in FIG. 6, the degree of influence on the system at the time of component failure is shown for each location code 2032 together with the location code 2032 of each board 2031. Manage 2033.

また、管理モジュール20では、保守交換時に新たな種類の基板が追加される場合、保守員はリモートサーバ10から追加される基板の情報を反映したロケーション情報記憶部203を更新することができる。
さらに、管理モジュール20は、問題ロットが発見された場合の予防処置をユーザが許可しているかを保守契約に基づいて判定する予防処置実施フラグ記憶部204が設けられている。
また、前述の管理モジュール20は、ユーザや保守員に対してアラート等の情報を通知するコンソール画面等を有するが、図面では省略されている。
Further, in the management module 20, when a new type of board is added at the time of maintenance and replacement, the maintenance staff can update the location information storage unit 203 reflecting the information of the board added from the remote server 10.
Further, the management module 20 is provided with a preventive action execution flag storage unit 204 for determining whether or not the user permits preventive action when a problem lot is found, based on a maintenance contract.
Further, the management module 20 described above has a console screen or the like for notifying users and maintenance personnel of information such as alerts, but is omitted in the drawings.

リモートサーバ10は前述したように製品事業者や保守事業者のサイトなどの外部に位置する外部領域90に設置される。
リモートサーバ10には、図2に示されるように、保守員が保守作業時にアクセス可能で、各部品のキーコードから一意に特定される部品情報を記録するキーコードテーブル101が設けられている。
そして、このようなリモートサーバ10では、フィールドでの故障実績や部品ベンダからの情報に基づき、管理モジュール20に対して問題ロット情報10aを送信する。問題ロット情報10aとしては、図7に示すように、対象部品の品名とロット番号を一意に特定できるキーコード10a1と、異常発生時の現象 (ショート故障、オープン故障、疑似エラー多発等)に応じたリスクレベル10a2といった情報が含まれる。
As described above, the remote server 10 is installed in an external area 90 located outside such as a site of a product business operator or a maintenance business operator.
As shown in FIG. 2, the remote server 10 is provided with a key code table 101 that is accessible to maintenance personnel during maintenance work and records component information uniquely identified from the key code of each component.
Then, in such a remote server 10, the problem lot information 10a is transmitted to the management module 20 based on the failure record in the field and the information from the component vendor. As shown in FIG. 7, the problem lot information 10a corresponds to the key code 10a1 that can uniquely identify the product name and lot number of the target part and the phenomenon at the time of abnormality (short failure, open failure, frequent pseudo error, etc.). Information such as risk level 10a2 is included.

また、リモートサーバ10では、図2に示されるように、コンピュータシステムC1の構成部品に問題ロット部品が発見された場合、管理モジュール20から問題ロット発見通報10bを受信する。保守事業者は、リモートサーバ10を経由して、問題ロット発見通報10bの受信を契機として対象部品の交換作業に着手することができる。 Further, as shown in FIG. 2, when the problem lot component is found in the component component of the computer system C1, the remote server 10 receives the problem lot discovery report 10b from the management module 20. The maintenance company can start the replacement work of the target parts by receiving the problem lot discovery report 10b via the remote server 10.

次に、図8のフローチャートを参照して、問題ロット情報10aをリモートサーバ10から受信した際の管理モジュール20の管理制御部21における動作フローについて、ステップ(S)毎に説明する。 Next, with reference to the flowchart of FIG. 8, the operation flow in the management control unit 21 of the management module 20 when the problem lot information 10a is received from the remote server 10 will be described for each step (S).

〔ステップS801〕~〔ステップS802〕
管理モジュール20がリモートサーバ10から問題ロット情報10aを受信したことを条件として(ステップS801)、ステップS802にて、問題ロット情報10aで通知されたキーコード10a1に一致するものが構成部品情報記憶部201で管理する部品のキーコード2012の中に存在するか否かを判定する。
また、ステップS802にて、キーコードが一致せず、対象ロットの部品が存在しないと判定した場合には、ステップS811に進み本フローによる処理を終了する。
[Step S801] to [Step S802]
On condition that the management module 20 receives the problem lot information 10a from the remote server 10 (step S801), the component information storage unit that matches the key code 10a1 notified in the problem lot information 10a in step S802 is the component information storage unit. It is determined whether or not it exists in the key code 2012 of the component managed by 201.
If it is determined in step S802 that the key codes do not match and the parts of the target lot do not exist, the process proceeds to step S811 and the processing by this flow ends.

〔ステップS803〕
ステップS802にて、対象ロットの部品が存在した(キーコードが一致)したと判定した場合には、ステップS803にて、構成部品情報記憶部201で対象部品のキーコード2012が搭載されているロケーションコード2013を確認する。
さらにステップS803にて、ロケーション情報記憶部203から当該ロケーションコード2032の部品が故障した場合のシステム影響度2033を確認する。
そして、ステップS803にて、システム影響度2033と問題ロット情報10aのリスクレベル10a2から故障発生した場合のシステム影響レベルを判定し、システム影響レベルがしきい値以上であるか否かを判定する。
[Step S803]
If it is determined in step S802 that the parts of the target lot existed (the key codes match), the location where the key code 2012 of the target parts is mounted in the component information storage unit 201 in step S803. Check the code 2013.
Further, in step S803, the location information storage unit 203 confirms the system influence degree 2033 when the component of the location code 2032 fails.
Then, in step S803, the system impact level when a failure occurs is determined from the system impact degree 2033 and the risk level 10a2 of the problem lot information 10a, and it is determined whether or not the system impact level is equal to or higher than the threshold value.

なお、このシステム影響レベルは、システム影響度2033と問題ロット情報10aのリスクレベル10a2とを数値化することで算出される。
また、ステップS803にて、システム影響レベルがしきい値以下であると判定された場合には、管理モジュール20のコンソールに交換推奨アラートを表示し、リモートサーバ10に対して問題ロット発見通報10bを送信した後(ステップS810)、本フローによる処理を終了する(ステップS811)。
The system impact level is calculated by quantifying the system impact degree 2033 and the risk level 10a2 of the problem lot information 10a.
If it is determined in step S803 that the system impact level is below the threshold value, a replacement recommendation alert is displayed on the console of the management module 20, and a problem lot discovery report 10b is sent to the remote server 10. After transmission (step S810), the process according to this flow is terminated (step S811).

〔ステップS804〕
ステップS803にて、システム影響レベルがしきい値以上であると判定された場合には、ステップS804にて、予防処置実施フラグ記憶部204から、ユーザが予防処置の実施を許可しているか否かを判定する。
[Step S804]
If it is determined in step S803 that the system impact level is equal to or higher than the threshold value, in step S804, whether or not the user permits the implementation of the preventive action from the preventive action execution flag storage unit 204. Is determined.

〔ステップS805〕
ステップS804にて、予防処置実施を許可されていると判定された場合、構成部品情報記憶部201の冗長性2014から対象部品が冗長化されているか否かを判定し(ステップS805)、YESの場合にステップS806に進み、NOの場合にステップS810に進む。
[Step S805]
When it is determined in step S804 that the implementation of preventive measures is permitted, it is determined from the redundancy 2014 of the component information storage unit 201 whether or not the target component is redundant (step S805), and YES. In the case of NO, the process proceeds to step S806, and in the case of NO, the process proceeds to step S810.

〔ステップS806〕
ステップS805にて冗長化されていると判断された場合に、ステップS806にて稼働時間情報記憶部202がしきい値以上であるか否かを判定し、YESの場合にステップS807に進み、NOの場合にステップS810に進む。
[Step S806]
When it is determined in step S805 that the redundancy is achieved, it is determined in step S806 whether or not the operating time information storage unit 202 is equal to or greater than the threshold value, and if YES, the process proceeds to step S807 and NO. In the case of, the process proceeds to step S810.

〔ステップS807〕
ステップS806にて稼働時間がしきい値以上であると判断された場合に、ステップS807にて故障が発生するリスクが高いと判断し、管理モジュール20のコンソールに予防処置実施の確認メッセージを表示するとともにリモートサーバ10へ問題ロット発見通報10bを送信する。
その後、ステップS807では、確認メッセージを介してユーザに対して、業務影響が最小限となる任意のタイミングで、コンソール上で予防処置実施の許可コマンドを実行させる。
[Step S807]
When it is determined in step S806 that the operating time is equal to or longer than the threshold value, it is determined in step S807 that there is a high risk of failure, and a confirmation message for implementing preventive measures is displayed on the console of the management module 20. At the same time, the problem lot discovery report 10b is transmitted to the remote server 10.
After that, in step S807, the user is made to execute the preventive action execution permission command on the console at an arbitrary timing that minimizes the business impact via the confirmation message.

〔ステップS808〕
ステップS808にて、管理モジュール20が予防処置実施の許可を確認すると、例えば、対象の基板上の制御IC33に対して制御命令30cを発行する。
制御IC33は制御命令30cに基づいて、対象部品もしくは基板30全体に電源OFF命令を発行し、問題ロット部品を電気的に分離させる。このとき、基板30全体に電源OFF命令を発行する場合には、事前に管理ソフトウェアに命令を発行し、システムからの対象基板30の論理的な切り離しを行う。
[Step S808]
When the management module 20 confirms the permission to implement the preventive action in step S808, for example, the control command 30c is issued to the control IC 33 on the target board.
Based on the control command 30c, the control IC 33 issues a power OFF command to the target component or the entire board 30, and electrically separates the problem lot component. At this time, when issuing a power OFF command to the entire board 30, a command is issued to the management software in advance to logically disconnect the target board 30 from the system.

〔ステップS809〕
ステップS809では、管理モジュール20が制御命令30cを発行した後に、リモートサーバ10に対して予防処置を実行したことを通報する。そして、保守事業者は、問題ロット発見通報10b受信を契機に対象部品の交換作業に出動する。
[Step S809]
In step S809, after the management module 20 issues the control command 30c, the remote server 10 is notified that the preventive action has been executed. Then, the maintenance company is dispatched to replace the target parts when the problem lot discovery report 10b is received.

〔ステップS810〕~〔ステップS811〕
ステップS803,S804,S805,S806でNOと判定された場合には、管理モジュール20のコンソールに交換推奨アラートを表示し、リモートサーバ10に対して問題ロット発見通報10bを送信した後(ステップS810)、本フローによる処理を終了する(ステップS811)。
[Step S810] to [Step S811]
If NO is determined in steps S803, S804, S805, and S806, a replacement recommendation alert is displayed on the console of the management module 20, and a problem lot discovery report 10b is sent to the remote server 10 (step S810). , The process according to this flow is terminated (step S811).

以上のように構成されたコンピュータシステムC1の管理装置A1では、管理制御部21にて、保守員により管理される外部のリモートサーバ10を経由して問題ロット情報10aを受信した場合に、構成部品情報記憶部201を参照することにより、当該問題ロット情報4に含まれているキーコードと一致するキーコードが構成部品情報記憶部201に存在するか否かを判定する(ステップS801~ステップS802)。 In the management device A1 of the computer system C1 configured as described above, when the management control unit 21 receives the problem lot information 10a via the external remote server 10 managed by the maintenance personnel, it is a component component. By referring to the information storage unit 201, it is determined whether or not a key code matching the key code included in the problem lot information 4 exists in the component information storage unit 201 (steps S801 to S802). ..

このとき、管理制御部21にて、問題ロット情報10aに含まれるキーコードに一致するキーコードが構成部品情報記憶部201に存在すると判定した場合に、ロケーション情報記憶部203を参照して、対応する基板コードに紐付けられている冗長性及びシステム影響度等の特性情報を示すシステム影響レベルが、予め定められている基準しきい値を越えたか否かに基づき予防処置を実施する(ステップS803~ステップS810)。
すなわち、上記管理装置A1では、故障が生じた/故障の生じる恐れを有する問題がある基板30,40,50について、システムへの影響度、冗長性等を示すシステム影響レベルが、予め定めた基準しきい値を越えたか否かに基づき判断し(ステップS803~ステップS806)、これにより適正な予防処置を講じることが可能となる。
At this time, when the management control unit 21 determines that the key code matching the key code included in the problem lot information 10a exists in the component information storage unit 201, the location information storage unit 203 is referred to and the corresponding response is made. Preventive measures are taken based on whether or not the system impact level indicating characteristic information such as redundancy and system impact associated with the board code exceeds a predetermined reference threshold value (step S803). -Step S810).
That is, in the management device A1, the system influence level indicating the degree of influence on the system, the redundancy, etc. is a predetermined standard for the boards 30, 40, and 50 having a problem of occurrence / possibility of failure. Judgment is made based on whether or not the threshold value has been exceeded (steps S803 to S806), which makes it possible to take appropriate preventive measures.

また、上記管理装置A1では、問題ロット部品が発見された場合、システム稼働時間と、対象部品の使用箇所に対応したシステムへの影響度に基づいて、管理モジュール20が故障リスクを判断する。このとき、上記管理装置A1では、リスクが高い場合に、管理モジュール20に対してユーザの任意のタイミングで対象部品の論理的・電気的な切り離しを行なわせる。
すなわち、本実施形態に示される管理装置A1では、コンピュータシステムC1内で問題ロットの対象部品が発見された際に、システムへの影響度と稼働時間からリスクを予測し、リスクが高い場合には対象部品を論理的・電気的に切り離すことで、突発的な故障発生によってユーザ業務が影響を受けることを事前に防ぐことができる。また、上記管理装置A1では、ユーザの任意のタイミングで対象部品の切り離しを実行することで、ユーザ業務への影響を最小化することができる。
Further, in the management device A1, when a problem lot part is found, the management module 20 determines the failure risk based on the system operating time and the degree of influence on the system corresponding to the place where the target part is used. At this time, in the management device A1, when the risk is high, the management module 20 is made to perform logical / electrical disconnection of the target component at an arbitrary timing of the user.
That is, in the management device A1 shown in the present embodiment, when the target part of the problem lot is found in the computer system C1, the risk is predicted from the degree of influence on the system and the operating time, and if the risk is high, the risk is predicted. By logically and electrically separating the target parts, it is possible to prevent the user's business from being affected by the occurrence of a sudden failure in advance. Further, in the management device A1, the influence on the user's business can be minimized by executing the separation of the target component at an arbitrary timing of the user.

なお、上記実施形態では、図8に示される制御フローを管理モジュール20の管理制御部21で実施したが、その実施箇所は限定されるものではなく、各基板30,40,50の制御ICにて実施しても良い。 In the above embodiment, the control flow shown in FIG. 8 is carried out by the management control unit 21 of the management module 20, but the place of implementation is not limited to the control ICs of the boards 30, 40, and 50. May be carried out.

以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。 Although the embodiment of the present invention has been described in detail with reference to the drawings, the specific configuration is not limited to this embodiment and includes design changes and the like within a range not deviating from the gist of the present invention.

本発明は、製造事業者、保守事業者とのサポート契約等に基づきコンピュータシステムを保守管理することができる管理装置及び管理方法に関する。 The present invention relates to a management device and a management method capable of maintaining and managing a computer system based on a support contract or the like with a manufacturer or a maintenance company.

1 構成部品情報記憶部
2 ロケーション情報記憶部
3 管理制御部
21 管理制御部
30 基板
40 基板
50 基板
201 構成部品情報記憶部
203 ロケーション情報記憶部
A 管理装置
A1 管理装置
B 基板
C コンピュータシステム
C1 コンピュータシステム
1 Component information storage unit 2 Location information storage unit 3 Management control unit 21 Management control unit 30 Board 40 Board 50 Board 201 Component component information storage unit 203 Location information storage unit A Management device A1 Management device B Board C Computer system C1 Computer system

Claims (4)

各基板に搭載されている部品のキーコードおよび冗長性を基板コードと紐付けて保持する構成部品情報記憶部と、
各基板のシステム影響度を基板コードと紐付けて保持するロケーション情報記憶部と、
問題ロット情報を受信した場合に、前記構成部品情報記憶部を参照することで、当該問題ロット情報に含まれている部品のキーコードと一致するキーコードが前記構成部品情報記憶部に存在するか判定し、当該キーコードが存在する場合に、
前記ロケーション情報記憶部に記憶されたシステム影響度と前記問題ロット情報に含まれるリスクレベルとから算出されたシステム影響レベルが、予め定められているしきい値以上かを判定し、しきい値以上の場合に、
前記構成部品情報記憶部に記憶された、対応する基板コードに紐付けられている冗長性から対象部品が冗長化されているか否かを判定し、冗長化されていると判定した場合に、対象部品を論理的・電気的に切り離す予防処置を実施し、
前記システム影響レベルがしきい値以上であって、前記冗長化されていると判定しない場合、および、前記システム影響レベルが、予め定められているしきい値以上でないと判定した場合に、交換推奨アラートの表示とリモートサーバに対する問題ロット発見通報の送信をして処理を終了し、
前記キーコードが前記構成部品情報記憶部に存在しないと判定した場合に処理を終了する管理制御部と、を具備することを特徴とするコンピュータシステムの管理装置。
A component information storage unit that holds the key code and redundancy of the parts mounted on each board in association with the board code.
A location information storage unit that holds the system impact of each board in association with the board code,
When the problem lot information is received, by referring to the component information storage unit, does the component information storage unit have a key code that matches the key code of the component included in the problem lot information? If it is determined and the key code exists,
It is determined whether the system impact level calculated from the system impact level stored in the location information storage unit and the risk level included in the problem lot information is equal to or higher than a predetermined threshold value, and is equal to or higher than the threshold value. In the case of
It is determined from the redundancy associated with the corresponding board code stored in the component information storage unit whether or not the target component is redundant, and when it is determined that the target component is redundant, the target is used. Take preventive measures to logically and electrically separate parts,
Replacement is recommended when the system impact level is equal to or higher than the threshold value and it is not determined to be redundant, or when it is determined that the system impact level is not equal to or higher than a predetermined threshold value. Display an alert and send a problem lot discovery report to the remote server to finish the process.
A computer system management device including a management control unit that terminates processing when it is determined that the key code does not exist in the component information storage unit.
前記管理制御部には、前記予防処置を実施する場合に、前記基板コードに対応する基板にて電源をOFFする制御ICが接続されることを特徴とする請求項1に記載のコンピュータシステムの管理装置。 The computer system management according to claim 1, wherein a control IC for turning off the power of the board corresponding to the board code is connected to the management control unit when the preventive measures are taken. Device. 前記管理制御部には、保守員によりアクセスされ、かつ対象部品の品名とロット番号とを含む問題ロット情報が出力されるリモートサーバが接続されることを特徴とする請求項1又は2のいずれか1項に記載のコンピュータシステムの管理装置。 One of claims 1 or 2, wherein the management control unit is connected to a remote server that is accessed by maintenance personnel and outputs problem lot information including the product name and lot number of the target part. The computer system management device according to item 1. 各基板に搭載されている部品のキーコードおよび冗長性を基板コードと紐付けて保持する構成部品情報記憶段階と、
各基板のシステム影響度を基板コードと紐付けて保持するロケーション情報記憶段階と、
問題ロット情報を受信した場合に、当該問題ロット情報に含まれている部品のキーコードと一致するキーコードが予め記憶した情報内に存在するか判定し、当該キーコードが存在する場合に、
ロケーション情報記憶部に記憶されたシステム影響度と前記問題ロット情報に含まれるリスクレベルとから算出されたシステム影響レベルが、予め定められているしきい値以上かを判定する段階と、
しきい値以上と判定した場合に、構成部品情報記憶部に記憶された、対応する基板コードに紐付けられている冗長性から対象部品が冗長化されているか否かを判定して、冗長化されていると判断した場合に、対象部品を論理的・電気的に切り離す予防処置を実施する段階と、
前記システム影響レベルがしきい値以上であって、前記冗長化されていると判定しない場合、および、前記システム影響レベルが、予め定められているしきい値以上でないと判定した場合に、交換推奨アラートの表示とリモートサーバに対する問題ロット発見通報の送信をして処理を終了する段階と、
前記キーコードが前記構成部品情報記憶部に存在しないと判定した場合に処理を終了する段階と、
を有することを特徴とするコンピュータシステムの管理方法。
The component information storage stage that holds the key code and redundancy of the parts mounted on each board in association with the board code,
The location information storage stage that holds the system impact of each board in association with the board code,
When the problem lot information is received, it is determined whether the key code matching the key code of the part included in the problem lot information exists in the information stored in advance, and if the key code exists,
A stage for determining whether the system impact level calculated from the system impact level stored in the location information storage unit and the risk level included in the problem lot information is equal to or higher than a predetermined threshold value.
When it is determined that the threshold value is exceeded, it is determined from the redundancy associated with the corresponding board code stored in the component information storage unit whether or not the target component is redundant, and the redundancy is achieved. At the stage of implementing preventive measures to logically and electrically separate the target part when it is judged that it has been done,
Replacement is recommended when the system impact level is equal to or higher than the threshold value and it is not determined to be redundant, or when it is determined that the system impact level is not equal to or higher than a predetermined threshold value. At the stage of displaying an alert and sending a problem lot discovery report to the remote server to end the process,
The stage of ending the process when it is determined that the key code does not exist in the component information storage unit, and
A method of managing a computer system, characterized in that it has.
JP2019008366A 2019-01-22 2019-01-22 Computer system management device and management method Active JP7074294B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019008366A JP7074294B2 (en) 2019-01-22 2019-01-22 Computer system management device and management method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019008366A JP7074294B2 (en) 2019-01-22 2019-01-22 Computer system management device and management method

Publications (2)

Publication Number Publication Date
JP2020119132A JP2020119132A (en) 2020-08-06
JP7074294B2 true JP7074294B2 (en) 2022-05-24

Family

ID=71890787

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019008366A Active JP7074294B2 (en) 2019-01-22 2019-01-22 Computer system management device and management method

Country Status (1)

Country Link
JP (1) JP7074294B2 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011022957A (en) 2009-07-21 2011-02-03 Nec Corp System and method for monitoring voltage
JP2012123738A (en) 2010-12-10 2012-06-28 Hitachi Ltd Failure prevention support system, failure prevention support method, and failure prevention support program
WO2013140633A1 (en) 2012-03-23 2013-09-26 富士通株式会社 Replacement candidate presentation method, information processing device and program
JP2014056511A (en) 2012-09-13 2014-03-27 Chugoku Electric Power Co Inc:The Information processor, and maintenance support method for apparatus
US20150193325A1 (en) 2013-06-19 2015-07-09 Continuware Corporation Method and system for determining hardware life expectancy and failure prevention
JP2018013971A (en) 2016-07-21 2018-01-25 Necフィールディング株式会社 Management device, information processing method, and program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011022957A (en) 2009-07-21 2011-02-03 Nec Corp System and method for monitoring voltage
JP2012123738A (en) 2010-12-10 2012-06-28 Hitachi Ltd Failure prevention support system, failure prevention support method, and failure prevention support program
WO2013140633A1 (en) 2012-03-23 2013-09-26 富士通株式会社 Replacement candidate presentation method, information processing device and program
JP2014056511A (en) 2012-09-13 2014-03-27 Chugoku Electric Power Co Inc:The Information processor, and maintenance support method for apparatus
US20150193325A1 (en) 2013-06-19 2015-07-09 Continuware Corporation Method and system for determining hardware life expectancy and failure prevention
JP2018013971A (en) 2016-07-21 2018-01-25 Necフィールディング株式会社 Management device, information processing method, and program

Also Published As

Publication number Publication date
JP2020119132A (en) 2020-08-06

Similar Documents

Publication Publication Date Title
US6956490B2 (en) Projector with consumable component having memory device
CN108804114A (en) For the firmware of server unit and the setting method of self-defined setting
JP5191705B2 (en) Maintenance management system, database server, maintenance management program, and maintenance management method
US20020053008A1 (en) Verifying primary and backup copies of vital information for a processing system employing a pseudo-fixed reference identifier
JP2000209239A (en) System and method of network device setting management, and recording medium with network device setting management program recorded therein
WO2021030214A1 (en) Self-service terminal
JP2007226582A (en) Method for managing composition of rack-mounted type device
US6973412B2 (en) Method and apparatus involving a hierarchy of field replaceable units containing stored data
JP7074294B2 (en) Computer system management device and management method
JP5444739B2 (en) Management device, management system, and management program
CN1972360A (en) Data processing device
CN110968456B (en) Method and device for processing fault disk in distributed storage system
JPWO2006051606A1 (en) System configuration management device
JP4034405B2 (en) Information processing device
JP2002366684A (en) Electronic computer
JP4851994B2 (en) Operation monitoring device, operation monitoring method, and operation monitoring program
JP2009177466A (en) System for updating stored information of network connecting device
JP5168348B2 (en) Control device and control program
JP2010186452A (en) Maintenance management system, database server, maintenance management program and maintenance management method
JP7457198B1 (en) Monitoring system, central control device, and monitoring method
JP3480881B2 (en) Remote monitoring device
CN114253773A (en) Motor vehicle software operation device and data storage module and storage method thereof
JP2006088545A (en) Consumables management system and control method of consumables management system
CN115997181A (en) Control device
KR20190141992A (en) System and method of handling troubles of electronic device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200513

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220428

R150 Certificate of patent or registration of utility model

Ref document number: 7074294

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150