背景技術で述べたように、サーバなどのコンピュータ装置は、データセンタに設置され得る。従来、コンピュータ装置が故障した場合は、そのコンピュータ装置を所有または少なくとも使用する企業等の団体の職員や、少なくとも関係のある職員によって、現場(オンサイト)で修理されることがあった。このようなオンサイトでの修理では、保守や修理を容易に監視でき、例えば、機密データがデータセンタ外に持ち出されていないことが確認される限り、ある程度のセキュリティが確保されていた。
しかし、近年、少なくともコスト上の理由から、コンピュータ装置を持ち出し、修理や保守を行うための修理施設に送ることが珍しくない。修理施設の保守担当者は通常、そのコンピュータ装置を所有または少なくとも使用する企業等の団体の職員ではない。このように労使関係がないことや、コンピュータ装置がデータセンタから離れた場所にあることにより、コンピュータ装置のセキュリティが損なわれやすくなる。
一般的に、コンピュータ装置の修理や保守を行うためには、コンピュータ装置にアクセスする必要がある。すなわち、故障の原因の特定および/または必要な修理や保守の実施のために、保守担当者は、通常、コンピュータ装置にログイン可能でなければならない。しかしながら、コンピュータ装置にアクセス可能になると、保守担当者は、コンピュータ装置内に保存された機密データを入手することや、不正コードなどのコンピュータが実行可能なコードをコンピュータ装置にインストールすることが可能になる。このように、遠隔地の修理施設や保守施設では、コンピュータ装置のセキュリティを保証し得ない。
本明細書に記載の技術では、特に修理や保守のためにコンピュータ装置が遠隔地に送られた場合に、コンピュータ装置のセキュリティが損なわれることを抑制する。コンピュータ装置に対して行う一連の保守に関連する行為(以下、保守関連行為と称する)が決定される。これらの行為は、コンピュータ装置の診断、修理、および/または、保守のために行われるものである。また、これらの行為は、装置に関する診断データおよび/または予測データに基づいて自動的に決定され、および/または管理者に行為の指定を許可させることで決定され得る。コンピュータ装置に関してデジタルキーなどの保守の資格情報(以下、保守資格情報と称する)が生成され、一連の保守関連行為がこの資格情報に対応付けられる。
このように、保守担当者に保守資格情報が与えられる。保守資格情報を用いてコンピュータ装置にアクセスする場合、保守担当者は一連の保守関連行為のみを行うことができる。保守関連行為として、不正コードなどのコンピュータが実行可能なコードのコンピュータ装置へのインストールや、装置内に保存された機密情報などのデータへのアクセスは可能ではない。したがって、本明細書に記載の技術では、コンピュータ装置のセキュリティを損なうことなく、コンピュータ装置の修理および/または保守を可能にする。
図1は、本明細書に記載した技術が実施される構成100の一例である。企業のデータセンタなどのデータセンタ102は、多数のサーバ・コンピュータ装置(サーバ)104を備える。サーバ104を管理するための管理サーバ・コンピュータ装置(管理サーバ)106は、データセンタ102内に設置されてもよく、他の場所に設置されてもよい。サーバ104および管理サーバ106は、ネットワーク108に通信可能に接続される。ネットワーク108には、インターネット、イントラネット、エクストラネット、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、有線ネットワーク、無線ネットワーク、携帯電話または電話ネットワークや、その他のタイプのネットワークが含まれ得る。
修理施設110は、データセンタ102から離れた場所に位置する。修理施設110は、データセンタ102とは異なる企業によって管理されることがある。例えば、サーバ104がある企業により所有されまたはその企業からの委託で運用されるのに対して、修理施設110は別企業により所有されまたはその別企業からの委託で運用されることがある。この修理施設110も、ネットワーク108に通信可能に接続される。
サーバ104が故障した場合、他の予備またはバックアップサーバ104にフェイルオーバーし、データセンタ102内でオフラインにされることがある。その後、矢印112で示すように、サーバ104が保守または修理のために修理施設110に搬送されることがある。サーバ104が修理施設に到着すると、修理施設110の職員は、問題のサーバ104を診断し、可能であれば問題のサーバ104を修理する。
資格情報114は、矢印116で示すように、修理施設110に安全に提供される。資格情報114は、ユーザ名とパスワードとの組み合わせや、デジタルキーとすることができる。後者の場合、デジタルキーは、例えば公開鍵と秘密鍵とからなるペアのうちの公開鍵とすることができ、管理サーバ106が秘密鍵を有する。修理施設110の職員は、資格情報114を用いて、修理のために搬送されたサーバ104にアクセスする。デジタルキーの場合、例えば、保守担当者は、サーバ104から管理サーバ106へ公開鍵を送信し、管理サーバ106において公開鍵と秘密鍵との照合を確認することで、サーバ104へのアクセスを承認する。
資格情報114は、修理施設110にて修理または保守を行うサーバ104に対して職員が行うことが可能な一連の保守関連行為に対応付けられる。これらの保守行為以外の行為は可能ではない。一般的に保守行為とは、職員が、サーバ104のセキュリティを損なうことなく、サーバ104を診断し適切にサーバ104を保守または修理し得るのに必要な行為のことである。
保守行為として指定可能な例としては、記憶装置、メモリ、プロセッサや、入力/出力(I/O)インタフェース、記憶装置インタフェース、メモリインタフェースなどのハードウェアインタフェースなど、サーバ104のハードウェア部品や組立品を修理施設110の職員が検査するための行為などがある。保守行為の一部に含まれない例としては、記憶装置に記憶されたデータへのアクセスや、コンピュータが実行可能なコードをサーバ104にインストールすることなどがある。したがって、サーバ104の保守や修理が完了すると、サーバ104は、データセンタ102に送り返され、データセンタ102内で再接続される。このように、サーバ104の所有企業やサーバ104の運用を委託している企業は、サーバ104のセキュリティが損なわれていないことを十分に(完全にではなくとも)確認することができる。
図2は、サーバ104のセキュリティを損なうことなく、修理施設110にてサーバ104を保守または修理する方法200の一例である。修理施設110の保守または修理の担当者がサーバ104に対して行うことが可能な一連の保守関連行為が決定される(202)。一連の保守関連行為を決定する種々の方法については後述する。これらの行為は総じて、サーバ104の診断、修理、および/または、保守を目的として行うことが可能である。
一連の保守関連行為は、サーバ104の保守や修理を目的としてそれらの行為をサーバ104に対して行う場合に、サーバ104のセキュリティが損なわれない範囲に制限され得る。上述したように、例えば、一連の保守関連行為として、サーバ104の記憶装置に保存された機密情報へアクセスすることは可能ではない。また、一連の保守関連行為として、コンピュータが実行可能なコードのサーバ104へのインストールは可能ではない。すなわち、コンピュータが実行可能な不正コードがサーバ104にインストールされることはない。
一連の保守関連行為は、保守資格情報114に対応付けられる(204)。上述したように、保守資格情報114は、デジタルキーや、ユーザ名とパスワードとの組み合わせとすることができる。続いて、保守資格情報114は修理施設110の保守担当者に安全に提供され(206)、ある時点でサーバ104が修理施設110に送付される(208)。また、保守資格情報114は、テキストメッセージ、電子メール、電話等により提供されてもよい。保守資格情報114は、サーバ104そのものと一緒には修理施設110に送られないため、安全に送信されると考えられる。したがって、サーバ104の修理施設110への搬送中にサーバ104を紛失しても、保守資格情報114は、搬送中のサーバ104を収容したパッケージからは得られない。
一実施形態において、保守資格情報114を用いたサーバ104へのアクセスは、サーバ104のファームウェアにより制御される(210)。ファームウェアとしては、基本入出力システム(BIOS)、ユニファイド・エクステンシブル・ファームウェア・インタフェース(UEFI)などがある。この点でファームウェアは、サーバ104が保守資格情報114を用いてアクセスされた際に、保守関連行為を行うことを管理・監視する。したがって、サーバ104とのやりとりはファームウェアを通じて行われるため、サーバ104のセキュリティがさらに確保され得る。
このように、保守担当者は、保守資格情報114を用いてサーバ104へのアクセスに成功する(212)。このとき、保守担当者は、サーバ104の診断、保守、および修理において保守関連行為のみを行うことができる(214)。上述したように、保守担当者はサーバ104に対してそれ以外の行為を行うことはできない。さらに、一実施形態において、保守担当者が保守関連行為を行うとき、どの行為がどの順序で行われたかがログに記録され(216)、ログは、その後データセンタ102を有する企業に提供され得る。これにより、サーバ104がデータセンタ102に戻された際に、保守担当者がサーバ104にどのような行為を行ったかを企業が正確に知ることができるため、サーバ104のセキュリティがさらに向上する。
図3は、サーバ104に対する一連の保守関連行為を決定する方法300の一例である。方法300は、コンピュータが読み取り可能な非一過性のデータ記録媒体に格納され、サーバ等のコンピュータ装置のプロセッサによって実行されるコンピュータが実行可能なコードとして実施され得る。ここで用いられる非一過性の媒体は、揮発性や不揮発性のランダムアクセスメモリなどのメモリや、ハードディスクドライブなどの記憶装置などを含む。方法300を実行するサーバは、保守や修理の対象のサーバ104と同じ場合や、保守や修理の対象のサーバ104とは異なる場合がある。
方法300において、一連の保守関連行為が具体的且つ動的に決定される(202)。より詳細には、これらの行為は以下の二つの方法のいずれか、または両方を用いて決定され得る。第1に、例えばユーザとのやりとりを行わず、問題のサーバ104に関するデータに基づいて、一連の保守関連行為が自動的に実行され得る(302)。第2に、例えばデータセンタ102の管理者に行為の指定を許可させることにより、一連の保守関連行為が決定され得る(304)。パート302およびパート304の両方を実行する場合、管理者は、パート302において自動的に決定された行為に加えて、パート304において他の保守関連行為を追加し得る。また管理者は、パート302において自動的に決定された行為の一つまたは複数を、パート304において削除し得る。
サーバ104に関するデータに基づいて保守関連行為を自動的に決定する際に、反応的アプローチ(306)および能動的アプローチ(308)のいずれか、または両方をとることができる。パート306の反応的アプローチでは、サーバ104で故障関連の事象が発生した場合、通常は診断データが生成される。したがって、このサーバ104における故障関連の事象に関する診断データにアクセスされ(310)、診断データに基づいて、故障関連の事象が関係しているサーバ部品が特定される(312)。続いて、サーバ104の故障の原因となった部品、故障と関係のある部品、またはサーバ104の故障発生箇所の部品に特有の適切な保守関連行為が決定される(314)。
例えば、サーバ104のデュアル・インライン・メモリモジュール(DIMM)などのメモリモジュールが故障することがある。診断データが、例えば、DIMMに内蔵の誤り訂正符号(ECC)機能でも補えないエラーがDIMMに繰り返し発生していることを示唆することがある。したがって、このDIMMが特定され、保守関連行為として、例えばDIMMが適切に動作しているかをテストする行為などが決定される。このように、修理担当者は、これらの行為を行うことでDIMMの故障を確認でき、さらに、故障したDIMMに代わる新たなDIMMが適切に動作しているかを確認できる。
このように、保守関連行為は、故障関連の事象の原因となった一つまたは複数の部品に合わせられる。その他の行為は(保守関連行為であったとしても)、問題の故障とは無関係であるため、指定され得ない。上記の例では、例えばネットワークハードウェアは正常に機能しており、修理担当者がネットワークハードウェアに対して行為を行う理由がないため、サーバ104のネットワークハードウェアに関する保守関連行為は、修理担当者に許可された一連の行為に含まれ得ない。
パート308の能動的アプローチにおいて、故障関連の事象はまだサーバ104で発生していない。しかし、故障が発生した場合、その事象に関する診断データが記録されないことや、記録されてもエラーが明らかにならないことがある。そのため、故障が発生する前に、パート308が一定間隔で定期的に実行される。サーバ104に関する予測故障データにアクセスされる(316)。予測故障データは、例えばサーバ104の各部品の平均故障間隔(MTBF)データや、各部品のこれまでの稼働時間を含み得る。他の例として、予測故障データは、サーバ104の電源の現在の電圧値や、電源の製造時に規定された供給電圧値の範囲(許容範囲など)を含み得る。
この予測故障データに基づいて、じきに故障する可能性が最も高い部品が予測的に決定される(318)。例えば、MTBFに近い期間にわたって稼働している部品が、じきに故障する可能性がある部品として決定される場合がある。他の例として、電源が規定の許容範囲を超えた値の電圧を供給している場合、この電源がじきに故障する可能性が高いことを示唆している場合がある。
続いて、じきに故障する可能性が最も高いと予測的に決定された部品に特有の適切な保守関連行為が、パート314について説明したものと同様の方法で決定される(320)。したがって、サーバ104がその後実際に故障した際に、故障関連の事象に関する診断データがない場合や、診断データから事象の原因が明らかにならない場合には、最も故障する可能性が高いと予測された部品の1つが、故障の原因としてみなされ得る。このように、保守関連行為は、これらのサーバ104の部品に合わせられたものとして能動的に決定される。
一連の保守関連行為が決定されると、サーバ104に関する保守資格情報114が生成される(322)。上述したように、保守資格情報114は、ユーザ名とパスワードの組み合わせ、デジタルキー、または、その他のタイプの資格情報とすることができる。上述したように、一連の保守関連行為は、保守資格情報114に対応付けられる(204)。保守資格情報114は、管理サーバ106に保存されてもよいし、サーバ104へのアクセスを制御する他の管理装置に保存されてもよい。修理施設110の職員は、資格情報114を安全に受け取ると、サーバ104にアクセスするために保守資格情報114を管理サーバ104に送信する。
図4は、サーバ104の一例である。サーバ104は、プロセッサ、メモリ、ハードディスクドライブなどの記憶装置やネットワークハードウェアなどのハードウェア402を含む。サーバ104は、管理制御部404および/またはファームウェア406を含み得る。また、サーバ104は、1つまたは2つのトラステッド・プラットフォーム・モジュール(TPM)408および410を含み得る。
管理制御部404は、ベースボード・マネジメント・コントローラ(BMC)、や統合管理モジュール(IMM)とも呼ぶことができる。また、管理制御部404は、専用のプロセッサ412と、コンピュータが実行可能なコード416を記憶する不揮発性メモリなどの専用の記憶装置414とを含む。管理制御部404は、タスクを実行中の主要なハードウェア402の動作に影響を与えることなくサーバ104の管理を許可するとともに、主要なハードウェア402が故障した場合でも、サーバ104の管理を許可する。プロセッサ412は、記憶装置414からコード416を実行し、上述の各種方法を実行することができる。
ファームウェア406は、UEFI、BIOSやその他のタイプのファームウェアであり得る。上述したように、一実施形態において、ファームウェア406は、保守資格情報114を介したサーバ104へアクセスの制御に使用され得る。TPM408および410はそれぞれ、サーバ104内の暗号処理を統合することでハードウェア402を安全化することを目的とした専用のプロセッサである。また、TPM408は、エンドユーザの資格情報に対応付けられており、エンドユーザの資格情報を用いたサーバ104へのアクセスを許可する。そのため、一連の保守関連行為よりも広い範囲のエンドユーザ関連行為がサーバ104に対して行われ得る。
一方、TPM410は、一連の保守関連行為が行われるサーバ104の保守モードに特有のものである。したがって、TPM410は保守資格情報114に対応付けられ、一実施形態において保守資格情報114を用いたサーバ104へのアクセスを許可する。このように、2つ目のTPM410が存在することで、サーバ104のセキュリティがさらに向上する。日常的な使用目的としてのサーバ104へのアクセスを通常管理するTPM408とはまったく異なるTPM(TPM410)によって、保守資格情報114を用いたサーバ104へのアクセスが制御されるためである。
最後に、本明細書では特定の実施形態を例示して説明したが、例示した実施形態の代わりに、同一の目的を達成することを意図したいかなる構成も可能であることが当業者には理解されよう。このように、本出願は、本発明の実施形態のいかなる適用または変形例をも包含することを意図している。したがって、本発明は、特許請求の範囲およびその均等物のみによって限定されることを明白に意図している。