JP2022180956A

JP2022180956A - 情報処理装置，プログラム及び情報処理方法

Info

Publication number: JP2022180956A
Application number: JP2021087751A
Authority: JP
Inventors: 宗則前田; Munenori Maeda
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2022-12-07
Also published as: US20220385726A1

Abstract

【課題】分散データストアの性能を向上させる。【解決手段】複数のストレージノード１０１と１以上のプロキシ１０２と１以上のクライアント１０３とが接続されるネットワークにおいて、アクセス経路に１以上のプロキシ１０２を挟んで最も実行されている１以上のクライアント１０３のアクセス情報を収集し、アクセス情報に基づいて、複数のストレージノード１０１と１以上のプロキシ１０２との間のそれぞれのネットワーク距離とを算出し、ネットワーク距離に基づき、複数のストレージノード１０１の中から、最もアクセス頻度が高いプロキシ１０２に近いストレージノード１０１をリーダとして決定する、プロセッサを備える。【選択図】図３

Description

本発明は、情報処理装置，プログラム及び情報処理方法に関する。

クラウド上においてサーバレスコンピューティングが利用されることがある。サーバレスコンピューティングは、ノード貸しのような従来のクラウドコンピューティングの枠を脱し、ファンクションと呼ばれる処理単位がハードウェアリソースを意識することなく自在に動作するものである。これによってクラウド側はハードウェアを余すところなく使えるようになり、また、ユーザはファンクションへのリクエスト数で従量課金されるため、スモールスタートしやすくなる。

サーバレスコンピューティングでは、永続化したいデータの取り扱いが課題となる場合がある。ファンクションはどこで動作するか本質的に指定できないため、従来は世界中のどこからでも接続できるパブリッククラウドストレージサービスを使うことが一般的である。パブリッククラウドストレージは永続性、可用性は優れているが、安価なストレージは応答時間（別言すれば、レイテンシ）が長かったり、クラウドのDatabase（ＤＢ）は費用が高くスケールアップは即応性がなかったりする。

そこで、サーバレスコンピューティング向け永続化データのストレージとして、近年、分散データストアが登場してきた。分散データストアはＤＢの機能（原子性（Atomicity）、一貫性（Consistency)、独立性（Isolation）、永続性（Durability）＝ＡＣＩＤ）をマルチクラウド、マルチクラスタ環境のような広域に渡る計算環境で実現するものである。

一般的な分散データストアは、N台（N＞２）のサーバから構成されており、各サーバは離れた拠点（例えば、データセンタ）に置かれていて、一部のサーバやネットワークが故障しても、残りのサーバでサービスを継続できる。サーバレスコンピューティング向けの分散データストアでは、ファンクションの実行場所が変化するため、ファンクションの実行場所からの応答時間が短くなるような構成変更（別言すれば、サーバ配置拠点）が実施される。

米国特許公開公報第２０１６／００９８２２５号特開２００９－１５１４０３号公報国際公開第２０１４／１８８６８２号

分散データストアでは構成変更は可能だが、構成変更している最中に、複数のサーバがリーダ役を自任することでＤＢの一貫性が壊れるスプリットブレインという状況が生じるおそれがある。スプリットブレインを避けるためサービスを一時停止させてから構成変更を行うことが想定されるが、サービスを一時停止させると可用性の問題を引き起こす。また、コンセンサスアルゴリズムを用いてスプリットブレイン回避と可用性とを両立させることも想定されるが、リーダは常にサーバ間の選挙で決まるため、ファンクションの実行場所から近い保証がない。

１つの側面では、分散データストアの性能を向上させることを目的とする。

１つの側面では、情報処理装置は、複数のストレージノードと１以上のプロキシと１以上のクライアントとが接続されるネットワークにおいて、アクセス経路に前記１以上のプロキシを挟んで最も実行されている前記１以上のクライアントのアクセス情報を収集し、前記アクセス情報に基づいて、前記複数のストレージノードと前記１以上のプロキシとの間のそれぞれのネットワーク距離とを算出し、前記ネットワーク距離に基づき、前記複数のストレージノードの中から、最もアクセス頻度が高いプロキシに近いストレージノードをリーダとして決定するプロセッサを備える。

１つの側面では、分散データストアの性能を向上できる。

実施形態におけるコンピュータ装置のハードウェア構成例を模式的に示すブロック図である。実施形態における分散データストアシステムの構成例を模式的に示すブロック図である。図２に示した分散データストアシステムの構成例を簡単に示す図である。図３に示した分散データストアシステムにおけるＳパラメータのうちラウンドトリップタイムを例示するテーブルである。図３に示した分散データストアシステムにおけるＳパラメータのうちアップロード帯域幅を例示するテーブルである。図３に示した分散データストアシステムにおけるＳパラメータのうちダウンロード帯域幅を例示するテーブルである。図３に示した分散データストアシステムにおけるＳパラメータのうちメッセージレートを例示するテーブルである。図３に示した分散データストアシステムにおけるＳパラメータのうち上り下り帯域幅を例示するテーブルである。図３に示した分散データストアシステムにおけるＤパラメータのダウンロード（下り）の帯域幅を示すテーブルである。図３に示した分散データストアシステムにおけるＤパラメータのうち転送データ量を示すテーブルである。図３に示した分散データストアシステムにおいてリーダノードを決定するためのテーブルである。図３に示した分散データストアシステムにおいてストレージノードの構成を決定するためのテーブルである。図３に示した分散データストアシステムにおいてネットワーク距離を算出するためのテーブルである。実施形態におけるクライアントサイドの性能監視処理の第１の例を説明するフローチャートである。実施形態における管理装置のリーダ見直し処理の第１の例を説明するフローチャートである。実施形態におけるストレージノードのリーダ見直し処理の第１の例を説明するフローチャートである。実施形態におけるストレージノードのリーダ見直し処理の第２の例を説明するフローチャートである。実施形態におけるクライアントサイドの性能監視処理の第２の例を説明するフローチャートである。実施形態における管理装置のリーダ見直し処理の第２の例を説明するフローチャートである。

〔Ａ〕実施形態
以下、図面を参照して一実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。

以下、図中において、同一の各符号は同様の部分を示しているので、その説明は省略する。

〔Ａ－１〕構成例
図１は、実施形態におけるコンピュータ装置１のハードウェア構成例を模式的に示すブロック図である。

コンピュータ装置１は、情報処理装置１０，表示装置１５及びドライブ装置１６を備える。

情報処理装置１０は、プロセッサ１１，メモリ１２，ストレージデバイス１３及びネットワークデバイス１４を備える。

プロセッサ１１は、例示的に、種々の制御や演算を行なう処理装置であり、メモリ１２に格納されたOperating System（ＯＳ）やプログラムを実行することにより、種々の機能を実現する。

なお、プロセッサ１１の機能を実現するためのプログラムは、例えばフレキシブルディスク、ＣＤ（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ等）、ＤＶＤ（ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＤＶＤ－Ｒ、ＤＶＤ＋Ｒ、ＤＶＤ－ＲＷ、ＤＶＤ＋ＲＷ、ＨＤＤＶＤ等）、ブルーレイディスク、磁気ディスク、光ディスク、光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供されてよい。そして、コンピュータ（本実施形態ではプロセッサ１１）は上述した記録媒体から図示しない読取装置を介してプログラムを読み取って内部記録装置または外部記録装置に転送し格納して用いてよい。また、プログラムを、例えば磁気ディスク，光ディスク，光磁気ディスク等の記憶装置（記録媒体）に記録しておき、記憶装置から通信経路を介してコンピュータに提供してもよい。

プロセッサ１１の機能を実現する際には、内部記憶装置（本実施形態ではメモリ１２）に格納されたプログラムがコンピュータ（本実施形態ではプロセッサ１１）によって実行されてよい。また、記録媒体に記録されたプログラムをコンピュータが読み取って実行してもよい。

プロセッサ１１は、情報処理装置１０全体の動作を制御する。プロセッサ１１は、マルチプロセッサであってもよい。プロセッサ１１は、例えばCentral Processing Unit（ＣＰＵ）やMicro Processing Unit（ＭＰＵ），Digital Signal Processor（ＤＳＰ），Application Specific Integrated Circuit（ＡＳＩＣ），Programmable Logic Device（ＰＬＤ），Field Programmable Gate Array（ＦＰＧＡ）のいずれか一つであってもよい。また、プロセッサ１１は、ＣＰＵ，ＭＰＵ，ＤＳＰ，ＡＳＩＣ，ＰＬＤ，ＦＰＧＡのうちの２種類以上の要素の組み合わせであってもよい。

メモリ１２は、例示的に、Read Only Memory（ＲＯＭ）及びRandom Access Memory（ＲＡＭ）を含む記憶装置である。ＲＡＭは、例えばDynamic RAM（ＤＲＡＭ）であってよい。メモリ１２のＲＯＭには、Basic Input/Output System（ＢＩＯＳ）等のプログラムが書き込まれてよい。メモリ１２のソフトウェアプログラムは、プロセッサ１１に適宜に読み込まれて実行されてよい。また、メモリ１２のＲＡＭは、一次記録メモリあるいはワーキングメモリとして利用されてよい。

ストレージデバイス１３は、例示的に、データを読み書き可能に記憶する装置であり、例えば、Solid State Drive（ＳＳＤ）１３１やSerial Attached SCSI-Hard Disk Drive（ＳＡＳ－ＨＤＤ）１３２，不図示のStorage Class Memory（ＳＣＭ）が用いられてよい。

ネットワークデバイス１４は、情報処理装置１０をインターコネクトによってネットワークスイッチ２と接続し、このネットワークスイッチ２を介してインターネット３（図２等を用いて後述）等のネットワークと通信を行なうためのインタフェース装置である。ネットワークデバイス１４としては、例えば、有線Local Area Network（ＬＡＮ）や無線ＬＡＮ，Wireless Wide Area Network（ＷＷＡＮ）のネットワークの規格に対応する各種インタフェースカードを用いることができる。

表示装置１５は、液晶ディスプレイやOrganic Light-Emitting Diode（ＯＬＥＤ）ディスプレイ，Cathode Ray Tube（ＣＲＴ），電子ペーパーディスプレイ等であり、オペレータ等に対する各種情報を表示する。

ドライブ装置１６は、記録媒体が装着可能に構成される。ドライブ装置１６は、記録媒体が装着された状態において、記録媒体に記録されている情報を読み取り可能に構成される。本例では、記録媒体は可搬性を有する。例えば、記録媒体は、フレキシブルディスク、光ディスク、磁気ディスク、光磁気ディスク、又は、半導体メモリ等である。

図２は、実施形態における分散データストアシステム１００の構成例を模式的に示すブロック図である。

分散データストアシステム１００は、複数（図２に示す例では９つ）のコンピュータ装置１（別言すれば、コンピュータ装置＃１～＃９）を備える。

コンピュータ装置＃１，＃２は、それぞれ別のデータセンタに設置され、いずれもストレージノード１０１（図３等を用いて後述）として機能してよい。コンピュータ装置＃３，＃４は１つのデータセンタに設置され、コンピュータ装置＃３，＃４も１つのデータセンタに設置されると共に、コンピュータ装置＃３～＃６はいずれもプロキシ１０２（図３等を用いて後述）として機能してよい。コンピュータ装置＃７～＃９はクライアント１０３（図３等を用いて後述）として機能し、具体的には、コンピュータ装置＃７はオンプレミスとして機能し、コンピュータ装置＃８はエッジとして機能し、コンピュータ装置＃９はRemote Office Branch Office（ＲＯＢＯ）として機能してよい。

ストレージノードとしてのコンピュータ装置１間、及び、ストレージノードとしてのコンピュータ装置１とプロキシとしてのコンピュータ装置１との間は、専用線を介して接続される。また、プロキシとしてのコンピュータ装置１とクライアントとしてのコンピュータ装置１との間は、インターネット３を介して接続される。なお、インターネット３は、
Wide Area Network（ＷＡＮ）等の他の種類のネットワークであってもよい。

図３は、図２に示した分散データストアシステム１００の構成例を簡単に示す図である。

図３に示す例において、ｎ個のストレージノード１０１は、拠点＃１，・・・，拠点＃ｍ，・・・，拠点＃ｎのそれぞれに設置されている。また、各ストレージノード１０１には、３つのプロキシ１０２（別言すれば、代表ＵＲＬ）が接続されている。更に、各プロキシ１０２には、インターネット３を介して、３つのクライアント１０３がそれぞれ接続されている。

図３に示すように、ストレージノード１０１に対しては、管理装置１０４が接続される。管理装置１０４は、ストレージノード１０１の中のリーダ（図１に示す例では拠点＃１のストレージノード１０１）の定期的な見直しと、クライアント通信の監視と、クライアント１０３からの要請の処理とを実行する。

ストレージノード１０１とプロキシ１０２とクライアント１０３とは、別の拠点にあってよい。なお、同一拠点で運用することもできるが、その場合はフォールトドメインを意識して配置する。フォールトドメインとは単一障害点を共有するハードウェアセットのことである。

プロキシ１０２は、複数存在し、クライアント１０３とストレージノード１０１との間を接続し中継する。プロキシ１０２は、広域に分散しており、かつ、ＵＲＬはクライアント１０３に公開されている。１つのＵＲＬは、少なくとも１つのノードに対応する。ただし、負荷分散のため、同一拠点内の複数ノードが構成されてもよい。その場合は、ＤＮＳで複数のＩＰアドレスのどれかに解決されてよい。プロキシ１０２ごとに、ストレージノード１０１へのレイテンシや帯域幅は異なる。プロキシ１０２が複数ノードで構成されている場合でも、その傾向（平均値等）は大きくは変わらない。プロキシ１０２ごとに、アクセスカウンタ又は上り下り転送データサイズがモニタリングされ、直近のΔ期間の値がプロキシ１０２へのアクセスにより取得されてよい。

クライアント１０３は、広域に分散し、予めプロキシ１０２とのラウンドトリップや上り下り帯域幅が測定され、自分から近いプロキシ１０２（別言すれば、ＵＲＬ）を選んで接続する。

管理装置１０４としての機能は、プロキシ１０２又はストレージノード１０１のいずれかが有してもよい。管理装置１０４は、プロキシ１０２とストレージノード１０１の両方にアクセス可能であり、RaftアルゴリズムやPaxosアルゴリズムを用いてマルチノードを多数決ベースで使用することもできる。

管理装置１０４は、リーダとしてのストレージノード１０１の選挙の開始にあたり、クライアント１０３のサービスレベルアグリーメント（ＳＬＡ）に基づく監視又は定期実行に基づき、リーダ見直し処理の実行を行う。

管理装置１０４は、リーダ見直し処理において、Ｓパラメータ（図４～図８等を用いて後述）を取得し、Ｄパラメータ（図９及び図１０等を用いて後述）を取得する。次に、管理装置１０４は、ネットワーク（ＮＷ）距離を計算してLeader_newを求め、自分の知るリーダにTriggerElectionRPCを送信する。TriggerElectionRPCは、Leader_newの情報をデータとして持つ。

TriggerElectionRPCを受け取ったストレージノード１０１は、自分がリーダである場合は、了承＝ACK（true）を返答する。一方、TriggerElectionRPCを受け取ったストレージノード１０１は、自分がリーダでない場合には、拒否＝NACK（false）及び自分が知るリーダ情報を返答する。

管理装置１０４は、ストレージノード１０１から拒否が返信された場合には、返信データにあるリーダを管理装置１０４の知るリーダに設定し、再度、当該ストレージノード１０１にTriggerElectionRPCを送信する。

TriggerElectionRPCを受信したリーダとしてのストレージノード１０１は、Leader_newとなるfollowerに対するハートビート（AppendEntryRPC）の送信を、ハートビート受信のタイムアウト時間＋マージン分まで一時停止する。なお、ストレージノード１０１は、AppendEntryRPCがタイムアウト時間まで未配になることで、自律的にリーダに立候補する。

ここで、AppendEntryRPCとは、Raftアルゴリズムで使用されるRPCの１つであり、リーダからfollowerへのハートビートメッセージであるとともに、データレプリケーションのメッセージである。

リーダ見直し処理は、以下の方法で実行されてもよい。

各ストレージノード１０１は、タイマを用いて定期的にリーダ見直し処理を開始する。

各ストレージノード１０１は、自分がleader又はノード状態がcandidateならば処理を終了する。

一方、各ストレージノード１０１は、自分がleaderでなく、且つ、ノード状態がcandidateでないならば、Ｓパラメータを取得し、Ｄパラメータを取得する。次に、各ストレージノード１０１は、ＮＷ距離を計算し、Leader_newを求める。各ストレージノード１０１は、自分がLeader_newでないならば、自分はfollowerかつ候補ノードであるためcandidateに状態変更する。以降は、上述したRaftアルゴリズムによるリーダ選挙と同じ処理が実行される。すなわち、RequestVoteRPCが全ストレージノード１０１に送信され、全体の過半数のノードから承認が得られれば、新リーダが選出される。

ここで、RequestVoteRPCとは、Raftアルゴリズムで使用されるRPCの１つであり、RPC送信ノードsが受信ノードrにリーダ選挙で送信ノードsに投票することを依頼するものである。

管理装置１０４は、各ストレージノード１０１の拠点割り当てを変更する構成管理サーバとして機能してもよい。構成管理サーバとしての機能は、いずれかのストレージノード１０１に割り当てられてもよい。構成管理サーバは、プロキシ１０２とストレージノード１０１との両方にアクセスできる。構成管理サーバは、信頼性を高めるため、RaftアルゴリズムやPaxosアルゴリズムを用いて、マルチノードを多数決ベースで使用することもできる。

管理装置１０４は、構成管理サーバとして機能する際に、クライアント１０３のサービスレベルアグリーメント（ＳＬＡ）に基づく監視、又は、定期実行に基づき、以下の拠点割り当て変更の実行を行う。

管理装置１０４は、Ｓパラメータを取得し、Ｄパラメータを取得する。次に、管理装置１０４は、ＮＷ距離を計算し、ストレージノードセットとLeader_newとを決定する。ストレージノードセットが現在のストレージノードセットと同じなら、拠点割り当ての変更は不要なので、終了する。なお、Leader_newが現在のリーダと異なるなら、上述したリーダ見直し処理が実行さる。

管理装置１０４は、Raftアルゴリズムのjointコンセンサス手続きを実行する。具体的には、古い（切り替え前）ノードセットをC1、新しい（切り替え後）ノードセットをC2、新旧ノードセットの和集合をC1UC2とするとき、C1から、C1UC2の構成を経て、C2の構成に遷移する。そして、管理装置１０４は、新構成に変化後、リーダ見直し処理を実行し、Leader_newを選択する。

別言すれば、情報処理装置１０は、アクセス経路に１以上のプロキシ１０２を挟んで最も実行されている１以上のクライアント１０３のアクセス情報を収集する。情報処理装置１０は、アクセス情報に基づいて、複数のストレージノード１０１と１以上のプロキシ１０２との間のそれぞれのネットワーク距離とを算出する。情報処理装置１０は、ネットワーク距離に基づき、複数のストレージノード１０１の中から、最もアクセス頻度が高いプロキシに近いストレージノード１０１をリーダとして決定する。

アクセス情報は、ネットワーク距離を算出するための、複数のストレージノード１０１と１以上のプロキシ１０２との間における静的なパラメータ及び動的なパラメータを含んでよい。

情報処理装置１０は、クライアント１０３によってアクセス性能値が要件を満たさないと判定された場合に、リーダを決定してよい。また、情報処理装置１０は、クライアント１０３によって複数のストレージノード１０１の拠点変更のための要件が満たされると判定された場合に、リーダを決定してよい。

図４は、図３に示した分散データストアシステム１００におけるＳパラメータのうちラウンドトリップタイム（ＲＴＴ）を例示するテーブルである。

ここで、Ｓパラメータとは、ほぼ静的なパラメータである。Ｓパラメータは、事前又は適宜測定して求められてよい。Ｓパラメータは、完全な定数ではなく、見直し頻度が後述するＤパラメータよりも非常に低いパラメータである。

図４に示すラウンドトリップタイムには、各ストレージノード１０１（ＳＮ＃１～＃ｎ）から各プロキシ１０２（プロキシ＃１～＃３）に対するラウンドトリップタイムが登録されている。

例えば、ＳＮ＃１において、プロキシ＃１に対するラウンドトリップタイムは１０ミリ秒であり、プロキシ＃２に対するラウンドトリップタイムは１００ミリ秒であり、プロキシ＃３に対するラウンドトリップタイムは１８０ミリ秒である。

図５は、図３に示した分散データストアシステム１００におけるＳパラメータのうちアップロード（上り）帯域幅を例示するテーブルである。

図５に示すアップロード帯域幅には、各プロキシ１０２（プロキシ＃１～＃３）から各ストレージノード１０１（ＳＮ＃１～＃ｎ）に対するアップロード帯域幅が登録されている。

例えば、ＳＮ＃１において、プロキシ＃１からのアップロード帯域幅は５００ＭＢ／ｓであり、プロキシ＃２からのアップロード帯域幅は６００ＭＢ／ｓであり、プロキシ＃３からのアップロード帯域幅は９００ＭＢ／ｓである。

図６は、図３に示した分散データストアシステム１００におけるＳパラメータのうちダウンロード（下り）帯域幅を例示するテーブルである。

図６に示すダウンロード帯域幅には、各ストレージノード１０１（ＳＮ＃１～＃ｎ）から各プロキシ１０２（プロキシ＃１～＃３）に対するダウンロード帯域幅が登録されている。

例えば、ＳＮ＃１において、プロキシ＃１に対するダウンロード帯域幅は５５０ＭＢ／ｓであり、プロキシ＃２に対するダウンロード帯域幅は６５０ＭＢ／ｓであり、プロキシ＃３に対するダウンロード帯域幅は９５０ＭＢ／ｓである。

図７は、図３に示した分散データストアシステム１００におけるＳパラメータのうちメッセージレート（ＭＲ）を例示するテーブルである。

図７に示すメッセージレートには、各ストレージノード１０１（ＳＮ＃１～＃ｎ）間において、毎秒、固定長のメッセージがいくつ処理可能であるかを示すメッセージレートが登録されている。

例えば、ＳＮ＃１において、ＳＮ＃２との間のメッセージレートはm1,2であり、ＳＮ＃ｎとの間のメッセージレートはm1,nである。

図８は、図３に示した分散データストアシステム１００におけるＳパラメータのうち上り下り帯域幅を例示するテーブルである。

図８に示す上り下り帯域幅には、各ストレージノード１０１（ＳＮ＃１～＃ｎ）間における上り下り帯域幅が登録されている。

例えば、ＳＮ＃１において、ＳＮ＃２との間の上り下り帯域幅はu1,2であり、ＳＮ＃ｎとの間の上り下り帯域幅はu1,nである。

図９は、図３に示した分散データストアシステム１００におけるＤパラメータのうちのダウンロード（下り）の帯域幅を示すテーブルである。

Ｄパラメータは、動的に変化するパラメータである。

図９に示すダウンロードの帯域幅には、各プロキシ１０２（プロキシ＃１～＃３）における読み込み割合（R_ratio），書き込み割合（W_ratio）及び読み書き割合（RW_ratio）が登録されている。

図９に示す例において、例えば、プロキシ＃１に対するRead回数は10であり、Write回数は20であり、RW（読み書き）回数は30である。また、プロキシ＃１～＃３の合計のRead回数は130であり、Write回数は125であり、RW回数は255である。そこで、プロキシ＃１について、R_ratio=10/130，W_ratio=20/125及びRW_ratio=30/255が算出される。

図１０は、図３に示した分散データストアシステム１００におけるＤパラメータのうち転送データ量を示すテーブルである。

図１０に示す転送データ量には、各プロキシ１０２（プロキシ＃１～＃３）における期間Δについての読み込み割合（R_ratio），書き込み割合（W_ratio）及び読み書き割合（RW_ratio）が登録されている。

図１０に示す例において、例えば、プロキシ＃１に対するReadデータ量は100MBであり、Writeデータ量は220MBであり、RW（読み書き）データ量は320MBである。また、プロキシ＃１～＃３の合計のReadデータ量は310であり、Writeデータ量は1900であり、RWデータ量は2210である。そこで、プロキシ＃１について、R_ratio=100/310，W_ratio=220/1900及びRW_ratio=320/2210が算出される。

図１１は、図３に示した分散データストアシステム１００においてリーダノードを決定するためのテーブルである。

ネットワーク距離が計算されることにより、ストレージノード１０１の拠点を固定した場合に、プロキシ１０２のアクセス状況からリーダノードが決定されると共に、現在のネットワークの混雑状況とプロキシ１０２のアクセス状況とからストレージノード１０１の構成が決定されてよい。

リーダノードは、例えば、図９に示したダウンロードの帯域幅のRW_ratioと図４に示したラウンドトリップタイムとに基づいて算出されてよい。別言すれば、全クライアント１０３のRWリクエストの平均RTTをストレージノード１０１毎に計算するため、ＳパラメータのＲＴＴとＤパラメータのRW_ratioとが使用される。

図１１に示すように、プロキシ＃ＰにおけるRW_ratioをuPとして、ＳＮ＃Ｑとプロキシ＃Ｐとの間のＲＴＴをｒＱＰとした場合に、下記のc1, c2, c3の中で0よりも大きい最小のものが次のリーダノードとして決定されてよい。

c1 = r11*u1+r12*u2+r13*u3
c2 = r21*u1+r22*u2+r23*u3
c3 = r31*u1+r32*u2+r33*u3
図１２は、図３に示した分散データストアシステム１００においてストレージノード１０１の構成を決定するためのテーブルである。

ネットワークの混み状況を反映させるため、Ｓパラメータは直前に測定されてよい。３拠点、４拠点、…、Ｎ拠点のそれぞれについて、割り当てと距離が求められてよい。

以下では、総拠点数（N=4）で３拠点が選択される場合について説明する。

ストレージノード１０１はＳＮ＃１～＃４の４つであり、3拠点の選び方は(1,2,3)、(1,2,4)、(1,3,4)、(2,3,4)の４通りである。

(1,2,3)について、T個のレプリカメッセージの送信時間は、リーダをＳＮ＃１にすると、(T/m12+T/m13)である。Tを1とすると、図１２に示すテーブルにおいてf1=(1/m12+1/m13)が算出される。また、プロキシ１０２とのネットワーク距離は、c1 = (r11*u1+r12*u2+r13*u3)と求まる。なお、図１２は、図７に示したメッセージレートを例示するテーブルに対応する。

また、リーダをＳＮ＃２にすると、図１２に示すテーブルにおいてf2=(1/m21+1/m23)、プロキシ１０２とのネットワーク距離c2は、c2 = (r21*u1+r22*u2+r23*u3)と求まる。

同様に、リーダをＳＮ＃３とした場合のネットワーク距離c3も求まる。

図１３は、図３に示した分散データストアシステム１００においてネットワーク距離を算出するためのテーブルである。

図１３において、関数B（距離B）は、F距離とC距離とをパラメータとして、適切な定数で重みづけして加算したものである。

関数Bに対する重み付けとしては、例えば、多項式回帰を用いることにより、B(x,y) = a0*x+a1*y+a2*x*x+a3*y*y+a4*x*yが使用されてよい。平均Bは、同じ拠点集合の関数Bの平均値を示す。

４拠点以上の場合には、３拠点の場合よりも平均Bは大きくなるが、信頼性が上がる。従って、信頼性を含めて、重み付けを適用することにより、距離（平均Bと信頼性との組）が最小になる拠点の組み合わせが存在する。この組み合わせが拠点割り当ての解となる。

〔Ａ－２〕動作例
実施形態におけるクライアント１０３サイドの性能監視処理の第１の例を、図１４に示すフローチャート（ステップＳ１～Ｓ４）に従って説明する。

性能監視処理は、クライアント１０３自身又はエージェントが行う。エージェントは、クライアント１０３と同一のサーバ上に存在して動作する、独立したプロセスである。

性能監視処理は、一定のインターバル（1分に1回等）の経過や、クライアント１０３の性能指標（応答時間など）の悪化を契機として開始されてよい。性能値が性能要件を満たさない場合、管理装置１０４にリーダ見直しリクエストが送信されてよい。

クライアント１０３は、ＩＯ性能値ｖを読み出す（ステップＳ１）。

クライアント１０３は、ＩＯ性能値ｖが性能要件（ＳＬＡ）を満たすかを判断する（ステップＳ２）。

ＩＯ性能値ｖが性能要件を満たす場合には（ステップＳ２のＹＥＳルート参照）、処理はステップＳ４へ進む。

一方、ＩＯ性能値ｖが性能要件を満たさない場合には（ステップＳ２のＮＯルート参照）、クライアント１０３は、管理装置１０４へリーダ見直しリクエストを送信する（ステップＳ３）。

クライアント１０３は、一定の時間待ち、又は、次の監視契機を待ち（ステップＳ４）、処理はステップＳ１へ戻る。

次に、実施形態における管理装置１０４のリーダ見直し処理の第１の例を、図１５に示すフローチャート（ステップＳ１１～Ｓ２０）に従って説明する。

管理装置１０４は、クライアント１０３からリーダ見直しリクエストを受信する（ステップＳ１１）。

管理装置１０４は、Ｓパラメータを取得する（ステップＳ１２）。

管理装置１０４は、Ｄパラメータを取得する（ステップＳ１３）。

管理装置１０４は、取得したＳパラメータ及びＤパラメータに基づき、ネットワーク（ＮＷ）距離を計算する（ステップＳ１４）。

管理装置１０４は、計算したネットワーク距離に基づき、新しいリーダノードであるLeader_newを決定する（ステップＳ１５）。

管理装置１０４は、現在のリーダノードであるLeader_currを設定する（ステップＳ１６）。

管理装置１０４は、Leader_newを示すTriggerElectionRPCをLeader_currのストレージノード１０１へ送信する（ステップＳ１７）。

管理装置１０４は、Leader_currのストレージノード１０１からの応答受信待ちを行う（ステップＳ１８）。

管理装置１０４は、応答結果＝ＡＣＫであるかを判定する（ステップＳ１９）。

応答結果＝ＡＣＫである場合には（ステップＳ１９のＹＥＳルート参照）、リーダ見直し処理は終了する。

一方、応答結果＝ＡＣＫでない場合には（ステップＳ１９のＮＯルート参照）、管理装置１０４は、応答結果に含まれている現在のリーダノードをLeader_currに設定して（ステップＳ２０）、処理はステップＳ１７へ戻る。

次に、実施形態におけるストレージノード１０１のリーダ見直し処理の第１の例を、図１６に示すフローチャート（ステップＳ２１～Ｓ２６）に従って説明する。

ストレージノード１０１は、Leader_newを示すTriggerElectionRPCリクエストを管理装置１０４から受信する（ステップＳ２１）。

ストレージノード１０１は、自分が現在リーダノードであるかを判定する（ステップＳ２２）。

自分が現在リーダノードでない場合には（ステップＳ２２のＮＯルート参照）、ストレージノード１０１は、ＮＡＣＫ及び現在のリーダを示す情報を管理装置１０４へ応答する（ステップＳ２３）。そして、リーダ見直し処理は終了する。

一方、自分が現在リーダである場合には（ステップＳ２２のＹＥＳルート参照）、ストレージノード１０１は、ＡＣＫ及び現在のリーダを示す情報を管理装置１０４へ応答する（ステップＳ２４）。

ストレージノード１０１は、自分がLeader_newであるかを判定する（ステップＳ２５）。

自分がLeader_newである場合には（ステップＳ２５のＹＥＳルート参照）、リーダ見直し処理は終了する。

一方、自分がLeader_newでない場合には（ステップＳ２５のＮＯルート参照）、Leader_newについてAppendEntryRPCの一時停止設定を行う（ステップＳ２６）。そして、リーダ見直し処理は終了する。

次に、実施形態におけるストレージノード１０１のリーダ見直し処理の第２の例を、図１７に示すフローチャート（ステップＳ３１～Ｓ３９）に従って説明する。

ストレージノード１０１は、自分がリーダノードであるかを判定する（ステップＳ３１）。

自分がリーダノードである場合には（ステップＳ３１のＹＥＳルート参照）、リーダ見直し処理は終了する。

一方、自分がリーダノードでない場合には（ステップＳ３１のＮＯルート参照）、ストレージノード１０１は、状態がCandidateであるかを判定する（ステップＳ３２）。

状態がCandidateである場合には（ステップＳ３２のＹＥＳルート参照）、リーダ見直し処理は終了する。

一方、状態がCandidateでない場合には（ステップＳ３２のＮＯルート参照）、ストレージノード１０１は、Ｓパラメータを取得する（ステップＳ３３）。

ストレージノード１０１は、Ｄパラメータを取得する（ステップＳ３４）。

ストレージノード１０１は、取得したＳパラメータ及びＤパラメータに基づき、ネットワーク（ＮＷ）距離を計算する（ステップＳ３５）。

ストレージノード１０１は、計算したネットワーク距離に基づき、新しいリーダノードであるLeader_newを決定する（ステップＳ３６）。

ストレージノード１０１は、自分がLeader_newであるかを判定する（ステップＳ３７）。

自分がLeader_newでない場合には（ステップＳ３７のＮＯルート参照）、リーダ見直し処理は終了する。

一方、自分がLeader_newである場合には（ステップＳ３７のＹＥＳルート参照）、ストレージノード１０１は、状態をCandidateに変更する（ステップＳ３８）。

ストレージノード１０１は、各ストレージノード１０１によるリーダノードの選挙を開始する（ステップＳ３９）。そして、リーダ見直し処理は終了する。

次に、実施形態におけるクライアント１０３サイドの拠点変更リクエストのための性能監視処理を、図１８に示すフローチャート（ステップＳ４１～Ｓ４５）に従って説明する。

クライアント１０３は、ＩＯ性能値ｖを読み出す（ステップＳ４１）。

クライアント１０３は、ＩＯ性能値ｖが性能要件（ＳＬＡ）を満たすかを判断する（ステップＳ４２）。

ＩＯ性能値ｖが性能要件を満たす場合には（ステップＳ４２のＹＥＳルート参照）、処理はステップＳ４５へ進む。

一方、ＩＯ性能値ｖが性能要件を満たさない場合には（ステップＳ４２のＮＯルート参照）、クライアント１０３は、ＩＯ性能値ｖが構成変更条件を満たすかを判定する（ステップＳ４３）。

ＩＯ性能値ｖが構成変更条件を満たさない場合には（ステップＳ４３のＮＯルート参照）、処理はステップＳ４５へ進む。

一方、ＩＯ性能値ｖが構成変更条件を満たす場合には（ステップＳ４３のＹＥＳルート参照）、クライアント１０３は、管理装置１０４へ拠点変更リクエストを送信する（ステップＳ４４）。

クライアント１０３は、一定の時間待ち、又は、次の監視契機を待ち（ステップＳ４５）、処理はステップＳ４１へ戻る。

次に、実施形態における管理装置１０４の拠点変更リクエストに伴うリーダ見直し処理を、図１９に示すフローチャート（ステップＳ５１～Ｓ６３）に従って説明する。

管理装置１０４は、クライアント１０３から拠点変更リクエストを受信する（ステップＳ５１）。

管理装置１０４は、Ｓパラメータを取得する（ステップＳ５２）。

管理装置１０４は、Ｄパラメータを取得する（ステップＳ５３）。

管理装置１０４は、取得したＳパラメータ及びＤパラメータに基づき、ネットワーク（ＮＷ）距離を計算する（ステップＳ５４）。

管理装置１０４は、計算したネットワーク距離に基づき、ストレージノード１０１の集合SNS_new及び新しいリーダノードであるLeader_newを決定する（ステップＳ５５）。

管理装置１０４は、現在のストレージノード１０１の集合であるSNS_Currを設定する（ステップＳ５６）。

管理装置１０４は、SNS_currとSNS_newとが同一であるかを判定する（ステップＳ５７）。

SNS_currとSNS_newとが同一である場合には（ステップＳ５７のＹＥＳルート参照）、処理はステップＳ６３へ進む。

一方、SNS_currとSNS_newとが同一でない場合には（ステップＳ５７のＮＯルート参照）、管理装置１０４は、追加集合SNS_addにSNS_new -SNS_currの値を設定する（ステップＳ５８）。

管理装置１０４は、削除集合SNS_dellにSNS_curr- SNS_new の値を設定する（ステップＳ５９）。

管理装置１０４は、追加集合SNS_addの値に基づき、新規ノードを確保する（ステップＳ６０）。

管理装置１０４は、SNS_currとSNS_newとでジョイントコンセンサスを行う（ステップＳ６１）。

管理装置１０４は、削除集合SNS_dellの値に基づき、不要ノードを解放する（ステップＳ６２）。

管理装置１０４は、リーダ見直し処理を実行する（ステップＳ６３）。そして、拠点変更リクエストに伴うリーダ見直し処理は終了する。

〔Ｂ〕効果
上述した実施形態の一例における情報処理装置１０，プログラム及び情報処理方法によれば、例えば、以下の作用効果を奏することができる。

情報処理装置１０は、アクセス経路に１以上のプロキシ１０２を挟んで最も実行されている１以上のクライアント１０３のアクセス情報を収集する。情報処理装置１０は、アクセス情報に基づいて、複数のストレージノード１０１と１以上のプロキシ１０２との間のそれぞれのネットワーク距離とを算出する。情報処理装置１０は、ネットワーク距離に基づき、複数のストレージノード１０１の中から、最もアクセス頻度が高いプロキシ１０２に近いストレージノード１０１をリーダとして決定する。

これにより、分散データストアの性能を向上できる。具体的には、クライアント１０３からの読み書き処理速度やスループット、レイテンシを向上できる。

アクセス情報は、ネットワーク距離を算出するための、複数のストレージノード１０１と１以上のプロキシ１０２との間における静的なパラメータ及び動的なパラメータを含んでよい。これにより、リーダの決定をネットワーク距離に基づいて正確に実施できる。

情報処理装置１０は、クライアント１０３によってアクセス性能値が要件を満たさないと判定された場合に、リーダを決定してよい。また、情報処理装置１０は、クライアント１０３によって複数のストレージノード１０１の拠点変更のための要件が満たされると判定された場合に、リーダを決定してよい。これにより、リーダの決定を適切なタイミングで実施できる。

〔Ｃ〕その他
開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成及び各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。

〔Ｄ〕付記
以上の実施形態に関し、更に以下の付記を開示する。

（付記１）
複数のストレージノードと１以上のプロキシと１以上のクライアントとが接続されるネットワークにおいて、
アクセス経路に前記１以上のプロキシを挟んで最も実行されている前記１以上のクライアントのアクセス情報を収集し、
前記アクセス情報に基づいて、前記複数のストレージノードと前記１以上のプロキシとの間のそれぞれのネットワーク距離とを算出し、
前記ネットワーク距離に基づき、前記複数のストレージノードの中から、最もアクセス頻度が高いプロキシに近いストレージノードをリーダとして決定する、
プロセッサを備える、情報処理装置。

（付記２）
前記アクセス情報は、前記ネットワーク距離を算出するための、前記複数のストレージノードと前記１以上のプロキシとの間における静的なパラメータ及び動的なパラメータを含む、
付記１に記載の情報処理装置。

（付記３）
前記プロセッサは、前記クライアントによってアクセス性能値が要件を満たさないと判定された場合に、前記リーダを決定する、
付記１又は２に記載の情報処理装置。

（付記４）
前記プロセッサは、前記クライアントによって前記複数のストレージノードの拠点変更のための要件が満たされると判定された場合に、前記リーダを決定する、
付記１～３のいずれか一項に記載の情報処理装置。

（付記５）
複数のストレージノードと１以上のプロキシと１以上のクライアントとが接続されるネットワークにおいて、
アクセス経路に前記１以上のプロキシを挟んで最も実行されている前記１以上のクライアントのアクセス情報を収集し、
前記アクセス情報に基づいて、前記複数のストレージノードと前記１以上のプロキシとの間のそれぞれのネットワーク距離とを算出し、
前記ネットワーク距離に基づき、前記複数のストレージノードの中から、最もアクセス頻度が高いプロキシに近いストレージノードをリーダとして決定する、
処理をコンピュータに実行させる、プログラム。

（付記６）
前記アクセス情報は、前記ネットワーク距離を算出するための、前記複数のストレージノードと前記１以上のプロキシとの間における静的なパラメータ及び動的なパラメータを含む、
付記５に記載のプログラム。

（付記７）
前記クライアントによってアクセス性能値が要件を満たさないと判定された場合に、前記リーダを決定する、
処理を前記コンピュータに実行させる、付記５又は６に記載のプログラム。

（付記８）
前記クライアントによって前記複数のストレージノードの拠点変更のための要件が満たされると判定された場合に、前記リーダを決定する、
処理を前記コンピュータに実行させる、付記５～７のいずれか一項に記載のプログラム。

（付記９）
複数のストレージノードと１以上のプロキシと１以上のクライアントとが接続されるネットワークにおいて、
アクセス経路に前記１以上のプロキシを挟んで最も実行されている前記の１以上のクライアントのアクセス情報を収集し、
前記アクセス情報に基づいて、前記複数のストレージノードと前記１以上のプロキシとの間のそれぞれのネットワーク距離とを算出し、
前記ネットワーク距離に基づき、前記複数のストレージノードの中から、最もアクセス頻度が高いプロキシに近いストレージノードをリーダとして決定する、
処理をコンピュータが実行する、情報処理方法。

（付記１０）
前記アクセス情報は、前記ネットワーク距離を算出するための、前記複数のストレージノードと前記１以上のプロキシとの間における静的なパラメータ及び動的なパラメータを含む、
付記９に記載の情報処理方法。

（付記１１）
前記クライアントによってアクセス性能値が要件を満たさないと判定された場合に、前記リーダを決定する、
処理を前記コンピュータが実行する、付記９又は１０に記載の情報処理方法。

（付記１２）
前記クライアントによって前記複数のストレージノードの拠点変更のための要件が満たされると判定された場合に、前記リーダを決定する、
処理を前記コンピュータが実行する、付記９～１１のいずれか一項に記載の情報処理方法。

１：コンピュータ装置
２：ネットワークスイッチ
３：インターネット
１０：情報処理装置
１１：プロセッサ
１２：メモリ
１３：ストレージデバイス
１４：ネットワークデバイス
１５：表示装置
１６：ドライブ装置
１００：分散データストアシステム
１０１：ストレージノード
１０２：プロキシ
１０３：クライアント
１０４：管理装置

Claims

複数のストレージノードと１以上のプロキシと１以上のクライアントとが接続されるネットワークにおいて、
アクセス経路に前記１以上のプロキシを挟んで最も実行されている前記１以上のクライアントのアクセス情報を収集し、
前記アクセス情報に基づいて、前記複数のストレージノードと前記１以上のプロキシとの間のそれぞれのネットワーク距離とを算出し、
前記ネットワーク距離に基づき、前記複数のストレージノードの中から、最もアクセス頻度が高いプロキシに近いストレージノードをリーダとして決定する、
プロセッサを備える、情報処理装置。
前記アクセス情報は、前記ネットワーク距離を算出するための、前記複数のストレージノードと前記１以上のプロキシとの間における静的なパラメータ及び動的なパラメータを含む、
請求項１に記載の情報処理装置。
前記プロセッサは、前記クライアントによってアクセス性能値が要件を満たさないと判定された場合に、前記リーダを決定する、
請求項１又は２に記載の情報処理装置。
前記プロセッサは、前記クライアントによって前記複数のストレージノードの拠点変更のための要件が満たされると判定された場合に、前記リーダを決定する、
請求項１～３のいずれか一項に記載の情報処理装置。
複数のストレージノードと１以上のプロキシと１以上のクライアントとが接続されるネットワークにおいて、
アクセス経路に前記１以上のプロキシを挟んで最も実行されている前記１以上のクライアントのアクセス情報を収集し、
前記アクセス情報に基づいて、前記複数のストレージノードと前記１以上のプロキシとの間のそれぞれのネットワーク距離とを算出し、
前記ネットワーク距離に基づき、前記複数のストレージノードの中から、最もアクセス頻度が高いプロキシに近いストレージノードをリーダとして決定する、
処理をコンピュータに実行させる、プログラム。
複数のストレージノードと１以上のプロキシと１以上のクライアントとが接続されるネットワークにおいて、
アクセス経路に前記１以上のプロキシを挟んで最も実行されている前記１以上のクライアントのアクセス情報を収集し、
前記アクセス情報に基づいて、前記複数のストレージノードと前記１以上のプロキシとの間のそれぞれのネットワーク距離とを算出し、
前記ネットワーク距離に基づき、前記複数のストレージノードの中から、最もアクセス頻度が高いプロキシに近いストレージノードをリーダとして決定する、
処理をコンピュータが実行する、情報処理方法。