JP7034806B2 - 分散ストレージネットワークにおけるデータ経路モニタリング - Google Patents
分散ストレージネットワークにおけるデータ経路モニタリング Download PDFInfo
- Publication number
- JP7034806B2 JP7034806B2 JP2018070718A JP2018070718A JP7034806B2 JP 7034806 B2 JP7034806 B2 JP 7034806B2 JP 2018070718 A JP2018070718 A JP 2018070718A JP 2018070718 A JP2018070718 A JP 2018070718A JP 7034806 B2 JP7034806 B2 JP 7034806B2
- Authority
- JP
- Japan
- Prior art keywords
- host
- storage
- storage node
- message
- network interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003860 storage Methods 0.000 title claims description 426
- 238000012544 monitoring process Methods 0.000 title description 4
- 238000012360 testing method Methods 0.000 claims description 72
- 238000000034 method Methods 0.000 claims description 59
- 230000004044 response Effects 0.000 claims description 48
- 238000007667 floating Methods 0.000 claims description 24
- 230000008859 change Effects 0.000 claims description 4
- 230000001960 triggered effect Effects 0.000 claims 1
- 238000007726 management method Methods 0.000 description 100
- 230000008569 process Effects 0.000 description 30
- 238000004891 communication Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 11
- 230000003862 health status Effects 0.000 description 11
- 230000002776 aggregation Effects 0.000 description 6
- 238000004220 aggregation Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000002085 persistent effect Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 239000007787 solid Substances 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 150000003839 salts Chemical class 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000010076 replication Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000005201 scrubbing Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0811—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0604—Improving or facilitating administration, e.g. storage management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/061—Improving I/O performance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/061—Improving I/O performance
- G06F3/0611—Improving I/O performance in relation to response time
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0614—Improving the reliability of storage systems
- G06F3/0617—Improving the reliability of storage systems in relation to availability
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
- G06F3/0635—Configuration or reconfiguration of storage systems by changing the path, e.g. traffic rerouting, path reconfiguration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q3/00—Selecting arrangements
- H04Q3/0016—Arrangements providing connection between exchanges
- H04Q3/0062—Provisions for network management
- H04Q3/0087—Network testing or monitoring arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0852—Delays
- H04L43/0864—Round trip delays
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Debugging And Monitoring (AREA)
Description
本出願は、2017年4月3日に出願された米国仮特許出願第62/481,098号の合衆国法典第35編第119条(e)に基づく利益を主張するものであり、この文献の内容はその全体が本明細書に完全に記載されているかのように全ての目的で引用により本明細書に組み入れられる。
本明細書では、1又は2以上のホストマシンと、ストレージノードに付属する1又は2以上のネットワークインターフェイスとの間の接続経路をモニタしてその接続性情報を送信する技術について説明する。1つの実施形態によれば、特定のストレージノードが、複数の付属するネットワークインターフェイスを含む。特定のストレージノードは、特定のストレージノードに付属する複数のネットワークインターフェイスのうちのいずれか1つを通じて1又は2以上のホストマシンがアクセスできる1又は2以上の記憶装置に動作可能に結合される。ネットワークインターフェイスの各々は、1又は2以上のホストマシンの各々にメッセージを送信する。特定のストレージノードは、1又は2以上のホストマシンのうちの少なくとも1つのホストマシンからのメッセージも受け取る。特定のストレージノードは、ホストマシンとの間で送受信されるメッセージを用いて接続性情報を判定する。接続性情報は、複数のネットワークインターフェイスの各ネットワークインターフェイスと各ホストマシンとの間の接続性に基づく。ストレージノードは、ホストマシンが接続性情報に基づいて選択したターゲットネットワークインターフェイスにおいて、データを記憶するための要求、或いは1又は2以上の記憶装置に記憶されている記憶データを検索するための要求をホストマシンから受け取る。
分散ストレージシステムネットワークは、以下に限定するわけではないが、1又は2以上のホストマシン、ネットワークスイッチ及び1又は2以上のストレージ管理サーバを含む、通信可能に結合されたコンピュータ装置で構成される。1又は2以上のストレージ管理サーバは、1又は2以上のストレージコントローラ及びストレージプールを含むことができる。図1に、ネットワークスイッチを介してホストマシンに接続されたストレージコントローラを含む分散ストレージシステムのネットワーク構成の実施形態例を示す。図1に示す実施形態では、ホストマシン102、104及び106が、ストレージプール160内にデータを記憶するように構成された1又は2以上のアプリケーション及び/又は1又は2以上のオペレーティングシステムを実装するように構成されたコンピュータ装置を表す。ホストマシン102、104及び106の各々は、冗長リンクを介してネットワークスイッチ110及び112に通信可能に結合される。ある実施形態では、ホストマシン102、104及び106の各々が、多経路ネットワークルーティングを目的としてネットワークスイッチ110及び112に接続された2又は3以上のネットワークインターフェイスを備える。ある実施形態では、2又は3以上のネットワークインターフェイスを、同じ物理アドレスを共有していずれかの所与の時点で2又は3以上のネットワークインターフェイスのうちの1つのみが作動中となるように結合することができる。別の実施形態では、ホストマシン102、104及び106内のネットワークインターフェイスを、各ネットワークインターフェイスへの異なるIPアドレスの割り当てを可能にする一意の物理アドレスを有する別個の物理装置として構成することができる。
本明細書では、ホストマシン102~106と、ストレージコントローラ122~124と、ストレージプール160との間の使用可能な接続経路を判定するために使用できる、ホストマシン102~106とネットワークインターフェイス132~138との間の接続性状態をストレージコントローラが判定する技術について説明する。図2に、接続性情報を判定し、ホストマシンとストレージコントローラとの間の接続状態の接続性マップを生成し、接続性状態情報をホストマシンに送信する実施形態例を示す。
ある実施形態では、ストレージコントローラ122及び124がテストメッセージを生成し、ネットワークインターフェイス132~138の各々からホストマシン102、104及び106に送信する。例えば、テストメッセージが生成され、ネットワークインターフェイス132~138からホストマシン102、104及び106の各々に送信される。ある実施形態では、ホストマシン102、104及び106を、それぞれが別個のIPアドレスを有するように構成された複数の結合されていないネットワークインターフェイスを含むように構成することができる。ホストマシン102、104及び106上の複数の結合されていないネットワークインターフェイスの各々は、ネットワークインターフェイス132~138からテストメッセージを受け取るように構成される。
ある実施形態では、ストレージコントローラ122及び124を、ネットワークインターフェイス132~138における応答メッセージの受信時に、送信したテストメッセージと受信した応答メッセージとに関連する情報をストレージ管理サーバ120に記憶するように構成することができる。ストレージ管理サーバ120は、ストレージコントローラ122及び124に付属するネットワークインターフェイス132~138から送信したテスメッセージの接続性指標と、これらのネットワークインターフェイスが受信した応答メッセージの接続性指標とを記憶するように構成されたローカルメモリを含むことができる。別の実施形態では、ストレージ管理サーバ120を、接続性指標をストレージプール130内のリモート位置に記憶するように構成することができる。
ある実施形態では、ストレージ管理サーバ120が、接続性マップ内の接続性状態情報を用いて、ストレージコントローラ122及び124の能動的役割及び受動的役割を決定するように構成される。ストレージコントローラの能動的役割とは、特定のストレージコントローラを、ホストマシンから受け取ったデータ要求を処理してストレージプール160内の適切な宛先にルーティングするストレージコントローラとして指定することを意味する。ストレージコントローラの受動的役割とは、特定のストレージコントローラを、能動的ストレージコントローラのバックアップとしての役割を果たすストレージコントローラとして指定することを意味する。受動的ストレージコントローラは、能動的ストレージコントローラに障害が起きた場合に利用することができる。例えば、ストレージ管理サーバ120は、どのネットワークインターフェイスが作動中の接続経路を有しているかに基づいてストレージコントローラの能動的役割と受動的役割とを決定することができる。図4を参照すると、ストレージ管理サーバ120、410及び420上のストレージコントローラとホストマシン102、104及び106との間の接続性状態情報を用いて、どのストレージコントローラを能動的にし、どのストレージコントローラを受動的にすべきかを決定することができる。例えば、ストレージ管理サーバ120は、ストレージ管理サーバ120内のどのストレージコントローラによってストレージ管理サーバ間の接続性がより良好になるかに基づいて、ストレージコントローラ122を能動的コントローラとして割り当て、ストレージコントローラ124を受動的コントローラとして割り当てることができる。また、能動的/受動的フェイルオーバは、ストレージコントローラ122及び124と、ホストマシン102、104及び106との間のホスト接続性に基づくこともできる。接続性状態情報の決定は、接続性マップに記載される接続経路に基づくことができる。
ある実施形態では、ストレージコントローラ122及び124に付属するネットワークインターフェイス132~138の各々にIPアドレスが割り当てられる。これらのIPアドレスは、ホストマシンがストレージコントローラと通信するために使用する。ある実施形態では、ストレージ管理サーバ120が、ネットワークインターフェイスのうちの1つにさらなるIPアドレスを割り当てるように構成される。このさらなるIPアドレスは、ネットワークインターフェイスのうちのいずれか1つにいつでも割り当てることができるフローティングIPアドレスである。フローティングIPアドレスは、ネットワークインターフェイスなどの物理位置に割り当てた後に異なるネットワークインターフェイスなどの異なる物理位置にいつでも割り当て直すことができる仮想IPアドレスである。ある実施形態では、ストレージ管理サーバ120が、接続性マップ305からの接続性情報に基づいて、ネットワークインターフェイス132~138のうちの1つにフローティングIPアドレスを割り当てるように構成される。ストレージ管理サーバ120は、接続性マップにアクセスして、ホストマシンへの最も利用可能性の高い接続経路にどのネットワークインターフェイスが関連するかを判断することができる。例えば、ストレージ管理サーバ120は、接続性マップ305を参照して、ネットワークインターフェイス134からホストマシン102~106への接続経路が全て作動中であるため、ネットワークインターフェイス134にフローティングIPアドレスを割り当てるべきであると判断することができる。ストレージ管理サーバ120は、ネットワークインターフェイスと接続性マップ305とに関連する他の接続特性を用いて、フローティングIPアドレスをどこに割り当てるべきであるかを判断することもできる。また、ストレージ管理サーバ120は、現在能動的である特定のストレージコントローラに付属するネットワークインターフェイスにフローティングIPアドレスを割り当てることもできる。能動的として指定されたストレージコントローラは、接続経路の利用可能性が高いストレージコントローラである可能性が高いので、ストレージ管理サーバ120は、能動的ストレージコントローラ上のネットワークインターフェイスのうちの1つにフローティングIPアドレスを割り当てるように構成することができる。例えば、ストレージ管理サーバ120は、最初に能動的ストレージコントローラをストレージコントローラ122として決定することができる。次に、ストレージ管理サーバ120は、接続性が良好な方のネットワークインターフェイス(ネットワークインターフェイス132又は134のいずれか)にフローティングIPアドレスを割り当てると決定することができる。ストレージ管理サーバ120は、能動的ストレージコントローラを割り当て直すべきであると判断した場合、ストレージコントローラ124に能動的役割を割り当てた後に、接続性情報に基づいて、ストレージコントローラ124に付属するネットワークインターフェイスの一方(ネットワークインターフェイス136又は138のいずれか)にフローティングIPアドレスを割り当て直す。
ある実施形態では、ストレージ管理サーバ120が、フローティングIPアドレスが割り当てられた特定のネットワークインターフェイスに関連する接続状態インターフェイスを開始するように構成される。接続状態インターフェイスは、ホストマシン及びネットワーク内の他の装置から接続性状態クエリを受け取って、クエリを送信したホストマシン又は他の装置に関連する接続経路情報を照会するようにプログラムされる。
ある実施形態では、接続状態インターフェイスを、接続性マップ305を定期的に照会して、停止中であることが分かっている接続経路の組を特定するように構成することができる。例えば、現在ネットワークインターフェイス132が停止中である場合、接続性マップ305は、ホストマシン102~106とネットワークインターフェイス132との間の接続経路が停止中である旨を示す。次に、接続状態インターフェイスは、ネットワークインターフェイスとホストマシンとの間の停止中の接続についての「ブラックリスト」を作成することができる。このブラックリストは、現在停止中であるネットワークインターフェイスとホストマシンのペアのIPアドレスのリストを含むことができる。その後、接続状態インターフェイスを、生成したブラックリストをホストマシン102~106に送信するように構成して、ホストマシン102~106がその接続経路情報のローカルキャッシュを更新できるようにすることができる。
ある実施形態では、ストレージ管理サーバ410及び420内のストレージコントローラを、ホストマシン102~106及び他のストレージコントローラにテストメッセージを送信し、ホストマシン102~106及び他のストレージコントローラから応答メッセージを受け取るように構成することができる。ストレージ管理サーバ410及び420は、応答メッセージを受け取ると、接続性マップ更新メッセージを生成してストレージ管理サーバ120に送信するように構成することができる。接続性マップ更新メッセージは、以下に限定するわけではないが、接続経路に関する接続性状態情報、レイテンシ情報及び接続エラー情報を含む接続性情報と、テストメッセージ及び応答メッセージとを含むことができる。ある実施形態では、ストレージ管理サーバ120を、接続性マップ更新メッセージを受け取り、これに従って接続性マップ305を更新するように構成することができる。
図5に示すDVAの一般的な実施形態に、DVAの2つの主要な物理的「側面」である、(1つを含む)いずれかの数のサーバなどのホスト102と、ホスト側から見れば単一の、ただし分散したストレージシステムを形成できるストレージノード710-1、710-2、...、710-N(まとめて「710」)を含むストレージプール160との間の関係を示す。ホスト102内のエンティティが書き込んだデータは、最初に(NVRAM730として示す)不揮発性メモリに記憶され、最終的にはノード内に位置する永続記憶装置740-1、...、740-N(まとめて「740」)に記憶される。
1つの実施形態によれば、本明細書で説明する技術が、1又は2以上の専用コンピュータ装置によって実装される。この専用コンピュータ装置は、これらの技術を実行するためのハードウェア組み込み型とすることもでき、或いはこれらの技術を実行するように永続的にプログラムされた1又は2以上の特定用途向け集積回路(ASIC)又はフィールドプログラマブルゲートアレイ(FPGA)などのデジタル電子装置を含むこともでき、或いはファームウェア、メモリ、その他の記憶装置、又はこれらの組み合わせに含まれるプログラム命令に従ってこれらの技術を実行するようにプログラムされた1又は2以上の汎用ハードウェアプロセッサを含むこともできる。このような専用コンピュータ装置は、カスタムハードワイヤードロジック、ASIC又はFPGAと、これらの技術を実現するためのカスタムプログラミングとを組み合わせることもできる。この専用コンピュータ装置は、デスクトップコンピュータシステム、ポータブルコンピュータシステム、ハンドヘルド装置、ネットワーク装置、又はこれらの技術を実装するためのハードワイヤードロジック及び/又はプログラムロジックを組み込んだ他のいずれかの装置とすることもできる。
Claims (12)
- 特定のストレージノード上の複数のネットワークインターフェイスの各ネットワークインターフェイスから、複数のホストマシンの各ホストマシンにストレージノードメッセージを送信するステップであって、
前記特定のストレージノードは、前記複数のネットワークインターフェイスのうちのいずれか1つに接続性を有する各ホストマシンからアクセス可能な1又は2以上の記憶装置に動作可能に結合されており、
前記複数のネットワークインターフェイスは、前記特定のストレージノードの特定のストレージコントローラの少なくとも2つのネットワークインターフェイスを含む、ステップと、
前記ストレージノードメッセージに応答して、前記特定のストレージノードが、前記複数のホストマシンのうちの少なくとも1つのホストマシンからホストメッセージを受け取るステップと、
前記特定のストレージノードが、前記複数のネットワークインターフェイスの各ネットワークインターフェイスから送信された前記ストレージノードメッセージと、前記少なくとも1つのホストマシンから受け取った前記ホストメッセージとに基づいて、前記複数のネットワークインターフェイスの各ネットワークインターフェイスと前記複数のホストマシンの各ホストマシンとの間の、ネットワークインターフェイスとホストマシンとの接続性情報を判定するステップと、
前記特定のストレージノードが、前記複数のネットワークインターフェイスの各ネットワークインターフェイスから送信された前記ストレージノードメッセージと、前記少なくとも1つのホストマシンから受け取った前記ホストメッセージとから判定された、前記ネットワークインターフェイスとホストマシンとの接続性情報を含む接続性マップを生成するステップであって、
前記ネットワークインターフェイスとホストマシンとの接続性情報は、前記複数のネットワークインターフェイスのうちの特定のネットワークインターフェイスと前記複数のホストマシンのうちの特定のホストマシンとの間の接続性が、前記特定のホストマシンからホストメッセージが受け取られることなく前記特定のネットワークインターフェイスから前記特定のホストマシンに特定の数のストレージノードメッセージが送信された場合、停止中である旨を示し、
前記ネットワークインターフェイスとホストマシンとの接続性情報は、前記複数のネットワークインターフェイスの各ネットワークインターフェイスと前記複数のホストマシンの各ホストマシンとの間のレイテンシ情報を含み、前記レイテンシ情報は特定のストレージノードメッセージの送信と前記特定のストレージノードメッセージへの応答として特定のホストメッセージの受信との間の期間に基づいている、ステップと、
前記特定のストレージノードが、前記複数のホストマシンのうちの特定のホストマシンから接続性状態要求を受け取るステップであって、
前記接続性状態要求に応答して、前記特定のストレージノードは前記複数のネットワークインターフェイスの各ネットワークインターフェイスと前記複数のホストマシンの各ホストマシンとの間のネットワークインターフェイスとホストマシンとの接続性情報を、前記特定のホストマシンに提供し、
前記特定のストレージノードから受け取った前記ネットワークインターフェイスとホストマシンとの接続性情報に基づいて、前記特定のホストマシンは、データを求める要求を前記特定のストレージノードに送信するために、前記複数のネットワークインターフェイスのうちのターゲットネットワークインターフェイスを選択する、ステップと、
前記特定のホストマシンが、前記データを求める要求を前記選択されたターゲットネットワークインターフェイスに送信するステップと、
前記複数のネットワークインターフェイスのうちのターゲットネットワークインターフェイスにおいて、前記1又は2以上の記憶装置に記憶されている前記データを求める要求を受け取るステップと、
を含む、
ことを特徴とする方法。 - 前記複数のホストマシンは、各々がホストメッセージの送信とストレージノードメッセージの受信とを行うことができる複数のホストネットワークインターフェイスを含む、
請求項1に記載の方法。 - 前記特定のストレージノードが、特定の時間にわたって、特定の数のストレージノードメッセージを送信してホストメッセージ応答を受信しないことに基づいて停止していると判定されたネットワークインターフェイスとホストマシンとのペアの組を含む、ネットワークインターフェイスとホストマシンとのペアの停止中の接続経路についてのブラックリストを生成するステップと、
前記特定のストレージノードが、前記停止中の接続経路についてのブラックリストを前記複数のホストマシンに送信するステップと、
をさらに含む、請求項1に記載の方法。 - 前記特定のストレージノードが、特定の時間にわたって、特定の数のストレージノードメッセージを送信してそれに対するホストメッセージ応答を受信することに基づいて作動していると判定されたネットワークインターフェイスとホストマシンとのペアの組を含む、ネットワークインターフェイスとホストマシンとのペアの作動中の接続経路についてのホワイトリストを生成するステップと、
前記特定のストレージノードが、前記作動中の接続経路についてのホワイトリストを前記複数のホストマシンに送信するステップと、
をさらに含む、請求項1に記載の方法。 - 前記ストレージノードメッセージは、前記複数のホストマシンの各ホストマシンと前記複数のネットワークインターフェイスの各ネットワークインターフェイスとの間の接続経路の到達可能性と品質を判定するために使用される第1のタイプのテストメッセージと、前記複数のホストマシンの各ホストマシンと前記複数のネットワークインターフェイスの各ネットワークインターフェイスとの間の接続経路の到達可能性及びラウンドトリップ時間を判定するために使用される第2のタイプのテストメッセージとを含み、
前記第1のタイプのテストメッセージは、前記複数のホストマシンに第1の閾値回数だけ送信されるようにスケジュールされ、前記第2のタイプのテストメッセージは、前記複数のホストマシンに第2の閾値回数だけ送信されるようにスケジュールされ、
前記第1のタイプのテストメッセージは、前記第2のタイプのテストメッセージと比較して大きい、請求項1に記載の方法。 - 前記特定のストレージノードが、前記特定のネットワークインターフェイス内の関連する物理アドレスにフローティングIPアドレスを関連付けるステップと、
前記特定のホストマシンから前記接続性状態要求を、前記フローティングIPアドレスに関連付けられた前記特定のネットワークインターフェイスにおいて受け取るステップと、
をさらに含む、請求項3に記載の方法。 - 前記特定のストレージノードは、複数のストレージノードのうちの第1のストレージノードであり、前記複数のネットワークインターフェイスは、第1の複数のネットワークインターフェイスであり、
第2のストレージノード上の第2の複数のネットワークインターフェイスの各ネットワークインターフェイスから前記複数のホストマシンの各ホストマシンにさらなるストレージノードメッセージを送信するステップを含み、
前記第2のストレージノードは、前記第2の複数のネットワークインターフェイスのうちのいずれか1つを通じて前記複数のホストマシンがアクセスできる前記1又は2以上の記憶装置に動作可能に結合されており、
前記第2のストレージノードが、前記複数のホストマシンのうちの少なくとも1つのホストマシンから第2のホストメッセージを受け取るステップと、
前記第2のストレージノードが、前記第2の複数のネットワークインターフェイスの各ネットワークインターフェイスから送信された前記ストレージノードメッセージと、前記少なくとも1つのホストマシンから受け取った前記第2のホストメッセージとに基づいて、前記第2の複数のネットワークインターフェイスの各ネットワークインターフェイスと前記複数のホストマシンの各ホストマシンとの間の接続性に関する情報を含めるように前記接続性マップを更新するための接続性マップ更新メッセージを生成するステップと、
をさらに含む、請求項1に記載の方法。 - 前記特定のストレージノードが、前記接続性マップ内の前記ネットワークインターフェイスとホストマシンとの接続性情報に基づいて接続状態正常性レポートを生成するステップをさらに含む、請求項1に記載の方法。
- 前記接続状態正常性レポートを生成するステップは、状態を変化させる接続経路の閾値数によってトリガされ、
各接続経路は、前記複数のネットワークインターフェイスの特定のネットワークインターフェイスと前記複数のホストマシンの特定のホストマシンとの間にある、請求項8に記載の方法。 - 前記特定のストレージノード上の前記複数のネットワークインターフェイスの各ネットワークインターフェイスから複数のストレージノードにさらなるストレージノードメッセージを送信するステップをさらに含み、
前記複数のストレージノードは、前記複数のホストマシンが前記複数のストレージノードのうちのいずれか1つに付属するいずれかのネットワークインターフェイスを通じてアクセスできる前記1又は2以上の記憶装置に動作可能に結合されており、
前記特定のストレージノードが、前記複数のストレージノードのうちの少なくとも1つのストレージノードから応答メッセージを受け取るステップと、
前記特定のストレージノードが、前記複数のネットワークインターフェイスの各ネットワークインターフェイスから送信された前記さらなるストレージノードメッセージと、前記複数のストレージノードのうちの前記少なくとも1つのストレージノードから受け取った前記応答メッセージとに基づいて、前記複数のネットワークインターフェイスの各ネットワークインターフェイスと前記複数のストレージノードに付属する前記ネットワークインターフェイスの各々との間の接続性に関する情報を含めるように前記接続性マップを更新するステップと、
をさらに含む、請求項1に記載の方法。 - 命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は、実行時に請求項1から10のいずれか1項に記載の方法の実行を引き起こす、
ことを特徴とする非一時的コンピュータ可読媒体。 - 1又は2以上のプロセッサと、メモリと、1又は2以上の記憶装置とを備えたコンピュータシステムであって、前記1又は2以上のプロセッサは、前記メモリ内の命令を実行して、前記コンピュータシステムに請求項1から10のいずれか1項に記載の方法を実行させるように構成される、
ことを特徴とするコンピュータシステム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762481098P | 2017-04-03 | 2017-04-03 | |
US62/481,098 | 2017-04-03 | ||
US15/616,791 US10554520B2 (en) | 2017-04-03 | 2017-06-07 | Data path monitoring in a distributed storage network |
US15/616,791 | 2017-06-07 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2018181325A JP2018181325A (ja) | 2018-11-15 |
JP2018181325A5 JP2018181325A5 (ja) | 2021-07-26 |
JP7034806B2 true JP7034806B2 (ja) | 2022-03-14 |
Family
ID=62017157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018070718A Active JP7034806B2 (ja) | 2017-04-03 | 2018-04-02 | 分散ストレージネットワークにおけるデータ経路モニタリング |
Country Status (3)
Country | Link |
---|---|
US (1) | US10554520B2 (ja) |
EP (1) | EP3385833B1 (ja) |
JP (1) | JP7034806B2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11301487B1 (en) * | 2017-07-21 | 2022-04-12 | EMC IP Holding Company LLC | Automated server discovery |
US11012331B1 (en) * | 2017-12-14 | 2021-05-18 | West Corporation | Network monitoring to perform fault isolation |
US10855587B2 (en) * | 2018-10-19 | 2020-12-01 | Oracle International Corporation | Client connection failover |
WO2021012179A1 (zh) * | 2019-07-23 | 2021-01-28 | 华为技术有限公司 | 存储系统中实现存储业务连续性的方法、前端接口卡和存储系统 |
CN110740167A (zh) * | 2019-09-20 | 2020-01-31 | 北京浪潮数据技术有限公司 | 一种分布式存储系统及其节点监控方法 |
US11099827B2 (en) * | 2019-10-15 | 2021-08-24 | Dell Products L.P. | Networking-device-based hyper-coverged infrastructure edge controller system |
CN111399766B (zh) * | 2020-01-08 | 2021-10-22 | 华为技术有限公司 | 存储系统中的数据存储方法、数据读取方法、装置及系统 |
US11438237B1 (en) * | 2020-01-21 | 2022-09-06 | Vmware, Inc. | Systems and methods for determining physical links between network devices |
US11558220B2 (en) * | 2020-06-15 | 2023-01-17 | Vmware, Inc. | Uplink-aware monitoring of logical overlay tunnels |
US11706298B2 (en) * | 2021-01-21 | 2023-07-18 | Cohesity, Inc. | Multichannel virtual internet protocol address affinity |
KR102645033B1 (ko) * | 2021-04-30 | 2024-03-07 | 계명대학교 산학협력단 | 데이터 분산 저장 방법 및 상기 방법을 수행하는 컴퓨팅 장치 |
US11394781B1 (en) * | 2021-06-01 | 2022-07-19 | Lenovo (Singapore) Pte. Ltd. | Servicing storage requests using an optimal path in a composite cloud environment |
EP4283457A3 (en) * | 2022-05-23 | 2024-02-07 | Samsung Electronics Co., Ltd. | Computing system for managing distributed storage devices, and method of operating the same |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002278909A (ja) | 2001-03-19 | 2002-09-27 | Toshiba Corp | 管理パス切り替え方法及び管理パス切り替えが可能な高可用性ストレージシステム |
JP2005010956A (ja) | 2003-06-17 | 2005-01-13 | Hitachi Ltd | 情報処理装置の制御方法、情報処理装置、情報処理システム、及びプログラム |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6173411B1 (en) * | 1997-10-21 | 2001-01-09 | The Foxboro Company | Method and system for fault-tolerant network connection switchover |
US6392990B1 (en) * | 1999-07-23 | 2002-05-21 | Glenayre Electronics, Inc. | Method for implementing interface redundancy in a computer network |
US6732186B1 (en) * | 2000-06-02 | 2004-05-04 | Sun Microsystems, Inc. | High availability networking with quad trunking failover |
JP3848587B2 (ja) | 2002-03-15 | 2006-11-22 | 株式会社日立製作所 | 情報処理装置および通信路選択方法 |
US20050259634A1 (en) * | 2004-05-19 | 2005-11-24 | Ross Perry R | Method and apparatus for low-overhead service availability and performance monitoring |
JP2006127201A (ja) * | 2004-10-29 | 2006-05-18 | Hitachi Ltd | ストレージシステムおよび導通確認方法 |
JP2007272357A (ja) | 2006-03-30 | 2007-10-18 | Toshiba Corp | ストレージクラスタシステム、データ処理方法、及びプログラム |
JP4353208B2 (ja) | 2006-06-27 | 2009-10-28 | 日本電気株式会社 | ストレージサブシステム、ストレージシステム、負荷分散方法、負荷分散プログラム |
US7761629B2 (en) * | 2007-06-04 | 2010-07-20 | International Business Machines Corporation | Method for using host and storage controller port information to configure paths between a host and storage controller |
US8675502B2 (en) * | 2008-01-30 | 2014-03-18 | Cisco Technology, Inc. | Relative one-way delay measurements over multiple paths between devices |
US8838850B2 (en) | 2008-11-17 | 2014-09-16 | Violin Memory, Inc. | Cluster control protocol |
US20100165849A1 (en) * | 2008-12-29 | 2010-07-01 | Martin Eisenberg | Failure Detection in IP Networks Using Long Packets |
US8122127B2 (en) * | 2009-12-31 | 2012-02-21 | Juniper Networks, Inc. | Automatic aggregation of inter-device ports/links in a virtual device |
US9385917B1 (en) * | 2011-03-31 | 2016-07-05 | Amazon Technologies, Inc. | Monitoring and detecting causes of failures of network paths |
US8520533B1 (en) * | 2011-09-30 | 2013-08-27 | Emc Corporation | Storage path management bus view |
WO2014132954A1 (ja) * | 2013-02-26 | 2014-09-04 | 日本電気株式会社 | 通信システム、制御装置、通信方法及びプログラム |
US9264330B2 (en) * | 2013-10-13 | 2016-02-16 | Nicira, Inc. | Tracing host-originated logical network packets |
US20150293708A1 (en) | 2014-04-11 | 2015-10-15 | Netapp, Inc. | Connectivity-Aware Storage Controller Load Balancing |
CN105306284A (zh) * | 2014-05-27 | 2016-02-03 | 中兴通讯股份有限公司 | 检测虚拟专用网络的用户网络侧接口连通性的方法及装置 |
CN104301184B (zh) * | 2014-10-31 | 2017-10-27 | 北京百度网讯科技有限公司 | 链路的健康检查方法和装置 |
US10432545B2 (en) * | 2015-12-28 | 2019-10-01 | Juniper Networks, Inc. | Apparatus, system, and method for timely detection of increases in the maximum transmission unit of paths within networks |
US10652126B2 (en) * | 2016-02-26 | 2020-05-12 | Arista Networks, Inc. | System and method of a cloud service provider tracer |
US10574741B2 (en) * | 2016-04-18 | 2020-02-25 | Nokia Technologies Oy | Multi-level load balancing |
US10116544B2 (en) * | 2016-06-21 | 2018-10-30 | Juniper Networks, Inc. | Extended ping protocol for determining status for remote interfaces without requiring network reachability |
US10122651B2 (en) * | 2016-08-31 | 2018-11-06 | Inspeed Networks, Inc. | Dynamic bandwidth control |
US10917324B2 (en) * | 2016-09-28 | 2021-02-09 | Amazon Technologies, Inc. | Network health data aggregation service |
US10728108B2 (en) * | 2016-10-31 | 2020-07-28 | Nicira, Inc. | Network health checker |
US10257237B2 (en) * | 2016-12-21 | 2019-04-09 | Netapp, Inc. | Recovering from and avoiding network connectivity loss |
-
2017
- 2017-06-07 US US15/616,791 patent/US10554520B2/en active Active
-
2018
- 2018-04-02 EP EP18165363.5A patent/EP3385833B1/en active Active
- 2018-04-02 JP JP2018070718A patent/JP7034806B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002278909A (ja) | 2001-03-19 | 2002-09-27 | Toshiba Corp | 管理パス切り替え方法及び管理パス切り替えが可能な高可用性ストレージシステム |
JP2005010956A (ja) | 2003-06-17 | 2005-01-13 | Hitachi Ltd | 情報処理装置の制御方法、情報処理装置、情報処理システム、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3385833B1 (en) | 2021-12-08 |
JP2018181325A (ja) | 2018-11-15 |
EP3385833A1 (en) | 2018-10-10 |
US20180287912A1 (en) | 2018-10-04 |
US10554520B2 (en) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7034806B2 (ja) | 分散ストレージネットワークにおけるデータ経路モニタリング | |
US11301144B2 (en) | Data storage system | |
CN114341792B (zh) | 存储集群之间的数据分区切换 | |
US11086740B2 (en) | Maintaining storage array online | |
US20220171544A1 (en) | Enabling data integrity checking and faster application recovery in synchronous replicated datasets | |
US10877940B2 (en) | Data storage with a distributed virtual array | |
US10949309B2 (en) | Snapshot creation with synchronous replication | |
JP6073246B2 (ja) | 大規模記憶システム | |
US9652326B1 (en) | Instance migration for rapid recovery from correlated failures | |
US9830088B2 (en) | Optimized read access to shared data via monitoring of mirroring operations | |
US20190235777A1 (en) | Redundant storage system | |
US10853210B2 (en) | Storage device health status synchronization | |
JP2010191958A (ja) | 論理ボリューム管理の為の方法と装置 | |
JP6965184B2 (ja) | データを暗号化するための分散データ方法 | |
US9781201B2 (en) | Multicast transport | |
US20220391359A1 (en) | Distributed File System that Provides Scalability and Resiliency | |
US20230121460A1 (en) | Dynamically scaling application and storage system functions based on a heterogeneous resource pool available for use by a distributed storage management system | |
US9720789B2 (en) | Multicast transport configuration | |
US9639431B2 (en) | Fault policy implementation | |
US10133505B1 (en) | Cooperative host and data storage system services for compression and encryption | |
US20200174683A1 (en) | Method and system for delivering message in storage system | |
US8108580B1 (en) | Low latency synchronous replication using an N-way router | |
US20220391361A1 (en) | Distributed File System with Reduced Write and Read Latencies | |
US11386049B1 (en) | Synchronous replication end to end latency reporting | |
US11971902B1 (en) | Data retrieval latency management system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180417 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20210319 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210330 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210330 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210330 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210811 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220131 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220302 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7034806 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |