JP2011053932A - Storage system, data storage method, and program - Google Patents

Storage system, data storage method, and program Download PDF

Info

Publication number
JP2011053932A
JP2011053932A JP2009202543A JP2009202543A JP2011053932A JP 2011053932 A JP2011053932 A JP 2011053932A JP 2009202543 A JP2009202543 A JP 2009202543A JP 2009202543 A JP2009202543 A JP 2009202543A JP 2011053932 A JP2011053932 A JP 2011053932A
Authority
JP
Japan
Prior art keywords
data
management
unit
storage
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009202543A
Other languages
Japanese (ja)
Other versions
JP5278254B2 (en
Inventor
Masaru Kobayashi
大 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009202543A priority Critical patent/JP5278254B2/en
Publication of JP2011053932A publication Critical patent/JP2011053932A/en
Application granted granted Critical
Publication of JP5278254B2 publication Critical patent/JP5278254B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To improve system performance and resource usage efficiency in a storage system. <P>SOLUTION: A storage node includes a data storage device, in which a plurality of data sets are stored, and a data management device having data management parts which correspond to the plurality of data sets, respectively. The data management parts are provided with: data management system execution parts which achieve a data arrangement-managing function, which searches data included in the corresponding data sets, and a data exclusion-controlling function, which retrieves stops access to the data included in the corresponding data sets, on the basis of any of a plurality of data management systems; and system-changing parts which change the data management systems in the data management system execution parts from a first data management systems to a second data management systems among a plurality of data management systems. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、ストレージシステム、データ記憶方法及びプログラムに関し、特に、複数のストレージノードにデータを分散させて格納するストレージシステム、データ記憶方法及びプログラムに関する。   The present invention relates to a storage system, a data storage method, and a program, and more particularly, to a storage system, a data storage method, and a program for distributing and storing data in a plurality of storage nodes.

データを記憶するストレージ装置を備えた計算機(ストレージノード)をネットワークに複数接続した、大容量のストレージシステムが知られている。   A large-capacity storage system is known in which a plurality of computers (storage nodes) including a storage device for storing data are connected to a network.

ストレージシステムでは、分散データ配置管理により、データをいずれのストレージノードに格納するか、及び、ユーザ計算機によるデータの読み出し及び書き込みアクセスをいずれのストレージノードに振り分けるかを管理している。データを格納したいユーザ計算機から送信されたデータは、ストレージシステム中の分散データ配置管理機能により、複数のデータ塊に分割されて複数のストレージノードに格納される。   In the storage system, distributed data arrangement management manages to which storage node data is stored and to which storage node data read / write access by the user computer is distributed. Data transmitted from a user computer that wants to store data is divided into a plurality of data chunks and stored in a plurality of storage nodes by a distributed data arrangement management function in the storage system.

同じネットワークに接続された、データを利用するユーザ計算機は、分散データ配置管理機能を利用し、所望のデータをあらわす識別子から当該データが配置されたストレージノードを特定し、当該ストレージノードからデータを取得する。   User computers connected to the same network and using data use the distributed data placement management function to identify the storage node where the data is placed from the identifier that represents the desired data, and obtain the data from the storage node To do.

非特許文献2に記載された分散データ配置管理機能によると、固定長のデータ塊(チャンク)をストレージノード(GFS(Google File System)チャンクサーバ)に格納する際、分散データ配置管理装置(GFSマスタ)に対し、識別子としてファイル名とチャンクインデックスを送信し、対象となるストレージノードを表すチャンク位置情報を受信する。   According to the distributed data arrangement management function described in Non-Patent Document 2, when storing a fixed-length data chunk (chunk) in a storage node (GFS (Google File System) chunk server), the distributed data arrangement management apparatus (GFS master). The file name and the chunk index are transmitted as identifiers, and the chunk position information representing the target storage node is received.

分散データ配置管理機能の実現方法として、ユーザ計算機から利用可能な場所に集中制御された配置管理機能を設けるアウトオブバンド方式と、各ユーザ計算機に配置管理機能の一部を委譲し、ユーザ計算機が直接記憶部にアクセスする分散テーブル方式が知られている。   As an implementation method of the distributed data placement management function, an out-of-band method in which a placement management function that is centrally controlled in a place where it can be used from a user computer, and a part of the placement management function are delegated to each user computer, the user computer A distributed table system that directly accesses a storage unit is known.

非特許文献2に記載されたアウトオブバウンド方式によると、固定長のデータ塊(チャンク)をストレージノード(GFSチャンクサーバ)に格納する際、ユーザ計算機(GFSクライアント)がネットワークに存在する分散データ配置管理装置(GFSマスタ)にアクセスして格納ストレージノードを決定する。   According to the out-of-bound method described in Non-Patent Document 2, when storing a fixed-length data chunk (chunk) in a storage node (GFS chunk server), a distributed data arrangement in which user computers (GFS clients) exist in the network The storage device is determined by accessing the management device (GFS master).

非特許文献3に記載された分散テーブル方式によると、ユーザ計算機とストレージノードを兼ねるノードに任意長のデータ塊(バリュー)を格納する際、ノード内で、所定のアルゴリズム(Chord)を用いて識別子(キー)からストレージノードが決定される。   According to the distributed table method described in Non-Patent Document 3, when storing a data chunk (value) of an arbitrary length in a node serving as both a user computer and a storage node, an identifier is used using a predetermined algorithm (Chord) within the node. The storage node is determined from (key).

また、特許文献1に、データを分散させるだけでなく、データの冗長化により耐故障性を確保する方法が記載されている。耐故障性とは、所定の台数の記憶装置が故障してデータが読み出し不能となった場合においても、システム全体としてはユーザにデータを提供することができる状態を維持することをいう。非特許文献1には、ブロックストレージのレベルでデータの分散及び冗長化を行う複数の方法(RAID)が記載されている。また、非特許文献2には、データ格納時に分散データ配置管理装置(GFSマスタ)とストレージノード(GFSチャンクサーバ)がお互いに通信し、複数のストレージノードに固定長のデータ塊(チャンク)の複製を配置する冗長化方式が記載されている。   Patent Document 1 describes a method for ensuring fault tolerance by not only distributing data but also making data redundant. Fault tolerance refers to maintaining the state in which data can be provided to the user as a whole system even when a predetermined number of storage devices fail and data cannot be read. Non-Patent Document 1 describes a plurality of methods (RAID) for data distribution and redundancy at the block storage level. In Non-Patent Document 2, a distributed data arrangement management device (GFS master) and a storage node (GFS chunk server) communicate with each other during data storage, and a fixed-length data chunk (chunk) is copied to a plurality of storage nodes. A redundancy method for arranging the above is described.

ストレージシステムを構成するストレージノードの性能は均一でない場合がある。システムを構成するのにかかる費用を削減するために、処理能力、記憶容量、データ転送速度の異なる複数のストレージノードからシステムが構成される場合がある。以下、このようなシステム構成を「ヘテロ構成」という。   The performance of the storage nodes that make up the storage system may not be uniform. In order to reduce the cost of configuring the system, the system may be configured from a plurality of storage nodes having different processing capabilities, storage capacities, and data transfer rates. Hereinafter, such a system configuration is referred to as a “hetero configuration”.

ヘテロ構成に基づくシステムにおいては、少数の高性能なストレージノードを最大限に活用するため、時間とともに変化するデータの利用頻度に応じたデータ再配置が行われる。高い頻度で利用されるデータを高性能なノードに配置することによって、効率よくシステム資源を効率よく利用することができる。   In a system based on a hetero configuration, data relocation is performed according to the frequency of use of data that changes with time in order to make the best use of a small number of high-performance storage nodes. By allocating frequently used data to a high-performance node, system resources can be efficiently used.

また、ユーザ計算機からデータへのアクセスは、ユーザの求める性能とトランザクション性を実現するために、排他制御される。非特許文献5には、トランザクション性のうちの分離性に関して、次数又は分離性レベルという概念を導入し、次数を指定することでお互いの影響を受けることなく複数の処理の結果を求める排他制御方法が記載されている。   In addition, access to data from the user computer is exclusively controlled in order to realize the performance and transactionality required by the user. Non-Patent Document 5 introduces the concept of degree or separability level with respect to separability of transactionality, and an exclusive control method for obtaining results of a plurality of processes without being influenced by each other by specifying the order Is described.

ここで、排他制御方式には、分散型の排他制御方式と集中型の排他制御方式がある。   Here, the exclusive control method includes a distributed exclusive control method and a centralized exclusive control method.

分散型の排他制御方式として、分散データ配置管理機能が分散木構造で構成されている場合には、特許文献2に記載の方法によると、ユーザ計算機の複数のデータ追加アクセスによってデータ配置管理機能が損なわれることを防ぐことができる。   As a distributed exclusive control method, when the distributed data arrangement management function has a distributed tree structure, according to the method described in Patent Document 2, the data arrangement management function is provided by a plurality of additional data accesses of the user computer. It can be prevented from being damaged.

非特許文献4に記載された分散型の排他制御方式によると、各データの一貫性は、これを格納しているストレージノードによって担保され、バージョニング等により求められる単一データアップデートを実現することができる。また、非特許文献6に記載された方法によると、複数のノードが関与して分散ロックサービスを提供することができる。   According to the distributed exclusive control system described in Non-Patent Document 4, the consistency of each data is secured by the storage node storing the data, and a single data update required by versioning or the like can be realized. it can. Further, according to the method described in Non-Patent Document 6, a distributed lock service can be provided by involving a plurality of nodes.

非特許文献7に記載された集中型の排他制御方式によると、キャッシュアンドロック・サービスと呼ぶシステム内で単一の排他制御機能が実現される。非特許文献7において、集中ロック管理の利点として、ロックマネージャの2重化構成が可能であること、デッドロック処理の効率がよいことが指摘されている。   According to the centralized exclusive control system described in Non-Patent Document 7, a single exclusive control function is realized in a system called a cache and lock service. In Non-Patent Document 7, it is pointed out that, as an advantage of the centralized lock management, a double configuration of the lock manager is possible and the efficiency of the deadlock processing is good.

特開平11−085604号公報Japanese Patent Laid-Open No. 11-085604 特開2008−046700号公報JP 2008-046700 A

David A.Patterson, Garth Gibson, and Randy H.Katz, “A case for redundant arrays of inexpensive disks (RAID),” ACM SIGMOD Record , Vol. 17 , No.3, pp. 109 - 116David A. Patterson, Garth Gibson, and Randy H. Katz, “A case for redundant arrays of inexpensive disks (RAID),” ACM SIGMOD Record, Vol. 17, No. 3, pp. 109-116 Sanjay Ghemawat, Howard Gobioff, Shun-Tak Leung, “The Google File System,” SOSP 2003.Sanjay Ghemawat, Howard Gobioff, Shun-Tak Leung, “The Google File System,” SOSP 2003. Frank Dabek, Emma Brunskill, M. Frans Kaashoek, David Karger, Robert Morris, Ion Stoica, and Hari Balakrishnan, “Building Peer-to-Peer Systems With Chord, a Distributed Lookup Service,” Proceedings of the 8th Workshop on Hot Topics in Operating Systems (HotOS-VIII), May 2001.Frank Dabek, Emma Brunskill, M. Frans Kaashoek, David Karger, Robert Morris, Ion Stoica, and Hari Balakrishnan, “Building Peer-to-Peer Systems With Chord, a Distributed Lookup Service,” Proceedings of the 8th Workshop on Hot Topics in Operating Systems (HotOS-VIII), May 2001. Giuseppe DeCandia, Deniz Hastorun, Madan Jampani, Gunavardhan Kakulapati, Avinash Lakshman, Alex Pilchin, Swaminathan Sivasubramanian, Peter Vosshall and Werner Vogels, “Dynamo: Amazon’s Highly Available Key-value Store,” in the Proceedings of the 21st ACM Symposium on Operating Systems Principles, Stevenson, WA, October 2007.Giuseppe DeCandia, Deniz Hastorun, Madan Jampani, Gunavardhan Kakulapati, Avinash Lakshman, Alex Pilchin, Swaminathan Sivasubramanian, Peter Vosshall and Werner Vogels, “Dynamo: Amazon's Highly Available Key-value Store,” in the Proceedings of the 21st ACM Symposium on Principles, Stevenson, WA, October 2007. ジム・グレイ、アンドレアス・ロイター、「トランザクション処理 概念と技法(上/下)」、日経BP社、2001.Jim Gray, Andreas Reuters, “Transaction Processing Concepts and Techniques (Up / Down)”, Nikkei Business Publications, 2001. Mike Burrows, “The Chubby Lock Service for Loosely-Coupled Distributed Systems,” OSDI’06: Seventh Symposium on Operating System Design and Implementation,Seattle, WA, November, 2006.Mike Burrows, “The Chubby Lock Service for Loosely-Coupled Distributed Systems,” OSDI’06: Seventh Symposium on Operating System Design and Implementation, Seattle, WA, November, 2006. 中山陽太郎、「PostgreSQLによる共有ディスク・クラスタPG−CALSの設計と実装」、UNISYS TECHNOLOGY REVIEW、日本ユニシス、No.94、NOV. 2007Yotaro Nakayama, “Design and Implementation of Shared Disk Cluster PG-CALS with PostgreSQL”, UNISYS TECHNOLOGY REVIEW, Nihon Unisys, No.94, NOV. 2007 Leslie Lamport, “The Part-Time Parliament,” ACM Transactions on Computer Systems, Vol. 16, No.2, 133-169, May 1998.Leslie Lamport, “The Part-Time Parliament,” ACM Transactions on Computer Systems, Vol. 16, No.2, 133-169, May 1998.

ストレージシステムは、複数のデータ利用プロセスのそれぞれによってアクセスされるデータを一括して格納する。ここで、各データ利用プロセスによってアクセスされるデータの集合を「データセット」という。すなわち、ストレージシステムは、複数のデータセットを格納する。   The storage system collectively stores data accessed by each of a plurality of data utilization processes. Here, a set of data accessed by each data use process is referred to as a “data set”. That is, the storage system stores a plurality of data sets.

分散型の排他制御方式は、スループットが高いが、分散された機能間のやり取りが大きく、レイテンシが長くなる。したがって、少量のアクセスに対して効率が悪い。一方、集中型の排他制御方式は、少量のアクセスに対しては、高速に処理できるが、大量のアクセスに対しては排他制御機能がボトルネックになり、システム全体の性能が低下する。特に、多数の用途やアクセス量の異なるデータセットを単一のストレージシステムに格納する際、システム全体として同一の排他制御方式を適用すると、用途に合わない排他制御方式を導入することとなる。   The distributed exclusive control method has high throughput, but communication between distributed functions is large and latency is long. Therefore, it is inefficient for a small amount of access. On the other hand, the centralized exclusive control method can process a small amount of access at high speed, but the exclusive control function becomes a bottleneck for a large amount of access, and the performance of the entire system is lowered. In particular, when the same exclusive control method is applied to the entire system when storing a large number of data sets having different uses and access amounts in a single storage system, an exclusive control method that is not suitable for the application is introduced.

また、分散型のデータ配置管理は、スループットが高い。また、システム中の多くの計算機にデータ配置管理機能の一部を設けることで、データ配置管理機能をシステム内から探すことが容易となり、データ配置管理機能を提供する計算機を変更することも容易となる。しかし、分散型のデータ配置管理によると、集中型と比較してより多くの計算機の資源が必要とされる。   In addition, distributed data arrangement management has high throughput. In addition, by providing a part of the data allocation management function to many computers in the system, it becomes easy to search the data allocation management function from within the system, and it is easy to change the computer that provides the data allocation management function. Become. However, according to the distributed data arrangement management, more computer resources are required as compared with the centralized type.

一方、集中型のデータ配置管理によると、データ配置管理に利用する資源を分散型と比較して少数の計算機に収めることができる。しかし、集中型のデータ配置管理によると、アクセスごとのレイテンシが大きく、ボトルネックになるため、スループットも低い。また、システム内に存在する単一のデータ配置管理機能を探さなくてはならず、データ配置管理機能が別の計算機に移動した場合には、ユーザ計算機はデータ配置管理機能を見出すことができず、システムの利用が不可能となる。   On the other hand, according to the centralized data arrangement management, the resources used for data arrangement management can be accommodated in a small number of computers as compared with the distributed type. However, according to the centralized data arrangement management, the latency for each access is large and becomes a bottleneck, so the throughput is also low. Also, a single data location management function that exists in the system must be searched, and if the data location management function is moved to another computer, the user computer cannot find the data location management function. The system becomes impossible to use.

また、分散型の排他制御方式又はデータ配置管理方式によると、格納されているいずれのデータセットに対するアクセスも少ない場合であっても、多くの計算機を稼動させておく必要がある。したがって、分散型によると、集中型と比較して、同一のアクセス件数を処理した場合における消費電力が大きくなる。   In addition, according to the distributed exclusive control method or the data arrangement management method, it is necessary to operate many computers even when there is little access to any stored data set. Therefore, according to the distributed type, power consumption is increased when the same number of accesses is processed as compared with the centralized type.

以上のことから、ストレージシステムは、データセットごとに時間的に変化する利用傾向に応じた排他制御方式を提供できず、性能が低いという問題がある。また、ストレージシステムは、データセットごとに時間的に変化する利用傾向に応じたデータ配置管理方式を提供できず、資源利用の効率が悪いという問題もある。さらに、ストレージシステムは、データセットごとに時間的に変化する利用傾向に応じた計算機電力使用制御ができず、消費電力が大きいという問題もある。   From the above, the storage system cannot provide an exclusive control method according to the usage tendency that changes with time for each data set, and there is a problem that the performance is low. In addition, the storage system cannot provide a data arrangement management method according to the usage tendency that changes with time for each data set, and there is a problem that the efficiency of resource utilization is low. Furthermore, the storage system has a problem in that it cannot perform computer power usage control according to the usage trend that changes with time for each data set, and power consumption is large.

そこで、ストレージシステムにおいて、システム性能、資源の利用効率を向上させることが課題となる。本発明の目的は、かかる課題を解決するストレージシステムを提供することにある。   Therefore, in the storage system, it is a problem to improve system performance and resource utilization efficiency. An object of the present invention is to provide a storage system that solves this problem.

本発明の第1の視点に係るストレージノードは、
複数のデータセットが格納されたデータ記憶装置を備えるとともに、
前記複数のデータセットのそれぞれに対応するデータ管理部を有するデータ管理装置を備え、
前記データ管理部は、対応するデータセットに含まれるデータを検索するデータ配置管理機能、及び、対応するデータセットに含まれるデータに対するアクセスを一時的に停止するデータ排他制御機能を、複数のデータ管理方式のいずれかに基づいて実現するデータ管理方式実行部と、
前記データ管理方式実行部におけるデータ管理方式を、前記複数のデータ管理方式のうちの第1のデータ管理方式から第2のデータ管理方式に変更する方式変更部をさらに備えている。
The storage node according to the first aspect of the present invention is:
A data storage device storing a plurality of data sets;
A data management device having a data management unit corresponding to each of the plurality of data sets;
The data management unit includes a data placement management function for searching for data included in a corresponding data set, and a data exclusive control function for temporarily stopping access to data included in the corresponding data set. A data management method execution unit realized based on one of the methods;
The data management method execution unit further includes a method change unit that changes the data management method from the first data management method of the plurality of data management methods to the second data management method.

本発明の第2の視点に係るストレージシステムは、ネットワークを介して互いに接続された上記第1の視点に係るストレージノードを複数備えている。   The storage system according to the second aspect of the present invention includes a plurality of storage nodes according to the first aspect connected to each other via a network.

本発明の第3の視点に係るデータ記憶方法は
ストレージのデータ記憶装置に格納された複数のデータセットのそれぞれに対応するデータ管理部が、
複数のデータ管理方式のいずれかに基づいて、対応するデータセットに含まれるデータを検索するデータ配置管理工程と、
前記複数のデータ管理方式のいずれかに基づいて、対応するデータセットに含まれるデータに対するアクセスを一時的に停止するデータ排他制御工程と、
前記データ配置管理工程と前記データ排他制御工程におけるデータ管理方式を、前記複数のデータ管理方式のうちの第1のデータ管理方式から第2のデータ管理方式に変更する工程を含む。
In the data storage method according to the third aspect of the present invention, a data management unit corresponding to each of a plurality of data sets stored in a storage data storage device includes:
A data placement management step of searching for data contained in a corresponding data set based on one of a plurality of data management methods;
A data exclusive control step of temporarily stopping access to data included in a corresponding data set based on any of the plurality of data management methods;
Changing a data management method in the data arrangement management step and the data exclusive control step from a first data management method of the plurality of data management methods to a second data management method;

本発明の第4の視点に係るプログラムは、
ストレージのデータ記憶装置に格納された複数のデータセットのそれぞれに対応するCPUに対して、
複数のデータ管理方式のいずれかに基づいて、対応するデータセットに含まれるデータを検索するデータ配置管理処理と、
前記複数のデータ管理方式のいずれかに基づいて、対応するデータセットに含まれるデータに対するアクセスを一時的に停止するデータ排他制御処理と、
前記データ配置管理処理と前記データ排他制御処理におけるデータ管理方式を、前記複数のデータ管理方式のうちの第1のデータ管理方式から第2のデータ管理方式に変更する処理を実行させる。
The program according to the fourth aspect of the present invention is:
For the CPU corresponding to each of the plurality of data sets stored in the data storage device of the storage,
A data placement management process for searching for data contained in a corresponding data set based on one of a plurality of data management methods;
A data exclusive control process for temporarily stopping access to data included in a corresponding data set based on one of the plurality of data management methods;
A process of changing a data management system in the data arrangement management process and the data exclusive control process from a first data management system of the plurality of data management systems to a second data management system is executed.

本発明に係るストレージシステム、データ記憶方法及びプログラムによると、ストレージシステムにおける、システム性能及び資源の利用効率を向上させることができる。   According to the storage system, data storage method and program of the present invention, system performance and resource utilization efficiency in the storage system can be improved.

第1の実施形態に係るストレージシステムの構成を示すブロック図である。1 is a block diagram showing a configuration of a storage system according to a first embodiment. 本発明の第1の実施形態に係るストレージシステムにおけるストレージノードの構成を示すブロック図である。2 is a block diagram showing a configuration of a storage node in the storage system according to the first embodiment of the present invention. FIG. 本発明の第1の実施形態に係るストレージシステムにおけるストレージノード内のデータ管理装置の構成を表すブロック図である。FIG. 2 is a block diagram illustrating a configuration of a data management device in a storage node in the storage system according to the first embodiment of the present invention. 本発明の第1の実施形態に係るストレージシステムにおける分散データ配置管理機能の一例を説明するための図である。It is a figure for demonstrating an example of the distributed data arrangement management function in the storage system which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係るストレージシステムにおける方式変更部の構成を示すブロック図である。3 is a block diagram showing a configuration of a method change unit in the storage system according to the first embodiment of the present invention. FIG. 本発明の第1の実施形態に係るストレージシステムにおける方式変更部の動作を示すシーケンス図である。It is a sequence diagram which shows operation | movement of the system change part in the storage system which concerns on the 1st Embodiment of this invention. 本発明の第2の実施形態に係るストレージシステムにおける方式変更部の構成を示すブロック図である。It is a block diagram which shows the structure of the system change part in the storage system which concerns on the 2nd Embodiment of this invention. 本発明の第3の実施形態に係るストレージシステムの構成を示すブロック図である。It is a block diagram which shows the structure of the storage system which concerns on the 3rd Embodiment of this invention. 本発明の第4の実施形態に係るストレージシステムにおけるストレージノードの構成を示すブロック図である。It is a block diagram which shows the structure of the storage node in the storage system which concerns on the 4th Embodiment of this invention.

第1の展開形態のストレージノードは、上記第1の視点に係るストレージノードであることが好ましい。   The storage node in the first development form is preferably a storage node according to the first aspect.

第2の展開形態のストレージノードは、
前記複数のデータセットが、それぞれ、データ識別子により特定されるデータを含み、
前記データ管理装置が、データ利用プロセスからデータへのアクセスを受けた場合に前記複数のデータセットのうちの該データが所属するデータセットを特定するデータセット識別子を返すデータセット識別部をさらに備え、
前記データ管理部が、データと該データが格納されたデータ記憶装置との間の対応を示すデータ配置情報及び前記データ識別子を参照して該データが格納されたデータ記憶装置を検索することで、前記データ配置管理機能を実現することが好ましい。
The storage node in the second deployment form is
Each of the plurality of data sets includes data identified by a data identifier;
The data management device further comprises a data set identification unit that returns a data set identifier that identifies a data set to which the data belongs among the plurality of data sets when receiving access to data from a data utilization process,
The data management unit searches for a data storage device in which the data is stored with reference to data arrangement information indicating the correspondence between the data and the data storage device in which the data is stored and the data identifier, It is preferable to realize the data arrangement management function.

第3の展開形態のストレージノードは、前記データ管理部が、格納されたデータに対する排他制御情報を参照して該データに対するデータ利用プロセスによるアクセスを一時的に停止することで、前記データ排他制御機能を実現することが好ましい。   In the storage node of the third development form, the data management unit refers to the exclusive control information for the stored data, and temporarily stops access to the data by the data use process, so that the data exclusive control function Is preferably realized.

第4の展開形態のストレージノードは、
前記データ管理部が、データ管理方式情報からデータ管理方式を表すデータ管理方式識別子を生成する方式選択部をさらに備え、
前記データ管理方式実行部が、前記複数のデータ管理方式のうちの前記データ管理方式識別子によって特定されるデータ管理方式に基づいて、前記データ配置管理機能と前記データ排他制御機能を実現することが好ましい。
The storage node in the fourth deployment form is
The data management unit further includes a method selection unit that generates a data management method identifier representing the data management method from the data management method information;
Preferably, the data management method execution unit realizes the data arrangement management function and the data exclusive control function based on a data management method specified by the data management method identifier of the plurality of data management methods. .

第5の展開形態のストレージシステムは、ネットワークを介して互いに接続された、上記のストレージノードを複数備えていることが好ましい。   The storage system according to the fifth deployment mode preferably includes a plurality of the storage nodes connected to each other via a network.

第6の展開形態のストレージシステムは、
前記複数のデータ管理方式が、少なくとも、複数のストレージノードの分散データ管理機能の間でネットワークを介して情報をやり取りすることによって前記データ配置管理機能と前記データ排他制御機能を実現する分散型のデータ管理方式と、
前記データ配置管理機能又は前記データ排他制御機能を実現することなく、これらの機能に対する要求を他のストレージノードに委譲することで、少なくとも1つのストレージノードがスタブ化されている集中型のデータ管理方式と、を含むことが好ましい。
The storage system in the sixth deployment form is
Distributed data that realizes the data allocation management function and the data exclusive control function by exchanging information between the plurality of data management methods at least between the distributed data management functions of a plurality of storage nodes via a network. Management method,
A centralized data management method in which at least one storage node is stubbed by delegating a request for these functions to another storage node without realizing the data arrangement management function or the data exclusive control function And preferably.

第7の展開形態のストレージシステムは、
前記方式変更部が、データ管理部が前記分散型のデータ管理方式で動作する少なくとも1つのストレージノードにおけるデータ配置情報と排他制御情報を他のストレージノードのデータ管理部に送信し、送信終了後、データ配置管理機能を他のストレージノードに委譲することで該データ管理部をスタブ化する集中化変更部と、
前記集中型のデータ管理方式で動作するデータ管理部のうち、データ配置管理機能又はデータ排他制御機能を実現しているデータ管理部の保持するデータ配置情報又は排他制御情報の一部を、スタブ化された他のデータ管理部に送信し、送信終了後、当該他のデータ管理部にデータ配置管理機能又はデータ排他制御機能を実現させる分散化変更部とをさらに備えていることが好ましい。
The storage system of the seventh deployment form is
The method change unit transmits data arrangement information and exclusive control information in at least one storage node in which the data management unit operates in the distributed data management method to the data management unit of another storage node, and after transmission ends, A centralized change unit that stubs the data management unit by delegating the data placement management function to another storage node;
Among the data management units that operate in the centralized data management method, a part of the data allocation information or exclusive control information held by the data management unit that implements the data allocation management function or the data exclusive control function is converted into a stub. It is preferable to further include a decentralized change unit that transmits the data to the other data management unit and after the transmission ends, causes the other data management unit to realize the data arrangement management function or the data exclusive control function.

第8の展開形態のストレージシステムは、
前記方式変更部が、特定時刻における送信元ストレージノードの前記データ配置情報と前記排他制御情報の値を静止点情報として生成する静止点情報生成部と、
静止点情報を他のストレージノードに送信する静止点情報送信部と、
他のストレージノードから送信された静止点情報を受信して保持する静止点情報受信部と、
ユーザ計算機からのアクセスと静止点情報と現時刻における前記値を比較し、静止点情報と現時刻における前記値との差を管理差分情報として生成して保持する管理差分情報生成保持部と、
管理差分情報を他のストレージノードに送信する管理差分情報送信部と、
他のストレージノードから送信された管理差分情報を受信する管理差分情報受信部と、
第1の時刻における静止点情報と該第1の時刻から第2の時刻までの管理差分情報に基づいて、該第2の時刻におけるデータ配置情報と排他制御情報を新たな静止点情報として復元する管理差分情報適用部と、
静止点情報生成部により静止点情報を生成し、静止点情報の値を送信先ストレージノードに送信し、送信中のデータ配置情報と排他制御情報に対する変更を第1の管理差分情報として送信元ストレージノードにおける管理差分情報生成保持部に保持し、静止点情報の値を送信終了後に送信元ストレージにおける管理差分情報生成保持部に管理差分情報が存在する場合には、管理差分情報を送信先ストレージノードの管理差分情報受信部に送信し、送信先のストレージノードにおける管理差分情報適用部により、受信した管理差分情報と受信した静止点情報に基づいて送信時点における管理差分情報を送信先ストレージに再現する動作を、管理差分情報のサイズが所定のサイズ以下となり、かつ、管理差分情報の送信回数が所定の回数以上となるまで繰り返させた後、前記データ管理方式実行部におけるデータ管理方式を変更し、残りの管理差分情報を送信する方式停止切替再開部とをさらに備えていることが好ましい。
The storage system of the eighth deployment form is
The method change unit generates a static point information generation unit that generates the data location information of the transmission source storage node at a specific time and the value of the exclusive control information as static point information;
A quiesce point information transmission unit for transmitting quiesce point information to other storage nodes;
A quiesce point information receiving unit that receives and holds quiesce point information transmitted from other storage nodes;
A management difference information generating and holding unit that compares the value at the current time with access from the user computer and the static point information, and generates and holds the difference between the static point information and the value at the current time as management difference information;
A management difference information transmission unit for transmitting management difference information to another storage node;
A management difference information receiving unit for receiving management difference information transmitted from another storage node;
Based on the still point information at the first time and the management difference information from the first time to the second time, the data arrangement information and the exclusive control information at the second time are restored as new still point information. A management difference information application unit;
The quiesce point information generating unit generates quiesce point information, transmits the value of the quiesce point information to the transmission destination storage node, and changes to the data arrangement information being transmitted and the exclusive control information as the first management difference information, the transmission source storage When the management difference information exists in the management difference information generation holding unit in the transmission source storage after the transmission of the still point information value is held in the management difference information generation holding unit in the node, the transmission difference storage node stores the management difference information. Management difference information receiving unit, and the management difference information applying unit in the storage node of the transmission destination reproduces the management difference information at the time of transmission in the transmission destination storage based on the received management difference information and the received still point information. In operation, the size of the management difference information is equal to or smaller than the predetermined size, and the number of transmissions of the management difference information is equal to or larger than the predetermined number. After repeated until, change the data management method in the data management method execution unit preferably further includes a method stop switch resumption unit that transmits the remaining management difference information.

第9の展開形態のストレージシステムは、前記集中化変更部が、前記方式停止切替再開部においてデータ配置管理機能をスタブ化することが好ましい。   In the storage system of the ninth expansion mode, it is preferable that the centralized change unit stubs the data arrangement management function in the method stop switching restart unit.

第10の展開形態のストレージシステムは、
前記データセット識別部が、前記複数のデータセットのそれぞれと一意に対応付けられたアクセス待ち受け部をさらに有し、
前記データ利用プロセスが、利用するデータが所属するデータセットに対応するアクセス待ち受け部にアクセスし、
前記データセット識別部が、アクセスを受けたアクセス待ち受け部に基づいてデータセットを特定するようにしてもよい。
The storage system of the tenth deployment form is
The data set identification unit further includes an access waiting unit uniquely associated with each of the plurality of data sets;
The data use process accesses the access waiting unit corresponding to the data set to which the data to be used belongs,
The data set identification unit may specify a data set based on an access waiting unit that has received access.

第11の展開形態のストレージシステムは、前記データセット識別部が、前記データ利用プロセスからアクセスとともにデータセット識別情報を受け取ることによって、データセットを特定するようにしてもよい。   In the storage system of the eleventh development mode, the data set identification unit may specify a data set by receiving data set identification information from the data utilization process together with access.

第12の展開形態のストレージシステムは、前記データセット識別部が、データ識別子からデータセットを特定することができるデータ・データセット対応情報を保持するとともに、データ利用プロセスからのアクセスに含まれるデータ識別子と該データ・データセット対応情報とに基づいてデータセットを特定するようにしてもよい。   In a storage system according to a twelfth development mode, the data set identification unit holds data / data set correspondence information that can identify a data set from the data identifier, and includes a data identifier included in an access from a data use process The data set may be specified based on the data / data set correspondence information.

第13の展開形態のストレージシステムは、前記データセット識別部が、データ利用プロセス又はデータ利用プロセスが動作するユーザ計算機を特定するユーザ識別情報からデータセットを特定することができるクライアント・データセット対応情報を保持するとともに、データ利用プロセスからのアクセスを受けることで得られるユーザ識別情報と該クライアント・データセット対応情報とに基づいてデータセットを特定するようにしてもよい。   In the storage system of the thirteenth development mode, the data set identification unit can identify the data set from the user identification information that identifies the data use process or the user computer on which the data use process operates. The data set may be specified based on the user identification information obtained by receiving access from the data use process and the client data set correspondence information.

第14の展開形態のストレージシステムは、
前記複数のストレージノードが、高速低容量のデータ記憶装置を有する高速低容量ストレージノードと、低速大容量のデータ記憶装置を有する高速低容量ストレージノードを含み、
前記高速低容量ストレージに分散格納されたデータセットを前記分散型のデータ管理方式とし、該データセットを低速大容量ストレージに移動した場合には、該データセットに対応するデータ管理部を前記集中型のデータ管理方式とする管理方式変更部をさらに備えていることが好ましい。
The storage system of the 14th deployment form is
The plurality of storage nodes include a high-speed and low-capacity storage node having a high-speed and low-capacity data storage device, and a high-speed and low-capacity storage node having a low-speed and large-capacity data storage device,
When the data set distributed and stored in the high-speed and low-capacity storage is the distributed data management method, and the data set is moved to the low-speed and large-capacity storage, the data management unit corresponding to the data set is It is preferable to further include a management method change unit for the data management method.

第15の展開形態のストレージシステムは、前記管理方式変更部が、前記低速大容量ストレージに分散格納されたデータセットについて前記集中型のデータ管理方式とし、該データセットを前記高速低容量ストレージに移動した場合には、該データセットに対応するデータ管理部を前記分散型のデータ管理方式とすることが好ましい。   In a storage system according to a fifteenth development mode, the management method changing unit uses the centralized data management method for data sets distributed and stored in the low-speed large-capacity storage, and moves the data sets to the high-speed and low-capacity storage. In this case, it is preferable that the data management unit corresponding to the data set is the distributed data management method.

第16の展開形態のストレージシステムは、
前記ストレージノードが、前記複数のデータ管理方式のうちの所定のデータ管理方式を低消費電力で実行する特定データ管理方式実行部と、
前記所定の管理方式以外のデータ管理方式を実行する一般データ管理方式実行部と、
自ノードにおいて前記所定の管理方式以外のデータ管理方式が動作していない場合には、前記一般データ管理方式実行部を低消費電力状態に移行させる電力制御部と、をさらに備えていることが好ましい。
The storage system of the sixteenth deployment form is
The storage node executes a specific data management method of the plurality of data management methods with low power consumption, and a specific data management method execution unit;
A general data management method execution unit for executing a data management method other than the predetermined management method;
It is preferable to further include a power control unit that shifts the general data management method execution unit to a low power consumption state when a data management method other than the predetermined management method is not operating in the own node. .

第17の展開形態のデータ記憶方法は、上記第3の視点に係るデータ記憶方法であることが好ましい。   The data storage method according to the seventeenth development form is preferably the data storage method according to the third aspect.

第18の展開形態のプログラムは、上記第4の視点に係るプログラムであることが好ましい。   The program according to the eighteenth development form is preferably a program according to the fourth viewpoint.

(第1の実施形態)
本発明の第1の実施形態に係るストレージシステムについて、図面を参照して説明する。図1は、本実施形態に係るストレージシステムの構成を示すブロック図である。図1を参照すると、ストレージシステムは、複数のストレージノード70a〜70cを含む。
(First embodiment)
A storage system according to a first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing the configuration of the storage system according to this embodiment. Referring to FIG. 1, the storage system includes a plurality of storage nodes 70a to 70c.

各ストレージノード70a〜70cは、それぞれ、データ管理装置10a〜10cとデータ記憶装置60a〜60cを備えている。図1には、ストレージシステムとネットワーク80を介して接続されたユーザ計算機90も併せて示されている。ユーザ計算機90のデータ利用プロセス91は、ストレージシステムに対して、データ識別子とデータ操作を表す識別子を含むアクセスを行うことによって、データの格納、格納されたデータの取得、格納されたデータの更新、及び、格納されたデータの消去を行う。   Each of the storage nodes 70a to 70c includes data management devices 10a to 10c and data storage devices 60a to 60c, respectively. FIG. 1 also shows a user computer 90 connected to the storage system via the network 80. The data utilization process 91 of the user computer 90 performs access to the storage system including a data identifier and an identifier representing a data operation, thereby storing data, obtaining the stored data, updating the stored data, The stored data is erased.

図2は、本実施形態に係るストレージシステムにおけるストレージノードの構成を示すブロック図である。図1のストレージノード70a〜70cは、それぞれ、図2のストレージノード70に相当する。図2を参照すると、ストレージノード70は、CPU71、メモリ72、I/Oコントローラ73、データ記憶装置60、通信コントローラ74を有する。ストレージノード70は、一例として、計算機によって構成される。   FIG. 2 is a block diagram showing the configuration of the storage node in the storage system according to this embodiment. Each of the storage nodes 70a to 70c in FIG. 1 corresponds to the storage node 70 in FIG. Referring to FIG. 2, the storage node 70 includes a CPU 71, a memory 72, an I / O controller 73, a data storage device 60, and a communication controller 74. The storage node 70 is configured by a computer as an example.

ストレージノード70は、通信コントローラ74を介して、ネットワーク80に対するデータの送受信を行うとともに、I/Oコントローラ73を介して、データ記憶装置60に対するデータの格納と読み出しを行う。かかる制御は、メモリ72に格納されたソフトウェアによって、CPU71を駆動して行うようにしてもよい。   The storage node 70 transmits / receives data to / from the network 80 via the communication controller 74 and stores / reads data to / from the data storage device 60 via the I / O controller 73. Such control may be performed by driving the CPU 71 by software stored in the memory 72.

データ記憶装置60a〜60cは、例えば、ハードディスクドライブ、フラッシュメモリ、DRAM、MRAM、FeRAM、RAIDコントローラに結合された記憶装置、磁気テープのようにデータを記録可能な物理媒体、又は、ストレージノードの外部に設置された媒体にデータを記録する制御装置である。なお、メモリ72と記憶装置60は、同一のハードウェアによって実現されるようにしてもよい。   The data storage devices 60a to 60c are, for example, hard disk drives, flash memories, DRAMs, MRAMs, FeRAMs, storage devices coupled to a RAID controller, physical media capable of recording data such as magnetic tapes, or external storage nodes It is a control apparatus which records data on the medium installed in. Note that the memory 72 and the storage device 60 may be realized by the same hardware.

ネットワーク80は、例えばFibre ChannelやFCoE(Fibre Channel over Ethernet(登録商標))、InfiniBand、Ethernet上のTCP/IPのような上位プロトコルによって実現しうる。ただし、ネットワーク80の実現方法は、これらに限られない。   The network 80 can be realized by an upper level protocol such as Fiber Channel, FCoE (Fibre Channel over Ethernet (registered trademark)), InfiniBand, or TCP / IP on the Ethernet. However, the implementation method of the network 80 is not limited to these.

ストレージシステムに記録されるデータは、ストレージノード70a〜70cのデータ記憶装置60a〜60cに分散して格納される。データは、固定長又は任意長のデータ塊と、データ塊を識別するデータ識別子とによって管理される。一例として、データ塊をファイルとし、データ識別子をi−node番号としてもよい。また、データ塊を4キロバイト長のブロックとし、データ識別子をボリューム名とブロック番号の組としてもよい。   Data recorded in the storage system is distributed and stored in the data storage devices 60a to 60c of the storage nodes 70a to 70c. Data is managed by a fixed-length or arbitrary-length data chunk and a data identifier that identifies the data chunk. As an example, the data chunk may be a file and the data identifier may be an i-node number. Alternatively, the data chunk may be a 4 kilobyte long block, and the data identifier may be a volume name and block number pair.

データは、いずれも唯一のデータセットに属する。1つのデータセットは、複数のデータを含むことができる。データセットは、例えば、仮想ボリューム内のデータであってもよい。また、データセットは、データベース管理システムの1つのアプリケーションソフトウェア又はミドルウェアソフトウェアによって管理されるデータ集合としてもよい。さらに、複数の企業で単一の資源を共用する場合には、各企業に属するデータをデータセットとしてもよい。ただし、データセットは、これらに限られない。   All data belongs to a single data set. One data set can include a plurality of data. The data set may be data in a virtual volume, for example. The data set may be a data set managed by one application software or middleware software of the database management system. Furthermore, when a single resource is shared by a plurality of companies, data belonging to each company may be used as a data set. However, the data set is not limited to these.

図3は、本実施形態に係るストレージシステムにおけるストレージノード70内のデータ管理装置10の構成を表すブロック図である。図1のデータ管理装置10a〜10cは、それぞれ、図3のデータ管理装置10に相当する。なお、図1のデータ管理装置10は、図2のCPU71を用いて実現してもよい。図3を参照すると、データ管理装置10は、データセット識別部51とデータ管理部50a〜50cを有する。データ管理部50a〜50cは、それぞれ、格納されたデータセットに対応する。データ管理部50a〜50cをデータ管理部50と総称する。   FIG. 3 is a block diagram showing the configuration of the data management apparatus 10 in the storage node 70 in the storage system according to this embodiment. Each of the data management devices 10a to 10c in FIG. 1 corresponds to the data management device 10 in FIG. The data management apparatus 10 in FIG. 1 may be realized using the CPU 71 in FIG. Referring to FIG. 3, the data management device 10 includes a data set identification unit 51 and data management units 50a to 50c. Each of the data management units 50a to 50c corresponds to a stored data set. The data management units 50a to 50c are collectively referred to as the data management unit 50.

図3を参照すると、データ管理部50は、方式選択部40、データ管理方式実行部20及び方式変更部30を有する。データ管理方式実行部20は、データ排他制御機能とデータ配置管理機能を有する。   Referring to FIG. 3, the data management unit 50 includes a method selection unit 40, a data management method execution unit 20, and a method change unit 30. The data management method execution unit 20 has a data exclusive control function and a data arrangement management function.

データセット識別部51は、データ利用プロセス91からのアクセスに基づいて、当該アクセスがいずれのデータセットに含まれるデータに対するものであるのかを識別をする。例えば、データセット識別部51は、データセットと一意に対応づけられたアクセス待ち受け部(非図示)を複数有していてもよい。このとき、データ利用プロセス91は、利用するデータが所属するデータセットに対応するアクセス待ち受け部にアクセスし、データセット識別部51はアクセスを受けたアクセス待ち受け部によってデータセットを特定するようにしてもよい。   Based on the access from the data utilization process 91, the data set identification unit 51 identifies which data set the data is included in. For example, the data set identification unit 51 may include a plurality of access waiting units (not shown) that are uniquely associated with the data set. At this time, the data use process 91 accesses the access waiting unit corresponding to the data set to which the data to be used belongs, and the data set identifying unit 51 identifies the data set by the access waiting unit that has received the access. Good.

ネットワークプロトコルがTCP/IPである場合には、一例として、アクセス待ち受け部による識別においてTCPポート番号又は仮想IPアドレスを利用してもよい。このとき、データセット識別部51は、異なるポート又はアドレスに対する接続を、異なるデータセットに対するアクセスであると認識することができる。   When the network protocol is TCP / IP, for example, a TCP port number or a virtual IP address may be used for identification by the access waiting unit. At this time, the data set identification unit 51 can recognize that connections to different ports or addresses are accesses to different data sets.

データセット識別部51は、データ利用プロセス91から、アクセスとともに、データセット識別情報を受け取ることによって、データセットを識別するようにしてもよい。データセット識別情報は、一例として、プロセス91を利用するユーザ識別子から生成することができる。ネットワークプロトコルがHTTPである場合には、例えば、COOKIEを利用することによりユーザを特定することができる。   The data set identification unit 51 may identify the data set by receiving the data set identification information from the data use process 91 together with the access. As an example, the data set identification information can be generated from a user identifier using the process 91. When the network protocol is HTTP, for example, the user can be specified by using COOKIE.

データセット識別部51は、データ識別子からデータセットを特定することができるデータ・データセット対応情報(非図示)を保持するとともに、データ利用プロセス91からのアクセスに含まれるデータ識別子とデータ・データセット対応情報に基づいて、データセットを特定するようにしてもよい。例えば、データ識別子のうちの先頭の数バイトがデータセットを表すようにしてもよい。また、データセットが仮想ボリュームであり、ネットワークプロトコルがSCSIである場合には、アクセス中に仮想ボリューム番号を埋め込んでアクセスするようにしてもよい。   The data set identification unit 51 holds data / data set correspondence information (not shown) that can specify a data set from the data identifier, and also includes the data identifier and the data / data set included in the access from the data use process 91. The data set may be specified based on the correspondence information. For example, the first few bytes of the data identifier may represent a data set. Further, when the data set is a virtual volume and the network protocol is SCSI, the virtual volume number may be embedded during access.

データセット識別部51は、データ利用プロセス91又はデータ利用プロセス91が動作するユーザ計算機90を特定するユーザ識別情報からデータセットを特定することができるクライアント・データセット対応情報(非図示)を保持するとともに、データ利用プロセス91からのアクセスを受けることで得られるユーザ識別情報とクライアント・データセット対応情報とに基づいて、データセットを特定するようにしてもよい。例えば、ユーザ計算機90のアドレス又はネットワークアドレスをユーザ識別情報とすることができる。   The data set identification unit 51 holds client data set correspondence information (not shown) that can identify a data set from the data identification process 91 or user identification information that identifies the user computer 90 on which the data utilization process 91 operates. At the same time, the data set may be specified based on the user identification information obtained by receiving access from the data use process 91 and the client / data set correspondence information. For example, the address of the user computer 90 or the network address can be used as the user identification information.

また、上述のデータセット識別部51を適宜組み合わせて用いるようにしてもよい。例えば、ユーザ計算機90のアドレスとユーザIDの双方を用いるようにしてもよい。さらに、上述のデータセット識別部51を段階的に用いるようにしてもよい。例えば、待ちうけポートアドレスでデータセットが指定されたものの、アクセスに含まれるデータ識別子の示すデータが指定されたデータセットには含まれないことが判明した場合には、ストレージシステムは、ユーザ計算機アドレスでデータセットを識別するようにしてもよい。   Moreover, you may make it use the above-mentioned data set identification part 51 combining suitably. For example, both the address of the user computer 90 and the user ID may be used. Further, the above-described data set identification unit 51 may be used step by step. For example, when a data set is specified by a port address to wait for but the data indicated by the data identifier included in access is not included in the specified data set, the storage system uses the user computer address. The data set may be identified by.

ストレージノード70a〜70cに対するデータ配置は、ストレージノード70a〜70cで動作するデータ配置管理機能によって決定され、特に、当該機能によりデータ識別子と格納ノードの対応を管理する。データ配置管理機能は、複数のデータ配置管理方式のうちの1つによって実現される。   The data arrangement for the storage nodes 70a to 70c is determined by the data arrangement management function operating in the storage nodes 70a to 70c, and in particular, the correspondence between the data identifier and the storage node is managed by the function. The data arrangement management function is realized by one of a plurality of data arrangement management methods.

データ配置管理方式として、例えば、分散データ配置管理方式又は集中データ配置管理方式を用いることができる。分散データ配置管理方式は、複数のストレージノードのデータ配置管理機能の間でネットワークを介して情報をやり取りすることによって実現される。一方、集中データ配置管理方式は、少なくとも1つのストレージノードにおけるデータ配置管理機能を実現することなく、当該機能に対する要求を他のストレージノードにおけるデータ配置管理機能に委譲する(すなわち、スタブ化データ管理部となる)方式をいう。   As the data arrangement management method, for example, a distributed data arrangement management method or a centralized data arrangement management method can be used. The distributed data arrangement management method is realized by exchanging information between data arrangement management functions of a plurality of storage nodes via a network. On the other hand, the centralized data arrangement management method delegates a request for the function to the data arrangement management function in another storage node without realizing the data arrangement management function in at least one storage node (that is, the stubbed data management unit). Is the method.

図4は、本実施形態に係るストレージシステムにおける分散データ配置管理機能の一例を説明するための図である。データ配置管理機能は、一例として、分散データ管理方式の一種である、分散ハッシュテーブルによって実現することができる。図4を参照して、このときのデータ配置管理機能について説明する。   FIG. 4 is a diagram for explaining an example of the distributed data arrangement management function in the storage system according to the present embodiment. As an example, the data arrangement management function can be realized by a distributed hash table, which is a kind of distributed data management method. The data arrangement management function at this time will be described with reference to FIG.

ここでは、データセットds1に対するデータ配置管理機能が、分散ハッシュテーブルによって実現されているものとする。分散ハッシュテーブルによるデータ配置管理機能には、バイト列dに対して整数値を出力するハッシュ関数h(d)と、ハッシュ関数の出力値の範囲に基づくノードの割り当て表とが含まれる。図4を参照して、対象ノードを決定するときの動作について説明する。   Here, it is assumed that the data arrangement management function for the data set ds1 is realized by a distributed hash table. The data arrangement management function based on the distributed hash table includes a hash function h (d) that outputs an integer value for the byte string d and a node allocation table based on the range of output values of the hash function. With reference to FIG. 4, the operation for determining the target node will be described.

ユーザ計算機90は、データ識別子を含む検索依頼を1つのストレージノードに送信する。ここでは、検索依頼を受信するストレージノードをストレージノード70aとする。ストレージノード70aは、データセット識別部51により、当該データ識別子の示すデータがいずれのデータセットに属するかを特定する。次に、当該データセットのデータ配置を管理するデータ配置管理機能は、データ識別子dをハッシュ関数h(d)の入力としたときに出力されたハッシュ値xに基づいて、ノード割り当て表からデータ配置格納ストレージノードを決定する。ここでは、ストレージノード70bのデータ配置管理機能が、ハッシュ値xのストレージノード割当を管理するものとする。このとき、ストレージノード70aで動作するデータ配置管理機能は、ストレージノード70bのデータ配置管理機能に検索依頼を委譲する。   The user computer 90 transmits a search request including a data identifier to one storage node. Here, it is assumed that the storage node that receives the search request is the storage node 70a. In the storage node 70a, the data set identification unit 51 identifies to which data set the data indicated by the data identifier belongs. Next, the data arrangement management function for managing the data arrangement of the data set performs data arrangement from the node allocation table based on the hash value x output when the data identifier d is input to the hash function h (d). Determine the storage node. Here, it is assumed that the data arrangement management function of the storage node 70b manages the storage node allocation of the hash value x. At this time, the data arrangement management function operating in the storage node 70a delegates the search request to the data arrangement management function of the storage node 70b.

ストレージノード70bのデータ配置管理機能は、データ識別子dとデータを格納するストレージノードの対からなる割当表を管理しており、当該割当表に基づいて格納ストレージノードを決定する。ストレージノード70bのデータ配置管理機能は、格納ストレージノードを識別する識別子をユーザ計算機90に返信する。以上により、ユーザ計算機90のデータ利用プロセス91は、データ位置を特定し、利用することができる。   The data arrangement management function of the storage node 70b manages an allocation table composed of a pair of a data identifier d and a storage node that stores data, and determines a storage node based on the allocation table. The data arrangement management function of the storage node 70b returns an identifier for identifying the storage node to the user computer 90. As described above, the data use process 91 of the user computer 90 can specify and use the data position.

データ配置管理機能は、一例として、集中データ管理方式の一種である、集中表管理方式によって実現することができる。集中表管理方式によると、唯一のストレージノード(例えば、ストレージノード70a)のデータ配置管理機能がデータ配置を管理する。それ以外のストレージノードのデータ配置管理機能は、アクセスされたときに、ストレージノード70aのデータ配置管理機能に当該情報を送信し、データ配置管理を委譲する。このように、自らデータ管理に関する処理を行うことなく管理機能を委譲した状態のストレージノードを、「スタブ化している」という。   As an example, the data arrangement management function can be realized by a centralized table management system which is a kind of centralized data management system. According to the centralized table management method, the data arrangement management function of a single storage node (for example, storage node 70a) manages the data arrangement. When accessed, the data arrangement management functions of the other storage nodes send the information to the data arrangement management function of the storage node 70a and delegate the data arrangement management. In this way, a storage node that has been delegated the management function without performing any processing relating to data management by itself is referred to as “stubbing”.

ストレージノード70aのデータ配置管理機能は、データ識別子から当該データが含まれるノードを抽出することができる表を管理しており、当該表を参照することによって、データ識別子と格納ノードとの間の対応を管理する。また、いくつかのストレージノードのデータ配置管理機能は、ストレージノード70aが故障した場合に備えて、データ配置管理情報の一部又は全部を複製したものを保持し、つねにストレージノード70aの死活を確認するようにしてもよい。   The data arrangement management function of the storage node 70a manages a table from which a node including the data can be extracted from the data identifier. By referring to the table, the correspondence between the data identifier and the storage node is managed. Manage. In addition, the data allocation management function of some storage nodes holds a copy of some or all of the data allocation management information in case the storage node 70a fails, and always confirms the life and death of the storage node 70a. You may make it do.

また、上記の分散データ管理方式と集中データ管理方式とを組み合わせて用いるようにしてもよい。例えば、一部のストレージノードは分散データ管理を行い、残りのストレージノードのデータ配置管理機能は、分散データ管理を行うノードに処理を委譲してもよい。なお、データ配置管理機能の方式は、上述の方式に限定されない。   Further, the above distributed data management method and the centralized data management method may be used in combination. For example, some storage nodes may perform distributed data management, and the data arrangement management functions of the remaining storage nodes may delegate processing to the nodes that perform distributed data management. The method of the data arrangement management function is not limited to the above method.

ユーザ計算機90のデータ利用プロセス91は、アクセスに対するトランザクション性のうちの分離性又は一貫性制約に関する情報を送信することによって、当該トランザクション性を満たしつつデータアクセスを行うことができる。このことは、排他制御によって実現される。例えば、一のアクセスによるデータの変更が他のアクセスに何時見えるようになるかを表す分離性レベルを指定することによって、複数の処理がお互いの影響をどの程度受けるかを制御する。これは、各データ又はデータ配置管理機能に対するロックによって実現される。   The data utilization process 91 of the user computer 90 can perform data access while satisfying the transaction property by transmitting information on the separation property or consistency constraint of the transaction property for the access. This is realized by exclusive control. For example, the degree of influence of a plurality of processes is controlled by designating a separability level indicating when a change in data by one access becomes visible to other accesses. This is realized by a lock for each data or data arrangement management function.

ストレージノード70a〜70cのデータに対する排他制御は、データセットごとに、データ排他制御機能(図3参照)により管理される。データ排他制御機能は、複数のデータ排他制御方式のうちの1つによって実現される。   Exclusive control for the data of the storage nodes 70a to 70c is managed for each data set by a data exclusive control function (see FIG. 3). The data exclusive control function is realized by one of a plurality of data exclusive control methods.

データ排他制御方式として、例えば、分散排他制御方式又は集中排他制御方式を用いることができる。分散排他制御方式は、複数のストレージノードの分散排他制御機能の間でネットワークを介して情報をやり取りすることによって実現される。一方、集中分散排他制御方式は、少なくとも1つのストレージノードにおけるデータ排他制御機能を実現することなく、当該機能に対する要求を他のストレージノードにおけるデータ配置管理機能に委譲する(すなわち、スタブ化データ管理部となる)方式をいう。   As the data exclusive control method, for example, a distributed exclusive control method or a centralized exclusive control method can be used. The distributed exclusive control method is realized by exchanging information between distributed exclusive control functions of a plurality of storage nodes via a network. On the other hand, the centralized distributed exclusive control method delegates a request for the function to a data arrangement management function in another storage node without realizing a data exclusive control function in at least one storage node (that is, a stubbed data management unit) Is the method.

例えば、データ排他制御機能は、上記の分散データ配置管理機能を応用して実現することができる。この場合、ストレージノードは、それぞれ、自身が格納しているデータに対するロック情報を抽出することができるロック表を管理している。ロック情報は、現在、当該データに対するロックを保持しているデータ利用プロセス91を識別する値を含む。当該ロック表を利用することによって、データ識別子とアクセスの可否を管理する。ストレージシステムが同一のデータの複製を複数作成して複数のストレージノードに保存している場合には、複製のうち1つを予めプライマリデータとし、当該プライマリデータを保存するストレージノードにロック情報を格納するものとする。   For example, the data exclusive control function can be realized by applying the distributed data arrangement management function. In this case, each storage node manages a lock table from which lock information for data stored in the storage node can be extracted. The lock information includes a value that identifies the data use process 91 that currently holds the lock for the data. By using the lock table, the data identifier and access permission are managed. When the storage system creates multiple copies of the same data and stores them in multiple storage nodes, one of the replicas is set as primary data in advance, and lock information is stored in the storage node that stores the primary data It shall be.

ユーザ計算機90からのアクセスは、まず、上記の分散データ配置管理機能によって、当該データを保持するストレージノード、すなわち、当該データに対するロック情報を保持するストレージノードに到達する。当該ストレージノードは、ロック表を走査して、当該アクセスに対するアクセスの可否を決定する。   Access from the user computer 90 first reaches the storage node that holds the data, that is, the storage node that holds lock information for the data, by the distributed data arrangement management function. The storage node scans the lock table and determines whether or not access to the access is possible.

非特許文献6に記載された分散データ排他制御機能によると、複数のストレージノード(例えば、5つ)で構成されたグループ中のデータ排他制御機能が、当該データセットに対するロック情報の複製を共有する。分散合意アルゴリズムにより、グループのストレージノードのうちの1台がマスタに選出され、選出されたマスタがロック表を管理する。排他制御アクセスのうちの変更を伴う処理はマスタノードに到達し、ロック情報の変更はマスタによりグループ内のストレージノードに伝播する。変更を伴わない処理は、グループのいずれのノードでもロック情報の複製を用いて処理することができる。   According to the distributed data exclusive control function described in Non-Patent Document 6, the data exclusive control function in a group composed of a plurality of storage nodes (for example, five) shares a copy of lock information for the data set. . One of the storage nodes of the group is selected as a master by the distributed agreement algorithm, and the selected master manages the lock table. A process involving a change in exclusive control access reaches the master node, and the lock information change is propagated by the master to the storage nodes in the group. Processing that does not involve a change can be processed using a copy of lock information at any node in the group.

データ排他制御機能は、一例として、集中データ管理方式の一種である、集中ロックマネージャによって実現することができる。集中ロックマネージャによると、唯一のストレージノード(例えば、ストレージノード70a)のデータ排他制御機能がデータの排他制御を管理する。それ以外のストレージノードのデータ排他制御機能は、アクセスされたときに、ストレージノード70aのデータ排他制御機能に当該情報を送信し、データ排他制御を委譲する。このように、自らデータ排他制御機能に関する処理を行うことなく管理機能を委譲した状態のストレージノードを、データ配置管理のときと同様に、「スタブ化している」という。   As an example, the data exclusive control function can be realized by a centralized lock manager which is a kind of centralized data management system. According to the centralized lock manager, the data exclusive control function of the only storage node (for example, the storage node 70a) manages the exclusive control of data. When accessed, the data exclusive control functions of the other storage nodes send the information to the data exclusive control function of the storage node 70a and delegate data exclusive control. In this way, the storage node in which the management function has been delegated without performing the processing related to the data exclusive control function is referred to as “stubbing” as in the case of data arrangement management.

ストレージノード70aのデータ排他制御機能は、データ識別子から当該データに対するロック情報を抽出することができるロック表を管理している。ロック情報は、現在当該データに対するロックを保持しているデータ利用プロセスを識別する値を含む。当該ロック表を参照することによって、データ識別子とアクセスの可否を管理する。また、あるアクセスがデータ排他制御機能に到達したときに、すでにロック表から当該アクセスに対するロックが保持されており、データアクセスを許可できない場合には、当該アクセスを表す情報を当該データに対する待ち行列に登録し、当該データに対するロックが解除されたときに、待ち行列に登録されている待ちプロセスに対する処理を続けるようにしてもよい。また、いくつかのストレージノードのデータ排他制御機能は、ストレージノード70aが故障した場合に備えて、データ排他制御機能の一部又は全部の複製を保持し、つねにストレージノード70aの死活を確認するようにしてもよい。   The data exclusive control function of the storage node 70a manages a lock table that can extract lock information for the data from the data identifier. The lock information includes a value for identifying a data using process that currently holds a lock for the data. By referring to the lock table, the data identifier and access permission are managed. In addition, when a certain access reaches the data exclusive control function and the lock for the access is already held from the lock table and the data access cannot be permitted, the information indicating the access is put in a queue for the data. When the data is registered and the lock on the data is released, the processing for the waiting process registered in the queue may be continued. In addition, the data exclusion control function of some storage nodes holds a copy of part or all of the data exclusion control function and always checks whether the storage node 70a is alive or not in case the storage node 70a fails. It may be.

また、上記の分散データ排他制御方式と集中データ排他制御方式とを組み合わせて用いるようにしてもよい。例えば、一部のストレージノードは分散データ排他制御を行い、残りのストレージノードのデータ配置管理機能は、分散データ排他制御を行うノードに処理を委譲する(スタブ化する)こともできる。なお、データ排他制御機能の方式は、上記の方式に限定されない。   Further, the distributed data exclusive control method and the centralized data exclusive control method may be used in combination. For example, some storage nodes can perform distributed data exclusive control, and the data arrangement management functions of the remaining storage nodes can delegate (stubbing) processing to nodes that perform distributed data exclusive control. The method of the data exclusive control function is not limited to the above method.

以下では、データ配置管理機能とデータ排他制御機能とを、データ管理機能と総称する。データ管理機能の方式を変更するとは、データ配置管理機能がX方式であるものをY方式に変更するとともに、データ排他制御機能がZ方式であるものをW方式に変更することをいう。データ管理機能を分散方式から集中方式に変更するとは、データ配置管理機能を分散方式Pから集中方式Qに変更するとともに、データ排他制御機能を分散方式Rから集中方式Sに変更することをいう。一方、データ管理機能を集中方式から分散方式に変更するとは、データ配置管理機能を集中方式Qから分散方式Pに変更するとともに、データ排他制御機能を集中方式Sから分散方式Rに変更することをいう。   Hereinafter, the data arrangement management function and the data exclusive control function are collectively referred to as a data management function. Changing the method of the data management function means changing the data arrangement management function from the X method to the Y method and changing the data exclusive control function from the Z method to the W method. Changing the data management function from the distributed system to the centralized system means changing the data arrangement management function from the distributed system P to the centralized system Q and changing the data exclusive control function from the distributed system R to the centralized system S. On the other hand, changing the data management function from the centralized system to the distributed system means changing the data arrangement management function from the centralized system Q to the distributed system P and changing the data exclusive control function from the centralized system S to the distributed system R. Say.

方式変更部30は、データ管理方式実行部20が用いるデータ管理機能の方式を変更する。図5は、本実施形態に係るストレージシステムにおける方式変更部30の構成を示すブロック図である。図5を参照すると、方式変更部30は、静止点情報生成部31、管理差分情報生成保持部32、静止点情報送信部33、静止点情報受信部34、管理差分情報送信部35、管理差分情報受信部36、管理差分情報適用部37及び方式停止切替再開部38をさらに有する。   The method change unit 30 changes the method of the data management function used by the data management method execution unit 20. FIG. 5 is a block diagram showing a configuration of the method changing unit 30 in the storage system according to the present embodiment. Referring to FIG. 5, the method changing unit 30 includes a still point information generating unit 31, a management difference information generating and holding unit 32, a still point information transmitting unit 33, a still point information receiving unit 34, a management difference information transmitting unit 35, and a management difference. An information receiving unit 36, a management difference information applying unit 37, and a method stop switching restarting unit 38 are further included.

静止点情報生成部31は、特定時刻における、送信元ストレージノードのデータ配置情報22と排他制御情報24の値を静止点情報として生成する。静止点情報送信部33は、静止点情報を他のストレージノードに送信する。   The quiesce point information generation unit 31 generates the values of the data arrangement information 22 and the exclusive control information 24 of the transmission source storage node at a specific time as quiesce point information. The quiesce point information transmission unit 33 transmits the quiesce point information to another storage node.

静止点情報受信部34は、他のストレージノードにより送信された静止点情報を受信して保持する。   The quiesce point information receiving unit 34 receives and holds quiesce point information transmitted by other storage nodes.

管理差分情報生成保持部32は、ユーザ計算機90からのアクセスと静止点情報と現時刻における上記値を比較し、静止点情報と現時刻における上記値との差を管理差分情報として生成して保持する。管理差分情報送信部35は、管理差分情報を他のストレージノードに送信する。   The management difference information generation / holding unit 32 compares the access from the user computer 90, the still point information, and the above value at the current time, and generates and holds the difference between the still point information and the above value at the current time as the management difference information. To do. The management difference information transmission unit 35 transmits the management difference information to another storage node.

管理差分情報受信部36は、他のストレージノードにより送信された管理差分情報を受信する。管理差分情報適用部37は、第1の時刻(t1)における静止点情報と、時刻t1からそれ以後の第2の時刻(t2)までの管理差分情報に基づいて、時刻t2におけるデータ配置情報22と排他制御情報24を新たな静止点情報として復元する。   The management difference information receiving unit 36 receives the management difference information transmitted by other storage nodes. The management difference information application unit 37, based on the still point information at the first time (t1) and the management difference information from the time t1 to the second time (t2) thereafter, the data arrangement information 22 at the time t2. The exclusive control information 24 is restored as new still point information.

かかる構成を備えた方式変更部30は、次のようにしてデータ管理方式を変更する。図6は、本実施形態に係るストレージシステムにおける方式変更部30の動作を示すシーケンス図である。図6を参照して、方式変更部30の動作について説明する。   The method changing unit 30 having such a configuration changes the data management method as follows. FIG. 6 is a sequence diagram showing the operation of the method changing unit 30 in the storage system according to the present embodiment. With reference to FIG. 6, the operation of the method changing unit 30 will be described.

方式変更は、データ配置情報22と排他制御情報24(以下、「データ管理情報」という。)の交換と、その後のアルゴリズムの切り替えによって行われる。   The method is changed by exchanging the data arrangement information 22 and the exclusive control information 24 (hereinafter referred to as “data management information”) and switching the algorithm thereafter.

まず、変更後方式を実現するために、どのストレージノードがどのデータ管理情報を保持すべきかを決定し、管理情報送信計画を各ストレージノードが作成する。   First, in order to realize the post-change method, it is determined which storage node should hold which data management information, and each storage node creates a management information transmission plan.

次に、各ストレージノードは、静止点情報生成部31によって静止点情報を生成する。次に、各ストレージノードは、管理情報送信計画に基づいて、静止点情報に含まれる値のうちの必要なものを対象となる送信先ストレージノードに送信する。   Next, each storage node generates quiesce point information by the quiesce point information generation unit 31. Next, each storage node transmits a necessary one of the values included in the quiesce point information to the target transmission destination storage node based on the management information transmission plan.

送信中のデータ配置情報22と排他制御情報24に対するユーザ計算機90からのアクセスによるデータ管理情報の変更を第1の管理差分情報として送信元ストレージノードの管理差分情報生成保持部32に保持する。また、当該時点におけるユーザ計算機90からのアクセスに必要なデータ管理情報は、まず管理差分情報を走査してその値を返し、管理差分情報に値が保持されていない場合には直近の静止点情報から値を返す。   A change in the data management information due to the access from the user computer 90 to the data arrangement information 22 and the exclusive control information 24 being transmitted is held in the management difference information generation holding unit 32 of the transmission source storage node as the first management difference information. The data management information necessary for access from the user computer 90 at that time is first scanned and returned by the management difference information, and if no value is held in the management difference information, the nearest still point information Returns the value from.

静止点情報の必要な値を送信終了後、静止点情報送信中にデータ管理情報が更新された場合には、送信元ストレージの管理差分情報生成保持部32に管理差分情報が存在する。   When the data management information is updated during the transmission of the quiesce point information after the transmission of the necessary value of the quiesce point information, the management difference information exists in the management difference information generation holding unit 32 of the transmission source storage.

管理差分情報が存在し、そのサイズが所定のサイズ以上である場合、又は、所定の回数に亘る管理差分情報の転送がなされていない場合には、送信元ストレージノードは、送信先ストレージノードに管理差分情報を送信する。管理差分情報の送信中における、ユーザ計算機90からのアクセスによるデータ管理情報の変更は、第2の管理差分情報として保持する。また、当該時点におけるユーザ計算機90からのアクセスに必要なデータ管理情報は、まず第2の管理差分情報を走査してその値を返し、第2の管理差分情報に値が保持されていない場合には第1の管理差分情報を走査してその値を返し、第1の管理差分情報にも存在しない場合には直近の静止点情報の値を返す。   If the management difference information exists and the size is equal to or larger than the predetermined size, or if the management difference information has not been transferred a predetermined number of times, the transmission source storage node manages the transmission difference storage node. Send difference information. The change of the data management information by the access from the user computer 90 during the transmission of the management difference information is held as the second management difference information. Further, the data management information necessary for access from the user computer 90 at the time point is when the second management difference information is first scanned and returned, and the value is not held in the second management difference information. Scans the first management difference information and returns its value, and if it does not exist in the first management difference information, returns the value of the most recent still point information.

送信先のストレージノードにおいて、管理差分情報受信部36は管理差分情報を受信し、管理差分情報適用部37は受信した管理差分情報と受信した静止点情報に基づいて、送信時点における管理差分情報を送信先ストレージに再現する。   In the storage node of the transmission destination, the management difference information receiving unit 36 receives the management difference information, and the management difference information applying unit 37 determines the management difference information at the time of transmission based on the received management difference information and the received still point information. Reproduce to the destination storage.

第1の管理差分情報の送信後、上記と同様に第2の管理差分情報が存在する場合には、当該管理差分情報のサイズが所定のサイズ以下となり、かつ、所定の回数に亘る管理差分情報の送信が所定の回数以上となるまで(図5のステップS11のNo)、第1の管理差分情報を第2の管理差分情報によって置き換え、第2の管理差分情報を送信しつつ第3の管理差分情報を作成する、という動作を繰り返す。一方、管理差分情報のサイズが所定のサイズ以下となり、かつ、所定の回数以上に亘って管理差分情報の送信が所定の回数以上となった場合には(図5のステップS11のYes)、かかる動作を停止する。   After the transmission of the first management difference information, if the second management difference information exists as described above, the management difference information is equal to or smaller than a predetermined size and the management difference information is a predetermined number of times. Until the number of transmissions exceeds a predetermined number of times (No in step S11 in FIG. 5), the first management difference information is replaced with the second management difference information, and the second management difference information is transmitted and the third management difference information is transmitted. The operation of creating difference information is repeated. On the other hand, when the size of the management difference information is equal to or smaller than the predetermined size and the transmission of the management difference information is equal to or larger than the predetermined number of times (Yes in step S11 in FIG. 5), this is required. Stop operation.

方式停止切替再開部38は、データ管理機能を変更する。まず、方式停止切替再開部38は、データ管理を停止する。次に、受信したデータ管理情報を用いて新しいデータ管理を行う。方式停止切替再開部38は、必要であれば他のストレージノードにおけるデータ管理機能と通信を行って同期を行う。次に、新しいデータ管理を再開する。これにより、データ配置管理機能、及び/又は、データ排他制御機能の方式を変更することができる。   The method stop switching / resuming unit 38 changes the data management function. First, the method stop switching / resuming unit 38 stops data management. Next, new data management is performed using the received data management information. The method stop switching / resuming unit 38 performs synchronization by communicating with a data management function in another storage node if necessary. Next, new data management is resumed. Thereby, the system of the data arrangement management function and / or the data exclusive control function can be changed.

本実施形態に係るストレージシステムによると、データセットごとに時間的に変化する利用傾向に応じた排他制御方式を提供することができることから、ストレージシステムの性能を向上させることができる。また、本実施形態に係るストレージシステムによると、データセットごとに時間的に変化する利用傾向に応じたデータ配置管理方式を提供することができることから、ストレージシステムにおける資源の利用効率を向上させることもできる。   The storage system according to the present embodiment can provide an exclusive control method according to a usage tendency that changes with time for each data set, and thus the performance of the storage system can be improved. In addition, according to the storage system according to the present embodiment, it is possible to provide a data arrangement management method according to a usage trend that changes with time for each data set, so that it is possible to improve resource utilization efficiency in the storage system. it can.

その理由は、データセット識別部51によってアクセス対象となるデータセットを識別し、データセットごとに異なるデータ管理方式を適用可能としているからである。また、方式変更部30によってデータセットごとにデータ管理方式を動的に変更可能としているからである。さらに、方式変更部30は、静止点情報を活用してシステムがアクセスを停止する期間を短く抑えていることから、方式変更に伴うシステム性能の低下を防ぐこともできる。   The reason is that the data set identification unit 51 identifies the data set to be accessed, and a different data management method can be applied to each data set. Further, the method change unit 30 can dynamically change the data management method for each data set. Furthermore, since the system change unit 30 uses the quiesce point information to shorten the period during which the system stops access, the system change unit 30 can also prevent the system performance from being degraded due to the system change.

(第2の実施形態)
本発明の第2の実施形態に係るストレージシステムについて図面を参照して説明する。図7は、本実施形態に係るストレージシステムにおける方式変更部30の構成を示すブロック図である。図7を参照すると、方式変更部30は、分散化変更部47と集中化変更部48をさらに有する。
(Second Embodiment)
A storage system according to a second embodiment of the present invention will be described with reference to the drawings. FIG. 7 is a block diagram showing a configuration of the method changing unit 30 in the storage system according to the present embodiment. Referring to FIG. 7, the method change unit 30 further includes a decentralization change unit 47 and a centralization change unit 48.

分散化変更部47は、集中データ管理方式で動作するデータ管理部50のうち、データ配置管理機能又はデータ排他制御機能を実現しているデータ管理部50の保持するデータ配置情報22又は排他制御情報24の一部を、データ配置管理機能又はデータ排他制御機能を実現することなく他に委譲している他のスタブ化データ管理部50に送信し、送信終了後、当該他のスタブ化データ管理部50に、データ配置管理機能又はデータ排他制御機能を実現させる。   The decentralization changing unit 47 includes the data allocation information 22 or the exclusive control information held by the data management unit 50 that implements the data allocation management function or the data exclusive control function among the data management units 50 operating in the centralized data management method. 24 is transmitted to another stubbed data management unit 50 that has been delegated to another without realizing the data arrangement management function or the data exclusive control function, and after the transmission is finished, the other stubbed data management unit 50, a data arrangement management function or a data exclusive control function is realized.

これは、第1の実施形態における方式変更部30において、管理情報送信計画と方式停止切替再開部38の動作を以下のようにすることで実現することができる。   This can be realized by performing the management information transmission plan and the operation of the method stop switching / resuming unit 38 in the method changing unit 30 in the first embodiment as follows.

例えば、変更前後の方式がいずれも分散データ管理方式である場合には、すべてのストレージノードは、お互いにデータ管理情報を送信し合う必要がある。また、方式停止切替再開部38は、分散同期アルゴリズムによって停止と再開のタイミングを合わせる必要がある。   For example, if the method before and after the change is a distributed data management method, all storage nodes need to transmit data management information to each other. Further, the system stop switching / resuming unit 38 needs to match the stop and restart timings by the distributed synchronization algorithm.

一方、変更前の方式が集中データ管理方式であり、変更後の方式が分散データ管理方式である場合には、集中化データ管理方式でスタブ化していないストレージノードが送信元ノードとなり、すべてのストレージノードが送信先ノードに該当する。また、方式停止切替再開部38は、分散同期アルゴリズムによって停止と再開のタイミングを合わせる必要がある。ここで、分散同期アルゴリズムとして、一例として、非特許文献8に記載された方法を用いることができる。   On the other hand, if the pre-change method is the centralized data management method and the post-change method is the distributed data management method, the storage node that is not stubbed by the centralized data management method becomes the source node and all storage The node corresponds to the destination node. Further, the system stop switching / resuming unit 38 needs to match the stop and restart timings by the distributed synchronization algorithm. Here, as an example of the distributed synchronization algorithm, the method described in Non-Patent Document 8 can be used.

集中化変更部48は、データ管理部50が分散データ管理方式で動作する少なくとも1つのストレージノードにおけるデータ配置情報22と排他制御情報24を他のストレージノードのデータ管理部50に送信し、送信終了後、データ配置管理機能を他のストレージノードに委譲することで該データ管理部50をスタブ化データ管理部とする。   The centralization changing unit 48 transmits the data arrangement information 22 and the exclusive control information 24 in at least one storage node in which the data management unit 50 operates in the distributed data management method to the data management unit 50 of the other storage node, and the transmission ends Then, the data management unit is made a stub data management unit by delegating the data arrangement management function to another storage node.

これは、第1の実施形態における方式変更部30において、管理情報送信計画と方式停止切替再開部38の動作を以下のようにすることで実現することができる。   This can be realized by performing the management information transmission plan and the operation of the method stop switching / resuming unit 38 in the method changing unit 30 in the first embodiment as follows.

変更前の方式が分散データ管理方式であり、変更後の方式が集中データ管理方式である場合には、集中化によりスタブ化するストレージノードのみが、データ管理情報を送信する。また、方式停止切替再開部38は、各々のストレージノードが同期せずにスタブ化することができる。   When the method before the change is the distributed data management method and the method after the change is the centralized data management method, only the storage node that is stubbed by the centralization transmits the data management information. Further, the method stop switching / resuming unit 38 can stub each storage node without synchronizing.

本実施形態に係るストレージシステムによると、データセットごとに時間的に変化する利用傾向に応じた排他制御方式を提供することができることから、ストレージシステムのシステム性能を向上させることができる。また、本実施形態に係るストレージシステムによると、データセットごとに時間的に変化する利用傾向に応じたデータ配置管理方式を提供することができることから、ストレージシステムにおける資源の利用効率を向上させることもできる。   The storage system according to the present embodiment can provide an exclusive control method according to a usage trend that changes with time for each data set, and thus the system performance of the storage system can be improved. In addition, according to the storage system according to the present embodiment, it is possible to provide a data arrangement management method according to a usage trend that changes with time for each data set, so that it is possible to improve resource utilization efficiency in the storage system. it can.

その理由は、データセット識別部51によってアクセス対象となるデータセットを識別し、データセットごとに分散と集中という異なるデータ管理方式を適用可能としているからである。読み出しアクセス頻度が高く、多くのストレージノードを参加させた方が効率がよいデータセットについては高速なストレージノードを多数参加させた分散データ管理とし、その他のデータセットについては集中管理方式とすることで、利用頻度の高いデータセットに対するアクセス性能を向上させることができる。   The reason is that the data set identification unit 51 identifies the data set to be accessed, and different data management methods of distribution and concentration can be applied to each data set. For data sets with high read access frequency and more efficient participation of many storage nodes, distributed data management with many high-speed storage nodes participating, and centralized management for other data sets Therefore, it is possible to improve the access performance for frequently used data sets.

さらに、方式変更部30によってデータセットごとにデータ管理方式を動的に変更可能としている。このとき、第1のデータセットの利用が終了し、次に第2のデータセットが多くのアクセスを受ける場合、分散データ管理方式で動作していた第1のデータセットを集中管理方式に変更し、第2のデータセットを分散データ管理方式とすることで、データセットごとに時間的に変換する利用傾向に応じたデータ配置管理方式を提供することができる。   Further, the data change method can be dynamically changed for each data set by the method change unit 30. At this time, when the use of the first data set is completed and the second data set is next accessed many times, the first data set operating in the distributed data management method is changed to the centralized management method. By setting the second data set as the distributed data management method, it is possible to provide a data arrangement management method corresponding to the usage tendency for temporal conversion for each data set.

方式を変更する際、第2のデータセットのデータ管理機能をより高性能なストレージノードに再配置することで、第2のデータセットに対するアクセス速度をさらに向上させることもできる。   When the method is changed, the access speed for the second data set can be further improved by relocating the data management function of the second data set to a higher-performance storage node.

また、第1のデータセットを利用していたユーザ計算機90からのアクセスを受けていたストレージノードにおいては、データ管理機能をスタブ化し、アクセスを他のストレージノードに受け流す。したがって、データ管理方式を変更した場合においても、ユーザ計算機90側からすると、性能面を除いて従前と同様にデータを利用することができる。   Further, in the storage node that has received access from the user computer 90 that has used the first data set, the data management function is stubbed and the access is passed to other storage nodes. Therefore, even when the data management method is changed, from the user computer 90 side, data can be used in the same manner as before except for performance.

(第3の実施形態)
本発明の第3の実施形態に係るストレージシステムについて、図面を参照して説明する。本実施形態では、格納されたデータの再配置と当該発明の協調動作を考慮した動作について記載する。
(Third embodiment)
A storage system according to a third embodiment of the present invention will be described with reference to the drawings. In the present embodiment, description will be given of operations in consideration of rearrangement of stored data and cooperative operation of the present invention.

本実施形態においては、ストレージノード70は、高速低容量のデータ記憶装置60を有する高速低容量ストレージノードと、低速大容量のデータ記憶装置60を有する低速大容量ストレージノードを含む。ストレージノード70は、用いられるデータ記憶装置60の容量、及び、データ記憶装置60を実現する装置(例えば、磁気ディスク、不揮発性メモリ)の種類に応じて分類してもよい。ただし、分類方法は、これらに限られない。   In this embodiment, the storage node 70 includes a high-speed and low-capacity storage node having a high-speed and low-capacity data storage device 60 and a low-speed and large-capacity storage node having a low-speed and large-capacity data storage device 60. The storage node 70 may be classified according to the capacity of the data storage device 60 used and the type of device (for example, a magnetic disk or a non-volatile memory) that implements the data storage device 60. However, the classification method is not limited to these.

図8は、本実施形態に係るストレージシステムの構成を示すブロック図である。図8を参照すると、本実施形態のストレージシステムは、第1の実施形態のストレージシステム(図1参照)に対して、さらに、データ移動実行部77と管理方式変更部78を備えている。   FIG. 8 is a block diagram showing the configuration of the storage system according to this embodiment. Referring to FIG. 8, the storage system of the present embodiment further includes a data migration execution unit 77 and a management method change unit 78 in addition to the storage system of the first embodiment (see FIG. 1).

データ移動実行部77は、システム運用中にデータの利用傾向(例えば、最近一定時間のアクセス数、アクセスされたデータのサイズの累計)に基づいて、より利用頻度の高いデータセットをより高速なストレージノードに移動するとともに、より利用頻度の低いデータセットをより低速なストレージノードに移動する。これにより、ストレージシステム内の資源を有効に利用することができる。   The data movement execution unit 77 stores data sets that are more frequently used in a faster storage based on data usage trends (for example, the number of recently accessed accesses and the total size of accessed data) during system operation. Move to a node and move a less frequently used data set to a slower storage node. Thereby, resources in the storage system can be used effectively.

管理方式変更部78は、データ移動実行部77によりデータセットを移動した場合に、方式変更部30を用いて、移動対象データセットのデータ管理方式を変更する。管理方式変更部78は、少なくとも1つの高速低容量ストレージに分散格納された第1のデータセットを分散データ管理方式とし、データ移動実行部により第1のデータセットを低速大容量ストレージに移動した場合には、第1のデータセットに対応するデータ管理部を集中データ管理方式とする(データ縮退機能)。ただし、集中データ管理方式のうちスタブ化されないデータ管理機能は、高速低容量ストレージ上に配置するものとする。   When the data movement execution unit 77 moves the data set, the management method change unit 78 uses the method change unit 30 to change the data management method of the movement target data set. The management method changing unit 78 uses the first data set distributed and stored in at least one high-speed and low-capacity storage as a distributed data management method, and the data movement execution unit moves the first data set to the low-speed and large-capacity storage. First, the data management unit corresponding to the first data set is set to a centralized data management method (data degeneration function). However, the data management function that is not stubbed in the centralized data management method is arranged on a high-speed and low-capacity storage.

また、管理方式変更部78は、少なくとも1つの低速大容量ストレージノードに分散格納された第2のデータセットを集中データ管理方式とし、スタブ化されていないデータ管理機能の一部は高速低容量ストレージノードに配置し、データ移動実行部78により第2のデータセットを高速低容量ストレージに移動した場合には第2のデータセットに対応するデータ管理部を分散データ管理方式とする(データ展開機能)。   In addition, the management method changing unit 78 uses the second data set distributed and stored in at least one low-speed large-capacity storage node as a centralized data management method, and some of the data management functions that are not stubbed are high-speed and low-capacity storage. When the second data set is moved to the high-speed and low-capacity storage by the data movement execution unit 78 placed in the node, the data management unit corresponding to the second data set is set as a distributed data management method (data expansion function) .

上記のデータ縮退機能とデータ展開機能を利用することで、データ管理機能はつねに高速低容量ストレージ上に位置し、ユーザ計算機に対する応答性能を維持することができる。さらに、データの利用形態を反映するデータ再配置処理に伴ってデータ管理機能の方式を変更することで、データセットの利用傾向により合致したデータ管理機能を提供することができる。   By using the data reduction function and the data expansion function, the data management function is always located on the high-speed and low-capacity storage, and the response performance to the user computer can be maintained. Furthermore, by changing the method of the data management function in accordance with the data rearrangement process that reflects the data usage mode, it is possible to provide a data management function that matches the usage trend of the data set.

(第4の実施形態)
本発明の第4の実施形態に係るストレージシステムについて、図面を参照して説明する。本実施形態においては、ストレージシステムおける消費電力の削減を図る。図9は、本実施形態に係るストレージシステムにおけるストレージノードの構成を示すブロック図である。図9を参照すると、本実施形態に係るストレージシステムにおけるストレージノード70の一部又は全部は、第1の実施形態のストレージノード70の構成(図2参照)に対して、さらに、特定データ管理方式実行部75及び電力制御部76を備えている。
(Fourth embodiment)
A storage system according to the fourth embodiment of the present invention will be described with reference to the drawings. In this embodiment, power consumption in the storage system is reduced. FIG. 9 is a block diagram showing the configuration of the storage node in the storage system according to this embodiment. Referring to FIG. 9, a part or all of the storage node 70 in the storage system according to the present embodiment is more specific to the configuration of the storage node 70 of the first embodiment (see FIG. 2). An execution unit 75 and a power control unit 76 are provided.

特定データ管理方式実行部75は、少なくとも1つのデータ管理方式(以下、「低消費電力データ管理方式」という。)を低消費電力で実行可能とするとともに、ストレージノード70は、自ノードにおいて低消費電力データ管理方式のみが動作している場合には、CPU71、メモリ72、I/Oコントローラ73又はこれらの組み合わせを低消費電力モードとするか又は停止させる。   The specific data management method execution unit 75 can execute at least one data management method (hereinafter referred to as “low power consumption data management method”) with low power consumption, and the storage node 70 can reduce power consumption in its own node. When only the power data management method is operating, the CPU 71, the memory 72, the I / O controller 73, or a combination thereof is set to the low power consumption mode or stopped.

電力制御部76は、自ノードで動作するデータ管理方式を監視し、方式変更部30によって低消費電力データ管理方式以外のデータ管理方式の動作が終了した場合には、CPU71、メモリ72、I/Oコントローラ73又はこれらの組み合わせを低消費電力モードにするか又は停止させる。また、方式変更部30によって低消費電力データ管理方式以外のデータ管理方式の動作が開始する前に、CPU71、メモリ72、I/Oコントローラ73又はこれらの組み合わせが低消費電力モードで動作しているか又は停止している場合には、通常の動作状態に戻す。   The power control unit 76 monitors the data management method that operates in its own node, and when the operation of the data management method other than the low power consumption data management method is completed by the method change unit 30, the CPU 71, the memory 72, the I / O The O controller 73 or a combination thereof is set to the low power consumption mode or stopped. Whether the CPU 71, the memory 72, the I / O controller 73, or a combination thereof is operating in the low power consumption mode before the method changing unit 30 starts the operation of the data management method other than the low power consumption data management method. Or, when stopped, return to the normal operating state.

特定データ管理方式実行部75として、例えば、集中データ管理方式のスタブ化ノードをネットワークカードに実装することができる。受け取ったパケットをそのまま指定されたデータ管理機能を有する装置に転送する機能を備えたハードウェアをネットワークカードに配置することによって、ストレージノード70自体が有するCPU71又はメモリ72を使用することなく処理することができる。   As the specific data management method execution unit 75, for example, a stub node of a centralized data management method can be mounted on a network card. Processing without using the CPU 71 or the memory 72 of the storage node 70 by placing hardware having a function of transferring the received packet as it is to a device having a specified data management function on the network card. Can do.

また、特定データ管理方式実行部75は、例えば、特定のデータ管理方式を実装したASIC、又は、FPGAのような可変ロジックによって実装してもよい。ただし、特定データ管理方式実行部75の実装は、これらに限定されない。   Further, the specific data management method execution unit 75 may be implemented by, for example, an ASIC that implements a specific data management method or a variable logic such as an FPGA. However, the implementation of the specific data management method execution unit 75 is not limited to these.

特定データ管理方式実行部75と電力制御部76を設けることによって、データ管理方式の変換に伴い、電力消費をさらに削減することができる。特定データ管理方式実行部75によると、低消費電力で動作させることができるデータ管理方式しか動作しないときに、使用電力量を削減することができるからである。特に、ストレージシステムに格納された多数のデータセットに対するアクセス量が少ない場合には、多数のデータセットのデータ管理方式を集中データ管理方式にすることができる。集中管理データ方式によると、多くのストレージノードがスタブ化されているため、スタブ化されたノードの機能のみを低消費電力で提供可能な機能を導入することによって、ストレージシステムは、ユーザ計算機からのアクセスを棄却したり、ユーザ計算機にデータ管理機能を探索させるような機能を設けることなく、ストレージノードの消費電力を抑えることができる。   By providing the specific data management method execution unit 75 and the power control unit 76, the power consumption can be further reduced along with the conversion of the data management method. This is because the specific data management method execution unit 75 can reduce the amount of power used when only the data management method that can be operated with low power consumption operates. In particular, when the amount of access to a large number of data sets stored in the storage system is small, the data management method for the large number of data sets can be made a centralized data management method. According to the centralized management data method, many storage nodes are stubbed. By introducing a function that can provide only the functions of the stubbed node with low power consumption, the storage system can The power consumption of the storage node can be suppressed without providing a function of rejecting access or causing the user computer to search for a data management function.

本発明に係るストレージシステムは、分散ストレージ、並列ファイルシステム、RAIDアレイ、分散データベース、データグリッド、クラウドデータ格納基盤のようなストレージシステムに適用することができる。特に、本発明に係るストレージシステムによると、高速低容量なデータグリッドによってユーザの処理を実行し、低速大容量なストレージによってユーザのデータを保持するストレージシステムの性能を向上させることができる。   The storage system according to the present invention can be applied to storage systems such as distributed storage, parallel file systems, RAID arrays, distributed databases, data grids, and cloud data storage platforms. In particular, according to the storage system of the present invention, it is possible to improve the performance of a storage system that executes user processing with a high-speed and low-capacity data grid and holds user data with low-speed and large-capacity storage.

以上の記載は実施形態に基づいて行ったが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更を加えることができる。   Although the above description has been made based on the embodiment, the present invention is not limited to the above embodiment. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.

10、10a〜10c データ管理装置
20 データ管理方式実行部
22 データ配置情報
24 排他制御情報
30 方式変更部
31 静止点情報生成部
32 管理差分情報生成保持部
33 静止点情報送信部
34 静止点情報受信部
35 管理差分情報送信部
36 管理差分情報受信部
37 管理差分情報適用部
38 方式停止切替再開部
40 方式選択部
47 分散化変更部
48 集中化変更部
50、50a〜50c データ管理部
51 データセット識別部
60、60a〜60c データ記憶装置
70、70a〜70c ストレージノード
71 CPU
72 メモリ
73 I/Oコントローラ
74 通信コントローラ
75 特定データ管理方式実行部
76 電力制御部
77 データ移動実行部
78 管理方式変更部
80 ネットワーク
90 ユーザ計算機
91 データ利用プロセス
10, 10a to 10c Data management device 20 Data management method execution unit 22 Data arrangement information 24 Exclusive control information 30 Method change unit 31 Still point information generation unit 32 Management difference information generation holding unit 33 Still point information transmission unit 34 Still point information reception Unit 35 management difference information transmission unit 36 management difference information reception unit 37 management difference information application unit 38 method stop switching resumption unit 40 method selection unit 47 decentralization change unit 48 centralization change unit 50, 50a to 50c data management unit 51 data set Identification unit 60, 60a-60c Data storage device 70, 70a-70c Storage node 71 CPU
72 Memory 73 I / O Controller 74 Communication Controller 75 Specific Data Management Method Execution Unit 76 Power Control Unit 77 Data Movement Execution Unit 78 Management Method Change Unit 80 Network 90 User Computer 91 Data Utilization Process

Claims (18)

複数のデータセットが格納されたデータ記憶装置を備えるとともに、
前記複数のデータセットのそれぞれに対応するデータ管理部を有するデータ管理装置を備え、
前記データ管理部は、対応するデータセットに含まれるデータを検索するデータ配置管理機能、及び、対応するデータセットに含まれるデータに対するアクセスを一時的に停止するデータ排他制御機能を、複数のデータ管理方式のいずれかに基づいて実現するデータ管理方式実行部と、
前記データ管理方式実行部におけるデータ管理方式を、前記複数のデータ管理方式のうちの第1のデータ管理方式から第2のデータ管理方式に変更する方式変更部をさらに備えていることを特徴とするストレージノード。
A data storage device storing a plurality of data sets;
A data management device having a data management unit corresponding to each of the plurality of data sets;
The data management unit includes a data placement management function for searching for data included in a corresponding data set, and a data exclusive control function for temporarily stopping access to data included in the corresponding data set. A data management method execution unit realized based on one of the methods;
The data management method execution unit further includes a method change unit that changes the data management method from the first data management method to the second data management method among the plurality of data management methods. Storage node.
前記複数のデータセットは、それぞれ、データ識別子により特定されるデータを含み、
前記データ管理装置は、データ利用プロセスからデータへのアクセスを受けた場合に前記複数のデータセットのうちの該データが所属するデータセットを特定するデータセット識別子を返すデータセット識別部をさらに備え、
前記データ管理部は、データと該データが格納されたデータ記憶装置との間の対応を示すデータ配置情報及び前記データ識別子を参照して該データが格納されたデータ記憶装置を検索することで、前記データ配置管理機能を実現することを特徴とする、請求項1に記載のストレージノード。
Each of the plurality of data sets includes data identified by a data identifier;
The data management device further comprises a data set identification unit that returns a data set identifier that identifies a data set to which the data belongs among the plurality of data sets when receiving access to data from a data utilization process,
The data management unit searches the data storage device in which the data is stored by referring to the data arrangement information indicating the correspondence between the data and the data storage device in which the data is stored and the data identifier, The storage node according to claim 1, wherein the storage node implements the data arrangement management function.
前記データ管理部は、格納されたデータに対する排他制御情報を参照して該データに対するデータ利用プロセスによるアクセスを一時的に停止することで、前記データ排他制御機能を実現することを特徴とする、請求項1又は2に記載のストレージノード。   The data management unit realizes the data exclusive control function by referring to exclusive control information for stored data and temporarily stopping access to the data by a data use process. Item 3. The storage node according to Item 1 or 2. 前記データ管理部は、データ管理方式情報からデータ管理方式を表すデータ管理方式識別子を生成する方式選択部をさらに備え、
前記データ管理方式実行部は、前記複数のデータ管理方式のうちの前記データ管理方式識別子によって特定されるデータ管理方式に基づいて、前記データ配置管理機能と前記データ排他制御機能を実現することを特徴とする、請求項1乃至3のいずれか1項に記載のストレージノード。
The data management unit further includes a method selection unit that generates a data management method identifier representing a data management method from data management method information,
The data management method execution unit realizes the data placement management function and the data exclusive control function based on a data management method specified by the data management method identifier of the plurality of data management methods. The storage node according to any one of claims 1 to 3.
ネットワークを介して互いに接続された、請求項1乃至4のいずれか1項に記載のストレージノードを複数備えていることを特徴とするストレージシステム。   5. A storage system comprising a plurality of storage nodes according to claim 1, connected to each other via a network. 前記複数のデータ管理方式は、少なくとも、複数のストレージノードの分散データ管理機能の間でネットワークを介して情報をやり取りすることによって前記データ配置管理機能と前記データ排他制御機能を実現する分散型のデータ管理方式と、
前記データ配置管理機能又は前記データ排他制御機能を実現することなく、これらの機能に対する要求を他のストレージノードに委譲することで、少なくとも1つのストレージノードがスタブ化されている集中型のデータ管理方式を含むことを特徴とする、請求項5に記載のストレージシステム。
The plurality of data management methods include at least distributed data that realizes the data placement management function and the data exclusive control function by exchanging information between the distributed data management functions of a plurality of storage nodes via a network. Management method,
A centralized data management method in which at least one storage node is stubbed by delegating a request for these functions to another storage node without realizing the data arrangement management function or the data exclusive control function The storage system according to claim 5, comprising:
前記方式変更部は、データ管理部が前記分散型のデータ管理方式で動作する少なくとも1つのストレージノードにおけるデータ配置情報と排他制御情報を他のストレージノードのデータ管理部に送信し、送信終了後、データ配置管理機能を他のストレージノードに委譲することで該データ管理部をスタブ化する集中化変更部と、
前記集中型のデータ管理方式で動作するデータ管理部のうち、データ配置管理機能又はデータ排他制御機能を実現しているデータ管理部の保持するデータ配置情報又は排他制御情報の一部を、スタブ化された他のデータ管理部に送信し、送信終了後、当該他のデータ管理部にデータ配置管理機能又はデータ排他制御機能を実現させる分散化変更部をさらに備えていることを特徴とする、請求項5に記載のストレージシステム。
The method change unit transmits data arrangement information and exclusive control information in at least one storage node that operates in the distributed data management method to the data management unit of another storage node, and after the transmission ends, A centralized change unit that stubs the data management unit by delegating the data placement management function to another storage node;
Among the data management units that operate in the centralized data management method, a part of the data allocation information or exclusive control information held by the data management unit that implements the data allocation management function or the data exclusive control function is converted into a stub. Further comprising: a decentralized changing unit that transmits the data to the other data management unit and, after the transmission is completed, causes the other data management unit to realize the data arrangement management function or the data exclusive control function. Item 6. The storage system according to Item 5.
前記方式変更部は、特定時刻における送信元ストレージノードの前記データ配置情報と前記排他制御情報の値を静止点情報として生成する静止点情報生成部と、
静止点情報を他のストレージノードに送信する静止点情報送信部と、
他のストレージノードから送信された静止点情報を受信して保持する静止点情報受信部と、
ユーザ計算機からのアクセスと静止点情報と現時刻における前記値を比較し、静止点情報と現時刻における前記値との差を管理差分情報として生成して保持する管理差分情報生成保持部と、
管理差分情報を他のストレージノードに送信する管理差分情報送信部と、
他のストレージノードから送信された管理差分情報を受信する管理差分情報受信部と、
第1の時刻における静止点情報と該第1の時刻から第2の時刻までの管理差分情報に基づいて、該第2の時刻におけるデータ配置情報と排他制御情報を新たな静止点情報として復元する管理差分情報適用部と、
静止点情報生成部により静止点情報を生成し、静止点情報の値を送信先ストレージノードに送信し、送信中のデータ配置情報と排他制御情報に対する変更を第1の管理差分情報として送信元ストレージノードにおける管理差分情報生成保持部に保持し、静止点情報の値を送信終了後に送信元ストレージにおける管理差分情報生成保持部に管理差分情報が存在する場合には、管理差分情報を送信先ストレージノードの管理差分情報受信部に送信し、送信先のストレージノードにおける管理差分情報適用部により、受信した管理差分情報と受信した静止点情報に基づいて送信時点における管理差分情報を送信先ストレージに再現する動作を、管理差分情報のサイズが所定のサイズ以下となり、かつ、管理差分情報の送信回数が所定の回数以上となるまで繰り返させた後、前記データ管理方式実行部におけるデータ管理方式を変更し、残りの管理差分情報を送信する方式停止切替再開部をさらに備えていることを特徴とする、請求項5乃至7のいずれか1項に記載のストレージシステム。
The method changing unit generates a stationary point information generating unit that generates the data location information of the transmission source storage node at a specific time and the value of the exclusive control information as stationary point information;
A quiesce point information transmission unit for transmitting quiesce point information to other storage nodes;
A quiesce point information receiving unit that receives and holds quiesce point information transmitted from other storage nodes;
A management difference information generating and holding unit that compares the value at the current time with access from the user computer and the static point information, and generates and holds the difference between the static point information and the value at the current time as management difference information;
A management difference information transmission unit for transmitting management difference information to another storage node;
A management difference information receiving unit for receiving management difference information transmitted from another storage node;
Based on the still point information at the first time and the management difference information from the first time to the second time, the data arrangement information and the exclusive control information at the second time are restored as new still point information. A management difference information application unit;
The quiesce point information generating unit generates quiesce point information, transmits the value of the quiesce point information to the transmission destination storage node, and changes to the data arrangement information being transmitted and the exclusive control information as the first management difference information, the transmission source storage When the management difference information exists in the management difference information generation holding unit in the transmission source storage after the transmission of the still point information value is held in the management difference information generation holding unit in the node, the transmission difference storage node stores the management difference information. Management difference information receiving unit, and the management difference information applying unit in the storage node of the transmission destination reproduces the management difference information at the time of transmission in the transmission destination storage based on the received management difference information and the received still point information. In operation, the size of the management difference information is equal to or smaller than the predetermined size, and the number of transmissions of the management difference information is equal to or larger than the predetermined number. 8. The method further comprising: a method stop switching / resuming unit that changes the data management method in the data management method execution unit and transmits the remaining management difference information The storage system according to any one of the above.
前記集中化変更部は、前記方式停止切替再開部においてデータ配置管理機能をスタブ化することを特徴とする、請求項8に記載のストレージシステム。   9. The storage system according to claim 8, wherein the centralized changing unit stubs the data arrangement management function in the method stop switching / resuming unit. 前記データセット識別部は、前記複数のデータセットのそれぞれと一意に対応付けられたアクセス待ち受け部をさらに有し、
前記データ利用プロセスは、利用するデータが所属するデータセットに対応するアクセス待ち受け部にアクセスし、
前記データセット識別部は、アクセスを受けたアクセス待ち受け部に基づいてデータセットを特定することを特徴とする、請求項5乃至9のいずれか1項に記載のストレージシステム。
The data set identification unit further includes an access waiting unit uniquely associated with each of the plurality of data sets;
The data use process accesses an access waiting unit corresponding to a data set to which data to use belongs,
The storage system according to any one of claims 5 to 9, wherein the data set identification unit identifies a data set based on an access waiting unit that has received an access.
前記データセット識別部は、前記データ利用プロセスからアクセスとともにデータセット識別情報を受け取ることによって、データセットを特定することを特徴とする、請求項5乃至10のいずれか1項に記載のストレージシステム。   The storage system according to any one of claims 5 to 10, wherein the data set identification unit specifies a data set by receiving data set identification information together with access from the data use process. 前記データセット識別部は、データ識別子からデータセットを特定することができるデータ・データセット対応情報を保持するとともに、データ利用プロセスからのアクセスに含まれるデータ識別子と該データ・データセット対応情報とに基づいてデータセットを特定することを特徴とする、請求項5乃至11のいずれか1項に記載のストレージシステム。   The data set identification unit holds data / data set correspondence information that can identify a data set from a data identifier, and includes a data identifier included in an access from a data utilization process and the data / data set correspondence information. The storage system according to any one of claims 5 to 11, wherein a data set is specified based on the data set. 前記データセット識別部は、データ利用プロセス又はデータ利用プロセスが動作するユーザ計算機を特定するユーザ識別情報からデータセットを特定することができるクライアント・データセット対応情報を保持するとともに、データ利用プロセスからのアクセスを受けることで得られるユーザ識別情報と該クライアント・データセット対応情報とに基づいてデータセットを特定することを特徴とする、請求項5乃至12のいずれか1項に記載のストレージシステム。   The data set identification unit holds client / data set correspondence information that can identify a data set from a data use process or user identification information that specifies a user computer in which the data use process operates. The storage system according to any one of claims 5 to 12, wherein the data set is specified based on user identification information obtained by receiving access and the client data set correspondence information. 前記複数のストレージノードは、高速低容量のデータ記憶装置を有する高速低容量ストレージノードと、低速大容量のデータ記憶装置を有する高速低容量ストレージノードを含み、
前記高速低容量ストレージに分散格納されたデータセットを前記分散型のデータ管理方式とし、該データセットを低速大容量ストレージに移動した場合には、該データセットに対応するデータ管理部を前記集中型のデータ管理方式とする管理方式変更部をさらに備えていることを特徴とする、請求項5乃至13のいずれか1項に記載のストレージシステム。
The plurality of storage nodes include a high-speed and low-capacity storage node having a high-speed and low-capacity data storage device, and a high-speed and low-capacity storage node having a low-speed and large-capacity data storage device,
When the data set distributed and stored in the high-speed and low-capacity storage is the distributed data management method, and the data set is moved to the low-speed and large-capacity storage, the data management unit corresponding to the data set is The storage system according to any one of claims 5 to 13, further comprising: a management method changing unit that uses the data management method.
前記管理方式変更部は、前記低速大容量ストレージに分散格納されたデータセットについて前記集中型のデータ管理方式とし、該データセットを前記高速低容量ストレージに移動した場合には、該データセットに対応するデータ管理部を前記分散型のデータ管理方式とすることを特徴とする、請求項14に記載のストレージシステム。   The management method changing unit uses the centralized data management method for data sets distributed and stored in the low-speed and large-capacity storage, and corresponds to the data set when the data set is moved to the high-speed and low-capacity storage. 15. The storage system according to claim 14, wherein the data management unit to be used is the distributed data management method. 前記ストレージノードは、前記複数のデータ管理方式のうちの所定のデータ管理方式を低消費電力で実行する特定データ管理方式実行部と、
前記所定の管理方式以外のデータ管理方式を実行する一般データ管理方式実行部と、
自ノードにおいて前記所定の管理方式以外のデータ管理方式が動作していない場合には、前記一般データ管理方式実行部を低消費電力状態に移行させる電力制御部をさらに備えていることを特徴とする、請求項5乃至15のいずれか1項に記載のストレージシステム。
The storage node includes a specific data management method execution unit that executes a predetermined data management method of the plurality of data management methods with low power consumption;
A general data management method execution unit for executing a data management method other than the predetermined management method;
When a data management method other than the predetermined management method is not operating in its own node, it further comprises a power control unit that shifts the general data management method execution unit to a low power consumption state. The storage system according to any one of claims 5 to 15.
ストレージのデータ記憶装置に格納された複数のデータセットのそれぞれに対応するデータ管理部が、
複数のデータ管理方式のいずれかに基づいて、対応するデータセットに含まれるデータを検索するデータ配置管理工程と、
前記複数のデータ管理方式のいずれかに基づいて、対応するデータセットに含まれるデータに対するアクセスを一時的に停止するデータ排他制御工程と、
前記データ配置管理工程と前記データ排他制御工程におけるデータ管理方式を、前記複数のデータ管理方式のうちの第1のデータ管理方式から第2のデータ管理方式に変更する工程を含むことを特徴とするデータ記憶方法。
A data management unit corresponding to each of the plurality of data sets stored in the storage data storage device,
A data placement management step of searching for data contained in a corresponding data set based on one of a plurality of data management methods;
A data exclusive control step of temporarily stopping access to data included in a corresponding data set based on any of the plurality of data management methods;
And a step of changing a data management method in the data arrangement management step and the data exclusive control step from a first data management method of the plurality of data management methods to a second data management method. Data storage method.
ストレージのデータ記憶装置に格納された複数のデータセットのそれぞれに対応するCPUに対して、
複数のデータ管理方式のいずれかに基づいて、対応するデータセットに含まれるデータを検索するデータ配置管理処理と、
前記複数のデータ管理方式のいずれかに基づいて、対応するデータセットに含まれるデータに対するアクセスを一時的に停止するデータ排他制御処理と、
前記データ配置管理処理と前記データ排他制御処理におけるデータ管理方式を、前記複数のデータ管理方式のうちの第1のデータ管理方式から第2のデータ管理方式に変更する処理を実行させることを特徴とするプログラム。
For the CPU corresponding to each of the plurality of data sets stored in the data storage device of the storage,
A data placement management process for searching for data contained in a corresponding data set based on one of a plurality of data management methods;
A data exclusive control process for temporarily stopping access to data included in a corresponding data set based on one of the plurality of data management methods;
A process of changing a data management method in the data arrangement management process and the data exclusive control process from a first data management method of the plurality of data management methods to a second data management method is executed. Program to do.
JP2009202543A 2009-09-02 2009-09-02 Storage system, data storage method and program Active JP5278254B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009202543A JP5278254B2 (en) 2009-09-02 2009-09-02 Storage system, data storage method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009202543A JP5278254B2 (en) 2009-09-02 2009-09-02 Storage system, data storage method and program

Publications (2)

Publication Number Publication Date
JP2011053932A true JP2011053932A (en) 2011-03-17
JP5278254B2 JP5278254B2 (en) 2013-09-04

Family

ID=43942862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009202543A Active JP5278254B2 (en) 2009-09-02 2009-09-02 Storage system, data storage method and program

Country Status (1)

Country Link
JP (1) JP5278254B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013147175A1 (en) * 2012-03-30 2013-10-03 日本電気株式会社 Distributed storage system, control device, client terminal, method and program for distributing load
US10261902B2 (en) 2016-01-04 2019-04-16 Toshiba Memory Corporation Parallel processing of a series of data units for writing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62108371A (en) * 1985-11-07 1987-05-19 Nec Corp File dispersion management system in collective type optical disc
JPH04284548A (en) * 1991-03-14 1992-10-09 Nec Corp Data base exclusive controlling system
JP2006099748A (en) * 2004-08-30 2006-04-13 Hitachi Ltd Storage system and data relocation controller
WO2008136075A1 (en) * 2007-04-20 2008-11-13 Fujitsu Limited Storage management program, storage management device, and storage management method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62108371A (en) * 1985-11-07 1987-05-19 Nec Corp File dispersion management system in collective type optical disc
JPH04284548A (en) * 1991-03-14 1992-10-09 Nec Corp Data base exclusive controlling system
JP2006099748A (en) * 2004-08-30 2006-04-13 Hitachi Ltd Storage system and data relocation controller
WO2008136075A1 (en) * 2007-04-20 2008-11-13 Fujitsu Limited Storage management program, storage management device, and storage management method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013147175A1 (en) * 2012-03-30 2013-10-03 日本電気株式会社 Distributed storage system, control device, client terminal, method and program for distributing load
JPWO2013147175A1 (en) * 2012-03-30 2015-12-14 日本電気株式会社 Distributed storage system, control device, client terminal, load balancing method and program
US9787585B2 (en) 2012-03-30 2017-10-10 Nec Corporation Distributed storage system, control apparatus, client terminal, load balancing method and program
US10261902B2 (en) 2016-01-04 2019-04-16 Toshiba Memory Corporation Parallel processing of a series of data units for writing

Also Published As

Publication number Publication date
JP5278254B2 (en) 2013-09-04

Similar Documents

Publication Publication Date Title
US11271893B1 (en) Systems, methods and devices for integrating end-host and network resources in distributed memory
US9590915B2 (en) Transmission of Map/Reduce data in a data center
US10025843B1 (en) Adjusting consistency groups during asynchronous replication
US11287994B2 (en) Native key-value storage enabled distributed storage system
US20140189128A1 (en) Cluster system with calculation and storage converged
US11734040B2 (en) Efficient metadata management
US20210216210A1 (en) Optimized migration of data between file systems of a storage array
CN1723434A (en) Apparatus and method for a scalable network attach storage system
Chung et al. Lightstore: Software-defined network-attached key-value drives
CN106570113B (en) Mass vector slice data cloud storage method and system
US10503693B1 (en) Method and system for parallel file operation in distributed data storage system with mixed types of storage media
US10031682B1 (en) Methods for improved data store migrations and devices thereof
KR20090062106A (en) Lazy replication system and method for balanced i/os between file read/write and replication
US10831714B2 (en) Consistent hashing configurations supporting multi-site replication
Zhang et al. Leveraging glocality for fast failure recovery in distributed RAM storage
US11216204B2 (en) Degraded redundant metadata, DRuM, technique
JP5278254B2 (en) Storage system, data storage method and program
JP5280342B2 (en) Scaling peripheral interface I / O referrals for small computers
WO2024021470A1 (en) Cross-region data scheduling method and apparatus, device, and storage medium
WO2012046585A1 (en) Distributed storage system, method of controlling same, and program
Cao et al. Data allocation of large-scale key-value store system using kinetic drives
Liu et al. Smash: Flexible, fast, and resource-efficient placement and lookup of distributed storage
KR20150061314A (en) Method and System for recovery of iSCSI storage system used network distributed file system
JP2011048427A (en) Data management system, distributed storage device thereof, user calculation terminal, computer program thereof, and data processing method
Cao Efficient Data Management and Processing in Big Data Applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120803

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130312

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130506

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5278254

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150