JP2017514217A - Data processing method and apparatus - Google Patents

Data processing method and apparatus Download PDF

Info

Publication number
JP2017514217A
JP2017514217A JP2016560892A JP2016560892A JP2017514217A JP 2017514217 A JP2017514217 A JP 2017514217A JP 2016560892 A JP2016560892 A JP 2016560892A JP 2016560892 A JP2016560892 A JP 2016560892A JP 2017514217 A JP2017514217 A JP 2017514217A
Authority
JP
Japan
Prior art keywords
partition
partitions
key
current
total number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016560892A
Other languages
Japanese (ja)
Other versions
JP6288596B2 (en
Inventor
雄 ▲羅▼
雄 ▲羅▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2017514217A publication Critical patent/JP2017514217A/en
Application granted granted Critical
Publication of JP6288596B2 publication Critical patent/JP6288596B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0662Virtualisation aspects
    • G06F3/0665Virtualisation aspects at area level, e.g. provisioning of virtual or logical volumes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0631Configuration or reconfiguration of storage systems by allocating resources to storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • G06F3/0611Improving I/O performance in relation to response time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0644Management of space entities, e.g. partitions, extents, pools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0659Command handling arrangements, e.g. command buffers, queues, command scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

データ処理技術を提供しており、データ処理技術はパーティション管理デバイスに適用される。前記パーティション管理デバイスは、パーティションビューを記憶し、前記パーティションビューは、カレントパーティションのIDとストレージディスクのアドレスとの間の対応付けを記録し、カレントパーティションの総数は、確定パーティションの総数未満であり得る。前記技術を使用することによって、データ転送を、カレントパーティションを使用して、キーバリューデータに対して行い得るし、それによって、パーティションビューの複雑度を低減している。Data processing technology is provided, and the data processing technology is applied to the partition management device. The partition management device stores a partition view, the partition view records an association between the ID of the current partition and the address of the storage disk, and the total number of current partitions may be less than the total number of confirmed partitions . By using the technique, data transfer can be performed on key-value data using the current partition, thereby reducing the complexity of the partition view.

Description

本出願は、データ処理技術に関し、詳細には、データ処理方法および装置に関する。   The present application relates to data processing technology, and in particular, to a data processing method and apparatus.

社会が発展するにつれて、量が増加し続けるデータは、記憶および管理する必要があり、さらにマッシブデータとも称される。超大規模データを従来の集中型ストレージを用いて管理する場合には、効率的な読み込み/書き込み処理を提供することがほとんどできなくなり、優れた拡張性および高い可用性を満たすことがほとんどできない。   As society evolves, data that continues to increase in volume needs to be stored and managed, and is also referred to as massive data. When managing very large data using traditional centralized storage, it is almost impossible to provide efficient read / write processing, and it is almost impossible to satisfy excellent scalability and high availability.

こうした状況を背景に、各ストレージノードがストレージ領域を提供し得る、複数の物理ストレージノードからなるストレージシステムが出現している。本ストレージ方式を分散ストレージと称する。キーバリューストレージと称する分散ストレージ方式が存在する。キーバリューストレージにおいては、記憶されているデータ(または、データフラグメント)をバリュー(value)と称し、データの各部分は、ストレージシステム全体の範囲で一意な識別子を有し、本識別子がキー(key)である。キーとバリューとは、一対一の対応関係にある。   Against this background, a storage system composed of a plurality of physical storage nodes has emerged in which each storage node can provide a storage area. This storage system is called distributed storage. There is a distributed storage system called key-value storage. In key-value storage, stored data (or data fragment) is called value, and each part of data has a unique identifier in the entire storage system, and this identifier is a key (key). ). There is a one-to-one correspondence between keys and values.

キーおよびキーに対応するバリューを、概して、キーバリュー、略して、K-Vと称する。各キーバリューは、ストレージシステムのストレージディスク上に記憶される。分散ハッシュテーブル(DHT)技術においては、特定のキーバリューに関して、キーバリューが記憶されているストレージディスクを、マッピングルールを使用して決定し得る。このマッピングルールは、ハッシュ(hash)演算をキーに対して行うことによって生成されるハッシュ(Hash)値に基づいている、ここで、各キーバリューが1つのストレージディスクに対応するように、各ハッシュ値は1つのパーティションに属し、パーティションはストレージディスクに対応する。本方法に基づいて、2つの異なるキーの計算後のハッシュ値が同一である場合には、2つのキーに対応するキーバリューは、同一のストレージディスク上に記憶される。パーティションとストレージディスクとの間の対応付けをパーティションビューと称する。   A key and a value corresponding to the key are generally referred to as a key value, abbreviated as K-V. Each key value is stored on a storage disk of the storage system. In the distributed hash table (DHT) technique, for a specific key value, a storage disk in which the key value is stored can be determined using a mapping rule. This mapping rule is based on a hash value generated by performing a hash operation on the key, where each hash value corresponds to one storage disk. The value belongs to one partition, and the partition corresponds to the storage disk. Based on this method, if the calculated hash values of two different keys are the same, the key values corresponding to the two keys are stored on the same storage disk. The association between a partition and a storage disk is called a partition view.

従来技術では、DHT技術を使用してキーに従って計算されたHash値は、例えば、[0, 2^32-1]の整数の範囲内に含まれる。システム初期化中には、各セグメントがサイズにおいて等しいまたはおおよそ等しい、セグメンテーションをこの大きな整数の範囲に対して行う。この場合には、1つのセグメントがパーティション(Partition)であり、パーティション内のハッシュ値の数量は基本的に同一である。ストレージディスククラスタ内のストレージディスクの数量が比較的小さい場合には、各ストレージディスクは、必要以上のパーティションを有し、パーティションビューが過度に複雑になることを引き起こし、その結果、パーティションビューに従ったデータパケット転送が非効率的になる。具体的な例は、以下の通りである。   In the prior art, the Hash value calculated according to the key using the DHT technique is included in an integer range of [0, 2 ^ 32-1], for example. During system initialization, segmentation is performed over this large integer range, with each segment being equal or approximately equal in size. In this case, one segment is a partition, and the number of hash values in the partition is basically the same. If the number of storage disks in the storage disk cluster is relatively small, each storage disk will have more partitions than necessary, causing the partition view to become overly complex and consequently follow the partition view Data packet transfer becomes inefficient. A specific example is as follows.

最大25,000個のストレージディスクをサポートするクラスタが存在すると仮定すると、最大数量のストレージディスクのケースでは、各ストレージディスクは、おおよそ100個のパーティションを有する。すなわち、クラスタ全体は、総計2,500,000個のパーティションを有する。各パーティション内の情報が4ビットのストレージ領域を占有していると仮定する。これらのパーティション内の情報は総計10MBのストレージ領域を占有することになり、パーティションビュー内の情報は10MBより大きくなる。   Assuming that there is a cluster that supports up to 25,000 storage disks, in the case of the maximum number of storage disks, each storage disk has approximately 100 partitions. That is, the entire cluster has a total of 2,500,000 partitions. Assume that the information in each partition occupies a 4-bit storage area. The information in these partitions will occupy a total of 10MB of storage space, and the information in the partition view will be larger than 10MB.

パーティションビューを使用する場合には、大量のシステムリソースを占有することになる。   When using the partition view, a large amount of system resources are occupied.

本発明は、キーバリューデータを処理する際のシステムリソースの占有を低減することができる、データ処理方法および装置を提供している。   The present invention provides a data processing method and apparatus that can reduce the occupation of system resources when processing key-value data.

第1の態様によれば、本発明は、パーティション管理デバイスに適用されるデータ処理方法を提供しており、パーティション管理デバイスは、パーティションビューを記憶し、パーティションビューは、カレントパーティションのIDとストレージディスクのアドレスとの間の対応付けを記録し、方法は、キーバリューデータ内のキーを取得して、キーに従って、キーバリューデータに対応する確定パーティションのIDを計算するステップであって、キーバリューデータは、バリューおよびバリューに一意に対応しているキーを含む、ステップと、確定パーティションのIDに対応するカレントパーティションのIDを計算するステップであって、各カレントパーティションのIDは、複数の確定パーティションのIDに対応している、ステップと、カレントパーティションのIDに対応するストレージディスクのアドレスを取得するために、パーティションビューを検索するステップと、ストレージディスクのアドレスを宛先アドレスとして使用することによってキーバリューパケットを生成して、キーバリューパケットをストレージディスクに送信するステップであって、キーバリューパケットは、キーバリューデータを搬送する、ステップとを含む。   According to a first aspect, the present invention provides a data processing method applied to a partition management device, the partition management device stores a partition view, and the partition view includes an ID of a current partition and a storage disk. The method is a step of obtaining a key in the key-value data and calculating an ID of a confirmed partition corresponding to the key-value data according to the key, the method comprising: Is a step that includes a value and a key that uniquely corresponds to the value, and a step of calculating an ID of the current partition corresponding to the ID of the confirmed partition, wherein each current partition ID includes a plurality of confirmed partitions. The step corresponding to the ID and the current To get the address of the storage disk corresponding to the partition ID, search the partition view and generate the key value packet by using the storage disk address as the destination address, The key value packet includes a step of carrying key value data.

第2の態様によれば、本発明は、データ処理装置を提供しており、装置は、パーティションビューを記憶するように構成される、記憶モジュールであって、パーティションビューは、カレントパーティションのIDとストレージディスクのアドレスとの間の対応付けを記録する、記憶モジュールと、キーバリューデータ内のキーを取得して、キーに従って、キーバリューデータに対応する確定パーティションのIDを計算するように構成される、確定パーティション計算モジュールであって、キーバリューデータは、バリューおよびバリューに一意に対応しているキーを含む、確定パーティション計算モジュールと、確定パーティションのIDに対応するカレントパーティションのIDを計算するように構成される、カレントパーティション計算モジュールであって、各カレントパーティションのIDは、複数の確定パーティションのIDに対応している、カレントパーティション計算モジュールと、カレントパーティションのIDに対応するストレージディスクのアドレスを取得するために、記憶モジュールによって記憶されているパーティションビューを検索するように構成される、検索モジュールと、ストレージディスクのアドレスを宛先アドレスとして使用することによってキーバリューパケットを生成して、キーバリューパケットをストレージディスクに送信するように構成される、送信モジュールであって、キーバリューパケットは、キーバリューデータを搬送する、送信モジュールとを備える。   According to a second aspect, the present invention provides a data processing apparatus, wherein the apparatus is a storage module configured to store a partition view, wherein the partition view includes an ID of a current partition. The storage module that records the association between the address of the storage disk and the key in the key-value data is obtained, and the ID of the confirmed partition corresponding to the key-value data is calculated according to the key In the definite partition calculation module, the key-value data includes the deterministic partition calculation module including the key that uniquely corresponds to the value and the value, and the ID of the current partition corresponding to the deterministic partition ID is calculated. Configured current partition calculation module The ID of each current partition is stored by the storage module to obtain the current partition calculation module corresponding to the IDs of multiple confirmed partitions and the storage disk address corresponding to the ID of the current partition. Configured to search for a partitioned partition view and configured to generate a key-value packet by using the address of the storage disk as the destination address and send the key-value packet to the storage disk The key-value packet is a transmission module that carries key-value data.

第3の態様によれば、本発明は、データ処理デバイスを提供しており、データ処理デバイスは、パーティションビューを記憶するように構成される、メモリであって、パーティションビューは、カレントパーティションのIDとストレージディスクのアドレスとの間の対応付けを記録する、メモリと、外部インターフェースを提供するように構成される、インターフェースと、コンピュータプログラムを記憶するように構成される、コンピュータ可読媒体と、メモリ、インターフェース、およびコンピュータ可読媒体に接続されるとともに、プログラムを動作することによって、キーバリューデータ内のキーを取得して、キーに従って、キーバリューデータに対応する確定パーティションのIDを計算するステップであって、キーバリューデータは、バリューおよびバリューに一意に対応しているキーを含む、ステップと、確定パーティションのIDに対応するカレントパーティションのIDを計算するステップであって、各カレントパーティションのIDは、複数の確定パーティションのIDに対応している、ステップと、カレントパーティションのIDに対応するストレージディスクのアドレスを取得するために、パーティションビューを検索するステップと、ストレージディスクのアドレスを宛先アドレスとして使用することによってキーバリューパケットを生成して、キーバリューパケットをインターフェースを介してストレージディスクに送信するステップであって、キーバリューパケットは、キーバリューデータを搬送する、ステップとを実行するように構成される、プロセッサとを備える。   According to a third aspect, the present invention provides a data processing device, the data processing device being configured to store a partition view, wherein the partition view is an ID of a current partition. A computer-readable medium configured to store a computer program, a memory configured to provide an external interface, a memory that records an association between a storage disk address, and a memory; Obtaining a key in the key-value data by operating a program and being connected to an interface and a computer-readable medium, and calculating an ID of a confirmed partition corresponding to the key-value data according to the key, Key value data is A step including a value and a key uniquely corresponding to the value, and a step of calculating an ID of the current partition corresponding to the ID of the confirmed partition, wherein each current partition ID is set to an ID of a plurality of confirmed partitions To find the corresponding step and the address of the storage disk corresponding to the ID of the current partition, generate a key-value packet by searching the partition view and using the storage disk address as the destination address And sending the key value packet to the storage disk via the interface, wherein the key value packet comprises a processor configured to carry the step of carrying the key value data.

第4の態様によれば、本発明は、コントローラによって実行されるパーティション管理方法を提供しており、コントローラは、パーティション管理をクラスタ内のストレージディスクに対して行い、クラスタは、複数のストレージディスクを含み、方法は、N個の新規ストレージディスクがクラスタに追加されようとしていることを検出すると、クラスタ内のカレントストレージディスクの数量Mおよびクラスタ内の現在存在するパーティションの総数Tを獲得するステップであって、M、N、およびTは、すべての自然数である、ステップと、カレントパーティションの総数Tとストレージディスクの総数M+Nとの間の数学的関係が第1のプリセット条件を満たしているかどうかを決定するステップと、関係が第1のプリセット条件を満たす場合には、分割後に取得したパーティションの総数がSとなるように、少なくとも1つのカレントパーティションを分割して、分割後に取得したパーティションをM+N個のストレージディスクに割り振るステップであって、分割後に取得したパーティションの総数Sとストレージディスクの総数M+Nとの間の数学的関係は、第2のプリセット条件を満たし、分割後に取得したパーティションの総数は、クラスタがサポートする確定パーティションの総数Lより大きくなく、LおよびSの両方は、1より大きい自然数である、ステップとを含む。   According to a fourth aspect, the present invention provides a partition management method executed by a controller, the controller performs partition management for storage disks in the cluster, and the cluster stores a plurality of storage disks. The method includes the step of obtaining the number M of current storage disks in the cluster and the total number T of currently existing partitions in the cluster when detecting that N new storage disks are about to be added to the cluster. M, N, and T are all natural numbers, and whether the mathematical relationship between the step and the total number T of current partitions and the total number M + N of storage disks satisfies the first preset condition And if the relationship satisfies the first preset condition, This step divides at least one current partition so that the total number of partitions acquired later is S, and allocates the partitions acquired after the partition to M + N storage disks, and the total number of partitions acquired after the division The mathematical relationship between S and the total number of storage disks M + N satisfies the second preset condition, the total number of partitions obtained after the split is not greater than the total number L of committed partitions supported by the cluster, and L and Both S include steps that are natural numbers greater than one.

第4の態様の第1の実施様態においては、パーティションビューを更新する処理がさらに実行される、ここで、パーティションビューは、カレントパーティションとIPディスクとの間の対応付けを記録する。   In the first embodiment of the fourth mode, the process of updating the partition view is further executed. Here, the partition view records the association between the current partition and the IP disk.

第5の態様によれば、本発明は、パーティション管理をクラスタ内のストレージディスクに対して行うように構成される、パーティション管理装置を提供しており、クラスタは、複数のストレージディスクを含み、装置は、N個の新規ストレージディスクがクラスタに追加されようとしていることを検出すると、クラスタ内のカレントストレージディスクの数量Mおよびクラスタ内の現在存在するパーティションの総数Tを獲得するように構成される、ストレージディスク検出モジュールであって、M、N、およびTは、すべての自然数である、ストレージディスク検出モジュールと、カレントパーティションの総数Tとストレージディスクの総数M+Nとの間の数学的関係が第1のプリセット条件を満たしているかどうかを決定するように構成される、第1のプリセット条件決定モジュールと、関係が第1のプリセット条件を満たす場合には、分割後に取得したパーティションの総数がSとなるように、少なくとも1つのカレントパーティションを分割し、分割後に取得したパーティションをM+N個のストレージディスクに割り振るように構成される、パーティション分割モジュールであって、分割後に取得したパーティションの総数Sとストレージディスクの総数M+Nとの間の数学的関係は、第2のプリセット条件を満たし、分割後に取得したパーティションの総数は、クラスタがサポートする確定パーティションの総数Lより大きくなく、LおよびSの両方は、1より大きい自然数である、パーティション分割モジュールとを備える。   According to a fifth aspect, the present invention provides a partition management device configured to perform partition management for storage disks in a cluster, wherein the cluster includes a plurality of storage disks, and the device Is configured to obtain the number M of current storage disks in the cluster and the total number T of currently existing partitions in the cluster upon detecting that N new storage disks are about to be added to the cluster, Storage disk detection module, where M, N, and T are all natural numbers, and the mathematical relationship between the storage disk detection module and the total number T of current partitions and the total number M + N of storage disks is Configured to determine if the preset condition of 1 is met, the first If the relationship between the preset condition determination module and the first preset condition is satisfied, divide at least one current partition so that the total number of partitions acquired after splitting is S, and the partition acquired after splitting is M + A partitioning module configured to allocate to N storage disks, the mathematical relationship between the total number of partitions S obtained after the split and the total number of storage disks M + N is the second preset condition And the total number of partitions obtained after the partitioning is not larger than the total number L of deterministic partitions supported by the cluster, and both L and S are provided with a partitioning module that is a natural number larger than 1.

第5の態様の第1の実施様態においては、パーティション分割モジュールは、パーティションビューを更新する処理を実行するようにさらに構成される、ここで、パーティションビューは、カレントパーティションとIPディスクとの間の対応付けを記録する。   In a first embodiment of the fifth aspect, the partitioning module is further configured to perform a process of updating the partition view, wherein the partition view is between the current partition and the IP disk. Record the correspondence.

第6の態様によれば、本発明は、クラスタに接続されるとともに、パーティション管理をクラスタ内のストレージディスクに対して行うように構成される、パーティション管理デバイスを提供しており、クラスタは、複数のストレージディスクを含み、パーティション管理デバイスは、パーティションビューを記憶するように構成される、メモリであって、パーティションビューは、カレントパーティションのIDとストレージディスクのアドレスとの間の対応付けを記録する、メモリと、外部インターフェースを提供するように構成される、インターフェースと、コンピュータプログラムを記憶するように構成される、コンピュータ可読媒体と、メモリ、インターフェース、およびコンピュータ可読媒体に接続されるとともに、プログラムを動作することによって、インターフェースを使用して、N個の新規ストレージディスクがクラスタに追加されようとしていることを検出すると、クラスタ内のカレントストレージディスクの数量Mおよびクラスタ内の現在存在するパーティションの総数Tを獲得するステップであって、M、N、およびTは、すべての自然数である、ステップと、カレントパーティションの総数Tとストレージディスクの総数M+Nとの間の数学的関係が第1のプリセット条件を満たしているかどうかを決定するステップと、関係が第1のプリセット条件を満たす場合には、分割後に取得したパーティションの総数がSとなるように、少なくとも1つのカレントパーティションを分割して、分割後に取得したパーティションをM+N個のストレージディスクに割り振るステップであって、分割後に取得したパーティションの総数Sとストレージディスクの総数M+Nとの間の数学的関係は、第2のプリセット条件を満たし、分割後に取得したパーティションの総数は、クラスタがサポートする確定パーティションの総数Lより大きくなく、LおよびSの両方は、1より大きい自然数である、ステップとを実行するように構成される、プロセッサとを備える。   According to a sixth aspect, the present invention provides a partition management device that is connected to a cluster and configured to perform partition management on storage disks in the cluster. The partition management device is a memory configured to store a partition view, wherein the partition view records an association between the ID of the current partition and the address of the storage disk, A computer readable medium configured to store an interface and a computer program, and connected to the memory, the interface and the computer readable medium; By using the interface to detect that N new storage disks are about to be added to the cluster, the number M of current storage disks in the cluster and the total number T of currently existing partitions in the cluster are calculated. Steps to acquire, where M, N, and T are all natural numbers, and the mathematical relationship between the step and the total number of current partitions T and the total number of storage disks M + N is the first preset condition And if the relationship satisfies the first preset condition, divide at least one current partition so that the total number of partitions obtained after splitting is S, and after splitting Allocating the acquired partition to M + N storage disks, The mathematical relationship between the total number of partitions S acquired after splitting and the total number of storage disks M + N satisfies the second preset condition, and the total number of partitions acquired after splitting is the total number of confirmed partitions supported by the cluster Both L and S comprise a processor configured to perform a step that is not greater than L and both L and S are natural numbers greater than one.

第6の態様の第1の実施様態においては、プロセッサは、パーティションビューを更新する処理をさらに実行する、ここで、パーティションビューは、カレントパーティションとIPディスクとの間の対応付けを記録する。   In the first embodiment of the sixth aspect, the processor further executes a process of updating the partition view, where the partition view records the association between the current partition and the IP disk.

本発明の解決手法を使用することによって、パーティション管理デバイスは、キーバリューデータ転送を行うためにカレントパーティションを使用してもよい。カレントパーティションの数量が確定パーティションのもの未満であるため、リソース消費は、 確定パーティションが転送を行うために使用される従来技術における解決手法と比較して低減される。   By using the solution of the present invention, the partition management device may use the current partition to perform key-value data transfer. Since the number of current partitions is less than that of the deterministic partition, resource consumption is reduced compared to the prior art solution used by the deterministic partition to perform the transfer.

本発明による、ストレージシステムの実施形態のトポロジー図である。1 is a topology diagram of an embodiment of a storage system according to the present invention. FIG. 本発明による、パーティション管理方法の実施形態のフローチャートである。6 is a flowchart of an embodiment of a partition management method according to the present invention; 本発明による、コントローラの実施形態の構造図である。FIG. 4 is a structural diagram of an embodiment of a controller according to the present invention. 本発明による、パーティション管理装置の実施形態の概略図である。1 is a schematic diagram of an embodiment of a partition management device according to the present invention. 本発明による、データ処理方法の実施形態のフローチャートである。4 is a flowchart of an embodiment of a data processing method according to the present invention; 本発明による、データ処理デバイスの実施形態の構造図である。FIG. 6 is a structural diagram of an embodiment of a data processing device according to the present invention; 本発明による、データ処理装置の実施形態の概略図である。1 is a schematic diagram of an embodiment of a data processing apparatus according to the present invention.

本発明の実施形態における添付の図面を参照して本発明の実施形態における技術的解決手法を以下に明確に説明する。説明した実施形態が本発明の実施形態のすべてではなく一部にすぎないことは明らかであろう。本発明の実施形態に基づいて得られる他の実施形態のすべては、本発明の保護範囲に含まれるものとする。   The technical solutions in the embodiments of the present invention will be described clearly below with reference to the accompanying drawings in the embodiments of the present invention. It will be apparent that the embodiments described are only a part rather than all of the embodiments of the present invention. All other embodiments obtained based on the embodiments of the present invention shall fall within the protection scope of the present invention.

図1に示したように、図1は、本発明の実施形態による、ストレージシステムのトポロジー図である。アプリケーションサーバ11は、管理サーバクラスタ12に接続されており、管理サーバクラスタ12は、スイッチクラスタ13に接続されており、スイッチクラスタ13は、IPディスククラスタ14に接続されており、コントローラ15は、管理サーバクラスタ12およびIPディスククラスタ14に接続されている。管理サーバクラスタ12は、少なくとも1つの管理サーバ121からなり、IPディスククラスタ14は、少なくとも1つのIPディスク141からなる。   As shown in FIG. 1, FIG. 1 is a topology diagram of a storage system according to an embodiment of the present invention. The application server 11 is connected to the management server cluster 12, the management server cluster 12 is connected to the switch cluster 13, the switch cluster 13 is connected to the IP disk cluster 14, and the controller 15 is managed Connected to server cluster 12 and IP disk cluster 14. The management server cluster 12 includes at least one management server 121, and the IP disk cluster 14 includes at least one IP disk 141.

アプリケーションサーバ1は、データ読み込みコマンドまたはデータ書き込みコマンドを送信する。管理サーバ121は、例えば、分散オブジェクトプール(distribute object pool、DOP)であり、オブジェクトのインターフェースをアプリケーションサーバ11に提供している、ここで、オブジェクトは、非常に大きくてもよく、例えば、基本単位がGBであってもよい。   The application server 1 transmits a data read command or a data write command. The management server 121 is, for example, a distributed object pool (DOP), and provides an interface of the object to the application server 11. Here, the object may be very large, for example, a basic unit. May be GB.

オブジェクトが過度に大きい場合には、管理サーバ121は、オブジェクトを小さなセグメントに分割し得る。例えば、管理サーバ121は、オブジェクトを各々1MBのサイズを有するセグメントに分割し得る、ここで、各セグメントはバリューであり、各バリューはキーと呼ばれるタグを有する。管理サーバ121は、ハッシュ演算をキーに対して行い、計算後のハッシュ値とパーティションとのマッチングを行い得る。加えて、管理サーバ121は、パーティションビューをさらに記憶し得る、ここで、パーティションビューは、特にカレントパーティションのIDとIPディスクとの間の対応付けであり得る、IPディスクとパーティションとの間の対応付けを記録する。したがって、管理サーバは、各キーバリューに対応するIPディスクを探し出し得る。探し出されるIPディスクは、ターゲットディスクと称され、管理サーバ121は、ターゲットIPディスクのアドレスを宛先アドレスとして使用することによってIPパケットを生成して、IPパケットをスイッチクラスタ13に送信し得る。例えば、パーティションビューに記録されているコンテンツを表1に示す、ここで、iは自然数であり、mは1より大きい自然数である。   If the object is too large, the management server 121 may divide the object into small segments. For example, the management server 121 may divide the object into segments each having a size of 1 MB, where each segment is a value and each value has a tag called a key. The management server 121 can perform a hash operation on the key and perform matching between the calculated hash value and the partition. In addition, the management server 121 may further store a partition view, where the partition view may be an association between the ID of the current partition and the IP disk, in particular the correspondence between the IP disk and the partition. Record the date. Therefore, the management server can search for an IP disk corresponding to each key value. The IP disk to be found is referred to as a target disk, and the management server 121 can generate an IP packet by using the address of the target IP disk as a destination address and transmit the IP packet to the switch cluster 13. For example, the contents recorded in the partition view are shown in Table 1, where i is a natural number and m is a natural number greater than 1.

Figure 2017514217
Figure 2017514217

スイッチクラスタ13は、少なくとも1つのスイッチからなり、データ読み込みまたはデータ書き込み中に管理サーバ121とIPディスク141との間でデータを交換するために使用される。パーティションビューを検索する処理はまた、スイッチクラスタ13内のスイッチに委ねられ、スイッチクラスタ13内のスイッチによって実行されてもよい、すなわち、スイッチクラスタ13内のスイッチは、パーティションビューを記憶する。本シナリオにおいて、データをスイッチクラスタ3に送信する場合には、管理サーバ121は、IPパケットを使用せずに、キーバリューパケットと称し得る新規タイプのパケットを使用してもよい。キーバリューパケットとIPパケットとの間の違いは、キーバリューパケットの宛先アドレスが、キーを使用して、計算により取得したパーティション番号であり、パケットタイプフィールドが、IPパケットとキーバリューパケットとを区別するために使用される点だけであり、キーバリューパケットの他の部分は、IPパケットのそれと同一である。スイッチは、パーティション番号とIPディスクのアドレスとの間のマッピングテーブルを検索する、ここで、マッピングテーブルは、スイッチによって記憶され、宛先アドレスをパーティションに対応するIPディスクのアドレスに置換し、キーバリューパケットをIPパケットに変換するためにパケットタイプを修正し、その後、IPパケットを記憶するために対応するIPディスクに転送する。   The switch cluster 13 includes at least one switch, and is used for exchanging data between the management server 121 and the IP disk 141 during data reading or data writing. The process of retrieving the partition view is also left to the switches in the switch cluster 13 and may be performed by the switches in the switch cluster 13, that is, the switches in the switch cluster 13 store the partition view. In this scenario, when data is transmitted to the switch cluster 3, the management server 121 may use a new type of packet that can be referred to as a key-value packet without using an IP packet. The difference between the key value packet and the IP packet is that the destination address of the key value packet is the partition number obtained by calculation using the key, and the packet type field distinguishes between the IP packet and the key value packet. The other part of the key-value packet is the same as that of the IP packet. The switch searches the mapping table between the partition number and the IP disk address, where the mapping table is stored by the switch, replaces the destination address with the IP disk address corresponding to the partition, and the key-value packet The packet type is modified to convert the IP packet into an IP packet, and then transferred to the corresponding IP disk for storing the IP packet.

管理サーバ121においては、パーティションとIPディスクとの間の対応付けを記録する方式は、パーティション番号(パーティションIDとも称される)とIPディスクのアドレスとの間の対応付けを記録することであり得る。理解を容易にするために、対応付けの別の表現方法をすれば、パーティションは、IPディスクに属しており、さらに別の表現方法をすれば、IPディスクは、パーティションを所有している。   In the management server 121, the method of recording the association between the partition and the IP disk may be to record the association between the partition number (also referred to as partition ID) and the IP disk address. . In order to facilitate understanding, if another representation method of association is used, the partition belongs to the IP disk, and if another representation method is used, the IP disk owns the partition.

パーティションは論理的な概念であり、パーティションはストレージ領域を所有しておらず、実際にデータを記憶しているのはIPディスクである。ただし、各パーティションは、対応するIPディスクを有し、データストレージプロセス間に、パーティションに対応するIPディスクが、実際のストレージを行うために、パーティションビューを検索することによって学習され得る。ユーザの視点からは、データは、パーティションに記憶されているように見える、したがって、ときには、我々は、パーティション内にデータを記憶することとして、パーティションに対応するIPディスク内のデータを記憶するプロセスを指すこともある。   A partition is a logical concept. A partition does not own a storage area, and it is an IP disk that actually stores data. However, each partition has a corresponding IP disk, and during the data storage process, the IP disk corresponding to the partition can be learned by searching the partition view to perform the actual storage. From the user's point of view, the data appears to be stored in the partition, therefore sometimes we do the process of storing the data in the IP disk corresponding to the partition as storing the data in the partition Sometimes it points.

コントローラ15は、パーティションの総数を計算し、IPディスクに関する情報を獲得し、IPディスクとパーティションとの間の対応付けを確立し、各管理サーバにある対応付けを適宜更新するように構成される。対応付けは、パーティションビューとも称される。   The controller 15 is configured to calculate the total number of partitions, obtain information about the IP disk, establish a correspondence between the IP disk and the partition, and update the correspondence in each management server as appropriate. The association is also referred to as a partition view.

従来技術では、パーティションの総数が一定であるため、IPディスクの数量が増大するにつれて、各IPディスクに対応するパーティションは低減する。したがって、IPディスクの数量が比較的小さい場合には、各IPディスクは、必要以上のパーティションに対応することになる。例えば、背景技術における例では、25,000個のストレージディスクが存在する場合には、各ストレージディスクが100個のパーティションを有しており適切である、しかしながら、75個のストレージディスクが存在するケースでは、各ストレージディスクが33,333個のパーティションを有しており、このことは少なくとも以下の問題を生じ得るため、不適切である。   In the prior art, since the total number of partitions is constant, the number of partitions corresponding to each IP disk decreases as the number of IP disks increases. Therefore, when the number of IP disks is relatively small, each IP disk corresponds to more partitions than necessary. For example, in the example in the background art, if there are 25,000 storage disks, each storage disk has 100 partitions, which is appropriate, however, in the case where there are 75 storage disks, Each storage disk has 33,333 partitions, which is inappropriate because it can cause at least the following problems:

(1) パーティションビューが、25,000個のストレージディスクが存在するケースにおける対応付けの数量と近似する、75×33,333=2,499,975個の対応付けを有するため、パーティションビューが、過度に複雑になる。パーティションビューを使用してIPパケットを転送する場合には、管理サーバは、パーティションビュー内の対応付けを読み出す必要がある。IPディスクの数量が小さい場合には、そのような大量の対応付けを読み出す必要があり、その結果、低転送効率となる。加えて、パーティションビューを周知する場合には、コントローラは、パーティションビューを各管理サーバに周知する必要があり、このことは、比較的大きな帯域幅を占有することになる。したがって、管理サーバの必要以上の処理リソースおよびストレージシステムの必要以上の帯域幅リソースを占有している。   (1) Since the partition view has 75 × 33,333 = 2,499,975 associations that approximate the number of associations in the case where 25,000 storage disks exist, the partition view becomes excessively complicated. When transferring the IP packet using the partition view, the management server needs to read the association in the partition view. When the number of IP disks is small, it is necessary to read such a large amount of correspondence, resulting in low transfer efficiency. In addition, if the partition view is made known, the controller needs to make the partition view known to each management server, which occupies a relatively large bandwidth. Accordingly, the management server occupies more processing resources than necessary and bandwidth resources more than necessary in the storage system.

(2) データ信頼性を向上させるために、各パーティションは、別のIPディスク上にデュプリケートパーティションを有している、ここで、パーティションおよびそのデュプリケートパーティションは、異なるIPディスクに位置しているが、同一のデータを記憶している。本ケースを複数のデュプリケートと称する。パーティションBおよびパーティションCは、パーティションAのデュプリケートパーティションであると仮定する。パーティションAが位置しているIPディスク上にパケットが記憶されていると、パケットは、パーティションBが位置しているIPディスク上およびパーティションCが位置しているIPディスク上に、同時に、記憶されている。   (2) To improve data reliability, each partition has a duplicate partition on another IP disk, where the partition and its duplicate partition are located on different IP disks, The same data is stored. This case is called a plurality of duplicates. Assume that partition B and partition C are duplicate partitions of partition A. When a packet is stored on the IP disk where partition A is located, the packet is stored simultaneously on the IP disk where partition B is located and on the IP disk where partition C is located Yes.

複数のデュプリケートのシナリオにおいて、障害がIPディスク上で発生していると仮定する。障害のあるストレージディスク内のデータは、データ信頼性を保証するために、デュプリケートを使用することによってリカバリされる必要がある。具体的には、障害のあるIPディスクがパーティションのうちのデュプリケートパーティションに関して検索され、デュプリケートパーティション内のデータがコピーされる、コピーされたデータは障害が生じていないIPディスク上に記憶されている。各IPディスク内に必要以上のパーティションが存在する場合には、これらのパーティションのデュプリケートパーティションの数量も非常に大きくなり、これらのデュプリケートパーティションが大量の他のIPディスクにあることになり得る。結果として、1つのIPディスクに障害があると、大量の他のIPディスクもデータリカバリに巻き込まれることになり、データリカバリの間、データリカバリに巻き込まれたこれらすべてのIPディスクのパフォーマンスに影響を及ぼす。   Assume that a failure occurs on an IP disk in multiple duplicate scenarios. Data in a failed storage disk needs to be recovered by using duplicates to ensure data reliability. Specifically, a faulty IP disk is searched for a duplicate partition of the partitions, and data in the duplicate partition is copied. The copied data is stored on an IP disk that has not failed. If there are more partitions than necessary in each IP disk, the number of duplicate partitions for these partitions will also be very large, and these duplicate partitions may be on a large number of other IP disks. As a result, if one IP disk fails, a large number of other IP disks will also be involved in data recovery, affecting the performance of all these IP disks involved in data recovery during data recovery. Effect.

(3) 複数のデュプリケートのシナリオにおいて、各IPディスクが必要以上の数量のパーティションを有する場合には、1つのIPディスクに対して、IPディスクのパーティションのデュプリケートが大量のIPディスクに散在することになる。デュプリケートを記憶しているIPディスクの数量が比較的大きいため、障害が複数のIPディスクで同時に発生する確率が増大し、それによって、データ信頼性を低下させてしまう。   (3) In multiple duplicate scenarios, if each IP disk has an excessive number of partitions, duplicate IP disk partitions will be scattered over a large number of IP disks. Become. Since the number of IP disks storing duplicates is relatively large, the probability that a failure will occur simultaneously on multiple IP disks increases, thereby reducing data reliability.

(4) 本発明の本実施形態は、親パーティションおよび確定パーティションの概念を導入している、ここで、確定パーティションの総数は一定である、このことは、従来技術におけるパーティショニングに類似している。親パーティションは、複数のサブパーティションに分割され得るし、サブパーティションを新規サブパーティションに分割し得る場合には、サブパーティションは、次の段階のサブパーティションの親パーティションである。クラスタ内のIPディスクの数量が増大すると、分割プロセスは、確定パーティションが分割により取得されるまで、継続し得る。この場合には、クラスタ全体が所有するパーティションの数量は、確定パーティションの総数に達する。   (4) This embodiment of the present invention introduces the concept of parent partition and deterministic partition, where the total number of deterministic partitions is constant, which is similar to partitioning in the prior art . A parent partition can be divided into multiple subpartitions, and if a subpartition can be divided into new subpartitions, the subpartition is the parent partition of the next stage subpartition. As the quantity of IP disks in the cluster increases, the splitting process can continue until a deterministic partition is obtained by splitting. In this case, the number of partitions owned by the entire cluster reaches the total number of confirmed partitions.

従来技術では、ユーザにより見えるパーティションの数量とストレージシステム内部で管理されるパーティションの数量とが同一であることに留意されたい。どれほど多くのIPディスククラスタを所有していたとしてもパーティションの数量は一定であり、同時に、本発明の本実施形態では、ユーザに見えているものは、常に確定パーティションの数量である。ただし、親パーティションが確定パーティションに分割される前は、ストレージシステムは、親パーティションを使用して管理されている。すなわち、パーティションビューおよびパケット転送の両方は、親パーティションを使用して処理される。本発明の実施形態においては、特に断りのない限り、パーティションは、ストレージシステムによって管理されるパーティションを指す。   Note that in the prior art, the number of partitions visible to the user is the same as the number of partitions managed within the storage system. The number of partitions is constant no matter how many IP disk clusters are owned, and at the same time, what is visible to the user in this embodiment of the invention is always the number of deterministic partitions. However, before the parent partition is divided into fixed partitions, the storage system is managed using the parent partition. That is, both partition view and packet forwarding are handled using the parent partition. In the embodiment of the present invention, unless otherwise specified, the partition refers to a partition managed by the storage system.

クラスタ内に比較的少量のIPディスクが存在する場合には、適切な数量の親パーティションが各IPディスクに割り振られ、各IPディスクのマージしたパーティションの数量は、管理者によって指定またはシステムによって自動的に設定されてもよく、確定パーティションの数量によって制限されない。例えば、クラスタが75個のIPディスクを所有している場合には、各IPディスクは、100個の親パーティションに対応しており、75×100=7,500個のみの対応付けが、パーティションビュー内に存在することになる。クラスタが150個のIPディスクを所有しており、各親パーティションが2個のサブパーティションに分割されている場合には、各IPディスクは、100個のパーティションにいまだに対応しており、各パーティションが1つのデュプリケートを所有していると仮定すると、障害がIPディスク上で発生した場合には、影響を受ける他のIPディスクの数量は100以内に限定されることになるであろう。すなわち、本発明は、各IPディスクが所有するパーティションの数量が制御可能となるように、パーティションの数量のカスタマイズを実装し得る。本発明の本実施形態において提供した方法に基づいて、コントローラがパーティションビューを管理サーバクラスタ内の各管理サーバに送信する場合には、より小さい帯域幅が占有されることになる。加えて、対応付けのエントリの数量が低減された後は、管理サーバは、キー(key)に対応するストレージディスクのアドレスのクエリを行うことがより速くなる。   If there is a relatively small amount of IP disks in the cluster, an appropriate number of parent partitions are allocated to each IP disk, and the merged partition quantity for each IP disk is specified by the administrator or automatically by the system. May be set and is not limited by the number of committed partitions. For example, if a cluster has 75 IP disks, each IP disk corresponds to 100 parent partitions, and only 75 x 100 = 7,500 associations are displayed in the partition view. Will exist. If the cluster has 150 IP disks and each parent partition is divided into two subpartitions, each IP disk still supports 100 partitions, and each partition Assuming you own one duplicate, if a failure occurs on an IP disk, the number of other affected IP disks will be limited to 100 or less. In other words, the present invention can implement partition quantity customization so that the number of partitions owned by each IP disk can be controlled. Based on the method provided in this embodiment of the present invention, if the controller sends a partition view to each management server in the management server cluster, less bandwidth will be occupied. In addition, after the number of matching entries is reduced, the management server can query the address of the storage disk corresponding to the key faster.

アプリケーションサーバ1がデータを読み込むまたはデータを書き込む必要がある場合には、データは、順に管理サーバ21およびスイッチクラスタ3を通ってIPディスクに到達する。   When the application server 1 reads data or needs to write data, the data sequentially reaches the IP disk through the management server 21 and the switch cluster 3.

IPディスクは、記憶媒体として磁気ディスクまたはフラッシュメモリを使用し、ソフトウェア内にキーバリューインターフェースを提供し、ハードウェア内にイーサネット(登録商標)インターフェースを提供し、イーサネット(登録商標)インターフェースを介して受信したイーサネット(登録商標)フレームを展開してIPパケットを取得し得る。IPディスクは、例えば、シーゲート・テクノロジーのKinetic製品である。   The IP disk uses a magnetic disk or flash memory as a storage medium, provides a key-value interface in the software, provides an Ethernet (registered trademark) interface in hardware, and receives via the Ethernet (registered trademark) interface An IP packet can be acquired by expanding the Ethernet (registered trademark) frame. The IP disk is, for example, the Seagate Technology Kinetic product.

本発明の本実施形態においては、キーバリューデータを記憶するためのメモリは、ストレージディスクと総称される。IPディスクに加えて、別の実施様態においては、ストレージディスクはまた、キーバリューインターフェースをサポートする別のストレージデバイスを使用し、ハードウェア内に非イーサネット(登録商標)インターフェースを使用してもよい。ストレージディスクによって使用される記憶媒体は、ハードディスクまたはフラッシュメモリであってもよい。   In this embodiment of the present invention, the memory for storing the key value data is generically called a storage disk. In addition to the IP disk, in another embodiment, the storage disk may also use another storage device that supports a key-value interface and use a non-Ethernet interface in hardware. The storage medium used by the storage disk may be a hard disk or flash memory.

図2は、本発明の実施形態によるパーティション管理方法を導入し、IPディスククラスタ内のIPディスクの数量が大きくなった場合に新たに追加されたIPディスクの要件を満たすようにパーティションの数量を増大する方法を説明している。本方法は、コントローラによって実行され、方法は、以下のステップを含む。   2 introduces the partition management method according to the embodiment of the present invention, and increases the number of partitions to meet the requirements of newly added IP disks when the number of IP disks in the IP disk cluster increases Explains how to do. The method is performed by a controller, and the method includes the following steps.

ステップ21: クラスタがサポートするIPディスクの最大数量に従って、自然数である確定パーティションの数量Lを決定し、初期IPディスクの数量に従って、各IPディスクが所有する初期パーティションの数量を決定する。本ステップは、コントローラが初期化される際に実行される前置ステップであり、随意的なものである。加えて、各初期パーティションは、1つのストレージディスクに対応しており、本対応付けは、パーティションビューを使用することによって記録される。   Step 21: A fixed partition quantity L, which is a natural number, is determined according to the maximum number of IP disks supported by the cluster, and the initial partition quantity owned by each IP disk is determined according to the initial IP disk quantity. This step is a pre-step that is performed when the controller is initialized and is optional. In addition, each initial partition corresponds to one storage disk, and this association is recorded by using the partition view.

本ステップが実行された後に、コントローラは、初期IPディスクの数量をカレントIPディスクの数量Mとして記録し、各IPディスクが所有する初期パーティションの数量をカレントパーティションの数量Pとして記録する、ここで、クラスタ内の現在存在するパーティションの総数Tは、T=M・Pである。コントローラは、確定パーティションの数量Lをさらに記録する。その後に、クラスタ内のIPディスクの数量が変化または各IPディスクのパーティションの数量が変化した場合には、カレントIPディスクの数量Mおよびカレントパーティションの数量Pが更新される。本発明の実施形態においては、記号「・」は、積を表す。   After this step is executed, the controller records the initial IP disk quantity as the current IP disk quantity M and the initial partition quantity owned by each IP disk as the current partition quantity P, where The total number T of currently existing partitions in the cluster is T = M · P. The controller further records the quantity L of the confirmed partition. Thereafter, when the number of IP disks in the cluster changes or the number of partitions of each IP disk changes, the number M of current IP disks and the number P of current partitions are updated. In the embodiment of the present invention, the symbol “•” represents a product.

確定パーティションの数量は一定であり、確定パーティションは、分割することはできず、ユーザが知覚することができる。初期パーティションは、一般的に親パーティションであり、親パーティションは、分割により次の段階の親パーティションまたは確定パーティションを生成するために分割され得るパーティションである。親パーティションは、ストレージシステムによって使用され、ユーザは、親パーティションの存在を知覚することはできない。本発明の本実施形態においては、カレントパーティションは、現時点において管理サーバによって使用されるパーティションを指し、コントローラによって管理サーバに周知される。パーティションの分割が実行された場合には、カレントパーティションは、パーティション分割後に取得したパーティションである。カレントパーティションは、親パーティションであり得るし、または、確定パーティションを含み得る。   The number of deterministic partitions is constant, and deterministic partitions cannot be divided and can be perceived by the user. An initial partition is generally a parent partition, and a parent partition is a partition that can be split to generate a next stage parent partition or a deterministic partition by splitting. The parent partition is used by the storage system and the user cannot perceive the presence of the parent partition. In this embodiment of the present invention, the current partition refers to a partition that is currently used by the management server and is made known to the management server by the controller. When partition partitioning is executed, the current partition is a partition acquired after partition partitioning. The current partition can be a parent partition or can include a deterministic partition.

Lの値は、ユーザによって設定され得るし、または、システムによって自動的に割り振られ得るし、IPディスクの最大数量およびIPディスクの数量が最大である場合の各IPディスクのパーティションの数量の両方によって一般的に決定される、すなわち、L=IPディスクの最大数量×各IPディスクのパーティションの数量である。X個のパーティションを所有することが各IPディスクにとって望ましい値であると仮定する。例えば、各IPディスクが100個のパーティションを所有すること、すなわち、X=100が比較的適切な値であるとユーザが考えたとすると、IPディスククラスタがサポートすることができるIPディスクの最大数量は10,000であり、その結果、L=10,000×100=1,000,000となる。   The value of L can be set by the user or automatically allocated by the system, depending on both the maximum number of IP disks and the number of partitions on each IP disk when the number of IP disks is the maximum Generally determined, that is, L = maximum number of IP disks × number of partitions of each IP disk. Assume that owning X partitions is the desired value for each IP disk. For example, if each IP disk owns 100 partitions, that is, the user thinks that X = 100 is a relatively appropriate value, the maximum number of IP disks that an IP disk cluster can support is As a result, L = 10,000 × 100 = 1,000,000.

同様に、初期パーティションの数量は、ユーザによって設定され得るし、または、システムによって自動的に割り振られ得る。1つの随意的な方式は、初期状況において、IPディスクの数量MがM=75であり、100個のパーティションが各IPディスクに割り振られていると仮定すると、その結果、初期パーティションの総数=75×100=7,500である。本発明の方法を使用することによって、初期段階では、ストレージシステム内の各IPディスクが所有するパーティションの数量を自由に設定してもよい、ここで、パーティションの数量は、ユーザの要求を満たすとともにパーティションがストレージリソース、計算リソース、および帯域幅リソースなどの必要以上のリソースを占有しない値に設定され得る。   Similarly, the initial partition quantity can be set by the user or automatically assigned by the system. One optional scheme is that in the initial situation, assuming that the number of IP disks M is M = 75 and 100 partitions are allocated to each IP disk, the result is that the total number of initial partitions = 75 × 100 = 7,500. By using the method of the present invention, in the initial stage, the number of partitions owned by each IP disk in the storage system may be freely set, where the number of partitions meets the user's requirements. A partition may be set to a value that does not occupy more resources than necessary, such as storage resources, computational resources, and bandwidth resources.

各初期パーティションは、確定パーティションに対応している。各初期パーティションはIDを有し、IDの番号は0以上の整数である。各確定パーティションはIDを有し、番号は0以上の整数である。初期パーティションに対応する確定パーティションを取得するための方法は、確定パーティションのIDを使用して、モジュロ演算を初期パーティションの総数に対して行うことであり、剰余のバリューは、確定パーティションに対応する初期パーティションのIDを示す。この場合には、初期パーティションは、カレントパーティションである。   Each initial partition corresponds to a confirmed partition. Each initial partition has an ID, and the ID number is an integer of 0 or more. Each confirmed partition has an ID, and the number is an integer of 0 or more. The method for obtaining the deterministic partition corresponding to the initial partition is to perform a modulo operation on the total number of initial partitions using the deterministic partition ID, and the remainder value is the initial value corresponding to the deterministic partition. Indicates the partition ID. In this case, the initial partition is the current partition.

ステップ22: N個の新規IPディスクがIPディスククラスタに追加されようとしていることを検出すると、クラスタ内のカレントストレージディスクの数量Mおよびクラスタ内の現在存在するパーティションの総数Tを獲得する、ここで、M、N、およびTは、すべての自然数である。   Step 22: Upon detecting that N new IP disks are going to be added to the IP disk cluster, obtain the number M of current storage disks in the cluster and the total number T of partitions currently present in the cluster, where , M, N, and T are all natural numbers.

コントローラは、IPディスククラスタに接続されており、したがって、クラスタに追加されようとしている新規IPディスクをコントローラによって検出することができる。現時点、既にM個のIPディスクが存在しており、カレントパーティションの総数は、M・Pである。N個のIPディスクは、物理的にクラスタに接続されており、コントローラによって検出され得るが、パーティションがIPディスクに割り振られていないためデータを記憶することはできない。   The controller is connected to the IP disk cluster, so the new IP disk that is about to be added to the cluster can be detected by the controller. At present, there are already M IP disks, and the total number of current partitions is MP. The N IP disks are physically connected to the cluster and can be detected by the controller, but cannot store data because the partition is not allocated to the IP disk.

「カレント」は本ステップが実行されようとしている時点を指すことに留意されたい。本実施形態においては、コントローラが初期化された後にIPディスクは追加されない、したがって、カレントIPディスクの数量はMである。別の実施形態においては、本ステップが実行される前にIPディスククラスタ内のIPディスクの数量が変化した場合には、カレントIPディスクの数量はMではない。本ステップが実行される前にパーティションが分割されていた場合には、各IPディスクによって現時点所有されている初期パーティションの数量はPより大きい。T個のパーティションが、M個のIPディスクにおおよそ均等に割り振られている。   Note that “current” refers to the point in time at which this step is about to be performed. In this embodiment, no IP disks are added after the controller is initialized, so the number of current IP disks is M. In another embodiment, if the number of IP disks in the IP disk cluster has changed before this step is performed, the number of current IP disks is not M. If the partition was partitioned before this step was executed, the number of initial partitions currently owned by each IP disk is greater than P. T partitions are allocated approximately evenly across M IP disks.

ステップ23: カレントパーティションの数量がカレントIPディスクおよび新たに追加されたIPディスクの共通の要件を満たしているかどうかを決定し、すなわち、カレントパーティションの総数Tとストレージディスクの総数M+Nとの間の数学的関係が第1のプリセット条件を満たしているかどうかを決定する。具体的には、決定は、式M・P/(M+N)と第1の閾値とを比較する方式で行われ得る、ここで、第1の閾値は、自然数であり、第1の閾値は、コントローラによってプリセットされていてもよい。コントローラが初期化された後の第1回目に本ステップが実行される場合には、T=M・Pである。必要に応じて、前述の第1の閾値は、16、17、18、または19などの10より大きく20未満の整数であり得る。   Step 23: Determine whether the current partition quantity meets the common requirements of the current IP disk and the newly added IP disk, i.e. between the total number of current partitions T and the total number of storage disks M + N Determine whether the mathematical relation of satisfies the first preset condition. Specifically, the determination may be performed by a method of comparing the formula M · P / (M + N) and the first threshold, where the first threshold is a natural number and the first threshold May be preset by the controller. When this step is executed for the first time after the controller is initialized, T = M · P. Optionally, the first threshold described above may be an integer greater than 10 and less than 20, such as 16, 17, 18, or 19.

1つの決定方法は、T/(M+N)が第1の閾値未満である場合には、第1のプリセット条件を満たしており、分割を行う必要がある。各IPディスクが所有するパーティションの数量が分割閾値未満である(または、分割閾値以下に設定され得る)場合には、分割を実行しなければ、各IPディスクが所有するパーティションの数量が過度に小さくなる、したがって、分割によりパーティションの総数を増大する必要があり、その結果、ステップ24が実行される。各IPディスクが所有するパーティションの数量が分割閾値未満ではない場合には、ステップ25が実行される。   In one determination method, when T / (M + N) is less than the first threshold, the first preset condition is satisfied, and division is necessary. If the number of partitions owned by each IP disk is less than the partitioning threshold (or can be set below the partitioning threshold), the number of partitions owned by each IP disk will be too small without performing partitioning. Therefore, the total number of partitions needs to be increased by partitioning, so that step 24 is executed. If the number of partitions owned by each IP disk is not less than the division threshold, step 25 is executed.

別の決定方法は、各IPディスクが所有するパーティションの平均数量が、1回目のパーティション分割後、閾値より大きい(または、閾値以上に設定され得る)場合には、分割を行えば、各IPディスクが所有するパーティションの数量が過度に大きくなることを示しており、その結果、ステップ25が実行される。各IPディスクが所有するパーティションの平均数量が閾値より大きくない場合には、ステップ24が実行される。加えて、2つの決定方法はまた、決定を行うように組み合わされてもよく、サービスに対して最も高い満足度を有する解決手法が選択される。以下の実施形態のすべては、第1の決定方法を例として使用することによって、本発明を説明している。   Another determination method is that if the average number of partitions owned by each IP disk is greater than the threshold (or can be set to be higher than the threshold) after the first partitioning, each IP disk can be divided. Indicates that the number of partitions owned by is excessively large, so that step 25 is executed. If the average number of partitions owned by each IP disk is not greater than the threshold, step 24 is executed. In addition, the two decision methods may also be combined to make a decision, and the solution with the highest satisfaction with the service is selected. All of the following embodiments illustrate the present invention by using the first determination method as an example.

ステップ24: 分割後に取得したパーティションの数量が要件を満たすまで、1回分割または複数回分割され得る少なくとも1つのカレントパーティションを分割する、その後、ステップ26を実行する。分割後に取得したパーティションの数量が要件を満たすということは、分割後に取得したパーティションの総数Sとストレージディスクの総数M+Nとの間の数学的関係が第2のプリセット条件を満たし、分割後に取得したパーティションの総数が確定パーティションの総数Lより大きくないということであり得る。複数回分割するということは、分割により生成したパーティションに対して複数回の分割を行うことを指す。   Step 24: Divide at least one current partition that can be divided once or multiple times until the number of partitions obtained after the division satisfies the requirement, and then execute step 26. The fact that the number of partitions acquired after splitting satisfies the requirement means that the mathematical relationship between the total number S of partitions acquired after splitting and the total number of storage disks M + N satisfies the second preset condition and is acquired after splitting. It may be that the total number of partitions made is not larger than the total number L of confirmed partitions. Dividing a plurality of times refers to dividing a partition generated by the division a plurality of times.

分割後に取得したパーティションの総数Sとストレージディスクの総数M+Nとの間の数学的関係が第2のプリセット条件を満たすということは、特に、S/(M+N)が第2の閾値以上であり、第2の閾値が自然数であるということであり得る。第2の閾値は、例えば、25、26、27、48、または49などの25より大きく50未満の自然数であり得る。   The mathematical relationship between the total number of partitions obtained after splitting S and the total number of storage disks M + N satisfies the second preset condition, in particular, S / (M + N) is greater than or equal to the second threshold And the second threshold may be a natural number. The second threshold may be a natural number greater than 25 and less than 50, such as 25, 26, 27, 48, or 49, for example.

分割後に取得したパーティションの数量が要件を満たしているかどうかを決定するための様々な方式が存在し得る。例えば、分割後に取得したパーティションの総数Sとストレージディスクの総数M+Nとの間の数学的関係が第2のプリセット条件を満たす場合には、分割は終了する。具体的には、例えば、分割後の各IPディスクが所有するパーティションの平均数量が第2の閾値以上である場合には、第2のプリセット条件を満たしているとみなされ、分割は終了する。あるいは、分割後の各IPディスクが所有するパーティションの平均数量がプリセット閾値範囲を満たす場合には、要件を満たしているとみなす。   There can be various schemes for determining whether the quantity of partitions obtained after splitting meets the requirement. For example, when the mathematical relationship between the total number S of partitions acquired after the division and the total number M + N of the storage disks satisfies the second preset condition, the division ends. Specifically, for example, when the average number of partitions owned by each IP disk after the division is equal to or greater than the second threshold, it is considered that the second preset condition is satisfied, and the division ends. Alternatively, if the average number of partitions owned by each divided IP disk satisfies the preset threshold range, it is considered that the requirement is satisfied.

各回の分割において各パーティションを複数のサブパーティションに分割する場合には、各パーティションを同一の数量のサブパーティションに分割する。第1回目の分割から分割の終了までのパーティションの数量を変化させる倍率を分割係数と称する。各親パーティションを各回の分割において2つのサブパーティションに分割すると仮定する。その結果、1回目の分割後に分割が終了した場合には、分割係数は2であり、2回目の分割後に分割が終了した場合には、分割係数は22である。 When each partition is divided into a plurality of subpartitions in each division, each partition is divided into the same number of subpartitions. A magnification that changes the number of partitions from the first division to the end of the division is referred to as a division coefficient. Assume that each parent partition is split into two subpartitions in each split. As a result, when the division after the first division is completed, the decimation factor is 2, when the split after the second division is completed, the decimation factor is 2 2.

少なくとも1つのカレントパーティションを分割することがすべてのカレントパーティションを分割することを指す場合には、分割後に取得したパーティションの総数S=T×分割係数である。少なくとも1つのカレントパーティションを分割することが一部のカレントパーティションを分割することを指す場合には、分割後に取得したパーティションの総数S<T×分割係数である。前者の分割方式における分割速度がより高く、後者の分割方式においては、分割後に取得したパーティションの総数の調整機能がより優れている。説明の便宜上、本発明の本実施形態を前者の分割方式を使用して説明する。   If dividing at least one current partition indicates dividing all current partitions, the total number of partitions obtained after the division is S = T × the division coefficient. When dividing at least one current partition indicates dividing some current partitions, the total number of partitions obtained after the division is S <T × division coefficient. The former division method has a higher division speed, and the latter division method has a better adjustment function of the total number of partitions obtained after the division. For convenience of explanation, this embodiment of the present invention will be described using the former division method.

後者の分割方法の例を以下に示す。確定パーティションの総数が1,000であり、カレントパーティションの総数が512であり、分割係数が2であると仮定すれば、各パーティションを分割すると、確定パーティションの総数を超過した、1,024個のパーティションが分割後に取得されることになる。カレントパーティションの総数が確定パーティションの総数より大きいことは認められない。このようなケースを避けるために、488個のカレントパーティションだけを分割し得る、つまり、488+512=1,000となる、すなわち、分割後に取得したカレントパーティションの総数は、1,000にちょうど達し、確定パーティションの総数より大きくならない。加えて、1,000個のカレントパーティションは過度に大きな数量であるとユーザが考えたとすると、例えば、分割後に取得したカレントパーティションの総数が800に達することが最も適切であるとユーザが考えたとすると、分割後に取得したカレントパーティションの総数が800にちょうど達するように、512個のカレントパーティションの288個のパーティションを分割係数2に従って分割し得る。後者の分割方法を使用して、1個のパーティションだけを毎回分割することであってもよく、分割係数が2である場合には、分割前後のカレントパーティションの総数の差は1であり、したがって、パーティションを分割するための粒度は最小である。   An example of the latter division method is shown below. Assuming that the total number of deterministic partitions is 1,000, the total number of current partitions is 512, and the division factor is 2, dividing each partition will result in 1,024 partitions exceeding the total number of deterministic partitions after being divided Will be acquired. The total number of current partitions is not allowed to be greater than the total number of committed partitions. To avoid such a case, only 488 current partitions can be split, i.e. 488 + 512 = 1,000, i.e. the total number of current partitions obtained after splitting has just reached 1,000, and It will not be larger than the total number. In addition, if the user thinks that 1,000 current partitions are an excessively large quantity, for example, if the user thinks that it is most appropriate that the total number of current partitions obtained after splitting reaches 800, then splitting The 288 partitions of the 512 current partitions can be divided according to the division factor 2 so that the total number of current partitions acquired later just reaches 800. Using the latter partitioning method, it may be that only one partition is split each time, and when the partitioning factor is 2, the difference in the total number of current partitions before and after the partitioning is 1, so The granularity for partitioning is minimal.

加えて、前述の実施形態に基づいて、分割係数を変更してもよい。例えば、第1回目の分割中は、2が分割係数として使用されるが、第2回目の分割中は、分割係数が5に変更される。このことは、分割後に取得したパーティションの総数の値をより調整可能にする目的を達成することもできる。   In addition, the division coefficient may be changed based on the above-described embodiment. For example, 2 is used as the division coefficient during the first division, but the division coefficient is changed to 5 during the second division. This can also achieve the purpose of making the value of the total number of partitions obtained after the division more adjustable.

カレントパーティションと確定パーティションとの間に対応付けが存在しており、本対応付けは、コントローラに記憶され得るし、コントローラによって各管理サーバに周知され得る。各カレントパーティションはIDを有し、カレントパーティションのIDは0以上の整数であり得る。総計T個のカレントパーティションが存在しており、T個のカレントパーティションのIDは、初項が0であり、公差が1であり、項数がTである、等差数列を形成する。各確定パーティションはIDを有し、確定パーティションのIDは0以上の整数であり得る。総計S個の確定パーティションが存在しており、S個の確定パーティションのIDは、初項が0であり、差が1であり、項数がSである、等差数列を形成する。例えば、12個のパーティションを24個のパーティションに分割する、ここで、分割前のパーティションのIDは、0、1、2、3、...、9、10、および11であり、分割後のパーティションのIDは、0、1、2、3、...、21、22、および23である。   There is an association between the current partition and the confirmed partition, and this association can be stored in the controller or can be made known to each management server by the controller. Each current partition has an ID, and the ID of the current partition can be an integer greater than or equal to zero. There are a total of T current partitions, and the IDs of the T current partitions form an equidistant sequence in which the first term is 0, the tolerance is 1, and the number of terms is T. Each deterministic partition has an ID, and the deterministic partition ID may be an integer greater than or equal to zero. There are a total of S definite partitions, and the IDs of the S definite partitions form an equidistant sequence in which the first term is 0, the difference is 1, and the number of terms is S. For example, divide 12 partitions into 24 partitions, where the partition IDs before split are 0, 1, 2, 3, ..., 9, 10, and 11, and after split The partition IDs are 0, 1, 2, 3, ..., 21, 22, and 23.

パーティションを分割した後は、パーティションID生成ルールは、分割後に取得したパーティションにおいて、1つのパーティションがパーティションの元のIDを保持し、他のパーティションのIDの値およびパーティションの元のIDの値が等差数列を形成することであってもよい、ここで、数列の項は、分割前のパーティションの総数Mの公差で漸増する。例えば、分割前に総計200個のパーティションが存在しており、分割後には、各パーティションが3個のパーティションに分割され、IDが21であるパーティションの分割後に生成される3個のパーティションのIDは、順に221、421、および621である。全分割プロセスが終了した後に、カレントパーティションのIDが、初項が0であり、公差が1であり、漸増する、等差数列をさらに形成するならば、本ID生成ルールを変更してもよい。   After partitioning, the partition ID generation rule is that the partition acquired after partitioning has one partition holding the original ID of the partition, the ID value of the other partition, the original ID value of the partition, etc. It may be to form a difference sequence, where the terms in the sequence increase gradually with a tolerance of the total number M of partitions before splitting. For example, there are a total of 200 partitions before splitting, and after splitting, each partition is split into 3 partitions, and the IDs of the 3 partitions generated after splitting the partition with ID 21 are , 221, 421, and 621 in this order. If the ID of the current partition is 0 in the first term, the tolerance is 1, and the incremental number sequence is further increased after the whole split process is completed, this ID generation rule may be changed. .

例えば、別のパーティションID生成ルールによれば、IDが0であるパーティションを分割することによって取得した3個のパーティションのIDは、0、201、および202でさらにあり得るし、IDが1であるパーティションを分割することによって取得したパーティションのIDは、1、203、および204であり、IDが3であるパーティションを分割することによって取得したパーティションのIDは、3、205、および206であり、他のパーティションのIDも同様に取得することができる。   For example, according to another partition ID generation rule, IDs of three partitions obtained by dividing a partition with ID 0 can be further 0, 201, and 202, and ID 1 is The partition IDs obtained by splitting the partitions are 1, 203, and 204, the partition IDs obtained by splitting the partition with ID 3 are 3, 205, and 206, and others The partition ID can be obtained in the same way.

カレントパーティションの総数Sが確定パーティションの総数Lにまさに達しようとしている場合には、次のようなケースが生じ得る、すなわち、各パーティションを1回分割することによって生成されたパーティションの総数が確定パーティションの総数Lより大きい場合には、パーティションの総数が分割により増大され得るので、パーティションの総数が確定パーティションの総数Lを超過しないように、パーティションの一部のみが分割されるまたは分割係数が低減されることになり得ることに留意されたい。   If the total number S of current partitions is about to reach the total number L of defined partitions, the following case can occur: the total number of partitions generated by dividing each partition once is the fixed partition If the total number of partitions is greater than L, the total number of partitions can be increased by splitting, so that only a part of the partition is split or the split factor is reduced so that the total number of partitions does not exceed the total number L of committed partitions. Note that it can be.

ステップ25: M・P個のパーティションがM+N個のIPディスクに均等に分布するように、元のM個のIPディスクが所有するパーティションの一部を新たに追加されたN個のIPに移行するべく、パーティション移行を行う。ステップ25が実行された後は、システム全体におけるパーティションの総数は変化しないので、各IPディスクが所有するパーティションの平均数量は低減する。ステップ24とステップ25とは二者択一的に実行される。パーティション管理方法のすべての実施形態においては、ステップ24が実行された後に、ステップ25またはステップ26は実行されない。   Step 25: Part of the partitions owned by the original M IP disks are newly added to the N IPs so that the M / P partitions are evenly distributed on the M + N IP disks Perform partition migration to migrate. After step 25 is executed, the total number of partitions in the entire system does not change, so the average number of partitions owned by each IP disk is reduced. Step 24 and step 25 are executed alternatively. In all embodiments of the partition management method, step 25 or step 26 is not performed after step 24 is performed.

ステップ26: コントローラに記録されているカレントIPディスクの総数をM+Nに更新し、カレントパーティションの総数をSに更新する。本ステップを、ステップ24と同時に実行してもよい。各IPディスクのカレントパーティションの数量はおおよそS/(M+N)である、したがって、パーティションの総数Sを記録しなくてもよく、その代わりに、クラスタ内の各IPディスクのカレントパーティションの数量がおおよそS/(M+N)であることを記録する。   Step 26: Update the total number of current IP disks recorded in the controller to M + N and update the total number of current partitions to S. This step may be executed simultaneously with step 24. The number of current partitions on each IP disk is approximately S / (M + N), so it is not necessary to record the total number of partitions S; instead, the number of current partitions on each IP disk in the cluster is Record approximately S / (M + N).

ステップ26は次回の分割のための準備であり、したがって、カレントパーティション管理処理にとって、ステップ26は必須のステップではない。   Step 26 is preparation for the next division, and therefore step 26 is not an essential step for the current partition management process.

S個のカレントパーティションをM+N個のIPディスクに割り振っていることに留意されたい。パーティションビューを更新する処理がさらに実行されてもよい、ここで、パーティションビューは、カレントパーティションに対応するIPディスクを記録しており、特にカレントパーティションのIDとIPディスクのアドレスとの間の対応付けであり得る。パーティションビューを更新する処理をステップ24またはステップ26で実行してもよい。以下のデータ処理方法は、本ステップで更新されたパーティションビューを使用してもよい。実際には、カレントパーティションとIPディスクとの間の対応付けが正しく記録された後のみパーティションを使用することができるため、本発明の別の実施形態においては、カレントパーティションに対する変化が引き起こされた場合には、パーティションビューを更新する処理が実行される必要がある。   Note that S current partitions are allocated to M + N IP disks. The process of updating the partition view may be further executed. Here, the partition view records the IP disk corresponding to the current partition, and particularly the association between the ID of the current partition and the IP disk address. It can be. The process of updating the partition view may be executed in step 24 or step 26. The following data processing method may use the partition view updated in this step. In fact, in another embodiment of the present invention, when a change to the current partition is caused, the partition can only be used after the association between the current partition and the IP disk has been recorded correctly. In this case, a process for updating the partition view needs to be executed.

前述のパーティション管理方法が図3に示したハードウェアを使用して実行されてもよい。図3においては、コントローラ3は、インターフェース31、プロセッサ32、および記憶媒体33を備える。   The partition management method described above may be executed using the hardware shown in FIG. In FIG. 3, the controller 3 includes an interface 31, a processor 32, and a storage medium 33.

インターフェース31は、例えば、ストレージディスククラスタおよび管理サーバと接続するために、外部インターフェースを提供するように構成される。記憶媒体33は、コンピュータプログラムコードを記憶するように構成される。プロセッサ32は、記憶媒体33内のプログラムコードを動作することによって前述のパーティション管理方法を実行する。   The interface 31 is configured to provide an external interface to connect to, for example, a storage disk cluster and a management server. The storage medium 33 is configured to store computer program code. The processor 32 executes the partition management method described above by operating the program code in the storage medium 33.

図4を参照すれば、本発明の実施形態は、パーティション管理装置4をさらに提供している、ここで、パーティション管理装置4は、ハードウェア、または、ソフトウェアによって形成された仮想ハードウェアであり得る。パーティション管理装置4は、前述のパーティション管理方法を実行し得る。パーティション管理装置4は、ストレージディスク検出モジュール41、第1のプリセット条件決定モジュール42、およびパーティション分割モジュール43を含む。必要に応じて、パーティション管理装置4は、初期化モジュール40をさらに備えていてもよい。必要に応じて、パーティション管理装置4は、更新モジュール44をさらに備えていてもよい。   Referring to FIG. 4, the embodiment of the present invention further provides a partition management device 4, wherein the partition management device 4 may be hardware or virtual hardware formed by software. . The partition management device 4 can execute the partition management method described above. The partition management device 4 includes a storage disk detection module 41, a first preset condition determination module 42, and a partition division module 43. The partition management device 4 may further include an initialization module 40 as necessary. The partition management device 4 may further include an update module 44 as necessary.

初期化モジュール40は、クラスタ内のIPディスクの最大数量に従って、自然数である確定パーティションの数量Lを決定し、初期IPディスクの数量に従って、各IPディスクが所有する初期パーティションの数量を決定するように構成される。本ステップは、コントローラが初期化される際にのみ実行される前置ステップである、したがって、随意的なものである。   The initialization module 40 determines the number L of fixed partitions that are natural numbers according to the maximum number of IP disks in the cluster, and determines the number of initial partitions owned by each IP disk according to the number of initial IP disks. Composed. This step is a pre-step that is performed only when the controller is initialized, and is therefore optional.

更新モジュール44は、初期IPディスクの数量をカレントIPディスクの数量Mとして記録し得るし、各IPディスクが所有する初期パーティションの数量をカレントパーティションの数量Pとして記録する、ここで、クラスタ内の現在存在するパーティションの総数Tは、T=M・Pである。更新モジュール44は、確定パーティションの数量Lをさらに記録する。その後に、クラスタ内のIPディスクの数量が変化または各IPディスクのパーティションの数量が変化した場合には、カレントIPディスクの数量Mおよびカレントパーティションの数量Pが更新される。本発明の実施形態においては、記号「・」は、積を表す。   The update module 44 may record the initial IP disk quantity as the current IP disk quantity M and record the initial partition quantity owned by each IP disk as the current partition quantity P, where The total number T of existing partitions is T = M · P. The update module 44 further records the quantity L of confirmed partitions. Thereafter, when the number of IP disks in the cluster changes or the number of partitions of each IP disk changes, the number M of current IP disks and the number P of current partitions are updated. In the embodiment of the present invention, the symbol “•” represents a product.

確定パーティションの数量は一定であり、確定パーティションは、分割することはできず、ユーザが知覚することができる。初期パーティションは、一般的に親パーティションであり、親パーティションは、分割により次の段階の親パーティションまたは確定パーティションを生成するために分割され得るパーティションである。親パーティションは、ストレージシステムによって使用され、ユーザは、親パーティションの存在を知覚することはできない。   The number of deterministic partitions is constant, and deterministic partitions cannot be divided and can be perceived by the user. An initial partition is generally a parent partition, and a parent partition is a partition that can be split to generate a next stage parent partition or a deterministic partition by splitting. The parent partition is used by the storage system and the user cannot perceive the presence of the parent partition.

Lの値は、ユーザによって設定され得るし、または、システムによって自動的に割り振られ得るし、IPディスクの最大数量およびIPディスクの数量が最大である場合の各IPディスクの数量の両方によって一般的に決定される、すなわち、L=IPディスクの最大数量×各IPディスクのパーティションの数量である。X個のパーティションを所有することが各パーティションにとって望ましい値であると仮定する。例えば、各IPディスクが100個のパーティションを所有すること、すなわち、X=100が比較的適切な値であるとユーザが考えたとすると、IPディスククラスタがサポートすることができるIPディスクの最大数量は10,000であり、その結果、L=10,000×100=1,000,000となる。   The value of L can be set by the user or can be automatically allocated by the system and is generally dependent on both the maximum number of IP disks and the quantity of each IP disk when the number of IP disks is the maximum That is, L = the maximum number of IP disks × the number of partitions of each IP disk. Assume that owning X partitions is the desired value for each partition. For example, if each IP disk owns 100 partitions, that is, the user thinks that X = 100 is a relatively appropriate value, the maximum number of IP disks that an IP disk cluster can support is As a result, L = 10,000 × 100 = 1,000,000.

同様に、初期パーティションの数量は、ユーザによって設定され得るし、または、システムによって自動的に割り振られ得る。1つの随意的な方式は、初期状況において、IPディスクの数量MがM=75であり、100個のパーティションが各パーティションに割り振られていると仮定すると、その結果、初期パーティションの総数=75×100=7,500である。本発明の方法を使用することによって、初期段階では、ストレージシステム内の各IPディスクが所有するパーティションの数量を自由に設定してもよい、ここで、パーティションの数量は、ユーザの要求を満たすとともにパーティションがストレージリソース、計算リソース、および帯域幅リソースなどの必要以上のリソースを占有しない値に設定され得る。   Similarly, the initial partition quantity can be set by the user or automatically assigned by the system. One optional scheme is that in the initial situation, assuming that the number M of IP disks is M = 75 and 100 partitions are allocated to each partition, the result is the total number of initial partitions = 75 × 100 = 7,500. By using the method of the present invention, in the initial stage, the number of partitions owned by each IP disk in the storage system may be freely set, where the number of partitions meets the user's requirements. A partition may be set to a value that does not occupy more resources than necessary, such as storage resources, computational resources, and bandwidth resources.

ストレージディスク検出モジュール41は、N個の新規ストレージディスクがクラスタに追加されようとしていることを検出すると、クラスタ内のカレントストレージディスクの数量Mおよびクラスタ内の現在存在するパーティションの総数Tを獲得するように構成される、ここで、M、N、およびTは、すべての自然数である。   When the storage disk detection module 41 detects that N new storage disks are about to be added to the cluster, it obtains the number M of current storage disks in the cluster and the total number T of partitions currently in the cluster. Where M, N, and T are all natural numbers.

パーティション管理装置4は、IPディスククラスタに接続されており、したがって、クラスタに新たに追加されたIPディスクをストレージディスク検出モジュール41によって検出することができる。現時点、既にM個のIPディスクが存在しており、カレントパーティションの総数は、M・Pである。N個のIPディスクは、物理的にクラスタに接続されており、ストレージディスク検出モジュール41によって検出され得るが、パーティションがIPディスクに割り振られていないためデータを記憶することはできない。   The partition management device 4 is connected to the IP disk cluster. Therefore, the storage disk detection module 41 can detect the IP disk newly added to the cluster. At present, there are already M IP disks, and the total number of current partitions is MP. The N IP disks are physically connected to the cluster and can be detected by the storage disk detection module 41, but data cannot be stored because the partition is not allocated to the IP disk.

「カレント」は処理が実行されようとしている時点を指すことに留意されたい。本実施形態においては、パーティション管理装置4が初期化された後にIPディスクは追加されない、したがって、カレントIPディスクの数量はMである。別の実施形態においては、本ステップが実行される前にIPディスククラスタ内のIPディスクの数量が変化した場合には、カレントIPディスクの数量はMではない。本ステップが実行される前にパーティションが分割されていた場合には、各IPディスクによって現時点所有されている初期パーティションの数量はPより大きい。T個のパーティションが、M個のIPディスクにおおよそ均等に割り振られている。   Note that “current” refers to the point in time when the process is about to be executed. In the present embodiment, no IP disk is added after the partition management device 4 is initialized. Therefore, the number of current IP disks is M. In another embodiment, if the number of IP disks in the IP disk cluster has changed before this step is performed, the number of current IP disks is not M. If the partition was partitioned before this step was executed, the number of initial partitions currently owned by each IP disk is greater than P. T partitions are allocated approximately evenly across M IP disks.

第1のプリセット条件決定モジュール42は、カレントパーティションの総数Tとストレージディスクの総数M+Nとの間の数学的関係が第1のプリセット条件を満たしているかどうかを決定するように構成される。   The first preset condition determination module 42 is configured to determine whether the mathematical relationship between the total number T of current partitions and the total number M + N of storage disks satisfies the first preset condition.

カレントパーティションの数量がカレントIPディスクおよび新たに追加されたIPディスクの共通の要件を満たしているかどうかを決定する。すなわち、カレントパーティションの総数Tとストレージディスクの総数M+Nとの間の数学的関係が第1のプリセット条件を満たしているかどうかを決定する、ここで、決定は、式T/(M+N)と第1の閾値とを比較する方式で行われ得る。分割閾値は、コントローラによってプリセットされていてもよい。コントローラが初期化された後の第1回目に本処理が実行される場合には、T=M・Pである。第1の閾値は、16、17、18、19、または20などの10より大きく20未満の整数であり得る。   Determine whether the current partition quantity meets the common requirements of the current IP disk and the newly added IP disk. That is, determine whether the mathematical relationship between the total number T of current partitions and the total number M + N of storage disks satisfies the first preset condition, where the determination is the formula T / (M + N ) And the first threshold. The division threshold value may be preset by the controller. When this process is executed for the first time after the controller is initialized, T = M · P. The first threshold may be an integer greater than 10 and less than 20, such as 16, 17, 18, 19, or 20.

1つの決定方法は、T/(M+N)が第1の閾値未満である場合には、第1のプリセット条件を満たしており、分割を行う必要がある。各IPディスクが所有するパーティションの数量が分割閾値未満である(または、分割閾値以下に設定され得る)場合には、分割を実行しなければ、各IPディスクが所有するパーティションの数量が過度に小さくなることを示しており、その結果、少なくとも1つのカレントパーティションを分割する必要がある。各IPディスクが所有するパーティションの数量が分割閾値未満ではない場合には、パーティション移行を行う必要がある。   In one determination method, when T / (M + N) is less than the first threshold, the first preset condition is satisfied, and division is necessary. If the number of partitions owned by each IP disk is less than the partitioning threshold (or can be set below the partitioning threshold), the number of partitions owned by each IP disk will be too small without performing partitioning. As a result, at least one current partition needs to be split. If the number of partitions owned by each IP disk is not less than the partitioning threshold, partition migration must be performed.

別の決定方法は、各IPディスクが所有するパーティションの平均数量が、1回目のパーティション分割後、閾値より大きい(または、閾値以上に設定され得る)場合には、分割を行えば、各IPディスクが所有するパーティションの数量が過度に大きくなることを示しており、その結果、パーティション移行を行う必要がある。各IPディスクが所有するパーティションの平均数量が閾値より大きくない場合には、少なくとも1つのカレントパーティションを分割する必要がある。加えて、2つの決定方法はまた、決定を行うように組み合わされてもよく、サービスに対して最も高い満足度を有する解決手法が選択される。以下の実施形態のすべては、第1の決定方法を例として使用することによって、本発明を説明している。   Another determination method is that if the average number of partitions owned by each IP disk is greater than the threshold (or can be set to be higher than the threshold) after the first partitioning, each IP disk can be divided. Indicates that the number of partitions owned by is excessively large, and as a result, partition migration must be performed. If the average number of partitions owned by each IP disk is not greater than the threshold, at least one current partition must be split. In addition, the two decision methods may also be combined to make a decision, and the solution with the highest satisfaction with the service is selected. All of the following embodiments illustrate the present invention by using the first determination method as an example.

パーティション分割モジュール43については、第1のプリセット条件決定モジュール42による決定の結果が、関係が第1のプリセット条件を満たしていることである場合には、パーティション分割モジュール43は、分割後に取得したパーティションの総数がSとなるように、少なくとも1つのカレントパーティションを分割し、分割後に取得したパーティションをM+N個のストレージディスクに割り振るように構成される。分割後に取得したパーティションの総数Sとストレージディスクの総数M+Nとの間の数学的関係は、第2のプリセット条件を満たし、分割後に取得したパーティションの総数は、クラスタがサポートする確定パーティションの総数Lより大きくなく、LおよびSの両方は、1より大きい自然数である。分割後に取得したパーティションは、M+N個のストレージディスクに均等に割り振られ得る、または、M+N個のストレージディスクにおおよそ均等に割り振られる。   For the partitioning module 43, if the result of the determination by the first preset condition determining module 42 is that the relationship satisfies the first preset condition, the partitioning module 43 acquires the partition acquired after the partitioning. It is configured to divide at least one current partition so that the total number of S becomes S, and allocate the partitions acquired after the division to M + N storage disks. The mathematical relationship between the total number of partitions S acquired after splitting and the total number of storage disks M + N satisfies the second preset condition, and the total number of partitions acquired after splitting is the total number of confirmed partitions supported by the cluster Not greater than L, both L and S are natural numbers greater than 1. The partitions obtained after the division can be evenly allocated to M + N storage disks, or are approximately equally allocated to M + N storage disks.

分割後に取得したパーティションの数量が要件を満たすまで、少なくとも1つのカレントパーティションは、1回分割され得る、または、複数回分割され得る。分割後に取得したパーティションの総数Sとストレージディスクの総数M+Nとの間の数学的関係が第2のプリセット条件を満たすということは、特に、S/(M+N)が第2の閾値以上であり、第2の閾値が自然数であるということであり得る。第2の閾値は、例えば、47、48、49、または50などの25より大きく50未満の自然数であり得る。   At least one current partition can be split once or can be split multiple times until the quantity of partitions obtained after the split meets the requirement. The mathematical relationship between the total number of partitions obtained after splitting S and the total number of storage disks M + N satisfies the second preset condition, in particular, S / (M + N) is greater than or equal to the second threshold And the second threshold may be a natural number. The second threshold may be a natural number greater than 25 and less than 50, such as 47, 48, 49, or 50, for example.

分割後に取得したパーティションの数量が要件を満たしているかどうかを決定するための様々な方式が存在し得る。例えば、分割後に取得したパーティションの総数Sとストレージディスクの総数M+Nとの間の数学的関係が第2のプリセット条件を満たす場合には、分割は終了する。具体的には、例えば、分割後の各IPディスクが所有するパーティションの平均数量が第2の閾値以上である場合には、第2のプリセット条件を満たしているとみなされ、分割の継続は終了する。あるいは、分割後の各IPディスクが所有するパーティションの平均数量がプリセット閾値範囲を満たす場合には、要件を満たしているとみなす。   There can be various schemes for determining whether the quantity of partitions obtained after splitting meets the requirement. For example, when the mathematical relationship between the total number S of partitions acquired after the division and the total number M + N of the storage disks satisfies the second preset condition, the division ends. Specifically, for example, if the average number of partitions owned by each divided IP disk is greater than or equal to the second threshold value, it is considered that the second preset condition is satisfied, and the continuation of the division ends. To do. Alternatively, if the average number of partitions owned by each divided IP disk satisfies the preset threshold range, it is considered that the requirement is satisfied.

各回の分割において各パーティションを複数のサブパーティションに分割する場合には、各パーティションを同一の数量のサブパーティションに分割する。第1回目の分割から分割の終了までのパーティションにおける変化の倍率を分割係数と称する。各親パーティションを各回の分割において2つのサブパーティションに分割すると仮定する。その結果、1回目の分割後に分割が終了した場合には、分割係数は2であり、2回目の分割後に分割が終了した場合には、分割係数は22である。 When each partition is divided into a plurality of subpartitions in each division, each partition is divided into the same number of subpartitions. The magnification of the change in the partition from the first division to the end of the division is called a division coefficient. Assume that each parent partition is split into two subpartitions in each split. As a result, when the division after the first division is completed, the decimation factor is 2, when the split after the second division is completed, the decimation factor is 2 2.

少なくとも1つのカレントパーティションを分割することがすべてのカレントパーティションを分割することを指す場合には、分割後に取得したパーティションの総数S=T×分割係数である。少なくとも1つのカレントパーティションを分割することが一部のカレントパーティションを分割することを指す場合には、分割後に取得したパーティションの総数S<T×分割係数である。前者の分割方式における分割速度がより高く、後者の分割方式においては、分割後に取得したパーティションの総数の調整機能がより優れている。具体的な詳細については、パーティション管理方法の実施形態の説明を参照されたい。説明の便宜上、本発明の本実施形態を前者の分割方式を使用して説明する。   If dividing at least one current partition indicates dividing all current partitions, the total number of partitions obtained after the division is S = T × the division coefficient. When dividing at least one current partition indicates dividing some current partitions, the total number of partitions obtained after the division is S <T × division coefficient. The former division method has a higher division speed, and the latter division method has a better adjustment function of the total number of partitions obtained after the division. For specific details, refer to the description of the embodiment of the partition management method. For convenience of explanation, this embodiment of the present invention will be described using the former division method.

後者の分割方法の例を以下に示す。確定パーティションの総数が1,000であり、カレントパーティションの総数が512であり、分割係数が2であると仮定すれば、各パーティションを分割すると、確定パーティションの総数を超過した、1,024個のパーティションが分割後に取得されることになる。カレントパーティションの総数が確定パーティションの総数より大きいことは認められない。このようなケースを避けるために、488個のカレントパーティションだけを分割し得る、つまり、488+512=1,000となる、すなわち、分割後に取得したカレントパーティションの総数は、1,000にちょうど達し、確定パーティションの総数の値より大きくならない。加えて、1,000個のカレントパーティションは過度に大きな数量であるとユーザが考えたとすると、例えば、分割後に取得したカレントパーティションの総数が800に達することが最も適切であるとユーザが考えたとすると、分割後に取得したカレントパーティションの総数が800にちょうど達するように、512個のカレントパーティションの288個のパーティションを分割係数2に従って分割し得る。後者の分割方法を使用して、1個のパーティションだけを毎回分割することであってもよく、分割係数が2である場合には、分割前後のカレントパーティションの総数の差は1であり、したがって、パーティションを分割するための粒度は最小である。   An example of the latter division method is shown below. Assuming that the total number of deterministic partitions is 1,000, the total number of current partitions is 512, and the division factor is 2, dividing each partition will result in 1,024 partitions exceeding the total number of deterministic partitions after being divided Will be acquired. The total number of current partitions is not allowed to be greater than the total number of committed partitions. To avoid such a case, only 488 current partitions can be split, i.e. 488 + 512 = 1,000, i.e. the total number of current partitions obtained after splitting has just reached 1,000, and It will not be larger than the total value. In addition, if the user thinks that 1,000 current partitions are an excessively large quantity, for example, if the user thinks that it is most appropriate that the total number of current partitions obtained after splitting reaches 800, then splitting The 288 partitions of the 512 current partitions can be divided according to the division factor 2 so that the total number of current partitions acquired later just reaches 800. Using the latter partitioning method, it may be that only one partition is split each time, and when the partitioning factor is 2, the difference in the total number of current partitions before and after the partitioning is 1, so The granularity for partitioning is minimal.

加えて、前述の実施形態に基づいて、分割係数を変更してもよい。例えば、第1回目の分割中は、2が分割係数として使用されるが、第2回目の分割中は、分割係数が5に変更される。このことは、分割後に取得したパーティションの総数の値をより調整可能にする目的を達成することもできる。カレントパーティションと確定パーティションとの間に対応付けが存在しており、本対応付けは、更新モジュール44によって記憶され得るし、更新モジュール44によってデータ処理装置にさらに周知され得る。各カレントパーティションはIDを有し、カレントパーティションのIDは0以上の整数であり得る。すべてのカレントパーティションのIDは、初項が0であり、公差が1であり、等差数列を形成する。各確定パーティションはIDを有し、確定パーティションのIDは0以上の整数であり得る。すべての確定パーティションのIDは、初項が0であり、差が1であり、等差数列を形成する。例えば、12個のパーティションを24個のパーティションに分割する、ここで、分割前のパーティションのIDは、0、1、2、3、...、9、10、および11であり、分割後のパーティションのIDは、0、1、2、3、...、21、22、および23である。   In addition, the division coefficient may be changed based on the above-described embodiment. For example, 2 is used as the division coefficient during the first division, but the division coefficient is changed to 5 during the second division. This can also achieve the purpose of making the value of the total number of partitions obtained after the division more adjustable. There is an association between the current partition and the determined partition, and this association can be stored by the update module 44 or further communicated to the data processing device by the update module 44. Each current partition has an ID, and the ID of the current partition can be an integer greater than or equal to zero. The IDs of all current partitions have an initial number of 0, a tolerance of 1, and form an arithmetic sequence. Each deterministic partition has an ID, and the deterministic partition ID may be an integer greater than or equal to zero. All deterministic partition IDs have an initial difference of 0 and a difference of 1 to form an equidistant sequence. For example, divide 12 partitions into 24 partitions, where the partition IDs before split are 0, 1, 2, 3, ..., 9, 10, and 11, and after split The partition IDs are 0, 1, 2, 3, ..., 21, 22, and 23.

パーティションを分割した後は、パーティションID生成ルールは、分割後に取得したパーティションにおいて、1つのパーティションがパーティションの元のIDを保持し、他のパーティションのIDの値およびパーティションの元のIDの値が等差数列を形成することであってもよい、ここで、等差数列の項は、分割前のパーティションの総数Mの公差で漸増する。例えば、分割前に総計200個のパーティションが存在しており、分割後には、各パーティションが3個のパーティションに分割され、IDが21であるパーティションの分割後に生成される3個のパーティションのIDは、順に221、421、および621である。全分割プロセスが終了した後に、カレントパーティションのIDが、初項が0であり、公差が1であり、漸増する、等差数列をさらに形成するならば、本ID生成ルールを変更してもよい。   After partitioning, the partition ID generation rule is that the partition acquired after partitioning has one partition holding the original ID of the partition, the ID value of the other partition, the original ID value of the partition, etc. It may be to form a difference number sequence, wherein the terms of the difference number sequence increase gradually with a tolerance of the total number M of partitions before the division. For example, there are a total of 200 partitions before splitting, and after splitting, each partition is split into 3 partitions, and the IDs of the 3 partitions generated after splitting the partition with ID 21 are , 221, 421, and 621 in this order. If the ID of the current partition is 0 in the first term, the tolerance is 1, and the incremental number sequence is further increased after the whole split process is completed, this ID generation rule may be changed. .

カレントパーティションの総数Sが確定パーティションの総数Lにまさに達しようとしている場合には、次のようなケースが生じ得る、すなわち、各パーティションを1回分割することによって生成されたパーティションの総数が確定パーティションの総数Lより大きい場合には、パーティションの総数が分割により増大され得るので、パーティションの総数が確定パーティションの総数Lを超過しないように、パーティションの一部のみが分割されるまたは分割係数が低減されることになり得ることに留意されたい。   If the total number S of current partitions is about to reach the total number L of defined partitions, the following case can occur: the total number of partitions generated by dividing each partition once is the fixed partition If the total number of partitions is greater than L, the total number of partitions can be increased by splitting, so that only a part of the partition is split or the split factor is reduced so that the total number of partitions does not exceed the total number L of committed partitions. Note that it can be.

更新モジュール44は、パーティション分割モジュール43の処理が実行された後に、パーティション管理装置4に記録されているカレントIPディスクの総数をM+Nに更新し、カレントパーティションの総数をSに更新するように構成される。各IPディスクのカレントパーティションの数量はおおよそS/(M+N)である、したがって、パーティションの総数Sを記録しなくてもよく、その代わりに、クラスタ内の各IPディスクのカレントパーティションの数量がおおよそS/(M+N)であることを記録する。   The update module 44 updates the total number of current IP disks recorded in the partition management device 4 to M + N and updates the total number of current partitions to S after the processing of the partitioning module 43 is executed. Composed. The number of current partitions on each IP disk is approximately S / (M + N), so it is not necessary to record the total number of partitions S; instead, the number of current partitions on each IP disk in the cluster is Record approximately S / (M + N).

更新モジュール44によって行われる処理は、次回の分割のための準備であり、したがって、このパーティション管理処理にとって、更新モジュール44は、必須のモジュールではない。   The processing performed by the update module 44 is preparation for the next division, and therefore the update module 44 is not an essential module for this partition management processing.

必要に応じて、パーティション分割モジュール43または更新モジュール44は、パーティションビューに関する処理をさらに実行してもよい、ここで、パーティションビューは、IPディスクがカレントパーティションに対応していること、例えば、カレントパーティションのパーティションIDとIPディスクの対応するIPディスクアドレスとの間の対応付けを記録する。すなわち、パーティションビューは、M+N個のIPディスクのうちのどのIPディスクに、S個のカレントパーティションのうちの各パーティションが対応しているかを記録する。以下のデータ処理装置は、更新後のパーティションビューを使用し得る。   If necessary, the partitioning module 43 or the update module 44 may further execute processing related to the partition view, where the partition view indicates that the IP disk corresponds to the current partition, for example, the current partition. Record the correspondence between the partition ID of the disk and the corresponding IP disk address of the IP disk. That is, the partition view records which of the M + N IP disks corresponds to each partition of the S current partitions. The following data processing apparatus can use the updated partition view.

必要に応じて、パーティション移行モジュール(図示せず)をさらに含んでいてもよい。パーティション分割が実行されなかった場合には、M・P個のパーティションがM+N個のIPディスクに均等に分布するように、パーティション移行モジュールが、M個の元のIPディスクが所有するパーティションの一部を新たに追加されたN個のIPに移行するべく、パーティション移行を行うために使用され得る。   A partition migration module (not shown) may further be included as necessary. If partitioning has not been performed, the partition migration module will ensure that the partitions owned by the M original IP disks are distributed so that the M / P partitions are evenly distributed over the M + N IP disks. Can be used to perform partition migration to migrate some to the newly added N IPs.

図5を参照すれば、本発明は、パーティション管理デバイスに適用されるデータ処理方法をさらに提供している。パーティション管理デバイスは、パーティションビューを記憶し、パーティションビューは、カレントパーティションのIDとストレージディスク(例えば、IPディスク)のアドレスとの間の対応付けを記録する。データ処理方法は、パーティション管理方法の後に実行され、パーティション管理方法に基づいている。しかしながら、2つの方法は、相対的に独立している。パーティション管理デバイスは、コントローラに接続されている。パーティション管理デバイスは、例えば、管理サーバまたはスイッチクラスタである。管理サーバを例として使用して以下に説明する。データ処理方法の実施形態を上述したパーティション管理方法において提供したパーティションビューに基づいて実行してもよい。パーティションビューは、コントローラによって生成され、記憶するためにパーティション管理デバイスクラスタ内のパーティション管理デバイスに送信される。   Referring to FIG. 5, the present invention further provides a data processing method applied to a partition management device. The partition management device stores the partition view, and the partition view records the association between the ID of the current partition and the address of the storage disk (eg, IP disk). The data processing method is executed after the partition management method and is based on the partition management method. However, the two methods are relatively independent. The partition management device is connected to the controller. The partition management device is, for example, a management server or a switch cluster. This will be described below using the management server as an example. The embodiment of the data processing method may be executed based on the partition view provided in the partition management method described above. The partition view is generated by the controller and sent to the partition management device in the partition management device cluster for storage.

ステップ51: 書き込み予定のデータに従って、キーバリューデータを生成する。例えば、バリューを含むセットを取得するために書き込み予定のデータを分割し、キーバリューデータを形成するためにバリューのキーを生成する、ここで、キーバリューは、キーおよびキーに対応するバリューの組合せである。書き込み予定のデータの一部を複数のバリューに分割し得るため、それに対応して、複数のキーバリューを生成し得る。説明を簡潔にするために、特定のキーバリューのプロセスを以下のステップだけで説明する。   Step 51: Generate key-value data according to data to be written. For example, data to be written is divided to obtain a set including value, and a key of value is generated to form key value data, where key value is a combination of a key and a value corresponding to the key It is. Since a part of data to be written can be divided into a plurality of values, a plurality of key values can be generated correspondingly. For the sake of brevity, the specific key-value process is described with only the following steps.

書き込み予定のデータ、例えば、ファイルまたはデータストリームはアプリケーションサーバからのものである。書き込み予定のデータのサイズ(Size)が比較的大きい場合には、ストレージを容易にするために、管理サーバは、データを分割し得る。例えば、管理サーバは、データを各々1MBの等しいサイズのデータセグメントに分割し得るし、各セグメントをバリューと称する。キーは、バリューを一意に識別するために使用される。したがって、異なるバリューのキーは異なる。例えば、「データファイル名+数詞」をバリューのキーとして使用してもよい。比較的小さなサイズのデータを必ずしも分割する必要はなく、データのキーを直接生成し、その後、キーバリューデータを形成する。いくつかの特別なシナリオにおいては、大きなサイズのデータを必ずしも分割する必要はなく、対応するキーバリューデータは、直接形成され、その後、記憶するためにIPディスクに送信される。   The data to be written, for example a file or data stream, is from the application server. When the size (Size) of data to be written is relatively large, the management server can divide the data in order to facilitate storage. For example, the management server may divide the data into equally sized data segments of 1 MB each, and each segment is referred to as a value. The key is used to uniquely identify the value. Therefore, different value keys are different. For example, “data file name + numerical number” may be used as a value key. It is not always necessary to divide data having a relatively small size, and a key of data is directly generated, and then key-value data is formed. In some special scenarios, it is not necessary to split large size data, the corresponding key-value data is formed directly and then sent to the IP disk for storage.

ステップ52: キーバリューデータ内のキーを取得し、キーに従って、キーバリューデータに対応する確定パーティションのIDを計算する。上述したように、キーバリューデータは、バリューおよびバリューに一意に対応しているキーを含む。   Step 52: The key in the key value data is acquired, and the ID of the confirmed partition corresponding to the key value data is calculated according to the key. As described above, the key value data includes a value and a key that uniquely corresponds to the value.

確定パーティションのIDを計算するための方法は、キーのハッシュ値を取得するためにキーに対してハッシュ演算を行い、確定パーティションの総数Lに従って、モジュロ演算をハッシュ値に対して行うことであり、剰余は、確定パーティションのIDとして使用され、Lは、2以上の自然数である。このように、確定パーティションの取得したIDは、デジタル数である。別の実施形態においては、等価変換は、デジタル数を別の符号、例えば、英語表記の番号にマッピングすることであり、英語表記の番号を確定パーティションのIDとして使用している。確定パーティションに加えて、初期パーティションおよびカレントパーティションはまた、英語表記の番号を使用することによって表されてもよい。キーに対応する確定パーティションを計算する場合には、または、カレントパーティションと確定パーティションとの間の対応付けを計算する場合には、英語表記の番号をデジタル数に再マッピングしてもよく、「モジュロ」法を使用した数値形式のパーティションIDのように、マッピングにより取得したデジタル数をカウントする。本アルゴリズムにおける、確定パーティションの概念については、パーティション管理方法の前述の実施形態における説明を参照されたい。   The method for calculating the ID of the deterministic partition is to perform a hash operation on the key to obtain the hash value of the key, and perform a modulo operation on the hash value according to the total number L of the deterministic partitions, The remainder is used as the ID of the deterministic partition, and L is a natural number of 2 or more. Thus, the acquired ID of the confirmed partition is a digital number. In another embodiment, the equivalent transformation is to map the digital number to another code, for example, an English number, using the English number as the ID of the deterministic partition. In addition to the deterministic partition, the initial and current partitions may also be represented by using numbers in English notation. When calculating the deterministic partition corresponding to the key, or when calculating the association between the current partition and the deterministic partition, the English number may be remapped to a digital number. The digital number obtained by mapping is counted like the partition ID of the numerical format using the “method”. For the concept of the deterministic partition in this algorithm, refer to the description in the above embodiment of the partition management method.

ステップ53: 確定パーティションのIDに対応するカレントパーティションのIDを計算する、ここで、各カレントパーティションのIDは、複数の確定パーティションのIDに対応している。   Step 53: Calculate the ID of the current partition corresponding to the ID of the confirmed partition. Here, the ID of each current partition corresponds to the ID of a plurality of confirmed partitions.

確定パーティションのカレントパーティションを計算するアルゴリズムは、カレントパーティションの総数Tに従って、モジュロ演算を確定パーティションのIDに対して行うことであり、剰余は、カレントパーティションのIDとして使用され、カレントパーティションの総数Tは、自然数である。同様に、カレントパーティションのIDは、デジタル数であり、等価変換は、カレントパーティションのIDとして、デジタル数を別の符号にマッピングすることである。カレントパーティションは、現時点においてIPディスククラスタが所有するパーティションを指し、各カレントパーティションは、1つのIPディスクに対応している。パーティション管理方法の前述の実施形態におけるカレントパーティションの説明を参照してもよい。確定パーティションは、カレントパーティションのサブパーティションである。   The algorithm for calculating the current partition of the deterministic partition is to perform a modulo operation on the ID of the deterministic partition according to the total number T of the current partition, the remainder is used as the ID of the current partition, and the total number T of the current partition is , A natural number. Similarly, the ID of the current partition is a digital number, and the equivalent conversion is to map the digital number to another code as the ID of the current partition. The current partition refers to a partition currently owned by the IP disk cluster, and each current partition corresponds to one IP disk. Reference may be made to the description of the current partition in the previous embodiment of the partition management method. The fixed partition is a subpartition of the current partition.

このような事情にかんがみて、カレントパーティションのIDと複数の確定パーティションのIDとの間に対応付けが存在する。対応付けに関する詳細については、パーティション管理方法の実施形態を参照されたい。カレントパーティションと確定パーティションとの間に対応付けが存在しており、本対応付けは、コントローラに記憶され得るし、ステップ53を実行する際に読み込まれる、または、対応付けは、事前に記憶されていなくてもよいし、ステップ53を実行する際にはアルゴリズムにしたがった計算により取得される。各カレントパーティションはIDを有し、カレントパーティションのIDは0以上の整数であり得る。すべてのカレントパーティションのIDのセットは、初項が0であり、公差が1であり、等差数列を形成する。各確定パーティションはIDを有し、確定パーティションのIDは0以上の整数であり得る。すべての確定パーティションのIDのセットは、初項が0であり、差が1であり、等差数列を形成する。カレントパーティションに対応する確定パーティションを取得するための方法は、確定パーティションのIDを使用して、モジュロ演算をカレントパーティションの総数に対して行うことであり、剰余のバリューは、確定パーティションに対応するカレントパーティションのIDとして使用される。   In view of such circumstances, there is a correspondence between the ID of the current partition and the IDs of a plurality of confirmed partitions. For details on the association, refer to the embodiment of the partition management method. An association exists between the current partition and the committed partition, and this association can be stored in the controller, read when executing step 53, or the association is stored in advance. It is not necessary, and when step 53 is executed, it is obtained by calculation according to an algorithm. Each current partition has an ID, and the ID of the current partition can be an integer greater than or equal to zero. The set of IDs for all current partitions has an initial term of 0 and a tolerance of 1 to form an arithmetic sequence. Each deterministic partition has an ID, and the deterministic partition ID may be an integer greater than or equal to zero. The set of all deterministic partition IDs is 0 for the first term and 1 for the difference, forming an arithmetic sequence. The method for obtaining a deterministic partition corresponding to the current partition is to perform a modulo operation on the total number of current partitions using the deterministic partition ID, and the remainder value is the current value corresponding to the deterministic partition. Used as partition ID.

加えて、パーティションを分割した後は、ID生成ルールは、分割後に取得したパーティションにおいて、1つのパーティションがパーティションの元のIDを保持し、他のパーティションのIDの値およびパーティションの元のIDの値が等差数列を形成することであってもよい、ここで、数列の項は、分割前のパーティションの総数の公差で漸増する。例えば、分割前に総計200個のパーティションが存在しており、分割後には、各パーティションが3個のパーティションに分割され、IDが21であるパーティションの分割後に生成される3個のパーティションのIDは、順に221、421、および621である。全分割プロセスが終了した後に、カレントパーティションのIDが、初項が0であり、公差が1であり、漸増する、等差数列をさらに形成するならば、本ID生成ルールを変更してもよい。例えば、IDが0であるパーティションを別の分割方法に従って分割する。分割後に取得した3個のパーティションのIDは、0、201、および202でさらにあり得るし、IDが1であるパーティションを分割することによって取得したパーティションのIDは、1、203、および204であり、IDが3であるパーティションを分割することによって取得したパーティションのIDは、3、205、および206であり、他のパーティションのIDも同様に取得することができる。   In addition, after splitting a partition, the ID generation rule keeps the original ID of the partition in the partition acquired after splitting, the ID value of the other partition and the original ID value of the partition. May form an arithmetic sequence, where the terms of the sequence increase incrementally with the tolerance of the total number of partitions before partitioning. For example, there are a total of 200 partitions before splitting, and after splitting, each partition is split into 3 partitions, and the IDs of the 3 partitions generated after splitting the partition with ID 21 are , 221, 421, and 621 in this order. If the ID of the current partition is 0 in the first term, the tolerance is 1, and the incremental number sequence is further increased after the whole split process is completed, this ID generation rule may be changed. . For example, the partition whose ID is 0 is divided according to another division method. The IDs of the three partitions obtained after the split can be further 0, 201, and 202, and the IDs of the partitions obtained by splitting the partition whose ID is 1 are 1, 203, and 204 The IDs of the partitions obtained by dividing the partition whose ID is 3 are 3, 205, and 206, and the IDs of the other partitions can be obtained in the same manner.

ステップ54: カレントパーティションのIDに対応するストレージディスクのアドレスを取得するために、パーティションビューを検索する。   Step 54: Search the partition view to get the address of the storage disk corresponding to the current partition ID.

パーティション管理デバイスは、パーティションビューを記憶し、パーティションビューは、カレントパーティションのIDとストレージディスクのアドレスとの間の対応付けを記録する。ストレージディスクがIPディスクである場合には、ストレージディスクのアドレスは、IPアドレスであり得る。ストレージディスクが、例えば、ATMまたはIPXプロトコルといった、別のタイプのプロトコルに基づく場合には、ストレージディスクのアドレスは、ATMアドレスまたはIPXアドレスである。   The partition management device stores the partition view, and the partition view records the association between the ID of the current partition and the address of the storage disk. When the storage disk is an IP disk, the address of the storage disk can be an IP address. If the storage disk is based on another type of protocol, for example ATM or IPX protocol, the address of the storage disk is an ATM address or an IPX address.

ステップ55: ストレージディスクのアドレスを宛先アドレスとして使用することによってキーバリューパケットを生成して、キーバリューパケットをストレージディスクに送信する、ここで、キーバリューパケットのペイロードは、キーバリューデータを搬送する。   Step 55: Generate a key-value packet by using the address of the storage disk as the destination address and send the key-value packet to the storage disk, where the payload of the key-value packet carries the key-value data.

キーバリューパケットを受信した後に、ストレージディスクは、キーバリューデータを記憶する。   After receiving the key value packet, the storage disk stores the key value data.

図6に示したように、図6は、本発明による、データ処理デバイスの実施形態である。データ処理デバイスは、パーティションビューを記憶するように構成される、メモリ61であって、パーティションビューは、カレントパーティションのIDとストレージディスクのアドレスとの間の対応付けを記録する、メモリ61と、外部インターフェースを提供するように構成される、インターフェース62と、コンピュータプログラムを記憶するように構成される、コンピュータ可読媒体63と、メモリ61、インターフェース62、およびコンピュータ可読媒体63に接続されるとともに、プログラムを動作することによって前述のデータ処理方法を実行するように構成される、プロセッサ64とを備える。
データ処理方法は、例えば、キーバリューデータ内のキーを取得して、キーに従って、キーバリューデータに対応する確定パーティションのIDを計算するステップであって、キーバリューデータは、バリューおよびバリューに一意に対応しているキーを含む、ステップと、確定パーティションのIDに対応するカレントパーティションのIDを計算するステップであって、各カレントパーティションのIDは、複数の確定パーティションのIDに対応している、ステップと、カレントパーティションのIDに対応するストレージディスクのアドレスを取得するために、パーティションビューを検索するステップと、ストレージディスクのアドレスを宛先アドレスとして使用することによってキーバリューパケットを生成して、キーバリューパケットをストレージディスクに送信するステップであって、キーバリューパケットは、キーバリューデータを搬送する、ステップを含む。
As shown in FIG. 6, FIG. 6 is an embodiment of a data processing device according to the present invention. The data processing device is a memory 61 configured to store a partition view, the partition view records an association between the ID of the current partition and the address of the storage disk, the memory 61, and an external An interface 62 configured to provide an interface; a computer readable medium 63 configured to store a computer program; and a program connected to the memory 61, the interface 62, and the computer readable medium 63 And a processor 64 configured to perform the above-described data processing method.
The data processing method is, for example, a step of acquiring a key in key-value data and calculating the ID of a confirmed partition corresponding to the key-value data according to the key. A step including a corresponding key and a step of calculating an ID of a current partition corresponding to an ID of a confirmed partition, wherein each current partition ID corresponds to an ID of a plurality of confirmed partitions; In order to obtain the address of the storage disk corresponding to the ID of the current partition, a key value packet is generated by searching the partition view, and using the address of the storage disk as the destination address. The stress And transmitting to the di-disk, the key-value packet, carrying the key value data, including a step.

図7に示したように、図7は、本発明の実施形態による、データ処理装置7の添付の図面である。データ処理装置7は、記憶モジュール71、確定パーティション計算モジュール6、カレントパーティション計算モジュール73、検索モジュール74、および送信モジュール75を備える。必要に応じて、データ処理装置7は、キーバリューデータ生成モジュール76をさらに備えていてもよい。   As shown in FIG. 7, FIG. 7 is an accompanying drawing of a data processing device 7 according to an embodiment of the present invention. The data processing device 7 includes a storage module 71, a confirmed partition calculation module 6, a current partition calculation module 73, a search module 74, and a transmission module 75. The data processing device 7 may further include a key / value data generation module 76 as necessary.

記憶モジュール71は、パーティションビューを記憶するように構成され、パーティションビューは、カレントパーティションのIDとストレージディスクのアドレスとの間の対応付けを記録する。記憶モジュール71によって使用される記憶媒体は、フラッシュメモリまたはハードディスクであり得る。   The storage module 71 is configured to store the partition view, and the partition view records the association between the ID of the current partition and the address of the storage disk. The storage medium used by the storage module 71 can be a flash memory or a hard disk.

記憶モジュール71のパーティションビューは、パーティション管理装置、例えば、図4内のパーティション管理装置4からのものである。記憶モジュール71は、パーティションビューを受信するために、パーティション管理装置4に接続され得る。   The partition view of the storage module 71 is from a partition management device, for example, the partition management device 4 in FIG. The storage module 71 can be connected to the partition management device 4 to receive the partition view.

確定パーティション計算モジュール72は、キーバリューデータ内のキーを取得し、キーに従って、キーバリューデータに対応する確定パーティションのIDを計算するように構成される、ここで、キーバリューデータは、バリューおよびバリューに一意に対応しているキーを含む。   The confirmed partition calculation module 72 is configured to obtain a key in the key-value data and calculate an ID of the confirmed partition corresponding to the key-value data according to the key, where the key-value data includes the value and the value Contains a key that uniquely corresponds to.

確定パーティションのIDを計算するために確定パーティション計算モジュール72によって使用される方法は、キーのハッシュ値を取得するためにキーに対してハッシュ演算を行い、確定パーティションの総数Lに従って、モジュロ演算をハッシュ値に対して行うことであり、剰余は、確定パーティションのIDとして使用され、Lは、2以上の自然数である。このように、確定パーティションの取得したIDは、デジタル数である。別の実施形態においては、等価変換は、デジタル数を別の符号、例えば、英語表記の番号にマッピングすることであり、英語表記の番号を確定パーティションのIDとして使用している。確定パーティションに加えて、初期パーティションおよびカレントパーティションはまた、英語表記の番号を使用することによって表されてもよい。キーに対応する確定パーティションを計算する場合には、または、カレントパーティションと確定パーティションとの間の対応付けを計算する場合には、英語表記の番号をデジタル数に再マッピングしてもよく、「モジュロ」法を使用した数値形式のパーティションIDのように、マッピングにより取得したデジタル数をカウントする。確定パーティションの概念については、パーティション管理方法の前述の実施形態における説明を参照されたい。   The method used by the deterministic partition calculation module 72 to calculate the ID of the deterministic partition is to perform a hash operation on the key to obtain the hash value of the key and hash the modulo operation according to the total number L of deterministic partitions. The remainder is used as the ID of the deterministic partition, and L is a natural number of 2 or more. Thus, the acquired ID of the confirmed partition is a digital number. In another embodiment, the equivalent transformation is to map the digital number to another code, for example, an English number, using the English number as the ID of the deterministic partition. In addition to the deterministic partition, the initial and current partitions may also be represented by using numbers in English notation. When calculating the deterministic partition corresponding to the key, or when calculating the association between the current partition and the deterministic partition, the English number may be remapped to a digital number. The digital number obtained by mapping is counted like the partition ID of the numerical format using the “method”. For the concept of the definite partition, refer to the description in the above embodiment of the partition management method.

カレントパーティション計算モジュール73は、確定パーティションのIDに対応するカレントパーティションのIDを計算するように構成され、各カレントパーティションのIDは、複数の確定パーティションのIDに対応している。   The current partition calculation module 73 is configured to calculate the ID of the current partition corresponding to the ID of the confirmed partition, and the ID of each current partition corresponds to the IDs of a plurality of confirmed partitions.

確定パーティションのIDに対応するカレントパーティションのIDを計算するためにカレントパーティション計算モジュール73によって使用される方法は、カレントパーティションの総数Tに従って、モジュロ演算を確定パーティションのIDに対して行うことであり、剰余は、カレントパーティションのIDとして使用され、カレントパーティションの総数Tは、自然数である。同様に、カレントパーティションのIDは、デジタル数であり、等価変換は、カレントパーティションのIDとして、デジタル数を別の符号にマッピングすることである。カレントパーティションは、現時点におけるIPディスククラスタが所有するパーティションを指し、各カレントパーティションは、1つのIPディスクに対応している。パーティション管理方法の前述の実施形態におけるカレントパーティションの説明を参照してもよい。確定パーティションは、カレントパーティションのサブパーティションである。   The method used by the current partition calculation module 73 to calculate the ID of the current partition corresponding to the ID of the deterministic partition is to perform a modulo operation on the ID of the deterministic partition according to the total number T of current partitions, The remainder is used as the ID of the current partition, and the total number T of current partitions is a natural number. Similarly, the ID of the current partition is a digital number, and the equivalent conversion is to map the digital number to another code as the ID of the current partition. The current partition indicates a partition owned by the current IP disk cluster, and each current partition corresponds to one IP disk. Reference may be made to the description of the current partition in the previous embodiment of the partition management method. The fixed partition is a subpartition of the current partition.

このような事情にかんがみて、カレントパーティションのIDと複数の確定パーティションのIDとの間に対応付けが存在する。対応付けに関する詳細については、パーティション管理装置の実施形態を参照されたい。対応付けを生成した後に、パーティション管理装置は、対応付けを各データ処理装置に周知する。カレントパーティションと確定パーティションとの間に対応付けが存在しており、本対応付けは、カレントパーティション計算モジュール73に記憶され得る、または、対応付けは、事前に記憶されていなくてもよいし、カレントパーティション計算モジュール73によって計算により取得されてもよい。各カレントパーティションはIDを有し、カレントパーティションのIDは0以上の整数であり得る。すべてのカレントパーティションのIDのセットは、初項が0であり、公差が1であり、漸増する等差数列を形成し得る。各確定パーティションはIDを有し、確定パーティションのIDは0以上の整数であり得る。すべての確定パーティションのIDのセットは、初項が0であり、差が1であり、漸増する等差数列を形成する。例えば、12個のパーティションを24個のパーティションに分割する、ここで、分割前のパーティションのIDは、0、1、2、3、...、9、10、および11であり、分割後のパーティションのIDは、0、1、2、3、...、21、22、および23である。   In view of such circumstances, there is a correspondence between the ID of the current partition and the IDs of a plurality of confirmed partitions. For details regarding the association, refer to the embodiment of the partition management apparatus. After generating the association, the partition management device informs each data processing device of the association. An association exists between the current partition and the final partition, and this association can be stored in the current partition calculation module 73, or the association does not have to be stored in advance, It may be obtained by calculation by the partition calculation module 73. Each current partition has an ID, and the ID of the current partition can be an integer greater than or equal to zero. The set of IDs of all current partitions can form an increasing equidistant sequence with an initial term of 0 and a tolerance of 1. Each deterministic partition has an ID, and the deterministic partition ID may be an integer greater than or equal to zero. The set of IDs for all deterministic partitions forms an incremental sequence with 0 as the first term and 1 as the difference. For example, divide 12 partitions into 24 partitions, where the partition IDs before split are 0, 1, 2, 3, ..., 9, 10, and 11, and after split The partition IDs are 0, 1, 2, 3, ..., 21, 22, and 23.

加えて、パーティションを分割した後は、ID生成ルールは、分割後に取得したパーティションにおいて、1つのパーティションがパーティションの元のIDを保持し、他のパーティションのIDの値およびパーティションの元のIDの値が等差数列を形成することであってもよい、ここで、数列の項は、分割前のパーティションの総数の公差で漸増する。例えば、分割前に総計200個のパーティションが存在しており、分割後には、各パーティションが3個のパーティションに分割され、IDが21であるパーティションの分割後に生成される3個のパーティションのIDは、順に221、421、および621である。全分割プロセスが終了した後に、カレントパーティションのIDが、初項が0であり、公差が1であり、漸増する、等差数列をさらに形成するならば、本ID生成ルールを変更してもよい。例えば、IDが0であるパーティションを別の分割方法に従って分割する。分割後に取得した3個のパーティションのIDは、0、201、および202でさらにあり得るし、IDが1であるパーティションを分割することによって取得したパーティションのIDは、1、203、および204であり、IDが3であるパーティションを分割することによって取得したパーティションのIDは、3、205、および206であり、他のパーティションのIDも同様に取得することができる。   In addition, after splitting a partition, the ID generation rule keeps the original ID of the partition in the partition acquired after splitting, the ID value of the other partition and the original ID value of the partition. May form an arithmetic sequence, where the terms of the sequence increase incrementally with the tolerance of the total number of partitions before partitioning. For example, there are a total of 200 partitions before splitting, and after splitting, each partition is split into 3 partitions, and the IDs of the 3 partitions generated after splitting the partition with ID 21 are , 221, 421, and 621 in this order. If the ID of the current partition is 0 in the first term, the tolerance is 1, and the incremental number sequence is further increased after the whole split process is completed, this ID generation rule may be changed. . For example, the partition whose ID is 0 is divided according to another division method. The IDs of the three partitions obtained after the split can be further 0, 201, and 202, and the IDs of the partitions obtained by splitting the partition whose ID is 1 are 1, 203, and 204 The IDs of the partitions obtained by dividing the partition whose ID is 3 are 3, 205, and 206, and the IDs of the other partitions can be obtained in the same manner.

検索モジュール74は、カレントパーティションのIDに対応するストレージディスクのアドレスを取得するために、記憶モジュールによって記憶されているパーティションビュー71を検索するように構成される。   The search module 74 is configured to search the partition view 71 stored by the storage module to obtain the address of the storage disk corresponding to the current partition ID.

パーティションビューは、カレントパーティションのIDとストレージディスクのアドレスとの間の対応付けを記録する。ストレージディスクがIPディスクである場合には、ストレージディスクのアドレスは、IPアドレスであり得る。ストレージディスクが別のタイプのプロトコルに基づく場合には、例えば、ATMまたはIPXプロトコル、ストレージディスクのアドレスは、ATMアドレスまたはIPXアドレスである。   The partition view records the association between the ID of the current partition and the address of the storage disk. When the storage disk is an IP disk, the address of the storage disk can be an IP address. If the storage disk is based on another type of protocol, for example, an ATM or IPX protocol, the storage disk address is an ATM address or an IPX address.

ストレージディスクのアドレスを宛先アドレスとして使用することによってキーバリューパケットを生成して、キーバリューパケットをストレージディスクに送信するように構成される、送信モジュール75、ここで、キーバリューパケットは、キーバリューデータを搬送する。   A sending module 75 configured to generate a key-value packet by using the address of the storage disk as a destination address and send the key-value packet to the storage disk, where the key-value packet is key-value data Transport.

次に、キーバリューパケットの宛先デバイスとして、ストレージディスクは、スイッチクラスタを使用して、キーバリューパケットを受信し、その後、キーバリューデータを記憶するように構成される。   Next, as a destination device for the key value packet, the storage disk is configured to use the switch cluster to receive the key value packet and then store the key value data.

キーバリューデータ生成モジュール76は、キーバリューデータを生成するように構成される、例えば、バリューを含むセットを取得するために書き込み予定のデータを分割し、キーバリューデータを形成するためにバリューのキーを生成する、ここで、キーバリューは、キーおよびキーに対応するバリューの組合せである。書き込み予定のデータの一部を複数のバリューに分割し得るため、それに対応して、複数のキーバリューを生成し得る。説明を簡潔にするために、本発明の本実施形態は、特定のキーバリューの処理方式のみを説明する。   The key-value data generation module 76 is configured to generate key-value data, for example, to divide the data to be written to obtain a set including values, and to create a key-value data Here, the key value is a combination of a key and a value corresponding to the key. Since a part of data to be written can be divided into a plurality of values, a plurality of key values can be generated correspondingly. For the sake of brevity, this embodiment of the present invention describes only a specific key-value processing scheme.

書き込み予定のデータ、例えば、ファイルまたはデータストリームはアプリケーションサーバからのものである。書き込み予定のデータのサイズ(Size)が比較的大きい場合には、ストレージを容易にするために、管理サーバは、データを分割し得る。例えば、管理サーバは、データを各々1MBの等しいサイズのデータセグメントに分割し得るし、各セグメントをバリューと称する。キーは、バリューを一意に識別するために使用される。したがって、異なるバリューのキーは異なる。例えば、「データファイル名+数詞」をバリューのキーとして使用してもよい。比較的小さなサイズのデータを必ずしも分割する必要はなく、データは、キーバリューデータを生成するために、バリューとして直接使用される。いくつかの特別なシナリオにおいては、大きなサイズのデータを必ずしも分割する必要はなく、キーバリューデータを生成するために、バリューとして直接使用される。   The data to be written, for example a file or data stream, is from the application server. When the size (Size) of data to be written is relatively large, the management server can divide the data in order to facilitate storage. For example, the management server may divide the data into equally sized data segments of 1 MB each, and each segment is referred to as a value. The key is used to uniquely identify the value. Therefore, different value keys are different. For example, “data file name + numerical number” may be used as a value key. It is not necessary to divide data of a relatively small size, and the data is directly used as value in order to generate key-value data. In some special scenarios, large size data does not necessarily need to be split and is used directly as value to generate key-value data.

データ処理デバイス7がキーバリューデータ生成モジュール76を備える場合には、確定パーティション計算モジュール72は、キーバリューデータ生成モジュール76に接続され得るし、データ処理デバイス7がキーバリューデータ生成モジュール76を備えていない場合には、確定パーティション計算モジュール72は、キーバリューデータを外部インターフェースを介してアプリケーションサーバから直接取得し得る。   When the data processing device 7 includes the key value data generation module 76, the confirmed partition calculation module 72 can be connected to the key value data generation module 76, and the data processing device 7 includes the key value data generation module 76. If not, the confirmed partition calculation module 72 may obtain the key value data directly from the application server via the external interface.

本発明の各態様または各態様の可能な実施様態がシステム、方法、またはコンピュータプログラム製品として特に実装され得ることを当業者は理解できよう。したがって、本発明の各態様または各態様の可能な実施様態は、本明細書では「回路」、「モジュール」、または「システム」と一様に称する、ハードウェアのみの実施形態、ソフトウェアのみの実施形態(ファームウェア、常駐ソフトウェアなどを含む)、またはソフトウェアとハードウェアとの組合せを用いた実施形態の形式を使用し得る。加えて、本発明の各態様または各態様の可能な実施様態は、コンピュータプログラム製品の形式をとっていてもよい、ここで、コンピュータプログラム製品は、コンピュータ可読媒体に記憶されているコンピュータ可読プログラムコードを指す。   Those skilled in the art will appreciate that each aspect of the invention or possible embodiments of each aspect may be specifically implemented as a system, method, or computer program product. Accordingly, each aspect or possible implementation of each aspect of the present invention is described in terms of hardware-only embodiments, software-only implementations, which are uniformly referred to herein as "circuits", "modules", or "systems". Forms (including firmware, resident software, etc.) or form of embodiment using a combination of software and hardware may be used. In addition, each aspect of the invention or possible implementations of each aspect may take the form of a computer program product, wherein the computer program product is stored on a computer readable medium. Point to.

コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、およびコンパクトディスクリードオンリーメモリ(CD-ROM)などの、電子、磁気、光学、電磁気、赤外線、ならびに半導体システム、デバイス、または装置、または任意の適切なその組合せを含むが、それに限定されない。   The computer readable medium may be a computer readable signal medium or a computer readable storage medium. Computer readable storage media include random access memory (RAM), read only memory (ROM), erasable programmable read only memory (EPROM or flash memory), optical fiber, and compact disk read only memory (CD-ROM), This includes but is not limited to electronic, magnetic, optical, electromagnetic, infrared, and semiconductor systems, devices, or apparatus, or any suitable combination thereof.

コンピュータ内のプロセッサは、プロセッサがフローチャート内の各ステップまたはステップの組合せで規定された機能および動作を実行することができるように、コンピュータ可読媒体に記憶されているコンピュータ可読プログラムコードを読み込み、装置は、ブロック図内の各ブロックまたはブロックの組合せで規定された機能および動作を実施するように生成される。   A processor in the computer reads the computer readable program code stored on the computer readable medium so that the processor can perform the functions and operations defined by each step or combination of steps in the flowchart. , Generated to perform the functions and operations specified in each block or combination of blocks in the block diagram.

11 アプリケーションサーバ
12 管理サーバクラスタ
13 スイッチクラスタ
14 IPディスククラスタ
15 コントローラ
121 管理サーバ
141 IPディスク
3 コントローラ
31 インターフェース
32 プロセッサ
33 記憶媒体
4 パーティション管理装置
40 初期化モジュール
41 ストレージディスク検出モジュール
42 第1のプリセット条件決定モジュール
43 パーティション分割モジュール
44 更新モジュール
6 データ処理装置
61 メモリ
62 インターフェース
63 コンピュータ可読媒体
64 プロセッサ
7 データ処理装置
71 記憶モジュール
72 確定パーティション計算モジュール
73 カレントパーティション計算モジュール
74 検索モジュール
75 送信モジュール
76 キーバリューデータ生成モジュール
11 Application server
12 Management server cluster
13 Switch cluster
14 IP disk cluster
15 Controller
121 Management server
141 IP disk
3 Controller
31 interface
32 processor
33 Storage media
4 Partition management unit
40 Initialization module
41 Storage disk detection module
42 First preset condition determination module
43 Partitioning module
44 Update module
6 Data processor
61 memory
62 Interface
63 Computer-readable media
64 processors
7 Data processing equipment
71 Memory module
72 Deterministic partition calculation module
73 Current partition calculation module
74 Search module
75 Transmitter module
76 Key-value data generation module

アプリケーションサーバ11は、データ読み込みコマンドまたはデータ書き込みコマンドを送信する。管理サーバ121は、例えば、分散オブジェクトプール(distributed object pool、DOP)であり、オブジェクトのインターフェースをアプリケーションサーバ11に提供している、ここで、オブジェクトは、非常に大きくてもよく、例えば、基本単位がGBであってもよい。 The application server 11 transmits a data read command or a data write command. The management server 121 is, for example, a distributed object pool (distributed object pool, DOP), which provides an interface object to the application server 11, wherein the object may be very large, for example, the basic unit May be GB.

オブジェクトが過度に大きい場合には、管理サーバ121は、オブジェクトを小さなセグメントに分割し得る。例えば、管理サーバ121は、オブジェクトを各々1MBのサイズを有するセグメントに分割し得る、ここで、各セグメントはバリューであり、各バリューはキーと呼ばれるタグを有する。管理サーバ121は、ハッシュ演算をキーに対して行い、計算後のハッシュ値とパーティションとのマッチングを行い得る。加えて、管理サーバ121は、パーティションビューをさらに記憶し得る、ここで、パーティションビューは、特にカレントパーティションのIDとIPディスクとの間の対応付けであり得る、IPディスクとパーティションとの間の対応付けを記録する。したがって、管理サーバ121は、各キーバリューに対応するIPディスクを探し出し得る。探し出されるIPディスクは、ターゲットディスクと称され、管理サーバ121は、ターゲットIPディスクのアドレスを宛先アドレスとして使用することによってIPパケットを生成して、IPパケットをスイッチクラスタ13に送信し得る。例えば、パーティションビューに記録されているコンテンツを表1に示す、ここで、iは自然数であり、mは1より大きい自然数である。 If the object is too large, the management server 121 may divide the object into small segments. For example, the management server 121 may divide the object into segments each having a size of 1 MB, where each segment is a value and each value has a tag called a key. The management server 121 can perform a hash operation on the key and perform matching between the calculated hash value and the partition. In addition, the management server 121 may further store a partition view, where the partition view may be an association between the ID of the current partition and the IP disk, in particular the correspondence between the IP disk and the partition. Record the date. Therefore, the management server 121 can search for an IP disk corresponding to each key value. The IP disk to be found is referred to as a target disk, and the management server 121 can generate an IP packet by using the address of the target IP disk as a destination address and transmit the IP packet to the switch cluster 13. For example, the contents recorded in the partition view are shown in Table 1, where i is a natural number and m is a natural number greater than 1.

スイッチクラスタ13は、少なくとも1つのスイッチからなり、データ読み込みまたはデータ書き込み中に管理サーバ121とIPディスク141との間でデータを交換するために使用される。パーティションビューを検索する処理はまた、スイッチクラスタ13内のスイッチに委ねられ、スイッチクラスタ13内のスイッチによって実行されてもよい、すなわち、スイッチクラスタ13内のスイッチは、パーティションビューを記憶する。本シナリオにおいて、データをスイッチクラスタ13に送信する場合には、管理サーバ121は、IPパケットを使用せずに、キーバリューパケットと称し得る新規タイプのパケットを使用してもよい。キーバリューパケットとIPパケットとの間の違いは、キーバリューパケットの宛先アドレスが、キーを使用して、計算により取得したパーティション番号であり、パケットタイプフィールドが、IPパケットとキーバリューパケットとを区別するために使用される点だけであり、キーバリューパケットの他の部分は、IPパケットのそれと同一である。スイッチは、パーティション番号とIPディスクのアドレスとの間のマッピングテーブルを検索する、ここで、マッピングテーブルは、スイッチによって記憶され、宛先アドレスをパーティションに対応するIPディスクのアドレスに置換し、キーバリューパケットをIPパケットに変換するためにパケットタイプを修正し、その後、IPパケットを記憶するために対応するIPディスクに転送する。 The switch cluster 13 includes at least one switch, and is used for exchanging data between the management server 121 and the IP disk 141 during data reading or data writing. The process of retrieving the partition view is also left to the switches in the switch cluster 13 and may be performed by the switches in the switch cluster 13, that is, the switches in the switch cluster 13 store the partition view. In this scenario, when data is transmitted to the switch cluster 13 , the management server 121 may use a new type of packet that can be referred to as a key-value packet without using an IP packet. The difference between the key value packet and the IP packet is that the destination address of the key value packet is the partition number obtained by calculation using the key, and the packet type field distinguishes between the IP packet and the key value packet. The other part of the key-value packet is the same as that of the IP packet. The switch searches the mapping table between the partition number and the IP disk address, where the mapping table is stored by the switch, replaces the destination address with the IP disk address corresponding to the partition, and the key-value packet The packet type is modified to convert the IP packet into an IP packet, and then transferred to the corresponding IP disk for storing the IP packet.

アプリケーションサーバ11がデータを読み込むまたはデータを書き込む必要がある場合には、データは、順に管理サーバ121およびスイッチクラスタ13を通ってIPディスクに到達する。 When the application server 11 reads data or needs to write data, the data sequentially reaches the IP disk through the management server 121 and the switch cluster 13 .

少なくとも1つのカレントパーティションを分割することがすべてのカレントパーティションを分割することを指す場合には、分割後に取得したパーティションの総数S=T×分割係数である。少なくとも1つのカレントパーティションを分割することが一部のカレントパーティションを分割することを指す場合には、分割後に取得したパーティションの総数S<T×分割係数である。前者の分割方式における分割速度がより高く、後者の分割方式においては、分割後に取得したパーティションの総数の調整機能がより優れている。説明の便宜上、本発明の本実施形態を後者の分割方式を使用して説明する。 If dividing at least one current partition indicates dividing all current partitions, the total number of partitions obtained after the division is S = T × the division coefficient. When dividing at least one current partition indicates dividing some current partitions, the total number of partitions obtained after the division is S <T × division coefficient. The former division method has a higher division speed, and the latter division method has a better adjustment function of the total number of partitions obtained after the division. For convenience of explanation, this embodiment of the present invention will be described using the latter division method.

カレントパーティションの総数Tが確定パーティションの総数Lにまさに達しようとしている場合には、次のようなケースが生じ得る、すなわち、各パーティションを1回分割することによって生成されたパーティションの総数が確定パーティションの総数Lより大きい場合には、パーティションの総数が分割により増大され得るので、パーティションの総数が確定パーティションの総数Lを超過しないように、パーティションの一部のみが分割されるまたは分割係数が低減されることになり得ることに留意されたい。 If the total number T of current partitions is about to reach the total number L of defined partitions, the following case can occur: the total number of partitions generated by dividing each partition once is the fixed partition If the total number of partitions is greater than L, the total number of partitions can be increased by splitting, so that only a part of the partition is split or the split factor is reduced so that the total number of partitions does not exceed the total number L of committed partitions. Note that it can be.

ステップ25: M・P個のパーティションがM+N個のIPディスクに均等に分布するように、元のM個のIPディスクが所有するパーティションの一部を新たに追加されたN個のIPディスクに移行するべく、パーティション移行を行う。ステップ25が実行された後は、システム全体におけるパーティションの総数は変化しないので、各IPディスクが所有するパーティションの平均数量は低減する。ステップ24とステップ25とは二者択一的に実行される。パーティション管理方法のすべての実施形態においては、ステップ24が実行された後に、ステップ25またはステップ26は実行されない。 Step 25: N IP disks newly added with some of the partitions owned by the original M IP disks so that the M / P partitions are evenly distributed on the M + N IP disks Perform partition migration to migrate to. After step 25 is executed, the total number of partitions in the entire system does not change, so the average number of partitions owned by each IP disk is reduced. Step 24 and step 25 are executed alternatively. In all embodiments of the partition management method, step 25 or step 26 is not performed after step 24 is performed.

Lの値は、ユーザによって設定され得るし、または、システムによって自動的に割り振られ得るし、IPディスクの最大数量およびIPディスクの数量が最大である場合の各IPディスクの数量の両方によって一般的に決定される、すなわち、L=IPディスクの最大数量×各IPディスクのパーティションの数量である。X個のパーティションを所有することが各IPディスクにとって望ましい値であると仮定する。例えば、各IPディスクが100個のパーティションを所有すること、すなわち、X=100が比較的適切な値であるとユーザが考えたとすると、IPディスククラスタがサポートすることができるIPディスクの最大数量は10,000であり、その結果、L=10,000×100=1,000,000となる。 The value of L can be set by the user or can be automatically allocated by the system and is generally dependent on both the maximum number of IP disks and the quantity of each IP disk when the number of IP disks is the maximum That is, L = the maximum number of IP disks × the number of partitions of each IP disk. Assume that owning X partitions is the desired value for each IP disk . For example, if each IP disk owns 100 partitions, that is, the user thinks that X = 100 is a relatively appropriate value, the maximum number of IP disks that an IP disk cluster can support is As a result, L = 10,000 × 100 = 1,000,000.

同様に、初期パーティションの数量は、ユーザによって設定され得るし、または、システムによって自動的に割り振られ得る。1つの随意的な方式は、初期状況において、IPディスクの数量MがM=75であり、100個のパーティションが各IPディスクに割り振られていると仮定すると、その結果、初期パーティションの総数=75×100=7,500である。本発明の方法を使用することによって、初期段階では、ストレージシステム内の各IPディスクが所有するパーティションの数量を自由に設定してもよい、ここで、パーティションの数量は、ユーザの要求を満たすとともにパーティションがストレージリソース、計算リソース、および帯域幅リソースなどの必要以上のリソースを占有しない値に設定され得る。 Similarly, the initial partition quantity can be set by the user or automatically assigned by the system. One optional scheme is that in the initial situation, assuming that the number of IP disks M is M = 75 and 100 partitions are allocated to each IP disk , the result is that the total number of initial partitions = 75 × 100 = 7,500. By using the method of the present invention, in the initial stage, the number of partitions owned by each IP disk in the storage system may be freely set, where the number of partitions meets the user's requirements. A partition may be set to a value that does not occupy more resources than necessary, such as storage resources, computational resources, and bandwidth resources.

少なくとも1つのカレントパーティションを分割することがすべてのカレントパーティションを分割することを指す場合には、分割後に取得したパーティションの総数S=T×分割係数である。少なくとも1つのカレントパーティションを分割することが一部のカレントパーティションを分割することを指す場合には、分割後に取得したパーティションの総数S<T×分割係数である。前者の分割方式における分割速度がより高く、後者の分割方式においては、分割後に取得したパーティションの総数の調整機能がより優れている。具体的な詳細については、パーティション管理方法の実施形態の説明を参照されたい。説明の便宜上、本発明の本実施形態を後者の分割方式を使用して説明する。 If dividing at least one current partition indicates dividing all current partitions, the total number of partitions obtained after the division is S = T × the division coefficient. When dividing at least one current partition indicates dividing some current partitions, the total number of partitions obtained after the division is S <T × division coefficient. The former division method has a higher division speed, and the latter division method has a better adjustment function of the total number of partitions obtained after the division. For specific details, refer to the description of the embodiment of the partition management method. For convenience of explanation, this embodiment of the present invention will be described using the latter division method.

カレントパーティションの総数Tが確定パーティションの総数Lにまさに達しようとしている場合には、次のようなケースが生じ得る、すなわち、各パーティションを1回分割することによって生成されたパーティションの総数が確定パーティションの総数Lより大きい場合には、パーティションの総数が分割により増大され得るので、パーティションの総数が確定パーティションの総数Lを超過しないように、パーティションの一部のみが分割されるまたは分割係数が低減されることになり得ることに留意されたい。 If the total number T of current partitions is about to reach the total number L of defined partitions, the following case can occur: the total number of partitions generated by dividing each partition once is the fixed partition If the total number of partitions is greater than L, the total number of partitions can be increased by splitting, so that only a part of the partition is split or the split factor is reduced so that the total number of partitions does not exceed the total number L of committed partitions. Note that it can be.

必要に応じて、パーティション分割モジュール43または更新モジュール44は、パーティションビューを更新する処理をさらに実行してもよい、ここで、パーティションビューは、IPディスクがカレントパーティションに対応していること、例えば、カレントパーティションのパーティションIDとIPディスクの対応するIPディスクアドレスとの間の対応付けを記録する。すなわち、パーティションビューは、M+N個のIPディスクのうちのどのIPディスクに、S個のカレントパーティションのうちの各パーティションが対応しているかを記録する。以下のデータ処理装置は、更新後のパーティションビューを使用し得る。 If necessary, the partitioning module 43 or the update module 44 may further execute a process of updating the partition view, where the partition view indicates that the IP disk corresponds to the current partition, for example, Records the correspondence between the partition ID of the current partition and the corresponding IP disk address of the IP disk. That is, the partition view records which of the M + N IP disks corresponds to each partition of the S current partitions. The following data processing apparatus can use the updated partition view.

必要に応じて、パーティション移行モジュール(図示せず)をさらに含んでいてもよい。パーティション分割が実行されなかった場合には、M・P個のパーティションがM+N個のIPディスクに均等に分布するように、パーティション移行モジュールが、M個の元のIPディスクが所有するパーティションの一部を新たに追加されたN個のIPディスクに移行するべく、パーティション移行を行うために使用され得る。 A partition migration module (not shown) may further be included as necessary. If partitioning has not been performed, the partition migration module will ensure that the partitions owned by the M original IP disks are distributed so that the M / P partitions are evenly distributed over the M + N IP disks. Can be used to perform partition migration to migrate part to N newly added IP disks .

確定パーティションIDのカレントパーティションIDを計算するアルゴリズムは、カレントパーティションの総数Tに従って、モジュロ演算を確定パーティションのIDに対して行うことであり、剰余は、カレントパーティションのIDとして使用され、カレントパーティションの総数Tは、自然数である。同様に、カレントパーティションのIDは、デジタル数であり、等価変換は、カレントパーティションのIDとして、デジタル数を別の符号にマッピングすることである。カレントパーティションは、現時点においてIPディスククラスタが所有するパーティションを指し、各カレントパーティションは、1つのIPディスクに対応している。パーティション管理方法の前述の実施形態におけるカレントパーティションの説明を参照してもよい。確定パーティションは、カレントパーティションのサブパーティションである。 Algorithm for calculating the current partition ID of the defined partition ID, in accordance with the total number of the current partition T, and by performing a modulo operation on the ID of the determined partition remainder is used as the ID of the current partition, the total number of the current partition T is a natural number. Similarly, the ID of the current partition is a digital number, and the equivalent conversion is to map the digital number to another code as the ID of the current partition. The current partition refers to a partition currently owned by the IP disk cluster, and each current partition corresponds to one IP disk. Reference may be made to the description of the current partition in the previous embodiment of the partition management method. The fixed partition is a subpartition of the current partition.

図7に示したように、図7は、本発明の実施形態による、データ処理装置7の添付の図面である。データ処理装置7は、記憶モジュール71、確定パーティション計算モジュール72、カレントパーティション計算モジュール73、検索モジュール74、および送信モジュール75を備える。必要に応じて、データ処理装置7は、キーバリューデータ生成モジュール76をさらに備えていてもよい。 As shown in FIG. 7, FIG. 7 is an accompanying drawing of a data processing device 7 according to an embodiment of the present invention. The data processing device 7 includes a storage module 71, a confirmed partition calculation module 72 , a current partition calculation module 73, a search module 74, and a transmission module 75. The data processing device 7 may further include a key / value data generation module 76 as necessary.

Claims (32)

パーティション管理デバイスに適用されるデータ処理方法であって、前記パーティション管理デバイスは、パーティションビューを記憶し、前記パーティションビューは、カレントパーティションのIDとストレージディスクのアドレスとの間の対応付けを記録し、前記方法は、
キーバリューデータ内のキーを取得して、前記キーに従って、前記キーバリューデータに対応する確定パーティションのIDを計算するステップであって、前記キーバリューデータは、バリューおよび前記バリューに一意に対応している前記キーを含む、ステップと、
前記確定パーティションの前記IDに対応するカレントパーティションのIDを計算するステップであって、各カレントパーティションのIDは、複数の確定パーティションのIDに対応している、ステップと、
前記カレントパーティションの前記IDに対応するストレージディスクのアドレスを取得するために、前記パーティションビューを検索するステップと、
前記ストレージディスクの前記アドレスを宛先アドレスとして使用することによってキーバリューパケットを生成して、前記キーバリューパケットを前記ストレージディスクに送信するステップであって、前記キーバリューパケットは、前記キーバリューデータを搬送する、ステップとを含む、データ処理方法。
A data processing method applied to a partition management device, wherein the partition management device stores a partition view, and the partition view records a correspondence between an ID of a current partition and an address of a storage disk, The method
Obtaining a key in the key-value data and calculating an ID of a confirmed partition corresponding to the key-value data according to the key, wherein the key-value data uniquely corresponds to the value and the value Including the key being, and
Calculating an ID of a current partition corresponding to the ID of the defined partition, wherein each current partition ID corresponds to an ID of a plurality of confirmed partitions; and
Searching the partition view to obtain the address of the storage disk corresponding to the ID of the current partition;
Generating a key-value packet by using the address of the storage disk as a destination address, and transmitting the key-value packet to the storage disk, wherein the key-value packet carries the key-value data A data processing method comprising the steps of:
前記パーティション管理デバイスは、確定パーティションの総数Lをさらに記録し、前記キーに従って、前記キーバリューデータに対応する確定パーティションのIDを計算するステップは、
前記キーのハッシュ値を取得するために前記キーに対してハッシュ演算を行い、確定パーティションの前記総数Lに従って、モジュロ演算を前記ハッシュ値に対して行うステップであって、剰余は、前記確定パーティションの前記IDとして使用される、ステップを特に含む、請求項1に記載のデータ処理方法。
The partition management device further records the total number L of confirmed partitions, and calculates the confirmed partition ID corresponding to the key-value data according to the key,
Performing a hash operation on the key to obtain a hash value of the key, and performing a modulo operation on the hash value according to the total number L of deterministic partitions, wherein a remainder is a value of the deterministic partition; The data processing method according to claim 1, further comprising a step used as said ID.
前記パーティション管理デバイスは、カレントパーティションの総数Tをさらに記録し、前記確定パーティションの前記IDに対応するカレントパーティションのIDを計算するステップは、
カレントパーティションの前記総数Tに従って、モジュロ演算を前記確定パーティションの前記IDに対して行うステップであって、剰余は、前記カレントパーティションの前記IDとして使用され、前記確定パーティションの前記IDは、0以上の整数である、ステップを特に含む、請求項1または2に記載のデータ処理方法。
The partition management device further records the total number T of current partitions, and calculates the ID of the current partition corresponding to the ID of the confirmed partition,
Performing a modulo operation on the ID of the defined partition according to the total number T of current partitions, wherein a remainder is used as the ID of the current partition, and the ID of the defined partition is greater than or equal to 0 3. The data processing method according to claim 1 or 2, particularly including a step that is an integer.
前記確定パーティションは、前記カレントパーティションのサブパーティションであるとともに、前記カレントパーティションの分割により取得される、請求項1に記載のデータ処理方法。   2. The data processing method according to claim 1, wherein the determined partition is a sub-partition of the current partition and is acquired by dividing the current partition. 前記データ処理方法は、特にデータ書き込み方法であり、前記キーバリューデータ内のキーを取得するステップの前に、前記方法は、
前記バリューを含むバリューセットを取得するために書き込み予定のデータを分割して、前記キーバリューデータを形成するために前記バリューの前記キーを生成するステップをさらに含む、請求項1に記載のデータ処理方法。
The data processing method is in particular a data writing method, and prior to the step of obtaining a key in the key value data, the method comprises:
The data processing according to claim 1, further comprising: dividing the data to be written to obtain a value set including the value, and generating the key of the value to form the key value data. Method.
データ処理装置であって、前記装置は、
パーティションビューを記憶するように構成される、記憶モジュールであって、前記パーティションビューは、カレントパーティションのIDとストレージディスクのアドレスとの間の対応付けを記録する、記憶モジュールと、
キーバリューデータ内のキーを取得して、前記キーに従って、前記キーバリューデータに対応する確定パーティションのIDを計算するように構成される、確定パーティション計算モジュールであって、前記キーバリューデータは、バリューおよび前記バリューに一意に対応している前記キーを含む、確定パーティション計算モジュールと、
前記確定パーティションの前記IDに対応するカレントパーティションのIDを計算するように構成される、カレントパーティション計算モジュールであって、各カレントパーティションのIDは、複数の確定パーティションのIDに対応している、カレントパーティション計算モジュールと、
前記カレントパーティションの前記IDに対応するストレージディスクのアドレスを取得するために、前記記憶モジュールによって記憶されている前記パーティションビューを検索するように構成される、検索モジュールと、
前記ストレージディスクの前記アドレスを宛先アドレスとして使用することによってキーバリューパケットを生成して、前記キーバリューパケットを前記ストレージディスクに送信するように構成される、送信モジュールであって、前記キーバリューパケットは、前記キーバリューデータを搬送する、送信モジュールとを備える、データ処理装置。
A data processing device, the device comprising:
A storage module configured to store a partition view, wherein the partition view records an association between an ID of a current partition and an address of a storage disk;
A confirmed partition calculation module configured to obtain a key in key-value data and calculate an ID of a confirmed partition corresponding to the key-value data according to the key, wherein the key-value data is a value And a deterministic partition calculation module, including the key uniquely corresponding to the value;
A current partition calculation module configured to calculate an ID of a current partition corresponding to the ID of the defined partition, wherein each current partition ID corresponds to a plurality of confirmed partition IDs, Partition calculation module;
A search module configured to search the partition view stored by the storage module to obtain an address of a storage disk corresponding to the ID of the current partition;
A transmission module configured to generate a key-value packet by using the address of the storage disk as a destination address and to transmit the key-value packet to the storage disk, wherein the key-value packet is A data processing apparatus comprising: a transmission module that carries the key-value data.
前記記憶モジュールは、確定パーティションの総数Lを記録するようにさらに構成され、前記確定パーティション計算モジュールは、
前記キーのハッシュ値を取得するために前記キーに対してハッシュ演算を行い、確定パーティションの前記総数Lに従って、モジュロ演算を前記ハッシュ値に対して行うように特に構成され、剰余は、前記確定パーティションの前記IDとして使用される、請求項6に記載のデータ処理装置。
The storage module is further configured to record a total number L of defined partitions, and the defined partition calculation module is
It is particularly configured to perform a hash operation on the key to obtain a hash value of the key, and to perform a modulo operation on the hash value according to the total number L of deterministic partitions, wherein a remainder is the deterministic partition 7. The data processing device according to claim 6, wherein the data processing device is used as the ID.
前記記憶モジュールは、カレントパーティションの総数Tを記録するようにさらに構成され、前記カレントパーティション計算モジュールは、
カレントパーティションの前記総数Tに従って、モジュロ演算を前記確定パーティションの前記IDに対して行うように特に構成され、剰余は、前記カレントパーティションの前記IDとして使用され、前記確定パーティションの前記IDは、0以上の整数である、請求項6または7に記載のデータ処理装置。
The storage module is further configured to record a total number T of current partitions, and the current partition calculation module includes:
Specifically configured to perform a modulo operation on the ID of the deterministic partition according to the total number T of current partitions, a remainder is used as the ID of the current partition, and the ID of the deterministic partition is greater than or equal to zero The data processing apparatus according to claim 6 or 7, wherein the data processing apparatus is an integer.
前記確定パーティションは、前記カレントパーティションのサブパーティションであるとともに、前記カレントパーティションの分割により取得される、請求項6に記載のデータ処理装置。   7. The data processing apparatus according to claim 6, wherein the determined partition is a sub-partition of the current partition and is acquired by dividing the current partition. 前記データ処理装置は、
前記バリューを含むバリューセットを取得するために書き込み予定のデータを分割して、前記キーバリューデータを形成するために前記バリューの前記キーを生成するように構成される、キーバリューデータ生成モジュールをさらに備える、請求項6に記載のデータ処理装置。
The data processing device includes:
A key value data generation module configured to divide data to be written to obtain a value set including the value and generate the key of the value to form the key value data; The data processing apparatus according to claim 6, further comprising:
データ処理デバイスであって、前記データ処理デバイスは、
パーティションビューを記憶するように構成される、メモリであって、前記パーティションビューは、カレントパーティションのIDとストレージディスクのアドレスとの間の対応付けを記録する、メモリと、
外部接続を提供するように構成される、インターフェースと、
コンピュータプログラムを記憶するように構成される、コンピュータ可読媒体と、
前記メモリ、前記インターフェース、および前記コンピュータ可読媒体に接続されるとともに、前記プログラムを動作することによって、
キーバリューデータ内のキーを取得して、前記キーに従って、前記キーバリューデータに対応する確定パーティションのIDを計算するステップであって、前記キーバリューデータは、バリューおよび前記バリューに一意に対応している前記キーを含む、ステップと、
前記確定パーティションの前記IDに対応するカレントパーティションのIDを計算するステップであって、各カレントパーティションのIDは、複数の確定パーティションのIDに対応している、ステップと、
前記カレントパーティションの前記IDに対応するストレージディスクのアドレスを取得するために、前記パーティションビューを検索するステップと、
前記ストレージディスクの前記アドレスを宛先アドレスとして使用することによってキーバリューパケットを生成して、前記キーバリューパケットを前記インターフェースを介して前記ストレージディスクに送信するステップであって、前記キーバリューパケットは、前記キーバリューデータを搬送する、ステップとを実行するように構成される、プロセッサとを備える、データ処理デバイス。
A data processing device, the data processing device comprising:
A memory configured to store a partition view, wherein the partition view records an association between an ID of a current partition and an address of a storage disk; and
An interface configured to provide an external connection;
A computer readable medium configured to store a computer program;
By being connected to the memory, the interface, and the computer readable medium and operating the program,
Obtaining a key in the key-value data and calculating an ID of a confirmed partition corresponding to the key-value data according to the key, wherein the key-value data uniquely corresponds to the value and the value Including the key being, and
Calculating an ID of a current partition corresponding to the ID of the defined partition, wherein each current partition ID corresponds to an ID of a plurality of confirmed partitions; and
Searching the partition view to obtain the address of the storage disk corresponding to the ID of the current partition;
Generating a key-value packet by using the address of the storage disk as a destination address, and transmitting the key-value packet to the storage disk via the interface, wherein the key-value packet is A data processing device comprising: a processor configured to perform the steps of conveying key-value data.
前記メモリは、確定パーティションの総数Lを記録するようにさらに構成され、前記キーに従って、前記キーバリューデータに対応する確定パーティションのIDを計算するステップは、
前記キーのハッシュ値を取得するために前記キーに対してハッシュ演算を行い、確定パーティションの前記総数Lに従って、モジュロ演算を前記ハッシュ値に対して行うステップであって、剰余は、前記確定パーティションの前記IDとして使用される、ステップを特に含む、請求項11に記載のデータ処理デバイス。
The memory is further configured to record the total number L of confirmed partitions, and calculating the confirmed partition ID corresponding to the key value data according to the key comprises:
Performing a hash operation on the key to obtain a hash value of the key, and performing a modulo operation on the hash value according to the total number L of deterministic partitions, wherein a remainder is a value of the deterministic partition; 12. A data processing device according to claim 11, comprising in particular a step used as said ID.
前記メモリは、カレントパーティションの総数Tを記録するようにさらに構成され、前記確定パーティションの前記IDに対応するカレントパーティションのIDを計算するステップは、
カレントパーティションの前記総数Tに従って、モジュロ演算を前記確定パーティションの前記IDに対して行うステップであって、剰余は、前記カレントパーティションの前記IDとして使用され、前記確定パーティションの前記IDは、0以上の整数である、ステップを特に含む、請求項11または12に記載のデータ処理デバイス。
The memory is further configured to record a total number T of current partitions, and calculating an ID of a current partition corresponding to the ID of the confirmed partition includes:
Performing a modulo operation on the ID of the defined partition according to the total number T of current partitions, wherein a remainder is used as the ID of the current partition, and the ID of the defined partition is greater than or equal to 0 13. A data processing device according to claim 11 or 12, particularly comprising a step that is an integer.
前記確定パーティションは、前記カレントパーティションのサブパーティションであるとともに、前記カレントパーティションの分割により取得される、請求項11に記載のデータ処理デバイス。   12. The data processing device according to claim 11, wherein the determined partition is a sub-partition of the current partition and is acquired by dividing the current partition. 前記キーバリューデータ内のキーを取得するステップの前に、前記プロセッサは、
前記バリューを含むバリューセットを取得するために書き込み予定のデータを分割して、前記キーバリューデータを形成するために前記バリューの前記キーを生成するステップを実行するようにさらに構成される、請求項12に記載のデータ処理デバイス。
Prior to obtaining the key in the key value data, the processor
The method further comprising: dividing the data to be written to obtain a value set that includes the value, and generating the key of the value to form the key value data. 12. The data processing device according to 12.
コントローラによって実行されるパーティション管理方法であって、前記コントローラは、パーティション管理をクラスタ内のストレージディスクに対して行い、前記クラスタは、複数のストレージディスクを含み、前記方法は、
N個の新規ストレージディスクが前記クラスタに追加されようとしていることを検出すると、前記クラスタ内のカレントストレージディスクの数量Mおよび前記クラスタ内のカレントパーティションの総数Tを獲得するステップであって、M、N、およびTは、すべての自然数である、ステップと、
カレントパーティションの前記総数Tとストレージディスクの総数M+Nとの間の数学的関係が第1のプリセット条件を満たしているかどうかを決定するステップと、
前記関係が前記第1のプリセット条件を満たす場合には、分割後に取得したパーティションの総数SがS>Tを満たすように、少なくとも1つの前記カレントパーティションを分割するステップと、前記分割後に取得した前記パーティションを前記M+N個のストレージディスクに割り振るステップであって、前記分割後に取得したパーティションの前記総数Sとストレージディスクの前記総数M+Nとの間の数学的関係は、第2のプリセット条件を満たし、前記分割後に取得したパーティションの前記総数は、前記クラスタがサポートする確定パーティションの総数Lより大きくなく、LおよびSの両方は、1より大きい自然数である、ステップとを含む、パーティション管理方法。
A partition management method executed by a controller, wherein the controller performs partition management for storage disks in a cluster, and the cluster includes a plurality of storage disks, the method comprising:
Upon detecting that N new storage disks are about to be added to the cluster, obtaining a number M of current storage disks in the cluster and a total number T of current partitions in the cluster, wherein M, N and T are all natural numbers, steps, and
Determining whether the mathematical relationship between the total number T of current partitions and the total number M + N of storage disks satisfies a first preset condition;
If the relationship satisfies the first preset condition, dividing the at least one current partition so that the total number S of partitions obtained after the division satisfies S>T; and Allocating partitions to the M + N storage disks, the mathematical relationship between the total number S of partitions obtained after the partitioning and the total number M + N of storage disks is a second preset condition And the total number of partitions obtained after the partitioning is not greater than the total number L of deterministic partitions supported by the cluster, and both L and S are natural numbers greater than 1, a partition management method comprising: .
カレントパーティションの前記総数Tとストレージディスクの総数M+Nとの間の数学的関係が第1のプリセット条件を満たすことは、
T/(M+N)が第1の閾値未満であり、前記第1の閾値が自然数であることを指す、請求項16に記載の方法。
The mathematical relationship between the total number T of current partitions and the total number M + N of storage disks satisfies the first preset condition,
17. The method of claim 16, wherein T / (M + N) is less than a first threshold and the first threshold is a natural number.
前記第1の閾値は、10より大きく20未満である、請求項17に記載の方法。   The method of claim 17, wherein the first threshold is greater than 10 and less than 20. 前記分割後に取得したパーティションの前記総数Sとストレージディスクの前記総数M+Nとの間の数学的関係が第2のプリセット条件を満たすことは、
S/(M+N)が第2の閾値より大きく、前記第2の閾値が自然数であることを指す、請求項16に記載の方法。
The mathematical relationship between the total number S of partitions obtained after the division and the total number M + N of storage disks satisfies a second preset condition,
17. The method of claim 16, wherein S / (M + N) is greater than a second threshold and refers to the second threshold being a natural number.
前記第2の閾値は、25より大きく50未満である、請求項19に記載の方法。   The method of claim 19, wherein the second threshold is greater than 25 and less than 50. 前記カレントパーティションのIDは、0以上の整数であり、前記カレントパーティションのすべての前記パーティションIDのセットは、初項が0であり、項数がTであり、公差が1であり、等差数列であり、
前記分割後に取得した前記パーティションのパーティションIDは、0以上の整数であり、前記分割後に取得した前記パーティションのすべての前記パーティションIDのセットは、初項が0であり、項数がSであり、公差が1であり、等差数列である、請求項16に記載の方法。
The ID of the current partition is an integer greater than or equal to 0, and the set of all the partition IDs of the current partition has an initial term of 0, a term number of T, a tolerance of 1, and an arithmetic sequence And
The partition ID of the partition acquired after the division is an integer greater than or equal to 0, and the set of all the partition IDs of the partition acquired after the division is the first term is 0, the number of terms is S, 17. The method of claim 16, wherein the tolerance is 1 and is an arithmetic progression.
パーティション管理をクラスタ内のストレージディスクに対して行うように構成される、パーティション管理装置であって、前記クラスタは、複数のストレージディスクを含み、前記装置は、
N個の新規ストレージディスクが前記クラスタに追加されようとしていることを検出すると、前記クラスタ内のカレントストレージディスクの数量Mおよび前記クラスタ内の現在存在するパーティションの総数Tを獲得するように構成される、ストレージディスク検出モジュールであって、M、N、およびTは、すべての自然数である、ストレージディスク検出モジュールと、
カレントパーティションの前記総数Tとストレージディスクの総数M+Nとの間の数学的関係が第1のプリセット条件を満たしているかどうかを決定するように構成される、第1のプリセット条件決定モジュールと、
前記関係が前記第1のプリセット条件を満たす場合には、分割後に取得したパーティションの総数がSとなるように、少なくとも1つの前記カレントパーティションを分割し、前記分割後に取得した前記パーティションを前記M+N個のストレージディスクに割り振るように構成される、パーティション分割モジュールであって、前記分割後に取得したパーティションの前記総数Sとストレージディスクの前記総数M+Nとの間の数学的関係は、第2のプリセット条件を満たし、前記分割後に取得したパーティションの前記総数は、前記クラスタがサポートする確定パーティションの総数Lより大きくなく、LおよびSの両方は、1より大きい自然数である、パーティション分割モジュールとを備える、パーティション管理装置。
A partition management device configured to perform partition management on storage disks in a cluster, the cluster including a plurality of storage disks, the device comprising:
Upon detecting that N new storage disks are about to be added to the cluster, it is configured to obtain the number M of current storage disks in the cluster and the total number T of currently existing partitions in the cluster A storage disk detection module, where M, N, and T are all natural numbers;
A first preset condition determination module configured to determine whether a mathematical relationship between the total number T of current partitions and the total number M + N of storage disks satisfies a first preset condition;
If the relationship satisfies the first preset condition, divide at least one of the current partitions so that the total number of partitions acquired after the division is S, and the partition acquired after the division is the M + A partitioning module configured to allocate to N storage disks, wherein the mathematical relationship between the total number S of partitions obtained after the partitioning and the total number M + N of storage disks is a second The total number of partitions obtained after the partitioning is not greater than the total number L of confirmed partitions supported by the cluster, and both L and S are natural numbers greater than 1, A partition management device.
カレントパーティションの前記総数Tが第1のプリセット条件を満たすことは、
T/(M+N)が第1の閾値未満であり、前記第1の閾値が自然数であることを指す、請求項22に記載のパーティション管理装置。
That the total number T of current partitions satisfies the first preset condition,
23. The partition management device according to claim 22, wherein T / (M + N) is less than a first threshold value, and the first threshold value is a natural number.
前記第1の閾値は、10より大きく20未満である、請求項23に記載のパーティション管理装置。   24. The partition management device according to claim 23, wherein the first threshold value is greater than 10 and less than 20. 前記分割後に取得したパーティションの前記総数Sとストレージディスクの前記総数M+Nとの間の数学的関係が第2のプリセット条件を満たすことは、
S/(M+N)が第2の閾値より大きく、前記第2の閾値が自然数であることを指す、請求項22に記載のパーティション管理装置。
The mathematical relationship between the total number S of partitions obtained after the division and the total number M + N of storage disks satisfies a second preset condition,
23. The partition management device according to claim 22, wherein S / (M + N) is larger than a second threshold value, and indicates that the second threshold value is a natural number.
前記第2の閾値は、25より大きく50未満である、請求項25に記載のパーティション管理装置。   26. The partition management device according to claim 25, wherein the second threshold value is greater than 25 and less than 50. 前記カレントパーティションのIDは、0以上の整数であり、前記カレントパーティションのすべての前記パーティションIDのセットは、初項が0であり、項数がTであり、公差が1であり、等差数列であり、
前記分割後に取得した前記パーティションのパーティションIDは、0以上の整数であり、前記分割後に取得した前記パーティションのすべての前記パーティションIDのセットは、初項が0であり、項数がSであり、公差が1であり、等差数列である、請求項25に記載のパーティション管理装置。
The ID of the current partition is an integer greater than or equal to 0, and the set of all the partition IDs of the current partition has an initial term of 0, a term number of T, a tolerance of 1, and an arithmetic sequence And
The partition ID of the partition acquired after the division is an integer greater than or equal to 0, and the set of all the partition IDs of the partition acquired after the division is the first term is 0, the number of terms is S, 26. The partition management device according to claim 25, wherein the tolerance is 1, and is an arithmetic progression.
クラスタに接続されるとともに、パーティション管理を前記クラスタ内のストレージディスクに対して行うように構成される、パーティション管理デバイスであって、前記クラスタは、複数のストレージディスクを含み、前記パーティション管理デバイスは、
パーティションビューを記憶するように構成される、メモリであって、前記パーティションビューは、カレントパーティションのIDとストレージディスクのアドレスとの間の対応付けを記録する、メモリと、
外部インターフェースを提供するように構成される、インターフェースと、
コンピュータプログラムを記憶するように構成される、コンピュータ可読媒体と、
前記メモリ、前記インターフェース、および前記コンピュータ可読媒体に接続されるとともに、前記プログラムを動作することによって、
前記インターフェースを使用して、N個の新規ストレージディスクが前記クラスタに追加されようとしていることを検出すると、前記クラスタ内のカレントストレージディスクの数量Mおよび前記クラスタ内の現在存在するパーティションの総数Tを獲得するステップであって、M、N、およびTは、すべての自然数である、ステップと、
カレントパーティションの前記総数Tとストレージディスクの総数M+Nとの間の数学的関係が第1のプリセット条件を満たしているかどうかを決定するステップと、
前記関係が前記第1のプリセット条件を満たす場合には、分割後に取得したパーティションの総数がSとなるように、少なくとも1つの前記カレントパーティションを分割して、前記分割後に取得した前記パーティションを前記M+N個のストレージディスクに割り振るステップであって、前記分割後に取得したパーティションの前記総数Sとストレージディスクの前記総数M+Nとの間の数学的関係は、第2のプリセット条件を満たし、前記分割後に取得したパーティションの前記総数は、前記クラスタがサポートする確定パーティションの総数Lより大きくなく、LおよびSの両方は、1より大きい自然数である、ステップとを実行するように構成される、プロセッサとを備える、パーティション管理デバイス。
A partition management device connected to a cluster and configured to perform partition management for storage disks in the cluster, the cluster including a plurality of storage disks, the partition management device comprising:
A memory configured to store a partition view, wherein the partition view records an association between an ID of a current partition and an address of a storage disk; and
An interface configured to provide an external interface;
A computer readable medium configured to store a computer program;
By being connected to the memory, the interface, and the computer readable medium and operating the program,
When the interface is used to detect that N new storage disks are about to be added to the cluster, the number M of current storage disks in the cluster and the total number T of currently existing partitions in the cluster are calculated. A step of acquiring, where M, N, and T are all natural numbers; and
Determining whether the mathematical relationship between the total number T of current partitions and the total number M + N of storage disks satisfies a first preset condition;
If the relationship satisfies the first preset condition, at least one current partition is divided so that the total number of partitions acquired after the division is S, and the partition acquired after the division is the M Allocating to + N storage disks, the mathematical relationship between the total number S of partitions obtained after the division and the total number M + N of storage disks satisfies a second preset condition, The total number of partitions obtained after splitting is not greater than the total number L of deterministic partitions supported by the cluster, and both L and S are natural numbers greater than 1, a processor configured to perform the steps And a partition management device.
カレントパーティションの前記総数Tが第1のプリセット条件を満たすことは、
T/(M+N)が第1の閾値未満であり、前記第1の閾値が自然数であることを指す、請求項28に記載のパーティション管理デバイス。
That the total number T of current partitions satisfies the first preset condition,
29. The partition management device according to claim 28, wherein T / (M + N) is less than a first threshold value, and indicates that the first threshold value is a natural number.
前記第1の閾値は、10より大きく20未満である、請求項29に記載のパーティション管理デバイス。   30. The partition management device according to claim 29, wherein the first threshold value is greater than 10 and less than 20. 前記分割後に取得したパーティションの前記総数Sとストレージディスクの前記総数M+Nとの間の数学的関係が第2のプリセット条件を満たすことは、
S/(M+N)が第2の閾値より大きく、前記第2の閾値が自然数であることを指す、請求項28に記載のパーティション管理デバイス。
The mathematical relationship between the total number S of partitions obtained after the division and the total number M + N of storage disks satisfies a second preset condition,
29. The partition management device according to claim 28, wherein S / (M + N) is larger than a second threshold value, and indicates that the second threshold value is a natural number.
前記第2の閾値は、25より大きく50未満である、請求項31に記載のパーティション管理デバイス。   32. The partition management device according to claim 31, wherein the second threshold value is greater than 25 and less than 50.
JP2016560892A 2014-11-05 2014-11-05 Data processing method and apparatus Active JP6288596B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2014/090299 WO2016070341A1 (en) 2014-11-05 2014-11-05 Data processing method and apparatus

Publications (2)

Publication Number Publication Date
JP2017514217A true JP2017514217A (en) 2017-06-01
JP6288596B2 JP6288596B2 (en) 2018-03-07

Family

ID=55908360

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016560892A Active JP6288596B2 (en) 2014-11-05 2014-11-05 Data processing method and apparatus

Country Status (8)

Country Link
US (2) US9952778B2 (en)
EP (1) EP3128716B1 (en)
JP (1) JP6288596B2 (en)
KR (1) KR101912728B1 (en)
CN (3) CN109918021B (en)
AU (1) AU2014410705B2 (en)
CA (1) CA2941163C (en)
WO (1) WO2016070341A1 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3128716B1 (en) * 2014-11-05 2019-09-04 Huawei Technologies Co., Ltd. Data processing method and apparatus
US10698628B2 (en) 2015-06-09 2020-06-30 Ultrata, Llc Infinite memory fabric hardware implementation with memory
CN109783002B (en) * 2017-11-14 2021-02-26 华为技术有限公司 Data reading and writing method, management equipment, client and storage system
EP3803587A1 (en) * 2018-05-29 2021-04-14 Telefonaktiebolaget LM Ericsson (publ) Improved performance of function as a service
TWI723410B (en) * 2019-05-31 2021-04-01 伊雲谷數位科技股份有限公司 Cloud resource management system, cloud resource management method, and non-transitory computer-readable storage medium
EP4318260A4 (en) * 2021-03-31 2024-05-22 Fuji Corporation Data-saving system
CN113468187B (en) * 2021-09-02 2021-11-23 太平金融科技服务(上海)有限公司深圳分公司 Multi-party data integration method and device, computer equipment and storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142751A (en) * 1999-11-12 2001-05-25 Hitachi Ltd Method and device for data base management and storage medium with recorded database managing program
JP2012123544A (en) * 2010-12-07 2012-06-28 Nippon Hoso Kyokai <Nhk> Load distribution device and program
US20130166556A1 (en) * 2011-12-23 2013-06-27 Daniel Baeumges Independent Table Nodes In Parallelized Database Environments
US20130166606A1 (en) * 2011-12-23 2013-06-27 Lars Fricke Table creation for partitioned tables
US20150301759A1 (en) * 2012-12-31 2015-10-22 Huawei Technologies Co., Ltd. Method and system for sharing storage resource

Family Cites Families (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675769A (en) 1995-02-23 1997-10-07 Powerquest Corporation Method for manipulating disk partitions
US7036126B2 (en) * 2000-12-11 2006-04-25 International Business Machines Corporation Method and an apparatus for logical volume manager plug-ins
US7395402B2 (en) * 2004-04-15 2008-07-01 Broadcom Corporation Method and system of data storage capacity allocation and management using one or more data storage drives
CN100476812C (en) * 2004-04-15 2009-04-08 美国博通公司 Method and system of data storage capacity allocation and management using one or more data storages
CN100372299C (en) * 2004-08-13 2008-02-27 华为技术有限公司 Network managing method for supporting distributed management information tree
JP2006079495A (en) * 2004-09-13 2006-03-23 Hitachi Ltd Storage system and method for setting logical block
US7809763B2 (en) * 2004-10-15 2010-10-05 Oracle International Corporation Method(s) for updating database object metadata
US7469241B2 (en) * 2004-11-30 2008-12-23 Oracle International Corporation Efficient data aggregation operations using hash tables
US20060168398A1 (en) * 2005-01-24 2006-07-27 Paul Cadaret Distributed processing RAID system
US7685398B2 (en) * 2006-05-18 2010-03-23 Dell Products L.P. Intelligent system for determination of optimal partition size in a build to order environment
CN101507191A (en) * 2006-08-25 2009-08-12 佛罗里达大学研究基金公司 Recursively partioned static ip router tables
CN101201796B (en) * 2006-12-14 2010-05-19 英业达股份有限公司 Method for self-regulating write-in synchronous copy diskette space size of snap equipment
CN101515254B (en) * 2008-02-18 2010-12-08 鸿富锦精密工业(深圳)有限公司 System and method for managing storage space
CN101639835A (en) * 2008-07-30 2010-02-03 国际商业机器公司 Method and device for partitioning application database in multi-tenant scene
SE532996C2 (en) * 2008-10-03 2010-06-08 Oricane Ab Method, device and computer program product to represent the portion of n-bit intervals associated with d-bit data in a data communication network
US8886796B2 (en) 2008-10-24 2014-11-11 Microsoft Corporation Load balancing when replicating account data
US9996572B2 (en) * 2008-10-24 2018-06-12 Microsoft Technology Licensing, Llc Partition management in a partitioned, scalable, and available structured storage
US8078825B2 (en) * 2009-03-11 2011-12-13 Oracle America, Inc. Composite hash and list partitioning of database tables
US8510538B1 (en) * 2009-04-13 2013-08-13 Google Inc. System and method for limiting the impact of stragglers in large-scale parallel data processing
CN102667761B (en) * 2009-06-19 2015-05-27 布雷克公司 Scalable cluster database
US8156304B2 (en) * 2009-12-04 2012-04-10 Oracle International Corporation Dynamic data storage repartitioning
US9401967B2 (en) * 2010-06-09 2016-07-26 Brocade Communications Systems, Inc. Inline wire speed deduplication system
CN102486798A (en) * 2010-12-03 2012-06-06 腾讯科技(深圳)有限公司 Data loading method and device
US8560584B2 (en) * 2010-12-15 2013-10-15 Teradata Us, Inc. Database partition management
US10055480B2 (en) * 2015-05-29 2018-08-21 Sap Se Aggregating database entries by hashing
CN102681899B (en) * 2011-03-14 2015-06-10 金剑 Virtual computing resource dynamic management system of cloud computing service platform
US9002871B2 (en) * 2011-04-26 2015-04-07 Brian J. Bulkowski Method and system of mapreduce implementations on indexed datasets in a distributed database environment
CN102833294B (en) 2011-06-17 2015-05-20 阿里巴巴集团控股有限公司 File processing method and system based on cloud storage, and server cluster system
CN102841894A (en) * 2011-06-22 2012-12-26 比亚迪股份有限公司 Data storage method of file allocation table
CN102244685B (en) * 2011-08-11 2013-09-18 中国科学院软件研究所 Distributed type dynamic cache expanding method and system for supporting load balancing
CN102567464B (en) * 2011-11-29 2015-08-05 西安交通大学 Based on the knowledge resource method for organizing of expansion thematic map
US9235396B2 (en) * 2011-12-13 2016-01-12 Microsoft Technology Licensing, Llc Optimizing data partitioning for data-parallel computing
US20130159365A1 (en) * 2011-12-16 2013-06-20 Microsoft Corporation Using Distributed Source Control in a Centralized Source Control Environment
US8880510B2 (en) * 2011-12-23 2014-11-04 Sap Se Unique value calculation in partitioned tables
US9852010B2 (en) * 2012-02-03 2017-12-26 Microsoft Technology Licensing, Llc Decoupling partitioning for scalability
CN103354923B (en) * 2012-02-09 2016-03-09 华为技术有限公司 A kind of data re-establishing method, device and system
US9218630B2 (en) * 2012-03-22 2015-12-22 Microsoft Technology Licensing, Llc Identifying influential users of a social networking service
US8996464B2 (en) * 2012-06-11 2015-03-31 Microsoft Technology Licensing, Llc Efficient partitioning techniques for massively distributed computation
GB201210702D0 (en) * 2012-06-15 2012-08-01 Qatar Foundation A system and method to store video fingerprints on distributed nodes in cloud systems
CN102799628B (en) * 2012-06-21 2015-10-07 新浪网技术(中国)有限公司 The method and apparatus of data partition is carried out in key-value database
US9015212B2 (en) * 2012-10-16 2015-04-21 Rackspace Us, Inc. System and method for exposing cloud stored data to a content delivery network
US8775464B2 (en) * 2012-10-17 2014-07-08 Brian J. Bulkowski Method and system of mapreduce implementations on indexed datasets in a distributed database environment
EP2725491B1 (en) * 2012-10-26 2019-01-02 Western Digital Technologies, Inc. A distributed object storage system comprising performance optimizations
US9009421B2 (en) * 2012-11-13 2015-04-14 International Business Machines Corporation Dynamically improving memory affinity of logical partitions
CN102968503B (en) * 2012-12-10 2015-10-07 曙光信息产业(北京)有限公司 The data processing method of Database Systems and Database Systems
CN103064890B (en) * 2012-12-11 2015-12-23 泉州豪杰信息科技发展有限公司 A kind of GPS mass data processing method
KR101677946B1 (en) * 2012-12-27 2016-11-21 후아웨이 테크놀러지 컴퍼니 리미티드 Partition expansion method and device
CN103797770B (en) * 2012-12-31 2015-12-02 华为技术有限公司 A kind of method and system of shared storage resources
US9298398B2 (en) * 2013-04-16 2016-03-29 International Business Machines Corporation Fine-grained control of data placement
US8688718B1 (en) * 2013-07-31 2014-04-01 Linkedin Corporation Management of data segments for analytics queries
KR20150030332A (en) * 2013-09-12 2015-03-20 삼성전자주식회사 Distributed and parallel processing system on data and method of operating the same
JP6281225B2 (en) * 2013-09-30 2018-02-21 日本電気株式会社 Information processing device
IN2013MU03836A (en) * 2013-12-06 2015-07-31 Tata Consultancy Services Ltd
CN103744975A (en) * 2014-01-13 2014-04-23 锐达互动科技股份有限公司 Efficient caching server based on distributed files
CN103812934B (en) * 2014-01-28 2017-02-15 浙江大学 Remote sensing data publishing method based on cloud storage system
CN103929500A (en) * 2014-05-06 2014-07-16 刘跃 Method for data fragmentation of distributed storage system
US9721021B2 (en) * 2014-05-27 2017-08-01 Quixey, Inc. Personalized search results
US10210171B2 (en) * 2014-06-18 2019-02-19 Microsoft Technology Licensing, Llc Scalable eventual consistency system using logical document journaling
US10002148B2 (en) * 2014-07-22 2018-06-19 Oracle International Corporation Memory-aware joins based in a database cluster
US20160092493A1 (en) * 2014-09-29 2016-03-31 International Business Machines Corporation Executing map-reduce jobs with named data
US9875263B2 (en) * 2014-10-21 2018-01-23 Microsoft Technology Licensing, Llc Composite partition functions
EP3128716B1 (en) * 2014-11-05 2019-09-04 Huawei Technologies Co., Ltd. Data processing method and apparatus
US9934871B2 (en) * 2015-04-17 2018-04-03 Western Digital Technologies, Inc. Verification of storage media upon deployment
US10482076B2 (en) * 2015-08-14 2019-11-19 Sap Se Single level, multi-dimension, hash-based table partitioning
US10977212B2 (en) * 2018-05-03 2021-04-13 Sap Se Data partitioning based on estimated growth

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142751A (en) * 1999-11-12 2001-05-25 Hitachi Ltd Method and device for data base management and storage medium with recorded database managing program
US6578039B1 (en) * 1999-11-12 2003-06-10 Hitachi, Ltd. Database management methods and equipment, and database management program storage media
JP2012123544A (en) * 2010-12-07 2012-06-28 Nippon Hoso Kyokai <Nhk> Load distribution device and program
US20130166556A1 (en) * 2011-12-23 2013-06-27 Daniel Baeumges Independent Table Nodes In Parallelized Database Environments
US20130166606A1 (en) * 2011-12-23 2013-06-27 Lars Fricke Table creation for partitioned tables
US20150301759A1 (en) * 2012-12-31 2015-10-22 Huawei Technologies Co., Ltd. Method and system for sharing storage resource
JP2016507814A (en) * 2012-12-31 2016-03-10 ▲ホア▼▲ウェイ▼技術有限公司Huawei Technologies Co.,Ltd. Method and system for sharing storage resources

Also Published As

Publication number Publication date
CN107357522A (en) 2017-11-17
US20180225048A1 (en) 2018-08-09
US20170235501A1 (en) 2017-08-17
EP3128716A4 (en) 2017-08-02
CA2941163A1 (en) 2016-05-12
KR20160124885A (en) 2016-10-28
CN106063226A (en) 2016-10-26
US9952778B2 (en) 2018-04-24
CN109918021B (en) 2022-01-07
AU2014410705A1 (en) 2016-09-15
CN107357522B (en) 2019-11-15
EP3128716B1 (en) 2019-09-04
CN109918021A (en) 2019-06-21
CA2941163C (en) 2019-04-16
JP6288596B2 (en) 2018-03-07
US10628050B2 (en) 2020-04-21
CN106063226B (en) 2019-03-08
EP3128716A1 (en) 2017-02-08
KR101912728B1 (en) 2018-10-29
WO2016070341A1 (en) 2016-05-12
AU2014410705B2 (en) 2017-05-11

Similar Documents

Publication Publication Date Title
JP6288596B2 (en) Data processing method and apparatus
US11775392B2 (en) Indirect replication of a dataset
CN110431542B (en) Managing I/O operations in a storage network
US10083062B2 (en) Data suppression for faster migration
US20160196320A1 (en) Replication to the cloud
US11068537B1 (en) Partition segmenting in a distributed time-series database
US10320905B2 (en) Highly available network filer super cluster
US9031906B2 (en) Method of managing data in asymmetric cluster file system
CN105027069A (en) Deduplication of volume regions
CN110908589B (en) Data file processing method, device, system and storage medium
CN110945496B (en) System and method for state object data store
CN111143113B (en) Method, electronic device and computer program product for copying metadata
CN107038092B (en) Data copying method and device
US11327844B1 (en) Automated cloud recovery to provide a full usable application image
CN109407975B (en) Data writing method, computing node and distributed storage system
CN107493309B (en) File writing method and device in distributed system
WO2020083106A1 (en) Node expansion method in storage system and storage system
CN109992447B (en) Data copying method, device and storage medium
CN105760431A (en) Method and device for transferring file blocks
CN106527982B (en) A kind of object distribution algorithm for the object storage system being made of heterogeneous storage devices
CN114442962B (en) Data reading method, device, equipment and storage medium
CN112764666B (en) Method, apparatus and computer program product for storage management

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180126

R150 Certificate of patent or registration of utility model

Ref document number: 6288596

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250