JP6139711B2 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP6139711B2
JP6139711B2 JP2015559716A JP2015559716A JP6139711B2 JP 6139711 B2 JP6139711 B2 JP 6139711B2 JP 2015559716 A JP2015559716 A JP 2015559716A JP 2015559716 A JP2015559716 A JP 2015559716A JP 6139711 B2 JP6139711 B2 JP 6139711B2
Authority
JP
Japan
Prior art keywords
data
memory
memory subsystem
host
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015559716A
Other languages
English (en)
Other versions
JPWO2015114829A1 (ja
Inventor
洋 内垣内
洋 内垣内
三浦 誓士
誓士 三浦
健三 黒土
健三 黒土
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2015114829A1 publication Critical patent/JPWO2015114829A1/ja
Application granted granted Critical
Publication of JP6139711B2 publication Critical patent/JP6139711B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0652Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • G06F12/0238Memory management in non-volatile memory, e.g. resistive RAM or ferroelectric memory
    • G06F12/0246Memory management in non-volatile memory, e.g. resistive RAM or ferroelectric memory in block erasable memory, e.g. flash memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/16Protection against loss of memory contents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0616Improving the reliability of storage systems in relation to life time, e.g. increasing Mean Time Between Failures [MTBF]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0688Non-volatile semiconductor memory arrays

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ビッグデータ等の大量のデータの高速処理に適した情報処理装置及び計算機に関するものである。
今後、ビッグデータ等の大量のデータを計算機で解析することにより、社会における様々な現象を予測または管理する需要が高まる。このため、計算機が扱うデータ量は爆発的に増加し、ビッグデータを安価に低消費電力で記憶できる大容量不揮発性メモリの使用が望まれる。また、ビッグデータの解析では、計算機で多くのデータを読み書きする必要があるため、読み書きの高速化も望まれる。
従来の不揮発性メモリを用いた記憶装置では、データ消去単位(ブロック)がデータ書き込み単位より大きく、不要なデータであってもデータの上書きができない。このため、ブロックが必要なデータと不要なデータで満たされるとそのままでは新しいデータを書き込めない。
そこで、ホスト(プロセッサー)から記憶装置へ新しいデータを書き込む際、ランダムアクセスのために書き込み可能な領域が不足すると、記憶装置のコントローラは、まず、物理的に散在する必要なデータをそれぞれのブロックから読み出した後、データを読み出したブロックを消去する。次に、記憶装置のコントローラは、読み出したデータを消去されたブロックへ書き込む。これにより新たな書き込み可能な領域を確保するのが一般的であった。この処理はガーベッジコレクションと呼ばれている。
また、特許文献1には、不揮発性メモリを用いた記憶装置に対し、記憶装置はデータの論理アドレスの値を基にデータを分けて管理し、論理アドレスの値が近いデータを同じブロックに格納する技術が開示されている。
特開2009−64251号公報
不揮発性メモリを用いた記憶装置でガーベッジコレクションが発生すると、ガーベッジコレクションの処理中はホストの読み書きの処理が待たされて記憶装置の性能低下を招き、さらにガーベッジコレクションそのものが消去処理を含むため、消去回数に上限のある記憶装置の寿命の劣化を招く。
また、上記ビッグデータ解析では、データの解析を実行するホストから不揮発性メモリを用いた記憶装置へ、大きなデータサイズ単位でデータを連続に読み出し/書き込み/消去するリクエストと、ランダムアクセスリクエストが混在して発行される。このため、不揮発性メモリの同じブロックに、ランダムアクセスするデータとそうでないデータが混在する。その結果、ガーベッジコレクションで本来、移動及び消去する必要のない、ランダムアクセス以外のデータも移動及び消去してしまい、ガーベッジコレクションによる性能の低下や寿命の劣化が大きかった。
上記の特許文献1に開示された技術では、論理アドレスの値のみでデータを区分けして管理しており、依然として、不揮発性メモリの同じブロックにランダムアクセスするデータとそうでないデータが混在する。そのため、ガーベッジコレクションで本来移動及び消去する必要のない、ランダムアクセス以外のデータにも移動/消去が発生してしまい、上記課題を解決できていない。
そこで、本発明の目的は、安価で大容量な不揮発性メモリにおけるガーベッジコレクションの効率を向上させることにより、不揮発性メモリを用いた記憶装置のデータ読み書きを高速化し、さらに記憶装置の寿命を延ばすことにある。
本発明は、演算処理を行うホストと、前記ホストに接続されたメモリサブシステムとを備えた情報処理装置であって、前記ホストは、データと、前記データの種類を含む書き込み要求を前記メモリサブシステムへ通知し、前記メモリサブシステムは、第1のメモリと、データを消去するデータ消去単位のサイズが、前記データの書き込み単位のサイズより大きく、かつ、前記第1のメモリよりデータ容量の大きい第2のメモリと、前記第1のメモリと前記第2のメモリを制御するメモリサブシステム制御モジュールと、を有し、前記第2のメモリは複数のウェイを含み、互いに独立してアクセス可能な複数のチャネルを介して前記メモリサブシステム制御モジュールと接続され、前記メモリサブシステム制御モジュールは、記データの種類に基づいて、ンダムアクセス以外のデータは全てのチャネルにまたがって並列的に同一ウェイ番号の前記第2のメモリにアクセスし、ランダムアクセスデータは1または複数の選択されたチャネルを用いて前記第2のメモリにアクセスし、前記ランダムアクセス以外のデータと前記ランダムアクセスデータとが異なるデータ消去単位となるように管理する。
本発明によれば、ビッグデータ等の大量のデータの解析などに必要な大規模なメモリ空間を不揮発性メモリで安価に提供できる。ホストから不揮発性メモリを用いた記憶装置へ、大きなデータサイズ単位でデータを連続に読み出し、または書き込み、または消去するリクエストと、ランダムアクセスリクエストが混在して発生した場合でも、ランダムアクセスとそうでないアクセスを不揮発性メモリの異なる消去単位に格納する。これにより、不揮発性メモリにおけるガーベッジコレクションの効率を向上できる。これにより高速なデータの読み書きを実現することができ、不揮発性メモリを用いた記憶装置の寿命を延ばすことが可能となる。
本発明の第1の実施例を示し、サーバの一例を示すブロック図である。 本発明の第1の実施例を示し、メモリサブシステムの一例を示すブロック図である。 本発明の第1の実施例を示し、メモリサブシステム内の不揮発性メモリのチップ、ブロック、ページの構成と読み書き消去の処理対象の一例を示すブロック図である。 本発明の第1の実施例を示し、サーバの処理対象となるビッグデータを構成するグラフの一例を示す図である。 本発明の第1の実施例を示し、サーバにおいて実行されるグラフ解析処理のシーケンスの一例を示す図である。 本発明の第1の実施例を示し、ホストからメモリサブシステムへ送信される情報の一例を示す図である。 本発明の第1の実施例を示し、不揮発性メモリのチップ、ブロック及びページとデータのグループ、ランダムアクセスデータとの対応関係の例を示すブロック図である。 本発明の第1の実施例を示し、不揮発性メモリのチップ、ブロック及びページとデータのグループ、ランダムアクセスデータとの対応関係の他の例を示すブロック図である。 本発明の第1の実施例を示し、論理物理変換テーブルの一例を示す図である。 本発明の第1の実施例を示し、ブロック管理テーブルの一例を示す図である。 本発明の第1の実施例を示し、属性物理変換テーブルの一例を示す図である。 本発明の第1の実施例を示し、データ書き込み処理の一例を示すフローチャートである。 本発明の第2の実施例を示し、不揮発性メモリのチップ、ブロック及びページと圧縮データのグループとの対応関係の一例を示すブロック図である。 本発明の第2の実施例を示し、データ圧縮処理前後でのデータサイズの変化の例を示す図である。 本発明の第2の実施例を示し、データ圧縮処理前後でのデータサイズの変化の例を示す図である。 本発明の第2の実施例を示し、データ圧縮時における論理物理変換テーブルの一例を示す図である。 本発明の第2の実施例を示し、DRAMバッファ管理テーブルの一例を示す図である。 本発明の第2の実施例を示し、メモリサブシステムで行われるデータ圧縮及び書き込み処理の一例を示すフローチャートである。 本発明の第2の実施例を示し、メモリサブシステムで行われるデータ圧縮及び書き込み処理の一例を示すフローチャートである。 本発明の第3の実施例を示し、不揮発性メモリのチップ、ブロックと格納されるデータ種との対応関係の一例を示すブロック図である。 本発明の第3の実施例を示し、異なる種類の不揮発性メモリのチップが混在した際の、チップと格納されるデータ種との対応関係の一例を示すブロック図である。 本発明の第3の実施例を示し、書き込み先選択処理の一例を示すフローチャートである。 本発明の第3の実施例を示し、不揮発性メモリの最終書き込みブロック管理テーブルの一例を示す図である。
以下、本発明の実施の形態について添付図面を用いて説明する。
<A.サーバの構成>
まず、サーバ(SVR)10の構成について、図1と図2を用いて説明する。図1は、情報処理を行うサーバ(情報処理装置)10の全体の構成を示すブロック図である。
サーバ(SVR)10は、演算処理を行う複数のホスト(Host(1)30−1〜Host(N)30−N)と、全てのホスト30−1〜30−Nを相互に接続するインターコネクト(Interconnect)20と、それぞれのホスト30−1〜30−Nに接続された複数のメモリサブシステム(MSS(1)〜MSS(N))50−1〜50−Nとから構成される。なお、以下の説明では、ホスト30−1〜30−Nの総称を符号30で表す。他の構成要素についても同様であり、「−」のない符号は構成要素の総称を示し、「−」を付与した符号は個々の構成要素を示す。
ホスト30は、演算処理を行う演算モジュール(CPU)40と、演算モジュール40のメモリコントローラ41に接続された1個以上のメモリ(DRAM)43から構成される。演算モジュール40はメモリ43に格納したプログラムを実行し、メモリ43から情報を読み込み、情報をメモリ43へ書き込むことにより処理を実行する。
全てのホスト30はインターコネクト20を介して互いに通信することができる。また、ホスト30は、演算モジュール40のインターフェース42を介してそれぞれ接続されたメモリサブシステム50と互いに通信することができる。また、図1にはインターフェース42が演算モジュール40に含まれる例を示したが、ホスト30がメモリサブシステム50とデータ通信できれば、この例に限らない。インターフェース42としては、例えば、PCI ExpressやDIMM等を採用することができる。
メモリサブシステム50−1は、図2で示すように、それぞれ1個のメモリサブシステム制御モジュール(MSC)60と、1個以上の不揮発性メモリ(NVM)80−11〜80ijと、1個以上のメモリ(DRAM)72−1〜72−pから構成される。メモリサブシステム制御モジュール60はホスト30−1、不揮発性メモリ80及びメモリ72と互いに通信することができる。なお、メモリサブシステム50−2〜50−Nはメモリサブシステム50−1と同様の構成であるので、重複した説明を省略する。なお、図示の例では、不揮発性メモリ80−11〜80ijのそれぞれが、ひとつのチップで構成された例を示す。なお、DRAM72に保存されたデータは、図示はしないがバッテリバックアップによって、電断時に不揮発性メモリ80などへデータを退避させることができる。
メモリサブシステム50の中のメモリ72は、管理情報などを格納するメモリであり、高速なDRAMが好ましいが、DRAM以外にMRAM、相変化メモリ、SRAM、NORフラッシュメモリ、ReRAMなどのメモリでもよい。また、不揮発性メモリ80へ書き込むデータと、読み出すデータとを一時的に記憶して不揮発性メモリ80のキャッシュとして使用してもよい。不揮発性メモリ80はホスト30から書き込まれたデータを格納するメモリであり、安価で大容量なNANDフラッシュメモリ、相変化メモリ、ReRAMなどのデータ消去単位のサイズが、データ書き込み単位のサイズ以上であるメモリである。
図2はメモリサブシステム50を更に詳細に示したブロック図である。
メモリサブシステム50は、1個のメモリサブシステム制御モジュール(MSC)60と、不揮発性メモリ(NVM(1,1)〜NVM(i,j))80−11〜80ijと、メモリ(DRAM(1)〜DRAM(p))72−1〜72−pとから構成される(i、j、pは自然数)。
メモリサブシステム制御モジュール60は、メモリアクセス制御部(DMAC)62とコマンドバッファ(C−BF)66と、データバッファ(D−BF)65と、アドレスバッファ(A−BF)64と、メタデータバッファ(M−BF)63と、レジスタ(RG)61と、データ制御ブロック(D−CTL_BLK)70と、不揮発性メモリ制御部(NVMC(1)〜NVMC(i))73−1〜73−iと、DRAM制御部(DRAMC(1)〜DRAMC(p))71−1〜71−pとから構成される。
データ制御ブロック70は、データ圧縮ブロック(COMP_BLK)69と、データ分類ブロック(CLSFY_BLK)68と、ウェアレベリングブロック(WL_BLK)67とから構成される。
メモリアクセス制御部(DMAC)62は、図1におけるホスト30と、コマンドバッファ66と、データバッファ65と、アドレスバッファ64と、メタデータバッファ63と、レジスタ61と接続されており、接続先(ホスト30)との間で通信を中継する。
コマンドバッファ66、データバッファ65、アドレスバッファ64、メタデータバッファ63、レジスタ61のそれぞれは、データ制御ブロック70とも接続されている。コマンドバッファ66は、データの読み出し命令、書き込み命令、消去命令などを一時的に格納するバッファである。データバッファ65は、読み書きされるデータを一時的に格納するバッファである。アドレスバッファ64は、ホスト30からの読み出し、書き込み及び消去命令におけるデータのアドレスを一時的に格納するバッファである。なお、アドレスバッファ64は、データのサイズも一時的に格納することができる。
メタデータバッファ63は、ホスト30からの読み出し、書き込み及び消去命令におけるデータのグループ番号、ランダムアクセスデータか否か、データの種類(グラフデータ(CSR)、解析結果(MSG)、頂点情報(VAL))などのメタデータを一時的に格納するバッファである。ただし、メタデータはこれらに限定されるものではなく、これ以外の情報であってもよい。
レジスタ61は、データ制御ブロック70における各制御で必要な制御情報を格納して、データ制御ブロック70から読み出し可能とするレジスタである。
データ制御ブロック70は、レジスタ61、コマンドバッファ66、データバッファ65、アドレスバッファ64、メタデータバッファ63と通信し、不揮発性メモリ制御部73とDRAM制御部71を制御するものである。
不揮発性メモリ制御部(NVMC(1)〜NVMC(i))73−1〜73−iは、不揮発性メモリ(NVM(i,1)〜NVM(i,j))80−11〜80−ijに接続されており、接続された不揮発性メモリ80のデータ読み出しと、データの書き込みと、データの消去を行う。ここで、iは自然数であってチャネル番号を表し、複数のチャネルはそれぞれ独立して通信できるデータ転送バス(I/O)を備える。1つのチャネルに属するj個の不揮発性メモリ(NVM(i,1), NVM(i,2), …, NVM(i,j))80は、データ転送バス(I/O)を共有する。
また、各チャネル(Ch1〜Chi)に属するj個の不揮発性メモリ80は、メモリとしては独立しているため、不揮発性メモリ制御部73からの命令を独立して処理することができる。j個の不揮発性メモリ80は、不揮発性メモリ制御部(NVMC)73から物理的に近い順にウェイ(Way1, Way2, …, Wayj)に属する。各不揮発性メモリ80がデータ処理中であるか否かを、不揮発性メモリ制御部73は、各不揮発性メモリ80に接続されたレディービジー線(RY/BY)の信号を取得することで判定することができる。不揮発性メモリ制御部73は、データ制御ブロック70と接続され、互いに通信することができる。
なお、チャネル番号iと、ウェイ番号jの組み合わせijは、不揮発性メモリ80のチップを特定する識別子として用いることができる。
DRAM制御部(DRAMC(1)〜DRAMC(p))71−1〜71−pは、それぞれメモリ(DRAM(1)〜DRAM(p))72−1〜72−pに接続され、メモリ72からのデータ読み出しと、メモリ72へのデータの書き込みを行う。また、DRAM制御部71はデータ制御ブロック70と接続され、互いに通信することができる。
なお、不揮発性メモリ80のデータの容量は、DRAM72のデータ容量よりも大きい。換言すれば、不揮発性メモリ80のチップ当たりのデータの容量は、DRAM72のチップ当たりのデータ容量よりも大きい。また、本実施例1ではDRAM72を採用した例を示したが、不揮発性メモリ80よりもデータの転送速度(単位時間当たりに読み書きするバイト数)が高いメモリであれば良い。
<B.不揮発性メモリの構造と読み書き消去処理>
図3は、メモリサブシステム50の不揮発性メモリ80のチップ、ブロック、ページの構成と読み書き消去の処理対象の一例を示すブロック図である。図3を用いて、不揮発性メモリ80の構成及びデータの読み出しと書き込みと消去の処理を説明する。
それぞれの不揮発性メモリ80は、N_blk個のブロック(BLK)から構成され、各ブロックはN_pg個のページ(PG)から構成される。ここで、N_blkとN_pgは自然数である。例えば、不揮発性メモリ80が容量8GB/chipのNANDフラッシュメモリである場合、1ブロックのデータサイズが1MBで、1ページのデータサイズが8kBの時、N_blk=8k=(8GB/1MB)であり、N_pg=128=(1MB/8kB)である。
不揮発性メモリ80に格納されたデータは、ページの単位(データサイズ)で読み出され、不揮発性メモリ80へデータを書き込む際はページの単位で書き込む。また、不揮発性メモリ80に格納されたデータはブロックの単位(データサイズ)で消去される。
不揮発性メモリ80にデータを書き込む際、データの上書きはできない。例えば、図3において消去されたブロック(図中Erase)内のページ(PG_e)へデータを書き込むことはできるが、既にデータが書き込まれたページ(PG_d)には新しいデータを書き込むことはできない。以上をまとめると不揮発性メモリ80は以下の2つの特徴を有する。
特徴1:消去単位(ブロック)のデータサイズは書き込み単位(ページ)のデータサイズ以上である。
特徴2:データが既に書き込まれたページなどには新しいデータを上書きできない。
以下、サーバ10が行う処理について、大規模グラフ解析を例に挙げて説明する。まず、図4、5を用いて、サーバで取り扱うグラフの例と、グラフデータの解析シーケンスの例を説明する。
<C.グラフとグラフ解析シーケンス>
図4は、サーバ10で取り扱うビッグデータを構成するグラフの一例を示す図である。ここで例として挙げるグラフは、グラフの頂点に各頂点を一意に特定する頂点番号が割り当てられており、2つの頂点を繋ぐ一本のグラフの辺は、辺の両端の2つの頂点の間に関係性があることを表す。グラフの各頂点が解析対象のグラフデータとなる。一般にグラフ解析の対象となるグラフの頂点は膨大な数となるため、グラフデータは頂点番号に応じてグループに分けられ、グループごとに解析される。
図5は、サーバ10で実行するグラフ解析のシーケンスの一例を示す。メモリサブシステム(MSS)50の不揮発性メモリ80には、グラフデータ(CSR)とグラフ解析の結果(MSG)及び頂点情報(VAL)が格納され、それぞれグループ(Gr)に分割されてホスト30によって読み書きされて処理される。以下のシーケンスは、N個のホスト30及びメモリサブシステム50において、同時並行的に実行される。なお、グループ(Gr)は、頂点番号に応じて分類されたデータの集合である。
時刻1(T1):まず、メモリサブシステム50は不揮発性メモリ80に格納されたグループ1に属するグラフデータ(Read CSR Gr.1)と、グラフ解析の結果(Read MSG Gr.1)及び頂点情報(Random Read/Write VAL)を読み出し、ホスト30へ送信する。
ホスト30によるグラフデータ(CSR)とグラフ解析の結果(MSG)の読み出しは、不揮発性メモリ80の読み出し単位でのシーケンシャルリードとなるが、頂点情報(VAL)の読み出しは、16Byteの細かなアクセス単位でのランダムアクセスとなる。
時刻2(T2):次に、ホスト30は、メモリサブシステム50から送られてきたグループ1のグラフデータを解析する(Analyze Gr.1)。これと並行して、メモリサブシステム50は、次にホスト30で解析されるグループ2のグラフデータ(Read CSR Gr.2)及びグラフ解析の結果(Read MSG Gr.2)を読み出す。これらと並行して、メモリサブシステム50は、グループ1のグラフ解析の結果を消去する(Erase MSG Gr.1)。このグラフ解析結果はホスト30による解析の後、二度と使われないため、このタイミングで消去が可能である。
時刻3(T3):それぞれのホスト30は、グループ1のグラフ解析の結果を他のホスト30へ伝える。各ホスト30は他のホスト30から送られてきたグラフ解析の結果をグループごとにまとめ、メモリサブシステム50に送信する。また、同時に各ホスト30は頂点情報の更新結果をメモリサブシステム50へ送信する。
メモリサブシステム50はホスト30から受信したデータのうち、グラフ解析の結果を不揮発性メモリ80の書き込み単位で不揮発性メモリ80に書き込む(図中Write MSG (Gr.# at random))。また、頂点情報の更新結果は16Byteという細かな単位でメモリサブシステム50へ送信されるため、メモリサブシステム50では、更新する16Byteが含まれる不揮発性メモリ80の書き込み単位を読み出し、16Byteのみを更新して、再び不揮発性メモリ80の書き込み単位で書き込む、Read−modify−write処理を実行する。もしくは、Read−modify処理をホスト30で実行し、不揮発性メモリ80の書き込み単位でホスト30からメモリサブシステム50へ送信してもよい(Random Read/Write VAL)。
以上のシーケンスをグループ順に繰り返し、全てのグループ1〜Mの処理が終了した後、各ホスト(Host(1)〜Host(N))30−1〜30−Nの間で処理終了の同期が実行される(SYNC)。
この一連のグループ1〜Mの処理及び同期をスーパーステップ(S.S.)と呼び、当該同期の後、再度グループ1から順に処理が繰り返される。前のスーパーステップでメモリサブシステム50に書き込まれたグラフ解析の結果(MSG)は、次のスーパーステップでホスト30によって読み込まれる。グラフ解析はこのスーパーステップの繰り返しによって実行される。
<D.ホストとメモリサブシステム間の通信>
図6を用いて、ホスト30とメモリサブシステム50の間の通信を説明する。図6は、ホスト30がメモリサブシステム50へ読み出し、書き込み、及び消去命令を送信する際に、メモリサブシステム50へ送信する情報を示す図である。
(a)読み出し
ホスト30がメモリサブシステム50のデータの読み出し命令を発行する際(Read)、ホスト30はメモリサブシステム50へ読み出すデータのグループ(Gr.)の番号もしくはランダムアクセスデータであることを示すメタデータ(random)と、データの種類(CSR/MSG/VAL)を送信する。もしくは、ホスト30はメモリサブシステム50へ論理アドレス(Adr)及び読み出しデータサイズ(size)を送信する。メモリサブシステム50は、ホスト30から受信した上記情報を基に、不揮発性メモリ80からデータを読み出して、ホスト30へ読み出したデータを送信する。
(b)書き込み
ホスト30がメモリサブシステム50へデータ書き込み命令を発行する際(Write)、ホスト30はメモリサブシステム50へ書き込みデータのグループ(Gr.)の番号もしくはランダムアクセスデータであることを示すメタデータ(random)と、データの種類(CSR/MSG/VAL)と、書き込みデータ(data)と、必要に応じて、論理アドレス(Adr)と書き込みデータサイズ(size)を送信する。すなわち、ホスト30の演算モジュール40が、書き込みデータと、データの種類を含む書き込み要求を、メモリサブシステム50へ通知する。メモリサブシステム50はホスト30から受信した上記情報を基に、データを不揮発性メモリ80へ書き込む。
(c)消去
ホスト30がメモリサブシステム50のデータの消去命令を発行する際(Erase)、ホスト30はメモリサブシステム50へ消去するデータのグループ(Gr.)の番号もしくはランダムアクセスデータであることを示すメタデータ(random)と、データの種類(CSR/MSG/VAL)を送信する。もしくは、ホスト30はメモリサブシステム50へ論理アドレス(Adr)及び消去するデータサイズ(size)を送信する。メモリサブシステム50は、ホスト30から受信した上記情報を基に、不揮発性メモリ80のデータを消去する。
次に、サーバ10がグラフ解析処理を行う際のメモリサブシステム50の処理を図7〜18を用いて説明する。
<E.グラフ解析におけるメモリサブシステム制御モジュールの処理>
(E1)メモリサブシステム50の制御に必要なデータの入力
グラフ解析を実行するホスト30は、グラフ解析の前に、メモリサブシステム50の制御に必要なデータを、メモリサブシステム50のレジスタ61に書き込む。ホスト30がグラフ解析を実行する際に、メモリサブシステム50の制御に必要なデータは、グループの数と、グラフデータのデータサイズ、グラフの頂点数や辺の数、データの種類(グラフデータ、結果など)に応じた書換え頻度などである。また、グラフの最短経路探索の場合は、最短経路を求めたい2頂点、すなわち、始点と終点を特定する情報なども含まれる。
なお、データの種類に応じた書換え頻度は、グラフを解析するプログラムのソースレベルで特定するようにしてもよい。例えば、ソースレベルで、データが不揮発性メモリ80に格納されている期間を設定しておくことで、ホスト30がメモリサブシステム50にデータの書換え頻度を伝達することができる。
また、レジスタ61に書き込まれるデータとしては、例えば、解析するグラフデータのグループ数である。
上記データの入力は、ホスト30が実行するプログラムで実行してもよく、あるいは、サーバ10が外部の計算機から受信したデータをホスト30がレジスタ61へ書き込むようにしてもよい。
(E2)データ書き込み処理
図7〜図10を用いて、メモリサブシステム50へデータを書き込む際の制御に関して説明する。
図7は、不揮発性メモリ80のチップ、ブロック及びページとデータのグループ、ランダムアクセスデータとの対応関係の例を示すブロック図である。
まず、図7に示すように、ホスト30はメモリサブシステム制御モジュール(MSC)60へ書き込みリクエストを送信する際、書き込みコマンドと書き込みデータに加えて、データの属性(ランダムアクセスデータ,グループ番号など)を含むメタデータを付加する(random or Gr.N)。
一方、メモリサブシステム制御モジュール(MSC)60は、メモリサブシステム50のDRAM72に各種管理テーブルを格納し、ホスト30から送られたデータ属性(メタデータ)に基づいて管理テーブルを参照し、データの書き込み先を決定する。
なお、図7では管理テーブルとして、論理物理変換テーブル(LPT)110と、属性物理変換テーブル(APT)130と、ブロック管理テーブル(BLK_ST)120をDRAM72に格納する例を示す。
データ属性ごとの書き込み先は、図7に示すように、不揮発性メモリ80の各チャネル(Ch.1〜Ch.i)に分散させて配置してもよい。図7の例では、ひとつのグループのデータの格納先が、チャネルCh.1〜Ch.iの同一のウェイ番号にまたがって設定され、並列的にアクセスが行われる。なお、ひとつのグループを複数のウェイ番号に割り当てるようにしてもよい。
さらに、ランダムアクセスデータは、グループのデータを格納する不揮発性メモリ80のチップのブロックとは異なるブロックに格納され、チャネルCh.1〜Ch.iの同一のウェイ番号にまたがって設定される。同様に、ランダムアクセスデータを複数のウェイ番号に割り当てるようにしてもよい。なお、メモリサブシステム制御モジュール60は、書き込み要求のデータのサイズに応じて、不揮発性メモリ80の書き込み領域を動的に変更する。メモリサブシステム制御モジュール60は、書き込むデータのサイズに応じてチャネルCh.1〜iを変更する。
図7の構成により、ホスト30による読み出しがシーケンシャルとなるグラフデータ(CSR)とグラフ解析の結果(MSG)を格納する領域をグループ単位で複数のチャネル番号を跨ぐように設定し、ホスト30による読み出しがランダムアクセスとなる頂点情報(VAL)を格納する領域を、上記グループとは異なるチップまたはブロックに設定する。これにより、不揮発性メモリ80のひとつのブロックにランダムアクセスするデータと、シーケンシャルアクセスするデータが混在して格納されるのを防止できる。したがって、前記従来例のように、シーケンシャルアクセスのデータが、ランダムアクセスのデータと一緒に移動及び消去されるのを防いで、不揮発性メモリ80のガーベッジコレクションの効率を向上させることができる。
そして、グループに割り当てられたグラフデータ(CSR)とグラフ解析の結果(MSG)の読み出しは、不揮発性メモリ80の読み出し単位でのシーケンシャルリードとなるので、グループ単位で複数のチャネル番号を跨ぐように設定することで、アクセスの並列度を向上させてデータの転送速度を向上させることができる。
あるいは、図8に示すように、ランダムアクセスデータとグループ番号が付加されたデータを書き込むチャネルやチップを別にしてもよい。
なお、図8は、不揮発性メモリ80のチップ、ブロック及びページとデータのグループ、ランダムアクセスデータとの対応関係他の例を示すブロック図である。図8において、グループに割り当てられたデータを格納するチャネルCh.1〜Ch.i−1は、MLC(Multiple Level Cell)等のNAND型フラッシュメモリで構成し、ランダムアクセスを行うデータを格納するチャネルCh.iは、SLC(Single Level Cell)のNAND型フラッシュメモリやReRAM等書換え寿命が長いチップで構成する。
この場合も、不揮発性メモリ80のひとつのブロックにランダムアクセスするデータと、シーケンシャルアクセスするデータが混在して格納されるのを防止できる。そして、前記従来例のように、シーケンシャルアクセスのデータが、ランダムアクセスのデータと一緒に移動及び消去されるのを防いで、不揮発性メモリ80のガーベッジコレクションの効率を向上させることができる。
データ書き込み処理において必要となる管理テーブルを図9A〜図9Cに示す。これらの管理テーブルは、グラフデータの解析を開始する前にメモリサブシステム制御モジュール(MSC)60がDRAM72に設定する。
図9Aは、データの論理アドレス1101と物理アドレス1102とを対応付ける論理物理変換テーブル(LPT)110である。本実施例では、メモリサブシステム制御モジュール(MSC)60が、8kByteのページ単位でアドレスを管理する例を示し、論理アドレス1101及び物理アドレス1102は、各ページの先頭のアドレスを指し示す。
図9Bは、ブロック管理テーブル(BLK_ST)120の一例を示す図である。ブロック管理テーブル120は、ブロックの位置1201と、ブロックの状態1202と、当該ブロックの消去回数1203がひとつのレコードに含まれる。ブロックの位置1201は、チャネル番号(i)と、ウェイ番号(j)と、ブロック番号N_brで構成される。ブロックの状態1202は、消去済み“ERASED”、書き込み先として確保済み”ALLOCATED”、不良ブロック”BAD”、データ書き込み済み”PROGRAMMED”などの予め設定された状態が格納される。消去回数1203は、当該ブロックを1回消去するたびに1が加算される。
図9Cは、データ属性ごとの書き込み先を管理する属性物理変換テーブル(APT)130の一例を示す図である。属性物理変換テーブル130は、データのグループを格納するグループ1301と、データの種類を格納するデータ種類1302と、既に書き込まれたページ数を格納するページカウント1303と、当該グループのデータを次に格納するブロック1〜iの物理アドレス1304をひとつのエントリに含む。
グループ1301は、グループ番号(1〜M)あるいはランダムアクセスのデータを示す“Random”が格納される。データ種類1302には、グラフデータ(CSR)、グラフ解析の結果(MSG)または頂点情報(VAL)が格納される。ページカウント1303には、データ種類毎に既に書き込まれたページ数が格納される。物理アドレス1304は、チャネル番号と、ウェイ番号及びブロック番号N_brが格納され、データ種類毎に、次にデータを格納するブロック番号が格納されている。
この、属性物理変換テーブル(APT)130は、メモリサブシステム制御モジュール(MSC)60が不揮発性メモリ80の構成などに応じて設定する。なお、グループ1301については、レジスタ61に書き込まれたグループ数に基づいて、メモリサブシステム制御モジュール(MSC)60が設定する。
図10は、メモリサブシステム50が実行するデータ書き込み処理の一例を示すフローチャートを示す。まず、メモリサブシステム制御モジュール(MSC)60のデータ制御ブロック(D−CTL_BLK)70は、レジスタ(RG)61を参照し、ホスト30からのデータ書き込みリクエストを受信する(ステップ S1)。データ制御ブロック(D−CTL_BLK)70は、ホスト30から受信したデータ書き込みリクエストに含まれるコマンドと、データと、アドレスと、メタデータとをコマンドバッファ(C−BF)66、データバッファ(D−BF)65、アドレスバッファ(A−BF)64、メタデータバッファ(M−BF)63にそれぞれ格納する。
その後、データ分類ブロック(CLSFY_BLK)68は、メタデータバッファ(M−BF)63を参照し(ステップS2)、受信したデータについてグループ番号が付加されたデータか、ランダムアクセスデータなのかを判定する(ステップS3)。
ランダムアクセスデータの場合はステップS4へ進み、データ分類ブロック(CLSFY_BLK)68はブロック管理テーブル120を参照し、空きブロックが十分に残っているか、つまり空きブロックの数が閾値(Th1)以上に残っているか否かを判定する(ステップ S4)。
空きブロック数の閾値(Th1)は、事前にホスト30によって決定され、データの書き込み前にメモリサブシステム50へ通知される。あるいは、データアクセスの履歴や不揮発性メモリ80の容量、及び上記(E1)でレジスタ61に書き込まれた制御に必要なデータなどを基に、メモリサブシステム制御モジュール(MSC)60によって決定される。
ステップS4によって、空きブロック数が閾値(Th1)以上に残っている場合、ステップS5へ進む。一方、空きブロック数が閾値(Th1)以上残っていない場合、メモリサブシステム制御モジュール(MSC)60はガーベッジコレクション(GC)を実行し、空きブロック数を増やす。なお、ガーベッジコレクション(GC)が完了した後に、ステップS4に復帰する。なお、ガーベッジコレクションの処理については周知または公知の技術を適用すればよいので、図示は省略する。
ステップS5では、まずデータ分類ブロック(CLSFY_BLK)68が、図9Cの属性物理変換テーブル(APT)130のうち、該当するデータ分類に対応する行を参照する。そして、データ分類ブロック(CLSFY_BLK)68は、対応する行のページカウント1303に1を加算する。
加算の結果、ページカウント1303が予め決定された閾値(Th2)を超えた場合、データ制御ブロック70は、図9Bのブロック管理テーブル(BLK_ST)120を参照し、不揮発性メモリ80の空きブロック”ERASED”を各チップ(チャネルCh.1〜Ch.i)から1ブロックずつ選択し、新たな書き込み先とする。閾値(Th2)は、例えば物理アドレス1304の1行分を構成するi個のブロックに含まれる不揮発性メモリ80のページの総数である。データ制御ブロック(D−CTL_BLK)70は、選択されたi個のブロック番号と、チャネル番号と、ウェイ番号で、現在書き込みを行ったグループについて、属性物理変換テーブル(APT)130の物理アドレス1304を更新する。
また、データ制御ブロック(D−CTL_BLK)70は、選択されたブロックに関して、ブロック管理テーブル(BLK_ST)120に記録されているブロックの状態を”ERASED”から”ALLOCATED”に更新し、属性物理変換テーブル(APT)130の対応する行のページカウント1303の値を1に更新する(ステップS5)。
次にステップS6では、データ制御ブロック(D−CTL_BLK)70がデータの書き込み先を決定する。まず、データ分類ブロック(CLSFY_BLK)68は、属性物理変換テーブル(APT)130のうち、対応するデータ分類のページカウント1303及び物理アドレス1304の項目を参照する。そして、データ分類ブロック(CLSFY_BLK)68は、ページカウント1303の値から、次の書き込み先のチップ(i、j)、ブロック(N_blk)、ページ(N_pg)を、属性物理変換テーブル(APT)130の物理アドレス1304の項目に記録されたi個の書き込み先を選択する。
その後、データ分類ブロック(CLSFY_BLK)68は、上記選択した書き込み先のチップ(i、j)を制御するチャネル(Ch.i)の不揮発性メモリ制御部(NVMC)73−1〜73−iに書き込み要求を送信する。書き込み要求を受信した不揮発性メモリ制御部73は、指定されたチップ(i、j)のブロック(N_blk)のページ(N_pg)にデータバッファ(D−BF)65の値を書き込む。
そして、データ分類ブロック(CLSFY_BLK)68は、書き込みを行った物理アドレス1304に対応する論理アドレスを対応付けて図9Aの論理物理変換テーブル(LPT)110を更新し、図9Bに示すブロック管理テーブル120のうち、書き込みを行ったブロックの行においてのブロックの状態1202の欄を”ALLOCATED”から”PROGRAMMED”に更新する(ステップS7)。
以上の処理によって、ホスト30による読み出しがシーケンシャルとなるグラフデータ(CSR)とグラフ解析の結果(MSG)を、グループ単位で複数のチャネル番号を跨ぐように不揮発性メモリ80に格納し、ホスト30による読み出しがランダムアクセスとなる頂点情報(VAL)を、上記グループとは異なるチップまたはブロック(消去単位)に書き込むことができる。
これにより、不揮発性メモリ80のひとつのブロックにランダムアクセスするデータと、シーケンシャルアクセスするデータが混在して格納されるのを防止できる。すなわち、ランダムアクセスのデータと、ランダムアクセス以外のデータ(シーケンシャルアクセスのデータ)とを不揮発性メモリ80の異なるブロック(消去単利)で管理することが可能となる。したがって、前記従来例のように、シーケンシャルアクセスのデータが、ランダムアクセスのデータと一緒に移動及び消去されるのを防いで、不揮発性メモリ80のガーベッジコレクションの効率を向上させることができる。
そして、グループに割り当てられたグラフデータ(CSR)とグラフ解析の結果(MSG)の読み出しは、不揮発性メモリ80の読み出し単位でのシーケンシャルリードとなるので、グループ単位で複数のチャネル番号を跨ぐように設定することで、アクセスの並列度を向上させてデータの転送速度を向上させることができる。
なお、上記実施例1では、メモリサブシステム制御モジュール(MSC)60が属性物理変換テーブル(APT)130を設定する例を示したが、メモリサブシステム制御モジュール60が不揮発性メモリ80の構成をホスト30に通知し、ホスト30で実行するプログラムで属性物理変換テーブル130を設定するようにしてもよい。
上記実施例1では、メモリサブシステム制御モジュール(MSC)60が、書き込み要求のデータを非圧縮で不揮発性メモリ80へ格納する例を示したが、本実施例2では、データを圧縮する例を示す。
図11は、第2の実施例における不揮発性メモリのチップ、ブロック及びページと圧縮データのグループとの対応関係の一例を示すブロック図である。DRAM72には前記実施例1に示したテーブルに加えて、グループ(1〜M)毎にバッファ720−1〜720−Mと、DRAMバッファ管理テーブル140を格納する。その他の構成は、前記実施例1と同様であり、同様のものについては重複した説明を省略する。
バッファ720−1〜720−Mは、メモリサブシステム制御モジュール(MSC)60が、ホスト30から受信した書き込みデータを圧縮した後に、当該圧縮データをグループ1〜M毎に一時的に格納する記憶領域である。
DRAMバッファ管理テーブル140は、バッファ720−1〜720−Mに格納した圧縮データを管理するためのテーブルである。
図11〜図14Bを用いて、メモリサブシステム50におけるデータ圧縮書き込みの際の制御に関して説明する。
まず、図11〜図12を用いて、全体の制御を概説する。メモリサブシステム制御モジュール(MSC)60がホスト30からデータ及び書き込みリクエストを受信する(図11の1. Write Req.)。
メモリサブシステム制御モジュール(MSC)60は、ホスト30から送られたデータを圧縮する(図11の2. Compression)。データを圧縮するか否かは、ホスト30がデータ書き込みリクエストに加えて、圧縮リクエストを送信するか否かで決定してもよいし、メモリサブシステム制御モジュール(MSC)60が決定してもよい。
図12Aは、データ圧縮処理前後でのデータサイズの変化の例を示す図である。図12Aに示すように、ホスト30から不揮発性メモリ80の書き込み単位(PAGE SIZE)でデータが送られた場合、圧縮されたデータは、不揮発性メモリ80の書き込み単位(ページ)より小さな圧縮データサイズ単位(CMP_unit)で管理される。ページサイズが8Kバイトの場合、この圧縮データサイズ単位(CMP_unit)は、例えば、2Kバイトで管理され、ひとつのページサイズは、4つの圧縮データサイズ単位で管理される。
その後、圧縮されたデータは、メモリサブシステム制御モジュール(MSC)60によって、メモリサブシステム50のDRAM72に設定されたバッファ720−1〜720−Mに、データのグループごとに異なる物理アドレスにバッファリングされる(図11の3. Buffer Data)。
データのグループごとにバッファリングされたデータサイズが、不揮発性メモリ80のページ(書き込み単位)サイズを超えたら、前記第1実施例の図7に示した(E2)のデータ書き込み処理のフローチャートに基づいて、メモリサブシステム制御モジュール(MSC)60は圧縮されたデータを所定の書き込み単位で、不揮発性メモリ80に書き込む。
図12Bは、データ圧縮処理前後でのデータサイズの変化の例を示す図である。一方、図12Bで示すように、ホスト30から複数の不揮発性メモリ80の書き込み単位(PAGE SIZE)でデータが送られた場合、メモリサブシステム制御モジュール(MSC)60では、圧縮されたデータを不揮発性メモリ80の書き込み単位に調整して書き込む。圧縮されたデータサイズがページサイズに達した場合、圧縮されたデータはDRAM72のバッファ720−1〜720−Mにはバッファリングされず、上記(E2)に示したデータ書き込み処理のフローチャートに基づいて、メモリサブシステム制御モジュール(MSC)60は不揮発性メモリ80の書き込み単位で、圧縮したデータを直接不揮発性メモリ80に書き込む。
データ圧縮及び書き込み処理において必要となる管理テーブルを図13A、図13Bに示す。図13Aは、データの論理アドレスと物理アドレスを対応付ける論理物理変換テーブル(LPT)110Aである。本実施例2では、前記図9Aに示した論理物理変換テーブル110とは異なり、データ圧縮の際は、1つの論理アドレスに対応するデータサイズが可変となる。このため、1つの論理アドレスに対応するデータが格納されている物理アドレスを、不揮発性メモリ80の書き込み単位より小さな圧縮データサイズ単位(CMP_unit)に分割して管理する。図13Aの論理物理変換テーブル(LPT)110Aは、論理アドレス1101と、圧縮データの開始位置を示す物理アドレス1102と、圧縮データの開始位置を示す圧縮ユニット1103と、圧縮データの終点となるページの位置を示す物理アドレス1104と、圧縮データの終点となる圧縮ユニット110とをひとつのレコードに含む。
例えば、図13Aの例では、不揮発性メモリ80のひとつの書き込み単位(ページ)は、4つの圧縮データサイズ単位(CMP_unit)に分割されている。1行目の論理アドレス0x000000のデータは、物理アドレス(不揮発性メモリ80の書き込み単位に対応)0x10c8b0の0番目の圧縮データサイズ単位(CMP_unit)から同じ物理アドレス(ページ)0x10c8b0の2番目の圧縮データサイズ単位(CMP_unit)に格納されていることを示す。他も同様である。
図13Bは、圧縮されたデータを一時的に格納するDRAMバッファ1管理テーブル(CMP_BFT)140である。DRAMバッファ管理テーブル140は、図11に示したバッファ720−1〜720−Mが2ページ分の容量に設定されているのに対応して、ページ0とページ1の2ページのバッファを管理する。DRAMバッファ管理テーブル140は、グループ番号を格納するグループ1401と、ページ0の圧縮データサイズ単位(CMP_unit0〜3)の論理アドレス1402−1〜1402−4と、ページ1の圧縮データサイズ単位(CMP_unit0〜3)の論理アドレス1403−1〜1403−4とをひとつのレコードに含む。
メモリサブシステム制御モジュール(MSC)60は、グループ単位でDRAM72のバッファ720−1〜720−Mへデータを格納する。図13Bには、グループごとのバッファ720に、不揮発性メモリ80の書き込み単位2つ分のデータ領域を確保した例を挙げる。不揮発性メモリ80の書き込み単位はさらに4つの圧縮データサイズ単位(CMP_unit)に分割されているため、圧縮データサイズ単位(CMP_unit)ごとに、そのデータに対応する論理アドレス(1402−1〜1402−4)がDRAMバッファ管理テーブル140に記録される。図13Bの例では、各圧縮データに対応する論理アドレスを記録するテーブルの例を挙げたが、例えば圧縮データの先頭に論理アドレスを付加して、圧縮データと共に論理アドレスをDRAMバッファ720へ記録してもよい。
図14A、図14Bは、メモリサブシステム50で行われるデータ圧縮及び書き込み処理の一例を示すフローチャートである。
図14Aは、ホスト30から不揮発性メモリ80の書き込み単位(PAGE SIZE)でデータが送られた場合に、メモリサブシステム50で行われる処理のフローチャートである。
まず、メモリサブシステム制御モジュール(MSC)60のデータ圧縮ブロック(COMP_BLK)69は、レジスタ61を参照して、ホスト30からデータ書き込み要求を受信する(ステップS11)。
次に、データ圧縮ブロック(COMP_BLK)69は、メタデータバッファ(M−BF)63に格納された書き込み要求のデータの属性(またはデータのグループ)を参照する(ステップS12)。そして、データ圧縮ブロック(COMP_BLK)69は、データバッファ(D−BF)65に格納されたデータを圧縮する(ステップS13)。
データ圧縮ブロック(COMP_BLK)69は、圧縮されたデータを、メモリサブシステム50のDRAM72のバッファ720に格納する。圧縮データの格納先は、上記ステップS12で参照したデータのグループに応じたバッファ720−1〜720−Mを選択する。
次に、データ圧縮ブロック(COMP_BLK)69は、アドレスバッファ(A−BF)64に格納されたデータの論理アドレスを取得する。取得したデータの論理アドレスの値を基に、データ圧縮ブロック(COMP_BLK)69は、メモリサブシステム50のDRAMバッファ管理テーブル(CMP_BFT)140を更新する(ステップS15)。この更新は、圧縮データを書き込んだバッファ720のページと圧縮データサイズ単位(CMP_unit0〜3)に、上記取得した論理アドレスを書き込む。
更新したDRAMバッファ管理テーブル(CMP_BFT)140を参照し、データ圧縮ブロック(COMP_BLK)69は、現在書き込んだグループのデータが不揮発性メモリ80の書き込み単位分だけバッファ720に溜まっているか否かを判定する(ステップS16)。
上記判定の結果、書き込みを行ったバッファ720に不揮発性メモリ80の書き込み単位分(1ページ)の圧縮データが溜まっていれば、前記実施例1の図10に示した書き込み処理を実行し、バッファ720の圧縮データを不揮発性メモリ80へ書き込む(To Write Seq.)。
一方上記判定の結果、書き込みを行ったバッファ720に不揮発性メモリ80の書き込み単位分(1ページ)の圧縮データが溜まっていない場合、データ圧縮ブロック(COMP_BLK)69は、ホスト30からの次のリクエストを待つ状態に移行する(Wait Next Req.)。
なお、上記ではデータのグループ毎にバッファ720−1〜720−Mへ格納する例を示したが、図示はしないが、ランダムアクセスのデータについても、上記と同様にDRAM72にバッファを設けて圧縮する。
以上の処理により、データ圧縮ブロック69は、ホスト30から受信した書き込みデータを圧縮してバッファ720へ蓄積し、バッファ720に1ページ分のデータが溜まると不揮発性メモリ80へ書き込む。データの書き込み先は、上記実施例1と同様であり、シーケンシャルアクセスとなるデータを格納する不揮発性メモリ80のブロックと、ランダムアクセスのデータを格納するブロックを分け、さらに、データを圧縮することで、不揮発性メモリ80の記憶領域を有効に利用することができる。
図14Bは、ホスト30から複数の不揮発性メモリ80の書き込み単位(PAGE SIZE)でデータが送られた場合における、メモリサブシステム50で行われる処理のフローチャートである。すなわち、図12Bで示したように、複数のページを圧縮した結果、1ページに収まる場合の処理である。
ステップS21〜S23は、図14Aと同様である。データ圧縮後、圧縮されたデータはDRAM72のバッファ720に格納されず、上記実施例1の図10に示したデータ書き込み処理に従って、不揮発性メモリ80の書き込み単位で書き込まれる。
以上、本実施例2によれば、前記実施例1の効果に加えて、データを圧縮することで不揮発性メモリ80の利用効率を向上させることができる。
なお、ホスト30が圧縮データを読み出す際には、図示はしないが、データ圧縮ブロック69が圧縮データを復元する。
図15〜図18は実施例3を示し、前記実施例1の構成に最終書き込みブロック管理テーブル150を加えて、メモリサブシステム50へデータを書き込む際に書き込み先を選択する。
まず、図15を用いて、全体の処理を説明する。図15は、不揮発性メモリのチップ、ブロックと格納されるデータ種との対応関係の一例を示すブロック図である。
ホスト30から書き込みリクエスト及びデータと共に、データの種類(グラフデータ(CSR)、解析結果(MSG)、頂点情報(VAL)など)がメモリサブシステム制御モジュール(MSC)60へ通知される。メモリサブシステム制御モジュール(MSC)60は、受信したデータの種類を基に、データ書き込み先の選択方法を変更する。
前記実施例1の図5に示したような、グラフデータ(CSR)がグラフ処理の終了まで更新されない例では、グラフデータはグラフ処理中に更新されないが、グラフ処理の解析結果(MSG)は、スーパーステップ(S.S.)ごとに更新される。また、頂点情報(VAL)は、例えば16バイトの細かなアクセス単位でランダムに更新される。
したがって、メモリサブシステム制御モジュール(MSC)60は、更新頻度の低いグラフデータ(CSR)を、(メモリサブシステム50の全体平均と比べ)比較的消去回数の多いブロック(OLD BLK)へ書き込み、更新頻度の高い解析結果(MSG)などを消去回数の少ないブロック(YOUNG BLK)や、最後に書き込みを行ったブロックの(物理的に)次のブロック(NEXT BLK)へ書き込む。
このようなデータの種類に応じた書き込み先選択の変更により、異なるブロック間での消去回数の偏りを是正し、スタティックウェアレベリングなどの頻度を低下させ、不揮発性メモリ80の性能や寿命を向上させる。
図16は、不揮発性メモリのチップ、ブロックと格納されるデータ種との対応関係の他の例を示すブロック図である。
図16のように、メモリサブシステム50で異なる書換え回数の上限(書換え寿命)を有するデバイス(不揮発性メモリ)が混在した場合、消去回数の上限が低いNAND MLCへ更新頻度の低いグラフデータ(CSR)を格納し、消去回数の上限が高いNAND SLCへ更新頻度の高い解析結果(MSG)などを格納する。こうすることにより、異なるデバイス間の寿命が均等化され、メモリサブシステム50全体としての寿命が向上する。
次に図17を用いて、書き込み先選択処理のフローチャートについて説明する。まず、メモリサブシステム制御モジュール(MSC)60は、ホスト30からの書き込みリクエストを受信する(ステップS31)。
次に、メモリサブシステム制御モジュール(MSC)60のウェアレベリングブロック(WL_BLK)67は、メタデータバッファ(M−BF)63に記録されたデータの種類を参照する(ステップS32)。そして、ウェアレベリングブロック(WL_BLK)67は、メモリサブシステム50のDRAM72に記録されている実施例1の図9Bに示したブロック管理テーブル(BLK_ST)120や、図18に示す最終書き込みブロック管理テーブル(LST_BLK)150を参照する(ステップS33)。そして、ウェアレベリングブロック(WL_BLK)67は、不揮発性メモリ80の消去回数(Erase cycle)や、各チャネル、ウェイのチップへ最後に書き込みが行われたブロック番号(Last programmed block)などを取得する。
ウェアレベリングブロック(WL_BLK)67は、取得した情報及びステップS32で参照したデータの種類を基に、次の書き込み先ブロックを決定する(ステップS34)。次の書き込み先ブロックの決定は、上記図15または図16で述べた処理を実施する。
その後、ウェアレベリングブロック(WL_BLK)67は、書き込み先のチップが属するチャネルの不揮発性メモリ制御部NVMC73に書き込み要求を送信する。そして、ウェアレベリングブロック(WL_BLK)67は、ブロック管理テーブル(BLK_ST)120のうち、該当するデータ種類の行においてブロック状態(Status of block)1202を”ERASED”から”ALLOCATED”もしくは”PROGRAMMED”に更新し、最終書き込みブロック管理テーブル(LST_BLK)150、属性物理変換テーブル(APT)130、及び論理物理変換テーブル(LPT)110を更新する(ステップS35)。
上記処理により、実施例1の効果に加え、データの種類に応じた書き込み先の変更により、異なるブロック間での消去回数の偏りを是正し、スタティックウェアレベリングなどの頻度を低下させ、不揮発性メモリ80の性能や寿命を向上させる。
<F.効果のまとめ>
以上説明した各実施例1〜3の構成及び処理により得られる主な効果は以下の通りである。
大容量で安価な不揮発性メモリを使用可能とすることで、ビッグデータ等の大量のデータを処理する際に必要な大規模なメモリを安価に提供でき、かつ、メモリに対して高速なデータアクセスを行うことができる。すなわち、ビッグデータの高速処理を行うサーバにおいて、DRAMなどよりビットコストが安価なNANDフラッシュメモリなどの不揮発性メモリ80にデータを格納し、かつ、その場合でも、ランダムアクセスするデータとそれ以外のデータを、不揮発性メモリ80の異なる消去単位(例えば、ブロック)に格納する。これにより、不揮発性メモリ80におけるガーベッジコレクションの効率を向上させ、高速なデータアクセスが可能になる。また、メモリサブシステム50でデータを圧縮し、DRAMなどの小容量だが高速なメモリに、データの分類ごとに圧縮されたデータをバッファリングすることで、不揮発性メモリ80へのデータアクセスを削減することができ、高速なデータアクセスが可能になる。さらに、データの分類ごとに、記憶装置が書き込み先の選択方法を切り替えることで、不揮発性メモリ80の消去回数を平準化でき、記憶装置の寿命劣化を抑制することが可能になる。
また、以上の説明では、データ処理を行うホスト30、不揮発性メモリ80、及び不揮発性メモリ80を管理するメモリサブシステム制御モジュール60から構成されるサーバ10の例を挙げたが、サーバ10はデータ解析及び不揮発性メモリ80を管理するホスト30、及びホスト30の管理にしたがって不揮発性メモリ80を制御するメモリサブシステム制御モジュール60とから構成してもよい。
また、大規模グラフを頂点番号やデータ種に応じて複数のグループ(Gr.)とランダムアクセス、及びグラフデータと解析結果などに分類して管理する例を挙げたが、グラフデータ自体が頻繁に更新される例では、更新されるグラフデータも別の分類として扱うなど、大規模グラフ処理や取り扱うビッグデータ処理は上記の例に限定されるものではない。例えば、MapReduce処理において、Keyに応じて(keyとvalueで制御された)ビッグデータを、key値ごとに複数のグループ(Gr.)に分割し、その他のランダムアクセスデータと区別して管理するなど、上記処理と同様にメモリ処理を行ってもよい。
また、ホスト30で実行するプログラムのソースコード上で大きな配列を確保するビッグデータ処理のアプリケーションプログラムにおいて、同一配列を同一データ種とみなして上記メモリ処理を実行しても良く、また、上記処理の適用範囲は、大規模なデータベースの検索及びデータ抽出などを行う場合も含まれる。そして、これらの処理においてもビッグデータを高速に読み書きできるため、ビッグデータ処理を高速化できる。
以上、添付図面を参照して具体的に説明したが、好ましい実施の形態は以上の説明に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
なお、本発明において説明した計算機等の構成、処理部及び処理手段等は、それらの一部又は全部を、専用のハードウェアによって実現してもよい。
また、本実施例で例示した種々のソフトウェアは、電磁的、電子的及び光学式等の種々の記録媒体(例えば、非一時的な記憶媒体)に格納可能であり、インターネット等の通信網を通じて、コンピュータにダウンロード可能である。
また、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明をわかりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。

Claims (9)

  1. 演算処理を行うホストと、前記ホストに接続されたメモリサブシステムとを備えた情報処理装置であって、
    前記ホストは、
    データと、前記データの種類を含む書き込み要求を前記メモリサブシステムへ通知し、
    前記メモリサブシステムは、
    第1のメモリと、
    データを消去するデータ消去単位のサイズが、前記データの書き込み単位のサイズより大きく、かつ、前記第1のメモリよりデータ容量の大きい第2のメモリと、
    前記第1のメモリと前記第2のメモリを制御するメモリサブシステム制御モジュールと、を有し、
    前記第2のメモリは複数のウェイを含み、互いに独立してアクセス可能な複数のチャネルを介して前記メモリサブシステム制御モジュールと接続され、
    前記メモリサブシステム制御モジュールは、記データの種類に基づいて、ンダムアクセス以外のデータは全てのチャネルにまたがって並列的に同一ウェイ番号の前記第2のメモリにアクセスし、ランダムアクセスデータは1または複数の選択されたチャネルを用いて前記第2のメモリにアクセスし、前記ランダムアクセス以外のデータと前記ランダムアクセスデータとが異なるデータ消去単位となるように管理することを特徴とする情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記メモリサブシステム制御モジュールは、
    前記ホストから前記メモリサブシステムへ発行される書き込み命令に含まれるデータの種類に応じて、前記ランダムアクセスデータを書き込むための前記第2のメモリの領域のデータサイズを動的に変更することを特徴とする情報処理装置。
  3. 請求項1に記載の情報処理装置であって、
    前記データの種類は、
    前記アクセスするデータがランダムアクセスデータか否かを識別する情報と、前記ホストのデータ処理単位であるグループの番号を識別する情報と、前記アクセスするデータがグラフの接続データと、前記グラフの解析結果と、前記グラフの頂点情報の何れであるかを識別する情報のうち、少なくとも1つ含むことを特徴とする情報処理装置。
  4. 請求項1に記載の情報処理装置であって、
    前記第1のメモリは、前記第2のメモリよりもデータの転送速度が高く、
    前記第2のメモリは、不揮発性メモリであることを特徴とする請求項1に記載の情報処理装置。
  5. 演算処理を行うホストと、前記ホストに接続されたメモリサブシステムとを備えた情報処理装置であって、
    前記ホストは、
    データと、前記データの種類を含む書き込み要求を前記メモリサブシステムへ通知し、
    前記メモリサブシステムは、
    第1のメモリと、
    データを消去するデータ消去単位のサイズが、前記データの書き込み単位のサイズより大きく、かつ、前記第1のメモリよりデータ容量の大きい第2のメモリと、
    前記第1のメモリと前記第2のメモリを制御するメモリサブシステム制御モジュールと、を有し、
    前記第2のメモリは複数のウェイを含み、互いに独立してアクセス可能な複数のチャネルを介して前記メモリサブシステム制御モジュールと接続され、
    前記メモリサブシステム制御モジュールは、記データを圧縮し、前記データの種類に基づいて、異なるデータの種類の圧縮データを、前記第1のメモリの異なる物理領域に書き込み、前記データの種類に基づいてランダムアクセス以外のデータは全てのチャネルにまたがって並列的に同一ウェイ番号の前記第2のメモリにアクセスし、ランダムアクセスデータは1または複数の選択されたチャネルを用いて前記第2のメモリにアクセスし、前記ランダムアクセス以外のデータと前記ランダムアクセスデータとが異なる消去単位となるように管理することを特徴とする情報処理装置。
  6. 請求項5に記載の情報処理装置であって、
    前記メモリサブシステムは、
    前記第1のメモリの異なる領域に格納された、前記データの種類が異なる圧縮データを、異なる前記第2のメモリの消去単位に書き込むことを特徴とする情報処理装置。
  7. 請求項5に記載の情報処理装置であって、
    前記メモリサブシステムは、
    前記圧縮データに対応する管理情報を前記第1のメモリに格納することを特徴とする情報処理装置。
  8. 請求項7に記載の情報処理装置であって、
    前記管理情報は、前記圧縮データに対応する論理アドレスを含むことを特徴とする情報処理装置。
  9. 請求項5に記載の情報処理装置であって、
    前記メモリサブシステムは、
    前記圧縮データを前記第2のメモリの書き込み単位よりデータサイズの小さな単位で管理することを特徴とする情報処理装置。
JP2015559716A 2014-02-03 2014-02-03 情報処理装置 Expired - Fee Related JP6139711B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/052440 WO2015114829A1 (ja) 2014-02-03 2014-02-03 情報処理装置

Publications (2)

Publication Number Publication Date
JPWO2015114829A1 JPWO2015114829A1 (ja) 2017-03-23
JP6139711B2 true JP6139711B2 (ja) 2017-05-31

Family

ID=53756439

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015559716A Expired - Fee Related JP6139711B2 (ja) 2014-02-03 2014-02-03 情報処理装置

Country Status (3)

Country Link
US (1) US20170003911A1 (ja)
JP (1) JP6139711B2 (ja)
WO (1) WO2015114829A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016174744A1 (ja) * 2015-04-28 2016-11-03 株式会社日立製作所 不揮発性メモリの制御方法、制御装置、および半導体記憶装置
WO2019021415A1 (ja) * 2017-07-27 2019-01-31 株式会社日立製作所 ストレージシステム及びデータ格納制御方法
US10705747B2 (en) 2018-03-21 2020-07-07 Micron Technology, Inc. Latency-based storage in a hybrid memory system
KR102586768B1 (ko) * 2018-03-27 2023-10-16 에스케이하이닉스 주식회사 컴퓨팅 시스템 및 그것의 동작방법
WO2020213021A1 (ja) * 2019-04-15 2020-10-22 三菱電機株式会社 記録装置および記録再生装置
KR20220022139A (ko) * 2020-08-18 2022-02-25 에스케이하이닉스 주식회사 메모리 시스템, 메모리 컨트롤러 및 메모리 시스템의 동작 방법
JP7132291B2 (ja) * 2020-08-31 2022-09-06 キオクシア株式会社 メモリシステムおよび制御方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006235960A (ja) * 2005-02-24 2006-09-07 Fujitsu Ltd ガーベッジコレクション高速化方法
JP2007094639A (ja) * 2005-09-28 2007-04-12 Tdk Corp メモリコントローラ及びフラッシュメモリシステム
JP2009211192A (ja) * 2008-02-29 2009-09-17 Toshiba Corp メモリシステム
JP2010198209A (ja) * 2009-02-24 2010-09-09 Toshiba Corp 半導体記憶装置
JP4818404B2 (ja) * 2009-06-26 2011-11-16 株式会社東芝 素材サーバおよび素材蓄積方法
JP2011227802A (ja) * 2010-04-22 2011-11-10 Funai Electric Co Ltd データ記録装置
JP2012033002A (ja) * 2010-07-30 2012-02-16 Toshiba Corp メモリ管理装置およびメモリ管理方法
JP2013029879A (ja) * 2011-07-26 2013-02-07 Denso Corp フラッシュメモリの制御装置
JP5971509B2 (ja) * 2011-08-30 2016-08-17 ソニー株式会社 情報処理装置および方法、並びに記録媒体
TWI605458B (zh) * 2012-04-25 2017-11-11 Sony Corp Non-volatile memory devices, non-volatile memory control devices, and non-volatile memory control methods
US8910017B2 (en) * 2012-07-02 2014-12-09 Sandisk Technologies Inc. Flash memory with random partition

Also Published As

Publication number Publication date
WO2015114829A1 (ja) 2015-08-06
US20170003911A1 (en) 2017-01-05
JPWO2015114829A1 (ja) 2017-03-23

Similar Documents

Publication Publication Date Title
JP6139711B2 (ja) 情報処理装置
US9229876B2 (en) Method and system for dynamic compression of address tables in a memory
US10739996B1 (en) Enhanced garbage collection
US9678676B2 (en) Method for storage devices to achieve low write amplification with low over provision
CN112765006B (zh) 固态硬盘日志生成方法及其固态硬盘
US9189389B2 (en) Memory controller and memory system
KR102170539B1 (ko) 저장 장치에 의해 데이터를 저장하기 위한 방법 및 저장 장치
JP2019020788A (ja) メモリシステムおよび制御方法
US20160188227A1 (en) Method and apparatus for writing data into solid state disk
US8909895B2 (en) Memory apparatus
JP5969130B2 (ja) 情報処理装置
US10198203B2 (en) Method of operating memory device using pseudo-random functions, memory device using the same and memory system including the device
CN110389712B (zh) 数据写入方法及其装置、固态硬盘和计算机可读存储介质
KR100988388B1 (ko) 플래시 메모리 장치의 성능 향상 방법 및 이를 수행하는 플래시 메모리 장치
CN113986773A (zh) 基于固态硬盘的写放大优化方法、装置及计算机设备
WO2015087651A1 (ja) メモリの使用可能期間を延ばすための装置、プログラム、記録媒体および方法
KR100745163B1 (ko) 동적 매핑 테이블을 이용한 플래시 메모리 관리방법
JP6100927B2 (ja) 情報処理装置
US20190294555A1 (en) Information processing device, storage device, and method of calculating evaluation value of data storage location
CN114625318A (zh) 应用于固态硬盘的数据写入方法、装置、设备
US11269534B2 (en) Data storage device and non-volatile memory control method
JP6760916B2 (ja) ストレージコントローラ、ストレージアレイ装置、データ格納方法、およびプログラム
JPWO2017082323A1 (ja) 分散処理システム、分散処理装置、分散処理方法およびプログラム
KR100994052B1 (ko) 플래시 변환 계층에서 수행되는 데이터 관리 방법 및 이를 수행하는 플래시 메모리 장치
KR101609304B1 (ko) 멀티칩 플래시 저장장치 및 그 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170427

R150 Certificate of patent or registration of utility model

Ref document number: 6139711

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees