JP7521133B2 - Dramコマンドストリーク効率管理 - Google Patents

Dramコマンドストリーク効率管理 Download PDF

Info

Publication number
JP7521133B2
JP7521133B2 JP2023560438A JP2023560438A JP7521133B2 JP 7521133 B2 JP7521133 B2 JP 7521133B2 JP 2023560438 A JP2023560438 A JP 2023560438A JP 2023560438 A JP2023560438 A JP 2023560438A JP 7521133 B2 JP7521133 B2 JP 7521133B2
Authority
JP
Japan
Prior art keywords
cas
command
streak
interval
commands
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023560438A
Other languages
English (en)
Other versions
JP2024514503A (ja
Inventor
シェン ガンハオ
ナス バルガバ ラビンドラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Micro Devices Inc
Original Assignee
Advanced Micro Devices Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Micro Devices Inc filed Critical Advanced Micro Devices Inc
Publication of JP2024514503A publication Critical patent/JP2024514503A/ja
Application granted granted Critical
Publication of JP7521133B2 publication Critical patent/JP7521133B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0659Command handling arrangements, e.g. command buffers, queues, command scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/0284Multiple user address space allocation, e.g. using different base addresses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0877Cache access modes
    • G06F12/0879Burst mode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/16Handling requests for interconnection or transfer for access to memory bus
    • G06F13/1605Handling requests for interconnection or transfer for access to memory bus based on arbitration
    • G06F13/161Handling requests for interconnection or transfer for access to memory bus based on arbitration with latency improvement
    • G06F13/1626Handling requests for interconnection or transfer for access to memory bus based on arbitration with latency improvement by reordering requests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/16Handling requests for interconnection or transfer for access to memory bus
    • G06F13/1605Handling requests for interconnection or transfer for access to memory bus based on arbitration
    • G06F13/1642Handling requests for interconnection or transfer for access to memory bus based on arbitration with request queuing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/16Handling requests for interconnection or transfer for access to memory bus
    • G06F13/1668Details of memory controller
    • G06F13/1689Synchronisation and timing concerns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1016Performance improvement
    • G06F2212/1024Latency reduction
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/10Input/output [I/O] data interface arrangements, e.g. I/O data control circuits, I/O data buffers
    • G11C7/1015Read-write modes for single port memories, i.e. having either a random port or a serial port
    • G11C7/1042Read-write modes for single port memories, i.e. having either a random port or a serial port using interleaving techniques, i.e. read-write of one part of the memory while preparing another part

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Dram (AREA)
  • Bus Control (AREA)
  • Memory System (AREA)

Description

コンピュータシステムは、一般に、メインメモリ用の安価で高密度のダイナミックランダムアクセスメモリ(dynamic random access memory、DRAM)チップを使用する。今日販売されている殆どのDRAMチップは、Joint Electron Devices Engineering Council(JEDEC)によって広められた様々なダブルデータ速度(double data rate、DDR)DRAM規格と適合する。DDR DRAMは、高速アクセス回路を伴う従来のDRAMメモリセルアレイを使用して、高い転送速度を達成し、メモリバスの利用率を向上させる。
典型的なDDRメモリコントローラは、メモリコントローラが保留中の要求を順不同に選ぶことによって効率を高めることができるようにするために、保留中の読み取り要求及び書き込み要求を記憶するためのキューを維持する。例えば、メモリコントローラは、所定のランクのメモリ内の同じ行(row)に対する複数のメモリアクセス要求(「ページヒット」と呼ばれる)をキューから順不同に取り出し、それらをメモリシステムに連続して発行して、現在の行をプリチャージして別の行を繰り返しアクティブ化するオーバーヘッドを回避することができる。しかしながら、DDR5等の最新のメモリ技術で利用可能なバス帯域幅を利用しながら、ディープキューからアクセスを走査(scanning)して選ぶ(picking)ことは、既知のメモリコントローラにより達成することが困難になっている。メモリコントローラは、バス効率を向上させるために、読み取りコマンド又は書き込みコマンドのストリークを生成する等の技術を使用することができる。しかしながら、そのような技術は、現在のストリークの一部ではないコマンドを遅延させることにより生じるレイテンシ懸念、及び、コマンドバスを読み取りストリークから書き込みストリークへ及びその逆へ「ターンアラウンドする」ことに関連する更なる性能オーバーヘッド等の性能トレードオフを伴う。
先行技術で知られている加速処理ユニット(accelerated processing unit、APU)及びメモリシステムのブロック図である。 いくつかの実施形態に係る、図1と同様のAPUで用いるのに適したメモリコントローラのブロック図である。 いくつかの実施形態に係る、図2のメモリコントローラの一部のブロック図である。 いくつかの実施形態に係る、ストリーク効率を管理するためのプロセスのフロー図である。 いくつかの更なる実施形態に係る、ストリーク効率を管理するための別のプロセスのフロー図である。
以下の説明において、異なる図面における同一の符号の使用は、同様の又は同一のアイテムを示す。別段言及されなければ、「結合される」という単語及びその関連する動詞形は、当技術分野で知られている手段による直接接続及び間接電気接続の両方を含み、また、別段言及されなければ、直接接続の任意の記述は、好適な形態の間接電気接続を使用する代替の実施形態も意味する。
メモリコントローラは、メモリアクセス要求を受信するための第1の入力を有するコマンドキューと、少なくとも1つのダイナミックランダムアクセスメモリ(DRAM)に接続するように適合されたメモリチャネルに結合するための出力を有するメモリインターフェースキューと、を含む。アービタは、コマンドキューからエントリを選択し、エントリをメモリインターフェースキューに配置して、メモリチャネル上で送信させるために、コマンドキューに接続される。アービタは、メモリチャネル上で、連続した読み取りコマンドのストリーク及び連続した書き込みコマンドのストリークを処理するように動作可能である。アービタは、アービタによって選択されるために利用可能な指定されたタイプのコマンドの数に基づいて、少なくとも最小バースト長のストリークを処理するように動作可能である。最小バースト長に続いて、アービタは、イントラバースト効率を示す第1の1つ以上の条件のセットに基づいて、異なるタイプのコマンドの新しいストリークを開始することを決定するように動作可能である。
方法は、連続した読み取りコマンドのストリーク及び連続した書き込みコマンドのストリークを、メモリチャネル上で処理させることを含む。本方法は、アービタによって選択されるために利用可能な指定されたタイプのコマンドの数に基づいて、少なくとも最小バースト長のストリークを処理することを含む。最小バースト長に続いて、本方法は、イントラバースト効率を示す第1の1つ以上の条件のセットに基づいて、異なるタイプのコマンドの新しいストリークを開始することを決定することを含む。
データ処理システムは、中央処理ユニットと、中央処理ユニットに接続されるデータファブリックと、中央処理ユニットからのメモリ要求を満たすためにデータファブリックに接続されるメモリコントローラと、を含む。メモリコントローラは、メモリアクセス要求を受信するための第1の入力を有するコマンドキューと、少なくとも1つのDRAMに接続するように適合されたメモリチャネルに結合するための出力を有するメモリインターフェースキューと、を含む。アービタは、コマンドキューからエントリを選択し、エントリをメモリインターフェースキューに配置して、メモリチャネル上で送信させるために、コマンドキューに接続される。アービタは、メモリチャネル上で、連続した読み取りコマンドのストリーク及び連続した書き込みコマンドのストリークを処理するように動作可能である。アービタは、アービタによって選択されるために利用可能な指定されたタイプのコマンドの数に基づいて、少なくとも最小バースト長のストリークを処理するように動作可能である。最小バースト長に続いて、アービタは、イントラバースト効率を示す第1の1つ以上の条件のセットに基づいて、異なるタイプのコマンドの新しいストリークを開始することを決定するように動作可能である。
図1は、従来技術において知られている加速処理ユニット(accelerated processing unit、APU)100及びメモリシステム130のブロック図である。APU100は、ホストデータ処理システムにおけるプロセッサとして用いるのに適した集積回路であり、概して、中央処理ユニット(central processing unit、CPU)コア複合体110と、グラフィックスコア120と、ディスプレイエンジン122のセットと、メモリ管理ハブ140と、データファブリック125と、周辺コントローラ160のセットと、周辺バスコントローラ170のセットと、システム管理ユニット(system management unit、SMU)180と、を含む。
CPUコア複合体110は、CPUコア112及びCPUコア114を含む。この例では、CPUコア複合体110が2つのCPUコアを含むが、他の実施形態では、CPUコア複合体110が任意の数のCPUコアを含むことができる。CPUコア112、114の各々は、制御ファブリックを形成するシステム管理ネットワーク(system management network、SMN)及びデータファブリック125に双方向に接続され、データファブリック125にメモリアクセス要求を提供することができる。CPUコア112、114の各々は、単体のコアであってもよいし、更にキャッシュ等の特定のリソースを共有する2つ以上の単体のコアを有するコア複合体であってもよい。
グラフィックスコア120は、頂点処理、フラグメント処理、シェーディング、テクスチャブレンディング等のグラフィックス処理を高度に統合された並列方式で実行することができる高性能グラフィックス処理ユニット(graphics processing unit、GPU)である。グラフィックスコア120は、SMN及びデータファブリック125に双方向に接続され、メモリアクセス要求をデータファブリック125に提供することができる。これに関して、APU100は、CPUコア複合体110とグラフィックスコア120とが同じメモリ空間を共有する統合メモリアーキテクチャ、又は、CPUコア複合体110とグラフィックスコア120とがメモリ空間の一部を共有する一方でグラフィックスコア120がCPUコア複合体110によりアクセスできないプライベートグラフィックスメモリも使用するメモリアーキテクチャの何れかをサポートすることができる。
ディスプレイエンジン122は、モニタ上に表示するためにグラフィックスコア120によって生成されたオブジェクトをレンダリングしてラスタライズする。グラフィックスコア120及びディスプレイエンジン122は、メモリシステム130内の適切なアドレスへの均一な変換のために共通のメモリ管理ハブ140に双方向で接続され、メモリ管理ハブ140は、そのようなメモリアクセスを生成してメモリシステムから戻される読み取りデータを受信するためにデータファブリック125に双方向で接続される。
データファブリック125は、任意のメモリアクセスエージェントとメモリ管理ハブ140との間でメモリアクセス要求及びメモリ応答をルーティングするためのクロスバースイッチを含む。また、データファブリックは、システム構成に基づいてメモリアクセスの送信先を判定するために、基本入出力システム(basic input/output system、BIOS)によって規定されるシステムメモリマップ、並びに、各仮想接続のためのバッファも含む。
周辺コントローラ160は、ユニバーサルシリアルバス(universal serial bus、USB)コントローラ162及びシリアルアドバンストテクノロジーアタッチメント(Serial Advanced Technology Attachment、SATA)インターフェースコントローラ164を含み、これらのそれぞれは、システムハブ166及びSMNバスに対して双方向で接続される。これらの2つのコントローラは、APU100で使用され得る周辺コントローラの単なる典型例である。
周辺バスコントローラ170は、システムコントローラ又は「サウスブリッジ」(Southbridge、SB)172と、周辺構成要素相互接続エクスプレス(Peripheral Component Interconnect Express、PCIe)コントローラ174と、を含み、これらのそれぞれは、入出力(input/output、I/O)ハブ176及びSMNバスに対して双方向で接続される。また、I/Oハブ176は、システムハブ166及びデータファブリック125に対して双方向で接続される。したがって、例えば、CPUコアは、データファブリック125がI/Oハブ176を介してルーティングするアクセスにより、USBコントローラ162、SATAインターフェースコントローラ164、SB172、又は、PCIeコントローラ174内のレジスタをプログラムすることができる。APU100のためのソフトウェア及びファームウェアは、リードオンリーメモリ(read-only memory、ROM)、フラッシュ電気的消去可能プログラマブルROM(electrically erasable programmable ROM、EEPROM)等の様々な不揮発性メモリタイプの何れかであり得るシステムデータドライブ又はシステムBIOSメモリ(図示せず)に記憶される。一般に、BIOSメモリは、PCIeバスを介してアクセスされ、システムデータドライブは、SATAインターフェースを介してアクセスされる。
SMU180は、APU100上のリソースの動作を制御してそれらの間の通信を同期させるローカルコントローラである。SMU180は、APU100上の様々なプロセッサのパワーアップシーケンシングを管理し、リセット、イネーブル及び他の信号を介して複数のオフチップデバイスを制御する。SMU180は、APU100の構成要素のそれぞれにクロック信号を与えるために、位相ロックループ(phase locked loop、PLL)等の1つ以上のクロックソース(図示せず)を含む。また、SMU180は、様々なプロセッサ及び他の機能ブロックのための電力を管理し、適切な電力状態を判定するためにCPUコア112、114及びグラフィックスコア120から測定された電力消費値を受信することができる。
メモリ管理ハブ140及びその関連する物理インターフェース(physical interface、PHY)151、152は、この実施形態ではAPU100と統合される。メモリ管理ハブ140は、メモリチャネル141、142とパワーエンジン149とを含む。メモリチャネル141は、ホストインターフェース145、メモリチャネルコントローラ143、及び、物理インターフェース147を含む。ホストインターフェース145は、メモリチャネルコントローラ143を、シリアルプレゼンス検出リンク(serial presence detect、SDP)を介してデータファブリック125に対して双方向で接続する。物理インターフェース147は、メモリチャネルコントローラ143をPHY151に対して双方向で接続し、例示的な実施形態では、DDR PHYインターフェース(DDR PHY Interface、DFI)仕様に準拠する。メモリチャネル142は、ホストインターフェース146、メモリチャネルコントローラ144、及び、物理インターフェース148を含む。ホストインターフェース146は、別のSDPを介してメモリチャネルコントローラ144をデータファブリック125に対して双方向で接続する。物理インターフェース148は、メモリチャネルコントローラ144をPHY152に対して双方向で接続し、DFI仕様に準拠する。パワーエンジン149は、SMNバスを介してSMU180に対して、APBを介してPHY151、152に対して双方向で接続されるとともに、メモリチャネルコントローラ143、144に対して双方向で接続される。PHY151は、メモリチャネル131への双方向接続を有する。PHY152は、双方向接続メモリチャネル133を有する。
メモリ管理ハブ140は、2つのメモリチャネルコントローラを有するメモリコントローラのインスタンス化であり、共有パワーエンジン149を使用して、以下で更に説明する態様でメモリチャネルコントローラ143及びメモリチャネルコントローラ144の両方の動作を制御する。メモリチャネル141、142のそれぞれは、DDRバージョン5(DDR version five、DDR5)、DDRバージョン4(DDR version four、DDR4)、低電力DDR4(low power DDR4、LPDDR4)、グラフィックスDDRバージョン5(graphics DDR version five、GDDR5)、及び、高帯域幅メモリ(high bandwidth memory、HBM)等の最先端DDRメモリに接続することができ、将来のメモリ技術に適合され得る。これらのメモリは、高いバス帯域幅及び高速動作をもたらす。同時に、それらのメモリは、ラップトップコンピュータ等のバッテリ駆動用途のための電力を節約するための低電力モードを提供するとともに、内蔵熱監視も行う。
メモリシステム130は、メモリチャネル131及びメモリチャネル133を含む。メモリチャネル131は、DDRxバス132に接続されるデュアルインラインメモリモジュール(dual inline memory module、DIMM)のセットを含み、これには、本実施例では個別のランクに対応する代表的なDIMM134、136、138が含まれる。同様に、メモリチャネル133は、代表的なDIMM135、137、139を含む、DDRxバス129に接続されるDIMMのセットを含む。
APU100は、ホストデータ処理システムの中央処理ユニット(CPU)として動作し、最新のコンピュータシステムにおいて有用な様々なバス及びインターフェースを与える。これらのインターフェースは、2つのダブルデータレート(double data rate、DDRx)メモリチャネル、PCIeリンクへの接続のためのPCIeルート複合体、USBネットワークへの接続のためのUSBコントローラ、及び、SATA大容量記憶デバイスへのインターフェースを含む。
また、APU100は、様々なシステム監視機能及び節電機能も実装する。特に、1つのシステム監視機能は、熱監視である。例えば、APU100が高温になる場合、SMU180は、CPUコア112、114及び/又はグラフィックスコア120の周波数及び電圧を低減することができる。APU100が高温になり過ぎる場合、SMUを完全にシャットダウンすることができる。SMNバスを介してSMU180によって外部センサから熱イベントを受けることもでき、SMU180は、それに応じてクロック周波数及び/又は電源電圧を低減することができる。
図2は、図1のようなAPUで用いるのに適したメモリコントローラ200のブロック図である。メモリコントローラ200は、概して、メモリチャネルコントローラ210及びパワーコントローラ250を含む。メモリチャネルコントローラ210は、概して、インターフェース212と、メモリインターフェースキュー214と、コマンドキュー220と、アドレス生成器222と、コンテントアドレッサブルメモリ(content addressable memory、CAM)224と、リプレイキュー230を含むリプレイ制御ロジック231と、リフレッシュ制御ロジックブロック232と、タイミングブロック234と、ページテーブル236と、アービタ238と、誤り訂正符号(error correction code、ECC)チェック回路242と、ECC生成ブロック244と、データバッファ246と、リフレッシュロジック247と、を含む。
インターフェース212は、外部バスを介したデータファブリック125に対する第1の双方向接続を有し、出力を有する。メモリコントローラ200において、この外部バスは、「AXI4」として知られている英国ケンブリッジのARM Holdings,PLCによって指定された高度拡張可能インターフェースバージョン4と適合するが、他の実施形態では他のタイプのインターフェースとなり得る。インターフェース212は、メモリアクセス要求を、FCLK(又はMEMCLK)ドメインとして知られている第1のクロックドメインから、UCLKドメインとして知られているメモリコントローラ200の内部の第2のクロックドメインに変換する。同様に、メモリインターフェースキュー214は、UCLKドメインからDFIインターフェースに関連付けられるDFICLKドメインへのメモリアクセスを与える。
アドレス生成器222は、AXI4バスを介してデータファブリック125から受信されるメモリアクセス要求のアドレスを復号する。メモリアクセス要求は、正規化フォーマットで表された物理アドレス空間内のアクセスアドレスを含む。アドレス生成器222は、正規化されたアドレスを、メモリシステム130内の実際のメモリデバイスをアドレス指定するために及び関連するアクセスを効率的にスケジュールするために使用され得るフォーマットに変換する。このフォーマットは、メモリアクセス要求を特定のランク、行アドレス、列アドレス、バンクアドレス、及び、バンクグループと関連付ける領域識別子を含む。起動時に、システムBIOSは、メモリシステム130内のメモリデバイスに問い合わせてそれらのサイズ及び構成を判定し、アドレス生成器222に関連付けられた構成レジスタのセットをプログラムする。アドレス生成器222は、構成レジスタに記憶された構成を使用して、正規化されたアドレスを適切なフォーマットに変換する。コマンドキュー220は、CPUコア112、114及びグラフィックスコア120等のAPU100内のメモリアクセスエージェントから受信されるメモリアクセス要求のキューである。コマンドキュー220は、アドレス生成器222によって復号されたアドレスフィールド、及び、アービタ238がアクセスタイプ及びサービス品質(quality of service、QoS)識別子を含むメモリアクセスを効率的に選択できるようにする他のアドレス情報を記憶する。CAM224は、ライトアフターライト(write after write、WAW)及びリードアフターライト(read after write、RAW)順序規則等の順序規則を実施するための情報を含む。
誤り訂正コード(ECC)生成ブロック244は、メモリに送られる書き込みデータのECCを判定する。ECCチェック回路242は、受信されたECCを着信ECCと照合してチェックする。
リプレイキュー230は、アドレス及びコマンドパリティ応答等の応答を待っているアービタ238によって選択されたメモリアクセスを記憶するための一時的なキューである。リプレイ制御ロジック231は、ECCチェック回路242にアクセスして、戻されたECCが正しいか又はエラーを示すかを判定する。リプレイ制御ロジック231は、これらのサイクルのうち何れかのパリティ又はECCエラーの場合にアクセスがリプレイされるリプレイシーケンスを開始して制御する。リプレイされたコマンドは、メモリインターフェースキュー214に配置される。
リフレッシュ制御ロジック232は、メモリアクセスエージェントから受信した通常の読み取り及び書き込みメモリアクセス要求とは別に生成される様々な電源断、リフレッシュ及び終端抵抗(ZQ)較正サイクルのためのステートマシンを含む。例えば、メモリランクがプリチャージパワーダウンにある場合、リフレッシュ制御ロジックは、リフレッシュサイクルを実行するために定期的に起動されなければならない。リフレッシュ制御ロジック232は、DRAMチップ内のメモリセルの蓄積コンデンサからの電荷の漏れによって引き起こされるデータエラーを防止するために、定期的に、定められた条件に応じて、リフレッシュコマンドを生成する。リフレッシュ制御ロジック232は、アクティブ化カウンタ248を含み、この実施形態において、アクティブ化カウンタ248は、メモリチャネルを介してメモリ領域に送信されるアクティブ化コマンドのローリング数をカウントするカウンタをメモリ領域ごとに有する。メモリ領域は、以下で更に説明するように、いくつかの実施形態ではメモリバンクであり、他の実施形態ではメモリサブバンクである。更に、リフレッシュ制御ロジック232は、システム内の熱変化に起因するオンダイ終端抵抗の不一致を防止するためにZQを定期的に較正する。
アービタ238は、コマンドキュー220に双方向で接続されるとともに、メモリチャネルコントローラ210の心臓部であり、メモリバスの使用を改善するためにアクセスのインテリジェントスケジューリングによって効率を向上させる。アービタ238は、タイミングブロック234を使用して、DRAMタイミングパラメータに基づいてコマンドキュー220内の特定のアクセスが発行に適格であるかどうかを判定することによって適切なタイミング関係を実施する。例えば、各DRAMは、「tRC」として知られるアクティブ化コマンド間の最小指定時間を有する。タイミングブロック234は、JEDEC仕様で定められたこのタイミングパラメータ及び他のタイミングパラメータに基づいて適格性を判定するカウンタのセットを維持し、リプレイキュー230に対して双方向で接続される。ページテーブル236は、アービタ238のためのメモリチャネルの各バンク及びランクにおけるアクティブページに関する状態情報を維持し、リプレイキュー230に対して双方向で接続される。
ECC生成ブロック244は、インターフェース212から受信した書き込みメモリアクセス要求に応じて、書き込みデータに従ってECCを計算する。データバッファ246は、受信したメモリアクセス要求に関する書き込みデータ及びECCを記憶する。データバッファは、アービタ238がメモリチャネルへのディスパッチのために対応する書き込みアクセスを選択すると、組み合わされた書き込みデータ/ECCをメモリインターフェースキュー214に出力する。
パワーコントローラ250は、概して、アドバンスト拡張可能インターフェース、バージョン1(AXI)へのインターフェース252、アドバンスト周辺バス(advanced peripheral bus、APB)インターフェース254、及び、パワーエンジン260を含む。インターフェース252は、図2に別々に示される「EVENT_n」とラベル付けされるイベント信号を受信するための入力と、出力と、を含む、SMNへの第1の双方向接続を有する。APBインターフェース254は、インターフェース252の出力に接続された入力と、APBを介してPHYに接続するための出力と、を有する。パワーエンジン260は、インターフェース252の出力に接続された入力と、メモリインターフェースキュー214の入力に接続された出力と、を有する。パワーエンジン260は、構成レジスタ262のセットと、マイクロコントローラ(microcontroller、μC)264と、セルフリフレッシュコントローラ(self refresh controller、SLFREF/PE)266と、信頼性のある読み取り/書き込みタイミングエンジン(read/write timing engine、RRW/TE)268と、を含む。構成レジスタ262は、AXIバスを介してプログラムされ、メモリコントローラ200内の様々なブロックの動作を制御するための構成情報を記憶する。したがって、構成レジスタ262は、図2に詳細に示されないこれらのブロックに接続された出力を有する。SLFREF/PE266は、リフレッシュ制御ロジック232によるリフレッシュの自動生成に加えて、リフレッシュの手動生成を可能にするエンジンである。信頼性のある読み取り/書き込みタイミングエンジン268は、DDRインターフェース最大読み取りレイテンシ(maximum read latency、MRL)トレーニング及びループバック試験のような目的のために、メモリ又はI/Oデバイスへ連続的なメモリアクセスストリームを与える。
メモリチャネルコントローラ210は、関連するメモリチャネルへのディスパッチのためのメモリアクセスを選択することを可能にする回路を含む。所望のアービトレーション決定を行うために、アドレス生成器222は、アドレス情報を、メモリシステム内のランク、行アドレス、列アドレス、バンクアドレス、及び、バンクグループを含むプリデコードされた情報に復号し、コマンドキュー220がプリデコードされた情報を記憶する。構成レジスタ262は、アドレス生成器222が受信したアドレス情報をどのように復号するかを判定するための構成情報を記憶する。アービタ238は、復号されたアドレス情報、タイミングブロック234によって示されるタイミング適格性情報、及び、ページテーブル236によって示されるアクティブページ情報を使用して、サービス品質(QoS)要件等の他の基準を遵守しながら、メモリアクセスを効率的にスケジュールする。例えば、アービタ238は、メモリページを変更するために必要なプリチャージコマンド及びアクティブ化コマンドのオーバーヘッドを回避するために、オープンページへのアクセスの優先度を実装し、あるバンクへのオーバーヘッドアクセスを別のバンクへの読み取り及び書き込みアクセスとインターリーブすることによって隠す。特に、通常動作中、アービタ238は、通常、ページを、これらのページが異なるページを選択する前にプリチャージされる必要があるまで、異なるバンクで開いたままにする。アービタ238は、いくつかの実施形態では、それぞれのコマンドの標的メモリ領域に関するアクティブ化カウンタ248の少なくともそれぞれの値に基づいてコマンド選択の適格性を判定する。
図3は、いくつかの実施形態に係る、図2のメモリコントローラ200の部分300のブロック図である。部分300は、アービタ238と、アービタ238の動作に関連する制御回路360のセットと、を含む。アービタ238は、サブアービタ305及び最終アービタ350のセットを含む。サブアービタ305は、サブアービタ310と、サブアービタ320と、サブアービタ330と、を含む。サブアービタ310は、「PH ARB」とラベル付けされたページヒットアービタ312と、出力レジスタ314と、を含む。ページヒットアービタ312は、コマンドキュー220に接続された第1の入力、第2の入力、及び、出力を有する。レジスタ314は、ページヒットアービタ312の出力に接続されたデータ入力、UCLK信号を受信するためのクロック入力、及び、出力を有する。サブアービタ320は、「PC ARB」とラベル付けされたページコンフリクトアービタ322と、出力レジスタ324と、を含む。ページコンフリクトアービタ322は、コマンドキュー220に接続された第1の入力と、第2の入力と、出力と、を有する。レジスタ324は、ページコンフリクトアービタ322の出力に接続されたデータ入力と、UCLK信号を受信するためのクロック入力と、出力と、を有する。サブアービタ330は、「PM ARB」とラベル付けされたページミスアービタ332と、出力レジスタ334と、を含む。ページミスアービタ332は、コマンドキュー220に接続された第1の入力と、第2の入力と、出力と、を有する。レジスタ334は、ページミスアービタ332の出力に接続されたデータ入力と、UCLK信号を受信するためのクロック入力と、出力と、を有する。最終アービタ350は、リフレッシュ制御ロジック232の出力に接続された第1の入力と、ページ閉鎖予測器362からの第2の入力と、出力レジスタ314の出力に接続された第3の入力と、出力レジスタ324の出力に接続された第4の入力と、出力レジスタ334の出力に接続された第5の入力と、「CMD1」とラベル付けされたキュー214に第1のアービトレーションの勝者を提供するための第1の出力と、「CMD2」とラベル付けされたキュー214に第2のアービトレーションの勝者を提供するための第2の出力と、を有する。
制御回路360は、図2に関して上述したように、タイミングブロック234、ページテーブル236、ページ閉鎖予測器362、現在モードレジスタ302、及び、クロスモードイネーブルロジック304を含む。タイミングブロック234は、クロスモードイネーブルロジック304に接続される出力と、ページヒットアービタ312と、ページコンフリクトアービタ322と、ページミスアービタ332と、に接続される入力及び出力を有する。ページテーブル236は、リプレイキュー230の出力に接続された入力と、リプレイキュー230の入力に接続された出力と、コマンドキュー220の入力に接続された出力と、タイミングブロック234の入力に接続された出力と、ページ閉鎖予測器362の入力に接続された出力と、を有する。ページ閉鎖予測器362は、ページテーブル236の一方の出力に接続される入力と、出力レジスタ314の出力に接続される入力と、最終アービタ350の第2の入力に接続される出力と、を有する。クロスモードイネーブルロジック304は、現在モードレジスタ302に接続される入力と、コマンドキュー220に接続される入力と、最終アービタ350に接続される入力及び出力と、ページヒットアービタ310、ページコンフリクトアービタ320及びページミスアービタ330に接続される入力並びに出力と、を有する。
動作中、アービタ238は、現在モード(読み取りストリーク又は書き込みストリークが進行中であるかどうかを示す)、各エントリのページ状態、各メモリアクセス要求の優先度、及び、要求間の依存関係を考慮に入れて、コマンドキュー220及びリフレッシュ制御ロジック232からメモリアクセスコマンドを選択する。優先度は、AXI4バスから受信されてコマンドキュー220に記憶される要求のサービス品質すなわちQoSに関連するが、メモリアクセスのタイプ及びアービタ238の動的動作に基づいて変更することができる。アービタ238は、既存の集積回路技術の処理限界と送信限界との間の不整合に対処するために並列に動作する3つのサブアービタを含む。それぞれのサブアービトレーションの勝者が最終アービタ350に提示される。最終アービタ350は、これらの3つのサブアービトレーションの勝者間、及び、リフレッシュ制御ロジック232からのリフレッシュ動作を選択し、ページ閉鎖予測器362によって判定されるように読み取り又は書き込みコマンドを読み取り又はオートプリチャージコマンドによる書き込みに更に修正することができる。
クロスモードイネーブルロジック304は、メモリチャネル上で読み取りコマンドのストリーク及び書き込みコマンドのストリークを引き起こすように動作する。何れかのタイプのコマンドの現在のストリーク中、クロスモードイネーブルロジック304は、図4及び図5に関して以下で更に説明するように、メモリチャネルのデータバス効率のインジケータを監視する。データバス効率が定められた閾値未満であることを示すデータバス効率のインジケータに応じて、クロスモードイネーブルロジック304は、現在のストリークを停止し、他のタイプのストリークを開始し、現在モードレジスタ302内の現在モードを変更する。
ページヒットアービタ312、ページコンフリクトアービタ322及びページミスアービタ332のそれぞれは、これらのそれぞれのカテゴリに属するコマンドキュー220内のコマンドのタイミング適格性を判定するためにタイミングブロック234の出力に接続された入力を有する。タイミングブロック234は、各ランクにおけるそれぞれのバンクごとに特定の動作に関連する持続時間をカウントするバイナリカウンタのアレイを含む。状態を判定するために必要なタイマの数は、タイミングパラメータ、所定のメモリタイプのバンクの数、及び、所定のメモリチャネル上でシステムによってサポートされるランクの数に依存する。次に実装されるタイミングパラメータの数は、システムに実装されるメモリのタイプに依存する。例えば、GDDR5メモリは、他のDDRxメモリタイプよりも多くのタイミングパラメータに従うためにより多くのタイマを必要とする。バイナリカウンタとして実装された汎用タイマのアレイを含むことにより、タイミングブロック234は、異なるメモリタイプに関してスケーリングされて再利用され得る。クロスモードイネーブルロジック304からの入力は、何れのタイプのコマンドが読み取る又は書き込むかをサブアービタにシグナリングして、最終アービタ350の候補として提供する。
ページヒットは、開いているページに対する読み取り又は書き込みサイクルである。ページヒットアービタ312は、ページを開くためにコマンドキュー220内のアクセス間を調停する。タイミングブロック234におけるタイマによって追跡されてページヒットアービタ312によってチェックされるタイミング適格パラメータは、例えば、行アドレスストローブ(row address strobe、RAS)を列アドレスストローブ(column address strobe、CAS)遅延時間(tRCD)及びCAS待ち時間(tCL)に含む。例えば、tRCDは、ページがRASサイクルで開かれた後のページへの読み取り又は書き込みアクセスの前に経過しなければならない最小時間を指定する。ページヒットアービタ312は、割り当てられたアクセスの優先度に基づいてサブアービトレーションの勝者を選択する。一実施形態では、優先度が4ビット、1ホット値であり、したがって、これは4つの値の中の1つの優先度を示すが、この4レベルの優先度方式が単なる一例であることは明らかである。ページヒットアービタ312が同じ優先度レベルで2つ以上の要求を検出する場合、最も古いエントリが勝つ。
ページコンフリクトは、バンク内の別の行が現在アクティブ化される場合のバンク内の1つの行へのアクセスである。ページコンフリクトアービタ322は、コマンドキュー220内のアクセスと、対応するバンク及びランクにおいて現在開いているページとコンフリクトするページとの間で調停する。ページコンフリクトアービタ322は、プリチャージコマンドを発行させるサブアービトレーション勝者を選択する。タイミングブロック234のタイマによって追跡されてページコンフリクトアービタ322によってチェックされるタイミング適格パラメータは、例えば、プリチャージコマンド期間(tRAS)を含む。ページコンフリクトアービタ322は、割り当てられたアクセスの優先度に基づいてサブアービトレーション勝者を選択する。ページコンフリクトアービタ322が同じ優先度レベルの2つ以上の要求を検出する場合、最も古いエントリが勝つ。
ページミスは、プリチャージ状態にあるバンクへのアクセスである。ページミスアービタ332は、コマンドキュー220内のアクセスとプリチャージされたメモリバンクとの間を調停する。タイミングブロック234のタイマによって追跡されてページミスアービタ332によってチェックされるタイミング適格パラメータは、例えば、プリチャージコマンド期間(tRP)を含む。同じ優先度レベルでページミスである2つ以上の要求がある場合、最も古いエントリが勝つ。
各サブアービタは、それぞれのサブアービトレーション勝者のための優先度値を出力する。最終アービタ350は、ページヒットアービタ312、ページコンフリクトアービタ322及びページミスアービタ332のそれぞれからのサブアービトレーション勝者の優先度値を比較する。最終アービタ350は、一度に2つのサブアービトレーション勝者を考慮に入れた相対的な優先度比較のセットを実行することによって、サブアービトレーション勝者間の相対的な優先度を判定する。サブアービタは、現在モードが変化する場合に利用可能な候補コマンドのセットがサブアービトレーション勝者として迅速に利用可能であるように、モード、読み取り及び書き込みごとにコマンドを調停するためのロジックのセットを含むことができる。
最終アービタ350は、3つのサブアービトレーション勝者の相対的な優先度を判定した後、サブアービトレーション勝者が競合するか否かを判定する(すなわち、それらの勝者が同じバンク及びランクに向けられているかどうか)。そのような競合が存在しない場合、最終アービタ350は、最高の優先度を有する最大2つのサブアービトレーション勝者を選択する。競合がある場合、最終アービタ350は以下のルールに従う。ページヒットアービタ312のサブアービトレーション勝者の優先度値がページコンフリクトアービタ322の優先度値よりも高く、且つ、それらが両方とも同じバンク及びランクである場合、最終アービタ350は、ページヒットアービタ312によって示されるアクセスを選択する。ページコンフリクトアービタ322のサブアービトレーション勝者の優先度値がページヒットアービタ312の優先度値よりも高く、且つ、それらが両方とも同じバンク及びランクである場合、最終アービタ350はいくつかの更なる要因に基づいて勝者を選択する。場合によっては、ページ閉鎖予測器362は、オートプリチャージ属性を設定することにより、ページヒットアービタ312が示すアクセスの終了時にページを閉鎖させる。
ページヒットアービタ312内で、優先度は、メモリアクセスエージェントからの要求優先度によって最初に設定されるが、アクセスのタイプ(読み取り又は書き込み)及びアクセスのシーケンスに基づいて動的に調整される。概して、ページヒットアービタ312は、読み取りに対してより高い暗黙の優先度を割り当てるが、書き込みが完了に向かって進行するようにするために優先度上昇メカニズムを実装する。
ページヒットアービタ312が読み取り又は書き込みコマンドを選択する毎に、ページ閉鎖予測器362は、オートプリチャージ(auto-precharge、AP)属性を伴うコマンドを送信するか否かを判定する。読み取り又は書き込みサイクル中、オートプリチャージ属性は、所定のアドレスビットを用いて設定され、オートプリチャージ属性は、読み取り又は書き込みサイクルが完了した後にDDRデバイスにページを閉じさせ、これにより、メモリコントローラがそのバンクのための個別のプリチャージコマンドを後に送信する必要性を回避する。ページ閉鎖予測器362は、選択されたコマンドと同じバンクにアクセスするコマンドキュー220に既に存在する他の要求を考慮に入れる。ページ閉鎖予測器362がメモリアクセスをAPコマンドに変換する場合、そのページへの次のアクセスはページミスとなる。
異なるメモリアクセスタイプのために異なるサブアービタを使用することによって、各アービタは、全てのアクセスタイプ(ページヒット、ページミス及びページコンフリクト、しかし、単一のアービタを含む実施形態が想定される)間で調停することが必要とされる場合よりも単純なロジックで実装され得る。これにより、アービトレーションロジックを簡略化することができ、アービタ238のサイズを比較的小さく抑えることができる。
他の実施形態では、アービタ238は、異なる数のサブアービタを含むことができる。更に他の実施形態では、アービタ238は、特定のタイプの2つ以上のサブアービタを含むことができる。例えば、アービタ238は、2つ以上のページヒットアービタ、2つ以上のページコンフリクトアービタ、及び/又は、2つ以上のページミスアービタを含むことができる。
図4は、いくつかの実施形態に係る、ストリーク効率を管理するためのプロセスのフロー図400である。いくつかのバージョンでは、プロセスは、メモリコントローラのアービタ(例えば、アービタ238、図2)内のロジック回路を監視することで具現化される。他のバージョンでは、プロセスは、上述したサブアービタ305及び最終アービタ350とは異なるアービトレーション方法を使用しながら、同様の機能を有するデジタルロジック又はコントローラによって実行されてもよい。このプロセスは、概して、コマンドのストリークのターンアラウンドをいつ実行するかを決定し、現在モードを書き込みから読み取りに変更して又は読み取りから書き込みに変更してデータバス利用効率を向上させる。このプロセスは、読み取りコマンド又は書き込みコマンドのストリークの長さを判定する他の技術と組み合わせて使用されてもよい。
プロセスは、ブロック402において、コマンドの各ストリークの開始時に開始し、ストリークにおいてバーストされるコマンドのモード(読み取り又は書き込み)について、現在コマンドキュー内にあるコマンドのスナップショット又はカウントを判定する。いくつかの実施形態では、このスナップショットカウントは、ストリークターンアラウンドプロセスによって追跡され、新しいストリークの開始時に利用可能である。いくつかの実施形態では、プロセスは、前のストリークを終了する決定がなされた後にコマンドキューに入った任意の新しいコマンドを考慮するためにスナップショットカウントを更新する。
ブロック404において、プロセスは、ブロック402からのコマンドの数のスナップショットに基づいて、最小バースト長、ストリーク内で送信されるコマンドの最小数を判定する。したがって、最小バースト長は、メモリコントローラにおける現在の条件に適応する。この実施形態では、最小バースト長は、アービタに提供される所定の係数によってスナップショットをスケーリング又は乗算することによって計算される。ブロック404に示すように、第1の係数「読み取りeCoefficiency(READ eCoefficiency)」は読み取りストリークに使用され、第2の係数「書き込みeCoefficiency(WRITE eCoefficiency)」は書き込みストリークに使用される。いくつかの実施形態では、スナップショットは、「ブロック」されない、すなわち、クロスモードアクティブ化によるページ競合にならない、アービタによって選択されるために利用可能な新しい現在モードのコマンドを考慮するように調整される。この調整は、最小バースト長を、スケーリングされたスナップショット数と、クロスモードアクティブ化によってブロックされない新しい現在モード要求の総数と、のうち小さい方に等しく設定することによって行われる。この調整は、ストリークターンアラウンドにおいて、クロスモード要求がページヒットになり、同じバンクの現在モード要求がページ競合になるというシナリオに起因して行われる。プロセスは、新しいストリークのためにスケジュールされるために利用可能なコマンドのカウントにおいてクロスモードヒットと競合するこれらの現在モードページ競合を含まず、さもなければ、最小ストリーク長は、クロスモードアクティブ化に起因するクロスモードACTの利益を打ち消すであろう。
ブロック406において、プロセスは、ストリークに対するコマンドの送信を開始し、ブロック404において設定された最小バースト長が達成されるまで、ストリークのサイズ(ストリークにおいて送信されるコマンドの数)を監視する。
ブロック408、410は、最小バースト長が達成された後に送信される各コマンドに対して実行される。ブロック408において、最小バースト長に続いて、プロセスは、以下で更に説明するように、イントラバースト効率を示す第1の1つ以上の条件のセットを監視する。この実施形態では、ブロック408において、インターバースト効率を示す第2の条件のセットも監視される。いくつかの他の実施形態では、効率条件は、最小バースト長に続いてイントラバースト効率についてのみ監視される。いくつかの実施形態では、条件のセットを監視することは、バス使用効率又はCASレイテンシ等の1つ以上のインジケータを計算することを含む。また、効率条件を監視することは、利用可能な現在モード又はクロスモードコマンド等のように、メモリコントローラにおける条件を監視することを含み得る。複数のCASレイテンシ条件を使用する例示的な実施形態については、図5に関して以下で説明される。
ブロック410において、プロセスは、監視された条件が、ストリークを終了し、且つ、他のモードの新しいストリークを開始することがより効率的であることを示すかどうかに基づいて、ストリークを終了するかどうかを決定する。いくつかの実施形態では、少なくとも第1の条件のセット(イントラバースト効率)は、ブロック410において決定を行うために採用される。他の実施形態では、第1の条件のセットと第2の条件のセットとの組み合わせが採用される。様々な実施形態では、第1の条件のセット及び第2の条件のセットの各々は、1つ以上の条件を含むことができる。プロセスがブロック410においてストリークを終了することを決定しない場合、プロセスはブロック408に戻り、新しいコマンドが送信される場合にストリークを監視し続ける。プロセスがブロック410においてストリークを終了すると決定した場合、プロセスはブロック412に進み、現在モードを変更し、前のストリーク内のクロスモードコマンドであったタイプのコマンドの新しいコマンドのストリークを開始する。条件のセットがストリーク終了を示すかどうかを判定するために、1つ以上の条件が閾値と比較されるか又は互いに比較されてもよい。いくつかの実施形態では、インターバースト効率に関連する第2の条件のセットは、新しいストリークを開始するためにプロセスをターンアラウンドするのにかかる時間に少なくとも部分的に基づく閾値と比較される。
概して、図示したプロセスは、多種多様なメモリアクセス作業負荷を管理するのに適したものにする他の既知のストリーク管理プロセスに勝るいくつかの利点を有する。また、図示したプロセスは、様々なストリーク管理技術で発生する傾向があるいくつかの問題を解決する。例えば、イントラバースト効率管理のみの使用は、クロスモードストリークのためにバーストするコマンドの効率的なセットが存在しない場合に、イントラバースト管理がしばしばストリークを終了することを決定するので、ストリークの過度のターンオーバーを引き起こす傾向がある。特に、バンクレベルの並列性が低い作業負荷の場合、そのような過度のターンオーバーは、全体的な効率を損なう。最小閾値の使用はそのような問題を軽減するように思われるかもしれないが、それは関連する問題を有する。最小閾値が大き過ぎる場合、バーストは、最小閾値に達する前であっても非効率的になる可能性がある。最小バースト長が小さ過ぎる場合には、より多くのターンアラウンドが存在する。最小バースト閾値も作業負荷に依存しており、これは、あるタイプの作業負荷に対して選択された閾値が、別のタイプの作業負荷に適していない可能性があることを意味する。
適応最小バースト長のみを使用することは、インターバースト効率を改善する傾向があるが、多くの異なる状況及び作業負荷の十分な管理を提供せず、イントラバースト効率が悪くなる可能性がある。例えば、バーストは、特定の作業負荷に対して高レベルの効率を達成するのに十分長く継続しない場合がある。図示したプロセスは、イントラバースト効率管理を適応最小バースト長と組み合わせることによって、この問題に対処する。
図5は、いくつかの更なる実施形態に係る、ストリーク効率を管理するためのプロセスのフロー図500である。このプロセスは、通常、メモリコントローラのアービタ(図2のアービタ238等)の内部の監視ロジックによって実行され、システムメモリに送信された連続した読み取りコマンドのストリーク及び連続した書き込みコマンドのストリークを処理する。図示したプロセスは、図4のプロセスの例示的な実施形態であり、概して、イントラバースト効率インジケータとして2つ以上の隣接するCASコマンド間の間隔を採用し、また、インターバースト効率インジケータとして他のCAS間隔を採用する。
新しいストリークが始まると、ブロック502において、ターンアラウンド監視プロセスが開始される。適応最小バースト長は、図4に関して上述したように判定される。ブロック504において、最小バースト長が満たされるまで、ストリークの初期コマンドがコマンドバスを介して送信される。
最小バースト長が満たされた後、プロセスは、ストリークで送信された各コマンドに対していくつかのチェックを実行して、ストリークが終了すべきか継続すべきかを判定する。ブロック506において、現在のコマンドが送信される。ブロック508において、プロセスは、アービタにおいて送信されるべく現在モードコマンドのみが利用可能であるかどうかを判定する。例えば、現在のストリークが書き込みストリークである場合、ブロック508は、書き込みコマンドのみが保留中であるかどうかを判定する。そうである場合、プロセスは、ストリークを継続し、ブロック506に戻って次のコマンドを送信する。そうでない場合、プロセスは、ブロック510に進み、クロスモードコマンドのみがアービタにおいて利用可能であるかどうかを判定する。そうである場合、プロセスは、現在のストリークを終了し、新しいストリークを開始する。
ブロック510において、利用可能な現在モードコマンドがまだ存在する場合、プロセスは、ブロック512に進み、「CAS-CAS」間隔と呼ばれるCASコマンド間の間隔に基づいて、各コマンドのイントラバースト効率を監視する。いくつかの実施形態では、間隔は、アービタにおける複数の候補コマンドについて判定される。間隔は、列アドレスストローブ(CAS)コマンド間の1つ以上の時間間隔の測定又は予測である。間隔は、ごく最近に送信されたCASコマンドと、選択された後続のCASコマンドが送信され得る時間と、の間の時間間隔を含む。この計算は、それぞれの候補コマンドのイントラバーストデータバス効率の予測をもたらす。この実施形態では、クロックサイクルの間隔は所定の閾値と比較されて、それが高効率コマンドとみなされるかどうかが判定される。
ブロック514において、プロセスは、候補として利用可能な任意のクロスモードコマンドが高効率を有するかどうかを判定する。利用可能な高効率クロスモードコマンドがない場合、プロセスは、現在のストリークを継続する。ブロック514は、インターバースト効率を示す1つ以上の効率条件を採用し、これは、この例では、クロスモードコマンドの潜在的なCAS-CAS閾値に基づく効率インジケータである。概して、ブロック514において、アービタにおいて選択されるために利用可能なクロスモードコマンドについて効率インジケータが計算され、クロスモードコマンドが高効率であるかどうかを判定するために閾値526又は528のうち何れかと比較される。インジケータがクロックサイクルで直接計算されたCAS-CAS間隔である場合、このインジケータは、低コストが高効率をシグナリングするコスト関数として扱うことができる。このチェックは、ターンアラウンドが行なわれるシナリオを防止するという利点を有し、その結果、高効率コマンドが他のモードで利用可能ではなく、プロセスが再び繰り返しターンアラウンドする。クロスモードコマンドに使用される閾値は、読み取りコマンドが現在モードである場合に比較に使用される「クロスモード書き込みCASギャップ閾値」526、及び、書き込みコマンドが現在モードである場合に使用される「クロスモード読み取りCASギャップ閾値」528である。この実施形態では、閾値526、528は、調整可能な構成レジスタ値に基づいて設定され、調整可能な構成レジスタ値は、コマンドのそれぞれのコマンドタイプに対する最小CAS-CASタイミング、ストリークターンアラウンドを実行するのにかかる時間、採用されるバースト長(各CASコマンドに対して送信又はプルされるデータビートの数)、並びに、ランク切替え及びバンクグループ切替えの可能性等の他の考慮事項を考慮するように選択される。
ブロック514において利用可能な高効率クロスモードコマンドがある場合、プロセスは、ブロック516に進み、そこで、高効率閾値内にわずかしかないが全体的に非効率的なストリークを提供するコマンドの連続シーケンスを防止するために別のタイプのイントラバースト効率インジケータを使用する。ブロック516は、ごく最近に送信されたCASコマンドと、3つ前のCASコマンドで発生した前のCASコマンドと、の間の間隔を与える「最後の3(last 3)」現在モードCAS-CAS間隔を計算する。この「最後の3」間隔が定められた閾値よりも大きい場合、プロセスは、現在のストリークを終了させ、ターンアラウンドを実行する。
「最後の3」間隔が定められた閾値内にある場合、ブロック516のプロセスは、ブロック518に進む。ブロック518において、候補コマンドのCAS-CAS間隔を閾値522又は524のうち何れかと比較することによって、現在モードに対して利用可能な高効率現在モードコマンドがあるかどうかをチェックする。利用可能な高効率現在モードコマンドがある場合、プロセスは現在のストリークを継続する。そうでない場合、プロセスは、ブロック520に進み、そこで現在のストリークを終了する。示されたそれぞれの場合においてストリークを終了させることは、他のモードのストリークが開始されるターンアラウンドプロセスを引き起こす。
ブロック518に供給される閾値によって示されるように、2つの異なる閾値522、524がブロック518において使用されて、現在モードが読み取りであるか書き込みであるかに応じてコマンドの効率が監視される。現在モードコマンドに使用される閾値は、書き込みコマンドが現在モードである場合に比較に使用される「現在モード書き込みCASギャップ閾値」522、及び、読み取りコマンドが現在モードである場合に使用される「現在モード読み取りCASギャップ閾値」524である。この実施形態では、閾値522、524は、調整可能な構成レジスタ値に基づいて設定され、調整可能な構成レジスタ値は、例えば、コマンドのそれぞれのコマンドタイプに対する最小CAS-CASタイミング、採用されるバースト長(各CASコマンドに対して送信又はプルされるデータビートの数)、並びに、ランク切替え及びバンクグループ切替えの可能性等の他の考慮事項を考慮するように選択される。最小の所望のバースト長が既に達成されているので、示されたプロセスは、イントラバースト効率管理に関連する過度のストリークターンアラウンドも考慮する必要がある方式と比較して、イントラバースト効率を管理する際により大きい柔軟性を可能にする。この実施形態では、ブロック512において監視されたイントラバースト効率条件が、ブロック516、518において採用されて、ストリークを終了するかどうかが判定される。他の実施形態では、ブロック516は使用されない。様々な実施形態では、同様の結果を達成するために、他のプロセス決定フローが採用される。
この実施形態におけるプロセスは、現在のストリークを終了するかどうかを決める際にいくつかの異なる判定を使用するが、他の実施形態は、示された条件判定の全てよりも少ない数を含むことができる。更に、フローチャート500における様々な判定が特定の順序で示されているが、これは限定的なものではなく、様々な実施形態は、選択されたブロックを異なる順序で又は同時に実行する回路を使用して同様の機能を達成することができる。
図2のメモリコントローラ200又はアービタ238及びリフレッシュ制御ロジック232等のその任意の部分は、プログラムによって読み取られ、集積回路を製造するために直接的又は間接的に使用され得るデータベース又は他のデータ構造の形態のコンピュータアクセス可能データ構造によって記述又は表現され得る。例えば、このデータ構造は、Verilog又はVHDL等の高レベル設計言語(high level design language、HDL)におけるハードウェア機能の挙動レベル記述又はレジスタ転送レベル(register-transfer level、RTL)記述であってもよい。記述は、合成ライブラリからゲートのリストを含むネットリストを生成するために記述を合成することができる合成ツールによって読み取ることができる。ネットリストは、集積回路を含むハードウェアの機能も表すゲートのセットを含む。ネットリストは、次いで、マスクに適用される幾何学的形状を記述するデータセットを生成するために配置され、ルーティングされ得る。次いで、マスクを様々な半導体製造工程で使用して、集積回路を製造することができる。代替的に、コンピュータアクセス可能記憶媒体上のデータベースは、所望に応じて、ネットリスト(合成ライブラリの有無にかかわらず)若しくはデータセット、又は、グラフィックデータシステム(Graphic Data System、GDS)IIデータであり得る。
特定の実施形態を説明してきたが、これらの実施形態に対する様々な修正が当業者には明らかである。例えば、メモリチャネルコントローラ210及び/又はパワーエンジン250の内部アーキテクチャは、異なる実施形態において異なり得る。メモリコントローラ200は、高帯域幅メモリ(HBM)等のように、DDRx以外の他のタイプのメモリとインターフェースすることができる。図示した実施形態は、個別のDIMM又はSIMMに対応するメモリの各ランクを示したが、他の実施形態では、各モジュールは複数のランクをサポートすることができる。更に他の実施形態は、ホストマザーボードに取り付けられたDRAM等のように、特定のモジュールに含まれていない他のタイプのDRAMモジュール又はDRAMを含むことができる。したがって、添付の特許請求の範囲は、開示された実施形態の範囲内に含まれる開示された実施形態の全ての変更を網羅することを意図している。

Claims (15)

  1. メモリコントローラであって、
    メモリアクセス要求を受信するための第1の入力を有するコマンドキューと、
    前記コマンドキューからエントリを選択し、メモリチャネルを介して前記エントリを送信するために、前記コマンドキューに結合されたアービタと、を備え、
    前記アービタは、
    連続した読み取りコマンドのストリーク、及び、連続した書き込みコマンドのストリークを、前記メモリチャネルを介して送信することと、
    前記アービタによって選択可能な指定されたタイプのコマンドの数に基づいて、連続した読み取りコマンド又は連続した書き込みコマンドの一方の現在のストリークを、少なくとも最小バースト長だけ送信することと、
    前記最小バースト長に続いて、第1の定義されたCAS-CAS間隔内に列アドレスストローブ(CAS)コマンドを送信可能な新しいストリークのコマンドが存在しないか否かに基づいて、前記現在のストリークを継続することと、
    を行うように動作可能である、
    メモリコントローラ。
  2. 前記最小バースト長は、前記現在のストリークに利用可能なコマンドの数に、選択された比率を乗じたものとして計算される、
    請求項1のメモリコントローラ。
  3. 前記アービタは、前記最小バースト長に続いて、第2の定義されたCAS-CAS間隔内にCASコマンドを送信可能な前記現在のストリークのコマンドが存在しないか否かに基づいて、前記現在のストリークを終了するように動作可能である、
    請求項1のメモリコントローラ。
  4. 前記アービタは、前記現在のストリークのごく最近に送信されたCASコマンドと、3つ前のCASコマンドで発生した前のCASコマンドと、の間のCAS-CAS間隔が第3の定義された間隔を超えるか否かに基づいて、前記現在のストリークを終了するように動作可能である、
    請求項3のメモリコントローラ。
  5. 前記現在のストリークが読み取りコマンドである場合に、前記第1の定義されたCAS-CAS間隔について第1の間隔が使用され、前記現在のストリークが書き込みコマンドである場合に、前記第1の定義されたCAS-CAS間隔について前記第1の間隔とは異なる第2の間隔が使用される、
    請求項3のメモリコントローラ。
  6. 前記現在のストリークが読み取りコマンドである場合に、前記第2の定義されたCAS-CAS間隔について第3の間隔が使用され、前記現在のストリークが書き込みコマンドである場合に、前記第2の定義されたCAS-CAS間隔について前記第3の間隔とは異なる第4の間隔が使用される、
    請求項5のメモリコントローラ。
  7. 前記第1の定義されたCAS-CAS間隔は、ごく最近に送信されたCASコマンドと、選択された後続のCASコマンドが送信され得る時間と、の間の間隔である、
    請求項1のメモリコントローラ。
  8. 連続した読み取りコマンドのストリーク、及び、連続した書き込みコマンドのストリークを、メモリチャネルを介して送信させることと、
    ービタによって選択可能な指定されたタイプのコマンドの数に基づいて、連続した読み取りコマンド又は連続した書き込みコマンドの一方の現在のストリークを、少なくとも最小バースト長だけ送信することと、
    前記最小バースト長に続いて、第1の定義されたCAS-CAS間隔内に列アドレスストローブ(CAS)コマンドを送信可能な新しいストリークのコマンドが存在しないか否かに基づいて、前記現在のストリークを継続することと、を含む、
    方法。
  9. 前記最小バースト長は、前記現在のストリークに利用可能なコマンドの数に、選択された比率を乗じたものとして計算される、
    請求項8の方法。
  10. 前記最小バースト長に続いて、第2の定義されたCAS-CAS間隔内にCASコマンドを送信可能な前記現在のストリークのコマンドが存在しないか否かに基づいて、前記現在のストリークを終了することを更に含む、
    請求項8の方法。
  11. 前記現在のストリークが読み取りコマンドである場合に、前記第1の定義されたCAS-CAS間隔について第1の間隔が使用され、前記現在のストリークが書き込みコマンドである場合に、前記第1の定義されたCAS-CAS間隔について前記第1の間隔とは異なる第2の間隔が使用される、
    請求項10の方法。
  12. 前記現在のストリークが読み取りコマンドである場合に、前記第2の定義されたCAS-CAS間隔について第3の間隔が使用され、前記現在のストリークが書き込みコマンドである場合に、前記第2の定義されたCAS-CAS間隔について前記第3の間隔とは異なる第4の間隔が使用される、
    請求項11の方法。
  13. 前記現在のストリークのごく最近に送信されたCASコマンドと、3つ前のCASコマンドで発生した前のCASコマンドと、の間のCAS-CAS間隔が第3の定義された間隔を超えるか否かに基づいて、前記現在のストリークを終了することを含む、
    請求項10の方法。
  14. 前記第1の定義されたCAS-CAS間隔は、ごく最近に送信されたCASコマンドと、選択された後続のCASコマンドが送信され得る時間と、の間の間隔である、
    請求項8の方法。
  15. データ処理システムであって、
    処理ユニットと、
    前記処理ユニットに結合されたデータファブリックと、
    前記処理ユニットからのメモリ要求を満たすために前記データファブリックに結合されたメモリコントローラと、を備え、
    前記メモリコントローラは、
    メモリアクセス要求を受信するための第1の入力を有するコマンドキューと、
    前記コマンドキューからエントリを選択し、前記エントリを、メモリチャネルを介して少なくとも1つのダイナミックランダムアクセスメモリに送信するために、前記コマンドキューに結合されたアービタと、を備え、
    前記アービタは、
    連続した読み取りコマンドのストリーク、及び、連続した書き込みコマンドのストリークを、前記メモリチャネルを介して送信することと、
    前記アービタによって選択可能な指定されたタイプのコマンドの数に基づいて、連続した読み取りコマンド又は連続した書き込みコマンドの一方の現在のストリークを、少なくとも最小バースト長だけ送信することと、
    前記最小バースト長に続いて、第1の定義されたCAS-CAS間隔内に列アドレスストローブ(CAS)コマンドを送信可能な新しいストリークのコマンドが存在しないか否かに基づいて、前記現在のストリークを継続することと、
    を行うように動作可能である、
    データ処理システム。
JP2023560438A 2021-03-31 2022-03-15 Dramコマンドストリーク効率管理 Active JP7521133B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/219,535 2021-03-31
US17/219,535 US11687281B2 (en) 2021-03-31 2021-03-31 DRAM command streak efficiency management
PCT/US2022/020388 WO2022212036A1 (en) 2021-03-31 2022-03-15 Dram command streak efficiency management

Publications (2)

Publication Number Publication Date
JP2024514503A JP2024514503A (ja) 2024-04-02
JP7521133B2 true JP7521133B2 (ja) 2024-07-23

Family

ID=83449086

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023560438A Active JP7521133B2 (ja) 2021-03-31 2022-03-15 Dramコマンドストリーク効率管理

Country Status (6)

Country Link
US (1) US11687281B2 (ja)
EP (1) EP4315013A4 (ja)
JP (1) JP7521133B2 (ja)
KR (1) KR102705924B1 (ja)
CN (1) CN117099076A (ja)
WO (1) WO2022212036A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090248994A1 (en) 2008-03-27 2009-10-01 Hongzhong Zheng Memory rank burst scheduling
JP2010262668A (ja) 2010-07-07 2010-11-18 Panasonic Corp シンクロナスdramアクセス装置
JP2012181906A (ja) 2011-02-28 2012-09-20 Sk Hynix Inc 集積回路
US20190196995A1 (en) 2017-12-21 2019-06-27 Advanced Micro Devices, Inc. Dynamic page state aware scheduling of read/write burst transactions
JP2021039447A (ja) 2019-08-30 2021-03-11 キヤノン株式会社 メモリコントローラおよびメモリコントローラで実施される方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0939403A3 (en) * 1998-02-25 1999-11-17 Matsushita Electric Industrial Co., Ltd. High-speed error correcting apparatus with efficient data transfer
US6154419A (en) 2000-03-13 2000-11-28 Ati Technologies, Inc. Method and apparatus for providing compatibility with synchronous dynamic random access memory (SDRAM) and double data rate (DDR) memory
KR100448702B1 (ko) * 2001-08-01 2004-09-16 삼성전자주식회사 반도체 메모리 장치 및 이 장치의 라이트 레이턴시 제어방법
US6957308B1 (en) * 2002-07-11 2005-10-18 Advanced Micro Devices, Inc. DRAM supporting different burst-length accesses without changing the burst length setting in the mode register
US8407433B2 (en) 2007-06-25 2013-03-26 Sonics, Inc. Interconnect implementing internal controls
TW200739583A (en) * 2005-11-19 2007-10-16 Samsung Electronics Co Ltd A latency control circuit, and method thereof and an auto-precharge control circuit and method thereof
US8874831B2 (en) * 2007-06-01 2014-10-28 Netlist, Inc. Flash-DRAM hybrid memory module
US7870351B2 (en) 2007-11-15 2011-01-11 Micron Technology, Inc. System, apparatus, and method for modifying the order of memory accesses
KR101699781B1 (ko) 2010-10-19 2017-01-26 삼성전자주식회사 시스템 온 칩 및 그것의 데이터 중재 방법
CN103703448B (zh) * 2012-05-14 2017-07-14 华为技术有限公司 一种内存调度方法及内存控制器
WO2017196141A1 (en) 2016-05-12 2017-11-16 Lg Electronics Inc. Autonomous prefetch engine
US10684969B2 (en) * 2016-07-15 2020-06-16 Advanced Micro Devices, Inc. Command arbitration for high speed memory interfaces
US10402120B2 (en) * 2016-07-15 2019-09-03 Advanced Micro Devices, Inc. Memory controller arbiter with streak and read/write transaction management
US20190196996A1 (en) * 2017-12-21 2019-06-27 Advanced Micro Devices, Inc. Dynamically determining memory access burst length

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090248994A1 (en) 2008-03-27 2009-10-01 Hongzhong Zheng Memory rank burst scheduling
JP2010262668A (ja) 2010-07-07 2010-11-18 Panasonic Corp シンクロナスdramアクセス装置
JP2012181906A (ja) 2011-02-28 2012-09-20 Sk Hynix Inc 集積回路
US20190196995A1 (en) 2017-12-21 2019-06-27 Advanced Micro Devices, Inc. Dynamic page state aware scheduling of read/write burst transactions
JP2021039447A (ja) 2019-08-30 2021-03-11 キヤノン株式会社 メモリコントローラおよびメモリコントローラで実施される方法

Also Published As

Publication number Publication date
US20220317928A1 (en) 2022-10-06
JP2024514503A (ja) 2024-04-02
CN117099076A (zh) 2023-11-21
WO2022212036A1 (en) 2022-10-06
KR20230158128A (ko) 2023-11-17
EP4315013A1 (en) 2024-02-07
US11687281B2 (en) 2023-06-27
EP4315013A4 (en) 2024-06-05
KR102705924B1 (ko) 2024-09-12

Similar Documents

Publication Publication Date Title
KR102442078B1 (ko) 고속 메모리 인터페이스들을 위한 명령 중재
CN110729006A (zh) 存储器控制器中的刷新方案
JP7521132B2 (ja) アービトレーション中の書き込みバンクグループのマスク
US11789655B2 (en) Efficient and low latency memory access scheduling
JP7506277B1 (ja) マルチランクメモリコントローラにおける効率的なランク切り替え
US11625352B2 (en) DRAM command streak management
JP2023527685A (ja) 効率的なメモリバス管理
US11782640B2 (en) Efficient and low latency memory access scheduling
EP3270294B1 (en) Command arbitration for high-speed memory interfaces
JP2024528414A (ja) ハイブリッドdram/永続メモリチャネルアービトレーションを有するメモリコントローラ
JP7521133B2 (ja) Dramコマンドストリーク効率管理
US12118247B2 (en) Performance of bank refresh

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231115

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231115

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20231115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240710

R150 Certificate of patent or registration of utility model

Ref document number: 7521133

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150