JP2023509818A - チップ、データ移行方法及び電子機器 - Google Patents

チップ、データ移行方法及び電子機器 Download PDF

Info

Publication number
JP2023509818A
JP2023509818A JP2022527673A JP2022527673A JP2023509818A JP 2023509818 A JP2023509818 A JP 2023509818A JP 2022527673 A JP2022527673 A JP 2022527673A JP 2022527673 A JP2022527673 A JP 2022527673A JP 2023509818 A JP2023509818 A JP 2023509818A
Authority
JP
Japan
Prior art keywords
data
data migration
memory
dma controller
chip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022527673A
Other languages
English (en)
Inventor
祥▲綸▼ 冷
俊 周
文▲強▼ 王
Original Assignee
上海陣量智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 上海陣量智能科技有限公司 filed Critical 上海陣量智能科技有限公司
Publication of JP2023509818A publication Critical patent/JP2023509818A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7807System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
    • G06F15/7825Globally asynchronous, locally synchronous, e.g. network on chip
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本発明は、チップ、データ移行方法及び電子機器を提出する。上記チップは、少なくとも1つの処理コアと少なくとも1つのメモリパーティションとを含んでもよい。各メモリパーティションは、キャッシュシステム、内部メモリシステム及び直接メモリアクセス(DMA)コントローラを含む。上記DMAコントローラは、上記キャッシュシステム及び上記内部メモリシステムにそれぞれ接続され、上記メモリパーティション内部の異なる記憶空間の間のデータ移行を行う。【選択図】図2

Description

本発明は、コンピュータ技術に関し、具体的にチップ、データ移行方法及び電子機器に関する。
<関連出願の相互引用>
本願は、2020年12月10日に中国専利局へ提出された、出願番号が202011458676.7である中国特許出願の優先権を要求し、当該中国特許出願の全ての内容が引用によって本願に組み込まれる。
コンピュータ技術の迅速な発展につれ、各種のチップの演算能力は、徐々に高くなってきている。その一方、チップ演算能力の向上には、高いデータ移行効率が要求されている。
関連技術では、チップ内部のメモリパーティションにおいて第1記憶空間と第2記憶空間との間のデータ移行を行う必要があるときに、処理コアは、まず、データを第1記憶空間から読み出して当該処理コア内に記憶する必要がある。次に、当該処理コアは、記憶された当該データを読み出して第2記憶空間に書き込む。
これにより、関連技術において、メモリパーティション内部の異なる記憶空間の間でデータ移行を行うために、処理コアを使用せざるを得ないので、データ移行効率が低いことが分かる。
これに鑑みて、本発明は、チップを開示する。
上記チップは、少なくとも1つの処理コアと、少なくとも1つのメモリパーティションとを含み、メモリパーティションごとに、上記メモリパーティションは、キャッシュシステム、内部メモリシステム及び直接メモリアクセス(DMA)コントローラを含み、上記DMAコントローラは、上記キャッシュシステム及び上記内部メモリシステムにそれぞれ接続され、上記メモリパーティション内部の異なる記憶空間の間のデータ移行を行う。示された一実施例において、上記少なくとも1つの処理コアのうちの第1処理コアは、少なくとも1つの第1DMAコントローラへデータ移行指令を送信する。上記少なくとも1つの第1DMAコントローラは、少なくとも1つの第1メモリパーティションに含まれる。上記少なくとも1つの第1DMAコントローラは、上記データ移行指令に基づいて、上記少なくとも1つの第1メモリパーティション内部の異なる記憶空間の間のデータ移行を行う。
示された一実施例において、上記キャッシュシステムは、複数レベルのキャッシュを含み、上記DMAコントローラが上記キャッシュシステムの記憶空間と上記内部メモリシステム内の記憶空間との間のデータ移行を行うことは、上記DMAコントローラが上記最終レベルのキャッシュの記憶空間と上記内部メモリシステム内の記憶空間との間のデータ移行を行うことを含む。
示された一実施例において、上記最終レベルのキャッシュは、第1動作モードと第2動作モードと第3動作モードとの3種の動作モードをサポートし、第1動作モードでは、上記最終レベルのキャッシュの全部の記憶空間がキャッシュメモリとして配置され、第2動作モードでは、上記最終レベルのキャッシュの全部の記憶空間がスクラッチパッドメモリ(SPM)として配置され、第3動作モードでは、上記最終レベルのキャッシュの一部の記憶空間がキャッシュメモリとして配置され、他の一部の記憶空間がSPMとして配置される。
示された一実施例において、上記メモリパーティションは、モード配置器を更に含み、上記モード配置器は、ユーザ配置情報に基づいて、上記最終レベルのキャッシュの動作モードを配置する。
示された一実施例において、上記少なくとも1つの処理コアと上記DMAコントローラとは、メインネットワークオンチップを介して互いにアクセスし、又は、上記DMAコントローラ、上記キャッシュシステム及び上記内部メモリシステムは、サブネットワークオンチップを介して互いにアクセスする。
示された一実施例において、上記DMAコントローラが上記メモリパーティション内部の異なる記憶空間の間のデータ移行を行うことは、上記キャッシュシステムの異なる記憶空間の間のデータ移行と、上記内部メモリシステム内の異なる記憶空間の間のデータ移行と、上記キャッシュシステムの記憶空間と上記内部メモリシステム内の記憶空間との間のデータ移行とのうちの少なくとも1つを含む。
示された一実施例において、上記メモリパーティション中の異なる記憶空間の全部又は一部は、統合メモリアーキテクチャ(UMA)を採用する。
示された一実施例において、上記第1処理コアが上記少なくとも1つの第1DMAコントローラへデータ移行指令を送信することは、上記第1処理コアが少なくとも1つの第2DMAコントローラへデータ移行指令をブロードキャストすることを含み、上記第2DMAコントローラは、上記異なる記憶空間の全部がUMAを採用する第1メモリパーティションに含まれる。
示された一実施例において、上記データ移行指令は、データ移行タイプ、データ長、ソース記憶アドレス及び宛先記憶アドレスを含む。
示された一実施例において、上記データ移行指令は、第1フィールド、第2フィールド、第3フィールド及び第4フィールドを含み、上記第1フィールドは、上記データ移行タイプ及び上記データ長を示すために用いられ、上記第2フィールドは、上記ソース記憶アドレスの下位アドレスを示すために用いられ、上記第3フィールドは、上記ソース記憶アドレスの上位アドレス及び上記宛先記憶アドレスの上位アドレスを示すために用いられ、上記第4フィールドは、上記宛先記憶アドレスの下位アドレスを示すために用いられる。
示された一実施例において、上記DMAコントローラが上記メモリパーティション内部の異なる記憶空間の間のデータ移行を行うことは、上記メモリパーティション内の第1記憶空間からデータを読み取り、読み取られたデータを上記メモリパーティション内の第2記憶空間に書き込むことを含む。
示された一実施例において、上記内部メモリシステムは、高帯域幅メモリ(HBM)である。
本発明は、チップに用いられるデータ移行方法を更に提出する。上記チップは、少なくとも1つの処理コアと、少なくとも1つのメモリパーティションとを含み、各メモリパーティションは、キャッシュシステム、内部メモリシステム、及び直接メモリアクセスDMAコントローラを含み、上記方法は、メモリパーティションごとに、上記DMAコントローラを介して上記メモリパーティション内部の異なる記憶空間の間のデータ移行を行うステップを含む。
示された一実施例において、上記DMAコントローラを介して上記メモリパーティション内部の異なる記憶空間の間のデータ移行を行うステップは、上記少なくとも1つの処理コアのうちの第1処理コアを介して、少なくとも1つの第1メモリパーティションに含まれる少なくとも1つの第1DMAコントローラへデータ移行指令を送信することと、上記少なくとも1つの第1DMAコントローラが、上記データ移行指令に基づいて、上記少なくとも1つの第1メモリパーティション内部の異なる記憶空間の間のデータ移行を行うことと、を含む。
示された一実施例において、上記キャッシュシステムは、複数レベルのキャッシュを含み、上記DMAコントローラを介して上記メモリパーティション内部の異なる記憶空間の間のデータ移行を行うステップは、上記DMAコントローラを介して最終レベルのキャッシュの記憶空間と上記内部メモリシステム内の記憶空間との間のデータ移行を行うことを含む。
示された一実施例において、上記最終レベルのキャッシュは、第1動作モードと第2動作モードと第3動作モードとの3種の動作モードをサポートし、第1動作モードでは、上記最終レベルのキャッシュの全部の記憶空間がキャッシュメモリとして配置され、第2動作モードでは、上記最終レベルのキャッシュの全部の記憶空間がSPMとして配置され、第3動作モードでは、上記最終レベルのキャッシュの一部の記憶空間がキャッシュメモリとして配置され、他の一部の記憶空間がSPMとして配置される。
示された一実施例において、上記メモリパーティションは、モード配置器を更に含み、上記方法は、ユーザ配置情報に基づいて、上記モード配置器を介して、上記最終レベルのキャッシュの動作モードを配置するステップを更に含む。
示された一実施例において、上記少なくとも1つの処理コアと上記DMAコントローラとは、メインネットワークオンチップを介して互いにアクセスし、及び/又は、上記DMAコントローラ、上記キャッシュシステム及び上記内部メモリシステムは、サブネットワークオンチップを介して互いにアクセスする。
示された一実施例において、上記メモリパーティション内部の異なる記憶空間の間のデータ移行は、上記キャッシュシステムの異なる記憶空間の間のデータ移行と、上記内部メモリシステム内の異なる記憶空間の間のデータ移行と、上記キャッシュシステムの記憶空間と上記内部メモリシステム内の記憶空間との間のデータ移行とのうちの少なくとも1つを含む。
示された一実施例において、上記メモリパーティション中の異なる記憶空間の全部又は一部は、統合メモリアーキテクチャ(UMA)を採用する。
示された一実施例において、上記第1処理コアを介して上記少なくとも1つの第1DMAコントローラへ上記データ移行指令を送信することは、上記第1処理コアを介して少なくとも1つの第2DMAコントローラへデータ移行指令をブロードキャストすることを含み、上記第2DMAコントローラは、上記異なる記憶空間の全部が統合メモリアーキテクチャ(UMA)を採用する第1メモリパーティションに含まれる。
示された一実施例において、上記データ移行指令は、データ移行タイプ、データ長、ソース記憶アドレス及び宛先記憶アドレスを含む。
示された一実施例において、上記データ移行指令は、第1フィールド、第2フィールド、第3フィールド及び第4フィールドを含み、上記第1フィールドは、上記データ移行タイプ及び上記データ長を示すために用いられ、上記第2フィールドは、上記ソース記憶アドレスの下位アドレスを示すために用いられ、上記第3フィールドは、上記ソース記憶アドレスの上位アドレス及び上記宛先記憶アドレスの上位アドレスを示すために用いられ、上記第4フィールドは、上記宛先記憶アドレスの下位アドレスを示すために用いられる。
示された一実施例において、上記DMAコントローラを介して上記メモリパーティション内部の異なる記憶空間の間のデータ移行を行うステップは、上記DMAコントローラを介して上記メモリパーティション内の第1記憶空間からデータを読み取り、読み取られたデータを上記メモリパーティション内の第2記憶空間に書き込むことを含む。
示された一実施例において、上記内部メモリシステムは、高帯域幅メモリ(HBM)である。
本発明は、電子機器を更に提出する。当該電子機器は、上記何れかの実施例に示すチップを備える。
上記技術案から分かるように、上記DMAコントローラが上記キャッシュシステム及び上記内部メモリシステムにそれぞれ接続され、且つ上記メモリパーティション内部の異なる記憶空間の間のデータ移行を行うため、上記チップのメモリアクセス帯域幅を占用せずに、上記データを制御して上記メモリパーティション内部の移行を完了させることができる。これにより、上記データ移行中において、当該チップ内部のメモリアクセス帯域幅が解放され、データ移行効率が高められ、チップ性能が向上する。
更に、上記処理コアが上記DMAコントローラへデータ移行指令を送信し、上記DMAが上記データ移行指令に応答して上記メモリパーティション中の異なる記憶空間の間のデータ移行を制御可能であるため、移行すべきデータについて上記メモリパーティション内部で移行を完了させることができる。これにより、当該チップ内部のメモリアクセス帯域幅が解放され、データ移行効率が高められ、チップ性能が向上する。
更に、上記チップがメモリパーティションデータ移行効率を向上可能であり、より高い性能を有するため、当該チップを使用することにより、計算タスクの処理効率の向上を支援することができ、電子機器の性能を向上させる。
上述した一般的な記述と後文の詳細記述が単に例示的なものと解釈的なものであり、本発明を制限するためのものではないことは、理解されるべきである。
本発明の1つ若しくは複数の実施例又は関連技術における技術案がより明瞭に説明されるように、以下では、実施例又は関連技術の記述に使用必要な図面を簡単に紹介する。明らかに、以下の記述に係る図面が単に本発明の1つ又は複数の実施例に記載の幾つかの実施例に過ぎず、当業者であれば、進歩性に値する労力を掛けずにこれらの図面から他の図面を取得可能である。
AIチップの内部構造図である。 本発明に示すチップの内部構造である。 本発明に示すチップ構造図である。 本発明に示すチップ構造図である。 本発明に示すデータ移行指令の模式図である。 本発明に示すデータ移行指令の模式図である。 本発明に示すデータ移行方法の方法フローチャートである。
ここで、例示的な実施例を詳細に説明する。その例示は、図面に示される。以下の記述は、図面に係る際、別途示さない限り、異なる図面における同じ符号が同じ又は類似する要素を示す。以下の例示的な実施例に記述される実施形態が本発明と一致する全ての実施形態を代表するわけではない。逆に、それらは、単に添付する特許請求の範囲に詳細に記述されるような、本発明の幾つかの態様に一致する装置及び方法の例である。
本発明で使用される用語は、単に特定の実施例を記述する目的であり、本発明を制限するためのものではない。本発明及び添付する特許請求の範囲で使用される単数形式の「1種」、「上記」及び「当該」も、文脈から他の意味を明瞭で分かる場合でなければ、複数の形式を含むことを意図する。理解すべきことは、本文で使用される用語「及び/又は」が、1つ又は複数の関連する列挙項目を含む如何なる或いは全ての可能な組み合わせを指す。更に、本文で使用される言葉「場合」は、コンテキストに依存し、「…とき」や「…ときに」あるいは「特定の状況に応じて」として解釈されてもよい。
コンピュータ技術の迅速な発展につれ、各種のチップの演算能力は、徐々に高くなってきている。その一方、チップ演算能力の向上には、高いデータ移行効率が要求されている。
図1を参照すると、図1は、AIチップの内部構造図である。
図1に示すように、AIチップの処理コアは、メモリパーティションに接続され、上記メモリパーティションは、少なくとも内部メモリシステム及びキャッシュシステムを含む。
図1に示すAIチップにおいて、キャッシュシステムへ移行する必要がある一部のデータが内部メモリシステムにある場合に、まず、処理コアは、リードコマンドにより当該部分のデータを内部メモリシステムから読み出して当該処理コア内に記憶し、次に、当該処理コアは、ライトコマンドにより当該部分のデータを上記キャッシュシステムに書き込む。
このように、上記キャッシュシステムと上記内部メモリシステムとの間でデータ移行を行うには、少なくとも2回メモリアクセス帯域幅を占用する必要がある。これは、データ移行遅延を大きくするだけでなく、メモリアクセス帯域幅をプリエンプションし、チップ性能を大幅に低下させる。当業者であれば理解できるように、上記キャッシュシステムの内部及び当該内部メモリシステムの内部のデータ移行は、同様に上記問題が存在し、ここで詳しく説明しない。
これに鑑みて、本発明は、チップを提供する。当該チップは、メモリパーティションに、キャッシュシステム及び内部メモリシステムにそれぞれ接続されるDMA(Direct Memory Access、直接メモリアクセス)コントローラを追加することにより、上記DMAが上記メモリパーティション内部の異なる記憶空間の間のデータ移行指令を実行できるようにする。これにより、当該チップ内部のメモリアクセス帯域幅を解放し、データ移行効率を向上させ、チップ性能を向上させる。
以下では、このチップの内部構造について説明する。
図2を参照すると、図2は、本発明に示すチップの内部構造である。図2に示すように、上記チップは、以下を含む。
少なくとも1つの処理コア21と少なくとも1つのメモリパーティション22を含む。
各メモリパーティション22は、キャッシュシステム221、内部メモリシステム222及びDMAコントローラ223を含む。
上記DMAコントローラ223は、上記キャッシュシステム221及び上記内部メモリシステム222にそれぞれ接続され、上記メモリパーティション22内部の異なる記憶空間の間のデータ移行を行う。
説明すべきことは、上記キャッシュシステム221と上記内部メモリシステム222との間のデータ移行を制御する場合に、上記キャッシュシステム221に含まれる最終レベルのキャッシュは、上記DMAコントローラ223に接続されてもよい。上記キャッシュシステム221の内部のデータ移行を制御する場合に、上記DMAコントローラ223は、対応するレベルのキャッシュに接続することができる。ここでは、特に限定されない。
実際の応用において、上記DMAコントローラは、上記メモリパーティション内の第1記憶空間からデータを読み取り、読み取られたデータを上記メモリパーティション内の第2記憶空間に書き込んでもよい。
例えば、上記第1記憶空間は、内部メモリシステムであり、上記第2記憶空間は、L2キャッシュである。上記DMAコントローラは、上記処理コアから送信されたデータ移行指令に応答し、上記内部メモリシステムと上記L2キャッシュとの間のデータ移行を制御してもよい。
説明すべきことは、1つのメモリパーティションは、1つ又は複数のDMAコントローラを含んでもよい。例えば、メモリパーティションは、1つのDMAコントローラを含み、当該メモリパーティション内の全ての記憶空間の間のデータ移行を担う。更に例えば、メモリパーティションは、複数のDMAコントローラを含み、当該複数のDMAコントローラのうちの各DMAコントローラは、メモリパーティションにおける一対又は複数対の記憶空間の間のデータ移行を担うことができる。複数のメモリパーティションが存在するときに、本発明は、これらのDMAコントローラの具体的な位置を限定しない。例えば、DMAコントローラは、各メモリパーティションに分散して位置してもよく、そのうちの1つのメモリパーティションに集中して位置してもよい。
上記チップは、具体的に、任意の高いメモリアクセス帯域幅を必要とするチップであってもよい。実際の応用において、上記チップは、マルチチャネルのDRAM(Dynamic Random Access Memory、ダイナミックランダムアクセスメモリ)を搭載したチップであってもよい。
例えば、上記チップは、CPU、DSP、MCUなどであってもよい。一実施例において、上記チップは、人工知能アルゴリズムを実行してもよい。例えば、上記チップは、AIニューラルネットワークチップ(例えば、FPGA、TPU等)又はGPUグラフィック処理チップであってもよい。
上記処理コアは、一般的にチップ内の計算コアであり、コード演算を実行し、1つ又は複数の処理ユニットを含んでもよい。例えば、上記処理コアは、一般的に開発者によって作成されたプログラムコードに基づいて、上記メモリパーティションでデータ移行を行ってもよい。
実際の応用において、上記メモリパーティション内部の記憶空間の間のデータ移行は、一般的に、上記メモリパーティション内のキャッシュシステムの内部データの移行、上記メモリパーティション内の内部メモリシステムの内部データの移行、及び上記メモリパーティションにおける最終レベルのキャッシュと内部メモリシステムとの間のデータ移行を含んでもよい。
上記メモリパーティションは、一般的にデータを記憶するために用いられる。
実際の応用において、一般的に、チップは、記憶階層を有するメモリパーティションを採用する。ここで、上記メモリパーティションは、1レベル又は複数レベルのキャッシュを有するキャッシュシステム及び内部メモリシステムを含んでもよい。
例えば、引き続き図2を参照すると、上記キャッシュシステム221は、少なくともL1、L2及びL3キャッシュを含んでもよい。その際、処理コア21は、データを取得する必要があるとき、一般的にまずL1キャッシュにアクセスする。当該L1キャッシュに上記処理コア21に必要なデータが記憶されている場合に、上記処理コア21は、今回のデータ取得を完了する。当該L1キャッシュに上記処理コア21に必要なデータが記憶されていない場合に、上記処理コア21は、上記L2キャッシュにアクセスし続けて必要なデータを取得する。これによって類推する。上記最終レベルのキャッシュ即ちL3キャッシュにも処理コア21に必要なデータがないときに、上記処理コア21は、引き続き上記内部メモリシステム222からデータを取得する。
上記例から分かりやすいように、チップ性能は、キャッシュヒット率(CHCHE HIT)に大きく依存する。キャッシュヒット率を向上させるために、現在、チップにおいて開発者によって直接に管理され得る大容量キャッシュを提供し、それによりキャッシュヒット率を向上させる。
通常、上記キャッシュシステムが複数レベルのキャッシュを含む場合、最終レベルのキャッシュは、上記大容量キャッシュとしてもよく、上記DMAコントローラは、上記最終レベルのキャッシュの記憶空間と上記内部メモリシステム内の記憶空間との間のデータ移行を行う。
キャッシュシステムの少なくとも一部の記憶空間は、スクラッチパッドメモリ(Scratchpad Memory、SPM)として配置されたとき、この部分の記憶空間のデータ移行効率へ影響を与える。一実施例において、データ移行効率を向上させるために、最終レベルのキャッシュの少なくとも一部の記憶空間は、SPMとして配置される。
その際、データ移行を行うときに、上記DMAコントローラは、上記最終レベルのキャッシュ中のSPMとして配置される記憶空間と上記内部メモリシステムとの間のデータ移行を行う。DMAコントローラを介して上記最終レベルのキャッシュ中のSPMとして配置される記憶空間と上記内部メモリシステムとの間のデータ移行を行うことにより、移行されたデータが処理コアを通過することを回避することができるため、それにより帯域幅を解放し、データ移行経路を短縮し、データ移行効率を向上させる。
一実施例において、様々な業務シーンに柔軟に適用するために、上記キャッシュシステムの最終レベルのキャッシュが3種類の動作モードをサポートする。第1動作モードでは、上記最終レベルのキャッシュの全ての記憶空間がキャッシュメモリとして配置され、第2動作モードでは、上記最終レベルのキャッシュの全ての記憶空間がSPMとして配置され、第3動作モードでは、上記最終レベルのキャッシュの一部の記憶空間がキャッシュメモリとして配置され、他の一部の記憶空間がSPMとして配置される。
このような方式により、開発者は、需要に応じて上記最終レベルのキャッシュを柔軟に配置することができ、それにより上記チップの適用性を向上させる。
説明すべきことは、最終レベルのキャッシュを動的に設定することを実現するために、実施例において、上記メモリパーティションは、更にモード配置器を含んでもよい。
上記モード配置器は、ユーザ配置情報に基づいて、上記キャッシュシステムにおける最終レベルのキャッシュの動作モードを設定する。
実際の応用において、開発者は、ユーザ配置情報に基づいて、上記モード配置器により、上記最終レベルのキャッシュの動作モードを設定してもよい。
例えば、マルチチップカスケード分散型トレーニングシステムのシーンにおいて、チップ間の通信が高容量、低遅延を必要とするため、上記最終レベルのキャッシュの全ての内部メモリ空間をSPMとして配置してもよい。
更に例えば、性能に対する要求が高くないアルゴリズム開発のシーンにおいて、開発者の間で最終レベルのキャッシュを管理する必要がないため、上記最終レベルのキャッシュの全ての記憶空間をキャッシュメモリとして配置してもよい。
更に例えば、データ伝送効率を必要とするだけでなく、データの再利用率も重視するシーンにおいて、AI演算パラメータを記憶するために、上記最終レベルのキャッシュの一部の記憶空間をキャッシュメモリとして配置し、他の一部の記憶空間をSPMとして配置してもいい。
上記内部メモリシステムは、グローバル内部メモリシステムであってもよい。例えば、DRAM(Dynamic Random Access Memory、ダイナミックランダムアクセスメモリ)、SDRAM(synchronous dynamic random-access memory)等であってもよい。
一実施例において、メモリアクセス帯域幅を向上させるために、上記グローバル内部メモリシステムは、高帯域メモリ(High Bandwidth Memory、HBM)であってもよい。
説明すべきことは、上記チップ内部は、バス又はNOC(network-on-chip、ネットワークオンチップ)アーキテクチャを採用可能であり、実際の需要に応じて設定されてもよい。関連技術において、図3を参照すると、図3は、本発明に示すチップ構造図である。図3に示すように、上記DMAコントローラ、少なくとも1つの処理コア及び少なくとも1つのメモリパーティションは、バスを介して互いに接続される。
その際、メモリパーティション内部の内部メモリシステムがL2キャッシュへデータを移行する必要があると仮定する場合、処理コアは、上記DMAコントローラへデータ移行指令を送信することにより、DMAコントローラにデータ移行を完了させる。
しかし、上記チップ構造において、DMAコントローラを介してチップの処理コアの動作負担を解放したとしても、上記データは、移行過程において、まず内部メモリシステムから処理コアへ流れ、次にL2キャッシュへ流れる必要がある。このように、上記チップ構造を採用すると、データ移行がメモリアクセス帯域幅をプリエンプションしてデータ移行効率が低いという問題が依然として存在する。
上記問題を解決するために、図2に示すように、本発明において上記DMAコントローラが上記メモリパーティション内に内蔵されることにより、DMAコントローラが上記データを制御することができるようにする。これにより、上記チップのメモリアクセス帯域幅をプリエンプションすることなく、上記メモリパーティション内部に移行を完了することができる。
上記技術案から分かるように、上記DMAコントローラは、上記キャッシュシステム及び上記内部メモリシステムにそれぞれ接続され、且つ上記メモリパーティション内部の異なる記憶空間の間のデータ移行を行うため、上記データを制御することができ、それにより、上記チップのメモリアクセス帯域幅をプリエンプションせず、上記メモリパーティション内部に移行を完了することができ、更に上記データ移行過程において、当該チップ内部のメモリアクセス帯域幅を解放し、データ移行効率を高め、チップ性能を向上させる。
一実施例において、上記少なくとも1つの処理コアのうちの第1処理コアは、少なくとも1つの第1DMAコントローラに接続され、少なくとも1つの第1DMAコントローラは、少なくとも1つの第1メモリパーティションに含まれ、上記第1メモリパーティションは、上記メモリパーティションの全部又は一部であってもよい。
上記第1処理コアは、上記少なくとも1つの第1DMAコントローラへデータ移行指令を送信する。
上記少なくとも1つのDMAコントローラは、上記データ移行指令に基づいて、上記少なくとも1つの第1メモリパーティション内部の異なる記憶空間の間のデータ移行を行う。
引き続き図2を参照すると、上記DMAコントローラは、上記第1処理コアに接続される。上記接続方式は、バス方式の接続であってもよい。
一実施例において、チップ性能を更に向上させるために、上記DMAコントローラ及び上記処理コアは、メインネットワークオンチップ(NOC、network-on-chip)を介して互いにアクセスしてもよい。
上記メインネットワークオンチップは、上記チップ内のメインネットワークであってもよい。上記チップが複数の処理コア及び複数のメモリパーティションを含むときに、上記複数の処理コアと上記複数のメモリパーティション内のDMAコントローラとは、上記メインネットワークオンチップを介して互いにアクセスしてもよい。
引き続き図2を参照すると、上記DMAコントローラは、上記キャッシュシステム及び上記内部メモリシステムにそれぞれ接続される。上記接続方式は、バス方式の接続であってもよい。
一実施例において、チップ性能を更に向上させるために、上記DMAコントローラ、上記キャッシュシステム及び上記内部メモリシステムは、サブネットワークオンチップを介して互いにアクセスする。
上記サブネットワークオンチップは、上記メモリパーティション内のサブネットワークであってもよい。上記チップが複数のメモリパーティションを含むときに、上記複数のメモリパーティションは、何れも上記サブネットワークオンチップを採用してもよい。これにより、各メモリパーティション内のDMAコントローラ、キャッシュシステム及び内部メモリシステムは、上記サブネットワークオンチップ(NOC、network-on-chip)を介して互いにアクセスすることができる。
単一メモリパーティション(キャッシュシステム及び内部メモリシステムを含む)の帯域幅及び容量が限られているため、メモリアクセス帯域幅及びチップ容量を向上させるために、一実施例において、上記チップは、一般的に複数のメモリパーティションを含んでもよい。これらのメモリパーティションは、並列に処理コアに接続されてもよい。
図4を参照すると、図4は、本発明に示すチップ構造図である。図4に示すように、上記チップは、複数の処理コア及び複数のメモリパーティションを含む。説明すべきことは、メモリパーティションには、キャッシュシステムにおける最終レベルのキャッシュのみが示され、他のレベルのキャッシュが図4に示されていない。
上記チップ内の複数の処理コアと複数のメモリパーティションとは、上記メインネットワークオンチップを介して互いにアクセスしてもよい。
上記方式を採用すると、マルチメモリパーティションの並列接続を実現する。これにより、メモリアクセス帯域幅及びチップ容量を拡張する。
上記状況、即ち上記チップは複数のメモリパーティションを含む場合、開発者によるプログラミングを容易にするために、上記複数のメモリパーティションは、何れも統合メモリアーキテクチャ(UMA、Unified Memory Architecture)を採用する。
実際の応用において、上記複数のメモリパーティションにおける最終レベルのキャッシュは、UMAを採用してもよい。上記複数のメモリパーティションにおける内部メモリシステムは、UMAを採用してもよい。
このような方式により、開発者にとって、異なる最終レベルのキャッシュの間の有効なアドレス(effective address)が同じであり、異なる内部メモリシステムの間の有効なアドレスも同じである。したがって、各最終レベルのキャッシュ、又は、各内部メモリシステムにデータを書き込むときに、1つのアドレスを入力すればよく、複数の最終レベルのキャッシュ又は複数の内部メモリシステムに対してそれぞれデータを書き込む必要がなく、開発者のプログラミング効率を向上させ、データの記憶効率も向上させる。
各処理コアは、1つ又は複数のDMAコントローラへそれぞれデータ移行指令を送信してもよく、幾つかの実施例において、DMAコントローラに対する呼び出しオーバーヘッドを低減するために、上記処理コアは、上記少なくとも1つのメモリパーティション中の少なくとも1つのDMAコントローラへデータ移行指令をブロードキャストしてもよい。
実際の応用において、メモリパーティション内でデータ移行を行う必要があるときに、処理コアは、上記複数のメモリパーティション内のDMAコントローラへデータ移行指令をブロードキャストして送信してもよい。
例えば、チップは、8つのメモリパーティションを含んでもよいと仮定する。上記8つのメモリパーティションのうち、4つのメモリパーティションの最終レベルのキャッシュ(最終レベルのキャッシュがL2キャッシュであると仮定する)と、上記複数のメモリパーティション内の内部メモリシステムは、何れもUMAを採用してもよい。
上記状況において、内部メモリシステムから8MのデータをL2キャッシュに移行する必要があるときに、実際には、各メモリパーティション内で1メガのデータの移行を完了する必要がある。その際、処理コアは、上記UMAを採用している4つのメモリパーティション内のDMAコントローラへデータ移行指令をブロードキャストして送信してもよい。一方では、UMAを採用していない4つのメモリパーティション内のDMAコントローラへデータ移行指令をそれぞれ送信してもよい。
上記各DMAコントローラは、データ移行指令を受信した後、内部メモリシステムの上記データ移行指令で示された記憶位置から1メガのデータを抽出し、上記1メガのデータをL2キャッシュの上記データ移行指令で示された記憶位置に移行することにより、データ移行を完了してもよい。
処理コアは、UMAを採用した複数のメモリパーティション内のDMAコントローラへデータ移行指令をブロードキャストして送信することにより、各メモリパーティション内部のデータ移行を完了してもよい。したがって、処理コアのDMAコントローラへの呼び出し回数を減少させ、それによりDMAコントローラに対する呼び出しオーバーヘッドを低減する。
一実施例において、上記チップに含まれる複数の上記DMAコントローラは、同じメモリパーティションに集中して位置し、且つそれぞれ各メモリパーティションに含まれる内部メモリシステム及びキャッシュシステムと一対一に対応してもよい。
その際、当該複数のDMAコントローラを介してデータ移行を行う必要があるときに、上記メモリパーティション内の複数のDMAコントローラへデータ移行指令をブロードキャストして送信することにより、各メモリパーティション内の異なる記憶空間の間のデータ移行を完了してもよい。
以下では、本発明のデータ移行指令に対する改良を紹介する。本発明において、DMAコントローラに対する呼び出しオーバーヘッドを更に低減するために、全く新たなフォーマットのDMAコントローラに対するデータ移行指令を提出する。当該データ移行指令は、データ移行指令フィールドの数を減少させ、且つ各フィールドで示される意味を合理的に設定することにより、データ移行指令の長さを減少させ、DMAコントローラに対する呼び出しオーバーヘッドを低減する。
関連技術において、DMAコントローラに対するデータ移行指令は、6つのフィールドを含み、それぞれデータ移行タイプフィールド、データ長フィールド、最終レベルのキャッシュの下位アドレスフィールド、最終レベルのキャッシュの上位アドレスフィールド、内部メモリシステム下位アドレスフィールド及び内部メモリシステム上位アドレスフィールドである。
このように、関連技術におけるデータ移行指令は、比較的に冗長であり、DMAコントローラを呼び出すときに、DMAコントローラへ長いデータ移行指令を送信する必要がある。これにより、DMAコントローラに対する呼び出しオーバーヘッドを増加させる。
この問題を解決するために、一実施例において、上記データ移行指令は、少なくともデータ移行タイプ、データ長、ソース記憶アドレス及び宛先記憶アドレスを含んでもよい。
上記データ移行タイプは、具体的に、データ移行方向を示す。一実施例において、上記データ移行タイプは、メモリパーティション内のデータ流れ方向を示してもよい。具体的に、上記データ流れ方向(データ移行タイプ)は、以下の4種類のうちのいずれか1種類を含んでもよい。
即ち、上記メモリパーティション内のキャッシュシステムの内部データの移行、上記メモリパーティションにおける内部メモリシステムの内部データの移行、上記メモリパーティションにおける最終レベルのキャッシュから内部メモリシステムへのデータ移行、及び上記メモリパーティションにおける内部メモリシステムから最終レベルのキャッシュへのデータ移行である。
実際の応用において、上記4種類のデータ流れ方向を4種類の識別子に対応付け、且つ実際にDMAコントローラを呼び出すときに、上記4種類の識別子を上記データ移行タイプに書き込んでもよい。これにより、DMAコントローラは、今回のデータ移行のデータ流れ方向を識別することができる。
上記データ長は、具体的に、伝送する必要があるデータ量の大きさを示す。理解できるように、データ量の大きさが記憶空間と対応関係を有するため、当該データの記憶空間における開始位置を知ると、当該データのデータ長に基づいて、当該データの記憶空間における終了位置を取得することができる。
上記ソース記憶アドレスは、具体的に、移行すべきデータの現在記憶位置の開始アドレスを指す。例えば、データが内部メモリシステムから最終レベルのキャッシュに移行された場合に、上記ソース記憶アドレスは、データの上記内部メモリシステムにおける開始位置となる。
上記宛先記憶アドレスは、具体的に、移行すべきデータが移行された後の記憶位置の開始アドレスを指す。例えば、データが内部メモリシステムから最終レベルのキャッシュに移行された場合に、上記宛先記憶アドレスは、データが上記最終レベルのキャッシュへ移行された開始位置となる。
理解できるように、DMAコントローラは、データ移行指令を受信した後、上記データ移行指令におけるソース記憶アドレスフィールド及びデータ長に基づいてソース記憶空間を特定してもよく、上記データ移行指令における宛先記憶アドレスフィールド及びデータ長に基づいて宛先記憶空間を特定してもよく、更に、上記データ移行指令におけるデータ移行タイプに基づいてソース記憶空間のデータを宛先記憶空間に移行してもよい。
図5を参照すると、図5は、本発明に示すデータ移行指令の模式図である。図5に示すように、上記データ移行指令は、第1フィールド、第2フィールド、第3フィールド及び第4フィールドを含む。
上記第1フィールドは、データ移行タイプ及びデータ長を示すフィールドである。
上記第2フィールドは、ソース記憶アドレスの下位アドレスを示すフィールドである。
上記第3フィールドは、ソース記憶アドレスの上位アドレスと宛先記憶アドレスの上位アドレスと示すフィールドである。
上記第4フィールドは、宛先記憶アドレスの下位アドレスを示すフィールドである。
ここで、説明すべきことは、上記データ移行指令中の各フィールドの順番、及び各フィールド中の異なる意味を示すデータビットの位置は、実際の状況に応じて調整されてもよく、ここで限定されない。
0000(バイナリ)が、データがキャッシュシステムの内部で移行されることを指示し、0001(バイナリ)が、データが内部メモリシステムの内部で移行されることを指示し、0010(バイナリ)が、データが内部メモリシステムから最終レベルのキャッシュに移行されることを指示し、0011(バイナリ)が、データが最終レベルのキャッシュから内部メモリシステムに移行されることを指示すると仮定する。
上記状況において、内部メモリシステムの下位アドレス0x3EAB_0000(16進数)、上位アドレス0xAB_00(16進数)から、2メガのデータを最終レベルのキャッシュの下位アドレス0x3E5B_0000(16進数)、上位アドレス0xCD_00(16進数)に移行すると仮定する。
その際、チップの処理コアは、DMAコントローラへのデータ移行指令を作成するときに、0010を第1フィールドの前4ビットに書き込み、2メガをバイナリに変換して上記第1フィールドの後28ビットに書き込んでもよい。その後、上記処理コアは、上記内部メモリシステムの下位アドレス0x3EAB_0000をバイナリに変換して上記第2フィールドに書き込み、且つ上記内部メモリシステムの上位アドレス0xAB_00をバイナリに変換して上記第3フィールドの後16ビットに書き込んでもよい。最後に、上記処理コアは、上記最終レベルのキャッシュの上位アドレス0xCD_00を上記第3フィールドの前16ビットに書き込み、且つ上記最終レベルのキャッシュの下位アドレス0x3E5B_0000をバイナリに変換して上記第4フィールドに書き込んでもよい。
上記処理コアは、上記データ移行指令の構造を完了した後、当該データ移行指令ブロードキャストを各DMAコントローラに送信してもよい。これにより、各DMAコントローラは、上記データ移行指令に応答し、上記内部メモリシステムの下位アドレス0x3EAB_0000、上位アドレス0xAB_00から、2メガのデータを上記最終レベルのキャッシュの下位アドレス0x3E5B_0000、上位アドレス0xCD_00に移行する。
以上から分かるように、上記データ移行指令が少なくともデータ移行タイプ及びデータ長フィールド、ソース記憶アドレスフィールド及び宛先記憶アドレスフィールドを含んでもよいため、DMAコントローラを呼び出すときに、DMAコントローラに対する呼び出しオーバーヘッドを低減することができる。
実施例において、関連技術に示されたデータ移行指令における6つのフィールドの合併を採用することにより、データ移行指令に含まれるフィールド数を減少させてもよい。
実際の応用において、データ移行タイプに必要なビット数が少なく、1つのフィールド(32ビット)を占用すると浪費になってしまうため、データ移行タイプとデータ長を1つのフィールドに統合することができる。最終レベルのキャッシュは、一般的に総容量が小さい(例えば、数メガ)ため、最終レベルのキャッシュの下位アドレスフィールドと上位アドレスフィールドを1つのフィールドに統合してもよい。
図6を参照すると、図6は、本発明に示すデータ移行指令の模式図である。図6に示すように、上記データ移行指令は、少なくとも第1フィールド、第2フィールド、第3フィールド及び第4フィールドを含む。
ここで、上記第1フィールドは、データ移行タイプ及びデータ長を示すフィールドである。
上記第2フィールドは、最終レベルのキャッシュの記憶アドレスを示すフィールドである。
上記第3フィールドは、内部メモリシステムを示す下位アドレスフィールドである。
上記第4フィールドは、内部メモリシステムを示す上位アドレスフィールドである。
説明すべきことは、上記データ移行指令における各フィールドの順番、及び各フィールドにおける異なる意味を示すデータビットの位置は、実際の状況に応じて調整されてもよく、ここで限定しない。
上記第1フィールドで示される意味は、上記実施例を参照すればよく、ここで詳しく説明しない。
上記第2フィールドは、最終レベルのキャッシュの記憶空間の開始アドレスを示す。データが最終レベルのキャッシュから内部メモリシステムに移行されると、第1フィールドが示すときに、上記第2フィールドで示された記憶アドレスは、データの現在記憶位置の開始位置となる。データが内部メモリシステムから最終レベルのキャッシュに移行されると、第1フィールドが示すときに、上記第2フィールドで示された記憶アドレスは、データが移行された後の記憶位置の開始位置となる。
上記第3フィールド及び上記第4フィールドで示される意味は、上記実施例を参照すればよく、ここで詳しく説明しない。
以上から分かるように、上記データ移行指令が4つのみのフィールドを含むため、DMAコントローラを呼び出すときに、DMAコントローラに対する呼び出しオーバーヘッドを低減することができる。
それ相応に、本発明は、チップに用いられるデータ移行方法を更に提出する。当該方法では、メモリパーティションに内蔵されたDMAコントローラへデータ移行指令を処理コアを介して配信することにより、上記DMAコントローラが、上記処理コアから発されたデータ移行指令に応答し、移行する必要のあるデータが上記メモリパーティション内部で移行を完了することができるようにする。これにより、当該チップ内部のメモリアクセス帯域幅を解放し、データ移行効率を高め、チップ性能を向上させる。
図7を参照すると、図7は、本発明に示す、チップに用いられるデータ移行方法の方法フローチャートである。図7に示すように、上記方法は、以下のステップを含んでもよい。
S702では、上記処理コアは、上記DMAコントローラへデータ移行指令を送信する。
S704では、上記DMAコントローラは、上記データ移行指令に基づいて、上記メモリパーティション内部の異なる記憶空間の間のデータ移行を行う。
上記チップは、上記いずれかの実施例に示すチップ構造を有するチップであってもよい。一実施例において、上記チップは、図2に示すチップ構造を採用してもよい。図2に示すように、上記チップは、少なくとも1つの処理コアと、少なくとも1つのメモリパーティションとを含む。上記メモリパーティションは、キャッシュシステム、内部メモリシステム及びDMAコントローラを含む。上記DMAコントローラは、上記キャッシュシステム及び内部メモリシステムにそれぞれ接続される。
説明すべきことは、実際の応用において、上記メモリパーティションが、1レベル又は複数レベルのキャッシュを有するキャッシュシステム、少なくとも1つの内部メモリシステム、及び1つ又は複数のDMAコントローラを含んでもよく、ここで特に限定されない。
一実施例において、上記チップは、人工知能アルゴリズムを実行してもよい。例えば、上記チップは、AIニューラルネットワークチップ又はGPUグラフィック処理チップであってもよい。
上記処理コアは、一般的にチップ内の計算コアであり、コード演算を実行する。例えば、上記処理コアは、一般的に、開発者によって作成されたプログラムコードに基づいて、上記メモリパーティションでデータ移行を行ってもよい。
実際の応用において、上記メモリパーティション内部の記憶空間の間のデータ移行は、通常、上記メモリパーティション内のキャッシュシステムの内部データの移行、上記メモリパーティション内の内部メモリシステムの内部データの移行、及び、上記メモリパーティションにおける最終レベルのキャッシュと内部メモリシステムとの間のデータ移行を含んでもよい。
上記メモリパーティションは、一般的にデータを記憶するために用いられる。
実際の応用において、一般的にチップは、記憶階層を有するメモリパーティションを採用する。上記メモリパーティションは、1レベル又は複数レベルのキャッシュを有するキャッシュシステム及び内部メモリシステムを含んでもよい。
例えば、図2を参照すると、上記キャッシュシステムは、少なくともL1、L2及びL3キャッシュを含んでもよい。その際、処理コアがデータを取得する必要があるときに、一般的にまずL1キャッシュにアクセスする。当該L1キャッシュに上記処理コアに必要なデータが記憶されている場合に、上記処理コアは、今回のデータ取得を完了する。当該L1キャッシュに上記処理コアに必要なデータが記憶されていない場合に、上記処理コアは、上記L2キャッシュにアクセスし続けて必要なデータを取得する。これによって類推する。上記最終レベルのキャッシュ即ちL3キャッシュにも処理コアに必要なデータに係らない場合に、上記処理コアは、引き続き上記内部メモリシステムからデータを取得する。
上記例から分かりやすいように、チップ性能は、キャッシュヒット率(CHCHE HIT)に大きく依存する。一方で、キャッシュヒット率を向上させるために、現在、チップにおいて開発者によって直接に管理され得る大容量キャッシュを提供し、それによりキャッシュヒット率を向上させる。
一般的に、上記キャッシュシステムが複数レベルのキャッシュを含むときに、最終レベルのキャッシュは、上記大容量キャッシュとすることができ、上記DMAコントローラは、上記最終レベルのキャッシュの記憶空間と上記内部メモリシステム内の記憶空間との間のデータ移行を行う。
キャッシュシステムの少なくとも一部の記憶空間がSPMとして配置されたときに、この部分の記憶空間のデータ移行効率に影響を与える。一実施例において、データ移行効率を向上させるために、最終レベルのキャッシュの少なくとも一部の記憶空間は、SPMとして配置される。
その際、データ移行を行うときに、上記DMAコントローラは、上記最終レベルのキャッシュにおけるSPMとして配置される記憶空間と上記内部メモリシステムとの間のデータ移行を行う。DMAコントローラを介して上記最終レベルのキャッシュにおけるSPMとして配置される記憶空間と上記内部メモリシステムとの間のデータ移行を行うように配置されるため、移行されたデータが処理コアを通過することを回避することができ、それにより帯域幅を解放し、データ移行経路を短縮し、データ移行効率を向上させる。
一実施例において、複数種の業務シーンに柔軟に適用するために、上記キャッシュシステムの最終レベルのキャッシュが3種の動作モードをサポートする。第1動作モードでは、上記最終レベルのキャッシュの全部の記憶空間がキャッシュメモリとして配置され、第2動作モードでは、上記最終レベルのキャッシュの全部の記憶空間がSPMとして配置され、第3動作モードでは、上記最終レベルのキャッシュの一部の記憶空間がキャッシュメモリとして配置され、他の一部の記憶空間がSPMとして配置される。
このような方式により、開発者は、需要に応じて上記最終レベルのキャッシュを柔軟に配置することができ、それにより上記チップの適用性を向上させる。
説明すべきことは、最終レベルのキャッシュを動的に設定することを実現するために、一実施例において、上記メモリパーティションは、更にモード配置器を含んでもよい。
上記モード配置器は、ユーザ配置情報に基づいて、上記キャッシュシステムにおける最終レベルのキャッシュの動作モードを配置する。
実際の応用において、開発者は、ユーザ配置情報に基づいて、上記モード配置器により、上記最終レベルのキャッシュの動作モードを配置してもよい。
例えば、マルチチップカスケード分散型トレーニングシステムのシーンにおいて、チップ間の通信が高容量、低遅延を必要とするため、上記最終レベルのキャッシュの全ての記憶空間をSPMとして配置してもよい。
更に例えば、性能に対する要求が高くないアルゴリズム開発のシーンにおいて、開発者の間で最終レベルのキャッシュを管理する必要がないため、上記最終レベルのキャッシュの全ての記憶空間をキャッシュメモリとして配置してもよい。
更に例えば、データ伝送効率を必要とするだけでなく、データの再利用率も重視するシーンにおいて、AI演算パラメータを記憶するために、上記最終レベルのキャッシュの一部の記憶空間をキャッシュメモリとして配置し、且つ一部の記憶空間をSPMとして配置してもいい。
上記内部メモリシステムは、グローバル内部メモリシステムであってもよい。例えば、DRAM、SDRAM等であってもよい。
一実施例において、メモリアクセス帯域幅を向上させるために、上記グローバル内部メモリシステムは、HBMであってもよい。
上記DMAコントローラは、上記メモリパーティション内部の異なる記憶空間の間のデータ移行を行う。
実際の応用において、上記DMAコントローラは、上記メモリパーティション内の第1記憶空間からデータを読み取り、読み取られたデータを上記メモリパーティション内の第2記憶空間に書き込んでもよい。
例えば、上記第1記憶空間は、内部メモリシステムであり、上記第2記憶空間は、L2キャッシュである。上記DMAコントローラは、上記処理コアから送信されたデータ移行指令に応答し、上記内部メモリシステムと上記L2キャッシュとの間のデータ移行を制御してもよい。
上記データ移行指令は、具体的に、上記メモリパーティション内部の記憶空間の間のデータ移行をトリガするために用いられる。
本発明において、上記データ移行指令は、チップの処理コアにより構成され且つDMAコントローラへ送信されることにより、DMAコントローラがデータ移行を完了するように制御することができる。
上記メモリパーティション内部の記憶空間の間でデータ移行を行う必要があるときに、上記処理コアは、上記DMAコントローラへデータ移行指令を送信する。
上記DMAコントローラは、上記データ移行指令を受信した後、上記データ移行指令に応答し、上記メモリパーティション内部の記憶空間の間のデータ移行を制御してもよい。
上記技術案から分かるように、上記処理コアが上記DMAコントローラへデータ移行指令を送信し、上記DMAコントローラが上記データ移行指令に応答し、上記メモリパーティション内の異なる記憶空間の間のデータ移行を制御可能であるため、移行する必要があるデータを上記メモリパーティション内部で移行可能であり、それにより当該チップ内部のメモリアクセス帯域幅を解放し、データ移行効率を高め、チップ性能を向上させる。
一実施例において、上記チップは、複数のメモリパーティションを含む可能性があり、各メモリパーティション内でデータ移行を完了するために、上記処理コアは、上記複数のメモリパーティション内のDMAコントローラへそれぞれデータ移行指令を送信してもよい。これにより、各DMAコントローラは、自身が位置するメモリパーティション内部のデータ移行を制御することができる。
例えば、チップは、4つのメモリパーティションを含むと仮定する。データが内部メモリシステムから最終レベルのキャッシュに移行する必要があると仮定し、チップに4つのメモリパーティションが存在するため、上記処理コアは、上記4つのメモリパーティション内のDMAコントローラへそれぞれデータ移行指令を送信してもよい。上記4つのメモリパーティション内のDMAコントローラは、データ移行指令を受信した後、自身の位置するメモリパーティション内部のデータ移行を制御してもよい。
一実施例において、上記チップが複数のメモリパーティションを含むときに、開発者によるプログラミングを容易にするために、上記複数のメモリパーティションは、何れもUMAを採用する。
開発者によるプログラミングを容易にするために、上記複数のメモリパーティションのうちの最終レベルのキャッシュ、及び上記複数のメモリパーティション内の内部メモリシステムは、何れもUMAを採用してもよい。
実際の応用において、上記複数のメモリパーティションにおける最終レベルのキャッシュは、UMAを採用してもよい。上記複数のメモリパーティションにおける内部メモリシステムもUMAを採用してもよい。
このような方式により、開発者にとって、異なる最終レベルのキャッシュの間の有効なアドレスが同じであり、異なる内部メモリシステムの間の有効なアドレスも同じである。したがって、各最終レベルのキャッシュ、又は、各内部メモリシステムへデータを書き込むときに、1つのみのアドレスを入力すればよく、複数の最終レベルのキャッシュ又は複数の内部メモリシステムに対してそれぞれデータを書き込む必要がなく、開発者のプログラミング効率を向上させ、データ記憶効率も向上させる。
DMAコントローラに対する呼び出しオーバーヘッドを低減するために、上記処理コアは、上記少なくとも1つのメモリパーティション中の少なくとも1つのDMAコントローラへデータ移行指令をブロードキャストする。
実際の応用において、メモリパーティション内でデータ移行を行う必要があるときに、処理コアは、上記複数のメモリパーティション内のDMAコントローラへデータ移行指令をブロードキャストして送信してもよい。
例えば、チップが4つのメモリパーティションを含み、且つ上記4つのメモリパーティションにおける最終レベルのキャッシュ(最終レベルのキャッシュがL2キャッシュであると仮定する)と、上記複数のメモリパーティション内の内部メモリシステムとが何れもUMAを採用可能であると仮定する。
上記状況において、内部メモリシステムから8MのデータをL2キャッシュに移行する必要があるときに、実際には、各メモリパーティション内で2メガのデータの移行を完了する必要がある。その際、処理コアは、上記複数のメモリパーティション内のDMAコントローラへデータ移行指令をブロードキャストして送信してもよい。
上記4つのメモリパーティション内のDMAコントローラは、データ移行指令を受信した後、内部メモリシステムの上記データ移行指令で示された記憶位置から2メガのデータを抽出し、上記2メガのデータをL2キャッシュの上記データ移行指令で示された記憶位置に移行し、それによりデータ移行を完了してもよい。
処理コアは、上記4つのメモリパーティション内のDMAコントローラへデータ移行指令をブロードキャストして送信することで各メモリパーティション内部のデータ移行を完了可能であるため、処理コアのDMAコントローラへの呼び出し回数を減少させ、それによりDMAコントローラに対する呼び出しオーバーヘッドを低減する。
以下では、本発明のデータ移行指令に対する改良を紹介する。本発明において、DMAコントローラに対する呼び出しオーバーヘッドを更に低減するために、全く新たなフォーマットのDMAコントローラに対するデータ移行指令を提出する。当該データ移行指令は、データ移行指令フィールドの数を減少させ、且つ各フィールドで示される意味を合理的に設定することにより、データ移行指令の長さを減少させ、DMAコントローラに対する呼び出しオーバーヘッドを低減する。
関連技術において、DMAコントローラへのデータ移行指令は、6つのフィールドを含み、それぞれデータ移行タイプフィールド、データ長フィールド、最終レベルのキャッシュの下位アドレスフィールド、最終レベルのキャッシュの上位アドレスフィールド、内部メモリシステム下位アドレスフィールド及び内部メモリシステム上位アドレスフィールドである。
このように、関連技術におけるデータ移行指令は、比較的に冗長であり、DMAコントローラを呼び出すときに、DMAコントローラへ長いデータ移行指令を送信する必要があり、それによりDMAコントローラに対する呼び出しオーバーヘッドを増加させる。
この問題を解決するために、一実施例において、上記データ移行指令は、少なくともデータ移行タイプ、データ長、ソース記憶アドレス及び宛先記憶アドレスを含んでもよい。
上記データ移行タイプは、具体的にデータ移行方向を示す。一実施例において、上記データ移行タイプは、メモリパーティション内のデータ流れ方向を示してもよい。具体的に、上記データ流れ方向(データ移行タイプ)は、以下の4種類のうちのいずれかを含んでもよい。
即ち、上記メモリパーティション内のキャッシュシステムの内部データの移行、上記メモリパーティションにおける内部メモリシステムの内部データの移行、上記メモリパーティションにおける最終レベルのキャッシュから内部メモリシステムへのデータ移行、及び上記メモリパーティションにおける内部メモリシステムから最終レベルのキャッシュへのデータ移行である。
実際の応用において、上記4種類のデータ流れ方向を4種類の識別子に対応付け、且つ実際にDMAコントローラを呼び出すときに、上記4種類の識別子を上記データ移行タイプに書き込んでもよい。これにより、DMAコントローラは、今回のデータ移行のデータ流れ方向を識別してもよい。
上記データ長は、具体的に伝送する必要があるデータ量の大きさを示す。理解できるように、データ量の大きさが記憶空間と対応関係を有するため、当該データの記憶空間における開始位置を知ると、当該データのデータ長に基づいて、当該データの記憶空間における終了位置を取得することができる。
上記ソース記憶アドレスは、具体的に移行すべきデータの現在記憶位置の開始アドレスを示す。例えば、データが内部メモリシステムから最終レベルのキャッシュに移行された場合に、上記ソース記憶アドレスは、データの上記内部メモリシステムにおける開始位置となる。
上記宛先記憶アドレスは、具体的に移行すべきデータが移行された後の記憶位置の開始アドレスを指す。例えば、データが内部メモリシステムから最終レベルのキャッシュに移行された場合に、上記宛先記憶アドレスは、データが上記最終レベルのキャッシュに移行された開始位置となる。
理解できるように、DMAコントローラは、データ移行指令を受信した後、上記データ移行指令におけるソース記憶アドレスフィールド及びデータ長に基づいてソース記憶空間を特定してもよく、上記データ移行指令における宛先記憶アドレスフィールド及びデータ長に基づいて宛先記憶空間を特定してもよく、更に、上記データ移行指令におけるデータ移行タイプに基づいて、ソース記憶空間のデータを宛先記憶空間に移行してもよい。
図5を参照すると、図5は、本発明に示すデータ移行指令の模式図である。図5に示すように、上記データ移行指令は、第1フィールド、第2フィールド、第3フィールド及び第4フィールドを含む。
上記第1フィールドは、データ移行タイプ及びデータ長を示すフィールドである。
上記第2フィールドは、ソース記憶アドレスの下位アドレスを示すフィールドである。
上記第3フィールドは、ソース記憶アドレスの上位アドレスと宛先記憶アドレスの上位アドレスとを示すフィールドである。
前記第4フィールドは、宛先記憶アドレスの下位アドレスを示すフィールドである。
説明すべきことは、上記データ移行指令における各フィールドの順番、及び各フィールドにおける異なる意味を指示するデータビットの位置は、実際の状況に応じて調整されてもよく、ここで限定しない。
0000(バイナリ)は、データがキャッシュシステムの内部で移行されることを指示し、0001(バイナリ)は、データが内部メモリシステムの内部で移行されることを指示し、0010(バイナリ)は、データが内部メモリシステムから最終レベルのキャッシュに移行されることを指示し、0011(バイナリ)は、データが最終レベルのキャッシュから内部メモリシステムに移行されることを指示する。
上記状況において、内部メモリシステムの下位アドレス0x3EAB_0000(16進数)、上位アドレス0xAB_00(16進数)から、2メガのデータを最終レベルのキャッシュの下位アドレス0x3E5B_0000(16進数)、上位アドレス0xCD_00(16進数)に移行すると仮定する。
その際、チップの処理コアは、DMAコントローラへのデータ移行指令を作成するときに、0010を第1フィールドの前4ビットに書き込み、2メガをバイナリに変換して上記第1フィールドの後28ビットに書き込んでもよい。その後、上記処理コアは、上記内部メモリシステムの下位アドレス0x3EAB_0000をバイナリに変換して上記第2フィールドに書き込み、且つ上記内部メモリシステムの上位アドレス0xAB_00をバイナリに変換して上記第3フィールドの後16ビットに書き込んでもよい。最後に、上記処理コアは、上記最終レベルのキャッシュの上位アドレス0xCD_00を上記第3フィールドの前16ビットに書き込み、且つ上記最終レベルのキャッシュの下位アドレス0x3E5B_0000をバイナリに変換して上記第4フィールドに書き込んでもよい。
上記処理コアは、上記データ移行指令の構造を完了した後、当該データ移行指令を各DMAコントローラへブロードキャストして送信してもよい。これにより、各DMAコントローラは、上記データ移行指令に応答し、上記内部メモリシステムの下位アドレス0x3EAB_0000、上位アドレス0xAB_00から、2兆のデータを上記最終レベルのキャッシュシステムの下位アドレス0x3E5B_0000、上位アドレス0xCD_00に移行する。
以上から分かるように、上記データ移行指令が少なくともデータ移行タイプ及びデータ長フィールド、ソース記憶アドレスフィールド並びに宛先記憶アドレスフィールドを含んでもよいため、DMAコントローラを呼び出すときに、DMAコントローラに対する呼び出しオーバーヘッドを低減することができる。
一実施例において、関連技術に示されたデータ移行指令における6つのフィールドの合併を採用することにより、データ移行指令に含まれるフィールド数を減少させてもよい。
実際の応用において、データ移行タイプに必要なビット数が少なく、1つのフィールド(32ビット)を占用すると浪費になってしまうため、データ移行タイプとデータ長を1つのフィールドに統合することができる。最終レベルのキャッシュは、一般的に総容量が小さい(例えば、数メガ)ため、最終レベルのキャッシュの下位アドレスフィールドと上位アドレスフィールドを1つのフィールドに統合してもよい。
図6を参照すると、図6は、本発明に示すデータ移行指令模式図である。図6に示すように、上記データ移行指令は、少なくとも第1フィールド、第2フィールド、第3フィールド及び第4フィールドを含む。
上記第1フィールドは、データ移行タイプ及びデータ長を示すフィールドである。
上記第2フィールドは、最終レベルのキャッシュの記憶アドレスを示すフィールドである。
上記第3フィールドは、内部メモリシステムの下位アドレスを示すフィールドである。
上記第4フィールドは、内部メモリシステムの上位アドレスを示すフィールドである。
説明すべきことは、上記データ移行指令における各フィールドの順番、及び各フィールドにおける異なる意味を示すデータビットの位置が実際の状況に応じて調整されてもよく、ここで限定されない。
上記第1フィールドで示される意味は、上記実施例を参照してもよく、ここで詳しく説明しない。
上記第2フィールドは、最終レベルのキャッシュの記憶空間の開始アドレスを示す。第1フィールドがデータに対して最終レベルのキャッシュから内部メモリシステムへ移行するよう指示するときに、上記第2フィールドで示される記憶アドレスは、データ現在記憶位置の開始位置となる。第1フィールドがデータに対して内部メモリシステムから最終レベルのキャッシュへ移行するよう指示するときに、上記第2フィールドで示される記憶アドレスは、データが移行された後の記憶位置の開始位置となる。
上記第3フィールド及び上記第4フィールドで示される意味は、上記実施例を参照してもよく、ここで詳しく説明しない。
以上のように、上記データ移行指令が4つのみのフィールドを含むため、DMAコントローラを呼び出すときに、DMAコントローラに対する呼び出しオーバーヘッドを低減することができる。
本発明は、電子機器を更に提出する。当該電子機器は、上記何れかの実施例に示すチップを備える。
例えば、当該電子機器は、携帯電話等のスマート端末、又は、カメラヘッドを有して画像処理を行うことができる他の機器であってもよい。例示として、当該電子機器は、収集された画像を取得したときに、画像を処理してもよい。処理過程は、本発明の実施例のチップを用いて計算タスクを実行してもよい。
上記チップがメモリパーティションのデータ移行効率を向上させることができ、より高い性能を有するため、当該チップを用いると、計算タスクの処理効率の向上を支援することができ、電子機器性能を向上させる。
当業者であれば理解できるように、本発明の1つ又は複数の実施例は、方法、システム又はコンピュータプログラム製品として提供され得る。したがって、本発明の1つ又は複数の実施例は、100%ハードウェアの実施例、100%ソフトウェアの実施例、又はソフトウェアとハードウェアとを組み合わせた態様の実施例の形式を採用してもよい。また、本発明の1つ又は複数の実施例は、1つ又は複数の、コンピュータ利用可能なプログラムコードを含むコンピュータ利用可能な記憶媒体(磁気ディスクメモリ、光学メモリ等を含むが、それらに限定されない)で実施されるコンピュータプログラム製品の形式を採用してもよい。
本発明に記載の「及び/又は」は、両者のうちの1つを少なくとも含むことを表す。例えば、「A及び/又はB」は、A、B、及び「AとB」という3つの形態を含む。
本発明における各実施例は、何れも漸進の方式で記述され、各実施例は、他の実施例との相違点を重点的に説明し、各実施例同士の同じ又は類似する部分が互いに参照すればよい。特にデータ処理機器の実施例は、方法実施例に基本的に類似するため、記述が相対的に簡単であり、関連箇所が方法実施例の部分の説明を参照すればよい。
以上は、本発明の特定の実施例について記述した。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の挙動又はステップは、実施例における順番と異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた手順は、示された特定の順番又は連続順番でないと所望の結果を得られないことを要求するとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理も、実行可能であり、又は有利なものである。
本発明に記述されたテーマ及び機能操作の実施例は、デジタル電子回路、有形的に体現されたコンピュータソフトウェア若しくはファームウェア、本発明に開示された構造及びその構造の均等物を含むコンピュータハードウェア、又はそれらのうちの1つ又は複数の組み合わせにおいて実現され得る。本発明に記述されたテーマの実施例は、1つ又は複数のコンピュータプログラム、即ち、有形の非一時的なプログラムキャリア上にコーディングされることでデータ処理装置によって実行され又はデータ処理装置の操作を制御されるコンピュータプログラム指令における1つ又は複数のモジュールとして実現され得る。代替的に又は追加的に、プログラム指令は、人工で生成された伝送信号、例えば機器で生成された電気、光又は電磁的信号にコーディングされてもよい。当該信号は、生成されることで情報を符号化して適切な受信機装置へ伝送されてデータ処理装置に実行させる。コンピュータ記憶媒体は、機器読み取り可能な記憶機器、機器読み取り可能な記憶基板、ランダム若しくはシリアルアクセスメモリ機器、又はそれらのうちの1つ又は複数の組み合わせであってもよい。
本発明に記述された処理及び論理フローは、1つ又は複数のコンピュータプログラムを実行する1つ又は複数のプログラマブルコンピュータによって実施されて、入力データに応じて操作を行って出力を生成して対応する機能を実行させてもよい。前記処理及び論理フローは、専用論理回路、例えばFPGA(フィールドプログラマブルゲートアレイ)又はASIC(特定用途向け集積回路)によって実行されてもよく、装置も専用論理回路として実現されてもよい。
コンピュータプログラムの実行に適するコンピュータは、例えば、汎用及び/又は専用マイクロプロセッサ、又は如何なる他のタイプの中央処理装置を含む。通常、中央処理装置は、読み出し専用メモリ及び/又はランダムアクセスメモリから指令及びデータを受信する。コンピュータの基本ユニットは、指令を実施や実行するための中央処理装置と、指令及びデータを記憶するための1つ又は複数のメモリ機器とを備える。通常、コンピュータは、更に、データを記憶するための1つ又は複数の大容量記憶機器、例えば、磁気ディスク、光磁気ディスク又は光ディスク等を含み、又は、コンピュータは、この大容量記憶機器に操作可能にカップリングされてそれからデータを受信したりそれへデータを伝送したりし、又は、2種の状況を兼ね備える。しかし、コンピュータは、このような機器を必ず有するとは限らない。また、コンピュータは、別の機器、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、モバイルオーディオ又はビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、又は、例えばユニバーサルシリアルバス(USB)フラッシュメモリドライバの携帯型記憶機器に組み込まれてもよい。以上は、単に幾つかの例である。
コンピュータプログラム指令及びデータを記憶するのに適するコンピュータ可読媒体は、あらゆる形態の不揮発性メモリ、メディアとメモリ機器を含み、例えば、半導体メモリ機器(例えば、EPROM、EEPROMとフラッシュメモリ機器)、磁気ディスク(例えば、内部ハードディスク又はリムーバブルディスク)、光磁気ディスク及び0xCD_00 ROMとDVD-ROMディスクを含む。プロセッサとメモリは、専用論理回路によって補充され又は専用論理回路に統合されてもよい。
本発明が大量の具体的な実施詳細を含むが、これらの詳細は、如何なる開示範囲又は保護請求される範囲を制限するとは解釈されるべきではなく、主に特定の開示された具体的な実施例の特徴を記述するために用いられる。本発明の内在の複数の実施例に記述された幾つかの特徴は、単一の実施例において組み合わせて実施されてもよい。その一方、単一の実施例に記述された各種の特徴は、複数の実施例に分けて実施され、又は、如何なる適切なサブ組み合わせとして実施されてもよい。また、特徴が上記のように幾つかの組み合わせにおいて役割を果たし、ひいてはこのように保護するように要求されてもよいが、保護請求される組み合わせからの1つ又は複数の特徴は、幾つかの場合において当該組み合わせから除去されてもよく、更に、保護請求される組み合わせは、サブ組み合わせ又はサブ組み合わせの変形を指してもよい。
類似的に、図面に特定の順番で操作が描かれたが、これらの操作が示された特定の順番で実行され又は順に実行され又は全ての例示の操作が実行されて所望の結果を得ることを要求するとして理解されるべきではない。幾つかの場合に、マルチタスク及び並行処理は、有利である可能性がある。また、上記実施例における各種のシステムモジュールとユニットの分離は、全ての実施例においてこのような分離を必要とすると理解されるべきではない。更に、理解できるように、記述されるプログラムユニット及びシステムは、通常、単一のソフトウェア製品に統合されてもよく、又は複数のソフトウェア製品としてカプセル化されてもよい。
このように、テーマの特定実施例が記述された。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の動作は、異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた処理が必ずしも示された特定の順番又は連続順番で所望の結果を得るとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理は、有利である可能性がある。
上述したのは、本発明の1つ又は複数の実施例の好適な実施例に過ぎず、本発明の1つ又は複数の実施例を制限するためのものではない。本発明の1つ又は複数の実施例の精神及び原則内でなされた如何なる変更、均等物による置換、改良等も、本発明の1つ又は複数の実施例の保護範囲内に含まれるべきである。

Claims (20)

  1. チップであって、
    少なくとも1つの処理コアと、少なくとも1つのメモリパーティションとを含み、
    メモリパーティションごとに、
    前記メモリパーティションは、キャッシュシステム、内部メモリシステム及び直接メモリアクセス(DMA)コントローラを含み、
    前記DMAコントローラは、前記キャッシュシステム及び前記内部メモリシステムにそれぞれ接続され、前記メモリパーティション内部の異なる記憶空間の間のデータ移行を行うことを特徴とするチップ。
  2. 前記DMAコントローラが前記メモリパーティション内部の異なる記憶空間の間のデータ移行を行うことは、
    前記キャッシュシステムの異なる記憶空間の間のデータ移行と、
    前記内部メモリシステム内の異なる記憶空間の間のデータ移行と、
    前記キャッシュシステムの記憶空間と前記内部メモリシステム内の記憶空間との間のデータ移行とのうちの少なくとも1つを含むことを特徴とする請求項1に記載のチップ。
  3. 前記キャッシュシステムは、複数レベルのキャッシュを含み、
    前記DMAコントローラが前記キャッシュシステムの記憶空間と前記内部メモリシステム内の記憶空間との間のデータ移行を行うことは、前記DMAコントローラが最終レベルのキャッシュの記憶空間と前記内部メモリシステム内の記憶空間との間のデータ移行を行うことを含むことを特徴とする請求項2に記載のチップ。
  4. 前記最終レベルのキャッシュは、第1動作モードと第2動作モードと第3動作モードとの3種の動作モードをサポートし、
    第1動作モードでは、前記最終レベルのキャッシュの全部の記憶空間がキャッシュメモリとして配置され、
    第2動作モードでは、前記最終レベルのキャッシュの全部の記憶空間がスクラッチパッドメモリ(SPM)として配置され、
    第3動作モードでは、前記最終レベルのキャッシュの一部の記憶空間がキャッシュメモリとして配置され、他の一部の記憶空間がSPMとして配置されることを特徴とする請求項3に記載のチップ。
  5. 前記メモリパーティションは、ユーザ配置情報に基づいて前記最終レベルのキャッシュの動作モードを配置するためのモード配置器を更に含むことを特徴とする請求項4に記載のチップ。
  6. 前記少なくとも1つの処理コアと前記DMAコントローラとは、メインネットワークオンチップを介して互いにアクセスし、又は、
    前記DMAコントローラ、前記キャッシュシステム及び前記内部メモリシステムは、サブネットワークオンチップを介して互いにアクセスすることを特徴とする請求項1~5の何れか一項に記載のチップ。
  7. 前記メモリパーティション中の異なる記憶空間の全部又は一部は、統合メモリアーキテクチャ(UMA)を採用することを特徴とする請求項1~6の何れか一項に記載のチップ。
  8. 前記少なくとも1つの処理コアのうちの第1処理コアは、少なくとも1つの第1メモリパーティションに含まれる少なくとも1つの第1DMAコントローラへデータ移行指令を送信し、
    前記少なくとも1つの第1DMAコントローラは、前記データ移行指令に基づいて、前記少なくとも1つの第1メモリパーティション内部の異なる記憶空間の間のデータ移行を行うことを特徴とする請求項1~7の何れか一項に記載のチップ。
  9. 前記第1処理コアが前記少なくとも1つの第1DMAコントローラへデータ移行指令を送信することは、前記第1処理コアが少なくとも1つの第2DMAコントローラへデータ移行指令をブロードキャストすることを含み、前記第2DMAコントローラは、前記異なる記憶空間の全部がUMAを採用する第1メモリパーティションに含まれることを特徴とする請求項8に記載のチップ。
  10. 前記データ移行指令は、データ移行タイプ、データ長、ソース記憶アドレス及び宛先記憶アドレスを含むことを特徴とする請求項8又は9に記載のチップ。
  11. 前記データ移行指令は、第1フィールド、第2フィールド、第3フィールド及び第4フィールドを含み、
    前記第1フィールドは、前記データ移行タイプ及び前記データ長を示すために用いられ、
    前記第2フィールドは、前記ソース記憶アドレスの下位アドレスを示すために用いられ、
    前記第3フィールドは、前記ソース記憶アドレスの上位アドレス及び前記宛先記憶アドレスの上位アドレスを示すために用いられ、
    前記第4フィールドは、前記宛先記憶アドレスの下位アドレスを示すために用いられることを特徴とする請求項10に記載のチップ。
  12. 前記DMAコントローラが前記メモリパーティション内部の異なる記憶空間の間のデータ移行を行うことは、
    前記メモリパーティション内の第1記憶空間からデータを読み取り、読み取られたデータを前記メモリパーティション内の第2記憶空間に書き込むことを含むことを特徴とする請求項1~11の何れか一項に記載のチップ。
  13. 前記内部メモリシステムは、高帯域幅メモリ(HBM)であることを特徴とする請求項1~12の何れか一項に記載のチップ。
  14. チップに用いられるデータ移行方法であって、
    前記チップは、少なくとも1つの処理コアと、少なくとも1つのメモリパーティションとを含み、各メモリパーティションは、キャッシュシステム、内部メモリシステム及び直接メモリアクセス(DMA)コントローラを含み、
    前記データ移行方法は、メモリパーティションごとに、前記DMAコントローラを介して前記メモリパーティション内部の異なる記憶空間の間のデータ移行を行うステップを含むことを特徴とするデータ移行方法。
  15. 前記キャッシュシステムは、複数レベルのキャッシュを含み、
    前記DMAコントローラを介して前記メモリパーティション内部の異なる記憶空間の間のデータ移行を行うステップは、
    前記DMAコントローラを介して最終レベルのキャッシュの記憶空間と前記内部メモリシステム内の記憶空間との間のデータ移行を行うことを含むことを特徴とする請求項14に記載のデータ移行方法。
  16. ユーザ配置情報に基づいて前記最終レベルのキャッシュの動作モードを配置するステップを更に含むことを特徴とする請求項15に記載のデータ移行方法。
  17. 前記DMAコントローラを介して前記メモリパーティション内部の異なる記憶空間の間のデータ移行を行うステップは、
    前記少なくとも1つの処理コアのうちの第1処理コアを介して、少なくとも1つの第1メモリパーティションに含まれる少なくとも1つの第1DMAコントローラへデータ移行指令を送信することと、
    前記少なくとも1つの第1DMAコントローラが、前記データ移行指令に基づいて、前記少なくとも1つの第1メモリパーティション内部の異なる記憶空間の間のデータ移行を行うことと、を含むことを特徴とする請求項14~16の何れか一項に記載のデータ移行方法。
  18. 前記第1処理コアを介して前記少なくとも1つの第1DMAコントローラへ前記データ移行指令を送信することは、前記第1処理コアを介して少なくとも1つの第2DMAコントローラへデータ移行指令をブロードキャストすることを含み、
    前記第2DMAコントローラは、前記異なる記憶空間の全部が統合メモリアーキテクチャ(UMA)を採用する第1メモリパーティションに含まれることを特徴とする請求項17に記載のデータ移行方法。
  19. 前記DMAコントローラを介して前記メモリパーティション内部の異なる記憶空間の間のデータ移行を行うステップは、
    前記DMAコントローラを介して前記メモリパーティション内の第1記憶空間からデータを読み取り、読み取られたデータを前記メモリパーティション内の第2記憶空間に書き込むことを含むことを特徴とする請求項14~18の何れか一項に記載のデータ移行方法。
  20. 請求項1から13の何れか一項に記載のチップを備えることを特徴とする電子機器。
JP2022527673A 2020-12-10 2021-06-22 チップ、データ移行方法及び電子機器 Pending JP2023509818A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011458676.7 2020-12-10
CN202011458676.7A CN112506437A (zh) 2020-12-10 2020-12-10 芯片、数据搬移方法和电子设备
PCT/CN2021/101547 WO2022121278A1 (zh) 2020-12-10 2021-06-22 芯片、数据搬移方法和电子设备

Publications (1)

Publication Number Publication Date
JP2023509818A true JP2023509818A (ja) 2023-03-10

Family

ID=74973679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022527673A Pending JP2023509818A (ja) 2020-12-10 2021-06-22 チップ、データ移行方法及び電子機器

Country Status (3)

Country Link
JP (1) JP2023509818A (ja)
CN (1) CN112506437A (ja)
WO (1) WO2022121278A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112506437A (zh) * 2020-12-10 2021-03-16 上海阵量智能科技有限公司 芯片、数据搬移方法和电子设备
CN113220346A (zh) * 2021-04-29 2021-08-06 上海阵量智能科技有限公司 一种硬件电路、数据搬移方法、芯片和电子设备
WO2023220996A1 (zh) * 2022-05-18 2023-11-23 深圳市韶音科技有限公司 一种信号传输控制系统
CN115034376B (zh) * 2022-08-12 2022-11-18 上海燧原科技有限公司 神经网络处理器的批量标准化处理方法及存储介质
CN116308999B (zh) * 2023-05-18 2023-08-08 南京砺算科技有限公司 图形处理器的数据处理方法及图形处理器、存储介质
CN116610630B (zh) * 2023-07-14 2023-11-03 上海芯高峰微电子有限公司 一种基于片上网络的多核系统和数据传输方法
CN117667828B (zh) * 2024-01-31 2024-05-03 摩尔线程智能科技(北京)有限责任公司 一种片上网络集成方法、装置和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001290705A (ja) * 2000-04-07 2001-10-19 Nintendo Co Ltd オンチップキャッシュのソフトウェア管理方法および装置
WO2002073431A1 (fr) * 2001-03-09 2002-09-19 International Business Machines Corporation Procede et dispositif de commande de transfert dma
JP2002538522A (ja) * 1999-02-22 2002-11-12 インフィネオン・テクノロジーズ・アーゲー 直接メモリアクセスを円滑にするための方法および装置
JP2005243013A (ja) * 2004-02-12 2005-09-08 Irdeto Access Bv 外部データの記憶方法及びシステム
JP2011086131A (ja) * 2009-10-16 2011-04-28 Mitsubishi Electric Corp データ処理システム
US20140310467A1 (en) * 2011-10-28 2014-10-16 The Regents Of The University Of California Multiple-core computer processor for reverse time migration
JP2015064863A (ja) * 2013-08-26 2015-04-09 富士ゼロックス株式会社 情報処理装置、演算処理装置及びプログラム
US9959227B1 (en) * 2015-12-16 2018-05-01 Amazon Technologies, Inc. Reducing input/output latency using a direct memory access (DMA) engine

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7853755B1 (en) * 2006-09-29 2010-12-14 Tilera Corporation Caching in multicore and multiprocessor architectures
CN101645052B (zh) * 2008-08-06 2011-10-26 中兴通讯股份有限公司 一种快速dma乒乓缓存方法
CN101930357B (zh) * 2010-08-17 2013-07-31 中国科学院计算技术研究所 采用可配置的片上存储装置实现访存操作的系统及方法
CN102521201A (zh) * 2011-11-16 2012-06-27 刘大可 多核数字信号处理器片上系统及数据传输方法
CN104298645A (zh) * 2014-10-09 2015-01-21 深圳市国微电子有限公司 一种可灵活配置的可编程片上系统芯片及其启动配置方法
CN107562659A (zh) * 2016-06-30 2018-01-09 中兴通讯股份有限公司 一种数据搬移装置及方法
CN108153190B (zh) * 2017-12-20 2020-05-05 新大陆数字技术股份有限公司 一种人工智能微处理器
TWI720345B (zh) * 2018-09-20 2021-03-01 威盛電子股份有限公司 多核心系統的內連線結構
CN109933553B (zh) * 2019-02-28 2020-09-29 厦门码灵半导体技术有限公司 一种控制系统及其设计方法、一组控制系统、电子装置
CN110059024B (zh) * 2019-04-19 2021-09-21 中国科学院微电子研究所 一种内存空间数据缓存方法及装置
CN111797034A (zh) * 2020-06-24 2020-10-20 深圳云天励飞技术有限公司 一种数据管理方法、神经网络处理器和终端设备
CN111782154B (zh) * 2020-07-13 2023-07-04 芯象半导体科技(北京)有限公司 数据搬移方法、装置及系统
CN111739577B (zh) * 2020-07-20 2020-11-20 成都智明达电子股份有限公司 一种基于dsp的高效的ddr测试方法
CN112506437A (zh) * 2020-12-10 2021-03-16 上海阵量智能科技有限公司 芯片、数据搬移方法和电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002538522A (ja) * 1999-02-22 2002-11-12 インフィネオン・テクノロジーズ・アーゲー 直接メモリアクセスを円滑にするための方法および装置
JP2001290705A (ja) * 2000-04-07 2001-10-19 Nintendo Co Ltd オンチップキャッシュのソフトウェア管理方法および装置
WO2002073431A1 (fr) * 2001-03-09 2002-09-19 International Business Machines Corporation Procede et dispositif de commande de transfert dma
JP2005243013A (ja) * 2004-02-12 2005-09-08 Irdeto Access Bv 外部データの記憶方法及びシステム
JP2011086131A (ja) * 2009-10-16 2011-04-28 Mitsubishi Electric Corp データ処理システム
US20140310467A1 (en) * 2011-10-28 2014-10-16 The Regents Of The University Of California Multiple-core computer processor for reverse time migration
JP2015064863A (ja) * 2013-08-26 2015-04-09 富士ゼロックス株式会社 情報処理装置、演算処理装置及びプログラム
US9959227B1 (en) * 2015-12-16 2018-05-01 Amazon Technologies, Inc. Reducing input/output latency using a direct memory access (DMA) engine

Also Published As

Publication number Publication date
CN112506437A (zh) 2021-03-16
WO2022121278A1 (zh) 2022-06-16

Similar Documents

Publication Publication Date Title
JP2023509818A (ja) チップ、データ移行方法及び電子機器
KR101923661B1 (ko) 플래시 기반 가속기 및 이를 포함하는 컴퓨팅 디바이스
CN111742305A (zh) 调度具有不统一等待时间的存储器请求
CN110309088B (zh) Zynq fpga芯片及其数据处理方法、存储介质
CN105183662B (zh) 一种无cache一致性协议的分布式共享片上存储架构
KR101812300B1 (ko) 다수의 메모리 채널들을 가진 컴퓨팅 시스템에서의 메모리 버퍼들의 할당
KR20050051672A (ko) 스케일러블 멀티채널 메모리 액세스를 위한 방법 및 메모리제어기
US11276459B2 (en) Memory die including local processor and global processor, memory device, and electronic device
US10437747B2 (en) Memory appliance couplings and operations
JP2013545201A (ja) マルチクライアントコンピューティングシステムに対するメモリデバイスの分割
JP2023156472A (ja) 同じチャネルで不均一なレイテンシを有するメモリタイプのための応答のサポート
KR20200100151A (ko) 집단화된 메모리 장치에 대한 메모리 요청 스케줄링
TW201717026A (zh) 用於逐頁記憶體通道交錯之系統及方法
WO2023134735A1 (zh) 计算设备、数据处理方法、系统及相关设备
WO2022227563A1 (zh) 一种硬件电路、数据搬移方法、芯片和电子设备
CN114116533B (zh) 利用共享存储器存储数据的方法
US9122565B2 (en) Memory controller and memory control method
US11086534B2 (en) Memory data distribution based on communication channel utilization
CN113157602A (zh) 一种对内存进行分配的方法、设备及计算机可读存储介质
CN114402304A (zh) 存储器共享
CN117312201B (zh) 一种数据传输方法、装置及加速器设备、主机和存储介质
JP2006048691A (ja) ストリーミングidメソッドによるdmac発行メカニズム
US10423424B2 (en) Replicated stateless copy engine
WO2023142091A1 (zh) 计算任务调度装置、计算装置、计算任务调度方法和计算方法
JP2009193260A (ja) ストレージシステム、ストレージ装置、優先度制御装置および優先度制御方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220512

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230419

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231108