JP2019053734A - 高効率ラーニングシステムのためのヘテロジニアスアクセラレータ - Google Patents
高効率ラーニングシステムのためのヘテロジニアスアクセラレータ Download PDFInfo
- Publication number
- JP2019053734A JP2019053734A JP2018171047A JP2018171047A JP2019053734A JP 2019053734 A JP2019053734 A JP 2019053734A JP 2018171047 A JP2018171047 A JP 2018171047A JP 2018171047 A JP2018171047 A JP 2018171047A JP 2019053734 A JP2019053734 A JP 2019053734A
- Authority
- JP
- Japan
- Prior art keywords
- processing unit
- reprogrammable
- task
- memory
- fixed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/78—Architectures of general purpose stored program computers comprising a single central processing unit
- G06F15/7867—Architectures of general purpose stored program computers comprising a single central processing unit with reconfigurable architecture
- G06F15/7885—Runtime interface, e.g. data exchange, runtime control
- G06F15/7889—Reconfigurable logic implemented as a co-processor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/20—Handling requests for interconnection or transfer for access to input/output bus
- G06F13/28—Handling requests for interconnection or transfer for access to input/output bus using burst mode transfer, e.g. direct memory access DMA, cycle steal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F2015/761—Indexing scheme relating to architectures of general purpose stored programme computers
- G06F2015/768—Gate array
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Advance Control (AREA)
- Microcomputers (AREA)
- Memory System (AREA)
Abstract
【解決手段】システム100は、タスクスケジューラにより、少なくとも部分的に制御される異種演算環境を含む。異種演算環境は、命令を実行するように構成された固定論理回路を含む固定処理ユニット、プロセッシングインメモリの機能を制御する命令を含む命令を実行するように構成された再プログラム可能な論理回路を含む再プログラム可能な処理ユニット及び高帯域メモリダイのスタックを含む。高帯域メモリダイの各々はデータを格納し、再プログラム可能な処理ユニットにより制御可能なプロセッシングインメモリの機能を提供する。再プログラム可能な処理ユニットは、少なくとも部分的に高帯域メモリダイと積層され、タスクスケジューラは固定処理ユニット及び再プログラム可能な処理ユニットの間における演算タスクの分担をスケジューリングする。
【選択図】図1
Description
「プロセッシングインメモリ(processing−in−memory)」として知られた技法は、低電力技術プロセスだけではなくデータが存在する場所により近接したメモリ(例えば、動的ランダムアクセスメモリ(DRAM(dyanamic random access memory)など)とロジックを混載したダイにおける複雑な作業をスケジューリングして追加的な演算能力を提供することにより、斯かる難問に挑戦する能力を含む。
前記異種アクセラレータのマルチチップモジュールは、命令を実行するように構成された固定論理回路を含む固定処理ユニット、プロセッシングインメモリ(processing−in−memory)の機能を制御する命令を含む命令を実行するように構成された再プログラム可能な論理回路を含む再プログラム可能な処理ユニット、及び高帯域メモリダイのスタックを含み、前記高帯域メモリダイの各々はデータを格納し、前記再プログラム可能な処理ユニットにより制御可能なプロセッシングインメモリの機能を提供するように構成され、前記再プログラム可能な処理ユニットは少なくとも部分的に前記高帯域メモリダイと積層される。
カーネルの境界(bounds of kernel)はサブルーチンと一致する場合としない場合があるので、サブルーチンの同義語(synonymous terms)と見做すべきではない。斯かる脈絡で、「カーネル(kernel)」の用語は「コンピュートカーネル(compute kernel)」の用語と少し類似して、「OSカーネル(operating system kernel)」、「カーネル方式(kernel method)」、「イメージカーネル(image kernel)」のようなカーネルの他の定義、又は数学で使用されるカーネルの多様な定義と混同してはならない。
このような実施例で、FPUバッファ514及びRPUバッファ516はCPU302により制御されるか又はアクセスされる。多様な実施例で、FPUバッファ514及びRPUバッファ516は、システムメモリ(例えば、図4に図示されたシステムメモリ412)の部分又は領域であるか又は別途のメモリ回路である。
ワイファイ(Wi−Fi)プロトコルの例は、IEEE(Institute of Electrical and Electronics Engineers) 802.11g、IEEE802.11nを包含するが、これに限定されない。
セルラー(cellular)プロトコルの例は、IEEE802.16m(別名:無線−MAN(Metropolitan Area Network) Advanced)、LTE(Long Term Evolution) Advanced、EDGE(Enhanced Data rates for GSM(登録商標)(Global System for Mobile Communications) Evolution)、HSPA+(Evolved High−Speed Packet Access)を包含するが、これに限定されない。有線プロトコルの例は、IEEE 802.3(別名:イーサネット(登録商標)(Ethernet))、ファイバチャンネル(Fiber Channel)、電力線通信(例えば、ホームプラグ(HomePlug)、IEEE1901)を包含するが、これに限定されない。
斯かる実施例で、情報処理システム700は局部的に(例えば、不揮発性メモリ730内に)設置されてプロセッサ710により直接実行されるか又はOSと直接的に相互作用するように構成される1つ又はそれ以上の基本アプリケーション(native applications)を包含する。斯かる実施例で、基本アプリケーションは、予めコンパイルされたマシン実行可能なコード(pre−compiled machine executable code)を包含する。幾つかの実施例で、基本アプリケーションは、ソースコード又はオブジェクトコードをプロセッサ710により実行される、プロセッサ710が実行可能なコードに変換するように構成されたスクリプト解釈機(例えば、csh(C−shell)(登録商標)、AppleScript(登録商標)、AutoHotkey(登録商標))又は仮想実行マシン(VM:Virtual execution Machine)(例えば、ジャバ仮想マシン(JAVA_Virtual_Machine)(登録商標)、マイクロソフト共通言語ランタイム(Microsoft_Common_Language_Runtime)(登録商標))を包含する。
104 固定処理ユニット、FPU、FPU/GPU
106 再プログラム可能な処理ユニット、RPU
108、308 スタック
110 HBMコントローラ
112 HBMダイ
120 インタポーザ、インタポーザダイ、インタポーザレイヤ
122 基板ダイ、パッケージ基板ダイ
124 はんだバンプ
202 中央処理ユニット、CPU
212 CPUメモリ、CPUメモリダイ
214 FPUメモリ、FPUメモリダイ
302 タスクスケジューラ、CPU、(ホスト)プロセッサ
304 FPU、固定処理ユニット
306 RPU、再プログラム可能な処理ユニット
402 連結バス
404、504、604 データ
412 システムメモリ
414 FPUメモリ
442 ポーリング回路
444 アクセスレジスタ
462 レディーフラッグ
464 RDMAエンジン又はRDMA回路
490、590,690 タスク
514 FPUバッファ、中央メモリ
516 RPUバッファ、中央メモリ
542、642 ポーリング回路
546、646 トリガイベント
614、616 データ(604)の転送経路
700 情報処理システム
705 システムバス
710 中央処理ユニット(CPU)、ロジック、又はプロセッサ、プロセッサ
715 CLB
720 揮発性メモリ
730 不揮発性メモリ
740 ネットワークインタフェース
750 ユーザインタフェースユニット
760 ハードウェア構成部品
770 ソフトウェア構成部品
CLB 組合せ論理ブロック
CPU 中央処理ユニット
FPU 変更不能な、即ち固定処理ユニット
FUB 機能ユニットブロック
GPU グラフィクス処理ユニット
PPU プログラム可能な処理ユニット
RPU 再プログラム可能な処理ユニット
Claims (20)
- タスクスケジューラにより、少なくとも部分的に制御される異種演算環境を含み、
前記異種演算環境は、
命令を実行するように構成された固定論理回路を含む処理ユニット(以下、固定処理ユニットという)と、
プロセッシングインメモリの機能を制御する命令を含む命令を実行するように構成された再プログラム可能な論理回路を含む処理ユニット(以下、再プログラム可能な処理ユニットという)と、
高帯域メモリダイのスタックと、を含み、
前記高帯域メモリダイの各々はデータを格納し、前記再プログラム可能な処理ユニットにより制御可能なプロセッシングインメモリの機能を提供するように構成され、
前記再プログラム可能な処理ユニットは少なくとも部分的に前記高帯域メモリダイと積層され、
前記タスクスケジューラは、前記固定処理ユニット及び前記再プログラム可能な処理ユニットの間における演算タスクの分担をスケジューリングするように構成される、装置。 - 前記固定処理ユニットはグラフィクス処理ユニットを含む、請求項1に記載の装置。
- 前記固定処理ユニットは遠距離直接メモリアクセス(RDMA、remote direct memory accesses)を通じて前記高帯域メモリダイに格納されたデータにアクセスするように構成され、
前記再プログラム可能な処理ユニットは前記固定処理ユニットから遠距離直接メモリアクセスをサービスするように構成された直接メモリアクセス回路を含み、
前記遠距離直接メモリアクセスは前記高帯域メモリダイに対して発生する、請求項1に記載の装置。 - 前記固定処理ユニットは前記高帯域メモリダイからのデータを臨時格納するように構成されたレジスタメモリを含む、請求項1に記載の装置。
- タスクスケジューラは前記固定処理ユニットがタスクの第1部分を実行し、前記再プログラム可能な処理ユニットが前記タスクの第2部分を実行するように構成され、
前記固定処理ユニットは前記タスクの実行を中断し、フラッグ基盤の同期化プロトコルに少なくとも部分的に基づいて前記タスクの実行を前記再プログラム可能な処理ユニットにオフロード(offload)するのを待機するように構成された、請求項1に記載の装置。 - 前記固定処理ユニットは前記再プログラム可能な処理ユニットをポーリング(polling)し、前記再プログラム可能な処理ユニットが前記タスクを実行する準備になったかを判定するように構成された、請求項5に記載の装置。
- 前記タスクスケジューラは前記再プログラム可能な処理ユニットが前記タスクを実行する準備になったことを前記固定処理ユニットに知らせるように構成された、請求項5に記載の装置。
- 中央処理ユニットにより、少なくとも部分的に制御される異種演算環境を含み、
前記異種演算環境は、
固定処理ユニット及び再プログラム可能な処理ユニットの間において演算タスクを割り当てるように構成された前記中央処理ユニットと、
命令を実行するように構成された固定論理回路を含む前記固定処理ユニットと、
プロセッシングインメモリの機能を制御する命令を含む命令を実行するように構成された再プログラム可能な論理回路を含む前記再プログラム可能な処理ユニットと、
高帯域メモリダイのスタックと、
前記固定処理ユニットに専用留保されたバッファ領域及び前記再プログラム可能な処理ユニットに専用留保されたバッファ領域を含む中央メモリを包含し、
前記高帯域メモリダイの各々はデータを格納し、前記再プログラム可能な処理ユニットにより制御可能なプロセッシングインメモリの機能を提供するように構成され、
前記再プログラム可能な処理ユニットに少なくとも部分的に前記高帯域メモリダイが積層される、装置。 - 前記中央処理ユニットは第1タスクを、実行のため、前記固定処理ユニットに割り当てるように構成され、
前記固定処理ユニットは前記第1タスクの実行が少なくとも部分的に完了された場合、前記中央処理ユニットにデータを複写するように構成され、
前記中央処理ユニットは第2タスクを、実行のため、前記再プログラム可能な処理ユニットに割り当て、前記データを前記再プログラム可能な処理ユニットにおいて可用にするように構成された、請求項8に記載の装置。 - 前記中央処理ユニットは前記データを前記固定処理ユニットに専用留保された前記バッファ領域から前記再プログラム可能な処理ユニットに専用留保された前記バッファ領域に複写するように構成された、請求項9に記載の装置。
- 前記中央処理ユニットは少なくとも部分的に前記固定処理ユニット及び前記再プログラム可能な処理ユニット間で転送されたデータのタイミングを制御するように構成された、請求項8に記載の装置。
- 前記再プログラム可能な処理ユニットは前記データに対するタスクが実行される前に、前記データを前記中央メモリから前記高帯域メモリダイに複写するように構成された、請求項8に記載の装置。
- 前記再プログラム可能な処理ユニットは、前記データを前記中央メモリから前記高帯域メモリダイに複写する前に、トリガイベントが発生されたかを判定するように構成された、請求項12に記載の装置。
- 前記異種演算環境は、前記固定処理ユニットが前記高帯域メモリダイに直接的にアクセスしないように構成された、請求項8に記載の装置。
- 異種演算環境の処理ユニットに演算タスクを割り当てるように構成された中央処理ユニットと、
データを格納するように構成されたシステムメモリと、
前記異種演算環境を含む異種アクセラレータのマルチチップモジュールを含み、
前記異種アクセラレータのマルチチップモジュールは、
命令を実行するように構成された固定論理回路を含む固定処理ユニットと、
プロセッシングインメモリ(processing−in−memory)の機能を制御する命令を含む命令を実行するように構成された再プログラム可能な論理回路を含む再プログラム可能な処理ユニットと、
高帯域メモリダイのスタックを含み、
前記高帯域メモリダイの各々はデータを格納し、前記再プログラム可能な処理ユニットにより制御可能なプロセッシングインメモリの機能を提供するように構成され、
前記再プログラム可能な処理ユニットに少なくとも部分的に前記高帯域メモリダイが積層される、システム。 - 前記固定処理ユニットは、前記固定処理ユニットに割り当てられたタスクの前記実行が少なくとも部分的に完了された場合、前記システムメモリにデータを複写するように構成され、
前記再プログラム可能な処理ユニットは、データを要求する前記再プログラム可能な処理ユニットに割り当てられたタスクを実行する前に、前記データを前記システムメモリから前記高帯域メモリダイに複写するように構成された、請求項15に記載のシステム。 - 前記固定処理ユニットは前記データを遠距離直接メモリアクセス(remote direct memory accesses)を通じて前記システムメモリに複写するように構成された、請求項16に記載のシステム。
- 前記再プログラム可能な処理ユニットは、前記システムメモリから前記高帯域メモリダイにデータを複写する前に、トリガイベントが発生されたと判定するように構成された、請求項15に記載のシステム。
- 前記固定処理ユニットはグラフィクス処理ユニットを含み、
前記再プログラム可能な処理ユニットはFPGA(Field Programmable Gate Array)を含む、請求項15に記載のシステム。 - 前記中央処理ユニットはタスクの第1部分を、実行のため、前記固定処理ユニットに割り当て、前記タスクの第2部分を、実行のため、前記再プログラム可能な処理ユニットに割り当てるように構成され、
前記固定処理ユニットは前記タスクの前記第1部分が完了された時刻及び前記タスクの第2部分が完了された時刻の間にタスクの実行を停止(halt)するように構成された、請求項15に記載のシステム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762558745P | 2017-09-14 | 2017-09-14 | |
US62/558,745 | 2017-09-14 | ||
US15/825,047 | 2017-11-28 | ||
US15/825,047 US10474600B2 (en) | 2017-09-14 | 2017-11-28 | Heterogeneous accelerator for highly efficient learning systems |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2019053734A true JP2019053734A (ja) | 2019-04-04 |
JP2019053734A5 JP2019053734A5 (ja) | 2021-09-02 |
JP7028745B2 JP7028745B2 (ja) | 2022-03-02 |
Family
ID=65631148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018171047A Active JP7028745B2 (ja) | 2017-09-14 | 2018-09-13 | 高効率ラーニングシステムのためのヘテロジニアスアクセラレータ |
Country Status (5)
Country | Link |
---|---|
US (3) | US10474600B2 (ja) |
JP (1) | JP7028745B2 (ja) |
KR (1) | KR20190030579A (ja) |
CN (1) | CN109508316B (ja) |
TW (1) | TWI754752B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021034008A (ja) * | 2019-08-13 | 2021-03-01 | 三星電子株式会社Samsung Electronics Co.,Ltd. | プロセッサチップ及びその制御方法 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10474600B2 (en) * | 2017-09-14 | 2019-11-12 | Samsung Electronics Co., Ltd. | Heterogeneous accelerator for highly efficient learning systems |
US11367707B2 (en) * | 2018-09-26 | 2022-06-21 | Intel Corporation | Semiconductor package or structure with dual-sided interposers and memory |
CN109785224B (zh) * | 2019-01-29 | 2021-09-17 | 华中科技大学 | 一种基于fpga的图数据处理方法和系统 |
US11211378B2 (en) * | 2019-07-18 | 2021-12-28 | International Business Machines Corporation | Heterogeneous integration structure for artificial intelligence computing |
KR20210034784A (ko) * | 2019-09-23 | 2021-03-31 | 삼성전자주식회사 | 솔리드 스테이트 드라이브 장치 및 그 제조 방법 |
KR20210042757A (ko) | 2019-10-10 | 2021-04-20 | 삼성전자주식회사 | Pim을 채용하는 반도체 메모리 장치 및 그 동작 방법 |
US11769043B2 (en) | 2019-10-25 | 2023-09-26 | Samsung Electronics Co., Ltd. | Batch size pipelined PIM accelerator for vision inference on multiple images |
US20230012487A1 (en) * | 2019-12-20 | 2023-01-19 | Hewlett-Packard Development Company, L.P. | Machine learning workload orchestration in heterogeneous clusters |
US11385837B2 (en) | 2020-01-07 | 2022-07-12 | SK Hynix Inc. | Memory system |
US11315611B2 (en) | 2020-01-07 | 2022-04-26 | SK Hynix Inc. | Processing-in-memory (PIM) system and operating methods of the PIM system |
TW202141290A (zh) | 2020-01-07 | 2021-11-01 | 韓商愛思開海力士有限公司 | 記憶體中處理(pim)系統和pim系統的操作方法 |
US11748100B2 (en) * | 2020-03-19 | 2023-09-05 | Micron Technology, Inc. | Processing in memory methods for convolutional operations |
TWI811620B (zh) * | 2020-03-24 | 2023-08-11 | 威盛電子股份有限公司 | 運算裝置與資料處理方法 |
US11941433B2 (en) | 2020-03-24 | 2024-03-26 | Via Technologies Inc. | Computing apparatus and data processing method for offloading data processing of data processing task from at least one general purpose processor |
CN111813526A (zh) * | 2020-07-10 | 2020-10-23 | 深圳致星科技有限公司 | 用于联邦学习的异构处理系统、处理器及任务处理方法 |
KR20220032366A (ko) | 2020-09-07 | 2022-03-15 | 삼성전자주식회사 | 가변적인 모드 설정을 수행하는 메모리 장치 및 그 동작방법 |
WO2022139835A1 (en) * | 2020-12-23 | 2022-06-30 | Futurewei Technologies, Inc. | Server architecture with configurable universal expansion slots |
CN115469800A (zh) | 2021-06-10 | 2022-12-13 | 三星电子株式会社 | 数据处理系统以及用于访问异构存储器系统的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003347470A (ja) * | 2002-05-24 | 2003-12-05 | Fujitsu Ltd | 半導体装置の製造方法 |
JP2010080802A (ja) * | 2008-09-29 | 2010-04-08 | Hitachi Ltd | 半導体装置 |
JP2015533009A (ja) * | 2012-09-25 | 2015-11-16 | インテル・コーポレーション | パフォーマンスおよび電力のために構成可能な3dメモリ |
WO2016209406A1 (en) * | 2015-06-26 | 2016-12-29 | Advanced Micro Devices, Inc. | Computer architecture using rapidly reconfigurable circuits and high-bandwidth memory interfaces |
Family Cites Families (74)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4951193A (en) * | 1986-09-05 | 1990-08-21 | Hitachi, Ltd. | Parallel computer with distributed shared memories and distributed task activating circuits |
US5918248A (en) * | 1996-12-30 | 1999-06-29 | Northern Telecom Limited | Shared memory control algorithm for mutual exclusion and rollback |
US20030216874A1 (en) * | 2002-03-29 | 2003-11-20 | Henry Manus P. | Drive techniques for a digital flowmeter |
US7155602B2 (en) * | 2001-04-30 | 2006-12-26 | Src Computers, Inc. | Interface for integrating reconfigurable processors into a general purpose computing system |
US6794273B2 (en) | 2002-05-24 | 2004-09-21 | Fujitsu Limited | Semiconductor device and manufacturing method thereof |
US8108656B2 (en) * | 2002-08-29 | 2012-01-31 | Qst Holdings, Llc | Task definition for specifying resource requirements |
EP1443417A1 (en) * | 2003-01-31 | 2004-08-04 | STMicroelectronics S.r.l. | A reconfigurable signal processor with embedded flash memory device |
GB2409066B (en) * | 2003-12-09 | 2006-09-27 | Advanced Risc Mach Ltd | A data processing apparatus and method for moving data between registers and memory |
US7506297B2 (en) * | 2004-06-15 | 2009-03-17 | University Of North Carolina At Charlotte | Methodology for scheduling, partitioning and mapping computational tasks onto scalable, high performance, hybrid FPGA networks |
TWI251171B (en) * | 2004-09-21 | 2006-03-11 | Univ Tsinghua | Task scheduling method with low power consumption and a SOC using the method |
GB0519981D0 (en) * | 2005-09-30 | 2005-11-09 | Ignios Ltd | Scheduling in a multicore architecture |
US8412872B1 (en) | 2005-12-12 | 2013-04-02 | Nvidia Corporation | Configurable GPU and method for graphics processing using a configurable GPU |
JP4934356B2 (ja) * | 2006-06-20 | 2012-05-16 | 株式会社日立製作所 | 映像処理エンジンおよびそれを含む映像処理システム |
US8806228B2 (en) * | 2006-07-13 | 2014-08-12 | International Business Machines Corporation | Systems and methods for asymmetrical performance multi-processors |
GB2443277B (en) * | 2006-10-24 | 2011-05-18 | Advanced Risc Mach Ltd | Performing diagnostics operations upon an asymmetric multiprocessor apparatus |
US8296743B2 (en) | 2007-12-17 | 2012-10-23 | Intel Corporation | Compiler and runtime for heterogeneous multiprocessor systems |
US8041852B1 (en) * | 2008-12-09 | 2011-10-18 | Calos Fund Limited Liability Company | System and method for using a shared buffer construct in performance of concurrent data-driven tasks |
US7996564B2 (en) * | 2009-04-16 | 2011-08-09 | International Business Machines Corporation | Remote asynchronous data mover |
US8310492B2 (en) * | 2009-09-03 | 2012-11-13 | Ati Technologies Ulc | Hardware-based scheduling of GPU work |
US8874943B2 (en) | 2010-05-20 | 2014-10-28 | Nec Laboratories America, Inc. | Energy efficient heterogeneous systems |
JP5516744B2 (ja) * | 2010-08-27 | 2014-06-11 | 富士通株式会社 | スケジューラ、マルチコアプロセッサシステムおよびスケジューリング方法 |
US8996644B2 (en) | 2010-12-09 | 2015-03-31 | Solarflare Communications, Inc. | Encapsulated accelerator |
US8745626B1 (en) * | 2012-12-17 | 2014-06-03 | Throughputer, Inc. | Scheduling application instances to configurable processing cores based on application requirements and resource specification |
US9329843B2 (en) | 2011-08-02 | 2016-05-03 | International Business Machines Corporation | Communication stack for software-hardware co-execution on heterogeneous computing systems with processors and reconfigurable logic (FPGAs) |
US8990518B2 (en) | 2011-08-04 | 2015-03-24 | Arm Limited | Methods of and apparatus for storing data in memory in data processing systems |
US9280395B2 (en) * | 2012-05-30 | 2016-03-08 | Intel Corporation | Runtime dispatching among a heterogeneous group of processors |
US20140040532A1 (en) | 2012-08-06 | 2014-02-06 | Advanced Micro Devices, Inc. | Stacked memory device with helper processor |
US9304730B2 (en) | 2012-08-23 | 2016-04-05 | Microsoft Technology Licensing, Llc | Direct communication between GPU and FPGA components |
US8996781B2 (en) * | 2012-11-06 | 2015-03-31 | OCZ Storage Solutions Inc. | Integrated storage/processing devices, systems and methods for performing big data analytics |
US9110778B2 (en) * | 2012-11-08 | 2015-08-18 | International Business Machines Corporation | Address generation in an active memory device |
US10079044B2 (en) * | 2012-12-20 | 2018-09-18 | Advanced Micro Devices, Inc. | Processor with host and slave operating modes stacked with memory |
US9135185B2 (en) | 2012-12-23 | 2015-09-15 | Advanced Micro Devices, Inc. | Die-stacked memory device providing data translation |
US9658977B2 (en) * | 2013-03-15 | 2017-05-23 | Micron Technology, Inc. | High speed, parallel configuration of multiple field programmable gate arrays |
US9135062B2 (en) * | 2013-04-09 | 2015-09-15 | National Instruments Corporation | Hardware assisted method and system for scheduling time critical tasks |
US9244629B2 (en) * | 2013-06-25 | 2016-01-26 | Advanced Micro Devices, Inc. | Method and system for asymmetrical processing with managed data affinity |
US9424079B2 (en) | 2013-06-27 | 2016-08-23 | Microsoft Technology Licensing, Llc | Iteration support in a heterogeneous dataflow engine |
US9600346B2 (en) * | 2013-07-10 | 2017-03-21 | International Business Machines Corporation | Thread scheduling across heterogeneous processing elements with resource mapping |
US9934043B2 (en) | 2013-08-08 | 2018-04-03 | Linear Algebra Technologies Limited | Apparatus, systems, and methods for providing computational imaging pipeline |
US9665533B2 (en) * | 2013-12-20 | 2017-05-30 | Rambus Inc. | Blob pools, selectors, and command set implemented within a memory appliance for accessing memory |
EP3100562B1 (en) * | 2014-01-31 | 2018-03-07 | Telefonaktiebolaget LM Ericsson (publ) | Scheduling in cellular communication systems |
US9444827B2 (en) * | 2014-02-15 | 2016-09-13 | Micron Technology, Inc. | Multi-function, modular system for network security, secure communication, and malware protection |
JP2017508161A (ja) * | 2014-03-10 | 2017-03-23 | オープンアイオーラブズ リミテッド | 走査型イオンコンダクタンス顕微鏡法 |
WO2015171905A1 (en) | 2014-05-08 | 2015-11-12 | Micron Technology, Inc. | In-memory lightweight coherency |
US9785481B2 (en) * | 2014-07-24 | 2017-10-10 | Qualcomm Innovation Center, Inc. | Power aware task scheduling on multi-processor systems |
US10691663B2 (en) * | 2014-09-16 | 2020-06-23 | Sap Se | Database table copy |
US9424092B2 (en) * | 2014-09-26 | 2016-08-23 | Microsoft Technology Licensing, Llc | Heterogeneous thread scheduling |
US9836277B2 (en) * | 2014-10-01 | 2017-12-05 | Samsung Electronics Co., Ltd. | In-memory popcount support for real time analytics |
CN105900064B (zh) * | 2014-11-19 | 2019-05-03 | 华为技术有限公司 | 调度数据流任务的方法和装置 |
CN104615488B (zh) * | 2015-01-16 | 2018-01-19 | 华为技术有限公司 | 异构多核可重构计算平台上任务调度的方法和装置 |
US10528443B2 (en) * | 2015-01-30 | 2020-01-07 | Samsung Electronics Co., Ltd. | Validation of multiprocessor hardware component |
US9542248B2 (en) | 2015-03-24 | 2017-01-10 | International Business Machines Corporation | Dispatching function calls across accelerator devices |
JP6588230B2 (ja) | 2015-05-12 | 2019-10-09 | 愛知株式会社 | 収納式テーブル |
US9983857B2 (en) * | 2015-06-16 | 2018-05-29 | Architecture Technology Corporation | Dynamic computational acceleration using a heterogeneous hardware infrastructure |
US10540588B2 (en) | 2015-06-29 | 2020-01-21 | Microsoft Technology Licensing, Llc | Deep neural network processing on hardware accelerators with stacked memory |
US10387314B2 (en) * | 2015-08-25 | 2019-08-20 | Oracle International Corporation | Reducing cache coherence directory bandwidth by aggregating victimization requests |
WO2017048294A1 (en) * | 2015-09-18 | 2017-03-23 | Hewlett Packard Enterprise Development Lp | Memory persistence from a volatile memory to a non-volatile memory |
US10031765B2 (en) * | 2015-09-24 | 2018-07-24 | Intel Corporation | Instruction and logic for programmable fabric hierarchy and cache |
US11036509B2 (en) | 2015-11-03 | 2021-06-15 | Intel Corporation | Enabling removal and reconstruction of flag operations in a processor |
US9996268B2 (en) * | 2015-12-18 | 2018-06-12 | Toshiba Memory Corporation | Memory system and control method of the same |
WO2017107118A1 (en) * | 2015-12-24 | 2017-06-29 | Intel Corporation | Facilitating efficient communication and data processing across clusters of computing machines in heterogeneous computing environment |
JP2017135698A (ja) * | 2015-12-29 | 2017-08-03 | 株式会社半導体エネルギー研究所 | 半導体装置、コンピュータ及び電子機器 |
US11079936B2 (en) * | 2016-03-01 | 2021-08-03 | Samsung Electronics Co., Ltd. | 3-D stacked memory with reconfigurable compute logic |
US9977609B2 (en) * | 2016-03-07 | 2018-05-22 | Advanced Micro Devices, Inc. | Efficient accesses of data structures using processing near memory |
CN106156851B (zh) * | 2016-06-24 | 2019-04-05 | 科大讯飞股份有限公司 | 面向深度学习业务的加速装置及方法 |
US10802992B2 (en) * | 2016-08-12 | 2020-10-13 | Xilinx Technology Beijing Limited | Combining CPU and special accelerator for implementing an artificial neural network |
US10198349B2 (en) * | 2016-09-19 | 2019-02-05 | Advanced Micro Devices, Inc. | Programming in-memory accelerators to improve the efficiency of datacenter operations |
US10416896B2 (en) * | 2016-10-14 | 2019-09-17 | Samsung Electronics Co., Ltd. | Memory module, memory device, and processing device having a processor mode, and memory system |
US20180115496A1 (en) * | 2016-10-21 | 2018-04-26 | Advanced Micro Devices, Inc. | Mechanisms to improve data locality for distributed gpus |
CN108022905A (zh) * | 2016-11-04 | 2018-05-11 | 超威半导体公司 | 使用多个金属层的转接板传输线 |
US20180173619A1 (en) * | 2016-12-21 | 2018-06-21 | Sandisk Technologies Llc | System and Method for Distributed Logical to Physical Address Mapping |
US11119923B2 (en) * | 2017-02-23 | 2021-09-14 | Advanced Micro Devices, Inc. | Locality-aware and sharing-aware cache coherence for collections of processors |
CN107102824B (zh) * | 2017-05-26 | 2019-08-30 | 华中科技大学 | 一种基于存储和加速优化的Hadoop异构方法和系统 |
US10489195B2 (en) * | 2017-07-20 | 2019-11-26 | Cisco Technology, Inc. | FPGA acceleration for serverless computing |
US10474600B2 (en) * | 2017-09-14 | 2019-11-12 | Samsung Electronics Co., Ltd. | Heterogeneous accelerator for highly efficient learning systems |
-
2017
- 2017-11-28 US US15/825,047 patent/US10474600B2/en active Active
-
2018
- 2018-05-22 TW TW107117305A patent/TWI754752B/zh active
- 2018-06-27 KR KR1020180074070A patent/KR20190030579A/ko active IP Right Grant
- 2018-08-10 CN CN201810909419.7A patent/CN109508316B/zh active Active
- 2018-09-13 JP JP2018171047A patent/JP7028745B2/ja active Active
-
2019
- 2019-10-07 US US16/595,452 patent/US11226914B2/en active Active
-
2022
- 2022-01-17 US US17/577,370 patent/US11921656B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003347470A (ja) * | 2002-05-24 | 2003-12-05 | Fujitsu Ltd | 半導体装置の製造方法 |
JP2010080802A (ja) * | 2008-09-29 | 2010-04-08 | Hitachi Ltd | 半導体装置 |
JP2015533009A (ja) * | 2012-09-25 | 2015-11-16 | インテル・コーポレーション | パフォーマンスおよび電力のために構成可能な3dメモリ |
WO2016209406A1 (en) * | 2015-06-26 | 2016-12-29 | Advanced Micro Devices, Inc. | Computer architecture using rapidly reconfigurable circuits and high-bandwidth memory interfaces |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021034008A (ja) * | 2019-08-13 | 2021-03-01 | 三星電子株式会社Samsung Electronics Co.,Ltd. | プロセッサチップ及びその制御方法 |
JP7164561B2 (ja) | 2019-08-13 | 2022-11-01 | 三星電子株式会社 | プロセッサチップ及びその制御方法 |
US11681904B2 (en) | 2019-08-13 | 2023-06-20 | Samsung Electronics Co., Ltd. | Processor chip and control methods thereof |
US11842265B2 (en) | 2019-08-13 | 2023-12-12 | Samsung Electronics Co., Ltd. | Processor chip and control methods thereof |
Also Published As
Publication number | Publication date |
---|---|
CN109508316A (zh) | 2019-03-22 |
US11226914B2 (en) | 2022-01-18 |
TWI754752B (zh) | 2022-02-11 |
US20220138132A1 (en) | 2022-05-05 |
US10474600B2 (en) | 2019-11-12 |
CN109508316B (zh) | 2023-08-18 |
US20200042477A1 (en) | 2020-02-06 |
JP7028745B2 (ja) | 2022-03-02 |
TW201915724A (zh) | 2019-04-16 |
KR20190030579A (ko) | 2019-03-22 |
US20190079886A1 (en) | 2019-03-14 |
US11921656B2 (en) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7028745B2 (ja) | 高効率ラーニングシステムのためのヘテロジニアスアクセラレータ | |
JP6228459B2 (ja) | システムコール要求の通信の最適化 | |
US8473715B2 (en) | Dynamic accelerator reconfiguration via compiler-inserted initialization message and configuration address and size information | |
US11663769B2 (en) | Game engine on a chip | |
US8478926B1 (en) | Co-processing acceleration method, apparatus, and system | |
US9582463B2 (en) | Heterogeneous input/output (I/O) using remote direct memory access (RDMA) and active message | |
KR102240774B1 (ko) | 지역 베이스보드 관리 제어기를 이용하여 패브릭 시스템에 걸쳐 불휘발성 메모리 익스프레스 내에서 공유된 그래픽 처리부 자원들을 할당하는 방법 | |
JP6086868B2 (ja) | ユーザモードからのグラフィックス処理ディスパッチ | |
US20190043536A1 (en) | Sector-Aligned Memory Accessible to Programmable Logic Fabric of Programmable Logic Device | |
EP2652611A1 (en) | Device discovery and topology reporting in a combined cpu/gpu architecture system | |
TWI825033B (zh) | 用於查找計算人工智慧加速器的裝置及多晶片模組 | |
WO2012083012A1 (en) | Device discovery and topology reporting in a combined cpu/gpu architecture system | |
US10037225B2 (en) | Method and system for scheduling computing | |
CN113094326A (zh) | 处理器控制的可编程逻辑器件修改 | |
US20130160017A1 (en) | Software Mechanisms for Managing Task Scheduling on an Accelerated Processing Device (APD) | |
CN114968371A (zh) | 用于为不同的应用域配置并行处理器的技术 | |
JP2014503899A (ja) | コンピュータシステムインタラプト処理 | |
CN110837419A (zh) | 基于弹性批处理的推理引擎系统、方法及电子设备 | |
US11989144B2 (en) | Centralized interrupt handling for chiplet processing units | |
US20220058062A1 (en) | System resource allocation for code execution | |
US20230195664A1 (en) | Software management of direct memory access commands |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210721 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210721 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220118 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7028745 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |