JP2020537786A - 複数のプロセッサおよびニューラルネットワークアクセラレータを有するニューラルネットワーク処理システム - Google Patents
複数のプロセッサおよびニューラルネットワークアクセラレータを有するニューラルネットワーク処理システム Download PDFInfo
- Publication number
- JP2020537786A JP2020537786A JP2020521420A JP2020521420A JP2020537786A JP 2020537786 A JP2020537786 A JP 2020537786A JP 2020521420 A JP2020521420 A JP 2020521420A JP 2020521420 A JP2020521420 A JP 2020521420A JP 2020537786 A JP2020537786 A JP 2020537786A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- processor element
- subset
- data set
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Advance Control (AREA)
Abstract
Description
機械学習は、明示的にプログラムされていなくとも動作するようコンピューティングシステムを誘導する科学である。古典的な機械学習は、K平均クラスタリング、線形回帰およびロジスティック回帰、確率的勾配降下法、相関規則学習などを含むさまざまなクラスタリングおよび分類技術を含む。深層学習は、機械学習におけるより新しいフロンティアである。深層学習は、特徴抽出および変換のために非線形処理ユニットの複数の層を使用する、ある種の機械学習アルゴリズムである。深層学習アルゴリズムは、教師なし(たとえばパターン分析)または教師あり(たとえば分類)アルゴリズムとすることができる。深層学習アルゴリズムは、人工ニューラルネットワーク(artificial neural network)(ANN)(本明細書では「ニューラルネットワーク」と呼ぶ)の層を使用して実装することができる。
開示されているニューラルネットワーク処理システムは、共有メモリと、少なくとも1つのニューラルネットワークアクセラレータと、ホストコンピュータシステムとを備える。ニューラルネットワークアクセラレータは、入力データセットに対してニューラルネットワークの層の第1のサブセットの演算を実行し、中間データセットを生成し、中間データセットを共有メモリの共有メモリキューに格納するように、構成されている。ホストコンピュータシステムは、第1のプロセッサ要素と第2のプロセッサ要素とを有する。第1のプロセッサ要素は、入力データをニューラルネットワークアクセラレータに与えることと、ニューラルネットワークアクセラレータに対し、入力データセットに対するニューラルネットワークの層の第1のサブセットの演算を実行するようシグナリングすることとを第1のプロセッサ要素に実行させる命令を、実行するように構成されている。第2のプロセッサ要素は、中間データセットを共有メモリキューから読み出すことと、ニューラルネットワークアクセラレータが別の入力データセットに対してニューラルネットワークの層の第1のサブセットの演算を実行している間に、中間データセットに対してニューラルネットワークの層の第2のサブセットの演算を実行し出力データセットを生成することとを第2のプロセッサ要素に実行させる命令を、実行するように構成されている。
いくつかの実施形態において、少なくとも1つのニューラルネットワークアクセラレータは、フィールドプログラマブルゲートアレイおよびグラフィック処理ユニットを含み得る。
Claims (15)
- ニューラルネットワーク処理システムであって、
共有メモリと、
前記共有メモリに結合された少なくとも1つのニューラルネットワークアクセラレータとを備え、前記少なくとも1つのニューラルネットワークアクセラレータは、入力データセットに対してニューラルネットワークの層の第1のサブセットの演算を実行し、中間データセットを生成し、前記中間データセットを前記共有メモリの共有メモリキューに格納するように構成されており、前記ニューラルネットワーク処理システムはさらに、
前記共有メモリに結合され第1のプロセッサ要素と第2のプロセッサ要素とを有するホストコンピュータシステムを備え、
前記第1のプロセッサ要素は、前記第1のプロセッサ要素に動作を実行させる命令を実行するように構成されており、前記動作は、
入力データを前記少なくとも1つのニューラルネットワークアクセラレータに与えることと、
前記少なくとも1つのニューラルネットワークアクセラレータに対し、前記入力データセットに対する前記ニューラルネットワークの前記層の第1のサブセットの前記演算を実行するようシグナリングすることとを含み、
前記第2のプロセッサ要素は、前記第2のプロセッサ要素に動作を実行させる命令を実行するように構成されており、前記動作は、
前記中間データセットを前記共有メモリキューから読み出すことと、
前記ニューラルネットワークアクセラレータが別の入力データセットに対して前記ニューラルネットワークの前記層の第1のサブセットの前記演算を実行している間に、前記中間データセットに対して前記ニューラルネットワークの層の第2のサブセットの演算を実行し出力データセットを生成することとを含む、ニューラルネットワーク処理システム。 - 前記第1のプロセッサ要素に、前記入力データを前記少なくとも1つのニューラルネットワークアクセラレータに与えることを実行させる命令は、前記第1のプロセッサ要素に、第1の時間に第1の入力データセットを、第1の時間よりも後の第2の時間に第2の入力データセットを、前記少なくとも1つのニューラルネットワークアクセラレータに与えることを実行させ、
前記第2のプロセッサ要素に、前記層の第2のサブセットの前記演算を実行させる命令は、前記第2のプロセッサ要素に、前記少なくとも1つのニューラルネットワークアクセラレータが前記第2の入力データセットに対して前記ニューラルネットワークの前記層の第1のサブセットの前記演算を実行するのと並行して、前記第1の入力データセットに対して前記層の第2のサブセットの前記演算を実行させる命令を含む、請求項1に記載のニューラルネットワーク処理システム。 - 前記第2のプロセッサ要素に、前記中間データセットを前記共有メモリキューから読み出すことを実行させる命令は、前記第2のプロセッサ要素に、前記読み出しの後に前記共有メモリキューが空であることを前記第1のプロセッサ要素に対してシグナリングすることを実行させる命令を含む、請求項1に記載のニューラルネットワーク処理システム。
- 前記第1のプロセッサ要素はさらに、前記少なくとも1つのニューラルネットワークアクセラレータが前記入力データに対する前記ニューラルネットワークの前記層の第1のサブセットの実行を完了したときに前記共有メモリキューが満杯であることを前記第2のプロセッサ要素に対してシグナリングすることを前記第1のプロセッサ要素に実行させる命令を、実行するように構成されており、
前記第2のプロセッサ要素は、前記第1のプロセッサ要素からの前記シグナリングに応じて前記中間データセットを前記共有メモリキューから読み出すことを前記第2のプロセッサ要素に実行させる命令を、実行するように構成されている、請求項3に記載のニューラルネットワーク処理システム。 - 前記第1のプロセッサ要素はさらに、前記中間データセットを第1のフォーマットから第2のフォーマットに変換することを前記第1のプロセッサ要素に実行させる命令を、実行するように構成されている、または、前記第2のプロセッサ要素はさらに、前記中間データセットを第1のフォーマットから第2のフォーマットに変換することを前記第2のプロセッサ要素に実行させる命令を、実行するように構成されている、請求項1に記載のニューラルネットワーク処理システム。
- 前記第1のプロセッサ要素はさらに、
前記第1のプロセッサ要素または前記第2のプロセッサ要素のいずれが変換を実行するように構成されることが割り当てられているかを判断することと、
前記第1のプロセッサ要素が前記変換を実行するよう割り当てられているという判断に応じて、前記中間データセットを第1のフォーマットから第2のフォーマットに変換することとを、前記第1のプロセッサ要素に実行させる命令を、実行するように構成されており、
前記第2のプロセッサ要素はさらに、
前記第1のプロセッサ要素または前記第2のプロセッサ要素のいずれが前記変換を実行するように構成されることが割り当てられているかを判断することと、
前記第2のプロセッサ要素が前記変換を実行するよう割り当てられているという判断に応じて、前記中間データセットを前記第1のフォーマットから前記第2のフォーマットに変換することとを、前記第2のプロセッサ要素に実行させる命令を、実行するように構成されている、請求項1に記載のニューラルネットワーク処理システム。 - 前記層の第1のサブセットは畳み込み層およびマックスプーリング層を含み、前記層の第2のサブセットは全結合層を含む、請求項1に記載のニューラルネットワーク処理システム。
- 前記層の第2のサブセットはソフトマックス層を含む、請求項7に記載のニューラルネットワーク処理システム。
- 方法であって、
ホストコンピュータシステムの第1のプロセッサ要素が、入力データをニューラルネットワークアクセラレータに与えるステップと、
前記第1のプロセッサ要素が、前記入力データに対してニューラルネットワークの層の第1のサブセットの演算を実行するよう前記ニューラルネットワークアクセラレータに対してシグナリングするステップと、
前記ニューラルネットワークアクセラレータが、前記入力データセットに対して前記ニューラルネットワークの前記層の第1のサブセットの前記演算を実行するステップと、
前記ニューラルネットワークアクセラレータが中間データセットを生成するステップと、
前記ニューラルネットワークアクセラレータが前記中間データセットを共有メモリの共有メモリキューに格納するステップと、
前記ホストコンピュータシステムの第2のプロセッサ要素が、前記中間データセットを前記共有メモリキューから読み出すステップと、
前記ニューラルネットワークアクセラレータが別の入力データセットに対して前記ニューラルネットワークの前記層の第1のサブセットの前記演算を実行している間に、前記第2のプロセッサ要素が前記中間データセットに対して前記ニューラルネットワークの層の第2のサブセットの演算を実行するステップと、
前記第2のプロセッサ要素が出力データを生成するステップとを含む、方法。 - 前記入力データを前記ニューラルネットワークアクセラレータに与えるステップは、前記第1のプロセッサ要素が、第1の時間に第1の入力データセットを、第1の時間よりも後の第2の時間に第2の入力データセットを、前記ニューラルネットワークアクセラレータに与えるステップを含み、
前記層の第2のサブセットの前記演算を実行するステップは、前記ニューラルネットワークアクセラレータが前記第2の入力データセットに対して前記ニューラルネットワークの前記層の第1のサブセットの前記演算を実行するのと並行して、前記第1の入力データセットに対して前記層の第2のサブセットの前記演算を実行するステップを含む、請求項9に記載の方法。 - 前記中間データセットを前記共有メモリキューから読み出すステップは、前記読み出しの後に前記共有メモリキューが空であることを前記第1のプロセッサ要素に対してシグナリングするステップを含む、請求項9に記載の方法。
- 前記第1のプロセッサ要素が、前記ニューラルネットワークアクセラレータが前記入力データに対する前記ニューラルネットワークの前記層の第1のサブセットの実行を完了したときに前記共有メモリキューが満杯であることを前記第2のプロセッサ要素に対してシグナリングするステップと、
前記第2のプロセッサ要素が、前記第1のプロセッサ要素からの前記シグナリングに応じて前記中間データセットを前記共有メモリキューから読み出すステップとをさらに含む、請求項9に記載の方法。 - 前記第1のプロセッサ要素が前記中間データセットを第1のフォーマットから第2のフォーマットに変換するステップ、または、前記第2のプロセッサ要素が前記中間データセットを第1のフォーマットから第2のフォーマットに変換するステップをさらに含む、請求項12に記載の方法。
- 前記第1のプロセッサ要素が、前記第1のプロセッサ要素または前記第2のプロセッサ要素のいずれが変換を実行するように構成されることが割り当てられているかを判断するステップと、
前記第1のプロセッサ要素が前記変換を実行するよう割り当てられているという判断に応じて、前記第1のプロセッサ要素が、前記中間データセットを第1のフォーマットから第2のフォーマットに変換するステップと、
前記第2のプロセッサ要素が、前記第1のプロセッサ要素または前記第2のプロセッサ要素のいずれが前記変換を実行するように構成されることが割り当てられているかを判断するステップと、
前記第2のプロセッサ要素が前記変換を実行するよう割り当てられているという判断に応じて、前記第2のプロセッサ要素が、前記中間データセットを前記第1のフォーマットから前記第2のフォーマットに変換するステップとをさらに含む、請求項9に記載の方法。 - 前記層の第1のサブセットは畳み込み層およびマックスプーリング層を含み、前記層の第2のサブセットは全結合層を含む、請求項9に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/785,685 US11222256B2 (en) | 2017-10-17 | 2017-10-17 | Neural network processing system having multiple processors and a neural network accelerator |
US15/785,685 | 2017-10-17 | ||
PCT/US2018/052831 WO2019079006A1 (en) | 2017-10-17 | 2018-09-26 | NEURONAL NETWORK PROCESSING SYSTEM HAVING MULTIPLE PROCESSORS AND NEURONAL NETWORK ACCELERATOR |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020537786A true JP2020537786A (ja) | 2020-12-24 |
JP7196168B2 JP7196168B2 (ja) | 2022-12-26 |
Family
ID=63858143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020521420A Active JP7196168B2 (ja) | 2017-10-17 | 2018-09-26 | 複数のプロセッサおよびニューラルネットワークアクセラレータを有するニューラルネットワーク処理システム |
Country Status (6)
Country | Link |
---|---|
US (1) | US11222256B2 (ja) |
EP (1) | EP3698293A1 (ja) |
JP (1) | JP7196168B2 (ja) |
KR (1) | KR102562715B1 (ja) |
CN (1) | CN111226230B (ja) |
WO (1) | WO2019079006A1 (ja) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10474458B2 (en) | 2017-04-28 | 2019-11-12 | Intel Corporation | Instructions and logic to perform floating-point and integer operations for machine learning |
KR102481256B1 (ko) * | 2017-08-31 | 2022-12-23 | 캠브리콘 테크놀로지스 코퍼레이션 리미티드 | 칩 장치 및 관련 제품 |
US20190114548A1 (en) * | 2017-10-17 | 2019-04-18 | Xilinx, Inc. | Static block scheduling in massively parallel software defined hardware systems |
WO2019114842A1 (zh) | 2017-12-14 | 2019-06-20 | 北京中科寒武纪科技有限公司 | 一种集成电路芯片装置 |
CN108446096B (zh) | 2018-03-21 | 2021-01-29 | 杭州中天微系统有限公司 | 数据计算系统 |
US10795729B2 (en) * | 2018-04-28 | 2020-10-06 | Cambricon Technologies Corporation Limited | Data accelerated processing system |
US11740932B2 (en) * | 2018-05-04 | 2023-08-29 | Apple Inc. | Systems and methods for task switching in neural network processor |
JP6912421B2 (ja) * | 2018-06-01 | 2021-08-04 | ファナック株式会社 | 制御装置 |
KR20200053886A (ko) * | 2018-11-09 | 2020-05-19 | 삼성전자주식회사 | 뉴럴 프로세싱 유닛, 뉴럴 프로세싱 시스템, 및 어플리케이션 시스템 |
US11934342B2 (en) | 2019-03-15 | 2024-03-19 | Intel Corporation | Assistance for hardware prefetch in cache access |
US20220121421A1 (en) | 2019-03-15 | 2022-04-21 | Intel Corporation | Multi-tile memory management |
DE112020001249T5 (de) * | 2019-03-15 | 2021-12-23 | Intel Corporation | Dünnbesetzt-Optimierungen für eine Matrixbeschleunigerarchitektur |
CN111832736B (zh) * | 2019-04-19 | 2024-04-12 | 伊姆西Ip控股有限责任公司 | 用于处理机器学习模型的方法、设备和计算机可读存储介质 |
CN110209506B (zh) * | 2019-05-09 | 2021-08-17 | 上海联影医疗科技股份有限公司 | 数据处理系统、方法、计算机设备及可读存储介质 |
CN113490943B (zh) * | 2019-07-31 | 2023-03-10 | 华为技术有限公司 | 一种集成芯片以及处理传感器数据的方法 |
CN112418389A (zh) * | 2019-08-23 | 2021-02-26 | 北京希姆计算科技有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
US11397694B2 (en) | 2019-09-17 | 2022-07-26 | Micron Technology, Inc. | Memory chip connecting a system on a chip and an accelerator chip |
US11366979B2 (en) * | 2019-11-14 | 2022-06-21 | Alibaba Group Holding Limited | Using selected components of frequency domain image data in artificial intelligence tasks |
US11663746B2 (en) * | 2019-11-15 | 2023-05-30 | Intel Corporation | Systolic arithmetic on sparse data |
US11544113B2 (en) * | 2019-11-20 | 2023-01-03 | Google Llc | Task scheduling for machine-learning workloads |
US11455144B1 (en) | 2019-11-21 | 2022-09-27 | Xilinx, Inc. | Softmax calculation and architecture using a modified coordinate rotation digital computer (CORDIC) approach |
US11861485B2 (en) * | 2019-11-22 | 2024-01-02 | Baidu Usa Llc | Data format transform method to improve AI engine MAC utilization |
US11537864B2 (en) * | 2019-11-26 | 2022-12-27 | Apple Inc. | Reduction mode of planar engine in neural processor |
WO2021137669A1 (ko) * | 2019-12-30 | 2021-07-08 | 매니코어소프트주식회사 | 딥러닝을 위한 가속기용 프로그램 생성 방법 |
US20210216868A1 (en) * | 2020-01-08 | 2021-07-15 | Maxim Integrated Products, Inc. | Systems and methods for reducing memory requirements in neural networks |
CN111352896B (zh) * | 2020-03-03 | 2022-06-24 | 腾讯科技(深圳)有限公司 | 人工智能加速器、设备、芯片以及数据处理方法 |
CN113570028A (zh) * | 2020-04-28 | 2021-10-29 | 超威半导体公司 | 用于在神经网络中处理数据的静态生成的经编译表示 |
US11783163B2 (en) * | 2020-06-15 | 2023-10-10 | Arm Limited | Hardware accelerator for IM2COL operation |
US11836645B2 (en) * | 2020-06-15 | 2023-12-05 | Nvidia Corporation | Generating augmented sensor data for testing operational capability in deployed environments |
US11875261B2 (en) | 2020-10-16 | 2024-01-16 | Ford Global Technologies, Llc | Automated cross-node communication in distributed directed acyclic graph |
KR20220052771A (ko) * | 2020-10-21 | 2022-04-28 | 삼성전자주식회사 | 전자 장치 및 그 동작방법 |
KR102383962B1 (ko) * | 2020-11-19 | 2022-04-07 | 한국전자기술연구원 | 가변 데이터 압축/복원기를 포함하는 딥러닝 가속 장치 |
CN116151345B (zh) * | 2023-04-20 | 2023-09-26 | 西安紫光展锐科技有限公司 | 数据传输方法、装置、电子设备及存储介质 |
CN116451757B (zh) * | 2023-06-19 | 2023-09-08 | 山东浪潮科学研究院有限公司 | 一种神经网络模型的异构加速方法、装置、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016077393A1 (en) * | 2014-11-12 | 2016-05-19 | Xilinx, Inc. | Heterogeneous multiprocessor program compilation targeting programmable integrated circuits |
US20160210167A1 (en) * | 2013-09-24 | 2016-07-21 | University Of Ottawa | Virtualization of hardware accelerator |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6346825B1 (en) | 2000-10-06 | 2002-02-12 | Xilinx, Inc. | Block RAM with configurable data width and parity for use in a field programmable gate array |
US8117137B2 (en) * | 2007-04-19 | 2012-02-14 | Microsoft Corporation | Field-programmable gate array based accelerator system |
US8131659B2 (en) | 2008-09-25 | 2012-03-06 | Microsoft Corporation | Field-programmable gate array based accelerator system |
US9153230B2 (en) | 2012-10-23 | 2015-10-06 | Google Inc. | Mobile speech recognition hardware accelerator |
JP6817195B2 (ja) * | 2014-09-13 | 2021-01-20 | アドバンスド エレメンタル テクノロジーズ,インコーポレイティド | セキュアで信頼性があるアイデンティティベースコンピューティングの方法及びシステム |
US9218443B1 (en) * | 2014-11-12 | 2015-12-22 | Xilinx, Inc. | Heterogeneous multiprocessor program compilation targeting programmable integrated circuits |
CN106355246B (zh) * | 2015-10-08 | 2019-02-15 | 上海兆芯集成电路有限公司 | 三配置神经网络单元 |
CN105488565A (zh) * | 2015-11-17 | 2016-04-13 | 中国科学院计算技术研究所 | 加速深度神经网络算法的加速芯片的运算装置及方法 |
US10621486B2 (en) | 2016-08-12 | 2020-04-14 | Beijing Deephi Intelligent Technology Co., Ltd. | Method for optimizing an artificial neural network (ANN) |
US10175980B2 (en) | 2016-10-27 | 2019-01-08 | Google Llc | Neural network compute tile |
US11410024B2 (en) * | 2017-04-28 | 2022-08-09 | Intel Corporation | Tool for facilitating efficiency in machine learning |
-
2017
- 2017-10-17 US US15/785,685 patent/US11222256B2/en active Active
-
2018
- 2018-09-26 CN CN201880067598.2A patent/CN111226230B/zh active Active
- 2018-09-26 WO PCT/US2018/052831 patent/WO2019079006A1/en unknown
- 2018-09-26 JP JP2020521420A patent/JP7196168B2/ja active Active
- 2018-09-26 EP EP18786567.0A patent/EP3698293A1/en active Pending
- 2018-09-26 KR KR1020207013515A patent/KR102562715B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160210167A1 (en) * | 2013-09-24 | 2016-07-21 | University Of Ottawa | Virtualization of hardware accelerator |
WO2016077393A1 (en) * | 2014-11-12 | 2016-05-19 | Xilinx, Inc. | Heterogeneous multiprocessor program compilation targeting programmable integrated circuits |
Non-Patent Citations (3)
Title |
---|
JIANTAO QIU ET AL.: "Going Deeper with Embedded FPGA Platform for Convolutional Neural Network", PROCEEDINGS OF THE 2016 ACM/SIGDA INTERNATIONAL SYMPOSIUM ON FIELD-PROGRAMMABLE GATE ARRAYS, JPN7022005327, February 2016 (2016-02-01), pages 26 - 35, XP055423746, ISSN: 0004920640, DOI: 10.1145/2847263.2847265 * |
YANGYANG ZHAO ET AL.: "PIE: A Pipeline Energy-Efficient Accelerator for Inference Process in Deep Neural Networks", 2016 IEEE 22ND INTERNATIONAL CONFERENCE ON PARALLEL AND DISTRIBUTED SYSTEMS (ICPADS), JPN6022048311, December 2016 (2016-12-01), pages 1067 - 1074, XP033048461, ISSN: 0004920641, DOI: 10.1109/ICPADS.2016.0141 * |
大場 百香: "マルチコアニューラルネットワークアクセラレータにおけるデータ転送のブロードキャスト化", 電子情報通信学会技術研究報告, vol. 116, no. 510, JPN6022048312, 2 March 2017 (2017-03-02), pages 165 - 170, ISSN: 0004920642 * |
Also Published As
Publication number | Publication date |
---|---|
JP7196168B2 (ja) | 2022-12-26 |
CN111226230B (zh) | 2023-10-03 |
KR20200062323A (ko) | 2020-06-03 |
KR102562715B1 (ko) | 2023-08-01 |
US11222256B2 (en) | 2022-01-11 |
CN111226230A (zh) | 2020-06-02 |
WO2019079006A1 (en) | 2019-04-25 |
EP3698293A1 (en) | 2020-08-26 |
US20190114534A1 (en) | 2019-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7196168B2 (ja) | 複数のプロセッサおよびニューラルネットワークアクセラレータを有するニューラルネットワーク処理システム | |
KR102650299B1 (ko) | 대규모 병렬 소프트웨어로 정의된 하드웨어 시스템에서의 정적 블록 스케줄링 | |
US11429848B2 (en) | Host-directed multi-layer neural network processing via per-layer work requests | |
JP7277449B2 (ja) | 汎用化画像処理の画像前処理 | |
JP7196167B2 (ja) | ホスト通信されるマージされた重みと層単位命令のパッケージとを使用するニューラルネットワークアクセラレータによる多層ニューラルネットワーク処理 | |
US11568218B2 (en) | Neural network processing system having host controlled kernel acclerators | |
US10942716B1 (en) | Dynamic computational acceleration using a heterogeneous hardware infrastructure | |
JP2020537784A (ja) | ニューラルネットワークアクセラレーションのための機械学習ランタイムライブラリ | |
US10354733B1 (en) | Software-defined memory bandwidth reduction by hierarchical stream buffering for general matrix multiplication in a programmable IC | |
US10515135B1 (en) | Data format suitable for fast massively parallel general matrix multiplication in a programmable IC | |
US11036827B1 (en) | Software-defined buffer/transposer for general matrix multiplication in a programmable IC | |
US11875247B1 (en) | Input batching with serial dynamic memory access | |
US20210209462A1 (en) | Method and system for processing a neural network | |
CN112214443A (zh) | 设置于图形处理器中的二次卸载装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200617 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210922 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221007 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7196168 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |