JP2020518042A - 処理装置と処理方法 - Google Patents

処理装置と処理方法 Download PDF

Info

Publication number
JP2020518042A
JP2020518042A JP2019549467A JP2019549467A JP2020518042A JP 2020518042 A JP2020518042 A JP 2020518042A JP 2019549467 A JP2019549467 A JP 2019549467A JP 2019549467 A JP2019549467 A JP 2019549467A JP 2020518042 A JP2020518042 A JP 2020518042A
Authority
JP
Japan
Prior art keywords
data
bit
multiplier
calculation
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019549467A
Other languages
English (en)
Other versions
JP6865847B2 (ja
Inventor
ティエンシ チェン
ティエンシ チェン
ジエ ウェイ
ジエ ウェイ
ティエン ズ
ティエン ズ
ザイ ワン
ザイ ワン
シャオリ リォウ
シャオリ リォウ
ユィジョ ルオ
ユィジョ ルオ
チ グオ
チ グオ
ウェイ リ
ウェイ リ
ションユィエン ジョウ
ションユィエン ジョウ
ズドン ドゥ
ズドン ドゥ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Cambricon Information Technology Co Ltd
Original Assignee
Shanghai Cambricon Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201710256445.XA external-priority patent/CN108733412B/zh
Priority claimed from CN201710269049.0A external-priority patent/CN108734288B/zh
Priority claimed from CN201710264686.9A external-priority patent/CN108733408A/zh
Priority claimed from CN201710269106.5A external-priority patent/CN108734281A/zh
Application filed by Shanghai Cambricon Information Technology Co Ltd filed Critical Shanghai Cambricon Information Technology Co Ltd
Publication of JP2020518042A publication Critical patent/JP2020518042A/ja
Application granted granted Critical
Publication of JP6865847B2 publication Critical patent/JP6865847B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/3001Arithmetic instructions
    • G06F9/30014Arithmetic instructions with variable precision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing
    • G06F7/523Multiplying only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/46Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using electromechanical counter-type accumulators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/50Adding; Subtracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing
    • G06F7/523Multiplying only
    • G06F7/527Multiplying only in serial-parallel fashion, i.e. one operand being entered serially and the other in parallel
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing
    • G06F7/523Multiplying only
    • G06F7/533Reduction of the number of iteration steps or stages, e.g. using the Booth algorithm, log-sum, odd-even
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • G06F7/5443Sum of products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/3001Arithmetic instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • G06N3/065Analogue means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Neurology (AREA)
  • Complex Calculations (AREA)
  • Executing Machine-Instructions (AREA)
  • Image Analysis (AREA)

Abstract

計算ビット幅を動的に配置可能な処理装置であって、データ記憶に利用するメモリ、ここで、前記データは演算予定データ、中間演算結果、最終演算結果、キャッシュ予定データを含み;演算予定データ、中間演算結果、最終演算結果及び/又はキャッシュ予定データの幅の調節に用いられるデータ幅調節回路;演算予定データの操作に用いられる演算回路、ここで、加法器回路と乗法器を利用して計算ビット幅が異なる演算予定データに対する演算を含み;メモリとデータ幅調節回路、演算回路を制御するのに用いられる制御回路を含む。本発明の装置は柔軟性が強く、配置可能性が高く、演算スピードが速く電力消費が少ない利点を持っている。【選択図】図1

Description

本発明はコンピュータの分野に関し、特に人工知能分野の処理装置と処理方法に関する。
近年、ビッグデータ時代の到来により、ニューラルネットワークアルゴリズムは、人工知能分野で重点研究プロジェクトとなっており、パターン識別と画像解析、知能ロボットなどで広く応用されている。
深層学習方法は、機械学習のなかでデータに対する特長学習の進行に基づく一つの方法である。観測値(例えば、画像)は、各ピクセル強度値のベクトル、またはより抽象的に一連のエッジと特定形態で表示される領域などが挙げられる。ある特定な表示方法を利用して実例を介してより簡単に学習させることができる(例えば表情認識や顔認識)。
今日に来て、深層ニューラルネットワークとニューラルネットワークのコンボリューション、深層信念ニューラルネットワーク、再帰ニューラルネットワークなどのいくつかの深層学習フレーム図がコンピュータビジョン、音声識別、自然言語処理、音響識別、生物情報学などの分野で既に利用され、すぐれた結果をもたらした。深層学習は、既にほとんど専門用語、または、ニューラルネットワークと呼ばれるまでになった。
深層学習(ニューラルネットワーク)に対する研究が活発化するにつれ、ニューラルネットワーク加速器が同時に出現し、専用メモリと演算モジュールの設計を通じてニューラルネットワーク加速器は、深層学習演算を行うとき、汎用プロセッサに比べ数十倍ひいては数百倍の高速に達し、小面積化と低消費電力化を達成した。
本発明は、計算ビット幅の動的な配置が可能な処理装置を提供し、
ニューラルネットワークの演算予定データ、中間演算結果、最終演算結果、キャッシュ予定データを含むデータの記憶に用いられるメモリと、
前記演算予定データ、中間演算結果、最終演算結果及び/又はキャッシュ予定データの幅の調節に用いられるデータ幅調節回路と、
ニューラルネットワークの演算予定データに対する演算に用いられる演算回路と、
メモリ、データ幅調節回路、演算回路の制御に用いられる制御回路と、を含む。
本発明は更に、計算ビット幅の動的な配置が可能な処理装置の使用方法を提供し、以下のステップを含む:
制御回路は、制御命令を生成してメモリ、データ幅調節回路と演算回路に伝送し、
メモリは、受信した制御命令に基づいて演算回路にニューラルネットワークの演算予定データを入力し、
データ幅調節回路は、受信した制御命令に基づいてニューラルネットワークの演算予定データの幅を調節し、
演算回路は受信した制御命令に基づいて、第1演算モジュール中の対応する類型の乗法器と加法器回路を選択し、
演算回路は、入力された演算予定データとニューラルネットワークのパラメータ及び制御命令に基づいて、計算ビット幅が異なるニューラルネットワークの演算予定データに対して演算を行う。
本発明は更に処理装置を提供し、データの記憶に利用されるメモリ、前記データは、ニューラルネットワークの演算予定データを含み;ニューラルネットワークの演算予定データに対する演算に利用される演算回路、加法器回路と乗法器を利用して計算ビット幅が異なるニューラルネットワークの演算予定データの計算を含み;メモリと演算回路の制御に利用される制御回路、演算予定データに基づいて演算回路の乗法器と加法器回路の類型を選択して演算を行い、演算結果をメモリにリターンさせる。
本発明は更に前記処理装置を使用する方法を提供し、次のステップを含む:制御回路は制御命令を生成して、メモリと演算回路に伝送し;メモリは受信した制御命令に基づいて演算回路にニューラルネットワークの演算予定データを入力し;演算回路は入力された制御命令に基づいて、第1演算モジュール中の対応する類型の乗法器と加法器回路を選択し;演算回路は入力された演算予定データとニューラルネットワークのパラメータ及び制御命令に基づいて、計算ビット幅が異なるニューラルネットワークの演算予定データに対する演算を行い、演算結果をメモリにリターンさせる。
本発明は更に演算装置を提供し、入力データの取得に利用される入力モジュール、該入力データは、処理予定データ、ネットワーク構造、ウェイトデータを含み、または、該入力データは、処理予定データ及び/又はオフラインモデルデータを含み;入力されるネットワーク構造とウェイトデータに基づいてオフラインモデルの生成に用いられるモデル生成モジュール;オフラインモデルに基づいて演算命令を生成しながらキャッシュ記憶させ、演算命令に基づいて演算予定データに対する演算を行い、演算結果の取得に用いられるニューラルネットワーク演算モジュール;前記演算結果の出力に用いられる出力モジュール;入力データの類型を検出しながら入力モジュールとモデル生成モジュール、ニューラルネットワーク演算モジュールの制御と演算に用いられる制御モジュール;を含む。
本発明は更に前記演算装置を利用した演算方法を提供し、次のステップを含む:
入力データの取得;
オフラインモデルの取得、或いは、入力データに基づいてオフラインモデルを確定し、オフラインモデルに基づいて演算命令を確定し、次の計算で呼出できるようにする;
前記演算命令を呼び出して、処理予定データに対する演算を行って演算結果を求めて出力する。
本発明は、複合スカラ命令をサポートする装置を提供し、制御装置モジュール、記憶モジュール、演算装置モジュールを含み、ここで、前記記憶モジュールは、複合スカラ命令とデータの記憶に用いられ、前記データは一種類以上あり、相異なる類型のデータは、記憶モジュールの相異なるアドレスに記憶され;前記制御装置モジュールは、記憶モジュールから複合スカラ命令を読み出し且つ制御命令への解読に用いられ;前記演算装置モジュールは制御命令を受信し、前記記憶モジュールからデータを読出し、読出しデータのアドレスに基づいてデータの類型を判断し、且つ、データに対して演算する。
本発明は更に複合スカラ命令の実行に利用するプロセッサを提供し、ここで、この複合スカラ命令は、操作コードフィールド、オペランドアドレスフィールド、宛先アドレスフィールドを含み;前記操作コードフィールドに記憶される操作コードは、異なる類型の操作の区別に利用され、前記オペランドアドレスフィールドは、オペランドの類型の区別に利用され、前記宛先アドレスフィールドは、演算結果が記憶されるアドレスである。
本発明は更に複合スカラ命令に対する実行方法を提供し、次のステップを含む:異なる類型のデータを異なるアドレスに記憶させ;複合スカラ命令を制御命令として解読し;
制御命令に基づいて操作データを読み出し、読み出した操作データのアドレスに基づいて操作データの類型を判断し、操作データに対して演算を行い;演算結果を対応する類型のアドレスに記憶させる。
本発明は更に計算装置を提供し、レジスタユニット、カウントユニット、記憶ユニットを含み、ここで、レジスタユニットは、カウントしようとする入力データが記憶ユニットに記憶されているアドレスを記録し;カウントユニットはレジスタユニットに連結され、カウント命令の取得に用いられ、カウント命令に従ってレジスタユニットから入力データのメモリアドレスを読み出し、記憶ユニットでカウントしようとする対応の入力データを取得し、且つ、入力データの中で与えられた条件を満足させるエレメント数を統計カウントしてカウント結果を得られ;記憶ユニットはカウントユニット連結され、カウントしようとする対応の入力データ及び前記カウント結果を記憶するのに用いられる。
本発明は更に前記カウント装置のカウント方法を提供し、次のステップを含む:カウントユニットはカウント命令を取得し、カウント命令がレジスタユニットから読み出した入力データのメモリアドレスに基づいて記憶ユニットでカウントしようとする対応の入力データ読み出しながら入力データのなかで与えられた条件を満足させるエレメント数を統計カウントして、カウント結果を取得し;統計したカウント結果を記憶ユニットに伝送する。
本発明の実施形態における技術的方法をより正確に説明するために、以下、実施例における使用すべき図面について簡単に紹介する。当然ながら、これら図面は、本発明の一部の実施例に過ぎず、当業者にとって、創造的努力をしない前提で、これら図面に基づいてほかの図面を取得することができる。
図1は、本発明の実施例で提供する計算ビット幅を動的に配置できる処理装置の構造原理図である。 図2は、本発明の実施例で提供する計算ビット幅を動的に配置できる処理装置の構造原理図である。 図3は、本発明の実施例で提供する計算ビット幅を動的に配置できる処理装置の構造原理図である。 図4は、本発明のほかの実施例で提供する計算ビット幅を動的に配置できる処理装置の構造原理図である。 図5は、本発明の更にほかの実施例でこの装置に利用するビットシリアル加算ツリー装置の原理図である。 図6は、本発明で提供する計算ビット幅を動的に配置できる処理装置の中にあるビットシリアル演算装置の構成原理図である。 図7は、本発明で提供するある実施例にある第1ベース乗法器の構造原理図である。 図8は、本発明で提供するある実施例にある第2ベース乗法器の構造原理図である。 図9は、本発明で提供するある実施例にあるスパース乗法器の構造原理図である。 図10は、本発明で提供するある実施例でベース乗法器あるいはスパース乗法器がベクトル乗算を行う装置構造原理図である。 図11は、本発明で提供するある実施例で融合ベクトル乗法器がベクトル乗算を行う装置構造原理図である。 図12は、本発明で提供する融合ベクトル乗法器とほかの乗法器の具体的な実行流れに関する構造原理図である。 図13は、本発明のある実施例で第2ベース乗法器とビットシリアル加算ツリーを組み合わせる原理図である。 図14は、本発明のある実施例で提供する計算ビット幅を動的に配置できる処理方法のフローチャートである。 図15は、本発明のほかの実施例で提供する計算ビット幅を動的に配置できる処理装置の構造原理図である。 図16は、本発明のほかの実施例で提供する計算ビット幅を動的に配置できる処理装置の構造原理図である。 図17は、本発明のもう一つの実施例で提供する計算ビット幅を動的に配置できる処理装置の構造原理図である。 図18は、本発明のもう一つの実施例で提供する計算ビット幅を動的に配置できる処理装置の構造原理図である。 図19は、本発明で提供するある実施例にあるベース乗法器の構造原理図である。 図20は、本発明で提供するある実施例にあるスパース乗法器の構造原理図である。 図21は、本発明で提供するある実施例でベクトル乗算を行うベース乗法器あるいはスパース乗法器の構造原理図である。 図22は、本発明で提供するある実施例でベクトル乗算を行う融合ベクトル乗法器の構造原理図である。 図23は、本発明で提供するスパース乗法器とほかの乗法器の具体的な実行流れに関する構造原理図である。 図24は、本発明のある実施例で提供する計算ビット幅を動的に配置できる処理方法に関するフローチャートである。 図25は、典型的なプログラミングフレーム図である。 図26は、本発明のある実施例で提供する演算方法の演算フローチャートである。 図27は、本発明のある実施例で提供する演算方法の構成図である。 図28は、本発明の実施例で提供する演算装置の構造原理図である。 図29Aは、本発明の実施例で提供する記憶モジュールのRAM組織形式実例図である。 図29Bは、本発明の実施例で提供する記憶モジュールのレジスタファイル編成実例図である。 図30Aは、本発明の実施例で提供する複合スカラ命令の実例図である。 図30Bは、本発明の実施例で提供するレジスタアドレス指定を利用するときの複合スカラ命令の実例図である。 図30Cは、本発明の実施例で提供するレジスタの間接アドレス指定を利用するときの複合スカラ命令の実例図である。 図30Dは、本発明の実施例で提供する直接的なアドレシングを利用するときの複合スカラ命令の実例図である。 図30Eは、本発明の実施例で提供するRAMアドレシングを利用するときの複合スカラ命令の実例図である。 図31は、本発明の実施例で提供する複合スカラ命令を支援する演算方法のフローチャートである。 図32は、本発明の実施例にある計数装置のフレーム構造原理図である。 図33は、本発明の実施例で示した計数装置の中にある計数部の構造原理図である。 図34は、図33に示した計数部の中にある加法器の構造原理図である。 図35は、本発明の実施例に示した計数装置において実行される計数命令の命令集合様式の原理図である。 図36は、本発明の実施例に示した計数装置の中にある計数部実行過程のフローチャートである。 図37は、本発明の実施例に示した計数装置の構造原理図である。 図38は、本発明の実施例に示した計数装置の実行過程のフローチャートである。
以下、本発明の実施例における図面と合わせて本発明の実施例で記述した技術的方法を明確かつ完璧に記述する。もちろん記述される実施例は本発明の一部の実施例に過ぎず、全ての実施例ではない。本発明の実施例に基づいて当業者が創造的な労働をしなかったという前提条件の下で取得したあらゆる他の実施例はすべて本発明の保護の範囲に属する。
本発明における「メモリ」は、計算ビット幅を動的な配置が可能な処理装置の中に統合させることも、個別の部品にすることもできる。外部メモリとして計算ビット幅を動的に配置できるプロセッサとデータ伝送を行うメモリは、計算ビット幅を動的に配置できるプロセッサに統合させることもでき、個別の部品にすることもできる。外部メモリとして計算ビット幅を動的に配置できるプロセッサはデータ伝送を行う。
図1は、本実施例で提供する計算ビット幅を動的に配置できるプロセッサの構造原理図である。図1に示したように、本装置は、制御回路、データ幅調節回路、演算回路、メモリを含む。
制御回路は、データ幅調節回路、演算回路、メモリに制御信号を送ることで三者の実行を制御し、三者間のデータ伝送を調和させる。メモリは、関連データの記憶に用いられ、入力データ(演算予定データと制御命令を含む)、中間演算結果、最終演算結果、ニューロン、シナプス、キャッシュ予定データなどを含むことができる。需要に応じて、具体的な記憶データの内容と記憶編成方式、異なる呼び出し方式を計画することができる。図1に示したように前記データ幅調節回路は、データの幅調節に用いられる。この過程としては、メモリからデータを読み取った後、データ幅回路を通じてデータに対するビット幅調節を行った後、演算回路に伝達し、演算回路が計算結果をデータ幅調節回路を通じてデータに対するビット幅調節を行った後、メモリに伝達し、メモリはデータをデータ幅調節回路を通じてデータに対するビット幅調節を行った後、メモリにリターンさせること等がある。その具体的な操作は精度を落とさない状態でデータのビット幅を増加させたり、減少させたり、変わらないよう維持する。許す限りの精度損失がある状態でデータのビット幅を増加させたり、減少させたり、変わらないよう維持する。ある指定された変換、あるいは演算要求(例えば「ビットAND演算」に従う演算を指定する場合)に基づいてデータのビット幅を増加させたり、減少させたり、変わらないよう維持することなどが含まれる。演算回路には少なくとも一つの加法演算器と少なくとも一つの乗法演算器が含まれることができ、データの演算に用いられる。少なくとも一つの加法演算器には加法器、加算ツリー及び/又はシリアル加算ツリーが含まれ、少なくとも一つの乗法器にはベース乗法器、スパース乗法器及び/又は融合ベクトル乗法器が含まれる。演算回路としては、コンパレータ及び/又はALUなどが含まれることが可能である。ここで、乗法演算器と加法演算器は計算ビット幅が異なるデータに対して演算を満足させ、異なる需要に応じてビット幅が異なる演算データ間の演算を行うことができる。ここで、乗法器はシリアル演算装置としてビットシリアル方式を通じて乗法演算を行うことができる。ここで、演算回路もデータビット幅調節回路を介さず直接メモリとデータ伝送するようにしても良い。
図2は、本実施例に示した計算ビット幅を動的に配置できるプロセッサの構造原理図である。図2に示すように、本装置の構造は、制御回路がメモリの各モジュールあるいはサブモジュールおよび演算回路とつながっており、少なくとも一つの制御信号一時メモリと少なくとも一つの制御信号処理器を含み、制御信号一時メモリは制御信号の記憶に利用され、好ましくは、この制御信号一時メモリは先入先出である。制御信号処理器は実行しようとする制御信号を読み出し、制御ロジックを分析した後、メモリ、データ幅調節回路、演算回路を制御および調和に用いられる。メモリには入力記憶モジュール、出力記憶モジュール、シナプス記憶モジュールが含まれ、ここで、出力記憶モジュールは、中間演算結果と最終演算結果の記憶に用いられることもある。データ幅調節回路は入力データ処理モジュールと出力データ処理モジュールに分けられ、入力データ処理モジュールは、入力記憶モジュールと又シナプスモジュールの中にあるデータに対するデータ幅調節を行うことに利用され、それは入力記憶モジュールの後部に設置できる。出力データ処理モジュールは演算回路が演算したデータに対する幅の調節を行った後に記憶するのに用いられる。演算回路は、主にコンボリューション演算回路層と完全に接続された層のコンボリューション演算、プーリング層の平均値あるいは最大値を計算する演算の加速に用いられる。好ましくは、演算回路は乗法器モジュール、加算ツリーモジュール、非線形演算モジュール(例えば、sigmoid関数演算を実行するモジュール)が含まれる。この乗法器モジュール、加算ツリーモジュール、非線形演算モジュールはパイプライン方式を利用して平行に実行できる。本装置はコンボリュージョンニューラルネットワークの演算過程を加速化し、チップ内部とチップ外部でのデータ交換を減らし、記憶空間を節約できる。
図3は、公開されたほかの実施例に示した処理装置の構造原理図である。図3に示したように本装置の構造としては、制御回路はメモリの各モジュール及び演算回路と接続され、制御回路は、制御信号一時メモリと制御信号処理器を含み、制御信号の記憶に用いられる。制御信号処理器は実行すべき制御信号を読み取り、制御ロジックを分析した後、メモリと演算回路への制御と調和に利用する。好ましくは、制御信号一時メモリは先入先出する。メモリには入力記憶モジュール、出力記憶モジュール、シナプス記憶モジュールが含まれている。本装置でシナプス記憶モジュールには複数のシナプスサブモジュールが含まれ、演算回路には複数の演算モジュールが含まれている。シナプスサブモジュールを演算モジュールとそれぞれ対応するよう接続するが、一つのシナプスサブモジュールを一つの演算モジュールと対応するよう接続することができ、複数のシナプスサブモジュールを一つの演算モジュールと対応するように接続することもできる。データ幅調節回路は入力データ処理モジュールと出力データ処理モジュールに分けることができ、入力データ処理モジュールは入力記憶モジュール及び/又はシナプス記憶モジュールの中にあるデータに対するデータ幅調節に利用され、それは入力記憶モジュールの後部に配置することができる。出力データ処理モジュールは演算回路が演算したデータを幅調節した後、出力データ処理モジュールに記憶させることに用いられる。毎回演算するとき、入力記憶モジュールは入力データ処理モジュールを経てすべての演算モジュールに入力データを伝達し、シナプス記憶モジュールは対応する演算モジュールにシナプスデータを送り、演算モジュールが演算した後、出力データ処理モジュールは結果を出力記憶モジュールに書き込む。これにより、パラメータが多い大規模演算では演算効率を著しく高まる。本装置はコンボリュージョンニューラルネットワークの演算過程を効果的に加速化させ、しかもネットワークの規模が比較的大きく、パラメータが比較的多い場合に適用する。
図4は、公開されたほかの実施例に示した処理装置の構造原理図である。図4に示す本装置の構造としては、制御回路はメモリのすべてのモジュール、演算回路、データ幅調節回路と接続されており、一つの命令キューと一つのデコーダーが含まれている。新しい命令を毎回実行するたびに命令キューから新しい命令を読み取りデコーダーに伝送する。デコーダーを通じて解読し、制御信号をメモリの各モジュールと演算回路、データ幅調節回路に入れる。メモリには入力記憶モジュールと出力記憶モジュール、シナプス記憶モジュール、キャッシュモジュールが含まれており、ここで、出力記憶モジュールは中間演算結果と最終演算結果を記憶することに利用できる。ここで、入力記憶モジュールとシナプス記憶モジュールが演算回路にデータを伝送するたびにすべて先にデータをキャッシュモジュールに入れる。その後キャッシュ予定データをデータ幅調節回路に読み取る。制御命令がデータに対し処理を求めるとデータ幅調節回路で相応する処理を行う。例えば精度を落とさないようにしつつデータのビット数を拡大し、データのもっとも低いビットを強制的に削除することでデータのビット幅を減らすことなどがある。データ幅調節回路で処理した後、再び該当する演算モジュールに入れる。制御命令がデータを処理することを求めないとデータは直接データ幅調節回路を介して該当の演算モジュールに伝送される。同様に、演算モジュールは演算を終えてから、まず結果をデータ幅調節回路にいれ、制御命令に基づいてデータ処理操作をするか、又は、データに対して操作しないで、キャッシュモジュールに入れ、更にキャッシュモジュールから出力記憶モジュールに書き込む。演算回路は複数の演算モジュールを含み、第一演算モジュールと第二演算モジュールを含む。演算モジュールの間には関連する演算を並列に行うことができ、相互にデータを送ってローカルデータの反復利用距離を縮め演算速度をさらに高めることができる。第一演算モジュールは主にニューラルネットワークアルゴリズムで同じだったり異なったりする計算ビット幅の線形演算の加速化に用いられ、ドット積、マトリックス乗算、加算、乗算と加算の混合;マトリックスとベクトル;マトリックスとリテラル;ベクトル間;ベクトルとリテラル;リテラルとリテラル、を含む。また、最大/最小値を比較演算して選択すること等にも用いられる。好ましい演算としては、内積値、マトリックス乗算及び/又はマトリックス加法演算が属する。第二演算は以上の第一演算モジュールで実行できない演算をすることに利用され、ここには非線形演算、除法演算、個別的な加法演算あるいは個別的な乗法演算が含まれる。こうするメリットとしては、制御命令に基づいて計算過程でデータのビット幅をダイナミックに調節し演算回路とメモリのハードウェア利用率をもっと高めることができるということにある。
図5は、公開されたある実施例を本装置に利用したビットシリアル加算ツリー装置の原理図であり、計算ビット幅をダイナミックに配置できる要求を満たすことができる。図5に示したようにM個の演算予定データの最大ビット幅はNであり、ここで、M,Nはすべて正の整数である。もしNビットに足りないデータであれば合理的な方式によりデータの精度に影響を与えない状態でそのビット数をNビットまで補充する。利用できる方式には最高/最低ビットに0を補充すること、最高/最低ビットに符号ビットを補充すること、ビットシフト、演算操作を行うことが含まれる。ビットシリアル加算ツリーの第一層から第x層までにある加法器はn(n≧1)ビット数字に対する加法演算を実行でき、第x+1層にある加法器はNビット以上の数字に対する加法演算を実行できる。まず、レジスタと各加法器の中にあるキャリー出力端子Cinを0に初期化する。各演算予定データの一番低いnビットを読み取り、それぞれ第一層にある加法器のa,b端子に入力し、各加法器ではa,b端子に入ってきた演算予定データの一番低いnビットに対する加法演算を行い、得た結果値sをいっそう高い層にある加法器のaまたはb端子に伝送し、得たキャリー値Coutは当該層にある加法器のキャリー出力Cinに差戻し、次のステップを待って入ってきた演算予定データと加法演算を行う。上の層にある加法器の操作も同様であって、入ってきたデータと加法演算をした後、結果はより高い層に伝送され、キャリーは当該層にある加法器に差し戻す。これを第x層に到達するまで繰り返す。第X層にある加法器は演算結果をシフトし、レジスタから来る下の結果と加法演算した後、レジスタに戻して保存させる。その後演算予定データから次の低いnビットを選びビットシリアル加算ツリーに送り相応する演算を行う。このとき各加法器のCinは一個前のステップからこの加法器のCout端子に出力されたキャリー結果である。好ましくは、この操作では第一層にある加法器の演算が終わった後に、直ちに第二回目の演算予定のnビットデータを入力し、並列演算を通じて演算装置の使用率を高め、演算スピードをさらに高められる。すべての演算が行われた後レジスタの中にあるデータが得ようとする結果である。この実施例で加法器はこの加法器に入力される演算予定データ(a,b端子)及びキャリー入力(Cin端子)がすべて0である状態で当該演算過程で遮断されるから電力消費を節約しようとする目的を実現することができる。
ここで、本実施例に示したビットシリアル演算器、例えばベース乗法器などは、図6に示したように、演算部、処理部、記憶部を含む。演算部は一つのビッ及び/又は複数のビットのデータに対する演算及び/又は加法演算を実行することに利用され、そこに入力される演算予定データは記憶部のデータ及び/又は処理部を介して処理されたデータであり、出力される演算結果は直接記憶部に入り記憶され、または処理部に入り処理される。処理部はデータのシフト、ある決められた規則に沿ってデータビット幅を拡大/縮小すること、ある決められた規則に沿ってデータの一つのビッ及び/又は複数のビットを修正するなどの処理操作を実行することに利用され、その処理予定データは演算部及び/又は記憶部から得られ、処理されたデータは演算部及び/又は処理部に伝送される。記憶部はデータを記憶することに利用され、演算予定データ、中間演算結果、最終演算結果などが含まれる。ここの記憶部はオンチップキャッシュメモリでも良い。ここで、各部品は自分の相異なる機能によってすべて複数の部品にもっと細分化できる。例えば、演算部は乗算部、加算部などに細分化できる。ビットシリアル演算器にある乗法器の具体的な実施例としては図7に示す第一ベース乗法器、図8に示す第二ベース乗法器、図9に示すスパース乗法器がある。
図7は、本発明にあるビットシリアル演算器の具体的な実施例である。第一ベース乗法器の装置原理図は計算ビット幅をダイナミックに配置できる要求を満たすことができる。この第一ベース乗法器は、本発明の装置に利用できる。図7に示したようにMビットの被乗数とNビットの乗数でM,Nはすべて正の整数である。ここで、乗数と被乗数の位置は制御モジュールの制御下で交替出来る。乗数の低いnビット(nは正の整数であり、且つ、1≦n≦Nであり、好ましくは1≦n≦Nにすることで、演算の並列度をさらに満たし、ハードウェアソースを十分に利用して演算スピードを加速化することができる)を入力選択回路に入力して乗数の低いnビットをそれぞれ被乗数とAND演算を行う。即ち、乗数のこのビット値が1であれば被乗数それ自体を出力させ、そうでなければ0を出力させる。同時に、乗数を第一シフトレジスタに入れてシフトを行い、低いnビットをシフトすれば次にまた入力選択回路に入力されるのは新しい低いnビットである。入力選択回路が選択した結果を第二シフトレジスタに入力させ相応なシフトを行い、更に加算ツリーに入れて加法演算を行う。ここで加法演算を行うのは入力選択をして且つシフトを行ったデータとその前に加法演算を行った結果である。結果を得た後に中間演算結果として結果レジスタに記憶させる。次の被乗数を待って入力選択した後シフトするとき結果レジスタは中間演算結果を読み取り加算ツリー(装置)に入れて加法演算を行う。乗数がすべて0の場合、乗法演算は終わる。
このベース乗法器の演算の流れをより明確に示すために、以下、具体的な実施例を示す。被乗数が10111011、すなわちM=8であり、乗数は1011、すなわちN=4だと仮定する。
n=2のとき、つまり、毎回2ビットをシフトするとき、この演算過程は次の通りである。まず、乗数のもっとも低い2ビットである11を読み取り、被乗数とともに入力選択回路に伝送し、被乗数自体をすべて選択して第一シフトレジスタに送る。一番低いビットに対応するように選択した被乗数はシフトする必要がないから10111011であり、次に低いビットに対応するよう選択した被乗数を1ビット左側にシフトすると101110110である。これを加算ツリーに伝送し、その前に足した数字がないため、結果レジスタに伝送されたのは10111011と101110110の合計、つまり1000110001である。次に、乗数を右側に2ビットシフトした後、その一番低い2ビット、つまり10を読み取り被乗数とともに入力選択回路に送り0と10111011を得る。その後、第二シフトレジスタを通じて0を左側に2ビットシフトしてそのまま0になり,10111011を左側に3ビットシフトして10111011000になる。結果レジスタにある1000110001とともに加算ツリーに伝送し演算を行い、100000001001を得て結果レジスタに送る。このとき、乗数を右側に2ビットシフトするとすべてが0であるから演算は終わる。結果レジスタの中にあるのが最終演算結果であり、つまり100000001001である。
図8は、公開されたほかの実施例に示した本装置に利用される第二ベース乗法器の装置原理図であり、計算ビットをダイナミックに配置できる要求を満たすことができる。図8に示したように、Mビットの被乗数とNビットの乗数においてM,Nはすべて正の整数である。ここで、乗数と被乗数の位置は制御モジュールの制御のもとで交替させることができる。被乗数の低いmビット(mは正の整数で、かつ、1≦m≦M)を入力選択回路に入力させ、乗数の低いnビット(nは正の整数で、かつ、1≦n≦N)を入力選択回路に入力させ、被乗数の低いmビットをそれぞれ乗数の低いnビットと乗法演算させる。そして、乗数を第一シフトレジスタに伝送しシフトを行い、低いnビットをシフトさせ、次に入力選択回路の中に入力させるのは新しい低いnビットになる。入力選択後の結果は第二シフトレジスタに入力させ、相応なシフトをした後、更に加算ツリーに伝送して加法演算を行う。ここで加法演算をするのは入力選択し且つシフトを行ったデータとその前に加法演算を行った結果である。結果を得た後、中間演算結果として結果レジスタに記憶させる。つぎの被乗数で入力選択をしてシフトをするとき、結果レジスタは中間演算結果を読み取り、加算ツリー(装置)に送り、加法演算を行う。乗数がすべて0のとき、被乗数を第三シフトレジスタに伝送してシフトを行い、低いmビットをシフトし、乗数はバックアップレジスタから読み取り、以上のステップを繰り返して行いながら演算する。被乗数と乗数がすべて0になるときに乗法演算は終わる。
図9は、本発明で提供するある実施例に示した装置に利用するスパース乗法器の装置原理図であり、計算ビット幅をダイナミックに配置できる要求を満たすことができる。つまり、乗数あるいは被乗数の2進数の中で1がまれにある状態であれば、乗数あるいは被乗数を疎らな方式で1の位置を示せば演算の有効性をさらに高めて演算スピードを加速化することができる。図9に示したように、Mビットの被乗数とNビットの乗数において、M,Nはすべて正の整数であり、つまり、ここにある被乗数と乗数のビット数は同じくてもいいし、異なってもいい。ここで、乗数は疎らな表示方法を利用し、絶対位置あるいは相対位置の方式でこの乗数の中にある1の位置を表示する。ここで本実施例で提供するスパース乗法器の演算モジュールはすべて配置可能であるため、異なる表示方法を利用して演算を行うとき、演算装置の中にある装置は需要に応じて配置できる。 例えば、結果レジスタが加法演算をするときにはシフトする必要がなく、このとき結果レジスタと接続されているシフトレジスタが動作しないよう配置することができ、このとき、乗数のシフト情報もこのシフトレジスタに伝送しないようにすることもある。当業者としては、関連する具体的な細部はすべて需要に合わせて調節することによって、被乗数に対するシフトと結果に対する加法演算を含めた関連する具体的な細部を実行できることを理解することができる。
このスパース乗算の演算の流れの過程をより明確に示すために、一つの具体的な実施例をあげる。被乗数が10111011、つまりM=8であり、乗数は00100010、つまりN=8だと仮定する。絶対的な表示方式を利用して乗数を示すとすれば、絶対位置で乗数の中にある1の位置を示す。数値の右端にあるビットを第0ビットとし、第0ビットの左にあるビットを第1ビットとし、類推する。すると、この乗数は(1,5)で表示される。同時に、この実施例で結果レジスタと接続されているシフトレジスタが動作しないことを求めるから乗数のデータがこのシフトレジスタに伝送されてはならない。まず、乗数の一番目の数、つまり1を読み取り、第1ビットに一つの1があることを示す。被乗数をシフトレジスタに伝送した後1ビットシフトして101110110になり加法器に伝送する。その前の数字を加算するから結果レジスタに伝送される結果は101110110である。その後乗数の次の1の位置、つまり5を読み取り、被乗数とともにシフトレジスタに伝送する。シフトレジスタで被乗数を5ビット右側にシフトし1011101100000を得て加法器に伝送する。同時に結果レジスタの中にある結果101110110を読み取る。このような絶対表示方法ではシフトする必要がないから直接この結果を加法器に伝送し加法演算を行って1100011010110を得る。加法演算した後の結果を再び結果レジスタに伝送する。このとき、乗数にある1はすべて既に計算が完了されているため演算は終わる。もし相対的な方式で乗数を示すとすれば、その表示方法を一番高いビット(最左端)の0ではない初めての数字から始まって、一番低いビットに行くまでの0ではない各二つの数字の間の離れているビット数で定義する。00100010の場合、0ではない初めての数字と0ではない次の数字の間は4ビット離れていて、0ではない二番目の数字と一番低いビットの間は互いに1ビットぐらい離れているから(4,1)と表示する。ここで、この実施例にある結果レジスタと接続されていて被乗数と互いに接続されているシフトレジスタがすべて動作しなければならないと要求する。まず、乗数の一番目の数字4を読み取り、第二シフトレジスタに伝送すれば被乗数を右側に4ビットシフトし、結果レジスタの中にあるデータを右側に4ビットシフトした後、加法器に伝送して加法演算を行う。このとき結果レジスタのデータは0だから加法演算結果は101110110000と得られ、結果レジスタに伝送して記憶させる。その後乗数の二番目の数字1を読み取ればこの値をシフトレジスタに送り101110110と1011101100000を得て加法器に伝送して加法演算を行うことにして結果1100011010110を得る。この結果は再び結果レジスタに送る。このとき乗数にある1はすべて既に計算が完了されたから演算は終わる。こうすれば、データの希薄性を効果的に利用して、効果的な演算つまり0ではないデータ間の演算だけが行える。こうして非効率的な演算を減らし、演算スピードを加速化させ、性能対電力消耗比を高めた。
以上、この装置と方法を利用してニューラルネットワークの演算スピードをはるかに高めると同時に動的配置可能性をもってデータビット幅の多様性、演算過程でデータのビット幅をダイナミックに変えられなければならない当該の要求を満たし、柔軟性や配置可能な程度が高くて演算スピードが速く電力消費が低いメリットを持つ。
本発明にある実施例のほかの側面では、計算ビット幅を動的に配置できる処理装置の処理方法を提供し、図14に示すように、次のステップを含む。
S1401制御回路が制御命令を生成し、メモリ、データ幅調節回路、演算回路に伝送する。
S1402メモリは受信した制御命令に基づいて、演算回路にニューラルネットワークの演算予定データを入力する。
S1403データ幅調節回路は実際の要求に応じて演算予定データ、中間演算結果、最終演算結果及び/又はキャッシュ予定データの幅を調節する。
S1404演算回路は受信した制御命令に基づいて、対応する類型の乗法器と加法器回路、ビットシリアル演算器を選択する。
S1405演算回路は入力されるデータとニューラルネットワークのパラメータ及び制御命令に基づいて、計算ビット幅が異なるニューラルネットワークの演算予定データに対して演算を行う。
以上、この実施例の方法にあるデータ幅調節回路を利用して、ニューラルネットワークの演算スピードをはるかに高められると同時に、動的配置可能性を持ち、データビット幅の多様性と演算過程でデータビット幅を動的に変えられなければならない当該の要求を満たすことができる。
更には、ステップS1403の第一演算モジュールは、加法器回路、ベース乗法器、スパース乗法器及び/又は融合ベクトル乗法器を利用いてニューラルネットワークの演算予定データに対する演算を行うことを含む。具体的な加法器回路、ベース乗法器、スパース乗法器及び/又は融合ベクトル乗法器を動的に選択することで、処理方法が柔軟性が高く、配置可能性が高く、演算スピードが速く、電力消費が低い特徴を持たせることができる。
以下、他の方法に係る計算ビット幅を動的に配置できる処理装置と処理方法の実施例を紹介する。以下に紹介する方法にはデータ幅調節回路およびデータ幅調節回路と関係する機能部品が含まれないこともある。
図15は、公開されたほかの実施例で提供する処理装置の構造原理図である。図15に示したように、本装置を主に三つの部分に分けられ、つまり、制御回路、演算回路、メモリに分けられる。制御回路は、演算回路とメモリに制御信号を送信して二者の実行を制御し、二者間のデータ伝送を調和させる。各部分の機能は図1に示す実施例の各部分に関する記述内容を参考すればいいため、ここでは省略する。
図16は、公開されたある実施例にある処理装置の構造原理図である。図16に示した構造は図2に示す構造をベースにデータ幅調節回路をなくしたものであり、つまり、メモリを演算回路と直接接続したものである。相応の各設定方式は前記を参考できる。三つのモジュールはパイプライン方式を利用して並列に実行できる。本装置はコンボリュージョンニューラルネットワークの演算過程を加速化させ、チップ内部と外部でのデータ交換を減らし、メモリ空間を節約できる。
図17は、公開されたほかの実施例にある処理装置の構造原理図である。図17に示した構造は図3と似ており、違う部分としては、図17にはデータ幅調整回路の関連構造と連結関係がないことである。図17の各連結関係と実現する機能に対しては図3に示す実施例に記された内容を参考できるからここでは省略する。この実施例に係る処理装置は、パラメータが多い大規模の演算で演算スピードをはるかに高めることができる。この装置は、コンボリューションニューラルネットワークの演算過程を効果的に加速化でき、さらにはネットワークの規模が比較的に大きくてパラメータが比較的に多い場合に適用できる。
図18は、公開されたほかの実施例にある処理装置の構造原理図である。図18に示した構造は図4と似ており、違う部分としては、図18にはデータ幅調節回路の関連構造と連結関係がないことである。図18の各連結関係および実現する機能に対しては図4に示す実施例に記述された内容を参考できるからここでは省略する。
図19は、公開されたほかの実施例で本装置に利用するベース乗法器の原理図であり、計算ビット幅を動的に配置できなければならない要求を満たすことができる。図19に示したように、Mビットの被乗数とnビットの乗数であり、M,Nはすべて正の整数である。つまり、ここで被乗数と乗数のビット数は同一でもよく、違ってもよい。乗数の低いnビット(nは正の整数、且つ、1<n≦Nである)を入力選択回路に入力する。乗数の低いnビットがそれぞれ被乗数とAND演算を行う。つまり、乗数のこのビット値が1の場合、被乗数自身を取り、そうでなければ0を取る。同時に、乗数を第一シフトレジスタに伝送してシフトを行い、低いnビットをシフトし、次に再び入力選択回路に入力するのは新しい低いnビットである。入力選択した後の結果は第二シフトレジスタに入力して相応のシフトを行い、再び加算ツリーに伝送して累積する。ここで累積するのは入力選択を行いながらシフトしたデータとその前に累積した結果である。結果を取得した後、中間結果として中間レジスタに記録する。次の被乗数に対する入力選択をした後、シフトを行うとき、結果レジスタは中間結果を読み取って加算ツリー(装置)に送り累積する。乗数がすべて0であるとき乗法演算は終わる。
このベース乗法器の演算の流れの過程をより明確に示すため具体的な実施例をあげる。被乗数が10111011、つまりM=8であり、乗数は1011、つまりN=4であると仮定する。
N=2のとき、つまり毎回2ビットをシフトするとき、この演算過程は次の通りである。まず、乗数の一番低い2ビットである11を読み取って被乗数とともに入力選択回路に送り、すべて被乗数自体を選択して第一シフトレジスタに伝送する。一番低いビットに対応するように選択した被乗数はシフトする必要がないから10111011であり、次に低いビットに対応するように選択した被乗数を1ビットぐらい左にシフトすると101110110である。これを加算ツリーに伝送する。前に数字を加算してないから結果レジスタに送られたのは10111011と101110110の合計、つまり1000110001である。次に、乗数を右側に2ビットシフトした後その一番低い2ビット、つまり10を読み取って被乗数とともに入力選択回路に送り、0と10111011を取得する。その後、シフトレジスタを通じて0を左側に2ビットシフトすると0、10111011であり、左側に3ビットシフトすると10111011000である。結果レジスタにある1000110001とともに加算ツリーに送り、100000001001を取得して、結果レジスタに伝送する。このとき、乗数を右側に2ビットシフトすると、すべてが0になるから演算は終わる。結果レジスタの中にあるのが最終演算結果、つまり100000001001である。
図20は、公開されたある実施例で本装置に利用したスパース乗法器の原理図で計算ビット幅を動的に配置できなければならないという要求を満たすことができる。文字とおりスパース乗法器はスパース演算に用いられ、つまり乗数あるいは被乗数がスパース表示方式で1の位置を示すとき演算の有効性をさらに高めて演算スピードが加速化できる。図20に示したように、Mビットの被乗数とNビットの乗数であり、M,Nはすべて正の整数である。つまり、ここで被乗数と乗数のビット数は同一でもよく、違ってもよい。ここで、乗数にスパース表示方式を利用し、絶対あるいは相対位置の方式でこの乗数にある1の位置を示す。ここで演算回路は、配置可能であるためほかの表示方式を利用して演算するとき演算装置の中にある装置を需要に応じて配置できる。例えば、結果レジスタが累積するとき、シフトする必要がないとこのとき結果レジスタと接続されているシフトレジスタは動作しないと決められ、このとき、乗数のシフト情報もこのシフトレジスタに伝達しなくてもよい。関連する具体的な細部は需要に応じて相応に調節して被乗数に対するシフトと結果に対する累積など関連する具体的な細部を実行できる。
このスパース乗法器の演算の流れの過程をより明確に示すため具体的な実施例をあげる。被乗数が10111011、つまりM=8で、乗数は00100010、つまりN=8であると仮定する。絶対的な表示方式を利用して乗数を示すと絶対位置で乗数の中にある1の位置を示す。数値の右端にあるビットを第0番目ビットとし、第0番目ビットの左にあるビットを第一ビットとしながらこのように類推する。すると、この乗数は(1,5)と表示される。同時に、この実施例で結果レジスタと接続されているシフトレジスタが動作しないように要求するから乗数のデータをこのシフトレジスタに伝達する必要はない。すると、まず乗数の一番目の数、つまり1を読み取って第一ビットに1があることを表示する。被乗数をシフトレジスタに伝送し、1ビットシフトした後101110110となり加法器に送る。以前の数字を加算するから結果レジスタに伝送される結果は101110110である。その後乗数の次の1の位置、つまり5を読み取って被乗数とともにシフトレジスタに伝送する。シフトレジスタで被乗数を5ビットぐらい右側にシフトして1011101100000を得て加法器に送る。同時に結果レジスタの中にある結果101110110を読み取る。このような絶対表示方法ではシフトする必要がないから直接この結果を加法器に送り累積を行って1100011010110を得る。累積した結果を再び結果レジスタに伝送する。このとき、乗数にある1はすべて既に計算済だから演算は終わる。もし相対的な方式で乗数を示せばその表示方法を一番高いビット(左端)でありながら0ではない一番目の数字から始まって一番低いビットに向かうにつれ、0ではない各二つの数字の間のビット数で定義する。00100010の場合0で場ない一番目の数字と0ではない次の数字の間は4ビットぐらい離れていて、0ではない二番目の数字と一番低いビットの間は互いに1ビットぐらい離れているから(4,1)と表示する。ここで、この実施例にある結果レジスタと接続されていながら被乗数と連結されているシフトレジスタがすべて動作しなければならないと要求する。まず乗数の一番目の数字4を読み取って二つのシフトレジスタに伝送すれば被乗数を右側に4ビットシフトして結果レジスタのなかにあるデータを右側に4ビットシフトした後、加法器に送り累積を行う。このとき、結果レジスタのデータは0であるから累積結果は101110110000となり、結果レジスタに伝送して記憶させる。その後、乗数の二番目の数字1を読み取ればこの値をシフトレジスタに送り101110110と1011101100000を得て加法器に伝送して累積することによって結果1100011010110を得る。この結果は、再び結果レジスタに伝送する。このとき乗数にある1はすべて既に計算ずみなので演算は終わる。こうすればデータの希薄性を効果的に利用して効果的な演算つまり0でないデータ同士の演算だけが行える。そ野結果、効果がない演算を減らし演算スピードを加速化させ、性能対電力消耗比を高めた。
融合ベクトル乗法器を利用して全体的に横方向の累積演算を行う。その構造を図22に示すように、各次元の一成分に従う乗算積演算を終えれば即時加算ツリーに伝送して累積を行い、演算が最終結果を取得する。例えば、その演算流れの過程を図23の楕円形フレームで示したように第1クッロク周期では各次元でA*bi0(i=0,1,……,7)の乗算積を計算して取得し、加算ツリーに伝送して累積を行う。計算結果を結果レジスタに伝送してシフトレジスタに1を加算する。第2クロック周期では各次元でシフトレジスタに基づいて2*A*bi1(i=0,1,……,7)の乗算積を計算して取得し、結果レジスタのデータとともに加算ツリーに伝送して累積を行い、シフトレジスタに1を加算する。第3周期では各次元でシフトレジスタに基づいて4*A*bi2(i=0,1,……,7)の乗算積を計算して取得し、結果レジスタのデータとともに加算ツリーに伝送して累積を行い、シフトレジスタに1を加算する。最終の第4クッロク周期では8*A*bi3(i=0,1,……,7)の乗算積を計算して取得し、結果レジスタのデータとともに加算ツリーに伝送して累積を行い、最終結果を算出する。だから、四つの演算周期の後に必要な結果を取得し、演算過程に合計3回のシフトを行った。これに対し、一般的な乗法器では各データを演算予定にはシフト操作を行わなければならない。即ち、操作数が4個の場合、合計4*3=12回のシフト操作が求められる。したがって、この設計では演算順番の変化を通じてシフト値に対する計数操作を大幅に減少させ、性能対電力消耗比を効果的に向上させることができる。
本実施例のほかの側面において、計算ビット幅を動的に配置できる処理方法を提供する。図24に示すように、次のステップを含む。
S2400:制御回路が制御命令を生成し、メモリと演算回路に伝送する。
S2401:メモリは受信した制御命令に基づいて、演算回路にニューラルネットワークの演算予定データを入力する。
S2402:演算回路は受信した制御命令に基づいて、第1演算モジュールの中にある対応する類型の乗法器と加法器回路を選択する。
S2403:演算回路は入力される演算予定データとニューラルネットワークのパラメータ及び制御命令に基づいて、計算ビット幅が異なるニューラルネットワークの演算予定データに対して演算を行う。
更に、ステップS2403の第1演算モジュールは、加法器回路、ベース乗法器、スパース乗法器及び/又は融合ベクトル乗法器を利用してニューラルネットワークの演算予定データに対する演算を行う。
以上、この処理装置と方法を利用してニューラルネットワークの演算スピードをはるかに高められると同時に動的配置可能性をもってデータビット幅の多様性、演算過程にデータのビット幅を動的に変えられえる相応の要求を満足させることができ、柔軟性が高く、配置可能な程度が高く、演算スピードが速く、電力消費が低い長点をもつ。
また、本発明ではオフラインモデルの構築を含む演算方法と演算装置も提供する。オフラインモデルを生成した後、オフラインモデルに基づいて直接演算を行うことができ、深層学習のフレームを含む総体的なソフトウェアアーキテクチャを実行するときに発生する超過費用をなくし、以下、具体的な実施例と合わせて詳細に説明する。
典型的な応用場面で、ニューラルネットワーク加速機のプログラミングフレームワークは、普通、最上部にあって、プログラミングフレームワークはCaffe,Tensorflow,Torchなどに区分できる。図25に示したように、下層から上層に向かって、順次にニューラルネットワークプロセッサ(ニューラルネットワーク演算に用いられる専用ハードウェア)、ハードウェアドライバ(ニューラルネットワークプロセッサを呼出すソフトウェア用)、ニューラルネットワークプロセッサのプログラミングライブラリ(ニューラルネットワークプロセッサを呼出すためのインタフェースを提供)、ニューラルネットワークプロセッサのプログラミングフレームワーク、及びニューラルネットワーク演算のために必要な高度なアプリケーションである。
本実施例のある側面では、ニューラルネットワークの演算方法を提供し、次のステップを含む。
ステップ1:入力データを取得する。
ステップ2:取得、または、入力データに基づいてオフラインモデルを確定し、オフラインモデルに基づいて演算命令を確定し、次の計算のために呼び出す。
ステップ3:前記演算命令を呼び出し、処理予定データに対する演算を行い、演算結果を取得して出力する。
ここで、入力データは、処理予定データ、ネットワークストラクチャー、ウェイト値を含み、あるいは、この入力データは、処理予定データに関するオフラインモデルデータを含む。
ここで、ステップ2におけるオフラインモデルは、既存のものでもよく、または、外部データ(例えば、ネットワークストラクチャーあるいはウェイと値)に基づいて後に生成されたものでよい。オフラインモデルの設定による演算命令の方式で取得すると、演算過程が高まる。
ステップ3における呼出演算命令は、入力データに処理予定データのみ含まれ、オフラインモデルあるいはオフラインモデルを確定するためのデータが含まれない状態で、演算命令にしたがってネットワーク演算を行う。
ある実施例では、入力データに処理予定データ、ネットワークストラクチャー、ウェイトデータが含まれているとき、次のステップを行う。
ステップ11:入力データを取得する。
ステップ12:ネットワークストラクチャーとウェイと値に基づいてオフラインモデルを構築する。
ステップ13:オフラインモデルを解析して演算命令を取得しながらキャッシュ記憶させ、後の計算時に呼び出す。
ステップ14:演算命令に基づいて、処理予定データに対する演算を行い演算結果を取得し、出力させる。
以上の実施例では、まず、ネットワークのストラクチャーとウェイト値に基づいてオフラインモデルを作成した後、オフラインモデルの極性を解析した後、演算命令を取得する。これにより、オフラインモデルを記憶しない低メモリとリアルタイム性の強い応用環境で性能を十分に発揮し、演算過程がより簡潔かつ迅速になる。
ある実施例で入力データに処理予定データとオフラインモデルが含まれるとき、次のようなステップを含む。
ステップ21:入力データを取得する。
ステップ22:オフラインモデルを解析し、演算命令を読み出してキャッシュ記憶させ、後の計算時に呼び出す。
ステップ23:演算命令に基づいて処理予定データに対する演算を行い演算結果を取得し、出力させる。
以上の実施例では入力データにオフラインモデルが含まれる場合、オフラインモデルを作った後、演算を行うときオフラインモデルを解析した後、演算命令を取得して深層学習フレームを含む全般的なソフトウェアフレームを実行する過程に発生する追加費用をなくす。
ある実施例で入力データに処理予定データのみ含まれているとき、次のステップによって実行される。
ステップ31:入力データを取得する。
ステップ32:キャッシュ記憶されている演算命令を呼び出して、処理予定データに対する演算を行い演算結果を取得して出力する。
以上の実施例で入力データに処理予定データのみ含まれており、ニューラルネットワークストラクチャーとウェイと値が含まれていないとき、演算命令の呼び出しを通じて処理予定データに対する演算を行って演算結果を取得する。
ある実施例ではニューラルネットワークプロセッサを通じて演算命令に従って処理予定データに対する演算を行って演算結果を取得する。ここで、ニューラルネットワークプロセッサは主にニューラルネットワーク演算、命令、処理予定データ及び/又はネットワークモデル(例えばオフラインモデル)を受け付けた後、演算を行うのに用いられる。例えば、多層ニューラルネットワークの場合、入力層データおよびニューラル細胞、ウェイト値、偏差などのデータに基づいて、出力層データを計算して取得する。
他の実施例において、このニューラルネットワークプロセッサは受信した演算命令をキャッシュ記憶させる命令キャッシュユニットがある。
ある実施例において、ニューラルネットワークプロセッサは、処理予定データをキャッシュ記憶させるのに利用するデータキャッシュユニットもある。処理予定データはニューラルネットワークプロセッサに入った後、このデータキャッシュユニットに一時的に記憶させ、後に演算命令と合わせて再度演算を行う。
以上の演算方法に基づいて、本実施例では次のようなものを含む演算装置を提供する。
入力モジュール:入力データの取得に用いられ、この入力データは、処理予定データ、ネットワークストラクチャーとウェイト値を含み、または、この入力データは処理予定データとオフラインモデルデータを含む。
モデル生成モジュール:入力されたネットワークストラクチャーとウェイトデータに基づいてオフラインモデルの構築するに用いられる。
ニューラルネットワーク演算モジュール:入力モジュールにあるオフラインモデルデータあるいはモデル生成モジュールに構築されているオフラインモデルに基づいて演算命令を生成しかつキャッシュ記憶させ、演算命令に基づいて処理予定データに対して演算を行って演算結果の取得に用いられる。
出力モジュール:前記演算結果の出力に用いられる。
制御モジュール:入力データの類型を検査し且つ次の操作の実行に用いられる;
入力データに処理予定データ、ネットワークストラクチャーとウェイト値が含まれているとき、入力モジュールがネットワークストラクチャーとウェイト値をモデル生成モジュールに入力してオフラインモデルを構築するよう制御し、且つ、ニューラルネットワーク演算モジュールがモデル生成モジュールが入力するオフラインモデルに基づいて入力モジュールが入力する処理予定データに対する演算を行うよう制御する。
入力データに処理予定データとオフラインモデルが含まれているとき、入力モジュールが処理予定データとオフラインモデルをニューラルネットワーク演算モジュールに入力するよう制御し、且つ、オフラインモデルがオフラインモデルに基づいて演算命令を生成しながらキャッシュさせ、演算命令に基づいて処理予定データに対する演算を行うよう制御する。
入力データに処理予定データのみあるとき、入力モジュールが処理予定データをニューラルネットワーク演算モジュールに入力するよう制御し、且つ、ニューラルネットワーク演算モジュールがキャッシュ記憶されている演算命令を呼び出して処理予定データに対する演算を行うよう制御する。
前記ニューラルネットワーク演算モジュールはモデル解析ユニットとニューラルネットワークプロセッサを含み、ここで、
モデル解析ユニットは、オフラインモデルに基づいて演算命令の生成に用いられ、
ニューラルネットワークプロセッサは、次の段階の計算で呼出すために用いられる演算命令をキャッシュ記憶させ、あるいは入力データの中に処理予定データのみ含まれているときにキャッシュ記憶されている演算命令を呼び出し、且つ、演算命令に基づいて処理予定データに対する演算を行って演算結果の取得に用いられる。
ある実施例において、ニューラルネットワークプロセッサは命令キャッシュユニットを有し、演算命令をキャッシュ記憶させ、次の段階の計算で呼び出すのに用いられる。
ある実施例において、上記オフラインモデルは特殊な構造により定義されたテキストファイル、または、各種のニューラルネットワークモデルであってもよい。例えば、Cambricon_model、AlexNet_model、GoogleNet_model、VGG_model、R−CNN_model、GAN_model、LSTM_model、RNN_model、ResNet_modelなどのモデルであってもよい。しかし、本実施例であげたこのようなモデルに局限されない。
オフラインモデルは、オリジナルネットワークにある各計算ノードのネットワーク値および命令データをはじめ必要なネットワーク構成情報などを含む。ここで、命令には各計算ノードの計算属性および各計算ノード間の連結関係をはじめとする情報が含められているため、プロセッサが再度前記オリジナルネットワークを実行させるとき、このネットワークに対応するオフラインモデルを直接実行させることで、同一のネットワークに対してコンパイルなど操作をする必要がなくなり、プロセッサが同ネットワークを実行させるときの演算時間を短縮し、プロセッサの処理効率を高める。
好ましくは、プロセッサは汎用プロセッサである。例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、あるいはIPU(Intelligence Processing Unit),IPUは人工ニューラルネットワークの演算実行に用いられる処理装置である。
ある実施例において、処理予定データはニューラルネットワークを利用して処理できるポータルであり、例えば、連続する単一画像、音声、またはビデオストリームの中の少なくとも一つになり得る。
ある実施例において、前記ネットワークストラクチャーは各種のニューラルネットワーク構造でもよい。例えば、AlexNet、GoogleNet、ResNet、VGG、R−CNN、GAN、LSTM、RNN、ResNetなどでもよくて、この実施例で提供したこのような構造にのみ限らない。要するに、上述したネットワーク構造はオフラインモデルと相互対応するということである。例えば、ネットワーク構造がRNNのとき、オフラインモデルはRNN_modelであり、このモデルにはRNNネットワーク構造の中にある各ノードのネットワークウェイト値および命令データなど必要なRNNネットワーク構成情報が含まれている。ここで、命令には各計算ノードの計算属性および各計算ノード間の連結関係などの情報が含まれる。
具体的には、入力モデルによる入力データの違いによって、本実施例の演算装置は次の三つの実行形式を有する。
1、入力モジュールからの入力データがネットワークストラクチャー、ウェイト値、処理予定データのとき、制御モジュールは入力モジュールがネットワークストラクチャーとウェイト値データをモデル生成モジュールに伝送し、処理予定データをモデル解析モジュールに伝送するよう制御する。制御モデルはモデル生成モジュールが具体的なネットワークストラクチャーおよび相応するウェイト値に基づいてオフラインモデル(オフラインモデルは既存の設定構造によって定義するテキストファイルでもよく、ニューラルネットワークのなかにある各計算ノードの計算属性および計算ノード間の連結関係などの情報を含んでもいい、例えば、相応するネットワークストラクチャーおよびウェイト値に基づいて同オフラインモデルを構築してもよい)を生成し、同オフラインモデルをモデル解析ユニットに伝送するよう制御する。制御モジュールは、モデル解析ユニットが受けたオフラインモデルを解析し、ニューラルネットワークプロセッサが識別できる演算命令を得て(つまり、前記オフラインモデルのテキストファイルに基づいて相応するネットワーク演算命令をマッピングし、ネットワークコンパイラー操作を必要としない)演算命令と処理予定データをニューラルネットワークプロセッサに送るよう制御する。ニューラルネットワークプロセッサは受信した演算命令に従って処理予定データに対する演算を行って演算結果を得て、この演算結果を出力モジュールに伝送して出力させるようにする。
2.入力モジュールが入力するデータがオフラインモデルと処理予定データであるとき、制御モジュールは入力モジュールがオフラインモデルと処理予定データをモデル解析ユニットに直接送るように制御し、次の動作原理は一番目の状態と同様である。
3.入力モジュールが入力するデータに処理予定データのみ含まれるとき、制御モジュールは入力モジュールがこの処理予定データをモデル解析ユニットを経てニューラルネットワークプロセッサに送り、ニューラルネットワークプロセッサはキャッシュ記憶されている演算命令に従って処理予定データに対する演算を行って演算結果を得るよう制御する。入力モジュールは、入力データの類型の判断に用いられる判断モジュールを含む。当然ながら、通常はこのような状態が始めて利用するニューラルネットワークプロセッサでは現れないように、命令キャッシュに既に確定された演算命令が存在する。
したがって、現在のネットワーク演算と以前のネットワーク演算のオフラインモデルが違うとき、入力モジュールが入力するデータにはネットワーク構造、ウェイト値データ、処理予定データが含まれるべきであり、モデル生成モジュールを通じて新しいオフラインモデルを生成した後、次のネットワーク演算を行う。現在のネットワーク演算が事前に既に相応するオフラインモデルを得たとき入力モジュールが入力するデータにはオフラインモデルと処理予定データが含まれるべきである。現在のネットワーク演算と以前のネットワーク演算のオフラインモデルが同様のとき、入力モジュールが入力するデータに処理予定データのみあってもいい。
公開されたある実施例では、演算装置がサブモジュールとしてコンピュータシステムのCPUモジュールの中に集積されている。処理予定データとオフラインモデルはCPUによって制御され演算装置に伝送される。モデル解析ユニットは送られてくるニューラルネットワークオフラインモデルを解析して演算命令を生成する。続いて、演算命令と処理予定データはニューラルネットワークプロセッサに伝送されて入り、演算処理を通じて演算結果を得てこの演算結果をメインメモリに送り返す。次の計算過程でネットワーク構造が変わらなく、処理予定データを繰り返し伝送して入れてくれればニューラルネットワーク計算が行われ演算結果が得られる。
以下、具体的な実施例を通じて演算装置および方法を詳しく説明する。
図26に示したように本実施例における演算方法は、次のようなステップを含む。
入力データに処理予定データ、ネットワーク構造、ウェイト値データが含まれているとき、次のようなステップを実行する。
ステップ11、入力データを得る。
ステップ12、ネットワーク構造とウェイト値データに準じてオフラインモデルを構築する。
ステップ13、オフラインモデルを解析して演算命令を得て且つキャッシュ記憶させ、次の計算で呼び出せるようにする。
ステップ14、演算命令に従って処理予定データに対する演算を行ってニューラルネットワーク演算結果を得て出力させる。
入力データに処理予定データとオフラインモデルが含まれているとき、次のようなステップを実行する。
ステップ21、入力データを得る。
ステップ22、オフラインモデルを解析し、演算命令を得て且つキャッシュ記憶させ、次の計算で呼び出すことに用いられる。
ステップ23、演算命令に従って処理予定データに対する演算を行い、ニューラルネットワーク結果を得て出力するようにする。
入力データに処理予定データのみ含まれているとき、次のようなステップを実行する。
ステップ31、入力データを得る。
ステップ32、キャッシュ記憶されている演算命令を呼び出して処理予定データに対する演算を行い、ニューラルネットワーク演算結果を得て出力するようにする。
ニューラルネットワークプロセッサを通じて演算命令に従って処理予定データに対する処理を行って演算結果を得る。このニューラルネットワークプロセッサには命令キャッシュ記憶ユニットとデータキャッシュ記憶部があり、それぞれ受ける演算命令と処理予定データをキャッシュ記憶させることに用いられる。
本実施例に係る入力のネットワーク構造はAlexNetであり、ウェイト値データはbvlc_alexnet.caffemodel、処理予定データは連続的になっている個別的な画像であり、オフラインモデルはCambricon_modelである。既にあるオフラインモデルの場合、このオフラインモデルCambricon_modelを解析して、一連の演算命令を生成し、次いで生成した演算命令をニューラルネットワークプロセッサ2707にある命令キャッシュ記憶ユニットに伝送し、入力モジュール2701が入力する画像をニューラルネットワークプロセッサ2707にあるデータキャッシュ記憶部に伝送する。
以上、本実施例の方法を利用すると、ニューラルネットワークプロセッサで演算する流れの過程を大幅に簡略化することができ、伝統的なすべてのプログラミングフレームワークを呼び出すときにもたらされる追加的なメモリとIO費用をなくすことができる。この方法を利用すると、ニューラルネットワークアクセレレーターが低い内部記憶とリアルタイム性が高い環境で演算性能を十分に発揮できるようにする。
図27に示したように、本実施例では演算装置を開示し、入力モジュール2701、モデル生成モジュール2702、ニューラルネットワーク演算モジュール2703、出力モジュール2704、制御モジュール2705を含み、ここで、ニューラルネットワーク演算モジュール103はモデル解析ユニット2706とニューラルネットワークプロセッサ2707を含む。
この装置のキーワードはオフライン実行であり、これはオフラインモデルを生成した後、オフラインモデルを利用して直接関連する演算命令を生成し且つウェイト値データを入れて、処理予定データに対する処理演算を行う。具体的には、
前述の入力モジュール2701はネットワーク構造、ウェイト値データ、処理予定データの組合あるいはオフラインモデルと処理予定データの組合を入力することに用いられる。入力がネットワーク構造、ウェイト値データ、処理予定データの場合、ネットワーク構造とウェイト値データをモデル生成モジュール2702に送り次の演算を実行することに用いられるオフラインモデルを生成する。入力がオフラインモデルと処理予定データであるとき、オフラインモデルと処理予定データを直接モデル解析ユニット2706に送って次の演算を実行する。
前述の出力モジュール2704は特定のネットワーク構造と処理予定データセットに基づいて生成した確定的な演算データの出力に用いられる。ここで、出力データはニューラルネットワークプロセッサ2707によって演算されて得られる。
前述のモデル生成モジュール2702は入ってくるネットワーク構造パラメータとウェイト値データにしたがって下の階で利用できるオフラインモデルの生成に用いられる。
前述のモデル解析ユニット2706は入ってくるオフラインモデルを解析し、ニューラルネットワークプロセッサ2707に直接伝送できる演算命令を生成すると同時に入力モジュール2701が入れてくれる処理予定データをニューラルネットワークプロセッサ2707に送ることに用いられる。
前述のニューラルネットワークプロセッサ2707は入ってくる演算命令と処理予定データにしたがって演算を行い、確定的な演算結果を得て出力モジュール2704に伝送することに用いられる。命令キャッシュ記憶ユニットとデータキャッシュ記憶部が含まれている。
前述の制御モジュール2705は入力データの類型を検査し且つ次の操作を実行することに用いられる。
入力データで処理予定データ、ネットワーク構造とウェイト値データが含まれているとき、入力モジュール2701がネットワーク構造とウェイト値データをモデル生成モジュール2702に入力してオフラインモデルを構築するように制御し、ニューラルネットワーク演算モジュール2703がモデル生成モジュール2702が入力するオフラインモデルに基づいて入力モジュール2701が入力する処理予定データに対する演算を行うように制御する。
入力データに処理予定データとオフラインモデルが含まれているとき、入力モジュール2701が処理予定データとオフラインモデルをニューラルネットワーク演算モジュール2703に入力するよう制御し、ニューラルネットワーク演算モジュール2703がオフラインモデルに基づいて演算命令を生成し且つキャッシュ記憶させ、演算命令に基づいて処理予定データに対するニューラルネットワーク演算を行うように制御し;
入力データに処理予定データのみ含まれているとき、入力モジュール2701が処理予定データをニューラルネットワーク演算モジュール2703に入力するよう制御し、ニューラルネットワーク演算モジュール2703がキャッシュ記憶されている演算命令を呼び出し、処理予定データに対するニューラルネットワーク演算を行うように制御する。
本実施例における入力されるネットワーク構造はAlexNetで、ウェイト値データはbvlc_alexnet.caffemodelであり、処理予定データは連続的になっている個別的な画像である。モデル生成モジュール102は入力されるネットワーク構造とウェイト値データに基づいて新しいオフラインモデルCambricon_modelを生成する。生成されたオフラインモデルCambricon_modelは次の入力として個別的に使用できる。モデル解析ユニット2706はオフラインモデルCambricon_modelを解析して一連の演算命令を生成できる。モデル解析ユニット2706は生成された演算命令をニューラルネットワークプロセッサ2707にある命令キャッシュ記憶ユニットに送り、入力モジュール2701が伝送して入れてくれる入力画像をニューラルネットワークプロセッサ2707にあるデータキャッシュ記憶部に送る。
また、複合スカラ命令を支援する演算装置と演算方法を提供し、演算過程で複合スカラ命令(浮動小数点命令と固定小数点命令を統一させる命令)を提供することを通じて、浮動小数点命令と固定小数点命令を大きな程度で統一させて解読段階で命令の種類を区分せず、具体的な計算のときだけアドレスフィールドにあるオペランドのアドレスにしたがってオペランドが浮動小数点データか、固定小数点データかを確定して命令の解読論理を簡略化し、また命令セットをより簡素化させた。以下、具体的な実施例と組み合わせについて具体的に説明する。
図28はある実施例で提供する複合スカラ命令を支援する装置の構造原理図である。図28に示したように、装置には制御装置モジュール2810、記憶モジュール2820、演算装置モジュール2830、入出力モジュール2840が含まれている。
制御装置モジュール2810は記憶モジュールから命令を読み取り且つローカルの命令キューに記憶させ、また命令キューにある命令を制御信号に解読して記憶モジュール、演算装置モジュール、入出力モジュールの動作を制御することに用いられる。
記憶モジュール2820にはレジスタセット、RAM、ROMなどの記憶部が含まれており、命令、オペランドなどの相異なるデータを記憶させることに用いられる。オペランドには浮動小数点データと固定小数点データが含まれ、記憶モジュールは浮動小数点データと固定小数点データを相異なるアドレスに対応する空間、例えば違うRAMアドレスあるいは違うレジスタ番号に記憶させて、アドレスやレジスタ番号を通じて読み取るデータが浮動小数点か固定小数点かを判断できる。
演算装置モジュール2830は浮動小数点データと固定小数点データに対して四則演算、論理演算、シフト操作、補数演算などの操作を行う。ここで、四則演算には加算と減算、乗算、除算の四つの演算操作がある。論理演算には論理積、論理和、非含意、逆非含意など四つの演算操作がある。演算装置モジュールは制御装置モジュールの制御信号を受けた後、オペランドがあるアドレスあるいはレジスタ番号を読み取ってそれが浮動小数点類型のデータか固定小数点類型のデータ化を判断し、演算装置モジュールは記憶モジュールから操作データを読み取りながら対応する演算を行う。演算中間結果は記憶モジュールの中にあり、最終演算結果を入出モジュールに記憶させる。
入出力モジュール2840は入出力されるデータを記憶、伝送することに利用できる。初期化するとき入出モジュールは初期の入力データとコンパイラされた符号スカラ命令を記憶モジュールに記憶させて演算が終わった後に演算装置モジュールが伝送する最終演算結果を取得する。ほかに入出力モジュールはメモリから命令をコンパイラすることに必要な情報を読み取ってコンピュータの翻訳機がプログラムを各種の命令でコンパイラするように提供する。
以上からわかるように、本実施例に示した複合スカラ命令を支援する装置は複合スカラ命令に高い効率の実行環境を提供する。
図29Aと図29Bは、本実施例で提供する記憶モジュールの組織形式に関する実例図である。記憶モジュールは浮動小数点データと固定小数点データをほかの記憶空間、例えば異なるアドレスあるいはほかのレジスタ番号に記憶させ、アドレスやレジスタ番号を通じて読み取るデータが浮動小数点数か固定小数点数かを判断できる。
本実施例において、初期アドレスが0000Hで最後のアドレスが3FFFHであるRAMと16個のレジスタとなっているレジスタセットで構成された記憶モジュールを実例として、浮動小数点数の記憶と固定小数点数の記憶をどのように分離するかを示す。図29Aに示したように、RAMで固定小数点データは、ただアドレスが0000Hから1FFFHまでのRAMユニットにだけ、浮動小数点データは2000Hから3FFFHまでのRAMユニットにだけ記憶され、命令は任意のRAMユニットに記憶でき、命令セットの中で変わらない情報をROMに記憶させることもできる。図29Bに示したようにレジスタセットで固定小数点データは0から7までのレジスタにだけ保存され、浮動小数点は8から15までのレジスタにだけ保存される。レジスタの中に記憶されている値がRAMアドレスであるとき、0から7までのレジスタは固定小数点データを記憶させるRAMアドレスに利用され、8から15までのレジスタは浮動小数点データを記憶させるRAMアドレスに用いられる。
図30Aは本実施例で提供する複合スカラ命令の実例図である。図30Aに示したように各命令にはオペコードフィールド、オペランドアドレスフィールド(あるいは即値)、宛先アドレスフィールドがある。オペコードフィールドにはオペコードが含まれており、オペランドアドレスフィールドにはソースオペランド・アドレス1とソースオペランド・アドレス2が含まれており、各ソースオペランドの記憶アドレスを表す。宛先アドレスフィールドはオペランド演算結果の記憶アドレスである。
オペコードフィールドは類型の違う操作、例えば加算、減算、乗算、除算などを区別することに利用し、オペランドの類型を区別するには利用しない。
オペランドアドレスフィールドにはRAMアドレス、レジスタ番号、即値が含まれる。浮動小数点データと固定小数点データの記憶に利用するRAMアドレ記憶スタ番号は違うからアドレスフィールドを利用して浮動小数点オペランドと固定小数点オペランドを区別できる。オペランドアドレスフィールドに記憶されているのが即値であるときは、演算装置モジュールが識別できるデータ類型標識ビットで浮動小数点オペランドと固定小数点オペランドを区分しなければならない。
宛先アドレスフィールドは、RAMアドレスか、レジスタ番号である。このアドレスフィールドはオペランドの類型と互いに対応し、つまり、浮動小数点オペランドの演算結果を浮動小数点データに対応する記憶部に保管し、固定小数点オペランドの演算結果を固定小数点データに対する記憶部に保管する。
したがって本発明で提供する複合スカラ命令は、浮動小数点命令と固定小数点命令を統一させた命令であり、浮動小数点命令と固定小数点命令を大きい程度で統一させ、解読段階で命令の類型を区分せず、具体的に計算するときだけオペランドを読み取るオペランドアドレスフィールドの中のアドレスにしたがってオペランドが浮動小数点データか固定小数点データかを確定するため、命令の解読論理を簡略化し、命令セットがより簡素化できるようにする。
また、本発明で提供する複合スカラ命令にあわせて、いろいろなアドレス指定方式を利用すると、アドレス指定方式を確定する標識ビットを増加する必要がある。
例えば、図29Aと図29Bに示した記憶モジュール組織構造を利用する場合、加算命令の操作コードは0001であるものの、いろんなアドレス指定方式を利用するとき、複合スカラ命令の構成は図30Bから図30Eに示したのと同じようになる。
図30Bは本実施例で提供するレジスタでアドレス指定するときの複合区カラー命令の実例図である。図30Bに示したようにレジスタでアドレスを指定するとき、アドレス指定方式の標識ビットは01で、ソース・オペランド1と2はそれぞれソース・オペランド1のレジスタ番号とソース・オペランド2のレジスタ番号に対応するレジスタに保管され、番号0から7までのレジスタに記憶されるのは固定小数点データで、番号8から15までのレジスタに記憶されるのは浮動小数点データである。
図30Cは本実施例で提供するレジスタによる間接アドレス指定をするときの複合スカラ命令実例図である。図30Cに示したように、レジスタによる間接アドレス指定をするとき、アドレス指定方式標識ビットは10でありRAMでソース・オペランド1と2のアドレスはそれぞれソース・オペランド1のレジスタ番号とソース・オペランド2のレジスタ番号に対応するレジスタに保管される。ここで、固定小数点データのRAMアドレス(0000Hから1FFFHまで)は0から7までのレジスタに保管され、浮動小数点データのRAMアドレス(2000Hから3FFFHで)は8から15までのレジスタに保管される。宛先アドレスフィールドには宛先レジスタ番号あるいは宛先RAMのアドレスが記憶される。固定小数点データはアドレスが0000Hから1FFFHまでの範囲の中にあるRAMユニットの中に保管され、浮動小数点データはアドレスが2000Hから3FFFHまでの範囲の中にあるRAMユニットの中に保管される。
図30Dは本実施例で提供する即値によるアドレス指定をするとき複合スカラ命令の実例図である。図30Dに示したようにオペランドアドレスフィールドのデータが二つの即値であればアドレス指定方式標識ビットは00で、アドレス方式標識ビットとオペランドアドレスフィールド間にデータ類型標識ビットが設定されている。即値が固定小数点類型であるとき、このデータ類型の標識ビットは0である。即値が浮動小数点類型のときこのデータ類型の標識ビットは1である。
図30Eは本実施例で提供するRAMによるアドレス指定をするとき、複合スカラ命令の実例図である。図30Eに示したようにオペランドアドレスフィールドがRAMアドレスであればアドレス指定方式標識ビットは11である。ソースオペランド1と2はそれぞれRAMアドレスに対応するRAMユニットに保管される。ここで、固定小数点データはRAMアドレス0000Hから1FFFHまでに対応するRAMユニットの中に保管され、浮動小数点データはRAMアドレス2000Hから3FFFHまでに対応するRAMユニットの中に保管される。
以上の各アドレス指定方式を利用する関連命令において、宛先アドレスフィールドには宛先レジスタ番号あるいは宛先RAMアドレスが記憶される。固定小数点データは0から7までのレジスタあるいはアドレスが0000Hから1FFFHまでの範囲にあるRAMユニットに記憶される。浮動小数点データは8から15までのレジスタあるいはアドレスが2000Hから3FFFHまでの範囲にあるRAMユニットに保存される。
図31は本実施例に示した複合スカラ命令を支援する演算方法のローチャートである。図4に示したように本発明の実施例では複合スカラ命令を支援する演算方法を提供し、前記複合スカラ命令を支援する装置を利用してデータ演算を行い、具体的に次のステップを含む。
S3101:類型の異なるデータを異なるアドレスに記憶させる。
記憶モジュールは浮動小数点データと固定小数点データを相異なるアドレスに対応するスペースに記憶させる。例えば相異なるRAMアドレスあるいは相異なるレジスタ番号をあげられる。
S3102:複合スカラ命令を制御信号で解読する。
制御装置モジュールは記憶モジュールに入出力(IO)命令を送信して記憶モジュールから複合スカラ命令を読み取り、且つローカル命令キューを記憶させる。制御装置モジュールはローカル命令キューから複合スカラ命令を読み取りながら制御信号で解読する。
S3103:制御信号に基づいて操作データを読み取り、且つ読み取る操作データのアドレスにしたがって操作データの類型を判断し、操作データに対する演算を行う。
演算装置モジュールは制御装置モジュールから来る制御信号を受信した後、オペランドのアドレスフィールドを読み取り、読み取ったのが浮動小数点類型のデータか固定小数点累計のデータ化を判断する。もし、オペランドが即値であればデータ類型標識ビットによってオペランド類型を判断して計算する。もし、オペランドがRAMあるいはレジスタからきたとすればRAMアドレスあるいはレジスタ番号によってオペランド類型を判断し、記憶モジュールからオペランドを読み取り、且つ対応する演算を行う。
S3104:演算結果を対応する類型のアドレスに記憶させる。
制御装置モジュールが演算装置モジュールにIO命令を送信し、演算装置モジュールは演算結果を記憶モジュールあるいは入出力モジュールに伝送する。
以上の実施例から分かるように、本発明で提供する複合スカラ命令の実行方法によれば、複合スカラ命令を正確で高い効率で実行できる。ここで、提供する複合スカラ命令を支援する装置は複合スカラ命令に高い効率の実行環境を提供する。提供する複合スカラ命令の実行方法は複合スカラ命令を正確で高い効率で実行できる。
また、本発明では技術命令を支援する技術装置と計数方法を提供する。入力データ(計数予定データ)の中で与えられた条件を満たす元素の個数を統計するアルゴリズムを命令に作成する形式を通じて計算効率を高めることができる。以下、具体的な実施例とあわせて詳細に説明する。
この実例的な実施例で計数命令を支援する計数装置を提示する。図32は本実施例にある計数装置のフレームワーク構造原理図である。図32に示したように本発明で提供する計数命令を支援する計数装置は、記憶部、計数部、レジスタ部などを含む。記憶部は計数部と連結されて計数予定入力データを記憶させることに利用され、統計する入力データの中で与えられた条件を満たす元素の個数を記憶させることに用いられる。この記憶部はメインメモリでもいいし、一時記憶型メモリでもいい、更には、スクラッチパッドメモリであってもいい。統計しようとする入力データを一時的にスクラッチパッドメモリに記憶させ、計数命令をすばやく効果的に幅の違うデータを支援するようにして実行性能を高められるようにする。
ある実現例において、この記憶部はスクラッチパッドメモリであり、ビット幅の違う入力データ及び/又は大きさが違うメモリスペースを占める入力データを支援し、計数予定入力データをスクラッチパッドメモリに一時的に記憶させ、計数過程が幅の違うデータをすばやく効果的に支援できるようにする。計数部はレジスタ部と接続されており、計数部は計数命令を得て計数命令に基づいてレジスタ部にある入力データのアドレスを読み取って後、入力データのアドレスにしたがって記憶部の中で計数予定当該の入力データを取得しながら入力データの中で与えられた条件を満たす元素個数を統計計数して最終計数結果を得ながらこの計数結果を記憶部に記憶させる。レジスタ部は記憶部に記憶された統計しようとする入力データのアドレスを記憶させることに用いられる。ある実現例において、レジスタ部に記憶されたアドレスはスクラッチパッドメモリにある統計しようとする入力データのアドレスである。
ある実施例において、統計しようとする入力データのデータ類型は0/1ベクトルでもいいし、数値型のベクトル又はマトリックスでもいい。入力データの中で与えられた条件を満たす元素個数を統計するとき、統計する元素が満たすべき条件は一つの与えられた元素と同様であることもある。例えばベクトルAの中にある元素xの個数を統計するとき、xは数字n,n=0,1,2...であってもいいし、xはベクトルmであってもいい、例えば、m=00,01,11...である。統計する元素が満たすべき条件として、与えられた表現式を満たすこともありうる、例えば、ベクトルBの中で数値yより大きい元素個数を計数する場合、ここで、yは正の整数n, n=0,1,2..であってもいいし、浮動小数点数f,f=0.5,0.6...であってもいい。例えば、ベクトルCの中でzを完除する元素個数を統計する場合、zは整数nで,n=0,1,2...でありうる。
図33は本実施例に示した計数装置の中にある計数部の構造原理図である。図33に示したように計数部には入出力モジュール、演算モジュール、アキュムレータモジュールがある。
入出力モジュールは演算モジュールと接続されている。記憶部の中にある計数予定入力データの場合、毎回ここで、長さ(この長さは実際的な要求に基づいて配置できる)が設定された一つの区間のデータを読み取り、演算モジュールに入力させて演算を行い、演算モジュールが演算を終えた後、入出力モジュールは長さが固定された次の区間のデータを続けて読み取り、これは計数予定入力データのすべての元素を読み取るまで行う。入出力モジュールはアキュムレータモジュールが計算して得た計数結果を記憶部に出力する。
演算モジュールはアキュムレータモジュールと接続され、長さが固定されたデータを入力し、演算モジュールの加法器を利用して与えられた条件を満たす入力データの各元素の個数を加算し、取得した結果をアキュムレータモジュールに出力する。演算モジュールは判断サブモジュールを更に含み、これは入力データが与えられた条件(与えられた条件は与えられた元素と同様でもいいし、数値が設定された区間の間にあるものでもいい)を満たすかそうでないかを判断するのに用いられる。もし満たしたら1を出力し、満たさないと0を出力した後、加法器に伝送して累積する。
アキュムレータモジュールは、また入出力モジュールと連結されており、演算モジュールで出力する結果をアキュムレータを利用して新しい入力がなくなるまで累積する。
計数部は多重パイプラインステージ構造であり、ここで、入出力モジュールでベクトルをとる操作は第1パイプランステージであり、演算モジュールは第2パイプランステージ、アキュムレータモジュールは第3パイプランステージである。これらの部品は相異なるパイプラインステージであり、計数命令が求める操作をより効果的に実現できる。
図35は本実施例に示した計数装置の中にある計数命令の命令セット様式原理図である。図35に示したように計数命令には操作コードと一つあるいは複数の操作ドメインがある。ここで、操作コードはこの命令が計数命令であることを指示することに利用され、計数部はこの操作コードの識別を通じて計数演算を行える。操作ドメインは、この計数命令の中にある計数予定入力データを指示することに利用するアドレス情報と判断条件を含めるアドレス情報を含む。例えば一つのベクトルを取得しなければならないときにはレジスタ番号に基づいて相応のレジスタの中でベクトルの初期アドレスとベクトルの長さを取得して再びベクトルの初期アドレスとベクトルの長さに基づいて記憶部で相応のアドレスに記憶されているベクトルを取得することができる。本実施例で利用した命令は簡素化された様式を持つから命令セットを使用しやすく、支援するデータの長さを敏活にすることができる。
図36は本実施例に示した計数装置の中にある計数部の実行過程に関するフローチャートである。図26に示したように、動作するとき、計数部は計数命令の操作ドメインにあるアドレス情報に基づいてレジスタ部で計数予定入力データのアドレスを読み取った後、このアドレスに基づいて記憶部で計数予定入力データを読み取る。計数予定入力データはスクラッチパッドメモリに記憶され、毎回計数部はスクラッチパッドメモリから長さが固定されたある区間の入力データを得て、判断サブモジュール、元素が与えられた条件を満たすかどうかを判断した後で加法器を利用してこの部分の入力データの中で与えられた条件を満たせる元素の個数を統計し、各区間で与えられた条件を満たす元素の個数をアキュムレータモジュールを利用して累積し、最終計数結果を得ながら計数結果を記憶部に記憶される。
図37は本実施例に示した計数装置の細かい構造原理図である。図37に示したように、本発明に示した計数命令を支援する装置は、命令メモリ、命令処理ユニット、命令キャッシュ記憶ユニット、従属関係処理ユニットを含む。
命令処理ユニットの場合、これは命令メモリから計数命令を取得しながら計数命令を処理した後、記述した命令キャッシュ記憶ユニットと従属関係処理ユニットへの提供に用いられる。ここで、命令処理ユニットは、命令フェッチモジュールと解読モジュールを含む。命令フェッチモジュールは命令メモリと連結され、命令メモリから計数命令の受信に用いられる。解読モジュールは命令フェッチモジュールと連結されており、取得した計数命令の解読に用いられる。このほかに、命令処理ユニットは命令キューメモリも含む。命令キューメモリは解読モジュールと接続されており、解読した計数命令を順序に記憶しながら順序に命令を命令キャッシュ記憶ユニットと従属関係処理ユニットに送信することに用いられる。命令キャッシュ記憶ユニットと従属関係処理ユニットが受けられる命令の数量が限界されていることを考慮して、命令キューメモリの中にある命令は命令キャッシュ記憶ユニットと従属関係処理ユニットにスペースがあることを待って続いて順番に送信できる。
命令キャッシュ記憶ユニットは命令処理ユニットと連結でき、実行しようとする計数命令を順番に記憶させることに用いられる。計数命令が実行される過程で同時に命令キャッシュ記憶ユニットにもキャッシュ記憶される。一つの命令が完全に実行された後、命令実行結果(計数結果)を命令キャッシュ記憶ユニットに伝送する。もし、この命令が同時に命令キャッシュ記憶ユニットにありながらまだマッピングされなかった命令の中で最初の命令であればこの命令がマッピングされると同時に命令実行結果(計数結果)をスクラッチパッドメモリに記録する。一つの実現方式で命令キャッシュ記憶ユニットは再び順番を配列してキャッシュ記憶できる。
従属関係処理ユニットは命令キューメモリ及び計数部と連結され、計数部が計数命令を得る前にこの計数命令が求めるベクトル(つまり計数されるべきベクトル)が最新のものかそうでないかを判断することに用いられる。もし、最新のものであれば直接計数命令を記述した計数部に提供し、そうでなければこの計数命令を従属関係より部品の一つの記憶キューに記憶させ、求めるベクトルが最新のものになった後、記憶キューにあるこの計数命令を記述した計数部に提供する。具体的には、計数命令がスクラッチパッドメモリを呼び出すときメモリスペースは前の命令に従う結果が入力されるのを待つ。命令が実行した結果の正確性を保証するため、もし、現在の命令を待つ命令のデータと従属関係にあるということが検査されれば、この命令は記憶キューで従属関係が解除されるまで待たなければならない。従属関係処理ユニットは命令が乱雑に実行され、順番にマッピングされるようにしてパイプラインの障害を効果的に減らし、正確な例外を実現できるようにする。
命令フェッチモジュールは命令メモリから次に実行すべき命令を読み取りながらこの命令を解読モジュールに伝送することを担う。解読モジュールは命令を解読しながら解読された命令を命令キューメモリに送ることを担う。命令キューメモリは可読された命令をキャッシュ記憶させることに用いられる。命令キャッシュ記憶ユニットと従属関係処理ユニットにスペースが生じた後、命令を命令キャッシュ記憶ユニットと従属関係処理ユニットへ伝送する。計数命令が命令キューメモリから従属関係処理ユニットに送信される過程で計数命令はレジスタ部から記憶部にある入力データのアドレスを読み取る。従属関係処理ユニットは現在の命令と前の命令の間に存在できるデータ従属関係を処理することに用いられる。 計数命令は記憶部を呼び出すことができ、前に実行されたほかの命令は同一の記憶スペースを呼び出せる。命令実行結果の正確性を保証するため現在の命令がもし前の命令データと従属関係があるということが検査されればこの命令は従属関係処理ユニットの記憶キューの中で従属関係がキャンセルできるまで待たなければならない。計数部は従属関係処理ユニットから計数命令を得て、計数命令がレジスタ部に読み取った入力データのアドレスに基づいて記憶部で当該の計数予定入力データを読み取りながら入力データの中で与えられた条件を満たす元素の個数を統計計数し、計数結果を命令キャッシュ記憶ユニットに送り、最後の計数結果とこの計数命令は記憶部に記録される。
図38は本実施例に示した計数装置の実行過程に関するフローチャートである。図38に示したように、計数命令を実行する過程には次のようなものが含まれる。
S3801、命令フェッチモジュールは命令メモリから計数命令を読み取り、且つ、この計数命令を解読モジュールに伝送する。
S3802、解読モジュールは計数命令を解読し、且つ、計数命令を命令キューメモリに伝送する。
S3803、計数命令は命令キューメモリで待っていて命令キャッシュ記憶ユニットと従属関係処理ユニットにスペースがあれば、命令キャッシュ記憶ユニットと従属関係処理ユニットに送信される。
S3804、計数命令が計数キューメモリから従属関係処理ユニットに伝送される過程で、計数命令はレジスタ部から記憶部にある入力データの記憶アドレスを読み取り、従属関係処理ユニットはこの命令とまだ実行が終わってない前の命令とデータ上従属関係にあるかどうかを分析する。この計数命令は従属関係処理ユニットの記憶キューでそれとまだ実行が終わってない前の命令とデータ上従属関係がないときまで待たなければならない。
S3805、従属関係がないと、この計数命令は計数部に伝送される。計数部は記憶アドレスに基づいて記憶部から入力データを読み取り、入力データの中で与えられた条件を満たす元素の個数を統計する。
S3806、計数が終わった後、計数結果は命令キャッシュ記憶ユニットを通じて記憶部に記入され、命令キャッシュ記憶ユニットはこの計数命令を記憶部にマッピングする。
以上、図面とともに本実施例を詳しく説明した。以上の記述に基づいて当業者は本実施例に示した計数命令を支援する計数装置及びその計数方法を明確に認識する。
ある実施例では、チップを開示し、それは前述のニューラルネットワークプロセッサ、処理装置、計数装置又は演算装置を含む。
ある実施例では、チップパッケージ構造を開示し、それは前述のチップを含む。
ある実施例では、ボードカードを開示し、それは前述のチップパッケージ構造を含む。
ある実施例では、電子デバイスを開示し、それは前述のボードカードを含む。
電子デバイスは、ロボット、コンピュータ、プリンター、スキャナー、タブレットPC、スマートターミナル、スマートフォーン、タコグラフ、ナビゲーター、センサ、撮影ヘッド、クラウドサーバ、カメラ、ビデオカメラ、プロジェクター、時計、ヘッドセット、モバイル記憶、ウェアラブル端末、交通手段、家庭用電子機器あるいは医療機器に制限なく含まれる。
前記の交通手段は、飛行機と汽船、あるいは車両を含み、前記の家庭用電子機器は、テレビ、エアコン、電子レンジ、冷蔵庫、炊飯器、加湿器、洗濯機、ランプ、ガスストーブ、フードを含む。前記の医療機器は核磁気共鳴器、超音波機器、心電図を含む。
本発明で提供する実施例に示した当該の装置と方法は異なる方式で実現できるということを知るべきである。例えば前述の装置の実施例はただ原理的なものに過ぎない。例えば関連の部分あるいはモジュールの区分はただ論理的機能に従う区分であるから実際に実現するとき、ほかの区分方式があってもよい。例えば複数の部分あるいはモジュールを一つのシステムに組み合わせることができ、一連の特徴を無視するか、実行しなくてもいい。
本発明に出る用語「及び/又は」は一方または他方あるいは両方を意味する(例えば、A及び/又はBというのは、AあるいはBあるいはAとBの両方を意味する)。
以上の説明では、説明の目的から出発して多くの具体的な細部を記述して公開された各実施例を全面的に理解できるようにした。しかし、当業者である場合、明確にこんな具体的な細部の中でいくつかがなくても一つあるいは複数のほかの実施例を実現できる。記述した具体的な実施例はこの発明の制限のためのものではなく説明するためのものである。本発明の範囲は、前の具体的な実例から確定するのではなく、特許請求の範囲から確定される。異なる状況では、記述に対する理解があいまいにならないようブロック図の形式でもって既に知っている回路、構造、設備と操作を詳しく示してない。違う方式で指定したり、明確なもの意外には複数の図面の中で適切だと見られる場所に図面標識あるいは図面標識の端の部分が繰り返されるようにして選択的に似た特性あるいは同様の特徴を持った対応したり、似た要素を示している。
各種操作と方法を既に記述している。フローチャート方式、相対的に基礎的な方式で一連の方法を記述した。しかし、このような操作は選択的にこのような方法に加わったりあるいはこのような方法から提起する。そのほかに、例えフローチャートは実例に示した各実施例に従う操作の特定なステップを示そうともこの特定なステップが実例的であるということが理解できる。実施例を変えてほかの方式でこんな操作を選択的に実行し、ある操作を組み合わせ、ある操作を変えられる。ここで記述した設備の組み立て品と特徴、特定で選択可能な細部は前記した方法において任意に選択して応用できる。各実施例でこんな方法はこんな設備で実行でき、あるいはこのような設備の中で実行できる。
本発明にある各機能部分/ユニット/サブユニット/モジュール/サブモジュール/部品はすべてハードウェアでありうる。例えば、このハードウェアはデジタル回路、アナログ回路などを含めた回路でありうる。ハードウェア構造の物理的実現は物理要素に限られず、物理要素はトランジスタ、レジスタンスは度に限られていない。前記計算装置の中にある計算モジュールは適当な任意のハードウェアプロセッサでありうる。例えばCPUとGPU、FPGA、DSPおよびASICなどがあげられる。前記記憶部は適当な任意の磁気記憶媒体や光磁気記録媒体でありうる。例えばRRAM(登録商標)、DRAM、SRAM、EDRAM、HBM、HMCなどがあげられる。
記述を便利かつ簡潔にするため、ただ前述の各機能モジュールに分割し、実例をあげて説明したということを当業者は明確にわかる。実際応用では需要に応じて前述の機能分配を相異なる機能モジュールで行える。つまり、装置の内部構造を相異なる機能モジュールに分割して前述のすべてあるいは部分的な機能をする。
前述の具体的な実施例に示した本発明の目的や技術的解決策、利益効果性をもっと詳しく説明した。理解すべきは、前述したのはただ本発明の具体的な実施例に過ぎず、本発明を局限させることに利用せず、一般的に本発明の精神と原則内で行った任意の改造、同等なものに対する交替、改善などはすべて本発明の保護範囲内に含まれなければならないということである。

Claims (34)

  1. ニューラルネットワークの演算予定データ、中間演算結果、最終演算結果、キャッシュ予定データを含むデータの記憶に用いられるメモリと、
    前記演算予定データ、中間演算結果、最終演算結果及び/又はキャッシュ予定データの幅の調節に用いられるデータ幅調節回路と、
    ニューラルネットワークの演算予定データに対する演算に用いられる演算回路と、
    メモリ、データ幅調節回路、演算回路の制御に用いられる制御回路と、を含む、
    ことを特徴とする計算ビット幅の動的な配置が可能な処理装置。
  2. ニューラルネットワークの演算予定データに対する演算に用いられる前記演算回路は、
    演算データに基づいて演算回路の乗法器と加法器回路の類型を確定して演算を行うことを含む、
    ことを特徴とする請求項1に記載の装置。
  3. 前記データ幅調節回路は、
    メモリのデータに対しデータ幅の調整を行う入力データ処理モジュールと、
    演算回路が演算したデータに対して幅を調節した後、メモリに記憶させる出力デー タ処理モジュールと、を含む、
    ことを特徴とする請求項1に記載の装置。
  4. 前記メモリは、
    ニューラルネットワークの演算予定データを記憶する入力記憶モジュールと、
    中間演算結果と最終演算結果を記憶する出力記憶モジュールと、
    データのキャッシュを記憶するキャッシュモジュールと、を含み、
    ここで、前記入力記憶モジュールは、
    ニューロンのパラメータを記憶するニューロン記憶モジュールと、
    シナプスのパラメータを記憶するシナプス記憶モジュールと、を含み、
    前記出力記憶モジュールは、
    中間演算結果を記憶する中間演算結果記憶用サブモジュールと、
    最終演算結果を記憶する最終演算結果記憶用サブモジュールと、を含む、
    ことを特徴とする請求項1又は請求項2に記載の装置。
  5. 前記演算回路は複数の演算モジュールを含み、前記シナプス記憶モジュールは複数のシナプス記憶サブモジュールを含み、前記演算モジュールはそれぞれ一つ、又は、複数のシナプス記憶サブモジュールに対応するように連結される、
    ことを特徴とする請求項3に記載の装置。
  6. 前記演算回路は、
    ビット幅が異なるデータの演算を行う第1演算モジュールを含み、
    前記第1演算モジュールは、ニューラルネットワーク中のビット幅が異なるデータの演算を行う加法器回路と乗法器を含む、
    ことを特徴とする請求項1乃至請求項5のいずれか1項に記載の装置。
  7. 前記第1演算モジュールは、シフト、レジスタ、複数の加法器を含むビットシリアル加算ツリーを更に含み、各加法器はa端子とb端子を含み、前記ビットシリアル加算ツリーはX+1層構造を含み、Xは正の整数であり、当該ビットシリアル加算ツリーの運行方式としては、
    各レジスタと加法器の中にあるキャリー出力端子Cinは0として初期化され、各演算予定データの最低nビットは各々第1層の加法器にあるa,b端子に入力され、第1層にある各加法器ではa,b端子に入力された演算予定データの最低nビットに対し加法演算が完成され、確定した結果値sをハイレベル加法器のa又はb端子に伝送し、各加法器が取得したキャリー値Coutは当該層の加法器のキャリー入力Cinに伝達され、次回に入力される演算予定データと加法演算を行い、
    上の層の加法器の操作は、前の層の加法器を参考し、入力されたデータに加法演算を行い、その結果を更に上の層に送り、キャリーを同層の加法器にリターンし、第X層に到達するまで行い、第X層の加法器はシフト装置を経て演算結果をシフトし、レジスタから送ってくる元の結果と加法演算をした後にレジスタに保存し、その後、次回のクロックを待って、次に低い演算データのnビットを選択し、ビットシリアル加算ツリーに伝送して相応する演算を行う、
    ことを特徴とする請求項6に記載の装置。
  8. 乗法器はビットシリアル演算器を含み、
    前記ビットシリアル演算器は、
    乗数をビット幅が低い複数のデータに分け、各々被乗数と乗算した後に累積する演算に用いられるベース乗法器と、
    乗数及び/又は被乗数をスパース方式で示す状態で乗法演算を行うために用いられるスパース乗法器と、
    ベクトル間の乗法演算に用いられる融合ベクトル乗法器と、の中の少なくとも一つを含む、
    ことを特徴とする請求項2に記載の装置。
  9. 前記ビットシリアル演算装置は、
    演算予定データを入力し、一ビット又は複数ビットのデータに対する乗算及び/又は加法演算を行って演算結果を出力する演算ユニットと、
    演算結果を入力して記憶するメモリユニットと、
    演算結果を入力して、データシフト、設定されたルールに従ってデータビット幅を拡張/減少させ、特定の設定されたルールに従ってデータの某一ビット又は複数ビットに対して操作を行う処理ユニットと、を含む、
    ことを特徴とする請求項2に記載の装置。
  10. 前記ベース乗法器は第1ベース乗法器であり、
    Nビット幅を持つ乗数の記憶に用いられる乗法記憶ユニットと、
    毎回乗数の低いNビットのシフト(1<n≦N)に用いられ、シフト操作をした後の乗数を再度乗法記憶ユニットに伝送する第1シフトレジスタと、
    毎回乗数の低いNビットと被乗数を入力し、乗数の低いNビットの中で各ビットの値を各々乗数とAND演算を行ってAND演算結果の取得に用いられる入力選択回路と、
    AND演算結果を入力し且つシフトするのに用いられる第2シフトレジスタと、
    シフトしたデータを入力し、互いに加算するのに用いられる加法器と、
    加法器からの加算結果を記憶し、前記加算結果を再度加法器に入力して次回の加算に参加させるのに用いられる結果レジスタと、を含む、
    ことを特徴とする請求項8に記載の装置。
  11. 前記ベース乗法器は第2ベース乗法器であり、
    Nビット幅を持つ乗数の記憶に用いられる乗法記憶ユニットと、
    毎回乗数の低いNビットのシフトに利用され、シフト操作をした乗数を再度乗法記憶ユニットに伝送する第1シフトレジスタと、
    シフトした乗数を一時記憶するバックアップレジスタと、
    毎回乗数の低いNビットと被乗数を入力し、乗数の低いNビットの中で各ビットの値を各々乗数とAND演算を行ってAND演算結果の取得に用いられる入力選択回路と、
    AND演算結果を入力し且つシフトするのに用いられる第2シフトレジスタと、
    被乗数をシフトし、乗数の低いmビットをシフトして除去するのに用いられる第3のシフトレジスタと、
    シフトしたデータを入力し互いに加算するのに用いられる加法器と、
    加法器からの加算結果を記憶し、再度加法器に入力して次回の加算に参加させるのに用いられる結果レジスタと、を含む、
    ことを特徴とする請求項8に記載の装置。
  12. 第1ベース乗法器又は第2ベース乗法器は、乗法記憶ユニットの現在の乗数値がすべて0かどうかを判断する判断回路を更に含む、
    ことを特徴とする請求項10又は請求項11に記載の装置。
  13. スパース乗法器は、
    Nビット幅を持ち、スパース方式で表示される乗数を記憶する乗法記憶ユニットと、
    毎回低いビットから乗数値が1のビットを選択する入力選択回路と、
    毎回前記ビット数が1以下の各低いビットをシフトし、再度、乗法記憶ユニットに伝送して次回の乗数にする第1シフトレジスタと、
    前記ビット数が1のビットにしたがってシフト操作を行う第2シフトレジスタと、
    シフトした後のデータを入力して加算する加法器と、
    加法器の加算結果を記憶する結果レジスタと、
    数値が1のビットにしたがって結果レジスタの内部結果をシフトした後、再度加法器に入力して次回の演算に参加する第3シフトレジスタと、
    乗法記憶ユニットにある現在の乗数値が0かどうかを判断する判断回路と、を含む、
    ことを特徴とする請求項7に記載の装置。
  14. 前記データの演算は、
    内積値、マトリックス乗算、加算、乗算と加算の混合;マトリックスとベクトルの乗算、加算、乗算と加算の混合;マトリックスとリテラルの乗算、加算、乗算と加算の混合;ベクトル間の乗算、加算、乗算と加算の混合;ベクトルとリテラルの乗算、加算、乗算と加算の混合;リテラルとリテラルの乗算、加算、乗算と加算の混合;最大値/最小値の比較選択及び乗算、加算、乗算と加算の混合への分割、を含む、
    ことを特徴とする請求項1乃至請求項13のいずれか1項に記載の装置。
  15. 前記乗法器および加算ツリーは、パイプラインの方式で並列に実行される、
    ことを特徴とする請求項8に記載の装置。
  16. 請求項1乃至請求項16のいずれか1項に記載の装置が含まれている、
    ことを特徴とするチップ。
  17. 請求項17に記載のチップを含む、
    ことを特徴とする電子設備。
  18. 請求項1乃至請求項16のいずれか1項に記載の装置を使用する方法であって、
    制御回路は、制御命令を生成してメモリ、データ幅調節回路と演算回路に伝送し、
    メモリは、受信した制御命令に基づいて演算回路にニューラルネットワークの演算予定データを入力し、
    データ幅調節回路は、受信した制御命令に基づいてニューラルネットワークの演算予定データの幅を調節し、
    演算回路は、入力された演算予定データとニューラルネットワークのパラメータ及び制御命令に基づいて、計算ビット幅が異なるニューラルネットワークの演算予定データに対して演算を行い、演算結果をメモリにリターンさせる、
    ことを特徴とする装置を使用する方法。
  19. 前記データ幅調節回路は、
    メモリ中のデータに対してデータ幅を調節する入力データ処理モジュールと、
    演算回路が演算した後のデータに対してデータ幅を調節した後、メモリに記憶させる出力データ処理モジュールと、を含む、
    ことを特徴とする請求項19に記載の方法。
  20. ニューラルネットワークの演算予定データ幅の調節は、
    精度を落とさない状態で、データのビット幅に対して増加、減少、不変にする、
    精度損失の設定が可能な状態で、データのビット幅に対して増加、減少、不変にする、
    指定の変換又は演算要求に基づいて、データのビット幅に対して増加、減少、不変にする、方式の中で少なくとも一つを含む、
    ことを特徴とする請求項20に記載の方法。
  21. 前記メモリは、
    ニューラルネットワークの演算予定データを記憶する入力記憶モジュールと、
    中間演算結果と最終演算結果を記憶する出力記憶モジュールと、
    データのキャッシュを記憶するキャッシュモジュールと、を含み、
    前記入力記憶モジュールは、
    ニューロンパラメータを記憶するニューロン記憶モジュールと、
    シナプスパラメータを記憶する記憶モジュールと、を含み、
    前記出力記憶モジュールは、
    中間演算結果を記憶する中間演算結果記憶サブモジュールと、
    最終演算結果を記憶する最終演算結果記憶サブモジュールと、を含む、
    ことを特徴とする請求項19又は請求項20に記載の方法。
  22. 複数の演算モジュールを設定し、一つ又は複数のシナプスモジュールとそれぞれ対応させ、演算するとき、入力記憶モジュールはすべての演算モジュールに入力データを伝送し、シナプス記憶モジュールは対応する演算モジュールにシナプスデータを伝送し、演算モジュールは演算後、結果を出力記憶モジュールに記憶させる、
    ことを特徴とする請求項19に記載の方法。
  23. 第1演算モジュールを利用してビット幅が異なるデータの演算を行うことを更に含み、
    加法器および乗法器を利用してニューラルネットワークの中のビット幅が異なるデータの演算を加速化する、ことを含む、
    ことを特徴とする請求項19乃至請求項23のいずれか1項に記載の方法。
  24. 計算ビット幅が異なるニューラルネットワークの演算予定データに対する演算は、ビットシリアル加算ツリーを利用してビット幅が異なるデータに対する演算を含み、
    M個の演算予定データを設定し、ここで、最大ビット幅はNであり、M,Nはすべて正の整数であり、Nビット幅のデータが不足する場合、同ビット数をNビットまで補充し、
    ビットシリアル加算ツリーにはx+1層を含み、ここで、xは正の整数であり、第一層から第x層までの加法器はビット数字に対する加法演算nを行い、n≧1であり、第X+1層の加法器はNビットより少ない数字に対する加法演算を行い、
    まず、レジスタ、各加法器の中にあるキャリー出力端子Cinを0に初期化し、各演算予定データの最下位のnビットを取って、各々第1層にある加法器のa,b端子に入力し、各加法器ではa,b端子に入力された演算予定データの最下位のnビットに対する加法演算を行い、取得した結果値sを1層高い層にある加法器のa又はb端子に伝送し、取得したキャリー値Coutを同層にある加法器のキャリーポータルCinに伝送し、次回のクロックを待って、入力された演算予定データと加法演算を行い、
    上の一層にある加法器の操作も類似し、入力されたデータに対して加法演算を行った後、演算結果を再度、一層高い層に伝達し、キャリーを同層の加法器に伝達し、第x層に到達するまで第x層の加法器は演算結果をシフトし、レジスタから送られる元の結果と加法演算を行った後にレジスタに記憶させ、その後、演算予定データは順次に低いnビットを選択してビットシリアル加算ツリーに送って相応する演算を行う、
    ことを特徴とする請求項24に記載の方法。
  25. ビットシリアル加算ツリーを利用してビット幅が異なるデータの演算を行うとき、
    第1層の加法器が演算を行った後、第2番目の演算予定のnビットデータを入力すること、を更に含む、
    ことを特徴とする請求項25に記載の方法。
  26. ビットシリアル加算ツリーを利用してビット幅が異なるデータの演算をするとき、
    前記加法器は同加法器に演算予定データを入力させるa,b端子及びキャリーポータルCin端子がすべて0の状態で、当該演算過程から遮断されること、を更に含む、
    ことを特徴とする請求項24に記載の方法。
  27. 計算ビット幅が異なるニューラルネットワークの演算予定データに対する演算は、ビットシリアル演算器を利用した演算を含み、ここで、
    演算ユニットを利用して演算予定データを入力し、一ビット又は複数ビットのデータに対する乗算及び/又は加法演算を行って演算結果を出力し、
    メモリユニットを利用して演算結果を入力して記憶させ、
    処理ユニットを利用して演算結果を入力し、データのシフト、設定されたルールに基づくデータのビット幅の拡大又は縮小、特定設定ルールに基づくデータの一ビットまたは複数ビットに対する操作に用いられる、
    ことを特徴とする請求項19に記載の方法。
  28. 前記計算ビット幅が異なるニューラルネットワークの演算予定データに対する演算は、第1ベース乗法器を利用したビット幅が異なるデータの演算を含み、
    乗法記憶ユニットを利用して乗数を記憶させ、前記乗数のビット幅はNビットであり、
    第1シフトレジスタを利用して、毎回乗数の低いNビットをシフトし、シフト操作を行った後の乗数を再度乗法記憶ユニットに送り、ここで1<n≦Nであり、
    入力選択回路を利用して、毎回乗数の低いnビットと被乗数を入力させ、乗数の低いnビットの中にある各ビットの値は各々乗数とAND演算を行ってAND演算結果を取得し、
    第2シフトレジスタを利用して、AND演算結果を入力し且つシフトを行い、
    加法器を利用してシフトしたデータを入力し且つ加算し、
    結果レジスタを利用して、加法器の加算した結果を記憶させ且つ加算した結果を再度加法器に入力させて次回の加算に参加させる、
    ことを特徴とする請求項19に記載の方法。
  29. 計算ビット幅が異なるニューラルネットワークの演算予定データに対する演算は、第2ベース乗法器を利用してビット幅が異なるデータの演算を行うことを含み、
    乗法記憶ユニットを利用して乗数を記憶させ、前記乗数のビット幅はNビットであり、
    第1シフトレジスタを利用して毎回乗数の低いNビットをシフトし、シフト操作を行った後の乗数を再度乗法記憶ユニットに送り、ここで1<n≦Nであり、
    バックアップレジスタを利用してシフトした乗数を一時記憶させ、
    入力選択回路を利用して、毎回乗数の低いnビットと被乗数を入力させ、乗数の低いnビットの中の各ビットの値と各々乗数とAND演算を行って、AND演算結果を取得し、
    第2シフトレジスタを利用して、AND演算結果を入力し且つシフトを行い、
    第3のシフトレジスタを利用して、AND演算結果を入力し且つシフトを行い、
    加法器を利用してシフトした後のデータを入力して加算し、
    結果レジスタを利用して、加法器の加算した結果を記憶し且つ加算した結果を再度加法器に入力させて次回の加算に参加させる、
    ことを特徴とする請求項19に記載の方法。
  30. 計算ビット幅が異なるニューラルネットワークの演算予定データに対する演算は、スパース乗法器を利用してビット幅が異なるデータに対する演算を行うことを含み、
    乗法記憶ユニットを利用して乗数を記憶させ、前記乗数はスパース方式で示し、ビット幅はNビットであり、
    入力選択回路を利用して毎回乗数の低いビットから乗数値が1のビットを選択し、
    第1シフトレジスタを利用して毎回ビット数が1以下のすべての低いビットをシフトし、且つ、再度乗法記憶ユニットに伝送して次の乗数とし、
    第2シフトレジスタを利用して、前記ビット数が1のビットに基づいてシフト操作を行い、
    加法器を利用してシフトしたデータを入力して加算し、
    結果レジスタを利用して加法器の加算結果を記憶し、
    第3シフトレジスタを利用して数値が1のビットに基づいて結果レジスタにある結果に対してシフトした後に再度加法器に入力させて次の演算に参加させる、
    ことを特徴とする請求項19に記載の方法。
  31. 計算ビット幅が異なるニューラルネットワークの演算予定データに対する演算は、演算回路を通じてすべての連結層及び/又はプーリング層に対する演算を含む、
    ことを特徴とする請求項19乃至請求項32のいずれか1項に記載の方法。
  32. 前記演算回路は受信した制御命令に基づいて第1演算モジュール中の対応する類型の乗法器と加法器回路を選択する、
    ことを特徴とする請求項19に記載の方法。
JP2019549467A 2017-04-19 2018-04-17 処理装置、チップ、電子設備及び方法 Active JP6865847B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
CN201710256445.X 2017-04-19
CN201710256445.XA CN108733412B (zh) 2017-04-19 2017-04-19 一种运算装置和方法
CN201710269049.0A CN108734288B (zh) 2017-04-21 2017-04-21 一种运算方法及装置
CN201710269049.0 2017-04-21
CN201710264686.9 2017-04-21
CN201710264686.9A CN108733408A (zh) 2017-04-21 2017-04-21 计数装置及计数方法
CN201710269106.5 2017-04-21
CN201710269106.5A CN108734281A (zh) 2017-04-21 2017-04-21 处理装置、处理方法、芯片及电子装置
PCT/CN2018/083415 WO2018192500A1 (zh) 2017-04-19 2018-04-17 处理装置和处理方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019228383A Division JP6821002B2 (ja) 2017-04-19 2019-12-18 処理装置と処理方法

Publications (2)

Publication Number Publication Date
JP2020518042A true JP2020518042A (ja) 2020-06-18
JP6865847B2 JP6865847B2 (ja) 2021-04-28

Family

ID=63856461

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019549467A Active JP6865847B2 (ja) 2017-04-19 2018-04-17 処理装置、チップ、電子設備及び方法
JP2019228383A Active JP6821002B2 (ja) 2017-04-19 2019-12-18 処理装置と処理方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2019228383A Active JP6821002B2 (ja) 2017-04-19 2019-12-18 処理装置と処理方法

Country Status (6)

Country Link
US (5) US11531540B2 (ja)
EP (3) EP3654172A1 (ja)
JP (2) JP6865847B2 (ja)
KR (2) KR102258414B1 (ja)
CN (1) CN109121435A (ja)
WO (1) WO2018192500A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10554382B2 (en) * 2017-06-27 2020-02-04 Amazon Technologies, Inc. Secure models for IoT devices
US11350360B2 (en) 2017-06-27 2022-05-31 Amazon Technologies, Inc. Generating adaptive models for IoT networks
CN107844322B (zh) * 2017-07-20 2020-08-04 上海寒武纪信息科技有限公司 用于执行人工神经网络正向运算的装置和方法
CN108228696B (zh) * 2017-08-31 2021-03-23 深圳市商汤科技有限公司 人脸图像检索方法和系统、拍摄装置、计算机存储介质
US11275713B2 (en) * 2018-06-09 2022-03-15 International Business Machines Corporation Bit-serial linear algebra processor
CN109492241B (zh) * 2018-08-10 2020-03-10 中科寒武纪科技股份有限公司 转换方法、装置、计算机设备和存储介质
US11537853B1 (en) 2018-11-28 2022-12-27 Amazon Technologies, Inc. Decompression and compression of neural network data using different compression schemes
KR102562320B1 (ko) * 2018-12-24 2023-08-01 삼성전자주식회사 비트 연산 기반의 뉴럴 네트워크 처리 방법 및 장치
CN112085176B (zh) * 2019-06-12 2024-04-12 安徽寒武纪信息科技有限公司 数据处理方法、装置、计算机设备和存储介质
EP3998554A4 (en) * 2019-06-12 2023-11-15 Shanghai Cambricon Information Technology Co., Ltd METHOD FOR DETERMINING QUANTIZATION PARAMETERS IN A NEURONAL NETWORK AND ASSOCIATED PRODUCTS
CN110766155A (zh) * 2019-09-27 2020-02-07 东南大学 一种基于混合精度存储的深度神经网络加速器
CN110750232B (zh) * 2019-10-17 2023-06-20 电子科技大学 一种基于sram的并行乘加装置
CN110909869B (zh) * 2019-11-21 2022-08-23 浙江大学 一种基于脉冲神经网络的类脑计算芯片
CN110991633B (zh) * 2019-12-04 2022-11-08 电子科技大学 一种基于忆阻网络的残差神经网络模型及其应用方法
CN111105581B (zh) * 2019-12-20 2022-03-15 上海寒武纪信息科技有限公司 智能预警方法及相关产品
CN111047037A (zh) * 2019-12-27 2020-04-21 北京市商汤科技开发有限公司 数据处理方法、装置、设备及存储介质
CN111176582A (zh) * 2019-12-31 2020-05-19 北京百度网讯科技有限公司 矩阵存储方法、矩阵访问方法、装置和电子设备
US20210241080A1 (en) * 2020-02-05 2021-08-05 Macronix International Co., Ltd. Artificial intelligence accelerator and operation thereof
US11593628B2 (en) * 2020-03-05 2023-02-28 Apple Inc. Dynamic variable bit width neural processor
KR102414582B1 (ko) * 2020-04-29 2022-06-28 한국항공대학교산학협력단 신경망 모델의 추론 속도 향상 장치 및 방법
JP2023525371A (ja) * 2020-05-14 2023-06-15 ザ ガバニング カウンシル オブ ザ ユニバーシティ オブ トロント 深層学習ネットワークのためのメモリ圧縮のシステム及び方法
US11783163B2 (en) * 2020-06-15 2023-10-10 Arm Limited Hardware accelerator for IM2COL operation
CN111930671A (zh) * 2020-08-10 2020-11-13 中国科学院计算技术研究所 异构智能处理器、处理方法及电子设备
US11427290B2 (en) 2020-08-31 2022-08-30 Mike Scheck Anchor rescue system
CN112183732A (zh) * 2020-10-22 2021-01-05 中国人民解放军国防科技大学 卷积神经网络加速方法、装置和计算机设备
CN112099898B (zh) * 2020-11-06 2021-02-09 广州市玄武无线科技股份有限公司 一种基于Web前端的表格处理系统及方法
CN112765936B (zh) * 2020-12-31 2024-02-23 出门问问(武汉)信息科技有限公司 一种基于语言模型进行运算的训练方法及装置
CN113434113B (zh) * 2021-06-24 2022-03-11 上海安路信息科技股份有限公司 基于静态配置数字电路的浮点数乘累加控制方法及系统
CN113642724B (zh) * 2021-08-11 2023-08-01 西安微电子技术研究所 一种高带宽存储的cnn加速器
KR102395744B1 (ko) * 2021-09-16 2022-05-09 오픈엣지테크놀로지 주식회사 데이터 스케일을 고려한 덧셈 연산 방법 및 이를 위한 하드웨어 가속기, 이를 이용한 컴퓨팅 장치
KR102442577B1 (ko) * 2022-03-08 2022-09-13 주식회사 마키나락스 개발환경을 제공하는 방법
KR20230132343A (ko) * 2022-03-08 2023-09-15 주식회사 마키나락스 개발환경을 제공하는 방법
US20240080423A1 (en) * 2022-09-02 2024-03-07 Samsung Electronics Co., Ltd. Fusion techniques for combining most significant bits and least significant bits of image data in image processing or other applications

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328647A1 (en) * 2015-05-08 2016-11-10 Qualcomm Incorporated Bit width selection for fixed point neural networks
US20170102920A1 (en) * 2015-10-08 2017-04-13 Via Alliance Semiconductor Co., Ltd. Neural network unit that performs stochastic rounding
CN109416754A (zh) * 2016-05-26 2019-03-01 多伦多大学管理委员会 用于深度神经网络的加速器

Family Cites Families (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2639461A1 (fr) * 1988-11-18 1990-05-25 Labo Electronique Physique Arrangement bidimensionnel de points memoire et structure de reseaux de neurones utilisant un tel arrangement
DE69031842T2 (de) * 1989-02-20 1998-04-16 Fujitsu Ltd Lernsystem und Lernverfahren für eine Datenverarbeitungsvorrichtung
JPH02287862A (ja) * 1989-04-28 1990-11-27 Toshiba Corp ニューラルネットワーク演算装置
US5086479A (en) * 1989-06-30 1992-02-04 Hitachi, Ltd. Information processing system using neural network learning function
DE69032391T2 (de) * 1989-11-13 1998-10-29 Harris Corp Mehrere Bit umkodierender Multiplizierer
JPH0820942B2 (ja) * 1991-09-26 1996-03-04 インターナショナル・ビジネス・マシーンズ・コーポレイション 高速乗算器
JPH0652132A (ja) * 1992-07-28 1994-02-25 Mitsubishi Electric Corp 並列演算半導体集積回路装置およびそれを用いたシステム
JPH06139217A (ja) * 1992-10-29 1994-05-20 Hitachi Ltd 高精度演算処理装置および方法
US6601051B1 (en) * 1993-08-09 2003-07-29 Maryland Technology Corporation Neural systems with range reducers and/or extenders
US5630024A (en) * 1994-01-19 1997-05-13 Nippon Telegraph And Telephone Corporation Method and apparatus for processing using neural network with reduced calculation amount
JPH0973440A (ja) * 1995-09-06 1997-03-18 Fujitsu Ltd コラム構造の再帰型ニューラルネットワークによる時系列トレンド推定システムおよび方法
US6049793A (en) * 1996-11-15 2000-04-11 Tomita; Kenichi System for building an artificial neural network
US6718457B2 (en) * 1998-12-03 2004-04-06 Sun Microsystems, Inc. Multiple-thread processor for threaded software applications
JP2001117900A (ja) * 1999-10-19 2001-04-27 Fuji Xerox Co Ltd ニューラルネットワーク演算装置
KR20030009682A (ko) * 2001-07-23 2003-02-05 엘지전자 주식회사 가산기 기반 분산 연산의 가산 공유 정보 추출을 위한신경망 알고리즘 구현 방법
WO2005050396A2 (en) * 2003-11-18 2005-06-02 Citigroup Global Markets, Inc. Method and system for artificial neural networks to predict price movements in the financial markets
WO2005109221A2 (en) 2004-05-03 2005-11-17 Silicon Optix A bit serial processing element for a simd array processor
US7398347B1 (en) * 2004-07-14 2008-07-08 Altera Corporation Methods and apparatus for dynamic instruction controlled reconfigurable register file
US7609609B2 (en) * 2004-11-16 2009-10-27 Samsung Electronics Co., Ltd. Apparatus and method for processing digital signal in an OFDMA wireless communication system
US7428521B2 (en) * 2005-06-29 2008-09-23 Microsoft Corporation Precomputation of context-sensitive policies for automated inquiry and action under uncertainty
US8543343B2 (en) * 2005-12-21 2013-09-24 Sterling Planet, Inc. Method and apparatus for determining energy savings by using a baseline energy use model that incorporates an artificial intelligence algorithm
US7881889B2 (en) * 2005-12-21 2011-02-01 Barclay Kenneth B Method and apparatus for determining energy savings by using a baseline energy use model that incorporates an artificial intelligence algorithm
US7451122B2 (en) * 2006-03-29 2008-11-11 Honeywell International Inc. Empirical design of experiments using neural network models
GB2447428A (en) * 2007-03-15 2008-09-17 Linear Algebra Technologies Lt Processor having a trivial operand register
CN100492415C (zh) 2007-04-20 2009-05-27 哈尔滨工程大学 柴油机运行数据记录方法
US8055886B2 (en) * 2007-07-12 2011-11-08 Texas Instruments Incorporated Processor micro-architecture for compute, save or restore multiple registers and responsive to first instruction for repeated issue of second instruction
CN101359453A (zh) * 2007-07-31 2009-02-04 奇美电子股份有限公司 数据处理装置与其数据处理方法
US7694112B2 (en) * 2008-01-31 2010-04-06 International Business Machines Corporation Multiplexing output from second execution unit add/saturation processing portion of wider width intermediate result of first primitive execution unit for compound computation
CN101527010B (zh) 2008-03-06 2011-12-07 上海理工大学 人工神经网络算法的硬件实现方法及其系统
US8521801B2 (en) 2008-04-28 2013-08-27 Altera Corporation Configurable hybrid adder circuitry
CN101309430A (zh) * 2008-06-26 2008-11-19 天津市亚安科技电子有限公司 基于fpga的视频图像预处理器
CN101685388B (zh) 2008-09-28 2013-08-07 北京大学深圳研究生院 执行比较运算的方法和装置
CN101599828A (zh) * 2009-06-17 2009-12-09 刘霁中 一种高效的rsa加解密方法及其协处理器
US8468191B2 (en) 2009-09-02 2013-06-18 Advanced Micro Devices, Inc. Method and system for multi-precision computation
US8712940B2 (en) * 2011-05-31 2014-04-29 International Business Machines Corporation Structural plasticity in spiking neural networks with symmetric dual of an electronic neuron
KR101303591B1 (ko) * 2011-10-07 2013-09-11 전자부품연구원 통합형 서포트 벡터 머신 회로 장치
US20140108480A1 (en) 2011-12-22 2014-04-17 Elmoustapha Ould-Ahmed-Vall Apparatus and method for vector compute and accumulate
CN102750127B (zh) * 2012-06-12 2015-06-24 清华大学 一种协处理器
CN103699360B (zh) 2012-09-27 2016-09-21 北京中科晶上科技有限公司 一种向量处理器及其进行向量数据存取、交互的方法
CN103019656B (zh) * 2012-12-04 2016-04-27 中国科学院半导体研究所 可动态重构的多级并行单指令多数据阵列处理系统
US9563401B2 (en) 2012-12-07 2017-02-07 Wave Computing, Inc. Extensible iterative multiplier
US9110657B2 (en) 2013-01-21 2015-08-18 Tom Yap Flowchart compiler for a compound complex instruction set computer (CCISC) processor architecture
US9189200B1 (en) * 2013-03-14 2015-11-17 Altera Corporation Multiple-precision processing block in a programmable integrated circuit device
US9558743B2 (en) * 2013-03-15 2017-01-31 Google Inc. Integration of semantic context information
US9037945B2 (en) * 2013-03-26 2015-05-19 Seagate Technology Llc Generating partially sparse generator matrix for a quasi-cyclic low-density parity-check encoder
CN203299808U (zh) * 2013-04-16 2013-11-20 西华大学 位串行加法器
JP6042274B2 (ja) * 2013-06-28 2016-12-14 株式会社デンソーアイティーラボラトリ ニューラルネットワーク最適化方法、ニューラルネットワーク最適化装置及びプログラム
KR20150016089A (ko) * 2013-08-02 2015-02-11 안병익 신경망 컴퓨팅 장치 및 시스템과 그 방법
US9513907B2 (en) 2013-08-06 2016-12-06 Intel Corporation Methods, apparatus, instructions and logic to provide vector population count functionality
US9495155B2 (en) 2013-08-06 2016-11-15 Intel Corporation Methods, apparatus, instructions and logic to provide population count functionality for genome sequencing and alignment
US10068170B2 (en) * 2013-09-23 2018-09-04 Oracle International Corporation Minimizing global error in an artificial neural network
US10373047B2 (en) * 2014-02-28 2019-08-06 Educational Testing Service Deep convolutional neural networks for automated scoring of constructed responses
CN105207794B (zh) 2014-06-05 2019-11-05 南京中兴软件有限责任公司 统计计数设备及其实现方法、具有统计计数设备的系统
CN104699458A (zh) 2015-03-30 2015-06-10 哈尔滨工业大学 定点向量处理器及其向量数据访存控制方法
CN105005911B (zh) 2015-06-26 2017-09-19 深圳市腾讯计算机系统有限公司 深度神经网络的运算系统及运算方法
KR101778679B1 (ko) * 2015-10-02 2017-09-14 네이버 주식회사 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템
CN106485319B (zh) 2015-10-08 2019-02-12 上海兆芯集成电路有限公司 具有神经处理单元可动态配置以执行多种数据尺寸的神经网络单元
CN105426160B (zh) 2015-11-10 2018-02-23 北京时代民芯科技有限公司 基于sprac v8指令集的指令分类多发射方法
CN105512724B (zh) * 2015-12-01 2017-05-10 中国科学院计算技术研究所 加法器装置、数据累加方法及数据处理装置
CN105913118B (zh) * 2015-12-09 2019-06-04 上海大学 一种基于概率计算的人工神经网络硬件实现装置
WO2017112796A1 (en) * 2015-12-21 2017-06-29 Google Inc. Automatic suggestions and other content for messaging applications
CN107609642B (zh) * 2016-01-20 2021-08-31 中科寒武纪科技股份有限公司 计算装置和方法
CN106066783A (zh) 2016-06-02 2016-11-02 华为技术有限公司 基于幂次权重量化的神经网络前向运算硬件结构
US11295203B2 (en) * 2016-07-27 2022-04-05 International Business Machines Corporation Optimizing neuron placement in a neuromorphic system
CN106484366B (zh) * 2016-10-17 2018-12-14 东南大学 一种二元域位宽可变模乘运算器
CN106447034B (zh) 2016-10-27 2019-07-30 中国科学院计算技术研究所 一种基于数据压缩的神经网络处理器、设计方法、芯片
US11003985B2 (en) * 2016-11-07 2021-05-11 Electronics And Telecommunications Research Institute Convolutional neural network system and operation method thereof
US10083162B2 (en) * 2016-11-28 2018-09-25 Microsoft Technology Licensing, Llc Constructing a narrative based on a collection of images
US10546575B2 (en) * 2016-12-14 2020-01-28 International Business Machines Corporation Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier
US10249292B2 (en) * 2016-12-14 2019-04-02 International Business Machines Corporation Using long short-term memory recurrent neural network for speaker diarization segmentation
US10691996B2 (en) * 2016-12-15 2020-06-23 Beijing Deephi Intelligent Technology Co., Ltd. Hardware accelerator for compressed LSTM
US11250311B2 (en) * 2017-03-15 2022-02-15 Salesforce.Com, Inc. Deep neural network-based decision network
US20180314963A1 (en) * 2017-04-19 2018-11-01 AIBrain Corporation Domain-independent and scalable automated planning system using deep neural networks
US20180314942A1 (en) * 2017-04-19 2018-11-01 AIBrain Corporation Scalable framework for autonomous artificial intelligence characters
EP3452787B1 (en) * 2017-04-27 2020-12-23 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for route planning
US11170287B2 (en) * 2017-10-27 2021-11-09 Salesforce.Com, Inc. Generating dual sequence inferences using a neural network model
CN109522254B (zh) * 2017-10-30 2022-04-12 上海寒武纪信息科技有限公司 运算装置及方法
US10599391B2 (en) * 2017-11-06 2020-03-24 Google Llc Parsing electronic conversations for presentation in an alternative interface
US10365340B1 (en) * 2018-03-01 2019-07-30 Siemens Medical Solutions Usa, Inc. Monitoring dynamics of patient brain state during neurosurgical procedures
US10497366B2 (en) * 2018-03-23 2019-12-03 Servicenow, Inc. Hybrid learning system for natural language understanding
US11526728B2 (en) * 2018-04-09 2022-12-13 Microsoft Technology Licensing, Llc Deep learning model scheduling
CN109829451B (zh) * 2019-03-22 2021-08-24 京东方科技集团股份有限公司 生物体动作识别方法、装置、服务器及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328647A1 (en) * 2015-05-08 2016-11-10 Qualcomm Incorporated Bit width selection for fixed point neural networks
US20170102920A1 (en) * 2015-10-08 2017-04-13 Via Alliance Semiconductor Co., Ltd. Neural network unit that performs stochastic rounding
CN109416754A (zh) * 2016-05-26 2019-03-01 多伦多大学管理委员会 用于深度神经网络的加速器

Also Published As

Publication number Publication date
US11698786B2 (en) 2023-07-11
JP6821002B2 (ja) 2021-01-27
EP3654172A1 (en) 2020-05-20
US11531541B2 (en) 2022-12-20
EP3786786B1 (en) 2023-06-07
US20200117976A1 (en) 2020-04-16
US20200050918A1 (en) 2020-02-13
KR102292349B1 (ko) 2021-08-20
JP6865847B2 (ja) 2021-04-28
KR20200000480A (ko) 2020-01-02
US11734002B2 (en) 2023-08-22
JP2020074099A (ja) 2020-05-14
EP3614259A1 (en) 2020-02-26
US11720353B2 (en) 2023-08-08
US20200097792A1 (en) 2020-03-26
CN109121435A (zh) 2019-01-01
WO2018192500A1 (zh) 2018-10-25
KR20190139837A (ko) 2019-12-18
US20200097795A1 (en) 2020-03-26
KR102258414B1 (ko) 2021-05-28
EP3786786A1 (en) 2021-03-03
US11531540B2 (en) 2022-12-20
US20200097794A1 (en) 2020-03-26
EP3614259A4 (en) 2021-02-24
EP3786786C0 (en) 2023-06-07

Similar Documents

Publication Publication Date Title
JP6821002B2 (ja) 処理装置と処理方法
CN109117948B (zh) 画风转换方法及相关产品
KR102486030B1 (ko) 완전연결층 신경망 정방향 연산 실행용 장치와 방법
CN108874744A (zh) 矩阵乘积累加运算的广义加速
KR20200143685A (ko) 연산을 가속하기 위한 방법 및 가속기 장치
CN108733348B (zh) 融合向量乘法器和使用其进行运算的方法
KR20200143686A (ko) 연산을 가속하기 위한 가속기 및 시스템
CN110073329A (zh) 访存设备、计算设备和应用于卷积神经网络运算的设备
US11880426B2 (en) Integer matrix multiplication engine using pipelining
US11934308B2 (en) Processor cluster address generation
US20190130268A1 (en) Tensor radix point calculation in a neural network
CN114118354A (zh) 高效的softmax计算
CN111445003A (zh) 神经网络生成器
US10997102B2 (en) Multidimensional address generation for direct memory access
CN112051981B (zh) 一种数据流水线计算路径结构及单线程数据流水线系统
US20190130276A1 (en) Tensor manipulation within a neural network
CN111831582A (zh) 用于智能处理器的内存管理装置、方法及电子设备
CN116468078A (zh) 面向人工智能芯片的智能引擎处理方法和装置
CN111367567B (zh) 一种神经网络计算装置和方法
CN111831333A (zh) 用于智能处理器的指令分解方法、装置及电子设备
CN113867799A (zh) 计算装置、集成电路芯片、板卡、电子设备和计算方法
CN112052042B (zh) 一种数据流水线处理器系统
US20230376447A1 (en) Parallel processing architecture with dual load buffers
CN116400926A (zh) 面向人工智能芯片的标量引擎处理方法和装置
WO2024030351A1 (en) Parallel processing architecture with dual load buffers

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191202

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210406

R150 Certificate of patent or registration of utility model

Ref document number: 6865847

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250