JP2020074099A

JP2020074099A - 処理装置と処理方法

Info

Publication number: JP2020074099A
Application number: JP2019228383A
Authority: JP
Inventors: ティエンシチェン; Tianshi Chen; ジエウェイ; Jie Wei; ティエンズ; Tian Zhi; ザイワン; Zai Wang; シャオリリォウ; Shaoli Lio; ユィジョルオ; Yuzhe Luo; チグオ; Qi Guo; ウェイリ; Wei Li; ションユィエンジョウ; Shengyuan Zhou; ズドンドゥ; Zidong Du
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2017-04-19
Filing date: 2019-12-18
Publication date: 2020-05-14
Anticipated expiration: 2038-04-17
Also published as: EP3786786A1; US11531540B2; EP3786786C0; EP3786786B1; KR102292349B1; EP3614259A4; US20200050918A1; US20200097795A1; US20200117976A1; CN109121435A; KR20200000480A; EP3614259A1; KR20190139837A; JP6821002B2; US11720353B2; US11698786B2; US20200097794A1; US11531541B2; JP6865847B2; JP2020518042A

Abstract

【課題】柔軟性が強く、配置可能性が高く、演算スピードが速く電力消費が少ないニューラルネットワーク加速器を提供する。【解決手段】計算ビット幅の動的な配置が可能な処理装置において、ニューラルネットワークの演算予定データ、中間演算結果、最終演算結果、キャッシュ予定データを含むデータの記憶に用いられるメモリと、前演算予定データ、中間演算結果、最終演算結果及び／又はキャッシュ予定データの幅の調節に用いられるデータ幅調節回路と、ニューラルネットワークの演算予定データに対する演算に用いられる演算回路と、メモリ、データ幅調節回路、演算回路の制御に用いられる制御回路と、を含む。【選択図】図１

Description

本発明はコンピュータの分野に関し、特に人工知能分野の処理装置と処理方法に関する
。

近年、ビッグデータ時代の到来により、ニューラルネットワークアルゴリズムは、人工
知能分野で重点研究プロジェクトとなっており、パターン識別と画像解析、知能ロボット
などで広く応用されている。

深層学習方法は、機械学習のなかでデータに対する特長学習の進行に基づく一つの方法
である。観測値（例えば、画像）は、各ピクセル強度値のベクトル、またはより抽象的に
一連のエッジと特定形態で表示される領域などが挙げられる。ある特定な表示方法を利用
して実例を介してより簡単に学習させることができる（例えば表情認識や顔認識）。

今日に来て、深層ニューラルネットワークとニューラルネットワークのコンボリューシ
ョン、深層信念ニューラルネットワーク、再帰ニューラルネットワークなどのいくつかの
深層学習フレーム図がコンピュータビジョン、音声識別、自然言語処理、音響識別、生物
情報学などの分野で既に利用され、すぐれた結果をもたらした。深層学習は、既にほとん
ど専門用語、または、ニューラルネットワークと呼ばれるまでになった。

深層学習（ニューラルネットワーク）に対する研究が活発化するにつれ、ニューラルネ
ットワーク加速器が同時に出現し、専用メモリと演算モジュールの設計を通じてニューラ
ルネットワーク加速器は、深層学習演算を行うとき、汎用プロセッサに比べ数十倍ひいて
は数百倍の高速に達し、小面積化と低消費電力化を達成した。

本発明は、計算ビット幅の動的な配置が可能な処理装置を提供し、
ニューラルネットワークの演算予定データ、中間演算結果、最終演算結果、キャッシュ
予定データを含むデータの記憶に用いられるメモリと、
前記演算予定データ、中間演算結果、最終演算結果及び／又はキャッシュ予定データの
幅の調節に用いられるデータ幅調節回路と、
ニューラルネットワークの演算予定データに対する演算に用いられる演算回路と、
メモリ、データ幅調節回路、演算回路の制御に用いられる制御回路と、を含む。

本発明は更に、計算ビット幅の動的な配置が可能な処理装置の使用方法を提供し、以下
のステップを含む：
制御回路は、制御命令を生成してメモリ、データ幅調節回路と演算回路に伝送し、
メモリは、受信した制御命令に基づいて演算回路にニューラルネットワークの演算予定
データを入力し、
データ幅調節回路は、受信した制御命令に基づいてニューラルネットワークの演算予定
データの幅を調節し、
演算回路は受信した制御命令に基づいて、第１演算モジュール中の対応する類型の乗法
器と加法器回路を選択し、
演算回路は、入力された演算予定データとニューラルネットワークのパラメータ及び制
御命令に基づいて、計算ビット幅が異なるニューラルネットワークの演算予定データに対
して演算を行う。

本発明は更に処理装置を提供し、データの記憶に利用されるメモリ、前記データは、ニ
ューラルネットワークの演算予定データを含み；ニューラルネットワークの演算予定デー
タに対する演算に利用される演算回路、加法器回路と乗法器を利用して計算ビット幅が異
なるニューラルネットワークの演算予定データの計算を含み；メモリと演算回路の制御に
利用される制御回路、演算予定データに基づいて演算回路の乗法器と加法器回路の類型を
選択して演算を行い、演算結果をメモリにリターンさせる。

本発明は更に前記処理装置を使用する方法を提供し、次のステップを含む：制御回路は
制御命令を生成して、メモリと演算回路に伝送し；メモリは受信した制御命令に基づいて
演算回路にニューラルネットワークの演算予定データを入力し；演算回路は入力された制
御命令に基づいて、第１演算モジュール中の対応する類型の乗法器と加法器回路を選択し
；演算回路は入力された演算予定データとニューラルネットワークのパラメータ及び制御
命令に基づいて、計算ビット幅が異なるニューラルネットワークの演算予定データに対す
る演算を行い、演算結果をメモリにリターンさせる。

本発明は更に演算装置を提供し、入力データの取得に利用される入力モジュール、該入
力データは、処理予定データ、ネットワーク構造、ウェイトデータを含み、または、該入
力データは、処理予定データ及び／又はオフラインモデルデータを含み；入力されるネッ
トワーク構造とウェイトデータに基づいてオフラインモデルの生成に用いられるモデル生
成モジュール；オフラインモデルに基づいて演算命令を生成しながらキャッシュ記憶させ
、演算命令に基づいて演算予定データに対する演算を行い、演算結果の取得に用いられる
ニューラルネットワーク演算モジュール；前記演算結果の出力に用いられる出力モジュー
ル；入力データの類型を検出しながら入力モジュールとモデル生成モジュール、ニューラ
ルネットワーク演算モジュールの制御と演算に用いられる制御モジュール；を含む。

本発明は更に前記演算装置を利用した演算方法を提供し、次のステップを含む：
入力データの取得；
オフラインモデルの取得、或いは、入力データに基づいてオフラインモデルを確定し、
オフラインモデルに基づいて演算命令を確定し、次の計算で呼出できるようにする；
前記演算命令を呼び出して、処理予定データに対する演算を行って演算結果を求めて出
力する。

本発明は、複合スカラ命令をサポートする装置を提供し、制御装置モジュール、記憶モ
ジュール、演算装置モジュールを含み、ここで、前記記憶モジュールは、複合スカラ命令
とデータの記憶に用いられ、前記データは一種類以上あり、相異なる類型のデータは、記
憶モジュールの相異なるアドレスに記憶され；前記制御装置モジュールは、記憶モジュー
ルから複合スカラ命令を読み出し且つ制御命令への解読に用いられ；前記演算装置モジュ
ールは制御命令を受信し、前記記憶モジュールからデータを読出し、読出しデータのアド
レスに基づいてデータの類型を判断し、且つ、データに対して演算する。

本発明は更に複合スカラ命令の実行に利用するプロセッサを提供し、ここで、この複合
スカラ命令は、操作コードフィールド、オペランドアドレスフィールド、宛先アドレスフ
ィールドを含み；前記操作コードフィールドに記憶される操作コードは、異なる類型の操
作の区別に利用され、前記オペランドアドレスフィールドは、オペランドの類型の区別に
利用され、前記宛先アドレスフィールドは、演算結果が記憶されるアドレスである。

本発明は更に複合スカラ命令に対する実行方法を提供し、次のステップを含む：異なる
類型のデータを異なるアドレスに記憶させ；複合スカラ命令を制御命令として解読し；
制御命令に基づいて操作データを読み出し、読み出した操作データのアドレスに基づい
て操作データの類型を判断し、操作データに対して演算を行い；演算結果を対応する類型
のアドレスに記憶させる。

本発明は更に計算装置を提供し、レジスタユニット、カウントユニット、記憶ユニット
を含み、ここで、レジスタユニットは、カウントしようとする入力データが記憶ユニット
に記憶されているアドレスを記録し；カウントユニットはレジスタユニットに連結され、
カウント命令の取得に用いられ、カウント命令に従ってレジスタユニットから入力データ
のメモリアドレスを読み出し、記憶ユニットでカウントしようとする対応の入力データを
取得し、且つ、入力データの中で与えられた条件を満足させるエレメント数を統計カウン
トしてカウント結果を得られ；記憶ユニットはカウントユニット連結され、カウントしよ
うとする対応の入力データ及び前記カウント結果を記憶するのに用いられる。

本発明は更に前記カウント装置のカウント方法を提供し、次のステップを含む：カウン
トユニットはカウント命令を取得し、カウント命令がレジスタユニットから読み出した入
力データのメモリアドレスに基づいて記憶ユニットでカウントしようとする対応の入力デ
ータ読み出しながら入力データのなかで与えられた条件を満足させるエレメント数を統計
カウントして、カウント結果を取得し；統計したカウント結果を記憶ユニットに伝送する
。

本発明の実施形態における技術的方法をより正確に説明するために、以下、実施例にお
ける使用すべき図面について簡単に紹介する。当然ながら、これら図面は、本発明の一部
の実施例に過ぎず、当業者にとって、創造的努力をしない前提で、これら図面に基づいて
ほかの図面を取得することができる。
図１は、本発明の実施例で提供する計算ビット幅を動的に配置できる処理装置の構造原理図である。図２は、本発明の実施例で提供する計算ビット幅を動的に配置できる処理装置の構造原理図である。図３は、本発明の実施例で提供する計算ビット幅を動的に配置できる処理装置の構造原理図である。図４は、本発明のほかの実施例で提供する計算ビット幅を動的に配置できる処理装置の構造原理図である。図５は、本発明の更にほかの実施例でこの装置に利用するビットシリアル加算ツリー装置の原理図である。図６は、本発明で提供する計算ビット幅を動的に配置できる処理装置の中にあるビットシリアル演算装置の構成原理図である。図７は、本発明で提供するある実施例にある第１ベース乗法器の構造原理図である。図８は、本発明で提供するある実施例にある第２ベース乗法器の構造原理図である。図９は、本発明で提供するある実施例にあるスパース乗法器の構造原理図である。図１０は、本発明で提供するある実施例でベース乗法器あるいはスパース乗法器がベクトル乗算を行う装置構造原理図である。図１１は、本発明で提供するある実施例で融合ベクトル乗法器がベクトル乗算を行う装置構造原理図である。図１２は、本発明で提供する融合ベクトル乗法器とほかの乗法器の具体的な実行流れに関する構造原理図である。図１３は、本発明のある実施例で第２ベース乗法器とビットシリアル加算ツリーを組み合わせる原理図である。図１４は、本発明のある実施例で提供する計算ビット幅を動的に配置できる処理方法のフローチャートである。図１５は、本発明のほかの実施例で提供する計算ビット幅を動的に配置できる処理装置の構造原理図である。図１６は、本発明のほかの実施例で提供する計算ビット幅を動的に配置できる処理装置の構造原理図である。図１７は、本発明のもう一つの実施例で提供する計算ビット幅を動的に配置できる処理装置の構造原理図である。図１８は、本発明のもう一つの実施例で提供する計算ビット幅を動的に配置できる処理装置の構造原理図である。図１９は、本発明で提供するある実施例にあるベース乗法器の構造原理図である。図２０は、本発明で提供するある実施例にあるスパース乗法器の構造原理図である。図２１は、本発明で提供するある実施例でベクトル乗算を行うベース乗法器あるいはスパース乗法器の構造原理図である。図２２は、本発明で提供するある実施例でベクトル乗算を行う融合ベクトル乗法器の構造原理図である。図２３は、本発明で提供するスパース乗法器とほかの乗法器の具体的な実行流れに関する構造原理図である。図２４は、本発明のある実施例で提供する計算ビット幅を動的に配置できる処理方法に関するフローチャートである。図２５は、典型的なプログラミングフレーム図である。図２６は、本発明のある実施例で提供する演算方法の演算フローチャートである。図２７は、本発明のある実施例で提供する演算方法の構成図である。図２８は、本発明の実施例で提供する演算装置の構造原理図である。図２９Ａは、本発明の実施例で提供する記憶モジュールのＲＡＭ組織形式実例図である。図２９Ｂは、本発明の実施例で提供する記憶モジュールのレジスタファイル編成実例図である。図３０Ａは、本発明の実施例で提供する複合スカラ命令の実例図である。図３０Ｂは、本発明の実施例で提供するレジスタアドレス指定を利用するときの複合スカラ命令の実例図である。図３０Ｃは、本発明の実施例で提供するレジスタの間接アドレス指定を利用するときの複合スカラ命令の実例図である。図３０Ｄは、本発明の実施例で提供する直接的なアドレシングを利用するときの複合スカラ命令の実例図である。図３０Ｅは、本発明の実施例で提供するＲＡＭアドレシングを利用するときの複合スカラ命令の実例図である。図３１は、本発明の実施例で提供する複合スカラ命令を支援する演算方法のフローチャートである。図３２は、本発明の実施例にある計数装置のフレーム構造原理図である。図３３は、本発明の実施例で示した計数装置の中にある計数部の構造原理図である。図３４は、図３３に示した計数部の中にある加法器の構造原理図である。図３５は、本発明の実施例に示した計数装置において実行される計数命令の命令集合様式の原理図である。図３６は、本発明の実施例に示した計数装置の中にある計数部実行過程のフローチャートである。図３７は、本発明の実施例に示した計数装置の構造原理図である。図３８は、本発明の実施例に示した計数装置の実行過程のフローチャートである。

以下、本発明の実施例における図面と合わせて本発明の実施例で記述した技術的方法を
明確かつ完璧に記述する。もちろん記述される実施例は本発明の一部の実施例に過ぎず、
全ての実施例ではない。本発明の実施例に基づいて当業者が創造的な労働をしなかったと
いう前提条件の下で取得したあらゆる他の実施例はすべて本発明の保護の範囲に属する。

本発明における「メモリ」は、計算ビット幅を動的な配置が可能な処理装置の中に統合
させることも、個別の部品にすることもできる。外部メモリとして計算ビット幅を動的に
配置できるプロセッサとデータ伝送を行うメモリは、計算ビット幅を動的に配置できるプ
ロセッサに統合させることもでき、個別の部品にすることもできる。外部メモリとして計
算ビット幅を動的に配置できるプロセッサはデータ伝送を行う。

図１は、本実施例で提供する計算ビット幅を動的に配置できるプロセッサの構造原理図
である。図１に示したように、本装置は、制御回路、データ幅調節回路、演算回路、メモ
リを含む。

制御回路は、データ幅調節回路、演算回路、メモリに制御信号を送ることで三者の実行
を制御し、三者間のデータ伝送を調和させる。メモリは、関連データの記憶に用いられ、
入力データ（演算予定データと制御命令を含む）、中間演算結果、最終演算結果、ニュー
ロン、シナプス、キャッシュ予定データなどを含むことができる。需要に応じて、具体的
な記憶データの内容と記憶編成方式、異なる呼び出し方式を計画することができる。図１
に示したように前記データ幅調節回路は、データの幅調節に用いられる。この過程として
は、メモリからデータを読み取った後、データ幅回路を通じてデータに対するビット幅調
節を行った後、演算回路に伝達し、演算回路が計算結果をデータ幅調節回路を通じてデー
タに対するビット幅調節を行った後、メモリに伝達し、メモリはデータをデータ幅調節回
路を通じてデータに対するビット幅調節を行った後、メモリにリターンさせること等があ
る。その具体的な操作は精度を落とさない状態でデータのビット幅を増加させたり、減少
させたり、変わらないよう維持する。許す限りの精度損失がある状態でデータのビット幅
を増加させたり、減少させたり、変わらないよう維持する。ある指定された変換、あるい
は演算要求（例えば「ビットＡＮＤ演算」に従う演算を指定する場合）に基づいてデータ
のビット幅を増加させたり、減少させたり、変わらないよう維持することなどが含まれる
。演算回路には少なくとも一つの加法演算器と少なくとも一つの乗法演算器が含まれるこ
とができ、データの演算に用いられる。少なくとも一つの加法演算器には加法器、加算ツ
リー及び／又はシリアル加算ツリーが含まれ、少なくとも一つの乗法器にはベース乗法器
、スパース乗法器及び／又は融合ベクトル乗法器が含まれる。演算回路としては、コンパ
レータ及び／又はＡＬＵなどが含まれることが可能である。ここで、乗法演算器と加法演
算器は計算ビット幅が異なるデータに対して演算を満足させ、異なる需要に応じてビット
幅が異なる演算データ間の演算を行うことができる。ここで、乗法器はシリアル演算装置
としてビットシリアル方式を通じて乗法演算を行うことができる。ここで、演算回路もデ
ータビット幅調節回路を介さず直接メモリとデータ伝送するようにしても良い。

図２は、本実施例に示した計算ビット幅を動的に配置できるプロセッサの構造原理図で
ある。図２に示すように、本装置の構造は、制御回路がメモリの各モジュールあるいはサ
ブモジュールおよび演算回路とつながっており、少なくとも一つの制御信号一時メモリと
少なくとも一つの制御信号処理器を含み、制御信号一時メモリは制御信号の記憶に利用さ
れ、好ましくは、この制御信号一時メモリは先入先出である。制御信号処理器は実行しよ
うとする制御信号を読み出し、制御ロジックを分析した後、メモリ、データ幅調節回路、
演算回路を制御および調和に用いられる。メモリには入力記憶モジュール、出力記憶モジ
ュール、シナプス記憶モジュールが含まれ、ここで、出力記憶モジュールは、中間演算結
果と最終演算結果の記憶に用いられることもある。データ幅調節回路は入力データ処理モ
ジュールと出力データ処理モジュールに分けられ、入力データ処理モジュールは、入力記
憶モジュールと又シナプスモジュールの中にあるデータに対するデータ幅調節を行うこと
に利用され、それは入力記憶モジュールの後部に設置できる。出力データ処理モジュール
は演算回路が演算したデータに対する幅の調節を行った後に記憶するのに用いられる。演
算回路は、主にコンボリューション演算回路層と完全に接続された層のコンボリューショ
ン演算、プーリング層の平均値あるいは最大値を計算する演算の加速に用いられる。好ま
しくは、演算回路は乗法器モジュール、加算ツリーモジュール、非線形演算モジュール（
例えば、ｓｉｇｍｏｉｄ関数演算を実行するモジュール）が含まれる。この乗法器モジュ
ール、加算ツリーモジュール、非線形演算モジュールはパイプライン方式を利用して平行
に実行できる。本装置はコンボリュージョンニューラルネットワークの演算過程を加速化
し、チップ内部とチップ外部でのデータ交換を減らし、記憶空間を節約できる。

図３は、公開されたほかの実施例に示した処理装置の構造原理図である。図３に示した
ように本装置の構造としては、制御回路はメモリの各モジュール及び演算回路と接続され
、制御回路は、制御信号一時メモリと制御信号処理器を含み、制御信号の記憶に用いられ
る。制御信号処理器は実行すべき制御信号を読み取り、制御ロジックを分析した後、メモ
リと演算回路への制御と調和に利用する。好ましくは、制御信号一時メモリは先入先出す
る。メモリには入力記憶モジュール、出力記憶モジュール、シナプス記憶モジュールが含
まれている。本装置でシナプス記憶モジュールには複数のシナプスサブモジュールが含ま
れ、演算回路には複数の演算モジュールが含まれている。シナプスサブモジュールを演算
モジュールとそれぞれ対応するよう接続するが、一つのシナプスサブモジュールを一つの
演算モジュールと対応するよう接続することができ、複数のシナプスサブモジュールを一
つの演算モジュールと対応するように接続することもできる。データ幅調節回路は入力デ
ータ処理モジュールと出力データ処理モジュールに分けることができ、入力データ処理モ
ジュールは入力記憶モジュール及び／又はシナプス記憶モジュールの中にあるデータに対
するデータ幅調節に利用され、それは入力記憶モジュールの後部に配置することができる
。出力データ処理モジュールは演算回路が演算したデータを幅調節した後、出力データ処
理モジュールに記憶させることに用いられる。毎回演算するとき、入力記憶モジュールは
入力データ処理モジュールを経てすべての演算モジュールに入力データを伝達し、シナプ
ス記憶モジュールは対応する演算モジュールにシナプスデータを送り、演算モジュールが
演算した後、出力データ処理モジュールは結果を出力記憶モジュールに書き込む。これに
より、パラメータが多い大規模演算では演算効率を著しく高まる。本装置はコンボリュー
ジョンニューラルネットワークの演算過程を効果的に加速化させ、しかもネットワークの
規模が比較的大きく、パラメータが比較的多い場合に適用する。

図４は、公開されたほかの実施例に示した処理装置の構造原理図である。図４に示す本
装置の構造としては、制御回路はメモリのすべてのモジュール、演算回路、データ幅調節
回路と接続されており、一つの命令キューと一つのデコーダーが含まれている。新しい命
令を毎回実行するたびに命令キューから新しい命令を読み取りデコーダーに伝送する。デ
コーダーを通じて解読し、制御信号をメモリの各モジュールと演算回路、データ幅調節回
路に入れる。メモリには入力記憶モジュールと出力記憶モジュール、シナプス記憶モジュ
ール、キャッシュモジュールが含まれており、ここで、出力記憶モジュールは中間演算結
果と最終演算結果を記憶することに利用できる。ここで、入力記憶モジュールとシナプス
記憶モジュールが演算回路にデータを伝送するたびにすべて先にデータをキャッシュモジ
ュールに入れる。その後キャッシュ予定データをデータ幅調節回路に読み取る。制御命令
がデータに対し処理を求めるとデータ幅調節回路で相応する処理を行う。例えば精度を落
とさないようにしつつデータのビット数を拡大し、データのもっとも低いビットを強制的
に削除することでデータのビット幅を減らすことなどがある。データ幅調節回路で処理し
た後、再び該当する演算モジュールに入れる。制御命令がデータを処理することを求めな
いとデータは直接データ幅調節回路を介して該当の演算モジュールに伝送される。同様に
、演算モジュールは演算を終えてから、まず結果をデータ幅調節回路にいれ、制御命令に
基づいてデータ処理操作をするか、又は、データに対して操作しないで、キャッシュモジ
ュールに入れ、更にキャッシュモジュールから出力記憶モジュールに書き込む。演算回路
は複数の演算モジュールを含み、第一演算モジュールと第二演算モジュールを含む。演算
モジュールの間には関連する演算を並列に行うことができ、相互にデータを送ってローカ
ルデータの反復利用距離を縮め演算速度をさらに高めることができる。第一演算モジュー
ルは主にニューラルネットワークアルゴリズムで同じだったり異なったりする計算ビット
幅の線形演算の加速化に用いられ、ドット積、マトリックス乗算、加算、乗算と加算の混
合；マトリックスとベクトル；マトリックスとリテラル；ベクトル間；ベクトルとリテラ
ル；リテラルとリテラル、を含む。また、最大／最小値を比較演算して選択すること等に
も用いられる。好ましい演算としては、内積値、マトリックス乗算及び／又はマトリック
ス加法演算が属する。第二演算は以上の第一演算モジュールで実行できない演算をするこ
とに利用され、ここには非線形演算、除法演算、個別的な加法演算あるいは個別的な乗法
演算が含まれる。こうするメリットとしては、制御命令に基づいて計算過程でデータのビ
ット幅をダイナミックに調節し演算回路とメモリのハードウェア利用率をもっと高めるこ
とができるということにある。

図５は、公開されたある実施例を本装置に利用したビットシリアル加算ツリー装置の原
理図であり、計算ビット幅をダイナミックに配置できる要求を満たすことができる。図５
に示したようにＭ個の演算予定データの最大ビット幅はＮであり、ここで、Ｍ，Ｎはすべ
て正の整数である。もしＮビットに足りないデータであれば合理的な方式によりデータの
精度に影響を与えない状態でそのビット数をＮビットまで補充する。利用できる方式には
最高／最低ビットに０を補充すること、最高／最低ビットに符号ビットを補充すること、
ビットシフト、演算操作を行うことが含まれる。ビットシリアル加算ツリーの第一層から
第ｘ層までにある加法器はｎ（ｎ≧１）ビット数字に対する加法演算を実行でき、第ｘ＋
１層にある加法器はＮビット以上の数字に対する加法演算を実行できる。まず、レジスタ
と各加法器の中にあるキャリー出力端子Ｃｉｎを０に初期化する。各演算予定データの一
番低いｎビットを読み取り、それぞれ第一層にある加法器のａ，ｂ端子に入力し、各加法
器ではａ，ｂ端子に入ってきた演算予定データの一番低いｎビットに対する加法演算を行
い、得た結果値ｓをいっそう高い層にある加法器のａまたはｂ端子に伝送し、得たキャリ
ー値Ｃｏｕｔは当該層にある加法器のキャリー出力Ｃｉｎに差戻し、次のステップを待っ
て入ってきた演算予定データと加法演算を行う。上の層にある加法器の操作も同様であっ
て、入ってきたデータと加法演算をした後、結果はより高い層に伝送され、キャリーは当
該層にある加法器に差し戻す。これを第ｘ層に到達するまで繰り返す。第Ｘ層にある加法
器は演算結果をシフトし、レジスタから来る下の結果と加法演算した後、レジスタに戻し
て保存させる。その後演算予定データから次の低いｎビットを選びビットシリアル加算ツ
リーに送り相応する演算を行う。このとき各加法器のＣｉｎは一個前のステップからこの
加法器のＣｏｕｔ端子に出力されたキャリー結果である。好ましくは、この操作では第一
層にある加法器の演算が終わった後に、直ちに第二回目の演算予定のｎビットデータを入
力し、並列演算を通じて演算装置の使用率を高め、演算スピードをさらに高められる。す
べての演算が行われた後レジスタの中にあるデータが得ようとする結果である。この実施
例で加法器はこの加法器に入力される演算予定データ（ａ，ｂ端子）及びキャリー入力（
Ｃｉｎ端子）がすべて０である状態で当該演算過程で遮断されるから電力消費を節約しよ
うとする目的を実現することができる。

ここで、本実施例に示したビットシリアル演算器、例えばベース乗法器などは、図６に
示したように、演算部、処理部、記憶部を含む。演算部は一つのビッ及び／又は複数のビ
ットのデータに対する演算及び／又は加法演算を実行することに利用され、そこに入力さ
れる演算予定データは記憶部のデータ及び／又は処理部を介して処理されたデータであり
、出力される演算結果は直接記憶部に入り記憶され、または処理部に入り処理される。処
理部はデータのシフト、ある決められた規則に沿ってデータビット幅を拡大／縮小するこ
と、ある決められた規則に沿ってデータの一つのビッ及び／又は複数のビットを修正する
などの処理操作を実行することに利用され、その処理予定データは演算部及び／又は記憶
部から得られ、処理されたデータは演算部及び／又は処理部に伝送される。記憶部はデー
タを記憶することに利用され、演算予定データ、中間演算結果、最終演算結果などが含ま
れる。ここの記憶部はオンチップキャッシュメモリでも良い。ここで、各部品は自分の相
異なる機能によってすべて複数の部品にもっと細分化できる。例えば、演算部は乗算部、
加算部などに細分化できる。ビットシリアル演算器にある乗法器の具体的な実施例として
は図７に示す第一ベース乗法器、図８に示す第二ベース乗法器、図９に示すスパース乗法
器がある。

図７は、本発明にあるビットシリアル演算器の具体的な実施例である。第一ベース乗法
器の装置原理図は計算ビット幅をダイナミックに配置できる要求を満たすことができる。
この第一ベース乗法器は、本発明の装置に利用できる。図７に示したようにＭビットの被
乗数とＮビットの乗数でＭ，Ｎはすべて正の整数である。ここで、乗数と被乗数の位置は
制御モジュールの制御下で交替出来る。乗数の低いｎビット（ｎは正の整数であり、且つ
、１≦ｎ≦Ｎであり、好ましくは１≦ｎ≦Ｎにすることで、演算の並列度をさらに満たし
、ハードウェアソースを十分に利用して演算スピードを加速化することができる）を入力
選択回路に入力して乗数の低いｎビットをそれぞれ被乗数とＡＮＤ演算を行う。即ち、乗
数のこのビット値が１であれば被乗数それ自体を出力させ、そうでなければ０を出力させ
る。同時に、乗数を第一シフトレジスタに入れてシフトを行い、低いｎビットをシフトす
れば次にまた入力選択回路に入力されるのは新しい低いｎビットである。入力選択回路が
選択した結果を第二シフトレジスタに入力させ相応なシフトを行い、更に加算ツリーに入
れて加法演算を行う。ここで加法演算を行うのは入力選択をして且つシフトを行ったデー
タとその前に加法演算を行った結果である。結果を得た後に中間演算結果として結果レジ
スタに記憶させる。次の被乗数を待って入力選択した後シフトするとき結果レジスタは中
間演算結果を読み取り加算ツリー（装置）に入れて加法演算を行う。乗数がすべて０の場
合、乗法演算は終わる。

このベース乗法器の演算の流れをより明確に示すために、以下、具体的な実施例を示す
。被乗数が１０１１１０１１、すなわちＭ＝８であり、乗数は１０１１、すなわちＮ＝４
だと仮定する。

ｎ＝２のとき、つまり、毎回２ビットをシフトするとき、この演算過程は次の通りであ
る。まず、乗数のもっとも低い２ビットである１１を読み取り、被乗数とともに入力選択
回路に伝送し、被乗数自体をすべて選択して第一シフトレジスタに送る。一番低いビット
に対応するように選択した被乗数はシフトする必要がないから１０１１１０１１であり、
次に低いビットに対応するよう選択した被乗数を１ビット左側にシフトすると１０１１１
０１１０である。これを加算ツリーに伝送し、その前に足した数字がないため、結果レジ
スタに伝送されたのは１０１１１０１１と１０１１１０１１０の合計、つまり１０００１
１０００１である。次に、乗数を右側に２ビットシフトした後、その一番低い２ビット、
つまり１０を読み取り被乗数とともに入力選択回路に送り０と１０１１１０１１を得る。
その後、第二シフトレジスタを通じて０を左側に２ビットシフトしてそのまま０になり，
１０１１１０１１を左側に３ビットシフトして１０１１１０１１０００になる。結果レジ
スタにある１０００１１０００１とともに加算ツリーに伝送し演算を行い、１０００００
００１００１を得て結果レジスタに送る。このとき、乗数を右側に２ビットシフトすると
すべてが０であるから演算は終わる。結果レジスタの中にあるのが最終演算結果であり、
つまり１０００００００１００１である。

図８は、公開されたほかの実施例に示した本装置に利用される第二ベース乗法器の装置
原理図であり、計算ビットをダイナミックに配置できる要求を満たすことができる。図８
に示したように、Ｍビットの被乗数とＮビットの乗数においてＭ，Ｎはすべて正の整数で
ある。ここで、乗数と被乗数の位置は制御モジュールの制御のもとで交替させることがで
きる。被乗数の低いｍビット（ｍは正の整数で、かつ、１≦ｍ≦Ｍ）を入力選択回路に入
力させ、乗数の低いｎビット（ｎは正の整数で、かつ、１≦ｎ≦Ｎ）を入力選択回路に入
力させ、被乗数の低いｍビットをそれぞれ乗数の低いｎビットと乗法演算させる。そして
、乗数を第一シフトレジスタに伝送しシフトを行い、低いｎビットをシフトさせ、次に入
力選択回路の中に入力させるのは新しい低いｎビットになる。入力選択後の結果は第二シ
フトレジスタに入力させ、相応なシフトをした後、更に加算ツリーに伝送して加法演算を
行う。ここで加法演算をするのは入力選択し且つシフトを行ったデータとその前に加法演
算を行った結果である。結果を得た後、中間演算結果として結果レジスタに記憶させる。
つぎの被乗数で入力選択をしてシフトをするとき、結果レジスタは中間演算結果を読み取
り、加算ツリー（装置）に送り、加法演算を行う。乗数がすべて０のとき、被乗数を第三
シフトレジスタに伝送してシフトを行い、低いｍビットをシフトし、乗数はバックアップ
レジスタから読み取り、以上のステップを繰り返して行いながら演算する。被乗数と乗数
がすべて０になるときに乗法演算は終わる。

図９は、本発明で提供するある実施例に示した装置に利用するスパース乗法器の装置原
理図であり、計算ビット幅をダイナミックに配置できる要求を満たすことができる。つま
り、乗数あるいは被乗数の２進数の中で１がまれにある状態であれば、乗数あるいは被乗
数を疎らな方式で１の位置を示せば演算の有効性をさらに高めて演算スピードを加速化す
ることができる。図９に示したように、Ｍビットの被乗数とＮビットの乗数において、Ｍ
，Ｎはすべて正の整数であり、つまり、ここにある被乗数と乗数のビット数は同じくても
いいし、異なってもいい。ここで、乗数は疎らな表示方法を利用し、絶対位置あるいは相
対位置の方式でこの乗数の中にある１の位置を表示する。ここで本実施例で提供するスパ
ース乗法器の演算モジュールはすべて配置可能であるため、異なる表示方法を利用して演
算を行うとき、演算装置の中にある装置は需要に応じて配置できる。例えば、結果レジ
スタが加法演算をするときにはシフトする必要がなく、このとき結果レジスタと接続され
ているシフトレジスタが動作しないよう配置することができ、このとき、乗数のシフト情
報もこのシフトレジスタに伝送しないようにすることもある。当業者としては、関連する
具体的な細部はすべて需要に合わせて調節することによって、被乗数に対するシフトと結
果に対する加法演算を含めた関連する具体的な細部を実行できることを理解することがで
きる。

このスパース乗算の演算の流れの過程をより明確に示すために、一つの具体的な実施例
をあげる。被乗数が１０１１１０１１、つまりＭ＝８であり、乗数は００１０００１０、
つまりＮ＝８だと仮定する。絶対的な表示方式を利用して乗数を示すとすれば、絶対位置
で乗数の中にある１の位置を示す。数値の右端にあるビットを第０ビットとし、第０ビッ
トの左にあるビットを第１ビットとし、類推する。すると、この乗数は（１，５）で表示
される。同時に、この実施例で結果レジスタと接続されているシフトレジスタが動作しな
いことを求めるから乗数のデータがこのシフトレジスタに伝送されてはならない。まず、
乗数の一番目の数、つまり１を読み取り、第１ビットに一つの１があることを示す。被乗
数をシフトレジスタに伝送した後１ビットシフトして１０１１１０１１０になり加法器に
伝送する。その前の数字を加算するから結果レジスタに伝送される結果は１０１１１０１
１０である。その後乗数の次の１の位置、つまり５を読み取り、被乗数とともにシフトレ
ジスタに伝送する。シフトレジスタで被乗数を５ビット右側にシフトし１０１１１０１１
０００００を得て加法器に伝送する。同時に結果レジスタの中にある結果１０１１１０１
１０を読み取る。このような絶対表示方法ではシフトする必要がないから直接この結果を
加法器に伝送し加法演算を行って１１０００１１０１０１１０を得る。加法演算した後の
結果を再び結果レジスタに伝送する。このとき、乗数にある１はすべて既に計算が完了さ
れているため演算は終わる。もし相対的な方式で乗数を示すとすれば、その表示方法を一
番高いビット（最左端）の０ではない初めての数字から始まって、一番低いビットに行く
までの０ではない各二つの数字の間の離れているビット数で定義する。００１０００１０
の場合、０ではない初めての数字と０ではない次の数字の間は４ビット離れていて、０で
はない二番目の数字と一番低いビットの間は互いに１ビットぐらい離れているから（４，
１）と表示する。ここで、この実施例にある結果レジスタと接続されていて被乗数と互い
に接続されているシフトレジスタがすべて動作しなければならないと要求する。まず、乗
数の一番目の数字４を読み取り、第二シフトレジスタに伝送すれば被乗数を右側に４ビッ
トシフトし、結果レジスタの中にあるデータを右側に４ビットシフトした後、加法器に伝
送して加法演算を行う。このとき結果レジスタのデータは０だから加法演算結果は１０１
１１０１１００００と得られ、結果レジスタに伝送して記憶させる。その後乗数の二番目
の数字１を読み取ればこの値をシフトレジスタに送り１０１１１０１１０と１０１１１０
１１０００００を得て加法器に伝送して加法演算を行うことにして結果１１０００１１０
１０１１０を得る。この結果は再び結果レジスタに送る。このとき乗数にある１はすべて
既に計算が完了されたから演算は終わる。こうすれば、データの希薄性を効果的に利用し
て、効果的な演算つまり０ではないデータ間の演算だけが行える。こうして非効率的な演
算を減らし、演算スピードを加速化させ、性能対電力消耗比を高めた。

以上、この装置と方法を利用してニューラルネットワークの演算スピードをはるかに高
めると同時に動的配置可能性をもってデータビット幅の多様性、演算過程でデータのビッ
ト幅をダイナミックに変えられなければならない当該の要求を満たし、柔軟性や配置可能
な程度が高くて演算スピードが速く電力消費が低いメリットを持つ。

本発明にある実施例のほかの側面では、計算ビット幅を動的に配置できる処理装置の処
理方法を提供し、図１４に示すように、次のステップを含む。
Ｓ１４０１制御回路が制御命令を生成し、メモリ、データ幅調節回路、演算回路に伝送
する。
Ｓ１４０２メモリは受信した制御命令に基づいて、演算回路にニューラルネットワーク
の演算予定データを入力する。
Ｓ１４０３データ幅調節回路は実際の要求に応じて演算予定データ、中間演算結果、最
終演算結果及び／又はキャッシュ予定データの幅を調節する。
Ｓ１４０４演算回路は受信した制御命令に基づいて、対応する類型の乗法器と加法器回
路、ビットシリアル演算器を選択する。
Ｓ１４０５演算回路は入力されるデータとニューラルネットワークのパラメータ及び制
御命令に基づいて、計算ビット幅が異なるニューラルネットワークの演算予定データに対
して演算を行う。

以上、この実施例の方法にあるデータ幅調節回路を利用して、ニューラルネットワーク
の演算スピードをはるかに高められると同時に、動的配置可能性を持ち、データビット幅
の多様性と演算過程でデータビット幅を動的に変えられなければならない当該の要求を満
たすことができる。

更には、ステップＳ１４０３の第一演算モジュールは、加法器回路、ベース乗法器、ス
パース乗法器及び／又は融合ベクトル乗法器を利用いてニューラルネットワークの演算予
定データに対する演算を行うことを含む。具体的な加法器回路、ベース乗法器、スパース
乗法器及び／又は融合ベクトル乗法器を動的に選択することで、処理方法が柔軟性が高く
、配置可能性が高く、演算スピードが速く、電力消費が低い特徴を持たせることができる
。

以下、他の方法に係る計算ビット幅を動的に配置できる処理装置と処理方法の実施例を
紹介する。以下に紹介する方法にはデータ幅調節回路およびデータ幅調節回路と関係する
機能部品が含まれないこともある。

図１５は、公開されたほかの実施例で提供する処理装置の構造原理図である。図１５に
示したように、本装置を主に三つの部分に分けられ、つまり、制御回路、演算回路、メモ
リに分けられる。制御回路は、演算回路とメモリに制御信号を送信して二者の実行を制御
し、二者間のデータ伝送を調和させる。各部分の機能は図１に示す実施例の各部分に関す
る記述内容を参考すればいいため、ここでは省略する。

図１６は、公開されたある実施例にある処理装置の構造原理図である。図１６に示した
構造は図２に示す構造をベースにデータ幅調節回路をなくしたものであり、つまり、メモ
リを演算回路と直接接続したものである。相応の各設定方式は前記を参考できる。三つの
モジュールはパイプライン方式を利用して並列に実行できる。本装置はコンボリュージョ
ンニューラルネットワークの演算過程を加速化させ、チップ内部と外部でのデータ交換を
減らし、メモリ空間を節約できる。

図１７は、公開されたほかの実施例にある処理装置の構造原理図である。図１７に示し
た構造は図３と似ており、違う部分としては、図１７にはデータ幅調整回路の関連構造と
連結関係がないことである。図１７の各連結関係と実現する機能に対しては図３に示す実
施例に記された内容を参考できるからここでは省略する。この実施例に係る処理装置は、
パラメータが多い大規模の演算で演算スピードをはるかに高めることができる。この装置
は、コンボリューションニューラルネットワークの演算過程を効果的に加速化でき、さら
にはネットワークの規模が比較的に大きくてパラメータが比較的に多い場合に適用できる
。

図１８は、公開されたほかの実施例にある処理装置の構造原理図である。図１８に示し
た構造は図４と似ており、違う部分としては、図１８にはデータ幅調節回路の関連構造と
連結関係がないことである。図１８の各連結関係および実現する機能に対しては図４に示
す実施例に記述された内容を参考できるからここでは省略する。

図１９は、公開されたほかの実施例で本装置に利用するベース乗法器の原理図であり、
計算ビット幅を動的に配置できなければならない要求を満たすことができる。図１９に示
したように、Ｍビットの被乗数とｎビットの乗数であり、Ｍ，Ｎはすべて正の整数である
。つまり、ここで被乗数と乗数のビット数は同一でもよく、違ってもよい。乗数の低いｎ
ビット（ｎは正の整数、且つ、１＜ｎ≦Ｎである）を入力選択回路に入力する。乗数の低
いｎビットがそれぞれ被乗数とＡＮＤ演算を行う。つまり、乗数のこのビット値が１の場
合、被乗数自身を取り、そうでなければ０を取る。同時に、乗数を第一シフトレジスタに
伝送してシフトを行い、低いｎビットをシフトし、次に再び入力選択回路に入力するのは
新しい低いｎビットである。入力選択した後の結果は第二シフトレジスタに入力して相応
のシフトを行い、再び加算ツリーに伝送して累積する。ここで累積するのは入力選択を行
いながらシフトしたデータとその前に累積した結果である。結果を取得した後、中間結果
として中間レジスタに記録する。次の被乗数に対する入力選択をした後、シフトを行うと
き、結果レジスタは中間結果を読み取って加算ツリー（装置）に送り累積する。乗数がす
べて０であるとき乗法演算は終わる。

このベース乗法器の演算の流れの過程をより明確に示すため具体的な実施例をあげる。
被乗数が１０１１１０１１、つまりＭ＝８であり、乗数は１０１１、つまりＮ＝４である
と仮定する。

Ｎ＝２のとき、つまり毎回２ビットをシフトするとき、この演算過程は次の通りである
。まず、乗数の一番低い２ビットである１１を読み取って被乗数とともに入力選択回路に
送り、すべて被乗数自体を選択して第一シフトレジスタに伝送する。一番低いビットに対
応するように選択した被乗数はシフトする必要がないから１０１１１０１１であり、次に
低いビットに対応するように選択した被乗数を１ビットぐらい左にシフトすると１０１１
１０１１０である。これを加算ツリーに伝送する。前に数字を加算してないから結果レジ
スタに送られたのは１０１１１０１１と１０１１１０１１０の合計、つまり１０００１１
０００１である。次に、乗数を右側に２ビットシフトした後その一番低い２ビット、つま
り１０を読み取って被乗数とともに入力選択回路に送り、０と１０１１１０１１を取得す
る。その後、シフトレジスタを通じて０を左側に２ビットシフトすると０、１０１１１０
１１であり、左側に３ビットシフトすると１０１１１０１１０００である。結果レジスタ
にある１０００１１０００１とともに加算ツリーに送り、１０００００００１００１を取
得して、結果レジスタに伝送する。このとき、乗数を右側に２ビットシフトすると、すべ
てが０になるから演算は終わる。結果レジスタの中にあるのが最終演算結果、つまり１０
００００００１００１である。

図２０は、公開されたある実施例で本装置に利用したスパース乗法器の原理図で計算ビ
ット幅を動的に配置できなければならないという要求を満たすことができる。文字とおり
スパース乗法器はスパース演算に用いられ、つまり乗数あるいは被乗数がスパース表示方
式で１の位置を示すとき演算の有効性をさらに高めて演算スピードが加速化できる。図２
０に示したように、Ｍビットの被乗数とＮビットの乗数であり、Ｍ，Ｎはすべて正の整数
である。つまり、ここで被乗数と乗数のビット数は同一でもよく、違ってもよい。ここで
、乗数にスパース表示方式を利用し、絶対あるいは相対位置の方式でこの乗数にある１の
位置を示す。ここで演算回路は、配置可能であるためほかの表示方式を利用して演算する
とき演算装置の中にある装置を需要に応じて配置できる。例えば、結果レジスタが累積す
るとき、シフトする必要がないとこのとき結果レジスタと接続されているシフトレジスタ
は動作しないと決められ、このとき、乗数のシフト情報もこのシフトレジスタに伝達しな
くてもよい。関連する具体的な細部は需要に応じて相応に調節して被乗数に対するシフト
と結果に対する累積など関連する具体的な細部を実行できる。

このスパース乗法器の演算の流れの過程をより明確に示すため具体的な実施例をあげる
。被乗数が１０１１１０１１、つまりＭ＝８で、乗数は００１０００１０、つまりＮ＝８
であると仮定する。絶対的な表示方式を利用して乗数を示すと絶対位置で乗数の中にある
１の位置を示す。数値の右端にあるビットを第０番目ビットとし、第０番目ビットの左に
あるビットを第一ビットとしながらこのように類推する。すると、この乗数は（１，５）
と表示される。同時に、この実施例で結果レジスタと接続されているシフトレジスタが動
作しないように要求するから乗数のデータをこのシフトレジスタに伝達する必要はない。
すると、まず乗数の一番目の数、つまり１を読み取って第一ビットに１があることを表示
する。被乗数をシフトレジスタに伝送し、１ビットシフトした後１０１１１０１１０とな
り加法器に送る。以前の数字を加算するから結果レジスタに伝送される結果は１０１１１
０１１０である。その後乗数の次の１の位置、つまり５を読み取って被乗数とともにシフ
トレジスタに伝送する。シフトレジスタで被乗数を５ビットぐらい右側にシフトして１０
１１１０１１０００００を得て加法器に送る。同時に結果レジスタの中にある結果１０１
１１０１１０を読み取る。このような絶対表示方法ではシフトする必要がないから直接こ
の結果を加法器に送り累積を行って１１０００１１０１０１１０を得る。累積した結果を
再び結果レジスタに伝送する。このとき、乗数にある１はすべて既に計算済だから演算は
終わる。もし相対的な方式で乗数を示せばその表示方法を一番高いビット（左端）であり
ながら０ではない一番目の数字から始まって一番低いビットに向かうにつれ、０ではない
各二つの数字の間のビット数で定義する。００１０００１０の場合０で場ない一番目の数
字と０ではない次の数字の間は４ビットぐらい離れていて、０ではない二番目の数字と一
番低いビットの間は互いに１ビットぐらい離れているから（４，１）と表示する。ここで
、この実施例にある結果レジスタと接続されていながら被乗数と連結されているシフトレ
ジスタがすべて動作しなければならないと要求する。まず乗数の一番目の数字４を読み取
って二つのシフトレジスタに伝送すれば被乗数を右側に４ビットシフトして結果レジスタ
のなかにあるデータを右側に４ビットシフトした後、加法器に送り累積を行う。このとき
、結果レジスタのデータは０であるから累積結果は１０１１１０１１００００となり、結
果レジスタに伝送して記憶させる。その後、乗数の二番目の数字１を読み取ればこの値を
シフトレジスタに送り１０１１１０１１０と１０１１１０１１０００００を得て加法器に
伝送して累積することによって結果１１０００１１０１０１１０を得る。この結果は、再
び結果レジスタに伝送する。このとき乗数にある１はすべて既に計算ずみなので演算は終
わる。こうすればデータの希薄性を効果的に利用して効果的な演算つまり０でないデータ
同士の演算だけが行える。そ野結果、効果がない演算を減らし演算スピードを加速化させ
、性能対電力消耗比を高めた。

融合ベクトル乗法器を利用して全体的に横方向の累積演算を行う。その構造を図２２に
示すように、各次元の一成分に従う乗算積演算を終えれば即時加算ツリーに伝送して累積
を行い、演算が最終結果を取得する。例えば、その演算流れの過程を図２３の楕円形フレ
ームで示したように第１クッロク周期では各次元でＡ_ｉ＊ｂ_ｉ０（ｉ＝０，１，……，７
）の乗算積を計算して取得し、加算ツリーに伝送して累積を行う。計算結果を結果レジス
タに伝送してシフトレジスタに１を加算する。第２クロック周期では各次元でシフトレジ
スタに基づいて２＊Ａ_ｉ＊ｂ_ｉ１（ｉ＝０，１，……，７）の乗算積を計算して取得し、
結果レジスタのデータとともに加算ツリーに伝送して累積を行い、シフトレジスタに１を
加算する。第３周期では各次元でシフトレジスタに基づいて４＊Ａ_ｉ＊ｂ_ｉ２（ｉ＝０，
１，……，７）の乗算積を計算して取得し、結果レジスタのデータとともに加算ツリーに
伝送して累積を行い、シフトレジスタに１を加算する。最終の第４クッロク周期では８＊
Ａ_ｉ＊ｂ_ｉ３（ｉ＝０，１，……，７）の乗算積を計算して取得し、結果レジスタのデー
タとともに加算ツリーに伝送して累積を行い、最終結果を算出する。だから、四つの演算
周期の後に必要な結果を取得し、演算過程に合計３回のシフトを行った。これに対し、一
般的な乗法器では各データを演算予定にはシフト操作を行わなければならない。即ち、操
作数が４個の場合、合計４＊３＝１２回のシフト操作が求められる。したがって、この設
計では演算順番の変化を通じてシフト値に対する計数操作を大幅に減少させ、性能対電力
消耗比を効果的に向上させることができる。

本実施例のほかの側面において、計算ビット幅を動的に配置できる処理方法を提供する
。図２４に示すように、次のステップを含む。
Ｓ２４００：制御回路が制御命令を生成し、メモリと演算回路に伝送する。
Ｓ２４０１：メモリは受信した制御命令に基づいて、演算回路にニューラルネットワー
クの演算予定データを入力する。
Ｓ２４０２：演算回路は受信した制御命令に基づいて、第１演算モジュールの中にある
対応する類型の乗法器と加法器回路を選択する。
Ｓ２４０３：演算回路は入力される演算予定データとニューラルネットワークのパラメ
ータ及び制御命令に基づいて、計算ビット幅が異なるニューラルネットワークの演算予定
データに対して演算を行う。

更に、ステップＳ２４０３の第１演算モジュールは、加法器回路、ベース乗法器、スパ
ース乗法器及び／又は融合ベクトル乗法器を利用してニューラルネットワークの演算予定
データに対する演算を行う。

以上、この処理装置と方法を利用してニューラルネットワークの演算スピードをはるか
に高められると同時に動的配置可能性をもってデータビット幅の多様性、演算過程にデー
タのビット幅を動的に変えられえる相応の要求を満足させることができ、柔軟性が高く、
配置可能な程度が高く、演算スピードが速く、電力消費が低い長点をもつ。

また、本発明ではオフラインモデルの構築を含む演算方法と演算装置も提供する。オフ
ラインモデルを生成した後、オフラインモデルに基づいて直接演算を行うことができ、深
層学習のフレームを含む総体的なソフトウェアアーキテクチャを実行するときに発生する
超過費用をなくし、以下、具体的な実施例と合わせて詳細に説明する。

典型的な応用場面で、ニューラルネットワーク加速機のプログラミングフレームワーク
は、普通、最上部にあって、プログラミングフレームワークはＣａｆｆｅ，Ｔｅｎｓｏｒ
ｆｌｏｗ，Ｔｏｒｃｈなどに区分できる。図２５に示したように、下層から上層に向かっ
て、順次にニューラルネットワークプロセッサ（ニューラルネットワーク演算に用いられ
る専用ハードウェア）、ハードウェアドライバ（ニューラルネットワークプロセッサを呼
出すソフトウェア用）、ニューラルネットワークプロセッサのプログラミングライブラリ
（ニューラルネットワークプロセッサを呼出すためのインタフェースを提供）、ニューラ
ルネットワークプロセッサのプログラミングフレームワーク、及びニューラルネットワー
ク演算のために必要な高度なアプリケーションである。

本実施例のある側面では、ニューラルネットワークの演算方法を提供し、次のステップ
を含む。
ステップ１：入力データを取得する。
ステップ２：取得、または、入力データに基づいてオフラインモデルを確定し、オフラ
インモデルに基づいて演算命令を確定し、次の計算のために呼び出す。
ステップ３：前記演算命令を呼び出し、処理予定データに対する演算を行い、演算結果
を取得して出力する。

ここで、入力データは、処理予定データ、ネットワークストラクチャー、ウェイト値を
含み、あるいは、この入力データは、処理予定データに関するオフラインモデルデータを
含む。

ここで、ステップ２におけるオフラインモデルは、既存のものでもよく、または、外部
データ（例えば、ネットワークストラクチャーあるいはウェイと値）に基づいて後に生成
されたものでよい。オフラインモデルの設定による演算命令の方式で取得すると、演算過
程が高まる。

ステップ３における呼出演算命令は、入力データに処理予定データのみ含まれ、オフラ
インモデルあるいはオフラインモデルを確定するためのデータが含まれない状態で、演算
命令にしたがってネットワーク演算を行う。

ある実施例では、入力データに処理予定データ、ネットワークストラクチャー、ウェイ
トデータが含まれているとき、次のステップを行う。
ステップ１１：入力データを取得する。
ステップ１２：ネットワークストラクチャーとウェイと値に基づいてオフラインモデル
を構築する。
ステップ１３：オフラインモデルを解析して演算命令を取得しながらキャッシュ記憶さ
せ、後の計算時に呼び出す。
ステップ１４：演算命令に基づいて、処理予定データに対する演算を行い演算結果を取
得し、出力させる。

以上の実施例では、まず、ネットワークのストラクチャーとウェイト値に基づいてオフ
ラインモデルを作成した後、オフラインモデルの極性を解析した後、演算命令を取得する
。これにより、オフラインモデルを記憶しない低メモリとリアルタイム性の強い応用環境
で性能を十分に発揮し、演算過程がより簡潔かつ迅速になる。

ある実施例で入力データに処理予定データとオフラインモデルが含まれるとき、次のよ
うなステップを含む。
ステップ２１：入力データを取得する。
ステップ２２：オフラインモデルを解析し、演算命令を読み出してキャッシュ記憶させ
、後の計算時に呼び出す。
ステップ２３：演算命令に基づいて処理予定データに対する演算を行い演算結果を取得
し、出力させる。

以上の実施例では入力データにオフラインモデルが含まれる場合、オフラインモデルを
作った後、演算を行うときオフラインモデルを解析した後、演算命令を取得して深層学習
フレームを含む全般的なソフトウェアフレームを実行する過程に発生する追加費用をなく
す。

ある実施例で入力データに処理予定データのみ含まれているとき、次のステップによっ
て実行される。
ステップ３１：入力データを取得する。
ステップ３２：キャッシュ記憶されている演算命令を呼び出して、処理予定データに対
する演算を行い演算結果を取得して出力する。

以上の実施例で入力データに処理予定データのみ含まれており、ニューラルネットワー
クストラクチャーとウェイと値が含まれていないとき、演算命令の呼び出しを通じて処理
予定データに対する演算を行って演算結果を取得する。

ある実施例ではニューラルネットワークプロセッサを通じて演算命令に従って処理予定
データに対する演算を行って演算結果を取得する。ここで、ニューラルネットワークプロ
セッサは主にニューラルネットワーク演算、命令、処理予定データ及び／又はネットワー
クモデル（例えばオフラインモデル）を受け付けた後、演算を行うのに用いられる。例え
ば、多層ニューラルネットワークの場合、入力層データおよびニューラル細胞、ウェイト
値、偏差などのデータに基づいて、出力層データを計算して取得する。

他の実施例において、このニューラルネットワークプロセッサは受信した演算命令をキ
ャッシュ記憶させる命令キャッシュユニットがある。
ある実施例において、ニューラルネットワークプロセッサは、処理予定データをキャッ
シュ記憶させるのに利用するデータキャッシュユニットもある。処理予定データはニュー
ラルネットワークプロセッサに入った後、このデータキャッシュユニットに一時的に記憶
させ、後に演算命令と合わせて再度演算を行う。

以上の演算方法に基づいて、本実施例では次のようなものを含む演算装置を提供する。
入力モジュール：入力データの取得に用いられ、この入力データは、処理予定データ、
ネットワークストラクチャーとウェイト値を含み、または、この入力データは処理予定デ
ータとオフラインモデルデータを含む。
モデル生成モジュール：入力されたネットワークストラクチャーとウェイトデータに基
づいてオフラインモデルの構築するに用いられる。
ニューラルネットワーク演算モジュール：入力モジュールにあるオフラインモデルデー
タあるいはモデル生成モジュールに構築されているオフラインモデルに基づいて演算命令
を生成しかつキャッシュ記憶させ、演算命令に基づいて処理予定データに対して演算を行
って演算結果の取得に用いられる。
出力モジュール：前記演算結果の出力に用いられる。
制御モジュール：入力データの類型を検査し且つ次の操作の実行に用いられる；
入力データに処理予定データ、ネットワークストラクチャーとウェイト値が含まれてい
るとき、入力モジュールがネットワークストラクチャーとウェイト値をモデル生成モジュ
ールに入力してオフラインモデルを構築するよう制御し、且つ、ニューラルネットワーク
演算モジュールがモデル生成モジュールが入力するオフラインモデルに基づいて入力モジ
ュールが入力する処理予定データに対する演算を行うよう制御する。
入力データに処理予定データとオフラインモデルが含まれているとき、入力モジュール
が処理予定データとオフラインモデルをニューラルネットワーク演算モジュールに入力す
るよう制御し、且つ、オフラインモデルがオフラインモデルに基づいて演算命令を生成し
ながらキャッシュさせ、演算命令に基づいて処理予定データに対する演算を行うよう制御
する。
入力データに処理予定データのみあるとき、入力モジュールが処理予定データをニュー
ラルネットワーク演算モジュールに入力するよう制御し、且つ、ニューラルネットワーク
演算モジュールがキャッシュ記憶されている演算命令を呼び出して処理予定データに対す
る演算を行うよう制御する。

前記ニューラルネットワーク演算モジュールはモデル解析ユニットとニューラルネット
ワークプロセッサを含み、ここで、
モデル解析ユニットは、オフラインモデルに基づいて演算命令の生成に用いられ、
ニューラルネットワークプロセッサは、次の段階の計算で呼出すために用いられる演算
命令をキャッシュ記憶させ、あるいは入力データの中に処理予定データのみ含まれている
ときにキャッシュ記憶されている演算命令を呼び出し、且つ、演算命令に基づいて処理予
定データに対する演算を行って演算結果の取得に用いられる。

ある実施例において、ニューラルネットワークプロセッサは命令キャッシュユニットを
有し、演算命令をキャッシュ記憶させ、次の段階の計算で呼び出すのに用いられる。

ある実施例において、上記オフラインモデルは特殊な構造により定義されたテキストフ
ァイル、または、各種のニューラルネットワークモデルであってもよい。例えば、Ｃａｍ
ｂｒｉｃｏｎ＿ｍｏｄｅｌ、ＡｌｅｘＮｅｔ＿ｍｏｄｅｌ、ＧｏｏｇｌｅＮｅｔ＿ｍｏｄ
ｅｌ、ＶＧＧ＿ｍｏｄｅｌ、Ｒ−ＣＮＮ＿ｍｏｄｅｌ、ＧＡＮ＿ｍｏｄｅｌ、ＬＳＴＭ＿
ｍｏｄｅｌ、ＲＮＮ＿ｍｏｄｅｌ、ＲｅｓＮｅｔ＿ｍｏｄｅｌなどのモデルであってもよ
い。しかし、本実施例であげたこのようなモデルに局限されない。

オフラインモデルは、オリジナルネットワークにある各計算ノードのネットワーク値お
よび命令データをはじめ必要なネットワーク構成情報などを含む。ここで、命令には各計
算ノードの計算属性および各計算ノード間の連結関係をはじめとする情報が含められてい
るため、プロセッサが再度前記オリジナルネットワークを実行させるとき、このネットワ
ークに対応するオフラインモデルを直接実行させることで、同一のネットワークに対して
コンパイルなど操作をする必要がなくなり、プロセッサが同ネットワークを実行させると
きの演算時間を短縮し、プロセッサの処理効率を高める。

好ましくは、プロセッサは汎用プロセッサである。例えば、ＣＰＵ（Ｃｅｎｔｒａｌ
ＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉ
ｎｇＵｎｉｔ）、あるいはＩＰＵ（ＩｎｔｅｌｌｉｇｅｎｃｅＰｒｏｃｅｓｓｉｎ
ｇＵｎｉｔ），ＩＰＵは人工ニューラルネットワークの演算実行に用いられる処理装置
である。

ある実施例において、処理予定データはニューラルネットワークを利用して処理できる
ポータルであり、例えば、連続する単一画像、音声、またはビデオストリームの中の少な
くとも一つになり得る。

ある実施例において、前記ネットワークストラクチャーは各種のニューラルネットワー
ク構造でもよい。例えば、ＡｌｅｘＮｅｔ、ＧｏｏｇｌｅＮｅｔ、ＲｅｓＮｅｔ、ＶＧＧ
、Ｒ−ＣＮＮ、ＧＡＮ、ＬＳＴＭ、ＲＮＮ、ＲｅｓＮｅｔなどでもよくて、この実施例で
提供したこのような構造にのみ限らない。要するに、上述したネットワーク構造はオフラ
インモデルと相互対応するということである。例えば、ネットワーク構造がＲＮＮのとき
、オフラインモデルはＲＮＮ＿ｍｏｄｅｌであり、このモデルにはＲＮＮネットワーク構
造の中にある各ノードのネットワークウェイト値および命令データなど必要なＲＮＮネッ
トワーク構成情報が含まれている。ここで、命令には各計算ノードの計算属性および各計
算ノード間の連結関係などの情報が含まれる。

具体的には、入力モデルによる入力データの違いによって、本実施例の演算装置は次の
三つの実行形式を有する。
１、入力モジュールからの入力データがネットワークストラクチャー、ウェイト値、処
理予定データのとき、制御モジュールは入力モジュールがネットワークストラクチャーと
ウェイト値データをモデル生成モジュールに伝送し、処理予定データをモデル解析モジュ
ールに伝送するよう制御する。制御モデルはモデル生成モジュールが具体的なネットワー
クストラクチャーおよび相応するウェイト値に基づいてオフラインモデル（オフラインモ
デルは既存の設定構造によって定義するテキストファイルでもよく、ニューラルネットワ
ークのなかにある各計算ノードの計算属性および計算ノード間の連結関係などの情報を含
んでもいい、例えば、相応するネットワークストラクチャーおよびウェイト値に基づいて
同オフラインモデルを構築してもよい）を生成し、同オフラインモデルをモデル解析ユニ
ットに伝送するよう制御する。制御モジュールは、モデル解析ユニットが受けたオフライ
ンモデルを解析し、ニューラルネットワークプロセッサが識別できる演算命令を得て（つ
まり、前記オフラインモデルのテキストファイルに基づいて相応するネットワーク演算命
令をマッピングし、ネットワークコンパイラー操作を必要としない）演算命令と処理予定
データをニューラルネットワークプロセッサに送るよう制御する。ニューラルネットワー
クプロセッサは受信した演算命令に従って処理予定データに対する演算を行って演算結果
を得て、この演算結果を出力モジュールに伝送して出力させるようにする。

２．入力モジュールが入力するデータがオフラインモデルと処理予定データであるとき
、制御モジュールは入力モジュールがオフラインモデルと処理予定データをモデル解析ユ
ニットに直接送るように制御し、次の動作原理は一番目の状態と同様である。

３．入力モジュールが入力するデータに処理予定データのみ含まれるとき、制御モジュ
ールは入力モジュールがこの処理予定データをモデル解析ユニットを経てニューラルネッ
トワークプロセッサに送り、ニューラルネットワークプロセッサはキャッシュ記憶されて
いる演算命令に従って処理予定データに対する演算を行って演算結果を得るよう制御する
。入力モジュールは、入力データの類型の判断に用いられる判断モジュールを含む。当然
ながら、通常はこのような状態が始めて利用するニューラルネットワークプロセッサでは
現れないように、命令キャッシュに既に確定された演算命令が存在する。

したがって、現在のネットワーク演算と以前のネットワーク演算のオフラインモデルが
違うとき、入力モジュールが入力するデータにはネットワーク構造、ウェイト値データ、
処理予定データが含まれるべきであり、モデル生成モジュールを通じて新しいオフライン
モデルを生成した後、次のネットワーク演算を行う。現在のネットワーク演算が事前に既
に相応するオフラインモデルを得たとき入力モジュールが入力するデータにはオフライン
モデルと処理予定データが含まれるべきである。現在のネットワーク演算と以前のネット
ワーク演算のオフラインモデルが同様のとき、入力モジュールが入力するデータに処理予
定データのみあってもいい。

公開されたある実施例では、演算装置がサブモジュールとしてコンピュータシステムの
ＣＰＵモジュールの中に集積されている。処理予定データとオフラインモデルはＣＰＵに
よって制御され演算装置に伝送される。モデル解析ユニットは送られてくるニューラルネ
ットワークオフラインモデルを解析して演算命令を生成する。続いて、演算命令と処理予
定データはニューラルネットワークプロセッサに伝送されて入り、演算処理を通じて演算
結果を得てこの演算結果をメインメモリに送り返す。次の計算過程でネットワーク構造が
変わらなく、処理予定データを繰り返し伝送して入れてくれればニューラルネットワーク
計算が行われ演算結果が得られる。

以下、具体的な実施例を通じて演算装置および方法を詳しく説明する。
図２６に示したように本実施例における演算方法は、次のようなステップを含む。
入力データに処理予定データ、ネットワーク構造、ウェイト値データが含まれていると
き、次のようなステップを実行する。
ステップ１１、入力データを得る。
ステップ１２、ネットワーク構造とウェイト値データに準じてオフラインモデルを構築
する。
ステップ１３、オフラインモデルを解析して演算命令を得て且つキャッシュ記憶させ、
次の計算で呼び出せるようにする。
ステップ１４、演算命令に従って処理予定データに対する演算を行ってニューラルネッ
トワーク演算結果を得て出力させる。

入力データに処理予定データとオフラインモデルが含まれているとき、次のようなステ
ップを実行する。
ステップ２１、入力データを得る。
ステップ２２、オフラインモデルを解析し、演算命令を得て且つキャッシュ記憶させ、
次の計算で呼び出すことに用いられる。
ステップ２３、演算命令に従って処理予定データに対する演算を行い、ニューラルネッ
トワーク結果を得て出力するようにする。

入力データに処理予定データのみ含まれているとき、次のようなステップを実行する。
ステップ３１、入力データを得る。
ステップ３２、キャッシュ記憶されている演算命令を呼び出して処理予定データに対す
る演算を行い、ニューラルネットワーク演算結果を得て出力するようにする。

ニューラルネットワークプロセッサを通じて演算命令に従って処理予定データに対する
処理を行って演算結果を得る。このニューラルネットワークプロセッサには命令キャッシ
ュ記憶ユニットとデータキャッシュ記憶部があり、それぞれ受ける演算命令と処理予定デ
ータをキャッシュ記憶させることに用いられる。

本実施例に係る入力のネットワーク構造はＡｌｅｘＮｅｔであり、ウェイト値データは
ｂｖｌｃ＿ａｌｅｘｎｅｔ．ｃａｆｆｅｍｏｄｅｌ、処理予定データは連続的になってい
る個別的な画像であり、オフラインモデルはＣａｍｂｒｉｃｏｎ＿ｍｏｄｅｌである。既
にあるオフラインモデルの場合、このオフラインモデルＣａｍｂｒｉｃｏｎ＿ｍｏｄｅｌ
を解析して、一連の演算命令を生成し、次いで生成した演算命令をニューラルネットワー
クプロセッサ２７０７にある命令キャッシュ記憶ユニットに伝送し、入力モジュール２７
０１が入力する画像をニューラルネットワークプロセッサ２７０７にあるデータキャッシ
ュ記憶部に伝送する。

以上、本実施例の方法を利用すると、ニューラルネットワークプロセッサで演算する流
れの過程を大幅に簡略化することができ、伝統的なすべてのプログラミングフレームワー
クを呼び出すときにもたらされる追加的なメモリとＩＯ費用をなくすことができる。この
方法を利用すると、ニューラルネットワークアクセレレーターが低い内部記憶とリアルタ
イム性が高い環境で演算性能を十分に発揮できるようにする。

図２７に示したように、本実施例では演算装置を開示し、入力モジュール２７０１、モ
デル生成モジュール２７０２、ニューラルネットワーク演算モジュール２７０３、出力モ
ジュール２７０４、制御モジュール２７０５を含み、ここで、ニューラルネットワーク演
算モジュール１０３はモデル解析ユニット２７０６とニューラルネットワークプロセッサ
２７０７を含む。

この装置のキーワードはオフライン実行であり、これはオフラインモデルを生成した後
、オフラインモデルを利用して直接関連する演算命令を生成し且つウェイト値データを入
れて、処理予定データに対する処理演算を行う。具体的には、
前述の入力モジュール２７０１はネットワーク構造、ウェイト値データ、処理予定デー
タの組合あるいはオフラインモデルと処理予定データの組合を入力することに用いられる
。入力がネットワーク構造、ウェイト値データ、処理予定データの場合、ネットワーク構
造とウェイト値データをモデル生成モジュール２７０２に送り次の演算を実行することに
用いられるオフラインモデルを生成する。入力がオフラインモデルと処理予定データであ
るとき、オフラインモデルと処理予定データを直接モデル解析ユニット２７０６に送って
次の演算を実行する。
前述の出力モジュール２７０４は特定のネットワーク構造と処理予定データセットに基
づいて生成した確定的な演算データの出力に用いられる。ここで、出力データはニューラ
ルネットワークプロセッサ２７０７によって演算されて得られる。
前述のモデル生成モジュール２７０２は入ってくるネットワーク構造パラメータとウェ
イト値データにしたがって下の階で利用できるオフラインモデルの生成に用いられる。
前述のモデル解析ユニット２７０６は入ってくるオフラインモデルを解析し、ニューラ
ルネットワークプロセッサ２７０７に直接伝送できる演算命令を生成すると同時に入力モ
ジュール２７０１が入れてくれる処理予定データをニューラルネットワークプロセッサ２
７０７に送ることに用いられる。
前述のニューラルネットワークプロセッサ２７０７は入ってくる演算命令と処理予定デ
ータにしたがって演算を行い、確定的な演算結果を得て出力モジュール２７０４に伝送す
ることに用いられる。命令キャッシュ記憶ユニットとデータキャッシュ記憶部が含まれて
いる。

前述の制御モジュール２７０５は入力データの類型を検査し且つ次の操作を実行するこ
とに用いられる。
入力データで処理予定データ、ネットワーク構造とウェイト値データが含まれていると
き、入力モジュール２７０１がネットワーク構造とウェイト値データをモデル生成モジュ
ール２７０２に入力してオフラインモデルを構築するように制御し、ニューラルネットワ
ーク演算モジュール２７０３がモデル生成モジュール２７０２が入力するオフラインモデ
ルに基づいて入力モジュール２７０１が入力する処理予定データに対する演算を行うよう
に制御する。

入力データに処理予定データとオフラインモデルが含まれているとき、入力モジュール
２７０１が処理予定データとオフラインモデルをニューラルネットワーク演算モジュール
２７０３に入力するよう制御し、ニューラルネットワーク演算モジュール２７０３がオフ
ラインモデルに基づいて演算命令を生成し且つキャッシュ記憶させ、演算命令に基づいて
処理予定データに対するニューラルネットワーク演算を行うように制御し；
入力データに処理予定データのみ含まれているとき、入力モジュール２７０１が処理予
定データをニューラルネットワーク演算モジュール２７０３に入力するよう制御し、ニュ
ーラルネットワーク演算モジュール２７０３がキャッシュ記憶されている演算命令を呼び
出し、処理予定データに対するニューラルネットワーク演算を行うように制御する。

本実施例における入力されるネットワーク構造はＡｌｅｘＮｅｔで、ウェイト値データ
はｂｖｌｃ＿ａｌｅｘｎｅｔ．ｃａｆｆｅｍｏｄｅｌであり、処理予定データは連続的に
なっている個別的な画像である。モデル生成モジュール１０２は入力されるネットワーク
構造とウェイト値データに基づいて新しいオフラインモデルＣａｍｂｒｉｃｏｎ＿ｍｏｄ
ｅｌを生成する。生成されたオフラインモデルＣａｍｂｒｉｃｏｎ＿ｍｏｄｅｌは次の入
力として個別的に使用できる。モデル解析ユニット２７０６はオフラインモデルＣａｍｂ
ｒｉｃｏｎ＿ｍｏｄｅｌを解析して一連の演算命令を生成できる。モデル解析ユニット２
７０６は生成された演算命令をニューラルネットワークプロセッサ２７０７にある命令キ
ャッシュ記憶ユニットに送り、入力モジュール２７０１が伝送して入れてくれる入力画像
をニューラルネットワークプロセッサ２７０７にあるデータキャッシュ記憶部に送る。

また、複合スカラ命令を支援する演算装置と演算方法を提供し、演算過程で複合スカラ
命令（浮動小数点命令と固定小数点命令を統一させる命令）を提供することを通じて、浮
動小数点命令と固定小数点命令を大きな程度で統一させて解読段階で命令の種類を区分せ
ず、具体的な計算のときだけアドレスフィールドにあるオペランドのアドレスにしたがっ
てオペランドが浮動小数点データか、固定小数点データかを確定して命令の解読論理を簡
略化し、また命令セットをより簡素化させた。以下、具体的な実施例と組み合わせについ
て具体的に説明する。

図２８はある実施例で提供する複合スカラ命令を支援する装置の構造原理図である。図
２８に示したように、装置には制御装置モジュール２８１０、記憶モジュール２８２０、
演算装置モジュール２８３０、入出力モジュール２８４０が含まれている。

制御装置モジュール２８１０は記憶モジュールから命令を読み取り且つローカルの命令
キューに記憶させ、また命令キューにある命令を制御信号に解読して記憶モジュール、演
算装置モジュール、入出力モジュールの動作を制御することに用いられる。

記憶モジュール２８２０にはレジスタセット、ＲＡＭ、ＲＯＭなどの記憶部が含まれて
おり、命令、オペランドなどの相異なるデータを記憶させることに用いられる。オペラン
ドには浮動小数点データと固定小数点データが含まれ、記憶モジュールは浮動小数点デー
タと固定小数点データを相異なるアドレスに対応する空間、例えば違うＲＡＭアドレスあ
るいは違うレジスタ番号に記憶させて、アドレスやレジスタ番号を通じて読み取るデータ
が浮動小数点か固定小数点かを判断できる。

演算装置モジュール２８３０は浮動小数点データと固定小数点データに対して四則演算
、論理演算、シフト操作、補数演算などの操作を行う。ここで、四則演算には加算と減算
、乗算、除算の四つの演算操作がある。論理演算には論理積、論理和、非含意、逆非含意
など四つの演算操作がある。演算装置モジュールは制御装置モジュールの制御信号を受け
た後、オペランドがあるアドレスあるいはレジスタ番号を読み取ってそれが浮動小数点類
型のデータか固定小数点類型のデータ化を判断し、演算装置モジュールは記憶モジュール
から操作データを読み取りながら対応する演算を行う。演算中間結果は記憶モジュールの
中にあり、最終演算結果を入出モジュールに記憶させる。

入出力モジュール２８４０は入出力されるデータを記憶、伝送することに利用できる。
初期化するとき入出モジュールは初期の入力データとコンパイラされた符号スカラ命令を
記憶モジュールに記憶させて演算が終わった後に演算装置モジュールが伝送する最終演算
結果を取得する。ほかに入出力モジュールはメモリから命令をコンパイラすることに必要
な情報を読み取ってコンピュータの翻訳機がプログラムを各種の命令でコンパイラするよ
うに提供する。

以上からわかるように、本実施例に示した複合スカラ命令を支援する装置は複合スカラ
命令に高い効率の実行環境を提供する。

図２９Ａと図２９Ｂは、本実施例で提供する記憶モジュールの組織形式に関する実例図
である。記憶モジュールは浮動小数点データと固定小数点データをほかの記憶空間、例え
ば異なるアドレスあるいはほかのレジスタ番号に記憶させ、アドレスやレジスタ番号を通
じて読み取るデータが浮動小数点数か固定小数点数かを判断できる。

本実施例において、初期アドレスが００００Ｈで最後のアドレスが３ＦＦＦＨであるＲ
ＡＭと１６個のレジスタとなっているレジスタセットで構成された記憶モジュールを実例
として、浮動小数点数の記憶と固定小数点数の記憶をどのように分離するかを示す。図２
９Ａに示したように、ＲＡＭで固定小数点データは、ただアドレスが００００Ｈから１Ｆ
ＦＦＨまでのＲＡＭユニットにだけ、浮動小数点データは２０００Ｈから３ＦＦＦＨまで
のＲＡＭユニットにだけ記憶され、命令は任意のＲＡＭユニットに記憶でき、命令セット
の中で変わらない情報をＲＯＭに記憶させることもできる。図２９Ｂに示したようにレジ
スタセットで固定小数点データは０から７までのレジスタにだけ保存され、浮動小数点は
８から１５までのレジスタにだけ保存される。レジスタの中に記憶されている値がＲＡＭ
アドレスであるとき、０から７までのレジスタは固定小数点データを記憶させるＲＡＭア
ドレスに利用され、８から１５までのレジスタは浮動小数点データを記憶させるＲＡＭア
ドレスに用いられる。

図３０Ａは本実施例で提供する複合スカラ命令の実例図である。図３０Ａに示したよう
に各命令にはオペコードフィールド、オペランドアドレスフィールド（あるいは即値）、
宛先アドレスフィールドがある。オペコードフィールドにはオペコードが含まれており、
オペランドアドレスフィールドにはソースオペランド・アドレス１とソースオペランド・
アドレス２が含まれており、各ソースオペランドの記憶アドレスを表す。宛先アドレスフ
ィールドはオペランド演算結果の記憶アドレスである。

オペコードフィールドは類型の違う操作、例えば加算、減算、乗算、除算などを区別す
ることに利用し、オペランドの類型を区別するには利用しない。

オペランドアドレスフィールドにはＲＡＭアドレス、レジスタ番号、即値が含まれる。
浮動小数点データと固定小数点データの記憶に利用するＲＡＭアドレ記憶スタ番号は違う
からアドレスフィールドを利用して浮動小数点オペランドと固定小数点オペランドを区別
できる。オペランドアドレスフィールドに記憶されているのが即値であるときは、演算装
置モジュールが識別できるデータ類型標識ビットで浮動小数点オペランドと固定小数点オ
ペランドを区分しなければならない。

宛先アドレスフィールドは、ＲＡＭアドレスか、レジスタ番号である。このアドレスフ
ィールドはオペランドの類型と互いに対応し、つまり、浮動小数点オペランドの演算結果
を浮動小数点データに対応する記憶部に保管し、固定小数点オペランドの演算結果を固定
小数点データに対する記憶部に保管する。

したがって本発明で提供する複合スカラ命令は、浮動小数点命令と固定小数点命令を統
一させた命令であり、浮動小数点命令と固定小数点命令を大きい程度で統一させ、解読段
階で命令の類型を区分せず、具体的に計算するときだけオペランドを読み取るオペランド
アドレスフィールドの中のアドレスにしたがってオペランドが浮動小数点データか固定小
数点データかを確定するため、命令の解読論理を簡略化し、命令セットがより簡素化でき
るようにする。

また、本発明で提供する複合スカラ命令にあわせて、いろいろなアドレス指定方式を利
用すると、アドレス指定方式を確定する標識ビットを増加する必要がある。

例えば、図２９Ａと図２９Ｂに示した記憶モジュール組織構造を利用する場合、加算命
令の操作コードは０００１であるものの、いろんなアドレス指定方式を利用するとき、複
合スカラ命令の構成は図３０Ｂから図３０Ｅに示したのと同じようになる。

図３０Ｂは本実施例で提供するレジスタでアドレス指定するときの複合区カラー命令の
実例図である。図３０Ｂに示したようにレジスタでアドレスを指定するとき、アドレス指
定方式の標識ビットは０１で、ソース・オペランド１と２はそれぞれソース・オペランド
１のレジスタ番号とソース・オペランド２のレジスタ番号に対応するレジスタに保管され
、番号０から７までのレジスタに記憶されるのは固定小数点データで、番号８から１５ま
でのレジスタに記憶されるのは浮動小数点データである。

図３０Ｃは本実施例で提供するレジスタによる間接アドレス指定をするときの複合スカ
ラ命令実例図である。図３０Ｃに示したように、レジスタによる間接アドレス指定をする
とき、アドレス指定方式標識ビットは１０でありＲＡＭでソース・オペランド１と２のア
ドレスはそれぞれソース・オペランド１のレジスタ番号とソース・オペランド２のレジス
タ番号に対応するレジスタに保管される。ここで、固定小数点データのＲＡＭアドレス（
００００Ｈから１ＦＦＦＨまで）は０から７までのレジスタに保管され、浮動小数点デー
タのＲＡＭアドレス（２０００Ｈから３ＦＦＦＨで）は８から１５までのレジスタに保管
される。宛先アドレスフィールドには宛先レジスタ番号あるいは宛先ＲＡＭのアドレスが
記憶される。固定小数点データはアドレスが００００Ｈから１ＦＦＦＨまでの範囲の中に
あるＲＡＭユニットの中に保管され、浮動小数点データはアドレスが２０００Ｈから３Ｆ
ＦＦＨまでの範囲の中にあるＲＡＭユニットの中に保管される。

図３０Ｄは本実施例で提供する即値によるアドレス指定をするとき複合スカラ命令の実
例図である。図３０Ｄに示したようにオペランドアドレスフィールドのデータが二つの即
値であればアドレス指定方式標識ビットは００で、アドレス方式標識ビットとオペランド
アドレスフィールド間にデータ類型標識ビットが設定されている。即値が固定小数点類型
であるとき、このデータ類型の標識ビットは０である。即値が浮動小数点類型のときこの
データ類型の標識ビットは１である。

図３０Ｅは本実施例で提供するＲＡＭによるアドレス指定をするとき、複合スカラ命令
の実例図である。図３０Ｅに示したようにオペランドアドレスフィールドがＲＡＭアドレ
スであればアドレス指定方式標識ビットは１１である。ソースオペランド１と２はそれぞ
れＲＡＭアドレスに対応するＲＡＭユニットに保管される。ここで、固定小数点データは
ＲＡＭアドレス００００Ｈから１ＦＦＦＨまでに対応するＲＡＭユニットの中に保管され
、浮動小数点データはＲＡＭアドレス２０００Ｈから３ＦＦＦＨまでに対応するＲＡＭユ
ニットの中に保管される。

以上の各アドレス指定方式を利用する関連命令において、宛先アドレスフィールドには
宛先レジスタ番号あるいは宛先ＲＡＭアドレスが記憶される。固定小数点データは０から
７までのレジスタあるいはアドレスが００００Ｈから１ＦＦＦＨまでの範囲にあるＲＡＭ
ユニットに記憶される。浮動小数点データは８から１５までのレジスタあるいはアドレス
が２０００Ｈから３ＦＦＦＨまでの範囲にあるＲＡＭユニットに保存される。

図３１は本実施例に示した複合スカラ命令を支援する演算方法のローチャートである。
図４に示したように本発明の実施例では複合スカラ命令を支援する演算方法を提供し、前
記複合スカラ命令を支援する装置を利用してデータ演算を行い、具体的に次のステップを
含む。
Ｓ３１０１：類型の異なるデータを異なるアドレスに記憶させる。
記憶モジュールは浮動小数点データと固定小数点データを相異なるアドレスに対応する
スペースに記憶させる。例えば相異なるＲＡＭアドレスあるいは相異なるレジスタ番号を
あげられる。
Ｓ３１０２：複合スカラ命令を制御信号で解読する。
制御装置モジュールは記憶モジュールに入出力（ＩＯ）命令を送信して記憶モジュール
から複合スカラ命令を読み取り、且つローカル命令キューを記憶させる。制御装置モジュ
ールはローカル命令キューから複合スカラ命令を読み取りながら制御信号で解読する。
Ｓ３１０３：制御信号に基づいて操作データを読み取り、且つ読み取る操作データのア
ドレスにしたがって操作データの類型を判断し、操作データに対する演算を行う。
演算装置モジュールは制御装置モジュールから来る制御信号を受信した後、オペランド
のアドレスフィールドを読み取り、読み取ったのが浮動小数点類型のデータか固定小数点
累計のデータ化を判断する。もし、オペランドが即値であればデータ類型標識ビットによ
ってオペランド類型を判断して計算する。もし、オペランドがＲＡＭあるいはレジスタか
らきたとすればＲＡＭアドレスあるいはレジスタ番号によってオペランド類型を判断し、
記憶モジュールからオペランドを読み取り、且つ対応する演算を行う。
Ｓ３１０４：演算結果を対応する類型のアドレスに記憶させる。
制御装置モジュールが演算装置モジュールにＩＯ命令を送信し、演算装置モジュールは
演算結果を記憶モジュールあるいは入出力モジュールに伝送する。

以上の実施例から分かるように、本発明で提供する複合スカラ命令の実行方法によれば
、複合スカラ命令を正確で高い効率で実行できる。ここで、提供する複合スカラ命令を支
援する装置は複合スカラ命令に高い効率の実行環境を提供する。提供する複合スカラ命令
の実行方法は複合スカラ命令を正確で高い効率で実行できる。

また、本発明では技術命令を支援する技術装置と計数方法を提供する。入力データ（計
数予定データ）の中で与えられた条件を満たす元素の個数を統計するアルゴリズムを命令
に作成する形式を通じて計算効率を高めることができる。以下、具体的な実施例とあわせ
て詳細に説明する。

この実例的な実施例で計数命令を支援する計数装置を提示する。図３２は本実施例にあ
る計数装置のフレームワーク構造原理図である。図３２に示したように本発明で提供する
計数命令を支援する計数装置は、記憶部、計数部、レジスタ部などを含む。記憶部は計数
部と連結されて計数予定入力データを記憶させることに利用され、統計する入力データの
中で与えられた条件を満たす元素の個数を記憶させることに用いられる。この記憶部はメ
インメモリでもいいし、一時記憶型メモリでもいい、更には、スクラッチパッドメモリで
あってもいい。統計しようとする入力データを一時的にスクラッチパッドメモリに記憶さ
せ、計数命令をすばやく効果的に幅の違うデータを支援するようにして実行性能を高めら
れるようにする。

ある実現例において、この記憶部はスクラッチパッドメモリであり、ビット幅の違う入
力データ及び／又は大きさが違うメモリスペースを占める入力データを支援し、計数予定
入力データをスクラッチパッドメモリに一時的に記憶させ、計数過程が幅の違うデータを
すばやく効果的に支援できるようにする。計数部はレジスタ部と接続されており、計数部
は計数命令を得て計数命令に基づいてレジスタ部にある入力データのアドレスを読み取っ
て後、入力データのアドレスにしたがって記憶部の中で計数予定当該の入力データを取得
しながら入力データの中で与えられた条件を満たす元素個数を統計計数して最終計数結果
を得ながらこの計数結果を記憶部に記憶させる。レジスタ部は記憶部に記憶された統計し
ようとする入力データのアドレスを記憶させることに用いられる。ある実現例において、
レジスタ部に記憶されたアドレスはスクラッチパッドメモリにある統計しようとする入力
データのアドレスである。

ある実施例において、統計しようとする入力データのデータ類型は０／１ベクトルでも
いいし、数値型のベクトル又はマトリックスでもいい。入力データの中で与えられた条件
を満たす元素個数を統計するとき、統計する元素が満たすべき条件は一つの与えられた元
素と同様であることもある。例えばベクトルＡの中にある元素ｘの個数を統計するとき、
ｘは数字ｎ，ｎ＝０，１，２．．．であってもいいし、ｘはベクトルｍであってもいい、
例えば、ｍ＝００，０１，１１．．．である。統計する元素が満たすべき条件として、与
えられた表現式を満たすこともありうる、例えば、ベクトルＢの中で数値ｙより大きい元
素個数を計数する場合、ここで、ｙは正の整数ｎ，ｎ＝０，１，２．．であってもいい
し、浮動小数点数ｆ，ｆ＝０．５，０．６．．．であってもいい。例えば、ベクトルＣの
中でｚを完除する元素個数を統計する場合、ｚは整数ｎで，ｎ＝０，１，２．．．であり
うる。

図３３は本実施例に示した計数装置の中にある計数部の構造原理図である。図３３に示
したように計数部には入出力モジュール、演算モジュール、アキュムレータモジュールが
ある。

入出力モジュールは演算モジュールと接続されている。記憶部の中にある計数予定入力
データの場合、毎回ここで、長さ（この長さは実際的な要求に基づいて配置できる）が設
定された一つの区間のデータを読み取り、演算モジュールに入力させて演算を行い、演算
モジュールが演算を終えた後、入出力モジュールは長さが固定された次の区間のデータを
続けて読み取り、これは計数予定入力データのすべての元素を読み取るまで行う。入出力
モジュールはアキュムレータモジュールが計算して得た計数結果を記憶部に出力する。

演算モジュールはアキュムレータモジュールと接続され、長さが固定されたデータを入
力し、演算モジュールの加法器を利用して与えられた条件を満たす入力データの各元素の
個数を加算し、取得した結果をアキュムレータモジュールに出力する。演算モジュールは
判断サブモジュールを更に含み、これは入力データが与えられた条件（与えられた条件は
与えられた元素と同様でもいいし、数値が設定された区間の間にあるものでもいい）を満
たすかそうでないかを判断するのに用いられる。もし満たしたら１を出力し、満たさない
と０を出力した後、加法器に伝送して累積する。

アキュムレータモジュールは、また入出力モジュールと連結されており、演算モジュー
ルで出力する結果をアキュムレータを利用して新しい入力がなくなるまで累積する。

計数部は多重パイプラインステージ構造であり、ここで、入出力モジュールでベクトル
をとる操作は第１パイプランステージであり、演算モジュールは第２パイプランステージ
、アキュムレータモジュールは第３パイプランステージである。これらの部品は相異なる
パイプラインステージであり、計数命令が求める操作をより効果的に実現できる。

図３５は本実施例に示した計数装置の中にある計数命令の命令セット様式原理図である
。図３５に示したように計数命令には操作コードと一つあるいは複数の操作ドメインがあ
る。ここで、操作コードはこの命令が計数命令であることを指示することに利用され、計
数部はこの操作コードの識別を通じて計数演算を行える。操作ドメインは、この計数命令
の中にある計数予定入力データを指示することに利用するアドレス情報と判断条件を含め
るアドレス情報を含む。例えば一つのベクトルを取得しなければならないときにはレジス
タ番号に基づいて相応のレジスタの中でベクトルの初期アドレスとベクトルの長さを取得
して再びベクトルの初期アドレスとベクトルの長さに基づいて記憶部で相応のアドレスに
記憶されているベクトルを取得することができる。本実施例で利用した命令は簡素化され
た様式を持つから命令セットを使用しやすく、支援するデータの長さを敏活にすることが
できる。

図３６は本実施例に示した計数装置の中にある計数部の実行過程に関するフローチャー
トである。図２６に示したように、動作するとき、計数部は計数命令の操作ドメインにあ
るアドレス情報に基づいてレジスタ部で計数予定入力データのアドレスを読み取った後、
このアドレスに基づいて記憶部で計数予定入力データを読み取る。計数予定入力データは
スクラッチパッドメモリに記憶され、毎回計数部はスクラッチパッドメモリから長さが固
定されたある区間の入力データを得て、判断サブモジュール、元素が与えられた条件を満
たすかどうかを判断した後で加法器を利用してこの部分の入力データの中で与えられた条
件を満たせる元素の個数を統計し、各区間で与えられた条件を満たす元素の個数をアキュ
ムレータモジュールを利用して累積し、最終計数結果を得ながら計数結果を記憶部に記憶
される。

図３７は本実施例に示した計数装置の細かい構造原理図である。図３７に示したように
、本発明に示した計数命令を支援する装置は、命令メモリ、命令処理ユニット、命令キャ
ッシュ記憶ユニット、従属関係処理ユニットを含む。

命令処理ユニットの場合、これは命令メモリから計数命令を取得しながら計数命令を処
理した後、記述した命令キャッシュ記憶ユニットと従属関係処理ユニットへの提供に用い
られる。ここで、命令処理ユニットは、命令フェッチモジュールと解読モジュールを含む
。命令フェッチモジュールは命令メモリと連結され、命令メモリから計数命令の受信に用
いられる。解読モジュールは命令フェッチモジュールと連結されており、取得した計数命
令の解読に用いられる。このほかに、命令処理ユニットは命令キューメモリも含む。命令
キューメモリは解読モジュールと接続されており、解読した計数命令を順序に記憶しなが
ら順序に命令を命令キャッシュ記憶ユニットと従属関係処理ユニットに送信することに用
いられる。命令キャッシュ記憶ユニットと従属関係処理ユニットが受けられる命令の数量
が限界されていることを考慮して、命令キューメモリの中にある命令は命令キャッシュ記
憶ユニットと従属関係処理ユニットにスペースがあることを待って続いて順番に送信でき
る。

命令キャッシュ記憶ユニットは命令処理ユニットと連結でき、実行しようとする計数命
令を順番に記憶させることに用いられる。計数命令が実行される過程で同時に命令キャッ
シュ記憶ユニットにもキャッシュ記憶される。一つの命令が完全に実行された後、命令実
行結果（計数結果）を命令キャッシュ記憶ユニットに伝送する。もし、この命令が同時に
命令キャッシュ記憶ユニットにありながらまだマッピングされなかった命令の中で最初の
命令であればこの命令がマッピングされると同時に命令実行結果（計数結果）をスクラッ
チパッドメモリに記録する。一つの実現方式で命令キャッシュ記憶ユニットは再び順番を
配列してキャッシュ記憶できる。

従属関係処理ユニットは命令キューメモリ及び計数部と連結され、計数部が計数命令を
得る前にこの計数命令が求めるベクトル（つまり計数されるべきベクトル）が最新のもの
かそうでないかを判断することに用いられる。もし、最新のものであれば直接計数命令を
記述した計数部に提供し、そうでなければこの計数命令を従属関係より部品の一つの記憶
キューに記憶させ、求めるベクトルが最新のものになった後、記憶キューにあるこの計数
命令を記述した計数部に提供する。具体的には、計数命令がスクラッチパッドメモリを呼
び出すときメモリスペースは前の命令に従う結果が入力されるのを待つ。命令が実行した
結果の正確性を保証するため、もし、現在の命令を待つ命令のデータと従属関係にあると
いうことが検査されれば、この命令は記憶キューで従属関係が解除されるまで待たなけれ
ばならない。従属関係処理ユニットは命令が乱雑に実行され、順番にマッピングされるよ
うにしてパイプラインの障害を効果的に減らし、正確な例外を実現できるようにする。

命令フェッチモジュールは命令メモリから次に実行すべき命令を読み取りながらこの命
令を解読モジュールに伝送することを担う。解読モジュールは命令を解読しながら解読さ
れた命令を命令キューメモリに送ることを担う。命令キューメモリは可読された命令をキ
ャッシュ記憶させることに用いられる。命令キャッシュ記憶ユニットと従属関係処理ユニ
ットにスペースが生じた後、命令を命令キャッシュ記憶ユニットと従属関係処理ユニット
へ伝送する。計数命令が命令キューメモリから従属関係処理ユニットに送信される過程で
計数命令はレジスタ部から記憶部にある入力データのアドレスを読み取る。従属関係処理
ユニットは現在の命令と前の命令の間に存在できるデータ従属関係を処理することに用い
られる。計数命令は記憶部を呼び出すことができ、前に実行されたほかの命令は同一の
記憶スペースを呼び出せる。命令実行結果の正確性を保証するため現在の命令がもし前の
命令データと従属関係があるということが検査されればこの命令は従属関係処理ユニット
の記憶キューの中で従属関係がキャンセルできるまで待たなければならない。計数部は従
属関係処理ユニットから計数命令を得て、計数命令がレジスタ部に読み取った入力データ
のアドレスに基づいて記憶部で当該の計数予定入力データを読み取りながら入力データの
中で与えられた条件を満たす元素の個数を統計計数し、計数結果を命令キャッシュ記憶ユ
ニットに送り、最後の計数結果とこの計数命令は記憶部に記録される。

図３８は本実施例に示した計数装置の実行過程に関するフローチャートである。図３８
に示したように、計数命令を実行する過程には次のようなものが含まれる。
Ｓ３８０１、命令フェッチモジュールは命令メモリから計数命令を読み取り、且つ、こ
の計数命令を解読モジュールに伝送する。
Ｓ３８０２、解読モジュールは計数命令を解読し、且つ、計数命令を命令キューメモリ
に伝送する。
Ｓ３８０３、計数命令は命令キューメモリで待っていて命令キャッシュ記憶ユニットと
従属関係処理ユニットにスペースがあれば、命令キャッシュ記憶ユニットと従属関係処理
ユニットに送信される。
Ｓ３８０４、計数命令が計数キューメモリから従属関係処理ユニットに伝送される過程
で、計数命令はレジスタ部から記憶部にある入力データの記憶アドレスを読み取り、従属
関係処理ユニットはこの命令とまだ実行が終わってない前の命令とデータ上従属関係にあ
るかどうかを分析する。この計数命令は従属関係処理ユニットの記憶キューでそれとまだ
実行が終わってない前の命令とデータ上従属関係がないときまで待たなければならない。
Ｓ３８０５、従属関係がないと、この計数命令は計数部に伝送される。計数部は記憶ア
ドレスに基づいて記憶部から入力データを読み取り、入力データの中で与えられた条件を
満たす元素の個数を統計する。
Ｓ３８０６、計数が終わった後、計数結果は命令キャッシュ記憶ユニットを通じて記憶
部に記入され、命令キャッシュ記憶ユニットはこの計数命令を記憶部にマッピングする。

以上、図面とともに本実施例を詳しく説明した。以上の記述に基づいて当業者は本実施
例に示した計数命令を支援する計数装置及びその計数方法を明確に認識する。

ある実施例では、チップを開示し、それは前述のニューラルネットワークプロセッサ、
処理装置、計数装置又は演算装置を含む。
ある実施例では、チップパッケージ構造を開示し、それは前述のチップを含む。
ある実施例では、ボードカードを開示し、それは前述のチップパッケージ構造を含む。
ある実施例では、電子デバイスを開示し、それは前述のボードカードを含む。

電子デバイスは、ロボット、コンピュータ、プリンター、スキャナー、タブレットＰＣ
、スマートターミナル、スマートフォーン、タコグラフ、ナビゲーター、センサ、撮影ヘ
ッド、クラウドサーバ、カメラ、ビデオカメラ、プロジェクター、時計、ヘッドセット、
モバイル記憶、ウェアラブル端末、交通手段、家庭用電子機器あるいは医療機器に制限な
く含まれる。

前記の交通手段は、飛行機と汽船、あるいは車両を含み、前記の家庭用電子機器は、テ
レビ、エアコン、電子レンジ、冷蔵庫、炊飯器、加湿器、洗濯機、ランプ、ガスストーブ
、フードを含む。前記の医療機器は核磁気共鳴器、超音波機器、心電図を含む。

本発明で提供する実施例に示した当該の装置と方法は異なる方式で実現できるというこ
とを知るべきである。例えば前述の装置の実施例はただ原理的なものに過ぎない。例えば
関連の部分あるいはモジュールの区分はただ論理的機能に従う区分であるから実際に実現
するとき、ほかの区分方式があってもよい。例えば複数の部分あるいはモジュールを一つ
のシステムに組み合わせることができ、一連の特徴を無視するか、実行しなくてもいい。

本発明に出る用語「及び／又は」は一方または他方あるいは両方を意味する（例えば、
Ａ及び／又はＢというのは、ＡあるいはＢあるいはＡとＢの両方を意味する）。

以上の説明では、説明の目的から出発して多くの具体的な細部を記述して公開された各
実施例を全面的に理解できるようにした。しかし、当業者である場合、明確にこんな具体
的な細部の中でいくつかがなくても一つあるいは複数のほかの実施例を実現できる。記述
した具体的な実施例はこの発明の制限のためのものではなく説明するためのものである。
本発明の範囲は、前の具体的な実例から確定するのではなく、特許請求の範囲から確定さ
れる。異なる状況では、記述に対する理解があいまいにならないようブロック図の形式で
もって既に知っている回路、構造、設備と操作を詳しく示してない。違う方式で指定した
り、明確なもの意外には複数の図面の中で適切だと見られる場所に図面標識あるいは図面
標識の端の部分が繰り返されるようにして選択的に似た特性あるいは同様の特徴を持った
対応したり、似た要素を示している。

各種操作と方法を既に記述している。フローチャート方式、相対的に基礎的な方式で一
連の方法を記述した。しかし、このような操作は選択的にこのような方法に加わったりあ
るいはこのような方法から提起する。そのほかに、例えフローチャートは実例に示した各
実施例に従う操作の特定なステップを示そうともこの特定なステップが実例的であるとい
うことが理解できる。実施例を変えてほかの方式でこんな操作を選択的に実行し、ある操
作を組み合わせ、ある操作を変えられる。ここで記述した設備の組み立て品と特徴、特定
で選択可能な細部は前記した方法において任意に選択して応用できる。各実施例でこんな
方法はこんな設備で実行でき、あるいはこのような設備の中で実行できる。

本発明にある各機能部分／ユニット／サブユニット／モジュール／サブモジュール／部
品はすべてハードウェアでありうる。例えば、このハードウェアはデジタル回路、アナロ
グ回路などを含めた回路でありうる。ハードウェア構造の物理的実現は物理要素に限られ
ず、物理要素はトランジスタ、レジスタンスは度に限られていない。前記計算装置の中に
ある計算モジュールは適当な任意のハードウェアプロセッサでありうる。例えばＣＰＵと
ＧＰＵ、ＦＰＧＡ、ＤＳＰおよびＡＳＩＣなどがあげられる。前記記憶部は適当な任意の
磁気記憶媒体や光磁気記録媒体でありうる。例えばＲＲＡＭ（登録商標）、ＤＲＡＭ、Ｓ
ＲＡＭ、ＥＤＲＡＭ、ＨＢＭ、ＨＭＣなどがあげられる。

記述を便利かつ簡潔にするため、ただ前述の各機能モジュールに分割し、実例をあげて
説明したということを当業者は明確にわかる。実際応用では需要に応じて前述の機能分配
を相異なる機能モジュールで行える。つまり、装置の内部構造を相異なる機能モジュール
に分割して前述のすべてあるいは部分的な機能をする。

前述の具体的な実施例に示した本発明の目的や技術的解決策、利益効果性をもっと詳し
く説明した。理解すべきは、前述したのはただ本発明の具体的な実施例に過ぎず、本発明
を局限させることに利用せず、一般的に本発明の精神と原則内で行った任意の改造、同等
なものに対する交替、改善などはすべて本発明の保護範囲内に含まれなければならないと
いうことである。

Claims

ニューラルネットワークの演算予定データの記憶に用いられるメモリ部と、
ニューラルネットワークの演算予定データに対する演算に利用され、加法器と複数種類の乗法器を利用して計算ビット幅が異なるニューラルネットワークの演算予定データを高速計算するのを含む演算部と、
メモリ部と演算部の制御に用いられ、演算予定データに基づいて演算部の乗法器と加法器の種類を確定し、加速演算を進行する制御部と、を含む、
ことを特徴とする処理装置。
前記メモリ部は、
ニューラルネットワークの演算予定データを記憶するのに用いられる入力記憶モジュールと、
演算結果を記憶するのに用いられる出力記憶モジュールと、
ニューロンのパラメータを記憶するのに用いられるニューロン記憶モジュールと、
シナプスのパラメータを記憶するのに用いられるシナプス記憶モジュールと、を含み、
前記メモリ部は、バッファされたデータを記憶するのに用いられるバッファモジュールを更に含み、
前記出力記憶モジュールは、
中間演算結果を記憶するのに用いられる中間計算結果記憶用サブモジュールと、
最終的な演算結果を記憶するのに用いられる最終演算結果記憶用サブモジュールと、を更に含む、
ことを特徴とする請求項１に記載の装置。
前記シナプス記憶モジュールは、複数のシナプスパラメータを記憶するのに用いられる複数のシナプス記憶モジュールである、
ことを特徴とする請求項２に記載の装置。
前記演算部は、それぞれ一つあるいは複数のシナプス記憶モジュールに対応する複数の演算ユニットを含み、演算する際、入力記憶モジュールはすべての演算ユニットに入力データを送信し、シナプス記憶モジュールは対応する演算ユニットにシナプスデータを送信し、演算ユニットは演算後の結果を出力記憶モジュールに書き込む、
ことを特徴とする請求項１乃至請求項３のいずれか１項に記載の装置。
前記演算部は、ビット幅が異なる加速演算を行うのに用いられる第１演算モジュールを含む、
ことを特徴とする請求項１乃至請求項４のいずれか１項に記載の装置。
前記第１演算モジュールは、ニューラルネットワークで行うビット幅が異なる複数のデータに対する演算を加速化するための加法器、ベース乗法器、スパース乗法器及び／又は融合ベクトル乗法器を含み、
前記ベース乗法器は、乗数をビット幅が低いレベルの多くのデータに分け、それぞれ被乗数と乗算した後順序に加算して累積するのに用いられ、
前記スパース乗法器は、乗数あるいは被乗数の２進数の中の１が疎な状態で乗算を行うのに用いられ、
前記融合ベクトル乗法器は、ベクトル間の乗法演算を行うのに用いられる、
ことを特徴とする請求項５に記載の装置。
前記計算ビット幅が異なるデータの演算は、ドット積、マトリックス乗算、加算、乗算と加算の混合；マトリックスとベクトルの乗算、加算、乗算と加算の混合；マトリックスとリテラルの乗算、加算、乗算と加算の混合；ベクトル間の乗算、加算、乗算と加算の混合；ベクトルとリテラルの乗算、加算、乗算と加算の混合；リテラルとリテラルの乗算、加算、乗算と加算の混合；最大値／最小値の比較選択及び乗算、加算、乗算と加算の混合への分割、を含む、
ことを特徴とする請求項１乃至請求項６のいずれか１項に記載の装置。
前記演算部は、非線形演算、除法演算、個別の加法演算あるいは個別の乗法演算を行うのに用いられる第２演算モジュールを含み、
前記第１演算モジュールは、乗法器サブモジュールと加法ツリーサブモジュールを含み、
前記第２演算モジュール、乗法器サブモジュール及び加法ツリーサブモジュールはパイプライン方式で並行に実行される、
ことを特徴とする請求項５乃至請求項７のいずれか１項に記載の装置。
請求項１乃至請求項８のいずれか１項に記載の装置が含まれている、
ことを特徴とするチップ。
請求項９記載のチップが含まれている、
ことを特徴とする電子装置。
制御部は制御命令を発生させ、メモリ部と演算部に送り、
メモリ部は受信した制御命令に基づいて演算部にニューラルネットワークの演算予定データをインプットし、
演算部は受信した制御命令に基づいて第１演算モジュールの中にある対応する類型の乗法器と加法器を選び、
演算部は入力された演算予定データとニューラルネットワークのパラメータ及び制御命令に基づいて、計算ビット幅が異なるニューラルネットワークの演算予定データに対する演算を行う、
ことを特徴とする処理器を使用する方法。
演算部は、入力された演算予定データとニューラルネットワークのパラメータ、制御命令に基づいてニューラルネットワークへ入力予定データに対して演算し、加法器、ベース乗法器、スパース乗法器及び／又は混合ベクトル乗法器を利用してニューラルネットワークへの入力予定データに対して演算を行い、
演算部は、非線形演算、除算、個別の加算あるいは個別の乗算を含み、
前記ベース乗法器を利用した演算は、乗数をビット幅が低い複数のデータにわけ、それぞれ被乗数と乗算し、順序に加算して累積する演算を行い、
前記スパース乗法器を利用した演算は、乗数あるいは被乗数の２進数の中にある１が疎な状態で乗算を行い、
前記融合ベクトル乗法器を利用した演算は、ベクトル間の乗算を行う、
ことを特徴とする請求項１１に記載の方法。
前記メモリ部は、ニューラルネットワークのパラメータの中でシナプスパラメータを記憶するシナプス記憶モジュールを含む、
ことを特徴とする請求項１１に記載の方法。
前記シナプスモジュールは、複数のシナプスパラメータを記憶する複数のシナプスモジュールであり、前記演算部は複数の演算ユニットを含み、これらはそれぞれ一つあるいは複数のシナプスモジュールと対応し、演算の際、インプット記憶モジュールはすべての演算ユニットにインプットデータを送信し、シナプス記憶モジュールは対応する演算ユニットにシナプスデータを転送し、演算ユニットは演算した後に結果をアウトプット記憶モジュールに書き込む、
ことを特徴とする請求項１３に記載の方法。
前記ニューラルネットワークの演算予定データは第２演算を更に行い、前記第２演算は非線形演算、除算、個別の加算あるいは個別の乗算を含み、
前記第１演算モジュールは乗法器演算と加法ツリー演算を更に行い、
前記第２演算、乗法器演算及び加法ツリー演算はパイプライン方式で平行に実行される、
ことを特徴とする請求項１１に記載の方法。
計算ビット幅が異なるニューラルネットワークの演算予定データに対する演算は、ドット積、マトリックス間の乗算、加算、乗算と加算の混合；マトリックスとベクトル間の乗算、加算、乗算と加算の混合；マトリックスとリテラル間の乗算、加算、乗算と加算の混合；ベクトル間の乗算、加算、乗算と加算の混合；ベクトルとリテラル間の乗算、加算、乗算と加算の混合；リテラルとリテラル間の乗算、加算、乗算と加算の混合；最大値／最小値を比較選択し、乗算、加算あるいは乗算と加算の混合に分ける演算を含む、
ことを特徴とする請求項１１乃至請求項１５のいずれか１項に記載の方法。
前記ニューラルネットワークの演算予定データは、加速巻積層演算、分類層の巻積演算あるいは池化層の平均値又は最大値を求める演算を行う、
ことを特徴とする請求項１１乃至請求項１５のいずれか１項に記載の方法。