JP7707977B2

JP7707977B2 - ニューラルネットワーク演算装置

Info

Publication number: JP7707977B2
Application number: JP2022047092A
Authority: JP
Inventors: 崇吉田; 鉄平広津; 大輔香取
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2025-07-15
Anticipated expiration: 2042-03-23
Also published as: JP2023140990A; JP2025114723A

Description

本発明は、演算装置に関し、特に、複数のプロセッサエレメントで演算を行うニューラルネットワーク演算装置に関する。

ＡＩのアクセラレータは多数のＰＥ（Processing Element）を２次元アレイ状に並べたＰＥアレイが並列処理されることが一般的である。これらＰＥアレイを多数配置したＡＩアクセラレータをＳＯＣ全体のうち支配的な領域を占有するような実装形態で構成された場合、ＡＩアクセラレータの起動・停止により、瞬間的に大きな消費電力変動が生じ、結果的に電圧低下などによる不具合が生じる。

この課題を解決するための従来技術として、（１）瞬間的な消費電力変動に耐えうる大容量コンデンサをチップ外部に配置するなどの対策をとる方法や、（２）ＳＯＣ全体で段階的に電力投入・遮断を行い、動作時には変動が発生しないような動作状態を維持する方法などが考えられている。また、処理中の電力変動の制御に関し、特許文献１に記載された技術も知られている。

特開２０２０－１１９２１３号公報

しかしながら、（１）の方法では、チップ外部にコンデンサを必要とし、追加のコスト増となるだけでなく、特に車載用途などの過酷なシステム要件では、その信頼性や耐久性が新たな課題となる。一方で、（２）の方法では、起動・終了に一定時間を要することから、その間不要な電力消費が発生し、システム全体としての電力効率を棄損する場合があった。

特許文献１に記載された方法では、処理中の電力変動の制御には有効であるものの、起動時の電力消費を段階的に増減させる解決手段とはならない。

そこで、本発明は、上記背景に鑑み、急峻な電力変動を抑えることができるニューラルネットワーク演算装置を提供することを目的とする。

本発明は上記課題を解決するために以下の技術的手段を採用する。特許請求の範囲及びこの項に記載した括弧内の符号は、ひとつの態様として後述する実施形態に記載の具体的手段との対応関係を示す一例であって、本発明の技術的範囲を限定するものではない。

本発明のニューラルネットワーク演算装置は、ニューラルネットワーク処理を行うニューラルネットワーク演算装置（１０）であって、アレイ状に配置された複数のプロセッサエレメント（１０４）と、前記プロセッサエレメントに対して供給する入力アクティベーションデータを記憶するアクティベーションメモリ（１０３）と、前記プロセッサエレメントのそれぞれの動作を制御するメインコントローラ（１０１）とを備え、前記メインコントローラ（１０１）は、クロックジェネレータ（１１）から供給されるクロックをそれぞれのプロセッサエレメントに供給するタイミングを制御する構成を有する。

この構成により、メインコントローラがプロセッサエレメントへのクロック供給タイミングを制御することにより、電力を有効活用したうえで、急峻な電力変動を抑えることができる。

第１の実施の形態のニューラルネットワーク演算装置を含むＬＳＩを表した図である。第１の実施の形態において、クロックの投入タイミングを指示する信号を示した図である。第１の実施の形態のニューラルネットワーク演算装置の電力消費を示す図である。第２の実施の形態において、クロックの投入タイミングを指示する信号を示した図である。第２の実施の形態のニューラルネットワーク演算装置の電力消費を示す図である。第３の実施の形態のニューラルネットワーク演算装置を含むＬＳＩを表した図である。第４の実施の形態のニューラルネットワーク演算装置を含むＬＳＩの物理的構成の例を示した図である。第４の実施の形態のニューラルネットワーク演算装置のＬＳＩの論理構造を表した図である。第５の実施の形態のニューラルネットワーク演算装置を含むＬＳＩを表した図である。第５の実施の形態のニューラルネットワーク演算装置による処理を示す図である。第６の実施の形態のニューラルネットワーク演算装置による処理について説明するための図である。第７の実施の形態のニューラルネットワーク演算装置の構成を示す図である。第９の実施の形態のニューラルネットワーク演算装置の構成を示す図である。第９の実施の形態のニューラルネットワーク演算装置による処理について説明するための図である。

以下、実施の形態のニューラルネットワーク演算装置について図面を参照しながら説明する。
（第１の実施の形態）
図１は、第１の実施の形態のニューラルネットワーク演算装置１０を含むＬＳＩを表した図である。

１は、ＳＯＣ全体を示す。ＳＯＣ１は、多くの場合、システム全体を司る不図示のＣＰＵやバスシステムを含み、システムとして機能する。
１０は、本実施の形態のニューラルネットワーク演算装置である。
１１は、ＳＯＣ１全体にクロックを供給するクロックジェネレータである。該クロックジェネレータは、ニューラルネットワーク演算装置１０にもクロックを供給する。本クロックは、設計によっては１種類の周波数を供給する場合もあるし、複数種類の周波数のクロックを供給する場合もある。本実施の形態においては、簡単のため１種類のクロックを供給する場合について説明するが、本発明は複数種類のクロックにおいても実現可能である。

ニューラルネットワーク演算装置１０は、その構成によってはＳＯＣ１全体の規模のうち、５０％以上を占めることもある。したがって、ニューラルネットワーク演算装置１０の電力消費もそれに応じてＳＯＣ１全体の主たる部分になり得る。

次にニューラルネットワーク演算装置１０の内部構成について説明する。
１０１はメインコントローラである。メインコントローラ１０１は、ニューラルネットワーク演算装置１０全体の処理シーケンスや、入出力データの管理、後述のプロセッサエレメントに対する動作要求を制御するモジュールである。加えて、メインコントローラ１０１はニューラルネットワーク演算装置１０の動作状態の情報に基づいて電力制御も行う。

１０２はクロックコントローラである。クロックコントローラ１０２は、後述のプロセッサエレメント１０４やニューラルネットワーク演算装置１０のその他すべての内部モジュールに対してクロックを供給する。該クロックコントローラ１０２は、複数のプロセッサエレメント１０４に対して個別にクロックを供給・停止する機構が実装されている。加えて、個別のプロセッサエレメントＰＥｉｊに対してクロックの周波数を制御する機構を持たせてもよい。

１０３はアクティベーションメモリである。アクティベーションメモリ１０３は、後述のプロセッサエレメント１０４に供給するアクティベーションデータを記憶するモジュールである。メインコントローラ１０１は、不図示のＤＭＡコントローラ等を用いて、本アクティベーションメモリ１０３に対して必要となるアクティベーションデータを従前に転送し、処理開始とともにプロセッサエレメント１０４に対してデータを供給するように指示を行う。アクティベーションメモリ１０３は当該指示に基づいて、必要となるアクティベーションデータをプロセッサエレメント１０４に供給する。

当該部分の実装方法は、メインコントローラ１０１がアクティベーションメモリ１０３に指示を出してアクティベーションメモリ１０３が能動的にデータをプロセッサエレメントに対して供給しても良いし、メインコントローラ１０１がプロセッサエレメント１０４に指示を出すことで、プロセッサエレメント１０４がアクティベーションメモリ１０３から必要となるデータを読み出しても良い。

１０４はプロセッサエレメントである。プロセッサエレメント１０４は入力アクティベーションと不図示のＷｅｉｇｈｔ入力用メモリからのＷｅｉｇｈｔ値を入力として、畳み込み演算を実行する乗算器と加算器からなる畳み込み演算器を１つ以上具備する。多くの場合、プロセッサエレメント１０４には畳み込み乗算器が複数実装されており、複数の畳み込み演算を同時並列に実行できる構成になっている。

プロセッサエレメント１０４の用語は、プロセッサエレメントを総称する場合に用い、個々のプロセッサエレメントを指す場合には、プロセッサエレメント「ＰＥｉｊ」という。ここで、ｉｊは、位置によってプロセッサエレメントＰＥを特定する番号であり、ｉ（ｉ＝０，・・・，ｍ）は行を特定し、ｊ（ｊ＝０，・・・，ｎ）は列を特定する。

プロセッサエレメント１０４の演算出力である出力アクティベーションは、アクティベーションメモリ１０３に再度保持されるか、モジュール外部に出力される。

これらのプロセッサエレメント１０４はニューラルネットワーク演算装置１０の内部で論理的に２次元配列的に配置されており、上下、左右に隣接するプロセッサエレメントは畳み込み演算実施過程でアクティベーションデータを相互に転送することで、１以上のカーネルサイズの畳み込み演算を実現する。

例えば、図１中のＰＥ１１がカーネルサイズ２ｘ２の畳み込み演算を実施する場合には、ＰＥ１１はＰＥ１０にアクティベーションメモリ１０３から入力されたアクティベーションデータを取得することで、処理対象の左隣りのアクティベーションデータを取得することができる。同様にＰＥ０１から上隣りのデータとＰＥ００からＰＥ０１に一旦伝送されたアクティベーションデータも受け取り、演算に利用する構造になっている。また、別の構成として、アクティベーションメモリ１０３から隣接２ｘ２領域のアクティベーションデータを取得してもよい。

次に、ニューラルネットワーク演算装置１０を含むＬＳＩのクロックの処理フローを説明する。図２は、メインコントローラ１０１がクロックコントローラ１０２に対してクロックを投入するタイミングを指示する信号を示した図である。図２の２０１～２０４は、メインコントローラ１０１がクロックコントローラ１０２に対して出力するＥｎａｂｌｅ信号である。２０５～２０８はクロックコントローラ１０２がプロセッサエレメント１０４に対して出力するクロック信号である。

２次元に配置されたプロセッサエレメント１０４のうち、同じ列のプロセッサエレメント１０４に対して、１本のクロックが供給される。例えば、２０５は１列目のプロセッサエレメント（図１中ＰＥｘ０）に接続するクロック線のクロック信号である。同様に２０６は２列目のプロセッサエレメント（図１中ＰＥｘ１）に接続するクロック線の信号である。本実施の形態では、同じ列のプロセッサエレメント１０４によってグループが構成されている。

メインコントローラ１０１は、クロックを印加するタイミングを列ごとに順次調整する。より具体的には、畳み込み演算処理のうち、１要素の積和演算が完了するサイクル数分だけずらして、次の列のクロックを起動する。図２は１要素の積和演算が１サイクルで完了する前提で示されており、故に列ごとに１サイクルずつずらしてクロックを印加する。これにより、隣接するサイクルの処理でアクティベーションが使用された直後のタイミングで次の列を起動することができる。

このようにクロックを制御することで、隣接するプロセッサエレメントＰＥｉｊ間のデータを滞らせることなく１列ずつプロセッサエレメントＰＥｉｊが起動されることになるので、結果的に図３に示すように、全部のプロセッサエレメントＰＥｉｊに対して一斉にクロックの供給を開始するよりも穏やかに電力消費が増加することになる。

（第２の実施の形態）
第２の実施の形態のニューラルネットワーク演算装置の基本的な構成は、第１の実施の形態のニューラルネットワーク演算装置と同じである。第２の実施の形態では、第１の実施の形態に対して、消費電力の上昇をさらに穏やかにする。

図４は、第２の実施の形態のニューラルネットワーク演算装置を含むＬＳＩにおけるクロック投入タイミングを指示する信号を示す図である。すなわち、メインコントローラ１０１がクロックコントローラ１０２に対してクロックを投入するタイミングを指示する信号を示した図である。

図４の４０１～４０４は、メインコントローラ１０１がクロックコントローラ１０２に対して出力するＥｎａｂｌｅ信号である。４０５～４０８は、クロックコントローラ１０２がプロセッサエレメント１０４に対して出力するクロック信号である。

このとき、２次元に配置されたプロセッサエレメント１０４のうち、同じ列のプロセッサエレメント１０４に対して、１本のクロックが供給される。例えば、４０５は１列目のプロセッサエレメント（図１中ＰＥｘ０）に接続するクロック線のクロック信号である。同様に４０６は２列目のプロセッサエレメント（図１中ＰＥｘ１）に接続するクロック線のクロック信号である。

このとき、メインコントローラ１０１はクロックを印加するタイミングを列ごとに順次調整する。より具体的には、畳み込み演算処理のうち、１要素の積和演算が完了するサイクル数分だけずらして、次の列のクロックを起動する。図４は１要素の積和演算が１サイクルで完了する前提で示されており、故に列ごとに１サイクルずつずらしてクロックを印加する。これにより、隣接するサイクルの処理でアクティベーションが使用された直後のタイミングで次の列を起動することができる。さらに、本実施の形態では、各列の起動間隔をアレイの列数サイクル数だけ間引き、間引き間隔を徐々に削減する。

具体的には列数が４列であった場合には、最初のクロックを印加後、４サイクル空けて次のクロックを印加する。その後２サイクル空けてクロック印加を実施したのち、通常のクロックを供給する。このようにクロックを制御することで、最初の１つの演算処理が実行される間、稼働するプロセッサエレメントは全体の１／４である。その後２サイクルも稼働するプロセッサは全体の１／４となり、その次のサイクルに全体の１／２が稼働する。その次の２サイクルにおいては全体の３／４が稼働し、以降は全てのプロセッサエレメントが稼働する。

このように制御を行うことで、隣接間のデータを滞らせることなく１列ずつプロセッサエレメントが起動され、かつ全体のプロセッサエレメント稼働率を順次増加させることができるため、結果的に図５に示すように、第１の実施の形態で示したクロック供給方法に比べて、さらに穏やかに電力消費が増加することになる。

（第３の実施の形態）
図６は、第３の実施の形態のニューラルネットワーク演算装置を含むＬＳＩを表した図である。

６は、ＳＯＣ全体を示す。ＳＯＣ６は多くの場合システム全体を司る不図示のＣＰＵやバスシステムを含み、システムとして機能する。
６０は、本実施の形態のニューラルネットワーク演算装置である。
６１は、ニューラルネットワーク演算装置６０全体にクロックを供給するクロックジェネレータである。該クロックジェネレータ６１は、ニューラルネットワーク演算装置６０にもクロックを供給する。本クロックは、設計によっては１種類の周波数を供給する場合もあるし、複数種類の周波数のクロックを供給する場合もある。本実施の形態においては、簡単のため１種類のクロックを供給する場合について説明するが、本発明は複数種類のクロックにおいても実現可能である。

ニューラルネットワーク演算装置６０は、その構成によってはＳＯＣ６全体の規模のうち、５０％以上を占めることもある。したがって、ニューラルネットワーク演算装置６０の電力消費もそれに応じてＳＯＣ全体の主たる部分になり得る。

次にニューラルネットワーク演算装置６０の内部構成について説明する。
６０１はメインコントローラである。メインコントローラ６０１は、ニューラルネットワーク演算装置６０全体の処理シーケンスや、入出力データの管理、後述のプロセッサエレメントに対する動作要求を制御するモジュールである。加えて、メインコントローラ６０１は、ニューラルネットワーク演算装置６０の動作状態の情報に基づいて電力制御も行う。

６０２はクロックコントローラである。クロックコントローラ６０２は、後述のプロセッサエレメント６０４やニューラルネットワーク演算装置６０のその他すべての内部モジュールに対してクロックを供給する。該クロックコントローラ６０２には、複数のプロセッサエレメント６０４に対して個別にクロックを供給・停止する機構が実装されている。加えて、個別のプロセッサエレメントＰＥｉｊに対してクロックの周波数を制御する機構を持たせてもよい。

６０３はアクティベーションメモリである。アクティベーションメモリ６０３は、後述のプロセッサエレメント６０４に供給するアクティベーションデータを記憶するモジュールである。メインコントローラ６０１は不図示のＤＭＡコントローラ等を用いて、本アクティベーションメモリ６０３に対して必要となるアクティベーションデータを従前に転送し、処理開始とともにプロセッサエレメントに対してデータを供給するように指示を行う。アクティベーションメモリ６０３は当該指示に基づいて、必要となるアクティベーションデータをプロセッサエレメント６０４に供給する。

当該部分の実装方法は、メインコントローラ６０１がアクティベーションメモリ６０３に指示を出してアクティベーションメモリ６０３が能動的にデータをプロセッサエレメントに対して供給しても良いし、メインコントローラ６０１がプロセッサエレメント６０４に指示を出すことで、プロセッサエレメント６０４がアクティベーションメモリ６０３から必要となるデータを読み出しても良い。

６０４はプロセッサエレメントである。プロセッサエレメント６０４は入力アクティベーションと不図示のＷｅｉｇｈｔ入力用メモリからのＷｅｉｇｈｔ値を入力として、畳み込み演算を実行する乗算器と加算器からなる畳み込み演算器を１つ以上具備する。多くの場合、プロセッサエレメントには畳み込み乗算器が複数実装されており、複数の畳み込み演算を同時並列に実行できる構成になっている。

プロセッサエレメント６０４の用語は、プロセッサエレメントを総称する場合に用い、個々のプロセッサエレメントを指す場合には、プロセッサエレメント「ＰＥｉｊ」という。ここで、ｉｊは、位置によってプロセッサエレメントＰＥを特定する番号であり、ｉ（ｉ＝０，・・・，ｍ）は行を特定し、ｊ（ｊ＝０，・・・，ｎ）は列を特定する。

プロセッサエレメント６０４の演算出力である出力アクティベーションは、アクティベーションメモリ６０３に再度保持されるか、モジュール外部に出力される。

これらのプロセッサエレメント６０４は、ニューラルネットワーク演算装置６０の内部で論理的に２次元配列的に配置されており、上下、左右に隣接するプロセッサエレメントは畳み込み演算実施過程でアクティベーションデータを相互に転送することで、１以上のカーネルサイズの畳み込み演算を実現する。

例えば、図６中のＰＥ１１がカーネルサイズ２ｘ２の畳み込み演算を実施する場合には、ＰＥ１１はＰＥ１０にアクティベーションメモリ６０３から入力されたアクティベーションデータを取得することで、処理対象の左隣りのアクティベーションデータを取得することができる。同様にＰＥ０１から上隣りのデータとＰＥ００からＰＥ０１に一旦伝送されたアクティベーションデータも受け取り、演算に利用する構造になっている。また、別の構成として、アクティベーションメモリ６０３から隣接２ｘ２領域のアクティベーションデータを取得してもよい。

次に、ニューラルネットワーク演算装置６０を含むＬＳＩのクロックの処理フローを説明する。第３の実施の形態のクロックの処理のタイミングは、第１の実施の形態と同じであるので、図２を用いて説明する。第３の実施の形態では、同じクロックが供給されるプロセッサエレメント６０４のグループが異なる。図２は、メインコントローラ６０１がクロックコントローラ６０２に対してクロックを投入するタイミングを指示する信号を示した図である。

図２の２０１～２０４は、メインコントローラ６０１がクロックコントローラ６０２に対して出力するＥｎａｂｌｅ信号である。２０５～２０８はクロックコントローラ６０２がプロセッサエレメント６０４に対して出力するクロック信号である。

２次元に配置されたプロセッサエレメント６０４のうち、図６に示すようにＰＥ００から放射状に、縦方向、横方向それぞれの離間距離に応じたクロックグループを構成し、それぞれのクロックグループに対して１本のクロックが供給される。例えば、６０５は左上端のプロセッサエレメント（図６中ＰＥ００）に接続するクロックグループである。６０６は図６中ＰＥ００に縦方向横方向それぞれ隣接するプロセッサエレメント群が構成するクロックグループに接続するクロックグループである。図６では、６０５～６０９までのグループを示しているが、グループの数はこれに限定されるものではない。

メインコントローラ６０１は、クロックを印加するタイミングをクロックグループごとに順次調整する。より具体的には畳み込み演算処理のうち、１要素の積和演算が完了するサイクル数分だけずらして、次のグループのクロックを起動する。図２は１要素の積和演算が１サイクルで完了する前提で示されており、故に列ごとに１サイクルずつずらしてクロックを印加する。

これにより、隣接するサイクルの処理でアクティベーションが使用された直後のタイミングで次の行および列を起動することができる。このようにクロックを制御することで、隣接するプロセッサエレメントＰＥｉｊの間のデータを滞らせることなく、順次プロセッサエレメントが起動されることになるので、結果的に全部のプロセッサエレメントに対して一斉にクロックの供給を開始するよりも穏やかに電力消費が増加することになる。

（第４の実施の形態）
図７は、第４の実施の形態のニューラルネットワーク演算装置を含むＬＳＩの物理的構成の例を示した図である。一方で、図８は、ＬＳＩの対応する論理構造を表した図である。各内部モジュールについて、図８を用いて説明する。

図８の８はＳＯＣ全体を示す。ＳＯＣ８は、多くの場合システム全体を司る不図示のＣＰＵやバスシステムを含み、システムとして機能する。
８０は、第４の実施の形態のニューラルネットワーク演算装置である。
８１は、ＳＯＣ８全体にクロックを供給するクロックジェネレータである。該クロックジェネレータはニューラルネットワーク演算装置８０にもクロックを供給する。本クロックは、設計によっては１種類の周波数を供給する場合もあるし、複数種類の周波数のクロックを供給する場合もある。本実施の形態においては、簡単のため１種類のクロックを供給する場合について説明するが、本発明は、複数種類のクロックにおいても実現可能である。

次に、ニューラルネットワーク演算装置８０の内部構成について説明する。
８０１は、メインコントローラである。メインコントローラ８０１は、ニューラルネットワーク演算装置８０全体の処理シーケンスや、入出力データの管理、後述のプロセッサエレメントに対する動作要求を制御するモジュールである。加えて、メインコントローラ８０１はニューラルネットワーク演算装置８０の動作状態の情報に基づいて電力制御も行う。

８０３は、アクティベーションメモリである。アクティベーションメモリ８０３は、後述のプロセッサエレメント８０４に供給するアクティベーションデータを記憶するモジュールである。メインコントローラ８０１は、不図示のＤＭＡコントローラ等を用いて、本アクティベーションメモリ８０３に対して必要となるアクティベーションデータを従前に転送し、処理開始とともにプロセッサエレメント８０４に対してデータを供給するように指示を行う。アクティベーションメモリ８０３は当該指示に基づいて、必要となるアクティベーションデータをプロセッサエレメント８０４に供給する。図７では、アクティベーションメモリ８０３をレイアウト上の左側に並べて配置している例を示している。

８０４は、プロセッサエレメントである。プロセッサエレメント８０４は入力アクティベーションと不図示のＷｅｉｇｈｔ入力用メモリからのＷｅｉｇｈｔ値を入力として、畳み込み演算を実行する乗算器と加算器からなる畳み込み演算器を１つ以上具備する。多くの場合、プロセッサエレメント８０４には畳み込み乗算器が複数実装されており、複数の畳み込み演算を同時並列に実行できる構成になっている。

プロセッサエレメント８０４の用語は、プロセッサエレメントを総称する場合に用い、個々のプロセッサエレメントを指す場合には、プロセッサエレメント「ＰＥｉｊ」という。ここで、ｉｊは、位置によってプロセッサエレメントＰＥを特定する番号であり、ｉ（ｉ＝０，・・・，ｍ）は行を特定し、ｊ（ｊ＝０，・・・，ｎ）は列を特定する。

演算出力である出力アクティベーションは、アクティベーションメモリ８０３に再度保持されるか、モジュール外部に出力される。

これらのプロセッサエレメント８０４は、ニューラルネットワーク演算装置８０の内部で論理的に２次元配列的に配置されており、上下、左右に隣接するプロセッサエレメントは畳み込み演算実施過程でアクティベーションデータを相互に転送することで、１以上のカーネルサイズの畳み込み演算を実現する。

例えば、図８中のＰＥ１１がカーネルサイズ２ｘ２の畳み込み演算を実施する場合には、ＰＥ１１はＰＥ１０にアクティベーションメモリ８０３から入力されたアクティベーションデータを取得することで、処理対象の左隣りのアクティベーションデータを取得することができる。同様にＰＥ０１から上隣りのデータとＰＥ００からＰＥ０１に一旦伝送されたアクティベーションデータも受け取り、演算に利用する構造になっている。また、別の構成として、アクティベーションメモリ８０３から隣接２ｘ２領域のアクティベーションデータを取得してもよい。

このとき、２次元に配置されたプロセッサエレメント８０４のうち、図７のように配置配線を行った場合に近接するＰＥ群に対してクロックグループを構成し、それぞれのクロックグループに対してクロックが供給される。

図８の８０５～８０７は、クロックグループを論理的に表している。例えば、８０５は左上端のプロセッサエレメントに接続するクロックグループである。これらは図７の物理的な配置配線で近接する関係にあるから、１つのクロックグループを構成する。８０６は１行目の２列目以降のプロセッサエレメント８０４が構成するクロックグループである。図７の例では、ＰＥ１ｘは配置配線上、帯状に配置されており、この場合はクロックグループを分離させる。

以上のように、クロックグループを、図７のような配置配線の状態に合わせて設定する。このとき、クロックグループに１本のクロック線を結線し、物理的に固定的なクロックグループを構成すればよいが、配置配線は設計工程の後段で決定されることが多く、また、プロセスに依存して変更されることがあるため、それぞれのプロセッサエレメントに対して独立にクロック線を結線し、クロックコントローラ８０２でクロック供給タイミングを論理的に同一グループとして調整し、同様の効果を得るように実装してもよい。

次に、ニューラルネットワーク演算装置８０を含むＬＳＩのクロックの処理フローを説明する。第４の実施の形態のクロックの処理のタイミングは、第１の実施の形態と同じであるので、図２を用いて説明する。図２は、メインコントローラ６０１がクロックコントローラ６０２に対してクロックを投入するタイミングを指示する信号を示した図である。

メインコントローラ８０１は、クロックを印加するタイミングをグループごとに順次調整する。より具体的には畳み込み演算処理のうち、１要素の積和演算が完了するサイクル数分だけずらして、次の列のクロックを起動する。図２は１要素の積和演算が１サイクルで完了する前提で示されており、故に列ごとに１サイクルずつずらしてクロックを印加する。

これにより、隣接するサイクルの処理でアクティベーションが使用された直後のタイミングで次の行および列を起動することができる。このようにクロックを制御することで、隣接間のデータを滞らせることなく順次プロセッサエレメントが起動されることになるので、結果的に全部のプロセッサエレメントに対してクロックを供給するよりも穏やかに電力消費が増加することになる。

なお、本実施の形態では、クロックのタイミングが第１の実施の形態と同じ例を挙げて説明したが、クロックのタイミングは、第２の実施の形態のように、各列の起動間隔をアレイの列数サイクル数だけ間引き、間引き間隔を徐々に削減する方法（図４参照）を採用してもよい。

（第５の実施の形態）
図９は、第５の実施の形態のニューラルネットワーク演算装置を含むＬＳＩを表した図である。上記した実施の形態では、演算の起動時にクロックの供給開始タイミングを遅延させる構成について説明したが、本実施の形態では、診断回路での電力消費を利用することで、ニューラルネットワーク演算装置の電力消費の変動を抑制する例について説明する。

すなわち、本実施の形態のニューラルネットワーク演算装置は、ニューラルネットワーク処理を行うニューラルネットワーク演算装置であって、アレイ状に配置された複数のプロセッサエレメントと、前記プロセッサエレメントに対して供給する入力アクティベーションデータを記憶するアクティベーションメモリと、前記プロセッサエレメントのそれぞれの動作を制御するメインコントローラとを備え、前記各プロセッサエレメントまたは前記メインコントローラのいずれか一方もしくは両方が演算検査処理機能を備え、前記メインコントローラは、前記プロセッサエレメントに対して演算処理と演算検査処理を選択的に実行指示する構成を備えている。以下、図面を参照して詳しく説明する。

９はＳＯＣ全体を示す。ＳＯＣ９には、多くの場合、システム全体を司る不図示のＣＰＵやバスシステムを含み、システムとして機能する。
９０は、本実施の形態のニューラルネットワーク演算装置である。
９１はＳＯＣ９全体にクロックを供給するクロックジェネレータである。該クロックジェネレータ９１は、ニューラルネットワーク演算装置９０にもクロックを供給する。本クロックは、設計によっては１種類の周波数を供給する場合もあるし、複数種類の周波数のクロックを供給する場合もある。本実施の形態においては、簡単のため１種類のクロックを供給する場合について説明するが、本発明は複数種類のクロックにおいても実現可能である。

ニューラルネットワーク演算装置９０は、その構成によってはＳＯＣ全体の規模のうち、５０％以上を占めることもある。したがって、ニューラルネットワーク演算装置９０の電力消費もそれに応じてＳＯＣ９全体の主たる部分になり得る。

次に、ニューラルネットワーク演算装置９０の内部構成について説明する。
９０１は、メインコントローラである。メインコントローラ９０１はニューラルネットワーク演算装置９０全体の処理シーケンスや、入出力データの管理、後述のプロセッサエレメントに対する動作要求を制御するモジュールである。加えて、メインコントローラ９０１はニューラルネットワーク演算装置９０の動作状態の情報に基づいて電力制御も行う。

９０２は、クロックコントローラである。クロックコントローラ９０２は、後述のプロセッサエレメント９０４やニューラルネットワーク演算装置９０のその他すべての内部モジュールに対してクロックを供給する。該クロックコントローラ９０２には、複数のプロセッサエレメント９０４に対して個別にクロックを供給・停止する機構が実装されている。加えて、個別のプロセッサエレメントＰＥｉｊに対してクロックの周波数を制御する機構を持たせてもよい。

９０３は、アクティベーションメモリである。アクティベーションメモリ９０３は、後述のプロセッサエレメント９０４に供給するアクティベーションデータを記憶するモジュールである。メインコントローラ９０１は、不図示のＤＭＡコントローラ等を用いて、本アクティベーションメモリ９０３に対して必要となるアクティベーションデータを従前に転送し、処理開始とともにプロセッサエレメント９０４に対してデータを供給するように指示を行う。アクティベーションメモリ９０３は当該指示に基づいて、必要となるアクティベーションデータをプロセッサエレメント９０４に供給する。

当該部分の実装方法は、メインコントローラ９０１がアクティベーションメモリ９０３に指示を出してアクティベーションメモリ９０３が能動的にデータをプロセッサエレメントに対して供給しても良いし、メインコントローラ９０１がプロセッサエレメント９０４に指示を出すことで、プロセッサエレメント９０４がアクティベーションメモリ９０３から必要となるデータを読み出しても良い。

９０４は、プロセッサエレメントである。プロセッサエレメント９０４は、入力アクティベーションと不図示のＷｅｉｇｈｔ入力用メモリからのＷｅｉｇｈｔ値を入力として、畳み込み演算を実行する乗算器と加算器からなる畳み込み演算器を１つ以上具備する。多くの場合、プロセッサエレメントには畳み込み乗算器が複数実装されており、複数の畳み込み演算を同時並列に実行できる構成になっている。

プロセッサエレメント９０４の用語は、プロセッサエレメントを総称する場合に用い、個々のプロセッサエレメントを指す場合には、プロセッサエレメント「ＰＥｉｊ」という。ここで、ｉｊは、位置によってプロセッサエレメントＰＥを特定する番号であり、ｉ（ｉ＝０，・・・，ｍ）は行を特定し、ｊ（ｊ＝０，・・・，ｎ）は列を特定する。

演算出力である出力アクティベーションは、アクティベーションメモリ９０３に再度保持されるか、モジュール外部に出力される。

これらのプロセッサエレメント９０４はニューラルネットワーク演算装置９０の内部で論理的に２次元配列的に配置されており、上下、左右に隣接するプロセッサエレメントは畳み込み演算実施過程でアクティベーションデータを相互に転送することで、１以上のカーネルサイズの畳み込み演算を実現する。

例えば、図９中のＰＥ１１がカーネルサイズ２ｘ２の畳み込み演算を実施する場合には、ＰＥ１１はＰＥ１０にアクティベーションメモリ９０３から入力されたアクティベーションデータを取得することで、処理対象の左隣りのアクティベーションデータを取得することができる。同様にＰＥ０１から上隣りのデータとＰＥ００からＰＥ０１に一旦伝送されたアクティベーションデータも受け取り、演算に利用する構造になっている。または、アクティベーションメモリ９０３から隣接２ｘ２領域のアクティベーションデータを取得してもよい。

９０５は、診断回路である。図９において診断回路は「ＢＩＳＴ」と記載している。これは「Build in soft test」の略である。診断回路９０５は、診断処理を行う際の入力パターンと対応する演算期待値を生成または保持し、入力パターンに対するプロセッサエレメント９０４の演算結果と演算期待値との比較を行う回路である。この回路はプロセッサエレメント９０４ごとに１つ配置されている。当該機能を定期的に実行することにより、プロセッサエレメント９０４のハードウェア故障を検出することが可能となる。

診断回路９０５は、メインコントローラ９０１とそれぞれに結線されており、メインコントローラ９０１は、各プロセッサエレメント９０４に対して、通常のアクティベーションデータを供給して演算を実行するか、診断回路９０５からのパターンデータを供給して演算を実行するかを選択することができる。

診断回路９０５は、図中では各プロセッサエレメントに隣接する形で配置されており、メインコントローラ９０１からの選択信号によって診断回路９０５からのパターンが選択された場合には、対応するプロセッサエレメント９０４に対して診断用のデータパターンを供給することができる。

一方で、診断回路９０５をメインコントローラ９０１内部に実装し、各プロセッサエレメント９０４に対して、診断パターンを供給できる構成にしてもよい。この構成の場合、診断回路９０５は少なくとも１つのプロセッサエレメント９０４が診断処理を実行する場合には診断パターンを生成し、メインコントローラ９０１によって生成される選択信号とともに診断パターンを対象プロセッサエレメント９０４に送出する。

診断回路９０５が実行する診断処理は、通常のアクティベーションデータを演算する場合に比べ、プロセッサエレメント９０４間でのデータ転送が不要であり、プロセッサエレメント９０４ごとに処理が完結する。加えて、診断に用いるパターンは所定のトグル率を達成できれば良く、各プロセッサエレメント９０４で消費する電力は当該トグル率をある程度従前に制御することができる。

次に、これらの構成を用いたクロックと診断処理の処理フローを説明する。この処理では、メインコントローラ９０１はクロックコントローラ９０２に対してクロック投入を指示する。２次元に配置されたプロセッサエレメント９０４のうち、同じ列のプロセッサエレメント９０４に対して、１本のクロックが供給される。

以上の構成で、メインコントローラ９０１は診断回路９０５を有効にし、クロックを印加するタイミングを列ごとに順次調整する。本実施の形態においては、クロックを印加するタイミングは、同時であってもよいし、ＰＥ列ごとに１サイクルずつずれてもよいし、それ以上のサイクル数でずれてもよい。このとき、１サイクルの場合には、診断回路が消費する電力を実際の演算処理が消費する電力よりも小さくなる可能性が高いトグルパターンにしておく。

また、複数サイクルの場合には、診断回路９０５が生成する診断パターンは徐々にトグル率が増加するようなパターンであるとよい。さらに、プロセッサエレメント９０４の演算器が複数の演算器から構成されている場合には、そのすべてを一連の畳み込み演算処理が実現できる方法で起動する必要はなく、各々の演算器の妥当性さえ確認できれば良いのであって、演算器ごとに活性化してもよい。

その後、メインコントローラ９０１は、診断回路９０５の処理が完了したプロセッサエレメント９０４から順次実際の積和演算処理に切替える。これにより、通常の畳み込み演算処理の前に、畳み込み演算のデータフローに依存することなく、かつ消費電力を無駄にすることなく、徐々にモジュールの電力消費を増加させることができる。

以上について、図１０を例として説明する。図１０は、横軸に時間、縦軸にプロセッサエレメント９０４の列方向の稼働を示した図である。例として図１０では、プロセッサエレメント９０４の列数（すなわち、グループの数）は８である。この例では、簡単のため、メインコントローラ９０１はクロックコントローラ９０２に対して、全てのクロックを同時に供給している。

以上の前提において、メインコントローラ９０１は、まず１列目の診断回路を起動する。この診断回路のパターンのトグル率を例えば２５％前後で調整してある。１列目の診断回路の処理が完了するタイミングで、メインコントローラ９０２は、２列目の診断回路を起動する。この診断回路のパターンのトグル率を例えば５０％前後で調整する。同様にトグル率７５％の３列目の診断回路、トグル率１００％の４列目の診断回路を順次起動する。

その後、図１０の例では、診断が完了したものについては、実際の畳み込み演算を順次開始する。この畳み込み演算の処理においては、前述の通りプロセッサエレメント９０４間のデータ転送が発生するから、プロセッサエレメント間のデータ転送のレイテンシと整合するだけの起動のズレが生じることになる。他方で、診断処理は当該データ転送の依存性が存在しないため、起動するタイミングはより自由に設定できる。

図１０の例では、４列目から８列目の診断処理と畳み込み演算処理が重複している。この場合には、４列目から８列目の診断パターンのトグル率は低めの値で実施すればよい。また、常に列のパターンを固定化してしまうと、トグル率の低い診断回路とトグル率の高い診断回路で不具合検出率に差異が生じる可能性があるため、診断回路を起動する順番を適宜入れ替えると活性化率が平均化されてよい。

このように本実施の形態のニューラルネットワーク演算装置８０は、プロセッサエレメント９０４と診断回路９０５へのクロック供給を組み合わせてコントロールすることで、電力の変動を抑制することができる。

（第６の実施の形態）
第６の実施の形態のニューラルネットワーク演算装置の基本的な構成は、第５の実施の形態のニューラルネットワーク演算装置５０と同じである。第６の実施の形態のニューラルネットワーク演算装置は、第５の実施の形態のニューラルネットワーク演算装置９０において、診断回路の起動数を変えることで電力を順次増加させる。

図１１は、第６の実施の形態のニューラルネットワーク演算装置による処理について説明するための図である。図１１では、メインコントローラ９０１は０列目と４列目のプロセッサエレメント９０４に対して、診断回路９０５を用いて診断処理を実施する。したがって、この時動作しているプロセッサエレメント列は２である。該処理が完了するのと同タイミングで、メインコントローラ９０１は２列目と６列目に対して同様に処理を行う。したがって、このタイミングでも動作するプロセッサエレメント列は２である。

その後、メインコントローラ９０１は、残り４つのプロセッサエレメント列に対して診断処理を起動する。その後、メインコントローラ９０１は全プロセッサエレメントで畳込み演算処理を実行する。これにより、プロセッサエレメントの稼働率が段階的に上昇し、緩やかに電力消費を増加させることが可能である。本実施の形態では、上記のパターンで診断回路を起動したが、プロセッサエレメント９０４の稼働数が徐々に増加すればよく、パターンは上記に限定されるものではない。

また、上述した第５の実施の形態および第６の実施の形態では、プロセッサエレメント９０４に対し、列を単位としてグループを形成してクロック信号を供給する例を挙げたが、行と列を入れ替え、行を単位としてグループを形成してクロック信号を供給する構成としてもよいことは言うまでもない。さらに、これらの実施の形態に対して、第１～第４の実施の形態で説明したクロック供給の遅延制御を組み合わせて実施することもできる。

（第７の実施の形態）
第７の実施の形態のニューラルネットワーク演算装置の基本的な構成は、第５の実施の形態のニューラルネットワーク演算装置９０と同じである（図９参照）。第７の実施の形態では、診断回路の起動数を、ニューラルネットワーク処理の状態に応じて変化させることで電力を一定化する。

すなわち、本実施の形態のニューラルネットワーク演算装置は、ニューラルネットワーク処理を行うニューラルネットワーク演算装置であって、アレイ状に配置された複数のプロセッサエレメントと、前記プロセッサエレメントに対して供給する入力アクティベーションデータを記憶するアクティベーションメモリ（１０３）と、前記プロセッサエレメントのそれぞれの動作を制御するメインコントローラ（１０１）とを備え、前記メインコントローラは、ニューラルネットワーク処理の種類を検出し、前記ニューラルネットワーク処理の種類に応じて予め規定された消費電力に基づいて、前記プロセッサエレメントの一部に対して演算検査処理を指示する構成を有する。以下、図面を参照して詳しく説明する。

メインコントローラは、プロセッサエレメントに対して演算処理を指示する。この時、ニューラルネットワークの処理によっては、プロセッサエレメントの全てを使用しない処理が存在する。例えば、畳み込み演算を行なわず、２つのネットワークをチャネル方向に単純に連結する処理がある。このような処理では、畳み込み演算を実行する場合に比べて、演算器が動作しない分だけ電力消費が急減する可能性がある。

また、別の例として画像の端部などの場合には、全てのプロセッサエレメントが処理を行わず、一部分のみが活性化する場合がある。この場合も電力消費が減少する可能性がある。

本実施の形態では、上記背景に鑑み、ニューラルネットワークの処理に応じて、メインコントローラが、プロセッサエレメントまたはプロセッサエレメントの演算処理部に対して診断処理を実行するように指示を行う。

図１２は、第７の実施の形態のニューラルネットワーク演算処理装置の処理について説明するための図である。第７の実施の形態のニューラルネットワーク演算装置は、第５の実施の形態と同様に、プロセッサエレメントへのクロック供給は列を単位とするグループごとに行われる。

図１２に示す例では、先頭の処理において偶数行目のプロセッサエレメントのみが処理を行い、奇数行目のプロセッサエレメントは転送のみを実行する。次の処理タイミングでは、奇数行目のみが処理を行い、偶数行目は転送処理を行うが、このタイミングにおいて、メインコントローラは偶数行目のプロセッサエレメントに対して診断処理を起動することができる。このとき、実際の演算処理と診断処理に時間差がある場合には、診断処理を随時実行してよい。

以上説明した処理により、プロセッサエレメントの処理内容に起因する電力消費の急激な変動を抑えることができる。

（第８の実施の形態）
第８の実施の形態のニューラルネットワーク演算装置の基本的な構成は、第５の実施の形態のニューラルネットワーク演算装置５０と同じである。上記した実施の形態においては、ニューラルネットワーク演算装置の演算の起動時に、一斉にクロック供給を開始することに伴う電力変動の抑制に着目して説明してきたが、電力変動はクロック供給を停止する場合にも起こり得る。

第８の実施の形態のニューラルネットワーク演算装置では、処理の終了時に、メインコントローラはプロセッサエレメントに対して図５の逆順でクロックを段階的に停止する。また、処理の終了時にメインコントローラは、図１０または図１１の逆順で、プロセッサエレメントおよび診断回路に対するクロックを段階的に停止する。

また、メインコントローラは、実行中の処理が完了する場合に、現在の処理がニューラルネットワーク処理の最終レイヤであるか否かを判断し、ニューラルネットワーク処理が最終レイヤであった場合のみ、段階的なクロック停止に移行する。一方で、最終レイヤでない場合には、段階的クロック停止の手続きをキャンセルし、クロックを供給し続ける構成としてもよい。

この機能により、レイヤ処理が継続する場合には、性能を低下させることなく処理を継続できる一方で、レイヤ処理が終了する場合の急激な電力消費量変動を回避できる。

（第９の実施の形態）
図１３は、第９の実施の形態のニューラルネットワーク演算装置の構成を示す図である。上記した実施の形態では、クロック供給の単位がプロセッサエレメントであるとして説明してきたが、本実施の形態では、電力消費の変動を抑制する更にきめ細かい制御について説明する。

本実施の形態のニューラルネットワーク演算装置は、ニューラルネットワーク処理を行うニューラルネットワーク演算装置（１０）であって、アレイ状に配置された複数のプロセッサエレメント（１０４）と、前記プロセッサエレメントに対して供給する入力アクティベーションデータを記憶するアクティベーションメモリ（１０３）と、前記プロセッサエレメントのそれぞれの動作を制御するメインコントローラ（１０１）とを備え、前記プロセッサエレメントは、各々が異なる機能を実行する複数の処理部を有し、各処理部に独立にクロックを供給可能な構成を有し、前記メインコントローラは、演算処理の起動時に各プロセッサエレメントの複数の処理部に対する起動タイミングを個別に制御し、段階的に前記プロセッサエレメントを起動する構成を有する。以下、図面を参照して詳しく説明する。

第９の実施の形態のニューラルネットワーク演算装置の基本的な構成は第１の実施の形態と同じであるが、本実施の形態のニューラルネットワーク演算装置１３０は、プロセッサエレメント１３０４が、内部構造として、演算部である１３０４１とデータ転送部である１３０４２に分割されている。本実施の形態では、プロセッサエレメントを演算部１３０４１とデータ転送部１３０４２とで分割制御し、データ演算と演算処理の組み合わせで電力を順次増加させる。

１３０４１は演算部であり、入力アクティベーションとＷｅｉｇｈｔ値に基づいて積和演算を実行する演算ユニットである。演算部１３０４１は、少なくとも１つ以上の積和演算器で構成され、通常はその要求性能に応じて複数の演算器が実装されている。また、サポートするレイヤ処理によっては、積和演算器以外の演算が実行できるようになっていてもよい。

１３０４２は、データ転送部である。データ転送部は２ｘ２以上のカーネルによる畳み込み演算を実行する際に、アクティベーションデータを隣接するプロセッサエレメント間で共有するために、アクティベーションデータを転送する。

演算部１３０４１とデータ転送部１３０４２は、プロセッサエレメント１３０４の外部から独立にクロック供給が実行できる構造になっている。また、リセットについても独立してリセット制御する構成にしてもよい。あるいは、本実施の形態では、プロセッサエレメント外部からクロック供給を制御する前提ではあるが、プロセッサエレメント１３０４内部でクロックを制御する構成であってもよい。

通常の畳み込み演算処理時においては、演算部１３０４１もデータ転送部１３０４２も同時に実行される。仮に、演算部１３０４１またはデータ転送部１３０４２のいずれか一方のみが実行される場合には、通常の処理時に比べて電力消費が小さくなる。また、演算部１３０４１とデータ転送部１３０４２の回路を比較すると、一般的に、演算部１３０４１の方が論理規模が大きく、故に電力消費量も多くなる。以上の特徴を利用し、本実施の形態では、次に示すようなシーケンスで処理を実行する。

図１４は、本実施の形態の処理シーケンスを示した図である。図１４では、簡単のため、８列のプロセッサエレメントが並んでいる場合を想定するが、本発明は８列に限定されるものではない。図１４は、複数の畳み込み層を連続して処理する場合のプロセッサエレメントごとの稼働状態を示している。横軸に時間、縦軸がプロセッサエレメント列を示している。図１４では、３レイヤを連続実行する場合のシーケンスを示しているが、少なくとも２層以上のレイヤ処理を実行できれば本シーケンスは成立する。

メインコントローラ１３０１は、Ｃｏｎｖ０番目のレイヤ処理を実行するときに、まず偶数列（０，２，４，６列目）に対しては演算部１３０４１及びデータ転送部１３０４２の両方を稼働するように指示し、同時に奇数列（１，３，５，７列目）に対しては、データ転送部１３０４２のみを稼働するように指示し、演算部１３０４１を動作させない。このとき、データ転送部１３０４２は全てのプロセッサエレメント１３０４で実行されるので、全プロセッサエレメント１３０４で必要となるデータは通常通りに供給される一方で、演算処理は偶数列しか行われず、奇数列については、演算がなされない。

次に、メインコントローラ１３０１は、奇数列（１，３，５，７列目）に対しては演算部１３０４１及びデータ転送部１３０４２の両方を稼働するように指示し、同時に偶数列（０，２，４，６列目）に対しては、データ転送部１３０４２のみを稼働するように指示し、演算部１３０４１を動作させない。この組み合わせによって、奇数列の演算処理が実行され、前の処理と合わせてＣｏｎｖ０番目のレイヤ処理が完了する。

プロセッサエレメント１３０４は引き続き、Ｃｏｎｖ１レイヤを実行するが、メインコントローラ１３０１は、Ｃｏｎｖ１レイヤ目以降は全プロセッサエレメント１３０４に対して、演算部１３０４１及びデータ転送部１３０４２の両方を活性化するように指示を出す。これによって、プロセッサエレメントの全てが動作する。以上によってＣｏｎｖ０レイヤ処理中の演算器の稼働率は通常の５０％に限定されるため、電力消費はＣｏｎｖ１以降のレイヤ処理中の電力に比較して、小さくなるように制御することができる。

１ＳＯＣ、１０ニューラルネットワーク演算装置、１１クロックジェネレータ、
１０１メインコントローラ、１０２クロックコントローラ、
１０３アクティベーションメモリ、１０４プロセッシングエレメント、
２０１～２０４Ｅｎａｂｌｅ信号、２０５～２０８クロック信号、
４０１～４０４Ｅｎａｂｌｅ信号、４０５～４０８クロック信号、
６ＳＯＣ、６０ニューラルネットワーク演算装置、６１クロックジェネレータ、
６０１メインコントローラ、６０２クロックコントローラ、
６０３アクティベーションメモリ、６０４プロセッシングエレメント、
６０５～６０９グループ、
８ＳＯＣ、８０ニューラルネットワーク演算装置、８１クロックジェネレータ、
８０１メインコントローラ、８０２クロックコントローラ、
８０３アクティベーションメモリ、８０４プロセッシングエレメント、
８０５～８０７グループ、
９ＳＯＣ、９０ニューラルネットワーク演算装置、９１クロックジェネレータ、
９０１メインコントローラ、９０２クロックコントローラ、
９０３アクティベーションメモリ、９０４プロセッシングエレメント、
９０５診断回路、
１３ＳＯＣ、１３０ニューラルネットワーク演算装置、
１３１クロックジェネレータ、
１３０１メインコントローラ、１３０２クロックコントローラ、
１３０３アクティベーションメモリ、１３０４プロセッシングエレメント、
１３０４１演算部、１３０４２データ転送部。

Claims

ニューラルネットワーク処理を行うニューラルネットワーク演算装置（１０）であって、
アレイ状に配置された複数のプロセッサエレメント（１０４）と、
前記プロセッサエレメントに対して供給する入力アクティベーションデータを記憶するアクティベーションメモリ（１０３）と、
前記プロセッサエレメントのそれぞれの動作を制御するメインコントローラ（１０１）と、
を備え、
クロックジェネレータのクロック線はアレイ状に配列されたプロセッサエレメントの端点から放射状にプロセッサエレメント（６０４）を論理的にまとめたグループ（６０５～６０９）を形成したうえで、該グループのそれぞれに独立にクロック線が接続され、
前記メインコントローラ（６０１）は、演算処理を放射状に接続された前記グループごとに起動するとともにクロックジェネレータ（６１）の当該プロセッサエレメントのグループへのクロック供給を指示し、ニューラルネットワーク演算のためのデータの供給に同期して、前記プロセッサエレメントの端点から順次クロックを供給するニューラルネットワーク演算装置。
ニューラルネットワーク処理を行うニューラルネットワーク演算装置（１０）であって、
アレイ状に配置された複数のプロセッサエレメント（１０４）と、
前記プロセッサエレメントに対して供給する入力アクティベーションデータを記憶するアクティベーションメモリ（１０３）と、
前記プロセッサエレメントのそれぞれの動作を制御するメインコントローラ（１０１）と、
を備え、
前記各プロセッサエレメントまたは前記メインコントローラのいずれか一方もしくは両方が演算検査処理機能を備え、
前記メインコントローラは、クロックジェネレータ（１１）から供給されるクロックをそれぞれのプロセッサエレメントに供給するタイミングを制御し、かつ、前記プロセッサエレメントに対して演算処理と演算検査処理を選択的に実行指示するニューラルネットワーク演算装置。
ニューラルネットワーク処理を行うニューラルネットワーク演算装置（１０）であって、
アレイ状に配置された複数のプロセッサエレメント（１０４）と、
前記プロセッサエレメントに対して供給する入力アクティベーションデータを記憶するアクティベーションメモリ（１０３）と、
前記プロセッサエレメントのそれぞれの動作を制御するメインコントローラ（１０１）と、
を備え、
前記メインコントローラ（１０１）は、クロックジェネレータ（１１）から供給されるクロックをそれぞれのプロセッサエレメントに供給するタイミングを制御し、かつ、ニューラルネットワーク処理の開始前に、演算検査処理の実行数が漸進的に増加するように実行指示するニューラルネットワーク演算装置。
ニューラルネットワーク処理を行うニューラルネットワーク演算装置（１０）であって、
アレイ状に配置された複数のプロセッサエレメント（１０４）と、
前記プロセッサエレメントに対して供給する入力アクティベーションデータを記憶するアクティベーションメモリ（１０３）と、
前記プロセッサエレメントのそれぞれの動作を制御するメインコントローラ（１０１）と、
を備え、
前記メインコントローラ（１０１）は、クロックジェネレータ（１１）から供給されるクロックをそれぞれのプロセッサエレメントに供給するタイミングを制御し、かつ、ニューラルネットワーク処理の種類を検出し、前記ニューラルネットワーク処理の種類に応じて予め規定された消費電力に基づいて、前記プロセッサエレメントの一部に対して演算検査処理を指示するニューラルネットワーク演算装置。
アレイ状に配列されたプロセッサエレメントは、隣接するプロセッサエレメント間でメインコントローラからの命令を転送する機能を備え、
前記クロックジェネレータのクロック線は前記プロセッサエレメントを論理的にまとめたグループごとに接続され、
前記メインコントローラは、前記プロセッサエレメントへのニューラルネットワーク演算のためのデータの供給に同期して、前記グループごとに前記プロセッサエレメントにクロックを供給し、演算処理の起動からの時間の経過に伴ってクロックを供給する前記グループを増加させる請求項２～４のいずれか１項に記載のニューラルネットワーク演算装置。
アレイ状に配列されたプロセッサエレメントは、隣接するプロセッサエレメント間でメインコントローラからの命令を転送する機能を備え、
前記クロックジェネレータのクロック線はプロセッサエレメントの列ごとに接続され、
前記メインコントローラは、演算処理を列ごとに起動するとともに、クロックジェネレータの当該列のクロック供給を指示し、ニューラルネットワーク演算のためデータの供給に同期して前記プロセッサエレメントの列の一端側から順次クロックを供給する請求項２～４のいずれか１項に記載のニューラルネットワーク演算装置。
クロックジェネレータのクロック線は半導体シリコン上に配置配線されたプロセッサエレメント（８０４）の物理的配置に応じてプロセッサエレメントをまとめたグループを形成したうえで該グループのそれぞれに独立にクロック線が接続され、
前記メインコントローラは、演算処理を前記グループごとに起動するとともにクロックジェネレータの当該プロセッサエレメントのクロック供給を指示し、半導体シリコン上の電力消費が均等になるように順次クロックを供給する請求項２～４のいずれか１項に記載のニューラルネットワーク演算装置。
前記メインコントローラは、ニューラルネットワーク処理の進行状態を検出する機能を備え、ニューラルネットワーク処理の進行状態によって、クロック供給を継続するか、クロックを停止するかを決定する請求項１～７のいずれか１項に記載のニューラルネットワーク演算装置。
前記プロセッサエレメントは、各々が異なる機能を実行する複数の処理部を有し、各処理部に独立にクロックを供給可能な構成を有し、
前記メインコントローラは、演算処理の起動時に各プロセッサエレメントの複数の処理部に対する起動タイミングを個別に制御し、段階的に前記プロセッサエレメントを起動する請求項１～８のいずれか１項に記載のニューラルネットワーク演算装置。