JP7485396B2

JP7485396B2 - 内積計算装置

Info

Publication number: JP7485396B2
Application number: JP2022195665A
Authority: JP
Inventors: 泰吉林
Original assignee: 國立中正大學
Priority date: 2022-10-18
Filing date: 2022-12-07
Publication date: 2024-05-16
Anticipated expiration: 2042-12-07
Also published as: TWI805511B; US20240126508A1; JP2024059535A

Description

本発明は計算装置に関し、特に、内積計算装置に関する。

ベクトルの内積（ｉｎｎｅｒｐｒｏｄｕｃｔ）は、信号処理やニューラルネットワークなどの計算において最も重要な核心部の一つである。ニューラルネットワークや信号処理などの応用におけるベクトルの内積計算には大量に重複する同じ重み又は係数〔例えば、線形位相（ｌｉｎｅａｒ－ｐｈａｓｅ）有限インパルス応答（ＦＩＲ：ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルターの対称的な係数又は高量子化のニューラルネットワークの重み〕が多くあり、線形位相ＦＩＲにおいて、係数が完全に対称であるため、数学的分配法則（ｄｉｓｔｒｉｂｕｔｉｖｅｌａｗ）を利用して対照的な係数を有する２つの入力データを先に加算し、その和に当該係数値を乗じれば乗算計算を効果的に半減できる。しかしニューラルネットワーク又はその他の一般的な応用においては、重複する重み又は係数はほぼランダムに発生するため、これまでの文献では、重みをインデックス方式で保存することにより重みメモリーの保存及び読み出しの複雑度を低減するにとどまっていた。つまり、当該内積計算はＫ種類の異なる重みがある場合、もとはそれぞれｎビットの重みが必要であったが、ｌｏｇ_２Ｋビットのインデックスを用いて示せば重みのビット数を効果的に低減できる。

図１は先行技術の完全接続（ｆｕｌｌｙ－ｃｏｎｎｅｃｔｅｄ）ニューラルネットワークを示す図である。図１を参照すると、ニューラルネットワークは複数の小円を有し、それらの小円は左から右に向かってそれぞれ、入力層に位置する入力ノード、隠れ層に位置する多層ニューロン及び出力層に位置する出力ノードを表し、その中のｘ_i,jは第ｉ層ｊ個目のニューロンであることを示す。第ｉ層ｊ個目のニューロンｘ_i,jの計算は、第ｉ－１層の第ｋ個目のニューロンｘ_i-1,k出力と対応する重みデータｗ_i,j,kのベクトルの内積に、第ｉ層のｊ個目のニューロンｘ_i,jに対応するバイアスｂ_i,jを加えるとともに、活性化（ａｃｔｉｖａｔｉｏｎ）関数の計算を行った結果であり、その式は次の（１）式となる。

（１）式の中のＮ_i-1は第ｉ－１層のニューロンに対応する入力データの個数である。ベクトルの内積の最も直接的な実現方法は、「積和演算器（ＭＡＣ：ｍｕｌｔｉｐｌｙ－ａｃｃｕｍｕｌａｔｏｒ）」により２つのベクトルに対応する要素（すなわち、ニューラルネットワークの前の層のニューロン出力と対応する重み）をそれぞれ乗算した後、順次乗累算して内積計算の結果を得る方法である。図２は、先行技術の図１のニューラルネットワークに用いられる内積計算装置のブロック図である。図２を参照すると、内積計算装置はマイクロ命令生成装置１０、データバッファー１２、重みメモリー１４、乗算器１６、加算器１８及び活性化関数処理装置２０を備える。以下、図２の操作ステップを簡単に説明する。ステップ１．まず入力データをデータバッファー１２に入れる。ステップ２．データバッファー１２の入力データ及び対応する重み係数を順次読み出し、その内積を計算し、内積値にバイアスを加算し、活性化関数を経て、ニューラルネットワークは計算結果を出力してデータバッファー１２に保存する。ステップ３．第１隠れ層の全てのニューロン計算が終わるまでステップ２のニューロン計算を繰り返し、結果をデータバッファー１２に保存する。ステップ４．データバッファー１２における第１隠れ層の出力及び対応する重み係数を順次読み出し、その内積を計算し、内積値にバイアスを加算し、活性化関数を経て、ニューラルネットワークは計算結果を出力してデータバッファー１２に保存する。ステップ５．第２隠れ層の全てのニューロン計算が終わるまでステップ４のニューロン計算を繰り返し、結果をデータバッファー１２に保存する。ステップ６．全ての隠れ層の計算が終わるまでステップ５を繰り返す。ステップ７．データバッファー１２における最後の隠れ層の出力及び対応する重み係数を順次読み出し、その内積を計算し、内積値にバイアスを加算した後、データバッファー１２に保存する。ステップ８．出力層の計算が終わるまでステップ７の出力計算を繰り返し、結果をデータバッファー１２に保存する。

図３は先行技術の内積計算装置のブロック図であり、内積計算装置はマイクロ命令生成装置１０、データバッファー１２、乗算器１６、加算器１８、活性化関数処理装置２０、インデックスメモリー２２及び重みマッピングテーブル２４を備える。図３ではインデックスメモリー２２及び重みマッピングテーブル２４を使用しているが、重複する係数と数学的分配法則の特性を十分に利用して複雑な乗算計算を減らしていないのが残念である。

図４は先行技術の別の内積計算装置のブロック図である。図４は当業者が容易に実現できる構造である。この内積計算装置はマイクロ命令生成装置２６、データバッファー２８、インデックスメモリー３０、重みマッピングテーブル３２、加算器３４、プレアキュムレーターレジスタアレイ３６、乗算器３８、加算器４０及び活性化関数処理装置４２を備える。プレアキュムレーターレジスタアレイ３６はＫ個の異なるプレアキュムレーターを含む。各インデックス値（０からＫ－１）に基づいてＫ個の異なるプレアキュムレーターにより、対応する入力値をそれぞれ累積し、全ての入力値がそれに対応するインデックス値に従って対応するプレアキュムレーターに累積された後、対応する係数を乗算して最終的な累積を完了し、ベクトルの内積が算出される。つまり、もとはＮ個の要素の内積計算にはＮ回の乗算及びＮ－１回の加算が必要であったが、数学的分配法則に従えば、重複する係数による余分な計算であるＮ－Ｋ回の乗算を完全に省略できる。この構造は直感的ではあるが、膨大な数のプレアキュムレーターを必要とし、Ｋ＝１６で、５１２個のニューロンの隠れ層及び１６ビットの演算には、２５ビットのプレアキュムレーターが１６個必要であり、実現するための面積は１６ビットの乗算器よりも大きい可能性があり、相当のアクセス消費電力になる。

そこで、本発明は、従来技術から生じる上述の問題を解決するための内積計算装置を提案する。

本発明は、高性能で低消費電力という目的を達成する内積計算装置を提供する。

本発明の内積計算装置はデータメモリー、転置インデックスメモリー（ＩＩＭ：ｉｎｖｅｒｔｅｄｉｎｄｅｘｍｅｍｏｒｙ）、重みマッピングテーブル、コントローラー、プレアキュムレーター及び積和演算モジュールを備える。コントローラーは、データメモリー、転置インデックスメモリー及び重みマッピングテーブルに電気的に接続する。プレアキュムレーターはデータメモリーに電気的に接続し、積和演算モジュールはプレアキュムレーター及び重みマッピングテーブルに電気的に接続する。データメモリーは複数のデータグループを保存し、各データグループは複数のデータ値を含む。転置インデックスメモリーは各データグループのデータメモリーにおけるデータアドレス及びそれに対応する重みインデックス値を保存する。重みマッピングテーブルは重みインデックス値に対応する重み値（ｗｅｉｇｈｔｖａｌｕｅｓ）を保存する。コントローラーは、転置インデックスメモリーから全てのデータグループのデータアドレス及びそれに対応する重みインデックス値を順次取得するとともに、それらに基づいてデータメモリーを駆動して全てのデータグループの全てのデータ値を順次出力し、かつ、重みマッピングテーブルを駆動して重みインデックス値に対応する重み値を順次出力する。プレアキュムレーターは、各データグループの全てのデータ値を受信して累積することにより、複数の累積値を生成する。積和演算モジュールは、各データグループに対応する累積値及び重み値を受信するとともに、分配法則（ｄｉｓｔｒｉｂｕｔｉｖｅｌａｗ）に基づき各データグループに対応する累積値と重み値の乗算及び累積を行うことにより、内積値を生成する。

本発明の一実施形態において、転置インデックスメモリーは、可変長符号化（ｖａｒｉａｂｌｅｌｅｎｇｔｈｃｏｄｉｎｇ）方式により各データグループの当該データアドレス及びそれに対応する重みインデックス値を保存する。

本発明の一実施形態において、全てのデータグループに対応する重み値は正の値及び負の値を含み、転置インデックスメモリーは正の値から負の値の順序でそれに対応するデータアドレスを順次保存する。

本発明の一実施形態において、転置インデックスメモリーは、最小の負の値から最大の負の値の順序でそれに対応するデータアドレスを順次保存し、かつ、最小の負の値に対応するデータアドレスは最大の負の値に対応するデータアドレスと比較して正の値に対応するデータアドレスに近い。

本発明の一実施形態において、積和演算モジュールは乗算器及びアキュムレーターを備える。乗算器はプレアキュムレーター及び重みマッピングテーブルに電気的に接続する。乗算器は各データグループに対応する累積値と重み値を受信して乗算することにより、複数の乗算値を生成する。アキュムレーターは、乗算器に電気的に接続し、全ての乗算値を受信して累積することにより、内積値を生成する。

本発明の一実施形態において、アキュムレーターはさらに、関数処理装置に電気的に接続し、内積値について活性化（ａｃｔｉｖａｔｉｏｎ）関数、ラウンド関数又は飽和（ｓａｔｕｒａｔｉｏｎ）関数の演算を行う。

本発明の一実施形態において、内積計算装置はデータメモリー、転置インデックスメモリー、コントローラー、プレアキュムレーター及び積和演算モジュールを備える。データメモリーは複数のデータグループを保存し、各データグループは複数のデータ値を含む。転置インデックスメモリーは各データグループのデータメモリーにおけるデータアドレス及びそれに対応する重み値を保存する。コントローラーはデータメモリー及び転置インデックスメモリーに電気的に接続する。コントローラーは転置インデックスメモリーから全てのデータグループのデータアドレス及びそれに対応する重み値を順次取得するとともに、それらに基づいてデータメモリーを駆動して全てのデータグループの全てのデータ値を順次出力し、かつ、全てのデータグループに対応する重み値を順次出力する。プレアキュムレーターは、データメモリーに電気的に接続し、各データグループの全てのデータ値を受信して累積することにより、複数の累積値を生成する。積和演算モジュールはプレアキュムレーター及びコントローラーに電気的に接続する。積和演算モジュールは各データグループに対応する累積値と重み値を受信するとともに、分配法則に基づき各データグループに対応する累積値と重み値の乗算及び累積を行うことにより、内積値を生成する。

本発明の一実施形態において、転置インデックスメモリーは、可変長符号化方式により各データグループのデータアドレス及びそれに対応する重み値を保存する。

本発明の一実施形態において、積和演算モジュールは乗算器及びアキュムレーターを備える。乗算器は、プレアキュムレーター及びコントローラーに電気的に接続し、各データグループに対応する累積値と重み値を受信して乗算することにより、複数の乗算値を生成する。アキュムレーターは、乗算器に電気的に接続し、全ての乗算値を受信して累積することにより、内積値を生成する。

上述の内容によれば、内積計算装置は、転置インデックスメモリーから各データグループのデータメモリーにおけるデータアドレス及びそれに対応する重みインデックス値を取得し、それらに基づいて単一のプレアキュムレーターにより各データグループの全てのデータ値を累積すると同時に、数学的分配法則に従って複数の重複する重み値の乗算計算の量を削減することにより、高性能で低消費電力にするという目的を達成する。

本発明の目的、技術内容、特徴および達成される効果を理解しやすくするため、添付の図面と併せて具体的な実施形態について以下に詳細に説明する。

先行技術の完全接続（ｆｕｌｌｙ－ｃｏｎｎｅｃｔｅｄ）ニューラルネットワークを示す図である。先行技術の図１のニューラルネットワークに用いられる内積計算装置のブロック図である。先行技術の内積計算装置のブロック図である。先行技術の別の内積計算装置のブロック図である。本発明の第１実施例における内積計算装置のブロック図である。本発明の一実施形態における重み値、バイアス、データアドレス、重みインデックス値及びデータ値の数量の転置インデックスメモリーへの保存を示す図である。本発明の第２実施例における内積計算装置のブロック図である。

本考案の実施形態について、関連する図を合わせて以下にさらなる説明を加える。図面及び明細書においては、可能な限り、同じ符号で同一又は同様の部材を示す。図面においては、簡潔性及び利便性のため、形状及び厚さが拡大表示されることがある。特に図中で表示されていない、或いは明細書に記載されていない素子は、当業者が知る形態であると解釈できる。当業者であれば本発明の内容に基づき、様々な変更や修正を加えることが可能である。

１つの素子が『・・・上にある』と記述されている場合、一般的には当該素子が直接その他の素子上にあることを指し、その他素子が両者の中間に存在するという場合もある。それに反し、１つの素子が『直接』別の素子にあるという記述の場合、その他素子は両者の中間に存在することはできない。本文で用いられる「及び／又は」は列挙された関連項目中の１つ又は複数のいかなる組み合わせも含む。

以下の文中における「一つの実施形態」又は「一実施形態」という記述は少なくとも１つの実施形態内において関連する特定の素子、構造又は特徴のことを指す。したがって、以下の文中において多くの箇所にある「一つの実施形態」又は「一実施形態」といった複数の記述は同一実施形態に対するものではない。さらに、１つ又は複数の実施形態における特定の部材、構造及び特徴は適切な方式に基づいて組み合わせることができる。

以下に具体例を挙げて説明を加えるが、これらの例は説明のために用いられるに過ぎない。当業者であれば、本開示内容の精神と領域を逸脱しない範囲内で各種の変更や潤色を加えることができる。本開示内容の保護範囲は、特許請求の範囲で指定した内容を基準とする。本明細書及び特許請求の範囲において、明確な指定がない限り、「１つ」及び「前記」という用語は、「１つまたは少なくとも１つ」の意味を含む。また、本開示にもあるように、特定の文脈から複数であることが明らかである以外に、単数表記は複数の意味も含む。さらに、本明細書及び特許請求の範囲における内容に明確な指定がない限り、「その中」という用語は、「その中」及び「その上」という意味を含むことがある。本明細書及び特許請求の範囲で使用される用語（ｔｅｒｍｓ）は、明確な説明がない限り、その用語が当該分野、本開示の内容及び特殊な内容において通常用いられるのと同じ意味を有する。本開示を説明するための用語については、以下の段落または明細書で別途説明し、当業者（ｐｒａｃｔｉｔｉｏｎｅｒ）が本開示の説明をより明確に理解できるようにする。本明細書のいかなる部分の例示も、ここに述べる用語の例示の使用に含まれ、これらの例示は説明のために用いられるに過ぎず、本開示又は例示されるいかなる用語の範囲及び意味を限定するものではない。同様に、本開示は本明細書で提案される各種実施形態に限定されない。

また、本明細書において「電気的に結合（電気結合）」又は「電気的に接続（電気接続）」という語句を使用する場合は、いかなる直接的及び間接的な電気接続手段も含まれる。例えば、文中で第１装置が第２装置に電気的結合するという記載がある場合、当該第１装置は当該第２装置に直接的に接続できる、或いはその他の装置又は接続手段により当該第２装置に間接的に接続できることを示す。さらに、電気信号の伝送、提供についての記載がある場合は、電気信号の伝送過程において減衰又はその他非理想的な変化が伴う可能性はあるが、電気信号の伝送又は提供の供給源及び受信端について特に説明がない場合は、実質上同一信号であると見なされることを、当業者は理解できるはずである。例えば、電子回路の端点Ａから電気信号Ｓを電子回路の端点Ｂに伝送（又は提供）する場合、トランジスタースイッチのソース、ドレイン両端及び／又は可能な寄生容量により電圧を低下させる可能性があるが、この設計の目的によれば、意図せずに伝送（又は提供）時に生じる減衰又はその他の非理想的な変化を利用してある特定の技術効果を達成する場合、電気信号Ｓは電子回路の端点Ａと端点Ｂにおいて実質的な同一信号と見なすことができるはずである。

特に説明がない限り、いくつかの条件句或いは語句、例えば「できる（ｃａｎ）」、「可能性がある（ｃｏｕｌｄ）」、「かもしれない（ｍｉｇｈｔ）」、或いは「してよい（ｍａｙ）」等は、通常は本発明の実施形態を表現するが、不要な可能性もある特徴、部材或いは工程と解釈してもよい。その他の実施形態において、これらの特徴、部材、或いは工程は不要な場合もある。

本明細書で使用する「含む、備える（ｃｏｍｐｒｉｓｉｎｇ、ｉｎｃｌｕｄｉｎｇ、ｉｎｖｏｌｖｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「含有する（ｃｏｎｔａｉｎｉｎｇ）」などの用語は、オープンエンド形式であり、つまり、列挙されたものに限定されないことを意図している。また、本発明のいずれの実施形態又は特許請求の範囲も、本発明が開示した目的、長所又は特徴の全てを達成する必要はない。さらに、要約と発明の名称は、特許文献を検索するのに用いられるものであり、本発明の特許請求の範囲を限定するものではない。

以下の説明で提供する内積計算装置は、転置インデックスメモリーから各データグループのデータメモリーにおけるデータアドレス及びそれに対応する重みインデックス値を取得するとともに、それらに基づいて単一のプレアキュムレーターにより各データグループの全てのデータ値を累積すると同時に、数学的分配法則に従って複数の重複する重み値の乗算計算の量を削減することにより、高性能で低消費電力にするという目的を達成する。

図５は本発明の第１実施例における内積計算装置のブロック図である。以下に内積計算装置１００の第１実施例を紹介するので、図５を参照されたい。内積計算装置１００はデータメモリー１１０、転置インデックスメモリー１２０、重みマッピングテーブル１３０、コントローラー１４０、プレアキュムレーター１５０及び積和演算モジュール１６０を備える。データメモリー１１０はレジスタであってもよいが、これに限定されない。コントローラー１４０は、データメモリー１１０、転置インデックスメモリー１２０及び重みマッピングテーブル１３０に電気的に接続する。プレアキュムレーター１５０はデータメモリー１１０に電気的に接続し、積和演算モジュール１６０はプレアキュムレーター１５０及び重みマッピングテーブル１３０に電気的に接続する。

データメモリー１１０は複数のデータグループを保存し、各データグループは複数のデータ値Ｄを含む。転置インデックスメモリー１２０は各データグループのデータメモリー１１０におけるデータアドレスＡ及びそれに対応する重みインデックス値ＷＩを保存する。重みマッピングテーブル１３０は重みインデックス値ＷＩに対応する重み値Ｗを保存する。重みインデックス値ＷＩとそれに対応する重み値Ｗは同じ値であってもよいが、本発明はこれに限定されない。コントローラー１４０は、転置インデックスメモリー１２０から全てのデータグループのデータアドレスＡ及びそれに対応する重みインデックス値ＷＩを順次取得するとともに、それらに基づいてデータメモリー１１０を駆動して全てのデータグループの全てのデータ値Ｄを順次出力し、かつ、重みマッピングテーブル１３０を駆動して重みインデックス値ＷＩに対応する重み値Ｗを順次出力する。プレアキュムレーター１５０は、各データグループの全てのデータ値Ｄを受信して累積することにより、複数の累積値ＡＶを生成する。積和演算モジュール１６０は、各データグループに対応する累積値ＡＶ及び重み値Ｗを受信するとともに、分配法則に基づき各データグループに対応する累積値ＡＶと重み値Ｗの乗算及び累積を行うことにより、内積値Ｐを生成する。数学的分配法則によれば複数の重複する重み値の乗算計算を削減することで、高性能で低消費電力にするという目的を達成することができる。

すべてのデータグループが第１データグループ及び第２データグループを含み、第１データグループが複数の第１データ値Ｄ１を含み、第２データグループが複数の第２データ値Ｄ２を含むと仮定する。データメモリー１１０には、第１データグループの第１データアドレスＡ１及びそれに対応する第１重みインデックス値ＷＩ１を保存するとともに、第２データグループの第２データアドレスＡ２及びそれに対応する第２重みインデックス値ＷＩ２を保存する。第１重みインデックス値ＷＩ１は第１重み値Ｗ１に対応し、第２重みインデックス値ＷＩ２は第２重み値Ｗ２に対応する。全ての累積値ＡＶは第１累積値ＡＶ１及び第２累積値ＡＶ２を含む。まず、コントローラー１４０は、転置インデックスメモリー１２０から第１データグループの第１データアドレスＡ１及びそれに対応する第１重みインデックス値ＷＩ１を取得するとともに、それらに基づいてデータメモリー１１０を駆動して第１データグループの全ての第１データ値Ｄ１を出力し、かつ、重みマッピングテーブル１３０を駆動して第１重みインデックス値ＷＩ１に対応する第１重み値Ｗ１を出力する。プレアキュムレーター１５０は、第１データグループの全ての第１データ値Ｄ１を受信して累積することにより、第１累積値ＡＶ１を生成する。次に、コントローラー１４０は、転置インデックスメモリー１２０から第２データグループの第２データアドレスＡ２及びそれに対応する第２重みインデックス値ＷＩ２を取得するとともに、それらに基づいてデータメモリー１１０を駆動して第２データグループの全ての第２データ値Ｄ２を出力し、かつ、重みマッピングテーブル１３０を駆動して第２重みインデックス値ＷＩ２に対応する重み値Ｗ２を出力する。プレアキュムレーター１５０は、第２データグループの全ての第２データ値Ｄ２を受信して累積することにより、第２累積値ＡＶ２を生成する。積和演算モジュール１６０は、数式（２）により第１累積値ＡＶ１、第２累積値ＡＶ２、第１重み値Ｗ１及び第２重み値Ｗ２を計算し、内積値Ｐを得る。

［数２］
ＡＶ１×Ｗ１＋ＡＶ２×Ｗ２＝Ｐ・・・（２）

本発明のいくつかの実施形態では、積和演算モジュール１６０は乗算器１６１及びアキュムレーター１６２を含んでもよい。乗算器１６１はプレアキュムレーター１５０及び重みマッピングテーブル１３０に電気的に接続する。アキュムレーター１６２は乗算器１６１に電気的に接続する。乗算器１６１は各データグループに対応する累積値ＡＶと重み値Ｗを受信して乗算することにより、複数の乗算値Ｍを生成する。アキュムレーター１６２は全ての乗算値Ｍを受信して累積することにより、内積値Ｐを生成する。

本発明の一実施形態において、内積値Ｐはニューラルネットワークに用いることができ、アキュムレーター１６２はさらに関数処理装置１７０に電気的に接続し、内積値Ｐについて活性化関数、ラウンド関数又は飽和関数の演算を行う。例えば、活性化関数は正規化線形ユニット（ＲｅＬＵ：ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔｓ）関数であってもよいが、これに限定されない。また、別の一実施形態において、内積値Ｐはニューラルネットワークだけでなく、フィルターや相関計算などの内積計算を必要とするその他の応用にも用いることができる。データグループに対応する重み値Ｗは正の値及び負の値を含むことができる。活性化関数がＲｅＬＵ関数である場合、転置インデックスメモリー１２０は重み値Ｗの正の値から負の値の順序でそれに対応するデータアドレスＡを保存する。また、転置インデックスメモリー１２０は、最小の負の値から最大の負の値の順序でそれに対応するデータアドレスＡを順次保存し、かつ、最小の負の値に対応するデータアドレスＡは最大の負の値に対応するデータアドレスＡと比較して正の値に対応するデータアドレスＡに近い。したがって、積和演算モジュール１６０はまず対応する正の重み値Ｗのデータを計算してから、対応する負の重み値Ｗのデータを計算する。対応する負の重み値Ｗのデータを計算する時、積和演算モジュール１６０は重み値Ｗの最小の負の値から最大の負の値の順序で、対応する負の重み値Ｗのデータを計算する。アキュムレーター１６２の計算結果が正から負に変わった場合、内積値Ｐは０であると見なされ、早期に計算が終了する。

図６は本発明の一実施例における重み値、バイアス、データアドレス、重みインデックス値及びデータ値の数量の転置インデックスメモリーへの保存を示す図である。図６及び図５を参照すると、転置インデックスメモリー１２０は、可変長符号化方式により各データグループのデータアドレスＡ及びそれに対応する重みインデックス値ＷＩを保存することができる。図６は音声変換に応用される完全接続ニューラルネットワークであり、このニューラルネットワークは１２９個の入力ノードと、５１２個のニューロンを含む３つの隠れ層と、１２９個の出力ノードを含み、その中の重み値Ｗの数量はＫであり、データ精度は１６ビットである。上述の計算の早期終了を支援するために、各ニューロンと出力計算に関わる各パラメータを全て新しいハーフワード（１６ビット）にアラインメントする。つまり、各ニューロンや出力のパラメータが１６ビットの倍数でない場合、スラッシュで表すようなフラグメントが発生する。ｉｐｔは転置インデックスメモリー１２０における現在のニューロンのアドレスを表し、ｉｐｔ＋Δｉｐｔは転置インデックスメモリー１２０における次のニューロンのアドレスを表す。Δｉｐｔは転置インデックスメモリー１２０におけるニューロンのトアドレスのオフセットを表し、単位はフラグメントを含むハーフワードであり、長さは９ビットである。オフセットは、次のニューロンのパラメータの開始アドレスを計算するのに用いられ、計算が早く終わった場合、迅速に次のニューロンの計算を迅速に開始することができる。ｗｉｄｘ₀及びｗｉｄｘ_１は重みインデックス値を表し、Ｋ＝１６なので、重みインデックス値の長さは４ビットである。Ｎ₀はｗｉｄｘ₀に対応するデータグループのデータ値の数量を表し、Ｎ₁はｗｉｄｘ_１に対応するデータグループのデータ値の数量を表し、Ｎ₀及びＮ₁のそれぞれの長さはいずれも９ビットである。ｄｐｔ₀、ｄｐｔ₁、ｄｐｔ₂、ｄｐｔ₃、ｄｐｔ_No-1及びｄｐｔ_N(K-1)-1はそれぞれ複数のデータ値のデータアドレスＡを表す。隠れ層は５１２個のニューロンを有するため、各データアドレスＡの長さは９ビットである。また、必要に応じて、転置インデックスメモリー１２０は重み値とバイアスを有してもよい。太枠は、１つの重みインデックス値ＷＩに対応する全てのデータアドレスＡのエンコードを表し、コントローラー１４０によって動的アライメント及びデコードが行われる。本発明は転置インデックスメモリー１２０のデータの幅や、各データのエンコード方式、配置及び長さに限定されない。

チップの面積を節約するために、重みマッピングテーブル１３０は転置インデックスメモリー１２０に統合されてもよい。図７は本発明の第２実施例における内積計算装置のブロック図である。内積計算装置１００の第２実施例を以下に紹介するので、図７を参照されたい。内積計算装置１００はデータメモリー１１０、転置インデックスメモリー１２０、コントローラー１４０、プレアキュムレーター１５０及び積和演算モジュール１６０を備える。データメモリー１１０はレジスタであってもよいが、これに限定されない。コントローラー１４０はデータメモリー１１０及び転置インデックスメモリー１２０に電気的に接続し、プレアキュムレーター１５０はデータメモリー１１０に電気的に接続し、積和演算モジュール１６０はプレアキュムレーター１５０及びコントローラー１４０に電気的に接続する。

データメモリー１１０は複数のデータグループを保存し、各データグループは複数のデータ値Ｄを含む。転置インデックスメモリー１２０は各データグループのデータメモリー１１０におけるデータアドレスＡ及びそれに対応する重み値Ｗを保存する。コントローラー１４０は、転置インデックスメモリー１２０から全てのデータグループのデータアドレスＡ及びそれに対応する重み値Ｗを順次取得するとともに、それらに基づいてデータメモリー１１０を駆動して全てのデータグループの全てのデータ値Ｄを順次出力し、かつ、全てのデータグループに対応する重み値Ｗを順次出力する。プレアキュムレーター１５０は、各データグループの全てのデータ値Ｄを受信して累積することにより、複数の累積値ＡＶを生成する。積和演算モジュール１６０は、各データグループに対応する累積値ＡＶ及び重み値Ｗを受信するとともに、分配法則に基づき各データグループに対応する累積値ＡＶと重み値Ｗの乗算及び累積を行うことにより、内積値Ｐを生成する。

すべてのデータグループが第１データグループ及び第２データグループを含み、第１データグループが複数の第１データ値Ｄ１を含み、第２データグループが複数の第２データ値Ｄ２を含むと仮定する。データメモリー１１０には、第１データグループの第１データアドレスＡ１及びそれに対応する第１重み値Ｗ１を保存するとともに、第２データグループの第２データアドレスＡ２及びそれに対応する第２重み値Ｗ２を保存する。全ての累積値ＡＶは第１累積値ＡＶ１及び第２累積値ＡＶ２を含む。まず、コントローラー１４０は、転置インデックスメモリー１２０から第１データグループの第１データアドレスＡ１及びそれに対応する第１重み値Ｗ１を取得するとともに、それらに基づいてデータメモリー１１０を駆動して第１データグループの全ての第１データ値Ｄ１を出力し、かつ第１重み値Ｗ１を出力する。プレアキュムレーター１５０は、第１データグループの全ての第１データ値Ｄ１を受信して累積することにより、第１累積値ＡＶ１を生成する。次に、コントローラー１４０は、転置インデックスメモリー１２０から第２データグループの第２データアドレスＡ２及びそれに対応する第２重み値Ｗ２を取得するとともに、それらに基づいてデータメモリー１１０を駆動して第２データグループの全ての第２データ値Ｄ２を出力し、かつ、第２重み値Ｗ２を出力する。プレアキュムレーター１５０は、第２データグループの全ての第２データ値Ｄ２を受信して累積することにより、第２累積値ＡＶ２を生成する。積和演算モジュール１６０は、数式（２）により第１累積値ＡＶ１、第２累積値ＡＶ２、第１重み値Ｗ１及び第２重み値Ｗ２を計算し、内積値Ｐを得る。

積和演算モジュール１６０は乗算器１６１及びアキュムレーター１６２を含んでもよい。乗算器１６１はプレアキュムレーター１５０及びコントローラー１４０に電気的に接続する。アキュムレーター１６２は乗算器１６１に電気的に接続する。乗算器１６１は各データグループに対応する累積値ＡＶと重み値Ｗを受信して乗算することにより、複数の乗算値Ｍを生成する。アキュムレーター１６２は全ての乗算値Ｍを受信して累積することにより、内積値Ｐを生成する。

第２実施例のアキュムレーター１６２も関数処理装置１７０に電気的に接続でき、内積値Ｐについて活性化関数、ラウンド関数又は飽和関数の演算を行う。例えば、活性化関数はＲｅＬＵ関数であってもよいが、これに限定されない。また、別の一実施形態において、内積値Ｐはニューラルネットワークだけでなく、フィルターや相関計算などの内積計算を必要とするその他の応用にも用いることができる。データグループに対応する重み値Ｗは正の値及び負の値を含むことができる。活性化関数がＲｅＬＵ関数である場合、転置インデックスメモリー１２０は重み値Ｗの正の値から負の値の順序でそれに対応するデータアドレスＡを保存する。また、転置インデックスメモリー１２０は、最小の負の値から最大の負の値の順序でそれに対応するデータアドレスＡを順次保存し、かつ、最小の負の値に対応するデータアドレスＡは最大の負の値に対応するデータアドレスＡと比較して正の値に対応するデータアドレスＡに近い。したがって、積和演算モジュール１６０はまず対応する正の重み値Ｗのデータを計算してから、対応する負の重み値Ｗのデータを計算する。対応する負の重み値Ｗのデータを計算する時、積和演算モジュール１６０は重み値Ｗの最小の負の値から最大の負の値の順序で、対応する負の重み値Ｗのデータを計算する。アキュムレーター１６２の計算結果が正から負に変わった場合、内積値Ｐは０であると見なされ、早期に計算が終了する。

図７及び図６に示すように、転置インデックスメモリー１２０は、可変長符号化方式により各データグループのデータアドレスＡ及びそれに対応する重み値Ｗを保存することができる。

上述の実施形態によれば、内積計算装置は、転置インデックスメモリーから各データグループのデータメモリーにおけるデータアドレス及びそれに対応する重みインデックス値を取得し、それらに基づいて単一のプレアキュムレーターにより各データグループの全てのデータ値を累積すると同時に、数学的分配法則に従って複数の重複する重み値の乗算計算の量を削減することにより、高性能で低消費電力にするという目的を達成する。

以上に記載した実施形態は本発明の技術的思想や特徴の説明に過ぎず、その目的は、この技術分野を熟知する者が本発明の内容を理解して実施できるようにすることであり、本発明の特許範囲を限定するものではない。したがって、本発明の精神に基づいて加えた均等な変更や修飾は全て、本発明の特許保護範囲内に含まれる。

１０マイクロ命令生成装置
１２データバッファー
１４重みメモリー
１６乗算器
１８加算器
２０活性化関数処理装置
２２インデックスメモリー
２４重みマッピングテーブル
２６マイクロ命令生成装置
２８データバッファー
３０インデックスメモリー
３２重みマッピングテーブル
３４加算器
３６プレアキュムレーターレジスタアレイ
３８乗算器
４０加算器
４２活性化関数処理装置
１００内積計算装置
１１０データメモリー
１２０転置インデックスメモリー
１３０重みマッピングテーブル
１４０コントローラー
１５０プレアキュムレーター
１６０積和演算モジュール
１６１乗算器
１６２アキュムレーター
１７０関数処理装置
ｘ_i,j ニューロン
Ａデータアドレス
ＷＩ重みインデックス値
Ｗ重み値
Ｄデータ値
ＡＶ累積値
Ｐ内積値
Ｍ乗算値

Claims

データメモリー、転置インデックスメモリー（ＩＩＭ：ｉｎｖｅｒｔｅｄｉｎｄｅｘｍｅｍｏｒｙ）、重みマッピングテーブル、コントローラー、プレアキュムレーター及び積和演算モジュールを備え、
前記データメモリーは複数のデータグループを保存し、各前記データグループは複数のデータ値を含み、
前記転置インデックスメモリーは各前記データグループの前記データメモリーにおけるデータアドレス及びそれに対応する重みインデックス値を保存し、
前記重みマッピングテーブルは、前記重みインデックス値に対応する重み値を保存し、
前記コントローラーは、前記データメモリー、前記転置インデックスメモリー及び前記重みマッピングテーブルに電気的に接続し、前記転置インデックスメモリーから前記複数のデータグループの前記データアドレス及びそれに対応する前記重みインデックス値を順次取得するとともに、それらに基づいて前記データメモリーを駆動して前記複数のデータグループの前記複数のデータ値を順次出力し、かつ、前記重みマッピングテーブルを駆動して前記重みインデックス値に対応する前記重み値を順次出力し、
前記プレアキュムレーターは、前記データメモリーに電気的に接続し、各前記データグループの前記複数のデータ値を受信して累積することにより、複数の累積値を生成し、
前記積和演算モジュールは、前記プレアキュムレーター及び前記重みマッピングテーブルに電気的に接続し、各前記データグループに対応する前記累積値及び前記重み値を受信するとともに、分配法則（ｄｉｓｔｒｉｂｕｔｉｖｅｌａｗ）に基づき各前記データグループに対応する前記累積値及び前記重み値の乗算及び累積を行うことにより、内積値を生成し、
前記複数のデータグループに対応する前記重み値は正の値及び負の値を含み、前記転置インデックスメモリーは前記正の値から前記負の値の順序でそれに対応する前記データアドレスを保存し、
前記転置インデックスメモリーは、最小の前記負の値から最大の前記負の値の順序でそれに対応する前記データアドレスを順次保存し、かつ、前記最小の前記負の値に対応する前記データアドレスは前記最大の前記負の値に対応する前記データアドレスと比較して前記正の値に対応する前記データアドレスに近い、内積計算装置。
前記転置インデックスメモリーは、可変長符号化（ｖａｒｉａｂｌｅｌｅｎｇｔｈｃｏｄｉｎｇ）方式により各前記データグループの前記データアドレス及びそれに対応する前記重みインデックス値を保存する、請求項１に記載の内積計算装置。
前記積和演算モジュールは乗算器及びアキュムレーターを備え、
前記乗算器は、前記プレアキュムレーター及び前記重みマッピングテーブルに電気的に接続し、各前記データグループに対応する前記累積値と前記重み値を受信して乗算することにより、複数の乗算値を生成し、
前記アキュムレーターは、前記乗算器に電気的に接続し、前記複数の乗算値を受信して累積することにより、前記内積値を生成する、請求項１に記載の内積計算装置。
前記アキュムレーターはさらに、関数処理装置に電気的に接続し、前記内積値について活性化（ａｃｔｉｖａｔｉｏｎ）関数、ラウンド関数又は飽和（ｓａｔｕｒａｔｉｏｎ）関数の演算を行う、請求項３に記載の内積計算装置。
前記内積値はニューラルネットワーク、フィルター又は相関計算に利用される、請求項１に記載の内積計算装置。
データメモリー、転置インデックスメモリー、コントローラー、プレアキュムレーター及び積和演算モジュールを備え、
前記データメモリーは複数のデータグループを保存し、各前記データグループは複数のデータ値を含み、
前記転置インデックスメモリーは各前記データグループの前記データメモリーにおけるデータアドレス及びそれに対応する重み値を保存し、
前記コントローラーは、前記データメモリー及び前記転置インデックスメモリーに電気的に接続し、前記転置インデックスメモリーから前記複数のデータグループの前記データアドレス及びそれに対応する前記重み値を順次取得するとともに、それらに基づいて前記データメモリーを駆動して前記複数のデータグループの前記複数のデータ値を順次出力し、かつ、前記複数のデータグループに対応する前記重み値を順次出力し、
前記プレアキュムレーターは、前記データメモリーに電気的に接続し、各前記データグループの前記複数のデータ値を受信して累積することにより、複数の累積値を生成し、
前記積和演算モジュールは、前記プレアキュムレーター及び前記コントローラーに電気的に接続し、各前記データグループに対応する前記累積値及び前記重み値を受信するとともに、分配法則に基づき各前記データグループに対応する前記累積値及び前記重み値の乗算及び累積を行うことにより、内積値を生成し、
前記複数のデータグループに対応する前記重み値は正の値及び負の値を含み、前記転置インデックスメモリーは前記正の値から前記負の値の順序でそれに対応する前記データアドレスを保存し、
前記転置インデックスメモリーは、最小の前記負の値から最大の前記負の値の順序でそれに対応する前記データアドレスを保存し、かつ、前記最小の前記負の値に対応する前記データアドレスは前記最大の前記負の値に対応する前記データアドレスと比較して前記正の値に対応する前記データアドレスに近い、内積計算装置。
前記転置インデックスメモリーは、可変長符号化方式により各前記データグループの前記データアドレス及びそれに対応する前記重み値を保存する、請求項６に記載の内積計算装置。
前記積和演算モジュールは乗算器及びアキュムレーターを備え、
前記乗算器は、前記プレアキュムレーター及び前記コントローラーに電気的に接続し、各前記データグループに対応する前記累積値と前記重み値を受信して乗算することにより、複数の乗算値を生成し、
前記アキュムレーターは、前記乗算器に電気的に接続し、前記複数の乗算値を受信して累積することにより、前記内積値を生成する、請求項６に記載の内積計算装置。
前記アキュムレーターはさらに、関数処理装置に電気的に接続し、前記内積値について活性化関数、ラウンド関数又は飽和関数の演算を行う、請求項８に記載の内積計算装置。
前記内積値はニューラルネットワーク、フィルター又は相関計算に利用される、請求項６に記載の内積計算装置。