JP2021144427A

JP2021144427A - 演算器

Info

Publication number: JP2021144427A
Application number: JP2020042176A
Authority: JP
Inventors: 洋平山田; Yohei Yamada
Original assignee: Denso Corp; NSI Texe Inc
Current assignee: Denso Corp; NSI Texe Inc
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2021-09-24
Anticipated expiration: 2040-03-11
Also published as: JP7456205B2

Abstract

【課題】演算器の利用効率を大幅に低下しないようにしつつ、故障検出が可能な演算器を提供する。【解決手段】入力値に係数を乗ずる計算を行う演算器であって、係数の３倍値を記憶する記憶部２と、入力値に記憶部から読み出した３倍値を乗じる乗算部４と、乗算部による演算結果を１／３に除算する除算部８とを備える。乗算部による乗算結果が３の倍数か否かに基づいて、演算結果のエラーをチェックする。【選択図】図１

Description

本発明は、乗算部を備えた演算器に関する。

従来、演算器の故障検出にかかわる技術としては、演算器を二重化して並列動作させ、両者の演算結果を比較することで故障検出を行う手法（例えば、特許文献１）や、同一演算器で入力オペランドを入れ替えて複数回計算させ、両者の計算結果を比較することで故障検出を行う手法（例えば、特許文献２）等が知られていた。

特開平２−１８７８２１号公報特開平３−６８０１９号公報

上記した手法は、いずれも演算器の利用効率が５０％に低下する手法であり、実装コストが高いという問題があった。また、演算器と並行してパリティプレディクション回路を設け、演算器の出力結果のパリティとパリティプレディクション回路の出力を比較して故障検出を行う手法が知られているが、これは加算器などパリティプレディクションが可能な演算器にしか適用が困難であった。

そこで、本開示は上記背景に鑑み、演算器の利用効率を大幅に低下しないようにしつつ、故障検出が可能な演算器を提供することを目的とする。

本開示は上記課題を解決するために以下の技術的手段を採用する。特許請求の範囲及びこの項に記載した括弧内の符号は、ひとつの態様として後述する実施の形態に記載の具体的手段との対応関係を示す一例であって、本発明の技術的範囲を限定するものではない。

本開示にかかる演算器は、入力値に係数を乗ずる計算を行う演算器であって、前記入力値に前記係数の３倍値を乗じる乗算部（４）と、前記乗算部による演算結果を１／３に除算する除算部（８）とを備え、前記乗算部による乗算結果が３の倍数か否かに基づいて、演算結果のエラーをチェックする。

本開示に係る演算器は、ニューラルネットワークにおける各レイヤでの演算に用いられる演算器であって、学習によって求めた係数の３倍値を記憶した記憶部と、入力値に前記記憶部から読み出した前記３倍値を乗じる乗算部と、前記乗算部による複数の演算結果を積算する積算部と、前記積算部による演算結果に対して後処理を行う後処理部であって、前記ニューラルネットワークの学習時に用いた乗算パラメータを１／３にして演算を行う後処理部（６）と、前記積算部による演算結果を３で割った余りを演算する剰余演算部（１０）とを備え、前記余りが０か否かに基づいて演算結果のエラーをチェックする。

本開示の演算器は、ニューラルネットワークにおける各レイヤでの演算に用いられる演算器であって、前記ニューラルネットワークは、前記各レイヤへの入力として、前のレイヤから伝達された値の３倍値を用いて重み係数を学習したニューラルネットワークであり、学習によって求めた係数の３倍値を記憶した記憶部と、入力値に前記記憶部から読み出した前記３倍値を乗じる乗算部と、前記乗算部による複数の演算結果を積算する積算部と、前記積算部による演算結果を３で割った余りを演算する剰余演算部と、前記積算部による演算結果に対してスケーリングを行う後処理部とを備え、前記余りが０か否かに基づいて演算結果のエラーをチェックする。

本開示は、容易に演算器の故障を検出することができる。

第１の実施の形態の演算器の例を示す図である。実施の形態の演算器によって演算を行うニューラルネットワークモデルの例を示す図である。積算結果が１６ｂｉｔ幅であった際のＭｏｄｕｌｏ３の計算方法の例を示す図である。第２の実施の形態の演算器の例を示す図である。第３の実施の形態の演算器の例を示す図である。第４の実施の形態の演算器の例を示す図である。

以下、本開示の実施の形態にかかる演算器について、図面を参照しながら説明する。
（第１の実施の形態）
図１は、第１の実施の形態の演算器の構成を示す図である。本実施の形態の演算器は、画像認識、物体検知等に使用するニューラルネットワーク処理エンジン全般に適用することができる。

図２は、実施の形態の演算器によって演算を行うニューラルネットワークモデル（以下、「ＮＮモデル」という）の例を示す図である。図２に示すＮＮモデルは、入力層と出力層との間に、２つの層を有している。第１層は、記載を簡略化している。

第２層は、第２層に対する入力αｉ（ｉ＝１〜３）に重みｗｉ（ｉ＝１〜３）を乗じるニューロンと、ニューロンによる計算結果の後処理としてバッチノーマライゼーション（以下、「ＢＮ」という）を行うニューロンを有している。本実施の形態では、後処理としてＢＮを例として説明するが、後処理としては、ＲｅＬＵ、シグモイド関数による活性化処理、スケーリング処理等を行ってもよい。
図２では、一つのニューロンに着目しているが、ＮＮモデルによる計算では各層の各ニューロンについて、入力と重みを乗ずる計算を行う。

図１に戻って、演算器の構成について説明する。第１の実施の形態の演算器は、メモリ１と、メモリ２と、メモリ３と、乗算回路４と、積算回路５と、後処理回路６と、３倍乗算回路７と、１／３除算回路８とを備えている。

メモリ１は、ＢＮ処理の係数データを格納するメモリである。メモリ２は重みデータを格納するメモリである。メモリ３はアクティベーションデータ（図２でいう「αｉ」）を格納するメモリである。乗算回路４は、重みとアクティベーションデータを乗じる乗算回路である。積算回路４の乗算器の出力を積算する積算回路である。後処理回路５は、積算結果に対して、後処理を行う回路である。本実施の形態では、後処理回路６はＢＮ処理を行う。３倍乗算回路７は、入力データに３を乗じ、３倍した結果をメモリ２に対して出力する乗算回路である。１／３除算回路８は入力データを３で除し、１／３の結果を出力する除算回路である。

ここで、乗算回路、除算回路の実装例について説明する。
（３倍乗算回路の実装例）
入力の重みデータをＷとすると、３倍した結果は（Ｗ＜＜１）＋Ｗを計算することで容易に得られる。なお、「＜＜」は左シフトを示す。
（１／３除算回路の実装例）
積算結果をＡｃｃとすると、３で除する処理は、（Ａｃｃ＞＞４）＋（Ａｃｃ＞＞６）＋（Ａｃｃ＞＞８）＋・・・という計算を行うことで十分に精度の高い値が得られる。ＮＮモデルの計算処理においては、スケーリングをして小さい数値に丸めることがあることからも分かるとおり、±１ULP程度の精度で計算ができれば十分である。
（３の剰余（Ｍｏｄｕｌｏ３）計算回路の実装例）
図３は、積算結果が１６ｂｉｔ幅であった際のＭｏｄｕｌｏ３の計算方法の例を示す図である。まず、計算対象を２ｂｉｔ毎に区切り、それぞれのＭｏｄｕｌｏ３を計算する。ｍｏｄ３（４×ｘ）＝ｍｏｄ３（ｍｏｄ３（４）×ｍｏｄ３（ｘ））＝ｍｏｄ３（１×ｍｏｄ３（ｘ））＝ｍｏｄ３（ｘ）であるため、２ｂｉｔ毎に区切って計算したＭｏｄｕｌｏ３値が、そのままその２ｂｉｔから生成される剰余となる。得られたＭｏｄｕｌｏ３値を、さらに隣接するＭｏｄｕｌｏ３値同士で加算し、その結果のＭｏｄｕｌｏ３を計算する。最終的に項が１つになるまで隣接Ｍｏｄｕｌｏ３同士の加算を繰り返す。

以上のように構成された演算器は、次のように動作する。
（１）処理対象のネットワーク層のＢＮ係数を外部よりロードし、メモリ１に書き込む。
（２）処理対象のネットワーク層の重みデータを外部よりロードし、３倍乗算回路７にて３を乗じた後、メモリ２に書き込む。
（３）処理対象のネットワーク層の入力アクティベーションデータを外部よりロードし、メモリ３に書き込む。
（４）重みとアクティベーションデータをそれぞれメモリ２、メモリ３から読み出し、乗算回路４に入力して両者を掛け合わせる。この乗算は複数の重みおよびアクティベーションデータデータに対して同時に並行して行われることもある。
（５）（４）で掛け合わせた結果を積算回路に入力して積算する。処理対象のネットワーク層の規模によって（４）と（５）の処理は繰り返し行われる。
（６）（５）の積算結果を１／３除算回路８により３で除すると同時に３で除した余り（Ｍｏｄｕｌｏ３）を求める。積算結果のＭｏｄｕｌｏ３が０でなかった場合には、何らかの障害が発生したと判断し、外部にエラー発生を報告する。
（７）（６）の結果を後処理回路に入力し、後処理を行う。本実施の形態では、後処理としてバッチノーマライゼーションを行う。
（８）（６）の後処理結果をメモリ３に書き込む。
（９）処理対象のネットワーク層の構成に応じて（１）〜（７）の動作を繰り返し、得られたアクティベーションをメモリ３より外部に出力する。

第１の実施の形態の演算器は、演算器への入力値を元の値の３倍の値とし、常に演算結果が３の倍数となるようにすることで、容易に演算器の１ｂｉｔ反転エラー故障検出ができる。これはＭｏｄｕｌｏ３には、３の倍数同士の乗算、加減算結果も３の倍数となるという特性があるからである。そして、あるデータのＭｏｄｕｌｏ３値は、いずれの１ｂｉｔが反転しても異なる値となるという特性もあるため、演算結果のＭｏｄｕｌｏ３が０でない場合には、エラーがあると判定できる。

本実施の形態の演算器は、ＮＮモデルの演算に好適である。ＮＮモデルの主要な演算は、多数の入力／出力チャネルの組み合わせに対して、各入力／出力チャネルの組み合わせに対応する重みと入力アクティベーションを乗じ、積算するという処理だからである。本実施の形態の演算器は、複数ビットが反転した場合にたまたまＭｏｄｕｌｏ３が０になることがあり、その場合にはエラーを検出しないが、例えば動画中の物体認識をニューラルネットワークで行う場合には、前後のフレームの認識結果と比較が可能であるので、一部のフレームの処理にエラーが生じても問題とならないことが多い。各フレームに対して繰り返し処理を行う中でエラーを判定できれば、演算器の故障を検出できる。

（第２の実施の形態）
図４は、第２の実施の形態の演算器の例を示す図である。第２の実施の形態の演算器の基本的な構成は第１の実施の形態と同じであるが、ハードウェアで３倍乗算回路を実装する代わりに、あらかじめ３の倍数であることを保証した重みデータを外部メモリ９に置く。これにより、３倍乗算回路を実装することなく、第１の実施の形態と同様の機能を実現することができる。

（第３の実施の形態）
図５は、第３の実施の形態の演算器の例を示す図である。第３の実施の形態の演算器において、後処理に含まれるバッチノーマライゼーション処理は、あらかじめ計算されたＧｒａｄｉｅｎｔ（Ｇ）及びＢｉａｓ（Ｂ）の係数を用い、積算結果Ａｃｃに対してＧ×Ａｃｃ＋Ｂの計算を行うことで行われる。第３の実施の形態の演算器では、バッチノーマライゼーションのＧｒａｄｉｅｎｔにあらかじめ１／３を乗じた値を外部メモリ９から読み出してメモリ１上に置いておく。これにより、後処理回路６でＧｒａｉｄｅｎｔを乗じたときに演算結果が１／３されることになるから、除算回路を実装することなく第１の実施の形態の演算器と同様の機能を実現することができる。

ただし、第１の実施の形態においてＭｏｄｕｌｏ３を演算していた除算回路に代えて、第３の実施の形態の演算器は、積算回路５からの出力に対し、Ｍｏｄｕｌｏ３を演算するＭｏｄｕｌｏ３回路１０を備える。図３に示したように、Ｍｏｄｕｌｏ３を演算する回路は容易に実装できる。

（第４の実施の形態）
図６は、第４の実施の形態の演算器の例を示す図である。本実施の形態では、後処理回路６は、積算結果を出力アクティベーションのｂｉｔ幅に合わせるスケーリングという処理を行う。ここで、スケーリングについて説明する。積算回路５による積算結果は重みとアクティベーションの乗算結果を積算して得られるため、入力アクティベーションに比べて非常に大きな値となる。スケーリングとは、積算結果に小さな値を掛け、出力アクティベーションのｂｉｔ幅に収まる範囲に縮小させる処理である。一般にスケーリングの係数は２のべき乗に限定され、積算結果の右シフトとして実装される。

第４の実施の形態の演算器では、ＮＮモデルの学習時にあらかじめ重みが３倍されることを前提として重みおよびスケーリング係数を決定する。すなわち、学習を行う際に、各レイヤに入力する値として、前のレイヤから伝達された値を３倍した３倍値を用いる。これにより、後処理回路６のスケーリング係数が、重みを３倍した場合を前提とした係数となる。なぜなら、入力を３倍することと重みを３倍することは同じ結果になるからである。この構成により、推論時に重みを３倍したときに後処理回路６が適切に機能し、除算回路を実装することなく、第１の実施の形態の演算器と同様の機能を実現することができる。

本開示は、乗算を行う演算器として有用である。

１〜３・・・メモリ、４・・・乗算回路、５・・・積算回路、６・・・後処理回路、
７・・・３倍乗算回路、８・・・１／３除算回路、９・・・外部メモリ、
１０・・・Ｍｏｄｕｌｏ３回路。

Claims

入力値に係数を乗ずる計算を行う演算器であって、
前記入力値に前記係数の３倍値を乗じる乗算部（４）と、
前記乗算部による演算結果を１／３に除算する除算部（８）と、
を備え、
前記乗算部による乗算結果が３の倍数か否かに基づいて、演算結果のエラーをチェックする演算器。
前記乗算部による複数の演算結果を積算する積算部（５）を備え、
前記除算部は、前記積算部による演算結果を１／３に除算する請求項１に記載の演算器。
前記係数を３倍にする３倍乗算部（７）を備え、
前記乗算部は、前記３倍乗算部による出力を前記入力値に乗ずる請求項１または２に記載の演算器。
あらかじめ演算された前記係数の３倍値を記憶部（２）に記憶しておき、
前記乗算部は、前記記憶部に記憶された前記３倍値を前記入力値に乗ずる請求項１または２に記載の演算器。
前記演算器は、ニューラルネットワークの各レイヤでの演算において、前記各レイヤへの入力値に重み係数を乗じて積算する演算に用いられる請求項１から４のいずれかに記載の演算器。
ニューラルネットワークにおける各レイヤでの演算に用いられる演算器であって、
学習によって求めた係数の３倍値を記憶した記憶部と、
入力値に前記記憶部から読み出した前記３倍値を乗じる乗算部と、
前記乗算部による複数の演算結果を積算する積算部と、
前記積算部による演算結果に対して後処理を行う後処理部であって、前記ニューラルネットワークの学習時に用いた乗算パラメータを１／３にして演算を行う後処理部（６）と、
前記積算部による演算結果を３で割った余りを演算する剰余演算部（１０）と、
を備え、
前記余りが０か否かに基づいて演算結果のエラーをチェックする演算器。
ニューラルネットワークにおける各レイヤでの演算に用いられる演算器であって、前記ニューラルネットワークは、前記各レイヤへの入力として、前のレイヤから伝達された値の３倍値を用いて重み係数を学習したニューラルネットワークであり、
学習によって求めた係数の３倍値を記憶した記憶部と、
入力値に前記記憶部から読み出した前記３倍値を乗じる乗算部と、
前記乗算部による複数の演算結果を積算する積算部と、
前記積算部による演算結果を３で割った余りを演算する剰余演算部と、
前記積算部による演算結果に対してスケーリングを行う後処理部と、
を備え、
前記余りが０か否かに基づいて演算結果のエラーをチェックする演算器。
入力値に係数を乗ずる計算を行う演算器において、
３の倍数の係数を記憶する記憶部と、
前記入力値に前記記憶部から読み出した係数を乗じる乗算部と、
演算結果が３の倍数か否かに基づいて、演算結果のエラーをチェックするエラー検出部と、
を備えた演算器。