JP7293157B2

JP7293157B2 - 画像処理装置

Info

Publication number: JP7293157B2
Application number: JP2020046914A
Authority: JP
Inventors: 南羽小崎
Original assignee: Toshiba Corp; Toshiba Electronic Devices and Storage Corp
Current assignee: Toshiba Corp; Toshiba Electronic Devices and Storage Corp
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2023-06-19
Anticipated expiration: 2040-03-17
Also published as: CN113409182A; US20210295142A1; JP2021149333A

Description

本発明の実施形態は、画像処理装置に関する。

画像データに対する認識処理などを、ニューラルネットワークにより実現する技術がある。例えば、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ。以下、ＣＮＮという）におけるカーネル演算は、画像の画像データ全体をＤＲＡＭなどのオフチップメモリ中のフレームバッファに保持した後に、その保持された画像データ全体に対して所定サイズのウインドウをスライドさせながら実行される。

そのため、画像データ全体をオフチップメモリに格納すること、及びカーネル演算毎に行われる特徴マップの書き込み及び読み出しのためのオフチップメモリへのアクセスに時間が掛かってしまうことから、ＣＮＮ演算のレイテンシは、大きい。画像処理プロセッサ（ＩｍａｇｅＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）のような装置では、レイテンシが小さいことが望ましい。

ＣＮＮ演算のレイテンシを小さくするために、フレームバッファのサイズよりも小さいラインバッファを用いることもできるが、カーネル演算のためのラインバッファへのアクセスが多く発生するため、高速アクセスが可能なメモリをラインバッファに用いる必要があり、画像処理装置のコスト高になる。

特開２０１９－４６４５３号公報

そこで、実施形態は、レイテンシが小さくかつ低コストで実現できる画像処理装置を提供することを目的とする。

実施形態の画像処理装置は、画像データが入力される第１のプロセッサと、前記第１のプロセッサ内に設けられたバッファと、前記画像データの複数の画素データと、前記バッファに格納された再帰型ニューラルネットワーク演算の演算結果の少なくとも一方を用いて、前記再帰型ニューラルネットワーク演算を行う、前記第１のプロセッサ内に設けられた第２のプロセッサと、を有する。

実施形態に関わる画像処理装置のブロック図である。実施形態に関わる、画像処理プロセッサの処理内容を説明するための図である。実施形態に関わる、画像処理プロセッサの構成を示すブロック図である。実施形態に関わる、再帰型ニューラルネットワークセルプロセッサの構成図である。実施形態に関わる、入力画像データからストリームデータへの変換を説明するための図である。実施形態に関わる、入力画像データに含まれる複数の画素値に対する再帰型ニューラルネットワークセルの処理順番を説明するための図である。変形例１に関わる、各行の最終列の出力値に対するラインエンドセルの処理順番を説明するための図である。変形例２に関わる、入力画像データに含まれる複数の画素値に対する再帰型ニューラルネットワークセルの処理順番を説明するための図である。畳み込みニューラルネットワークにおける受容野（ＲｅｃｅｐｔｉｖｅＦｉｅｌｄ）を説明するための図である。実施形態における受容野を説明するための図である。畳み込みニューラルネットワークと再帰型ニューラルネットワークにおける受容野の範囲の違いを説明するための図である。変形例２に関わる、再帰型ニューラルネットワークセルの入力ステップを説明するための図である。変形例２に関わる、受容野の設定範囲を説明するための図である。

以下、図面を参照して実施形態を説明する。
（構成）
図１は、本実施形態に関わる画像処理装置のブロック図である。本実施形態の画像処理装置が用いられる画像処理システム１は、カメラ装置からの画像データを処理して、画像認識などの処理を行い、その処理結果の情報を出力する。

画像処理システム１は、画像処理プロセッサ（ＩｍａｇｅＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ：ＩＳＰ。以下、ＩＳＰという）１１と、オフチップメモリ１２と、プロセッサ１３を含む。

ＩＳＰ１１は、ＭＩＰＩ（ＭｏｂｉｌｅＩｎｄｕｓｔｒｙＰｒｏｃｅｓｓｏｒＩｎｔｅｒｆａｃｅ）ＣＳＩ（ＣａｍｅｒａＳｅｒｉａｌＩｎｔｅｒｆａｃｅ）規格などに沿ったインターフェースにより、カメラ装置（図示せず）と接続されている。ＩＳＰ１１は、カメラ装置のイメージセンサ１４からの撮像信号を受けて、撮像信号に対して所定の処理を行い、所定の処理の結果データを出力する。すなわち、プロセッサであるＩＳＰ１１には、画像データの複数の画素データがシーケンシャルに入力される。ここでは、ＩＳＰ１１は、撮像素子であるイメージセンサ１４からの撮像信号（以下、入力画像データという）ＩＧを入力して、結果データとして、画像データ（以下、出力画像データという）ＯＧを出力する。例えば、ＩＳＰ１１は、入力画像データＩＧに対してノイズ除去などを行い、ノイズなどのない出力画像データＯＧを出力する。

なお、イメージセンサ１４からの入力画像データＩＧの全てが、ＩＳＰ１１に入力されて、入力画像データＩＧの全てに対して、後述するＲＮＮ演算が実行されるようにしてもよいし、入力画像データＩＧの一部に対して、後述するＲＮＮ演算が実行されるようにしてもよい。

ＩＳＰ１１は、ステートバッファ２１と、再帰型ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ：ＲＮＮ。以下、ＲＮＮという）による所定の演算を繰り返しながら実行するＲＮＮセルプロセッサ２２と、を含む。ＩＳＰ１１の構成については、後述する。

オフチップメモリ１２は、ＤＲＡＭなどのメモリである。ＩＳＰ１１において生成され、ＩＳＰ１１から出力される出力画像データＯＧは、オフチップメモリ１２に格納される。

プロセッサ１３は、オフチップメモリ１２に格納された出力画像データＯＧに基づいて認識処理などを行う。プロセッサ１３は、認識処理などによる結果データＲＤを出力する。よって、ＩＳＰ１１、オフチップメモリ１２及びプロセッサ１３は、例えば、画像に対して画像認識処理などを行う画像認識装置（図１の点線で示す）２を構成する。

図２は、ＩＳＰ１１の処理内容を説明するための図である。図２に示すように、ＩＳＰ１１は、イメージセンサ１４からの入力画像データＩＧに対して、ノイズ除去などの所定の処理を、ＲＮＮセルプロセッサ２２（後述）を用いて行い、出力画像データＯＧを生成する。

例えば、画像認識装置２が、プロセッサ１３により出力画像データＯＧに基づいて認識処理などを実行するとき、出力画像データＯＧはノイズが除去されたデータであるので、プロセッサ１３における認識処理などの精度の向上が期待できる。

図３は、ＩＳＰ１１の構成を示すブロック図である。図４は、ＲＮＮセルプロセッサ２２の構成図である。ＩＳＰ１１は、ステートバッファ２１、ＲＮＮセルプロセッサ２２及びピクセルストリームデコーダ２３を含む。ピクセルストリームデコーダ２３は、入力画像データＩＧをストリームデータＳＤに変換してＲＮＮセルプロセッサ２２へ出力する回路である。

図５は、入力画像データＩＧからストリームデータＳＤへの変換を説明するための図である。ここでは、説明を簡単にするために、図５では、入力画像データＩＧの画像は、６行の画像データからなる。各行は、複数の画素データを含む。すなわち、画像は、複数行（ここでは、６行）で複数列の画素データからなる。

ピクセルストリームデコーダ２３は、イメージセンサ１４からの入力画像データＩＧを受信すると、受信した入力画像データＩＧの複数の画素データを所定の順番のストリームデータＳＤに変換する。

ピクセルストリームデコーダ２３は、１行目の１列目の画素（すなわち最上行の左端の画素）から１行目の最終列の画素（すなわち最上行の右端の画素）の行データＬ１、行データＬ１に続いて２行目の１列目の画素（すなわち上から２行の左端の画素）から２行目の最終列の画素（すなわち２行の右端の画素）の行データＬ２、・・・、最終行目である６行目の１列目の画素（すなわち最下行の左端の画素）から６行目の最終列の画素（すなわち最下行の右端の画素）のデータ列ＬＬまでの複数の画素データからなるストリームデータＳＤを、入力画像データＩＧから生成して出力する。

よって、ピクセルストリームデコーダ２３は、入力画像データＩＧをストリームデータＳＤに変換してＲＮＮセルプロセッサ２２へ出力する回路である。

図４に示すように、ＲＮＮセルプロセッサ２２は、１つのＲＮＮセル３１を含むプロセッサである。ＲＮＮセル３１は、単純ＲＮＮセル（ＳｉｍｐｌｅＲＮＮＣｅｌｌ）であり、２つの入力値ＩＮ１，ＩＮ２に対して、所定の演算を行って得られた隠れ状態（ｈｉｄｄｅｎｓｔａｔｅ）を、２つの出力値ＯＵＴ１，ＯＵＴ２として出力するハードウエア回路である。

なお、ここでは、ＲＮＮセルプロセッサ２２は、１つのＲＮＮセル３１を含んでいるが、２以上のＲＮＮセル３１を含んでいてもよい。あるいは、ＲＮＮセル３１の数は、後述するレイヤの数と同じでもよい。

ＲＮＮセル３１の入力値ＩＮ１は、ｉ_ｌ，ｔである。ｌは、レイヤを示し、ｔは、ステップを示す。ＲＮＮセル３１の入力値ＩＮ２は、隠れ状態ｈ_{ｌ，ｔ－１}である。ＲＮＮセル３１の出力値ＯＵＴ１は、隠れ状態ｈ_ｌ，ｔであり、次のレイヤ（ｌ＋１）のステップｔにおける入力値ＩＮ１（すなわちｉ_{ｌ＋１，ｔ}）となる。ＲＮＮセル３１の出力値ＯＵＴ２は、隠れ状態ｈ_ｌ，ｔであり、同じレイヤの次のステップ（ｔ＋１）のＲＮＮセル３１の入力値ＩＮ２となる。

ステップｔはタイムステップとも呼ばれ、ＲＮＮにシーケンシャルデータが１つ入力され隠れ状態が更新されるごとに増える数字であり、隠れ状態や入出力のインデックスとして割り当てられ、現実の時刻とは必ずしも同一にはならない仮想的な単位である。

図３に示すように、ＲＮＮセル３１は、ＲＮＮ演算に用いる各種パラメータ（点線で示す）を、オフチップメモリ１２から読み出し、ＲＮＮセル３１の内部に保持することが可能となっている。パラメータは、後述するレイヤ毎の各ＲＮＮ演算における重みパラメータｗ及びバイアス値ｂなどを含む。

なお、ＲＮＮセル３１は、中央処理装置（ＣＰＵ）により実行されるソフトウエアにより実現してもよい。

ＲＮＮセル３１は、後述するレイヤ毎に応じた動作を実行するが、最初のレイヤ（第１レイヤ）では、ストリームデータＳＤが、ＲＮＮセル３１の入力値ＩＮ１として順番に入力される。ＲＮＮセル３１は、所定の演算を行い、演算結果である隠れ状態ｈ_ｌ，ｔを出力値ＯＵＴ１、ＯＵＴ２を生成してステートバッファ２１に出力する。

各レイヤにおいて得られた各出力値ＯＵＴ１，ＯＵＴ２は、ステートバッファ２１中の所定の記憶領域に格納される。ステートバッファ２１は、例えばラインバッファである。

ステートバッファ２１は、ＩＳＰ１１内に設けられているので、ＲＮＮセル３１は、ステートバッファ２１へのデータの書き込み及び読み出しを高速に行うことできる。ＲＮＮセル３１は、所定の演算を行って得られた隠れ状態ｈは、ステートバッファ２１に格納する。ステートバッファ２１は、ラインバッファを含むＳＲＡＭであり、少なくともストリームデータの数分のデータを格納するバッファである。

ＲＮＮセル３１は、複数のレイヤ演算を実行可能である。ここでは、ＲＮＮセル３１は、ストリームデータＳＤを入力として所定の演算を行う第１レイヤ演算と、第１レイヤにおける所定の演算の演算結果である隠れ状態ｈを入力として所定の演算を行う第２レイヤ演算と、第２レイヤにおける所定の演算の演算結果である隠れ状態ｈを入力として所定の演算を行う第３レイヤ演算と、等々を実行することができる。

ＲＮＮセル３１における所定の演算について説明する。ｌ（エル）番目のレイヤ演算では、ＲＮＮセル３１は、あるステップｔにおいて、入力値ＩＮ１を画素データｉとし、所定の演算としての非線形型関数である活性化関数ｔａｎｈを用いて、出力値ＯＵＴ１，ＯＵＴ２を出力する。出力値ＯＵＴ１，ＯＵＴ２は、隠れ状態ｈｔである。ここでは、図４に示すように、隠れ状態ｈ_ｌ，ｔは、次の式（１）により算出される。

ｈ_ｌ，ｔ＝ｔａｎｈ（ｗ_ｌ，ｉｈｉ_ｌ，ｔ＋ｗ_ｌ，ｈｈｈ_{ｌ，ｔ－１}＋ｂ_ｌ）・・・（１）
ここで、ｗ_ｌ，ｉｈ及びｗ_ｌ，ｈｈは、それぞれ次の式（２）、（３）で表される重みパラメータである。

ここで、Ｒ^ｅ×ｄ及びＲ^e×eは、e行d列及びe行e列の実行列による空間であり、いずれも実数による行列であることを示している。

また、入力値（画素データｉ_ｌ，ｔ）は及び出力値（隠れ状態ｈ_ｌ，ｔ）は、それぞれ次の式（４）、（５）で表される。

ここで、Ｒ^ｄは、d次元の実数空間を示し、Ｒ^ｅは、e次元の実数空間を示し、いずれも実数によるベクトルであることを示している。

上述した非線形型関数の各重みパラメータの値は、ＲＮＮの学習により最適化される。

画素データｉ_ｌ，ｔは、入力ベクトルであり、例えばＲＧＢ画像が入力される場合は、３次元ベクトルであり、中間特徴マップの場合は、そのチャンネル数である。隠れ状態ｈ_ｌ，ｔは、出力ベクトルである。ｄ，ｅは、それぞれ、入力ベクトルと出力ベクトルの次元を示す。ｌは、レイヤ番号であり、シーケンシャルデータのインデックスである。ｂは、バイアス値である。

なお、図４では、ＲＮＮセル３１は、入力値ＩＮ１と、前の画素からの出力値を入力値ＩＮ２とから、同じ値の２つの出力値ＯＵＴ１、ＯＵＴ２を生成して、出力しているが、ＲＮＮセル３１は、互いに異なる２つの出力値ＯＵＴ１，ＯＵＴ２を出力するようにしてもよい。

第２レイヤ演算では、ＲＮＮセル３１は、入力値ＩＮ１を第１レイヤの出力値ＯＵＴ１とし、所定の演算としての非線形型関数である活性化関数ｔａｎｈを用いて、出力値ＯＵＴ１，ＯＵＴ２を出力する。

第２レイヤ演算の次にさらに第３、第４等のレイヤ演算が行われるときは、第３、第４等のレイヤ演算では、第２レイヤ演算と同様に、ＲＮＮセル３１は、入力値ＩＮ１を前のレイヤの出力値ＯＵＴ１とし、所定の演算としての非線形型関数である活性化関数ｔａｎｈを用いて、出力値ＯＵＴ１，ＯＵＴ２を出力する。
（作用）
次に、ＩＳＰ１１の動作について説明する。ここでは、３つのレイヤを有する例を説明する。上述したように、ピクセルストリームデコーダ２３は、入力画像データＩＧを、第１行目Ｌ１の左端の画素から右端の画素までの複数の画素データ、第２行目Ｌ２の左端の画素から右端の画素までの複数の画素データ、・・・、最終行目のデータ列ＬＬ（すなわちＬ６）の左端の画素から右端の画素までの複数の画素データの順（矢印Ａで示す順番）に並べたストリームデータＳＤを出力する（図５）。

第１レイヤでは、ＲＮＮセル３１への最初の入力値ＩＮ１は、ストリームデータＳＤの最初のデータ（すなわち入力画像データＩＧの１行目の１列目の画素）であり、入力値ＩＮ２は、所定のデフォルト値である。

第１レイヤでは、ＲＮＮセル３１は、最初のステップｔ１で、２つの入力値ＩＮ１，ＩＮ２が入力されると、所定の演算を実行して、出力値ＯＵＴ１，ＯＵＴ２を出力する。出力値ＯＵＴ１，ＯＵＴ２は、ステートバッファ２１中の所定の記憶領域に格納される。第１レイヤのステップｔ１の出力値ＯＵＴ１は、次の第２レイヤの最初のステップｔ１で、ステートバッファ２１から読み出されて、ＲＮＮセル３１の入力値ＩＮ１として用いられる。第１レイヤにおいて、ステップｔ１における出力値ＯＵＴ２は、次のステップｔ２における入力値ＩＮ２として用いられる。

以下同様にして、第１レイヤにおいて、その後の各ステップにおける出力値ＯＵＴ１は、次の第２レイヤにおいて、対応するステップにおいて、ステートバッファ２１から読み出されて、ＲＮＮセル３１の入力値ＩＮ１として用いられる。第１レイヤにおいて、その後の各ステップにおける出力値ＯＵＴ２は、次のステップにおいて、ステートバッファ２１から読み出されて、ＲＮＮセル３１の入力値ＩＮ２として用いられる。

第１レイヤにおけるストリームデータＳＤの各画素データに対する所定の演算が終了すると、第２レイヤの処理が実行される。
第１レイヤにおける１つ目の画素データに対する所定の演算が終了すると、第２レイヤの１つ目の画素に対応する処理が実行される。

第２レイヤでは、第１レイヤにおける最初から最後のステップまでに得られる複数の出力値ＯＵＴ１が、入力値ＩＮ１としてＲＮＮセル３１にシーケンシャルに入力される。第１レイヤにおける処理と同様に、第１レイヤの第１のステップから最後のステップまでの順番で、第２レイヤにおいてＲＮＮセル３１が所定の演算を実行する。

第２レイヤにおける第１レイヤの各出力値ＯＵＴ１に対する所定の演算が終了すると、第３レイヤの処理が実行される。
第２レイヤにおける１つ目の画素データに対する所定の演算が終了すると、第３レイヤの１つ目の画素に対応する処理が実行される。

第３レイヤでは、第２レイヤにおける最初から最後のステップまでに得られる複数の出力値ＯＵＴ１が、入力値ＩＮ１としてＲＮＮセル３１にシーケンシャルに入力される。第２レイヤにおける処理と同様に、第２レイヤの第１のステップから最後のステップまでの順番で、第３レイヤにおいてＲＮＮセル３１が所定の演算を実行する。

図６は、入力画像データＩＧに含まれる複数の画素値に対するＲＮＮセル３１の処理順番を説明するための図である。図６は、複数のステップにおける、ＲＮＮセル３１に入力される入力値ＩＮ１，ＩＮ２とＲＮＮセル３１から出力される出力値ＯＵＴ１，ＯＵＴ２の流れを示す。第１レイヤではＲＮＮセル３１はＲＮＮＣｅｌｌ１として示され、第２レイヤではＲＮＮセルはＲＮＮＣｅｌｌ２として示され、第３レイヤではＲＮＮセルはＲＮＮＣｅｌｌ３として示されている。

図６では、入力画像データＩＧ中の行ｙの列ｘとその前の列（ｘ－１）、（ｘ－２）の画素データに対する処理の流れのみが示されている。

図６に示すように、第１レイヤ（レイヤ１）の列（ｘ－２）におけるＲＮＮＣｅｌｌ１の入力値ＩＮ１は、ステップｔ_ｋにおいて入力された画素データである。第１レイヤの列（ｘ－２）におけるＲＮＮＣｅｌｌ１の入力値ＩＮ２は、第１レイヤの列（ｘ－３）のＲＮＮＣｅｌｌ１の出力ＯＵＴ２である。第１レイヤの列（ｘ－２）におけるＲＮＮＣｅｌｌ１の出力値ＯＵＴ１は、第２レイヤの列（ｘ－２）におけるＲＮＮＣｅｌｌ２の入力値ＩＮ１となる。第１レイヤの列（ｘ－２）におけるＲＮＮＣｅｌｌ１の出力値ＯＵＴ２は、第１レイヤの列（ｘ－１）にけるＲＮＮＣｅｌｌ１の入力値ＩＮ２となる。

同様に、第１レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ１の入力値ＩＮ１は、ステップｔ_{（ｋ＋１）}において入力された画素データである。第１レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ１の入力値ＩＮ２は、第１レイヤの列（ｘ－２）におけるＲＮＮＣｅｌｌ１の出力ＯＵＴ２である。第１レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ１の出力値ＯＵＴ１は、第２レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ２の入力値ＩＮ１となる。第１レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ１の出力値ＯＵＴ２は、第１レイヤの列（ｘ）のＲＮＮＣｅｌｌ１の入力値ＩＮ２となる。

第１レイヤの列（ｘ）におけるＲＮＮＣｅｌｌ１の入力値ＩＮ１は、ステップｔ_{（ｋ＋２）}において入力された画素データである。第１レイヤの列（ｘ）におけるＲＮＮＣｅｌｌ１の入力値ＩＮ２は、第１レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ１の出力ＯＵＴ２である。第１レイヤの列（ｘ）におけるＲＮＮＣｅｌｌ１の出力値ＯＵＴ１は、第２レイヤの列（ｘ）におけるＲＮＮＣｅｌｌ２の入力値ＩＮ１となる。第１レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ１の出力値ＯＵＴ２は、次のステップにおけるＲＮＮＣｅｌｌｌの入力値ＩＮ２として用いられる。

以上のように、ＲＮＮプロセッサ２２のＲＮＮセル３１は、入力された複数の画素データに対して、ＲＮＮ演算を逐次的に行い、隠れ状態の情報をステートバッファ２１に格納する。隠れ状態は、ＲＮＮセル３１の出力である。

第２レイヤ（レイヤ２）の列（ｘ－２）におけるＲＮＮＣｅｌｌ２の入力値ＩＮ１は、第１レイヤの列（ｘ－２）におけるＲＮＮＣｅｌｌ１の出力値ＯＵＴ１である。第２レイヤの列（ｘ－２）におけるＲＮＮＣｅｌｌ２の入力値ＩＮ２は、第２レイヤの列（ｘ－３）におけるＲＮＮＣｅｌｌ２の出力ＯＵＴ２である。第２レイヤの列（ｘ－２）におけるＲＮＮＣｅｌｌ２の出力値ＯＵＴ１は、第３レイヤの列（ｘ－２）におけるＲＮＮＣｅｌｌ３の入力値ＩＮ１となる。第２レイヤの列（ｘ－２）におけるＲＮＮＣｅｌｌ２の出力値ＯＵＴ２は、第２レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ２の入力値ＩＮ２となる。

同様に、第２レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ２の入力値ＩＮ１は、第１レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ１の出力値ＯＵＴ１である。第２レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ２の入力値ＩＮ２は、第２レイヤの列（ｘ－３）におけるＲＮＮＣｅｌｌ２の出力ＯＵＴ２である。第２レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ２の出力値ＯＵＴ１は、第３レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ３の入力値ＩＮ１となる。第２レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ２の出力値ＯＵＴ２は、第２レイヤの列（ｘ）におけるＲＮＮＣｅｌｌ２の入力値ＩＮ２となる。

第２レイヤの列（ｘ）におけるＲＮＮＣｅｌｌ２の入力値ＩＮ１は、第１レイヤの列（ｘ）におけるＲＮＮＣｅｌｌ１の出力値ＯＵＴ１である。第２レイヤの列（ｘ）におけるＲＮＮＣｅｌｌ２の入力値ＩＮ２は、第２レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ２の出力ＯＵＴ２である。第２レイヤの列（ｘ）におけるＲＮＮＣｅｌｌ２の出力値ＯＵＴ１は、第３レイヤの列（ｘ）におけるＲＮＮＣｅｌｌ３の入力値ＩＮ１となる。第２レイヤの列（ｘ）におけるＲＮＮＣｅｌｌ２の出力値ＯＵＴ２は、次のステップにおけるＲＮＮＣｅｌｌ２の入力値ＩＮ２として用いられる。

第３レイヤ（レイヤ３）の列（ｘ－２）におけるＲＮＮＣｅｌｌ３の入力値ＩＮ１は、第２レイヤの列（ｘ－２）のＲＮＮＣｅｌｌ２の出力値ＯＵＴ１である。第３レイヤの列（ｘ－２）におけるＲＮＮＣｅｌｌ３の入力値ＩＮ２は、第３レイヤの列（ｘ－３）のＲＮＮＣｅｌｌ３の出力ＯＵＴ２である。第３レイヤの列（ｘ－２）におけるＲＮＮＣｅｌｌ３の出力値ＯＵＴ１は、ここでは、ソフトマックスレイヤに入力され、ソフトマックスレイヤから、出力画像データＯＧが出力される。第３レイヤの列（ｘ－２）におけるＲＮＮＣｅｌｌ３の出力値ＯＵＴ２は、第３レイヤの列（ｘ－１）のＲＮＮＣｅｌｌ３の入力値ＩＮ２となる。

同様に、第３レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ３の入力値ＩＮ１は、第２レイヤの列（ｘ－１）のＲＮＮＣｅｌｌ２の出力値ＯＵＴ１である。第３レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ３の入力値ＩＮ２は、第３レイヤの列（ｘ－２）のＲＮＮＣｅｌｌ３の出力ＯＵＴ２である。第３レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ３の出力値ＯＵＴ１は、ここでは、ソフトマックスレイヤに入力され、ソフトマックスレイヤから、出力画像データＯＧが出力される。第３レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ３の出力値ＯＵＴ２は、第３レイヤの列（ｘ）におけるＲＮＮＣｅｌｌ３の入力値ＩＮ２となる。

第３レイヤの列（ｘ）におけるＲＮＮＣｅｌｌ３の入力値ＩＮ１は、第２レイヤの列（ｘ）におけるＲＮＮＣｅｌｌ２の出力値ＯＵＴ１である。第３レイヤの列（ｘ）におけるＲＮＮＣｅｌｌ３の入力値ＩＮ２は、第３レイヤの列（ｘ－１）におけるＲＮＮＣｅｌｌ３の出力ＯＵＴ２である。第３レイヤの列（ｘ）におけるＲＮＮＣｅｌｌ３の出力値ＯＵＴ１は、ここでは、ソフトマックスレイヤに入力され、ソフトマックスレイヤから、出力画像データＯＧが出力される。第３レイヤの列（ｘ）のＲＮＮＣｅｌｌ３の出力値ＯＵＴ２は、次のステップにおけるＲＮＮＣｅｌｌ３の入力値ＩＮ２として用いられる。

よって、第３レイヤの出力は、複数のステップで得られた複数の出力値ＯＵＴ１のデータである。第３レイヤの出力は、ソフトマックスレイヤに入力される。ソフトマックスレイヤの出力は、ｙ行ｘ列の画像データに変換されて、出力画像データＯＧとして、オフチップメモリ１２に格納される。

以上のように、ＲＮＮセルプロセッサ２２は、画像データの複数の画素データと、ステートバッファ２１に格納されたＲＮＮ演算の演算結果である隠れ状態の少なくとも一方を用いて、再帰型ニューラルネットワーク演算を行う。ＲＮＮプロセッサ２２は、ＲＮＮ演算を複数回実行する処理単位であるレイヤを、複数実行可能である。複数のレイヤは、複数の画素データを入力してＲＮＮ演算を実行する第１の処理単位（第１レイヤ）と、第１の処理単位（第１レイヤ）において得られた隠れ状態のデータを入力してＲＮＮ演算を実行する第２の処理単位（第２レイヤ）と、含む。

なお、上述したように、ＲＮＮ演算における非線形型関数の各重みパラメータの値は、ＲＮＮの学習により最適化される。

以上のように、上述した実施形態によれば、ＣＮＮに代えて、ＲＮＮを用いて、画像データに対して所定の処理を行っている。

よって、画像データをオフチップメモリ１２に保持した後に、画像データ全体に対して所定サイズのウインドウをスライドさせながらカーネル演算を行うという方法とは異なり、本実施形態の画像処理装置は、画像データをストリームデータＳＤに変換して、ＲＮＮ演算を順番に実行するので、レイテンシが小さくかつ低コストで、ニューラルネットワーク演算処理が可能である。
（変形例１）
上述した実施形態では、複数行で複数列の複数の画素からなる画像データが、ストリームデータＳＤに変換されて、１行目１列目の画素値から最終行の最終列の画素値までを順番に１つのＲＮＮセルプロセッサ３１の入力値ＩＮ１として入力されている。

しかし、画像データの場合、各行の第１列の画素の画素値と、その前の行の最終列の画素値との間には、特徴量の傾向は異なる。

そこで、本変形例１では、各行の最終列の出力値ＯＵＴ２を、そのまま、次の行の最初の入力値ＩＮ２としないで、所定の値に変更してから、次の行のＲＮＮセル３１の最初の入力値ＩＮ２にするラインエンドセルを追加する。

ラインエンドセルとしては、上述した非線形関数とは別の非線形関数の演算を行うように、ＲＮＮセル３１の実行内容を変更することで、ＲＮＮセル３１を用いてもよいし、あるいは図３において点線で示すように、ＲＮＮセルプロセッサ２２内に設けた、ＲＮＮセル３１とは別の演算セルとしてのラインエンドセル３１ａを用いてもよい。

ラインエンドセルの非線形関数の各重みパラメータの値も、ＲＮＮの学習により最適化される。

図７は、各行の最終列の出力値ＯＵＴ２に対するラインエンドセル３１ａの処理順番を説明するための図である。ここでは、画像データの各行は、Ｗ個の画素値を有する。すなわち、画像データは、Ｗ列を有する。

図７に示すように、第１列を０としたときの最終列（Ｗ－１）の画素データに対して、ＲＮＮセル３１が所定の演算を実行した後、出力値ＯＵＴ２は、ラインエンドセル３１ａに入力される。

図７に示すように、ラインエンドセル３１ａは、レイヤ毎に、各行の最終列（Ｗ－１）のＲＮＮセル３１の出力値ＯＵＴ２に対して処理を行う。図７において、第１レイヤにおけるラインエンドセル３１ａは、ＬｉｎｅＥｎｄＣｅｌｌ１として示し、第２レイヤにおけるラインエンドセル３１ａは、ＬｉｎｅＥｎｄＣｅｌｌ２として示し、第３レイヤにおけるラインエンドセル３１ａは、ＬｉｎｅＥｎｄＣｅｌｌ３として示している。

第１レイヤにおいて、ｙ行目のラインエンドセル３１ａは、第１レイヤのｙ行目の最終列のＲＮＮＣｅｌｌｌの出力値ＯＵＴ２（ｈ_{１（Ｗ－１，ｙ）}）を入力して、演算結果の出力値としての隠れ状態ｈ_{１（ｌｉｎｅ）}を、次の（ｙ＋１）行目のＲＮＮＣｅｌｌ１の入力値ＩＮ２としている。

同様に、第２レイヤにおいても、ｙ行目のラインエンドセル３１ａは、第２レイヤのｙ行目の最終列のＲＮＮＣｅｌｌ２の出力値ＯＵＴ２（ｈ_{２（Ｗ－１，ｙ）}）を入力して、演算結果の出力値としての隠れ状態ｈ_{２（ｌｉｎｅ）}を、次の（ｙ＋１）行目のＲＮＮＣｅｌｌ２の入力値ＩＮ２としている。

同様に、第３レイヤにおいても、ｙ行目のラインエンドセル３１ａは、第３レイヤのｙ行目の最終列のＲＮＮＣｅｌｌ３の出力値ＯＵＴ２（ｈ_{３（Ｗ－１，ｙ）}）を入力して、演算結果の出力値としての隠れ状態ｈ_{３（ｌｉｎｅ）}を、次の（ｙ＋１）行目のＲＮＮＣｅｌｌ３の入力値ＩＮ２としている。

以上のように、ＲＮＮセルプロセッサ２２は、画像データが、ｎ行ｍ列の画素データからなるとき、ＲＮＮプロセッサ２２は、隣り合う２つの行間において、隠れ状態に対して所定の演算を行うラインエンドセル３１ａを有する。

よって、ラインエンドセル３１ａは、各レイヤにおいて、行の変わり目に設けられている。そして、ラインエンドセル３１ａは、入力された出力値ＯＵＴ２を変更する処理をして、変更された出力値を、次の行の処理を行うときのＲＮＮセル３１の入力値ＩＮ２となる。

以上のように、ラインエンドセル３１ａにより、各行の最終列の出力値ＯＵＴ２を変更することにより、各行の最終の画素値と次の行の最初の画素値との間の特徴量の傾向の違いの影響を排除することができ、ひいてはノイズ除去などの精度の向上が期待できる。
（変形例２）
上述した実施形態では、ＲＮＮセル３１の入力値ＩＮ１は、全てのレイヤ間で一致したステップで取得されている。これに対して、本変形例２では、ＣＮＮにおける受容野（ＲｅｃｅｐｔｉｖｅＦｉｅｌｄ）と同様な受容野をＲＮＮ演算が有するように、ＲＮＮセル３１の入力値ＩＮ１は、レイヤ間で一致したステップで取得されず、オフセットを持って遅れて取得される。言い換えれば、本変形例２の画像処理装置は、レイヤ間でオフセットを持ってＲＮＮ演算が実行されるように構成される。

図８は、本変形例２に関わる、入力画像データＩＧに含まれる複数の画素値に対するＲＮＮセル３１の処理順番を説明するための図である。

図８に示すように、ストリームデータＳＤの画素データｉは、第１レイヤにおいてシーケンシャルに処理されている。しかし、第２レイヤにおいては、ＲＮＮＣｅｌｌ２の入力値ＩＮ１として、画像のｘ方向においてオフセットｕ１だけ遅れて、画像のｙ方向においてオフセットｖ１だけ遅れてＲＮＮＣｅｌｌ１の出力値ＯＵＴ１を使用している。なお、オフセット情報は、オフチップメモリ１２に書き込まれ、パラメータとして、オフチップメモリ１２からＲＮＮセルプロセッサ２２へ書き込まれる。

図８では、ＲＮＮＣｅｌｌ２の入力値ＩＮ１は、次の式（６）で表される。

さらに、第３レイヤにおいては、ＲＮＮＣｅｌｌ３の入力値ＩＮ１は、画像のｘ方向においてオフセット（ｕ１＋ｕ２）だけ遅れて、画像のｙ方向においてオフセット（ｖ１＋ｖ２）だけ遅れてＲＮＮＣｅｌｌ１の出力値ＯＵＴ１を使用している。すなわち、図８では、ＲＮＮＣｅｌｌ３の入力値ＩＮ１は、次の式（７）で表される。

第３レイヤの各ＲＮＮＣｅｌｌ３の出力値ＯＵＴ１は、次の式（８）で表される。

図９は、ＣＮＮにおける受容野（ＲｅｃｅｐｔｉｖｅＦｉｅｌｄ）を説明するための図である。受容野は、カーネル演算に影響を与える入力値の範囲である。入力画像データＩＧに対してＣＮＮ演算を行うレイヤＬＹ１により、出力画像データＯＧが生成される。この場合、レイヤＬＹ１におけるカーネルサイズＲ１よりも広い範囲Ｒ２が、出力画像データの出力値Ｐ１に影響を与えている。よって、ＣＮＮの場合、ＣＮＮ演算を繰り返すと、出力値を得られるために直接的あるいは間接的に参照している入力値の範囲である受容野は広くなる。

これに対して、上述した実施形態では、ＲＮＮ演算を行っているため、レイヤ毎に演算ステップにおいて、そのステップよりも前に行われたＲＮＮ演算の結果の範囲が、受容野ということができる。

図１０は、上述した実施形態における受容野を説明するための図である。図１１は、ＣＮＮとＲＮＮにおける受容野の範囲の違いを説明するための図である。ＲＮＮセル３１が、レイヤＬＹ１１において入力画像データＩＧのストリームデータＳＤに対してＲＮＮ演算を行うと、図１０において入力画像データＩＧにおいて点線で示す範囲Ｒ１２が、受容野である。レイヤＬＹ１１の出力値Ｐ１の受容野は、出力値Ｐ１の演算ステップよりも前のステップの演算結果が範囲Ｒ１１となる。

そのため、上述した実施形態では、図９で示したＣＮＮのような出力値Ｐ１の周囲の画素値の演算結果は、ＲＮＮ演算においては用いられない。図１１に示すように、ＲＮＮにおける受容野ＲＮＮＲは、ＣＮＮにおける受容野ＣＮＮＲとは異なる。

そこで、上述した実施形態においても、ＣＮＮと同様に、受容野を考慮したＲＮＮ演算を行うために、あるレイヤのあるステップにおいて用いるＲＮＮセル３１の入力値ＩＮ１が、その前のレイヤにおいてそのステップと異なるステップにおけるＲＮＮセル３１の隠れ状態ｈ（出力値）となるように、ＲＮＮセル３１は、ステートバッファ３２から読み出す入力値ＩＮ１の範囲をずらしている。すなわち、第１の処理単位である第１レイヤにおいて得られた隠れ状態のデータは、第２の処理単位である第２レイヤにおいて、設定されたオフセットだけ遅れたステップで、ステートバッファ２１からＲＮＮプロセッサ２２へ与えられる。

図８に示すように、第２レイヤでは、ＲＮＮＣｅｌｌ２の入力値ＩＮ１は、ｘ方向にｕ１だけかつｙ方向にｖ１だけオフセットした画素位置の出力値ＯＵＴ１となっている。すなわち、第２レイヤでは、ＲＮＮＣｅｌｌ２は、画像データの横方向及び縦方向において、それぞれ所定の値（ｕ１，ｖ１）だけずれた画素位置のおける第１レイヤのＲＮＮ演算の出力値ＯＵＴ１が、第２レイヤのＲＮＮＣｅｌｌ２の入力値ＩＮ１となっている。

また、第３レイヤでは、ＲＮＮＣｅｌｌ３の入力値ＩＮ１は、第２レイヤの出力画像においてｘ方向に（ｕ１＋ｕ２）だけかつｙ方向に（ｖ１＋ｖ２）だけオフセットした出力値ＯＵＴ１となっている。

そして、ＲＮＮＣｅｌｌ３の出力値ＯＵＴ１は、第２レイヤの出力画像においてｘ方向に（ｕ１＋ｕ２＋ｕ３）だけかつｙ方向に（ｖ１＋ｖ２＋ｖ３）だけオフセットした出力値となっている。

図１２は、ＲＮＮセル３１の入力ステップを説明するための図である。図１２に示すように、最初の画素データｉ１（０，０）を入力値ＩＮ１としたＲＮＮＣｅｌｌ１の出力値ＯＵＴ１は、第２レイヤにおいて、オフセット値に対応するステップｔ_ａにおいて、入力値ＩＮ１として用いられる。第２レイヤにおけるオフセット値は、第１レイヤにおいてストリームデータＳＤの画素データの取得ステップに対するステップ差である。ここでは、オフセット値は、１行１列目の画素の位置（０，０）から、ｕ１行ｖ１列目の画素位置（ｕ１、ｖ１）までのステップ差に応じた値である。

よって、第２レイヤの最初のステップｔ_ａでは、ＲＮＮＣｅｌｌ２の入力値ＩＮ１は、第１レイヤにおける最初のステップｔ_ｂからオフセット値だけ後のステップにおける出力値ＯＵＴ１となる。

さらに、オフセット値はレイヤ間で同じでもよいが、ここでは、レイヤ毎に異なっている。図１２に示すように、第３レイヤにおけるステップｔ_ａのＲＮＮセル３１の出力値ＯＵＴ１は、画素位置（ｕ１１、ｖ１１）分のオフセット値が、第３レイヤにおけるＲＮＮセル３１の入力値ＩＮ１となっている。

図１３は、本変形例２における受容野の設定範囲を説明するための図である。レイヤＬＹ２１の入力値ＩＮのオフセット値を設ける場合、パディング（ｐａｄｄｉｎｇ）により入力画像データＩＧに対して所定の領域ＡＡが追加される。そして、図１３に示すように、出力値Ｐ１は、受容野ＲＮＮＲ内の入力値Ｐ２の影響を受けて出力されることになる。よって、出力値Ｐ１は、レイヤＬＹ２１の受容野ＲＮＮＲの出力値の影響を受け、かつレイヤＬＹ２１の受容野ＲＮＮＲは、入力画像データＩＧの受容野ＲＮＮＲの入力値の影響を受けている。出力値ＰＥは、追加された領域ＡＡの入力値Ｐ３の影響を受けている。

以上のように、各ＲＮＮ演算における入力値ＩＮ１の入力ステップのオフセットをレイヤ毎に設けることにおり、ＲＮＮを用いた画像処理においても、ＣＮＮと同様な受容野の設定をすることができる。

以上のように、上述した実施形態及び各変形例によれば、レイテンシが小さくかつ低コストで実現できる画像処理装置を提供することができる。

なお、上述したＲＮＮセル３１は、単純ＲＮＮであるが、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）ネットワーク、ＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ：ゲート付き回帰型ユニット）などの構造を有しているものでもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として例示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１画像処理システム、２画像認識装置、１１撮像素子、１２オフチップメモリ、１３プロセッサ、１４イメージセンサ、２１ステートバッファ、２２ＲＮＮセルプロセッサ、２３ピクセルストリームデコーダ、３１ＲＮＮセル、３１ａラインエンドセル、３２ステートバッファ。

Claims

画像データが入力される第１のプロセッサと、
前記第１のプロセッサ内に設けられたバッファと、
前記画像データの複数の画素データと、前記バッファに格納された再帰型ニューラルネットワーク演算の演算結果の少なくとも一方を用いて、前記再帰型ニューラルネットワーク演算を行う、前記第１のプロセッサ内に設けられた第２のプロセッサと、
を有する、画像処理装置。
前記再帰型ニューラルネットワーク演算の前記演算結果は、隠れ状態である、請求項１に記載の画像処理装置。
前記複数の画素データは、前記第２のプロセッサにシーケンシャルに入力され、
前記第２のプロセッサは、入力された前記複数の画素データに対して、前記再帰型ニューラルネットワーク演算を逐次的に行い、前記演算結果を前記バッファに格納する、請求項１に記載の画像処理装置。
前記第２のプロセッサは、前記再帰型ニューラルネットワーク演算を複数回実行する処理単位であるレイヤを、複数実行可能である、請求項３に記載の画像処理装置。
前記複数のレイヤは、前記複数の画素データを入力して前記再帰型ニューラルネットワーク演算を実行する第１の処理単位と、前記第１の処理単位において得られた前記演算結果を入力して前記再帰型ニューラルネットワーク演算を実行する第２の処理単位と、含む、請求項４に記載の画像処理装置。
前記第１の処理単位において得られた前記演算結果は、前記第２の処理単位において、設定されたオフセットだけ遅れたステップで、前記バッファから前記第２のプロセッサへ与えられる、請求項５に記載の画像処理装置。
前記画像データは、ｎ行ｍ列の画素データからなり、
前記第２のプロセッサは、隣り合う２つの行間において、前記演算結果に対して所定の演算を行う、請求項３に記載の画像処理装置。