JP2022018997A

JP2022018997A - 固体撮像素子、撮像装置、および、情報処理システム

Info

Publication number: JP2022018997A
Application number: JP2020122492A
Authority: JP
Inventors: ハリジャガディシュ; Jagadeesh Hareesh; 和幸奥池; Kazuyuki Okuchi
Original assignee: Sony Semiconductor Solutions Corp
Current assignee: Sony Semiconductor Solutions Corp
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2022-01-27
Also published as: WO2022014141A1; US20230260244A1

Abstract

【課題】画像認識処理を行う固体撮像素子において、汎用性を向上させる。【解決手段】処理部は、出力テンソルのフォーマットが異なる複数のＤＮＮ（Deep Neural Network）のいずれかを選択する。デジタル信号処理部は、選択されたＤＮＮを用いて入力テンソルに対する画像認識処理を行って出力テンソルを生成する。出力インターフェースは、生成された出力テンソルをデコードするためのデコードパラメータと出力テンソルとを出力する。【選択図】図５

Description

本技術は、固体撮像素子に関する。詳しくは、画像認識処理の結果を出力する固体撮像素子、撮像装置、および、情報処理システムに関する。

従来より、画像認識や音声認識などの様々な分野において、ＤＮＮ（Deep Neural Network）が用いられている。例えば、画像データを撮像し、その画像データに対してＤＮＮを用いて画像認識処理を行う撮像装置が提案されている（例えば、特許文献１参照。）。この撮像装置は、画像認識処理の結果をメタデータとして画像データとともにアプリケーションサーバに出力する。

特開２０２０－２２０５４号公報

上述の従来技術では、撮像装置が画像認識処理を行うことにより、アプリケーションサーバが画像認識処理を行う場合と比較して、アプリケーションサーバの処理量や、処理の遅延時間の削減を図っている。ここで、ＤＮＮの入力データや出力データのフォーマット（データ数、データのタイプやデータサイズなど）は、ＤＮＮの処理内容に応じて決定され、通常、出荷時以降は変更されない。しかしながら、出荷時のままでは認識精度が不足する場合や認識対象を変える場合などに、ＤＮＮの処理内容の変更を要することがある。そして、その処理内容の変更に起因して入出力データのフォーマットの変更が必要になることがある。上述の撮像装置では、ＤＮＮの入出力データのフォーマットを変更することができず、汎用性が低いという問題がある。

本技術はこのような状況に鑑みて生み出されたものであり、画像認識処理を行う固体撮像素子において、汎用性を向上させることを目的とする。

本技術は、上述の問題点を解消するためになされたものであり、その第１の側面は、出力テンソルのフォーマットが異なる複数のＤＮＮ（Deep Neural Network）のいずれかを選択する処理部と、上記選択されたＤＮＮを用いて入力テンソルに対する画像認識処理を行って上記出力テンソルを生成するデジタル信号処理部と、上記生成された出力テンソルをデコードするためのデコードパラメータと上記出力テンソルとを出力する出力インターフェースとを具備する固体撮像素子である。これにより、固体撮像素子の汎用性が向上するという作用をもたらす。

また、この第１の側面において、上記複数のＤＮＮのそれぞれを上記デジタル信号処理部に実行させるためのパラメータをＤＮＮパラメータとして受け取る入力インターフェースをさらに具備し、上記デジタル信号処理部は、上記ＤＮＮパラメータに基づいて上記画像認識処理を行ってもよい。これにより、複数のＤＮＮが実行されるという作用をもたらす。

また、この第１の側面において、上記出力インターフェースは、上記入力テンソルをさらに出力してもよい。これにより、入力テンソルが固体撮像素子の外部で処理されるという作用をもたらす。

また、この第１の側面において、上記入力テンソルを所定の領域に記憶するメモリをさらに具備し、上記出力インターフェースは、上記メモリから読み出された上記入力テンソルを出力し、上記デコードパラメータは、上記画像認識処理が完了するまでに、上記領域が上書きされるべきでないか否かを示す持続性フラグを含むものであってもよい。これにより、ＤＮＮが１フレーム期間内に完了しない場合に対応することができるという作用をもたらす。

また、この第１の側面において、上記出力インターフェースは、それぞれにヘッダが付加された上記入力テンソルおよび上記出力テンソルを出力してもよい。これにより、ヘッダが固体撮像素子の外部で処理されるという作用をもたらす。

また、この第１の側面において、上記入力テンソルに付加された上記ヘッダは、上記入力テンソルが有効であるか否かを示す有効フラグを含み、上記出力テンソルに付加された上記ヘッダは、上記出力テンソルが有効であるか否かを示す有効フラグを含むものであってもよい。これにより、固体撮像素子の外部の誤動作が防止されるという作用をもたらす。

また、この第１の側面において、上記入力テンソルに付加された上記ヘッダと、上記入力テンソルに対応する出力テンソルに付加された上記ヘッダとは、同一の値のフレームカウントを含むものであってもよい。これにより、固体撮像素子の外部で、入力テンソルと出力テンソルとを対応付けることができるという作用をもたらす。

また、この第１の側面において、上記入力テンソルは、第１および第２の入力テンソルを含み、上記複数のＤＮＮは、第１および第２のＤＮＮを含み、上記デジタル信号処理部は、上記第１の入力テンソルに対して上記第１のＤＮＮを使用し、上記第２の入力テンソルに対して上記第２のＤＮＮを使用してもよい。これにより、複数のＤＮＮが順に実行されるという作用をもたらす。

また、この第１の側面において、上記デジタル信号処理部は、上記入力テンソルに対する画像認識処理を行って上記出力テンソルを生成し、上記出力インターフェースは、上記入力テンソルが生成される所定のフレーム期間の経過後に上記出力テンソルを出力してもよい。これにより、ＤＮＮが１フレーム期間内に完了しない場合に対応することができるという作用をもたらす。

また、この第１の側面において、上記デジタル信号処理部は、フレームをメモリに保持するキャプチャ期間の開始前に上記画像認識処理を中断し、上記キャプチャ期間の経過後に上記画像認識処理を再開してもよい。これにより、バンドノイズが抑制されるという作用をもたらす。

また、本技術の第２の側面は、入力テンソルに対する画像認識処理により生成された出力テンソルと、出力テンソルをデコードするためのデコードパラメータとを含むメタデータである。これにより、出力テンソルがデコードされるという作用をもたらす。

また、本技術の第３の側面は、出力テンソルのフォーマットが異なる複数のＤＮＮ（Deep Neural Network）のいずれかを選択する処理部と、上記選択されたＤＮＮを用いて入力テンソルに対する画像認識処理を行って上記出力テンソルを生成するデジタル信号処理部と、上記生成された出力テンソルをデコードするためのデコードパラメータと上記出力テンソルとを出力する出力インターフェースと、上記デコードパラメータを用いて上記出力された出力テンソルをデコードするアプリケーションプロセッサとを具備する撮像装置である。これにより、撮像装置の汎用性が向上するという作用をもたらす。

また、本技術の第４の側面は、出力テンソルのフォーマットが異なる複数のＤＮＮ（Deep Neural Network）のいずれかを選択する処理部と、上記選択されたＤＮＮを用いて入力テンソルに対する画像認識処理を行って上記出力テンソルを生成するデジタル信号処理部と、上記生成された出力テンソルをデコードするためのデコードパラメータと上記出力テンソルとを出力する出力インターフェースと、上記複数のＤＮＮのそれぞれに対応する上記デコードパラメータを受け取る入力インターフェースと、上記デコードパラメータのそれぞれを生成して上記入力インターフェースに供給するコンバータとを具備する情報処理システムである。これにより、情報処理システムの汎用性が向上するという作用をもたらす。

本技術の実施の形態における情報処理システムの一構成例を示すブロック図である。本技術の実施の形態におけるイメージセンサの一構成例を示すブロック図である。本技術の実施の形態におけるインターフェースの一構成例を示すブロック図である。本技術の実施の形態におけるＤＮＮコンバーターの機能を説明するための図である。本技術の実施の形態における情報処理システムの処理手順を説明するための図である。本技術の実施の形態におけるＭＩＰＩ（Mobile Industry Processor Interface）規格に準拠したインターフェースを介して転送されるデータの一例を示す図である。本技術の実施の形態におけるＭＩＰＩ規格のモバイルフォーマットの一例である。本技術の実施の形態におけるＭＩＰＩ規格のＡＶ（Audio Visual）フォーマットの一例である。本技術の実施の形態における入力テンソルを含むメタデータのデータフォーマットの一例である。本技術の実施の形態における入力テンソルに対応するメタデータの詳細を説明するための図である。本技術の実施の形態における入力テンソルの一構成例を示す図である。本技術の実施の形態における入力テンソルの別の例を示す図である。本技術の実施の形態における出力テンソルを含むメタデータのデータフォーマットの一例である。本技術の実施の形態における出力テンソルに対応するメタデータの詳細を説明するための図である。本技術の実施の形態における出力テンソルの一構成例を示す図である。本技術の実施の形態におけるＤＮＮパラメータ内のネットワークに関連するデータの一例を示す図である。本技術の実施の形態におけるＤＮＮパラメータ内の次元に関連するデータの一例を示す図である。本技術の実施の形態におけるＤＮＮパラメータ内のテンソルに関連するデータの一例を示す図である。本技術の実施の形態におけるＤＮＮパラメータ内の入力テンソルおよび出力テンソルに関連するデータの一例を示す図である。本技術の実施の形態におけるＤＮＮパラメータ内のメモリ詳細に関連するデータの一例を示す図である。本技術の実施の形態におけるＡＰ（Application Processor）パラメータ内のネットワークに関連するデータの一例を示す図である。本技術の実施の形態におけるＡＰパラメータ内の次元に関連するデータの一例を示す図である。本技術の実施の形態におけるＡＰパラメータ内のテンソルに関連するデータの一例を示す図である。本技術の実施の形態におけるＡＰパラメータ内の入力テンソルおよび出力テンソルに関連するデータの一例を示す図である。本技術の実施の形態におけるＲＡＷ画像の出力までのイメージセンサの動作の一例を示すタイミングチャートである。本技術の実施の形態における出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。本技術の実施の形態の第１の変形例における１枚目のＲＡＷ画像の出力までのイメージセンサの動作の一例を示すタイミングチャートである。本技術の実施の形態の第１の変形例における１枚目に対応する出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。本技術の実施の形態の第１の変形例における２枚目のＲＡＷ画像の出力までのイメージセンサの動作の一例を示すタイミングチャートである。本技術の実施の形態の第１の変形例における２枚目に対応する出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。本技術の実施の形態の第２の変形例における１枚目の入力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。本技術の実施の形態の第２の変形例における２枚目のＲＡＷ画像の出力までのイメージセンサの動作の一例を示すタイミングチャートである。本技術の実施の形態の第２の変形例における１枚目に対応する出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。本技術の実施の形態の第３の変形例における１枚目の入力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。本技術の実施の形態の第３の変形例における２枚目のＲＡＷ画像の出力までのイメージセンサの動作の一例を示すタイミングチャートである。本技術の実施の形態の第３の変形例における１枚目に対応する出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。

以下、本技術を実施するための形態（以下、実施の形態と称する）について説明する。説明は以下の順序により行う。
１．実施の形態（デコードのためのパラメータを出力する例）
２．第１の変形例（フレーム毎にＤＮＮを変更し、デコードのためのパラメータを出力する例）
３．第２の変形例（入力テンソルの次のフレームで出力テンソルとデコードのためのパラメータとを出力する例）
４．第３の変形例（キャプチャ中にＤＮＮを中断し、デコードのためのパラメータを出力する例）

＜１．実施の形態＞
［情報処理システムの構成例］
図１は、本技術の実施の形態における情報処理システムの一構成例を示すブロック図である。この情報処理システムは、画像認識処理を行うためのシステムであり、撮像装置１００およびＤＮＮコンバーター３００を備える。

撮像装置１００は、画像データを撮像し、その画像データに対する画像認識処理を行うものである。この撮像装置１００は、光学部１１０、イメージセンサ２００、アプリケーションプロセッサ１２０およびフラッシュメモリ１３０を備える。

光学部１１０は、入射光を集光してイメージセンサ２００に導くものである。

イメージセンサ２００は、光電変換により画像データを撮像し、その画像データに対する画像認識処理を行うものである。このイメージセンサ２００は、アプリケーションプロセッサ１２０の制御に従って画像データを撮像し、その画像データに対する画像認識処理を行う。そして、イメージセンサ２００は、処理結果を含むデータをアプリケーションプロセッサ１２０に信号線１２９を介して出力する。なお、イメージセンサ２００は、特許請求の範囲に記載の固体撮像素子の一例である。

また、イメージセンサ２００は、信号線１３９を介してフラッシュメモリ１３０から、画像認識処理に必要なデータを撮像前に読み出して保持しておく。

アプリケーションプロセッサ１２０は、画像認識処理の処理結果をデコードし、そのデコード結果に基づいて様々なアプリケーションを実行するものである。

ＤＮＮコンバーター３００は、画像認識処理に必要なデータを生成するものである。このＤＮＮコンバーター３００は、生成したデータを信号線３０９を介して撮像前にフラッシュメモリ１３０に書き込む。

［イメージセンサの構成例］
図２は、本技術の実施の形態におけるイメージセンサ２００の一構成例を示すブロック図である。このイメージセンサ２００は、画素アレイ２１１、アナログデジタル変換部２１２、露光制御部２１３、画像信号処理部２１４、ＳＲＡＭ（Static Random Access Memory）２１５を備える。また、イメージセンサ２００は、ＣＰＵ（Central Processing Unit）２１６、ハードウェアアクセラレータ２１７、セレクタ２１８およびデジタル信号処理部２１９を備える。また、イメージセンサ２００は、入力インターフェース２５１、２５４および２５６と、出力インターフェース２５２、２５３および２５５とを備える。これらの回路は、例えば、単一の半導体チップに設けられる。

なお、イメージセンサ２００内の上述の回路を、積層された複数の半導体チップに分散して配置することもできる。この場合、例えば、上側の半導体チップと下側の半導体チップとが積層され、上側に画素アレイ２１１が配置され、それ以外の回路が下側に配置される。

画素アレイ２１１には、複数の画素が二次元格子状に配列される。画素のそれぞれは、光電変換によりアナログの画素信号を生成し、アナログデジタル変換部２１２に供給する。

アナログデジタル変換部２１２は、アナログの画素信号のそれぞれをデジタル信号に変換するものである。このアナログデジタル変換部２１２には、列ごと、あるいは、画素ごとにＡＤＣ（Analog to Digital Converter）が設けられる。ＡＤＣのそれぞれは、対応する画素信号をＡＤ（Analog to Digital）変換してデジタル信号を生成する。これらのデジタル信号を配列した画像データは、ＲＡＷ画像としてセレクタ２１８および画像信号処理部２１４に供給される。

画像信号処理部２１４は、ＲＡＷ画像に対して各種の画像処理を行うものである。画像処理として、レンズシェーディング補正、ホワイトバランスゲイン補正、デモザイク処理、リニアマトリックス処理、ガンマ補正、縮小処理、画像クロッピング処理、および、歪補正などが実行される。これらの処理は、いずれか１つ以上が実行される。画像処理後の画像を以下、「入力テンソル」と称する。画像信号処理部２１４は、処理前のＲＡＷ画像と、処理後の入力テンソルとをＳＲＡＭ２１５に書き込む。

また、画像信号処理部２１４は、ＲＡＷ画像に基づいて、環境光の照度を求める。例えば、画像信号処理部２１４は、ＲＡＷ画像の少なくとも一部の領域のデジタル信号の統計量（合計値）を演算し、その演算結果を照度のデータとして露光制御部２１３に供給する。

露光制御部２１３は、照度に基づいて画素アレイ２１１の露光時間を制御するものである。

ＳＲＡＭ２１５は、ＲＡＷ画像などの各種のデータを記憶するものである。このＳＲＡＭ２１５は、ＲＡＷ画像の他、入力テンソル、出力テンソル、ネットワーク重み、ＤＮＮプログラムコード、ＤＮＮパラメータ、ＡＰパラメータ、およびマニフェストなどが書き込まれる。ＤＮＮパラメータ、ＡＰパラメータおよびプログラムは、暗号化してＳＲＡＭ２１５に保持しておくことが望ましい。暗号化されている場合、デジタル信号処理部２１９は、そのパラメータやプログラムを読み出した際に復号する。

出力テンソルは、画像認識処理で用いられるＤＮＮから出力されるテンソルであり、画像認識処理の処理結果を示すデータである。

ネットワーク重みは、ＤＮＮ内のニューラルから出力された値に乗算される係数である。

ＤＮＮプログラムコードは、デジタル信号処理部２１９にＤＮＮを実行させるためプログラムを記載したコードである。

ＤＮＮパラメータは、デジタル信号処理部２１９に画像認識処理を実行させるためのパラメータであり、ＤＮＮの次元、ネットワーク重み、入力出力テンソルに関する情報などを含む。

ＡＰパラメータは、入力テンソルおよび出力テンソルをアプリケーションプロセッサ１２０がデコードするためのパラメータである。

マニフェストは、ネットワーク重み、ＤＮＮプログラムコード、ＤＮＮパラメータおよびＡＰパラメータを格納したファイルのサイズやロードアドレスに関する情報である。

ＣＰＵ２１６は、イメージセンサ２００内の回路を制御するものである。このＣＰＵ２１６には、入力インターフェース２５１を介してアプリケーションプロセッサ１２０からのコマンドが入力される。ＣＰＵ２１６は、そのコマンドに従ってデジタル信号処理部２１９を制御し、画像認識処理を実行させる。

ここで、デジタル信号処理部２１９は、出力テンソルのフォーマットとアルゴリズムとが異なるＭ（Ｍは、整数）個のＤＮＮを用いて画像認識処理を実行する機能を有する。ＤＮＮの入力テンソルおよび出力テンソルのフォーマットは、ＤＮＮの処理内容（アルゴリズムなど）に応じて決定される。ＣＰＵ２１６は、それらのＤＮＮのいずれかを選択し、デジタル信号処理部２１９に指示して実行させる。実行するＤＮＮの切り替えは、例えば、撮像中（言い換えれば、動的）でなく、撮像停止中（言い換えれば、静的）に行われる。ＤＮＮの切り替えは、切り替え前のＤＮＮでは認識精度が不足する場合や、認識対象を変える場合などに必要に応じて行われる。

前述のＤＮＮパラメータおよびＡＰパラメータは、それぞれ、Ｍ個のグループに分割される。ｍ（ｍは、０乃至Ｍ－１の整数）番目のグループは、ｍ番目のＤＮＮに対応するパラメータの集合である。ネットワーク重みも同様にＭ個のグループに分割される。ＤＮＮプログラムコードは、複数のＤＮＮで共通のものを用いることができ、Ｍ個以下のＤＮＮプログラムコードが保持される。

なお、イメージセンサ２００は、各種のデータをＳＲＡＭ２１５に記憶しているが、ＳＲＡＭ以外のメモリに記憶することもできる。なお、ＳＲＡＭ２１５は、特許請求の範囲のメモリの一例である。

ハードウェアアクセラレータ２１７は、入力テンソルに対して、必要に応じて画像の回転処理を行うものである。例えば、文字認識を行う際に、認識精度を向上させる目的で回転処理が行われる。ハードウェアアクセラレータ２１７は、ＳＲＡＭ２１５から処理対象の入力テンソルを読み出し、回転後の入力テンソルにより更新する。

セレクタ２１８は、ＲＡＷ画像と、ＳＲＡＭ２１５に保持されたデータとの中から、データを選択してアプリケーションプロセッサ１２０に出力するものである。このセレクタ２１８は、ＲＡＷ画像に対応する入力テンソルおよび出力テンソルを、それらのテンソルに対応するＡＰパラメータとともにＳＲＡＭ２１５からメタデータとして読み出す。そして、セレクタ２１８は、ＲＡＷ画像およびメタデータのうち少なくとも一方を出力インターフェース２５２を介してアプリケーションプロセッサ１２０に出力する。セレクタ２１８は、画像データおよびメタデータの一方のみを選択して出力することもできるし、画像データおよびメタデータの両方を選択して出力することもできる。

デジタル信号処理部２１９は、ＣＰＵ２１６により選択されたＤＮＮを用いて画像認識処理を行うものである。このデジタル信号処理部２１９は、マニフェストを参照し、選択されたＤＮＮに対応するＤＮＮパラメータ、ネットワーク重み、入力テンソルおよびＤＮＮプログラムコードをＳＲＡＭ２１５から読み出す。ｍ番目のＤＮＮが選択された際には、ｍ番目のグループ内のＤＮＮパラメータなどが読み出される。

そして、デジタル信号処理部２１９は、読み出したデータ（ＤＮＮパラメータなど）に基づいて、入力テンソルに対する画像認識処理を行い、出力テンソルを生成する。デジタル信号処理部２１９は、生成した出力テンソルをＳＲＡＭ２１５に書き込む。

出力インターフェース２５３は、出力テンソルを、対応するＡＰパラメータとともにメタデータとしてアプリケーションプロセッサ１２０に出力するものである。ｍ番目のＤＮＮが選択された際には、ｍ番目のグループ内のＡＰパラメータが出力される。

入力インターフェース２５４は、ダウンロードプログラムなどの様々なデータをアプリケーションプロセッサ１２０から受け取り、ＳＲＡＭ２１５に供給するものである。

出力インターフェース２５５は、ＳＲＡＭ２１５に保持されたデータをフラッシュメモリ１３０に出力するものである。

入力インターフェース２５６は、ＡＰパラメータやＤＮＮパラメータなどのデータをフラッシュメモリ１３０から受け取り、ＳＲＡＭ２１５に供給するものである。

入力インターフェース２５１として、例えば、Ｉ２Ｃ（Inter-Integrated Circuit）規格に準拠したインターフェースが用いられる。出力インターフェース２５２として、例えば、ＭＩＰＩ規格に準拠したインターフェースが用いられる。出力インターフェース２５３および入力インターフェース２５４として、例えば、ＳＰＩ（Serial Peripheral Interface）規格に準拠したインターフェースが用いられる。出力インターフェース２５５および入力インターフェース２５６として、例えば、ＳＰＩ規格に準拠したインターフェースが用いられる。

［インターフェースの構成例］
図３は、本技術の実施の形態におけるインターフェースの一構成例を示すブロック図である。イメージセンサ２００には、前述の出力インターフェース２５２、入力インターフェース２５４、出力インターフェース２５３および入力インターフェース２５１が設けられる。

また、アプリケーションプロセッサ１２０には、入力インターフェース１２１、出力インターフェース１２２、入力インターフェース１２３および出力インターフェース１２４が設けられる。

出力インターフェース２５２には、ＭＩＰＩ規格における送信回路が配置され、入力インターフェース１２１には、その規格の受信回路が配置される。同図における「ＭＩＰＩ＿Ｔｘ」は、送信回路を示し、「ＭＩＰＩ＿Ｒｘ」は受信回路を示す。これらの出力インターフェース２５２および入力インターフェース１２１を介して、ビデオデータおよびメタデータが転送される。ビデオデータは、連続して撮像された複数のＲＡＷ画像（言い換えれば、フレーム）を含む。メタデータは、フレームごとに生成され、転送される。

入力インターフェース２５４は、ＳＰＩ規格のスレーブとして機能し、出力インターフェース１２２は、ＳＰＩ規格のマスタとして機能する。これらの入力インターフェース２５４および出力インターフェース１２２を介して、ダウンロードプログラム、ネットワークデータや歪補正制御点などが転送される。

出力インターフェース２５３は、ＳＰＩ規格のマスタとして機能し、入力インターフェース１２３は、ＳＰＩ規格のスレーブとして機能する。これらの出力インターフェース２５３および入力インターフェース１２３を介して、メタデータが転送される。このメタデータには、入力テンソルは含まれず、出力テンソルと対応するＡＰパラメータとが含まれる。

入力インターフェース２５１は、Ｉ２Ｃ規格のスレーブとして機能し、出力インターフェース１２４は、Ｉ２Ｃ規格のマスタとして機能する。これらの入力インターフェース２５１および出力インターフェース１２４を介して、ＣＰＵ２１６に対するコマンドや、アプリケーションプロセッサ１２０のステータスなどが転送される。

イメージセンサ２００は、ビデオデータおよびメタデータの両方を出力することもできるし、メタデータのみを出力することもできる。ビデオデータおよびメタデータの両方を出力する際には、同図に例示したようにＭＩＰＩ規格のインターフェースが用いられ、メタデータのみを出力する際には、ＳＰＩ規格のインターフェースが用いられる。ビデオデータ（ＲＡＷ画像）を送信するか否かの設定は、ＣＰＵ２１６により撮像開始前に行われる。

このほか、イメージセンサ２００は、ＲＡＷ画像の撮像のたびに以下のいずれかのデータを出力することができる。
（１）ＲＡＷ画像のみ
（２）入力テンソルおよびＡＰパラメータのみ
（３）出力テンソルおよびＡＰパラメータのみ
（４）（１）から（３）の組合せ

これらの出力設定は、Ｉ２Ｃ規格のインターフェースを介してアプリケーションプロセッサ１２０がコマンドを送信し、ＣＰＵ２１６が、そのコマンドに従ってレジスタに設定することにより行われる。データが入力テンソルおよび出力テンソルのいずれであるかは、後述する識別子フラグにより設定される。

なお、イメージセンサ２００およびアプリケーションプロセッサ１２０には、ＳＰＩ規格およびＭＩＰＩ規格の両方のインターフェースが設けられているが、これらの規格の一方のインターフェースのみを設けることもできる。

図４は、本技術の実施の形態におけるＤＮＮコンバーター３００の機能を説明するため
の図である。ＤＮＮコンバーター３００には、公的なフレームワークにより開発されたＭ個のＤＮＮモデルのそれぞれの仕様を示すデータが入力される。ＤＮＮコンバーター３００は、入力されたデータを、ネットワーク重み、ＤＮＮプログラムコード、ＤＮＮパラメータ、ＡＰパラメータおよびマニフェストに変換する。

例えば、ＤＮＮ１およびＤＮＮ２の２つのモデルが入力された場合、ＤＮＮコンバーター３００は、ＤＮＮ１に対応するネットワーク重みと、ＤＮＮ２に対応するネットワーク重みとを出力する。また、ＤＮＮコンバーター３００は、ＤＮＮ１およびＤＮＮ２で共通のＤＮＮプログラムコードと、ＤＮＮパラメータ、ＡＰパラメータおよびマニフェストを出力する。ＤＮＮパラメータとして、複数のパラメータが生成される。このＤＮＮパラメータの集合は、ＤＮＮ１に対応するグループと、ＤＮＮ２に対応するグループとに分割される。同様に、複数のＡＰパラメータが生成され、その集合は、ＤＮＮ１に対応するグループと、ＤＮＮ２に対応するグループとに分割される。

ＤＮＮコンバーター３００は、生成したデータを、撮像の開始前にイメージセンサ２００内のフラッシュメモリ１３０に書き込む。このＤＮＮコンバーター３００は、オフライン変換ツールなどにより実現される。

図５は、本技術の実施の形態における情報処理システムの処理手順を説明するための図である。撮像の開始前にＤＮＮコンバーター３００は、ＡＰパラメータおよびＤＮＮパラメータなどのデータを生成し、フラッシュメモリ１３０（不図示）に書き込む。フラッシュメモリ１３０内のデータは、イメージセンサ２００により撮像前に読み出され、ＳＲＡＭ２１５内に保持される。

アプリケーションプロセッサ１２０により撮像開始が指示されると、画素アレイ２１１内の画素のそれぞれは、アナログの画素信号を生成してアナログデジタル変換部２１２に出力する。

アナログデジタル変換部２１２は、画素信号のそれぞれをデジタル信号に変換し、それらを配列したＲＡＷ画像を画像信号処理部２１４に供給する。

画像信号処理部２１４は、ＲＡＷ画像をＳＲＡＭ２１５にバッファリングして、そのＲＡＷ画像に対してデモザイク処理などの画像処理を実行し、入力テンソルを生成する。入力テンソルは、ＳＲＡＭ２１５に書き込まれる。

ハードウェアアクセラレータ２１７は、ＳＲＡＭ２１５から入力テンソルを読み出し、その入力テンソルを必要に応じて回転し、ＳＲＡＭ２１５を更新する。

ＣＰＵ２１６は、出力テンソルのフォーマットが異なるＭ個のＤＮＮのいずれかを選択し、選択したＤＮＮの実行をデジタル信号処理部２１９に指示する。なお、ＣＰＵ２１６は、特許請求の範囲に記載の処理部の一例である。

デジタル信号処理部２１９は、指示されたＤＮＮに対応するネットワーク重み、ＤＮＮパラメータやＤＮＮプログラムコードをＳＲＡＭ２１５から読み出す。そして、デジタル信号処理部２１９は、読み出したデータに基づいて、ＣＰＵ２１６により選択されたＤＮＮを用いて入力テンソルに対する画像認識処理を実行し、出力テンソルを生成する。出力テンソルはＳＲＡＭ２１５に書き込まれる。

ＳＰＩ規格の出力インターフェース２５３は、ＣＰＵ２１６の制御に従って、生成された出力テンソルと、そのテンソルをデコードするためのＡＰパラメータとをＳＲＡＭ２１５からメタデータとして読み出し、アプリケーションプロセッサ１２０に出力する。

アプリケーションプロセッサ１２０は、ＡＰパラメータを用いて出力テンソルをデコードする。

なお、ＲＡＷ画像や入力テンソルも出力する際には、ＭＩＰＩ規格の出力インターフェース２５２が用いられる。

ここで、出力インターフェース２５３がＡＰパラメータを出力せず、出力テンソルのみを出力する比較例を想定する。この比較例では、ＤＮＮを切り替えた際に、出力テンソルのフォーマットが変更されるため、アプリケーションプロセッサ１２０は、出力テンソルをデコードすることができなくなってしまう。

これに対して、出力インターフェース２５３が出力テンソルとともにＡＰパラメータを出力する情報処理システムでは、アプリケーションプロセッサ１２０が、そのＡＰパラメータにより出力テンソルをデコードすることができる。このため、情報処理システムは、出力テンソルのフォーマットが異なる様々なＤＮＮに対応することができ、システムの汎用性を向上させることができる。

また、出力インターフェース２５３が入力テンソルおよびＡＰパラメータを出力する場合、ＤＮＮが切り替えられたときであっても、アプリケーションプロセッサ１２０は、ＡＰパラメータにより入力テンソルをデコードすることができる。

また、イメージセンサ２００が画像認識処理を行うため、その処理をアプリケーションプロセッサ１２０が行う場合と比較して、アプリケーションプロセッサ１２０の処理量や、処理の遅延時間を削減することができる。

図６は、本技術の実施の形態におけるＭＩＰＩ規格に準拠したインターフェースを介して転送されるデータの一例を示す図である。同図に例示するように、入力テンソルは、ＭＩＰＩ規格における仮想チャネルを介して転送される。出力テンソルは、入力テンソルと異なる仮想チャネルを介して転送される。

図７は、本技術の実施の形態におけるＭＩＰＩ規格のモバイルフォーマットの一例である。同図における太線で囲んだＤＳＰ結果エリアに、図６に例示したデータが格納される。

図８は、本技術の実施の形態におけるＭＩＰＩ規格のＡＶフォーマットの一例である。同図における太線で囲んだＤＳＰ結果エリアに、図６に例示したデータが格納される。

なお、ＳＰＩ規格のインターフェースを用いる場合、ＳＰＩ仕様により定義された転送設定に従ってデータが順に転送される。ＳＰＩ規格のインターフェースの転送速度は、ＭＩＰＩ規格より遅いため、ＳＰＩ規格のインターフェースを用いる場合、ＲＡＷ画像は送信されない。

［メタデータの構成例］
図９は、本技術の実施の形態における入力テンソルを含むメタデータのデータフォーマットの一例である。このメタデータは、ヘッダ、ＡＰパラメータおよび入力テンソルを含む。ヘッダは、有効フラグ、フレームカウント、最大ライン長、ＡＰパラメータのサイズ、ネットワークＩＤ（IDentifier）、および、識別子フラグを含む。また、メタデータにおいて、空いた領域には、ゼロがパディングされる。ヘッダにおいて空いた領域は、リザーブドの領域として用いられる。

有効フラグは、入力テンソルが有効であるか否かを示すフラグである。

フレームカウントは、ＣＰＵ２１６がＲＡＷ画像（フレーム）の撮像回数を計数した際の計数値である。このフレームカウントは、入力テンソルが出力されたフレームと出力テンソルが出力されたフレームとが異なる際に、入力テンソルに対応する出力テンソルを特定するために用いられる。入力テンソルが出力されたフレームと、出力テンソルが出力されたフレームとが異なるケースについては、後述の変形例で説明する。

最大ライン長は、ＭＩＰＩ設定に依存するＭＩＰＩラインの長さである。ＡＰパラメータのサイズは、ＡＰパラメータ全体のサイズであり、単位は、例えば、バイトである。

ネットワークＩＤは、入力テンソルが入力されたＤＮＮを識別するための識別子である。識別子フラグは、ヘッダが付加されたテンソルが入力テンソルおよび出力テンソルのいずれであるかを示すフラグである。

上述の有効フラグ、フレームカウント、最大ライン長、ＡＰパラメータのサイズ、および、識別子フラグは、ＣＰＵ２１６により設定される。また、ネットワークＩＤは、アプリケーションプロセッサ１２０により設定される。

図１０は、本技術の実施の形態における入力テンソルに対応するメタデータの詳細を説明するための図である。ライン番号が「１」のラインに、ヘッダおよびＡＰパラメータが格納される。ライン番号が「２」以降のラインは、ボディ領域であり、入力テンソルが格納される。

有効フラグには、１バイトが割り当てられる。有効フラグが「０」である場合、データが無効であることを示す。有効フラグが「１」乃至「２５５」である場合、データが有効であることを示す。

フレームカウントには、１バイトが割り当てられる。複数のＲＡＷ画像を連続して撮像中（言い換えれば、ストリーム中）において、「０」乃至「２４４」の値が計数される。ストリームを停止するスタンバイ中において、フレームカウントに「２５５」が設定される。

最大ライン長には、２バイトが割り当てられる。ＲＡＷ画像がフルサイズである場合、最大ライン長に「２５６０」が設定される。ＲＡＷ画像がフルサイズより小さいＶ２Ｈ２のサイズである場合、最大ライン長に「２０１０」が設定される。ＲＡＷ画像がＶ２Ｈ２より小さいＶ４Ｈ４のサイズである場合、最大ライン長に「１００８」が設定される。

ＡＰパラメータのサイズには、２バイトが割り当てられる。このサイズの単位は、バイトである。

ネットワークＩＤには、１バイトが割り当てられる。１６進数で「０」乃至「Ｍ－１」がネットワークＩＤに設定される。Ｍは、使用中にサポートされるＤＮＮの最大数である。

識別子フラグには、１バイトが割り当てられる。「０」の識別子フラグは、ヘッダが付加されたテンソルが入力テンソルであることを示す。

リザーブドには、３バイトが割り当てられる。

ＡＰパラメータには、９９６バイトが割り当てられる。このＡＰパラメータは、ネットワーク目録、入力テンソルパラメータ、および、出力テンソルパラメータを含む。ＡＰパラメータの詳細については後述する。

図１１は、本技術の実施の形態における入力テンソルの一構成例を示す図である。同図におけるＲ(Red)、Ｇ(Green)およびＢ(Blue)の領域は、赤色、緑色および青色の画素データが格納された領域を示す。灰色の領域は、パディング領域を示す。０乃至２２７番目の列と、２５６乃至１７９２番目の列とに６４ラインの画素データが配列される。２０４８乃至２５６０番目の列には、６３ラインの画素データが配列される。これにより、２２７×２２７×３の入力テンソルが構成される。

図１２は、本技術の実施の形態における入力テンソルの別の例を示す図である。０乃至３００番目の列と、３２０乃至１２８０番目の列とに９０ラインの画素データが配列される。２２４０乃至２５６０番目の列には、８９ラインの画素データが配列される。これにより、３００×３００×３の入力テンソルが構成される。

図１１および図１２に例示したように、入力テンソルのフォーマットは、メモリ（ＳＲＡＭ２１５）を効率的に用いるために、一般的な画像のフォーマットと異なるものとなる。このため、入力テンソルのデコードにＡＰパラメータが必要となる。

図１３は、本技術の実施の形態における出力テンソルを含むメタデータのデータフォーマットの一例である。このメタデータは、ヘッダ、ＡＰパラメータおよび出力テンソルを含む。ヘッダの構成は、図９に例示したものと同様である。

イメージセンサ２００は、入力テンソルおよび出力テンソルの両方を出力する場合には、図９に例示したデータと、図１３に例示したデータとの両方をメタデータとして出力する。すなわち、入力テンソル、出力テンソルのそれぞれにヘッダが付加される。出力テンソルのみを出力する場合、イメージセンサ２００は、図１３に例示したメタデータを出力する。

図１４は、本技術の実施の形態における出力テンソルに対応するメタデータの詳細を説明するための図である。識別子フラグには、ヘッダが付加されたテンソルが出力テンソルであることを示す「１」の値が設定される。

図１５は、本技術の実施の形態における出力テンソルの一構成例を示す図である。同図において、白色の領域は、要素が格納された領域を示す。灰色の領域は、パディング領域を示す。出力テンソルの次元をＮとすると、０番目の配列は、７０個の要素を含み、０乃至６９番目のアドレスに格納される。１番目の配列は、９６乃至１６５番目のアドレスに格納される。Ｎ－１番目の配列は、４９４乃至５６３番目のアドレスに格納される。同図に例示するように、各配列は、シリアル化されてＳＲＡＭ２１５に書き込まれる。

また、同図に例示したように、出力テンソルのフォーマットは、メモリ（ＳＲＡＭ２１５）を効率的に用いるために、一般的なフォーマットと異なるものとなる。このため、出力テンソルのデコードにＡＰパラメータが必要となる。

図１６は、本技術の実施の形態におけるＤＮＮパラメータ内のネットワークに関連するデータの一例を示す図である。このＤＮＮパラメータは、ＤＮＮごとに、ネットワーク、次元、テンソル、入力テンソル、出力テンソルおよびメモリ詳細に関するパラメータを含む。

ネットワークに関するデータは、「ネットワークＩＤ」、「ネットワーク名称」、「ネットワークタイプ」、「入力テンソル」および「出力テンソル」の要素を含む。

「ネットワークＩＤ」として、ネットワーク（ＤＮＮ）ごとに一意な識別子が記述される。ネットワーク名称として、文字列のネットワークの名称が記述される。「ネットワークタイプ」として、その機能性に基づくＤＮＮのタイプが記述される。「入力テンソル」として、ＤＮＮに入力される入力テンソルの配列が記述される。「出力テンソル」として、ＤＮＮから出力される出力テンソルの配列が記述される。

図１７は、本技術の実施の形態におけるＤＮＮパラメータ内の次元に関連するデータの一例を示す図である。次元に関連するデータは、「テンソル目録」、「サイズ」、「シリアル化順序」および「パディング」の要素を含む。

「テンソル目録」として、次元順序が記述される。この次元順序は、フレームワーク内の意味的順序に相当する。次元順序は、０から開始され、０は、最速の実行中次元である。「サイズ」として、次元のサイズ、次元内の要素の数が記述される。ただし、パディングは除外される。「シリアル化順序」として、シリアル化されてメモリに書き込まれるときの次元の順序が記述される。シリアル化順序は０から開始され、０は、最速の実行中次元である。「パディング」の要素として、パディングとして追加された要素の数が記述される。

図１８は、本技術の実施の形態におけるＤＮＮパラメータ内のテンソルに関連するデータの一例を示す図である。テンソルに関連するデータは、「テンソル目録」、「名称」、「次元の数」、「次元の配列」、「要素当たりのビット数」、「シフト」、「スケール」、および、「タイプ」の要素を含む。

「テンソル目録」として、一意な識別子が記述される。この識別子は、ゼロからスタートするため、インデックスとして使用することができる。「名称」として、テンソルの名称が記述される。「次元の配列」として、次元オブジェクトの配列が記述される。「要素当たりのビット数」として、テンソルの要素当たりのビット数が記述される。「シフト」の要素として、固定小数点から浮動小数点への逆量子化のためのシフト値が記述される。「スケール」の要素として、固定小数点から浮動小数点への逆量子化のためのスケール値が記述される。「タイプ」として、テンソル内の要素のデータタイプが、符号付き、および、符号なしのいずれであるかが記述される。

図１９は、本技術の実施の形態におけるＤＮＮパラメータ内の入力テンソルおよび出力テンソルに関連するデータの一例を示す図である。入力テンソルに関連するデータは、「テンソル」、「ＳＲＡＭ内のオフセット」、および、「持続性フラグ」の要素を含む。

「テンソル」の要素として、上述のテンソルオブジェクトが記述される。「ＳＲＡＭ内のオフセット」として、ＳＲＡＭ２１５内のメモリオフセットアドレスが記述される。「持続性フラグ」として、ＤＮＮの実行が完了するまで入力テンソルメモリ領域が上書きされるべきでないか否かを示すフラグが記述される。入力テンソルメモリ領域は、ＳＲＡＭ２１５内において、入力テンソルが書き込まれる領域を示す。上書きされない場合に持続性フラグに「０」が設定され、上書きされる場合に「１」が設定される。

通常は、持続性フラグに「０」が設定される。ただし、ＤＮＮの実行に時間がかかり、垂直同期信号の周期内に終了しない場合は、持続性フラグに「１」が設定される。持続性フラグに「１」が設定されるケースについては、変形例で後述する。

また、出力テンソルに関連するデータは、「テンソル」、および、「ＳＲＡＭ内のオフセット」の要素を含む。

「テンソル」の要素として上述のテンソルオブジェクトが記述される。また、「ＳＲＡＭ内のオフセット」として、ＳＲＡＭ２１５内のメモリオフセットアドレスが記述される。

図２０は、本技術の実施の形態におけるＤＮＮパラメータ内のメモリ詳細に関連するデータの一例を示す図である。メモリ詳細に関するデータは、「総メモリ」、「係数メモリ」、「ランタイムメモリ」、および、「予約メモリ」の要素を含む。

「総メモリ」の要素として、上述のテンソルオブジェクトが書き込まれたメモリサイズが記述される。「係数メモリ」の要素として、ＳＲＡＭ２１５内のネットワーク重みが書き込まれたメモリサイズが記述される。「ランタイムメモリ」の要素として、ランタイムメモリのサイズが記述される。「予約メモリ」の要素として、ユーザの特殊なユースケースのために予約されたメモリサイズが記述される。

図２１は、本技術の実施の形態におけるＡＰパラメータ内のネットワークに関連するデータの一例を示す図である。ＡＰパラメータ内のネットワークに関するデータは、ＤＮＮパラメータと同様に、「ネットワークＩＤ」、「ネットワーク名称」、「ネットワークタイプ」、「入力テンソル」および「出力テンソル」の要素を含む。

図２２は、本技術の実施の形態におけるＡＰパラメータ内の次元に関連するデータの一例を示す図である。ＡＰパラメータ内の次元に関連するデータは、ＤＮＮパラメータと同様に、「テンソル目録」、「サイズ」、「シリアル化順序」および「パディング」の要素を含む。ＤＮＮパラメータと異なり、ＡＰパラメータにおいて、メモリ詳細に関するデータは、アプリケーションプロセッサ１２０にとって不要なデータであるため、記述されない。

図２３は、本技術の実施の形態におけるＡＰパラメータ内のテンソルに関連するデータの一例を示す図である。ＡＰパラメータ内のテンソルに関連するデータは、ＤＮＮパラメータと同様に、「テンソル目録」、「名称」、「次元の数」、「次元の配列」、「要素当たりのビット数」、「シフト」、「スケール」、および、「タイプ」の要素を含む。

図２４は、本技術の実施の形態におけるＡＰパラメータ内の入力テンソルおよび出力テンソルに関連するデータの一例を示す図である。入力テンソルに関連するデータは、「テンソル」、および、「持続性フラグ」の要素を含む。また、出力テンソルに関連するデータは、「テンソル」の要素を含む。ＤＮＮパラメータと異なり、ＡＰパラメータにおいて、オフセットアドレスは、アプリケーションプロセッサ１２０にとって不要なデータであるため、記述されない。

図１６乃至図２４に例示したように、ＤＮＮパラメータのうち、アプリケーションプロセッサ１２０で必要な一部のデータがＡＰパラメータとして用いられる。言い換えれば、ＡＰパラメータは、ＤＮＮパラメータのサブセットである。

図２５は、本技術の実施の形態におけるＲＡＷ画像の出力までのイメージセンサ２００の動作の一例を示すタイミングチャートである。この動作は、例えば、画像認識を行うための所定のアプリケーションが実行されたときに開始される。同図以降において、「ＡＤＣ」は、アナログデジタル変換部２１２内のＡＤＣを示す。「ＨＷＡｃｃ」は、ハードウェアアクセラレータ２１７を示す。「ＤＳＰ」は、デジタル信号処理部２１９を示す。

タイミングＴ０において、垂直同期信号ＸＶＳが立ち下がったものとする。タイミングＴ０乃至Ｔ１の期間において、ＣＰＵ２１６は、Ｍ個のＤＮＮのうち、実行すべきＤＮＮを選択してレジスタに設定する。

タイミングＴ２乃至Ｔ４の期間において、アナログデジタル変換部２１２が、ＡＤ変換によりＲＡＷ画像を生成する。画像信号処理部２１４（不図示）およびハードウェアアクセラレータ２１７は、ＲＡＷ画像に対して各種の画像処理を前処理として行い、入力テンソルを生成する。また、ＲＡＷ画像は、タイミングＴ２乃至Ｔ４の期間内に、出力インターフェース２５２から出力される。タイミングＴ３において、入力テンソルのＳＲＡＭ２１５への書き込みが開始される。タイミングＴ４以降の処理については、後述する。

図２６は、本技術の実施の形態における出力テンソルの出力までのイメージセンサ２００の動作の一例を示すタイミングチャートである。前処理の完了したタイミングＴ４において、ハードウェアアクセラレータ２１７は、ＣＰＵ２１６に割込み信号を供給する。

ＣＰＵ２１６は、タイミングＴ５において、デジタル信号処理部２１９に画像認識処理の開始を通知する。タイミングＴ５乃至Ｔ１０の期間内に、デジタル信号処理部２１９は、入力テンソルをＳＲＡＭ２１５から読み出し、入力テンソルに対する画像認識処理をＤＮＮを用いて行う。このとき、ネットワーク重み、ＤＮＮプログラムコード、および、ＤＮＮパラメータもＳＲＡＭ２１５から読み出される。

また、ＣＰＵ２１６は、タイミングＴ６乃至Ｔ７の期間に、ＤＭＡ（Direct Memory Access）転送のための設定を行う。タイミングＴ７乃至Ｔ８の期間に、ＤＭＡコントローラ（不図示）は、その設定に従って、ＳＲＡＭ２１５から出力インターフェース２５２へ入力テンソルをＤＭＡ転送する。

また、デジタル信号処理部２１９は、タイミングＴ９において、ＳＲＡＭ２１５に出力テンソルを書き戻し、タイミングＴ１０において、ＣＰＵ２１６に画像認識処理の終了を通知する。

ＣＰＵ２１６は、タイミングＴ１０乃至Ｔ１１の期間に、ＤＭＡ転送のための設定を行う。タイミングＴ１１乃至Ｔ１２の期間に、ＤＭＡコントローラは、その設定に従って、ＳＲＡＭ２１５から出力インターフェース２５２へ出力テンソルをＤＭＡ転送する。

タイミングＴ１３において、垂直同期信号ＸＶＳは立ち下がる。タイミングＴ１３以降は、垂直同期信号ＸＶＳに同期して、同様の処理が繰り返し実行される。タイミングＴ０乃至Ｔ１３の期間（言い換えれば、垂直同期信号ＸＶＳの周期）を、以下、「フレーム期間」と称する。

図２５および図２６に例示したように、１フレーム期間（垂直同期信号ＸＶＳの周期）内に、ＤＮＮによる画像認識処理が完了する。そして、ＲＡＷ画像および入力テンソルが出力されたフレーム期間内に、その入力テンソルに対応する出力テンソルが出力される。

このように、本技術の実施の形態によれば、出力インターフェース２５２が、デコードのためのＡＰパラメータと出力テンソルとを出力するため、出力フォーマットの異なるＤＮＮに切り替えられても、後段の回路は、出力テンソルをデコードすることができる。これにより、デジタル信号処理部２１９は、出力フォーマットの異なる様々なＤＮＮを用いることができ、情報処理システムの汎用性が向上する。

＜２．第１の変形例＞
上述の実施の形態では、デジタル信号処理部２１９が、ストリーム中において単一のＤＮＮを用いて画像認識処理を行い、ＤＮＮの切り替えは、ストリーム停止中に行っていた。しかし、単一のＤＮＮでは、情報処理システムの汎用性や利便性が不足することがある。例えば、複数の物体を認識する場合、アルゴリズムの異なる複数のＤＮＮが必要なことがあり、単一のＤＮＮでは対応が困難となる。この実施の形態の第１の変形例のイメージセンサ２００は、ストリーム中にＤＮＮを切り替える点において実施の形態と異なる。

図２７は、本技術の実施の形態の第１の変形例における１枚目のＲＡＷ画像の出力までのイメージセンサ２００の動作の一例を示すタイミングチャートである。この実施の形態の第１の変形例のデジタル信号処理部２１９は、ＤＮＮ１およびＤＮＮ２の２つのＤＮＮを実行することができるものとする。

ＣＰＵ２１６は、タイミングＴ０乃至Ｔ１の期間内にＤＮＮ１を選択し、レジスタに設定する。そして、タイミングＴ２乃至Ｔ４の期間において、アナログデジタル変換部２１２が、ＡＤ変換により１枚目のＲＡＷ画像を生成する。

図２８は、本技術の実施の形態の第１の変形例における１枚目に対応する出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。

タイミングＴ５乃至Ｔ１０の期間内に、デジタル信号処理部２１９は、１枚目の入力テンソルをＳＲＡＭ２１５から読み出し、その入力テンソルに対する画像認識処理をＤＮＮ１を用いて行う。また、デジタル信号処理部２１９は、タイミングＴ９において、ＳＲＡＭ２１５に、ＤＮＮ１に対応する出力テンソルを書き戻す。

ＤＮＮ１に対応する入力テンソルおよび出力テンソルのそれぞれには、ＤＮＮ１を示すネットワークＩＤを含むヘッダが付加される。

図２９は、本技術の実施の形態の第１の変形例における２枚目のＲＡＷ画像の出力までのイメージセンサ２００の動作の一例を示すタイミングチャートである。

ＣＰＵ２１６は、タイミングＴ１３乃至Ｔ１４の期間内にＤＮＮ２を選択し、レジスタに設定する。そして、タイミングＴ１５乃至Ｔ１７の期間において、アナログデジタル変換部２１２が、ＡＤ変換により２枚目のＲＡＷ画像を生成する。

図３０は、本技術の実施の形態の第１の変形例における２枚目に対応する出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。

タイミングＴ１８乃至Ｔ２３の期間内に、デジタル信号処理部２１９は、２枚目の入力テンソルをＳＲＡＭ２１５から読み出し、その入力テンソルに対する画像認識処理をＤＮＮ２を用いて行う。また、デジタル信号処理部２１９は、タイミングＴ２２において、ＳＲＡＭ２１５に、ＤＮＮ２に対応する出力テンソルを書き戻す。

ＤＮＮ２に対応する入力テンソルおよび出力テンソルのそれぞれには、ＤＮＮ２を示すネットワークＩＤを含むヘッダが付加される。

図２７乃至図３０に例示したように、最初のフレーム期間内にイメージセンサ２００は、ＤＮＮ１を実行し、次のフレーム期間内にＤＮＮ２を実行する。以降は、同様の処理が繰り返し実行される。このように、２フレームの周期で、ＤＮＮ１およびＤＮＮ２が交互に実行される。なお、イメージセンサ２００は、３つ以上のＭ個のＤＮＮを１つずつ順番に、Ｍフレームの周期で実行することもできる。これらの複数のＤＮＮの実行により、単一のＤＮＮを用いる場合よりもシステムの汎用性や利便性が向上する。

このように、本技術の実施の形態の第１の変形例によれば、デジタル信号処理部２１９は、ストリーム中に複数のＤＮＮを１つずつ順に実行するため、単一のＤＮＮを実行する場合と比較して、システムの汎用性や利便性を向上させることができる。

＜３．第２の変形例＞
上述の実施の形態では、デジタル信号処理部２１９が１フレーム期間（すなわち、垂直同期信号の周期）内にＤＮＮによる画像認識処理を完了していた。しかしながら、画像認識処理の実行時間は、ＤＮＮのアルゴリズムにより異なり、１フレーム期間内に完了しないことがある。この実施の形態の第２の変形例のイメージセンサ２００は、入力テンソルが生成されたフレーム期間の経過後に、その入力テンソルに対応する出力テンソルを出力する点において実施の形態と異なる。

図３１は、本技術の実施の形態の第２の変形例における１枚目の入力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。タイミングＴ４までの期間内に、１枚目のＲＡＷ画像が出力される。

タイミングＴ５においてデジタル信号処理部２１９は、１枚目の入力テンソルに対する画像認識処理を開始する。この画像認識処理は、最初のフレーム期間内に完了しないものとする。

また、タイミングＴ７乃至Ｔ８の期間に、ＤＭＡコントローラ（不図示）は、レジスタの設定に従って、ＳＲＡＭ２１５から出力インターフェース２５２へ１枚目の入力テンソルをＤＭＡ転送する。この入力テンソルに付加されるヘッダは、「０」以外が設定された有効フラグと、「１」が設定された持続性フラグと、１枚目に対応する値（例えば、「０」）のフレームカウンタとを含む。

また、タイミングＴ１１乃至Ｔ１２の期間に、ＤＭＡコントローラは、レジスタの設定に従って、ＳＲＡＭ２１５から出力インターフェース２５２へ、無効な出力テンソルをＤＭＡ転送する。この出力テンソルに含まれるヘッダは、「０」が設定された有効フラグを含む。

図３２は、本技術の実施の形態の第２の変形例における２枚目のＲＡＷ画像の出力までのイメージセンサの動作の一例を示すタイミングチャートである。タイミングＴ１５乃至Ｔ１７の期間において、アナログデジタル変換部２１２が、ＡＤ変換により２枚目のＲＡＷ画像を生成する。前処理後の２枚目の入力テンソルは、この時点ではＳＲＡＭ２１５に書き込まれない。

図３３は、本技術の実施の形態の第２の変形例における１枚目に対応する出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。デジタル信号処理部２１９は、ＳＲＡＭ２１５から１枚目の入力テンソルを削除する。

タイミングＴ２０乃至Ｔ２１の期間に、ＤＭＡコントローラ（不図示）は、レジスタの設定に従って、ＳＲＡＭ２１５から出力インターフェース２５２へ、無効な入力テンソルをＤＭＡ転送する。この入力テンソルに含まれるヘッダは、「０」が設定された有効フラグを含む。このタイミングＴ２１の直後に、２枚目の入力テンソルがＳＲＡＭ２１５の入力テンソルメモリ領域に上書きされる。すなわち、ＤＮＮの実行が完了する前に、入力テンソルメモリ領域が上書きされる。

また、デジタル信号処理部２１９は、タイミングＴ２２において、ＳＲＡＭ２１５に出力テンソルを書き戻し、タイミングＴ２３において、ＣＰＵ２１６に画像認識処理の終了を通知する。そして、タイミングＴ２４乃至Ｔ２５の期間に、ＤＭＡコントローラは、レジスタの設定に従って、ＳＲＡＭ２１５から出力インターフェース２５２へ出力テンソルをＤＭＡ転送する。この出力テンソルに付加されるヘッダは、「０」以外が設定された有効フラグと、１枚目に対応する値（例えば、「０」）のフレームカウンタとを含む。

図３１乃至図３３に例示したように、ＤＮＮが１フレーム期間内に完了しないことがある。この場合、ＤＮＮの実行が開始されたフレーム期間内にＲＡＷ画像および入力テンソルのみが出力され、出力テンソルは、そのフレーム期間が経過した後（例えば、次のフレーム）に出力される。なお、ＤＮＮが完了するまでに２フレーム期間以上を要する場合、イメージセンサ２００は、タイミングＴ２６の後に出力テンソルを出力することもできる。

ヘッダが持続性フラグを含むため、アプリケーションプロセッサ１２０は、そのフラグを参照して、入力テンソルが出力されるフレームと、出力テンソルが出力されるフレームとが異なることを把握することができる。

なお、フレーム期間内にＤＮＮが完了しないケースが想定されない場合には、ヘッダから持続性フラグを削減することができる。

また、入力テンソルおよび出力テンソルのヘッダが有効フラグを含むため、最初のフレーム期間内の出力テンソルと、次のフレーム期間内の入力テンソルとを無効にし、システムの誤動作を防止することができる。

なお、フレーム期間内にＤＮＮが完了しないケースが想定されない場合には、ヘッダから有効フラグを削減することができる。

また、入力テンソルのヘッダ内のフレームカウントと、その入力テンソルに対応する出力テンソルのヘッダ内のフレームカウントとが同一に設定される。これにより、フレーム期間内にＤＮＮが完了しない場合であっても、アプリケーションプロセッサ１２０は、フレームカウントを参照して、出力テンソルに対応する入力テンソルを特定することができる。

なお、フレーム期間内にＤＮＮが完了しないケースが想定されない場合には、ヘッダからフレームカウントを削減することができる。また、フレーム期間内にＤＮＮが完了しない場合であっても、アプリケーションプロセッサ１２０が、ＤＮＮが完了するタイミングを推定することができる場合、ヘッダからフレームカウントを削減することができる。

上述のように、持続性フラグ、有効フラグおよびフレームカウントをヘッダが含むため、アプリケーションプロセッサ１２０は、それらを参照して１フレーム期間内にＤＮＮが完了しないケースに対応することができる。

このように、本技術の第２の変形例によれば、ヘッダ内に持続性フラグ、有効フラグおよび持続性フラグを含むため、情報処理システムは、１フレーム期間内にＤＮＮが完了しないケースに対応することができる。

＜４．第３の変形例＞
上述の実施の形態の第２の変形例では、ＲＡＷ画像（フレーム）をＳＲＡＭ２１５内に保持している間（言い換えれば、キャプチャ中）にデジタル信号処理部２１９がＤＮＮの実行を継続していた。しかし、この構成では、キャプチャ中に、ＤＮＮの実行によるメモリアクセスが発生することがあり、そのメモリアクセスに起因してバンドノイズが生じるおそれがある。この実施の形態の第３の変形例のイメージセンサ２００は、キャプチャ中に、ＤＮＮの実行を中断する点において第２の変形例と異なる。

図３４は、本技術の実施の形態の第３の変形例における１枚目の入力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。

タイミングＴ５乃至Ｔ１０の期間内に、デジタル信号処理部２１９は、入力テンソルをＳＲＡＭ２１５から読み出し、入力テンソルに対する画像認識処理をＤＮＮを用いて行う。ＣＰＵ２１６は、タイミングＴ９において、デジタル信号処理部２１９に画像認識処理の中断を指示し、タイミングＴ１０において、デジタル信号処理部２１９は、画像認識処理を中断して中断完了をＣＰＵ２１６に通知する。

そして、ＣＰＵ２１６は、タイミングＴ１０乃至Ｔ１１の期間に、ＤＭＡ転送のための設定を行う。タイミングＴ１１乃至Ｔ１２の期間に、ＤＭＡコントローラは、その設定に従って、ＳＲＡＭ２１５から出力インターフェース２５２へ無効な出力テンソルをＤＭＡ転送する。この出力テンソルに含まれるヘッダは、「０」が設定された有効フラグを含む。

図３５は、本技術の実施の形態の第３の変形例における２枚目のＲＡＷ画像の出力までのイメージセンサの動作の一例を示すタイミングチャートである。

タイミングＴ１５乃至Ｔ１７の期間において、アナログデジタル変換部２１２が、ＡＤ変換によりＲＡＷ画像を生成する。画像信号処理部２１４（不図示）およびハードウェアアクセラレータ２１７は、２枚目のＲＡＷ画像に対して各種の画像処理を前処理として行い、２枚目の入力テンソルを生成する。この前処理において、画像信号処理部２１４は、ＳＲＡＭ２１５にＲＡＷ画像を一時的に保持（キャプチャ）する。このタイミングＴ１５乃至Ｔ１７の期間を以下、キャプチャ期間と称する。このキャプチャ期間内は、ＤＮＮによる画像認識処理が中断しているため、バンドノイズが抑制される。なお、前処理後の２枚目の入力テンソルは、この時点ではＳＲＡＭ２１５に書き込まれない。

図３６は、本技術の実施の形態の第３の変形例における１枚目に対応する出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。

キャプチャ期間経過後のタイミングＴ１８において、ＣＰＵ２１６は、デジタル信号処理部２１９に、中断するまでの計算履歴を供給し、画像認識処理の再開を指示する。デジタル信号処理部２１９は、画像認識処理を再開し、タイミングＴ２２において、ＳＲＡＭ２１５にＤＮＮ２に対応する出力テンソルを書き戻す。

また、タイミングＴ２０乃至Ｔ２１の期間に、ＤＭＡコントローラ（不図示）は、レジスタの設定に従って、ＳＲＡＭ２１５から出力インターフェース２５２へ、無効な入力テンソルをＤＭＡ転送する。この入力テンソルに含まれるヘッダは、「０」が設定された有効フラグを含む。このタイミングＴ２１の直後に、２枚目の入力テンソルがＳＲＡＭ２１５の入力テンソルメモリ領域に上書きされる。すなわち、ＤＮＮの実行が完了する前に、入力テンソルメモリ領域が上書きされる。

そして、タイミングＴ２４乃至Ｔ２５の期間に、ＤＭＡコントローラは、その設定に従って、ＳＲＡＭ２１５から出力インターフェース２５２へ出力テンソルをＤＭＡ転送する。この出力テンソルに付加されるヘッダは、「０」以外が設定された有効フラグと、１枚目に対応する値（例えば、「０」）のフレームカウンタとを含む。

図３４乃至図３６に例示したように、デジタル信号処理部２１９は、フレームをＳＲＡＭ２１５に保持するキャプチャ期間の開始前に画像認識処理を中断し、キャプチャ期間の経過後に画像認識処理を再開する。これにより、キャプチャ中に、ＤＮＮの実行によるメモリアクセスが発生することが無くなり、そのメモリアクセスに起因するバンドノイズを抑制することができる。

なお、実施の形態の第２、第３の変形例に、第１の変形例を適用することもできる。この場合、例えば、４フレームの周期のうち２フレームでＤＮＮ１が実行され、残りの２フレームでＤＮＮ２が実行される。

このように、本技術の第３の変形例によれば、デジタル信号処理部２１９は、キャプチャ期間の開始前に画像認識処理を中断し、キャプチャ期間の経過後に再開するため、キャプチャ中に、ＤＮＮの実行によるメモリアクセスが発生することが無くなる。これにより、キャプチャ中のメモリアクセスに起因するバンドノイズを抑制することができる。

なお、上述の実施の形態は本技術を具現化するための一例を示したものであり、実施の形態における事項と、特許請求の範囲における発明特定事項とはそれぞれ対応関係を有する。同様に、特許請求の範囲における発明特定事項と、これと同一名称を付した本技術の実施の形態における事項とはそれぞれ対応関係を有する。ただし、本技術は実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において実施の形態に種々の変形を施すことにより具現化することができる。

なお、本明細書に記載された効果はあくまで例示であって、限定されるものではなく、また、他の効果があってもよい。

なお、本技術は以下のような構成もとることができる。
（１）出力テンソルのフォーマットが異なる複数のＤＮＮ（Deep Neural Network）のいずれかを選択する処理部と、
前記選択されたＤＮＮを用いて入力テンソルに対する画像認識処理を行って前記出力テンソルを生成するデジタル信号処理部と、
前記生成された出力テンソルをデコードするためのデコードパラメータと前記出力テンソルとを出力する出力インターフェースと
を具備する固体撮像素子。
（２）前記複数のＤＮＮのそれぞれを前記デジタル信号処理部に実行させるためのパラメータをＤＮＮパラメータとして受け取る入力インターフェースをさらに具備し、
前記デジタル信号処理部は、前記ＤＮＮパラメータに基づいて前記画像認識処理を行う
前記（１）記載の固体撮像素子。
（３）前記出力インターフェースは、前記入力テンソルをさらに出力する
前記（１）または（２）に記載の固体撮像素子。
（４）前記入力テンソルを所定の領域に記憶するメモリをさらに具備し、
前記出力インターフェースは、前記メモリから読み出された前記入力テンソルを出力し、
前記デコードパラメータは、前記画像認識処理が完了するまでに、前記領域が上書きされるべきでないか否かを示す持続性フラグを含む
前記（３）記載の固体撮像素子。
（５）前記出力インターフェースは、それぞれにヘッダが付加された前記入力テンソルおよび前記出力テンソルを出力する
前記（３）または（４）に記載の固体撮像素子。
（６）前記入力テンソルに付加された前記ヘッダは、前記入力テンソルが有効であるか否かを示す有効フラグを含み、
前記出力テンソルに付加された前記ヘッダは、前記出力テンソルが有効であるか否かを示す有効フラグを含む
前記（５）記載の固体撮像素子。
（７）前記入力テンソルに付加された前記ヘッダと、前記入力テンソルに対応する出力テンソルに付加された前記ヘッダとは、同一の値のフレームカウントを含む
前記（５）または（６）に記載の固体撮像素子。
（８）前記入力テンソルは、第１および第２の入力テンソルを含み、
前記複数のＤＮＮは、第１および第２のＤＮＮを含み、
前記デジタル信号処理部は、前記第１の入力テンソルに対して前記第１のＤＮＮを使用し、前記第２の入力テンソルに対して前記第２のＤＮＮを使用する
前記（１）から（７）のいずれかに記載の固体撮像素子。
（９）前記デジタル信号処理部は、前記入力テンソルに対する画像認識処理を行って前記出力テンソルを生成し、
前記出力インターフェースは、前記入力テンソルが生成される所定のフレーム期間の経過後に前記出力テンソルを出力する
前記（１）から（８）のいずれかに記載の固体撮像素子。
（１０）前記デジタル信号処理部は、フレームをメモリに保持するキャプチャ期間の開始前に前記画像認識処理を中断し、前記キャプチャ期間の経過後に前記画像認識処理を再開する
前記（９）記載の固体撮像素子。
（１１）入力テンソルに対する画像認識処理により生成された出力テンソルと、
出力テンソルをデコードするためのデコードパラメータと
を含むメタデータ。
（１２）出力テンソルのフォーマットが異なる複数のＤＮＮ（Deep Neural Network）のいずれかを選択する処理部と、
前記選択されたＤＮＮを用いて入力テンソルに対する画像認識処理を行って前記出力テンソルを生成するデジタル信号処理部と、
前記生成された出力テンソルをデコードするためのデコードパラメータと前記出力テンソルとを出力する出力インターフェースと、
前記デコードパラメータを用いて前記出力された出力テンソルをデコードするアプリケーションプロセッサと
を具備する撮像装置。
（１３）出力テンソルのフォーマットが異なる複数のＤＮＮ（Deep Neural Network）のいずれかを選択する処理部と、
前記選択されたＤＮＮを用いて入力テンソルに対する画像認識処理を行って前記出力テンソルを生成するデジタル信号処理部と、
前記生成された出力テンソルをデコードするためのデコードパラメータと前記出力テンソルとを出力する出力インターフェースと、
前記複数のＤＮＮのそれぞれに対応する前記デコードパラメータを受け取る入力インターフェースと、
前記デコードパラメータのそれぞれを生成して前記入力インターフェースに供給するコンバータと
を具備する情報処理システム。

１００撮像装置
１１０光学部
１２０アプリケーションプロセッサ
１２１、１２３、２５１、２５４、２５６入力インターフェース
１２２、１２４、２５２、２５３、２５５出力インターフェース
１３０フラッシュメモリ
２００イメージセンサ
２１１画素アレイ
２１２アナログデジタル変換部
２１３露光制御部
２１４画像信号処理部
２１５ＳＲＡＭ
２１６ＣＰＵ
２１７ハードウェアアクセラレータ
２１８セレクタ
２１９デジタル信号処理部
３００ＤＮＮコンバーター

Claims

出力テンソルのフォーマットが異なる複数のＤＮＮ（Deep Neural Network）のいずれかを選択する処理部と、
前記選択されたＤＮＮを用いて入力テンソルに対する画像認識処理を行って前記出力テンソルを生成するデジタル信号処理部と、
前記生成された出力テンソルをデコードするためのデコードパラメータと前記出力テンソルとを出力する出力インターフェースと
を具備する固体撮像素子。
前記複数のＤＮＮのそれぞれを前記デジタル信号処理部に実行させるためのパラメータをＤＮＮパラメータとして受け取る入力インターフェースをさらに具備し、
前記デジタル信号処理部は、前記ＤＮＮパラメータに基づいて前記画像認識処理を行う
請求項１記載の固体撮像素子。
前記出力インターフェースは、前記入力テンソルをさらに出力する
請求項１記載の固体撮像素子。
前記入力テンソルを所定の領域に記憶するメモリをさらに具備し、
前記出力インターフェースは、前記メモリから読み出された前記入力テンソルを出力し、
前記デコードパラメータは、前記画像認識処理が完了するまでに、前記領域が上書きされるべきでないか否かを示す持続性フラグを含む
請求項３記載の固体撮像素子。
前記出力インターフェースは、それぞれにヘッダが付加された前記入力テンソルおよび前記出力テンソルを出力する
請求項３記載の固体撮像素子。
前記入力テンソルに付加された前記ヘッダは、前記入力テンソルが有効であるか否かを示す有効フラグを含み、
前記出力テンソルに付加された前記ヘッダは、前記出力テンソルが有効であるか否かを示す有効フラグを含む
請求項５記載の固体撮像素子。
前記入力テンソルに付加された前記ヘッダと、前記入力テンソルに対応する出力テンソルに付加された前記ヘッダとは、同一の値のフレームカウントを含む
請求項５記載の固体撮像素子。
前記入力テンソルは、第１および第２の入力テンソルを含み、
前記複数のＤＮＮは、第１および第２のＤＮＮを含み、
前記デジタル信号処理部は、前記第１の入力テンソルに対して前記第１のＤＮＮを使用し、前記第２の入力テンソルに対して前記第２のＤＮＮを使用する
請求項１記載の固体撮像素子。
前記デジタル信号処理部は、前記入力テンソルに対する画像認識処理を行って前記出力テンソルを生成し、
前記出力インターフェースは、前記入力テンソルが生成される所定のフレーム期間の経過後に前記出力テンソルを出力する
請求項１記載の固体撮像素子。
前記デジタル信号処理部は、フレームをメモリに保持するキャプチャ期間の開始前に前記画像認識処理を中断し、前記キャプチャ期間の経過後に前記画像認識処理を再開する
請求項９記載の固体撮像素子。
入力テンソルに対する画像認識処理により生成された出力テンソルと、
出力テンソルをデコードするためのデコードパラメータと
を含むメタデータ。
出力テンソルのフォーマットが異なる複数のＤＮＮ（Deep Neural Network）のいずれかを選択する処理部と、
前記選択されたＤＮＮを用いて入力テンソルに対する画像認識処理を行って前記出力テンソルを生成するデジタル信号処理部と、
前記生成された出力テンソルをデコードするためのデコードパラメータと前記出力テンソルとを出力する出力インターフェースと、
前記デコードパラメータを用いて前記出力された出力テンソルをデコードするアプリケーションプロセッサと
を具備する撮像装置。
出力テンソルのフォーマットが異なる複数のＤＮＮ（Deep Neural Network）のいずれかを選択する処理部と、
前記選択されたＤＮＮを用いて入力テンソルに対する画像認識処理を行って前記出力テンソルを生成するデジタル信号処理部と、
前記生成された出力テンソルをデコードするためのデコードパラメータと前記出力テンソルとを出力する出力インターフェースと、
前記複数のＤＮＮのそれぞれに対応する前記デコードパラメータを受け取る入力インターフェースと、
前記デコードパラメータのそれぞれを生成して前記入力インターフェースに供給するコンバータと
を具備する情報処理システム。