JP2024520293A

JP2024520293A - 統合された単一オブジェクトクラス検出深層ニューラルネットワーク（ｄｎｎ）を有するイメージセンサ

Info

Publication number: JP2024520293A
Application number: JP2023568661A
Authority: JP
Inventors: ケビンチャン
Original assignee: Sony Semiconductor Solutions Corp
Current assignee: Sony Semiconductor Solutions Corp
Priority date: 2021-06-01
Filing date: 2022-03-15
Publication date: 2024-05-24
Also published as: US20220383020A1; CN117396894A; EP4348513A1; US11706546B2; WO2022256065A1

Abstract

顔検出ＤＮＮなどのセンサ上単一オブジェクトクラス検出深層ニューラルネットワーク（ＤＮＮ）を使用して、センサ上単一オブジェクトクラス検出を実行するイメージセンサ、電子装置、およびその方法。単一オブジェクトクラス検出ＤＮＮは、画像をキャプチャし、キャプチャされた画像の画像データを転送するように構成されたピクセルアレイ層と、ピクセルアレイ層から画像データを直接受信し、単一オブジェクトクラス検出データとともに画像データを電子装置の通信バスに出力するロジックおよび単一オブジェクトクラス検出深層ニューラルネットワーク（ＤＮＮ）層と、を含む。

Description

本特許出願は、一般に、イメージセンサに関する。より具体的には、本特許出願は、イメージセンサ（例えば、相補型金属酸化膜半導体（ＣＭＯＳ）イメージセンサ、積層型ＣＭＯＳセンサ）に統合される、センサ上の単一オブジェクトクラス検出深層ニューラルネットワーク（ＤＮＮ）を有するシステムおよび方法に関する。例えば、単一オブジェクトクラスは、顔であり得る（例えば、これにより、顔検出ＤＮＮを提供する）。

オブジェクト検出（例えば、顔検出）機能は、電子画像キャプチャ装置（例えば、イメージセンサ、カメラ、カメラ付きスマートフォン）によって一般に使用される。現在のオブジェクト／顔検出技術は、大量のメモリを必要とし、計算量が多い深層ニューラルネットワーク（ＤＮＮ）を利用している。しかしながら、オブジェクト検出（例えば、顔検出）用の既存のＤＮＮは、センサ上で実装するには大きすぎて（メモリ的に）、計算量が多すぎる。したがって、既存のＤＮＮは、イメージセンサとは別個のプロセッサ上で実行される必要がある。

通常、オブジェクト検出は、カメラ／センサとは別の汎用プロセッサ上で実行される。オブジェクト検出は、通信バスによってカメラシステムに結合された別個のプロセッサ上で実行される。したがって、オブジェクト検出を実行するには、画像データがカメラからプロセッサに転送される必要がある。

さらに、オブジェクト検出は、低い精度を被る（例えば、Ｈａａｒ様特徴、方向勾配ヒストグラム（ＨｏＧ）、スケール不変特徴変換（ＳＩＦＴ）特徴）、またはセンサ上の実装に多すぎるメモリを必要とする（例えば、マルチタスクカスケード畳み込みニューラルネットワーク）既存のアルゴリズムを使用して実行される。

本開示の電子撮像装置（例えば、ＣＭＯＳセンサ）は、低いメモリ使用量および低い計算複雑性を維持しながら、高精度で単一オブジェクトクラス（例えば、顔）検出をセンサ上で実装したものである。例えば、本開示のセンサは、特定の値（例えば、１００ｋＢ）よりも小さいメモリフットプリントサイズを有する低電力センサである。

本開示の一態様では、画像をキャプチャし、キャプチャされた画像の画像データを転送するように構成されたピクセルアレイ層と、ロジックおよび単一オブジェクトクラス検出深層ニューラルネットワーク（ＤＮＮ）層であって、単一オブジェクトクラス検出ＤＮＮを含むロジックおよび単一オブジェクトクラス検出ＤＮＮ層と、を備える、積層型イメージセンサが提供される。ロジックおよび単一オブジェクトクラス検出ＤＮＮ層は、ピクセルアレイ層から画像データを直接受信し、画像データの前処理を実行して前処理された画像データを生成し、前処理された画像データの少なくとも一部を使用して単一オブジェクトクラス検出ＤＮＮによる単一クラスオブジェクト検出を実行し、単一オブジェクトクラス検出ＤＮＮによって出力された単一オブジェクトクラス検出データの後処理を実行し、後処理された単一オブジェクトクラス検出データと組み合わせて画像データを電子装置の通信バスに出力するように構成され得る。

本開示の別の態様では、単一オブジェクトクラス深層ニューラルネットワーク（ＤＮＮ）を積層型イメージセンサのロジックおよび単一オブジェクトクラス検出ＤＮＮ層に記憶することと、積層型イメージセンサのピクセルアレイ層によって画像をキャプチャすることと、ピクセルアレイ層によって、キャプチャされた画像の画像データを積層型イメージセンサのロジックおよび単一オブジェクトクラス検出深層ニューラルネットワーク（ＤＮＮ）層に転送することと、ロジックおよび単一オブジェクトクラス検出ＤＮＮによって、画像データの前処理を実行して前処理された画像データを生成することと、ロジックおよび単一オブジェクトクラス検出ＤＮＮ層によって、前処理された画像データの少なくとも一部を入力として使用して単一オブジェクトクラス検出を実行することと、ロジックおよび単一オブジェクトクラス検出ＤＮＮによって、単一オブジェクトクラス検出ＤＮＮによって出力された単一オブジェクトクラス検出データの後処理を実行することと、ロジックおよび単一オブジェクトクラス検出ＤＮＮによって、後処理された単一オブジェクトクラス検出データと組み合わせてキャプチャされた画像を電子装置の通信バスに出力することと、を含む、方法が存在する。

本開示の一態様では、プロセッサと、メモリと、光学レンズと、通信バスと、積層型イメージセンサと、を備える電子装置が提供される。積層型イメージセンサは、画像をキャプチャし、キャプチャされた画像の画像データを転送するように構成されたピクセルアレイ層と、ロジックおよび単一オブジェクトクラス検出深層ニューラルネットワーク（ＤＮＮ）層と、を備える。

ロジックおよび単一オブジェクトクラス検出ＤＮＮ層は、単一オブジェクトクラス検出ＤＮＮを含む。

ロジックおよび単一オブジェクトクラス検出ＤＮＮ層は、ピクセルアレイ層から画像データを直接受信し、画像データの前処理を実行して前処理された画像データを生成し、前処理された画像データの少なくとも一部を使用して単一オブジェクトクラス検出ＤＮＮによる単一オブジェクトクラス検出を実行し、単一オブジェクトクラス検出ＤＮＮによって出力された単一オブジェクトクラス検出データの後処理を実行し、後処理された単一オブジェクトクラス検出データと組み合わせて画像データを通信バスに出力するように構成されている。

このように、本開示の上記態様は、少なくとも撮像の技術分野、ならびにイメージセンサアーキテクチャ、画像処理、顔検出などの関連技術分野の改善を提供する。

本開示は、コンピュータ実装方法によって制御されるハードウェアまたは回路、コンピュータプログラム製品（例えば、一時的または非一時的コンピュータ可読媒体）、コンピュータシステムおよびネットワーク、ユーザインターフェース、およびアプリケーションプログラミングインターフェース、ならびにハードウェア実装方法、信号処理回路、イメージセンサ回路、特定用途向け集積回路、フィールドプログラマブルゲートアレイなどを含む、様々な形態で具体化されることができる。前述の概要は、本開示の様々な態様の一般的な概念を与えることのみを目的としており、本開示の範囲をいかなる形でも限定するものではない。

様々な実施形態のこれらのおよび他のより詳細な且つ特定の特徴は、添付の図面を参照しながら、以下の説明においてより完全に開示される。

本開示の様々な態様にかかる、撮像装置を示す図である

本開示の様々な態様にかかる、積層型イメージセンサを示す図である。

本開示の様々な態様にかかる、ＤＮＮのメモリフットプリントを示す図である。

本開示の様々な態様にかかる、顔検出ＤＮＮを示す図である。

本開示の様々な態様にかかる、層ごとの畳み込み処理を示す図である。

本開示の様々な態様にかかる、多層畳み込み処理を示す図である。

本開示の様々な態様にかかる、イメージセンサのプロセス／方法を示すフローチャートである。

本開示の様々な態様にかかる、イメージセンサの低解像度モード方法を示すフローチャートである。

以下の説明では、フローチャート、データテーブル、およびシステム構成など、多くの詳細が記載される。これらの特定の詳細は単なる例であり、本特許出願の範囲を限定するものではないことが当業者にとって容易に明らかであろう。

さらに、本開示は、主にＤＮＮがイメージセンサにおいて使用される例に焦点を当てているが、これは実装の一例に過ぎないことが理解されるであろう。さらに、開示された装置、システム、および方法は、キャプチャされた画像の顔検出を実行する必要がある任意の装置、例えばスマートフォンまたはタブレットなどにおいて使用されることができることが理解されるであろう。さらにまた、以下に記載されるイメージセンサの実装は、スマートフォン、タブレットコンピュータ、ラップトップコンピュータなどを含むがこれらに限定されない電子装置に組み込まれてもよい。

撮像装置

図１は、本開示の様々な態様にかかる電子撮像装置１００を示している。電子撮像装置１０は、カメラ、スマートフォン、タブレットなどである。

図１に示すように、実施形態によれば、撮像装置１００は、光学レンズ１０２と、ピクセルアレイユニット１０４と、顔検出ＤＮＮモジュール１０６と、記録ユニット１０８（例えば、メモリ）と、通信バス１１０とを備える。ピクセルアレイユニット１０４は、数百万（例えば、数千万まで）以上のピクセル回路（「メガピクセル」またはＭＰ）を有するイメージセンサであり得る。顔検出ＤＮＮモジュールは、説明の目的で、単一オブジェクトクラスＤＮＮモジュールの例示的な実施形態として使用される。

顔検出ＤＮＮモジュール１０６は、ハードウェアプロセッサまたはハードウェア回路によって実装され、メモリ（例えば、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、または同期ＤＲＡＭ（ＳＤＲＡＭ））も含む。単一方向の矢印によって図１に示すように、レンズ１０２は、ピクセルアレイ１０４に転送される光を受光する。図１に示すように、ピクセルアレイ１０４、顔検出ＤＮＮ１０６、および記録ユニット１０８は、全て、通信バス１１０を介して相互に通信する（情報を転送し、情報を受信する）。

顔検出ＤＮＮ１０６は、サーバまたは外部プロセッサなどの別の電子装置（例えば、アプリケーションハードウェアプロセッサ）に情報を出力するように構成されている。顔検出ＤＮＮ１０６はまた、プロセッサなどの他の電子装置から情報を受信するように構成され得る。

図２は、本開示の様々な態様にかかる、積層型イメージセンサ２００の例を示す図である。図２に示すように、積層型イメージセンサ２００は、受光ピクセル層２０２と、ロジックおよび顔検出ＤＮＮ処理層２０４とを備える。

受光ピクセル層２０２は、画像をキャプチャし、キャプチャされた画像の画像データをロジックおよび顔検出ＤＮＮ処理層２０４に出力するように構成されている。ロジックおよび顔検出ＤＮＮ処理層２０４は、ロジック機能（例えば、以下の図７～図９を参照）および以下に記載される顔検出ＤＮＮ処理などのＤＮＮ処理を実行するハードウェア（例えば、プロセッサ、グラフィックスプロセッサ、メモリ（例えば、ＤＲＡＭまたはＳＤＲＡＭ）などのうちの１つ以上）を含む。

実施形態によれば、図２に示すように、積層型イメージセンサ２０２は、積層方向においてロジックおよび顔検出ＤＮＮ処理層２０４の上に積層された（上に配置された）受光ピクセル層２０２を含む。図２に示すように、２つの層は、シリコン貫通ビア（ＴＳＶ）などによって互いに電気的に接続される。

積層型イメージセンサは、ピクセル層２０２と、ロジックおよび顔検出ＤＮＮ処理層２０４を１つのチップ（例えば、積層集積回路）上に提供する。例えば、センサは、特定の値（例えば、１００ｋＢ）よりも小さいメモリフットプリントサイズを有する低電力センサである。顔検出ＤＮＮの削減されたサイズは、ロジックおよび顔検出ＤＮＮ処理層２０４が小さい面積のフットプリントを有するハードウェアに実装されることを可能にし、それによって低電力イメージセンサ上での実装を可能にする。

「顔」ＤＮＮと呼ばれるが、ＤＮＮは、任意の単一クラスＤＮＮであってもよく、顔オブジェクトの検出だけに限定されない。顔オブジェクト検出は、単一オブジェクトクラスの一例である。しかしながら、顔オブジェクトの代わりに、他の単一オブジェクトクラスが使用されることもできる。例えば、歩行者検出ＤＮＮ、指紋検出、またはその他の適切な単一オブジェクトクラスＤＮＮなど、異なる単一オブジェクトクラスＤＮＮが実装されることもできる。様々な実施形態によれば、単一オブジェクトクラスＤＮＮの代わりに、多クラスＤＮＮがオブジェクト検出ＤＮＮに使用されてもよい。例えば、単一オブジェクトクラスの代わりに、２つのオブジェクトクラス（例えば、歩行者および車両）が使用されることもできる。別の例として、３つ以上のオブジェクトクラスがオブジェクト検出ＤＮＮに使用されることもできる。

図３は、本開示の様々な態様にかかる、ＤＮＮ３０２～３１８のメモリフットプリントサイズを示す図である。図３に示すように、従来のＤＮＮ（例えば、高速領域ベース畳み込みニューラルネットワーク（ＲＣＮＮ）＋ビジュアルジオメトリグループ（ＶＧＧ）１６（３０２）、ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ（ＹＯＬＯ）－ｖ２（３０４）、領域ベース完全畳み込みネットワーク（Ｒ－ＦＣＮ）＋残差ニューラルネットワーク（ＲｅｓＮｅｔ）－１０１（３０６）、Ｒ－ＦＣＮ＋ＲｅｓＮｅｔ－５０（３０８）、シングルショットディテクタ（ＳＳＤ）＋ＶＧＧ１６（３１０）、ＳＳＤ＋ＭｏｂｉｌｅＮｅｔ－ｖｉ（３１２）、ＳＳＤＬｉｔｅ＋ＭｏｂｉｌｅＮｅｔ－ｖ２（３１４））は、特定の低電力イメージセンサ（例えば、積層型ＣＭＯＳイメージセンサ）には大きすぎた。しかしながら、図３に示すように、本開示の様々な実施形態にかかる、センサ上の単一オブジェクトクラス検出ＤＮＮ３１８は、従来の検出ＤＮＮモデル３０２～３１６よりも小さいメモリフットプリントを有する。

図３に示すように、顔検出のための本開示のＤＮＮアーキテクチャ（例えば、図４のセンサ上の単一オブジェクトクラス検出ＤＮＮ４００）は、関連技術よりも小さいメモリフットプリントを有する。例えば、いくつかの実施形態によれば、ＤＮＮモデルは、１００ｋＢ以下のメモリフットプリントを有する。図４～図９を参照して以下に説明するように、様々な実施形態にかかるイメージセンサ（例えば、積層型イメージセンサ２００）は、例として、単一オブジェクトクラス検出ＤＮＮを低電力ＣＭＯＳイメージセンサに効率的にハードウェア実装するためのアーキテクチャおよびアルゴリズム構造の組み合わせを有する。本開示は、単一オブジェクトクラス（例えば、顔クラス）検出およびニューラルネットワーク処理に特有のメモリおよび電力を削減するためのアーキテクチャおよびアルゴリズム構造の組み合わせ、および単一オブジェクトクラス（例えば、顔）検出出力がイメージセンサの動作を制御するためのトリガとして使用されることができる方法について記載する。

センサ上の単一オブジェクトクラス検出ＤＮＮ

図４は、本開示の様々な態様にかかる、単一オブジェクトクラス（例えば、顔）検出ＤＮＮ４００の例を示す図である。顔検出ＤＮＮ４００が実施形態として示されているが、上述したように、他の単一オブジェクトクラスまたは多オブジェクトクラスが使用されてもよい。顔検出ＤＮＮ４００は、図３のセンサ上の単一オブジェクトクラス検出ＤＮＮ３１８の一例である。顔認識またはオブジェクト認識（すなわち、同一性照合）とは対照的に、本開示の様々な実施形態にかかる顔検出ＤＮＮ４００は、単一オブジェクト（例えば、顔（任意の顔））が画像内に存在するかどうかを識別し、この単一のオブジェクトクラス検出（例えば、顔検出）情報をイメージセンサの動作を制御するためのトリガとして使用するという目標を有し得る（例えば、以下の図７～図９を参照）。顔検出ＤＮＮ４００の入力は、単一オブジェクトクラス（この例では、顔）を含む場合も含まない場合もある画像領域であり得る。顔検出ＤＮＮ４００の出力は、入力画像データ内の任意の顔の位置を示す境界ボックスのセットを含み得る。

図４に示すように、顔検出ＤＮＮ４００は、複数の畳み込みブロックおよび反転残差ブロックから構成され得る特徴抽出器モジュール４０４によって受信されて処理される入力画像４０２を含む。さらに、特徴抽出器４０４からの畳み込みブロック出力および／または残差ブロック出力のサブセットは、ボックス予測器モジュール４０６によって処理されて、潜在的な顔の境界ボックス（出力４１０Ａ：境界ボックス）のサイズおよび位置を識別する。特徴抽出器４０４からの畳み込みブロック出力および／または残差ブロック出力の同じサブセットは、クラス予測器モジュール４０８によって処理されて、対応する境界ボックスが顔を含む確率（出力４１０Ｂ：クラス確率）を判定する。

この文脈において、畳み込みブロックとは、連続的に接続された１つ以上の畳み込み層のセットを指し、各畳み込み層の後には、正規化線形関数（ＲｅＬＵ）などの非線形活性化関数が続く。この文脈において、反転残差ブロックとは、１つ以上の畳み込み層、深さ方向の畳み込み層、およびＲｅＬＵ層のセットを指し、ブロックの出力は、ブロックの入力と合計される。

顔検出ＤＮＮ４００がメモリに制約のあるハードウェア上で実装可能であることを保証するために、各畳み込みブロックおよび各反転残差ブロックについての出力サイズは、ロジックおよび顔検出ＤＮＮ処理層２０４のハードウェアにおいて利用可能な作業メモリよりも大きくない（例えば、１００ｋＢ未満）。顔検出ＤＮＮ４００がメモリに制約のあるハードウェア上で実装可能であることを保証するために、全ての畳み込みブロックおよび全ての反転残差ブロックにおける重みの合計メモリサイズは、ハードウェアにおいて利用可能な重みメモリよりも大きくない（例えば、１００ｋＢ未満）。

図４に記載された顔検出ＤＮＮ４００（顔検出アーキテクチャ）は、（１つ以上の変更を介して）ＤＮＮモデルのメモリサイズを削減するために変更された、ＭｏｂｉｌｅＮｅｔｖ２＋ＳＳＤＬｉｔｅに基づくアーキテクチャであり得る。訓練、前処理、および／または後処理中に発生する可能性がある１つ以上の変更は、（ｉ）画像入力サイズの削減（例えば、１６０×１２０および／またはグレースケールへ）、（ｉｉ）顔検出ＤＮＮの各層における出力チャネルの数の削減、（ｉｉｉ）ＤＮＮの一部の層における畳み込みストライドの変更／調整、（ｉｖ）ＤＮＮのアンカーボックスの数の削減、および（ｖ）１（例えば、顔）へのオブジェクトクラスの数の削減、のうちの１つ以上を含み得る。さらに、ＭｏｂｉｌｅＮｅｔｖ２＋ＳＳＤＬｉｔｅは、汎用のオブジェクト検出ＤＮＮであるが、この顔検出ＤＮＮ３００は、具体的には顔検出用に訓練される。オブジェクトクラスは、１であって「顔」であるが、例として、別の単一クラス（例えば、歩行者や別の身体部分）が使用されることもできる。

層ごとの畳み込み処理

図５は、本開示の様々な態様にかかる、層ごとの畳み込み処理５００を示す図である。各層からの中間活性化を記憶するのに十分な作業メモリが利用可能な場合、ニューラルネットワーク処理は、層ごとに実行され得る。図５に示すように、層ごとの畳み込み処理５００は、図５に示すように、全ての（行，列）位置における各「Ｃｏｎｖ＋ＲｅＬＵ」層の結果を処理し、記憶することを含む。例えば、図５に示すように、層ごとの畳み込み処理５００は、動作５０１～５０８のうちの１つ以上を含む。実施形態によれば、画像領域（例えば、出力（行，列）位置ごとに、入力バッファからの領域（例えば、より大きな入力バッファからの３ピクセル×３ピクセル（３×３）領域））が取得される（動作５０１）。同じサイズのフィルタ（例えば、３×３）が使用されて、要素乗算関数を実行する（動作５０２）。さらに、合計計算関数（動作５０３）およびＲｅＬＵ関数（動作５０４）も実行される。例えば、図５に示すように、ＲｅＬＵ関数５０４は、以下であり得る：
合計＝（合計＞０）？合計：０）［式１］

値は出力メモリに記憶される（動作５０５）。チェックが実行されて、層ごとの畳み込み処理が各出力（行，列，チャネル）位置を計算したかどうかを判定する（動作５０６）。各出力（行，列，チャネル）位置が計算されていない場合、ポインタがインクリメントされ（動作５０７）、動作５０１～５０６／５０７に再開させる（再度実行される）ループが使用される（動作５０８）。各出力（行，列，チャネル）位置が計算された場合、指定された層についての処理は完了し、後続の層についての処理が開始され得る。

多層畳み込み処理

あるいは、中間層の活性化のための作業メモリを削減するために、全ての空間座標についての各畳み込み全体を計算するのではなく、多畳み込み層が所与の空間座標について一緒に計算される、多レベル畳み込み手順が実行されてもよい。図６は、本開示の様々な態様にかかる、多層畳み込み処理手順６００を示す図である。多レベル畳み込み手順６００は、各中間畳み込み層の出力を記憶する必要性を回避し、それによって中間データのための作業メモリ要件を削減する。すなわち、多層畳み込み処理６００は、（一度に１層ずつではなく）大きなブロックが処理されるというさらなる利点を提供し得る。

多層畳み込み処理６００は、図６に示すように、各（行，列）位置について複数の「Ｃｏｎｖ＋ＲｅＬＵ」層による処理を含む。例えば、図６に示すように、多層畳み込み処理は、動作６０１～６０８のうちの１つ以上を含む。実施形態によれば、画像領域（例えば、各出力（行，列）位置について、入力バッファからの領域（例えば、より大きな入力バッファからの３ピクセル×３ピクセル（３×３）領域））が取得される（動作６０１）。画像領域は、２つ以上の画像フレーム領域を含む。図６は、＃１～＃９領域（９領域）を示しているが、領域の数は、９以上であってもよく、９未満であってもよい。さらに、領域の数は、中間メモリの量によって制限されてもよい。

さらに、同じサイズの第１のフィルタ（例えば、３×３）が使用されて、要素乗算関数を実行する（動作６０２Ａ）。合計計算関数も実行される（動作６０３Ａ）。ＲｅＬＵ関数が実行される（動作６０４Ａ）。例えば、図５に示すように、ＲｅＬＵ関数は、以下であり得る：
合計＝（合計＞０）？合計：０）［式１］

次に、第２の同じサイズのフィルタ（例えば、３×３）について、要素乗算関数（動作６０２Ｂ）が実行され、続いて合計計算関数（６０３Ｂ）およびＲｅＬＵ関数（６０４Ｂ）が実行される。

畳み込み出力値は、出力メモリに記憶される（動作６０５）。例えば、畳み込み出力値は、畳み込み出力の値（例えば、ＲｅＬＵまたは他の非線形活性化後）を含んでもよく、これらはまた、活性化または特徴マップとも呼ばれることがあり、所与の層（または複数の所与の層）の出力メモリに記憶される。多層畳み込み処理が各空間座標を処理したかどうかを判定するためにチェックが実行される（動作６０６）。各空間座標が処理されていない場合、ポインタがインクリメントされ（動作６０７）、動作６０１～６０６／６０７を再開させる（再度実行される）ループが使用される（動作６０８）。

ニューラルネットワーク処理後、様々な実施形態によれば、ＤＮＮ出力は後処理され得る。この場合、境界ボックスは、アンカーボックスに基づいて復号され、重複する境界ボックスは、非最大抑制によって削除される。これは、ＳＳＤについての後処理と類似し得るが、計算複雑性を削減するために、対数関数や指数関数の代わりに一次線形近似が使用され得る。

単一オブジェクトクラス検出処理

開示された顔検出ＤＮＮ４００の物理的センサの実装に加えて、図７～図９は、顔検出処理が画像処理パイプラインにどのように統合され得るかに関する様々な実施形態を示している。

図７は、本開示の様々な態様にかかる、イメージセンサの例示的なプロセス／方法７００Ａを示すフローチャートを含む。図７に示すように、イメージセンサは、フル解像度のフレーム画像をキャプチャし得て（動作２００１）、各フルフレーム画像は、顔検出ＤＮＮによって処理されて、画像領域内のあらゆる顔の境界ボックスを判定する（動作２００３）。次に、キャプチャされた画像および任意の検出された顔の境界ボックスがチップ外（センサ外）に送信され得る（動作２００５）。動作２００１と２００３との間で、フレーム画像に対してサイズ変更および前処理（動作２００２）が行われ、動作２００３と２００５との間で、ＤＮＮ出力の後処理（動作２００４）が行われ得る。

実施形態によれば、顔検出ＤＮＮは、イメージセンサ上のハードウェアにおいて顔検出を実行するように適合させるために、１つ以上の変更を加えたスリングショットマルチボックス検出器（ＳＳＤ）（オブジェクト検出ニューラルネットワークアーキテクチャ）を使用し得る。訓練、前処理、および／または後処理中に発生する可能性のある１つ以上の変更は、（ｉ）画像入力サイズの削減（例えば、１６０×１２０および／またはグレースケールへ）、（ｉｉ）顔検出ＤＮＮの各層における出力チャネルの数の削減、（ｉｉｉ）ＤＮＮの一部の層における畳み込みストライドの調整、（ｉｖ）ＤＮＮのアンカーボックスの数の削減、および（ｖ）１（例えば、顔）へのオブジェクトクラスの数の削減、のうちの１つ以上を含み得る。

ニューラルネットワーク処理の前に、入力データは、前処理される必要がある。この場合、－１対１へのデータ正規化とＤＮＮ入力サイズ（例えば、１６０×１２０）へのデータのサイズ変更をともなう標準の前処理が実行される。これは、任意の標準的な画像信号処理（ＩＳＰ）処理（例えば、デモザイク、ノイズ除去など）に加えて行われる。

ニューラルネットワーク処理後、ＤＮＮ出力は、後処理される必要がある。この場合、境界ボックスは、アンカーボックスに基づいて復号され、重複する境界ボックスは、非最大抑制によって削除される。これは、ＳＳＤについての後処理と類似するが、計算複雑性を削減するために、対数関数や指数関数の代わりに一次線形近似が使用される。

単一オブジェクトクラス検出ＤＮＮによる低解像度モード

図８は、本開示の様々な態様にかかる、イメージセンサの低解像度画像データモード方法８００を示すフローチャートである。図８に示すように、低解像度モード方法８００は、顔検出ＤＮＮが人間の顔の存在を判定するまで、イメージセンサを低解像度画像データ（低電力）モードで動作させることを含む。低解像度画像データモード方法８００は、低解像度画像データをキャプチャすること（動作３００１）と、ＤＮＮ用にサイズ変更して前処理を適用すること（動作３００２）と、ニューラルネットワークによって顔検出を実行すること（動作３００３）と、ＤＮＮ出力の後処理を実行すること（動作３００４）と、顔が検出されたかどうかを判定すること（動作３００５）と、を含む。顔が検出されなかった場合（動作３００５＝いいえ）、低解像度モード方法８００は、ループし得る（すなわち、動作２００１～２００５を再度実行する）。顔が検出された場合（動作３００５＝はい）、方法８００は、センサをフル解像度モードに切り替え、顔検出ＤＮＮがいかなる人間の顔も存在しないと判定するまで（動作３００５）、フル解像度画像をキャプチャし続ける（動作３００６）。いかなる人間の顔も存在しないことを検出した後、イメージセンサは、低解像度モードに戻る。方法８００は、画像データおよび顔検出データをセンサ外電子装置（例えば、ＣＰＵまたはＧＰＵ）に出力すること（動作３００７）をさらに含む。

単一オブジェクトクラス検出ＤＮＮによる超低電力モード

図９は、本開示の様々な態様にかかる、イメージセンサの超低電力モード方法９００を示すフローチャートである。ここでも、単一オブジェクトクラスの例として顔オブジェクトが使用されているが、他の単一オブジェクトクラス（または複数オブジェクトの限定されたセット）も使用されることができる。図９に示すように、超低電力モード方法９００では、イメージセンサは、受信照度の変化が図８の低解像度モード方法８００へのウェイクアップをトリガするまで、「動き検出」検知モードで動作する。超低電力モード方法９００では、低解像度画像または高解像度画像のいずれからも顔検出ＤＮＮによって顔が検出されない場合、センサは、超低電力動き検出モードにループ／スイッチバックし得る。超低電力モード方法４００１は、動作４００１～４００９のうちの１つ以上を含む。例えば、超低電力モード方法４００１は、低解像度動き検出データをキャプチャすること（動作４００１）と、動きが検出されたかどうかを判定すること（動作４００２）とを含む。動きが検出されなかった場合（動作４００２＝いいえ）、動きが検出されるまで動作４００１および４００２が連続的に繰り返され得る（ループ）。動きが検出された場合（動作４００２＝はい）、動作４００３～４００９が実行され得る。動作４００３～４００９は、動作３００１～３００７に対応し、同じまたは類似の機能を有し得る。

単一オブジェクトクラス検出ＤＮＮの訓練

実施形態にかかる顔検出ＤＮＮ（例えば、顔検出ＤＮＮ４００）を訓練するための手順７００Ｂが図７に記載される。訓練方法７００Ｂは、図７の第２のフローチャートに示すように、動作１００１～１００６のうちの１つ以上を含み得る。顔検出ＤＮＮの訓練は、センサ外、例えば中央処理装置（ＣＰＵ）またはグラフィックス処理装置（ＧＰＵ）上で実行され得て、訓練された重みは、センサ上メモリにロードされる（動作１００６）。訓練方法７００Ｂは、訓練データを取得すること（動作１００１）（例えば、画像または画像フレームを収集する）と、ニューラルネットワークを使用して予測を実行すること（動作１００２）と、ネットワーク出力予測を期待される出力と比較すること（動作１００３）と、訓練が停止されるべきかどうかを判定すること（動作１００４）と、を含み得る。訓練を停止すると判定されない場合（動作１００４＝いいえ）、誤差逆伝播およびネットワーク重み更新が実行され得る。ＤＮＮ訓練は、逆伝播による損失関数の反復最小化を含む。訓練を停止すると判定された場合（動作１００４＝はい）、訓練されたニューラルネットワーク重みは、イメージセンサにエクスポートされ得る（動作１００６）。

本開示の実施形態によれば、電子装置は、キャプチャされた画像を訓練データとしてデータベースから収集し、単一オブジェクトクラス検出ニューラルネットワークを使用して予測を実行し、単一オブジェクトクラス検出ニューラルネットワーク（ＤＮＮ）からの予測出力を期待される出力と比較し、誤差逆伝播を実行し、比較に基づいてネットワーク重みを更新し、学習されたニューラルネットワーク重みを積層型イメージセンサ（または積層型イメージセンサを備えた電子装置）のセンサ上メモリにエクスポートするように構成されたプロセッサを備えてもよく、単一オブジェクトクラス検出ＤＮＮは、画像領域を入力として受信し、入力画像領域内のあらゆる顔の位置を示す境界ボックスのセットをオブジェクト検出データとして出力し、単一オブジェクトクラス検出ＤＮＮは、単一オブジェクトクラス検出ＤＮＮの各畳み込みブロックおよび各反転残差ブロックの出力サイズが、積層型イメージセンサ内の利用可能な作業メモリを超えないように構成されている。訓練されたニューラルネットワーク重みのエクスポートは、訓練されたニューラルネットワーク重みを、ネットワークを介して、ネットワーク通信インターフェースを介して、積層型イメージセンサを有する外部電子装置（例えば、カメラ、スマートフォン）に送信することを含み得る。単一オブジェクトクラスは、顔オブジェクトクラス、歩行者オブジェクトクラス、または他の適切なオブジェクトクラス、あるいは限られたオブジェクトクラスのセット（例えば、多オブジェクトクラス）を含み得る。

結び

本明細書に記載されるプロセス、システム、方法、ヒューリスティックなどに関して、そのようなプロセスなどの動作は、特定の順序付けされたシーケンスにしたがって発生するものとして記載されているが、そのようなプロセスは、本明細書に記載される順序以外の順序で実行される記載された動作によって実践されることができることを理解されたい。さらに、特定の動作が同時に実行されることができること、他の動作が追加されることができること、または本明細書に記載される特定の動作が省略されることができることを理解されたい。換言すれば、本明細書におけるプロセスの説明は、特定の実施形態を説明する目的で提供されており、特許請求の範囲を限定するものとして決して解釈されるべきではない。

したがって、上記の説明は、例示を目的としたものであり、限定的なものではないことを理解されたい。上記の説明を読めば、提供された例以外の多くの実施形態および応用が明らかになるであろう。範囲は、上記の説明を参照して決定されるべきではなく、代わりに、添付の特許請求の範囲と、そのような特許請求の範囲が権利を有する均等物の全範囲を参照して決定されるべきである。本明細書に記載される技術において将来の開発が起こり、開示されたシステムおよび方法がそのような将来の実施形態に組み込まれることが予想され、意図されている。要するに、本特許出願は、変更および変形が可能であることを理解されたい。

特許請求の範囲において使用される全ての用語は、本明細書で反対の明示がなされない限り、本明細書に記載された技術に精通した者によって理解される最も広範な合理的な解釈およびそれらの通常の意味が与えられることが意図されている。特に、「ａ」、「ｔｈｅ」、「ｓａｉｄ」などの単数冠詞の使用は、特許請求の範囲に反対の明示的な限定が記載されていない限り、示された要素のうちの１つ以上を記載するものと読まれるべきである。

要約書は、読者が本技術開示の性質をすぐに確認することを可能にするために提供されている。これは、特許請求の範囲の範囲または意味を解釈または限定するために使用されるものではないことが理解して提示される。さらに、前述の発明を実施するための形態では、本開示を合理化する目的で、様々な実施形態において様々な特徴がグループ化されていることがわかる。本開示のこの方法は、特許請求された実施形態が各請求項に明示的に記載されているよりも多くの特徴を必要とするという意図を反映していると解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、本発明の主題は、開示された単一の実施形態の全ての特徴にあるわけではない。したがって、以下の特許請求の範囲は、発明を実施するための形態に組み込まれ、各請求項は、個別に特許請求される主題として独立して成立する。

Claims

積層型イメージセンサであって、
画像をキャプチャし、前記キャプチャされた画像の画像データを転送するように構成されたピクセルアレイ層と、
ロジックおよび単一オブジェクトクラス検出深層ニューラルネットワーク（ＤＮＮ）層であって、単一オブジェクトクラス検出ＤＮＮを含む、ロジックおよび単一オブジェクトクラス検出ＤＮＮ層と、
を備え、
前記ロジックおよび単一オブジェクトクラス検出ＤＮＮ層が、
前記ピクセルアレイ層から前記画像データを直接受信し、
前記画像データの前処理を実行して前処理された画像データを生成し、
前記前処理された画像データの少なくとも一部を使用して、前記単一オブジェクトクラス検出ＤＮＮによる単一クラスオブジェクト検出を実行し、
前記単一オブジェクトクラス検出ＤＮＮによって出力された単一オブジェクトクラス検出データの後処理を実行し、
前記後処理された単一オブジェクトクラス検出データと組み合わせて前記画像データを電子装置の通信バスに出力する、
ように構成されている、積層型イメージセンサ。
前記単一オブジェクトクラスが顔オブジェクトである、請求項１に記載の積層型イメージセンサ。
前記ピクセルアレイ層が、前記ロジックおよび単一オブジェクトクラス検出ＤＮＮ層上に積層される、請求項１に記載の積層型イメージセンサ。
前記ロジックおよび単一オブジェクトクラスＤＮＮ層が、画像領域を入力として受信し、前記入力画像領域内の前記単一オブジェクトクラスのあらゆるインスタンスの位置を示す境界ボックスのセットを、前記単一オブジェクトクラス検出データとして出力する、請求項１に記載の積層型イメージセンサ。
前記ロジックおよび単一オブジェクトクラス検出ＤＮＮ層が、特徴抽出器モジュール、ボックス予測器モジュール、およびクラス予測器モジュールを実装するように構成され、それぞれが複数の畳み込みブロックおよび反転残差ブロックを含む、請求項１に記載の積層型イメージセンサ。
前記ロジックおよび単一オブジェクトクラス検出ＤＮＮ層が、前記単一オブジェクトクラス検出ＤＮＮの各畳み込みブロックおよび各反転残差ブロックについての出力サイズを１００ｋＢよりも大きくないように制御するようにさらに構成されている、請求項４に記載の積層型イメージセンサ。
前記単一オブジェクトクラス検出ＤＮＮによって出力された前記単一オブジェクトクラス検出データの前記後処理が、対数関数および指数関数の代わりに一次線形近似を使用することを含む、請求項１に記載の積層型イメージセンサ。
全ての畳み込みブロックおよび全ての反転残差ブロックにおける重みの合計メモリサイズが１００ｋＢ未満である、請求項５に記載の積層型イメージセンサ。
畳み込みブロックおよび／または反転残差ブロックのサブセットが、全ての空間座標について各畳み込み全体を計算するのではなく、多畳み込み層が所与の空間座標について一緒に計算される、多レベル畳み込みとして実装される、請求項５に記載の積層型イメージセンサ。
前記ロジックおよび単一オブジェクトクラス検出ＤＮＮ層が、検出された単一クラスオブジェクトの存在（または非存在）に基づいて、前記積層型イメージセンサの低解像度キャプチャモードと高解像度キャプチャモードとの間で切り替えるようにさらに構成され、前記単一オブジェクトクラス検出ＤＮＮが前記単一クラスオブジェクトの存在を判定するまで、前記積層型イメージセンサが、前記低解像度キャプチャモードで動作する、請求項１に記載の積層型イメージセンサ。
前記ロジックおよび単一オブジェクトクラス検出ＤＮＮ層が、
低解像度動き検出データをキャプチャし、
動きが検出されたかどうかを判定し、
検出された動きに基づいて、前記単一オブジェクトクラスの検出されたオブジェクトの存在（または非存在）に基づいて前記積層型イメージセンサの低解像度キャプチャモードと高解像度キャプチャモードとを切り替える、
ようにさらに構成されている、請求項１に記載の積層型イメージセンサ。
前記ロジックおよび単一オブジェクトクラス検出ＤＮＮ層が、受信照度の変化および前記単一オブジェクトクラスの検出されたオブジェクトの存在（または非存在）に基づいて、イメージセンサの低電力動き検出モード、低解像度キャプチャモード、および高解像度キャプチャモードの間で切り替えるようにさらに構成されている、請求項１に記載の積層型イメージセンサ。
前記取得された画像データの前記前処理が、前記画像データの解像度を低減することを含む、請求項１に記載の積層型イメージセンサ。
前記画像データの前記前処理が、グレースケールへの変換を含む、請求項１に記載の積層型イメージセンサ。
方法であって、
単一オブジェクトクラス深層ニューラルネットワーク（ＤＮＮ）を積層型イメージセンサのロジックおよび単一オブジェクトクラス検出ＤＮＮ層に記憶することと、
前記積層型イメージセンサのピクセルアレイ層によって画像をキャプチャすることと、
前記ピクセルアレイ層によって、前記キャプチャされた画像の画像データを前記積層型イメージセンサの前記ロジックおよび単一オブジェクトクラス検出深層ニューラルネットワーク（ＤＮＮ）層に転送することと、
前記ロジックおよび単一オブジェクトクラス検出ＤＮＮによって、前記画像データの前処理を実行し、前処理された画像データを生成することと、
前記ロジックおよび単一オブジェクトクラス検出ＤＮＮ層によって、前記前処理された画像データの少なくとも一部を入力として使用して単一オブジェクトクラス検出を実行することと、
前記ロジックおよび単一オブジェクトクラス検出ＤＮＮによって、前記単一オブジェクトクラス検出ＤＮＮによって出力された単一オブジェクトクラス検出データの後処理を実行することと、
前記ロジックおよび単一オブジェクトクラス検出ＤＮＮによって、前記後処理された単一オブジェクトクラス検出データと組み合わせて前記キャプチャされた画像を電子装置の通信バスに出力することと、
を含む、方法。
前記単一オブジェクトクラスが顔オブジェクトである、請求項１５に記載の方法。
前記単一オブジェクトクラス検出ＤＮＮが、画像領域を入力として受信し、前記入力画像領域内の前記単一オブジェクトクラスのあらゆるオブジェクトの位置を示す境界ボックスのセットを、前記単一オブジェクトクラス検出データとして出力する、請求項１５に記載の方法。
前記単一オブジェクトクラス検出ＤＮＮが、前記単一オブジェクトクラス検出ＤＮＮの各畳み込みブロックおよび各反転残差ブロックの出力サイズが、前記積層型イメージセンサ内の利用可能な作業メモリよりも大きくないように構成されている、請求項１５に記載の方法。
電子装置であって、
プロセッサと、
メモリと、
光学レンズと、
通信バスと、
積層型イメージセンサと、
を備え、
前記積層型イメージセンサが、
画像をキャプチャし、前記キャプチャされた画像の画像データを転送するように構成されたピクセルアレイ層と、
ロジックおよび単一オブジェクトクラス検出深層ニューラルネットワーク（ＤＮＮ）層であって、単一オブジェクトクラス検出ＤＮＮを含む、ロジックおよび単一オブジェクトクラス検出ＤＮＮ層と、
を備え、
前記ロジックおよび単一オブジェクトクラス検出ＤＮＮ層が、
前記ピクセルアレイ層から前記画像データを直接受信し、
前記画像データの前処理を実行し、前処理された画像データを生成し、
前記前処理された画像データの少なくとも一部を使用して、前記単一オブジェクトクラス検出ＤＮＮによる単一オブジェクトクラス検出を実行し、
前記単一オブジェクトクラス検出ＤＮＮによって出力された単一オブジェクトクラス検出データの後処理を実行し、
前記後処理された単一オブジェクトクラス検出データと組み合わせて前記画像データを前記通信バスに出力する、
ように構成されている、電子装置。
前記単一オブジェクトクラスが顔オブジェクトである、請求項１９に記載の電子装置。