JP2024520293A - 統合された単一オブジェクトクラス検出深層ニューラルネットワーク(dnn)を有するイメージセンサ - Google Patents
統合された単一オブジェクトクラス検出深層ニューラルネットワーク(dnn)を有するイメージセンサ Download PDFInfo
- Publication number
- JP2024520293A JP2024520293A JP2023568661A JP2023568661A JP2024520293A JP 2024520293 A JP2024520293 A JP 2024520293A JP 2023568661 A JP2023568661 A JP 2023568661A JP 2023568661 A JP2023568661 A JP 2023568661A JP 2024520293 A JP2024520293 A JP 2024520293A
- Authority
- JP
- Japan
- Prior art keywords
- object class
- single object
- dnn
- class detection
- image sensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 168
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000004891 communication Methods 0.000 claims abstract description 13
- 238000012546 transfer Methods 0.000 claims abstract description 6
- 230000015654 memory Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 17
- 238000012805 post-processing Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 13
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 12
- 230000003936 working memory Effects 0.000 claims description 6
- 230000003287 optical effect Effects 0.000 claims description 3
- 238000005286 illumination Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 30
- 230000008569 process Effects 0.000 description 16
- 238000012549 training Methods 0.000 description 13
- 238000003384 imaging method Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 5
- 238000001994 activation Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N25/00—Circuitry of solid-state image sensors [SSIS]; Control thereof
- H04N25/70—SSIS architectures; Circuits associated therewith
- H04N25/79—Arrangements of circuitry being divided between different or multiple substrates, chips or circuit boards, e.g. stacked image sensors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N25/00—Circuitry of solid-state image sensors [SSIS]; Control thereof
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
Abstract
顔検出DNNなどのセンサ上単一オブジェクトクラス検出深層ニューラルネットワーク(DNN)を使用して、センサ上単一オブジェクトクラス検出を実行するイメージセンサ、電子装置、およびその方法。単一オブジェクトクラス検出DNNは、画像をキャプチャし、キャプチャされた画像の画像データを転送するように構成されたピクセルアレイ層と、ピクセルアレイ層から画像データを直接受信し、単一オブジェクトクラス検出データとともに画像データを電子装置の通信バスに出力するロジックおよび単一オブジェクトクラス検出深層ニューラルネットワーク(DNN)層と、を含む。
Description
本特許出願は、一般に、イメージセンサに関する。より具体的には、本特許出願は、イメージセンサ(例えば、相補型金属酸化膜半導体(CMOS)イメージセンサ、積層型CMOSセンサ)に統合される、センサ上の単一オブジェクトクラス検出深層ニューラルネットワーク(DNN)を有するシステムおよび方法に関する。例えば、単一オブジェクトクラスは、顔であり得る(例えば、これにより、顔検出DNNを提供する)。
オブジェクト検出(例えば、顔検出)機能は、電子画像キャプチャ装置(例えば、イメージセンサ、カメラ、カメラ付きスマートフォン)によって一般に使用される。現在のオブジェクト/顔検出技術は、大量のメモリを必要とし、計算量が多い深層ニューラルネットワーク(DNN)を利用している。しかしながら、オブジェクト検出(例えば、顔検出)用の既存のDNNは、センサ上で実装するには大きすぎて(メモリ的に)、計算量が多すぎる。したがって、既存のDNNは、イメージセンサとは別個のプロセッサ上で実行される必要がある。
通常、オブジェクト検出は、カメラ/センサとは別の汎用プロセッサ上で実行される。オブジェクト検出は、通信バスによってカメラシステムに結合された別個のプロセッサ上で実行される。したがって、オブジェクト検出を実行するには、画像データがカメラからプロセッサに転送される必要がある。
さらに、オブジェクト検出は、低い精度を被る(例えば、Haar様特徴、方向勾配ヒストグラム(HoG)、スケール不変特徴変換(SIFT)特徴)、またはセンサ上の実装に多すぎるメモリを必要とする(例えば、マルチタスクカスケード畳み込みニューラル ネットワーク)既存のアルゴリズムを使用して実行される。
本開示の電子撮像装置(例えば、CMOSセンサ)は、低いメモリ使用量および低い計算複雑性を維持しながら、高精度で単一オブジェクトクラス(例えば、顔)検出をセンサ上で実装したものである。例えば、本開示のセンサは、特定の値(例えば、100kB)よりも小さいメモリフットプリントサイズを有する低電力センサである。
本開示の一態様では、画像をキャプチャし、キャプチャされた画像の画像データを転送するように構成されたピクセルアレイ層と、ロジックおよび単一オブジェクトクラス検出深層ニューラルネットワーク(DNN)層であって、単一オブジェクトクラス検出DNNを含むロジックおよび単一オブジェクトクラス検出DNN層と、を備える、積層型イメージセンサが提供される。ロジックおよび単一オブジェクトクラス検出DNN層は、ピクセルアレイ層から画像データを直接受信し、画像データの前処理を実行して前処理された画像データを生成し、前処理された画像データの少なくとも一部を使用して単一オブジェクトクラス検出DNNによる単一クラスオブジェクト検出を実行し、単一オブジェクトクラス検出DNNによって出力された単一オブジェクトクラス検出データの後処理を実行し、後処理された単一オブジェクトクラス検出データと組み合わせて画像データを電子装置の通信バスに出力するように構成され得る。
本開示の別の態様では、単一オブジェクトクラス深層ニューラルネットワーク(DNN)を積層型イメージセンサのロジックおよび単一オブジェクトクラス検出DNN層に記憶することと、積層型イメージセンサのピクセルアレイ層によって画像をキャプチャすることと、ピクセルアレイ層によって、キャプチャされた画像の画像データを積層型イメージセンサのロジックおよび単一オブジェクトクラス検出深層ニューラルネットワーク(DNN)層に転送することと、ロジックおよび単一オブジェクトクラス検出DNNによって、画像データの前処理を実行して前処理された画像データを生成することと、ロジックおよび単一オブジェクトクラス検出DNN層によって、前処理された画像データの少なくとも一部を入力として使用して単一オブジェクトクラス検出を実行することと、ロジックおよび単一オブジェクトクラス検出DNNによって、単一オブジェクトクラス検出DNNによって出力された単一オブジェクトクラス検出データの後処理を実行することと、ロジックおよび単一オブジェクトクラス検出DNNによって、後処理された単一オブジェクトクラス検出データと組み合わせてキャプチャされた画像を電子装置の通信バスに出力することと、を含む、方法が存在する。
本開示の一態様では、プロセッサと、メモリと、光学レンズと、通信バスと、積層型イメージセンサと、を備える電子装置が提供される。積層型イメージセンサは、画像をキャプチャし、キャプチャされた画像の画像データを転送するように構成されたピクセルアレイ層と、ロジックおよび単一オブジェクトクラス検出深層ニューラルネットワーク(DNN)層と、を備える。
ロジックおよび単一オブジェクトクラス検出DNN層は、単一オブジェクトクラス検出DNNを含む。
ロジックおよび単一オブジェクトクラス検出DNN層は、ピクセルアレイ層から画像データを直接受信し、画像データの前処理を実行して前処理された画像データを生成し、前処理された画像データの少なくとも一部を使用して単一オブジェクトクラス検出DNNによる単一オブジェクトクラス検出を実行し、単一オブジェクトクラス検出DNNによって出力された単一オブジェクトクラス検出データの後処理を実行し、後処理された単一オブジェクトクラス検出データと組み合わせて画像データを通信バスに出力するように構成されている。
このように、本開示の上記態様は、少なくとも撮像の技術分野、ならびにイメージセンサアーキテクチャ、画像処理、顔検出などの関連技術分野の改善を提供する。
本開示は、コンピュータ実装方法によって制御されるハードウェアまたは回路、コンピュータプログラム製品(例えば、一時的または非一時的コンピュータ可読媒体)、コンピュータシステムおよびネットワーク、ユーザインターフェース、およびアプリケーションプログラミングインターフェース、ならびにハードウェア実装方法、信号処理回路、イメージセンサ回路、特定用途向け集積回路、フィールドプログラマブルゲートアレイなどを含む、様々な形態で具体化されることができる。前述の概要は、本開示の様々な態様の一般的な概念を与えることのみを目的としており、本開示の範囲をいかなる形でも限定するものではない。
様々な実施形態のこれらのおよび他のより詳細な且つ特定の特徴は、添付の図面を参照しながら、以下の説明においてより完全に開示される。
以下の説明では、フローチャート、データテーブル、およびシステム構成など、多くの詳細が記載される。これらの特定の詳細は単なる例であり、本特許出願の範囲を限定するものではないことが当業者にとって容易に明らかであろう。
さらに、本開示は、主にDNNがイメージセンサにおいて使用される例に焦点を当てているが、これは実装の一例に過ぎないことが理解されるであろう。さらに、開示された装置、システム、および方法は、キャプチャされた画像の顔検出を実行する必要がある任意の装置、例えばスマートフォンまたはタブレットなどにおいて使用されることができることが理解されるであろう。さらにまた、以下に記載されるイメージセンサの実装は、スマートフォン、タブレットコンピュータ、ラップトップコンピュータなどを含むがこれらに限定されない電子装置に組み込まれてもよい。
撮像装置
図1は、本開示の様々な態様にかかる電子撮像装置100を示している。電子撮像装置10は、カメラ、スマートフォン、タブレットなどである。
図1に示すように、実施形態によれば、撮像装置100は、光学レンズ102と、ピクセルアレイユニット104と、顔検出DNNモジュール106と、記録ユニット108(例えば、メモリ)と、通信バス110とを備える。ピクセルアレイユニット104は、数百万(例えば、数千万まで)以上のピクセル回路(「メガピクセル」またはMP)を有するイメージセンサであり得る。顔検出DNNモジュールは、説明の目的で、単一オブジェクトクラスDNNモジュールの例示的な実施形態として使用される。
顔検出DNNモジュール106は、ハードウェアプロセッサまたはハードウェア回路によって実装され、メモリ(例えば、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、または同期DRAM(SDRAM))も含む。単一方向の矢印によって図1に示すように、レンズ102は、ピクセルアレイ104に転送される光を受光する。図1に示すように、ピクセルアレイ104、顔検出DNN106、および記録ユニット108は、全て、通信バス110を介して相互に通信する(情報を転送し、情報を受信する)。
顔検出DNN106は、サーバまたは外部プロセッサなどの別の電子装置(例えば、アプリケーションハードウェアプロセッサ)に情報を出力するように構成されている。顔検出DNN106はまた、プロセッサなどの他の電子装置から情報を受信するように構成され得る。
図2は、本開示の様々な態様にかかる、積層型イメージセンサ200の例を示す図である。図2に示すように、積層型イメージセンサ200は、受光ピクセル層202と、ロジックおよび顔検出DNN処理層204とを備える。
受光ピクセル層202は、画像をキャプチャし、キャプチャされた画像の画像データをロジックおよび顔検出DNN処理層204に出力するように構成されている。ロジックおよび顔検出DNN処理層204は、ロジック機能(例えば、以下の図7~図9を参照)および以下に記載される顔検出DNN処理などのDNN処理を実行するハードウェア(例えば、プロセッサ、グラフィックスプロセッサ、メモリ(例えば、DRAMまたはSDRAM)などのうちの1つ以上)を含む。
実施形態によれば、図2に示すように、積層型イメージセンサ202は、積層方向においてロジックおよび顔検出DNN処理層204の上に積層された(上に配置された)受光ピクセル層202を含む。図2に示すように、2つの層は、シリコン貫通ビア(TSV)などによって互いに電気的に接続される。
積層型イメージセンサは、ピクセル層202と、ロジックおよび顔検出DNN処理層204を1つのチップ(例えば、積層集積回路)上に提供する。例えば、センサは、特定の値(例えば、100kB)よりも小さいメモリフットプリントサイズを有する低電力センサである。顔検出DNNの削減されたサイズは、ロジックおよび顔検出DNN処理層204が小さい面積のフットプリントを有するハードウェアに実装されることを可能にし、それによって低電力イメージセンサ上での実装を可能にする。
「顔」DNNと呼ばれるが、DNNは、任意の単一クラスDNNであってもよく、顔オブジェクトの検出だけに限定されない。顔オブジェクト検出は、単一オブジェクトクラスの一例である。しかしながら、顔オブジェクトの代わりに、他の単一オブジェクトクラスが使用されることもできる。例えば、歩行者検出DNN、指紋検出、またはその他の適切な単一オブジェクトクラスDNNなど、異なる単一オブジェクトクラスDNNが実装されることもできる。様々な実施形態によれば、単一オブジェクトクラスDNNの代わりに、多クラスDNNがオブジェクト検出DNNに使用されてもよい。例えば、単一オブジェクトクラスの代わりに、2つのオブジェクトクラス(例えば、歩行者および車両)が使用されることもできる。別の例として、3つ以上のオブジェクトクラスがオブジェクト検出DNNに使用されることもできる。
図3は、本開示の様々な態様にかかる、DNN302~318のメモリフットプリントサイズを示す図である。図3に示すように、従来のDNN(例えば、高速領域ベース畳み込みニューラルネットワーク(RCNN)+ビジュアルジオメトリグループ(VGG)16(302)、You Only Look Once(YOLO)-v2(304)、領域ベース完全畳み込みネットワーク(R-FCN)+残差ニューラルネットワーク(ResNet)-101(306)、R-FCN+ResNet-50(308)、シングルショットディテクタ(SSD)+VGG16(310)、SSD+MobileNet-vi(312)、SSDLite+MobileNet-v2(314))は、特定の低電力イメージセンサ(例えば、積層型CMOSイメージセンサ)には大きすぎた。しかしながら、図3に示すように、本開示の様々な実施形態にかかる、センサ上の単一オブジェクトクラス検出DNN318は、従来の検出DNNモデル302~316よりも小さいメモリフットプリントを有する。
図3に示すように、顔検出のための本開示のDNNアーキテクチャ(例えば、図4のセンサ上の単一オブジェクトクラス検出DNN400)は、関連技術よりも小さいメモリフットプリントを有する。例えば、いくつかの実施形態によれば、DNNモデルは、100kB以下のメモリフットプリントを有する。図4~図9を参照して以下に説明するように、様々な実施形態にかかるイメージセンサ(例えば、積層型イメージセンサ200)は、例として、単一オブジェクトクラス検出DNNを低電力CMOSイメージセンサに効率的にハードウェア実装するためのアーキテクチャおよびアルゴリズム構造の組み合わせを有する。本開示は、単一オブジェクトクラス(例えば、顔クラス)検出およびニューラルネットワーク処理に特有のメモリおよび電力を削減するためのアーキテクチャおよびアルゴリズム構造の組み合わせ、および単一オブジェクトクラス(例えば、顔)検出出力がイメージセンサの動作を制御するためのトリガとして使用されることができる方法について記載する。
センサ上の単一オブジェクトクラス検出DNN
図4は、本開示の様々な態様にかかる、単一オブジェクトクラス(例えば、顔)検出DNN400の例を示す図である。顔検出DNN400が実施形態として示されているが、上述したように、他の単一オブジェクトクラスまたは多オブジェクトクラスが使用されてもよい。顔検出DNN400は、図3のセンサ上の単一オブジェクトクラス検出DNN318の一例である。顔認識またはオブジェクト認識(すなわち、同一性照合)とは対照的に、本開示の様々な実施形態にかかる顔検出DNN400は、単一オブジェクト(例えば、顔(任意の顔))が画像内に存在するかどうかを識別し、この単一のオブジェクトクラス検出(例えば、顔検出)情報をイメージセンサの動作を制御するためのトリガとして使用するという目標を有し得る(例えば、以下の図7~図9を参照)。顔検出DNN400の入力は、単一オブジェクトクラス(この例では、顔)を含む場合も含まない場合もある画像領域であり得る。顔検出DNN400の出力は、入力画像データ内の任意の顔の位置を示す境界ボックスのセットを含み得る。
図4に示すように、顔検出DNN400は、複数の畳み込みブロックおよび反転残差ブロックから構成され得る特徴抽出器モジュール404によって受信されて処理される入力画像402を含む。さらに、特徴抽出器404からの畳み込みブロック出力および/または残差ブロック出力のサブセットは、ボックス予測器モジュール406によって処理されて、潜在的な顔の境界ボックス(出力410A:境界ボックス)のサイズおよび位置を識別する。特徴抽出器404からの畳み込みブロック出力および/または残差ブロック出力の同じサブセットは、クラス予測器モジュール408によって処理されて、対応する境界ボックスが顔を含む確率(出力410B:クラス確率)を判定する。
この文脈において、畳み込みブロックとは、連続的に接続された1つ以上の畳み込み層のセットを指し、各畳み込み層の後には、正規化線形関数(ReLU)などの非線形活性化関数が続く。この文脈において、反転残差ブロックとは、1つ以上の畳み込み層、深さ方向の畳み込み層、およびReLU層のセットを指し、ブロックの出力は、ブロックの入力と合計される。
顔検出DNN400がメモリに制約のあるハードウェア上で実装可能であることを保証するために、各畳み込みブロックおよび各反転残差ブロックについての出力サイズは、ロジックおよび顔検出DNN処理層204のハードウェアにおいて利用可能な作業メモリよりも大きくない(例えば、100kB未満)。顔検出DNN400がメモリに制約のあるハードウェア上で実装可能であることを保証するために、全ての畳み込みブロックおよび全ての反転残差ブロックにおける重みの合計メモリサイズは、ハードウェアにおいて利用可能な重みメモリよりも大きくない(例えば、100kB未満)。
図4に記載された顔検出DNN400(顔検出アーキテクチャ)は、(1つ以上の変更を介して)DNNモデルのメモリサイズを削減するために変更された、MobileNet v2+SSDLiteに基づくアーキテクチャであり得る。訓練、前処理、および/または後処理中に発生する可能性がある1つ以上の変更は、(i)画像入力サイズの削減(例えば、160×120および/またはグレースケールへ)、(ii)顔検出DNNの各層における出力チャネルの数の削減、(iii)DNNの一部の層における畳み込みストライドの変更/調整、(iv)DNNのアンカーボックスの数の削減、および(v)1(例えば、顔)へのオブジェクトクラスの数の削減、のうちの1つ以上を含み得る。さらに、MobileNet v2+SSDLiteは、汎用のオブジェクト検出DNNであるが、この顔検出DNN300は、具体的には顔検出用に訓練される。オブジェクトクラスは、1であって「顔」であるが、例として、別の単一クラス(例えば、歩行者や別の身体部分)が使用されることもできる。
層ごとの畳み込み処理
図5は、本開示の様々な態様にかかる、層ごとの畳み込み処理500を示す図である。各層からの中間活性化を記憶するのに十分な作業メモリが利用可能な場合、ニューラルネットワーク処理は、層ごとに実行され得る。図5に示すように、層ごとの畳み込み処理500は、図5に示すように、全ての(行,列)位置における各「Conv+ReLU」層の結果を処理し、記憶することを含む。例えば、図5に示すように、層ごとの畳み込み処理500は、動作501~508のうちの1つ以上を含む。実施形態によれば、画像領域(例えば、出力(行,列)位置ごとに、入力バッファからの領域(例えば、より大きな入力バッファからの3ピクセル×3ピクセル(3×3)領域))が取得される(動作501)。同じサイズのフィルタ(例えば、3×3)が使用されて、要素乗算関数を実行する(動作502)。さらに、合計計算関数(動作503)およびReLU関数(動作504)も実行される。例えば、図5に示すように、ReLU関数504は、以下であり得る:
合計=(合計>0)?合計:0)[式1]
合計=(合計>0)?合計:0)[式1]
値は出力メモリに記憶される(動作505)。チェックが実行されて、層ごとの畳み込み処理が各出力(行,列,チャネル)位置を計算したかどうかを判定する(動作506)。各出力(行,列,チャネル)位置が計算されていない場合、ポインタがインクリメントされ(動作507)、動作501~506/507に再開させる(再度実行される)ループが使用される(動作508)。各出力(行,列,チャネル)位置が計算された場合、指定された層についての処理は完了し、後続の層についての処理が開始され得る。
多層畳み込み処理
あるいは、中間層の活性化のための作業メモリを削減するために、全ての空間座標についての各畳み込み全体を計算するのではなく、多畳み込み層が所与の空間座標について一緒に計算される、多レベル畳み込み手順が実行されてもよい。図6は、本開示の様々な態様にかかる、多層畳み込み処理手順600を示す図である。多レベル畳み込み手順600は、各中間畳み込み層の出力を記憶する必要性を回避し、それによって中間データのための作業メモリ要件を削減する。すなわち、多層畳み込み処理600は、(一度に1層ずつではなく)大きなブロックが処理されるというさらなる利点を提供し得る。
多層畳み込み処理600は、図6に示すように、各(行,列)位置について複数の「Conv+ReLU」層による処理を含む。例えば、図6に示すように、多層畳み込み処理は、動作601~608のうちの1つ以上を含む。実施形態によれば、画像領域(例えば、各出力(行,列)位置について、入力バッファからの領域(例えば、より大きな入力バッファからの3ピクセル×3ピクセル(3×3)領域))が取得される(動作601)。画像領域は、2つ以上の画像フレーム領域を含む。図6は、#1~#9領域(9領域)を示しているが、領域の数は、9以上であってもよく、9未満であってもよい。さらに、領域の数は、中間メモリの量によって制限されてもよい。
さらに、同じサイズの第1のフィルタ(例えば、3×3)が使用されて、要素乗算関数を実行する(動作602A)。合計計算関数も実行される(動作603A)。ReLU関数が実行される(動作604A)。例えば、図5に示すように、ReLU関数は、以下であり得る:
合計=(合計>0)?合計:0)[式1]
合計=(合計>0)?合計:0)[式1]
次に、第2の同じサイズのフィルタ(例えば、3×3)について、要素乗算関数(動作602B)が実行され、続いて合計計算関数(603B)およびReLU関数(604B)が実行される。
畳み込み出力値は、出力メモリに記憶される(動作605)。例えば、畳み込み出力値は、畳み込み出力の値(例えば、ReLUまたは他の非線形活性化後)を含んでもよく、これらはまた、活性化または特徴マップとも呼ばれることがあり、所与の層(または複数の所与の層)の出力メモリに記憶される。多層畳み込み処理が各空間座標を処理したかどうかを判定するためにチェックが実行される(動作606)。各空間座標が処理されていない場合、ポインタがインクリメントされ(動作607)、動作601~606/607を再開させる(再度実行される)ループが使用される(動作608)。
ニューラルネットワーク処理後、様々な実施形態によれば、DNN出力は後処理され得る。この場合、境界ボックスは、アンカーボックスに基づいて復号され、重複する境界ボックスは、非最大抑制によって削除される。これは、SSDについての後処理と類似し得るが、計算複雑性を削減するために、対数関数や指数関数の代わりに一次線形近似が使用され得る。
単一オブジェクトクラス検出処理
開示された顔検出DNN400の物理的センサの実装に加えて、図7~図9は、顔検出処理が画像処理パイプラインにどのように統合され得るかに関する様々な実施形態を示している。
図7は、本開示の様々な態様にかかる、イメージセンサの例示的なプロセス/方法700Aを示すフローチャートを含む。図7に示すように、イメージセンサは、フル解像度のフレーム画像をキャプチャし得て(動作2001)、各フルフレーム画像は、顔検出DNNによって処理されて、画像領域内のあらゆる顔の境界ボックスを判定する(動作2003)。次に、キャプチャされた画像および任意の検出された顔の境界ボックスがチップ外(センサ外)に送信され得る(動作2005)。動作2001と2003との間で、フレーム画像に対してサイズ変更および前処理(動作2002)が行われ、動作2003と2005との間で、DNN出力の後処理(動作2004)が行われ得る。
実施形態によれば、顔検出DNNは、イメージセンサ上のハードウェアにおいて顔検出を実行するように適合させるために、1つ以上の変更を加えたスリングショットマルチボックス検出器(SSD)(オブジェクト検出ニューラルネットワークアーキテクチャ)を使用し得る。訓練、前処理、および/または後処理中に発生する可能性のある1つ以上の変更は、(i)画像入力サイズの削減(例えば、160×120および/またはグレースケールへ)、(ii)顔検出DNNの各層における出力チャネルの数の削減、(iii)DNNの一部の層における畳み込みストライドの調整、(iv)DNNのアンカーボックスの数の削減、および(v)1(例えば、顔)へのオブジェクトクラスの数の削減、のうちの1つ以上を含み得る。
ニューラルネットワーク処理の前に、入力データは、前処理される必要がある。この場合、-1対1へのデータ正規化とDNN入力サイズ(例えば、160×120)へのデータのサイズ変更をともなう標準の前処理が実行される。これは、任意の標準的な画像信号処理(ISP)処理(例えば、デモザイク、ノイズ除去など)に加えて行われる。
ニューラルネットワーク処理後、DNN出力は、後処理される必要がある。この場合、境界ボックスは、アンカーボックスに基づいて復号され、重複する境界ボックスは、非最大抑制によって削除される。これは、SSDについての後処理と類似するが、計算複雑性を削減するために、対数関数や指数関数の代わりに一次線形近似が使用される。
単一オブジェクトクラス検出DNNによる低解像度モード
図8は、本開示の様々な態様にかかる、イメージセンサの低解像度画像データモード方法800を示すフローチャートである。図8に示すように、低解像度モード方法800は、顔検出DNNが人間の顔の存在を判定するまで、イメージセンサを低解像度画像データ(低電力)モードで動作させることを含む。低解像度画像データモード方法800は、低解像度画像データをキャプチャすること(動作3001)と、DNN用にサイズ変更して前処理を適用すること(動作3002)と、ニューラルネットワークによって顔検出を実行すること(動作3003)と、DNN出力の後処理を実行すること(動作3004)と、顔が検出されたかどうかを判定すること(動作3005)と、を含む。顔が検出されなかった場合(動作3005=いいえ)、低解像度モード方法800は、ループし得る(すなわち、動作2001~2005を再度実行する)。顔が検出された場合(動作3005=はい)、方法800は、センサをフル解像度モードに切り替え、顔検出DNNがいかなる人間の顔も存在しないと判定するまで(動作3005)、フル解像度画像をキャプチャし続ける(動作3006)。いかなる人間の顔も存在しないことを検出した後、イメージセンサは、低解像度モードに戻る。方法800は、画像データおよび顔検出データをセンサ外電子装置(例えば、CPUまたはGPU)に出力すること(動作3007)をさらに含む。
単一オブジェクトクラス検出DNNによる超低電力モード
図9は、本開示の様々な態様にかかる、イメージセンサの超低電力モード方法900を示すフローチャートである。ここでも、単一オブジェクトクラスの例として顔オブジェクトが使用されているが、他の単一オブジェクトクラス(または複数オブジェクトの限定されたセット)も使用されることができる。図9に示すように、超低電力モード方法900では、イメージセンサは、受信照度の変化が図8の低解像度モード方法800へのウェイクアップをトリガするまで、「動き検出」検知モードで動作する。超低電力モード方法900では、低解像度画像または高解像度画像のいずれからも顔検出DNNによって顔が検出されない場合、センサは、超低電力動き検出モードにループ/スイッチバックし得る。超低電力モード方法4001は、動作4001~4009のうちの1つ以上を含む。例えば、超低電力モード方法4001は、低解像度動き検出データをキャプチャすること(動作4001)と、動きが検出されたかどうかを判定すること(動作4002)とを含む。動きが検出されなかった場合(動作4002=いいえ)、動きが検出されるまで動作4001および4002が連続的に繰り返され得る(ループ)。動きが検出された場合(動作4002=はい)、動作4003~4009が実行され得る。動作4003~4009は、動作3001~3007に対応し、同じまたは類似の機能を有し得る。
単一オブジェクトクラス検出DNNの訓練
実施形態にかかる顔検出DNN(例えば、顔検出DNN400)を訓練するための手順700Bが図7に記載される。訓練方法700Bは、図7の第2のフローチャートに示すように、動作1001~1006のうちの1つ以上を含み得る。顔検出DNNの訓練は、センサ外、例えば中央処理装置(CPU)またはグラフィックス処理装置(GPU)上で実行され得て、訓練された重みは、センサ上メモリにロードされる(動作1006)。訓練方法700Bは、訓練データを取得すること(動作1001)(例えば、画像または画像フレームを収集する)と、ニューラルネットワークを使用して予測を実行すること(動作1002)と、ネットワーク出力予測を期待される出力と比較すること(動作1003)と、訓練が停止されるべきかどうかを判定すること(動作1004)と、を含み得る。訓練を停止すると判定されない場合(動作1004=いいえ)、誤差逆伝播およびネットワーク重み更新が実行され得る。DNN訓練は、逆伝播による損失関数の反復最小化を含む。訓練を停止すると判定された場合(動作1004=はい)、訓練されたニューラルネットワーク重みは、イメージセンサにエクスポートされ得る(動作1006)。
本開示の実施形態によれば、電子装置は、キャプチャされた画像を訓練データとしてデータベースから収集し、単一オブジェクトクラス検出ニューラルネットワークを使用して予測を実行し、単一オブジェクトクラス検出ニューラルネットワーク(DNN)からの予測出力を期待される出力と比較し、誤差逆伝播を実行し、比較に基づいてネットワーク重みを更新し、学習されたニューラルネットワーク重みを積層型イメージセンサ(または積層型イメージセンサを備えた電子装置)のセンサ上メモリにエクスポートするように構成されたプロセッサを備えてもよく、単一オブジェクトクラス検出DNNは、画像領域を入力として受信し、入力画像領域内のあらゆる顔の位置を示す境界ボックスのセットをオブジェクト検出データとして出力し、単一オブジェクトクラス検出DNNは、単一オブジェクトクラス検出DNNの各畳み込みブロックおよび各反転残差ブロックの出力サイズが、積層型イメージセンサ内の利用可能な作業メモリを超えないように構成されている。訓練されたニューラルネットワーク重みのエクスポートは、訓練されたニューラルネットワーク重みを、ネットワークを介して、ネットワーク通信インターフェースを介して、積層型イメージセンサを有する外部電子装置(例えば、カメラ、スマートフォン)に送信することを含み得る。単一オブジェクトクラスは、顔オブジェクトクラス、歩行者オブジェクトクラス、または他の適切なオブジェクトクラス、あるいは限られたオブジェクトクラスのセット(例えば、多オブジェクトクラス)を含み得る。
結び
本明細書に記載されるプロセス、システム、方法、ヒューリスティックなどに関して、そのようなプロセスなどの動作は、特定の順序付けされたシーケンスにしたがって発生するものとして記載されているが、そのようなプロセスは、本明細書に記載される順序以外の順序で実行される記載された動作によって実践されることができることを理解されたい。さらに、特定の動作が同時に実行されることができること、他の動作が追加されることができること、または本明細書に記載される特定の動作が省略されることができることを理解されたい。換言すれば、本明細書におけるプロセスの説明は、特定の実施形態を説明する目的で提供されており、特許請求の範囲を限定するものとして決して解釈されるべきではない。
したがって、上記の説明は、例示を目的としたものであり、限定的なものではないことを理解されたい。上記の説明を読めば、提供された例以外の多くの実施形態および応用が明らかになるであろう。範囲は、上記の説明を参照して決定されるべきではなく、代わりに、添付の特許請求の範囲と、そのような特許請求の範囲が権利を有する均等物の全範囲を参照して決定されるべきである。本明細書に記載される技術において将来の開発が起こり、開示されたシステムおよび方法がそのような将来の実施形態に組み込まれることが予想され、意図されている。要するに、本特許出願は、変更および変形が可能であることを理解されたい。
特許請求の範囲において使用される全ての用語は、本明細書で反対の明示がなされない限り、本明細書に記載された技術に精通した者によって理解される最も広範な合理的な解釈およびそれらの通常の意味が与えられることが意図されている。特に、「a」、「the」、「said」などの単数冠詞の使用は、特許請求の範囲に反対の明示的な限定が記載されていない限り、示された要素のうちの1つ以上を記載するものと読まれるべきである。
要約書は、読者が本技術開示の性質をすぐに確認することを可能にするために提供されている。これは、特許請求の範囲の範囲または意味を解釈または限定するために使用されるものではないことが理解して提示される。さらに、前述の発明を実施するための形態では、本開示を合理化する目的で、様々な実施形態において様々な特徴がグループ化されていることがわかる。本開示のこの方法は、特許請求された実施形態が各請求項に明示的に記載されているよりも多くの特徴を必要とするという意図を反映していると解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、本発明の主題は、開示された単一の実施形態の全ての特徴にあるわけではない。したがって、以下の特許請求の範囲は、発明を実施するための形態に組み込まれ、各請求項は、個別に特許請求される主題として独立して成立する。
Claims (20)
- 積層型イメージセンサであって、
画像をキャプチャし、前記キャプチャされた画像の画像データを転送するように構成されたピクセルアレイ層と、
ロジックおよび単一オブジェクトクラス検出深層ニューラルネットワーク(DNN)層であって、単一オブジェクトクラス検出DNNを含む、ロジックおよび単一オブジェクトクラス検出DNN層と、
を備え、
前記ロジックおよび単一オブジェクトクラス検出DNN層が、
前記ピクセルアレイ層から前記画像データを直接受信し、
前記画像データの前処理を実行して前処理された画像データを生成し、
前記前処理された画像データの少なくとも一部を使用して、前記単一オブジェクトクラス検出DNNによる単一クラスオブジェクト検出を実行し、
前記単一オブジェクトクラス検出DNNによって出力された単一オブジェクトクラス検出データの後処理を実行し、
前記後処理された単一オブジェクトクラス検出データと組み合わせて前記画像データを電子装置の通信バスに出力する、
ように構成されている、積層型イメージセンサ。 - 前記単一オブジェクトクラスが顔オブジェクトである、請求項1に記載の積層型イメージセンサ。
- 前記ピクセルアレイ層が、前記ロジックおよび単一オブジェクトクラス検出DNN層上に積層される、請求項1に記載の積層型イメージセンサ。
- 前記ロジックおよび単一オブジェクトクラスDNN層が、画像領域を入力として受信し、前記入力画像領域内の前記単一オブジェクトクラスのあらゆるインスタンスの位置を示す境界ボックスのセットを、前記単一オブジェクトクラス検出データとして出力する、請求項1に記載の積層型イメージセンサ。
- 前記ロジックおよび単一オブジェクトクラス検出DNN層が、特徴抽出器モジュール、ボックス予測器モジュール、およびクラス予測器モジュールを実装するように構成され、それぞれが複数の畳み込みブロックおよび反転残差ブロックを含む、請求項1に記載の積層型イメージセンサ。
- 前記ロジックおよび単一オブジェクトクラス検出DNN層が、前記単一オブジェクトクラス検出DNNの各畳み込みブロックおよび各反転残差ブロックについての出力サイズを100kBよりも大きくないように制御するようにさらに構成されている、請求項4に記載の積層型イメージセンサ。
- 前記単一オブジェクトクラス検出DNNによって出力された前記単一オブジェクトクラス検出データの前記後処理が、対数関数および指数関数の代わりに一次線形近似を使用することを含む、請求項1に記載の積層型イメージセンサ。
- 全ての畳み込みブロックおよび全ての反転残差ブロックにおける重みの合計メモリサイズが100kB未満である、請求項5に記載の積層型イメージセンサ。
- 畳み込みブロックおよび/または反転残差ブロックのサブセットが、全ての空間座標について各畳み込み全体を計算するのではなく、多畳み込み層が所与の空間座標について一緒に計算される、多レベル畳み込みとして実装される、請求項5に記載の積層型イメージセンサ。
- 前記ロジックおよび単一オブジェクトクラス検出DNN層が、検出された単一クラスオブジェクトの存在(または非存在)に基づいて、前記積層型イメージセンサの低解像度キャプチャモードと高解像度キャプチャモードとの間で切り替えるようにさらに構成され、前記単一オブジェクトクラス検出DNNが前記単一クラスオブジェクトの存在を判定するまで、前記積層型イメージセンサが、前記低解像度キャプチャモードで動作する、請求項1に記載の積層型イメージセンサ。
- 前記ロジックおよび単一オブジェクトクラス検出DNN層が、
低解像度動き検出データをキャプチャし、
動きが検出されたかどうかを判定し、
検出された動きに基づいて、前記単一オブジェクトクラスの検出されたオブジェクトの存在(または非存在)に基づいて前記積層型イメージセンサの低解像度キャプチャモードと高解像度キャプチャモードとを切り替える、
ようにさらに構成されている、請求項1に記載の積層型イメージセンサ。 - 前記ロジックおよび単一オブジェクトクラス検出DNN層が、受信照度の変化および前記単一オブジェクトクラスの検出されたオブジェクトの存在(または非存在)に基づいて、イメージセンサの低電力動き検出モード、低解像度キャプチャモード、および高解像度キャプチャモードの間で切り替えるようにさらに構成されている、請求項1に記載の積層型イメージセンサ。
- 前記取得された画像データの前記前処理が、前記画像データの解像度を低減することを含む、請求項1に記載の積層型イメージセンサ。
- 前記画像データの前記前処理が、グレースケールへの変換を含む、請求項1に記載の積層型イメージセンサ。
- 方法であって、
単一オブジェクトクラス深層ニューラルネットワーク(DNN)を積層型イメージセンサのロジックおよび単一オブジェクトクラス検出DNN層に記憶することと、
前記積層型イメージセンサのピクセルアレイ層によって画像をキャプチャすることと、
前記ピクセルアレイ層によって、前記キャプチャされた画像の画像データを前記積層型イメージセンサの前記ロジックおよび単一オブジェクトクラス検出深層ニューラルネットワーク(DNN)層に転送することと、
前記ロジックおよび単一オブジェクトクラス検出DNNによって、前記画像データの前処理を実行し、前処理された画像データを生成することと、
前記ロジックおよび単一オブジェクトクラス検出DNN層によって、前記前処理された画像データの少なくとも一部を入力として使用して単一オブジェクトクラス検出を実行することと、
前記ロジックおよび単一オブジェクトクラス検出DNNによって、前記単一オブジェクトクラス検出DNNによって出力された単一オブジェクトクラス検出データの後処理を実行することと、
前記ロジックおよび単一オブジェクトクラス検出DNNによって、前記後処理された単一オブジェクトクラス検出データと組み合わせて前記キャプチャされた画像を電子装置の通信バスに出力することと、
を含む、方法。 - 前記単一オブジェクトクラスが顔オブジェクトである、請求項15に記載の方法。
- 前記単一オブジェクトクラス検出DNNが、画像領域を入力として受信し、前記入力画像領域内の前記単一オブジェクトクラスのあらゆるオブジェクトの位置を示す境界ボックスのセットを、前記単一オブジェクトクラス検出データとして出力する、請求項15に記載の方法。
- 前記単一オブジェクトクラス検出DNNが、前記単一オブジェクトクラス検出DNNの各畳み込みブロックおよび各反転残差ブロックの出力サイズが、前記積層型イメージセンサ内の利用可能な作業メモリよりも大きくないように構成されている、請求項15に記載の方法。
- 電子装置であって、
プロセッサと、
メモリと、
光学レンズと、
通信バスと、
積層型イメージセンサと、
を備え、
前記積層型イメージセンサが、
画像をキャプチャし、前記キャプチャされた画像の画像データを転送するように構成されたピクセルアレイ層と、
ロジックおよび単一オブジェクトクラス検出深層ニューラルネットワーク(DNN)層であって、単一オブジェクトクラス検出DNNを含む、ロジックおよび単一オブジェクトクラス検出DNN層と、
を備え、
前記ロジックおよび単一オブジェクトクラス検出DNN層が、
前記ピクセルアレイ層から前記画像データを直接受信し、
前記画像データの前処理を実行し、前処理された画像データを生成し、
前記前処理された画像データの少なくとも一部を使用して、前記単一オブジェクトクラス検出DNNによる単一オブジェクトクラス検出を実行し、
前記単一オブジェクトクラス検出DNNによって出力された単一オブジェクトクラス検出データの後処理を実行し、
前記後処理された単一オブジェクトクラス検出データと組み合わせて前記画像データを前記通信バスに出力する、
ように構成されている、電子装置。 - 前記単一オブジェクトクラスが顔オブジェクトである、請求項19に記載の電子装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/335,794 | 2021-06-01 | ||
US17/335,794 US11706546B2 (en) | 2021-06-01 | 2021-06-01 | Image sensor with integrated single object class detection deep neural network (DNN) |
PCT/US2022/020344 WO2022256065A1 (en) | 2021-06-01 | 2022-03-15 | Image sensor with integrated single object class detection deep neural network (dnn) |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024520293A true JP2024520293A (ja) | 2024-05-24 |
Family
ID=84194072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023568661A Pending JP2024520293A (ja) | 2021-06-01 | 2022-03-15 | 統合された単一オブジェクトクラス検出深層ニューラルネットワーク(dnn)を有するイメージセンサ |
Country Status (5)
Country | Link |
---|---|
US (1) | US11706546B2 (ja) |
EP (1) | EP4348513A1 (ja) |
JP (1) | JP2024520293A (ja) |
CN (1) | CN117396894A (ja) |
WO (1) | WO2022256065A1 (ja) |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100455294B1 (ko) * | 2002-12-06 | 2004-11-06 | 삼성전자주식회사 | 감시 시스템에서의 사용자 검출 방법, 움직임 검출 방법및 사용자 검출 장치 |
US9881234B2 (en) * | 2015-11-25 | 2018-01-30 | Baidu Usa Llc. | Systems and methods for end-to-end object detection |
TWI797699B (zh) * | 2015-12-22 | 2023-04-01 | 以色列商應用材料以色列公司 | 半導體試樣的基於深度學習之檢查的方法及其系統 |
WO2017168665A1 (ja) * | 2016-03-30 | 2017-10-05 | 株式会社ニコン | 特徴抽出素子、特徴抽出システム、および判定装置 |
US10757377B2 (en) * | 2016-06-01 | 2020-08-25 | Pixart Imaging Inc. | Surveillance system and operation method thereof |
US10627887B2 (en) * | 2016-07-01 | 2020-04-21 | Microsoft Technology Licensing, Llc | Face detection circuit |
US10083347B2 (en) * | 2016-07-29 | 2018-09-25 | NTech lab LLC | Face identification using artificial neural network |
CN109691079B (zh) * | 2016-09-16 | 2021-05-14 | 索尼半导体解决方案公司 | 成像装置和电子设备 |
WO2018052714A2 (en) * | 2016-09-19 | 2018-03-22 | Nec Laboratories America, Inc. | Video to radar |
CN107871101A (zh) * | 2016-09-23 | 2018-04-03 | 北京眼神科技有限公司 | 一种人脸检测方法及装置 |
US10963676B2 (en) * | 2016-12-23 | 2021-03-30 | Samsung Electronics Co., Ltd. | Image processing method and apparatus |
CN108230292B (zh) * | 2017-04-11 | 2021-04-02 | 北京市商汤科技开发有限公司 | 物体检测方法和神经网络的训练方法、装置及电子设备 |
US10902252B2 (en) * | 2017-07-17 | 2021-01-26 | Open Text Corporation | Systems and methods for image based content capture and extraction utilizing deep learning neural network and bounding box detection training techniques |
US10726627B2 (en) | 2017-07-25 | 2020-07-28 | Facebook Technologies, Llc | Sensor system based on stacked sensor layers |
US10832406B2 (en) * | 2017-11-15 | 2020-11-10 | President And Fellows Of Harvard College | Quantitative pathology analysis and diagnosis using neural networks |
US10935676B2 (en) | 2018-02-05 | 2021-03-02 | Rhombus Holdings Llc | Physical structure for a tunable sensor system for particle detection |
US11301728B2 (en) * | 2018-06-18 | 2022-04-12 | Apical Ltd. | Image processing using a neural network system |
WO2020027161A1 (ja) * | 2018-07-31 | 2020-02-06 | ソニーセミコンダクタソリューションズ株式会社 | 積層型受光センサ及び電子機器 |
EP3833007B1 (en) * | 2018-07-31 | 2024-03-13 | Sony Semiconductor Solutions Corporation | Layered-type light-receiving sensor and electronic device |
JP6725733B2 (ja) | 2018-07-31 | 2020-07-22 | ソニーセミコンダクタソリューションズ株式会社 | 固体撮像装置および電子機器 |
JP7402606B2 (ja) * | 2018-10-31 | 2023-12-21 | ソニーセミコンダクタソリューションズ株式会社 | 固体撮像装置及び電子機器 |
US11016495B2 (en) * | 2018-11-05 | 2021-05-25 | GM Global Technology Operations LLC | Method and system for end-to-end learning of control commands for autonomous vehicle |
US10963745B2 (en) * | 2018-11-21 | 2021-03-30 | Intel Corporation | Real time adaptive training face detection for ultra low power always on architecture |
US11888002B2 (en) * | 2018-12-17 | 2024-01-30 | Meta Platforms Technologies, Llc | Dynamically programmable image sensor |
US11144749B1 (en) * | 2019-01-09 | 2021-10-12 | Idemia Identity & Security USA LLC | Classifying camera images to generate alerts |
US11037968B2 (en) * | 2019-04-05 | 2021-06-15 | Waymo Llc | Image sensor architecture |
CN112052703A (zh) * | 2019-06-05 | 2020-12-08 | 上海柏柯智能科技有限公司 | 一种基于深度神经网络的人脸识别方法和系统 |
US20210044742A1 (en) | 2019-08-05 | 2021-02-11 | Facebook Technologies, Llc | Dynamically programmable image sensor |
KR20210041328A (ko) * | 2019-10-07 | 2021-04-15 | 엘지전자 주식회사 | 인공지능 기반 얼굴 인식 장치 및 방법 |
US20210185266A1 (en) * | 2019-12-13 | 2021-06-17 | Sony Semiconductor Solutions Corporation | Methods and systems of low power facial recognition |
US11394905B2 (en) * | 2019-12-13 | 2022-07-19 | Sony Semiconductor Solutions Corporation | Dynamic region of interest and frame rate for event based sensor and imaging camera |
US20210185265A1 (en) * | 2019-12-13 | 2021-06-17 | Sony Semiconductor Solutions Corporation | Methods of sensor mode switching in event based sensor and imaging camera for low power application |
CN115299039A (zh) * | 2020-05-07 | 2022-11-04 | 元平台技术有限公司 | 智能传感器 |
US11967166B2 (en) * | 2020-11-23 | 2024-04-23 | Tianye Wang | Method and system for automated identification and classification of marine life |
US11989888B2 (en) * | 2021-08-04 | 2024-05-21 | Sony Semiconductor Solutions Corporation | Image sensor with integrated efficient multiresolution hierarchical deep neural network (DNN) |
US11954988B2 (en) * | 2021-09-03 | 2024-04-09 | Vivek Satya Bharati | Image processing system for wildlife detection and method thereof |
-
2021
- 2021-06-01 US US17/335,794 patent/US11706546B2/en active Active
-
2022
- 2022-03-15 CN CN202280037925.6A patent/CN117396894A/zh active Pending
- 2022-03-15 EP EP22816597.3A patent/EP4348513A1/en active Pending
- 2022-03-15 WO PCT/US2022/020344 patent/WO2022256065A1/en active Application Filing
- 2022-03-15 JP JP2023568661A patent/JP2024520293A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220383020A1 (en) | 2022-12-01 |
CN117396894A (zh) | 2024-01-12 |
EP4348513A1 (en) | 2024-04-10 |
US11706546B2 (en) | 2023-07-18 |
WO2022256065A1 (en) | 2022-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110033003B (zh) | 图像分割方法和图像处理装置 | |
US11042775B1 (en) | Apparatus and methods for temporal proximity detection | |
US11074474B2 (en) | Apparatus for performing neural network operation and method of operating the same | |
CN112308200B (zh) | 神经网络的搜索方法及装置 | |
CN112236779A (zh) | 基于卷积神经网络的图像处理方法和图像处理装置 | |
US11461992B2 (en) | Region of interest selection for object detection | |
CN111914997B (zh) | 训练神经网络的方法、图像处理方法及装置 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN112800468B (zh) | 一种基于隐私保护的数据处理方法、装置及设备 | |
US20220101539A1 (en) | Sparse optical flow estimation | |
CN113869282B (zh) | 人脸识别方法、超分模型训练方法及相关设备 | |
US11989888B2 (en) | Image sensor with integrated efficient multiresolution hierarchical deep neural network (DNN) | |
US20230401838A1 (en) | Image processing method and related apparatus | |
US20220092394A1 (en) | Method and apparatus with neural network operation | |
CN103841340A (zh) | 图像传感器及其运作方法 | |
CN114298289A (zh) | 一种数据处理的方法、数据处理设备及存储介质 | |
US11706546B2 (en) | Image sensor with integrated single object class detection deep neural network (DNN) | |
Mishra et al. | Real-time image resizing hardware accelerator for object detection algorithms | |
US9036873B2 (en) | Apparatus, method, and program for detecting object from image | |
Abernot et al. | Sift-ONN: sift feature detection algorithm employing ONNs for edge detection | |
CN111241986A (zh) | 一种基于端到端关系网络的视觉slam闭环检测方法 | |
Fernández-Berni et al. | Smart imaging for power-efficient extraction of Viola-Jones local descriptors | |
WO2024102527A1 (en) | Adaptive mixed-resolution processing using a vision transformer | |
KR20220132375A (ko) | 차량 영상의 화소를 분류하는 행렬 곱셈 가속기에 최적화된 임베디드 의미 분할 네트워크 장치 | |
CN117975029A (zh) | 图像处理方法、模型训练方法及相关产品 |