JP7377806B2

JP7377806B2 - 意味処理および動的シーンモデリングに基づく向上された画像形成のための方法

Info

Publication number: JP7377806B2
Application number: JP2020544504A
Authority: JP
Inventors: マイケル，アール．ピアセンティーノ，; ジョン，アール．タワー，; マイケル，エー．イスナルディ，; セク，エム．チャイ，
Original assignee: SRI International Inc
Current assignee: SRI International Inc
Priority date: 2018-04-04
Filing date: 2018-10-01
Publication date: 2023-11-10
Anticipated expiration: 2038-10-01
Also published as: JP2021517682A; US20210160422A1; DE112018007431T5; US11394879B2; WO2019194863A1

Description

相互参照
本出願は、２０１８年４月４日に出願された「Ｍｅｔｈｏｄｓｆｏｒｅｎｈａｎｃｅｄｉｍａｇｉｎｇｂａｓｅｄｏｎｓｅｍａｎｔｉｃｐｒｏｃｅｓｓｉｎｇａｎｄｄｙｎａｍｉｃｓｃｅｎｅｍｏｄｅｌｉｎｇ」と題する米国仮特許出願第６２／６５２，８９１号に対して米国特許法第１１９条の優先権を主張する。同出願はその全体が本明細書において参照により組み込まれる。

本開示の諸実施形態は概して画像センシングに関する。より詳細には、一実施形態は、人工知能（ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）を利用する１または複数のモジュールを用いた画像センシングに関する。

今日、局所画像領域内において必要とされる解像度、ダイナミックレンジ、およびフレームレートに達するために、ＣＯＴＳカメラは、通例、高性能パラメータをフレーム全体にわたって適用し、非常に高い、管理の難しいデータ転送速度（ｄａｔａｒａｔｅｓ）、およびより高いＳＷａＰソリューションを生じさせる。

本明細書においては、画像形成のための様々な方法、装置、およびシステムが提供され得る。一実施形態では、モジュールおよび制御ユニットは協働し、ピクセルアレイ内のピクセルによって画像フレーム内で取り込まれる画像全体にわたってピクセルパラメータを同時に独立して制御し、領域増分で不均一に調整する。ｉ）少なくとも、以前の画像フレームにおいて何が文脈的に起きていたのかの文脈理解、シーンの文脈理解、および予想されるシーンの文脈理解のうちのいずれか、ならびにｉｉ）顕著な要素がその領域内に配置されているかどうかに基づいて、所与の領域内のピクセルのためのピクセルパラメータ変更が行われる。加えて、ｉ）顕著な要素を有するそれらの領域内のピクセルパラメータを増大させ、そして、１）１または複数の画像センサ、または２）センサ制御ユニットと画像処理ユニットとの間の通信ループによって課される、ｉ）帯域幅制限、ｉｉ）メモリストレージ、および／またはｉｉｉ）電力消費制限のいずれか内に収まるよう、顕著な要素を有しない領域内のピクセルパラメータをｉ）維持するか、またはｉｉ）減少させるためのガイダンスがセンサ制御ユニットへ送信される。センサ制御ユニットは、その結果に対応するよう領域内のパラメータを調整することができる。

意味処理および動的シーンモデリングに基づく向上された画像形成のためのスマートビジョンアーキテクチャの一実施形態のブロック図を示す。

４人の家族がテーブルを囲んで座っており、空中ドローンが母親の左肩の上方でホバリングしているシーンを取り込んだ画像フレームの一実施形態のブロック図を示す。

図２の画像フレーム内に取り込まれた関心領域に分割されたシーンの一実施形態のブロック図を示す。

例示的な画像センサであって、そのピクセルアレイ、刻時回路、および他の制御回路機構を有する画像センサの一実施形態のブロック図を示す。

道路上を走る自動車のシーンを取り込んだ画像フレームの一実施形態のブロック図を示す。

図６の画像フレーム内に取り込まれた関心領域に分割されたシーンの一実施形態のブロック図を示す。

意味処理および動的シーンモデリングに基づいて画像形成を向上することの一実施形態のフロー図を示す。意味処理および動的シーンモデリングに基づいて画像形成を向上することの一実施形態のフロー図を示す。

本明細書において説明される設計の一実施形態に係るネットワーク環境内で互いに通信する多数の電子システムおよびデバイスを示す図である。

本明細書において説明される設計の一実施形態に係る、全体的または部分的に、サーバまたはクライアントコンピューティングデバイスのうちの１または複数の一部であることができるコンピューティングシステム１０００を示す図である。

シーン、画像、および予測されるシーンの意味理解を生成するシステムの一実施形態の図を示す。

本設計は様々な変更、等価物、および代替形態の対象となるが、その特定の諸実施形態が図面において例として示され、これより詳細に説明される。本設計は、開示される特定の諸実施形態に限定されず、－対照的に－意図は、特定の諸実施形態を用いて全ての変更、等価物、および代替形態を包括することであることを理解されたい。

以下の説明においては、本設計の完全な理解を与えるために、特定のデータ信号、名前付きの構成要素、フレームの数等の例などの、数多くの具体的詳細が説明され得る。しかし、当業者には、本設計は、これらの具体的詳細を有せず実施され得ることが明らかであろう。他の場合には、よく知られた構成要素または方法は、本設計を不必要に不明瞭にすることを回避するために、詳細には説明されず、むしろ、ブロック図において説明される。さらに、第１のサーバなどの特定の番号参照を行うことができる。しかし、特定の番号参照は文字通りの連番として解釈されるべきではなく、むしろ、第１のサーバは第２のサーバとは異なると解釈されるべきである。それゆえ、説明される具体的詳細は単なる例示にすぎないものであり得る。具体的詳細は変更することができ、本設計の趣旨および範囲に依然として含まれるよう企図することができる。用語「結合される（ｃｏｕｐｌｅｄ）」は、構成要素に直接、または別の構成要素を介して構成要素に間接的に接続されることを意味すると定義される。

図１は、意味処理および動的シーンモデリングに基づく向上された画像形成のためのスマートビジョンアーキテクチャの一実施形態のブロック図を示す。

スマートビジョンシステム１００は分散画像センサアーキテクチャを用い得る。スマートビジョンシステム１００は、例えば、センサ１、センサ２、センサ３、～センサＮなどの、複数の画像センサを含み得る。各画像センサは画像プリプロセッサに接続しており、それと協働し得る。各画像プリプロセッサはセンサセレクタおよび合成器モジュール内に多重化され得る。センサセレクタの出力は画像シーン理解および分析モジュールに接続し得る。画像シーン理解および分析モジュールの出力は、センサ制御ユニットに供給する、予測および適応シーンモデリングモジュールに接続し得る。センサ制御ユニットは画像センサに結合しており、動的フィードバックをそれらに提供する。

上述されたように、各画像プロセッサは、ピクセルを有する少なくともその独自の画像センサを包含するか、またはさもなければ、それと協働し得る。各画像プリプロセッサは、ｉ）クアッドセンサなどの複数の画像センサ、またはｉ）単一の画像センサを有し得るが、このとき、２つ以上の画像プロセッサは、分散作業アーキテクチャ内で互いに協働するように構成されている。

一例では、分散作業アーキテクチャ内で協働する２つ以上の画像プロセッサは、画像センサ１などの、ピクセルを有する独自の画像センサを有する第１の画像プリプロセッサ、および画像センサ２などの、ピクセルを有する独自の画像センサを有する第２の画像プリプロセッサ等を含む。これらの２つ以上の画像プリプロセッサは分散作業アーキテクチャ内で互いに協働し、ｉ）画像プロセッサごとの異なる領域、ｉｉ）第１の画像フレームのためのベースビデオを取り込む１つの画像プロセッサとの重なり領域、およびｉｉｉ）両方の任意の組み合わせのうちのいずれかを取り込み得る。

この場合も先と同様に、画像プロセッサはまた、クアッドセンサ（例えば、図４参照）などの、複数の独立したイメージャセンサを有する画像プロセッサを含み得る。

処理によって洗練される領域は、単なるシーンのタイル状領域でなく、シーン内の関心物体によって御される。シーン理解アルゴリズムは重要物体を特定し、そして、それらの物体の周りの領域であって、それらのパラメータを最適化させることになる領域を規定する。領域はシーン内の任意の場所にあることができ、それらは、物体サイズ、およびイメージャの領域規定の最小解像度によって御される。

センサ制御ユニットは画像センサと協働し、１または複数の画像プリプロセッサのための単一の画像フレーム内の複数の領域を作成し得る。それゆえ、１つの画像フレーム内に複数の領域がある（例えば、図３参照）。その画像フレームを取り込む各領域は、ピクセルデータを取り込むためのピクセルの独自のセットを包含する。センサ制御ユニットは１または複数の画像プリプロセッサと協働し、ピクセルの各領域のための動作モードを変更し、その領域のためのピクセルパラメータを制御する能力を有し得る。ピクセルパラメータは、フレームレート、解像度、画像サイズ、積分時間等のうちのいずれかを含み得る。画像プロセッサは、複数の領域のうちの、例えば、第１の領域内のピクセルのためのピクセルパラメータを、その同じ画像フレーム内の第２の領域内のピクセルとはピクセルパラメータが異なるように設定し得る。

フレーム全体にわたって高性能パラメータを適用するのとは対照的に、この現在のアプローチは、アプリケーション開発者が、取り込まれる各画像の数多くの領域内の／単一の画像内の同時の局所的解像度、ダイナミックレンジ、およびフレームレートのための画像情報品質を最適化することを可能にする。加えて、出力データ転送速度を最小限に抑える必要性を支援するために、ピクセルパラメータの最適化はまた、その画像の非顕著領域内の解像度、フレームレート、およびダイナミックレンジを低減することもできる。

予測および適応シーンモデリングモジュールは１または複数の以前の画像フレーム内の動向を追跡し、画像フレーム内で何が文脈的に起きているのかを理解する手助けをし得る。もう１つの画像プロセッサは、ｉ）１または複数の以前の画像フレーム内で何が文脈的に起きていたのかの文脈理解、およびｉｉ）顕著な要素が第１の領域もしくは第２の領域またはその両方内に配置されているかどうかに基づいて、各領域のための動作モードを変更し、それゆえ、その領域内のピクセルのための、フレームレート、画像サイズ、積分時間等などのピクセルパラメータを変更し得る。例えば、第１の領域内のピクセルのためのピクセルパラメータは、例えば、その同じ第１の画像フレームのための第２の領域から収集されるピクセルデータのためのピクセルパラメータとは異なって動作するように構成される。ｉ）以前の画像フレーム内の１または複数の領域内の顕著なもの（例えば、画像品質に関して重要な要素）を特定し、ならびに／あるいはｉｉ）現在の画像フレームまたは将来の画像フレーム内の１または複数の領域内の顕著な要素を予測し、そして、例えば、顕著な要素の存在または予測される存在が第１の領域内にあり、第２の領域内にないことに基づいて、第１の領域内のピクセルのセットのためのピクセルパラメータを、第２の領域内のピクセルのセットとは異なるよう変更するためのガイダンスをセンサ制御ユニットへ送信するための双方向通信ループが予測および適応シーンモデリングモジュールとセンサ制御ユニットとの間に存在する。

本設計は、リアルタイム画像シーン動態、シーン活動を分析し、意味論的推論を発展させ、その一方で、同時に、シーン情報を最大化するように画像センサピクセルパラメータを調整する。本設計は、局所的ピクセルパラメータを、今の大抵のＣＯＴＳイメージャの場合のように全体的に制御するのではなく、独立して制御することをサポートする、最近利用可能になった画像センサデバイスを活用する。本設計は、シーン分析に基づく画像処理フィードバックを画像センサにおける局所パラメータに結び付ける。本設計は、予測的シーン理解を支援するための数多くの画像データモデルを維持することを通じて、来たるべき画像形成パラメータ変更を予測するための方策を含む。

本設計に固有であるのは、画像シーンが顕著な情報および非顕著な情報の分布を常に有するという事実に基づく出力データ帯域幅の適応制御である。どこで、いかなる種類の顕著な情報および非顕著な情報が画像フレーム内の異なる領域を占有しているのかの知識を突き合わせることで、システムの有能電力、処理リソース、およびネットワーク帯域幅能力を満たすよう、画像センサから出力されるピクセルデータのサイズを必要に応じて大きく低減することができる。

図１は、全てが同様の注視野を有する複数の画像センサが、表示されたシーン内の実用的な視覚情報を最大化するよう適応的に制御される、一実施形態をグラフィカルに示す。

各画像センサは、ピクセルパラメータ（例えば、フレームレート、画像サイズ、積分時間）が適応的に制御され得る主属性（例えば、高ダイナミックレンジ、高フレームレート、ＨＳＲ）を有し得る。

全ての画像センサ出力は、下流の分析を最適化するために前処理される。例えば、雑音低減、ＮＵＣ、およびコントラスト正規化が本ステップにおいて遂行され得る。また、ＨＤＲセンサからのいくつかのこまが、単一のＨＤＲフレームを生成するために処理され得る。

センサセレクタは１つのセンサのピクセルデータ出力（例えば、ＨＤＲ）を分析のために選択する。分析は、シーン区分化、シーン分類、および活動検出を含み得る。このセンサセレクタモジュールは２つのピクセルデータ出力を生成する：

－適応的センサパラメータ設定：これらは、特定の関心シーン領域内の視覚情報を最適化するために用いられる。例えば、特定の領域内において増大した空間解像度を有することが所望される場合には、より低いフレームレートにもかかわらず、ＨＳＲ画像センサがこれを提供することが可能であり得る。

－適応的関心領域設定：これらは、合成されたシーン内において実用的な視覚情報を最適化するために、どの画像センサのピクセルデータ出力が背景として用いられることになるのか、およびどの他の画像センサのピクセルデータ出力がトリミングされ、背景ビデオ内にペーストされることになることになるのかを決定する。

合成器モジュールは、ｉ）複数のセンサ入力からの潜在的に複数の領域を受け入れ、フレームバッファを用い、ｉｉ）各領域の出力のためのピクセルデータを空間的に整列させ、ｉｉｉ）各領域の出力のためのピクセルデータを一時的に整列させ、そして、ｉｖ）１または複数の選択された領域の出力ピクセルデータからのピクセルデータをトリミングし、第１の画像フレームのための背景ビデオベース上にペーストし得る。合成器モジュールは、どの領域の出力が画像フレームのための背景ベースとして用いられることになり、どの他の領域のピクセル出力データが、当領域内に顕著な要素を有する領域群を取り込む際にトリミングされ、画像フレームのための背景ベース内にペーストされることになるのかを決定するための適応的関心領域（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ、ＲＯＩ）設定を用い得る。

合成器モジュールは、画像フレームを構成する領域の全てからの画像ピクセルデータの全てを収集し得、そして、合成器モジュールは、当画像フレームと相互関係がある識別子に基づいて、画像フレームのための、異なるサイクル上で収集された少なくとも様々な領域からの画像ピクセルデータを再構成させるように構成されている。

背景および窓制御のための適応的ＲＯＩ設定はセンサ制御ユニットから来る。加えて、マップ、ＧＰＳ、ＩＭＵなどの、補助データソースも、背景およびＲＯＩの選択をガイダンスするために用いることができる。

画像センサが既知の視野（ＦｉｅｌｄＯｆＶｉｓｉｏｎ、ＦＯＶ）を用いて事前に校正される場合には、リアルタイムの空間的整列は必要なくてもよいことに留意されたい。それらは、（固定されたＦＯＶに対しては）１度校正されるか、または（例えば、任意のレンズ焦点距離が変化した場合に）ＦＯＶが変化するたびに校正されるだけでよい。

全体として、デジタルイメージャ／カメラは、フレーム全体を構成する１または複数の部分にわたってのみ高性能パラメータを適用することができるが、フレーム全体にわたって同様のピクセルパラメータを適用しなくてもよい。画像センサ内の、または分散した様態で動作する複数の画像センサにわたる個々のピクセル領域のこの局所的制御、センサ制御ユニットは、各画像コントローラの、およびプリプロセッサの独自のピクセルパラメータコントローラを補強し得ることに留意されたい。各画像コントローラの、および関連するプリプロセッサ内の第２のコントローラは、概して、当画像センサ内のピクセルを包含する領域の全てにわたって均一に適用されることになる、少なくとも、環境照明条件、カメラフレームレート設定、そのカメラの選択された動作モード等に基づいて、ピクセルの全てのためのピクセルパラメータの全域変更を行うことができる。

スマートビジョンシステムは１または複数の人工知能モデルを用いてシーン動態を分析し、１または複数の関心領域内の顕著な関心要素を特定および／または予測し、顕著な要素を包含するそれらの領域内のシーン情報を最大化し、そして、顕著でない要素を包含する領域内のシーン情報を維持するか、または減少させることによって出力データ帯域幅を制御するために、ｉ）特定もしくは予想されたものの種類要素、およびｉｉ）シーン内の要素の間で何が進行しているのかの文脈理解に基づいて、画像フレームを構成する個々の領域内のピクセルパラメータの同時調整をもたらす。シーン内の要素の間で何が進行しているのかのこの文脈理解は、画像フレームのためのオーバーサンプリングを遂行しないことも可能にする。

予測および適応シーンモデリングモジュールは画像シーン理解および分析モジュールと協働し、各画像フレームを分析し、画像データモデルを維持し、顕著な要素を特定し、ダイナミックレンジ、局所的物体運動、物体もしくはイベント、および局所的解像度要件などの局所的領域特性を予測し得る。各領域の要求の特定に基づいて、画像処理は、同じ画像フレーム内の異なる顕著または非顕著領域を特定のピクセルパラメータ（例えば解像度、フレームレート、およびダイナミックレンジ）のために同時に最適化するために、ピクセルパラメータを画像センサ（単数または複数）へ迅速にフィードバックする。

人工知能モデルは、いかなる関心物体がシーン内にあり得るのかを予測し、現在の画像フレーム内で取り込まれようとしているシーン内において何が起きているのかを全体的に理解するために、ｉ）フレーム内で取り込まれたうちの現在の情報、およびｉｉ）現在のフレームにつながる以前のフレームの任意のシーケンス内で取り込まれた情報の両方を用いることになる。それゆえ、システムは、異なる関心領域のための画像ピクセルパラメータの動的フィードバック変更を行う。これはまた、シーン内のその種類の要素を追跡する、シーン内で何が起きているのかの予測モデルを作り上げる。

人工知能（ＡＩ）モデルは、人工知能アルゴリズム（例えば、逆伝搬、勾配降下）を用いて、物体およびシーン文脈を認識するよう訓練することができる。ＡＩモデルは、シーン内の物体の活動を認識するために空間－時間情報（例えば、ビデオクリップ）を学習することができるニューラルネットワーク（例えば、ＲＮＮ－リカレントニューラルネットワーク（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ））を含むことができる。ＡＩモデルは、シーン区分化（例えば、取り込まれた画像フレームを前景、背景、空中／地上、領域に分離すること）などのタスクを遂行するように訓練され得る。ＡＩモデルは、領域、または領域のセットを優先順位付けし、選択することによって、アテンション機構として訓練され得る。ＡＩモデルは、他のソースからのデータを用いて物体を認識するように事前に訓練されたＡＩモデルを含み得る。ＡＩモデルは、シーンの文脈理解を生成するために、他のセンサ情報（例えばＧＰＳ、加速度計、マップ）を入力として用いてもよい。

画像フレーム内では、物体などの複数の要素が、その画像フレームまたは一連の画像フレーム内で起きている活動とともに特定されることになる。画像シーン理解および分析モジュールは、画像フレーム内の要素、およびそれらの現在のアクションを特定し、この情報を伝え得る。そして、予測および適応シーンモデリングモジュールは、文脈理解、画像フレーム内で特定された要素、ならびにそれらの現在のアクションまたは予想されるアクションを発展させ得る。例えば、図７では、追跡される画像フレームが、運動がそれらに関連付けられるため、それらのフレームレートを全体的に増大させられることを必要とし得るか、または図３では、顔または何らかの文字の細かい詳細を捕捉するために、解像度が増大させられる必要がある。

図２は、４人の家族がテーブルを囲んで座っており、空中ドローンが母親の左肩の上方でホバリングしているシーンを取り込んだ画像フレームの一実施形態のブロック図を示す。画像フレーム２００は、ドローンのための取扱説明の文字をさらに包含し、母親の右側の男の子のそばにおいてテーブルの上に置かれている。

図３は、図２の画像フレーム内に取り込まれた関心領域に分割されたシーンの一実施形態のブロック図を示す。この単一の画像フレーム３００は、関心領域、領域Ｃ、Ｄ、Ｆ、Ｇ、Ｉ、およびＫ、ならびに顕著な要素を全く包含しない他の領域、領域Ａ、Ｂ、Ｅ、Ｊ、ＬおよびＭに分割される。上述されたように、単一の画像センサ内のピクセルは、分散アーキテクチャ内で動作する複数の画像センサからの複数の関心領域を形成し得る。以前の画像フレームにおいて、画像シーン理解および分析モジュールならびに予測および適応シーンモデリングモジュールは協働し、テーブルを囲んで座る４人の家族の各々、および母親の左肩の上方でホバリングする空中ドローンなどの、顕著性の要素を特定した。モジュールはまた、テーブルの上に置かれているドローンのための文字／取扱説明のシートも特定した。画像シーン理解および分析モジュールならびに予測および適応シーンモデリングモジュールは協働し、ピクセルが後続のシーン情報をどのように取り込むことになるのかの、最適化されたほぼ瞬時の調整を確実にするために、局所的シーン内容およびアクションを自動的に監視する。例えば、概して、画像内においては、道路標識、文書、シャツ等の上の文字を見ることができることが重要である。それゆえ、本例における文字を有する取扱説明文書、画像シーン理解および分析モジュールが文字を特定し、ぼやけた文字が画像品質に悪影響を及ぼすことを知ったため、そして、予測および適応シーンモデリングモジュールは、それらの取扱説明を包含する領域Ｇのための解像度をデフォルト値よりも増大させなければならないと知る。同様に、シーン内で人物として特定された物体の各々のために、意味論的推論アルゴリズムは、顔特徴をより良好に取り込むことができるよう、異なる関心領域の設定をより高い空間解像度のために調整することになる。それゆえ、少なくとも、領域Ｃ、Ｄ、Ｆ、Ｇ、Ｉ、およびＫ内においては、デフォルト値よりも増大させられた空間解像度のための設定を有することになる。空中ドローンのために、領域Ｄ、および潜在的に、各隣接領域、領域Ｃ、Ｅ、およびＪは、運動および他の詳細な特徴がより良好に取り込まれ得るよう、デフォルト値よりも増大させられたフレームレートおよび空間解像度のための設定を有することになる。運動している物体の隣接領域では、隣接領域は、物体の潜在的移動の予想に基づいて増大させられたピクセルパラメータを有することができる。他方で、領域Ａ、Ｂ、Ｅ、Ｊ、Ｈ、Ｌ、およびＭは顕著な要素を直ちに包含せず、このため、これらの領域のピクセルパラメータのためのデフォルト値、またはさらに、デフォルト値よりも低い設定をこれらの領域のために用いることができる。データ帯域幅を管理し、画像フレーム全体をオーバーサンプリングしないことを支援するために、シーン理解アルゴリズムは、画像内容が領域Ａ、Ｂ、Ｅ、Ｊ、Ｌ、およびＭ内にほとんどまたは全く存在しないことを認識し、これにより、これらの領域はそれらの解像度、フレームレート、およびダイナミックレンジを、要求があるまで最小限に抑えさせることができる。アルゴリズムは、特徴を有するシーン情報を継続的に監視し、それらの顕著性および種類を決定し、その時点で利用可能なシステムリソースに基づいて可能とされる最大品質を有するこれらの高ダイナミックレンジシーンの画像形成を可能にするよう、ピクセルパラメータを調整する。モジュール内のアルゴリズムは、適時のイメージャ応答を確実にするために、リアルタイムの予測的シーンモデリングおよび理解を遂行する。モジュール内のアルゴリズムは、各領域のための最適なピクセルパラメータを設定するべく、ドローンおよび人物などの顕著な要素を検出することを助けるために、シーン構造（例えば屋内）を理解するための分析および物体認識を遂行する。

２つのモジュールは協働し、当画像フレーム内でより高い解像度、ダイナミックレンジ、および／またはフレームレートを用いて最適に取り込まれる必要がある、画像フレーム３００、以前の画像フレームまたは現在の画像フレームのいずれかの内部の小領域について分析し、その一方で、同時に、低減された詳細が、利用可能なハードウェアリソース内で取り込まれることを必要とされるだけですむ、他のあまり重要でない領域も存在し、これらの個々の調整の全ては同じ画像フレーム内で動的に行われている。それゆえ、この解決策は、画像フレーム３００内の局所的関心領域がどのように画像形成されるのかを、解像度、フレームレート、およびダイナミックレンジなどの画像パラメータが画像センサ内のピクセルレベルでどのように適用されるのかに関して動的に管理することになる。

関心領域は長方形または任意の他の形状であり得ることに留意されたい。

図４は、意味処理および動的シーンモデリングに基づく向上された画像形成のためのスマートビジョンアーキテクチャの一実施形態のブロック図を示す。スマートビジョンアーキテクチャ４００は、例えば、複数の画像センサを有するカメラを用い得る。

センサ制御ユニットは、ピクセルアレイ内のピクセルによって画像フレーム内に取り込まれる画像全体にわたって、ｉ）イメージャ解像度、ｉｉ）ダイナミックレンジ性能、および／またはｉｉｉ）フレームレートのピクセルパラメータを同時に独立して制御し、領域増分で不均一に調整し得る。例えば、センサ制御ユニットは、ｉ）１または複数の以前の画像フレーム内で何が文脈的に起きているのかの文脈理解、ならびにｉｉ）顕著な要素が第１の領域または第２の領域内に配置されているかどうかに基づいて、不均一に独立して、ｉ）顕著な要素を有する第１の領域内の１）イメージャ解像度、２）ダイナミックレンジ、および／または３）フレームレートのうちの少なくとも１つを増大させ、顕著な要素を有する第２の領域内の、少なくとも、１）イメージャ解像度、２）ダイナミックレンジ、および／または３）フレームレートの異なるピクセルパラメータを増大させるように構成されている。

画像処理ユニットは、画像処理ユニットからセンサ制御ユニットへの低遅延フィードバック通信ループを有し得る。センサ制御ユニットは、画像フレーム内の異なる関心領域内のｉ）イメージャ解像度、ｉｉ）ダイナミックレンジ、および／またはｉｉｉ）フレームレートを同時に独立して変更するために、ピクセルパラメータフィードバックを画像処理ユニットに供給する。

予測および適応シーンモデリングモジュールはセンサ制御ユニットに結合しており、画像フレーム内の１または複数の関心領域内の顕著な要素をｉ）特定および／またはｉｉ）予測し、そして、ｉ）顕著な要素を有するそれらの領域内の１）イメージャ解像度、２）ダイナミックレンジ、および／または３）フレームレートのうちの少なくとも１つを増大させるためのガイダンスをセンサ制御ユニットへ送信する。予測および適応シーンモデリングモジュールはまた、そして、１）１または複数の画像センサ、または２）センサ制御ユニットと画像処理ユニットとの間の通信ループによって課される、ｉ）帯域幅制限、ｉｉ）メモリストレージ、および／またはｉｉｉ）電力消費制限のいずれか内に収まるよう、顕著な要素を有しない領域内の１）イメージャ解像度、２）ダイナミックレンジ、および／または３）フレームレートのうちの少なくとも１つをｉ）維持するか、またはｉｉ）減少させるためのガイダンスをセンサ制御ユニットへ送信することができる。

予測および適応シーンモデリングモジュールならびに画像シーン理解および分析モジュールは互いに協働する。モジュールは協働し、関心領域が１または複数の顕著な要素を包含するがゆえに、当画像フレーム内のより高いイメージャ解像度、ダイナミックレンジ、および／またはフレームレートを用いて最適に取り込まれる必要がある各画像フレーム内の関心領域について分析し、その一方で、同時に、顕著でない要素のみを包含する他のあまり重要でない関心領域が存在し、そこでは、１）画像フレームを構成する関心領域内のピクセルデータを取り込むピクセルを有する１または複数の画像センサによって課される、ｉ）帯域幅制限、ｉｉ）メモリストレージ、および／またはｉｉｉ）電力消費制限のいずれか、ならびに２）センサ制御ユニットと画像処理ユニットとの間の通信ループによって課される、ｉ）帯域幅制限、ｉｉ）メモリストレージ、および／またはｉｉｉ）電力消費制限のいずれか内に収まるよう、画像フレーム内のイメージャ解像度、ダイナミックレンジ、および／またはフレームレートのためのデフォルトのピクセルパラメータ設定を用いて、低減された画像詳細が取り込まれ得る。

ピクセルパラメータ変更の予測
予測および適応シーンモデリングモジュールは１または複数の以前の画像フレーム内のシーンデータの変化の動向を分析し、追跡し得る。１または複数のシーンモデルが、来たるべき画像フレームのために必要とされるピクセルパラメータ変更を予測するために異なる関心シーン領域内の１または複数の顕著な要素を監視し、追跡するための予測方策として維持される。モデルはシーンデータを追跡し、これにより、それらは、その種類の顕著な要素のために最も適したピクセルパラメータを調整することができる。各領域の要求の特定に基づいて、予測および適応シーンモデリングモジュールは、同じフレーム内の異なる顕著または非顕著領域を特定の解像度、フレームレート、またはダイナミックレンジのために同時に最適化するために、ピクセルまたは領域ベースのパラメータをセンサ制御ユニットおよびその画像センサへ迅速にフィードバックする。

モジュールは意味論的推論およびモデリングを適用する。モジュールは、シーン、ならびにそして、そのシーン内の車両および歩行者などの顕著な物体を検出し、それらの意味論的推論を両方とも発展させることを助けることができるシーン構造（例えば、道路または壁）を理解し、最適な局所的ピクセルパラメータ選択を設定する。画像シーン理解および分析モジュールは顕著な要素（扉、標識、運動している物体、色、明るいシーン、人物、障害物等）を特定する。予測および適応シーンモデリングモジュールは、以下のことを含むシーン区分化を用いる：

○ 深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ、ＤＬ）アルゴリズムを用いてシーン内の顕著な物体にラベルを付けること。

○ イメージャフィードバックが、ラベルを付けた物体に基づくことを除き、自律運転におけるアプローチと同様のこと。

○ 高ダイナミックレンジ（ＨｉｇｈＤｙｎａｍｉｃＲａｎｇｅ、ＨＤＲ）、ＨＳＲおよび動き補償を必要とする領域を特定すること。

○ 画像センサの異なる領域内のピクセルパラメータの不均一かつ独立した制御をもたらす、物体検出のための意味レベルアルゴリズムの間のリアルタイムの結合を用いること。

予測および適応シーンモデリングモジュールは各画像フレーム内のシーンデータの変化の動向を分析し、追跡する。１または複数のシーンモデルが、来たるべき画像形成パラメータ変更を予測するために、例えば、ＨＤＲまたは高フレームレート／運動が必要なシーン領域を監視し、追跡するための予測方策として維持され得る。これらの人工知能（ＡＩ）モデルがシーンデータを追跡するのに従い、ＡＩモデルは、異なる種類の顕著な要素のために最も適したイメージャパラメータを調整するための提案を行うことができる。

画像シーン理解および分析モジュールはシーンに注目し、シーン内の物体またはイベントから意味情報を特定する。画像シーン理解および分析モジュールは、以前の画像フレーム内のシーン内で生じている物体およびイベントを特定し、シーンの領域内の顕著な要素を特定するために、シーンを分析する。この情報は時間または空間分析方法からのものであることができる。顕著な要素が特定されると、そして、その情報は予測および適応シーンモデリングモジュールに伝えられ、装置が、予測および適応シーンモデリングモジュールの予測が、シーン内で変化するであろうと予測する、シーン内の急速な変化に備えることを確実にする。

画像シーン理解および分析モジュールならびに予測および適応シーンモデリングモジュールは協働し、ドローンがホバリングしているが、それが実際に移動したときには、十中八九、近隣の関心領域へ素早く移動するであろう、図３のものなどのシーン内の変化を予測し、このため、モジュールは、物体が、予想されるアクションを実際に遂行する、または起こす前に、その種類の顕著な要素のためのフレームレート、解像度、およびダイナミックレンジなどのピクセルレベルの設定を調整するためのガイダンスを送信する。同様に、図７では、予測および適応シーンモデリングモジュールは、領域Ｊ、およびＫ内の２台の車が画像フレームの次のセットにおいて領域Ｈ内へ移動し、それゆえ、領域Ｊ、Ｋ、およびＨは、それらの領域内のピクセルのために増大させられたフレームレートを有することが必要になると予測することができる。

予測および適応シーンモデリングモジュールは、ドローンが隣接領域へ移動し得る図３、または自動車が道路の外形に従って隣接領域へ移動するはずである図７のものなど、シーンの変化を予測し、これにより、それが起きる前に、フレームレート、解像度、およびダイナミックレンジなどのピクセルレベルの設定を調整することを開始することによって、画像がシーン内の急速な変化に備えることを確実にする。

予測および適応シーンモデリングモジュールは、ｉ）以前の画像フレーム内にあることを見出されたか、または予測される顕著な要素および非顕著性の要素の各々を分析し得、ｉｉ）予測および適応シーンモデリングモジュールが、その種類の顕著な要素のために最も適したピクセルパラメータを特定および予測し得るよう、画像およびシーンデータモデルと比較した。予測および適応シーンモデリングモジュールは、１または複数の以前の画像フレームを、それらをデータベース内に記憶し、それらを、維持された画像データモデルと比較することによって、分析し、ダイナミックレンジ、局所的物体運動、物体もしくはイベント、および／または局所的解像度要件などの局所的領域特性を特定し、予測し得る。予測および適応シーンモデリングモジュールは、当関心領域内で追跡または予想される顕著な要素のために最も適した、ダイナミックレンジ、局所的物体運動、物体もしくはイベント、および／または局所的解像度要件などの局所的領域特性を予測する。各領域の要求の特定に基づいて、画像処理はピクセルまたは領域ベースのパラメータをイメージャへ迅速にフィードバックし、顕著な要素を有する異なる領域を同時に最適化し、および／または同じフレーム内の顕著でない要素を有する領域を、特定の解像度、フレームレート、またはダイナミックレンジ値の設定閾値内に収まるよう必要に応じて調整する。

予測および適応シーンモデリングモジュールはシーンデータの変化の動向に注目する。明るい太陽または暗い影のどちらかが画像の区域内で趨勢となりつつある場合には、来たるべきダイナミックレンジの問題のために準備するべく局所的領域／ピクセルパラメータを調整したいと欲する。数多くのシーンモデルを、例えば、ＨＤＲまたは運動のシーン領域を監視し、追跡するための予測方策として維持することができる。モデルがシーンデータを追跡するのに従い、それらはイメージャパラメータを調整することができる。モデルは絶えず更新し、場合によっては、不良なモデルが落伍し得るか、または新たなモデルが、新たな条件を扱うために追加され得る。シーンモデリングは、低遅延の動的フィードバックを維持するために重要である。

予測および適応シーンモデリングモジュールは、予測的シーン理解を支援するための数多くの画像データモデルを維持することを通じて来たるべき画像形成パラメータ変更を予測し、そして、顕著な要素、およびいかなる種類の顕著な要素が画像フレーム内の１または複数の関心領域内にあるのかを特定および／または予測し、そして、ｉ）顕著な要素を有するそれらの領域内の顕著な要素の種類に最も適した、１）イメージャ解像度、２）ダイナミックレンジ、および／または３）フレームレートのうちの少なくとも１つを増大させるためのガイダンスをセンサ制御ユニットへ送信するための方策を含み得る。各ピクセル領域内のイメージャ設定は物体の種類（例えば、推量された意味論的物体）に基づいて設定される。

いくつかの領域内のピクセルパラメータを増大させ、その一方で、同じ画像フレーム内の他の領域内のピクセルパラメータを維持するかまたは減少させること、をバランスさせること
予測および適応シーンモデリングモジュールはまた、そして、１）画像センサ、または２）センサ制御ユニットと画像処理ユニットとの間の通信ループによって課される、ｉ）帯域幅制限、ｉｉ）メモリストレージ、および／またはｉｉｉ）電力消費制限内に収まるよう、顕著な要素を有しないそれらの領域内の１）イメージャ解像度、２）ダイナミックレンジ、および／または３）フレームレートのうちの少なくとも１つを維持するか、または減少させ得る。

予測および適応シーンモデリングモジュールならびに画像シーン理解および分析モジュールは、協働し、ｉ）リアルタイム画像シーン動態を分析し、シーン活動を分析し、シーンの意味論的推論を発展させ、その一方で、ｉｉ）同時に、シーン情報を最大化するべくセンサ制御ユニットのためのピクセルパラメータを決定し、ピクセルパラメータをセンサ制御ユニットへ送信し、取り込まれる現在の画像フレームのための異なる関心領域内のピクセルのためのピクセルパラメータを動的に調整するように構成され得る。

図７では、関心領域はシーン内の自動車の周りにある。自動車の運動が検出されることになり、および／または標識が検出されることになり、そして、関心領域がそれらの物体の周りで規定されることになる。

運動する自動車を有する領域、領域Ｃ、Ｄ、Ｈ、Ｉ、Ｊ、Ｋ、および予測のゆえに、領域Ｈは、より高いフレームレートを用いて取り込まれている。加えて、それらの同じ領域、および道路標識を有する領域Ｂは、文字および顔の細かい詳細を取り込むために、より高い解像度を用いて取り込まれることになる。リアルタイム運動分析に基づいてこれらのピクセルの全てを取り込むことは、これらのピクセルのために高いフレームレートおよび短い積分時間を余儀なくさせることになる。加えて、イメージャは、道路標識、および潜在的にナンバープレート上の文字、ならびに運転者の画像を、より高い解像度を用いて取り込みたいと欲することになる。今の画像センサは、高ダイナミックレンジ（ＨＤＲ）、高空間解像度（ｈｉｇｈｓｐａｔｉａｌｒｅｓｏｌｕｔｉｏｎ、ＨＳＲ）、および高速移動物体を有するシーンを同時に取り込むことができない。領域Ａ、Ｅ、Ｆ、ＧおよびＩは顕著な要素を包含せず、それらのピクセルパラメータを維持させるか、または減少させることができる。

モジュールは協働し、局所的シーン理解およびモデリングを用い、各フレーム内の要素を取り込むための局所的ピクセルパラメータを予測し、迅速に調整する。モジュールは協働し、また、ダイナミックレンジ、空間解像度を局所的に調整し、局所的により高いフレームレートを用いて動きぼけを低減し、その一方で、管理可能な出力データ転送速度を維持するためのガイダンスを同時に送信する。それゆえ、いくつかの領域は、１）１または複数の画像センサ、または２）センサ制御ユニットと画像処理ユニットとの間の通信ループによって課される、ｉ）帯域幅制限、ｉｉ）メモリストレージ、および／またはｉｉｉ）電力消費制限のいずれか内に収まるよう、同じ画像フレーム内の他の領域内のピクセルパラメータを維持するか、または減少させる必要がある。

イメージャセンサおよびセンサ制御ユニットは、任意の所与のピクセルがどのように画像形成することになるのかのピクセルレベルのパラメータ制御（例えば、積分時間、フレームレート、解像度選択等）のために協働し、ハードウェアの出力データ帯域幅能力の釣り合いを取りつつ、重要なシーン内容が、ゆっくり変化するイメージャパラメータのゆえに失われないことを確実にするために、局所的シーンデータおよび特徴がどのように取り込まれるのかを最適化するための自動化された動的手段を提供する。

ほとんどの画像形成アプリケーションでは、最適に取り込まれる必要がある、画像フレーム内のより小さい領域が存在し、その一方で、低減された詳細が必要とされるあまり重要でない領域が存在する。現在の解決策は、フレーム内の局所領域がどのように画像形成されるのかを、解像度、フレームレート、およびダイナミックレンジなどの画像パラメータがイメージャ内のピクセルレベルでどのように適用されるのかに関して動的に管理することになる。我々のアプローチから少なくとも２つの利点がある：

（１）第１に、局所的画像品質、特徴および詳細を劇的に改善することができる。例えば、深い影または明るい太陽を見通すために、局所的ダイナミックレンジを改善することを行うことができ、また、画像の明瞭性を改善するために、高フレームレートで局所的運動を取り込むことを行うことができ、人が扉を通り抜けて来ることを予測し、これにより、彼らの顔を最適に取り込むことができるか、または顔の上の解像度を増して顔認識を強化する。

（２）第２に、より低いＳＷａＰ（Ｓｉｚｅ，ＷｅｉｇｈｔａｎｄＰｏｗｅｒ（サイズ、重量、および電力））ならびに管理可能なデータ帯域幅を有するシステムが必要とされる。この解決策によれば、イメージャから出力されるデータ量が大きく低減され、低減された電力、最小限に抑えられた処理リソース、および低減されたネットワーク帯域幅を必要とする将来のアプリケーションを可能にすることができる。

図３を再び参照すると、加えて、合成器モジュール（デジタルイメージャのセットなど）は、識別子、例えば、共通タイムラインからのタイムスタンプを用いて、単一の画像フレーム内の複数の関心領域内で取り込まれた要素をつなぎ合わせ得る。識別子は画像フレームを指示し、各関心領域のためのピクセルから収集されたデータに含まれる。

前処理モジュールは、次のモジュールおよびピクセルデータ動向のためのイメージャ出力のダイナミックレンジを調節し得る。イメージャへの何らかのグローバルゲインレベルのフィードバックが、より大きなシーン変化のために可能である。

デジタルイメージャは、音声を通例伴う一連の画像である、静止写真のバースト、またはビデオ録画を撮影するカメラであることができることに留意されたい。

制御ユニットは、ＧＰＳを含む、位置を、特定の領域内のパラメータを最適化するための入力として用いることができる。例えば、区域の上方を飛行している空中ＵＡＶは、－それがどこにいるのかを知り、それゆえ、最適化されたパラメータを得るべき交差点のような地上の区域に基づく領域を規定することができる。

図１１は、シーン、画像、および予測されるシーンの動的シーンモデリングを介した意味理解を生成するシステムの一実施形態の図を示す。

システム１１００は、協力し合う多数のモデルおよびモジュールを含む。本例では、クアッドピクセルイメージャがピクセルデータを前処理画像モジュールに供給する。前処理画像モジュールはそのデータを、シーン区分化および分類モジュールおよび関心領域推移（ｃｏｕｒｓｅ）活動分類モジュールを有する、シーン理解モジュールへ送信する。機械学習モデルは、情報をシーン理解モジュールならびに物体追跡および意味論的推論モジュールに供給するために用いられる、シーンモデル、物体モデル、およびイベントモデルを含む。シーン理解モジュールはその情報を物体追跡および意味論的推論モジュールへ送る。

システムは、何がシーン内で進行しているのか、およびセンサが取り込むべき重要な情報は何か、およびセンサがこの情報をどのように取り込むべきかを動的にリアルタイムで理解する能力を有する。最も重要な情報がシーン内で取り込まれることを確実にするためのポイントは、シーン内で選択された領域が現在のミッションまたは適用にとって重要であることを確実にすることである。図１１は、動的なリアルタイムの領域選択を可能にする領域およびアルゴリズムを決定するための例示的なシーン理解処理パイプラインアーキテクチャを示す。

パイプラインの最初のシーン理解構成要素は、変化するシーンの主要なシーン区分が規定される（例えば空、地面）、シーン区分化および分類モジュールである。この情報は、いかなる物体がどこで見出されるのかの論理的理解をもたらすため、重要である（例えば、自動車は空ではあまり見出されない）。シーン区分の後に、アテンション機構、およびシーン内のシーン領域に基づいて訓練されたクラスを有する機械学習モデルに基づいて、最初の粗いＲＯＩ（関心領域）選択が決定される。アテンション機構は様々な手がかり（例えば、特定のシーン領域内の物体運動、画像縁部形状）に基づくことができる。物体および後続の関心領域の実際の分類は分類段階まで行われない。シーン区分化宣言はまた、物体の運動（動きベクトル場）または画像品質などの他の因子によってトリガされ得る。画像品質が監視され、非常に暗く、または非常に明るくなり得る区域は、イメージャへのフィードバックを通じて画像パラメータを調整することを必要とする領域と考えられる。

物体追跡および意味論的推論処理モジュールならびにその様々なサブブロックは、アテンション機構によって以前に選択された関心領域、およびそれらが所与の適用のために重要なものであるかどうかを分析し、理解する。理解によって、物体、およびそれらがシーン内の関心領域内でどのように振る舞い、移動するのかをさらに洗練することができる（例えば、飛行機は空で鳥のように飛ばないが、ＵＡＶは可能であろう）。洗練された関心領域を用いて、詳細な分類を行い、各領域にラベルを付け、データを、表示、および領域にラベルを付けた出力のためにフォーマットすることができる。

次に、スマートビジョンセンサクアッドピクセルアーキテクチャへの複数のフィードバック段階がある。処理に先立って最良の画像品質をもたらすために、ピクセルイメージャパラメータへの粗いフィードバックをパイプラインアーキテクチャにおいて早期に行い、その後、関心領域内の物体を知ることに基づく領域ベースのフィードバックを行うことができる（例えば、影の中で歩く人物であり、したがって、顔認識を支援するべくダイナミックレンジおよび空間解像度の改善のために領域内のパラメータを調整する）。粗い領域選択に対する先行パラメータ調整は迅速で低遅延（例えば＜１ミリ秒）でなければならず、その一方で、意味論的推論および理解フィードバックは１または２フレーム後に行われてもよい。

全ての重要情報が取り込まれることを確実にする能力の別の構成要素は、予測画像処理の利用である。例えば、システムが、静止した、または運動するプラットフォームから物体を追跡している際に、システムは、運動物体が次の数フレームにわたって到達することになるセンサの区域を計算することができるであろう。この理解の下で、パイプラインアーキテクチャは、取り込まれる際に最適な情報が得られることを確実にするために、運動物体のためのピクセルに対してパラメータを調整することができる。予測能力はまた、物体がシーン内の他の物体によって遮蔽されている際に、物体を追跡することも助ける。

図５は、例示的な画像センサ５００であって、そのピクセルアレイ、刻時回路、および他の制御回路機構を有する画像センサ５００の一実施形態のブロック図を示す。

図６は、道路上を走る自動車のシーンを取り込んだ画像フレーム６００の一実施形態のブロック図を示す。

図７は、図６の画像フレーム内に取り込まれた関心領域に分割されたシーン７００の一実施形態のブロック図を示す。この単一の画像フレームは、自動車、道路標識、および様々な領域内の道路を取り込んだ、関心領域、領域Ｂ、Ｃ、Ｄ、Ｈ、Ｉ、Ｊ、およびＫに分割されている。他の領域Ａ、Ｅ、Ｆ、Ｇ、およびＩは、顕著な要素を全く有しない領域であり、必要とされる場合には、低減されたピクセルパラメータを利用することができる。

「Ｍｅｔｈｏｄａｎｄａｐｐａｒａｔｕｓｆｏｒｏｐｔｉｍｉｚｉｎｇｉｍａｇｅｑｕａｌｉｔｙｂａｓｅｄｏｎｓｃｅｎｅｃｏｎｔｅｎｔ」と題する、米国特許第８８３０３６０号、「Ｍｅｔｈｏｄａｎｄａｐｐａｒａｔｕｓｆｏｒｒｅａｌ－ｔｉｍｅｐｅｄｅｓｔｒｉａｎｄｅｔｅｃｔｉｏｎｆｏｒｕｒｂａｎｄｒｉｖｉｎｇ」と題する、第８８６１８４２号、「Ｍｅｔｈｏｄａｎｄａｐｐａｒａｔｕｓｆｏｒｄｅｔｅｃｔｉｎｇａｎｄｔｒａｃｋｉｎｇｖｅｈｉｃｌｅｓ」と題する、第８７１２０９６号、「Ｒｅａｌ－ｔｉｍｅａｃｔｉｏｎｄｅｔｅｃｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎ」と題する、第８６３４６３８号、および「Ｒｅａｌ－ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ，ｔｒａｃｋｉｎｇａｎｄｏｃｃｌｕｓｉｏｎｒｅａｓｏｎｉｎｇ」と題する、米国特許出願公開第２０１４０３４７４７５号に、画像シーン理解および分析モジュールおよび／または予測および適応シーンモデリングモジュールの部分を実施するためのさらなる方法を見出すことができる。

図８Ａおよび図８Ｂは、意味処理および動的シーンモデリングに基づいて画像形成を向上することの一実施形態のフロー図を示す。フロー図は、方法およびステップを説明するために用いることができ、ステップは、論理的に可能であるときには、文字通りの順序を違えて遂行されてもよく、ステップの全てが遂行されなくてもよい。

ステップ８０２において、システムは、以前の画像フレーム内の動向を追跡し、シーンデータモデルを参照し、１または複数の人工知能アルゴリズムを利用し、第１の画像フレーム内で何が文脈的に起きているのかを理解し、そして、ｉ）以前の画像フレーム内で何が文脈的に起きていたのかの文脈理解、およびｉｉ）顕著な要素が第１の領域内に配置され、第２の領域内に配置されないと予測されるかどうかに基づいて、第１の領域内のピクセルパラメータを増大させ、その一方で、同時に、第２の領域内の画像ピクセルパラメータを維持するか、または低減させるよう、画像ピクセルパラメータを変更する。

ステップ８０４において、システムは、センサ制御ユニットを用いて、ｉ）少なくとも、以前の画像フレームにおいて何が文脈的に起きていたのかの文脈理解、シーンの文脈理解、および予想されるシーンの文脈理解のうちのいずれか、ならびにｉｉ）顕著な要素が第１の画像フレームの第１の領域および第１の画像フレームの第２の領域のうちのいずれかの内部に配置されているかどうかに基づいて、ｉ）局所的解像度、ｉｉ）ダイナミックレンジ、およびｉｉｉ）フレームレートのピクセルパラメータを単一の／第１の画像フレームの数多くの領域内で同時に独立して制御するよう画像品質情報を最適化し、第１の領域内のピクセルのためのピクセルパラメータは、その同じ第１の画像フレームのための第２の領域から収集されたピクセルデータのためのピクセルパラメータとは異なって動作するように構成される。

ステップ８０６において、システムは、センサ制御ユニットを用いて、第１の領域内においては、ピクセルのためのｉ）局所的解像度、ｉｉ）ダイナミックレンジ、およびｉｉｉ）フレームレートのうちのいずれかのピクセルパラメータを増大させ、その一方で、同時に、第１の画像フレーム内に包含された顕著でない要素を包含する、第２の領域内においては、ｉ）局所的解像度、ｉｉ）フレームレート、およびｉｉｉ）ダイナミックレンジのうちのいずれかを維持するか、または低減させるよう、出力ピクセルデータ転送速度を調整する。

ステップ８０８において、１）第１の画像フレームを構成する領域内のピクセルデータを取り込むピクセルを有する１または複数の画像センサによって課される、ｉ）帯域幅制限、ｉｉ）メモリストレージ、および／またはｉｉｉ）電力消費制限のいずれか、ならびに２）センサ制御ユニットと画像センサとの間の通信ループによって課される、ｉ）帯域幅制限、ｉｉ）メモリストレージ、および／またはｉｉｉ）電力消費制限のいずれか内に収まりつつ、画像情報品質が最適化される。

ステップ８１０において、第１の領域のための画像ピクセルデータは、その同じ画像フレームのための第２の領域内のピクセルからの画像ピクセルデータとは異なる収集サイクル内で（異なる時点において）それらのピクセルから収集される。

ステップ８１２において、システムは、センサ制御ユニットを用いて、第１の画像フレームの全体を構成する１または複数の部分にわたるが、第１の画像フレーム全体にわたるものではない、ピクセルデータを収集するピクセルにのみ、向上した性能のピクセルパラメータを適用し、それゆえ、ｉ）少なくとも、以前の画像フレーム内で何が文脈的に起きていたのかの文脈理解、シーンの文脈理解、および予想されるシーンの文脈理解のうちのいずれかの文脈理解、ならびにｉｉ）顕著な要素が、第１の画像フレームの第１の領域、第１の画像フレームの第２の領域、または第１および第２の領域の両方のうちのいずれかの内部に配置されているかどうかに基づいて、画像フレーム全体を構成する一部のピクセルは、他のピクセルが、向上した性能のピクセルパラメータで実行している間に、より低い性能のピクセルパラメータで同時に動作している。

ステップ８１４において、システムは、別個のコントローラを用いて、少なくとも環境照明条件に基づいて、第１の画像フレーム全体を構成するピクセルの全てのためのピクセルパラメータの全域変更を行う。

ステップ８１６において、システムは、合成器モジュールを用いて、第１の画像フレームを構成する領域の全てからの画像ピクセルデータの全てを収集し、そして、第１の画像フレームと相互関係がある識別子に基づいて、第１の画像フレームのための、異なるサイクル上で収集された少なくとも第１の領域および第２の領域からの画像ピクセルデータを再構成させることを用いる。

ネットワーク
図９は、本明細書において説明される設計の一実施形態に係るネットワーク環境内で互いに通信する多数の電子システムおよびデバイスを示す。モジュールの部分はクラウドプロバイダプラットフォーム９０４内に配置することができ、その一方で、画像センサを含むシステムの他の部分はモバイルコンピューティングデバイス９０２Ａ～９０２Ｆなどのクライアントデバイス上に配置され得る。

ネットワーク環境９００は通信ネットワーク９１０を有する。ネットワーク９１０は、光ネットワーク、セルラーネットワーク、インターネット、Ｗｉ－Ｆｉ、ブルートゥース等を含むローカルエリアネットワーク（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）（「ＬＡＮ」）、ワイドエリアネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）（「ＷＡＮ」）、衛星ネットワーク、ファイバネットワーク、ケーブルネットワーク、およびこれらの組み合わせから選択される１または複数のネットワークを含むことができる。一実施形態では、通信ネットワーク９１０はインターネットである。図示のように、通信ネットワーク９１０を介して互いに接続された多くのサーバコンピューティングシステムおよび多くのクライアントコンピューティングシステムが存在し得る。しかし、例えば、単一のクライアントコンピューティングシステムが単一のサーバコンピューティングシステムに接続されていることも可能であることを理解されたい。それゆえ、本図は、通信ネットワーク９１０を介して互いに接続されたサーバコンピューティングシステムおよびクライアントコンピューティングシステムの任意の組み合わせを示す。

通信ネットワーク９１０は、第１のサーバコンピューティングシステム９０４Ａ、第２のサーバコンピューティングシステム９０４Ｂ、仮想現実ヘッドセット９０４Ｃ、第１のスマートテレビ９０２Ｈ等などの１または複数のサーバコンピューティングシステムを、互いに、および同様に、少なくとも１または複数のクライアントコンピューティングシステムに接続することができる。サーバコンピューティングシステム９０４Ａおよび９０４Ｂは各々、任意選択的に、データベース９０６Ａおよび９０６Ｂなどの組織化されたデータ構造を含むことができる。１または複数のサーバコンピューティングシステムの各々は１または複数の仮想サーバコンピューティングシステムを有することができ、複数の仮想サーバコンピューティングシステムを設計によって実装することができる。１または複数のサーバコンピューティングシステムの各々は、データ完全性を保護するための１または複数のファイアウォールを有することができる。

少なくとも１または複数のクライアントコンピューティングシステムは、第１のモバイルコンピューティングデバイス９０２Ａ（例えば、Ａｎｄｒｏｉｄベースのオペレーティングシステムを有するスマートフォン）、第２のモバイルコンピューティングデバイス９０２Ｅ（例えば、ｉＯＳベースのオペレーティングシステムを有するスマートフォン）、第１のウェアラブル電子デバイス９０２Ｃ（例えば、スマートウォッチ）、第１のポータブルコンピュータ９０２Ｂ（例えば、ラップトップコンピュータ）、第３のモバイルコンピューティングデバイスまたは第２のポータブルコンピュータ９０２Ｆ（例えば、ＡｎｄｒｏｉｄもしくはｉＯＳベースのオペレーティングシステムを有するタブレット）、第１のスマート自動車９０２Ｄ内に組み込まれたスマートデバイスまたはシステム、ならびに同様のものから選択され得る。

クライアントコンピューティングシステム（例えば、９０２Ａ～９０２Ｈ）は、例えば、本明細書において説明された設計が展開され得るソフトウェアアプリケーションおよび／またはハードウェアベースのシステムを含むことができる。

用語「クライアントコンピューティングシステム」および「サーバコンピューティングシステム」の使用は、概して通信を開始するシステム、および概してその通信に応答するシステムを指示することが意図されることを理解されたい。例えば、クライアントコンピューティングシステムは概して通信を開始することができ、サーバコンピューティングシステムは概してその通信に応答する。

サーバコンピューティングシステムのうちの任意の１または複数はクラウドプロバイダであることができる。クラウドプロバイダはクラウド（例えば、インターネットなどのネットワーク９１０）内でアプリケーションソフトウェアをインストールし、動作させることができ、クラウドユーザはクライアントコンピューティングシステムのうちの１または複数からアプリケーションソフトウェアにアクセスすることができる。概して、クラウド内のクラウドベースのサイトを有するクラウドユーザは、アプリケーションソフトウェアが実行するクラウドインフラストラクチャまたはプラットフォームを単独で管理することができない。それゆえ、サーバコンピューティングシステムおよびその組織化されたデータ構造は共有リソースであることができ、各クラウドユーザは共有リソースの一定の専用使用量を与えられる。各クラウドユーザのクラウドベースのサイトはクラウド内の仮想的な専用空間および帯域幅量を与えられ得る。クラウドアプリケーションは、変化する作業要求を満たすために実行時に複数の仮想機械上にタスクのクローンを作成することによって達成可能である、それらのスケーラビリティの点で他のアプリケーションとは異なり得る。負荷分散装置が作業を仮想機械のセットにわたって分散させる。このプロセスは、単一のアクセスポイントのみを見るクラウドユーザには見えない。

クラウドベースのリモートアクセスは、ハイパーテキスト転送プロトコル（ＨｙｐｅｒｔｅｘｔＴｒａｎｓｆｅｒプロトコル）（「ＨＴＴＰ」）などの、プロトコルを利用し、クライアントコンピューティングシステム上に常駐するウェブブラウザアプリケーションなどのクライアントコンピューティングシステム上のアプリケーションとの要求および応答サイクルに従事するようにコード化することができる。クラウドベースのリモートアクセスは、スマートフォン、デスクトップコンピュータ、タブレット、または任意の他のクライアントコンピューティングシステムによって、いつでも、および／またはどこでもアクセスされ得る。クラウドベースのリモートアクセスは、１）全てのウェブブラウザベースのアプリケーションからの要求および応答サイクル、２）専用オンラインサーバからの要求および応答サイクル、３）クライアントデバイス上に常駐するネイティブアプリケーションと、別のクライアントコンピューティングシステムへのクラウドベースのリモートアクセスとの間の直接の要求および応答サイクル、ならびに４）これらの組み合わせに従事するようにコード化される。

一実施形態では、サーバコンピューティングシステム９０４Ａは、サーバエンジン、ウェブページ管理構成要素、コンテンツ管理構成要素、およびデータベース管理構成要素を含むことができる。サーバエンジンは基本処理およびオペレーティングシステムレベルのタスクを遂行することができる。ウェブページ管理構成要素は、デジタルコンテンツおよびデジタル広告を受信および提供することに関連付けられるウェブページまたは画面の作成および表示あるいはルーティングを処理することができる。ユーザ（例えば、クラウドユーザ）は、サーバコンピューティングシステムのうちの１または複数に、それに関連付けられた統一資源ロケータ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）（「ＵＲＬ」）を用いてアクセスすることができる。コンテンツ管理構成要素は、本明細書において説明される実施形態における機能の大部分を処理することができる。データベース管理構成要素は、データベースに対する記憶および検索タスク、データベースへのクエリ、およびデータの記憶を含むことができる。

コンピューティングシステム
図１０は、本明細書において説明される設計の一実施形態に係る、全体的または部分的に、サーバまたはクライアントコンピューティングデバイスのうちの１または複数の一部であることができるコンピューティングシステム１０００を示す。図１０を参照すると、コンピューティングシステム１０００の構成要素は、限定するものではないが、１または複数の処理コアを有する処理ユニット９２０、システムメモリ９３０、およびシステムメモリ９３０を含む様々なシステム構成要素を処理ユニット９２０に結合するシステムバス９２１を含むことができる。システムバス９２１は、メモリバスもしくはメモリコントローラ、周辺バス、および種々のバスアーキテクチャのうちのいずれかを用いたローカルバスから選択されるいくつかの種類のバス構造であり得る。

コンピューティングシステム９００は、通例、種々の計算機可読媒体を含む。計算機可読媒体は、コンピューティングシステム９００によってアクセスされ得る任意の利用可能な媒体であることができ、揮発性および不揮発性媒体、ならびに着脱式および非着脱式媒体の両方を含む。システムメモリ９３０は、リードオンリーメモリ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ、ＲＯＭ）９３１およびランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭ）９３２などの揮発性および／または不揮発性メモリの形態のコンピュータ記憶媒体を含む。無線チャネルなどの一時的媒体は機械可読媒体に含まれない。通信媒体は、通例、コンピュータ可読命令、データ構造、他の実行可能ソフトウェア、または他の輸送機構を組み込み、任意の情報送達媒体を含む。

ＲＡＭ９３２は、通例、即時にアクセス可能であり、および／または処理ユニット９２０によって目下操作されているデータおよび／またはソフトウェアを包含する。ＲＡＭ９３２は、オペレーティングシステム９３４、アプリケーションプログラム９３５、他の実行可能ソフトウェア９３６、およびプログラムデータ９３７の部分を含むことができる。

ユーザは、キーボード、タッチスクリーン、またはソフトウェアもしくはハードウェア入力ボタン９６２、マイクロフォン９６３、マウス、トラックボールもしくはタッチパッドなどのポインティングデバイスおよび／またはスクローリング入力構成要素などの入力デバイスを通じてコマンドおよび情報をコンピューティングシステム９００に入力し得る。マイクロフォン９６３は音声認識ソフトウェアと協働することができる。これらおよび他の入力デバイスは、多くの場合、システムバス９２１に結合されたユーザ入力インターフェース９６０を通して処理ユニット９２０に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス（ｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ）（ＵＳＢ）などの、他のインターフェースおよびバス構造によって接続することもできる。表示モニタ９９１または他の種類の表示画面デバイスも、ディスプレイインターフェース９９０などのインターフェースを介してシステムバス９２１に接続されている。モニタ９９１に加えて、コンピューティングデバイスはまた、スピーカ９９７、バイブレータ９９９、および出力周辺インターフェース９９５を通して接続され得る他の出力デバイスなどの、他の周辺出力デバイスも含み得る。

コンピューティングシステム９００は、リモートコンピューティングシステム９８０などの、１または複数のリモートコンピュータ／クライアントデバイスへの論理接続を用いたネットワーク化環境内で動作することができる。リモートコンピューティングシステム９８０は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、または他の共通ネットワークノードができ、通例、コンピューティングシステム９００に関して上述された要素のうちの多くまたは全てを含む。本図に示される論理接続は、パーソナルエリアネットワーク（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）（「ＰＡＮ」）９７２（例えば、ブルートゥース（登録商標））、ローカルエリアネットワーク（「ＬＡＮ」）９７１（例えば、Ｗｉ－Ｆｉ）、およびワイドエリアネットワーク（「ＷＡＮ」）９７３（例えば、セルラーネットワーク）を含むことができるが、他のネットワークも含み得る。このようなネットワーキング環境は、オフィス、企業規模のコンピュータネットワーク、イントラネット、およびインターネットにおいて一般的である。ブラウザアプリケーション、またはリモートサーバ上のアプリケーションと直接協働する他のネイティブアプリケーションがコンピューティングデバイス上に常駐し、メモリ内に記憶されてもよい。

ＬＡＮネットワーキング環境内で用いられるときには、コンピューティングシステム９００は、例えば、ブルートゥース（登録商標）またはＷｉ－Ｆｉアダプタであることができる、ネットワークインターフェースまたはアダプタ９７０を通してＬＡＮ９７１に接続される。ＷＡＮネットワーキング環境（例えば、インターネット）内で用いられるときには、コンピューティングシステム９００は、通例、ＷＡＮ９７３を通じた通信を確立するための何らかの手段を含む。

本設計は、図９に関して説明されたものなどのコンピューティングシステム上で実施することができることに留意されたい。しかし、本設計は、サーバ、メッセージ通信処理専門のコンピューティングデバイス、または本設計の異なる部分が分散コンピューティングシステムの異なる部分上で実施される分散システム上で実施することができる。

一実施形態では、本明細書において説明されるアルゴリズムを促進するために用いられるソフトウェアを非一時的機械可読媒体上に組み込むことができる。機械可読媒体は、機械（例えば、コンピュータ）によって可読の形式の情報を記憶する任意の機構を含む。例えば、非一時的機械可読媒体は、リードオンリーメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイス、デジタル多用途ディスク（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ、ＤＶＤ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、磁気もしくは光カード、または一時的信号を除く、電子命令を記憶するために適した任意の種類の媒体を含むことができる。

本明細書において説明されるアプリケーションは、限定するものではないが、ソフトウェアアプリケーション、モバイルアプリ、およびオペレーティングシステムアプリケーションの一部であるプログラムを含むことに留意されたい。本説明のいくつかの部分は、コンピュータメモリ内のデータビットに対する演算のアルゴリズムおよび記号表現の言葉で提示される。これらのアルゴリズム的記述および表現は、データ処理技術分野における当業者によって、彼らの仕事の内容を他の当業者へ最も効果的に伝えるために用いられる手段である。アルゴリズムは、ここでは、および一般的には、所望の結果をもたらすステップの自己無撞着シーケンスであると理解される。ステップは、物理量の物理的操作を必要とするものである。通例、必ずというわけではないが、これらの量は、記憶され、転送され、結合され、比較され、および他の仕方で操作される能力を有する電気または磁気信号の形態を取る。時として、主に共通に使用する理由で、これらの信号を、ビット、値、要素、記号、文字、項、数、または同様のものと称することが都合よいことが分かっている。これらのアルゴリズムは、Ｐｙｔｈｏｎ、Ｊａｖａ、ＨＴＴＰ、Ｃ、Ｃ＋、または他の同様の言語などの多数の異なるソフトウェアプログラミング言語で書かれ得る。また、アルゴリズムは、ソフトウェアにおけるコード行、ソフトウェアにおいて構成された論理ゲート、または両方の組み合わせを用いて実施することもできる。一実施形態では、論理は、ブール論理の規則に従う電子回路、命令のパターンを包含するソフトウェア、または両方の任意の組み合わせからなる。

電子ハードウェア構成要素によって遂行される多くの機能はソフトウェアエミュレーションによって複製することができる。それゆえ、それらの同じ機能を果たすために書かれたソフトウェアプログラムが、入力－出力回路機構内のハードウェア構成要素の機能性をエミュレートすることができる。

上述の設計およびその諸実施形態はかなり詳細に提供されたが、本明細書において提供される設計および諸実施形態が限定となることは出願人の意図ではない。さらなる適応および／または変更が可能であり、より広い態様には、これらの適応および／または変更も包含される。したがって、添付の請求項によって与えられる範囲から逸脱することなく、上述の設計および諸実施形態からの逸脱が行われ得る。範囲は、適切に解釈されたときの請求項によってのみ限定される。

１００スマートビジョンシステム
３００画像フレーム
４００スマートビジョンアーキテクチャ
５００画像センサ
６００画像フレーム
７００シーン
９００ネットワーク環境
９０２Ａ第１のモバイルコンピューティングデバイス
９０２Ｂ第１のポータブルコンピュータ
９０２Ｃ第１のウェアラブル電子デバイス
９０２Ｄ第１のスマート自動車
９０２Ｅ第２のモバイルコンピューティングデバイス
９０２Ｆ第３のモバイルコンピューティングデバイス、第２のポータブルコンピュータ
９０２Ｈ第１のスマートテレビ
９０４クラウドプロバイダプラットフォーム
９０４Ａ第１のサーバコンピューティングシステム
９０４Ｂ第２のサーバコンピューティングシステム
９０４Ｃ仮想現実ヘッドセット
９０６Ａ、９０６Ｂデータベース
９１０通信ネットワーク
９２０処理ユニット
９２１システムバス
９３０システムメモリ
９３１リードオンリーメモリ
９３２ランダムアクセスメモリ
９３４オペレーティングシステム
９３５アプリケーションプログラム
９３６他の実行可能ソフトウェア
９３７プログラムデータ
９６０ユーザ入力インターフェース
９６２ソフトウェアもしくはハードウェア入力ボタン
９６３マイクロフォン
９７０ネットワークインターフェース、アダプタ
９７１ローカルエリアネットワーク
９７２パーソナルエリアネットワーク
９７３ワイドエリアネットワーク
９８０リモートコンピューティングシステム
９９０ディスプレイインターフェース
９９１表示モニタ
９９５出力周辺インターフェース
９９７スピーカ
９９９バイブレータ
１０００コンピューティングシステム
１１００システム

Claims

１または複数のプロセッサによって実行可能なフォーマットで命令を記憶した非一時的コンピュータ可読媒体であって、前記命令が、以下のとおりの動作、
センサ制御ユニットを用いて、ｉ）局所的解像度、ｉｉ）ダイナミックレンジ、およびｉｉｉ）フレームレートのピクセルパラメータを同時に独立して制御するよう画像品質情報を、ピクセルのセットベースで、最適化することであって、前記独立した制御が、ｉ）少なくとも、以前の画像フレームにおいて何が文脈的に起きていたのかの文脈理解、シーンの文脈理解、および予想されるシーンの文脈理解のうちのいずれか、ならびにｉｉ）顕著な要素が第１の画像フレームの第１の領域および前記第１の画像フレームの第２の領域のうちのいずれかの内部に配置されているかどうかに基づいて、前記第１の画像フレームの複数の領域内で行われ、前記センサ制御ユニットが画像センサと協働し、前記第１の画像フレーム内の複数の領域を作成し、前記第１の画像フレームを取り込む各領域が、画像ピクセルデータを取り込むためのピクセルのその独自のセットを包含し、前記第１の領域内の第１のピクセルのセットのためのピクセルパラメータが、その同じ第１の画像フレームのための前記第２の領域内の第２のピクセルのセットから収集される画像ピクセルデータのためのピクセルパラメータとは異なって動作するように構成される、最適化することと、
前記センサ制御ユニットを用いて、前記第１の領域内においては、ピクセルのためのｉ）前記局所的解像度、ｉｉ）前記ダイナミックレンジ、およびｉｉｉ）前記フレームレートのうちのいずれかのピクセルパラメータを増大させるか、または減少させ、その一方で、同時に、前記第１の画像フレーム内に包含された顕著でない要素を包含する、前記第２の領域内においては、ｉ）前記局所的解像度、ｉｉ）前記フレームレート、およびｉｉｉ）前記ダイナミックレンジのうちのいずれかを維持するか、増大させるか、または低減させるよう、出力ピクセルデータレートを調整することと、
前記第１の画像フレームのために、領域ごとに、前記ピクセルのセットから収集される前記画像ピクセルデータに識別子を供給し挿入するための画像フレームマッパであって、前記第１の領域内の前記第１のピクセルのセットが、同じ画像フレームを取り込む前記第２の領域内の前記第２のピクセルのセットとは異なるピクセルパラメータの下で動作しているため、前記第１の領域から得られる前記画像ピクセルデータが、前記第１の画像フレームのための前記第２の領域から得られる前記画像ピクセルデータとは異なる収集サイクルにおいて収集される、画像フレームマッパと、
を含む動作を行わせる、非一時的コンピュータ可読媒体。
前記１または複数のプロセッサによって実行可能な前記フォーマットで記憶された前記命令が、以下のとおりのさらなる動作を行わせるように構成されており、すなわち、
前記第１の領域のための前記画像ピクセルデータが、その同じ画像フレームのための前記第２の領域内の前記第２のピクセルのセットからの前記画像ピクセルデータとは異なる時点における前記第１のピクセルのセットから収集される、請求項１に記載の非一時的コンピュータ可読媒体。
前記１または複数のプロセッサによる前記実行可能なフォーマットの前記記憶された命令が、以下のとおりのさらなる動作、すなわち、
前記センサ制御ユニットを用いて、前記第１の画像フレームの全体を構成する１または複数の領域にわたるが、前記第１の画像フレーム全体にわたるものではないピクセルに、向上した性能のピクセルパラメータを適用し、それゆえ、ｉ）少なくとも、前記以前の画像フレームにおいて何が文脈的に起きていたのかの前記文脈理解、およびｉｉ）顕著な要素が、前記第１の画像フレームの前記第１の領域、前記第１の画像フレームの前記第２の領域、または前記第１および第２の領域の両方のうちのいずれかの内部に配置されているかどうかに基づいて、前記画像フレーム全体を構成する一部のピクセルがより低い性能のピクセルパラメータで動作しているのと同時に、他のピクセルが前記向上した性能のピクセルパラメータで動作していることと、
別個のコントローラを用いて、少なくとも環境照明条件に基づいて、前記第１の画像フレーム全体を構成する前記ピクセルの全てのためのピクセルパラメータの全域変更を行うことと、
を行わせるように構成されている、請求項１に記載の非一時的コンピュータ可読媒体。
合成器モジュールを用いて、前記第１の画像フレームを構成する前記領域の全てからの前記画像ピクセルデータの全てを収集し、そして、前記第１の画像フレームと相互関係がある識別子に基づいて、前記第１の画像フレームのための、異なるサイクル上で収集された少なくとも前記第１の領域および前記第２の領域からの前記画像ピクセルデータを再構成させることをさらに含む、請求項２に記載の非一時的コンピュータ可読媒体。
以前の画像フレーム内の動向を追跡し、シーンデータモデルを参照し、１または複数の人工知能アルゴリズムを利用して、前記第１の画像フレーム内で何が文脈的に起きているのかを理解し、そして、ｉ）前記以前の画像フレーム内で何が文脈的に起きていたのかの前記文脈理解、およびｉｉ）顕著な要素が、前記第１の領域内に配置され、前記第２の領域内に配置されないと予測されるかどうかに基づいて、前記第１の領域内のピクセルパラメータを増大させ、その一方で、同時に、前記第２の領域内の画像ピクセルパラメータを維持するかまたは低減させるよう、前記画像ピクセルパラメータを変更すること、をさらに含む、請求項１に記載の非一時的コンピュータ可読媒体。
１）前記第１の画像フレームを構成する領域内の前記画像ピクセルデータを取り込む前記ピクセルを有する前記画像センサに関係する、ｉ）帯域幅制限、ｉｉ）メモリストレージ、および／またはｉｉｉ）電力消費制限のいずれか内、ならびに２）前記センサ制御ユニットと前記画像センサとの間の通信ループに関係する、ｉ）帯域幅制限、ｉｉ）メモリストレージ、および／またはｉｉｉ）電力消費制限のいずれか内に収めつつ、前記画像品質情報が最適化される、請求項１に記載の非一時的コンピュータ可読媒体。
装置であって、
１または複数の画像プロセッサであって、各画像プロセッサが、少なくとも、ピクセルを有するその独自の画像センサを包含する、１または複数の画像プロセッサと、
前記１または複数の画像プロセッサのための第１の画像フレーム内の複数の領域を、ピクセルのセットベースで、作成するように構成されたセンサ制御ユニットであって、前記第１の画像フレームを取り込む各領域が、画像ピクセルデータを有するピクセルのその独自のセットを包含し、前記画像プロセッサが、前記複数の領域のうちの第１の領域内の第１のピクセルのセットのためのピクセルパラメータをその第１の画像フレーム内の第２の領域内の第２のピクセルのセットとはピクセルパラメータが異なるよう設定するように構成されている、センサ制御ユニットと、
１または複数の以前の画像フレーム内の動向を追跡し、前記第１の画像フレーム内で何が文脈的に起きているのかの理解を手助けするように構成された予測および適応シーンモデリングモジュールであって、前記１または複数の画像プロセッサが、ｉ）少なくとも、以前の画像フレーム内で何が文脈的に起きていたのかの文脈理解、シーンの文脈理解、および予想されるシーンの文脈理解のうちのいずれか、ならびにｉｉ）顕著な要素が前記第１の領域または第２の領域内に配置されているかどうかに基づいて、各領域のための動作モードを変更し、それゆえ、その領域内のピクセルのためのピクセルパラメータを変更するように構成されており、前記第１の領域内の前記第１のピクセルのセットのためのピクセルパラメータが、その同じ第１の画像フレームのための前記第２の領域内の前記第１のピクセルのセットから収集される前記画像ピクセルデータのための前記ピクセルパラメータとは異なって動作するように構成され、ｉ）第１の以前の画像フレーム内の１または複数の領域内の顕著な要素を特定し、ならびに／あるいはｉｉ）現在の画像フレームまたは将来の画像フレーム内の１または複数の領域内の顕著な要素を予測し、そして、顕著な要素の存在または予測される存在が前記第１の領域内にあり前記第２の領域内にないことに基づいて、前記第１の領域内の前記第１のピクセルのセットのためのピクセルパラメータを、前記第２の領域内の前記第２のピクセルのセットとは異なるよう変更するためのガイダンスを前記センサ制御ユニットへ送信するための双方向通信ループが前記予測および適応シーンモデリングモジュールと前記センサ制御ユニットとの間に存在する、予測および適応シーンモデリングモジュールと、
前記第１の画像フレームのために、領域ごとに、ピクセルの前記セットから収集される前記画像ピクセルデータに識別子を供給し挿入するための画像フレームマッパであって、前記第１の領域内の前記第１のピクセルのセットが、同じ画像フレームを取り込む前記第２の領域内の前記第２のピクセルのセットとは異なるピクセルパラメータの下で動作しているため、前記第１の領域内の前記第１のピクセルのセットから得られる前記画像ピクセルデータが、前記第１の画像フレームのための前記第２の領域内の前記第２のピクセルのセットから得られる前記画像ピクセルデータとは異なる収集サイクルにおいて収集される、画像フレームマッパと、
を備える装置。
前記第１の画像フレームを構成する前記領域の全てからの前記画像ピクセルデータの全てを収集するように構成された合成器モジュールであって、そして、前記合成器モジュールが、前記第１の画像フレームと相互関係がある前記識別子に基づいて、前記第１の画像フレームのため、異なるサイクル上で収集された少なくとも前記第１の領域および前記第２の領域からの画像ピクセルデータを再構成させるように構成されている、合成器モジュールをさらに備える、請求項７に記載の装置。
合成器モジュールが、どの領域の出力が前記第１の画像フレームのための背景ベースとして用いられることになり、どの他の領域のピクセル出力データが当領域内に顕著な要素を有する領域群を取り込む際にトリミングされ前記第１の画像フレームのための前記背景ベース内にペーストされることになるのかを決定するための適応設定を用いるように構成されていること、をさらに含む、請求項７に記載の装置。
ｉ）複数のセンサ入力からの複数の領域を受け入れ、フレームバッファを用い、ｉｉ）各領域の出力のための画像ピクセルデータを空間的に整列させ、ｉｉｉ）各領域の出力のための画像ピクセルデータを一時的に整列させ、そして、ｉｖ）１または複数の選択された領域の出力ピクセルデータからの前記画像ピクセルデータをトリミングし、前記第１の画像フレームのための背景ビデオベース上にペーストするように構成された、合成器モジュールをさらに備える、請求項７に記載の装置。
前記１または複数の画像プロセッサが、複数の独立したイメージャセンサを有する第１の画像プロセッサを含む、請求項７に記載の装置。
前記１または複数の画像プロセッサが、ピクセルを有する独自の画像センサを有する第１の画像プロセッサおよびピクセルを有する独自の画像センサを有する第２の画像プロセッサを含み、これら２つの画像プロセッサが、分散作業アーキテクチャ内で互いに協働し、ｉ）画像プロセッサごとの異なる領域、ｉｉ）前記第１の画像フレームのためのベースビデオを取り込む１つの画像プロセッサとの重なり領域、およびｉｉｉ）両方の組み合わせからなる群から選択される領域を取り込むように構成されている、請求項７に記載の装置。
装置であって、
ピクセルアレイ内のピクセルによって第１の画像フレーム内に取り込まれる画像全体にわたって、ｉ）イメージャ解像度、ｉｉ）ダイナミックレンジ、および／またはｉｉｉ）フレームレートのピクセルパラメータを同時に独立して制御し、領域増分で不均一に調整するためのセンサ制御ユニットと、
画像処理ユニットから前記センサ制御ユニットへの通信ループを有する画像処理ユニットであって、前記画像処理ユニットが、前記ピクセルアレイ内に前記ピクセルを有する画像センサを包含するように構成されており、前記画像処理ユニットが、前記第１の画像フレーム内の異なる関心領域内のｉ）前記イメージャ解像度、ｉｉ）前記ダイナミックレンジ、および／またはｉｉｉ）前記フレームレートを同時に独立して変更するために、ピクセルパラメータフィードバックをピクセルのセットベースで供給し、前記第１の画像フレームを取り込む各領域が、画像ピクセルデータを取り込むためのピクセルのその独自のセットを包含する、画像処理ユニットと、
前記センサ制御ユニットに結合された予測および適応シーンモデリングモジュールであって、前記第１の画像フレーム内の１または複数の関心領域内の顕著な要素を予測し、そして、ｉ）顕著な要素を有するそれらの領域内の１）前記イメージャ解像度、２）前記ダイナミックレンジ、および／または３）前記フレームレートのうちの少なくとも１つを増大させ、そして、１）１または複数の画像センサ、または２）前記センサ制御ユニットと前記画像処理ユニットとの間の前記通信ループによって課される、ｉ）帯域幅制限、ｉｉ）メモリストレージ、および／またはｉｉｉ）電力消費制限のいずれか内に収まるよう、顕著な要素を有しない領域内の１）前記イメージャ解像度、２）前記ダイナミックレンジ、および／または３）前記フレームレートのうちの少なくとも１つをｉ）維持するか、またはｉｉ）減少させるためのガイダンスを前記センサ制御ユニットへ送信し、前記第１の画像フレームを取り込む各領域が、画像ピクセルデータを取り込むためのピクセルのその独自のセットを包含する、予測および適応シーンモデリングモジュールと、
前記第１の画像フレームのために、領域ごとに、ピクセルの前記セットから収集される前記画像ピクセルデータに識別子を供給し挿入するための画像フレームマッパであって、第１の領域内の第１のピクセルのセットが、同じ画像フレームを取り込む第２の領域内の第２のピクセルのセットとは異なるピクセルパラメータの下で動作しているため、前記第１の領域内の第１のピクセルのセットから得られる前記画像ピクセルデータが、前記第１の画像フレームのための前記第２の領域内の第２のピクセルのセットから得られる前記画像ピクセルデータとは異なる収集サイクルにおいて収集される、画像フレームマッパと、
を備える装置。
前記予測および適応シーンモデリングモジュールならびに画像シーン理解および分析モジュールが、互いに協働するように構成されており、
前記予測および適応シーンモデリングモジュールが、前記１または複数の以前の画像フレーム内におけるシーンデータの変化の動向を分析し、追跡するように構成されており、１または複数のシーンモデルが、来たるべき画像フレームのために必要とされるピクセルパラメータ変更を予測するために、異なる関心シーン領域内の１または複数の顕著な要素を監視し追跡するための予測方策として維持され、
前記画像シーン理解および分析モジュールが、前記以前の画像フレーム内の前記シーン内で発生した物体およびイベントを特定し、前記シーンの領域内の顕著な要素を特定するためにシーンを分析するように構成されており、前記顕著な要素が特定されると、特定される前記顕著な要素が前記予測および適応シーンモデリングモジュールに伝えられ、前記装置が前記予測および適応シーンモデリングモジュールが予測する前記シーン内における急速な変化に備えることを確実にする、
請求項１３に記載の装置。
前記予測および適応シーンモデリングモジュールならびに画像シーン理解および分析モジュールが協働し、ｉ）リアルタイム画像シーン動態を分析し、シーン活動を分析し、シーンの意味論的推論を発展させ、その一方で、ｉｉ）同時に、シーン情報を最大化するよう前記センサ制御ユニットのためのピクセルパラメータを決定し、前記ピクセルパラメータを前記センサ制御ユニットへ送信し、取り込まれる前記第１の画像フレームのための前記異なる関心領域内のピクセルのための前記ピクセルパラメータを動的に調整するように構成されており、前記センサ制御ユニットが、ｉ）１または複数の以前の画像フレーム内で何が文脈的に起きていたのかの文脈理解、およびｉｉ）顕著な要素が前記第１の領域または第２の領域内に配置されているかどうかに基づいて、不均一に、および独立して、ｉ）顕著な要素を有する第１の領域内の１）前記イメージャ解像度、２）前記ダイナミックレンジ、および／または３）前記フレームレートのうちの少なくとも１つを増大させ、顕著な要素を有する第２の領域内の１）前記イメージャ解像度、２）前記ダイナミックレンジ、および／または３）前記フレームレートの少なくとも異なるピクセルパラメータを増大させるように構成されている、請求項１３に記載の装置。
前記予測および適応シーンモデリングモジュールが、ｉ）前記以前の画像フレーム内にあることを見出されたかまたは予測された前記顕著な要素および非顕著性要素の各々を分析し、ｉｉ）画像およびシーンデータモデルと比較するように構成されており、これにより、前記予測および適応シーンモデリングモジュールが、その種類の顕著な要素のために最も適したピクセルパラメータを特定および予測し得る、請求項１３に記載の装置。
前記予測および適応シーンモデリングモジュールが、
予測的シーン理解を支援するための数多くの画像データモデルを維持することを通じて、来たるべき画像形成パラメータ変更を予測し、そして、顕著な要素およびいかなる種類の顕著な要素が前記第１の画像フレーム内の１または複数の関心領域内にあるかを特定および／または予測するとともに、ｉｉ）顕著な要素を全く有しない１または複数の領域を特定し、
そして、顕著な要素を有するそれら領域内の前記種類の顕著な要素に最も適した１）前記イメージャ解像度、２）前記ダイナミックレンジ、および／または３）前記フレームレートのうちの少なくとも１つをｉ）増大させるためのガイダンスを前記センサ制御ユニットへ送信し、
そして、１）前記画像センサ、または２）前記センサ制御ユニットと前記画像処理ユニットとの間の前記通信ループによって課される、前記ｉ）帯域幅制限、ｉｉ）メモリストレージ、および／またはｉｉｉ）電力消費制限内に収まるよう、顕著な要素を有しないそれらの領域内の１）前記イメージャ解像度、２）前記ダイナミックレンジ、および／または３）前記フレームレートのうちの少なくとも１つを維持するか、または減少させるための方策を含むように構成されている、請求項１３に記載の装置。
前記第１の画像フレームを指示し各関心領域のための前記ピクセルから収集されるデータに含まれる識別子を用いて、前記第１の画像フレーム内の前記複数の関心領域内で取り込まれた要素をつなぎ合わせるように構成された、合成器モジュールをさらに備える、請求項１３に記載の装置。
前記予測および適応シーンモデリングモジュールならびに画像シーン理解および分析モジュールが、互いに協働するように構成されており、前記予測および適応シーンモデリングモジュールならびに前記画像シーン理解および分析モジュールが協働し、１または複数の顕著な要素を包含するがゆえに、前記第１の画像フレーム内のより高いイメージャ解像度、ダイナミックレンジ、および／またはフレームレートを用いて最適に取り込まれる必要がある第１の画像フレーム内の前記関心領域について分析し、その一方で、同時に、顕著でない要素のみを包含する他のあまり重要でない関心領域が存在し、そこでは、１）１または複数の画像センサによって課される、ｉ）帯域幅制限、ｉｉ）メモリストレージ、および／またはｉｉｉ）電力消費制限、ならびに２）前記センサ制御ユニットと前記画像処理ユニットとの間の通信ループによって課される、ｉ）帯域幅制限、ｉｉ）メモリストレージ、および／またはｉｉｉ）電力消費制限のいずれか内に収まるよう、前記第１の画像フレーム内のイメージャ解像度、ダイナミックレンジ、および／またはフレームレートのためのデフォルトのピクセルパラメータ設定を用いて、低減された画像詳細が取り込まれ得る、請求項１３に記載の装置。
前記ピクセルパラメータが、前記第１の画像フレーム内の物体の位置情報に基づいて、前記第１の画像フレーム内の第１の領域内において、前記第１の画像フレーム内の第２の領域内の他のピクセルパラメータに対して増大または減少させられるよう最適化される、請求項１３に記載の装置。
前記予測および適応シーンモデリングモジュールが、１または複数の機械学習モジュール、ならびにシーン区分化および分類モジュールおよび関心領域推移活動分類モジュールを有するシーン理解モジュールを含み、前記１または複数の機械学習モジュールが、シーンモデル、物体モデル、およびイベントモデルを含む、請求項１３に記載の装置。