JP2021517682A - 意味処理および動的シーンモデリングに基づく向上された画像形成のための方法 - Google Patents

意味処理および動的シーンモデリングに基づく向上された画像形成のための方法 Download PDF

Info

Publication number
JP2021517682A
JP2021517682A JP2020544504A JP2020544504A JP2021517682A JP 2021517682 A JP2021517682 A JP 2021517682A JP 2020544504 A JP2020544504 A JP 2020544504A JP 2020544504 A JP2020544504 A JP 2020544504A JP 2021517682 A JP2021517682 A JP 2021517682A
Authority
JP
Japan
Prior art keywords
image
region
scene
image frame
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020544504A
Other languages
English (en)
Other versions
JP7377806B2 (ja
Inventor
マイケル, アール. ピアセンティーノ,
マイケル, アール. ピアセンティーノ,
ジョン, アール. タワー,
ジョン, アール. タワー,
マイケル, エー. イスナルディ,
マイケル, エー. イスナルディ,
セク, エム. チャイ,
セク, エム. チャイ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SRI International Inc
Original Assignee
SRI International Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SRI International Inc filed Critical SRI International Inc
Publication of JP2021517682A publication Critical patent/JP2021517682A/ja
Application granted granted Critical
Publication of JP7377806B2 publication Critical patent/JP7377806B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/617Upgrading or updating of programs or applications for camera control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/65Control of camera operation in relation to power supply
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/665Control of cameras or camera modules involving internal camera communication with the image sensor, e.g. synchronising or multiplexing SSIS control signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/50Control of the SSIS exposure

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Studio Devices (AREA)
  • Image Processing (AREA)

Abstract

モジュールおよび制御ユニットは協働し、ピクセルアレイ内のピクセルによって画像フレーム内で取り込まれる画像全体にわたってピクセルパラメータを同時に独立して制御し、領域増分で不均一に調整する。i)1または複数の以前の画像フレーム内で何が文脈的に起きていたのかの文脈理解、およびii)顕著な要素がその領域内に配置されているかどうかに基づいて、所与の領域内のピクセルのためのピクセルパラメータ変更が行われる。加えて、i)顕著な要素を有するそれらの領域内のピクセルパラメータを増大または減少させ、そして、1)1または複数の画像センサ、または2)センサ制御ユニットと画像処理ユニットとの間の通信ループによって課される、i)帯域幅制限、ii)メモリストレージ、および/またはiii)電力消費制限のいずれか内に収まるよう、顕著な要素を有しない領域内のピクセルパラメータをi)維持するか、ii)増大させるか、またはiii)減少させるためのガイダンスがセンサ制御ユニットへ送信される。【選択図】図1

Description

相互参照
本出願は、2018年4月4日に出願された「Methods for enhanced imaging based on semantic processing and dynamic scene modeling」と題する米国仮特許出願第62/652,891号に対して米国特許法第119条の優先権を主張する。同出願はその全体が本明細書において参照により組み込まれる。
本開示の諸実施形態は概して画像センシングに関する。より詳細には、一実施形態は、人工知能(artificial intelligence、AI)を利用する1または複数のモジュールを用いた画像センシングに関する。
今日、局所画像領域内において必要とされる解像度、ダイナミックレンジ、およびフレームレートに達するために、COTSカメラは、通例、高性能パラメータをフレーム全体にわたって適用し、非常に高い、管理の難しいデータ転送速度(data rates)、およびより高いSWaPソリューションを生じさせる。
本明細書においては、画像形成のための様々な方法、装置、およびシステムが提供され得る。一実施形態では、モジュールおよび制御ユニットは協働し、ピクセルアレイ内のピクセルによって画像フレーム内で取り込まれる画像全体にわたってピクセルパラメータを同時に独立して制御し、領域増分で不均一に調整する。i)少なくとも、以前の画像フレームにおいて何が文脈的に起きていたのかの文脈理解、シーンの文脈理解、および予想されるシーンの文脈理解のうちのいずれか、ならびにii)顕著な要素がその領域内に配置されているかどうかに基づいて、所与の領域内のピクセルのためのピクセルパラメータ変更が行われる。加えて、i)顕著な要素を有するそれらの領域内のピクセルパラメータを増大させ、そして、1)1または複数の画像センサ、または2)センサ制御ユニットと画像処理ユニットとの間の通信ループによって課される、i)帯域幅制限、ii)メモリストレージ、および/またはiii)電力消費制限のいずれか内に収まるよう、顕著な要素を有しない領域内のピクセルパラメータをi)維持するか、またはii)減少させるためのガイダンスがセンサ制御ユニットへ送信される。センサ制御ユニットは、その結果に対応するよう領域内のパラメータを調整することができる。
意味処理および動的シーンモデリングに基づく向上された画像形成のためのスマートビジョンアーキテクチャの一実施形態のブロック図を示す。
4人の家族がテーブルを囲んで座っており、空中ドローンが母親の左肩の上方でホバリングしているシーンを取り込んだ画像フレームの一実施形態のブロック図を示す。
図2の画像フレーム内に取り込まれた関心領域に分割されたシーンの一実施形態のブロック図を示す。
意味処理および動的シーンモデリングに基づく向上された画像形成のためのスマートビジョンアーキテクチャの一実施形態のブロック図を示す。
例示的な画像センサであって、そのピクセルアレイ、刻時回路、および他の制御回路機構を有する画像センサの一実施形態のブロック図を示す。
道路上を走る自動車のシーンを取り込んだ画像フレームの一実施形態のブロック図を示す。
図6の画像フレーム内に取り込まれた関心領域に分割されたシーンの一実施形態のブロック図を示す。
意味処理および動的シーンモデリングに基づいて画像形成を向上することの一実施形態のフロー図を示す。 意味処理および動的シーンモデリングに基づいて画像形成を向上することの一実施形態のフロー図を示す。
本明細書において説明される設計の一実施形態に係るネットワーク環境内で互いに通信する多数の電子システムおよびデバイスを示す図である。
本明細書において説明される設計の一実施形態に係る、全体的または部分的に、サーバまたはクライアントコンピューティングデバイスのうちの1または複数の一部であることができるコンピューティングシステム1000を示す図である。
シーン、画像、および予測されるシーンの意味理解を生成するシステムの一実施形態の図を示す。
本設計は様々な変更、等価物、および代替形態の対象となるが、その特定の諸実施形態が図面において例として示され、これより詳細に説明される。本設計は、開示される特定の諸実施形態に限定されず、−対照的に−意図は、特定の諸実施形態を用いて全ての変更、等価物、および代替形態を包括することであることを理解されたい。
以下の説明においては、本設計の完全な理解を与えるために、特定のデータ信号、名前付きの構成要素、フレームの数等の例などの、数多くの具体的詳細が説明され得る。しかし、当業者には、本設計は、これらの具体的詳細を有せず実施され得ることが明らかであろう。他の場合には、よく知られた構成要素または方法は、本設計を不必要に不明瞭にすることを回避するために、詳細には説明されず、むしろ、ブロック図において説明される。さらに、第1のサーバなどの特定の番号参照を行うことができる。しかし、特定の番号参照は文字通りの連番として解釈されるべきではなく、むしろ、第1のサーバは第2のサーバとは異なると解釈されるべきである。それゆえ、説明される具体的詳細は単なる例示にすぎないものであり得る。具体的詳細は変更することができ、本設計の趣旨および範囲に依然として含まれるよう企図することができる。用語「結合される(coupled)」は、構成要素に直接、または別の構成要素を介して構成要素に間接的に接続されることを意味すると定義される。
図1は、意味処理および動的シーンモデリングに基づく向上された画像形成のためのスマートビジョンアーキテクチャの一実施形態のブロック図を示す。
スマートビジョンシステム100は分散画像センサアーキテクチャを用い得る。スマートビジョンシステム100は、例えば、センサ1、センサ2、センサ3、〜センサNなどの、複数の画像センサを含み得る。各画像センサは画像プリプロセッサに接続しており、それと協働し得る。各画像プリプロセッサはセンサセレクタおよび合成器モジュール内に多重化され得る。センサセレクタの出力は画像シーン理解および分析モジュールに接続し得る。画像シーン理解および分析モジュールの出力は、センサ制御ユニットに供給する、予測および適応シーンモデリングモジュールに接続し得る。センサ制御ユニットは画像センサに結合しており、動的フィードバックをそれらに提供する。
上述されたように、各画像プロセッサは、ピクセルを有する少なくともその独自の画像センサを包含するか、またはさもなければ、それと協働し得る。各画像プリプロセッサは、i)クアッドセンサなどの複数の画像センサ、またはi)単一の画像センサを有し得るが、このとき、2つ以上の画像プロセッサは、分散作業アーキテクチャ内で互いに協働するように構成されている。
一例では、分散作業アーキテクチャ内で協働する2つ以上の画像プロセッサは、画像センサ1などの、ピクセルを有する独自の画像センサを有する第1の画像プリプロセッサ、および画像センサ2などの、ピクセルを有する独自の画像センサを有する第2の画像プリプロセッサ等を含む。これらの2つ以上の画像プリプロセッサは分散作業アーキテクチャ内で互いに協働し、i)画像プロセッサごとの異なる領域、ii)第1の画像フレームのためのベースビデオを取り込む1つの画像プロセッサとの重なり領域、およびiii)両方の任意の組み合わせのうちのいずれかを取り込み得る。
この場合も先と同様に、画像プロセッサはまた、クアッドセンサ(例えば、図4参照)などの、複数の独立したイメージャセンサを有する画像プロセッサを含み得る。
処理によって洗練される領域は、単なるシーンのタイル状領域でなく、シーン内の関心物体によって御される。シーン理解アルゴリズムは重要物体を特定し、そして、それらの物体の周りの領域であって、それらのパラメータを最適化させることになる領域を規定する。領域はシーン内の任意の場所にあることができ、それらは、物体サイズ、およびイメージャの領域規定の最小解像度によって御される。
センサ制御ユニットは画像センサと協働し、1または複数の画像プリプロセッサのための単一の画像フレーム内の複数の領域を作成し得る。それゆえ、1つの画像フレーム内に複数の領域がある(例えば、図3参照)。その画像フレームを取り込む各領域は、ピクセルデータを取り込むためのピクセルの独自のセットを包含する。センサ制御ユニットは1または複数の画像プリプロセッサと協働し、ピクセルの各領域のための動作モードを変更し、その領域のためのピクセルパラメータを制御する能力を有し得る。ピクセルパラメータは、フレームレート、解像度、画像サイズ、積分時間等のうちのいずれかを含み得る。画像プロセッサは、複数の領域のうちの、例えば、第1の領域内のピクセルのためのピクセルパラメータを、その同じ画像フレーム内の第2の領域内のピクセルとはピクセルパラメータが異なるように設定し得る。
フレーム全体にわたって高性能パラメータを適用するのとは対照的に、この現在のアプローチは、アプリケーション開発者が、取り込まれる各画像の数多くの領域内の/単一の画像内の同時の局所的解像度、ダイナミックレンジ、およびフレームレートのための画像情報品質を最適化することを可能にする。加えて、出力データ転送速度を最小限に抑える必要性を支援するために、ピクセルパラメータの最適化はまた、その画像の非顕著領域内の解像度、フレームレート、およびダイナミックレンジを低減することもできる。
予測および適応シーンモデリングモジュールは1または複数の以前の画像フレーム内の動向を追跡し、画像フレーム内で何が文脈的に起きているのかを理解する手助けをし得る。もう1つの画像プロセッサは、i)1または複数の以前の画像フレーム内で何が文脈的に起きていたのかの文脈理解、およびii)顕著な要素が第1の領域もしくは第2の領域またはその両方内に配置されているかどうかに基づいて、各領域のための動作モードを変更し、それゆえ、その領域内のピクセルのための、フレームレート、画像サイズ、積分時間等などのピクセルパラメータを変更し得る。例えば、第1の領域内のピクセルのためのピクセルパラメータは、例えば、その同じ第1の画像フレームのための第2の領域から収集されるピクセルデータのためのピクセルパラメータとは異なって動作するように構成される。i)以前の画像フレーム内の1または複数の領域内の顕著なもの(例えば、画像品質に関して重要な要素)を特定し、ならびに/あるいはii)現在の画像フレームまたは将来の画像フレーム内の1または複数の領域内の顕著な要素を予測し、そして、例えば、顕著な要素の存在または予測される存在が第1の領域内にあり、第2の領域内にないことに基づいて、第1の領域内のピクセルのセットのためのピクセルパラメータを、第2の領域内のピクセルのセットとは異なるよう変更するためのガイダンスをセンサ制御ユニットへ送信するための双方向通信ループが予測および適応シーンモデリングモジュールとセンサ制御ユニットとの間に存在する。
本設計は、リアルタイム画像シーン動態、シーン活動を分析し、意味論的推論を発展させ、その一方で、同時に、シーン情報を最大化するように画像センサピクセルパラメータを調整する。本設計は、局所的ピクセルパラメータを、今の大抵のCOTSイメージャの場合のように全体的に制御するのではなく、独立して制御することをサポートする、最近利用可能になった画像センサデバイスを活用する。本設計は、シーン分析に基づく画像処理フィードバックを画像センサにおける局所パラメータに結び付ける。本設計は、予測的シーン理解を支援するための数多くの画像データモデルを維持することを通じて、来たるべき画像形成パラメータ変更を予測するための方策を含む。
本設計に固有であるのは、画像シーンが顕著な情報および非顕著な情報の分布を常に有するという事実に基づく出力データ帯域幅の適応制御である。どこで、いかなる種類の顕著な情報および非顕著な情報が画像フレーム内の異なる領域を占有しているのかの知識を突き合わせることで、システムの有能電力、処理リソース、およびネットワーク帯域幅能力を満たすよう、画像センサから出力されるピクセルデータのサイズを必要に応じて大きく低減することができる。
図1は、全てが同様の注視野を有する複数の画像センサが、表示されたシーン内の実用的な視覚情報を最大化するよう適応的に制御される、一実施形態をグラフィカルに示す。
各画像センサは、ピクセルパラメータ(例えば、フレームレート、画像サイズ、積分時間)が適応的に制御され得る主属性(例えば、高ダイナミックレンジ、高フレームレート、HSR)を有し得る。
全ての画像センサ出力は、下流の分析を最適化するために前処理される。例えば、雑音低減、NUC、およびコントラスト正規化が本ステップにおいて遂行され得る。また、HDRセンサからのいくつかのこまが、単一のHDRフレームを生成するために処理され得る。
センサセレクタは1つのセンサのピクセルデータ出力(例えば、HDR)を分析のために選択する。分析は、シーン区分化、シーン分類、および活動検出を含み得る。このセンサセレクタモジュールは2つのピクセルデータ出力を生成する:
− 適応的センサパラメータ設定:これらは、特定の関心シーン領域内の視覚情報を最適化するために用いられる。例えば、特定の領域内において増大した空間解像度を有することが所望される場合には、より低いフレームレートにもかかわらず、HSR画像センサがこれを提供することが可能であり得る。
− 適応的関心領域設定:これらは、合成されたシーン内において実用的な視覚情報を最適化するために、どの画像センサのピクセルデータ出力が背景として用いられることになるのか、およびどの他の画像センサのピクセルデータ出力がトリミングされ、背景ビデオ内にペーストされることになることになるのかを決定する。
合成器モジュールは、i)複数のセンサ入力からの潜在的に複数の領域を受け入れ、フレームバッファを用い、ii)各領域の出力のためのピクセルデータを空間的に整列させ、iii)各領域の出力のためのピクセルデータを一時的に整列させ、そして、iv)1または複数の選択された領域の出力ピクセルデータからのピクセルデータをトリミングし、第1の画像フレームのための背景ビデオベース上にペーストし得る。合成器モジュールは、どの領域の出力が画像フレームのための背景ベースとして用いられることになり、どの他の領域のピクセル出力データが、当領域内に顕著な要素を有する領域群を取り込む際にトリミングされ、画像フレームのための背景ベース内にペーストされることになるのかを決定するための適応的関心領域(Region Of Interest、ROI)設定を用い得る。
合成器モジュールは、画像フレームを構成する領域の全てからの画像ピクセルデータの全てを収集し得、そして、合成器モジュールは、当画像フレームと相互関係がある識別子に基づいて、画像フレームのための、異なるサイクル上で収集された少なくとも様々な領域からの画像ピクセルデータを再構成させるように構成されている。
背景および窓制御のための適応的ROI設定はセンサ制御ユニットから来る。加えて、マップ、GPS、IMUなどの、補助データソースも、背景およびROIの選択をガイダンスするために用いることができる。
画像センサが既知の視野(Field Of Vision、FOV)を用いて事前に校正される場合には、リアルタイムの空間的整列は必要なくてもよいことに留意されたい。それらは、(固定されたFOVに対しては)1度校正されるか、または(例えば、任意のレンズ焦点距離が変化した場合に)FOVが変化するたびに校正されるだけでよい。
全体として、デジタルイメージャ/カメラは、フレーム全体を構成する1または複数の部分にわたってのみ高性能パラメータを適用することができるが、フレーム全体にわたって同様のピクセルパラメータを適用しなくてもよい。画像センサ内の、または分散した様態で動作する複数の画像センサにわたる個々のピクセル領域のこの局所的制御、センサ制御ユニットは、各画像コントローラの、およびプリプロセッサの独自のピクセルパラメータコントローラを補強し得ることに留意されたい。各画像コントローラの、および関連するプリプロセッサ内の第2のコントローラは、概して、当画像センサ内のピクセルを包含する領域の全てにわたって均一に適用されることになる、少なくとも、環境照明条件、カメラフレームレート設定、そのカメラの選択された動作モード等に基づいて、ピクセルの全てのためのピクセルパラメータの全域変更を行うことができる。
スマートビジョンシステムは1または複数の人工知能モデルを用いてシーン動態を分析し、1または複数の関心領域内の顕著な関心要素を特定および/または予測し、顕著な要素を包含するそれらの領域内のシーン情報を最大化し、そして、顕著でない要素を包含する領域内のシーン情報を維持するか、または減少させることによって出力データ帯域幅を制御するために、i)特定もしくは予想されたものの種類要素、およびii)シーン内の要素の間で何が進行しているのかの文脈理解に基づいて、画像フレームを構成する個々の領域内のピクセルパラメータの同時調整をもたらす。シーン内の要素の間で何が進行しているのかのこの文脈理解は、画像フレームのためのオーバーサンプリングを遂行しないことも可能にする。
予測および適応シーンモデリングモジュールは画像シーン理解および分析モジュールと協働し、各画像フレームを分析し、画像データモデルを維持し、顕著な要素を特定し、ダイナミックレンジ、局所的物体運動、物体もしくはイベント、および局所的解像度要件などの局所的領域特性を予測し得る。各領域の要求の特定に基づいて、画像処理は、同じ画像フレーム内の異なる顕著または非顕著領域を特定のピクセルパラメータ(例えば解像度、フレームレート、およびダイナミックレンジ)のために同時に最適化するために、ピクセルパラメータを画像センサ(単数または複数)へ迅速にフィードバックする。
人工知能モデルは、いかなる関心物体がシーン内にあり得るのかを予測し、現在の画像フレーム内で取り込まれようとしているシーン内において何が起きているのかを全体的に理解するために、i)フレーム内で取り込まれたうちの現在の情報、およびii)現在のフレームにつながる以前のフレームの任意のシーケンス内で取り込まれた情報の両方を用いることになる。それゆえ、システムは、異なる関心領域のための画像ピクセルパラメータの動的フィードバック変更を行う。これはまた、シーン内のその種類の要素を追跡する、シーン内で何が起きているのかの予測モデルを作り上げる。
人工知能(AI)モデルは、人工知能アルゴリズム(例えば、逆伝搬、勾配降下)を用いて、物体およびシーン文脈を認識するよう訓練することができる。AIモデルは、シーン内の物体の活動を認識するために空間−時間情報(例えば、ビデオクリップ)を学習することができるニューラルネットワーク(例えば、RNN − リカレントニューラルネットワーク(recurrent neural network))を含むことができる。AIモデルは、シーン区分化(例えば、取り込まれた画像フレームを前景、背景、空中/地上、領域に分離すること)などのタスクを遂行するように訓練され得る。AIモデルは、領域、または領域のセットを優先順位付けし、選択することによって、アテンション機構として訓練され得る。AIモデルは、他のソースからのデータを用いて物体を認識するように事前に訓練されたAIモデルを含み得る。AIモデルは、シーンの文脈理解を生成するために、他のセンサ情報(例えばGPS、加速度計、マップ)を入力として用いてもよい。
画像フレーム内では、物体などの複数の要素が、その画像フレームまたは一連の画像フレーム内で起きている活動とともに特定されることになる。画像シーン理解および分析モジュールは、画像フレーム内の要素、およびそれらの現在のアクションを特定し、この情報を伝え得る。そして、予測および適応シーンモデリングモジュールは、文脈理解、画像フレーム内で特定された要素、ならびにそれらの現在のアクションまたは予想されるアクションを発展させ得る。例えば、図7では、追跡される画像フレームが、運動がそれらに関連付けられるため、それらのフレームレートを全体的に増大させられることを必要とし得るか、または図3では、顔または何らかの文字の細かい詳細を捕捉するために、解像度が増大させられる必要がある。
図2は、4人の家族がテーブルを囲んで座っており、空中ドローンが母親の左肩の上方でホバリングしているシーンを取り込んだ画像フレームの一実施形態のブロック図を示す。画像フレーム200は、ドローンのための取扱説明の文字をさらに包含し、母親の右側の男の子のそばにおいてテーブルの上に置かれている。
図3は、図2の画像フレーム内に取り込まれた関心領域に分割されたシーンの一実施形態のブロック図を示す。この単一の画像フレーム300は、関心領域、領域C、D、F、G、I、およびK、ならびに顕著な要素を全く包含しない他の領域、領域A、B、E、J、LおよびMに分割される。上述されたように、単一の画像センサ内のピクセルは、分散アーキテクチャ内で動作する複数の画像センサからの複数の関心領域を形成し得る。以前の画像フレームにおいて、画像シーン理解および分析モジュールならびに予測および適応シーンモデリングモジュールは協働し、テーブルを囲んで座る4人の家族の各々、および母親の左肩の上方でホバリングする空中ドローンなどの、顕著性の要素を特定した。モジュールはまた、テーブルの上に置かれているドローンのための文字/取扱説明のシートも特定した。画像シーン理解および分析モジュールならびに予測および適応シーンモデリングモジュールは協働し、ピクセルが後続のシーン情報をどのように取り込むことになるのかの、最適化されたほぼ瞬時の調整を確実にするために、局所的シーン内容およびアクションを自動的に監視する。例えば、概して、画像内においては、道路標識、文書、シャツ等の上の文字を見ることができることが重要である。それゆえ、本例における文字を有する取扱説明文書、画像シーン理解および分析モジュールが文字を特定し、ぼやけた文字が画像品質に悪影響を及ぼすことを知ったため、そして、予測および適応シーンモデリングモジュールは、それらの取扱説明を包含する領域Gのための解像度をデフォルト値よりも増大させなければならないと知る。同様に、シーン内で人物として特定された物体の各々のために、意味論的推論アルゴリズムは、顔特徴をより良好に取り込むことができるよう、異なる関心領域の設定をより高い空間解像度のために調整することになる。それゆえ、少なくとも、領域C、D、F、G、I、およびK内においては、デフォルト値よりも増大させられた空間解像度のための設定を有することになる。空中ドローンのために、領域D、および潜在的に、各隣接領域、領域C、E、およびJは、運動および他の詳細な特徴がより良好に取り込まれ得るよう、デフォルト値よりも増大させられたフレームレートおよび空間解像度のための設定を有することになる。運動している物体の隣接領域では、隣接領域は、物体の潜在的移動の予想に基づいて増大させられたピクセルパラメータを有することができる。他方で、領域A、B、E、J、H、L、およびMは顕著な要素を直ちに包含せず、このため、これらの領域のピクセルパラメータのためのデフォルト値、またはさらに、デフォルト値よりも低い設定をこれらの領域のために用いることができる。データ帯域幅を管理し、画像フレーム全体をオーバーサンプリングしないことを支援するために、シーン理解アルゴリズムは、画像内容が領域A、B、E、J、L、およびM内にほとんどまたは全く存在しないことを認識し、これにより、これらの領域はそれらの解像度、フレームレート、およびダイナミックレンジを、要求があるまで最小限に抑えさせることができる。アルゴリズムは、特徴を有するシーン情報を継続的に監視し、それらの顕著性および種類を決定し、その時点で利用可能なシステムリソースに基づいて可能とされる最大品質を有するこれらの高ダイナミックレンジシーンの画像形成を可能にするよう、ピクセルパラメータを調整する。モジュール内のアルゴリズムは、適時のイメージャ応答を確実にするために、リアルタイムの予測的シーンモデリングおよび理解を遂行する。モジュール内のアルゴリズムは、各領域のための最適なピクセルパラメータを設定するべく、ドローンおよび人物などの顕著な要素を検出することを助けるために、シーン構造(例えば屋内)を理解するための分析および物体認識を遂行する。
2つのモジュールは協働し、当画像フレーム内でより高い解像度、ダイナミックレンジ、および/またはフレームレートを用いて最適に取り込まれる必要がある、画像フレーム300、以前の画像フレームまたは現在の画像フレームのいずれかの内部の小領域について分析し、その一方で、同時に、低減された詳細が、利用可能なハードウェアリソース内で取り込まれることを必要とされるだけですむ、他のあまり重要でない領域も存在し、これらの個々の調整の全ては同じ画像フレーム内で動的に行われている。それゆえ、この解決策は、画像フレーム300内の局所的関心領域がどのように画像形成されるのかを、解像度、フレームレート、およびダイナミックレンジなどの画像パラメータが画像センサ内のピクセルレベルでどのように適用されるのかに関して動的に管理することになる。
関心領域は長方形または任意の他の形状であり得ることに留意されたい。
図4は、意味処理および動的シーンモデリングに基づく向上された画像形成のためのスマートビジョンアーキテクチャの一実施形態のブロック図を示す。スマートビジョンアーキテクチャ400は、例えば、複数の画像センサを有するカメラを用い得る。
センサ制御ユニットは、ピクセルアレイ内のピクセルによって画像フレーム内に取り込まれる画像全体にわたって、i)イメージャ解像度、ii)ダイナミックレンジ性能、および/またはiii)フレームレートのピクセルパラメータを同時に独立して制御し、領域増分で不均一に調整し得る。例えば、センサ制御ユニットは、i)1または複数の以前の画像フレーム内で何が文脈的に起きているのかの文脈理解、ならびにii)顕著な要素が第1の領域または第2の領域内に配置されているかどうかに基づいて、不均一に独立して、i)顕著な要素を有する第1の領域内の1)イメージャ解像度、2)ダイナミックレンジ、および/または3)フレームレートのうちの少なくとも1つを増大させ、顕著な要素を有する第2の領域内の、少なくとも、1)イメージャ解像度、2)ダイナミックレンジ、および/または3)フレームレートの異なるピクセルパラメータを増大させるように構成されている。
画像処理ユニットは、画像処理ユニットからセンサ制御ユニットへの低遅延フィードバック通信ループを有し得る。センサ制御ユニットは、画像フレーム内の異なる関心領域内のi)イメージャ解像度、ii)ダイナミックレンジ、および/またはiii)フレームレートを同時に独立して変更するために、ピクセルパラメータフィードバックを画像処理ユニットに供給する。
予測および適応シーンモデリングモジュールはセンサ制御ユニットに結合しており、画像フレーム内の1または複数の関心領域内の顕著な要素をi)特定および/またはii)予測し、そして、i)顕著な要素を有するそれらの領域内の1)イメージャ解像度、2)ダイナミックレンジ、および/または3)フレームレートのうちの少なくとも1つを増大させるためのガイダンスをセンサ制御ユニットへ送信する。予測および適応シーンモデリングモジュールはまた、そして、1)1または複数の画像センサ、または2)センサ制御ユニットと画像処理ユニットとの間の通信ループによって課される、i)帯域幅制限、ii)メモリストレージ、および/またはiii)電力消費制限のいずれか内に収まるよう、顕著な要素を有しない領域内の1)イメージャ解像度、2)ダイナミックレンジ、および/または3)フレームレートのうちの少なくとも1つをi)維持するか、またはii)減少させるためのガイダンスをセンサ制御ユニットへ送信することができる。
予測および適応シーンモデリングモジュールならびに画像シーン理解および分析モジュールは互いに協働する。モジュールは協働し、関心領域が1または複数の顕著な要素を包含するがゆえに、当画像フレーム内のより高いイメージャ解像度、ダイナミックレンジ、および/またはフレームレートを用いて最適に取り込まれる必要がある各画像フレーム内の関心領域について分析し、その一方で、同時に、顕著でない要素のみを包含する他のあまり重要でない関心領域が存在し、そこでは、1)画像フレームを構成する関心領域内のピクセルデータを取り込むピクセルを有する1または複数の画像センサによって課される、i)帯域幅制限、ii)メモリストレージ、および/またはiii)電力消費制限のいずれか、ならびに2)センサ制御ユニットと画像処理ユニットとの間の通信ループによって課される、i)帯域幅制限、ii)メモリストレージ、および/またはiii)電力消費制限のいずれか内に収まるよう、画像フレーム内のイメージャ解像度、ダイナミックレンジ、および/またはフレームレートのためのデフォルトのピクセルパラメータ設定を用いて、低減された画像詳細が取り込まれ得る。
ピクセルパラメータ変更の予測
予測および適応シーンモデリングモジュールは1または複数の以前の画像フレーム内のシーンデータの変化の動向を分析し、追跡し得る。1または複数のシーンモデルが、来たるべき画像フレームのために必要とされるピクセルパラメータ変更を予測するために異なる関心シーン領域内の1または複数の顕著な要素を監視し、追跡するための予測方策として維持される。モデルはシーンデータを追跡し、これにより、それらは、その種類の顕著な要素のために最も適したピクセルパラメータを調整することができる。各領域の要求の特定に基づいて、予測および適応シーンモデリングモジュールは、同じフレーム内の異なる顕著または非顕著領域を特定の解像度、フレームレート、またはダイナミックレンジのために同時に最適化するために、ピクセルまたは領域ベースのパラメータをセンサ制御ユニットおよびその画像センサへ迅速にフィードバックする。
モジュールは意味論的推論およびモデリングを適用する。モジュールは、シーン、ならびにそして、そのシーン内の車両および歩行者などの顕著な物体を検出し、それらの意味論的推論を両方とも発展させることを助けることができるシーン構造(例えば、道路または壁)を理解し、最適な局所的ピクセルパラメータ選択を設定する。画像シーン理解および分析モジュールは顕著な要素(扉、標識、運動している物体、色、明るいシーン、人物、障害物等)を特定する。予測および適応シーンモデリングモジュールは、以下のことを含むシーン区分化を用いる:
○ 深層学習(Deep Learning、DL)アルゴリズムを用いてシーン内の顕著な物体にラベルを付けること。
○ イメージャフィードバックが、ラベルを付けた物体に基づくことを除き、自律運転におけるアプローチと同様のこと。
○ 高ダイナミックレンジ(High Dynamic Range、HDR)、HSRおよび動き補償を必要とする領域を特定すること。
○ 画像センサの異なる領域内のピクセルパラメータの不均一かつ独立した制御をもたらす、物体検出のための意味レベルアルゴリズムの間のリアルタイムの結合を用いること。
予測および適応シーンモデリングモジュールは各画像フレーム内のシーンデータの変化の動向を分析し、追跡する。1または複数のシーンモデルが、来たるべき画像形成パラメータ変更を予測するために、例えば、HDRまたは高フレームレート/運動が必要なシーン領域を監視し、追跡するための予測方策として維持され得る。これらの人工知能(AI)モデルがシーンデータを追跡するのに従い、AIモデルは、異なる種類の顕著な要素のために最も適したイメージャパラメータを調整するための提案を行うことができる。
画像シーン理解および分析モジュールはシーンに注目し、シーン内の物体またはイベントから意味情報を特定する。画像シーン理解および分析モジュールは、以前の画像フレーム内のシーン内で生じている物体およびイベントを特定し、シーンの領域内の顕著な要素を特定するために、シーンを分析する。この情報は時間または空間分析方法からのものであることができる。顕著な要素が特定されると、そして、その情報は予測および適応シーンモデリングモジュールに伝えられ、装置が、予測および適応シーンモデリングモジュールの予測が、シーン内で変化するであろうと予測する、シーン内の急速な変化に備えることを確実にする。
画像シーン理解および分析モジュールならびに予測および適応シーンモデリングモジュールは協働し、ドローンがホバリングしているが、それが実際に移動したときには、十中八九、近隣の関心領域へ素早く移動するであろう、図3のものなどのシーン内の変化を予測し、このため、モジュールは、物体が、予想されるアクションを実際に遂行する、または起こす前に、その種類の顕著な要素のためのフレームレート、解像度、およびダイナミックレンジなどのピクセルレベルの設定を調整するためのガイダンスを送信する。同様に、図7では、予測および適応シーンモデリングモジュールは、領域J、およびK内の2台の車が画像フレームの次のセットにおいて領域H内へ移動し、それゆえ、領域J、K、およびHは、それらの領域内のピクセルのために増大させられたフレームレートを有することが必要になると予測することができる。
予測および適応シーンモデリングモジュールは、ドローンが隣接領域へ移動し得る図3、または自動車が道路の外形に従って隣接領域へ移動するはずである図7のものなど、シーンの変化を予測し、これにより、それが起きる前に、フレームレート、解像度、およびダイナミックレンジなどのピクセルレベルの設定を調整することを開始することによって、画像がシーン内の急速な変化に備えることを確実にする。
予測および適応シーンモデリングモジュールは、i)以前の画像フレーム内にあることを見出されたか、または予測される顕著な要素および非顕著性の要素の各々を分析し得、ii)予測および適応シーンモデリングモジュールが、その種類の顕著な要素のために最も適したピクセルパラメータを特定および予測し得るよう、画像およびシーンデータモデルと比較した。予測および適応シーンモデリングモジュールは、1または複数の以前の画像フレームを、それらをデータベース内に記憶し、それらを、維持された画像データモデルと比較することによって、分析し、ダイナミックレンジ、局所的物体運動、物体もしくはイベント、および/または局所的解像度要件などの局所的領域特性を特定し、予測し得る。予測および適応シーンモデリングモジュールは、当関心領域内で追跡または予想される顕著な要素のために最も適した、ダイナミックレンジ、局所的物体運動、物体もしくはイベント、および/または局所的解像度要件などの局所的領域特性を予測する。各領域の要求の特定に基づいて、画像処理はピクセルまたは領域ベースのパラメータをイメージャへ迅速にフィードバックし、顕著な要素を有する異なる領域を同時に最適化し、および/または同じフレーム内の顕著でない要素を有する領域を、特定の解像度、フレームレート、またはダイナミックレンジ値の設定閾値内に収まるよう必要に応じて調整する。
予測および適応シーンモデリングモジュールはシーンデータの変化の動向に注目する。明るい太陽または暗い影のどちらかが画像の区域内で趨勢となりつつある場合には、来たるべきダイナミックレンジの問題のために準備するべく局所的領域/ピクセルパラメータを調整したいと欲する。数多くのシーンモデルを、例えば、HDRまたは運動のシーン領域を監視し、追跡するための予測方策として維持することができる。モデルがシーンデータを追跡するのに従い、それらはイメージャパラメータを調整することができる。モデルは絶えず更新し、場合によっては、不良なモデルが落伍し得るか、または新たなモデルが、新たな条件を扱うために追加され得る。シーンモデリングは、低遅延の動的フィードバックを維持するために重要である。
予測および適応シーンモデリングモジュールは、予測的シーン理解を支援するための数多くの画像データモデルを維持することを通じて来たるべき画像形成パラメータ変更を予測し、そして、顕著な要素、およびいかなる種類の顕著な要素が画像フレーム内の1または複数の関心領域内にあるのかを特定および/または予測し、そして、i)顕著な要素を有するそれらの領域内の顕著な要素の種類に最も適した、1)イメージャ解像度、2)ダイナミックレンジ、および/または3)フレームレートのうちの少なくとも1つを増大させるためのガイダンスをセンサ制御ユニットへ送信するための方策を含み得る。各ピクセル領域内のイメージャ設定は物体の種類(例えば、推量された意味論的物体)に基づいて設定される。
いくつかの領域内のピクセルパラメータを増大させ、その一方で、同じ画像フレーム内の他の領域内のピクセルパラメータを維持するかまたは減少させること、をバランスさせること
予測および適応シーンモデリングモジュールはまた、そして、1)画像センサ、または2)センサ制御ユニットと画像処理ユニットとの間の通信ループによって課される、i)帯域幅制限、ii)メモリストレージ、および/またはiii)電力消費制限内に収まるよう、顕著な要素を有しないそれらの領域内の1)イメージャ解像度、2)ダイナミックレンジ、および/または3)フレームレートのうちの少なくとも1つを維持するか、または減少させ得る。
予測および適応シーンモデリングモジュールならびに画像シーン理解および分析モジュールは、協働し、i)リアルタイム画像シーン動態を分析し、シーン活動を分析し、シーンの意味論的推論を発展させ、その一方で、ii)同時に、シーン情報を最大化するべくセンサ制御ユニットのためのピクセルパラメータを決定し、ピクセルパラメータをセンサ制御ユニットへ送信し、取り込まれる現在の画像フレームのための異なる関心領域内のピクセルのためのピクセルパラメータを動的に調整するように構成され得る。
図7では、関心領域はシーン内の自動車の周りにある。自動車の運動が検出されることになり、および/または標識が検出されることになり、そして、関心領域がそれらの物体の周りで規定されることになる。
運動する自動車を有する領域、領域C、D、H、I、J、K、および予測のゆえに、領域Hは、より高いフレームレートを用いて取り込まれている。加えて、それらの同じ領域、および道路標識を有する領域Bは、文字および顔の細かい詳細を取り込むために、より高い解像度を用いて取り込まれることになる。リアルタイム運動分析に基づいてこれらのピクセルの全てを取り込むことは、これらのピクセルのために高いフレームレートおよび短い積分時間を余儀なくさせることになる。加えて、イメージャは、道路標識、および潜在的にナンバープレート上の文字、ならびに運転者の画像を、より高い解像度を用いて取り込みたいと欲することになる。今の画像センサは、高ダイナミックレンジ(HDR)、高空間解像度(high spatial resolution、HSR)、および高速移動物体を有するシーンを同時に取り込むことができない。領域A、E、F、GおよびIは顕著な要素を包含せず、それらのピクセルパラメータを維持させるか、または減少させることができる。
モジュールは協働し、局所的シーン理解およびモデリングを用い、各フレーム内の要素を取り込むための局所的ピクセルパラメータを予測し、迅速に調整する。モジュールは協働し、また、ダイナミックレンジ、空間解像度を局所的に調整し、局所的により高いフレームレートを用いて動きぼけを低減し、その一方で、管理可能な出力データ転送速度を維持するためのガイダンスを同時に送信する。それゆえ、いくつかの領域は、1)1または複数の画像センサ、または2)センサ制御ユニットと画像処理ユニットとの間の通信ループによって課される、i)帯域幅制限、ii)メモリストレージ、および/またはiii)電力消費制限のいずれか内に収まるよう、同じ画像フレーム内の他の領域内のピクセルパラメータを維持するか、または減少させる必要がある。
イメージャセンサおよびセンサ制御ユニットは、任意の所与のピクセルがどのように画像形成することになるのかのピクセルレベルのパラメータ制御(例えば、積分時間、フレームレート、解像度選択等)のために協働し、ハードウェアの出力データ帯域幅能力の釣り合いを取りつつ、重要なシーン内容が、ゆっくり変化するイメージャパラメータのゆえに失われないことを確実にするために、局所的シーンデータおよび特徴がどのように取り込まれるのかを最適化するための自動化された動的手段を提供する。
ほとんどの画像形成アプリケーションでは、最適に取り込まれる必要がある、画像フレーム内のより小さい領域が存在し、その一方で、低減された詳細が必要とされるあまり重要でない領域が存在する。現在の解決策は、フレーム内の局所領域がどのように画像形成されるのかを、解像度、フレームレート、およびダイナミックレンジなどの画像パラメータがイメージャ内のピクセルレベルでどのように適用されるのかに関して動的に管理することになる。我々のアプローチから少なくとも2つの利点がある:
(1)第1に、局所的画像品質、特徴および詳細を劇的に改善することができる。例えば、深い影または明るい太陽を見通すために、局所的ダイナミックレンジを改善することを行うことができ、また、画像の明瞭性を改善するために、高フレームレートで局所的運動を取り込むことを行うことができ、人が扉を通り抜けて来ることを予測し、これにより、彼らの顔を最適に取り込むことができるか、または顔の上の解像度を増して顔認識を強化する。
(2)第2に、より低いSWaP(Size,Weight and Power(サイズ、重量、および電力))ならびに管理可能なデータ帯域幅を有するシステムが必要とされる。この解決策によれば、イメージャから出力されるデータ量が大きく低減され、低減された電力、最小限に抑えられた処理リソース、および低減されたネットワーク帯域幅を必要とする将来のアプリケーションを可能にすることができる。
図3を再び参照すると、加えて、合成器モジュール(デジタルイメージャのセットなど)は、識別子、例えば、共通タイムラインからのタイムスタンプを用いて、単一の画像フレーム内の複数の関心領域内で取り込まれた要素をつなぎ合わせ得る。識別子は画像フレームを指示し、各関心領域のためのピクセルから収集されたデータに含まれる。
前処理モジュールは、次のモジュールおよびピクセルデータ動向のためのイメージャ出力のダイナミックレンジを調節し得る。イメージャへの何らかのグローバルゲインレベルのフィードバックが、より大きなシーン変化のために可能である。
デジタルイメージャは、音声を通例伴う一連の画像である、静止写真のバースト、またはビデオ録画を撮影するカメラであることができることに留意されたい。
制御ユニットは、GPSを含む、位置を、特定の領域内のパラメータを最適化するための入力として用いることができる。例えば、区域の上方を飛行している空中UAVは、 − それがどこにいるのかを知り、それゆえ、最適化されたパラメータを得るべき交差点のような地上の区域に基づく領域を規定することができる。
図11は、シーン、画像、および予測されるシーンの動的シーンモデリングを介した意味理解を生成するシステムの一実施形態の図を示す。
システム1100は、協力し合う多数のモデルおよびモジュールを含む。本例では、クアッドピクセルイメージャがピクセルデータを前処理画像モジュールに供給する。前処理画像モジュールはそのデータを、シーン区分化および分類モジュールおよび関心領域推移(course)活動分類モジュールを有する、シーン理解モジュールへ送信する。機械学習モデルは、情報をシーン理解モジュールならびに物体追跡および意味論的推論モジュールに供給するために用いられる、シーンモデル、物体モデル、およびイベントモデルを含む。シーン理解モジュールはその情報を物体追跡および意味論的推論モジュールへ送る。
システムは、何がシーン内で進行しているのか、およびセンサが取り込むべき重要な情報は何か、およびセンサがこの情報をどのように取り込むべきかを動的にリアルタイムで理解する能力を有する。最も重要な情報がシーン内で取り込まれることを確実にするためのポイントは、シーン内で選択された領域が現在のミッションまたは適用にとって重要であることを確実にすることである。図11は、動的なリアルタイムの領域選択を可能にする領域およびアルゴリズムを決定するための例示的なシーン理解処理パイプラインアーキテクチャを示す。
パイプラインの最初のシーン理解構成要素は、変化するシーンの主要なシーン区分が規定される(例えば空、地面)、シーン区分化および分類モジュールである。この情報は、いかなる物体がどこで見出されるのかの論理的理解をもたらすため、重要である(例えば、自動車は空ではあまり見出されない)。シーン区分の後に、アテンション機構、およびシーン内のシーン領域に基づいて訓練されたクラスを有する機械学習モデルに基づいて、最初の粗いROI(関心領域)選択が決定される。アテンション機構は様々な手がかり(例えば、特定のシーン領域内の物体運動、画像縁部形状)に基づくことができる。物体および後続の関心領域の実際の分類は分類段階まで行われない。シーン区分化宣言はまた、物体の運動(動きベクトル場)または画像品質などの他の因子によってトリガされ得る。画像品質が監視され、非常に暗く、または非常に明るくなり得る区域は、イメージャへのフィードバックを通じて画像パラメータを調整することを必要とする領域と考えられる。
物体追跡および意味論的推論処理モジュールならびにその様々なサブブロックは、アテンション機構によって以前に選択された関心領域、およびそれらが所与の適用のために重要なものであるかどうかを分析し、理解する。理解によって、物体、およびそれらがシーン内の関心領域内でどのように振る舞い、移動するのかをさらに洗練することができる(例えば、飛行機は空で鳥のように飛ばないが、UAVは可能であろう)。洗練された関心領域を用いて、詳細な分類を行い、各領域にラベルを付け、データを、表示、および領域にラベルを付けた出力のためにフォーマットすることができる。
次に、スマートビジョンセンサクアッドピクセルアーキテクチャへの複数のフィードバック段階がある。処理に先立って最良の画像品質をもたらすために、ピクセルイメージャパラメータへの粗いフィードバックをパイプラインアーキテクチャにおいて早期に行い、その後、関心領域内の物体を知ることに基づく領域ベースのフィードバックを行うことができる(例えば、影の中で歩く人物であり、したがって、顔認識を支援するべくダイナミックレンジおよび空間解像度の改善のために領域内のパラメータを調整する)。粗い領域選択に対する先行パラメータ調整は迅速で低遅延(例えば<1ミリ秒)でなければならず、その一方で、意味論的推論および理解フィードバックは1または2フレーム後に行われてもよい。
全ての重要情報が取り込まれることを確実にする能力の別の構成要素は、予測画像処理の利用である。例えば、システムが、静止した、または運動するプラットフォームから物体を追跡している際に、システムは、運動物体が次の数フレームにわたって到達することになるセンサの区域を計算することができるであろう。この理解の下で、パイプラインアーキテクチャは、取り込まれる際に最適な情報が得られることを確実にするために、運動物体のためのピクセルに対してパラメータを調整することができる。予測能力はまた、物体がシーン内の他の物体によって遮蔽されている際に、物体を追跡することも助ける。
図5は、例示的な画像センサ500であって、そのピクセルアレイ、刻時回路、および他の制御回路機構を有する画像センサ500の一実施形態のブロック図を示す。
図6は、道路上を走る自動車のシーンを取り込んだ画像フレーム600の一実施形態のブロック図を示す。
図7は、図6の画像フレーム内に取り込まれた関心領域に分割されたシーン700の一実施形態のブロック図を示す。この単一の画像フレームは、自動車、道路標識、および様々な領域内の道路を取り込んだ、関心領域、領域B、C、D、H、I、J、およびKに分割されている。他の領域A、E、F、G、およびIは、顕著な要素を全く有しない領域であり、必要とされる場合には、低減されたピクセルパラメータを利用することができる。
「Method and apparatus for optimizing image quality based on scene content」と題する、米国特許第8830360号、「Method and apparatus for real−time pedestrian detection for urban driving」と題する、第8861842号、「Method and apparatus for detecting and tracking vehicles」と題する、第8712096号、「Real−time action detection and classification」と題する、第8634638号、および「Real−time object detection, tracking and occlusion reasoning」と題する、米国特許出願公開第20140347475号に、画像シーン理解および分析モジュールおよび/または予測および適応シーンモデリングモジュールの部分を実施するためのさらなる方法を見出すことができる。
図8Aおよび図8Bは、意味処理および動的シーンモデリングに基づいて画像形成を向上することの一実施形態のフロー図を示す。フロー図は、方法およびステップを説明するために用いることができ、ステップは、論理的に可能であるときには、文字通りの順序を違えて遂行されてもよく、ステップの全てが遂行されなくてもよい。
ステップ802において、システムは、以前の画像フレーム内の動向を追跡し、シーンデータモデルを参照し、1または複数の人工知能アルゴリズムを利用し、第1の画像フレーム内で何が文脈的に起きているのかを理解し、そして、i)以前の画像フレーム内で何が文脈的に起きていたのかの文脈理解、およびii)顕著な要素が第1の領域内に配置され、第2の領域内に配置されないと予測されるかどうかに基づいて、第1の領域内のピクセルパラメータを増大させ、その一方で、同時に、第2の領域内の画像ピクセルパラメータを維持するか、または低減させるよう、画像ピクセルパラメータを変更する。
ステップ804において、システムは、センサ制御ユニットを用いて、i)少なくとも、以前の画像フレームにおいて何が文脈的に起きていたのかの文脈理解、シーンの文脈理解、および予想されるシーンの文脈理解のうちのいずれか、ならびにii)顕著な要素が第1の画像フレームの第1の領域および第1の画像フレームの第2の領域のうちのいずれかの内部に配置されているかどうかに基づいて、i)局所的解像度、ii)ダイナミックレンジ、およびiii)フレームレートのピクセルパラメータを単一の/第1の画像フレームの数多くの領域内で同時に独立して制御するよう画像品質情報を最適化し、第1の領域内のピクセルのためのピクセルパラメータは、その同じ第1の画像フレームのための第2の領域から収集されたピクセルデータのためのピクセルパラメータとは異なって動作するように構成される。
ステップ806において、システムは、センサ制御ユニットを用いて、第1の領域内においては、ピクセルのためのi)局所的解像度、ii)ダイナミックレンジ、およびiii)フレームレートのうちのいずれかのピクセルパラメータを増大させ、その一方で、同時に、第1の画像フレーム内に包含された顕著でない要素を包含する、第2の領域内においては、i)局所的解像度、ii)フレームレート、およびiii)ダイナミックレンジのうちのいずれかを維持するか、または低減させるよう、出力ピクセルデータ転送速度を調整する。
ステップ808において、1)第1の画像フレームを構成する領域内のピクセルデータを取り込むピクセルを有する1または複数の画像センサによって課される、i)帯域幅制限、ii)メモリストレージ、および/またはiii)電力消費制限のいずれか、ならびに2)センサ制御ユニットと画像センサとの間の通信ループによって課される、i)帯域幅制限、ii)メモリストレージ、および/またはiii)電力消費制限のいずれか内に収まりつつ、画像情報品質が最適化される。
ステップ810において、第1の領域のための画像ピクセルデータは、その同じ画像フレームのための第2の領域内のピクセルからの画像ピクセルデータとは異なる収集サイクル内で(異なる時点において)それらのピクセルから収集される。
ステップ812において、システムは、センサ制御ユニットを用いて、第1の画像フレームの全体を構成する1または複数の部分にわたるが、第1の画像フレーム全体にわたるものではない、ピクセルデータを収集するピクセルにのみ、向上した性能のピクセルパラメータを適用し、それゆえ、i)少なくとも、以前の画像フレーム内で何が文脈的に起きていたのかの文脈理解、シーンの文脈理解、および予想されるシーンの文脈理解のうちのいずれかの文脈理解、ならびにii)顕著な要素が、第1の画像フレームの第1の領域、第1の画像フレームの第2の領域、または第1および第2の領域の両方のうちのいずれかの内部に配置されているかどうかに基づいて、画像フレーム全体を構成する一部のピクセルは、他のピクセルが、向上した性能のピクセルパラメータで実行している間に、より低い性能のピクセルパラメータで同時に動作している。
ステップ814において、システムは、別個のコントローラを用いて、少なくとも環境照明条件に基づいて、第1の画像フレーム全体を構成するピクセルの全てのためのピクセルパラメータの全域変更を行う。
ステップ816において、システムは、合成器モジュールを用いて、第1の画像フレームを構成する領域の全てからの画像ピクセルデータの全てを収集し、そして、第1の画像フレームと相互関係がある識別子に基づいて、第1の画像フレームのための、異なるサイクル上で収集された少なくとも第1の領域および第2の領域からの画像ピクセルデータを再構成させることを用いる。
ネットワーク
図9は、本明細書において説明される設計の一実施形態に係るネットワーク環境内で互いに通信する多数の電子システムおよびデバイスを示す。モジュールの部分はクラウドプロバイダプラットフォーム904内に配置することができ、その一方で、画像センサを含むシステムの他の部分はモバイルコンピューティングデバイス902A〜902Fなどのクライアントデバイス上に配置され得る。
ネットワーク環境900は通信ネットワーク910を有する。ネットワーク910は、光ネットワーク、セルラーネットワーク、インターネット、Wi−Fi、ブルートゥース等を含むローカルエリアネットワーク(local area network)(「LAN」)、ワイドエリアネットワーク(Wide Area Network)(「WAN」)、衛星ネットワーク、ファイバネットワーク、ケーブルネットワーク、およびこれらの組み合わせから選択される1または複数のネットワークを含むことができる。一実施形態では、通信ネットワーク910はインターネットである。図示のように、通信ネットワーク910を介して互いに接続された多くのサーバコンピューティングシステムおよび多くのクライアントコンピューティングシステムが存在し得る。しかし、例えば、単一のクライアントコンピューティングシステムが単一のサーバコンピューティングシステムに接続されていることも可能であることを理解されたい。それゆえ、本図は、通信ネットワーク910を介して互いに接続されたサーバコンピューティングシステムおよびクライアントコンピューティングシステムの任意の組み合わせを示す。
通信ネットワーク910は、第1のサーバコンピューティングシステム904A、第2のサーバコンピューティングシステム904B、仮想現実ヘッドセット904C、第1のスマートテレビ902H等などの1または複数のサーバコンピューティングシステムを、互いに、および同様に、少なくとも1または複数のクライアントコンピューティングシステムに接続することができる。サーバコンピューティングシステム904Aおよび904Bは各々、任意選択的に、データベース906Aおよび906Bなどの組織化されたデータ構造を含むことができる。1または複数のサーバコンピューティングシステムの各々は1または複数の仮想サーバコンピューティングシステムを有することができ、複数の仮想サーバコンピューティングシステムを設計によって実装することができる。1または複数のサーバコンピューティングシステムの各々は、データ完全性を保護するための1または複数のファイアウォールを有することができる。
少なくとも1または複数のクライアントコンピューティングシステムは、第1のモバイルコンピューティングデバイス902A(例えば、Androidベースのオペレーティングシステムを有するスマートフォン)、第2のモバイルコンピューティングデバイス902E(例えば、iOSベースのオペレーティングシステムを有するスマートフォン)、第1のウェアラブル電子デバイス902C(例えば、スマートウォッチ)、第1のポータブルコンピュータ902B(例えば、ラップトップコンピュータ)、第3のモバイルコンピューティングデバイスまたは第2のポータブルコンピュータ902F(例えば、AndroidもしくはiOSベースのオペレーティングシステムを有するタブレット)、第1のスマート自動車902D内に組み込まれたスマートデバイスまたはシステム、ならびに同様のものから選択され得る。
クライアントコンピューティングシステム(例えば、902A〜902H)は、例えば、本明細書において説明された設計が展開され得るソフトウェアアプリケーションおよび/またはハードウェアベースのシステムを含むことができる。
用語「クライアントコンピューティングシステム」および「サーバコンピューティングシステム」の使用は、概して通信を開始するシステム、および概してその通信に応答するシステムを指示することが意図されることを理解されたい。例えば、クライアントコンピューティングシステムは概して通信を開始することができ、サーバコンピューティングシステムは概してその通信に応答する。
サーバコンピューティングシステムのうちの任意の1または複数はクラウドプロバイダであることができる。クラウドプロバイダはクラウド(例えば、インターネットなどのネットワーク910)内でアプリケーションソフトウェアをインストールし、動作させることができ、クラウドユーザはクライアントコンピューティングシステムのうちの1または複数からアプリケーションソフトウェアにアクセスすることができる。概して、クラウド内のクラウドベースのサイトを有するクラウドユーザは、アプリケーションソフトウェアが実行するクラウドインフラストラクチャまたはプラットフォームを単独で管理することができない。それゆえ、サーバコンピューティングシステムおよびその組織化されたデータ構造は共有リソースであることができ、各クラウドユーザは共有リソースの一定の専用使用量を与えられる。各クラウドユーザのクラウドベースのサイトはクラウド内の仮想的な専用空間および帯域幅量を与えられ得る。クラウドアプリケーションは、変化する作業要求を満たすために実行時に複数の仮想機械上にタスクのクローンを作成することによって達成可能である、それらのスケーラビリティの点で他のアプリケーションとは異なり得る。負荷分散装置が作業を仮想機械のセットにわたって分散させる。このプロセスは、単一のアクセスポイントのみを見るクラウドユーザには見えない。
クラウドベースのリモートアクセスは、ハイパーテキスト転送プロトコル(HypertextTransferプロトコル)(「HTTP」)などの、プロトコルを利用し、クライアントコンピューティングシステム上に常駐するウェブブラウザアプリケーションなどのクライアントコンピューティングシステム上のアプリケーションとの要求および応答サイクルに従事するようにコード化することができる。クラウドベースのリモートアクセスは、スマートフォン、デスクトップコンピュータ、タブレット、または任意の他のクライアントコンピューティングシステムによって、いつでも、および/またはどこでもアクセスされ得る。クラウドベースのリモートアクセスは、1)全てのウェブブラウザベースのアプリケーションからの要求および応答サイクル、2)専用オンラインサーバからの要求および応答サイクル、3)クライアントデバイス上に常駐するネイティブアプリケーションと、別のクライアントコンピューティングシステムへのクラウドベースのリモートアクセスとの間の直接の要求および応答サイクル、ならびに4)これらの組み合わせに従事するようにコード化される。
一実施形態では、サーバコンピューティングシステム904Aは、サーバエンジン、ウェブページ管理構成要素、コンテンツ管理構成要素、およびデータベース管理構成要素を含むことができる。サーバエンジンは基本処理およびオペレーティングシステムレベルのタスクを遂行することができる。ウェブページ管理構成要素は、デジタルコンテンツおよびデジタル広告を受信および提供することに関連付けられるウェブページまたは画面の作成および表示あるいはルーティングを処理することができる。ユーザ(例えば、クラウドユーザ)は、サーバコンピューティングシステムのうちの1または複数に、それに関連付けられた統一資源ロケータ(Uniform Resource Locator)(「URL」)を用いてアクセスすることができる。コンテンツ管理構成要素は、本明細書において説明される実施形態における機能の大部分を処理することができる。データベース管理構成要素は、データベースに対する記憶および検索タスク、データベースへのクエリ、およびデータの記憶を含むことができる。
コンピューティングシステム
図10は、本明細書において説明される設計の一実施形態に係る、全体的または部分的に、サーバまたはクライアントコンピューティングデバイスのうちの1または複数の一部であることができるコンピューティングシステム1000を示す。図10を参照すると、コンピューティングシステム1000の構成要素は、限定するものではないが、1または複数の処理コアを有する処理ユニット920、システムメモリ930、およびシステムメモリ930を含む様々なシステム構成要素を処理ユニット920に結合するシステムバス921を含むことができる。システムバス921は、メモリバスもしくはメモリコントローラ、周辺バス、および種々のバスアーキテクチャのうちのいずれかを用いたローカルバスから選択されるいくつかの種類のバス構造であり得る。
コンピューティングシステム900は、通例、種々の計算機可読媒体を含む。計算機可読媒体は、コンピューティングシステム900によってアクセスされ得る任意の利用可能な媒体であることができ、揮発性および不揮発性媒体、ならびに着脱式および非着脱式媒体の両方を含む。システムメモリ930は、リードオンリーメモリ(read only memory、ROM)931およびランダムアクセスメモリ(random access memory、RAM)932などの揮発性および/または不揮発性メモリの形態のコンピュータ記憶媒体を含む。無線チャネルなどの一時的媒体は機械可読媒体に含まれない。通信媒体は、通例、コンピュータ可読命令、データ構造、他の実行可能ソフトウェア、または他の輸送機構を組み込み、任意の情報送達媒体を含む。
RAM932は、通例、即時にアクセス可能であり、および/または処理ユニット920によって目下操作されているデータおよび/またはソフトウェアを包含する。RAM932は、オペレーティングシステム934、アプリケーションプログラム935、他の実行可能ソフトウェア936、およびプログラムデータ937の部分を含むことができる。
ユーザは、キーボード、タッチスクリーン、またはソフトウェアもしくはハードウェア入力ボタン962、マイクロフォン963、マウス、トラックボールもしくはタッチパッドなどのポインティングデバイスおよび/またはスクローリング入力構成要素などの入力デバイスを通じてコマンドおよび情報をコンピューティングシステム900に入力し得る。マイクロフォン963は音声認識ソフトウェアと協働することができる。これらおよび他の入力デバイスは、多くの場合、システムバス921に結合されたユーザ入力インターフェース960を通して処理ユニット920に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(universal serial bus)(USB)などの、他のインターフェースおよびバス構造によって接続することもできる。表示モニタ991または他の種類の表示画面デバイスも、ディスプレイインターフェース990などのインターフェースを介してシステムバス921に接続されている。モニタ991に加えて、コンピューティングデバイスはまた、スピーカ997、バイブレータ999、および出力周辺インターフェース995を通して接続され得る他の出力デバイスなどの、他の周辺出力デバイスも含み得る。
コンピューティングシステム900は、リモートコンピューティングシステム980などの、1または複数のリモートコンピュータ/クライアントデバイスへの論理接続を用いたネットワーク化環境内で動作することができる。リモートコンピューティングシステム980は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、または他の共通ネットワークノードができ、通例、コンピューティングシステム900に関して上述された要素のうちの多くまたは全てを含む。本図に示される論理接続は、パーソナルエリアネットワーク(personal area network)(「PAN」)972(例えば、ブルートゥース(登録商標))、ローカルエリアネットワーク(「LAN」)971(例えば、Wi−Fi)、およびワイドエリアネットワーク(「WAN」)973(例えば、セルラーネットワーク)を含むことができるが、他のネットワークも含み得る。このようなネットワーキング環境は、オフィス、企業規模のコンピュータネットワーク、イントラネット、およびインターネットにおいて一般的である。ブラウザアプリケーション、またはリモートサーバ上のアプリケーションと直接協働する他のネイティブアプリケーションがコンピューティングデバイス上に常駐し、メモリ内に記憶されてもよい。
LANネットワーキング環境内で用いられるときには、コンピューティングシステム900は、例えば、ブルートゥース(登録商標)またはWi−Fiアダプタであることができる、ネットワークインターフェースまたはアダプタ970を通してLAN971に接続される。WANネットワーキング環境(例えば、インターネット)内で用いられるときには、コンピューティングシステム900は、通例、WAN973を通じた通信を確立するための何らかの手段を含む。
本設計は、図9に関して説明されたものなどのコンピューティングシステム上で実施することができることに留意されたい。しかし、本設計は、サーバ、メッセージ通信処理専門のコンピューティングデバイス、または本設計の異なる部分が分散コンピューティングシステムの異なる部分上で実施される分散システム上で実施することができる。
一実施形態では、本明細書において説明されるアルゴリズムを促進するために用いられるソフトウェアを非一時的機械可読媒体上に組み込むことができる。機械可読媒体は、機械(例えば、コンピュータ)によって可読の形式の情報を記憶する任意の機構を含む。例えば、非一時的機械可読媒体は、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイス、デジタル多用途ディスク(Digital Versatile Disc、DVD)、EPROM、EEPROM、フラッシュメモリ、磁気もしくは光カード、または一時的信号を除く、電子命令を記憶するために適した任意の種類の媒体を含むことができる。
本明細書において説明されるアプリケーションは、限定するものではないが、ソフトウェアアプリケーション、モバイルアプリ、およびオペレーティングシステムアプリケーションの一部であるプログラムを含むことに留意されたい。本説明のいくつかの部分は、コンピュータメモリ内のデータビットに対する演算のアルゴリズムおよび記号表現の言葉で提示される。これらのアルゴリズム的記述および表現は、データ処理技術分野における当業者によって、彼らの仕事の内容を他の当業者へ最も効果的に伝えるために用いられる手段である。アルゴリズムは、ここでは、および一般的には、所望の結果をもたらすステップの自己無撞着シーケンスであると理解される。ステップは、物理量の物理的操作を必要とするものである。通例、必ずというわけではないが、これらの量は、記憶され、転送され、結合され、比較され、および他の仕方で操作される能力を有する電気または磁気信号の形態を取る。時として、主に共通に使用する理由で、これらの信号を、ビット、値、要素、記号、文字、項、数、または同様のものと称することが都合よいことが分かっている。これらのアルゴリズムは、Python、Java、HTTP、C、C+、または他の同様の言語などの多数の異なるソフトウェアプログラミング言語で書かれ得る。また、アルゴリズムは、ソフトウェアにおけるコード行、ソフトウェアにおいて構成された論理ゲート、または両方の組み合わせを用いて実施することもできる。一実施形態では、論理は、ブール論理の規則に従う電子回路、命令のパターンを包含するソフトウェア、または両方の任意の組み合わせからなる。
電子ハードウェア構成要素によって遂行される多くの機能はソフトウェアエミュレーションによって複製することができる。それゆえ、それらの同じ機能を果たすために書かれたソフトウェアプログラムが、入力−出力回路機構内のハードウェア構成要素の機能性をエミュレートすることができる。
上述の設計およびその諸実施形態はかなり詳細に提供されたが、本明細書において提供される設計および諸実施形態が限定となることは出願人の意図ではない。さらなる適応および/または変更が可能であり、より広い態様には、これらの適応および/または変更も包含される。したがって、添付の請求項によって与えられる範囲から逸脱することなく、上述の設計および諸実施形態からの逸脱が行われ得る。範囲は、適切に解釈されたときの請求項によってのみ限定される。
100 スマートビジョンシステム
300 画像フレーム
400 スマートビジョンアーキテクチャ
500 画像センサ
600 画像フレーム
700 シーン
900 ネットワーク環境
902A 第1のモバイルコンピューティングデバイス
902B 第1のポータブルコンピュータ
902C 第1のウェアラブル電子デバイス
902D 第1のスマート自動車
902E 第2のモバイルコンピューティングデバイス
902F 第3のモバイルコンピューティングデバイス、第2のポータブルコンピュータ
902H 第1のスマートテレビ
904 クラウドプロバイダプラットフォーム
904A 第1のサーバコンピューティングシステム
904B 第2のサーバコンピューティングシステム
904C 仮想現実ヘッドセット
906A、906B データベース
910 通信ネットワーク
920 処理ユニット
921 システムバス
930 システムメモリ
931 リードオンリーメモリ
932 ランダムアクセスメモリ
934 オペレーティングシステム
935 アプリケーションプログラム
936 他の実行可能ソフトウェア
937 プログラムデータ
960 ユーザ入力インターフェース
962 ソフトウェアもしくはハードウェア入力ボタン
963 マイクロフォン
970 ネットワークインターフェース、アダプタ
971 ローカルエリアネットワーク
972 パーソナルエリアネットワーク
973 ワイドエリアネットワーク
980 リモートコンピューティングシステム
990 ディスプレイインターフェース
991 表示モニタ
995 出力周辺インターフェース
997 スピーカ
999 バイブレータ
1000 コンピューティングシステム
1100 システム

Claims (22)

  1. 1または複数のプロセッサによって実行可能なフォーマットで命令を記憶した非一時的コンピュータ可読媒体であって、前記命令が、以下のとおりの動作、
    センサ制御ユニットを用いて、i)局所的解像度、ii)ダイナミックレンジ、およびiii)フレームレートのピクセルパラメータを同時に独立して制御するよう画像品質情報を最適化することであって、前記独立した制御が、i)少なくとも、以前の画像フレームにおいて何が文脈的に起きていたのかの文脈理解、シーンの文脈理解、および予想されるシーンの文脈理解のうちのいずれか、ならびにii)顕著な要素が第1の画像フレームの第1の領域および前記第1の画像フレームの第2の領域のうちのいずれかの内部に配置されているかどうかに基づいて、前記第1の画像フレームの複数の領域内で行われ、前記第1の領域内のピクセルのためのピクセルパラメータが、その同じ第1の画像フレームのための前記第2の領域から収集されるピクセルデータのための前記ピクセルパラメータとは異なって動作するように構成される、最適化することと、
    前記センサ制御ユニットを用いて、前記第1の領域内においては、ピクセルのためのi)前記局所的解像度、ii)前記ダイナミックレンジ、およびiii)前記フレームレートのうちのいずれかのピクセルパラメータを増大させるか、または減少させ、その一方で、同時に、前記第1の画像フレーム内に包含された顕著でない要素を包含する、前記第2の領域内においては、i)前記局所的解像度、ii)前記フレームレート、およびiii)前記ダイナミックレンジのうちのいずれかを維持するか、増大させるか、または低減させるよう、出力ピクセルデータレートを調整することと、
    を含む動作を行わせる、非一時的コンピュータ可読媒体。
  2. 前記1または複数のプロセッサによって実行可能な前記フォーマットで記憶された前記命令が、以下のとおりのさらなる動作を行わせるように構成されており、すなわち、
    前記第1の領域のための画像ピクセルデータが、その同じ画像フレームのための前記第2の領域内の前記ピクセルからの前記画像ピクセルデータとは異なる時点におけるそれらのピクセルから収集される、請求項1に記載の非一時的コンピュータ可読媒体。
  3. 前記1または複数のプロセッサによる前記実行可能フォーマットの前記記憶された命令が、以下のとおりのさらなる動作、すなわち、
    前記センサ制御ユニットを用いて、前記第1の画像フレームの全体を構成する1または複数の領域にわたるが、前記第1の画像フレーム全体にわたるものではないピクセルに、向上した性能のピクセルパラメータを適用し、それゆえ、i)少なくとも、前記以前の画像フレームにおいて何が文脈的に起きていたのかの前記文脈理解、およびii)顕著な要素が、前記第1の画像フレームの前記第1の領域、前記第1の画像フレームの前記第2の領域、または前記第1および第2の領域の両方のうちのいずれかの内部に配置されているかどうかに基づいて、前記画像フレーム全体を構成する一部のピクセルがより低い性能のピクセルパラメータで動作しているのと同時に、他のピクセルが前記向上した性能のピクセルパラメータで動作していることと、
    別個のコントローラを用いて、少なくとも環境照明条件に基づいて、前記第1の画像フレーム全体を構成する前記ピクセルの全てのためのピクセルパラメータの全域変更を行うことと、
    を行わせるように構成されている、請求項1に記載の非一時的コンピュータ可読媒体。
  4. 合成器モジュールを用いて、前記第1の画像フレームを構成する前記領域の全てからの前記画像ピクセルデータの全てを収集し、そして、前記第1の画像フレームと相互関係がある識別子に基づいて、前記第1の画像フレームのための、異なるサイクル上で収集された少なくとも前記第1の領域および前記第2の領域からの画像ピクセルデータを再構成させることをさらに含む、請求項2に記載の非一時的コンピュータ可読媒体。
  5. 以前の画像フレーム内の動向を追跡し、シーンデータモデルを参照し、1または複数の人工知能アルゴリズムを利用して、前記第1の画像フレーム内で何が文脈的に起きているのかを理解し、そして、i)前記以前の画像フレーム内で何が文脈的に起きていたのかの前記文脈理解、およびii)顕著な要素が、前記第1の領域内に配置され、前記第2の領域内に配置されないと予測されるかどうかに基づいて、前記第1の領域内のピクセルパラメータを増大させ、その一方で、同時に、前記第2の領域内の画像ピクセルパラメータを維持するかまたは低減させるよう、前記画像ピクセルパラメータを変更すること、をさらに含む、請求項1に記載の非一時的コンピュータ可読媒体。
  6. 1)前記第1の画像フレームを構成する領域内の前記ピクセルデータを取り込む前記ピクセルを有する1または複数の画像センサに関係する、i)帯域幅制限、ii)メモリストレージ、および/またはiii)電力消費制限のいずれか内、ならびに2)前記センサ制御ユニットと前記画像センサとの間の通信ループに関係する、i)帯域幅制限、ii)メモリストレージ、および/またはiii)電力消費制限のいずれか内に収めつつ、前記画像情報品質が最適化される、請求項1に記載の非一時的コンピュータ可読媒体。
  7. 装置であって、
    1または複数の画像プロセッサであって、各画像プロセッサが、少なくとも、ピクセルを有するその独自の画像センサを包含する、1または複数の画像プロセッサと、
    前記1または複数の画像プロセッサのための第1の画像フレーム内の複数の領域を作成するように構成されたセンサ制御ユニットであって、前記第1の画像フレームを取り込む各領域が、ピクセルデータを有するピクセルのその独自のセットを包含し、前記画像プロセッサが、前記複数の領域のうちの第1の領域内のピクセルのための前記ピクセルパラメータをその第1の画像フレーム内の第2の領域内のピクセルとはピクセルパラメータが異なるよう設定するように構成されている、センサ制御ユニットと、
    1または複数の以前の画像フレーム内の動向を追跡し、前記第1の画像フレーム内で何が文脈的に起きているのかの理解を手助けするように構成された予測および適応シーンモデリングモジュールであって、前記もう1つの画像プロセッサが、i)少なくとも、以前の画像フレーム内で何が文脈的に起きていたのかの文脈理解、シーンの文脈理解、および予想されるシーンの文脈理解のうちのいずれか、ならびにii)顕著な要素が前記第1の領域または第2の領域内に配置されているかどうかに基づいて、各領域のための前記動作モードを変更し、それゆえ、その領域内のピクセルのためのピクセルパラメータを変更するように構成されており、前記第1の領域内のピクセルのためのピクセルパラメータが、その同じ第1の画像フレームのための前記第2の領域から収集されるピクセルデータのための前記ピクセルパラメータとは異なって動作するように構成され、i)第1の以前の画像フレーム内の1または複数の領域内の顕著な要素を特定し、ならびに/あるいはii)現在の画像フレームまたは将来の画像フレーム内の1または複数の領域内の顕著な要素を予測し、そして、顕著な要素の存在または予測される存在が前記第1の領域内にあり前記第2の領域内にないことに基づいて、前記第1の領域内のピクセルの前記セットのためのピクセルパラメータを、前記第2の領域内のピクセルの前記セットとは異なるよう変更するためのガイダンスを前記センサ制御ユニットへ送信するための双方向通信ループが前記予測および適応シーンモデリングモジュールと前記センサ制御ユニットとの間に存在する、予測および適応シーンモデリングモジュールと、
    を備える装置。
  8. 前記第1の画像フレームのために、領域ごとに、ピクセルの前記セットから収集される前記ピクセルデータに識別子を供給し挿入するための画像フレームマッパであって、前記第1の領域内のピクセルの前記セットが、同じ画像フレームを取り込む前記第2の領域内のピクセルの前記セットとは異なるピクセルパラメータの下で動作しているため、前記第1の領域から得られる前記画像ピクセルデータが、前記第1の画像フレームのための前記第2の領域から得られる前記画像ピクセルデータとは異なる収集サイクルにおいて収集される、画像フレームマッパをさらに備える、請求項7に記載の装置。
  9. 前記第1の画像フレームを構成する前記領域の全てからの前記画像ピクセルデータの全てを収集するように構成された合成器モジュールであって、そして、前記合成器モジュールが、前記第1の画像フレームと相互関係がある前記識別子に基づいて、前記第1の画像フレームのため、異なるサイクル上で収集された少なくとも前記第1の領域および前記第2の領域からの画像ピクセルデータを再構成させるように構成されている、合成器モジュールをさらに備える、請求項8に記載の装置。
  10. 合成器モジュールが、どの領域の出力が前記第1の画像フレームのための背景ベースとして用いられることになり、どの他の領域のピクセル出力データが当領域内に顕著な要素を有する領域群を取り込む際にトリミングされ前記第1の画像フレームのための前記背景ベース内にペーストされることになるのかを決定するための適応設定を用いるように構成されていること、をさらに含む、請求項7に記載の装置。
  11. i)複数のセンサ入力からの複数の領域を受け入れ、フレームバッファを用い、ii)各領域の出力のためのピクセルデータを空間的に整列させ、iii)各領域の出力のためのピクセルデータを一時的に整列させ、そして、iv)1または複数の選択された領域の出力ピクセルデータからの前記ピクセルデータをトリミングし、前記第1の画像フレームのための背景ビデオベース上にペーストするように構成された、合成器モジュールをさらに備える、請求項7に記載の装置。
  12. 前記1または複数の画像プロセッサが、複数の独立したイメージャセンサを有する第1の画像プロセッサを含む、請求項7に記載の装置。
  13. 前記1または複数の画像プロセッサが、ピクセルを有する独自の画像センサを有する第1の画像プロセッサおよびピクセルを有する独自の画像センサを有する第2の画像プロセッサを含み、これら2つの画像プロセッサが、分散作業アーキテクチャ内で互いに協働し、i)画像プロセッサごとの異なる領域、ii)前記第1の画像フレームのためのベースビデオを取り込む1つの画像プロセッサとの重なり領域、およびiii)両方の組み合わせからなる群から選択される領域を取り込むように構成されている、請求項7に記載の装置。
  14. 装置であって、
    ピクセルアレイ内のピクセルによって第1の画像フレーム内に取り込まれる画像全体にわたって、i)イメージャ解像度、ii)ダイナミックレンジ性能、および/またはiii)フレームレートのピクセルパラメータを同時に独立して制御し、領域増分で不均一に調整するためのセンサ制御ユニットと、
    前記画像処理ユニットから前記センサ制御ユニットへの通信ループを有する画像処理ユニットであって、前記画像処理ユニットが、前記第1の画像フレーム内の前記異なる関心領域内のi)前記イメージャ解像度、ii)前記ダイナミックレンジ、および/またはiii)前記フレームレートを同時に独立して変更するために、ピクセルパラメータフィードバックを供給する、画像処理ユニットと、
    前記センサ制御ユニットに結合された予測および適応シーンモデリングモジュールであって、前記第1の画像フレーム内の1または複数の関心領域内の顕著な要素を予測し、そして、i)顕著な要素を有するそれらの領域内の1)前記イメージャ解像度、2)前記ダイナミックレンジ、および/または3)前記フレームレートのうちの少なくとも1つを増大させ、そして、1)1または複数の画像センサ、または2)前記センサ制御ユニットと前記画像処理ユニットとの間の前記通信ループによって課される、i)帯域幅制限、ii)メモリストレージ、および/またはiii)電力消費制限のいずれか内に収まるよう、顕著な要素を有しない領域内の1)前記イメージャ解像度、2)前記ダイナミックレンジ、および/または3)前記フレームレートのうちの少なくとも1つをi)維持するか、またはii)減少させるためのガイダンスを前記センサ制御ユニットへ送信する、予測および適応シーンモデリングモジュールと、
    を備える装置。
  15. 前記予測および適応シーンモデリングモジュールならびに画像シーン理解および分析モジュールが、互いに協働するように構成されており、
    前記予測および適応シーンモデリングモジュールが、前記1または複数の以前の画像フレーム内におけるシーンデータの変化の動向を分析し、追跡するように構成されており、1または複数のシーンモデルが、来たるべき画像フレームのために必要とされるピクセルパラメータ変更を予測するために、異なる関心シーン領域内の1または複数の顕著な要素を監視し追跡するための予測方策として維持され、
    前記画像シーン理解および分析モジュールが、前記以前の画像フレーム内の前記シーン内で発生した物体およびイベントを特定し、前記シーンの領域内の顕著な要素を特定するために前記シーンを分析するように構成されており、前記顕著な要素が特定されると、その情報が前記予測および適応シーンモデリングモジュールに伝えられ、前記装置が前記予測および適応シーンモデリングモジュールが予測する前記シーン内における急速な変化に備えることを確実にする、
    請求項14に記載の装置。
  16. 前記予測および適応シーンモデリングモジュールならびに画像シーン理解および分析モジュールが協働し、i)リアルタイム画像シーン動態を分析し、シーン活動を分析し、前記シーンの意味論的推論を発展させ、その一方で、ii)同時に、シーン情報を最大化するよう前記センサ制御ユニットのためのピクセルパラメータを決定し、前記ピクセルパラメータを前記センサ制御ユニットへ送信し、取り込まれる前記第1の画像フレームのための前記異なる関心領域内のピクセルのための前記ピクセルパラメータを動的に調整するように構成されており、前記センサ制御ユニットが、i)1または複数の以前の画像フレーム内で何が文脈的に起きていたのかの文脈理解、およびii)顕著な要素が前記第1の領域または第2の領域内に配置されているかどうかに基づいて、不均一に、および独立して、i)顕著な要素を有する第1の領域内の1)前記イメージャ解像度、2)前記ダイナミックレンジ、および/または3)前記フレームレートのうちの少なくとも1つを増大させ、顕著な要素を有する第2の領域内の1)前記イメージャ解像度、2)前記ダイナミックレンジ、および/または3)前記フレームレートの少なくとも異なるピクセルパラメータを増大させるように構成されている、請求項14に記載の装置。
  17. 前記予測および適応シーンモデリングモジュールが、i)前記以前の画像フレーム内にあることを見出されたかまたは予測された前記顕著な要素および非顕著性要素の各々を分析し、ii)画像およびシーンデータモデルと比較するように構成されており、これにより、前記予測および適応シーンモデリングモジュールが、その種類の顕著な要素のために最も適したピクセルパラメータを特定および予測し得る、請求項14に記載の装置。
  18. 前記予測および適応シーンモデリングモジュールが、
    予測的シーン理解を支援するための数多くの画像データモデルを維持することを通じて、来たるべき画像形成パラメータ変更を予測し、そして、顕著な要素およびいかなる種類の顕著な要素が前記第1の画像フレーム内の1または複数の関心領域内にあるかを特定および/または予測するとともに、ii)顕著な要素を全く有しない1または複数の領域を特定し、
    そして、顕著な要素を有するそれら領域内の前記種類の顕著な要素に最も適した前記1)イメージャ解像度、2)前記ダイナミックレンジ、および/または3)前記フレームレートのうちの少なくとも1つをi)増大させるためのガイダンスを前記センサ制御ユニットへ送信し、
    そして、1)前記画像センサ、または2)前記センサ制御ユニットと前記画像処理ユニットとの間の前記通信ループによって課される、前記i)帯域幅制限、ii)メモリストレージ、および/またはiii)電力消費制限内に収まるよう、顕著な要素を有しないそれらの領域内の1)イメージャ解像度、2)前記ダイナミックレンジ、および/または3)前記フレームレートのうちの少なくとも1つを維持するか、または減少させるための方策を含むように構成されている、請求項14に記載の装置。
  19. 前記第1の画像フレームを指示し各関心領域のための前記ピクセルから収集されるデータに含まれる識別子を用いて、前記第1の画像フレーム内の前記複数の関心領域内で取り込まれた要素をつなぎ合わせるように構成された、合成器モジュールをさらに備える、請求項14に記載の装置。
  20. 前記予測および適応シーンモデリングモジュールならびに画像シーン理解および分析モジュールが、互いに協働するように構成されており、前記モジュールが協働し、1または複数の顕著な要素を包含するがゆえに、前記第1の画像フレーム内のより高いイメージャ解像度、ダイナミックレンジ、および/またはフレームレートを用いて最適に取り込まれる必要がある第1の画像フレーム内の前記関心領域について分析し、その一方で、同時に、顕著でない要素のみを包含する他のあまり重要でない関心領域が存在し、そこでは、前記1)1または複数の画像センサによって課される、i)帯域幅制限、ii)メモリストレージ、および/またはiii)電力消費制限、ならびに2)前記センサ制御ユニットと前記画像処理ユニットとの間の通信ループによって課される、i)帯域幅制限、ii)メモリストレージ、および/またはiii)電力消費制限のいずれか内に収まるよう、前記第1の画像フレーム内のイメージャ解像度、ダイナミックレンジ、および/またはフレームレートのためのデフォルトのピクセルパラメータ設定を用いて、低減された画像詳細が取り込まれ得る、請求項14に記載の装置。
  21. 前記ピクセルパラメータが、前記第1のフレーム内の物体の位置情報に基づいて、前記第1のフレーム内の第1の領域内において、前記第1のフレーム内の第2の領域内の他のピクセルパラメータに対して増大または減少させられるよう最適化される、請求項14に記載の装置。
  22. 前記予測および適応シーンモデリングモジュールが、1または複数の機械学習モジュール、ならびにシーン区分化および分類モジュールおよび関心領域推移活動分類モジュールを有するシーン理解モジュールを含み、前記1または複数の機械学習モデルが、シーンモデル、物体モデル、およびイベントモデルを含む、請求項14に記載の装置。
    ?
JP2020544504A 2018-04-04 2018-10-01 意味処理および動的シーンモデリングに基づく向上された画像形成のための方法 Active JP7377806B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862652891P 2018-04-04 2018-04-04
US62/652,891 2018-04-04
PCT/US2018/053749 WO2019194863A1 (en) 2018-04-04 2018-10-01 Methods for enhanced imaging based on semantic processing and dynamic scene modeling

Publications (2)

Publication Number Publication Date
JP2021517682A true JP2021517682A (ja) 2021-07-26
JP7377806B2 JP7377806B2 (ja) 2023-11-10

Family

ID=68101209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020544504A Active JP7377806B2 (ja) 2018-04-04 2018-10-01 意味処理および動的シーンモデリングに基づく向上された画像形成のための方法

Country Status (4)

Country Link
US (1) US11394879B2 (ja)
JP (1) JP7377806B2 (ja)
DE (1) DE112018007431T5 (ja)
WO (1) WO2019194863A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10460191B1 (en) * 2018-08-20 2019-10-29 Capital One Services, Llc Dynamically optimizing photo capture for multiple subjects
US20230206449A1 (en) * 2020-05-27 2023-06-29 Telefonaktiebolaget Lm Ericsson (Publ) Computer Software Module Arrangement, a Circuitry Arrangement, an Arrangement and a Method for Improved Image Processing
KR102574744B1 (ko) * 2020-12-04 2023-09-06 한국전자기술연구원 온디바이스 ai 수행을 위한 대용량 스트림 데이터 처리 방법
US11943184B2 (en) * 2021-01-21 2024-03-26 Samsung Electronics Co., Ltd. Device and method for providing notification message related to content
US11582422B2 (en) * 2021-02-24 2023-02-14 Gn Audio A/S Conference device with multi-videostream capability
CN112926549B (zh) * 2021-04-15 2022-06-24 华中科技大学 基于时间域-空间域特征联合增强的步态识别方法与系统
CN113256655B (zh) * 2021-05-27 2024-09-13 瑞芯微电子股份有限公司 一种基于画面特征的视频分割方法及存储介质
US11902532B2 (en) * 2021-09-29 2024-02-13 Ati Technologies Ulc Video encoding optimization for machine learning content categorization
CN113920304A (zh) * 2021-09-29 2022-01-11 北京百度网讯科技有限公司 样本图像处理方法、装置、电子设备及介质
CN113891072B (zh) * 2021-12-08 2022-02-11 北京拙河科技有限公司 基于亿级像素数据的视频监测与异常分析系统与方法
CN118365573B (zh) * 2024-06-14 2024-08-20 泉州医学高等专科学校 一种图像增强方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07288806A (ja) * 1994-04-20 1995-10-31 Hitachi Ltd 動画像通信システム
JP2005229363A (ja) * 2004-02-13 2005-08-25 Matsushita Electric Ind Co Ltd 無線画像通信装置
JP2009515705A (ja) * 2005-11-14 2009-04-16 プレシテック ヴィジョン ゲゼルシャフト ミット ベシュレンクテル ハフツング ウント コンパニー コマンディートゲゼルシャフト ワークピースの継ぎ目箇所を評価するための方法および装置
JP2012147431A (ja) * 2005-03-01 2012-08-02 Qualcomm Inc テレビ電話のための品質メトリックバイアス関心領域コーディング
JP2015195458A (ja) * 2014-03-31 2015-11-05 株式会社ニコン 電子機器
WO2018047730A1 (ja) * 2016-09-08 2018-03-15 株式会社ソニー・インタラクティブエンタテインメント 画像処理システム、画像処理方法およびコンピュータプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101525801B1 (ko) 2008-11-14 2015-06-08 삼성디스플레이 주식회사 어레이 기판 및 그 제조 방법
US8587681B2 (en) * 2008-11-21 2013-11-19 Omnivision Technologies, Inc. Extended depth of field for image sensor
US8769584B2 (en) 2009-05-29 2014-07-01 TVI Interactive Systems, Inc. Methods for displaying contextually targeted content on a connected television
US9924109B2 (en) * 2014-11-18 2018-03-20 The Invention Science Fund Ii, Llc Devices, methods, and systems for visual imaging arrays

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07288806A (ja) * 1994-04-20 1995-10-31 Hitachi Ltd 動画像通信システム
JP2005229363A (ja) * 2004-02-13 2005-08-25 Matsushita Electric Ind Co Ltd 無線画像通信装置
JP2012147431A (ja) * 2005-03-01 2012-08-02 Qualcomm Inc テレビ電話のための品質メトリックバイアス関心領域コーディング
JP2009515705A (ja) * 2005-11-14 2009-04-16 プレシテック ヴィジョン ゲゼルシャフト ミット ベシュレンクテル ハフツング ウント コンパニー コマンディートゲゼルシャフト ワークピースの継ぎ目箇所を評価するための方法および装置
JP2015195458A (ja) * 2014-03-31 2015-11-05 株式会社ニコン 電子機器
WO2018047730A1 (ja) * 2016-09-08 2018-03-15 株式会社ソニー・インタラクティブエンタテインメント 画像処理システム、画像処理方法およびコンピュータプログラム

Also Published As

Publication number Publication date
US11394879B2 (en) 2022-07-19
JP7377806B2 (ja) 2023-11-10
US20210160422A1 (en) 2021-05-27
WO2019194863A1 (en) 2019-10-10
DE112018007431T5 (de) 2020-12-31

Similar Documents

Publication Publication Date Title
JP7377806B2 (ja) 意味処理および動的シーンモデリングに基づく向上された画像形成のための方法
US11699213B2 (en) Image-capturing device and method for controlling same
US20200236425A1 (en) Method and apparatus for filtering video
US11210768B2 (en) Digital image auto exposure adjustment
US11231838B2 (en) Image display with selective depiction of motion
KR20210073568A (ko) 이미지 처리 방법 및 장치, 및 디바이스
CN105027167A (zh) 用于自动渲染滑动变焦效果的方法和设备
CN111768438B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN112215171A (zh) 目标检测方法、装置、设备及计算机可读存储介质
EP3710993B1 (en) Image segmentation using neural networks
WO2021006650A1 (en) Method and system for implementing a variable accuracy neural network
US11145088B2 (en) Electronic apparatus and method for controlling thereof
CN115002554B (zh) 直播画面调整方法、系统、装置、计算机设备及介质
US20230419505A1 (en) Automatic exposure metering for regions of interest that tracks moving subjects using artificial intelligence
CN115242983A (zh) 拍摄方法、电子设备、计算机程序产品及可读存储介质
WO2022143314A1 (zh) 一种对象注册方法及装置
WO2024055764A1 (zh) 图像处理方法及装置
US20230115371A1 (en) Efficient vision perception
KR20210059457A (ko) 이동 단말기
US20240107092A1 (en) Video playing method and apparatus
CN117111728B (zh) 人机交互方法、相关设备及系统
US20240348916A1 (en) Method and system for capturing a video in a user equipment
US20220358776A1 (en) Electronic device and operating method thereof
WO2023184359A1 (en) System and method for image processing using mixed inference precision
WO2023129162A1 (en) Real-time lightweight video tracking, processing, and rendering

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200821

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200925

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20200925

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210909

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230222

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230518

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231030

R150 Certificate of patent or registration of utility model

Ref document number: 7377806

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20240308

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04