JP2024508359A

JP2024508359A - カメラキャリブレーションのためのクロススペクトル特性マッピング

Info

Publication number: JP2024508359A
Application number: JP2023543163A
Authority: JP
Inventors: アチャール，スプリート; ゴールドマン，ダニエル
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2024-02-27
Also published as: EP4244812A1; US20220277485A1; CN116648727A; WO2022159244A1; KR20230130704A

Abstract

方法は、第１のスペクトルの光に感度を有し、かつ第１の光源を有する第１のカメラが、実世界シーンの第１の画像を取り込むことと、第２のスペクトルの光に感度を有し、かつ第２の光源を有する第２のカメラが、実世界シーンの第２の画像を取り込むことと、第１の画像において少なくとも１つの特徴を識別することと、機械学習（ＭＬ）モデルを使用して、第１の画像において識別された少なくとも１つの特徴と一致する第２の画像内の少なくとも１つの特徴を識別することと、一致した少なくとも１つの特徴に基づいて、第１の画像および第２の画像内の画素を３次元（３Ｄ）空間内の光線にマッピングすることと、マッピングに基づいて第１のカメラと第２のカメラとをキャリブレーションすることとを含む。

Description

分野
実施形態は、２台以上のカメラの幾何学的キャリブレーションに関する。

背景
幾何学的カメラキャリブレーションとは、カメラまたはカメラのセットの位置および内部パラメータ（焦点距離等）を決定するプロセスである。幾何学的キャリブレーションは、３次元（three-dimensional：３Ｄ）空間におけるカメラ画素と光線との間のマッピングを提供する。キャリブレーションは、実世界シーンで同じ点に対応する異なるカメラビューにおいて画素のペアを見つけ、各カメラの内部パラメータを調整して画素ペアを合わせることによって、決定される（たとえば、第１のカメラの画像内の画素と第２のカメラの画像内の画素とは、実世界シーンにおいて同じになるようにマッピングされる）。

概要
一般的な態様において、デバイス、システム、（コンピュータシステム上で実行可能なコンピュータ実行可能プログラムコードを格納した）非一時的なコンピュータ読取可能媒体、および／または方法は、方法でプロセスを実行可能である。方法は、第１のスペクトルの光に感度を有し、かつ第１の光源を有する第１のカメラが、実世界シーンの第１の画像を取り込むことと、第２のスペクトルの光に感度を有し、かつ第２の光源を有する第２のカメラが、実世界シーンの第２の画像を取り込むことと、第１の画像において少なくとも１つの特徴を識別することと、機械学習（machine learning：ＭＬ）モデルを使用して、第１の画像において識別された少なくとも１つの特徴と一致する、第２の画像内の少なくとも１つの特徴を識別することと、一致した少なくとも１つの特徴に基づいて、第１の画像および第２の画像内の画素を、３次元（３Ｄ）空間において光線にマッピングすることと、マッピングに基づいて、第１のカメラと第２のカメラとをキャリブレーションすることとを備える。

実現例は、以下の特徴のうちの１つ以上を含み得る。たとえば、第１のカメラは近赤外（near infrared：ＮＩＲ）カメラでもよく、第２のカメラは可視光カメラでもよい。ＭＬモデルを使用して、第１の画像において少なくとも１つの特徴を識別し得る。アルゴリズムを使用して、第１の画像において少なくとも１つの特徴を識別し得る。ＭＬモデルを使用して、第１の画像内の少なくとも１つの特徴を、第２の画像内の少なくとも１つの特徴と照合してもよく、第２の画像の少なくとも１つの画素が第１の画像内の少なくとも１つの特徴の画素と一致する可能性に基づいて、第２の画像の少なくとも１つの画素にスコアが割り当てられ得る。アルゴリズムを使用して、第１の画像内の少なくとも１つの特徴を、第２の画像内の少なくとも１つの特徴と照合してもよく、第２の画像の少なくとも１つの画素が第１の画像内の少なくとも１つの特徴の画素と一致する可能性に基づいて、第２の画像の少なくとも１つの画素にスコアを割り当ててもよく、目標画素の位置の予測に基づいて、第２の画像の少なくとも１つの画素に方向が割り当てられ得る。

アルゴリズムを使用して、第１の画像において少なくとも１つの特徴を識別してもよく、第１の画像内の少なくとも１つの特徴を、第２の画像内の少なくとも１つの特徴と照合することは、第１のＭＬモデルを使用して、第１の画像内の少なくとも１つの特徴から、候補特徴を選択することと、第２の画像内の少なくとも１つの画素を、候補特徴の画素と照合することと、少なくとも１つの画素が第１の画像内の少なくとも１つの特徴のうちの１つと一致する可能性に基づいて、第２の画像の一致した少なくとも１つの画素にスコアを割り当てることと、第２のＭＬモデルを使用して、目標画素の位置の方向を予測することと、第２の画像の一致した少なくとも１つの画素に、方向を割り当てることとを含み得る。第１のカメラと第２のカメラとをキャリブレーションすることは、最も高いスコアを有する、候補特徴に関連付けられた第２の画像の一致した少なくとも１つの画素と、最も高いスコアを有する、第２の画像の一致した少なくとも１つの画素の方向とに基づいてもよく、方向は、最も高いスコアを有する、第２の画像の一致した少なくとも１つの画素と、近傍画素とに基づき得る。方法はさらに、以前のキャリブレーションに基づいて、第２の画像において少なくとも１つの検索窓を選択することを含み得る。機械学習モデルは、キャリブレーションされたマルチカメラシステムから取り込まれたデータで訓練され得る。

例示的な実施形態は、本明細書の以下の詳細な説明および添付の図面からさらに十分に理解されるであろう。添付の図面では、同様の要素は同様の参照番号によって示されている。これらの要素は例として与えられているに過ぎず、したがって例示的な実施形態を限定するものではない。

少なくとも１つの例示的な実施形態に係るカメラおよびシーンを示す図である。少なくとも１つの例示的な実施形態に係るシーンの一部を示す２次元（two-dimensional：２Ｄ）図である。例示的な実現例に係るカメラセンサを示す図である。例示的な実現例に係るカメラセンサを示す図である。少なくとも１つの例示的な実施形態に係る、画像の一部を表す２Ｄ座標系を示す図である。少なくとも１つの例示的な実施形態に係る、画像の一部を表す２Ｄ座標系を示す図である。少なくとも１つの例示的な実施形態に係る、図１Ｅの２Ｄ座標系と図１Ｆの２Ｄ座標系との重ね合わせを表す２Ｄ座標系を示す図である。少なくとも１つの例示的な実施形態に係る、カメラキャリブレーション処理後の、図１Ｅの２Ｄ座標系と図１Ｆの２Ｄ座標系との重ね合わせを表す２Ｄ座標系を示す図である。少なくとも１つの例示的な実施形態に係る、カメラキャリブレーション後の実世界シーン３Ｄ座標系を示す図である。少なくとも１つの例示的な実施形態に係る、データフローを示すブロック図である。少なくとも１つの例示的な実施形態に係る電話会議システムを示すブロック図である。少なくとも１つの例示的な実施形態に係る、カメラをキャリブレーションする方法を示すブロック図である。少なくとも１つの例示的な実施形態に係る、画素を照合する方法を示すブロック図である。実世界シーン内の点のグラフ表現を示す図である。少なくとも１つの例示的な実施形態に係るコンピュータデバイスおよびモバイルコンピュータデバイスの一例を示す図である。

なお、これらの図面は、特定の例示的な実施形態において利用される方法、構造および／または材料の一般的な特徴を示すこと、ならびに以下に提供される記述を補足することを意図している。ただし、これらの図面は、縮尺通りではなく、任意の所与の実施形態の正確な構造特性または性能特性を正確に反映しない可能性があり、例示的な実施形態によって包含される値もしくは特性の範囲を定義または限定するものとして解釈されるべきではない。たとえば、分子、層、領域および／または構造要素の相対的な厚さならびに位置は、明瞭にするために縮小または誇張される可能性がある。さまざまな図面における同様または同一の参照番号の使用は、同様もしくは同一の要素または特徴の存在を示すことを意図している。

実施形態の詳細な説明
幾何学的カメラキャリブレーションのための特徴照合は、光スペクトルの異なる部分に感度を有するカメラを含むシステムでは困難な場合がある。たとえば、可視光カメラと近赤外（ＮＩＲ）カメラとの組合わせを含むシステムである。異なる光スペクトルででは、物体の視覚的外観が大きく異なることがあるため、特徴照合が困難になる可能性がある。この問題は、実世界シーン内の点の外観が入射照明によって劇的に変化する場合があるため、照明条件が異なるスペクトルで異なる状況では、悪化する可能性がある。混合スペクトルカメラシステムのキャリブレーションでは、通常、スペクトルの異なる部分にわたって容易に検出可能な基準マーキングを有する、特別に設計されたキャリブレーションターゲットを使用する必要がある。

キャリブレーションターゲットの使用は、使用中に最小限の技術サポートを必要とするシステム（たとえば、３次元（３Ｄ）テレビ会議システム）では望ましくない場合がある。本明細書で説明する例示的な実現例は、たとえば、機械学習（ＭＬ）ベースのアプローチを使用して、たとえば、可視光画像と近赤外（ＮＩＲ）画像との間で一致する特徴点を見つける問題を解決する。ＮＩＲ画像において、候補特徴点のセットを選択することができる。候補特徴は、正確な位置特定が容易な画素（たとえば、コーナー、トランジション、スポット等）を表すことができる。候補特徴ごとに、検索窓が目標の赤緑青（red-green-blue：ＲＧＢ）画像において定義される。候補ＮＩＲ特徴に対応する可能性が高い画素に高いスコアを割り当て、他の画素では低いスコアを割り当てるＭＬモデル（たとえば、ニューラルネットワーク）スコアリング関数を使用して、探索窓内の各ＲＧＢ画素に、スコアを割り当てることができる。

第２のＭＬモデル（たとえば、第２のニューラルネットワーク）は、検索窓内の画素ごとに完全一致の位置（たとえば、ｘ，ｙ位置）を予測するために使用することができる。検索窓内の各画素の推定オフセット（たとえば、完全一致の位置（たとえば、完全一致画素の位置）が現在のＲＧＢ画素から画像のｘ軸およびｙ軸に沿ってどの程度離れているかの予測）。検索窓内のＲＧＢ画素が十分に高いスコアを有する（たとえば、一致する可能性が高い）ことが分かった場合、ＲＧＢ画素とその近傍画素との推定オフセットを平均して目標一致画素位置を見つけることができ、ＮＩＲのＲＧＢとの一致が作成される。第１のおよび第２のＭＬモデルは、ＮＩＲカメラとＲＧＢカメラとの間の正しい一致特徴ペアが正確に決定される、十分にキャリブレーションされたマルチカメラシステムから取り込まれたデータを使用して、訓練することができる。

図１Ａは、少なくとも１つの例示的な実施形態に係るカメラおよびシーンを示す図である。図１Ａは、異なるタイプの光源（たとえば、ＩＲおよび可視光）に応答するカメラを含むマルチカメラシステムのキャリブレーションに使用することができる、画像において特徴を識別するために使用される実世界シーンを説明するために使用される。例示的な実現例によれば、実世界シーンは、特別に設計されたキャリブレーションターゲット（たとえば、カメラキャリブレーションプロセスで使用するために識別可能な特徴を含む）を含まない。

図１Ａに示すように、シーンは、第１のカメラ５と第２のカメラ１０とを含む。例として、２台のカメラが示されている。しかしながら、例示的な実現例は、３次元（３Ｄ）テレビ会議システムにおいて３台以上のカメラを含み得る。第１のカメラ５および第２のカメラ１０は、壁１０５の床１１０と接触している部分を含むように示されている、シーンの画像を取り込むように構成され得る。壁はドア１１５を含み得る。壁１０５、ドア１１５およびドアを含むシーンは、特徴１２０－１，１２０－２，１２０－３を含む画像の部分を含み得る。特徴１２０－１，１２０－２，１２０－３を含む画像の部分の各々は、探索アルゴリズムおよび／またはＭＬモデル（たとえば、ニューラルネットワーク）を使用して選択可能である。ＭＬモデルは、（実世界シーンの）画像の一部を選択するように訓練し得る。特徴１２０－１，１２０－２，１２０－３を含む画像の部分は、正確に位置特定され得る（もしくは位置決めされ得る）コーナー、遷移、スポットなどであり得る。特徴は、色（たとえば、ＮＩＲまたはＲＧＢ）勾配を有する隣接画素を含み得る。言い換えれば、特徴は、ある画素から少なくとも１つの隣接画素への少なくとも１つの色遷移を有する画像（たとえば、ＮＩＲ画像）の部分であり得る。たとえば、特徴１２０－１を含む画像の部分は、ドア１１５のコーナー１２２－１を含んでもよく、特徴１２０－２を含む画像の部分は、識別可能なスポット（たとえば、ドアハンドル１２２－２）を含んでもよく、特徴１２０－３を含む画像の部分は、ドア１１５のコーナーと、ドア１１５から床１１０への遷移１２２－３とを含んでもよい。特徴を識別するために使用される検索アルゴリズムおよび／またはＭＬモデルは、特徴を識別することが最も困難な光のスペクトル（たとえば、ＮＩＲ）で取り込まれた画像を使用し得る。

カメラ５（たとえば、ＮＩＲカメラ）は、カメラ５に関連する光スペクトル（たとえば、ＮＩＲ）における少なくとも１つの光線１３０を生成するように構成された光源１２５を含み得る。シーンはさらに、光１３５と、カメラ１０に関連する光スペクトル（たとえば、可視光）の少なくとも１つの光線１４０とを含む。光源１２５および光源１３５は、カメラの内部およびカメラの外部にそれぞれ図示されているが、例示的な実現例は、外部光源とカメラ光源とを単独でおよび組み合わせて含み得る。光線１４５および光線１５０は、実世界シーンから反射される光線であり、カメラ５およびカメラ１０のセンサによってそれぞれ検出され、光線１４５，１５０に基づいて画像内に画像点（たとえば、画素）が（たとえば、カメラのセンサによって）生成される。光線１４５および光線１５０は、特徴１２０－１に関連する実世界シーン内の同じ点に対応し得る（または同じ点から反射される）。例示的な実現例において、キャリブレーションの前に、光線１４５および光線１５０は、カメラ５およびカメラ１０の両方において同じ位置（たとえば、ｘ，ｙ位置）で画像内の画素を生成するために使用されないことがある。したがって、光線１４５に基づいてカメラ５によって生成された（画像内の）画素と、光線１５０に基づいてカメラ１０によって生成された（画像内の）画素とを、それぞれの画像内で同じ位置に合わせるように、カメラ５とカメラ１０とをキャリブレーションすることができる。

図１Ｂは、少なくとも１つの例示的な実施形態に係る、図１Ａに示すシーンの一部を示す二次元（２Ｄ）図である。図１Ｂは、キャリブレーション中に使用する画素を含み得る画像の部分を説明するために使用される。例示的な実現例において、キャリブレーションに使用される画素は、第２の画像において一致する画素を有する第１の画像内の画素であってもよい。図１Ｂは、特徴１２０－１を含む、図１Ａに示す画像の部分を示す。特徴１２０－１を含む画像の部分は、ドアのコーナー１２２－１を含み得る。図１Ｂは、特徴１２０－１を含む画像の部分を、２Ｄ画像の一部として示す。この２Ｄ画像は、（カメラ１０を使用して取り込まれた）ＲＧＢ画像でもよく、特徴１２０－１を含む画像の部分は、（カメラ５を使用して取り込まれた）ＮＩＲ画像を使用して識別されていてもよい。この２Ｄ図は、特徴１２０－１を含む画像の部分においてカメラキャリブレーションで使用する画素として識別される画素であり得る画素１５５を示す。カメラキャリブレーションで使用する画素は、カメラ１０（図１Ａに図示）によって取り込まれた対応する（たとえば、一致する）画素を有する、カメラ５によって取り込まれた画像内に位置付けられた画素であり得る。

図１Ｃおよび図１Ｄは、カメラのセンサの一部および検知された光線の解釈位置を示すために使用される。図１Ｃは、カメラ５に関連付けられたカメラセンサを示す。図１Ｃに示すセンサ位置１６０－１は、カメラ５によって取り込まれたＮＩＲ画像（図示せず）内の画素（たとえば、ＮＩＲ画素）に対応し得る。光線１４５は、カメラ５に、画像取り込みプロセス中に、センサ位置１６０－１を使用して画像内の画素（図示せず）を生成させることができる。

図１Ｄは、カメラ１０に関連付けられたカメラセンサを示す。図１Ｄに示すセンサ位置１６０－２は、画素１５５（たとえば、ＲＧＢ画素）に対応し得る。図１Ｄに示すように、光線１５０は、カメラ１０に、画像取り込みプロセス中に、センサ位置１６０－２を使用して画素１５５を生成させることができる。

カメラ５を使用して取り込まれた画像の画素（図示せず）の位置（たとえば、ｘ，ｙ座標）は、画素１５５の画素位置と同じであるべきである。したがって、センサ位置１６０－１およびセンサ位置１６０－２は、対応する画像において同じｘ，ｙ座標を有する画素を生成するために使用されるべきである。しかしながら、図１Ｃおよび図１Ｄに見られるように、センサ位置１６０－１およびセンサ位置１６０－２は、同じｘ，ｙ座標を有していない。これは、キャリブレーションが必要なマルチカメラシステムを示している。言い換えれば、キャリブレーションされたマルチカメラシステムは、同じセンサ位置（たとえば、画素１５５とカメラ５を使用して取り込まれた一致する画素とに関連付けられたセンサ位置１６０－３）を有していなければならない。

図１Ｅ～図１Ｇは、マルチカメラシステムをキャリブレーションする前の画像上の画素の２Ｄ位置を説明するために使用される。図１Ｅは、（カメラ５の）センサ位置１６０－１に対応するＸ１，Ｙ１に位置する画素１６５－１を有する画像の部分を表す２Ｄ座標系を示す。図１Ｆは、（カメラ１０の）センサ位置１６０－２に対応するＸ２，Ｙ２に位置する画素１６５－２を有する画像の部分を表す２次元座標系を示す。図１Ｇは、図１Ｅの２Ｄ座標系と図１Ｆの２Ｄ座標系との重ね合わせを表す２Ｄ座標系を示す。画素１６５－１と画素１６５－２とは、実世界シーンにおいて（一致した画素として）同じ点を表すことができる。言い換えれば、画素１６５－１と画素１６５－２とは、同じ３Ｄ座標（ｘ，ｙ，ｚ座標）を有する実世界シーン内の点を表すことができる。したがって、カメラ５を使用して取り込まれた画素１６５－１を含む２Ｄ画像と、カメラ１０を使用して取り込まれた画素１６５－２を含む２Ｄ画像とは、図１Ｇの重ね合わされた２Ｄ座標系において同じ位置（たとえば、ｘ，ｙ座標）を共有するべきである。図１Ｇで分かるように、画素１６５－１と画素１６５－２とは同じ位置を共有していない。したがって、カメラ５を使用して取り込まれた画像の画素を、カメラ１０を使用して取り込まれた画像の画素と位置を合わせる（たとえば、画素１６５－１と画素１６５－２とが、それぞれの画像において同じ２Ｄ座標を有するようにする）ために、カメラをキャリブレーションするべきである。

キャリブレーションは、光線１４５および光線１５０に関連する計算が同じ目標画素位置に関連付けられるように、キャリブレーションパラメータを調整することを含み得る。目標画素位置は、画像の一部を表す２Ｄ座標系における同じ位置（たとえば、ｘ，ｙ座標）であるべきである。

図１Ｈは、マルチカメラシステムのキャリブレーション後の画像上の画素の２Ｄ位置を説明するために使用される。図１Ｈは、カメラキャリブレーション処理後の図１Ｅの２Ｄ座標系と図１Ｆの２Ｄ座標系との重ね合わせを表す２Ｄ座標系を示す。図１Ｈに示すように、画素１６５－１’および画素１６５－２’は、同じ位置Ｘ３，Ｙ３（図１Ｃおよび図１Ｄにも示す）を共有する。画素１６５－１’および画素１６５－２’は、光線１４５および光線１５０が同じ目標画素位置に関連付けられるように、キャリブレーションパラメータが調整された後の画素１６５－１および画素１６５－２を表す。画素１６５－１および画素１６５－２を目標画素位置にキャリブレーションすることによって、光線１４５および光線１５０に関連付けられたセンサ読取値の（たとえば、カメラによる）処理において、光線が３Ｄ実世界シーン座標系において同じ点で交差しているという解釈をもたらす２Ｄ位置を解釈することができる。

図１Ｉは、上述のキャリブレーションされたカメラの２Ｄ画素位置に対応する空間内の点の３Ｄ位置を説明するために使用される。図１Ｉは、カメラキャリブレーション後の実世界シーン３Ｄ座標系を示し、点１７０は交点を示す。したがって、目標画素位置は、実世界シーン３Ｄ座標系内の光線（たとえば、光線１４５’および１５０’）が実世界シーン内の点（たとえば、点１７０）において交差するように、カメラのキャリブレーションパラメータを調整するために使用される２Ｄ座標系内の画素の位置である。

キャリブレーションパラメータを調整することにより、検知された光線（たとえば、光線１４５および光線１５０）の解釈された２Ｄ位置を、光線に関連付けられたセンサ位置が異なる２Ｄ検知位置に関連付けられるように、カメラ内で変更させることができる。キャリブレーションパラメータは、内部パラメータおよび外部パラメータを含み得る。内部パラメータは、有効焦点距離、または像面から投影中心までの距離、レンズ歪み係数、ｘの倍率、カメラの走査および／または取得タイミング誤差に起因する取得画像の原点のシフトを含み得る。外部パラメータは、定義されたワールド座標系に対するカメラの３Ｄ位置および向きによって定義することができる。

例示的な実現例において、内部パラメータは指定された範囲内にあるとみなされ、外部パラメータは調整される。たとえば、実世界シーン内の点のｘ，ｙ，ｚ座標を変化させるパラメータは、キャリブレーションの要素となり得る。さらに、実世界シーンにおける座標面のｘ軸、ｙ軸およびｚ軸（たとえば向き）座標を変化させるパラメータも、キャリブレーションの要素となり得る。カメラキャリブレーションは、例示的な目的で、２つのカメラを使用して説明される。しかしながら、例示的な実現例は、３次元（３Ｄ）テレビ会議システムにおいて３台以上のカメラを含み得る。たとえば、２台以上のＮＩＲカメラおよび／または２台以上のＲＧＢカメラを使用することができる。さらに、例示的な目的で、単一の一致画素について説明する。例示的な実現例は、カメラキャリブレーションにおける複数（たとえば、１０ｓ，１００ｓ，１０００ｓ等）の画素の使用を含み得る。

機械学習（ＭＬ）モデル、ＭＬモデルの使用、およびＭＬモデルの訓練について言及する。ＭＬモデルは、畳み込みニューラルネットワーク、再帰的ニューラルネットワーク、決定木、ランダムフォレスト、ｋ－近傍法などを含むアルゴリズムの使用を含み得る。たとえば、畳み込みニューラルネットワーク（convolutional neural network：ＣＮＮ）は、画素の照合、画素位置の決定、画素の識別などに使用することができる。ＣＮＮアーキテクチャは、入力層、特徴抽出層（複数可）、および分類層（複数可）を含み得る。

入力は、３次元（たとえば、ｘ，ｙ、色）のデータ（たとえば、画像データ）を受け付け得る。特徴抽出層（複数可）は、畳み込み層（複数可）とプーリング層（複数可）とを含み得る。畳み込み層（複数可）およびプーリング層（複数可）は、画像内の特徴を見つけ、高次の特徴を漸進的に構築し得る。特徴抽出層（複数可）は学習層とすることができる。分類層（複数可）は、クラス確率またはスコア（たとえば、一致の可能性を示す）を生成し得る。

訓練（たとえば、特徴抽出層（複数可）の訓練）は、たとえば、教師あり学習と教師なし学習とを含み得る。教師あり学習は、予測変数（独立変数）の所与のセットから予測される目標／結果変数（たとえば、グランドトゥルースまたは従属変数）を含む。これらの変数のセットを使用して、入力を所望の出力にマッピング可能な関数が生成される。訓練プロセスは、モデルが訓練データに基づいて所望の精度レベルを達成するまで続けられる。教師なし学習は、機械学習アルゴリズムを使用して、ラベル付けされた応答を用いることなく、入力データからなるデータセットから推論を行う。教師なし学習にはクラスタリングが含まれることもある。他のタイプの訓練（ハイブリッド訓練および強化訓練等）を使用することもできる。

上述したように、ＭＬモデルの訓練は、所望の精度レベルに達するまで続けることができる。精度レベルの決定は、損失関数の使用を含み得る。たとえば、損失関数は、ヒンジ損失、ロジスティック損失、負の対数尤度などを含み得る。ＭＬモデル訓練の十分な精度レベルに達したことを示すために、損失関数を最小化することができる。正則化も使用できる。正則化によって、オーバーフィッティングを防ぐことができる。オーバーフィッティングは、重みおよび／または重みの変化を十分に小さくして訓練（たとえば、終わりのない訓練）を防ぐことによって、防ぐことができる。

図２は、少なくとも１つの例示的な実施形態に係るデータフローを示すブロック図である。データフローは、マルチカメラシステムにおけるカメラキャリブレーションに関連する。図２に示すように、データフロー２００は、カメラ５、カメラ１０、特徴識別器２１５ブロック、特徴照合２２０ブロック、光線から画素へのマッピング２２５ブロック、およびキャリブレーション２３０ブロックを含む。データフロー２００では、第１の画像がカメラ５によって取り込まれ、第２の画像がカメラ１０によって取り込まれる。各画像は、実世界シーン（たとえば、実質的に同じ実世界シーン）の画像であり得る。例示的な実現例によれば、実世界シーンは、特別に設計されたキャリブレーション対象（たとえば、カメラキャリブレーションプロセスで使用するために識別可能な特性を含む）を含まない。たとえば、各画像は、図１Ａに示すシーンのものとすることができる。第１の画像はＮＩＲ画像とすることができ、第２の画像はＲＧＢ画像とすることができる。カメラ５は、第１の画像を特徴識別器２１５ブロックに伝達することができ、ここで、第１の画像（たとえば、ＮＩＲ画像）において複数の特徴を識別することができる。たとえば、図１Ａに示すように、画像の特徴１２０－１，１２０－２，１２０－３を含む部分は、識別された特徴１２２－１，１２２－２，１２２－３を含み得る。識別された複数の特徴は、特徴照合２２０ブロックに伝達され得る。カメラ１０は、第２の画像を特徴照合２１５ブロックに伝達することができ、ここで、識別された複数の特徴の画素を、第２の画像内の複数の特徴の画素と照合する（たとえば、位置を特定して照合する）ことができる。たとえば、図１Ｂに示す画素１５５は、ＮＩＲ画像で照合されたＲＧＢ画素であり、キャリブレーション中に使用することができる。

第１の画像と第２の画像との両方からの一致する複数の特徴は、特徴照合２２０ブロックから、光線から画素へのマッピング２２５ブロックに伝達される。光線から画素へのマッピング２２５ブロックは、第１の画像と第２の画像との両方に関連する複数の照合された特徴について、３Ｄ空間内の光線を２Ｄ空間内の画素にマッピングすることができる。たとえば、図１Ｃに示す光線１４５および図１Ｄに示す光線１５０は、センサ位置と対応する画素位置とに基づいて、画素にマッピングされ得る。画素にマッピングされた光線は、キャリブレーション２３０ブロックがカメラ５およびカメラ１０をキャリブレーションするために使用することができる。キャリブレーション２３０ブロックは、第１の画像内の画素と第２の画像内の画素とが画像の２Ｄ空間において実質的に同じ位置になるように、（一致する特徴から）一致する画素の位置を合わせるキャリブレーションパラメータを調整することができる。たとえば、図１Ｈに示すような画素１６５－１’および画素１６５－２’は、位置合わせされた一致画素であり得る。

特徴識別器２１５ブロックは、画像において特徴を識別するように構成することができる。特徴識別器２１５ブロックは、コーナーおよびエッジ検出を使用し得る。コーナーおよびエッジ検出は、ハリスコーナー検出器の使用を含み得る。ハリスコーナー検出器は、信号の局所自己相関関数に基づいており、局所自己相関関数は、異なる方向に少量だけシフトされたパッチを有する信号の局所変化を測定する。入力画像においてコーナーを見つけるために、この技術は方向性のある平均強度を分析する。ハリスコーナー検出器の数学的形式は、全方向の（ｕ，ｖ）の変位について強度の差を特定する。

特徴識別器２１５ブロックは、機械学習（ＭＬ）モデルを使用して特徴を識別し得る。ＭＬモデルは、キャリブレーションされたマルチカメラシステムを使用して取り込まれたデータ（たとえば、画像）を使用して、訓練することができる。ＭＬモデルは、畳み込みニューラルネットワークとすることができる。ＭＬモデルは、分類を使用して、画像の一部を、候補特徴を含む（または候補特徴である）と識別することができる。例示的な実現例において、カメラ５は、ＮＩＲ画像を取り込むように構成されたＮＩＲカメラである。ＮＩＲ画像はＭＬモデルに入力することができる。ＭＬモデルは、ＮＩＲ画像の複数の部分についての分類を出力することができる。出力は、ＮＩＲ画像の各部分の一意の識別子、ＮＩＲ画像の各部分の位置および／または寸法（複数可）を含むことができ、ＮＩＲ画像の各部分を、候補特徴を含むものとして、または候補特徴を含まないものとして、示すことができる。候補特徴は、正確に位置を特定する（たとえば、ＮＩＲ画像内の画素（複数可）の位置を示す）ことが容易であり得る（たとえばＮＩＲ画像の）少なくとも１つの画素を含み得る（たとえば、コーナー、遷移、スポット等）。

特徴照合２２０ブロックは、ＭＬモデルを使用して、第１の画像において候補特徴として識別された一致する特徴を、第２の画像において特定するように構成され得る。ＭＬモデルは、キャリブレーションされたマルチカメラシステムを使用して取り込まれたデータ（たとえば、画像）を使用して、訓練することができる。ＭＬモデルは、畳み込みニューラルネットワークとすることができる。ＭＬモデルは、スコアリングを使用して、第２の画像内の画素（複数可）を、第１の画像内の画素（複数可）と一致する可能性があると識別することができる。たとえば、高いスコアはその画素が一致する可能性が高いことを示し、低いスコアはその画素が一致する可能性が低いことを示す。

例示的な実現例において、第１の画像は（カメラ５によって取り込まれた）ＮＩＲ画像であり、第２の画像は（カメラ１０によって取り込まれた）ＲＧＢ画像である。特徴照合２２０ブロックは、ＮＩＲ画像の各部分の一意の識別子、ＮＩＲ画像の各部分の位置および／または寸法（複数可）を含むデータを受信し、ＮＩＲ画像の各部分を、候補特徴を含むかまたは候補特徴を含まないものとして示し得る。候補特徴を含むＮＩＲ画像の部分を含むデータは、ＭＬモデルに入力することができる。候補特徴を含むＮＩＲ画像の部分に関連する各画素に、ＭＬモデルによってスコア（たとえば、一致の可能性を示すスコア）を割り当てることができる。

候補特徴ごとに、第２の画像（たとえばＲＧＢ画像）において探索窓を定義することができる。検索窓内の各画素は、ＭＬモデルを使用してスコアを割り当てることができ、高いスコアは、候補特徴内の画素（複数可）に対応する可能性が高い画素を示し、他の画像では低いスコアを示す。第２のＭＬモデル（たとえば、第２のニューラルネットワーク）を使用して、検索窓内の各画素の完全一致の位置（たとえば、ｘ，ｙ位置）を予測することができる。検索窓内の各画素の推定オフセット（たとえば、完全一致画素が現在の画素から画像のｘ軸およびｙ軸に沿ってどの程度離れているかの予測）を生成することができる。一致画素（たとえば、基準をパスする（たとえば、閾値を上回る）スコアを有する画素）の推定オフセットを計算することができる。たとえば、検索窓内の画素が十分に高いスコアを有する（たとえば、一致する可能性が高い）ことが判明した場合、画素とその近傍画素との推定オフセットを平均して、（目標一致画素として）最良の一致画素の推定オフセットを求め、ＮＩＲのＲＧＢとの一致を生成することができる。一致（たとえば、第２の画像またはＲＧＢ画像内の画素の位置）は、推定オフセットと共に第２のＭＬモデルから出力することができる。一例では、窓（複数可）は以前のキャリブレーションに基づき得る。たとえば、窓の位置および寸法は、以前のキャリブレーション中に決定された（およびメモリに格納された）窓の位置および寸法に基づき得る。

上述のＭＬモデル（複数可）は、キャリブレーションされたマルチカメラ（たとえば、ＮＩＲおよびＲＧＢ）システムを用いて取り込まれたデータ（たとえば、画像）を用いて訓練することができる。訓練は、候補特徴に関連する画素のスコアを生成することを含み得る。グランドトゥルースデータは、特徴の数、特徴内の画素の位置、画素スコアおよびオフセットを含み得る。訓練は、ＭＬモデルのスコア出力が、グランドトゥルースデータとの比較に基づく基準をパスするまで、ＭＬモデルに関連する重み（たとえば、ニューラルネットワークの重み）を調整することを含み得る。

図２に戻って、キャリブレーション２３０ブロックは、カメラ５およびカメラ１０を互いに関してキャリブレーションするように構成することができる。キャリブレーションは、（実世界における）光線に基づいてカメラ５によって生成された（画像内の）画素と、（実世界における）光線に基づいてカメラ１０によって生成された（画像内の）画素とを、それぞれの画像内で同じ位置を有するように位置合わせすることを含み得る。キャリブレーションは、第１の光線（たとえば、Ｒ_１、光線１４５）および第２の光線（たとえば、Ｒ_２、光線１５０）が目標画素位置（Ｐ）に関連付けられるようにキャリブレーションパラメータを調整することを含み得る。目標画素位置は、実世界シーン座標系において、第１の光線と第２の光線との交点となる点とすることができる。第１の光線と第２の光線とが実空間（たとえば、３Ｄ空間）内の点で交差すると解釈されるようにキャリブレーションパラメータを調整することは、第１の光線と第２の光線とに関連付けられた処理済みのセンサ位置を、キャリブレーションされていないカメラ（複数可）と比較して２Ｄでシフトさせることを含み得る。キャリブレーションパラメータは、カメラキャリブレーション行列Ｍに含めることができる。したがって、キャリブレーション行列Ｍを修正することにより、光線Ｒ_１，Ｒ_２が点Ｐで交差するように、点ｐ１およびｐ２を（一致する画素として）平行移動させることができる。例示的な実現例において、一致する画素の数は多くなければならない（たとえば、数百の一致する画素）。

キャリブレーションパラメータは、内部パラメータおよび外部パラメータを含み得る。内部パラメータは、有効焦点距離、または像面から投影中心までの距離、レンズ歪み係数、ｘの倍率、カメラの走査および／または取得タイミング誤差に起因する取得画像の原点のシフトを含み得る。外部パラメータは、定義されたワールド座標系に対するカメラの３Ｄ位置および向きによって、定義することができる。

例示的な実現例において、内部パラメータは指定された範囲内にあるとみなされ、外部パラメータは調整される。たとえば、実世界シーン内の点のｘ，ｙ，ｚ座標を変化させるパラメータは、キャリブレーションの要素とすることができる。さらに、実世界シーンにおける座標面のｘ軸、ｙ軸、ｚ軸（たとえば、向き）座標を変化させるパラメータは、キャリブレーションの要素とすることができる。

図３は、少なくとも１つの例示的な実施形態に係るテレビ会議システムを示すブロック図である。図３に示す要素は、図２に示すようなテレビ会議システムのカメラキャリブレーションに関連する（またはカメラキャリブレーションを含む）。図３に示すように、テレビ会議システム３００は、少なくとも１つのプロセッサ３０５と、少なくとも１つのメモリ３１０と、カメラインターフェイス３１５と、特徴識別器２１５ブロックと、特徴照合２２０ブロックと、光線から画素へのマッピング２２５ブロックと、キャリブレーション２３０ブロックとを含む。特徴識別器２１５ブロック、特徴照合２２０ブロック、光線から画素へのマッピング２２５ブロック、およびキャリブレーション２３０ブロックについては上述した。

少なくとも１つのプロセッサ３０５は、少なくとも１つのメモリ３１０に格納された命令を実行するために利用され、それによって、本明細書に記載のさまざまな特徴および機能、または追加のもしくは代替的な特徴および機能を実現することができる。少なくとも１つのプロセッサ３０５は、汎用プロセッサであってもよい。少なくとも１つのプロセッサ３０５は、グラフィック・プロセッシング・ユニット（graphics processing unit：ＧＰＵ）および／またはオーディオ・プロセッシング・ユニット（audio processing unit：ＡＰＵ）であってもよい。少なくとも１つのプロセッサ３０５および少なくとも１つのメモリ３１０は、他のさまざまな目的のために利用されてもよい。特に、少なくとも１つのメモリ３１０は、本明細書に記載のモジュールのいずれか１つを実現するために使用され得る、さまざまなタイプのメモリおよび関連するハードウェアおよびソフトウェアの一例を表し得る。

少なくとも１つのメモリ３１０は、テレビ会議システム３００に関連するデータおよび／または情報を格納するように構成されてもよい。たとえば、少なくとも１つのメモリ３１０は、識別された実世界シーンの特徴を使用してカメラをキャリブレーションすることに関連するコードを格納するように構成されてもよい。例示的な実現例によれば、実世界シーンは、（たとえば、カメラキャリブレーションプロセスで使用するために識別可能な特徴を含む）特別に設計されたキャリブレーション対象を含まない。たとえば、少なくとも１つのメモリ３１０は、少なくとも１つの訓練済みＭＬモデルに関連するコードを格納するように構成されてもよい。少なくとも１つのメモリ３１０は、プロセッサ３０５によって実行されるとプロセッサ３０５に本明細書に記載の技術の１つ以上を実行させるコードを有する、非一時的なコンピュータ読取可能媒体であってもよい。少なくとも１つのメモリ３１０は、共有リソースであってもよい。たとえば、モデル訓練システム３００は、より大きなシステム（たとえば、サーバ、パーソナルコンピュータ、モバイルデバイス等）の要素であってもよい。したがって、少なくとも１つのメモリ３１０は、より大きなシステム内の他の要素に関連するデータおよび／または情報を格納するように構成されてもよい。

図４および図５は、例示的な実施形態に係る方法を示すフローチャートである。図４および図５に関して説明される方法は、装置に関連付けられたメモリ（たとえば、非一時的なコンピュータ読取可能記憶媒体）に格納され、装置に関連付けられた少なくとも１つのプロセッサによって実行されるソフトウェアコードの実行に起因して実行されてもよい。

しかしながら、専用プロセッサとして具現化されるシステムなどの代替実施形態が意図されている。専用プロセッサは、グラフィック・プロセッシング・ユニット（ＧＰＵ）および／またはオーディオ・プロセッシング・ユニット（ＡＰＵ）とすることができる。ＧＰＵは、グラフィックカードの構成要素とすることができる。ＡＰＵは、サウンドカードの構成要素とすることができる。グラフィックカードおよび／またはサウンドカードは、ビデオ／オーディオメモリ、ランダムアクセスメモリ・デジタルアナログコンバータ（random access memory digital-to-analogue converter：ＲＡＭＤＡＣ）、およびドライバソフトウェアも含み得る。ドライバソフトウェアは、上記で言及したメモリに格納されたソフトウェアコードとすることができる。ソフトウェアコードは、本明細書に記載の方法を実行するように構成することができる。

以下に記載する方法は、プロセッサおよび／または専用プロセッサによって実行されるものとして説明されるが、方法は、必ずしも同一のプロセッサによって実行されるとは限らない。換言すれば、少なくとも１つのプロセッサおよび／または少なくとも１つの専用プロセッサが、図４および図５に関して以下に説明する方法を実行してもよい。

図４は、少なくとも１つの例示的な実施形態に係るカメラをキャリブレーションする方法のブロック図を示す。図４に示すように、ステップＳ４０５では、第１の画像が第１のカメラによって取り込まれる。たとえば、第１のカメラは、第１のスペクトルの光（たとえば、ＩＲ，ＮＩＲ等）に感度を有してもよく、第１の光源（たとえば、第１のカメラに関連付けられたＩＲまたはＮＩＲフラッシュ）を有し得る。例示的な実現例において、第１のカメラはＮＩＲカメラでもよく、第１の画像はＮＩＲ画像とすることができる。

ステップＳ４１０では、第２の画像が第２のカメラによって取り込まれる。たとえば、第２のカメラは、第２のスペクトルの光（たとえば、可視光）に感度を有してもよく、第２の光源（たとえば、室内光、太陽光等）を有し得る。例示的な実現例において、第２のカメラは可視光またはＲＧＢカメラでもよく、第１の画像はＲＧＢ画像とすることができる。

ステップＳ４１５では、第１の画像において特徴が識別される。特徴識別は、コーナーおよびエッジ検出の使用を含み得る。コーナーおよびエッジ検出は、ハリスコーナー検出器の使用を含み得る。ハリスコーナー検出器は、信号の局所自己相関関数に基づいており、局所自己相関関数は、異なる方向に少量だけシフトされたパッチを有する信号の局所変化を測定する。入力画像においてコーナーを見つけるために、この技術では、方向性のある平均強度を分析する。ハリスコーナー検出器の数学的形式は、全方向の（ｕ，ｖ）の変位について強度の差を特定する。

あるいは、機械学習（ＭＬ）モデルを使用して画像の特徴を識別することができる。ＭＬモデルは、キャリブレーションされたマルチカメラシステムを使用して取り込まれたデータ（たとえば、画像）を使用して、訓練することができる。ＭＬモデルは畳み込みニューラルネットワークとすることができる。ＭＬモデルは、分類を使用して、画像の一部が候補特徴を含む（または候補特徴である）と識別することができる。例示的な実現例において、カメラはＮＩＲ画像を取り込むように構成されたＮＩＲカメラである。ＮＩＲ画像はＭＬモデルに入力することができる。ＭＬモデルは、ＮＩＲ画像の複数の部分についての分類を出力することができる。出力は、ＮＩＲ画像の各部分の一意の識別子、ＮＩＲ画像の各部分の位置および／または寸法（複数可）を含むことができ、ＮＩＲ画像の各部分を、候補特徴を含むものとして、または候補特徴を含まないものとして示すことができる。候補特徴は、正確に位置を特定する（たとえば、ＮＩＲ画像内の画素（複数可）の位置を示す）ことが容易であり得る（たとえばＮＩＲ画像の）少なくとも１つの画素を含み得る（たとえば、コーナー、遷移、スポット等）。

ステップＳ４２０では、第１の画像において識別された特徴と一致する第２の画像内の特徴が特定される。たとえば、ＭＬモデルを使用して、第１の画像において候補特徴として特定された一致特徴を、第２の画像において特定することができる。ＭＬモデルは、キャリブレーションされたマルチカメラシステムを使用して取り込まれたデータ（たとえば、画像）を使用して、訓練することができる。ＭＬモデルは、畳み込みニューラルネットワークとすることができる。ＭＬモデルは、スコアリングを使用して、第２の画像内の画素（複数可）を、第１の画像内の画素（複数可）と一致する可能性があると識別することができる。たとえば、高いスコアはその画素が一致する可能性が高いと示すことができ、低いスコアはその画素が一致する可能性が低いと示すことができる。

例示的な実現例において、第１の画像はＮＩＲ画像であり、第２の画像はＲＧＢ画像である。ＭＬモデルは、ＮＩＲ画像の各部分の一意の識別子、ＮＩＲ画像の各部分の位置および／または寸法（複数可）を含むデータを使用し、ＭＬモデルへの入力として、候補特徴を含むものとしてＮＩＲ画像の各部分を示すことができる。別の実現例では、第１の画像はＲＧＢ画像であり、第２の画像はＮＩＲ画像である。

候補特徴ごとに、第２の画像（たとえばＲＧＢ画像）において探索窓を定義することができる。検索窓内の各画素は、ＭＬモデルを使用してスコアを割り当てることができ、高いスコアは、候補特徴内の画素（複数可）に対応する可能性が高い画素を示し、他の画素では低いスコアを示す。第２のＭＬモデル（たとえば、第２のニューラルネットワーク）を使用して、検索窓内の各画素の完全一致の位置（たとえば、ｘ，ｙ位置）を予測することができる。検索窓内の各画素の推定オフセット（たとえば、完全一致画素が現在の画素から画像のｘ軸およびｙ軸に沿ってどの程度離れているかの予測）を生成することができる。一致画素（たとえば、基準をパスする（たとえば、閾値を上回る）スコアを有する画素）の推定オフセットを計算することができる。たとえば、検索窓内の画素が十分に高いスコアを有する（たとえば、一致する可能性が高い）ことが判明した場合、画素とその近傍画素との推定オフセットを平均して、（目標一致画素として）最良の一致画素の推定オフセットを求め、ＮＩＲのＲＧＢとの一致を生成することができる。一致（たとえば、第２の画像またはＲＧＢ画像内の画素の位置）は、推定オフセットと共に第２のＭＬモデルから出力することができる。一例では、窓（複数可）は、以前のキャリブレーションに基づき得る。たとえば、窓の位置および寸法は、以前のキャリブレーション中に決定された（およびメモリに格納された）窓の位置および寸法に基づき得る。

図４に戻り、ステップＳ４３０では、マッピングに基づいて、第１のカメラと第２のカメラとがキャリブレーションされる。たとえば、キャリブレーションは、（実世界における）光線に基づいてカメラ５によって生成された（画像における）画素と、（実世界における）光線に基づいてカメラ１０によって生成された（画像における）画素とを、それぞれの画像において同じ位置を有するように位置合わせすることを含み得る。キャリブレーションは、第１の光線（たとえば、Ｒ_１、光線１４５）および第２の光線（Ｒ２、光線１５０）が目標画素位置（Ｐ）に関連付けられるように、キャリブレーションパラメータを調整することを含み得る。目標画素位置は、画像の一部を表す２Ｄ座標系における同じ位置（たとえば、ｘ，ｙ座標）とすることができる。目標画素位置は、カメラセンサ位置と、カメラセンサ位置に関連付けられた画素の処理された解釈とに関連付けることができる。

キャリブレーションは、第１の光線と第２の光線とが実空間（たとえば、３Ｄ空間）の点で交差すると解釈されるようにキャリブレーションパラメータを調整することを含むことができ、第１の光線と第２の光線とに関連付けられた処理済みのセンサ位置を、キャリブレーションされていないカメラ（複数可）と比較して２Ｄでシフトさせることを含み得る。キャリブレーションパラメータは、カメラキャリブレーション行列Ｍを含み得る。キャリブレーションパラメータは、内部パラメータおよび外部パラメータを含み得る。内部パラメータは、有効焦点距離、または像面から投影中心までの距離、レンズ歪み係数、ｘの倍率、カメラの走査および／または取得タイミング誤差に起因する取得画像の原点のシフトを含み得る。外部パラメータは、定義されたワールド座標系に対するカメラの３Ｄ位置および向きによって定義することができる。

例示的な実現例において、内部パラメータは指定された範囲内にあるとみなされ、外部パラメータは調整される。たとえば、実世界シーン内の点のｘ，ｙ，ｚ座標を変化させるパラメータは、キャリブレーションの要素とすることができる。さらに、実世界シーンにおける座標面のｘ軸、ｙ軸、およびｚ軸（たとえば、向き）座標を変化させるパラメータは、キャリブレーションの要素とすることができる。

図５は、少なくとも１つの例示的な実施形態に係る画素を照合する方法のブロック図を示す。図５に示すように、ステップＳ５０５において、第１の画像から候補特徴が選択される。たとえば、候補特徴は、正確に位置を特定する（たとえば、ＮＩＲ画像内の画素（複数可）の位置を示す）ことが容易であり得る（たとえばＮＩＲ画像の）少なくとも１つの画素を含み得る（たとえば、コーナー、遷移、スポット等）。候補特徴は、ＭＬモデルを使用して識別された複数の特徴のうちの１つとすることができる。第１の画像は、第１のカメラによって取り込まれ得る。第１のカメラは、第１のスペクトルの光（たとえば、ＩＲ，ＮＩＲ等）に感度を有することができ、第１の光源（たとえば、第１のカメラに関連付けられたＩＲまたはＮＩＲフラッシュ）を有し得る。例示的な実現例において、第１のカメラはＮＩＲカメラとすることができ、第１の画像はＮＩＲ画像とすることができる。別の実現例では、第１のカメラと第２のカメラとは、同じスペクトルの光に感度を有し得る。たとえば、例示的な実現例は、（たとえば、毛髪を含む画像に存在する）高反射表面および／または複雑な微細形状に関連するビュー依存効果の影響を低減することができる。

ステップＳ５１０では、第２の画像内のＲＧＢ画素が候補特徴と照合される。たとえば、ＭＬモデルを使用して、第１の画像において候補特徴として特定された一致特徴を、第２の画像において特定することができる。第２のカメラは、第２のスペクトルの光（たとえば、可視光）に対して感度を有してもよく、第２の光源（たとえば、室内光、太陽光等）を有し得る。例示的な実現例において、第２のカメラは可視光またはＲＧＢカメラとすることができ、第１の画像はＲＧＢ画像とすることができる。

ステップＳ５１５では、一致したＲＧＢ画素にスコアが割り当てられる。たとえば、ＭＬモデルは、スコアリングを使用して、第２の画像内の画素（複数可）を、第１の画像内の画素（複数可）と一致する可能性があると識別することができる。たとえば、高いスコアはその画素が一致する可能性が高いと示すことができ、低いスコアはその画素が一致する可能性が低いと示すことができる。

例示的な実現例において、第１の画像はＮＩＲ画像であり、第２の画像はＲＧＢ画像である。ＭＬモデルは、ＮＩＲ画像の各部分の一意の識別子、ＮＩＲ画像の各部分の位置および／または寸法（複数可）を含むデータを使用し、ＭＬモデルへの入力として、候補特徴を含むものとしてＮＩＲ画像の各部分を示すことができる。

候補特徴ごとに、第２の画像（たとえばＲＧＢ画像）において探索窓を定義することができる。検索窓内の各画素は、ＭＬモデルを使用してスコアを割り当てることができ、高いスコアは、候補特徴内の画素（複数可）に対応する可能性が高い画素を示し、他の画素では低いスコアを示す。

ステップＳ５２０では、目標一致画素（または目標画素）の位置の方向が予測される。たとえば、検索窓内の画素が十分に高いスコアを有する（たとえば、一致する可能性が高い）ことが判明した場合、検索窓内の各画素の推定オフセットが決定され得る。最良の一致画素とその近傍画素との推定オフセットを平均して、（目標一致画素として）最良の一致画素の位置を求め、ＮＩＲのＲＧＢとの一致を生成することができる。

ステップＳ５２５では、一致したＲＧＢ画素に方向が割り当てられる。たとえば、第２のＭＬモデル（たとえば、第２のニューラルネットワーク）は、推定オフセット（たとえば、目標一致画素が現在の画素（たとえば、基準をパスする（たとえば、閾値を上回る）スコアを有する画素）から画像のｘ軸およびｙ軸に沿ってどの程度離れているかの予測）を生成することができる。一致（たとえば、第２の画像またはＲＧＢ画像における画素の位置）は、推定オフセットと共に第２のＭＬモデルから出力することができる。一例では、窓（複数可）は、以前のキャリブレーションに基づき得る。たとえば、窓の位置および寸法は、以前のキャリブレーション中に決定された（およびメモリに格納された）窓の位置および寸法に基づき得る。

実施形態は、デバイス、システム、（コンピュータシステム上で実行可能なコンピュータ実行可能プログラムコードを格納した）非一時的なコンピュータ読取可能媒体、および／または方法を含み得る。方法でプロセスを実行可能であり、方法は、第１のスペクトルの光に感度を有し、かつ第１の光源を有する第１のカメラが、実世界シーンの第１の画像を取り込むことと、第２のスペクトルの光に感度を有し、かつ第２の光源を有する第２のカメラが、実世界シーンの第２の画像を取り込むことと、第１の画像において少なくとも１つの特徴を識別することと、機械学習（ＭＬ）モデルを使用して、第１の画像において識別された少なくとも１つの特徴と一致する、第２の画像内の少なくとも１つの特徴を識別することと、一致した少なくとも１つの特徴に基づいて、第１の画像および第２の画像内の画素を、３次元（３Ｄ）空間において光線にマッピングすることと、マッピングに基づいて、第１のカメラと第２のカメラとをキャリブレーションすることとを備える。

実現例は、以下の特徴のうちの１つ以上を含み得る。たとえば、第１のカメラは近赤外（ＮＩＲ）カメラでもよく、第２のカメラは可視光カメラでもよい。ＭＬモデルを使用して、第１の画像において少なくとも１つの特徴を識別し得る。アルゴリズムを使用して、第１の画像において少なくとも１つの特徴を識別し得る。ＭＬモデルを使用して、第１の画像内の少なくとも１つの特徴を、第２の画像内の少なくとも１つの特徴と照合してもよく、第２の画像の少なくとも１つの画素が第１の画像内の少なくとも１つの特徴の画素と一致する可能性に基づいて、第２の画像の少なくとも１つの画素にスコアが割り当てられ得る。アルゴリズムを使用して、第１の画像内の少なくとも１つの特徴を、第２の画像内の少なくとも１つの特徴と照合してもよく、第２の画像の少なくとも１つの画素が第１の画像内の少なくとも１つの特徴の画素と一致する可能性に基づいて、第２の画像の少なくとも１つの画素にスコアを割り当ててもよく、目標画素の位置の予測に基づいて、第２の画像の少なくとも１つの画素に方向が割り当てられ得る。

図７は、本明細書に記載されている技術と共に使用することができるコンピュータデバイス７００およびモバイルコンピュータデバイス７５０の一例を示す。コンピューティングデバイス７００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどのさまざまな形態のデジタルコンピュータを表すよう意図されている。コンピューティングデバイス７５０は、携帯情報端末、携帯電話、スマートフォン、および他の同様のコンピューティングデバイスなどのさまざまな形態のモバイルデバイスを表すよう意図されている。本明細書に示されているコンポーネント、それらの接続および関係、ならびにそれらの機能は、単に例示的であるよう意図されており、本明細書に記載されているおよび／またはクレームされている発明の実現例を限定することを意図したものではない。

コンピューティングデバイス７００は、プロセッサ７０２と、メモリ７０４と、ストレージデバイス７０６と、メモリ７０４および高速拡張ポート７１０に接続する高速インターフェイス７０８と、低速バス７１４およびストレージデバイス７０６に接続する低速インターフェイス７１２とを含む。コンポーネント７０２，７０４，７０６，７０８，７１０および７１２の各々は、さまざまなバスを用いて相互接続され、共通のマザーボード上にまたは適宜他の態様で搭載されてもよい。プロセッサ７０２は、コンピューティングデバイス７００内で実行される命令を処理し得るものであり、当該命令は、高速インターフェイス７０８に結合されたディスプレイ７１６などの外部入出力デバイス上にＧＵＩのためのグラフィック情報を表示するための、メモリ７０４内またはストレージデバイス７０６上に格納された命令を含む。いくつかの実現例において、複数のメモリおよび複数タイプのメモリと共に、複数のプロセッサおよび／または複数のバスが適宜使用されてもよい。また、複数のコンピューティングデバイス７００が接続され、各デバイスは、（たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）必要な動作の一部を提供してもよい。

メモリ７０４は、コンピューティングデバイス７００内に情報を格納する。一実現例において、メモリ７０４は、１つまたは複数の揮発性メモリユニットである。別の実現例において、メモリ７０４は、１つまたは複数の不揮発性メモリユニットである。また、メモリ７０４は、磁気ディスクまたは光ディスクなどの、別の形式のコンピュータ読取可能媒体であってもよい。

ストレージデバイス７０６は、コンピューティングデバイス７００に大容量ストレージを提供することができる。一実現例において、ストレージデバイス７０６は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、または、ストレージエリアネットワークもしくは他の構成内のデバイスを含むデバイスのアレイなどのコンピュータ読取可能媒体であってもよく、またはそのようなコンピュータ読取可能媒体を含んでもよい。コンピュータプログラム製品を、情報担体において有形に具体化してもよい。コンピュータプログラム製品は、実行されると上述のような１つ以上の方法を実行する命令も含み得る。情報担体は、メモリ７０４、ストレージデバイス７０６、またはプロセッサ７０２上のメモリなどのコンピュータ読取可能媒体または機械読取可能媒体である。

高速コントローラ７０８は、コンピューティングデバイス７００のための帯域幅集約型動作を管理するのに対して、低速コントローラ７１２は、帯域幅がそれほど集約しない動作を管理する。そのような機能の割り当ては例示に過ぎない。一実現例において、高速コントローラ７０８は、メモリ７０４、ディスプレイ７１６に（たとえば、グラフィックスプロセッサまたはアクセラレータを介して）結合されると共に、さまざまな拡張カード（図示せず）を受け付け得る高速拡張ポート７１０に結合される。この実現例において、低速コントローラ７１２は、ストレージデバイス７０６および低速拡張ポート７１４に結合される。さまざまな通信ポート（たとえば、ＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、無線イーサネット）を含み得る低速拡張ポートは、キーボード、ポインティングデバイス、スキャナなどの１つ以上の入出力デバイス、またはスイッチもしくはルータなどのネットワーキングデバイスに、たとえばネットワークアダプタを介して結合されてもよい。

コンピューティングデバイス７００は、図に示すように多くの異なる形態で実現されてもよい。たとえば、標準的なサーバ７２０として、またはそのようなサーバのグループで複数回実現されてもよい。また、ラックサーバシステム７２４の一部として実現されてもよい。くわえて、ラップトップコンピュータ７２２などのパーソナルコンピュータにおいて実現されてもよい。または、コンピューティングデバイス７００からのコンポーネントが、デバイス７５０などのモバイルデバイス（図示せず）内の他のコンポーネントと組み合わされてもよい。そのようなデバイスの各々は、コンピューティングデバイス７００，７５０のうちの１つ以上を含んでもよく、システム全体が、互いに通信する複数のコンピューティングデバイス７００，７５０で構成されてもよい。

コンピューティングデバイス７５０は、いくつかあるコンポーネントの中で特に、プロセッサ７５２と、メモリ７６４と、ディスプレイ７５４などの入出力デバイスと、通信インターフェイス７６６と、トランシーバ７６８とを含む。デバイス７５０には、ストレージをさらに提供するために、マイクロドライブまたは他のデバイスなどのストレージデバイスが設けられてもよい。コンポーネント７５０，７５２，７６４，７５４，７６６および７６８の各々は、さまざまなバスを用いて相互接続され、これらのコンポーネントのうちのいくつかは、共通のマザーボード上にまたは適宜他の態様で搭載されてもよい。

プロセッサ７５２は、メモリ７６４に格納された命令を含む、コンピューティングデバイス７５０内の命令を実行することができる。プロセッサは、別々の複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実現されてもよい。プロセッサは、たとえば、ユーザインターフェイスの制御、デバイス７５０によって実行されるアプリケーション、およびデバイス７５０による無線通信といった、デバイス７５０の他のコンポーネントの連携を提供してもよい。

プロセッサ７５２は、ディスプレイ７５４に結合された制御インターフェイス７５８およびディスプレイインターフェイス７５６を通してユーザと通信してもよい。ディスプレイ７５４は、たとえば、ＴＦＴＬＣＤ（Thin-Film-Transistor Liquid Crystal Display：薄膜トランジスタ液晶ディスプレイ）もしくはＯＬＥＤ（Organic Light Emitting Diode：有機発光ダイオード）ディスプレイ、または他の適切なディスプレイ技術であってもよい。ディスプレイインターフェイス７５６は、ディスプレイ７５４を駆動してグラフィック情報および他の情報をユーザに表示するための適切な回路を含んでもよい。制御インターフェイス７５８は、ユーザからコマンドを受信し、これらのコマンドを変換してプロセッサ７５２に送信してもよい。くわえて、デバイス７５０と他のデバイスとの近接エリア通信を可能にするために、外部インターフェイス７６２がプロセッサ７５２と通信するように設けられてもよい。外部インターフェイス７６２は、たとえば、ある実現例では有線通信を提供してもよく、他の実現例では無線通信を提供してもよく、複数のインターフェイスが使用されてもよい。

メモリ７６４は、コンピューティングデバイス７５０内に情報を格納する。メモリ７６４は、１つもしくは複数のコンピュータ読取可能媒体、１つもしくは複数の揮発性メモリユニット、または１つもしくは複数の不揮発性メモリユニットのうちの１つ以上として実現されてもよい。また、拡張メモリ７７４が設けられて、拡張インターフェイス７７２を介してデバイス７５０に接続されてもよく、拡張インターフェイス７７２は、たとえばＳＩＭＭ(Single In Line Memory Module：シングル・インライン・メモリ・モジュール）カードインターフェイスを含み得る。そのような拡張メモリ７７４は、デバイス７５０のための追加の記憶空間を提供してもよく、またはデバイス７５０のためのアプリケーションもしくは他の情報を格納してもよい。具体的には、拡張メモリ７７４は、上記のプロセスを実行または補完するための命令を含んでもよく、セキュアな情報も含んでもよい。このため、拡張メモリ７７４はたとえば、デバイス７５０のためのセキュリティモジュールとして設けられてもよく、デバイス７５０のセキュアな使用を可能にする命令を用いてプログラムされてもよい。くわえて、ハッキングできない態様でＳＩＭＭカードに識別情報を載せるなどして、セキュアなアプリケーションが追加情報と共にＳＩＭＭカードを介して提供されてもよい。

メモリは、以下に記載するように、たとえばフラッシュメモリおよび／またはＮＶＲＡＭメモリを含んでもよい。一実現例において、コンピュータプログラム製品が情報担体において有形に具体化される。コンピュータプログラム製品は、実行されると上述のような１つ以上の方法を実行する命令を含む。情報担体は、たとえばトランシーバ７６８または外部インターフェイス７６２を介して受信され得る、メモリ７６４、拡張メモリ７７４、またはプロセッサ７５２上のメモリといった、コンピュータ読取可能媒体または機械読取可能媒体である。

デバイス７５０は、必要に応じてデジタル信号処理回路を含み得る通信インターフェイス７６６を介して無線通信してもよい。通信インターフェイス７６６は、とりわけ、ＧＳＭ（登録商標）音声電話、ＳＭＳ、ＥＭＳもしくはＭＭＳメッセージング、ＣＤＭＡ、ＴＤＭＡ、ＰＤＣ、ＷＣＤＭＡ（登録商標）、ＣＤＭＡ２０００、またはＧＰＲＳといった、さまざまなモードまたはプロトコル下で通信を提供してもよい。そのような通信は、たとえば無線周波数トランシーバ７６８を介して行われてもよい。くわえて、ブルートゥース、Ｗｉ－Ｆｉ、または他のそのようなトランシーバ（図示せず）を用いるなどして、短距離通信が行われてもよい。くわえて、ＧＰＳ（Global Positioning System：全地球測位システム）受信機モジュール７７０が、ナビゲーションおよび位置に関連する追加の無線データをデバイス７５０に提供してもよく、当該データは、デバイス７５０上で実行されるアプリケーションによって適宜使用されてもよい。

また、デバイス７５０は、ユーザからの発話情報を受信して、それを使用可能なデジタル情報に変換し得るオーディオコーデック７６０を用いて、可聴式に通信してもよい。オーディオコーデック７６０は同様に、たとえばデバイス７５０のハンドセットにおいて、スピーカを介するなどしてユーザのために可聴音を生成してもよい。そのような音は、音声電話からの音を含んでもよく、録音された音（たとえば、音声メッセージ、音楽ファイル等）を含んでもよく、さらに、デバイス７５０上で動作するアプリケーションによって生成された音を含んでもよい。

コンピューティングデバイス７５０は、図示されるように多くの異なる形態で実現されてもよい。たとえば、携帯電話７８０として実現されてもよい。また、スマートフォン７８２、携帯情報端末、または他の同様のモバイルデバイスの一部として実現されてもよい。

例示的な実施形態はさまざまな修正例および代替的な形態を含み得るが、それらの実施形態は、図面に一例として示されており、本明細書において詳細に説明される。しかしながら、開示されている特定の形態に例示的な実施形態を限定することは意図されておらず、むしろ、例示的な実施形態は、請求項の範囲内にあるすべての修正例、均等物、および代替例をカバーすることが理解されるべきである。図面の説明全体にわたって、同様の数字は同様の要素を指す。

本明細書に記載されているシステムおよび技術のさまざまな実現例は、デジタル電子回路、集積回路、特別に設計されたＡＳＩＣ（application specific integrated circuit：特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはこれらの組み合わせで実現されてもよい。これらのさまざまな実現例は、プログラム可能なシステム上で実行可能および／または解釈可能である１つ以上のコンピュータプログラムでの実現例を含み得る。このプログラム可能なシステムは、プログラム可能なシステム上で実行可能および／または解釈可能な１つ以上のコンピュータプログラムにおける実装を含むことができる。このプログラム可能なシステムは、ストレージシステムとデータの送受信を行うように記憶システムに連結された少なくとも１つのプログラム可能な専用または汎用のプロセッサ、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスを含む。本明細書に記載されているシステムおよび技術のさまざまな実現例は、ソフトウェアおよびハードウェアの局面を組み合わせることができる回路、モジュール、ブロック、もしくはシステムとして、実現され得る、および／または本明細書において一般的に言及され得る。たとえば、モジュールは、プロセッサ（たとえば、シリコン基板、ＧａＡｓ基板などの上に形成されたプロセッサ）またはその他のプログラム可能なデータ処理装置上で実行される機能／行為／コンピュータプログラム命令を含み得る。

上記の例示的な実施形態のうちのいくつかは、フローチャートとして示されるプロセスまたは方法として説明されている。フローチャートは動作を逐次プロセスとして説明しているが、動作のうちの多くは、並列に、同時に、または並行して行なわれ得る。さらに、動作の順序を並べ替えてもよい。プロセスは、その動作が完了すると終了し得るが、図面には含まれていない追加のステップを有する可能性がある。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応し得る。

その一部がフローチャートによって示されている上述の方法は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせによって実現され得る。ソフトウェア、ファームウェア、ミドルウェアまたはマイクロコードとして実現された場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、記憶媒体のような機械またはコンピュータ読取可能媒体に格納され得る。プロセッサ（複数可）が必要なタスクを実行し得る。

本明細書に開示されている具体的な構造的および機能的詳細は、例示的な実施形態を説明するための代表的なものに過ぎない。しかしながら、例示的な実施形態は、多くの代替的な形態で具体化され、本明細書に記載されている実施形態のみに限定されると解釈されるべきではない。

「第１の」、「第２の」といった用語は、本明細書ではさまざまな要素を説明するために使用される場合があるが、これらの要素はこれらの用語によって限定されるべきではないことが理解されるであろう。これらの用語は、ある要素を別の要素から区別するために使用されているに過ぎない。たとえば、例示的な実施形態の範囲から逸脱することなく、第１の要素を第２の要素と呼ぶことができ、同様に、第２の要素を第１の要素と呼ぶことができる。本明細書において使用する場合、「および／または」という用語は、関連する列挙された項目のうちの１つ以上の任意のおよびすべての組み合わせを含む。

ある要素が別の要素に接続または結合されると称される場合、ある要素はこの他の要素に直接的に接続もしくは結合され得るか、または介在要素が存在し得ることが理解されるであろう。対照的に、ある要素が別の要素に直接的に接続または直接的に結合されると称される場合、介在要素は存在しない。要素同士の関係を説明するために使用する他の単語は同様に（たとえば、「間に」と「間に直接」、「隣接して」と「隣接して直接」等）解釈されるべきである。

本明細書において使用する専門用語は、特定の実施形態を説明するためのものに過ぎず、例示的な実施形態を限定することを意図するものではない。本明細書において使用される場合、単数形「ａ」、「ａｎ」および「ｔｈｅ」は、文脈上明白に他の意味が記載されていない限り、複数形も含むことを意図している。本明細書において使用する場合、「備える（comprises, comprising）」および／または「含む（includes, including）」という用語は、記載された特徴、整数、ステップ、動作、要素、および／または構成要素の存在を特定するが、１つ以上の他の特徴、整数、ステップ、動作、要素、構成要素、および／またはそれらのグループの存在または追加を排除しないことが、さらに理解されるであろう。

なお、いくつかの代替的な実現例では、記載された機能／行為は、図に記載された順序とは異なって発生する可能性がある。たとえば、連続して示された２つの図は、実際には同時に実行されることもあれば、関係する機能／行為によっては逆の順序で実行されることもある。

他に定義されない限り、本明細書で使用される全ての用語（技術用語および科学用語を含む）は、例示的な実施形態が属する技術分野における当業者によって一般的に理解されるのと同じ意味を有する。さらに、用語、たとえば、一般的に使用される辞書において定義される用語は、関連技術の文脈における意味と一致する意味を有するものとして解釈されるべきであり、本明細書において明示的にそのように定義されない限り、理想化された意味または過度に形式的な意味で解釈されないことが理解されるであろう。

上記の例示的な実施形態および対応する詳細な説明の一部は、ソフトウェア、またはアルゴリズム、およびコンピュータメモリ内のデータビットに関する動作の記号的表現の観点から提示されている。これらの記述および表現は、当業者が、当業者以外に自分達の研究の本質を効果的に伝えるためのものである。アルゴリズムとは、本明細書で使用されているように、また一般的に使用されているように、所望の結果をもたらす自己矛盾のない一連のステップであると考えられている。ステップは、物理量の物理的操作を必要とするものである。必ずしもそうではないが、通常、これらの量は、記憶、転送、結合、比較、その他の操作が可能な光学的、電気的、磁気的信号の形をとる。このような信号をビット、値、要素、記号、文字、用語、数字などと呼ぶことは、主に一般的な用法から便利であると証明されている。

上記の例示的な実施形態において、プログラムモジュールまたは機能プロセスとして実現され得る動作の行為および記号的表現（たとえば、フローチャートの形式）への言及は、特定のタスクを実行するか、または特定の抽象データ型を実現し、既存の構造要素において既存のハードウェアを使用して記述および／または実現され得るルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。このような既存のハードウェアには、１つまたは複数の中央処理装置（Central Processing Unit：ＣＰＵ）、デジタル信号プロセッサ（digital signal processor：ＤＳＰ）、特定用途向け集積回路、フィールドプログラマブルゲートア光線（field programmable gate array：ＦＰＧＡ）コンピュータなどが含まれる。

しかしながら、これらおよび類似の用語はすべて、適切な物理量と関連付けられるべきものであり、これらの量に適用される便宜的なラベルに過ぎないことを認識すべきである。特に断りのない限り、または議論から明らかなように、処理、演算、計算、決定、表示などの用語は、コンピュータシステムのレジスタおよびメモリ内の物理的な電子量として表されるデータを、コンピュータシステムのメモリもしくはレジスタ、または他のこのような情報記憶、伝送、表示装置内の物理量として同様に表現される他のデータに操作し変換する、コンピュータシステム、あるいは同様の電子計算装置の動作およびプロセスを指す。

なお、例示的な実施形態のソフトウェア実現態様は、典型的には、何らかの形態の非一時的なプログラム記憶媒体に符号化されるか、または何らかのタイプの伝送媒体を介して実現される。プログラム記憶媒体は、磁気（たとえば、フロッピーディスクもしくはハードドライブ）または光学（たとえば、コンパクトディスク読み取り専用メモリ、またはＣＤＲＯＭ）であってもよく、読み取り専用またはランダムアクセスであってよい。同様に、伝送媒体は、ツイストワイヤ対、同軸ケーブル、光ファイバ、または当該技術分野で知られている他の適切な伝送媒体であってもよい。例示的な実施形態は、任意の所与の実現例のこれらの態様によって限定されない。

なお、最後に、添付の特許請求の範囲には、本明細書に記載の特徴の特定の組み合わせが記載されているが、本開示の範囲は、以下に特許請求される特定の組み合わせに限定されるものではなく、その代わりに、その特定の組み合わせが現時点で添付の特許請求の範囲に具体的に列挙されているか否かにかかわらず、本明細書に開示された特徴または実現例の任意の組み合わせを包含するように及ぶ。

図１Ａに示すように、シーンは、第１のカメラ５と第２のカメラ１０とを含む。例として、２台のカメラが示されている。しかしながら、例示的な実現例は、３次元（３Ｄ）テレビ会議システムにおいて３台以上のカメラを含み得る。第１のカメラ５および第２のカメラ１０は、壁１０５の床１１０と接触している部分を含むように示されている、シーンの画像を取り込むように構成され得る。壁はドア１１５を含み得る。壁１０５およびドア１１５を含むシーンは、特徴１２０－１，１２０－２，１２０－３を含む画像の部分を含み得る。特徴１２０－１，１２０－２，１２０－３を含む画像の部分の各々は、探索アルゴリズムおよび／またはＭＬモデル（たとえば、ニューラルネットワーク）を使用して選択可能である。ＭＬモデルは、（実世界シーンの）画像の一部を選択するように訓練し得る。特徴１２０－１，１２０－２，１２０－３を含む画像の部分は、正確に位置特定され得る（もしくは位置決めされ得る）コーナー、遷移、スポットなどであり得る。特徴は、色（たとえば、ＮＩＲまたはＲＧＢ）勾配を有する隣接画素を含み得る。言い換えれば、特徴は、ある画素から少なくとも１つの隣接画素への少なくとも１つの色遷移を有する画像（たとえば、ＮＩＲ画像）の部分であり得る。たとえば、特徴１２０－１を含む画像の部分は、ドア１１５のコーナー１２２－１を含んでもよく、特徴１２０－２を含む画像の部分は、識別可能なスポット（たとえば、ドアハンドル１２２－２）を含んでもよく、特徴１２０－３を含む画像の部分は、ドア１１５のコーナーと、ドア１１５から床１１０への遷移１２２－３とを含んでもよい。特徴を識別するために使用される検索アルゴリズムおよび／またはＭＬモデルは、特徴を識別することが最も困難な光のスペクトル（たとえば、ＮＩＲ）で取り込まれた画像を使用し得る。

図２は、少なくとも１つの例示的な実施形態に係るデータフローを示すブロック図である。データフローは、マルチカメラシステムにおけるカメラキャリブレーションに関連する。図２に示すように、データフロー２００は、カメラ５、カメラ１０、特徴識別器２１５ブロック、特徴照合２２０ブロック、光線から画素へのマッピング２２５ブロック、およびキャリブレーション２３０ブロックを含む。データフロー２００では、第１の画像がカメラ５によって取り込まれ、第２の画像がカメラ１０によって取り込まれる。各画像は、実世界シーン（たとえば、実質的に同じ実世界シーン）の画像であり得る。例示的な実現例によれば、実世界シーンは、特別に設計されたキャリブレーション対象（たとえば、カメラキャリブレーションプロセスで使用するために識別可能な特性を含む）を含まない。たとえば、各画像は、図１Ａに示すシーンのものとすることができる。第１の画像はＮＩＲ画像とすることができ、第２の画像はＲＧＢ画像とすることができる。カメラ５は、第１の画像を特徴識別器２１５ブロックに伝達することができ、ここで、第１の画像（たとえば、ＮＩＲ画像）において複数の特徴を識別することができる。たとえば、図１Ａに示すように、画像の特徴１２０－１，１２０－２，１２０－３を含む部分は、識別された特徴１２２－１，１２２－２，１２２－３を含み得る。識別された複数の特徴は、特徴照合２２０ブロックに伝達され得る。カメラ１０は、第２の画像を特徴照合２２０ブロックに伝達することができ、ここで、識別された複数の特徴の画素を、第２の画像内の複数の特徴の画素と照合する（たとえば、位置を特定して照合する）ことができる。たとえば、図１Ｂに示す画素１５５は、ＮＩＲ画像で照合されたＲＧＢ画素であり、キャリブレーション中に使用することができる。

Claims

第１のスペクトルの光に感度を有し、かつ第１の光源を有する第１のカメラが、実世界シーンの第１の画像を取り込むことと、
第２のスペクトルの光に感度を有し、かつ第２の光源を有する第２のカメラが、前記実世界シーンの第２の画像を取り込むことと、
前記第１の画像において少なくとも１つの特徴を識別することと、
機械学習（ＭＬ）モデルを使用して、前記第１の画像において識別された前記少なくとも１つの特徴と一致する、前記第２の画像内の少なくとも１つの特徴を識別することと、
一致した前記少なくとも１つの特徴に基づいて、前記第１の画像および前記第２の画像内の画素を、３次元（３Ｄ）空間において光線にマッピングすることと、
前記マッピングに基づいて、前記第１のカメラと前記第２のカメラとをキャリブレーションすることとを備える、方法。
前記第１のカメラは近赤外（ＮＩＲ）カメラであり、前記第２のカメラは可視光カメラである、請求項１に記載の方法。
ＭＬモデルを使用して、前記第１の画像内の前記少なくとも１つの特徴を識別する、請求項１または２に記載の方法。
アルゴリズムを使用して、前記第１の画像内の前記少なくとも１つの特徴を識別する、請求項１～３のいずれか１項に記載の方法。
ＭＬモデルを使用して、前記第１の画像内の前記少なくとも１つの特徴を、前記第２の画像内の前記少なくとも１つの特徴と照合し、
前記第２の画像の少なくとも１つの画素が前記第１の画像内の前記少なくとも１つの特徴の画素と一致する可能性に基づいて、前記第２の画像の前記少なくとも１つの画素にスコアが割り当てられる、請求項１～４のいずれか１項に記載の方法。
アルゴリズムを使用して、前記第１の画像内の前記少なくとも１つの特徴を、前記第２の画像内の前記少なくとも１つの特徴と照合し、
前記第２の画像の少なくとも１つの画素が前記第１の画像内の前記少なくとも１つの特徴の画素と一致する可能性に基づいて、前記第２の画像の前記少なくとも１つの画素にスコアが割り当てられ、
目標画素の位置の予測に基づいて、前記第２の画像の前記少なくとも１つの画素に方向が割り当てられる、請求項１～５のいずれか１項に記載の方法。
アルゴリズムを使用して、前記第１の画像内の前記少なくとも１つの特徴を識別し、
前記第１の画像内の前記少なくとも１つの特徴を、前記第２の画像内の前記少なくとも１つの特徴と照合することは、
第１のＭＬモデルを使用して、前記第１の画像内の前記少なくとも１つの特徴から、候補特徴を選択することと、
前記第２の画像内の少なくとも１つの画素を、前記候補特徴の画素と照合することと、
前記少なくとも１つの画素が前記第１の画像内の前記少なくとも１つの特徴のうちの１つと一致する可能性に基づいて、前記第２の画像の一致した前記少なくとも１つの画素に、スコアを割り当てることと、
第２のＭＬモデルを使用して、目標画素の位置の方向を予測することと、
前記第２の画像の一致した前記少なくとも１つの画素に、前記方向を割り当てることとを含む、請求項１～６のいずれか１項に記載の方法。
前記第１のカメラと前記第２のカメラとをキャリブレーションすることは、最も高いスコアを有する、前記候補特徴に関連付けられた前記第２の画像の一致した前記少なくとも１つの画素と、最も高いスコアを有する、前記第２の画像の一致した前記少なくとも１つの画素の前記方向とに基づき、前記方向は、最も高いスコアを有する、前記第２の画像の一致した前記少なくとも１つの画素と、近傍画素とに基づく、請求項７に記載の方法。
以前のキャリブレーションに基づいて、前記第２の画像において少なくとも１つの検索窓を選択することをさらに含む、請求項１～８のいずれか１項に記載の方法。
前記機械学習モデルは、キャリブレーションされたマルチカメラシステムから取り込まれたデータで訓練される、請求項１～９のいずれか１項に記載の方法。
３次元（３Ｄ）電話会議システムであって、
複数のコンピュータ命令を表すコードセグメントを含むメモリと、
前記コードセグメントを実行するように構成されたプロセッサとを備え、前記複数のコンピュータ命令は、
第１のスペクトルの光に感度を有し、かつ第１の光源を有する第１のカメラが、実世界シーンの第１の画像を取り込むことと、
第２のスペクトルの光に感度を有し、かつ第２の光源を有する第２のカメラが、前記実世界シーンの第２の画像を取り込むことと、
前記第１の画像において少なくとも１つの特徴を識別することと、
機械学習（ＭＬ）モデルを使用して、前記第１の画像において識別された前記少なくとも１つの特徴と一致する、前記第２の画像内の少なくとも１つの特徴を識別することと、
一致した前記少なくとも１つの特徴に基づいて、前記第１の画像および前記第２の画像内の画素を、３次元（３Ｄ）空間において光線にマッピングすることと、
前記マッピングに基づいて、前記第１のカメラと前記第２のカメラとをキャリブレーションすることとを含む、３次元（３Ｄ）電話会議システム。
前記第１のカメラは近赤外（ＮＩＲ）カメラであり、前記第２のカメラは可視光カメラである、請求項１１に記載のシステム。
ＭＬモデルを使用して、前記第１の画像内の前記少なくとも１つの特徴を識別する、請求項１１または１２に記載のシステム。
アルゴリズムを使用して、前記第１の画像内の前記少なくとも１つの特徴を識別する、請求項１１～１３のいずれか１項に記載のシステム。
ＭＬモデルを使用して、前記第１の画像内の前記少なくとも１つの特徴を、前記第２の画像内の前記少なくとも１つの特徴と照合し、
前記第２の画像の少なくとも１つの画素が前記第１の画像内の前記少なくとも１つの特徴の画素と一致する可能性に基づいて、前記第２の画像の前記少なくとも１つの画素にスコアが割り当てられる、請求項１１～１４のいずれか１項に記載のシステム。
アルゴリズムを使用して、前記第１の画像内の前記少なくとも１つの特徴を、前記第２の画像内の前記少なくとも１つの特徴と照合することと、
前記第２の画像の少なくとも１つの画素が前記第１の画像内の前記少なくとも１つの特徴の画素と一致する可能性に基づいて、前記第２の画像の前記少なくとも１つの画素にスコアが割り当てられ、
目標画素の位置の予測に基づいて、前記第２の画像の前記少なくとも１つの画素に方向が割り当てられる、請求項１１～１５のいずれか１項に記載のシステム。
アルゴリズムを使用して、前記第１の画像内の前記少なくとも１つの特徴を識別し、
前記第１の画像内の前記少なくとも１つの特徴を、前記第２の画像内の前記少なくとも１つの特徴と照合することは、
第１のＭＬモデルを使用して、前記第１の画像内の前記少なくとも１つの特徴から、候補特徴を選択することと、
前記第２の画像内の少なくとも１つの画素を、前記候補特徴と照合することと、
前記第２の画像の前記少なくとも１つの画素が前記第１の画像内の前記少なくとも１つの特徴のうちの１つと一致する可能性に基づいて、前記第２の画像の一致した前記少なくとも１つの画素に、スコアを割り当てることと、
第２のＭＬモデルを使用して、目標画素の位置の方向を予測することと、
前記第２の画像の一致した前記少なくとも１つの画素に、前記方向を割り当てることとを含む、請求項１１～１６のいずれか１項に記載のシステム。
前記第１のカメラと前記第２のカメラとをキャリブレーションすることは、最も高いスコアを有する、前記第２の画像の一致した少なくとも１つの画素と、最も高いスコアを有する、前記第２の画像の一致した前記少なくとも１つの画素の前記方向とに基づき、前記方向は、最も高いスコアを有する、前記第２の画像の一致した前記少なくとも１つの画素と、近傍画素の方向とに基づく、請求項１７に記載のシステム。
以前のキャリブレーションに基づいて、前記第２の画像において少なくとも１つの検索窓を選択することをさらに含む、請求項１１～１８のいずれか１項に記載のシステム。
前記機械学習モデルは、キャリブレーションされたマルチカメラシステムから取り込まれたデータで訓練される、請求項１１～１９のいずれか１項に記載のシステム。
実行されると、コンピュータシステムのプロセッサにステップを実行させる命令を含む非一時的なコンピュータ読取可能媒体であって、前記ステップは、
第１のスペクトルの光に感度を有し、かつ第１の光源を有する第１のカメラが、実世界シーンの第１の画像を取り込むことと、
第２のスペクトルの光に感度を有し、かつ第２の光源を有する第２のカメラが、前記実世界シーンの第２の画像を取り込むことと、
前記第１の画像において少なくとも１つの特徴を識別することと、
機械学習（ＭＬ）モデルを使用して、前記第１の画像において識別された前記少なくとも１つの特徴と一致する、前記第２の画像内の少なくとも１つの特徴を識別することと、
一致した前記少なくとも１つの特徴に基づいて、前記第１の画像および前記第２の画像内の画素を、３次元（３Ｄ）空間において光線にマッピングすることと、
前記マッピングに基づいて、前記第１のカメラと前記第２のカメラとをキャリブレーションすることとを含む、非一時的なコンピュータ読取可能媒体。
アルゴリズムを使用して、前記第１の画像内の前記少なくとも１つの特徴を識別し、
前記第１の画像内の前記少なくとも１つの特徴を、前記第２の画像内の前記少なくとも１つの特徴と照合することは、
第１のＭＬモデルを使用して、前記第１の画像内の前記少なくとも１つの特徴から、候補特徴を選択することと、
前記第２の画像の前記少なくとも１つの画素を、前記候補特徴の画素と照合することと、
前記第２の画像の前記少なくとも１つの画素が前記第１の画像内の前記少なくとも１つの特徴のうちの１つと一致する可能性に基づいて、前記第２の画像の一致した前記少なくとも１つの画素に、スコアを割り当てることと、
第２のＭＬモデルを使用して、目標画素の位置の方向を予測することと、
前記第２の画像の一致した前記少なくとも１つの画素に、前記方向を割り当てることとを含む、請求項２１に記載の非一時的なコンピュータ読取可能媒体。
前記第１のスペクトルの光と前記第２のスペクトルの光とは、同じスペクトルの光である、請求項２１または２２に記載の非一時的なコンピュータ読取可能媒体。