JP6967489B2

JP6967489B2 - マルチセンサービデオカメラ、ならびにそれのための方法および処理パイプライン

Info

Publication number: JP6967489B2
Application number: JP2018110291A
Authority: JP
Inventors: トイヴォヘニンソン，; ソンユアン，
Original assignee: アクシスアーベー
Priority date: 2017-06-20
Filing date: 2018-06-08
Publication date: 2021-11-17
Anticipated expiration: 2038-06-08
Also published as: KR102245470B1; EP3419278A1; US10652523B2; CN109104551B; CN109104551A; TWI740048B; EP3419278B1; US20180367789A1; JP2019033474A; TW201906401A; KR20180138131A

Description

本発明は、マルチセンサービデオカメラの分野に関し、詳細には、マルチセンサービデオカメラによってキャプチャされる画像のスティッチングに関する。

部分的に重複する視野をもつ複数のセンサーを有するビデオカメラは、監視市場においてますます普及しつつある。そのようなビデオカメラの複数のセンサーによって同時にキャプチャされている画像は、一緒にスティッチされて、複数のセンサーの組み合わせられた視野を表すパノラマ画像を形成し得る。スティッチングは、好ましくは、画像間のシームレス遷移を与えるように行われる。

複数のセンサーからの画像を一緒にスティッチするプロセスは、一般に処理集中的であり、それにより、ビデオカメラの処理パイプラインにおけるレイテンシをもたらしやすい。結局、これは、ビデオカメラの処理パイプラインが、キャプチャされたフレームを十分に高速に処理することが可能でないことがあるので、ビデオカメラのフレームレートに対して制限をかけ得る。

市場で現在入手可能であるビデオカメラにおいて見つかるこの問題の１つのソリューションは、処理パイプラインに入力される前に、同時にキャプチャされた画像のスティッチングを遂行するために、ビデオカメラの処理パイプラインのフィールドプログラマブルゲートアレイ（ＦＰＧＡ）アップストリームを含めることである。しかしながら、このソリューションは、詳細には、ＦＰＧＡが、画像のスティッチングによって引き起こされる望ましくない遅延をもたらさないように十分高速であるべきである場合、費用がかかる。さらに、このソリューションは、ビデオカメラの処理パイプライン中で遂行される画像処理のうちのいくつかが、スティッチングが実施されるより前に個々の画像に対して実施されることを除外する。これは、いくつかの場合には、ビデオカメラの処理パイプラインの終了時に、より不十分な品質の最終のスティッチされた画像が出力されることにつながり得る。したがって、改善の余地がある。

上記に鑑みて、本発明の目的は、したがって、ビデオカメラの複数のセンサーによって同時にキャプチャされている画像を一緒にスティッチするための改善されたプロセスを提供することである。詳細には、画像をスティッチするプロセスによって引き起こされるビデオカメラの処理パイプラインにおけるレイテンシを低減することが目的である。さらなる目的は、実装するのにコスト効率の高いスティッチングプロセスを提供することである。

本発明の第１の態様によれば、上記の目的は、部分的に重複する視野をもつ第１および第２のセンサーを有するマルチセンサービデオカメラにおいて実施される方法によって達成され、方法は、
それぞれ第１のセンサーと第２のセンサーとによって同時にキャプチャされている第１のビデオフレームと第２のビデオフレームとを受信することであって、
第１および第２のビデオフレームの各々は、それが第１および第２のビデオフレームの他方と重複しない、重複しない部分（ｎｏｎ−ｏｖｅｒｌａｐｐｉｎｇｐｏｒｔｉｏｎ）と、それが第１および第２のビデオフレームの他方と重複する、重複する部分（ｏｖｅｒｌａｐｐｉｎｇｐｏｒｔｉｏｎ）とを有する、受信することと、
第１および第２のビデオフレームの重複しない部分からの画像データを、第１のビデオフレームの重複する部分からの画像データのみと一緒に結合することによって、第１のビデオストリームのフレームを生成することと、
第２のビデオストリームのフレームを生成することであって、第２のビデオストリームのフレームが、少なくとも第２のビデオフレームの重複する部分からの画像データを含む、生成することと、
第１のビデオストリームのフレームと第２のビデオストリームのフレームとを並列に処理することであって、第２のビデオストリームのフレームの処理が、少なくとも第２のビデオフレームの重複する部分からの画像データに基づいてオーバーレイを準備することを含む、処理することと、
第１のビデオストリームの処理されたフレームに、処理されたフレームの第１のビデオフレームの重複する部分に対応する部分においてオーバーレイを追加することと
を備え、
第１のビデオフレームの重複する部分からの画像データは、オーバーレイを準備するステップとオーバーレイを追加するステップとのうちの少なくとも１つにおいて第２のビデオフレームの重複する部分からの画像データとブレンドされる。

任意のスティッチングプロセスの処理集中パートは、画像データをどのようにブレンドすべきかを計算すること、次いで、画像間のシームレス遷移を提供するように、画像が重複する部分中のキャプチャされた画像の画像データをブレンドすることである。しかしながら、発明者は、画像データをどのようにブレンドすべきかを計算するか、ブレンディングのための画像データを準備するか、さらにはブレンディングを遂行するために、キャプチャされたビデオフレームの画像データの小さい部分のみが必要とされることを了解している。より具体的には、特定の実施形態に応じて、ビデオフレームの一方または両方の重複する部分からの画像データのみが、これらのステップを遂行するために必要とされる。それゆえ、画像データのその小さい部分を、第１のビデオストリームのフレーム中に含まれている画像データの大部分と並列に処理され得る第２のビデオストリームのフレームに分離することが提案される。このようにして、画像データの小さいパートに対して動作するにすぎない、スティッチングプロセスの処理集中パートは、画像データの大きいパートに対して遂行されるスティッチングプロセスの他の、あまり処理が集中しないパートと並列に遂行され得る。それにより、レイテンシは低減される。

市販のビデオカメラは、しばしば、たとえば、ロゴタイプまたは類似物の形態で、ビデオストリームの上にオーバーレイを追加するように適応されたハードウェアを有する。発明者は、この利用可能な機能が画像のスティッチングに関連して使用され得ることを了解している。たとえば、第２のビデオストリームのフレーム（すなわち、第１および第２のビデオフレームの一方または両方の重複する部分からの画像データ）はオーバーレイを準備するために使用され得、オーバーレイは、次いで、第１のビデオストリーム中のフレーム中の画像データの交換によって、または第１のビデオストリーム中のフレーム中の画像データとのブレンディングによってのいずれかで、第１のビデオストリームのフレームの上に追加される。このようにして、利用可能な機能は使用され、それにより、実装のコスト効率を高くし得る。

第１のセンサーと第２のセンサーとは、部分的に重複する視野を有する。言い換えれば、第１のセンサーと第２のセンサーとは、同じシーンを表すが、そのシーンを、異なるが重複する視野を用いて表す。これは、シーンの同じパートからの画像情報を保持する、すなわち、シーンの同じパートを表す、第１および第２のビデオフレーム中のピクセルがあるであろうことを暗示する。そのようなピクセルを備える第１および第２のビデオフレームの部分は、本明細書では、重複する部分と呼ばれる。逆に、ピクセルが、第２のビデオフレームによって表されていないシーンのパートを表す第１のビデオフレームの部分、およびその逆は、重複しない部分と呼ばれる。

オーバーレイは、概して、別の画像上にオーバーレイされることを意図された画像を意味する。フレームまたは画像にオーバーレイを追加することは、概して、オーバーレイが、フレームまたは画像上にオーバーレイされるか、または挿入されることを意味する。オーバーレイは、フレーム中の画像データを交換することを介して、またはオーバーレイをフレーム中の画像データとブレンドすることによって、たとえば、オーバーレイの透過性を設定することによって追加され得る。

ブレンディングは、概して、重み付き平均を計算することを意味する。

実施形態の第１のグループでは、第２のビデオストリームのフレームは、第２および第１のビデオフレームの重複する部分からの画像データを備え、オーバーレイを準備するステップは、第２のビデオフレームの重複する部分からの画像データを、第１のビデオフレームの重複する部分からの画像データとブレンドすることを含む。そのような実施形態では、したがって、第１および第２のビデオフレームの重複する部分からの画像データは、オーバーレイの準備中にブレンドされる。このプロセスは、第１のビデオストリームの処理と並列に遂行されるので、ブレンディングプロセスによって追加の時間遅延が引き起こされない。

実施形態の第１のグループでは、第１および第２のビデオフレームの重複する部分に対応する画像データのブレンディングは、オーバーレイの準備中に遂行される。したがって、第１のビデオストリームの処理されたフレームにオーバーレイを追加するときに、さらなるブレンディングは必要とされない。そのような場合、オーバーレイは、交換を介して追加され得る。より詳細には、オーバーレイを追加するステップにおいて、オーバーレイは、第１のビデオフレームの重複する部分に対応する部分中の第１のビデオストリームの処理されたフレームの画像データと置き替わる。実施形態の第１のグループの一般的な利点は、ブレンディングアルゴリズムがより自由に選定され得るということである。オーバーレイの追加を実施する利用可能なハードウェアによってサポートされないアルゴリズムでさえ、選定され得る。アルゴリズムの例が以下で説明される。

オーバーレイの準備中の第１および第２のビデオフレームの重複する部分からの画像データのブレンディングは、様々な方法で遂行され得る。

概して、ブレンドすることは、重複する部分中の各ピクセルについて、第１のビデオフレームからの画像データおよび第２のビデオフレームからの画像データとの重み付き平均を計算することを含み得る。

本明細書で「アルファブレンディング」と呼ばれる一例によれば、重み付き平均の重みは、第１および第２のビデオフレームの重複する部分と重複しない部分との間の境界までのピクセルの距離に依存する。より詳細には、第２のビデオフレームの重複する部分からの画像データに関連する重みが、ピクセルから、第２のビデオフレームの重複する部分と重複しない部分との間の境界までの最短距離に依存し、第１のビデオフレームの重複する部分からの画像データに関連する重みが、ピクセルから、第１のビデオフレームの重複する部分と重複しない部分との間の境界までの最短距離に依存する。

本明細書で「マルチバンドブレンディング」と呼ばれるさらなる例によれば、重みは、空間的高周波数コンテンツと空間的低周波数コンテンツとについて別様に選択され得る。たとえば、アルファブレンディングは、より低い周波数のために適用され得るが、重みは、ピクセルが第１のビデオフレームの重複しない部分の境界により近いのか、第２のビデオフレームの重複しない部分の境界により近いのかに応じて、より高い周波数について０または１のいずれかに設定される。より詳細には、ブレンディングは、
第１のビデオフレームの重複する部分からの画像データおよび第２のビデオフレームの重複する部分からの画像データの第１の重み付き平均を計算することであって、第１の重み付き平均が、第１のしきい値よりも低い空間周波数に関して計算される、計算することと、
第１のビデオフレームの重複する部分からの画像データおよび第２のビデオフレームの重複する部分からの画像データの第２の重み付き平均を計算することであって、第２の重み付き平均が、第２のしきい値に等しいかまたはそれを上回る空間周波数に関して計算され、第２のしきい値が第１のしきい値よりも大きいかまたはそれに等しく、
重みが、第１の重み付き平均と第２の重み付き平均とについて別様に選択される、計算することと、
第１の重み付き平均を第２の重み付き平均に追加することによってオーバーレイを計算することと
を含み得る。

本明細書で「特徴ベースブレンディング」と呼ばれる、また一例によれば、ブレンディングは、
第１のビデオフレームの重複する部分中の物体と、第２のビデオフレームの重複する部分中の物体とを識別することと、
重複する部分中で第１のビデオフレームからの画像データおよび第２のビデオフレームからの画像データの重み付き平均を計算することと
を含み、
第１のビデオフレームの重複する部分と第２のビデオフレームの重複する部分の両方の中で物体が識別された場合、第１のビデオフレームの画像データまたは第２のビデオフレームの画像データのうちの１つに関連する重みは、その物体に属するとして識別されるピクセルについて０に設定される。このタイプのブレンディングの場合、たとえば、人などの物体を表す画像データは、第１のビデオフレームと第２のビデオフレームとのうちの１つ中にのみ含まれ、それにより、ブレンドされた画像中のわずかに異なる位置において物体が二重に現れることを回避する。これは、場合によっては、複数のセンサーの視差効果による事例であり得る。

実施形態の第２のグループによれば、ブレンディングは、オーバーレイを準備するときにではなく、第１のビデオストリームの処理されたフレームにオーバーレイを追加するときに起こる。そのような実施形態では、オーバーレイは、第２のビデオフレームの重複する部分からの画像データのみを含み、オーバーレイを追加するステップは、第１のビデオストリームの処理されたフレームと、処理されたフレームの第１のビデオフレームの重複する部分に対応する部分においてオーバーレイをブレンドすることを含む。オーバーレイの追加は、一般に、専用ハードウェアによって、一般に特定用途向け集積回路（ＡＳＩＣ）の形態で実装される。オーバーレイを追加するときにブレンディングを実施することによって、たとえば、中央処理ユニットまたはグラフィックス処理ユニット中でカスタムアルゴリズムを動かす必要がなくなる。代わりに、専用ハードウェア、たとえば、ＡＳＩＣは、オーバーレイが追加されるのと同時にブレンディングを遂行するために利用され、それにより、ブレンディングプロセスを加速し得る。

ブレンディングは、たとえば、第１のビデオストリームの処理されたフレームにオーバーレイを追加するときにオーバーレイの透過性を設定することによって遂行され得る。オーバーレイの透過性は、異なるピクセルについて異なる値を与えられ得る。１の透過性は、オーバーレイからの画像データのブレンディングを生じず、オーバーレイを追加した後のピクセルの結果値は、第１のビデオフレームの値である。０の透過性は、オーバーレイの全ブレンディングを生じる。その場合、オーバーレイを追加した後のピクセルの結果値は、第２のビデオフレームの値である。０から１の間の透過性は、様々な程度までのオーバーレイのブレンディングを生じることになり、すなわち、オーバーレイを追加した後のピクセルの画像データ結果値は、第１のビデオフレームの画像データおよび第１のビデオフレームの画像データの重み付き平均である。したがって、オーバーレイ中の各ピクセルについて、たとえば、０から１の間の値に対応するブレンディングの程度は、オーバーレイの準備中に指定され得る。ブレンディングのこの程度は、次いで、第１のビデオストリームの処理されたフレームにオーバーレイを追加するときにオーバーレイの透過性を設定するために使用され得る。

たとえば、第１のビデオストリームの処理されたフレームとのオーバーレイのブレンディングは、オーバーレイの各ピクセルについてブレンディングの程度を定義するマスクに従って行われ得る。マスクは、次いで、第１のビデオストリームの処理されたフレームにオーバーレイを追加するときにオーバーレイの透過性を設定するために使用され得る。

マスクは、一般に、オーバーレイを準備するときに決定される。いくつかの実施形態によれば、マスクは、画像データとは無関係に決定される。たとえば、ブレンディングの程度は、それが、ピクセルから、第２のビデオフレームの重複しない部分の境界までの距離に依存するにすぎないという点で、上記で説明されたアルファブレンディングに対応し得る。より詳細には、オーバーレイの各ピクセルは、第２のビデオフレームの重複する部分のピクセルに対応し得、ブレンディングの程度は、ピクセルから、第２のビデオフレームの重複する部分と重複しない部分との間の境界までの最短距離に依存する。

いくつかの実施形態によれば、マスクは、追加または代替として、画像データに基づいて決定され得る。画像データは、第２のビデオフレームの重複する部分に対応し得るが、好ましくは、それは、第１のビデオフレームと第２のビデオフレームの両方の重複する部分に対応する。後者の場合、第２のビデオストリームのフレームは、第２および第１のビデオフレームの重複する部分からの画像データを含み、オーバーレイを準備するステップは、第２および第１のビデオフレームの重複する部分からの画像データに基づいてマスクを計算することをさらに備える。このようにして、ブレンディングは、重複する部分の画像コンテンツに適合され得る。

実施形態の第１のグループに関して上記でさらに考察されたように、ブレンディングは、第１のビデオフレームの重複する部分中の画像データおよび第２のビデオフレームの重複する部分中の画像データの重み付き平均を形成することを意味する。ブレンディングの程度、すなわち、マスクによって表される値が、第２のビデオフレームからの画像データに適用されるべき重みに対応することに留意されたい。第１のビデオフレームからの画像データに適用されるべき重みは、１−ブレンディングの程度として取得され得る。

第２および第１のビデオフレームの重複する部分からの画像データに基づいてマスクを計算するステップは、したがって、第２および第１のビデオフレームからの画像データに関連する重みを計算することに対応する。実施形態の第１のグループに関連して、上記でこれらの重みを計算することについて言われたことは、したがって、ブレンディングの程度、すなわち、マスクの要素の計算に等しく十分に適用される。たとえば、マスクは、マルチバンドブレンディングおよび／または特徴ベースブレンディングに関連する重みを含むように計算され得る。

特定の事例に応じて、画像データに基づいてマスクを計算するプロセスは、時間的に厳しくなり得る。レイテンシをさらに低減するために、それゆえ、処理されている各フレームについて新しいマスクを計算しないことが有利であり得る。マスクが計算されると、それは、代わりに、いくつかのフレームのために再利用され得る。より詳細には、マスクは、ビデオフレームが第１および第２のセンサーから受信されるレートよりも低いレートにおいて更新され得る。

第１のビデオフレームと第２のビデオフレームとの重複する部分からの画像データをブレンドする前に、第１のビデオフレームと第２のビデオフレームとは、好ましくは整合される。それゆえ、第１のビデオストリームのフレームの処理、および第２のビデオストリームのフレームの処理が、第１のビデオフレームの画像データおよび第２のビデオフレームの画像データを整合させることを含み得る。整合は、とりわけ、バレル（ｂａｒｒｅｌ）補正を実施すること、（一般に、シーンの固定ピクチャを撮るためにセンサーが取り付けられた場合に）フレームを回転すること、およびたとえばシリンダー上への第１のビデオフレームと第２のビデオフレームとの投影を実施することを含み得る。後者は、第１のセンサーと第２のセンサーとが同じ位置に取り付けられないという事実を補償するために行われ、これは、シーンが異なる視点から表されることを意味する。これは、投影を実施することによって補正され、それにより、同じ視点からフレームがキャプチャされるという印象を閲覧者に与え得る。適用されるべき特定の整合は、一般に各フレームについて同じであり、センサーの較正中に決定され得る。

本発明の第２の態様によれば、上記の目的は、部分的に重複する視野をもつ第１および第２のセンサーを有するマルチセンサービデオカメラのための処理パイプラインによって達成され、処理パイプラインは、
それぞれ第１のセンサーと第２のセンサーとによって同時にキャプチャされている第１のビデオフレームと第２のビデオフレームとを受信するように構成された受信機であって、
第１および第２のビデオフレームの各々は、それが第１および第２のビデオフレームの他方と重複しない、重複しない部分と、それが第１および第２のビデオフレームの他方と重複する、重複する部分とを有する、受信機と、
第１および第２のビデオフレームの重複しない部分からの画像データを、第１のビデオフレームの重複する部分からの画像データのみと一緒に結合することによって、第１のビデオストリームのフレームを生成することと、第２のビデオストリームのフレームを生成することであって、第２のビデオストリームのフレームが、少なくとも第２のビデオフレームの重複する部分からの画像データを含む、生成することとを行うように構成されたフレーム生成構成要素と、
第１のビデオストリームのフレームを処理するように構成された第１の処理構成要素と、
第１のビデオストリームのフレームを処理する第１の処理構成要素と並列に第２のビデオストリームのフレームを処理するように構成された第２の処理構成要素であって、第２のビデオストリームのフレームの処理が、少なくとも第２のビデオフレームの重複する部分からの画像データに基づいてオーバーレイを準備することを含む、第２の処理構成要素と、
第１のビデオストリームの処理されたフレームに、処理されたフレームの第１のビデオフレームの重複する部分に対応する部分においてオーバーレイを追加するように構成されたオーバーレイ構成要素と
を備え、
第２の処理構成要素とオーバーレイ構成要素とのうちの少なくとも１つは、オーバーレイを準備するかまたはオーバーレイを追加するとき、第１のビデオフレームの重複する部分からの画像データを第２のビデオフレームの重複する部分からの画像データとブレンドするように構成される。

本発明の第３の態様によれば、上記の目的は、マルチセンサービデオカメラによって達成され、マルチセンサービデオカメラは、
第１の視野を表すビデオフレームをキャプチャするように配置された第１のセンサーと、
第１のセンサーと同時にビデオフレームをキャプチャするように配置された第２のセンサーであって、第１の視野と一部重複する第２の視野を表す、第２のセンサーと、
第１および第２のセンサーによってキャプチャされたビデオフレームを受信するように第１のセンサーと第２のセンサーとに動作可能に接続されている、第２の態様による処理パイプラインと
を備える。

本発明の第４の態様によれば、上記の目的は、処理能力を有するデバイスによって実行されたとき、第１の態様の方法を遂行するための、コンピュータコード命令が記憶されたコンピュータ可読媒体を備えるコンピュータプログラム製品によって達成される。

第２、第３および第４の態様は、概して、第１の態様と同じ特徴および利点を有し得る。さらに、本発明は、別段に明記されていない限り、特徴のすべての可能な組合せに関することに留意されたい。

概して、特許請求の範囲において使用されるすべての用語は、本明細書で別段に明示的に定義されない限り、本技術分野におけるその通例の意味に従って解釈されるべきである。本明細書で開示されるいずれの方法のステップも、明示的に記述されない限り、開示される厳密な順序で実施される必要はない。

本発明の上記の、ならびに追加の目的、特徴および利点は、添付の図面を参照しながら、本発明の好ましい実施形態の以下の例示的で非限定的な詳細な説明を通して、より良く理解される。添付の図面では、同じ参照番号が同様の要素のために使用されることになる。

実施形態による、マルチセンサービデオカメラを概略的に例示する図である。図１のマルチセンサービデオカメラの処理パイプラインを概略的に例示する図である。実施形態の第１のグループによる、処理パイプラインにおける処理フローを概略的に例示する図である。実施形態の第２のグループによる、処理パイプラインにおける処理フローを概略的に例示する図である。第１および第２のビデオフレームの重複する部分の画像データをブレンドするための重みをどのように選択すべきかの一例を概略的に例示する図である。第１および第２のビデオフレームの重複する部分の画像データをブレンドするための重みをどのように選択すべきかの一例を概略的に例示する図である。実施形態による、マルチセンサービデオカメラにおいて実施される方法のフローチャートである。

次に、本発明が、本発明の実施形態が示された添付の図面を参照しながら、以下でより十分に説明される。本明細書で開示されるシステムおよびデバイスは、動作中に説明される。

図１は、マルチセンサービデオカメラ１００を例示する。ビデオカメラ１００は、複数の画像センサー１０２ａ、１０２ｂと、処理パイプライン１０４とを備える。ビデオカメラ１００はビデオエンコーダ１０６をも備え得る。ここで、例示および簡単のために、２つの画像センサー１０２ａ、１０２ｂが示されている。しかしながら、ビデオカメラ１００は３つ以上の画像センサーを備え得ることを理解されたい。

画像センサー１０２ａ、１０２ｂは、それらがシーンの部分的に重複する視野を有するように、互いに対して配置される。これは、画像センサー１０２ａ、１０２ｂによってキャプチャされるビデオフレームが部分的に重複しているであろうことを暗示し、これは、シーンのパートが、画像センサー１０２ａ、１０２ｂのうちの２つ以上（必ずしもそうではないが３つ以上の画像センサーがある場合すべて）によってキャプチャされるビデオフレーム中に表されることになることを意味する。したがって、シーンの同じパートを表す画像センサーのうちの少なくとも２つによってキャプチャされるビデオフレーム中のピクセルがある。

ビデオカメラ１００は、一定のフレームレートにおいてビデオフレームをキャプチャするように配置される。詳細には、ビデオカメラ１００は、一定のレートにおいて複数のセンサー１０２ａ、１０２ｂを使用して同時にビデオフレームをキャプチャする。詳細には、ビデオカメラ１００は、第１の画像センサー１０２ａを使用して第１のビデオフレーム１０８ａを、第２の画像センサー１０２ｂを使用して第２のビデオフレーム１０８ｂを同時にキャプチャするように配置される。次いで、キャプチャされたビデオフレーム１０８ａ、１０８ｂは、ビデオカメラ１００中の画像センサー１０２ａ、１０２ｂの下流に配置されている処理パイプライン１０４に入力される。

処理パイプライン１０４は、画像センサー１０２ａ、１０２ｂによってキャプチャされたビデオフレーム１０８ａ、１０８ｂを処理するように配置される。処理パイプラインは、概して、ある要素の出力が次の要素の入力であるシーケンス中で接続されたデータ処理要素のセットを意味する。詳細には、処理パイプライン１０４は、シーンのパノラマ画像１１０を作成するためにビデオフレーム１０８ａ、１０８ｂを一緒にスティッチするように構成される。したがって、パノラマ画像１１０は、画像センサー１０２ａ、１０２ｂの組み合わせられた視野、すなわち、それらの視野のユニオンに対応し得る。パノラマ画像１１０が作成されると、それは、たとえば、ネットワークを介してビデオデコーダに送信されるビットストリーム１１２の形態で、ビデオカメラ１００から出力されるより前に、パノラマ画像１１０を符号化するビデオエンコーダ１０６にフォワーディングされ得る。

図２は、処理パイプライン１０４をより詳細に例示する。処理パイプラインは、受信機２０２と、フレーム生成構成要素２０６と、第１の処理構成要素２０８と、第２の処理構成要素２１０と、オーバーレイ構成要素２１２とを備える。処理パイプラインは画像処理構成要素２０４をも備え得る。

受信機は、図１に示されている画像センサー１０２ａ、１０２ｂによってキャプチャされたビデオフレーム１０８ａ、１０８ｂを受信するように配置される。フレーム生成構成要素２０６は、受信機２０２の下流に配置され、随意に、受信機２０２の下流であるが、フレーム生成構成要素２０６の上流に配置された画像処理構成要素２０４を介して、受信機２０２からビデオフレーム１０８ａ、１０８ｂを受信するように配置される。画像処理構成要素２０４は、たとえば、通常、ビデオカメラの画像処理パイプラインにおいて実施される、欠陥ピクセル補正、列固定パターン雑音補償およびクロストーク補償のようなアーテファクト削除、ホワイトバランシング、周辺減光補正、雑音フィルタ処理、デモザイキング、シャープ化、カラーマトリクス化、暗電流補正、およびガンマ補正など、様々な種類の画像処理を実施し得る。しかしながら、ホワイトバランス処理など、画像処理の一部または全部は、代わりに第１の処理構成要素２０８および／または第２の処理構成要素２１０によって遂行され得る。フレーム生成構成要素２０６は、今度は、第１のビデオストリーム２１４および第２のビデオストリーム２１６のフレームを生成することになる。第１のビデオビデオストリーム２１４のフレームは第１の処理構成要素２０８にフォワーディングされ、第２のビデオストリーム２１６のフレームは、第１の処理構成要素２０８と並列に配置された第２の処理構成要素２１０にフォワーディングされる。次いで、第１の処理構成要素２０８および第２の処理構成要素２１０の出力は、オーバーレイ構成要素２１２にフォワーディングされ、オーバーレイ構成要素２１２はパノラマ画像１１０を出力する。このプロセスは下記でより詳細に説明される。

したがって、処理パイプライン１０４は、処理パイプライン１０４の機能を実装するように構成された様々な構成要素２０２、２０４、２０６、２０８、２１０、２１２を備える。詳細には、各例示された構成要素は、処理パイプライン１０４の機能に対応する。しかしながら、当業者が理解するように、様々な構成要素はまた、構成要素の機能を実装するために処理パイプライン１０４中に含まれる構造に関連する。当業者が気づいているように、特定の構造は、構成要素の特定の実装形態、たとえば、それらがハードウェアで実装されるのか、ソフトウェアで実装されるのか、それらの組合せで実装されるのかに依存し得る。

概して、処理パイプライン１０４は、構成要素２０２、２０４、２０６、２０８、２１０、２１２、および、より具体的には、それらの機能を実装するように構成された回路を備え得る。

ハードウェア実装形態では、構成要素２０２、２０４、２０６、２０８、２１０、２１２の各々は、構成要素の機能を提供するように専用化され、特別に設計された回路に対応し得る。回路は、１つまたは複数の特定用途向け集積回路など、１つまたは複数の集積回路の形態であり得る。例として、フレーム生成構成要素２０６は、したがって、使用中に、第１のビデオストリーム２１４と第２のビデオストリーム２１６とを生成する回路を備え得る。

ソフトウェア実装形態では、回路は、代わりに、１つまたは複数のマイクロプロセッサなど、１つまたは複数のプロセッサの形態であり得、回路は、不揮発性メモリなどの（非一時的）コンピュータ可読媒体に記憶されたコンピュータコード命令に関連して、処理パイプライン１０４に、本明細書で開示される方法を遂行させる。その場合、構成要素２０２、２０４、２０６、２０８、２１０、２１２は、したがって、プロセッサによって実行されたとき、処理パイプライン１０４に構成要素の機能を遂行させる、コンピュータ可読媒体に記憶されたコンピュータコード命令の部分に各々対応し得る。

ハードウェア実装形態とソフトウェア実装形態との組合せを有することも可能であり、これは、構成要素２０２、２０４、２０６、２０８、２１０、２１２のうちのいくつかの機能がハードウェアで実装され、他の機能がソフトウェアで実装されることを意味することを理解されたい。

次に、処理パイプライン１０４の動作が、図１〜図６、および図７のフローチャートを参照しながら以下で説明される。

ステップＳ０２において、受信機２０２は、画像センサー１０２ａ、１０２ｂから、第１のビデオフレーム１０８ａと第２のビデオフレーム１０８ｂとを受信する。第１のビデオフレーム１０８ａと第２のビデオフレーム１０８ｂとは、ビデオカメラ１００によって同時にキャプチャされる。

図３および図４は、第１のビデオフレーム１０８ａと第２のビデオフレーム１０８ｂとをより詳細に例示する。第１のビデオフレーム１０８ａは、それが第２のビデオフレーム１０８ｂと重複しない部分１１８ａを有する。言い換えれば、重複しない部分１１８ａのピクセルが、第２のビデオフレーム１０８ｂによって表されないシーンのパートを表す。第１のビデオフレーム１０８ａの重複しない部分１１８ａは、画像データＡを備える。同様に、第２のビデオフレーム１０８ｂは、それが第２のビデオフレーム１０８ｂと重複しない部分１１８ｂを有する。第２のビデオフレーム１０８ｂの重複しない部分１１８ｂは、画像データＢを備える。第１のビデオフレーム１０８ａは、それが第２のビデオフレーム１０８ｂの部分１２８ｂと重複する部分１２８ａをさらに有する。言い換えれば、部分１２８ａ、１２８ｂのピクセルはシーンの同じパートを表す。第１のビデオフレーム１０８ａの重複する部分１２８ａは画像データＡ’を備え、第２のビデオフレーム１０８ｂの重複する部分１２８ｂは画像データＢ’を備える。

ステップＳ０４において、フレーム生成構成要素２０６は、第１のビデオストリームのフレーム３０２を生成することに進む。フレーム３０２は、第１のビデオフレーム１０８ａの重複しない部分１１８ａからの画像データＡと、第１のビデオフレーム１０８ａの重複する部分１２８ａからの画像データＡ’と、第２のビデオフレーム１０８ｂの重複しない部分１１８ｂからの画像データＢとを一緒に結合することによって生成される。このようにして、フレーム３０２は、第１のビデオフレーム１０８ａ全体からの画像データＡ、Ａ’と、第２のビデオフレーム１０８ｂの重複しない部分からの画像データＢとを含む。とりわけ、第２のビデオフレーム１０８ｂの重複する部分１２８ｂからの画像データＢ’は、フレーム３０２中に含まれない。したがって、ビデオフレーム１０８ａ、１０８ｂが重複する部分の場合、ビデオフレームのうちの１つのみからの画像データは、フレーム３０２中に含まれる。

第１のビデオストリームのフレーム３０２は、画像センサー１０２ａ、１０２ｂの組み合わせられた視野をカバーするパノラマ画像である。しかしながら、このパノラマ画像を生成するとき、入力ビデオフレーム１０８ａ、１０８ｂからの画像データのブレンディングは遂行されない。代わりに、１つのビデオフレームからの画像データは、上記で説明された様式でパノラマ画像中の各ピクセルについて選択される。より詳細には、フレーム３０２は、第１および第２のビデオフレーム１０８ａ、１０８ｂの部分１１８、１２８ａ、１１８ｂからの画像データＡ、Ａ’、Ｂを一緒に結合することによって生成される。これは、画像データＡ、Ａ’、Ｂが、画像センサー１０２ａ、１０２ｂの組み合わせられた視野をカバーする新しい画像、すなわち、パノラマ画像を形成するように、画像データＡ、Ａ’、Ｂが適切な順序で隣り合わせに配置されることを意味する。

第１のビデオストリームのフレーム３０２は、次いで、第１の処理構成要素２０８にフォワーディングされる。

フレーム生成構成要素２０６は、第２のビデオストリームのフレーム３０４、４０４をさらに生成する。フレーム３０４、４０４は、少なくとも第２のビデオフレーム１２８ｂの重複する部分の画像データを備える。

図３に例示されている実施形態の第１のグループでは、第２のビデオストリームのフレーム３０４は、第１のビデオフレーム１０８ａと第２のビデオフレーム１０８ｂの両方の重複する部分１２８ａ、１２８ｂからの画像データＡ’、Ｂ’を備える。図４に例示されている実施形態の第２のグループでは、第２のビデオストリームのフレーム４０４は、第２のビデオフレーム１０８ｂのみからの、または第１のビデオフレーム１０８ａと第２のビデオフレーム１０８ｂの両方からの画像データＢ’を備え得る。これらの２つの代替形態は、図４中の「／」記号によって分離される。

フレーム３０４、４０４は、次いで、第２の処理構成要素２１０に入力される。

ステップＳ０８において、第１の処理構成要素２０８はフレーム３０２を処理し、第２の処理構成要素２１０はフレーム３０４、４０４を処理する。第１のビデオストリームのフレーム３０２と、第２のビデオストリームのフレーム３０４、４０４との処理は、並列に行われる。

上記でさらに述べられたように、第１のビデオストリームのフレーム３０２の処理は、欠陥ピクセル補正、列固定パターン雑音補償およびクロストーク補償のようなアーテファクト削除、ホワイトバランシング、周辺減光補正、雑音フィルタ処理、デモザイキング、シャープ化、カラーマトリクス化、暗電流補正、およびガンマ補正など、様々な画像処理ステップを含み得る。画像処理の一部または全部は、第１および第２のビデオストリームを生成する前に、画像処理構成要素２０４によって遂行され得、画像処理ステップの一部または全部は、第１の処理構成要素２０８によって第１および第２のビデオストリームを生成した後に遂行され得る。第１のビデオストリームのフレーム３０２の処理はまた、一般に、当技術分野で知られているような整合を含む。これは、フレーム３０２またはそれの部分のバレルひずみ補正（すなわち、第１のビデオフレーム１０８ａから来る部分と第２のビデオフレーム１０８ｂから来る部分とが、異なる補正を必要とし得る）、（ビデオカメラが固定フォーマットでピクチャを撮るように配置された場合の）フレーム３０２またはそれの部分の回転、およびシリンダーなどの表面上での、フレーム３０２、またはそうではなく、ビデオフレーム１０８ａ、１０８ｂの異なるビデオフレームから来る部分の投影を含み得る。後者は、ビデオフレーム１０８ａ、１０８ｂが異なる視点からキャプチャされたという事実を補償するために行われる。一般に、上記整合は、カメラの初期較正に続いて各フレームについて行われる。したがって、整合は、カメラの画像センサーの較正からのパラメータを基準として行われ得る。

フレーム３０２の処理されたバージョンは、図３および図４中の３０８によって表示される。

第２のビデオストリームのフレーム３０４、４０４の処理は、上記で説明されたことによる整合、およびオーバーレイ３０６、４０６の準備をも含み得る。一般に、フレーム３０２は、フレーム３０４、４０４よりもはるかに大きく、そのため、整合および、フレーム３０４、４０４からのオーバーレイの準備は、フレーム３０２が第１の処理構成要素２０８によって整合または場合によっては処理される間に遂行され得る。

図３に示されている実施形態の第１のグループでは、オーバーレイ３０６の準備は、第１のビデオフレーム１０８ａからの重複する部分１２８ａからの画像データＡ’と第２のビデオフレーム１０８ｂからの重複する部分１２８ｂからの画像データＢ’とのブレンディング、すなわち混合を含む。そのような実施形態では、第２の処理構成要素２１０から出力されているオーバーレイ３０６は、ブレンドされた画像データを含む。第２の処理構成要素２１０は、たとえば、重複する部分１２８ａ、１２８ｂ中の各対応するピクセルについて画像データＡ’と画像データＢ’との重み付き平均を計算することによって画像データＡ’、Ｂ’をブレンドし得る。重み付き平均の重みは、異なるピクセルについて異なり得る。ピクセルｘにおける画像データＢ’に適用される重みｗ、０≦ｗ≦１をｗ（ｘ）によって表示するとき、ブレンディングは、次のように説明され得る。
（１−ｗ（ｘ））Ａ’（ｘ）＋ｗ（ｘ）Ｂ’（ｘ）
ここで、Ｂ’（ｘ）は、ピクセルｘにおける重複する部分１２８ｂ中の画像データを表示し、Ａ’（ｘ）は、ピクセルｘに対応するピクセルにおける重複する部分１２８ａ中の画像データを表示する。

重みは、画像データＡ’、Ｂ’とは無関係に選択され得る。重みはまた、経時的に一定のままであり得る。図３の実施形態の第１のグループに該当する一実施形態によれば、画像データＢ’に関連する重みｗは、第２のビデオフレーム１０８ｂの重複する部分１２８ｂ中のピクセルから、第２のビデオフレーム１０８ｂの重複しない部分１１８ｂの境界までの最短距離に依存する。これは、画像データＡ’に関連する重み（１−ｗ）が、重複する部分１２８ａ中の対応するピクセルと、第１のビデオフレーム１０８ａの重複する部分１２８ａと重複しない部分１１８ａとの間の境界との間の最短距離に依存することを暗示する。これは図５にさらに例示されており、図５では、画像データＢ’に適用される重み５０２ｂが、重複する部分１２８ｂと重複しない部分１１８ｂとの間の境界までの距離の関数であることが示されている。さらに、画像データＡ’に適用される重み５０２ａは、図５に例示されているように、重複する部分１２８ａと重複しない部分１１８ａとの間の境界までの距離の関数である。ここで、重みは境界への近接度に比例し、すなわち、重みは、境界への近接度とともに線形的に増加する。しかしながら、他の機能的関係が等しく可能であることを理解されたい。しかしながら、重みは、一般に、境界への近接度とともに増加する。

重みは、さらに、第１のしきい値を下回る空間周波数など、低周波数コンテンツについて、および第２のしきい値に等しいかまたはそれを上回る周波数など、高周波数コンテンツについて、別様に選択され得る。第２のしきい値は、第１のしきい値に等しいかまたはそれよりも大きくなり得る。そのような場合、画像データＡ’、Ｂ’は、画像データＡ’、Ｂ’の低周波数コンテンツと高周波数コンテンツとを抽出するために、空間ハイパスフィルタ処理と空間ローパスフィルタ処理とを受け得る。低周波数コンテンツについて、第１の様式で重みを選択することによって、第１の重み付き平均が計算され得る。たとえば、低周波数コンテンツについての重みは、図５に関して説明されるように選択され得る。高周波数コンテンツについて、第２の様式で重みを選択することによって、第２の重み付き平均が計算され得る。たとえば、高周波数コンテンツについての重みは図６に示されているように選択され得、図６では、画像データＢ’に適用される重み６０２ｂと画像データＡ’に適用される重み６０２ａとが示されている。この場合、重みは０または１のいずれかである。重み６０２ｂは、部分１１８ａと部分１２８ａとの間の境界までの、部分１２８ａ中の対応するピクセルについての距離よりも短い、部分１１８ｂと部分１２８ｂとの間の境界までの距離を有する部分１２８ｂ中のピクセルについて、１に等しい。部分１２８ｂ中の他のピクセルについて、重みは０である。

重みはまた、画像データＡ’、Ｂ’に依存するように選択され得る。一例では、重みは、重複する部分１１８ａ、１１８ｂ中の、人などの物体の存在によって支配され得る。より詳細には、画像センサー１０２ａ、１０２ｂは、わずかに異なる位置および角度からシーンを見るので、第１および第２のビデオフレーム１０８ａ、１０８ｂは視差効果を受けることになる。その結果、シーン中に存在する物体がある場合、物体は、整合が遂行された場合でも、重複する部分１２８ａ、１２８ｂ中のわずかに異なる位置において現れ得る。したがって、重複する部分１２８ａ、１２８ｂ中の画像データＡ’、Ｂ’が、重み付き平均を形成することによってブレンドされる場合、物体は、ブレンドされた画像中で二重に現れ得る。この状況を回避するために、重複する部分１２８ａ、１２８ｂのうちの１つのみからの物体を含むように選択し得る。より詳細には、物体は、標準的な物体検出技法を使用して、重複する部分１２８ａ、１２８ｂ中で検出され得る。重複する部分１２８ａ、１２８ｂ中の物体に属するとして識別されているピクセルについて、第１のビデオフレーム１０８ａからの画像データＡ’と、第２のビデオフレーム１０８ｂからの画像データＢ’とのうちの１つについての重みは０に設定され得、これは、第１のビデオフレーム１０８ａと第２のビデオフレーム１０８ｂとのうちの１つのみからの画像データが、ブレンドされた画像中に含まれることを意味する。

図４に例示されている実施形態の第２のグループでは、オーバーレイ４０６の準備は、画像データＡ’、Ｂ’のブレンディングを含まない。これらの実施形態では、オーバーレイ４０６は、第２のビデオフレーム１０８ｂの重複する部分１２８ｂからの画像データＢ’のみを含む。事実上、オーバーレイ４０６は、一般に、オーバーレイ４０６の各ピクセルが第２のビデオフレーム１０８ｂの重複する部分１２８ｂのピクセルに対応するという点で、第２のビデオフレーム１０８ｂの重複する部分１２８ｂへの直接対応である。ブレンディングを遂行する代わりに、実施形態の第２のグループによる第２の処理構成要素２１０は、マスク４０８を計算する。マスク４０８は、オーバーレイ４０８の各値について、ブレンディングの程度と呼ばれることがある値を定義する。ブレンディングの程度は、どのくらい高い程度、すなわち、どのくらい高い割合のオーバーレイ４０８が、別の画像データとのオーバーレイ４０８のブレンディング中に含まれるべきであるかを説明する、０から１の間の値である。オーバーレイ４０８は、第２のビデオフレーム１０８ｂの重複する部分１２８ｂの画像データＢ’に対応し、他の画像データは、（後で説明されるように）第１のビデオフレーム１０８ａの画像データＡ’に対応するので、ブレンディングの程度は、実施形態の第１のグループに関して上記で説明されたように、第２のビデオフレーム１０８ｂからの画像データＢ’に適用されるべき重みｗと等価である。言い換えれば、実施形態の第２のグループでは、第２の処理構成要素２１０は、重みｗを計算するが、実際のブレンディングを実施しない。

画像データＢ’に適用されるべき重みｗを計算することに関する、実施形態の第１のグループに関連して、上記で述べられたことは、したがって、実施形態の第２のグループに等しくうまく適用される。重みが画像データとは無関係に計算される場合、第２の処理構成要素２１０に入力されるフレーム４０４は、第２のビデオフレーム１０８ｂの重複する部分１２８ｂからの画像データＢ’を含む必要があるにすぎない。重みが画像データに応じて計算される場合、第２の処理構成要素２１０に入力されるフレーム４０４は、重複する部分１２８ａと重複する部分１２８ｂの両方からの画像データＡ’、Ｂ’を備える。

処理の速度をさらに上げるために、前のフレームの処理からのマスクを再使用することが可能である。たとえば、マスクは、ビデオフレームが第１および第２のセンサー１０２ａ、１０２ｂから受信されるレートよりも低いレートにおいて更新され得る。このようにして、処理時間は低減され、それにより、システムにおけるレイテンシをさらに低減する。

ステップＳ１０において、オーバーレイ構成要素２１２は、第１のビデオストリームの処理されたフレーム３０８にオーバーレイ３０６、４０６を追加することに進む。詳細には、オーバーレイ構成要素２１２は、第１のビデオフレーム１０８ａの重複する部分１２８ａに対応する処理されたフレーム３０８の部分３２８ａにおいてオーバーレイ３０６、４０６を追加する。オーバーレイの追加は、実施形態の第１のグループのための事例である交換によって行われるか、または実施形態の第２のグループのための事例であるブレンディングを介して行われ得る。

より具体的には、図３に示されている実施形態の第１のグループでは、画像データＡ’、Ｂ’は、オーバーレイ３０６を準備するときにすでにブレンドされていた。それゆえ、第１のビデオストリームの処理されたフレーム３０８にオーバーレイ３０６を追加するときに、さらなるブレンディングは必要でない。オーバーレイ構成要素２１２は、それゆえ、図３に例示されているように、処理されたフレーム３０８の部分３２８ａ中の画像データを交換し得る。これは、たとえば、０に等しくなるようにオーバーレイの透過性パラメータを設定することによって達成され、それにより、実際には、画像データを交換することを介してオーバーレイ３０６を追加するのと同じことである非透過のやり方でオーバーレイ３０６を追加するように、オーバーレイ構成要素２１２に命令し得る。

図４に示されている実施形態の第２のグループでは、オーバーレイ構成要素２１２は、処理されたフレーム３０８にオーバーレイ４０６を追加すると、画像データＡ’、Ｂ’をブレンドすることに進む。オーバーレイ構成要素２１２は、第２の処理構成要素２１０によって計算されたマスク４０８に従ってブレンディングを遂行する。より詳細には、オーバーレイ構成要素２１２は、オーバーレイ４０６と処理されたフレーム３０８の部分３２８ａとの重み付き平均を計算し得る。オーバーレイ４０６のピクセルの重みはマスク４０８によって与えられ、部分３２８ａに適用されるべき重みは、対応するピクセル位置において１−マスクの値によって与えられる。実際には、これは、ピクセル単位でオーバーレイの透過性レベルを設定するためにマスクを使用することによって達成され得る。

処理されたフレーム３０８にオーバーレイ３０６、４０６を追加した結果として、パノラマ画像１１０が生成される。パノラマ画像１１０は、第１のビデオフレーム１０８ａと第２のビデオフレーム１０８ｂとのスティッチングである。パノラマ画像１１０は、第２のビデオフレーム１０８ｂではなく、第１のビデオフレーム１０８ａ中に表されるシーンのパートについて、第１のビデオフレーム１０８ａからの画像データＡを備える。同様に、パノラマ画像１１０は、第１のビデオフレーム１０８ａ中にでなはく、第２のビデオフレーム１０８ｂ中に表されるシーンのパートからの画像データＢを備える。第１のビデオフレーム１０８ａと第２のビデオフレーム１０８ｂの両方によって表されるシーンのパートについて、パノラマ画像１１０は、上記で説明されたように第１のビデオフレーム１０８ａからの画像データＡ’と、第２のビデオフレーム１０８ｂからの画像データＢ’とのブレンディングを備える。

当業者は、多くのやり方で上記で説明された実施形態を変更し、依然として、上記の実施形態に示されているように本発明の利点を使用することができることが諒解されよう。たとえば、簡単のために、上記の例は、２つのセンサーをもつビデオカメラのために与えられる。しかしながら、本発明は、３つ以上のセンサーがある場合、等しくうまく適用される。したがって、本発明は、示されている実施形態に限定されるべきでないが、添付の特許請求の範囲によってのみ定義されるべきである。加えて、当業者が理解するように、示されている実施形態は組み合わせられ得る。

１００マルチセンサービデオカメラ
１０２ａ第１のセンサー
１０２ｂ第２のセンサー
１０４処理パイプライン
１０６ビデオエンコーダ
１０８ａ第１のビデオフレーム
１０８ｂ第２のビデオフレーム
１１０パノラマ画像
１１８ａ重複しない部分
１１８ｂ重複しない部分
１２８ａ重複する部分
１２８ｂ重複する部分
２０２受信機
２０４画像処理構成要素
２０６フレーム生成構成要素
２０８第１の処理構成要素
２１０第２の処理構成要素
２１２オーバーレイ構成要素
２１４第１のビデオストリーム
２１６第２のビデオストリーム
３０２フレーム
３０４フレーム
３０６オーバーレイ
３２８ａ部分
４０４フレーム
４０６オーバーレイ
４０８マスク

Claims

部分的に重複する視野をもつ第１および第２のセンサー（１０２ａ、１０２ｂ）を有するマルチセンサービデオカメラ（１００）において実施される方法であって、
前記第１のセンサー（１０２ａ）および前記第２のセンサー（１０２ｂ）の各々によって同時にキャプチャされる第１のビデオフレーム（１０８ａ）および第２のビデオフレーム（１０８ｂ）を受信すること（Ｓ０２）であって、
前記第１および前記第２のビデオフレーム（１０８ａ、１０８ｂ）の各々は、前記第１および前記第２のビデオフレーム（１０８ａ、１０８ｂ）の他方と重複しない、重複しない部分（１１８ａ、１１８ｂ）と、前記第１および前記第２のビデオフレーム（１０８ａ、１０８ｂ）の他方と重複する、重複する部分（１２８ａ、１２８ｂ）とを有する、受信すること（Ｓ０２）と、
前記第１および前記第２のビデオフレーム（１０８ａ、１０８ｂ）の前記重複しない部分（１１８ａ、１１８ｂ）からの画像データ（Ａ、Ｂ）を、前記第１のビデオフレーム（１０８ａ）の前記重複する部分（１２８ａ）からの画像データ（Ａ’）のみと結合することによって、第１のビデオストリーム（２１４）のフレーム（３０２）を生成すること（Ｓ０４）と、
少なくとも前記第２のビデオフレーム（１０８ｂ）の前記重複する部分（１２８ｂ）からの画像データ（Ｂ’）を含む、第２のビデオストリーム（２１６）のフレーム（３０４、４０４）を生成すること（Ｓ０６）と、
前記第１のビデオストリームの前記フレーム（３０２）および前記第２のビデオストリームの前記フレーム（３０４、４０４）を並列に処理すること（Ｓ０８）であって、前記第２のビデオストリームの前記フレーム（３０４、４０４）の前記処理が、少なくとも前記第２のビデオフレーム（１０８ｂ）の前記重複する部分（１２８ｂ）からの前記画像データ（Ｂ’）に基づいてオーバーレイ（３０６、４０６）を準備することを含む、処理すること（Ｓ０８）と、
前記第１のビデオストリームの処理されたフレーム（３０８）に、前記処理されたフレーム（３０８）の前記第１のビデオフレーム（１０８ａ）の前記重複する部分（１２８ａ）に対応する部分（３２８ａ）において、前記オーバーレイ（３０６、４０６）を追加すること（Ｓ１０）と
を備え、
前記第１のビデオフレーム（１０８ａ）の前記重複する部分（１２８ａ）からの画像データ（Ａ’）が、前記オーバーレイを準備するステップと前記オーバーレイを追加するステップとのうちの少なくとも１つにおいて、前記第２のビデオフレーム（１０８ｂ）の前記重複する部分（１２８ｂ）からの画像データ（Ｂ’）とブレンドされる、方法。
前記第２のビデオストリームの前記フレーム（３０４）が、前記第１および前記第２のビデオフレーム（１０８ａ、１０８ｂ）の前記重複する部分（１２８ａ、１２８ｂ）からの画像データ（Ａ’）を備え、前記オーバーレイを準備するステップが、前記第２のビデオフレーム（１０８ｂ）の前記重複する部分（１２８ｂ）からの画像データ（Ｂ’）を、前記第１のビデオフレーム（１０８ａ）の前記重複する部分（１２８ａ）からの画像データ（Ａ’）とブレンドすることを含む、請求項１に記載の方法。
前記オーバーレイを追加するステップにおいて、前記オーバーレイ（３０６）が、前記第１のビデオフレーム（１０８ａ）の前記重複する部分（１２８ａ）に対応する、前記部分（３２８ａ）中の前記第１のビデオストリームの前記処理されたフレーム（３０８）の画像データ（Ａ’）と置き替わる、請求項２に記載の方法。
前記ブレンドすることが、前記重複する部分（１２８ａ、１２８ｂ）中の各ピクセルについて、前記第１のビデオフレーム（１０８ａ）からの画像データ（Ａ’）と前記第２のビデオフレーム（１０８ｂ）からの画像データ（Ｂ’）との重み付き平均を計算することを含み、
前記第２のビデオフレーム（１０８ｂ）の前記重複する部分（１２８ｂ）からの前記画像データ（Ｂ’）に関連する重みが、前記ピクセルから、前記第２のビデオフレーム（１０８ｂ）の前記重複する部分（１２８ｂ）と前記重複しない部分（１１８ｂ）との間の境界までの最短距離に依存し、
前記第１のビデオフレーム（１０８ａ）の前記重複する部分（１２８ａ）からの前記画像データ（Ａ’）に関連する重みが、前記ピクセルから、前記第１のビデオフレーム（１０８ａ）の前記重複する部分（１２８ａ）と前記重複しない部分（１１８ａ）との間の境界までの最短距離に依存する、請求項２または３に記載の方法。
前記ブレンドすることは、
前記第１のビデオフレーム（１０８ａ）の前記重複する部分（１２８ａ）からの画像データ（Ａ’）および前記第２のビデオフレーム（１０８ｂ）の前記重複する部分（１２８ｂ）からの画像データ（Ｂ’）の第１の重み付き平均を計算することであって、前記第１の重み付き平均を、第１のしきい値よりも低い空間周波数に関して計算することと、
前記第１のビデオフレーム（１０８ａ）の前記重複する部分（１２８ａ）からの画像データ（Ａ’）および前記第２のビデオフレーム（１０８ｂ）の前記重複する部分（１２８ｂ）からの画像データ（Ｂ’）の第２の重み付き平均を計算することであって、前記第２の重み付き平均を、前記第１のしきい値よりも大きいかまたはそれに等しい第２のしきい値に等しいかまたはそれを上回る空間周波数に関して計算することと、ここで重みは、前記第１の重み付き平均と前記第２の重み付き平均とについて別様に選択され、
前記第１の重み付き平均を前記第２の重み付き平均に追加することによって前記オーバーレイを計算することと
を含む、請求項２から４のいずれか一項に記載の方法。
前記ブレンドすることは、
前記第１のビデオフレーム（１０８ａ）の前記重複する部分（１２８ａ）中の物体と、前記第２のビデオフレーム（１０８ｂ）の前記重複する部分（１２８ｂ）中の物体とを識別することと、
前記重複する部分（１２８ａ、１２８ｂ）中で前記第１のビデオフレーム（１０８ａ）からの画像データ（Ａ’）と前記第２のビデオフレーム（１０８ｂ）からの画像データ（Ｂ’）との重み付き平均を計算することと
を含み、
前記第１のビデオフレーム（１０８ａ）の前記重複する部分（１２８ａ）と前記第２のビデオフレーム（１０８ｂ）の前記重複する部分（１２８ｂ）の両方の中で物体が識別された場合、前記第１のビデオフレーム（１０８ａ）の画像データ（Ａ’）または前記第２のビデオフレーム（１０８ｂ）の画像データ（Ｂ’）のうちの１つに関連する重みが、当該の物体に属するとして識別されるピクセルについて０に設定される、請求項２から５のいずれか一項に記載の方法。
前記オーバーレイ（４０６）が前記第２のビデオフレーム（１０８ｂ）の前記重複する部分（１２８ｂ）からの画像データ（Ｂ’）のみを含み、前記オーバーレイを追加するステップが、前記第１のビデオストリーム（２１４）の前記処理されたフレーム（３０８）と、前記処理されたフレーム（３０８）の前記第１のビデオフレーム（１０８ａ）の前記重複する部分（１２８ａ）に対応する前記部分（３２８ａ）において、前記オーバーレイ（４０６）をブレンドすることを含む、請求項１に記載の方法。
前記第１のビデオストリームの前記処理されたフレーム（３０８）と前記オーバーレイ（４０６）をブレンドすることが、前記オーバーレイ（４０６）の各ピクセルについてブレンディングの程度を定義するマスク（４０８）に従って行われる、請求項７に記載の方法。
前記オーバーレイ（４０６）の各ピクセルが、前記第２のビデオフレーム（１０８ｂ）の前記重複する部分（１２８ｂ）のピクセルに対応し、ブレンディングの前記程度が、前記ピクセルから、前記第２のビデオフレーム（１０８ｂ）の前記重複する部分（１２８ｂ）と前記重複しない部分（１１８ｂ）との間の境界までの最短距離に依存する、請求項８に記載の方法。
前記第２のビデオストリームの前記フレーム（４０４）が、前記第１および前記第２のビデオフレーム（１０８ａ、１０８ｂ）の前記重複する部分（１２８ａ、１２８ｂ）からの画像データ（Ａ’、Ｂ’）を含み、オーバーレイを準備するステップが、前記第１および前記第２のビデオフレーム（１０８ａ、１０８ｂ）の前記重複する部分（１２８ａ、１２８ｂ）からの前記画像データ（Ａ’、Ｂ’）に基づいて前記マスク（４０８）を計算することをさらに備える、請求項８に記載の方法。
前記マスク（４０８）は、ビデオフレームが前記第１および前記第２のセンサー（１０２ａ、１０２ｂ）から受信されるレートよりも低いレートにおいて更新される、請求項１０に記載の方法。
前記第１のビデオストリームの前記フレーム（３０２）の前記処理、および前記第２のビデオストリームの前記フレーム（３０４、４０４）の前記処理が、前記第１のビデオフレーム（１０８ａ）の画像データおよび前記第２のビデオフレーム（１０８ｂ）の画像データを整合させることを含む、請求項１から１１のいずれか一項に記載の方法。
部分的に重複する視野をもつ第１および第２のセンサー（１０２ａ、１０２ｂ）を有するマルチセンサービデオカメラ（１００）のための処理パイプライン（１０４）であって、
それぞれ前記第１のセンサーおよび前記第２のセンサー（１０２ａ、１０２ｂ）によって同時にキャプチャされている第１のビデオフレームおよび第２のビデオフレーム（１０８ａ、１０８ｂ）を受信するように構成された受信機（２０２）であって、
前記第１および前記第２のビデオフレーム（１０８ａ、１０８ｂ）の各々は、前記第１および前記第２のビデオフレーム（１０８ａ、１０８ｂ）の他方と重複しない、重複しない部分（１１８ａ、１１８ｂ）と、前記第１および前記第２のビデオフレーム（１０８ａ、１０８ｂ）の他方と重複する、重複する部分（１２８ａ、１２８ｂ）とを有する、受信機（２０２）と、
前記第１および前記第２のビデオフレーム（１０８ａ、１０８ｂ）の前記重複しない部分（１１８ａ、１１８ｂ）からの画像データ（Ａ、Ｂ）を、前記第１のビデオフレーム（１０８ａ）の前記重複する部分（１２８ａ、１２８ｂ）からの画像データのみと結合することによって、第１のビデオストリーム（２１４）のフレーム（３０２）を生成し、且つ、少なくとも前記第２のビデオフレーム（１０８ｂ）の前記重複する部分（１２８ｂ）からの画像データ（Ｂ’）を含む、第２のビデオストリーム（２１６）のフレーム（３０４、４０４）を生成するように構成されたフレーム生成構成要素（２０６）と、
前記第１のビデオストリーム（２１４）の前記フレーム（３０２）を処理するように構成された第１の処理構成要素（２０８）と、
前記第１のビデオストリーム（２１４）の前記フレーム（３０２）を処理する前記第１の処理構成要素（２０８）と並列に前記第２のビデオストリーム（２１６）の前記フレーム（３０４、４０４）を処理するように構成された第２の処理構成要素（２１０）であって、前記第２のビデオストリーム（１０８ｂ）の前記フレーム（３０４、４０４）の前記処理が、少なくとも前記第２のビデオフレーム（１０８ｂ）の前記重複する部分（１２８ｂ）からの前記画像データ（Ｂ’）に基づいてオーバーレイ（３０６、４０６）を準備することを含む、第２の処理構成要素（２１０）と、
前記第１のビデオストリーム（２１４）の処理されたフレーム（３０８）に、前記処理されたフレーム（３０８）の前記第１のビデオフレーム（１０８ａ）の前記重複する部分（１２８ａ）に対応する部分（３２８ａ）において、前記オーバーレイ（３０６、４０６）を追加するように構成されたオーバーレイ構成要素（２１２）と
を備え、
前記第２の処理構成要素（２１０）と前記オーバーレイ構成要素（２１２）とのうちの少なくとも１つが、前記オーバーレイを準備するかまたは前記オーバーレイを追加するとき、前記第１のビデオフレーム（１０８ａ）の前記重複する部分（１２８ａ）からの画像データ（Ａ’）を前記第２のビデオフレーム（１０８ｂ）の前記重複する部分（１２８ｂ）からの画像データ（Ｂ’）とブレンドするように構成された、処理パイプライン（１０４）。
第１の視野を表すビデオフレームをキャプチャするように配置された第１のセンサー（１０２ａ）と、
前記第１のセンサー（１０２ａ）と同時にビデオフレームをキャプチャするように配置された第２のセンサー（１０２ｂ）であって、前記第１の視野と一部重複する第２の視野を表す、第２のセンサー（１０２ｂ）と、
請求項１３に記載の処理パイプライン（１０４）と
を備える、マルチセンサービデオカメラ（１００）。
前記第２のビデオストリームのフレームが、前記第２および第１のビデオフレームの前記重複する部分からの画像データを含み、前記第２の処理構成要素または前記オーバーレイ構成要素が、前記オーバーレイを準備するかまたは前記オーバーレイを追加するとき、前記第２のビデオフレームの前記重複する部分からの画像データを前記第１のビデオフレームの前記重複する部分からの画像データとブレンドするように構成されている、請求項１４に記載のマルチセンサービデオカメラ（１００）。
前記オーバーレイを追加するとき、前記第２の処理構成要素または前記オーバーレイ構成要素が、前記オーバーレイで、前記第１のビデオフレームの前記重複する部分に対応する前記部分において、前記第１のビデオストリームの前記処理されたフレームの画像データを置き替える、請求項１５に記載のマルチセンサービデオカメラ（１００）。
ブレンドするとき、前記第２の処理構成要素または前記オーバーレイ構成要素が、前記重複する部分中の各ピクセルについて、前記第１のビデオフレームからの画像データと前記第２のビデオフレームからの画像データとの重み付き平均を計算するように構成されており、
前記第２のビデオフレームの前記重複する部分からの前記画像データに関連する重みが、前記ピクセルから、前記第２のビデオフレームの前記重複する部分と前記重複しない部分との間の境界までの最短距離に依存し、
前記第１のビデオフレームの前記重複する部分からの前記画像データに関連する重みが、前記ピクセルから、前記第１のビデオフレームの前記重複する部分と前記重複しない部分との間の境界までの最短距離に依存する、請求項１５に記載のマルチセンサービデオカメラ（１００）。
ブレンドするとき、前記第２の処理構成要素または前記オーバーレイ構成要素が、
前記第１のビデオフレームの前記重複する部分からの画像データおよび前記第２のビデオフレームの前記重複する部分からの画像データの第１の重み付き平均を計算することであって、前記第１の重み付き平均を、第１のしきい値よりも低い空間周波数に関して計算することと、
前記第１のビデオフレームの前記重複する部分からの画像データおよび前記第２のビデオフレームの前記重複する部分からの画像データの第２の重み付き平均を計算することであって、前記第２の重み付き平均を、前記第１のしきい値よりも大きいかまたはそれに等しい第２のしきい値に等しいかまたはそれを上回る空間周波数に関して計算することと、ここで重みは、前記第１の重み付き平均と前記第２の重み付き平均とについて別様に選択され、
前記第１の重み付き平均を前記第２の重み付き平均に追加することによって前記オーバーレイを計算することと
を行うように構成されている、請求項１５に記載のマルチセンサービデオカメラ（１００）。
ブレンドするとき、前記第２の処理構成要素または前記オーバーレイ構成要素が、
前記第１のビデオフレームの前記重複する部分中の物体と、前記第２のビデオフレームの前記重複する部分中の物体とを識別し、
前記重複する部分中で前記第１のビデオフレームからの画像データと前記第２のビデオフレームからの画像データとの重み付き平均を計算する
ように構成されており、前記第１のビデオフレームの前記重複する部分と前記第２のビデオフレームの前記重複する部分の両方の中で物体が識別された場合、前記第１のビデオフレームの画像データまたは前記第２のビデオフレームの画像データのうちの１つに関連する重みが、当該の物体に属するとして識別されるピクセルについて０に設定される、請求項１５に記載のマルチセンサービデオカメラ（１００）。
コンピュータによって実行されたとき、請求項１から１２のいずれか一項に記載の方法を遂行するための、コンピュータコード命令が記憶されたコンピュータ可読媒体。