JP2020194532A

JP2020194532A - 歪み画像内の対象物を検出するための方法、システム、およびデバイス

Info

Publication number: JP2020194532A
Application number: JP2020066372A
Authority: JP
Inventors: ハンプスリンス，; Hampus Linse; ソンユアン，; Song Yuan; ヨハンフェルベルク，; Foerberg Johan
Original assignee: Axis AB
Current assignee: Axis AB
Priority date: 2019-04-10
Filing date: 2020-04-02
Publication date: 2020-12-03
Also published as: US11682190B2; CN111815512A; EP3722991A1; TW202042178A; KR20200119712A; US20200327691A1; EP3722991B1; KR102598910B1; EP3722991C0

Abstract

【課題】スライディングウィンドウアルゴリズムを使用して第１の歪み画像内の対象物を検出するための方法、コンピュータプログラム製品、デバイスおよびシステムを提供する。【解決手段】方法は、第１の歪み画像の歪みの数学的表現の反転を受信すること（Ｓ３０２）、対象物の検出は、第１の歪み画像にわたってスライディングウィンドウをスライドさせること（Ｓ３０４）ならびに第１の歪み画像内の複数の位置の各位置における歪みの数学的表現の反転に基づいてスライディングウィンドウを変換すること（Ｓ３０６）および第１の歪み画像内の位置における対象物検出のために、スライディングウィンドウアルゴリズムにおいて、変更された特徴検出パターンを含む変換されたスライディングウィンドウを使用すること（Ｓ３０８）を含む。【選択図】図３

Description

本発明は、歪み画像内の対象物を検出するための方法、デバイス、およびシステムに関する。

カメラアプリケーションのための重要な分野は場所のモニタリングである。モニタリングアプリケーションにおいて、モニタリングされる場所のビデオは、通常、広範囲の異なる画像処理アルゴリズムを使用して処理される。例えば、記録されるビデオ内の動きを自動的に検出するアルゴリズムを実装することが一般的である。重要な特徴の別の例は、撮像された画像における対象物検出である。そして、典型的なアプローチは、撮像された画像を参照データベース内の画像と比較することである。対象物検出アルゴリズムは、撮像された画像内の特徴と参照データベース内の画像を照合するため、対象物が検出され、認識される。

しかしながら、そのようなアルゴリズムに関して幾つかの問題が存在する。例えば、参照データベース内の画像に対する高い要件が存在する。例えば、これらの画像は、対象物を識別可能な方法で描写しながら、広範囲の対象物を反映しなければならない。したがって、対象物は、通常、異なる照明条件下でかつ広範囲の方向から撮像される。そのため、参照データベースが参照画像の大きいセットを含むことが一般的である。

しかしながら、撮像される画像は、理想的な撮像条件下でめったに撮像されない。撮像される画像は、例えば、低輝度に悩まされるまたは歪まされる場合がある。或る範囲の画像歪みの異なる発生源、例えば、フィッシュアイレンズおよび光学ドームなどの広角レンズの使用、ならびに、パノラマ画像を提供するためのスティッチング技法が存在する。

歪み発生源（複数可）および歪みの形状によらず、歪みは、画像を解析するときの課題である。例えば、多くの対象物検出アルゴリズムは、歪み画像に適用されると、大損害を受け、なぜならば、ほとんどのアルゴリズムが、無歪み画像に適用されるように設計されているからである。そのため、プロセッサが歪み画像内の対象物を検出することは、計算集約的になる。

したがって、非理想画像において対象物検出するための改良型アルゴリズムについての必要性が存在する。

上記を考慮して、当技術分野において上記で特定された欠点の１つまたは複数をなくすまたは少なくとも軽減することが本発明の概念の目的である。特に、歪み画像内の対象物を検出するための方法、システム、およびデバイスを提供することが目的である。

第１の態様によれば、スライディングウィンドウアルゴリズムを使用して第１の歪み画像内の対象物を検出するための方法が提供される。方法は、第１の歪み画像の歪みの数学的表現の反転を受信することを含み；対象物の検出は、スライディングウィンドウを第１の歪み画像にわたってスライドさせること、ならびに、第１の歪み画像内の複数の位置の各位置について：その位置における歪みの数学的表現の反転に基づいてスライディングウィンドウを変換すること；および、第１の歪み画像内の位置における対象物検出のために、スライディングウィンドウアルゴリズムにおいて、変換されたスライディングウィンドウを使用することを含む。

言い回し「歪み画像（ｄｉｓｔｏｒｔｅｄｉｍａｇｅ）」は、本出願の文脈において、歪んだ見え方を有する画像として解釈されるべきである。歪み画像において、シーン内のまっすぐな線は、通常、或る程度、湾曲する。対照的に、完全に直線的な画像は、描写されるシーン内のまっすぐな線に対応する完全にまっすぐな線を有する。本出願の文脈において、２つのタイプの歪み発生源：物理的歪み発生源およびデジタル歪み発生源が論じられる。物理的歪み発生源の非制限的な例は、広角レンズであり、フィッシュアイレンズ（例えば、ｆシータ（ｆθ）レンズ）、光学ドーム、および不完全に直線的なレンズを含む。レンズの不完全性は、低精度（ｉｍｐｒｅｃｉｓｉｏｎ）を製造することによって引き起こされる場合がある。デジタル歪み発生源の非制限的な例は、例えば、複数の画像からパノラマ画像を生成するための画像スティッチングアルゴリズムである。歪みパターンは、不規則的または規則的（放射状歪みなど）であり得る。撮像された画像の歪みパターンは、歪み発生源のうちの１つまたは組み合わせによる結果であることができる。

言い回し「スライディングウィンドウアルゴリズム（ｓｌｉｄｉｎｇｗｉｎｄｏｗａｌｇｏｒｉｔｈｍ）」は、本出願の文脈において、スライディングウィンドウを含む対象物検出アルゴリズムとして解釈されるべきである。スライディングウィンドウは、画像にわたって移動する、最初に所定の幅および高さの長方形領域である。スライディングウィンドウによって画定される領域内に存在する画像特徴は、画像内の対象物を検出するために、参照特徴のデータベースと比較される。スライディングウィンドウ内の特徴検出パターンは、参照特徴のデータベースに基づくことができる。スライディングウィンドウアルゴリズムは、複数の特徴検出パターンを使用することができ、それにより、第１のスライディングウィンドウは第１の特徴検出パターンを含み、第２のスライディングウィンドウは第２の特徴検出パターンを含み、などである。それにより、スライディングウィンドウアルゴリズムは、複数の異なるスライディングウィンドウおよび特徴検出パターンを使用することによって、複数の異なる特徴を検出することができる。スライディングウィンドウアルゴリズムは、畳み込みベースのアルゴリズムであることができる。

言い回し「歪みの数学的表現（ｍａｔｈｅｍａｔｉｃａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｔｈｅｄｉｓｔｏｒｔｉｏｎ）」は、本出願の文脈において、画像変換（ｉｍａｇｅｔｒａｎｓｆｏｒｍ）であって、直線的な画像に適用されると、歪み画像をもたらす画像変換の数学的記述として解釈されるべきである。上記で述べた歪みを、多項式、行列、またはルックアップテーブルとして数学的に表現することができることが理解される。例えば、数学的表現は、歪み画像を撮像するときに使用されるフィッシュアイレンズの伝達関数を記述する多項式／行列であることができる。ルックアップテーブルは、直線的（または無歪み）画像内の座標によって索引付けされる歪み画像内の座標を含むことができる、または、その逆も同様である。

本方法によって、スライディングウィンドウアルゴリズムは、第１の歪み画像などの歪み画像内の対象物を検出するために使用され得る。そのため、第１の歪み画像に関連する画像データは、スライディングウィンドウアルゴリズムを使用する対象物検出に先立って、変換／デワープされる必要がない。それにより、画像変換に関する計算コストは低減される。例えば、対象物検出に先立って曲線的画像を直線的画像に変換する必要性を、低減または完全になくすことができる。画像変換についての必要性を低減することは、それにより、そのような画像変換に関連するいずれの不必要な画像クロッピングも低減することができる。そのため、画像クロッピングによって除去されることになる領域内の画像特徴を、スライディングウィンドウアルゴリズム内に含むことができ、そのような領域内に存在する対象物を、それにより、検出することができる。

さらに、第１の歪み画像が変換／デワープされる必要がないため、第１の歪み画像に関連する画像データは補間される必要がない。それにより、スライディングウィンドウアルゴリズムに関連する計算コストを低減することができ、なぜならば、スライディングウィンドウアルゴリズムが、画像補間で生成される画像データを含む必要がないからである。撮像される画像に関連する画像データ内にまだ存在しない更なる情報を、補間される画像データは含まず、したがって、画像補間で生成される(generate)画像データをスライディングウィンドウアルゴリズムに含むことは、実際の画像情報の対応する増加なしで計算コストを増加させるだけである。

さらに、第１の歪み画像が変換される必要がないため、本方法は、画像処理パイプラインにおいて早期に実施され得る。画像処理パイプラインにおいて早期に、本方法を実施すること、それにより、対象物を検出することは、画像処理パイプラインにおける後続のステップを遅延させることなく画像処理パイプラインにおける後続のステップのための入力として、検出される対象物を使用することを可能にすることができ、それにより、画像処理パイプラインに関連するより短い処理時間を可能にする。例えば、検出される対象物を、画像処理パイプラインによって形成されるビデオストリームについてのエンコーダー設定を計算するための、および／または、画像処理パイプラインによって形成されるビデオストリームにおいて境界ボックスなどのオーバーレイを描画するための入力として使用することできる。画像処理パイプラインにおいて早期に対象物を検出することに関連するさらなる利点は、対象物を検出ためにだけ使用されるアナリティクスカメラについて、画像処理パイプラインにおける後続のステップが実施される必要がない場合があることである。そのため、アナリティクスカメラがビデオストリームを出力する必要性が全く存在しない場合があるため、アナリティクスカメラの電力消費は、それにより、低減される場合がある。

スライディングウィンドウを変換するステップは、スライディングウィンドウの特徴検出パターンを変更することを含むことができる。

言い回し「特徴検出パターン（ｆｅａｔｕｒｅｄｅｔｅｃｔｉｏｎｐａｔｔｅｒｎ）」は、本出願の文脈において、特定の特徴を検出するためにスライディングウィンドウアルゴリズムが使用するパターンとして解釈されるべきである。スライディングウィンドウアルゴリズムが複数の異なる特徴検出パターンを含むことができることが理解される。例えば、特徴検出パターンは、種々の角度を有する画像フレーム内で縁部を検出するために使用することができる。特徴検出パターンは、画像フレーム内で、人、人の特定の面、または、車、犬などのような他の対象物を検出するために使用することもできる。

特徴検出パターンを、スライディングウィンドウの位置における歪みの数学的表現の反転に基づいて変更することができる。

スライディングウィンドウの特徴検出パターンを変更する利点は、第１の歪み画像内の歪みあり特徴を検出することができることである。それにより、スライディングウィンドウアルゴリズムは、第１の歪み画像内の歪みあり対象物を検出することができる。

スライディングウィンドウの特徴検出パターンを変更するさらなる利点は、第１の歪み画像の空間分解能が第１の歪み画像にわたって変動する場合があるため、特徴検出パターンが、第１の歪み画像の空間分解能に適応することができることである。例えば、低い空間分解能の領域において、より粗い特徴検出パターンがスライディングウィンドウアルゴリズムにおいて使用され、それにより、スライディングウィンドウアルゴリズムに関連する計算コストを低減することができる。

言い回し「空間分解能（ｓｐａｔｉａｌｒｅｓｏｌｕｔｉｏｎ）」は、本出願の文脈において、画像フレームについての空間分解能として理解されるべきである。例えば、広角レンズを通して取得される、または、複数の画像フレームからスティッチングされる歪み画像において、画像の異なりエリアは異なる空間分解能を有する。換言すれば、画像フレームの同じサイズのエリアは、カメラの視野（ＦＯＶ：ｆｉｅｌｄｏｆｖｉｅｗ）の異なるサイズの角度をカバーする。空間分解能は、画像フレームについてピクセルレベルで使用することができる、または、ピクセルサブグループレベルで、例えば、マクロブロックレベルで決定され得る。空間分解能は、ＦＯＶ角度についてのピクセル数としてまたはピクセルについてのＦＯＶ角度の量として表現することができる。アプリケーションに応じてこれらの表現の間で交換する方法に当業者は情通している。例えば、本出願による方法の実装態様において、これらの表現のうちの１つの表現を使用するのが好まれる場合がある。空間分解能分布は、例えば、ピクセルについてまたはピクセルサブグループ、例えば、マクロブロックについての空間分解能分布を示すテーブルによって表すことができる。

スライディングウィンドウを変換するステップは、スライディングウィンドウのサイズを変更することを含むことができる。

スライディングウィンドウのサイズは、スライディングウィンドウの位置における歪みの数学的表現の反転に基づいて変更することができる。スライディングウィンドウの高さをスライディングウィンドウの幅と独立に変更することができることが理解される。

スライディングウィンドウのサイズを変更する利点は、第１の歪み画像の空間分解能が第１の歪み画像にわたって変動する場合があるため、スライディングウィンドウのサイズが、第１の歪み画像の空間分解能に適応することができることである。それにより、スライディングウィンドウのサイズに関連する計算コストを低減することができる。

方法は、変換されたスライディングウィンドウを畳み込みニューラルネットワークの第１の層のカーネルとして使用することをさらに含むことができる。

言い回し「畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）」は、本出願の文脈において、画像分類のために使用されるアルゴリズムとして解釈されるべきである。アルゴリズムは、対象物検出のために使用するのに先立って訓練することができる。この訓練は、特定の画像特徴に関連する畳み込みフィルターのデータベースをもたらす。畳み込みニューラルネットワークが対象物検出のために使用されると、複数の畳み込みが入力画像に対して実施され、複数の畳み込みにおける各畳み込みは異なる畳み込みフィルターを使用する。換言すれば、第１の層は、（変更されたカーネルを使用して）畳み込み演算を入力（画像フレームの画像データ）に適用し、その結果を次の層に渡す畳み込み層である。各畳み込みは、畳み込みフィルターに関連する画像特徴マップをもたらす。複数の畳み込みから得られる特徴マップは、その後、最終出力を形成するために使用される。最終出力は、その後、入力画像内の対象物を検出するために使用することができる。

変換されたスライディングウィンドウを畳み込みニューラルネットワークの第１の層のカーネルとしてすることに関連する利点は、第１の歪み画像の画像変換が必要とされない場合があることである。それにより、画像変換に関連する計算コストを低減することができる。

方法は、第１の歪み画像内の複数の位置の各位置について、変換されたスライディングウィンドウを記憶することをさらに含むことができる。

第１の歪み画像内の複数の位置の各位置について、変換されたスライディングウィンドウを記憶することに関連する利点は、変換されたスライディングウィンドウを後で使用することができることである。例えば、変換されたスライディングウィンドウは、画像処理パイプラインにおいて後でさらなる計算のために使用することができる。歪みが画像間で同じであるため、各画像フレームについてスライディングウィンドウの特徴検出パターンおよび／またはサイズを変更する必要性は全く存在しない。それにより、第１の歪み画像内の複数の位置の各位置について、変換されたスライディングウィンドウを記憶することは、第１の歪み画像と同じ方法で撮像された他の歪み画像内の対象物検出における、変換されたスライディングウィンドウの再使用を容易にし、そのことは、次に、複数の歪み画像における対象物検出に関連する計算時間および計算コストを減少させることができる。

変換されたスライディングウィンドウは、第１の歪み画像内の複数の位置の位置によって索引付けされるルックアップテーブルに記憶することができる。

第１の歪み画像内の複数の位置の位置によって索引付けされるルックアップテーブルに、変換されたスライディングウィンドウを記憶することに関連する利点は、それが、変換されたスライディングウィンドウの簡略化された取り出しを可能にし、それにより、関連する計算コストを低減することができることである。

方法が、複数の歪み画像に対して実施される場合、複数の歪み画像の各画像内の対象物の検出は、第１の歪み画像内の対象物検出のために使用される、変換されたスライディングウィンドウを使用することを含むことができる。

スライディングウィンドウの変換を、複数の歪み画像について１回実施することができることから、スライディングウィンドウが複数の歪み画像内の各歪み画像について変換される必要がないため、スライディングウィンドウの変換に関連する計算コストを低減することができる。

さらに、スライディングウィンドウの変換を、複数の歪み画像内の１つの歪み画像について実施することができるため、計算コストを、従来技術のシステムの場合と同様の複数の歪み画像内の各歪み画像の変換と比較して低減することができる。換言すれば、複数の歪み画像内の対象物検出に関連する計算コストを、本方法によって低減することができる。

方法は、複数の変換された画像を変換されたビデオストリームにエンコードすることをさらに含むことができる。

歪みは光学歪みを含むことができる。光学歪みは、樽型歪み、糸巻き型歪み、および／または陣笠型歪みを含むことができる。光学歪みは、撮像光学部品の光軸と画像センサの光軸との間のミスアライメントを含むことができる。光学歪みは接線歪みを含むことができる。

歪みは、画像データに適用される画像変換を含み、それにより、歪み画像を形成することができる。

画像変換は画像フィルターを含むことができる。画像変換は画像スティッチングを含むことができる。複数の１次画像を、パノラマ画像を形成するためにスティッチングすることができる。歪み画像は、形成されるパノラマ画像であることができる。形成されるパノラマ画像が画像スティッチングの結果として歪みあり特徴を含むことができることを当業者は認識する。

画像データに適用される画像変換を含み、それにより、歪み画像を形成する歪みに関連する利点は、画像データに関連する歪み画像が、対象物検出のためにスライディングウィンドウアルゴリズムを適用するのに先立ってフィルタリングすることができることである。それにより、画像データ内に存在する或る特徴を、対象物検出に先立って低減または除去することができる。

画像スティッチングを含む歪みに関連する利点は、それが、パノラマ画像内の対象物を検出することを本発明に可能にさせることである。

スライディングウィンドウを変換するステップはハードウェアにより実装されうる。例えば、特徴検出パターンの変更は、有利には、グラフィカル処理ユニット（ＧＰＵ：ｇｒａｐｈｉｃａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）などのハードウェアで実施することができる。

第２の態様によれば、コンピュータプログラム製品が提供される。コンピュータプログラム製品は、処理能力を有するデバイスによって実行されると、本方法を実施するように適合される命令を有するコンピュータ可読記憶媒体を備える。

コンピュータ可読記憶媒体は非一時的コンピュータ可読記憶媒体であることができる。

方法の上記で述べた特徴は、適用可能であるとき、この第２の態様にも適用される。不要な反復を避けるため、上記に対して参照が行われる。

第３の態様によれば、スライディングウィンドウアルゴリズムを使用して第１の歪み画像内の対象物を検出するために配置されたデバイスが提供される。デバイスは、第１の歪み画像を受信するために配置された画像受信機と；第１の歪み画像の歪みの数学的表現の反転を受信するために配置された歪み受信機と；少なくとも１つのプロセッサとを備え、少なくとも１つのプロセッサは：スライディングウィンドウを第１の歪み画像内の複数の位置にわたってスライドさせ、第１の歪み画像の複数の位置の各位置について：
その位置における歪みの数学的表現の反転に基づいてスライディングウィンドウを変換し；第１の歪み画像内の位置における対象物検出のために、スライディングウィンドウアルゴリズムにおいて、変換されたスライディングウィンドウを使用するために配置される。

方法および／またはコンピュータプログラム製品の上記で述べた特徴は、適用可能であるとき、この第３の態様にも適用される。不要な反復を避けるため、上記に対して参照が行われる。

デバイスは、歪み画像内の複数の位置の各位置について、変換されたスライディングウィンドウを記憶するために構成される非一時的記憶媒体をさらに備えることができる。

デバイスはカメラであることができる。

第４の態様によれば、スライディングウィンドウアルゴリズムを使用して歪み画像内の対象物を検出するために配置されたシステムが提供される。システムは、シーンの歪み画像を撮像するために配置されたカメラと；本デバイスとを備え、デバイスの画像受信機は、カメラによって撮像されるシーンの歪み画像を受信するために配置される。

方法、コンピュータプログラム製品、および／またはデバイスの上記で述べた特徴は、適用可能であるとき、この第４の態様にも適用される。不要な反復を避けるため、上記に対して参照が行われる。

本開示の適用可能性のさらなる範囲は、以下で示す詳細な説明から明らかになるであろう。しかしながら、詳細な説明および特定の例が、本発明の概念の好ましい変形を示しながら、例証としてのみ与えられることが理解されるべきであり、なぜならば、発明の概念の範囲内の種々の変更および修正が、この詳細な説明から当業者に明らかになることになるからである。

したがって、そのような方法およびシステムが変動する場合があるため、本発明の概念が、述べる方法の特定のステップまたは述べるシステムのコンポーネント部品に限定されないことが理解される。本明細書で使用される用語が、特定の実施形態を述べるためのものに過ぎず、制限的であることを意図されないことも理解される。本明細書および添付特許請求項で使用するとき、冠詞「１つの（ａ）」、「１つの（ａｎ）」、「その（ｔｈｅ）」、および「前記（ｓａｉｄ）」が、別途文脈が明確に指示しない限り、要素の１つまたは複数が存在することを意味することを意図されることが留意されなげればならない。そのため、例えば、「或るユニット（ａｕｎｉｔ）」または「そのユニット（ｔｈｅｕｎｉｔ）」に対する参照は、幾つかのデバイスまたは同様なものを含むことができる。さらに、言い回し「備えている（ｃｏｍｐｒｉｓｉｎｇ）」、「含んでいる（ｉｎｃｌｕｄｉｎｇ）」、「含んでいる（ｃｏｎｔａｉｎｉｎｇ）」、および同様の言い回しは、他の要素またはステップを排除しない。

本発明の上記のまた他の態様は、本発明の実施形態を示す添付図面を参照して、ここでより詳細に述べられる。図は、特定の実施形態に本発明を制限するものと考えられるべきではなく；代わりに、図は、本発明を説明し理解するために使用される。

図に示すように、層および領域のサイズは、例証のために誇張され、したがって、本発明の実施形態の一般的な構造を示すために提供される。同様の参照数字は、全体を通して同様の要素を指す。

スライディングウィンドウアルゴリズムを使用して歪み画像内の対象物を検出するために配置されたデバイスを示す図である。カメラを示す図である。まっすぐな線を含むシーンを示す図である。図２Ａのシーンの歪み画像を示す図である。特徴検出パターンおよび複数の変換されたスライディングウィンドウを示す図である。スライディングウィンドウアルゴリズムを使用する、第１の歪み画像内の対象物を検出するための方法のブロックスキームである。歪み画像内の対象物を検出するために配置されたシステムを示す図である。

本発明の概念は、ここで、発明の概念の現在のところ好ましい変更がそこに示される添付図面を参照して、以降でより完全に述べられることになる。しかしながら、本発明の概念は、多くの異なる形態で実装することができ、また、本明細書で述べる変更に限定されるものと解釈されるべきでなく；むしろ、これらの変更は、徹底性および完全性のために提供され、本発明の概念を当業者に完全に伝える。

特徴が画像内でワープされるため、歪み画像内の対象物を検出することが問題となる可能性がある。したがって、解決策は、対象物検出アルゴリズムを適用するのに先立って歪み画像をデワープすることである。デワーピングは、対象物検出アルゴリズムがそれについてうまく働く直線的に投影された画像に歪み画像を戻すプロセスである。しかしながら、デワーピングは、それ自体で、プロセッサに負荷をかけ、例えばプロセッサ内で、時間、電力、および帯域幅などの価値ある資源を同様に占有する計算上非常に重い演算である。さらに、デワーピングは、制限された資源であるカメラシステム内のスケーラーユニットに負荷をかけ、したがって、スケーラーに対するアクセスを同様に必要とする他のプロセスが損害を受ける場合がある。

スライディングウィンドウアルゴリズムにおいてスライディングウィンドウを変換することによって、歪み画像内で対象物を直接検出することができることを本発明者らは認識した。そのため、本発明の概念によって、対象物検出のためにスライディングウィンドウアルゴリズムを適用するのに先立って、歪み画像をデワープすることが必要でない。本発明の概念は、ここで、図１〜図４を参照して述べられる。

図１Ａ〜図１Ｂは、スライディングウィンドウアルゴリズムを使用して第１の歪み画像６００内の対象物を検出するために配置されたデバイス１００を示す。デバイスの機能は、ここで、図２Ａ〜図２Ｃと関連して説明される。

デバイス１００は画像受信機１０２を備える。画像受信機１０２は、第１の歪み画像（以下の図２Ｂを参照されたい、参照数字６００）を受信するために配置される。第１の歪み画像６００は、ビデオストリーム内のフレームであることができる。画像受信機１０２を、画像センサから画像データを受信するために配置することができる。画像受信機１０２は画像センサであることができる。

デバイス１００は歪み受信機１０４をさらに備える。歪み受信機１０４は、第１の歪み画像６００の歪みの数学的表現の反転を受信するために配置される。歪みは光学歪みを含むことができる。光学歪みは、コリメーターを使用して決定することができる。歪みは、既知の平面ターゲットの歪み画像に基づいて決定することができる。既知の平面ターゲットは、変動および／または反復パターンを含むことができる。例えば、既知の平面ターゲットは、既知の幾何形状の反復パターンを含むことができる。反復パターンは、チェスボード様パターンであることができる。

歪みは、画像データに適用される画像変換を含み、それにより、歪み画像を形成することができる。画像変換は、パノラマ画像を形成するための画像のスティッチングに関連することができる。幾つかの変形において、歪みは、光学歪みと、撮像された画像データに適用される画像変換の組み合わせである。

画像受信機１０２および歪み受信機１０４は単一受信機であることができる。

デバイス１００は少なくとも１つのプロセッサ１０６をさらに備える。少なくとも１つのプロセッサ１０６は、スライディングウィンドウ６２０を第１の歪み画像６００の複数の位置にわたってスライドさせ、第１の歪み画像６００内の複数の位置の各位置６３０、６３４、６３８について：位置６３０，６３４，６３８における歪みの数学的表現の反転に基づいてスライディングウィンドウ６２０を変換し；第１の歪み画像６００内の位置６３０、６３４、６３８における対象物検出のために、スライディングウィンドウアルゴリズムにおいて、変換されたスライディングウィンドウ７２０、７２４、７２８を使用するために配置される。

スライディングウィンドウ６２０は特徴検出パターン７００を含むことができる。複数の特徴検出パターン７００は、デバイス１００と通信状態にあるサーバー（図には示さず）から受信することができる、または、デバイス１００に記憶することができる。複数の特徴検出パターンは、訓練プロセスによって予め決定することができる。訓練プロセスは、関心の特徴を含む複数の画像を使用することができる。訓練プロセスは、関心の特徴を含まない複数の画像を使用することができる。例えば、訓練プロセスは、車を含む複数の画像および車を含まない複数の画像を使用することができる。

訓練プロセスは、関心の特徴に最もよく一致することになる畳み込みニューラルネットワーク（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）のためのカーネルを決定する最適化技法を含むことができる。ＣＮＮにおいて、第１の層は、常に、スライディングウィンドウアルゴリズムおよび規定されたカーネルのセットを使用する畳み込み層である。典型的なＣＮＮシナリオにおいて、各畳込み層は、それ自身の畳み込みカーネルのセットを有し、その畳み込みカーネルのセットについて、重みが、ＣＮＮの対象物（関心の特徴、例えば、車、人間など）検出シナリオに基づいて訓練されるべきである。上記で述べたように、歪み画像について、規定されたカーネルは、常に十分であるわけではない。本明細書で述べる発明の概念を使用して、特徴検出パターンおよび／またはＣＮＮの畳み込み層のカーネルのセットのサイズは、歪の数学的表現の反転および歪み画像内の位置に基づいて変更することができる。その結果、歪み画像を、ＣＮＮに対する入力として使用することができ、ＣＮＮのカーネル、特に、第１の層の、しかし、さらに／代替的に同様に、ＣＮＮの他の畳み込み層のカーネルを、代わりに変更することができる。

少なくとも１つのプロセッサ１０６は、パノラマ画像を形成するために、例えばカメラの画像センサから受信される画像をスティッチングするためにさらに配置することができる。第１の歪み画像６００は、形成されるパノラマ画像であることができる。

デバイス１００は、図１Ａに例示するように非一時的記憶媒体１０８をさらに備えることができる。非一時的記憶媒体１０８は、第１の歪み画像６００内の複数の位置の各位置６３０、６３４、６３８について、変換されたスライディングウィンドウ７２０、７２４、７２８を記憶するために構成することができる。非一時的記憶媒体１０８は、画像受信機１０２によって受信される歪み画像を記憶するようにさらに構成することができる。非一時的記憶媒体１０８は、特定のカメラおよび／またはカメラモデルに関連する歪みおよび／または歪みの反転を記憶するようにさらに構成することができる。歪みが記憶媒体１０８に記憶される場合、少なくとも１つのプロセッサ１０６は、歪みの反転を計算するために使用することができる。非一時的記憶媒体１０８は、複数の特徴検出パターンを記憶するようにさらに構成することができる。

デバイス１００は、図１Ａに例示するようにエンコーダー１１０をさらに備えることができる。エンコーダー１１０は、変換された画像をさらなるビデオストリームにエンコードするために配置することができる。非一時的記憶媒体１０８は、さらなるビデオストリームを記憶するようにさらに構成することができる。

デバイス１００は、図１Ａに例示するようにデータバス１１２を備えることができる。画像受信機１０２、歪み受信機１０４、少なくとも１つのプロセッサ１０６、非一時的記憶媒体１０８、および／またはエンコーダー１１０はデータバス１１２を介して通信することができる。

デバイス１００は、図１Ｂに例示するようにカメラ２００であることができる。カメラ２００は、図１Ｂに例示するように光学部品２０２を備えることができる。光学部品２０２は撮像光学部品であることができる。撮像光学部品はカメラ対物レンズであることができる。光学部品はシーン５００を撮像することができる。デバイス１００はシーン５００のパノラマ画像を生成するために配置することができる。少なくとも１つのプロセッサ１０６は、シーン５００のパノラマ画像を形成するため画像をスティッチングするためにさらに配置することができる。

本発明の概念は、ここで、図２Ａ〜図２Ｃを参照してさらに述べられる。図２Ａは、複数のまっすぐな線５１０、５１２、５１４、５１６、５１８を含むシーン５００を示す。シーン５００の直線的な画像は、まっすぐな線５１０、５１２、５１４、５１６、５１８を再生することになる。しかしながら、画像は、しばしば歪み、そのことは、図２Ｂにおいて樽型歪みとして例示される。図２Ｂは、図２Ａのシーン５００の歪み画像６００を示す。図２Ｂに例示するように、シーン５００内のまっすぐな線５１０、５１２、５１４、５１６、５１８は、歪み画像６００内で屈曲線６１０、６１２、６１４、６１６、６１８として現れる。歪み画像６００において例示するように、歪みは歪み画像６００にわたって変動する。例えば、歪み画像６００の中心の近くで、シーン５００内のまっすぐな線５１４は歪み画像６００内のまっすぐな線６１４として撮像される。歪み画像６００の縁部の近くで、シーン５００内のまっすぐな線５１０、５１８は歪み画像６００内の屈曲線６１０、６１８として撮像される。換言すれば、図２Ｂに例示する歪みの場合、歪みは、歪み画像６００の中心において小さく、歪み画像６００の縁部に向かって大きい。そのため、歪みの程度および形状は、歪み自身および歪み画像６００内の位置６３０、６３４、６３８に依存する。

図２Ｂにおいて、スライディングウィンドウ６２０が示される。歪み画像６００内の特徴を正確に識別するため、特徴検出パターン７００は、歪みの反転および歪み画像６００内の位置６３０、６３４、６３８に基づいて変更することができる。図２Ｃに示す例において、特徴検出パターン７００はまっすぐな線に関連する。特徴検出パターン７００を歪み画像６００に直接適用することは、例えば、歪み画像６００内の第１の位置６３０および第３の位置６３８におけるまっすぐな線に関する特徴を正確に検出することができないことになる。しかしながら、特徴検出パターン７００を歪み画像６００に直接適用することは、例えば、歪み画像６００内の第２の位置６３４におけるまっすぐな線に関する特徴を正確に検出することになる。そのため、スライディングウィンドウアルゴリズムが特徴検出パターン７００に関する特徴を正確に識別するために、スライディングウィンドウ６２０は、歪み画像６００内の各位置６３０、６３４、６３８についての歪の反転に基づいて変換することができる。これは、歪み画像６００内の３つの異なる位置６３０、６３４、６３８について、図２Ｃの変更された特徴検出パターンを含む３つの変換されたスライディングウィンドウ７２０、７２４、７２８によって例示される。それにより、スライディングウィンドウアルゴリズムにおける変換されたスライディングウィンドウ７２０、７２４、７２８を歪み画像６００に適用することは、歪み画像６００内の各位置６３０、６３４、６３８についての特徴検出パターン７００に関する特徴を正確に識別することになる。

図２Ａに示すシーン５００内のまっすぐな線５１０、５１２、５１４、５１６、５１８、図２Ｂの光学歪み、および図２Ｃの特徴検出パターン７００が例に過ぎないこと、および、それらが、本発明の概念を説明するためにここで使用されることが理解される。本発明の概念が、異なる画像特徴、例えば、現実世界の対象物、および、異なる歪み、例えば、糸巻き型歪み、陣笠型歪み、および／または画像スティッチングを使用して説明することができることが理解される。

図３は、スライディングウィンドウアルゴリズムを使用する、第１の歪み画像６００内の対象物を検出するための方法Ｓ３００のブロックスキームである。方法Ｓ３００は、第１の歪み画像６００の歪みの数学的表現の反転を受信することＳ３０２を含む。

歪みは光学歪みを含むことができる。光学歪みは、樽型歪み、糸巻き型歪み、および／または陣笠型歪みを含むことができる。光学歪みは、撮像光学部品の光軸と画像センサの光軸との間のミスアライメントを含むことができる。

歪みは、画像データに適用される画像変換を含み、それにより、歪み画像を形成することができる。画像変換は画像スティッチングを含むことができる。画像スティッチングは、パノラマ画像を形成するために複数の１次画像をスティッチングすることができる。歪み画像はパノラマ画像であることができる。

歪み画像が、光学歪みおよび画像データに適用される画像変換を含むことができることが理解される。

対象物の検出は、スライディングウィンドウ６２０を、第１の歪み画像６００にわたってスライドさせることＳ３０４、ならびに、第１の歪み画像６００内の複数の位置の各位置６３０、６３４、６３８について：位置６３０、６３４、６３８における歪みの数学的表現の反転に基づいてスライディングウィンドウ６２０を変換することＳ３０６；および、第１の歪み画像６００内の位置６３０、６３４、６３８における対象物検出のために、スライディングウィンドウアルゴリズムにおいて、変換されたスライディングウィンドウ７２０、７２４、７２８を使用することＳ３０８を含む。

スライディングウィンドウ６２０を変換するステップＳ３０６は、スライディングウィンドウ６２０の特徴検出パターン７００を変更することＳ３１０を含むことができる。

スライディングウィンドウ６２０を変換するステップＳ３０６は、スライディングウィンドウ６２０のサイズを変更することＳ３１２を含むことができる。

スライディングウィンドウ６２０を変換するステップＳ３０６は、ハードウェア実装式であることができる。スライディングウィンドウ６２０を変換するステップＳ３０６は、特定用途向け集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎ−ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）に実装することができる。スライディングウィンドウ６２０を変換するステップＳ３０６は、他の変形において、デバイス１００の少なくとも１つのプロセッサ１０６内のソフトウェアに実装することができる。

変換されたスライディングウィンドウ７２０、７２４、７２８は、第１の歪み画像６００内の複数の位置の位置６３０、６３４、６３８によって索引付けされるルックアップテーブルに記憶することができる。

方法Ｓ３００は、変換されたスライディングウィンドウ７２０、７２４、７２８を畳み込みニューラルネットワークの第１の層のカーネルとして使用することをさらに含むことができる。

方法Ｓ３００は、変換されたスライディングウィンドウ７２０、７２４、７２８を、第１の歪み画像６００内の複数の位置の各位置６３０、６３４、６３８について記憶することＳ３１６をさらに含むことができる。

方法Ｓ３００が複数の歪み画像に対して実施される場合、複数の歪み画像の各画像における対象物の検出は、第１の歪み画像６００内の対象物検出のために使用される、変換されたスライディングウィンドウ７２０、７２４、７２８を使用することを含むことができる。複数の歪み画像はビデオストリームであることができる。方法Ｓ３００は、複数の変換された画像を、変換されたビデオストリームにエンコードすることをさらに含むことができる。

図４は、スライディングウィンドウアルゴリズムを使用して歪み画像内の対象物を検出するために配置されたシステム８００を示す。システム８００は、シーン５００の歪み画像を撮像するために配置されたカメラ８１０と；本デバイス１００とを備え、デバイス１００の画像受信機１０２は、カメラ８１０によって撮像されるシーン５００（図２Ａ）の歪み画像を受信するために配置される。カメラ８１０は撮像光学部品８１２を備えることができる。デバイス１００の画像受信機１０２は、有線または無線通信インターフェースを介してシーン５００の歪み画像を受信するために配置することができる。歪み画像は第１の歪み画像６００であることができる。システム８００は、シーン５００のパノラマ画像を生成するために配置された複数のカメラを備えることができる。システム８００は単一組み立て体に搭載することができる。

本発明の概念が、上記で述べる好ましい変形に決して限定されないことを当業者は認識する。逆に、多くの修正および変形が、添付特許請求項の範囲内で可能である。

さらに、開示される変形に対する変形が、図面、開示、および添付特許請求項の調査から、特許請求される発明を実施するときに、当業者によって理解され、もたらされ得る。

上記で開示されるシステムおよび方法は、ソフトウェア、ファームウェア、ハードウェア、またはその組み合わせとして実装することができる。ハードウェア実装態様において、上記説明において参照される機能ユニット間のタスクの分割は、物理ユニットへの分割に必ずしも対応せず；逆に、１つの物理コンポーネントは複数の機能を有することができ、１つのタスクは幾つかの物理コンポーネントによって協働して実施することができる。或るコンポーネントまたは全てのコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装することができる、あるいは、ハードウェアとしてまたは特定用途向け集積回路として実装することができる。例えば、スライディングウィンドウの変換は、ＧＰＵまたは特定用途向け集積回路、ＡＳＩＣに実装することができ、一方、変換されたスライディングウィンドウによってスライディングウィンドウアルゴリズムを実行することは、デバイスの中央処理ユニット、ＣＰＵ（：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）上で実行されるソフトウェアに実装することができる。

Claims

スライディングウィンドウアルゴリズムを使用して第１の歪み画像（６００）内の対象物を検出するための方法（Ｓ３００）であって：
前記第１の歪み画像（６００）の歪みの数学的表現の反転を受信すること（Ｓ３０２）を含み；
対象物の検出は、特徴検出パターン（７００）を含むスライディングウィンドウ（６２０）を、前記第１の歪み画像（６００）にわたってスライドさせること（Ｓ３０４）、ならびに、前記第１の歪み画像（６００）内の複数の位置の各位置（６３０，６３４，６３８）について：
前記位置（６３０，６３４，６３８）における前記歪みの前記数学的表現の前記反転に基づいて前記スライディングウィンドウ（６２０）を変換すること（Ｓ３０６）であって、前記スライディングウィンドウ（６２０）を変換する前記ステップ（Ｓ３０６）は、前記変換されたスライディングウィンドウ（７２０，７２４，７２６）の前記特徴検出パターンの得られる歪みが、前記位置における前記第１の歪み画像（６００）の前記歪みに対応するように、前記スライディングウィンドウ（６２０）の前記特徴検出パターン（７００）を変更すること（Ｓ３１０）を含む、変換すること（Ｓ３０６）；および、
前記スライディングウィンドウアルゴリズムにおいて、前記変更された特徴検出パターンを含む前記変換されたスライディングウィンドウ（７２０，７２４，７２８）を使用すること（Ｓ３０８）
を含む、方法（Ｓ３００）。
前記スライディングウィンドウ（６２０）を変換する前記ステップ（Ｓ３０６）は、前記スライディングウィンドウ（６２０）のサイズを変更すること（Ｓ３１２）を含む、請求項１に記載の方法（Ｓ３００）。
前記第１の歪み画像（６００）内の前記複数の位置の各位置（６３０，６３４，６３８）について、前記変換されたスライディングウィンドウ（７２０，７２４，７２８）を記憶すること（Ｓ３１６）をさらに含む、請求項１または２に記載の方法（Ｓ３００）。
前記変換されたスライディングウィンドウ（７２０，７２４，７２８）は、前記第１の歪み画像（６００）内の前記複数の位置の前記位置（６３０，６３４，６３８）によって索引付けされるルックアップテーブル内に記憶される、請求項３に記載の方法（Ｓ３００）。
複数の歪み画像のそれぞれにおける対象物の検出は、前記第１の歪み画像（６００）における対象物検出のために使用される前記変換されたスライディングウィンドウ（７２０，７２４，７２８）を使用することを含む、複数の歪み画像に対して実施される請求項３または４に記載の方法（Ｓ３００）。
前記歪みは光学歪みを含む、請求項１〜５のいずれか１項に記載の方法（Ｓ３００）。
前記歪みは、画像データに適用される画像変換を含み、それにより、前記歪み画像を形成する、請求項１〜６のいずれか１項に記載の方法（Ｓ３００）。
前記スライディングウィンドウ（６２０）を変換する前記ステップはハードウェアにより実装される、請求項１〜７いずれか１項に記載の方法（Ｓ３００）。
処理能力を有するデバイスによって実行されると、請求項１の方法（Ｓ３００）を実施するように適合される命令を有する非一時的コンピュータ可読記憶媒体を備えるコンピュータプログラム製品。
スライディングウィンドウアルゴリズムを使用して第１の歪み画像（６００）内の対象物を検出するために配置されたデバイス（１００）であって：
前記第１の歪み画像（６００）を受信するために配置された画像受信機（１０２）と；
前記第１の歪み画像（６００）の歪みの数学的表現の反転を受信するために配置された歪み受信機（１０４）と；
少なくとも１つのプロセッサ（１０６）とを備え、前記少なくとも１つのプロセッサ（１０６）は：
特徴検出パターン（７００）を含むスライディングウィンドウ（６２０）を、前記第１の歪み画像（６００）の複数の位置にわたってスライドさせ、前記第１の歪み画像（６００）内の複数の位置の各位置（６３０，６３４，６３８）について：
前記位置（６３０，６３４，６３８）における前記歪みの前記数学的表現の前記反転に基づいて前記スライディングウィンドウ（６２０）を変換し、前記スライディングウィンドウ（６２０）を変換する前記ステップ（Ｓ３０６）は、前記変換されたスライディングウィンドウ（８２０，７２４，７２６）の前記特徴検出パターンの得られる歪みが、前記第１の歪み画像（６００）の前記歪みに対応するように、前記スライディングウィンドウ（６２０）の前記特徴検出パターン（７００）を変更し；
前記第１の歪み画像（６００）内の前記位置（６３０，６３４，６３８）における対象物検出のために、前記スライディングウィンドウアルゴリズムにおいて、前記変更された特徴検出パターンを含む前記変換されたスライディングウィンドウ（７２０，７２４，７２８）を使用する
ために配置される、デバイス（１００）。
前記歪み画像（６００）内の前記複数の位置の各位置（６３０，６３４，６３８）について、前記変換されたスライディングウィンドウ（７２０，７２４，７２８）を記憶するために構成される非一時的記憶媒体（１０８）をさらに備える、請求項１０に記載のデバイス（１００）。
前記デバイス（１００）はカメラ（２００）である、請求項１０または１１に記載のデバイス（１００）。
スライディングウィンドウアルゴリズムを使用して歪み画像内の対象物を検出するために配置されたシステム（８００）であって：
シーン（５００）の歪み画像を撮像するために配置されたカメラ（８１０）と；
請求項１０または１１に記載のデバイス（１００）とを備え、
前記デバイス（１００）の前記画像受信機（１０２）は、前記カメラ（８１０）によって撮像される前記シーン（５００）の前記歪み画像を受信するために配置される、システム（８００）。