JP4991923B2

JP4991923B2 - 画像処理方法及び装置

Info

Publication number: JP4991923B2
Application number: JP2010225161A
Authority: JP
Inventors: ヴェンドリッグジェローン; ヴァンデンヘンゲルアントン; ディックアンソニー
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2006-12-22
Filing date: 2010-10-04
Publication date: 2012-08-08
Anticipated expiration: 2027-12-25
Also published as: US20080152236A1; AU2006252252B2; JP4653155B2; JP2008165792A; US8374440B2; AU2006252252A1; JP2011054183A

Description

本発明は、一般にビデオ処理に関し、特に、ビデオにおいて前景を背景から分離することに関する。

現在、パン・チルト・ズーム（ＰＴＺ）カメラ等のビデオカメラは、主に監視の目的で普及している。カメラは、人間の目が処理できるより多くのデータ（ビデオコンテンツ）を取り込む。従って、ビデオコンテンツの自動解析が必要とされる。

ビデオコンテンツの処理における重要なステップは、ビデオデータを前景と背景とに分割することである。そのような分割により、特定の前景オブジェクトの検出又は動いているオブジェクトの追跡等の更なる解析が可能になる。そのような更なる解析の結果として、例えば警備員に警告を与えてもよい。

自動解析は、更にＰＴＺカメラに関連している。ＰＴＺカメラは、事前に設定された向き又は観察されたビデオコンテンツに基づいて人間の介入なしで視界を変更してもよい。例えば、歩いている人を追跡する場合、カメラはその人が視界に入るようにパンしてもよい。

前景／背景分割の一般的な方法は背景差分である。例えば、或るシーンの或る位置に対する中央の画素値（median pixel value）はその位置における現在の画素値と比較されてもよい。現在の画素値が中央の画素値と近似する場合、画素は背景に属すると考えられ、現在の画素値が近似値しない場合、その画素は前景オブジェクトに属すると考えられる。そのような方法に対する課題は、近似性を規定することである。機械学習の分野の技術は十分なトレーニングデータの可用性に依存するため、その課題を解決するためにそのような技術をすぐに適用することはできない。トレーニングデータを生成するには、多くの人的資源が必要である。

従来技術において、更に複雑な背景モデリング方法が周知であるが、それら方法は計算費用が高く、また、必要とされる記憶容量のため、それら方法をカメラ等のデバイスに組み込むことができない。

本発明の目的は、既存の構成の１つ以上の欠点を実質的に克服するか又は少なくとも改善することである。

また、本開示の第１の面によると、要素を含むフレームからトレーニング例を選択する方法が提供される。この方法は以下のステップを有する：
・フレームのセットから前記フレームの各位置に対してモデルを作成するステップ；
・複数の種類のうちの１つに属することが確実である要素の選択をユーザから受信するステップ；
・前記要素と前記モデルの差分に基づいて、前記要素について前記モデルの種類に属する尤度を算出するとともに、前記要素を分類するステップ；
・少なくともトレーニング例として、前記選択から除外された要素のうち、前記分類ステップで前記複数の種類のいずれかに分類され、かつ、その種類に正確に分類された尤度が低い要素を、前記算出された尤度に基づいて選択するステップ。

本開示の別の面によると、上述の方法を実現する装置が提供される。

本発明の他の面が更に開示される。

前景オブジェクト又は背景を表すフレームの領域に現れる視覚的要素を分離する方法を概略的に示すフローチャートである。図１の方法において使用するためにトレーニング例を選択する方法を概略的に示すフローチャートである。視覚的要素が前景オブジェクトを表す予想される尤度の尺度を示す図である。ユーザが背景領域を指定する方法を示す図である。トレーニング例を選択するための空間関係の用途を示す図である。図１及び図２の方法が実現されるカメラを示す概略ブロック図である。図１の分類段階を示すデータフロー図である。

カメラは、カメラの視界に現れる視覚的コンテンツを表すビデオフレームを取り込むために使用される。パン・チルトカメラの場合、カメラの姿勢（orientation)は、その視界を変えることができる。従って、カメラは、カメラの視界より大きなシーンのビデオフレームを取り込める。

カメラにより取り込まれた各フレームは、２つ以上の視覚的要素を含む。視覚的要素は、画像サンプルとして規定されてもよい。一実施形態において、視覚的要素は赤色／緑色／青色（ＲＧＢ）画素等の画素である。別の実施形態において、各視覚的要素は画素のグループを含む。

更に別の実施形態において、視覚的要素は、モーションＪＰＥＧフレームを復号化することにより取得される離散コサイン変換（ＤＣＴ）係数、又はＪＰＥＧ２０００規格において使用される離散ウェーブレット変換（ＤＷＴ）係数等の８×８のブロックの変換係数である。

ビデオフレームに現れる視覚的要素を前景と背景とに分離することは、ある時点において取り込まれた視覚的要素を異なる時間に取り込まれたそのシーンの同一の場所の視覚的要素と比較することにより達成できる。

実際には、前景／背景の分離は、フレームに対して、又はフレームの領域に対して実行される。そのような領域は、ドメインに関する知識を使用して識別される。例えば処理能力及びエネルギー消費を節約するため、ユーザは、前景／背景の分離がシーンの一部分に対して実行されないように指定してもよい。そのように除外する理由は、シーンの一部分のみが限定された領域であり、他の部分が公開された空間だからである。

背景モデルは、異なる時間に取り込まれたシーン内の視覚的要素を表すために使用される。背景モデルは、シーンにおいて可視の非過渡的な部分の表現である。従って、背景モデルは、前景オブジェクトを含まないシーンを記述する。単純な例において、第１のフレームは背景モデルとして使用されてもよい。フレームが前景オブジェクトを含まない場合、第１のフレームはシーンにおいて可視の非過渡的な部分の表現であるため、その第１のフレームは正確な背景モデルである。しかし、第１のフレームを背景モデルとして使用することは、シーン内の漸進的な変化及び照明効果に対してロバストでない。更に、第１のフレームが前景オブジェクトを含まないという仮定は、一般に現実的ではない。パン・チルトカメラの場合、第１のフレームはシーン全体をカバーしていない。

背景をモデリングする更に適切な方法は、シーンを表すデータの統計関数を使用することである。一実施形態において、データの平均値又は中央値等のフレームデータの統計関数から得られる定数は、背景モデルを構成するために使用される。従って、背景モデルの視覚的要素は、Ｒ＝１００、Ｇ＝１５０、Ｂ＝２００、又は輝度＝１２３．４５の定数、あるいは変換係数｛−５０，２８，７６，３８｝を有してもよい。

背景モデルのチャネル又は係数に対する個々の値は、個別に算出されてもよい。すなわち、背景モデルの視覚的要素の全体的な表現は、統計関数に対する入力として使用される履歴中の１つの特定の視覚的要素に関連しなくてもよい。

別の実施形態において、分布は背景モデルの視覚的要素毎に算出される。例えば、カラーチャネル又は変換係数の平均値は、その標準偏差と共に使用されてもよい。これにより、平均値と異なるが十分に近似する値である観察された値が背景モデルに属すると考えられるため、視覚的要素のより動的な解釈が可能になる。更に別の実施形態において、背景はマルチモーダルであってもよい。オン又はオフになるエレベータの照明の場合を考慮する。そのような場合、平均／標準偏差の組合せが照明の「オン」状態を表すために使用され、別の組合せが照明の「オフ」状態を表すために使用される。

全ての場合において、背景は異なる視覚的特性を有してモデリングされる。更に別の実施形態において、全ての視覚的コンテンツ（前景を含む）は背景モデルにモデリングされ、その後、前景を表すと考えられる視覚的要素及び背景を表すと考えられるコンテンツをその背景モデルに基づいて決定する。各分布の標準偏差は、例えばその決定を行なうために使用されてもよく、閾値より大きい標準偏差を有する視覚的要素は前景を表すと考えられる。残りの視覚的要素は、背景を表すと考えられる。

背景モデルが単一のフレームの期間を超える寿命を有するため及び背景モデルが現在の視界のみではなくシーン全体を範囲に含むため、背景モデルによりモデリングされたシーンの部分は背景面（background plane）と呼ばれる。フレームの各視覚的要素は、背景面における位置に対応する。

背景モデリング及び背景差分の概念は、当該技術において研究されてきた。重要な問題の１つは、視覚的要素が前景を表すと考えられるまでにそのような要素がモデルから離れられる範囲の閾値を設定することである。視覚的要素が１つの特徴、例えば強度、によりモデリングされる場合、適切な閾値を見つける問題は試行錯誤して解決される。しかし、正確な背景モデリングのためには、更なる特徴が必要とされる。例えば、８×８のＤＣＴブロックの係数である視覚的要素の場合、６４個の特徴（ＡＣ及びＤＣ係数）が入手可能である。実際に全ての特徴が使用される必要はないが、１２個等の入手可能な特徴の小さなサブセットを使用する場合でも、次元数及び可能な干渉は大きすぎるため単に試行錯誤して解決されるものではない。一般に機械学習法と呼ばれる多次元分類器が必要とされる。サポートベクトルマシン(Support Vector Machines）、ｋ最近傍法又はニューラルネットワーク等の多次元分類器は、高次元特徴空間に対する問題に成功裏に適用されてきた。機械学習法は、種類の例から抽出された種類の特性に関する知識を含むモデルを生成する。前景／背景の分離の問題に適用される場合、それら種類は「前景」及び「背景」である。

前景を背景から分離するために、メモリ使用量の少ない計算効率のよい方法を使用するのが望ましい。このため、入力フレームと背景モデルとの差分の複雑な解釈を含む単純な背景モデルが使用される。画素のブロックを視覚的要素として使用し且つブロックの変換係数を背景モデルに対する特徴として使用することにより、特に変換係数の更なる復号化が必要ないことを意味する場合に高速処理が可能になる。しかし、それは、実際には最大６４次元である高次元特徴空間がサポートされる必要があることを意味する。

単純な背景モデルが高速であり且つメモリ効率がよくても、その従来の使用方法において、単純な背景モデルは、メモリ使用量が多く且つ計算費用が高い背景モデルより精度は低い。本開示において使用される入力フレームと背景モデルとの差分の複雑な解釈により、背景からの前景の分離の精度が高めるため、その結果の品質は最も複雑な背景モデルを使用することにより得られる品質と同等である。差分の解釈は複雑であるものの、以下に詳細に説明するように、差分の解釈の実行は計算上非常に効率がよい。

多次元分類方式は、機械学習モデルを作成するトレーニング段階及び機械学習モデルを使用する分類段階の２つの段階を必要とする。本開示において、トレーニング段階は事前に実行される。トレーニング段階はトレーニングシーンに対して一旦は実行されるのが好ましく、作成された機械学習モデルは、分類段階が実行される多くのシステムに、例えばカメラのメモリチップ又はコンパクトディスク上に提供されてもよい。トレーニングシーンは、分類されるシーンに関連付けられる必要はない。例えば、トレーニングシーンはオフィスであってもよく、分類されるシーンは家の中であってもよい。

別の実施形態において、トレーニング段階は、分類段階が実行されるシーンに対して実行されるため、機械学習モデルを作成するのに使用されるトレーニング例はシーンの特性を適切に反映する。

先ず多次元分類器を説明し、その後で、多次元分類器をトレーニングするために使用する例を選択する方法を説明する。

図１は、前景又は背景を表すフレーム１６０の領域に現れる視覚的要素を分離する方法１００を概略的に示すフローチャートである。方法１００は、トレーニング段階１０５及び分類段階１０６を含む。

分類段階１０６は、カメラにおいて実行されるのが好ましい。また、トレーニング段階１０５については、カメラにおいて実行されてもよく、あるいはカメラにリンクされるパーソナルコンピュータにより実行されてもよい。図６は、分類段階１０６及びトレーニング段階１０５が実現されるカメラ６００を示す概略ブロック図である。段階１０５及び１０６は、カメラ６００内で実行可能なソフトウェアとして実現される。

カメラ６００は、カメラモジュール６０１、パン／チルトモジュール６０３及びレンズシステム６１４により形成されるパン・チルト・ズームカメラ（ＰＴＺ）である。通常、カメラモジュール６０１は、少なくとも１つのプロセッサユニット６０５、メモリユニット６０６、光電センサアレイ６１５、光電センサアレイ６１５に結合する入出力（Ｉ／Ｏ）インタフェース６０７、通信網６２０に結合する入出力（Ｉ／Ｏ）インタフェース６０８、並びにパン／チルトモジュール６０３及びレンズシステム６１４に対するインタフェース６１３を含む。一般に、カメラモジュール６０１の構成要素６０５〜６１３は、当業者には周知の従来の動作モードを結果として与える方法で相互接続バス６０４を介して通信する。

パン／チルトモジュール６０３は、カメラモジュール６０１からの信号に応答して垂直軸及び水平軸に関してカメラモジュール６０１を移動するサーボモータを含む。また、レンズシステム６１４は、カメラモジュール６０１からの信号に応答してレンズシステム６１４の焦点距離を変更するサーボモータを含む。

機械学習モデルは、トレーニング段階１０５を実行するカメラと、分類段階１０６を実行するカメラとの間で通信網６２０を介して通信されてもよく、あるいは記憶媒体を介して転送されてもよい。

方法１００のトレーニング段階１０５において、トレーニング例１１０はサポートベクトルマシン等の多次元分類器１２０に供給され、多次元分類器１２０は機械学習モデル１３０を作成する。実質的には、機械学習モデル１３０は、視覚的要素の特徴から「背景」又は「前景」等のラベルへのマッピングである。

分類段階１０６において、カメラ６００により取り込まれた一連のフレーム又はフレームのセット１４０は、要素の特徴に適用された統計関数に基づいて、背景モデリングステップ１４５における背景モデル１５０を作成するために使用される。一実現例において、要素の特徴は一連のフレーム又はフレームのセット１４０にわたり平均化され、背景モデル１５０を得る。取り込まれたフレーム１６０の領域は、前景／背景の分離のため、カメラ６００に提供される。ステップ１７０において、取り込まれたフレーム１６０の領域に現れる各視覚的要素の特徴と背景モデル１５０の対応する特徴との差分基準が計算される。差分基準は、取り込まれたフレーム１６０の領域の視覚的要素と背景面の対応する位置における背景モデル１５０との相関性を表す。

ステップ１８０において、前景／背景の分離は、ステップ１７０で算出された特徴値に基づいて実行される。特徴値は、機械学習モデル１３０に対する入力として使用され、ラベルは、取り込まれたフレーム１６０の領域の視覚的要素毎に出力される。１つの構成において、ラベルは、視覚的要素が前景に属するか否かを示す。

図７において、分類段階１０６を更に詳細に説明する。フレーム７１０が取り込まれ、減算モジュール７３０に提供される。フレーム７１０と同一シーンで取り込まれたフレームのセットから生成される背景モデル７２０が、減算モジュール７３０に更に提供される。減算モジュール７３０は、フレーム７１０を背景モデル７２０から減算する。例えば、フレーム７３０及び背景モデル７２０が８×８のブロックに対するＤＣＴ係数として表される場合、減算モジュール７３０の結果は、ブロック毎に複数の係数差分となる。すなわち、結果は多次元差分７４０である。多次元差分は分類モジュール７５０に適用され、８×８のブロックに対してスカラー差分７６０を生成する。これは、機械学習モデル７５５から得られるトレーニングサンプルに対してトレーニングされるサポートベクトルマシン又はナイーブベイズ法等の分類器を多次元差分７４０に適用することにより行なわれる。分類器７５０はスカラー差分７６０を生成し、スカラー差分７６０は閾値処理モジュール７７０により閾値処理される。モジュール７７０において、負数を有する全てのブロックは背景であると考えられ、正数を有する全てのブロックは前景であると考えられる。閾値処理モジュール７７０の結果、前景／背景分割７８０が行なわれる。

通常、取り込まれたフレーム７１０は、背景モデル７２０を更新するために使用される。しかし、前景オブジェクトは無作為に背景の一部となることはない。分割の結果７８０は、前景オブジェクトが背景モデル７２０に吸収される影響を防止又は減少するために使用されてもよい。このために、背景モデル更新モジュール７９０は、取り込まれたフレーム７１０及び分割の結果７８０を入力として受け入れるために及び背景モデル７２０を選択的に更新するために使用されてもよい。

別の構成において、単一の値がステップ１８０から出力される。その値は、ラベルを予測するために使用されるだけでなく、その予測が正確であるという方法１００の信頼度の指標である。閾値が２値分類の結果の値に適用され、視覚的要素は前景ラベル又は背景ラベルを割り当てられる。方法１００はステップ１９０において終了する。ステップ１７０及び１８０は、他のフレームに対して又は取り込まれた同一フレーム１６０の別の領域に対して繰り返されてもよい。

方法１００等の多次元分類方式は、機械学習モデル１３０を作成するためにトレーニング例１１０を必要とする。多次元分類方式に対してトレーニング例を選択することは時間のかかるタスクである。概念的には、フレームの各視覚的要素が正確なラベル、すなわちこの例では「背景」又は「前景」を割り当てられる。概念的には、種々の場所からの種々のコンテンツを含む多くのフレームは、機械学習モデル１３０を正常にトレーニングするために使用される必要がある。一般に、トレーニング例１１０の数が多いほど、結果として得られる機械学習モデル１３０はより正確になる。

しかし実際には、特にカメラ６００が動作するサイトでコンテンツが取得される場合、正確なラベルを生成するのに必要とされる人間の労力の犠牲は大きく、現実的には実現不可能である。

十分な数のトレーニング例１１０を提供するというその問題に対処するために、機械学習モデル１３０をトレーニングする目的で、簡単な人的入力は、容易に構成される単純な（低次元）前景分離法（いわゆるオラクル）と組み合わされる。バランスの良いトレーニング例１１０のセットを作成することに焦点が当てられる。すなわち、トレーニング例１１０のセットは、オラクルにより高信頼度で容易に解析されない視覚的要素に偏るべきである。

図２は、トレーニング例を選択する方法２００を概略的に示すフローチャートである。ここでトレーニング例は、図１を参照して上述した方法１００の入力１１０として使用される。方法２００はステップ２２０で開始し、一連のフレーム２１０は背景モデリングされ、背景モデル２３０を生成又は更新する。

１つの構成において、移動中央値（running median）が、ステップ２２０において背景をモデリングするために使用される。複数のフレームが履歴としてメモリに保持される。好ましくは、最新の８つのフレームが保持される。各視覚的要素に対して、履歴中の対応する視覚的要素の移動中央値である値が算出される。例えば、画素強度が視覚的要素として使用される場合、視覚的要素が座標ｘ＝５０及びｙ＝２０における画素であり且つその座標における画素強度値の履歴が｛１００，１５０，１２０，１３０，１４０，１３１，１４１，１１０｝である時、結果として得られる中央値は１３１である。

別の例において、視覚的要素がフレームのＤＣＴ係数のブロックである場合、中央値は係数毎に個別に計算される。例えば２×２のブロックの場合、表１（Table 1)はＤＣＴ係数の履歴を示す。

表２(Table 2)は、ＤＣＴ係数の中央値を示す。

中央値は合成値であるが、８つのフレームを表すものと考えられ、背景の最適な表現である。背景モデルは、ブロックの合成フレームとして認識される。

別の構成において、適応背景モデルが使用される。これはモデリングされた値を先の値と新しい入力値との加重平均で更新するものである。８つの強度値｛１００，１５０，１２０，１３０，１４０，１３１，１４１，１１０｝の履歴の例の場合、最初に観察した後の背景モデルは値１００を含む。適応因子が０．９５の場合、第２のフレームの後の背景モデルは値0.95*100 + 0.05*150 = 102.5を含む。８つの強度値の履歴に対しては、背景モデルの値は１１０．４５である。同様に、適応値はブロックのＤＣＴ係数に対して算出される。一例として、表１に示す８つのフレームの履歴は、表３（Table 3）に示す適応値を結果として与える。

適応背景モデルは、リソースの効率がよいが、最初は第１の値に非常に偏る。１つの構成において、適応背景モデルは、複数のフレームにわたる中央値の動作の結果で初期化することである。

背景モデル２３０の作成後、一連のフレーム２１０の一部、又は、先に又は後で記録されたフレームであるフレーム２４０及び背景モデル２３０はステップ２５０に提供される。ステップ２５０ではその視覚的要素が前景に属する尤度を、フレーム２４０の視覚的要素毎に算出される。尤度の算出は、強度値又は変換係数等の視覚的要素の特徴及び背景モデル２３０に基づく。使用される背景モデルの一部は、フレーム２４０の視覚的要素の場所に対応する背景面の位置である。そのような尤度の算出を以下に詳細に説明する。

ステップ２６０において、ユーザは、背景領域２７０の全ての視覚的要素が有効な前景を含まないように、フレーム２４０の背景領域２７０を指定する。何が有効な前景であるかは、アプリケーションドメイン及び画像の解像度に依存する。背景領域２７０の範囲に含まれないフレーム２４０の視覚的要素は、前景又は背景を含んでもよい。

ステップ２８０において、トレーニング例は、ステップ２５０の視覚的要素の分類、及び、視覚的要素の背景領域２７０に対する相関性に基づいて選択される。トレーニング例の選択に関しては以下に更に詳細に説明する。ステップ２８０においてトレーニング例が選択された後、方法２００はステップ２９０で終了する。

方法２００は、同一の背景モデル２３０を使用して同一シーンの別のフレームに対して繰り返されてもよく、あるいは方法２００は、異なるフレーム２４０及び異なる背景モデル２３０を使用して異なるシーンに対して実行されてもよい。一実施形態において、トレーニング例１１０（図１）は、利用可能になるとすぐに方法１００に提供される。別の実施形態において、例えば閾値により判定された十分な例が利用可能である場合、トレーニング例１１０は方法１００に提供される。

トレーニング例１１０は、ラベル（「背景」又は「前景」）と、視覚的要素と背景モデル１３０の対応する部分との差分に関する情報を含む差分タプル（difference tuple）とを含む。

方法２００において使用される単純な背景モデル１３０は、視覚的要素が前景又は背景を表す尤度を示す値を結果として与える。１つの構成において、背景面の対応する位置における背景モデルの値と視覚的要素との相関性を表す特徴値が算出される。例えば、視覚的要素が入力フレームの８×８のＤＣＴブロックであり、且つ、背景面が入力フレームの面と同一である場合、入力フレームは背景モデルの８×８のＤＣＴブロックに対応するモデルと比較される。背景差分は、２つのブロック間の差分を算出できる。１つの構成において、差分は、各係数に対する差分の絶対値を合計することにより算出される。その結果が差分値であり、差分単位で表される。別の構成において、差分は、表４（Table 4）に示す係数差分の平方を合計することにより算出される。

差分値は、視覚的要素が前景を表す尤度として使用される。図３は、視覚的要素が前景を表す予想される尤度のスケール３０５を示す。領域３１０の低い尤度は、視覚的要素が背景を表す可能性が高いことを示し、領域３２０の高い尤度は、視覚的要素が前景を表す可能性が高いことを示す。領域３１０及び３２０は「確実」の種類である。同様に、中域３３０の尤度は「不確実」の種類である。

１つの構成において、尤度値は、値の範囲に従って０〜１の数に正規化される。上述の例において、全ての係数が−１２７〜＋１２７の同一範囲の値を有する場合、絶対差分の和９は4*255で除算され、平方差分の和２３は4*255²で除算される。

上述のように、多次元分類方法１００に対する入力として提供されたトレーニング例１１０は差分タプルを含む。タプルの各要素は、多次元分類方式１００で使用された次元に対応する値である。１つの構成において、差分タプルは、入力フレーム２４０のブロックのＤＣＴ係数と背景モデル２３０のブロックのＤＣＴ係数との間の平方差分から構成される。８×８のＤＣＴブロックの例において、差分タプルは｛１，４，９，９｝である。

以上、フレーム１６０の領域に現れる視覚的要素を分離する方法１００及びトレーニング例を選択する方法２００を説明したが、ステップ２６０においてユーザがフレーム２４０の背景領域２７０を指定する方法を次に更に詳細に説明する。図４は、有効な前景オブジェクト４２０及び４３０を含むフレーム４１０を示している。ユーザは、有効な前景オブジェクト４２０及び４３０を囲む矩形のバウンディングボックス４４０及び４５０をそれぞれ描くことによりフレーム４１０の背景領域を指定した。つまり、背景領域４６０は、バウンディングボックス４４０及び４５０を除外することにより規定される。

尚、ユーザは現実的に可能な限り正確にバウンディングボックス４４０及び４５０を作成することを要求されるが、特に有効な前景オブジェクト４２０及び４３０が矩形でない場合、矩形のバンディングボックス４４０及び４５０は背景４４５等の背景を含むことが多い。また、殆どの自然なオブジェクトは矩形ではない。従って、背景領域４６０の全ての視覚的要素は背景を表すと考えられるが、ステップ２６０のユーザの選択した後は、全ての背景の視覚的要素が背景領域４６０の一部とはならない。

ステップ２６０において、更に複雑な多角形を使用して背景領域２７０を選択してもよいが、上述の原理は変わらない。非常に複雑な多角形のみが、自然なオブジェクトの正確な輪郭を結果として与えるが、そのような多角形を描くのに必要とされるユーザの労力は非常に大きい。従って、実際には、バウンディングボックスは前景要素及び背景要素の双方を含むと仮定される。

別の構成において、ステップ２６０において、ユーザは色又は強度の範囲を選択することにより背景領域２７０を指定する。例えば、ユーザは、閾値を下回る強度を有する全ての視覚的要素が背景を表し且つその閾値を上回る強度を有する画素が前景又は背景を表すと指定してもよい。

背景領域２７０を規定するのと同様に、ユーザは確実に前景領域を指定し、フレーム１４０の残りが前景又は背景を表すように宣言してもよい。上述と同様の原理が当てはまる。

オラクルが存在する場合の機械学習における通常の方法は、最も正確であると考えられる例を選択することである。この方法による問題は、それら例が前景を分離するのに単純な背景モデリング方法で十分である視覚的要素に偏ることである。一般にこれは、実際的ではない。

従って、方法２００は、単純な背景モデルが確実に分類できない視覚的要素を含むトレーニング例を特に含むバランスの良いトレーニング例１１０のセットを選択することを目的とする。

このために、トレーニング例１１０は、ステップ２５０で「不確実」として分類された視覚的要素から採用される。単純な背景モデリング方法は、それら視覚的要素を正確に分類するか確実ではない。一実施形態において、候補セットは、ユーザの特定した背景領域４６０に対応せず且つ「不確実」として分類される視覚的要素を含んで作成される。必要とされるトレーニング例１１０の数に基づいて、トレーニング例１１０は「不確実」として分類される所定の数の視覚的要素を含むように選択される。

１つの構成において、更なる閾値を採用することにより又は１つの例が選択される可能性を評価することによりトレーニング例１１０を選択するために、異なる値が使用されてもよい。例えば一実施形態において、選択の中断は選択された例の数に基づいて採用される。別の実施形態において、最小の距離閾値が使用される。

別の実施形態において、トレーニング例１１０は、背景領域の視覚的要素又は「確実」な視覚的要素に対する「不確実」な視覚的要素の距離に基づいて選択される。誤ったラベルを有する例が選択される状況に対処するために、リスク回避及びダイバーシティ指向の２つの戦略が採用されてもよい。

１つの構成において、リスク回避戦略が採用される。トレーニング例１１０が選択される候補セットが正確にラベル付けされるのが確実ではないと仮定すると、リスク回避戦略は確実と考えられる視覚的要素に関する情報を使用しようとする。それら要素は、前景尤度に対する閾値処理動作に従って前景又は背景を表すことが「確実」である視覚的要素であり且つ背景領域４６０にある視覚的要素である。トレーニング例１１０は、そのような視覚的要素がある種類に属する尤度、その種類に属することが確実であると考えられる視覚的要素に対する近さ及びその種類に属さないことが確実であると考えられる視覚的要素までの距離に基づいて選択及びラベル付けされる。１つの構成において、候補セットの視覚的要素は以下に説明するように順位付けされ、上位に順位付けされる視覚的要素はトレーニング例１１０として選択される。

１つの構成において、まず、正規化された絶対差分値は視覚的要素に対する前景尤度として算出される。下位閾値及び上位閾値は、「確実」な分類を「不確実」な分類から分離するのに使用される。下位閾値を下回る値は、「確実」な背景視覚的要素と考えられ、上位閾値を上回る値は、「確実」な前景視覚的要素と考えられる。「不確実」な視覚的要素の場合、潜在的な前景の例であるか又は背景の例であるかの決定が行なわれる。値が上位閾値に最も近い場合、関連する視覚的要素は、前景尤度と同等の分類尤度を有する潜在的な前景の例である。値が上位閾値に近くない場合、関連する視覚的要素は、１−前景尤度に同等の分類尤度を有する潜在的な背景の例である。同一種類の要素及び他の種類の要素と視覚的要素との間の距離を反映する隣接尤度が算出される。潜在的な前景の例の場合、再隣接する「確実」な背景視覚的要素又は背景領域の視覚的要素までの空間距離ｄ_Bは、例えばユークリッド距離又はシティブロック距離を使用して算出される。次に、再隣接する「確実」な前景視覚的要素までの空間距離ｄ_Fが算出される。隣接尤度は、ｄ_Bをｄ_Fで除算することにより算出される。同様の隣接尤度は、潜在的な背景の例に対して算出される。

隣接尤度を分類尤度と乗算することにより候補セットの視覚的要素に対するスコアが算出され、候補セットはそれに従って順位付けされる。ここで、最大スコアはリスク回避戦略に対する最適な候補に対応する。

別の構成においては、ダイバーシティ指向戦略に従う。ダイバーシティ指向戦略は、境界にある候補セットから例を選択しようとする。これは、それら例がトレーニングに最も有用なためである。リスク回避戦略と比較すると、例に誤ってラベル付けする危険性は高い。戦略は、上述のように隣接尤度を算出し、隣接尤度と１（ここで、値１は、視覚的要素が背景及び前景視覚的要素に対して同様に近接することを意味する）との間の差分の絶対値をスコアとして算出することにより実現される。スコアはそれに従って順位付けされる。ここで、最小スコアはこの戦略に対する最適な候補に対応する。

トレーニング例１１０を選択するための空間関係の用途を例として示す。図５は、ステップ２６０においてユーザにより指定された背景領域５２０を有するフレーム５１０を示す。背景領域５２０から除外された視覚的要素は、「確実」な背景視覚的要素５５０、「確実」な前景視覚的要素５６０及び「不確実」な視覚的要素５８０を含む。この例の場合、前景尤度の下位閾値を０．２５とし、上位閾値を０．８とする。視覚的要素５７０が０．４５の前景尤度を有し、視覚的要素５８０が０．７５の前景尤度を有するとする。

「不確実」な視覚的要素５７０と最近接する「確実」な背景視覚的要素５９０との間のシティブロックの距離は１である。「不確実」な視覚的要素５７０と最近接する「確実」な前景視覚的要素５０１との間のシティブロックの距離は３である。リスク回避戦略を採用すると、隣接尤度は３であり、１で除算した結果として３を得る。「不確実」な視覚的要素５７０の前景尤度（０．４５）が下位閾値に最も近いため、分類尤度は1-0.45 = 0.55である。スコアは、3*0.55 = 1.65である。

「不確実」な視覚的要素５８０と最近接する「確実」な前景視覚的要素５０２との間のシティブロックの距離は２である。「不確実」な視覚的要素５８０と最近接する「確実」な背景視覚的要素５０３との間のシティブロックの距離は３である。リスク回避戦略を採用すると、隣接尤度は２であり、３で除算した結果として０．６７を得る。前景尤度０．７５が上位閾値に最も近いため、分類尤度は０．７５である。スコアは、0.67*0.75 = 0.5である。

例は、視覚的要素５８０が閾値により近い前景尤度を有するが、トレーニング例である視覚的要素５７０を選択する危険性は視覚的要素５８０を選択するより低いことを示す。

１つの構成において、スコアを算出するための入力値は変倍されてもよい。例えば、値がより密な領域に入るように、平方根が隣接尤度に適用される。

前景／背景の分離の結果、前景又は背景として視覚的要素のラベル付けが行なわれる。複数の視覚的要素に対する結果は、ビデオの更なる解析を行なうために使用される。例えば、前景オブジェクトは、前景視覚的要素をグループ化するために接続された構成要素の解析を行なうことにより検出されてもよい。領域閾値は、有効なオブジェクトを無効なオブジェクト及びノイズと区別ために適用されてもよい。

上述において、本発明のいくつかの実施形態のみを説明したが、本発明の趣旨の範囲から逸脱せずに変形及び／又は変更がそれら実施形態に対して行なうことができる。実施形態は例であり、限定するものではない。

Claims

要素を含むフレームからトレーニング例を選択する方法であって、
フレームのセットから前記フレームの各位置に対してモデルを作成するステップと、
複数の種類のうちの１つに属することが確実である要素の選択をユーザから受信するステップと、
前記要素と前記モデルの差分に基づいて、前記要素について前記モデルの種類に属する尤度を算出するとともに、前記要素を分類するステップと、
少なくともトレーニング例として、前記選択から除外された要素のうち、前記分類ステップで前記複数の種類のいずれかに分類され、かつ、その種類に正確に分類された尤度が低い要素を、前記算出された尤度に基づいて選択するステップと
を有することを特徴とする方法。
前記トレーニング例は、正確に分類する尤度が高い要素を更に含むことを特徴とする請求項１に記載の方法。
前記受信ステップでは、前記フレーム内の少なくとも１つの領域が受信され、前記少なくとも１つの領域は、前記複数の種類のうちの１つに属することが確実な要素及び不確実な要素を表し、前記要素の選択は、前記１つ以上の領域から除外された要素であることを特徴とする請求項１に記載の方法。
前記選択ステップにおける要素の選択は閾値に基づくことを特徴とする請求項１に記載の方法。
正確に分類された尤度が低い要素は、選択された要素及び正確に分類された尤度が高い１つ以上の要素との空間関係に基づいて前記トレーニング例に含まれることを特徴とする請求項１に記載の方法。
要素を含むフレームからトレーニング例を選択する装置であって、
フレームのセットから前記フレームの各位置に対してモデルを作成する手段と、
複数の種類のうちの１つに属することが確実である要素の選択をユーザから受信する手段と、
前記要素と前記モデルの差分に基づいて、前記要素について前記モデルの種類に属する尤度を算出するとともに、前記要素を分類する手段と、
少なくともトレーニング例として、前記選択から除外された要素のうち、前記分類手段で前記複数の種類のいずれかに分類され、かつ、その種類に正確に分類された尤度が低い要素を、前記算出された尤度に基づいて選択する手段と
を備えることを特徴とする装置。