JP4753072B2

JP4753072B2 - 映像内の複数広告看板の認識方法

Info

Publication number: JP4753072B2
Application number: JP2005329462A
Authority: JP
Inventors: 直幸市村
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2005-11-14
Filing date: 2005-11-14
Publication date: 2011-08-17
Anticipated expiration: 2025-11-14
Also published as: JP2007140613A

Description

本発明は、映像内の複数広告看板の認識方法に係り、特に局所不変特徴量に基づく複数広告看板の認識方法に関するものである。

モータースポーツ等のイベントのスポンサーは、出資の見返りとしてイベント会場に広告看板を設置できる。その場合、出資効果の確認のため、放送映像上での広告看板の露出時間や露出面積等を調べることは重要であり、この確認作業を自動化するためには、映像内の広告看板の認識が必要となる。

広告看板は、その大きさや設置場所、それをとらえるカメラの角度やズーム等により、様々な見え方で映像上に表れる。

図７に、Ｆｏｒｍｕｌａ１（Ｆ１）の映像における広告看板の例を示す。図７（ａ）では、広告看板の大きさや設置場所の違いによるスケーリング、輝度変化、および視野逸脱と他の物体による隠れが生じている。図７（ｂ）は、オンボードカメラの映像であり、スケーリングと斜めから見ることによる変形が生じている。これらの例が示すように、広告看板の認識では、認識対象の変形、輝度変化および隠れへの対処が問題となる。

認識対象の変形、輝度変化および隠れに対処する方法の１つに、局所不変特徴量の使用がある。局所不変特徴量の構成は、認識対象の変形と輝度変化に対して不変となる、複数の局所領域の設定とその領域内の特徴を表す記述子（ｄｅｓｃｒｉｐｔｏｒ）の計算により行われる。図８に、局所領域の例を示す。図中の四角形が、記述子を計算する局所領域を表す。複数の局所領域の使用により、認識対象の一部が隠れても、見えている部分の特徴量を用いて認識が行える。

局所不変特徴量には、局所領域の設定方法および記述子が異なるいくつかの種類がある。局所領域の設定方法には、スケールスペース内での特徴点抽出に基づく方法 (非特許文献１−８参照）、輝度の極値や領域分割に基づく方法
(非特許文献５，９，１０，１１参照）、エッジ抽出に基づく方法 (非特許文献１１，１２参照）等がある。また、記述子には、輝度の微分量 (非特許文献２，８参照）、局所領域形状を正規化した画像パッチ（非特許文献５参照）、モーメント特徴
(非特許文献９，１０，１１参照）、輝度勾配の方向ヒストグラム (非特許文献３，５，６，７，１２参照）等が用いられる。これらの局所特徴量は、画像の幾何学的な相似変換もしくはアフィン変換、および輝度のアフィン変換に対して不変である。
Ｃ．ＨａｒｒｉｓａｎｄＧ．Ｇｉｒａｕｄｏｎ：“Ａｃｏｍｂｉｎｅｄｃｏｒｎｅｒａｎｄｅｄｇｅｄｅｔｅｃｔｏｒ，” Ｐｒｏｃ．４ｔｈＡｌｖｅｙＶｉｓ．Ｃｏｎｆ．，ｐｐ．１４７−１５１，１９８８．Ｃ．ＳｃｈｍｉｄａｎｄＲ．Ｍｏｈｒ：“Ｌｏｃａｌｇｒｅｙｖａｌｕｅｉｎｖａｒｉａｎｔｓｆｏｒｉｍａｇｅｒｅｔｒｉｅｖａｌ，”ＩＥＥＥＴｒａｎｓ．ＰＡＭＩ，Ｖｏｌ．１９，Ｎｏ．５，ｐｐ．５３０−５３５，１９９７．Ｄ．Ｌｏｗｅ：“Ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎｆｒｏｍｌｏｃａｌｓｃａｌｅｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｓ，”Ｐｒｏｃ．Ｉｎｔ．Ｃｏｎｆ．Ｃｏｍｐ．Ｖｉｓ．，ｐｐ．１１５０−１１５７，１９９９．Ｍ．ＢｒｏｗｎａｎｄＤ．Ｌｏｗｅ：“Ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｓｆｒｏｍｉｎｔｅｒｅｓｔｐｏｉｎｔｇｒｏｕｐｓ，”Ｐｒｏｃ．ＢｒｉｔｉｓｈＭａｃｈｉｎｅＶｉｓ．Ｃｏｎｆ．，ｐｐ．６５６−６６５，２００２．Ｊ．ＳｉｖｉｃａｎｄＡ．Ｚｉｓｓｅｒｍａｎ：“ＶｉｄｅｏＧｏｏｇｌｅ：ａｔｅｘｔｒｅｔｒｉｅｖａｌａｐｐｒｏａｒｃｈｔｏｏｂｊｅｃｔｍａｔｃｈｉｎｇｉｎｖｉｄｅｏｓ，”Ｐｒｏｃ．Ｉｎｔ．Ｃｏｎｆ．Ｃｏｍｐ．Ｖｉｓ．，Ｖｏｌ．２，ｐｐ．１４７０−１４７７，２００３．Ｍ．ＢｒｏｗｎａｎｄＤ．Ｌｏｗｅ：“Ｒｅｃｏｇｎｉｓｉｎｇｐａｎｏｒａｍａｓ，”Ｐｒｏｃ．Ｉｎｔ．Ｃｏｎｆ．Ｃｏｍｐ．Ｖｉｓ．，Ｖｏｌ．２，ｐｐ．１２１８−１２２５，２００３．Ｄ．Ｌｏｗｅ：“Ｄｉｓｔｉｎｃｔｉｖｅｉｍａｇｅｆｅａｔｕｒｅｓｆｒｏｍｓｃａｌｅｉｎｖａｒｉａｎｔｋｅｙｐｏｉｎｔｓ，”Ｉｎｔ．Ｊ．Ｃｏｍｐ．Ｖｉｓ．，Ｖｏｌ．６０，Ｎｏ．２，ｐｐ．９１−１１０，２００４．Ｋ．ＭｉｋｏｌａｊｃｚｙｋａｎｄＣ．Ｓｃｈｍｉｄ：“Ｓｃａｌｅ＆ａｆｆｉｎｅｉｎｖａｒｉａｎｔｉｎｔｅｒｅｓｔｐｏｉｎｔｄｅｔｅｃｔｏｒｓ，”Ｉｎｔ．Ｊ．Ｃｏｍｐ．Ｖｉｓ．，Ｖｏｌ．６０，Ｎｏ．１，ｐｐ．６３−８６，２００４．Ｆ．ＳｃｈａｆｆａｌｉｔｚｋｙａｎｄＡ．Ｚｉｓｓｅｒｍａｎ：“Ｖｉｅｗｐｏｉｎｔｉｎｖａｒｉａｎｔｔｅｘｔｕｒｅｍａｔｃｈｉｎｇａｎｄｗｉｄｅｂａｓｅｌｉｎｅｓｔｅｒｅｏ，”Ｐｒｏｃ．Ｉｎｔ．Ｃｏｎｆ．Ｃｏｍｐ．Ｖｉｓ．，ｐｐ．６３６−６４３，２００１．Ｊ．Ｍａｔａｓ，Ｏ．Ｃｈｕｍ，Ｍ．ＵｒｂａｎａｎｄＴ．Ｐａｊｄｌａ：“Ｒｏｂｕｓｔｗｉｄｅｂａｓｅｌｉｎｅｓｔｅｒｅｏｆｒｏｍｍａｘｉｍａｌｌｙｓｔａｂｌｅｅｘｔｒｅｍａｌｒｅｇｉｏｎｓ，”Ｐｒｏｃ．ＢｒｉｔｉｓｈＭａｃｈｉｎｅＶｉｓ．Ｃｏｎｆ．，ｐｐ．３８４−３９３，２００２．Ｔ．ＴｕｙｔｅｌａａｒｓａｎｄＬ．ＶａｎＧｏｏｌ：“Ｍａｔｃｈｉｎｇｗｉｄｅｌｙｓｅｐａｒａｔｅｄｖｉｅｗｓｂａｓｅｄｏｎａｆｆｉｎｅｉｎｖａｒｉａｎｔｒｅｇｉｏｎｓ，”Ｉｎｔ．Ｊ．Ｃｏｍｐ．Ｖｉｓ．，Ｖｏｌ．５９，Ｎｏ．１，ｐｐ．６１−８５，２００４．Ｋ．Ｍｉｋｏｌａｊｃｚｙｋ，Ａ．ＺｉｓｓｅｒｍａｎａｎｄＣ．Ｓｃｈｍｉｄ：“Ｓｈａｐｅｒｅｃｏｇｎｉｔｉｏｎｗｉｔｈｅｄｇｅ−ｂａｓｅｄｆｅａｔｕｒｅｓ，”Ｐｒｏｃ．ＢｒｉｔｉｓｈＭａｃｈｉｎｅＶｉｓ．Ｃｏｎｆ．，ｐｐ．３８４−３９３，２００３．Ｍ．Ａ．ＦｉｓｃｈｌｅｒａｎｄＲ．Ｃ．Ｂｏｌｌｅｓ：“ＲａｎｄｏｍＳａｍｐｌｅＣｏｎｓｅｎｓｕｓ：Ａｐａｒａｄｉｇｍｆｏｒｍｏｄｅｌｆｉｔｔｉｎｇｗｉｔｈａｐｐｌｉｃａｔｉｏｎｔｏｉｍａｇｅａｎａｌｙｓｉｓａｎｄａｕｔｏｍａｔｅｄｃａｒｔｏｇｒａｐｈｙ，”ＡＣＭＧｒａｐｈｉｃｓａｎｄＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．２４，Ｎｏ．６，ｐｐ．３８１−３９５，１９８１．Ｒ．ＨａｒｔｌｅｙａｎｄＡ．Ｚｉｓｓｅｒｍａｎ：“Ｍｕｌｔｉｐｌｅｖｉｅｗｇｅｏｍｅｔｒｙｉｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎ，”２ｎｄｅｄｉｔｉｏｎ，ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，２００３．Ｋ．ＭｉｋｏｌａｊｃｚｙｋａｎｄＣ．Ｓｃｈｍｉｄ：“Ａｐｅｒｆｏｒｍａｎｃｅｅｖａｌｕａｔｉｏｎｏｆｌｏｃａｌｄｅｓｃｒｉｐｔｏｒｓ，”Ｐｒｏｃ．Ｉｎｔ．Ｃｏｎｆ．Ｃｏｍｐ．Ｖｉｓ．ａｎｄＰａｔｔ．Ｒｅｃｏｇ．，ｐｐ．３８４−３９３，２００３．Ｔ．ＭｏｌｌｅｒａｎｄＥ．Ｈａｉｎｅｓ：“Ｒｅａｌ−ｔｉｍｅｒｅｎｄｅｒｉｎｇ，”２ｎｄｅｄｉｔｉｏｎ，Ａ．Ｋ．Ｐｅｔｅｒｓ，２００２．

図９は局所不変特徴量を用いた対応付けの例を示す図である。

この図の左上に、認識対象のモデル画像を示している。この画像とシーン画像の記述子間の距離を求め、最近傍法により対応点を得た。特徴量の不変性により、認識対象のスケーリングや輝度変化、隠れに関わらずモデル画像とシーン画像内の認識対象の間で対応点が得られる。しかしながら、局所的に類似した部分が背景にあるため、誤対応が生じる。

また、シーン内に複数の同一認識対象が存在するため、複数の対象の対応点が混合される。

本発明は、上記状況に鑑みて、局所不変特徴量の使用により得られた誤対応や混合した対応点を含む対応付け結果から、個々の認識対象の対応点を分離し、それに基づいて認識を行うことができる映像内の複数広告看板の認識方法を提供することを目的とする。

本発明は、上記目的を達成掏るために、
〔１〕映像内の複数広告看板の認識方法において、映像のシーン画像と広告看板のモデル画像間の、（ａ）局所不変特徴量を用いた仮対応付けを行うステップと、（ｂ）射影変換による仮位置合せを行うステップと、（ｃ）探索領域を制約した対応付けを行うステップと、（ｄ）最終的な位置合せと検証を行うステップとを有し、これらのステップを終了条件が満たされるまで逐次的に繰り返す処理を、複数の対応点数の仮説に対し行うことを特徴とする。

〔２〕上記〔１〕記載の映像内の複数広告看板の認識方法において、前記（ａ）ステップでは、局所不変特徴量を用いて前記映像のシーン画像と前記広告看板のモデル間の対応点を得ると共に、設定された局所領域内の特徴量を表す記述子間の距離の比に基づく誤対応の除去を行う際、距離の比のしきい値をある特定の数の対応点が得られるまで段階的に大きくすることを特徴とする。

〔３〕上記〔１〕記載の映像内の複数広告看板の認識方法において、前記（ｂ）ステップでは、射影変換によるモデル画像の変形を評価し、視点位置や認識対象の姿勢の変化では生じ得ない変形を投票より除去する機構を組み込んだＲＡＮＳＡＣにより射影変換を計算し、１つの認識対象のシーン画像内での大まかな位置を得ることを特徴とする。

〔４〕上記〔１〕記載の映像内の複数広告看板の認識方法において、前記（ｃ）ステップでは、前記（ｂ）の仮位置合せの結果に基づき適応的に大きさが変化する探索領域を設定し、その探索領域内での対応付けにより１つの認識対象のみから前記対応点を得ることを特徴とする。

〔５〕上記〔１〕記載の映像内の複数広告看板の認識方法において、前記（ｄ）ステップでは、前記（ｃ）で得られた対応点から射影変換を計算し、最終的な位置合せ結果を得て、かつ、その結果をモデル画像とシーン画像間の局所的な相関を用いて検証することを特徴とする。

〔６〕上記〔１〕記載の映像内の複数広告看板の認識方法において、前記（ａ）、（ｂ）、（ｃ）、（ｄ）のステップの終了条件が満たされるまで逐次的に繰り返すことを特徴とする。

〔７〕上記〔１〕記載の映像内の複数広告看板の認識方法において、前記（ａ）、（ｂ）、（ｃ）、（ｄ）のステップを終了条件が満たされるまで逐次的に繰り返すことを、複数の対応点数の仮説に対して適用し、それらの結果から最終的な認識結果を選択することを特徴とする。

本発明では、１つの認識対象の対応点を背景や他の広告看板から分離することを、ｏｕｔｌｉｅｒ（外れ値）を含んだ対応点に対するモデル当てはめ問題として取り扱う。ここでモデルとは、１つの認識対象の対応点が従う大局的な拘束を意味する。多くの広告看板は平面であるため、その大局的な拘束として射影変換（非特許文献１４参照）が使用できる。よって、例えば、図９において、最も大きな認識対象の対応点へ射影変換を当てはめると、背景とその他の広告看板の対応点をｏｕｔｌｉｅｒとして分離できる。

ｏｕｔｌｉｅｒを含む対応点に対する射影変換の当てはめには、ロバスト推定の一種であるＲＡＮＳＡＣ（ＲＡＮｄｏｍＳＡｍｐｌｅＣｏｎｓｅｎｓｕｓ）（非特許文献１３参照）が使用できる。しかし、ｏｕｔｌｉｅｒが多い場合、ｏｕｔｌｉｅｒを含むサンプルが偶然に最大の投票数を得て、誤った解が選択されることがある。誤対応を減少させる前処理は使用できるが（非特許文献７、１１参照）、複数の同一認識対象から得られる混合された対応点は局所的に正しいため、大局的な拘束を当てはめる前にそれらの一部を取り除くことは困難である。よって、多くの誤対応を含んだ状態で射影変換の計算を行うことを、常に想定する必要がある。ＲＡＮＳＡＣにおいて誤った解が選択されるのは、射影変換の自由度が高すぎ、視点位置や認識対象の姿勢の変化によっては起こり得ないモデル画像の変形まで表現されるためと考えられる。よって、正しい解を選択するためには、求めた射影変換によるモデル画像の変形を評価することが有効と言える。

本発明では、以下の４段階の処理からなる複数広告看板の認識方法を提供する。

（１）局所不変特徴量を用いた仮対応付け、（２）射影変換による仮位置合せ、（３）探索領域を制約した対応付け、（４）最終的な位置合せと検証である。

まず、上記（１）では、対応点を得ると共に、記述子間の距離の比に基づく誤対応の除去（非特許文献７参照）を行う。この際、距離の比に対してしきい値処理を行い、誤対応を除去する。距離の比のしきい値をどのようにして設定するかで対応点数が変化するが、本発明では、距離の比のしきい値をある特定の数の対応点が得られるまで段階的に大きくする機構を組み込む。この機構により、誤対応を除去しつつ、必要な数の対応点を得ることができる。上記（２）では、ＲＡＮＳＡＣにより射影変換を計算し、１つの認識対象のシーン画像内での大まかな位置を得る。ＲＡＮＳＡＣで正しい解を選択するため、求めた射影変換によるモデル画像の変形が、視点位置や物体姿勢の変化によって生じ得るものかどうかを評価する。上記（３）では、上記（２）の仮位置合せの結果により探索領域を制約し、対応点を得る。探索領域の大きさは、モデル画像の面積と上記（２）の仮位置合わせの結果より得られる認識対象の面積の比により適応的に変化させる。この探索領域の制約により、１つの認識対象の周辺のみから対応点を得ることができる。上記（４）では、上記（３）で得られた対応点から射影変換を計算し、最終的な位置合せ結果を得る。この結果の検証のため、変換後のモデル画像とシーン画像を正規化相関を用いて比較する。上記（１）〜（４）の処理を終了条件が満たされるまで繰り返し、複数広告看板を認識する。また、いくつの対応点を使えば適切な対象の分離が行えるかは背景やシーンに存在する認識対象の数、認識対象の隠れの度合い等に依存するため、複数の対応点数の仮説に対して上記の認識処理を行い、それらの結果から最終的な認識結果を選択する。

実画像を用いた実験を通じ、モデル画像が１枚のみでも、種々の状況での認識が可能なことを示す。

本発明によれば、以下のような効果を奏することができる。

（１）記述子間の距離の比に対するしきい値を段階的に変化させることにより、誤対応を除去しつつ、必要な数の対応点を得ることができる。

（２）モデル画像の変形に対する評価をＲＡＮＳＡＣに組み込むことにより、視点位置や認識対象の姿勢の変化では起き得ないモデル画像の変形を与える射影変換を、解の候補から除去することができる。

（３）探索領域の大きさをモデル画像の面積と仮位置合わせの結果より得られる認識対象の面積の比により適応的に変化させ、対象の大きさに応じた探索領域の制約ができる。

（４）複数の対応点数の仮説に対し認識処理を行うことにより、いろいろな背景の下でも、また、認識対象の数や認識対象の隠れの度合いが状況により異なっても、適切な認識対象の分離を行うことができる。

（５）上記（１）から（４）の機構により、結果として、背景や複数の広告看板が存在するシーンから、個々の広告看板の対応点を分離し、認識を行うことができる。

本発明の映像内の複数広告看板の認識方法は、映像のシーン画像と広告看板のモデル画像間の、（ａ）局所不変特徴量を用いた仮対応付けを行うステップと、（ｂ）射影変換による仮位置合せを行うステップと、（ｃ）探索領域を制約した対応付けを行うステップと、（ｄ）最終的な位置合せと検証を行うステップとを有し、これらのステップを終了条件が満たされるまで逐次的に繰り返す処理を、複数の対応点数の仮説に対し行う。

以下、本発明の実施の形態について詳細に説明する。

ここでは、まず、対応付けに用いる局所不変特徴量について述べる。

図１は、広告看板のモデル画像の例を示す図である。

広告看板には文字が多く用いられ、テクスチャに乏しい。そのため、エッジに基づく局所不変特徴量を対応付けに用いる。

局所領域の設定には、ＤｉｆｆｅｒｅｎｃｅｏｆＧａｕｓｓｉａｎ（ＤｏＧ）によるスケールスペース内の極値に基づく特徴点抽出（非特許文献３，４，６，７参照）を用いる。この特徴点抽出の結果、特徴点の位置と特徴点が発見されたスケールが得られる。記述子としては、輝度勾配の方向ヒストグラム（非特許文献３，５，６，７，１２参照）を用いる。ＤｏＧはエッジ抽出フィルタであるＬａｐｌａｃｉａｎｏｆＧａｕｓｓｉａｎ（ＬｏＧ）を近似するため、この記述子は多重スケールエッジの方向ヒストグラムとも解釈でき、テクスチャの乏しい画像にも有効と考えられる。

次に、記述子の計算の概要を述べる。特徴点の近傍領域で輝度勾配の方向ヒストグラムを求め、最も頻度の高い方向（ＤｏｍｉｎａｎｔＯｒｉｅｎｔａｔｉｏｎ）を得る。そして、図２のように、特徴点を中心として、その方向に回転させた局所座標系を作る。その座標系内で、特徴点のスケールに比例した大きさをもつ局所領域を設定し、それをいくつかのブロックに分割する。各ブロック内での輝度勾配の方向ヒストグラムを連結し、そのノルムを１に正規化して記述子とする。

スケールスペース内の極値は並行移動、スケール不変であり、最も頻度の高い輝度勾配の方向を基準とした回転角は回転不変であるため、上記の局所特徴量は相似変換に対して不変となる。実際には、ある程度のアフィン変換に対しても不変性を保つ（非特許文献７，１５参照）。また、ノルムの正規化により、輝度のアフィン変換に対しても不変となる。

次に、この局所不変特徴量を用いた認識アルゴリズムを示す。

本発明では、提案する認識アルゴリズムを、以下の表現を用いて説明する。

モデル画像の局所不変特徴量を
ｆ^m _i＝｛ｐ^m _i，σ^m _i，ｄ^m
_i｝，ｉ＝１，…，Ｎ^m
と表す。

ここで、ｐ^m _iは同次座標で表した特徴点の位置、σ^m _iは特徴点が発見されたスケール、ｄ^m
_iは記述子、Ｎ^m _iは特徴量の個数である。同様に、シーン画像の局所不変特徴量を
ｆ^s _j＝｛ｐ^s _j，σ^s _j，ｄ^s
_j｝，ｊ＝１，…，Ｎ^s
とする。特徴量間の距離として、記述子間のユークリッド距離
ｄ_ij＝‖ｄ^m _i−ｄ^s _j‖
を用いる。

〔１〕局所不変特徴量を用いた仮対応付け
最近傍法では、特徴量ｆ^m _iに対し、ｊ_1NN＝ａｒｇｍｉｎ_jｄ_ijのインデックスを持つ特徴量ｆ^s
_j1NNを対応付ける。しかし、図９に示すように、最近傍法では多くの誤対応が生じる。この誤対応を減少させるため、次式を満たす対応点のみを使用する（非特許文献７参照）。

ｄ_ij1NN／ｄ_ij2NN＜ｔ，０≦ｔ≦１ …（１）
ここで、ｊ_2NN＝ａｒｇｓｅｃｏｎｄｍｉｎ_jｄ_ij、つまり、２番目に近い特徴量のインデックスであり、ｔはしきい値である。上記式（１）は、最近傍の距離ｄ_ij1NN
が、２番目に近い特徴量の距離ｄ_ij2NNよりｔで規定されるだけ離れていることを条件としている。

上記式（１）を用いて得られる対応点数は、ｔを大きくするにつれて増加し、ｔ＝１の最近傍法で最大となる。射影変換の計算には４点以上のｉｎｌｉｅｒが必要であるため、それを確保するようにｔを定める必要がある。本発明では、対応点数がある数Ｐ_min
に達するまで、次式に従ってｔを増加させた。

ｔ（ｋ＋１）＝αｔ（ｋ） …（２）
α＝１．０１，ｔ（０）＝０．８０，ｋ＝０，１，２，…
ここで、ｋは繰り返し回数、αはｔの増加を制御する係数である。Ｐ_minをいくつにすれば最低限必要なｉｎｌｉｅｒを確保できるかは、シーンによって異なる。そのため、いくつかのＰ_min
を用いて認識を行う。その詳細は、〔６〕項で述べる。

図３は、認識処理の例を示す図である。

図３（ｂ），図３（ｄ）では、ｉｎｌｉｅｒのみを対応点として示している。また、位置合せ結果は四角形で表す。

図３（ａ）は上記式（１）を用いた仮対応付けを表し、Ｐ_min＝２０の場合を示している。最近傍法を用いた図９に比べ、ｉｎｌｉｅｒを保持しつつｏｕｔｌｉｅｒを減少できている。しかし、複数の同一認識対象の対応点は混合されたままとなる。これらは局所的に正しいため、上記式（１）を用いても取り除けないのである。ある認識対象の射影変換の計算において、その他の対象の対応点は誤対応として働くため、混合した対応点はＲＡＮＳＡＣで誤った解が選択される要因になり得る。次項〔２〕で、正しい解を選択するための、モデル画像の変形に関する評価を導入したＲＡＮＳＡＣについて述べる。
〔２〕射影変換による仮位置合せ
対応点をＣ＝｛ｐ^m _k, ｐ^s _k｝，ｋ＝１，…，Ｐと表す。この対応点を関係付ける射影変換をＨ（３×３行列）とし、変換誤差を次式で定義する。

ｅ_k＝‖ｐ^s _k−Ｈｐ^m _k‖，ｋ＝１，…，Ｐ …（３）
Ｈは、以下に示すＲＡＮＳＡＣ（非特許文献１３参照）で計算できる。
（ｉ）集合Ｃから、４つの対応点からなるサンプルをランダムに取り出す。
（ii）ＤｉｒｅｃｔＬｉｎｅａｒＴｒａｎｓｆｏｒｍａｔｉｏｎ（ＤＬＴ）アルゴリズム（非特許文献１４参照）と上記式（３）の変換誤差の和を評価関数とする非線形最適化により、サンプルからＨを求める。
（iii ）全対応点に対して上記式（３）の変換誤差を計算し、次式を満たすｉｎｌｉｅｒの数（投票数）Ｎ_iを求める。

ｅ_k＜ε，ｋ＝１，…，Ｐ …（４）
ここで、εはしきい値である。
（iv）（ｉ）〜（iii ）の処理を繰り返し、最大の投票数をもつｉｎｌｉｅｒを得る。
（ｖ）上記（iv）で得られたｉｎｌｉｅｒよりＨを計算する。

上記のアルゴリズムで、ｏｕｔｌｉｅｒを含むサンプルが偶然に最大の投票数を得る場合がある。この誤りが生じる主たる原因は、射影変換の自由度が高すぎ、視点位置や認識対象の姿勢の変化によっては起こり得ないモデル画像の変形まで表現されることだと考えられる。よって、解の選択の誤りを防ぐために、次の処理を（ii）の後に加え、射影変換によるモデル画像の変形を評価する。
（ii′）Ｈでモデル画像を変換した結果が、ねじれ四角形、もしくは、反転した四角形の場合には、上記（ｉ）に戻る。そうでない場合は、（iii ）に進む。

図４はＲＡＮＳＡＣで投票から除外される変形の例を示す図であり、図４（ａ）はねじれ四角形、図４（ｂ）は反転した四角形である。これらの図に示すような変形は、視点位置や認識対象の姿勢の変化によっては生じない。このような生じ得ない変形に対応する射影変換に対しては、上記式（４）による投票を行わない。ねじれ四角形は、向かい合う２組の辺の変換後の交点位置が、変換後の頂点から構成される凸包内にあるかどうかで検出できる。反転した四角形は、符号付き面積（非特許文献１６参照）の符号から検出できる。これらの検出のための計算は非常に効率が良いため、上記（ii′）の評価は、繰り返し計算を必要とするＲＡＮＳＡＣに適している。

図３（ａ）の対応点より１００００個のサンプルを得て、射影変換を計算した結果、９８９９個の射影変換が、ねじれ四角形、または、反転した四角形に対応した。

このように、実際にＲＡＮＳＡＣで数多くの生じ得ない変形が表れることから、上記（ii′）の変形の評価は正しい解の選択のために有効であると言える。図３（ｂ）に、上記式（４）でε＝３〔ｐｉｘｅｌ〕とした場合の仮位置合せ結果を示す。直線はｉｎｌｉｅｒであり、四角形は射影変換によりモデル画像を変換した結果である。誤対応や混合した対応点が除去され、１つの認識対象の位置が得られている。
〔３〕探索領域を制約した対応付け
図３（ｂ）に示すような仮位置合せの結果を用い、背景や他の広告看板の影響を排除した状態で、１つの認識対象の周辺のみから対応点を得ることができる。仮位置合せで得られた射影変換Ｈを用い、次の予測位置を求める。

この予測位置を中心に半径ｒの円形の探索領域を設定し、その中にある特徴量に対し上記式（１）を用いて対応付けを行う。１つしか対応点が見つからず、上記式（１）が評価できない場合には、その対応点を用いる。

探索領域の半径ｒは、図５に示す関数より決定する。図５は探索領域の半径を決定する関数であり、その横軸は変換前後のモデル画像の面積比ａ、縦軸は探索領域の半径ｒである。この関数により、シーン画像内の認識対象が大きいほど、探索領域を大きくする。後述の〔４〕項で用いる、最終的な位置合せにおけるＲＡＮＳＡＣのしきい値εおよび正規化相関を計算する局所領域の半径ｒについても、同様に面積比の関数として変化させる。図３（ｂ）では、モデル画像と位置合せ結果を表す四角形の面積の比となる。この関数により、シーン画像内の認識対象の面積が大きいほど、探索領域を大きくする。面積比の最小値、最大値をａ_min
，ａ_maxとし、それぞれに対応する半径をｒ_min，ｒ_maxとしている。

図３（ｃ）に、ａ_min＝１，ａ_max＝４，ｒ_min＝２０〔ｐｉｘｅｌ〕，ｒ_max
＝８０〔ｐｉｘｅｌ〕（画像サイズは７２０×４８０〔ｐｉｘｅｌ〕）として得た対応点を示す。図３（ｂ）でａ＝１．６５であったため、ｒ＝３３〔ｐｉｘｅｌ〕となった。この半径を使用した探索領域の制約により、背景や他の広告看板の影響が排除され、１つの認識対象のみから対応点が得られている。

探索領域を制約した対応付けは、ｇｕｉｄｅｄｍａｔｃｈｉｎｇと呼ばれ、射影変換や基礎行列の計算に使用されている（非特許文献１４）。提案しているアルゴリズムでは、ｇｕｉｄｅｄｍａｔｃｈｉｎｇは対応付けのためだけでなく、１つの認識対象の対応点のみを抽出するセグメンテーションとしても働いている点が重要である。
〔４〕最終的な位置合せと検証
探索領域を制約した対応付けにより得られる対応点を用い、前述の〔２〕項と同様にして射影変換Ｈを求める。上記式（４）のしきい値εは、図５に示す関数により決定する。つまり、シーン画像内の認識対象が大きいほど、前記式（３）の変換誤差を許容する。得られた射影変換によってモデル画像を変換し、最終的な位置合せ結果を得る。

その後に認識対象の検証を行う。Ｎ_i個のｉｎｌｉｅｒに対し、上記式（５）と同様に予測位置を求め、図５より得られる半径ｒをもつ局所領域を設定する。その局所領域の中で、Ｈにより変換したモデル画像とシーン画像の正規化相関ＮＣＣ_l
，ｌ＝１，…，Ｎ_iを求める（正規化相関は輝度のアフィン変換に対し不変であるので、処理全体において輝度不変性は保たれる）。そして、その平均値が次式を満たす場合に、最終的な位置合せは正しいと判断する。

図３（ｄ）に、ａ_min＝１，ａ_max＝４，ε_min＝３〔ｐｉｘｅｌ〕，ε_max
＝１２〔ｐｉｘｅｌ〕，γ＝１．０（正規化相関はＲ，Ｇ，Ｂの各チャンネルで計算したため、〔０，３〕の値を持つ）として得た位置合せ結果を示す。より多くのｉｎｌｉｅｒから射影変換が計算され、認識対象の位置が正しく得られている。上記式（６）のＮＣＣ_l
の平均値は、２．３２であった。

以上の〔１〕項から〔４〕項の処理により、図３において、複数の同一認識対象が存在するにも関わらず、１つの認識対象の分離に成功している。
〔５〕アルゴリズムの終了条件
最終的な位置合せが正しいと判断された場合、認識済みの広告看板がある領域内〔図３（ｄ）では、認識結果を表す四角形内〕に位置する局所不変特徴量を取り除く。他の認識対象を認識するため、残った特徴量に対し〔１〕項から〔４〕項の処理を行う。これを以下の終了条件が満たされるまで繰り返す。（ａ）対応付けにおいて、Ｐ_min
個以上の対応点が得られない。（ｂ）射影変換の計算において、４点以上のｉｎｌｉｅｒが得られない。（ｃ）上記式（６）の条件が満たされない。それぞれの条件は、局所的な類似性がない場合、大局的な拘束を満たさない場合、位置合せ結果が誤っている場合、に対応する。
〔６〕対応点数に対する複数仮説
対応点数をＰ_min個確保するため、上記式（１）のしきい値ｔを上記式（２）により変化させる。Ｐ_minをいくつにすれば４点以上のｉｎｌｉｅｒが確保できるかはシーンに依存し、事前に予測できない。そのため、Ｐ_min
＝２０，６０，１２０の３つの場合に対し認識を行う。３つの認識結果を得た後、認識された広告看板の数が最も多い結果を選択する。広告看板の数が同じ場合には、上記式（３）の変換誤差の平均が最も小さい結果を選択する。このように、対応点数に対する複数の仮説を使用することにより、同一認識対象の数や隠れの度合いが異なる種々のシーンに対応できる。

次に実験について述べる。

実験の題材として、広告看板の見え方の変化が比較的大きいＦ１の映像を選択した。５つの広告看板を認識対象とし、図６の各画像の上部にモデル画像を示している。各認識対象に対し、モデル画像は、図６に示した１枚のみを与えている。

記述子の次元数は、図２に示す局所領域内のブロック数、および各ブロックでの輝度勾配の方向ヒストグラムのｂｉｎ数により決まる。本実験では、８×８ブロック、ｂｉｎ数１６とした。よって、記述子の次元数は８×８×１６＝１０２４となる。これ以外のパラメータは、図３に対する値を参照されたい。

図６に、Ｆ１の映像に対する認識結果を示す。図６（ａ）、（ｂ）にはスケーリング、輝度変化および隠れがある。図６（ｃ）では、金網による隠れや輝度変化、および車体と視野逸脱による隠れがある。図６（ｄ）、図６（ｅ）ではスケーリング、視点の位置による変形、輝度変化がある。図６（ｆ）はヘリコプターのカメラからの映像であり、輝度変化と隠れがある。このように各シーンには種々の変形、輝度変化および隠れがあるが、これらの図に示すように、モデル画像が１枚のみでも、提案方法によって種々の状況下での認識に成功している。

なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、これらを本発明の範囲から排除するものではない。

本発明の映像内の複数広告看板の認識方法は、放送映像上での広告看板の露出時間や露出面積等を調べる確認作業を自動化する、映像内の広告看板の認識ツールとして好適である。

広告看板のモデル画像の例を示す図である。記述子の計算の概要の説明図である。認識処理の例を示す図である。ＲＡＮＳＡＣで投票から除外される変形の例を示す図である。探索領域の半径を決定する関数を示す図である。Ｆ１の映像に対する認識結果を示す図である。Ｆｏｒｍｕｌａ１（Ｆ１）の映像における広告看板の例を示す図である。局所領域の例を示す図である。局所不変特徴量を用いた対応付けの例を示す図である。

Claims

映像内の複数広告看板の認識方法において、映像のシーン画像と広告看板のモデル画像間の、
（ａ）局所不変特徴量を用いた仮対応付けを行うステップと、
（ｂ）射影変換による仮位置合せを行うステップと、
（ｃ）探索領域を制約した対応付けを行うステップと、
（ｄ）前記（ｃ）ステップで得られた対応点から射影変換を計算し、最終的な位置合せ結果を得て、かつ、その結果をモデル画像とシーン画像間の局所的な相関を用いて検証するステップとを有し、
これらのステップを必要な対応点数が得られない、射影変換が計算できない、最終的な位置合わせが正しくない、のうちいずれか一つの終了条件が満たされるまで逐次的に繰り返す処理を、対応点の数の仮説を複数設定してそれぞれに対して行い、その結果のうち認識された広告看板の数が最も多い結果を最終的な認識結果として選択することを特徴とする映像内の複数広告看板の認識方法。
請求項１記載の映像内の複数広告看板の認識方法において、前記（ａ）ステップでは、局所不変特徴量を用いて前記映像のシーン画像と前記広告看板のモデル間の対応点を得ると共に、設定された局所領域内の特徴量を表す記述子間の距離の比に基づく誤対応の除去を行う際、距離の比のしきい値をある特定の数の対応点が得られるまで段階的に大きくすることを特徴とする映像内の複数広告看板の認識方法。
請求項１記載の映像内の複数広告看板の認識方法において、前記（ｂ）ステップでは、射影変換によるモデル画像の変形を評価し、視点位置や認識対象の姿勢の変化では生じ得ない変形を投票より除去する機構を組み込んだＲＡＮＳＡＣにより射影変換を計算し、１つの認識対象のシーン画像内での大まかな位置を得ることを特徴とする映像内の複数広告看板の認識方法。
請求項１記載の映像内の複数広告看板の認識方法において、前記（ｃ）ステップでは、前記（ｂ）の仮位置合せの結果に基づき適応的に大きさが変化する探索領域を設定し、その探索領域内での対応付けにより１つの認識対象のみから前記対応点を得ることを特徴とする映像内の複数広告看板の認識方法。
請求項１記載の映像内の複数広告看板の認識方法において、前記（ｂ）ステップでは、さらに、前記射影変換による変換誤差を計算し、
認識された広告看板の数が同じ結果が複数存在する場合は、変換誤差の平均が最も小さい結果を最終的な認識結果として選択することを特徴とする映像内の複数広告看板の認識方法。