JP4753072B2 - 映像内の複数広告看板の認識方法 - Google Patents

映像内の複数広告看板の認識方法 Download PDF

Info

Publication number
JP4753072B2
JP4753072B2 JP2005329462A JP2005329462A JP4753072B2 JP 4753072 B2 JP4753072 B2 JP 4753072B2 JP 2005329462 A JP2005329462 A JP 2005329462A JP 2005329462 A JP2005329462 A JP 2005329462A JP 4753072 B2 JP4753072 B2 JP 4753072B2
Authority
JP
Japan
Prior art keywords
video
recognizing
advertising
corresponding points
projective transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005329462A
Other languages
English (en)
Other versions
JP2007140613A (ja
Inventor
直幸 市村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2005329462A priority Critical patent/JP4753072B2/ja
Publication of JP2007140613A publication Critical patent/JP2007140613A/ja
Application granted granted Critical
Publication of JP4753072B2 publication Critical patent/JP4753072B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、映像内の複数広告看板の認識方法に係り、特に局所不変特徴量に基づく複数広告看板の認識方法に関するものである。
モータースポーツ等のイベントのスポンサーは、出資の見返りとしてイベント会場に広告看板を設置できる。その場合、出資効果の確認のため、放送映像上での広告看板の露出時間や露出面積等を調べることは重要であり、この確認作業を自動化するためには、映像内の広告看板の認識が必要となる。
広告看板は、その大きさや設置場所、それをとらえるカメラの角度やズーム等により、様々な見え方で映像上に表れる。
図7に、Formula1(F1)の映像における広告看板の例を示す。図7(a)では、広告看板の大きさや設置場所の違いによるスケーリング、輝度変化、および視野逸脱と他の物体による隠れが生じている。図7(b)は、オンボードカメラの映像であり、スケーリングと斜めから見ることによる変形が生じている。これらの例が示すように、広告看板の認識では、認識対象の変形、輝度変化および隠れへの対処が問題となる。
認識対象の変形、輝度変化および隠れに対処する方法の1つに、局所不変特徴量の使用がある。局所不変特徴量の構成は、認識対象の変形と輝度変化に対して不変となる、複数の局所領域の設定とその領域内の特徴を表す記述子(descriptor)の計算により行われる。図8に、局所領域の例を示す。図中の四角形が、記述子を計算する局所領域を表す。複数の局所領域の使用により、認識対象の一部が隠れても、見えている部分の特徴量を用いて認識が行える。
局所不変特徴量には、局所領域の設定方法および記述子が異なるいくつかの種類がある。局所領域の設定方法には、スケールスペース内での特徴点抽出に基づく方法 (非特許文献1−8参照)、輝度の極値や領域分割に基づく方法
(非特許文献5,9,10,11参照)、エッジ抽出に基づく方法 (非特許文献11,12参照)等がある。また、記述子には、輝度の微分量 (非特許文献2,8参照)、局所領域形状を正規化した画像パッチ(非特許文献5参照)、モーメント特徴
(非特許文献9,10,11参照)、輝度勾配の方向ヒストグラム (非特許文献3,5,6,7,12参照)等が用いられる。これらの局所特徴量は、画像の幾何学的な相似変換もしくはアフィン変換、および輝度のアフィン変換に対して不変である。
C.Harris and G.Giraudon:“A combined corner and edge detector,” Proc.4th Alvey Vis.Conf.,pp.147−151,1988. C.Schmid and R.Mohr:“Local greyvalue invariants for image retrieval,”IEEE Trans.PAMI,Vol.19,No.5,pp.530−535,1997. D.Lowe:“Object recognition from local scaleinvariant features,”Proc.Int.Conf.Comp.Vis.,pp.1150−1157,1999. M.Brown and D.Lowe:“Invariant features from interest point groups,”Proc.British Machine Vis.Conf.,pp.656−665,2002. J.Sivic and A.Zisserman:“Video Google: a text retrieval approarch to object matching in videos,”Proc.Int.Conf.Comp.Vis.,Vol.2,pp.1470−1477,2003. M.Brown and D.Lowe:“Recognising panoramas,”Proc.Int.Conf.Comp.Vis.,Vol.2,pp.1218−1225,2003. D.Lowe:“Distinctive image features from scaleinvariant keypoints,”Int.J.Comp.Vis.,Vol.60,No.2,pp.91−110,2004. K.Mikolajczyk and C.Schmid:“Scale&affine invariant interest point detectors,”Int.J.Comp.Vis.,Vol.60,No.1,pp.63−86,2004. F.Schaffalitzky and A.Zisserman:“Viewpoint invariant texture matching and wide baseline stereo,”Proc.Int.Conf.Comp.Vis.,pp.636−643,2001. J.Matas,O.Chum,M.Urban and T.Pajdla:“Robust wide baseline stereo from maximally stable extremal regions,”Proc.British Machine Vis.Conf.,pp.384−393,2002. T.Tuytelaars and L.Van Gool:“Matching widely separated views based on affine invariant regions,”Int.J.Comp.Vis.,Vol.59,No.1,pp.61−85,2004. K.Mikolajczyk,A.Zisserman and C.Schmid:“Shape recognition with edge−based features,”Proc.British Machine Vis.Conf.,pp.384−393,2003. M.A.Fischler and R.C.Bolles:“Random Sample Consensus:A paradigm for model fitting with application to image analysis and automated cartography,”ACM Graphics and Image Processing,Vol.24,No.6,pp.381−395,1981. R.Hartley and A.Zisserman:“Multiple view geometry in computer vision,”2nd edition,Cambridge University Press,2003. K.Mikolajczyk and C.Schmid:“A performance evaluation of local descriptors,”Proc.Int.Conf.Comp.Vis.and Patt.Recog.,pp.384−393,2003. T.Moller and E.Haines:“Real−time rendering,”2nd edition,A.K.Peters,2002.
図9は局所不変特徴量を用いた対応付けの例を示す図である。
この図の左上に、認識対象のモデル画像を示している。この画像とシーン画像の記述子間の距離を求め、最近傍法により対応点を得た。特徴量の不変性により、認識対象のスケーリングや輝度変化、隠れに関わらずモデル画像とシーン画像内の認識対象の間で対応点が得られる。しかしながら、局所的に類似した部分が背景にあるため、誤対応が生じる。
また、シーン内に複数の同一認識対象が存在するため、複数の対象の対応点が混合される。
本発明は、上記状況に鑑みて、局所不変特徴量の使用により得られた誤対応や混合した対応点を含む対応付け結果から、個々の認識対象の対応点を分離し、それに基づいて認識を行うことができる映像内の複数広告看板の認識方法を提供することを目的とする。
本発明は、上記目的を達成掏るために、
〔1〕映像内の複数広告看板の認識方法において、映像のシーン画像と広告看板のモデル画像間の、(a)局所不変特徴量を用いた仮対応付けを行うステップと、(b)射影変換による仮位置合せを行うステップと、(c)探索領域を制約した対応付けを行うステップと、(d)最終的な位置合せと検証を行うステップとを有し、これらのステップを終了条件が満たされるまで逐次的に繰り返す処理を、複数の対応点数の仮説に対し行うことを特徴とする。
〔2〕上記〔1〕記載の映像内の複数広告看板の認識方法において、前記(a)ステップでは、局所不変特徴量を用いて前記映像のシーン画像と前記広告看板のモデル間の対応点を得ると共に、設定された局所領域内の特徴量を表す記述子間の距離の比に基づく誤対応の除去を行う際、距離の比のしきい値をある特定の数の対応点が得られるまで段階的に大きくすることを特徴とする。
〔3〕上記〔1〕記載の映像内の複数広告看板の認識方法において、前記(b)ステップでは、射影変換によるモデル画像の変形を評価し、視点位置や認識対象の姿勢の変化では生じ得ない変形を投票より除去する機構を組み込んだRANSACにより射影変換を計算し、1つの認識対象のシーン画像内での大まかな位置を得ることを特徴とする。
〔4〕上記〔1〕記載の映像内の複数広告看板の認識方法において、前記(c)ステップでは、前記(b)の仮位置合せの結果に基づき適応的に大きさが変化する探索領域を設定し、その探索領域内での対応付けにより1つの認識対象のみから前記対応点を得ることを特徴とする。
〔5〕上記〔1〕記載の映像内の複数広告看板の認識方法において、前記(d)ステップでは、前記(c)で得られた対応点から射影変換を計算し、最終的な位置合せ結果を得て、かつ、その結果をモデル画像とシーン画像間の局所的な相関を用いて検証することを特徴とする。
〔6〕上記〔1〕記載の映像内の複数広告看板の認識方法において、前記(a)、(b)、(c)、(d)のステップの終了条件が満たされるまで逐次的に繰り返すことを特徴とする。
〔7〕上記〔1〕記載の映像内の複数広告看板の認識方法において、前記(a)、(b)、(c)、(d)のステップを終了条件が満たされるまで逐次的に繰り返すことを、複数の対応点数の仮説に対して適用し、それらの結果から最終的な認識結果を選択することを特徴とする。
本発明では、1つの認識対象の対応点を背景や他の広告看板から分離することを、outlier(外れ値)を含んだ対応点に対するモデル当てはめ問題として取り扱う。ここでモデルとは、1つの認識対象の対応点が従う大局的な拘束を意味する。多くの広告看板は平面であるため、その大局的な拘束として射影変換(非特許文献14参照)が使用できる。よって、例えば、図9において、最も大きな認識対象の対応点へ射影変換を当てはめると、背景とその他の広告看板の対応点をoutlierとして分離できる。
outlierを含む対応点に対する射影変換の当てはめには、ロバスト推定の一種であるRANSAC(RANdom SAmple Consensus)(非特許文献13参照)が使用できる。しかし、outlierが多い場合、outlierを含むサンプルが偶然に最大の投票数を得て、誤った解が選択されることがある。誤対応を減少させる前処理は使用できるが(非特許文献7、11参照)、複数の同一認識対象から得られる混合された対応点は局所的に正しいため、大局的な拘束を当てはめる前にそれらの一部を取り除くことは困難である。よって、多くの誤対応を含んだ状態で射影変換の計算を行うことを、常に想定する必要がある。RANSACにおいて誤った解が選択されるのは、射影変換の自由度が高すぎ、視点位置や認識対象の姿勢の変化によっては起こり得ないモデル画像の変形まで表現されるためと考えられる。よって、正しい解を選択するためには、求めた射影変換によるモデル画像の変形を評価することが有効と言える。
本発明では、以下の4段階の処理からなる複数広告看板の認識方法を提供する。
(1)局所不変特徴量を用いた仮対応付け、(2)射影変換による仮位置合せ、(3)探索領域を制約した対応付け、(4)最終的な位置合せと検証である。
まず、上記(1)では、対応点を得ると共に、記述子間の距離の比に基づく誤対応の除去(非特許文献7参照)を行う。この際、距離の比に対してしきい値処理を行い、誤対応を除去する。距離の比のしきい値をどのようにして設定するかで対応点数が変化するが、本発明では、距離の比のしきい値をある特定の数の対応点が得られるまで段階的に大きくする機構を組み込む。この機構により、誤対応を除去しつつ、必要な数の対応点を得ることができる。上記(2)では、RANSACにより射影変換を計算し、1つの認識対象のシーン画像内での大まかな位置を得る。RANSACで正しい解を選択するため、求めた射影変換によるモデル画像の変形が、視点位置や物体姿勢の変化によって生じ得るものかどうかを評価する。上記(3)では、上記(2)の仮位置合せの結果により探索領域を制約し、対応点を得る。探索領域の大きさは、モデル画像の面積と上記(2)の仮位置合わせの結果より得られる認識対象の面積の比により適応的に変化させる。この探索領域の制約により、1つの認識対象の周辺のみから対応点を得ることができる。上記(4)では、上記(3)で得られた対応点から射影変換を計算し、最終的な位置合せ結果を得る。この結果の検証のため、変換後のモデル画像とシーン画像を正規化相関を用いて比較する。上記(1)〜(4)の処理を終了条件が満たされるまで繰り返し、複数広告看板を認識する。また、いくつの対応点を使えば適切な対象の分離が行えるかは背景やシーンに存在する認識対象の数、認識対象の隠れの度合い等に依存するため、複数の対応点数の仮説に対して上記の認識処理を行い、それらの結果から最終的な認識結果を選択する。
実画像を用いた実験を通じ、モデル画像が1枚のみでも、種々の状況での認識が可能なことを示す。
本発明によれば、以下のような効果を奏することができる。
(1)記述子間の距離の比に対するしきい値を段階的に変化させることにより、誤対応を除去しつつ、必要な数の対応点を得ることができる。
(2)モデル画像の変形に対する評価をRANSACに組み込むことにより、視点位置や認識対象の姿勢の変化では起き得ないモデル画像の変形を与える射影変換を、解の候補から除去することができる。
(3)探索領域の大きさをモデル画像の面積と仮位置合わせの結果より得られる認識対象の面積の比により適応的に変化させ、対象の大きさに応じた探索領域の制約ができる。
(4)複数の対応点数の仮説に対し認識処理を行うことにより、いろいろな背景の下でも、また、認識対象の数や認識対象の隠れの度合いが状況により異なっても、適切な認識対象の分離を行うことができる。
(5)上記(1)から(4)の機構により、結果として、背景や複数の広告看板が存在するシーンから、個々の広告看板の対応点を分離し、認識を行うことができる。
本発明の映像内の複数広告看板の認識方法は、映像のシーン画像と広告看板のモデル画像間の、(a)局所不変特徴量を用いた仮対応付けを行うステップと、(b)射影変換による仮位置合せを行うステップと、(c)探索領域を制約した対応付けを行うステップと、(d)最終的な位置合せと検証を行うステップとを有し、これらのステップを終了条件が満たされるまで逐次的に繰り返す処理を、複数の対応点数の仮説に対し行う。
以下、本発明の実施の形態について詳細に説明する。
ここでは、まず、対応付けに用いる局所不変特徴量について述べる。
図1は、広告看板のモデル画像の例を示す図である。
広告看板には文字が多く用いられ、テクスチャに乏しい。そのため、エッジに基づく局所不変特徴量を対応付けに用いる。
局所領域の設定には、Difference of Gaussian(DoG)によるスケールスペース内の極値に基づく特徴点抽出(非特許文献3,4,6,7参照)を用いる。この特徴点抽出の結果、特徴点の位置と特徴点が発見されたスケールが得られる。記述子としては、輝度勾配の方向ヒストグラム(非特許文献3,5,6,7,12参照)を用いる。DoGはエッジ抽出フィルタであるLaplacian of Gaussian(LoG)を近似するため、この記述子は多重スケールエッジの方向ヒストグラムとも解釈でき、テクスチャの乏しい画像にも有効と考えられる。
次に、記述子の計算の概要を述べる。特徴点の近傍領域で輝度勾配の方向ヒストグラムを求め、最も頻度の高い方向(Dominant Orientation)を得る。そして、図2のように、特徴点を中心として、その方向に回転させた局所座標系を作る。その座標系内で、特徴点のスケールに比例した大きさをもつ局所領域を設定し、それをいくつかのブロックに分割する。各ブロック内での輝度勾配の方向ヒストグラムを連結し、そのノルムを1に正規化して記述子とする。
スケールスペース内の極値は並行移動、スケール不変であり、最も頻度の高い輝度勾配の方向を基準とした回転角は回転不変であるため、上記の局所特徴量は相似変換に対して不変となる。実際には、ある程度のアフィン変換に対しても不変性を保つ(非特許文献7,15参照)。また、ノルムの正規化により、輝度のアフィン変換に対しても不変となる。
次に、この局所不変特徴量を用いた認識アルゴリズムを示す。
本発明では、提案する認識アルゴリズムを、以下の表現を用いて説明する。
モデル画像の局所不変特徴量を
m i ={pm i ,σm i ,dm
i },i=1,…,Nm
と表す。
ここで、pm i は同次座標で表した特徴点の位置、σm i は特徴点が発見されたスケール、dm
i は記述子、Nm i は特徴量の個数である。同様に、シーン画像の局所不変特徴量を
s j ={ps j ,σs j ,ds
j },j=1,…,Ns
とする。特徴量間の距離として、記述子間のユークリッド距離
ij=‖dm i −ds j
を用いる。
〔1〕局所不変特徴量を用いた仮対応付け
最近傍法では、特徴量fm i に対し、j1NN =arg minj ijのインデックスを持つ特徴量fs
j1NNを対応付ける。しかし、図9に示すように、最近傍法では多くの誤対応が生じる。この誤対応を減少させるため、次式を満たす対応点のみを使用する(非特許文献7参照)。
ij1NN /dij2NN <t,0≦t≦1 …(1)
ここで、j2NN =arg secondminj ij、つまり、2番目に近い特徴量のインデックスであり、tはしきい値である。上記式(1)は、最近傍の距離dij1NN
が、2番目に近い特徴量の距離dij2NN よりtで規定されるだけ離れていることを条件としている。
上記式(1)を用いて得られる対応点数は、tを大きくするにつれて増加し、t=1の最近傍法で最大となる。射影変換の計算には4点以上のinlierが必要であるため、それを確保するようにtを定める必要がある。本発明では、対応点数がある数Pmin
に達するまで、次式に従ってtを増加させた。
t(k+1)=αt(k) …(2)
α=1.01,t(0)=0.80,k=0,1,2,…
ここで、kは繰り返し回数、αはtの増加を制御する係数である。Pmin をいくつにすれば最低限必要なinlierを確保できるかは、シーンによって異なる。そのため、いくつかのPmin
を用いて認識を行う。その詳細は、〔6〕項で述べる。
図3は、認識処理の例を示す図である。
図3(b),図3(d)では、inlierのみを対応点として示している。また、位置合せ結果は四角形で表す。
図3(a)は上記式(1)を用いた仮対応付けを表し、Pmin =20の場合を示している。最近傍法を用いた図9に比べ、inlierを保持しつつoutlierを減少できている。しかし、複数の同一認識対象の対応点は混合されたままとなる。これらは局所的に正しいため、上記式(1)を用いても取り除けないのである。ある認識対象の射影変換の計算において、その他の対象の対応点は誤対応として働くため、混合した対応点はRANSACで誤った解が選択される要因になり得る。次項〔2〕で、正しい解を選択するための、モデル画像の変形に関する評価を導入したRANSACについて述べる。
〔2〕射影変換による仮位置合せ
対応点をC={pm k , ps k },k=1,…,Pと表す。この対応点を関係付ける射影変換をH(3×3行列)とし、変換誤差を次式で定義する。
k =‖ps k −Hpm k ‖,k=1,…,P …(3)
Hは、以下に示すRANSAC(非特許文献13参照)で計算できる。
(i)集合Cから、4つの対応点からなるサンプルをランダムに取り出す。
(ii)Direct Linear Transformation(DLT)アルゴリズム(非特許文献14参照)と上記式(3)の変換誤差の和を評価関数とする非線形最適化により、サンプルからHを求める。
(iii )全対応点に対して上記式(3)の変換誤差を計算し、次式を満たすinlierの数(投票数)Ni を求める。
k <ε,k=1,…,P …(4)
ここで、εはしきい値である。
(iv)(i)〜(iii )の処理を繰り返し、最大の投票数をもつinlierを得る。
(v)上記(iv)で得られたinlierよりHを計算する。
上記のアルゴリズムで、outlierを含むサンプルが偶然に最大の投票数を得る場合がある。この誤りが生じる主たる原因は、射影変換の自由度が高すぎ、視点位置や認識対象の姿勢の変化によっては起こり得ないモデル画像の変形まで表現されることだと考えられる。よって、解の選択の誤りを防ぐために、次の処理を(ii)の後に加え、射影変換によるモデル画像の変形を評価する。
(ii′)Hでモデル画像を変換した結果が、ねじれ四角形、もしくは、反転した四角形の場合には、上記(i)に戻る。そうでない場合は、(iii )に進む。
図4はRANSACで投票から除外される変形の例を示す図であり、図4(a)はねじれ四角形、図4(b)は反転した四角形である。これらの図に示すような変形は、視点位置や認識対象の姿勢の変化によっては生じない。このような生じ得ない変形に対応する射影変換に対しては、上記式(4)による投票を行わない。ねじれ四角形は、向かい合う2組の辺の変換後の交点位置が、変換後の頂点から構成される凸包内にあるかどうかで検出できる。反転した四角形は、符号付き面積(非特許文献16参照)の符号から検出できる。これらの検出のための計算は非常に効率が良いため、上記(ii′)の評価は、繰り返し計算を必要とするRANSACに適している。
図3(a)の対応点より10000個のサンプルを得て、射影変換を計算した結果、9899個の射影変換が、ねじれ四角形、または、反転した四角形に対応した。
このように、実際にRANSACで数多くの生じ得ない変形が表れることから、上記(ii′)の変形の評価は正しい解の選択のために有効であると言える。図3(b)に、上記式(4)でε=3〔pixel〕とした場合の仮位置合せ結果を示す。直線はinlierであり、四角形は射影変換によりモデル画像を変換した結果である。誤対応や混合した対応点が除去され、1つの認識対象の位置が得られている。
〔3〕探索領域を制約した対応付け
図3(b)に示すような仮位置合せの結果を用い、背景や他の広告看板の影響を排除した状態で、1つの認識対象の周辺のみから対応点を得ることができる。仮位置合せで得られた射影変換Hを用い、次の予測位置を求める。
この予測位置を中心に半径rの円形の探索領域を設定し、その中にある特徴量に対し上記式(1)を用いて対応付けを行う。1つしか対応点が見つからず、上記式(1)が評価できない場合には、その対応点を用いる。
探索領域の半径rは、図5に示す関数より決定する。図5は探索領域の半径を決定する関数であり、その横軸は変換前後のモデル画像の面積比a、縦軸は探索領域の半径rである。この関数により、シーン画像内の認識対象が大きいほど、探索領域を大きくする。後述の〔4〕項で用いる、最終的な位置合せにおけるRANSACのしきい値εおよび正規化相関を計算する局所領域の半径rについても、同様に面積比の関数として変化させる。図3(b)では、モデル画像と位置合せ結果を表す四角形の面積の比となる。この関数により、シーン画像内の認識対象の面積が大きいほど、探索領域を大きくする。面積比の最小値、最大値をamin
,amax とし、それぞれに対応する半径をrmin ,rmax としている。
図3(c)に、amin =1,amax =4,rmin =20〔pixel〕,rmax
=80〔pixel〕(画像サイズは720×480〔pixel〕)として得た対応点を示す。図3(b)でa=1.65であったため、r=33〔pixel〕となった。この半径を使用した探索領域の制約により、背景や他の広告看板の影響が排除され、1つの認識対象のみから対応点が得られている。
探索領域を制約した対応付けは、guided matchingと呼ばれ、射影変換や基礎行列の計算に使用されている(非特許文献14)。提案しているアルゴリズムでは、guided matchingは対応付けのためだけでなく、1つの認識対象の対応点のみを抽出するセグメンテーションとしても働いている点が重要である。
〔4〕最終的な位置合せと検証
探索領域を制約した対応付けにより得られる対応点を用い、前述の〔2〕項と同様にして射影変換Hを求める。上記式(4)のしきい値εは、図5に示す関数により決定する。つまり、シーン画像内の認識対象が大きいほど、前記式(3)の変換誤差を許容する。得られた射影変換によってモデル画像を変換し、最終的な位置合せ結果を得る。
その後に認識対象の検証を行う。Ni 個のinlierに対し、上記式(5)と同様に予測位置を求め、図5より得られる半径rをもつ局所領域を設定する。その局所領域の中で、Hにより変換したモデル画像とシーン画像の正規化相関NCCl
,l=1,…,Ni を求める(正規化相関は輝度のアフィン変換に対し不変であるので、処理全体において輝度不変性は保たれる)。そして、その平均値が次式を満たす場合に、最終的な位置合せは正しいと判断する。
図3(d)に、amin =1,amax =4,εmin =3〔pixel〕,εmax
=12〔pixel〕,γ=1.0(正規化相関はR,G,Bの各チャンネルで計算したため、〔0,3〕の値を持つ)として得た位置合せ結果を示す。より多くのinlierから射影変換が計算され、認識対象の位置が正しく得られている。上記式(6)のNCCl
の平均値は、2.32であった。
以上の〔1〕項から〔4〕項の処理により、図3において、複数の同一認識対象が存在するにも関わらず、1つの認識対象の分離に成功している。
〔5〕アルゴリズムの終了条件
最終的な位置合せが正しいと判断された場合、認識済みの広告看板がある領域内〔図3(d)では、認識結果を表す四角形内〕に位置する局所不変特徴量を取り除く。他の認識対象を認識するため、残った特徴量に対し〔1〕項から〔4〕項の処理を行う。これを以下の終了条件が満たされるまで繰り返す。(a)対応付けにおいて、Pmin
個以上の対応点が得られない。(b)射影変換の計算において、4点以上のinlierが得られない。(c)上記式(6)の条件が満たされない。それぞれの条件は、局所的な類似性がない場合、大局的な拘束を満たさない場合、位置合せ結果が誤っている場合、に対応する。
〔6〕対応点数に対する複数仮説
対応点数をPmin 個確保するため、上記式(1)のしきい値tを上記式(2)により変化させる。Pmin をいくつにすれば4点以上のinlierが確保できるかはシーンに依存し、事前に予測できない。そのため、Pmin
=20,60,120の3つの場合に対し認識を行う。3つの認識結果を得た後、認識された広告看板の数が最も多い結果を選択する。広告看板の数が同じ場合には、上記式(3)の変換誤差の平均が最も小さい結果を選択する。このように、対応点数に対する複数の仮説を使用することにより、同一認識対象の数や隠れの度合いが異なる種々のシーンに対応できる。
次に実験について述べる。
実験の題材として、広告看板の見え方の変化が比較的大きいF1の映像を選択した。5つの広告看板を認識対象とし、図6の各画像の上部にモデル画像を示している。各認識対象に対し、モデル画像は、図6に示した1枚のみを与えている。
記述子の次元数は、図2に示す局所領域内のブロック数、および各ブロックでの輝度勾配の方向ヒストグラムのbin数により決まる。本実験では、8×8ブロック、bin数16とした。よって、記述子の次元数は8×8×16=1024となる。これ以外のパラメータは、図3に対する値を参照されたい。
図6に、F1の映像に対する認識結果を示す。図6(a)、(b)にはスケーリング、輝度変化および隠れがある。図6(c)では、金網による隠れや輝度変化、および車体と視野逸脱による隠れがある。図6(d)、図6(e)ではスケーリング、視点の位置による変形、輝度変化がある。図6(f)はヘリコプターのカメラからの映像であり、輝度変化と隠れがある。このように各シーンには種々の変形、輝度変化および隠れがあるが、これらの図に示すように、モデル画像が1枚のみでも、提案方法によって種々の状況下での認識に成功している。
なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、これらを本発明の範囲から排除するものではない。
本発明の映像内の複数広告看板の認識方法は、放送映像上での広告看板の露出時間や露出面積等を調べる確認作業を自動化する、映像内の広告看板の認識ツールとして好適である。
広告看板のモデル画像の例を示す図である。 記述子の計算の概要の説明図である。 認識処理の例を示す図である。 RANSACで投票から除外される変形の例を示す図である。 探索領域の半径を決定する関数を示す図である。 F1の映像に対する認識結果を示す図である。 Formula1(F1)の映像における広告看板の例を示す図である。 局所領域の例を示す図である。 局所不変特徴量を用いた対応付けの例を示す図である。

Claims (5)

  1. 映像内の複数広告看板の認識方法において、映像のシーン画像と広告看板のモデル画像間の、
    (a)局所不変特徴量を用いた仮対応付けを行うステップと、
    (b)射影変換による仮位置合せを行うステップと、
    (c)探索領域を制約した対応付けを行うステップと、
    (d)前記(c)ステップで得られた対応点から射影変換を計算し、最終的な位置合せ結果を得て、かつ、その結果をモデル画像とシーン画像間の局所的な相関を用いて検証するステップとを有し、
    これらのステップを必要な対応点数が得られない、射影変換が計算できない、最終的な位置合わせが正しくない、のうちいずれか一つの終了条件が満たされるまで逐次的に繰り返す処理を、対応点数の仮説を複数設定してそれぞれに対して行い、その結果のうち認識された広告看板の数が最も多い結果を最終的な認識結果として選択することを特徴とする映像内の複数広告看板の認識方法。
  2. 請求項1記載の映像内の複数広告看板の認識方法において、前記(a)ステップでは、局所不変特徴量を用いて前記映像のシーン画像と前記広告看板のモデル間の対応点を得ると共に、設定された局所領域内の特徴量を表す記述子間の距離の比に基づく誤対応の除去を行う際、距離の比のしきい値をある特定の数の対応点が得られるまで段階的に大きくすることを特徴とする映像内の複数広告看板の認識方法。
  3. 請求項1記載の映像内の複数広告看板の認識方法において、前記(b)ステップでは、射影変換によるモデル画像の変形を評価し、視点位置や認識対象の姿勢の変化では生じ得ない変形を投票より除去する機構を組み込んだRANSACにより射影変換を計算し、1つの認識対象のシーン画像内での大まかな位置を得ることを特徴とする映像内の複数広告看板の認識方法。
  4. 請求項1記載の映像内の複数広告看板の認識方法において、前記(c)ステップでは、前記(b)の仮位置合せの結果に基づき適応的に大きさが変化する探索領域を設定し、その探索領域内での対応付けにより1つの認識対象のみから前記対応点を得ることを特徴とする映像内の複数広告看板の認識方法。
  5. 請求項1記載の映像内の複数広告看板の認識方法において、前記(b)ステップでは、さらに、前記射影変換による変換誤差を計算し、
    認識された広告看板の数が同じ結果が複数存在する場合は、変換誤差の平均が最も小さい結果を最終的な認識結果として選択することを特徴とする映像内の複数広告看板の認識方法。
JP2005329462A 2005-11-14 2005-11-14 映像内の複数広告看板の認識方法 Expired - Fee Related JP4753072B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005329462A JP4753072B2 (ja) 2005-11-14 2005-11-14 映像内の複数広告看板の認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005329462A JP4753072B2 (ja) 2005-11-14 2005-11-14 映像内の複数広告看板の認識方法

Publications (2)

Publication Number Publication Date
JP2007140613A JP2007140613A (ja) 2007-06-07
JP4753072B2 true JP4753072B2 (ja) 2011-08-17

Family

ID=38203432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005329462A Expired - Fee Related JP4753072B2 (ja) 2005-11-14 2005-11-14 映像内の複数広告看板の認識方法

Country Status (1)

Country Link
JP (1) JP4753072B2 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10192279B1 (en) 2007-07-11 2019-01-29 Ricoh Co., Ltd. Indexed document modification sharing with mixed media reality
US8838591B2 (en) 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US8335789B2 (en) 2004-10-01 2012-12-18 Ricoh Co., Ltd. Method and system for document fingerprint matching in a mixed media environment
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US8825682B2 (en) 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US7702673B2 (en) 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US8156116B2 (en) 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US8144921B2 (en) * 2007-07-11 2012-03-27 Ricoh Co., Ltd. Information retrieval using invisible junctions and geometric constraints
US8521737B2 (en) 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US9373029B2 (en) 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US8369655B2 (en) 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US8332401B2 (en) 2004-10-01 2012-12-11 Ricoh Co., Ltd Method and system for position-based image matching in a mixed media environment
US8856108B2 (en) 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US7812986B2 (en) 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US8510283B2 (en) 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US8600989B2 (en) 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US8949287B2 (en) 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US8385589B2 (en) 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US8176054B2 (en) 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US8676810B2 (en) 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
US9020966B2 (en) 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US8201076B2 (en) 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
JP5365969B2 (ja) * 2007-11-13 2013-12-11 富士ゼロックス株式会社 画像処理装置及びプログラム
JP2012501011A (ja) * 2008-08-22 2012-01-12 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 画像解析方法及びシステム
US8385660B2 (en) 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
JP5604923B2 (ja) * 2010-03-23 2014-10-15 大日本印刷株式会社 注視点計測装置、注視点計測方法、プログラムおよび記憶媒体
JP5476264B2 (ja) * 2010-09-22 2014-04-23 日本放送協会 カメラトラッキング装置およびそのプログラム
US8792728B2 (en) 2010-09-27 2014-07-29 Hewlett-Packard Development Company, L.P. Near-duplicate image detection
WO2012061134A2 (en) * 2010-10-25 2012-05-10 Lockheed Martin Corporation Estimating position and orientation of an underwater vehicle relative to underwater structures
US8942062B2 (en) * 2010-10-25 2015-01-27 Lockheed Martin Corporation Detecting structural changes to underwater structures
JP5549605B2 (ja) * 2011-01-13 2014-07-16 新日鐵住金株式会社 視線位置検出装置、視線位置検出方法、及びコンピュータプログラム
JP5519556B2 (ja) * 2011-03-09 2014-06-11 Kddi株式会社 解析対象画像の中から参照画像に基づく物体を認識する画像解析装置、サーバ、プログラム及び方法
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
JP6248647B2 (ja) 2014-01-22 2017-12-20 富士通株式会社 画像照合方法、画像処理システム、及びプログラム
JP6832268B2 (ja) * 2017-11-15 2021-02-24 日本電信電話株式会社 検証装置、方法、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4492036B2 (ja) * 2003-04-28 2010-06-30 ソニー株式会社 画像認識装置及び方法、並びにロボット装置

Also Published As

Publication number Publication date
JP2007140613A (ja) 2007-06-07

Similar Documents

Publication Publication Date Title
JP4753072B2 (ja) 映像内の複数広告看板の認識方法
US11288823B2 (en) Logo recognition in images and videos
US11210797B2 (en) Systems, methods, and devices for image matching and object recognition in images using textures
EP3975123A1 (en) Map constructing method, positioning method and system, wireless communication terminal, and computer-readable medium
Huang et al. Copy-move forgery detection for image forensics using the superpixel segmentation and the Helmert transformation
Zhu et al. Logo matching for document image retrieval
US9530218B2 (en) Method for classification and segmentation and forming 3D models from images
Pang et al. Training-based object recognition in cluttered 3d point clouds
US20230099984A1 (en) System and Method for Multimedia Analytic Processing and Display
Abidin et al. Copy-move image forgery detection using deep learning methods: a review
Uchiyama et al. Toward augmenting everything: Detecting and tracking geometrical features on planar objects
CN110852311A (zh) 一种三维人手关键点定位方法及装置
Hinterstoisser et al. N3m: Natural 3d markers for real-time object detection and pose estimation
CN114863464B (zh) 一种pid图纸图件信息的二阶识别方法
KR101753360B1 (ko) 시점 변화에 강인한 특징점 정합 방법
Wang et al. Spatially prioritized and persistent text detection and decoding
Bibissi et al. Dual spin-image: A bi-directional spin-image variant using multi-scale radii for 3D local shape description
JP5004082B2 (ja) 文書画像検索方法、文書画像登録方法、そのプログラムおよび装置
Avazov et al. Automatic moving shadow detection and removal method for smart city environments
Diaa A Deep Learning Model to Inspect Image Forgery on SURF Keypoints of SLIC Segmented Regions
Mignotte Symmetry detection based on multiscale pairwise texture boundary segment interactions
US8928815B1 (en) System and method for outdoor scene change detection
Denton et al. An algorithm for projective point matching in the presence of spurious points
Anvaripour et al. Accurate object detection using local shape descriptors
Yang et al. Robust random dot markers: Towards augmented unprepared maps with pure geographic features

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110511

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees