JP4268497B2

JP4268497B2 - 距離情報付加装置、付加映像生成装置、付加映像生成方法及び距離情報付加プログラム

Info

Publication number: JP4268497B2
Application number: JP2003355619A
Authority: JP
Inventors: 正樹高橋; 清一合志; 俊彦三須
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2003-10-15
Filing date: 2003-10-15
Publication date: 2009-05-27
Anticipated expiration: 2023-10-15
Also published as: JP2005123823A

Description

本発明は、映像制作の技術に関し、特に被写体を撮影した映像に、ある地点から被写体までの距離に関する情報を付加した映像を生成する距離情報付加装置、付加映像生成装置、付加映像生成方法及び距離情報付加プログラムに関する。

従来、被写体について撮影した映像から被写体を検出する技術は多数提案され、例えば、ボールなどの動体の軌跡の計測方法が提案されている（特許文献１参照）。この方法では、ボールなどの動体をカメラで撮影し、撮影した画像の差分画像を記録することで、動体のみを抽出した画像を生成し、動体の軌跡を記録している。

また、ゴルフボールを撮影した映像と空力係数とを用いてゴルフボールの動きをシミュレーションし、軌道や飛距離を算出するシミュレーション装置が提案されている（特許文献２参照）。このシミュレーション装置は、予め測定したゴルフボールの空力係数を登録しておき、ゴルフボールを打撃した直後の映像から、ゴルフボールの速度や飛び出し角度等を解析し、その後の軌跡のシミュレーションをするものである。
特開平６−３２３８５２号公報（段落０００５〜０００６）特開２００３−２４４９３号公報（段落０００５〜０００６）

しかし、特許文献１の方法では、フレーム画像から被写体の画像を抽出するため、軌跡画像を生成することはできるものの、画像内での被写体の位置を自動に検出することはできず、さらに、撮影した映像内の被写体を、実空間における被写体の位置に対応付けて、実空間のある地点と被写体との距離に関する情報を得ることはできない。

また、特許文献２の装置は、打撃直後の被写体を撮影し、この映像から被写体の初速度や飛び出し角度のみを計測するものであって、実際に被写体を撮影した映像から、映像内の被写体を実空間における被写体の位置に対応付けて、撮影時点での実空間上のある地点から被写体までの距離等を算出することはできない。さらに、被写体の空力係数に基づいて軌道をシミュレーションするものであるので、ある初速度を持って空中に打ち出される物体に対してしか適用できず、また予め空力係数を測定しておかなければならないので、適用できる被写体が限定される。そして、軌道や飛距離等を解析するための処理も複雑であるので解析に時間がかかり、例えば、生放送される映像に被写体との距離に関する情報を付加する場合には適用できないという問題があった。

本発明は、前記従来技術の課題を解決するために成されたもので、被写体を撮影した映像に、実空間上のある地点から当該被写体までの距離に関する情報をリアルタイムで付加することができる距離情報付加装置、付加映像生成装置、付加映像生成方法及び距離情報付加プログラムを提供することを目的とする。

前記課題を解決するため、請求項１に記載の距離情報付加装置は、目的とする被写体についてカメラにより撮影した映像を構成し時系列に入力されるフレーム画像内の前記被写体の位置を検出する被写体検出装置から、前記フレーム画像内における前記被写体の位置を入力し、他のカメラによって前記被写体について撮影した他の映像に、当該被写体から所定の基準点までの距離を示す距離情報を付加する距離情報付加装置であって、実空間距離解析手段と、画像合成手段とを備える構成とした。

かかる構成によれば、距離情報付加装置は、実空間距離解析手段によって、フレーム画像内における被写体の位置と、フレーム画像が撮影された際のカメラのカメラパラメータとに基づいて、被写体から基準点までの距離である実空間距離を解析する。さらに、画像合成手段によって、他のカメラでこの被写体について撮影した他の映像を構成するフレーム画像に、実空間距離を示す画像を合成する。

これによって、距離情報付加装置は、被写体検出装置から入力された、フレーム画像内における被写体の位置と、この被写体を撮影したカメラのカメラパラメータとに基づいて、所定の基準点から被写体までの実空間における距離である実空間距離を算出し、この実空間距離を距離情報として映像に付加することができる。

ここで、カメラパラメータとは、カメラの位置、パン、チルト、ロール、ズームなどのデータである。このカメラの位置は、実空間上でのカメラ位置が特定できるものであり、また、パン、チルト、ロールは、カメラの視線方向の基準となる向きからの水平方向の角度と、鉛直方向の角度と、視線方向を軸とした回転角で表すことができる。例えば、実空間に対応する仮想空間を設定し、この仮想空間の座標によって、カメラの位置や向き（パン、チルト、ロール）を表しても良い。

また、所定の基準点は、実空間上の任意の場所に設定することができ、例えば、被写体を撮影した映像内に含まれていない場所であっても、カメラの位置に対するこの基準点の位置が特定できれば、基準点と被写体との距離を算出することができる。

さらに、実空間距離は、実空間における被写体から基準点までの距離であり、１台のカメラによって被写体を撮影した映像のフレーム画像内の被写体の位置から解析されるようにしても良い。このとき、実空間距離を、例えば、地表面上の被写体から基準点までの距離、又は、フレーム画像内の被写体が地表面上にあると仮定して算出された、被写体と基準点との距離の近似値として算出することができる。また、実空間距離は、１つの被写体に対して複数のカメラによって撮影した各々の映像のフレーム画像内の被写体の位置から解析されるようにしても良い。このとき、複数のフレーム画像内の被写体の位置から、被写体の３次元位置を解析することで、実空間距離を解析することができる。そして、他の映像を構成するフレーム画像に、例えば、実空間距離を文字で示す画像などの、実空間距離を示す画像を合成することで、距離情報が付加された映像を生成することができる。

また、他のカメラによって前記被写体を撮影した他の映像を構成するフレーム画像は、被写体検出手段によって被写体の位置の検出を行ったフレーム画像と同時刻に撮影されたものであり、この他の映像を構成するフレーム画像に実空間距離を示す画像を合成することで、この他の映像を構成するフレーム画像内の被写体に対応した実空間距離を距離情報として付加することができる。つまり、実空間距離は、被写体検出手段によって被写体の位置の検出を行ったフレーム画像に基づいて算出するため、このフレーム画像が撮影された時点での距離が算出される。そして、このフレーム画像と同時刻に撮影された他の映像のフレーム画像に実空間距離を示す画像を付加することで、他の映像を構成するフレーム画像が撮影された時点での実空間距離を距離情報としてこのフレーム画像に付加することができる。

また、ここでいう同時刻とは、他の映像を構成するフレーム画像の被写体と、このフレーム画像に合成される実空間距離との整合性が取れていれば良く、例えば、被写体の位置を検出するフレーム画像が撮影された際にカメラからこのフレーム画像が入力されるタイミングと、他のカメラから他の映像のフレーム画像が入力されるタイミングとの僅かなずれのような、他の映像を構成するフレーム画像の被写体と実空間距離との整合性に影響のない程度の時間の誤差を含むものであっても良い。

また、請求項２に記載の距離情報付加装置は、請求項１に記載の距離情報付加装置において、前記他の映像を構成するフレーム画像が撮影された際の前記他のカメラのカメラパラメータに基づいて、前記他の映像を構成するフレーム画像に対応した、所定の地点からの所定距離を示す画像である距離画像を生成する距離画像生成手段を備え、前記画像合成手段は、前記距離画像生成手段で生成された距離画像を、前記他の映像を構成するフレーム画像に合成する構成とした。

かかる構成によれば、距離情報付加装置は、前記他の映像を構成するフレーム画像が撮影された際の他のカメラのカメラパラメータに基づいて、前記他の映像を構成するフレーム画像に対応した、所定の地点からの所定の距離を示す画像である距離画像を生成し、画像合成手段によって、この距離画像を前記他の映像を構成するフレーム画像に合成する。これによって、付加映像生成装置は、ある地点から所定距離離れた地点や範囲を表示した映像を生成することができる。

ここで、距離画像とは、実空間上のある地点から所定距離離れた位置にある場所を、距離画像が合成される他の映像を構成するフレーム画像上で示すための画像であり、実空間上におけるこの地点の位置とカメラパラメータとに基づいて生成することができる。ここで、距離画像は、例えば、ある地点から所定の方向に所定距離離れた場所の、他の映像を構成するフレーム画像内における位置に図形を作画した画像でも良いし、また、ある地点から所定距離以内にある範囲を表す曲線等を作画した画像でも良い。この距離画像をフレーム画像毎に前記他の映像を構成するフレーム画像に合成することで、付加映像生成装置は、実空間のある地点から所定距離離れた地点や範囲を示す画像を付加したフレーム画像から構成される映像を生成することができる。

これによって、距離情報付加装置は、被写体検出装置から入力された、フレーム画像内における被写体の位置と、この被写体を撮影したカメラのカメラパラメータとに基づいて、所定の基準点から被写体までの実空間における距離である実空間距離を算出し、このフレーム画像に実空間距離を距離情報として映像に付加することができる。

また、請求項４に記載の付加映像生成装置は、目的とする被写体についてカメラにより撮影した映像から前記被写体の位置を検出し、他のカメラによって前記被写体について撮影した他の映像に、当該被写体から所定の基準点までの距離を示す距離情報を付加する付加映像生成装置であって、被写体検出手段と、実空間距離解析手段と、画像合成手段を備える構成とした。

かかる構成によれば、付加映像生成装置は、被写体検出手段によって、被写体について撮影した映像を構成し時系列に入力されるフレーム画像の中から被写体の位置を検出する。また、実空間距離解析手段によって、被写体検出手段で解析されたフレーム画像内における被写体の位置と、フレーム画像が撮影された際のカメラのカメラパラメータとに基づいて、被写体から基準点までの距離である実空間距離を解析する。

さらに、画像合成手段によって、実空間距離解析手段で解析された実空間距離を示す画像を、他のカメラによって被写体について撮影した他の映像を構成するフレーム画像に合成する。これによって、被写体を撮影した映像から、所定の基準点から被写体までの距離である実空間距離を算出し、この実空間距離を距離情報として、被写体を撮影した映像に付加することができる。

ここで、フレーム画像から被写体を検出する方法は、例えば、差分画像から動体を検出する方法や、被写体の色や形状などの特徴に基づいて被写体を検出する方法などの、様々な被写体検出方法によって実現することができる。

さらに、請求項５に記載の付加映像生成装置は、請求項４に記載の付加映像生成装置において、前記被写体検出手段は、解析した前記フレーム画像内における前記被写体の位置に基づいて、次に入力されるフレーム画像内の被写体の探索領域を推定し、この探索領域内から被写体の位置を検出する構成とした。

かかる構成によれば、付加映像生成装置は、被写体検出手段によって解析したフレーム画像内における被写体の位置に基づいて、次に入力されるフレーム画像内の被写体の探索領域を推定し、この探索領域内から被写体の位置を検出する。これによって、付加映像生成装置は、探索領域を限定して被写体の位置の検出を行うため、フレーム画像の全範囲から被写体を探索する場合と比べて、被写体検出手段によって解析する演算量を減らすことができ、被写体検出の処理速度を向上させることができる。

また、請求項６に記載の付加映像生成方法は、目的とする被写体についてカメラにより撮影した映像から前記被写体の位置を検出し、他のカメラによって前記被写体について撮影した他の映像に、当該被写体から所定の基準点までの距離を示す距離情報を付加する付加映像生成方法であって、被写体検出ステップと、実空間距離解析ステップと、画像合成ステップとを含むことを特徴とする。

この方法によれば、被写体検出ステップによって、目的とする被写体についてカメラにより撮影した映像を構成し時系列に入力されるフレーム画像の中から、被写体の位置を検出する。続いて、実空間距離解析ステップによって、被写体検出ステップで解析された、フレーム画像内における被写体の位置と、フレーム画像が撮影された際のカメラのカメラパラメータとに基づいて、被写体から基準点までの距離である実空間距離を解析する。

そして、画像合成ステップによって、この実空間距離を示す画像を、他のカメラによって被写体について撮影した他の映像を構成するフレーム画像に合成する。これによって、被写体を撮影した映像から、所定の基準点から被写体までの距離である実空間距離を算出し、この実空間距離を距離情報として、被写体を撮影した映像に付加することができる。

また、請求項７に記載の距離情報付加プログラムは、目的とする被写体についてカメラにより撮影した映像を構成し時系列に入力されるフレーム画像内の前記被写体の位置を検出する被写体検出装置から、前記フレーム画像内における前記被写体の位置を入力し、前記被写体について撮影した他の映像に、当該被写体から所定の基準点までの距離を示す距離情報を付加するために、コンピュータを、実空間距離解析手段、画像合成手段として機能させることとした。

かかる構成によれば、距離情報付加プログラムは、実空間距離解析手段によって、フレーム画像内における被写体の位置と、フレーム画像が撮影された際のカメラのカメラパラメータとに基づいて、被写体から基準点までの距離である実空間距離を解析する。さらに、画像合成手段によって、実空間距離解析手段で解析された実空間距離を示す画像を、他のカメラによって被写体について撮影した他の映像を構成するフレーム画像に合成する。

これによって、距離情報付加プログラムは、被写体検出装置から入力された被写体の位置と、この被写体を撮影したカメラのカメラパラメータとに基づいて、被写体について撮影した映像から、所定の基準点から被写体までの距離である実空間距離を算出し、この実空間距離を距離情報として映像に付加することができる。

本発明に係る距離情報付加装置、付加映像生成装置、付加映像生成方法及び距離情報付加プログラムでは、以下のような優れた効果を奏する。

請求項１、請求項４、請求項６又は請求項７に記載の発明によれば、目的とする被写体について撮影した映像に、被写体から所定の基準点までの距離を示す距離情報を付加した付加映像を生成することができる。これによって、被写体について撮影した映像から、被写体の距離に関する情報を、手作業を伴わずに自動で解析できる。そのため、膨大な数のフレーム画像について手作業の処理をする必要がなくなり、処理を高速に行えるとともに、制作コストを削減することができる。そして、映像を視聴する視聴者に対して、被写体の距離に関する情報を被写体とともに提示することができる映像をリアルタイムで提供できる。また、入力されたフレーム画像毎に実空間距離を算出し、フレーム画像と同時刻に被写体について撮影した他のフレーム画像に、実空間距離を示す画像を合成するので、撮影した時点での被写体に対応した実空間距離を付加することができる。

請求項２に記載の発明によれば、ある地点から所定距離離れた地点や範囲を、被写体について撮影した映像上に表示することができる。そのため、ある地点から被写体までの距離の情報を数値などでフレーム画像に付加すると同時に、この地点あるいは他の地点からの所定の距離の範囲を示す画像（図形等）をフレーム画像上に合成するため、視聴者に対して効果的に距離の情報を提示できる映像を生成することができる。

請求項５に記載の発明によれば、フレーム画像から被写体の位置の検出を行う際に、探索領域を限定して検出を行うため、フレーム画像の全範囲から被写体を探索する場合と比べて被写体検出手段によって解析する演算量を減らし、被写体検出の処理速度を向上させることができる。そのため、撮影時点からの時間遅れをほとんど生じさせずに、付加映像を生成できるようになり、例えば、スポーツ番組等の生中継の映像などに適用して、リアルタイム性を保持したまま、撮影した映像に距離情報を付加した映像を生成することができる。

以下、本発明の実施の形態について図面を参照して説明する。
［付加映像生成装置の構成］
図１は本発明における付加映像生成装置の構成を示したブロック図である。付加映像生成装置１は、被写体について撮影した映像から被写体の位置を検出し、被写体について撮影した他の映像に、被写体の距離に関する情報を付加した映像を生成するものである。

ここでは、付加映像生成装置１は、入力手段１０と、被写体検出手段２０と、距離情報付加手段４０と、出力手段６０とを備えている。また、付加映像生成装置１は、被写体について撮影した映像を生成するセンサーカメラ２と、被写体について撮影した他の映像を生成し、同時にカメラパラメータを出力する放送カメラ装置３とを外部に接続している。

ここで、センサーカメラ２は予め所定位置に設置され、その位置とカメラの視線方向は固定されているものとする。また、放送カメラ装置３は、撮影者によって実空間上を移動させることができ、カメラの視線方向も自由に変化させることができるものである。この放送カメラ装置３は、映像を生成する放送カメラ３ａ及び放送カメラ雲台３ｂと、この放送カメラ３ａの視線方向とカメラレンズの位置等を、放送カメラ雲台３ｂと放送カメラ３ａとから検出してカメラパラメータを生成するエンコーダ３ｃとを備える。そして、付加映像生成装置１には、この放送カメラ装置３の位置、放送カメラ３ａを横方向に動かすパン、上下方向に動かすチルト、放送カメラの視線方向を軸として回転させるロール、映像内の被写体を拡大・縮小するようにカメラレンズを動かすズーム等のカメラパラメータが、エンコーダ３ｃから入力される。

入力手段１０は、被写体について撮影した映像をセンサーカメラ２から入力するものである。このセンサーカメラ２から入力される映像は、複数のフレーム画像から構成され、時系列に入力される。入力されたセンサーカメラ２のフレーム画像は被写体検出手段２０へ出力される。

被写体検出手段（被写体検出装置）２０は、入力手段１０から入力されるフレーム画像の中から、被写体の位置を検出するものである。この被写体検出手段２０は、被写体候補画像生成部２１、検出データ記憶手段２２、被写体位置検出部２３及び探索領域推定部２４とを備えている。

被写体候補画像生成部２１は、入力手段１０から入力された、センサーカメラ２によって撮影された映像から、その映像を構成するフレーム画像毎に、検出対象となる被写体の候補を抽出した被写体候補画像を生成するものである。ここでは、被写体候補画像生成部２１は、輝度画像生成部２１１と、輪郭画像生成部２１２と、差分画像生成部２１３と、被写体候補抽出部２１４とを備えている。

輝度画像生成部２１１は、入力された映像（カラー映像）のフレーム画像から、フレーム画像をモノクロ（グレースケール）化した輝度画像を生成するものである。この輝度画像生成部２１１は、例えば、フレーム画像の各画素値を構成する色のＲＧＢ成分の平均値を算出し、新しい画素値とすることで輝度画像を生成する。ここで生成された輝度画像は、被写体候補抽出部２１４に出力される。

輪郭画像生成部２１２は、入力された映像のフレーム画像から、フレーム画像の輝度に基づいて、輪郭（エッジ）を抽出した輪郭画像を生成するものである。この輪郭画像生成部２１２は、例えば、フレーム画像の隣接する画素の輝度の変化を検出することで輪郭を検出する。なお、輪郭画像生成部２１２は、輝度画像生成部２１１で生成された輝度画像から、輪郭を抽出することとしてもよい。ここで生成された輪郭画像は、被写体候補抽出部２１４に出力される。

差分画像生成部２１３は、時系列に入力されるフレーム画像から、異なる時間に入力されたフレーム画像（例えば、現在のフレーム画像と、その前に入力されたフレーム画像）間の輝度の差を画素値とした差分画像を生成するものである。なお、差分画像生成部２１３は、輝度画像生成部２１１で異なる時間に生成された輝度画像から、差分画像を生成することとしてもよい。ここで生成された差分画像は、被写体候補抽出部２１４に出力される。

被写体候補抽出部２１４は、輝度画像生成部２１１、輪郭画像生成部２１２及び差分画像生成部２１３で生成された輝度画像、輪郭画像及び差分画像に基づいて、被写体の候補を抽出した被写体候補画像を生成するものである。ここでは、被写体候補抽出部２１４は、画像積算部２１４ａと、２値化部２１４ｂと、ノイズ除去部２１４ｃとを備えて構成されている。

画像積算部２１４ａは、輝度画像、輪郭画像及び差分画像にそれぞれ重みを持たせて加算することで、被写体を抽出するための画像（抽出用画像）を生成するものである。ここで、生成された抽出用画像は、２値化部２１４ｂに出力される。

この画像積算部２１４ａは、例えば、ある時刻ｔにおける輝度画像ｙの座標（ｘ，ｙ）の画素値をｙ（ｘ，ｙ，ｔ）、輪郭画像ｅの座標（ｘ，ｙ）の画素値をｅ（ｘ，ｙ，ｔ）、差分画像ｄの座標（ｘ，ｙ）の画素値をｄ（ｘ，ｙ，ｔ）とし、輝度画像、輪郭画像及び差分画像のそれぞれの重み係数をｗ_y、ｗ_e及びｗ_dとしたとき、抽出用画像ｇの座標（ｘ，ｙ）の画素値ｇ（ｘ，ｙ，ｔ）を、以下の（１）式により算出する。

ここで重み係数（ｗ_y、ｗ_e及びｗ_d）は、抽出する被写体の特性によって予め定めておくものとする。例えば、被写体が、背景画像に比べて輝度差が大きい場合は、輝度画像又は輪郭画像の重み係数を大きくしておく。また、被写体の動きが大きい場合は、差分画像の重み係数を大きくしておく。このように、輝度画像、輪郭画像及び差分画像にそれぞれ重みを持たせることで、生成される抽出用画像は、抽出しようとする被写体の特性を表している画素の値が大きく表現されることになる。

２値化部２１４ｂは、画像積算部２１４ａで生成された抽出用画像を２値化することで、複数の被写体の候補を抽出するものである。例えば、抽出用画像の画素値が予め定めた閾値以上の場合に、画素値を“１（白）”、それ以外の場合に“０（黒）”とすることで２値化画像を生成する。これによって、例えば、画素値が“１（白）”となる領域を被写体の候補として抽出することができる。ここで生成された２値化画像は、ノイズ除去部２１４ｃに出力される。

ノイズ除去部２１４ｃは、２値化部２１４ｂで生成された２値化画像から、被写体の候補のうち微細なものをノイズとして除去するものである。このノイズ除去部２１４ｃは、例えば、２値化画像に収縮処理と膨張処理とを施すことでノイズを除去する。ここでノイズを除去された２値化画像は、被写体の候補を抽出した被写体候補画像として、被写体位置検出部２３に出力される。

ここで、収縮処理とは、近傍に１画素でも“０（黒）”の画素値を持つ画素の画素値を“０（黒）”とする処理である。また、膨張処理とは、近傍に１画素でも“１（白）”の画素値を持つ画素の画素値を“１（白）”とする処理である。この収縮処理によって、微小な“１（白）”の画素値を有する領域を消去することができる。そして、この画素値を有する領域を消去する段階では、被写体の候補の領域である“１（白）”の画素値を持つ領域は収縮された状態となるので、膨張処理によって、被写体の候補の領域を膨張させる。これによって、ノイズを除去した２値化画像が生成される。

以上説明した被写体候補抽出部２１４では、画像積算部２１４ａで生成された抽出用画像に対して、２値化部２１４ｂによって２値化処理を行い、ノイズ除去部２１４ｃによって収縮処理及び膨張処理を行うことで、ノイズを除去した２値化画像を生成したが、抽出用画像を平滑化した後に２値化を行うことで、ノイズを除去することとしてもよい。

検出データ記憶手段２２は、検出対象となる被写体を選択するための条件を記憶するもので、一般的なハードディスク等の記憶媒体である。この検出データ記憶手段２２には、種々の抽出条件を示す抽出条件データ２２ａと、被写体の位置を示す被写体位置データ２２ｂとを記憶している。

抽出条件データ２２ａは、抽出すべき被写体の抽出条件を記述した情報であって、例えば、面積、輝度、色、アスペクト比及び円形度の少なくとも１つ以上の抽出条件を記述したものである。この抽出条件データ２２ａは、後記する被写体位置検出部２３が、被写体候補画像生成部２１で生成された被写体候補画像から、抽出すべき被写体を選択するためのフィルタ（面積フィルタ、輝度フィルタ、色フィルタ、アスペクト比フィルタ及び円形度フィルタ）の条件となるものである。

なお、抽出条件データ２２ａには、面積フィルタ、輝度フィルタ、色フィルタ、アスペクト比フィルタ及び円形度フィルタの条件として、予め定めた初期値と、その許容範囲を示す閾値とを記憶しておく。これによって、閾値外の特徴を持つ被写体の候補を、抽出すべき被写体の候補から外すことができる。

ここで、面積は、例えば、被写体の候補の画素数を示す。また、輝度は、被写体の候補における各画素の輝度の平均値を示す。また、色は、被写体の候補における各画素の色（例えばＲＧＢ値）の平均値を示す。なお、この色については、予め背景となる画像の背景色を初期値として、その背景色からの変化量を閾値としてもよい。

また、アスペクト比は、被写体の候補の縦方向の最大長と、横方向の最大長との比を示す。また、円形度は、形状の複雑さを示す指標であって、円形に近いほど大きな値を有するものである。この円形度ｅは、被写体の候補の面積をＳ、周囲長をｌとしたとき、以下の（２）式で表される。

例えば、抽出対象の被写体がボールのような円形の形状を有するものの場合は、抽出条件の円形度は、１に近い値に設定しておけばよい。

被写体位置データ２２ｂは、フレーム画像内での被写体の位置を示す情報である。この被写体位置データ２２ｂは、例えば、被写体の重心位置とする。この重心座標は後記する被写体解析部２３ｃによって算出される。なお、この被写体位置データ２２ｂは、抽出条件データ２２ａに合致する被写体の候補が複数存在する場合に、被写体位置データ２２ｂで示した座標に最も近い画像を、抽出すべき被写体として決定するための抽出条件として機能する。

被写体位置検出部２３は、被写体候補画像生成部２１で生成された被写体候補画像の中から、検出データ記憶手段２２に記憶されている抽出条件（抽出条件データ２２ａ）に基づいて、検出対象となる被写体を選択し、フレーム画像内での被写体の位置を検出するものである。ここでは、被写体位置検出部２３は、ラベリング部２３ａと、被写体選択部２３ｂと、被写体解析部２３ｃを備えて構成されている。

ラベリング部２３ａは、被写体候補画像生成部２１で生成された被写体候補画像（２値化画像）の中で、被写体の候補となる領域に対して番号（ラベル）を付すものである。すなわち、ラベリング部２３ａは、被写体の候補の領域である“１（白）”の画素値を持つ連結した領域（連結領域）に対して１つの番号を付す。これによって、被写体候補画像内の被写体の候補が番号付けされたことになる。

被写体選択部２３ｂは、ラベリング部２３ａで番号付けされた被写体の候補毎に、検出データ記憶手段２２に記憶されている抽出条件（抽出条件データ２２ａ）に合致する被写体かどうかを判定することで、検出対象となる被写体を選択するものである。ここで選択された被写体の番号（ラベル）は、被写体解析部２３ｃに出力される。

すなわち、被写体選択部２３ｂは、被写体の候補毎に、検出データ記憶手段２２に記憶されている抽出条件データ２２ａで示される抽出条件（例えば、面積、輝度、色、アスペクト比及び円形度）に基づいて、フィルタリングを行うことで、抽出条件を満たす被写体の候補を、抽出すべき被写体として選択する。

なお、被写体選択部２３ｂは、色に基づいてフィルタリングを行う場合、センサーカメラ２から入力された映像のフレーム画像から、被写体に対応する領域の色の平均値を算出し、抽出条件データ２２ａで示される抽出条件に基づいてフィルタリングを行う。

被写体解析部２３ｃは、被写体選択部２３ｂで選択されたラベルに対応する被写体を解析し、フレーム画像内での被写体の位置を解析するものである。ここで解析した被写体の位置は、距離情報付加手段４０の実空間距離解析手段４１に出力される。また、ここで抽出した被写体の位置は、現在の被写体の位置情報として、検出データ記憶手段２２の被写体位置データ２２ｂに書き込まれる。

ここでフレーム画像内での被写体の位置としては、被写体の重心位置、多角形近似の頂点座標、スプライン曲線の制御点座標等を用いることができる。なお、被写体選択部２３ｂで複数の被写体の候補が選択された場合は、例えば、１フレーム前のフレーム画像で抽出した被写体の位置に最も近い被写体を、検出する被写体として特定する。

なお、ここで被写体解析部２３ｃが被写体の面積、輝度、色等についても解析し、この面積、輝度、色等を抽出条件データ２２ａに記憶するようにし、これに基づいて、被写体選択部２３ｂが次フレーム画像の被写体候補画像から被写体を選択するようにしても良い。さらに、被写体解析部２３ｃが被写体の存在領域を解析し、探索領域推定部２４が、この被写体の存在領域に基づいて、次フレーム画像の探索領域の大きさを推定するようにしても良い。

探索領域推定部２４は、被写体位置検出部２３で検出されたフレーム画像内での被写体の位置（重心座標等）に基づいて、次に入力されるフレーム画像における、被写体の探索領域を推定するものである。ここで、探索領域推定部２４は、例えば、重心座標にカルマンフィルタ（Ｋａｌｍａｎｆｉｌｔｅｒ）等を適用することで、次フレーム画像における被写体の位置を予測し、探索領域を推定することができる。ここで推定された探索領域は、被写体候補画像生成部２１に出力される。

距離情報付加手段（距離情報付加装置）４０は、放送カメラ３ａから入力されるフレーム画像に合成する実空間距離と距離画像を生成し、放送カメラ３ａのフレーム画像に合成するものである。この距離情報付加手段４０は、実空間距離解析手段４１、放送カメラパラメータ取得手段４２、距離画像生成手段４３、入力手段４４、映像遅延部４５、画像合成手段４６及び解析データ記憶手段４７を備えている。

実空間距離解析手段４１は、被写体検出手段２０の被写体解析部２３ｃによって解析された、センサーカメラ２のフレーム画像内における被写体の位置と、後記する解析データ記憶手段４７に記憶された、センサーカメラ２のカメラパラメータであるセンサーカメラパラメータ４７ｂとに基づいて、実空間における被写体の位置から基準点までの距離である実空間距離を解析するものである。この実空間距離解析手段４１は、被写体位置変換部４１ａと、実空間距離解析部４１ｂとを備えている。

被写体位置変換部４１ａは、被写体解析部２３ｃによって解析された、センサーカメラ２のフレーム画像内における被写体の位置を、実空間に対応させて変換し、実空間における被写体の位置を算出するものである。この被写体位置変換部４１ａは、透視変換と同次変換とによって、センサーカメラ２のフレーム画像内における被写体の位置を、実空間に対応させて変換することで、実空間における被写体の位置を算出することができる。

つまり、被写体位置変換部４１ａは、実空間に対応するグローバル座標を設定し、グローバル座標上におけるセンサーカメラ２の位置を原点とするセンサーカメラ座標軸を設定する。そして、被写体位置変換部４１ａは、被写体解析部２３ｃから入力された、センサーカメラ２のフレーム画像内における被写体の位置に基づいて、このセンサーカメラ座標上に被写体の位置を設定する。さらに、被写体位置変換部４１ａは、この被写体の位置座標をセンサーカメラ座標からグローバル座標に変換することで、実空間における被写体の位置を算出することができる。

ここで、図２を参照（適宜図１参照）して、ゴルフボールとカップとを撮影したセンサーカメラ２のフレーム画像内におけるゴルフボール（被写体）の位置を、透視変換と同次変換とによって、実空間に対応するグローバル座標に変換する例について説明する。図２は、センサーカメラ座標上の被写体（ゴルフボール）の位置を、実空間に対応するグローバル座標に変換する例を説明するための説明図である。

例えば、図２に示すように、カップの位置を原点Ｏとする、地表面Ｆ上のＸ軸とこのＸ軸に直交するＹ軸、鉛直方向にＺ軸を設定して、この３次元座標（グローバル座標）によって実空間上の基準点とセンサーカメラ２の位置を表す場合に、解析データ記憶手段４７にはセンサーカメラパラメータ４７ｂとして、センサーカメラの位置Ｏ_C1、センサーカメラ２の視線方向の基準となる向きからの横方向の回転角であるパンα、上下方向の回転角であるチルトδ、視線方向を回転軸とした回転角であるロールφ（図示せず）と、映像内の被写体を拡大・縮小するようにカメラレンズを動かすズーム等が予め記憶され、また、地点位置データ４７ａとして、カップの位置Ｏが予め記憶されているとする。

すると、被写体位置変換部４１ａは、解析データ記憶手段４７に記憶された地点位置データ４７ａのカップの位置に基づいてグローバル座標を設定し、解析データ記憶手段４７に記憶されたセンサーカメラパラメータ４７ｂに基づいて、グローバル座標上にセンサーカメラの位置を設定し、センサーカメラ座標軸を設定する。つまり、被写体位置変換部４１ａは、図２に示すように、カップの位置Ｏを原点としてグローバル座標軸（Ｘ軸、Ｙ軸、Ｚ軸）を設定し、このグローバル座標上にセンサーカメラの位置Ｏ_C1を設定する。そして、被写体位置変換部４１ａは、センサーカメラの位置Ｏ_C1を原点として、センサーカメラ座標軸であるｘ軸、ｙ軸、ｚ軸を設定する。図２では、Ｙ軸に平行なｚ軸を設定し、このｚ軸をセンサーカメラ２の視線方向の基準となる方向とし、また、Ｘ軸と平行なｘ軸、Ｚ軸と平行で逆向きのｙ軸を設定している。

ここで、被写体解析部２３ｃから、センサーカメラ２のフレーム画像内における被写体の位置（例えば、フレーム画像平面上の被写体の重心座標）として（ｘ_p1，ｙ_p1）が入力されたとすると、被写体位置変換部４１ａは、センサーカメラ座標上の被写体（ゴルフボール）の位置ｐ１を（ａｘ_p1，ａｙ_p1，ａｆ₁）と仮定する。なお、ｆ₁はセンサーカメラ２の焦点距離、ａは未知の係数である。また、このセンサーカメラの焦点距離ｆ₁は、解析データ記憶手段４７に記憶されているセンサーカメラパラメータ４７ｂのズームから算出することができるものである。

このとき、センサーカメラ座標からグローバル座標への変換行列Ｒ_C1は、以下に示す（３）式で表される。なお、Ｓはｚ軸方向がカメラの視線方向であるときの、センサーカメラ座標からグローバル座標への変換行列である。また、α、δ、φは、センサーカメラ２の視線方向の基準となる向きであるｚ軸方向に対する、カメラの視線方向の傾きを表すパンα、チルトδ、ロールφである。

そして、被写体位置変換部４１ａは、（３）式の変換行列Ｒ_C1によって被写体の位置ｐ１をセンサーカメラ座標からグローバル座標に変換する。ここで、グローバル座標上のセンサーカメラの位置Ｏ_C1の位置ベクトルをＴ^Gとすると、グローバル座標に変換された被写体の位置ｐ１の位置ベクトルをＰ^Gは、以下に示す（４）式によって算出される。

ここで、被写体であるゴルフボールが地表面Ｆ上にあると仮定し、グローバル座標上の被写体の位置ｐ１を（Ｘ_p1 ^G，Ｙ_p1 ^G，Ｚ_p1 ^G）とした場合に、グローバル座標上の被写体の位置ベクトルＰ^GのＺ成分であるＺ_p1 ^Gは、Ｚ_p1 ^G＝０となる。そのため、被写体位置変換部４１ａは、（４）式がＺ_p1 ^G＝０を満たすようにａの値を設定して、グローバル座標上の被写体の位置ｐ１を算出する。

なお、ここでは、カップの位置を原点としてグローバル座標軸を設定し、このグローバル座標によって表された、実空間上の基準点等の位置やセンサーカメラ２の位置が、解析データ記憶手段４７に記憶されていることとし、これに基づいて被写体位置変換部４１ａはグローバル座標とセンサーカメラ座標とを設定して、センサーカメラ２のフレーム画像内における被写体の位置をグローバル座標に変換しているが、このグローバル座標の原点や座標軸は任意の位置と方向に設定することができる。そしてこのとき、このグローバル座標に基づいた、実空間上の基準点やセンサーカメラ２の位置が解析データ記憶手段４７に記憶され、被写体位置変換部４１ａが、この設定に基づいてグローバル座標を設定して被写体の位置の変換を行うことで、後記する実空間距離解析部４１ｂによって実空間距離を算出することができる。

図１に戻って説明を続ける。実空間距離解析部４１ｂは、被写体位置変換部４１ａによって解析された、実空間における被写体の位置から、実空間上の基準点までの距離である実空間距離を算出するものである。ここで、実空間距離解析部４１ｂは、被写体位置変換部４１ａによって解析された実空間上の被写体の位置と、解析データ記憶手段４７に記憶された基準点の位置（地点位置データ４７ａ）とに基づいて、実空間における被写体の位置から基準点までの距離である実空間距離を算出することができる。ここで算出された実空間距離は、画像合成手段４６に出力される。

放送カメラパラメータ取得手段４２は、放送カメラ装置３のエンコーダ３ｃから放送カメラ３ａのカメラパラメータを取得するものである。このカメラパラメータは、後記する入力手段４４から入力される放送カメラ３ａの映像を構成するフレーム画像毎に、放送カメラパラメータ取得手段４２によって取得される。取得された放送カメラ３ａのカメラパラメータは距離画像生成手段４３へ出力される。

距離画像生成手段４３は、放送カメラパラメータ取得手段４２から入力された放送カメラ３ａのカメラパラメータに基づいて、実空間上の所定の地点からの所定距離を示す画像である距離画像を生成するものである。ここで生成された距離画像は、画像合成手段４６に出力される。

ここで、距離画像生成手段４３は、実空間上の所定の地点からの所定距離を示す図形（例えば、所定の地点を中心とした同心円など）を、放送カメラ３ａから入力される映像のフレーム画像に対応させて変換する（変形させる）ことで、距離画像を生成する。この実空間上の所定の地点からの所定距離を示す図形の変換は、透視変換と同次変換とによって行うことができる。

つまり、距離画像生成手段４３は、実空間に対応するグローバル座標を設定し、このグローバル座標上における放送カメラ３ａの位置を原点とする放送カメラ座標軸を設定する。そして、距離画像生成手段４３は、解析データ記憶手段４７に記憶された実空間上の所定の地点の位置（地点位置データ４７ａ）に基づいて、このグローバル座標上にこの地点から所定距離を示す図形を生成する。さらに、被写体位置変換部４１ａは、この図形を、放送カメラパラメータ取得手段４２から入力された放送カメラ３ａのカメラパラメータに基づいて、グローバル座標から放送カメラ３ａのフレーム画像平面上の座標に変換することで、この図形を放送カメラ３ａのフレーム画像に対応させて変換することができる。

ここで、図３を参照（適宜図１参照）して、放送カメラ３ａによって、ゴルフボールとカップとを撮影したフレーム画像内に、カップから１ｍ、３ｍ、５ｍの距離を示す距離線を合成する場合に、距離画像生成手段４３がグローバル座標上に、カップの位置から１ｍ、３ｍ、５ｍの距離を示す図形を生成し、この図形上の一点を、透視変換と同次変換によって放送カメラ３ａのフレーム画像平面上の座標に変換する例について説明する。図３は、グローバル座標上の所定の地点からの所定距離を示す図形を、グローバル座標から放送カメラ座標に変換する例を説明するための説明図である。

例えば、解析データ記憶手段４７には、地点位置データ４７ａとしてカップの位置Ｏが予め記憶されているとする。そこで、距離画像生成手段４３は、被写体位置変換部４１ａと同様にして、図３に示すような、カップの位置を原点Ｏとするグローバル座標軸を設定し、グローバル座標上にカップの位置Ｏを中心とする円で表される、カップから１ｍの距離を示す距離線ｄ１と、３ｍの距離を示す距離線ｄ２と、５ｍの距離を示す距離線ｄ３とを生成する。

ここで、放送カメラパラメータ取得手段４２から、放送カメラ３ａの位置Ｏ_C2と、Ｙ軸に平行なｚ軸を放送カメラ３ａの視線方向の基準となる方向としたときのパンα、チルトδ及びロールφ（図示せず）と、ズームとが放送カメラ３ａのカメラパラメータとして入力されたとする。すると、距離画像生成手段４３は、放送カメラ３ａのカメラパラメータに基づいて、グローバル座標上に放送カメラの位置Ｏ_C2を設定する。そして、距離画像生成手段４３は、図３に示すように、放送カメラの位置Ｏ_C2を原点として、放送カメラ座標軸であるｘ軸、ｙ軸、ｚ軸を設定する。

このとき、放送カメラ座標からグローバル座標への変換行列Ｒ_C2は、以下に示す（５）式で表される。なお、Ｓはｚ軸方向がカメラの視線方向であるときの、放送カメラ座標からグローバル座標への変換行列である。また、α、δ、φは、放送カメラ３ａの視線方向の基準となる向きであるｚ軸方向に対する、放送カメラ３ａの視線方向の傾きを表すパンα、チルトδ、ロールφである。

そして、グローバル座標から放送カメラ座標への変換行列Ｒ_Gは、以下に示す（６）式のようになる。また、Ｔは行列の転置を表している。

ここで、例えば、距離線ｄ２上の点ｐ２を、放送カメラ３ａのフレーム画像平面上の座標に変換する場合について説明すると、グローバル座標上の点ｐ２は、（６）式の変換行列Ｒ_Gによって、をグローバル座標から放送カメラ座標に変換される。つまり、図３に示すように、グローバル座標上の点ｐ２の位置ベクトルをＰ^Gとし、グローバル座標上のセンサーカメラの位置Ｏ_C2の位置ベクトルをＴ^G、放送カメラ座標上の点ｐ２の位置を（Ｘ_p2 ^C2，Ｙ_p2 ^C2，Ｚ_p2 ^C2）とし、点ｐ２の放送カメラ座標の位置ベクトルをＬ^C2とすると、放送カメラ座標上の点ｐ２の位置ベクトルをＬ^C2は、以下に示す（７）式によって算出される。

そして、点ｐ２のフレーム画像平面上の座標は（ｆ₂Ｘ_p2 ^C2／Ｚ_p2 ^C2，ｆ₂Ｙ_p2 ^C2／Ｚ_p2 ^C2）となる。なお、ｆ₂は放送カメラ３ａの焦点距離で、放送カメラパラメータ取得手段４２から入力される放送カメラ３ａのズームから、算出することができるものである。このようにして、グローバル座標上の距離線ｄ１，ｄ２，ｄ３のすべての点について、（７）式に基づいてグローバル座標からフレーム画像平面上の座標に変換することで、距離画像生成手段４３は、距離線ｄ１，ｄ２，ｄ３をフレーム画像平面上の座標に変換し、距離画像を生成することができる。

また、ここでは、カップの位置を原点としてグローバル座標軸を設定し、このグローバル座標によって表された実空間上の地点の位置が、解析データ記憶手段４７に記憶され、また、このグローバル座標によって表された放送カメラ３ａの位置が放送カメラ装置３から入力されることとし、これに基づいて距離画像生成手段４３は、放送カメラ座標を設定して、グローバル座標上の図形を放送カメラ３ａのフレーム画像平面上の座標に変換しているが、このグローバル座標の原点や座標軸は任意の位置と方向に設定することができる。そしてこのとき、このグローバル座標に基づいて実空間に対応した地点が解析データ記憶手段４７に記憶され、また、このグローバル座標に基づいた放送カメラ３ａの位置が放送カメラ装置３から入力されるようにすることで、距離画像生成手段４３が、この設定に基づいてグローバル座標を設定して図形の変換を行うことができる。

図１に戻って説明を続ける。入力手段４４は、被写体について撮影した映像を放送カメラ３ａから入力するものである。この放送カメラ３ａから入力される映像は、複数のフレーム画像から構成され、時系列に入力される。入力された放送カメラ３ａのフレーム画像は映像遅延部４５へ出力される。

映像遅延部４５は、入力手段４４から入力された放送カメラ３ａのフレーム画像を、実空間距離解析手段４１によって解析された実空間距離と、距離画像生成手段４３によって生成された距離画像とに同期させるために、例えば、数フレーム遅延させるものである。これによって、後記する画像合成手段４６によって、実空間距離と距離画像と放送カメラ３ａのフレーム画像とを同期させて合成でき、放送カメラ３ａのフレーム画像に対応した距離情報を付加することができる。ここで、遅延された放送カメラ３ａのフレーム画像は画像合成手段４６へ出力される。

画像合成手段４６は、実空間距離解析部４１ｂから入力された実空間距離と、距離画像生成手段４３から入力された距離画像とを、映像遅延部４５から入力された放送カメラ３ａのフレーム画像に合成して、付加画像を生成するものである。この付加画像は、放送カメラ３ａによって撮影された映像に距離情報を付加した付加映像を構成するフレーム画像となるものであり、出力手段６０に出力される。

ここで、図４を参照（適宜図１参照）して、画像合成手段４６が、付加画像を生成する例について説明する。図４（ａ）は、映像遅延部から入力された、放送カメラのフレーム画像の例を示した説明図、図４（ｂ）は、距離画像生成手段によって生成された距離画像の例を示した説明図、図４（ｃ）は、画像合成手段によって生成された付加画像の例を示した説明図である。

図４（ａ）に示すように、放送カメラ３ａによってカップＡとゴルフボールＢとが撮影されたフレーム画像が、映像遅延部４５から入力されたとする。また、実空間距離解析部４１ｂによって、ゴルフボールとカップとの実空間距離が算出されて、実空間距離として「４．５ｍ」が画像合成手段４６に入力されたとする。さらに、図４（ｂ）に示すように、距離画像生成手段４３によって、カップから１ｍの距離を示す距離線ｄ１、３ｍの距離を示す距離線ｄ２及び５ｍの距離を示す距離線ｄ３に、カップから各距離線までの距離を表す文字ｊ１，ｊ２，ｊ３とが付加された距離画像が生成され、この距離画像が画像合成手段４６に入力されたとする。すると、画像合成手段４６は、図４（ａ）の放送カメラ３ａのフレーム画像に、「カップまで４．５ｍ」という文字（図４（ｃ）の文字Ｊ）を付加（合成）し、さらに、図４（ｂ）に示す距離画像を合成して、図４（ｃ）の画像（付加画像）を生成する。

図１に戻って説明を続ける。解析データ記憶手段４７は、距離情報付加手段４０において、実空間距離の解析と距離画像の生成に必要となる種々のデータを記憶するもので、半導体メモリ、ハードディスク等の一般的な記録媒体である。ここでは、解析データ記憶手段４７に、地点位置データ４７ａ及びセンサーカメラパラメータ４７ｂを記憶することとした。

地点位置データ４７ａは、実空間距離解析手段４１が実空間距離を解析する際に必要となる基準点の位置や、距離画像生成手段４３が、距離画像を生成する際に必要となる実空間上の地点の位置等のデータを記憶するものである。そしてこの地点位置データ４７ａは、実空間距離解析手段４１によって、実空間における被写体の位置から、実空間上の基準点までの距離である実空間距離を算出する際に参照されて用いられる。また、距離画像生成手段４３によって、実空間上の所定の地点からの所定距離を示す距離画像を生成する際に参照されて用いられる。

センサーカメラパラメータ４７ｂは、実空間距離解析手段４１が実空間距離を解析する際に必要となる、センサーカメラ２のカメラパラメータを記憶するものである。このセンサーカメラ２のカメラパラメータには、実空間におけるセンサーカメラの位置、センサーカメラ２の横方向の回転角であるパンα、上下方向の回転角であるチルトδ、視線方向を回転軸とした回転角であるロールφと、映像内の被写体を拡大・縮小するようにカメラレンズを動かすズーム等がある。このセンサーカメラパラメータ４７ｂは、実空間距離解析手段４１によって、センサーカメラ２のフレーム画像内における被写体の位置を実空間に対応させて変換し、実空間距離を解析する際に参照されて用いられる。

出力手段６０は、画像合成手段４６から入力された付加画像を外部へ出力するものである。

以上、本発明に係る付加映像生成装置１の構成について説明したが、本発明はこれに限定されるものではない。例えば、センサーカメラ２のフレーム画像から被写体を検出する方法には、被写体の候補となる画像を抽出し、この画像から被写体を検出する方法を適用したが、これらの被写体検出方法に付加して、あるいは置き換えて、他の被写体検出方法を適用しても良い。また、ここでは、被写体の候補となる画像（被写体候補画像）を生成する方法として、輝度画像、輪郭画像及び他のフレーム画像との差分画像をそれぞれ生成し、これらの画像を積算して被写体候補画像を生成するようにしているが、例えば、輝度画像、輪郭画像及びの差分画像のうち１つの画像を生成して被写体候補画像としても良く、この場合には、画像積算部２１４ａによる画像の積算を行う必要はない。

また、付加映像生成装置１は、外部に複数のセンサーカメラ（図示せず）を接続し、各センサーカメラ２に１つずつ入力手段１０と被写体検出手段２０とを備える構成としても良い。この場合、被写体検出手段２０は、各々に入力されるセンサーカメラ２のフレーム画像から被写体の位置の検出を行い、被写体の位置を実空間距離解析手段４１に出力する。そして、解析データ記憶手段４７は、センサーカメラパラメータ４７ｂとして複数のセンサーカメラのカメラパラメータを予め記憶し、実空間距離解析手段４１は、入力された被写体の位置に対応するセンサーカメラのカメラパラメータに基づいて、被写体検出手段２０から入力された被写体の位置から実空間距離を解析する。

これによって、例えば、被写体の移動範囲が大きく、１台の固定されたセンサーカメラでは撮影できない範囲にまで被写体が移動する場合でも、複数のセンサーカメラを設置することで、いずれかのセンサーカメラによって常に被写体を撮影でき、この映像に基づいて付加画像を生成することが可能になる。

さらに、本実施の形態の付加映像生成装置１では、外部に接続しているセンサーカメラ２は予め固定されて設置されていることとしたが、センサーカメラ２は、例えば撮影者によってカメラの向き、位置、ズーム等が変えられるようにしても良い。この場合、センサーカメラ２は、センサーカメラの雲台（図示せず）と、センサーカメラ２及び雲台からセンサーカメラ２の位置、視線方向及びカメラレンズの位置等を検出してセンサーカメラ２のカメラパラメータを生成するエンコーダ（図示せず）とを備えるものとする。

また、距離情報付加手段４０は、センサーカメラ２のフレーム画像毎に、エンコーダからカメラパラメータを取得するセンサーカメラパラメータ取得手段（図示せず）を備えるようにする、そして、実空間距離解析手段４１は、このセンサーカメラパラメータ取得手段から入力されるセンサーカメラ２のカメラパラメータに基づいて、実空間距離を解析する。これによって、付加映像生成装置１は、センサーカメラ２の位置や向きが変化した場合でも、センサーカメラ２のカメラパラメータに基づいて実空間距離を解析して、付加映像を生成することができるようになり、１台のセンサーカメラによって広範囲を撮影し、この映像に基づいて付加画像を生成することが可能になる。

また、本実施の形態の付加映像生成装置１では、放送カメラ３ａによって撮影されたフレーム画像に距離情報を付加する構成としたが、外部にセンサーカメラ２のみを接続し、このセンサーカメラ２のフレーム画像から被写体の位置を検出し、さらにこのセンサーカメラ２のフレーム画像に実空間距離と距離画像を合成するようにしても良い。

この場合、距離画像生成手段４３は、解析データ記憶手段４７のセンサーカメラパラメータ４７ｂのカメラパラメータに基づいて、距離画像を生成し、映像遅延部４５は、入力手段１０からセンサーカメラ２のフレーム画像を入力する。そして、画像合成手段４６は、映像遅延部４５から入力されたセンサーカメラ２のフレーム画像に実空間距離と距離画像とを合成する。

また、センサーカメラ２の位置や視線方向等を撮影者によって変えられるようにする場合には、センサーカメラ２は雲台とエンコーダ（図示せず）とを備えるものとする。そして、距離情報付加手段４０は、センサーカメラのエンコーダからセンサーカメラのカメラパラメータを取得するセンサーカメラパラメータ取得手段（図示せず）を備えるようにする。さらに、センサーカメラパラメータ取得手段から入力されたセンサーカメラのカメラパラメータに基づいて、実空間距離解析手段４１は、実空間距離を解析し、距離画像生成手段４３は距離画像を生成するようにする。そして、画像合成手段４６は、映像遅延部４５から入力されたセンサーカメラ２のフレーム画像に実空間距離と距離画像とを合成することで付加画像を生成できる。これによって、センサーカメラ２で撮影した映像のフレーム画像から被写体の位置を検出し、センサーカメラの映像に実空間距離と距離情報とを付加することができるため、放送カメラを外部に接続する必要がなくなる。

さらに、付加映像生成装置１は、実空間距離として、フレーム画像内の被写体が地表面上にあると仮定して算出された、被写体と基準点との距離の近似値を算出するものであるが、センサーカメラ２の設置位置を地表面から鉛直上方向に十分に離れた位置にすれば、被写体が地表面に近い位置にない場合でも、地表面上にあると仮定したことで生じる実空間距離の誤差を小さくすることができる。そのため、地表面上にある被写体だけでなく様々な動体（被写体）に対して適用することができ、このような被写体について撮影した映像に、実空間距離等の距離情報を付加する付加映像生成装置１とすることができる。

さらに、本発明に係る付加映像生成装置１は、コンピュータ１台に全ての構成を持たせても良く、あるいは、１つ又は複数の被写体検出手段と距離情報付加手段とをコンピュータ数台に分けて持たせ、ネットワークを介してデータを移動させて、全体で付加映像生成装置１として機能させる構成としても良い。また、被写体検出手段２０の検出データ記憶手段２２と、距離情報付加手段４０の解析データ記憶手段４７とに記憶したデータは、１つの記憶手段に記憶しても良く、あるいは、複数の記憶手段に記憶することとしても良い。

なお、付加映像生成装置１の被写体検出手段２０は、一般的なコンピュータにプログラム（被写体検出プログラム）を実行させ、コンピュータ内の演算装置や記憶装置を動作させることで実現することができる。また、付加映像生成装置１の距離情報付加手段４０は、一般的なコンピュータにプログラム（距離情報付加プログラム）を実行させ、コンピュータ内の演算装置や記憶装置を動作させることで実現することができる。この被写体検出プログラムと距離情報付加プログラムは、通信回線を介して配布することもできるし、また、ＣＤ−ＲＯＭ等の記録媒体に記録して配布することも可能である。

［付加映像生成装置の動作］
次に、図５乃至図８を参照（適宜図１参照）して、本発明における付加映像生成装置１の動作について説明する。図５は、本発明における付加映像生成装置が、センサーカメラによって被写体について撮影した映像から被写体の位置を検出し、放送カメラによって被写体について撮影した映像に、実空間距離と距離画像とからなる距離情報を付加した付加映像を生成する動作を示したフローチャートである。図６は、付加映像生成装置の被写体検出手段が、センサーカメラによって被写体について撮影した映像を構成するフレーム画像から被写体の位置を検出する動作（被写体検出動作）を示したフローチャートである。図７は、付加映像生成装置の実空間距離解析手段が、センサーカメラのフレーム画像内における被写体の位置に基づいて、実空間上の基準点から被写体までの距離を解析する動作（実空間距離解析動作）を示したフローチャートである。図８は、付加映像生成装置の距離画像生成手段が、放送カメラのフレーム画像に対応する、実空間上の所定の地点からの所定距離を示す距離画像を生成する動作（距離画像生成動作）を示したフローチャートである。

図５を参照（適宜図１参照）して、付加映像生成装置１が、センサーカメラ２によって被写体について撮影した映像から被写体の位置を検出し、放送カメラ３ａによって被写体について撮影した映像を構成するフレーム画像に実空間距離と距離画像とを付加した付加画像を生成して、この付加画像から構成される付加映像を生成する動作について説明する。

付加映像生成装置１は、解析データ記憶手段４７に、センサーカメラのカメラパラメータであるセンサーカメラパラメータ４７ｂを登録（記憶）する（ステップＳ１１）。そして、付加映像生成装置１は、センサーカメラ２と放送カメラ３ａから各々のフレーム画像を入力し、エンコーダ３ｃから放送カメラ３ａのカメラパラメータを入力する（ステップＳ１２）。さらに、距離情報付加手段４０の映像遅延部４５は、ステップＳ１２において入力された放送カメラ３ａのフレーム画像を遅延させる（ステップＳ１３）。

そして、被写体検出手段２０は、後記する被写体検出動作によって、ステップＳ１２において入力されたセンサーカメラ２のフレーム画像から被写体の位置を検出する（ステップＳ１４、被写体検出ステップ）。

さらに、実空間距離解析手段４１は、後記する実空間解析動作によって、ステップＳ１４において解析された、センサーカメラ２のフレーム画像内における被写体の位置に基づいて、実空間上の基準点から被写体までの距離である実空間距離を解析する（ステップＳ１５、実空間距離解析ステップ）。

また、距離画像生成手段４３は、後記する距離画像生成動作によって、ステップＳ１２において入力された放送カメラ３ａのフレーム画像に対応する、実空間上の所定の地点からの所定距離を示す距離画像を生成する（ステップＳ１６）。

そして、画像合成手段４６は、放送カメラ３ａで撮影したフレーム画像に、ステップＳ１５において解析された実空間距離と、ステップＳ１６において生成された距離画像とを合成した付加画像を生成する（ステップＳ１７、画像合成ステップ）。

さらに、出力手段６０によって、ステップＳ１７において生成された付加画像を出力する（ステップＳ１８）。

そして、新たなフレーム画像がセンサーカメラ２と放送カメラ３ａから入力される場合（ステップＳ１９でＹｅｓ）には、ステップＳ１２に戻って、センサーカメラ２と放送カメラ３ａから各々のフレーム画像を入力し、また、放送カメラ３ａのカメラパラメータを入力する動作以降の動作を行う。一方、新たなフレーム画像がセンサーカメラ２と放送カメラ３ａから入力されない場合（ステップＳ１９でＮｏ）には、動作を終了する。

以上の動作によって、付加映像生成装置１は、被写体について撮影した映像を出力するセンサーカメラ２及び放送カメラ３ａから時系列に入力されるフレーム画像毎に、センサーカメラ２のフレーム画像から被写体の位置を検出する。そして、付加映像生成装置１は、放送カメラ３ａのフレーム画像毎に実空間距離を示す画像と距離画像とを合成した付加画像を生成することで、距離情報を付加した付加映像を生成することができる。

また、入力されたセンサーカメラ２のフレーム画像毎に実空間距離を算出し、センサーカメラ２のフレーム画像と同時刻に撮影された放送カメラ３ａのフレーム画像に、実空間距離を示す画像を合成するので、フレーム画像内の被写体に対応した実空間距離を距離情報として付加することができる。そのため、実空間上を被写体が移動することで実空間距離が時間とともに変化する場合でも、フレーム画像毎にそのフレーム画像の撮影時点に対応した実空間距離が合成された付加画像から構成された付加映像を生成することができる。

また、ここでは、センサーカメラ２のフレーム画像から、このフレーム画像内の被写体の位置を検出し、このセンサーカメラ２のフレーム画像内の被写体の位置に基づいて、実空間距離を解析する動作（ステップＳ１４、Ｓ１５）を行った後に、放送カメラ３ａに対応した距離画像を生成する動作（ステップＳ１６）を行うようにしたが、距離画像を生成（ステップＳ１６）した後に、センサーカメラ２のフレーム画像から被写体の位置を検出し、実空間距離を解析する（ステップＳ１４、Ｓ１５）ようにしても良いし、またセンサーカメラ２のフレーム画像から被写体の位置を検出し、実空間距離を解析する動作（ステップＳ１４、Ｓ１５）と、距離画像を生成する動作（ステップＳ１６）とを同時に行うようにしても良い。

［被写体検出動作（被写体検出ステップ）］
次に図６を参照（適宜図１参照）して、付加映像生成装置１の被写体検出手段２０（被写体検出装置）が、センサーカメラ２によって被写体について撮影した映像を構成するフレーム画像から被写体の位置を検出する、被写体検出動作（図５のステップＳ１４）について説明する。

まず、被写体検出手段２０は、図５のステップＳ１２において入力されたセンサーカメラ２のフレーム画像が、被写体検出手段２０によって既に被写体の位置を検出した他のフレーム画像の次に入力されたフレーム画像であるか、あるいは、時系列に入力されるフレーム画像の先頭のフレーム画像であるかを判断する（ステップＳ３１）。そして、図５のステップＳ１２において入力されたセンサーカメラ２のフレーム画像が、時系列に入力されるフレーム画像の先頭の画像である場合（ステップＳ３１でＹｅｓ）には、被写体検出手段２０は、被写体の探索領域をセンサーカメラ２のフレーム画像の全範囲に設定し、ステップＳ３３に進む。また、図５のステップＳ１２において入力されたセンサーカメラ２のフレーム画像が、被写体検出手段２０によって既に被写体の位置を検出した他のフレーム画像の次に入力されたフレーム画像である場合（ステップＳ３１でＮｏ）には、そのままステップＳ３３に進む。

そして、輝度画像生成部２１１は、図５のステップＳ１２において、センサーカメラ２から入力されたフレーム画像の探索領域内をモノクロ（グレースケール）化した輝度画像を生成する。また、輪郭画像生成部２１２は、センサーカメラ２から入力されたフレーム画像の探索領域から、輝度に基づいて輪郭（エッジ）を抽出した輪郭画像を生成する。さらに、差分画像生成部２１３は、センサーカメラ２から時系列に入力されるフレーム画像の探索領域から、異なる時間に入力されたフレーム画像の探索領域間の輝度の差を画素値とした差分画像を生成する（ステップＳ３３）。

そして、被写体候補抽出部２１４の画像積算部２１４ａは、ステップＳ３３において生成された輝度画像、輪郭画像及び差分画像にそれぞれ重みを持たせて乗算し、被写体を抽出するための画像である抽出用画像を生成する（ステップＳ３４）。

さらに、被写体候補抽出部２１４の２値化部２１４ｂは、ステップＳ３４において生成された抽出用画像を２値化することで、複数の被写体の候補を抽出する。また、ノイズ除去部２１４ｃは、この２値化画像から、被写体の候補のうち微細なものをノイズとして除去し、被写体の候補を抽出した被写体候補画像を生成する（ステップＳ３５）。そして、被写体位置検出部２３のラベリング部２３ａは、ステップＳ３５において生成された被写体候補画像の中で、被写体の候補となる領域に対して番号（ラベル）を付す（ステップＳ３６）。

さらに、被写体選択部２３ｂは、ステップＳ３６において番号付けされた被写体の候補毎に、検出データ記憶手段２２に記憶されている抽出条件（抽出条件データ２２ａ）に合致する被写体かどうかを判定することで、検出対象となる被写体を選択する（ステップＳ３７）。ここで、被写体選択部２３ｂは、被写体の候補毎に、検出データ記憶手段２２に記憶されている抽出条件データ２２ａで示される抽出条件（例えば、面積、輝度、色、アスペクト比及び円形度）に基づいて、フィルタリングを行い、抽出条件を満たす被写体の候補を、抽出すべき被写体として選択する。また、抽出条件データ２２ａに合致する被写体の候補が複数存在する場合には、被写体位置データ２２ｂで示される、前フレーム画像における被写体の座標に最も近い画像を、抽出すべき被写体として選択する。

そして、被写体解析部２３ｃは、ステップＳ３７において選択された被写体を解析し、フレーム画像内での被写体の位置を解析する（ステップＳ３８）。

さらに、探索領域推定部２４は、ステップＳ３８において解析されたフレーム画像内での被写体の位置に基づいて、次にセンサーカメラ２から入力されるフレーム画像における、被写体の探索領域を推定する（ステップＳ３９）。ここで、探索領域推定部２４は、例えば、重心座標にカルマンフィルタ（Ｋａｌｍａｎｆｉｌｔｅｒ）等を適用することで、次フレーム画像における被写体の位置を予測し、探索領域を推定することができる。

以上の動作によって、付加映像生成装置１の被写体検出手段２０は、センサーカメラ２のフレーム画像から被写体の位置を検出することができる。

［実空間距離解析動作（実空間距離解析ステップ）］
次に図７を参照（適宜図１、図５、図６参照）して、付加映像生成装置１の実空間距離解析手段４１が、センサーカメラ２のフレーム画像内における被写体の位置に基づいて、実空間上の基準点から被写体までの距離である実空間距離を解析する、実空間距離解析動作（図５のステップＳ１５）について説明する。

付加映像生成装置１は、実空間距離解析手段４１の被写体位置変換部４１ａによって、実空間に対応するグローバル座標を設定する（ステップＳ７１）。そして、被写体位置変換部４１ａは、ステップＳ７１において設定されたグローバル座標上に、解析データ記憶手段４７に記憶されたセンサーカメラパラメータ４７ｂに基づいて、センサーカメラ２の位置を設定する（ステップＳ７２）。さらに、被写体位置変換部４１ａは、ステップＳ７２において設定されたセンサーカメラ２の位置を原点とするセンサーカメラ座標軸を設定する（ステップＳ７３）。

そして、被写体位置変換部４１ａは、図５のステップＳ１４（図６のステップＳ３８）において解析されたセンサーカメラ２のフレーム画像平面上の被写体の位置（座標）を、センサーカメラ座標に変換する（ステップＳ７４）。さらに、被写体位置変換部４１ａは、ステップＳ７４において変換されたセンサーカメラ座標上の被写体の位置（座標）を、グローバル座標に変換する（ステップＳ７５）。この、ステップＳ７４とＳ７５における被写体の位置（座標）の変換は、透視変換と同次変換によって行うことができる。

そして、実空間距離解析部４１ｂは、ステップＳ７５において変換された、実空間に対応したグローバル座標上の被写体の位置と、解析データ記憶手段４７に記憶されたグローバル座標上の基準点の位置とに基づいて、基準点から被写体までの実空間での距離を算出する（ステップＳ７６）

以上の動作によって、付加映像生成装置１の実空間距離解析手段４１は、被写体検出手段２０によって解析されたセンサーカメラ２のフレーム画像内における被写体の位置に基づいて、実空間上の基準点から被写体までの距離である実空間距離を算出することができる。

［距離画像生成動作］
次に図８を参照（適宜図１参照）して、付加映像生成装置１の距離画像生成手段４３が、放送カメラ３ａのフレーム画像に対応する、実空間上の所定の地点からの所定距離を示す距離画像を生成する、距離画像生成動作（図５のステップＳ１６）について説明する。

付加映像生成装置１は、距離画像生成手段４３によって、実空間に対応するグローバル座標を設定する（ステップＳ９１）。そして、距離画像生成手段４３は、図５のステップＳ１２において入力された放送カメラ３ａのカメラパラメータに基づいて、このグローバル座標上に放送カメラ３ａの位置を設定する（ステップＳ９２）。さらに、距離画像生成手段４３は、ステップＳ９２において設定された、グローバル座標上の放送カメラ３ａの位置を原点とする放送カメラ座標軸を設定する（ステップＳ９３）。

そして、距離画像生成手段４３は、ステップＳ９１において設定されたグローバル座標上に、解析データ記憶手段４７の地点位置データ４７ａに基づいて、距離画像を生成する対象となる所定地点の位置を設定する（ステップＳ９４）。さらに、距離画像生成手段４３は、グローバル座標上設定された所定地点からの所定距離を示す図形を生成する（ステップＳ９５）。

そして、距離画像生成手段４３は、ステップＳ９５において生成された所定地点からの所定距離を示す図形を、放送カメラ座標に変換する（ステップＳ９６）。さらに、距離画像生成手段４３は、ステップＳ９６において変換された放送カメラ座標上の図形を、放送カメラ３ａのフレーム画像平面上の座標に変換し、距離画像を生成する（ステップＳ９７）。この、ステップＳ９６とＳ９７における図形の変換は、透視変換と同次変換によって行うことができる。

以上の動作によって、付加映像生成装置１の距離画像生成手段４３は、放送カメラ３ａのカメラパラメータに基づいて、実空間上の所定地点からの所定距離を示す距離画像を生成することができる。

本発明における付加映像生成装置の構成を示したブロック図である。センサーカメラ座標上の被写体（ゴルフボール）の位置を、実空間に対応するグローバル座標に変換する例を説明するための説明図である。グローバル座標上の所定の地点からの所定距離を示す図形を、グローバル座標から放送カメラ座標に変換する例を説明するための説明図である。（ａ）は、映像遅延部から入力された、放送カメラのフレーム画像の例を示した説明図、（ｂ）は、実空間距離解析部によって生成された距離画像の例を示した説明図、（ｃ）は、画像合成手段によって生成された付加画像の例を示した説明図である。本発明における付加映像生成装置が、センサーカメラによって被写体について撮影した映像から被写体の位置を検出し、放送カメラによって被写体について撮影した映像に、実空間距離と距離画像とからなる距離情報を付加した付加映像を生成する動作を示したフローチャートである。付加映像生成装置が、センサーカメラによって被写体について撮影した映像を構成するフレーム画像から被写体の位置を検出する動作（被写体検出動作）を示したフローチャートである。付加映像生成装置の実空間距離解析手段が、センサーカメラのフレーム画像内における被写体の位置に基づいて、実空間上の基準点から被写体までの距離を解析する動作（実空間距離解析動作）を示したフローチャートである。付加映像生成装置の距離画像生成手段が、放送カメラのフレーム画像に対応する、実空間上のある地点からの所定距離を示す距離画像を生成する動作（距離画像生成動作）を示したフローチャートである。

符号の説明

１付加映像生成装置
２０被写体検出手段（被写体検出装置）
４０距離情報付加手段（距離情報付加装置）
４１実空間距離解析手段
４３距離画像生成手段
４６画像合成手段

Claims

目的とする被写体についてカメラにより撮影した映像を構成し時系列に入力されるフレーム画像内の前記被写体の位置を検出する被写体検出装置から、前記フレーム画像内における前記被写体の位置を入力し、他のカメラによって前記被写体について撮影した他の映像に、当該被写体から所定の基準点までの距離を示す距離情報を付加する距離情報付加装置であって、
前記フレーム画像内における前記被写体の位置と、前記フレーム画像が撮影された際の前記カメラのカメラパラメータとに基づいて、前記被写体から前記基準点までの距離である実空間距離を解析する実空間距離解析手段と、
この実空間距離解析手段で解析された前記実空間距離を示す画像を、前記他の映像を構成するフレーム画像に合成する画像合成手段とを備えることを特徴とする距離情報付加装置。
前記他の映像を構成するフレーム画像が撮影された際の前記他のカメラのカメラパラメータに基づいて、前記他の映像を構成するフレーム画像に対応した、所定の地点からの所定距離を示す画像である距離画像を生成する距離画像生成手段を備え、
前記画像合成手段は、前記距離画像生成手段で生成された距離画像を、前記他の映像を構成するフレーム画像に合成することを特徴とする請求項１に記載の距離情報付加装置。
目的とする被写体についてカメラにより撮影した映像から前記被写体の位置を検出し、他のカメラによって前記被写体について撮影した他の映像に、当該被写体から所定の基準点までの距離を示す距離情報を付加する付加映像生成装置であって、
前記映像を構成し時系列に入力されるフレーム画像の中から前記被写体の位置を検出する被写体検出手段と、
前記被写体検出手段で解析された前記フレーム画像内における前記被写体の位置と、前記フレーム画像が撮影された際の前記カメラのカメラパラメータとに基づいて、前記被写体から前記基準点までの距離である実空間距離を解析する実空間距離解析手段と、
この実空間距離解析手段で解析された前記実空間距離を示す画像を、前記他の映像を構成するフレーム画像に合成する画像合成手段とを備えることを特徴とする付加映像生成装置。
前記被写体検出手段は、解析した前記フレーム画像内における前記被写体の位置に基づいて、次に入力されるフレーム画像内の被写体の探索領域を推定し、この探索領域内から被写体の位置を検出することを特徴とする請求項３に記載の付加画像生成装置。
目的とする被写体についてカメラにより撮影した映像から前記被写体の位置を検出し、他のカメラによって前記被写体について撮影した他の映像に、当該被写体から所定の基準点までの距離を示す距離情報を付加する付加映像生成方法であって、
前記映像を構成し時系列に入力されるフレーム画像の中から前記被写体の位置を検出する被写体検出ステップと、
この被写体検出ステップで解析された前記フレーム画像内における前記被写体の位置と、前記フレーム画像が撮影された際の前記カメラのカメラパラメータとに基づいて、前記被写体から前記基準点までの距離である実空間距離を解析する実空間距離解析ステップと、
この実空間距離解析ステップで解析された前記実空間距離を示す画像を、前記他の映像を構成するフレーム画像に合成する画像合成ステップとを含むことを特徴とする付加映像生成方法。
目的とする被写体についてカメラにより撮影した映像を構成し時系列に入力されるフレーム画像内の前記被写体の位置を検出する被写体検出装置から、前記フレーム画像内における前記被写体の位置を入力し、前記被写体について撮影した他の映像に、当該被写体から所定の基準点までの距離を示す距離情報を付加するために、コンピュータを、
前記フレーム画像内における前記被写体の位置と、前記フレーム画像が撮影された際の前記カメラのカメラパラメータとに基づいて、前記被写体から前記基準点までの距離である実空間距離を解析する実空間距離解析手段、
この実空間距離解析手段で解析された前記実空間距離を示す画像を、前記他の映像を構成するフレーム画像に合成する画像合成手段として機能させることを特徴とする距離情報付加プログラム。