JP2023122130A

JP2023122130A - 映像処理装置およびその制御方法、プログラム

Info

Publication number: JP2023122130A
Application number: JP2022025603A
Authority: JP
Inventors: 昂佑川▲畔▼; Kosuke Kawabata
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2023-09-01
Also published as: US20230269356A1

Abstract

【課題】所望の被写体を撮影している映像への切り替え操作を支援する技術を提供する。【解決手段】映像処理装置は、複数の撮影装置により撮影される撮影領域に存在する被写体であって、ユーザーにより指定された被写体に対応する三次元形状の情報に基づいて、被写体を撮影範囲に含む撮影装置を特定し、その撮影装置の提示を含む表示情報を出力する。【選択図】図５

Description

本開示は、映像処理装置およびその制御方法、プログラムに関する。

近年、異なる位置に設置された複数のカメラにより同期撮影した多視点画像から、任意の視点で撮影される映像（以下、仮想視点映像とする。）を合成する仮想視点映像生成技術が実現されている。例えば、仮想視点映像生成技術を用いてサッカーやバスケットボールなどのスポーツを撮影することにより、カメラマンによる撮影が不可能であった、試合中のフィールド内から撮影しているような映像を視聴することが実現可能となる。このように、仮想視点映像生成技術によれば、視聴者へより高い臨場感を与える映像制の生成、より自由度の高い映像の生成が可能となる。

一方、仮想視点映像生成のためのシステムは、複数のカメラが設置された構成を有する。撮影範囲の大きさや要求される画質にもよるが多数のカメラが設置される場合もある。そのため、仮想視点映像を生成するシステムにおいて、それぞれのカメラがどういった映像を出力しているかをユーザーが確認することは困難である。例えば、仮想視点映像から実際に撮影しているカメラ（以下、実カメラとする）の映像に切り替える場合などにおいては、ユーザーが実カメラからの映像を確認する必要が生じる。しかしながら、前述の様にカメラの台数が多いと、ユーザーが意図した実カメラの映像を確認することは困難である。

特許文献１では、仮想視点映像生成に用いられる複数の実カメラの位置と仮想視点の位置とから仮想視点映像生成に用いられた実カメラを特定し、特定された実カメラの映像を表示する技術が開示されている。

特開２０１９－１０６６１７号公報

しかしながら、特許文献１に開示された技術では、仮想視点映像の生成に用いられた実カメラの映像を表示することしかできない。例えば、スタジオ等で複数の演者が演技をしている状況で、仮想視点映像から特定の演者を映した実カメラ映像に切り替えたい場合、操作者は複数の実カメラの映像のうちから特定の演者が映っている映像を確認して切り替えを行う必要がある。この場合、仮想視点映像の生成とは関係なく、特定の被写体を映している実カメラの映像へ切り替える必要があるが、特許文献１の技術ではそのような実カメラへの切り替えを支援することは意図されていない。

本開示では、所望の被写体を撮影している映像への切り替え操作を支援する技術を提供する。

本開示の一態様による映像処理装置は以下の構成を有する。すなわち、映像処理装置は、複数の撮影装置により撮影される撮影領域に存在する被写体であって、ユーザーにより指定された被写体に対応する三次元形状の情報に基づいて、当該被写体を撮影範囲に含む撮影装置を、前記複数の撮影装置から特定する特定手段と、特定された前記撮影装置の提示を含む表示情報を出力する出力手段と、を有する。

本開示によれば、所望の被写体を撮影している映像への切り替え操作が容易になる。

第１実施形態による映像処理システムの構成例を示すブロック図。第１実施形態による撮影装置の配置例を示す図。第１実施形態による映像処理装置のハードウェア構成例を示すブロック図。第１実施形態による映像処理装置の機能を説明する図。第１実施形態による映像処理装置の機能構成例を示すブロック図。被写体に設定されるバウンディングボックスを説明する図。撮影装置の撮影範囲を示す模式図。被写体を撮影する撮影装置の判定方法を説明する図。指定された被写体に対応するバウンディングボックスの特定方法を説明する図。第１実施形態による映像処理装置の処理を示すフローチャート。バウンディングボックスと撮影装置のリストを表す図。第１実施形態に係る表示例を示す図。第２実施形態による映像処理装置の機能構成例を示すブロック図。撮影装置と仮想視点の撮影範囲を示す模式図。第２実施形態による映像処理装置の処理を示すフローチャート。バウンディングボックスと撮影装置および仮想視点のリストを表す図。第２実施形態に係る表示例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は本開示を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが本開示に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

＜第１実施形態＞
図１は、第１実施形態にかかわる映像処理システムの構成例を示すブロック図である。映像処理システム１００は、Ｎ台の実カメラとしての撮影装置１１０と映像処理装置１２０とユーザー端末１３０を備える。撮影装置１１０は、不図示のレンズ、ＣＣＤまたはＣＭＯＳ等の撮影センサ、映像処理回路等を具備し、撮影対象の被写体からの光学情報を電気信号に変換し、ＲＡＷ等の所定フォーマットの画像情報として映像処理装置１２０に送信する。映像処理システム１００におけるＮ台の撮影装置１１０の配置例を図２に示す。撮影装置１１０ａ～１１０ｂは撮影領域２００を取り囲むように配置されており、撮影領域２００内の被写体に対して撮影を行い、仮想視点映像を生成するための多視点画像を提供する。なお、撮影装置１１０の台数及び配置位置は撮影領域、撮影対象および要求される映像品質等に応じて適切に設定され得る。

映像処理装置１２０は、撮影装置１１０からの映像を集約し適切な処理を施すことにより仮想視点映像を生成し出力する。また、映像処理装置１２０は、撮影装置１１０で撮影した映像を選択し適切な形式のデータに変換し出力することも可能である。図３に映像処理装置１２０のハードウェア構成例を示す。映像処理装置１２０は、ＣＰＵ１２１、主記憶装置１２２、補助記憶装置１２３、外部Ｉ／Ｆ１２４、ＧＰＵ１２５を含み、それらが内部バス１２６を介して相互に通信可能に接続されている。

ＣＰＵ１２１は、中央演算装置であり、各種演算、映像処理、データ入出力など映像処理装置１２０の制御を行う。主記憶装置１２２はＣＰＵ１２１のワークエリアやデータの一時的な記憶領域として機能する。主記憶装置１２２は、例えば、ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＤＲＡＭ）やＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＳＲＡＭ）などの記憶媒体を用いて実装される。補助記憶装置１２３は、各種プログラム、各種設定情報、各種画像データ、カメラパラメータ、三次元形状の情報、２次元マップなどの情報を記憶する。補助記憶装置１２３は、例えば、各種のＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）やフラッシュメモリなどの不揮発性メモリ、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、テープメディアなどの記憶媒体を用いて実装され得る。なお、補助記憶装置１２３は、大容量化や高速化のために複数の記憶媒体の組み合わせにより構成されてもよく、例えば、ＲＡＩＤにより複数の記憶媒体が論理的に１つにまとめられたものでもよい。

外部Ｉ／Ｆ１２４は、例えば、カメラやＰＣ、装置など外部の機器との通信に利用される通信インターフェースを含む。また、外部Ｉ／Ｆ１２４は、ジョイスティックやキーボード、マウスなどの、ユーザーからの各種操作を受け付ける外部機器と接続したり、外部ストレージを接続してファイル入出力を行ったりするための汎用的な入出力インターフェースを含む。外部Ｉ／Ｆ１２４は、例えば、ＩｎｆｉｎｉＢａｎｄやＥｔｈｅｒｎｅｔ、ＵＳＢなどの物理的なケーブルの接続端子を持つインターフェース、または無線ＬＡＮやＢｌｕｅｔｏｏｔｈなどの無線を用いたインターフェースなどで構成される。なお、ＵＳＢは、ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓの略である。映像処理システム１００において、Ｎ台の撮影装置１１０から出力された映像情報は、不図示のスイッチングハブ等で集約され、外部Ｉ／Ｆ１２４に入力される。

ＧＰＵ１２５は映像処理演算を高速に実行するための演算装置であり、仮想視点からの画像をレンダリングする処理の他、仮想視点映像に必要な形状データや色情報を生成する機能等を有する。ＧＰＵ１２５は主記憶装置１２２とは異なる主記憶装置を別途含んでいてもよい。また、上記に示した以外のＣＰＵ１２１で行われる各種演算の一部または全部をＧＰＵ１２５が行ってもよい。内部バス１２６はＰＣＩＥｘｐｒｅｓｓ等のバスによって構成され、ハードウェアブロックの各部がそれぞれに双方向通信を行うことができる。また、内部バス１２６はハードウェアブロックの各部が双方向に通信可能なものであればどのようなものを用いてもよい。

ユーザー端末１３０は、不図示の液晶モニタ等の表示装置、キーボードやマウス、ジョイスティックなどの入力装置を備えており、外部Ｉ／Ｆ１２４を介して映像処理装置１２０と接続される。ユーザー端末１３０は、映像処理装置１２０から出力された映像を表示装置に表示し、ユーザーによる入力装置からの入力を適切な信号に変換して映像処理装置１２０へ出力する。ユーザー端末１３０のハードウェア構成は、例えば、映像処理装置１２０（図３）と同様の構成とすることができる。また、映像処理装置１２０がユーザー端末１３０の機能を有してもよい。例えば、映像処理装置１２０とユーザー端末１３０は１つの装置により実現されてもよい。

以上、図２および図３により本実施形態の映像処理システムの構成を説明したが、この構成は一例であり、撮影対象や機能に応じて適切に変更および構成され得る。

次に、図４から図１１を参照して、第１実施形態による、複数の撮影装置からの映像のうち、特定の被写体を含む撮影装置の映像を特定し表示する方法について説明する。

初めに、本実施形態で実現される機能の概要について図４を参照して説明する。本実施形態では、仮想視点映像を配信している状態から特定の被写体が映る撮影装置の映像へと配信映像を切り替えたい状況で、特定の被写体を撮影している撮影装置の映像を候補映像として表示することで、映像切り替えの際、操作者を補助する機能を実現する。

図４において、撮影領域２００には、被写体４１０～４１２が存在する。例えば、仮想視点４０１から仮想視点映像４０２を撮影し配信している状態から、被写体４１０を映す撮影装置の映像へと配信映像を切り替えたいとする。映像の切り替え操作者により、被写体４１０が注視したい被写体（以下、注視被写体）として選択されると、複数の撮影装置の映像の中から被写体４１０を撮影している撮影装置の映像が抽出される。ここで、Ｎ台の撮影装置１１０の中から撮影装置１１０ａ、撮影装置１１０ｂ、撮影装置１１０ｃが抽出されたとする。この場合、候補映像として、撮影装置１１０ａで撮影されている映像４２１、撮影装置１１０ｂで撮影されている映像４２２、撮影装置１１０ｃで撮影されている映像４２３が候補映像として表示される。このように、本実施形態では、多数の映像の中から候補映像が抽出され、表示されることにより、より少ない映像から意図する映像を選択することが可能になる。よって、設置された複数の撮影装置より出力された多数の映像から意図する映像を選び出すような操作と比較して、操作者の映像確認の負担を大幅に軽減することができる。

次に、第１実施形態による映像処理装置１２０の機能構成について説明する。図５は、映像処理装置１２０の機能構成例を示すブロック図である。図５に示される各機能ブロックは、例えば、ＣＰＵ１２１（図３）により補助記憶装置１２３に格納されているコンピュータプログラムを主記憶装置１２２に展開し実行することにより実現される。なお、機能ブロックの一部またはすべてが専用のハードウェアにより実現されてもよいし、コンピュータとハードウェアの協働により実現されてもよい。

映像受信部５００は、撮影装置１１０からＬＡＮケーブル等を介して映像を受信し、適切なデータ形式に変換し、分離部５０１および映像選択部５０８へ送る。分離部５０１は、映像受信部５００から入力された映像から、オブジェクトの領域を適切なサイズで切り出して分離し、前景画像を生成する。本実施形態では、分離部５０１は、例えば、後述する背景差分法を使用してオブジェクトを分離し、前景画像を生成する。分離部５０１は、生成された前景画像を形状生成部５０２へ送る。

本実施形態で、オブジェクトとは、時系列で同じ方向から撮影を行った場合において動きのある（その絶対位置や形が変化し得る）動的オブジェクト（動体）を指す。例えば、スポーツ競技においては、競技が行われるフィールド内にいる選手や審判などの人物、競技が球技であればボールなどがオブジェクトに相当する。また、背景差分法は、撮影装置から得られる任意の画像を基準の画像とし、基準の画像と、その基準の画像に時間的に近接した一つないしは複数の画像を比較し、変化のある領域を前景画像として抽出する手法である。背景差分法では、例えば、画像中の画素ごとに画素値の比較を行い、差が小さい画素（動きのない画素）の集合が背景画像として抽出される。そして生成された背景画像の領域を基準の画像から差し引くことにより変化のある領域が抽出され、前景画像が生成される。

形状生成部５０２は、分離部５０１から入力された前景画像に基づき視体積交差法、Ｍｕｌｔｉ－Ｖｉｅｗ－Ｓｔｅｒｅｏ（ＭＶＳ）等の三次元形状復元手法により三次元形状の情報を生成する。なお、被写体の三次元形状の復元に必要となるＮ台の撮影装置１１０の配置位置の座標情報および画角情報は、例えば、補助記憶装置１２３にあらかじめ格納されているとする。さらに形状生成部５０２は、生成した三次元形状の情報により表される三次元形状を囲う（例えば、三次元形状に外接する）直方体を定義する。以下、この直方体をバウンディングボックスという。被写体とバウンディングボックスとの関係を図６に示す。図６の例では、撮影領域２００内の被写体４１０に対するバウンディングボックス６１０が定義されている。バウンディングボックス６１０は点ａ、点ｂ、点ｃ、点ｄ、点ｅ、点ｆ、点ｇ、点ｈを頂点とする直方体として定義されている。なお、被写体の三次元形状またはバウンディングボックス６１０に関して、三次元空間における位置の情報も取得される。

仮想視点映像生成部５０３は、形状生成部５０２で生成された三次元形状の情報と、後述の入力部５０４を介してユーザー端末１３０より入力された仮想視点の位置及び方向の情報を受信する。仮想視点映像生成部５０３は、受信したこれら情報に基づき、仮想視点の位置から三次元形状がどのように見えるかを計算し、対応する撮影装置の画像を用いて色付けすることで仮想視点映像を生成し、映像配信部５０９に出力する。

入力部５０４は、ユーザー端末１３０から外部Ｉ／Ｆ１２４を介して入力された信号を受信し仮想視点映像生成部５０３に送信する。また、入力部５０４は、注視被写体を特定するためにユーザーが指定した表示映像中の座標を入力する。また、入力部５０４は、仮想視点映像を生成するための仮想視点の位置及び向きを示す視点情報を入力する。視点情報は、例えば、仮想視点の三次元位置を表すパラメータと、パン、チルト、及びロール方向における仮想視点の向きを表すパラメータを含む。なお、視点情報の内容は上記に限定されず仮想視点の位置及び向きを示す情報であればよい。

撮影範囲判定部５０５は、図７で示す様な撮影装置１１０ａの撮影範囲７００の内部に存在する物体を、撮影装置１１０ａにより撮影されている物体と判断する。撮影装置１１０ａの撮影範囲７００は点ｏ、点ｐ、点ｑ、点ｒ、点ｓ、点ｔ、点ｕ、点ｖを頂点とする立体図形（例えば四角錐台）で定義される。撮影範囲７００の内部に存在する物体は、撮影装置１１０ａにより撮影されていると判断される。撮影範囲７００は、撮影装置１１０ａの位置、姿勢、焦点距離やＦ値等の撮影パラメータに基づいて算出される撮影可能範囲であり、撮影範囲７００を表す三次元座標情報は、例えば補助記憶装置１２３にあらかじめ格納されている。また、このような撮影範囲が複数の撮影装置１１０のそれぞれに対して、それぞれの撮影パラメータに応じてあらかじめ設定され、補助記憶装置１２３に格納されている。

また、撮影範囲判定部５０５は、複数の撮影装置のそれぞれが形状生成部５０２で取得されたバウンディングボックスを撮影しているか否かを判定し、そのバウンディングボックスを撮影している撮影装置を抽出する。図８を用いてこの判定方法について説明する。ここで、判定の対象となる撮影装置１１０は、バウンディングボックスの底面以外の各面を撮影している撮影装置とする。なお、上述したように、バウンディングボックス（被写体の三次元形状）の三次元空間の位置は、形状生成部５０２により取得されている。図８中の撮影装置１１０ａの様に撮影範囲７００に内部に面ａｂｆｅの一部または全体が入っている場合、撮影範囲判定部５０５は、撮影装置１１０ａがバウンディングボックス６１０を撮影している撮影装置であると判定する。撮影範囲判定部５０５は、この判定をバウンディングボックス６１０の判定対象の各面に対して行い、バウンディングボックス６１０を撮影している撮影装置を特定する。撮影範囲判定部５０５は、撮影領域２００に存在するバウンディングボックスそれぞれに対して上記処理を行い、ある時間に撮影領域２００に存在するバウンディングボックスとそれを撮影している撮影装置の判定結果を得る。撮影範囲判定部５０５は、この判定結果に従って、各時刻におけるバウンディングボックスとそれを撮影している撮影装置を関連付けるリスト（図１１により後述する）を生成する。

被写体特定部５０６は、ユーザー操作により指定された注視被写体に対応したバウンディングボックスを特定し、撮影装置選択部５０７に通知する。注視被写体の指定は、例えば、被写体を選択するための映像表示においてユーザーが注視したい被写体の位置を指定することによりなされる。映像上のユーザーにより指定された座標（注視被写体を特定するための座標）は入力部５０４から被写体特定部５０６へ提供される。被写体特定部５０６は、その座標から注視被写体のバウンディングボックスを特定する。

ここで、図９を用いて、注視被写体を指定する方法と注視被写体に対応したバウンディングボックスを特定する方法を説明する。図９に示されるように、被写体確認用に撮影装置９００が設置されており、不図示のケーブル等を介してユーザー端末１３０に撮影装置９００の撮影画像９１０が配信されているものとする。なお、撮影装置９００の映像が撮影装置１１０と同様に映像処理装置１２０を介してユーザー端末１３０に配信されても構わない。ユーザーはこの撮影画像９１０を確認しながら注視被写体に対応した座標を入力することができる。被写体特定部５０６は、形状生成部５０２で生成した三次元形状を撮影画像９１０へ投影し、被写体領域画像９２０を生成する。撮影装置９００の撮影位置の座標及び画角情報などの投影に必要な情報は、例えば、あらかじめ補助記憶装置１２３に格納されているとする。被写体領域画像９２０中の座標は、撮影装置９００が撮影する画像の座標と対応しており、さらに投影された三次元形状の情報が紐づけられている。例えば、図９では、撮影領域２００中の被写体４１０、被写体４１１、被写体４１２がそれぞれ被写体領域画像９２０中の領域９３０、領域９３１、領域９３２と対応している。

ユーザーにより撮影画像９１０の任意の位置が指定されると、その座標が入力部５０４を介して被写体特定部５０６に通知される。被写体特定部５０６は、通知された座標がどの被写体に含まれるかを、被写体領域画像９２０を参照して判定する。例えば、被写体４１０を指定するために座標Ｐ（ｘｐ，ｙｐ）が入力されると、被写体特定部５０６は、被写体領域画像９２０から座標Ｐ（ｘｐ，ｙｐ）を含む被写体の領域を判定する。図９の例では、被写体特定部５０６は、領域９３０が座標Ｐ（ｘｐ，ｙｐ）を含むため、領域９３０と対応する被写体４１０を特定する。そして、被写体特定部５０６は、特定した被写体４１０について生成されたバウンディングボックス６１０を注視被写体のバウンディングボックスとして特定する。なお、ユーザーにより指定された被写体のバウンディングボックスを特定する方法は、上記に限定されるものではない。例えば、被写体にＧＰＳを装着して各被写体の位置と識別子を対応付けた情報を保持し、ユーザーが所望の被写体の識別子を指定するようにしてもよい。これにより、指定された被写体のＧＰＳによる位置に基づいてバウンディングボックスが特定され得る。また、本実施形態では１台の撮影装置９００による映像が被写体を指定するための映像として用いられたが、複数台の撮影装置により撮影領域を分担して撮影することにより、ユーザーが被写体を指定するための映像を得るようにしてもよい。また、注視被写体を指定するための映像として物理的な撮影装置９００により撮影される映像を用いたが、例えば撮影領域２００を俯瞰するような、仮想視点からの仮想視点映像が用いられてもよい。

撮影装置選択部５０７は、撮影範囲判定部５０５により生成された、図１１により後述されるリストの参照により、被写体特定部５０６で特定されたバウンディングボックスの撮影に使用された撮影装置を選択する。こうして、複数の撮影装置１１０から撮影装置選択部５０７により選択された撮影装置は、注視被写体を撮影している撮影装置である。映像選択部５０８は、映像受信部５００から受信した映像から、撮影装置選択部５０７で選択された撮影装置の映像を選択し、映像配信部５０９に送る。映像配信部５０９は、仮想視点映像生成部５０３により生成された仮想視点映像と、映像選択部５０８から送られた映像とを、所定の表示形式およびフォーマットに変換して出力する。

次に、第１実施形態による映像処理装置１２０の動作について説明する。図１０は、第１実施形態による映像処理装置１２０の動作を示すフローチャートである。Ｓ１１０において、分離部５０１は、撮影領域２００に存在する被写体に対応する前景映像を取得する。次に、Ｓ１１１において、形状生成部５０２は、分離部５０１により取得された前景映像に基づいて、被写体の三次元形状を推定し、被写体の三次元形状の情報とそれに対応したバウンディングボックスを生成する。

Ｓ１１２において、撮影範囲判定部５０５は、Ｓ１１１で生成されたバウンディングボックスの各々について、複数の撮影装置１１０からバウンディングボックスを撮影している撮影装置を判定する。撮影範囲判定部５０５は、その判定結果を用いて、各時刻における、バウンディングボックスとそれを撮影している撮影装置とを対応付けたリストを生成する。図１１に、撮影範囲判定部５０５によって生成されるリスト（リスト１１００）の一例を示す。リスト１１００では、各時刻において、バウンディングボックスとそれを撮影する撮影装置の番号の対応がリスト化されている。なおリスト１１００のデータ形式は図示のものに限られない。リスト１１００は、少なくとも時系列におけるバウンディングボックスとそのバウンディングボックスを撮影している撮影装置を特定する情報を含んでいればよい。

Ｓ１１３において、被写体特定部５０６は、入力部５０４を介して注視被写体が指定されたか否かを判定する。注視被写体が指定されていなければ（Ｓ１１３でＮＯ）、処理はＳ１１０へ戻る。注視被写体が指定されていると判定された場合（Ｓ１１３でＹＥＳ）、処理はＳ１１４へ進む。Ｓ１１４において、被写体特定部５０６は、指定された注視被写体に対応したバウンディングボックスを特定する。そして、撮影装置選択部５０７は、被写体特定部５０６により特定されたバウンディングボックスを撮影している撮影装置を、Ｓ１１２で出力されたリスト１１００を参照して選択する。Ｓ１１５において、映像選択部５０８は、撮影装置選択部５０７で選択された撮影装置から得られた映像を選択する。なお、映像選択部５０８が複数の映像を選択する場合、ユーザー設定に従った優先順で映像を選択するようにしてもよい。

Ｓ１１６において、映像配信部５０９は、映像選択部５０８により選択された映像を適切な出力フォーマットに変換して得られた映像を含む表示情報をユーザー端末１３０に出力し、本処理を終了する。表示情報は、ユーザー端末１３０において、配信される映像を切り替える（撮影装置を切り替える）際に、ユーザーに提示される映像を提供する。Ｓ１１６で出力される表示情報に従ってユーザー端末１３０が表示する映像の例を図１２に示す。図１２は出力された表示情報を受信したユーザー端末１３０の表示装置が表示する画像である。ここでは、被写体４１０が注視被写体に指定され、被写体４１０を撮影している撮影装置（撮影装置選択部５０７により選択された撮影装置）からの映像が表示されている。表示画面１２００中に被写体確認用の映像１２０１（撮影装置９００から得られる映像）と、映像選択部５０８で選択された被写体４１０を撮影している撮影装置の映像１２１０、映像１２１１、映像１２１２が表示されている。これら映像１２１０～１２１２の表示位置や大きさなどの表示条件は、ユーザーによりあらかじめ設定しておくことができる。例えば、映像中の被写体の大きさを優先する場合、被写体が大きく映っているほど映像に高い順位が付され、付された順位に従って映像が配置され、表示される。図１２では、映像中の被写体４１０の大きさを優先し、被写体４１１の大きい順に中央から映像が配置された状態を示している。具体的には、映像配信部５０９は、指定された被写体に対応したバウンディングボックスの面積の撮影装置の映像全体に占める割合が大きい順に撮影映像が並ぶように表示情報（映像）を生成し、配信する。このように、あらかじめユーザー操作等により表示条件が設定されている場合、映像配信部５０９は、映像選択部５０８で選択された撮影映像に対して、設定された表示条件に従った表示順序や大きさ等を設定し、表示情報（映像）を生成し、出力する。なお、順位の高い順に所定数の映像が表示されるようにしてもよい。さらに、その所定数をユーザーが設定できるようにしてもよい。

もちろん表示条件は上記に限られるものではなく種々の条件を適用することができる。例えば、映像から被写体が人物等のように正面が存在する物体であれば、被写体が正面を向いている映像に高い順位を設定するようにしてもよい。被写体の映っている位置が中央に近いほど映像に設定される順位を高くするようにしてもよい。また、類似した映像と判断された場合には、映像選択部５０８で選択された映像のすべてを表示せずに、明るさやコントラスト等から撮影状態を判断し、撮影状態の良い映像を代表として表示するようにしてもよい。例えば、映像中の被写体の大きさや位置を定量化して数値として算出し、算出された数値の差が所定値以下の映像を類似した映像とし、類似した映像のグループに分類する。そして、映像のグループのそれぞれから、明るさやコントラスト等に基づいて撮影状態がよいと判定された映像が代表として選択され、表示される。上記では、映像の表示によって撮影装置選択部５０７により選択された撮影装置を提示する例を示したがこれに限られるものではない。例えば、識別情報の提示によって撮影装置選択部５０７により選択された撮影装置を提示するようにしてもよい。この場合、映像について設定した順位は、対応する撮影装置の順位でもある。従って、表示される撮影装置の識別情報の配置が上記順位に従って決定されてもよい。なお、これら例示された表示条件は、映像処理システム１００の使用条件等に応じて設定されてもよい。

ユーザーが候補映像（映像１２１０、映像１２１１、映像１２１２）から所望の映像を選択すると、選択された映像を撮影している撮影装置からの映像を配信対象にするように映像処理装置１２０に指示する。この指示は、入力部５０４を介して映像選択部５０８に通知され、映像選択部５０８は指示された撮影装置からの映像を選択する。映像配信部５０９は、それまでに配信していた映像の配信を停止し、映像選択部５０８により選択された映像の配信を開始する。こうして、配信対象の映像の切り替えが実行される。

以上のように、第一実施形態によれば、特定の被写体を撮影している撮影装置の映像が候補映像として表示される。ユーザーは、表示された候補映像の中から所望の候補映像を選択することで、特定の被写体を撮影している撮影装置を選択することができる。このため、配信映像の切り替え操作が容易になる。なお、上記では、選択された撮影装置の映像（候補映像）を表示したが、選択された撮影装置を識別する情報（例えば、装置番号など）を表示するようにしてもよい。ユーザーは表示された識別情報から所望の撮影装置を選択することができる。この場合、映像を見ながら選択することはできないが、切り替え先の映像装置を絞り込むことができるので、操作性が向上する。

＜第二実施形態＞
図１３から図１７を参照して、第二実施形態による、特定の被写体を含む撮影装置の映像または仮想視点映像を特定し表示する方法について説明する。第一実施形態では、指定された被写体が映る撮影映像を実カメラである撮影装置により撮影される撮影映像から特定した。第二実施形態では、指定された被写体が映る撮影映像を撮影装置により撮影される撮影映像と仮想視点からの仮想映像の内から特定する。すなわち、第二実施形態では、切り替え映像の候補として、撮影装置の映像に加えて、配信され表示されている仮想視点映像とは別の仮想視点映像を用いる構成を説明する。

第二実施形態による映像処理装置１２０の機能構成について説明する。図１３は、第二実施形態による映像処理装置１２０の機能構成例を示すブロック図である。各機能ブロックは第一実施形態（図３）と同様に、ＣＰＵ１２１により補助記憶装置１２３に格納されているコンピュータプログラムを主記憶装置１２２に展開し実行することにより実現され得る。第二実施形態の映像処理装置１２０の機能ブロックでは、仮想視点映像生成部５０３ａが撮影範囲判定部５０５ａと映像選択部５０８ａに接続されている。第一実施形態の映像処理装置１２０の機能ブロック（図５）と同様の機能ブロックには同一の参照番号を付してある。以下、主に、仮想視点映像生成部５０３ａ、撮影範囲判定部５０５ａおよび映像選択部５０８ａの機能を説明する。

仮想視点映像生成部５０３ａは、一つないしは複数の仮想視点の位置及び方向の指定を受け付け、受け付けた仮想視点の情報に従って一つないしは複数の仮想視点映像を生成する。映像選択部５０８ａは、映像受信部５００で受信した複数の撮影装置の映像と、仮想して仮想視点映像生成部５０３ａで生成された仮想視点映像のうちから、配信すべき映像を選択する。また、仮想視点映像生成部５０３ａは、仮想視点の位置及び撮影画角の情報を撮影範囲判定部５０５ａに提供する。

第一実施形態と同様に、撮影範囲判定部５０５ａは、あらかじめ、複数の撮影装置１１０のそれぞれの撮影範囲の情報を算出し、メモリに格納している。また、撮影範囲判定部５０５ａは、仮想視点映像生成部５０３ａからの仮想視点の位置及び撮影画角の情報より仮想視点の撮影範囲を算出し、複数の撮影装置１１０のそれぞれの撮影範囲に加えてメモリに格納する。図１４に、第二実施形態の撮影範囲判定部５０５ａが算出する撮影範囲の一例を示す。第一実施形態において算出された撮影装置１１０の撮影範囲の情報に加えて、仮想視点１４０１の撮影範囲（仮想視点１４０１により生成される仮想視点映像の範囲）を算出する。ここでは点ｏ２、点ｐ２、点ｑ２、点ｒ２、点ｓ２、点ｔ２、点ｕ２、点ｖ２を頂点とする立体図形（四角錐台）で定義される撮影範囲１４００が仮想視点１４０１の撮影範囲として算出されている。また、仮想視点が複数存在する場合には、撮影範囲判定部５０５ａは、すべての仮想視点に対して撮影範囲を算出し、メモリに格納する。さらに、撮影範囲判定部５０５ａは、形状生成部５０２で生成されたバウンディングボックスを撮影している否かを、全ての撮影装置と仮想視点について判定する。撮影範囲判定部５０５ａは、バウンディングボックスと当該バウンディングボックスを撮影している撮影装置および仮想視点を対応付けた、図１６に示されるようなリスト１６００を生成する。

撮影装置選択部５０７ａ、映像選択部５０８ａ、映像配信部５０９は、第一実施形態と同様の処理を行うが、あらかじめ用意されている仮想視点の映像を撮影装置の映像と同様に扱う。

次に、第二実施形態における映像処理装置１２０の動作について説明する。図１５は、第二実施形態による映像処理装置１２０の動作を示すフローチャートである。

Ｓ２１０において、分離部５０１は、撮影領域２００に存在する被写体の前景映像を生成する。次に、Ｓ２１１において、形状生成部５０２は、分離部５０１で生成された前景映像をもとに三次元形状を推定し、三次元形状の情報およびそれに対応したバウンディングボックスを生成する。Ｓ２１２において、仮想視点映像生成部５０３ａは、入力部５０４に入力された仮想視点からの仮想視点映像を生成する。仮想視点映像生成部５０３ａは、仮想視点の位置および撮影画角を含む仮想視点情報を撮影範囲判定部５０５ａに出力する。

Ｓ２１３において、撮影範囲判定部５０５ａは、Ｓ２１１で生成されたバウンディングボックスを撮影している撮影装置および仮想視点を判定する。撮影領域２００に複数のバウンディングボックスが存在する場合には、撮影範囲判定部５０５ａは、それらのすべてのバウンディングボックスについて、バウンディングボックスを撮影する撮影装置及び仮想視点を判定する。撮影範囲判定部５０５ａは、これら判定の結果に基づいて、各時刻におけるバウンディングボックスとそれを撮影している撮影装置のリストを生成する。図１６にこのリスト（リスト１６００）の一例を示す。リスト１６００は、各時刻におけるバウンディングボックスとそれを撮影している撮影装置および仮想視点の番号をリスト化したものである。なおリストのデータ形式は図１６に示されたものに限られない。リスト１６００は、少なくともある時系列におけるバウンディングボックスとそのバウンディングボックスを撮影している撮影装置および仮想視点を特定する情報を含んでいればよく、そのデータ形式は問わない。

続いて、Ｓ２１４において、被写体特定部５０６は、入力部５０４を介して注視被写体が指定されたか否かを判定する。注視被写体が指定されていないと判定された場合（Ｓ２１４でＮＯ）処理はＳ２１１に戻る。他方、注視被写体が指定されたと判定された場合（Ｓ２１４でＥＹＳ）、処理はＳ２１５へ進む。Ｓ２１５において、被写体特定部５０６は、指定された注視被写体に対応したバウンディングボックスを特定する。Ｓ２１６において、撮影装置選択部５０７ａは、Ｓ２１３で生成されたリスト１６００を参照して、Ｓ２１５で特定されたバウンディングボックスを撮影している撮影装置および仮想視点を選択する。そして、映像選択部５０８ａは、撮影装置選択部５０７ａにより選択された撮影装置および仮想視点の映像を、出力対象の映像として選択する。ユーザーにより表示条件が設定されている場合の処理は、第一実施形態と同様である。

Ｓ２１７において、映像配信部５０９は、選択された映像を適切な出力フォーマットに変換することにより表示情報（提示用の映像）を生成し、ユーザー端末１３０に出力する。第二実施形態による表示情報を受信したユーザー端末１３０による出力映像の例を図１７に示す。図１７は出力された表示情報（映像）を受信したユーザー端末１３０の表示装置が表示する画像例である。ここでは、被写体４１０が注視被写体に指定され、指定された注視被写体を撮影している撮影装置及び仮想視点の映像が表示されている。具体的には、表示画面１２００中に映像１２０１（撮影装置９００から得られる映像）と映像選択部５０８で選択された仮想視点の映像１７１０と撮影装置の映像１７１１及び映像１７１２が表示されている。映像１７１０、映像１７１１及び映像１７１２は、注視被写体である被写体４１０を映す切り替え候補の映像である。なお、第一実施形態と同様に、これら映像１７１０～１７１１の表示位置や大きさ等はユーザーからあらかじめ設定された表示条件に従うものとする。また、図１７に示されるように、仮想視点の映像であるか撮影装置の映像であるかをユーザーが区別可能な表示となるように表示情報（映像）が構成されてもよい。

以上のように、第二実施形態によれば、特定の被写体を含む撮影装置の映像または仮想視点からの仮想視点映像が特定され、切り替え候補として表示される。ユーザーは、候補として表示された映像から所望の映像を選択することができるので、映像の切り替え時の操作性が向上する。

（その他の実施例）
本開示は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００：映像処理システム、１１０：撮影装置、１２０：映像処理装置、１３０：ユーザー端末、５００：画像受信部、５０１：分離部、５０２：形状生成部、５０３：仮想視点映像生成部、５０４：入力部、５０５：撮影範囲判定部、５０６：被写体特定部、５０７：撮影装置選択部、５０８：映像選択部、５０９：映像配信部

Claims

複数の撮影装置により撮影される撮影領域に存在する被写体であって、ユーザーにより指定された被写体に対応する三次元形状の情報に基づいて、当該被写体を撮影範囲に含む撮影装置を、前記複数の撮影装置から特定する特定手段と、
特定された前記撮影装置の提示を含む表示情報を出力する出力手段と、を有することを特徴とする映像処理装置。
前記被写体は、前記複数の撮影装置とは別の撮影装置により前記撮影領域を撮影して取得された映像からユーザーが指定した被写体であることを特徴とする請求項１に記載の映像処理装置。
前記被写体は、前記複数の撮影装置の撮影により取得された映像と仮想視点とに基づいて生成される仮想視点映像においてユーザーが指定した被写体であることを特徴とする請求項１に記載の映像処理装置。
前記特定手段は、前記三次元形状の情報により表される被写体を囲うバウンディングボックスの少なくとも一部を撮影範囲に含む撮影装置を選択することを特徴とする請求項1乃至３のいずれか1項に記載の映像処理装置。
前記特定手段は、前記複数の撮影装置の各々の撮影範囲を、前記複数の撮影装置の各々の位置と姿勢に基づいて取得することを特徴とする請求項１乃至４のいずれか１項に記載の映像処理装置。
前記提示は、前記特定手段により特定された撮影装置の映像の提示を含む、ことを特徴とする請求項１乃至５のいずれか１項に記載の映像処理装置。
前記提示は、前記特定手段により特定された撮影装置を識別する情報の提示を含む、ことを特徴とする請求項１乃至６のいずれか１項に記載の映像処理装置。
前記特定手段により特定された撮影装置の映像に基づいて、特定された前記撮影装置または特定された前記撮影装置の映像に順位を設定する設定手段をさらに有し、
前記表示情報では、前記設定手段により設定された順位に基づいて、前記提示が配置されていることを特徴とする請求項１乃至５のいずれか１項に記載の映像処理装置。
前記設定手段は、映像に映る被写体の大きさが大きいほど高い順位を設定すること、映像に映る被写体が正面を向いている映像に高い順位を設定すること、映像に映る被写体の位置が映像の中央に近いほど高い順位を設定すること、の少なくとも何れかの条件に基づいて、特定された撮影装置に順位を設定することを特徴とする請求項８に記載の映像処理装置。
前記特定手段により特定された撮影装置を、映像中の被写体の大きさまたは位置を定量化することにより類似する映像を撮影した撮影装置のグループに分類し、グループごとに一つの撮影装置を決定する決定手段をさらに有し、
前記表示情報は、前記決定手段によりグループごとに決定された一つの撮影装置の提示を含むことを特徴とする請求項１乃至９のいずれか１項に記載の映像処理装置。
配信対象の映像を、前記表示情報に従って提示された撮影装置のうちからユーザーにより選択された撮影装置の映像へ切り替える切り替え手段をさらに有することを特徴とする請求項１乃至１０のいずれか１項に記載の映像処理装置。
前記特定手段は、さらに、あらかじめ設定されている仮想視点のうちから、前記ユーザーが指定した被写体を含む仮想視点映像が生成される仮想視点を特定し、
前記表示情報は、前記特定手段により特定された撮影装置と仮想視点の提示とを含む、ことを特徴とする請求項１乃至１０のいずれか１項に記載の映像処理装置。
前記表示情報による撮影装置と仮想視点の提示は、撮影装置であるか仮想視点であるかをユーザーが区別可能であることを特徴とする請求項１２に記載の映像処理装置。
配信対象の映像を、前記表示情報に従って提示された撮影装置または仮想視点のうちからユーザーにより選択された撮影装置または仮想視点の映像へ切り替える切り替え手段をさらに有することを特徴とする請求項１２または１３に記載の映像処理装置。
複数の撮影装置により撮影される撮影領域に存在する被写体であって、ユーザーにより指定された被写体に対応する三次元形状の情報に基づいて、当該被写体を撮影範囲に含む撮影装置を、前記複数の撮影装置から特定する特定工程と、
特定された前記撮影装置の提示を含む表示情報を出力する出力工程と、を有することを特徴とする映像処理装置の制御方法。
請求項１乃至１４のいずれか１項に記載された映像処理装置の各手段としてコンピュータを機能させるためのプログラム。