JP2022110751A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2022110751A
JP2022110751A JP2021006356A JP2021006356A JP2022110751A JP 2022110751 A JP2022110751 A JP 2022110751A JP 2021006356 A JP2021006356 A JP 2021006356A JP 2021006356 A JP2021006356 A JP 2021006356A JP 2022110751 A JP2022110751 A JP 2022110751A
Authority
JP
Japan
Prior art keywords
depth
field
specific object
camera
imaging device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021006356A
Other languages
English (en)
Inventor
直樹 梅村
Naoki Umemura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2021006356A priority Critical patent/JP2022110751A/ja
Priority to US17/571,904 priority patent/US20220230337A1/en
Publication of JP2022110751A publication Critical patent/JP2022110751A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/2224Studio circuitry; Studio devices; Studio equipment related to virtual studio applications
    • H04N5/2226Determination of depth image, e.g. for foreground/background separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image
    • G06T2207/30228Playing field

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

【課題】オブジェクトの三次元形状を表す形状データに関する処理を適切に行う。【解決手段】複数のカメラによる撮影により取得された複数の画像と、カメラパラメータを取得し、各カメラの被写界深度内に注目オブジェクトが存在するか否かをカメラパラメータに基づいて判定し、被写界深度内に注目オブジェクトが存在すると判定されたカメラの画像に基づいて、注目オブジェクトの三次元形状を表す形状データに関する処理を行う。【選択図】 図3

Description

本開示の技術は、複数の撮影装置の撮影画像に基づいて三次元モデルに関する処理を行う技術に関する。
昨今、複数の撮影装置をそれぞれ異なる位置に設置して多視点で同期撮影し、当該撮影により得られた複数の画像を用いて、指定された視点(仮想視点)からの見えを表す仮想視点画像を生成する技術が注目されている。仮想視点画像を生成する際は、撮影対象エリアに存在する人物等の被写体(オブジェクト)の三次元形状を表す形状データを求めることによって、撮影対象エリアを仮想視点から見たときの映像を作り出す。仮想視点画像の生成対象は種々あるが、例えばスタジアムで行われるスポーツイベントが挙げられる。例えばサッカーの場合には複数の撮影装置が、フィールドの周囲を取り囲むように配置されることになる。特許文献1では、複数のカメラそれぞれが、選手等が移動し得るフィールド上の全範囲をその被写界深度に収めるように合焦位置を制御する技術が開示されている。
特開2019-161462号公報
しかしながら、例えば選手の表情といったオブジェクトの一部を拡大して高解像度で撮影したい場合もある。この場合、複数の撮影装置で得られる撮影画像の中には、被写界深度から外れてオブジェクトが写っているものも含まれてしまう。このようなオブジェクトが被写界深度から外れた撮影画像を、三次元形状を表す形状データの生成などに使用した場合には、適切な処理がなされなくなる。
本開示の技術は、上記課題に鑑みてなされたものであり、その目的は、オブジェクトの三次元形状を表す形状データに関する処理を適切に行うことを目的とする。
本開示に係る情報処理装置は、視点の異なる複数の撮影装置による撮影により取得された複数の画像と、当該複数の撮影装置の位置及び姿勢を特定するためのパラメータを取得する取得手段と、前記複数の撮影装置の被写界深度内に特定オブジェクトが存在するか否かを前記パラメータに基づいて判定する判定手段と、前記複数の撮影装置のうち、前記判定手段によって被写界深度内に前記特定オブジェクトが存在すると判定された撮影装置の画像に基づいて、前記特定オブジェクトの三次元形状を表す形状データに関する処理を行う処理手段と、を有することを特徴とする。
本開示の技術によれば、オブジェクトの三次元形状を表す形状データに関する処理を適切に行うことができる。
仮想視点画像を生成する画像処理システムの構成の一例を示すブロック図。 カメラ(撮影装置)が配置されている様子を俯瞰的に示す模式図。 選手のオブジェクトを側面から見た場合の模式図。 情報処理装置のハードウェア構成を示すブロック図 仮想視点画像の生成を行うサーバのソフトウェア構成を示すブロック図 (a)及び(b)は、可視性判定を説明する図。 可視性判定の結果を示す表。 仮想視点画像生成処理の流れを示すフローチャート。 カメラの画角と被写界深度との関係を示した模式図 可視性判定の結果と被写界深度判定の結果とをまとめた表。
以下、本開示の実施形態について、図面を参照して説明する。なお、以下の実施形態は発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。
[実施形態1]
<基本的なシステム構成>
図1は、本実施形態に係る、仮想視点画像を生成する画像処理システムの構成の一例を示すブロック図である。画像処理システム100は、複数のカメラシステム110a~110t、スイッチングハブ(HUB)115、サーバ116、データベース(DB)117、制御装置118及び表示装置119を有する。図1において、各カメラシステム110内には、カメラ111a~111tとカメラアダプタ112a~112tがそれぞれ内部配線によって接続されて存在する。そして、隣り合うそれぞれのカメラシステム間はネットワークケーブル113a~113sによって相互に接続されている。すなわち、各カメラシステム110はネットワークケーブルによってデイジーチェーン接続で伝送を行う。スイッチングハブ115は、各ネットワーク装置間のルーティングを行う。サーバ116は、カメラシステム110から送信されてきた撮影画像の加工、オブジェクト(被写体)の三次元モデルの生成、三次元モデルへの色付け(レンダリング)といった処理を行う情報処理装置である。また、サーバ116は、本システムの時刻同期を行うための時刻同期信号を生成するタイムサーバ機能も有している。各カメラ111は、同期信号に基づいて互いに高精度に同期してフレーム単位で撮影を行う。データベース117は、サーバ116で加工された撮影画像や生成された三次元モデルのデータを蓄積したり、蓄積されているデータをサーバ116に送ったりする情報処理装置である。制御装置118は、各カメラシステム110やサーバ116を制御する情報処理装置である。また、制御装置118は、仮想カメラ(仮想視点)の設定にも利用される。表示装置119は、制御装置118においてユーザが仮想視点を指定するための設定用ユーザインタフェース画面(UI画面)の表示や、生成された仮想視点画像の閲覧用UI画面の表示などを行う。表示装置119は、例えばテレビ、コンピュータのモニタ、タブレットやスマートフォンの液晶表示部などであり、機器の種類は問わない。
スイッチングハブ115とカメラシステム110a、110tはそれぞれネットワークケーブル114a、114bで接続されている。同様にスイッチングハブ115とサーバ116との間はネットワークケーブル114cで接続され、さらにサーバ116とデータベース117との間がネットワークケーブル114dで接続されている。そして、スイッチングハブ115と制御装置118との間はネットワークケーブル114eで接続され、さらに制御装置118と表示装置119との間が、映像用ケーブル114fで接続されている。
なお、図1の例ではカメラシステム110a~110tの間をデイジーチェーン接続で構成したが、スイッチングハブ115と各カメラシステム110とをそれぞれ直接接続するスター型接続でも構わない。また、図1の例では、カメラシステム110は20台構成としているが例示にすぎない。実際のカメラシステムの数は、撮影空間の大きさ、対象イベントの内容、想定されるオブジェクトの数、要望される画質などを考慮して決定される。
ここで、画像処理システム100における仮想視点画像生成の大まかな流れを説明する。カメラ111aで撮影された画像は、カメラアダプタ112aにおいて前景となるオブジェクト(被写体)と背景とを分離するなどの画像処理が施された後、ネットワークケーブル113aを通してカメラシステム110bのカメラアダプタ112bに伝送される。同様にカメラシステム110bは、カメラ111bで撮影された画像を、カメラシステム110aから受信した撮影画像と合わせてカメラシステム110cに伝送する。このような動作を続けることにより、カメラシステム110a~110tまでの各カメラ111a~111tが取得した撮影画像は、カメラシステム110tからネットワークケーブル114bを介してスイッチングハブ115に伝送され、その後、サーバ116に伝送される。
なお、本実施形態では、サーバ116にて三次元モデルの生成と仮想視点画像の生成の両方を行っているが、システム構成はこれに限定されるものではない。例えば、三次元モデルの生成を行うサーバと仮想視点画像の生成を行うサーバが別々に存在してもよい。
<カメラ配置>
図2は、上述の画像処理システム100における20台のカメラ111a~111tが、サッカーを行うフィールドの周囲に配置されている様子を俯瞰的に示す模式図である。本実施形態では、20台のカメラ111a~111tは、第1カメラ群(第1撮影装置群)と第2カメラ群(第2撮影装置群)とに分けられる。第1カメラ群は、相対的に離れた位置からフィールド全体を撮影する10台のカメラ111k~111tから成る。一方、第2カメラ群は、相対的に近い位置からフィールド内の特定の領域を撮影する10台のカメラ111a~111jから成る。そして、撮影距離が遠い第1カメラ群に属する10台のカメラ111k~111tはフィールド中央を向いているものとする。また、撮影距離が近い第2カメラ群に属する10台のカメラ111a~111jは、5台ずつ異なる方向を向いているものとする。すなわち、カメラ111a、111b、111c、111i、111jはフィールド左側のゴール前付近を向いており、カメラ111d、111e、111f、111g、111hはフィールド右側のゴール前付近を向いている。なお、一般的に撮影距離と被写界深度とは相関関係にあり、撮影距離が遠いほど被写界深度は長くなる。したがって、第1カメラ群に属するカメラ111k~111tの方が、第2カメラ群に属するカメラ111a~111jよりも広い(深い)被写界深度を持つことになる。そして、第2カメラ群に属するカメラ111a~111jの担当撮影領域が十分な数のカメラによって多くの方向から撮影がなされるようにすることで、より高画質な仮想視点画像の生成が可能になる。この場合において、双方のカメラ群に属する各カメラの位置はフィールド上の任意の1点を原点とした3次元座標の座標値で規定されているものとする。なお、各カメラ群に属するカメラは、カメラ群単位で全てが同じ高さでもよいし、バラバラの高さでも構わない。
第1カメラ群を構成する各カメラ111k~111tは、フィールドの全域(高さ方向を含む3次元空間の全体)をその被写界深度に収めるようにカメラパラメータが設定されているものとする。すなわち、各カメラ111k~111tの撮影画像においては、フィールドでプレイする選手等が常にピントが合っている状態で写っていることになる。他方、第2カメラ群を構成する各カメラ111a~111jは、自身に割り当てられたフィールド片側のゴール前付近を中心とした一定範囲がその被写界深度に収まるようにカメラパラメータが設定されているものとする。すなわち、各カメラ111a~111jについては、一定範囲内に選手等が入った場合にはより高精細で高画質な撮影画像が得られる代わりに、その被写界深度が狭く(浅く)なっている。そのため、各カメラ111a~111jにおいては、その画角内であっても被写界深度外となってしまうフィールド上の領域が存在し、写っている選手のピントがボケてしまうことがある。図3は、図2においてセンターサークル内にいる選手201を矢印202の方向(側面)から見た場合の模式図である。いま、2つのカメラ群における被写界深度の違いを説明するため、第1カメラ群に属するカメラ111qと第2カメラ群に属するカメラ111fだけを示している。いま、カメラ111fに関し、台形ABCDで示した領域が、当該カメラで撮影した際の被写界深度を表している。つまり、カメラ111fの場合、当該カメラから見て線分ADよりも手前側と線分BCよりも奥側の領域は被写界深度から外れることなる。その結果、線分BCよりも奥に存在する選手201については、その撮影画像においてピントがずれたり、オブジェクト本来の色が取得できなかったりすることになる。同様にカメラ111qの被写界深度が、五角形EFGHIにより示されている。カメラ111qの場合、当該カメラから見て線分EIよりも手前側と線分GHよりも奥側の領域は被写界深度外となる。なお、図3における線分AD及び線分EIは「前方被写界深度」、線分BC及び線分GHは「後方被写界深度」と呼ばれる。図3から、選手201はカメラ111fの被写界深度外に存在し、且つ、カメラ111qの被写界深度内に存在していることが分かる。
なお、本実施形態では説明の便宜上、第1カメラ群については全10台のカメラが同一の注視点で撮影を行い、第2カメラ群については5台ずつのグループに分けて異なる注視点で撮影を行うこととしているが、これに限定されない。例えば、撮影距離が遠い第1カメラ群についても複数のグループに分けた上で、グループ単位で注視点を異ならせて撮影を行ってもよい。また、撮影距離の近い第2カメラ群を3つ以上のグループに分けてそれぞれ別々の注視点で撮影を行うようにしてもよい。また、第2カメラ群に属する10台のカメラ111a~111jは互いに異なる位置又は異なる領域に向けられていてもよいし、10台のうち数台が同じ位置又は同じ領域に向けられていてもよい。また、第1カメラ群に属する10台のカメラ111k~111tも、互いに異なる位置又は異なる領域に向けられていてもよいし、10台のうち数台が同じ位置又は同じ領域に向けられていてもよい。さらには、撮影距離が異なる(すなわち、被写界深度が異なる)カメラ群を3つ以上設けてもよい。
<ハードウェア構成>
図4は、サーバ116や制御装置118といった情報処理装置のハードウェア構成を示すブロック図である。情報処理装置は、CPU211、ROM212、RAM213、補助記憶装置214、操作部215、通信I/F216及びバス217を有する。
CPU211は、ROM212またはRAM213に格納されているコンピュータプログラムおよびデータを用いて情報処理装置の全体を制御することで、情報処理装置の各機能を実現する。なお、情報処理装置は、CPU211とは異なる専用の1又は複数のハードウェアあるいはGPU(Graphics Processing Unit)を有していてもよい。そして、CPU211による処理の少なくとも一部をGPUあるいは専用のハードウェアが行うようにしてもよい。専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、およびDSP(デジタルシグナルプロセッサ)などがある。ROM212は、変更を必要としないプログラムなどを格納する。RAM213は、補助記憶装置214から供給されるプログラムやデータ、及び通信I/F217を介して外部から供給されるデータなどを一時記憶する。補助記憶装置214は、例えばハードディスクドライブ等で構成され、画像データや音量データなどの種々のデータを記憶する。操作部215は、液晶ディスプレイやLED等で構成される表示デバイスとキーボードやマウス等で構成される入力デバイスを有し、グラフィカルユーザインタフェース(GUI)などを介して様々なユーザ指示をCPU211に入力する。なお、表示デバイスと入力デバイスの機能を兼ね備えたタッチパネルでもよい。通信I/F216は、情報処理装置の外部の装置との通信に用いられる。例えば、情報処理装置が外部の装置と有線で接続される場合には、通信用のケーブルが通信I/F216に接続される。情報処理装置が外部の装置と無線通信する機能を有する場合には、通信I/F216はアンテナを備える。バス217は、情報処理装置の各部をつないで情報を伝達する。
<ソフトウェア構成>
図5は、第1カメラ群及び第2カメラ群で得られた撮影画像に基づき仮想視点画像の生成を行うサーバ116のソフトウェア構成を示すブロック図である。サーバ116は、データ取得部501、三次元モデル生成部502、距離推定部503、可視性判定部504、被写界深度判定部505及び仮想視点画像生成部506を有する。以下、各部の機能について説明する。
データ取得部501は、第1カメラ群及び第2カメラ群に属する各カメラの位置、姿勢、画角、焦点距離、絞り値などの撮影条件を規定するパラメータ(カメラパラメータ)及び各カメラで得られた撮影画像データを、スイッチングハブ115を介して取得する。また、データ取得部501は、制御装置118で設定された仮想視点に関する情報(具体的には、仮想視点の位置及び姿勢、画角など。(以下、「仮想視点情報」と表記。))を、スイッチングハブ115を介して取得する。
三次元モデル生成部502は、データ入力部501から受け取った各カメラのカメラパラメータと撮影画像データに基づいて、フィールド上の選手やボールといったオブジェクトの三次元モデルを生成する。ここで、具体的な生成手順について簡単に説明する。まず、各撮影画像に対し前景背景分離処理を行って、オブジェクトのシルエットを表す前景画像を生成する。ここでは前景背景分離の方式として背景差分法を用いることとする。背景差分法では、まず、撮影画像における時系列に異なるフレーム同士を比較し、画素値の差が小さい箇所を動きのない画素として特定し、当該特定された動きのない画素を用いて背景画像を生成する。そして、得られた背景画像と撮影画像の注目するフレームとを比較することで、当該フレームにおいて背景との差分の大きい画素を前景となる画素として特定して、前景画像を生成する。以上の処理を、撮影画像それぞれについて行う。次に、各撮影画像に対応する複数の前景画像を用いて、視体積交差法(例えば、Shape from silhouette法)により三次元モデルを抽出する。視体積交差法では、対象三次元空間を細かい単位立方体(ボクセル)に分割し、各ボクセルが複数の撮影画像に映る場合の画素位置を三次元計算によって求め、各ボクセルが前景の画素に該当するか否かを判断する。全ての撮影画像において前景の画素と判断された場合、そのボクセルは対象三次元空間において、オブジェクトを構成するボクセルであると特定される。こうして特定されたボクセルのみを残し、他のボクセルを削除していく。そして、最終的に残ったボクセル群(3次元座標を持つ点の集合)が、対象三次元空間に存在するオブジェクトの三次元形状を表すモデル(三次元の形状データ)となる。
距離推定部503は、三次元モデル生成部502が生成した各三次元モデルについて、三次元モデルを構成する点(ボクセル)と各カメラの撮像面との距離を、データ取得部501から入力されたカメラパラメータを用いて推定する。ここで、具体的な推定手順について簡単に説明する。まず、対象三次元モデルの任意の点の座標(世界座標)に対し、対象カメラの位置と姿勢を表す外部行列を掛けてカメラ座標系に変換する。対象カメラの位置を原点としてそのレンズが向く方向をカメラ座標系のz軸における正とした場合のz値が、当該任意の点を対象カメラから見たときの距離となるので、これを対象三次元モデルの全点について行って各点から対象カメラまでの距離を得る。こうした処理を、各カメラについて行うことで、対象三次元モデルから各カメラまでの距離を示す距離情報が得られる。
可視性判定部504は、三次元モデルが生成された各オブジェクトについて、距離推定部503で得られた距離情報を用いて、その三次元形状を表すモデルが各カメラから見えているか否かをボクセル単位で判定する。ここで、可視性判定の具体的な手順について図を参照して説明する。図6(a)は、等間隔で設置された8台のカメラ611~618で、底面が正八角形の正角柱で人物を模試的に表現したオブジェクト600を撮影する様子を真上から見た概略図である。いま、8台のカメラ611~618は、オブジェクト600の中心点から等距離、かつ、同じ高さにある。そして、8つの点601~608は、オブジェクト600を構成する側面同士の接合部における各カメラ611~618の高さが同じになる箇所(代表点)を示している。図6(b)は、上記8つのカメラ611~618のうちのカメラ613とオブジェクト600との関係を側面から見た場合の模式図である。どのカメラの視線の先にも代表点があるようにオブジェクト600は十分な高さがあるものとする。また、各カメラ611~618の視線方向は、オブジェクト600の中心点方向であり、いずれのカメラも地面と水平に設置してあるものとする。図7は、8つのカメラ611~618でオブジェクト600を撮影した際に、代表点601~608が各カメラの撮影画像に写る(見えている)か否かを示した表である。図7の表において、行と列の交わった部分には“1”または“0”の値が入っており、“1”は特定のカメラから特定の代表点が見えていること(可視性あり)を意味し、“0”は見えていないこと(可視性なし)を意味している。実際の可視性判定においては、まず、対象カメラを基準として、判定対象となるオブジェクトの三次元モデルの注目する点(ボクセル)までの距離と予め既知であるオブジェクトの中心座標までの距離とを比較する。そして、注目する点までの距離がオブジェクトの中心座標までの距離よりも短い場合(すなわち、注目する点の方が対象カメラにより近い場合)は可視、そうでない場合は非可視となる。
被写界深度判定部505は、三次元モデルが生成された各オブジェクトについて、第1カメラ群及び第2カメラ群に属する各カメラの被写界深度に収まっているか否かを判定する。この判定には、データ取得部501から提供される各カメラの撮影画像データとカメラパラメータ、及び距離推定部503で得られた距離情報を用いる。具体的には、以下のとおりである。まず、前述の距離情報によって、各オブジェクトから各カメラまでの距離(撮影空間におけるオブジェクトの位置を表す座標値)がオブジェクト毎に分かっている。そこで、対象カメラのカメラパラメータからその前方被写界深度と後方被写界深度を計算によって求め、撮影画像内の対象オブジェクトの位置(例えば中心座標)が、求めた前方被写界深度と後方被写界深度との間に収まっているか否かを判断する。これを撮影画像に写っている全てのオブジェクトについてカメラ単位で行なうことで、各オブジェクトが各カメラの被写界深度に含まれているかどうかが分かる。
仮想視点画像生成部506は、データ取得部501から入力される仮想視点情報に基づき、各オブジェクトの三次元モデルに対して色付け(レンダリング処理)を行って、仮想視点からの見えを表す画像を生成する。その際、被写界深度判定部605の判定結果や可視性判定部504の判定結果が参照される。
<仮想視点画像の生成処理>
図8は、サーバ116における、仮想視点画像生成処理の流れを示すフローチャートである。図8のフローチャートに示す一連の処理は、仮想視点情報を含んだユーザ指示(仮想視点画像の生成を指示する信号)を制御装置118から受信したことに応答して開始し、フレーム単位で(撮影画像が動画の場合)実行されるものとする。なお、以下の説明において記号「S」はステップを意味する。
S801では、データ取得部501が、第1カメラ群及び第2カメラ群が同期撮影を行って得た撮影画像データと、両カメラ群に属する各カメラ111a~111tについてのカメラパラメータを取得する。
S802では、三次元モデル生成部502が、撮影距離の遠い第1カメラ群の撮影画像データと第1カメラ群に属する各カメラのカメラパラメータに基づいて、選手やボールといったオブジェクトの三次元モデルを生成する。この段階では撮影距離が遠いカメラの撮影画像を用いることから、得られる三次元モデルはその精度が相対的に低いものになる。
S803では、距離推定部503が、S802で生成された各オブジェクトの三次元モデルについて、三次元モデルを構成する各点から第1カメラ群に属する各カメラ111k~111tまでの距離を推定して、上述の距離情報を生成する。次のS804以降の処理は、オブジェクト単位で実行される。
S804では、被写界深度判定部505が、第1及び第2カメラ群に属する各カメラ111a~111tそれぞれの被写界深度内に注目オブジェクトが存在するか否かを、S803で得られた距離推定の結果に基づき判定する。図9は、カメラの画角と被写界深度との関係を示した模式図である。例えばサッカーやラグビーといった多人数で行うスポーツの試合では、図9に示すように各カメラの画角内には複数の選手(この例ではオブジェクトA~D)が入り込む可能性が高い。しかしながら、あるカメラにおいて複数の選手が撮影できていたとしても、その全ての選手が高画質・高精度に撮影できているとは限らない。つまり、図9に示すように、カメラの画角内に複数の選手が収まっている状態のとき、被写界深度内に存在する選手(オブジェクトBとC)と被写界深度から外れて存在している選手(オブジェクトAとD)とが混在し得ることになる。特に第2カメラ群のように撮影距離が近い(つまり、被写界深度が狭い)カメラにおいてはこのような撮影画像が得られやすい。そこで、本ステップでは、オブジェクト単位で、第1及び第2カメラ群に属する各カメラの被写界深度に含まれるかどうかを、カメラパラメータから求まる前方被写界深度及び後方被写界深度と、S803における距離推定の結果に基づいて判定する。いま、第1カメラ群の各カメラ111a~111jは、フィールド全体をカバーする広い被写界深度を持つので、フィールド上の選手やボールであれば常に被写界深度内に収まることになる。また、いずれか一方のゴール前付近にいる選手やボールは、第2カメラ群の各カメラ111k~111tの被写界深度内にも収まることになる。そして、フィールド外にいる監督や控え選手、観客等のオブジェクトについてはその多くが被写界深度内に存在しないと判定されることになる。そして、判定結果に従って次のように処理が振り分けられる。まず、注目オブジェクトがどのカメラの被写界深度にも収まっていない場合には、次のオブジェクトを処理するべくS814に進む。注目オブジェクトが、第1カメラ群のカメラの被写界深度にのみ収まっていればS805に進み、第1カメラ群に加えて第2カメラ群のカメラの被写界深度内にも収まっていればS807に進む。
S805では、可視性判定部504が、注目オブジェクトの三次元モデルについて、第1カメラ群に属する各カメラから見たときの可視性を判定する。判定の結果、注目オブジェクトの三次元モデルが可視性ありであればS806に進む。一方、可視性なしであれば当該オブジェクトについてはレンダリング不要ということになり、次のオブジェクトを処理するべくS814に進む。
S806では、仮想視点画像生成部506が、制御装置118から提供された仮想視点情報に基づき、S802にて生成された注目オブジェクトの三次元モデルに色を付けるレンダリング処理を行なう。具体的には、第1カメラ群ベースの三次元モデルを構成する点群のうち可視性ありと判定された各点に対し、注目オブジェクトをその被写界深度内に含む第1カメラ群のカメラの撮影画像を使って色を付ける処理(レンダリング)が行なわれる。なお、S806では、注目オブジェクトに対する色をどのカメラの撮影画像を使って決めるかについて決定する処理を行い、レンダリングは後で行ってもよい。つまり、注目オブジェクトの色の決定に使用する撮影画像を、その注目オブジェクトを被写界深度内に含む第1カメラ群のカメラの撮影画像とすることを決定する。
S807では、S804にて被写界深度内に注目オブジェクトが存在すると判定された第2カメラ群に属するカメラに関し、一定条件を満たすか否かによって処理が振り分けられる。この場合の一定条件としては、例えば被写界深度内に注目オブジェクトが存在すると判定された第2カメラ群に属するカメラの総数が一定数以上あることであり、この際の一定数(閾値)は、次のS810において三次元モデルを生成するのに十分な撮影画像の数をユーザが予め設定しておけばよい。また、カメラの総数だけでなく、一定数以上の撮影方向(例えばオブジェクトの正面・背面・右側面・左側面の4方向)から撮影できていること、といった条件を加えてもよい。判定の結果、注目オブジェクトが被写界深度内に存在すると判定された第2カメラ群のカメラが一定数以上あった場合はS810に進み、なかった場合はS808に進む。
S808では、可視性判定部504が、注目オブジェクトの三次元モデルについて、第1及び第2カメラ群に属する各カメラから見たときの可視性を判定する。判定の結果、注目オブジェクトの三次元モデルが可視性ありであればS809に進む。一方、可視性なしであれば、当該オブジェクトについてはレンダリング不要ということになり、次のオブジェクトを処理するべくS814に進む。図10は、図2においてフィールド中央に位置する選手201の形状を図6に示す正角柱のオブジェクト600と仮定した場合の可視性判定の結果と被写界深度判定の結果とをまとめた表である。いま、選手201の三次元モデルとしてのオブジェクト600における代表点606と607とを結んだ線分を含む面が、カメラ111aの正面から見えているものとする。図10の表において、項目「可視性」が“1”は可視性ありを表し、“0”は可視性なしを表す。また、項目「被写界深度」が“1”は被写界深度内にあることを表し、“0”は被写界深度外にあることを表す。このように三次元モデルを構成する各点について、各カメラからの可視性と被写界深度の情報をまとめることにより、三次元モデルを構成する各点について、可視性のあり/なし、被写界深度の内/外を容易に特定することが可能になる。
S809では、仮想視点画像生成部506が、制御装置118から提供された仮想視点情報に基づき、S802にて生成された注目オブジェクトの三次元モデルに色を付けるレンダリング処理を行なう。本ステップでもS806と同様、第1カメラ群ベースの三次元モデルが対象となる。S806と異なるのは、可視性ありと判定された各点への色付けに、S804にて注目オブジェクトが被写界深度内に存在すると判定された第2カメラ群のカメラによる撮影画像を優先的に使用する点である。優先使用を決定する際に、上述の図10の表を参照することができる。なお、第1カメラ群のカメラからのみ可視性があると判定された点(ボクセル)については、第1カメラ群の撮影画像を用いて色付けがなされることになる。オブジェクトにより接近した位置から撮影を行なう第2カメラ群であってその被写界深度内に注目オブジェクトが存在する撮影画像を優先して色付けに用いることで、オブジェクトの色をより正確に表現した仮想視点画像が得られることになる。
S810では、三次元モデル生成部502が、選手等を近い距離から撮影する第2カメラ群の撮影画像データと第2カメラ群に属する各カメラのカメラパラメータに基づいて、選手等のオブジェクトの三次元モデルを生成する。ただし、生成の際に使用されるのは、第2カメラ群の撮影画像データのうち、S804にて注目オブジェクトが被写界深度内に存在すると判定された第2カメラ群のカメラによって撮影された画像データである。オブジェクトをより接近した位置から撮影する第2カメラ群の撮影画像を用いることで、より精緻な三次元モデルが得られることになる。
S811では、距離推定部503が、S810で生成された注目オブジェクトの三次元モデルについて、当該三次元モデルを構成する各点から第2カメラ群に属する各カメラまでの距離を推定して距離情報を生成する。ただし、距離推定の際に使用されるのは、第2カメラ群に属する各カメラのうち、S804にて注目オブジェクトが被写界深度内に存在すると判定されたカメラである。
S812では、可視性判定部504が、S810にて生成された注目オブジェクトの三次元モデルについて、第2カメラ群に属する各カメラから見たときの可視性を判定する。ただし、可視性判定の際に使用されるのはS811と同様、第2カメラ群に属する各カメラのうち、S804にて注目オブジェクトが被写界深度内に存在すると判定されたカメラである。判定の結果、注目オブジェクトの三次元モデルが可視性ありであればS813に進む。一方、可視性なしであれば、当該オブジェクトについてはレンダリング不要ということになり、次のオブジェクトを処理するべくS814に進む。
S813では、仮想視点画像生成部506が、制御装置118から提供された仮想視点情報に基づき、S810にて生成された注目オブジェクトの三次元モデルに色を付けるレンダリング処理を行なう。本ステップでは上述のS806及びS809とは異なり、第2カメラ群ベースの三次元モデルが対象となる。そして、S809と同様、可視性ありと判定された各点への色付けに使用する撮影画像として、S804にて注目オブジェクトが被写界深度内に存在すると判定された第2カメラ群のカメラによる撮影画像を優先的に使用する。第2カメラ群の撮影画像を優先して色付けに用いることで、精緻な三次元モデルを正確な色で表現した高画質な仮想視点画像が得られることになる。
S814では、すべてのオブジェクトについて処理が完了したか否かが判定される、未処理のオブジェクトがあればS804に戻り、次の注目オブジェクトを決定して処理を続行する。一方、すべてのオブジェクトについて処理が完了していれば本処理を終了する。
以上が、本実施形態に係る、仮想視点画像生成処理の流れである。なお、S806、S809、S813のレンダリング処理において、実際に色付けの対象となる点(ボクセル)は、可視性ありと判定された点のうちオブジェクト同士の遮蔽判定(オクルージョン判定)によって最終的に残った点である。また、本実施形態では、撮影対象空間におけるオブジェクトの位置の特定にフィールド全体を撮影範囲に収めたカメラ111k~111lのカメラパラメータを用いたが、これに限定されない。例えば、選手等にGPS機能を搭載した機器を携帯させるなど、距離推定以外の方法でオブジェクトの位置を特定してもよい。
以上のとおり本実施形態に拠れば、オブジェクトがその被写界深度に収まっているカメラの撮影画像だけを三次元モデルの生成や色付けに使用することが可能となり、より高画質な仮想視点画像を生成することができる。
(その他の実施例)
本開示は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
116 サーバ
501 データ取得部
502 三次元モデル生成部
505 被写界深度判定部
506 仮想視点画像生成部

Claims (11)

  1. 視点の異なる複数の撮影装置による撮影により取得された複数の画像と、当該複数の撮影装置の位置及び姿勢を特定するためのパラメータを取得する取得手段と、
    前記複数の撮影装置の被写界深度内に特定オブジェクトが存在するか否かを前記パラメータに基づいて判定する判定手段と、
    前記複数の撮影装置のうち、前記判定手段によって被写界深度内に前記特定オブジェクトが存在すると判定された撮影装置の画像に基づいて、前記特定オブジェクトの三次元形状を表す形状データに関する処理を行う処理手段と、
    を有することを特徴とする情報処理装置。
  2. 前記処理手段は、前記判定手段によって被写界深度内に前記特定オブジェクトが存在すると判定された撮影装置の画像に基づいて、前記特定オブジェクトの三次元形状を表す形状データを生成する、ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記処理手段は、前記判定手段によって被写界深度内に前記特定オブジェクトが存在すると判定された撮影装置の画像に基づいて、前記特定オブジェクトの三次元形状を表す形状データに対する色情報を決定する、ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記特定オブジェクトから前記複数の撮影装置それぞれまでの距離を推定する推定手段をさらに有し、
    前記判定手段は、前記複数の撮影装置それぞれの被写界深度内に前記特定オブジェクトが存在するか否かを、前記パラメータと前記推定手段による推定の結果に基づいて判定する、
    ことを特徴とする請求項1乃至3のいずれか一項に記載の情報処理装置。
  5. 前記複数の撮影装置は、第1の撮影装置群と当該第1の撮影装置群よりも前記特定オブジェクトまでの撮影距離が近い第2の撮影装置群とを少なくとも含み、
    前記処理手段は、前記特定オブジェクトが、前記第1の撮影装置群に属する撮影装置の被写界深度内に存在し、かつ、前記第2の撮影装置群に属する撮影装置の被写界深度内に存在すると前記判定手段によって判定された場合、前記第2の撮影装置群に属する撮影装置の画像を用いて前記特定オブジェクトの三次元形状を表す形状データを生成する、
    ことを特徴とする請求項1乃至4のいずれか一項に記載の情報処理装置。
  6. 前記処理手段は、前記判定手段によって前記特定オブジェクトが被写界深度内に存在すると判定された前記第2の撮影装置群に属する撮影装置に関して一定の条件が満たされる場合に、前記第2の撮影装置群に属する撮影装置の画像のみを用いて前記特定オブジェクトの三次元形状を表す形状データを生成する、ことを特徴とする請求項5に記載の情報処理装置。
  7. 前記一定の条件は、前記判定手段によって前記特定オブジェクトが被写界深度内に存在すると判定された前記第2の撮影装置群に属する撮影装置の総数が一定数以上であることを特徴とする請求項6に記載の情報処理装置。
  8. 前記処理手段は、前記特定オブジェクトが、前記第1の撮影装置群に属する撮影装置の被写界深度内に存在し、かつ、前記第2の撮影装置群に属する撮影装置の被写界深度内に存在すると前記判定手段によって判定された場合、前記第2の撮影装置群に属する撮影装置の画像を前記第1の撮影装置群に属する撮影装置の画像よりも優先的に用いて、前記特定オブジェクトの三次元形状を表す形状データに対する色情報を決定することを特徴とする請求項5乃至7のいずれか一項に記載の情報処理装置。
  9. 前記形状データは、前記特定オブジェクトの三次元形状をボクセルで表現したデータであり、
    前記判定手段は、被写界深度内に前記特定オブジェクトが存在すると判定された撮影装置から前記形状データに係る前記特定オブジェクトが見えるかどうかをボクセル単位で判定し、
    前記処理手段は、前記判定手段によって撮影装置から見えると判定されたボクセルに対して前記色情報を決定する、
    ことを特徴とする請求項3に記載の情報処理装置。
  10. 視点の異なる複数の撮影装置による撮影により取得された複数の画像と、当該複数の撮影装置の位置及び姿勢を特定するためのパラメータを取得する取得ステップと、
    前記複数の撮影装置の被写界深度内に特定オブジェクトが存在するか否かを前記パラメータに基づいて判定する判定ステップと、
    前記複数の撮影装置のうち、前記判定ステップにて被写界深度内に前記特定オブジェクトが存在すると判定された撮影装置の画像に基づいて、前記特定オブジェクトの三次元形状を表す形状データに関する処理を行う処理ステップと、
    を有することを特徴とする情報処理方法。
  11. コンピュータを、請求項1乃至9のいずれか一項に記載の情報処理装置として機能させるためのプログラム。
JP2021006356A 2021-01-19 2021-01-19 情報処理装置、情報処理方法及びプログラム Pending JP2022110751A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021006356A JP2022110751A (ja) 2021-01-19 2021-01-19 情報処理装置、情報処理方法及びプログラム
US17/571,904 US20220230337A1 (en) 2021-01-19 2022-01-10 Information processing apparatus, information processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021006356A JP2022110751A (ja) 2021-01-19 2021-01-19 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2022110751A true JP2022110751A (ja) 2022-07-29

Family

ID=82405312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021006356A Pending JP2022110751A (ja) 2021-01-19 2021-01-19 情報処理装置、情報処理方法及びプログラム

Country Status (2)

Country Link
US (1) US20220230337A1 (ja)
JP (1) JP2022110751A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11487080B2 (en) * 2019-10-18 2022-11-01 Htc Corporation Head-mounted display device and adjustment method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3139074A1 (en) * 2018-05-04 2019-11-07 Aquifi, Inc. Systems and methods for three-dimensional data acquisition and processing under timing constraints
CN116194951A (zh) * 2020-07-03 2023-05-30 诺基亚技术有限公司 用于基于立体视觉的3d对象检测与分割的方法和装置

Also Published As

Publication number Publication date
US20220230337A1 (en) 2022-07-21

Similar Documents

Publication Publication Date Title
US11798224B2 (en) Generation apparatus, system and method for generating virtual viewpoint image
JP7051457B2 (ja) 画像処理装置、画像処理方法、及びプログラム
WO2018079430A1 (ja) 画像処理装置、画像処理システム、画像処理方法及びプログラム
US20200058167A1 (en) Generation device, generation method and storage medium for three-dimensional model
JP7027049B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN105611267B (zh) 现实世界和虚拟世界图像基于深度和色度信息的合并
US20220005276A1 (en) Generation device, generation method and storage medium for three-dimensional model
JP7446754B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP6403862B1 (ja) 3次元モデルの生成装置、生成方法及びプログラム
JP2022105590A (ja) 情報処理装置、情報処理方法、及び、プログラム
JP2024032826A (ja) 情報処理装置、情報処理方法、及びプログラム
JP6812181B2 (ja) 画像処理装置、画像処理方法、及び、プログラム
US11468258B2 (en) Information processing apparatus, information processing method, and storage medium
JP2022110751A (ja) 情報処理装置、情報処理方法及びプログラム
JP2022016929A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2020135290A (ja) 画像生成装置、画像生成方法、画像生成システム、及びプログラム
US11847735B2 (en) Information processing apparatus, information processing method, and recording medium
JP6759375B2 (ja) 仮想視点画像を生成するシステム、方法及びプログラム
US20240037843A1 (en) Image processing apparatus, image processing system, image processing method, and storage medium
US20240046552A1 (en) Generation apparatus, generation method, and non-transitory computer-readable storage medium
JP2023026244A (ja) 画像生成装置および画像生成方法、プログラム
JP2021051374A (ja) 形状データ生成装置、形状データ生成方法、及び、プログラム
JP2021018570A (ja) 画像処理装置、画像処理システム、画像処理方法およびプログラム
JP2019118042A (ja) 画像処理装置、画像処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231219