JP2022182120A - VIDEO GENERATION DEVICE, VIDEO PROCESSING SYSTEM, CONTROL METHOD AND PROGRAM FOR VIDEO GENERATION DEVICE - Google Patents
VIDEO GENERATION DEVICE, VIDEO PROCESSING SYSTEM, CONTROL METHOD AND PROGRAM FOR VIDEO GENERATION DEVICE Download PDFInfo
- Publication number
- JP2022182120A JP2022182120A JP2021089464A JP2021089464A JP2022182120A JP 2022182120 A JP2022182120 A JP 2022182120A JP 2021089464 A JP2021089464 A JP 2021089464A JP 2021089464 A JP2021089464 A JP 2021089464A JP 2022182120 A JP2022182120 A JP 2022182120A
- Authority
- JP
- Japan
- Prior art keywords
- video
- image
- subject
- data
- video data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Processing (AREA)
Abstract
【課題】仮想視点映像の生成に要する時間を短縮する映像生成装置、その制御方法、映像処理システム及びプログラムを提供する。【解決手段】複数の撮影装置により撮影された映像を処理する複数の映像処理装置から受信した映像データに基づいて仮想視点映像を生成する映像生成装置で1000あって、複数の映像処理装置の各々から、所定の処理が行われた第1の映像データを受信する映像受信部と、第1の映像データに基づいて、各撮影装置の撮影画角の範囲内に被写体が存在するか否かを時間ごとに判定する有効被写体判定部と、有効被写体判定部の判定結果に基づいて、被写体が存在する時間における所定の処理が行われていない第2の映像データを、複数の映像処理装置の各々に要求する要求部と、第2の映像データに基づいて仮想視点映像を生成する仮想視点映像生成部と、を備える。【選択図】図1A video generation device, a control method thereof, a video processing system, and a program are provided for shortening the time required to generate a virtual viewpoint video. Kind Code: A1 A video generation device for generating a virtual viewpoint video based on video data received from a plurality of video processing devices for processing video captured by a plurality of imaging devices, each of the plurality of video processing devices. a video receiving unit for receiving first video data on which predetermined processing has been performed; an effective subject determining unit that determines each time, and based on the determination result of the effective subject determining unit, the second video data that has not been subjected to the predetermined processing during the time when the subject exists, is transferred to each of the plurality of video processing devices. and a virtual viewpoint video generation unit that generates a virtual viewpoint video based on the second video data. [Selection drawing] Fig. 1
Description
本発明は、仮想視点画像を生成する技術に関する。 The present invention relates to technology for generating a virtual viewpoint image.
近年、複数の撮影装置を異なる位置に設置し、同期撮影した多視点画像から、前景背景分離、三次元形状推定、三次元形状生成、レンダリングなどを映像処理装置で行うことにより、任意の視点で撮影しているような画像を合成する技術が実現されている。 In recent years, multiple image capturing devices have been installed at different positions, and from the synchronously captured multi-viewpoint images, a video processing device performs processes such as foreground/background separation, 3D shape estimation, 3D shape generation, and rendering. Techniques for synthesizing images that look like they are being photographed have been realized.
この技術を、サッカーやバスケットボールなどのスポーツ撮影に適用し、従来は不可能であった試合中のフィールド内からのカメラマン撮影のような画像を視聴者が鑑賞することが可能となり、視聴者へ高い臨場感を与える画像制作が可能となる。また、スタジオに適用し、ミュージックビデオなどを撮影することで、従来、撮影が困難であった演奏者を上から俯瞰したような映像や下から床を透視したような映像など任意のカメラワークでの撮影が可能となる。さらに、撮影被写体及び有効被写体を選択的に表示または非表示にすることも可能であるため、従来のカメラマンによる撮影と比較してより自由度の高い映像生成が可能となる。 By applying this technology to the shooting of sports such as soccer and basketball, it has become possible for viewers to appreciate images taken by a cameraman from within the field during a match, which was not possible in the past. It is possible to create an image that gives a sense of presence. In addition, by applying it to the studio and shooting music videos, etc., it is possible to use any camera work, such as a bird's-eye view of the performer from above, which was difficult to shoot in the past, or a see-through image of the floor from below. can be photographed. Furthermore, since it is possible to selectively display or hide the photographed subject and the effective subject, it is possible to generate a video with a higher degree of freedom than conventional photographing by a cameraman.
特許文献1には、複数のセンサシステムから送信される画像データを使用して、仮想視点画像を生成する装置について記載されている。 Patent Literature 1 describes an apparatus that generates a virtual viewpoint image using image data transmitted from a plurality of sensor systems.
しかしながら、特許文献1に記載の技術では、例えば、画像データのデータ量が大きい等の問題により、画像データの送信に時間がかかり、その結果、仮想視点画像の生成に時間がかかるという課題がある。 However, with the technique described in Patent Document 1, for example, due to problems such as a large amount of image data, it takes time to transmit image data, and as a result, there is a problem that it takes time to generate a virtual viewpoint image. .
本発明は、上記の課題に鑑みてなされたものであり、仮想視点映像の生成に要する時間を短縮する技術を提供することを目的とする。 SUMMARY OF THE INVENTION It is an object of the present invention to provide a technique for shortening the time required to generate a virtual viewpoint video.
上記の目的を達成する本発明に係る映像生成装置は、
複数の撮影装置により撮影された映像を処理する複数の映像処理装置から受信した映像データに基づいて仮想視点映像を生成する映像生成装置であって、
前記複数の映像処理装置の各々から、所定の処理が行われた第1の映像データを受信する受信手段と、
前記第1の映像データに基づいて、各撮影装置の撮影画角の範囲内に被写体が存在するか否かを時間ごとに判定する判定手段と、
前記判定手段の判定結果に基づいて、前記被写体が存在する時間における前記所定の処理が行われていない第2の映像データを、前記複数の映像処理装置の各々に要求する要求手段と、
前記第2の映像データに基づいて仮想視点映像を生成する生成手段と、
を備えることを特徴とする。
A video generation device according to the present invention for achieving the above object includes:
A video generation device that generates a virtual viewpoint video based on video data received from a plurality of video processing devices that process video captured by a plurality of imaging devices,
receiving means for receiving first video data on which predetermined processing has been performed from each of the plurality of video processing devices;
Determination means for determining whether or not a subject exists within the range of the imaging angle of view of each imaging device based on the first video data, for each time;
requesting means for requesting, from each of the plurality of video processing devices, second video data for which the predetermined processing has not been performed during the time when the subject exists, based on the determination result of the determining means;
generating means for generating a virtual viewpoint image based on the second image data;
characterized by comprising
本発明によれば、仮想視点映像の生成に要する時間を短縮することができる。 According to the present invention, it is possible to shorten the time required to generate a virtual viewpoint video.
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。 Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. It should be noted that the following embodiments do not limit the invention according to the scope of claims. Although multiple features are described in the embodiments, not all of these multiple features are essential to the invention, and multiple features may be combined arbitrarily. Furthermore, in the accompanying drawings, the same or similar configurations are denoted by the same reference numerals, and redundant description is omitted.
(第1実施形態)
本実施形態では、高画質な仮想視点映像を短時間で生成するために、被写体が存在しない時間に対応する映像データを取得せず、被写体が存在する時間に対応する映像データを取得し、それに基づいて仮想視点映像を生成する例を説明する。
(First embodiment)
In the present embodiment, in order to generate a high-quality virtual viewpoint image in a short time, image data corresponding to the time when the subject does not exist is not acquired, and image data corresponding to the time when the subject exists is acquired. An example of generating a virtual viewpoint video based on this will be described.
本実施形態では、2種類のシステムを使用した仮想視点画像の生成を行う。この場合の課題について先に説明する。仮想視点映像生成システムのひとつに、映像出力時間を優先し高速処理可能なシステムがある(以下、このシステムを高速システムと称する)。高速システムは、撮影装置ごとに小規模な映像処理装置を配して、仮想視点映像の生成に必要な映像処理の一部を分散処理し、それぞれの映像処理装置であらかじめ処理された画像を処理サーバに集約することにより高速化が実現される。しかしながら、リアルタイムで仮想視点映像を生成するという処理時間の制約により負荷の大きな処理が難しく高画質化が難しい。 In this embodiment, virtual viewpoint images are generated using two types of systems. Problems in this case will be described first. As one of the virtual viewpoint video generation systems, there is a system that prioritizes video output time and is capable of high-speed processing (hereinafter, this system is referred to as a high-speed system). A high-speed system assigns a small-scale video processing device to each camera, distributes some of the video processing required to generate a virtual viewpoint video, and processes the pre-processed images in each video processing device. Speeding up is realized by concentrating on the server. However, due to the processing time constraint of generating a virtual viewpoint video in real time, it is difficult to process a large load and to improve the image quality.
一方で、高速システムの課題を解決するためのシステムとして、撮影装置で撮影した映像を記録装置等に録画し、それを集約し処理サーバで処理することで仮想視点映像を生成するシステムがある(以下、このシステムを高画質システムと称する)。高画質システムでは、各撮影装置で撮影したカメラ画像を一旦保存することが可能であるため、撮影後に時間をかけて仮想視点映像を生成することが可能である。そのため、機械学習等を用いた負荷の大きな映像処理を行うことが可能であり、仮想視点映像の高画質化が実現できる。しかしながら、高画質システムでは、高速システムのようにリアルタイム性までは求められないものの、映像の伝送時間や高負荷の映像生成処理時間により、映像生成までに長時間を必要とする。 On the other hand, as a system to solve the problem of high-speed systems, there is a system that generates a virtual viewpoint video by recording video taken by a camera on a recording device, etc., consolidating it, and processing it on a processing server ( Hereinafter, this system will be referred to as a high image quality system). In the high image quality system, it is possible to temporarily store the camera images captured by each image capturing device, so it is possible to generate a virtual viewpoint video over time after capturing. Therefore, it is possible to perform image processing with a large load using machine learning or the like, and it is possible to realize high image quality of the virtual viewpoint image. However, although the high image quality system does not require real-time performance unlike the high-speed system, it takes a long time to generate an image due to the image transmission time and the high-load image generation processing time.
本実施形態においては、高速システムにおいて生成されるデータを活用して、高画質システムにおける映像生成に要する時間を短縮する例を説明する。 In this embodiment, an example will be described in which data generated in a high-speed system is used to shorten the time required for image generation in a high-definition system.
<構成>
図1(a)は、本実施形態に係る映像処理システムの構成例を示す図である。撮影装置100aから撮影装置100zがそれぞれに対応した映像処理装置200aから映像処理装置200zに接続され、それらから出力された信号が映像生成装置1000に集約される。なお、撮影装置および映像処理装置の台数は撮影領域の大きさや撮影対象により適宜変更することが可能である。
<Configuration>
FIG. 1A is a diagram showing a configuration example of a video processing system according to this embodiment. The
図1(b)は、本実施形態に係る映像処理システムにおける映像処理装置の機能構成例を示す図である。撮影装置100は、不図示のレンズ、CCD・CMOS等のイメージセンサ、映像処理回路等から構成されており、撮影被写体からの光学情報を電気信号に変換し、RAW等の所定フォーマットの映像データとして映像処理装置200に送信する。
FIG. 1B is a diagram showing a functional configuration example of a video processing device in the video processing system according to this embodiment. The photographing
映像処理装置200は、制御部201、映像処理部202、録画制御部203、及び記録部204を備えている。
The
撮影装置100から出力された映像データは、制御部201を介して映像処理部202と録画制御部203とに配信される。
Video data output from the
映像処理部202に映像データが送信されると、画像処理部202によって、映像データは有効被写体の領域を切り出した前景画像(前景画像なので映像データよりもデータ量が小さい)に変換される。ここで、有効被写体とは、後述の背景差分法を用いて撮影画像に対してあらかじめ用意された背景画像を差し引くことで抽出された物体を指す。
When the image data is transmitted to the
さらに、映像処理部202は、変換された前景画像を第1の映像データとして映像生成装置1000へ送信する。ここで背景差分法の処理の一例を、図2を用いて説明する。ここでは、画像7100を撮影しているものとし、あらかじめ画像7100と同一の画角であり、仮想視点映像生成を行わないスタジアムやスタジオ壁面等の画像を撮影した背景画像7010が用意されている。画像7100から背景画像7010を差し引くことで有効被写体を抽出することができる。画像7200が、差し引き後の画像であり有効被写体7000が抽出される。さらに、画像7200から有効被写体を含む領域を切り出した画像7300が前景画像として出力され、映像生成装置1000へ送信される。
Furthermore, the
一方、録画制御部203に映像データが送信されると、録画制御部203は、当該映像データを第2の映像データとして不図示の揮発性メモリ等の補助記憶装置に一時的に保持し、記録部204に格納する。また、映像生成装置1000から後述する方法で要求があった場合には、録画制御部203は、記録部204に記録された映像データの中から要求された映像データを選択的に読み出して映像生成装置1000へ送信する。
On the other hand, when the video data is transmitted to the
記録部204は、ハードディスクドライブ(HDD)やソリッドステートドライブ(SSD)等の不揮発性メモリにより構成されており、録画制御部203による制御に従って映像データを記録して保持する。さらに、読み出し時には、記録部204は、録画制御部203による制御に従って、記録されている映像データの中から所定の映像データを読み出し、録画記録部203へ送信する。また、録画制御部203による制御により、記録されている映像データの消去や上書き等も行うことが可能である。
The
続いて、図3は、撮影装置100aから撮影装置100zまでの各撮影装置の配置例を示す。各撮影装置は、撮影領域3000を取り囲むように配置されており、点O、点X、点Y、点Zで囲まれた撮影領域3000内部にいる物体に対して仮想視点映像が生成される。
Next, FIG. 3 shows an arrangement example of each imaging device from the
<映像生成装置及び映像処理装置のハードウェア構成>
図4は、本実施形態係る映像生成装置1000のハードウェア構成の一例を示す図である。以下では映像生成装置1000を例に説明を行うが、映像処理装置200のハードウェア構成についても同様である。映像生成装置1000は、CPU1001、主記憶装置1002、補助記憶装置1003、外部I/F1004、及びGPU1005を含み、それらが内部バス1006を介して相互に通信可能に接続されている。
<Hardware configuration of video generation device and video processing device>
FIG. 4 is a diagram showing an example of the hardware configuration of the
CPU1001は、中央演算装置であり、各種演算、映像処理、データ入出力など映像生成装置1000の制御を行う。
A
主記憶装置1002は、CPU1001のワークエリアやデータの一時的な記憶領域として機能する記憶装置である。主記憶装置1002は、Dynamic Random Access Memory(DRAM)やStatic Random Access Memory(SRAM)などの記憶媒体を用いて実装される。
The
補助記憶装置1003は、各種プログラム、各種設定情報、各種画像データ、カメラパラメータ、3次元形状データ、2次元マップなどの情報を記憶する記憶装置である。補助記憶装置1003は、Read Only Memory(ROM)やフラッシュメモリなどの不揮発性メモリ、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、テープメディアなどの記憶媒体を用いて実装される。それらは大容量化や高速化のために複数を組み合わせてもよく、RAID(Redundant Arrays of Inexpensive Disks)など論理的に1つにまとめられていてもよい。
The
外部I/F1004は、カメラやPC、装置など外部の機器との通信に利用される通信インターフェースや、ジョイスティックやキーボード、マウスなどのユーザによる各種操作を受け付ける外部機器との接続に利用されるインターフェース、外部ストレージを接続してファイル入出力を行うための汎用的な入出力インターフェース等である。外部I/F1004は、InfiniBandやEthernet、Universal Serial Bus(USB)などの物理的なケーブルの接続端子を持つインターフェース、または無線LANやBluetoothなどの無線を用いたインターフェースなどで構成される。高速システムにおいては、映像処理部202から出力された映像データが不図示のスイッチングハブ等で集約されて、外部I/F1004に入力される。
The external I/
GPU1005は、映像処理演算を高速に実行するための演算装置であり、仮想視点からの画像をレンダリングする処理の他、仮想視点映像に必要な形状データや色情報を生成する機能等を有する。GPU1005は、主記憶装置1002とは異なる主記憶装置を別途含んでいてもよい。また、上記に示した以外のCPU1001で行われる各種演算の一部または全部をGPU1005が行ってもよい。
The
バス1006はPCIExpress等のバスによって構成され、ハードウェアブロックの各部がそれぞれに双方向通信を行うことができる。また、バス1006はハードウェアブロックの各部が双方向に通信可能なものであればどのようなものを用いてもよい。なお、図4に示す構成は一例であり、撮影対象や機能に応じて適切に変更および構成されるものとする。
The
<映像生成装置の機能構成>
図5は、本実施形態に係る映像生成装置1000の機能構成を示す図である。映像生成装置1000は、映像受信部1011、三次元形状生成部1012、被写体位置検出部1013、有効被写体判定部1014、映像選択受信部1015、前景抽出部1016、三次元形状生成部1017、及び仮想視点映像生成部1018を備えている。映像生成装置1000の各処理部の機能は、CPU1001が補助記憶装置1003に格納されているコンピュータプログラムを主記憶装置1002に展開して実行することにより実現される。
<Functional Configuration of Image Generation Device>
FIG. 5 is a diagram showing the functional configuration of the
映像受信部1011は、各映像処理装置200において処理された前景画像7300を受信して三次元形状生成部1012へと送信する。
The
三次元形状生成部1012は、映像受信部1011から送信された前景画像7300に基づいて、視体積交差法、Multi-View-Stereo(MVS)等の三次元形状復元手法により有効被写体の三次元形状を生成する。
Based on the
被写体位置検出部1013は、三次元形状生成部1012により生成された三次元形状に対して外接する直方体(以下、バウンディングボックスとする)を定義する。被写体とバウンディングボックスとの関係を図6に示す。ここでは、被写体5000の三次元形状に外接するように点a、点b、点c、点d、点e、点f、点g、点hを頂点とする直方体がバウンディングボックス5100として定義される。さらに、このバウンディングボックスの三次元座標の情報を映像生成装置1000の主記憶装置1002に格納する。
A subject
有効被写体判定部1014は、各撮影装置100の撮影範囲に有効な被写体が存在するか否かを判定する。ここで、あらかじめ映像生成装置1000の補助記憶装置1003には、撮影装置100aから撮影装置100zまでの各撮影装置が撮影している撮影範囲の三次元座標のデータが保持されている。図7に撮影範囲の三次元座標データの一例を示す。ここでは、各撮影装置のうち任意の撮影装置100nについて説明する。撮影装置100nに対して点o、点p、点q、点r、点s、点t、点u、点vを頂点とする立体が撮影範囲4000nとして設定されており、撮影領域3000に対する各点の座標が保持されている。さらに、撮影装置100aから撮影装置100zまでの各撮影装置に対して、その配置や撮影画角に対応した撮影範囲がそれぞれ設定されているものとする。なお、図7に示した各撮影装置の配置や撮影範囲の広さや形状などは一例であり、撮影装置の焦点距離や解像度等の仕様や設置状態、仮想視点映像の撮影被写体に応じて、適切に設定されるものとする。
A valid
有効被写体判定部1014は、各撮影装置が撮影している撮影範囲の三次元座標のデータを用いて、各撮影装置の撮影範囲に有効な被写体が存在するか否かを判定する。
A valid
ここでは、図8を参照して、撮影装置のうち任意の撮影装置100nと撮影装置100mについて、その撮影範囲4000nおよび撮影範囲4000mに被写体が存在するか否かを判定する手順を説明する。図8に示すように、被写体5000が存在するとし、この被写体に対してバウンディングボックス5100が定義されており、被写体位置検出部1013によりこのバウンディングボックスの三次元座標が算出されているとする。
Here, with reference to FIG. 8, a procedure for determining whether or not a subject exists in the photographing
ここで、撮影装置の撮影範囲に、一部または全部が含まれるバウンディングボックスが少なくとも一つ存在する場合、その撮影装置の撮影範囲に有効な被写体が存在すると判定する。 Here, if there is at least one bounding box partially or wholly included in the imaging range of the imaging device, it is determined that an effective subject exists in the imaging range of the imaging device.
例えば、図8において、撮影範囲4000n内にはバウンディングボックス5100が存在するため撮影装置100nに対しては有効な被写体が存在すると判定し、後述の有効被写体判定結果リスト6000へ判定結果"有効被写体あり"を出力する。一方、撮影範囲4000m内にはバウンディングボックスが存在しないため撮影装置100mに対しては有効な被写体が存在しないと判定し、後述の有効被写体判定結果リスト6000へ判定結果"有効被写体なし"を出力する。
For example, in FIG. 8, since the
あらかじめ図9に示すような有効被写体判定結果リスト6000の空データが用意されており、補助記憶装置1003に格納されている。そして、撮影装置毎の判定結果を更新し、判定を行ったある時間の判定結果を有効被写体判定結果リスト6000に対して格納する。また、有効被写体判定結果リスト6000は、撮影装置のフレームレートと被写体の状態とに応じて適切に設定された時間間隔で更新されるものとする。例えば、速い動きをする被写体に対しては更新する時間間隔を短くし、逆に動きが少ない被写体に対しては更新する時間間隔を長くする等である。なお、このリストの仕様は一例であり、少なくとも、撮影時間における各撮影装置における有効被写体が存在するか否かの情報が含まれていれば、データ形式は他の形式に変更可能であり、被写体の情報などを付加してデータ化してもよい。
Blank data for the effective subject
映像選択受信部1015は、有効被写体判定部1014の判定結果に基づいて、有効被写体が存在する撮影装置の映像データを、その撮影装置に対応する映像処理装置の録画制御部203へ要求して受信する。具体的には、有効被写体判定結果リスト6000に基づいて、各撮影装置における有効被写体が存在する時間の映像データを要求して受信する。映像選択受信部1015は、受信した映像データを前景抽出部1016へ送信する。
Based on the determination result of the effective
前景抽出部1016は、映像選択受信部1015から出力された映像データから前景画像を抽出する。ここでの処理は、機械学習の手法を映像データに適用し、CNN(Convolutional neural network)などを用い、あらかじめが用意されたデータベースと比較して有効被写体を抽出することにより前景画像を生成する。これにより、密集した被写体など、背景差分法では正確に前景画像を生成することが難しい映像データに対してもより高精度に前景画像の抽出を行うことができる。
三次元形状生成部1017は、前景抽出部1016から出力された前景画像に対して三次元形状復元手法により三次元形状を生成する。ここでは、前景抽出部1016から出力された高精度な前景画像を用いるため、三次元形状生成部1012により生成される三次元形状よりも、実際の被写体形状に近い三次元形状を生成することができる。
A three-dimensional
仮想視点映像生成部1018は、不図示の入力部によって入力された仮想視点の位置及び方向の情報に基づいて、仮想視点から三次元形状生成部1017により生成された三次元形状がどのように表示されるかを三次元計算する。そして、対応する撮影装置の映像データを用いて色付けし、仮想視点映像を生成する。
The virtual viewpoint
<処理>
次に、図10のフローチャートを参照しながら、本実施形態に係る映像生成装置1000が実施する処理の手順を説明する。
<Processing>
Next, a procedure of processing performed by the
S100において、映像受信部1011は、撮影装置100a~撮影装置100zに対応した映像処理装置200a~映像処理装置200zから出力された前景画像を受信する。
In S100, the
S101において、三次元形状生成部1012は、S100で受信された前景画像に基づいて、視体積交差法やMulti-View-Stereo(MVS)等の三次元形状復元手法を用いて三次元形状を生成する。
In S101, the 3D
S102において、被写体位置検出部1013は、S101で生成された三次元形状に対してバウンディングボックスを定義し、バウンディングボックスの三次元座標情報を被写体の座標情報として映像生成装置1000の主記憶装置1002に格納する。
In S102, the subject
S103において、有効被写体判定部1014は、各撮影装置の撮影範囲に有効な被写体が存在するか否かを、図8を参照して前述した判定方法を用いて判定する。ここでは、撮影装置100aから撮影装置100zに対して順次判定を行い、撮影装置の撮影範囲に有効なバウンディングボックスが一つでも存在すると判定された場合には、その時点で判定を終了し、次の撮影範囲の判定を開始する。S104において、有効被写体判定部1014は、S103の判定結果に基づいて、有効被写体判定結果リストを出力する。ここでは、図9を参照して前述したリスト6000を出力する。
In S103, the effective
S105において、映像選択受信部1015は、S104で出力された有効被写体判定結果リスト6000に基づいて、撮影装置毎に有効被写体が存在する時間の映像データを送信するように、外部I/F1104を介して該当する撮影装置に対応する映像処理装置に要求を送信する。
In S105, based on the effective subject
S106において、映像選択受信部1015は、S105で要求した映像データを受信し、補助記憶装置1103に保持する。S107において、前景抽出部1016は、S106で受信された映像データに対して前述した機械学習を用いて前景画像を抽出する。
In S<b>106 , the video
S108において、三次元形状生成部1017は、S107で抽出された前景画像に対して三次元形状復元手法により三次元形状を生成する。
In S108, the three-dimensional
S109において、仮想視点映像生成部1018は、不図示の入力部によって入力された仮想視点の位置及び方向の情報に基づいて、仮想視点からS108で生成された三次元形状がどのように表示されるかを三次元計算し、対応する撮影装置の映像データを用いて色付けし、仮想視点映像を生成する。以上で図10の一連の処理が終了する。
In S109, the virtual viewpoint
以上説明したように、本実施形態では、被写体が存在しない時間に対応する映像データを取得せず、被写体が存在する時間に対応する映像データを取得し、それに基づいて仮想視点映像を生成する。 As described above, in the present embodiment, image data corresponding to the time when the subject does not exist is not acquired, but image data corresponding to the time when the subject exists is acquired, and a virtual viewpoint image is generated based on the image data.
これにより、従来、すべての撮影装置の映像データを送信していたところを、撮影装置を選択して映像データを送信することにより伝送時間の低減を実現し、高画質な仮想視点映像を短時間で生成することができる。 As a result, instead of sending video data from all camera devices, transmission time can be reduced by selecting the camera device and sending the video data. can be generated with
(第2実施形態)
本実施形態では、映像処理装置の記録部へ映像データを記録する際に、有効な被写体が存在する映像データのみを選択的に記録することにより映像データ量を削減し、それにより伝送時間の低減を実現する例を説明する。
(Second embodiment)
In this embodiment, when video data is recorded in the recording unit of the video processing device, only the video data in which an effective subject exists is selectively recorded to reduce the video data amount, thereby reducing the transmission time. An example of realizing
<構成>
本実施形態に係る映像処理システムの各装置構成およびハードウェア構成は第1実施形態の図1、図4を参照して説明した構成と同様であるため、説明を省略する。
<Configuration>
Since the configuration of each device and the hardware configuration of the video processing system according to the present embodiment are the same as the configuration described with reference to FIGS. 1 and 4 of the first embodiment, description thereof will be omitted.
図11は、本実施形態に係る映像生成装置1000の機能構成を示す機能ブロック図である。この、機能ブロックは、図4のCPU1001により補助記憶装置1003に格納されているコンピュータプログラムを主記憶装置1002に展開し実行することにより実現されるものとする。
FIG. 11 is a functional block diagram showing the functional configuration of the
本実施形態では、有効被写体判定部1014に接続された記録選択部2011が追加され、映像選択受信部1015が映像受信部2012に変更されたこと以外は第1実施形態の構成と同一である。同一の参照符号を付した機能ブロックは第1実施形態で説明した機能ブロックと同一である。以下、記録選択部2011および映像受信部2012の機能について説明する。
The configuration of this embodiment is the same as that of the first embodiment, except that a
記録選択部2011は、有効被写体判定部1014から出力された有効被写体判定結果リストを受信し、有効被写体判定結果リストに基づいて映像処理装置200の録画制御部203へ録画状態を変更する信号を送信する。ここで、録画状態を変更する信号として、有効被写体が存在すると判定された撮影装置100に対応する映像処理装置の録画制御部に対しては映像データを保持するように要求する信号を送信する。また、有効被写体が存在しないと判定された撮影装置に対応する映像処理装置200の録画制御部203に対しては映像データの保持を停止するように要求する信号を送信する。なお、ここでは、有効被写体判定部1014において有効被写体を判定している時間間隔において信号を継続して送信し続けてもよいし、状態が変化した場合にのみトリガとなる信号を送信してもよい。
The
また、信号を受信した映像処理装置200の録画制御部203は、映像データを保持する信号を受信した場合には撮影装置100から受信した映像データの録画を行い、映像データの録画を停止する信号を受信した場合には映像データの録画を停止する。なお、ここでの処理は、該当する映像データの記録を保持または停止すればよく、不図示の不揮発メモリに一時的に映像データを保持して選択的に記録部204に記録してもよいし、記録部204に記録した映像データの中から保持する映像データのみを残し、その他の映像データを消去してもよいも。
In addition, the
映像受信部2012は、第1実施形態で説明した映像選択受信部1015のように選択的に映像データを受信するのではなく、映像処理装置200aから映像処理装置200zまでの映像データを全て受信し、前景抽出部1016へと送信する。ここで受信される映像データは、有効被写体が存在する映像データとなっている。
The image receiving unit 2012 receives all the image data from the
<処理>
次に、図12のフローチャートを参照しながら、本実施形態に係る映像生成装置1000が実施する処理の手順を説明する。
<Processing>
Next, a procedure of processing performed by the
S200において、映像受信部1011は、撮影装置100aから撮影装置100zに対応した映像処理装置200aから映像処理装置200zより出力された前景画像を受信する。
In S200, the
S201において、三次元形状生成部1012は、S200で受信した前景画像に基づいて、視体積交差法、Multi-View-Stereo(MVS)等の三次元形状復元手法により三次元形状を生成する。S202では、被写体位置検出部1013は、S201で生成された三次元形状に対してバウンディングボックスを定義し、バウンディングボックスの三次元座標情報を映像生成装置1000の主記憶装置1002に格納する。
In S201, the 3D
S203において、有効被写体判定部1014は、各撮影装置100の撮影範囲に有効な被写体が存在するか否かを判定する。図8を参照して説明した判定方法を用いて判定する。S204において、有効被写体判定部1014は、S203での判定結果に基づいて、有効被写体判定結果リストを出力する。ここでは図9を参照して説明したリスト6000を出力する。
In S<b>203 , the effective
S205において、記録選択部2011は、S204で出力された有効被写体判定結果リスト6000に基づいて、撮影装置100毎に、有効被写体が存在する場合には該当する時間の映像データを記録するように、外部I/F1104を介して該当する撮影装置100に対応する映像処理装置200に要求を送信する。一方、有効被写体が存在しない場合には記録を停止するように、外部I/F1104を介して該当する撮影装置100に対応する映像処理装置200に要求を送信する。これにより、有効な被写体が存在する撮影装置の映像データのみがそれに対応した映像処理装置200の記録部204に記録されることになる。
In S205, based on the effective subject
S206において、映像受信部2012は、S205での要求に応じて記録された映像データを、各撮影装置100に対応した映像処理装置200の記録部204から受信し、補助記憶装置1103に保持する。
In S<b>206 , the video reception unit 2012 receives the video data recorded in response to the request in S<b>205 from the
S207において、前景抽出部1016は、S206で受信された映像データに対して前述した機械学習を用いて前景画像を抽出する。S208において、三次元形状生成部1017は、S207で抽出された前景画像に対して三次元形状復元手法により三次元形状を生成する。
In S207, the
S209において、仮想視点映像生成部1018は、不図示の入力部によって入力された仮想視点の位置及び方向の情報に基づいて、仮想視点からS208で生成された三次元形状がどのように表示されるかを三次元計算し、対応する撮影装置の映像データを用いて色付けし、仮想視点映像を生成する。以上で図12の一連の処理が終了する。
In S209, the virtual viewpoint
以上説明したように、本実施形態では、被写体が存在する映像データのみを映像処理装置に記録、保持させる、映像生成装置は選択的に記録、保持された映像データを受信し、仮想視点映像を生成する。 As described above, in the present embodiment, only video data in which a subject exists is recorded and held in the video processing device. Generate.
これにより、従来、すべての撮影装置の映像データを送信していたところを、撮影装置を選択して映像データを記録することにより映像データ量を低減し、伝送時間の低減を実現し、高画質な仮想視点映像を短時間で生成することができる。 As a result, instead of transmitting image data from all image capturing devices in the past, the amount of image data can be reduced by selecting the image capturing device and recording the image data. A virtual viewpoint video can be generated in a short time.
なお、上述の各実施形態の一部を適宜組み合わせてもよい。また、画像認識等の技術を使用し、特定の被写体が撮影装置の撮影画角内に存在するか否かに応じて第1実施形態の処理を適用してもよいし、或いは第2実施形態の処理を適用してもよい。 In addition, you may combine a part of above-mentioned each embodiment suitably. Alternatively, the processing of the first embodiment may be applied according to whether or not a specific subject is present within the angle of view of the photographing device using a technique such as image recognition, or the processing of the second embodiment may be applied. process may be applied.
例えば、映像処理装置1000に特定の被写体を認識する認識部をさらに設け、被写体判定部1014が図10のS103において、各撮影装置の撮影画角の範囲内に特定の被写体が存在するか否かを時間ごとに判定するように構成してもよい。これにより、特定の被写体に限定した仮想視点映像を短時間で生成することが可能となる。
For example, the
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other embodiments)
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or device via a network or a storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。 The invention is not limited to the embodiments described above, and various modifications and variations are possible without departing from the spirit and scope of the invention. Accordingly, the claims are appended to make public the scope of the invention.
100:撮影装置、200:映像処理装置、1000:映像生成装置、201:制御部、202:映像処理部、203:録画制御部、204:記録部、1011:映像受信部、1012:三次元形状生成部、1013:被写体位置検出部、有効被写体判定部1014、1015:映像選択受信部、1016:前景抽出部、1017:三次元形状生成部、1018:仮想視点映像生成部
100: photographing device, 200: video processing device, 1000: video generation device, 201: control unit, 202: video processing unit, 203: recording control unit, 204: recording unit, 1011: video reception unit, 1012: three-dimensional shape Generating unit 1013: subject position detecting unit Effective
Claims (10)
前記複数の映像処理装置の各々から、所定の処理が行われた第1の映像データを受信する受信手段と、
前記第1の映像データに基づいて、各撮影装置の撮影画角の範囲内に被写体が存在するか否かを時間ごとに判定する判定手段と、
前記判定手段の判定結果に基づいて、前記被写体が存在する時間における前記所定の処理が行われていない第2の映像データを、前記複数の映像処理装置の各々に要求する要求手段と、
前記第2の映像データに基づいて仮想視点映像を生成する生成手段と、
を備えることを特徴とする映像生成装置。 A video generation device that generates a virtual viewpoint video based on video data received from a plurality of video processing devices that process video captured by a plurality of imaging devices,
receiving means for receiving first video data on which predetermined processing has been performed from each of the plurality of video processing devices;
Determination means for determining whether or not a subject exists within the range of the imaging angle of view of each imaging device based on the first video data, for each time;
requesting means for requesting, from each of the plurality of video processing devices, second video data for which the predetermined processing has not been performed during the time when the subject exists, based on the determination result of the determining means;
generating means for generating a virtual viewpoint image based on the second image data;
A video generation device comprising:
前記三次元形状に基づいて前記被写体の位置を示す座標情報を取得する取得手段と、をさらに備え、
前記判定手段は、前記座標情報に基づいて、各撮影装置の撮影画角の範囲内に被写体が存在するか否かを時間ごとに判定することを特徴とする請求項2に記載の映像生成装置。 shape generating means for generating a three-dimensional shape of the subject based on the first image data of the foreground image;
further comprising acquisition means for acquiring coordinate information indicating the position of the subject based on the three-dimensional shape,
3. The video generation apparatus according to claim 2, wherein the determination means determines whether or not the subject exists within the range of the shooting angle of view of each shooting device based on the coordinate information. .
前記判定手段は、前記第1の映像データに基づいて、各撮影装置の撮影画角の範囲内に前記特定の被写体が存在するか否かを時間ごとに判定することを特徴とする請求項1乃至3の何れか1項に記載の映像生成装置。 further comprising recognition means for recognizing a specific subject,
2. The judging means judges whether or not the specific subject exists within the range of the photographing angle of view of each photographing device based on the first image data at each time. 4. The video generation device according to any one of items 1 to 3.
前記複数の映像処理装置の各々は、
対応する撮影装置から受信した映像データに所定の処理を行って第1の映像データを生成する画像処理手段と、
前記対応する撮影装置から受信した映像データを第2の映像データとして記録する記録手段と、を備え、
前記映像生成装置は、
前記複数の映像処理装置の各々から前記第1の映像データを受信する受信手段と、
前記第1の映像データに基づいて、各撮影装置の撮影画角の範囲内に被写体が存在するか否かを時間ごとに判定する判定手段と、
前記判定手段の判定結果に基づいて、前記被写体が存在する時間の前記第2の映像データを前記複数の映像処理装置の各々に要求する要求手段と、
前記複数の映像処理装置の各々から受信した前記被写体が存在する時間の前記第2の映像データに基づいて仮想視点映像を生成する生成手段と、
を備えることを特徴とする映像処理システム。 a plurality of image capturing devices; a plurality of image processing devices for processing images captured by the plurality of image capturing devices; A video processing system comprising a device,
each of the plurality of video processing devices,
image processing means for performing predetermined processing on video data received from a corresponding imaging device to generate first video data;
recording means for recording video data received from the corresponding imaging device as second video data,
The video generation device is
receiving means for receiving the first video data from each of the plurality of video processing devices;
Determination means for determining whether or not a subject exists within the range of the imaging angle of view of each imaging device based on the first video data, for each time;
requesting means for requesting each of the plurality of video processing devices for the second video data of the time when the subject exists, based on the determination result of the determining means;
generating means for generating a virtual viewpoint image based on the second image data received from each of the plurality of image processing devices and containing the subject;
A video processing system comprising:
前記複数の映像処理装置の各々から、所定の処理が行われた第1の映像データを受信する受信工程と、
前記第1の映像データに基づいて、各撮影装置の撮影画角の範囲内に被写体が存在するか否かを時間ごとに判定する判定工程と、
前記判定工程での判定結果に基づいて、前記被写体が存在する時間における前記所定の処理が行われていない第2の映像データを、前記複数の映像処理装置の各々に要求する要求工程と、
前記第2の映像データに基づいて仮想視点映像を生成する生成工程と、
を有することを特徴とする映像生成装置の制御方法。 A control method for a video generation device that generates a virtual viewpoint video based on video data received from a plurality of video processing devices that process video captured by a plurality of imaging devices, comprising:
a receiving step of receiving first video data on which predetermined processing has been performed from each of the plurality of video processing devices;
a determination step of determining, based on the first video data, whether or not a subject exists within the range of the imaging angle of view of each imaging device at each time;
a requesting step of requesting, from each of the plurality of video processing devices, second video data for which the predetermined processing has not been performed during the time when the subject exists, based on the determination result of the determining step;
a generation step of generating a virtual viewpoint image based on the second image data;
A control method for a video generation device, comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021089464A JP2022182120A (en) | 2021-05-27 | 2021-05-27 | VIDEO GENERATION DEVICE, VIDEO PROCESSING SYSTEM, CONTROL METHOD AND PROGRAM FOR VIDEO GENERATION DEVICE |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021089464A JP2022182120A (en) | 2021-05-27 | 2021-05-27 | VIDEO GENERATION DEVICE, VIDEO PROCESSING SYSTEM, CONTROL METHOD AND PROGRAM FOR VIDEO GENERATION DEVICE |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2022182120A true JP2022182120A (en) | 2022-12-08 |
Family
ID=84328966
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021089464A Pending JP2022182120A (en) | 2021-05-27 | 2021-05-27 | VIDEO GENERATION DEVICE, VIDEO PROCESSING SYSTEM, CONTROL METHOD AND PROGRAM FOR VIDEO GENERATION DEVICE |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2022182120A (en) |
-
2021
- 2021-05-27 JP JP2021089464A patent/JP2022182120A/en active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110574076B (en) | Image generation device, image generation method, and computer-readable storage medium | |
| JP4297197B2 (en) | Calibration processing apparatus, calibration processing method, and computer program | |
| US20100182480A1 (en) | Image processing apparatus, image matching method, and computer-readable recording medium | |
| CN112750085A (en) | Image restoration method and image restoration apparatus | |
| WO2019238114A1 (en) | Three-dimensional dynamic model reconstruction method, apparatus and device, and storage medium | |
| CN110361005B (en) | Positioning method, positioning device, readable storage medium and electronic equipment | |
| US9697581B2 (en) | Image processing apparatus and image processing method | |
| CN110544273B (en) | Motion capture method, device and system | |
| JP2019045991A (en) | Generation device, generation method and program | |
| CN113643414A (en) | Three-dimensional image generation method and device, electronic equipment and storage medium | |
| JP2019003428A (en) | Image processing device, image processing method, and program | |
| KR20220121533A (en) | Image restoration method and image restoration apparatus for restoring images acquired through an array camera | |
| JP2019135617A (en) | Information processing device, method for controlling the same, and image processing system | |
| CN111161398A (en) | Image generation method, device, equipment and storage medium | |
| CN110544278B (en) | Rigid body motion capture method and device and AGV pose capture system | |
| CN117274514A (en) | Remote sensing image generation method and device based on ground-air visual angle geometric transformation | |
| US20210142511A1 (en) | Method of generating 3-dimensional model data | |
| US10341683B1 (en) | Apparatus and method to reduce an amount of coordinate data representing an object taken by an imaging device in a three dimensional space | |
| CN115598744A (en) | High-dimensional light field event camera based on micro-lens array and extraction method | |
| JP2016005027A (en) | Information processing apparatus, imaging device, imaging system, information processing method and program | |
| CN114881841A (en) | Image generation method and device | |
| JPH08242469A (en) | Imaging camera device | |
| JP2020005089A (en) | Imaging system, image processing apparatus, image processing method, and program | |
| JP2018063635A (en) | Image processing apparatus, image processing method, and program | |
| JP6602412B2 (en) | Information processing apparatus and method, information processing system, and program. |