JP2022182120A - VIDEO GENERATION DEVICE, VIDEO PROCESSING SYSTEM, CONTROL METHOD AND PROGRAM FOR VIDEO GENERATION DEVICE - Google Patents

VIDEO GENERATION DEVICE, VIDEO PROCESSING SYSTEM, CONTROL METHOD AND PROGRAM FOR VIDEO GENERATION DEVICE Download PDF

Info

Publication number
JP2022182120A
JP2022182120A JP2021089464A JP2021089464A JP2022182120A JP 2022182120 A JP2022182120 A JP 2022182120A JP 2021089464 A JP2021089464 A JP 2021089464A JP 2021089464 A JP2021089464 A JP 2021089464A JP 2022182120 A JP2022182120 A JP 2022182120A
Authority
JP
Japan
Prior art keywords
video
image
subject
data
video data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021089464A
Other languages
Japanese (ja)
Inventor
昂佑 川▲畔▼
Kosuke Kawabata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2021089464A priority Critical patent/JP2022182120A/en
Publication of JP2022182120A publication Critical patent/JP2022182120A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)

Abstract

【課題】仮想視点映像の生成に要する時間を短縮する映像生成装置、その制御方法、映像処理システム及びプログラムを提供する。【解決手段】複数の撮影装置により撮影された映像を処理する複数の映像処理装置から受信した映像データに基づいて仮想視点映像を生成する映像生成装置で1000あって、複数の映像処理装置の各々から、所定の処理が行われた第1の映像データを受信する映像受信部と、第1の映像データに基づいて、各撮影装置の撮影画角の範囲内に被写体が存在するか否かを時間ごとに判定する有効被写体判定部と、有効被写体判定部の判定結果に基づいて、被写体が存在する時間における所定の処理が行われていない第2の映像データを、複数の映像処理装置の各々に要求する要求部と、第2の映像データに基づいて仮想視点映像を生成する仮想視点映像生成部と、を備える。【選択図】図1A video generation device, a control method thereof, a video processing system, and a program are provided for shortening the time required to generate a virtual viewpoint video. Kind Code: A1 A video generation device for generating a virtual viewpoint video based on video data received from a plurality of video processing devices for processing video captured by a plurality of imaging devices, each of the plurality of video processing devices. a video receiving unit for receiving first video data on which predetermined processing has been performed; an effective subject determining unit that determines each time, and based on the determination result of the effective subject determining unit, the second video data that has not been subjected to the predetermined processing during the time when the subject exists, is transferred to each of the plurality of video processing devices. and a virtual viewpoint video generation unit that generates a virtual viewpoint video based on the second video data. [Selection drawing] Fig. 1

Description

本発明は、仮想視点画像を生成する技術に関する。 The present invention relates to technology for generating a virtual viewpoint image.

近年、複数の撮影装置を異なる位置に設置し、同期撮影した多視点画像から、前景背景分離、三次元形状推定、三次元形状生成、レンダリングなどを映像処理装置で行うことにより、任意の視点で撮影しているような画像を合成する技術が実現されている。 In recent years, multiple image capturing devices have been installed at different positions, and from the synchronously captured multi-viewpoint images, a video processing device performs processes such as foreground/background separation, 3D shape estimation, 3D shape generation, and rendering. Techniques for synthesizing images that look like they are being photographed have been realized.

この技術を、サッカーやバスケットボールなどのスポーツ撮影に適用し、従来は不可能であった試合中のフィールド内からのカメラマン撮影のような画像を視聴者が鑑賞することが可能となり、視聴者へ高い臨場感を与える画像制作が可能となる。また、スタジオに適用し、ミュージックビデオなどを撮影することで、従来、撮影が困難であった演奏者を上から俯瞰したような映像や下から床を透視したような映像など任意のカメラワークでの撮影が可能となる。さらに、撮影被写体及び有効被写体を選択的に表示または非表示にすることも可能であるため、従来のカメラマンによる撮影と比較してより自由度の高い映像生成が可能となる。 By applying this technology to the shooting of sports such as soccer and basketball, it has become possible for viewers to appreciate images taken by a cameraman from within the field during a match, which was not possible in the past. It is possible to create an image that gives a sense of presence. In addition, by applying it to the studio and shooting music videos, etc., it is possible to use any camera work, such as a bird's-eye view of the performer from above, which was difficult to shoot in the past, or a see-through image of the floor from below. can be photographed. Furthermore, since it is possible to selectively display or hide the photographed subject and the effective subject, it is possible to generate a video with a higher degree of freedom than conventional photographing by a cameraman.

特許文献1には、複数のセンサシステムから送信される画像データを使用して、仮想視点画像を生成する装置について記載されている。 Patent Literature 1 describes an apparatus that generates a virtual viewpoint image using image data transmitted from a plurality of sensor systems.

特開2017-211828号公報JP 2017-211828 A

しかしながら、特許文献1に記載の技術では、例えば、画像データのデータ量が大きい等の問題により、画像データの送信に時間がかかり、その結果、仮想視点画像の生成に時間がかかるという課題がある。 However, with the technique described in Patent Document 1, for example, due to problems such as a large amount of image data, it takes time to transmit image data, and as a result, there is a problem that it takes time to generate a virtual viewpoint image. .

本発明は、上記の課題に鑑みてなされたものであり、仮想視点映像の生成に要する時間を短縮する技術を提供することを目的とする。 SUMMARY OF THE INVENTION It is an object of the present invention to provide a technique for shortening the time required to generate a virtual viewpoint video.

上記の目的を達成する本発明に係る映像生成装置は、
複数の撮影装置により撮影された映像を処理する複数の映像処理装置から受信した映像データに基づいて仮想視点映像を生成する映像生成装置であって、
前記複数の映像処理装置の各々から、所定の処理が行われた第1の映像データを受信する受信手段と、
前記第1の映像データに基づいて、各撮影装置の撮影画角の範囲内に被写体が存在するか否かを時間ごとに判定する判定手段と、
前記判定手段の判定結果に基づいて、前記被写体が存在する時間における前記所定の処理が行われていない第2の映像データを、前記複数の映像処理装置の各々に要求する要求手段と、
前記第2の映像データに基づいて仮想視点映像を生成する生成手段と、
を備えることを特徴とする。
A video generation device according to the present invention for achieving the above object includes:
A video generation device that generates a virtual viewpoint video based on video data received from a plurality of video processing devices that process video captured by a plurality of imaging devices,
receiving means for receiving first video data on which predetermined processing has been performed from each of the plurality of video processing devices;
Determination means for determining whether or not a subject exists within the range of the imaging angle of view of each imaging device based on the first video data, for each time;
requesting means for requesting, from each of the plurality of video processing devices, second video data for which the predetermined processing has not been performed during the time when the subject exists, based on the determination result of the determining means;
generating means for generating a virtual viewpoint image based on the second image data;
characterized by comprising

本発明によれば、仮想視点映像の生成に要する時間を短縮することができる。 According to the present invention, it is possible to shorten the time required to generate a virtual viewpoint video.

(a)一実施形態に係る映像処理システムの構成例を示す図、(b)本実施形態に係る映像処理システムにおける映像処理装置の機能構成例を示す図。1A shows a configuration example of a video processing system according to an embodiment; FIG. 1B shows a functional configuration example of a video processing device in the video processing system according to this embodiment; FIG. 一実施形態に係る処理を説明する図。The figure explaining the process which concerns on one embodiment. 一実施形態に係る撮影装置の配置図。1 is a layout diagram of an imaging device according to an embodiment; FIG. 一実施形態に係る映像処理装置及び映像生成装置のハードウェア構成の一例を示す図。1 is a diagram showing an example of the hardware configuration of a video processing device and a video generation device according to one embodiment; FIG. 第1実施形態に係る映像生成装置の機能構成の一例を示す図。FIG. 2 is a diagram showing an example of a functional configuration of a video generation device according to the first embodiment; FIG. 第1実施形態に係るバウンディングボックスの模式図。4 is a schematic diagram of a bounding box according to the first embodiment; FIG. 第1実施形態に係る撮影装置と撮影画角の配置図。FIG. 2 is a layout diagram of an imaging device and an imaging angle of view according to the first embodiment; 第1実施形態に係る有効被写体の判定に関する図。4A and 4B are diagrams related to determination of an effective subject according to the first embodiment; FIG. 第1実施形態に係る有効被写体リストを表す図。FIG. 4 is a view showing an effective subject list according to the first embodiment; FIG. 第1実施形態に係る映像生成装置が実施する処理の手順を示すフローチャート。4 is a flowchart showing the procedure of processing performed by the video generation device according to the first embodiment; 第2実施形態に係る映像生成装置の機能構成の一例を示す図。The figure which shows an example of the functional structure of the image|video production|generation apparatus which concerns on 2nd Embodiment. 第2実施形態に係る映像生成装置が実施する処理の手順を示すフローチャート。10 is a flowchart showing the procedure of processing performed by the video generation device according to the second embodiment;

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。 Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. It should be noted that the following embodiments do not limit the invention according to the scope of claims. Although multiple features are described in the embodiments, not all of these multiple features are essential to the invention, and multiple features may be combined arbitrarily. Furthermore, in the accompanying drawings, the same or similar configurations are denoted by the same reference numerals, and redundant description is omitted.

(第1実施形態)
本実施形態では、高画質な仮想視点映像を短時間で生成するために、被写体が存在しない時間に対応する映像データを取得せず、被写体が存在する時間に対応する映像データを取得し、それに基づいて仮想視点映像を生成する例を説明する。
(First embodiment)
In the present embodiment, in order to generate a high-quality virtual viewpoint image in a short time, image data corresponding to the time when the subject does not exist is not acquired, and image data corresponding to the time when the subject exists is acquired. An example of generating a virtual viewpoint video based on this will be described.

本実施形態では、2種類のシステムを使用した仮想視点画像の生成を行う。この場合の課題について先に説明する。仮想視点映像生成システムのひとつに、映像出力時間を優先し高速処理可能なシステムがある(以下、このシステムを高速システムと称する)。高速システムは、撮影装置ごとに小規模な映像処理装置を配して、仮想視点映像の生成に必要な映像処理の一部を分散処理し、それぞれの映像処理装置であらかじめ処理された画像を処理サーバに集約することにより高速化が実現される。しかしながら、リアルタイムで仮想視点映像を生成するという処理時間の制約により負荷の大きな処理が難しく高画質化が難しい。 In this embodiment, virtual viewpoint images are generated using two types of systems. Problems in this case will be described first. As one of the virtual viewpoint video generation systems, there is a system that prioritizes video output time and is capable of high-speed processing (hereinafter, this system is referred to as a high-speed system). A high-speed system assigns a small-scale video processing device to each camera, distributes some of the video processing required to generate a virtual viewpoint video, and processes the pre-processed images in each video processing device. Speeding up is realized by concentrating on the server. However, due to the processing time constraint of generating a virtual viewpoint video in real time, it is difficult to process a large load and to improve the image quality.

一方で、高速システムの課題を解決するためのシステムとして、撮影装置で撮影した映像を記録装置等に録画し、それを集約し処理サーバで処理することで仮想視点映像を生成するシステムがある(以下、このシステムを高画質システムと称する)。高画質システムでは、各撮影装置で撮影したカメラ画像を一旦保存することが可能であるため、撮影後に時間をかけて仮想視点映像を生成することが可能である。そのため、機械学習等を用いた負荷の大きな映像処理を行うことが可能であり、仮想視点映像の高画質化が実現できる。しかしながら、高画質システムでは、高速システムのようにリアルタイム性までは求められないものの、映像の伝送時間や高負荷の映像生成処理時間により、映像生成までに長時間を必要とする。 On the other hand, as a system to solve the problem of high-speed systems, there is a system that generates a virtual viewpoint video by recording video taken by a camera on a recording device, etc., consolidating it, and processing it on a processing server ( Hereinafter, this system will be referred to as a high image quality system). In the high image quality system, it is possible to temporarily store the camera images captured by each image capturing device, so it is possible to generate a virtual viewpoint video over time after capturing. Therefore, it is possible to perform image processing with a large load using machine learning or the like, and it is possible to realize high image quality of the virtual viewpoint image. However, although the high image quality system does not require real-time performance unlike the high-speed system, it takes a long time to generate an image due to the image transmission time and the high-load image generation processing time.

本実施形態においては、高速システムにおいて生成されるデータを活用して、高画質システムにおける映像生成に要する時間を短縮する例を説明する。 In this embodiment, an example will be described in which data generated in a high-speed system is used to shorten the time required for image generation in a high-definition system.

<構成>
図1(a)は、本実施形態に係る映像処理システムの構成例を示す図である。撮影装置100aから撮影装置100zがそれぞれに対応した映像処理装置200aから映像処理装置200zに接続され、それらから出力された信号が映像生成装置1000に集約される。なお、撮影装置および映像処理装置の台数は撮影領域の大きさや撮影対象により適宜変更することが可能である。
<Configuration>
FIG. 1A is a diagram showing a configuration example of a video processing system according to this embodiment. The imaging devices 100a to 100z are connected to corresponding video processing devices 200a to 200z, respectively, and the signals output from them are aggregated in the video generating device 1000. FIG. Note that the number of photographing devices and image processing devices can be appropriately changed depending on the size of the photographing area and the photographing object.

図1(b)は、本実施形態に係る映像処理システムにおける映像処理装置の機能構成例を示す図である。撮影装置100は、不図示のレンズ、CCD・CMOS等のイメージセンサ、映像処理回路等から構成されており、撮影被写体からの光学情報を電気信号に変換し、RAW等の所定フォーマットの映像データとして映像処理装置200に送信する。 FIG. 1B is a diagram showing a functional configuration example of a video processing device in the video processing system according to this embodiment. The photographing apparatus 100 includes a lens (not shown), an image sensor such as a CCD/CMOS, an image processing circuit, and the like. It transmits to the video processing device 200 .

映像処理装置200は、制御部201、映像処理部202、録画制御部203、及び記録部204を備えている。 The video processing device 200 includes a control unit 201 , a video processing unit 202 , a recording control unit 203 and a recording unit 204 .

撮影装置100から出力された映像データは、制御部201を介して映像処理部202と録画制御部203とに配信される。 Video data output from the imaging device 100 is delivered to the video processing unit 202 and the recording control unit 203 via the control unit 201 .

映像処理部202に映像データが送信されると、画像処理部202によって、映像データは有効被写体の領域を切り出した前景画像(前景画像なので映像データよりもデータ量が小さい)に変換される。ここで、有効被写体とは、後述の背景差分法を用いて撮影画像に対してあらかじめ用意された背景画像を差し引くことで抽出された物体を指す。 When the image data is transmitted to the image processing unit 202, the image processing unit 202 converts the image data into a foreground image (because it is a foreground image, the amount of data is smaller than that of the image data) obtained by cutting out the area of the effective subject. Here, the effective subject refers to an object extracted by subtracting a background image prepared in advance from the photographed image using the background subtraction method described later.

さらに、映像処理部202は、変換された前景画像を第1の映像データとして映像生成装置1000へ送信する。ここで背景差分法の処理の一例を、図2を用いて説明する。ここでは、画像7100を撮影しているものとし、あらかじめ画像7100と同一の画角であり、仮想視点映像生成を行わないスタジアムやスタジオ壁面等の画像を撮影した背景画像7010が用意されている。画像7100から背景画像7010を差し引くことで有効被写体を抽出することができる。画像7200が、差し引き後の画像であり有効被写体7000が抽出される。さらに、画像7200から有効被写体を含む領域を切り出した画像7300が前景画像として出力され、映像生成装置1000へ送信される。 Furthermore, the video processing unit 202 transmits the converted foreground image to the video generation device 1000 as first video data. An example of background subtraction processing will now be described with reference to FIG. Here, it is assumed that an image 7100 is shot, and a background image 7010 is prepared in advance, which has the same angle of view as the image 7100 and is an image of a stadium, a wall surface of a studio, etc. for which virtual viewpoint video generation is not performed. By subtracting the background image 7010 from the image 7100, the effective subject can be extracted. An image 7200 is an image after subtraction, and an effective subject 7000 is extracted. Furthermore, an image 7300 obtained by cutting out an area including the effective subject from the image 7200 is output as a foreground image and transmitted to the image generation device 1000 .

一方、録画制御部203に映像データが送信されると、録画制御部203は、当該映像データを第2の映像データとして不図示の揮発性メモリ等の補助記憶装置に一時的に保持し、記録部204に格納する。また、映像生成装置1000から後述する方法で要求があった場合には、録画制御部203は、記録部204に記録された映像データの中から要求された映像データを選択的に読み出して映像生成装置1000へ送信する。 On the other hand, when the video data is transmitted to the recording control unit 203, the recording control unit 203 temporarily holds the video data as second video data in an auxiliary storage device such as a volatile memory (not shown), and records it. Stored in unit 204 . Further, when a request is received from the image generating apparatus 1000 by a method to be described later, the recording control unit 203 selectively reads out the requested image data from the image data recorded in the recording unit 204 and generates an image. Send to device 1000 .

記録部204は、ハードディスクドライブ(HDD)やソリッドステートドライブ(SSD)等の不揮発性メモリにより構成されており、録画制御部203による制御に従って映像データを記録して保持する。さらに、読み出し時には、記録部204は、録画制御部203による制御に従って、記録されている映像データの中から所定の映像データを読み出し、録画記録部203へ送信する。また、録画制御部203による制御により、記録されている映像データの消去や上書き等も行うことが可能である。 The recording unit 204 is composed of a non-volatile memory such as a hard disk drive (HDD) or a solid state drive (SSD), and records and holds video data under the control of the recording control unit 203 . Furthermore, at the time of reading, the recording unit 204 reads predetermined video data out of the recorded video data and transmits it to the recording recording unit 203 under the control of the recording control unit 203 . Also, under the control of the recording control unit 203, recorded video data can be erased or overwritten.

続いて、図3は、撮影装置100aから撮影装置100zまでの各撮影装置の配置例を示す。各撮影装置は、撮影領域3000を取り囲むように配置されており、点O、点X、点Y、点Zで囲まれた撮影領域3000内部にいる物体に対して仮想視点映像が生成される。 Next, FIG. 3 shows an arrangement example of each imaging device from the imaging device 100a to the imaging device 100z. Each imaging device is arranged so as to surround an imaging area 3000, and a virtual viewpoint image is generated for an object inside the imaging area 3000 surrounded by points O, X, Y, and Z.

<映像生成装置及び映像処理装置のハードウェア構成>
図4は、本実施形態係る映像生成装置1000のハードウェア構成の一例を示す図である。以下では映像生成装置1000を例に説明を行うが、映像処理装置200のハードウェア構成についても同様である。映像生成装置1000は、CPU1001、主記憶装置1002、補助記憶装置1003、外部I/F1004、及びGPU1005を含み、それらが内部バス1006を介して相互に通信可能に接続されている。
<Hardware configuration of video generation device and video processing device>
FIG. 4 is a diagram showing an example of the hardware configuration of the image generation device 1000 according to this embodiment. Although the video generation device 1000 will be described below as an example, the hardware configuration of the video processing device 200 is the same. The image generation device 1000 includes a CPU 1001, a main memory device 1002, an auxiliary memory device 1003, an external I/F 1004, and a GPU 1005, which are connected via an internal bus 1006 so as to be able to communicate with each other.

CPU1001は、中央演算装置であり、各種演算、映像処理、データ入出力など映像生成装置1000の制御を行う。 A CPU 1001 is a central processing unit, and controls the image generating apparatus 1000 such as various calculations, image processing, and data input/output.

主記憶装置1002は、CPU1001のワークエリアやデータの一時的な記憶領域として機能する記憶装置である。主記憶装置1002は、Dynamic Random Access Memory(DRAM)やStatic Random Access Memory(SRAM)などの記憶媒体を用いて実装される。 The main storage device 1002 is a storage device that functions as a work area for the CPU 1001 and a temporary storage area for data. The main storage device 1002 is implemented using storage media such as Dynamic Random Access Memory (DRAM) and Static Random Access Memory (SRAM).

補助記憶装置1003は、各種プログラム、各種設定情報、各種画像データ、カメラパラメータ、3次元形状データ、2次元マップなどの情報を記憶する記憶装置である。補助記憶装置1003は、Read Only Memory(ROM)やフラッシュメモリなどの不揮発性メモリ、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、テープメディアなどの記憶媒体を用いて実装される。それらは大容量化や高速化のために複数を組み合わせてもよく、RAID(Redundant Arrays of Inexpensive Disks)など論理的に1つにまとめられていてもよい。 The auxiliary storage device 1003 is a storage device that stores information such as various programs, various setting information, various image data, camera parameters, three-dimensional shape data, and two-dimensional maps. The auxiliary storage device 1003 is implemented using storage media such as read only memory (ROM), nonvolatile memory such as flash memory, hard disk drive (HDD), solid state drive (SSD), and tape media. A plurality of them may be combined in order to increase capacity and speed, or may be logically integrated into one such as RAID (Redundant Arrays of Inexpensive Disks).

外部I/F1004は、カメラやPC、装置など外部の機器との通信に利用される通信インターフェースや、ジョイスティックやキーボード、マウスなどのユーザによる各種操作を受け付ける外部機器との接続に利用されるインターフェース、外部ストレージを接続してファイル入出力を行うための汎用的な入出力インターフェース等である。外部I/F1004は、InfiniBandやEthernet、Universal Serial Bus(USB)などの物理的なケーブルの接続端子を持つインターフェース、または無線LANやBluetoothなどの無線を用いたインターフェースなどで構成される。高速システムにおいては、映像処理部202から出力された映像データが不図示のスイッチングハブ等で集約されて、外部I/F1004に入力される。 The external I/F 1004 is a communication interface used for communication with external devices such as cameras, PCs, and devices, an interface used for connection with external devices such as joysticks, keyboards, and mice that accept various user operations. A general-purpose input/output interface or the like for connecting an external storage and performing file input/output. The external I/F 1004 is composed of an interface having a physical cable connection terminal such as InfiniBand, Ethernet, Universal Serial Bus (USB), or a wireless interface such as wireless LAN or Bluetooth. In the high-speed system, video data output from the video processing unit 202 is aggregated by a switching hub (not shown) or the like and input to the external I/F 1004 .

GPU1005は、映像処理演算を高速に実行するための演算装置であり、仮想視点からの画像をレンダリングする処理の他、仮想視点映像に必要な形状データや色情報を生成する機能等を有する。GPU1005は、主記憶装置1002とは異なる主記憶装置を別途含んでいてもよい。また、上記に示した以外のCPU1001で行われる各種演算の一部または全部をGPU1005が行ってもよい。 The GPU 1005 is an arithmetic unit for executing image processing operations at high speed, and has a function of rendering an image from a virtual viewpoint and generating shape data and color information necessary for a virtual viewpoint video. The GPU 1005 may include a separate main memory device different from the main memory device 1002 . Also, the GPU 1005 may perform part or all of the various operations performed by the CPU 1001 other than those described above.

バス1006はPCIExpress等のバスによって構成され、ハードウェアブロックの各部がそれぞれに双方向通信を行うことができる。また、バス1006はハードウェアブロックの各部が双方向に通信可能なものであればどのようなものを用いてもよい。なお、図4に示す構成は一例であり、撮影対象や機能に応じて適切に変更および構成されるものとする。 The bus 1006 is configured by a PCI Express bus or the like, and each part of the hardware block can perform two-way communication. Any bus 1006 may be used as long as each part of the hardware block can communicate bidirectionally. Note that the configuration shown in FIG. 4 is an example, and shall be appropriately changed and configured according to the object to be photographed and the function.

<映像生成装置の機能構成>
図5は、本実施形態に係る映像生成装置1000の機能構成を示す図である。映像生成装置1000は、映像受信部1011、三次元形状生成部1012、被写体位置検出部1013、有効被写体判定部1014、映像選択受信部1015、前景抽出部1016、三次元形状生成部1017、及び仮想視点映像生成部1018を備えている。映像生成装置1000の各処理部の機能は、CPU1001が補助記憶装置1003に格納されているコンピュータプログラムを主記憶装置1002に展開して実行することにより実現される。
<Functional Configuration of Image Generation Device>
FIG. 5 is a diagram showing the functional configuration of the video generation device 1000 according to this embodiment. The video generation device 1000 includes a video reception unit 1011, a three-dimensional shape generation unit 1012, a subject position detection unit 1013, an effective subject determination unit 1014, a video selection reception unit 1015, a foreground extraction unit 1016, a three-dimensional shape generation unit 1017, and a virtual object. A viewpoint video generation unit 1018 is provided. The function of each processing unit of the image generation device 1000 is realized by the CPU 1001 developing a computer program stored in the auxiliary storage device 1003 into the main storage device 1002 and executing it.

映像受信部1011は、各映像処理装置200において処理された前景画像7300を受信して三次元形状生成部1012へと送信する。 The video reception unit 1011 receives the foreground image 7300 processed by each video processing device 200 and transmits it to the three-dimensional shape generation unit 1012 .

三次元形状生成部1012は、映像受信部1011から送信された前景画像7300に基づいて、視体積交差法、Multi-View-Stereo(MVS)等の三次元形状復元手法により有効被写体の三次元形状を生成する。 Based on the foreground image 7300 transmitted from the video receiving unit 1011, the 3D shape generation unit 1012 generates a 3D shape of the effective object by a 3D shape restoration method such as the visual volume intersection method or Multi-View-Stereo (MVS). to generate

被写体位置検出部1013は、三次元形状生成部1012により生成された三次元形状に対して外接する直方体(以下、バウンディングボックスとする)を定義する。被写体とバウンディングボックスとの関係を図6に示す。ここでは、被写体5000の三次元形状に外接するように点a、点b、点c、点d、点e、点f、点g、点hを頂点とする直方体がバウンディングボックス5100として定義される。さらに、このバウンディングボックスの三次元座標の情報を映像生成装置1000の主記憶装置1002に格納する。 A subject position detection unit 1013 defines a rectangular parallelepiped (hereinafter referred to as a bounding box) that circumscribes the three-dimensional shape generated by the three-dimensional shape generation unit 1012 . FIG. 6 shows the relationship between the subject and the bounding box. Here, a rectangular parallelepiped with points a, b, c, d, e, f, g, and h as vertices is defined as the bounding box 5100 so as to circumscribe the three-dimensional shape of the subject 5000. . Furthermore, the information of the three-dimensional coordinates of this bounding box is stored in the main storage device 1002 of the image generation device 1000 .

有効被写体判定部1014は、各撮影装置100の撮影範囲に有効な被写体が存在するか否かを判定する。ここで、あらかじめ映像生成装置1000の補助記憶装置1003には、撮影装置100aから撮影装置100zまでの各撮影装置が撮影している撮影範囲の三次元座標のデータが保持されている。図7に撮影範囲の三次元座標データの一例を示す。ここでは、各撮影装置のうち任意の撮影装置100nについて説明する。撮影装置100nに対して点o、点p、点q、点r、点s、点t、点u、点vを頂点とする立体が撮影範囲4000nとして設定されており、撮影領域3000に対する各点の座標が保持されている。さらに、撮影装置100aから撮影装置100zまでの各撮影装置に対して、その配置や撮影画角に対応した撮影範囲がそれぞれ設定されているものとする。なお、図7に示した各撮影装置の配置や撮影範囲の広さや形状などは一例であり、撮影装置の焦点距離や解像度等の仕様や設置状態、仮想視点映像の撮影被写体に応じて、適切に設定されるものとする。 A valid subject determination unit 1014 determines whether or not a valid subject exists in the imaging range of each imaging device 100 . Here, in the auxiliary storage device 1003 of the image generation device 1000, data of the three-dimensional coordinates of the photographing range photographed by each of the photographing devices 100a to 100z is held in advance. FIG. 7 shows an example of three-dimensional coordinate data of the imaging range. Here, an arbitrary photographing device 100n among the photographing devices will be described. A three-dimensional image having points o, p, q, r, s, t, u, and v as vertices is set as an imaging range 4000n for the imaging device 100n. coordinates are kept. Furthermore, it is assumed that a photographing range corresponding to the arrangement and photographing angle of view is set for each photographing device from the photographing device 100a to the photographing device 100z. It should be noted that the arrangement of each photographing device and the size and shape of the photographing range shown in FIG. shall be set to

有効被写体判定部1014は、各撮影装置が撮影している撮影範囲の三次元座標のデータを用いて、各撮影装置の撮影範囲に有効な被写体が存在するか否かを判定する。 A valid subject determination unit 1014 determines whether or not a valid subject exists in the imaging range of each imaging device, using the three-dimensional coordinate data of the imaging range shot by each imaging device.

ここでは、図8を参照して、撮影装置のうち任意の撮影装置100nと撮影装置100mについて、その撮影範囲4000nおよび撮影範囲4000mに被写体が存在するか否かを判定する手順を説明する。図8に示すように、被写体5000が存在するとし、この被写体に対してバウンディングボックス5100が定義されており、被写体位置検出部1013によりこのバウンディングボックスの三次元座標が算出されているとする。 Here, with reference to FIG. 8, a procedure for determining whether or not a subject exists in the photographing range 4000n and photographing range 4000m of arbitrary photographing devices 100n and 100m among the photographing devices will be described. As shown in FIG. 8, it is assumed that a subject 5000 exists, a bounding box 5100 is defined for this subject, and three-dimensional coordinates of this bounding box are calculated by the subject position detection unit 1013 .

ここで、撮影装置の撮影範囲に、一部または全部が含まれるバウンディングボックスが少なくとも一つ存在する場合、その撮影装置の撮影範囲に有効な被写体が存在すると判定する。 Here, if there is at least one bounding box partially or wholly included in the imaging range of the imaging device, it is determined that an effective subject exists in the imaging range of the imaging device.

例えば、図8において、撮影範囲4000n内にはバウンディングボックス5100が存在するため撮影装置100nに対しては有効な被写体が存在すると判定し、後述の有効被写体判定結果リスト6000へ判定結果"有効被写体あり"を出力する。一方、撮影範囲4000m内にはバウンディングボックスが存在しないため撮影装置100mに対しては有効な被写体が存在しないと判定し、後述の有効被写体判定結果リスト6000へ判定結果"有効被写体なし"を出力する。 For example, in FIG. 8, since the bounding box 5100 exists within the imaging range 4000n, it is determined that an effective subject exists for the imaging device 100n, and the determination result "valid subject exists" is entered in the effective subject determination result list 6000 described later. " is output. On the other hand, since no bounding box exists within the imaging range of 4000 m, it is determined that there is no valid subject for the imaging apparatus 100 m, and the determination result "no effective subject" is output to the effective subject determination result list 6000 described later. .

あらかじめ図9に示すような有効被写体判定結果リスト6000の空データが用意されており、補助記憶装置1003に格納されている。そして、撮影装置毎の判定結果を更新し、判定を行ったある時間の判定結果を有効被写体判定結果リスト6000に対して格納する。また、有効被写体判定結果リスト6000は、撮影装置のフレームレートと被写体の状態とに応じて適切に設定された時間間隔で更新されるものとする。例えば、速い動きをする被写体に対しては更新する時間間隔を短くし、逆に動きが少ない被写体に対しては更新する時間間隔を長くする等である。なお、このリストの仕様は一例であり、少なくとも、撮影時間における各撮影装置における有効被写体が存在するか否かの情報が含まれていれば、データ形式は他の形式に変更可能であり、被写体の情報などを付加してデータ化してもよい。 Blank data for the effective subject determination result list 6000 as shown in FIG. 9 is prepared in advance and stored in the auxiliary storage device 1003 . Then, the determination result for each imaging device is updated, and the determination result at a certain time is stored in the effective subject determination result list 6000 . Also, the effective subject determination result list 6000 is updated at time intervals that are appropriately set according to the frame rate of the imaging device and the state of the subject. For example, the update time interval is shortened for a fast-moving subject, and the update time interval is lengthened for a slow-moving subject. Note that the specifications of this list are only an example, and the data format can be changed to another format as long as at least information about whether or not there is an effective subject in each imaging device at the time of shooting is included. may be converted into data by adding information such as

映像選択受信部1015は、有効被写体判定部1014の判定結果に基づいて、有効被写体が存在する撮影装置の映像データを、その撮影装置に対応する映像処理装置の録画制御部203へ要求して受信する。具体的には、有効被写体判定結果リスト6000に基づいて、各撮影装置における有効被写体が存在する時間の映像データを要求して受信する。映像選択受信部1015は、受信した映像データを前景抽出部1016へ送信する。 Based on the determination result of the effective subject determination unit 1014, the video selection reception unit 1015 requests and receives the video data of the imaging device in which the effective subject exists from the recording control unit 203 of the video processing device corresponding to the imaging device. do. Specifically, based on the effective subject determination result list 6000, the image data of the time when the effective subject exists in each photographing device is requested and received. Video selection reception unit 1015 transmits the received video data to foreground extraction unit 1016 .

前景抽出部1016は、映像選択受信部1015から出力された映像データから前景画像を抽出する。ここでの処理は、機械学習の手法を映像データに適用し、CNN(Convolutional neural network)などを用い、あらかじめが用意されたデータベースと比較して有効被写体を抽出することにより前景画像を生成する。これにより、密集した被写体など、背景差分法では正確に前景画像を生成することが難しい映像データに対してもより高精度に前景画像の抽出を行うことができる。 Foreground extraction section 1016 extracts a foreground image from the video data output from video selection reception section 1015 . In the processing here, a foreground image is generated by applying a machine learning method to video data, using a CNN (Convolutional neural network) or the like, and extracting an effective subject by comparing with a database prepared in advance. As a result, it is possible to extract a foreground image with high accuracy even for video data such as a densely populated subject, for which it is difficult to generate an accurate foreground image by the background subtraction method.

三次元形状生成部1017は、前景抽出部1016から出力された前景画像に対して三次元形状復元手法により三次元形状を生成する。ここでは、前景抽出部1016から出力された高精度な前景画像を用いるため、三次元形状生成部1012により生成される三次元形状よりも、実際の被写体形状に近い三次元形状を生成することができる。 A three-dimensional shape generation unit 1017 generates a three-dimensional shape for the foreground image output from the foreground extraction unit 1016 by a three-dimensional shape restoration technique. Here, since the high-precision foreground image output from the foreground extraction unit 1016 is used, it is possible to generate a three-dimensional shape that is closer to the actual object shape than the three-dimensional shape generated by the three-dimensional shape generation unit 1012. can.

仮想視点映像生成部1018は、不図示の入力部によって入力された仮想視点の位置及び方向の情報に基づいて、仮想視点から三次元形状生成部1017により生成された三次元形状がどのように表示されるかを三次元計算する。そして、対応する撮影装置の映像データを用いて色付けし、仮想視点映像を生成する。 The virtual viewpoint video generation unit 1018 displays how the 3D shape generated by the 3D shape generation unit 1017 from the virtual viewpoint is displayed based on information about the position and direction of the virtual viewpoint input by an input unit (not shown). 3D calculation of whether Then, the images are colored using the image data of the corresponding photographing device to generate a virtual viewpoint image.

<処理>
次に、図10のフローチャートを参照しながら、本実施形態に係る映像生成装置1000が実施する処理の手順を説明する。
<Processing>
Next, a procedure of processing performed by the image generation device 1000 according to this embodiment will be described with reference to the flowchart of FIG. 10 .

S100において、映像受信部1011は、撮影装置100a~撮影装置100zに対応した映像処理装置200a~映像処理装置200zから出力された前景画像を受信する。 In S100, the video receiving unit 1011 receives foreground images output from the video processing devices 200a to 200z corresponding to the imaging devices 100a to 100z.

S101において、三次元形状生成部1012は、S100で受信された前景画像に基づいて、視体積交差法やMulti-View-Stereo(MVS)等の三次元形状復元手法を用いて三次元形状を生成する。 In S101, the 3D shape generation unit 1012 generates a 3D shape using a 3D shape restoration technique such as the visual volume intersection method or Multi-View-Stereo (MVS) based on the foreground image received in S100. do.

S102において、被写体位置検出部1013は、S101で生成された三次元形状に対してバウンディングボックスを定義し、バウンディングボックスの三次元座標情報を被写体の座標情報として映像生成装置1000の主記憶装置1002に格納する。 In S102, the subject position detection unit 1013 defines a bounding box for the three-dimensional shape generated in S101, and stores three-dimensional coordinate information of the bounding box as coordinate information of the subject in the main storage device 1002 of the video generation device 1000. Store.

S103において、有効被写体判定部1014は、各撮影装置の撮影範囲に有効な被写体が存在するか否かを、図8を参照して前述した判定方法を用いて判定する。ここでは、撮影装置100aから撮影装置100zに対して順次判定を行い、撮影装置の撮影範囲に有効なバウンディングボックスが一つでも存在すると判定された場合には、その時点で判定を終了し、次の撮影範囲の判定を開始する。S104において、有効被写体判定部1014は、S103の判定結果に基づいて、有効被写体判定結果リストを出力する。ここでは、図9を参照して前述したリスト6000を出力する。 In S103, the effective subject determination unit 1014 determines whether or not a valid subject exists in the imaging range of each imaging device using the determination method described above with reference to FIG. Here, determination is sequentially performed for the imaging devices 100a to 100z, and if it is determined that even one valid bounding box exists in the imaging range of the imaging device, the determination is terminated at that point, and the next Starts determination of the shooting range of . In S104, the effective subject determination unit 1014 outputs an effective subject determination result list based on the determination result of S103. Here, the list 6000 described above with reference to FIG. 9 is output.

S105において、映像選択受信部1015は、S104で出力された有効被写体判定結果リスト6000に基づいて、撮影装置毎に有効被写体が存在する時間の映像データを送信するように、外部I/F1104を介して該当する撮影装置に対応する映像処理装置に要求を送信する。 In S105, based on the effective subject determination result list 6000 output in S104, the video selection reception unit 1015 transmits video data of the time when the effective subject exists for each imaging device via the external I/F 1104. Then, a request is sent to the image processing device corresponding to the corresponding image capturing device.

S106において、映像選択受信部1015は、S105で要求した映像データを受信し、補助記憶装置1103に保持する。S107において、前景抽出部1016は、S106で受信された映像データに対して前述した機械学習を用いて前景画像を抽出する。 In S<b>106 , the video selection reception unit 1015 receives the video data requested in S<b>105 and holds it in the auxiliary storage device 1103 . In S107, the foreground extraction unit 1016 extracts a foreground image from the video data received in S106 using the above-described machine learning.

S108において、三次元形状生成部1017は、S107で抽出された前景画像に対して三次元形状復元手法により三次元形状を生成する。 In S108, the three-dimensional shape generation unit 1017 generates a three-dimensional shape for the foreground image extracted in S107 by a three-dimensional shape restoration method.

S109において、仮想視点映像生成部1018は、不図示の入力部によって入力された仮想視点の位置及び方向の情報に基づいて、仮想視点からS108で生成された三次元形状がどのように表示されるかを三次元計算し、対応する撮影装置の映像データを用いて色付けし、仮想視点映像を生成する。以上で図10の一連の処理が終了する。 In S109, the virtual viewpoint video generation unit 1018 determines how the three-dimensional shape generated in S108 is displayed from the virtual viewpoint based on the information on the position and direction of the virtual viewpoint input by the input unit (not shown). is calculated three-dimensionally, and is colored using the image data of the corresponding photographing device to generate a virtual viewpoint image. Thus, the series of processing in FIG. 10 ends.

以上説明したように、本実施形態では、被写体が存在しない時間に対応する映像データを取得せず、被写体が存在する時間に対応する映像データを取得し、それに基づいて仮想視点映像を生成する。 As described above, in the present embodiment, image data corresponding to the time when the subject does not exist is not acquired, but image data corresponding to the time when the subject exists is acquired, and a virtual viewpoint image is generated based on the image data.

これにより、従来、すべての撮影装置の映像データを送信していたところを、撮影装置を選択して映像データを送信することにより伝送時間の低減を実現し、高画質な仮想視点映像を短時間で生成することができる。 As a result, instead of sending video data from all camera devices, transmission time can be reduced by selecting the camera device and sending the video data. can be generated with

(第2実施形態)
本実施形態では、映像処理装置の記録部へ映像データを記録する際に、有効な被写体が存在する映像データのみを選択的に記録することにより映像データ量を削減し、それにより伝送時間の低減を実現する例を説明する。
(Second embodiment)
In this embodiment, when video data is recorded in the recording unit of the video processing device, only the video data in which an effective subject exists is selectively recorded to reduce the video data amount, thereby reducing the transmission time. An example of realizing

<構成>
本実施形態に係る映像処理システムの各装置構成およびハードウェア構成は第1実施形態の図1、図4を参照して説明した構成と同様であるため、説明を省略する。
<Configuration>
Since the configuration of each device and the hardware configuration of the video processing system according to the present embodiment are the same as the configuration described with reference to FIGS. 1 and 4 of the first embodiment, description thereof will be omitted.

図11は、本実施形態に係る映像生成装置1000の機能構成を示す機能ブロック図である。この、機能ブロックは、図4のCPU1001により補助記憶装置1003に格納されているコンピュータプログラムを主記憶装置1002に展開し実行することにより実現されるものとする。 FIG. 11 is a functional block diagram showing the functional configuration of the image generation device 1000 according to this embodiment. It is assumed that these functional blocks are realized by developing a computer program stored in the auxiliary storage device 1003 in the main storage device 1002 and executing it by the CPU 1001 in FIG.

本実施形態では、有効被写体判定部1014に接続された記録選択部2011が追加され、映像選択受信部1015が映像受信部2012に変更されたこと以外は第1実施形態の構成と同一である。同一の参照符号を付した機能ブロックは第1実施形態で説明した機能ブロックと同一である。以下、記録選択部2011および映像受信部2012の機能について説明する。 The configuration of this embodiment is the same as that of the first embodiment, except that a recording selection unit 2011 connected to an effective subject determination unit 1014 is added, and a video selection reception unit 1015 is replaced with a video reception unit 2012. Functional blocks with the same reference numerals are the same as the functional blocks described in the first embodiment. Functions of the recording selection unit 2011 and the video reception unit 2012 will be described below.

記録選択部2011は、有効被写体判定部1014から出力された有効被写体判定結果リストを受信し、有効被写体判定結果リストに基づいて映像処理装置200の録画制御部203へ録画状態を変更する信号を送信する。ここで、録画状態を変更する信号として、有効被写体が存在すると判定された撮影装置100に対応する映像処理装置の録画制御部に対しては映像データを保持するように要求する信号を送信する。また、有効被写体が存在しないと判定された撮影装置に対応する映像処理装置200の録画制御部203に対しては映像データの保持を停止するように要求する信号を送信する。なお、ここでは、有効被写体判定部1014において有効被写体を判定している時間間隔において信号を継続して送信し続けてもよいし、状態が変化した場合にのみトリガとなる信号を送信してもよい。 The recording selection unit 2011 receives the effective subject determination result list output from the effective subject determination unit 1014, and transmits a signal for changing the recording state to the recording control unit 203 of the video processing device 200 based on the effective subject determination result list. do. Here, as a signal for changing the recording state, a signal requesting to hold the video data is transmitted to the recording control unit of the video processing device corresponding to the imaging device 100 determined to have an effective subject. In addition, a signal requesting stop holding of video data is transmitted to the recording control unit 203 of the video processing device 200 corresponding to the imaging device determined that no effective subject exists. Here, the signal may be continuously transmitted during the time interval during which the effective subject determination unit 1014 determines the effective subject, or the trigger signal may be transmitted only when the state changes. good.

また、信号を受信した映像処理装置200の録画制御部203は、映像データを保持する信号を受信した場合には撮影装置100から受信した映像データの録画を行い、映像データの録画を停止する信号を受信した場合には映像データの録画を停止する。なお、ここでの処理は、該当する映像データの記録を保持または停止すればよく、不図示の不揮発メモリに一時的に映像データを保持して選択的に記録部204に記録してもよいし、記録部204に記録した映像データの中から保持する映像データのみを残し、その他の映像データを消去してもよいも。 In addition, the recording control unit 203 of the video processing device 200 that has received the signal records the video data received from the image capturing device 100 when receiving the signal to hold the video data, and receives the signal to stop recording the video data. is received, video data recording is stopped. In this process, the recording of the corresponding video data may be held or stopped. Alternatively, only the image data to be held may be left out of the image data recorded in the recording unit 204, and the other image data may be erased.

映像受信部2012は、第1実施形態で説明した映像選択受信部1015のように選択的に映像データを受信するのではなく、映像処理装置200aから映像処理装置200zまでの映像データを全て受信し、前景抽出部1016へと送信する。ここで受信される映像データは、有効被写体が存在する映像データとなっている。 The image receiving unit 2012 receives all the image data from the image processing apparatuses 200a to 200z instead of selectively receiving image data like the image selection receiving unit 1015 described in the first embodiment. , to the foreground extraction unit 1016 . The image data received here is image data in which an effective subject exists.

<処理>
次に、図12のフローチャートを参照しながら、本実施形態に係る映像生成装置1000が実施する処理の手順を説明する。
<Processing>
Next, a procedure of processing performed by the video generation device 1000 according to this embodiment will be described with reference to the flowchart of FIG. 12 .

S200において、映像受信部1011は、撮影装置100aから撮影装置100zに対応した映像処理装置200aから映像処理装置200zより出力された前景画像を受信する。 In S200, the image receiving unit 1011 receives a foreground image output from the image processing device 200a corresponding to the image capturing device 100a to the image processing device 200z.

S201において、三次元形状生成部1012は、S200で受信した前景画像に基づいて、視体積交差法、Multi-View-Stereo(MVS)等の三次元形状復元手法により三次元形状を生成する。S202では、被写体位置検出部1013は、S201で生成された三次元形状に対してバウンディングボックスを定義し、バウンディングボックスの三次元座標情報を映像生成装置1000の主記憶装置1002に格納する。 In S201, the 3D shape generation unit 1012 generates a 3D shape by a 3D shape restoration technique such as the visual volume intersection method or Multi-View-Stereo (MVS) based on the foreground image received in S200. In S<b>202 , the subject position detection unit 1013 defines a bounding box for the three-dimensional shape generated in S<b>201 and stores the three-dimensional coordinate information of the bounding box in the main storage device 1002 of the video generation device 1000 .

S203において、有効被写体判定部1014は、各撮影装置100の撮影範囲に有効な被写体が存在するか否かを判定する。図8を参照して説明した判定方法を用いて判定する。S204において、有効被写体判定部1014は、S203での判定結果に基づいて、有効被写体判定結果リストを出力する。ここでは図9を参照して説明したリスト6000を出力する。 In S<b>203 , the effective subject determination unit 1014 determines whether or not there is a valid subject within the imaging range of each imaging device 100 . It is determined using the determination method described with reference to FIG. In S204, the effective subject determination unit 1014 outputs an effective subject determination result list based on the determination result in S203. Here, the list 6000 described with reference to FIG. 9 is output.

S205において、記録選択部2011は、S204で出力された有効被写体判定結果リスト6000に基づいて、撮影装置100毎に、有効被写体が存在する場合には該当する時間の映像データを記録するように、外部I/F1104を介して該当する撮影装置100に対応する映像処理装置200に要求を送信する。一方、有効被写体が存在しない場合には記録を停止するように、外部I/F1104を介して該当する撮影装置100に対応する映像処理装置200に要求を送信する。これにより、有効な被写体が存在する撮影装置の映像データのみがそれに対応した映像処理装置200の記録部204に記録されることになる。 In S205, based on the effective subject determination result list 6000 output in S204, the recording selection unit 2011 records the video data for the corresponding time period if there is an effective subject for each imaging device 100. A request is transmitted to the image processing apparatus 200 corresponding to the corresponding image capturing apparatus 100 via the external I/F 1104 . On the other hand, if the effective subject does not exist, a request to stop recording is transmitted to the image processing apparatus 200 corresponding to the corresponding image capturing apparatus 100 via the external I/F 1104 . As a result, only the video data of the imaging device in which a valid subject exists is recorded in the recording unit 204 of the corresponding video processing device 200 .

S206において、映像受信部2012は、S205での要求に応じて記録された映像データを、各撮影装置100に対応した映像処理装置200の記録部204から受信し、補助記憶装置1103に保持する。 In S<b>206 , the video reception unit 2012 receives the video data recorded in response to the request in S<b>205 from the recording unit 204 of the video processing device 200 corresponding to each imaging device 100 and holds it in the auxiliary storage device 1103 .

S207において、前景抽出部1016は、S206で受信された映像データに対して前述した機械学習を用いて前景画像を抽出する。S208において、三次元形状生成部1017は、S207で抽出された前景画像に対して三次元形状復元手法により三次元形状を生成する。 In S207, the foreground extraction unit 1016 extracts a foreground image from the video data received in S206 using the above-described machine learning. In S208, the 3D shape generation unit 1017 generates a 3D shape for the foreground image extracted in S207 by a 3D shape restoration technique.

S209において、仮想視点映像生成部1018は、不図示の入力部によって入力された仮想視点の位置及び方向の情報に基づいて、仮想視点からS208で生成された三次元形状がどのように表示されるかを三次元計算し、対応する撮影装置の映像データを用いて色付けし、仮想視点映像を生成する。以上で図12の一連の処理が終了する。 In S209, the virtual viewpoint video generation unit 1018 determines how the three-dimensional shape generated in S208 is displayed from the virtual viewpoint based on the information on the position and direction of the virtual viewpoint input by the input unit (not shown). is calculated three-dimensionally, and is colored using the image data of the corresponding photographing device to generate a virtual viewpoint image. Thus, the series of processing in FIG. 12 ends.

以上説明したように、本実施形態では、被写体が存在する映像データのみを映像処理装置に記録、保持させる、映像生成装置は選択的に記録、保持された映像データを受信し、仮想視点映像を生成する。 As described above, in the present embodiment, only video data in which a subject exists is recorded and held in the video processing device. Generate.

これにより、従来、すべての撮影装置の映像データを送信していたところを、撮影装置を選択して映像データを記録することにより映像データ量を低減し、伝送時間の低減を実現し、高画質な仮想視点映像を短時間で生成することができる。 As a result, instead of transmitting image data from all image capturing devices in the past, the amount of image data can be reduced by selecting the image capturing device and recording the image data. A virtual viewpoint video can be generated in a short time.

なお、上述の各実施形態の一部を適宜組み合わせてもよい。また、画像認識等の技術を使用し、特定の被写体が撮影装置の撮影画角内に存在するか否かに応じて第1実施形態の処理を適用してもよいし、或いは第2実施形態の処理を適用してもよい。 In addition, you may combine a part of above-mentioned each embodiment suitably. Alternatively, the processing of the first embodiment may be applied according to whether or not a specific subject is present within the angle of view of the photographing device using a technique such as image recognition, or the processing of the second embodiment may be applied. process may be applied.

例えば、映像処理装置1000に特定の被写体を認識する認識部をさらに設け、被写体判定部1014が図10のS103において、各撮影装置の撮影画角の範囲内に特定の被写体が存在するか否かを時間ごとに判定するように構成してもよい。これにより、特定の被写体に限定した仮想視点映像を短時間で生成することが可能となる。 For example, the image processing apparatus 1000 is further provided with a recognition unit for recognizing a specific subject, and the subject determination unit 1014 determines in S103 of FIG. may be configured to be determined every time. This makes it possible to generate a virtual viewpoint video limited to a specific subject in a short time.

(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other embodiments)
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or device via a network or a storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。 The invention is not limited to the embodiments described above, and various modifications and variations are possible without departing from the spirit and scope of the invention. Accordingly, the claims are appended to make public the scope of the invention.

100:撮影装置、200:映像処理装置、1000:映像生成装置、201:制御部、202:映像処理部、203:録画制御部、204:記録部、1011:映像受信部、1012:三次元形状生成部、1013:被写体位置検出部、有効被写体判定部1014、1015:映像選択受信部、1016:前景抽出部、1017:三次元形状生成部、1018:仮想視点映像生成部 100: photographing device, 200: video processing device, 1000: video generation device, 201: control unit, 202: video processing unit, 203: recording control unit, 204: recording unit, 1011: video reception unit, 1012: three-dimensional shape Generating unit 1013: subject position detecting unit Effective subject determining unit 1014, 1015: video selection receiving unit 1016: foreground extracting unit 1017: three-dimensional shape generating unit 1018: virtual viewpoint video generating unit

Claims (10)

複数の撮影装置により撮影された映像を処理する複数の映像処理装置から受信した映像データに基づいて仮想視点映像を生成する映像生成装置であって、
前記複数の映像処理装置の各々から、所定の処理が行われた第1の映像データを受信する受信手段と、
前記第1の映像データに基づいて、各撮影装置の撮影画角の範囲内に被写体が存在するか否かを時間ごとに判定する判定手段と、
前記判定手段の判定結果に基づいて、前記被写体が存在する時間における前記所定の処理が行われていない第2の映像データを、前記複数の映像処理装置の各々に要求する要求手段と、
前記第2の映像データに基づいて仮想視点映像を生成する生成手段と、
を備えることを特徴とする映像生成装置。
A video generation device that generates a virtual viewpoint video based on video data received from a plurality of video processing devices that process video captured by a plurality of imaging devices,
receiving means for receiving first video data on which predetermined processing has been performed from each of the plurality of video processing devices;
Determination means for determining whether or not a subject exists within the range of the imaging angle of view of each imaging device based on the first video data, for each time;
requesting means for requesting, from each of the plurality of video processing devices, second video data for which the predetermined processing has not been performed during the time when the subject exists, based on the determination result of the determining means;
generating means for generating a virtual viewpoint image based on the second image data;
A video generation device comprising:
前記受信手段は、前記被写体を示す領域である前景画像の映像データを前記第1の映像データとして受信することを特徴とする請求項1に記載の映像生成装置。 2. The video generating apparatus according to claim 1, wherein said receiving means receives, as said first video data, video data of a foreground image representing said subject. 前記前景画像の前記第1の映像データに基づいて前記被写体の三次元形状を生成する形状生成手段と、
前記三次元形状に基づいて前記被写体の位置を示す座標情報を取得する取得手段と、をさらに備え、
前記判定手段は、前記座標情報に基づいて、各撮影装置の撮影画角の範囲内に被写体が存在するか否かを時間ごとに判定することを特徴とする請求項2に記載の映像生成装置。
shape generating means for generating a three-dimensional shape of the subject based on the first image data of the foreground image;
further comprising acquisition means for acquiring coordinate information indicating the position of the subject based on the three-dimensional shape,
3. The video generation apparatus according to claim 2, wherein the determination means determines whether or not the subject exists within the range of the shooting angle of view of each shooting device based on the coordinate information. .
特定の被写体を認識する認識手段をさらに備え、
前記判定手段は、前記第1の映像データに基づいて、各撮影装置の撮影画角の範囲内に前記特定の被写体が存在するか否かを時間ごとに判定することを特徴とする請求項1乃至3の何れか1項に記載の映像生成装置。
further comprising recognition means for recognizing a specific subject,
2. The judging means judges whether or not the specific subject exists within the range of the photographing angle of view of each photographing device based on the first image data at each time. 4. The video generation device according to any one of items 1 to 3.
前記判定手段の判定結果に基づいて、前記被写体が存在しない時間における前記第2の映像データの記録を停止するように要求する信号を、前記被写体が存在しないと判定された撮影装置に対応する映像処理装置へ送信する送信手段をさらに備えることを特徴とする請求項1乃至4の何れか1項に記載の映像生成装置。 A video image corresponding to the photographing device determined that the subject does not exist, based on the determination result of the determining means, a signal requesting to stop recording the second image data during the time when the subject does not exist. 5. A video production device according to any one of claims 1 to 4, further comprising transmitting means for transmitting to the processing device. 前記判定手段の判定結果に基づいて、前記被写体が存在する時間における前記第2の映像データを記録するように要求する信号を、前記被写体が存在すると判定された撮影装置に対応する映像処理装置へ送信する送信手段をさらに備えることを特徴とする請求項1乃至4の何れか1項に記載の映像生成装置。 a signal requesting recording of the second image data at the time when the subject exists, based on the determination result of the determining means, to the video processing device corresponding to the photographing device determined that the subject exists; 5. The image generating apparatus according to any one of claims 1 to 4, further comprising transmitting means for transmitting. 前記第1の映像データのデータ量は、前記第2の映像データのデータ量よりも少ないことを特徴とする請求項1乃至6の何れか1項に記載の映像生成装置。 7. The image generating apparatus according to claim 1, wherein the data amount of said first image data is smaller than the data amount of said second image data. 複数の撮影装置と、前記複数の撮影装置により撮影された映像を処理する複数の映像処理装置と、前記複数の撮影装置の各々により撮影された映像データに基づいて仮想視点映像を生成する映像生成装置とを備える映像処理システムであって、
前記複数の映像処理装置の各々は、
対応する撮影装置から受信した映像データに所定の処理を行って第1の映像データを生成する画像処理手段と、
前記対応する撮影装置から受信した映像データを第2の映像データとして記録する記録手段と、を備え、
前記映像生成装置は、
前記複数の映像処理装置の各々から前記第1の映像データを受信する受信手段と、
前記第1の映像データに基づいて、各撮影装置の撮影画角の範囲内に被写体が存在するか否かを時間ごとに判定する判定手段と、
前記判定手段の判定結果に基づいて、前記被写体が存在する時間の前記第2の映像データを前記複数の映像処理装置の各々に要求する要求手段と、
前記複数の映像処理装置の各々から受信した前記被写体が存在する時間の前記第2の映像データに基づいて仮想視点映像を生成する生成手段と、
を備えることを特徴とする映像処理システム。
a plurality of image capturing devices; a plurality of image processing devices for processing images captured by the plurality of image capturing devices; A video processing system comprising a device,
each of the plurality of video processing devices,
image processing means for performing predetermined processing on video data received from a corresponding imaging device to generate first video data;
recording means for recording video data received from the corresponding imaging device as second video data,
The video generation device is
receiving means for receiving the first video data from each of the plurality of video processing devices;
Determination means for determining whether or not a subject exists within the range of the imaging angle of view of each imaging device based on the first video data, for each time;
requesting means for requesting each of the plurality of video processing devices for the second video data of the time when the subject exists, based on the determination result of the determining means;
generating means for generating a virtual viewpoint image based on the second image data received from each of the plurality of image processing devices and containing the subject;
A video processing system comprising:
複数の撮影装置により撮影された映像を処理する複数の映像処理装置から受信した映像データに基づいて仮想視点映像を生成する映像生成装置の制御方法であって、
前記複数の映像処理装置の各々から、所定の処理が行われた第1の映像データを受信する受信工程と、
前記第1の映像データに基づいて、各撮影装置の撮影画角の範囲内に被写体が存在するか否かを時間ごとに判定する判定工程と、
前記判定工程での判定結果に基づいて、前記被写体が存在する時間における前記所定の処理が行われていない第2の映像データを、前記複数の映像処理装置の各々に要求する要求工程と、
前記第2の映像データに基づいて仮想視点映像を生成する生成工程と、
を有することを特徴とする映像生成装置の制御方法。
A control method for a video generation device that generates a virtual viewpoint video based on video data received from a plurality of video processing devices that process video captured by a plurality of imaging devices, comprising:
a receiving step of receiving first video data on which predetermined processing has been performed from each of the plurality of video processing devices;
a determination step of determining, based on the first video data, whether or not a subject exists within the range of the imaging angle of view of each imaging device at each time;
a requesting step of requesting, from each of the plurality of video processing devices, second video data for which the predetermined processing has not been performed during the time when the subject exists, based on the determination result of the determining step;
a generation step of generating a virtual viewpoint image based on the second image data;
A control method for a video generation device, comprising:
コンピュータを、請求項1乃至7の何れか1項に記載の映像生成装置として機能させるためのプログラム。 A program for causing a computer to function as the image generation device according to any one of claims 1 to 7.
JP2021089464A 2021-05-27 2021-05-27 VIDEO GENERATION DEVICE, VIDEO PROCESSING SYSTEM, CONTROL METHOD AND PROGRAM FOR VIDEO GENERATION DEVICE Pending JP2022182120A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021089464A JP2022182120A (en) 2021-05-27 2021-05-27 VIDEO GENERATION DEVICE, VIDEO PROCESSING SYSTEM, CONTROL METHOD AND PROGRAM FOR VIDEO GENERATION DEVICE

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021089464A JP2022182120A (en) 2021-05-27 2021-05-27 VIDEO GENERATION DEVICE, VIDEO PROCESSING SYSTEM, CONTROL METHOD AND PROGRAM FOR VIDEO GENERATION DEVICE

Publications (1)

Publication Number Publication Date
JP2022182120A true JP2022182120A (en) 2022-12-08

Family

ID=84328966

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021089464A Pending JP2022182120A (en) 2021-05-27 2021-05-27 VIDEO GENERATION DEVICE, VIDEO PROCESSING SYSTEM, CONTROL METHOD AND PROGRAM FOR VIDEO GENERATION DEVICE

Country Status (1)

Country Link
JP (1) JP2022182120A (en)

Similar Documents

Publication Publication Date Title
CN110574076B (en) Image generation device, image generation method, and computer-readable storage medium
JP4297197B2 (en) Calibration processing apparatus, calibration processing method, and computer program
US20100182480A1 (en) Image processing apparatus, image matching method, and computer-readable recording medium
CN112750085A (en) Image restoration method and image restoration apparatus
WO2019238114A1 (en) Three-dimensional dynamic model reconstruction method, apparatus and device, and storage medium
CN110361005B (en) Positioning method, positioning device, readable storage medium and electronic equipment
US9697581B2 (en) Image processing apparatus and image processing method
CN110544273B (en) Motion capture method, device and system
JP2019045991A (en) Generation device, generation method and program
CN113643414A (en) Three-dimensional image generation method and device, electronic equipment and storage medium
JP2019003428A (en) Image processing device, image processing method, and program
KR20220121533A (en) Image restoration method and image restoration apparatus for restoring images acquired through an array camera
JP2019135617A (en) Information processing device, method for controlling the same, and image processing system
CN111161398A (en) Image generation method, device, equipment and storage medium
CN110544278B (en) Rigid body motion capture method and device and AGV pose capture system
CN117274514A (en) Remote sensing image generation method and device based on ground-air visual angle geometric transformation
US20210142511A1 (en) Method of generating 3-dimensional model data
US10341683B1 (en) Apparatus and method to reduce an amount of coordinate data representing an object taken by an imaging device in a three dimensional space
CN115598744A (en) High-dimensional light field event camera based on micro-lens array and extraction method
JP2016005027A (en) Information processing apparatus, imaging device, imaging system, information processing method and program
CN114881841A (en) Image generation method and device
JPH08242469A (en) Imaging camera device
JP2020005089A (en) Imaging system, image processing apparatus, image processing method, and program
JP2018063635A (en) Image processing apparatus, image processing method, and program
JP6602412B2 (en) Information processing apparatus and method, information processing system, and program.