JP7199886B2 - Image processing device, image processing method, and program - Google Patents

Image processing device, image processing method, and program Download PDF

Info

Publication number
JP7199886B2
JP7199886B2 JP2018172675A JP2018172675A JP7199886B2 JP 7199886 B2 JP7199886 B2 JP 7199886B2 JP 2018172675 A JP2018172675 A JP 2018172675A JP 2018172675 A JP2018172675 A JP 2018172675A JP 7199886 B2 JP7199886 B2 JP 7199886B2
Authority
JP
Japan
Prior art keywords
information
image data
video
shooting
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018172675A
Other languages
Japanese (ja)
Other versions
JP2020047991A5 (en
JP2020047991A (en
Inventor
充 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018172675A priority Critical patent/JP7199886B2/en
Priority to PCT/JP2019/028014 priority patent/WO2020054212A1/en
Publication of JP2020047991A publication Critical patent/JP2020047991A/en
Priority to US17/194,728 priority patent/US20210203905A1/en
Publication of JP2020047991A5 publication Critical patent/JP2020047991A5/ja
Priority to JP2022205952A priority patent/JP2023033322A/en
Application granted granted Critical
Publication of JP7199886B2 publication Critical patent/JP7199886B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Closed-Circuit Television Systems (AREA)

Description

本発明は、仮想視点映像を生成する画像処理装置に関する。 The present invention relates to an image processing apparatus that generates virtual viewpoint video.

昨今、複数のカメラを異なる位置に設置して、複数視点で同期撮影し、当該撮影により得られた複数視点画像を用いて仮想視点映像を生成する技術が注目されている。上記のようにして複数視点画像から仮想視点映像を生成する技術によれば、例えば、サッカーやバスケットボールのハイライトシーンを様々な角度から視聴することが出来るため、通常の映像と比較してユーザに高臨場感を与えることが出来る。 Recently, attention has been paid to a technique of installing a plurality of cameras at different positions, performing synchronous photography from multiple viewpoints, and generating a virtual viewpoint video using the multiple viewpoint images obtained by the photography. According to the technology for generating a virtual viewpoint video from multiple viewpoint images as described above, for example, highlight scenes of soccer or basketball can be viewed from various angles. It is possible to give a high sense of presence.

非特許文献1には、複数の視点(カメラ)で対象シーンを撮影した画像から任意の視点位置の画像を合成する方法について記載されている。この中で、Model Based Rendering技術が紹介されている。この方式でも対象を取り囲むように多数のカメラが配置される。この方式によって3次元モデルを復元することで、任意の視点からの映像の合成が可能になるとともに、選手の位置や動きを再現できるのでスポーツ分析にも有用である。 Non-Patent Document 1 describes a method of synthesizing an image at an arbitrary viewpoint position from images of a target scene photographed from a plurality of viewpoints (cameras). In this, Model Based Rendering technology is introduced. Also in this method, many cameras are arranged so as to surround the target. By restoring a 3D model using this method, it is possible to synthesize images from arbitrary viewpoints and reproduce the positions and movements of athletes, which is useful for sports analysis.

稲本他、「視点位置の内挿に基づく3次元サッカー映像の仮想視点鑑賞システム」映像情報メディア学会 Vol.58 No.4 pp529-539 2004Inamoto et al., "Virtual Viewpoint Appreciation System for 3D Soccer Video Based on Interpolation of Viewpoint Positions," Institute of Image Information and Television Engineers, Vol. 58 No. 4 pp529-539 2004 Rec. ITU-T H.265 V3 (04/2015)Rec. ITU-T H. 265 V3 (04/2015)

しかしながら、非特許文献1に記載の技術では、仮想視点映像を生成するための映像データはそれぞれの装置内部で管理、保管、処理されるため、当該映像データを相互利用することは困難であった。 However, with the technique described in Non-Patent Document 1, since the video data for generating the virtual viewpoint video is managed, stored, and processed inside each device, it is difficult to mutually use the video data. .

本発明は、上記課題に鑑みてなされたものであり、その目的は、仮想視点映像を生成するための映像データの相互利用を容易にすることにある。 The present invention has been made in view of the above problems, and an object of the present invention is to facilitate mutual use of video data for generating a virtual viewpoint video.

本発明の一実施形態に係る画像処理装置は、数の撮像装置により取得される複数の撮像画像のうち少なくとも一つの画像データであって、仮想視点画像の生成に使用される画像データを取得する取得手段と、撮影設定情報、撮影状況情報、撮影対象情報、及び、撮影権利情報のうち少なくとも1つを、所定の情報として、前記取得手段により取得される画像データに付加する付加手段とを有すことを特徴とするAn image processing apparatus according to an embodiment of the present invention provides image data of at least one of a plurality of captured images acquired by a plurality of imaging devices , which image is used to generate a virtual viewpoint image. Acquisition means for acquiring data, and at least one of shooting setting information, shooting situation information, shooting target information, and shooting right information is added as predetermined information to the image data acquired by the acquisition means. It is characterized by having additional means for

本発明によれば、仮想視点映像を生成するための映像データの相互利用を容易にすることが可能になる。 According to the present invention, it is possible to facilitate mutual use of video data for generating a virtual viewpoint video.

第1の実施形態における画像処理装置100を含むシステムの構成例を示す構成図である。1 is a configuration diagram showing a configuration example of a system including an image processing apparatus 100 according to a first embodiment; FIG. 第1の実施形態におけるISOBMFFファイルの構造の一例を示す図である。4 is a diagram showing an example of the structure of an ISOBMFF file in the first embodiment; FIG. 第1の実施形態におけるEXIFファイルの構造の一例を示す図である。4 is a diagram showing an example of the structure of an EXIF file in the first embodiment; FIG. 第1の実施形態におけるFVVI IFDのタグ情報の構成の一例を示す図である。FIG. 3 is a diagram showing an example of the configuration of tag information of FVVI IFD in the first embodiment; FIG. 第1の実施形態における映像ファイル生成処理のフローチャートである。4 is a flowchart of video file generation processing in the first embodiment; 第1の実施形態における別の映像ファイル生成処理のフローチャートである。9 is a flowchart of another video file generation process in the first embodiment; 第1の実施形態における画像処理装置100を含むシステムの別の構成例を示す構成図である。4 is a configuration diagram showing another configuration example of a system including the image processing apparatus 100 according to the first embodiment; FIG. 第2の実施形態における画像処理装置400を含むシステムの構成例を示す構成図である。FIG. 11 is a configuration diagram showing a configuration example of a system including an image processing apparatus 400 according to a second embodiment; FIG. 第2の実施形態におけるH.265符号化方式のビットストリームの構成例を示す図である。H.264 in the second embodiment. 1 is a diagram showing a configuration example of a bitstream of H.265 coding scheme. FIG. 第2の実施形態におけるVUI Parametersの構成例vui_parameters()を示す図である。FIG. 11 is a diagram showing a configuration example vui_parameters( ) of VUI Parameters in the second embodiment; 第2の実施形態におけるSEI messageの構成例sei_payload()を示す図である。FIG. 11 is a diagram illustrating a configuration example sei_payload( ) of an SEI message in the second embodiment; 第2の実施形態におけるfree_viewpoint_video_info(payloadSize)の構成例を示す図である。FIG. 13 is a diagram illustrating a configuration example of free_viewpoint_video_info (payloadSize) in the second embodiment; 第2の実施形態におけるfree_viewpoint_video_info(payloadSize)の構成例を示す図である。FIG. 13 is a diagram illustrating a configuration example of free_viewpoint_video_info (payloadSize) in the second embodiment; 第2の実施形態におけるfree_viewpoint_video_info(payloadSize)の構成例を示す図である。FIG. 13 is a diagram illustrating a configuration example of free_viewpoint_video_info (payloadSize) in the second embodiment; 第2の実施形態におけるfree_viewpoint_video_info(payloadSize)の構成例を示す図である。FIG. 13 is a diagram illustrating a configuration example of free_viewpoint_video_info (payloadSize) in the second embodiment; 第2の実施形態におけるPPSの構造の一例を示す図である。FIG. 10 is a diagram showing an example of the structure of a PPS in the second embodiment; FIG. 第2の実施形態におけるpic_free_viewpoint_info()の詳細を示す図である。FIG. 11 is a diagram showing details of pic_free_viewpoint_info( ) in the second embodiment; 第2の実施形態におけるpic_free_viewpoint_info()の詳細を示す図である。FIG. 11 is a diagram showing details of pic_free_viewpoint_info( ) in the second embodiment; 第2の実施形態におけるpic_free_viewpoint_info()の詳細を示す図である。FIG. 11 is a diagram showing details of pic_free_viewpoint_info( ) in the second embodiment; 第2の実施形態におけるビットストリーム生成処理を表すフローチャートである。FIG. 11 is a flowchart showing bitstream generation processing in the second embodiment; FIG. 第3の実施形態における画像処理装置500を含むシステムの構成例を示す構成図である。FIG. 11 is a configuration diagram showing a configuration example of a system including an image processing apparatus 500 according to a third embodiment; FIG. 第3の実施形態における表示画面の例を表す図である。It is a figure showing the example of the display screen in 3rd Embodiment. 各実施形態における画像処理装置に適用可能なコンピュータのハードウェア構成例を示すブロック図である。2 is a block diagram showing a hardware configuration example of a computer applicable to the image processing apparatus according to each embodiment; FIG.

以下、添付の図面を参照して、本発明の実施形態について詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. Note that the configurations shown in the following embodiments are merely examples, and the present invention is not limited to the illustrated configurations.

(第1の実施形態)
図1は、第1の実施形態における画像処理装置100を含むシステムの構成例を示す。本システムでは、競技場(スタジアム)やコンサートホールなどの施設に複数のカメラを設置し、撮影が行われる。
(First embodiment)
FIG. 1 shows a configuration example of a system including an image processing apparatus 100 according to the first embodiment. In this system, multiple cameras are installed in facilities such as stadiums and concert halls to take pictures.

画像処理装置100は、カメラ101a~z、入力部102、環境情報取得部103、端末104、ファイル生成部105、メタ情報付与部106、出力部107、保存部108を有する。 The image processing apparatus 100 has cameras 101a to 101z, an input unit 102, an environment information acquisition unit 103, a terminal 104, a file generation unit 105, a meta information addition unit 106, an output unit 107, and a storage unit .

カメラ101a~zは、被写体を囲むように配置され、同期をとって撮影が行われる。ただし、カメラの台数、配置は限定されない。カメラ101a~zは、ネットワークを介して画像処理装置100の入力部102に接続されている。 The cameras 101a to 101z are arranged so as to surround the subject, and are photographed in synchronization. However, the number and arrangement of cameras are not limited. The cameras 101a-z are connected to the input unit 102 of the image processing apparatus 100 via a network.

入力部102は、カメラ101a~zで撮影された映像データの入力を受け付け、ファイル生成部105に出力する。 The input unit 102 receives input of video data captured by the cameras 101a to 101z, and outputs the data to the file generation unit 105. FIG.

端末104は、ユーザから映像データに関するメタ情報の入力を受け付け、入力されたメタ情報をメタ情報付与部106に出力する。入力されるメタ情報は、例えば、撮影設定情報、撮影状況情報、撮影対象情報、及び撮影権利情報の少なくとも1つを含む。メタ情報の詳細は後述する。 The terminal 104 receives input of meta information about video data from the user and outputs the input meta information to the meta information adding unit 106 . The input meta information includes, for example, at least one of shooting setting information, shooting situation information, shooting target information, and shooting right information. Details of the meta information will be described later.

環境情報取得部103は、環境情報を取得するセンサー等からなり、例えば、撮影当日の気象情報等を取得し、メタ情報付与部106に出力する。なお、環境情報の取得方法はこれに限定されず、例えば、インターネット等を通じて外部から入手してもよい。 The environment information acquisition unit 103 is composed of a sensor or the like that acquires environment information. Incidentally, the method of obtaining the environmental information is not limited to this, and for example, the environmental information may be obtained from the outside through the Internet or the like.

ファイル生成部105は、入力された映像データに対してファイル化に必要なヘッダデータを付与し、映像ファイルを生成する。以下では、ISO/IEC 14496-12(MPEG-4 Part12) ISO base media format(以下、ISOBMFF)規格を例として用い、映像ファイルのフォーマットについて説明する。ただし、映像ファイルのフォーマットはこれに限定されない。 The file generation unit 105 generates a video file by adding header data required for filing to the input video data. In the following, the format of the video file will be described using the ISO/IEC 14496-12 (MPEG-4 Part 12) ISO base media format (hereafter, ISOBMFF) standard as an example. However, the video file format is not limited to this.

図2は、本実施形態におけるISO BMFFファイルの構成例を示す。 FIG. 2 shows a configuration example of an ISO BMFF file in this embodiment.

図2(a)において、ISO BMFFファイル200は、ftyp(File Type Compatibility Box)201、moov(Movie Box)202のボックスを含む。また、ISO BMFFファイル200は、meta(metadata)203、mdat(Media Data Box)204のボックスを含む。ボックスftyp201には、ファイルフォーマットの情報が含まれ、例えばファイルがISO BMFFファイルであることや、ボックスのバージョン、映像ファイルを作成したメーカ名称等が記載される。ボックスmoov202には、メディアデータ(映像データ)を管理するための時間軸や、アドレスなどの情報が含まれる。ボックスmeta203には、映像データのメタ情報が含まれる。ボックスmeta203に含まれるメタ情報については後述する。ボックスmdat204には、実際に動画として再生されるメディアデータ(映像データ)が含まれる。 In FIG. 2A, an ISO BMFF file 200 includes ftyp (File Type Compatibility Box) 201 and moov (Movie Box) 202 boxes. The ISO BMFF file 200 also includes meta (metadata) 203 and mdat (Media Data Box) 204 boxes. The box ftyp 201 contains file format information, such as the fact that the file is an ISO BMFF file, the version of the box, the name of the manufacturer that created the video file, and the like. A box moov 202 includes information such as a time axis for managing media data (video data) and an address. A box meta203 contains meta information of the video data. Meta information included in the box meta 203 will be described later. A box mdat 204 contains media data (video data) that is actually reproduced as a moving image.

図1に戻り、メタ情報付与部106は、環境情報取得部103や端末104から受け取った情報に基づいて、メタ情報を示すボックスmeta203を生成する。ファイル生成部105は、ボックスmeta203を用いて、映像ファイルにメタ情報を付与することができる。ボックスmeta203の構成例を、以下に示す。
aligned(8) class MetaBox (handler_type)extends FullBox(‘meta‘, version = 0, 0) {
HandlerBox(handler_type) theHandler;
PrimaryItemBox primary_resource; // optional
DataInformationBox file_locations; // optional
ItemLocationBox item_locations; // optional
ItemProtectionBox protections; // optional
ItemInfoBox item_infos; // optional
IPMPControlBox IPMP_control; // optional
ItemReferenceBox item_refs; // optional
ItemDataBox item_data; // optional
Filming_scene_information;// optional
Filming_condition; // optional
Filming_object; // optional
Filming_right_holder; // optionl
Box other_boxes[]; // optional

Filming_scene_informationが撮影設定情報を、Filming_conditionが撮影状況情報を、Filming_objectが撮影対象情報を、Filming_right_holderが撮影権利情報を表す。
Returning to FIG. 1, the meta information adding unit 106 generates a box meta203 indicating meta information based on the information received from the environment information acquiring unit 103 and the terminal 104. FIG. The file generation unit 105 can add meta information to the video file using the box meta203. A configuration example of the box meta 203 is shown below.
aligned(8) class MetaBox (handler_type) extends FullBox('meta', version = 0, 0) {
HandlerBox(handler_type) theHandler;
PrimaryItemBox primary_resource;
DataInformationBox file_locations;
ItemLocationBox item_locations;
ItemProtectionBox protections;
ItemInfoBox item_infos;
IPMPControlBox IPMP_control;
ItemReferenceBox item_refs;
ItemDataBox item_data;
Filming_scene_information;// optional
Filming_condition;
Filming_object;
Filming_right_holder;
Box other_boxes[];
}
Filming_scene_information represents shooting setting information, Filming_condition represents shooting condition information, Filming_object represents shooting target information, and Filming_right_holder represents shooting right information.

撮影設定情報を表すFilming_scene_informationボックスの構成を以下に示す。
Box Type: ‘ffsi‘
Container: Meta box (‘meta‘)
Mandatory: No
Quantity: Zero or one
The configuration of the Filming_scene_information box representing shooting setting information is shown below.
Box Type: 'ffsi'
Container: Meta box ('meta')
Mandatory: No
Quantity: Zero or one

また、そのシンタックスを以下に示す。
aligned(8) class ItemLocationBox extends FullBox(‘ffsi‘,version,0) {
unsigned int(32) offset_size;
unsigned int(32) length_size;
unsigned int(32) base_offset_size;
if (version == 1)
unsigned int(32) index_size;
else
unsigned int(32) reserved;
unsigned int(16)num_free_viewpoint_original_video_info;
for (i=0; i<num_free_viewpoint_original_video_info; i++)
unsigned char(8) free_viewpoint_original_video_info[i];
unsigned int(32) category_code;
unsigned int(64) filming_date_time_code;
unsigned int(16) num_char_place_name;
for (i=0; i<num_char_place_name;i++)
unsigned char(8) place_name[i];
unsigned int(16) num_char_convention_name;
for (i=0; i<num_char_convention_name;i++)
unsigned char(8) convention_name[i];
unsigned int(16) num_char_event_name;
for (i=0; i<num_char_event_name;i++)
unsigned char(8) event_name[i];
unsigned int(16) num_char_stage_name;
for (i=0; i<num_char_stage_name;i++)
unsigned char(8) stage_name[i];
unsigned int(16) num_char_place_name;
for (i=0; i<num_char_place_name;i++)
unsigned char(8) place_name[i];
unsigned char(8) free_viewpoint_filming_info_code
if (free_viewpoint_filming_info_code && 0x01) { // システム有無
unsigned int(16) num_char_filming_system_info_minus1;
for (i=0; i<=num_char_ filming_system_info_minus1;i++)
unsigned char(8) filming_system_information[i];
} // システム有無
if (free_viewpoint_filming_info_code && 0x02) { // 0x02
unsigned int(16) max_num_target_point_minus1;
unsigned int(16) num_target_point_minus1;
for (i=0; i<=num_target_point_minus1;i++) { // 注視点
unsigned int(16) target_point_name_length;
for (j=0; j<target_point_name_length;j++)
unsigned char(8) target_point_name[i][j];
for (j=0; j<3)
signed int(16) target_point_location[i][j];
unsigned int(16) num_camera_minus1;
unsigned int(16) max_camera_name_length;
unsigned int(16) camera_name_length;
for (j=0; j<=num_camera_minus1;j++){ // カメラ
for (k=0; k<camera_name_length;k++)
unsigned int(16) camera_name[i][j][k];
for (k=0; k<3)
unsigned int(16) camera_location[i][j][k];
for (k=0; k<4)
unsigned int(16) camera_attitude[i][j][k];
unsigned int(16) num_char_camera_type_info;
for (k=0; k<num_char_camera_type;k++)
unsigned char(8) camera_type_information[i][j][k];
unsigned int(16) num_char_lenz_type_info;
for (k=0; k<num_char_lenz_type;k++)
unsigned char(8) lenz_type_information[i][j][k];
unsigned int(16) focus_distance[i][j];
} // カメラ
} // 注視点
} // 0x02
}
Also, its syntax is shown below.
aligned(8) class ItemLocationBox extends FullBox('ffsi', version, 0) {
unsigned int(32) offset_size;
unsigned int(32) length_size;
unsigned int(32) base_offset_size;
if (version == 1)
unsigned int(32) index_size;
else
unsigned int(32) reserved;
unsigned int (16) num_free_viewpoint_original_video_info;
for (i=0; i<num_free_viewpoint_original_video_info; i++)
unsigned char(8) free_viewpoint_original_video_info[i];
unsigned int(32) category_code;
unsigned int(64) filming_date_time_code;
unsigned int(16) num_char_place_name;
for (i=0; i<num_char_place_name; i++)
unsigned char(8) place_name[i];
unsigned int(16) num_char_convention_name;
for (i=0; i<num_char_convention_name; i++)
unsigned char(8) convention_name[i];
unsigned int(16) num_char_event_name;
for (i=0; i<num_char_event_name; i++)
unsigned char(8) event_name[i];
unsigned int(16) num_char_stage_name;
for (i=0; i<num_char_stage_name; i++)
unsigned char(8) stage_name[i];
unsigned int(16) num_char_place_name;
for (i=0; i<num_char_place_name; i++)
unsigned char(8) place_name[i];
unsigned char(8) free_viewpoint_filming_info_code
if (free_viewpoint_filming_info_code && 0x01) { // System existence unsigned int(16) num_char_filming_system_info_minus1;
for (i=0; i<=num_char_filming_system_info_minus1; i++)
unsigned char(8) filming_system_information[i];
} // System existence if (free_viewpoint_filming_info_code && 0x02) { // 0x02
unsigned int(16) max_num_target_point_minus1;
unsigned int(16) num_target_point_minus1;
for (i=0; i<=num_target_point_minus1; i++) { // point of regard unsigned int(16) target_point_name_length;
for (j=0; j<target_point_name_length; j++)
unsigned char(8) target_point_name[i][j];
for (j=0; j<3)
signed int(16) target_point_location[i][j];
unsigned int(16) num_camera_minus1;
unsigned int(16) max_camera_name_length;
unsigned int(16) camera_name_length;
for (j=0; j<=num_camera_minus1; j++) { // camera
for (k=0; k<camera_name_length; k++)
unsigned int(16) camera_name[i][j][k];
for (k=0; k<3)
unsigned int(16) camera_location[i][j][k];
for (k=0; k<4)
unsigned int(16) camera_attitude[i][j][k];
unsigned int(16) num_char_camera_type_info;
for (k=0; k<num_char_camera_type; k++)
unsigned char(8) camera_type_information[i][j][k];
unsigned int(16) num_char_lenz_type_info;
for (k=0; k<num_char_lenz_type; k++)
unsigned char(8) lens_type_information[i][j][k];
unsigned int(16) focus_distance[i][j];
} // camera
} // point of interest
} // 0x02
}

上記シンタックスにおいて、offset_size、length_size、base_offset_size、index_size、reservedは上記規格の規格書に記載されており、ボックスの大きさ等に関係する符号である。 In the above syntax, offset_size, length_size, base_offset_size, index_size, and reserved are described in the above standard, and are codes related to the box size and the like.

num_free_viewpoint_original_video_infoは、仮想視点映像生成に必要な映像データ等に関する情報の文字列の長さを表す符号である。free_viewpoint_original_video_infoは、素材データに関する情報の文字列を格納する配列である。 num_free_viewpoint_original_video_info is a code representing the length of a character string of information related to video data and the like necessary for virtual viewpoint video generation. free_viewpoint_original_video_info is an array that stores character strings of information about material data.

category_codeは撮影の対象を表すコードであり、スポーツ、エンタメ、監視などの撮影の目的の分類を表す。例えば、スポーツは0x0001、エンタメは0x0002等となる。 A category_code is a code representing an object to be photographed, and represents a classification of purpose of photographing, such as sports, entertainment, and surveillance. For example, sports is 0x0001, entertainment is 0x0002, and so on.

filming_date_time_codeは撮影日時を表す符号であり、撮影開始時刻等を表す。撮影日時は、例えば、W3C-DTFのフォーマットで表す。撮影日時は、例えば、西暦年、月、日、時、分、秒、ミリ秒で表す。撮影日時は、例えば、UTC(協定世界時=グリニッジ標準時)との時差(時、分)で表す。filming_date_time_codeは、このような撮影日時を表すビット列に、予備のビットを加えて統合したビット列として符号とする。 The filming_date_time_code is a code representing the shooting date and time, and represents the shooting start time and the like. The shooting date and time are expressed in the W3C-DTF format, for example. The shooting date/time is represented by, for example, year, month, day, hour, minute, second, and millisecond. The shooting date and time is represented, for example, by the time difference (hours and minutes) from UTC (Coordinated Universal Time = Greenwich Mean Time). Filming_date_time_code is a code as a bit string obtained by adding spare bits to a bit string representing such shooting date and time.

num_char_place_nameは、撮影場所を表す文字列の長さを表す符号である。place_nameは撮影場所の名称を表す文字列であり、例えば、“東京サッカースタジアム”といった文字列である。なお、撮影場所の情報は文字列に限定されない。また、言語を表すためのコードを付加してもよい。 num_char_place_name is a code representing the length of the character string representing the shooting location. place_name is a character string representing the name of the shooting location, such as "Tokyo soccer stadium". Note that the shooting location information is not limited to a character string. Also, a code for representing a language may be added.

num_char_convemtion_nameは、撮影の概要、すなわち、大会や講演の名称等を表す文字列の長さを表す符号である。convention_nameは撮影イベントの名称を表す文字列であり、例えば、“第xxx回オリンピック”といった文字列である。なお、撮影イベントの情報は文字列に限定されない。また、言語を表すためのコードを付加してもよい。 num_char_convemtion_name is a code representing the length of the character string representing the summary of the shooting, that is, the name of the convention or lecture. The convention_name is a character string representing the name of the shooting event, for example, "xxx Olympic Games". Note that the shooting event information is not limited to a character string. Also, a code for representing a language may be added.

num_char_event_nameは、撮影内容の詳細に関する情報の文字列の長さを表す符号である。撮影内容の詳細とは、例えば、競技種目であったり、ミュージカルやコンサートのような内容の種類であったりする。event_nameは撮影内容の詳細を表す文字列であり、例えば、“サッカー”、“卓球”、“100m背泳ぎ”、”ミュージカル“、“コンサート”、“マジックショー”といった文字列である。 num_char_event_name is a code representing the length of the character string of information on the details of the shooting content. The details of the captured content may be, for example, a sporting event, or a type of content such as a musical or a concert. The event_name is a character string representing the details of the captured content, such as "soccer", "table tennis", "100m backstroke", "musical", "concert", and "magic show".

num_char_stage_nameは、撮影対象の段階の詳細に関する情報の文字列の長さを表す符号である。stage_nameは撮影段階の詳細を表す文字列であり、例えば、“予選”、“1回戦”、“準決勝”、”決勝“、“リハーサル”、“本番”、“第xx回講演”といった文字列である。 num_char_stage_name is a code representing the length of the string of information about the details of the stage to be imaged. stage_name is a character string representing the details of the shooting stage, for example, character strings such as “preliminary”, “first round”, “semi-final”, “final”, “rehearsal”, “performance”, and “xx lecture”. be.

free_viewpoint_filming_info_codeは、撮影システム等に関する情報を表す符号である。例えば、1ビット目が1であれば、撮影システムに関する情報があり、2ビット目が1であれば、カメラに関する情報があるといったことを表す。 free_viewpoint_filming_info_code is a code representing information about the shooting system and the like. For example, if the first bit is 1, it indicates that there is information about the shooting system, and if the second bit is 1, it indicates that there is information about the camera.

num_char_filming_system_info_minus1は、撮影システムの名称を表す文字列の長さを表す符号である。filming_system_informationは撮影システムの名称を表す文字列である。 num_char_filming_system_info_minus1 is a code representing the length of the character string representing the name of the shooting system. filming_system_information is a character string representing the name of the shooting system.

max_num_target_point_minus1は、本撮影システムで使用するカメラの向く注視点の数の最大値を表す値である。num_target_point_minus1は本撮影システムで使用するカメラの向く注視点の数を表す符号である。 max_num_target_point_minus1 is a value representing the maximum number of fixation points to which the camera used in this imaging system faces. num_target_point_minus1 is a code representing the number of fixation points toward which the camera used in this photographing system is directed.

target_point_name_lengthは、注視点を識別するための名称等を表す文字列の長さを表す符号である。注視点を識別するための名称等を設定しない場合は文字列の長さを0にする。target_point_nameはそれぞれの注視点を識別するための名称等を表す。 target_point_name_length is a code representing the length of a character string representing a name or the like for identifying a gaze point. The length of the character string is set to 0 when no name or the like for identifying the gaze point is set. target_point_name represents a name or the like for identifying each gaze point.

target_point_locationは注視点の位置を3次元座標で表すための符号である。 target_point_location is a code for expressing the position of the gaze point in three-dimensional coordinates.

num_camera_minus1は、本撮影システムで使用するカメラの台数を表す符号である。max_camera_name_lengthはそれぞれのカメラを識別するための名称等を付与するための文字列の長さの最大値を表す符号である。camera_name_lengthはカメラを識別するための名称等を表す文字列の長さを表す符号である。camera_nameはカメラを識別するための名称等を表す。また、単にカメラを識別するための番号であってもよい。 num_camera_minus1 is a code representing the number of cameras used in this imaging system. max_camera_name_length is a code representing the maximum length of a character string for assigning a name for identifying each camera. camera_name_length is a code representing the length of the character string representing the name for identifying the camera. camera_name represents a name or the like for identifying the camera. Alternatively, it may simply be a number for identifying the camera.

camera_locationは当該カメラの位置を3次元の位置で表す。camera_attitudeはカメラの姿勢を表す符号である。 camera_location represents the position of the camera in three dimensions. camera_attitude is a code representing the attitude of the camera.

num_char_camera_type_infoはカメラ自体の情報、例えば、会社名や機種名を表す文字列の長さを表す符号である。camera_type_informationはカメラ自体の情報、例えば、会社名や機種名を表す文字列である。 num_char_camera_type_info is a code representing information about the camera itself, such as the length of a character string representing the company name or model name. camera_type_information is a character string representing information about the camera itself, such as the company name and model name.

num_char_lenz_type_infoはカメラに装着されているレンズの情報、例えば、会社名や機種名を表す文字列の長さを表す符号である。lenz_type_informationはレンズ自体の情報、例えば、会社名や機種名を表す文字列である。focus_distanceはレンズの撮影時の画角を表すための焦点距離を表す符号である。 num_char_lenz_type_info is a code representing information about the lens attached to the camera, for example, the length of the character string representing the company name or model name. lens_type_information is a character string representing information about the lens itself, such as the company name and model name. focus_distance is a code representing the focal length for representing the angle of view of the lens at the time of photographing.

次に、撮影状況情報を表すFilming_conditionボックスの構成を以下に示す。
Box Type: ‘ffci‘
Container: Meta box (‘meta‘)
Mandatory: No
Quantity: Zero or one
Next, the configuration of the Filming_condition box representing the shooting condition information is shown below.
Box Type: 'ffci'
Container: Meta box ('meta')
Mandatory: No
Quantity: Zero or one

また、そのシンタックスを以下に示す。
aligned(8) class ItemLocationBox extends FullBox(‘ffci‘,version,0) {
unsigned int(32) offset_size;
unsigned int(32) length_size;
unsigned int(32) base_offset_size;
if (version == 1)
unsigned int(32) index_size;
else
unsigned int(32) reserved;
unsigned int(8) room_code;
signed int(16) illuminant_code;
if (illuminant_code > 0) {
if (illuminant_code == 1 ){
unsigned int(16) sun_direction;
unsigned int(8) sun_altituude;

unsigned int(32) weather_code;
signed int(16) templature_C_value;
unsigned int(8) humidity_value;
unsigned int(8) wind_direction;
unsigned int(8) wind_force;

Also, its syntax is shown below.
aligned(8) class ItemLocationBox extends FullBox('ffci', version, 0) {
unsigned int(32) offset_size;
unsigned int(32) length_size;
unsigned int(32) base_offset_size;
if (version == 1)
unsigned int(32) index_size;
else
unsigned int(32) reserved;
unsigned int(8) room_code;
signed int(16) illuminant_code;
if (illuminant_code > 0) {
if (illuminant_code == 1) {
unsigned int(16) sun_direction;
unsigned int(8) sun_altitude;
}
unsigned int(32) weather_code;
signed int(16) template_C_value;
unsigned int(8) humidity_value;
unsigned int(8) wind_direction;
unsigned int(8) wind_force;
}
}

上記シンタックスにおいて、room_codeは、場所の屋内外等の情報を表す符号である。例えば、その値が0であれば状況が不明であることを表す。また、その値が1であれば屋外であり、2であればドームであり、3であれば屋内であるといったことを表す。 In the above syntax, room_code is a code representing information such as whether the place is indoors or outdoors. For example, a value of 0 indicates that the situation is unknown. If the value is 1, it means outdoors, if it is 2, it means that it is a dome, and if it is 3, it means that it is indoors.

illuminant_codeは、光源に関する情報を表す符号である。例えば、太陽光であれば、その値を1とする。また、蛍光灯などの屋内照明には光源ごとにそのコードを割り当てる。また、その値が0であれば光源に関する情報はないことを表す。 illuminant_code is a code representing information about the light source. For example, if it is sunlight, the value is set to 1. A code is assigned to each light source for indoor lighting such as fluorescent lamps. If the value is 0, it means that there is no information about the light source.

sun_directionは太陽(光源)の方向を表す符号である。例えば、北を0とし、その方位を360度で表す値でも良い。sun_altituudeは太陽の高度を表す値である。例えば、水平方向に対する角度で表すこともできる。 sun_direction is a code representing the direction of the sun (light source). For example, a value representing the azimuth of 360 degrees with the north as 0 may be used. sun_altitude is a value representing the altitude of the sun. For example, it can also be expressed as an angle with respect to the horizontal direction.

weather_codeは天候を表す符号である。例えば、その値が0であれば晴天を表し、1から10の値は雲量を表してもよい。また、その上の桁に雨や雪などの情報を割り当てても良い。 weather_code is a code representing the weather. For example, a value of 0 may represent clear skies and a value of 1 to 10 may represent cloudiness. Also, information such as rain or snow may be assigned to the upper digits.

templature_C_valueは気温を表し、例えば、摂氏で表すものとする。また、気温が計測されていない場合には0xFFFFとすることで、気温が計測されている場合と計測されていない場合を区別することができる。humidity_valueは湿度を%で表す。 Let the temperature_C_value represent the temperature, for example, in degrees Celsius. By setting 0xFFFF when the temperature is not measured, it is possible to distinguish between the case where the temperature is measured and the case where the temperature is not measured. humidity_value represents humidity in %.

wind_directionは風向を表し、例えば、北を0とし、その方位を360度で表した場合の値でもよい。wind_forceは風力を表す値である。または、風速を表しても良い。 wind_direction represents the direction of the wind, and may be a value when the direction is represented by 360 degrees, with the north being 0, for example. wind_force is a value representing the wind force. Alternatively, it may represent the wind speed.

次に、撮影対象情報を表すFilming_objectボックスの構成を以下に示す。
Box Type: ‘ffoi‘
Container: Meta box (‘meta‘)
Mandatory: No
Quantity: Zero or one
Next, the configuration of the Filming_object box representing shooting target information is shown below.
Box Type: 'ffoi'
Container: Meta box ('meta')
Mandatory: No
Quantity: Zero or one

また、そのシンタックスを以下に示す。
aligned(8) class ItemLocationBox extends FullBox(‘ffoi‘,version,0) {
unsigned int(32) offset_size;
unsigned int(32) length_size;
unsigned int(32) base_offset_size;
if (version == 1)
unsigned int(32) index_size;
else
unsigned int(32) reserved;
unsigned int(16) max_num_object;
unsigned int(16) num_object;
for (i=0; i<=num_object;i++) {
unsigned int(16) num_char_object_info;
for (j=0; j<num_char_object_info;j++)
unsigned char(8) object_information[j][i];

Also, its syntax is shown below.
aligned(8) class ItemLocationBox extends FullBox('ffoi', version, 0) {
unsigned int(32) offset_size;
unsigned int(32) length_size;
unsigned int(32) base_offset_size;
if (version == 1)
unsigned int(32) index_size;
else
unsigned int(32) reserved;
unsigned int(16) max_num_object;
unsigned int(16) num_object;
for (i=0; i<=num_object; i++) {
unsigned int(16) num_char_object_info;
for (j=0; j<num_char_object_info; j++)
unsigned char(8) object_information[j][i];
}
}

上記シンタックスにおいて、max_num_objectは、撮影された対象の数の最大値を表す値である。num_objectはフレーム単位や、映像のクリップ単位、映像全体を単位として、実際に撮影されている対象の数である。 In the above syntax, max_num_object is a value representing the maximum number of photographed objects. num_object is the number of objects that are actually shot in units of frames, clips of video, or the entire video.

num_char_object_infoは対象を表す文字列の長さを表す値である。object_informationは対象を表す文字列である。 num_char_object_info is a value representing the length of the character string representing the object. object_information is a character string representing an object.

次に、撮影権利情報を表すFilming_right_holderボックスの構成を以下に示す。
Box Type: ‘ffri‘
Container: Meta box (‘meta‘)
Mandatory: No
Quantity: Zero or one
Next, the configuration of the Filming_right_holder box representing the shooting right information is shown below.
Box Type: 'ffri'
Container: Meta box ('meta')
Mandatory: No
Quantity: Zero or one

また、そのシンタックスを以下に示す。
aligned(8) class ItemLocationBox extends FullBox(‘ffri‘,version,0) {
unsigned int(32) offset_size;
unsigned int(32) length_size;
unsigned int(32) base_offset_size;
if (version == 1)
unsigned int(32) index_size;
else
unsigned int(32) reserved;
unsigned int(16) max_num_right_holder;
unsigned int(16) num_right_holder;
for (i=0; i<num_right_holder; i++) {
unsigned int(16) num_char_right_holder;
for (j=0; j<num_char_right_holder_info;j++)
unsigned char(8) right_holder_information[i][j]

Also, its syntax is shown below.
aligned(8) class ItemLocationBox extends FullBox('ffri', version, 0) {
unsigned int(32) offset_size;
unsigned int(32) length_size;
unsigned int(32) base_offset_size;
if (version == 1)
unsigned int(32) index_size;
else
unsigned int(32) reserved;
unsigned int(16) max_num_right_holder;
unsigned int(16) num_right_holder;
for (i=0; i<num_right_holder; i++) {
unsigned int(16) num_char_right_holder;
for (j=0; j<num_char_right_holder_info; j++)
unsigned char(8) right_holder_information[i][j]
}
}

上記シンタックスにおいて、max_num_right_holderは、撮影に関する権利を有する個人、団体(以下、権利者と総称する)の数の最大値を表す値である。num_right_holderはフレーム単位や、映像のクリップ単位、映像全体を単位として、実際に権利を有する権利者の数である。 In the above syntax, max_num_right_holder is a value representing the maximum number of individuals and groups (hereinafter collectively referred to as right holders) who have the right to photograph. num_right_holder is the number of rights holders who actually have rights in units of frames, clips of video, or entire video.

num_char_right_holderは権利者の名称等を表す文字列の長さを表す値である。 num_char_right_holder is a value representing the length of the character string representing the name of the right holder.

right_holder_informationは権利者の名称等を表す文字列である。 right_holder_information is a character string representing the name of the right holder.

以上説明したように、ファイル生成部105は、メタ情報付与部106が生成したボックスmeta203を使用して、ISO BMFFファイル200にメタ情報を付与することができる。 As described above, the file generation unit 105 can add meta information to the ISO BMFF file 200 using the box meta 203 generated by the meta information addition unit 106 .

また、図2(b)に示すように、一般的なボックスmeta203の代わりに、専用のボックスを新たに設けてもよい。例えば、fvvi(Free Viewpoint Video Info)205といったボックスタイプを新たに設けることができる。 Also, as shown in FIG. 2B, a new dedicated box may be provided instead of the general box meta203. For example, a new box type such as fvvi (Free Viewpoint Video Info) 205 can be provided.

上記のボックスfvvi205は、映像(シーケンス)全体、複数フレームからなる映像クリップ単位、またはフレーム単位に付与することができる。すなわち、図2(c)に示すように、ボックスfvvi205をボックスmoov202に付与してもよい。また、ボックスmoov202の中にさらなるボックスmoovが含まれている場合には、ボックスfvvi205をその中のボックスmoovに付与してもよい。さらには、図2(d)に示すように、ボックスfvvi205を複数に分けて付与してもよい。 The above box fvvi 205 can be given to the entire video (sequence), video clip units consisting of a plurality of frames, or frame units. That is, as shown in FIG. 2(c), a box fvvi205 may be given to a box moov202. Also, if the box moov 202 contains another box moov, the box fvvi 205 may be given to the box moov therein. Furthermore, as shown in FIG. 2(d), a plurality of boxes fvvi 205 may be divided and given.

図1に戻り、出力部107は、メタ情報が付加された映像ファイルを外部に出力する。保存部108は、メタ情報が付加された映像ファイルを記憶媒体に保存する。 Returning to FIG. 1, the output unit 107 outputs the video file to which the meta information is added. A storage unit 108 stores the video file to which the meta information is added in a storage medium.

なお、ファイルフォーマットはISO BMFFに限定されない。例えば、静止画を格納する「カメラ映像機器工業会規格 DC-008-2012 デジタルスチルカメラ用画像ファイルフォーマット規格 Exif2.3」(以下、Exif規格)を用いることも可能である。図3は、本実施形態におけるExif規格を用いたファイル(EXIFファイル)のフォーマットの例を示す。ファイルフォーマット300では、仮想視点映像に関するメタ情報が、Free Viewpoint Video Information Image File Directory(以下、FVVI IFD)301として定義される。FVVI IFD301は、撮影設定情報、撮影状況情報、撮影対象情報、撮影権利情報を格納している。図4は、本実施形態におけるFVVI IFD301のタグ情報の構成の一例を示す。FVVI IFD301には、上述したISO BMFFの各符号がそれぞれのタグに格納されている。 Note that the file format is not limited to ISO BMFF. For example, it is possible to use the “Camera and Imaging Products Association Standard DC-008-2012 Digital Still Camera Image File Format Standard Exif 2.3” (hereinafter referred to as the Exif standard) for storing still images. FIG. 3 shows an example of the format of a file (EXIF file) using the Exif standard in this embodiment. In the file format 300 , meta information about virtual viewpoint video is defined as a Free Viewpoint Video Information Image File Directory (hereinafter referred to as FVVI IFD) 301 . The FVVI IFD 301 stores shooting setting information, shooting situation information, shooting target information, and shooting right information. FIG. 4 shows an example of the configuration of tag information of the FVVI IFD 301 in this embodiment. In the FVVI IFD 301, each code of the ISO BMFF described above is stored in each tag.

図5は、本実施形態における映像ファイル生成処理のフローチャートを示す。フローチャートに示される一連の処理は、後述するように、画像処理装置100のCPU801がROM803に格納されている制御プログラムをRAM802に読み込み、実行することにより行われる。あるいはまた、フローチャートにおけるステップの一部または全部の機能をASICや電子回路等のハードウェアで実現してもよい。各処理の説明における記号「S」は、当該フローチャートにおけるステップを意味する。その他のフローチャートについても同様である。 FIG. 5 shows a flowchart of video file generation processing in this embodiment. A series of processes shown in the flowchart are performed by the CPU 801 of the image processing apparatus 100 reading a control program stored in the ROM 803 into the RAM 802 and executing the control program, as will be described later. Alternatively, some or all of the functions of the steps in the flowcharts may be realized by hardware such as ASICs and electronic circuits. The symbol "S" in the description of each process means a step in the flowchart. The same applies to other flowcharts.

まず、S1000において、メタ情報付与部106は、端末104からユーザが入力した撮影設定情報を取得する。撮影設定情報は、撮影場所、撮影日時、イベント内容、カメラ情報の少なくとも1つを含む。また、カメラ情報は、カメラの注視点の位置、カメラの台数、カメラの配置、カメラの姿勢、焦点距離の少なくとも1つを含む。 First, in S<b>1000 , the meta-information adding unit 106 acquires shooting setting information input by the user from the terminal 104 . The shooting setting information includes at least one of shooting location, shooting date and time, event content, and camera information. In addition, the camera information includes at least one of the position of the gaze point of the camera, the number of cameras, the arrangement of the cameras, the orientation of the cameras, and the focal length.

S1001において、メタ情報付与部106は、端末104からユーザが入力した撮影権利情報を取得する。撮影権利情報は、撮影に関する権利者の情報を含む。 In S<b>1001 , the meta-information provision unit 106 acquires photography right information input by the user from the terminal 104 . The photographing right information includes information of the right holder regarding photographing.

S1002において、メタ情報付与部106は、端末104からユーザが入力した撮影対象情報を取得する。撮影対象情報は、撮影される対象に関する情報、例えば、選手名やチーム内の役割を含む。すなわち、撮影対象情報は、撮影される対象の名称、対象群の名称の少なくとも1つを含む。 In S<b>1002 , the meta-information adding unit 106 acquires shooting target information input by the user from the terminal 104 . The shooting target information includes information about the shooting target, such as player names and roles within the team. That is, the shooting target information includes at least one of the name of the target to be shot and the name of the target group.

S1003において、メタ情報付与部106は、環境情報取得部103から、環境情報取得部103が取得した撮影状況情報、例えば、光源、気温、湿度、風向、風力の情報を取得する。すなわち、撮影状況情報は、撮影時の気象情報を含む。 In S<b>1003 , the meta-information provision unit 106 acquires the shooting situation information acquired by the environment information acquisition unit 103 , such as light source, temperature, humidity, wind direction, and wind force information. That is, the shooting situation information includes weather information at the time of shooting.

なお、S1000からS1003の順序は限定されるものではなく、任意の順序でよい。また、S1000からS1003のうちの少なくとも1つのステップを実行して、撮影設定情報、撮影権利情報、撮影対象情報、及び撮影状況情報のうちの少なくとも1つをメタ情報付与部106が取得するようにしてもよい。 Note that the order of S1000 to S1003 is not limited and may be arbitrary. Also, at least one of steps S1000 to S1003 is executed so that the meta-information adding unit 106 acquires at least one of the shooting setting information, the shooting right information, the shooting target information, and the shooting situation information. may

S1004において、ファイル生成部105は、映像ファイルのヘッダデータを生成する。例えば、ファイル生成部105は、ISO BMFFではボックスftyp201を生成し、Exifでは、0thIFDを生成する。生成されたヘッダデータはメタ情報付与部106に入力され、ファイル生成部105でファイルに格納される。 In S1004, the file generation unit 105 generates header data of the video file. For example, the file generation unit 105 generates the box ftyp201 in ISO BMFF, and generates 0 th IFD in Exif. The generated header data is input to the meta information adding unit 106 and stored in a file by the file generating unit 105 .

S1005において、メタ情報付与部106は、取得された撮影設定情報、撮影権利情報、撮影対象情報、撮影状況情報の少なくとも1つをメタ情報として、ファイルに付与する。ファイル生成部105は、付与されたメタ情報をファイルに格納する。なお、メタ情報は、ISO BMFFではボックスmetaやボックスffviを使用して付与される。また、ExifではFVVI IFDを使用して付与される。 In step S<b>1005 , the meta information adding unit 106 adds at least one of the acquired shooting setting information, shooting right information, shooting target information, and shooting situation information to the file as meta information. The file generation unit 105 stores the attached meta information in a file. Note that the meta information is added using the box meta and box ffvi in ISO BMFF. Also, in Exif, it is given using FVVI IFD.

S1006において、入力部102は、カメラ101a~zから映像データの入力を受け付け、ファイル生成部105に入力する。 In S1006, the input unit 102 receives video data input from the cameras 101a to 101z, and inputs the video data to the file generation unit 105. FIG.

S1007において、ファイル生成部105は、入力部102を介して入力された映像データをファイルに格納する。例えば、ISO BMFFでは、ファイル生成部105は、映像データをボックスmdatとして、必要な符号を付与してファイルに格納する。また、Exifでは、ファイル生成部105は、映像データをImage Dataとしてファイルに格納する。さらに、映像データを格納したファイルは、出力部107で外部に出力されたり、保存部108で保存されたりする。なお、ファイル生成部105は、映像データを符号化してもよい。 In S1007, the file generation unit 105 stores the video data input via the input unit 102 in a file. For example, in ISO BMFF, the file generation unit 105 assigns a necessary code to the video data as a box mdat and stores it in a file. In Exif, the file generation unit 105 stores video data as Image Data in a file. Furthermore, the file storing the video data is output to the outside by the output unit 107 or saved by the storage unit 108 . Note that the file generation unit 105 may encode the video data.

S1008において、カメラ101a~zからの映像データの入力が終了したり、端末104から終了の指示が入力されたりした場合には、処理を終了する。そうでない場合はS1006に戻り、次の映像データの処理を行う。 In S1008, if the input of the video data from the cameras 101a to 101z is completed, or if the terminal 104 inputs an end instruction, the processing ends. Otherwise, the process returns to S1006 to process the next video data.

以上説明したように、本実施形態における映像ファイル生成処理が行われる。本実施形態によると、ISOBMFFやExifを利用して、映像データにメタ情報を付与し、映像ファイルを生成することができる。 As described above, the video file generation processing in this embodiment is performed. According to this embodiment, ISOBMFF or Exif can be used to add meta information to video data and generate a video file.

図6は、本実施形態における別の映像ファイル生成処理のフローチャートを示す。以下では、時刻ごとに変化する撮影状況情報をフレーム単位で映像データに付与する例を説明する。なお、図5のフローチャートにおけるステップと同じ処理が実行されるステップについては同じ番号を付し、詳細な説明は省略する。 FIG. 6 shows a flowchart of another video file generation process in this embodiment. In the following, an example will be described in which shooting situation information that changes with time is added to video data on a frame-by-frame basis. Note that the steps in which the same processing as the steps in the flowchart of FIG. 5 are executed are given the same numbers, and detailed description thereof will be omitted.

図6のフローチャートでは、S1006で入力部102が映像データをファイル生成部105に出力すると、S1013に進む。 In the flowchart of FIG. 6, when the input unit 102 outputs the video data to the file generation unit 105 in S1006, the process proceeds to S1013.

S1013において、メタ情報付与部106は、環境情報取得部103から撮影状況情報、例えば、光源、気温、湿度、風向、風力を取得する。 In S<b>1013 , the meta-information adding unit 106 acquires shooting situation information such as light source, temperature, humidity, wind direction, and wind force from the environment information acquiring unit 103 .

S1014において、メタ情報付与部106は、取得した撮影状況情報からメタ情報を生成し、映像ファイルに付与する。メタ情報は、ISO BMFFではボックスmetaやボックスffviを使用して映像ファイルに付与することができる。また、ExifではFVVI IFDを使用して付与することができる。 In S1014, the meta-information adding unit 106 generates meta-information from the acquired shooting situation information and adds it to the video file. Meta information can be attached to a video file using boxes meta and boxes ffvi in ISO BMFF. Also, Exif can be applied using FVVI IFD.

このように、図6に示した映像ファイル生成処理では、時刻ごとに変化する撮影状況情報をフレーム単位で付与することができる。また、別のメタ情報もフレーム単位で付与してもよい。例えば、カメラが被写体に追従して動くシステムにおいては、その注視点が移動することになり、これを撮影設定情報として映像ファイルに付与することができる。また、撮影対象情報は、映像に移っている対象のみに限定してフレーム単位で付与することができる。 As described above, in the video file generation process shown in FIG. 6, it is possible to add the shooting situation information that changes with time on a frame-by-frame basis. In addition, other meta information may also be added on a frame-by-frame basis. For example, in a system in which a camera moves following a subject, the point of gaze moves, and this can be added to the video file as shooting setting information. In addition, the shooting target information can be limited to only the target that has moved to the video and can be given in units of frames.

以上説明したように、本実施形態によると、生成した映像ファイルを共通の映像ファイルとして相互利用できるようにして、撮影設定情報、撮影権利情報、撮影対象情報、撮影状況情報のうち少なくとも1つをメタ情報として付与することができる。これにより、映像データの検索、取得を効率よく行うことができる。 As described above, according to the present embodiment, at least one of shooting setting information, shooting right information, shooting target information, and shooting situation information is shared by making it possible to mutually use generated video files as a common video file. It can be given as meta information. This enables efficient retrieval and acquisition of video data.

なお、本実施形態における画像処理装置100は、図1で説明した物理的な構成に限定されず、論理的に構成されてもよい。 Note that the image processing apparatus 100 according to the present embodiment is not limited to the physical configuration described with reference to FIG. 1, and may be configured logically.

また、本実施形態では、データを暗号化して保存してもよい。その場合、データが暗号化されているか否かを判別する符号を含んでもよい。 Also, in this embodiment, the data may be encrypted and saved. In that case, a code for determining whether the data is encrypted may be included.

また、本実施形態では、撮影設定情報のうちカメラの設置情報を、ファイル生成部105が、例えばカメラ101a~zのそれぞれから、カメラのID等の番号と共に映像データと合わせて入力部102を介して取得してもよい。 Further, in the present embodiment, the file generation unit 105 extracts the camera installation information from the shooting setting information, for example, from each of the cameras 101a to 101z together with the video data together with the ID number of the camera via the input unit 102. may be obtained by

また、本実施形態では、ファイル生成部105は、入力された映像データをそのままファイルに格納したが、符号化して格納するようにしてもよい。 Further, in the present embodiment, the file generation unit 105 stores the input video data as it is in the file, but it may be encoded and stored.

また、本実施形態では、メタ情報付与部106は、入力されたメタ情報をそのままファイルに格納したが、符号化して格納してもよい。 Further, in the present embodiment, the meta information adding unit 106 stores the input meta information as it is in the file, but it may be encoded and stored.

また、図7に示すように、3Dモデル生成部110が仮想視点映像を生成するために必要な処理を行った映像ファイルにメタ情報を付与してもよい。なお、同図において、図1と同様の構成要素については同じ番号を付し、説明を省略する。例えば、3Dモデル生成部110は、入力部102から入力された複数の映像データから対象が映っている領域をそれぞれ切り出し、3Dモデルを生成する。ファイル生成部115は、入力部102から入力された映像データに加えて、3Dモデル生成部110から取得した3Dモデルを映像ファイルに加える。また、ファイル生成部115は、3Dモデル単位のメタ情報(撮影対象情報)をメタ情報付与部106から取得し、映像ファイルに付与する。このように、本実施形態では、3Dモデルを利用する場合にも、仮想視点映像の生成時や表示時に簡単に撮影対象情報を多重化して表示することが可能になる。 Further, as shown in FIG. 7, the 3D model generation unit 110 may add meta information to a video file that has undergone processing necessary for generating a virtual viewpoint video. In the figure, the same components as those in FIG. 1 are denoted by the same numbers, and descriptions thereof are omitted. For example, the 3D model generation unit 110 cuts out regions in which objects are shown from a plurality of pieces of video data input from the input unit 102, and generates a 3D model. The file generation unit 115 adds the 3D model acquired from the 3D model generation unit 110 to the video file in addition to the video data input from the input unit 102 . The file generation unit 115 also acquires meta information (shooting target information) for each 3D model from the meta information addition unit 106 and adds it to the video file. As described above, in this embodiment, even when a 3D model is used, it is possible to easily multiplex and display shooting target information when generating or displaying a virtual viewpoint video.

(第2の実施形態)
第2の実施形態では、メタ情報を用いて映像データを検索し、検索結果を用いて仮想視点映像を生成する画像処理について説明する。
(Second embodiment)
In the second embodiment, image processing for searching video data using meta information and generating a virtual viewpoint video using the search results will be described.

図8は、本実施形態における画像処理装置400を含むシステムの構成例を示す。画像処理装置400は、外部の保存装置401に接続されている。保存装置401は、例えば第1の実施形態の図1に記載されている保存部108と同じように、メタ情報が付与された映像ファイルを格納している。本実施形態は、説明を容易にするために、ISOBMFFで記述された映像ファイルを例として説明する。 FIG. 8 shows a configuration example of a system including an image processing apparatus 400 according to this embodiment. The image processing device 400 is connected to an external storage device 401 . The storage device 401 stores video files to which meta information is attached, for example, like the storage unit 108 described in FIG. 1 of the first embodiment. In order to facilitate the explanation, this embodiment will be explained by taking a video file described in ISOBMFF as an example.

画像処理装置400は、インターフェース(I/F)部402、端末403、メタ情報比較部404、ファイル選択部405を有する。さらに、画像処理装置400は、ファイル解析部406、メタ情報バッファ407、仮想視点映像生成部408、メタ情報付与部409、出力部410、保存部411を有する。画像処理装置400は、保存装置401から所望の映像データを読出し、仮想視点映像を生成する。 The image processing apparatus 400 has an interface (I/F) section 402 , a terminal 403 , a meta information comparison section 404 and a file selection section 405 . Furthermore, the image processing device 400 has a file analysis unit 406 , a meta information buffer 407 , a virtual viewpoint video generation unit 408 , a meta information addition unit 409 , an output unit 410 and a storage unit 411 . The image processing device 400 reads desired video data from the storage device 401 and generates a virtual viewpoint video.

端末403は、ユーザから、仮想視点映像を生成するための映像データに関する検索条件の入力を受け付ける。端末403は、例えば、「○○大会の決勝戦のデータ」といったキーワードを検索条件として受け付ける。端末403は、受け付けたキーワードをメタ情報比較部404に入力する。 The terminal 403 receives input of search conditions related to video data for generating a virtual viewpoint video from the user. The terminal 403 accepts, for example, a keyword such as "final game data of XX tournament" as a search condition. The terminal 403 inputs the accepted keyword to the meta-information comparing section 404 .

端末403から検索の開始が発せられると、I/F部402は、保存装置401に格納されている映像ファイルのヘッダデータから、ボックスmeta203のデータ(すなわち、メタ情報)を映像ファイル単位で読み込む。読み込まれたボックスmeta203のデータは、メタ情報比較部404に入力される。 When the terminal 403 issues a start of search, the I/F unit 402 reads the data of the box meta 203 (that is, meta information) from the header data of the video file stored in the storage device 401 for each video file. The read data of the box meta 203 is input to the meta information comparison unit 404 .

メタ情報比較部404は、I/F部402から入力されたメタ情報と、端末403から入力されたキーワードを比較する。メタ情報比較部404は、キーワードに合致するメタ情報がある場合、ファイル選択部405に、当該メタ情報を有する映像ファイルの情報、例えば、ファイルパスやファイル名を通知する。 Meta information comparison section 404 compares the meta information input from I/F section 402 and the keyword input from terminal 403 . If there is meta information that matches the keyword, the meta information comparison unit 404 notifies the file selection unit 405 of the information of the video file having the meta information, such as the file path and file name.

ファイル選択部405は、通知された映像ファイルの情報に基づいて仮想視点映像の生成に使用する映像ファイルを選択し、I/F部402を介して保存装置401にアクセスする。保存装置401は、アクセスにしたがって選択された映像ファイルを読出し、I/F部402を介して、ファイル解析部406に入力する。 The file selection unit 405 selects a video file to be used for generating the virtual viewpoint video based on the notified video file information, and accesses the storage device 401 via the I/F unit 402 . Storage device 401 reads the video file selected according to the access, and inputs it to file analysis section 406 via I/F section 402 .

ファイル解析部406は入力された映像ファイルを解析し、映像ファイルからメタ情報を分離して、分離したメタ情報をメタ情報バッファ407に格納し、仮想視点映像の生成に必要な映像データを仮想視点映像生成部408に入力する。 A file analysis unit 406 analyzes an input video file, separates meta information from the video file, stores the separated meta information in a meta information buffer 407, and extracts video data necessary for generating a virtual viewpoint video. It is input to the video generation unit 408 .

仮想視点映像生成部408は、入力された映像データを使用して、ユーザによって指定された仮想視点からの映像(すなわち、仮想視点映像)を生成する。仮想視点映像生成部408は、生成された仮想視点映像を符号化する。ここでは、H.265符号化方式を用いて符号化する例を説明するが、これに限定されない。例えば、H.264や、MPEG-1,2、4などの符号化方式でもよい。MPEG-1,2、4では例えば、user_data()に格納してもよいし、新たなヘッダを定義してもよい。H.265符号化方式で符号化された仮想視点映像のビットストリームは、メタ情報付与部409に入力される。 The virtual viewpoint video generation unit 408 uses the input video data to generate video from a virtual viewpoint designated by the user (that is, virtual viewpoint video). The virtual viewpoint video generation unit 408 encodes the generated virtual viewpoint video. Here, H. Although an example of encoding using the H.265 encoding scheme will be described, the present invention is not limited to this. For example, H. H.264, MPEG-1, 2, 4, etc. may be used. In MPEG-1, 2, 4, for example, it may be stored in user_data(), or a new header may be defined. H. A bitstream of the virtual viewpoint video encoded by the H.265 encoding method is input to the meta information adding unit 409 .

メタ情報付与部409は、メタ情報バッファ407に格納された元の映像データのメタ情報を読出し、入力されたビットストリームに付与する。また、メタ情報付与部409は、生成された映像ファイル(ビットストリーム)が仮想視点映像であることを示すメタ情報を追加して付与する。さらには、メタ情報付与部409は、仮想視点映像を生成したシステムの情報やその権利者に関する情報も付加することができる。 The meta information adding unit 409 reads the meta information of the original video data stored in the meta information buffer 407 and adds it to the input bitstream. Also, the meta-information adding unit 409 additionally adds meta-information indicating that the generated video file (bitstream) is a virtual viewpoint video. Furthermore, the meta-information adding unit 409 can also add information about the system that generated the virtual viewpoint video and information about the right holder.

出力部410は、メタ情報が付与された仮想視点映像のビットストリームを外部に出力する。保存部411は、メタ情報が付与された仮想視点映像のビットストリームを記憶媒体に保存する。 The output unit 410 outputs the bitstream of the virtual viewpoint video to which the meta information is added. The storage unit 411 stores the bitstream of the virtual viewpoint video to which the meta information is added in a storage medium.

図9は、本実施形態におけるH.265符号化方式で符号化されたビットストリーム900の構成例を表す図である。 FIG. 9 shows the H.264 in this embodiment. 9 is a diagram showing a configuration example of a bitstream 900 encoded by the H.265 encoding system. FIG.

ビットストリーム900は、先頭にシーケンス全体を表すシーケンスヘッダ(seq_parameter_set_rbsp()、以下SPS)901を含む。SPS901の中には、画像に対して便利な情報を付与するVUI(Video Usability Information) Parameters902が含まれる。図10は、本実施形態におけるVUI Parameters902の構成例vui_parameters()を示す。なお、aspect_ratio_info_present_flg符号からlog2_max_mv_length_vertical符号までの詳細な説明は、非特許文献2に記載されているので省略する。本実施形態では、log2_max_mv_length_vertical符号に続けて、以下の符号が付与される。 A bitstream 900 includes a sequence header (seq_parameter_set_rbsp( ), hereinafter referred to as SPS) 901 representing the entire sequence at the beginning. The SPS 901 includes VUI (Video Usability Information) Parameters 902 that give useful information to the image. FIG. 10 shows a configuration example vui_parameters( ) of the VUI Parameters 902 in this embodiment. A detailed description from the aspect_ratio_info_present_flg code to the log2_max_mv_length_vertical code is described in Non-Patent Document 2, and is therefore omitted. In this embodiment, the following codes are given following the log2_max_mv_length_vertical code.

free_viewpoint_video_flag符号は本ビットストリームが仮想視点映像であるか否かを表すフラグである。その値が1であれば、本ビットストリームの映像は仮想視点映像であることを示し、0であれば、通常のカメラ等で撮影された映像であることを示す。なお、本実施形態が適用されないビットストリームではこのフラグは存在しないので、その場合はその値は0とされる。 A free_viewpoint_video_flag code is a flag indicating whether or not the present bitstream is a virtual viewpoint video. If the value is 1, it indicates that the video of this bitstream is a virtual viewpoint video, and if it is 0, it indicates that it is a video captured by a normal camera or the like. Since this flag does not exist in a bitstream to which this embodiment is not applied, its value is set to 0 in that case.

free_viewpoint_original_video_info_flag符号は本ビットストリームの仮想視点映像を生成した元の素材となる映像データが存在するか否かを表すフラグである。その値が1であれば、本ビットストリームの仮想視点映像を生成した素材となる映像データが存在することを示し、0であれば、その素材となる映像データが無いか、あるいはアクセスできないことを表す。 The free_viewpoint_original_video_info_flag code is a flag indicating whether or not there is video data that is the original material for generating the virtual viewpoint video of this bitstream. If the value is 1, it indicates that the video data used as material for generating the virtual viewpoint video of this bitstream exists, and if the value is 0, it indicates that the video data used as the material does not exist or cannot be accessed. show.

free_viewpoint_filming_scene_info_flag符号は本ビットストリームの仮想視点映像を生成した元の素材となる映像データの撮影時の設定に関する撮影設定情報に関するメタ情報が存在するか否かを表すフラグである。その値が1であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時の撮影設定情報がメタ情報として存在することを示す。0であれば、そのメタ情報は存在しないことを表す。 The free_viewpoint_filming_scene_info_flag code is a flag indicating whether or not there is meta-information related to shooting setting information relating to settings at the time of shooting of video data that is the original material for generating the virtual viewpoint video of this bitstream. If the value is 1, it indicates that the shooting setting information at the time of shooting the video data that is the original material for generating the virtual viewpoint video of this bitstream exists as meta information. If it is 0, it means that the meta information does not exist.

free_viewpoint_filming_condition_info_flag符号は本ビットストリームの仮想視点映像を生成した元の素材となる映像データ撮影時の状況に関する撮影状況情報のメタ情報が存在するか否かを表すフラグである。その値が1であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時の撮影状況情報がメタ情報として存在することを示す。0であれば、そのメタ情報は存在しないことを表す。 The free_viewpoint_filming_condition_info_flag code is a flag that indicates whether or not there is meta-information about the shooting condition information about the situation at the time of shooting the video data that is the original material for generating the virtual viewpoint video of this bitstream. If the value is 1, it indicates that the shooting situation information when the video data, which is the original material for generating the virtual viewpoint video of this bitstream, was shot exists as meta information. If it is 0, it means that the meta information does not exist.

free_viewpoint_filmed_object_info_flag符号は本ビットストリームの仮想視点映像を生成した元の素材となる映像データの撮影時の対象に関する撮影対象情報に関するメタ情報が存在するか否かを表すフラグである。その値が1であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時の撮影対象情報がメタ情報として存在することを示す。0であれば、そのメタ情報は存在しないことを表す。 The free_viewpoint_filmed_object_info_flag code is a flag indicating whether or not there is meta-information about the shooting target information about the shooting target of the video data that is the original material for generating the virtual viewpoint video of this bitstream. If the value is 1, it indicates that the shooting target information when the video data, which is the original material for generating the virtual viewpoint video of this bitstream, was shot exists as meta information. If it is 0, it means that the meta information does not exist.

free_viewpoint_right_holder_info_flag符号は本ビットストリームの仮想視点映像を生成した元の素材となる映像データの撮影時の権利者に関する撮影権利情報に関するメタ情報が存在するか否かを表すフラグである。その値が1であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時の撮影権利報がメタ情報として存在することを示す。0であれば、そのメタ情報は存在しないことを表す。 The free_viewpoint_right_holder_info_flag code is a flag indicating whether or not there is meta-information related to shooting right information relating to the right holder at the time of shooting of the video data that is the original material for generating the virtual viewpoint video of this bitstream. If the value is 1, it indicates that the shooting right information when the video data that is the original material for generating the virtual viewpoint video of this bitstream is captured exists as meta information. If it is 0, it means that the meta information does not exist.

図9に戻り、本実施形態におけるビットストリーム900は、さらに、付加拡張情報(Supplemental enhancement information:以下、SEIと略す)message903を含むことができる。図11は、本実施形態におけるSEI message903の構成例sei_payload()を示す。その種類(payloadType)とその大きさ(payloadSize)によって内容が決定される。なお、alternative_depth_info(payloadSize)までの詳細は、非特許文献2の7.3.5章 Supplemental enhancement information message syntaxを参照されたい。 Returning to FIG. 9, the bitstream 900 in this embodiment can further include supplemental enhancement information (hereinafter abbreviated as SEI) message 903 . FIG. 11 shows a configuration example sei_payload( ) of the SEI message 903 in this embodiment. The content is determined by its type (payloadType) and its size (payloadSize). For details up to alternative_depth_info (payloadSize), refer to Non-Patent Document 2, Chapter 7.3.5 Supplemental enhancement information message syntax.

本実施形態では、メタ情報のpayloadTypeを「201」と定義する。payloadTypeが「201」の場合に、free_viewpoint_video_info(payloadSize)によって、payloadSizeが表す大きさのメタ情報が読み出される。 In this embodiment, the payloadType of meta information is defined as "201". When payloadType is "201", free_viewpoint_video_info(payloadSize) reads meta information of the size indicated by payloadSize.

図12~図15は、free_viewpoint_video_info(payloadSize)の構成例を表す。本実施形態では、ISO BMFFに記載された符号と同じ符号は同様の意味を持つので、詳細な説明は省略する。 12 to 15 show configuration examples of free_viewpoint_video_info (payloadSize). In this embodiment, the same reference numerals as those described in ISO BMFF have the same meanings, so detailed descriptions thereof are omitted.

図12は、free_viewpoint_video_info(payloadSize)の符号のうち、以下の符号を示す。 FIG. 12 shows the following codes among the codes of free_viewpoint_video_info (payloadSize).

free_viewpoint_original_video_info_flag符号は、図10に示した上記VUI Parameters902の同名の符号と同様に機能する。その値が1であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データが存在することを示し、0であれば、その素材となる映像データが無いか、あるいはアクセスできないことを表す。その値が0であれば、num_free_viewpoint_original_video_info_minus1符号や、free_viewpoint_original_video_info符号は省略される。 The free_viewpoint_original_video_info_flag code functions similarly to the code of the same name in VUI Parameters 902 above shown in FIG. If the value is 1, it indicates that the video data used as the original material for generating the virtual viewpoint video of this bitstream exists, and if the value is 0, the video data used as the material does not exist or cannot be accessed. represents If the value is 0, the num_free_viewpoint_original_video_info_minus1 and free_viewpoint_original_video_info codes are omitted.

free_viewpoint_filming_scene_info_flag符号は、図10に示した上記VUI Parameters902の同名の符号と同様に機能する。その値が1であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時の設定に関する撮影設定情報に関するメタ情報が存在することを示す。その値が0であれば、続くcategory_code以下の撮影設定情報は存在しない。なお、図面を簡易にするため図12では、num_char_place_name_minus1以下の撮影設定情報に関するメタ情報は省略されている。 The free_viewpoint_filming_scene_info_flag code functions similarly to the code of the same name in VUI Parameters 902 above shown in FIG. If the value is 1, it indicates that there is meta information related to shooting setting information related to the settings when the video data, which is the original material for generating the virtual viewpoint video of this bitstream, was shot. If the value is 0, there is no shooting setting information below the category_code that follows. In order to simplify the drawing, in FIG. 12, meta information related to shooting setting information after num_char_place_name_minus1 is omitted.

free_viewpoint_filming_condition_info_flag符号は、図10に示した上記VUI Parameters902の同名の符号と同様に機能する。その値が1であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時の状況に関する撮影状況情報に関するメタ情報が存在することを示す。その値が0であれば、続くilluminant_code以下の撮影状況情報は存在しない。 The free_viewpoint_filming_condition_info_flag code functions similarly to the code of the same name in VUI Parameters 902 above shown in FIG. If the value is 1, it indicates that there is meta information about shooting situation information about the situation when the video data, which is the original material for generating the virtual viewpoint video of this bitstream, was shot. If the value is 0, there is no shooting situation information below the following illuminant_code.

図13及び図14は、free_viewpoint_video_info(payloadSize)の符号のうち、図12に示した符号に続く以下の符号を示す。 13 and 14 show the following codes following the codes shown in FIG. 12 among the codes of free_viewpoint_video_info (payloadSize).

free_viewpoint_filmed_object_info_flag符号は、図10に示した上記VUI Parameters902の同名の符号と同様に機能する。その値が1であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時の対象に関する撮影対象情報に関するメタ情報が存在することを示す。その値が0であれば、続くmax_num_object_minus1以下の撮影対象情報は存在しない。なお、図面を簡易にするため図13では、object_information以下の撮影対象情報に関するメタ情報は省略されている。 The free_viewpoint_filmed_object_info_flag code functions similarly to the code of the same name in VUI Parameters 902 above shown in FIG. If the value is 1, it indicates that there is meta information related to shooting target information regarding the shooting target when the video data that is the original material for generating the virtual viewpoint video of this bit stream is present. If the value is 0, there is no imaging target information below max_num_object_minus1. In order to simplify the drawing, in FIG. 13, the meta information related to the imaging target information below object_information is omitted.

free_viewpoint_filming_right_holder_info_flag符号は、図10に示した上記VUI Parameters902の同名の符号と同様に機能する。その値が1であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時の権利者に関する撮影権利報に関するメタ情報が存在することを示す。その値が0であれば、続くmax_num_right_holder_minus1以下の撮影権利情報は存在しない。 The free_viewpoint_filming_right_holder_info_flag code functions similarly to the code of the same name in VUI Parameters 902 above shown in FIG. If the value is 1, it indicates that there is meta information related to shooting right information relating to the right holder when the video data that is the original material for generating the virtual viewpoint video of this bitstream is captured. If the value is 0, there is no shooting right information following max_num_right_holder_minus1.

free_viewpoint_filming_camera_info_flag符号は本ビットストリームの仮想視点映像の素材となる映像データを撮影した時のカメラの設定に関する撮影設定情報に関するメタ情報が存在するか否かを表すフラグである。その値が1であれば、本ビットストリームの仮想視点映像を生成した元の素材となる映像データを撮影した時のカメラの設定に関する撮影設定情報がメタ情報として、存在することを示す。0であれば、そのメタ情報は存在しないことを表す。すなわち、free_viewpoint_filming_system_info_flag以下の符号は存在しない。 The free_viewpoint_filming_camera_info_flag code is a flag indicating whether or not there is meta-information about shooting setting information about camera settings when video data that is the material of the virtual viewpoint video of this bitstream is shot. If the value is 1, it indicates that there is, as meta-information, shooting setting information relating to the settings of the camera when the video data, which is the original material for generating the virtual viewpoint video of this bitstream, was shot. If it is 0, it means that the meta information does not exist. That is, there are no codes below free_viewpoint_filming_system_info_flag.

free_viewpoint_filming_system_info_flag符号は本ビットストリームの仮想視点映像の素材となる映像データを撮影した時のシステムに関する撮影設定情報に関するメタ情報が存在するか否かを表すフラグである。その値が1であれば、本ビットストリームの仮想視点映像を生成した元の素材となる撮影した時のシステムに関する撮影設定情報がメタ情報として、存在することを示す。0であれば、そのメタ情報は存在しないことを表す。すなわち、num_char_filming_system_info_minus1以下の符号は存在しない。 The free_viewpoint_filming_system_info_flag code is a flag indicating whether or not there is meta-information related to shooting setting information related to the system when the video data that is the material of the virtual viewpoint video of this bitstream was shot. If the value is 1, it indicates that the shooting setting information related to the system at the time of shooting, which is the original material for generating the virtual viewpoint video of this bitstream, exists as meta information. If it is 0, it means that the meta information does not exist. That is, there are no codes below num_char_filming_system_info_minus1.

図15は、free_viewpoint_video_info(payloadSize)の符号のうち、図14に示した符号に続く以下の符号を示す。 FIG. 15 shows the following codes following the codes shown in FIG. 14 among the codes of free_viewpoint_video_info (payloadSize).

free_viewpoint_pruduct_info_flag符号は本ビットストリームの仮想視点映像を生成した時に関する生成設定情報に関するメタ情報が存在するか否かを表すフラグである。生成設定情報は、生成したシステムや生成された映像データの権利者に関する情報を含むが、これに限定されない。その値が1であれば、本ビットストリームの仮想視点映像を生成した時の生成設定情報がメタ情報として存在することを示す。0であれば、そのメタ情報は存在しないことを表す。すなわち、free_viewpoint_product_system_info_flag以下の符号は存在しない。 The free_viewpoint_product_info_flag code is a flag indicating whether or not there is meta information regarding generation setting information regarding when the virtual viewpoint video of this bitstream was generated. The generation setting information includes, but is not limited to, information about the generated system and the right holder of the generated video data. If the value is 1, it indicates that the generation setting information when generating the virtual viewpoint video of this bitstream exists as meta information. If it is 0, it means that the meta information does not exist. That is, there are no codes below free_viewpoint_product_system_info_flag.

free_viewpoint_product_system_info_flag符号は本ビットストリームの仮想視点映像を生成した時に使用したシステムに関するメタ情報が存在するか否かを表すフラグである。この値が1であれば、本ビットストリームの仮想視点映像を生成した時の生成システム情報がメタ情報として存在することを示す。0であれば、そのメタ情報は存在しないことを表す。すなわち、num_char_product_system_info_minus1以下の符号は存在しない。 The free_viewpoint_product_system_info_flag code is a flag indicating whether there is meta information about the system used to generate the virtual viewpoint video of this bitstream. If this value is 1, it indicates that the generation system information when the virtual viewpoint video of this bitstream was generated exists as meta information. If it is 0, it means that the meta information does not exist. That is, there are no codes below num_char_product_system_info_minus1.

num_char_product_system_info_minus1は、仮想視点映像を生成したシステムの名称を表す文字列の長さを表す符号である。 num_char_product_system_info_minus1 is a code representing the length of the character string representing the name of the system that generated the virtual viewpoint video.

product_system_informationは、仮想視点映像を生成したシステムの名称を表す。なお、仮想視点映像を生成したシステムに関する情報は名称に限定されず、型番やバージョンであっても良い。 product_system_information represents the name of the system that generated the virtual viewpoint video. Note that the information about the system that generated the virtual viewpoint video is not limited to the name, and may be the model number or version.

free_viewpoint_product_right_holder_info_flag符号は本ビットストリームの仮想視点映像を生成した時の権利者に関する生成権利情報に関するメタ情報が存在するか否かを表すフラグである。その値が1であれば、本ビットストリームの仮想視点映像を生成した時の権利者に関する生成権利情報に関するメタ情報が存在することを示す。その値が0であれば、続くmax_num_product_right_holder_minus1以下の生成権利情報は存在しない。 The free_viewpoint_product_right_holder_info_flag code is a flag that indicates whether or not there is meta information about the right holder when generating the virtual viewpoint video of this bitstream. If the value is 1, it indicates that there is meta-information about generation right information about the right holder when the virtual viewpoint video of this bitstream was generated. If the value is 0, there is no production right information following max_num_product_right_holder_minus1.

max_num_product_right_holder_minus1は、仮想視点映像生成に関する権利を有する権利者の数の最大値を表す値である。num_product_right_holder_minus1は、フレーム単位や、映像のクリップ単位、または映像全体を単位として、実際に権利を有する権利者の数を表す。 max_num_product_right_holder_minus1 is a value representing the maximum number of rights holders who have the right to generate a virtual viewpoint video. num_product_right_holder_minus1 represents the number of rights holders who actually have rights in units of frames, clips of video, or entire video.

num_char_product_right_holder_info_minus1は、仮想視点映像生成に関する権利者の名称等を表す文字列の長さを表す値である。 num_char_product_right_holder_info_minus1 is a value representing the length of a character string representing the name of a right holder related to virtual viewpoint video generation.

product_right_holder_informationは、仮想視点映像生成に関する権利者の名称等の文字列を表す。 product_right_holder_information represents a character string such as the name of the right holder regarding virtual viewpoint video generation.

図9に戻り、実際の仮想視点映像の映像データの符号が続き、ビットストリームを完結する。 Returning to FIG. 9, the code of the video data of the actual virtual viewpoint video follows to complete the bitstream.

図20は、本実施形態におけるビットストリーム生成処理のフローチャートを示す。 FIG. 20 shows a flowchart of bitstream generation processing in this embodiment.

S2000において、メタ情報比較部404は、端末403から、ユーザが入力した検索条件であるキーワードを取得する。 In S<b>2000 , the meta-information comparison unit 404 acquires keywords, which are search conditions input by the user, from the terminal 403 .

S2001において、I/F部402は、保存装置401に格納された映像ファイルのヘッダデータから、ボックスmeta203のデータ(すなわち、メタ情報)を映像ファイル単位で取得する。取得したデータは、メタ情報比較部404に入力される。 In S<b>2001 , the I/F unit 402 acquires the data of the box meta 203 (that is, meta information) from the header data of the video file stored in the storage device 401 for each video file. The acquired data is input to the meta information comparison unit 404 .

S2002において、メタ情報比較部404は、I/F部402から入力されたメタ情報と端末403から取得したキーワード(すなわち、検索条件)を比較する。メタ情報比較部404は、キーワードに合致するメタ情報がある場合、ファイル選択部405に当該メタ情報を有する映像ファイルの情報を通知する。 In S<b>2002 , the meta information comparison unit 404 compares the meta information input from the I/F unit 402 and the keyword (that is, search condition) acquired from the terminal 403 . If there is meta information that matches the keyword, the meta information comparison unit 404 notifies the file selection unit 405 of the information of the video file having the meta information.

S2003において、ファイル選択部405は、通知された映像ファイルの情報に基づいて仮想視点映像の生成に使用する映像ファイルを選択し、I/F部402を介して保存装置401にアクセスする。保存装置401は、アクセスにしたがって選択された映像ファイルを読出し、I/F部402を介してファイル解析部406に入力する。 In S<b>2003 , the file selection unit 405 selects a video file to be used for generating the virtual viewpoint video based on the notified video file information, and accesses the storage device 401 via the I/F unit 402 . Storage device 401 reads the video file selected according to the access, and inputs it to file analysis section 406 via I/F section 402 .

S2004において、ファイル解析部406は、入力された映像ファイルを解析してメタ情報を分離し、分離したメタ情報をメタ情報バッファ407に格納する。また、ファイル解析部406は、入力された映像ファイルの映像データを仮想視点映像生成部408に入力する。 In S<b>2004 , the file analysis unit 406 analyzes the input video file, separates the meta information, and stores the separated meta information in the meta information buffer 407 . The file analysis unit 406 also inputs the video data of the input video file to the virtual viewpoint video generation unit 408 .

S2005において、メタ情報付与部409は、メタ情報バッファ407に格納された元の映像のメタ情報を読出し、ビットストリームのヘッダに付与する。 In S2005, the meta information adding unit 409 reads out the meta information of the original video stored in the meta information buffer 407 and adds it to the header of the bitstream.

S2006において、仮想視点映像生成部408は、ユーザ等から指定された仮想視点からの映像(すなわち、仮想視点映像)を生成する。 In S2006, the virtual viewpoint video generation unit 408 generates video from a virtual viewpoint designated by the user or the like (that is, virtual viewpoint video).

S2007において、仮想視点映像生成部408は、生成された仮想視点映像を符号化し、ビットストリームに格納する。 In S2007, the virtual viewpoint video generation unit 408 encodes the generated virtual viewpoint video and stores it in a bitstream.

S2008において、映像データの入力が終了したり、端末403から終了の指示が入力されたりした場合に処理を終了する。そうでなければS2006に戻り、次の映像データを処理する。 In S2008, when the input of the video data is completed, or when an end instruction is input from the terminal 403, the processing ends. Otherwise, the process returns to S2006 to process the next video data.

以上説明したように、本実施形態によると、仮想視点映像を共通のビットストリームとして相互利用できるようにして、撮影設定情報、撮影権利情報、撮影対象情報、撮影状況情報のうち少なくとも1つをメタ情報として付与することができる。これにより、仮想視点映像の検索、取得を効率よく行うことができる。また、ビットストリームが仮想視点映像であるか否かの情報を付与することで、仮想視点映像を対象とした検索機能も実現が可能になる。 As described above, according to the present embodiment, virtual viewpoint video can be mutually used as a common bitstream, and at least one of shooting setting information, shooting right information, shooting target information, and shooting situation information is meta-data. It can be given as information. As a result, it is possible to efficiently search and acquire the virtual viewpoint video. Further, by adding information indicating whether or not the bitstream is a virtual viewpoint video, it is possible to realize a search function for virtual viewpoint video.

なお、複数の映像ファイルを保存装置401から読み出して仮想視点映像を生成した場合、各映像ファイルに対応する仮想視点映像にそれぞれのメタ情報を付与しても良いし、複数の映像ファイルのメタ情報をまとめて1つのメタ情報として付与してもよい。 Note that when a plurality of video files are read out from the storage device 401 to generate a virtual viewpoint video, the virtual viewpoint video corresponding to each video file may be provided with respective meta information. may be collectively given as one piece of meta information.

また、第1の実施形態の図6のフローチャートのように、フレーム単位でメタ情報を付与することも可能である。例えば、フレーム単位を表すピクチャのヘッダに映像データが仮想視点映像であるか否かの情報を付与することも可能である。 It is also possible to add meta information in units of frames, as shown in the flow chart of FIG. 6 of the first embodiment. For example, it is possible to add information as to whether or not the video data is the virtual viewpoint video to the header of the picture representing the frame unit.

図9に戻り、本実施形態におけるビットストリーム900は、ピクチャのヘッダ(pic_parameter_set_rbsp()、以下PPS)904を含むことができる。図16は、本実施形態におけるPPS904の構造の一例を示す。 Returning to FIG. 9 , the bitstream 900 in this embodiment can include a picture header (pic_parameter_set_rbsp( ), hereinafter PPS) 904 . FIG. 16 shows an example of the structure of the PPS 904 in this embodiment.

pic_free_viewpoint_info_flag符号は、ピクチャ単位で、仮想視点映像の撮影、生成に関するメタ情報があるか否かを表す。その値が1であれば、pic_free_viewpoint_info()に仮想視点映像の撮影、生成に関するメタ情報が含まれていることを示す。図17~図19は、本実施形態におけるpic_free_viewpoint_info()の詳細を示す。基本的には、図12~図15の内容をフレームごとに設定できるように、フレーム単位で判定が必要なフラグに関してはpic_の接頭詞を付与して、同じ内容を符号化してビットストリームに付与される。これらによってフレーム単位でメタ情報の更新が可能になる。 The pic_free_viewpoint_info_flag code indicates whether or not there is meta information regarding the shooting and generation of the virtual viewpoint video in units of pictures. If the value is 1, it indicates that pic_free_viewpoint_info( ) contains meta-information about shooting and generating a virtual viewpoint video. 17 to 19 show details of pic_free_viewpoint_info( ) in this embodiment. Basically, flags that need to be determined in units of frames are prefixed with pic_ so that the contents of FIGS. 12 to 15 can be set for each frame. be done. These make it possible to update meta information on a frame-by-frame basis.

また、各フレームに付与されるpic_free_viewpoint_info_flag符号を、シーケンスや複数フレームで構成されるチャプタのような単位で纏めてVUI parameterの部分に含めても良い。それにより、シーケンス内の一部が仮想視点映像であった場合、各フレームを復号しなくても当該情報を取得することができる。 Also, the pic_free_viewpoint_info_flag code assigned to each frame may be grouped in units such as a sequence or a chapter composed of a plurality of frames and included in the VUI parameter portion. As a result, when part of the sequence is a virtual viewpoint video, the information can be obtained without decoding each frame.

また、本ビットストリームをボックスmdatに格納してISO BMFFファイルを構成してもよい。 Alternatively, this bitstream may be stored in a box mdat to form an ISO BMFF file.

(第3の実施形態)
本実施形態では、メタ情報によるビットストリームの検索を行い、検索結果を表示する画像処理装置について説明する。
(Third embodiment)
In this embodiment, an image processing apparatus that searches for a bitstream using meta information and displays the search result will be described.

図21は、本実施形態における画像処理装置500を含むシステムの構成例を示す。画像処理装置500は、外部の保存装置550、及び保存装置551に接続されている。保存装置550は、例えば、第2の実施形態の図8に記載されている保存装置401と同じように、仮想視点映像を生成するために必要な映像ファイルを格納している。保存装置551は、例えば、第2の実施形態の図8に記載されている保存部411と同じように、仮想視点映像の映像ファイルやビットストリームを格納している。本実施形態では、保存装置550に格納された映像ファイルから生成された仮想視点映像を、H.265符号化方式で符号化したビットストリームを例にとって説明する。 FIG. 21 shows a configuration example of a system including an image processing apparatus 500 according to this embodiment. The image processing apparatus 500 is connected to external storage devices 550 and 551 . The storage device 550, for example, stores video files necessary for generating a virtual viewpoint video, like the storage device 401 shown in FIG. 8 of the second embodiment. The storage device 551 stores video files and bitstreams of virtual viewpoint video, for example, in the same way as the storage unit 411 shown in FIG. 8 of the second embodiment. In this embodiment, the virtual viewpoint video generated from the video file stored in the storage device 550 is stored in H.264. A bit stream encoded by H.265 encoding will be described as an example.

画像処理装置500は、インターフェース(I/F)部502、メタ情報比較部505、データ選択部506、ビットストリーム解析部507、メタ情報バッファ508、復号部509、表示部520を有する。画像処理装置500は、保存装置550から所望の映像ファイルを読出し、表示を行うとともに、別途、仮想視点映像を表示する。 The image processing apparatus 500 has an interface (I/F) section 502 , a meta information comparison section 505 , a data selection section 506 , a bitstream analysis section 507 , a meta information buffer 508 , a decoding section 509 and a display section 520 . The image processing device 500 reads a desired video file from the storage device 550 and displays it, and also displays a virtual viewpoint video separately.

端末503は、ユーザから、仮想視点映像のビットストリームに関する検索条件(例えば、キーワード)の入力を受け付け、メタ情報比較部505に出力する。 The terminal 503 receives an input of a search condition (for example, a keyword) regarding the bitstream of the virtual viewpoint video from the user, and outputs it to the meta-information comparison unit 505 .

端末503から検索の開始が発せられると、I/F部502は保存装置551から、ビットストリームのヘッダ情報とメタ情報を読出し、メタ情報比較部505に入力する。さらに、本実施形態で生成されていない他のH.265符号化方式で符号化されたビットストリームも含まれるものとする。 When the terminal 503 issues a command to start searching, the I/F unit 502 reads the bitstream header information and meta information from the storage device 551 and inputs them to the meta information comparison unit 505 . In addition, other H.265 not generated in this embodiment. It is assumed that bitstreams encoded by the H.265 encoding scheme are also included.

メタ情報比較部505は、I/F部502から入力されたメタ情報と、端末503から入力されたキーワードを比較する。メタ情報比較部505は、端末503から入力されたキーワードに合致するメタ情報が存在する場合、データ選択部506に、当該メタ情報を有するビットストリームの情報、例えば、データパスやビットストリーム名を通知する。 Meta information comparison section 505 compares the meta information input from I/F section 502 and the keyword input from terminal 503 . If there is meta information that matches the keyword input from the terminal 503, the meta information comparison unit 505 notifies the data selection unit 506 of the information of the bit stream having the meta information, such as the data path and bit stream name. do.

データ選択部506は、通知されたビットストリームの情報に基づいて、表示するビットストリームを選択し、I/F部502を介して保存装置551にアクセスする。保存装置551は、アクセスにしたがって目的のビットストリームを読出す。読み出されたビットストリームはI/F部502を介して、ビットストリーム解析部507に入力される。 The data selection unit 506 selects a bitstream to be displayed based on the notified bitstream information, and accesses the storage device 551 via the I/F unit 502 . The storage device 551 reads the target bitstream according to the access. The read bitstream is input to the bitstream analysis unit 507 via the I/F unit 502 .

ビットストリーム解析部507は、入力されたビットストリームのヘッダを復号して解析し、ヘッダからメタ情報を分離して、メタ情報バッファ508に格納する。また、ビットストリーム解析部507は、映像データのビットストリームを復号部509に入力する。復号部509は、入力されたビットストリームを復号して、表示部520に入力する。また、復号部509は、選択されたビットストリームが複数存在する場合はそれぞれのビットストリームを復号し、表示部520に入力する。表示部520は、復号された1または複数のビットストリームを表示する。 The bitstream analysis unit 507 decodes and analyzes the header of the input bitstream, separates the meta information from the header, and stores it in the meta information buffer 508 . The bitstream analysis unit 507 also inputs the bitstream of the video data to the decoding unit 509 . The decoding unit 509 decodes the input bitstream and inputs it to the display unit 520 . Also, if there are a plurality of selected bitstreams, the decoding unit 509 decodes each bitstream and inputs it to the display unit 520 . A display unit 520 displays one or more decoded bitstreams.

また、ビットストリーム解析部507は、分離したメタ情報から当該映像データが仮想視点映像であることが判明した場合、これを表示部520に通知する。表示部520は通知に応じて、表示されている映像が仮想視点映像であることを表示する。 Further, when the video data is found to be a virtual viewpoint video from the separated meta information, the bitstream analysis unit 507 notifies the display unit 520 of this. In response to the notification, display unit 520 displays that the displayed video is the virtual viewpoint video.

図22は、本実施形態における表示部520の表示画面を示す。表示画面600において、ユーザは端末503を用いて、検索条件となるキーワードをキーワードウィンドウ603a~cに入力し、検索ボタン604を押下して映像(ビットストリーム)の検索を行う。 FIG. 22 shows the display screen of the display unit 520 in this embodiment. On the display screen 600, the user uses the terminal 503 to input keywords as search conditions into keyword windows 603a to 603c, and presses a search button 604 to search for video (bitstream).

表示部520は、検索結果として選択された複数の映像601a~dを、候補ウィンドウ602に表示する。さらに、表示部520は、候補ウィンドウ602に表示されている複数の映像の中から、ユーザが端末503を用いて選択した1つの映像を、表示ウィンドウ605に表示する。表示ウィンドウ605は表示バー606を有する。表示バー606は、フレーム単位で当該映像が仮想視点映像である部分を太線で示す。映像が仮想視点映像であるか否かは、ストリーム単位ではVUI Parameters902のfree_viewpoint_video_flag符号の有無や、SEI_message903を参照することで判断することができる。また、フレーム単位ではPPS904のpic_free_viewpoint_info_flag符号の値で判断することができる。 Display unit 520 displays a plurality of videos 601a to 601d selected as search results in candidate window 602. FIG. Furthermore, the display unit 520 displays on the display window 605 one image selected by the user using the terminal 503 from among the plurality of images displayed on the candidate window 602 . Display window 605 has a display bar 606 . The display bar 606 indicates, in units of frames, the part where the video is the virtual viewpoint video with a thick line. Whether or not a video is a virtual viewpoint video can be determined in units of streams by referring to the presence or absence of the free_viewpoint_video_flag code of the VUI Parameters 902 and SEI_message 903 . In addition, it can be determined by the value of the pic_free_viewpoint_info_flag code of the PPS 904 in frame units.

映像のうち、仮想視点映像である部分が再生される場合、表示部520は表示ウィンドウ605に、表示されている映像が仮想視点映像であることを示すマーカ607を表示する。マーカ607は、候補ウィンドウ602において、複数の映像601a~dのうち、仮想視点映像を含むものに表示してもよい。 When a portion of the video that is the virtual viewpoint video is reproduced, the display unit 520 displays a marker 607 on the display window 605 indicating that the video being displayed is the virtual viewpoint video. The marker 607 may be displayed in the candidate window 602 on one of the plurality of images 601a-d that includes the virtual viewpoint image.

以上説明したように、本実施形態における画像処理装置500は、メタ情報によるビットストリームの検索を行い、検索結果を表示することができる。 As described above, the image processing apparatus 500 according to the present embodiment can search bitstreams using meta information and display the search results.

また、本実施形態における画像処理装置500を含むシステムでは、検索結果として表示中の映像について、ユーザの指示に応じて再度、メタ情報を用いて仮想視点映像の生成を行うことができる。データ選択部506は、仮想視点映像を再生成する映像データに対応するメタ情報を、メタ情報バッファ508から読み出す。データ選択部506は、ビットストリームのfree_viewpoint_original_video_info_flag符号の値を参照し、本ビットストリームの仮想視点映像を生成した素材となる映像データが存在するか判定する。上述したように、free_viewpoint_original_video_info_flag符号の値が1であれば、素材となる映像データが存在することを示し、0であれば、素材となる映像データが無いか、あるいはアクセスできないことを示す。映像データが存在する場合、free_viewpoint_original_video_info_flag符号やpic_free_viewpoint_original_video_info符号を参照して、映像データの保存場所を特定する。 In addition, in the system including the image processing device 500 according to the present embodiment, it is possible to generate a virtual viewpoint video again using meta information in accordance with a user's instruction for video being displayed as a search result. The data selection unit 506 reads from the meta information buffer 508 the meta information corresponding to the video data for regenerating the virtual viewpoint video. The data selection unit 506 refers to the value of the free_viewpoint_original_video_info_flag code of the bitstream, and determines whether or not there is video data that is the material for generating the virtual viewpoint video of this bitstream. As described above, if the value of the free_viewpoint_original_video_info_flag code is 1, it indicates that the material video data exists, and if it is 0, it indicates that the material video data does not exist or cannot be accessed. If video data exists, the free_viewpoint_original_video_info_flag code and pic_free_viewpoint_original_video_info code are referred to specify the storage location of the video data.

データ選択部506は、I/F部502を介して保存装置550の特定された保存場所にアクセスし、仮想視点映像を生成した素材となる映像データを読出し、画像処理装置400に入力する。画像処理装置400は、入力された映像データを使用して仮想視点映像を再生成し、I/F部502を介して画像処理装置500に入力する。すなわち、画像処理装置400は、図8のI/F部402を介して入力された映像データを使用して、仮想視点映像を再生成する。また、画像処理装置400は、生成した仮想視点映像のビットストリームを出力部410を介して、図21のI/F部502に入力する。画像処理装置500は、入力されたビットストリームをビットストリーム解析部507、復号部509によって処理し、表示部520に表示する。 The data selection unit 506 accesses the specified storage location of the storage device 550 via the I/F unit 502 , reads the video data that is the material for generating the virtual viewpoint video, and inputs it to the image processing device 400 . The image processing device 400 regenerates the virtual viewpoint video using the input video data and inputs it to the image processing device 500 via the I/F unit 502 . That is, the image processing device 400 regenerates the virtual viewpoint video using the video data input via the I/F unit 402 in FIG. The image processing device 400 also inputs the generated bitstream of the virtual viewpoint video to the I/F unit 502 in FIG. 21 via the output unit 410 . The image processing apparatus 500 processes the input bitstream by the bitstream analysis unit 507 and the decoding unit 509 and displays it on the display unit 520 .

なお、上記実施形態では、画像処理装置500が、素材となる映像データを取得して画像処理装置400に入力したが、画像処理装置500は、画像処理装置400に映像データの保存場所を通知するだけでもよい。その場合、画像処理装置400が当該保存場所に保存された映像データを取得して、仮想視点映像を再生成することができる。 In the above embodiment, the image processing device 500 acquires the video data as the material and inputs it to the image processing device 400, but the image processing device 500 notifies the image processing device 400 of the storage location of the video data. It's okay to be alone. In that case, the image processing device 400 can acquire the video data stored in the storage location and regenerate the virtual viewpoint video.

このように、本実施形態における画像処理装置500を含むシステムでは、検索結果として表示中の映像について、仮想視点映像を再生成することができる。 As described above, in the system including the image processing device 500 according to the present embodiment, it is possible to regenerate the virtual viewpoint video for the video being displayed as the search result.

以上説明したように、本実施形態によると、仮想視点映像を共通のビットストリームとして利用できるようにして、付与された撮影設定情報、撮影権利情報、撮影対象情報、撮影状況情報、生成設定情報のうち少なくとも1つを検索に用いることができる。これにより、メタ情報による仮想視点映像のビットストリームの検索を効率よく行うことができる。また、本実施形態によると、検索結果として表示中の映像について、再度、仮想視点映像を生成することができる。 As described above, according to the present embodiment, the virtual viewpoint video can be used as a common bitstream, and the attached shooting setting information, shooting right information, shooting target information, shooting situation information, and generation setting information are provided. At least one of them can be used for searching. As a result, it is possible to efficiently search the bitstream of the virtual viewpoint video using the meta information. Further, according to the present embodiment, it is possible to generate a virtual viewpoint video again for the video being displayed as a search result.

図23は、上記各実施形態に係る画像処理装置に適用可能なコンピュータのハードウェアの構成例を示すブロック図である。 FIG. 23 is a block diagram showing a configuration example of computer hardware applicable to the image processing apparatus according to each of the above embodiments.

CPU801は、RAM802やROM803に格納されているコンピュータプログラムやデータを用いてコンピュータ全体の制御を行うと共に、上記各実施形態に係る画像処理装置の各処理を実行する。即ち、CPU801は、上述した画像処理装置の各処理部として機能する。 The CPU 801 controls the entire computer using computer programs and data stored in the RAM 802 and ROM 803, and executes each process of the image processing apparatus according to each of the above embodiments. That is, the CPU 801 functions as each processing unit of the image processing apparatus described above.

RAM802は、外部記憶装置806からロードされたコンピュータプログラムやデータ、I/F(インターフェース)807を介して外部から取得したデータなどを一時的に記憶するためのエリアを有する。更に、RAM802は、CPU801が各種の処理を実行する際に用いるワークエリアを有する。即ち、RAM802は、例えば、画像データを記憶するためのフレームメモリとして割り当てたり、その他の各種のエリアを適宜提供したりすることができる。 The RAM 802 has an area for temporarily storing computer programs and data loaded from an external storage device 806, data externally acquired via an I/F (interface) 807, and the like. Furthermore, the RAM 802 has a work area used when the CPU 801 executes various processes. That is, the RAM 802 can be allocated as, for example, a frame memory for storing image data, or can provide various other areas as appropriate.

ROM803は、コンピュータの設定データや、ブートプログラムなどを格納している。操作部804は、キーボードやマウスなどを含む。ユーザは、操作部804を用いて、各種の指示をコンピュータに入力することができる。出力部805は、CPU801による処理結果を表示する。出力部805は、例えば液晶ディスプレイとすることができる。 A ROM 803 stores computer setting data, a boot program, and the like. An operation unit 804 includes a keyboard, mouse, and the like. The user can use the operation unit 804 to input various instructions to the computer. An output unit 805 displays the results of processing by the CPU 801 . The output unit 805 can be, for example, a liquid crystal display.

外部記憶装置806は、ハードディスクドライブ装置に代表される、大容量情報記憶装置である。外部記憶装置806は、OS(オペレーティングシステム)や、上述した画像処理装置の各処理部の機能をCPU801に実現させるためのコンピュータプログラムを保存している。更に、外部記憶装置806は、処理対象としての画像データを保存しても良い。 The external storage device 806 is a large-capacity information storage device typified by a hard disk drive device. An external storage device 806 stores an OS (operating system) and a computer program for causing the CPU 801 to implement the functions of the processing units of the image processing apparatus described above. Furthermore, the external storage device 806 may store image data to be processed.

外部記憶装置806に保存されているコンピュータプログラムやデータは、CPU801による制御に従って適宜、RAM802にロードされ、CPU801によって処理される。I/F807は、LANやインターネット等のネットワーク、投影装置や表示装置などの他の機器と接続するために使用される。コンピュータは、I/F807を介して様々な情報を取得したり、送出したりすることができる。バス808は、上述したコンピュータの各構成要素を相互に通信可能に接続する。 Computer programs and data stored in the external storage device 806 are appropriately loaded into the RAM 802 under the control of the CPU 801 and processed by the CPU 801 . The I/F 807 is used to connect to networks such as LANs and the Internet, and other devices such as projectors and display devices. A computer can acquire and transmit various information through the I/F 807 . A bus 808 communicatively connects the components of the computer described above.

(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other embodiments)
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or device via a network or a storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.

また、上述した実施形態で説明したメタ情報を示す符号をデータ名として利用してもよい。例えば、ファイル名を、いくつかのメタ情報を「_」で結んだ名称に統一することで、データの検索を行うことができる。例えば、データ名として用いるメタ情報は、filming_date_time_code、convention_name、event_name、stage_name、free_viewpoint_filming_info_code等である。 Also, the code indicating the meta information described in the above embodiment may be used as the data name. For example, data can be searched by standardizing the file name to a name in which some pieces of meta information are connected with "_". For example, meta information used as data names includes filming_date_time_code, convention_name, event_name, stage_name, free_viewpoint_filming_info_code, and the like.

100 画像処理装置
101a~101z カメラ
102 入力部
103 環境情報取得部
104 端末
105 ファイル生成部
106 メタ情報付与部
107 出力部
108 保存部
100 Image processing devices 101a to 101z Camera 102 Input unit 103 Environmental information acquisition unit 104 Terminal 105 File generation unit 106 Meta information addition unit 107 Output unit 108 Storage unit

Claims (19)

数の撮影装置により取得される複数の撮影画像のうち少なくとも一つに基づく画像データであって、仮想視点画像の生成に使用される画像データを取得する取得手段と、
撮影設定情報、撮影状況情報、撮影対象情報、及び、撮影権利情報のうち少なくとも1つを、所定の情報として、前記取得手段により取得される画像データに付加する付加手段と
有することを特徴とする画像処理装置。
acquisition means for acquiring image data based on at least one of a plurality of photographed images acquired by a plurality of photographing devices , the image data being used for generating a virtual viewpoint image ;
addition means for adding , as predetermined information, at least one of shooting setting information, shooting situation information, shooting target information, and shooting right information to the image data acquired by the acquisition means. An image processing apparatus characterized by:
前記付加手段は、前記所定の情報を、前記取得手段により取得される画像データに含まれる複数のフレームのそれぞれに付加することを特徴とする請求項1に記載の画像処理装置。 2. The image processing apparatus according to claim 1, wherein said adding means adds said predetermined information to each of a plurality of frames included in the image data acquired by said acquiring means. 前記付加手段は、前記所定の情報を、前記取得手段により取得される画像データに基づいて生成される複数の次元モデルのそれぞれ付加することを特徴とする請求項1または2に記載の画像処理装置。 3. The apparatus according to claim 1 , wherein said adding means adds said predetermined information to each of a plurality of three -dimensional models generated based on image data acquired by said acquiring means. image processing device. 前記付加手段により前記所定の情報が付加された前記画像データを出力する出力手段を有することを特徴とする請求項1乃至3のいずれか1項に記載の画像処理装置。4. The image processing apparatus according to claim 1, further comprising output means for outputting said image data to which said predetermined information is added by said adding means. 前記画像データを検索するための検索条件を受け付ける受付手段を有し
前記出力手段は、前記受付手段により受け付けられた検索条件に対応する前記所定の情報が付加された前記画像データを出力する
ことを特徴とする請求項4に記載の画像処理装置。
a receiving means for receiving search conditions for searching the image data;
The output means outputs the image data to which the predetermined information corresponding to the search condition received by the receiving means is added.
5. The image processing apparatus according to claim 4, wherein:
複数の撮影装置により取得される複数の撮影画像のうち少なくとも一つに基づく画像データであって、所定の情報として、撮影設定情報、撮影状況情報、撮影対象情報、及び、撮影権利情報のうち少なくとも1つが関連付けられた画像データを取得する取得手段と、
前記取得手段により取得される画像データに基づいて、仮想視点画像データを生成する生成手段と、
前記生成手段により生成される仮想視点画像データに関連付けられた前記所定の情報を、前記生成手段により生成される仮想視点画像データに付加する付加手段と
有することを特徴とする画像処理装置。
Image data based on at least one of a plurality of photographed images acquired by a plurality of photographing devices , wherein predetermined information includes photographing setting information, photographing situation information, photographing target information, and photographing right information. acquisition means for acquiring image data associated with at least one of
generating means for generating virtual viewpoint image data based on the image data acquired by the acquiring means;
adding means for adding the predetermined information associated with the virtual viewpoint image data generated by the generating means to the virtual viewpoint image data generated by the generating means;
An image processing device comprising:
前記付加手段により前記所定の情報が付加された前記仮想視点画像データを出力する出力手段を有することを特徴とする請求項6に記載の画像処理装置。7. The image processing apparatus according to claim 6, further comprising output means for outputting the virtual viewpoint image data to which the predetermined information is added by the adding means. 前記仮想視点画像データを検索するための検索条件を受け付ける受付手段を有し、a receiving means for receiving a search condition for searching the virtual viewpoint image data;
前記出力手段は、前記受付手段により受け付けられた検索条件に対応する前記所定の情報が付加された前記仮想視点画像データを出力するThe output means outputs the virtual viewpoint image data to which the predetermined information corresponding to the search condition received by the receiving means is added.
ことを特徴とする請求項7に記載の画像処理装置。8. The image processing apparatus according to claim 7, characterized by:
前記撮影設定情報は、撮影場所を特定する情報、撮影日時を特定する情報、イベントを特定する情報及び、撮影装置を特定する情報のうち少なくとも1つを含むことを特徴とする請求項1乃至のいずれか1項に記載の画像処理装置。 3. The shooting setting information includes at least one of information specifying a shooting location , information specifying a shooting date and time, information specifying an event, and information specifying a shooting device. 9. The image processing device according to any one of 8 . 前記撮影装置を特定する情報は、撮影装置の注点の位置を特定するための情報撮影装置のを特定するための情報撮影装置の位置を特定するための情報撮影装置の姿勢を特定するための情報及び、前記複数の撮影装置それぞれの焦点距離を特定するための情報うち少なくとも1つを含むことを特徴とする請求項に記載の画像処理装置。 The information for specifying the photographing device includes information for specifying the position of the point of interest of the photographing device , information for specifying the number of photographing devices, information for specifying the position of the photographing device , and the orientation of the photographing device. 10. The image processing apparatus according to claim 9 , comprising at least one of information for specifying the focal length of each of said plurality of photographing devices. 前記撮影状況情報は、前記複数の撮影装置により撮影が行われる間の気象に関する情報を含むことを特徴とする請求項1乃至10のいずれか1項に記載の画像処理装置。 11. The image processing apparatus according to any one of claims 1 to 10 , wherein said photographing situation information includes information regarding weather during photographing by said plurality of photographing devices. 前記撮影対象情報は、前記複数の撮影装置により撮影される対象の名称を特定するための情報及び、前記複数の撮影装置により撮影される対象群の名称を特定するための情報うち少なくとも1つを含むことを特徴とする請求項1乃至11のいずれか1項に記載の画像処理装置。 The imaging target information is at least one of information for specifying the name of an object to be imaged by the plurality of imaging devices and information for specifying the name of a group of subjects to be imaged by the plurality of imaging devices. 12. The image processing apparatus according to any one of claims 1 to 11 , comprising: 前記撮影権利情報は、撮影に関する権利者に関する情報、及び、撮影に基づいて取得されるデータに関する権利者に関する情報のうち少なくとも1つを含むことを特徴とする請求項1乃至12のいずれか1項に記載の画像処理装置。 13. The photographing right information includes at least one of information regarding a right holder regarding photographing and information regarding a right holder regarding data acquired based on photographing . The image processing device according to . 前記付加手段は、ISO BMFFのフォーマットに基づいて、前記所定の情報を付加することを特徴とする請求項1乃至13のいずれか1項に記載の画像処理装置。 Said adding meansis the ISO BMFFAdd the predetermined information based on the format ofClaims 1 to13The image processing device according to any one of . 前記付加手段は、Exifのフォーマットに基づいて、前記所定の情報を付加することを特徴とする請求項1乃至14のいずれか1項に記載の画像処理装置。 15. The image processing apparatus according to claim 1 , wherein said adding means adds said predetermined information based on an Exif format . 前記付加手段は、H.265符号化方式に基づくビットストリームに対して、前記所定の情報を付加することを特徴とする請求項1乃至15のいずれか1項に記載の画像処理装置。 The adding means is H.264. 16. The image processing apparatus according to any one of claims 1 to 15 , wherein the predetermined information is added to a bitstream based on the H.265 coding system. の撮影装置により取得される複数の撮影画像のうち少なくとも一つに基づく画像データであって、仮想視点画像の生成に使用される画像データを取得する取得工程と、
撮影設定情報、撮影状況情報、撮影対象情報、及び、撮影権利情報のうち少なくとも1つを、所定の情報として前記取得工程において取得される画像データ付加する付加工程と
有することを特徴とする画像処理方法。
an obtaining step of obtaining image data based on at least one of a plurality of photographed images obtained by a plurality of photographing devices , the image data being used for generating a virtual viewpoint image ;
and an adding step of adding at least one of shooting setting information, shooting situation information, shooting target information, and shooting right information as predetermined information to the image data acquired in the acquisition step. image processing method.
複数の撮影装置により取得される複数の撮影画像のうち少なくとも一つに基づく画像データであって、所定の情報として、撮影設定情報、撮影状況情報、撮影対象情報、及び、撮影権利情報のうち少なくとも1つが関連付けられた画像データを取得する取得工程と、
前記取得工程において取得される画像データに基づいて、仮想視点画像データを生成する生成工程と、
前記生成工程において生成される仮想視点画像データに関連付けられた前記所定の情報を、前記生成工程において生成される仮想視点画像データに付加する付加工程と
有することを特徴とする画像処理方法。
image data based on at least one of a plurality of photographed images acquired by a plurality of photographing devices, wherein predetermined information includes at least photographing setting information, photographing situation information, photographing target information, and photographing right information; an obtaining step of obtaining image data with which one is associated;
a generation step of generating virtual viewpoint image data based on the image data acquired in the acquisition step;
and an adding step of adding the predetermined information associated with the virtual viewpoint image data generated in the generating step to the virtual viewpoint image data generated in the generating step. Processing method.
コンピュータを、請求項1乃至16のいずれか1項に記載の画像処理装置として機能させるためのプログラム。 A program for causing a computer to function as the image processing apparatus according to any one of claims 1 to 16 .
JP2018172675A 2018-09-14 2018-09-14 Image processing device, image processing method, and program Active JP7199886B2 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018172675A JP7199886B2 (en) 2018-09-14 2018-09-14 Image processing device, image processing method, and program
PCT/JP2019/028014 WO2020054212A1 (en) 2018-09-14 2019-07-17 Image processing device, image processing method, and program
US17/194,728 US20210203905A1 (en) 2018-09-14 2021-03-08 Image processing apparatus, image processing method, and storage medium
JP2022205952A JP2023033322A (en) 2018-09-14 2022-12-22 Image processing apparatus, image processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018172675A JP7199886B2 (en) 2018-09-14 2018-09-14 Image processing device, image processing method, and program

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022205952A Division JP2023033322A (en) 2018-09-14 2022-12-22 Image processing apparatus, image processing method, and program

Publications (3)

Publication Number Publication Date
JP2020047991A JP2020047991A (en) 2020-03-26
JP2020047991A5 JP2020047991A5 (en) 2021-10-28
JP7199886B2 true JP7199886B2 (en) 2023-01-06

Family

ID=69777113

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018172675A Active JP7199886B2 (en) 2018-09-14 2018-09-14 Image processing device, image processing method, and program
JP2022205952A Pending JP2023033322A (en) 2018-09-14 2022-12-22 Image processing apparatus, image processing method, and program

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022205952A Pending JP2023033322A (en) 2018-09-14 2022-12-22 Image processing apparatus, image processing method, and program

Country Status (3)

Country Link
US (1) US20210203905A1 (en)
JP (2) JP7199886B2 (en)
WO (1) WO2020054212A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010109783A (en) 2008-10-31 2010-05-13 Casio Computer Co Ltd Electronic camera
WO2015037472A1 (en) 2013-09-11 2015-03-19 ソニー株式会社 Image processing device and method
JP2017200200A (en) 2012-04-27 2017-11-02 パナソニックIpマネジメント株式会社 Content reproduction method, content reproduction device, and content reproduction program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4937043B2 (en) * 2007-08-28 2012-05-23 株式会社東芝 Video search system and video search device
JPWO2015037473A1 (en) * 2013-09-11 2017-03-02 ソニー株式会社 Image processing apparatus and method
EP3266104A4 (en) * 2015-03-03 2018-12-19 Openhd Pty Ltd A system, content editing server, audio recording slave device and content editing interface for distributed live performance scheduled audio recording, cloud-based audio content editing and online content distribution of audio track and associated metadata
US20170134162A1 (en) * 2015-11-10 2017-05-11 Shannon Code System and process for verifying digital media content authenticity

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010109783A (en) 2008-10-31 2010-05-13 Casio Computer Co Ltd Electronic camera
JP2017200200A (en) 2012-04-27 2017-11-02 パナソニックIpマネジメント株式会社 Content reproduction method, content reproduction device, and content reproduction program
WO2015037472A1 (en) 2013-09-11 2015-03-19 ソニー株式会社 Image processing device and method

Also Published As

Publication number Publication date
US20210203905A1 (en) 2021-07-01
WO2020054212A1 (en) 2020-03-19
JP2023033322A (en) 2023-03-10
JP2020047991A (en) 2020-03-26

Similar Documents

Publication Publication Date Title
US6559846B1 (en) System and process for viewing panoramic video
JP6960528B2 (en) Methods, devices, and computer programs for generating and processing media content
JP6309749B2 (en) Image data reproducing apparatus and image data generating apparatus
JP2022133439A (en) Method and device for transmitting media content, and computer program
US20120128058A1 (en) Method and system of encoding and decoding media content
US20160029091A1 (en) Method of displaying a region of interest in a video stream
KR20190008901A (en) Method, device, and computer program product for improving streaming of virtual reality media content
JP2007082088A (en) Contents and meta data recording and reproducing device and contents processing device and program
US20080018503A1 (en) Method and apparatus for encoding/playing multimedia contents
US10931930B2 (en) Methods and apparatus for immersive media content overlays
CN113115110B (en) Video synthesis method and device, storage medium and electronic equipment
CN113949829B (en) Media file encapsulation and decapsulation method, device, equipment and storage medium
KR101843025B1 (en) System and Method for Video Editing Based on Camera Movement
US20220182576A1 (en) File generation device, file generation method, file reproduction device, file reproduction method, and program
JP7199886B2 (en) Image processing device, image processing method, and program
CN112153472A (en) Method and device for generating special picture effect, storage medium and electronic equipment
JP5401103B2 (en) Video information management apparatus and method
Chen et al. Simplified carriage of MPEG immersive video in HEVC bitstream
US20210382931A1 (en) Information processing apparatus, control method of information processing apparatus, and non-transitory computer-readable storage medium
CN114556962B (en) Multi-view video processing method and device
JP2008072572A (en) Content photographing apparatus
KR20220103109A (en) File Handling Devices and File Handling Methods
US20170287521A1 (en) Methods, circuits, devices, systems and associated computer executable code for composing composite content
JP2014030267A (en) Imaging apparatus
JP2019220847A (en) File generation device, file generation method, processing device, processing method, and program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210914

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221221

R151 Written notification of patent or utility model registration

Ref document number: 7199886

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151