JP7471731B2 - メディアファイルのカプセル化方法、メディアファイルのカプセル化解除方法及び関連機器 - Google Patents

メディアファイルのカプセル化方法、メディアファイルのカプセル化解除方法及び関連機器 Download PDF

Info

Publication number
JP7471731B2
JP7471731B2 JP2022561600A JP2022561600A JP7471731B2 JP 7471731 B2 JP7471731 B2 JP 7471731B2 JP 2022561600 A JP2022561600 A JP 2022561600A JP 2022561600 A JP2022561600 A JP 2022561600A JP 7471731 B2 JP7471731 B2 JP 7471731B2
Authority
JP
Japan
Prior art keywords
file
application scene
media
media stream
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022561600A
Other languages
English (en)
Other versions
JP2023520736A (ja
Inventor
▲穎▼ 胡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2023520736A publication Critical patent/JP2023520736A/ja
Application granted granted Critical
Publication of JP7471731B2 publication Critical patent/JP7471731B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/612Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/765Media network packet handling intermediate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23605Creation or processing of packetized elementary streams [PES]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2212/00Encapsulation of packets
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本願はデータ処理の技術分野に関し、具体的にメディアファイルのカプセル化及びカプセル化解除の技術に関する。
本願は、2020年10月14日に中国特許局に提出された、出願番号が第2020110981907号であり、出願の名称が「メディアファイルのカプセル化方法、メディアファイルのカプセル化解除方法及び関連機器」である中国特許出願の優先権を主張し、その全内容が引用により本願に組み込まれている。
没入型メディア(Immersive Media)とは、ユーザーに没入型体験をもたらすことができるメディアコンテンツを指し、イマーシブメディアとも呼ばれてもよい。広義に言えば、オーディオビデオ技術によってユーザーに没入感を生じさせるメディアコンテンツである限り、没入型メディアに属する。例えば、ユーザーがVR(Virtual Reality、仮想現実)ヘルメットを着用すると、現場への強い没入感が生まれるようになる。
没入型メディアの応用形式は様々であり、ユーザー側は異なる応用シーンの没入型メディアに対してカプセル化解除、復号及びレンダリングを行うときに、必要な操作ステップ及び処理能力はそれぞれ異なる。一方、現状では、関連技術は没入型メディアと対応する応用シーンを効果的に区別できず、これはユーザー側による没入型メディアに対する処理の困難性を増加させてしまう。
本願の実施例はメディアファイルのカプセル化方法、メディアファイルのカプセル化解除方法、メディアファイルのカプセル化装置、メディアファイルのカプセル化解除装置、電子機器及びコンピュータ可読記憶媒体を提供し、メディアファイルのカプセル化において異なる応用シーンを区別することができる。
本願の実施例はメディアファイルのカプセル化方法を提供し、電子機器により実行され、前記方法は、ターゲットメディアコンテンツの当該ターゲットメディアコンテンツに対応する応用シーン下でのメディアストリームを取得するステップと、前記メディアストリームをカプセル化し、前記メディアストリームのカプセル化ファイルを生成するステップであって、前記カプセル化ファイルには第1応用シーンタイプフィールドが含まれ、前記第1応用シーンタイプフィールドは前記メディアストリームに対応する応用シーンを指示することに用いられる、ステップと、前記カプセル化ファイルを第1機器に送信することにより前記第1機器は前記第1応用シーンタイプフィールドに基づき前記メディアストリームに対応する応用シーンを決定し、且つ前記メディアストリームに対応する応用シーンに基づき前記メディアストリームの復号方式及びレンダリング方式のうちの少なくとも一種を決定するステップと、を含む。
本願の実施例はメディアファイルのカプセル化解除方法を提供し、電子機器により実行され、前記方法は、ターゲットメディアコンテンツの当該ターゲットメディアコンテンツに対応する応用シーン下でのメディアストリームのカプセル化ファイルを受信するステップであって、前記カプセル化ファイルには第1応用シーンタイプフィールドが含まれ、前記第1応用シーンタイプフィールドは前記メディアストリームに対応する応用シーンを示すことに用いられる、ステップと、前記カプセル化ファイルをカプセル化解除し、前記第1応用シーンタイプフィールドを獲得するステップと、前記第1応用シーンタイプフィールドに基づき、前記メディアストリームに対応する応用シーンを決定するステップと、前記メディアストリームに対応する応用シーンに基づき、前記メディアストリームの復号方式及びレンダリング方式のうちの少なくとも一種を決定するステップと、を含む。
本願の実施例はメディアファイルのカプセル化装置を提供し、前記装置は、ターゲットメディアコンテンツの当該ターゲットメディアコンテンツに対応する応用シーン下でのメディアストリームを取得することに用いられるメディアストリーム取得ユニットと、前記メディアストリームをカプセル化し、前記メディアストリームのカプセル化ファイルを生成することに用いられるメディアストリームカプセル化ユニットであって、前記カプセル化ファイルには第1応用シーンタイプフィールドが含まれ、前記第1応用シーンタイプフィールドは前記メディアストリームに対応する応用シーンを示すことに用いられる、メディアストリームカプセル化ユニットと、前記カプセル化ファイルを第1機器に送信することにより前記第1機器は前記第1応用シーンタイプフィールドに基づき前記メディアストリームに対応する応用シーンを決定し、且つ前記メディアストリームに対応する応用シーンに基づき前記メディアストリームの復号方式及びレンダリング方式のうちの少なくとも一種を決定することに用いられるカプセル化ファイル送信ユニットと、を含む。
本願の実施例はメディアファイルのカプセル化解除装置を提供し、前記装置は、ターゲットメディアコンテンツの当該ターゲットメディアコンテンツに対応する応用シーン下でのメディアストリームのカプセル化ファイルを受信することに用いられるカプセル化ファイル受信ユニットであって、前記カプセル化ファイルには第1応用シーンタイプフィールドが含まれ、前記第1応用シーンタイプフィールドは前記メディアストリームに対応する応用シーンを示すことに用いられる、カプセル化ファイル受信ユニットと、前記カプセル化ファイルをカプセル化解除し、前記第1応用シーンタイプフィールドを獲得することに用いられるファイルカプセル化解除ユニットと、前記第1応用シーンタイプフィールドに基づき、前記メディアストリームに対応する応用シーンを決定することに用いられる応用シーン獲得ユニットと、前記メディアストリームに対応する応用シーンに基づき、前記メディアストリームの復号方式及びレンダリング方式のうちの少なくとも一種を決定することに用いられる復号レンダリング決定ユニットと、を含む。
本願の実施例はコンピュータ可読記憶媒体を提供し、それにおいてコンピュータプログラムが記憶されており、前記プログラムがプロセッサにより実行されるときに、上記実施例における前記メディアファイルのカプセル化方法又はメディアファイルのカプセル化解除方法を実現する。
本願の実施例は電子機器を提供し、少なくとも1つのプロセッサと、少なくとも1つのプログラムを記憶するように配置される記憶装置と、を含み、前記少なくとも1つのプログラムが前記少なくとも1つのプロセッサにより実行されるときに、前記少なくとも1つのプロセッサに上記実施例における前記メディアファイルのカプセル化方法又はメディアファイルのカプセル化解除方法を実現させる。
本願の実施例はコンピュータプログラム製品を提供し、命令を含み、それがコンピュータ上で作動されるときに、コンピュータに上記実施例における前記メディアファイルのカプセル化方法又はメディアファイルのカプセル化解除方法を実行させる。
本願のいくつかの実施例が提供する技術的手段において、対応する応用シーン下でのメディアストリームのカプセル化ファイルを生成するときに、カプセル化ファイルにおいて第1応用シーンタイプフィールドを拡張し、該第1応用シーンタイプフィールドによって該メディアストリームに対応する応用シーンを示し、それによってメディアファイルのカプセル化において異なるメディアストリームに対応する応用シーンを区別することを実現する。一方では、該カプセル化ファイルを第1機器に送信するときに、該第1機器は該カプセル化ファイルにおける第1応用シーンタイプフィールドに基づき該メディアストリームの応用シーンを区別でき、それにより該メディアストリームに対応する応用シーンに基づき該メディアストリームに対してどの復号方式又はレンダリング方式を使用するかを決定でき、第1機器の演算能力及びリソースを節約できる。他方では、カプセル化段階でメディアストリームの応用シーンを決定できるため、第1機器がメディアストリームの復号能力を備えていないとしても、該メディアストリームに対応する応用シーンを決定でき、区別できるために該メディアストリームを復号した後まで待つ必要がない。
3自由度の模式図を模式的に示す。 3自由度+の模式図を模式的に示す。 6自由度の模式図を模式的に示す。 本願の一実施例によるメディアファイルのカプセル化方法のフローチャートを模式的に示す。 本願の一実施例によるメディアファイルのカプセル化方法のフローチャートを模式的に示す。 本願の一実施例によるメディアファイルのカプセル化方法のフローチャートを模式的に示す。 本願の一実施例による6自由度メディアの上下スティッチング方式の模式図を模式的に示す。 本願の一実施例による6自由度メディアの左右スティッチング方式の模式図を模式的に示す。 本願の一実施例による6自由度メディアの深度マップの1/4解像度スティッチング方式の模式図を模式的に示す。 本願の一実施例によるメディアファイルのカプセル化方法のフローチャートを模式的に示す。 本願の一実施例によるメディアファイルのカプセル化方法のフローチャートを模式的に示す。 本願の一実施例によるメディアファイルのカプセル化方法のフローチャートを模式的に示す。 本願の一実施例による第1多視点ビデオの上下スティッチング方式の模式図を模式的に示す。 本願の一実施例による第2多視点ビデオの上下スティッチング方式の模式図を模式的に示す。 本願の一実施例によるメディアファイルのカプセル化解除方法のフローチャートを模式的に示す。 本願の一実施例によるメディアファイルのカプセル化装置のブロック図を模式的に示す。 本願の一実施例によるメディアファイルのカプセル化解除装置のブロック図を模式的に示す。 本願の実施例を実現するために適する電子機器の構造模式図を示す。
これから、図面を参照しながら例示的な実施形態をより全面的に記述する。しかしながら、例示的な実施形態は複数種の形式で実施することができ、且つここで述べる例に限定されるものではないと理解すべきである。逆に、これらの実施形態を提供することにより本願はより全面的で完全になり、且つ例示的な実施形態のアイディアを当業者に全面的に伝える。
また、記述される特徴、構造又は特性は何らの適切な方式で1つ又はより多くの実施例と併せてもよい。以下の記述において、多くの具体的な詳細を提供することにより、本願の実施例に対する十分な理解を与える。しかしながら、当業者が意識するように、特定の詳細のうちの1つ又はより多くがなくても本願の技術的手段を実施してもよく、又は他の方法、構成要素、装置、又はステップなどを採用してもよい。他の場合には、公知の方法、装置、実現又は操作を詳細に示さない又は記述しないことで、本願の各態様を曖昧にすることを回避する。
図面に示すブロック図は単に機能エンティティであり、必ずしも物理的に独立したエンティティと互いに対応しない。すなわち、ソフトウェア形式を採用してこれらの機能エンティティを実現し、又は少なくとも1つのハードウェアモジュール又は集積回路においてこれらの機能エンティティを実現し、又は異なるネットワーク及び/又はプロセッサ装置及び/又はマイクロコントローラ装置においてこれらの機能エンティティを実現するようにしてもよい。
図面に示すフローチャートは単に例示的な説明であり、必ずしもすべてのコンテンツ及び操作/ステップを含まず、必ずしも記述される順序に応じて実行されない。例えば、ある操作/ステップはさらに分解されてもよいが、ある操作/ステップは合併又は部分的に合併されてもよく、従って、実際に実行される順序は実際の状況に応じて変更される可能性がある。
まず、本願の実施例に関する用語の一部を説明する。
点群(Point Cloud):点群は空間において不規則に分布し、3次元物体又はシーンの空間構造及び表面属性を表す1組の離散点のセットである。点群とは大量の3次元点の集合を指し、点群のうちの各点は少なくとも3次元位置情報を有し、応用シーンの差異に基づき、色彩(色)、材質又は他の情報(例えば反射率などの付加的属性)を有する可能性もある。通常、点群のうちの各点はいずれも同じ数の付加的属性を有する。例えば、レーザー測定の原理に基づき得られた点群は、3次元座標(XYZ)及びレーザー反射強度(reflectance)を含み、写真測定の原理に基づき得られた点群は、3次元座標(XYZ)及び色情報(RGB、赤緑青)を含み、レーザー測定及び写真測定の原理を併せて得られた点群は、3次元座標(XYZ)、レーザー反射強度(reflectance)及び色情報(RGB)を含む。
ここで、用途に応じて、点群は機械で感知される点群及び人間の目で感知される点群の二種類に大きく分けられてもよい。ここで、機械で感知される点群は、例えば、自律ナビゲーションシステム、リアルタイムパトロールシステム、地理情報システム、視覚ピッキングロボット、又は災害救援ロボットなどのシーンに用いられてもよく、人間の目で感知される点群は、例えば、デジタル文化遺産、自由視点放送、3次元没入通信、又は3次元没入インタラクションなどのシーンに用いられてもよい。
ここで、取得する手法に応じて、点群は静的点群、動的点群及び動的取得点群の三種類に分けられてもよく、第1類の静的点群について、すなわち、物体は静止し、点群を取得する機器も静止し、第2類の動的点群について、物体は運動するが、点群を取得する機器は静止し、第3類の動的取得点群について、点群を取得する機器は運動する。
PCC:Point Cloud Compression、点群圧縮である。点群は大量の点の集合であり、これらの点群データは大量の記憶メモリを消費し得るだけでなく、且つ伝送に不利であり、関連技術では、点群を圧縮せずにネットワーク層で直接伝送することをサポートできる十分な帯域幅がなく、従って点群を圧縮することは非常に必要である。
G-PCC:Geometry-based Point Cloud Compression、幾何学的特徴に基づく点群圧縮である。G-PCCは第1類の静的点群及び第3類の動的取得点群を圧縮することに用いられてもよく、このように獲得する点群メディアは幾何学的特徴に基づいて圧縮された点群メディアと呼ばれてもよく、G-PCC点群メディアと略称される。
V-PCC:Video-based Point Cloud Compression、従来のビデオ符号化に基づく点群圧縮である。V-PCCは第2類の動的点群を圧縮することに用いられてもよく、このように獲得する点群メディアは従来のビデオ符号化方式に基づいて圧縮された点群メディアと呼ばれてもよく、V-PCC点群メディアと略称される。
sample:サンプルであり、メディアファイルカプセル化過程におけるカプセル化単位であり、1つのメディアファイルは多数のサンプルからなる。メディアファイルがビデオメディアであることを例とすると、ビデオメディアの1つのサンプルは通常、1つのビデオフレームである。
DoF:Degree of Freedom、自由度である。力学システムにおいて独立する座標の個数を指し、並進の自由度を除き、さらに回転及び振動の自由度がある。本願の実施例において、自由度とはユーザーが没入型メディアを視聴するときに、サポートする運動で且つコンテンツインタラクションを発生させる自由度を指す。
3DoF:すなわち3自由度であり、ユーザーの頭部がXYZ軸の周りに回転する三種の自由度を指す。図1は3自由度の模式図を模式的に示す。図1に示すように、ある場所、ある1つの点において3つの軸上でいずれも回転することができ、頭を回転させることができ、頭を上下に曲げることもでき、頭を振ることもできる。3自由度の体験によって、ユーザーは360度で1つの現場に没入できる。もし静的であれば、パノラマピクチャであると理解できる。もしパノラマピクチャが動的であれば、パノラマビデオであり、つまりVRビデオである。しかし、3自由度のVRビデオは一定の局限性があり、すなわち、ユーザーは移動できず、任意の1つの場所を選択して視聴することができない。
3DoF+:すなわち、3自由度をもとに、ユーザーはさらにXYZ軸に沿って有限運動を行う自由度を持ち、それは制限された6自由度とも呼ばれてもよく、これに対応するメディアストリームは制限された6自由度メディアストリームと呼ばれてもよい。図2は3自由度+の模式図を模式的に示す。
6DoF:すなわち、3自由度をもとに、ユーザーはさらにXYZ軸に沿って自由に運動する自由度を持ち、これに対応するメディアストリームは6自由度メディアストリームと呼ばれてもよい。図3は6自由度の模式図を模式的に示す。ここで、6DoFメディアとは6自由度ビデオを指し、ビデオが3次元空間のXYZ軸方向に視点を自由に移動させ、及びXYX軸の周りに視点を自由に回転させる高自由度の視聴体験をユーザーに提供できることを指す。6DoFメディアはカメラアレイにより収集して得られた空間の異なる視点に対応するビデオ組み合わせである。6DoFメディアの表現、記憶、圧縮及び処理を容易にするために、6DoFメディアデータを、マルチカメラにより収集されたテクスチャマップ、マルチカメラのテクスチャマップと対応する深度マップ、及び相応な6DoFメディアコンテンツ記述メタデータという情報の組み合わせとして表す。メタデータには、マルチカメラのパラメータ、並びに6DoFメディアのスティッチングレイアウト及びエッジ保護などの記述情報が含まれる。符号化側では、マルチカメラのテクスチャマップ情報と対応する深度マップ情報とに対してスティッチング処理を行い、且つ定義されたシンタックス及びセマンティクスに基づき、スティッチングして得られた記述データをメタデータに書き込む。平面ビデオ圧縮方式によってスティッチング後のマルチカメラの深度マップ及びテクスチャマップ情報を符号化し、且つ端末に伝送して復号した後に、ユーザーが要求する6DoF仮想視点の合成を行い、それにより6DoFメディアの視聴体験をユーザーに提供する。
ボリュメトリックメディア:没入型メディアの一種であり、例えば、ボリュメトリックビデオを含んでもよい。ボリュメトリックビデオは3次元データ表現であり、現状では、主流の符号化はいずれも2次元のビデオデータに基づくものであるため、元のボリュメトリックビデオデータに対してシステム層においてカプセル化、及び伝送などの処理を行う前に、まずそれを3次元から2次元に変換してから符号化を行う必要がある。ボリュメトリックビデオのコンテンツ表示の過程において、さらに2次元で表現されたデータを3次元データに変換して、最終的に表示されるボリュメトリックビデオを表す必要がある。ボリュメトリックビデオをどのように2次元平面で表すかはシステム層でのカプセル化、伝送、及び最後のボリュメトリックビデオのコンテンツ表示処理に直接作用し得る。
アトラス(atlas):2D(2-dimension、2次元)の平面フレームにおける領域情報、3D(3-dimension、3次元)表示空間の領域情報、両者間のマッピング関係、及びマッピングに必要な必要パラメータ情報を示す。アトラスは、パッチ、及びパッチがボリュメトリックデータの3次元空間における1つの領域に対応付けられた関連情報の集合を含む。パッチ(patch)はアトラスにおける1つの矩形領域であり、3次元空間のボリュメトリック情報に関連する。ボリュメトリックビデオの2次元表現のコンポーネントデータを処理してパッチを生成し、幾何学的コンポーネントデータで表現されるボリュメトリックビデオの位置に基づき、ボリュメトリックビデオの2次元表現が所在する2次元平面領域を異なるサイズの複数の矩形領域に分割する。1つの矩形領域は1つのパッチであり、パッチは該矩形領域を3次元空間に逆投影する必要情報を含み、パッチをパッキングしてアトラスを生成し、パッチを1つの2次元グリッドに入れ、且つ各パッチにおける有効部分が重なっていないことを確実にする。1つのボリュメトリックビデオにより生成されるパッチを1つ又は複数のアトラスにパッキングしてもよい。アトラスデータに基づいて対応する幾何学的データ、属性データ及びスタブデータを生成し、アトラスデータ、幾何学的データ、属性データ、及びスタブデータの組み合わせに基づきボリュメトリックビデオの2次元平面での最終的な表現を生成する。ここで、幾何学的コンポーネントは必須であり、スタブコンポーネントは条件付き必須であり、属性コンポーネントはオプションである。
AVS:Audio Video Coding Standard、オーディオビデオ符号化標準である。
ISOBMFF:ISO Based Media File Format、ISO(International Standard Organization、国際標準化機構)標準に基づくメディアファイルフォーマットである。ISOBMFFはメディアファイルのカプセル化標準であり、最も典型的なISOBMFFファイルはMP4(Moving Picture Experts Group 4、MPEG4)ファイルである。
深度マップ(Depth map):一種の3次元シーン情報の表現方式として、深度マップの各画素点のグレー値はシーンにおけるある1つの点からカメラまでの距離を表すことに用いられてもよい。
本願の実施例が提供するメディアファイルのカプセル化方法は任意の電子機器により実行されてもよく、以下の例示的な説明において、没入型システムに応用されるサーバが該メディアファイルのカプセル化を実行することを例として例示的な説明を行うが、本願はこれに限定されない。
図4は本願の一実施例によるメディアファイルのカプセル化方法のフローチャートを模式的に示す。図4に示すように、本願の実施例が提供する方法は以下のステップを含んでもよい。
ステップS410では、ターゲットメディアコンテンツの当該ターゲットメディアコンテンツに対応する応用シーン下でのメディアストリームを取得する。
本願の実施例において、ターゲットメディアコンテンツはビデオ、オーディオ、及び画像などのうちの任意の一種の又は複数種の組み合わせであってもよく、以下の例示的な説明において、ビデオを例として例示的な説明を行うが、本願はこれに限定されない。
本願の実施例において、上記メディアストリームは、6自由度(6DoF)メディアストリーム、及び制限された6自由度(3DoF+)メディアストリームなどの、3D空間内に存在するレンダリング可能な任意のメディアストリームを含んでもよく、以下の例示的な説明において、6DoFメディアストリームを例として例示的な説明を行う。本願の実施例が提供する方法は、6DoFメディアコンテンツの録画放送、オンデマンド、生放送、通信、番組編集、及び制作などの応用に適用できる。
没入型メディアは、ユーザーがターゲットメディアコンテンツを消費するときにサポートできる自由度に応じて、3DoFメディア、3DoF+メディア、及び6DoFメディアに分けられてもよい。ここで、6DoFメディアは多視点ビデオ及び点群メディアを含んでもよい。
ここで、点群メディアは符号化方式から、さらに従来のビデオ符号化方式に基づいて圧縮された点群メディア(すなわちV-PCC)、及び幾何学的特徴に基づいて圧縮された点群メディア(G-PCC)に分けられてもよい。
多視点ビデオについては、通常、カメラアレイにより複数の角度(視点とも呼ばれてもよい)から同一シーンを撮影し、シーンのテクスチャ情報(色彩情報など)を含むテクスチャマップ及び深度情報(空間距離情報など)を含む深度マップを形成し、さらに2D平面フレームから3D表示空間へのマッピング情報に加え、ユーザー側で消費可能な6DoFメディアを構成する。
関連技術からわかるように、6DoFメディアの応用形式は様々であり、ユーザーは異なる応用シーンの6DoFメディアに対してカプセル化解除、復号及びレンダリングを行うときに、必要な操作ステップ及び処理能力はそれぞれ異なる。
例えば、多視点ビデオ及びV-PCCの符号化は1セットのルールであり、G-PCCの符号化はもう1セットのルールであり、両者の符号化標準は異なり、したがって、復号処理の方式も異なる。
さらに例えば、多視点ビデオ及びV-PCCの符号化標準は同じであるが、一方はピクチャを3D空間にレンダリングするが、他方は一群の点を3D空間にレンダリングし、従って、いくつかの相違点が存在し得る。また、多視点ビデオはテクスチャマップ及び深度マップを必要とするが、V-PCCはこれらに加えて、さらに占有マップを必要とする可能性があり、これも1つの相違点である。
ステップS420では、上記メディアストリームをカプセル化し、上記メディアストリームのカプセル化ファイルを生成する。上記カプセル化ファイルには第1応用シーンタイプフィールドが含まれ、上記第1応用シーンタイプフィールドは上記メディアストリームに対応する応用シーンを示すことに用いられる。
例えば、6DoFメディアの応用を対象としてもよく、本願の実施例は異なる6DoFメディアの応用シーンを区別できる。
現在の業界では6DoFメディアをボリュメトリックメディアとして統一的に定義するため、もしファイルカプセル化過程において異なる応用シーンを区別できないなら、ユーザー側の処理に不必要な面倒をもたらし得る。例えば、もしメディアファイルのカプセル化過程においてこれらのメディアファイルに対応する異なる応用シーンを区別できないとすれば、メディアストリームを復号してから区別する必要がある。一方では、これは演算リソースの浪費を引き起こすようになり、他方では、例えばCDN(Content Delivery Network、コンテンツ配信ネットワーク)ノードのようないくつかの中間ノードは復号能力を備えないため、復号が失敗する状況の発生を引き起こす。
上記のように、これらの異なる応用自体の処理方式は異なり、区別する必要があり、ファイルカプセル化過程において応用シーンを区別するメリットはメディアファイルの非常に上位の層でこの情報を取得できることである。それにより演算リソースを節約でき、同時に例えばCDNノードのような復号能力を備えないいくつかの中間ノードもこの情報を取得できる。
ステップS430では、上記カプセル化ファイルを第1機器に送信することにより上記第1機器は上記第1応用シーンタイプフィールドに基づき上記メディアストリームに対応する応用シーンを決定し、且つ上記メディアストリームの応用シーンに基づき上記メディアストリームの復号方式及びレンダリング方式のうちの少なくとも一種を決定する。
本願の実施例において、第1機器は任意の中間ノードであってもよく、該メディアストリームを消費する任意のユーザー端末であってもよく、本願においてはこれを限定しない。
本願の実施形態が提供するメディアファイルのカプセル化方法は、対応する応用シーン下でのメディアストリームのカプセル化ファイルを生成するときに、カプセル化ファイルにおいて第1応用シーンタイプフィールドを拡張し、該第1応用シーンタイプフィールドによって該メディアストリームに対応する応用シーンを示し、それによってメディアファイルのカプセル化において異なるメディアストリームの異なる応用シーンを区別できる。一方では、該カプセル化ファイルを第1機器に送信するときに、該第1機器は該カプセル化ファイルにおける第1応用シーンタイプフィールドに基づき該メディアストリームの応用シーンを区別でき、それにより該メディアストリームに対応する応用シーンに基づき該メディアストリームに対してどの復号方式及び/又はレンダリング方式を使用するかを決定でき、第1機器の演算能力及びリソースを節約できる。他方では、カプセル化段階でメディアストリームの応用シーンを決定できるため、第1機器がメディアストリームの復号能力を備えないとしても、該メディアストリームに対応する応用シーンを決定でき、区別できるために該メディアストリームを復号した後まで待つ必要がない。
図5は本願の一実施例によるメディアファイルのカプセル化方法のフローチャートを模式的に示す。図5に示すように、本願の実施例が提供する方法は以下のステップを含んでもよい。
図5の実施例におけるステップS410は上記実施例を参照できる。
図5の実施例において、上記図4の実施例におけるステップS420はさらに以下のステップを含んでもよい。
ステップS421では、ターゲットメディアファイルフォーマットデータボックスのボリュメトリックビジュアルメディアヘッダーデータボックス(例えば、以下で挙げられるVolumetric Visual Media Header Box)において上記第1応用シーンタイプフィールドを追加する。
本願の実施例において、例えば6DoFメディアの応用シーンに基づきメディアファイルに対して対応する識別を行うことができるために、システム層に若干の記述性フィールドを追加してもよく、ファイルカプセル化レベルのフィールド拡張を含んでもよい。例えば、以下の例示的な説明において、ISOBMFFデータボックス(ターゲットメディアファイルフォーマットデータボックスとする)の拡張を例として例示的な説明を行うが、本願においてはこれに限定されない。
ステップS422では、上記メディアストリームに対応する応用シーンに基づき上記第1応用シーンタイプフィールドの数値を決定する。
例示的な実施例において、上記第1応用シーンタイプフィールドの数値は、上記メディアストリームが非大規模アトラス情報の多視点ビデオであることを表す第1値(例えば「0」)と、上記メディアストリームが大規模アトラス情報の多視点ビデオであることを表す第2値(例えば「1」)と、上記メディアストリームが従来のビデオ符号化方式に基づいて圧縮される点群メディアであることを表す第3値(例えば「2」)と、上記メディアストリームが幾何学的特徴に基づいて圧縮される点群メディアであることを表す第4値(例えば「3」)とのうちのいずれか1つを含んでもよい。
理解されるように、第1応用シーンタイプフィールドの数値は上記応用シーンを示すことに限定されず、それはより多い又はより少ない応用シーンを指示することができ、実際のニーズに応じて設定できる。
図5の実施例におけるステップS430は上記実施例を参照できる。
本願の実施形態が提供するメディアファイルのカプセル化方法は、異なる6DoFメディアの応用シーンを区別することによって、6DoFメディアを消費する第1機器が6DoFメディアのカプセル化解除、復号、及びレンダリング工程などでポリシー選択を適宜行うことができる。
図6は本願の一実施例によるメディアファイルのカプセル化方法のフローチャートを模式的に示す。図6に示すように、本願の実施例が提供する方法は以下のステップを含んでもよい。
図6の実施例におけるステップS410は上記実施例を参照できる。
図6の実施例において、上記実施例におけるステップS420はさらに以下のステップS4221を含んでもよい。すなわち、カプセル化のときに、第1応用シーンタイプフィールドによって、該メディアストリームが大規模アトラス情報の多視点ビデオであると決定している。
ステップS4221では、メディアストリームをカプセル化し、メディアストリームのカプセル化ファイルを生成し、上記カプセル化ファイルには第1応用シーンタイプフィールド(例えば、以下で挙げられるapplication_type)が含まれ、上記第1応用シーンタイプフィールドの数値は上記メディアストリームが大規模アトラス情報の多視点ビデオであることを表す第2値である。
多視点ビデオの場合、その2D平面フレームから3D表示空間へのマッピング情報は多視点ビデオの6DoF体験を決める。このようなマッピング関係の指示については、二種類の方法が存在する。一種の方法は、アトラスを定義して2D平面の領域を比較的細かく分割し、さらにこれらの2D小領域集合から3D空間へのマッピング関係を示す。このようなものは非大規模アトラス情報と呼ばれ、対応する多視点ビデオは非大規模アトラス情報の多視点ビデオである。もう一種の方法はより大まかであり、収集機器(いずれもカメラを例として例示的な説明を行う)の角度から、各カメラにより生成された深度マップ及びテクスチャマップを直接識別し、且つ各カメラパラメータに基づき、対応する2D深度マップとテクスチャマップとの3D空間でのマッピング関係を復元する。このようなものは大規模アトラス情報と呼ばれ、対応する多視点ビデオは大規模アトラス情報の多視点ビデオである。理解できるように、ここでの大規模アトラス情報及び非大規模アトラス情報は相対的なものであり、具体的なサイズを直接限定しない。
ここで、カメラパラメータは通常、カメラの外部パラメータ及び内部パラメータに分けられ、外部パラメータは通常、カメラが撮影する位置、及び角度などの情報を含み、内部パラメータは通常、カメラの光学中心の位置、及び焦点距離の長さなどの情報を含む。
これからわかるように、6DoFメディアにおける多視点ビデオは大規模アトラス情報の多視点ビデオ及び非大規模アトラス情報の多視点ビデオをさらに含んでもよい。すなわち、6DoFメディアの応用形式は様々であり、ユーザーは異なる応用シーンの6DoFメディアに対してカプセル化解除、復号及びレンダリングを行うときに、必要な操作ステップ及び処理能力はそれぞれ異なる。
例えば、大規模アトラス情報と非大規模アトラス情報との相違点は、2D領域から3D空間へのマッピング及びレンダリングの粒度が異なることであり、大規模アトラス情報は6つの2D断片を3D空間にマッピングすると仮定すると、非大規模アトラス情報は60個の断片を3D空間にマッピングする可能性がある。この場合、これら二種のマッピングのアルゴリズムの複雑さは間違いなく異なり、大規模アトラス情報のアルゴリズムは非大規模アトラス情報のアルゴリズムよりも簡単になる。
特に、多視点ビデオの場合、もしその2D領域から3D空間へのマッピング関係がカメラパラメータにより得られ、すなわちそれが大規模アトラス情報の多視点ビデオであるなら、カプセル化ファイルにおいてより小さい2D領域から3D空間へのマッピング関係を定義する必要がない。
該メディアストリームが大規模アトラス情報の多視点ビデオであるときに、上記方法はさらに以下のステップを含んでもよい。
ステップS601では、もし上記メディアストリームをシングルトラックに応じてカプセル化するなら、上記ターゲットメディアファイルフォーマットデータボックスのビットストリームサンプルエントリ(例えば、以下で例示的に説明されるV3CbitstreamSampleEntryであるが、本願はこれに限定されない)において大規模アトラス識別子(例えば、以下で挙げられるlarge_scale_atlas_flag)を追加する。
ステップS602では、もし上記大規模アトラス識別子が上記メディアストリームは大規模アトラス情報の多視点ビデオであることを示すなら、上記ビットストリームサンプルエントリにおいて、上記メディアストリームを収集するカメラの数量識別子(例えば、以下で挙げられるcamera_count)、及び上記メディアストリームの現在のファイルに含まれるカメラに対応する視点数識別子(例えば、以下で挙げられるcamera_count_contained)を追加する。
ステップS603では、上記ビットストリームサンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集されたテクスチャマップと深度マップとの解像度(例えば、以下で挙げられるcamera_resolution_x及びcamera_resolution_y)を追加する。
引き続き図6に参照されるように、さらに、上記方法はさらに以下のステップS604~S607のうちの少なくとも1つを含む。
ステップS604では、上記ビットストリームサンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集された深度マップのダウンサンプリング倍数因子(例えば、以下で挙げられるdepth_downsample_factor)を追加する。
ステップS605では、上記ビットストリームサンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集されたテクスチャマップの左上頂点の上記大規模アトラス情報における平面フレームの原点に対するオフセット量(例えば、以下で挙げられるtexture_vetex_x及びtexture_vetex_y)を追加する。
ステップS606では、上記ビットストリームサンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集された深度マップの左上頂点の上記大規模アトラス情報における平面フレームの原点に対するオフセット量(例えば、以下で挙げられるdepth_vetex_x及びdepth_vetex_y)を追加する。
ステップS607では、上記ビットストリームサンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集されたテクスチャマップと深度マップとのパディング幅(例えば、以下で挙げられるpadding_size_texture及びpadding_size_depth)を追加する。
本願の実施例において、padding_size_textureとpadding_size_depthとはそれぞれ各テクスチャマップ及び深度マップのエッジ保護領域のサイズを定義しており、これはスティッチング画像を圧縮するときのエッジ突然変化領域を保護するためである。padding_size_textureとpadding_size_depthとの値はテクスチャマップと深度マップとのエッジ保護領域の幅を表現し、padding_size_textureとpadding_size_depthとは0に等しいことは、何らのエッジ保護もないことを表す。
引き続き図6に参照されるように、該メディアストリームが大規模アトラス情報の多視点ビデオであるときに、上記方法はさらに以下のステップを含んでもよい。
ステップS608では、もし上記メディアストリームをマルチトラックに応じてカプセル化するなら、上記ターゲットメディアファイルフォーマットデータボックスのサンプルエントリにおいて大規模アトラス識別子を追加する。
ステップS609では、もし上記大規模アトラス識別子が上記メディアストリームは大規模アトラス情報の多視点ビデオであることを示すなら、上記サンプルエントリにおいて、上記メディアストリームを収集するカメラの数量識別子、及び上記メディアストリームの現在のファイルに含まれるカメラに対応する視点数識別子を追加する。
ステップS610では、上記サンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集されたテクスチャマップと深度マップとの解像度を追加する。
引き続き図6に参照されるように、さらに、上記方法はさらに以下のステップS611~S614のうちの少なくとも1つを含む。
ステップS611では、上記サンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集された深度マップのダウンサンプリング倍数因子を追加する。
ステップS612では、上記サンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集されたテクスチャマップの左上頂点の上記大規模アトラス情報における平面フレームの原点に対するオフセット量を追加する。
ステップS613では、上記サンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集された深度マップの左上頂点の上記大規模アトラス情報における平面フレームの原点に対するオフセット量を追加する。
ステップS614では、上記サンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集されたテクスチャマップと深度マップとのパディング幅を追加する。
図6の実施例におけるステップS430は上記実施例を参照できる。
本願の実施例において、six_dof_stitching_layoutフィールドを採用して6DoFメディアにおける各カメラに対応する視点で収集された深度マップとテクスチャマップとのスティッチング方法を示すことができ、これは6DoFメディアのテクスチャマップと深度マップとのスティッチングレイアウトを識別することに用いられ、具体的な数値は下記[表1]を参照すればよい。
Figure 0007471731000001
図7は本願の一実施例による6自由度メディアの上下スティッチング方式の模式図を模式的に示す。
six_dof_stitching_layoutの値が0であるときに、6DoFメディアのスティッチングモードは上下スティッチングである。図7に示すように、上下スティッチングモードにおいて、マルチカメラにより収集されたテクスチャマップ(例えば、図7における視点1のテクスチャマップ、視点2のテクスチャマップ、視点3のテクスチャマップ、及び視点4のテクスチャマップ)は順序に応じて画像の上方に配列される一方、互いに対応する深度マップ(例えば、図7における視点1の深度マップ、視点2の深度マップ、視点3の深度マップ、及び視点4の深度マップ)は順番に画像の下方に配列される。
スティッチング後の6DoFメディアの解像度をnWidth×nHeightに設定し、再構成モジュールはcamera_resolution_x及びcamera_resolution_yの値を利用して相応な各カメラのテクスチャマップ及び深度マップのレイアウト位置を算出できることにより、さらにマルチカメラのテクスチャマップ及び深度マップ情報を利用して6DoFメディアの再構成を行う。
図8は本願の一実施例による6自由度メディアの左右スティッチング方式の模式図を模式的に示す。
six_dof_stitching_layoutの値が1であるときに、6DoFメディアのスティッチングモードは左右スティッチングである。図8に示すように、左右スティッチングモードにおいて、マルチカメラにより収集されたテクスチャマップ(例えば、図8における視点1のテクスチャマップ、視点2のテクスチャマップ、視点3のテクスチャマップ、及び視点4のテクスチャマップ)は順序に応じて画像の左方に配列される一方、互いに対応する深度マップ(例えば、図8における視点1の深度マップ、視点2の深度マップ、視点3の深度マップ、及び視点4の深度マップ)は順番に画像の右方に配列される。
図9は本願の一実施例による6自由度メディアの深度マップの1/4解像度スティッチング方式の模式図を模式的に示す。
six_dof_stitching_layoutの値が2であるときに、6DoFメディアのスティッチングモードは深度マップの1/4ダウンサンプリングのスティッチングである。図9に示すように、深度マップの1/4ダウンサンプリングのスティッチング方式において、深度マップ(例えば、図9における視点1の深度マップ、視点2の深度マップ、視点3の深度マップ、及び視点4の深度マップ)は1/4解像度ダウンサンプリングを行った後に、テクスチャマップ(例えば、図9における視点1のテクスチャマップ、視点2のテクスチャマップ、視点3のテクスチャマップ、及び視点4のテクスチャマップ)の右下方にスティッチングされる。もし深度マップのスティッチングが最終的なスティッチングマップの矩形領域を埋め尽くすことができないとすれば、残りの部分に空白の画像を充填する。
本願の実施形態が提供するメディアファイルのカプセル化方法は、異なる6DoFメディアの応用シーンを区別できるだけでなく、6DoFメディアを消費する第1機器は6DoFメディアのカプセル化解除、復号、及びレンダリング工程でポリシー選択を適宜行うことができる。さらに、6DoFメディアにおける多視点ビデオ応用に対して、ファイルカプセル化において多視点ビデオの深度マップ、及びテクスチャマップの関連情報を示す一種の方法を提案することにより、多視点ビデオの異なる視点の深度マップ、及びテクスチャマップのカプセル化組み合わせ方式はより柔軟なものとなる。
例示的な実施例において、上記方法は、上記ターゲットメディアコンテンツのターゲット記述ファイルを生成するステップであって、上記ターゲット記述ファイルには第2応用シーンタイプフィールドが含まれ、上記第2応用シーンタイプフィールドは上記メディアストリームに対応する応用シーンを示すことに用いられる、ステップと、上記ターゲット記述ファイルを上記第1機器に送信することにより上記第1機器は上記第2応用シーンタイプフィールドに基づき、上記メディアストリームのカプセル化ファイルのうちターゲットメディアストリームに対応するターゲットカプセル化ファイルを決定するステップと、をさらに含んでもよい。
相応には、上記カプセル化ファイルを第1機器に送信することにより上記第1機器は上記第1応用シーンタイプフィールドに基づき上記メディアストリームに対応する応用シーンを決定するステップは、上記ターゲットカプセル化ファイルを上記第1機器に送信することにより上記第1機器は上記ターゲットカプセル化ファイルにおける第1応用シーンタイプフィールドに基づき、上記ターゲットメディアストリームに対応するターゲット応用シーンを決定するステップを含んでもよい。
図10は本願の一実施例によるメディアファイルのカプセル化方法のフローチャートを模式的に示す。図10に示すように、本願の実施例が提供する方法は以下のステップを含んでもよい。
図10の実施例におけるステップS410~S420は上記実施例を参照することができ、それはさらに以下のステップを含んでもよい。
ステップS1010では、上記ターゲットメディアコンテンツのターゲット記述ファイルを生成し、上記ターゲット記述ファイルには第2応用シーンタイプフィールド(例えば、以下で挙げられるv3cAppType)が含まれ、上記第2応用シーンタイプフィールドは上記メディアストリームに対応する応用シーンを示す。
本願の実施例において、システム層に若干の記述性フィールドを追加し、上記ファイルカプセル化レベルのフィールド拡張を含むことを除き、さらにシグナリング伝送レベルのフィールドに対して拡張を行ってもよい。以下の実施例において、DASH(Dynamic adaptive streaming over HTTP(HyperText Transfer Protocol、ハイパーテキスト転送プロトコル)、ハイパーテキスト転送プロトコルに基づく動的自己適応ストリーミングメディア伝送) MPD(Media Presentation Description、メディアファイルの記述ファイル)シグナリング(ターゲット記述ファイルとする)をサポートする形式で例示的な説明を行い、6DoFメディアの応用シーンタイプ指示及び大規模アトラス指示を定義している。
ステップS1020では、上記ターゲット記述ファイルを上記第1機器に送信することにより上記第1機器は上記第2応用シーンタイプフィールドに基づき、上記メディアストリームのカプセル化ファイルのうちからターゲットメディアストリームのターゲットカプセル化ファイルを決定する。
ステップS1030では、上記ターゲットカプセル化ファイルを上記第1機器に送信することにより上記第1機器は上記ターゲットカプセル化ファイルにおける第1応用シーンタイプフィールドに基づき、上記ターゲットメディアストリームのターゲット応用シーンを決定する。
本願の実施形態が提供するメディアファイルのカプセル化方法は、カプセル化ファイルにおいて第1応用シーンタイプフィールドによってメディアストリームに対応する応用シーンを識別できるだけでなく、さらにターゲット記述ファイルにおいて第2応用シーンタイプフィールドによってメディアストリームに対応する応用シーンを識別できる。このように、第1機器はまず、ターゲット記述ファイルにおける第2応用シーンタイプフィールドに基づきそれがどのメディアストリームを取得する必要があるかを決定でき、それによりサーバ端末に相応なターゲットメディアストリームを要求でき、それによりデータの伝送量を減少させ、且つ要求されるターゲットメディアストリームが第1機器の実際の能力にマッチングできることを確実にし、第1機器は要求されるターゲットメディアストリームを受信した後に、さらにカプセル化ファイルにおける第1応用シーンタイプフィールドに基づきターゲットメディアストリームのターゲット応用シーンを決定することにより、どの復号及びレンダリング方式を使用すべきであるかを理解して、演算リソースを低減させることができる。
図11は本願の一実施例によるメディアファイルのカプセル化方法のフローチャートを模式的に示す。図11に示すように、本願の実施例が提供する方法は以下のステップを含んでもよい。
図11の実施例におけるステップS410~S420は上記実施例を参照できる。
図11の実施例において、上記図10の実施例におけるステップS1010はさらに以下のステップを含んでもよい。
ステップS1011では、上記ターゲットメディアコンテンツのハイパーテキスト転送プロトコルに基づく動的自己適応ストリーミングメディア伝送のターゲット記述ファイルにおいて上記第2応用シーンタイプフィールドを追加する。
ステップS1012では、上記メディアストリームに対応する応用シーンに基づき、上記第2応用シーンタイプフィールドの数値を決定する。
図11の実施例におけるステップS1020及びステップS1030は上記実施例を参照できる。
以下、本願の実施例が提案するメディアファイルのカプセル化方法に対して例示的な説明を行う。6DoFメディアを例として、本願の実施例が提案する方法は6DoFメディアの応用シーンの指示に用いられてもよく、以下のステップを含んでもよい。
1.6DoFメディアの応用シーンに基づき、メディアファイルに対して対応する識別を行う。
2.特に、多視点ビデオの場合、その2D平面フレームから3D空間へのマッピングが、収集カメラの出力を単位としてマッピングを行うか否かを判断する。すなわち、2D平面フレームから3D空間へのマッピングが各カメラにより収集されたテクスチャマップ及び深度マップを単位としてマッピングを行うと、大規模アトラス情報と呼ばれる。もし各カメラにより収集されたテクスチャマップ及び深度マップをさらに比較的細かく分割する必要があり、分割後の2D小領域集合から3D空間へのマッピングを示すなら、非大規模アトラス情報と呼ばれる。
3.もし多視点ビデオの2D平面フレームから3D空間へのマッピングが収集カメラの出力を単位としてマッピングを行うなら、カプセル化ファイルにおいて異なる収集カメラの出力の関連情報を示す。
本実施例は、システム層に若干の記述性フィールドを追加でき、ファイルカプセル化レベルのフィールド拡張及びシグナリング伝送レベルのフィールド拡張を含んでもよく、それによって本願の実施例の上記ステップをサポートすることができる。以下、ISOBMFFデータボックス及びDASH MPDシグナリングを拡張する形式で例示し、6DoFメディアの応用タイプ指示及び大規模アトラス指示を定義しており、具体的に以下の通りである(ここで、拡張部分はイタリックで識別される)。
一、ISOBMFFデータボックスの拡張
本部分で使用される数学演算子及び優先順位はC言語を参照する。特に説明しない限り、番号付け及びカウントは0から開始することを約束する。
aligned(8) class VolumetricVisualMediaHeaderBox
extends FullBox(’vvhd’, version = 0, 1) {
unsigned int(8) application_type;//8ビット符号なし整数の第1応用シーンタイプフィールド

aligned(8) class V3CBitstreamSampleEntry() extends VolumetricVisualSampleEntry (’v3e1’) { //6DoFメディアをカプセル化するときに、シングルトラック又はマルチトラックに応じてカプセル化することができるため、この構造はシングルトラックの場合に対応する。
V3CConfigurationBox config;
unsigned int(1) large_scale_atlas_flag;
bit(7) reserved; //予約フィールド、一般的に、フィールドは整数個のbyteを必要とし、従って、予約されたbit(ビット)で補足する必要がある。
if(large_scale_atlas_flag == 1){//大規模アトラス情報の多視点ビデオであることを示す
unsigned int(8) camera_count;
unsigned int(8) camera_count_contained;
unsigned int(8) padding_size_depth;
unsigned int(8) padding_size_texture;
for(i=0; i<camera_count_contained; i++){
unsigned int(8) camera_id;
float(32) camera_resolution_x;// float(32)は特定値の連続する32個のバイナリビットを取ることを表す
float(32) camera_resolution_y;
unsigned int(8) depth_downsample_factor;
unsigned int(32) texture_vetex_x;
unsigned int(32) texture_vetex_y;
unsigned int(32) depth_vetex_x;
unsigned int(32) depth_vetex_y;




aligned(8) class V3CSampleEntry() extends VolumetricVisualSampleEntry (’v3c1’) { //この構造はマルチトラックの場合に対応する。
V3CConfigurationBox config;
V3CUnitHeaderBox unit_header;
unsigned int(1) large_scale_atlas_flag;
bit(7) reserved;
if(large_scale_atlas_flag == 1){
unsigned int(8) camera_count;
unsigned int(8) camera_count_contained;
unsigned int(8) padding_size_depth;
unsigned int(8) padding_size_texture;
for(i=0; i<camera_count_contained; i++){
unsigned int(8) camera_id;
float(32) camera_resolution_x;
float(32) camera_resolution_y;
unsigned int(8) depth_downsample_factor;
unsigned int(32) texture_vetex_x;
unsigned int(32) texture_vetex_y;
unsigned int(32) depth_vetex_x;
unsigned int(32) depth_vetex_y;


本願の実施例において、第1応用シーンタイプフィールドapplication_typeは6DoFメディアの応用シーンタイプを示し、具体的な数値は下記[表2]に示すコンテンツを含むが、これらに限定されない。
Figure 0007471731000002
ここで、大規模アトラス識別子large_scale_atlas_flagはアトラス情報が大規模アトラス情報であるか否か、すなわち、アトラス情報がカメラパラメータなどの関連情報のみによって取得できるか否かを示し、ここでは、large_scale_atlas_flagが1に等しいときに、多視点ビデオ(大規模アトラス情報)であることを示し、0に等しいときには、多視点ビデオ(非大規模アトラス情報)であることを示すと仮定する。
説明する必要がある点として、上記[表2]からわかるように、第1応用シーンタイプフィールドapplication_typeは既に大規模アトラス情報の多視点ビデオであるか否かを示すことができ、application_typeの指示が比較的上位であることを考慮して、large_scale_atlas_flagを増加させることで、解析を容易にする。使用上は1つだけでよいが、しかし、そのときどのフィールドが採用され得るかを決定できないため、ここでの情報は冗長である。
ここで、camera_countは、6DoFメディアを収集するすべてのカメラの個数を示すことに用いられ、該メディアストリームを収集するカメラの数量識別子と呼ばれる。camera_numberの数値は1~255である。camera_count_containedは6DoFメディアの現在のファイルに含まれるカメラに対応する視点の数を表すことに用いられ、現在のファイルに含まれるカメラに対応する視点数識別子と呼ばれる。
ここで、padding_size_depthは深度マップのパディング幅を表す。padding_size_texture:テクスチャマップのパディング幅である。ビデオ符号化の過程において、通常、いくつかのパディングを加えることで、ビデオ復号のエラー許容率を向上させるようにする。つまり、ピクチャフレームのエッジにいくつかの付加的な画素を充填する。
camera_idは各視点に対応するカメラ識別子を表す。camera_resolution_x、及びcamera_resolution_yはカメラにより収集されたテクスチャマップ、及び深度マップの解像度の幅及び高さを表現し、それぞれ対応するカメラにより収集されたX及びY方向における解像度を表す。depth_downsample_factorは対応する深度マップのダウンサンプリング倍数因子を表現し、深度マップの実際の解像度の幅及び高さはカメラにより収集された解像度の幅及び高さの1/2depth_downsample_factorである。
depth_vetex_x、及びdepth_vetex_yはそれぞれ対応する深度マップの左上頂点の平面フレームの原点(平面フレームの左上頂点)に対するオフセット量におけるX、及びY成分値を表す。
texture_vetex_x、及びtexture_vetex_yはそれぞれ対応するテクスチャマップの左上頂点の平面フレームの原点(平面フレームの左上頂点)に対するオフセット量におけるX、及びY成分値を表す。
二、DASH MPDシグナリングの拡張
DASH MPDシグナリングの下記[表3]に示すフォームにおいて第2応用シーンタイプフィールドv3cAppTypeを拡張できる。
Figure 0007471731000003
上記図7の実施例に対応して、サーバ端末には1つの多視点ビデオAが存在し、且つ該多視点ビデオAのアトラス情報が大規模アトラス情報であると仮定する。
このとき、application_type=1;
large_scale_atlas_flag=1:camera_count=4;camera_count_contained=4;
padding_size_depth=0;padding_size_texture=0;
{camera_id=1;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=0;texture_vetex =(0,0);depth_vetex = (0,200) }//視点1のテクスチャマップ及び視点1の深度マップ
{camera_id=2;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=0;texture_vetex =(100,0);depth_vetex = (100,200) }//視点2のテクスチャマップ及び視点2の深度マップ
{camera_id=3;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=0;texture_vetex =(0,100);depth_vetex = (0,300) }//視点3のテクスチャマップ及び視点3の深度マップ
{camera_id=4;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=0;texture_vetex =(100,100);depth_vetex = (100,300) }//視点4のテクスチャマップ及び視点4の深度マップ
以上のシステム記述は、図7の平面フレームの各領域のデータ構成に対応する。
上記図8の実施例に対応して、サーバ端末には1つの多視点ビデオAが存在し、且つ該多視点ビデオAのアトラス情報が大規模アトラス情報であると仮定する。
このとき、application_type=1;
large_scale_atlas_flag=1:camera_count=4;camera_count_contained=4;
padding_size_depth=0;padding_size_texture=0;
{camera_id=1;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=0;texture_vetex =(0,0);depth_vetex = (200,0) }
{camera_id=2;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=0;texture_vetex =(100,0);depth_vetex = (300,0) }
{camera_id=3;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=0;texture_vetex =(0,100);depth_vetex = (200,100) }
{camera_id=4;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=0;texture_vetex =(100,100);depth_vetex = (300,100) }
以上のシステム記述は、図8の平面フレームの各領域のデータ構成に対応する。
上記図9の実施例に対応し、サーバ端末には1つの多視点ビデオAが存在し、且つ該多視点ビデオAのアトラス情報が大規模アトラス情報であると仮定する。
このとき、application_type=1;
large_scale_atlas_flag=1:camera_count=4;camera_count_contained=4;
padding_size_depth=0;padding_size_texture=0;
{camera_id=1;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=1;texture_vetex =(0,0);depth_vetex = (0,200) }
{camera_id=2;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=1;texture_vetex =(100,0);depth_vetex = (50,200) }
{camera_id=3;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=1;texture_vetex =(0,100);depth_vetex = (100,200) }
{camera_id=4;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=1;texture_vetex =(100,100);depth_vetex = (150,200) }
以上のシステム記述は、図9の平面フレームの各領域のデータ構成に対応する。
説明する必要がある点として、padding_size_depth及びpadding_size_textureは絶対な数値範囲がなく、異なる数値は本願の実施例が提供する方法に影響しない。本手段は単にpadding_size_depth及びpadding_size_textureの大きさを示し、padding_size_depth及びpadding_size_textureの大きさがなぜこのようなものであるかは、符号化アルゴリズムにより決められ、本願の実施例が提供する方法とは無関係である。
ここで、camera_resolution_x及びcamera_resolution_yは深度マップの実際の解像度の幅及び高さ、つまり、各カメラの解像度を計算することに用いられ、多視点ビデオは複数のカメラにより撮影され、異なるカメラの解像度は異なってもよい。ここではすべての視点の解像度の幅及び高さをいずれも100画素として例示しているが、これは単に例示を容易にするために数値を取っているものであり、実際にはこれに限定されない。
理解できるように、上記組み合わせ方式には限定されず、本願の実施例が提供する方法は任意の組み合わせに対して対応する指示を行うことができる。
第1機器に取り付けられたクライアント端末はサーバ端末から送信される多視点ビデオのカプセル化ファイルを受信した後に、カプセル化ファイルにおける対応するフィールドを解析することによって、多視点ビデオの平面フレームの各領域を異なるカメラのテクスチャマップ、及び深度マップに対応付けることができる。さらに多視点ビデオのメディアストリームにおけるカメラパラメータ情報を復号することによって、平面フレームの各領域を3Dレンダリング表示領域に復元することができ、それにより多視点ビデオを消費する。
上記図10の実施例に対応して例示的な説明を行う。同一ターゲットメディアコンテンツに対して、サーバ端末に3つの異なる形式の6DoFメディアが存在し、それぞれを多視点ビデオA(大規模アトラス情報)、V-PCC点群メディアB、及びG-PCC点群メディアCであると仮定する。この場合、サーバ端末はこれら3つのメディアストリームをカプセル化するときに、VolumetricVisualMediaHeaderBoxデータボックスにおけるapplication_typeフィールドに対して対応する値を与える。具体的に言えば、多視点ビデオA:application_type=1、V-PCC点群メディアB:application_type=2、G-PCC点群メディアC:application_type=3である。
同時に、MPDファイルにおいて多視点ビデオA(大規模アトラス情報)、V-PCC点群メディアB、及びG-PCC点群メディアCの3つのRepresentationの応用シーンタイプを記述する。すなわち、v3cAppTypeフィールドの数値はそれぞれ、多視点ビデオA:v3cAppType=1、V-PCC点群メディアB:v3cAppType=2、G-PCC点群メディアC:v3cAppType=3である。
次に、サーバはMPDシグナリングに対応するターゲット記述ファイルを第1機器に取り付けられたクライアント端末に発行する。
クライアント端末はサーバ端末から送信されるMPDシグナリングに対応するターゲット記述ファイルを受信した後に、クライアント端末の機器能力及び表示ニーズに基づき、対応する応用シーンタイプのターゲットメディアストリームのターゲットカプセル化ファイルを要求する。第1機器のクライアント端末の処理能力が比較的低いと仮定し、従って、クライアント端末は多視点ビデオAのターゲットカプセル化ファイルを要求する。
この場合、サーバ端末は多視点ビデオAのターゲットカプセル化ファイルを第1機器のクライアント端末に送信する。
第1機器のクライアント端末はサーバ端末から送信される多視点ビデオAのターゲットカプセル化ファイルを受信した後に、VolumetricVisualMediaHeaderBoxデータボックスにおけるapplication_typeフィールドに基づき、現在の6DoFメディアファイルの応用シーンタイプを決定し、対応する処理を行うことができる。異なる応用シーンタイプは異なる復号及びレンダリング処理アルゴリズムを有するようになる。
多視点ビデオを例とすると、もしapplication_type=1であるなら、該多視点ビデオのアトラス情報はカメラにより収集された深度マップ、及びテクスチャマップを単位とすることを説明している。従って、クライアント端末は相対的に簡単な処理アルゴリズムによって該多視点ビデオを処理することができる。
説明する必要がある点として、他の実施例において、DASH MPDを除き、さらに類似するシグナリングファイルに対して同様な拡張を行い、シグナリングファイルにおいて異なるメディアファイルの応用シーンタイプを示すことができる。
例示的な実施例において、上記ターゲットメディアコンテンツの当該ターゲットメディアコンテンツに対応する応用シーン下でのメディアストリームを取得するステップは、第2機器が送信する第1多視点ビデオの第1カプセル化ファイルと第3機器が送信する第2多視点ビデオの第2カプセル化ファイルとを受信するステップと、上記第1カプセル化ファイル及び上記第2カプセル化ファイルをそれぞれカプセル化解除し、上記第1多視点ビデオ及び上記第2多視点ビデオを獲得するステップと、上記第1多視点ビデオ及び上記第2多視点ビデオをそれぞれ復号し、上記第1多視点ビデオにおける第1深度マップ及び第1テクスチャマップ、並びに上記第2多視点ビデオにおける第2深度マップ及び第2テクスチャマップを獲得するステップと、上記第1深度マップ、上記第2深度マップ、上記第1テクスチャマップ及び上記第2テクスチャマップに基づき、合併多視点ビデオを獲得するステップと、を含んでもよい。
ここで、上記第2機器において第1数量のカメラが取り付けられてもよく、上記第3機器において第2数量のカメラが取り付けられてもよく、上記第2機器及び上記第3機器はそれぞれ各自のカメラを利用して同一シーンに対して多視点ビデオの収集及び撮影を行い、上記第1多視点ビデオ及び上記第2多視点ビデオを獲得してもよい。
ここで、上記第1カプセル化ファイル及び上記第2カプセル化ファイルにはいずれも上記第1応用シーンタイプフィールドが含まれてもよく、且つ上記第1カプセル化ファイル及び上記第2カプセル化ファイルにおける第1応用シーンタイプフィールドの数値はそれぞれ、上記第1多視点ビデオ及び上記第2多視点ビデオが大規模アトラス情報の多視点ビデオであることを表すことに用いられる第2値である。
図12は本願の一実施例によるメディアファイルのカプセル化方法のフローチャートを模式的に示す。図12に示すように、本願の実施例が提供する方法は以下のステップを含んでもよい。
ステップS1210では、第2機器が送信する第1多視点ビデオの第1カプセル化ファイルと第3機器が送信する第2多視点ビデオの第2カプセル化ファイルとを受信する。
ステップS1220では、上記第1カプセル化ファイル及び上記第2カプセル化ファイルをそれぞれカプセル化解除し、上記第1多視点ビデオ及び上記第2多視点ビデオを獲得する。
ステップS1230では、上記第1多視点ビデオ及び上記第2多視点ビデオをそれぞれ復号し、上記第1多視点ビデオにおける第1深度マップ及び第1テクスチャマップ、並びに上記第2多視点ビデオにおける第2深度マップ及び第2テクスチャマップを獲得する。
ステップS1240では、上記第1深度マップ、上記第2深度マップ、上記第1テクスチャマップ及び上記第2テクスチャマップに基づき、合併多視点ビデオを獲得する。
ステップS1250では、合併多視点ビデオをカプセル化し、合併多視点ビデオのカプセル化ファイルを生成し、カプセル化ファイルには第1応用シーンタイプフィールドが含まれ、第1応用シーンタイプフィールドは合併多視点ビデオに対応する応用シーンが大規模アトラス情報の多視点ビデオであることを示すことに用いられる第2値である。
ステップS1260では、上記カプセル化ファイルを第1機器に送信することにより上記第1機器は上記第1応用シーンタイプフィールドに基づき上記合併多視点ビデオに対応する応用シーンを獲得し、且つ上記合併多視点ビデオに対応する応用シーンに基づき上記合併多視点ビデオの復号又はレンダリング方式を決定する。
以下、図13及び14と併せて図12の実施例が提供する方法に対して例示的な説明を行う。第2機器及び第3機器はそれぞれドローンA及びドローンBであると仮定し(しかし、本願はこれに限定されない)、且つドローンA及びドローンBにそれぞれ2つのカメラ(すなわち、第1数量及び第2数量はいずれも2に等しいが、本願はこれに限定されず、実際のシーンに応じて設定できる)が取り付けられると仮定する。ドローンA及びドローンBを利用して同一シーンに対して多視点ビデオの収集及び撮影を行い、この場合に、ドローンAが第1多視点ビデオを収集して制作する過程において、第1多視点ビデオを対応させてカプセル化する第1カプセル化ファイルは以下の通りである。
application_type=1;
large_scale_atlas_flag=1:camera_count=4;camera_count_contained=2;
padding_size_depth=0;padding_size_texture=0;
{camera_id=1;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=1;texture_vetex =(0,0);depth_vetex = (0,100) }//視点1のテクスチャマップ及び視点1の深度マップ
{camera_id=2;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=1;texture_vetex =(100,0);depth_vetex = (100,100) }//視点2のテクスチャマップ及び視点2の深度マップ
以上のシステム記述は、図13の平面フレームの各領域のデータ構成に対応しており、ここでは上下スティッチング方式で例示的な説明を行う。
ドローンBは第2多視点ビデオを収集して制作する過程において、第2多視点ビデオを対応させてカプセル化する第2カプセル化ファイルは以下の通りである。
application_type=1;
large_scale_atlas_flag=1:camera_count=4;camera_count_contained=2;
padding_size_depth=0;padding_size_texture=0;
{camera_id=3;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=1;texture_vetex =(0,0);depth_vetex = (0,100) }//視点3のテクスチャマップ及び視点3の深度マップ
{camera_id=4;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=1;texture_vetex =(100,0);depth_vetex = (100,100) }//視点4のテクスチャマップ及び視点4の深度マップ
以上のシステム記述は、図14に示す平面フレームの各領域のデータ構成に対応する。
サーバ端末では、サーバ端末が異なるドローンにより撮影された後の第1カプセル化ファイル及び第2カプセル化ファイルを受信した後に、第1カプセル化ファイル及び第2カプセル化ファイルに対してカプセル化解除及び復号を行った後に、すべての深度マップ、及びテクスチャマップを合併し、且つ深度マップをダウンサンプリングした後に、合併多視点ビデオを得ると仮定する。
深度マップの重要性はテクスチャマップよりも低く、ダウンサンプリング後に、データ量を低減させることができる。本願の実施例はこのようなシナリオを示すが、このようなシナリオを限定する。
合併多視点ビデオをカプセル化した後に、以下に示すカプセル化ファイルを獲得できる。
application_type=1;
large_scale_atlas_flag=1:camera_count=4;camera_count_contained=4;
padding_size_depth=0;padding_size_texture=0;
{camera_id=1;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=1;texture_vetex =(0,0);depth_vetex = (0,200) }
{camera_id=2;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=1;texture_vetex =(100,0);depth_vetex = (50,200) }
{camera_id=3;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=1;texture_vetex =(0,100);depth_vetex = (100,200) }
{camera_id=4;camera_resolution_x=100;camera_resolution_y=100;
depth_downsample_factor=1;texture_vetex =(100,100);depth_vetex = (150,200) }
以上のシステム記述は、上記図9に示す平面フレームの各領域のデータ構成に対応する。
第1機器のクライアント端末はサーバ端末から送信される合併多視点ビデオのカプセル化ファイルを受信した後に、カプセル化ファイルにおける対応するフィールドを解析することによって、合併多視点ビデオの平面フレームの各領域を異なるカメラのテクスチャマップ、及び深度マップに対応付けることができる。さらに合併多視点ビデオのメディアストリームにおけるカメラパラメータ情報を復号することによって、平面フレームの各領域を3Dレンダリング表示領域に復元することができ、それにより合併多視点ビデオを消費することができる。
本願の実施形態が提供するメディアファイルのカプセル化方法は、6DoFメディアにおける多視点ビデオ応用に対して、ファイルカプセル化において多視点ビデオの深度マップ、及びテクスチャマップの関連情報を示す一種の方法を提案し、それにより多視点ビデオの異なる視点の深度マップ、及びテクスチャマップのカプセル化組み合わせ方式はより柔軟になり、異なる応用シーンをサポートすることができる。上記実施例に記載されるように、いくつかのシーンでは、異なる機器が撮影し、2つのファイルをカプセル化するようになるが、本願の実施例が提供する方法はこれら2つのファイルを関連付け、併せて消費することができる。そうでない場合、上記実施例において、2つのファイルをそれぞれ表示するしかできず、一緒に表示することができない。
本願の実施例が提供するメディアファイルのカプセル化解除方法は任意の電子機器により実行されてもよく、以下の例示的な説明においては、該メディアファイルのカプセル化解除方法が没入型システムの中間ノード、又は第1機器(例えば、プレーヤー端末)に応用されることを例として例示的な説明を行うが、本願はこれに限定されない。
図15は本願の一実施例によるメディアファイルのカプセル化解除方法のフローチャートを模式的に示す。図15に示すように、本願の実施例が提供する方法は以下のステップを含んでもよい。
ステップS1510では、ターゲットメディアコンテンツの当該ターゲットメディアコンテンツに対応する応用シーン下でのメディアストリームのカプセル化ファイルを受信し、上記カプセル化ファイルには第1応用シーンタイプフィールドが含まれ、上記第1応用シーンタイプフィールドは上記メディアストリームに対応する応用シーンを示すことに用いられる。
例示的な実施例において、上記方法は、上記ターゲットメディアコンテンツのターゲット記述ファイルを受信するステップであって、上記ターゲット記述ファイルには第2応用シーンタイプフィールドが含まれ、上記第2応用シーンタイプフィールドは上記メディアストリームに対応する応用シーンを示すことに用いられる、ステップと、上記第2応用シーンタイプフィールドに基づき、上記メディアストリームのカプセル化ファイルのうちターゲットメディアストリームのターゲットカプセル化ファイルを決定するステップと、をさらに含んでもよい。
相応には、ターゲットメディアコンテンツの当該ターゲットメディアコンテンツに対応する応用シーン下でのメディアストリームのカプセル化ファイルを受信するステップは、上記ターゲットカプセル化ファイルを受信し、上記ターゲットカプセル化ファイルにおける第1応用シーンタイプフィールドに基づき、上記ターゲットメディアストリームのターゲット応用シーンを決定するステップを含んでもよい。
ステップS1520では、上記カプセル化ファイルをカプセル化解除し、上記第1応用シーンタイプフィールドを獲得する。
ステップS1530では、上記第1応用シーンタイプフィールドに基づき、上記メディアストリームに対応する応用シーンを決定する。
ステップS1540では、上記メディアストリームに対応する応用シーンに基づき、上記メディアストリームの復号方式及びレンダリング方式のうちの少なくとも一種を決定する。
例示的な実施例において、もし上記第1応用シーンタイプフィールドの数値は上記メディアストリームが大規模アトラス情報の多視点ビデオであることを表す第2値であるなら、上記方法は、上記カプセル化ファイルを解析し、上記メディアストリームに含まれるカメラに対応する視点で収集されたテクスチャマップ及び深度マップと上記大規模アトラス情報における平面フレームとの間のマッピング関係を獲得するステップと、上記メディアストリームを復号し、上記メディアストリームにおけるカメラパラメータを獲得するステップと、上記マッピング関係及び上記カメラパラメータに基づき、3次元空間に上記多視点ビデオを表示するステップと、をさらに含んでもよい。
本願の実施例が提供するメディアファイルのカプセル化解除方法の他のコンテンツは上記の他の実施例におけるメディアファイルのカプセル化方法を参照できる。
本願の実施例が提供するメディアファイルのカプセル化装置は任意の電子機器に設置されてもよく、以下の例示的な説明において、没入型システムのサーバ端末に設置されることを例として例示的な説明を行うが、本願はこれに限定されない。
図16は本願の一実施例によるメディアファイルのカプセル化装置のブロック図を模式的に示す。図16に示すように、本願の実施例が提供するメディアファイルのカプセル化装置1600はメディアストリーム取得ユニット1610と、メディアストリームカプセル化ユニット1620と、カプセル化ファイル送信ユニット1630と、を含んでもよい。
本願の実施例において、メディアストリーム取得ユニット1610は、ターゲットメディアコンテンツの当該ターゲットメディアコンテンツに対応する応用シーン下でのメディアストリームを取得することに用いられてもよい。メディアストリームカプセル化ユニット1620は、上記メディアストリームをカプセル化し、上記メディアストリームのカプセル化ファイルを生成することに用いられてもよく、上記カプセル化ファイルには第1応用シーンタイプフィールドが含まれ、上記第1応用シーンタイプフィールドは上記メディアストリームに対応する応用シーンを示すことに用いられる。カプセル化ファイル送信ユニット1640は、上記カプセル化ファイルを第1機器に送信することにより上記第1機器は上記第1応用シーンタイプフィールドに基づき上記メディアストリームに対応する応用シーンを決定し、且つ上記メディアストリームに対応する応用シーンに基づき上記メディアストリームの復号方式及びレンダリング方式のうちの少なくとも一種を決定することに用いられてもよい。
本願の実施形態が提供するメディアファイルのカプセル化装置は、対応する応用シーン下でのメディアストリームのカプセル化ファイルを生成するときに、カプセル化ファイルにおいて第1応用シーンタイプフィールドを拡張し、該第1応用シーンタイプフィールドによって該メディアストリームに対応する応用シーンを示し、それによってメディアファイルのカプセル化において異なるメディアストリームに対応する応用シーンを区別することを実現する。一方では、該カプセル化ファイルを第1機器に送信するときに、該第1機器は該カプセル化ファイルにおける第1応用シーンタイプフィールドに基づき該メディアストリームの応用シーンを区別でき、それにより該メディアストリームに対応する応用シーンに基づき該メディアストリームに対してどの復号方式又はレンダリング方式を使用するかを決定でき、第1機器の演算能力及びリソースを節約できる。他方では、カプセル化段階でメディアストリームの応用シーンを決定できるため、第1機器がメディアストリームの復号能力を備えないとしても、該メディアストリームに対応する応用シーンを決定でき、区別できるために該メディアストリームを復号した後まで待つ必要がない。
例示的な実施例において、メディアストリームカプセル化ユニット1620は第1応用シーンタイプフィールド追加ユニットと、第1応用シーンタイプフィールド数値決定ユニットと、を含んでもよく、第1応用シーンタイプフィールド追加ユニットは、ターゲットメディアファイルフォーマットデータボックスのボリュメトリックビジュアルメディアヘッダーデータボックスにおいて上記第1応用シーンタイプフィールドを追加することに用いられてもよく、第1応用シーンタイプフィールド数値決定ユニットは、上記メディアストリームに対応する応用シーンに基づき、上記第1応用シーンタイプフィールドの数値を決定することに用いられてもよい。
例示的な実施例において、上記第1応用シーンタイプフィールドの数値は、上記メディアストリームが非大規模アトラス情報の多視点ビデオであることを表す第1値と、上記メディアストリームが大規模アトラス情報の多視点ビデオであることを表す第2値と、上記メディアストリームが従来のビデオ符号化方式に基づいて圧縮される点群メディアであることを表す第3値と、上記メディアストリームが幾何学的特徴に基づいて圧縮される点群メディアであることを表す第4値とのうちのいずれか1つを含んでもよい。
例示的な実施例において、上記第1応用シーンタイプフィールドの数値が上記第2値に等しい場合には、メディアファイルのカプセル化装置1600は、シングルトラック大規模アトラス識別子追加ユニットと、シングルトラックカメラ視点識別子追加ユニットと、シングルトラックテクスチャ深度マップ解像度追加ユニットと、をさらに含んでもよい。シングルトラック大規模アトラス識別子追加ユニットは、もし上記メディアストリームをシングルトラックに応じてカプセル化するなら、上記ターゲットメディアファイルフォーマットデータボックスのビットストリームサンプルエントリにおいて大規模アトラス識別子を追加することに用いられてもよい。シングルトラックカメラ視点識別子追加ユニットは、もし上記大規模アトラス識別子が上記メディアストリームが大規模アトラス情報の多視点ビデオであることを示すなら、上記ビットストリームサンプルエントリにおいて、上記メディアストリームを収集するカメラの数量識別子、及び上記メディアストリームの現在のファイルに含まれるカメラに対応する視点数識別子を追加することに用いられてもよい。シングルトラックテクスチャ深度マップ解像度追加ユニットは、上記ビットストリームサンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集されたテクスチャマップと深度マップとの解像度を追加することに用いられてもよい。
例示的な実施例において、メディアファイルのカプセル化装置1600は、シングルトラックダウンサンプリング倍数因子追加ユニット、シングルトラックテクスチャマップオフセット量追加ユニット、シングルトラック深度マップオフセット量追加ユニット、及びシングルトラックパディング幅追加ユニットのうちの少なくとも1つをさらに含んでもよい。シングルトラックダウンサンプリング倍数因子追加ユニットは、上記ビットストリームサンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集された深度マップのダウンサンプリング倍数因子を追加することに用いられてもよい。シングルトラックテクスチャマップオフセット量追加ユニットは、上記ビットストリームサンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集されたテクスチャマップの左上頂点の上記大規模アトラス情報における平面フレームの原点に対するオフセット量を追加することに用いられてもよい。シングルトラック深度マップオフセット量追加ユニットは、上記ビットストリームサンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集された深度マップの左上頂点の上記大規模アトラス情報における平面フレームの原点に対するオフセット量を追加することに用いられてもよい。シングルトラックパディング幅追加ユニットは、上記ビットストリームサンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集されたテクスチャマップと深度マップとのパディング幅を追加することに用いられてもよい。
例示的な実施例において、上記第1応用シーンタイプフィールドの数値が上記第2値に等しい場合には、メディアファイルのカプセル化装置1600は、マルチトラック大規模アトラス識別子追加ユニットと、マルチトラックカメラ視点識別子追加ユニットと、マルチトラックテクスチャ深度マップ解像度追加ユニットと、をさらに含んでもよい。マルチトラック大規模アトラス識別子追加ユニットは、もし上記メディアストリームをマルチトラックに応じてカプセル化するなら、上記ターゲットメディアファイルフォーマットデータボックスのサンプルエントリにおいて大規模アトラス識別子を追加することに用いられてもよい。マルチトラックカメラ視点識別子追加ユニットは、もし上記大規模アトラス識別子が上記メディアストリームが大規模アトラス情報の多視点ビデオであることを示すなら、上記サンプルエントリにおいて、上記メディアストリームを収集するカメラの数量識別子、及び上記メディアストリームの現在のファイルに含まれるカメラに対応する視点数識別子を追加することに用いられてもよい。マルチトラックテクスチャ深度マップ解像度追加ユニットは、上記サンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集されたテクスチャマップと深度マップとの解像度を追加することに用いられてもよい。
例示的な実施例において、メディアファイルのカプセル化装置1600は、マルチトラックダウンサンプリング倍数因子追加ユニット、マルチトラックテクスチャマップオフセット量追加ユニット、マルチトラック深度マップオフセット量追加ユニット、及びマルチトラックパディング幅追加ユニットのうちの少なくとも1つをさらに含んでもよい。マルチトラックダウンサンプリング倍数因子追加ユニットは、上記サンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集された深度マップのダウンサンプリング倍数因子を追加することに用いられてもよい。マルチトラックテクスチャマップオフセット量追加ユニットは、上記サンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集されたテクスチャマップの左上頂点の上記大規模アトラス情報における平面フレームの原点に対するオフセット量を追加することに用いられてもよい。マルチトラック深度マップオフセット量追加ユニットは、上記サンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集された深度マップの左上頂点の上記大規模アトラス情報における平面フレームの原点に対するオフセット量を追加することに用いられてもよい。マルチトラックパディング幅追加ユニットは、上記サンプルエントリにおいて、上記現在のファイルに含まれるカメラに対応する視点で収集されたテクスチャマップと深度マップとのパディング幅を追加することに用いられてもよい。
例示的な実施例において、メディアファイルのカプセル化装置1600は、ターゲット記述ファイル生成ユニットと、ターゲット記述ファイル送信ユニットと、をさらに含んでもよい。ターゲット記述ファイル生成ユニットは、上記ターゲットメディアコンテンツのターゲット記述ファイルを生成することに用いられてもよい。上記ターゲット記述ファイルには第2応用シーンタイプフィールドが含まれ、上記第2応用シーンタイプフィールドは上記メディアストリームに対応する応用シーンを示すことに用いられる。ターゲット記述ファイル送信ユニットは、上記ターゲット記述ファイルを上記第1機器に送信することにより上記第1機器は上記第2応用シーンタイプフィールドに基づき、上記メディアストリームのカプセル化ファイルのうちターゲットメディアストリームに対応するターゲットカプセル化ファイルを決定することに用いられてもよい。ここで、カプセル化ファイル送信ユニット1640はターゲットカプセル化ファイル送信ユニットを含んでもよく、ターゲットカプセル化ファイル送信ユニットは、上記ターゲットカプセル化ファイルを上記第1機器に送信することにより上記第1機器は上記ターゲットカプセル化ファイルにおける第1応用シーンタイプフィールドに基づき上記ターゲットメディアストリームに対応するターゲット応用シーンを決定することに用いられてもよい。
例示的な実施例において、ターゲット記述ファイル生成ユニットは、第2応用シーンタイプフィールド追加ユニットと、第2応用シーンタイプフィールド数値決定ユニットと、を含んでもよい。第2応用シーンタイプフィールド追加ユニットは、上記ターゲットメディアコンテンツのハイパーテキスト転送プロトコルに基づく動的自己適応ストリーミングメディア伝送のターゲット記述ファイルにおいて上記第2応用シーンタイプフィールドを追加することに用いられてもよい。第2応用シーンタイプフィールド数値決定ユニットは、上記メディアストリームに対応する応用シーンに基づき、上記第2応用シーンタイプフィールドの数値を決定することに用いられてもよい。
例示的な実施例において、メディアストリーム取得ユニット1620は、カプセル化ファイル受信ユニットと、カプセル化ファイルカプセル化解除ユニットと、多視点ビデオ復号ユニットと、多視点ビデオ合併ユニットと、を含んでもよい。カプセル化ファイル受信ユニットは、第2機器が送信する第1多視点ビデオの第1カプセル化ファイルと第3機器が送信する第2多視点ビデオの第2カプセル化ファイルとを受信することに用いられてもよい。カプセル化ファイルカプセル化解除ユニットは、上記第1カプセル化ファイル及び上記第2カプセル化ファイルをそれぞれカプセル化解除し、上記第1多視点ビデオ及び上記第2多視点ビデオを獲得することに用いられてもよい。多視点ビデオ復号ユニットは、上記第1多視点ビデオ及び上記第2多視点ビデオをそれぞれ復号し、上記第1多視点ビデオにおける第1深度マップ及び第1テクスチャマップ、並びに上記第2多視点ビデオにおける第2深度マップ及び第2テクスチャマップを獲得することに用いられてもよい。多視点ビデオ合併ユニットは、上記第1深度マップ、上記第2深度マップ、上記第1テクスチャマップ及び上記第2テクスチャマップに基づき、合併多視点ビデオを獲得することに用いられてもよい。
例示的な実施例において、上記第2機器において第1数量のカメラが取り付けられてもよく、上記第3機器において第2数量のカメラが取り付けられてもよい。上記第2機器及び上記第3機器はそれぞれ各自のカメラを利用して同一シーンに対して多視点ビデオの収集及び撮影を行い、上記第1多視点ビデオ及び上記第2多視点ビデオを獲得することができる。ここで、上記第1カプセル化ファイル及び上記第2カプセル化ファイルにはいずれも上記第1応用シーンタイプフィールドが含まれてもよく、且つ上記第1カプセル化ファイル及び上記第2カプセル化ファイルにおける第1応用シーンタイプフィールドの数値はそれぞれ、上記第1多視点ビデオ及び上記第2多視点ビデオが大規模アトラス情報の多視点ビデオであることを表すことに用いられる第2値であってもよい。
例示的な実施例において、上記メディアストリームは6自由度メディアストリーム、及び制限された6自由度メディアストリームを含んでもよい。
本願の実施例が提供するメディアファイルのカプセル化装置の各ユニットの具体的な実現は上記メディアファイルのカプセル化方法のコンテンツを参照できるため、ここでは重複して説明はしない。
本願の実施例が提供するメディアファイルのカプセル化解除装置は任意の電子機器に設置されてもよく、以下の例示的な説明において、没入型システムの中間ノード又は第1機器(例えば、プレーヤー端末)に設置されることを例として例示的な説明を行うが、本願はこれに限定されない。
図17は本願の一実施例によるメディアファイルのカプセル化解除装置のブロック図を模式的に示す。図17に示すように、本願の実施例が提供するメディアファイルのカプセル化解除装置1700は、カプセル化ファイル受信ユニット1710と、ファイルカプセル化解除ユニット1720と、応用シーン獲得ユニット1730と、復号レンダリング決定ユニット1740と、を含んでもよい。
本願の実施例において、カプセル化ファイル受信ユニット1710は、ターゲットメディアコンテンツの当該ターゲットメディアコンテンツに対応する応用シーン下でのメディアストリームのカプセル化ファイルを受信することに用いられてもよい。上記カプセル化ファイルには第1応用シーンタイプフィールドが含まれ、上記第1応用シーンタイプフィールドは上記メディアストリームに対応する応用シーンを示すことに用いられる。ファイルカプセル化解除ユニット1720は、上記カプセル化ファイルをカプセル化解除し、上記第1応用シーンタイプフィールドを獲得することに用いられてもよい。応用シーン獲得ユニット1730は、上記第1応用シーンタイプフィールドに基づき、上記メディアストリームに対応する応用シーンを決定することに用いられてもよい。復号レンダリング決定ユニット1740は、上記メディアストリームに対応する応用シーンに基づき、上記メディアストリームの復号方式及びレンダリング方式のうちの少なくとも一種を決定することに用いられてもよい。
例示的な実施例において、上記第1応用シーンタイプフィールドの数値が上記メディアストリームが大規模アトラス情報の多視点ビデオであることを表す第2値である場合には、メディアファイルのカプセル化解除装置1700は、カプセル化ファイル解析ユニットと、メディアストリーム復号ユニットと、多視点ビデオ表示ユニットと、をさらに含んでもよい。カプセル化ファイル解析ユニットは、上記カプセル化ファイルを解析し、上記メディアストリームに含まれるカメラに対応する視点で収集されたテクスチャマップ及び深度マップと上記大規模アトラス情報における平面フレームとの間のマッピング関係を獲得することに用いられてもよい。メディアストリーム復号ユニットは、上記メディアストリームを復号し、上記メディアストリームにおけるカメラパラメータを獲得することに用いられてもよい。多視点ビデオ表示ユニットは、上記マッピング関係及び上記カメラパラメータに基づき、3次元空間に上記多視点ビデオを表示することに用いられてもよい。
例示的な実施例において、メディアファイルのカプセル化解除装置1700は、ターゲット記述ファイル受信ユニットと、ターゲットカプセル化ファイル決定ユニットと、をさらに含んでもよい。ターゲット記述ファイル受信ユニットは、上記ターゲットメディアコンテンツのターゲット記述ファイルを受信することに用いられてもよく、上記ターゲット記述ファイルには第2応用シーンタイプフィールドが含まれ、上記第2応用シーンタイプフィールドは上記メディアストリームに対応する応用シーンを示すことに用いられ、ターゲットカプセル化ファイル決定ユニットは、上記第2応用シーンタイプフィールドに基づき、上記メディアストリームのカプセル化ファイルのうちターゲットメディアストリームのターゲットカプセル化ファイルを決定することに用いられてもよい。ここで、カプセル化ファイル受信ユニット1710はターゲット応用シーン決定ユニットを含んでもよく、ターゲット応用シーン決定ユニットは、上記ターゲットカプセル化ファイルを受信し、上記ターゲットカプセル化ファイルにおける第1応用シーンタイプフィールドに基づき、上記ターゲットメディアストリームのターゲット応用シーンを決定することに用いられてもよい。
本願の実施例が提供するメディアファイルのカプセル化解除装置の各ユニットの具体的な実現は上記メディアファイルのカプセル化解除方法のコンテンツを参照できるため、ここでは重複して説明はしない。
注意すべき点として、以上の詳細な記述では動作を実行することに用いられる機器の若干のユニットが言及されたが、このような分割は強制的なものではない。実際には、本願の実施形態に基づき、以上記述された2つ又はより多くのユニットの特徴及び機能は1つのユニットにおいて具体化されてもよい。逆に、以上記述された1つのユニットの特徴及び機能はさらに複数のユニットに分割して具体化されてもよい。
本願の実施例はコンピュータ可読記憶媒体を提供し、それにおいてコンピュータプログラムが記憶されており、上記プログラムがプロセッサにより実行されるときに、上記実施例における上記メディアファイルのカプセル化方法を実現する。
本願の実施例はコンピュータ可読記憶媒体を提供し、それにおいてコンピュータプログラムが記憶されており、上記プログラムがプロセッサにより実行されるときに、上記実施例における上記メディアファイルのカプセル化解除方法を実現する。
本願の実施例は電子機器を提供し、少なくとも1つのプロセッサと、少なくとも1つのプログラムを記憶するように配置される記憶装置と、を含み、上記少なくとも1つのプログラムが上記少なくとも1つのプロセッサにより実行されるときに、上記少なくとも1つのプロセッサに上記実施例における上記メディアファイルのカプセル化方法を実現させる。
本願の実施例は電子機器を提供し、少なくとも1つのプロセッサと、少なくとも1つのプログラムを記憶するように配置される記憶装置と、を含み、上記少なくとも1つのプログラムが上記少なくとも1つのプロセッサにより実行されるときに、上記少なくとも1つのプロセッサに上記実施例における上記メディアファイルのカプセル化解除方法を実現させる。
図18は本願の実施例を実現するために適する電子機器の構造模式図を示す。
説明する必要がある点として、図18に示す電子機器1800は単に一例であり、本願の実施例の機能及び使用範囲に何らの制限をもたらすものではない。
図18に示すように、電子機器1800は中央処理ユニット(CPU、Central Processing Unit)1801を含み、それは読み出し専用メモリ(ROM、Read-Only Memory)1802に記憶されるプログラム又は記憶部分1808からランダムアクセスメモリ(RAM、Random Access Memory)1803にロードされるプログラムに基づき、各種の適切な動作及び処理を実行することができる。RAM 1803には、システム操作に必要な各種のプログラム及びデータがさらに記憶されている。CPU 1801、ROM 1802及びRAM 1803はバス1804によって互いに連結される。入力/出力(input/output、I/O)インタフェース1805もバス1804に接続される。
キーボード及びマウスなどを含む入力部分1806と、例えばカソードレイチューブ(CRT、Cathode Ray Tube)、液晶ディスプレイ(LCD、Liquid Crystal Display)など及びスピーカなどを含む出力部分1807と、ハードディスクなどを含む記憶部分1808と、例えばLAN(Local Area Network、ローカルエリアネットワーク)カード、及びモデムなどのネットワークインタフェースカードを含む通信部分1809とは、I/Oインタフェース1805に接続される。通信部分1809は例えばインターネットのようなネットワークを経由して通信処理を実行する。ドライバ1810も必要に応じてI/Oインタフェース1805に接続される。例えば磁気ディスク、光ディスク、光磁気ディスク、及び半導体メモリなどのような取り外し可能な媒体1811は、必要に応じてドライバ1810に取り付けられ、それによりそれから読み出したコンピュータプログラムは必要に応じて記憶部分1808にインストールされる。
特に、本願の実施例によれば、以下でフローチャートを参照して記述される過程はコンピュータソフトウェアプログラムとして実現されてもよい。例えば、本願の実施例は一種のコンピュータプログラム製品を含み、それはコンピュータ可読記憶媒体に載せられるコンピュータプログラムを含み、該コンピュータプログラムはフローチャートに示す方法を実行することに用いられるプログラムコードを含む。このような実施例において、該コンピュータプログラムは通信部分1809によってネットワークからダウンロード及びインストールされ、及び/又は取り外し可能な媒体1811からインストールされるようにしてもよい。該コンピュータプログラムが中央処理ユニット(CPU)1801により実行されるときに、本願の方法及び/又は装置に限定された各種の機能を実行する。
説明する必要がある点として、本願に示すコンピュータ可読記憶媒体はコンピュータ可読信号媒体又はコンピュータ可読記憶媒体又は上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は任意の以上の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例は、少なくとも1つの導線を有する電気的接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROM(Erasable Programmable Read Only Memory、消去可能プログラマブル読み出し専用メモリ)又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は上記任意の適切な組み合わせを含んでもよいが、これらに限定されない。本願では、コンピュータ可読記憶媒体はプログラムを含む又は記憶する何らの有形媒体であってもよく、該プログラムは命令実行システム、装置又はデバイスに使用される又はそれと併せて使用されるようにしてもよい。本願では、コンピュータ可読信号媒体はベースバンドで又は搬送波の一部として伝播されるデータ信号を含んでもよく、ここでコンピュータ可読プログラムコードが載せられている。このように伝播されるデータ信号は複数種の形式を採用でき、電磁信号、光信号又は上記任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体はさらにコンピュータ可読記憶媒体を除く何らのコンピュータ可読記憶媒体であってもよく、該コンピュータ可読記憶媒体は、命令実行システム、装置又はデバイスに使用される又はそれと併せて使用されることに用いられるプログラムを送信、伝播又は伝送することができる。コンピュータ可読記憶媒体に含まれるプログラムコードは何らの適切な媒体で伝送されてもよく、無線、ワイヤ、光ケーブル、RF(Radio Frequency、無線周波数)など、又は上記任意の適切な組み合わせを含むが、これらに限定されない。
図面におけるフローチャート及びブロック図は、本願の各種の実施例による方法、装置及びコンピュータプログラム製品の実現可能な体系アーキテクチャ、機能及び操作を図示した。この点では、フローチャート又はブロック図における各ブロックは1つのモジュール、プログラムセグメント、又はコードの一部を表すことができ、上記モジュール、プログラムセグメント、又はコードの一部は所定のロジック機能を実現することに用いられる少なくとも1つの実行可能命令を含む。さらに注意すべき点として、いくつかの代替としての実施においては、ブロックにおいてマークされた機能は図面にマークされた順序とは異なる順序で発生してもよい。例えば、連続して示される2つのブロックは実際にほぼ並行に実行されてもよく、場合によってそれらは逆の順序で実行されてもよく、これは関する機能に依存して決められる。さらに注意する必要がある点として、ブロック図又はフローチャートにおける各ブロック、及びブロック図又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行する専用のハードウェアに基づくシステムで実現されてもよく、又は専用ハードウェアとコンピュータ命令との組み合わせで実現されてもよい。
本願の実施例の記述において関するユニットはソフトウェアの方式によって実現されてもよく、ハードウェアの方式によって実現されてもよく、記述されたユニットはプロセッサ内に設置されてもよい。ここで、ある場合には、これらのユニットの名称は該ユニット自体に対する限定を構成しない。
別の態様として、本願はさらにコンピュータ可読記憶媒体を提供し、該コンピュータ可読記憶媒体は上記実施例で記述された電子機器に含まれてもよく、該電子機器内に組み立てられずに単独で存在してもよい。上記コンピュータ可読記憶媒体に1つ又は複数のプログラムが載せられており、上記1つ又は複数のプログラムが1つの該電子機器により実行されるときに、該電子機器に下記実施例に記載の方法を実現させる。例えば、上記電子機器は図4又は図5又は図6又は図10又は図11又は図12又は図15に示す各ステップを実現できる。
以上の実施形態の記述によって当業者が容易に理解できるように、ここで記述される例示的な実施形態はソフトウェアによって実現されてもよく、ソフトウェアと必要なハードウェアとを併せる方式によって実現されてもよい。従って、本願の実施形態による技術的手段はソフトウェア製品の形式で具現化でき、該ソフトウェア製品は1つの不揮発性記憶媒体(CD-ROM、Uディスク、モバイルハードディスクなどであってもよい)又はネットワークにおいて記憶されてもよく、若干の命令を含み、それにより1台の計算機器(パーソナルコンピュータ、サーバ、タッチ制御端末、又はネットワーク機器などであってもよい)に本願の実施形態による方法を実行させる。
当業者は明細書を考慮し及びここで出願された発明を実施した後に、本願の他の実施手段を容易に想到できる。本願は本願の何らの変形、用途又は適応的な変化をカバーすることを意図し、これらの変形、用途又は適応的な変化は本願の一般的な原理に従い、本願により出願されていない本技術分野における公知の常識又は慣用の技術手段を含む。明細書及び実施例は単に例示的なものとしてみなされ、本願の実際の範囲及び精神は以下の特許請求の範囲により定められる。
理解されるように、本願は以上で既に記述され且つ図面に示した精確な構造に限定されず、且つその範囲を逸脱せずに各種の変更や変化を行うことができる。本願の範囲は添付する特許請求の範囲のみにより制限される。
1600 カプセル化装置
1610 メディアストリーム取得ユニット
1620 メディアストリームカプセル化ユニット
1630 カプセル化ファイル送信ユニット
1640 カプセル化ファイル送信ユニット
1700 カプセル化解除装置
1710 カプセル化ファイル受信ユニット
1720 ファイルカプセル化解除ユニット
1730 応用シーン獲得ユニット
1740 復号レンダリング決定ユニット
1800 電子機器
1801 中央処理ユニット
1802 専用メモリ
1803 ランダムアクセスメモリ
1804 バス
1805 I/Oインタフェース
1806 入力部分
1807 出力部分
1808 記憶部分
1809 通信部分
1810 ドライバ
1811 媒体

Claims (17)

  1. 電子機器により実行される、メディアファイルのカプセル化方法であって、
    ターゲットメディアコンテンツの当該ターゲットメディアコンテンツに対応する応用シーン下でのメディアストリームを取得するステップと、
    ターゲットメディアファイルフォーマットデータボックスのボリュメトリックビジュアルメディアヘッダーデータボックスに、前記メディアストリームに対応する応用シーンのタイプを示す第1応用シーンタイプフィールドを追加し、前記メディアストリームに対応する応用シーンに基づき前記第1応用シーンタイプフィールドの数値を決定することで前記メディアストリームをカプセル化し、前記メディアストリームのカプセル化ファイルを生成するステップと、
    前記カプセル化ファイルを第1機器に送信することにより前記第1機器は前記第1応用シーンタイプフィールドに基づき前記メディアストリームに対応する応用シーンを決定し、且つ前記メディアストリームに対応する応用シーンに基づき前記メディアストリームの復号方式及びレンダリング方式のうちの少なくとも一種を決定するステップと、を含む、メディアファイルのカプセル化方法。
  2. 前記第1応用シーンタイプフィールドの数値は、
    前記メディアストリームが非大規模アトラス情報の多視点ビデオであることを表す第1値と、
    前記メディアストリームが大規模アトラス情報の多視点ビデオであることを表す第2値と、
    前記メディアストリームが従来のビデオ符号化方式に基づいて圧縮される点群メディアであることを表す第3値と、
    前記メディアストリームが幾何学的特徴に基づいて圧縮される点群メディアであることを表す第4値と、
    のうちのいずれか1つを含む、請求項に記載のメディアファイルのカプセル化方法。
  3. 前記第1応用シーンタイプフィールドの数値が前記第2値に等しい場合には、前記方法は、
    もし前記メディアストリームをシングルトラックに応じてカプセル化するなら、前記ターゲットメディアファイルフォーマットデータボックスのビットストリームサンプルエントリにおいて大規模アトラス識別子を追加するステップと、
    もし前記大規模アトラス識別子が前記メディアストリームが大規模アトラス情報の多視点ビデオであることを示すなら、前記ビットストリームサンプルエントリにおいて、前記メディアストリームを収集するカメラの数量識別子、及び前記メディアストリームの現在のファイルに含まれるカメラに対応する視点数識別子を追加するステップと、
    前記ビットストリームサンプルエントリにおいて、前記現在のファイルに含まれるカメラに対応する視点で収集されたテクスチャマップと深度マップとの解像度を追加するステップと、をさらに含む、請求項に記載のメディアファイルのカプセル化方法。
  4. 前記方法は、
    前記ビットストリームサンプルエントリにおいて、前記現在のファイルに含まれるカメラに対応する視点で収集された深度マップのダウンサンプリング倍数因子を追加する方式と、
    前記ビットストリームサンプルエントリにおいて、前記現在のファイルに含まれるカメラに対応する視点で収集されたテクスチャマップの左上頂点の前記大規模アトラス情報における平面フレームの原点に対するオフセット量を追加する方式と、
    前記ビットストリームサンプルエントリにおいて、前記現在のファイルに含まれるカメラに対応する視点で収集された深度マップの左上頂点の前記大規模アトラス情報における平面フレームの原点に対するオフセット量を追加する方式と、
    前記ビットストリームサンプルエントリにおいて、前記現在のファイルに含まれるカメラに対応する視点で収集されたテクスチャマップと深度マップとのパディング幅を追加する方式と、
    のうちの少なくとも一種の情報追加方式をさらに含む、請求項に記載のメディアファイルのカプセル化方法。
  5. 前記第1応用シーンタイプフィールドの数値が前記第2値に等しい場合には、前記方法は、
    もし前記メディアストリームをマルチトラックに応じてカプセル化するなら、前記ターゲットメディアファイルフォーマットデータボックスのサンプルエントリにおいて大規模アトラス識別子を追加するステップと、
    もし前記大規模アトラス識別子が前記メディアストリームが大規模アトラス情報の多視点ビデオであることを示すなら、前記サンプルエントリにおいて、前記メディアストリームを収集するカメラの数量識別子、及び前記メディアストリームの現在のファイルに含まれるカメラに対応する視点数識別子を追加するステップと、
    前記サンプルエントリにおいて、前記現在のファイルに含まれるカメラに対応する視点で収集されたテクスチャマップと深度マップとの解像度を追加するステップと、をさらに含む、請求項に記載のメディアファイルのカプセル化方法。
  6. 前記方法は、
    前記ターゲットメディアコンテンツのターゲット記述ファイルを生成するステップであって、前記ターゲット記述ファイルには前記メディアストリームに対応する応用シーンのタイプを示す第2応用シーンタイプフィールドが含まれる、ステップと、
    前記ターゲット記述ファイルを前記第1機器に送信することにより前記第1機器は前記第2応用シーンタイプフィールドに基づき、前記メディアストリームのカプセル化ファイルのうちターゲットメディアストリームに対応するターゲットカプセル化ファイルを決定するステップと、をさらに含み、
    前記カプセル化ファイルを第1機器に送信することにより前記第1機器は前記第1応用シーンタイプフィールドに基づき前記メディアストリームに対応する応用シーンを決定することは、
    前記ターゲットカプセル化ファイルを前記第1機器に送信することにより前記第1機器は前記ターゲットカプセル化ファイルにおける第1応用シーンタイプフィールドに基づき前記ターゲットメディアストリームに対応するターゲット応用シーンを決定するステップを含む、請求項1に記載のメディアファイルのカプセル化方法。
  7. 前記ターゲットメディアコンテンツのターゲット記述ファイルを生成する前記ステップは、
    前記ターゲットメディアコンテンツのハイパーテキスト転送プロトコルに基づく動的自己適応ストリーミングメディア伝送のターゲット記述ファイルにおいて前記第2応用シーンタイプフィールドを追加するステップと、
    前記メディアストリームに対応する応用シーンに基づき、前記第2応用シーンタイプフィールドの数値を決定するステップと、を含む、請求項に記載のメディアファイルのカプセル化方法。
  8. ターゲットメディアコンテンツの当該ターゲットメディアコンテンツに対応する応用シーン下でのメディアストリームを取得する前記ステップは、
    第2機器が送信する第1多視点ビデオの第1カプセル化ファイルと第3機器が送信する第2多視点ビデオの第2カプセル化ファイルとを受信するステップと、
    前記第1カプセル化ファイル及び前記第2カプセル化ファイルをそれぞれカプセル化解除し、前記第1多視点ビデオ及び前記第2多視点ビデオを獲得するステップと、
    前記第1多視点ビデオ及び前記第2多視点ビデオをそれぞれ復号し、前記第1多視点ビデオにおける第1深度マップ及び第1テクスチャマップ、並びに前記第2多視点ビデオにおける第2深度マップ及び第2テクスチャマップを獲得するステップと、
    前記第1深度マップ、前記第2深度マップ、前記第1テクスチャマップ及び前記第2テクスチャマップに基づき、合併多視点ビデオを獲得するステップと、を含む、請求項1に記載のメディアファイルのカプセル化方法。
  9. 前記第2機器において第1数量のカメラが取り付けられ、前記第3機器において第2数量のカメラが取り付けられ、前記第2機器及び前記第3機器はそれぞれ各自のカメラを利用して同一シーンに対して多視点ビデオの収集及び撮影を行い、前記第1多視点ビデオ及び前記第2多視点ビデオを獲得し、
    前記第1カプセル化ファイル及び前記第2カプセル化ファイルにはいずれも前記第1応用シーンタイプフィールドが含まれ、且つ前記第1カプセル化ファイル及び前記第2カプセル化ファイルにおける第1応用シーンタイプフィールドの数値はそれぞれ、前記第1多視点ビデオ及び前記第2多視点ビデオが大規模アトラス情報の多視点ビデオであることを表すことに用いられる第2値である、請求項に記載のメディアファイルのカプセル化方法。
  10. 前記メディアストリームは6自由度メディアストリーム、及び制限された6自由度メディアストリームを含む、請求項1~のいずれか一項に記載のメディアファイルのカプセル化方法。
  11. 電子機器により実行される、メディアファイルのカプセル化解除方法であって、
    ターゲットメディアコンテンツの当該ターゲットメディアコンテンツに対応する応用シーン下でのメディアストリームのカプセル化ファイルを受信するステップであって、前記カプセル化ファイルのターゲットメディアファイルフォーマットデータボックスのボリュメトリックビジュアルメディアヘッダーデータボックスには前記メディアストリームに対応する応用シーンのタイプを示す第1応用シーンタイプフィールドが含まれる、ステップと、
    前記カプセル化ファイルをカプセル化解除し、前記第1応用シーンタイプフィールドを獲得するステップと、
    前記第1応用シーンタイプフィールドに基づき、前記メディアストリームに対応する応用シーンを決定するステップと、
    前記メディアストリームに対応する応用シーンに基づき、前記メディアストリームの復号方式及びレンダリング方式のうちの少なくとも一種を決定するステップと、を含む、メディアファイルのカプセル化解除方法。
  12. 前記第1応用シーンタイプフィールドの数値は前記メディアストリームが大規模アトラス情報の多視点ビデオであることを表すことに用いられる第2値である場合には、前記方法は、
    前記カプセル化ファイルを解析し、前記メディアストリームに含まれるカメラに対応する視点で収集されたテクスチャマップ及び深度マップと前記大規模アトラス情報における平面フレームとの間のマッピング関係を獲得するステップと、
    前記メディアストリームを復号し、前記メディアストリームにおけるカメラパラメータを獲得するステップと、
    前記マッピング関係及び前記カメラパラメータに基づき、3次元空間に前記多視点ビデオを表示するステップと、をさらに含む、請求項11に記載のメディアファイルのカプセル化解除方法。
  13. 前記方法は、
    前記ターゲットメディアコンテンツのターゲット記述ファイルを受信するステップであって、前記ターゲット記述ファイルには前記メディアストリームに対応する応用シーンのタイプを示す第2応用シーンタイプフィールドが含まれる、ステップと、
    前記第2応用シーンタイプフィールドに基づき、前記メディアストリームのカプセル化ファイルのうちターゲットメディアストリームのターゲットカプセル化ファイルを決定するステップと、をさらに含み、
    ターゲットメディアコンテンツの当該ターゲットメディアコンテンツに対応する応用シーン下でのメディアストリームのカプセル化ファイルを受信する前記ステップは、
    前記ターゲットカプセル化ファイルを受信し、前記ターゲットカプセル化ファイルにおける第1応用シーンタイプフィールドに基づき、前記ターゲットメディアストリームのターゲット応用シーンを決定するステップを含む、請求項11または12に記載のメディアファイルのカプセル化解除方法。
  14. メディアファイルのカプセル化装置であって、
    ターゲットメディアコンテンツの当該ターゲットメディアコンテンツに対応する応用シーン下でのメディアストリームを取得することに用いられるメディアストリーム取得ユニットと、
    ターゲットメディアファイルフォーマットデータボックスのボリュメトリックビジュアルメディアヘッダーデータボックスに、前記メディアストリームに対応する応用シーンのタイプを示す第1応用シーンタイプフィールドを追加し、前記メディアストリームに対応する応用シーンに基づき前記第1応用シーンタイプフィールドの数値を決定することで前記メディアストリームをカプセル化し、前記メディアストリームのカプセル化ファイルを生成することに用いられるメディアストリームカプセル化ユニットであって、前記カプセル化ファイルには前記メディアストリームに対応する応用シーンのタイプを示す第1応用シーンタイプフィールドが含まれる、メディアストリームカプセル化ユニットと、
    前記カプセル化ファイルを第1機器に送信することにより前記第1機器は前記第1応用シーンタイプフィールドに基づき前記メディアストリームに対応する応用シーンを決定し、且つ前記メディアストリームに対応する応用シーンに基づき前記メディアストリームの復号方式及びレンダリング方式のうちの少なくとも一種を決定することに用いられるカプセル化ファイル送信ユニットと、を含む、メディアファイルのカプセル化装置。
  15. メディアファイルのカプセル化解除装置であって、
    ターゲットメディアコンテンツの当該ターゲットメディアコンテンツに対応する応用シーン下でのメディアストリームのカプセル化ファイルを受信することに用いられるカプセル化ファイル受信ユニットであって、前記カプセル化ファイルのターゲットメディアファイルフォーマットデータボックスのボリュメトリックビジュアルメディアヘッダーデータボックスには前記メディアストリームに対応する応用シーンのタイプを示す第1応用シーンタイプフィールドが含まれる、カプセル化ファイル受信ユニットと、
    前記カプセル化ファイルをカプセル化解除し、前記第1応用シーンタイプフィールドを獲得することに用いられるファイルカプセル化解除ユニットと、
    前記第1応用シーンタイプフィールドに基づき、前記メディアストリームに対応する応用シーンを決定することに用いられる応用シーン獲得ユニットと、
    前記メディアストリームに対応する応用シーンに基づき、前記メディアストリームの復号方式及びレンダリング方式のうちの少なくとも一種を決定することに用いられる復号レンダリング決定ユニットと、を含む、メディアファイルのカプセル化解除装置。
  16. 電子機器であって、
    少なくとも1つのプロセッサと、
    少なくとも1つのプログラムを記憶するように配置される記憶装置と、を含み、前記少なくとも1つのプログラムが前記少なくとも1つのプロセッサにより実行されるときに、前記少なくとも1つのプロセッサに請求項1~10のいずれか一項に記載のメディアファイルのカプセル化方法又は請求項1113のいずれか一項に記載のメディアファイルのカプセル化解除方法を実現させる、電子機器。
  17. コンピュータプログラムであって、命令を含み、コンピュータ上で作動されるときに、コンピュータに請求項1~10のいずれか一項に記載のメディアファイルのカプセル化方法又は請求項1113のいずれか一項に記載のメディアファイルのカプセル化解除方法を実行させる、コンピュータプログラム。
JP2022561600A 2020-10-14 2021-09-16 メディアファイルのカプセル化方法、メディアファイルのカプセル化解除方法及び関連機器 Active JP7471731B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011098190.7 2020-10-14
CN202011098190.7A CN114374675B (zh) 2020-10-14 2020-10-14 媒体文件的封装方法、媒体文件的解封装方法及相关设备
PCT/CN2021/118755 WO2022078148A1 (zh) 2020-10-14 2021-09-16 媒体文件的封装方法、媒体文件的解封装方法及相关设备

Publications (2)

Publication Number Publication Date
JP2023520736A JP2023520736A (ja) 2023-05-18
JP7471731B2 true JP7471731B2 (ja) 2024-04-22

Family

ID=81138930

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022561600A Active JP7471731B2 (ja) 2020-10-14 2021-09-16 メディアファイルのカプセル化方法、メディアファイルのカプセル化解除方法及び関連機器

Country Status (6)

Country Link
US (1) US12107908B2 (ja)
EP (1) EP4231609A4 (ja)
JP (1) JP7471731B2 (ja)
KR (1) KR102661694B1 (ja)
CN (2) CN116248642A (ja)
WO (1) WO2022078148A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118200611A (zh) * 2022-12-13 2024-06-14 上海交通大学 视频文件发送和接收方法、装置、计算机可读存储介质
CN118471236A (zh) * 2023-02-07 2024-08-09 腾讯科技(深圳)有限公司 一种音频编解码方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018137817A (ja) 2012-10-04 2018-08-30 インテル・コーポレーション 3dビデオコーディングのための予測パラメータ継承
CN108833937A (zh) 2018-05-30 2018-11-16 华为技术有限公司 视频处理方法和装置
US20190114830A1 (en) 2017-10-13 2019-04-18 Samsung Electronics Co., Ltd. 6dof media consumption architecture using 2d video decoder
WO2020137642A1 (ja) 2018-12-28 2020-07-02 ソニー株式会社 情報処理装置および情報処理方法
WO2020166612A1 (ja) 2019-02-12 2020-08-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 三次元データ多重化方法、三次元データ逆多重化方法、三次元データ多重化装置、及び三次元データ逆多重化装置
JP2021528891A (ja) 2018-06-27 2021-10-21 キヤノン株式会社 メディアコンテンツを送信する方法、装置及びコンピュータプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120212579A1 (en) * 2009-10-20 2012-08-23 Telefonaktiebolaget Lm Ericsson (Publ) Method and Arrangement for Multi-View Video Compression
GB2524478A (en) * 2014-03-20 2015-09-30 Nokia Technologies Oy Method, apparatus and computer program product for filtering of media content
CN108616751B (zh) * 2016-12-12 2023-05-12 上海交通大学 媒体信息的处理方法、装置及系统
WO2018120294A1 (zh) * 2016-12-30 2018-07-05 华为技术有限公司 一种信息的处理方法及装置
WO2018177373A1 (en) * 2017-03-30 2018-10-04 Mediatek Inc. Method and apparatus for signaling spherical region information in isobmff
US11140380B2 (en) * 2018-06-06 2021-10-05 Lg Electronics Inc. Method and apparatus for processing overlay media in 360 degree video system
CN113178019B (zh) * 2018-07-09 2023-01-03 上海交通大学 基于视频内容的指示信息标识方法、系统及存储介质
CN110704673B (zh) * 2018-07-09 2022-09-23 上海交通大学 基于视频内容消费的反馈信息标识方法、系统及存储介质
CN112513938A (zh) * 2018-08-06 2021-03-16 松下电器(美国)知识产权公司 三维数据保存方法、三维数据获得方法、三维数据保存装置以及三维数据获得装置
CN110944222B (zh) * 2018-09-21 2021-02-12 上海交通大学 沉浸媒体内容随用户移动变化的方法及系统
CN111435991B (zh) * 2019-01-11 2021-09-28 上海交通大学 基于分组的点云码流封装方法和系统
CN113615207A (zh) * 2019-03-21 2021-11-05 Lg电子株式会社 点云数据发送装置、点云数据发送方法、点云数据接收装置和点云数据接收方法
WO2021025251A1 (ko) * 2019-08-08 2021-02-11 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법
KR102373833B1 (ko) * 2020-01-09 2022-03-14 엘지전자 주식회사 포인트 클라우드 데이터 송신 장치, 포인트 클라우드 데이터 송신 방법, 포인트 클라우드 데이터 수신 장치 및 포인트 클라우드 데이터 수신 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018137817A (ja) 2012-10-04 2018-08-30 インテル・コーポレーション 3dビデオコーディングのための予測パラメータ継承
US20190114830A1 (en) 2017-10-13 2019-04-18 Samsung Electronics Co., Ltd. 6dof media consumption architecture using 2d video decoder
CN108833937A (zh) 2018-05-30 2018-11-16 华为技术有限公司 视频处理方法和装置
JP2021528891A (ja) 2018-06-27 2021-10-21 キヤノン株式会社 メディアコンテンツを送信する方法、装置及びコンピュータプログラム
WO2020137642A1 (ja) 2018-12-28 2020-07-02 ソニー株式会社 情報処理装置および情報処理方法
WO2020166612A1 (ja) 2019-02-12 2020-08-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 三次元データ多重化方法、三次元データ逆多重化方法、三次元データ多重化装置、及び三次元データ逆多重化装置

Also Published As

Publication number Publication date
EP4231609A4 (en) 2024-03-13
US20230034937A1 (en) 2023-02-02
JP2023520736A (ja) 2023-05-18
KR20220160646A (ko) 2022-12-06
KR102661694B1 (ko) 2024-04-26
CN114374675B (zh) 2023-02-28
US12107908B2 (en) 2024-10-01
CN114374675A (zh) 2022-04-19
EP4231609A1 (en) 2023-08-23
CN116248642A (zh) 2023-06-09
WO2022078148A1 (zh) 2022-04-21

Similar Documents

Publication Publication Date Title
CN108702528B (zh) 发送360视频的方法、接收360视频的方法、发送360视频的设备和接收360视频的设备
JP6984841B2 (ja) イメージ処理方法、端末およびサーバ
JP7058273B2 (ja) 情報処理方法および装置
WO2020002122A1 (en) Method, device, and computer program for transmitting media content
WO2023029858A1 (zh) 点云媒体文件的封装与解封装方法、装置及存储介质
KR20210016530A (ko) 미디어 콘텐츠 전송을 위한 방법, 디바이스, 및 컴퓨터 프로그램
JP7471731B2 (ja) メディアファイルのカプセル化方法、メディアファイルのカプセル化解除方法及び関連機器
CN113891117B (zh) 沉浸媒体的数据处理方法、装置、设备及可读存储介质
WO2024041239A1 (zh) 一种沉浸媒体的数据处理方法、装置、设备、存储介质及程序产品
WO2023061131A1 (zh) 媒体文件封装方法、装置、设备及存储介质
WO2023226504A1 (zh) 一种媒体数据处理方法、装置、设备以及可读存储介质
WO2023024839A1 (zh) 媒体文件封装与解封装方法、装置、设备及存储介质
WO2023024841A1 (zh) 点云媒体文件的封装与解封装方法、装置及存储介质
WO2022193875A1 (zh) 多视角视频的处理方法、装置、设备及存储介质
WO2023016293A1 (zh) 自由视角视频的文件封装方法、装置、设备及存储介质
WO2023024843A1 (zh) 媒体文件封装与解封装方法、设备及存储介质
WO2023169003A1 (zh) 点云媒体的解码方法、点云媒体的编码方法及装置
TWI796989B (zh) 沉浸媒體的數據處理方法、裝置、相關設備及儲存媒介
WO2024114519A1 (zh) 点云封装与解封装方法、装置、介质及电子设备
WO2023169004A1 (zh) 点云媒体的数据处理方法、装置、设备及介质
JP2024538232A (ja) データ処理方法、記憶媒体、及びプログラム製品
CN116137664A (zh) 点云媒体文件封装方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221007

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240404

R150 Certificate of patent or registration of utility model

Ref document number: 7471731

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150