JP2024513445A - 動的dashピクチャ・イン・ピクチャ・ストリーミングのための方法及び装置 - Google Patents

動的dashピクチャ・イン・ピクチャ・ストリーミングのための方法及び装置 Download PDF

Info

Publication number
JP2024513445A
JP2024513445A JP2023561377A JP2023561377A JP2024513445A JP 2024513445 A JP2024513445 A JP 2024513445A JP 2023561377 A JP2023561377 A JP 2023561377A JP 2023561377 A JP2023561377 A JP 2023561377A JP 2024513445 A JP2024513445 A JP 2024513445A
Authority
JP
Japan
Prior art keywords
picture
video stream
main
descriptor
video content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023561377A
Other languages
English (en)
Inventor
イーラジ・ソダガー
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2024513445A publication Critical patent/JP2024513445A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/612Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/45Picture in picture, e.g. displaying simultaneously another television channel in a region of the screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/65Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/764Media network packet handling at the destination 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/64Addressing
    • H04N21/6408Unicasting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • H04N21/6437Real-time Transport Protocol [RTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

メディアストリーミング中にピクチャ・イン・ピクチャ・ビデオを動的にシグナリングするための方法及び装置が提供され得る。方法は、第1のメインビデオストリームと関連付けられた第1のロール値及び第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられた第2のロール値に基づいてビデオデータが第1のメインビデオストリーム及び第2のピクチャ・イン・ピクチャ・ビデオストリームを含むかどうかを決定するステップと、第2のピクチャ・イン・ピクチャ・ビデオストリームがDASHメディアストリーミングにおいて第1のメインビデオストリームとシグナリングされるように選択されることを示す事前選択記述子を決定するステップと、事前選択記述子を用いて、第1のメインビデオストリームと第2のピクチャ・イン・ピクチャ・ビデオストリームとを結合ビデオストリームとしてマージするステップと、更新メディアプレゼンテーション記述子(MPD)を用いて事前選択記述子を更新するステップとを含みうる。

Description

関連出願の相互参照
本出願は、その内容が参照により全体的に本願に明示的に組み入れられる、2021年10月5日に出願された米国仮特許出願第63/252,398号及び2022年9月21日に出願された米国特許出願第17/949,528号に基づく優先権を主張する。
本開示の実施形態は、ストリーミングメディアコンテンツに関し、より詳細には、Moving Picture Experts Group(MPEG)ハイパーテキスト転送プロトコルによる動的適応型ストリーミング(Dynamic Adaptive Streaming over hypertext transfer protocol)(DASH)によるピクチャ・イン・ピクチャ・コンテンツのストリーミングに関する。
MPEG DASHは、IPネットワークを介してメディアコンテンツをストリーミングするための規格を提供する。MPEG DASHでは、DASHマニフェストであるメディアプレゼンテーション記述子(MPD)により、様々なコンテンツを記述することができるが、DASHにおける明示的なピクチャ・イン・ピクチャ・シグナリングを提供することができない。更に、従来技術における暗黙的な方法は、ピクチャ・イン・ピクチャ・シグナリングのための相互運用可能な方法又は解決策を提供することもできない。
したがって、明示的な拡張及び既存のDASH規格を用いてピクチャ・イン・ピクチャ・メディアストリーミングを配信するための方法が必要とされている。
本開示は1つ以上の技術的課題に対処する。本開示は、DASHストリーミングを使用してピクチャ・イン・ピクチャ・メディアコンテンツを実装するための方法、プロセス、装置、及び、非一時的コンピュータ可読媒体を含む。更に、本開示の実施形態はまた、ストリーミングセッション中にピクチャ・イン・ピクチャ・メディアコンテンツの位置、サイズ、解像度などを動的に更新することに関連する。
本開示の実施形態は、動的適応型HTTPストリーミング(DASH)メディアストリーミング中にピクチャ・イン・ピクチャ・ビデオを動的にシグナリングするための方法を提供しうる。方法は、プロセッサによって実行されてもよく、ビデオデータが第1のメインビデオストリーム及び第2のピクチャ・イン・ピクチャ・ビデオストリームを含むかどうかを、第1のメインビデオストリームと関連付けられた第1のロール値及び第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられた第2のロール値に基づいて決定するステップと、DASHメディアストリーミングにおいて第1のメインビデオストリームとシグナリングされるように第2のピクチャ・イン・ピクチャ・ビデオストリームが選択されることを示す事前選択記述子を決定するステップと、事前選択記述子を用いて、第1のメインビデオストリームと第2のピクチャ・イン・ピクチャ・ビデオストリームとを結合ビデオストリームとしてマージするステップと、更新メディアプレゼンテーション記述子(MPD)を用いて事前選択記述子を更新するステップとを含みうる。
本開示の実施形態は、動的適応型HTTPストリーミング(DASH)メディアストリーミング中にピクチャ・イン・ピクチャ・ビデオを動的にシグナリングするための装置を提供し得る。装置は、コンピュータプログラムコードを記憶するように構成される少なくとも1つのメモリと、コンピュータプログラムコードにアクセスしてコンピュータプログラムコードによって指示されるように動作するべく構成される少なくとも1つのプロセッサとを含みうる。プログラムコードは、ビデオデータが第1のメインビデオストリーム及び第2のピクチャ・イン・ピクチャ・ビデオストリームを含むかどうかを、第1のメインビデオストリームと関連付けられた第1のロール値及び第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられた第2のロール値に基づいて少なくとも1つのプロセッサに決定させるための第1の決定コードと、DASHメディアストリーミングにおいて第1のメインビデオストリームとシグナリングされるように第2のピクチャ・イン・ピクチャ・ビデオストリームが選択されることを示す事前選択記述子を少なくとも1つのプロセッサに決定させるための第2の決定コードと、事前選択記述子を用いて第1のメインビデオストリームと第2のピクチャ・イン・ピクチャ・ビデオストリームとを結合ビデオストリームとして少なくとも1つのプロセッサにマージさせるための第1のグループ化コードと、更新メディアプレゼンテーション記述子(MPD)を用いて少なくとも1つのプロセッサに事前選択記述子を更新させるための第1の更新コードとを含みうる。
本開示の実施形態は、命令を記憶する非一時的コンピュータ可読媒体を提供しうる。命令は、動的適応型HTTPストリーミング(DASH)メディアストリーミング中にピクチャ・イン・ピクチャ・ビデオを動的にシグナリングするためのデバイスの1つ以上のプロセッサによって実行されるときに、ビデオデータが第1のメインビデオストリーム及び第2のピクチャ・イン・ピクチャ・ビデオストリームを含むかどうかを第1のメインビデオストリームと関連付けられた第1のロール値及び第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられた第2のロール値に基づいて1つ以上のプロセッサに決定させ、DASHメディアストリーミングにおいて第1のメインビデオストリームとシグナリングされるように第2のピクチャ・イン・ピクチャ・ビデオストリームが選択されることを示す事前選択記述子を1つ以上のプロセッサに決定させ、事前選択記述子を用いて、第1のメインビデオストリームと第2のピクチャ・イン・ピクチャ・ビデオストリームとを結合ビデオストリームとして1つ以上のプロセッサにマージさせ、更新メディアプレゼンテーション記述子(MPD)を用いて事前選択記述子を1つ以上のプロセッサに更新させる、1つ以上の命令を含み得る。
[1]本開示の主題の更なる特徴、性質、及び、様々な利点は、以下の詳細な説明及び添付図面からより明らかになる。
実施形態に係る通信システムの簡略図である。 実施形態に係るストリーミング環境における構成要素の配置の例示的な図である。 実施形態に係るDASH処理モデルの簡略ブロック図である。 実施形態に係るピクチャ・イン・ピクチャ設定の簡略図である。 実施形態に係る、メディアストリーミング中にピクチャ・イン・ピクチャ・ビデオを動的にシグナリングするための例示的なフローチャート図である。 実施形態に係るコンピュータシステムの簡略図である。
以下で述べている提案された特徴は、別々に使用されてもよく又は任意の順序で組み合わされてもよい。更に、実施形態は、処理回路(例えば、1つ以上のプロセッサ又は1つ以上の集積回路)によって実施されてもよい。一例において、1つ以上のプロセッサは、非一時的コンピュータ可読媒体に記憶されるプログラムを実行する。
図1は、本開示の一実施形態に係る通信システム100の簡略化されたブロック図を例示する。通信システム100は、ネットワーク105を介して相互接続された少なくとも2つの端末102、103を含み得る。データの単方向伝送のために、第1の端末103は、ネットワーク105を介して他方の端末102に伝送するためにローカル位置においてビデオデータをコーディングし得る。第2の端末102は、ネットワーク105から他方の端末のコーディング済みビデオデータを受信し、コーディング済みデータをデコードし、復元されたビデオデータを表示し得る。単方向データ送信は、メディア提供用途などにおいて一般的であり得る。
図1は、例えばビデオ会議中に発生し得るコーディング済みビデオの双方向伝送をサポートするために提供される端末101及び104の第2の対を例示する。データの双方向伝送のために、各端末101及び104は、ネットワーク105を介して他方の端末に伝送するためにローカル位置において捕捉されるビデオデータをコーディングし得る。各端末101及び104は、他方の端末によって伝送されたコーディング済みビデオデータも受信し、コーディング済みデータをデコードし、復元されたビデオデータをローカルの表示デバイスに表示し得る。
図1において、端末101、102、103及び104は、サーバ、パーソナルコンピュータ及びスマートフォンとして例示され得るが、本開示の原理はそのように限定されるものではない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ及び/又は、専用ビデオ会議機器を伴う用途が考えられる。ネットワーク105は、例えば有線及び/又は無線通信ネットワークを含む、端末101、102、103及び104の間でコーディング済みビデオデータを運ぶ任意の数のネットワークを表わす。通信ネットワーク105は、回路交換及び/又はパケット交換チャネルにおいてデータを交換し得る。代表的なネットワークは、電気通信ネットワーク、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク及び/又はインターネットを含む。本考察の目的のために、ネットワーク105のアーキテクチャ及びトポロジは、本明細書で以下に説明されない限り、本開示の動作にとって重要ではない場合がある。
図2は、一例として、ストリーミング環境におけるビデオエンコーダ及びデコーダの配置を示す。実施形態は、例えば、ビデオ会議、デジタルTVを含み、更にCD、DVD、及びメモリスティックなどを含むデジタルメディアへの圧縮ビデオの記憶などを含む、他のビデオ対応用途に適用可能とし得る。
ストリーミングシステムは、例えば非圧縮ビデオ・サンプル・ストリーム213を作成する、例えばデジタルカメラなどのビデオソース201を含みうるキャプチャサブシステム203を含み得る。そのサンプルストリーム213は、エンコード済みビデオビットストリームと比較したときに高いデータボリュームとして強調されてもよく、ビデオソース201に結合されたエンコーダ202によって処理され得る。エンコーダ202は、以下で詳細に説明するように、実施形態の態様を可能にする又は実施するために、ハードウェア、ソフトウェア、又はそれらの組合せを含み得る。エンコード済みビデオビットストリーム204は、サンプルストリームと比較してより低いデータボリュームとして強調されてもよく、将来の使用のためにストリーミングサーバ205に記憶されることができる。1つ以上のストリーミングクライアント212及び207は、ストリーミングサーバ205にアクセスして、エンコード済みビデオビットストリーム204のコピーであってもよいエンコード済みビデオビットストリーム208及び206を取得し得る。クライアント212は、エンコード済みビデオビットストリーム208の着信コピーをデコードし、ディスプレイ209又は他のレンダリングデバイス上にレンダリングされ得る送出ビデオ・サンプル・ストリーム210を作成するビデオデコーダ211を含みうる。一部のストリーミングシステムでは、エンコード済みビデオビットストリーム204、206及び208は、特定のビデオコーディング/圧縮規格に従ってエンコードされ得る。これらの規格の例は、上記で言及されており、本明細書で更に説明される。
図3は、DASHイベント及びCMAFイベントを処理するためのサンプル・クライアント・アーキテクチャなどのサンプルDASH処理モデル300を示す。DASH処理モデル300において、クライアントのメディアセグメントの要求(例えば、広告メディアセグメント及びライブメディアセグメント)は、マニフェスト303内の記述されたアドレスに基づくことができる。また、マニフェスト303は、クライアントがメタデータトラックのセグメントにアクセスし、それらを解析し、更に、それらをアプリケーション301に送信し得るメタデータトラックも記述する。
マニフェスト303は、MPDイベント又はイベントを含み、インバンドイベント及び「moof」パーサ306は、MPDイベントセグメント又はイベントセグメントを解析し、イベントセグメントをイベント及びメタデータバッファ330にアペンドすることができる。また、インバンドイベント及び「moof」パーサ306は、メディアセグメントをフェッチして、メディアバッファ340にアペンドすることもできる。イベント及びメタデータバッファ330は、イベント及びメタデータ情報を、イベント及びメタデータシンクロナイザ及びディスパッチャ335に送信し得る。イベント及びメタデータシンクロナイザ及びディスパッチャ335は、特定のイベントをDASHプレーヤ制御、選択、及びヒューリスティックロジック302にディスパッチし、アプリケーション関連のイベント及びメタデータトラックをアプリケーション301にディスパッチし得る。
幾つかの実施形態によれば、MSEは、ファイルフォーマットパーサ350、メディアバッファ340、及び、メディアデコーダ345を含むパイプラインを含みうる。MSE320は、メディアセグメントの論理バッファであり、メディアセグメントは、メディアセグメントの提示時間に基づいて追跡及び順序付けされ得る。メディアセグメントは、広告MPDと関連付けられたメディアセグメント及びライブMPDと関連付けられたライブメディアセグメントを含み得るが、これらに限定されない。各メディアセグメントは、メディアセグメントのタイムスタンプオフセットに基づいてメディアバッファ340に追加又はアペンドされてもよく、タイムスタンプオフセットは、メディアバッファ340内のメディアセグメントを順序付けるために使用されてもよい。
本出願の実施形態は、MPD連鎖を使用して2つ以上の非線形メディアソースから線形メディアソース拡張(MSE)バッファを構築することを対象とすることができ、非線形メディアソースは広告MPD及びライブMPDであってもよく、ファイルフォーマットパーサ350は、ライブMPDに含まれるライブメディアセグメントによって使用される異なるメディア及び/又はコーデックを処理するために使用され得る。幾つかの実施形態において、ファイルフォーマットパーサは、ライブメディアセグメントのコーデック、プロファイル、及び/又は、レベルに基づいて変更タイプを発行することができる。
メディアセグメントがメディアバッファ340内に存在する限り、イベント及びメタデータバッファ330は、対応するイベントセグメント及びメタデータを維持する。サンプルDASH処理モデル300は、インバンドイベント及びMPDイベントと関連付けられたメタデータの追跡を維持するための時間指定メタデータ追跡パーサ325を含みうる。図3によれば、MSE 320は、ファイルフォーマットパーサ350、メディアバッファ340、及びメディアデコーダ345のみを含む。イベント及びメタデータバッファ330並びにイベント及びメタデータシンクロナイザ及びディスパッチャ335は、MSE320にとってネイティブではなく、MSE320がイベントをネイティブに処理することを阻止し、それらをアプリケーションに送信する。
一態様によれば、MPDは、階層構成におけるメディアプレゼンテーションを含みうるメディアプレゼンテーション記述である。MPDは1つ以上の周期シーケンスを含むことができ、各周期は1つ以上の適応セットを含みうる。MPD内の各適応セットは1つ以上の表示を含むことができ、各表示は1つ以上のメディアセグメントを含む。これらの1つ以上のメディアセグメントは、エンコードされ、デコードされ、及び/又は再生される実際のメディアデータ及び関連するメタデータを搬送する。本開示の実施形態によれば、オーバーレイビデオは、単一の又は組み合わされた体験ストリームを指すことができ又はpipビデオストリームを指すことができる。
図4は、ピクチャ・イン・ピクチャ・メディアプレゼンテーション400を示す例示的な図である。
図4に示されるように、メインピクチャ405は画面全体を撮影し、オーバーレイピクチャ(ピクチャ・イン・ピクチャ410)は、メインピクチャの対応する領域をカバーする、画面の小さい領域を撮影する。ピクチャ・イン・ピクチャ(pip)の座標は、x、y、高さ、及び幅によって示され、これらのパラメータは、メインピクチャ座標に対するpipの位置及びサイズを定義する。
ストリーミングとの関連で、メインビデオ(又はメインピクチャ405)及びpipビデオ(又はピクチャ・イン・ピクチャ410)が2つの別々のストリームとして配信され得る。独立したストリームがある場合、それらは別々のデコーダによってデコードされ、次いでレンダリングのために一緒に構成され得る。他の実施形態として、メインビデオに使用されるビデオコーデックがストリームのマージをサポートする場合、pipビデオストリームがメインビデオストリームと結合される。幾つかの実施形態において、pipビデオストリームは、メインビデオのカバーエリアでストリーミングされたメインビデオをpipビデオで置き換えることができる。次に、単一及び/又は結合ストリームは、デコーディング及びレンダリングのためにデコーダに送信される。
一態様によれば、メインビデオとpipビデオとが関連している場合(メイン画面上で言われていることを合図する画面の隅のサインビデオなど)、メインビデオ内のpipビデオの位置を変更する必要があり得る。一例として、pipピクチャの領域が背景から前景に変化する場合、pipピクチャの位置を変更する必要があり得る。同様に、pipピクチャの解像度を変更する必要がある場合がある。また、メディアプレゼンテーションのある持続時間の間、pipピクチャは必要とされない場合がある。これらのピクチャ・イン・ピクチャのストリーミングに関する動的な変更は、DASHでは処理されない。更に、DASHは、メインビデオストリーム及びpipビデオストリームを変更することなく、位置及び解像度のこの動的な変更を処理することもできない。
本開示の実施形態は、上記の技術的課題を解決することに関する。一実施形態によれば、ピクチャ・イン・ピクチャは、メインビデオ及びpipビデオが独立してデコードされ、その後結合され得るときにDASHにおいて配信される。他の実施形態によれば、ピクチャ・イン・ピクチャは、メインビデオ及びpipビデオがデコード前に単一のストリームに結合されることができ且つ単一のストリーム(本明細書では「結合ストリーム」とも呼ばれる)として一緒にデコードされるときに、DASHにおいて配信される。
メインビデオとpipビデオを独立してデコードした場合のDASHにおけるピクチャ・イン・ピクチャの配信
Pipビデオストリーム及びメインビデオストリームは、DASHロール方式を使用して識別することができる。一態様によれば、メインビデオストリームは、「メイン」のロール値を使用することができ、一方、pipビデオストリームは、対応する適応セットを識別するために新しい値「pip」又は「ピクチャ・イン・ピクチャ」を使用することができる。幾つかの実施形態では、オーバーレイされたピクチャは必ずしも「合図された」ビデオであるとは限らないので、ロール属性の値(例えば、メイン又はpip)は値「合図された」とは無関係である。そうである場合、両方の値を使用してオーバーレイビデオの特性をシグナリングすることができる。
メインビデオストリーム及びpipビデオストリームは、事前選択記述子を使用して単一の体験としてグループ化されてもよい。幾つかの実施形態では、pipビデオストリーム適応セットは、メインビデオストリームの適応セットを参照する事前選択記述子を含みうる。
pipビデオの位置は、DASH規格、例えば23009-1付属書H空間関係記述子(SRD)を使用してシグナリングされ得る。この記述子は、pipビデオの位置及びサイズをシグナリングするために使用され得る。SRD記述子は、共通の座標系に対するx、y、幅、及び高さを定義することを可能にする。この記述子は、構成要素の互いの関係を定義するために、メイン及びオーバーレイビデオ適応セットの両方で使用され得る。位置及びサイズの更新は、以下の機構のうちの1つを用いて達成することができる。
(1)MPDは、位置、サイズ、及び/又は解像度が変更された場合に新たな期間を導入して、ピクチャ・イン・ピクチャの位置、サイズ、解像度等を更新するために、SRDの値を更新する。
(1)23009-1 Annex Hに係る座標情報を含むメタデータトラックの使用。
メインビデオセグメント及びpipビデオセグメントがデコード前にビデオストリームとマージされるときのDASHにおけるピクチャ・イン・ピクチャの配信
実施形態によれば、メインビデオストリーム及びpipビデオストリーム及びpipビデオストリームは、事前選択(Preselection)要素を使用して単一の体験としてグループ化され得る。幾つかの実施形態では、メインビデオストリーム及びpipビデオストリームをグループ化することは、事前選択要素内のDASHロール(Role)方式に基づいてpipビデオストリーム及びメインビデオストリームを識別することを含みうる。メインビデオストリームは、ロール(Role)に関して「メイン」値を使用することができ、一方、pipビデオストリームは、対応する適応セットを識別するために新たな値「ピクチャ・イン・ピクチャ」又は「pip」を使用することができる。「pip」又は「ピクチャ・イン・ピクチャ」であるロールの値は、交換可能に使用されてもよく、又は特別な指示を有してもよいことが理解され得る。一例として、「pip」の使用は、独立したデコーディングとそれに続くオーバーレイを示し得る。他の例として、「ピクチャ・イン・ピクチャ」のユーザは、単一の体験へのグループ化とそれに続くデコーディングを示すことができる。
同じ又は他の実施形態によれば、メインビデオストリーム及びpipビデオストリームをグループ化することは、事前選択@順序(Preselection@order)に関する新たな値「pip」がメインビデオストリームの一部をオーバーレイされたビデオストリームで置き換えるために定義され得ることを更に含みうる。更に、幾つかの実施形態では、置換規則を定義するために新しい属性である事前選択@置換規則(Preselection @replacementRules)が追加されてもよい。一例として、使用されるコーデックがVVCである場合、@置換規則(@replacementRule)がサブピクチャODを含みうる。@置換規則(@replacementRules)属性のセマンティクスはコーデック依存である。
新たな期間(Period)を挿入し、@置換規則(@replacementRules)を含む事前選択(Preselected)要素の値を更新するためのMPD更新が定義されてもよい。一実施形態において、MPDは、新しい期間(Period)を挿入し、メインビデオストリームとのpipビデオストリームのマージが定義され得る事前選択要素(Preselected element)の値を更新する。
本開示の利点は、ピクチャ・イン・ピクチャ・シグナリングを動的に効率的に行うためのDASH規格に対する洗練された必要な拡張のみである。一実施形態では、メインビデオストリーム及びpipビデオストリームの存在を示すために、「ピクチャ・イン・ピクチャ」(又はその適切なバージョン)の新たなロール値がDASH規格に追加され得る。同じ又は他の実施形態では、pipビデオストリームがメインビデオストリームの一部を置き換える必要がある可能性があることを示すために、「置換(replacement)」(又はその適切なバージョン)の新たな@順序(@order)値をDASH規格に追加することができる。同じ又は他の実施形態によれば、@置換規則(@replacementRules)と呼ばれる新しい属性をDASH規格に追加して、メインビデオストリーム及びpipビデオストリームのコーデックに基づいて1つ以上の置換規則を定義することができる。
本開示の実施形態は、ピクチャ・イン・ピクチャ・ビデオ及びDASHストリーミングにおけるメインビデオとのその関係を動的にシグナリングするための方法、システム、及びプロセスに関することができる。ピクチャ・イン・ピクチャ・ビデオ及びメインビデオが独立してデコードされるとき、特別な値を伴うロール属性は、ピクチャ・イン・ピクチャ・ビデオストリームをシグナリングするために使用され得る。幾つかの実施形態では、メインビデオがロール値「メイン」を有することができる。幾つかの実施形態では、事前選択(Preselection)記述子を使用して、ピクチャ・イン・ピクチャ・ビデオ適応セットをメインビデオ適応セットに結合することができる。幾つかの実施形態において、メインビデオ上のピクチャ・イン・ピクチャ・ビデオの位置及びサイズは、メイン及びピクチャ・イン・ピクチャ・ビデオ適応セットの両方のSRD記述子によって定義され得る。ピクチャ・イン・ピクチャ・ビデオの位置及びサイズは、MPD更新を使用し、新しいSRD値を有する新しい期間を挿入することによって更新することができる。他の実施形態では、メタデータトラックを使用して、位置及びサイズ情報を動的に伝達及び/又は更新することができる。
本開示の実施形態は、ピクチャ・イン・ピクチャ・ビデオとメインビデオとがデコーディング前にマージされ得るときに、ピクチャ・イン・ピクチャ・ビデオ及びDASHストリーミングにおけるメインビデオとのその関係を動的にシグナリングするための方法、システム、及びプロセスに関することができる。幾つかの実施形態では、事前選択(Preselection)要素を使用して、メイン及びピクチャ・イン・ピクチャ・適応セットのグループをシグナリングすることができる。特別な値を伴うロール属性は、メインビデオがロール値「main」を持つ間、ピクチャ・イン・ピクチャ・ビデオストリームをシグナリングするために使用され得る。幾つかの実施形態では、属性順序(order)の新しい値を使用してピクチャ・イン・ピクチャ・アプリケーションをシグナリングすることができ、デコーダに送信する前に新しい属性を使用して2つのストリームがどのようにマージされるかを定義することができる。ピクチャ・イン・ピクチャの位置及びサイズは、新たな期間を挿入し得るMPD更新によって更新され得る。幾つかの実施形態において、マージ規則を定義する属性は、メインビデオストリームの新しい領域がピクチャ・イン・ピクチャ・ストリームで置き換えられるべきであることを反映するように更新され得る。
図5は、メディアストリーミング中にピクチャ・イン・ピクチャ・ビデオを動的にシグナリングするためのプロセス500の例示的なフローチャートである。
工程510において、第1のメインビデオストリーム及び第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられるロール値に基づいてビデオデータが第1のメインビデオストリーム及び第2のピクチャ・イン・ピクチャ・ビデオストリームを含むかどうかを決定することができる。
工程515において、第2のピクチャ・イン・ピクチャ・ビデオストリームを伴う第1のメインビデオストリームは、事前選択記述子に基づいて単一のビデオストリームとしてマージされてもよく、事前選択記述子は、第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられてもよい。
幾つかの実施形態において、グループ化の前に第1のメインビデオストリーム及び第2のピクチャ・イン・ピクチャ・ビデオストリームが独立してデコードされるかどうかは、第1のメインビデオストリームと関連付けられた第1のロール値がメイン値であり、第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられた第2のロール値がピクチャ・イン・ピクチャ値であることに基づいて決定することができる。そして、第1のメインビデオストリームにおける適応セットを参照する第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられた事前選択記述子に基づいて、適応セットと関連付けられた第1のメインビデオコンテンツが単一のビデオストリームとしての第2のピクチャ・イン・ピクチャ・ビデオコンテンツとグループ化される。グループ化は、空間関係記述子を用いて第2のピクチャ・イン・ピクチャ・ビデオコンテンツの位置、第2のピクチャ・イン・ピクチャ・ビデオコンテンツのサイズ、又は第2のピクチャ・イン・ピクチャ・ビデオコンテンツの解像度をシグナリングすることを更に含みうる。
幾つかの実施形態において、第1のメインビデオストリーム及び第2のピクチャ・イン・ピクチャ・ビデオストリームは、グループ化の前に、第1のメインビデオストリームと関連付けられた第1のロール値がメイン値であり、第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられた第2のロール値がピクチャ・イン・ピクチャ値であることに基づいて識別することができる。次いで、第1のメインビデオコンテンツの一部を第2のピクチャ・イン・ピクチャ・ビデオコンテンツと置き換えるための事前選択記述子における順序値が定義されてもよく、第1のメインビデオコンテンツの一部を第2のピクチャ・イン・ピクチャ・ビデオコンテンツと置き換えるための事前選択記述子における1つ以上の置換規則が定義されてもよい。第2のピクチャ・イン・ピクチャ・ビデオコンテンツを伴う第1のメインビデオコンテンツは、事前選択記述子における少なくとも1つ以上の置換規則に基づいてマージすることができ、マージは、単一のビデオストリームをデコードする前に実行される。
工程520において、事前選択記述子は、更新メディアプレゼンテーション記述子を使用して更新され得る。グループ化の前に第1のメインビデオストリーム及び第2のピクチャ・イン・ピクチャ・ビデオストリームが独立してデコードされることに基づいて、第2のピクチャ・イン・ピクチャ・ビデオコンテンツの位置又は第2のピクチャ・イン・ピクチャ・ビデオコンテンツのサイズが、更新MPDに基づいて空間関係記述子において更新され得る。幾つかの実施形態において、第2のピクチャ・イン・ピクチャ・ビデオコンテンツの位置又は第2のピクチャ・イン・ピクチャ・ビデオコンテンツのサイズは、座標情報を含むメタデータトラックに基づいて空間関係記述子において更新され得る。
図5はプロセス500の例示的なブロックを示しているが、実施形態では、プロセス500は、図5に示されたものよりも追加のブロック、より少ないブロック、異なるブロック、又は、異なる配置のブロックを含みうる。実施形態では、プロセス500の任意のブロックは、必要に応じて、任意の量又は順序で組み合わされ又は配置され得る。実施形態では、プロセス500のブロックのうちの2つ以上が並列に実行されてもよい。
前述した技術は、コンピュータ可読命令を使用し、1つ以上のコンピュータ可読媒体に物理的に記憶されたコンピュータソフトウェアとして、又は具体的に構成される1つ以上のハードウェアプロセッサによって実装され得る。例えば、図6は、様々な実施形態の実施に適したコンピュータシステム600を示している。
コンピュータソフトウェアは、コンピュータ中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)などによって、直接に、又は解釈、マイクロコードの実行などを介して実行できる命令を含むコードを作成するために、アセンブリ、コンパイル、リンクなどの機構の適用を受け得る、任意の適切な機械コード又はコンピュータ言語を使用してコーディングされることができる。
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、インターネット・オブ・シングス・デバイスなどを含む、様々なタイプのコンピュータ又はその構成要素で実行され得る。
コンピュータシステム600に関して図6に示される構成要素は、本質的に例示であり、本開示の実施形態を実施するコンピュータソフトウェアの使用又は機能の範囲に関する限定を示唆することを意図していない。また、構成要素の構成は、コンピュータシステム600の例示的な実施形態に示す構成要素のいずれか1つ又は組合せに関連する依存性又は要件を有すると解釈されるべきではない。
コンピュータシステム600は、特定のヒューマンインターフェース入力デバイスを含んでもよい。そのようなヒューマンインターフェース入力デバイスは、例えば、触覚入力(キーストローク、スワイプ、データグローブの動きなど)、音声入力(声、拍手など)、視覚入力(ジェスチャなど)、嗅覚入力を介して、1人又は複数の人間ユーザによる入力に応答し得る。ヒューマンインターフェースデバイスを用いて、音声(発話、音楽、周囲音など)、画像(スキャン画像、静止画像カメラから取得される写真画像など)、ビデオ(2次元ビデオ、立体ビデオを含む3次元ビデオなど)など、人間による意識的な入力に必ずしも直接関係ない特定の媒体を捕捉し得る。
入力ヒューマンインターフェースデバイスは、キーボード601、マウス602、トラックパッド603、タッチスクリーン610、ジョイスティック605、マイクロフォン606、スキャナ608、カメラ607のうちの1つ以上(それぞれのうちの1つのみが図に示される)を含みうる。
また、コンピュータシステム600は、特定のヒューマンインターフェース出力デバイスを含んでもよい。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、及び嗅覚/味覚を介して、1人又は複数の人間のユーザの感覚を刺激していることができる。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン610又はジョイスティック605による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスも存在し得る)と、音声出力デバイス(例えば、スピーカ609、ヘッドホンなど)と、視覚出力デバイス(例えば、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン610であって、それぞれにタッチスクリーン入力機能を備えたものと備えていないものとがあり、それぞれに触覚フィードバック機能を備えたものと備えていないものとがあり、これらの一部は、ステレオグラフィック出力、仮想現実メガネ、ホログラフィックディスプレイ、及びスモークタンクなどの手段を介して、二次元視覚出力又は三次元超出力を出力することができてもよい)と、プリンタとを含んでもよい。
また、コンピュータシステム600は、人間がアクセス可能な記憶装置、及びCD/DVD 611などの媒体を有するCD/DVD ROM/RW 620を含む光学媒体、サムドライブ622、リムーバブルハードドライブ又はソリッドステートドライブ623、テープ及びフロッピーディスクなどのレガシー磁気媒体、セキュリティドングルなどの専用ROM/ASIC/PLDベースのデバイスなどのそれらの関連媒体を含むこともできる。
また、当業者であれば分かるように、ここに開示された主題に関連して使用される「コンピュータ可読媒体」という用語が、送信媒体、搬送波、又は他の一時的な信号を包含しない。
また、コンピュータシステム600は、1つ以上の通信ネットワーク698へのインターフェース699を含みうる。ネットワーク698は、例えば、無線、有線、光となり得る。ネットワーク698は、更に、ローカル、広域、メトロポリタン、車両及び産業用、リアルタイム、遅延耐性などとなり得る。ネットワーク698の例としては、例えば、イーサネットなどのローカル・エリア・ネットワーク、無線LAN、GSM、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルテレビ、衛星テレビ及び地上波テレビを含むテレビ有線又は無線ワイド・エリア・デジタル・ネットワーク、CANBusを含む車載及び工業用ネットワークなどが挙げられる。特定のネットワーク698は、一般に、特定の汎用データポート又は周辺バス(650及び651)(例えば、コンピュータシステム600のUSBポートなど)に取り付けられた外部ネットワークインターフェースアダプタを必要とし、他のネットワークは、一般に、後述するようにシステムバスへの取り付けによってコンピュータシステム600のコアに組み込まれる(例えば、PCコンピュータシステムへのイーサネットインターフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインターフェース)。これらのネットワーク698のいずれかを使用して、コンピュータシステム600は他のエンティティと通信することができる。そのような通信は、単方向の受信のみ(例えば、放送TV)、単方向送信のみ(例えば、特定のCANbusデバイスへのCANbus)、又は双方向、例えばローカルエリア又は広域デジタルネットワークを使用する他のコンピュータシステムへの通信であり得る。特定のプロトコル及びプロトコルスタックは、上記で説明したように、それらのネットワーク及びネットワークインターフェースのそれぞれで使用され得る。
前述のヒューマンインターフェースデバイス、ヒューマンアクセス可能な記憶装置、及びネットワークインターフェースは、コンピュータシステム600のコア640に取り付けられ得る。
コア640は、1つ以上の中央処理ユニット(CPU)641、グラフィック処理ユニット(GPU)642、グラフィックアダプタ617、フィールド・プログラマブル・ゲート・エリア(FPGA)643の形態の特殊なプログラマブル処理装置、特定のタスクのためのハードウェアアクセラレータ644などを含みうる。これらのデバイスは、リードオンリーメモリ(ROM)645、ランダムアクセスメモリ646、ユーザがアクセスできない内部ハードドライブ、SSDなどの内部大容量ストレージ647と共に、システムバス648を介して接続されてもよい。一部のコンピュータシステムでは、システムバス648に1つ以上の物理プラグの形式でアクセスして、追加のCPU、GPUなどによる拡張が可能である。周辺デバイスは、コアのシステムバス648に直接取り付けられることも、或いは、周辺バス651を介して取り付けられることもできる。周辺バスのアーキテクチャは、PCI、USBなどを含む。
CPU641、GPU642、FPGA643、及びアクセラレータ644は、組み合わせて前述のコンピュータコードを構成し得る特定の命令を実行し得る。そのコンピュータコードは、ROM645又はRAM646に記憶され得る。移行データは、RAM646に記憶され得るが、永続データは、例えば内部大容量ストレージ647に記憶され得る。1つ以上のCPU641、GPU642、大容量ストレージ647、ROM645、RAM646などと密接に関連付けることができるキャッシュメモリを使用することにより、メモリデバイスのいずれかへの高速記憶及び高速取り出しを可能にすることができる。
コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードを有し得る。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものであり得るか、又はそれらは、コンピュータソフトウェア技術のスキルを有する人々に周知且つ利用可能な種類であり得る。
一例として且つ限定としてではなく、図示のアーキテクチャを有するコンピュータシステム600、具体的にはコア640は、1つ以上の有形のコンピュータ可読媒体内に具現化されたソフトウェアを(CPU、GPU、FPGA、アクセラレータなどを含む)プロセッサが実行する結果として機能を与えることができる。そのようなコンピュータ可読媒体は、上記で紹介したユーザアクセス可能な大容量ストレージに、並びにコア内部大容量ストレージ647又はROM645などの非一時的な性質のコア640の特定のストレージに、関連する媒体となり得る。本開示の様々な実施形態を実施するソフトウェアは、そのようなデバイスに記憶され、コア640によって実行され得る。コンピュータ可読媒体は、特定の必要性に応じて、1つ以上のメモリデバイス又はチップを含み得る。ソフトウェアは、コア640及び具体的にはその中のプロセッサ(CPU、GPU、FPGAなどを含む)に、RAM646に記憶されたデータ構造を定義すること、及びソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を変更することを含む、本明細書に記載した特定のプロセスを、又は特定のプロセスの特定の部分を実行させ得る。これに加えて又は代えて、コンピュータシステムは、回路(例えば、アクセラレータ644)にハードワイヤード又はその他の方法で具現化されたロジックの結果として機能性を与えることができ、それは、本明細書に記載した特定のプロセス又は特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりに又はソフトウェアと共に動作し得る。必要に応じて、ソフトウェアへの言及はロジックを包含することができ、その逆も同様である。必要に応じて、コンピュータ可読媒体への言及は、実行のためのソフトウェアを記憶する回路(集積回路(IC:integrated circuit)など)、実行のためのロジックを具体化する回路、又はこれらの両方を包含し得る。本開示は、ハードウェアとソフトウェアの任意の適切な組合せを包含する。
本開示は幾つかの例示的な実施形態を説明してきたが、本開示の範囲内にある修正例、置換例、及び様々な代替均等例がある。したがって、当業者は、本明細書に明示的に図示又は記載されていないが、本開示の原理を具現化し、したがって、その趣旨及び範囲内にある多数のシステム及び方法を考案できることが理解され得る。
100 通信システム
101 端末
102 第2の端末
103 第1の端末
104 端末
105 ネットワーク
201 ビデオソース
202 エンコーダ
203 キャプチャサブシステム
204 ビデオビットストリーム
205 ストリーミングサーバ
206 エンコード済みビデオビットストリーム
207 ストリーミングクライアント
208 エンコード済みビデオビットストリーム
209 ディスプレイ
210 送出ビデオ・サンプル・ストリーム
211 ビデオデコーダ
212 ストリーミングクライアント、クライアント
213 サンプルストリーム
300 DASH処理モデル
301 アプリケーション
302 DASHプレーヤ制御、選択、及びヒューリスティックロジック
303 マニフェスト
306 インバンドイベント及び「moof」パーサ
325 時間指定メタデータ追跡パーサ
330 イベント及びメタデータバッファ
335 イベント及びメタデータシンクロナイザ及びディスパッチャ
340 メディアバッファ
345 メディアデコーダ
350 ファイルフォーマットパーサ
400 ピクチャ・イン・ピクチャ・メディアプレゼンテーション
405 メインピクチャ
410 ピクチャ・イン・ピクチャ
600 コンピュータシステム
601 キーボード
602 マウス
603 トラックパッド
605 ジョイスティック
606 マイクロフォン
607 カメラ
608 スキャナ
609 スピーカ
610 タッチスクリーン、スクリーン
617 グラフィックアダプタ
620 CD/DVD ROM/RW
622 サムドライブ
623 リムーバブルハードドライブ又はソリッドステートドライブ
640 コア
641 中央処理ユニット(CPU)
642 グラフィック処理ユニット(GPU)
643 フィールド・プログラマブル・ゲート・エリア(FPGA)
644 ハードウェアアクセラレータ、アクセラレータ
645 リードオンリーメモリ(ROM)
646 ランダムアクセスメモリ
647 内部大容量記憶装置、大容量ストレージ
648 システムバス
651 周辺バス
698 ネットワーク
699 インターフェース
714 ネットワーク

Claims (20)

  1. 動的適応型HTTPストリーミング(DASH)メディアストリーミング中にピクチャ・イン・ピクチャ・ビデオを動的にシグナリングするための方法であって、前記方法は1つ以上のプロセッサによって実行され、前記方法は、
    ビデオデータが第1のメインビデオストリーム及び第2のピクチャ・イン・ピクチャ・ビデオストリームを含むかどうかを、前記第1のメインビデオストリームと関連付けられた第1のロール値及び前記第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられた第2のロール値に基づいて決定するステップと、
    前記DASHメディアストリーミングにおいて前記第1のメインビデオストリームとシグナリングされるように前記第2のピクチャ・イン・ピクチャ・ビデオストリームが選択されることを示す事前選択記述子を決定するステップと、
    前記事前選択記述子を用いて、前記第1のメインビデオストリームと前記第2のピクチャ・イン・ピクチャ・ビデオストリームとを結合ビデオストリームとしてマージするステップと、
    更新メディアプレゼンテーション記述子(MPD)を用いて前記事前選択記述子を更新するステップとを含む、方法。
  2. 前記第1のメインビデオストリームと前記第2のピクチャ・イン・ピクチャ・ビデオストリームとを前記結合ビデオストリームとしてマージするステップは、
    前記第1のメインビデオストリームと関連付けられた前記第1のロール値がメイン値であり、前記第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられた前記第2のロール値がピクチャ・イン・ピクチャ値又は特別な値であることに基づいて、マージする前記ステップの前に前記第1のメインビデオストリーム及び前記第2のピクチャ・イン・ピクチャ・ビデオストリームが独立してデコードされると決定するステップと、
    前記第1のメインビデオストリームにおける適応セットを参照する前記事前選択記述子に基づいて、前記適応セットと関連付けられた第1のメインビデオコンテンツと第2のピクチャ・イン・ピクチャ・ビデオコンテンツとを前記結合ビデオストリームとしてマージするステップと、
    空間関係記述子を用いて前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツの位置、前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツのサイズ、又は、前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツの解像度をシグナリングするステップとを含む、請求項1に記載の方法。
  3. 前記更新MPDを用いて前記事前選択記述子を更新するステップは、
    前記更新MPDに基づいて前記空間関係記述子における前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツの前記位置又は前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツの前記サイズを更新するステップを含む、請求項2に記載の方法。
  4. 前記更新MPDを用いて前記事前選択記述子を更新するステップは、
    座標情報を含むメタデータトラックに基づいて前記空間関係記述子における前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツの前記位置又は前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツの前記サイズを更新するステップを含む、請求項2に記載の方法。
  5. 前記第1のメインビデオストリームと前記第2のピクチャ・イン・ピクチャ・ビデオストリームとを前記結合ビデオストリームとしてマージするステップは、
    前記第1のメインビデオストリームと関連付けられた前記第1のロール値がメイン値であり、前記第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられた前記第2のロール値がピクチャ・イン・ピクチャ値又は特別な値であることに基づいて、マージする前記ステップの前に前記第1のメインビデオストリーム及び前記第2のピクチャ・イン・ピクチャ・ビデオストリームを識別するステップと、
    第1のメインビデオコンテンツの一部を第2のピクチャ・イン・ピクチャ・ビデオコンテンツに置き換えるために前記事前選択記述子において順序値を定義するステップと、
    前記第1のメインビデオコンテンツの一部を前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツと置き換えるために前記事前選択記述子において1つ以上の置換規則を定義するステップとを含む、請求項1に記載の方法。
  6. 前記第1のメインビデオストリームと前記第2のピクチャ・イン・ピクチャ・ビデオストリームとを前記結合ビデオストリームとしてマージするステップは、
    前記事前選択記述子における少なくとも前記1つ以上の置換規則に基づいて前記第1のメインビデオコンテンツと前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツとをマージするステップであって、マージする前記ステップが前記結合ビデオストリームをデコードする前に実行される、ステップを更に含む、請求項5に記載の方法。
  7. 更新MPDを用いて前記事前選択記述子を更新するステップは、
    前記更新MPDに基づいて前記事前選択記述子における前記1つ以上の置換規則を更新するステップを含む、請求項5に記載の方法。
  8. 前記1つ以上の置換規則はコーデック依存である、請求項7に記載の方法。
  9. 動的適応型HTTPストリーミング(DASH)メディアストリーミング中にピクチャ・イン・ピクチャ・ビデオをシグナリングするための装置であって、前記装置は、
    コンピュータプログラムコードを記憶するように構成される少なくとも1つのメモリと、
    前記コンピュータプログラムコードにアクセスするとともに前記コンピュータプログラムコードによって命令されるように動作するべく構成される少なくとも1つのプロセッサであって、前記コンピュータプログラムコードは、
    ビデオデータが第1のメインビデオストリーム及び第2のピクチャ・イン・ピクチャ・ビデオストリームを含むかどうかを、前記第1のメインビデオストリームと関連付けられた第1のロール値及び前記第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられた第2のロール値に基づいて前記少なくとも1つのプロセッサに決定させるための第1の決定コードと、
    前記DASHメディアストリーミングにおいて前記第1のメインビデオストリームとシグナリングされるように前記第2のピクチャ・イン・ピクチャ・ビデオストリームが選択されることを示す事前選択記述子を前記少なくとも1つのプロセッサに決定させるための第2の決定コードと、
    前記事前選択記述子を用いて前記第1のメインビデオストリームと前記第2のピクチャ・イン・ピクチャ・ビデオストリームとを結合ビデオストリームとして前記少なくとも1つのプロセッサにマージさせるための第1のグループ化コードと、
    更新メディアプレゼンテーション記述子(MPD)を用いて前記少なくとも1つのプロセッサに前記事前選択記述子を更新させるための第1の更新コードとを含む、少なくとも1つのプロセッサとを備える、装置。
  10. 前記第1のグループ化コードは、
    前記第1のメインビデオストリームと関連付けられた前記第1のロール値がメイン値であり、前記第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられた前記第2のロール値がピクチャ・イン・ピクチャ値又は特別な値であることに基づいて、前記マージ前に前記第1のメインビデオストリーム及び前記第2のピクチャ・イン・ピクチャ・ビデオストリームが独立してデコードされると前記少なくとも1つのプロセッサに決定させるように構成される第3の決定コードと、
    前記第1のメインビデオストリームにおける適応セットを参照する前記事前選択記述子に基づいて、前記適応セットと関連付けられた第1のメインビデオコンテンツと第2のピクチャ・イン・ピクチャ・ビデオコンテンツとを前記結合ビデオストリームとして前記少なくとも1つのプロセッサにマージさせるように構成される第2のグループ化コードと、
    空間関係記述子を用いて、前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツの位置、前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツのサイズ、又は、前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツの解像度を前記少なくとも1つのプロセッサにシグナリングさせるように構成されるシグナリングコードとを含む、請求項9に記載の装置。
  11. 前記第1の更新コードは、
    前記更新MPDに基づいて、前記空間関係記述子における前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツの前記位置又は前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツの前記サイズを前記少なくとも1つのプロセッサに更新させるための第2の更新コードを含む、請求項10に記載の装置。
  12. 前記第1の更新コードは、
    座標情報を含むメタデータトラックに基づいて前記空間関係記述子における前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツの前記位置又は前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツの前記サイズを前記少なくとも1つのプロセッサに更新させるための第3の更新コードを含む、請求項10に記載の装置。
  13. 前記第1のグループ化コードは、
    前記第1のメインビデオストリームと関連付けられた前記第1のロール値がメイン値であり、前記第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられた前記第2のロール値がピクチャ・イン・ピクチャ値又は特別な値であることに基づいて、前記マージの前に前記第1のメインビデオストリーム及び前記第2のピクチャ・イン・ピクチャ・ビデオストリームを前記少なくとも1つのプロセッサに識別させるように構成される第1の識別コードと、
    第1のメインビデオコンテンツの一部を第2のピクチャ・イン・ピクチャ・ビデオコンテンツと置き換えるために前記事前選択記述子における順序値を前記少なくとも1つのプロセッサに定義させるように構成される第1の定義コードと、
    前記第1のメインビデオコンテンツの一部を前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツと置き換えるために前記事前選択記述子における1つ以上の置換規則を前記少なくとも1つのプロセッサに定義させるように構成される第2の定義コードとを含む、請求項9に記載の装置。
  14. 前記第1のグループ化コードは、
    前記事前選択記述子における少なくとも前記1つ以上の置換規則に基づいて、前記第1のメインビデオコンテンツと前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツとを前記少なくとも1つのプロセッサにマージさせるように構成されるマージコードであって、前記マージが前記結合ビデオストリームをデコードする前に実行される、マージコードを更に含む、請求項13に記載の装置。
  15. 前記第1の更新コードは、
    前記更新MPDに基づいて、前記事前選択記述子における前記1つ以上の置換規則を前記少なくとも1つのプロセッサに更新させるように構成される第4の更新コードを含む、請求項13に記載の装置。
  16. 命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は、動的適応型HTTPストリーミング(DASH)メディアストリーミング中にピクチャ・イン・ピクチャ・ビデオをシグナリングするためのデバイスの1つ以上のプロセッサによって実行されるときに、前記1つ以上のプロセッサに、
    ビデオデータが第1のメインビデオストリーム及び第2のピクチャ・イン・ピクチャ・ビデオストリームを含むかどうかを、前記第1のメインビデオストリームと関連付けられた第1のロール値及び前記第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられた第2のロール値に基づいて決定させ、
    前記DASHメディアストリーミングにおいて前記第1のメインビデオストリームとシグナリングされるように前記第2のピクチャ・イン・ピクチャ・ビデオストリームが選択されることを示す事前選択記述子を決定させ、
    前記事前選択記述子を用いて、前記第1のメインビデオストリームと前記第2のピクチャ・イン・ピクチャ・ビデオストリームとを結合ビデオストリームとしてマージさせ、
    更新メディアプレゼンテーション記述子(MPD)を用いて前記事前選択記述子を更新させる、1つ以上の命令を含む、非一時的コンピュータ可読媒体。
  17. 前記第1のメインビデオストリームと前記第2のピクチャ・イン・ピクチャ・ビデオストリームとを前記結合ビデオストリームとしてマージさせることは、
    前記第1のメインビデオストリームと関連付けられた前記第1のロール値がメイン値であり、前記第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられた前記第2のロール値がピクチャ・イン・ピクチャ値又は特別な値であることに基づいて、前記マージ前に前記第1のメインビデオストリーム及び前記第2のピクチャ・イン・ピクチャ・ビデオストリームが独立してデコードされると決定すること、
    前記第1のメインビデオストリームにおける適応セットを参照する前記事前選択記述子に基づいて、前記適応セットと関連付けられた第1のメインビデオコンテンツと第2のピクチャ・イン・ピクチャ・ビデオコンテンツとを前記結合ビデオストリームとしてマージすること、及び、
    空間関係記述子を用いて前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツの位置、前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツのサイズ、又は、前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツの解像度をシグナリングすることを含む、請求項16に記載の非一時的コンピュータ可読媒体。
  18. 前記更新MPDを用いて前記事前選択記述子を更新させることは、
    前記更新MPDに基づいて前記空間関係記述子における前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツの前記位置又は前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツの前記サイズを更新することを含む、請求項17に記載の非一時的コンピュータ可読媒体。
  19. 前記第1のメインビデオストリームと前記第2のピクチャ・イン・ピクチャ・ビデオストリームとを前記結合ビデオストリームとしてマージさせることは、
    前記第1のメインビデオストリームと関連付けられた前記第1のロール値がメイン値であり、前記第2のピクチャ・イン・ピクチャ・ビデオストリームと関連付けられた前記第2のロール値がピクチャ・イン・ピクチャ値又は特別な値であることに基づいて、前記マージ前に第1のメインビデオストリーム及び第2のピクチャ・イン・ピクチャ・ビデオストリームを識別すること、
    第1のメインビデオコンテンツの一部を第2のピクチャ・イン・ピクチャ・ビデオコンテンツに置き換えるために前記事前選択記述子において順序値を定義すること、及び、
    前記第1のメインビデオコンテンツの一部を前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツと置き換えるために前記事前選択記述子において1つ以上の置換規則を定義することを含む、請求項16に記載の非一時的コンピュータ可読媒体。
  20. 前記第1のメインビデオストリームと前記第2のピクチャ・イン・ピクチャ・ビデオストリームとを前記結合ビデオストリームとしてマージさせることは、
    前記事前選択記述子における少なくとも前記1つ以上の置換規則に基づいて前記第1のメインビデオコンテンツと前記第2のピクチャ・イン・ピクチャ・ビデオコンテンツとをマージすることであって、前記マージが前記結合ビデオストリームをデコードする前に実行される、ことを更に含む、請求項19に記載の非一時的コンピュータ可読媒体。
JP2023561377A 2021-10-05 2022-09-23 動的dashピクチャ・イン・ピクチャ・ストリーミングのための方法及び装置 Pending JP2024513445A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163252398P 2021-10-05 2021-10-05
US63/252,398 2021-10-05
US17/949,528 US20230108426A1 (en) 2021-10-05 2022-09-21 Method and apparatus for dynamic dash picture-in-picture streaming
US17/949,528 2022-09-21
PCT/US2022/044499 WO2023059452A1 (en) 2021-10-05 2022-09-23 Method and apparatus for dynamic dash picture-in-picture streaming

Publications (1)

Publication Number Publication Date
JP2024513445A true JP2024513445A (ja) 2024-03-25

Family

ID=85773991

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023561377A Pending JP2024513445A (ja) 2021-10-05 2022-09-23 動的dashピクチャ・イン・ピクチャ・ストリーミングのための方法及び装置

Country Status (6)

Country Link
US (1) US20230108426A1 (ja)
EP (1) EP4226636A4 (ja)
JP (1) JP2024513445A (ja)
KR (1) KR20230131911A (ja)
CN (1) CN116438803A (ja)
WO (1) WO2023059452A1 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106105220B (zh) * 2014-01-07 2019-07-05 诺基亚技术有限公司 用于视频编码和解码的方法和装置
WO2016182371A1 (ko) * 2015-05-12 2016-11-17 엘지전자 주식회사 방송 신호 송신 장치, 방송 신호 수신 장치, 방송 신호 송신 방법, 및 방송 신호 수신 방법
WO2017058665A1 (en) * 2015-10-01 2017-04-06 Vid Scale, Inc. Methods and systems for client interpretation and presentation of zoom-coded content
US11202117B2 (en) * 2017-07-03 2021-12-14 Telefonaktiebolaget Lm Ericsson (Publ) Methods for personalized 360 video delivery
US11665219B2 (en) * 2017-07-10 2023-05-30 Qualcomm Incorporated Processing media data using a generic descriptor for file format boxes

Also Published As

Publication number Publication date
EP4226636A1 (en) 2023-08-16
EP4226636A4 (en) 2023-10-04
CN116438803A (zh) 2023-07-14
US20230108426A1 (en) 2023-04-06
WO2023059452A1 (en) 2023-04-13
KR20230131911A (ko) 2023-09-14

Similar Documents

Publication Publication Date Title
JP7177285B2 (ja) メディアデータを受信するための方法、装置、およびプログラム
EP4111675A1 (en) Method and apparatus for media streaming
JP7483919B2 (ja) Httpによる動的適応ストリーミングのための方法及び装置
JP2024513445A (ja) 動的dashピクチャ・イン・ピクチャ・ストリーミングのための方法及び装置
JP7477645B2 (ja) Process@appendおよびprocess@playモードを使用してメディアと共にdashおよびcmafインバンドイベントを処理するためのw3cメディア拡張
US11799943B2 (en) Method and apparatus for supporting preroll and midroll during media streaming and playback
US11973820B2 (en) Method and apparatus for mpeg dash to support preroll and midroll content during media playback
US20230224557A1 (en) Auxiliary mpds for mpeg dash to support prerolls, midrolls and endrolls with stacking properties
US20240129537A1 (en) Method and apparatus for signaling cmaf switching sets in isobmff
US11838602B2 (en) MPD chaining in a live CMAF/DASH player using W3C media source and encrypted extensions
JP2023533414A (ja) 適応オーディオ配信およびレンダリング
JP2023520757A (ja) Httpを介した動的適応ストリーミングのための方法および装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231005