JP2022552853A - メディアリソースの再生およびテキストレンダリング方法、装置、機器および記憶媒体 - Google Patents

メディアリソースの再生およびテキストレンダリング方法、装置、機器および記憶媒体 Download PDF

Info

Publication number
JP2022552853A
JP2022552853A JP2022523231A JP2022523231A JP2022552853A JP 2022552853 A JP2022552853 A JP 2022552853A JP 2022523231 A JP2022523231 A JP 2022523231A JP 2022523231 A JP2022523231 A JP 2022523231A JP 2022552853 A JP2022552853 A JP 2022552853A
Authority
JP
Japan
Prior art keywords
region
interest
text
type
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022523231A
Other languages
English (en)
Other versions
JP7395725B2 (ja
Inventor
雅 賢 白
成 黄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Publication of JP2022552853A publication Critical patent/JP2022552853A/ja
Application granted granted Critical
Publication of JP7395725B2 publication Critical patent/JP7395725B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4353Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving decryption of additional data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4886Data services, e.g. news ticker for displaying a ticker, e.g. scrolling banner for news, stock exchange, weather data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Theoretical Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本願はメディアリソースの再生およびテキストレンダリング方法、装置、機器および記憶媒体を提案し、前記方法は、第1ボックスタイプまたは第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも1つのメディアリソースとを確定するステップと、前記関心領域に関連付けられた少なくとも1つのメディアリソースを再生するステップと、を含む。

Description

本願は中国特許庁に2019年12月03日に提出された、出願番号が201911223329.3である中国特許出願の優先権を主張し、その出願の全ての内容を引用により本願に組み入れる。
本願は没入型メディアの技術分野に関し、例えばメディアリソースの再生およびテキストレンダリング方法、装置、機器および記憶媒体に関する。
パノラマビデオは360°パノラマビデオまたは没入型ビデオとも呼ばれ、水平360°と垂直180°をカバーし、一般的に異なる方向を向く複数のカメラで撮影してつなぎ合わせたもので、3次元の動的パノラマビデオとユーザの身体的行動の融合により、ユーザの視聴体験を大幅に向上させ、仮想世界の体験効果を達成することができる。この技術は仮想現実(Virtual Reality: VR)とも呼ばれている。
ユーザがVRシーンを体験する場合、ビューポートを自主的に制御するため、ユーザは動画鑑賞中に360°全てのシーンに同時に気を配ることができず、指定方向のエキサイティングなハイライトが見逃されることが到底避けられない。クライアント側で関心領域(Region of interest:ROI)に関する提示を提供する場合、関連するROI記述情報が必要となるが、ROI記述情報は統一された表現方法に欠けている。
本願はメディアリソースの再生およびテキストレンダリング方法、装置、機器および記憶媒体を提供する。
本願の実施例はメディアリソースの再生方法を提供し、前記方法は、
第1ボックスタイプまたは第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定するステップと、
前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生するステップと、
を含む。
本願の実施例は時限テキストのレンダリング方法を提供し、前記方法は、
時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの1つまたは複数のテキスト領域をレンダリングする深度情報とを確定するステップと、
前記全方向ビデオの関心領域に対して前記時限テキストの1つまたは複数のテキスト領域をレンダリングするステップと、
を含む。
本願の実施例はメディアリソースの再生装置を提供し、前記装置は、
第1ボックスタイプまたは第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定するように構成された領域とリソース確定モジュールと、
前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生するように構成されたメディアリソース再生モジュールと、
を含む。
本願の実施例は時限テキストのレンダリング装置を提供し、前記装置は、
時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの1つまたは複数のテキスト領域をレンダリングする深度情報とを確定するように構成された領域と深度情報確定モジュールと、
前記全方向ビデオの関心領域に対して前記時限テキストの1つまたは複数のテキスト領域をレンダリングするように構成された時限テキストレンダリングモジュールと、
を含む。
機器は、
1つまたは複数のプロセッサと、
1つまたは複数のプログラムを記憶するメモリと、
を含み、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行された場合、前記1つまたは複数のプロセッサに本願の実施例における何れか一つの方法を実行させる。
本願の実施例は記憶媒体を提供し、前記記憶媒体にはコンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサにより実行された場合は、本願の実施例における何れか一つの方法を実現する。
本願の以上の実施例およびその他の側面、ならびにその実現方法については、図面の簡単な説明、発明を実施するための形態、および請求の範囲において、さらに説明する。
本願の実施例が提供するメディアリソース再生方法のフローチャートである。 本願の実施例が提供する全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースの模式図である。 本願の実施例が提供する関心領域とユーザビューポートとの結合方法のフローチャートである。 本願の実施例が提供する時限テキストレンダリング方法のフローチャートである。 本願の実施例が提供するパノラマビデオトラックにおけるボックス分布の模式図である。 本願の実施例が提供するパノラマビデオトラックにおけるもう一つのボックス分布の模式図である。 本願の実施例が提供する字幕データ調整フローの模式図である。 本願の実施例が提供するメディアリソース再生装置の構造模式図である。 本願の実施例が提供する時限テキストレンダリング装置の構造模式図である。 本願の実施例が提供する電子機器の構造模式図である。
以下、添付図面を合わせて本願の実施例を説明する。添付図面のフローチャートに示されたステップは、一組のコンピュータ実行可能な命令のようなコンピュータシステム内で実行することができる。また、フローチャートには論理的順序が示されているが、場合によっては、こことは異なる順序で図示または説明されたステップを実行してもよい。
VR技術の最もユニークなところは、360°のシーンに囲まれていることであるが、人の視野が限られているため、画面全体を一つの時刻で、一つの観覧角度から鑑賞することはできず、指定領域に注意を向けることになる。ROIはVRビデオコンテンツの中の領域の一つで、ROIは事前の定義によって取得することができる。例えば、監督が視野角を推薦したり、大量のユーザ行動分析を通じて、最適なビデオ鑑賞方向、エキサイティングな領域、エキサイティングなクリップなどを取得したりすることができる。ROIはメディアコンテンツ自体と強く関連しており、ビデオ固有の属性である。ユーザの現在時刻のビューポート(Viewport)は、ユーザの見る方向と端末機器で定義されたパラメータによって決まる視野領域であり、同じくVRビデオコンテンツの一部であるが、ビューポート領域の位置はユーザの動きによって変化する。ROIとViewportとの2つの領域の属性は互いに独立している。しかしながら、ユーザがVRシーンを体験する場合、ビューポートを自主的に制御するため、ユーザは動画鑑賞中に360°全てのシーンに同時に気を配ることができず、指定された方向の見どころについては見落としが避けられない。クライアント側でROIに関する提示を提供する場合、関連するROI記述情報が必要となるが、ROI記述情報は統一された表現方法に欠けている。ISO/国際電気標準会議の第一合同専門委員会(The First Joint Technology Council of International Electrotechnical Commission:IEC JTC1/第29分科技術委員会(Twenty-ninth Sub-technical Committee:SC29)/第11ワークグループ(Eleventh Work Group:WG11)動画専門家グループ(MPEG)が制定したMPEG-I Part 2(第2部)OMAF(Omnidirectional Media Format:全方向性メディアフォーマット)にもROI関連のシグナリングがなく、この問題に対して、有効な解決策がない。
本願の実施例の実現方法によれば、国際標準化機構(International Organization for Standardization:ISO)基本メディアファイルフォーマットに基づいて、パノラマビデオ内の関心領域空間位置情報をメディアファイルに格納する。基本メディアファイルフォーマットは、ISO/IEC JTC1/SC29/WG11動画専門家グループ(Moving Picture Experts Group,略称MPEG)が制定したMPEG-4 第12部国際標準化機構基本メディアファイルフォーマット(MPEG-4 Part 12 ISO Base Media File Format)を参照して操作することができる。全方向ビデオの投影、パッケージング手順とその基本フォーマットはISO/IEC JTC1/SC29/WG11動画専門家グループ(MPEG)が制定したMPEG-I Part 2 OMAF(全方向性メディアフォーマット)を参照して操作することができる。
図1は本願の実施例が提供するメディアリソース再生方法のフローチャートである。本実施例が提供するメディアリソース再生方法は主に、VRシーンの関心領域内で1つまたは複数のメディアリソースを再生する場合に適し、前記メディアリソース再生方法はメディアリソース再生装置によって実行され、前記メディアリソース再生装置はハードウェアおよび/またはソフトウェアの方法によって実現可能である。
図1に示すように、本願の実施例が提供するメディアリソース再生方法は主としてステップS11およびS12を含む。
S11:第1ボックスタイプまたは第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定する。
S12:前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生する。
一つの例示的な実施形態において、すべてのビデオサンプルに適した関心領域について、第1ボックスタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースを確定するステップは、前記第1ボックスタイプに基づいて、ビデオサンプル入口または全方向ビデオ制限サンプル入口内の関心領域記述ボックスを識別するステップと、前記関心領域記述ボックス内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定するステップと、を含む。
一つの例示的な実施形態において、ビデオサンプルグループに適した関心領域について、第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースを確定するステップは、前記第1グループタイプに基づいて全方向ビデオトラック内の関心領域サンプルグループ入口を識別するステップと、前記関心領域サンプルグループ入口内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定するステップと、を含む。
一つの例示的な実施形態において、前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生する前記ステップは、ユーザ現在のビューポートにおいて、前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生するステップ、または、前記関心領域において、前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生するステップ、を含む。
一つの例示的な実施形態において、前記関心領域は、関心領域の数と、関心領域の識別子と、関心領域の空間領域と、関心領域のタイプと、関心領域の記述と、のうちの1つまたは複数の情報によって記述される。
一つの例示的な実施形態において、前記関心領域のタイプは、クリエータ推薦タイプと、画面強化タイプと、リアルタイムホットスポットタイプと、方位ガイドタイプと、マルチ画面インタラクティブタイプと、のうちの1つまたは複数種類の情報を含む。
一つの例示的な実施形態において、前記関心領域の空間領域は、球面領域の中心点と、球面領域の方位角範囲と俯仰角範囲と、のうちの1つまたは複数種類の情報を含み、ここで、前記球面領域の中心点は、中心点の方位角、中心点の俯仰角、中心点の傾斜角によって確定される。
一つの例示的な実施形態において、前記メディアリソースは、音声、ビデオ、画像、時限テキストのうちの一つまたは複数を含む。
図2は本願の実施例が提供する全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースの模式図である。ビデオデータは360°の空間領域をカバーし、関心領域ROIを含み、ビデオデータと関心領域の位置情報はすべてビデオトラック内に記述されている。関心領域は、例えば音声、時限テキストなど、1つまたは複数種類のメディアリソースと関連関係にあり、ここでいう関連関係は、それぞれメディアリソース独自のトラック内に記述される。パノラマビデオの関心領域には、時間とともに変化する空間位置情報が含まれており、前記空間位置はパノラマビデオの画面内容と強い関連があるので、本実施例においては、関心領域情報をビデオデータ情報の一部として、ビデオメディアトラックのメタデータ領域に格納する。関心領域が時間とともに変化するシーンでは、次のような場合がよく見られる。
1つ目:パノラマビデオ再生の全過程においてROIの空間位置が変化しないままである。
2つ目:ROI空間位置はビデオ再生、時間経過とともに変化し、極限の場合、各ビデオメディアサンプルは異なるROI空間位置に対応する。
3つ目:ROI空間位置はビデオ再生、時間経過とともに変化するが、いくつかの時間帯では変化しない。
4つ目:同じ時刻に異なるタイプのROIが存在する。
一つの応用的な実例において、本願の実施例は、主にサーバとクライアント側との間での転送とクライアント側でデコーディング、レンダリングに適用される、パノラマビデオにおける関心領域とユーザビューポートとの結合方法を提供する。図3は本願の実施例が提供する関心領域とユーザビューポートとの結合方法のフローチャートである。図3に示すように、パノラマビデオにおける関心領域とユーザビューポートとの結合方法は、主に以下のステップを含む。
S31:クライアント側からユーザ行動データをサーバにフィードバックする。
S32:サーバによって、ユーザの観覧行動を統計的に分析し、関心領域の空間位置情報を識別し、パノラマビデオ中の関心領域をマークし、MPEG-I Part 2 OMAFとISOBMFFをもとに、ビデオトラックに関心領域記述情報を追加し、ROI画面コンテンツと指定関係のあるメディアオブジェクト、例えば字幕、音声、オーバーレイビデオなどには、ROI関連記述情報を追加する。
S33:クライアント側からサーバに再生要求を送信する。
S34:サーバによって、上記再生要求に基づいてメディアファイルをクライアント側に送信する。
S35:クライアント側でパノラマビデオメディアファイルをデコーディングし、現在のビューポートパラメータを取得し、現在のビューポートまたはビューポート内のオブジェクトと関心領域との関連関係に基づいて、レンダリング画面またはビューポート内のオブジェクトの空間位置を調整する。
S36:クライアント側で現在のビューポート画面をレンダリングし、ユーザはディスプレイを通してビューポート内で見る。
関心領域には様々なソースがあるが、大きく分けて以下を含む2つのカテゴリがある。1つ目、関心領域はコンテンツ製作者からあらかじめ与えられる。例えば、芸術指導の必要性から、監督推薦の視角を提供したり、オンデマンドのコンテンツに対して初期ビューポートを提供したりするなどである。2つ目、ユーザ行動の予測またはクライアント側からの送信信号に基づいて、パノラマビデオ内の関心領域の位置を判断して、かつ、関連記述情報を追加する。
S35における空間位置の調整は、オブジェクトタイプと、クライアントの動作とのうちのいずれか1つまたは複数種類の情報に基づいて確定することができる。
応用シーンには、次のような様々な形式がある。
1つ目:音声と関心領域とに関連関係がある場合、音声には自然に定位特性があるため、クライアント側はステレオサウンドやサラウンドサウンドなどの技術と組み合わせて、音声の方位によって関心領域の位置情報をユーザに提示し、エキサイティングなホットライトをタイムリーに捉えるようにユーザを誘導することができる。
2つ目:時限テキストと関心領域とに関連関係がある場合、クライアント側は必要に応じて時限テキストが表示される領域を調整する。時限テキストはナレーションや会話のテキスト提示としてだけでなく、ビデオ画面内の一部のシーンにコメントを付けることもでき、特に聴覚障害のあるユーザにとってはVR体験を効果的に向上させることができる。
3つ目:ユーザは、パノラマビデオの全体画面を見ながら、一部の特殊領域に注目したい場合である。例えばスポーツ大会では、競技場全体を見ながら指定されたアスリートに注目したい場合が考えられる。クライアント側は、ビデオを重ねる方法で、関心領域を「ピクチャインピクチャ」形式でユーザビューポート内に表示することができる。
本願の実施例で提供する関連関係と調整方式は説明のみであり、限定するものではない。最終的な表現効果は、クライアント側とメディアデータとの組み合わせによって決まる。
ISOBMFFメディアファイル内のすべてのデータはボックス(box)に入っており、ボックスのヘッダにそのタイプとサイズを記述できる。あるboxがネストをサポートしている場合、つまりあるboxに別のサブboxが含まれている場合、そのboxはネストをサポートするボックス(container box)と呼ばれる。
「trak」はデータトラックを表し、そのサブboxにはそのtrackのメディアデータ参照と記述が含まれている。trakにはメディアボックス(media box、mdia)を含むことができ、trakとmdiaの関係はtrak->mdiaと表記することができる。ここで、mdiaはメディアデータ情報を含み、メディアタイプとサンプル(sample)データを定義し、サンプル情報を記述することができる。前記メディアデータは、ビデオ、音声、字幕など様々なタイプを含むことができる。mdiaは一つのcontainer boxとして、一つのメディアヘッダボックス(media header box、mdhd)、一つの処理参照ボックス(handler reference box、hdlr)、および一つのメディア情報ボックス(media information box、minf)を含むことができる。trakとmdiaとminfの関係はtrak->mdia->minfと表記できる。
本願の実施例では、minf内のサンプルテーブルボックス(sample table box、stbl)を利用して関心領域情報を格納し、様々なシーンにおける関心領域記述のニーズを満たすことができる。
本願の実施例が提供するメディアリソース再生方法は、主にパノラマビデオ処理方法に用いられるものであり、ユーザが観覧方向を自主的にコントロールしながら、パノラマビデオ内でのROIの関連分布情報を知ることができるように、ISOBMFFを利用して没入型メディアビデオコンテンツ内の関心領域を記述して、さらにビューポートと関心領域との関連を提供することができる。
本願の実施例において、パノラマメディアファイルに関心領域マークを追加してから、ユーザビューポート内のビデオ画面やその他の種類のオブジェクト(例えば字幕、ビデオオーバーレイ、音声など)に、さらにビューポートやオブジェクト、及び関心領域の関連情報記述を追加することで、現在のビューポート内でビデオ画面またはメディアオブジェクトに相応の調整を行い、ROI領域の関連情報をユーザに取得させることができる。上記の関連関係により、ユーザが自主的にビューポートをコントロールするニーズを満たせるだけでなく、ユーザの権限に影響を与えることなくROI指示を提供し、ユーザのビデオ観覧を補助し、ユーザのVR体験を効果的に向上させることができる。
図4は本願の実施例が提供する時限テキストレンダリング方法のフローチャートである。本実施例が提供する時限テキストレンダリング方法は主に、VRシーンにおいて関心領域内のテキストをレンダリングする場合に適し、前記時限テキストレンダリング方法は時限テキストレンダリング装置によって実行され、前記時限テキストレンダリング装置はハードウェア及び/またはソフトウェアの方法によって実現可能である。
図4に示すように、本願の実施例が提供する時限テキストレンダリング方法は、主にステップS41とS42とを含む。
S41:時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの1つまたは複数のテキスト領域をレンダリングする深度情報とを確定する。
S42:前記全方向ビデオの関心領域に対して前記時限テキストの1つまたは複数のテキスト領域をレンダリングする。
一つの例示的な実施形態において、時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップは、すべての時限テキストサンプルに適した関心領域に対して、第2ボックスタイプに基づいて時限テキストトラックサンプル入口内の時限テキスト配置ボックスを識別するステップと、前記時限テキスト配置ボックス内の要素に基づいて、時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップと、を含む。
一つの例示的な実施例において、時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップは、時限テキストサンプルグループに適した関心領域に対して、前記第2グループタイプに基づいて時限テキストトラック内の時限テキスト配置サンプルグループ入口を識別するステップと、前記時限テキスト配置サンプルグループ入口内の要素に基づいて、時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップと、を含む。
一つの例示的な実施例において、前記全方向ビデオの関心領域に対して前記時限テキストの1つまたは複数のテキスト領域をレンダリングするステップは、単位球に対する3次元平面を構築するステップであって、前記全方向ビデオの関心領域に基づいて前記3次元平面に対応する球面領域位置を確定し、深度情報に基づいて前記3次元平面と前記単位球の球心との距離を確定するステップと、前記3次元平面に前記時限テキストの1つまたは複数のテキスト領域をレンダリングするステップと、を含む。
一つの例示的な実施例において、前記深度情報は、前記全方向ビデオの関心領域に対して前記時限テキストの1つまたは複数のテキスト領域をレンダリングする深度値である。
一つの例示的な実施例において、前記全方向ビデオの関心領域は、関心領域の数と、関心領域の識別子と、関心領域の空間領域と、関心領域のタイプと、関心領域の記述と、のうちの1つまたは複数の情報によって記述される。
一つの例示的な実施形態において、前記関心領域のタイプは、クリエータ推薦タイプと、画面強化タイプと、リアルタイムホットスポットタイプと、方位ガイドタイプと、マルチ画面インタラクティブタイプと、のうちの1つまたは複数種類の情報を含む。
一つの例示的な実施例において、関心領域の空間領域は、球面領域の中心点と、球面領域の方位角範囲と俯仰角範囲と、のうちの1つまたは複数種類の情報を含み、ここで、前記球面領域の中心点は、中心点の方位角、中心点の俯仰角、中心点の傾斜角によって確定される。
応用的な一例として、本願の実施例はパノラマビデオ内の関心領域の位置が最初から最後まで変化しない場合に、メディアファイル内でのROI空間位置情報の記述方法を提供する。図5は本願の実施例が提供するパノラマビデオトラックにおけるボックス分布の模式図である。
本実施例のシーンでは、ROI空間位置はメディアビデオデータの一種の固有属性と考えることができ、このようなシーンに対して、ROIの位置情報はstbl boxにおけるSample Entryを用いて記述する。図5に示すように、stblはcontainer boxであり、そのサブboxには、メディアデータのデコーディングに必要な初期化パラメータなどの関連デコーダ情報を記述するためのサンプル記述ボックス(sample description box、stsd)が含まれており、trak、mdia、minf、stblとstsdの関係はtrak->mdia->minf->stbl->stsdとして表記できる。stsdには複数のサンプルエントリ(Sample Entry)を含むことができ、一つのメディアデータトラックに複数の記述情報を持たせることができ、ビデオデータのサンプルエントリタイプはビジュアルサンプルエントリ(Visual Sample Entry)として固定されている。一方、パノラマメディアデータについては、ビデオデータの空間位置情報、投影方式、つなぎ合わせ方式などの記述情報は通常のデコーダでは解析できないため、上記記述情報はスキーム情報ボックス(scheme information box)内で記述される。
本実施例において、通常のビデオデータに対して、関心領域の情報はVisual Sample Entryに記述し、パノラマビデオについては、scheme information boxに記述し、関心領域記述ボックス(Region Of Interest Description Box(roid))を追加し、前記roidの目的は、当該ビデオデータトラック内の関心領域の空間位置及びその変化状況を記述することであり、以下のように定義される。
Figure 2022552853000002
構文は次のとおりである。
Figure 2022552853000003
構文は以下のように定義される。
roi_countは関心領域の数を示す。ROIRegionStruct()は空間位置、関心領域識別子、関連情報などの、関心領域の関連情報を示す。
track_countは関心領域に関連付けられたメディアトラックの数を示す。track_idは関心領域に関連付けられたメディアトラック識別子を示し、トラック識別子によって関心領域に関連付けられた1つまたは複数のメディアリソースを確定することができる。
ROIRegionStruct()の構文は以下のように定義される。
roi_shape_typeは関心領域の空間領域の形状タイプを示す。roi_idは関心領域の識別子を示し、現在のトラックでは一意である。roi_typeは関心領域のタイプを示す。
関心領域のソース、タイプを表1に示す。
Figure 2022552853000004
roi_descriptionは空文字で終わるUTF-8(8-bit Unicode Transformation Format)文字列で、関心領域の記述を提供する。SphereRegionStruct()は、関心領域の空間領域を示し、グローバル座標軸に対して、関心領域の形状タイプ値(shape_type)はroi_shape_typeで示され、SphereRegionStruct(1)での補間値(interpolate)は0と等しくなければならない。
本実施例は、パノラマビデオ内の関心領域の位置がビデオ再生、時間経過とともに変化するが、いくつかの時間帯では変化しない場合に、メディアファイル内でのROI空間位置情報の記述方法を説明する。図6は本願の実施例に係るパノラマビデオトラックにおけるもう一つのボックス分布の模式図である。
本実施例のシーンでは、関心領域の位置情報は、ビデオトラック内の一部サンプルに共通の属性として捉えることができるので、ISOBMFFにおけるサンプルグループ(Sample Group)構造を用いて関心領域の空間情報を記述する。図6に示すように、サンプルグループはメディアトラック内で一部サンプルの属性を表すメカニズムであり、サンプルグループは二つの構造、すなわちサンプルグループボックス(Sample To Group box、sbgp)とグループ記述ボックス(Sample Group Description box、sgpd)から構成される。関心領域がいくつかの時間帯では変化しない場合、すなわちビデオトラック内の一部サンプルに対応する関心領域が同じである場合、そのときのROI空間位置はサンプルグループを用いて記述することができる。
grouping_typeは、サンプルグループのタイプ、つまりサンプルグループを形成するための条件を指示し、そしてそれを、グループ記述内に同じタイプ値を持つグループにリンクするためのものである。1つのメディアトラックについて、同じgrouping_typeが最大で1回現われる。本実施例において、関心領域の空間情報グループタイプを「rigp」と定義し、ビデオトラック内のサンプルを関心領域別に複数のグループに分け、sgpd boxに対応させる。
各sgpd boxは1つのsbgp boxに対応しており、関心領域の空間位置情報はsgpd box内で記述され、grouping_typeの定義は「roig」で上記と同じである。sgpd box内のサンプルグループエントリは、関心領域に対して、対応する拡張、すなわち関心領域グループエントリ(ROI Sample Group Entry)を追加している。
構文は以下のように定義される。
Figure 2022552853000005
構文は以下のように定義される。
roi_countは関心領域の数を示す。ROIRegionStruct()は空間位置、関心領域識別子、関連情報などの、関心領域の関連情報を示す。
track_countは関心領域に関連付けられたメディアトラックの数を示す。track_idは関心領域に関連付けられたメディアトラック識別子を示し、トラック識別子によって関心領域に関連付けられた1つまたは複数のメディアリソースを確定することができる。ROIRegionStruct()の構文定義は前述の通りであり、本実施例では説明を省略する。
応用的な一例において、本実施例は、パノラマメディアファイル内のメディアデータと空間領域とが関連関係を有し、かつ、全てのサンプルが1つの空間領域にしか対応していない場合の、この関連関係の記述方法について説明し、ここでの空間領域は、ビデオトラック内の関心領域によって定義される。
関心領域に関連付けることができるメディアの種類には、音声、テキスト、一部のビデオ領域など様々なものがあり、その表現効果もクライアントの操作に関連している。本実施例では、時限テキストを例に、その中の一つの関連方法について説明する。時限テキストとは、VR字幕のことであり、本実施例において、時限テキストのレンダリング位置は、時限テキストトラックに定義された2次元領域情報だけでなく、ビデオ内の関心領域にも関係する。このシーンに対し、VR字幕の再生、レンダリング過程は以下の通りである。
1)仮想現実シーンの立体を構成するために、ビデオソースカメラの位置を中心点として、球形の空間領域を構築する。
2)時刻tにおいて、パノラマプレーヤは、時限テキストの深度情報や両眼視差、関心領域の関連関係、2次元領域情報を読み取る。
3)パノラマプレーヤは、関心領域の関連関係に基づいて、対応するビデオトラックから関心領域の空間位置情報を読み取る。
4)字幕の表示方法が常に表示画面に表示される場合は、ステップ1~ステップ3のパラメータと両眼視差値に基づいて、時限テキストの左右の目の表示画面での表示位置をそれぞれ計算し、左右の目の表示画面で時限テキストをそれぞれレンダリングする。
5)字幕の表示方法が関心領域に固定して表示される場合は、ステップ1~ステップ3のパラメータと深度値に基づいて3次元平面を構築し、かつ、3次元平面上で時限テキストをレンダリングする。
本実施例において、パノラマメディアにおける時限テキスト空間パラメータ、関心領域の関連関係は、全方向時限テキスト配置ボックス(Omaf Timed Text Config box,otcf)によって記述され、本実施例では、それぞれ2つの構文構造に対応する2つの選択可能な実施形態を提供する。
1つ目の選択可能な実施形態において、時限テキスト配置ボックスの定義と構文は以下の通りである。
Figure 2022552853000006
relative_to_roi_flagは時限テキストのレンダリング方法を表し、1は時限テキストが常にディスプレイに表示されることを表し、0は時限テキストが空間的な関心領域に表示され、ユーザが関心領域の方向に見ているときにのみ見られることを表す。
Figure 2022552853000007
relative_disparity_flagは視差の単位を表し、0はピクセル、1はパーセンテージである。roi_included_flagは関心領域がotcf box内で提供されるか否かを表し、0は提供されないことを表し、1は提供されることを表す。disparity_in_percent/pixelsは視差の大きさを表し、負の値とすることができる。roi_idは、時限テキストに関連付けられている関心領域を表し、ビデオトラック内の関心領域に対応する。
track_idはオプションで、時限テキストに関連付けられたビデオトラック識別子を表し、時限テキストトラックとビデオトラックとがトラック参照ボックス(Track Reference Box,tref)を通して関連付けられている場合、この識別子は提供されなくてもよい。
2つ目の実施形態において、時限テキスト配置ボックスの定義と構文は以下の通りである。
Figure 2022552853000008
relative_to_viewport_flagは、時限テキストのレンダリング方法を表す。値が1の場合、時限テキストが常にディスプレイに表示されるべきであることを表す。値が0の場合、時限テキストが球体上の固定された空間位置にレンダリングされることを表す。つまり、ユーザがテキスト提示をレンダリングする方向に見ているときにのみ、当該テキスト提示が見られる。値が2の場合、時限テキストが球体の関心領域内でレンダリングされることを表し、ユーザが関心領域の方向に見ているときに、テキスト提示が見られる。
roi_idは、時限テキストに関連付けられている関心領域を表し、ビデオトラック内の関心領域に対応する。
track_idはオプションで、時限テキストに関連付けられたビデオトラック識別子を表し、時限テキストトラックとビデオトラックとがトラック参照ボックス(Track Reference Box,tref)を通して関連付けられている場合、この識別子は提供されなくてもよい。
応用的な一例において、本実施例は、パノラマメディアファイル内のメディアデータと空間領域とが関連関係を有し、かつ、異なるサンプルが異なる空間領域に対応している場合の、この関連関係の記述方法について説明する。
本実施例において、同様に時限テキストを例に、サンプルグループ構造を利用して記述する。本実施例において、2つの選択可能な実施形態を提供し、即ち、時限テキストサンプルに対応する空間領域は、ビデオトラック内の関心領域によって定義することも、2つの構文構造にそれぞれ対応する一つの空間領域を指定することもできる。
本実施例において、VR字幕の再生、レンダリング過程は上記実施例と基本的に一致するが、関連関係は時限テキストサンプルグループによって取得される。
1つ目の実施形態では、本実施形態において、関心領域の空間情報グループタイプを「rcgp」と定義し、時限テキストトラック内のサンプルをそれに関連付けられた関心領域によって、複数のグループに分ける。一方、各sgpd boxは1つのsbgp boxに対応しており、同じグループ内のサンプルに関連付けられた関心領域のタイプはsgpd box内で記述され、grouping_typeの定義は「rcgp」で上記と同じである。sgpd box内のサンプルグループエントリは、関心領域関連関係に対して、対応する拡張、すなわち関心領域関連関係グループエントリ(ROICorrelationSampleGroupEntry)を追加する。
構文は以下のように定義される。
Figure 2022552853000009
relative_disparity_flagは視差の単位を表し、0はピクセル、1はパーセンテージである。roi_included_flagは関心領域がotcf box内で提供されるか否かを表し、0は提供されないことを表し、1は提供されることを表す。disparity_in_percent/pixelsは視差の大きさを表し、負の値とすることができる。roi_idは、時限テキストに関連付けられている関心領域を表し、ビデオトラック内の関心領域に対応する。
track_idはオプションで、時限テキストに関連付けられたビデオトラック識別子を表し、時限テキストトラックとビデオトラックとがトラック参照ボックス(Track Reference Box,tref)を通して関連付けられている場合、この識別子は提供されなくてもよい。
2つ目の実施形態では、本実施例において、関心領域の空間情報グループタイプを「otgp」と定義し、時限テキストトラック内のサンプルをそれに関連付けられた空間領域によって、複数のグループに分ける。一方、各sgpd boxは1つのsbgp boxに対応しており、同じグループ内のサンプルに関連付けられた関心領域のタイプはsgpd box内で記述され、grouping_typeの定義は「otgp」で上記と同じである。sgpd box内のサンプルグループエントリは、関心領域関連関係に対して、対応する拡張、すなわち関心領域関連関係グループエントリ(OmafTimedTextConfigEntry)を追加する。
構文は以下のように定義される。
Figure 2022552853000010
relative_disparity_flagは視差の単位を表し、0はピクセル、1はパーセンテージである。disparity_in_percent/pixelsは視差の大きさを表し、負の値とすることができる。SphereRegionStruct()は球体の位置を表し、この位置は他の情報とともに3次元空間における時限テキストの配置と表示位置を確定するために使用される。
本実施例では、時限テキストを例に、図7は本願の実施例が提供する字幕データ調整フローの模式図である。図7に示すように、パノラマビデオに、1つのタイプの関心領域がある場合の、時限テキストのレンダリング過程について説明する。
ステップ1において、プレーヤは、テキスト、画像などのメディアデータと、色、透明度、サイズ、空間位置などの情報を含む1つの時刻(t)の時限テキストデータを取得する。
ステップ2において、otcf box内の時限テキスト配置情報を読み取る。本実施例において、relative_to_viewport_flagは2、roi_included_flagは1で、時限テキストは関心領域とともに変化し、関心領域は1タイプしかなく、関心領域のタイプroi_idを読み取る。
ステップ3において、otcf box内のroi_idに基づいて、ビデオトラック内の同じroi_idで表される空間位置情報(Posroi)を取得する。
ステップ4において、現在のビューポートの中心点(PosViewport)と関心領域の中心点(Posroi)の空間上の最短経路を取得する。
ステップ5において、時限テキスト表示領域の座標を計算し、時限テキスト表示領域の中心点がステップ4の最短経路上にあり、かつ表示領域が現在のビューポート範囲を超えないようにする必要がある。
ステップ6において、左右のビューポートの視差に応じて、左右のビューポート内での時限テキストの領域座標を対応するように調整する。
ステップ7において、それぞれ左右のビューポート内で時限テキストをレンダリングする。
本実施例は、パノラマメディアファイル内でのメディアデータと関心領域とを関連付ける応用の一つに過ぎず、メディアオブジェクトとパノラマビデオ画面内の領域とを関連付ける必要があるいかなるシーンにおいても、本願の案を適用することができる。
図8は本願の実施例が提供するメディアリソース再生装置の構造模式図である。本実施例が提供するメディアリソース再生装置は主に、VRシーンの関心領域内で1つまたは複数のメディアリソースを再生する場合に適し、前記メディアリソース再生装置はハードウェアおよび/またはソフトウェアの方法によって実現可能である。
図1に示すように、本願の実施例が提供するメディアリソース再生装置は主に領域とリソース確定モジュール81と、メディアリソース再生モジュール82とを含む。
領域とリソース確定モジュール81は、第1ボックスタイプまたは第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定するように構成され、メディアリソース再生モジュール82は、前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生するように構成されている。
一つの例示的な実施形態において、領域とリソース確定モジュール81は、すべてのビデオサンプルに適した関心領域について、第1ボックスタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースを確定するように構成されている。
領域とリソース確定モジュール81は、前記第1ボックスタイプに基づいて、ビデオトラックサンプル入口内の関心領域記述ボックスを識別するように構成され、前記ビデオトラックサンプルは、ビデオトラックビジュアルサンプル、全方向ビデオトラック制限サンプルのうちの1つまたは複数を含み、前記関心領域記述ボックス内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定する。
一つの例示的な実施形態において、領域とリソース確定モジュール81は、ビデオサンプルグループに適した関心領域について、第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースを確定するように構成されている。
領域とリソース確定モジュール81は、前記第1グループタイプに基づいて全方向ビデオトラック内の関心領域サンプルグループ入口を識別し、前記関心領域サンプルグループ入口内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定するように構成されている。
一つの例示的な実施形態において、メディアリソース再生モジュール82は、ユーザ現在のビューポートにおいて、前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生し、または、前記関心領域において、前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生するように構成されている。
一つの例示的な実施形態において、前記関心領域は、関心領域の数と、関心領域の識別子と、関心領域の空間領域と、関心領域のタイプと、関心領域の記述と、のうちの1つまたは複数の情報によって記述される。
一つの例示的な実施形態において、前記関心領域のタイプは、クリエータ推薦タイプと、画面強化タイプと、リアルタイムホットスポットタイプと、方位ガイドタイプと、マルチ画面インタラクティブタイプと、のうちの1つまたは複数種類の情報を含む。
一つの例示的な実施形態において、前記関心領域の空間領域は、球面領域の中心点と、球面領域の方位角範囲と俯仰角範囲と、のうちの1つまたは複数種類の情報を含み、ここで、前記球面領域の中心点は、中心点の方位角、中心点の俯仰角、中心点の傾斜角によって確定される。
一つの例示的な実施形態において、前記メディアリソースは:音声、ビデオ、画像、時限テキストのうちの一つまたは複数を含む。
図9は本願の実施例が提供する時限テキストレンダリング装置の構造模式図である。本実施例が提供する時限テキストレンダリング装置は主に、VRシーンにおいて関心領域内のテキストをレンダリングする場合に適し、前記時限テキストレンダリング装置はハードウェア及び/またはソフトウェアの方法によって実現可能である。
図9に示すように、本願の実施例が提供する時限テキストレンダリング装置は主に領域と深度情報確定モジュール91と、時限テキストレンダリングモジュール92とを含む。
領域と深度情報確定モジュール91は、時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの1つまたは複数のテキスト領域をレンダリングする深度情報とを確定するように構成され、時限テキストレンダリングモジュール92は、前記全方向ビデオの関心領域に対して前記時限テキストの1つまたは複数のテキスト領域をレンダリングするように構成されている。
一つの例示的な実施形態において、領域と深度情報確定モジュール91は、すべての時限テキストサンプルに適した関心領域に対して、第2ボックスタイプに基づいて時限テキストトラックサンプル入口内の時限テキスト配置ボックスを識別し、前記時限テキスト配置ボックス内の要素に基づいて、時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するように構成されている。
一つの例示的な実施例において、領域と深度情報確定モジュール91は、時限テキストサンプルグループに適した関心領域に対して、前記第2グループタイプに基づいて時限テキストトラック内の時限テキスト配置サンプルグループ入口を識別し、前記時限テキスト配置サンプルグループ入口内の要素に基づいて、時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域を確定するように構成されている。
一つの例示的な実施例において、時限テキストレンダリングモジュール92は、単位球に対する3次元平面を構築し、前記全方向ビデオの関心領域に基づいて前記3次元平面に対応する球面領域位置を確定し、深度情報に基づいて前記3次元平面と前記単位球の球心との距離を確定し、前記3次元平面に前記時限テキストの1つまたは複数のテキスト領域をレンダリングするように構成されている。
一つの例示的な実施例において、前記深度情報は、前記全方向ビデオの関心領域に対して前記時限テキストの1つまたは複数のテキスト領域をレンダリングする深度値である。
一つの例示的な実施例において、前記全方向ビデオの関心領域は、関心領域の数と、関心領域の識別子と、関心領域の空間領域と、関心領域のタイプと、関心領域の記述と、のうちの1つまたは複数の情報によって記述される。
一つの例示的な実施形態において、前記関心領域のタイプは、クリエータ推薦タイプと、画面強化タイプと、リアルタイムホットスポットタイプと、方位ガイドタイプと、マルチ画面インタラクティブタイプと、のうちの1つまたは複数種類の情報を含む。
一つの例示的な実施例において、前記関心領域の空間領域は:球面領域の中心点と、球面領域の方位角範囲と俯仰角範囲と、のうちの1つまたは複数種類の情報を含み、ここで、前記球面領域の中心点は、中心点の方位角、中心点の俯仰角、中心点の傾斜角によって確定される。
上記実施例に基づいて、本願の実施例はさらに電子機器を提供する。図10は本願の実施例が提供する電子機器の構造模式図である。図10に示すように、この電子機器はプロセッサ100と、メモリ101と、入力装置102と出力装置103とを含む。電子機器内のプロセッサ100の数は1つまたは複数であってもよく、図10では1つのプロセッサ100を例に挙げている。電子機器内のプロセッサ100、メモリ101、入力装置102および出力装置103はバスまたはその他の方法で接続されてもよく、図10ではバスで接続されている例を示している。
メモリ101は、コンピュータ読み取り可能な記憶媒体として、ソフトウェアプログラム、コンピュータ実行可能なプログラムおよびモジュール、例えば本願の実施例におけるメディアリソース再生方法に対応するプログラム命令/モジュール(例えば、メディアリソース再生装置内の領域とリソース確定モジュール81、メディアリソース再生モジュール82)、または例えば本願の実施例における時限テキストレンダリング方法に対応するプログラム命令/モジュール(例えば、時限テキストレンダリング装置内の領域と深度情報確定モジュール91、時限テキストレンダリングモジュール92)の記憶に利用できる。
プロセッサ100は、メモリ101に記憶されたソフトウェアプログラム、命令及びモジュールを実行することにより、電子機器の様々な機能アプリケーション及びデータ処理を実行し、すなわち、本願の実施例において提供される何れか一つの方法を実現する。
メモリ101は、主に、プログラム記憶領域とデータ記憶領域とを含むことができ、プログラム記憶領域はオペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、端末の使用によって作成されたデータなどを記憶することができる。さらに、メモリ101は、高速ランダムアクセスメモリを含むことができ、または不揮発性のメモリ、例えば少なくとも1つの磁気ディスクメモリ装置、フラッシュメモリ装置、または他の不揮発性のソリッドステートメモリ装置を含むことができる。いくつかの実例において、メモリ101はさらに、プロセッサ100に対して遠隔地に配置されたメモリを含んでもよく、これらの遠隔メモリは、ネットワークを介して電子機器に接続することができる。上記のネットワークの実例は、インターネット、社内イントラネット、ローカルエリアネットワーク、移動通信ネットワーク、及びこれらの組み合わせを含むが、これらに限定されない。
入力装置102は、入力された数字や文字情報を受け取ったり、電子機器のユーザ設定や機能制御に関するキー信号入力を生成したりするために使用できる。出力装置103は、ディスプレイなどの表示装置を含むことができる。
上記実施例に基づいて、本願の実施例はさらにコンピュータ実行可能な命令を含む記憶媒体を提供し、前記コンピュータ実行可能な命令は、コンピュータプロセッサによって実行されたとき、本願の実施例において提供される何れか一つの方法を実行するように構成されている。
例えば、本願の実施例において提供されるメディアリソース再生方法を実行する場合、この方法は、
第1ボックスタイプまたは第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた1つまたは複数のメディアリソースとを確定するステップと、前記関心領域に関連付けられた1つまたは複数のメディアリソースを再生するステップと、を含む。
例えば、本願の実施例において提供される時限テキストレンダリング方法を実行する場合、この方法は、時限テキストの1つまたは複数のテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの1つまたは複数のテキスト領域をレンダリングする深度情報とを確定するステップと、前記全方向ビデオの関心領域に対して前記時限テキストの1つまたは複数のテキスト領域をレンダリングするステップと、を含む。
本願の実施例が提供するコンピュータ実行可能な命令を含む記憶媒体によれば、そのコンピュータ実行可能な命令は、上述のような方法の操作に限定されるものではなく、本願の任意の実施例が提供する何れか一つの方法における関連操作を実行することもできる。
以上の実施形態についての説明から、本願はソフトウェアおよび汎用ハードウェアによって実現できるが、ハードウェアによっても実現できることは、当業者であれば理解できるであろう。このような理解に基づいて、本願の技術案は、ソフトウェア製品の形で具現化することができ、このソフトウェア製品は、例えばコンピュータのフロッピー(登録商標)ディスク、読み取り専用メモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、フラッシュメモリ(FLASH)、ハードディスクまたは光ディスクなどの、1台のコンピュータ機器(パーソナルコンピュータ、サーバまたはネットワーク機器などでもよく)に本願の各実施例に記載の方法を実行させるように構成された幾つかの命令を含む、コンピュータ読み取り可能な記憶媒体に格納できる。
上記メディアリソース再生装置および時限テキストレンダリング装置の実施例において、含まれる各ユニットとモジュールは、機能ロジックに基づいて分類されているだけであり、対応する機能を実現できれば、上記の分類に限定されるものではない。また、各機能ユニットの名称も、相互の区別を容易にするためのものであり、本願の保護範囲を制限するものではない。
上記は本願の例示的な実施例にすぎず、本願の保護範囲を限定するためのものではない。
当業者であれば、ユーザ端末という用語は、例えば携帯電話、携帯データ処理装置、携帯ウェブブラウザ、または車載用移動局など、あらゆる適切なタイプの無線ユーザ機器をカバーすることは理解されるだろう。
一般的に、本願の様々な実施例は、ハードウェアまたは専用回路、ソフトウェア、論理またはそれらの任意の組合せ内で実現できる。例えば、本願はそれに限定されないが、いくつかの態様はハードウェア内で実現でき、一方、他の態様はコントローラ、マイクロプロセッサまたはその他のコンピューティング装置によって実行可能なファームウェアまたはソフトウェア内で実現できる。
本願の実施例は、例えば、プロセッサの実体内で、またはハードウェアによって、あるいはソフトウェアとハードウェアの組み合わせによって、モバイル装置のデータプロセッサがコンピュータプログラム命令を実行することによって実現されることができる。コンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ(Instruction Set Architecture,ISA)命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、または1つまたは複数のプログラミング言語の任意の組み合わせで作成されたソースコードまたはターゲットコードであってもよい。
本願の添付図面における任意の論理フローのブロック図は、プログラムのステップを表してもよく、または相互に接続された論理回路、モジュール、および機能を表してもよく、あるいは、プログラムのステップと論理回路、モジュール、および機能との組み合わせを表してもよい。コンピュータプログラムはメモリに格納できる。メモリは、ローカル技術環境に適した任意のタイプを有することができ、かつ、任意の適切なデータ記憶技術で実現でき、例えば、読み取り専用メモリ、ランダムアクセスメモリ、光学メモリ装置及びシステム(DVD(デジタルバーサタイルディスク(Digital Video Disc,DVD)、または光学ディスク(compact disc,CD))などを含むが、それらに限定されない。コンピュータ読み取り可能な媒体は、不揮発性の記憶媒体を含むことができる。データプロセッサは、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(Digital Signal Processing,DSP)、専用集積回路(Application Specific Integrated Circuit,ASIC)、プログラマブルロジックデバイス(Field Programmable Gate Array,FPGA)、及びマルチコアプロセッサアーキテクチャに基づくプロセッサなど、ローカル技術環境に適した任意のタイプであってもよいが、これらに限定されない。

Claims (19)

  1. 第1ボックスタイプまたは第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも1つのメディアリソースとを確定するステップと、
    前記関心領域に関連付けられた少なくとも1つのメディアリソースを再生するステップと、
    を含むメディアリソース再生方法。
  2. 第1ボックスタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも1つのメディアリソースとを確定するステップは、
    前記第1ボックスタイプに基づいて、ビデオサンプル入口または全方向ビデオ制限サンプル入口内の関心領域記述ボックスを識別するステップと、
    前記関心領域記述ボックス内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも1つのメディアリソースとを確定するステップと、
    を含む請求項1に記載の方法。
  3. 第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも1つのメディアリソースとを確定するステップは、
    前記第1グループタイプに基づいて全方向ビデオトラック内の関心領域サンプルグループ入口を識別するステップと、
    前記関心領域サンプルグループ入口内の要素に基づいて、前記全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも1つのメディアリソースとを確定するステップと、
    を含む請求項1に記載の方法。
  4. 前記関心領域に関連付けられた少なくとも1つのメディアリソースを再生する前記ステップは、
    現在のビューポートにおいて、前記関心領域に関連付けられた少なくとも1つのメディアリソースを再生するステップ、または、
    前記関心領域において、前記関心領域に関連付けられた少なくとも1つのメディアリソースを再生するステップ、
    を含む請求項1に記載の方法。
  5. 前記関心領域は、
    関心領域の数と、関心領域の識別子と、関心領域の空間領域と、関心領域のタイプと、関心領域の記述と、
    のうちの少なくとも1つの情報によって記述される請求項1~4の何れか一項に記載の方法。
  6. 前記関心領域のタイプは、
    クリエータ推薦タイプと、画面強化タイプと、リアルタイムホットスポットタイプと、方位ガイドタイプと、マルチ画面インタラクティブタイプと、
    のうちの少なくとも1つの情報を含む請求項5に記載の方法。
  7. 前記関心領域の空間領域は、
    球面領域の中心点と、
    球面領域の方位角範囲と俯仰角範囲と、
    のうちの少なくとも1つの情報を含み、
    ここで、前記球面領域の中心点は、中心点の方位角、中心点の俯仰角、中心点の傾斜角によって確定される請求項5に記載の方法。
  8. 前記メディアリソースは、
    音声、ビデオ、画像、時限テキスト
    のうちの少なくとも一つを含む請求項1~4の何れか一項に記載の方法。
  9. 時限テキストの少なくとも1つのテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの少なくとも1つのテキスト領域をレンダリングする深度情報とを確定するステップと、
    前記全方向ビデオの関心領域に対して前記時限テキストの少なくとも1つのテキスト領域をレンダリングするステップと、
    を含む時限テキストレンダリング方法。
  10. 時限テキストの少なくとも1つのテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップは、
    ボックスタイプに基づいて時限テキストトラックサンプル入口内の時限テキスト配置ボックスを識別するステップと、
    前記時限テキスト配置ボックス内の要素に基づいて、前記時限テキストの少なくとも1つのテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップと、
    を含む請求項9に記載の方法。
  11. 時限テキストの少なくとも1つのテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップは、
    グループタイプに基づいて時限テキストトラック内の時限テキスト配置サンプルグループ入口を識別するステップと、
    前記時限テキスト配置サンプルグループ入口内の要素に基づいて、前記時限テキストの少なくとも1つのテキスト領域に関連付けられた全方向ビデオの関心領域を確定するステップと、
    を含む請求項9に記載の方法。
  12. 前記全方向ビデオの関心領域に対して前記時限テキストの少なくとも1つのテキスト領域をレンダリングするステップは、
    単位球に対する3次元平面を構築するステップであって、前記全方向ビデオの関心領域に基づいて前記3次元平面に対応する球面領域位置を確定し、前記深度情報に基づいて前記3次元平面と前記単位球の球心との距離を確定するステップと、
    前記3次元平面に前記時限テキストの少なくとも1つのテキスト領域をレンダリングするステップと、
    を含む請求項9に記載の方法。
  13. 前記全方向ビデオの関心領域は、
    関心領域の数と、関心領域の識別子と、関心領域の空間領域と、関心領域のタイプと、関心領域の記述と、
    のうちの少なくとも1つの情報によって記述される請求項9~12の何れか一項に記載の方法。
  14. 前記関心領域のタイプは、
    クリエータ推薦タイプと、画面強化タイプと、リアルタイムホットスポットタイプと、方位ガイドタイプと、マルチ画面インタラクティブタイプと、
    のうちの少なくとも1つの情報を含む請求項13に記載の方法。
  15. 前記関心領域の空間領域は、
    球面領域の中心点と、
    球面領域の方位角範囲と俯仰角範囲と、
    のうちの少なくとも1つの情報を含み、
    ここで、前記球面領域の中心点は、中心点の方位角、中心点の俯仰角、中心点の傾斜角によって確定される請求項13に記載の方法。
  16. 第1ボックスタイプまたは第1グループタイプに基づいて、全方向ビデオの関心領域と、前記関心領域に関連付けられた少なくとも1つのメディアリソースとを確定するように構成された領域とリソース確定モジュールと、
    前記関心領域に関連付けられた少なくとも1つのメディアリソースを再生するように構成されたメディアリソース再生モジュールと、
    を含むメディアリソース再生装置。
  17. 時限テキストの少なくとも1つのテキスト領域に関連付けられた全方向ビデオの関心領域と、及び前記時限テキストの少なくとも1つのテキスト領域をレンダリングする深度情報とを確定するように構成された領域と深度情報確定モジュールと、
    前記全方向ビデオの関心領域に対して前記時限テキストの少なくとも1つのテキスト領域をレンダリングするように構成された時限テキストレンダリングモジュールと、
    を含む時限テキストレンダリング装置。
  18. 少なくとも1つのプロセッサと、
    少なくとも一つのプログラムを記憶するように構成されたメモリと、
    を含む機器であって、
    前記少なくとも1つのプログラムが前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~15の何れか一項に記載の方法を実行させる機器。
  19. コンピュータプログラムを記憶した記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されたときに、請求項1~15の何れか一項に記載の方法を実現する記憶媒体。
JP2022523231A 2019-12-03 2020-11-12 メディアリソースの再生およびテキストレンダリング方法、装置、機器および記憶媒体 Active JP7395725B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911223329.3A CN112511866B (zh) 2019-12-03 2019-12-03 媒体资源播放方法、装置、设备和存储介质
CN201911223329.3 2019-12-03
PCT/CN2020/128276 WO2021109822A1 (zh) 2019-12-03 2020-11-12 媒体资源播放及文本渲染方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
JP2022552853A true JP2022552853A (ja) 2022-12-20
JP7395725B2 JP7395725B2 (ja) 2023-12-11

Family

ID=74923664

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022523231A Active JP7395725B2 (ja) 2019-12-03 2020-11-12 メディアリソースの再生およびテキストレンダリング方法、装置、機器および記憶媒体

Country Status (6)

Country Link
US (1) US11838594B2 (ja)
EP (1) EP4072149A4 (ja)
JP (1) JP7395725B2 (ja)
KR (1) KR102621434B1 (ja)
CN (1) CN112511866B (ja)
WO (1) WO2021109822A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160165309A1 (en) * 2013-07-29 2016-06-09 Koninklijke Kpn N.V. Providing tile video streams to a client
US20180288396A1 (en) * 2017-03-31 2018-10-04 Samsung Electronics Co., Ltd. Method and apparatus for rendering timed text and graphics in virtual reality video
US20190364261A1 (en) * 2017-01-10 2019-11-28 Lg Electronics Inc. Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video and apparatus for receiving 360-degree video

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2894852A1 (en) 2014-01-14 2015-07-15 Alcatel Lucent Process for increasing the quality of experience for users that watch on their terminals a high definition video stream
US9984505B2 (en) 2014-09-30 2018-05-29 Sony Interactive Entertainment Inc. Display of text information on a head-mounted display
US9928297B2 (en) * 2015-02-11 2018-03-27 Qualcomm Incorporated Sample grouping signaling in file formats
WO2017060423A1 (en) * 2015-10-08 2017-04-13 Koninklijke Kpn N.V. Enhancing a region of interest in video frames of a video stream
US10880535B2 (en) * 2016-02-17 2020-12-29 Lg Electronics Inc. Method for transmitting 360 video, method for receiving 360 video, apparatus for transmitting 360 video, and apparatus for receiving 360 video
US10565463B2 (en) * 2016-05-24 2020-02-18 Qualcomm Incorporated Advanced signaling of a most-interested region in an image
EP4336850A3 (en) * 2016-07-08 2024-04-17 InterDigital Madison Patent Holdings, SAS Systems and methods for region-of-interest tone remapping
CN109691094B (zh) 2016-08-25 2021-10-22 Lg电子株式会社 发送全向视频的方法、接收全向视频的方法、发送全向视频的装置和接收全向视频的装置
US11172005B2 (en) 2016-09-09 2021-11-09 Nokia Technologies Oy Method and apparatus for controlled observation point and orientation selection audiovisual content
US10652553B2 (en) 2016-12-07 2020-05-12 Qualcomm Incorporated Systems and methods of signaling of regions of interest
US10742999B2 (en) * 2017-01-06 2020-08-11 Mediatek Inc. Methods and apparatus for signaling viewports and regions of interest
CN110651482B (zh) * 2017-03-30 2022-02-22 联发科技股份有限公司 发信isobmff的球面区域信息的方法和装置
CN108810600B (zh) * 2017-04-28 2020-12-22 华为技术有限公司 一种视频场景的切换方法、客户端及服务器
US10375375B2 (en) 2017-05-15 2019-08-06 Lg Electronics Inc. Method of providing fixed region information or offset region information for subtitle in virtual reality system and device for controlling the same
US11025919B2 (en) * 2017-10-03 2021-06-01 Koninklijke Kpn N.V. Client-based adaptive streaming of nonlinear media
CN111937397B (zh) * 2018-04-03 2024-05-10 华为技术有限公司 媒体数据处理方法及装置
CN110351492B (zh) * 2018-04-06 2021-11-19 中兴通讯股份有限公司 一种视频数据处理方法、装置及介质
EP3780595A4 (en) * 2018-04-11 2022-01-05 LG Electronics Inc. METHOD AND DEVICE FOR TRANSMISSION OF 360 DEGREE VIDEOS USING METADATA RELATING TO HOTSPOT AND ROI
JP2021526756A (ja) * 2018-06-04 2021-10-07 シャープ株式会社 全方位ビデオに関連付けられたオーバーレイ情報を決定する方法、装置、および記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160165309A1 (en) * 2013-07-29 2016-06-09 Koninklijke Kpn N.V. Providing tile video streams to a client
US20190364261A1 (en) * 2017-01-10 2019-11-28 Lg Electronics Inc. Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video and apparatus for receiving 360-degree video
US20180288396A1 (en) * 2017-03-31 2018-10-04 Samsung Electronics Co., Ltd. Method and apparatus for rendering timed text and graphics in virtual reality video

Also Published As

Publication number Publication date
KR102621434B1 (ko) 2024-01-05
US11838594B2 (en) 2023-12-05
CN112511866B (zh) 2024-02-23
JP7395725B2 (ja) 2023-12-11
WO2021109822A1 (zh) 2021-06-10
US20220368991A1 (en) 2022-11-17
EP4072149A1 (en) 2022-10-12
EP4072149A4 (en) 2024-02-28
CN112511866A (zh) 2021-03-16
KR20220071240A (ko) 2022-05-31

Similar Documents

Publication Publication Date Title
US11651752B2 (en) Method and apparatus for signaling user interactions on overlay and grouping overlays to background for omnidirectional content
KR102545195B1 (ko) 가상 현실 시스템에서 컨텐트 전송 및 재생 방법 및 장치
CN108702528B (zh) 发送360视频的方法、接收360视频的方法、发送360视频的设备和接收360视频的设备
KR102247399B1 (ko) 가상 현실 미디어 콘텐트의 적응적 스트리밍을 위한 방법, 디바이스, 및 컴퓨터 프로그램
KR102258448B1 (ko) 핫스팟 및 roi 관련 메타데이터를 이용한 360도 비디오를 송수신하는 방법 및 그 장치
CN109074678B (zh) 一种信息的处理方法及装置
US11094130B2 (en) Method, an apparatus and a computer program product for video encoding and video decoding
US20210321058A1 (en) Method for transmitting 360-degree video, method for providing a user interface for 360-degree video, apparatus for transmitting 360-degree video, and apparatus for providing a user interface for 360-degree video
US11587200B2 (en) Method and apparatus for enabling multiple timeline support for omnidirectional content playback
US11044456B2 (en) Image processing method and image player using thereof
US11677978B2 (en) Omnidirectional video processing method and device, related apparatuses and storage medium
CN110476429B (zh) 用于构建虚拟现实环境的方法、系统和设备
WO2020062700A1 (zh) 处理媒体数据的方法、客户端和服务器
JP7395725B2 (ja) メディアリソースの再生およびテキストレンダリング方法、装置、機器および記憶媒体
CN108271084B (zh) 一种信息的处理方法及装置
JP2024538232A (ja) データ処理方法、記憶媒体、及びプログラム製品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220418

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231129

R150 Certificate of patent or registration of utility model

Ref document number: 7395725

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150