JP7182751B1 - チャネルベースオーディオからオブジェクトベースオーディオへの変換のためのシステム、方法、及び機器 - Google Patents

チャネルベースオーディオからオブジェクトベースオーディオへの変換のためのシステム、方法、及び機器 Download PDF

Info

Publication number
JP7182751B1
JP7182751B1 JP2022532868A JP2022532868A JP7182751B1 JP 7182751 B1 JP7182751 B1 JP 7182751B1 JP 2022532868 A JP2022532868 A JP 2022532868A JP 2022532868 A JP2022532868 A JP 2022532868A JP 7182751 B1 JP7182751 B1 JP 7182751B1
Authority
JP
Japan
Prior art keywords
audio
channel
oamd
bitstream
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022532868A
Other languages
English (en)
Other versions
JP7182751B6 (ja
JP2022553111A (ja
Inventor
シー. ウォード,マイケル
サンチェス,フレディー
フェルシュ,クリストフ
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー・インターナショナル・アーベー filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Application granted granted Critical
Publication of JP7182751B1 publication Critical patent/JP7182751B1/ja
Publication of JP7182751B6 publication Critical patent/JP7182751B6/ja
Publication of JP2022553111A publication Critical patent/JP2022553111A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

チャネルベースオーディオ(CBA)(例えば、22.2chオーディオ)からオブジェクトベースオーディオ(OBA)への変換のための実施形態が開示される。変換は、CBAメタデータをオブジェクトオーディオメタデータ(OAMD)に変換すること、及びOAMDのチャネル順序制約に従い導出されるチャネルシャッフル情報に基づき、CBAチャネルを並べ替えることを含む。並べ替えたチャネルを有するOBAは、OAMDを用いて、再生装置で、又はセットトップボックス若しくはオーディオ/ビデオレコーダのようなソース装置でレンダリングされる、実施形態では、CBAメタデータは、メタデータの変換において使用されるべき特定のOAMD表現を示すシグナリングを含む。実施形態では、予め計算されたOAMDは、ソース装置におけるレンダリングのため又は(例えばHDMI(登録商標)を介する)送信のためにネイティブオーディオビットストリーム(例えば、AAC)の中で送信される。実施形態では、予め計算されたOAMDは、トランスポート層ビットストリーム(例えば、ISO BMFF、MPEG4オーディオビットストリーム)の中で再生装置又はソース装置へ送信される。

Description

[関連出願の相互参照]
本願は、米国仮特許出願番号第62/942,322号、2019年12月2日出願、及び欧州特許出願番号第19212906.2号、2019年12月2日出願の優先権を主張する。両出願は、参照によりその全体がここに組み込まれる。
[技術分野]
本開示は、概して、チャネルベースオーディオからオブジェクトベースオーディオへの変換を含むオーディオ信号処理に関する。
チャネルベースオーディオ(channel-based audio (CBA))コーディングでは、トラックのセットをチャネル構成に関連付けることにより、トラックのセットは、暗示的に特定のラウドスピーカに割り当てられる。再生スピーカ構成がコーディングチャネル構成と異なる場合、ダウンミキシング又はアップミキシング仕様は、利用可能スピーカにオーディオを再分配することを要求する。この枠組みは、よく知られており、復号端におけるチャネル構成が予め決定できるか、妥当な確実性で2.0、5.X、又は7.Xであると想定できるとき、機能する。しかしながら、新しいスピーカ編成(setup)の人気に伴い、再生のために使用されるスピーカ編成に関して想定を行うことができない。従って、CBAは、ソーススピーカレイアウトが復号端におけるスピーカレイアウトと一致しない場合に、表現を適応するための十分な方法を提供しない。これは、著作者のコンテンツをスピーカ構成と独立に良好に再生しようとするとき、問題を生じる。
オブジェクトベースオーディオ(object-based audio (OBA))コーディングでは、個別に割り当てられたオブジェクト特性を含むメタデータと関連して、オブジェクトオーディオ要素を含むオブジェクトに、レンダリングが適用される。特性(例えば、x、y、z位置、又はチャネル位置)は、コンテンツ制作者がオーディオコンテンツがどのようにレンダリングされることを意図しているかをより明示的に指定する(つまり、それらは、要素をスピーカにどのようにレンダリングするかに制約を課す)。個々の音声要素は遙かに豊かなメタデータのセットに関連付けることができ、要素に意味を与えるので、オーディオを再生するスピーカ構成への適応の方法は、より少数のスピーカへどのようにレンダリングするかに関するより良好な情報を提供できる。
ETSI TS 102 366[1]に定義された拡張AC-3(E-AC-3)のような、CBAコンテンツの送信のための幾つかの標準化フォーマットがある。既存の装置との互換性を保証するために、標準化CBAフォーマットと関連して、OBAをトランスポートするために、共同オブジェクトコーディング(joint object coding (JOC))が使用できる。JOCは、低ビットレートで没入型オーディオを提供する。これは、デコーダにおいてダウンミックスからのオーディオオブジェクトの再構成を可能にするパラメータサイド情報と一緒に、知覚オーディオコーディングアルゴリズムを用いて、没入型コンテンツのマルチチャネルダウンミックスを伝達することにより達成される。テレビ放送のような幾つかの適用では、コンテンツがOBA再生装置のインストールベースと互換性があるように、CBAコンテンツをOBAコンテンツとして表現することが望ましい。しかしながら、CBA及びOBAの標準化ビットストリームフォーマットは、全体的に互換性がない。
CBAコンテンツをOBAコンテンツに変換する実施形態が開示される。特定の実施形態では、OBA互換再生装置で再生するために、22.2チャネルコンテンツをOBAコンテンツに変換する。
実施形態では方法は、
オーディオ処理機器の1つ以上のプロセッサにより、チャネルベースオーディオと関連するチャネルベースオーディオメタデータとを含むビットストリームを受信するステップ、を含み、
前記1つ以上のプロセッサは、
前記チャネルベースオーディオメタデータからシグナリングパラメータをパースし、前記シグナリングパラメータは、複数の異なるオブジェクトオーディオメタデータ(OAMD)表現のうちの1つを示し、前記OAMD表現のうちの各OAMD表現は、前記チャネルベースオーディオの1つ以上のオーディオチャネルを1つ以上のオーディオオブジェクトにマッピングし、
前記シグナリングパラメータにより示されるOAMD表現を用いて、前記チャネルベースオーディオメタデータを前記1つ以上のオーディオオブジェクトに関連付けられたOAMDに変換し、
前記OAMDのチャネル順序制約に基づき、チャネルシャッフル情報を生成し、
前記チャネルシャッフル情報に基づき前記チャネルベースオーディオの1つ以上のオーディオチャネルを並べ替えて、並べ替えチャネルベースオーディオを生成し、
前記OAMDを用いて、前記並べ替えチャネルベースオーディオをレンダリングオーディオにレンダリングするか、又は、
前記並べ替えチャネルベースオーディオ及び前記OAMDをオブジェクトベースオーディオビットストリームに符号化し、前記オブジェクトベースオーディオビットストリームを再生装置又はソース装置へ送信する、
よう構成される。
実施形態では、前記チャネルベースオーディオ及びメタデータはネイティブオーディオビットストリームに含まれ、前記方法は、前記ネイティブオーディオビットストリームを復号して、前記チャネルベースオーディオ及びメタデータを復元する(つまり、決定する、又は抽出する)ステップ、を更に含む。
実施形態では、前記チャネルベースオーディオ及びメタデータは、N.Mチャネルベースオーディオ及びメタデータであり、Nは9より大きい正の整数であり、Mは0以上の正の整数である。
実施形態では、前記方法は、OAMDベッドチャネルにより表現できるチャネルベースオーディオの第1チャネルセットを決定するステップと、
前記第1チャネルセットにOAMDベッドチャネルラベルを割り当てるステップと、
OAMDベッドチャネルにより表現できないチャネルベースオーディオの第2チャネルセットを決定するステップと、
前記第2チャネルセットに静的OAMD位置座標を割り当てるステップと、
を更に含む。
実施形態では、方法は、
オーディオ処理機器の1つ以上のプロセッサにより、チャネルベースオーディオとメタデータとを含むビットストリームを受信するステップを含み、
前記1つ以上のプロセッサは、
前記チャネルベースオーディオをネイティブオーディオビットストリームに符号化し、
前記メタデータからシグナリングパラメータをパースし、前記シグナリングパラメータは複数の異なるオブジェクトオーディオメタデータ(OAMD)表現のうちの1つを示し、
前記シグナリングパラメータにより示されるOAMD表現を用いて、前記チャネルベースメタデータをOAMDに変換し、
前記OAMDのチャネル順序制約に基づき、チャネルシャッフル情報を生成し、
前記ネイティブオーディオビットストリーム、前記チャネルシャッフル情報、及び前記OAMDを含むビットストリームパッケージを生成し、
前記パッケージをトランスポート層ビットストリームに多重化し、
前記トランスポート層ビットストリームを再生装置又はソース装置に送信する、よう構成される。
実施形態では、前記チャネルベースオーディオ及びメタデータは、N.Mチャネルベースオーディオ及びメタデータであり、Nは7より大きい正の整数であり、Mは0以上の正の整数である。
実施形態では、OAMDベッドチャネルラベルにより表現できるチャネルベースオーディオの中のチャネルは、前記OAMDベッドチャネルラベルを使用し、OAMDベッドチャネルラベルにより表現できないチャネルベースオーディオの中のチャネルは、静的オブジェクト位置を使用し、各静的オブジェクト位置は、OAMD位置座標で記述される。
実施形態では、前記トランスポートビットストリームは、動画専門家グループ(MPEG)オーディオビットストリームの拡張フィールドの中のOAMDの存在を示す信号を含むMPEGオーディオビットストリームである。
実施形態では、前記MPEGオーディオビットストリームの中のOAMDの存在を示す前記信号は、サラウンド音声モードをシグナリングための前記MPEGオーディオビットストリームの中の予約メタデータフィールドに含まれる。
実施形態では、方法は、
オーディオ処理機器の1つ以上のプロセッサにより、パッケージを含むトランスポート層ビットストリームを受信するステップを含み、
前記1つ以上のプロセッサは、
前記トランスポート層ビットストリームを逆多重化して、前記パッケージを復元し(つまり、決定し、又は抽出し)、
前記パッケージを復号して、ネイティブオーディオビットストリーム、チャネルシャッフル情報、及びオブジェクトオーディオメタデータ(OAMD)を復元し(つまり、決定し、又は抽出し)、
前記ネイティブオーディオビットストリームを復号して、チャネルベースオーディオ及びメタデータを復元し、
前記チャネルシャッフル情報に基づき、前記チャネルベースオーディオのチャネルを並べ替え、
前記OAMDを用いて、前記並べ替えチャネルベースオーディオをレンダリングオーディオにレンダリングするか、又は、
前記チャネルベースオーディオ及びOAMDをオブジェクトベースオーディオビットストリームに符号化し、前記オブジェクトベースオーディオビットストリームをソース装置へ送信する、よう構成される。
実施形態では、前記チャネルベースオーディオ及びメタデータは、N.Mチャネルベースオーディオ及びメタデータであり、Nは7より大きい正の整数であり、Mは0以上の正の整数である。
実施形態では、方法は、OAMDベッドチャネルにより表現できるチャネルベースオーディオの第1チャネルセットを決定するステップと、
前記第1チャネルセットにOAMDベッドチャネルラベルを割り当てるステップと、
OAMDベッドチャネルにより表現できないチャネルベースオーディオの第2チャネルセットを決定するステップと、
前記第2チャネルセットに静的OAMD位置座標を割り当てるステップと、
を更に含む。
実施形態では、前記トランスポートビットストリームは、動画専門家グループ(MPEG)オーディオビットストリームの拡張フィールドの中のOAMDの存在を示す信号を含むMPEGオーディオビットストリームである。
実施形態では、前記MPEGオーディオビットストリームの中のOAMDの存在を示す前記信号は、サラウンド音声モードをシグナリングための前記MPEGオーディオビットストリームのメタデータの中のデータ構造の予約メタデータフィールドに含まれる。
実施形態では、機器は、
1つ以上のプロセッサと、
命令を格納している非一時的コンピュータ可読記憶媒体であって、前記命令は、前記1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに、本願明細書に記載の方法を実行させる、非一時的コンピュータ可読記憶媒体と、
を含む。
本願明細書に開示される他の実施形態は、システム、機器、及びコンピュータ可読媒体を対象とする。開示される実装の詳細は、添付の図面及び以下の説明において説明される。他の特徴、目的、及び利点は、説明、図面、及び請求項から明らかになる。
本願明細書に開示される特定の実施形態は、以下の利点のうちの1つ以上を提供する。OBA互換再生装置の既存のインストールされたベースは、再生装置のハードウェアコンポーネントを置き換えることなく、既存の規格に基づくネイティブオーディオ及びトランスポートビットストリームフォーマットを用いて、CBAコンテンツをOBAコンテンツに変換できる。
以下で参照される添付の図面において、種々の実施形態は、ブロック図、フローチャート、及び他の図で示される。フローチャート又はブロック内の各ブロックは、指定された論理機能を実行するための1つ以上の実行可能命令を含むモジュール、プログラム、又はコードの部分を表してよい。これらのブロックは方法のステップを実行するために特定の順序で示されるが、それらは、必ずしも、図示された順序に厳密に従い実行される必要はない。例えば、それらは、各々の動作の特性に依存して、逆の順序で又は同時に実行されるかもしれない。留意すべき子tに、ブロック図及び/又はフローチャートの中の各ブロック、及びそれらの組合せは、指定された機能/動作を実行する専用ソフトウェアベース又はハードウェアベースシステムにより、又は専用ハードウェア及びコンピュータ命令の組合せにより、実施されてよい。
実施形態による、2つの異なるオブジェクトオーディオメタデータ(OAMD)表現のベッドチャネル及びオブジェクト位置を示す表である。
実施形態による、2つの異なるOAMD表現のベッドチャネル割り当て及びチャネル順序を示す表である。
実施形態による、次元トリミングメタデータを示す表である。
実施形態による、トリミング/バランス制御を示す表である。
実施形態による、ビットストリーム符号化を用いずに、22.2チャネルオーディオビットストリームをオーディオオブジェクト及びOAMDに変換するシステムのブロック図である。
実施形態による、ビットストリーム符号化を用いて、22.2チャネルオーディオビットストリームをオーディオオブジェクト及びOAMDに変換するシステムのブロック図である。
実施形態による、ソース装置におけるレンダリングのために、22.2チャネルオーディオビットストリームをオーディオオブジェクト及びOAMDに変換するシステムのブロック図である。
実施形態による、外部レンダリングのために、高精細度マルチメディアインタフェース(HDMI(登録商標))を介して送信するために、22.2chオーディオビットストリームをオーディオオブジェクト及びOAMDに変換するシステムのブロック図である。 実施形態による、外部レンダリングのために、高精細度マルチメディアインタフェース(HDMI)を介して送信するために、22.2chオーディオビットストリームをオーディオオブジェクト及びOAMDに変換するシステムのブロック図である。
実施形態による、22.2chオーディオビットストリームをオーディオオブジェクト及びOAMDに変換するシステムのブロック図であり、チャネルシャッフル情報及びOAMDがネイティブオーディオビットストリーム内にパッケージされる。 実施形態による、22.2chオーディオビットストリームをオーディオオブジェクト及びOAMDに変換するシステムのブロック図であり、チャネルシャッフル情報及びOAMDがネイティブオーディオビットストリーム内にパッケージされる。 実施形態による、22.2chオーディオビットストリームをオーディオオブジェクト及びOAMDに変換するシステムのブロック図であり、チャネルシャッフル情報及びOAMDがネイティブオーディオビットストリーム内にパッケージされる。
実施形態による、ソース装置におけるレンダリングのために、22.2chオーディオビットストリームをオーディオオブジェクト及びOAMDに変換するシステムのブロック図であり、ソース装置におけるレンダリングのために、チャネルシャッフル情報及びOAMDがネイティブオーディオビットストリーム内にパッケージされる。 実施形態による、ソース装置におけるレンダリングのために、22.2chオーディオビットストリームをオーディオオブジェクト及びOAMDに変換するシステムのブロック図であり、ソース装置におけるレンダリングのために、チャネルシャッフル情報及びOAMDがネイティブオーディオビットストリーム内にパッケージされる。
実施形態による、22.2chオーディオビットストリームをオーディオオブジェクト及びOAMDに変換するシステムのブロック図であり、ソース装置に供給するために、チャネルシャッフル情報及びOAMDがトランスポート層に埋め込まれ、次にHDMIを介して送信するために、ネイティブオーディオビットストリーム内にパッケージされる。 実施形態による、22.2chオーディオビットストリームをオーディオオブジェクト及びOAMDに変換するシステムのブロック図であり、ソース装置に供給するために、チャネルシャッフル情報及びOAMDがトランスポート層に埋め込まれ、次にHDMIを介して送信するために、ネイティブオーディオビットストリーム内にパッケージされる。 実施形態による、22.2chオーディオビットストリームをオーディオオブジェクト及びOAMDに変換するシステムのブロック図であり、ソース装置に供給するために、チャネルシャッフル情報及びOAMDがトランスポート層に埋め込まれ、次にHDMIを介して送信するために、ネイティブオーディオビットストリーム内にパッケージされる。
実施形態による、22.2chオーディオビットストリームをオーディオオブジェクト及びOAMDに変換するシステムのブロック図であり、ソース装置におけるレンダリングのために、チャネルシャッフル情報及びOAMDが、トランスポート層に埋め込まれる。 実施形態による、22.2chオーディオビットストリームをオーディオオブジェクト及びOAMDに変換するシステムのブロック図であり、ソース装置におけるレンダリングのために、チャネルシャッフル情報及びOAMDが、トランスポート層に埋め込まれる。
実施形態による、CBAからOBAへの変換処理のフロー図である。
実施形態による、代替のCBAからOBAへの変換処理のフロー図である。
実施形態による、代替のCBAからOBAへの変換処理のフロー図である。
実施形態による、代替のCBAからOBAへの変換処理のフロー図である。
実施形態による、代替のCBAからOBAへの変換処理のフロー図である。
実施形態による、代替のCBAからOBAへの変換処理のフロー図である。
実施形態による、チャネルオーディオからオブジェクトオーディオへの変換を含む例示的なオーディオシステムアーキテクチャのブロック図である。
種々の図面で使用される同じ参照符号は同様の要素を示す。
<<概要>>
オブジェクトオーディオメタデータ(Object Audio Metadata (OAMD))は、例えばETSI TS 103 420 v1.2.1(2018-10)に記載されたメタデータのような、OBA処理のためのメタデータのコーディングビットストリーム表現である。OAMDビットストリームは、例えばETSI TS 102 366[1]に指定されたような拡張可能メタデータ配信フォーマット(Extensible Metadata Delivery Format (EMDF))コンテナの中で運ばれてよい。OAMDは、オーディオオブジェクトをレンダリングするために使用される。レンダリング情報は、動的に変化してよい(例えば、利得及び位置)。OAMDビットストリーム要素は、コンテンツ記述メタデータ、オブジェクト特性メタデータ、特性更新メタデータ、及び他のメタデータを含んでよい。
実施形態では、コンテンツ記述メタデータは、OAMDペイロードシンタックスのバージョン、合計オブジェクト数、オブジェクトタイプ、及びプログラム構成物を含む。オブジェクト特性メタデータは、部屋にアンカーされた(anchored)、画面にアンカーされた、又はスピーカにアンカーされた座標のオブジェクト位置、オブジェクトサイズ(幅、深さ、高さ)、優先度(オブジェクトに重要度による順序を課し、オブジェクトについて優先度が高いほど重要度が高い)、利得(オブジェクトにカスタム利得値を適用するために使用される)、チャネルロック(オブジェクトのレンダリングを単一のスピーカに制約するために使用され、オーディオの非拡散、音色ニュートラルな再生を提供する)、ゾーン制約(オブジェクトが除外される又は含まれる聴取環境のゾーン又はサブボリュームを指定する)、オブジェクト多様化(オブジェクトを2個のオブジェクトに変換するために使用され、エネルギがX軸に沿って広がる)、及びオブジェクトトリム(ミックス内で示されるスクリーン外要素のレベルを低下させるために使用される)を含む。
実施形態では、特性更新メタデータは、全部の送信されたオブジェクトの更新に適用可能なタイミングデータをシグナリングする。送信された特性更新のタイミングデータは、先行する更新又は後続の更新及び連続する更新の間の補間処理のための時間期間を有する更新コンテキストと一緒に、更新の開始時間を指定する。OAMDビットストリームシンタックスは、各コーデックフレームにおいて、オブジェクト当たり最大8個の特性更新をサポートする。シグナリングされた更新の数、又は各特性更新の開始及び停止時間は、全部のオブジェクトについて同一である。メタデータは、前の特性更新のシグナリングされたオブジェクト特性値から現在の更新の値への補間のためのオーディオサンプル単位の時間期間を指定するOAMD内のランプ期間値の値を示す。
実施形態では、タイミングデータは、開始サンプル値オフセット及びフレームオフセットを計算するためにデコーダにより使用されるサンプルオフセット値及びブロックオフセット値も含む。サンプルオフセットは、例えばETSI TS 102 366[1]、第H.2.2.3.1及びH.2.2.3.2節に指定されたような、OAMDペイロード内のデータが適用される最初のパルスコード変調(pulse code modulated (PCM))オーディオサンプルまでの、サンプル単位の時間オフセットである。ブロックオフセット値は、全部の特性更新に共通のサンプルオフセットからのオフセットとして、サンプル単位の時間期間を示す。
実施形態では、デコーダは、対応するオブジェクト特性のオブジェクトオーディオ要素オーディオデータ及びタイムスタンプ付きメタデータ更新を含むOBAのためのインタフェースを提供する。インタフェースにおいて、デコーダは、タイムスタンプ付き更新の中で、復号されたオブジェクト毎のメタデータを提供する。各更新について、デコーダは、メタデータ更新構造の中で指定されたデータを提供する。
<<例示的なCBAからOBAへの変換>>
以下の開示では、OAMDを用いて、CBAコンテンツをOBAに変換する技術が開示される。例示的な実施形態では、22.2チャネル(「22.2ch」)コンテンツは、OAMDを用いてOBAに変換される。本実施形態では、22.2chコンテンツは、チャネルが位置付けられ、従ってダウンミキシング/レンダリングされる2つの定義された方法を有する。方法の選択は、22.2chビットストリームに埋め込まれたdmix_pos_adj_idxパラメータのようなパラメータの値に依存してよい。22.2ch位置をOAMD表現に変換するフォーマット変換器は、このパラメータの値に基づき、2つのOAMD表現のうちの1つを選択する。選択された表現は、再生装置(例えば、Dolby(登録商標)Atmos(登録商標)再生装置)に入力されるOBAビットストリーム(例えば、Dolby(登録商標)MATビットストリーム)内で運ばれる。例示的な22.2chシステムは、Hamasaki22.2である。Hamasaki22.2は、NHK放送技術研究所により開発されたテレビジョン規格であるスーパーハイビジョンのサラウンド音声コンポーネントであり、3層に配置された(2個のサブウーハを含む)24個のスピーカを使用する。
以下の開示は22.2chコンテンツがOAMDを用いてOBAコンテンツに変換される実施形態を対象としているが、開示の実施形態は、標準化された又は独自のビットストリームフォーマットを含む任意のCBA又はOBAビットストリームフォーマット、及び任意の再生装置又はシステムに適用可能である。更に、以下の開示は、22.2chからOBAへの変換に限定されず、任意のN.Mチャネルベースオーディオの変換にも適用可能である。ここで、Nは7より大きい正の整数であり、Mは0以上の正の整数である。
本願明細書で使用されるとき、用語「含む」及びその変形は、「含む(include)が、それに限定されない」を意味する広義の用語として解釈される。用語「又は」は、文脈上明確に示されない限り、「及び/又は」として解釈される。用語「に基づく」は、「少なくとも部分的に基づく」として解釈される。用語「1つの例示的な実施形態」及び「例示的な実施形態」は、「少なくとも1つの例示的な実施形態」として解釈されるべきである。用語「別の実施形態」は、「少なくとも1つの他の実施形態」として解釈されるべきである。更に、以下の説明及び請求の範囲では、特に断りのない限り、本願明細書で使用される全ての技術的及び科学的用語は、本開示が属する分野の当業者により一般的に理解されるものと同じ意味を有する。
<プログラム割り当て及びオブジェクト位置>
本願では、22.2chコンテンツ305(例えば、ファイル又はライブストリーム)は、フォーマット変換器301により受信される。コンテンツ305は、オーディオ及び関連付けられたメタデータを含む。メタデータは、dmix_pos_adj_idxパラメータを含む。該パラメータは、該パラメータの値に基づき、2つのOAMD表現のうちの1つを選択するためのものである。OAMDベッド(bed)チャネルラベルにより表現できるチャネルは、OAMDベッドチャネルラベルを使用する。OAMDベッドチャネルラベルにより表現できないチャネルは、静的オブジェクト位置を使用する。ここで、各静的オブジェクト位置は、例えばETSI TS 103 420 v1.2.1(2018-10)に記載されるようなOAMD[x,y,z]位置座標で記述される。本願明細書で使用されるとき、「ベッド(bed)チャネル」は、複数のベッド(bed)オブジェクトのグループであり、「ベッドオブジェクト」は、再生システムのラウドスピーカへの割り当てにより空間的位置が固定される静的オブジェクトである。
図1Aは、実施形態による、2つの異なるOAMD表現のベッドチャネル及びオブジェクト位置を示す表である。表の一番上の行は24個の22.2chラベルを含み、表の真ん中の行は、dmix_pos_adj_idx=0によりシグナリングされる第1OAMD表現のベッドチャネルラベル及びオブジェクト位置を含み、表の一番下の行はdmix_pos_adj_idx=1によりシグナリングされる第2OAMD表現のベッドチャネルラベル及びオブジェクト位置を含む。dmix_pos_adj_idx信号は、例示的な信号であり、ブールフラグ及び1つ以上のビットにより符号化される信号を含むがこれに限定されない任意の種類のシグナリングが使用できることに留意する。
図1Aの表を参照すると、22.2chラベルの幾つかの例は、FL(front-left)、FR(front-right)、FC(Front-center )、LFE1(low-frequency effects 1)、BL(back-left)、BR(back-right)、FLc(front-left-center)、FRc(front-right-center)、BC(back-center)、LFE2(low-frequency effects 2)、SIL(left-side)、SIR(right-side)、TpFL(top-front-left)、TpFR(top-front-right)、TpFC(top-front-center)、TpC(top-center)、TpBL(top-back-left)、TpBR(top-back-right)、TpSIL(top-side-left)、TpSIR(top-side-right)、TpBC(top-back-center)、BtFL(between-front-left)、BtFR(between-front-right)、及びBtFC(between-front-center)を含む。これらのラベルは、OAMDベッドチャネルラベル又は静的オブジェクト位置[x,y,z]のいずれかにマッピングされることに留意する。例えば、第1OAMD表現(dmix_pos_adj_idx=0)では、22.2chラベルFLは静的オブジェクト位置[0,0.25,0]にマッピングし、22.2chラベルFRは静的オブジェクト位置[1,0.25,0]にマッピングし、22.2chラベルFCはOAMDベッドチャネルラベルCにマッピングする、等である。OAMD表現は、シグナリングパラメータ(例えばその値)に基づき、1つ以上のオーディオチャネルを1つ以上のオーディオオブジェクトにマッピングする。1つ以上のオーディオオブジェクトは、動的又は静的オーディオオブジェクトであってよい。上述のように、静的オーディオオブジェクトは、固定された空間的位置を有するオーディオオブジェクトである。動的オーディオオブジェクトは、空間的位置が時間に渡り変化され得るオーディオオブジェクトである。上述の例では、OAMD表現は、チャネルラベル、ベッドチャネルラベル、及び静的オブジェクト位置を含む。OAMD表現は、シグナリングパラメータ(例えばその値)に基づき、チャネルラベルを、ベッドチャネルラベル又は静的オブジェクト位置のいずれかにマッピングする。
<プログラム割り当て及びオブジェクト位置>
OAMDは、ベッドオブジェクトが動的オブジェクトより先行すると想定する。更に、ベッドオブジェクトは特定の順序で現れる。これらの理由から、22.2chコンテンツのオーディオは、OAMD順序制約を満たすために、オーディオチャネルシャッフラ303により並べ替えられる。オーディオチャネルシャッフラ303は、メタデータ生成器304からチャネルシャッフル情報を受信し、チャネルシャッフル情報を用いて、22.2チャネルを並べ替える。
図1Bは、実施形態による、2つの異なるOAMD表現のベッドチャネル割り当て及びチャネル順序を示す表である。表の一番上の行は、22.2chコンテンツ(Hamasaki22.2)について想定されるチャネル順序(0~23チャネル)及びチャネルラベルを示す。表の真ん中の行は、第1OAMD表現のベッド割り当てラベルを示す。表の一番下の行は、第2OAMD表現のベッド割り当てラベルを示す。変換されたオーディオ及びOAMDメタデータは、図3を参照すると、フォーマット変換器301により、レンダリングオーディオを生成するオブジェクトオーディオレンダラ302へと出力される。
図1Bの表を参照すると、22.2chコンテンツの最初の2個のチャネル(0,1)はFL及びFRである。第1OAMD表現(dmix_pos_adj_idx=0)では、最初の2個のチャネル(0,1)は、OAMDチャネル15及びチャネル16に各々並べ替えられる(「シャッフルされる」)。第2OAMD表現(dmix_pos_adj_idx=1)では、最初の2個のチャネル(0,1)は、OAMDチャネルL及びRに各々並べ替えられる。本例では、第1OAMD表現(dmix_pos_adj_idx=0)では、インデックス0を有する第1出力チャネルについて、第1OAMD表現をそれに関連付けるために、入力(例えば、Hamasaki 22.2)のインデックス6は、インデックスチャネル0になるように並べ替えられ/シャッフルされる。言い換えると、本例では、左チャネルLが入力ベッドチャネルの中に存在する場合、第1OAMD表現の中のこの左チャネルは、強制的に(インデックスチャネル0を有する)第1チャネルにされる。ベッドチャネルの全部は、存在する場合には、OAMDで表現されるとき、特定の順序で現れる。ベッドチャネルが並べ替えられると、ベッドチャネルの並べ替えの結果として、動的オブジェクトが並べ替えられる。特定のOAMD表現順序制約を満たす並べ替え。制約は、OBA再生装置/システムにより使用されるOAMD使用に依存する。例えば、Dolby Atmosと互換性のあるOBA再生装置/システムでは、Dolby Atmosコンテンツを含むシステム及びコーデックにおいて送信されるOAMDは、Dolby Atmos OAMD仕様により指定される。これらの仕様/制約は、OAMDベッドチャネルの順序を決定する。例えば図1Aに示されるように及び以下のようになり、括弧内は対応するチャネルラベルである:Left(L)、right(R)、Center(C)、Low-Frequency Effects(LFE)、Left Surround(Ls)、Right Surround(Rs)、Left Rear Surround(Lrs)、Right Rear Surround(Rrs)、Left Front High(Lfh)、Right Front High(Rfh)、Left Top Middle(Ltm)、Right Top Middle(Rtm)、Left Rear High(Lrh)、Right Rear High(Rrh)、及びLow-Frequency Effects 2(LFE2)である。
<次元トリミングメタデータ>
図2Aは、実施形態による、次元トリミングメタデータを示す表である。22.2chコンテンツのOBAコンテンツへの並べ替えが22.2ch仕様により指定されるダウンミックスと厳密に一致するようになることを保証するために、OBAレンダリング装置に配信される22.2chコンテンツを伴うOAMDに次元トリミングメタデータが含まれる。オブジェクトtirmは、ミックスに含まれるスクリーン外要素のレベルを低下させるために使用される。これは、没入型ミックスが幾つかのラウドスピーカを有するレイアウトで再生されるとき、望ましい。
実施形態では、第1メタデータフィールドは、パラメータwarp_modeを含む。該パラメータは、値「0」に設定された場合、5.1X出力構成におけるオブジェクトの通常レンダリング(つまり、ワーピング無し)を示す。warp_modeが値「1」に設定された場合、5.1X出力構成において、オブジェクトにワーピングが適用される。ワープは、レンダラが聴取環境(例えば、部屋)の中央点と背後との間でパニングされるコンテンツをどのように扱うかを表す。ワープにより、コンテンツは、聴取環境の背後と中央点との間でサラウンドスピーカにおいて一定レベルで提示され、聴取環境の前半分になるまで、ファントムイメージングの必要を回避する。
次元トリミングメタデータの表の中の第2メタデータフィールドは、図2Bに示されるような8個のスピーカ構成(例えば、2.0、5.1.0、7.1.0、2.1.2、5.1.2、7.1.2、2.1.4、5.1.4、7.1.4)の場合の、構成毎のトリム/バランス制御を含む。自動トリミング(auto_trim)、中央トリミング(center_trim)、サラウンドトリミング(surround_trim)、高さトリミング(height_trim)、及び前/後バランストリミング(fb_balance_ohfl、fb_balance_surr)のためのメタデータフィールドが存在する。
図2Aを参照すると、第3メタデータフィールドは、パラメータobject_trim_bypassを含む。このパラメータは、22.2chチャネルコンテンツの中の全部のベッド及び動的オブジェクトに適用される値を有する。object_trim_bypassが「1」の値に設定される場合、ベッド及び動的オブジェクトにトリミングが適用されない。
<オブジェクト利得>
OAMDは、各オブジェクトが個々のオブジェクト利得を有することを許容する。この利得は、オブジェクトオーディオレンダラ302により適用される。オブジェクト利得は、22.2chコンテンツのダウンミックス値の間の差の補償、及び22.2chコンテンツのOAMD表現のレンダリングを可能にする。実施形態では、オブジェクト利得は、LFE1又はLFE2のベッドチャネル割り当てを有するオブジェクトについて-3dBに、全部の他のオブジェクトについて0dBに設定される。オブジェクト利得の他の値は、適用に依存して使用できる。
<<例示的な適用>>
<OBAとしての22.2chコンテンツの聴取>
図3は、実施形態による、ビットストリーム符号化を用いずに、22.2チャネルオーディオビットストリームをオーディオ及びOAMDに変換する例示的なシステム300のブロック図である。システム300は、22.2chコンテンツがOBA再生システム(Dolby(登録商標)Atmos(登録商標))でOBAコンテンツとして聴取される適用で使用される。
システム300は、フォーマット変換器301及びオブジェクトオーディオレンダラ302を含む。フォーマット変換器301は、オーディオチャネルシャッフラ303及びOAMDメタデータ生成器304を更に含む。OAMDメタデータの幾つかの例は、限定ではないが、コンテンツ記述メタデータ、特性更新メタデータ、及びトリミングデータを含む。22.2chコンテンツ305(例えば、ファイル又はライブストリーム)は、フォーマット変換器301に入力される22.2chオーディオ及びメタデータを含む。OAMDメタデータ生成器304は、例えば図1Aを参照して説明した原理に従うように22.2chメタデータをOAMDにマッピングし、チャネルシャッフル情報を生成する。チャネルシャッフル情報は、例えば図1Bを参照して説明した原理に従いオーディオチャネルシャッフラ303により適用される22.2chコンテンツのチャネル並べ替えを記述する。オーディオチャネルシャッフラ303の出力は並べ替えられたオーディオチャネルである。フォーマット変換器301の出力は、オブジェクトオーディオレンダラ302に入力される、オーディオの並べ替えれたチャネル、及びOAMDである。オブジェクトオーディオレンダラ302は、OAMDを用いてオーディオを処理し、それを特定のラウドスピーカレイアウトに適応する。
<OBAとしての22.2コンテンツの送信>
図4は、実施形態による、ビットストリーム符号化を用いて、22.2チャネルオーディオビットストリームをオーディオオブジェクト及びOAMDに変換する例示的なシステム400のブロック図である。本願では、22.2chコンテンツを送信するのではなく、22.2chコンテンツは、フォーマット変換され、OBAコーデックを用いてOBAとして送信される。
システム400は、フォーマット変換器401及びOBAエンコーダ402を含む。フォーマット変換器401は、OAMDメタデータ生成器404及びオーディオチャネルシャッフラ403を更に含む。OAMDメタデータの幾つかの例は、限定ではないが、コンテンツ記述メタデータ、特性更新メタデータ、及びトリミングデータを含む。22.2chコンテンツ405(例えば、ファイル又はライブストリーム)は、フォーマット変換器401に入力される22.2chオーディオ及びメタデータを含む。OAMDメタデータ生成器404は、例えば図1Aを参照して説明した原理に従うように22.2chメタデータをOAMDにマッピングし、チャネルシャッフル情報を生成する。チャネルシャッフル情報は、例えば図1Bを参照して説明した原理に従いオーディオチャネルシャッフラ403により適用される22.2chコンテンツのチャネル並べ替えを記述する。オーディオチャネルシャッフラ403の出力は並べ替えられたオーディオチャネルである。
フォーマット変換器401の出力は、エンコーダ402に入力される、オーディオの並べ替えれたチャネル、及びOAMDである。OBAエンコーダ402は、OAMDを用いて(例えば、JOCを用いて)オーディオを符号化して、OBAビットストリーム406を生成する。OBAビットストリーム406は、下流のOBA再生装置へ送信でき、そこで、オーディオを処理して特定のラウドスピーカレイアウトに適応するオブジェクトオーディオレンダラによりレンダリングされる。
<ソース装置でレンダリングするために、送信された22.2コンテンツのOBAへの変換>
図5は、実施形態による、ソース装置におけるレンダリングのために、22.2チャネルオーディオビットストリームをオーディオオブジェクト及びOAMDに変換する例示的なシステムのブロック図である。本願では、セットトップボックス(STB)又はオーディオ/ビデオレコーダ(AVR)のようなソース装置は、22.2chコンテンツをネイティブオーディオビットストリームから受信し、フォーマット変換器によるフォーマット変換の後に、コンテンツはオブジェクトオーディオレンダラを用いてレンダリングされる。例示的なネイティブオーディオビットストリームフォーマットは、高度オーディオコーディング(advanced audio coding (AAC))標準ビットストリームフォーマットである。
システム500は、フォーマット変換器501及びオブジェクトオーディオレンダラ502及びデコーダ506を含む。フォーマット変換器501は、OAMDメタデータ生成器504及びオーディオチャネルシャッフラ503を更に含む。OAMDメタデータの幾つかの例は、限定ではないが、コンテンツ記述メタデータ、特性更新メタデータ、及びトリミングデータを含む。オーディオビットストリーム505(例えば、AAC/MP4)は、デコーダ506(例えば、AAC/MP4デコーダ)に入力される22.2chオーディオ及びメタデータを含む。デコーダ506の出力は、フォーマット変換器501に入力される、22.2chオーディオ及びメタデータである。OAMDメタデータ生成器504は、例えば図1Aを参照して説明した原理に従うように22.2chメタデータをOAMDにマッピングし、チャネルシャッフル情報を生成する。チャネルシャッフル情報は、例えば図1Bを参照して説明した原理に従いオーディオチャネルシャッフラ503により適用される22.2chコンテンツのチャネル並べ替えを記述する。オーディオチャネルシャッフラ503の出力は並べ替えられたオーディオチャネルである。フォーマット変換器501の出力は、オブジェクトオーディオレンダラ502に入力される、オーディオの並べ替えれたチャネル、及びOAMDである。オブジェクトオーディオレンダラ502は、OAMDを用いてオーディオを処理し、それを特定のラウドスピーカレイアウトに適応する。
<外部レンダリング(STBA/VR/SB)のためにHDMIを介して送信するための、送信された22.2コンテンツのOBAへの変換>
図6A及び6Bは、実施形態による、外部レンダリングのために、高精細度マルチメディアインタフェース(high definition multimedia interface (HDMI))を介して送信するために、22.2chオーディオビットストリームをオーディオオブジェクト及びOAMDに変換する例示的なシステムのブロック図である。本願では、チャネルシャッフル情報は、OAMDと共に、エンコーダにおいて生成され、送信されるためにネイティブオーディオビットストリーム(例えば、AAV)内にパッケージされる。この構成では、生じるフォーマット変換は、オーディオシャッフラに簡略化される。OAMDと一緒にシャッフルされたオーディオは、HDMIを介してビットストリーム内で送信するために、OBAエンコーダへ送信される。受信機側で、ビットストリームは、復号され、オブジェクトオーディオレンダラによりレンダリングされる。
図6Aを参照すると、符号化システム600Aは、フォーマット変換器601、OBAエンコーダ602、及びデコーダ606を含む。フォーマット変換器601は、OAMDメタデータ生成器604及びオーディオチャネルシャッフラ603を更に含む。OAMDメタデータの幾つかの例は、限定ではないが、コンテンツ記述メタデータ、特性更新メタデータ、及びトリミングデータを含む。ネイティブオーディオビットストリーム605(例えば、AAC/MP4)は、デコーダ606(例えば、AAC/MP4デコーダ)に入力される22.2chオーディオ及びメタデータを含む。デコーダ606の出力は、フォーマット変換器601に入力される、22.2chオーディオ及びメタデータである。OAMDメタデータ生成器604は、例えば図1Aを参照して説明した原理に従うように22.2chメタデータをOAMDにマッピングし、チャネルシャッフル情報を生成する。チャネルシャッフル情報は、例えば図1Bを参照して説明した原理に従いオーディオチャネルシャッフラ603により適用される22.2chコンテンツのチャネル並べ替えを記述する。オーディオチャネルシャッフラ603の出力は並べ替えられたオーディオチャネルである。フォーマット変換器601の出力は、エンコーダ602に入力される、オーディオの並べ替えれたチャネル、及びOAMDである。OABエンコーダ602は、オーディオ及びOAMDを符号化し、オーディオとOAMDとを含むOBAビットストリームを出力する。
図6Bを参照すると、復号システム600Bは、OBAデコーダ607及びオブジェクトオーディオレンダラ608を含む。OBAビットストリームは、オブジェクトオーディオレンダラ608に入力されるオーディオ及びOAMDを出力するOBAデコーダ607へ入力される。オブジェクトオーディオレンダラ608は、OAMDを用いてオーディオを処理し、それを特定のラウドスピーカレイアウトに適応する。
<HDMIを介して送信するために、ネイティブビットストリームを介して22.2の予め計算されたOAMDを送信する>
図7A~7Cは、実施形態による、22.2chオーディオビットストリームをオーディオオブジェクト及びOAMDに変換する例示的なシステムのブロック図であり、チャネルシャッフル情報及びOAMDがネイティブオーディオビットストリーム内にパッケージされる。前の例示的な適用では、OAMDは、デコーダ(例えば、AACデコーダ)の後に生成される。しかしながら、代替の実施形態として、チャネルシャッフル情報及びOAMDを送信フォーマット)(ネイティブオーディオビットストリーム又はトランスポート層のいずれか)に埋め込むことが可能である。本願では、チャネルシャッフル情報は、OAMDと共に、エンコーダにおいて生成され、送信されるためにネイティブオーディオビットストリーム(例えば、AACビットストリーム)内にパッケージされる。この構成では、生じるフォーマット変換は、オーディオシャッフラに簡略化される。OAMDと一緒にシャッフルされたオーディオは、HDMIを介して送信するために、OBAエンコーダへ送信される。受信側で、OBAビットストリームは、復号され、オブジェクトオーディオレンダラによりレンダリングされる。
図7Aを参照すると、符号化システム700Aは、エンコーダ701(例えば、AACエンコーダ)、及びトランスポート層多重化器706を含む。エンコーダ701は、コアエンコーダ702、フォーマット変換器703、及びビットストリームパッケージャ705を更に含む。フォーマット変換器703は、例えばDolby ATMOSメタデータ生成器であってよいOAMDメタデータ生成器704を更に含む。OAMDメタデータの幾つかの例は、限定ではないが、コンテンツ記述メタデータ、特性更新メタデータ、及びトリミングデータを含む。
ネイティブオーディオビットストリーム707(例えば、AAC/MP4)は、22.2chオーディオ及びメタデータを含む。オーディオは、オーディオをネイティブオーディオフォーマットに符号化し符号化オーディオをビットストリームパッケージ705に出力するエンコーダ701のコアエンコーダ702に入力される。OAMDメタデータ生成器704は、例えば図1Aを参照して説明した原理に従うように22.2chメタデータをOAMDにマッピングし、チャネルシャッフル情報を生成する。チャネルシャッフル情報は、例えば図1Bを参照して説明した原理に従い22.2chコンテンツのチャネル並べ替えを記述する。チャネルシャッフル情報は、OAMDと一緒にビットストリームパッケージャ705に入力される。ビットストリームパッケージャ705の出力は、チャネルシャッフル情報及びOAMDを含むネイティブオーディオビットストリームである。ネイティブオーディオビットストリームは、ネイティブオーディオビットストリームを含むトランスポートストリームを出力するトランスポート層多重化器706に入力される。
図7Bを参照すると、復号/符号化システム700Bは、トランスポート層逆多重化器708、デコーダ709、オーディオチャネルシャッフラ710、及びOBAエンコーダ711を含む。トランスポート層逆多重化器708は、オーディオ及びOAMDをトランスポートビットストリームから逆多重化し、オーディオ及びOAMDをデコーダ709に入力する。デコーダ709は、オーディオ及びOAMDをネイティブオーディオビットストリームから復号する。復号されたオーディオ及びOAMDは、次にOBAエンコーダ711へ入力される。OBAエンコーダ711は、オーディオ及びOAMDをOBAビットストリームに符号化する。
図7Cを参照すると、復号システム700Cは、OBAデコーダ712及びオブジェクトオーディオレンダラ713を含む。OBAビットストリームは、オブジェクトオーディオレンダラ713に入力されるオーディオ及びOAMDを出力するOBAデコーダ712へ入力される。オブジェクトオーディオレンダラ713は、OAMDを用いてオーディオを処理し、それを特定のラウドスピーカレイアウトに適応する。
<ソース装置におけるレンダリングのために、予め計算されたOAMDを送信する>
図8A及び8Bは、実施形態による、ソース装置におけるレンダリングのために、22.2chオーディオビットストリームをオーディオオブジェクト及びOAMDに変換する例示的なシステムのブロック図であり、ソース装置におけるレンダリングのために、チャネルシャッフル情報及びOAMDがネイティブオーディオビットストリーム内にパッケージされる。本願では、チャネルシャッフル情報は、OAMDと共に、エンコーダにおいて生成され、トランスポート層を介して送信されるためにネイティブオーディオビットストリーム(例えば、AACビットストリーム)内にパッケージされる。この構成では、生じるフォーマット変換は、オーディオシャッフラに簡略化される。OAMDと一緒にシャッフルされたオーディオは、レンダリングするために、オブジェクトオーディオレンダラへ送信される。
図8Aを参照すると、符号化システム800Aは、エンコーダ801(例えば、AACエンコーダ)、及びトランスポート層多重化器807を含む。エンコーダ801は、コアエンコーダ803、フォーマット変換器802、及びビットストリームパッケージャ805を更に含む。フォーマット変換器802は、例えばDolby ATMOSメタデータ生成器であってよいOAMDメタデータ生成器804を更に含む。OAMDメタデータの幾つかの例は、限定ではないが、コンテンツ記述メタデータ、特性更新メタデータ、及びトリミングデータを含む。
ネイティブオーディオビットストリーム806(例えば、AAC/MP4)は、22.2chオーディオ及びメタデータを含む。オーディオは、オーディオをネイティブオーディオフォーマットに符号化し符号化オーディオをビットストリームパッケージ805に出力するエンコーダ801のコアエンコーダ803に入力される。OAMDメタデータ生成器804は、例えば図1Aを参照して説明した原理に従うように22.2chメタデータをOAMDにマッピングし、チャネルシャッフル情報を生成する。チャネルシャッフル情報は、例えば図1Bを参照して説明した原理に従い22.2chコンテンツのチャネル並べ替えを記述する。チャネルシャッフル情報は、OAMDと一緒にビットストリームパッケージャ805に入力される。ビットストリームパッケージャ805の出力は、チャネルシャッフル情報及びOAMDを含むネイティブオーディオビットストリームである。ネイティブオーディオビットストリームは、ネイティブオーディオビットストリームを含むトランスポートストリームを出力するトランスポート層多重化器807に入力される。
図8Bを参照すると、復号システム800Bは、トランスポート層逆多重化器808、デコーダ809、オーディオチャネルシャッフラ810、及びオブジェクトオーディオレンダラ811を含む。トランスポート層逆多重化器808は、オーディオ及びOAMDをトランスポートビットストリームから逆多重化し、オーディオ及びOAMDをデコーダ809に入力する。デコーダ809は、オーディオ及びOAMDをネイティブオーディオビットストリームから復号する。復号されたオーディオ及びOAMDは、次に、オブジェクトオーディオレンダラ811に入力される。オブジェクトオーディオレンダラ811は、OAMDを用いてオーディオを処理し、それを特定のラウドスピーカレイアウトに適応する。
<HDMIを介して送信するために、し、トランスポート層を介して予め計算されたOAMDを送信する>
図9A~9Cは、実施形態による、22.2chオーディオビットストリームをオーディオオブジェクト及びOAMDに変換する例示的なシステムのブロック図であり、ソース装置に供給するために、チャネルシャッフル情報及びOAMDがトランスポート層に埋め込まれ、次にHDMIを介して送信するために、ネイティブオーディオビットストリーム内にパッケージされる。
22.2chコンテンツを表現するために使用されるOAMDは、プログラムの間、静的である。この理由から、オーディオビットストリームの中でデータレートの増大を回避するために、OAMDを頻繁に送信することを回避することが望ましい。これは、静的OAMD及びチャネルシャッフル情報を、トランスポート層内で送信し及びトランスポート層で送信されることにより達成できる。受信されると、OAMD及びチャネルシャッフル情報は、HDMIを介する後の送信のために、OBAエンコーダにより使用される。例示的なトランスポート層は、ビデオ及びオーディオのような時間に基づくマルチメディアファイルの一般的構造を定義するISO/IEC14496-12-MPEG-4 Part12に記載されるベースメディアファイルフォーマット(base media file format (BMFF))である。MPEG-DASHを使用する実施形態では、OAMDはマニフェストに含まれる。
図9Aを参照すると、符号化システム900Aは、エンコーダ902(例えば、AACエンコーダ)、フォーマット変換器905、及びトランスポート層多重化器903を含む。フォーマット変換器905は、OAMDメタデータ生成器904を更に含む。OAMDメタデータの幾つかの例は、限定ではないが、コンテンツ記述メタデータ、特性更新メタデータ、及びトリミングデータを含む。
ネイティブオーディオビットストリーム901(例えば、AAC/MP4)は、22.2chオーディオ及びメタデータを含む。オーディオは、オーディオをネイティブオーディオフォーマットに符号化し符号化オーディオをトランスポート層多重化器903に出力するエンコーダ902に入力される。OAMDメタデータ生成器904は、例えば図1Aを参照して説明した原理に従うように22.2chメタデータをOAMDにマッピングし、チャネルシャッフル情報を生成する。チャネルシャッフル情報は、例えば図1Bを参照して説明した原理に従い22.2chコンテンツのチャネル並べ替えを記述する。チャネルシャッフル情報は、OAMDと一緒にビットし、トランスポート層多重化器903に入力される。トランスポート層多重化器903の出力は、ネイティブオーディオビットストリームを含む、トランスポートビットストリーム(例えば、MPEG-2トランスポートストリーム)又はパッケージファイル(例えば、ISO BMFFファイル)又はメディアプレゼンテーション記述(例えば、MPEG-DASHマニフェスト)である。
図9Bを参照すると、復号システム900Bは、トランスポート層逆多重化器906、デコーダ907、オーディオチャネルシャッフラ908、及びOBAエンコーダ909を含む。トランスポート層逆多重化器906は、トランスポートビットストリームから、オーディオ、チャネルシャッフル情報、及びOAMDを逆多重化する。復号されたオーディオは、デコーダ907(例えば、AACデコーダ)へのオーディオビットストリームに入力され、デコーダ907は、オーディオを復号して、ネイティブオーディオビットストリームを復元する(つまり、決定し又は抽出する)。ネイティブオーディオビットストリームは、次に、トランスポート層逆多重化器906により出力されるチャネルシャッフル情報と一緒に、オーディオチャネルシャッフラ908に入力される。レンダリングされるチャネルを有するオーディオは、オーディオチャネルシャッフラ908から出力され、OAMDと一緒にOBAエンコーダ909に入力される。OBAエンコーダの出力は、OBAビットストリームである。
図9Cを参照すると、復号システム900Cは、OBAデコーダ910及びオブジェクトオーディオレンダラ911を含む。OBAビットストリームは、オブジェクトオーディオレンダラ911に入力されるオーディオ及びOAMDを出力するOBAデコーダ910へ入力される。オブジェクトオーディオレンダラ911は、OAMDを用いてオーディオを処理し、それを特定のラウドスピーカレイアウトに適応する。
<ソース装置におけるレンダリングのために、トランスポート層を介して、予め計算されたOAMDを送信する>
図10A及び10Bは、実施形態による、22.2chオーディオビットストリームをオーディオオブジェクト及びOAMDに変換する例示的なシステムのブロック図であり、ソース装置(例えば、STB、AVR)におけるレンダリングのために、チャネルシャッフル情報及びOAMDが、トランスポート層に埋め込まれる。22.2chコンテンツを表現するために使用されるOAMDは、プログラムの間、静的である。この理由から、オーディオビットストリームの中でデータレートの増大を回避するために、OAMDを頻繁に送信することを回避することが望ましい。これは、静的OAMD及びチャネルシャッフル情報を、トランスポート層内で送信し及びトランスポート層で送信されることにより達成できる。受信されると、OAMD及びチャネルシャッフル情報は、コンテンツをレンダリングするためにオブジェクトオーディオレンダラにより使用される。例示的なトランスポート層は、ビデオ及びオーディオのような時間に基づくマルチメディアファイルの一般的構造を定義するISO/IEC14496-12-MPEG-4 Part12に記載されるベースメディアファイルフォーマット(base media file format (BMFF))である。実施形態では、OAMDは、MPEG-DASHマニフェストに含まれる。
図10Aを参照すると、符号化システム1000Aは、エンコーダ1001(例えば、AACエンコーダ)、フォーマット変換器1002、及びトランスポート層多重化器1004を含む。フォーマット変換器1002は、OAMDメタデータ生成器1003を更に含む。OAMDメタデータの幾つかの例は、限定ではないが、コンテンツ記述メタデータ、特性更新メタデータ、及びトリミングデータを含む。
ネイティブオーディオビットストリーム1005(例えば、AAC/MP4)は、22.2chオーディオ及びメタデータを含む。オーディオは、オーディオをネイティブオーディオフォーマットに符号化し符号化オーディオをトランスポート層多重化器1004に出力するエンコーダ1001に入力される。OAMDメタデータ生成器1003は、例えば図1Aを参照して説明した原理に従うように22.2chメタデータをOAMDにマッピングし、チャネルシャッフル情報を生成する。チャネルシャッフル情報は、例えば図1Bを参照して説明した原理に従い22.2chコンテンツのチャネル並べ替えを記述する。チャネルシャッフル情報は、OAMDと一緒にビットし、トランスポート層多重化器1004に入力される。トランスポート層多重化器1004の出力は、ネイティブオーディオビットストリームを含むトランスポートストリームである。
図10Bを参照すると、復号システム1000Bは、トランスポート層逆多重化器1006、デコーダ1007、オーディオチャネルシャッフラ1008、及びオブジェクトオーディオレンダラ1009を含む。トランスポート層逆多重化器1006は、オーディオ及びOAMDをトランスポートビットストリームから逆多重化し、オーディオ及びOAMDをデコーダ1007に入力する。デコーダ809は、オーディオ及びOAMDをネイティブオーディオビットストリームから復号する。復号されたオーディオ及びOAMDは、次に、オブジェクトオーディオレンダラ1009に入力される。オブジェクトオーディオレンダラ1009は、OAMDを用いてオーディオを処理し、それを特定のラウドスピーカレイアウトに適応する。
<<例示的な処理>>
図11は、CBAからOBAへの変換処理1100のフロー図である。処理1100は、図3に示すオーディオシステムアーキテクチャを用いて実施できる。処理1100は、チャネルベースオーディオとメタデータとを含むビットストリームを受信するステップと(1101)、ビットストリームからOAMD表現を示すシグナリングパラメータをパースするステップと(1102)、シグナリングされたOAMD表現に基づき、チャネルベースメタデータをOAMDに変換するステップと(1103)、OAMDの順序制約に基づき、チャネルシャッフル情報を生成するステップと(1104)、チャネルシャッフル情報に基づき、チャネルベースオーディオのチャネルを並べ替えるステップと(1105)、OAMDを用いて並べ替えチャネルベースオーディオをレンダリングするステップと(1106)、を含む。上述のステップ1103及び1104は、例えば、OAMD表現及び各々図1A及び1Bに示されるベッドチャネル割り当て/順序、並びに図3に示されるオーディオシステムアーキテクチャを用いて実行できる。OAMDメタデータの幾つかの例は、限定ではないが、コンテンツ記述メタデータ、特性更新メタデータ、及びトリミングデータを含む。
図12は、CBAからOBAへの変換処理1200のフロー図である。処理1200は、図4に示すオーディオシステムアーキテクチャを用いて実施できる。処理1200は、チャネルベースオーディオとメタデータとを含むビットストリームを受信するステップと(1201)、ビットストリームからOAMD表現を示すシグナリングパラメータをパースするステップと(1202)、シグナリングされたOAMD表現に基づき、チャネルベースメタデータをOAMDに変換するステップと(1203)、OAMDの順序制約に基づき、チャネルシャッフル情報を生成するステップと(1204)、チャネルシャッフル情報に基づき、チャネルベースオーディオのチャネルを並べ替えるステップと(1205)、オーディオがOAMDを用いてオブジェクトオーディオレンダラによりレンダリングされる再生装置へ送信するために、並べ替えチャネルベースオーディオ及びOAMDをOBAビットストリームに符号化するステップと(1206)、を含む。上述のステップ1203及び1205は、例えば、OAMD表現及び各々図1A及び1Bに示されるベッドチャネル割り当て/順序、並びに図4に示されるオーディオシステムアーキテクチャを用いて実行できる。OAMDメタデータの幾つかの例は、限定ではないが、コンテンツ記述メタデータ、特性更新メタデータ、及びトリミングデータを含む。
図13は、CBAからOBAへの変換処理1300のフロー図である。処理1300は、図5に示すオーディオシステムアーキテクチャを用いて実施できる。処理1300は、ネイティブオーディオフォーマットのチャネルベースオーディオとメタデータとを含むネイティブオーディオビットストリームを受信するステップと(1301)、ネイティブオーディオビットストリームを復号して、チャネルベースオーディオ及びメタデータを復元するステップと(1302)、ビットストリームからOAMD表現を示すシグナリングパラメータをパースするステップと(1303)、シグナリングされたOAMD表現に基づき、チャネルベースメタデータをOAMDに変換するステップと(1304)、OAMDの順序制約に基づき、チャネルシャッフル情報を生成するステップと(1305)、チャネルシャッフル情報に基づき、チャネルベースオーディオのチャネルを並べ替えるステップと(1306)、OAMDを用いて並べ替えチャネルベースオーディオをレンダリングするステップと(1307)、を含む。ステップ1304及び1305は、例えば、OAMD表現及び各々図1A及び1Bに示されるベッドチャネル割り当て/順序、並びに図5に示されるオーディオシステムアーキテクチャを用いて実行できる。
図14は、CBAからOBAへの変換処理1400のフロー図である。処理1400は、図6A及び6Bに示すオーディオシステムアーキテクチャを用いて実施できる。処理1400は、ネイティブビットストリームフォーマットのチャネルベースオーディオとメタデータとを含むネイティブオーディオビットストリームを受信するステップと(1402)、ネイティブオーディオビットストリームを復号して、チャネルベースオーディオ及びメタデータを復元する、つまり決定する又は抽出するステップと(1402)、ビットストリームからOAMD表現を示すシグナリングパラメータをパースするステップと(1403)、シグナリングされたOAMD表現に基づき、チャネルベースメタデータをOAMDに変換するステップと(1404)、OAMDの順序制約に基づき、チャネルシャッフル情報を生成するステップと(1405)、チャネルシャッフル情報に基づき、チャネルベースオーディオのチャネルを並べ替えるステップと(1406)、オーディオがOAMDを用いてオブジェクトオーディオレンダラによりレンダリングされる再生装置へそうしんすために、並べ替えチャネルベースオーディオ及びOAMDをOBAビットストリームに符号化するステップと(1407)、を含む。ステップ1404及び1405は、例えば、OAMD表現及び各々図1A及び1Bに示されるベッドチャネル割り当て/順序、並びに図6A及び6Bに示されるオーディオシステムアーキテクチャを用いて実行できる。
図15は、CBAからOBAへの変換処理1500のフロー図である。処理1500は、図7A~7Cに示すオーディオシステムアーキテクチャを用いて実施できる。処理1500は、チャネルベースオーディオとメタデータとを含むチャネルベースオーディオビットストリームを受信するステップにより開始し(1501)、チャネルベースオーディオをネイティブオーディオビットストリームに符号化し(1502)、チャネルベースメタデータからOAMD表現を示すシグナリングパラメータをパースし(1503)、シグナリングされたOAMD表現に基づき、チャネルベースオーディオメタデータをOAMD表現に変換し(1504)、OAMDの順序制約に基づき、チャネルシャッフル情報を生成し(1505)、ネイティブオーディオビットストリーム、チャネルシャッフル情報、及びOAMDを、結合オーディオビットストリームに結合し(1506)、レンダリングするために再生装置へ又はレンダリングするためにソース装置(例えば、STB、AVR)へ送信するために、結合オーディオビットストリームをトランスポート層ビットストリームに含める(1507)。上述のステップの詳細は、図1A、1B、7A、7C、8A、8B、9A~9C、10A及び10Bを参照して説明された。
図16は、CBAからOBAへの変換処理1600のフロー図である。処理1600は、図8A、8B、9A~9C、10A及び10Bに示すオーディオシステムアーキテクチャを用いて実施できる。処理1600は、ネイティブオーディオビットストリームとメタデータとを含むトランスポート層ビットストリームを受信するステップにより開始し(1601)、ネイティブオーディオビットストリーム及びメタデータ、チャネルシャッフル情報、及びOAMDをトランスポートビットストリームから抽出し(1602)、ネイティブオーディオビットストリームを復号して、チャネルベースオーディオを復元し、つまり決定し又は抽出し(1603)、チャネルシャッフル情報を用いてチャネルベースオーディオのチャネルを並べ替え(1604)、任意的に、並べ替えチャネルベースオーディオ及びOAMDをOBAビットストリームに符号化して、再生装置又はソース装置へ送信するか(1605)、又は任意的に、OBAビットストリームを復号して、並べ替えチャネルベースオーディオ及びOAMDを復元し(1606)、OAMDを用いて並べ替えチャネルベースオーディオをレンダリングし(1607)、再生装置へ送信する。上述のステップの詳細は、図8A、8B、9A~9C、10A及び10Bを参照して説明された。
<MPEG-4オーディオ又はMPEG-Dオーディオビットストリーム内で予め計算されたOAMDを送信する>
実施形態では、22.2コンテンツを表現するOAMDは、MPEG-4オーディオ(ISO/IEC14496-3)ビットストリームのようなネイティブオーディオビットストリームの中で運ばれる。3つの実施形態の例示的なシンタックスが以下に提供される。
Figure 0007182751000002
Figure 0007182751000003
Figure 0007182751000004
上述の例示的なシンタックスでは、要素element_instance_tagは、データストリーム要素を識別するための数値であり、要素extension_payload(int)は、fill_element(ID_FIL)の中に含まれてよい。上述の3つのシンタックスの実施形態の各々は、追加データの意味を示すために「tag」又は「extension_type」を説明する。実施形態では、信号がビットストリーム内に挿入されることができ、追加OAMD及びチャネルシャッフル情報がビットストリームの3つの拡張領域のうちの1つに存在することをシグナリングして、デコーダにビットストリームのそれらの領域をチェックさせることを回避する。例えば、MPEG4_ancillary_dataフィールドは、以下のセマンティクスを有するdolby_surround_modeフィールドを含む。OAMDがビットストリーム内に存在することをデコーダに示すために、同様のシグナリングシンタックスが使用できる。
Figure 0007182751000005
実施形態では、上述の表の中の予約フィールドは、予め計算されたOAMDペイロードがビットストリームの拡張データの中のどこかに埋め込まれていることを示すために使用される。(dolby_surround_mode=“11”)の予約された値は、拡張データフィールドが及び22.2をOBA(例えば、Dolby(登録商標)Atmos(登録商標))に変換するために必要とされる必要なOAMD及びチャネル情報を含むことを、デコーダに示すために使用される。代替として、予約されたフィールドは、コンテンツがOBA互換(例えば、Dolby(登録商標)Atmos(登録商標)互換)であり、22.2chコンテンツのOBAへの変換が可能であることを示す。従って、dolby_surround_mode信号が予約された値「11」に設定される場合、デコーダは、コンテンツがOBA互換であることを知り、更なる符号化及び/又はレンダリングのために22.2chコンテンツをOBAに変換する。
実施形態では、22.2コンテンツを表現するOAMDは、MPEG-D USAC(ISO/IEC23003-3)オーディオビットストリームのようなネイティブオーディオビットストリームの中で運ばれる。そのような実施形態の例示的なシンタックスが以下に提供される。
Figure 0007182751000006
<<例示的なオーディオシステムアーキテクチャ>>
図17は、実施形態による、チャネルオーディオからオブジェクトオーディオへの変換を含む例示的なオーディオシステムアーキテクチャのブロック図である。本例では、アーキテクチャはSTB又はAVRのためである。STB/AVR1700は、入力1701、アナログ-デジタル変換器(ADC)1702、復調器1703、同期化器/デコーダ1704、MEPG逆多重化器1707、MEPGデコーダ1706、メモリ1709、制御プロセッサ1710、オーディオチャネルシャッフラ1705、OBAエンコーダ1711、及びビデオエンコーダ1712を含む。本例では、STB/AVR1700は、図9A~9C、及び10A、10Bで説明した適用を実施する。ここで、予め計算されたOAMDはMPEG-4オーディオビットストリームの中で運ばれる。
実施形態では、低雑音ブロックは、衛星テレビ受信用アンテナから無線波を集め、それらをアナログ信号に変換し、アナログ信号は同軸ケーブルを通じてSTB/AVR1700の入力ポート1701へ送信される。アナログ信号は、ADC1702によりデジタル信号に変換される。デジタル信号は、復調器1703(例えば、QPSK復調器)により復調され、同期化器/デコーダ1704(例えば、同期化器及びビタビ(Viterbi)デコーダ)により同期化及び復号されて、MPEGトランスポートビットストリームを復元する。MPEGトランスポートビットストリームは、MPEG逆多重化器1707により逆多重化され、MPEGデコーダ1706により復号されて、チャネルベースオーディオ及びビデオオーディオビットストリーム、及びチャネルシャッフル情報とOAMDとを含むメタデータを復元する。オーディオチャネルシャッフラ1705は、例えば図1Bを参照して説明した原理に従うようなチャネルシャッフル情報に従い、オーディオチャネルを並べ替える。OBAエンコーダ1711は、再生装置内のオブジェクトオーディオレンダラによりレンダリングされるために再生装置(例えば、Dolby(登録商標)Atmos(登録商標)装置)へ送信されるOBAオーディオビットストリーム(例えば、Dolby(登録商標)MAT)に、並べ替えられたチャネルを有するオーディオを符号化する。ビデオエンコーダ1712は、ビデオを、再生装置によりサポートされるビデオフォーマットに符号化する。
図17を参照して説明されるアーキテクチャは、単なる例示的なアーキテクチャであることに留意する。CBAからOBAへの変換は、1つ以上のプロセッサ、メモリ、適切な入力/出力インタフェース、及び本願明細書に記載されたフォーマット変換及びチャネル並べ替えを実行するためのソフトウェアモジュール及び/又はハードウェア(例えば、ASIC)を含む任意の装置により実行できる。
本願明細書は多数の特定の実装の詳細を含むが、これらは、請求され得るものの範囲に対する限定としてではなく、むしろ、特定の実装の特定の実装に固有の特徴の説明として考えられるべきである。別個の実施形態の文脈で本願明細書に記載された特定の特徴は、単一の実装形態において結合されて実装されてもよい。反対に、単一の実施形態の文脈で記載された種々の特徴は、複数の実施形態で別個に又は任意の適切な部分的組み合わせで実装されてもよい。更に、特徴は特定の組み合わせで動作するよう上述され、そのように初めに請求され得るが、請求される組み合わせからの1つ以上の特徴は、幾つかの場合には、組み合わせから切り離すことができ、請求される組み合わせは、部分的組み合わせ又は部分的組み合わせの変形に向けられてよい。図面に示された論理的フローは、望ましい結果を達成するために示された特定の順序又はシーケンシャルな順序を必要としない。更に、他のステップが設けられてよく、又はステップは記載されたフローから除去されてよく、記載されたシステムに他のコンポーネントが追加されてよく又は除去されてよい。したがって、他の実装は以下の特許請求の範囲の範囲内にある。

Claims (15)

  1. 方法であって、
    オーディオ処理機器の1つ以上のプロセッサにより、チャネルベースオーディオと関連するチャネルベースオーディオメタデータとを含むビットストリームを受信するステップ、を含み、
    前記1つ以上のプロセッサは、
    前記チャネルベースオーディオメタデータからシグナリングパラメータをパースし、前記シグナリングパラメータは、複数の異なるオブジェクトオーディオメタデータ(OAMD)表現のうちの1つを示し、前記OAMD表現のうちの各OAMD表現は、前記チャネルベースオーディオの1つ以上のオーディオチャネルを1つ以上のオーディオオブジェクトにマッピングし、
    前記シグナリングパラメータにより示されるOAMD表現を用いて、前記チャネルベースオーディオメタデータを前記1つ以上のオーディオオブジェクトに関連付けられたOAMDに変換し、
    前記OAMDのチャネル順序制約に基づき、チャネルシャッフル情報を生成し、
    前記チャネルシャッフル情報に基づき前記チャネルベースオーディオの1つ以上のオーディオチャネルを並べ替えて、並べ替えチャネルベースオーディオを生成し、
    前記OAMDを用いて、前記並べ替えチャネルベースオーディオをレンダリングオーディオにレンダリングするか、又は、
    前記並べ替えチャネルベースオーディオ及び前記OAMDをオブジェクトベースオーディオビットストリームに符号化し、前記オブジェクトベースオーディオビットストリームを再生装置又はソース装置へ送信する、
    よう構成される、方法。
  2. 前記ビットストリームは、ネイティブオーディオビットストリームであり、前記方法は、前記ネイティブオーディオビットストリームを復号して、前記チャネルベースオーディオ及びメタデータを決定するステップ、を更に含む請求項1に記載の方法。
  3. 前記ネイティブオーディオビットストリームは、高度オーディオコーディング(AAC)ビットストリームである、請求項2に記載の方法。
  4. 前記チャネルベースオーディオ及び前記関連するチャネルベースオーディオメタデータは、各々N.Mチャネルベースオーディオ及び前記N.Mチャネルベースオーディオに関連付けられたチャネルベースオーディオメタデータであり、Nは9より大きい正の整数であり、Mは0以上の正の整数である、請求項1~3のいずれかに記載の方法。
  5. 前記チャネルベースオーディオは22.2である、請求項4に記載の方法。
  6. 方法であって、
    オーディオ処理機器の1つ以上のプロセッサにより、チャネルベースオーディオと関連するチャネルベースオーディオメタデータとを含むビットストリームを受信するステップ、を含み、
    前記1つ以上のプロセッサは、
    前記チャネルベースオーディオをネイティブオーディオビットストリームに符号化し、
    前記チャネルベースオーディオメタデータからシグナリングパラメータをパースし、前記シグナリングパラメータは、複数の異なるオブジェクトオーディオメタデータ(OAMD)表現のうちの1つを示し、前記OAMD表現のうちの各OAMD表現は、前記チャネルベースオーディオの1つ以上のオーディオチャネルを1つ以上のオーディオオブジェクトにマッピングし、
    前記シグナリングパラメータにより示されるOAMD表現を用いて、前記チャネルベースメタデータを前記1つ以上のオーディオオブジェクトに関連付けられたOAMDに変換し、
    前記OAMDのチャネル順序制約に基づき、チャネルシャッフル情報を生成し、
    前記ネイティブオーディオビットストリーム、前記チャネルシャッフル情報、及び前記OAMDを含むビットストリームパッケージを生成し、前記チャネルシャッフル情報は、再生装置又はソース装置において、前記チャネルシャッフル情報に基づき前記チャネルベースオーディオの1つ以上のオーディオチャネルを並べ替えて、並べ替えチャネルベースオーディオを生成することを可能にし、
    前記ビットストリームパッケージをトランスポート層ビットストリームに多重化し、
    前記トランスポート層ビットストリームを前記再生装置又は前記ソース装置へ送信する、
    よう構成される、方法。
  7. 前記ネイティブオーディオビットストリームは、高度オーディオコーディング(AAC)ビットストリームである、請求項に記載の方法。
  8. 前記チャネルベースオーディオ及び前記関連するチャネルベースオーディオメタデータは、各々N.Mチャネルベースオーディオ及び前記N.Mチャネルベースオーディオに関連付けられたチャネルベースオーディオメタデータであり、Nは7より大きい正の整数であり、Mは0以上の正の整数である、請求項6又は7に記載の方法。
  9. 前記チャネルベースオーディオは22.2である、請求項に記載の方法。
  10. 方法であって、
    オーディオ処理機器の1つ以上のプロセッサにより、ビットストリームパッケージを含むトランスポート層ビットストリームを受信するステップであって、前記ビットストリームパッケージは、符号化されたチャネルベースオーディオ、チャネルシャッフル情報、及びオブジェクトオーディオメタデータ(OAMD)を含むネイティブオーディオビットストリームを含む、ステップを含み、
    前記1つ以上のプロセッサは、
    前記トランスポート層ビットストリームを逆多重化して、前記ビットストリームパッケージを決定し、
    前記ビットストリームパッケージを復号して、前記チャネルベースオーディオ、前記チャネルシャッフル情報、及び前記オブジェクトオーディオメタデータ(OAMD)を決定し、
    前記チャネルシャッフル情報に基づき前記チャネルベースオーディオのオーディオチャネルを並べ替えて、並べ替えチャネルベースオーディオを生成し、
    前記OAMDを用いて、前記並べ替えチャネルベースオーディオをレンダリングオーディオにレンダリングするか、又は、
    前記並べ替えチャネルベースオーディオ及び前記OAMDをオブジェクトベースオーディオビットストリームに符号化し、前記オブジェクトベースオーディオビットストリームをソース装置へ送信する、
    よう構成される、方法。
  11. 前記ネイティブオーディオビットストリームは、高度オーディオコーディング(AAC)ビットストリームである、請求項10に記載の方法。
  12. 前記チャネルベースオーディオは、N.Mチャネルベースオーディオであり、Nは7より大きい正の整数であり、Mは0以上の正の整数である、請求項10又は11に記載の方法。
  13. 前記チャネルベースオーディオは22.2である、請求項12に記載の方法。
  14. 機器であって、
    1つ以上のプロセッサと、
    命令を格納している非一時的コンピュータ可読記憶媒体であって、前記命令は、前記1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに、請求項1~13のいずれかに記載の方法を実行させる、非一時的コンピュータ可読記憶媒体と、
    を含む機器。
  15. 命令を格納している非一時的コンピュータ可読記憶媒体であって、前記命令は、前記1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに、請求項1~13のいずれかに記載の方法を実行させる、非一時的コンピュータ可読記憶媒体。
JP2022532868A 2019-12-02 2020-12-02 チャネルベースオーディオからオブジェクトベースオーディオへの変換のためのシステム、方法、及び機器 Active JP7182751B6 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962942322P 2019-12-02 2019-12-02
EP19212906 2019-12-02
EP19212906.2 2019-12-02
US62/942,322 2019-12-02
PCT/US2020/062873 WO2021113350A1 (en) 2019-12-02 2020-12-02 Systems, methods and apparatus for conversion from channel-based audio to object-based audio

Publications (3)

Publication Number Publication Date
JP7182751B1 true JP7182751B1 (ja) 2022-12-02
JP7182751B6 JP7182751B6 (ja) 2022-12-20
JP2022553111A JP2022553111A (ja) 2022-12-21

Family

ID=73835849

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022532868A Active JP7182751B6 (ja) 2019-12-02 2020-12-02 チャネルベースオーディオからオブジェクトベースオーディオへの変換のためのシステム、方法、及び機器

Country Status (7)

Country Link
US (1) US12094476B2 (ja)
EP (1) EP3857919B1 (ja)
JP (1) JP7182751B6 (ja)
KR (1) KR102471715B1 (ja)
CN (1) CN114930876B (ja)
BR (1) BR112022010737A2 (ja)
WO (1) WO2021113350A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115190412A (zh) * 2022-05-27 2022-10-14 赛因芯微(北京)电子科技有限公司 生成渲染器内部数据结构的方法、装置、设备及存储介质
CN115038030A (zh) * 2022-05-30 2022-09-09 赛因芯微(北京)电子科技有限公司 一种场景输出渲染项确定方法、装置、设备及存储介质
CN115038029A (zh) * 2022-05-30 2022-09-09 赛因芯微(北京)电子科技有限公司 音频渲染器的渲染项处理方法、装置、设备及存储介质
CN115226002A (zh) * 2022-05-31 2022-10-21 赛因芯微(北京)电子科技有限公司 一种场景渲染项数据映射方法、装置、设备及存储介质
CN115209310A (zh) * 2022-06-07 2022-10-18 赛因芯微(北京)电子科技有限公司 利用元数据对基于音床的音频进行渲染的方法及装置
CN115348528A (zh) * 2022-06-30 2022-11-15 赛因芯微(北京)电子科技有限公司 一种音床渲染项数据映射方法、装置、设备及存储介质
CN115426613A (zh) * 2022-07-29 2022-12-02 赛因芯微(北京)电子科技有限公司 利用元数据对基于场景的音频进行渲染的方法及装置
CN115426611A (zh) * 2022-07-29 2022-12-02 赛因芯微(北京)电子科技有限公司 利用元数据对基于对象的音频进行渲染的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013006338A2 (en) 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
WO2016138168A1 (en) 2015-02-25 2016-09-01 Dolby Laboratories Licensing Corporation Video content assisted audio object extraction

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2097895A4 (en) * 2006-12-27 2013-11-13 Korea Electronics Telecomm DEVICE AND METHOD FOR ENCODING AND DECODING MULTI-OBJECT AUDIO SIGNAL WITH DIFFERENT CHANNELS WITH INFORMATION BIT RATE CONVERSION
JP5220840B2 (ja) * 2007-03-30 2013-06-26 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコード、並びにデコード装置および方法
JP5856295B2 (ja) 2011-07-01 2016-02-09 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応的オーディオシステムのための同期及びスイッチオーバ方法及びシステム
EP3913931B1 (en) 2011-07-01 2022-09-21 Dolby Laboratories Licensing Corp. Apparatus for rendering audio, method and storage means therefor.
WO2013122387A1 (en) 2012-02-15 2013-08-22 Samsung Electronics Co., Ltd. Data transmitting apparatus, data receiving apparatus, data transceiving system, data transmitting method, and data receiving method
EP2862370B1 (en) 2012-06-19 2017-08-30 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
CN108806706B (zh) 2013-01-15 2022-11-15 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
US9338420B2 (en) 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
CA2898885C (en) 2013-03-28 2016-05-10 Dolby Laboratories Licensing Corporation Rendering of audio objects with apparent size to arbitrary loudspeaker layouts
WO2014175668A1 (ko) 2013-04-27 2014-10-30 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법
TWI634798B (zh) 2013-05-31 2018-09-01 新力股份有限公司 Audio signal output device and method, encoding device and method, decoding device and method, and program
US9858932B2 (en) * 2013-07-08 2018-01-02 Dolby Laboratories Licensing Corporation Processing of time-varying metadata for lossless resampling
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP3028476B1 (en) 2013-07-30 2019-03-13 Dolby International AB Panning of audio objects to arbitrary speaker layouts
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
EP2928216A1 (en) 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
EP3175446B1 (en) * 2014-07-31 2019-06-19 Dolby Laboratories Licensing Corporation Audio processing systems and methods
CN111556426B (zh) * 2015-02-06 2022-03-25 杜比实验室特许公司 用于自适应音频的混合型基于优先度的渲染系统和方法
US10136240B2 (en) 2015-04-20 2018-11-20 Dolby Laboratories Licensing Corporation Processing audio data to compensate for partial hearing loss or an adverse hearing environment
JP6863282B2 (ja) 2015-07-10 2021-04-21 ソニーグループ株式会社 受信装置および受信方法
US9934790B2 (en) * 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
US10341770B2 (en) 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC
US10251007B2 (en) 2015-11-20 2019-04-02 Dolby Laboratories Licensing Corporation System and method for rendering an audio program
EP3301951A1 (en) 2016-09-30 2018-04-04 Koninklijke KPN N.V. Audio object processing based on spatial listener information
US10555103B2 (en) 2017-03-31 2020-02-04 Lg Electronics Inc. Method for outputting audio signal using scene orientation information in an audio decoder, and apparatus for outputting audio signal using the same
US20180357038A1 (en) * 2017-06-09 2018-12-13 Qualcomm Incorporated Audio metadata modification at rendering device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013006338A2 (en) 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
WO2016138168A1 (en) 2015-02-25 2016-09-01 Dolby Laboratories Licensing Corporation Video content assisted audio object extraction

Also Published As

Publication number Publication date
JP7182751B6 (ja) 2022-12-20
BR112022010737A2 (pt) 2022-08-23
US12094476B2 (en) 2024-09-17
CN114930876A (zh) 2022-08-19
US20230024873A1 (en) 2023-01-26
EP3857919B1 (en) 2022-05-18
KR20220100084A (ko) 2022-07-14
KR102471715B1 (ko) 2022-11-29
EP3857919A1 (en) 2021-08-04
CN114930876B (zh) 2023-07-14
WO2021113350A1 (en) 2021-06-10
JP2022553111A (ja) 2022-12-21

Similar Documents

Publication Publication Date Title
JP7182751B1 (ja) チャネルベースオーディオからオブジェクトベースオーディオへの変換のためのシステム、方法、及び機器
EP3729425B1 (en) Priority information for higher order ambisonic audio data
KR101283783B1 (ko) 고품질 다채널 오디오 부호화 및 복호화 장치
US9373333B2 (en) Method and apparatus for processing an audio signal
US20200013426A1 (en) Synchronizing enhanced audio transports with backward compatible audio transports
KR101761569B1 (ko) 오디오 현장의 코딩
KR102172279B1 (ko) 스케일러블 다채널 오디오 신호를 지원하는 부호화 장치 및 복호화 장치, 상기 장치가 수행하는 방법
KR102640460B1 (ko) 고차 앰비소닉 오디오 데이터에 대한 계층화된 중간 압축
US11081116B2 (en) Embedding enhanced audio transports in backward compatible audio bitstreams
CN108206022A (zh) 利用aes/ebu信道传输三维声信号的编解码器及其编解码方法
US11062713B2 (en) Spatially formatted enhanced audio data for backward compatible audio bitstreams
KR20090039642A (ko) Dmb 신호의 디코딩 방법 및 이의 디코딩 장치
CN108206984A (zh) 利用多信道传输三维声信号的编解码器及其编解码方法
RU2793271C1 (ru) Системы, способы и оборудование для преобразования из канально-ориентированного аудио в объектно-ориентированное аудио
JP2020120377A (ja) オーディオオーサリング装置、オーディオレンダリング装置、送信装置、受信装置、及び方法
CN108206983A (zh) 兼容现有音视频系统的三维声信号的编码器及其方法
CN108206021A (zh) 一种后向兼容式三维声编码器、解码器及其编解码方法
KR20140128563A (ko) 복호화 객체 리스트 갱신 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220727

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220727

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221025

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221121

R150 Certificate of patent or registration of utility model

Ref document number: 7182751

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150