JP2021535427A - 即時再生フレーム(ipf)の生成、輸送及び処理のための方法、装置及びシステム - Google Patents

即時再生フレーム(ipf)の生成、輸送及び処理のための方法、装置及びシステム Download PDF

Info

Publication number
JP2021535427A
JP2021535427A JP2021509899A JP2021509899A JP2021535427A JP 2021535427 A JP2021535427 A JP 2021535427A JP 2021509899 A JP2021509899 A JP 2021509899A JP 2021509899 A JP2021509899 A JP 2021509899A JP 2021535427 A JP2021535427 A JP 2021535427A
Authority
JP
Japan
Prior art keywords
frame
audio
frames
bitstream
additional information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021509899A
Other languages
English (en)
Other versions
JPWO2020038938A5 (ja
JP7455812B2 (ja
Inventor
フェルシュ,クリストフ
フィッシャー,ダニエル
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2021535427A publication Critical patent/JP2021535427A/ja
Publication of JPWO2020038938A5 publication Critical patent/JPWO2020038938A5/ja
Application granted granted Critical
Publication of JP7455812B2 publication Critical patent/JP7455812B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本願では、符号化されたオーディオデータのビットストリームを復号するオーディオデコーダが記載される。符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有する。各フレームは、関連した符号化されたオーディオサンプル値を有する。オーディオデコーダは、符号化されたオーディオデータのビットストリームのフレームが、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、追加情報とを有する即時再生フレームであるかどうかを決定するよう構成される決定部と、フレームが即時再生フレームであると決定部が決定する場合にデコーダを初期化するよう構成される初期化部とを有する。初期化は、現在のフレームと関連付けられた符号化されたオーディオサンプル値を復号する前に、追加情報によって構成された符号化されたオーディオサンプル値を復号することを有する。更に、符号化されたオーディオデータのビットストリームを復号する方法とともに、オーディオエンコーダ、オーディオエンコーダのシステム、及び即時再生フレームを含む符号化されたオーディオデータのビットストリームを生成する方法が記載される。更には、符号化されたオーディオデータのビットストリームにおいて即時再生フレームを生成するための、又は符号化されたオーディオデータのビットストリームから即時再生フレームを除くための装置、及び各々の非一時的なデジタル記憶媒体も記載される。

Description

本開示は、符号化されたオーディオデータのビットストリームを復号する方法であって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、方法と、即時再生フレームを含む符号化されたオーディオデータのビットストリームを生成する方法とを含め、オーディオエンコーダ、符号化方法、オーディオデコーダ、及び復号化方法に概して関係がある。本開示は、符号化されたオーディオデータのビットストリームにおいて即時再生フレームを生成するための、又は符号化されたオーディオデータのビットストリームから即時再生フレームを除くための装置に更に関係がある。
本明細書では、いくつかの実施形態が、特にその開示を参照して記載されているが、本開示が、そのような使用分野に限定されず、より広い範囲で適用可能であることは、明らかである。
現在、ISO/IEC 14496-3,Coding of audio-visual objects−Part 3: Audio, for generating, transporting and processing Immediate Playout Frames (IPF)で標準化されたMPEG−4オーディオには不足がある。IPFは、デコーダを直ちに初期化することを可能にする特別なフレームへ情報を与えることができるので、その特別なフレームを含むデータストリームへ切り替わると即時再生される。言い方を変えれば、IPFは、デコーダがその受信時に、このIPFに符号化されている最初のサンプルから正しいサンプルを直ちに再生することができるフレームである。これは、IPFがそうするための全ての情報を含むからである。このように、IPFは、それ自体の中からの情報のみを用いて復号化され得る、独立して復号化可能なフレームを意味する。
符号化されたオーディオは、通常は、データフレーム又はチャンクで現れる。MPEG−4で標準化されたオーディオとの関連で、フレーム/チャンクは、グラニュール(granules)として知られていることがあり、符号化されたチャンク/フレームは、アクセスユニット(access units,AU)と呼ばれ、復号されたチャンクは、コンポジションユニット(composition units,CU)と呼ばれる。トランスポートシステムでは、オーディオ信号は、これらのコーディングされたチャンク(アクセスユニット)の細かさでしかアクセス及びアドレス指定できないことがある。
アダプティブストリーミングでは、オーディオが異なる設定(例えば、MPEG−DASHにおいて適応設定内で設定されたビットレートなどの異なるビットレート)へ切り替わる場合に、最初から正確にオーディオサンプルを再生するために、デコーダは、オーディオプログラムの対応する時間セグメントを表すAUと、AUに先行する追加のAUn−1、AUn−2、・・・AU及び設定データとを供給される必要がある。さもなければ、異なるコーディング設定(例えば、ウィンドウイングデータ、SBR関連データ、PS関連データ)により、デコーダは、AUのみを復号する場合に、正確な出力を生成することが保証され得ない。そのため、新しい設定により復号されるべき最初のAUは、その新しい設定でデコーダを初期化するために必要とされる新しい設定データ及び全てのプレロールデータ(AUより前の時間セグメントを表すAUn−xの形を取る)を運ばなければならない。これは、MPEG−H 3Dオーディオ標準で又はMPEG−D USAC標準で定義されている即時再生フレーム(Immediate Playout Frame,IPF)を用いて行われ得る。
上記を鑑み、従って、本発明の目的は、オーディオデコーダ及び復号化方法並びにMPEG−4オーディオでIPFを処理することが可能なオーディオエンコーダ、オーディオエンコーダのシステム、装置及び符号化方法を提供することである。
本開示の第1の態様に従って、符号化されたオーディオデータのビットストリームを復号するオーディオデコーダであって、符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する、オーディオデコーダが提供される。
オーディオデコーダは、符号化されたオーディオデータのビットストリームのフレームが、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、追加情報とを有する即時再生フレームであるかどうかを決定するよう構成される決定部を有してよく、追加情報は、即時再生フレームに先行する多数のフレームの符号化されたオーディオサンプル値を有し、先行するフレームの前記符号化されたオーディオサンプル値は、現在のフレームと同じコーデック設定を用いて符号化されていてよく、プレロールフレームに対応する、先行するフレームの数は、即時再生フレームが復号されるときはいつでも、現在のフレームと関連付けられた有効なオーディオサンプル値を出力する位置にあるように、全信号を構成するためにデコーダによって必要とされるフレームの数に対応し得る。
そして、デコーダは、フレームが即時再生フレームであると決定部が決定する場合に、デコーダを初期化するよう構成される初期化部を有してよく、デコーダを初期化することは、現在のフレームと関連付けられた符号化されたオーディオサンプル値を復号する前に、追加情報によって構成された符号化されたオーディオサンプル値を復号することを有してよく、初期化部は、フレームが即時再生フレームであると決定部が決定する場合に、かつ、現在のフレームのオーディオサンプル値が異なるコーデック設定を用いて符号化されている場合に、オーディオデコーダを現在のコーデック設定から異なるコーデック設定へ切り替えるよう構成されてよく、デコーダは、現在のコーデック設定を用いて現在のフレームを復号し、フレームが即時再生フレームであると決定部が決定する場合に、かつ、現在のフレームのオーディオサンプル値が現在のコーデック設定を用いて符号化されている場合に、追加情報を捨てるよう構成されてよい。
いくつかの実施形態において、追加情報は、現在のフレームと関連付けられたオーディオサンプル値を符号化するために使用されたコーデック設定に関する情報を更に有してよく、決定部は、追加情報のコーデック設定が現在のコーデック設定と異なるかどうかを決定するよう更に構成されてよい。
いくつかの実施形態において、即時再生フレームは、拡張ペイロード(extension payload)として追加情報を有してよく、決定部は、即時再生フレームの拡張ペイロードを評価するよう構成されてよい。
いくつかの実施形態において、符号化されたオーディオデータのビットストリームは、MPEG−4オーディオビットストリームであってよい。
いくつかの実施形態において、追加情報は、データストリーム要素(Data Stream Element,DSE)又は拡張ペイロード要素(extension_payload element)のどちらか一方であるMPEG−4オーディオビットストリーム拡張メカニズムを介して運ばれてよい。
いくつかの実施形態において、データストリーム要素(DSE)又は拡張ペイロード要素のどちらか一方は、MPEG−4オーディオビットストリーム内の予め定義された位置に置かれてよく、かつ/あるいは、データストリーム要素(DSE)又は拡張ペイロード要素のペイロードが追加情報であることを伝える特定のインスタンスタグ(instance tag)を有してよい。
拡張ペイロード要素は、例えば、MPEG−4オーディオビットストリームシンタックスの種々の場所に含まれてよい。従って、このことは、MPEG−4オーディオでも即時再生フレーム機能を使用することを可能にする。
いくつかの実施形態において、拡張ペイロード要素は、充てん要素(fill element)(ID_FIL)内に含まれてよい。
いくつかの実施形態において、追加情報は、一意の識別子を更に有してよく、任意に、一意の識別子は、異なるコーデック設定を検出するために使用されてよい。
いくつかの実施形態において、デコーダは、前のコーデック設定でデコーダをフラッシュ(flush)することによって取得された出力サンプル値と、現在のフレームと関連付けられた符号化されたオーディオサンプル値を復号することによって取得された出力サンプル値とのクロスフェード(crossfading)を実行するよう構成されるクロスフェーダを更に有してよい。
いくつかの実施形態において、追加情報に含まれる多数のフレームの最も早いフレームは、その最も早いフレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されなくてよく、即時再生フレームは、即時再生フレームに先行する多数のフレームのうちの最も早いフレームより前のいずれかのフレームに対して又は即時再生フレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されなくてよい。
本開示の第2の態様に従って、符号化されたオーディオデータのビットストリームを復号する方法であって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、方法が提供される。
方法は、符号化されたオーディオデータのビットストリームのフレームが、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、追加情報とを有する即時再生フレームであるかどうかを決定するステップを有してよく、追加情報は、即時再生フレームに先行する多数のフレームの符号化されたオーディオサンプル値を有してよく、先行するフレームの符号化されたオーディオサンプル値は、即時再生フレームと同じコーデック設定を用いて符号化されていてよく、プレロールフレームに対応する、先行するフレームの数は、即時再生フレームが復号されるときはいつでも、現在のフレームと関連付けられた有効なオーディオサンプル値を出力する位置にあるように、全信号を構成するためにデコーダによって必要とされるフレームの数に対応してよい。
方法は、フレームが即時再生フレームであると決定される場合にデコーダを初期化するステップを更に有してよく、初期化することは、現在のフレームと関連付けられた符号化されたオーディオサンプル値を復号する前に、追加情報によって構成された符号化されたオーディオサンプル値を復号することを有してよい。
方法は、フレームが即時再生フレームであると決定される場合に、かつ、即時再生フレームのオーディオサンプル値が異なるコーデック設定を用いて符号化されている場合に、デコーダを現在のコーデック設定から異なるコーデック設定へ切り替えるステップを更に有してよい。
方法は、現在のコーデック設定を用いて即時再生フレームを復号し、フレームが即時再生フレームであると決定される場合に、かつ、即時再生フレームのオーディオサンプル値が現在のコーデック設定を用いて符号化されている場合に、追加情報を捨てるステップを有してよい。
提案されているように構成されると、方法は、例えば、正確な出力サンプルを連続して生成することと組み合わせて、オーディオ出力に沈黙(silence)のギャップを導入せずに、ISO/IEC 14496-3で定義されるようなオーディオオブジェクトタイプ(AudioObjectType,AOT)の切り替えを可能にする。
いくつかの実施形態において、追加情報は、現在のフレームと関連付けられたオーディオサンプル値を符号化するために使用されたコーデック設定に関する情報を更に有してよく、方法は、追加情報のコーデック設定が、即時再生フレームに先行するビットストリーム内のフレームと関連付けられたオーディオサンプル値を符号化するために使用された現在のコーデック設定と異なるかどうかを決定するステップを更に有してよい。
いくつかの実施形態において、符号化されたオーディオデータのビットストリームは、MPEG−4オーディオビットストリームであってよい。
いくつかの実施形態において、追加情報は、データストリーム要素(ID_DSE)又は拡張ペイロード要素のどちらか一方であるMPEG−4オーディオビットストリーム拡張メカニズムを介して運ばれてよい。
いくつかの実施形態において、データストリーム要素(ID_DSE)又は拡張ペイロード要素のどちらか一方は、MPEG−4オーディオビットストリーム内の予め定義された位置に置かれてよく、かつ/あるいは、データストリーム要素(ID_DSE)又は拡張ペイロード要素のペイロードが追加情報であることを伝える特定のインスタンスタグを有してよい。
いくつかの実施形態において、拡張ペイロード要素は、充てん要素(ID_FIL)内に含まれてよい。
いくつかの実施形態において、追加情報は、一意の識別子を更に更に有してよく、任意に、一意の識別子は、異なるコーデック設定を検出するために使用されてよい。
いくつかの実施形態において、符号化されたオーディオデータのビットストリームは、第1コーデック設定を用いて符号化された第1の数のフレームと、第1の数のフレームに続き、第2コーデック設定を用いて符号化された第2の数のフレームとを有してよく、第2の数のフレームのうちの最初のフレームが即時再生フレームであってよい。
本開示の第3の態様に従って、即時再生フレームを有する符号化されたオーディオデータのビットストリームを生成するオーディオエンコーダであって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、オーディオエンコーダが提供される。
オーディオエンコーダは、予め定義されたコーデック設定を用いて、複数のフレームと関連付けられた圧縮されていないオーディオサンプル値を符号化するよう構成されるコアエンコーダを有してよい。
オーディオエンコーダは、予め定義されたコーデック設定を用いて、複数のフレームのうちの現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値を記憶するよう構成されるバッファを更に有してよい。
そして、オーディオエンコーダは、複数のフレームのうちの現在のフレームに即時再生フレームを書き込むよう構成される埋め込み部を有してよく、即時再生フレームは、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値に対応する追加情報とを有してよい。
いくつかの実施形態において、埋め込み部は、予め定義されたコーデック設定に関する情報を追加情報に含めるよう更に構成されてよい。
いくつかの実施形態において、埋め込み部は、追加情報を即時再生フレームに含めるよう更に構成されてよい。
いくつかの実施形態において、符号化されたオーディオデータの生成されたビットストリームは、MPEG−4オーディオビットストリームであってよい。
いくつかの実施形態において、埋め込み部は、データストリーム要素(ID_DSE)又は拡張ペイロード要素のどちらか一方であるMPEG−4オーディオビットストリーム拡張メカニズムを介して追加情報をビットストリームに埋め込むよう更に構成されてよい。
いくつかの実施形態において、埋め込み部は、MPEG−4オーディオビットストリーム内の予め定義された位置にデータストリーム要素(ID_DSE)又は拡張ペイロード要素のどちらか一方を位置付けるよう、かつ/あるいは、データストリーム要素(ID_DSE)又は拡張ペイロード要素のペイロードが追加情報であることを伝える特定のインスタンスタグを割り当てるよう更に構成されてよい。
いくつかの実施形態において、埋め込み部は、充てん要素(ID_FIL)内に拡張ペイロード要素を埋め込むよう更に構成されてよい。
いくつかの実施形態において、埋め込み部は、一意の識別子を追加情報に含めるよう更に構成されてよく、任意に、一意の識別子は、予め定義されたコーデック設定を伝えてよい。
いくつかの実施形態において、オーディオエンコーダは、追加情報に含まれる多数のフレームのうちも最も早いフレームを、その最も早いフレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化しないよう更に構成されてよく、オーディオエンコーダは、即時再生フレームに先行する多数のフレームのうちの最も早いフレームより前のいずれかのフレームに対して、又は即時再生フレームより前のいずれかのフレームに対して即時再生フレームを時間差動的に符号化又はエントロピ符号化しないよう更に構成されてよい。
本開示の第4の態様に従って、即時再生フレームを夫々有している符号化されたオーディオデータの複数のビットストリームを生成するために2つ以上のオーディオエンコーダを有するシステムであって、符号化されたオーディオデータの各ビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、システムが提供される。
いくつかの実施形態において、予め定義されたサンプリングレートは、2つ以上のオーディオエンコーダのコアエンコーダの夫々について同じであってよい。従って、デコーダでのリサンプリング及び更なる遅延ハンドリングは、回避され得る。
いくつかの実施形態において、システムは、複数のビットストリームをアライメントする遅延のための遅延アライメントユニットを更に有してよい。従って、このことは、異なるエンコーダ遅延を補償することによってデコーダでのシームレスなスイッチングを可能にする。
本開示の第5の態様に従って、オーディオエンコーダによって、即時再生フレームを有する符号化されたオーディオデータのビットストリームを生成する方法であって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、方法が提供される。
方法は、コアエンコーダによって、予め定義されたコーデック設定を用いて、複数のフレームと関連付けられた圧縮されていないオーディオサンプル値を符号化するステップを有してよい。
方法は、バッファによって、予め定義されたコーデック設定を用いて、複数のフレームのうちの現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値を記憶するステップを更に有してよい。
そして、方法は、埋め込み部によって、複数のフレームのうちの現在のフレームに即時再生フレームを書き込むステップを有してよく、即時再生フレームは、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値に対応する追加情報とを有してよい。
いくつかの実施形態において、追加情報は、予め定義されたコーデック設定に関する情報を更に有してよい。
いくつかの実施形態において、即時再生フレームは、追加情報を更に有してよい。
いくつかの実施形態において、符号化されたオーディオデータの生成されたビットストリームは、MPEG−4オーディオビットストリームであってよい。
いくつかの実施形態において、追加情報は、データストリーム要素(ID_DSE)又は拡張ペイロード要素のどちらか一方であるMPEG−4オーディオビットストリーム拡張メカニズムを介して、埋め込み部によって、ビットストリームに埋め込まれてよい。
いくつかの実施形態において、データストリーム要素(ID_DSE)又は拡張ペイロード要素のどちらか一方は、埋め込み部によって、MPEG−4オーディオビットストリーム内の予め定義された位置に置かれてよく、かつ/あるいは、データストリーム要素(ID_DSE)又は拡張ペイロード要素のペイロードが追加情報であることを伝える特定のインスタンスタグを割り当てられてよい。
いくつかの実施形態において、拡張ペイロード要素は、埋め込み部によって、充てん要素(ID_FIL)内に埋め込まれてよい。
いくつかの実施形態において、追加情報は、一意の識別子を更に有してよく、任意に、一意の識別子は、予め定義されたコーデック設定を伝えてよい。
いくつかの実施形態において、オーディオエンコーダによって、追加情報に含まれる多数のフレームのうちも最も早いフレームは、その最も早いフレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されなくてよく、オーディオエンコーダによって、即時再生フレームは、即時再生フレームに先行する多数のフレームのうちの最も早いフレームより前のいずれかのフレームに対して、又は即時再生フレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されなくてよい。
本開示の第6の態様に従って、符号化されたオーディオデータのビットストリームにおいて即時再生フレームを生成するための、又は符号化されたオーディオデータのビットストリームから即時再生フレームを除くための装置であって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、装置が提供される。
装置は、符号化されたオーディオデータのビットストリームを受信するよう構成される受信部を有してよく、符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する。
そして、装置は、複数のフレームのうちの現在のフレームに即時再生フレームを書き込むよう構成される埋め込み部を有してよく、即時再生フレームは、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値に対応する追加情報とを有してよい。
提案されているように構成されると、装置は、符号化されたオーディオデータのいずれかの既に存在しているビットストリームにおいて、すなわち、必要とされる場合に分配より前に、即時再生フレームを個別に生成することを可能にする。
いくつかの実施形態において、装置は、複数のフレームのうちの現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値を記憶するよう構成されるバッファを更に有してよい。
いくつかの実施形態において、埋め込み部は、現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値に対応する追加情報を即時再生フレームから除くよう更に構成されてよい。
従って、このことは、例えば、オーディオエンコーダが即時再生フレームのみを生成する場合に、符号化されたオーディオデータのビットストリームから即時再生フレームを個別に除くことを可能にする。
本開示の第7の態様に従って、コンピュータプログラムを記憶している非一時的なデジタル記憶媒体であって、コンピュータプログラムは、コンピュータ又はプロセッサによって実行される場合に、符号化されたオーディオデータのビットストリームを復号する方法であって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、方法を実行する、非一時的なデジタル記憶媒体が提供される。
本開示の第8の態様に従って、コンピュータプログラムを記憶している非一時的なデジタル記憶媒体であって、コンピュータプログラムは、コンピュータ又はプロセッサによって実行される場合に、オーディオエンコーダによって、即時再生フレームを有する符号化されたオーディオデータのビットストリームを生成する方法であって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、方法を実行する、非一時的なデジタル記憶媒体が提供される。
本開示の例となる実施形態について、これより、単なる例として、添付の図面を参照して説明する。
符号化されたオーディオデータのMPEG−4オーディオビットストリームにおける即時再生フレームの例を表す。 符号化されたオーディオデータのビットストリームを復号する方法であって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、方法の例を表す。 符号化されたオーディオデータのビットストリームを復号する方法であって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、方法の更なる例を表す。 符号化されたオーディオデータのビットストリームを復号するオーディオデコーダであって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、オーディオデコーダの例を表す。 ランダムアクセスポイント(Immediate Playout Frames,IPF)を含む符号化されたオーディオデータのビットストリームを生成するオーディオエンコーダの例を表す。 ランダムアクセスポイント(Immediate Playout Frames,IPF)を含む符号化されたオーディオデータのビットストリームを生成する方法の例を表す。 時間アライメントされたランダムアクセスポイント(Immediate Playout Frames,IPF)を夫々が有している符号化されたオーディオデータの複数のビットストリームを生成するオーディオエンコーダのシステムの例を表す。 符号化されたオーディオデータのビットストリームにおいてランダムアクセスポイント(Immediate Playout Frames,IPF)を生成するための、又は符号化されたオーディオデータのビットストリームからランダムアクセスポイント(Immediate Playout Frames,IPF)を除くための装置の例を表す。 非一時的なデジタル記憶媒体に記憶されているコンピュータプログラムを実行するプロセッサを備えるデバイスの例を表す。
本発明は、例えば、MPEG−H 3Dオーディオ標準などの他の標準規格に従って標準化されたオーディオを含むデータストリームとの関連で、MPEG−4オーディオにおけるIPFの生成(符号化)、輸送(ビットストリーム)及び処理(復号化)に関係がある。ここで、及び以下で、MPEG−4オーディオビットストリームは、ISO/IEC 14496-3,Coding of audio-visual objects−Part 3: Audio, and all future editions, revisions and amendments theretoで示されている標準規格(以降、「MPEG−4オーディオ」と呼ばれる。)に従うビットストリームを指す。MPEG−4オーディオにおいてIPF機能を有効にするために、AUのために使用されるのと同じペイロードパケットの部分として時間においてAUに先行するAU及び設定データを生成し運ぶためのいくつかのオプションがある。これは、AUを復号することにより得られる最初のサンプルからオーディオサンプルの正確な出力を可能にするために、行われる。
符号化されたオーディオデータのビットストリームは、オーディオサンプル値、例えば、ペイロードパケット、の連続を含んでよい。符号化されたオーディオデータのビットストリームは、複数のフレームを更に有してよい。各フレームは、関連付けられた符号化されたオーディオサンプル値を有してよい。すなわち、各ペイロードパケットは、各々のフレーム又はAUに属してよい。
一例において、オーディオペイロードパケットは、ISO/IEC 14496-3で定義されている次のシンタックスに従ってよい:
Figure 2021535427
上記のオーディオペイロードパケットは、MPEG−4オーディオ標準などのMPEG標準規格の現在及び将来のバージョンに適合し得る。実施形態において、符号化されたオーディオデータのビットストリームは、MPEG−4オーディオビットストリーム(すなわち、MPEG−4オーディオ標準対応ビットストリーム)であってよい。
符号化されたオーディオデータのビットストリームのフレームは、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、追加情報とを有する即時再生フレーム(ランダムアクセスポイント、特別なフレーム)であってよい。追加情報は、即時再生フレームに先行する多数のフレームの符号化されたオーディオサンプル値を有してよく、先行フレームの符号化されたオーディオサンプル値は、現在のフレームと同じコーデック設定を用いて符号化されていてよい。プレロール(pre-roll)フレームに対応する、先行フレームの数は、即時再生フレームが復号されるときはいつでも、現在のフレームと関連付けられた有効なオーディオサンプル値を出力する位置にあるように、全信号(full signal)を構成するためにデコーダによって必要とされるフレームの数に対応してよい。全信号は、例えば、デコーダの起動又は再起動中に構成されてよい。即時再生フレームは、例えば、デコーダの起動時の最初のフレームであってよい。
実施形態において、追加情報は、データストリーム要素(ID_DSE)又は拡張ペイロード要素のどちらか一方であり得るMPEG−4オーディオビットストリーム拡張メカニズムを介して運ばれてよい。拡張ペイロード要素は、例えば、MPEG−4オーディオビットストリームシンタックスの種々の場所に、例えば、種々のレベルに、含まれてよい。実施形態において、拡張ペイロード要素は、充てん要素(ID_FIL)内に含まれてよい。
このように、追加情報は、例えば、次のオプションのうちの1つに基づいて、MPEG−4オーディオビットストリーム拡張メカニズムを介して運ばれてよい:
オプション1:
Figure 2021535427
オプション2:
Figure 2021535427
オプション3:
Figure 2021535427
ISO/IEC 14496-3及び/又は将来の標準規格で定義されるような、データストリーム要素(ID_DSEに等しいid_syn_eleにより伝えられる)若しくは充てん要素(ID_FILに等しいid_syn_eleにより伝えられる)、又はそれらの同等物は、拡張ペイロードを運ぶために使用されてよい。拡張ペイロードは、レガシーデコーダとの互換性を破らずに、そのようなペイロードパケットで運ばれる情報を更に拡張するために使用されてよい。
従って、MPEG−4オーディオコンテキストでは、充てん要素(ID_FIL)内に含まれ得るデータストリーム要素(ID_DSE)又は拡張ペイロード要素のどちらか一方が、AU(すなわち、現在のフレーム、即時再生フレーム)と同じペイロードパケット内でAUの前の時間セグメントを表すAU及び設定情報を運ぶために使用されてよい。これは、MPEG−4オーディオでもIPF機能を使用することを可能にする処理を適用するために更に使用され得る。同様に、MPEG−D USACで見られるように、拡張メカニズム(usacExtElement)はAudioPreRoll()ペイロードを運ぶために使用され得るが、いくつかの違いがある。
実施形態において、拡張要素(すなわち、拡張ペイロード要素)は、AUに挿入されてよく、要素タイプは、夫々の要素及びAUについてビットストリームで伝えられる。一例において、拡張要素は、最初のオーディオ要素に先行するペイロードパケット内の最初の要素であってよい。
以下で定義される各オーディオプレロール要素は、汎用一意識別子(Universally Unique Identifier,UUID)によって識別されてよい。UUIDフィールドは、ストリーム設定の切り替えをオーディオエンコーダによって通知し、そしてオーディオデコーダによって検出するために、使用されてよい。UUIDフィールドが前のフレーム又は(例えば、最初のデコーダ起動時の)初期状態に対して変化している場合に、ストリーム設定は変更されている可能性があり、プレロールペイロードは、正確な復号化を確かにするために評価されるべきである。UUIDが前のフレームに対して変化していない場合には、デコーダは、audio_preroll_element()をスキップし、いつも復号化を進めてよい。
一例において、UUIDが存在しない場合に、デコーダは、ストリーム設定切り替えを検出するよう、audio_preroll_elment()のAudioSpecificConfigを現在のデコーダ設定と比較してよい。
フィールド‘フラグ’(flags)は、追加情報をデコーダへ伝えるために使用され得る8ビットのビットセットとして使用される。これは、クロスフェードが適用されるべきであるかどうか、又はクロスフェードのタイプ(例えば、線形、対数)に関する情報であってよい。以下の例では、プレロールペイロード又はUUIDのどちらか一方がビットストリームに存在するか否かを伝えるために、1ビットが使用される。
ストリーム設定は、如何なるAUも処理する前にデコーダに知られていなければならない。MPEG−4オーディオでは、デコーダ設定は、AudioSpecificConfig要素で運ばれる。デコーダ設定及びUUDIは、プレロールペイロードの部分である。更に、プレロールペイロードは、設定に依存した数のMPEG−4オーディオAU(raw_data_block)を有する。
MPEG−4における即時再生フレーム(IPF)は、後述されるような厳密に1つのaudio_preroll_elment()ペイロードと、ISO/IEC 14496-3で定義されている1つ又はいくつかのオーディオ要素ストリーム(例えば、single_channel_element())とを有してよい。オーディオエレメンタリ要素ストリームは、現在のタイムスタンプと関連付けられる。プレロールペイロードは、MPEG−4オーディオの拡張ペイロードメカニズムの1つにおいて運ばれてよい。
図1は、2つのプレロールフレーム(AUn−1、AUn−2)2、3と、対応するストリーム設定4(AudioSpecificConfig)及びストリーム識別子5(UUID)とを有する即時再生フレーム(AU)を示す。
オーディオプレロール要素は、以下に基づいて定義されてよい:
Figure 2021535427
Figure 2021535427
一例において、オーディオプレロール要素(例えば、audio_preroll_elment())は、バイトアライメントされているので、拡張ペイロード要素(例えば、充てん要素内)及びデータストリーム要素の両方による更なるバイトアライメントなしで伝送され得る。
一例において、IPFは、次の通りにプレロール要素と関係がある:IPFは、現在のAUと、正確に復号するために必要とされる追加のAU(すなわち、多数の先行フレーム)との両方を含む。追加のAUは、プレロール要素の部分としてパッケージ化され、それから、それは、(ID_DSE又はID_FILを介して)raw_data_block()にパッケージ化される。そのようなraw_data_blockはIPFであることができる。
IPFは、様々な方法により符号化されてよい。一例において、プレロールフレームは、独立して復号化可能でなければならず、例えば、SBRが使用される場合には、SBRヘッダが存在しなければならない。実施形態において、audio_preroll_elment()は、データストリーム要素にカプセル化されてよい。例えば、audio_preroll_elment()は、次のシンタックスに基づいてデータストリーム要素にカプセル化されてよい:
Figure 2021535427
Figure 2021535427
audio_preroll_elment()を運ぶデータストリーム要素を識別するために、規則(convention)が使用されてよい。実施形態において、ID_DSEは、ストリーム内の予め定義された位置に置かれてよく、かつ/あるいは、ペイロードがaudio_preroll_elment()であることを伝える特定のインスタンスタグを有してよい。
他の実施形態では、audio_preroll_elment()は、充てん要素内の拡張ペイロード要素にカプセル化されてよい。例えば、audio_preroll_elment()は、次のシンタックスに基づいてカプセル化されてよい:
Figure 2021535427
Figure 2021535427
前述の例で見られるように、拡張ペイロード要素のタイプを識別するために、規則が使用されてよく、例えば、EXT_DATA_ELEMENTがペイロードパケット内の特定の予め定義された位置で運ばれる場合に、ペイロードはaudio_preroll_elment()である。従って、実施形態において、拡張ペイロード要素は、ストリーム内の予め定義された位置に置かれてよく、かつ/あるいは、ペイロードがaudio_preroll_elment()であることを伝える特定のインスタンスタグを有してよい。
一例において、本発明に従う拡張ペイロードは、新しい拡張ペイロードタイプを用いて伝えられてもよく、例えば、extension_type=EXT_AUDIO_PRE_ROLL=1010bである。
Figure 2021535427
一例において、audio_preroll_elment()を運ぶデータストリーム要素(ID_DSE)又は拡張ペイロード要素(例えば、充てん要素(ID_FIL)内)は、同じペイロードパケット内の如何なるオーディオ要素よりも前にビットストリームに埋め込まれてよい。そのようにしてIPFペイロードを埋め込むことのいくつかの例は、以下を含む:
Figure 2021535427
本発明の態様は、IPFの復号化に関係がある。図2の例を参照すると、復号化プロセスは、符号化されたオーディオデータのビットストリームを受信するステップS101を含んでよい。符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表してよく、複数のフレームを有してよく、各フレームは、関連した符号化されたオーディオサンプル値を有してよい。
方法は、符号化されたオーディオデータのビットストリームのフレームが即時再生フレームであるかどうかを決定するステップS102を更に含んでよい。即時再生フレームは、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、追加情報とを有してよい。追加情報は、即時再生フレームに先行する多数のフレームの符号化されたオーディオサンプル値を有してよく、先行フレームの符号化されたオーディオサンプル値は、即時再生フレームと同じコーデック設定を用いて符号化されている。プレロールフレームに対応する先行フレームの数は、即時再生フレームが復号されるときはいつでも、現在のフレームと関連付けられた有効なオーディオサンプル値を出力する位置にあるように、全信号を構成するためにデコーダによって必要とされるフレームの数に対応してよい。全信号は、例えば、デコーダの起動又は再起動中に構成されてよい。即時再生フレームは、例えば、デコーダの起動時の最初のフレームであってよい。
そして、方法は、フレームが即時再生フレームであると決定される場合にデコーダを初期化するステップS103を含んでよい。初期化することは、現在のフレームと関連付けられた符号化されたオーディオサンプル値を復号する前に、追加情報によって構成された符号化されたオーディオサンプル値を復号することを有してよい。
これより図3の例を参照すると、オーディオデコーダは、フレームが即時再生フレームであると決定される場合、かつ、即時再生フレームのオーディオサンプル値が異なるコーデック設定を用いて符号化されている場合に、現在のコーデック設定から異なるコーデック設定へ切り替えられてよい。即時再生フレームは、現在のコーデック設定を用いて復号されてよく、追加情報は、フレームが即時再生フレームであると決定される場合、かつ、即時再生フレームのオーディオサンプル値が現在のコーデック設定を用いて符号化されている場合に、捨てられてよい。
一例において、復号化プロセスは、MPEG−D USACにおけるIPF復号化からの要素を利用してよい。再び図3の例を参照すると、復号化プロセスは、次の通りに詳細に進んでよい。
●ペイロードが存在する場合、かつ、uuidが前のフレームから変化した場合(ブロックS104での決定)、又は
●ペイロードが存在し、uuidが存在しない場合(ブロックS105での決定)、
1.新しいストリーム設定、すなわち、audio_preroll_elment()からのAudioSpecificConfig()を読み出す(S106)。
2.デコーダの状態をフラッシュし、結果を、例えば、“NULL”アクセスユニットを用いて、バッファに格納する(S107)。
■結果をバッファ(クロスフェードバッファA)に格納する。
3.デコーダを再設定(再初期化)する(S108)。
4.audio_preroll_elment内のn_preroll_framesを復号し、出力を捨てる(S109)。
5.ビットストリーム内の次のオーディオ要素(例えば、SCE/CPE/LFE)を復号し、結果をバッファ(クロスフェードバッファB)に格納する。
■フラグによって通知される場合に、クロスフェードバッファAとデコーダ出力との間にクロスフェードを適用し、結果を出力PCMバッファに書き込む(S110)。クロスフェードの結果は、このフレームのコンポジションユニットを構成する。
■さもなければ、デコーダ出力をPCMバッファに直接書き込む。
6.次のフレームを続ける。
●その他の場合
1.audio_preroll_elment()をスキップし、フレームを復号する(S111)。
2.結果をPCMバッファに書き込む(S112)。
復号化プロセスは:
●ペイロードが存在しない場合に、各々のフレームを復号し、次のフレームを続ける
ことを更に含んでもよい。
一例において、この処理は、正確な出力サンプルを連続して生成することと組み合わせて、オーディオ出力に沈黙(silence)のギャップを導入せずに、ISO/IEC 14496-3で定義されるようなオーディオオブジェクトタイプ(AudioObjectType,AOT)の切り替えを可能にし得る。一例において、切り替えられるAOTには、AOT2(AAC)、AOT5(SBR)、AOT29(PS)及び他の互換性があるものが含まれ得る。
これより図4の例を参照すると、本発明の態様は、IPFの復号化のためのオーディオデコーダに関係がある。オーディオデコーダ100は、決定部101を有してよい。決定部101は、符号化されたオーディオデータのビットストリームのフレームが、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、追加情報とを有する即時再生フレームであるかどうかを決定するよう構成されてよい。追加情報は、即時再生フレームに先行する多数のフレームの符号化されたオーディオサンプル値を有してよい。先行フレームの符号化されたオーディオサンプル値は、現在のフレームと同じコーデック設定を用いて符号化されていてよい。プレロールフレームに対応する先行フレームの数は、即時再生フレームが復号されるときはいつでも、現在のフレームと関連付けられた有効なオーディオサンプル値を出力する位置にあるように、全信号を構成するためにデコーダ100によって必要とされるフレームの数に対応してよい。全信号は、例えば、デコーダ100の起動又は再起動中に構成されてよい。即時再生フレームは、例えば、デコーダ100の起動時の最初のフレームであってよい。
そして、オーディオデコーダ100は、初期化部102を有してよい。初期化部102は、フレームが即時再生フレームであると決定部101が決定する場合に、デコーダ100を初期化するよう構成されてよい。デコーダ100を初期化することは、現在のフレームと関連付けられた符号化されたオーディオサンプル値を復号する前に、追加情報によって構成された符号化されたオーディオサンプル値を復号することを有してよい。初期化部102は、フレームが即時再生フレームであると決定部101が決定する場合、かつ、現在のフレームのオーディオサンプル値が異なるコーデック設定を用いて符号化されている場合に、オーディオデコーダ100を現在のコーデック設定から異なるコーデック設定へ切り替えるよう更に構成されてよい。そしで、デコーダ100は、現在のコーデック設定を用いて現在のフレームを復号し、フレームが即時再生フレームであると決定部101が決定する場合、かつ、現在のフレームのオーディオサンプル値が現在のコーデック設定を用いて符号化されている場合に、追加情報を捨てるよう構成されてよい。
これより図5の例を参照すると、本発明の態様は、即時再生フレーム(ランダムアクセスポイント)を含む符号化されたオーディオデータのビットストリームを生成するオーディオエンコーダに関係があり、符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する。
オーディオエンコーダ200は、予め定義されたコーデック設定を用いて、複数のフレームと関連付けられた圧縮されていないオーディオサンプル値を符号化するよう構成されるコアエンコーダ202を有してよい。予め定義されたコーデック設定を使用することは、例えば、所定のサンプリングレートを使用することを含んでよい。一例において、コアエンコーダ202は、MPEG−4オーディオ標準の復号化に従うように、圧縮されていないオーディオサンプルを符号化してよい。
オーディオエンコーダ200は、予め定義されたコーデック設定を用いて符号化されている複数のフレームのうちの現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値を記憶するよう構成されるバッファ223を更に有してよい(破線によって示される。)。
例えば、フレームNを符号化する場合に、関連する前のフレームN−1、N−2、・・・は、常にバッファリング/記憶されてよい。IPFをフレームNに書き込むよう指示された場合(例えば、動的スイッチングを可能にするために2秒ごと)、記憶されている関連する前のフレームN−1、N−2、・・・が次いで取られ、現在のフレームNにパッケージ化されてよい。
そして、オーディオエンコーダ200は、複数のフレームのうちの現在のフレームに即時再生フレームを書き込むよう構成される埋め込み部204を有してよく、即時再生フレームは、前記現在のフレームと関連付けられた符号化されたオーディオサンプル値と、前記現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値に対応する追加情報とを有してよい。
図5の例では、埋め込み部204は、オーディオエンコーダ200の部分であるものとして定義されているが、代替的には、又は付加的には、埋め込み部204はまた、符号化されたオーディオデータのビットストリームのいずれかの現在のフレームに即時再生フレームを書き込むよう、あるいは、符号化されたオーディオデータのビットストリーム内の即時再生フレームを、即時再生フレームから追加情報を除くことによって、“通常”のフレームに変換するよう、個別的に実装されてもよい。この際、埋め込み部204は、エンコーダチェーンの部分であり得るが、必ずしもその必要はない。
実施形態において、埋め込み部204は、予め定義されたコーデック設定に関する情報を追加情報に含めるよう更に構成されてよい。この際、追加情報は、予め定義されたコーデック設定に関する情報をデコーダへ供給し得る。実施形態において、埋め込み部204は、追加情報を即時再生フレームに含めるよう更に構成されてよい。このようにして、追加情報は、ビットストリームにおいてデコーダへ運ばれ得る。
実施形態において、符号化されたオーディオデータの生成されたビットストリームは、MPEG−4オーディオビットストリームであってよい。
実施形態において、埋め込み部204は、データストリーム要素(ID_DSE)又は拡張ペイロード要素のどちらか一方であり得るMPEG−4オーディオビットストリーム拡張メカニズムを介して追加情報をビットストリームに(例えば、輸送のために)埋め込むよう更に構成されてよい。
実施形態において、埋め込み部204は、MPEG−4オーディオビットストリーム内の予め定義された位置にデータストリーム要素(ID_DSE)又は拡張ペイロード要素のどちらか一方を置くよう、かつ/あるいは、データストリーム要素(ID_DSE)又は拡張ペイロード要素のペイロードが追加情報であることを伝える特定のインスタンスタグを割り当てるよう更に構成されてよい。予め定義された位置は、MPEG−4オーディオビットストリーム内の第1の位置、すなわち、フレームn(図1のraw_data_block()[n])を復号するために必要とされ得るデコーダ設定を運び得るということでフレーム内の最初、に対応してよい。よって、デコーダは、フレーム内の最初の要素がID_DSE又は拡張ペイロード要素(ID_FIL要素内に含まれてよい。)である場合に、この要素がプレロールデータ(先行フレーム、プレロールフレーム)を運ぶと推測し得る。
実施形態において、埋め込み部204は、一意の識別子を追加情報に含めるよう更に構成されてよい。任意に、一意の識別子は、予め定義されたコーデック設定を通知してよい。予め定義されたコーデック設定は、次いで、上述されたように、フレームnを復号するためにデコーダによって使用されてよい。一意の識別子に基づいて、デコーダは、ビットストリームにおいて追加情報を識別し、それに応じてビットストリームをパースすることが可能であり得る。
実施形態において、オーディオエンコーダ200は、追加情報に含まれる多数のフレームのうちの最も早いフレームを、その最も早いフレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化しないよう更に構成されてよく、オーディオエンコーダ200は、即時再生フレームに先行する多数のフレームのうちの最も早いフレームより前のいずれかのフレームに対して、又は即時再生フレームより前のいずれかのフレームに対して、即時再生フレームを時間差動的に符号化又はエントロピ符号化しないよう更に構成されてよい。
これより図6の例を参照すると、本発明の態様は、オーディオエンコーダによって、即時再生フレーム(ランダムアクセスポイント)を含む符号化されたオーディオデータのビットストリームを生成する方法に関係があり、符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する。
方法は、コアエンコーダによって、予め定義されたコーデック設定を用いて、複数のフレームと関連付けられた圧縮されていないオーディオサンプル値を符号化するステップS201を有してよい。予め定義されたコーデック設定を使用することは、例えば、所定のサンプリングレートを使用することを含んでよい。方法は、バッファによって、予め定義されたコーデック設定を用いて符号化された複数のフレームのうちの現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値を記憶するステップS202を更に有してよい。
そして、方法は、埋め込み部によって、即時再生フレームを複数のフレームのうちの現在のフレームに書き込むステップS203を有してよく、即時再生フレームは、前記現在のフレームと関連付けられた符号化されたオーディオサンプル値と、前記現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値に対応する追加情報とを有する。
実施形態において、追加情報は、予め定義されたコーデック設定に関する情報を更に有してよい。予め定義されたコーデック設定は、先に詳述された復号化プロセスにおいてデコーダによって使用されてよい。
実施形態において、即時再生フレームは、追加情報を更に含んでよい。このようにして、追加情報は、ビットストリームにおいて運ばれ得る。
実施形態において、符号化されたオーディオデータの生成されたビットストリームは、MPEG−4オーディオビットストリームであってよい。
実施形態において、追加情報は、データストリーム要素(ID_DSE)又は拡張ペイロード要素のどちらか一方であるMPEG−4オーディオビットストリーム拡張メカニズムを介して埋め込み部によってビットストリーム(例えば、輸送のために)埋め込まれてよい。拡張ペイロード要素は、例えば、MPEG−4オーディオビットストリームシンタックスの種々の場所に含まれてよい。実施形態において、拡張ペイロード要素は、充てん要素(ID_FIL)内に埋め込み部によって(例えば、輸送のために)埋め込まれてよい。
先に詳述されたように、実施形態において、データストリーム要素(ID_DSE)又は拡張ペイロード要素のどちらか一方は、埋め込み部によって、MPEG−4オーディオビットストリーム内の予め定義された位置に置かれてよく、かつ/あるいは、データストリーム要素(ID_DSE)又は拡張ペイロード要素のペイロードが追加情報であることを伝える特定のインスタンスタグを割り当てられてよい。予め定義された位置は、現在のフレーム復号するために必要とされ得るデコーダ設定を運び得るということで、常にフレーム内の最初の位置であってよい。
実施形態において、追加情報は、一意の識別子を更に有してよい。任意に、一意の識別子は、予め定義されたコーデック設定を通知してよい。
実施形態において、追加情報に含まれる多数のフレームのうちの最も早いフレームは、オーディオエンコーダによって、その最も早いフレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されなくてよく、即時再生フレームは、オーディオエンコーダによって、即時再生フレームに先行する多数のフレームのうちの最も早いフレームより前のいずれかのフレームに対して、又は即時再生フレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されなくてよい。
これより図7の例を参照すると、本発明の態様は、即時再生フレーム(時間アライメントされたランダムアクセスポイント)を夫々が有している符号化されたオーディオデータの複数のビットストリームを生成する2つ以上のオーディオエンコーダを有するシステムに関係があり、符号化されたオーディオデータの各ビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する。システム内のオーディオエンコーダの数は制限されず、一方、図7の例では、2つのオーディオエンコーダを有するシステムが表されている。システムは、同じ頻度で即時再生フレームを挿入するが、例えば、ビットレートについて、異なる設定を有しながら、同じ内容に対して並行して2つのオーディオエンコーダを実行し得る。そのようにして生成された両方のビットストリームは、例えば、ウェブサーバ上に、記憶されてよい。クライアントは、(例えば、高ビットレートで)ストリームAを再生し始めてよい。ある時点で、クライアントは、より低いビットレートストリームBへ切り替えると決定してよく、従って、同じコンテンツを、しかし異なるビットレートで、要求してよい。ストリームBの最初のセグメントがデコーダに到着する場合に、そのようなセグメントは、常にIPFから開始し得る(これは、例えば、MPEG−DASHに従うマニフェストファイルを介して、通知されてよい。)。このことは、デコーダが最初から正確なオーディオを出力することを可能にする。
再び図7の例を参照すると、2つのオーディオエンコーダが並行して表されており、オーディオエンコーダの夫々は、コアエンコーダ202(エンコーダコア#1、エンコーダコア#2)、バッファ(図示せず。)及び埋め込み部204(IPF挿入)を有する。
実施形態において、所定のサンプリングレートは、コアエンコーダ202の夫々について同じであってよい。さもなければ、リサンプリング及び追加の遅延ハンドリングがデコーダ側で必要とされることがある。しかし、コアエンコーダ202は、異なるフレームレートで実行されるよう構成されてもよい(例えば、AAC−LC 1024;HE−AAC 2048)。更に、コアエンコーダ設定は、異なる数のプレロールフレームpを必要とし得る。フレームn−p及びpの両方が独立して復号化可能である、すなわち、前のフレームからの情報に依存する必要がないことが必要とされ得る(HE−AACについては、それらはSBRヘッダを含んでよい)。コア符号化の後、IPFの復号化時間は、異なるストリームにわたってアライメントされてよい。
実施形態において、システムは、複数のビットストリームをアライメントする遅延のための遅延アライメントユニット201(遅延#1、遅延#2)を更に有してよい。デコーダでのシームレスなスイッチングのために、即時再生フレーム(IPF)の復号化時間はアライメントされる必要があり得る。遅延アライメント段は、異なるエンコーダ/デコーダ遅延を補償するように、入力PCMサンプル(圧縮されていないオーディオサンプル値、入力オーディオサンプル値)を遅延させてよい。
これより図8の例を参照すると、本発明の態様は、符号化されたオーディオデータのビットストリームにおいて即時再生フレーム(ランダムアクセスポイント)を生成するための、又は符号化されたオーディオデータのビットストリームから即時再生フレーム(ランダムアクセスポイント)を除くための装置に関係があり、符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する。
装置300は、符号化されたオーディオデータのビットストリームを受信するよう構成される受信部301を有してよく、符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する。
そして、装置300は、複数のフレームのうちの現在のフレームに即時再生フレームを書き込むよう構成される埋め込み部302を有してよく、即時再生フレームは、前記現在のフレームに関連した符号化されたオーディオサンプル値と、前記現在のフレームの多数の先行フレームの符号化されたに対応する追加情報を有する。IPFを生成することにおいて、埋め込み部302は、図5乃至7に関連して上述された原理に従って動作してよい。この動作は、“通常”の(非IPF)フレームをIPFに変換することに対応すると言われることがある。
IPF挿入は、実際のコピー及びパッケージ化を引き受け得る。コア符号化及びIPF挿入を分けることによって、上記の装置と同様に、IPFなしのビットストリームを記憶し、必要な場合にのみ分配の前にIPFを埋め込むことが可能であり得る。シームレスなスイッチングのために構成される場合に、各IPFは、ストリーム構成ASCを含む必要があり得る。
実施形態において、装置300は、複数のフレームのうちの現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値を記憶するよう構成されるバッファを更に有してよい。
実施形態において、埋め込み部302は、前記現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値に対応する追加情報を即時再生フレームから除くよう更に構成されてよい。これは、IPFを“通常”のフレームに変換することに対応すると言われることがある。例えば、オーディオエンコーダは、IPFのみを生成してよく、それから、IPFは、各々のチャネル/サービスが有し得る制約に応じて、埋め込み部によって後に除かれてよい。
これより図9の例を参照すると、本発明の態様は、コンピュータプログラムを記憶している非一時的なデジタル記憶媒体であって、コンピュータプログラムが、コンピュータ又はプロセッサによって実行される場合に、本明細書で説明されている方法を実行する、非一時的なデジタル記憶媒体を含んでよい。図9は、前記コンピュータプログラムを実行し得るプロセッサ401を備えたデバイス400を例として表す。あるいは、デバイス400は、各々のコンピュータを表してもよい。
本明細書で説明されている方法およびシステムは、ソフトウェア、ファームウェア、及び/又はハードウェアとして実装されてよい。特定のコンポーネントは、例えば、デジタル信号プロセッサ又はマイクロプロセッサで実行されるソフトウェアとして実装されてもよい。他のコンポーネントは、例えば、ハードウェアとして及び/又は特定用途向け集積回路として実装されてもよい。説明されている方法及びシステムで引き起こされる信号は、ランダム・アクセス・メモリ又は光記憶媒体などの媒体に記憶されてよい。それらは、ラジオネットワーク、衛星ネットワーク、ワイヤレスネットワーク又はワイヤラインネットワーク、例えば、インターネットなどのネットワークを介して転送されてよい。本明細書で説明されている方法、装置及びシステムを使用する典型的なデバイスは、オーディオ信号を記憶及び/又はレンダリングするために使用されるポータブル電子デバイス又は他のコンシューマ装置である。
留意されるべきは、明細書及び図面/図は、単に、提案される方法、システム、及び装置の原理を表す点である。当業者であれば、本明細書で明示的に記載又は図示されていないとしても、本発明の原理を具現し、その精神及び範囲の中に含まれている様々な配置を実施することができる。更に、本文書で説明されている全ての例及び実施形態は、提案されている方法の原理を読者が理解することを助ける説明目的のためのみであることが明示的に主に意図されている。更に、本発明の原理、態様及び実施形態並びにそれらの具体例を提供する本明細書中の全ての記述は、それらの同等物を包含するよう意図される。
[関連出願の相互参照]
本願は、2018年8月21日付けで出願された米国特許仮出願第62/720680号(参照番号:D18080USP1)の優先権を主張する。優先権の基礎となるこの米国出願は、参照により本願に援用される。

Claims (44)

  1. 符号化されたオーディオデータのビットストリームを復号するオーディオデコーダであって、前記符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する、前記オーディオデコーダにおいて、
    前記符号化されたオーディオデータのビットストリームのフレームが、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、追加情報とを有する即時再生フレームであるかどうかを決定するよう構成される決定部と、
    当該フレームが即時再生フレームであると前記決定部が決定する場合に、前記デコーダを初期化するよう構成される初期化部と
    を有し、
    前記追加情報は、前記即時再生フレームに先行する多数のフレームの符号化されたオーディオサンプル値を有し、前記先行するフレームの前記符号化されたオーディオサンプル値は、前記現在のフレームと同じコーデック設定を用いて符号化されており、
    プレロールフレームに対応する前記先行するフレームの数は、即時再生フレームが復号されるときはいつでも、前記現在のフレームと関連付けられた有効なオーディオサンプル値を出力する位置にあるように、全信号を構成するために前記デコーダによって必要とされるフレームの数に対応し、
    前記デコーダを初期化することは、前記現在のフレームと関連付けられた前記符号化されたオーディオサンプル値を復号する前に、前記追加情報によって構成された前記符号化されたオーディオサンプル値を復号することを有し、
    前記初期化部は、当該フレームが即時再生フレームであると前記決定部が決定する場合に、かつ、前記現在のフレームのオーディオサンプル値が異なるコーデック設定を用いて符号化されている場合に、前記オーディオデコーダを現在のコーデック設定から前記異なるコーデック設定へ切り替えるよう構成され、
    前記デコーダは、前記現在のコーデック設定を用いて前記現在のフレームを復号し、当該フレームが即時再生フレームであると前記決定部が決定する場合に、かつ、前記現在のフレームのオーディオサンプル値が前記現在のコーデック設定を用いて符号化されている場合に、前記追加情報を捨てるよう構成される、
    オーディオデコーダ。
  2. 前記追加情報は、前記現在のフレームと関連付けられたオーディオサンプル値を符号化するために使用されたコーデック設定に関する情報を有し、
    前記決定部は、前記追加情報の前記コーデック設定が前記現在のコーデック設定と異なるかどうかを決定するよう更に構成される、
    請求項1に記載のオーディオデコーダ。
  3. 前記即時再生フレームは、拡張ペイロードとして前記追加情報を有し、
    前記決定部は、前記即時再生フレームの前記拡張ペイロードを評価するよう構成される、
    請求項1又は2に記載のオーディオデコーダ。
  4. 前記符号化されたオーディオデータのビットストリームは、MPEG−4オーディオビットストリームである、
    請求項1乃至3のうちいずれか一項に記載のオーディオデコーダ。
  5. 前記追加情報は、データストリーム要素(ID_DSE)又は拡張ペイロード要素のどちらか一方であるMPEG−4オーディオビットストリーム拡張メカニズムを介して運ばれる、
    請求項4に記載のオーディオデコーダ。
  6. 前記データストリーム要素(ID_DSE)又は前記拡張ペイロード要素のどちらか一方は、前記MPEG−4オーディオビットストリーム内の予め定義された位置に置かれ、かつ/あるいは、前記データストリーム要素(ID_DSE)又は前記拡張ペイロード要素のペイロードが前記追加情報であることを伝える特定のインスタンスタグを有する、
    請求項5に記載のオーディオデコーダ。
  7. 前記拡張ペイロード要素は、充てん要素(ID_FIL)内に含まれる、
    請求項5又は6に記載のオーディオデコーダ。
  8. 前記追加情報は、一意の識別子を更に有し、
    任意に、前記一意の識別子は、前記異なるコーデック設定を検出するために使用される、
    請求項1乃至7のうちいずれか一項に記載のオーディオデコーダ。
  9. 前のコーデック設定で前記デコーダをフラッシュすることによって取得された出力サンプル値と、前記現在のフレームと関連付けられた前記符号化されたオーディオサンプル値を復号することによって取得された出力サンプル値とのクロスフェードを実行するよう構成されるクロスフェーダを更に有する、
    請求項1乃至8のうちいずれか一項に記載のオーディオデコーダ。
  10. 前記追加情報に含まれる前記多数のフレームの最も早いフレームは、該最も早いフレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されず、
    前記即時再生フレームは、該即時再生フレームに先行する前記多数のフレームのうちの前記最も早いフレームより前のいずれかのフレームに対して又は前記即時再生フレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されない、
    請求項1乃至9のうちいずれか一項に記載のオーディオデコーダ。
  11. 符号化されたオーディオデータのビットストリームを復号する方法であって、前記符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する、前記方法において、
    前記符号化されたオーディオデータのビットストリームのフレームが、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、追加情報とを有する即時再生フレームであるかどうかを決定するステップであり、前記追加情報は、前記即時再生フレームに先行する多数のフレームの符号化されたオーディオサンプル値を有し、前記先行するフレームの前記符号化されたオーディオサンプル値は、前記即時再生フレームと同じコーデック設定を用いて符号化されており、プレロールフレームに対応する前記先行するフレームの数は、即時再生フレームが復号されるときはいつでも、前記現在のフレームと関連付けられた有効なオーディオサンプル値を出力する位置にあるように、全信号を構成するためにデコーダによって必要とされるフレームの数に対応する、ステップと、
    当該フレームが即時再生フレームであると決定される場合に前記デコーダを初期化するステップであり、前記初期化することは、前記現在のフレームと関連付けられた前記符号化されたオーディオサンプル値を復号する前に、前記追加情報によって構成された前記符号化されたオーディオサンプル値を復号することを有する、ステップと、
    当該フレームが即時再生フレームであると決定される場合に、かつ、前記即時再生フレームのオーディオサンプル値が異なるコーデック設定を用いて符号化されている場合に、前記デコーダを現在のコーデック設定から前記異なるコーデック設定へ切り替えるステップと、
    前記現在のコーデック設定を用いて前記即時再生フレームを復号し、当該フレームが即時再生フレームであると決定される場合に、かつ、前記即時再生フレームのオーディオサンプル値が前記現在のコーデック設定を用いて符号化されている場合に、前記追加情報を捨てるステップと
    を有する方法。
  12. 前記追加情報は、前記現在のフレームと関連付けられたオーディオサンプル値を符号化するために使用されたコーデック設定に関する情報を有し、
    前記方法は、前記追加情報の前記コーデック設定が、前記即時再生フレームに先行する前記ビットストリーム内のフレームと関連付けられたオーディオサンプル値を符号化するために使用された前記現在のコーデック設定と異なるかどうかを決定するステップを更に有する、
    請求項11に記載の方法。
  13. 前記符号化されたオーディオデータのビットストリームは、MPEG−4オーディオビットストリームである、
    請求項11又は12に記載の方法。
  14. 前記追加情報は、データストリーム要素(ID_DSE)又は拡張ペイロード要素のどちらか一方であるMPEG−4オーディオビットストリーム拡張メカニズムを介して運ばれる、
    請求項13に記載の方法。
  15. 前記データストリーム要素(ID_DSE)又は前記拡張ペイロード要素のどちらか一方は、前記MPEG−4オーディオビットストリーム内の予め定義された位置に置かれ、かつ/あるいは、前記データストリーム要素(ID_DSE)又は前記拡張ペイロード要素のペイロードが前記追加情報であることを伝える特定のインスタンスタグを有する、
    請求項14に記載の方法。
  16. 前記拡張ペイロード要素は、充てん要素(ID_FIL)内に含まれる、
    請求項14又は15に記載の方法。
  17. 前記追加情報は、一意の識別子を更に有し、
    任意に、前記一意の識別子は、前記異なるコーデック設定を検出するために使用される、
    請求項11乃至16のうちいずれか一項に記載の方法。
  18. 前記符号化されたオーディオデータのビットストリームは、第1コーデック設定を用いて符号化された第1の数のフレームと、該第1の数のフレームに続き、第2コーデック設定を用いて符号化された第2の数のフレームとを有し、
    前記第2の数のフレームのうちの最初のフレームが前記即時再生フレームである、
    請求項11乃至17のうちいずれか一項に記載の方法。
  19. 即時再生フレームを有する符号化されたオーディオデータのビットストリームを生成するオーディオエンコーダであって、前記符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する、前記オーディオエンコーダにおいて、
    予め定義されたコーデック設定を用いて、前記複数のフレームと関連付けられた圧縮されていないオーディオサンプル値を符号化するよう構成されるコアエンコーダと、
    前記予め定義されたコーデック設定を用いて、前記複数のフレームのうちの現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値を記憶するよう構成されるバッファと、
    前記複数のフレームのうちの前記現在のフレームに即時再生フレームを書き込むよう構成される埋め込み部と
    を有し、
    前記即時再生フレームは、前記現在のフレームと関連付けられた符号化されたオーディオサンプル値と、前記現在のフレームの前記多数の先行フレームの前記符号化されたオーディオサンプル値に対応する追加情報とを有する、
    オーディオエンコーダ。
  20. 前記埋め込み部は、前記予め定義されたコーデック設定に関する情報を前記追加情報に含めるよう更に構成される、
    請求項19に記載のオーディオエンコーダ。
  21. 前記埋め込み部は、前記追加情報を前記即時再生フレームに含めるよう更に構成される、
    請求項19又は20に記載のオーディオエンコーダ。
  22. 前記符号化されたオーディオデータの生成されたビットストリームは、MPEG−4オーディオビットストリームである、
    請求項19乃至21のうちいずれか一項に記載のオーディオエンコーダ。
  23. 前記埋め込み部は、データストリーム要素(ID_DSE)又は拡張ペイロード要素のどちらか一方であるMPEG−4オーディオビットストリーム拡張メカニズムを介して前記追加情報を前記ビットストリームに埋め込むよう更に構成される、
    請求項22に記載のオーディオエンコーダ。
  24. 前記埋め込み部は、前記MPEG−4オーディオビットストリーム内の予め定義された位置に前記データストリーム要素(ID_DSE)又は前記拡張ペイロード要素のどちらか一方を位置付けるよう、かつ/あるいは、前記データストリーム要素(ID_DSE)又は前記拡張ペイロード要素のペイロードが前記追加情報であることを伝える特定のインスタンスタグを割り当てるよう更に構成される、
    請求項23に記載のオーディオエンコーダ。
  25. 前記埋め込み部は、充てん要素(ID_FIL)内に前記拡張ペイロード要素を埋め込むよう更に構成される、
    請求項23又は24に記載のオーディオエンコーダ。
  26. 前記埋め込み部は、一意の識別子を前記追加情報に含めるよう更に構成され、
    任意に、前記一意の識別子は、予め定義されたコーデック設定を伝える、
    請求項19乃至25のうちいずれか一項に記載のオーディオエンコーダ。
  27. 前記オーディオエンコーダは、前記追加情報に含まれる前記多数のフレームのうちも最も早いフレームを、該最も早いフレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化しないよう更に構成され、
    前記オーディオエンコーダは、前記即時再生フレームに先行する前記多数のフレームのうちの前記最も早いフレームより前のいずれかのフレームに対して、又は前記即時再生フレームより前のいずれかのフレームに対して前記即時再生フレームを時間差動的に符号化又はエントロピ符号化しないよう更に構成される、
    請求項19乃至26のうちいずれか一項に記載のオーディオエンコーダ。
  28. 即時再生フレームを夫々有している符号化されたオーディオデータの複数のビットストリームを生成するために、請求項19乃至27のうちいずれか一項に記載の2つ以上のオーディオエンコーダを有し、
    符号化されたオーディオデータの各ビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する、
    システム。
  29. 予め定義されたサンプリングレートが、前記2つ以上のオーディオエンコーダの前記コアエンコーダの夫々について同じである、
    請求項28に記載のシステム。
  30. 前記システムは、前記複数のビットストリームをアライメントする遅延のための遅延アライメントユニットを更に有する、
    請求項28又は29に記載のシステム。
  31. オーディオエンコーダによって、即時再生フレームを有する符号化されたオーディオデータのビットストリームを生成する方法であって、前記符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する、前記方法において、
    コアエンコーダによって、予め定義されたコーデック設定を用いて、前記複数のフレームと関連付けられた圧縮されていないオーディオサンプル値を符号化するステップと、
    バッファによって、前記予め定義されたコーデック設定を用いて、前記複数のフレームのうちの現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値を記憶するステップと、
    埋め込み部によって、前記複数のフレームのうちの前記現在のフレームに即時再生フレームを書き込むステップと
    を有し、
    前記即時再生フレームは、前記現在のフレームと関連付けられた符号化されたオーディオサンプル値と、前記現在のフレームの前記多数の先行フレームの前記符号化されたオーディオサンプル値に対応する追加情報とを有する、
    方法。
  32. 前記追加情報は、前記予め定義されたコーデック設定に関する情報を更に有する、
    請求項31に記載の方法。
  33. 前記即時再生フレームは、前記追加情報を更に有する、
    請求項31又は32に記載の方法。
  34. 前記符号化されたオーディオデータの生成されたビットストリームは、MPEG−4オーディオビットストリームである、
    請求項31乃至33のうちいずれか一項に記載の方法。
  35. 前記追加情報は、データストリーム要素(ID_DSE)又は拡張ペイロード要素のどちらか一方であるMPEG−4オーディオビットストリーム拡張メカニズムを介して前記埋め込み部によって前記ビットストリームに埋め込まれる、
    請求項34に記載の方法。
  36. 前記データストリーム要素(ID_DSE)又は前記拡張ペイロード要素のどちらか一方は、前記埋め込み部によって、前記MPEG−4オーディオビットストリーム内の予め定義された位置に置かれ、かつ/あるいは、前記データストリーム要素(ID_DSE)又は前記拡張ペイロード要素のペイロードが前記追加情報であることを伝える特定のインスタンスタグを割り当てられる、
    請求項35に記載の方法。
  37. 前記拡張ペイロード要素は、前記埋め込み部によって、充てん要素(ID_FIL)内に埋め込まれる、
    請求項35又は36に記載の方法。
  38. 前記追加情報は、一意の識別子を更に有し、
    任意に、前記一意の識別子は、予め定義されたコーデック設定を伝える、
    請求項31乃至37のうちいずれか一項に記載の方法。
  39. 前記オーディオエンコーダによって、前記追加情報に含まれる前記多数のフレームのうちも最も早いフレームは、該最も早いフレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されず、
    前記オーディオエンコーダによって、前記即時再生フレームは、該即時再生フレームに先行する前記多数のフレームのうちの前記最も早いフレームより前のいずれかのフレームに対して、又は前記即時再生フレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されない、
    請求項31乃至38のうちいずれか一項に記載の方法。
  40. 符号化されたオーディオデータのビットストリームにおいて即時再生フレームを生成するための、又は符号化されたオーディオデータのビットストリームから即時再生フレームを除くための装置であって、前記符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する、前記装置において、
    符号化されたオーディオデータのビットストリームを受信するよう構成される受信部であり、前記符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する、前記受信部と、
    前記複数のフレームのうちの現在のフレームに即時再生フレームを書き込むよう構成される埋め込み部であり、前記即時再生フレームは、前記現在のフレームと関連付けられた符号化されたオーディオサンプル値と、前記現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値に対応する追加情報とを有する、前記埋め込み部と
    を有する装置。
  41. 前記装置は、前記複数のフレームのうちの前記現在のフレームの前記多数の先行フレームの符号化されたオーディオサンプル値を記憶するよう構成されるバッファを更に有する、
    請求項40に記載の装置。
  42. 前記埋め込み部は、前記現在のフレームの前記多数の先行フレームの前記符号化されたオーディオサンプル値に対応する前記追加情報を前記即時再生フレームから除くよう更に構成される、
    請求項40に記載の装置。
  43. コンピュータプログラムを記憶している非一時的なデジタル記憶媒体であって、
    前記コンピュータプログラムは、コンピュータ又はプロセッサによって実行される場合に、請求項11乃至18のうちいずれか一項に記載の方法を実行する、
    非一時的なデジタル記憶媒体。
  44. コンピュータプログラムを記憶している非一時的なデジタル記憶媒体であって、
    前記コンピュータプログラムは、コンピュータ又はプロセッサによって実行される場合に、請求項31乃至39のうちいずれか一項に記載の方法を実行する、
    非一時的なデジタル記憶媒体。
JP2021509899A 2018-08-21 2019-08-20 即時再生フレーム(ipf)の生成、輸送及び処理のための方法、装置及びシステム Active JP7455812B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862720680P 2018-08-21 2018-08-21
US62/720,680 2018-08-21
PCT/EP2019/072258 WO2020038938A1 (en) 2018-08-21 2019-08-20 Methods, apparatus and systems for generation, transportation and processing of immediate playout frames (ipfs)

Publications (3)

Publication Number Publication Date
JP2021535427A true JP2021535427A (ja) 2021-12-16
JPWO2020038938A5 JPWO2020038938A5 (ja) 2022-08-17
JP7455812B2 JP7455812B2 (ja) 2024-03-26

Family

ID=67902488

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021509899A Active JP7455812B2 (ja) 2018-08-21 2019-08-20 即時再生フレーム(ipf)の生成、輸送及び処理のための方法、装置及びシステム

Country Status (10)

Country Link
US (1) US11972769B2 (ja)
EP (2) EP4224473A1 (ja)
JP (1) JP7455812B2 (ja)
KR (1) KR20210043679A (ja)
CN (1) CN112740325B (ja)
AU (1) AU2019323625A1 (ja)
BR (1) BR112021003104A2 (ja)
CA (1) CA3110137A1 (ja)
MX (1) MX2021001970A (ja)
WO (1) WO2020038938A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112740325B (zh) * 2018-08-21 2024-04-16 杜比国际公司 即时播放帧(ipf)的生成、传输及处理的方法、设备及系统
JP7314398B2 (ja) * 2019-08-15 2023-07-25 ドルビー・インターナショナル・アーベー 変更オーディオビットストリームの生成及び処理のための方法及び装置
CN118103906A (zh) * 2021-08-19 2024-05-28 弗劳恩霍夫应用研究促进协会 音频编码器、用于提供音频信息的编码表示的方法、计算机程序、以及使用立即播出帧的编码音频表示
CN114979771A (zh) * 2022-07-26 2022-08-30 北京智象信息技术有限公司 一种多媒体播放器视频预滚水位控制的方法、装置及介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963203A (en) * 1997-07-03 1999-10-05 Obvious Technology, Inc. Interactive video icon with designated viewing position
EP1839297B1 (en) 2005-01-11 2018-11-14 Koninklijke Philips N.V. Scalable encoding/decoding of audio signals
US8532984B2 (en) 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US8190441B2 (en) 2006-09-11 2012-05-29 Apple Inc. Playback of compressed media files without quantization gaps
CN101802907B (zh) 2007-09-19 2013-11-13 爱立信电话股份有限公司 多信道音频的联合增强
WO2011104463A1 (fr) 2010-02-26 2011-09-01 France Telecom Compression de flux audio multicanal
JP5719922B2 (ja) 2010-04-13 2015-05-20 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン サンプルごとに正確なオーディオ信号表現のための方法、エンコーダ及びデコーダ
WO2014124377A2 (en) * 2013-02-11 2014-08-14 Dolby Laboratories Licensing Corporation Audio bitstreams with supplementary data and encoding and decoding of such bitstreams
EP2842338A1 (en) 2012-04-24 2015-03-04 VID SCALE, Inc. Method and apparatus for smooth stream switching in mpeg/3gpp-dash
US9830918B2 (en) 2013-07-05 2017-11-28 Dolby International Ab Enhanced soundfield coding using parametric component generation
EP2863386A1 (en) 2013-10-18 2015-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
KR102428794B1 (ko) 2014-03-21 2022-08-04 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
RU2653858C1 (ru) 2014-05-28 2018-05-15 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Процессор данных и транспорт данных пользовательского управления на устройства декодирования и воспроизведения аудио
EP2996269A1 (en) * 2014-09-09 2016-03-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio splicing concept
KR102041140B1 (ko) 2015-03-09 2019-12-05 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 프래그먼트- 정렬된 오디오 코딩
TW202242853A (zh) 2015-03-13 2022-11-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP3332557B1 (en) 2015-08-07 2019-06-19 Dolby Laboratories Licensing Corporation Processing object-based audio signals
SG10202100336WA (en) 2017-01-10 2021-02-25 Fraunhofer Ges Forschung Audio decoder, audio encoder, method for providing a decoded audio signal, method for providing an encoded audio signal, audio stream, audio stream provider and computer program using a stream identifier
RU2651902C1 (ru) 2017-04-26 2018-04-24 Федеральное государственное бюджетное образовательное учреждение высшего образования "Кубанский государственный аграрный университет имени И.Т. Трубилина" Способ иппотерапии больных детским церебральным параличом в условиях черноморского побережья
CN112740325B (zh) * 2018-08-21 2024-04-16 杜比国际公司 即时播放帧(ipf)的生成、传输及处理的方法、设备及系统

Also Published As

Publication number Publication date
CN112740325A (zh) 2021-04-30
WO2020038938A1 (en) 2020-02-27
EP4224473A1 (en) 2023-08-09
CA3110137A1 (en) 2020-02-27
CN112740325B (zh) 2024-04-16
US11972769B2 (en) 2024-04-30
US20210335376A1 (en) 2021-10-28
BR112021003104A2 (pt) 2021-05-11
KR20210043679A (ko) 2021-04-21
JP7455812B2 (ja) 2024-03-26
MX2021001970A (es) 2021-05-31
AU2019323625A1 (en) 2021-04-15
EP3841571B1 (en) 2023-03-22
EP3841571A1 (en) 2021-06-30

Similar Documents

Publication Publication Date Title
JP7455812B2 (ja) 即時再生フレーム(ipf)の生成、輸送及び処理のための方法、装置及びシステム
US11670314B2 (en) Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder
US7657428B2 (en) System and method for seamless switching of compressed audio streams
JP7171772B2 (ja) 適応的なストリーミング整列のためのフレーム変換
US11882323B2 (en) Audio splicing concept
EP3105938A1 (en) Embedding encoded audio into transport stream for perfect splicing
RU2792944C2 (ru) Способы, устройство и системы для генерирования, передачи и обработки кадров немедленного воспроизведения (ipf)
US20090080539A1 (en) Method and apparatus for smooth digital media playback

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20210330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220808

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220808

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240313

R150 Certificate of patent or registration of utility model

Ref document number: 7455812

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150