JP5719922B2 - サンプルごとに正確なオーディオ信号表現のための方法、エンコーダ及びデコーダ - Google Patents

サンプルごとに正確なオーディオ信号表現のための方法、エンコーダ及びデコーダ Download PDF

Info

Publication number
JP5719922B2
JP5719922B2 JP2013504246A JP2013504246A JP5719922B2 JP 5719922 B2 JP5719922 B2 JP 5719922B2 JP 2013504246 A JP2013504246 A JP 2013504246A JP 2013504246 A JP2013504246 A JP 2013504246A JP 5719922 B2 JP5719922 B2 JP 5719922B2
Authority
JP
Japan
Prior art keywords
data
information
audio
frame
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013504246A
Other languages
English (en)
Other versions
JP2013528825A (ja
Inventor
デーラ、ステファン
スペルシュナイダー、ラルフ
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2013528825A publication Critical patent/JP2013528825A/ja
Application granted granted Critical
Publication of JP5719922B2 publication Critical patent/JP5719922B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明の実施形態はオーディオ信号のソースコーディングの分野に関するものである。詳しくは、本発明の実施形態はオリジナルの有効オーディオデータに関する情報を符号化する方法と、それに対応するデコーダに関する。より詳しくは、本発明の実施形態は、オリジナルの持続期間を有するオーディオデータの再生をもたらすものである。
オーディオエンコーダは、概して、送信や保存のためにオーディオ信号を圧縮するために使用される。使用されたコーダーにより、信号は、ロスレス(完全な再生が可能となる)またはロシー(不完全ではあるが十分な再生のためのもの)として符号化され得る。対応するデコーダは符号化処理を逆転し、完全なまたは不完全なオーディオ信号を生成する。文献でアーチファクトと言った場合、それは一般的に情報損失を意味し、ロシーコーディングのことである。これらは、制限されたオーディオ帯域、エコーとリンギングのアーチファクト、及び他の情報を含み、これらは聞こえるものかもしれないし、あるいは人間の聴覚特性によりマスキングされるものであるかもしれない。
本発明が取り組む課題は別の種類のアーチファクトであり、これらは一般的にはオーディオコーディングの文献で取り扱われていない。つまり、エンコーディングの最初と最後の付加的な無音期間のことである。これらのアーチファクトの解決法は存在する。しばしばギャップレス再生法と呼ばれるものである。これらのアーチファクトの根源は、第1に、符号化オーディオデータの粒度の粗さであり、例えば符号化オーディオデータの一つのユニットは、常に1024個のオリジナルの符号化前のオーディオサンプルの情報を含んでいるというようなことである。第2に、デジタル信号処理は、デジタルフィルターや関連するフィルターバンクによる計算遅延なしでは行えないことがしばしばあることである。
多くのアプリケーションはもともとの有効サンプルの再生を必要とはしない。例えばラジオ放送は問題がない。符号化オーディオストリームは継続的であり、別々の符号化の連結が起こらないからである。テレビ放送もまたしばしば静的に構成され、送信の前に一つのエンコーダが使用される。しかし、事前に符号化されたいくつかのストリームが接合される(追加挿入のために使用されるように)場合や、オーディオとビデオの同期が問題となる場合には、余分な無音期間は、デコーディングにおいて、最初と最後の余分なオーディオサンプルは表示されない場合(特にオリジナルの非圧縮オーディオデータのビットごとに正確な再生が要求されるロスレスエンコーディングの場合)の圧縮データの保存と、圧縮領域での編集にとっては問題となる。
多くのユーザーが既にこれらの余分な無音期間に適応しているが、この余分な無音期間に対して不満を持っているユーザーもいる。余分な無音期間は、いくつかの符号化が継ぎ合わされた場合に特に問題であり、元は非圧縮であったギャップレスオーディオデータは、符号化され復号される際に中断される。本発明の目的は、符号化の最初と最後の望ましくない無音期間を除去することができる改良アプローチを提供することである。
異なるコーディング機構を使用した、IフレームとPフレームとBフレームを使用したビデオコーディングは、最初と最後にいかなる余分なフレームをも導入しない。対照的に、オーディオエンコーダは、概して、付加的な事前保留のサンプルを有する。それらの個数によるが、それらはオーディオとビデオの同期に関して知覚可能なロスにつながる可能性もある。これは、しばしばリップシンク課題と呼ばれており、話し手の口の動きと聞こえる音との間のずれである。多くのアプリケーションは、リップシンクの調整を行うことにより、この問題に取り組んでいるが、このリップシンクの調整は、使用されているコーデックとその設定に応じて非常に変化するので、ユーザーによって行われなければならない。本発明の別の目的は、オーディオとビデオの同期がとれた再生を可能にする改良アプローチを提供することである。
デジタル放送は、これまでに、地域差及び個別のプログラムと広告で、より異種的になってきた。従って、メインの放送ストリームは、その地域固有のまたはユーザー固有の内容に取って代わられるかまたはそれと接合される。その地域固有のまたはユーザー固有の内容は、ライブストリームであっても事前に符号化されたデータであってもかまわない。これらのストリームの接合は主に送信システムによって決まるが、オーディオは、不明な無音期間のために、望まれているような完全な接合ができないことがよくある。オーディオ信号内のこれらのギャップは知覚できるものであるが、現在の方法ではこのような無音期間を信号に残すことが多い。本発明の別の目的は、二つの圧縮オーディオストリームの接合を可能にする改良アプローチを提供することである。
編集は通常非圧縮領域で行われ、その領域での編集は公知である。しかしその原資料が既にロシーエンコーディングされたオーディオ信号である場合には、単純なカット操作さえも完全な新たなエンコーディングを必要とし、これはタンデムなコーディングアーチファクトを生み出す結果となる。従って、タンデムデコーディング及びエンコーディング処理は避けるべきである。本発明の別の目的は、圧縮オーディオデータのカット操作を可能にする改良アプローチを提供することである。
本発明の別の側面は、保護されたデータ経路を必要とするシステム内の無効なオーディオサンプルを消去することである。保護されたメディア経路は、デジタル権利の管理を強化するために、また、システムの構成要素間の暗号化通信を使用することでデータのインテグリティを確実にするために使用される。これらのシステムにおいて、オーディオデータユニットの非連続的な持続期間が可能となった場合にのみ、この条件が満たされる。保護されたメディア経路内の信頼できる要素でしか、オーディオ編集処理を行うことができないからである。これらの信頼できる要素は、概して、デコーダとレンダリング素子だけである。
本発明の実施形態は、符号化オーディオデータの有効性に関する情報を与える方法を提供する。この符号化オーディオデータは、一連の符号化オーディオデータユニットであり、符号化オーディオデータユニットのそれぞれは、有効オーディオデータに関する情報を含み得る。この方法は、
一つのオーディオデータユニットの最初のデータ量が無効であることを示す符号化オーディオデータのレベルに関する情報を提供するか、
一つのオーディオデータユニットの最後のデータ量が無効であることを示す符号化オーディオデータのレベルに関する情報を提供するか、または、
一つのオーディオデータユニットの最初と最後のデータ量のどちらも無効であることを示す符号化オーディオデータのレベルに関する情報を提供することを含む。
本発明の別の実施形態は、データの有効性に関する情報を提供するエンコーダを提供し、このエンコーダは、データの有効性に関する情報を提供する方法を適用するよう構成されている。
本発明のさらに別の実施形態は、データの有効性に関する情報を含む符号化データを受信し、復号出力データを提供する方法を提供し、この方法は、
一つのオーディオデータユニットの最初のデータ量が無効であることを示す符号化オーディオデータのレベルに関する情報か、
一つのオーディオデータユニットの最後のデータ量が無効であることを示す符号化オーディオデータのレベルに関する情報か、または、
一つのオーディオデータユニットの最初と最後のデータ量のどちらも無効であることを示す符号化オーディオデータのレベルに関する情報を有する符号化データを受信することと、
無効であるとは示されていないサンプルのみを含むか、または、
符号化オーディオデータユニットの全てのオーディオサンプルを含ませ、データのどの部分が有効であるかを示す情報をアプリケーションに与えることを含む。
本発明のさらに別の実施形態は、符号化データを受信し、復号出力データを提供するデコーダを提供し、このデコーダは、
複数の符号化オーディオサンプルを含む一連の符号化オーディオデータユニットを受信する入力部であり、いくつかのオーディオデータユニットは、データの有効性に関する情報を含む符号化オーディオデータの受信方法に示されているようなフォーマットであるデータの有効性に関する情報を含むものを受信する入力部と、
入力部と接続され、データの有効性に関する情報を適用するよう構成されているデコーディング部と、
復号オーディオサンプルを提供する出力部であり、有効オーディオサンプルのみを提供するか、または復号オーディオサンプルの有効性に関する情報も提供する出力部を含む。
本発明の実施形態は、本発明の実施形態に係る方法のうちの少なくとも一つを実行するための指示を保存しているコンピュータ読み取り可能な媒体を提供する。
本発明は、オーディオサブシステム外にある現存のアプローチや遅延値とオリジナルデータの持続期間のみを与えるアプローチとは違い、データの有効性に関する情報を与える新規なアプローチを提供する。
本発明の実施形態は、圧縮及び非圧縮データを扱うオーディオエンコーダとデコーダ内で適用可能であるので、有利である。これにより、上述のように、オーディオエンコーダとデコーダ外でのオーディオ信号処理を必要とはせずに、システムが有効データのみを圧縮及び展開することが可能になる。
本発明の実施形態は、ファイルに基づくアプリケーションだけでなく、有効オーディオデータの持続期間が符号化の最初にはわからないストリームに基づくアプリケーションやライブアプリケーションのための有効データの信号伝達を可能にする。
本発明の実施形態によると、符号化ストリームは一つのオーディオデータユニットレベルに関する有効性情報を含み、オーディオデータユニットレベルは、MPEG−4 AACオーディオアクセスユニットであり得る。既存のデコーダとの互換性を保つために、この情報は、任意のもので、有効性情報を裏付けしないデコーダによっては無視されてもよいアクセスユニットの一部に入れられる。このような部分とは、MPEG−4 AACオーディオアクセスユニット拡張ペイロードである。本発明は、MPEG−1レイヤー3オーディオ(MP3)を含むほとんどの既存のオーディオコーディングスキームに適用可能であり、さらに、ブロックごとに動作し、及び/またはアルゴリズム遅延のある未来オーディオコーディングスキームにも適用可能である。
本発明の実施形態は、無効データの排除のための新規なアプローチを提供する。この新規なアプローチは、エンコーダ、デコーダ及びエンコーダまたはデコーダを組み込んでいるシステム層が入手可能な既に存在する情報に基づくものである。
HE AACデコーダのデュアルレートモードでの動作を示す。 システム層のエンティティとオーディオデコーダとの間の情報交換を示す。 第1実施形態に係る符号化オーディオデータの有効性に関する情報の提供方法の概略的なフロー図である。 ここでの教示の第2実施形態に係る符号化オーディオデータの有効性に関する情報の提供方法の概略的なフロー図である。 ここでの教示の第3実施形態に係る符号化オーディオデータの有効性に関する情報の提供方法の概略的なフロー図である。 ここでの教示の一実施形態に係るデータの有効性に関する情報を含む符号化データの受信方法の概略的なフロー図である。 ここでの教示の別の実施形態に係る符号化データの受信方法の概略的なフロー図である。 ここでの教示の一実施形態に係るエンコーダの入力/出力図である。 ここでの教示の別の実施形態に係るエンコーダの概略的な入力/出力図である。 ここでの教示の一実施形態に係るデコーダの概略ブロック図である。 ここでの教示の別の実施形態に係るデコーダの概略ブロック図である。
本発明に係る実施形態を、以下のような添付図面を参照して説明する。
図1は、アクセスユニット(AU)とそれに関連する合成ユニット(CU)に関するデコーダの動作を示す。デコーダはデコーダによって生成された出力を受信する「システムズ」と命名されたエンティティに接続されている。一例として、デコーダはHE−AAC(高性能高度オーディオコーディング)規格の下で機能すると仮定する。HE−AACデコーダは、基本的に、その後にSBR(スペクトルバンド減少)「後処理」段階を伴うAACデコーダである。SBRツールによってもたらされる付加的な遅延は、SBRツール内のQMFバンクとデータバッファによるものである。この遅延は以下の式によって導き出され得る。
Figure 0005719922
これは、(入力サンプリングレートつまりAACの出力サンプリングレートでの)SBRツールによってもたらされる遅延は、DelaySBR-TOOL=320−32+1+6×32=481個のサンプルであることを意味している。
SBRツールは通常「アップサンプリング」(または「デュアルレート」)モードで動作し、この場合、AACサンプリングレートでの481個のサンプル遅延はSBR出力レートにおいては962個のサンプル遅延となる。SBRツールはAAC出力と同じサンプリングレートでも動作可能であり(「ダウンサンプルSBRモード」と称される)、この場合、付加的な遅延はSBR出力レートで481個のサンプルのみである。SBRツールが無視され、AAC出力がデコーダ出力となる「下位互換性」モードがある。この場合には、付加的な遅延は全くない。
図1は、SBRツールがアップサンプリングモードで動作し、付加的な遅延が962個の出力サンプルである最も一般的な場合のデコーダ動作を示している。この遅延は、アップサンプリングされたAACフレーム(SBR処理後)の長さの約47%に相当する。T1は、962個のサンプル遅延後のCU1に関するタイムスタンプ、つまりHE−AAC出力の最初の有効サンプルのためのタイムスタンプである。HE−AACが「ダウンサンプルSBRモード」または「シングルレート」モードで動作している場合には、遅延は481個のサンプル分となるが、シングルレートモードにおいては、CUは半分のサンプル数であり、遅延はなおもCU期間の47%となるので、タイムスタンプは同じものとなることに留意すべきである。
可能な信号伝達メカニズム(例えば、暗黙的信号伝達、下位互換性明示的信号伝達または階層的明示的信号伝達)の全てにおいて、デコーダがHE−AACである場合には、SBR処理によって引き起こされた何らかの付加的な遅延をどうしてもシステムにもたらしてしまうか、さもなければ、デコーダからの表示の欠如がデコーダはAACであるということを示す。従って、システムは、この付加的なSBR遅延を補うために、タイムスタンプを調整することができる。
変換に基づくオーディオコーデックのためのエンコーダ及びデコーダがどのようにMPEGシステムと関連し、「コーディングアーチファクト」、特にコーデック拡張部分に存在するコーディングアーチファクトを除いて、エンコーダとデコーダ間を往復した後の信号の識別を確実に行うための付加的なメカニズムをどのように提案するかについて、以下に説明する。以下に説明する技術を用いることにより、システムの観点からの予測的動作が可能となり、通常はエンコーダの動作を説明するのに必要な特許権のある「ギャップのない」信号伝達を追加的に行う必要性を排除することも可能となる。
この明細書において、以下の規格を参考にする。
(1)ISO/IEC TR 14496−24:2007:情報技術−オーディオ/ビジュアル・オブジェクトのコーディング−パート24:オーディオとシステムの相互作用
(2)ISO/IEC 14496−3:2009:情報技術−オーディオ/ビジュアル・オブジェクトのコーディング−パート3:オーディオ
(3)ISO/IEC 14496−12:2008:情報技術−オーディオ/ビジュアル・オブジェクトのコーディング−パート12:ISOベースメディアファイルフォーマット
ここで、(1)を簡単に説明する。基本的に、AAC(改良オーディオコーディング)とその後継機HE−AAC、HE−AACv2は、圧縮データと非圧縮データとの間の一対一の対応がないコーデックである。エンコーダは、非圧縮データの最初と最後にオーディオサンプルを追加し、非圧縮のオリジナルデータをカバーするアクセスユニットに加えて、これらの追加サンプルの圧縮データを有するアクセスユニットを生成する。そして、規格対応デコーダは、エンコーダによって追加された付加的なサンプルを含む非圧縮データストリームを生成することになる。
(1)は、(3)のISOベースメディアファイルフォーマットの現存のツールが、(コーデックアーチファクトに加えて)オリジナルの非圧縮ストリームの再生のために、展開データの有効範囲にマークを付けるのにどのように再使用できるかについて説明している。このマーキングは、デコーディング処理後の有効範囲を含む入力と共に編集リストを使用することによって実行できる。
この解決策は間に合わなかったので、有効期間をマーキングするための特許権のある解決策が今や広く使用されている(例を二つ挙げると、Apple iTunesとAhead Neroである)。(1)で提案されている方法はあまり実用的ではなく、編集リストは元々別の(複雑であるかもしれない)目的のためのものであり、この目的のために、ほんのいくつかの実施態様が可能であるだけである。
さらに、(1)は、データのプリロールがISO FF(ISOファイルフォーマット)サンプルグループ(3)を使用することでどのように取り扱われ得るかについて示している。プリロールは、どのデータが有効であるかをマークしているわけではないが、任意の時点でのデコーダ出力の前にいくつのアクセスユニット(またはISO FFの用語体系におけるサンプル)がデコーダされるべきであるかを示している。AACの場合には、MDCT領域での重複ウィンドウにより、これは常に先立つ1個のサンプル(つまり一つのアクセスユニット)であり、プリロールの値は全てのアクセスユニットに関して−1である。
本発明の別の側面は、多くのエンコーダの付加的な予見能力に関するものである。付加的な予見能力は、例えばリアルタイム出力を生成しようとするエンコーダ内においては、その内部の信号処理によって決まる。付加的な予見能力を考慮するための一つの選択肢として、編集リストをエンコーダの予見遅延のためにも使用してもよい。
前述したように、編集リストツールの元々の目的はメディア内での元々の有効範囲をマークすることであったかどうかについては疑問である。(1)は、編集リストを使用してファイルをさらに編集することについては何も記載しておらず、従って、(1)の目的のために編集リストを使用することは幾分かの脆弱さをもたらすことになると考えられる。
ちなみに、特許権のある解決策とMP3オーディオのための解決策は全て、前述したNeroとiTunesに非常によく似た、付加的な端から端までの遅延とオリジナルの非圧縮オーディオデータの長さを規定するものであり、(1)において編集リストが何のために使用されるのかを規定するものであった。
概して、(1)はリアルタイムストリーミングアプリケーションの正しい動作については何も述べてはいない。リアルタイムストリーミングアプリケーションは、MP4ファイルフォーマットを使用しないが、オーディオとビデオを正確に同期させるためにタイムスタンプが必要であり、しばしば非常に処理能力の低いモードで動作する。そこでは、タイムスタンプが誤って設定されていることがよくあり、全てを同期状態に戻すためにデコーディング装置においてノブが必要となる。
以下、MPEG−4オーディオとMPEG−4システムズとの間の相互作用をより詳細に説明する。
システムズのインターフェースからオーディオデコーダに送られた全てのアクセスユニットは、オーディオデコーダからシステムズのインターフェース、つまり合成器に送られた対応する合成ユニットという結果となるべきである。これは、スタートアップ状態とシャットダウン状態、つまりそのアクセスユニットが限りある一連のアクセスユニットのうちの最初または最後のものである場合を含むことになる。
オーディオ合成ユニットに関して、ISO/IEC14496−1の節7.1.3.5合成タイムスタンプ(CTS)は、合成時間は合成ユニット内のn番目のオーディオサンプルに当てはまることを述べている。nの値は、この説の残りの部分で違うように規定されていなければ、1である。
圧縮データに関して、様々な異なるデコーダ構成により復号され得るHE−AAC符号化オーディオと同様に、特別な注意が必要である。この場合、デコーディングは下位互換性のある方法(AACのみ)でも改良された方法(AAC+SBR)でも可能である。合成タイムスタンプが確実に正確に取り扱われる(オーディオと他のメディアとの同期性が保たれるように)ためには、以下のことが当てはまる。
・圧縮データが、下位互換性デコーディングと改良デコーディングの両方が可能なものであり、デコーダが下位互換性のある方法で動作している場合、デコーダは何の特別な動作もする必要がない。この場合、nの値は1である。
・圧縮データが、下位互換性デコーディングと改良デコーディングの両方が可能なものであり、デコーダが何らかの付加的な遅延を導入するような後処理装置(例えばHE−AACにおけるSBR後処理装置)を使用するような改良方法で動作している場合、合成ユニットを示す際に、下位互換性モードと比べて起こるnの値に相応する付加的な時間遅延を確実に考慮しなければならない。nの値は以下の表に規定されている。
Figure 0005719922
オーディオとシステムズとの間のインターフェースの説明は、今日のほとんどの使用例をカバーして、高い信頼性で動作していることを証明している。しかし注意深く見ると、以下の二つの点については何も述べられてはいない。
・多くのシステムにおいては、タイムスタンプの原点は0である。例えばAACは一つのアクセスユニットという生来の最小限のエンコーダ遅延を有し、タイムスタンプ0のアクセスユニットの前に一つのアクセスユニットが必要であるにもかかわらず、プリロールアクセスユニットの存在を想定していない。MP4ファイルフォーマットに関して、この問題に対する解決策が(1)で説明されている。
・フレームサイズの期間が整数でない場合がカバーされていない。AudioSpecificConfig()構造は、AACのための例えば960や1024というフィルターバンク長さを説明するわずかなフレームサイズセットの信号伝達を可能にする。しかし、実在のデータは、概して、固定のフレームサイズのグリッドに適合せず、従って、エンコーダは最後のフレームを長くしなければならない。
これら二つの置き去りにされた点は、最近、二つのAACストリームの接合またはエンコーダとデコーダ間の往復後の有効サンプル範囲の回復(特にMP4ファイルフォーマットがない場合)及び(1)に説明されている方法を必要とする改良マルチメディアアプリケーションの出現とともに、問題となっている。
前述の問題点を解決するためには、プリロール、ポストロールそして他の全ての原因を的確に説明しなければならない。さらに、サンプルごとに正確なオーディオ表現を得るためには、フレームサイズの整数倍ではない倍数のためのメカニズムが必要である。
プリロールは、デコーダがデータを完全に復号するのに、最初に必要なものである。一例として、(1)に記載されているように、重複加算処理の出力サンプルが望ましいオリジナル信号を表すために、AACは、一つのアクセスユニットのデコーディングの前に1024個のサンプル(1個のアクセスユニット)のプリロールを必要とする。他のオーディオコーデックにも様々なプリロール条件がある。
ポストロールはプリロールと同様のものであるが、一つのアクセスユニットのデコーディング後により多くのデータをデコーダに送らなければならないという違いがある。ポストロールの原因は、上記の表に示されているように、アルゴリズム遅延と引き換えに、コーデックの効率を上げるコーデック拡張部にある。デュアルモードでの動作が望まれることがよくあるので、拡張部のないデコーダが符号化データを十分に利用できるように、プリロールは一定に保たれる。従って、プリロールとタイムスタンプは古いデコーダの能力に関連するものである。オリジナル信号の全体的な表現を再現するためには内在する遅延ラインを洗い流さなければならないので、これらの拡張部を支持するデコーダのためにもポストロールが必要となる。残念なことに、ポストロールはデコーダに依存している。しかし、プリロールとポストロールの値がシステム層にとっても明らかであり、プリロールとポストロールのデコーダの出力をそこで排除できるならば、プリロールとポストロールをデコーダとは関係なく取り扱うことができる。
様々なオーディオフレームサイズに関して、オーディオコーデックは常に一定の個数のサンプルを有するデータブロックを符号化するので、サンプルごとに正確な表現は、システムズのレベルでさらに信号伝達することによってのみ可能となる。サンプルごとに正確なトリミングを扱うことはデコーダにとっては最も簡単であるので、デコーダに信号をカットさせることが望ましいように思える。従って、デコーダによる出力サンプルのトリミングを可能とする任意の拡張メカニズムを提案する。
ベンダー独自のエンコーダ遅延に関して、MPEGはデコーダの動作を特定するだけであり、エンコーダには非公式に与えられるだけである。これはMPEG技術の利点のうちの一つであり、これにより、エンコーダはそのうちコーデックの能力を十分に利用できるようになる。しかし、エンコーダの設計自由度は遅延相互運用性問題を引き起こした。エンコーダは、一般的に、より高性能なコーディング決定を行うためにはオーディオ信号のプレビューを必要とするので、これは非常にベンダー独自のものである。このエンコーダ遅延の理由は例えばブロック切り換え決定であり、これは、大抵はリアルタイムエンコーダに関連しているウィンドウ重複処理や他の最適化処理を遅延させることが必要となる。
オフラインで入手可能な内容のファイルに基づくエンコーディングでは、リアルタイムデータが符号化される場合にのみ関係するこの遅延を必要とはしないが、それにもかかわらず、ほとんどのエンコーダはオフラインエンコーディングの最初にも無音期間を付け加える。
この問題に対する解決策の一部は、これらの遅延が無関係であり例えば負のタイムスタンプ値を有するように、システムズの層でタイムスタンプを正確に設定することである。これも、(1)で提案されているように、編集リストで達成できる。
この解決策の他の一部は、エンコーダ遅延をフレームの境界部分にそろえることであり、これにより、例えば負のタイムスタンプを有する整数個のアクセスユニットが最初に(プリロールアクセスユニットに加えて)飛ばされる。
ここでの教示は工業基準ISO/IEC14496−3:2009第4部、段落4.1.1.2にも関連している。ここでの教示は以下のことを提案している。ポストデコーダトリミングツールが存在している場合には、そのツールが再生されたオーディオ信号の一部を選択し、その結果、二つのストリームが符号化領域で接合され、サンプルごとに正確な再生がオーディオ層内で可能となる。
ポストデコーダトリミングツールへの入力は以下のものである。
・時間領域再生オーディオ信号
・ポストトリミング制御情報
ポストデコーダトリミングツールからの出力は以下のものである。
・時間領域再生オーディオ信号
ポストデコーダトリミングツールが動作していない場合には、時間領域再生オーディオ信号はデコーダの出力側に直接送られる。このツールは、いかなるオーディオコーディングツールの後にでも適用できる。
下記の表に、ここでの教示を実施するために使用できるデータ構造extension_payload()のシンタックス案を示す。
Figure 0005719922
Figure 0005719922
下記の表に、ここでの教示を実施するために使用できるデータ構造trim_info()のシンタックス案を示す。
Figure 0005719922
ポストデコーダトリミングに関して以下のように定義する。
custom_resolution_present
custom_resolutionが存在するかどうかについて示すフラグ
custom_resolution
トリミング処理に使用されるHzに関するカスタム分解能。オーディオ信号のマルチレート処理が可能であり、トリミング処理が最高で適切な分解能で行われる必要がある場合、カスタム分解能に設定することが好ましい。
trim_resolution
デファルト値は、ISO/IEC14496−3:2009の表1でsmaplingFrequencyまたはsmaplingFrequencyIdxによって示されているような公称サンプリング周波数である。custom_resolution_presentフラグがセットされている場合は、ポストデコーダトリミングツールの分解能はcustom_resolutionの値である。
trim_from_beginning(NB
合成ユニットの最初の部分から除去されるべきPCMサンプルの個数。この値は、trim_resolutionレートでのオーディオ信号に関してのみ有効である。trim_resolutionが時間領域入力サンプルのサンプリング周波数と同じでない場合には、この値は以下の式に基づき適切に増減する必要がある。
B=下限(NB:sampling_frequency/trim_resolution)
trim_from_end(NE
合成ユニットの最後の部分から除去されるべきPCMサンプルの個数。trim_resolutionが時間領域入力サンプルのサンプリング周波数と同じでない場合には、この値は以下の式に基づき適切に増減する必要がある。
E=下限(NE:sampling_frequency/trim_resolution)
別の可能なストリームミキシングアルゴリズムにおいては、シームレスな(信号断絶の恐れがない)接合を考慮してもよい。この問題は非圧縮PCMデータにも当てはまり、ここでの教示には関係しない。
カスタム分解能の代わりに、パーセンテージもまた適切であってもよい。あるいは、最も高いサンプリングレートを使用してもよいが、これはデュアルレート処理やトリミングを支持するがデュアルレート処理を支持しないデコーダと矛盾するかもしれない。従ってデコーダの実施態様に依存する解決策が好ましく、カスタムトリミング分解能はふさわしいものであったと思われる。
デコーディング処理に関して、一つのアクセスユニットの全てのデータが処理された後に(例えばDRC、SBR、PSなどの拡張が行われた後に)、ポストデコーダトリミングが行われる。このトリミングはMEPG−4システムズの層では行われない。しかし、アクセスユニットのタイムスタンプと期間の値は、トリミングが行われるという仮定に合致したものであるべきである。
処理拡張による追加遅延が全く起こらなかった場合には、トリミングは情報のみを伝えるアクセスユニットに対して行われる。これらの拡張が所定の位置にあり、デコーダ内で使用される場合、トリミング処理の適用は任意の拡張の遅延分だけ遅れる。従って、トリミング情報はデコーダ内に記憶されていなければならず、他のアクセスユニットはシステムズの層によって与えられなければならない。
デコーダが二つ以上のレートで動作可能である場合、最も高いレートでのトリミング処理のためのカスタム分解能を使用することが好ましい。
トリミングにより信号断絶が起こるかもしれず、これは信号歪曲を引き起こす可能性がある。従って、エンコーディング全体の最初または最後に、トリミング情報をビットストリームに入れることだけが必要である。二つのストリームが接合される場合、二つの出力時間領域信号が断絶することなく組み合わされるように、trim_from_endとtrim_from_biginningの値を注意深く設定するエンコーダを除いては、これらの断絶を避けることはできない。トリミングされたアクセスユニットにより、思いがけない計算要件が必要となるかもしれない。多くの実施態様において、一定の持続期間を有するアクセスユニットに対して一定の処理時間が前提であるが、これは、トリミングにより持続期間が変化するが、アクセスユニットのための計算要件がそのままである場合には、もはや有効ではない。従って、計算資源が制約されているデコーダを前提とすべきであり、従って、トリミングはめったに行われるべきではない。好ましくは、[ISO/IEC14496−24:2007添付書類B.2.]に説明されているように、トリミングがアクセスユニットの境界部分に位置合わせされるように、そして、エンコーディングの最後の部分のトリミングだけが行われるように、データを符号化すべきである。
ここでの教示はまた工業基準ISO/IEC14496−24:2007に関連する。ここでの教示によると、サンプルごとに正確なアクセスのためのオーディオデコーダインターフェースに関連して、以下のことが提案されている。オーディオデコーダは常に一つのアクセスユニットから一つの合成ユニットを生成する。一つのエンコーダによる一組のアクセスユニットに対するプリロールとポストロールのアクセスユニットの必要数量は一定である。
デコーディング処理が開始されると、デコーダはAuduioSpecificConfig(ASC)で初期化される。デコーダがこの構造を処理した後、デコーダから最も関連性のあるパラメータを要求することができる。さらに、システムズの層は、オーディオであろうとビデオであろうとあるいは他のデータであろうと、一般的にストリームの種類とは無関係なパラメータを送信する。これはタイミング情報、プリロール及びポストロールデータを含む。一般的に、デコーダは、要求されたサンプルを含むアクセスユニットの前にrpre(プリロール)アクセスユニットを必要とする。さらに、rpost(ポストロール)アクセスユニットも必要であるが、これはデコーディングモードによって決まる(拡張部をデコーディングするにはポストロールアクセスユニットが必要であるが、基本的なデコーディング処理は、ポストロールアクセスユニットを必要としないと規定されている)。
デコーダのために、各アクセスユニットには、それがプリロールアクセスユニットであるかポストロールアクセスユニットであるかに関するマーキングを施されるべきであり、それぞれのマーキングにより、デコーダは、次のデコーディングのために、内部状況情報を生成するかデコーダ内に残っているデータをきれいにすることができる。
システムズの層とオーディオデコーダとの間の通信を図2に示す。
オーディオデコーダは、AudioSpecificConfig()構造を有するシステムズの層によって初期化され、AudioSpecificConfig()構造は、デコーダのシステムズの層への出力構成となり、サンプル周波数、チャンネル構成(例えばステレオのための2)、フレームサイズn(例えばAAC−LCの場合には1024)及びSBRのような明示的に信号伝達されたコーデック拡張部による追加遅延dに関する情報を含む。特に、図2は以下のような動作を示している。
1.最初のrpre(プリロール)アクセスユニットがデコーダに与えられ、これはシステムズの層によるデコーディングの後に暗黙のうちに廃棄される。
2.最初のプリロールではないアクセスユニットは、デコーダがa個のPCMサンプルのみを出力するように、EXT_TRIMタイプの拡張ペイロード内にtrim_from_biginning情報を含んでいてもよい。また、任意のコーデック拡張によって生成された余分なd個のPCMサンプルは消去されなければならない。
実施態様に応じて、他の全ての並列的なストリームをdだけ遅延させるか、あるいは、最初のd個のサンプルを無効なものとしてマーキングし、レンダリングの際にまたは好ましくはデコーダ内でそれらの無効サンプルを消去するというような適切な処理を行うことにより、これを実行してもよい。
推奨通り、d個のサンプルの消去がデコーダ内で行われる場合には、システムズの層は、6番目のステップで述べられているように、rpostアクセスユニットの消費後に、a個のサンプルを含む最初の合成ユニットのみがデコーダによって与えられ得ることを承知している必要がある。
3.そして一定の持続期間nを有する全てのアクセスユニットが復号され、合成ユニットがシステムズの層に与えられる。
4.デコーダがb個のPCMサンプルのみを生成するように、ポストロールアクセスユニットの前のアクセスユニットは任意にtrim_from_end情報を含んでいてもよい。
5.足りないd個のPCMサンプルを生成できるように、最後のrpost(ポストロール)アクセスユニットがオーディオデコーダに与えられる。dの値(0であってもよい)により、これは全くサンプルを含まない合成ユニットとなる場合もある。追加遅延dの値に関係なく、デコーダが全く初期化しないように、全てのポストロールアクセスユニットをデコーダに与えることが好ましい。
エンコーダは、一貫性のあるタイミング動作をすべきである。rpre(プリロール)アクセスユニットのデコーディング後に、オリジナルの入力信号が冒頭部分の欠損がなく、先頭部分のサンプルのないものとなるように、エンコーダは入力信号を整列させるべきである。特にファイルに基づくエンコーダ処理の場合には、エンコーダが付加的に先読みしたサンプルと追加挿入された無音サンプルがオーディオフレームサイズの整数倍であり、エンコーダの出力側で廃棄され得ることが必要となる。
このような配列が不可能である場合、例えばリアルタイムのオーディオエンコーディングの場合には、偶然に挿入された先読みサンプルをデコーダがポストデコーダトリミングツールを使用して消去できるように、エンコーダはトリミング情報を挿入すべきである。同様に、エンコーダは最後のサンプルに関してポストデコーダトリミング情報を挿入すべきである。これらは、最後のrpost(ポストロール)アクセスユニットの前のアクセスユニット内で信号伝達されるべきである。
エンコーダにセットされるタイミング情報は、ポストデコーダタイミングツールが使用可能であるという仮定で設定されるべきである。
図3は、第1実施形態に係る、符号化オーディオデータの有効性に関する情報を提供する方法の概略的なフロー図である。この方法は302での動作を含み、それによると、オーディオデータユニットの最初のデータ量は無効であることを示す情報が提供される。この提供された情報は、懸案の符号化オーディオデータ内に挿入されてもよいしまたはそれと結合されてもよい。そのデータ量は、サンプル数(例えばPCMサンプル数)、マイクロ秒、ミリ秒、またはその符号化オーディオデータユニットによって与えられるオーディオ信号部分の長さに対するパーセンテージとして示されてもよい。
図4は、ここでの教示の第2実施形態に係る、符号化オーディオデータの有効性に関する情報を提供する方法の概略的なフロー図である。この方法は402での動作を含み、それによると、オーディオデータユニットの最後のデータ量は無効であることを示す情報が提供される。
図5は、ここでの教示の第3実施形態に係る、符号化オーディオデータの有効性に関する情報を提供する方法の概略的なフロー図である。この方法は502での動作を含み、それによると、オーディオデータユニットの最初と最後のどちらのデータ量も無効であることを示す情報が提供される。
図3〜5に示された実施形態において、オーディオデータユニット内のデータ量が無効であることを示す情報は、符号化オーディオデータを生成するエンコーディング処理部から取得してもよい。オーディオデータの符号化の間に、エンコーディングアルゴリズムは、符号化されるべきオーディオ信号の境界部(最初または最後)を越えて拡張したオーディオサンプルの入力範囲を考慮してもよい。一般的なエンコーディング処理において、複数のオーディオサンプルが「ブロック」または「フレーム」にまとめられ、実際のオーディオサンプルで完全に埋められてはいないブロックまたはフレームは、典型的には0の大きさを有する「ダミー」のオーディオサンプルで満たされてもよい。このエンコーディングアルゴリズムに関して、このことは、入力データは常に同じように整理され、そのアルゴリズム内でのデータ処理は、境界部分(最初または最後)を含む処理後のオーディオデータに依存して修正される必要がないという利点をもたらす。換言すれば、入力データは、データの構成と大きさに関して、エンコーディングアルゴリズムの必要条件に合っている。典型的には、入力データの状態を調整すると、本質的に、出力データの構造がそれに対応するものとなる。つまり、出力データは入力データの調整を反映する。従って、出力されたデータはオリジナルの入力データ(調整前の)とは異なってしまう。0の大きさのサンプルがオリジナルの入力データに追加されただけであるので、この違いは一般的には聞こえない。しかし、この状態調整はオリジナルなオーディオデータの持続期間を修正するものであり、典型的には、オリジナルのオーディオデータを無音部分の長さだけ伸長させるものである。
図6は、ここでの教示の一実施形態に係る、データの有効性に関する情報を含む符号化データを受信する方法の概略的なフロー図である。この方法は、符号化データを受信する動作602を含む。この符号化データは無効データ量を示す情報を含む。少なくとも三つの場合を区別することができる。つまり、この情報は、オーディオデータユニットの最初のデータ量が無効であること、オーディオデータユニットの最後のデータ量が無効であること、また、オーディオデータユニットの最初と最後のデータ量が無効であることを示し得る。
符号化データの受信方法の604の動作で、無効であるとマークされていないサンプルのみを含む復号出力データが与えられる。この符号化データの受信方法を実行する装置の下流での復号出力データの使用者は、シングルサンプルのような出力データの部分ごとの有効性という問題に対応する必要なく、与えられた復号出力データを使用できる。
図7は、ここでの教示の別の一実施形態に係る、データの有効性に関する情報を含む符号化データを受信する方法の概略的なフロー図である。符号化データは702の動作で受信される。704の動作で、符号化オーディオデータユニットの全てのオーディオサンプルを含む復号出力データが、例えばこの復号出力データを使用する下流のアプリケーションに与えられる。さらに、706の動作で、復号出力データのどの部分が有効であるかに関する情報が与えられる。そして、復号出力データを使用するアプリケーションは、例えば、無効データを取り払い、有効データの連続する部分同士を連結させてもよい。このようにして、復号出力データはこのアプリケーションによって人工的な無音部分を含まないように処理され得る。
図8は、ここでの教示の一実施形態に係るエンコーダ800の入力/出力図である。エンコーダ800はオーディオデータ、例えばPCMサンプルのストリームを受信する。そしてオーディオデータは、ロスレスエンコーディングアルゴリズムまたはロシーエンコーディングアルゴリズムを使用して符号化される。この実施の間、そのエンコーディングアルゴリズムは、エンコーダ800の入力部で与えられたオーディオデータを変更しなければならない場合もある。オリジナルのオーディオデータをエンコーディングアルゴリズムの条件に合わせるために、このような変更を行う場合もある。前述したように、オリジナルのオーディオデータの典型的な変更は、オリジナルオーディオデータが整数個のフレームまたはブロック内に収まるように、及び/または最初の本当のオーディオサンプルが処理される前にエンコーディングアルゴリズムが適切に初期化されるように、オーディオサンプルを追加挿入することである。実行された変更に関する情報は、エンコーディングアルゴリズムからまたは入力オーディオデータの状態調整を行うエンコーダ800の構成要素から得られてもよい。この変更情報から、一つのオーディオデータユニットの最初及び/または最後の情報量が無効であることを示す情報が導き出され得る。エンコーダ800は、例えば、エンコーディングアルゴリズムまたは入力オーディオデータ状態調整部によって無効であるとマーキングされたサンプルの個数を数えるカウンターを含んでいてもよい。オーディオデータユニットの最初及び/または最後の情報量が無効であることを示す情報は、符号化データと共に、エンコーダ800の出力側で出力される。
図9は、ここでの教示の別の実施形態に係るエンコーダ900の概略的な入力/出力図である。図8に示されているエンコーダ800と比較して、図9のエンコーダ900の出力は異なるフォーマットのものである。エンコーダ900によって出力される符号化オーディオデータは、符号化オーディオデータユニット922のストリームまたは一連のものとしてフォーマットされる。それぞれの符号化オーディオデータユニット922と共に、有効性情報924がそのストリームに含まれる。一つの符号化オーディオデータユニット922とそれに対応する有効性情報924が、改良符号化オーディオデータユニット920と見なされ得る。有効性情報924を使用して、改良符号化オーディオデータユニット920のストリームの受信機はこの符号化オーディオデータユニット922を復号してもよく、有効データであるとマークされた部分だけを使用してもよい。「改良符号化オーディオデータユニット」という言葉は、そのフォーマットが非改良符号化オーディオデータユニットとは違っているということを必ずしも示唆しているわけではないことに留意すべきである。例えば、有効性情報は、符号化オーディオデータユニットの現在使用されていないデータ域に記憶されてもよい。
図10は、ここでの教示の一実施形態に係るデコーダ1000の概略的なブロック図である。デコーダ1000は、符号化オーディオデータユニットをデコーディング部1004に送る入力部1002で、符号化データを受信する。符号化オーディオデータの有効性に関する情報の提供方法またはそれに相当するエンコーダに関して前に説明したように、符号化データはデータの有効性に関する情報を含む。デコーダ1000の入力部1002は、データの有効性に関する情報を受信するよう構成されていてもよい。この特徴は、入力部1002に向かう点線の矢印で示しているように、任意である。さらに、入力部1002は、データの有効性に関する情報をデコーディング部1004に与えるように構成されていてもよい。この特徴もまた任意である。入力部1002は、単にデータの有効性に関する情報をデコーディング部1004に送るだけのものであってよいし、あるいは、データの有効性に関する情報を含む符号化データからデータの有効性に関する情報を抽出するものであってよい。データの有効性に関する情報を扱う入力部1002に代わるものとして、デコーディング部1004がこの情報を抽出し、無効データをフィルタリングするためにそれを使用してもよい。デコーディング部1004はデコーダ1000の出力側1006に接続されている。有効な復号オーディオサンプルはデコーディング部1004によって出力部1006に転送または送信され、出力部1006は、有効オーディオサンプルを、オーディオレンダラーのような下流にあるその有効オーディオサンプルの使用者のエンティティに与える。下流の使用者のエンティティは、データの有効性に関する情報の処理に関してわかっている。デコーディング部1004と出力部1006のうちの少なくとも一つは、無効オーディオサンプルが下流の使用者のエンティティに提供されるべきオーディオサンプルストリームから除去された場合でも、いかなるギャップも起こらないように、有効オーディオサンプルを配列するよう構成されていてもよい。
図11は、ここでの教示の別の実施形態に係るデコーダ1100の概略的なブロック図である。デコーダ1100は入力部1102とデコーディング部1104と出力部1106を含む。入力部1102は符号化データを受信し、符号化データユニットをデコーディング部1104に送る。図10に示したデコーダ1000に関して述べたように、入力部1102は任意に有効性情報を別に受信してもよく、この有効性情報はその後デコーディング部1104に送られてもよい。デコーディング部1104は符号化オーディオデータユニットを復号オ−ディオサンプルに変換し、これらを出力部1106へ送る。また、デコーディング部はデータの有効性に関する情報も出力部1106へ送る。データの有効性に関する情報が入力部1102によってデコーディング部1104に与えられなかった場合には、デコーディング部1104は自身でデータの有効性に関する情報を決定してもよい。出力部1106は復号オーディオサンプルとデータの有効性に関する情報を下流の使用者のエンティティに送る。
下流の使用者のエンティティはその後データの有効性に関する情報そのものを使用してもよい。デコーディング部1104によって生成され出力部1106によって与えられた復号オーディオサンプルは、概して、全ての復号オーディオサンプル、つまり、有効オーディオサンプルと無効オーディオサンプルを含む。
符号化オーディオデータの有効性に関する情報の提供方法は、無効オーディオデータのデータ量を決定するために、様々な情報を使用してもよい。また、エンコーダもこれらの情報を使用してもよい。以下に、この目的のために使用できるいくつかの種類の情報(プリロールデータ量、エンコーダによって追加された追加人工データ量、オリジナルの非圧縮入力データの長さ及びポストロール量)について説明する。
重要な情報のうちの一つはプリロールデータ量であり、これはオリジナルの非圧縮データの最初に相当する圧縮データユニットの前に復号されなければならない圧縮データの量である。例として、一組の非圧縮データユニットのエンコーディングとデコーディングを説明する。フレームサイズが1024個のサンプルであり、プリロール量も1024個のサンプルであるとすると、2000個のサンプルから成る一組のオリジナル非圧縮PCMオーディオデータは3つの符号化データユニットとして符号化される。最初の符号化データユニットは、1024個のサンプル分の持続期間を有するプリロールデータとなる。2番目の符号化データユニットは、(他のいかなるエンコーディングアーチファクトもないと仮定して)ソース信号のオリジナルの1024個のサンプルとなる。3番目の符号化データユニットは1024個のサンプルであり、これらは、ソース信号の残りの976個のサンプルとフレーム粒度によってもたらされる48個の最後に付随するサンプルから成る。MDCT(修正離散余弦変換)またはQMF(直交ミラーフィルター)を使用するようなコーディング方法の特性のために、プリロールを回避することはできず、デコーダがオリジナル信号全体を再生するためには不可欠である。従って、このような場合には、一般人が考えるよりも常に一つ多い圧縮データユニットが必要である。プリロールデータ量はコーディングにより異なり、一つのコーディングモードのためには固定であり、経時的に一定である。従って、これは、ランダムにアクセスする圧縮データユニットのためにも必要である。プリロールはまた、非圧縮入力データに相当する復号非圧縮出力データを得るためにも必要である。
別の重要な情報は、エンコーダによって追加された追加人工データ量である。この追加データは、典型的には、ショートフィルターバンクからロングフィルターバンクへの切り換えというような、エンコーディングに関するより良い決定のために、エンコーダ内で未来のサンプルを予見することから生じる。エンコーダだけがこの先読み値をわかっており、この値は、経時的には一定であるが、同じコーディングモードに関してある特定のベンダーのエンコーダ実施態様間で違いがある。デコーダがこの追加データの長さを検知することは難しく、しばしば発見的解決法が使用される。例えば、あるエンコーダが他のいくつかの発見的解決法によって検知される場合には、最初の無音の量が追加エンコーダ遅延またはマジック値であると見なされる。
エンコーダだけが取得可能な次の情報は、オリジナルの非圧縮入力データの長さである。上記の例では、48個の最後の付随サンプルはオリジナルの入力非圧縮データには存在しなかったが、デコーダによって生成されるものである。その理由はフレーム粒度にあり、これはコーデックによって決まる値である。MPEG−4 AACの場合の典型的な値は1024または960であり、従って、エンコーダは、フレームサイズのグリッドに適合させるために常にオリジナルデータを長くする。現存する解決策においては、概して、プリロールと追加人工的データから生じる冒頭の追加サンプルの合計とソースオーディオデータの長さを含むシステムレベルに関するメタデータを追加する。しかし、この方法は、エンコーディングの前に持続期間がわかっているファイルに基づく処理のみで有効である。また、ファイルに対する編集が行われた場合にはメタデータを更新しなければならないという不利な点がある。別のアプローチは、システムレベルでタイムスタンプまたは持続期間を使用することである。しかし悪いことに、これらを使用しても、データのどちらの半分が有効であるのかを明確に規定することができない。さらに、一般的に、トリミングはシステムレベルでは実行できない。
最後に、もう一つ別の情報は次第に重要になってきたものであるが、ポストロール情報量である。ポストロールは、符号化データユニットの後にどれくらいの量のデータがデコーダに与えられるべきかを規定し、デコーダが非圧縮オリジナルデータに相当する非圧縮データを出力できるようにするためのものである。一般的に、ポストロールとプリロールは互いに交換可能である。しかし、ポストロールとプリロールの合計は、全てのデコーダモードで一定であるわけではない。[ISO/IEC14496−24:2007]のような現在の規格では、全てのデコーダモードに対して固定のプリロールを想定しており、ポストロールに関しては何も述べずに、ポストロールと同じ値を有する追加遅延を規定する方を取っている。[ISO/IEC14496−24:2007]の図4に示されてはいるが、最後の符号化データユニット(MPEG用語ではアクセスユニット(AU))は任意であり、実際、低レートのデコーダのデュアルレート処理と二倍のレートの拡張部のためだけに必要なポストロールアクセスユニットであるということを述べていはいない。ポストロールの存在下で無効データを除去する方法を定義することもまた、本発明の一実施形態である。
上記の情報は、例えばMP4ファイルフォーマット[ISO/IEC14496−14]で、MPEG−4 AACのための[ISO/IEC14496−24:2007]で部分的に使用される。そこでは、いわゆる編集において符号化データに関するオフセットと有効期間を規定することにより、符号化データの有効部分をマークするために、いわゆる編集リストが使用される。また、プリロール量はフレーム粒度に関して規定できる。この解決策の欠点は、オーディオコーディングに特有の問題を解決するために編集リストを使用することである。これは、これまでの、データ変更をしない一般的な非直線的編集を規定するために編集リストを使用することとは矛盾している。従って、オーディオ特有の編集と一般的な編集との区別が難しくあるいは不可能にさえもなる。
適用可能な別の解決策は、mp3またはmp3Proでオリジナルのファイル長さを回復する方法である。そこでは、コーデック遅延とファイルの全体の期間が最初の符号化オーディオデータユニットに与えられている。これは悪いことに、ファイルに基づく処理、または、ストリームの全体の長さが、エンコーダが最初の符号化オーディオデータユニットを生成する際にすでに分かっている(この情報はそこに含まれるので)場合にのみ、有効であるという問題がある。
これらの現存の解決策の問題点を解決するために、本発明の実施形態においては、符号化オーディオデータ内に、エンコーダから出力されたデータの有効性に関する情報を入れる。この情報は、関連する符号化オーディオデータユニットに添付される。従って、最初の人工的な追加データは無効データとしてマークされ、フレームを埋めるために使用された最後のデータもまた削除されるべき無効データとしてマークされる。本発明の実施形態によると、このマーキングにより、一つの符号化データユニット内の有効データと無効データとの区別が可能になる。これにより、デコーダが無効データを出力する前にその無効データを消去できるようになる。あるいは、他の処理装置で適切な処置が行えるように、デコーダは例えばその符号化データユニット内の表現と同様の方法で、そのデータにマーキングができる。他の関連データ(プリロール及びポストロール)はシステム内で規定され、エンコーダとデコーダの両方が理解しているものであるので、所定のデコーダモードに対するこれらの値は明らかである。
従って、ここでの開示の一側面によると、時間可変データと時間不変データとの区別が可能になる。時間可変データは、最初の部分にのみ存在する人工的な追加データと、フレームを埋めるために使用された最後のデータに関する情報から成る。時間不変データは、プリロールデータとポストロールデータから成り、従って、符号化オーディオデータユニットで送信される必要はないが、帯域外で送信されるべきものである。あるいは、これらのデータは、所定のオーディオコーディングスキームに関するデコーダ構成記録から導き出され得るデコーディングモードで前もってわかるものである。
さらに、符号化オーディオデータユニットが表している情報に基づき、符号化オーディオデータのタイムスタンプを設定することが好ましい。従って、タイムスタンプtを有するオリジナルの非圧縮オーディオサンプルは、タイムスタンプtを有する符号化オーディオデータユニットのデコーディング処理によって再生されると推定される。これには、さらに必要とされるプリロールデータユニットとポストロールデータユニットが含まれてはいない。例えば、1500個のサンプルと値1の初期タイムスタンプを有するオリジナルオーディオ信号は、フレームサイズが1024の3個の符号化オーディオデータユニットと、フレームサイズ1024のプリロールと、200個のサンプル分の人工的な追加遅延として符号化される。最初の符号化オーディオデータユニットは、1−1024=−1023のタイムスタンプを有し、その全部がプリロールのために使用される。2番目の符号化オーディオデータユニットは1のタイムスタンプを有し、その符号化オーディオデータユニット内に、最初の200個のサンプルを除去するための情報を含む。そのデコーディング結果は通常1024個のサンプルから成るが、最初の200個のサンプルは出力から除外され、824個のサンプルだけが残される。3番目の符号化オーディオデータユニットは825のタイムスタンプを有し、その符号化オーディオデータユニット内に、生成されるオーディオ出力サンプルの長さを1024から676個のサンプル長さにトリミングするための情報を含む。従って、最後の1024−676=348個のサンプルは無効であるという情報が符号化オーディオデータユニット内に保存される。
例えば1000個のサンプル分のポストロールがある場合、別の異なるデコーダモードにより、エンコーダの出力は4個の符号化オーディオデータユニットに変更される。最初の3個の符号化オーディオデータユニットに変わりはないが、もう一つの符号化オーディオデータユニットが加えられる。デコーディングの際には、最初のプリロールアクセスユニットに関する処理は上記の例のままである。しかし、2番目のアクセスユニットのデコーディングに関しては、この別のデコーダモードに関する追加遅延を考慮しなければならない。この書類では、追加的なデコーダ遅延を正確に取り扱うための以下の三つの基本的な解決策が提示されている。
1.デコーダ遅延はデコーダからシステムへ伝えられ、システムは、オーディオとビデオの同期性を保つために他の全ての並列的なストリームを遅延させる。
2.デコーダ遅延はデコーダからシステムへ伝えられ、システムは、例えばレンダリング装置などのオーディオ処理装置で無効サンプルを除去することができる。
3.デコーダ遅延はデコーダ内で除去される。これにより、この追加遅延の除去のために最初から小さいサイズの展開データとなるか、または、信号伝達された個数のポストロール符号化データユニットがデコーダに送られるまでデータ出力を遅延させた展開データとなる。後者の方法が好ましく、この書類の以下の部分ではこれを前提にする。
デコーダまたは埋め込みシステム層のどちらかが、プリロール及び/またはポストロール符号化データユニットのためにデコーダによって与えられた出力全体を切り捨てる。トリミング情報を余分に有する符号化オーディオデータユニットに関して、デコーダまたは埋め込み層のどちらかが、追加情報を有するオーディオデコーダの指示のもとにサンプルを除去することができる。このトリミングを正確に行うために、以下の三つの基本的な解決策がある。
1.トリミング情報がデコーダからシステムに送信され、システムは、最初のトリミングのために、オーディオとビデオの同期性を保つために他の全ての並列的なストリーム遅延させる。最後のトリミングはこれには当てはまらない。
2.展開データユニットと共に、トリミング情報がデコーダからシステムに送信され、このトリミング情報は、例えばレンダリング装置などのオーディオ処理装置で、無効サンプルを除去するのに適用される。
3.トリミング情報はデコーダ内で使用され、展開データユニットがシステムに送られる前に、展開データユニットの最初と最後の部分から無効サンプルが除去される。これにより、展開データユニットは、一般的なフレーム持続期間よりも短い期間を有することになる。トリミングとタイムスタンプと持続期間とをシステム内で適用するデコーダは、適用されるべきトリミングを反映すべきであることを前提とすることは、システムにとって好ましいことである。
マルチレートデコーダ処理に関して、トリミング処理の分解能はオリジナルのサンプリング周波数に関連付けられるべきである。オリジナルのサンプリング周波数は、典型的にはより高いレート成分として符号化されている。トリミング処理のためにいくつかの分解能が可能であり、例えば、マイクロ秒での固定の分解能、最も低いサンプリング周波数、または最も高いサンプリング周波数である。オリジナルのサンプリング周波数に一致させるために、本発明の一実施形態によると、トリミング値と共に、カスタム分解能としてトリミング処理の分解能が与えられる。従って、トリミング情報のフォーマットは以下のようなシンタックスとして表記できる。
Figure 0005719922
上記のシンタックスは、トリミング情報がどのようにして符号化オーディオデータユニット内に含まれ得るかについての単なる一例であることに留意すべきである。有効サンプルと無効サンプルとの区別を可能にするものであれば、他の変形例も本発明によってカバーされるものである。
本発明のいくつかの側面を装置に関して説明してきたが、これらの側面はまた相応の方法を説明するものでもあることに留意すべきである。つまり、ブロックや装置は方法ステップや方法ステップの特徴に対応する。同様に、方法ステップに関して説明した側面はまた、相応の装置の対応するブロックやアイテムや特徴を説明するものでもある。
本発明に係る符号化データはデジタル記憶媒体に保存可能であり、また、インターネットのような無線や有線の送信媒体上で送信可能である。
実施条件により、本発明はハードウェアまたはソフトウェアで実施可能である。この実施形態は、例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMやFLASHメモリーなどの、電子読み取り制御可能な信号が中に保存されたデジタル記憶媒体を使用して実施することができ、これらの電子読み取り制御可能な信号は、それぞれの方法が実行できるように、プログラム可能なコンピュータシステムと協働する(または協働可能である)。本発明の他の実施形態は、電子読み取り制御可能な信号を有する持続的または実体的なデータキャリアを含み、これらの電子読み取り制御可能な信号は、ここで説明した方法のうちの一つを実行できるように、プログラム可能なコンピュータシステムと協働可能である。
さらに、本発明の実施形態は、プログラムコードを備えたコンピュータプログラム製品として実施でき、このプログラム製品がコンピュータで動作した際、このプログラムコードは前述の方法のうちの一つを実行するためのものである。このようなプログラムコードは、例えば機械読み取り可能なキャリアに保存されている。他の実施形態は、ここで説明した方法のうちの一つを実行するためのものであり、機械読み取り可能なキャリアに保存されているコンピュータプログラムを含む。
本発明のさらに別の実施形態は、ここで説明した方法のうちの一つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。このデータストリームまたは一連の信号は、例えばインターネットのようなデータ通信接続を介して送信されるように構成されていてもよい。
さらに別の実施形態は、ここで説明した方法のうちの一つを実行するように構成された、例えばコンピュータやプログラム可能な論理装置のような処理手段を含む。

Claims (18)

  1. エンコーダ遅延またはデータの付け足しによって生じた無効データがトリミングされるように、符号化オーディオデータの有効性に関する情報を提供する方法であり、符号化オーディオデータは一連のフレーム(920)であり、それぞれのフレーム(920)は有効オーディオデータに関する情報(924)を含み得るものであり、該方法は、
    フレーム(920)の最初の部分のデータ量が無効であることを示すフレームレベルに関するものであり、前記符号化オーディオデータのためのオーディオデコーダによって処理されるべき情報を提供する(302)か、
    フレーム(920)の最後の部分のデータ量が無効であることを示すフレームレベルに関するものであり、前記オーディオデコーダによって処理されるべき情報を提供する(402)か、または
    フレーム(920)の最初の部分と最後の部分のデータ量がどちらも無効であることを示すフレームレベルに関するものであり、前記オーディオデコーダによって処理されるべき情報を提供する(502)こと、及び
    フレーム(920)がプリロールアクセスユニットであるかポストロールアクセスユニットであるかを示すフレームレベルに関するものであり、前記オーディオデコーダとのインターフェースを有するシステム層に、該プリロールまたはポストロールアクセスユニットを該オーディオデコーダに提供させ、復号化の後、該オーディオデコーダからの対応出力を放棄させるようにする情報を提供することを含む。
  2. 請求項1に記載の方法であり、符号化オーディオデータの有効性に関する情報(924)は、フレーム(920)の任意で無視されてもよい部分に入れられている。
  3. 請求項1に記載の方法であり、符号化オーディオデータの有効性に関する情報(924)は、関連するフレーム(920)に添付されている。
  4. 請求項1に記載の方法であり、有効オーディオデータは、ストリームに基づくアプリケーションまたはライブアプリケーション由来のものである。
  5. 請求項1に記載の方法であり、プリロールデータ量とポストロールデータ量のうちの少なくとも一つを決定することをさらに含む。
  6. 請求項1に記載の方法であり、符号化オーディオデータの有効性に関する情報(924)は、時間可変データと時間不変データとを含む。
  7. データの有効性に関する情報を提供するエンコーダ(800,900)であり、
    請求項1に記載のデータの有効性に関する情報の提供方法を適用するよう構成されている。
  8. エンコーダ遅延またはデータの付け足しによって生じた無効データがトリミングされるように、データの有効性に関する情報を含む符号化データを受信し、復号出力データを提供する方法であり、
    フレーム(920)の最初の部分のデータ量が無効であることを示すフレームレベルに関する情報(924)か、
    フレーム(920)の最後の部分のデータ量が無効であることを示すフレームレベルに関する情報(924)か、または
    フレーム(920)の最初の部分と最後の部分のデータ量がどちらも無効であることを示すフレームレベルに関する情報(924)を含む、
    符号化データを受信すること(602,702)と、
    レーム(920)がプリロールアクセスユニットであるかポストロールアクセスユニットであるかを示すフレームレベルに関する情報を受信することと、
    無効であるとマークされていないサンプルのみを含む復号出力データを、オーディオデコーダ(1000,1100)を使用して提供すること(604,704)か、または
    フレーム(920)の全てのオーディオサンプルを含ませ、データのどの部分が有効であるかに関する情報をアプリケーションに提供すること(706)と、及び
    フレーム(920)がプリロールアクセスユニットまたはポストロールアクセスユニットである場合、システム層に、該プリロールまたはポストロールアクセスユニットを前記オーディオデコーダ(1000,1100)に提供させ、符号化の後、該オーディオデコーダ(1000,1100)からの対応出力を放棄するようにさせることを含む。
  9. 請求項8に記載の方法であり、
    プリロール量とポストロール量のうちの少なくとも一つを決定することと、
    オリジナル信号を再生するために、プリロールに属するフレーム(920)とポストロールに属するフレーム(920)のうちの少なくとも一つを使用することをさらに含む。
  10. 請求項8に記載の方法であり、
    デコーダ遅延を、デコーダ(1000,1100)から、復号出力データを使用するシステムへ送信することと、
    オーディオとビデオの同期性を維持するために、システムにより、他の並列的なストリームを遅延させることをさらに含む。
  11. 請求項8に記載の方法であり、
    デコーダ遅延を、デコーダ(1000,1100)から、復号出力データを使用するシステムへ送信することと、
    システムにより、オーディオ処理部で無効オーディオサンプルを除去することをさらに含む。
  12. 請求項8に記載の方法であり、
    デコーダ遅延をデコーダ(1000,1100)内で除去することをさらに含む。
  13. 請求項8に記載の方法であり、フレーム(920)はトリミング情報をさらに含み、該方法は、
    トリミング情報を、前記デコーダ(1000,1100)から、復号出力データを使用する前記システム層へ送信することと、
    システムにより、他の並列的なストリームを遅延させることをさらに含む。
  14. 請求項8に記載の方法であり、フレーム(920)はトリミング情報をさらに含み、該方法は、
    トリミング情報を、復号フレームと共に、デコーダ(1000,1100)から、復号オーディオ出力データを使用する前記システム層へ送信することと、
    オーディオ処理部で無効サンプルを除去するために、トリミング情報を適用することをさらに含む。
  15. 請求項8に記載の方法であり、フレーム(920)はトリミング情報をさらに含み、該方法は、
    トリミング情報を前記デコーダ(1000,1100)内で適用し、トリミングされた復号フレームを得るために、復号フレームの最初または最後の部分から無効サンプルを除去することと、
    トリミングされた復号フレームを、復号オーディオ出力データを使用する前記システム層に提供することをさらに含む。
  16. 符号化データを受信し、復号出力データを提供するデコーダ(1000,1100)であり、
    複数の符号化オーディオサンプル(922)を含む一連の符号化フレーム(920)を受信する入力部(1002,1102)であり、いくつかのフレーム(920)は、エンコーダ遅延またはデータの付け足しによって生じた無効データがトリミングされるように、データの有効性に関する情報(924)を含み、該情報は、請求項8のデータの有効性に関する情報を含む符号化オーディオデータを受信する方法に記載されているようにフォーマットされたものである入力部と、
    入力部(1002,1104)と接続され、データの有効性に関する情報(924)を適用するよう構成されたデコーディング部(1004,1104)と、
    復号オーディオサンプルを提供する出力部(1006,1106)であり、有効オーディオサンプルのみを提供するか、または復号オーディオサンプルの有効性に関する情報を提供する出力部を含む。
  17. コンピュータで起動された際、エンコーダ遅延またはデータの付け足しによって生じた無効データがトリミングされるように、符号化オーディオデータの有効性に関する情報を提供するためのものであり、符号化オーディオデータは一連の符号化フレーム(920)であり、それぞれの符号化フレームは有効オーディオデータに関する情報を含み得るものである方法をコンピュータに実行させるプログラムコードを有するコンピュータプログラ
    ムであり、該方法は、
    フレーム(920)の最初の部分のデータ量が無効であることを示すフレームレベルに関するものであり、前記符号化オーディオデータのためのオーディオデコーダによって処理されるべき情報を提供する(302)か、
    フレーム(920)の最後の部分のデータ量が無効であることを示すフレームレベルに関するものであり、前記オーディオデコーダによって処理されるべき情報を提供する(402)か、または
    フレーム(920)の最初の部分と最後の部分のデータ量がどちらも無効であることを示すフレームレベルに関するものであり、前記オーディオデコーダによって処理されるべき情報を提供すること(502)と、及び
    フレーム(920)がプリロールアクセスユニットであるかポストロールアクセスユニットであるかを示すフレームレベルに関するものであり、前記オーディオデコーダとのインターフェースを有するシステム層に、該プリロールまたはポストロールアクセスユニットを該オーディオデコーダに提供させ、復号化の後、該オーディオデコーダからの対応出力を放棄させるようにする情報を提供することを含む。
  18. コンピュータで起動された際、エンコーダ遅延またはデータの付け足しによって生じた無効データがトリミングされるように、データの有効性に関する情報を含む符号化データを受信し、復号出力データを提供する方法をコンピュータに実行させるプログラムコードを有するコンピュータプログラムであり、該方法は、
    フレーム(920)の最初の部分のデータ量が無効であることを示すフレームレベルに関する情報(924)か、
    フレーム(920)の最後の部分のデータ量が無効であることを示すフレームレベルに関する情報(924)か、または
    フレーム(920)の最初の部分と最後の部分のデータ量がどちらも無効であることを示すフレームレベルに関する情報(924)を含む
    符号化データを受信すること(602,702)と、
    レーム(920)がプリロールアクセスユニットであるかポストロールアクセスユニットであるかを示すフレームレベルに関する情報を受信することと、
    無効であるとマークされていないサンプルのみを含む復号出力データを、オーディオデコーダ(1000,1100)を使用して提供すること(604,704)か、または
    フレーム(920)の全てのオーディオサンプルを含ませ、データのどの部分が有効であるかに関する情報をアプリケーションに提供すること(706)と、及び
    フレーム(920)がプリロールアクセスユニットまたはポストロールアクセスユニットである場合、システム層に、該プリロールまたはポストロールアクセスユニットを前記オーディオデコーダ(1000,1100)に提供させ、符号化の後、該オーディオデコーダ(1000,1100)からの対応出力を放棄するようにさせることを含む。
JP2013504246A 2010-04-13 2011-04-12 サンプルごとに正確なオーディオ信号表現のための方法、エンコーダ及びデコーダ Active JP5719922B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US32344010P 2010-04-13 2010-04-13
US61/323,440 2010-04-13
PCT/EP2011/055728 WO2011128342A1 (en) 2010-04-13 2011-04-12 Method and encoder and decoder for gap - less playback of an audio signal

Publications (2)

Publication Number Publication Date
JP2013528825A JP2013528825A (ja) 2013-07-11
JP5719922B2 true JP5719922B2 (ja) 2015-05-20

Family

ID=44146452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013504246A Active JP5719922B2 (ja) 2010-04-13 2011-04-12 サンプルごとに正確なオーディオ信号表現のための方法、エンコーダ及びデコーダ

Country Status (15)

Country Link
US (1) US9324332B2 (ja)
EP (2) EP2559029B1 (ja)
JP (1) JP5719922B2 (ja)
KR (1) KR101364685B1 (ja)
CN (1) CN102971788B (ja)
AU (1) AU2011240024B2 (ja)
BR (1) BR112012026326B1 (ja)
CA (1) CA2796147C (ja)
ES (1) ES2722224T3 (ja)
MX (1) MX2012011802A (ja)
PL (1) PL2559029T3 (ja)
PT (1) PT2559029T (ja)
RU (1) RU2546602C2 (ja)
TR (1) TR201904735T4 (ja)
WO (1) WO2011128342A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2777042B1 (en) 2011-11-11 2019-08-14 Dolby International AB Upsampling using oversampled sbr
CN104065963B (zh) * 2014-06-27 2018-03-06 广东威创视讯科技股份有限公司 编解码系统及其快速切换分辨率的方法、装置
EP2996269A1 (en) * 2014-09-09 2016-03-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio splicing concept
ES2733858T3 (es) 2015-03-09 2019-12-03 Fraunhofer Ges Forschung Codificación de audio alineada por fragmentos
US10225814B2 (en) * 2015-04-05 2019-03-05 Qualcomm Incorporated Conference audio management
US11527256B2 (en) 2018-04-25 2022-12-13 Dolby International Ab Integration of high frequency audio reconstruction techniques
KR20210043679A (ko) 2018-08-21 2021-04-21 돌비 인터네셔널 에이비 즉시 재생 프레임(ipf)의 생성, 전송 및 처리를 위한 방법, 장치 및 시스템
US11190836B2 (en) 2018-12-20 2021-11-30 Hisense Visual Technology Co., Ltd. Audio playing and transmitting methods and apparatuses
CN109495776B (zh) * 2018-12-20 2021-02-05 海信视像科技股份有限公司 一种音频发送、播放的方法及智能终端
CN111179970B (zh) * 2019-08-02 2023-10-20 腾讯科技(深圳)有限公司 音视频处理方法、合成方法、装置、电子设备及存储介质
CN116796685B (zh) * 2023-08-07 2024-02-09 深圳云豹智能有限公司 数据拼接模块及数据传递方法、介质、电子设备、芯片

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
JP3707116B2 (ja) 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
JPH09261070A (ja) * 1996-03-22 1997-10-03 Sony Corp ディジタルオーディオ信号処理装置
EP1021044A1 (en) * 1999-01-12 2000-07-19 Deutsche Thomson-Brandt Gmbh Method and apparatus for encoding or decoding audio or video frame data
US7280823B2 (en) * 2000-08-15 2007-10-09 Lockheed Martin Corporation Method and apparatus for determining the context of a handheld device
JP2002101395A (ja) * 2000-09-21 2002-04-05 Sony Corp 多重化装置及び方法、並びに、復号装置及び方法
JP3734696B2 (ja) * 2000-09-25 2006-01-11 松下電器産業株式会社 無音圧縮音声符号化復号化装置
DE10102159C2 (de) * 2001-01-18 2002-12-12 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen bzw. Decodieren eines skalierbaren Datenstroms unter Berücksichtigung einer Bitsparkasse, Codierer und skalierbarer Codierer
ES2299568T3 (es) * 2001-05-02 2008-06-01 Koninklijke Philips Electronics N.V. Procedimiento de filtrado inverso, procedimiento de filtrado de sintesis, dispositivo de filtro inverso, dispositivo de filtro de sintesis y dispositivos que comprenden tales dispositivos de filtro.
US7043677B1 (en) * 2001-07-19 2006-05-09 Webex Communications, Inc. Apparatus and method for separating corrupted data from non-corrupted data within a packet
KR100546398B1 (ko) * 2003-11-25 2006-01-26 삼성전자주식회사 압축된 오디오 비트스트림에서 싱크 워드를 찾는 방법 및상기 방법을 기록한 기록 매체
AU2006232361B2 (en) * 2005-04-01 2010-12-23 Qualcomm Incorporated Methods and apparatus for encoding and decoding an highband portion of a speech signal
CN101326770A (zh) * 2005-12-09 2008-12-17 日本电气株式会社 帧处理方法以及帧处理设备
US8204740B2 (en) * 2006-02-06 2012-06-19 Telefonaktiebolaget Lm Ericsson (Publ) Variable frame offset coding
JP4371127B2 (ja) 2006-07-14 2009-11-25 ソニー株式会社 再生装置、再生方法、プログラム
US8532984B2 (en) 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8190441B2 (en) * 2006-09-11 2012-05-29 Apple Inc. Playback of compressed media files without quantization gaps
US8041578B2 (en) * 2006-10-18 2011-10-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
US8126721B2 (en) * 2006-10-18 2012-02-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
US8417532B2 (en) * 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
EP3288027B1 (en) * 2006-10-25 2021-04-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating complex-valued audio subband values
JP4379471B2 (ja) 2006-12-29 2009-12-09 ソニー株式会社 再生装置および再生制御方法
US8180283B2 (en) * 2007-02-14 2012-05-15 Alcatel Lucent Method of providing feedback to a media server in a wireless communication system
US20100061466A1 (en) * 2007-03-26 2010-03-11 Shinya Gozen Digital broadcast transmitting apparatus, digital broadcast receiving apparatus, and digital broadcast transmitting/receiving system
US7778839B2 (en) * 2007-04-27 2010-08-17 Sony Ericsson Mobile Communications Ab Method and apparatus for processing encoded audio data
ES2619277T3 (es) * 2007-08-27 2017-06-26 Telefonaktiebolaget Lm Ericsson (Publ) Detector de transitorio y método para soportar la codificación de una señal de audio
JP5368988B2 (ja) 2008-02-22 2013-12-18 パナソニック株式会社 音楽再生装置、音楽再生方法、音楽再生プログラム、及び集積回路
WO2009116141A1 (ja) * 2008-03-18 2009-09-24 パイオニア株式会社 符号化装置及び符号化方法並びに符号化用プログラム
CN102089817B (zh) * 2008-07-11 2013-01-09 弗劳恩霍夫应用研究促进协会 用于计算频谱包络数目的装置与方法
WO2010003539A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal synthesizer and audio signal encoder
JP2010123225A (ja) * 2008-11-21 2010-06-03 Toshiba Corp 記録再生装置及び記録再生方法
EP2288056A3 (en) * 2009-07-22 2012-07-11 Yamaha Corporation Audio signal processing system comprising a plurality of devices connected by an audio network
JP2011209412A (ja) * 2010-03-29 2011-10-20 Renesas Electronics Corp 圧縮装置、圧縮方法、再生装置および再生方法

Also Published As

Publication number Publication date
RU2012148132A (ru) 2014-05-20
PL2559029T3 (pl) 2019-08-30
KR20130006691A (ko) 2013-01-17
US20130041672A1 (en) 2013-02-14
TR201904735T4 (tr) 2019-04-22
CA2796147C (en) 2016-06-07
AU2011240024B2 (en) 2014-09-25
JP2013528825A (ja) 2013-07-11
EP2559029B1 (en) 2019-01-30
EP2559029A1 (en) 2013-02-20
CA2796147A1 (en) 2011-10-20
MX2012011802A (es) 2013-02-26
PT2559029T (pt) 2019-05-23
AU2011240024A1 (en) 2012-11-08
KR101364685B1 (ko) 2014-02-19
RU2546602C2 (ru) 2015-04-10
EP3499503A1 (en) 2019-06-19
BR112012026326A2 (pt) 2017-12-12
WO2011128342A1 (en) 2011-10-20
CN102971788B (zh) 2017-05-31
BR112012026326A8 (pt) 2018-07-03
BR112012026326B1 (pt) 2021-05-04
CN102971788A (zh) 2013-03-13
ES2722224T3 (es) 2019-08-08
US9324332B2 (en) 2016-04-26

Similar Documents

Publication Publication Date Title
JP5719922B2 (ja) サンプルごとに正確なオーディオ信号表現のための方法、エンコーダ及びデコーダ
US20240203433A1 (en) Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder
JP6920383B2 (ja) オーディオスプライシングのコンセプト
JP6728154B2 (ja) オーディオ信号のエンコードおよびデコード
CN110476207B (zh) 音频解码器、音频编码器、提供解码的音频信号的方法、提供编码的音频信号的方法、音频流提供器和计算机介质
JP2016509695A (ja) 摩擦音または破擦音のオンセットまたはオフセットの時間的近接性における増大した時間分解能を使用するオーディオエンコーダ、オーディオデコーダ、システム、方法およびコンピュータプログラム
US9111524B2 (en) Seamless playback of successive multimedia files
JP4862136B2 (ja) 音声信号処理装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150323

R150 Certificate of patent or registration of utility model

Ref document number: 5719922

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250