JP2008539462A - オーディオエンコーダを並列に動作させる方法及びシステム - Google Patents

オーディオエンコーダを並列に動作させる方法及びシステム Download PDF

Info

Publication number
JP2008539462A
JP2008539462A JP2008508857A JP2008508857A JP2008539462A JP 2008539462 A JP2008539462 A JP 2008539462A JP 2008508857 A JP2008508857 A JP 2008508857A JP 2008508857 A JP2008508857 A JP 2008508857A JP 2008539462 A JP2008539462 A JP 2008539462A
Authority
JP
Japan
Prior art keywords
block
control parameter
audio information
audio
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008508857A
Other languages
English (en)
Inventor
カウデリー、ジェイムス・ステュアート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of JP2008539462A publication Critical patent/JP2008539462A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

入力オーディオストリームをオーディオ情報ブロックの2つ以上の重複するセグメントに分割し、並列的にエンコードされたセグメントを生成させるために書くセグメントにエンコーディング処理を適用し、エンコードされたセグメントを加え合わせることにより1つのエンコードされた出力信号を形成させることによりこのオーディオストリームをエンコードするために必要な時間を削減する。このエンコーディング処理は、1以上のコントロールパラメータに対応する。所定のブロックに適用されるコントロールパラメータは、1以上の先行するブロックのオーディオ情報から算出される。隣り合うセグメント間の重なり合う長さは、重複期間の終点におけるコントロールパラメータ値とそれに対応する参照値との差が、エンコードされた出力信号をデコーディングすることで生じる信号中の可聴なアーティファクトの発生を避けるのに十分小さくなるように選定される。

Description

本発明は一般にオーディオコーディングに関し、具体的には、オーディオ情報ストリームのセグメントに2つ以上のオーディオエンコーディング処理を並列的に適用して、オーディオ情報にエンコードする方法及びシステムに関する。
元の信号を適切に表現するために必要とされる情報量を減少させるために、オーディオコーディングシステムがしばしば用いられる。必要情報容量を減少させることにより、狭い帯域幅のチャンネルで信号を伝送することができ、媒体の少ないスペースに信号を保存することができる。知覚オーディオコーディングを使って、冗長な成分又は適切でない成分を削除することにより元のオーディオ信号の必要情報容量を減少させることができる。この種のコーディングは、スペクトル成分の基底系を用いてもとの信号をデコリレーションすることにより冗長性を減少させるためにしばしばフィルターバンクを用い、心理聴覚の原理によりスペクトル成分を適応的に量子化することにより不適切成分を減少させる。
このフィルターバンクは、例えば、離散フーリエ変換(DFT)又は離散コサイン変換(DCT)のような種々の変換を含む多くの方法により、実施される。元のオーディオ信号のスペクトル内容を表す1組の変換係数又はスペクトル成分は、元のオーディオ信号の時間区間を表す時間領域サンプルのブロックに変換を適用することにより取得することができる。Proc.of the 1987 International Conference on Acoustics,Speech and Signal Processing (ICASSP),May 1987,pp.2161-64のPrincen等による、「Subband/Transform
Coding Using Filter Bank Designs Based on time Domain Aliasing Cancellation」に記載された修正離散コサイン変換(MDCT)が、隣接する信号ブロックを互いに重複させながらクリティカルサンプリングを行う能力を含む、いくつかの非常に魅力的なオーディオコーディングの特性を持っているので、広く用いられている。MDCTフィルターバンクを適切に動作させるには、重複した元の信号ブロックと一定の条件を満たす窓関数を使うことが要求される。MDCTフィルターバンクを用いるコーディングシステムの2つの例として、J. Audio Eng. Soc, vol. 45, no, 10, October 1997, pp. 789-
814のBosi等による、「ISO/EEC MPEG-2 Advanced Audio Coding」に記載された進化したオーディオコーダ(AAC)標準に従うシステムと、ドルビーデジタルによりエンコードされたビットストリーム標準に従うシステムとがある。このコーディング標準は、しばしば、AC−3と呼ばれ、2001年8月20日に発行された、表題が「Revision A to Digital Audio Compression (AC-3) Standard」であるAdvanced Television Systems Committee(ATSC)のA/52A書面に記載されている。両方の参考文献は、参照として本明細書に組み込まれる。
量子化分解能を改変したコーディング処理は、信号の不適切性を削減するが、その信号に可聴レベルの量子化誤差又は「量子化ノイズ」をもたらすこともある。知覚コーディングシステムにより、この量子化ノイズが「マスク」されるよう、あるいは、信号のスペクトル内容により知覚できなくするよう量子化分解能の制御が試みられる。これらのシステムは、一般に、元の信号によりマスクされる量子化ノイズのレベルを予測するために知覚モデルを用い、全体のビット配置が割り当て制限を満足するよう、各量子化されたスペクトル成分を表現するためのビット数を変化させながら配置することにより、量子化分解能を制御する。
知覚コーディングシステムは、特殊目的ハードウェア、ディジタル信号処理(DSP)コンピュータ、及び汎用コンピュータを含む様々な方法で実施される。多くのコーディングシステムで用いられるこのフィルターバンク及びビット配置処理は、かなりの計算資源を必要とする。その結果、今日普通に利用可能な通常のDSP及び汎用コンピュータで実行されるエンコーダは、「リアルタイム」よりずっと速く元のオーディオ信号をエンコードすることはできず、これは、元のオーディオ信号をエンコードするために必要な時間は、しばしば、元のオーディオ信号を表現又は「再生」するのに必要な時間と同じか又はそれより長くなることを意味する。DSP及び汎用コンピュータの処理速度は速くなっているが、エンコーディング処理が複雑化することにより課せられた処理速度の要求は、ハードウェア・プロセッサにおける速度の増加を帳消しにしてしまう。その結果、DSP又は汎用コンピュータにより実行するエンコーダが、リアルタイムよりずっと速く元のオーディオ信号をエンコードすることができるようになるとは思えない。
AC−3コーディングシステムへの1つの応用例は、DVD上の動画に対するサウンドトラックのエンコーディングである。一般的な動画のサウンドトラックの長さはおよそ2時間である。もしこのコーディング処理をDSP又は汎用コンピュータにより実行するならば、このコーディングもまた約2時間かかるであろう。このエンコーディング時間を削減する1つの方法は、異なった部分のエンコーディング処理を異なったプロセッサ又はコンピュータにより実行することである。しかしながら、複数のプロセッサで動作させるためにエンコーディング処理の再設計が必要となり、プロセッサの数を変えながら効率的な動作を行うエンコーディング処理の設計は難しいか、さもなければ不可能であり、このような再設計したエンコーディング処理は長さの短い元の信号に対しても複数のコンピュータを必要とするので、この方法は魅力的ではない。
必要なのは、任意の数の従来型のオーディオエンコーディング処理を用いて、エンコーディング時間を短縮することができる方法である。
本発明は、元のオーディオ信号をエンコードするのに必要な時間を短縮する従来のオーディオエンコーディング処理の複数のインスタンスを用いる方法を提供する。
本発明は、ブロックの順列に構成されたオーディオサンプルからなるオーディオ情報のストリームであり、整数のブロックに等しい重複区間でお互いに重複したオーディオ情報のストリームの最初のセグメントと2番目のセグメントとを特定するステップと、最初のエンコードされたオーディオ情報のブロックと最初のコントロールパラメータとを生成するために前記オーディオ情報のストリームの最初のセグメントに最初のエンコーディング処理を適用するステップと、2番目のエンコードされたオーディオ情報のブロックと2番目のコントロールパラメータとを生成するために前記オーディオ情報のストリームの2番目のセグメントに2番目のエンコーディング処理を適用するステップと、前記最初のエンコードされたオーディオ情報のブロックと前記2番目のエンコードされたオーディオ情報のブロックとを出力信号にアセンブルするステップとにより、エンコードされることを1つの特徴とする。最初のエンコーディング処理では、オーディオ情報の最初のセグメント中のオーディオサンプルの全てのブロックに応答して、最初のエンコードされたオーディオ情報のブロックと最初のコントロールパラメータとを生成する。2番目のエンコーディング処理では、オーディオ情報の2番目のセグメント中のオーディオサンプルの全てのブロックに応答して2番目のコントロールパラメータを生成するが、重複区間に続くオーディオサンプルのブロックに対してのみ2番目のエンコードされたオーディオ情報のブロックを生成することができる。重複区間の長さは、重複区間の最後のブロックの最初のパラメータ値と2番目のパラメータ値との差が目標の閾値より小さくなるよう選定する。このコントロールパラメータは、出力信号にアセンブルしてもよく、最初のエンコーディング処理と2番目のエンコーディング処理の動作を改変させるために用いてもよい。最初のエンコーディング処理と2番目のエンコーディング処理とは、同じであることが好ましい。
本発明のさまざまな特徴とその好ましい実施の形態は、以下の説明と、図中類似の参照番号で類似の要素を示した添付図を参照することによりよく理解できるであろう。以下の説明と図面の内容は例示のためのものであり、本発明の技術範囲を限定するためのものと解釈すべきでない。
A.序論
図1は、本発明の種々の特徴と共に用いることのできるオーディオエンコーディングトランスミッター10の1つの実施の形態を示す。この実施の形態において、トランスミッター10は、元の信号のスペクトル内容を表すスペクトル成分を生成するために経路1から受け取った元の信号に分析フィルターバンク2を適用し、経路5に沿って1以上のコントロールパラメータとを生成するために、コントローラ4中の元の信号又はスペクトル成分を分析し、コントロールパラメータに応答して改変することのできるエンコーディング処理を用いてエンコードされた情報を生成するためにエンコーダ6中のスペクトル成分をエンコードし、そして、経路9に沿って出力信号を生成するためにエンコードされた情報にフォーマッタ8を適用する。この出力信号は、さらなる処理を行うために他の装置に提供することもでき、また、直ちに記憶媒体に記憶させることもできる。経路7は、任意的であり、以下に説明する。
分析フィルターバンク2は、広範囲のフィルター技術、ウェーブレット変換、及びブロック変換を含む種々の方法で実行することができる。ブロック変換ではなく、多相フィルターのようなディジタルフィルターの形式により実施される分析フィルターバンクは、入力信号を分割し1組のサブ帯域信号にする。各サブ帯域信号は、特定の周波数サブ帯域内の入力信号のスペクトル内容を時間ベースで表現するものである。サブ帯域信号は、各サブ帯域信号が、単位時間区間のサブ帯域信号中のサンプルの数に比例する帯域幅を有するように、間引きすることが好ましい。種々の形式の分析フィルターバンク2の実施の形態を、オーディオ情報の連続した入力ストリームに適用することが可能であるが、ブロックスケーリング、心理音響モデルに基づく適応量子化、又はエントロピーコーディングのような種々の形式のエンコーディング処理を容易にするためにオーディオ情報のブロックにこれらの実施の形態を適用することが一般的である。
ブロック変換により実施される分析フィルターバンクは、入力信号のブロック又は区間を信号の区間のスペクトル内容を表す1組の変換係数に変換する。1以上の隣り合う変換係数のグループは、そのグループ中の係数の数に相応する帯域幅を有する特定の周波数のサブ帯域内のスペクトル内容を表す。
図2Aから図2Cは、スペクトル成分を生成させるために分析フィルターバンクにより処理することのできる一連のブロック中に構成したディジタルオーディオ情報のストリームの概念的図である。各ブロックは、オーディオ信号の時間区間を表すディジタルサンプルを含有する。図2Aにおいて、隣り合うブロック又は時間区間11〜14は、一連のブロックにおいてお互いに隣接する。例えば、ブロック12は、ブロック11のすぐ後に隣接している。図2Bにおいて、隣り合うブロック又は時間区間11〜15は、一連のブロックにおいて、ブロック長の8分の1だけお互いに重なり合っている。例えば、ブロック12は、ブロック11のすぐ後でブロック11と重なり合っている。図2Cにおいて、、隣り合うブロック又は時間区間11〜18は、一連のブロックにおいて、ブロック長の半分だけお互いに重なり合っている。例えば、ブロック12は、ブロック11のすぐ後でブロック11と重なり合っている。これらの図に示した重なり合っている量は例示として示したものである。本発明において特定の重なり量が重要であるということではない。
以下は、分析フィルターバンクとしてMDCTを用いるエンコーディングトランスミッター10の実施の形態をさらに詳しく説明するものである。この変換は、図2Cに示すようにブロック長の半分がお互いに重なり合っている一連のブロックに適用される。この説明において、「スペクトル成分」の語は変換係数を意味し、「周波数サブ帯域」及び「サブ帯域信号」の語は、1以上の隣接する変換係数のグループに関する。しかしながら、本発明の原理を、他の形式の実施の形態に適用することもでき、そこでは、「周波数サブ帯域」及び「サブ帯域信号」の語はまた、信号の全帯域幅の一部分のスペクトル内容を表す信号に関し、「スペクトル成分」の語は、一般に、サブ帯域信号のサンプル又は要素を示すと理解することができる。知覚コーディングシステムは、人間の聴覚システムの臨界帯域幅と呼ばれる帯域幅と釣り合った帯域幅を有する周波数サブ帯域を提供するために、通常、分析フィルターバンクを導入している。
コントローラ4には、1以上のコントロールパラメータを生成させるために広く様々な処理を導入することができる。図1に示す実施の形態において、これらのコントロールパラメータは、経路5に沿ってエンコーダ6及びフォーマッタ8に送られる。他の実施の形態において、このコントロールパラメータは、エンコーダ6にのみ又はフォーマッタ8にのみ送ることもできる。1実施の形態において、コントローラ4は、元の信号のマスク効果の推定値を表す「マスキングカーブ」を取得するために知覚モデルをスペクトル成分に適用し、このスペクトル成分から、スペクトル成分を量子化するためのビットを配分するために、マスキングカーブと共にエンコーダ6が用いる1以上のコントロールパラメータを導き出す。もし、補完的なデコーディング処理により、出力信号により伝達される他の情報からコントロールパラメータを導き出すことができるのなら、この実施の形態のために、コントロールパラメータをフォーマッタ8に送る必要はない。もう1つの実施の形態において、コントローラ4は、少なくともスペクトル成分のいくつかから1以上のコントロールパラメータを導き出し、それらを、経路9に沿って送られた出力信号中のエンコードされた情報に含めるために、フォーマッタ8に送る。これらのコントロールパラメータは、エンコードされた情報からオーディオ信号を復元及び再生するために、相補的なデコーディング処理で用いることができる。
エンコーダ6は本質的に、特定のアプリケーションに必要とされるどの様なエンコーディング処理にも組み込むことができる。本説明において、「エンコーダ」や「エンコーディング」のような語は、特定の形式の情報処理を意味するものではない。例えば、エンコーディングは、しばしば、必要情報容量を減少させるために用いられる。しかしながら、本明細書中これらの語は、必ずしもこの種の処理を指すものではない。エンコーダ6は、基本的に、必要とされるどんなタイプの処理も実行することができる。上述の1つの実施の形態において、エンコードされた情報は、知覚モデルにより取得してマスキングカーブに従いスペクトル成分を量子化することにより生成される。エントロピーコーディング又は、信号帯域幅の一部分のスペクトル成分を廃棄し、エンコードされた情報と共に廃棄した部分のスペクトルエンベロープの推定値を算出するような他のタイプの処理をエンコーダ6で実行することもできる。本発明では、エンコーディングの形式は重要ではない。
フォーマッタ8は、エンコードされた情報を、特定のアプリケーションに適した形式の出力信号にアセンブルするために、多重化又は他の公知の処理を行うために使うことができる。コントロールパラメータもまた、必要に応じて出力信号にアセンブルしてもよい。
B.模範的な実施の形態
先に引用したATSC・A/52A書面に記載された標準に準拠したビットストリームを生成するエンコーディングトランスミッター10の1つの実施の形態では、そのフィルターバンク2をMDCTにより実行する。この特有の変換は、1以上のチャンネルのオーディオ情報のストリームに適用される。特定のチャンネルへのストリームは、図2Cに示したように隣り合うブロックが半分ずつお互いに重なり合う一連のブロックに構成したオーディオサンプルから成り立っている。全てのチャンネルへのブロックは、お互いに時間について位置合わせされている。各チャンネルに対して、お互いに時間について位置合わせされている6つの隣接するブロックの組が、オーディオ情報の1つの「フレーム」を構成する。
エンコーダ6は、オーディオ情報のフレームを表すスペクトル成分のブロックにエンコーディング処理を適用することによりエンコードされた情報を生成する。コントローラ4は、ブロック又はフレーム毎にエンコーディング処理を改変するために用いられる1つ以上のコントロールパラメータを生成する。コントローラ4はまた、デコーディングレシーバーで用いるために経路9に沿って生成される出力信号に、各ブロック又はフレームをアセンブルするために、1以上のコントロールパラメータを生成する。ブロック又はフレームのコントロールパラメータは、それぞれのブロック又はフレーム内だけのオーディオ情報に応答して生成される。コントロールパラメータのこの形式の一例としては、ここではタイプIパラメータと呼ばれる、特定のブロックについて計算したマスキングカーブを定める値のアレーである。(ATSC・A/52A仕様書のアレー「マスク」参照のこと。)それぞれのブロック又はフレームの他のコントロールパラメータは、それぞれのブロック又はフレームに先行するオーディオ情報に応答して生成される。コントロールパラメータのこの形式の一例としては、ここではタイプIIパラメータと呼ばれる、デコードされた信号の再生レベルに圧縮した値である。(ATSC・A/52A仕様書のパラメータ「圧縮」参照のこと。)所定のブロック又はフレームのタイプIIパラメータは、所定のブロック又はフレームに先行するオーディオ情報のみならずそのブロック又はフレーム内のオーディオ情報に応じて生成される。エンコーディングトランスミッター10がオーディオ情報のストリームを処理するとき、それぞれのブロック又はフレームに対するタイプIパラメータの値は、そのブロック又はフレームとは独立に計算されるが、タイプIIパラメータは、先のブロック又はフレーム内のオーディオ情報に依存するような方法で計算される。説明を簡単にするために、以下の説明では、個々のフレーム又は個々のフレーム内のすべてのブロックに適用するコントロールパラメータのみについて言及する。これらの例と基本的な原理は個々のブロックに適用するコントロールパラメータに適用する。
図3は、フレーム21及び22にグループ化したオーディオ情報のブロックの概念図である。コントローラ4によって計算されたフレーム22に対するタイプIコントロールパラメータ値は、フレーム22内だけのオーディオ情報に依存するが、フレーム22に対するタイプIIパラメータ値は、フレーム21内のオーディオ情報と、おそらくフレーム21に先行する他のフレームとに依存する。フレーム22のタイプIIパラメータ値もまた、そのフレームのオーディオ情報に依存することがある。説明を簡単にするために、以下の例では、特定のフレームのタイプIIパラメータ値は、そのフレームと1以上の先行するフレームのオーディオ情報から導き出されることを前提とする。
C.並列処理
エンコーディングトランスミッター10の多くの実施の形態において、入力オーディオストリームを演奏するのに必要な時間量とほぼ同じ時間量で、複数入力オーディオストリームをエンコードすることができる。図4に示した、入力フレーム31で始まり入力フレーム35で終わる、例えば2時間演奏するオーディオストリーム30を、出力フレーム41で始まり出力フレーム45で終わるフレームに構成したエンコードされた情報のブロックをもつ出力信号を出力するために、約2時間でエンコーディングトランスミッター10によりエンコードすることができる。
エンコーディングのための時間は、ほぼ同じ長さのN個のセグメントにオーディオストリームを分割し、それぞれのエンコーディングトランスミッターにより各セグメントをエンコーディングしてN個のエンコードされた信号セグメントを並列的に生成し、このエンコードされた信号セグメントを出力信号を算出するためにお互いに加え合わせることにより、ほぼ係数Nの分だけ減少させることができる。図5に記載の例では、オーディオストリーム30を2つのセグメント30−1及び30−2に分割し、エンコーディングトランスミッター10−1及び10−2によりこの2つのセグメントをそれぞれ並列的にエンコードして2つのエンコードされた信号セグメント40−1及び40−2にし、エンコードされた信号セグメント40−1の後ろにエンコードされた信号セグメント40−2を付加して出力信号40’を取得する。残念ながら、出力信号40’からデコードされたオーディオ信号は、単一のエンコーディングトランスミッター10により生成された出力信号40からデコードされたオーディオ信号とは、一般的に聞こえ方が違う。この聞こえ方の相違は、エンコーディングトランスミッター10が各セグメントの最初の部分で用いるタイプIIパラメータ値が異なることに起因する。この問題の原因と解決方法を以下に説明する。以下の例は、エンコーディングトランスミッターの全ての事例は、入力オーディオストリームから同一の出力信号を生成するような方法でエンコーディングトランスミッターが組み込まれていることを前提としている。
図4及び5に示した例を参照すると、各出力フレームのエンコードされた情報のブロックは、対応する入力フレーム中のオーディオ情報ブロックに応答し、対応する入力フレーム中のオーディオ情報から算出された1以上のタイプIパラメータに応答し、そして、対応する入力フレーム中と1以上の先行するフレーム中のオーディオ情報から算出された1以上のタイプIIパラメータとに応答して生成される。例えば、出力フレーム43のエンコードされた情報ブロックは、入力フレーム33中のオーディオ情報のブロックに応答し、入力フレーム33中のオーディオ情報から算出されたタイプIパラメータに応答し、そして、入力フレーム33中と1以上の先行する入力フレーム中のオーディオ情報から算出されたタイプIIパラメータに応答して生成される。出力フレーム41のブロックは、入力フレーム31中のオーディオ情報のブロックに応答し、入力フレーム31中のオーディオ情報から算出されたタイプIパラメータに応答し、そして、入力フレーム31中のオーディオ情報から算出されたタイプIIパラメータに応答して生成される。入力フレーム31のタイプIIパラメータは、入力フレーム31が入力オーディオストリーム30の最初のフレームであり、先行する入力フレームがないので、先行するフレームのオーディオ情報に依存しない。入力フレーム31中のブロックのタイプIIパラメータは、入力フレーム31中でのみ伝達されたオーディオ情報により初期化される。出力フレーム41から始まり出力フレーム43までの出力信号40の出力フレーム中のエンコードされた情報は、エンコーディングトランスミッター10とエンコーディングトランスミッター10−1とは、入力フレーム31から始まり入力フレーム33までの入力オーディオストリーム中と同一のオーディオ情報のブロックを受け取り処理するので、エンコードされた信号セグメント40−1の出力フレームに対応するエンコードされた情報と同一である。
出力フレーム44から始まる後半の出力信号40の出力フレーム中のエンコードされた情報は、一般に、出力フレーム44’から始まる出力信号40’の後半の出力フレームのエンコードされた情報とは同一でない。図4を参照して、出力フレーム44中のエンコードされた情報のブロックは、入力フレーム34のオーディオ情報のブロックに応答し、入力フレーム34中のオーディオ情報から算出されるタイプIパラメータに応答し、そして、入力フレーム34中と先行する1以上の入力フレーム中のオーディオ情報から算出されるタイプIIパラメータに応答して生成される。図5を参照して、出力フレーム44’中の情報のブロックは、入力フレーム34のオーディオ情報のブロックに応答し、入力フレーム34中のオーディオ情報から算出されるタイプIパラメータに応答し、そして、入力フレーム34中のオーディオ情報から算出されるタイプIIパラメータに応答して生成される。入力フレーム34のタイプIIパラメータは、入力フレーム34がセグメント30−2の最初のフレームであり、先行する入力フレームがないので、先行するフレームのオーディオ情報に依存しない。入力フレーム34中のブロックのタイプIIパラメータは、入力フレーム34中に伝達されたオーディオ情報により初期化される。一般に、エンコーディングトランスミッター10及び10−2に用いられるタイプIIパラメータは同一ではないので、それらにより生成されたエンコードされた情報のフレームも同一ではない。
図6は、エンコーディングトランスミッター10の1つの実施の形態において、仮想的なタイプIIパラメータの値「X」がどのように変化するかを示したものである。基準線51,53,54,及び55は、それそれ、入力フレーム31,33,34及び35の開始時間に対応する点を示す。曲線61は、入力フレーム31で始まり入力フレーム35で終わる入力オーディオストリーム30のオーディオ情報のブロックを処理することにより、図4のエンコーディングトランスミッター10が算出した「X」パラメータの値を表す。この曲線は、以下で「X」パラメータの参照値と呼ばれる値を定める。曲線64は、入力フレーム34から始まる入力オーディオストリーム30−2中のオーディオ情報の処理ブロックにより、図5のエンコーディングトランスミッター10−2が算出した「X」パラメータの値を表す。曲線61と64とが直線54と交わる点同士の垂直距離は、入力フレーム34中のオーディオ情報のブロックをエンコードするための2つのエンコーディングトランスミッターに用いられるタイプIIパラメータの値「X」同士の差を表す。
出力信号40中の出力フレーム43及び44内のエンコードされた情報がデコードされ演奏されたとき、直線53から54での曲線61の小さな増加に示されるとおり、「X」パラメータの値の変化は非常に小さいので、「X」パラメータの影響を受けたオーディオ情報はほんの少ししか変化しない。一方、出力信号40’中の出力フレーム43及び44’内のエンコードされた情報がデコードされ演奏されたとき、直線53での曲線61と直線54での曲線64との間で大きな減少が示されている通り、「X」パラメータの値の変化が大きいので、「X」パラメータの影響を受けたオーディオ情報は非常に大きく変化する。もし、例えば仮想的な「X」パラメータが上述の「圧縮」パラメータであれば、このような大きな変化により、再生レベルにおいて大きな突然の変化が生じるであろう。他のタイプIIパラメータであれば、クリック音、ポップ音、又はサンプ音のような他のタイプのアーティファクトを生じる。
この問題は、図7に示すように、上述のように、エンコーディングトランスミッター10−1に、セグメント30−1中のオーディオ情報を処理させて、出力フレーム41,42,及び43を持つエンコードされたセグメント40−1を生成させ、そして、エンコーディングトランスミッター10−3に、フレーム34のタイプIIパラメータ値が、そのフレームに対応する参照値と大きく異ならないように、入力フレーム34に先行する1以上のフレーム中のオーディオ情報ブロックを持つ、セグメント30−3中のオーディオ情報を処理させることにより解決することができる。図6を参照して、曲線62は、入力フレーム32から始まるセグメント30−3中のオーディオ情報のブロックを処理することによりエンコーディングトランスミッター10−3が算出した「X」パラメータの値を表す。直線54での曲線61の「X」パラメータの参照値は、対応する直線54での曲線64のパラメータの値と比較して、直線54での曲線62の「X」パラメータの値にはるかに接近している。直線54での曲線61と曲線62との間の差が十分小さければ、エンコードされた信号セグメント40−1にエンコードされた信号セグメント40−3を付加することにより得られた出力信号40”をデコードして演奏したオーディオ信号に、可聴アーティファクトは生じない。
入力フレーム34に先行するオーディオ情報ブロックに応答して、エンコーディングトランスミッター10−3が生成することのできるどんなエンコードされた情報にもエンコードされた信号セグメント40−3は含まれない。これは様々な方法で達成することができる。図8に示したシステム80により実行する1つの方法は、信号セグメンタ81を使って入力オーディオストリーム30を図7に示すような重複したセグメントに分割する。入力フレーム31から始まり入力フレーム33で終わるオーディオ情報を持つセグメント30−1は、経路1−1に沿ってエンコーディングトランスミッター10−1に送られる。入力フレーム32から始まり入力フレーム35で終わるオーディオ情報を持つセグメント30−3は、経路1−3に沿ってエンコーディングトランスミッター10−3に送られる。信号セグメンタ81は、入力フレーム34の位置を示す制御信号を経路83に沿って生成する。信号アセンブラ82は、エンコーディングトランスミッター10−1により生成された最初の出力信号セグメントを経路9−1から受け取り、エンコーディングトランスミッター10−3により生成された2番目の出力信号セグメントを経路9−3から受け取り、経路83から受け取った制御信号に応答して2番目の信号セグメント中のフレーム44”に先行する出力フレームを廃棄し、そして、エンコーディングトランスミッター10−1から受け取った最初の出力信号セグメントに、2番目の出力信号セグメント中のフレーム44”から始まり34”で終わる残りの出力フレームを付加する。
図9に示したシステム90により実施される他の方法では、図1に概略的に図示したエンコーディングトランスミッター10の修正した実施の形態を用いる。この修正した実施の形態によれば、エンコーディングトランスミッター10は、経路7から制御信号を受け取り、それに応答して、フォーマッタ8に出力フレームの生成を抑制させる。加えて、エンコーダ6は、タイプIIパラメータの計算に必要としない処理を抑制することにより、対応してもよい。システム90は、信号セグメンタ91を用いて入力オーディオストリーム30を図7に示すような重複させたセグメントに分割する。最初のセグメント30−1のオーディオ情報は、経路1−1に沿ってエンコーディングトランスミッター10−1に送られる。2番目のセグメント30−3は、経路1-3に沿ってエンコーディングトランスミッター10−3に送られる。信号セグメンタ91は、エンコーディングトランスミッター10−1によりエンコードされるべき最初のセグメント30−1中の全てのオーディオ情報を示す最初の制御信号を経路7−1に沿って生成する。信号セグメンタ91は、エンコーディングトランスミッター10−3によりエンコードされるべき入力フレーム34から始まる2番目のセグメント30−3中のオーディオ情報のみを示す2番目の制御信号を経路7−3に沿って生成する。エンコーディングトランスミッター10−3は、2番目のセグメント30−3の全ての入力フレーム中のオーディオ情報を処理して、タイプIIパラメータを算出するが、入力フレーム34から始まるセグメントの一部でしかない部分のオーディオ情報をエンコードする。信号アセンブラ92は、エンコーディングトランスミッター10−1により生成された出力信号セグメント40−1を経路9−1から受け取り、エンコーディングトランスミッター10−3により生成された出力信号セグメント40−3を経路9−3から受け取り、2つの信号セグメントを加え合わせて望ましい出力信号を生成する。
D.細分化
入力オーディオストリームの細分化を制御するために種々の処理を用いることができる。いくつかの模範的な処理については、「初期化区間」の語を2つの隣接するセグメントの間での重なりと定義することにより、より容易に説明することができる。所定のセグメントの初期化区間は、そのセグメントの先頭で始まり、先のセグメント中の最後のブロックのすぐ後のブロックの先頭で終わる。図7の例では、2つのセグメント30−1及び30−2に分割された1つの入力オーディオストリーム30を示している。最初のセグメントは入力フレーム31で始まり、入力フレーム33で終わっていて、2番目のセグメントは入力フレーム32で始まり、入力フレーム35で終わっている。2番目のセグメント30−2の初期化区間は、入力フレーム32中の最初のブロックの先頭で始まり、入力フレーム34中の最初のブロックの先頭で終わっている。隣り合うフレームが、例えば、図3に示すように重なり合っている場合、それに続くセグメントの初期化区間は、先のセグメントの最後のフレーム内の点で終わる。
一般に、初期化区間が長いほど、初期化区間の終点でのタイプIIパラメータ値と対応する参照値との差が減少するが、入力オーディオストリームセグメントをエンコードするのに必要とする時間を増加させる。初期化区間の長さは、初期化区間の終点での全てのタイプIIパラメータの値とそれに対応する参照値との間の差が閾値より小さくなるような範囲で、できるだけ小さくなるよう選ぶことが好ましい。例えば、出力信号からデコードされるオーディオ情報中の可聴なアーティファクトが生じないように閾値を定めてもよい。タイプIIパラメータ値における許容できる最大の差異は、経験的又は代替的に、再生音量の変化が約1dB以下となるようなパラメータの値に制限することができる差異に定めてもよい。適切なタイプIIパラメータ値が量子化された場合は、量子化されたタイプIIパラメータ値と対応する量子化された参照値との差が指定された量子化ステップの数より大きくならないような範囲でできるだけ短くなるよう、初期化区間を選択することができる。
以下の例では、先に引用したATSCA/52A書面に記載された標準に準拠する処理を実行し出力信号を生成するエンコーディングトランスミッター10を想定する。この実施の形態において、入力オーディオストリームは、512サンプルのブロックで構成される。このストリーム中の隣り合うブロックは、2分の1のブロック長さで互いに重なり合い、オーディオチャンネルごとに6つのブロックを有するフレームで構成される。初期化区間は、全入力フレームの整数値に等しい。動画のサウンドトラックのエンコーディングを含む多くのアプリケーションにおける適切な最初の初期化区間は、約35秒であり、それは、オーディオサンプルレートが48kHzであれば約1,094入力フレームでありオーディオサンプルレートが44.1kHzであれば約1,005入力フレームである。
E.実施の形態
本発明の種々の特徴を組み込んだ装置は、コンピュータ又は汎用コンピュータで見られるものと類似の部品と接続したディジタル信号プロセッサ(DSP)のような専門化した部品を含む他の装置により実行するソフトウェアを含む種々の方法で実行することができる。図10は、本発明の特徴を実行するために用いることができる装置70の概略ブロック線図である。プロセッサ72は、計算原資を提供する。RAM73は、処理用のプロセッサで用いられるシステムランダムアクセスメモリである。ROM74は、装置70を動作させ本発明の種々の特徴をおそらく実行させるために必要なプログラムを記憶する読み出し専用メモリ(ROM)のような永続性のある記憶装置を表す。I/Oコントロール75は、通信チャンネル76,77を経由して信号を受信し伝送するインターフェース回路を表す。記載の実施の形態において、全ての主なシステム部品はバス71に、これは2以上の物理バス又はロジカルバスであってもよいが、接続されている。しかしながら、バスアーキテクチャーが本発明の実施に必要というわけではない。
汎用コンピュータシステムに組み込まれた実施形態において、キーボード又はマウス、及びディスプレーのような装置とインターフェースするために、及び、磁気テープ又はディスク、又は光媒体のような記憶媒体を有する記憶装置を制御するために、付加的な部品を具備してもよい。この記憶媒体は、オペレーティングシステム、ユーティリティー、及びアプリケーションの命令プログラムを記憶するために用いることができ、本発明の種々の特徴を実行するプログラムを含めることができる。
本発明のさまざまな特徴を実行するために必要な機能は、個別の論理要素、集積回路、1以上のASICs及び/又はプログラム制御されるプロセッサを含む広くさまざまな方法に用いられる構成要素により実行される。これらの構成要素を用いる方法は本発明にとって重要ではない。
本発明を実施するソフトウェアは、超音波から赤外周波数を含む範囲のスペクトルでのベースバンド通信経路又は変調通信経路のような機械的に読み出し可能なさまざまな媒体、又は、磁気テープ、磁気カード、磁気ディスク、光学カード又は光学ディスク、及び紙を含む媒体上の検出可能なマーキングを含んで、原則としてあらゆる記憶技術を含む、情報を伝達する記憶媒体により伝達することができる。
本発明の種々の特徴を組み込むことのできるコーディングシステムに用いるエンコーディングトランスミッターの概略ブロック線図である。 ブロックの順列に構成したオーディオ情報の概念図である。 ブロックの順列に構成したオーディオ情報の概念図である。 ブロックの順列に構成したオーディオ情報の概念図である。 オーディオ情報の隣り合うフレームに構成したオーディオ情報のブロックの概念図である。 エンコードされた出力信号を生成するために入力オーディオ情報をそりするエンコーディングトランスミッターの概略ブロック線図である。 オーディオ信号セグメントを並列的にエンコードするために構成した複数のエンコーディングトランスミッターの概略ブロック線図である。 仮想的なタイプIIパラメータの値をグラフで示したものである。 重複したオーディオ信号セグメントを並列的にエンコードするために構成した複数のエンコーディングトランスミッターの概略ブロック線図である。 並列的に動作する複数のエンコーディングトランスミッターを制御するためのシステムの概略ブロック線図である。 並列的に動作する複数のエンコーディングトランスミッターを制御するためのシステムの概略ブロック線図である。 本発明の種々の特徴を実行するために用いることのできる装置の概略ブロック線図である。

Claims (24)

  1. 各ブロックがそれぞれ始まりと終わりを有するブロックの順列に構成されたオーディオサンプルからなるオーディオ情報のストリームをエンコードする方法であって、最初のブロックは2番目のブロックに先行し、2番目のブロックに3番目のブロックが続き、3番目のブロックに4番目のブロックがすぐ続き、4番目のブロックに5番目のブロックが続き、
    (a)重複区間でお互いに重複したオーディオ情報のストリームの最初のセグメントと2番目のセグメントとを特定するステップであって、
    (1)前記最初のセグメントは、前記最初のブロックで始まり前記3番目のブロックで終わる複数のブロックを具備し、
    (2)前記2番目のセグメントは、前記2番目のブロックで始まり、前記4番目のブロックを含み、前記5番目のブロックで終わる複数のブロックを具備し、
    (3)前記重複区間は、前記2番目のブロックの始まりから前記4番目のブロックの始まりまで広がっている、
    ことを特徴とするステップと、
    (b)最初のエンコードされたオーディオ情報のブロックと、前記3番目のブロックを含むブロックまでのオーディオサンプルのブロックに対応する最初のコントロールパラメータとを生成するために、前記オーディオ情報のストリームの前記最初のセグメントに最初のエンコーディング処理を適用するステップであって、
    (1)ブロック中の前記最初のエンコードされたオーディオ情報は、前記3番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記最初のセグメント中の対応するオーディオサンプルのブロックに応答して生成され、
    (2)前記ブロック中の前記最初のコントロールパラメータは、前記最初のブロックから前記3番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記最初のセグメント中の対応するオーディオサンプルのブロックと先行するオーディオサンプルのブロックとに応答して生成される、
    ことを特徴とするステップと、
    (c)2番目のエンコードされたオーディオ情報と4番目のブロックから5番目のブロックを含むブロックまでのオーディオサンプルのブロックに対応する2番目のコントロールパラメータを生成し、前記3番目のブロック中のオーディオサンプルに対応する2番目のコントロールパラメータを生成するために、前記オーディオ情報のストリームの2番目のセグメントに2番目のエンコーディング処理を適用するステップであって、
    (1)ブロック中の前記2番目のエンコードされたオーディオ情報は、前記4番目のブロックから前記5番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記2番目のセグメント中の対応するオーディオサンプルのブロックに応答して生成され、
    (2)前記ブロック中の前記2番目のコントロールパラメータは、前記2番目のブロックから前記5番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記2番目のセグメント中の対応するオーディオサンプルのブロックと先行するオーディオサンプルのブロックに応答して生成され、
    (3)前記重複区間は、前記3番目のブロックの前記最初のコントロールパラメータの値と前記2番目のコントロールパラメータの値との差が閾値以下になるような区間である、
    ことを特徴とするステップと、
    (d)前記最初のエンコードされたオーディオ情報のブロックと前記2番目のエンコードされたオーディオ情報のブロックとを出力信号にアセンブルするステップであって、
    (1)前記最初のコントロールパラメータと前記2番目のコントロールパラメータとは、出力信号にアセンブルされ、又は
    (2)前記最初のエンコーディング処理は、前記最初のコントロールパラメータに応答して前記最初のエンコードされたオーディオ情報を生成し、前記2番目のエンコーディング処理は、前記2番目のコントロールパラメータに応答して前記2番目のエンコードされたオーディオ情報を生成する、
    ことを特徴とするステップと、
    を具備することを特徴とする方法。
  2. 前記オーディオ情報のストリームは、フレームに構成され、各フレームは複数のブロックを有し、それぞれのフレーム中の最初のブロックと、2番目のブロックと、4番目のブロックは始まりのブロックであり、それぞれのフレーム中の3番目のブロックと5番目のブロックは終わりのブロックであることを特徴とする請求項1に記載の方法。
  3. 前記最初のエンコーディング処理と前記2番目のエンコーディング処理は、エンコードされたオーディオ情報に適用した相補的なデコーディング処理により時間領域でエイリアシング・アーティファクトを生じさせるようなオーディオサンプルのブロックに、フィルターバンクを適用することにより該エンコードされたオーディオ情報を生成させ、前記ブロックの順列中の前記オーディオサンプルのブロックは、相補的なデコーディング処理による時間領域でのエイリアシング・アーティファクトによる影響を緩和させる量だけ相互に重複していることを特徴とする、請求項1に記載の方法。
  4. 前記最初のコントロールパラメータと前記2番目のコントロールパラメータとは、前記出力信号にアセンブルされ、前記重複区間は、35秒より大きいことを特徴とする請求項1に記載の方法。
  5. 前記最初のエンコーディング処理と前記2番目のエンコーディング処理は、それぞれ、前記最初のコントロールパラメータと前記2番目のコントロールパラメータとに応答し、前記重複区間は、4,500ミリ秒より大きいことを特徴とする請求項1に記載の方法。
  6. 前記閾値の量は、前記最初のコントロールパラメータに従い前記3番目のブロックをエンコードしたオーディオ情報をデコードしたオーディオ信号と、前記2番目のコントロールパラメータに従い前記3番目のブロックをエンコードしたオーディオ情報をデコードしたオーディオ信号との差が、感知できない程度であることを特徴とする請求項1に記載の方法。
  7. 前記最初のコントロールパラメータと前記2番目のコントロールパラメータとは、前記最初のエンコーディング処理と前記2番目のエンコーディング処理とに相補的なデコーディング処理に用いられる係数の値を表し、前記記閾値の量は該係数における1dBに等しい変化を表すことを特徴とする請求項1に記載の方法。
  8. 前記最初のコントロールパラメータと前記2番目のコントロールパラメータとは、量子化ステップサイズに従って量子化された値で表され、前記記閾値の量は0以上の量子化ステップサイズの整数値であることを特徴とする請求項1に記載の方法。
  9. 各ブロックがそれぞれ始まりと終わりを有するブロックの順列に構成されたオーディオサンプルからなるオーディオ情報のストリームをエンコードする装置であって、最初のブロックは2番目のブロックに先行し、2番目のブロックに3番目のブロックが続き、3番目のブロックに4番目のブロックがすぐ続き、4番目のブロックに5番目のブロックが続き、
    (a)重複区間でお互いに重複したオーディオ情報のストリームの最初のセグメントと2番目のセグメントとを特定する手段であって、
    (1)前記最初のセグメントは、前記最初のブロックで始まり前記3番目のブロックで終わる複数のブロックを具備し、
    (2)前記2番目のセグメントは、前記2番目のブロックで始まり、前記4番目のブロックを含み、前記5番目のブロックで終わる複数のブロックを具備し、
    (3)前記重複区間は、前記2番目のブロックの始まりから前記4番目のブロックの始まりまで広がっている、
    ことを特徴とする手段と、
    (b)最初のエンコードされたオーディオ情報のブロックと、前記3番目のブロックを含むブロックまでのオーディオサンプルのブロックに対応する最初のコントロールパラメータとを生成するために、前記オーディオ情報のストリームの前記最初のセグメントに最初のエンコーディング処理を適用する手段であって、
    (1)ブロック中の前記最初のエンコードされたオーディオ情報は、前記3番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記最初のセグメント中の対応するオーディオサンプルのブロックに応答して生成され、
    (2)前記ブロック中の前記最初のコントロールパラメータは、前記最初のブロックから前記3番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記最初のセグメント中の対応するオーディオサンプルのブロックと先行するオーディオサンプルのブロックとに応答して生成される、
    ことを特徴とする手段と、
    (c)2番目のエンコードされたオーディオ情報と4番目のブロックから5番目のブロックを含むブロックまでのオーディオサンプルのブロックに対応する2番目のコントロールパラメータを生成し、前記3番目のブロック中のオーディオサンプルに対応する2番目のコントロールパラメータを生成するために、前記オーディオ情報のストリームの2番目のセグメントに2番目のエンコーディング処理を適用する手段であって、
    (1)ブロック中の前記2番目のエンコードされたオーディオ情報は、前記4番目のブロックから前記5番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記2番目のセグメント中の対応するオーディオサンプルのブロックに応答して生成され、
    (2)前記ブロック中の前記2番目のコントロールパラメータは、前記2番目のブロックから前記5番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記2番目のセグメント中の対応するオーディオサンプルのブロックと先行するオーディオサンプルのブロックに応答して生成され、
    (3)前記重複区間は、前記3番目のブロックの前記最初のコントロールパラメータの値と前記2番目のコントロールパラメータの値との差が閾値以下になるような区間である、
    ことを特徴とする手段と、
    (d)前記最初のエンコードされたオーディオ情報のブロックと前記2番目のエンコードされたオーディオ情報のブロックとを出力信号にアセンブルする手段であって、
    (1)前記最初のコントロールパラメータと前記2番目のコントロールパラメータとは、出力信号にアセンブルされ、又は
    (2)前記最初のエンコーディング処理は、前記最初のコントロールパラメータに応答して前記最初のエンコードされたオーディオ情報を生成し、前記2番目のエンコーディング処理は、前記2番目のコントロールパラメータに応答して前記2番目のエンコードされたオーディオ情報を生成する、
    ことを特徴とする手段と、
    を具備することを特徴とする装置。
  10. 前記オーディオ情報のストリームは、フレームに構成され、各フレームは複数のブロックを有し、それぞれのフレーム中の最初のブロックと、2番目のブロックと、4番目のブロックは始まりのブロックであり、それぞれのフレーム中の3番目のブロックと5番目のブロックは終わりのブロックであることを特徴とする請求項9に記載の装置。
  11. 前記最初のエンコーディング処理と前記2番目のエンコーディング処理は、エンコードされたオーディオ情報に適用した相補的なデコーディング処理により時間領域でエイリアシング・アーティファクトを生じさせるようなオーディオサンプルのブロックに、フィルターバンクを適用することにより該エンコードされたオーディオ情報を生成させ、前記ブロックの順列中の前記オーディオサンプルのブロックは、相補的なデコーディング処理による時間領域でのエイリアシング・アーティファクトによる影響を緩和させる量だけ相互に重複していることを特徴とする、請求項9に記載の方法。
  12. 前記最初のコントロールパラメータと前記2番目のコントロールパラメータとは、前記出力信号にアセンブルされ、前記重複区間は、35秒より大きいことを特徴とする請求項9に記載の装置。
  13. 前記最初のエンコーディング処理と前記2番目のエンコーディング処理は、それぞれ、前記最初のコントロールパラメータと前記2番目のコントロールパラメータとに応答し、前記重複区間は、4,500ミリ秒より大きいことを特徴とする請求項9に記載の装置。
  14. 前記閾値の量は、前記最初のコントロールパラメータに従い前記3番目のブロックをエンコードしたオーディオ情報をデコードしたオーディオ信号と、前記2番目のコントロールパラメータに従い前記3番目のブロックをエンコードしたオーディオ情報をデコードしたオーディオ信号との差が、感知できない程度であることを特徴とする請求項9に記載の装置。
  15. 前記最初のコントロールパラメータと前記2番目のコントロールパラメータとは、前記最初のエンコーディング処理と前記2番目のエンコーディング処理とに相補的なデコーディング処理に用いられる係数の値を表し、前記記閾値の量は該係数における1dBに等しい変化を表すことを特徴とする請求項9に記載の装置。
  16. 前記最初のコントロールパラメータと前記2番目のコントロールパラメータとは、量子化ステップサイズに従って量子化された値で表され、前記記閾値の量は0以上の量子化ステップサイズの整数値であることを特徴とする請求項9に記載の装置。
  17. 各ブロックがそれぞれ始まりと終わりを有するブロックの順列に構成されたオーディオサンプルからなるオーディオ情報のストリームをエンコードする方法を実施するための装置で実行可能な命令のプログラムを運ぶ媒体であって、ここで、最初のブロックは2番目のブロックに先行し、2番目のブロックに3番目のブロックが続き、3番目のブロックに4番目のブロックがすぐ続き、4番目のブロックに5番目のブロックが続き、該方法は、
    (a)重複区間でお互いに重複したオーディオ情報のストリームの最初のセグメントと2番目のセグメントとを特定するステップであって、
    (1)前記最初のセグメントは、前記最初のブロックで始まり前記3番目のブロックで終わる複数のブロックを具備し、
    (2)前記2番目のセグメントは、前記2番目のブロックで始まり、前記4番目のブロックを含み、前記5番目のブロックで終わる複数のブロックを具備し、
    (3)前記重複区間は、前記2番目のブロックの始まりから前記4番目のブロックの始まりまで広がっている、
    ことを特徴とするステップと、
    (b)最初のエンコードされたオーディオ情報のブロックと、前記3番目のブロックを含むブロックまでのオーディオサンプルのブロックに対応する最初のコントロールパラメータとを生成するために、前記オーディオ情報のストリームの前記最初のセグメントに最初のエンコーディング処理を適用するステップであって、
    (1)ブロック中の前記最初のエンコードされたオーディオ情報は、前記3番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記最初のセグメント中の対応するオーディオサンプルのブロックに応答して生成され、
    (2)前記ブロック中の前記最初のコントロールパラメータは、前記最初のブロックから前記3番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記最初のセグメント中の対応するオーディオサンプルのブロックと先行するオーディオサンプルのブロックとに応答して生成される、
    ことを特徴とするステップと、
    (c)2番目のエンコードされたオーディオ情報と4番目のブロックから5番目のブロックを含むブロックまでのオーディオサンプルのブロックに対応する2番目のコントロールパラメータを生成し、前記3番目のブロック中のオーディオサンプルに対応する2番目のコントロールパラメータを生成するために、前記オーディオ情報のストリームの2番目のセグメントに2番目のエンコーディング処理を適用するステップであって、
    (1)ブロック中の前記2番目のエンコードされたオーディオ情報は、前記4番目のブロックから前記5番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記2番目のセグメント中の対応するオーディオサンプルのブロックに応答して生成され、
    (2)前記ブロック中の前記2番目のコントロールパラメータは、前記2番目のブロックから前記5番目のブロックを含むブロックまでの前記オーディオ情報のストリームの前記2番目のセグメント中の対応するオーディオサンプルのブロックと先行するオーディオサンプルのブロックに応答して生成され、
    (3)前記重複区間は、前記3番目のブロックの前記最初のコントロールパラメータの値と前記2番目のコントロールパラメータの値との差が閾値以下になるような区間である、
    ことを特徴とするステップと、
    (d)前記最初のエンコードされたオーディオ情報のブロックと前記2番目のエンコードされたオーディオ情報のブロックとを出力信号にアセンブルするステップであって、
    (1)前記最初のコントロールパラメータと前記2番目のコントロールパラメータとは、出力信号にアセンブルされ、又は
    (2)前記最初のエンコーディング処理は、前記最初のコントロールパラメータに応答して前記最初のエンコードされたオーディオ情報を生成し、前記2番目のエンコーディング処理は、前記2番目のコントロールパラメータに応答して前記2番目のエンコードされたオーディオ情報を生成する、
    ことを特徴とするステップと、
    を具備することを特徴とする媒体。
  18. 前記オーディオ情報のストリームは、フレームに構成され、各フレームは複数のブロックを有し、それぞれのフレーム中の最初のブロックと、2番目のブロックと、4番目のブロックは始まりのブロックであり、それぞれのフレーム中の3番目のブロックと5番目のブロックは終わりのブロックであることを特徴とする請求項17に記載の媒体。
  19. 前記最初のエンコーディング処理と前記2番目のエンコーディング処理は、エンコードされたオーディオ情報に適用した相補的なデコーディング処理により時間領域でエイリアシング・アーティファクトを生じさせるようなオーディオサンプルのブロックに、フィルターバンクを適用することにより該エンコードされたオーディオ情報を生成させ、前記ブロックの順列中の前記オーディオサンプルのブロックは、相補的なデコーディング処理による時間領域でのエイリアシング・アーティファクトによる影響を緩和させる量だけ相互に重複していることを特徴とする、請求項17に記載の媒体。
  20. 前記最初のコントロールパラメータと前記2番目のコントロールパラメータとは、前記出力信号にアセンブルされ、前記重複区間は、35秒より大きいことを特徴とする請求項17に記載の媒体。
  21. 前記最初のエンコーディング処理と前記2番目のエンコーディング処理は、それぞれ、前記最初のコントロールパラメータと前記2番目のコントロールパラメータとに応答し、前記重複区間は、4,500ミリ秒より大きいことを特徴とする請求項17に記載の媒体。
  22. 前記閾値の量は、前記最初のコントロールパラメータに従い前記3番目のブロックをエンコードしたオーディオ情報をデコードしたオーディオ信号と、前記2番目のコントロールパラメータに従い前記3番目のブロックをエンコードしたオーディオ情報をデコードしたオーディオ信号との差が、感知できない程度であることを特徴とする請求項17に記載の媒体。
  23. 前記最初のコントロールパラメータと前記2番目のコントロールパラメータとは、前記最初のエンコーディング処理と前記2番目のエンコーディング処理とに相補的なデコーディング処理に用いられる係数の値を表し、前記記閾値の量は該係数における1dBに等しい変化を表すことを特徴とする請求項17に記載の媒体。
  24. 前記最初のコントロールパラメータと前記2番目のコントロールパラメータとは、量子化ステップサイズに従って量子化された値で表され、前記記閾値の量は0以上の量子化ステップサイズの整数値であることを特徴とする請求項17に記載の媒体。
JP2008508857A 2005-04-28 2006-03-23 オーディオエンコーダを並列に動作させる方法及びシステム Pending JP2008539462A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/119,341 US7418394B2 (en) 2005-04-28 2005-04-28 Method and system for operating audio encoders utilizing data from overlapping audio segments
PCT/US2006/010835 WO2006118695A1 (en) 2005-04-28 2006-03-23 Method and system for operating audio encoders in parallel

Publications (1)

Publication Number Publication Date
JP2008539462A true JP2008539462A (ja) 2008-11-13

Family

ID=36600194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008508857A Pending JP2008539462A (ja) 2005-04-28 2006-03-23 オーディオエンコーダを並列に動作させる方法及びシステム

Country Status (9)

Country Link
US (1) US7418394B2 (ja)
EP (1) EP1878011B1 (ja)
JP (1) JP2008539462A (ja)
KR (1) KR20080002853A (ja)
CN (1) CN101167127B (ja)
AT (1) ATE509346T1 (ja)
AU (1) AU2006241420B2 (ja)
CA (1) CA2605423C (ja)
WO (1) WO2006118695A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015505070A (ja) * 2011-12-21 2015-02-16 ドルビー・インターナショナル・アーベー 並列アーキテクチャをもつオーディオ・エンコーダ

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7826494B2 (en) * 2005-04-29 2010-11-02 Broadcom Corporation System and method for handling audio jitters
CA2672165C (en) * 2006-12-12 2014-07-29 Ralf Geiger Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
CN102017402B (zh) 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
AU2009267518B2 (en) 2008-07-11 2012-08-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
PT2146344T (pt) 2008-07-17 2016-10-13 Fraunhofer Ges Forschung Esquema de codificação/descodificação de áudio com uma derivação comutável
FR2936898A1 (fr) * 2008-10-08 2010-04-09 France Telecom Codage a echantillonnage critique avec codeur predictif
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US9729120B1 (en) * 2011-07-13 2017-08-08 The Directv Group, Inc. System and method to monitor audio loudness and provide audio automatic gain control
CN105163398B (zh) 2011-11-22 2019-01-18 华为技术有限公司 连接建立方法和用户设备
TW201322022A (zh) * 2011-11-24 2013-06-01 Alibaba Group Holding Ltd 分散式資料流處理方法及其系統
US9312829B2 (en) * 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
EP2954635B1 (en) * 2013-02-19 2021-07-28 Huawei Technologies Co., Ltd. Frame structure for filter bank multi-carrier (fbmc) waveforms
KR102546098B1 (ko) * 2016-03-21 2023-06-22 한국전자통신연구원 블록 기반의 오디오 부호화/복호화 장치 및 그 방법
JP6537202B2 (ja) 2016-04-19 2019-07-03 ホアウェイ・テクノロジーズ・カンパニー・リミテッド ベクトル処理を使用する並行セグメント化
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
CN110574289B (zh) * 2017-05-04 2024-02-13 哈曼国际工业有限公司 用于调整音频信号的方法和装置以及音频系统
US10438597B2 (en) * 2017-08-31 2019-10-08 Dolby International Ab Decoder-provided time domain aliasing cancellation during lossy/lossless transitions
US11146607B1 (en) * 2019-05-31 2021-10-12 Dialpad, Inc. Smart noise cancellation
WO2021179321A1 (zh) * 2020-03-13 2021-09-16 深圳市大疆创新科技有限公司 音频数据处理方法、电子设备及计算机可读存储介质
CN113035234B (zh) * 2021-03-10 2024-02-09 湖南快乐阳光互动娱乐传媒有限公司 音频数据处理方法及相关装置
CN118210470B (zh) * 2024-05-21 2024-08-13 南京乐韵瑞信息技术有限公司 音频的播放方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001242894A (ja) * 1999-12-24 2001-09-07 Matsushita Electric Ind Co Ltd 信号処理装置、信号処理方法及び携帯型機器
JP2004069773A (ja) * 2002-08-01 2004-03-04 Yamaha Corp オーディオデータのエンコード装置およびエンコード方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US5388181A (en) * 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
US5369724A (en) * 1992-01-17 1994-11-29 Massachusetts Institute Of Technology Method and apparatus for encoding, decoding and compression of audio-type data using reference coefficients located within a band of coefficients
JP3189401B2 (ja) * 1992-07-29 2001-07-16 ソニー株式会社 音声データ符号化方法及び音声データ符号化装置
JP3475446B2 (ja) * 1993-07-27 2003-12-08 ソニー株式会社 符号化方法
US5488665A (en) * 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
JP3125543B2 (ja) * 1993-11-29 2001-01-22 ソニー株式会社 信号符号化方法及び装置、信号復号化方法及び装置、並びに記録媒体
CA2153170C (en) * 1993-11-30 2000-12-19 At&T Corp. Transmitted noise reduction in communications systems
US5696875A (en) * 1995-10-31 1997-12-09 Motorola, Inc. Method and system for compressing a speech signal using nonlinear prediction
US5917835A (en) * 1996-04-12 1999-06-29 Progressive Networks, Inc. Error mitigation and correction in the delivery of on demand audio
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
US6661430B1 (en) * 1996-11-15 2003-12-09 Picostar Llc Method and apparatus for copying an audiovisual segment
US6370504B1 (en) * 1997-05-29 2002-04-09 University Of Washington Speech recognition on MPEG/Audio encoded files
US6351730B2 (en) * 1998-03-30 2002-02-26 Lucent Technologies Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6704705B1 (en) * 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
EP1059756A1 (en) * 1999-06-09 2000-12-13 Lucent Technologies Inc. Speech transmission over packet switched networks
US6889183B1 (en) * 1999-07-15 2005-05-03 Nortel Networks Limited Apparatus and method of regenerating a lost audio segment
JP4639441B2 (ja) * 1999-09-01 2011-02-23 ソニー株式会社 ディジタル信号処理装置および処理方法、並びにディジタル信号記録装置および記録方法
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
DE69932861T2 (de) * 1999-10-30 2007-03-15 Stmicroelectronics Asia Pacific Pte Ltd. Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
US6772112B1 (en) * 1999-12-10 2004-08-03 Lucent Technologies Inc. System and method to reduce speech delay and improve voice quality using half speech blocks
BR0107420A (pt) * 2000-11-03 2002-10-08 Koninkl Philips Electronics Nv Processos de codificação de um sinal de entrada e de decodificação, sinal modificado modelado, meio de armazenagem, decodificador, reprodutor de áudio, e ,aparelho para codificação de sinais
JP2003110429A (ja) * 2001-09-28 2003-04-11 Sony Corp 符号化方法及び装置、復号方法及び装置、伝送方法及び装置、並びに記録媒体
US7363230B2 (en) * 2002-08-01 2008-04-22 Yamaha Corporation Audio data processing apparatus and audio data distributing apparatus
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
US7356748B2 (en) * 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
US8983834B2 (en) * 2004-03-01 2015-03-17 Dolby Laboratories Licensing Corporation Multichannel audio coding
CN1934619B (zh) * 2004-03-17 2010-05-26 皇家飞利浦电子股份有限公司 音频编码
US7742914B2 (en) * 2005-03-07 2010-06-22 Daniel A. Kosek Audio spectral noise reduction method and apparatus
US7196641B2 (en) * 2005-04-26 2007-03-27 Gen Dow Huang System and method for audio data compression and decompression using discrete wavelet transform (DWT)

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001242894A (ja) * 1999-12-24 2001-09-07 Matsushita Electric Ind Co Ltd 信号処理装置、信号処理方法及び携帯型機器
JP2004069773A (ja) * 2002-08-01 2004-03-04 Yamaha Corp オーディオデータのエンコード装置およびエンコード方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9548061B2 (en) 2011-11-30 2017-01-17 Dolby International Ab Audio encoder with parallel architecture
JP2015505070A (ja) * 2011-12-21 2015-02-16 ドルビー・インターナショナル・アーベー 並列アーキテクチャをもつオーディオ・エンコーダ

Also Published As

Publication number Publication date
ATE509346T1 (de) 2011-05-15
EP1878011B1 (en) 2011-05-11
CA2605423C (en) 2014-06-03
KR20080002853A (ko) 2008-01-04
US7418394B2 (en) 2008-08-26
CA2605423A1 (en) 2006-11-09
US20060247928A1 (en) 2006-11-02
AU2006241420B2 (en) 2012-01-12
CN101167127B (zh) 2011-01-05
AU2006241420A1 (en) 2006-11-09
WO2006118695A1 (en) 2006-11-09
CN101167127A (zh) 2008-04-23
EP1878011A1 (en) 2008-01-16

Similar Documents

Publication Publication Date Title
JP2008539462A (ja) オーディオエンコーダを並列に動作させる方法及びシステム
JP7138140B2 (ja) パラメトリック・マルチチャネル・エンコードのための方法
US8738385B2 (en) Pitch-based pre-filtering and post-filtering for compression of audio signals
JP5253565B2 (ja) 合成されたスペクトル成分に適合するようにデコードされた信号の特性を使用するオーディオコーディングシステム
CA2697830C (en) A method and an apparatus for processing a signal
JP5302980B2 (ja) 複数の入力データストリームのミキシングのための装置
KR101679083B1 (ko) 2개의 블록 변환으로의 중첩 변환의 분해
AU2003243441C1 (en) Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
JP2006201785A (ja) デジタル信号の符号化/復号化方法及びその装置並びに記録媒体
KR100750115B1 (ko) 오디오 신호 부호화 및 복호화 방법 및 그 장치
US6463405B1 (en) Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband
KR100300887B1 (ko) 디지털 오디오 데이터의 역방향 디코딩 방법
US20050096765A1 (en) Reduction of memory requirements by de-interleaving audio samples with two buffers
US20050222847A1 (en) System and method for time domain audio slow down, while maintaining pitch
Chen et al. Fast time-frequency transform algorithms and their applications to real-time software implementation of AC-3 audio codec
KR20080010981A (ko) 데이터 부호화/복호화 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111018

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120306