JP5162589B2 - 音声復号化 - Google Patents

音声復号化 Download PDF

Info

Publication number
JP5162589B2
JP5162589B2 JP2009524878A JP2009524878A JP5162589B2 JP 5162589 B2 JP5162589 B2 JP 5162589B2 JP 2009524878 A JP2009524878 A JP 2009524878A JP 2009524878 A JP2009524878 A JP 2009524878A JP 5162589 B2 JP5162589 B2 JP 5162589B2
Authority
JP
Japan
Prior art keywords
frame
codebook
information
window
transient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009524878A
Other languages
English (en)
Other versions
JP2010501090A (ja
Inventor
ヨウ、ユリ
Original Assignee
デジタル ライズ テクノロジー シーオー.,エルティーディー.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/558,917 external-priority patent/US8744862B2/en
Priority claimed from US11/689,371 external-priority patent/US7937271B2/en
Application filed by デジタル ライズ テクノロジー シーオー.,エルティーディー. filed Critical デジタル ライズ テクノロジー シーオー.,エルティーディー.
Publication of JP2010501090A publication Critical patent/JP2010501090A/ja
Application granted granted Critical
Publication of JP5162589B2 publication Critical patent/JP5162589B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Amplifiers (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Description

本願は、2007年1月31日付の米国特許出願11/669,346「音声符号化システム(Audio Encoding System)」(‘346出願)の一部係属出願であり、2006年11月12日付の米国特許出願11/558,917「フレームベースデータの可変解像処理(Variable-Resolution Processing of Frame-Based Data)」(’917出願)の一部係属出願であり、2005年1月4日付の米国特許出願11/029,722「多チャンネルデジタル音声コーディング用装置および方法(Apparatus and Methods for Multichannel Digital Audio Coding)」(‘722出願)の一部係属出願であり、2004年9月7日付の米国暫定特許出願60/610,674「多チャンネルデジタル音声コーディング用装置および方法」の特典を請求しており、また、2006年8月18日付の米国暫定特許出願60/822,760「可変解像度フィルタリング(Variable-Resolution Filtering)」(’760出願)の特典を請求している。これら先行する出願は、それぞれ全文を記述する代わりに番号で本文中に挿入されている。
本発明は、通信チャンネル全体で受信されるかまたは記憶装置から読み出されたデジタル音声信号等の音声信号を復号化するシステム、方法および技術に関する。
音声信号を符号化した後に復号化するための様々な種類の技術が存在する。しかしながら、性能、品質および効率の改善は常に必要とされる。
本発明はなによりもまず、コードブックを量子化インデックスの指定された範囲に適用し(場合によっては量子化ユニットの境界を越えることすらある)、そのビットストリーム内のウィンドウ情報に基づく音声データの1フレーム内に適用される別々のウィンドウのシーケンスを表示することによって、ビットストリームから音声データを検索する復号化システム、方法および技術を提供することにより、この必要性に応えるものである。
よって、代表的な実施態様によれば、本発明はフレームベースのビットストリームから音声信号を復号化するためのシステム、方法および技術に関する。各フレームは、フレームに関与するおよび、フレーム内の音声データを表すエントロピー符号化済みの量子化インデックス処理情報を含む。その処理情報は、(i)エントロピーコードブックインデックス、(ii)そのコードブックが適用されるエントロピー符号化済みの量子化インデックスの範囲を指定するコードブック適用情報、および(iii)ウィンドウ情報、を含む。エントロピー符号化済みの量子化インデックスは、識別されたコードブックをエントロピー符号化済みの量子化インデックスの対応範囲に適用することにより復号化される。その後、その復号化された量子化インデックスを逆量子化することによりサブバンドサンプルが生成され、音声データの1つのフレーム内に適用された異なるウィンドウ関数のシーケンスが、ウィンドウ情報に基づいて識別される。サブバンドサンプルを逆変換し、そのウィンドウ情報により表示された複数の異なるウィンドウ関数を用いることにより、時間領域音声データが得られる。
前述の配置のおかげで、効率が一層向上すると同時にオリジナルの音声信号のより良好な(acceptable)再生が可能になることが多い。
前述要約は、本発明の局面の一部を簡単に説明しているにすぎない。請求項および以下の好ましい実施態様を添付図面と共に参照すれば、本発明をより完璧に理解することが可能であろう。
図1は、復号器を用いることも可能な、本発明の代表的な実施態様による様々な環境を示すブロック図である。
図2A〜2Bは、本発明の代表的な実施態様による、フレームをカバーするための1つのロングブロックの使用および、フレームをカバーするための多数のショートブロックの使用を示す図である。
図3A〜3Cは、本発明の代表的な実施態様による、過渡フレームの別々の例を示す。
図4は、本発明の代表的な実施態様による、音声信号復号化システム10のブロック図である。
本発明は、例えば記憶装置からの復元または通信チャンネル全体(across)での受信後に、音声信号を復号化するためのシステム、方法および技術に関与する。本発明の適用例としては、デジタル音声放送、デジタルテレビ(衛星、地上波および/または有線放送)、ホームシアター、デジタルシアター、レーザービデオディスクプレーヤー、インターネットのコンテンツストリーミングおよびパーソナルオーディオプレーヤーが挙げられるが、本発明はこれらに限定されるものではない。本発明の音声復号化システム、方法および技術は、例えば‘346出願の音声符号化システム、方法および技術と組み合わせて用いることも可能である。
本発明の復号器100が使用可能な包括的な環境が、図1に例示されている。一般的に言って、本発明の復号器100は自身の入力としてフレームベースのビットストリーム20を受信し、そのフレームベースのビットストリーム20は、各フレームについて、そのフレーム内に実音声データ(通常はエントロピー符号化済みの量子化インデックス)および様々な種類の処理情報(例えば、制御、書式設定および/または補助情報)を含む。ビットストリーム20は普通、ハードワイヤード接続または脱着式コネクタを介して復号器100に入力されるであろう。
上記のように、ビットストリーム20は多様なソースのいずれから発信されてもよいはずである。そのようなソースの例としては、アンテナ32で受信され復調器34でビットストリームに変換されるデジタル無線周波数(またはその他の電磁気)伝送(transmission)、適当な読出器38によってビットストリーム20が得られる(半導体、磁気あるいは光学等の)記憶装置36、復調器44でビットストリームが取り出されるケーブル接続42、または、ビットストリーム20を直接提供するケーブル接続48が挙げられる。例えば‘346出願に記載の技術のいずれかを用いてビットストリーム20を生成してもよい。上記のように、本発明の実施態様によっては、ビットストリーム20自体は、多重ビットストリーム等の他の信号、例えばMPEG2システムプロトコル等にしたがって多重化された信号からも得られるはずである。その場合その音声ビットストリームは、様々なフォーマットの映像ビットストリーム、他のフォーマットの音声ビットストリーム、およびメタデータをもって、あるいは、音声データのビットを表す冗長符号化済みでインターリービングおよび/または絶縁破壊済みのシンボルで(公知の技術のいずれかを用いて)変調された受信済み無線周波信号をもって多重化される。
'346出願でさらに詳細に記載されているように、本発明の好ましい実施態様では、ビットストリーム20内の音声データは(好ましくは単体正弦波ベース変換技術(unitary sinusoidal-based transform technique)を用いて)既にサブバンドサンプルに変換され、量子化されてからエントロピー符号化されている。好ましい実施態様では、音声データは変形離散コサイン変換(MDCT)を用いて変換され、量子化されてから適当なハフマン符号化を用いてエントロピー符合化されている。しかしながら、別の実施態様では、それ以外の変換および/またはエントロピー符号化技術を用いてもよく、MDCTまたはハフマンに関する以下の説明は典型例を示すにすぎないという点を理解する必要がある。音声データはパルス符号変調(PCM)サンプルまたは音声サンプルとしてここで様々に言及されているが、その変換が単一であるのが好ましいため、サンプル数は時間領域および変換領域内では同一である。
またここでは、音声データならびに制御、書式設定および補助情報の大部分がハフマン符号化済みとして記載されているが、そのような符号化が一般的には任意であり、好ましい実施態様ではデータサイズの縮小目的で用いられているにすぎない点を理解しなくてはならない。使用の際、復号器10は符号器により用いられているのと同じコードブックを記憶するのが好ましい。好ましいハフマンコードブックについては‘760出願で説明されており、それによればその「コード(Code)」は十進法フォーマットのハフマンコードであり、「ビットインクレメント(Bit Increment)」は現在のコードに先行するライン上のコードと比較するにあたって必要な(十進法での)追加ビット数であり、「インデックス(Index)」は十進法での非符号化値である。
好ましい実施態様では、入力音声データはフレームベースであり、各フレームは特定の時間間隔を規定し、その時間間隔内に各多重音声チャンネルに対応するサンプルを含む。そのようなフレームがそれぞれ比較的小さいフレームサイズのセットから選択される固定数のサンプルを持ち、サンプリング率およびフレーム間で許容可能な遅延量等次第で特定の時間間隔にあわせて選択されるのが好ましい。より好ましくは、各フレームが128、256、512、または1024個のサンプルを含み、遅延を減らすことが重要であるという状況でなければ長いフレームのほうが好まれる。以下に記す実施例の大部分では、各フレームは1024個のサンプルで構成されると推定される。しかしながら、本発明がそのような実施例に限定されるとみなすべきではない。
処理(主としてMDCTまたは他の変換処理)目的で、フレームを多数のより小さい、好ましくは同一サイズのブロックに分割する(ここでは、通常はもっと長いMDCTまたはその他の変換ブロックと区別するために「一次ブロック」と記す)こともある。この分割を図2Aおよび2Bに示す。図2Aでは、フレーム50全体が1つの(例えば1024個の音声データサンプルを含む)一次ブロック51で覆われている。図2Bでは、フレーム50は隣接する8個の一次ブロック52〜59(例えばそれぞれが128個の音声データサンプルを含む)で覆われている。
サンプルのフレームをそれぞれ過渡フレーム(すなわち、信号過渡を含むもの)または準定常フレーム(すなわち、過渡を含まないもの)として分類してもよい。この点において、信号過渡は、信号エネルギーの唐突かつ迅速な立上がり(動作開始)または立下がりとして規定されるのが好ましい。過渡信号はまばらにしか発生せず、本発明の目的からいえば、各フレームで3つ以上の過渡信号は発生しないであろうと推定される。
ここで用いられている「過渡セグメント」という用語は、あるフレーム全体または、信号が同一または類似の統計学的性質を有するフレームのセグメントを指す。よって、準定常フレームは一般的に1個の過渡セグメントで構成され、一方で過渡フレームは普通、2個または3個の過渡セグメントで構成されるであろう。例えば、フレーム内で過渡の動作開始または立下がりのみが起こった場合、過渡フレームは通常2個の過渡セグメントを持つことになる。内1つはその動作開始または立下がり前にフレームのその部分を覆うもので、もう1つはその動作開始または立下がり後にフレームのその部分を覆うものである。1つの過渡フレーム中で動作開始と立下がりの両方が起こるとき、通常3つの過渡セグメントが存在することになる。それらは、その動作開始または立下がりによってセグメント化されたフレームのその部分をそれぞれ覆うものである。
これらの実施例を図3A〜3Cに示す。これらの図はそれぞれ、同サイズの8個の一次ブロック61〜68に分割済みであるサンプルの1つのフレーム60を示す。図3Aでは、過渡信号70が第2ブロック62で発生するため、過渡セグメントが2つ存在する。1つはブロック61単独で構成されるもので、もう1つはブロック62〜68で構成される。図3Bでは、過渡信号71がブロック64で発生し、別の過渡信号72がブロック66で発生するので、3つの過渡セグメントが存在する。内1つはブロック61〜63で構成され、別の1つはブロック64〜65で構成され、残る1つはブロック66〜68で構成される。図3Cでは、過渡信号73がブロック68で発生するので、過渡セグメントが2つ存在する。1つはブロック61〜67で構成され、もう1つはブロック68のみで構成される。
図4は、本発明の代表的な実施態様によるところの音声信号復号化システム100のブロック図である。図4中、実線の矢印は音声データの流れを示し、破線の矢印は制御、書式設定および/または補助情報の流れを示し、破線の箱は、ビットストリーム20中の対応する制御データ内で示される場合に限り本実施態様の構成要素がインスタンス化されることを示す。詳細を以下に記す。代表的な副次的実施態様では、以下に記載する通り、図4中の個々のセクション、モジュールまたは構成要素は、コンピュータ実行可能コードで完全に実現される。しかしながら、実施態様によっては、そのようなセクションまたは構成要素のいずれかまたは全てを、ここで説明されている他の方法のいずれかで実現してもよい。
ビットストリーム20はまず、デマルチプレクサ115に入力される。デマルチプレクサ115はビットストリーム20をデータのフレームに分割し、各フレームのデータをアンパックすることにより、処理情報と音声−信号情報とを分離する。第1のタスクについて、ビットストリーム20のデータをフレームのシーケンスとして解釈するのが好ましい。ここで、新フレームが各自同じ「同期語」(好ましくは0x7FFF)で始まる。本発明の代表的な実施態様による、これらの機能を実施するためのコンピュータプログラムリスティングは、‘760出願(引例として記載済み)で説明されており、例えばその中で記載されているような、Bit#Stream()、Frame()、FrameHeader()およびUnpackWinSequence()、さらにそのように列挙されたモジュールにより呼び出されたり参照されたりした他のモジュール、またはそれらの記載を含む。
各データフレームの構造は以下のようになっているのが好ましい。
Figure 0005162589
ヘッダ情報
フレームヘッダ内部に、想定される2種類のフレームのうち1つを表示するシングルビットフィールド「nFrmHeaderType」、汎用フレーム(例えばnFrmHeaderType=0で表示される)または拡張フレーム(例えばnFrmHeaderType=1で表示される)が含まれるのが好ましい。このフラッグに続くビットがヘッダ情報の残りを構成する。好ましい実施態様では、そのフレームが汎用として指示されたかあるいは拡張として指示されたかにもよるが、その情報は以下のように要約される。
Figure 0005162589
よって、例えば、nFrmHeaderTypeが汎用フレームヘッダを指すのであれば、nFrmHeaderTypeに続く最初の10ビットはnNumWord(以下に規定)として解釈され、次の3ビットはnNumNormalCh(以下に規定)、といったように解釈される。しかしながら、nFrmHeaderTypeが拡張フレームヘッダを指すのであれば、nFrmHeaderTypeに続く最初の13ビットは、nNumWord(以下に規定)として解釈され、次の6ビットはnNumNormalCh(以下に規定)、といったように解釈される。本発明の実施態様で用いられる様々なヘッダフィールドを以下に説明する。
フィールド「nNumWord」は、同期化語の始まり(その第1バイト)から現在のフレーム用エラー検出語の最後までの、現在のフレーム(32ビット語)中の音声データの長さを指す。
フィールド「nNumBlocksPerFrm」は、音声データの現在のフレームに対応するショートウィンドウ変形離散コサイン変換(MDCT)ブロックの数を指す。本発明の好ましい実施態様では、1つのショートウィンドウMDCTブロックが128個の一次音声データサンプル(好ましくはエントロピー符号化済みの量子化サブバンドサンプル)を含むので、音声データの1フレームに対応する一次音声データサンプルの数は128*nNumBlocksPerFrmである。
ところで、境界効果を防止するためには、MDCTブロックが一次ブロックより大きいのが好ましく、一次ブロックの倍のサイズにするのがより好ましい。それにより、ショート一次ブロックサイズが128個の音声データサンプルで構成されるとすると、ショートMDCTブロックが256個のサンプルで構成されるのが好ましい。そして、ロング一次ブロックが1024個の音声データサンプルで構成されるとすると、ロングMDCTブロックが2048個のサンプルで構成される。各一次ブロックが新しい(後続の)音声データサンプルで構成されるのがより好ましい。
フィールド「nSampleRateIndex」は、音声信号に用いられたサンプリング周波数のインデックスを指す。インデックスおよびそれに対応するサンプル周波数の組み合わせ例を以下の表に示す。
Figure 0005162589
フィールド「nNumNormalCh」は、正規チャンネル数を指す。このフィールドを表すビット数は、フレームヘッダのタイプにより決定される。本実施態様では、nFrmHeaderTypeが汎用フレームヘッダを指すのであれば、3ビットが用いられ正規チャンネルの数は1から8の範囲になり得る。一方、nFrmHeaderTypeが拡張フレームヘッダを指すのであれば、6ビットが用いられ正規チャンネルの数は1から64の範囲になり得る。
フィールド「nNumLfeCh」は、LFEチャンネル数を指す。本実施態様では、nFrmHeaderTypeが汎用フレームヘッダを指すのであれば、1ビットが用いられ正規チャンネルの数は0から1の範囲になり得る。一方で、nFrmHeaderTypeが拡張フレームヘッダを指すのであれば、2ビットが用いられ正規チャンネルの数は0から3の範囲になり得る。
フィールド「bAuxChCfg」は、現在のフレームの末端に、例えば追加のチャンネル構成情報を含む補助データがあるかどうかを指す。bAuxChCfg=0がnoを、bAuxChCfg=1がyesを意味するのが好ましい。
フィールド「bUseSumDiff」は、和差符号化が現在のフレームで既に適用されているかどうかを指す。このフィールドは汎用フレームヘッダ内でのみ提示され、拡張フレームヘッダには現れないのが好ましい。bUseSumDiff=0がnoを、bUseSumDiff=1がyesを意味するのが好ましい。
フィールド「bUseJIC」は、結合強度(joint intensity)符号化が現在のフレームに既に適用されているかどうかを指す。ここでも、このフィールドが汎用フレームヘッダにのみ提示され拡張フレームヘッダには現れないのが好ましい。bUseJIC=0がnoを、bUseJIC=1がyesを意味するのが好ましい。
フィールド「nJicCb」は、結合強度符号化が現在のフレームに既に適用されている場合の結合強度符号化の開始臨界帯域を指す。ここでもこのフレームが汎用フレームヘッダにのみ存在し拡張フレームヘッダには現れないのが好ましい。
上記のように、ヘッダ内のデータは全て処理情報である。以下で明らかにされるように、チャンネル特定(specific)データは、そのようなデータの大部分が音声データサンプルであるものの、その一部が処理情報である。
チャンネルデータ構造
好ましい実施態様では、各正規チャンネルの汎用データ構造は以下のようになっている。
Figure 0005162589
しかしながら、実施態様によっては、正規チャンネルが全てウィンドウシーケンス情報を含むわけではない。ウィンドウシーケンス情報が1つまたは複数のチャンネルに提供されない場合、このデータ群がチャンネル0(Ch0)用に提供されたウィンドウシーケンス情報から複写されるのが好ましい。ただし実施態様によっては、その代わりに指示された他のチャンネルから情報が複写される。
好ましい実施態様では、各LFEチャンネルの汎用データ構造は以下のようになっている。
Figure 0005162589
上記のように、ウィンドウシーケンス情報(正規チャンネルのみに提供)が、MDCTウィンドウ関数インデックスを含むのが好ましい。本実施態様では、そのインデックスは「nWinTypeCurrent」として指示され、以下の値および意味を有する。
Figure 0005162589
nWinTypeCurrent=0、1、2、3、4、5、6、7または8のとき、ロングMDCTウィンドウ関数が表示され、1つのロングウィンドウ関数がフレーム全体に用いられる。nWinTypeCurrentの他の値(nWinTypeCurrent=9、10、11または12)は、ショートMDCTウィンドウ関数を指す。後者の場合、現在のフレームはnNumBlockPerFrm(例えば8まで)ショートMDCTで構成され、nWinTypeCurrentはこれらnNumBlockPerFrmショートMDCTの最初と最後のウィンドウ関数のみを指す。フレーム内の他のショートウィンドウ関数は、完全(perfect)復元要件との関連で(in conjunction with)、過渡が現れる位置により決定されるのが好ましい(詳細は‘917出願に記載)。いずれにせよ、受信されたデータが、符号器側で用いられたウィンドウシーケンス全体を全面的に識別するのに適したウィンドウ情報を含むのが好ましい。
この点に関して、本実施態様では、フィールド「nNumCluster」が、現在のフレーム中の過渡セグメント数を指す。ウィンドウ関数インデックスnWinTypeCurrentが、ロングウィンドウ関数が現在のフレーム(nWinTypeCurrent=0、1、2、3、4、5、6、7または8)中で適用されることを指すとき、現在のフレームが準定常であるため、過渡セグメントの数は必然的に(implicit)1となり、nNumClusterがビットストリームに現れる必要はない(だから送信されないのが好ましい)。
一方で、好ましい実施態様では、ショートウィンドウ関数が表示されその値がそれぞれ1〜3の過渡セグメントに対応して0〜2の範囲であるときに、2ビットがnNumClusterに割り振られる。ショートウィンドウ関数は、準定常フレーム(すなわち1つの過渡セグメント)中でも使用可能である。このようなことは、例えば符号器が低コーディング遅延を達成しようとするときにも起こり得る。そのような低遅延モードでは、1フレーム内の音声データサンプルの数が1024(すなわちロング一次ブロックの長さ)未満ということもあり得る。たとえば、符号器が1フレーム内にちょうど256PCMのサンプルを含むように選択されることも考えられる。その場合、そのフレーム内でこれらのサンプルを2個のショートブロック(それぞれが、256サンプルMDCTブロックにより覆われた128個のPCMサンプルを含む)で覆うことになり、それはつまり、復号器もまた2つのショートウィンドウを適用するということを意味する。このモードのメリットは、バッファサイズに比例したコーディング遅延が、(他の条件が同じであるなら)例えばこの例では4分の1(1024/256=4)だけ減少させられるということである。
現在のフレームが過渡フレーム(すなわち、nNumClusterが2個以上の過渡セグメントを表示するようよう、過渡信号の少なくとも一部を含む)である場合、フィールド「anNumBlocksPerFrmCluster[nCluster]」が受信されたデータに含まれ、自身が占有するショートMDCTブロックの数に換算して各過渡セグメントnClusterの長さを表示するのが好ましい。そのような語はそれぞれ、(例えば‘760出願の表B.28のHuffDec1_7×1を用いて)ハフマン符号化されるのが好ましく、したがって、過渡セグメントの位置を復元する目的で各過渡セグメント長を復号化してもよい。
一方で、現在のフレームが(1つのロングウィンドウ関数あるいは所定数のショートウィンドウ関数を持つ)準定常フレームである場合、anNumBlocksPerFrmCluster[nCluster]がビットストリーム内に現れない(つまり送信されない)のが好ましい。過渡セグメント長とはすなわち、ロングウィンドウ関数(例えば2048個のMDCTサンプル)を有するフレーム内の1つのロングブロック、または多重(例えば8まで)のショートウィンドウ関数(例えばそれぞれ256個のMDCTサンプルを含む)内の全ブロックということを暗示するからである。
上記のように、フレームが1つのロングブロックにより覆われているとき、そのブロックがnWinTypeCurrentによって指示されている。しかしながら一般的に、そのフレームが多重ショートブロックで覆われているときにはこの状況はより複雑になる。より複雑化するというその理由は、完全な復元要件のために、現在のブロック用のウィンドウ関数が直前および直後のブロックで用いられたウィンドウ関数に依存するからである。したがって、本実施態様では、ショートブロックが表示されるときには適切なウィンドウシーケンスを識別する目的で追加の処理が実施される。この追加の処理については、モジュール134の説明に関連して以下にさらに詳しく記載されている。
ハフマンコードブックインデックスおよび適用範囲情報もマルチプレクサ115から抽出される。この情報およびその処理について、以下に記す。
上記のようにフレームデータが一旦アンパックされると、変換係数が検索され適当な順序で配置されてから、逆変換が実施されることによりオリジナルの時間領域データが生成される。これらの一般的なステップについて、以下図4を見ながら詳細に説明する。
係数検索
図4に関して、デマルチプレクサ15で抽出された対応する情報に基づいて、モジュール118で適切なコードブックおよび適用範囲が選択される。より具体的に言えば、上で参照したハフマンコードブックインデックスおよび適用範囲情報が以下のフィールドを含むのが好ましい。
フィールド「anHSNumBands[nCluster]」は、過渡セグメントnCluster中のコードブックセグメント数を指す。フィールド「mnHSBandEdge[nCluster][nBand]*4」は、過渡セグメントnCluster内のコードブックセグメントnBand(つまり、ハフマンコードブックの適用範囲)の長さを(量子化インデックス換算で)指す。それらの値自体がそれぞれ、モジュール18によって、HuffDec2#64×1で(‘760出願で記載されているように)準定常化フレーム用の値を復号化するために用いられ、また過渡フレーム用の値を復号化する目的で用いられているHuffDec3_32×1(これも‘760出願で記載)でハフマン符号化されているのが好ましい。フィールド「mnHS[nCLuster][nBand]」は、過渡セグメントnCluster内のコードブックnBandのハフマンコードブックインデックスを表示する。それらの値それ自体は、‘760出願で準定常フレーム用の値を復号化する目的で用いられるHuffDec4_18×1、および‘760出願で過渡フレーム用の値を復号化する目的で用いられるHuffDec5_18×1によって、それぞれハフマン符号化されているのが好ましい。
実サブバンドサンプル量子化インデックスを復号化するためのコードブックは、復号化されたmnHS[nCluster][nBand]コードブックインデックスに基づき以下のように検索される。
Figure 0005162589
ここで、次元とは、1つのハフマンコードによって符号化された量子化インデックスの数を指し、参照対象となったハフマン復号化表は‘760出願で明記されているようなものであるのが好ましい。
ところで、本実施態様においては、各コードブック適用範囲(すなわち各コードブックセグメント)の長さが指定されている。そのようなコードブックセグメントはそれぞれ、1つあるいは複数の量子化ユニットの境界を越えるものであってもよい。また、そのコードブックセグメントを他の方法、例えば各コードブック適用範囲用の起点を指定することによって指定することも可能である。しかしながら、(起点よりもむしろ)長さが指定されるような場合は、ビット数の合計がより少ないほうを用いて符号化することも通常は可能であろう。
いずれにせよ、受信された情報が、各コードブックが適用されるべき適用範囲を単独で識別し、復号器100が実量子化インデックスを復号化する目的でこの情報を用いるのが好ましい。このアプローチは従来のアプローチとは大幅に異なる。従来のアプローチでは各量子化ユニットが1つのコードブックに割り当てられるため、その適用範囲は送信されない。しかしながら、‘760出願で詳細に述べたとおり、追加のオーバーヘッドは普通は、柔軟に適用範囲を指定することによって得られる追加の効率によって補われるレベルを上回る。
モジュール120では、デマルチプレクサ15によって抽出された量子化インデックスが、モジュール18で識別されたコードブックを量子化インデックスの対応する適用範囲に適用することによって復号化される。その結果、量子化インデックスが完全に復号化される。
モジュール122では、量子化ユニットの数が復元される。これに関して、「量子化ユニット」がそれぞれ、周波数領域での臨界帯域および時間領域での過渡セグメントによって結合された量子化インデックスの矩形によって規定されるのが好ましい。この矩形内部の量子化インデックスは全て、同じ量子化ユニットに属する。過渡セグメントは、上記のような方法で、マルチプレクサ115によって抽出された過渡セグメント情報に基づき識別されるのが好ましい。「臨界帯域」とは、人間の耳の周波数分解能、すなわち人間の耳が異なる周波数を区別できない範囲の帯域幅(fのことである。帯域幅(fは、fと(fとがほぼ指数関数的な関係で周波数fと共に上昇するのが好ましい。各臨界帯域はフィルタバンクの隣接するサブバンドサンプル数として表すこともできる。ショートウィンドウおよびロングウィンドウに対する、また異なるサンプリング率に対する臨界として好ましい臨界帯域が、‘760出願の表B.2〜B.27で決められている。換言すれば、臨界帯域の境界は、同じ臨界帯域を用いた符号器および復号器を用いて各MDCTブロックサイズおよびサンプリング率について前もって決定される。前述の情報より、量子化ユニットの数が以下のように復元される。
Figure 0005162589
ここで、anHSNumBandsfnCluster]は過渡セグメントnClusterのコードブック数であり、mnHSBandEdge[nCluster][nBand]は過渡セグメントnClusterのコードブックnBand用コードブック適用範囲の上限境界であり、pnCBEdge[nBand]は臨界帯域nBandの上限境界であり、さらにanMaxActCb[nCluster]は過渡セグメントnCluster用の量子化ユニット数である。
量子化器モジュール124において、各量子化ユニットに適用できる量子化ステップサイズがビットストリーム20から復号化され、そのようなステップサイズは、復号化モジュール120より受信した量子化インデックスからサブバンドサンプルを復元する目的で用いられる。好ましい実施態様では、「mnQStepIndex[nCluster][nBand]」は、量子化ユニット(nCluster、nBand)の量子化ステップサイズインデックスを指し、準定常フレームについてはハフマンコードブックHuffDec6_l16×1によって、過渡フレームについてはハフマンコードブックHuffDec7_l16×1によって復号化される。これらはいずれも‘760出願中で説明されている。
一旦量子化ステップサイズが識別されると、各サブバンドサンプル値が、(線形量子化を符号器として用いると仮定して)、サブバンドサンプル=量子化ステップサイズ*量子化インデックス、より得られるのが好ましい。本発明の別の実施態様では、非線形量子化技術が用いられる。
モジュール128での結合強度復号化は、bUseJICの値により表示された場合に限り実施されるのが好ましい。そのような場合、結合強度復号器128がソースチャンネルよりサブバンドサンプルを複写してから、スケールファクタでそれらを乗算することにより結合チャンネルのサブバンドサンプル、すなわち、『結合チャンネルサンプル=スケールファクタ*ソースチャンネルサンプル』を復元する。代表的な実施態様では、ソースチャンネルは左前チャンネルで、各正規チャンネルが互いに結合チャンネルとして符号化済みである。同じ量子化ユニット内の全サブバンドサンプルが同じスケールファクタを有するのが好ましい。
モジュール130での和差復号化は、bUseSumDiffの値によって表示された場合に限って実施されるのが好ましい。その場合、左/右のチャンネルにおけるサブバンドサンプルの復元が以下のように実施されるのが好ましい。
左チャンネル=和チャンネル+差チャンネル
右チャンネル=和チャンネル−差チャンネル
‘346出願に記載されているように、好ましい実施態様では、符号器は、インターリービングと呼ばれるプロセスにおいて、現在のチャンネルの現在のフレーム用サブバンドサンプルを再配置することによって、同一の過渡セグメント内にあり同じサブバンドに対応するサンプルをまとめる。それにより、デインターリービングモジュール132において、サブバンドサンプルが再配置されて自然な順序に戻る。そのような再配置を実施するための技術の一つを以下に記す。
Figure 0005162589
ここで、nNumClusterは過渡セグメント数であり、anNumBlocksPerFrmPerCluster[nCluster]は過渡セグメントnClusterについての過渡セグメント長であり、nClusterBinO[nCluster]は過渡セグメントnClusterの第1サブバンドサンプル位置であり、afBinlnterleaved[q]はインターリービングされた順序で配置されたサブバンドサンプルの配列であり、また、afBinNatural[p]は自然な順序で配置されたサブバンドサンプルの配列である。
したがって、デインターリービングモジュール132によって実施された処理に従い、各チャンネルの各フレームのサブバンドサンプルが自然な順序で出力される。
時間ベースのサンプルへの変換
モジュール134では、データの現行(present)フレームの変換ブロック用に(符号器側で)用いられたウィンドウ関数のシーケンスが識別される。上記のように、本実施態様では、MDCT変換は符号器側で用いられた。しかしながら、他の実施態様では、他のタイプ(好ましくは単一(unitary)で正弦波ベース)の変換が用いられてもよく、本発明の復号器100によって十分に収容され得る。本実施態様では、上記の通り、ロング変換ブロックフレームについては、受信されたフィールドnWinTypeCurrentが、フレーム全体について用いられた1つのロングウィンドウ関数を識別する。したがって、本実施態様では、ロング変換ブロックフレームについてのモジュール134での追加の処理を実施する必要がない。
一方、ショート変換ブロックフレームについては、本実施態様のフィールドnWinTypeCurrentが最初と最後の変換ブロックに用いられたウィンドウ関数を指定しているのみである。したがって、ショート変換ブロックフレームについては、以下の処理を実施するのが好ましい。
フレームでショートブロックが用いられているとき、nWinTypeCurrentに関する受信値が、現在のフレームの第1ブロックと次のフレームの第1ブロックが過渡信号を含有しているかどうか識別する。この情報ならびに、(受信された過渡セグメント長より識別された)過渡セグメントの位置および完全な復元要件のおかげで、フレームの各ブロックでどのウィンドウ関数を用いればよいのかを復号器100が決定できるようになる。
本実施態様では過渡を備えたブロック用としてWIN_SHORT_BRIEF2BRIEFウィンドウ関数が用いられているため、この情報を伝達(convey)するために以下の名称集を用いることができる。それはWIN_SHORT_Current2Subsであって、現在のフレームの第1ブロック中に過渡があるかどうかをCurrent(SHORT=no、BRIEF=yes)が識別する。また、後続のフレームの第1ブロックに過渡があるかどうかをSubs(SHORT=no、BRIEF=yes)が識別する。例えば、WIN_SHORT_BRIEF2BRIEFは、現在のフレームの第1ブロックおよび後続のフレームの第1ブロックに過渡が存在することを指す。また、WIN_SHORT_BRIEF2SHORTは、現在のフレームの第1ブロックには過渡が存在するが後続のフレームの第1ブロックには存在しないことを指す。
よって、Currentは(フレームの第1ブロックが過渡信号を含むかどうかを表示することによって)フレームの第1ブロックにおけるウィンドウ関数の決定を支援し、Subsは、(後続フレームの第1ブロックが過渡信号を含むかどうかを表示することによって)フレームの最後のブロックに関するウィンドウ関数の識別を助ける。特に、CurrentがSHORTであれば、第1ブロック用のウィンドウ関数をWIN_SHORT_Last2SHORTとする必要がある。その場合、「Last」は、完全復元性(perfect reconstruction property)を介して最後のフレームの最後のウィンドウ関数により決定される。一方で、CurrentがBRIEFであれば、第1ブロックに関するウィンドウ関数はWIN_SHORT_Last2BRIEFでなければならない。その場合も、Lastは完全復元性を介して最後のフレームの最後のウィンドウ関数によって決定される。フレームの最後のブロックに関して、それが過渡を含むとするなら、そのウィンドウ関数はWIN_SHORT_BRIEF2BRIEFでなければならない。このブロックに過渡が存在しないとき、SubsがSHORTであれば、そのフレームの最後のブロック用のウィンドウ関数はWIN_SHORT_Last2SHORTでなければならず、その場合にLastは完全復元性を介してフレームの最後から2番目のブロックのウィンドウ関数により決定される。一方、もしSubsがBRIEFであれば、そのフレームの最後のブロック用のウィンドウ関数はWIN_SHORT_Last2BRIEFでなければならず、その場合にもLastは完全復元性を介してフレームの最後から2番目のウィンドウ関数によって決定される。最終的に、そのフレーム中の残りのブロックに関するウィンドウ関数を過渡位置によって決定することが可能である。これは、完全復元性を介し、1つの過渡セグメントの開始によって表示される。この工程についての詳細は‘917出願により提示されている。
モジュール136では、現在のフレームの各変換ブロックについて、そのようなブロックが(符号化の過程で紛れ込んだかもしれない量子化ノイズやその他の数値誤差の影響を受けた)オリジナルのデータ値を回復するよう、モジュール134によって識別されたウィンドウ関数を用いてサブバンドサンプルが逆変換される。
モジュール136の出力は、符号器に入力されたPCMサンプルの復元シーケンスである。
システム環境
一般的に言って、特に断りのない限り、ここに記載されているシステム、方法および技術は全て、1つまたは複数のプログラム式汎用計算機器の使用により実行可能である。そのような機器は通常、例えば共通バス等を介して相互に接続された以下のような構成要素の幾つかを少なくとも備えるであろう。すなわちそれらは、1つあるいは複数の中央処理装置(CPU)、読出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、(例えば、シリアルポート、パラレルポート、USB接続やファイアワイヤ接続といったハードワイヤード接続を用いるかブルートゥースまたは802.11プロトコルのような無線プロトコルを用いて)他のデバイスとインターフェイシングするための入力/出力ソフトウェアおよび回路機構、(例えば、イーサネットカードのようなハードワイヤード接続、または符号分割多元接続(CDMA)のような無線プロトコル、移動通信用グローバルシステム(GSM)、ブルートゥース、802.11プロトコル、あるいはそれ以外のセルラーシステムもしくは非セルラーシステムを用いて)1つあるいは複数のネットワークに接続するためのソフトウェアおよび回路機構であり、これらのネットワークは本発明の多くの実施態様において互いに(in turn)インターネットまたはその他のネットワークに接続している)。さらなる例は、ディスプレイ(例えば陰極線管ディスプレイ、液晶ディスプレイ、有機発光ディスプレイ、重合性発光ディスプレイ、またはその他の薄膜ディスプレイ)、その他の出力装置(例えば1つあるいは複数のスピーカ、ヘッドフォンセットおよびプリンタ)、1つあるいは複数の入力装置(例えばマウス、タッチパッド、タブレット、タッチセンスディスプレイまたはその他の位置決め装置、キーボード、マイクロフォン、およびスキャナ)、大容量記憶装置(mass storage unit)(例えばハードディスクドライブ)、実時間時計、(例えばRAM、磁気ディスク、磁気テープ、光磁気ディスク、光学ディスクその他からの読出しおよび書込みをするための)リムーバブル記憶読出し/書込み装置、および、(例えばファックス送信用または、インターネットやダイアルアップ接続を介したコンピュータネットワークへの接続用の)モデムである。動作の際、上記方法と機能を実現するためにプロセスステップは、通常はそのような汎用コンピュータにより実施される程度まで、まず大容量記憶装置(例えばハードディスク)に記憶されており、RAMにダウンロードされた後にRAMを出てCPUにより実行される。しかしながら、場合によってはそのプロセスステップは最初にRAMかROMに記憶される。
本発明を実現するのに適した装置は、様々な業者から入手できる。様々な実施態様では、タスクのサイズと複雑度に応じて異なるタイプの装置が用いられる。適切な装置の例としては、メインフレームコンピュータ、マルチプロセッサコンピュータ、ワークステーション、パーソナルコンピュータおよび、PDA等のより小型のコンピュータ、無線電話またはその他の機器や装置が含まれる。それらは独立型であっても、または、ネットワークにハードワイヤード接続されたり、ネットワークに無線接続されたものであってもよい。
それに加えて、汎用プログラム式装置については上記の通りであるが、代替的に(あるいは追加で)、1つあるいは複数の特殊用途のプロセッサまたはコンピュータが用いられる。一般に、特に断りがなければ、上記の機能のいずれかが、ソフトウェア、ハードウェア、ファームウェア、またはその組み合わせで実現されてもよく、具体的な実施例は公知のエンジニアリングトレードオフに基づいて選択される。より具体的に述べるなら、上記の機能は、固定した、所定の、あるいは論理的な方法で実現される場合、当業者であれば用意に思いつくように、プログラミング(ソフトウェアやハードウェア等)、論理構成要素(ハードウェア)の適切な配置、またはそれら2つの組み合わせにより達成可能であろう。
言うまでもないことであるが、本発明は、本発明の方法および機能を実施するためのプログラム命令が記憶されている機械可読の媒体にも関連がある。そのような媒体の例としては、磁気ディスク、磁気テープ、CD−ROMやDVD−ROMといった光学式読取媒体、または、PCMCIAカードのような半導体メモリ、様々なタイプのメモリカード、USBメモリ装置等が挙げられる。そのような場合、その媒体がミニディスクドライブまたはスモールディスク、ディスケット、カセット、カートリッジ、カード、スティック等の携帯可能なアイテムの形態であっても、ハードディスクドライブ、コンピュータまたは他の装置に設けられたROMやRAMといった、比較的大型の、または固定式アイテムの形態であってもよい。
上記の内容は何よりもまず電子コンピュータおよび装置に重点を置いたものである。しかしながら、代わりに例えば電子、光学、生物学および化学的処理を用いた装置等、他の計算または他のタイプの装置を用いてもよいことは言うまでもない。
追加の考察
上記実施態様は音声データの処理に関与する。しかしながら、言うまでもないことであるが、本発明の技術を他のタイプのデータ、例えば映像データ、センサデータ(地震学、気象、放射線等)、経済データ、またはその他の観測・測定可能なデータと関連させて用いることもできる。
本発明の異なる実施態様が幾つか上記に示されているが、それらはそれぞれ所定の特徴を持つものとして述べられている。しかしながら、いずれか1つの実施態様に関連付けて記載された特徴であってもその実施態様に限定されることを意図したものではなく、それ以外の実施態様における様々な組み合わせに含まれている、および/または配置され得ることは、当業者であれば理解できるであろう。
同様に、上記の通り、機能が特定のモジュールまたは構成要素に起因することもある。しかしながら、機能は一般的に、異なるモジュールまたは構成要素の中から用途に合わせて再区分(redistribute)されてもよい。場合によっては特定の構成要素またはモジュールが完全に不要となる、および/または新たな構成要素またはモジュールの追加が必要となることがある。当業者であれば、本発明の具体的な実施態様を参照しつつ公知のエンジニアリングトレードオフに従って機能の精確な区分がなされることが好ましいことを、理解するであろう。
よって、実施態様および添付図面の例を参照しながら本発明について詳細に述べてきたが、当業者にとっては、本発明の精神および発明の請求範囲から外れることなく本発明の様々な改善および部分的な変更が成し遂げられることは明白なはずである。したがって、本発明は、上記の内容および図面に示された精確な実施態様に限定されない。むしろ、本発明の精神から外れないそのような変形例の全てが、添付の請求項によってのみ限定されるようなそれらの請求範囲内にあると考えられるべきであろう。

Claims (13)

  1. 音声信号を復号化する方法であって
    (a)複数のフレームを含み、フレームがそれぞれ、前記フレームに関与する処理情報および前記フレーム内の音声データを表すエントロピー符号化済みの量子化インデックスを含むビットストリームを取得するステップであって前記処理情報が、
    (i)各自が1つのコードブックを識別する複数のコードブックインデックスと、
    (ii)そのコードブックが適用されるエントロピー符号化済みの量子化インデックスの範囲を指定するコードブック適用情報と、
    (iii)ウィンドウ情報とを含むステップと
    (b)前記コードブック適用情報によって指定された範囲のエントロピー符号化済みの量子化インデックスに前記コードブックインデックスにより識別されたコードブックを適用することによって、前記エントロピー符号化済みの量子化インデックスを復号化するステップと
    (c)前記復号化した量子化インデックスを逆量子化することによりサブバンドサンプルを生成するステップと
    (d)前記ウィンドウ情報に基づいて前記音声データの1フレーム内で複数の同一サイズの変換ブロックにおいて適用された複数の異なるウィンドウ関数のシーケンスを識別するステップと
    (e)前記サブバンドサンプルを逆変換し、前記音声データの前記1フレーム内で、前記ウィンドウ情報によって表示される前記複数の異なるウィンドウ関数を用いることによって時間領域音声データを取得するステップと、
    を有し、
    前記エントロピー符号化済みの量子化インデックスの範囲のうちの少なくとも1つが、周波数領域の臨界帯域および時間領域の過渡セグメントによって区切られた量子化インデックスの矩形によって規定された量子化ユニットの境界を越え、
    前記ウィンドウ情報は、前記フレーム内の過渡の位置を示し、ステップ(d)で、該過渡の位置に関連する所定の規則に基づいて、複数の異なるウィンドウ関数のシーケンスが識別され、
    前記所定の規則は、過渡を含む変換ブロックで特定のウィンドウ関数が用いられたことを規定する
    ことを特徴とする方法。
  2. 前記コードブック適用情報は、前記コードブックインデックスによって識別される各コードブックに関してエントロピー符号化済みの量子化インデックスの1つの範囲を識別する請求項1に記載の方法。
  3. 前記コードブック適用情報は、前記コードブックインデックスによって識別される各コードブックに関してエントロピー符号化済みの量子化インデックスの長さを指定する請求項1に記載の方法。
  4. 前記所定の規則完全復元要件に準拠する請求項に記載の方法。
  5. 前記特定のウィンドウ関数は、前記音声データの前記1フレーム内にある前記複数の異なるウィンドウ関数の中で、他のどのウィンドウ関数よりも狭い請求項に記載の方法。
  6. 前記特定のウィンドウ関数は、シンメトリックであり、自身の変換ブロックの各末端部で複数の0価を持ちつつ変換ブロック全体の中心部分のみを占有する請求項に記載の方法。
  7. (i)前記複数のコードブックインデックス、(ii)前記コードブック適用情報および、(iii)前記ウィンドウ情報がそれぞれエントロピー符号化される請求項1に記載の方法。
  8. 音声信号を復号化するためのコンピュータ実行プロセスステップを記憶するコンピュータ可読媒体であって、前記プロセスステップ
    (a)複数のフレームを含み、フレームがそれぞれ、前記フレームに関与する処理情報および前記フレーム内の音声データを表すエントロピー符号化済みの量子化インデックスを含むビットストリームを取得するステップであって前記処理情報が、
    (i)各自が1つのコードブックを識別する複数のコードブックインデックスと、
    (ii)そのコードブックが適用されるエントロピー符号化済みの量子化インデックスの範囲を指定するコードブック適用情報と、
    (iii)ウィンドウ情報とを含むステップと
    (b)前記コードブック適用情報によって指定された範囲のエントロピー符号化済みの量子化インデックスに前記コードブックインデックスにより識別されたコードブックを適用することによって、前記エントロピー符号化済みの量子化インデックスを復号化するステップと
    (c)前記復号化した量子化インデックスを逆量子化することによりサブバンドサンプルを生成するステップと
    (d)前記ウィンドウ情報に基づいて前記音声データの1フレーム内で複数の同一サイズの変換ブロックにおいて適用された複数の異なるウィンドウ関数のシーケンスを識別するステップと
    (e)前記サブバンドサンプルを逆変換し、前記音声データの前記1フレーム内で、前記ウィンドウ情報によって表示される前記複数の異なるウィンドウ関数を用いることによって時間領域音声データを取得するステップと、
    を有し、
    前記エントロピー符号化済みの量子化インデックスの範囲のうちの少なくとも1つが、周波数領域の臨界帯域および時間領域の過渡セグメントによって区切られた量子化インデックスの矩形によって規定された量子化ユニットの境界を越え、
    前記ウィンドウ情報は、前記フレーム内の過渡の位置を示し、ステップ(d)で、該過渡の位置に関連する所定の規則に基づいて、複数の異なるウィンドウ関数のシーケンスが識別され、
    前記所定の規則は、過渡を含む変換ブロックで特定のウィンドウ関数が用いられたことを規定し、該所定の規則は完全復元要件に準拠する
    ことを特徴とするコンピュータ可読媒体。
  9. 前記特定のウィンドウ関数は、シンメトリックであり、自身の変換ブロックの各末端部で複数の0価を持ちつつ変換ブロック全体の中心部分のみを占有する請求項に記載のコンピュータ可読媒体。
  10. (i)前記複数のコードブックインデックス、(ii)前記コードブック適用情報および、(iii)前記ウィンドウ情報がそれぞれエントロピー符号化される請求項に記載のコンピュータ可読媒体。
  11. 音声信号を復号化する装置であって
    (a)複数のフレームを含み、フレームがそれぞれ、前記フレームに関与する処理情報および前記フレーム内の音声データを表すエントロピー符号化済みの量子化インデックスを含むビットストリームを取得する手段であって前記処理情報が、
    (i)各自が1つのコードブックを識別する複数のコードブックインデックスと、
    (ii)そのコードブックが適用されるエントロピー符号化済みの量子化インデックスの範囲を指定するコードブック適用情報と、
    (iii)ウィンドウ情報とを含む手段と、
    (b)前記コードブック適用情報によって指定された範囲のエントロピー符号化済みの量子化インデックスに前記コードブックインデックスにより識別されたコードブックを適用することによって、前記エントロピー符号化済みの量子化インデックスを復号化する手段と、
    (c)前記復号化した量子化インデックスを逆量子化することによりサブバンドサンプルを生成する手段と、
    (d)前記ウィンドウ情報に基づいて前記音声データの1フレーム内で複数の同一サイズの変換ブロックにおいて適用された複数の異なるウィンドウ関数のシーケンスを識別する手段と、
    (e)前記サブバンドサンプルを逆変換し、前記音声データの前記1フレーム内で、前記ウィンドウ情報によって表示される前記複数の異なるウィンドウ関数を用いることによって時間領域音声データを取得する手段と
    を有し、
    前記エントロピー符号化済みの量子化インデックスの範囲のうちの少なくとも1つが、周波数領域の臨界帯域および時間領域の過渡セグメントによって区切られた量子化インデックスの矩形によって規定された量子化ユニットの境界を越え、
    前記ウィンドウ情報は、前記フレーム内の過渡の位置を示し、手段(d)で、該過渡の位置に関連する所定の規則に基づいて、複数の異なるウィンドウ関数のシーケンスが識別され、
    前記所定の規則は、過渡を含む変換ブロックで特定のウィンドウ関数が用いられたことを規定し、該所定の規則は完全復元要件に準拠する
    ことを特徴とする装置。
  12. 前記特定のウィンドウ関数は、シンメトリックであり、自身の変換ブロックの各末端部で複数の0価を持ちつつ変換ブロック全体の中心部分のみを占有する請求項1に記載の装置。
  13. (i)前記複数のコードブックインデックス、(ii)前記コードブック適用情報および、(iii)前記ウィンドウ情報がそれぞれエントロピー符号化される請求項1に記載の装置。
JP2009524878A 2006-08-18 2007-08-17 音声復号化 Expired - Fee Related JP5162589B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US82276006P 2006-08-18 2006-08-18
US60/822,760 2006-08-18
US11/558,917 2006-11-12
US11/558,917 US8744862B2 (en) 2006-08-18 2006-11-12 Window selection based on transient detection and location to provide variable time resolution in processing frame-based data
US11/669,346 2007-01-31
US11/669,346 US7895034B2 (en) 2004-09-17 2007-01-31 Audio encoding system
US11/689,371 US7937271B2 (en) 2004-09-17 2007-03-21 Audio decoding using variable-length codebook application ranges
US11/689,371 2007-03-21
PCT/CN2007/002490 WO2008022565A1 (en) 2006-08-18 2007-08-17 Audio decoding

Publications (2)

Publication Number Publication Date
JP2010501090A JP2010501090A (ja) 2010-01-14
JP5162589B2 true JP5162589B2 (ja) 2013-03-13

Family

ID=39110402

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2009524878A Expired - Fee Related JP5162589B2 (ja) 2006-08-18 2007-08-17 音声復号化
JP2009524877A Expired - Fee Related JP5162588B2 (ja) 2006-08-18 2007-08-17 音声符号化システム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2009524877A Expired - Fee Related JP5162588B2 (ja) 2006-08-18 2007-08-17 音声符号化システム

Country Status (7)

Country Link
US (1) US7895034B2 (ja)
EP (2) EP2054881B1 (ja)
JP (2) JP5162589B2 (ja)
KR (3) KR101401224B1 (ja)
AT (2) ATE486347T1 (ja)
DE (2) DE602007010158D1 (ja)
WO (1) WO2008022564A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
KR101435411B1 (ko) * 2007-09-28 2014-08-28 삼성전자주식회사 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치
CN101918999B (zh) 2007-11-12 2013-11-13 尼尔森(美国)有限公司 执行音频水印嵌入以及水印检测和提取的方法和设备
EP3261090A1 (en) * 2007-12-21 2017-12-27 III Holdings 12, LLC Encoder, decoder, and encoding method
US8457951B2 (en) 2008-01-29 2013-06-04 The Nielsen Company (Us), Llc Methods and apparatus for performing variable black length watermarking of media
CN102081926B (zh) * 2009-11-27 2013-06-05 中兴通讯股份有限公司 格型矢量量化音频编解码方法和系统
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
CN102419977B (zh) * 2011-01-14 2013-10-02 展讯通信(上海)有限公司 瞬态音频信号的判别方法
RU2571561C2 (ru) 2011-04-05 2015-12-20 Ниппон Телеграф Энд Телефон Корпорейшн Способ кодирования, способ декодирования, кодер, декодер, программа и носитель записи
CA2961336C (en) * 2013-01-29 2021-09-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoders, audio decoders, systems, methods and computer programs using an increased temporal resolution in temporal proximity of onsets or offsets of fricatives or affricates
CA3163664A1 (en) 2013-05-24 2014-11-27 Dolby International Ab Audio encoder and decoder
JP2017009663A (ja) * 2015-06-17 2017-01-12 ソニー株式会社 録音装置、録音システム、および、録音方法
WO2017064264A1 (en) * 2015-10-15 2017-04-20 Huawei Technologies Co., Ltd. Method and appratus for sinusoidal encoding and decoding
US9762382B1 (en) * 2016-02-18 2017-09-12 Teradyne, Inc. Time-aligning a signal
CN105790854B (zh) * 2016-03-01 2018-11-20 济南中维世纪科技有限公司 一种基于声波的短距离数据传输方法及装置
CN114499690B (zh) * 2021-12-27 2023-09-29 北京遥测技术研究所 一种星载激光通信终端地面模拟装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3902948A1 (de) * 1989-02-01 1990-08-09 Telefunken Fernseh & Rundfunk Verfahren zur uebertragung eines signals
DE4020656A1 (de) * 1990-06-29 1992-01-02 Thomson Brandt Gmbh Verfahren zur uebertragung eines signals
GB9103777D0 (en) 1991-02-22 1991-04-10 B & W Loudspeakers Analogue and digital convertors
JP3413691B2 (ja) * 1994-08-16 2003-06-03 ソニー株式会社 情報符号化方法及び装置、情報復号化方法及び装置、並びに情報記録媒体及び情報送信方法
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
JP3318824B2 (ja) * 1996-07-15 2002-08-26 ソニー株式会社 デジタル信号符号化処理方法、デジタル信号符号化処理装置、デジタル信号記録方法、デジタル信号記録装置、記録媒体、デジタル信号伝送方法及びデジタル信号伝送装置
US6266003B1 (en) * 1998-08-28 2001-07-24 Sigma Audio Research Limited Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals
US6357029B1 (en) * 1999-01-27 2002-03-12 Agere Systems Guardian Corp. Joint multiple program error concealment for digital audio broadcasting and other applications
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
JP3518737B2 (ja) * 1999-10-25 2004-04-12 日本ビクター株式会社 オーディオ符号化装置、オーディオ符号化方法、及びオーディオ符号化信号記録媒体
AU2001276588A1 (en) * 2001-01-11 2002-07-24 K. P. P. Kalyan Chakravarthy Adaptive-block-length audio coder
US6983017B2 (en) * 2001-08-20 2006-01-03 Broadcom Corporation Method and apparatus for implementing reduced memory mode for high-definition television
JP3815323B2 (ja) * 2001-12-28 2006-08-30 日本ビクター株式会社 周波数変換ブロック長適応変換装置及びプログラム
JP2003216188A (ja) * 2002-01-25 2003-07-30 Matsushita Electric Ind Co Ltd オーディオ信号符号化方法、符号化装置、及び記憶媒体
JP2003233397A (ja) * 2002-02-12 2003-08-22 Victor Co Of Japan Ltd オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化データ伝送装置
US7328150B2 (en) 2002-09-04 2008-02-05 Microsoft Corporation Innovations in pure lossless audio compression
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
US7548819B2 (en) * 2004-02-27 2009-06-16 Ultra Electronics Limited Signal measurement and processing method and apparatus
JP4271602B2 (ja) * 2004-03-04 2009-06-03 富士通株式会社 転送データの正当性を判定する装置および方法
JP2005268912A (ja) * 2004-03-16 2005-09-29 Sharp Corp フレーム補間のための画像処理装置およびそれを備えた表示装置
CN1677490A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges

Also Published As

Publication number Publication date
EP2054881A1 (en) 2009-05-06
JP5162588B2 (ja) 2013-03-13
EP2054883B1 (en) 2010-10-27
KR101401224B1 (ko) 2014-05-28
KR101168473B1 (ko) 2012-07-26
KR20120032039A (ko) 2012-04-04
JP2010501090A (ja) 2010-01-14
US7895034B2 (en) 2011-02-22
ATE486346T1 (de) 2010-11-15
US20070124141A1 (en) 2007-05-31
DE602007010158D1 (de) 2010-12-09
JP2010501089A (ja) 2010-01-14
DE602007010160D1 (de) 2010-12-09
EP2054881B1 (en) 2010-10-27
EP2054883A4 (en) 2009-09-09
WO2008022564A1 (en) 2008-02-28
KR20090042972A (ko) 2009-05-04
EP2054881A4 (en) 2009-09-09
EP2054883A1 (en) 2009-05-06
KR20090041439A (ko) 2009-04-28
KR101161921B1 (ko) 2012-07-03
ATE486347T1 (de) 2010-11-15

Similar Documents

Publication Publication Date Title
JP5162589B2 (ja) 音声復号化
US8468026B2 (en) Audio decoding using variable-length codebook application ranges
US20140249805A1 (en) Variable-Resolution Processing of Frame-Based Data
CN100489964C (zh) 音频解码
CN113192521B (zh) 一种音频编解码方法和音频编解码设备
KR20100089772A (ko) 오디오 신호의 부호화 및 복호화 방법 및 그 장치
JP7389651B2 (ja) デジタルオーディオ信号における可変アルファベットサイズ
US20120232908A1 (en) Methods and systems for avoiding partial collapse in multi-block audio coding
CN101290774B (zh) 音频编码和解码系统
JP2020518030A (ja) デジタルオーディオ信号における差分データ
WO2021143691A1 (zh) 一种音频编解码方法和音频编解码设备
KR100300887B1 (ko) 디지털 오디오 데이터의 역방향 디코딩 방법
CN113948094A (zh) 音频编解码方法和相关装置及计算机可读存储介质
KR101260285B1 (ko) 다원화된 확률 모형에 기반한 비.에스.에이.씨 산술 복호화방법
WO2010110750A1 (en) Data embedding methods, embedded data extraction methods, truncation methods, data embedding devices, embedded data extraction devices and truncation devices
Chen et al. Fast time-frequency transform algorithms and their applications to real-time software implementation of AC-3 audio codec
ES2296489B1 (es) Metodo escalable de compresion de audio e imagenes.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111130

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20111205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20111130

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111226

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121217

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5162589

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees