JP5551814B2 - 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム - Google Patents

音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム Download PDF

Info

Publication number
JP5551814B2
JP5551814B2 JP2013127397A JP2013127397A JP5551814B2 JP 5551814 B2 JP5551814 B2 JP 5551814B2 JP 2013127397 A JP2013127397 A JP 2013127397A JP 2013127397 A JP2013127397 A JP 2013127397A JP 5551814 B2 JP5551814 B2 JP 5551814B2
Authority
JP
Japan
Prior art keywords
speech
encoder
decoder
frame
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013127397A
Other languages
English (en)
Other versions
JP2013214089A (ja
Inventor
イェレミー ルコンテ
フィリップ グルネー
シュテファン バイエル
マルクス マルトラス
ブリュノ ベセトゥ
ベルンハルト グリル
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2013214089A publication Critical patent/JP2013214089A/ja
Application granted granted Critical
Publication of JP5551814B2 publication Critical patent/JP5551814B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、例えば、時間領域と変換領域のように、異なる符号化領域における音声符号の分野の、音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラムに関する。
低いビット速度の音声およびスピーチ符号化技術の文脈の中で、従来より、いくつかの異なる符号化技法が、最も可能な主観的品質を有する信号の低いビット速度の符号化を達成するために、所定のビット速度で使われてきた。一般的な音楽/音響信号のための符号器は、マスキング閾値曲線に従って、量子化誤差のスペクトルの(一時的な)形を形成することによって、主観的品質を最適化することを目的とする。マスキング閾値曲線は、知覚モデル(「知覚音声符号化」)によって、入力信号から想定される。他方、非常に低いビット速度のスピーチの符号化は、人間のスピーチの製作モデルに基づくとき、すなわち、線形予測符号化(LPC)を使って、残留励振信号の効率の良い符号化と共に、人間の声道の共鳴効果をモデル化するとき、非常に効率良く働くように見える。
これらの2つの異なる取り組みの結果として、一般的な音声符号器は、通常、スピーチ源モデルの開発不足のため、LPCに基づいた専用スピーチ符号器と比較して、非常に低いデータ速度のスピーチ信号のため、それほど良く働かない。一般的な音声符号器は、MPEG−1 3層(MPEGは、Moving Pictures Expert Groupの略である。)、または、MPEG−2/4の発展した音声符号化(AAC)などである。逆に、一般的な音楽信号に適用される場合、マスキング閾値曲線に従って、符号化歪みのスペクトル包絡線を柔軟に形成できないため、LPCに基づいたスピーチ符号器は、通常、納得のいく結果を達成しない。以下では、LPCに基づいた符号化と知覚音声符号化との両方の利点を、一つの枠組みに結合する概念が説明される。その結果、一般的な音声信号とスピーチ信号との両方に効率の良い、統一された音声符号化が、説明される。
従来より、知覚音声符号器は、マスキング閾値曲線の想定に従って、効率良く音声信号を符号化するために、フィルタバンクに基づいた取り組みを使用し、量子化歪みを形成する。
図16は、単旋律の知覚符号化システムの基本的なブロック図を示す。分析フィルタバンク1600は、時間領域サンプルを、副抽出したスペクトル成分に写像するために使用される。このシステムは、スペクトル成分の数に依存して、副帯域符号器(小さい数の副帯域、例えば32個)、または、変換符号器(大きな数の周波数線、例えば512本)とも称される。知覚(「心理音響」)モデル1602は、マスキング閾値に依存した実際の時間を想定するために使用される。スペクトル(「副帯域」または「周波数領域」)成分は、量子化雑音が実際の伝達信号の下に隠され、かつ、復号化後に知覚できないような方法で、量子化および符号化1604される。これは、時間および周波数にわたって、スペクトル値の量子化の粒状性を変更することによって達成される。
量子化およびエントロピー符号化された、スペクトル係数または副帯域値が、副情報に加えて、ビットストリーム形式器1606に入力される。ビットストリーム形式器1606は、送信または保存に適した、符号化された音声信号を提供する。ビットストリーム形式器1606の出力ビットストリームは、インターネットを通して送信され、または、機械読取可能なデータ担持体に保存される。
復号器側では、復号器入力インターフェース1610が、符号化されたビットストリームを受信する。復号器入力インターフェース1610は、副情報から、エントロピー符号化および量子化されたスペクトル値/副帯域値を分離する。符号化されたスペクトル値は、復号器入力インターフェース1610と再量子化器1620との間に位置するハフマン復号器などのエントロピー復号器に入力される。このエントロピー復号器の出力は、量子化されたスペクトル値である。これらの量子化されたスペクトル値は、再量子化器1620に入力される。再量子化器1620は、逆量子化を実行する。再量子化器1620の出力は、合成フィルタバンク1622に入力される。合成フィルタバンク1622は、周波数/時間変換と、時間領域折り返し雑音除去操作(重複、加算、および/または、合成側窓化操作など)と、を含む合成フィルタリングを実行し、最終的に出力音声信号を得る。
従来より、効率の良いスピーチ符号化は、線形予測符号化(LPC)に基づいており、残留励振信号の効率の良い符号化と共に、人間の声道の共鳴効果をモデル化する。LPCと励振パラメータの両方は、符号器から復号器に送信される。この原則は図17aおよび図17bに示される。
図17aは線形予測符号化に基づいた符号化/復号化システムの符号器側を示す。スピーチ入力は、LPCフィルタ係数を出力するLPC分析器1701に入力される。LPCフィルタ1703は、これらのLPCフィルタ係数に基づいて調整される。LPCフィルタ1703は、スペクトル的に白くされた音声信号(「予測誤差信号」とも称される)を出力する。このスペクトル的に白くされた音声信号は、励振パラメータを発生させる残留/励振符号器1705に入力される。したがって、スピーチ入力が、一方では、励振パラメータに符号化され、他方では、LPC係数に符号化される。
図17bに示された復号器側では、励振パラメータが、励振信号を発生させる励振復号器1707に入力される。励振信号は、LPC合成フィルタ1709に入力される。LPC合成フィルタ1709は、送信されたLPCフィルタ係数を使用して調整される。したがって、LPC合成フィルタ1709は、再構成された、または、合成されたスピーチ出力信号を発生する。
時間の経過と共に、多くの方法が、残留(励振)信号の、効率が良く、かつ、知覚的に納得のいく表現に関して、提案されてきた。残留(励振)信号は、多重パルス励振(MPE)、正規パルス励振(RPE)、符号励振線形予測(CELP)などがある。
線形予測符号化は、過去の観測値の線形結合(一次結合)として、過去の所定の数の観測値に基づいた系列の現在のサンプルの期待値を生むことを試みる。入力信号の冗長を減らすために、符号器LPCフィルタ1703は、スペクトル包絡線の中の入力信号を「白く」する。すなわち、符号器LPCフィルタ1703は、信号のスペクトル包絡線の逆のモデルである。逆に、復号器LPC合成フィルタ1709は、信号のスペクトル包絡線のモデルである。特に、周知の自動後退(AR)線形予測分析法が、全極近似によって信号のスペクトル包絡線をモデル化することが知られている。
通常、狭帯域スピーチ符号器(すなわち、8kHzの標本抽出割合(サンプリング速度)を有するスピーチ符号器)は、8と12の間の順でLPCフィルタを用いる。LPCフィルタの性質によれば、一定の周波数分析能は、周波数領域全体にわたって有効である。これは知覚周波数目盛に対応していない。
従来のLPC/CELPに基づいた符号化の強度(スピーチ信号のための最も良い品質)と、従来のフィルタバンクに基づいた知覚音声符号化手法(音楽に、最も良い)と、を結合するために、これらの構造物の間の結合符号化が、提案されてきた。AMR−WB+符号器(適応型多重速度広帯域符号器、Adaptive Multi−Rate WideBand coder)の中では、二者択一の2つの符号化カーネル(OSの中枢部)が、LPC残留信号を操作する(非特許文献1参照)。一方の符号化カーネルは、ACELP(代数符号励振線形予測、Algebraic Code Excited Linear Prediction)、すなわち、音楽信号に対して良質の状態を達成するために、従来の音声符号化技術に類似している符号化手法に基づいたフィルタバンクに基づいており、スピーチ信号の符号化に対して、非常に効率が良い。他方の符号化カーネルは、TCX(変換符号励振、Transform Coded Excitation)に基づいている。入力信号の特性によって、2つの符号化モードの1つが、LPC残留信号を送信するために、短期間に選択される。このようにして、80ms持続時間のフレームが、40msまたは20msの副フレームに分離され、副フレームの中で、2つの符号化モードの間の決定がされる。
AMR−WB+符号器(拡張適応型多重速度広帯域符号器)は、2つの本質的に異なるモードACELPとTCXとを切り換えることができる(非特許文献2参照)。ACELPモードでは、時間領域信号が、代数符号励振によって符号化される。TCXモードでは、高速フーリエ変換(FFT)が使用され、LPC重み付け信号のスペクトル値が、ベクトル量子化に基づいて符号化される。LPC励振は、LPC重み付け信号から引き出される。
どのモードを使用するかの決定が、試行化と復号化の両方の選択肢と、結果として生じる信号対雑音比(SN比)の比較とによって、行われる。
この場合は、閉ループ決定とも称される。閉じている制御ループが存在するので、符号化性能、および/または、効率を評価し、次に、一方を捨てることによって、より良いSN比を有する他方を選ぶ。
音声符号化やスピーチ符号化の応用に対して、窓化を有さないブロック変形(フレーム変形)が実行できないことは、周知である。したがって、TCXモードに対して、信号は、1/8期目の重複を有する低重複窓で窓化される。この重複している領域は、次のブロック(フレーム)が次第に現れる間に、先のブロック(フレーム)が次第に消えるために、例えば、連続した音声フレームの非相関量子化雑音による人工物(雑音)を抑制するために、必要である。こうして、無批判的抽出(ノン−クリティカル・サンプリング)と比較される負荷(オーバーヘッド)が、合理的に低く保たれ、閉ループ決定に必要な復号化は、現在のフレームの少なくとも7/8期目のサンプルで再構成する。
AMR−WB+符号器は、TCXモードの中の1/8期目の負荷(オーバーヘッド)を導入する。すなわち、符号化されるべきスペクトル値の番号は、入力サンプルの番号より1/8期目の分だけ多い。これは、データ負荷の増加という不利な点を提供する。そのうえ、対応する帯域通過フィルタの周波数特性も、連続したフレームの1/8期目の急勾配の重複領域のため、不利である。
図18は、連続したフレームの符号負荷および重複について、もう少し詳しく説明するために、窓パラメータの定義を示す。図18に示された窓は、左側の立ち上がりエッジ領域(左重複領域とも称される)Lと、中央領域(1の領域または通過部分とも称される)Mと、立ち下がりエッジ領域(右重複領域とも称される)Rとを有する。さらに、図18は、フレーム内の完全再構成の領域PRを指示する矢印を示している。さらに、図18は、変換コアの長さTを指示する矢印を示している。
図19は、図18に従って、AMR−WB+符号器の窓系列のグラフと、その下部分に窓パラメータの表を示している。図19の上部分に示された窓系列は、ACELPフレーム、TCX20フレーム(20ms持続時間のフレーム)、TCX20フレーム、TCX40フレーム(40ms持続時間のフレーム)、TCX80フレーム(80ms持続時間のフレーム)、TCX20フレーム、TCX20フレーム、ACELPフレーム、ACELPフレームである。
窓系列からは、変化している重複部分が認められる。変化している重複部分は、正確に、中央領域Mの1/8期目だけ重複している。図19の下部分の表は、変換コアの長さTが、常に、新しい完全再構成されたサンプルの領域PRより、1/8期目だけ大きいことを示す。さらに、これは、ACELPフレームからTCXフレームへの転移の場合だけではなく、TCXx(「x」は、任意の長さのTCXフレームを示す)フレームからTCXxフレームへの転移の場合でも存在することに注目するべきである。したがって、各ブロック(フレーム)において、1/8期目の負荷(オーバーヘッド)が導入される。すなわち、批判的抽出(クリティカル・サンプリング)は、決して達成されない。
TCXフレームからACELPフレームに切り替わるとき、窓サンプルは、その重複領域(例えば、図19の上部分の領域1900)の中のFFT−TCXフレームから捨てられる。ACELPフレームからTCXフレームに切り替わるとき、無入力応答(ZIR)は、窓化の前に符号器で取り除かれ、回復化のために復号器で加えられる。窓化された無入力応答(ZIR)は、図19の上部分で点線1910によって示されている。TCXフレームからTCXフレームに切り替わるとき、窓化されたサンプルは、相互フェードのために使用される。TCXフレームは、様々に量子化できるので、連続したフレームの間の量子化誤差または量子化雑音は、異なる、および/または、独立している。そのほかに、相互フェード無しで、あるフレームから次のフレームに切り替わるとき、目を引く人工物(雑音)が生じる。したがって、相互フェードが、所定の品質を達成するために必要である。
図19の下部分の表から、フレームの成長長さと共に、相互フェード領域が成長する、ということが認められる。図20は、AMR−WB+符号器内の可能な転移のための様々な窓の図と共に、別の表を提供する。TCXフレームからACELPフレームに転移するとき、重複しているサンプルは捨てられる。ACELPフレームからTCXフレームに転移するとき、ACELPフレームからの無入力応答は、符号器で取り除かれて、回復化のために復号器で加えられる。
以下において、音声符号化が示される。音声符号化は、時間領域(TD)の符号化と周波数領域(FD)の符号化とを利用する。さらに、2つの符号化領域の間の切り換えが利用される。図21に時間軸が示されている。最初のフレーム2101は、FD符号器によって符号化され、別のフレーム2103が続く。フレーム2103は、TD符号器によって符号化され、第1の領域2101と領域2102で重複する。時間領域で符号化されたフレーム2103の後に、フレーム2105が続く。フレーム2105は、再び周波数領域で符号化され、先行フレーム2103と領域2104で重複する。重複領域2102,2104は、符号化領域が切り換えられるときは常に生じる。
これら重複領域の目的は、転移を円滑に進めるためである。しかしながら、重複領域は、符号化効率を損失する、および、人工物(雑音)を生じる傾向がある。したがって、重複領域または転移は、伝達情報のいくつかの負荷(オーバーヘッド)の間、すなわち、符号化効率と転移の品質(すなわち、復号化された信号の音質)との間の妥協として、しばしば選択される。この妥協を構成するために、転移を処理したり、図21に示すような転移窓2111,2113,2115を設計したりするとき、注意するべきである。
周波数領域符号化モードと時間領域符号化モードとの間の転移の管理に関連する従来の考え方は、例えば、相互フェード窓を使用すること、すなわち、重複領域と同じくらい大きい負荷(オーバーヘッド)を導入することである。先行フレームを徐々に消滅させて、後続フレームを徐々に出現させる相互フェード窓は、同時に利用される。転移が行われるときはいつも、信号が、それ以上、批判的抽出されないので、負荷(オーバーヘッド)によるこの取り組みは、復号化効率における不足をもたらす。批判的抽出された重複変換は、例えば、非特許文献3に開示され、そして、例えば、AAC(発展音声符号化)に使用されている(非特許文献4参照)。
さらに、折り返し雑音化されていない相互フェード転移が、非特許文献5および非特許文献6に開示されている。
特許文献1は、時間領域符号器と周波数領域符号器との間の切り換えのための概念を開示している。概念は、時間領域/周波数領域の切り換えに基づいた符号器に適用される。例えば、概念は、AMR−WB+符号器のACELPモードに従って、時間領域符号化に適用され、そして、周波数領域符号器の一例として、AACに適用される。図22は、上側の枝の周波数領域復号器と下側の枝の時間領域復号器とを利用する、従来の符号器のブロック図を示す。周波数領域復号経路は、AAC復号器によって例示され、再量子化器2202と逆変更離散的余弦変換(IMDCT)ブロック2204とを含む。AAC復号器において、変更離散的余弦変換(MDCT、Modified Discrete Cosine Transform)は、時間領域と周波数領域との間の変換として使用される。図22において、時間領域復号経路は、AMR−WB+復号器2206の出力を周波数領域の再量子化器2202の出力に結合するために、MDCTブロック2208が続いたAMR−WB+復号器2206として例示される。
これは周波数領域の中の組み合わせを可能にする。重複および加算ステージ(図22に図示せず)は、隣接するブロックが時間領域または周波数領域で符号化されるかどうかを考慮する必要なく、隣接するブロックを結合して相互フェードするために、IMDCTブロック2204の後に使用される。
特許文献1に開示されている別の従来の取り組みは、図22のMDCTブロック2208、すなわち、時間領域復号化の場合のDCT−IVおよびIDCT−IVを避けることである。いわゆる時間領域折り返し雑音除去(TDAC、Time Domain Aliasing Cancellation)への別の取り組みが使用される。これは図23に示されている。図23は、AAC復号器として例示された周波数領域復号器を有する別の復号器を示す。AAC復号器は、再量子化器2302とIMDCTブロック2304とを含む。時間領域経路は、AMR−WB+復号器2306とTDACブロック2308とによって例示される。TDACブロック2308は、直接に時間領域において、適切な組み合わせのために、すなわち、時間領域折り返し雑音除去のために、必要な時間領域折り返し雑音を導入するので、図23に示した復号器は、時間領域で、すなわち、IMDCTブロック2304の後で、復号化されたブロックの組み合わせを許す。いくつかの計算を節約するために、そして、各AMR−WB+領域の最初および最後の「スーパーフレーム」ごとに、すなわち、1024個のサンプルごとに、MDCTを使用する代わりに、TDACは、128個のサンプルの重複領域で使用されるだけである。AAC処理で導入された正規時間領域折り返し雑音は、AMR−WB+部品の中の対応する逆時間領域折り返し雑音が導入される間、維持される。
WO2008/071353
B.ベセット、R.ルフェーヴル、R.サラミ、「ハイブリッドACELP/TCX技術を使用する普遍的なスピーチ/音声符号化」、IEEE ICASSP会報2005年度、301〜304ページ、2005年 3GPP(第3世代共同プロジェクト)技術仕様書No.26.290、バージョン6.3.0、2005年6月 J.プリンセン、A.ブラッドレー、「時間領域折り返し雑音除去に基づいた分析/合成フィルターバンク設計」、IEEE Trans.ASSP、ASSP−34(5)、1153〜1161ページ、1986年 映画および関連音声の一般的な符号化:発展音声符号化、国際規格13818−7、映画専門分類ISO/IEC JTC1/SC29/WG11、1997年 フィールダ、ルイス D.、トッド、クレイグ C.、「分配応用のためのビデオに適した音声符号化システムの設計」、論文No.17−008、AES第17国際大会:高品質音声符号化(1999年8月) フィールダ、ルイス D.、ディヴィッドソン、グラント A.、「デジタルテレビ分配のための音声符号化ツール」、前刷りNo.5104、AESの第108回大会)、2000年1月
折り返し雑音化されていない相互フェード窓は、無批判的抽出(ノン−クリティカル・サンプリング)された符号化係数を発生し、符号化するための情報の負荷(オーバーヘッド)を加算するので、効率良く符号化しない、という不都合を有する。例えば、特許文献1に記載のように時間領域復号器で、時間領域折り返し雑音化(TDA、Time Domain Aliasing)を導入することは、この負荷(オーバーヘッド)を低減するけれども、2つの符号器の一時的なフレーム化が互いに合致するように適用されるだけである。さもなければ、符号化効率は再び減少する。さらに、復号器側のTDAは、特に、時間領域符号器の開始点で問題が多い。潜在的リセットの後に、通常、時間領域符号器または時間領域復号器は、例えば、線形予測符号化(LPC、Linear Prediction Coding)を使用する時間領域符号器または時間領域復号器の記憶部の空き容量による量子化雑音の破裂(バースト)を発生する。復号器は、次に、永久状態または安定状態になる前に、所定時間かかり、時間が経過するにつれて、より一定の量子化雑音を放出する。それは、通常、聞き取れるので、この破裂エラー(誤り)は不利である。
それゆえに、本発明の主たる目的は、複数領域での音声符号化の切り換えを改良して、量子化雑音の破裂を低減し、かつ、符号化効率が良い音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラムを提供することである。
この目的は、請求項1に記載の符号器、請求項10に記載の符号化方法、請求項12に記載の音声復号器および請求項18に記載の音声復号化方法によって達成される。
対応する符号化領域のフレーム化が適用される、または、変更された相互フェード窓が利用されるときは、時間領域符号化と周波数領域符号化とを利用する音声符号化概念における改良された切り換えが達成される、ということが本発明の発見である。例えば、AMR−WB+符号器は、時間領域符号器として使用される。AAC符号器は、周波数領域符号器の一例として利用される。2つの符号器の間の、より効率の良い切り換えが、AMR−WB+部分のフレーム化を適用することによって、または、それぞれのAAC符号化部分の変更された開始窓もしくは停止窓を使用することによって、達成される。
TDACが復号器で適用され、折り返し雑音化されていない相互フェード窓が利用される、ということが本発明の更なる発見である。
本発明によれば、相互フェード品質を保証している適度の相互フェード領域を維持している間、負荷(オーバーヘッド)情報が減少し、重複転移において導入されるという利点を提供する。その結果、量子化雑音の破裂を低減し、かつ、符号化効率が良い音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラムを得ることができる。この発明の上述の目的,その他の目的,特徴および利点は、図面を基準して行う以下の発明を実施するための形態の説明から一層明らかとなろう。
音声符号器の一実施形態を示すブロック図である。 音声復号器の一実施形態を示すブロック図である。 MDCT/IMDCTのための方程式を示す図である。 変更されたフレーム化を利用している一実施形態を示すグラフである。 図4aは時間領域の準周期的信号を示すグラフであり、図4bは周波数領域の有声信号を示すグラフである。 図5aは時間領域の雑音のような信号を示すグラフであり、図5bは周波数領域の無声信号を示すグラフである。 分析/合成CELPの一実施形態を示すブロック図である。 LPC分析ステージの一実施形態を示すブロック図である。 変更された停止窓を有する一実施形態を示すグラフである。 変更された停止−開始窓を有する一実施形態を示すグラフである。 原則窓を示すグラフである。 より発展した窓を示すグラフである。 変更された停止窓を有する一実施形態を示すグラフである。 異なる重複領域を有する一実施形態を示すグラフである。 変更された開始窓を有する一実施形態を示すグラフである。 符号器で適用された、折り返し雑音無し化の変更された停止窓の一実施形態を示すグラフである。 復号器で適用された、折り返し雑音無し化の変更された停止窓の一実施形態を示すグラフである。 従来の符号器および復号器の例を示すブロック図である。 従来の有声信号および無声信号のためのLPC符号化を示すブロック図である。 従来の有声信号および無声信号のためのLPC復号化を示すブロック図である。 従来の相互フェード窓を説明するためにの説明図である。 従来のAMR−WB+符号器の窓系列を示すグラフおよび窓パラメータを示す表である。 AMR−WB+符号器のACELPフレームとTCXフレームとの間の転移で使用される窓を示す表である。 異なる符号化領域の連続した音声フレームの系列例を示すグラフである。 異なる領域の音声復号化のための従来の取り組みを示すブロック図である。 従来の時間領域折り返し雑音除去のための例を示すブロック図である。
図1aは音声サンプルを符号化するための音声符号器100を示す。音声符号器100は、第1の符号化領域の中の音声サンプルを符号化するための、第1の時間領域折り返し雑音導入符号器(Time Domain Aliasing Introducing Decoder)110を備える。第1の時間領域折り返し雑音導入符号器110は、第1のフレーム化規則、開始窓、および、停止窓を有する。さらに、音声符号器100は、第2の符号化領域の中の音声サンプルを符号化するための、第2の符号器120を備える。第2の符号器120は、音声サンプルの第1の予め決められた番号の予め決められたフレームサイズ、および、音声サンプルの第2の予め決められた番号の符号化準備期間を有する。符号化準備期間は、所定の、または、予め決められており、音声サンプル、音声サンプルのフレームまたは音声信号の系列に依存している。第2の符号器120は、異なる第2のフレーム化規則を有する。第2の符号器120のフレームは、いくつかの時間的に後続の音声サンプルの符号化された表現である。時間的に後続の音声サンプルの数は、音声サンプルの第1の予め決められた番号と等しい。
音声符号器100は、さらに制御装置130を備える。制御装置130は、音声サンプルの特性に対応して、第1の時間領域折り返し雑音導入符号器110から第2の符号器120へ切り換えるためのものである。また、制御装置130は、第1の時間領域折り返し雑音導入符号器110から第2の符号器120への切り換えに対応して、第2のフレーム化規則を変更したり、あるいは、第2のフレーム化規則を変更しないままで、第1の時間領域折り返し雑音導入符号器110の開始窓または停止窓を変更したりするためのものである。
制御装置130は、入力音声サンプルに基づいて、または、第1の時間領域折り返し雑音導入符号器110または第2の符号器120に基づいて、音声サンプルの特性を決定するように設けられる。これは図1aの点線によって示される。入力音声サンプルは、点線を通って制御装置130に提供される。さらに、切り換え決定に関する詳細が以下に提供される。
制御装置130は、第1の時間領域折り返し雑音導入符号器110および第2の符号器120が並行に音声サンプルを符号化するという方法で、第1の時間領域折り返し雑音導入符号器110および第2の符号器120を制御する。制御装置130は、それぞれの結果に基づいて、切り換え決定について決め、切り換え前に変更を実行する。別の実施形態では、制御装置130は、音声サンプルの特性を分析して、どの符号化枝を使用するかを決定し、他の枝を切り離す。そのような実施形態では、第2の符号器120の符号化準備期間は、適切なものになる。切り換え前の際、符号化準備期間が考慮されなければならない。さらに以下で詳説される。
第1の時間領域折り返し雑音導入符号器110は、後続の音声サンプルの最初のフレームを周波数領域に変換するための周波数領域変換器を備える。第1の時間領域折り返し雑音導入符号器110は、後続のフレームが第2の符号器120によって符号化されるときは、最初の符号化されたフレームを、開始窓で重み付けするように設けられている。さらに、第1の時間領域折り返し雑音導入符号器110は、先行フレームが第2の符号器120によって符号化されるべきであるとき、最初の符号化されたフレームを、停止窓で重み付けするように設けられている。
様々な記法が使用されることに注目するべきである。第1の時間領域折り返し雑音導入符号器110は、開始窓または停止窓を適用する。ここで、残りのために、開始窓は第2の符号器120へ切り換わる前に適用される、ということが想定される。そして、第2の符号器120から元の第1の時間領域折り返し雑音導入符号器110へ切り換わるとき、停止窓は第1の時間領域折り返し雑音導入符号器110で適用される、ということが想定される。一般性の損失無しで、表現は、第2の符号器120に関して、逆もまた同様に使用される。混乱を避けるために、第2の符号器120が始動する、または、その後、第2の符号器120が停止するとき、表現「開始」と「停止」は、第1の符号器110で適用される窓を称する。
第1の時間領域折り返し雑音導入符号器110の中で使用される周波数領域変換器は、MDCTに基づいて、最初のフレームを、周波数領域に変換するように設けられている。さらに、第1の時間領域折り返し雑音導入符号器110は、MDCTサイズを、開始窓および停止窓に、または、変更された開始窓および停止窓に、適用するように設けられている。MDCTとそのサイズの詳細は、以下に設定される。
第1の時間領域折り返し雑音導入符号器110は、結果的に、折り返し雑音無しの部分を有する開始窓および/または停止窓を使用するように、設けられている。すなわち、窓の中に、時間領域折り返し雑音を有さない部分が存在する。さらに、先行フレームが第2の符号器120によって符号化されるときは、第1の時間領域折り返し雑音導入符号器110は、窓の立ち上がりエッジ部分にて、折り返し雑音無しの部分を有する開始窓および/または停止窓を使用するように、設けられている。すなわち、第1の時間領域折り返し雑音導入符号器110は、折り返し雑音無しである立ち上がりエッジ部分を有する停止窓を利用する。その結果、後続フレームが、第2の符号器120によって、すなわち、折り返し雑音無しである立ち下がりエッジ部分を有する停止窓を使用することによって、符号化されるときは、第1の時間領域折り返し雑音導入符号器110は、折り返し雑音無しである立ち下がりエッジ部分を有する窓を利用するように設けられている。
制御装置130は、第2の符号器120を始動するように設けられている。その結果、第2の符号器120のフレームの系列の最初のフレームは、第1の時間領域折り返し雑音導入符号器110の先行する折り返し雑音無しの部分の中で処理されたサンプルの符号化された表現を含む。言い換えれば、第1の時間領域折り返し雑音導入符号器110および第2の符号器120の出力は、制御装置130によって、第1の時間領域折り返し雑音導入符号器110からの符号化された音声サンプルの折り返し雑音無しの部分が、第2の符号器120によって出力された符号化された音声サンプルに重複する方法で、調整される。制御装置130は、さらに、相互フェードさせる、すなわち、一方の符号器を徐々に出現(フェードイン)させる間、他方の符号器を徐々に消滅(フェードアウト)させるように設けられている。
制御装置130は、第2の符号器120を始動するように設けられているので、音声サンプルの第2の予め決められた番号の符号化準備期間は、第1の時間領域折り返し雑音導入符号器110の開始窓の折り返し雑音無しの部分と重複する。第2の符号器120の後続のフレームは、停止窓の折り返し雑音の部分と重複する。言い換えれば、制御装置130は、符号化準備期間中、折り返し雑音化されていない音声サンプルが、第1の時間領域折り返し雑音導入符号器110から利用可能であるように、第2の符号器120を調整する。そして、折り返し雑音化された音声サンプルだけが、第1の時間領域折り返し雑音導入符号器110から利用可能であるときは、第2の符号器120の準備期間が終わり、符号化された音声サンプルは、通常の方法で、第2の符号器120の出力にて利用可能である。
制御装置130は、さらに、第2の符号器120を始動するように設けられているので、符号化準備期間は、開始窓の折り返し雑音化部分に重複する。本実施形態では、重複部分の間、折り返し雑音化された音声サンプルは、第1の時間領域折り返し雑音導入符号器110の出力から利用可能である。そして、準備期間の符号化された音声サンプルは、第2の符号器120の出力にて、利用可能である。準備期間は、増加した量子化雑音を認識する。制御装置130は、重複の期間中、2つの次善的に符号化された音声系列の間を相互フェードするように設けられている。
制御装置130は、さらに、音声サンプルの異なる特性に対応して、第1の時間領域折り返し雑音導入符号器110から切り換わるように設けられている。そして、制御装置130は、第1の時間領域折り返し雑音導入符号器110から第2の符号器120への切り換えに対応して、第2のフレーム化規則を変更するように、または、第2のフレーム化規則が変更されないままで、第1の時間領域折り返し雑音導入符号器110の開始窓または停止窓を変更するように、設けられている。言い換えれば、制御装置130は、2つの音声符号器の間の前後で切り換わるように設けられている。
別の実施形態では、制御装置130は、第1の時間領域折り返し雑音導入符号器110を始動するように設けられている。その結果、停止窓の折り返し雑音無しの部分が、第2の符号器120のフレームに重複する。言い換えれば、制御装置130は、2つの符号器の出力の間を相互フェードするように設けられている。いくつかの実施形態では、次善的に符号化されている間だけ、第2の符号器120の出力が徐々に消滅する。すなわち、第1の時間領域折り返し雑音導入符号器110からの折り返し雑音化された音声サンプルが徐々に現れる。別の実施形態では、制御装置130は、第2の符号器120と第1の時間領域折り返し雑音導入符号器110の折り返し雑音化されていないフレームとの間を相互フェードするように設けられている。
第1の時間領域折り返し雑音導入符号器110は、前述の非特許文献4(映画および関連音声の一般的な符号化:発展音声符号化、国際規格13818−7、映画専門分類ISO/IEC JTC1/SC29/WG11、1997年)に従っているAAC符号器を含む。
第2の符号器120は、3GPP(第3世代共同プロジェクト)、技術仕様書No.26.290、バージョン6.3.0、2005年6月、「音声符号器処理機能、拡張適応型多重速度広帯域符号器、符号変換機能」第6刷に従っているAMR−WB+符号器(拡張適応型多重速度広帯域符号器、Extended Adaptive Multi−Rate−Wide Band Codec)を含む。
制御装置130は、AMRまたはAMR−WB+フレーム化規則を変更するように設けられる。その結果、最初のAMRスーパーフレームは、5つのAMRフレームを含む。上記技術仕様書に従って、スーパーフレームは、上記技術仕様書の18ページの図4、表10と20ページの図5とを比較すると、4つの通常のAMRフレームを含む。以下でさらに詳述するように、制御装置130は、余分なフレームをAMRスーパーフレームに加えるように設けられている。スーパーフレームは、スーパーフレームの始端または終端に、フレームを追加することによって変更される、ことに注目するべきである。すなわち、フレーム化規則は、スーパーフレームの端に、同様に上手に合致される。
図1bは、音声サンプルの符号化されたフレームを復号するための音声復号器150の一実施形態を示す。音声復号器150は、第1の復号化領域の中の音声サンプルを復号するための第1の時間領域折り返し雑音導入復号器160を備える。第1の時間領域折り返し雑音導入復号器160は、第1のフレーム化規則、開始窓、および、停止窓を有する。音声復号器150は、さらに、第2の復号化領域の中の音声サンプルを復号するための第2の復号器170を備える。第2の復号器170は、音声サンプルの第1の予め決められた番号の予め決められたフレームサイズと音声サンプルの第2の予め決められた番号の符号化準備期間とを有する。さらに、第2の復号器170は、異なる第2のフレーム化規則を有する。第2の復号器170のフレームは、多数の時間的に後続の音声サンプルの復号化された表現である。その数は、音声サンプルの第1の予め決められた番号と等しい。
音声復号器150は、さらに制御装置180を備える。制御装置180は、音声サンプルの符号化されたフレームの指示に基づいて、第1の時間領域折り返し雑音導入復号器160から第2の復号器170へ切り換えるためのものである。また、制御装置180は、第1の時間領域折り返し雑音導入復号器160から第2の復号器170への切り換えに対応して、第2のフレーム化規則を変更したり、あるいは、第2のフレーム化規則を変更しないままで、第1の時間領域折り返し雑音導入復号器160の開始窓または停止窓を変更したりするように設けられている。
上の記述によると、例えば、AAC符号器とAAC復号器において、開始窓と停止窓は、復号器と同様に符号器においても適用される。音声符号器100の上の記述に従って、音声復号器150は対応する復号化部品を提供する。制御装置180のための切り換え指示が、符号化されたフレームに伴うビット、フラッグ(旗)、または、副情報の点から提供される。
第1の時間領域折り返し雑音導入復号器160は、復号された音声サンプルの最初のフレームを時間領域に変換するための時間領域変換器を含む。第1の時間領域折り返し雑音導入復号器160は、後続のフレームが第2の復号器170によって復号化されるときは、最初の復号化されたフレームを、開始窓で重み付けするように、および/または、先行フレームが第2の復号器170によって復号化されるべきであるときは、最初の復号化されたフレームを、停止窓で重み付けするように、設けられている。時間領域変換器は、第1のフレームを、逆MDCTに基づいて、時間領域に変換するように設けられている。および/または、第1の時間領域折り返し雑音導入復号器160は、IMDCTサイズを、開始窓および/または停止窓、または、変更された開始窓および/または停止窓に適用するように設けられている。IMDCTサイズはさらに以下で詳説される。
第1の時間領域折り返し雑音導入復号器160は、折り返し雑音無し、または、折り返し雑音無しの部分を有している開始窓、および/または、停止窓を利用するように設けられている。第1の時間領域折り返し雑音導入復号器160は、さらに、先行フレームが第2の復号器170によって復号されるときは、窓の立ち上がりエッジ部分で折り返し雑音無しの部分を有する停止窓を使用するように設けられている。および/または、第1の時間領域折り返し雑音導入復号器160は、後続のフレームが、第2の復号器170によって復号されるときは、立ち下がりエッジ部分で折り返し雑音無しの部分を有する開始窓を持つ。
音声符号器100の上で説明した実施形態に対応して、制御装置180は、第2の復号器170を始動するように設けられる。その結果、第2の復号器170のフレーム系列の最初のフレームは、第1の時間領域折り返し雑音導入復号器160の先行する折り返し雑音無しの部分の中で処理されたサンプルの復号化された表現を含む。制御装置180は、第2の復号器170を始動するように設けられるので、音声サンプルの第2の予め決められた番号の符号化準備期間は、第1の時間領域折り返し雑音導入復号器160の開始窓の折り返し雑音無しの部分と重複し、第2の復号器170の後続のフレームは、停止窓の折り返し雑音の部分と重複する。
別の実施形態において、制御装置180は、第2の復号器170を始動するように設けられ、その結果、符号化準備期間が、開始窓の折り返し雑音部分と重複する。
別の実施形態において、制御装置180は、さらに、符号化された音声サンプルからの指示に対応して、第2の復号器170から第1の時間領域折り返し雑音導入復号器160へ切り換えるように、かつ、第2の復号器170から第1の時間領域折り返し雑音導入復号器160へ切り換えに対応して、第2のフレーム化規則を変更したり、あるいは、第2のフレーム化規則を変更しないで、第1の時間領域折り返し雑音導入復号器160の開始窓または停止窓を変更したりするように、設けられる。指示は、符号化されたフレームに伴うフラッグ(旗)、ビット、または、副情報の点から提供される。
本実施形態では、制御装置180は、第1の時間領域折り返し雑音導入復号器160を始動するように設けられる。その結果、停止窓の折り返し雑音部分は、第2の復号器170のフレームと重複する。
制御装置180は、異なる復号器の復号化された音声サンプルの連続したフレームの間で相互フェードを適用するように設けられる。さらに、制御装置180は、第2の復号器170の復号化されたフレームから、開始窓または停止窓の折り返し雑音部分の中の折り返し雑音を決定するように設けられる。また、制御装置180は、決定された折り返し雑音に基づいて、折り返し雑音部分の中の折り返し雑音を減少させるように設けられる。
制御装置180は、さらに、第2の復号器170から、音声サンプルの符号化準備期間を捨てるように設けられる。
以下では、変更離散的余弦変換(MDCT)と逆変更離散的余弦変換(IMDCT)が説明される。変更離散的余弦変換(MDCT)は、図2に示した方程式(a)〜(j)によって、より詳細に説明される。変更離散的余弦変換(MDCT)は、重複されているという追加特性を有した4型離散的余弦変換(DCT−IV)に基づいたフーリエ関連変換である。すなわち、より大きいデータセットの連続したブロック(フレーム)が実行されるように設計される。後続のブロック(フレーム)が重複されるので、例えば、1つのブロック(フレーム)の後半が、次のブロック(フレーム)の前半と一致する。この重複は、DCTのエネルギー圧縮品質に加えて、信号圧縮応用のために、MDCTを特に魅力的に作る。それは、ブロック(フレーム)境界から生じる人工物(雑音)を避けることを助けるからである。したがって、MDCTは、例えば、音声圧縮のために、MP3(MPEG2/4 層3)、AC−3(ドルビーによる音声符号器 3)、オッグボルビス(Ogg Vorbis)、および、AAC(発展した音声符号化)で使われる。
MDCTは、プリンセンとブラッドレーによる初期研究(1986年)に続いて、1987年に、時間領域折り返し雑音除去(TDAC)のMDCT基本原則を開発するために、プリンセン、ジョンソン、およびブラッドレーによって提案された。MDCTは、以下でさらに説明される。また、類似の変換である、離散的正弦変換(DST)に基づいたMDSTが存在する。MDSTは、様々の型のDCTまたはDCT/DSTの組み合わせに基づいたMDCTの別の形式と同様に、稀に使用される。また、MDSTは、本実施形態において、時間領域折り返し雑音導入変換器14によって使用される。
MP3において、MDCTは、直接に音声信号に適用されず、むしろ、32帯域多相矩形フィルタバンク(PQF、Polyphase Quadrature Filter bank)の出力に適用される。このMDCTの出力は、折り返し雑音減少公式によって後処理され、PQFの典型的な折り返し雑音を減少する。MDCTを有するフィルタバンクのそのような組み合わせは、ハイブリッドフィルタバンクまたは副帯域MDCTと称される。他方、AACは、通常、純粋なMDCTを使用する。(稀に使用される)MPEG−4 AAC−SSR変形(ソニー製)だけが、MDCTに従う4帯域PQFを使用する。適応型変換音声符号化(ATRAC)は、MDCTに従う積み重ねられた矩形鏡フィルタ(QMF、Quadrature Mirror Filter)を使用する。
Figure 0005551814
この変換の前の規格化係数は、ここでの約束であるが、任意の条件であり、相互に異なる。MDCTとIMDCTとの規格化の積だけが、以下で制限される。
逆MDCTは、IMDCTとして知られている。入力および出力の異なる数が存在するので、一見したところ、MDCTは逆にさせられないように見えるかもしれない。しかしながら、完全な可逆性は、後続の重複ブロック(フレーム)の重複IMDCTを加えることによって達成され、誤差の除去と元データの検索とが引き起こされる。この技術は、時間領域折り返し雑音除去(TDAC)として知られている。
IMDCTは、図2の(b)の公式に従って、N個の実数X0,・・・,XN-1を、2N個の実数y0,・・・,y2N-1に変換する。DCT−IVのように、直交変換は、その逆が、前の変換と同じ形式を有する。
通常の窓正規化(以下、参照)を有する窓化されたMDCTの場合、IMDCTの前の規格化係数は、2を乗算されるべきであり、すなわち、2/Nになる。
MDCT公式の直接応用は、O(N2)操作を必要とするけれども、高速フーリエ変換(FFT)のように、計算を再帰的に因数に分析することによって、O(NlogN)の複雑さだけを有するMDCT公式を計算することは、可能である。また、O(N)前処理および後処理のステップを組み合わされた他の変換(通常、DFT(FFT)またはDCT)を介して、MDCTを計算できる。また、以下で説明されるように、DCT−IVのどんな演算法も、すぐに、等しいサイズのMDCTおよびIMDCTを計算するための方法を提供する。
通常の信号圧縮の応用において、変換特性は、窓関数wn(n=0,・・・,2N−1)を使用することによって、さらに改良される。窓関数wnは、n=0と2Nのポイントで窓関数wnを円滑にゼロにすることによって、n=0と2Nの境界で不連続を避けるために、上のMDCTおよびIMDCTの公式の中で、xnとynとが乗算される。すなわち、データは、MDCTの前とIMDCTの後に、窓化される。原則として、xとyは異なる窓関数を有し、また、窓関数wnは、特に、異なるサイズのデータブロック(フレーム)が組み合わされる場合、1つのブロック(フレーム)から次のブロック(フレーム)に変化する。しかし、簡単のために、等しいサイズのブロック(フレーム)が組み合わされて同じ窓関数となる、よくある場合が、最初に考えられる。
変換は可逆のまま残る。すなわち、wが、図2の(c)に従って、プリンセン−ブラッドレー条件を満足する限り、TDACは、対称窓wn=w2N-1-nに対して働く。
様々な異なる窓関数は一般的である。一例として、MP3およびMPEG−2AACのためには、図2の(d)の窓関数wnが与えられる。そして、ボルビス(Vorbis)のためには、図2の(e)の窓関数wnが与えられる。AC−3はカイザー−ベッセル(Kaiser−Bessel)から派生した窓を使用する。また、MPEG−4AACも、カイザー−ベッセルから派生した窓を使用する。
MDCTに適用される窓は、プリンセン−ブラッドレー条件を達成しなければならないので、他のタイプの信号分析に使用される窓と異なることに注目するべきである。この違いの理由の1つは、MDCTの窓が、MDCT(分析フィルタ)とIMDCT(合成フィルタ)の両方に対して、2度適用されるということである、
定義の点検によって判るように、等しいNに対して、MDCTは本質的にDCT−IVと同等である。入力が(N/2)だけ移行すると、データの2つのN−ブロック(フレーム)は、同時に変換される。より慎重にこの等価性を調べることによって、TDACのような重要な特性が容易に引き出される。
DCT−IVとの正確な関係を定義するために、DCT−IVは、二者択一の偶数/奇数の境界条件に対応するということを理解しなければならない。DCT−IVは、その左側の境界(n=−(1/2)の周囲)で偶数であり、その右側の境界(n=N−(1/2))の周囲)で奇数などである。DFTのような場合には、周期的境界に代わる。これは図2の(f)で与えられた同一性から結果として生じる。したがって、仮に、その入力が、長さNの列xであれば、この列xを、(x,−xR,−x,xR,・・・)などに広げるイメージが想像される。ここで、xRは、逆順のxを示す。
2N個の入力とN個の出力とを有したMDCTを考えてください。入力は、それぞれサイズがN/2の4つのブロック(a,b,c,d)に分割される。仮に、これら4つのブロック(a,b,c,d)が、(MDCT定義における+N/2タームから)N/2だけ移行するならば、3つのブロック(b、c、d)が、DCT−IVのN個の入力の終端を過ぎて広がるので、上で説明した境界状態に従って、3つのブロック(b、c、d)は「折り返され」なければならない。
その結果、2N個の入力(a,b,c,d)を有するMDCTは、正確に、N個の入力(−cR−d,a−bR)を有するDCT−IVと同等である。ここで、Rは、上で説明したように、反転(逆順)を示す。このように、DCT−IVを計算するどんな演算法も、普通にMDCTに適用される。
同様に、上で説明したように、IMDCT公式は、正確に、DCT−IVの1/2である(DCT−IVの逆である)。出力はN/2だけ移行され、(境界条件を通して)長さ2Nまで拡張される。逆DCT−IVは、上記から、入力(−cR−d,a−bR)に容易に戻る。出力が移行されて、境界条件を通して拡張されるとき、図2の(g)に表示された結果を得る。その結果、IMDCT出力の半分が、冗長である。
今、TDACがどのように働くかが、理解できる。後続の、そして、50%重複した2Nブロック(c,d,e,f)のMDCTを計算すると想定してください。IMDCTは、上記との類似で、(c−dR,d−cR,e+fR,eR+f)/2を生じる。これが、半分重複している前のIMDCTの結果に加えられるとき、逆タームは除去され、容易に(c,d)を得て、元のデータを回復する。
「時間領域折り返し雑音除去」という用語の起源は明確である。論理的DCT−IVの境界部分を越えて広がる入力データの使用は、ナイキスト周波数を超える周波数が、より低周波数に折り返し雑音を発生させるのと正確に同じ方法で、データに折り返し雑音を発生させることを引き起こす。この折り返し雑音が、周波数領域の代わりに時間領域の中で起こる場合は除かれる。したがって、組み合わせc−dRなどは、組み合わせのための正確に正しい記号を有し、加算されるとき除去される。
奇数N(実際に稀に使用される)に対しては、N/2が整数でないので、MDCTは単なるDCT−IVの移行順列ではない。この場合、サンプルを半分だけ追加的に移行することは、MDCT/IMDCTがDCT−III/IIと等価になるということを意味する。分析は上記に類似している。
上では、TDAC特性が、通常のMDCTに対して立証され、半分重複している後続のブロック(後続のフレーム)の加算IMDCTが、元のデータを回復することを示す。窓化されたMDCTのためのこの逆特性の派生は、わずかだけ複雑である。
ブロック(a,b,c,d)およびブロック(c,d,e,f)が変更離散的余弦変換(MDCT)され、それらの重複している半分が逆変更離散的余弦変換(IMDCT)され、かつ、加算されるとき、我々は元データ(c+dR,cR+d)/2+(c−dR,d−cR)/2=(c,d)を得る、ということを、上記から思い出してください。。
今、MDCT入力とIMDCT出力の両方が、長さ2Nの窓関数によって乗算されることが、提案される。上記したように、対称窓関数、したがって、形式(w,z,zR,wR)の対称窓関数を想定する。ここで、wとzは、長さがN/2のベクトルであり、Rは、前と同様、反転(逆順)を示す。次に、プリンセン−ブラッドレー条件が記載される。
Figure 0005551814
乗算と加算は、要素ごとに実行される。あるいは、等価的にwとzを逆にする。
Figure 0005551814
したがって、ブロック(a,b,c,d)を変更離散的余弦変換(MDCT)する代わりに、ブロック(wa,zb,zRc,wRd)の変更離散的余弦変換(MDCT)が、要素ごとに実行される全ての乗算と共に行われる。これが、窓関数によって再び(要素ごとに)、変更離散的余弦変換(MDCT)され、かつ、乗算されるとき、その後半分Nが、図2の(h)に示すように生じる。
IMDCT正規化は、窓化された場合、係数2だけ異なるので、1/2の乗算はもはや存在しないことに注目するべきである。同様に、ブロック(c,d,e,f)の窓化されたMDCTとIMDCTは、図2の(i)に従って、その前半分Nにおいて生じる。これら2つの半分が、一緒に加算されるとき、図2の(j)の結果を得られ、元のデータが回復される。
以下では、符号器側の制御装置130と復号器側の制御装置180とが、それぞれ、第1の符号化領域から第2の符号化領域への切り換わりに対応して、第2のフレーム化規則を変更する、実施形態が詳説される。本実施形態において、切り換えられた符号器の中の円滑な移行、すなわち、AMR−WB+符号化とAAC符号化との間の円滑な切り換えが、達成される。円滑な移行を有するために、何らかの重複、すなわち、信号の小領域または多数の音声サンプルが、利用される。2つの符号化モードが、信号の小領域または多数の音声サンプルに適用される。言い換えれば、以下の記述において、第1の時間領域折り返し雑音導入符号器110と第1の時間領域折り返し雑音導入復号器160とは、提供されるAAC符号化とAAC復号化とに対応する。第2の符号器120と第2の復号器170とは、ACELPモードの中のAMR−WB+に対応する。本実施形態は、それぞれの制御装置130,180の1つの選択肢に対応する。AMR−WB+のフレーム化、すなわち、第2のフレーム化規則は、制御装置130,180の中で変更される
図3はいくつかの窓およびフレームが示される時間軸を示す。図3において、AAC正規窓301の後には、AAC開始窓302が続く。AACにおいて、AAC開始窓302は長いフレームと短いフレームとの間で使用される。AAC受継フレーム化、すなわち、第1の時間領域折り返し雑音導入符号器110および第1の時間領域折り返し雑音導入復号器160の第1のフレーム化規則を示すために、短いAAC窓の系列303が図3に示されている。短いAAC窓の系列303は、長いAAC窓の系列を開始するAAC停止窓304によって終了する。上の記述によると、第2の符号器120および第2の復号器170は、それぞれAMR−WB+のACELPモードを利用する、ということが想定される。AMR−WB+は、図3に示されている系列320の等しいサイズのフレームを利用する。図3は、AMR−WB+のACELPに従って、異なる型の事前フィルタフレームの系列を示す。AACフレームからACELPフレームへの切り換え前に、制御装置130または制御装置180は、ACELPのフレーム化を変更する。その結果、最初のスーパーフレーム320(系列320)は、4つのフレームの代わりに5つのフレームから成る。したがって、ACEデータ314は復号器で利用可能である。一方、AAC復号化されたデータも利用可能である。したがって、最初の部分は復号器にて捨てられる。最初の部分は、第2の符号器120、第2の復号器170のそれぞれの符号化準備期間と称される。一般に、別の実施形態において、AMR−WB+スーパーフレームは、スーパーフレームの終端にフレームを追加することによって、拡張される。
図3は、2つのモード転移、すなわち、AACからAMR−WB+へのモード転移と、AMR−WB+からAACへのモード転移を示す。本実施形態において、AAC符号器の典型的な開始窓302および停止窓304が使用される。AMR−WB+符号器のフレーム長は、AAC符号器の開始窓/停止窓のフェード化部分を重複するために増加する。すなわち、第2のフレーム化規則が変更される。図3によれば、AACからAMR−WB+への転移(すなわち、第1の時間領域折り返し雑音導入符号器110から第2の符号器120への転移、または、第1の時間領域折り返し雑音導入復号器160から第2の復号器170への転移)が、それぞれ、重複部分をカバーするために、AACフレーム化を維持し、かつ、転移のときに時間領域フレームを拡張することによって、処理される。転移におけるAMR−WB+スーパーフレーム、すなわち、図3における最初のスーパーフレーム320は、4つのフレームの代わりに5つのフレームを使用する。5番目のフレームは重複部分をカバーする。これはデータ負荷(オーバーヘッド)を導入する。しかしながら、本実施形態は、AACモードとAMR−WB+モードとの間の円滑な移行が確実にされる、という利点を提供する。
既に上で説明したように、制御装置130は、異なる分析または異なる選択肢が想像できる音声サンプルの特性に基づいて、2つの符号化領域の間を切り換えるように設けられる。例えば、制御装置130は、信号の定常部分または転移部分に基づいて、符号化モードを切り換える。別の選択肢は、音声サンプルが有声信号に対応しているか、または、無声信号に対応しているか、に基づいて切り換わることである。音声サンプルの特性を決定するための詳細な実施形態を提供するために、以下において、制御装置130は、信号の声の類似性に基づいて切り換わる。
例示的に、図4aおよび図4b並びに図5aおよび図5bを参照する。準周期的衝撃波のような信号部分と雑音のような信号部分が、例示的に議論される。一般に、制御装置130,180は、異なる評価基準(例えば、定常性、はかなさ、スペクトル白さなど)に基づいて決定するように、設けられている。以下において、評価基準例が、実施形態の部分として与えられる。特に、図4aには時間領域の有声スピーチが示され、図4bには周波数領域の有声スピーチが示されている。有声スピーチは、準周期的衝撃波のような信号部分の例として議論される。そして、無声スピーチ部分が、雑音のような信号部分の例として、図5aおよび図5bを参照して議論される。
一般に、スピーチは、有声、無声、または、混合に分類される。有声スピーチは、時間領域において準周期的であって、周波数領域において調和構造化されている。一方、無声スピーチは、不規則のようであって、広帯域である。さらに、有声部分のエネルギーは、一般に、無声部分のエネルギーより高い。有声スピーチの短期間スペクトルは、その微細なフォルマント(formant)構造によって特徴付けられる。微細な倍音構造は、スピーチの準周期性の結果であり、振動している声帯に帰する。フォルマント構造(スペクトル包絡線とも称される)は、音源と声帯との相互作用の結果である。声道は、いん頭と口腔から成る。有声スピーチの短期間スペクトルに「合致」するスペクトル包絡線の形は、声道の輸送特性と声門のパルスによるスペクトル傾斜(6dB/オクターブ)とに関連している。
スペクトル包絡線は、1連のピーク(フォルマントと称される)によって特徴付けられる。フォルマントは、声道の共鳴モードである。平均の声道には、5kHz未満のフォルマントが3個〜5個存在する。通常、3kHz未満で起こる第1の3個のフォルマントの振幅および位置は、スピーチの合成および知覚の両方において、かなり重要である。より高いフォルマントも、広帯域で無声のスピーチ表現に対して重要である。スピーチ特性は、以下の物理的スピーチ製作システムに関連する。振動している声帯によって発生した、準周期的声門の空気パルスを有する声道の励振は、有声スピーチを製作する。周期的パルスの周波数は、基本周波数または基本ピッチと称される。声道の中で空気を強制的に圧縮することは、無声スピーチを製作する。鼻音は、鼻道と声道との音響結合の結果である。そして、破裂音は、声道の閉鎖の後に作られた空気圧を、突然に減少させることによって減少する。
したがって、音声信号の雑音のような部分は、図5aで示すように、時間領域の定常部分、または、周波数領域の定常部分である。それは、例えば、図4aで示すように、準周期的衝撃波のような部分と異なる。時間領域の定常部分は、永久的な繰り返しパルスを示さないという事実の結果である。しかしながら、後で概説するように、雑音のような部分と準周期的衝撃波のような部分との間の差は、励振信号のLPCの後で観察される。LPCは、声道と声道の励振をモデル化する方法である。信号の周波数領域が考慮されるとき、衝撃波のような信号は、個々のフォルマントの際立つ外観、すなわち、図4bの際立つピークを示す。一方、定常信号スペクトルは、図5bに示すように、かなり広いスペクトルを有する。あるいは、倍音信号の場合、定常信号スペクトルは、特定の音を表すいくつかの際立つピークを持つ、かなり連続した雑音床を有する。特定の音は、例えば、音楽信号の中に起こるが、図4bの衝撃波のような信号のように、相互に正規の距離を持っていない。
さらに、準周期的衝撃波のような部分と雑音のような部分とは、同時的に起こる。すなわち、それは、時間内の音声信号の部分が雑音であり、別の部分が準周期的衝撃波、すなわち、音色であることを意味する。二者択一的に、または、追加的に、信号特性は、様々な周波数帯域において異なる。したがって、音声信号が、雑音であるか、または、音色であるかの決定は、周波数を選択して実行される。その結果、特定の周波数帯域、または、いくつかの特定の周波数帯域は、雑音であると考えられ、他の周波数帯域は、音色であると考えられる。この場合、音声信号の特定の時間部分は、音色成分および雑音成分を含む。
次に、分析/合成CELP符号器が、図6を参照して議論される。CELP符号器の詳細は、「スピーチ符号化:個人指導用報告」、アンドレア・スパニエル、IEEE会報、84巻、No.10、1994年10月、1541〜1582ページに記載されている。図6に示したCELP符号器は、長期予測構成部60と短期予測構成部62とを含む。さらに、符号表64が使用されている。知覚重み付けフィルタW(z)66と誤差最小化制御装置68も設けられている。s(n)は入力音声信号である。知覚的に重み付けされた後、重み付けされた信号は相殺器69に入力される。相殺器69は、重み付けされた合成信号(符号66に実装されている知覚重み付けフィルタW(z)の出力)と実際の重み付けされた信号sw(n)との間の誤差を計算する。
一般に、短期予知A(z)は、以下でさらに議論するLPC分析ステ−ジによって計算される。この情報によって、長期予測AL(z)は、長期予測利得(ピッチ利得)bおよび長期予測遅延(ピッチ遅延)Tを含む。CELP演算法は、例えばガウス系列の符号表を使用して、短期予測および長期予測の後に得られた残留信号を符号化する。ACELP演算法は、特定の代数的に設計された符号表を有する。「ACELP」の「A」は、「代数的」を表す。
符号表は多かれ少なかれベクトルを含む。各ベクトルは、サンプルの数に従った長さを有する。増幅係数gは、符号ベクトルを長さ調整する。増幅され符号化されたサンプルは、長期合成フィルタと短期合成フィルタとによって、ふるいにかけられる。「最適な」符号ベクトルが選択され、その結果、知覚的に重み付けされた誤差の平均平方(不偏分散)が、最小になる。CELPの中の検索過程は、図6に示した分析/合成構成から明白である。図6は、分析/合成CELPの一例を示しただけであり、本実施形態は、図6に示した構造に制限されない、ことに注目するべきである。
CELPにおいて、長期予測器は、前の励振信号を含む適応型符号表としてしばしば実行される。長期予測遅延および長期予測利得は、適応型符号表の索引および利得によって表され、重み付けされた誤差の平均平方(不偏分散)を最小にすることによって選択される。この場合、励振信号は、2つの利得調整されたベクトルの加算から成る。1つは適応型符号表からのベクトルであり、もう1つは固定型符号表からのベクトルである。AMR−WB+符号器の中の知覚重み付けフィルタW(z)は、LPCフィルタに基づいている。したがって、知覚的に重み付けされた信号は、LPC領域信号の形式である。AMR−WB+符号器の中で使用される変換領域符号器において、変換は重み付けされた信号に適用される。復号器において、励振信号は、合成の逆から成るフィルタや重み付けフィルタを通して、復号化され重み付けされた信号を、ふるいにかけることによって得られる。
次に、予測符号化分析ステ−ジの機能性が、図7に示された実施形態に従って議論される。この実施形態では、制御装置130,180の中でLPC分析とLPC合成とを使用する
図7は、LPC(線形予測符号化)分析ステージのより詳細な実行を示す。音声信号はフィルタ決定ブロック783に入力される。フィルタ決定ブロック783は、フィルタ情報A(z)、すなわち、合成フィルタの係数情報を決定する。この情報は、量子化されて、復号器のために必要な短期予測情報として出力される。相殺器786では、信号の現在のサンプルが入力され、現在のサンプルの予測値が減算される。その結果、このサンプルに対して、予測誤差信号が信号線784に発生する。予測誤差信号は、励振信号または励振フレーム(通常、符号化された後)と称されることに注目するべきである。
図8aは別の実施形態で達成された窓の時間系列を示す。以下で考慮される実施形態において、AMR−WB+符号器は第2の符号器120に対応し、AAC符号器は第1の時間領域折り返し雑音導入符号器110に対応する。以下の実施形態は、AMR−WB+符号器フレーム化を維持する。すなわち、第2のフレーム化規則は、変更されないで残るが、AMR−WB+符号器からAAC符号器への転移の中の窓化は、変更される。AAC符号器の開始窓/停止窓は操作される。言い換えれば、AAC符号器の窓化は、転移において、より長い。
図8aおよび図8bはこの実施形態を示す。両方の図は、従来のAAC窓801の系列を示す。図8aには、新しい変更された停止窓802が導入され、図8bには、新しい停止/開始窓803が導入されている。ACELPに関して、同様のフレーム化が、図3の実施形態に関して既に説明したように表現され、使用される。図8aおよび図8bに表現されるような窓系列をもたらす実施形態において、通常のAAC符号器フレーム化は維持されない、すなわち、変更された開始窓、停止窓、または、開始/停止窓が使用される、ということが想定される。図8aの中に表現された第1の窓802は、AMR−WB+符号器からAAC符号器への転移のためのものである。AAC符号器は、長い停止窓802を使用する。別の窓803は図8bによって説明される。図8bは、AAC符号器が後続の短い窓801を使用するとき、AMR−WB+符号器からAAC符号器への転移を示す。この転移のために、図8bに認められるように、AACの長い窓803が使用される。図8aは、ACELPの最初のスーパーフレーム820が、4つのフレームを含む、すなわち、従来のACELPフレーム化(すなわち、第2のフレーム化規則)に従うことを示す。ACELPフレーム化規則を維持するために、すなわち、第2のフレーム化規則が変更されないで維持されるために、図8aおよび図8bに認められるように、変更された窓802,803が利用される。
それ故、以下において、窓化に関するいくつかの詳細が、概略的に紹介される。
図9は一般的な矩形窓を示す。窓系列情報は、窓がサンプルを隠す第1のゼロ部分、フレームのサンプル(すなわち、入力時間領域フレームまたは重複時間領域フレーム)が変更されないで通過する第2の通過部分、および、フレームの終端のサンプルを隠す第3のゼロ部分を含む。言い換えれば、適用される窓関数は、第1のゼロ部分において、フレームの始端のサンプル数を抑圧し、第2の通過部分において、サンプルを通過し、次に、第3のゼロ部分において、フレームの終端のサンプル数を抑圧する。この文脈において、抑圧は、窓の通過部分の始端、および/または、終端に、ゼロ系列を追加することを言及する。第2の通過部分は、窓関数が、単に、1の値を有するようなものである。すなわち、サンプルは、変更されないで通過する。すなわち、窓関数は、フレームのサンプルを通して切り替わる。
図10は窓系列または窓関数の別の実施形態を示す。窓系列は、さらに、第1のゼロ部分と第2の通過部分との間の立ち上がりエッジ部分、および、第2の通過部分と第3のゼロ部分との間の立ち下がりエッジ部分を含む。立ち上がりエッジ部分は、フェードイン部分であると見做すことができる。立ち下がりエッジ部分は、フェードアウト部分であると見做すことができる。本実施形態では、第2の通過部分は、LPC領域フレームのサンプルを全く変更しないための系列を含む。
図8aに示されていた実施形態に戻って、AMR−WB+符号器からAAC符号器への転移が、図11においてさらに詳細に表現されるとき、変更された停止窓が、AMR−WB+符号器とAAC符号器との間を転移する実施形態の中で使用される。図11はACELPフレーム1101,1102,1103,1104を示す。変更された停止窓802は、AAC符号器、すなわち、第1の時間領域折り返し雑音導入符号器110および第1の時間領域折り返し雑音導入復号器160にそれぞれ転移するために使用される。MDCTの上記の詳細に従って、窓は、512個のサンプルの第1のゼロ部分を有するフレーム1102の中央において、開始する。この第1のゼロ部分の後には、窓の立ち上がりエッジ部分が続く。128個のサンプルを横切って拡がる立ち上がりエッジ部分の後には、第2の通過部分が続く。第2の通過部分は、576個のサンプルまで拡がる。すなわち、第1のゼロ部分が折り重ねられた、立ち上がりエッジ部分の後の512個のサンプルの後に、第2の通過部分の64個だけ多いサンプルが続く。それは、64個のサンプルを横切って拡がる窓の終端の第3のゼロ部分から生じる。窓の立ち下がりエッジ部分は、そのほかに、1024個のサンプルをもたらす。1024個のサンプルは、後続の窓に重複することになっている。
また、本実施形態は、中間コード(以下によって例示される)を使用して説明される。
/* Block Switching based on attacks */
If(there is an attack){nextwindowSequence=SHORT_WINDOW;}
else{nextwindowSequence=LONG_WINDOW;}
/* Block Switching based on ACELP Switching Decision */
if(next frame is AMR){nextwindowSequence=SHORT_WINDOW;}
/* Block Switching based on ACELP Switching Decision for STOP_WINDOW_1152 */
if(actual frame is AMR && next frame is not AMR){nextwindowSequence=STOP_WINDOW_1152;}
/*Block Switching for STOPSTART_WINDOW_1152*/
if(nextwindowSequence==SHORT_WINDOW){if(windowSequence==STOP_WINDOW_1152){windowSequence=STOPSTART_WINDOW_1152;}}
図11に表現された実施形態に戻って、128個のサンプルを横切って拡がる窓の立ち上がりエッジ部分の中に、時間領域折り返し雑音折り畳み部分が存在する。この時間領域折り返し雑音折り畳み部分は、最後のACELPフレーム1104に重複するので、ACELPフレーム1104の出力は、立ち上がりエッジ部分において、時間領域折り返し雑音除去のために使用される。時間領域折り返し雑音除去は、上で説明した例に沿って、時間領域または周波数領域の中で実行される。言い換えれば、最後のACELPフレームの出力は、周波数領域に変換され、次に、変更された停止窓802の立ち上がりエッジ部分に重複する。最後のACELPフレームの出力が、変更された停止窓802の立ち上がりエッジ部分に重複する前に、二者択一的に、TDAまたはTDACが、最後のACELPフレームに適用される。
上で説明した実施形態は、転移のときに発生した負荷(オーバーヘッド)を低減する。それは、時間領域符号化のフレーム化(すなわち、第2のフレーム化規則)に対して、どんな変更の必要性も取り除く。さらに、それは、周波数領域符号化器、すなわち、ビット振り分けと転移に対する係数の番号との観点から、通常、時間領域符号器、すなわち、第2の符号器120より柔軟である第1の時間領域折り返し雑音導入符号器(AAC符号器)を設ける。
以下では、別の実施形態が説明される。別の実施形態は、第1の時間領域折り返し雑音導入符号器110と第2の符号器120との間で、および、第1の時間領域折り返し雑音導入復号器160と第2の復号器170との間で、それぞれ切り換わるとき、折り返し雑音無しの相互フェードを提供する。この実施形態は、TDACによる雑音が、特に低ビット伝送速度で、始動または再開処理の場合において避けられる、という利点を供給する。利点は、窓の右側部分または立ち下がりエッジ部分において時間領域折り返し雑音無しの、変更されたAAC開始窓を有する実施形態によって達成される。変更された開始窓は左右非対称の窓である。すなわち、窓の右側部分または立ち下がりエッジ部分はMDCTの折り畳み点の前で終わる。その結果、窓は、時間領域折り返し雑音無しである。同時に、重複領域は、128個のサンプルの代わりに64個のサンプルまで下がる実施形態によって減少する。
本実施形態では、音声符号器100または音声復号器150が、永久的で安定した状態になる前に、所定の時間かかる。言い換えれば、時間領域符号器(すなわち、第2の符号器120および第2の復号器170)の始動期間中、例えばLPCの係数を入力するために、所定の時間が必要である。リセットの場合のエラー(誤り)を調整するために、AMR−WB+入力信号の左側部分が、第2の符号器120にて、例えば64個のサンプルの長さを有する短い正弦窓で窓化される。さらに、合成信号の左側部分が、第2の復号器170にて、同じ信号(短い正弦窓)で窓化される。このように、矩形化された正弦窓が、矩形正弦を開始窓の右側部分に適用しながら、AAC符号器に同様に適用される。
この窓化を使用して、AAC符号器からAMR−WB+符号器への転移が、時間領域折り返し雑音無しで実行され、例えば、64個のサンプルのような短い相互フェード正弦窓によって成される。図12は、AACからAMR−WB+への転移およびAMR−WB+からAACに戻す転移を例示している時間軸を示す。図12は、AAC開始窓1201の後に、AAC窓1201と重複しているAMR−WB+部分1203が続くことを示す。重複部分1202は、64個のサンプルを横切って拡がる。AMR−WB+部分の後には、128個のサンプルを有する重複部分1204と重複しながら、AAC停止窓1205が続く。
図12によると、本実施形態は、AACからAMR−WB+への転移の際に、それぞれの折り返し雑音無しの窓を適用する。
図13は変更された開始窓を表示す。変更された開始窓は、符号器100の側と復号器150の側との両方において、AACからAMR−WBへ転移するとき、第1の時間領域折り返し雑音導入符号器110および第1の時間領域折り返し雑音導入復号器160のそれぞれに適用される。
図13に表現された窓は、第1のゼロ部分が存在しないことを示す。窓は、正に、立ち上がりエッジ部分から始まる。立ち上がりエッジ部分は、1024個のサンプルを横切って広がる。すなわち、折り畳み軸は、図13に示された1024個の間隔の中央にある。対称軸は、1024個の間隔の右側にある。図13から認められるように、第3のゼロ部分は、512個のサンプルに拡がる。すなわち、折り返し雑音は、窓全体の右側部分に存在しない。すなわち、通過部分は、中心から64個のサンプル間隔の始めに向かって拡がっている。立ち下がりエッジ部分は、64個のサンプルを横切って拡がることが認められ、相互重複部分が狭いという利点を提供する。64個のサンプル間隔は、相互フェードのために使用される。しかしながら、折り返し雑音は、64個のサンプル間隔に存在しない。したがって、低負荷(低オーバーヘッド)しか導入されない。
上で説明した変更された窓を有する実施形態は、あまりに多くの負荷(オーバーヘッド)情報を符号化すること、すなわち、いくつかのサンプルを2度符号化することを避けることができる。上の記述に従って、同様に設計された窓は、1つの実施形態に従って、AMR−WB+からAACへの転移のために、任意に適用される。ここで、再びAACの窓に変更することは、重複部分を64個のサンプルに低減する。
したがって、変更された停止窓は、実施形態において、2304個のサンプルに伸ばされ、1152個のポイントのMDCTの中で使用される。窓の左側部分は、MDCTの折り畳み軸の後で、フェードインを始めることによって、言い換えれば、第1のゼロ部分を、全体のMDTCサイズの4分の1より長くすることによって、時間領域折り返し雑音無しにされる。補足的な矩形正弦窓はAMR−WB+領域の最後の64個の復号化されたサンプルに適用される。これら2つの相互フェード窓が、負荷(オーバーヘッド)伝達情報を制限することによって、AMR−WB+からAACへの円滑な転移を得ることを許す。
図14は、符号器100側で適用される、AMR−WB+からAACへの転移のための窓を示す。折り畳み軸は576個のサンプルの後である、すなわち、第1のゼロ部分は576個のサンプルを横切って拡がることが認められる。これは、窓全体の左側は折り返し雑音無しであるという結果をもたらす。相互フェードは、窓の2/4番目に、すなわち、576個のサンプルの後に、言い換えれば、折り畳み軸をまさに超えるとき開始する。相互フェード領域、すなわち、窓の立ち上がりエッジ部分は、図14によると、64個のサンプルまで狭められる。
図15は、復号器150側で適用される、AMR−WB+からAACへの転移のための窓を示す。窓は図14で説明した窓と同様である。したがって、符号化されて、次に復号されるサンプルを通して適用する両方の窓は、矩形正弦窓を再びもたらす。
以下の中間コードは、AACからAMR−WB+に切り替わるときの、開始窓の選択手順の実施形態について説明する。
これらの実施形態は、例えば、以下のような中間コードを使用して説明される。
/* Adjust to allowed Window Sequence */
if(nextwindowSequence==SHORT_WINDOW){if(windowSequence==LONG_WINDOW){if(actual frame is not AMR && next frame is AMR){windowSequence=START_WINDOW_AMR;}
else{windowSequence=START_WINDOW;}}
上で説明した実施形態は、転移の間、連続した窓の小さい重複領域を使用することによって、発生した情報の負荷(オーバーヘッド)を低減する。さらに、これらの実施形態は、これらの小さい重複領域が、人工物(雑音)の阻止を円滑にすること、すなわち、円滑な相互フェードを有することに対して十分であるという利点を提供する。さらに、それは、フェード化された入力でそれを初期化することによって、時間領域符号化器(すなわち、第2の符号器120、第2の復号器170のそれぞれ)の開始によるエラーの破裂(量子化雑音の破裂)の影響を低減する。
まとめると、本実施形態は、円滑な相互フェード領域が、多重モード音声符号化概念において、高い符号化効率で実行される、という利点を提供する。すなわち、転移窓は、伝達されるべき追加情報に関して、低い負荷(オーバーヘッド)しか導入しない。さらに、本実施形態は、1つのモードのフレーム化または窓化を、他のモードに適用する間、多重モード符号器を使用することを可能にする。
いくつかの局面が、装置の文脈の中で説明されたけれども、これらの局面が、対応する方法の記述を表すことは明確である。ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。類似的に、方法ステップの文脈の中で説明された局面は、対応する装置の対応するブロックまたは項目または特徴の記述を表す。
符号化された音声信号は、デジタル保存媒体に保存されたり、インターネットなどの無線伝送媒体または有線伝送媒体のような伝送媒体で送信されたりする。
特定の実現要求によって、本発明に係る実施形態は、ハードウェアまたはソフトウェアの中で実現される。実現は、電子的に読み取り可能な制御信号をその上に保存したデジタル保存媒体、例えば、フロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROM、フラッシュメモリを使用して実行される。それはプログラム可能なコンピュータシステムと協働する(あるいは、協働可能である)。その結果、それぞれの方法が実行される。
本発明に従ったいくつかの実施形態は、電子的に読み取り可能な制御信号を有するデータ担持体を含む。制御信号は、プログラム可能なコンピュータシステムと協働可能である。その結果、ここで説明した方法の1つが実行される。
一般に、本発明に係る実施形態は、プログラムコードを有したコンピュータプログラム製品として実現される。コンピュータプログラム製品がコンピュータ上で稼動するとき、プログラムコードは、方法の1つを実行するために操作される。プログラムコードは、例えば、機械読み取り可能な担持体に保存される。
他の実施形態は、ここで説明した方法の1つを実行するために、機械読み取り可能な担持体に保存されたコンピュータプログラムを含む。
言い換えれば、本発明に係る方法の実施形態は、コンピュータプログラムがコンピュータ上で稼動するとき、ここで説明した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
さらに、本発明に係る方法の実施形態は、ここで説明した方法の1つを実行するためのコンピュータプログラムが記録された、データ担持体(または、デジタル保存媒体、または、コンピュータ読み取り可能な媒体)である。
さらに、本発明に係る方法の実施形態は、ここで説明した方法の1つを実行するためのコンピュータプログラムを表す、データストリームまたは信号系列である。例えば、データストリームまたは信号系列は、データ通信接続(インターネット)を通して、移送されるように構成される。
さらに、実施形態は、ここで説明した方法の1つを実行するように構成された、または、設けられた処理手段(例えば、コンピュータ、または、プログラム可能な論理回路)を含む。
さらに、実施形態は、ここで説明した方法の1つを実行するためにインストールされたコンピュータプログラムを有するコンピュータを含む。
いくつかの実施形態において、プログラム可能な論理回路(例えば、電界プログラム可能ゲートアレイ)は、ここで説明した方法の機能性のいくつか、または、全てを実行するように使用される。いくつかの実施形態において、電界プログラム可能ゲートアレイは、ここに説明した方法の1つを実行するために、マイクロプロセッサと協働する。一般に、方法は、好ましくは、ハードウェア装置によって実行される。
上述の実施形態は、本発明の原理のために単に例示するだけである。配置および本明細書において記載される詳細の修正および変更は、他の当業者にとって明らかであるものと理解される。従って、近い将来の特許請求の範囲だけによってのみ制限され、本実施形態の記述および説明の目的により特定の詳細な表現によっては制限されないことを意図している。

Claims (21)

  1. 音声サンプルを符号化するための音声符号器(100)であって、
    第1のフレーム化規則と、開始窓と、停止窓とを有する、第1の符号化領域の中の音声サンプルを符号化するための第1の時間領域折り返し雑音導入符号器(110)と、
    異なる第2のフレーム化規則と、スーパーフレームのための音声サンプルの第1の予め決められた番号の予め決められたフレームサイズと、音声サンプルの第2の予め決められた番号の符号化準備期間とを有する、第2の符号化領域の中の音声サンプルを符号化するための第2の符号器(120)と、
    音声サンプルの特性に対応して、前記第1の時間領域折り返し雑音導入符号器(110)から前記第2の符号器(120)に、もしくは、前記第2の符号器(120)から前記第1の時間領域折り返し雑音導入符号器(110)に切り換えるための制御装置(130)と、を備え、
    前記第2の符号器(120)は、前記第2のフレーム化規則がAMRフレーム化規則である、AMR符号器もしくはAMR−WB+符号器を含み、前記第2の符号器(120)のスーパーフレームは、前記AMRフレーム化規則に従って、4つのAMRフレームを含み、前記第2の符号器(120)の前記スーパーフレームは、複数の時間的に後続の音声サンプルの符号化された表現であり、前記時間的に後続の音声サンプル数は、前記音声サンプルの第1の予め決められた番号と等しく、
    前記制御装置(130)は、前記切り換えにおける最初のスーパーフレームが音声サンプルの増加した番号の増加したフレームサイズを有する限り、前記第1の時間領域折り返し雑音導入符号器(110)から前記第2の符号器(120)への切り換え、もしくは、前記第2の符号器(120)から前記第1の時間領域折り返し雑音導入符号器(110)への切り換えに応答して、前記第2のフレーム化規則を変更し、
    前記切り換えにおける最初のスーパーフレームが、前記4つのAMRフレームに加えて5番目のAMRフレームを含み、前記5番目のAMRフレームがそれぞれ、前記第1の時間領域折り返し雑音導入符号器(110)の前記開始窓もしくは前記停止窓のフェード化部分に重複していること、
    を特徴とする、音声符号器。
  2. 前記第1の時間領域折り返し雑音導入符号器(110)は、後続の音声サンプルの最初のフレームを、周波数領域に変換するための周波数領域変換器を含むこと、を特徴とする、請求項1に記載の音声符号器。
  3. 前記第1の時間領域折り返し雑音導入符号器(110)は、後続フレームが、前記第2の符号器(120)によって符号化されるときは、最後のフレームを前記開始窓で重み付けするように、および/または、先行フレームが、前記第2の符号器(120)によって符号化されるべきであるときは、最初のフレームを前記停止窓で重み付けするように、設けられていること、を特徴とする、請求項2に記載の音声符号器。
  4. 前記周波数領域変換器は、変更離散的余弦変換(MDCT)に基づいて、前記最初のフレームを周波数領域に変換するように設けられ、前記第1の時間領域折り返し雑音導入符号器(110)は、変更離散的余弦変換(MDCT)サイズを、開始窓および/または停止窓および/または変更開始窓および/または変更停止窓に適用するように設けられていること、を特徴とする、請求項2に記載の音声符号器。
  5. 前記第1の時間領域折り返し雑音導入符号器(110)は、折り返し雑音部分および/または折り返し雑音無しの部分を有する、前記開始窓および/または前記停止窓を利用するように設けられていること、を特徴とする、請求項1に記載の音声符号器。
  6. 前記第1の時間領域折り返し雑音導入符号器(110)は、先行フレームが前記第2の符号器(120)によって符号化されるときは、窓の立ち上がりエッジ部分にて、そして、後続フレームが前記第2の符号器(120)によって符号化されるときは、立ち下がりエッジ部分にて、折り返し雑音無しの部分を有する前記開始窓および/または前記停止窓を利用するように設けられていること、を特徴とする、請求項1に記載の音声符号器。
  7. 前記制御装置(130)は、前記第2の符号器(120)を始動するように設けられ、その結果、前記第2の符号器(120)のフレーム系列の最初のフレームが、前記第1の時間領域折り返し雑音導入符号器(110)の先行する折り返し雑音無しの部分の中で処理されたサンプルの符号化された表現を含むこと、を特徴とする、請求項5に記載の音声符号器。
  8. 前記制御装置(130)は、前記第2の符号器(120)を始動するように設けられ、その結果、前記音声サンプルの第2の予め決められた番号の符号化準備期間が、前記第1の時間領域折り返し雑音導入符号器(110)の前記開始窓の折り返し雑音無しの部分に重復し、前記第2の符号器(120)の後続フレームが、前記停止窓の折り返し雑音部分に重複するように設けられていること、を特徴とする、請求項5に記載の音声符号器。
  9. 前記制御装置(130)は、前記第2の符号器(120)を始動するように設けられ、その結果、前記符号化準備期間が前記開始窓の折り返し雑音部分に重複すること、を特徴とする、請求項5に記載の音声符号器。
  10. 音声サンプルを符号化するための音声符号化方法であって、
    第1のフレーム化規則と、開始窓と、停止窓とを使用して、第1の符号化領域の中の音声サンプルを符号化するステップと、
    AMR符号化もしくはAMR−WB+符号化の方法によって、異なる第2のフレーム化規則と、スーパーフレームのための音声サンプルの第1の予め決められた番号の予め決められたフレームサイズとを使用して、第2の符号化領域の中の音声サンプルを符号化するステップと、
    前記第1の符号化領域から前記第2の符号化領域に、もしくは、前記第2の符号化領域から前記第1の符号化領域に切り換えるステップと、
    前記切り換えにおける最初のスーパーフレームが、音声サンプルの増加した番号の増加したフレームサイズを有する限り、前記第1の符号化領域から前記第2の符号化領域への切り換え、もしくは、前記第2の符号化領域から前記第1の符号化領域への切り換えに応答して、前記第2のフレーム化規則を変更するステップと、を備え、
    前記第2のフレーム化規則は、AMRフレーム化規則であり、前記スーパーフレームは、前記AMRフレーム化規則に従って、4つのAMRフレームを含み、前記第2の符号化領域の前記スーパーフレームは、複数の時間的に後続の音声サンプルの符号化された表現であり、前記時間的に後続の音声サンプル数は、前記音声サンプルの第1の予め決められた番号と等しく、
    前記切り換えにおける最初のスーパーフレームは、前記4つのAMRフレームに加えて5番目のAMRフレームを含み、5番目のAMRフレームはそれぞれ、前記開始窓もしくは前記停止窓のフェード化部分に重複していること、
    を特徴とする、音声符号化方法。
  11. プログラムコードがコンピュータ上で実行されると、前記コンピュータが請求項10に記載の音声符号化方法を実行する、前記プログラムコードを有するコンピュータプログラム。
  12. 音声サンプルの符号化されたフレームを復号化するための音声復号器(150)であって、
    第1のフレーム化規則と、開始窓と、停止窓とを有する、第1の復号化領域の中の音声サンプルを復号化するための第1の時間領域折り返し雑音導入復号器(160)と、
    異なる第2のフレーム化規則と、スーパーフレームのための音声サンプルの第1の予め決められた番号の予め決められたフレームサイズと、音声サンプルの第2の予め決められた番号の符号化準備期間とを有する、第2の復号化領域の中の音声サンプルを復号化するための第2の復号器(170)と、
    音声サンプルの符号化されたフレームの中の指示に基づいて、前記第1の時間領域折り返し雑音導入復号器(160)から前記第2の復号器(170)に、もしくは、前記第2の復号器(170)から前記第1の時間領域折り返し雑音導入復号器(160)に切り換えるための制御装置(180)と、を備え、
    前記第1の時間領域折り返し雑音導入復号器(160)は、逆変更離散的余弦変換(IMDCT)に基づいて、復号化された音声サンプルの最初のフレームを、時間領域に変換するための時間領域変換器を含み、
    前記第2の復号器(170)は、前記第2のフレーム化規則がAMRフレーム化規則である、AMR号器もしくはAMR−WB+号器を含み、前記第2の復号器(170)の前記スーパーフレームは、前記AMRフレーム化規則に従って、4つのAMRフレームを含み、前記スーパーフレームは、複数の時間的に後続の音声サンプルの符号化された表現であり、前記時間的に後続の音声サンプル数は、前記音声サンプルの第1の予め決められた番号と等しく、
    前記制御装置(180)は、前記切り換えにおける最初のスーパーフレームが音声サンプルの増加した番号の増加したフレームサイズを有する限り、前記第1の時間領域折り返し雑音導入復号器(160)から前記第2の復号器(170)への切り換え、もしくは、前記第2の復号器(170)から前記第1の時間領域折り返し雑音導入復号器(160)への切り換えに応答して、前記第2のフレーム化規則を変更するように設けられ、
    前記切り換えにおける最初のスーパーフレームは、前記4つのAMRフレームに加えて、5番目のAMRフレームを含み、前記5番目のAMRフレームはそれぞれ、前記第1の時間領域折り返し雑音導入復号器(160)の前記開始窓もしくは前記停止窓のフェード化部分に重複していること、
    を特徴とする、音声復号器。
  13. 前記第1の時間領域折り返し雑音導入復号器(160)は、後続フレームが、前記第2の復号器(170)によって復号化されるときは、最後の復号化されたフレームを前記開始窓で重み付けするように、および/または、先行フレームが、前記第2の復号器(170)によって復号化されるべきであるときは、最初の復号化されたフレームを前記停止窓で重み付けするように、設けられていること、を特徴とする、請求項12に記載の音声復号器。
  14. 前記時間領域変換器が、逆変更離散的余弦変換(IMDCT)に基づいて、前記最初のフレームを時間領域に変換するように設けられ、前記第1の時間領域折り返し雑音導入復号器(160)は、逆変更離散的余弦変換(IMDCT)サイズを、前記開始窓および/または前記停止窓、もしくは、変更開始窓および/または変更停止窓に適用するように設けられていること、を特徴とする、請求項13に記載の音声復号器。
  15. 前記第1の時間領域折り返し雑音導入復号器(160)は、折り返し雑音部分および折り返し雑音無しの部分を有している、開始窓および/または停止窓を利用するように設けられていること、を特徴とする、請求項12に記載の音声復号器。
  16. 前記制御装置(180)は、前記第2の復号器(170)を始動するように設けられ、その結果、前記第2の復号器(170)のフレーム系列の最初のフレームが、前記第1の時間領域折り返し雑音導入復号器(160)の先行する折り返し雑音無しの部分の中で処理されたサンプルの復号化された表現を含むこと、を特徴とする、請求項15に記載の音声復号器。
  17. 前記制御装置(180)は、前記第2の復号器(170)を始動するように設けられ、その結果、前記音声サンプルの第2の予め決められた番号の符号化準備期間が、前記第1の時間領域折り返し雑音導入復号器(160)の前記開始窓の折り返し雑音無しの部分に重復し、前記第2の復号器(170)の後続フレームが、前記停止窓の折り返し雑音部分に重複するように設けられていること、を特徴とする、請求項15に記載の音声復号器。
  18. 音声サンプルの符号化されたフレームを復号化するための音声復号化方法であって、
    第1のフレーム化規則と、開始窓と、停止窓とを有し、かつ、逆変更離散的余弦変換(IMDCT)に基づいて、復号化された音声サンプルの最初のフレームを時間領域に変換することを使用して、時間領域折り返し雑音を導入している第1の復号化領域の中の音声サンプルを復号化するステップと、
    AMR号化もしくはAMR−WB+号化の方法によって、異なる第2のフレーム化規則を使用して、第2の復号化領域の中の音声サンプルを復号化するステップと、
    音声サンプルの符号化されたフレームからの指示に基づいて、前記第1の復号化領域から前記第2の復号化領域へ、もしくは、前記第2の復号化領域から前記第1の復号化領域へ、切り換えるステップと、
    前記切り換えにおける最初のスーパーフレームが、音声サンプルの増加した番号の増加したフレームサイズを有する限り、前記第1の復号化領域から前記第2の復号化領域への切り換え、もしくは、前記第2の復号化領域から前記第1の復号化領域への切り換えに応答して、前記第2のフレーム化規則を変更するステップと、を備え、
    前記第2のフレーム化規則は、AMRフレーム化規則であり、前記スーパーフレームは、前記AMRフレーム化規則に従って、4つのAMRフレームを含み、前記第2の復号化領域は、音声サンプルの第1の予め決められた番号の予め決められたフレームサイズと音声サンプルの第2の予め決められた番号の符号化準備期間とを有し、前記第2の復号化領域の前記スーパーフレームは、複数の時間的に後続の音声サンプルの符号化された表現であり、前記時間的に後続の音声サンプル数は、前記音声サンプルの第1の予め決められた番号と等しく、
    前記切り換えにおける最初のスーパーフレームは、前記4つのAMRフレームに加えて5番目のAMRフレームを含み、5番目のAMRフレームはそれぞれ、前記開始窓もしくは前記停止窓のフェード化部分に重複していること、
    を特徴とする、音声復号化方法。
  19. 音声サンプルを符号化するための音声符号器(100)であって、
    第1のフレーム化規則と、開始窓と、停止窓とを有する第1の符号化領域の中の音声サンプルを符号化するための第1の時間領域折り返し雑音導入符号器(110)と、
    音声サンプルの第1の予め決められた番号の予め決められたフレームサイズと、音声サンプルの第2の予め決められた番号の符号化準備期間と、異なる第2のフレーム化規則とを有する、第2の符号化領域の中の音声サンプルを符号化するためのCELP符号器である第2の符号器(120)と、
    音声サンプルの特性に対応して、前記第1の時間領域折り返し雑音導入符号器(110)から前記第2の符号器(120)に、もしくは、前記第2の符号器(120)から前記第1の時間領域折り返し雑音導入符号器(110)に切り換え、かつ、前記切り替えに応答して、前記第2のフレーム化規則を変更するための制御装置(130)と、を備え、
    前記第1の時間領域折り返し雑音導入符号器(110)は、折り返し雑音の部分および折り返し雑音無しの部分を有する前記開始窓および/または前記停止窓を利用するように設けられ、
    前記第2の符号器(120)は、前記符号化準備期間中、増加した量子化雑音を認識し、前記第2の符号器(120)のフレームは、複数の時間的に後続の音声サンプルの符号化された表現であり、前記時間的に後続の音声サンプル数は、前記音声サンプルの第1の予め決められた番号と等しく、
    前記制御装置(130)は、前記切り替えに応答して、前記第2のフレーム化規則を変更するように設けられ、その結果、前記第2の符号器(120)のフレーム系列の最初のフレームが、前記第1の時間領域折り返し雑音導入符号器(110)の前記折り返し雑音無しの部分の中で処理されたサンプルの符号化された表現を含むこと、
    を特徴とする、音声符号器。
  20. 音声サンプルの符号化されたフレームを復号するための音声復号器(150)であって、
    第1のフレーム化規則と、開始窓と、停止窓とを有する第1の復号化領域の中の音声サンプルを復号化するための第1の時間領域折り返し雑音導入復号器(160)と、
    音声サンプルの第1の予め決められた番号の予め決められたフレームサイズと、音声サンプルの第2の予め決められた番号の符号化準備期間と、異なる第2のフレーム化規則とを有する、第2の復号化領域の中の音声サンプルを復号化するためのCELP復号器である第2の復号器(170)と、
    音声サンプルの前記符号化されたフレームの中の指示に基づいて、前記第1の時間領域折り返し雑音導入復号器(160)から前記第2の復号器(170)に、もしくは、前記第2の復号器(170)から前記第1の時間領域折り返し雑音導入復号器(160)に切り換えるための制御装置(180)と、を備え、
    前記第1の時間領域折り返し雑音導入復号器(160)は、折り返し雑音の部分および折り返し雑音無しの部分を有する前記開始窓および/または前記停止窓を利用するように設けられ、
    前記第2の復号器(170)は、前記符号化準備期間中、増加した量子化雑音を経験し、前記第2の復号器(170)のフレームは、複数の時間的に後続の音声サンプルの符号化された表現であり、前記時間的に後続の音声サンプル数は、前記音声サンプルの第1の予め決められた番号と等しく、
    前記制御装置(180)は、前記切り替えに応答して、前記第2のフレーム化規則を変更するように設けられ、その結果、前記第2の復号器(170)のフレーム系列の最初のフレームが、前記第1の時間領域折り返し雑音導入号器(160)の前記折り返し雑音無しの部分の中で処理されたサンプルの符号化された表現を含み、前記第2の復号器(170)は、前記音声サンプルの符号化された表現を復号して捨てるように設けられていること、
    を特徴とする、音声復号器。
  21. プログラムコードがコンピュータ上で実行されると、前記コンピュータが請求項18に記載の音声号化方法を実行する、前記プログラムコードを有するコンピュータプログラム。
JP2013127397A 2008-07-11 2013-06-18 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム Active JP5551814B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US7985608P 2008-07-11 2008-07-11
US61/079,856 2008-07-11
US10382508P 2008-10-08 2008-10-08
US61/103,825 2008-10-08

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2011516995A Division JP5551695B2 (ja) 2008-07-11 2009-06-26 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2013214089A JP2013214089A (ja) 2013-10-17
JP5551814B2 true JP5551814B2 (ja) 2014-07-16

Family

ID=40951598

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2011516995A Active JP5551695B2 (ja) 2008-07-11 2009-06-26 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム
JP2013127397A Active JP5551814B2 (ja) 2008-07-11 2013-06-18 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2011516995A Active JP5551695B2 (ja) 2008-07-11 2009-06-26 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム

Country Status (21)

Country Link
US (1) US8892449B2 (ja)
EP (2) EP2311032B1 (ja)
JP (2) JP5551695B2 (ja)
KR (1) KR101325335B1 (ja)
CN (1) CN102089811B (ja)
AR (1) AR072738A1 (ja)
AU (1) AU2009267466B2 (ja)
BR (1) BRPI0910512B1 (ja)
CA (3) CA2730204C (ja)
CO (1) CO6351837A2 (ja)
EG (1) EG26653A (ja)
ES (2) ES2657393T3 (ja)
HK (3) HK1155552A1 (ja)
MX (1) MX2011000366A (ja)
MY (3) MY181231A (ja)
PL (2) PL3002750T3 (ja)
PT (1) PT3002750T (ja)
RU (1) RU2515704C2 (ja)
TW (1) TWI459379B (ja)
WO (1) WO2010003563A1 (ja)
ZA (1) ZA201100089B (ja)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009081003A1 (fr) * 2007-12-21 2009-07-02 France Telecom Codage/decodage par transformee, a fenetres adaptatives
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP3373297B1 (en) * 2008-09-18 2023-12-06 Electronics and Telecommunications Research Institute Decoding apparatus for transforming between modified discrete cosine transform-based coder and hetero coder
WO2010044593A2 (ko) 2008-10-13 2010-04-22 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
KR101649376B1 (ko) * 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
US9384748B2 (en) * 2008-11-26 2016-07-05 Electronics And Telecommunications Research Institute Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
CN103761971B (zh) 2009-07-27 2017-01-11 延世大学工业学术合作社 一种处理音频信号的方法和装置
PL2471061T3 (pl) 2009-10-08 2014-03-31 Fraunhofer Ges Forschung Działający w wielu trybach dekoder sygnału audio, działający w wielu trybach koder sygnału audio, sposoby i program komputerowy stosujące kształtowanie szumu oparte o kodowanie z wykorzystaniem predykcji liniowej
JP6073215B2 (ja) * 2010-04-14 2017-02-01 ヴォイスエイジ・コーポレーション Celp符号器および復号器で使用するための柔軟で拡張性のある複合革新コードブック
US9275650B2 (en) 2010-06-14 2016-03-01 Panasonic Corporation Hybrid audio encoder and hybrid audio decoder which perform coding or decoding while switching between different codecs
ES2968927T3 (es) * 2010-07-08 2024-05-14 Fraunhofer Ges Forschung Decodificador que utiliza cancelación del efecto de solapamiento hacia delante
CN102332266B (zh) * 2010-07-13 2013-04-24 炬力集成电路设计有限公司 一种音频数据的编码方法及装置
EP2619758B1 (en) * 2010-10-15 2015-08-19 Huawei Technologies Co., Ltd. Audio signal transformer and inverse transformer, methods for audio signal analysis and synthesis
BR112013020324B8 (pt) 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
CN103493129B (zh) 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
PL2676266T3 (pl) 2011-02-14 2015-08-31 Fraunhofer Ges Forschung Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej
EP4243017A3 (en) * 2011-02-14 2023-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
AU2012217158B2 (en) 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
ES2535609T3 (es) 2011-02-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio con estimación de ruido de fondo durante fases activas
RU2464649C1 (ru) 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
CN105163398B (zh) 2011-11-22 2019-01-18 华为技术有限公司 连接建立方法和用户设备
US9043201B2 (en) * 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
CN103219009A (zh) * 2012-01-20 2013-07-24 旭扬半导体股份有限公司 音频数据处理装置及其方法
JP2013198017A (ja) * 2012-03-21 2013-09-30 Toshiba Corp 復号装置及び通信装置
US9489962B2 (en) * 2012-05-11 2016-11-08 Panasonic Corporation Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method
KR101726205B1 (ko) 2012-11-07 2017-04-12 돌비 인터네셔널 에이비 감소된 복잡성 변환기 snr 계산
CN103915100B (zh) * 2013-01-07 2019-02-15 中兴通讯股份有限公司 一种编码模式切换方法和装置、解码模式切换方法和装置
PT2951818T (pt) 2013-01-29 2019-02-25 Fraunhofer Ges Forschung Conceito de preenchimento de ruído
WO2014130554A1 (en) 2013-02-19 2014-08-28 Huawei Technologies Co., Ltd. Frame structure for filter bank multi-carrier (fbmc) waveforms
MX348505B (es) 2013-02-20 2017-06-14 Fraunhofer Ges Forschung Aparato y método para generar una señal codificada o para decodificar una señal de audio codificada usando una porción multi superpuesta.
CA2916150C (en) 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
US20150100324A1 (en) * 2013-10-04 2015-04-09 Nvidia Corporation Audio encoder performance for miracast
EP2863386A1 (en) 2013-10-18 2015-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder
KR101498113B1 (ko) * 2013-10-23 2015-03-04 광주과학기술원 사운드 신호의 대역폭 확장 장치 및 방법
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
KR101788066B1 (ko) * 2014-01-13 2017-11-15 엘지전자 주식회사 하나 이상의 네트워크를 통해 방송 컨텐츠를 송수신하는 장치 및 방법
CN107369453B (zh) * 2014-03-21 2021-04-20 华为技术有限公司 语音频码流的解码方法及装置
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
SG11201509526SA (en) 2014-07-28 2017-04-27 Fraunhofer Ges Forschung Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
CN106448688B (zh) 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980797A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
EP2988300A1 (en) * 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
KR102041140B1 (ko) * 2015-03-09 2019-12-05 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 프래그먼트- 정렬된 오디오 코딩
EP3067889A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for signal-adaptive transform kernel switching in audio coding
TWI642287B (zh) * 2016-09-06 2018-11-21 聯發科技股份有限公司 無線通訊系統中有效編碼切換方法及通訊設備
EP3306609A1 (en) * 2016-10-04 2018-04-11 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for determining a pitch information
CN109389984B (zh) * 2017-08-10 2021-09-14 华为技术有限公司 时域立体声编解码方法和相关产品
CN109787675A (zh) * 2018-12-06 2019-05-21 安徽站乾科技有限公司 一种基于卫星语音通道的数据解析方法
CN114007176B (zh) * 2020-10-09 2023-12-19 上海又为智能科技有限公司 用于降低信号延时的音频信号处理方法、装置及存储介质
RU2756934C1 (ru) * 2020-11-17 2021-10-07 Ордена Трудового Красного Знамени федеральное государственное образовательное бюджетное учреждение высшего профессионального образования Московский технический университет связи и информатики (МТУСИ) Способ и устройство измерения спектра информационных акустических сигналов с компенсацией искажений

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
EP0932141B1 (en) * 1998-01-22 2005-08-24 Deutsche Telekom AG Method for signal controlled switching between different audio coding schemes
US6226608B1 (en) 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
KR100472442B1 (ko) * 2002-02-16 2005-03-08 삼성전자주식회사 웨이브렛 패킷 변환을 이용한 오디오 압축 방법 및 그시스템
US8090577B2 (en) * 2002-08-08 2012-01-03 Qualcomm Incorported Bandwidth-adaptive quantization
EP1394772A1 (en) * 2002-08-28 2004-03-03 Deutsche Thomson-Brandt Gmbh Signaling of window switchings in a MPEG layer 3 audio data stream
WO2004082288A1 (en) * 2003-03-11 2004-09-23 Nokia Corporation Switching between coding schemes
DE10345995B4 (de) * 2003-10-02 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten
DE10345996A1 (de) * 2003-10-02 2005-04-28 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Verarbeiten von wenigstens zwei Eingangswerten
ATE371926T1 (de) * 2004-05-17 2007-09-15 Nokia Corp Audiocodierung mit verschiedenen codierungsmodellen
CA2566368A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
US7739120B2 (en) * 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
US7596486B2 (en) * 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
KR100668319B1 (ko) * 2004-12-07 2007-01-12 삼성전자주식회사 오디오 신호의 변환방법 및 장치와 오디오 신호에적응적인 부호화방법 및 장치, 오디오 신호의 역변환 방법및 장치와 오디오 신호에 적응적인 복호화 방법 및 장치
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
CN101589623B (zh) * 2006-12-12 2013-03-13 弗劳恩霍夫应用研究促进协会 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2311034B1 (en) * 2008-07-11 2015-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
RU2507609C2 (ru) * 2008-07-11 2014-02-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и дискриминатор для классификации различных сегментов сигнала
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP2346029B1 (en) * 2008-07-11 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, method for encoding an audio signal and corresponding computer program
ES2592416T3 (es) * 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
KR101315617B1 (ko) * 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
JP2012516462A (ja) * 2009-01-28 2012-07-19 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオエンコーダ、オーディオデコーダ、符号化されたオーディオ情報、オーディオ信号を符号化および復号化する方法およびコンピュータ・プログラム
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
JP5699141B2 (ja) * 2009-06-23 2015-04-08 ヴォイスエイジ・コーポレーション 重み付けされた信号領域またはオリジナルの信号領域で適用される順方向時間領域エイリアシング取り消し
PL2471061T3 (pl) * 2009-10-08 2014-03-31 Fraunhofer Ges Forschung Działający w wielu trybach dekoder sygnału audio, działający w wielu trybach koder sygnału audio, sposoby i program komputerowy stosujące kształtowanie szumu oparte o kodowanie z wykorzystaniem predykcji liniowej
RU2591011C2 (ru) * 2009-10-20 2016-07-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Кодер аудиосигнала, декодер аудиосигнала, способ кодирования или декодирования аудиосигнала с удалением алиасинга (наложения спектров)
BR122020024243B1 (pt) * 2009-10-20 2022-02-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio e método para prover uma representação decodificada de um conteúdo de áudio.
SG182466A1 (en) * 2010-01-12 2012-08-30 Fraunhofer Ges Forschung Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a modification of a number representation of a numeric previous context value

Also Published As

Publication number Publication date
BRPI0910512A2 (pt) 2019-05-28
EG26653A (en) 2014-05-04
AU2009267466B2 (en) 2013-05-16
EP2311032B1 (en) 2016-01-06
WO2010003563A8 (en) 2011-04-21
ES2657393T3 (es) 2018-03-05
ZA201100089B (en) 2011-10-26
TWI459379B (zh) 2014-11-01
CA2871498C (en) 2017-10-17
EP3002750A1 (en) 2016-04-06
AR072738A1 (es) 2010-09-15
CA2871372C (en) 2016-08-23
PL3002750T3 (pl) 2018-06-29
EP3002750B1 (en) 2017-11-08
JP2013214089A (ja) 2013-10-17
MY181247A (en) 2020-12-21
US8892449B2 (en) 2014-11-18
CA2730204C (en) 2016-02-16
ES2564400T3 (es) 2016-03-22
PL2311032T3 (pl) 2016-06-30
TW201007705A (en) 2010-02-16
CA2871498A1 (en) 2010-01-14
EP2311032A1 (en) 2011-04-20
PT3002750T (pt) 2018-02-15
MX2011000366A (es) 2011-04-28
CN102089811B (zh) 2013-04-10
HK1155552A1 (zh) 2012-05-18
JP2011527453A (ja) 2011-10-27
BRPI0910512B1 (pt) 2020-10-13
RU2515704C2 (ru) 2014-05-20
US20110173010A1 (en) 2011-07-14
WO2010003563A1 (en) 2010-01-14
KR20110055545A (ko) 2011-05-25
CA2730204A1 (en) 2010-01-14
HK1223452A1 (zh) 2017-07-28
CA2871372A1 (en) 2010-01-14
CN102089811A (zh) 2011-06-08
CO6351837A2 (es) 2011-12-20
HK1223453A1 (zh) 2017-07-28
RU2011104003A (ru) 2012-08-20
MY181231A (en) 2020-12-21
AU2009267466A1 (en) 2010-01-14
KR101325335B1 (ko) 2013-11-08
MY159110A (en) 2016-12-15
JP5551695B2 (ja) 2014-07-16

Similar Documents

Publication Publication Date Title
JP5551814B2 (ja) 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム
JP5551692B2 (ja) 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム
TWI453731B (zh) 音訊編碼器與解碼器、用於編碼已取樣音訊信號之訊框及用於解碼已編碼訊框之方法、及電腦程式產品
TWI463486B (zh) 音訊編碼器/解碼器、音訊編碼/解碼方法、電腦程式產品及電腦可讀儲存媒體
Neuendorf et al. Unified speech and audio coding scheme for high quality at low bitrates
AU2013200679B2 (en) Audio encoder and decoder for encoding and decoding audio samples
EP3002751A1 (en) Audio encoder and decoder for encoding and decoding audio samples

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130717

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140522

R150 Certificate of patent or registration of utility model

Ref document number: 5551814

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250