JP5551692B2 - 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム - Google Patents

音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム Download PDF

Info

Publication number
JP5551692B2
JP5551692B2 JP2011516978A JP2011516978A JP5551692B2 JP 5551692 B2 JP5551692 B2 JP 5551692B2 JP 2011516978 A JP2011516978 A JP 2011516978A JP 2011516978 A JP2011516978 A JP 2011516978A JP 5551692 B2 JP5551692 B2 JP 5551692B2
Authority
JP
Japan
Prior art keywords
frame
speech
prediction
prediction region
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011516978A
Other languages
English (en)
Other versions
JP2011527444A (ja
Inventor
ラルフ ガイガー
ベルンハルト グリル
ブリュノ ベセトゥ
フィリップ グルネー
ギヨーム フックス
マルクス マルトラス
マクス ノイエンドルフ
ゲラルド シューラー
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
ヴォイスエイジ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, ヴォイスエイジ・コーポレーション filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2011527444A publication Critical patent/JP2011527444A/ja
Application granted granted Critical
Publication of JP5551692B2 publication Critical patent/JP5551692B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、抽出された音声信号のフレームを符号化するための音声符号器、復号化するための音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラムに関する。音声信号は、異なる符号化演算法を有する、2つの異なる音声符号器によって処理される。
低いビット速度の音声およびスピーチ符号化技術の文脈の中で、従来より、いくつかの異なる符号化技法が、最も可能な主観的品質を有する信号の低いビット速度の符号化を達成するために、所定のビット速度で使われてきた。一般的な音楽/音響信号のための符号器は、マスキング閾値曲線に従って、量子化誤差のスペクトルの(一時的な)形を形成することによって、主観的品質を最適化することを目的とする。マスキング閾値曲線は、知覚モデル(「知覚音声符号化」)によって、入力信号から想定される。他方、非常に低いビット速度のスピーチの符号化は、人間のスピーチの製作モデルに基づくとき、すなわち、線形予測符号化(LPC)を使って、残留励振信号の効率の良い符号化と共に、人間の声道の共鳴効果をモデル化するとき、非常に効率良く働くように見える。
これらの2つの異なる取り組みの結果として、一般的な音声符号器は、通常、スピーチ源モデルの開発不足のため、LPCに基づいた専用スピーチ符号器と同様、非常に低いデータ速度のスピーチ信号を実行しない。一般的な音声符号器は、MPEG−1 3層(MPEGは、Moving Pictures Expert Groupの略である。)、または、MPEG−2/4の発展した音声符号化(AAC)などである。逆に、一般的な音楽信号に適用される場合、マスキング閾値曲線に従って、符号化歪みのスペクトル包絡線を柔軟に形成できないため、LPCに基づいたスピーチ符号器は、通常、納得のいく結果を達成しない。以下では、LPCに基づいた符号化と知覚音声符号化との両方の利点を、一つの枠組みに結合する概念が説明される。その結果、一般的な音声信号とスピーチ信号との両方に効率の良い、統一された音声符号化が、説明される。
従来より、知覚音声符号器は、マスキング閾値曲線の想定に従って、効率良く音声信号を符号化するために、フィルタバンクに基づいた取り組みを使用し、量子化歪みを形成する。
図16は、単旋律の知覚符号化システムの基本的なブロック図を示す。分析フィルタバンク1600は、時間領域サンプルを、副抽出したスペクトル成分に写像するために使用される。このシステムは、スペクトル成分の数に依存して、副帯域符号器(小さい数の副帯域、例えば32個)、または、変換符号器(大きな数の周波数線、例えば512本)とも称される。知覚(「心理音響」)モデル1602は、マスキング閾値に依存した実際の時間を想定するために使用される。スペクトル(「副帯域」または「周波数領域」)成分は、量子化雑音が実際の伝達信号の下に隠され、かつ、復号化後に知覚できないような方法で、量子化および符号化1604される。これは、時間および周波数にわたって、スペクトル値の量子化の粒状性を変更することによって達成される。
量子化およびエントロピー符号化された、スペクトル係数または副帯域値が、副情報に加えて、ビットストリーム形式器1606に入力される。ビットストリーム形式器1606は、送信または保存に適した、符号化された音声信号を提供する。ビットストリーム形式器1606の出力ビットストリームは、インターネットを通して送信され、または、機械読取可能なデータ担持体に保存される。
復号器側では、復号器入力インターフェース1610が、符号化されたビットストリームを受信する。復号器入力インターフェース1610は、副情報から、エントロピー符号化および量子化されたスペクトル値/副帯域値を分離する。符号化されたスペクトル値は、復号器入力インターフェース1610と再量子化器1620との間に位置するハフマン復号器などのエントロピー復号器に入力される。このエントロピー復号器の出力は、量子化されたスペクトル値である。これらの量子化されたスペクトル値は、再量子化器1620に入力される。再量子化器1620は、逆量子化を実行する。再量子化器1620の出力は、合成フィルタバンク1622に入力される。合成フィルタバンク1622は、周波数/時間変換と、時間領域折り返し雑音除去操作(重複、加算、および/または、合成側窓化操作など)と、を含む合成フィルタリングを実行し、最終的に出力音声信号を得る。
従来より、効率の良いスピーチ符号化は、線形予測符号化(LPC)に基づいており、残留励振信号の効率の良い符号化と共に、人間の声道の共鳴効果をモデル化する。LPCと励振パラメータの両方は、符号器から復号器に送信される。この原則は図17aおよび図17bに示される。
図17aは線形予測符号化に基づいた符号化/復号化システムの符号器側を示す。スピーチ入力は、LPCフィルタ係数を出力するLPC分析器1701に入力される。LPCフィルタ1703は、これらのLPCフィルタ係数に基づいて調整される。LPCフィルタ1703は、スペクトル的に白くされた音声信号(「予測誤差信号」とも称される)を出力する。このスペクトル的に白くされた音声信号は、励振パラメータを発生させる残留/励振符号器1705に入力される。したがって、スピーチ入力が、一方では、励振パラメータに符号化され、他方では、LPC係数に符号化される。
図17bに示された復号器側では、励振パラメータが、励振信号を発生させる励振復号器1707に入力される。励振信号は、LPC合成フィルタ1709に入力される。LPC合成フィルタ1709は、送信されたLPCフィルタ係数を使用して調整される。したがって、LPC合成フィルタ1709は、再構成された、または、合成されたスピーチ出力信号を発生する。
時間の経過と共に、多くの方法が、残留(励振)信号の、効率が良く、かつ、知覚的に納得のいく表現に関して、提案されてきた。残留(励振)信号は、多重パルス励振(MPE)、正規パルス励振(RPE)、符号励振線形予測(CELP)などがある。
線形予測符号化は、過去の観測値の線形結合(一次結合)として、過去の所定の数の観測値に基づいた系列の現在のサンプルの期待値を生むことを試みる。入力信号の冗長を減らすために、符号器LPCフィルタ1703は、スペクトル包絡線の中の入力信号を「白く」する。すなわち、符号器LPCフィルタ1703は、信号のスペクトル包絡線の逆のモデルである。逆に、復号器LPC合成フィルタ1709は、信号のスペクトル包絡線のモデルである。特に、周知の自動後退(AR)線形予測分析法が、全極近似によって信号のスペクトル包絡線をモデル化することが知られている。
通常、狭帯域スピーチ符号器(すなわち、8kHzの標本抽出割合(サンプリング速度)を有するスピーチ符号器)は、8と12の間の順でLPCフィルタを用いる。LPCフィルタの性質によれば、一定の周波数分析能は、周波数領域全体にわたって有効である。これは知覚周波数目盛に対応していない。
従来のLPC/CELPに基づいた符号化の強度(スピーチ信号のための最も良い品質)と、従来のフィルタバンクに基づいた知覚音声符号化手法(音楽に、最も良い)と、を結合するために、これらの構造物の間の結合符号化が、提案されてきた。AMR−WB+符号器(適応型多重速度広帯域符号器、Adaptive Multi−Rate WideBand coder)の中では、二者択一の2つの符号化カーネル(OSの中枢部)が、LPC残留信号を操作する(非特許文献1参照)。一方の符号化カーネルは、ACELP(代数符号励振線形予測、Algebraic Code Excited Linear Prediction)、すなわち、音楽信号に対して良質の状態を達成するために、従来の音声符号化技術に類似している符号化手法に基づいたフィルタバンクに基づいており、スピーチ信号の符号化に対して、非常に効率が良い。他方の符号化カーネルは、TCX(変換符号励振、Transform Coded Excitation)に基づいている。入力信号の特性によって、2つの符号化モードの1つが、LPC残留信号を送信するために、短期間に選択される。このようにして、80ms持続時間のフレームが、40msまたは20msの副フレームに分離され、副フレームの中で、2つの符号化モードの間の決定がされる。
AMR−WB+符号器(拡張適応型多重速度広帯域符号器)は、2つの本質的に異なるモードACELPとTCXとを切り換えることができる(非特許文献2参照)。ACELPモードでは、時間領域信号が、代数符号励振によって符号化される。TCXモードでは、高速フーリエ変換(FFT)が使用され、LPC重み付け信号のスペクトル値が、ベクトル量子化に基づいて符号化される。励振信号は、復号器にて、LPC重み付け信号から引き出される。
どのモードを使用するかの決定が、試行化と復号化の両方の選択肢と、結果として生じる信号対雑音比(SN比)の比較とによって、行われる。
この場合は、閉ループ決定とも称される。閉じている制御ループが存在するので、符号化性能、および/または、効率を評価し、次に、一方を捨てることによって、より良いSN比を有する他方を選ぶ。
音声符号化やスピーチ符号化の応用に対して、窓化を有さないブロック変形(フレーム変形)が実行できないことは、周知である。したがって、TCXモードに対して、信号は、1/8の重複を有する低重複窓で窓化される。この重複している領域は、次のブロック(フレーム)が次第に現れる間に、先のブロック(フレーム)が次第に消えるために、例えば、連続した音声フレームの非相関量子化雑音による人工物(雑音)を抑制するために、必要である。こうして、非臨界的抽出(サンプリング)と比較される負荷(オーバーヘッド)が、合理的に低く保たれ、閉ループ決定に必要な復号化は、現在のフレームの少なくとも7/8のサンプルで再構成する。
AMR−WB+符号器は、TCXモードの中の1/8の負荷(オーバーヘッド)を導入する。すなわち、符号化されるべきスペクトル値の数は、入力サンプル数より1/8多い。これは、データ負荷の増加という不利な点を提供する。そのうえ、対応する帯域通過フィルタの周波数特性も、連続したフレームの1/8の急勾配の重複領域のため、不利である。
図18は、連続したフレームの符号負荷および重複について、もう少し詳しく説明するために、窓パラメータの定義を示す。図18に示された窓は、左側の立ち上がりエッジ領域(左重複領域とも称される)Lと、中央領域(1の領域または通過部分とも称される)Mと、立ち下がりエッジ領域(右重複領域とも称される)Rとを有する。さらに、図18は、フレーム内の完全再構成の領域PRを指示する矢印を示している。さらに、図18は、変換コアの長さTを指示する矢印を示している。
図19は、図18に従って、AMR−WB+符号器の窓系列のグラフと、その下部分に窓パラメータの表を示している。図19の上部分に示された窓系列は、ACELPフレーム、TCX20フレーム(20ms持続時間のフレーム)、TCX20フレーム、TCX40フレーム(40ms持続時間のフレーム)、TCX80フレーム(80ms持続時間のフレーム)、TCX20フレーム、TCX20フレーム、ACELPフレーム、ACELPフレームである。
窓系列からは、変化している重複部分が認められる。変化している重複部分は、正確に、中央領域Mの1/8だけ重複している。図19の下部分の表は、変換コアの長さTが、常に、新しい完全再構成されたサンプルの領域PRより、1/8だけ大きいことを示す。さらに、これは、ACELPフレームからTCXフレームへの転移の場合だけではなく、TCXx(「x」は、任意の長さのTCXフレームを示す)フレームからTCXxフレームへの転移の場合でも存在することに注目するべきである。したがって、各ブロック(フレーム)において、1/8の負荷(オーバーヘッド)が導入される。すなわち、臨界的抽出は、決して達成されない。
TCXフレームからACELPフレームに切り替わるとき、窓サンプルは、その重複領域(例えば、図19の上部分の領域1900)の中のFFT−TCXフレームから捨てられる。ACELPフレームからTCXフレームに切り替わるとき、窓化された無入力応答(ZIR)は、窓化のために符号器で取り除かれ、回復化のために復号器で加えられる。窓化された無入力応答(ZIR)は、図19の上部分で点線1910によって示されている。TCXフレームからTCXフレームに切り替わるとき、窓化されたサンプルは、相互フェードのために使用される。TCXフレームは、様々に量子化できるので、連続したフレームの間の量子化誤差または量子化雑音は、異なる、および/または、独立している。そのほかに、相互フェード無しで、あるフレームから次のフレームに切り替わるとき、目を引く人工物(雑音)が生じる。したがって、相互フェードが、所定の品質を達成するために必要である。
図19の下部分の表から、フレームの成長長さと共に、相互フェード領域が成長する、ということが認められる。図20は、AMR−WB+符号器内の可能な転移のための様々な窓の図と共に、別の表を提供する。TCXフレームからACELPフレームに転移するとき、重複しているサンプルは捨てられる。ACELPフレームからTCXフレームに転移するとき、ACELPフレームからの無入力応答は、符号器で取り除かれて、回復化のために復号器で加えられる。
B.ベセット、R.ルフェーヴル、R.サラミ、「ハイブリッドACELP/TCX技術を使用する普遍的なスピーチ/音声符号化」、IEEE ICASSP会報2005年度、301〜304ページ、2005年 3GPP(第3世代共同プロジェクト)技術仕様書No.26.290、バージョン6.3.0、2005年6月
1/8の負荷(オーバーヘッド)が、常に、導入されることは、AMR−WB+符号器の重要な不具合である。
それゆえに、本発明の主たる目的は、抽出された音声信号のフレームを、効率良く符号化するための音声符号器、復号化するための音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラムを提供することである。
本発明の目的は、請求項1に記載の音声符号器、請求項12に記載の音声符号化方法、請求項14に記載の音声復号器、および請求項20に記載の音声復号化方法により達成される。
本発明は、仮に、時間折り返し雑音導入変換が、例えば、TCX符号化のために使用されるならば、より効率の良い符号化を行うことができるという発見に基づいている。時間領域折り返し雑音導入変換は、隣接フレーム間に相互フェードがまだ生じている間、臨界的抽出を達成できる。例えば、変形離散余弦変換(MDCT=Modified Discrete Cosine Transform)は、重複している時間領域フレームを周波数領域に変形するために使用される。この特定の変換は、2N個の時間領域サンプルに対して、N個の周波数領域サンプルだけを生産するので、時間領域フレームが50%だけ重複しても、臨界的抽出が維持される。復号器または逆時間折り返し雑音導入変換にて、重複および加算ステージが、時間領域折り返し雑音除去(TDAC=Time Domain Aliasing Cancelation)が実行される方法で、時間折り返し雑音重複および逆変換された時間領域サンプルを結合するために適用される。
本発明は、周波数領域と時間領域との切り換えの文脈の中で、例えば、AMR−WB+のような、低重複窓を有する符号化が使用される。本発明は、非臨界的抽出されたフィルタバンクの代わりにMDCTを使用する。このように、非臨界的抽出による負荷(オーバーヘッド)は、例えば、MDCTの臨界的抽出の特性に基づいて、有利に減少する。さらに、より長い重複が、追加の負荷を導入することなく、可能である。本発明は、より長い負荷に基づいて、相互フェードが、より円滑に行なわれる、言い換えれば、音質が復号器で増加する、という利点を提供できる。
1つの詳細な実施形態では、AMR−WB+の機能性、特に、閉ループまたは開ループの決定に基づいたACELPモードとTCXモードとの間の切り換えを維持している間、AMR−WB+TCXモードの中のFFTは、MDCTによって置き替えられる。本発明は、ACELPフレームの後の最初のTCXフレームのために、非臨界的抽出された態様でMDCTを使用し、次に、全てのその後のTCXフレームのために、臨界的抽出された態様でMDCTを使用する。本発明は、変形されていないAMR−WB+に類似した低重複窓を有するにもかかわらず、より長い重複を有するMDCTを使用して、閉ループ決定の特徴を保有する。これは、変形されていないTCX窓と比べて、より良い周波数応答の利点を提供する。
この発明の上述の目的,その他の目的,特徴および利点は、図面を基準して行う以下の発明を実施するための形態の説明から一層明らかとなろう。
音声符号器の一実施形態を示すブロック図である。 時間領域折り返し雑音を導入している変換の一実施形態のための方程式を示す図である。 音声符号器の別の一実施形態を示すブロック図である。 音声符号器のさらに別の一実施形態を示すブロック図である。 音声符号器のさらに別の一実施形態を示すブロック図である。 音声符号器のさらに別の一実施形態を示すブロック図である。 図4aは、有声スピーチのための時間領域スピーチ信号のサンプルを示すグラフであり、図4bは、有声スピーチ信号サンプルのスペクトルを示すグラフである。 図5aは、無声スピーチのための時間領域スピーチ信号のサンプルを示すグラフであり、図5bは、無声スピーチ信号サンプルのスペクトルを示すグラフである。 分析/合成CELPの一実施形態を示すブロック図である。 短期予測情報と予測誤差信号とを提供している符号器側ACELPステージを示すブロック図である。 音声復号器の一実施形態を示すブロック図である。 音声復号器の別の一実施形態を示すブロック図である。 音声復号器のさらに別の一実施形態を示すブロック図である。 窓関数の一実施形態を示すグラフである。 窓関数の別の一実施形態を示すグラフである。 従来および本実施形態の、窓関数と遅延とを示すグラフである。 窓パラメータを説明するための説明図である。 窓関数の系列を示すグラフおよび窓パラメータを示す表である。 MDCTに基づいた一実施形態の可能な転移を示す表である。 一実施形態の可能な転移を示す表である。 1つの実施形態に従って、ACELPフレームからTCX80フレームへの転移窓を示すグラフである。 1つの実施形態に従って、TCXxフレームからTCX20フレームへの転移窓を示すグラフである。 1つの実施形態に従って、ACELPフレームからTCX20フレームへの転移窓を示すグラフである。 1つの実施形態に従って、ACELPフレームからTCX40フレームへの転移窓を示すグラフである。 1つの実施形態に従って、TCXxフレームからTCX80フレームを経て、TCXxフレームへの転移窓を示すグラフである。 1つの実施形態に従って、ACELPフレームからTCX80フレームへの転移を示すグラフである。 従来の符号器および復号器の例を示すブロック図である。 従来のLPC符号化を示すブロック図である。 従来のLPC復号化を示すブロック図である。 従来の相互フェード窓を説明するためにの説明図である。 従来のAMR−WB+符号器の窓系列を示すグラフおよび窓パラメータを示す表である。 AMR−WB+符号器のACELPフレームとTCXフレームとの間の転移で使用される窓を示す表である。
図1は音声符号器10を示す。音声符号器10は、抽出された音声信号のフレームを符号化するために適用され、符号化されたフレームを得る。フレームは、多数の時間領域音声サンプルを含む。音声符号器10は、音声サンプルのフレームに基づいて、合成フィルタの係数情報および予測領域フレームを決定するための予測符号化分析ステ−ジ12を含む。例えば、予測領域フレームは、励振フレームに基づくことができる。予測領域フレームは、LPC領域信号のサンプルまたは重み付けされたサンプルを含む。合成フィルタの励振信号は、LPC領域信号から得られる。言い換えると、本実施形態において、予測領域フレームは、合成フィルタの励振信号のサンプルを含む励振フレームに基づく。
本実施形態では、予測領域フレームは、励振フレームのフィルタバージョンに対応する。例えば、知覚フィルタリングは、励振フレームに適用され、予測領域フレームを得る。別の実施形態では、高帯域通過または低帯域通過フィルタリングは、励振フレームに適用され、予測領域フレームを得る。さらに別の実施形態では、予測領域フレームは、直接に、励振フレームに対応する。
音声符号器10は、さらに、重複予測領域フレームを周波数領域に変換して、予測領域フレームスペクトルを得るための時間領域折り返し雑音導入変換器14を含む。時間領域折り返し雑音導入変換器14は、臨界的抽出方法で、重複予測領域フレームを変換するように設けられる。音声符号器10は、さらに、予測領域フレームスペクトルを符号化して、合成フィルタの係数情報と符号化された予測領域フレームスペクトルとに基づいて、符号化されたフレームを得るための冗長減少符号器16を含む。
冗長減少符号器16は、予測領域フレームスペクトル、および/または、合成フィルタの係数情報を符号化するために、ハフマン(Huffman)符号化またはエントロピー符号化を使用するように設けられる。
本実施形態では、時間領域折り返し雑音導入変換器14は、重複予測領域フレームを変換するように設けられる。その結果、予測領域フレームスペクトルの平均サンプル数は、予測領域フレームの中の平均サンプル数と等しい。従って、フレームは、臨界的抽出を達成する。さらに、時間領域折り返し雑音導入変換器14は、変更離散的余弦変換(MDCT、Modified Discrete Cosine Transform)に従って、重複予測領域フレームを変換するように設けられる。
以下では、変更離散的余弦変換(MDCT)が、図2に示した方程式(a)〜(j)によって、詳細に説明される。変更離散的余弦変換(MDCT)は、重複されているという追加特性を有した4型離散的余弦変換(DCT−IV)に基づいたフーリエ関連変換である。すなわち、より大きいデータセットの連続したブロック(フレーム)が実行されるように設計される。連続したブロック(フレーム)が重複されるので、例えば、1つのブロック(フレーム)の後半が、次のブロック(フレーム)の前半と一致する。この重複は、DCTのエネルギー圧縮品質に加えて、信号圧縮応用のために、MDCTを特に魅力的に作る。それは、ブロック(フレーム)境界から生じる人工物(雑音)を避けることを助けるからである。したがって、MDCTは、例えば、音声圧縮のために、MP3(MPEG2/4 層3)、AC−3(ドルビーによる音声符号器 3)、オッグボルビス(Ogg Vorbis)、および、AAC(発展した音声符号化)で使われる。
MDCTは、プリンセンとブラッドレーによる初期研究(1986年)に続いて、1987年に、時間領域折り返し雑音除去(TDAC)のMDCT基本原則を開発するために、プリンセン、ジョンソン、およびブラッドレーによって提案された。MDCTは、以下でさらに説明される。また、類似の変換である、離散的正弦変換(DST)に基づいたMDSTが存在する。MDSTは、様々の型のDCTまたはDCT/DSTの組み合わせに基づいたMDCTの別の形式と同様に、稀に使用される。また、MDSTは、本実施形態において、時間領域折り返し雑音導入変換器14によって使用される。
MP3において、MDCTは、直接に音声信号に適用されず、むしろ、32帯域多相矩形フィルタバンク(PQF、Polyphase Quadrature Filter bank)の出力に適用される。このMDCTの出力は、折り返し雑音減少公式によって後処理され、PQFの典型的な折り返し雑音を減少する。MDCTを有するフィルタバンクのそのような組み合わせは、ハイブリッドフィルタバンクまたは副帯域MDCTと称される。他方、AACは、通常、純粋なMDCTを使用する。(稀に使用される)MPEG−4 AAC−SSR変形(ソニー製)だけが、MDCTに従う4帯域PQFを使用する。適応型変換音声符号化(ATRAC)は、MDCTに従う積み重ねられた矩形鏡フィルタ(QMF、Quadrature Mirror Filter)を使用する。
Figure 0005551692
この変換の前の規格化係数は、ここでの約束であるが、任意の条件であり、相互に異なる。MDCTとIMDCTとの規格化の積だけが、以下で制限される。
逆MDCTは、IMDCTとして知られている。入力および出力の異なる数が存在するので、一見したところ、MDCTは逆にさせられないように見えるかもしれない。しかしながら、完全な可逆性は、連続した重複ブロック(フレーム)の重複IMDCTを加えることによって達成され、誤差の除去と元データの検索とが引き起こされる。この技術は、時間領域折り返し雑音除去(TDAC)として知られている。
IMDCTは、図2の(b)の公式に従って、N個の実数X0,・・・,XN-1を、2N個の実数y0,・・・,y2N-1に変換する。DCT−IVのように、直交変換は、その逆が、前の変換と同じ形式を有する。
通常の窓正規化(以下、参照)を有する窓化されたMDCTの場合、IMDCTの前の規格化係数は、2を乗算されるべきであり、すなわち、2/Nになる。
MDCT公式の直接応用は、O(N2)操作を必要とするけれども、高速フーリエ変換(FFT)のように、計算を再帰的に因数に分析することによって、O(NlogN)の複雑さだけを有するMDCT公式を計算することは、可能である。また、O(N)前処理および後処理のステップを組み合わされた他の変換(通常、DFT(FFT)またはDCT)を介して、MDCTを計算できる。また、以下で説明されるように、DCT−IVのどんな演算法も、すぐに、等しいサイズのMDCTおよびIMDCTを計算するための方法を提供する。
通常の信号圧縮の応用において、変換特性は、窓関数wn(n=0,・・・,2N−1)を使用することによって、さらに改良される。窓関数wnは、n=0と2Nのポイントで窓関数wnを円滑にゼロにすることによって、n=0と2Nの境界で不連続を避けるために、上のMDCTおよびIMDCTの公式の中で、xnとynとが乗算される。すなわち、データは、MDCTの前とIMDCTの後に、窓化される。原則として、xとyは異なる窓関数を有し、また、窓関数wnは、特に、異なるサイズのデータブロック(フレーム)が組み合わされる場合、1つのブロック(フレーム)から次のブロック(フレーム)に変化する。しかし、簡単のために、等しいサイズのブロック(フレーム)が組み合わされて同じ窓関数となる、よくある場合が、最初に考えられる。
変換は可逆のまま残る。すなわち、wが、図2の(c)に従って、プリンセン−ブラッドレー条件を満足する限り、TDACは、対称窓wn=w2N-1-nに対して働く。
様々な異なる窓関数は一般的である。一例として、MP3およびMPEG−2AACのためには、図2の(d)の窓関数wnが与えられる。そして、ボルビス(Vorbis)のためには、図2の(e)の窓関数wnが与えられる。AC−3はカイザー−ベッセル(Kaiser−Bessel)から派生した窓を使用する。また、MPEG−4AACも、カイザー−ベッセルから派生した窓を使用する。
MDCTに適用される窓は、プリンセン−ブラッドレー条件を達成しなければならないので、他のタイプの信号分析に使用される窓と異なることに注目するべきである。この違いの理由の1つは、MDCTの窓が、MDCT(分析フィルタ)とIMDCT(合成フィルタ)の両方に対して、2度適用されるということである、
定義の点検によって判るように、等しいNに対して、MDCTは本質的にDCT−IVと同等である。入力が(N/2)だけ移行すると、データの2つのN−ブロック(フレーム)は、同時に変換される。より慎重にこの等価性を調べることによって、TDACのような重要な特性が容易に引き出される。
DCT−IVとの正確な関係を定義するために、DCT−IVは、二者択一の偶数/奇数の境界条件に対応するということを理解しなければならない。DCT−IVは、その左側の境界(n=−(1/2)の周囲)で偶数であり、その右側の境界(n=N−(1/2))の周囲)で奇数などである。DFTのような場合には、周期的境界に代わる。これは図2の(f)で与えられた同一性から結果として生じる。したがって、仮に、その入力が、長さNの列xであれば、この列xを、(x,−xR,−x,xR,・・・)などに広げるイメージが想像される。ここで、xRは、逆順のxを示す。
2N個の入力とN個の出力とを有したMDCTを考えてください。入力は、それぞれサイズがN/2の4つのブロック(a,b,c,d)に分割される。仮に、これら4つのブロック(a,b,c,d)が、(MDCT定義における+N/2タームから)N/2だけ移行するならば、3つのブロック(b、c、d)が、DCT−IVのN個の入力の終端を過ぎて広がるので、上で説明した境界状態に従って、3つのブロック(b、c、d)は「折り返され」なければならない。
その結果、2N個の入力(a,b,c,d)を有するMDCTは、正確に、N個の入力(−cR−d,a−bR)を有するDCT−IVと同等である。ここで、Rは、上で説明したように、反転(逆順)を示す。このように、DCT−IVを計算するどんな演算法も、普通にMDCTに適用される。
同様に、上で説明したように、IMDCT公式は、正確に、DCT−IVの1/2である(DCT−IVの逆である)。出力はN/2だけ移行され、(境界条件を通して)長さ2Nまで拡張される。逆DCT−IVは、上記から、入力(−cR−d,a−bR)に容易に戻る。出力が移行されて、境界条件を通して拡張されるとき、図2の(g)に表示された結果を得る。その結果、IMDCT出力の半分が、冗長である。
今、TDACがどのように働くかが、理解できる。連続した、そして、50%重複した2Nブロック(c,d,e,f)のMDCTを計算すると想定してください。IMDCTは、上記との類似で、(c−dR,d−cR,e+fR,eR+f)/2を生じる。これが、半分重複している前のIMDCTの結果に加えられるとき、逆タームは除去され、容易に(c,d)を得て、元のデータを回復する。
「時間領域折り返し雑音除去」という用語の起源は明確である。論理的DCT−IVの境界部分を越えて広がる入力データの使用は、ナイキスト周波数を超える周波数が、より低周波数に折り返し雑音を発生させるのと正確に同じ方法で、データに折り返し雑音を発生させることを引き起こす。この折り返し雑音が、周波数領域の代わりに時間領域の中で起こる場合は除かれる。したがって、組み合わせc−dRなどは、組み合わせのための正確に正しい記号を有し、加算されるとき除去される。
奇数N(実際に稀に使用される)に対しては、N/2が整数でないので、MDCTは単なるDCT−IVの移行順列ではない。この場合、サンプルを半分だけ追加的に移行することは、MDCT/IMDCTがDCT−III/IIと等価になるということを意味する。分析は上記に類似している。
上では、TDAC特性が、通常のMDCTに対して立証され、半分重複している連続ブロック(連続フレーム)の加算IMDCTが、元のデータを回復することを示す。窓化されたMDCTのためのこの逆特性の派生は、わずかだけ複雑である。
ブロック(a,b,c,d)およびブロック(c,d,e,f)が変更離散的余弦変換(MDCT)され、それらの重複している半分が逆変更離散的余弦変換(IMDCT)され、かつ、加算されるとき、我々は元データ(c+dR,cR+d)/2+(c−dR,d−cR)/2=(c,d)を得る、ということを、上記から思い出してください。
今、MDCT入力とIMDCT出力の両方が、長さ2Nの窓関数によって乗算されることが、提案される。上記したように、対称窓関数、したがって、形式(w,z,zR,wR)の対称窓関数を想定する。ここで、wとzは、長さがN/2のベクトルであり、Rは、前と同様、反転(逆順)を示す。次に、プリンセン−ブラッドレー条件が記載される。
Figure 0005551692
乗算と加算は、要素ごとに実行される。あるいは、等価的にwとzを逆にする。
Figure 0005551692
したがって、ブロック(a,b,c,d)を変更離散的余弦変換(MDCT)する代わりに、ブロック(wa,zb,zRc,wRd)の変更離散的余弦変換(MDCT)が、要素ごとに実行される全ての乗算と共に行われる。これが、窓関数によって再び(要素ごとに)、変更離散的余弦変換(MDCT)され、かつ、乗算されるとき、その後半分Nが、図2の(h)に示すように生じる。
IMDCT正規化は、窓化された場合、係数2だけ異なるので、1/2の乗算はもはや存在しないことに注目するべきである。同様に、ブロック(c,d,e,f)の窓化されたMDCTとIMDCTは、図2の(i)に従って、その前半分Nにおいて生じる。これら2つの半分が、一緒に加算されるとき、図2の(j)の結果を得られ、元のデータが回復される。
図3aは音声符号器10の別の実施形態を示す。時間領域折り返し雑音導入変換器14は、窓関数を重複予測領域フレームに適用するための窓フィルタ17と、窓化された重複予測領域フレームを予測領域スペクトルに変換するための変換器18と、を備える。上記に従って、多様な窓関数が想像できる。多様な窓関数のうちのいくつかが、以下で詳説される。
図3bは音声符号器10の別の実施形態を示す。時間領域折り返し雑音導入変換器14は、事象を検出して、仮に、事象が検出されるならば、窓系列情報を提供するための処理装置19を備える。窓フィルタ17は、窓系列情報に従って、窓関数を適用するように設けられる。例えば、事象は、抽出された音声信号のフレームから分析された所定の信号特性に依存して起こる。例えば、異なる窓の長さ、または、異なる窓のエッジなどが、信号、音調、はかなさなどの自己相関の特性に従って適用される。言い換えれば、様々な事象が、抽出された音声信号のフレームの様々な特性の一部として起こる。処理装置19は、音声信号のフレームの特性に従って、様々な窓系列を提供する。窓系列のための、より詳細な系列およびパラメータが、以下から設定される。
図3cは音声符号器10の別の実施形態を示す。予測領域フレームは、時間領域折り返し雑音導入変換器14だけではなく、符号表符号器13にも提供される。符号表符号器13は、予め決定された符号表に基づいて、予測領域フレームを符号化し、符号表符号化された(予測領域)フレームを得るように設けられる。さらに、図3cに示された実施形態は、符号表符号化されたフレーム、または、符号化されたフレームのいずれを使用するかを決めて、符号化効率測度に基づいて、最終的な符号化されたフレームを得るための決定器15を備えている。図3cに示された実施形態は、閉ループシナリオとも称される。このシナリオにおいて、決定器15は、2つの枝から符号化されたフレームを得るための可能性を有する。一方の枝は変換に基づいたものであり、他方の枝は符号表に基づいたものである。符号化効率測度を決定するために、決定器15は、両方の枝からの符号化されたフレームを復号して、異なる枝からの誤差統計を評価することによって、符号化効率測度を決定する。
言い換えれば、決定器15は、符号化手順を逆戻りするように、すなわち、両方の枝に対して完全な復号化を実行するように設けられる。決定器15は、完全に復号化されたフレームを有しながら、図3cの点線の矢印によって示されるように、復号されたサンプルと元のサンプルとを比較するように設けられる。また、決定器15は、予測領域フレームが提供される。そのほかに、冗長減少符号器16からの符号化されたフレームと、符号表符号器13からの符号表符号化されたフレームと、を復号して、その結果を、元々符号化された予測領域フレームと比較することが成される。そのほかに、ある実施形態では、違いを比較することによって、例えば、信号対雑音比、統計誤差または最小誤差などに関する、符号化効率測度が決定される。いくつかの実施形態では、それぞれの符号速度、すなわち、フレームを符号化するために要求されるビット数に関連する、符号化効率測度が決定される。決定器15は、冗長減少符号器16からの符号化されたフレーム、または、符号表符号化されたフレームのいずれか一方を、最終的な符号化されたフレームとして、符号化効率測度に基づいて選択するように設けられる。
図3dは音声符号器10の別の実施形態を示す。決定器15に接続されたスイッチ20が存在する。スイッチ20は、符号化効率測度に基づいて、時間領域折り返し雑音導入変換器14と符号表符号器13との間で、予測領域フレームを切り換える。決定器15は、抽出された音声信号のフレームに基づいて、スイッチ20の位置を決定するために、すなわち、時間領域折り返し雑音導入変換器14および冗長減少符号器16を有する、変換に基づいた符号化枝、または、符号表符号器13を有する、符号表に基づいた符号化枝のいずれか一方を使用するために、符号化効率測度を決定するように設けられている。既に上で説明したように、例えば、フレームが、音調のようなものであろうと、または、雑音のようなものであろうと、符号化効率測度は、抽出された音声信号のフレームの特性(すなわち、音声の特性自体)に基づいて決定される。
図3dに示した実施形態の構成は、開ループ構成と称される。決定器15が、それぞれの符号化枝の結果を知ることなく、入力フレームに基づいて決定するからである。さらに別の実施形態では、決定器15は、図3dに点線の矢印によって示されている予測領域フレームに基づいて決定する。言い換えれば、決定器15は、抽出された音声信号のフレームに基づいて決定されるのではなく、むしろ予測領域フレームに基づいて決定される。
以下では、決定器15の決定過程が説明される。一般に、音声信号の衝撃波のような部分と定常信号の定常波のような部分との間の差が、信号処理操作を適用することによって、作られる。そこでは、衝撃波のような特性が測定され、同様に、定常波のような特性も測定される。そのような測定は、例えば、音声信号の波形を分析することによって成される。このために、変換に基づいた処理、LPC処理、または、どんな他の処理も実行される。その部分が衝撃波のような部分であるかないか、を決定する直感的な方法は、例えば、時間領域波形を見て、この時間領域波形が、一定の間隔で、または、不規則な間隔で、ピークを有するかどうか、を決定することである。そして、一定の間隔のピークは、スピーチのような符号化器、すなわち、符号表符号器に対して、より適している。スピーチ内でさえ、有声部分と無声部分とが区別される、ということに注目するべきである。符号表符号器13は、有声信号部分または有声フレームに対して、より効率が良い。時間領域折り返し雑音導入変換器14と冗長減少符号器16とを含む変換に基づいた符号化枝は、無声フレームに対して、より適している。一般に、変換に基づいた符号化は、音声信号以外の定常信号に対して、より適している。
例示的に、図4aおよび図4b、図5aおよび図5bを参照する。衝撃波のような信号号部分と定常波のような信号部分が、例示的に議論される。一般に、決定器15は、異なる評価基準(例えば、定常性、はかなさ、スペクトル白さなど)に基づいて決定するように、設けられている。以下において、評価基準例が、実施形態の一部として与えられる。特に、図4aには時間領域の有声スピーチが示され、図4bには周波数領域の有声スピーチが示されている。有声スピーチは、衝撃波のような信号部分の例として議論される。そして、無声スピーチ部分が、定常波のような信号部分の例として、図5aおよび図5bを参照して議論される。
一般に、スピーチは、有声、無声、または、混合に分類される。抽出された有声および無声の部分に関する時間および周波数領域の記載は、図4a、4b、5aおよび5bに示されている。有声スピーチは、時間領域において準周期的であって、周波数領域において調和構造化されている。一方、無声スピーチは、不規則のようであって、広帯域である。さらに、有声部分のエネルギーは、一般に、無声部分のエネルギーより高い。有声スピーチの短期間スペクトルは、その微細なフォルマント(formant)構造によって特徴付けられる。微細な倍音構造は、スピーチの準周期性の結果であり、振動している声帯に帰する。フォルマント構造(スペクトル包絡線とも称される)は、音源と声帯との相互作用の結果である。声道は、いん頭と口腔から成る。有声スピーチの短期間スペクトルに「合致」するスペクトル包絡線の形は、声道の輸送特性と声門のパルスによるスペクトル傾斜(6dB/オクターブ)とに関連している。
スペクトル包絡線は、1連のピーク(フォルマントと称される)によって特徴付けられる。フォルマントは、声道の共鳴モードである。平均の声道には、5kHz未満のフォルマントが3個〜5個存在する。通常、3kHz未満で起こる最初の3個のフォルマントの振幅および位置は、スピーチの合成および知覚の両方において、かなり重要である。より高いフォルマントも、広帯域で無声のスピーチ表現に対して重要である。スピーチ特性は、以下の物理的スピーチ製作システムに関連する。振動している声帯によって発生した、準周期的声門の空気パルスを有する声道の励振は、有声スピーチを製作する。周期的パルスの周波数は、基本周波数または基本ピッチと称される。声道の中で空気を強制的に圧縮することは、無声スピーチを製作する。鼻音は、鼻道と声道との音響結合の結果である。そして、破裂音は、声道の閉鎖の後に作られた空気圧を、突然に減少させることによって減少する。
したがって、音声信号の定常波のような部分は、図5aで示すように、時間領域の定常波のような部分、または、周波数領域の定常波のような部分である。それは、例えば、図4a)で示すように、衝撃波のような部分と異なる。時間領域の定常波のような部分は、永久的な繰り返しパルスを示さないという事実の結果である。しかしながら、後で概説するように、定常波のような部分と衝撃波のような部分との間の差は、LPC方法を使用して実行される。LPC方法は、声道と声道の励振をモデル化する。信号の周波数領域が考慮されるとき、衝撃波のような信号は、個々のフォルマントの際立つ外観、すなわち、図4bの際立つピークを示す。一方、定常波のような信号スペクトルは、図5bに示すように、かなり広いスペクトルを有する。あるいは、倍音信号の場合、定常波のような信号スペクトルは、特定の音を表すいくつかの際立つピークを持つ、かなり連続した雑音床を有する。特定の音は、例えば、音楽信号の中に起こるが、図4bの衝撃波のような信号のように、相互に正規の距離を持っていない。
さらに、衝撃波のような部分と定常波のような部分とは、同時的に起こる。すなわち、それは、時間内の音声信号の一部分が定常波のようであり、別の部分が衝撃波のようであることを意味する。二者択一的に、または、追加的に、信号特性は、様々な周波数帯域において異なる。したがって、音声信号が、定常波のようであるか、または、衝撃波のようであるかの決定は、周波数を選択して実行される。その結果、特定の周波数帯域、または、いくつかの特定の周波数帯域は、定常波のようであると考えられ、他の周波数帯域は、衝撃波のようであると考えられる。この場合、音声信号の特定の時間部分は、衝撃波のような部分、または、定常波のような部分を含む。
図3dに示した実施形態に戻って、決定器15は、音声フレーム、予測領域フレーム、または、励振信号を分析する。それらが、かなり衝撃波のようである(すなわち、符号表符号器13に一層適している)のか、または、かなり定常波のようである(すなわち、変換に基づいた符号化枝に一層適している)のか、を決定するためである。
次に、分析/合成CELP符号器が、図6を参照して議論される。CELP符号器の詳細は、「スピーチ符号化:個人指導用報告」、アンドレア・スパニエル、IEEE会報、84巻、No.10、1994年10月、1541〜1582ページに記載されている。図6に示したCELP符号器は、長期予測構成部60と短期予測構成部62とを含む。さらに、符号表64が使用されている。知覚重み付けフィルタW(z)66と誤差最小化制御装置68も設けられている。s(n)は入力音声信号である。知覚的に重み付けされた後、重み付けされた信号は相殺器69に入力される。相殺器69は、重み付けされた合成信号(符号66に実装されている知覚重み付けフィルタW(z)の出力)と実際の重み付けされた予測誤差信号sw(n)との間の誤差を計算する。
一般に、短期予知A(z)は、以下でさらに議論するLPC分析ステ−ジによって計算される。この情報によって、長期予測AL(z)は、長期予測利得(ピッチ利得)bおよび長期予測遅延(ピッチ遅延)Tを含む。CELP演算法は、例えばガウス系列の符号表を使用して、励振領域フレームまたは予測領域フレームを符号化する。ACELP演算法は、特定の代数的に設計された符号表を有する。「ACELP」の「A」は、「代数的」を表す。
符号表は多かれ少なかれベクトルを含む。各ベクトルは、サンプルの数に従った長さを有する。利得係数gは、励振ベクトルを長さ調整する。励振サンプルは、長期合成フィルタと短期合成フィルタとによって、ふるいにかけられる。「最適な」ベクトルが選択され、その結果、知覚的に重み付けされた誤差の平均平方(不偏分散)が、最小になる。CELPの中の検索過程は、図6に示した分析/合成構成から明白である。図6は、分析/合成CELPの一例を示しただけであり、本実施形態は、図6に示した構造に制限されない、ことに注目するべきである。
CELPにおいて、長期予測器は、前の励振信号を含む適応型符号表としてしばしば実行される。長期予測遅延および長期予測利得は、適応型符号表の索引および利得によって表され、重み付けされた誤差の平均平方(不偏分散)を最小にすることによって選択される。この場合、励振信号は、2つの利得調整されたベクトルの加算から成る。1つは適応型符号表からのベクトルであり、もう1つは固定型符号表からのベクトルである。AMR−WB+の中の知覚重み付けフィルタW(z)は、LPCフィルタに基づいている。したがって、知覚的に重み付けされた信号は、LPC領域信号の形式である。AMR−WB+の中で使用される変換領域符号器において、変換は重み付けされた信号に適用される。復号器において、励振信号は、合成の逆から成るフィルタや重み付けフィルタを通して、復号化され重み付けされた信号を、ふるいにかけることによって得られる。
Figure 0005551692
次に、予測符号化分析ステ−ジ12の機能性が、図7に示された実施形態に従って議論される。この実施形態では、決定器15の中でLPC分析とLPC合成とを使用する。
図7は、予測符号化分析ステ−ジ12のより詳細な実行を示す。音声信号はフィルタ決定ブロック783に入力される。フィルタ決定ブロック783は、フィルタ情報A(z)、すなわち、合成フィルタの係数情報を決定する。この情報は、量子化されて、復号器のために必要な短期予測情報として出力される。相殺器786では、信号の現在のサンプルが入力され、現在のサンプルの予測値が減算される。その結果、このサンプルに対して、予測誤差信号が信号線784に発生する。予測誤差信号は、励振信号または励振フレーム(通常、符号化された後)と称されることに注目するべきである。
図8aは、符号化されたフレームを復号して、抽出された音声信号のフレームを得るための音声復号器80を示す。フレームは多数の時間領域サンプルを含む。音声復号器80は、符号化されたフレームを復号し、合成フィルタの係数情報、および、予測領域フレームスペクトル、または、予測スペクトル領域フレームを得るための冗長検索復号器82を含む。音声復号器80は、さらに、予測スペクトル領域フレームを変換して、重複予測領域フレームを得るための逆時間領域折り返し雑音導入変換器84を含む。逆時間領域折り返し雑音導入変換器84は、連続した予測領域フレームスペクトルから重複予測領域フレームを決定するように設けられる。さらに、音声復号器80は、重複予測領域フレームを結合して、臨界的抽出方法で予測領域フレームを得るための重複/加算結合器86を含む。予測領域フレームは、LPCに基づいて重み付けされた信号から成る。重複/加算結合器86は、予測領域フレームを励振フレームに変換するための変換器を含む。音声復号器80は、さらに、係数に基づいた合成フレームおよび励振フレームを決定するための予測合成ステージ88を含む。
重複/加算結合器86は、重複予測領域フレームを結合するように設けられている。その結果、予測領域フレームの平均サンプル数は、予測領域フレームスペクトルの平均サンプル数と等しい。本実施形態では、逆時間領域折り返し雑音導入変換器84が、上記の詳細に従って、IMDCTに従って、予測領域フレームスペクトルを時間領域に変換するように設けられている。
一般に、重複/加算結合器86において、任意に、図8a〜図8cの中で括弧で示される「励振回復」が存在する。重複/加算結合器86は、LPC重み付け領域で実行される。次に、重み付けされた信号は、逆重み付け合成フィルタを通して、ふるいにかけられることによって、励振信号に変換される。
さらに、予測合成ステージ88は、線形予測、すなわち、LPCに基づいてフレームを決定するように設けられている。音声復号器80の別の実施形態は、図8bに示される。図8bに示された音声復号器80は、図8aに示された音声復号器80と同様の構成部品を示す。しかしながら、図8bに示された逆時間領域折り返し雑音導入変換器84は、さらに、予測領域フレームスペクトルを、重複予測領域フレームに変換するための変換器84aと、窓関数を、変換された重複予測領域フレームに適用して、重複予測領域フレームを得るための窓フィルタ84bと、を含む。
図8cは、図8bに示された実施形態と同様の構成部品を有する音声復号器80の別の実施形態を示す。図8cに示された実施形態において、逆時間領域折り返し雑音導入変換器84は、さらに、事象を検出して、仮に、事象が窓フィルタ84bに検出されると、窓系列情報を提供するための処理装置84cを含む。そして、窓フィルタ84bは、窓系列情報に従って、窓関数を適用するように設けられている。事象は、符号化されたフレームまたは副情報から派生した指示、または、符号化されたフレームまたは副情報によって提供された指示である。
音声符号器10および音声復号器80の本実施形態において、それぞれの窓フィルタ17,84bは、窓系列情報に従って、窓関数を適用するように設けられる。図9は一般的な矩形窓を示す。窓系列情報は、窓がサンプルを隠す第1のゼロ部分、フレームのサンプル(すなわち、予測領域フレームまたは重複予測領域フレーム)が変更されないで通過する第2の通過部分、および、フレームの終端のサンプルを隠す第3のゼロ部分を含む。言い換えれば、適用される窓関数は、第1のゼロ部分において、フレームの始端のサンプル数を抑圧し、第2の通過部分において、サンプルを通過し、次に、第3のゼロ部分において、フレームの終端のサンプル数を抑圧する。この文脈において、抑圧は、窓の通過部分の始端、および/または、終端に、ゼロ系列を追加することを言及する。第2の通過部分は、窓関数が、単に、1の値を有するようなものである。すなわち、サンプルは、変更されないで通過する。すなわち、窓関数は、フレームのサンプルを通して切り替わる。
図10は窓系列または窓関数の別の実施形態を示す。窓系列は、さらに、第1のゼロ部分と第2の通過部分との間の立ち上がりエッジ部分、および、第2の通過部分と第3のゼロ部分との間の立ち下がりエッジ部分を含む。立ち上がりエッジ部分は、フェードイン部分であると見做すことができる。立ち下がりエッジ部分は、フェードアウト部分であると見做すことができる。本実施形態では、第2の通過部分は、LPC領域フレームのサンプルを全く変更しないための系列を含む。
言い換えれば、MDCTに基づいたTCXは、算術復号器から、多数の量子化されたスペクトル係数の数lgを要求する。TCXは、最後のモードのmod[]値およびlast_lpd_mode値によって決定される。これら2つの値は、逆MDCTで適用される窓の長さと形とを定義する。窓は、3つの部分、すなわち、L個のサンプルの左側重複部分、M個のサンプルの中央部分、および、R個のサンプルの右側重複部分で構成される。長さ2*lgのMDCT窓を得るために、ZLゼロが左側で加算され、ZRゼロが右側で加算される。
以下の表1は、いくつかの実施形態のためのlast_lpd_modeとmod[]の関数として、スペクトル係数の数lgを示す。
Figure 0005551692
MDCT窓は、以下の式によって与えられる。
Figure 0005551692
本実施形態は、MDCT、IDMCTのシステム符号化遅延が、それぞれ、元のMDCTと比較したとき、様々な窓関数の適用を通して小さくなる、という利点を提供する。この利点をより詳細に提供するために、図11は4つのグラフを示す。上から1番目のグラフは、MDCTと共に使用される従来の三角形窓関数に基づいた時間単位Tの中のシステム遅延を示す。上から2番目のグラフは、従来の三角形窓関数を示す。
ここで考えられるシステム遅延は、サンプルが復号器ステージに達するときに経験する遅延である。サンプルを符号化したり、送信したりするための遅延は存在しない、と仮定する。言い換えれば、図11に示したシステム遅延は、符号化が開始される前の、フレームのサンプルを蓄積することによって喚起した符号化遅延と考える。上で説明したように、時間単位Tでサンプルを復号するために、0と2Tの間のサンプルは、変換されなければならない。これは、別の時間単位TのTにおけるサンプルのシステム遅延をもたらす。しかしながら、このサンプルのすぐ後のサンプルは復号化され、2Tに中心を置く第2の窓の全てのサンプルは、利用可能でなければならない。したがって、システム遅延は、2Tに飛び、第2の窓の中心のTへ下がる。図11の上から3番目のグラフは、本実施形態で提供される窓関数の系列を示す。図11の上から2番目のグラフの従来の窓関数と比較すると、窓の非ゼロ部分の重複領域が、2Δtだけ減少していることが認められる。言い換えれば、本実施形態に使用される窓関数は、従来技術の窓関数と同じ幅であるが、しかし、予測できる第1のゼロ部分および第3のゼロ部分を有する。
言い換えれば、復号器は、第3のゼロ部分が存在し、それ故、復号化や符号化がそれぞれ、より早く開始されることを既に知る。したがって、システム遅延は、図11の下のグラフに示すように、2Δtだけ減少する。言い換えれば、復号器は、ゼロ部分に対して待つ必要がなく、2Δt節約できる。もちろん、復号手順の後に、全てのサンプルが同じシステム遅延を有さなければならないことは、明白である。図11のグラフは、サンプルが復号器に達するまでに経験するシステム遅延を論証する。言い換えれば、復号した後の全体のシステム遅延は、従来技術の窓関数の場合は2Tであり、本実施形態の窓関数の場合は2T−2Δtである。
以下で、FFTに替えて、MDCTがAMR−WB+符号器の中で使用される実施形態が考えられる。したがって、窓は図12に従って詳説される。窓は、左重複領域または立ち上がりエッジ部分として「L」を定義し、1の領域または第2の通過部分として「M」を定義し、右重複領域または立ち下がりエッジ部分として「R」を定義する。さらに、第1のゼロ部分および第3のゼロ部分が考慮される。そのほかに、フレーム内の完全再構成の領域「PR」が、矢印によって、図12の中に示される。さらに、矢印で示された変換コアの長さ「T」は、周波数領域のサンプルの数、すなわち、時間領域のサンプルの数の半分に対応する。変換コアの長さ「T」は、第1のゼロ部分、立ち上がりエッジ部分「L」、第2の通過部分「M」、立ち下がりエッジ部分「R」、および、第3のゼロ部分から成る。そのほかに、周波数サンプルの数は、MDCTを使用するとき、減少する。MDCTの変換符号器長さ(変換コアの長さ)

T=L/2+M+R/2

と比較すると、FFTまたは離散余弦変換(DCT)の周波数サンプルの数(変換コアの長さ)は、

T=L+M+R

である。
図13aの上部には、AMR−WB+の窓関数の系列の一例のグラフを示す。左から右に、ACELPフレーム、TCX20フレーム、TCX20フレーム、TCX40フレーム、TCX80フレーム、TCX20フレーム、TCX20フレーム、ACELPフレーム、および、ACELPフレームを示している。点線は、既に上で説明したように、無入力応答を示す。
図13aの下部には、様々な窓部分のパラメータ表が存在する。本実施形態において、TCXxフレームが別のTCXxフレームに続くとき、左重複部分または立ち上がりエッジ部分Lは、128である。ACELPフレームがTCXxフレームに続くとき、同様の窓が使用される。仮に、TCX20フレームまたはTCX40フレームがACELPフレームに続くならば、左重複部分Lは無視される。すなわち、L=0である。ACELPフレームからTCX80フレームに転移するとき、L=128の重複部分が使用される。図13aのグラフから、表において、基本原理は、フレーム内の完全再構成に対して十分な負荷(オーバーヘッド)が存在する限り、非臨界的抽出が維持されること、そして、批判的抽出への切り替えはできるだけ早いこと、であることが認められる。言い換えれば、ACELPフレームの後の最初のTCXフレームだけが、本実施形態で、非臨界的抽出された状態で残る。
図13aの下に示された表の中で、図19に示された従来のAMR−WB+の表との違いが強調される。強調されたパラメータは、本実施形態の利点を示す。重複部分は拡張され、その結果、相互フェード化がより円滑に実行され、窓の周波数応答が改良される。一方、臨界的抽出は維持される。
図13aの下の表から、ACELPフレームからTCXフレームへの転移に対してのみ、負荷(オーバーヘッド)が導入されることが認められる。すなわち、この転移T>PRに対してだけ、非臨界的抽出が達成される。TCXxフレームからTCXxフレームへの全ての転移に対して(「x」はどんなフレーム持続時間も示す)、変換コアの長さTは、新しい完全に再構成されたサンプルの数と等しい。すなわち、臨界的抽出が達成される。図13bは、AMR−WB+に基づいたMDCTを有する全ての可能な転移ごとの全ての窓のグラフ表示を有する表を示す。図13aの表の中で既に示したように、窓の左部分Lは、もはや前のTCXフレームの長さに依存しない。また、図14bのグラフ表示は、異なるTCXフレーム間を切り換えるとき、臨界的抽出が維持されることを示す。TCXフレームからACELPフレームへの転移に対して、128個のサンプルの負荷(オーバーヘッド)が生産されることが認められる。窓の左側が、前のTCXフレームの長さに依存しないので、図13bに示した表は、図14aに示されるように簡素化される。図14aは、再び、全ての可能な転移のための窓のグラフ表示を示す。TCXフレームからの転移は、1つの列に、まとめられる。
図14bは、ACELPフレームからTCX80フレームへの転移窓をさらに詳細に示す。図14bのグラフは、横軸がサンプル数を示し、縦軸が窓関数を示す。MDCTの入力を考えると、左ゼロ部分(第1のゼロ部分)は、サンプル1からサンプル512に達する。立ち上がりエッジ部分は、サンプル513とサンプル640との間である。第2の通過部分は、サンプル641とサンプル1664との間である。立ち下がりエッジ部分は、サンプル1665とサンプル1792との間である。第3のゼロ部分は、サンプル1793とサンプル2304との間である。MDCTの上の議論によれば、本実施形態では、2304個の時間領域サンプルが、1152個の周波数領域サンプルに変更される。上の記述に従って、現在の窓の時間領域折り返し雑音ゾーンは、サンプル513とサンプル640との間、すなわち、L=128のサンプルに広がる立ち上がりエッジ部分内にある。別の時間領域折り返し雑音ゾーンは、サンプル1665とサンプル1792との間、すなわち、R=128のサンプルの立ち下がりエッジ部分に広がる。第1のゼロ部分と第3のゼロ部分のため、完全再構成が、サイズM=1024のサンプル641とサンプル1664との間で成される、無折り返し雑音ゾーンが存在する。図14bにおいて、点線によって示されたACELPフレームは、サンプル640で終わる。様々な選択肢が、TCX80フレームの窓の立ち上がりエッジ部分のサンプル513〜640に関して生じる。1つの選択肢は、最初に、サンプルを捨てて、ACELPフレームで残ることである。別の選択肢は、TCX80フレームに対して時間領域折り返し雑音除去を実行するために、ACELP出力を使用することである。
図14cは、「TCXx」によって指示されたTCXフレームからTCX20フレームへの転移、および、TCX20フレームからTCXxフレームへ戻る転移を示す。図14b〜図14fは、図14bに関して既に説明したと同じグラフ表現を使用する。TCX20フレームの窓は、図14cのサンプル256を中央にして示されている。512個の時間領域サンプルは、MDCTによって、256個の周波数領域サンプルに変換される。時間領域サンプルは、第3のゼロ部分と同様に、第1のゼロ部分のために64個のサンプルを使用する。そのほかに、サイズM=128の無折り返し雑音ゾーンは、TCX20フレームの窓の中央の周囲に広がっている。サンプル65とサンプル192との間の左重複部分または立ち上がりエッジ部分は、時間領域折り返し雑音除去のために、点線によって示したように、前の窓の立ち下がりエッジ部分に組み合わされる。そのほかに、サイズPR=256の完全再構成の領域が生じる。全てのTCXフレームの窓の全ての立ち上がりエッジ部分は、L=128であり、全ての立ち下がりエッジ部分R=128に合致するので、後続のTCXフレームと同様に、前のTCXフレームはどんなサイズのものでもよい。ACELPフレームからTCX20フレームへ転移するとき、図14dに示されるように、異なる窓が使用される。図14dから認められるように、立ち上がりエッジ部分は、L=0、すなわち、矩形エッジになるように選択される。そのほかに、完全再構成の領域はPR=256である。そして、図14eは、ACELPフレームからTCX40フレームへ転移したときの同様のグラフを示す。別の例として、図14fは、TCXxフレームの窓から、TCX80フレームの窓を経由して、TCXxフレームの窓への転移を示す。
結論として、図14b〜図14fは、ACELPフレームからTCX20フレーム、TCX40フレーム、または、ACELPフレームへ転移する場合を除いて、MDCTの窓のための重複部分が、常に128個のサンプルであることを示す。
TCXフレームからACELPフレームへ転移するとき、または、ACELPフレームからTCX80フレームへ転移するとき、複数の選択肢が可能である。1つの実施形態では、MDCT TCXフレームから抽出された窓は、重複部分で捨てられる。別の実施形態では、窓化されたサンプルが、相互フェードのために使用され、さらに、重複部分の中で折り返し雑音化されたACELPフレームのサンプルに基づくMDCT TCXフレームのサンプルの中の時間領域折り返し雑音を除去するために使用される。さらに別の実施形態では、相互フェードが、時間領域折り返し雑音を除去することなく、実行される。ACELPフレームからTCXフレームへの転移では、無入力応答(ZIR、zero−input response)が、窓化のために符号器で取り除かれ、回復のために復号器で加えられる。図において、これは、ACELPフレームの窓に続いているTCXフレームの窓内の点線によって示される。本実施形態では、TCXフレームからTCXフレームへ転移するとき、窓化されたサンプルは、相互フェードのために使用される。
ACELPフレームからTCX80フレームへ転移するとき、フレームの長さは、より長くなり、ACELPフレームと重複される。時間領域折り返し雑音除去方法も使用される。
ACELPフレームからTCX80フレームへ転移するとき、前のACELPフレームは、リンギング(波打ち波形)を導入する。リンギングは、LPCフィルタリングの使用による、前のフレームから生じる誤差拡大として認識される。TCX40フレームおよびTCX20フレームのために使用されるZIR方法は、リンギングを説明する。本実施形態におけるTCX80フレームのための変形は、1088個の変換長さを有する、すなわち、ACELPフレームと重複しないZIR方法を使用することである。別の実施形態では、図15に示されたと同じ1152個の変換長さが維持され、ZIR方法が利用される直前に重複領域のゼロ化をする。図15は、重複領域のゼロ化およびZIR方法の使用を有する、CELPフレームからTCX80フレームへの転移を示す。ZIR部分は、ACELPフレームの窓の後端に続いて、点線によって再び示される。
まとめると、本実施形態は、TCXフレームが先行するとき、全てのTCXフレームに対して臨界的抽出が実行される、という利点を提供する。従来の取り組みと比べて、1/8の負荷(オーバーヘッド)の減少が達成される。さらに、本実施形態は、連続フレームの間の転移領域または重複領域が、常に128個のサンプルである、すなわち、従来のAMR−WB+の場合より長い、という利点を提供する。改良された重複領域は、改良された周波数応答と、より円滑な相互フェードと、を提供する。そのほかに、より良い信号品質が、符号化過程および復号化過程の全体で達成される。
本発明に係る方法の特定の実施要求に依存して、本発明に係る方法は、ハードウェアまたはソフトウェアの中で実現される。実現は、電磁気的に読み込み可能な制御信号を有するデジタル記憶媒体、特に、ディスク、DVD、フラッシュメモリ、CDで成される。デジタル記憶媒体は、発明の方法が実行されるように、プログラム可能コンピュータシステムと協働する。したがって、一般に、本発明は、コンピュータプログラム製品がコンピュータ上で稼動するとき、発明の方法を実行するために操作されるプログラム符号を、機械読取可能な担持体に保存されたプログラム符号を有するコンピュータプログラム製品である。言い換えれば、本発明の方法は、コンピュータプログラムがコンピュータ上で稼動するとき、発明の方法を少なくとも1つ実行するためのプログラム符号を有しているコンピュータプログラムである。

Claims (21)

  1. 抽出された音声信号のフレームを符号化して、最終的な符号化されたフレームを得るための音声符号器(10)であって、抽出された音声信号のフレームは複数の時間領域音声サンプルを含み、
    音声サンプルのフレームに基づいて、合成フィルタの係数情報と予測領域フレームとを決定するための予測符号化分析ステ−ジ(12)と、
    重複している前記予測領域フレームを周波数領域に変換して、予測領域フレームスペクトルを得るための時間領域折り返し雑音導入変換器(14)と、
    前記予測領域フレームスペクトルを符号化して、前記合成フィルタの係数情報と符号化された予測領域フレームスペクトルとに基づいて、符号化されたフレームを得るための冗長減少符号器(16)と、
    予め決められた符号表に基づいて、前記予測領域フレームを符号化して、符号表符号化された予測領域フレームを得るための符号表符号器(13)と、
    前記符号表符号化された予測領域フレーム、もしくは、前記符号化されたフレームのいずれか一方の使用を決定し、符号化効率測度に基づいて、前記最終的な符号化されたフレームを得るための決定器(15)と、を備え、
    前記時間領域折り返し雑音導入変換器(14)は、臨界的抽出方法で、重複している前記予測領域フレームを周波数領域に変換するように設けられていること、
    を特徴とする、音声符号器。
  2. 前記予測領域フレームは、前記合成フィルタのための入力信号のサンプルを含んでいる励振フレームに基づいていること、を特徴とする、請求項1に記載の音声符号器。
  3. 前記時間領域折り返し雑音導入変換器(14)は、重複している前記予測領域フレームを変換するように設けられ、その結果、前記予測領域フレームスペクトルの平均サンプル数が、前記予測領域フレームの平均サンプル数と等しいこと、を特徴とする、請求項1または請求項2に記載の音声符号器。
  4. 前記時間領域折り返し雑音導入変換器(14)は、変更離散余弦変換(MDCT)に従って、重複している前記予測領域フレームを変換するように設けられていること、を特徴とする、請求項1〜請求項3のいずれかに記載の音声符号器。
  5. 前記時間領域折り返し雑音導入変換器(14)は、窓関数を、重複している前記予測領域フレームに適用するための窓フィルタ(17)と、窓化された重複している前記予測領域フレームを、前記予測領域フレームスペクトルに変換するための変換器(18)と、を備えていること、を特徴とする、請求項1〜請求項4のいずれかに記載の音声符号器。
  6. 前記時間領域折り返し雑音導入変換器(14)は、事象を検出して、仮に、事象が検出されるならば、窓系列情報を前記窓フィルタ(17)に提供するための処理装置(19)を備え、前記窓フィルタ(17)は、前記窓系列情報に従って、前記窓関数を適用するように設けられていること、を特徴とする、請求項5に記載の音声符号器。
  7. 前記窓系列情報は、第1のゼロ部分、第2の通過部分、および、第3のゼロ部分を含むこと、を特徴とする、請求項6に記載の音声符号器。
  8. 前記窓系列情報は、前記第1のゼロ部分と前記第2の通過部分との間に立ち上がりエッジ部分、および、前記第2の通過部分と前記第3のゼロ部分との間に立ち下がりエッジ部分を含むこと、を特徴とする、請求項7に記載の音声符号器。
  9. 前記第2の通過部分は、前記予測領域フレームスペクトルのサンプルを変更しないための窓系列を含むこと、を特徴とする、請求項8に記載の音声符号器。
  10. 前記予測符号化分析ステ−ジ(12)は、線形予測符号化(LPC)に基づいて、前記合成フィルタの係数情報を決定するように設けられていること、を特徴とする、請求項1〜請求項9のいずれかに記載の音声符号器。
  11. 前記決定器(15)に接続された、前記符号化効率測度に基づいて、前記時間領域折り返し雑音導入変換器(14)と前記符号表符号器(13)との間の前記予測領域フレームを切り換えるためのスイッチ(20)をさらに備えたこと、を特徴とする、請求項1に記載の音声符号器。
  12. 抽出された音声信号のフレームを符号化して、最終的な符号化されたフレームを得るための音声符号化方法であって、抽出された音声信号のフレームは複数の時間領域音声サンプルを含み、
    音声サンプルのフレームに基づいて、合成フィルタの係数情報を決定するステップと、
    音声サンプルのフレームに基づいて、予測領域フレームを決定するステップと、
    重複している前記予測領域フレームを周波数領域に変換して、時間領域折り返し雑音を導入している臨界的抽出方法で、予測領域フレームスペクトルを得るステップと、
    前記予測領域フレームスペクトルを符号化して、前記合成フィルタの係数情報と符号化された前記予測領域フレームスペクトルとに基づいて、符号化されたフレームを得るステップと、
    予め決められた符号表に基づいて、前記予測領域フレームを符号化して、符号表符号化された予測領域フレームを得るステップと、
    前記符号表符号化された予測領域フレーム、もしくは、前記符号化されたフレームのいずれか一方の使用を決定し、符号化効率測度に基づいて、前記最終的な符号化されたフレームを得るステップと、
    を備えていること、を特徴とする、音声符号化方法。
  13. プログラムがコンピュータ上で実行されると、前記コンピュータが請求項12に記載の音声符号化方法を実行する、コンピュータプログラム
  14. 符号化されたフレームを復号化して、抽出された音声信号の複数のフレームを得るための音声復号器(80)であって、抽出された音声信号の複数のフレームは、複数の時間領域音声サンプルを含み、
    前記符号化されたフレームを復号化して、合成フィルタの係数情報と予測領域フレームスペクトルとを得るための冗長検索復号器(82)と、
    前記予測領域フレームスペクトルを時間領域に変換して、重複している予測領域フレームを得るための逆時間領域折り返し雑音導入変換器(84)と、
    重複している前記予測領域フレームを組み合わせて、臨界的抽出方法で、予測領域フレームを得るための重複/加算結合器(86)と、
    前記合成フィルタの係数情報と前記予測領域フレームとに基づいて、前記抽出された音声信号のフレームを決定するための予測合成ステージ(88)と、を備え、
    前記逆時間領域折り返し雑音導入変換器(84)は、連続する前記予測領域フレームスペクトルから、前記重複している予測領域フレームを決定するように設けられ、かつ、
    前記逆時間領域折り返し雑音導入変換器(84)は、前記予測領域フレームスペクトルを、変換された重複している予測領域フレームに変換するための変換器(84a)と、窓関数を、前記変換された重複している予測領域フレームに適用して、前記重複している予測領域フレームを得るための窓フィルタ(84b)と、事象を検出して、仮に、事象が検出されるならば、窓系列情報を前記窓フィルタ(84b)に提供するための処理装置(84c)と、を備え、
    前記窓フィルタ(84b)は、前記窓系列情報に従って、前記窓関数を適用するように設けられ、前記窓系列情報は、第1のゼロ部分、第2の通過部分、および、第3のゼロ部分を含むこと、
    を特徴とする、音声復号器。
  15. 重複/加算結合器(86)は、前記重複している予測領域フレームを組み合わせるように設けられ、その結果、前記予測領域フレームの平均サンプル数が、前記予測領域スペクトルの平均サンプル数と等しいこと、を特徴とする、請求項14に記載の音声復号器。
  16. 前記逆時間領域折り返し雑音導入変換器(84)は、逆変更離散余弦変換(IMDCT)に従って、前記予測領域フレームスペクトルを時間領域に変換するように設けられていること、を特徴とする、請求項14または請求項15に記載の音声復号器。
  17. 前記予測合成ステージ(88)は、線形予測符号化(LPC)に基づいて、抽出された音声サンプルのフレームを決定するように設けられていること、を特徴とする、請求項14〜請求項16のいずれかに記載の音声復号器。
  18. 前記窓系列情報は、前記第1のゼロ部分と前記第2の通過部分との間に立ち上がりエッジ部分、および、前記第2の通過部分と前記第3のゼロ部分との間に立ち下がりエッジ部分を含むこと、を特徴とする、請求項17に記載の音声復号器。
  19. 前記第2の通過部分は、前記予測領域フレームのサンプルを変更するための窓系列を含むこと、を特徴とする、請求項18に記載の音声復号器。
  20. 符号化されたフレームを復号化して、抽出された音声信号の複数のフレームを得るための音声復号化方法であって、抽出された音声信号の複数のフレームは、複数の時間領域音声サンプルを含み、
    前記符号化されたフレームを復号化して、合成フィルタの係数情報と予測領域フレームスペクトルとを得るステップと、
    前記予測領域フレームスペクトルを時間領域に変換して、連続する前記予測領域フレームスペクトルから、重複している予測領域フレームを得るステップと、
    重複している前記予測領域フレームを組み合わせて、臨界的抽出方法で、予測領域フレームを得るステップと、
    前記合成フィルタの係数情報と前記予測領域フレームとに基づいて、前記抽出された音声信号のフレームを決定するステップと、を備え、
    前記予測領域フレームスペクトルを時間領域に変換して、連続する前記予測領域フレームスペクトルから、重複している予測領域フレームを得るステップは、前記予測領域フレームスペクトルを、変換された重複している予測領域フレームに変換するステップと、
    窓フィルタ(84b)によって、窓関数を前記変換された重複している予測領域フレームに適用して、前記重複している予測領域フレームを得るステップと、事象を検出して、仮に、事象が検出されるならば、窓系列情報を前記窓フィルタ(84b)に提供するステップと、を備え、
    前記窓フィルタ(84b)は、前記窓系列情報に従って、前記窓関数を適用するように設けられ、前記窓系列情報は、第1のゼロ部分、第2の通過部分、および、第3のゼロ部分を含むこと、
    を特徴とする、音声復号化方法。
  21. プログラムがコンピュータ上で実行されると、前記コンピュータが請求項20に記載の音声復号化方法を実行する、コンピュータプログラム
JP2011516978A 2008-07-11 2009-06-04 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム Active JP5551692B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US7986208P 2008-07-11 2008-07-11
US61/079,862 2008-07-11
US10382508P 2008-10-08 2008-10-08
EP08017661.3 2008-10-08
EP08017661.3A EP2144171B1 (en) 2008-07-11 2008-10-08 Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
US61/103,825 2008-10-08
PCT/EP2009/004015 WO2010003491A1 (en) 2008-07-11 2009-06-04 Audio encoder and decoder for encoding and decoding frames of sampled audio signal

Publications (2)

Publication Number Publication Date
JP2011527444A JP2011527444A (ja) 2011-10-27
JP5551692B2 true JP5551692B2 (ja) 2014-07-16

Family

ID=40351582

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011516978A Active JP5551692B2 (ja) 2008-07-11 2009-06-04 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム

Country Status (10)

Country Link
EP (1) EP2144171B1 (ja)
JP (1) JP5551692B2 (ja)
KR (1) KR101516468B1 (ja)
CN (1) CN102089758B (ja)
AU (1) AU2009267555A1 (ja)
BR (1) BRPI0910527B1 (ja)
CA (1) CA2730195C (ja)
ES (1) ES2683077T3 (ja)
RU (1) RU2507572C2 (ja)
WO (1) WO2010003491A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
EP2446539B1 (en) 2009-06-23 2018-04-11 Voiceage Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
EP2524374B1 (en) 2010-01-13 2018-10-31 Voiceage Corporation Audio decoding with forward time-domain aliasing cancellation using linear-predictive filtering
MY160265A (en) 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Apparatus and Method for Encoding and Decoding an Audio Signal Using an Aligned Look-Ahead Portion
PT2676270T (pt) 2011-02-14 2017-05-02 Fraunhofer Ges Forschung Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade
BR112013020324B8 (pt) 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
PT3239978T (pt) 2011-02-14 2019-04-02 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
AR085794A1 (es) * 2011-02-14 2013-10-30 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral
JP5969513B2 (ja) 2011-02-14 2016-08-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 不活性相の間のノイズ合成を用いるオーディオコーデック
KR101424372B1 (ko) 2011-02-14 2014-08-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 랩핑 변환을 이용한 정보 신호 표현
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
FR2972875A1 (fr) 2011-03-17 2012-09-21 France Telecom Procede et dispositif de filtrage lors d'un changement de filtre arma
MX2013012301A (es) * 2011-04-21 2013-12-06 Samsung Electronics Co Ltd Aparato para cuantificar coeficientes de codificacion predictiva lineal, aparato de codificacion de sonido, aparato para decuantificar coeficientes de codificacion predictiva lineal, aparato de decodificacion de sonido y dispositivo electronico para los mismos.
WO2012144878A2 (en) 2011-04-21 2012-10-26 Samsung Electronics Co., Ltd. Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
US9037456B2 (en) 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
CN104718572B (zh) * 2012-06-04 2018-07-31 三星电子株式会社 音频编码方法和装置、音频解码方法和装置及采用该方法和装置的多媒体装置
CN109448745B (zh) * 2013-01-07 2021-09-07 中兴通讯股份有限公司 一种编码模式切换方法和装置、解码模式切换方法和装置
MX347080B (es) * 2013-01-29 2017-04-11 Fraunhofer Ges Forschung Llenado con ruido sin informacion secundaria para celp (para codificadores tipo celp).
CN105378835B (zh) 2013-02-20 2019-10-01 弗劳恩霍夫应用研究促进协会 使用依赖瞬态位置的重叠对音频信号编码或译码的设备及方法
JP6026678B2 (ja) * 2013-04-05 2016-11-16 ドルビー ラボラトリーズ ライセンシング コーポレイション 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
ES2688134T3 (es) 2013-04-05 2018-10-31 Dolby International Ab Codificador y decodificador de audio para codificación de forma de onda intercalada
CA2916150C (en) 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
KR102244613B1 (ko) * 2013-10-28 2021-04-26 삼성전자주식회사 Qmf 필터링 방법 및 이를 수행하는 장치
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
CN104111374B (zh) * 2014-07-09 2017-01-04 西安交通大学 一种基于mdct系数进行正弦频率估计的方法
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
EP3067889A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for signal-adaptive transform kernel switching in audio coding
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
PL3405949T3 (pl) 2016-01-22 2020-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób szacowania międzykanałowej różnicy czasowej
EP3276620A1 (en) * 2016-07-29 2018-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3644313A1 (en) * 2018-10-26 2020-04-29 Fraunhofer Gesellschaft zur Förderung der Angewand Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and time domain aliasing reduction
CN117476017A (zh) * 2022-07-27 2024-01-30 华为技术有限公司 音频编解码方法、装置、存储介质及计算机程序产品

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
RU2256293C2 (ru) * 1997-06-10 2005-07-10 Коудинг Технолоджиз Аб Усовершенствование исходного кодирования с использованием дублирования спектральной полосы
US20020040299A1 (en) * 2000-07-31 2002-04-04 Kenichi Makino Apparatus and method for performing orthogonal transform, apparatus and method for performing inverse orthogonal transform, apparatus and method for performing transform encoding, and apparatus and method for encoding data
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
MXPA06012578A (es) * 2004-05-17 2006-12-15 Nokia Corp Codificacion de audio con distintos modelos de codificacion.
RU2312405C2 (ru) * 2005-09-13 2007-12-10 Михаил Николаевич Гусев Способ осуществления машинной оценки качества звуковых сигналов
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
CN101589623B (zh) * 2006-12-12 2013-03-13 弗劳恩霍夫应用研究促进协会 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法

Also Published As

Publication number Publication date
KR20110043592A (ko) 2011-04-27
BRPI0910527B1 (pt) 2019-11-05
RU2011102422A (ru) 2012-07-27
JP2011527444A (ja) 2011-10-27
CA2730195C (en) 2014-09-09
BRPI0910527A2 (pt) 2016-07-26
WO2010003491A1 (en) 2010-01-14
AU2009267555A1 (en) 2010-01-14
CA2730195A1 (en) 2010-01-14
EP2144171B1 (en) 2018-05-16
CN102089758B (zh) 2014-02-12
EP2144171A1 (en) 2010-01-13
RU2507572C2 (ru) 2014-02-20
KR101516468B1 (ko) 2015-05-04
CN102089758A (zh) 2011-06-08
ES2683077T3 (es) 2018-09-24

Similar Documents

Publication Publication Date Title
JP5551692B2 (ja) 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム
JP5551695B2 (ja) 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム
TWI453731B (zh) 音訊編碼器與解碼器、用於編碼已取樣音訊信號之訊框及用於解碼已編碼訊框之方法、及電腦程式產品
TWI463486B (zh) 音訊編碼器/解碼器、音訊編碼/解碼方法、電腦程式產品及電腦可讀儲存媒體
JP6262668B2 (ja) 帯域幅拡張パラメータ生成装置、符号化装置、復号装置、帯域幅拡張パラメータ生成方法、符号化方法、および、復号方法
AU2013200679B2 (en) Audio encoder and decoder for encoding and decoding audio samples
EP3002751A1 (en) Audio encoder and decoder for encoding and decoding audio samples

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121218

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130312

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140522

R150 Certificate of patent or registration of utility model

Ref document number: 5551692

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250