JP2006513457A - 音声を可変レートで符号化および復号する方法 - Google Patents

音声を可変レートで符号化および復号する方法 Download PDF

Info

Publication number
JP2006513457A
JP2006513457A JP2004567790A JP2004567790A JP2006513457A JP 2006513457 A JP2006513457 A JP 2006513457A JP 2004567790 A JP2004567790 A JP 2004567790A JP 2004567790 A JP2004567790 A JP 2004567790A JP 2006513457 A JP2006513457 A JP 2006513457A
Authority
JP
Japan
Prior art keywords
subgroup
parameters
bits
signal
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004567790A
Other languages
English (en)
Other versions
JP2006513457A5 (ja
JP4390208B2 (ja
Inventor
バラ コヴァシ、
ドミニク マサル、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of JP2006513457A publication Critical patent/JP2006513457A/ja
Publication of JP2006513457A5 publication Critical patent/JP2006513457A5/ja
Application granted granted Critical
Publication of JP4390208B2 publication Critical patent/JP4390208B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Abstract

符号化のための最大Nmax個のビットが、信号フレームから計算されるパラメータ群に対して規定される。第1のサブ群に対するパラメータは計算され、N0<NmaxであるN0個のビットで符号化される。第2のサブ群のパラメータのためのNmax−N0の符号化ビットの割当てが決定され、第2のサブ群に対するパラメータに割当られた符号化ビットが分類される。符号化ビットの割当ておよび/または分類の順序は、第1のサブ群に関する符号化パラメータの関数として決定される。全パラメータ(N0<N=Nmax)の符号化のためのN個の利用可能なビットの総数に対し、上記順序で最初に分類されたN−N0個の符号化ビットが割当られた第2のサブ群に関するパラメータが選択される。上記選択されたパラメータは、N−N0個のビットが得られるように計算および符号化される。最後に、第1のサブ群に対するN0個の符号化ビットおよび第2のサブ群に対する選択されたパラメータに対するN−N0個の符号化ビットが、符号化器の出力シーケンス中に入れられる。

Description

本発明は、特に、デジタル化され、かつ圧縮された音声信号(スピーチおよび/またはサウンド)の送信または格納の用途に用いられることを目的とした、音声信号を符号化および復号する装置に関する。
特に、本発明は、マルチレート符号化装置とも呼ばれる、可変ビットレートを提供することができる音声符号化装置に関する。このような方式は、符号化のビットレート、おそらくは処理中のビットレートを変えることができることによって、固定レート符号化器とは区別され、これは、異種のアクセスネットワーク、すなわちIPタイプ混合固定型モバイルアクセス、高ビットレート(ADLS)、低ビットレート(RTC、GPESモデム)、または可変性能を有する端末(モバイル、PCなど)を持つネットワークによる通信に特に適している。
本質的には、2つのカテゴリに属するマルチレート符号化器、すなわち「切替可能」マルチレート符号化器のカテゴリと「階層的」符号化器のカテゴリが区別される。
「切替可能」マルチレート符号化器は、ビットレートの表示が、符号化器および復号器に同時与えられる技術的ファミリ(時間的符号化または周波数符号化、例えば、CELP、正弦、または変換によるもの)に属する符号化アーキテクチャに依存している。符号化器は、この情報を用いて、アルゴリズムの部分と、選択されたビットレートに関連するテーブルとを選択する。復号器は、それの対称に動作する。音声符号化について多くの切替可能なマルチレート符号化構造が提案されている。そのような符号化の例として、例えば、3GPP機構(「第3世代パートナーシッププロジェクト」)、電話帯域でのNB−AMR(「狭帯域アダプティブマルチレート」、技術仕様3GPP TS 26.090、バージョン5.0.0、2002年6月)、または、広帯域でのWB−AMR(「広帯域アダプティブマルチレート」、技術仕様3GPP TS 26.190、バージョン5.1.0、2001年12月)によって標準化されたモバイル符号化器がある。これらの符号化器は、かなり高精度(granularity)(NB−AMRの場合8ビットレートおよびWB−AMRの場合9ビットレート)で、かなり広範囲のビットレート(WB−AMRの場合4.75から12.2kbit/s、WB−AMRの場合6.60から23.85kbit/s)にわたって動作する。しかし、この柔軟性に支払われる代償として相当複雑な構造が必要である。すなわち、これらのビットレート全てをホスト可能とするために、これらの符号化器は、多くの異なるオプション、異なる量子化テーブルなどをサポートしなければならない。その性能曲線は、ビットレートと共に徐々に増大するが、その増大の度合いは非線形であり、特定のビットレートは、他のものよりも本質的に良好に最適化される。
「スケーラブル」とも呼ばれるいわゆる「階層的」符号化装置では、符号化動作から生じるバイナリデータは、連続した層中に分布する。「カーネル」とも呼ばれるベース層は、バイナリ列の復号に絶対的に必要であり、かつ最低の復号品質を決定する、バイナリエレメントで構成される。
後続する層は、復号動作から生じる信号の品質を徐々に向上させることができ、新しい各層は、復号器によって用いられ、良好な品質の信号を出力に与える新しい情報をもたらす。
階層的符号化の特徴の1つは、いかなる特定の表示を符号化器または復号器に与える必要なしにバイナリ列の一部を削除するために送信または格納チェーンがいかなるものであってもその任意のレベルでの介入の可能性である。復号器は、自身が受信したバイナリ情報を用いて然るべき品質の信号を生成する。
階層的符号化構造の分野も、同様に多くの働きをしてきた。特定の階層的符号化構造は、階層化された符号化情報を送信するように設計されている、1つの種類の符号化器のみに基づいて動作する。他の層が、帯域幅を変更することなく出力信号の品質を向上させると、むしろ「埋め込み型符号化器」(例えば、R.D.Lacovoら、「Embedded CELP Coding for Variable Bit−Rate Between 6.4 and 9.6 kbit/s、Proc.ICASSP 1991、pp.681から685を参照されたい」)の話になる。しかし、この種の符号化器は、提案された最低ビットレートと最高ビットレートとの間の大きなギャップを許さない。
階層は、信号の帯域幅を徐々に増すためにしばしば用いられる。すなわちカーネルは、ベースバンド信号、例えば、電話用のもの(300から3400Hz)を供給し、後続する層は、追加の周波数帯域(例えば、最大7kHzまでの広帯域、最大20kHzのHiFi帯域または中間帯域等)の符号化を可能にする。サブバンド符号化器または、J.P.Princenら著「Subband/transform coding using filter banks designs based on time domain aliasing cancellation」、(Proc.IEEE ICASSP−87、pp.2161から2164)およびY.Mahieuxら著「High Quality Audio Transform Coding at 64kbit/s」、(IEEE Trans. Commun.、Vol.42、No.11、1994年11月、pp.3010から3019)などの文献に記載された時間/周波数変換を用いた符号化器は特にそのような動作に適している。
また、異なった符号化技術が、カーネルおよび追加の層の1つまたは複数のモジュールにしばしば用いられ、各段階がサブ符号化器からなる様々な符号化段階が挙げられる。所与のレベルの段階のサブ符号化器は、以前の段階で符号化されていない信号の符号部分を符号化するか、または前段階で符号化されていない信号(coding resisual)を符号化でき、この符号化されていない信号は復号信号を原信号から差し引いて得られる。
このような構造の利点は、それらが高ビットレートで高品質を生成しつつ、十分な品質を持つ比較的低ビットレートの信号も生成できることである。具体的には、低ビットレートに用いられる技術は一般的には高ビットレートでは有効ではなく、またその逆も言える。
2つの異なる技術(例えば、CELPおよび時間/周波数変換)を用いることが可能なこのような構造は、広範囲のビットレートを掃引するのに特に有効である。
しかし、従来技術において提案されている階層的符号化構造は、各中間層に割当てられているビットレートを厳密に規定している。各層は特定のパラメータの符号化に対応し、階層的バイナリ列の精度(granularity)はこれらのパラメータに割当られたビットレートに依存する(通常1つの層は、フレーム当り数十ビットのオーダー、所与の時間にわたる信号の特定数のサンプルからなる信号フレームを含むことができ、後述する例では、60msの信号に対応する960個のサンプルのフレームを考えている)。
さらに、復号された信号の帯域幅がバイナリエレメントの層のレベルに応じて変わることができる場合、ラインビットレートを変更すると、聴取(listening)を妨げる人為的な間違いの結果(artifacts)が生じることがある。
本発明は、特に、既存の階層的および切替可能符号化を使用する場合に生じる上述した欠点を軽減するマルチレート符号化の解決策を提案することを目的としている。
したがって、本発明は、符号化ビットの最大数Nmaxが、デジタル音声信号フレームにしたがって計算できるパラメータ群について定められ、パラメータ群は第1のサブ群と第2のサブ群から構成される、デジタル音声信号フレームをバイナリの出力シーケンスとして符号化する方法を提案する。この提案された方法は以下のステップ、すなわち、
第1のサブ群のパラメータを計算し、これらのパラメータをN0<Nmaxとなるような符号化ビットの数N0だけ符号化するステップと、
第2のサブ群のパラメータに対するNmax−N0個の符号化ビットの割当を決定するステップと、
第2のサブ群のパラメータに割当られたNmax−N0個の符号化ビットを定められた順序でランク付けするステップと、
を含む。
Nmax−N0個の符号化ビットの割当および/またはランク付けの順序が第1のサブ群の符号化パラメータの関数として決定される。本符号化方法は、パラメータ群の符号化のために使用可能なバイナリの出力シーケンスの、N0<N<Nmaxである、ビット値Nを示すことに応答して、さらに、以下のステップ、すなわち、
前記順序において1番目にランク付けされたN−N0個の符号化ビットが割当られた第2のサブ群のパラメータを選択するステップと、
第2のサブ群の前記選択されたパラメータを計算し、1番目にランク付けされたN−N0個の符号化ビットを生成するようにこれらのパラメータを符号化するステップと、
第1のサブ群のN0個の符号化ビットと第2のサブ群の選択されたパラメータのN−N0個の符号化ビットを前記出力シーケンスに挿入するステップと、
を有する。
本発明による方法によって、少なくとも、各フレームについてN0からNmaxの範囲のビット数に対応する範囲において動作するマルチレート符号化を規定することが可能となる。
したがって、既存の階層的かつ切替可能な符号化に関連する予め定められたビットレートの考えが、「カーソル」の考えに取って代わられ、これにより、ビットレートを(N0よりも小さいビット数Nに対応するであろう)最小値と(Nmaxに対応する)最大値との間で自由に変更することが可能になると考えられる。これらの極値は、大きく離れている可能性がある。本方法は、選択されたビットレートに関係なく、符号化の効率の点で良好な性能をもたらす。
バイナリの出力シーケンスのビット数Nは、厳密にはNmaxよりも小さいのが有利である。よって、この符号化器について注目に値する点は、用いられるビット割当が符号化器の実際の出力ビットレートではなく、復号器に一致する別の数Nmaxを参照する点である。
しかし、送信チャンネル上で利用可能な瞬間的なビットレートの関数としてNmax=Nを固定することも可能である。このような切替可能なマルチレート符号化器の出力シーケンスは、シーケンス全体受信しない復号器によって、該復号器が、第2のサブ群の符号化ビットの構造をNmax知ることによって取り出すこができる限り、処理してもよい。
N=Nmaxにすることが可能な他の場合は、音声データを最大符号化速度で格納する場合である。より低いビットレートで格納されたこの内容のN’個のビットを読み出す場合、復号器は、N’?N0である限り、第2のサブ群の符号化ビットの構造を取り出すことができるであろう。
第2のサブ群のパラメータに割当られた符号化ビットのランク付けの順序は、予め定められた順序であってもよい。
好適な実施態様において、第2のサブ群のパラメータに割当られた符号化ビットのランク付けの順序は可変である。特に、この順序は、第1のサブ群の少なくとも、符号化されたパラメータの関数として決定された重要性の降順であってもよい。したがって、当該フレームについて、N0?N'?N?NmaxであるN’個のビットのバイナリシーケンスを受信する復号器は、第1のサブ群の符号化のために受信されたN0個のビットからこの順序を差し引くことができる。
Nmax−N0個のビットの第2のサブ群のパラメータの符号化への割当は、固定して行ってもよい(この場合、これらのビットのランク付けの順序は、第1のサブ群の少なくとも、符号化されたパラメータに依存する)。
好適な実施態様において、Nmax−N0個のビットの、第2のサブ群のパラメータの符号化への割当は、第1のサブ群の符号化されたパラメータの関数である。
第2のサブ群のパラメータに割当られた符号化ビットのランク付けのこの順序は、第1のサブ群の符号化されたパラメータの関数としての少なくとも1つの心理音響的規準(psychoacoustic criterion)の助けによって決定されるのが有利である。
第2のサブ群のパラメータは信号のスペクトル帯域に関連している。この場合、本方法は、第1のサブ群の符号化されたパラメータに基づいて符号化された信号のスペクトルエンベロップを推定するステップと、上記推定されたスペクトルエンベロップに聴覚モデル(auditory perception model)を適用することによって周波数マスキング曲線を計算するステップとを有利に含み、上記心理音響的規準は、スペクトル帯域中のマスキング曲線について、推定されたスペクトルエンベロップのレベルを参照する。
実施態様において、符号化ビットは、第1のサブ群のN0個の符号化ビットが第2のサブ群の選択されたパラメータのN−N0個の符号化ビットに先行し、かつ第2のサブ群の選択されたパラメータの各符号化ビットがその中に上記符号化ビットについて決定された順序で現れるように、出力シーケンス中での順序付け行われる。これによって、バイナリシーケンスが切取られた場合に、最も重要な部分を受信することが可能となる。
数Nは、特に、例えば送信リソースの利用可能な容量の関数としてフレーム毎に異なっていてもよい。
本発明によるマルチレート音声符号化は、N0とNmaxの範囲で自由に選択された送信されるビットの数を任意の瞬間で、すなわち、フレーム毎に選択できるため、非常に柔軟な階層的または切替可能なモードによって用いてもよい。
第1のサブ群のパラメータの符号化は可変ビットレートで行ってもよく、これにより数N0がフレーム毎に異なる。これによって、ビットの分布を、符号化されるフレームの関数として最良に調節することが可能となる。
実施態様において、第1のサブ群は、符号化器カーネルによって計算されたパラメータを含む。符号化器カーネルは符号化される信号の帯域幅よりも低い動作周波数帯域を有し、第1のサブ群は符号化器カーネルの動作帯域よりも高い周波数帯域に関連するエネルギーレベルの音声信号をさらに含むのが有利である。この種類の構造は、十分と思われる品質の符号化された信号を、例えば符号化器カーネルを介して送信し、また、符号化器カーネルによって行われる符号化を、利用可能なビットレートの関数として、本発明による符号化方法から生じる他の情報で補足する、2つの階層を有する階層的符号化器の構造である。
第1のサブ群の符号化ビットは次に、符号化器カーネルによって計算されたパラメータの符号化ビットの直後に、より高い周波数帯域に関連するエネルギーレベルの符号化ビットが来るように、出力シーケンス中で順序付けされるのが好ましい。これによって、復号器が、符号化器カーネルの情報と、より高い周波数帯域に関連付する符号化されたエネルギーレベルとを有するのに十分なビットを受信する限り、連続的に符号されたフレームに対する同一の帯域幅が保証される。
実施態様において、符号化される信号と符号化器カーネルによって生成された、符号化されたパラメータから導出された合成信号との間の差分信号が推定され、第1のサブ群は、符号化器カーネルの動作帯域中に含まれる周波数帯域に関連付する差分信号のエネルギーレベルをさらに含む。
本発明の第2の態様は、本発明の符号化方法によって符号化されたフレームの復号に対応するデジタルの音声信号を合成するようにバイナリの入力シーケンスを復号する方法に関する。この方法によれば、符号化ビットの最大数Nmaxが信号フレームを記述するためのパラメータ群について規定され、パラメータ群は第1のサブ群と第2のサブ群で構成される。バイナリの入力シーケンスは、1つの信号フレームあたり、前記パラメータ群につき、N’?NmaxであるN’個の符号化ビットを含む。本発明による復号方法は次のステップ、すなわち、
N0<N’の場合、入力シーケンスのN’個のビットから、第1のサブ群のパラメータの符号化ビットの数N0を抽出するステップと、
抽出されたN0個の符号化ビットに基づいて、第1のサブ群のパラメータを回復するステップと、
第2のサブ群のパラメータ対するNmax−N0個の符号化ビットの割当を決定するステップと、
第2のサブ群のパラメータに割当られたNmax−N0個の符号化ビットを決定された順序でランク付けするステップと、
を含む。
割当および/またはNmax−N0個の符号化ビットのランク付けの順序は、第1のサブ群の回復されたパラメータの関数として決定される。本復号方法はさらに以下のステップ、すなわち、
前記順序において第1にランク付けられたN’−N0個の符号化ビットが割当られた第2のサブ群のパラメータを選択するステップと、
入力シーケンスの前記N’個のビットから、第2のサブ群の選択されたパラメータのN’−N0個の符号化ビットを抽出するステップと、
抽出されたN’−N0個の符号化ビットに基づいて、第2のサブ群の選択されたパラメータを回復するステップと、
第1のサブ群と第2のサブ群の回復されたパラメータを用いることによって、信号フレームを合成するステップと、
を含む。
この復号方法は、符号化器によって事実上あるいは他の方法で生成されたNmax個のビットのシーケンスの切取りのために欠落しているパラメータを再生する手順と有利なことに関連している。
本発明の第3の態様は、本発明による符号化方法を実施するように構成されたデジタル信号処理手段を備える音声符号化器に関する。
本発明の他の態様は、本発明による復号方法を実施するように構成されたデジタル信号処理手段を備える音声復号器に関する。
本発明の他の特徴および利点は、非限定的かつ例示的な実施形態に関する以下に述べる説明を添付図面と共に読めば明らかとなるであろう。
図1に示す符号化器は、2つの符号化段階を含む階層型構造を有する。第1の符号化段階1は、CELP型の電話帯域(300から3400Hz)における例えば符号化器カーネル(coder kernel)からなる。この符号化器はこの例においては、6.4kbit/sの固定モードにおける、ITU−T(「国際電気通信連合」)によって標準化されたG.723.1符号化器である。この符号化器は、この標準にしたがってG.723.1パラメータを計算し、30msのフレーム毎に192個の符号化ビットP1によってこれらを量子化する。
帯域幅を広帯域化(50から7000Hz)することを可能にする第2の符号化段階2は、図1中の減算器3によって与えられる、第1の段階で符号化されていない信号(coding residual)E上で動作する。信号同期化モジュール4は、符号化器カーネル1の処理によって費やされる時間だけ音声信号フレームSを遅延する。その出力は、減算器3へとアドレス指定され、減算器3は、この出力から、符号化器カーネルの出力ビットP1によって表される量子化パラメータに基づいて動作する復号器カーネルの出力に等しい合成信号S’を差し引く。例のごとく、符号化器1は、S’を出力するローカル復号器を含む。
符号化される音声信号Sは、16kHzでサンプリングされる、例えば7kHzの帯域幅を有する。1つのフレームは、例えば960個のサンプル、すなわち、60msの信号または符号化器カーネルG.723.1の2つの基本フレームからなる。符号化器カーネルG.723.1は8kHzでサンプリングされる信号上で動作するため、信号Sは、符号化器カーネル1の入力において、係数(factor)2でサブサンプリングされる。同様に、合成信号S’は、符号化器カーネル1の出力において、16kHzでオーバーサンプリングされる。
第1の段階1のビットレートは、6.4kbit/s(2×N1=2×192=384ビット/フレーム)である。符号化器の最大ビットレートが32kbit/s(Nmax=1920ビット/フレーム)である場合、第2の段階の最大ビットレートは25.6kbit/s(1920−384=1536ビット/フレーム)である。第2の段階2は、例えば、20ms(16kHzにおいて320サンプル)の基本フレームまたはサブフレーム上で動作する。
第2の段階2は、減算器3によって得られた残りの信号Eがアドレス指定される、例えばMDCT(「変形離散コサイン変換」(Modified Discrete Cosine Transform))型の時間/周波数変換モジュール5を含む。実際、図1に示すモジュール3および5の動作方法は、20msの各サブフレームについて以下の動作を行うことにより達成される。
−320個のMDCT係数を出力するモジュール4によって遅延された入力信号SのMDCT変換。スペクトルは7225Hzに限定され、最初の289個のMDCT係数のみが0と異なる。
−合成信号S’のMDCT変換。電話帯域信号のスペクトルが取り扱われるため、最初の139個のMDCT係数のみが0(最大で3450Hz)と異なる。
−以前のスペクトル(複数)間のスペクトル差の計算。
得られたスペクトルは、幅が異なるいくつかの帯域内にモジュール6によって、分散される。例示にすぎないが、G.723.1コーデックの帯域幅を21個の帯域に細分割し、より高い周波数を11個の追加の帯域に分散しても酔い。これらの11個の追加の帯域では、残余Eは入力信号Sと同じである。
モジュール7は、残余Eのスペクトルエンベロップの符号化を行う。これは、前記スペクトル差の各帯域のMDCT係数のエネルギーを計算することによって開始される。これらのエネルギーを以下では「スケールファクタ」と呼ぶ。これら32個のスケールファクタは、差分信号のスペクトルエンベロップを構成している。モジュール7は次に、それらを2つの部分に量子化することに進む。第1の部分は、電話帯域(0から3450Hzの最初の21個の帯域)に対応し、第2の部分は、高帯域(3450から7225Hz最後の11個の帯域)に対応する。各部分では、第1のスケールファクタは可変ビットレートによる従来のホフマン符号化を用いることによって、絶対ベースで量子化され、後続のものは差分ベースで量子化される。これらの32個のスケールファクタは、ランクi(i=1、2、3)の各サブフレームについて、ビットP2の可変数N2(i)について量子化される。
これらの量子化されたスケールファクタは図1で、FQで示されている。符号化器カーネル1の量子化されたパラメータおよび量子化されたスケールファクタFQからなる第1のサブ群の量子化ビットPlおよびP2は、数N0=(2×N1)+N2(1)+N2(2)+N2(3)と可変である。差Nmax−N0=1536−N2(1)−N2(2)−N2(3)は、帯域のスペクトル(複数)をより細かく量子化するのに利用可能である。
モジュール8は、モジュール6によって帯域中に分散されたMDCT係数を、これらを、これらの帯域についてそれぞれ求められた量子化スケールファクタFQによって除算することによって正規化する。このようにして正規化されたスペクトル(複数)は、公知の種類のベクトル量子化方式を用いる量子化モジュール9に与えられる。モジュール9から生じる量子化ビットは図1では、P3で示されている。
出力マルチプレクサ10は、モジュール1、7、および9から生じるビットP1、P2、およびP3を一緒に集めて、符号化器のバイナリの出力シーケンスΦを形成する。
本発明によれば、現在のフレームを表す出力シーケンスのビットの総数Nは、Nmaxに必ずしも等しくなくてもよい。Nmaxよりも小さくてもよい。しかし、量子化ビットのこれらの帯域への割当ては、数Nmaxに基づいて行われる。
図lにおいて、この割当は、量子化スケールファクタFQと、モジュール11によって計算されたスペクトルマスキング曲線との数Nmax−N0に基づいて各サブフレームについて、モジュール12によって行われる。
モジュール11の動作は以下の通りである。まず、量子化されたモジュール11は、モジュール7と、符号化器カーネルから生じる合成信号S’に対する同じ差分信号分解能で決定する原スペクトルエンベロップとに基づいて、信号Sの原スペクトルエンベロップの概略値を決定する。これらの最後の2つのエンベロップは、上記第1のサブ群のパラメータのみが与えられる復号器によっても決定可能である。したがって、信号Sの推定されたスペクトルエンベロップは、復号器でも利用可能となる。その後、モジュール11は、帯域聴覚によるモデルをそれ自身公知の方法で推定された原スペクトルエンベロップに適用することにより、スペクトルマスキング曲線を計算する。この曲線1lにより、考慮している各帯域のマスキングレベルが得られる。
モジュール12は、差分信号の3つのMDCT変換の3×32個の帯域中のシーケンスΦのNmax−N0個の残余ビットの動的割当てを実行する。上述した本発明の実施において、各帯域中のマスキング曲線について推定されたスペクトルエンベロップのレベルを参照する心理音響的知覚の重要性の規準の関数として、このレベルに比例するビットレートが各帯域に割当てられる。他のランク付け規準を用いることができるであろう。
このビット割当ての後、モジュール9は、何ビットを各サブフレーム中の各帯域の量子化について考慮すべきかを知る。
しかし、N<Nmaxの場合、これらの割当られたビットは必ずしも全て用いられない。これらの帯域を表すビットの順序付けは、知覚の重要性の規準の関数としてモジュール13によって行われる。モジュール13は、これは、信号対マスク比(推定されたスペクトルエンベロップと各帯域中のマスキング曲線との間の比)の降順であってもよい重要性の降順に、3×32個の帯域をランク付けする。この順序は、本発明にしたがってバイナリのシーケンスΦの構築に用いられる。
現在のフレームの符号化のためのシーケンスΦ中の所望の数Nのビットの一機能として、モジュール9によって量子化される帯域がモジュール13によって1番目にランク付けされた帯域を選択し、例えば、モジュール12により決定された選択された複数ビットを各帯域について保持することによって、決定される。
その後、選択された各帯域のMDCT係数は、N−N0に等しいビット総数を生成するように、割当られたビット数にしたがって、例えばベクトル量子化器の助けによりモジュール9によって量子化される。
出力マルチプレクサ10は図2(N=Nmaxの場合)に示す以下のように順序付けられたシーケンスの第1のNビットからなるバイナリのシーケンスΦを構築する。
a/ まず、2つのG.723.1フレーム(384ビット)に対応するバ イナリ列;
b/ 次に、22番目のスペクトル帯域(電話帯域を超えた第1の帯域)から32番目の帯域(可変レートホフマン符号化)へ、3つのサブフレーム(i=1、2、3)についての、スケールファクタの量子化のためのビット;
Figure 2006513457
c/ 次に、第1のスペクトル帯域から21番目の帯域(可変レートホフマン符号化)へ、3つのサブフレーム(i=1、2、3)についての、スケールファクタの量子化のためのビット;
Figure 2006513457
d/ 最後に、最も重要な帯域から重要性が最も低い帯域へ、モジュール13によって決定された順序に合わせて、知覚の重要性の順序での96個の帯域のベクトル量子化の指数Mc1、Mc2、...、Mc96
最初に(aおよびb)、G.723.1パラメータおよび高帯域のスケールファクタを配置することにより、これらのグループaおよびbの受信に対応する最小値を超えた実際のビットレートに関係なく、復号器によって回復可能な信号について同じ帯域幅を保持することが可能となる。G.723.1の符号化に加えて高帯域の3×1l=33個のスケールファクタのホフマン符号化にとって十分なこの最小値は、例えば8kbit/sである。
上述した符号化方法によって、復号器がN0?N'?NであるN'個のビットを受信した場合、フレームの復号が可能となる。この数N'は、通常フレーム毎に可変である。
この例に対応する、本発明による復号器が図3に示されている。デマルチプレクサ20は、受信されたビットのシーケンスΦ’を、そこから符号化ビットP1およびP2を抽出するように分離する。384個のビットP1がG.723.1型の復号器カーネル21へと供給されることで、復号器カーネル21は電話帯域中のベース信号S’の2つのフレームを合成する。ビットP2は、ホフマンアルゴリズムにしたがってモジュール22によって復号され、モジュール22は、このようにしてこれら3つのサブフレームのそれぞれについて量子化されたスケールファクタFQを回復する。
図1の符号化器のモジュール11と同一である、マスキング曲線を計算するモジュール23は、ベース信号S’と量子化されたスケールファクタFQを受信し、96個の帯域それぞれについてスペクトルマスキングレベルを生成する。量子化されたスケールファクタFQのマスキングレベルと、数Nmaxの情報(およびビットP2のホフマン復号からモジュール22によって推定された数N0の情報)に基づいて、モジュール24は、図1のモジュール12と同じ方法でビット割当を決定する。さらに、モジュール25は、図1を参照して述べたモジュール13と同じランク付け規準による帯域の順序付けへと進む。
モジュール24および25によって与えられた情報にしたがって、モジュール26は、入力シーケンスΦ’のビットP3を抽出し、シーケンスΦ’中に表された帯域に関する正規化されたMDCT係数を合成する。適切な(N’<Nmax)場合、欠落した帯域に関する標準化されたMDCT係数を以下に述べる内挿または外挿(モジュール27)によって、さらに合成できる。これらの欠落した帯域は、N<Nmaxに切取るために符号化器によって削除されるか、または、送信(N’<N)中に削除されている。
モジュール26および/またはモジュール27によって合成された、標準化されたMDCT係数は、符号化器のモジュール5によって行なわれるMDCT変換の逆である周波数/時間変換を行うモジュール29に提示される前に、それらの各量子化されたスケールファクタと乗算される(乗算器28)。これから得られた時間的補正信号は、復号器カーネル21によって送信された合成信号S’に加算され(加算器30)、復号器の出力音声信号
Figure 2006513457
が生成される。
復号器は、それがシーケンスの第1のN0個のビットを受信しない場合にも信号
Figure 2006513457
を合成できる点に留意されたい。
復号器が、上述した聴取の部分aに対応する2×N1個のビットを受信すれば十分であり、復号はしたがって「劣化(degraded)」モードとなる。この劣化モードのみが、復号された信号を得るのにMDCT合成を用いない。このモードとその他のモードとの間の切替えを休止期間なしで行なうようにするために、復号器は、3つのMDCT解析を行った後に3つのMDCT合成を行い、これによって、MDCT変換のメモリの更新を可能にする。その出力信号は電話帯域品質の信号を含む。第1の2×N1個のビットさえも受信されなかった場合、復号器は対応するフレームが削除されたと見なし、削除されたフレームを推定する公知のアルゴリズムを用いることができる。
復号器が部分aに部分bのビットを足したものに対応する2×Nl個のビット(3つのスペクトルエンベロップの高帯域)を受信した場合、この復号器は、広帯域の信号の合成を開始できる。復号器は特に以下のように処理を進めることができる。
1/ モジュール22は受信された3つのスペクトルエンベロップの部分を回復する。
2/ 受信されなかった帯域は、一時的にゼロにセットされたそれらのスケールファクタを有する。
3/ スペクトルエンベロップの低い帯域がG.723.1の復号の後に得られた信号上で行われたMDCT解析に基づいて計算され、モジュール23はこのようにして得られたエンベロップ上の、これら3つのマスキング曲線を計算する。
4/ スペクトルエンベロップは、受信されなかった帯域に起因するゼロ値を回避することによって、調整するように(regularize)修正される。スペクトルエンベロップFQの高い部分中のゼロ値は、例えば、以前に計算されたマスキング曲線の100番目の値に置き換えられ、これによってそれらは依然として聴取できない。低帯域の全スペクトルと高帯域のスペクトルエンベロップは、この際知られている。
5/ モジュール27は次に高スペクトルを生成する。これらの帯域の微細な構造は、スケールファクタによって重み付けする(乗算器28)前にその既知の近傍の微細な構造を考慮(reflection)することによって生成される。ビットP3のうちいずれも受信されない場合、この「既知の近傍」は、G.723.1復号器カーネルによって生成された信号S’のスペクトルに対応する。この「考慮」は、標準化されたMDCTスペクトルの、ばらつきが、「既知の近傍」からの距離に比例して小さくなる値を複製することである。
6/ 逆方向MDCT変換(29)および得られた修正信号の復号器カーネルの出力信号への加算(30)の後、広帯域の合成信号が得られる。
復号器が差分信号の少なくとも低スペクトルエンベロップの部分(部分c)も受信した場合、復号器は、ステップ3におけるスペクトルエンベロップを純化する(refine)のに、この情報を考慮してもよいし、考慮しなくてもよい。
復号器10がシーケンスの部分d中で1番目にランクされた、最も重要な帯域の少なくともMDCT係数を復号するために十分なビットP3を受信した場合、モジュール26は、モジュール24および25によって示される割当ておよび順序付けに従って、正規化されたMDCT係数の特定の部分を回復する。したがって、これらのMDCT係数は、上述したステップ5におけるように内挿する必要はない。他の帯域の場合、ステップ1から6のプロセスは上記したのと同様にしてモジュール27によって適用可能であり、特定の帯域の受信されたMDCT係数を知ることによって、ステップ5における内挿の信頼性が向上する。
受信されなかった帯域は、1つのMDCTサブフレームと次のMDCTサブフレームとで異なることもある。欠落した帯域の「既知の近傍」は、他のサブフレーム中の欠落していない同じ帯域および/または同じサブフレーム中の周波数ドメインで最も近い1つまたは2つ以上の帯域に対応することがある。「既知の近傍」のいくつかの帯域/サブフレームに基づいて評価された貢献の重み付け総計を計算することによって、サブフレームについての帯域から欠落しているMDCTスペクトルを再生することも可能である。
フレーム当りN’個のビットの実際のビットレートが所与のフレームの最後のビットを任意に配置している限りにおいて、送信された最後の符号化されたパラメータは、場合に応じて、全体または一部を送信してもよい。次の2つの場合が生じる。
−採用された符号化構造が、受信された部分的な情報の使用を可能にする場合(スカラー量子化器または区分された辞書を備えたベクトル量子化の場合)か、または、
−採用された符号化構造がそれを可能にせず、完全には受信されなかったパラメータが受信されなかった他のパラメータと同様に処理される場合。後者の場合、ビットの順序が各フレームによって異なる場合、このようにして失われたビットの数は可変であり、N’個のビットを選択することによって、復号されたフレーム全セットの平均が得られ、より少数のビットによって得られるであろう品質よりも高い品質が得られる点に留意されたい。
本発明による例示的な音声符号化器の模式図である。 本発明の一実施形態によるN個のビットのバイナリ出力シーケンスを示す。 本発明による音声復号器の模式図である。

Claims (36)

  1. 符号化ビットの最大数Nmaxが、デジタル音声信号フレームにしたがって計算できるパラメータ群について定められ、前記パラメータ群は第1のサブ群と第2のサブ群から構成される、前記デジタル音声信号フレーム(S)をバイナリの出力シーケンス(Φ)として符号化する方法であって、
    前記第1のサブ群のパラメータを計算し、これらのパラメータをN0<Nmaxとなるような符号化ビットの数N0だけ符号化するステップと、
    前記第2のサブ群のパラメータに対するNmax−N0個の符号化ビットの割当を決定するステップと、
    前記第2のサブ群のパラメータに割当られた前記Nmax−N0個の符号化ビットを定められた順序でランク付けするステップと、
    を含み、
    前記Nmax−N0個の符号化ビットの割当および/またはランク付けの順序が前記第1のサブ群の符号化されたパラメータの関数として決定され、前記パラメータ群の符号化のために使用可能な前記バイナリの出力シーケンスの、N0<N?Nmaxである、ビット数Nを示すことに応答して、さらに、
    前記順序において1番目にランク付けされた前記N−N0個の符号化ビットが割当られた前記第2のサブ群のパラメータを選択するステップと、
    前記第2のサブ群の前記選択されたパラメータを計算し、1番目にランク付けされた前記N−N0個の符号化ビットを生成するようにこれらのパラメータを符号化するステップと、
    前記第1のサブ群のN0個の符号化ビットと前記第2のサブ群の前記選択されたパラメータのN−N0個の符号化ビットを前記出力シーケンスに挿入するステップと、
    を有する方法。
  2. 前記第2のサブ群のパラメータに割当られた符号化ビットのランク付けの順序はフレーム毎に可変である、請求項1記載の方法。
  3. N<Nmaxである、請求項1または2記載の方法。
  4. 前記第2のサブ群のパラメータに割当られた符号化ビットのランク付けの順序は、少なくとも前記第1のサブ群の符号化されたパラメータの関数として決定された重要性の降順である、請求項1から3のいずれか1項に記載の方法。
  5. 前記第2のサブ群のパラメータに割当られた符号化ビットのランク付けの順序は、前記第1のサブ群の符号化されたパラメータの関数として少なくとも1つの心理音響的規準の助けにより決定される、請求項4記載の方法。
  6. 前記第2のサブ群のパラメータは前記信号のスペクトル帯域に関連し、前記符号化された信号のスペクトルエンベロップは前記第1のサブ群の符号化されたパラメータに基づいて推定され、周波数マスキングの曲線が前記推定されたスペクトルエンベロップに聴覚モデルを適用することにより計算され、前記心理音響的規準は各スペクトル帯域中の前記マスキング曲線について、前記推定されたスペクトルエンベロップのレベルを参照する、請求項5記載の方法。
  7. Nmax=Nである、請求項4から6のいずれか1項に記載の方法。
  8. 前記符号化ビットは、前記第1のサブ群のN0個の符号化ビットが前記第2のサブ群の前記選択されたパラメータのN−N0個の符号化ビットに先行し、かつ前記第2のサブ群の前記選択されたパラメータの各符号化ビットが前記符号化ビットについて決定された順序でその中に現れるように前記出力シーケンス中で順序付けされる、請求項1から7のいずれか1項に記載の方法。
  9. 前記数Nはフレーム毎に異なる、請求項1から8のいずれか1項に記載の方法。
  10. 前記第1のサブ群のパラメータの符号化は可変のビットレートで行われ、これにより、前記数N0がフレーム毎に異なる、請求項1から9のいずれか1項に記載の方法。
  11. 前記第1のサブ群は、符号化器カーネル(1)によって計算されたパラメータを含む、請求項1から10のいずれか1項に記載の方法。
  12. 前記符号化器カーネル(1)は前記符号化される信号の帯域幅よりも低い動作周波数帯域を有し、前記第1のサブ群は前記符号化器カーネルの動作帯域よりも高い周波数帯域に関連するエネルギーレベルの前記音声信号をさらに含む、請求項11記載の方法。
  13. 前記第1のサブ群の符号化ビットは、前記符号化器カーネルによって計算されたパラメータの符号化ビットの直後に前記のより高い周波数帯域に関連する前記エネルギーレベルの符号化ビットが来るように、前記出力シーケンス中において順序付けされる、請求項8および12のいずれかに記載の方法。
  14. 前記符号化される信号と、前記符号化器カーネルによって生成された符号化されたパラメータから導出された合成信号との差分信号が推定され、前記第1のサブ群は、前記符号化カーネルの動作帯域中に含まれる周波数帯域に関連するエネルギーレベルの差分信号をさらに含む、請求項11から13のいずれか1項に記載の方法。
  15. 前記第1のサブ群の符号化ビットは、前記符号化カーネル(1)によって計算されたパラメータの符号化ビットの後ろに前記周波数帯域に関連するエネルギーレベルの符号化ビットが来るように、前記出力シーケンス中において順序付けされる、請求項8および請求項12から14のいずれか1項に記載の方法。
  16. 符号化ビットの最大数Nmaxが信号フレームを記述するためのパラメータ群について規定され、前記パラメータ群は第1のサブ群と第2のサブ群で構成され、バイナリの入力シーケンスが、1つの信号フレームあたり、前記パラメータ群につき、N’?NmaxであるN’個の符号化ビットを含む、前記バイナリの入力シーケンス(Φ’)を、デジタル音声信号
    Figure 2006513457
    を合成するように復号する方法であって、
    N0<N’の場合、前記入力シーケンスの前記N’個のビットから、前記第1のサブ群のパラメータの符号化ビットの数N0を抽出するステップと、
    抽出された前記N0個の符号化ビットに基づいて、前記第1のサブ群のパラメータを回復するステップと、
    前記第2のサブ群のパラメータ対するNmax−N0個の符号化ビットの割当を決定するステップと、
    前記第2のサブ群のパラメータに割当られたNmax−N0個の符号化ビットを定められた順序でランク付けするステップと、
    を含み、
    前記割当および/または前記Nmax−N0個の符号化ビットのランク付けの順序は、前記第1のサブ群の回復されたパラメータの関数として決定され、さらに
    前記順序において1番目にランク付けされた前記N’−N0個の符号化ビットが割当られた前記第2のサブ群のパラメータを選択するステップと、
    前記入力シーケンスの前記N’個のビットから、前記第2のサブ群の選択されたパラメータのN’−N0個の符号化ビットを抽出するステップと、
    前記抽出されたN’−N0個の符号化ビットに基づいて、前記第2のサブ群の選択されたパラメータを回復するステップと、
    前記第1のサブ群と第2のサブ群の回復されたパラメータを用いることによって、前記信号フレームを合成するステップと、
    有する方法。
  17. 前記第2のサブ群のパラメータに割当られた符号化ビットのランク付けの順序はフレーム毎に可変である、請求項16記載の方法。
  18. N’<Nmaxである、請求項16または17記載の方法。
  19. 前記第2のサブ群のパラメータに割当られた符号化ビットのランク付けの順序は、前記第1のサブ群の、少なくとも、回復された符号化パラメータの関数として決定された重要性の降順である、請求項16から18のいずれか1項に記載の方法。
  20. 前記第2のサブ群のパラメータに割当られた符号化ビットのランク付けの順序は、前記第1のサブ群の符号化パラメータの関数として少なくとも1つの心理音響的規準の助けにより決定される、請求項19記載の方法。
  21. 前記第2のサブ群のパラメータは前記信号のスペクトル帯域に関連し、前記信号のスペクトルエンベロップは前記第1のサブ群の回復されたパラメータに基づいて推定され、周波数マスキングの曲線が前記推定されたスペクトルエンベロップに聴覚モデルを適用することにより計算され、前記心理音響的規準は各スペクトル帯域中の前記マスキング曲線について前記推定されたスペクトルエンベロップのレベルを参照する、請求項20記載の方法。
  22. 前記第1のサブ群のパラメータのN0個の符号化ビットは、前記第2のサブ群の選択されたパラメータのN’−N0個の符号化ビットが抽出された位置より前の前記シーケンスの位置で受信されたN’個のビットから抽出される、請求項16から21のいずれか1項に記載の方法。
  23. 前記信号フレームを合成するために、前記第2のサブ群の選択されなかったパラメータが、抽出された前記N’−N0個の符号化ビットに基づいて回復された、少なくとも、選択されたパラメータに基づいて、内挿によって推定される、請求項16から21のいずれか1項に記載の方法。
  24. 前記第1のサブ群が復号器カーネル(21)の入力パラメータを含む、請求項16から23のいずれか1項に記載の方法。
  25. 前記符号器カーネル(21)は前記の合成される信号の帯域幅よりも低い動作周波数帯域を有し、前記第1のサブ群は、前記符号化器カーネルの動作帯域よりも高い周波数帯域に関連するエネルギーレベルの前記音声信号をさらに含む、請求項24記載の方法。
  26. 前記第1のサブ群の前記符号化ビットは、前記符号化器カーネル(21)の入力パラメータの前記符号化ビットの直後に前記のより高い周波数帯域に関連するエネルギーレベルの符号化ビットが来るように、前記出力シーケンス中で順序付けされる、請求項22または25に記載の方法。
  27. 前記入力シーケンス(Φ’)のN’個のビットが、前記復号器カーネル(21)の入力パラメータの符号化ビットと、前記のより高い周波数帯域に関連するエネルギーレベルの符号化ビットの少なくとも一部に限定される場合に、
    前記入力シーケンスから、前記復号器カーネルの入力パラメータの符号化ビットと、前記エネルギーレベルの符号化ビットの前記一部とを抽出するステップと、
    前記復号器カーネル中のベース信号(S’)を合成し、前記抽出された符号化ビットに基づいて、前記のより高い周波数帯域に関連するエネルギーレベルを回復するステップと、
    前記ベース信号のスペクトルを計算するステップと、
    前記入力シーケンス中の符号化されていないエネルギーレベルに関連するより高い各帯域にエネルギーレベルを割当てるステップと、
    前記対応するエネルギーレベルと、前記スペクトルの少なくとも1つの帯域中の前記ベース信号のスペクトルとに基づいて、より高い各周波数帯域についてスペクトル成分を合成するステップと、
    ベース信号修正信号を得るために前記合成されたスペクトル成分を時間ドメインへ変換するステップと、
    前記ベース信号と前記修正信号とを加算して前記信号フレームを合成するステップと、
    を含む、請求項26記載の方法。
  28. 前記入力シーケンス中の符号化されていないエネルギーレベルに関連するより高い帯域に割当られたエネルギーレベルは、前記ベース信号のスペクトルにしたがって計算された知覚マスキングレベルと、前記抽出された符号化ビットに基づいて回復されたエネルギーレベルとの一部である、請求項27記載の方法。
  29. ベース信号(S’)が前記復号器カーネルで合成され、前記第1のサブ群が前記合成される信号と前記ベース信号との差分信号の、前記符号化器カーネルの動作帯域に含まれる周波数帯域に関連するエネルギーレベルをさらに含む、請求項24から28のいずれか1項に記載の方法。
  30. N0<N’<Nmaxの場合、周波数帯域中のスペクトル成分に関連する、前記第2のサブ群の選択されなかったパラメータが、前記ベース信号の計算されたスペクトルおよび/または前記抽出されたN’<N0個の符号化ビットに基づいて回復された、選択されたパラメータの助けにより推定される、請求項25、26および29のいずれか1項に記載の方法。
  31. 周波数帯域中の前記第2のサブ群の前記選択されなかったパラメータが、前記入力シーケンスのN’個の符号化ビットに基づいて決定される、前記帯域のスペクトル近傍の助けによって推定される、請求項30に記載の方法。
  32. 前記復号器カーネル(21)の前記入力パラメータの前記符号化ビットは、前記周波数帯域に関連するエネルギーレベルの符号化ビットが抽出された位置より前の前記シーケンスの位置で受信されたN’個のビットから抽出される、請求項22および請求項25から31のいずれか1項に記載の方法。
  33. 前記数N’はフレーム毎に異なる、請求項16から32のいずれか1項に記載の方法。
  34. 前記数N0はフレーム毎に異なる、請求項16から33のいずれか1項に記載の方法。
  35. 請求項1から15のいずれか1項に記載の符号化方法を実行するように構成されたデジタル信号処理手段を備えた音声符号化器。
  36. 請求項16から34のいずれか1項に記載の復号方法を実行するように構成されたデジタル信号処理手段を備えた音声復号器。
JP2004567790A 2003-01-08 2003-12-22 音声を可変レートで符号化および復号する方法 Expired - Lifetime JP4390208B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0300164A FR2849727B1 (fr) 2003-01-08 2003-01-08 Procede de codage et de decodage audio a debit variable
PCT/FR2003/003870 WO2004070706A1 (fr) 2003-01-08 2003-12-22 Procede de codage et de decodage audio a debit variable

Publications (3)

Publication Number Publication Date
JP2006513457A true JP2006513457A (ja) 2006-04-20
JP2006513457A5 JP2006513457A5 (ja) 2007-01-25
JP4390208B2 JP4390208B2 (ja) 2009-12-24

Family

ID=32524763

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004567790A Expired - Lifetime JP4390208B2 (ja) 2003-01-08 2003-12-22 音声を可変レートで符号化および復号する方法

Country Status (15)

Country Link
US (1) US7457742B2 (ja)
EP (1) EP1581930B1 (ja)
JP (1) JP4390208B2 (ja)
KR (1) KR101061404B1 (ja)
CN (1) CN1735928B (ja)
AT (1) ATE388466T1 (ja)
AU (1) AU2003299395B2 (ja)
BR (1) BR0317954A (ja)
CA (1) CA2512179C (ja)
DE (1) DE60319590T2 (ja)
ES (1) ES2302530T3 (ja)
FR (1) FR2849727B1 (ja)
MX (1) MXPA05007356A (ja)
WO (1) WO2004070706A1 (ja)
ZA (1) ZA200505257B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008120440A1 (ja) 2007-03-02 2008-10-09 Panasonic Corporation 符号化装置および符号化方法
JP4859670B2 (ja) * 2004-10-27 2012-01-25 パナソニック株式会社 音声符号化装置および音声符号化方法
US8543392B2 (en) 2007-03-02 2013-09-24 Panasonic Corporation Encoding device, decoding device, and method thereof for specifying a band of a great error
JP2013235284A (ja) * 2007-11-02 2013-11-21 Huawei Technologies Co Ltd 音声復号化方法及び装置

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1782419A1 (en) * 2004-08-17 2007-05-09 Koninklijke Philips Electronics N.V. Scalable audio coding
KR100647336B1 (ko) 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
WO2007119368A1 (ja) 2006-03-17 2007-10-25 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法
US7930173B2 (en) 2006-06-19 2011-04-19 Sharp Kabushiki Kaisha Signal processing method, signal processing apparatus and recording medium
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
US20080243518A1 (en) * 2006-11-16 2008-10-02 Alexey Oraevsky System And Method For Compressing And Reconstructing Audio Files
EP1927981B1 (en) * 2006-12-01 2013-02-20 Nuance Communications, Inc. Spectral refinement of audio signals
US7925783B2 (en) * 2007-05-23 2011-04-12 Microsoft Corporation Transparent envelope for XML messages
EP2398017B1 (en) * 2009-02-16 2014-04-23 Electronics and Telecommunications Research Institute Encoding/decoding method for audio signals using adaptive sinusoidal coding and apparatus thereof
EP2249333B1 (en) * 2009-05-06 2014-08-27 Nuance Communications, Inc. Method and apparatus for estimating a fundamental frequency of a speech signal
FR2947945A1 (fr) * 2009-07-07 2011-01-14 France Telecom Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques
FR2947944A1 (fr) * 2009-07-07 2011-01-14 France Telecom Codage/decodage perfectionne de signaux audionumeriques
EP2490216B1 (en) * 2009-10-14 2019-04-24 III Holdings 12, LLC Layered speech coding
US9236063B2 (en) 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
CN101950562A (zh) * 2010-11-03 2011-01-19 武汉大学 基于音频关注度的分级编码方法及系统
NO2669468T3 (ja) * 2011-05-11 2018-06-02
KR102053900B1 (ko) 2011-05-13 2019-12-09 삼성전자주식회사 노이즈 필링방법, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기
US9905236B2 (en) 2012-03-23 2018-02-27 Dolby Laboratories Licensing Corporation Enabling sampling rate diversity in a voice communication system
KR102222838B1 (ko) 2014-04-17 2021-03-04 보이세지 코포레이션 다른 샘플링 레이트들을 가진 프레임들간의 전환시 사운드 신호의 선형 예측 인코딩 및 디코딩을 위한 방법, 인코더 및 디코더
CN106992786B (zh) * 2017-03-21 2020-07-07 深圳三星通信技术研究有限公司 一种基带数据压缩方法、装置和系统
KR102258814B1 (ko) * 2018-10-04 2021-07-14 주식회사 엘지에너지솔루션 Bms 간 통신 시스템 및 방법
KR102352240B1 (ko) * 2020-02-14 2022-01-17 국방과학연구소 Amr 음성데이터의 압축포맷정보를 추정하는 방법 및 그 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8421498D0 (en) * 1984-08-24 1984-09-26 British Telecomm Frequency domain speech coding
DE19706516C1 (de) * 1997-02-19 1998-01-15 Fraunhofer Ges Forschung Verfahren und Vorricntungen zum Codieren von diskreten Signalen bzw. zum Decodieren von codierten diskreten Signalen
US6016111A (en) * 1997-07-31 2000-01-18 Samsung Electronics Co., Ltd. Digital data coding/decoding method and apparatus
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
US7620545B2 (en) * 2003-07-08 2009-11-17 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4859670B2 (ja) * 2004-10-27 2012-01-25 パナソニック株式会社 音声符号化装置および音声符号化方法
WO2008120440A1 (ja) 2007-03-02 2008-10-09 Panasonic Corporation 符号化装置および符号化方法
US8543392B2 (en) 2007-03-02 2013-09-24 Panasonic Corporation Encoding device, decoding device, and method thereof for specifying a band of a great error
US8554549B2 (en) 2007-03-02 2013-10-08 Panasonic Corporation Encoding device and method including encoding of error transform coefficients
US8918314B2 (en) 2007-03-02 2014-12-23 Panasonic Intellectual Property Corporation Of America Encoding apparatus, decoding apparatus, encoding method and decoding method
US8918315B2 (en) 2007-03-02 2014-12-23 Panasonic Intellectual Property Corporation Of America Encoding apparatus, decoding apparatus, encoding method and decoding method
US8935161B2 (en) 2007-03-02 2015-01-13 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, and method thereof for secifying a band of a great error
US8935162B2 (en) 2007-03-02 2015-01-13 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, and method thereof for specifying a band of a great error
JP2013235284A (ja) * 2007-11-02 2013-11-21 Huawei Technologies Co Ltd 音声復号化方法及び装置

Also Published As

Publication number Publication date
JP4390208B2 (ja) 2009-12-24
MXPA05007356A (es) 2005-09-30
WO2004070706A1 (fr) 2004-08-19
US7457742B2 (en) 2008-11-25
FR2849727A1 (fr) 2004-07-09
ES2302530T3 (es) 2008-07-16
ATE388466T1 (de) 2008-03-15
EP1581930B1 (fr) 2008-03-05
AU2003299395B2 (en) 2010-03-04
CA2512179C (fr) 2013-04-16
DE60319590T2 (de) 2009-03-26
US20060036435A1 (en) 2006-02-16
AU2003299395A1 (en) 2004-08-30
CA2512179A1 (fr) 2004-08-19
KR20050092107A (ko) 2005-09-20
DE60319590D1 (de) 2008-04-17
FR2849727B1 (fr) 2005-03-18
CN1735928A (zh) 2006-02-15
ZA200505257B (en) 2006-09-27
CN1735928B (zh) 2010-05-12
BR0317954A (pt) 2005-11-29
EP1581930A1 (fr) 2005-10-05
KR101061404B1 (ko) 2011-09-01

Similar Documents

Publication Publication Date Title
JP4390208B2 (ja) 音声を可変レートで符号化および復号する方法
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
CA2347667C (en) Periodicity enhancement in decoding wideband signals
EP0858067B1 (en) Multichannel acoustic signal coding and decoding methods and coding and decoding devices using the same
US6732075B1 (en) Sound synthesizing apparatus and method, telephone apparatus, and program service medium
EP3249645B1 (en) Signal coding and decoding methods and devices
JP3881946B2 (ja) 音響符号化装置及び音響符号化方法
CN1272259A (zh) 采用频带复现增强源编码
JPH11126098A (ja) 音声合成方法及び装置、並びに帯域幅拡張方法及び装置
US20080140393A1 (en) Speech coding apparatus and method
WO1995027335A1 (fr) Methode et dispositif de codage et de decodage d'informations, methode de transmission d'informations et support d'enregistrement de l'information
JP4603485B2 (ja) 音声・楽音符号化装置及び音声・楽音符号化方法
WO2009059632A1 (en) An encoder
JP4359949B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
US6792402B1 (en) Method and device for defining table of bit allocation in processing audio signals
KR101381602B1 (ko) 계층적 부호화 및 복호화 방법 및 장치
JP2004302259A (ja) 音響信号の階層符号化方法および階層復号化方法
JP6713424B2 (ja) 音声復号装置、音声復号方法、プログラム、および記録媒体
JP4574320B2 (ja) 音声符号化方法、広帯域音声符号化方法、音声符号化装置、広帯域音声符号化装置、音声符号化プログラム、広帯域音声符号化プログラム及びこれらのプログラムを記録した記録媒体
JP4373693B2 (ja) 音響信号の階層符号化方法および階層復号化方法
JP4618823B2 (ja) 信号符号化装置及び方法
JP2003535367A (ja) 狭帯域で符号化された信号を送信する送信機および受信端で信号の帯域を拡張する受信機
JP2004053676A (ja) 音声符号化装置および復号装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061204

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090902

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091002

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121016

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4390208

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121016

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131016

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term