JP2004206132A - 紛失フレームを取扱うための音声通信システムおよび方法 - Google Patents

紛失フレームを取扱うための音声通信システムおよび方法 Download PDF

Info

Publication number
JP2004206132A
JP2004206132A JP2004010951A JP2004010951A JP2004206132A JP 2004206132 A JP2004206132 A JP 2004206132A JP 2004010951 A JP2004010951 A JP 2004010951A JP 2004010951 A JP2004010951 A JP 2004010951A JP 2004206132 A JP2004206132 A JP 2004206132A
Authority
JP
Japan
Prior art keywords
frame
lost
speech
pitch lag
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004010951A
Other languages
English (en)
Other versions
JP4222951B2 (ja
Inventor
Adil Benyassine
ベンヤッシン,アディル
Eyal Shlomot
シュロモット,エアル
Huan-Yu Su
ス,ホワン−ユ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Conexant Systems LLC
Original Assignee
Conexant Systems LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Conexant Systems LLC filed Critical Conexant Systems LLC
Publication of JP2004206132A publication Critical patent/JP2004206132A/ja
Application granted granted Critical
Publication of JP4222951B2 publication Critical patent/JP4222951B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Circuits Of Receivers In General (AREA)
  • Communication Control (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Radio Relay Systems (AREA)

Abstract

【課題】エンコーダからデコーダへの送信中に紛失された情報を取扱う改良されたやり方を有する音声通信システムおよび方法である。
【解決手段】改良されたデコーダが次の受信フレームのピッチラグを受信すると、前の受信フレームのピッチラグと次の受信フレームのピッチラグとの間に適合する曲線を用いて、紛失フレームのピッチラグの推定を微調整し、適応コードブックバッファを後続するフレームによる使用の前に調整および訂正する。音声通信システムが固定コードブック励振値をデコーダへ送信しない場合、改良されたエンコーダ/デコーダは、所与のフレームに対し、そのフレーム内の情報によってその値が決定されるシードを用いることによって同じランダム励振値を生成する。紛失フレーム内の紛失パラメータを推定し、音声を合成した後で、改良されたシステムは、合成された音声のエネルギを前に受信されたフレームのエネルギへマッチングさせる。
【選択図】図2

Description

[引用による援用]
以下の米国特許出願を、ここに引用によりその全体を援用し、本出願の一部とする。
米国特許出願番号第09/156,650号、「開ループ利得と閉ループ利得とを組合せる利得正規化を用いた音声エンコーダ(Speech Encoder Using Gain Normalization That Combines Open And Closed Loop Gains)」、コネクサント(Conexant)事件番号98RSS399、1998年9月18日出願。
米国仮特許出願番号第60/155,321号、「4キロビット/秒音声符号化(4 kbits/s Speech Coding)」、コネクサント事件番号99RSS485、1999年9月22日出願。
米国特許出願番号第09/574,396号、「新しい音声利得量子化方策(A New Speech Gain Quantization Strategy)」、コネクサント事件番号99RSS312、2000年5月19日出願。
[発明の背景]
この発明の分野は一般に、音声通信システムにおける音声のエンコードおよびデコードに関し、より特定的には、間違ったまたは紛失したフレームを取扱うための方法および装置に関する。
基本的な音声音をモデル化するには、音声信号は時間を経てサンプリングされ、デジタル処理されるべき離散波形としてフレームに記憶される。しかし、音声用通信帯域幅の効率のよい使用を増加させるため、音声は、特に音声が制限された帯域幅制約の下で送信されるものである場合、送信される前に符号化される。音声符号化のさまざまな局面に対して、多数のアルゴリズムが提案されてきた。たとえば、合成による分析の符号化技法が音声信号に対して行なわれる場合がある。音声を符号化する際、音声符号化アルゴリズムは、より狭い帯域幅しか必要としないやり方で音声信号の特性を表わそうとする。たとえば、音声符号化アルゴリズムは音声信号における冗長を除去しようとする。第1のステップは短期の相関を除去することである。音声符号化手法の1つの種類は、線形予測符号化(LPC)である。LPC技法を用いる際、任意の特定の時間での音声信号値は、前の値の線形関数としてモデル化される。LPC技法を用いることによって、短期の相関は減少可能であり、或る予測パラメータを推定し応用して信号を表わすことによって効率よい音声信号表示が決定され得る。音声信号における短期の相関のエンベロープであるLPCスペクトルは、たとえば、LSF(線スペクトル周波数)によって表わされてもよい。音声信号における短期の相関の除去後、LPC残留信号が残る。この残留信号は、モデル化される必要がある周期性情報を含む。音声における冗長を除去する第2のステップは、周期性情報をモデル化することである。周期性情報はピッチ予測を用いることによってモデル化されてもよい。音声の或る部分は周期性を有するが、他の部分は周期性を持たない。たとえば、音“aah(アー)”は周期性情報を持つものの、音“shhh(シーッ)”は周期性情報を持たない。
LPC手法を応用する際、従来のソースエンコーダは、通信チャネルを介して従来のソースデコーダへ通信するため、音声信号に動作して、符号化されるべきモデリングおよびパラメータ情報を抽出する。モデリングおよびパラメータ情報をより少量の情報へ符号化
する1つの方法は、量子化を用いることである。パラメータの量子化は、表またはコードブックにおける最も近いエントリを選択してパラメータを表わすことを伴う。このため、たとえば0.125のパラメータは、コードブックが0、0.1、0.2、0.3などを含む場合、0.1によって表わされてもよい。量子化は、スカラ量子化とベクトル量子化とを含む。スカラ量子化では、上述のように、パラメータに最も近い近似値である表またはコードブック中のエントリを選択する。これに対し、ベクトル量子化は、2つまたはそれ以上のパラメータを組合せ、組合されたパラメータに最も近い表またはコードブック中のエントリを選択する。たとえば、ベクトル量子化は、パラメータ間の差に最も近いコードブック中のエントリを選択するかもしれない。2つのパラメータを一度にベクトル量子化するために用いられるコードブックはしばしば、2次元コードブックと呼ばれる。n次元コードブックはn個のパラメータを一度に量子化する。
量子化されたパラメータは、エンコーダからデコーダへ送信されるデータのパケットへパッケージされてもよい。言い換えれば、一旦符号化されると、入力音声信号を表わすパラメータはトランシーバへ送信される。このため、たとえば、LSFは量子化されてもよく、コードブックへのインデックスはビットに変換されてエンコーダからデコーダへ送信されてもよい。実施例に依存して、各パケットは、音声信号のフレームの一部、音声のフレーム、または音声のフレームを超えるものを表わしてもよい。トランシーバでは、デコーダが符号化された情報を受信する。デコーダは音声信号をエンコードするやり方を知っているように構成されているため、デコーダは符号化された情報をデコードし、人間の耳に元の音声のように聞こえる再生のために信号を復元する。しかし、データの少なくとも1つのパケットが送信中に紛失し、デコーダがエンコーダによって送られた情報のすべてを受信するとは限らない、ということが避けられない場合がある。たとえば、音声がある携帯電話から別の携帯電話へ送信されているとき、受信が不良、またはノイズがある場合には、データは紛失されるかもしれない。したがって、符号化されたモデリングおよびパラメータ情報をデコーダへ送信することは、デコーダがデータの紛失パケットについて訂正または調整する方法を必要とする。先行技術は紛失パケット内の情報は何だったかを推測しようとする外挿などによってデータの紛失パケットについて調整する或る方法を記載しているものの、これらの方法は制限されており、改良された方法が必要とされている。
LSF情報の他に、デコーダに送信された他のパラメータがなくなる場合がある。たとえばCELP(符号励振線形予測)音声符号化では、同じく量子化されてデコーダへ送信される2種類の利得がある。第1の種類の利得はピッチ利得GPで、適応コードブック利得(adaptive codebook gain)としても公知である。適応コードブック利得は、ここも含め、添字“p”の代わりに添字“a”を添えて言及されることがある。第2の種類の利得は固定コードブック利得(fixed codebook gain)GCである。音声符号化アルゴリズムは、適応コードブック利得と固定コードブック利得とを含む量子化されたパラメータを有する。他のパラメータは、たとえば、発生された音声の周期性を表わすピッチラグを含んでいてもよい。音声エンコーダが音声信号を分類すると、音声信号に関する分類情報もデコーダへ送信されてもよい。音声を分類し異なるモードで動作する改良された音声エンコーダ/デコーダについては、前に引用により援用された、米国特許出願番号第09/574,396号、「新しい音声利得量子化方策」、コネクサント事件番号99RSS312、2000年5月19日出願を参照されたい。
これらおよび他のパラメータ情報は不完全な送信媒体を通ってデコーダへ送られるため、これらのパラメータのいくつかは紛失され、またはデコーダによって決して受信されない。音声の1フレーム当り1パケットの情報を送信する音声通信システムにとっては、紛失パケットは、情報の紛失フレームをもたらす。紛失された情報を復元または推定するた
め、先行技術のシステムは、紛失されたパラメータに依存して、異なる技法を試みてきた。いくつかの技法は単に、実際にデコーダによって受信された前のフレームからのパラメータを用いている。これらの先行技術の技法は欠点、誤り、および問題を有する。このため、元の音声信号にできるだけ近い音声信号を再現するように、紛失情報について訂正または調節する、改良された方法に対する要求がある。
或る先行技術の音声通信システムは、帯域幅を節約するため、固定コードブック励振をエンコーダからデコーダへ送信しない。その代わり、これらのシステムは、初期固定シードを用いてランダム励振値を生成し、次に、システムが無音またはバックグラウンドノイズを含むフレームに遭遇するたびにそのシードを更新する、局所的なガウス時系列発生器を有する。このため、シードはノイズフレームごとに変わる。エンコーダとデコーダとが同じシーケンスで同じシードを用いる同じガウス時系列発生器を有するため、それらはノイズフレームに対して同じランダム励振値を生成する。しかし、ノイズフレームが紛失され、デコーダによって受信されない場合、エンコーダとデコーダとは同じノイズフレームに対して異なるシードを用い、それによりそれらの同時性を失う。このため、固定コードブック励振値をデコーダへ送信しないものの、送信中にフレームが紛失された場合にエンコーダとデコーダ間の同時性を維持する音声通信システムに対する要求がある。
[発明の概要]
この発明のさまざまな別個の局面は、エンコーダからデコーダへの送信中に紛失された情報を取扱う改良されたやり方を有する音声通信システムおよび方法に見出すことができる。特に、改良された音声通信システムは、データの紛失パケット内で紛失された情報についてより正確な推定値を生成可能である。たとえば、改良された音声通信システムは、LSF、ピッチラグ(または適応コードブック励振)、固定コードブック励振、および/または利得情報などの紛失された情報をより正確に取扱うことができる。固定コードブック励振値をデコーダへ送信しない音声通信システムの一実施例では、改良されたエンコーダ/デコーダは、前のノイズフレームが送信中に紛失された場合でも、所与のノイズフレームに対して同じランダム励振値を生成可能である。
この発明の第1の別個の局面は、LSF間の最小間隔を増加された値に設定し、次に、後続するフレームについての値を制御された適応性のあるやり方で減少させることによって、紛失されたLSF情報を取扱う音声通信システムである。
この発明の第2の別個の局面は、複数の前の受信フレームのピッチラグから外挿することによって紛失されたピッチラグを推定する音声通信システムである。
この発明の第3の別個の局面は、次の受信フレームのピッチラグを受信し、前の受信フレームのピッチラグと次の受信フレームのピッチラグとの間に適合する曲線を用いて、紛失フレームに対するピッチラグの推定を微調整し、適応コードブックバッファを後続するフレームによる使用の前に調整または訂正する、音声通信システムである。
この発明の第4の別個の局面は、非周期性様の音声の紛失利得パラメータを推定するのとは異なるように、周期性様の音声の紛失利得パラメータを推定する音声通信システムである。
この発明の第5の別個の局面は、紛失された固定コードブック利得パラメータを推定するのとは異なるように、紛失された適応コードブック利得パラメータを推定する音声通信システムである。
この発明の第6の別個の局面は、適応数の前に受信されたフレームのサブフレームの平均適応コードブック利得パラメータに基づいて、非周期性様の音声の紛失フレームの紛失された適応コードブック利得パラメータを判定する音声通信システムである。
この発明の第7の別個の局面は、適応数の前に受信されたフレームのサブフレームの平均適応コードブック利得パラメータと、総励振エネルギに対する適応コードブック励振エネルギの比とに基づいて、非周期性様の音声の紛失フレームの紛失された適応コードブック利得パラメータを判定する音声通信システムである。
この発明の第8の別個の局面は、適応数の前に受信されたフレームのサブフレームの平均適応コードブック利得パラメータ、総励振エネルギに対する適応コードブック励振エネルギの比、前に受信されたフレームのスペクトル傾斜、および/または前に受信されたフレームのエネルギに基づいて、非周期様の音声の紛失フレームの紛失された適応コードブック利得パラメータを判定する音声通信システムである。
この発明の第9の別個の局面は、非周期性様の音声の紛失フレームの紛失された適応コードブック利得パラメータを任意に大きい数に設定する音声通信システムである。
この発明の第10の別個の局面は、非周期性様の音声の紛失フレームの全サブフレームに対して、紛失された固定コードブック利得パラメータをゼロに設定する音声通信システムである。
この発明の第11の別個の局面は、紛失フレームのエネルギに対する前に受信されたフレームのエネルギの比に基づいて、非周期性様の音声の紛失フレームの現在のサブフレームの紛失された固定コードブック利得パラメータを判定する音声通信システムである。
この発明の第12の別個の局面は、紛失フレームのエネルギに対する前に受信されたフレームのエネルギの比に基づいて、紛失フレームの現在のサブフレームの紛失された固定コードブック利得パラメータを判定し、次に、そのパラメータを減衰して、紛失フレームの残りのサブフレームの紛失された固定コードブック利得パラメータを設定する音声通信システムである。
この発明の第13の別個の局面は、受信フレームの後で紛失されることになる周期性様の音声の第1のフレームの紛失された適応コードブック利得パラメータを任意に大きい数に設定する音声通信システムである。
この発明の第14の別個の局面は、受信フレームの後で紛失されることになる周期性様の音声の第1のフレームの紛失された適応コードブック利得パラメータを任意に大きい数に設定し、次に、そのパラメータを減衰して、紛失フレームの残りのサブフレームの紛失された適応コードブック利得パラメータを設定する音声通信システムである。
この発明の第15の別個の局面は、複数の前に受信されたフレームの平均適応コードブック利得パラメータがしきい値を超える場合、周期性様の音声の紛失フレームの紛失された固定コードブック利得パラメータをゼロに設定する音声通信システムである。
この発明の第16の別個の局面は、複数の前に受信されたフレームの平均適応コードブック利得パラメータがしきい値を超えない場合、紛失フレームのエネルギに対する前に受信されたフレームのエネルギの比に基づいて、周期性様の音声の紛失フレームの現在のサブフレームの紛失された固定コードブック利得パラメータを判定する音声通信システムである。
この発明の第17の別個の局面は、複数の前に受信されたフレームの平均適応コードブック利得パラメータがしきい値を超える場合、紛失フレームのエネルギに対する前に受信されたフレームのエネルギの比に基づいて、紛失フレームの現在のサブフレームの紛失された固定コードブック利得パラメータを判定し、次にそのパラメータを減衰して、紛失フレームの残りのサブフレームの紛失された固定コードブック利得パラメータを設定する音声通信システムである。
この発明の第18の別個の局面は、所与のフレームに対する固定コードブック励振を、そのフレーム内の情報によってその値が求められるシードを用いることによってランダムに生成する音声通信システムである。
この発明の第19の別個の局面は、紛失フレーム内の紛失パラメータを推定し音声を合成した後で、合成された音声のエネルギを前に受信されたフレームのエネルギへマッチングさせる音声通信デコーダである。
この発明の第20の別個の局面は、個々のまたはある組合せでの上述の別個の局面のいずれかである。
この発明のさらなる別個の局面は、個々のまたはある組合せでの上述の別個の局面のいずれかを実践する、音声信号をエンコードおよび/またはデコードする方法にも見出すことができる。
この発明の他の局面、利点、および新規の特徴は、以下の好ましい実施例の詳細な説明を添付図面とともに検討することから明らかであろう。
[好ましい実施例の詳細な説明]
まず、音声通信システム全体についての一般的な説明を記載し、次にこの発明の実施例について詳細に説明する。
図1は、通信システムでの音声エンコーダおよびデコーダの一般的な使用例を示す、音声通信システムの概略的なブロック図である。音声通信システム100は、通信チャネル103にわたって音声を送信および再現する。通信チャネル103は、たとえばワイヤ、ファイバ、または光リンクを含み得るが、典型的に、少なくとも部分的に無線周波リンクを含み、これは、携帯電話で見ることができる共有帯域幅リソースを必要とする多数の同時音声交換にしばしば対応していなければならない。
通信チャネル103には記憶装置が結合されて、たとえば留守番録音装置機能や音声メールを行なうなど、後に再現または再生するために音声情報を一時的に記憶する。同様に通信チャネル103は、たとえば後に再生するために音声を記録および記憶するだけの、通信システム100の単一装置実施例での記憶装置と交換することもできる。
具体的には、マイクロホン111が音声信号を実時間で生成する。マイクロホン111は音声信号をA/D(アナログからデジタルへの)変換器115に渡す。A/D変換器115はアナログ音声信号をデジタル形式に変換し、次にデジタル化された音声信号を音声エンコーダ117に渡す。
音声エンコーダ117は、複数のエンコードモードのうち選択された1つを用いて、デジタル化された音声をエンコードする。複数のエンコードモードの各々は、結果として得
られる再現された音声の品質の最適化を試みる特定の技術を用いる。複数のモードのうちいずれかでの動作中、音声エンコーダ117は一連のモデリング情報およびパラメータ情報(たとえば「音声パラメータ」)を生成し、音声パラメータを任意のチャネルエンコーダ119に渡す。
任意のチャネルエンコーダ119はチャネルデコーダ131と協働して、通信チャネル130経由で音声パラメータを送る。チャネルデコーダ131は音声パラメータを音声デコーダ133に送る。音声エンコーダ117のモードに相当するモードでの動作中に、音声デコーダ133は音声パラメータから元の音声を可能な限り正確に再現しようと試みる。音声デコーダ133は再現された音声をD/A(デジタルからアナログへの)変換器135に渡し、再現された音声をスピーカ137から聞くことができる。
図2は、図1の通信装置の一例を示す機能ブロック図である。通信装置151は、音声を同時に取込みおよび再現するための音声エンコーダおよびデコーダの両方を含む。典型的に単一のハウジング内にある通信装置151はたとえば、セル方式電話、携帯電話、計算システム、またはその他の通信装置を含み得る。これに代えて、エンコードされた音声情報を記憶するためのメモリ要素が設けられる場合、通信装置151は、留守番録音装置、記録装置、音声メールシステム、またはその他の通信メモリ装置を含み得る。
マイクロホン155およびA/D変換器157は、デジタル音声信号をエンコードシステム159に渡す。エンコードシステム159は音声エンコードを行ない、結果として生じた音声パラメータ情報を通信チャネルに渡す。渡された音声パラメータ情報は、遠隔場所にある別の通信装置(図示せず)に向けられ得る。
音声パラメータ情報が受信されると、デコードシステム165は音声デコードを行なう。デコードシステムは音声パラメータ情報をD/A変換器167に渡し、スピーカ169からアナログ音声出力を流すことができる。最終的な結果として、可能な限り元の取込まれた音声に類似の音が再現される。
エンコードシステム159は、音声エンコードを行なう音声処理回路185と、任意のチャネルエンコードを行なう任意のチャネル処理回路187との両方を含む。同様にデコードシステム165は、音声デコードを行なう音声処理回路189と、チャネルデコードを行なう任意のチャネル処理回路191とを含む。
音声処理回路185と任意のチャネル処理回路187とを別個に例示しているが、これらを部分的または全体的に組合せて単一のユニットとすることもできる。たとえば音声処理回路185およびチャネル処理回路187は、単一のDSP(デジタル信号プロセッサ)および/またはその他の処理回路を共有してもよい。同様に音声処理回路189と任意のチャネル処理回路191とは、完全に別個であっても、またはこれらを部分的もしくは全体的に組合せてもよい。さらに、全体的または部分的な組合せを、音声処理回路185および189に適用、チャネル処理回路187および191に適用、処理回路185、187、189および191に適用、またはその他適宜に適用することが可能である。さらに、デコーダおよび/またはエンコーダの動作の様相を制御する回路の各々またはすべては制御ロジックと呼ばれることがあり、たとえばマイクロプロセッサ、マイクロコントローラ、CPU(中央演算処理装置)、ALU(算術論理演算装置)、コプロセッサ、ASIC(特定用途向け集積回路)、またはその他あらゆる種類の回路および/またはソフトウェアで実現され得る。
エンコードシステム159およびデコードシステム165はともにメモリ161を用いる。音声処理回路185は、ソースエンコード処理中に音声メモリ177の固定コードブ
ック181および適応コードブック183を用いる。同様に音声処理回路189は、ソースデコード処理中に固定コードブック181および適応コードブック183を用いる。
例示の音声メモリ177は音声処理回路185および189により共用されるが、処理回路185および189の各々に対し1つ以上の別個の音声メモリを割り当てることもできる。メモリ161はさらに、処理回路185、187、189および191により用いられてソースエンコード処理およびデコード処理に必要なさまざまな機能を行なうためのソフトウェアを含む。
音声符号化の改良の実施例について詳細に論じる前に、ここで音声エンコードアルゴリズム全体の概略を述べる。この明細書中で参照される改良された音声エンコードアルゴリズムは、たとえばCELPモデルに基づくeX−CELP(拡張CELP)アルゴリズムであり得る。eX−CELPアルゴリズムの詳細は、同じ譲受人であるコネクサント・システムズ・インコーポレイテッドに譲渡され、ここで引用により援用される米国特許出願、すなわち1999年9月22日に出願のコネクサント事件番号99RSS485、「4キロビット/秒音声符号化」と題された米国仮特許出願番号第60/155,321号で論じられている。
低いビットレート(たとえば1秒当り4キロビット)で通話品質を達成するために、改良された音声エンコードアルゴリズムは伝統的なCELPアルゴリズムの厳密な波形マッチングの基準からいくらか離れて、入力信号の知覚的に重要な特徴を取得しようと試みる。これを行なうために、改良された音声エンコードアルゴリズムは、ノイズ様の内容の程度、スパイク様の内容の程度、有声の内容の程度、無声の内容の程度、振幅スペクトルの展開、エネルギコンターの展開、周期性の展開など、いくつかの特徴に従って入力信号を分析し、この情報を用いてエンコードおよび量子化処理中の重み付けを制御する。ここにおける原理は、知覚的に重要な特徴を正確に表現し、あまり重要でない特徴については比較的大きなエラーも許容することである。結果として、改良された音声エンコードアルゴリズムは、波形マッチングの代わりに知覚的マッチングに着目する。知覚的マッチングに着目した結果として満足できる音声の再現が得られるが、このことは、秒速4キロビットでは波形マッチングが入力信号中の情報すべてを忠実に取込むのに十分正確ではないという前提による。これに従い、改良された音声エンコーダは或る優先順位付けを行なって、改良された結果を達成する。
特定の一実施例では、改良された音声エンコーダは20ミリ秒のフレームサイズ、または1秒当り160サンプルを用い、各フレームは2つまたは3つのサブフレームに分割される。サブフレームの数はサブフレーム処理のモードに依存する。この特定の実施例では、2つのモードすなわちモード0およびモード1のうち1つを、各音声フレームにつき選択できる。サブフレームを処理するやり方はモードに依存することが重要である。この特定の実施例では、モード0はフレーム当り2つのサブフレームを用い、ここで各サブフレームのサイズは10ミリ秒の期間であり、または80個のサンプルを含む。同様にこの実施例では、モード1はフレーム当り3つのサブフレームを用い、ここで第1および第2のサブフレームは6.625ミリ秒の持続時間であり、または53個のサンプルを含み、第3のサブフレームは6.75ミリ秒の持続時間であり、または54個のサンプルを含む。両方のモードで15ミリ秒の先取りを用いることができる。モード0およびモード1の両方につき、第10のオーダの線形予測(LP)モデルを用いて信号のスペクトルエンベロープを表わすことができる。たとえば遅延された決定、切換多段式予測ベクトル量子化方式(switched multi-stage predictive vector quantization scheme)を用いることにより、LPモデルを線スペクトル周波数(LSF)領域で符号化できる。
モード0はCELPアルゴリズムなどの伝統的な音声エンコードアルゴリズムを動作さ
せる。しかしモード0がすべての音声フレームに用いられるわけではない。モード0は、後により詳細に論じるように「周期性様」の音声以外の音声すべてのフレームを取扱うよう選択される。便宜上、「周期性様」の音声を周期性の音声と呼び、その他の音声すべては「非周期性」の音声である。このような「非周期性」の音声は、ピッチ相関およびピッチラグなどの典型的なパラメータが急速に変化する遷移フレームと、信号が大半はノイズ様の信号であるフレームとを含む。モード0は各フレームを2つのサブフレームに分割する。モード0はピッチラグをサブフレームにつき一回ずつ符号化し、さらに二次元ベクトル量子化器を有し、これにより、サブフレームにつき一回ずつ、ピッチ利得(すなわち適応コードブック利得)および固定コードブック利得を一緒に符号化する。この実施例で固定コードブックは、2つのパルスサブコードブックおよび1つのガウスサブコードブックを含む。これら2つのパルスサブコードブックは2つおよび3つのパルスをそれぞれ有する。
モード1は伝統的なCELPアルゴリズムとは異なる。モード1は周期性の音声を含むフレームを扱い、これは典型的に高い周期性を有し、しばしば平滑化されたピッチ区域で表わされる。この特定の実施例では、モード1はフレーム当り3つのサブフレームを用いる。ピッチラグは、ピッチ前処理の一部としてのサブフレーム処理より先にフレームにつき一回ずつ符号化され、このラグから、内挿されたピッチ区域が導き出される。サブフレームの3つのピッチ利得は極めて安定した挙動を示し、閉じたループのサブフレーム処理より先に平均2乗エラー基準に基づき前ベクトル量子化を用いて一緒に量子化される。量子化される3つの参照ピッチ利得は重み付けられた音声から導き出され、フレームに基づくピッチ前処理の副産物である。予め量子化されたピッチ利得を用いて、伝統的なCELPサブフレーム処理が行なわれるが、ただし3つの固定コードブック利得は量子化されないままである。これら3つの固定コードブック利得はサブフレーム処理後に一緒に量子化されるが、これはエネルギの移動平均予測を用いる遅延された決定手法に基づく。3つのサブフレームはこの後、完全に量子化されたパラメータと合成される。
フレーム内に含まれる音声の分類に基づき各音声フレームにつき処理モードを選択する態様と、周期性の音声を処理する革新的なやり方とにより、音声の知覚的な品質が著しく犠牲になることなく、著しく少ないビットで利得量子化が可能となる。音声を処理するこの態様の詳細を以下に述べる。
図3〜7は、図1および図2に例示の音声エンコーダの一実施例により用いられる多段式エンコード手法を例示する機能ブロック図である。特定的には、図3は多段式エンコード手法の第1のステージを含む音声プリプロセッサ193を例示する機能ブロック図である。図4は第2のステージを例示する機能ブロック図である。図5および図6は第3のステージのモード0を示す機能ブロック図である。図7は第3のステージのモード1を示す機能ブロック図である。音声エンコーダはエンコーダ処理回路を含み、典型的にソフトウェア命令の下で動作して以下の機能を行なう。
入力音声が読込まれてフレームへバッファリングされる。入力音声のフレーム192は図3の音声プリプロセッサ193に向かい、無音エンハンサ195に与えられ、無音エンハンサ195は、音声フレームが純粋な無音であるかどうか、すなわち「無音ノイズ」のみがあるのかどうかを判定する。音声エンハンサ195は、現在のフレームが純粋な「無音ノイズ」であるかどうかをフレームベースで適応的に検出する。信号192が「無音ノイズ」であれば、音声エンハンサ195は信号を信号192の0レベルにする。逆に信号192が「無音ノイズ」でなければ、音声エンハンサ195は信号192に変更を加えない。音声エンハンサ195は極めて低いレベルのノイズのためにクリーンな音声の無音部分をクリーンにし、こうしてクリーンな音声の知覚的な品質を向上させる。音声向上機能の効果は、入力音声がA法則源に由来する場合、すなわち入力がこの音声符号化アルゴリ
ズムでの処理の直前にA法則エンコードおよびデコードを通った場合に、特に認め得るものとなる。A法則は0付近のサンプル値(たとえば−1、0、+1)を−8または+8へ増幅するため、A法則での増幅は、不可聴の無音ノイズを、明確に聞き取ることができるノイズへ変化させ得る。音声エンハンサ195による処理の後、音声信号は高域通過フィルタ197に与えられる。
高域通過フィルタ197は或る遮断周波数を下回る周波数を除去し、遮断周波数よりも高い周波数がノイズ減衰器199へ通過することを許す。この特定の実施例で高域通過フィルタ197は、ITU−TのG.729音声符号化規格の入力高域通過フィルタと同一である。すなわちこれは、遮断周波数が140ヘルツ(Hz)である第2のオーダのポール0フィルタである。当然のことながら、高域通過フィルタ197はこのようなフィルタでなくてもよく、適当なものであれば当業者に公知のどの種類のフィルタで構成してもよい。
ノイズ減衰器199はノイズサプレッションアルゴリズムを実行する。この特定の実施例でノイズ減衰器199は、音声エンコードアルゴリズムによるパラメータの推定を向上させるために、最大5デシベル(dB)の環境ノイズの弱いノイズ減衰を行なう。無音を向上、高域通過フィルタ197を構築、およびノイズを減衰する特定の方法は、当業者に公知の数多くの技術のうちどれを用いてもよい。音声プリプロセッサ193の出力として、前処理された音声200が得られる。
当然のことながら、無音エンハンサ195、高域通過フィルタ197およびノイズ減衰器199は、当業者に公知で特定の用途に適当な他のどの装置と取替えてもよく、またはそのような態様で変形可能である。
図4を参照して、音声信号の一般的なフレームベースの処理の機能ブロック図が示される。換言すると、図4はフレーム単位での音声信号の処理を例示する。このフレーム処理は、モード(たとえばモード0または1)を問わず、モード依存の処理250が行なわれる前に行なわれる。前処理された音声200は知覚的重み付けフィルタ252により受取られ、これは谷間の区域を強調し、かつ前処理された音声信号200のピーク区域を強調せずにおくように動作する。知覚的重み付けフィルタ252は、当業者に公知で特定の用途に適当な他のどの装置と取替えてもよく、またはそのような態様で変形可能である。
LPCアナライザ260は前処理された音声信号200を受取り、音声信号200の短期のスペクトルエンベロープを推定する。LPCアナライザ260は、音声信号200を規定する特性からLPC係数を抽出する。一実施例では、第10のオーダのLPC分析3つが各フレームにつき行なわれる。これら分析は、フレームの真中3分の1、最後3分の1、および先取りの中心に置かれる。先取りについてのLPC分析は、次のフレームで、フレームの最初3分の1の中心に置かれるLPC分析として再利用される。こうして各フレームにつき4組のLPCパラメータが生成される。LPCアナライザ260はさらに、たとえば線スペクトル周波数(LSF)領域へのLPC係数の量子化を行なうことができる。LPC係数の量子化はスカラまたはベクトル量子化であり、当該技術で公知のどのやり方で、どの適当な領域内で行なってもよい。
分類器270は、たとえばフレームの絶対最大値、反射係数、予測エラー、LPCアナライザ260からのLSFベクトル、第10のオーダの自己相関、最近のピッチラグ、および最近のピッチ利得を調べることにって、前処理された音声200の特性についての情報を入手する。これらのパラメータは当業者に公知であるため、ここではこれ以上説明しない。分類器270はこの情報を用いてエンコーダのその他の要素、たとえば信号対雑音比、ピッチ推定、分類、スペクトル平滑化、エネルギ平滑化、および利得正規化などを制
御する。これらの様相もまた当業者には公知であるため、ここではこれ以上説明しない。分類アルゴリズムの簡単な概要を次に述べる。
分類器270は、ピッチプリプロセッサ254の助けとともに、フレームの支配的な特徴に従って各フレームを6つのクラスのうち1つに分類する。これらクラスは(1)無音/バックグラウンドノイズ、(2)ノイズ/無声様の音声、(3)無声、(4)遷移(開始を含む)、(5)非定常の有声、および(6)定常の有声、である。分類器270は、入力信号を周期性の信号および非周期性の信号に分類するのにどのような手法を用いてもよい。たとえば分類器270は、前処理された音声信号、フレームの後半の相関およびピッチラグ、ならびにその他の情報を入力パラメータとすることができる。
音声が周期性と考えられるかどうかを判定するにはさまざまな基準を用いることができる。たとえば、音声が定常で有声の信号であれば、音声は周期性と考えられ得る。人によっては、定常な有声の音声、および非定常な有声の音声が周期性の音声に含まれると考えるかもしれないが、この明細書では周期性の音声は定常な有声の音声を含む。さらに周期性の音声は、平滑化され定常な音声であり得る。音声信号がフレーム内で或る量を超えて変化しなければ、有声の音声は「定常」と考えられる。このような音声信号は、はっきりと定められたエネルギコンターを有する可能性がより高い。音声の適応コードブック利得GPがしきい値を上回れば、この音声信号は「平滑」である。たとえばしきい値が0.7であれば、サブフレーム内の音声信号は、その適応コードブック利得GPが0.7を上回れば平滑と考えられる。非周期性の音声または有声でない音声は、無声の音声(たとえば“shhh(シーッ)”音などの摩擦音)、遷移(たとえば開始、終了)、バックグラウンドノイズおよび無音を含む。
より具体的には、例示的な実施例において音声エンコーダはまず以下のパラメータを導き出す。
スペクトル傾斜(フレーム当り4回の第1の反射係数の推定)
Figure 2004206132
ここでL=80は反射係数が算出される窓であり、sk(n)は
Figure 2004206132
により与えられる第kのセグメントであり、ここでwh(n)は80サンプルのハミング窓であり、s(0)、s(1)、…s(159)は前処理された音声信号の現在のフレームである。
絶対最大値(絶対信号最大値の追跡、フレーム当り8回の推定)
Figure 2004206132
ここでns(k)およびne(k)はそれぞれ、フレームの時間k・160/8サンプルにおける第kの最大値を探すための始まりおよび終わりの点である。一般にセグメントの長さは、ピッチ周期およびセグメントオーバーラップの1.5倍である。こうして振幅エンベロープの平滑化されたコンターを得ることができる。
スペクトル傾斜、絶対最大値およびピッチ相関パラメータは、分類のための基礎を形成する。しかしながら、分類決定の前に追加的なパラメータ処理および分析が行なわれる。まずパラメータ処理は、3つのパラメータに重み付けを適用する。重み付けは、バックグラウンドノイズからの寄与を減じることにより、或る意味でパラメータ内のバックグラウンドノイズ成分を取除く。これにより、あらゆるバックグラウンドノイズから「独立」で、従ってより一様なパラメータ空間が得られ、こうしてバックグラウンドノイズに対する分類の強固さが向上する。
ノイズのピッチ周期エネルギのラン中間、ノイズのスペクトル傾斜、ノイズの絶対最大値、およびノイズのピッチ相関は、以下の式4〜7に従ってフレーム当り8回更新される。式4〜7で規定される以下のパラメータはフレーム当り8回推定/サンプリングされ、これによりパラメータ空間の細かい時間分解が得られる。
ノイズのピッチ周期エネルギのラン中間
Figure 2004206132
ここでEN,p(k)は、フレームの時間k・160/8サンプルにおけるピッチ周期の正規化されたエネルギである。ピッチ周期は典型的に20個のサンプル(160サンプル/8)を超えるため、エネルギが算出されるセグメントはオーバーラップし得る。
ノイズのスペクトル傾斜のラン中間
Figure 2004206132
ノイズの絶対最大値のラン中間
Figure 2004206132
ノイズのピッチ相関のラン中間
Figure 2004206132
ここでRPは、フレームの後半の入力ピッチ相関である。適応定数α1は適応的であるが、典型的な値はα1=0.99である。
バックグラウンドノイズ対信号比は以下の式により算出される。
Figure 2004206132
パラメータのノイズ減衰は30dBに制限、すなわち以下のようにされる。
Figure 2004206132
ノイズのないパラメータ組(重み付けられたパラメータ)は、以下の式10〜12に従ってノイズ成分を取除くことにより得られる。
重み付けられたスペクトル傾斜の推定
Figure 2004206132
重み付けられた絶対最大値の推定
Figure 2004206132
重み付けられたピッチ相関の推定
Figure 2004206132
重み付けられた傾斜および重み付けられた最大値の展開は、第1のオーダの近似の勾配としてそれぞれ以下の式13および式14に従って算出される。
Figure 2004206132
Figure 2004206132
フレームの8個のサンプル点について式4から式14のパラメータが一旦更新されると、フレームに基づく以下のパラメータが式4〜14のパラメータから算出される。
重み付けられた最大ピッチ相関
Figure 2004206132
重み付けられた平均ピッチ相関
Figure 2004206132
重み付けられた平均ピッチ相関のラン中間
Figure 2004206132
ここでmはフレーム番号であり、α2=0.75は適応定数である。
ピッチラグの正規化された標準偏差
Figure 2004206132
ここでLp(m)は入力ピッチラグであり、μLp(m)は、以下の式により与えられる過去の3つのフレームにわたるピッチラグの中間である。
Figure 2004206132
重み付けられた最小スペクトル傾斜
Figure 2004206132
重み付けられた最小スペクトル傾斜のラン中間
Figure 2004206132
重み付けられた平均スペクトル傾斜
Figure 2004206132
重み付けられた傾斜の最小勾配
Figure 2004206132
重み付けられたスペクトル傾斜の累積勾配
Figure 2004206132
重み付けられた最大値の最大勾配
Figure 2004206132
重み付けられた最大値の累積勾配
Figure 2004206132
式23、式25および式26で与えられたパラメータは、フレームが開始を含む可能性があるかどうかをマークするのに用いられ、式16〜18、式20〜22で与えられたパラメータは、フレームで有声の音声が支配的である可能性があるかどうかをマークするのに用いられる。初期マーク、過去マークおよびその他の情報に基づき、フレームは6つのクラスのうち1つに分類される。
分類器270が前処理された音声200を分類するやり方についてのより詳細な説明は、同じ譲受人であるコネクサント・システムズ・インコーポレイテッドに譲渡され、ここで引用により援用される米国特許出願、すなわち1999年9月22日に出願のコネクサント事件番号99RSS485、「4キロビット/秒音声符号化」と題された米国仮特許出願番号第60/155,321号に記載されている。
LSF量子化器267はLPCアナライザ260からLPC係数を受取り、LPC係数を量子化する。LSF量子化はスカラまたはベクトル量子化を含むどの公知の量子化方法であってもよく、この量子化の目的は、係数をより少数のビットで表現することである。この特定の実施例では、LSF量子化器267は第10のオーダのLPCモデルを量子化する。さらにLSF量子化器267はLSFを平滑化することで、LPC合成フィルタのスペクトルエンベロープでの望ましくない変動を減少させ得る。LSF量子化器267は量子化された係数Aq(z)268を音声エンコーダのサブフレーム処理部分250に送る。音声エンコーダのサブフレーム処理部分はモードに依存する。LSFが好ましいが、量子化器267はLSF領域以外の領域へLPC係数を量子化することもできる。
ピッチ前処理が選択される場合、重み付けられた音声信号256はピッチプリプロセッサ254に送られる。ピッチプリプロセッサ254は開いたループのピッチ推定器272と協働して、重み付けられた音声256に変更を加え、こうしてそのピッチ情報をより正確に量子化することができる。たとえばピッチプリプロセッサ254は、ピッチ利得を量子化する音声エンコーダの能力を向上させるために、ピッチサイクルに対し公知の圧縮または解凍技術を用いることができる。換言するとピッチプリプロセッサ254は、重み付けられた音声信号256に変更を加え推定ピッチトラックをより良くマッチングさせ、こうしてより正確に符号化モデルに適合し、一方で知覚的に区別がつかない再現された音声をもたらす。エンコーダ処理回路がピッチ前処理モードを選択すると、ピッチプリプロセッサ254は重み付けられた音声信号256のピッチ前処理を行なう。ピッチプリプロセッサ254は、重み付けられた音声信号256を歪めることにより、デコーダ処理回路により生成されるであろう内挿されるピッチ値をマッチングさせる。ピッチ前処理が適用される場合、歪められた音声信号は、変更を加えられ重み付けられた音声信号258と呼ばれる。ピッチ前処理モードが選択されない場合、重み付けられた音声信号256はピッチ前処理なしにピッチプリプロセッサ254を通過する(便宜上、これも「変更を加えられ重み付けられた音声信号」258と呼ぶ)。ピッチプリプロセッサ254は波形内挿器を
含み得るが、これの機能および実現例は当業者に公知である。波形内挿器は、公知の順方向・逆方向波形内挿技術を用いて或る不規則な遷移セグメントに変更を加え、こうして音声信号の規則性を高め不規則性を抑えることができる。重み付けられた信号256についてのピッチ利得およびピッチ相関はピッチプリプロセッサ254により推定される。開いたループのピッチ推定器272は、重み付けられた音声256からピッチ特性についての情報を抽出する。ピッチ情報はピッチラグおよびピッチ利得情報を含む。
ピッチプリプロセッサ254はさらに、開いたループのピッチ推定器272を通じ分類器270と対話して、分類器270による音声信号の分類をより細かくする。ピッチプリプロセッサ254は音声情報について追加の情報を入手するため、分類器270でこの追加の情報を用いて音声信号の分類を微調整することができる。ピッチプリプロセッサ254はピッチ前処理を行なった後に、ピッチトラック情報284および量子化されていないピッチ利得286を、音声エンコーダのモード依存サブフレーム処理部分254に出力する。
一旦分類器270が、前処理された音声200を複数の可能なクラスのうち1つに分類すると、前処理された音声信号200の分類番号が、モード選択器274およびモード依存サブフレームプロセッサ250へ制御情報280として送られる。モード選択器274は分類番号を用いて動作モードを選択する。この特定の実施例では、分類器270は前処理された音声信号200を6つの可能なクラスのうち1つへ分類する。前処理された音声信号200が定常で有声の音声(たとえば「周期性」の音声と呼ばれる)であれば、モード選択器274はモード282をモード1に設定する。そうでなければ、モード選択器274はモード282をモード0に設定する。モード信号282は、音声エンコーダのモード依存サブフレーム処理部分250に送られる。モード情報282は、デコーダへ送信されるビットストリームに追加される。
「周期性」および「非周期性」と音声を名づけることは、この特定の実施例においていくらか注意して解釈されるべきである。たとえばモード1を用いてエンコードされたフレームは、フレーム当り7つのビットのみから導き出されたピッチトラック284に基づく、フレーム全体にわたる高ピッチ相関および高ピッチ利得を維持するフレームである。従ってモード1の代わりにモード0が選択されることは、7つのビットのみによるピッチトラック284の不正確な表現に由来している可能性があり、必ずしも周期性がないことに由来するわけではない。従ってモード0を用いてエンコードされた信号は、ピッチトラックについてのフレーム当り7つのビットのみによって良く表現されてはいないとしても、周期性を含む可能性はある。従ってモード0は、ピッチトラックをより良く表現するために、フレーム当り7ビットの2倍、すなわちフレーム当り合計14ビットでピッチトラックをエンコードする。
図3〜4の機能ブロックの各々、およびこの明細書中の他の図は、別個の構造である必要はなく、所望に応じて1つ以上のさらなる機能ブロックと組合せることもできる。
音声エンコーダのモード依存サブフレーム処理部分250は、モード0およびモード1の2つのモードで動作する。図5〜6はモード0サブフレーム処理の機能ブロック図を示し、図7は音声エンコーダの第3のステージのモード1サブフレーム処理の機能ブロック図を示す。図8は、改良された音声エンコーダに相当する音声デコーダのブロック図を示す。音声デコーダはビットストリームのアルゴリズムパラメータへの逆マッピングを行ない、これにモード依存の合成が続く。これらの数およびモードのより詳細な説明は、同じ譲受人であるコネクサント・システムズ・インコーポレイテッドに譲渡された米国特許出願、すなわち2000年5月19日に出願のコネクサント事件番号99RSS312、「新しい音声利得量子化方策」と題された米国特許出願番号第09/574,396号に記
載されており、その出願全体はここで引用により援用される。
音声信号を表現する量子化されたパラメータはパケット化され、データパケットとしてエンコーダからデコーダへ送信される。次に記載する実施例では、音声信号はフレーム単位で分析され、各フレームは少なくとも1つのサブフレームを有し、各データパケットは1フレームについての情報を含み得る。従ってこの例では、各フレームについてのパラメータ情報は情報パケットとして送信される。換言すると、各フレームにつき1つのパケットがある。当然のことながら他の変形例が可能であり、実施例に依存して各パケットは、フレームの一部、音声フレームよりも多くのもの、または複数のフレームを表わし得る。
LSF
LSF(線スペクトル周波数)は、LPCスペクトル(すなわち音声スペクトルの短期のエンベロープ)の表現である。LSFは、音声スペクトルがサンプリングされる特定の周波数として考えられ得る。たとえばシステムが第10のオーダのLPCを用いる場合、フレームにつき10個のLSFがあることになる。連続するLSF間に最小限の間隔をあけ、これらが準不安定なフィルタをもたらさないようにする必要がある。たとえば、fiが第iのLSFでありかつ100Hzと等しければ、第(i+1)のLSFすなわちfI+1は少なくともfi+最小間隔である必要がある。たとえば、fi=100Hzであり、かつ最小間隔が60Hzであれば、fI+1は少なくとも160Hzでなければならず、160Hzを上回ればどの周波数であってもよい。最小間隔はフレームごとに変化しない固定数であり、さらにエンコーダおよびデコーダの両方にとって既知であり、これによりこの両方は協働できる。
エンコーダがLSFを符号化するのに、(予測的でない符号化でなく)低ビットレートで音声通信を達成するのに必要な予測的な符号化を用いると想定する。換言すると、エンコーダは現在のフレームのLSFを予測するのに前フレームの量子化されたLSFを用いる。エンコーダがLPCスペクトルから導き出す現在のフレームの真のLSFと、予測LSFとの間のエラーは、量子化されてデコーダに送信される。デコーダは、エンコーダと同じやり方で現在のフレームの予測LSFを求める。次にデコーダは、エンコーダにより送信されたエラーを知ることで現在のフレームの真のLSFを算出できる。しかし、もしLSF情報を含むフレームが紛失した場合どうなるであろうか。図9を参照して、エンコーダがフレーム0〜3を送信し、デコーダがフレーム0、2および3のみを受信すると想定されたい。フレーム1は紛失または「消去」されたフレームである。現在のフレームが紛失フレーム1であれば、デコーダは真のLSFを算出するのに必要なエラー情報を有さない。結果として先行技術のシステムは真のLSFを算出せず、その代わりにLSFを、前フレームのLSF、または或る数の前フレームの平均LSFに設定する。この手法の問題は、現在のフレームのLSFが(真のLSFと比較して)あまりに不正確であり、後続フレーム(すなわち図9の例のフレーム2および3)が自身のLSFを求めるためにフレーム1の不正確なLSFを用いるおそれがあることである。従ってフレームの紛失によって生じたLSF外挿エラーは、後続フレームのLSFの正確さを損なってしまう。
この発明の実施例では、改良された音声デコーダは、紛失フレームに続く良好なフレームの数を計数するカウンタを含む。図10は、各フレームに関連づけられた最小限のLSF間隔を例示する。良好なフレーム0がデコーダにより受信され、フレーム1が紛失したと想定されたい。先行技術の手法では、LSF間の最小間隔は変化しない固定数(図10の60Hz)であった。対照的に、改良された音声デコーダがフレームの紛失に気づくと、デコーダはこのフレームの最小間隔を増加させることで、準不安定なフィルタをもたらすことを避ける。この「制御された適応LSF間隔」の増加量は、どの間隔増加がその特定の場合に最善であるかに依存する。たとえば改良された音声デコーダは、信号のエネルギ(または信号の電力)が時間の経過につれてどのように展開したか、および信号の周波
数内容(スペクトル)が時間の経過につれてどのように展開したかを考慮し、さらにカウンタを考慮することにより、紛失フレームの最小間隔をどの値に設定すべきかを求めることができる。当業者であれば、簡単な実験を行なってどの最小間隔値が使用のために十分であるかを求めることができるであろう。音声信号および/またはそのパラメータを分析して適当なLSFを導き出す1つの利点は、結果として得られるLSFがこのフレームの真の(しかし紛失した)LSFに対してより近くなるであろうことである。
適応コードブック励振(ピッチラグ)
適応コードブック励振および固定コードブック励振からなる総励振eTは以下の式で記述される。
Figure 2004206132
ここでgpおよびgcは、それぞれ量子化された適応コードブック利得および固定コードブック利得であり、expおよびexcは適応コードブック励振および固定コードブック励振である。バッファ(適応コードブックバッファとも呼ばれる)は、先行フレームからのeTおよびその成分を保持する。現在のフレームのピッチラグパラメータに基づき、音声通信システムはバッファからeTを選択し、これを現在のフレームについてのexpとして用いる。gp、gcおよびexcについての値は現在のフレームから入手される。次に、exp、gp、gcおよびexcを式に入れて現在のフレームについてeTを算出する。現在のフレームについて算出されたeTおよびその成分はバッファに記憶される。このプロセスを繰返し、次にバッファリングされたeTを次フレームについてのexpとして用いる。このように、このエンコード手法のフィードバック的性格(これはデコーダによって繰返される)が明らかである。式中の情報は量子化されるため、エンコーダおよびデコーダは同期される。バッファは適応コードブックの一種である(ただし、利得励振に用いられる適応コードブックとは異なる)ことに注目されたい。
図11は、先行技術の音声システムにより伝送される、4つのフレーム1〜4についてのピッチラグ情報を例示する。先行技術のエンコーダは現在のフレームについてのピッチラグおよびデルタ値を伝送し、ここでデルタ値は、現在のフレームのピッチラグと前フレームのピッチラグとの差である。EVRC(拡張可変レートコーダ)規格はデータピッチラグの使用を規定している。従って、たとえばフレーム1に関する情報パケットは、ピッチラグL1およびデルタ(L1−L0)を含むことになり、ここでL0は先行するフレーム0のピッチラグであり、フレーム2に関する情報パケットは、ピッチラグL2およびデルタ(L2−L1)を含むことになり、フレーム3に関する情報パケットはピッチラグL3およびデルタ(L3−L2)を含むことになり、などとなる。なお、隣接するフレームのピッチラグが等しく、このためデルタ値が0であることもある。フレーム2が紛失してデコーダで受信されなければ、フレーム2の時に利用可能なピッチラグについての情報はピッチラグL1のみであり、それは前フレーム1が紛失していないことによる。ピッチラグL2およびデルタ(L2−L1)情報の紛失は2つの問題を生じさせていた。第1の問題は、紛失フレーム2について正確なピッチラグL2をどのように推定するかである。第2の問題は、ピッチラグL2を推定する際のエラーが後続フレームにエラーを引き起こすことをどのように防ぐかである。或る先行技術のシステムはどちらの問題にも対処していない。
第1の問題を解決する試みとして、或る先行技術のシステムは良好な前フレーム1からのピッチラグL1を紛失フレーム2についての推定ピッチラグL2′として用いるが、推
定ピッチラグL2′と真のピッチラグL2との差はどれもエラーとなるであろう。
第2の問題は、推定ピッチラグL2′でのエラーが後続フレームにエラーを引き起こすことをどのように防ぐかである。既に論じたように、フレームnのピッチラグは適応コードブックバッファを更新するのに用いられ、これが今度は後続フレームにより用いられることを想起されたい。推定ピッチラグL2′と真のピッチラグL2との間のエラーは、適応コードブックバッファでエラーを引き起こし、これが今度は後に受信されるフレームでエラーを引き起こすことになる。換言すると、推定ピッチラグL2′でのエラーの結果、エンコーダの観点からの適応コードブックバッファと、デコーダの観点からの適応コードブックバッファとの間に同時性が失われるおそれがある。さらなる例として、先行技術のデコーダは、現在の紛失フレーム2の処理中に、ピッチラグL1(これは恐らく真のピッチラグL2とは異なる)を推定ピッチラグL2′として用いて、フレーム2についてのexpを取戻すことになる。従って、間違ったピッチラグの使用によってフレーム2で誤ったexpが選択され、このエラーは後続フレーム全体にわたって伝搬する。この先行技術の問題を解決するために、フレーム3がデコーダにより受信されると、デコーダはここではピッチラグL3およびデルタ(L3−L2)を有し、こうして真のピッチラグL2が何であるはずであったかを逆算できる。真のピッチラグL2は、単にピッチラグL3からデルタ(L3−L2)を引いたものである。先行技術のデコーダはこのように、フレーム3により用いられる適応コードブックバッファを訂正できるかもしれない。紛失フレーム2は推定ピッチラグL2′で既に処理されているため、紛失フレーム2を訂正するのはもはや手遅れである。
図12は、ピッチラグ情報の紛失による両方の問題に対処する改良された音声通信システムの実施例の動作を示すための、フレームの仮定的な事例を示す。フレーム2が紛失し、フレーム0、1、3および4が受信されると想定されたい。デコーダが紛失フレーム2を処理する間、改良されたデコーダは前フレーム1からのピッチラグL1を用いることができる。これに代えてまたは好ましくは、改良されたデコーダは、前フレームのピッチラグに基づき外挿を行なって推定ピッチラグL2′を求めることができ、この結果ピッチラグL1よりも正確な推定が可能となる。このように、たとえばデコーダは推定ピッチラグL2′を外挿するためにピッチラグL0およびL1を用いることができる。外挿方法はどの外挿方法であってもよく、たとえば、紛失ピッチラグL2を推定するために、過去から平滑化されたピッチコンターを仮定する曲線の当てはめの方法、過去のピッチラグの平均を用いる方法、またはその他どの外挿方法であってもよい。この手法により、デルタ値を送信する必要がないため、エンコーダからデコーダへ送信するビットの数が減少する。
第2の問題を解決するために、改良されたデコーダがフレーム3を受信すると、デコーダは正しいピッチラグL3を有する。しかし上述のように、フレーム3によって用いられる適応コードブックバッファは、ピッチラグL2′を推定する際の外挿エラーのために正しくないおそれがある。改良されたデコーダは、デルタピッチラグ情報を送信せずに、フレーム2のピッチラグL2′を推定する際のエラーがフレーム2後のフレームに影響を与えることを阻止しようと試みる。改良されたデコーダは、一旦ピッチラグL3を入手すると、曲線の当てはめの方法などの内挿方法を用いてピッチラグL2′の以前の推定を調整または微調整する。ピッチラグL1およびL3が知られているので、曲線の当てはめの方法はピッチラグL3が知られていない場合よりも正確にL2′を推定できる。結果として、微調整されたピッチラグL2″が得られ、これを用いて、フレーム3による使用のために適応コードブックバッファを調整または訂正する。より特定的に、微調整されたピッチラグL2″は、適応コードブックバッファにある量子化された適応コードブック励振を調整または訂正するのに用いられる。こうして、改良されたデコーダは送信すべきビットの数を減少させ、さらに、ほとんどの場合で満足できるやり方でピッチラグL2′を微調整する。こうして、後に受信されたフレームに対する、ピッチラグL2の推定でのあらゆる
エラーの影響を減少させるために、改良されたデコーダは次フレーム3のピッチラグL3と、前に受信されたフレーム1のピッチラグL1とを用い、平滑化されたピッチコンターを仮定してピッチラグL2についての前の推定を微調整する。紛失フレームに先行および後続する受信フレームのピッチラグに基づくこの推定手法の正確さは極めて良好であり得るが、それはピッチコンターが有声の音声については一般に平滑であるからである。
利得
エンコーダからデコーダへのフレームの送信中、フレームが紛失する結果として、適応コードブック利得gpおよび固定コードブック利得gcなどの利得パラメータも紛失する。各フレームは複数のサブフレームを含み、各サブフレームは利得情報を有する。従ってフレームの紛失の結果、フレームの各サブフレームにある利得情報も紛失する。音声通信システムは、紛失フレームの各サブフレームにつき利得情報を推定する必要がある。1つのサブフレームの利得情報は、別のサブフレームの利得情報と異なることがある。
先行技術のシステムは紛失フレームのサブフレームについての利得を推定するために、良好な前フレームの最後のサブフレームからの利得を紛失フレームの各サブフレームの利得として用いるなど、さまざまな手法をとっていた。別の変形例では、良好な前フレームの最後のサブフレームからの利得を紛失フレームの第1のサブフレームの利得として用い、この利得を漸次減衰させてからこれを紛失フレームの次サブフレームの利得として用いる。換言すると、たとえば各フレームが4つのサブフレームを有し、フレーム1が受信されフレーム2が紛失した場合、受信されたフレーム1の最後のサブフレームにある利得パラメータを、紛失フレーム2の第1のサブフレームの利得パラメータとして用い、次に利得パラメータを或る量だけ減少させて紛失フレーム2の第2のサブフレームの利得パラメータとして用い、利得パラメータを再び減少させて紛失フレーム2の第3のサブフレームの利得パラメータとして用い、利得パラメータをさらに減少させて紛失フレーム2の最後のサブフレームの利得パラメータとして用いる。さらに別の手法では、前に受信された固定数のフレームのサブフレームの利得パラメータを調べて平均利得パラメータを算出し、次にこれを紛失フレーム2の第1のサブフレームの利得パラメータとして用い、ここで利得パラメータを漸次減少させて紛失フレームの残りのサブフレームの利得パラメータとして用いることができる。さらに別の手法では、前に受信された固定数のフレームのサブフレームを調べて、中間値を紛失フレーム2の第1のサブフレームの利得パラメータとして用いることで、中間利得パラメータを導き出し、ここで利得パラメータを漸次減少させて紛失フレームの残りのサブフレームの利得パラメータとして用いることができる。注目すべきことに、先行技術の手法は適応コードブック利得と固定コードブック利得とに対し異なった回復方法を行なわず、両方の種類の利得に対し同じ回復方法を用いていた。
改良された音声通信システムはさらに、フレームが紛失したために紛失した利得パラメータを扱うことができる。音声通信システムが周期性様の音声と非周期性様の音声とを差別化すれば、システムは音声の各種類ごとに異なって紛失利得パラメータを扱うことができる。さらに、改良されたシステムは紛失適応コードブック利得を、紛失固定コードブック利得とは異なって扱う。まず非周期性様の音声の場合を検討する。推定適応コードブック利得gpを求めるために、改良されたデコーダは前に受信された適応的な数のフレームのサブフレームの平均gpを計算する。デコーダにより推定された現在のフレーム(すなわち紛失フレーム)のピッチラグを用いて、前に受信された調べるべきフレームの数を求める。一般にピッチラグが大きいほど、平均gpを算出するのに用いるべき前に受信されたフレームの数は大きくなる。こうして、改良されたデコーダはピッチ同期平均手法を用いて、非周期性様の音声についての適応コードブック利得gpを推定する。次に、改良されたデコーダは以下の式に基づいてベータβを算出し、これはgpの予測がどれだけ良好であるかを示す。
Figure 2004206132
βは0から1まで変化し、総励振エネルギに対する適応コードブック励振エネルギの効果を百分率で表わす。βが大きいほど、適応コードブック励振エネルギの効果は大きくなる。改良されたデコーダは非周期性様の音声と周期性様の音声とを異なって扱うことが好ましいが、これは必須ではない。
図16は、非周期性様の音声についてのデコーダの処理のフローチャートを例示する。ステップ1000は、現在のフレームがフレーム(すなわち「良好な」フレーム)を受信した後に失われた第1のフレームであるかどうかを判定する。現在のフレームが良好なフレーム後の第1の紛失フレームであれば、ステップ1002は、デコーダにより処理されている現在のサブフレームがフレームの第1のサブフレームであるかどうかを判定する。現在のサブフレームが第1のサブフレームであれば、ステップ1004は或る数の前サブフレームについての平均gpを計算し、ここでサブフレームの数は現在のサブフレームのピッチラグに依存する。例示的な実施例では、ピッチラグが40以下であれば、平均gpは2つの前サブフレームに基づく。ピッチラグが40よりも大きくかつ80以下であれば、平均gpは4つの前サブフレームに基づく。ピッチラグが80よりも大きくかつ120以下であれば、平均gpは6つの前サブフレームに基づく。ピッチラグが120よりも大きければ、平均gpは8つの前サブフレームに基づく。当然のことながらこれらの値は任意であり、サブフレームの長さに依存して他のどの値に設定してもよい。ステップ1006は、最大値βが或るしきい値を超えるかどうかについて判定する。最大値βが或るしきい値を超えれば、ステップ1008は、紛失フレームのサブフレームすべてについて固定コードブック利得gcをゼロに設定し、紛失フレームのサブフレームすべてについてgpを、上で求められた平均gpの代わりに、0.95などの任意に大きい数に設定する。この任意に大きい数は良好な発声の信号を示す。紛失フレームの現在のサブフレームのgpが設定される任意に大きい数はいくつかの要因に基づき得るが、これには或る数の前フレームの最大値β、前に受信されたフレームのスペクトル傾斜、および前に受信されたフレームのエネルギが含まれるが、これらに限定はされない。
逆に、最大値βが或るしきい値を超えない(すなわち前に受信されたフレームが音声の開始を含む)場合、ステップ1010は紛失フレームの現在のサブフレームのgpを(i)上で求めた平均gp、および(ii)任意に選択された大きさの数(たとえば0.95)、の最小値に設定する。これに代えて、紛失フレームの現在のサブフレームのgpを、前に受信されたフレームのスペクトル傾斜、前に受信されたフレームのエネルギ、および上で求めた平均gpと任意に選択された大きさの数(たとえば0.95)との最小値に基づき、設定することもできる。最大値βが或るしきい値を超えない場合、固定コードブック利得gcは、前サブフレームでの利得スケーリング(gain scaled)固定コードブック励振のエネルギ、および現在のサブフレームでの固定コードブック励振のエネルギに基づく。具体的には、前サブフレームでの利得スケーリング固定コードブック励振のエネルギを、現在のサブフレームでの固定コードブック励振のエネルギで割り、これの結果を、その平方根を求めて減衰分数により乗じ、以下の式に示すgcに設定する。
Figure 2004206132
これに代えてデコーダは、前に受信されたフレームのエネルギの、現在の紛失フレームのエネルギに対する比に基づいて、紛失フレームの現在のサブフレームについてのgcを導くことができる。
ステップ1002に戻ると、現在のサブフレームが第1のサブフレームでなければ、ステップ1020は、紛失フレームの現在のサブフレームのgpを、前サブフレームのgpから減衰または減少された値に設定する。残りのサブフレームの各々のgpは、前サブフレームのgpからさらに減衰された値に設定される。現在のサブフレームのgcは、ステップ1010および式29と同じやり方で算出される。
ステップ1000に戻ると、現在のフレームが良好なフレーム後の第1の紛失フレームでなければ、ステップ1022は、ステップ1010および式29と同じやり方で現在のサブフレームのgcを算出する。ステップ1022はさらに、紛失フレームの現在のサブフレームのgpを、前サブフレームのgpから減衰および減少された値に設定する。デコーダがgpとgcとを異なって推定するため、デコーダはこれらを先行技術のシステムよりも正確に推定できる。
次に、図17に例示するフローチャートに従って周期性様の音声の場合を検討する。デコーダは、周期性様の音声および非周期性様の音声についてのgpおよびgcを推定するのに異なった手法を適用できるため、利得パラメータの推定は先行技術の手法よりも正確となるであろう。ステップ1030は、現在のフレームがフレーム(すなわち「良好な」フレーム)を受信した後に紛失した第1のフレームであるかどうかを判定する。現在のフレームが良好なフレーム後の第1の紛失フレームであれば、ステップ1032はgcを、現在のフレームのサブフレームすべてにつきゼロに設定し、gpを、現在のフレームのサブフレームすべてについて0.95などの任意に大きい数に設定する。現在のフレームが良好なフレーム後の第1の紛失フレームでなければ(たとえば第2の紛失フレーム、第3の紛失フレームなど)、ステップ1034はgcを、現在のフレームのサブフレームすべてにつきゼロに設定し、gpを、前サブフレームのgpから減衰された値に設定する。
図13は、改良された音声デコーダの動作を例示するためのフレームの事例を示す。フレーム1、3および4が良好(すなわち受信された)フレームであり、フレーム2、5〜8が紛失フレームであると想定されたい。現在の紛失フレームが良好なフレーム後の第1の紛失フレームであれば、デコーダはgpを紛失フレームのサブフレームすべてについて任意に大きい数(たとえば0.95)に設定する。図13を参照すると、これは紛失フレーム2および5に当てはまる。第1の紛失フレーム5のgpは漸次減衰され、他の紛失フレーム6〜8のgPを設定する。こうして、たとえばgpが紛失フレーム5で0.95に設定されると、gpは紛失フレーム6については0.9に、紛失フレーム7については0.85に、紛失フレーム8については0.8に設定され得る。gcについては、デコーダは前に受信されたフレームから平均gpを計算し、この平均gpが或るしきい値を超えれば、gcは紛失フレームのサブフレームすべてにつきゼロに設定される。平均gpが或るしきい値を超えなければ、デコーダは上述の非周期性様の信号についての同じ設定手法を用いてgcを設定する。
デコーダが紛失フレーム中にある紛失パラメータ(たとえばLSF、ピッチラグ、利得、分類など)を推定して結果の音声を合成した後、デコーダは外挿技術によって、紛失フ
レームの合成された音声のエネルギを、前に受信されたフレームのエネルギとマッチングさせることができる。これによって、フレームが紛失しても元の音声を再現する正確さがさらに向上する。
固定コードブック励振を生成するためのシード
帯域幅を節約するために、音声エンコーダは、バックグラウンドノイズまたは無音の期間中にはデコーダに固定コードブック励振を送信しなくてもよい。その代わり、エンコーダとデコーダとはともにガウス時系列発生器を用いて、ローカルに励振値をランダムに生成できる。エンコーダとデコーダとはともに同じオーダでの同じランダムな励振値を生成するよう構成される。結果として、エンコーダが所与のノイズフレームにつき生成した同じランダムな励振値を、デコーダがローカルに生成できるため、励振値をエンコーダからデコーダへ送信する必要はない。ランダムな励振値を生成するために、ガウス時系列発生器は初期シードを用いて第1のランダムな励振値を生成し、次に発生器はシードを新たな値に更新する。次に発生器は更新されたシードを用いて次のランダムな励振値を生成し、シードをさらに別の値に更新する。図14は、音声エンコーダ内のガウス時系列発生器がどのようにシードを用いてランダムな励振値を生成し、次にどのようにこのシードを更新して次のランダムな励振値を生成するかを例示するための、フレームの仮定的な事例を示す。フレーム0および4が音声信号を含み、フレーム2、3および5が無音またはバックグラウンドノイズを含むと想定されたい。第1のノイズフレーム(すなわちフレーム2)が見つかると、エンコーダは初期シード(「シード1」と呼ぶ)を用いて、このフレームについての固定コードブック励振として用いるためのランダムな励振値を生成する。このフレームの各サンプルにつき、シードを変化させて新たな固定コードブック励振を生成する。こうして、フレームが160回サンプリングされた場合、シードは160回変わることになるだろう。従って次のノイズフレーム(ノイズフレーム3)に遭遇するまでに、エンコーダは第2および異なったシード(すなわちシード2)を用いて、このフレームについてのランダムな励振値を生成する。技術的には、シードは第1のフレームの各サンプルで変化するため、第2のフレームの第1のサンプルについてのシードは「第2の」シードではないが、便宜上第2のフレームの第1のサンプルについてのシードをここではシード2と呼ぶ。ノイズフレーム4については、エンコーダは第3のシード(第1および第2のシードとは異なる)を用いる。ノイズフレーム6についてのランダムな励振値を生成するために、ガウス時系列発生器は、音声通信システムの実現例に依存してシード1からやり直しても、またはシード4で進行してもよい。シードを同じやり方で更新するようにエンコーダおよびデコーダを構成することにより、エンコーダおよびデコーダは同じシードを生成でき、こうして同じオーダで同じランダムな励振値を生成できる。しかし先行技術の音声通信システムでは、フレームの紛失によりエンコーダとデコーダとのこの同時性が破壊されてしまう。
図15は、図14に示した仮定的な事例をデコーダの観点から例示する。ノイズフレーム2が紛失し、フレーム1および3がデコーダにより受信されると想定されたい。ノイズフレーム2が紛失しているため、デコーダはこれが前フレーム1(すなわち音声フレーム)と同じ種類であると仮定する。紛失ノイズフレーム2について誤った仮定をしてしまったため、デコーダは、ノイズフレーム3が実際には第2に遭遇したノイズフレームであるにもかかわらず、これを第1のノイズフレームと考える。シードは遭遇したノイズフレームすべての各サンプルにつき更新されるため、デコーダは、シード2を用いるべきであるにもかかわらず、間違ってシード1を用いてノイズフレーム3のランダム励振値を生成する。こうして、フレームの紛失の結果としてエンコーダとデコーダとの同時性が失われる。フレーム2はノイズフレームであるため、エンコーダがシード2を用いながらデコーダがシード1を用いることは重大事ではないが、それは結果が元のノイズと異なるノイズであるからである。同じことがフレーム3にも当てはまる。しかしながら、後に受信されたフレームが音声を含んでいれば、シード値のエラーはこれに対して大きな影響を与えるこ
とになる。たとえば音声フレーム4に着目する。シード2に基づくローカルに生成されたガウス励振を連続的に用い、フレーム3の適応コードブックバッファを更新する。フレーム4が処理されると、適応コードブック励振は、フレーム4のピッチラグなどの情報に基づいてフレーム3の適応コードブックバッファから抽出される。エンコーダがフレーム3の適応コードブックバッファを更新するためにシード3を用い、デコーダがフレーム3の適応コードブックバッファを更新するためにシード2(間違ったシード)を用いているため、場合によってはフレーム3の適応コードブックバッファを更新する際の差が、フレーム4内で品質上の問題を引き起こすおそれがある。
この発明に従って構築される改良された音声通信システムは、初期固定シードを用いて、システムがノイズフレームに遭遇するたびにこのシードを更新することはない。その代わり、改良されたエンコーダおよびデコーダは、このフレーム内のパラメータから所与のフレームについてのシードを導き出す。たとえば現在のフレーム内のスペクトル情報、エネルギおよび/または利得情報を用いて、このフレームについてのシードを生成することができる。たとえば、スペクトルを表わすビット(たとえば5つのビットb1、b2、b3、b4、b5)およびエネルギを表わすビット(たとえば3つのビットc1、c2、c3)を用いて、ストリングb1、b2、b3、b4、b5、c1、c2、c3をもたらすことができ、この値がシードである。数で例を示せば、スペクトルが01101、エネルギが011で表されると想定すると、シードは01101011で表わされる。当然のことながら、フレーム内の情報からシードを導き出す他の代替的な方法が可能であり、この発明の範囲内に含まれる。従って、ノイズフレーム2が紛失する図15の例では、デコーダはエンコーダにより導き出される同じシードであるノイズフレーム3についてのシードを導き出すことができる。従って、フレームの紛失によってエンコーダとデコーダとの同時性が破壊されることはない。
この発明の実施例および実現例を示し説明したが、さらに多くの実施例および実現例がこの発明の範囲内にあることは明らかである。従ってこの発明は、特許請求の範囲およびその均等物に限定されることを除き、限定されるべきではない。
ソースエンコーダとソースデコーダとを有する音声通信システムの機能ブロック図である。 図1の音声通信システムのより詳細な機能ブロック図である。 図1の音声通信システムの一実施例によって用いられるソースエンコーダの例示的な第1のステージ、音声プリプロセッサの機能ブロック図である。 図1の音声通信システムの一実施例によって用いられるソースエンコーダの例示的な第2のステージを示す機能ブロック図である。 図1の音声通信システムの一実施例によって用いられるソースエンコーダの例示的な第3のステージを示す機能ブロック図である。 非周期性の音声を処理するため(モード0)、図1の音声通信システムの一実施例によって用いられるソースエンコーダの例示的な第4のステージを示す機能ブロック図である。 周期性の音声を処理するため(モード1)、図1の音声通信システムの一実施例によって用いられるソースエンコーダの例示的な第4のステージを示す機能ブロック図である。 この発明に従って構築された音声エンコーダからの符号化された情報を処理するための音声デコーダの一実施例のブロック図である。 受信フレームと紛失フレームの仮定的な例を示す図である。 受信フレームと紛失フレーム、加えて、先行技術のシステムおよびこの発明に従って構築された音声通信システムにおいて各フレームに割当てられたLSF間の最小間隔の仮定的な例を示す図である。 先行技術の音声通信システムが各フレームに対してピッチラグおよびデルタピッチラグ情報をいかに割当て、用いるかを図示する仮定的な例を示す図である。 この発明に従って構築された音声通信システムが各フレームに対してピッチラグおよびデルタピッチラグ情報をいかに割当て、用いるかを図示する仮定的な例を示す図である。 紛失フレームがある場合に、この発明に従って構築された音声デコーダが、各フレームに対して適応利得パラメータ情報をいかに割当てるかを図示する仮定的な例を示す図である。 先行技術のエンコーダがいかにシードを用いて、無音またはバックグラウンドノイズを含む各フレームに対してランダム励振値を生成するかを図示する仮定的な例を示す図である。 紛失フレームがある場合に、先行技術のデコーダがいかにシードを用いて、無音またはバックグラウンドノイズを含む各フレームに対してランダム励振値を生成し、エンコーダとの同時性を失うかを図示する仮定的な例を示す図である。 この発明に従って非周期性様の音声を処理する例を示すフローチャートである。 この発明に従って周期性様の音声を処理する例を示すフローチャートである。

Claims (14)

  1. 音声通信システムであって、
    音声のフレームを処理し、音声の各フレームのピッチラグパラメータを求めるエンコーダと、
    エンコーダに結合され、音声の各フレームのピッチラグパラメータを送信する送信機と、
    フレームごとに送信機からピッチラグパラメータを受信する受信機と、
    受信機に結合され、ピッチラグパラメータに部分的に基づいて音声信号を再合成するための制御ロジックと、
    フレームが受信機によって受信されなかったかどうかを検出する紛失フレーム検出器と、
    紛失フレーム検出器が紛失フレームを検出すると、複数の前に受信されたフレームのピッチラグパラメータを用いて紛失フレームのピッチラグパラメータを外挿するフレーム回復ロジックとを含む、音声通信システム。
  2. フレーム回復ロジックは、紛失フレームに続いて受信されたフレームのピッチラグパラメータを用いて、紛失フレームのピッチラグパラメータを設定する、請求項1に記載の音声通信システム。
  3. 紛失フレーム検出器および/またはフレームエラーロジックは制御ロジックの一部である、請求項1に記載の音声通信システム。
  4. 受信機が紛失フレームに続くフレーム内のピッチラグパラメータを受信すると、フレーム回復ロジックは紛失フレームに続くフレームのピッチラグパラメータを用いて、紛失フレームに対して前に設定されたピッチラグパラメータを調整する、請求項1に記載の音声通信システム。
  5. 第1のフレームに対する総励振を含む適応コードブックバッファをさらに含み、総励振は量子化された適応コードブック励振構成要素を含み、バッファリングされた総励振は第1のフレームに続くフレームのための適応コードブック励振として抽出され、フレーム回復ロジックは紛失フレームに続くフレームのピッチラグパラメータを用いて量子化された適応コードブック励振を調整する、請求項4に記載の音声通信システム。
  6. フレーム回復ロジックは、紛失フレームに続いて受信されたフレームのピッチラグパラメータから、紛失フレームのピッチラグパラメータを外挿する、請求項2に記載の音声通信システム。
  7. フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、デコーダは紛失フレームからの音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項1に記載の音声通信システム。
  8. フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、デコーダは紛失フレームからの音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項2に記載の音声通信システム。
  9. フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、デコーダは紛失フレームからの音声を再合成し、合成された音声のエネルギを調整して、前に受信され
    たフレームから合成された音声のエネルギをマッチングさせる、請求項3に記載の音声通信システム。
  10. 通信システムにおいて音声を符号化またはデコードする方法であって、
    (a) 各フレームが複数のサブフレームを含むフレームごとに音声信号を提供するステップと、
    (b) 音声信号に基づいて、各フレームのパラメータを求めるステップと、
    (c) パラメータをフレームごとに送信するステップと、
    (d) パラメータをフレームごとに受信するステップと、
    (e) パラメータを含むフレームが紛失されているかどうかを検出するステップと、
    (f) フレームが紛失された場合、紛失フレームの紛失パラメータを取扱うステップと、
    (g) パラメータをデコードして音声信号を再現するステップとを含む、方法。
  11. 紛失パラメータは紛失フレームのピッチラグパラメータであり、取扱うステップは、紛失フレームの紛失されたピッチラグパラメータを、前に受信されたフレームのピッチラグパラメータに少なくとも部分的に基づいて設定する、請求項10に記載の方法。
  12. 取扱うステップは、紛失フレームの紛失されたピッチラグパラメータを、複数の前に受信されたフレームのピッチラグパラメータに基づいて設定する、請求項11に記載の方法。
  13. 取扱うステップは、紛失フレームの紛失されたピッチラグパラメータを、紛失フレームに続いて受信されたフレームのピッチラグパラメータに基づいて設定する、請求項11に記載の方法。
  14. 取扱うステップが紛失フレームの紛失パラメータを設定した後で紛失フレームからの音声を再合成するステップと、
    合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせるステップとをさらに含む、請求項11に記載の方法。
JP2004010951A 2000-07-14 2004-01-19 紛失フレームを取扱うための音声通信システムおよび方法 Expired - Lifetime JP4222951B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/617,191 US6636829B1 (en) 1999-09-22 2000-07-14 Speech communication system and method for handling lost frames

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002512896A Division JP4137634B2 (ja) 2000-07-14 2001-07-09 紛失フレームを取扱うための音声通信システムおよび方法

Publications (2)

Publication Number Publication Date
JP2004206132A true JP2004206132A (ja) 2004-07-22
JP4222951B2 JP4222951B2 (ja) 2009-02-12

Family

ID=24472632

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2002512896A Expired - Lifetime JP4137634B2 (ja) 2000-07-14 2001-07-09 紛失フレームを取扱うための音声通信システムおよび方法
JP2004010951A Expired - Lifetime JP4222951B2 (ja) 2000-07-14 2004-01-19 紛失フレームを取扱うための音声通信システムおよび方法
JP2005200534A Withdrawn JP2006011464A (ja) 2000-07-14 2005-07-08 紛失フレームを取扱うための音声符号化装置および方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2002512896A Expired - Lifetime JP4137634B2 (ja) 2000-07-14 2001-07-09 紛失フレームを取扱うための音声通信システムおよび方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2005200534A Withdrawn JP2006011464A (ja) 2000-07-14 2005-07-08 紛失フレームを取扱うための音声符号化装置および方法

Country Status (10)

Country Link
US (1) US6636829B1 (ja)
EP (4) EP1577881A3 (ja)
JP (3) JP4137634B2 (ja)
KR (3) KR100742443B1 (ja)
CN (3) CN1267891C (ja)
AT (2) ATE317571T1 (ja)
AU (1) AU2001266278A1 (ja)
DE (2) DE60138226D1 (ja)
ES (1) ES2325151T3 (ja)
WO (1) WO2002007061A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008529423A (ja) * 2005-01-31 2008-07-31 クゥアルコム・インコーポレイテッド 音声通信におけるフレーム消失キャンセル
JP2010511201A (ja) * 2006-11-28 2010-04-08 サムスン エレクトロニクス カンパニー リミテッド フレームエラー隠匿方法及び装置、これを利用した復号化方法及び装置
US8255213B2 (en) 2006-07-12 2012-08-28 Panasonic Corporation Speech decoding apparatus, speech encoding apparatus, and lost frame concealment method

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
EP1796083B1 (en) * 2000-04-24 2009-01-07 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
US6983242B1 (en) * 2000-08-21 2006-01-03 Mindspeed Technologies, Inc. Method for robust classification in speech coding
US7133823B2 (en) * 2000-09-15 2006-11-07 Mindspeed Technologies, Inc. System for an adaptive excitation pattern for speech coding
US7010480B2 (en) * 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
US6856961B2 (en) * 2001-02-13 2005-02-15 Mindspeed Technologies, Inc. Speech coding system with input signal transformation
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
WO2003019527A1 (fr) * 2001-08-31 2003-03-06 Kabushiki Kaisha Kenwood Procede et appareil de generation d'un signal affecte d'un pas et procede et appareil de compression/decompression et de synthese d'un signal vocal l'utilisant
US7095710B2 (en) * 2001-12-21 2006-08-22 Qualcomm Decoding using walsh space information
EP1383110A1 (fr) * 2002-07-17 2004-01-21 STMicroelectronics N.V. Procédé et dispositif d'encodage de la parole à bande élargie, permettant en particulier une amélioration de la qualité des trames de parole voisée
GB2391440B (en) * 2002-07-31 2005-02-16 Motorola Inc Speech communication unit and method for error mitigation of speech frames
EP1589330B1 (en) * 2003-01-30 2009-04-22 Fujitsu Limited Audio packet vanishment concealing device, audio packet vanishment concealing method, reception terminal, and audio communication system
US7024358B2 (en) * 2003-03-15 2006-04-04 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
US7305338B2 (en) * 2003-05-14 2007-12-04 Oki Electric Industry Co., Ltd. Apparatus and method for concealing erased periodic signal data
KR100546758B1 (ko) * 2003-06-30 2006-01-26 한국전자통신연구원 음성의 상호부호화시 전송률 결정 장치 및 방법
KR100516678B1 (ko) * 2003-07-05 2005-09-22 삼성전자주식회사 음성 코덱의 음성신호의 피치검출 장치 및 방법
US7146309B1 (en) * 2003-09-02 2006-12-05 Mindspeed Technologies, Inc. Deriving seed values to generate excitation values in a speech coder
US20050065787A1 (en) * 2003-09-23 2005-03-24 Jacek Stachurski Hybrid speech coding and system
US7536298B2 (en) * 2004-03-15 2009-05-19 Intel Corporation Method of comfort noise generation for speech communication
US8725501B2 (en) * 2004-07-20 2014-05-13 Panasonic Corporation Audio decoding device and compensation frame generation method
US7873515B2 (en) * 2004-11-23 2011-01-18 Stmicroelectronics Asia Pacific Pte. Ltd. System and method for error reconstruction of streaming audio information
US20060190251A1 (en) * 2005-02-24 2006-08-24 Johannes Sandvall Memory usage in a multiprocessor system
US7418394B2 (en) * 2005-04-28 2008-08-26 Dolby Laboratories Licensing Corporation Method and system for operating audio encoders utilizing data from overlapping audio segments
JP2007010855A (ja) * 2005-06-29 2007-01-18 Toshiba Corp 音声再生装置
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
CN1929355B (zh) * 2005-09-09 2010-05-05 联想(北京)有限公司 语音包丢失恢复系统以及方法
JP2007114417A (ja) * 2005-10-19 2007-05-10 Fujitsu Ltd 音声データ処理方法及び装置
FR2897977A1 (fr) * 2006-02-28 2007-08-31 France Telecom Procede de limitation de gain d'excitation adaptative dans un decodeur audio
US7457746B2 (en) * 2006-03-20 2008-11-25 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
JPWO2008007698A1 (ja) * 2006-07-12 2009-12-10 パナソニック株式会社 消失フレーム補償方法、音声符号化装置、および音声復号装置
US7877253B2 (en) 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
US8489392B2 (en) 2006-11-06 2013-07-16 Nokia Corporation System and method for modeling speech spectra
KR101291193B1 (ko) * 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
CN100578618C (zh) * 2006-12-04 2010-01-06 华为技术有限公司 一种解码方法及装置
US8160890B2 (en) * 2006-12-13 2012-04-17 Panasonic Corporation Audio signal coding method and decoding method
US8688437B2 (en) 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
CN101286320B (zh) * 2006-12-26 2013-04-17 华为技术有限公司 增益量化系统用于改进语音丢包修补质量的方法
CN101226744B (zh) * 2007-01-19 2011-04-13 华为技术有限公司 语音解码器中实现语音解码的方法及装置
CN101009098B (zh) * 2007-01-26 2011-01-26 清华大学 声码器增益参数分模式抗信道误码方法
ES2642091T3 (es) * 2007-03-02 2017-11-15 Iii Holdings 12, Llc Dispositivo de codificación de audio y dispositivo de decodificación de audio
CN101256774B (zh) * 2007-03-02 2011-04-13 北京工业大学 用于嵌入式语音编码的帧擦除隐藏方法及系统
CN101887723B (zh) * 2007-06-14 2012-04-25 华为终端有限公司 一种对基音周期进行微调的方法和装置
CN101325631B (zh) 2007-06-14 2010-10-20 华为技术有限公司 一种估计基音周期的方法和装置
JP2009063928A (ja) * 2007-09-07 2009-03-26 Fujitsu Ltd 補間方法、情報処理装置
US20090094026A1 (en) * 2007-10-03 2009-04-09 Binshi Cao Method of determining an estimated frame energy of a communication
CN100550712C (zh) * 2007-11-05 2009-10-14 华为技术有限公司 一种信号处理方法和处理装置
KR100998396B1 (ko) * 2008-03-20 2010-12-03 광주과학기술원 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치
CN101339767B (zh) * 2008-03-21 2010-05-12 华为技术有限公司 一种背景噪声激励信号的生成方法及装置
CN101604523B (zh) * 2009-04-22 2012-01-04 网经科技(苏州)有限公司 在g.711语音编码中隐藏冗余信息的方法
WO2011065741A2 (ko) * 2009-11-24 2011-06-03 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8280726B2 (en) * 2009-12-23 2012-10-02 Qualcomm Incorporated Gender detection in mobile phones
KR101381272B1 (ko) 2010-01-08 2014-04-07 니뽄 덴신 덴와 가부시키가이샤 부호화 방법, 복호 방법, 부호화 장치, 복호 장치, 프로그램 및 기록 매체
US9082416B2 (en) 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
CN101976567B (zh) * 2010-10-28 2011-12-14 吉林大学 一种语音信号差错掩盖方法
AU2012217216B2 (en) 2011-02-14 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
CN102959620B (zh) 2011-02-14 2015-05-13 弗兰霍菲尔运输应用研究公司 利用重迭变换的信息信号表示
PL3471092T3 (pl) 2011-02-14 2020-12-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekodowanie pozycji impulsów ścieżek sygnału audio
SG192746A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for processing a decoded audio signal in a spectral domain
CA2827000C (en) * 2011-02-14 2016-04-05 Jeremie Lecomte Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
ES2534972T3 (es) 2011-02-14 2015-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Predicción lineal basada en esquema de codificación utilizando conformación de ruido de dominio espectral
DK2676271T3 (da) * 2011-02-15 2020-08-24 Voiceage Evs Llc Anordning og fremgangsmåde til kvantisering af forstærkninger af adaptive og faste bidrag fra excitationen i en celp-koder-dekoder
US9626982B2 (en) 2011-02-15 2017-04-18 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec
US9275644B2 (en) * 2012-01-20 2016-03-01 Qualcomm Incorporated Devices for redundant frame coding and decoding
PL3011557T3 (pl) 2013-06-21 2017-10-31 Fraunhofer Ges Forschung Urządzenie i sposób do udoskonalonego stopniowego zmniejszania sygnału w przełączanych układach kodowania sygnału audio podczas ukrywania błędów
CN104240715B (zh) * 2013-06-21 2017-08-25 华为技术有限公司 用于恢复丢失数据的方法和设备
SG11201510513WA (en) 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
CN108364657B (zh) * 2013-07-16 2020-10-30 超清编解码有限公司 处理丢失帧的方法和解码器
CN107818789B (zh) * 2013-07-16 2020-11-17 华为技术有限公司 解码方法和解码装置
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
PL3355305T3 (pl) 2013-10-31 2020-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder audio i sposób dostarczania zdekodowanej informacji audio z wykorzystaniem maskowania błędów modyfikującego sygnał pobudzenia w dziedzinie czasu
MX362490B (es) 2014-04-17 2019-01-18 Voiceage Corp Metodos codificador y decodificador para la codificacion y decodificacion predictiva lineal de señales de sonido en la transicion entre cuadros teniendo diferentes tasas de muestreo.
KR101597768B1 (ko) * 2014-04-24 2016-02-25 서울대학교산학협력단 입체 음향을 이용한 다자간 인터랙티브 통화 시스템 및 방법
CN105225666B (zh) * 2014-06-25 2016-12-28 华为技术有限公司 处理丢失帧的方法和装置
US9626983B2 (en) * 2014-06-26 2017-04-18 Qualcomm Incorporated Temporal gain adjustment based on high-band signal characteristic
CN106486129B (zh) * 2014-06-27 2019-10-25 华为技术有限公司 一种音频编码方法和装置
US9978388B2 (en) 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
US9837094B2 (en) * 2015-08-18 2017-12-05 Qualcomm Incorporated Signal re-use during bandwidth transition period
CN107248411B (zh) * 2016-03-29 2020-08-07 华为技术有限公司 丢帧补偿处理方法和装置
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US20170365255A1 (en) * 2016-06-15 2017-12-21 Adam Kupryjanow Far field automatic speech recognition pre-processing
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
CN108922551B (zh) * 2017-05-16 2021-02-05 博通集成电路(上海)股份有限公司 用于补偿丢失帧的电路及方法
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483886A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
JP6914390B2 (ja) * 2018-06-06 2021-08-04 株式会社Nttドコモ 音声信号処理方法
BR112021012753A2 (pt) * 2019-01-13 2021-09-08 Huawei Technologies Co., Ltd. Método implementado por computador para codificação de áudio, dispositivo eletrônico e meio legível por computador não transitório
CN111105804B (zh) * 2019-12-31 2022-10-11 广州方硅信息技术有限公司 语音信号处理方法、系统、装置、计算机设备和存储介质
CN111933156B (zh) * 2020-09-25 2021-01-19 广州佰锐网络科技有限公司 基于多重特征识别的高保真音频处理方法及装置
CN112489665B (zh) * 2020-11-11 2024-02-23 北京融讯科创技术有限公司 语音处理方法、装置以及电子设备
CN112802453B (zh) * 2020-12-30 2024-04-26 深圳飞思通科技有限公司 快速自适应预测拟合语音方法、系统、终端及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0588932B1 (en) * 1991-06-11 2001-11-14 QUALCOMM Incorporated Variable rate vocoder
US5255343A (en) * 1992-06-26 1993-10-19 Northern Telecom Limited Method for detecting and masking bad frames in coded speech signals
US5502713A (en) * 1993-12-07 1996-03-26 Telefonaktiebolaget Lm Ericsson Soft error concealment in a TDMA radio system
US5699478A (en) 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
CA2177413A1 (en) * 1995-06-07 1996-12-08 Yair Shoham Codebook gain attenuation during frame erasures
DE69712537T2 (de) * 1996-11-07 2002-08-29 Matsushita Electric Industrial Co., Ltd. Verfahren zur Erzeugung eines Vektorquantisierungs-Codebuchs
US6148282A (en) * 1997-01-02 2000-11-14 Texas Instruments Incorporated Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
AU3372199A (en) * 1998-03-30 1999-10-18 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6810377B1 (en) * 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
US6240386B1 (en) 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
KR100281181B1 (ko) * 1998-10-16 2001-02-01 윤종용 약전계에서 코드 분할 다중 접속 시스템의 코덱 잡음 제거 방법
US7423983B1 (en) * 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network
US6549587B1 (en) * 1999-09-20 2003-04-15 Broadcom Corporation Voice and data exchange over a packet based network with timing recovery

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008529423A (ja) * 2005-01-31 2008-07-31 クゥアルコム・インコーポレイテッド 音声通信におけるフレーム消失キャンセル
US8255213B2 (en) 2006-07-12 2012-08-28 Panasonic Corporation Speech decoding apparatus, speech encoding apparatus, and lost frame concealment method
JP2010511201A (ja) * 2006-11-28 2010-04-08 サムスン エレクトロニクス カンパニー リミテッド フレームエラー隠匿方法及び装置、これを利用した復号化方法及び装置
US8843798B2 (en) 2006-11-28 2014-09-23 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus and decoding method and apparatus using the same
US9424851B2 (en) 2006-11-28 2016-08-23 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus and decoding method and apparatus using the same
JP2017078870A (ja) * 2006-11-28 2017-04-27 サムスン エレクトロニクス カンパニー リミテッド フレームエラー隠匿装置
US10096323B2 (en) 2006-11-28 2018-10-09 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus and decoding method and apparatus using the same

Also Published As

Publication number Publication date
EP2093756A1 (en) 2009-08-26
ATE317571T1 (de) 2006-02-15
CN1441950A (zh) 2003-09-10
EP1301891B1 (en) 2006-02-08
KR20050061615A (ko) 2005-06-22
DE60117144T2 (de) 2006-10-19
EP1363273A1 (en) 2003-11-19
US6636829B1 (en) 2003-10-21
KR20040005970A (ko) 2004-01-16
EP1363273B1 (en) 2009-04-01
CN1267891C (zh) 2006-08-02
AU2001266278A1 (en) 2002-01-30
JP4222951B2 (ja) 2009-02-12
EP1577881A2 (en) 2005-09-21
WO2002007061A3 (en) 2002-08-22
EP1301891A2 (en) 2003-04-16
DE60138226D1 (de) 2009-05-14
KR20030040358A (ko) 2003-05-22
DE60117144D1 (de) 2006-04-20
CN1212606C (zh) 2005-07-27
WO2002007061A2 (en) 2002-01-24
CN1722231A (zh) 2006-01-18
EP1577881A3 (en) 2005-10-19
JP2006011464A (ja) 2006-01-12
ES2325151T3 (es) 2009-08-27
KR100754085B1 (ko) 2007-08-31
JP4137634B2 (ja) 2008-08-20
ATE427546T1 (de) 2009-04-15
KR100742443B1 (ko) 2007-07-25
JP2004504637A (ja) 2004-02-12
CN1516113A (zh) 2004-07-28
EP2093756B1 (en) 2012-10-31

Similar Documents

Publication Publication Date Title
JP4222951B2 (ja) 紛失フレームを取扱うための音声通信システムおよび方法
US10181327B2 (en) Speech gain quantization strategy
US10249310B2 (en) Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
US7693710B2 (en) Method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP5543405B2 (ja) フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ
AU2001255422A1 (en) Gains quantization for a celp speech coder
US7146309B1 (en) Deriving seed values to generate excitation values in a speech coder
JP6626123B2 (ja) オーディオ信号を符号化するためのオーディオエンコーダー及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081118

R150 Certificate of patent or registration of utility model

Ref document number: 4222951

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131128

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term