JP2004504637A - 紛失フレームを取扱うための音声通信システムおよび方法 - Google Patents
紛失フレームを取扱うための音声通信システムおよび方法 Download PDFInfo
- Publication number
- JP2004504637A JP2004504637A JP2002512896A JP2002512896A JP2004504637A JP 2004504637 A JP2004504637 A JP 2004504637A JP 2002512896 A JP2002512896 A JP 2002512896A JP 2002512896 A JP2002512896 A JP 2002512896A JP 2004504637 A JP2004504637 A JP 2004504637A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- lost
- decoder
- parameter
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000004891 communication Methods 0.000 title claims abstract description 85
- 230000003044 adaptive effect Effects 0.000 claims abstract description 99
- 230000000737 periodic effect Effects 0.000 claims abstract description 34
- 230000005284 excitation Effects 0.000 claims description 72
- 230000005236 sound signal Effects 0.000 claims description 67
- 238000011084 recovery Methods 0.000 claims description 49
- 230000003595 spectral effect Effects 0.000 claims description 25
- 239000000872 buffer Substances 0.000 claims description 19
- 238000001228 spectrum Methods 0.000 claims description 14
- 230000006978 adaptation Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 230000007423 decrease Effects 0.000 claims 3
- 238000012545 processing Methods 0.000 description 53
- 238000010586 diagram Methods 0.000 description 20
- 238000013139 quantization Methods 0.000 description 20
- 238000004422 calculation algorithm Methods 0.000 description 19
- 238000007781 pre-processing Methods 0.000 description 9
- 238000013459 approach Methods 0.000 description 8
- 239000003623 enhancer Substances 0.000 description 7
- 238000013213 extrapolation Methods 0.000 description 7
- 230000002238 attenuated effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 230000003247 decreasing effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 201000007201 aphasia Diseases 0.000 description 2
- 238000010420 art technique Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0012—Smoothing of parameters of the decoder interpolation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Circuits Of Receivers In General (AREA)
- Communication Control (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Radio Relay Systems (AREA)
Abstract
Description
【引用による援用】
以下の米国特許出願を、ここに引用によりその全体を援用し、本出願の一部とする。
【0002】
米国特許出願番号第09/156,650号、「開ループ利得と閉ループ利得とを組合せる利得正規化を用いた音声エンコーダ(Speech Encoder Using Gain Normalization That Combines Open And Closed Loop Gains)」、コネクサント(Conexant)事件番号98RSS399、1998年9月18日出願。
【0003】
米国仮特許出願番号第60/155,321号、「4キロビット/秒音声符号化(4 kbits/s Speech Coding)」、コネクサント事件番号99RSS485、1999年9月22日出願。
【0004】
米国特許出願番号第09/574,396号、「新しい音声利得量子化方策(A New Speech Gain Quantization Strategy)」、コネクサント事件番号99RSS312、2000年5月19日出願。
【0005】
【発明の背景】
この発明の分野は一般に、音声通信システムにおける音声のエンコードおよびデコードに関し、より特定的には、間違ったまたは紛失したフレームを取扱うための方法および装置に関する。
【0006】
基本的な音声音をモデル化するには、音声信号は時間を経てサンプリングされ、デジタル処理されるべき離散波形としてフレームに記憶される。しかし、音声用通信帯域幅の効率のよい使用を増加させるため、音声は、特に音声が制限された帯域幅制約の下で送信されるものである場合、送信される前に符号化される。音声符号化のさまざまな局面に対して、多数のアルゴリズムが提案されてきた。たとえば、合成による分析の符号化技法が音声信号に対して行なわれる場合がある。音声を符号化する際、音声符号化アルゴリズムは、より狭い帯域幅しか必要としないやり方で音声信号の特性を表わそうとする。たとえば、音声符号化アルゴリズムは音声信号における冗長を除去しようとする。第1のステップは短期の相関を除去することである。音声符号化手法の1つの種類は、線形予測符号化(LPC)である。LPC技法を用いる際、任意の特定の時間での音声信号値は、前の値の線形関数としてモデル化される。LPC技法を用いることによって、短期の相関は減少可能であり、或る予測パラメータを推定し応用して信号を表わすことによって効率よい音声信号表示が決定され得る。音声信号における短期の相関のエンベロープであるLPCスペクトルは、たとえば、LSF(線スペクトル周波数)によって表わされてもよい。音声信号における短期の相関の除去後、LPC残留信号が残る。この残留信号は、モデル化される必要がある周期性情報を含む。音声における冗長を除去する第2のステップは、周期性情報をモデル化することである。周期性情報はピッチ予測を用いることによってモデル化されてもよい。音声の或る部分は周期性を有するが、他の部分は周期性を持たない。たとえば、音“aah(アー)”は周期性情報を持つものの、音“shhh(シーッ)”は周期性情報を持たない。
【0007】
LPC手法を応用する際、従来のソースエンコーダは、通信チャネルを介して従来のソースデコーダへ通信するため、音声信号に動作して、符号化されるべきモデリングおよびパラメータ情報を抽出する。モデリングおよびパラメータ情報をより少量の情報へ符号化する1つの方法は、量子化を用いることである。パラメータの量子化は、表またはコードブックにおける最も近いエントリを選択してパラメータを表わすことを伴う。このため、たとえば0.125のパラメータは、コードブックが0、0.1、0.2、0.3などを含む場合、0.1によって表わされてもよい。量子化は、スカラ量子化とベクトル量子化とを含む。スカラ量子化では、上述のように、パラメータに最も近い近似値である表またはコードブック中のエントリを選択する。これに対し、ベクトル量子化は、2つまたはそれ以上のパラメータを組合せ、組合されたパラメータに最も近い表またはコードブック中のエントリを選択する。たとえば、ベクトル量子化は、パラメータ間の差に最も近いコードブック中のエントリを選択するかもしれない。2つのパラメータを一度にベクトル量子化するために用いられるコードブックはしばしば、2次元コードブックと呼ばれる。n次元コードブックはn個のパラメータを一度に量子化する。
【0008】
量子化されたパラメータは、エンコーダからデコーダへ送信されるデータのパケットへパッケージされてもよい。言い換えれば、一旦符号化されると、入力音声信号を表わすパラメータはトランシーバへ送信される。このため、たとえば、LSFは量子化されてもよく、コードブックへのインデックスはビットに変換されてエンコーダからデコーダへ送信されてもよい。実施例に依存して、各パケットは、音声信号のフレームの一部、音声のフレーム、または音声のフレームを超えるものを表わしてもよい。トランシーバでは、デコーダが符号化された情報を受信する。デコーダは音声信号をエンコードするやり方を知っているように構成されているため、デコーダは符号化された情報をデコードし、人間の耳に元の音声のように聞こえる再生のために信号を復元する。しかし、データの少なくとも1つのパケットが送信中に紛失し、デコーダがエンコーダによって送られた情報のすべてを受信するとは限らない、ということが避けられない場合がある。たとえば、音声がある携帯電話から別の携帯電話へ送信されているとき、受信が不良、またはノイズがある場合には、データは紛失されるかもしれない。したがって、符号化されたモデリングおよびパラメータ情報をデコーダへ送信することは、デコーダがデータの紛失パケットについて訂正または調整する方法を必要とする。先行技術は紛失パケット内の情報は何だったかを推測しようとする外挿などによってデータの紛失パケットについて調整する或る方法を記載しているものの、これらの方法は制限されており、改良された方法が必要とされている。
【0009】
LSF情報の他に、デコーダに送信された他のパラメータがなくなる場合がある。たとえばCELP(符号励振線形予測)音声符号化では、同じく量子化されてデコーダへ送信される2種類の利得がある。第1の種類の利得はピッチ利得GPで、適応コードブック利得(adaptive codebook gain)としても公知である。適応コードブック利得は、ここも含め、添字“p”の代わりに添字“a”を添えて言及されることがある。第2の種類の利得は固定コードブック利得(fixed codebook gain)GCである。音声符号化アルゴリズムは、適応コードブック利得と固定コードブック利得とを含む量子化されたパラメータを有する。他のパラメータは、たとえば、発生された音声の周期性を表わすピッチラグを含んでいてもよい。音声エンコーダが音声信号を分類すると、音声信号に関する分類情報もデコーダへ送信されてもよい。音声を分類し異なるモードで動作する改良された音声エンコーダ/デコーダについては、前に引用により援用された、米国特許出願番号第09/574,396号、「新しい音声利得量子化方策」、コネクサント事件番号99RSS312、2000年5月19日出願を参照されたい。
【0010】
これらおよび他のパラメータ情報は不完全な送信媒体を通ってデコーダへ送られるため、これらのパラメータのいくつかは紛失され、またはデコーダによって決して受信されない。音声の1フレーム当り1パケットの情報を送信する音声通信システムにとっては、紛失パケットは、情報の紛失フレームをもたらす。紛失された情報を復元または推定するため、先行技術のシステムは、紛失されたパラメータに依存して、異なる技法を試みてきた。いくつかの技法は単に、実際にデコーダによって受信された前のフレームからのパラメータを用いている。これらの先行技術の技法は欠点、誤り、および問題を有する。このため、元の音声信号にできるだけ近い音声信号を再現するように、紛失情報について訂正または調節する、改良された方法に対する要求がある。
【0011】
或る先行技術の音声通信システムは、帯域幅を節約するため、固定コードブック励振をエンコーダからデコーダへ送信しない。その代わり、これらのシステムは、初期固定シードを用いてランダム励振値を生成し、次に、システムが無音またはバックグラウンドノイズを含むフレームに遭遇するたびにそのシードを更新する、局所的なガウス時系列発生器を有する。このため、シードはノイズフレームごとに変わる。エンコーダとデコーダとが同じシーケンスで同じシードを用いる同じガウス時系列発生器を有するため、それらはノイズフレームに対して同じランダム励振値を生成する。しかし、ノイズフレームが紛失され、デコーダによって受信されない場合、エンコーダとデコーダとは同じノイズフレームに対して異なるシードを用い、それによりそれらの同時性を失う。このため、固定コードブック励振値をデコーダへ送信しないものの、送信中にフレームが紛失された場合にエンコーダとデコーダ間の同時性を維持する音声通信システムに対する要求がある。
【0012】
【発明の概要】
この発明のさまざまな別個の局面は、エンコーダからデコーダへの送信中に紛失された情報を取扱う改良されたやり方を有する音声通信システムおよび方法に見出すことができる。特に、改良された音声通信システムは、データの紛失パケット内で紛失された情報についてより正確な推定値を生成可能である。たとえば、改良された音声通信システムは、LSF、ピッチラグ(または適応コードブック励振)、固定コードブック励振、および/または利得情報などの紛失された情報をより正確に取扱うことができる。固定コードブック励振値をデコーダへ送信しない音声通信システムの一実施例では、改良されたエンコーダ/デコーダは、前のノイズフレームが送信中に紛失された場合でも、所与のノイズフレームに対して同じランダム励振値を生成可能である。
【0013】
この発明の第1の別個の局面は、LSF間の最小間隔を増加された値に設定し、次に、後続するフレームについての値を制御された適応性のあるやり方で減少させることによって、紛失されたLSF情報を取扱う音声通信システムである。
【0014】
この発明の第2の別個の局面は、複数の前の受信フレームのピッチラグから外挿することによって紛失されたピッチラグを推定する音声通信システムである。
【0015】
この発明の第3の別個の局面は、次の受信フレームのピッチラグを受信し、前の受信フレームのピッチラグと次の受信フレームのピッチラグとの間に適合する曲線を用いて、紛失フレームに対するピッチラグの推定を微調整し、適応コードブックバッファを後続するフレームによる使用の前に調整または訂正する、音声通信システムである。
【0016】
この発明の第4の別個の局面は、非周期性様の音声の紛失利得パラメータを推定するのとは異なるように、周期性様の音声の紛失利得パラメータを推定する音声通信システムである。
【0017】
この発明の第5の別個の局面は、紛失された固定コードブック利得パラメータを推定するのとは異なるように、紛失された適応コードブック利得パラメータを推定する音声通信システムである。
【0018】
この発明の第6の別個の局面は、適応数の前に受信されたフレームのサブフレームの平均適応コードブック利得パラメータに基づいて、非周期性様の音声の紛失フレームの紛失された適応コードブック利得パラメータを判定する音声通信システムである。
【0019】
この発明の第7の別個の局面は、適応数の前に受信されたフレームのサブフレームの平均適応コードブック利得パラメータと、総励振エネルギに対する適応コードブック励振エネルギの比とに基づいて、非周期性様の音声の紛失フレームの紛失された適応コードブック利得パラメータを判定する音声通信システムである。
【0020】
この発明の第8の別個の局面は、適応数の前に受信されたフレームのサブフレームの平均適応コードブック利得パラメータ、総励振エネルギに対する適応コードブック励振エネルギの比、前に受信されたフレームのスペクトル傾斜、および/または前に受信されたフレームのエネルギに基づいて、非周期様の音声の紛失フレームの紛失された適応コードブック利得パラメータを判定する音声通信システムである。
【0021】
この発明の第9の別個の局面は、非周期性様の音声の紛失フレームの紛失された適応コードブック利得パラメータを任意に大きい数に設定する音声通信システムである。
【0022】
この発明の第10の別個の局面は、非周期性様の音声の紛失フレームの全サブフレームに対して、紛失された固定コードブック利得パラメータをゼロに設定する音声通信システムである。
【0023】
この発明の第11の別個の局面は、紛失フレームのエネルギに対する前に受信されたフレームのエネルギの比に基づいて、非周期性様の音声の紛失フレームの現在のサブフレームの紛失された固定コードブック利得パラメータを判定する音声通信システムである。
【0024】
この発明の第12の別個の局面は、紛失フレームのエネルギに対する前に受信されたフレームのエネルギの比に基づいて、紛失フレームの現在のサブフレームの紛失された固定コードブック利得パラメータを判定し、次に、そのパラメータを減衰して、紛失フレームの残りのサブフレームの紛失された固定コードブック利得パラメータを設定する音声通信システムである。
【0025】
この発明の第13の別個の局面は、受信フレームの後で紛失されることになる周期性様の音声の第1のフレームの紛失された適応コードブック利得パラメータを任意に大きい数に設定する音声通信システムである。
【0026】
この発明の第14の別個の局面は、受信フレームの後で紛失されることになる周期性様の音声の第1のフレームの紛失された適応コードブック利得パラメータを任意に大きい数に設定し、次に、そのパラメータを減衰して、紛失フレームの残りのサブフレームの紛失された適応コードブック利得パラメータを設定する音声通信システムである。
【0027】
この発明の第15の別個の局面は、複数の前に受信されたフレームの平均適応コードブック利得パラメータがしきい値を超える場合、周期性様の音声の紛失フレームの紛失された固定コードブック利得パラメータをゼロに設定する音声通信システムである。
【0028】
この発明の第16の別個の局面は、複数の前に受信されたフレームの平均適応コードブック利得パラメータがしきい値を超えない場合、紛失フレームのエネルギに対する前に受信されたフレームのエネルギの比に基づいて、周期性様の音声の紛失フレームの現在のサブフレームの紛失された固定コードブック利得パラメータを判定する音声通信システムである。
【0029】
この発明の第17の別個の局面は、複数の前に受信されたフレームの平均適応コードブック利得パラメータがしきい値を超える場合、紛失フレームのエネルギに対する前に受信されたフレームのエネルギの比に基づいて、紛失フレームの現在のサブフレームの紛失された固定コードブック利得パラメータを判定し、次にそのパラメータを減衰して、紛失フレームの残りのサブフレームの紛失された固定コードブック利得パラメータを設定する音声通信システムである。
【0030】
この発明の第18の別個の局面は、所与のフレームに対する固定コードブック励振を、そのフレーム内の情報によってその値が求められるシードを用いることによってランダムに生成する音声通信システムである。
【0031】
この発明の第19の別個の局面は、紛失フレーム内の紛失パラメータを推定し音声を合成した後で、合成された音声のエネルギを前に受信されたフレームのエネルギへマッチングさせる音声通信デコーダである。
【0032】
この発明の第20の別個の局面は、個々のまたはある組合せでの上述の別個の局面のいずれかである。
【0033】
この発明のさらなる別個の局面は、個々のまたはある組合せでの上述の別個の局面のいずれかを実践する、音声信号をエンコードおよび/またはデコードする方法にも見出すことができる。
【0034】
この発明の他の局面、利点、および新規の特徴は、以下の好ましい実施例の詳細な説明を添付図面とともに検討することから明らかであろう。
【0035】
【好ましい実施例の詳細な説明】
まず、音声通信システム全体についての一般的な説明を記載し、次にこの発明の実施例について詳細に説明する。
【0036】
図1は、通信システムでの音声エンコーダおよびデコーダの一般的な使用例を示す、音声通信システムの概略的なブロック図である。音声通信システム100は、通信チャネル103にわたって音声を送信および再現する。通信チャネル103は、たとえばワイヤ、ファイバ、または光リンクを含み得るが、典型的に、少なくとも部分的に無線周波リンクを含み、これは、携帯電話で見ることができる共有帯域幅リソースを必要とする多数の同時音声交換にしばしば対応していなければならない。
【0037】
通信チャネル103には記憶装置が結合されて、たとえば留守番録音装置機能や音声メールを行なうなど、後に再現または再生するために音声情報を一時的に記憶する。同様に通信チャネル103は、たとえば後に再生するために音声を記録および記憶するだけの、通信システム100の単一装置実施例での記憶装置と交換することもできる。
【0038】
具体的には、マイクロホン111が音声信号を実時間で生成する。マイクロホン111は音声信号をA/D(アナログからデジタルへの)変換器115に渡す。A/D変換器115はアナログ音声信号をデジタル形式に変換し、次にデジタル化された音声信号を音声エンコーダ117に渡す。
【0039】
音声エンコーダ117は、複数のエンコードモードのうち選択された1つを用いて、デジタル化された音声をエンコードする。複数のエンコードモードの各々は、結果として得られる再現された音声の品質の最適化を試みる特定の技術を用いる。複数のモードのうちいずれかでの動作中、音声エンコーダ117は一連のモデリング情報およびパラメータ情報(たとえば「音声パラメータ」)を生成し、音声パラメータを任意のチャネルエンコーダ119に渡す。
【0040】
任意のチャネルエンコーダ119はチャネルデコーダ131と協働して、通信チャネル130経由で音声パラメータを送る。チャネルデコーダ131は音声パラメータを音声デコーダ133に送る。音声エンコーダ117のモードに相当するモードでの動作中に、音声デコーダ133は音声パラメータから元の音声を可能な限り正確に再現しようと試みる。音声デコーダ133は再現された音声をD/A(デジタルからアナログへの)変換器135に渡し、再現された音声をスピーカ137から聞くことができる。
【0041】
図2は、図1の通信装置の一例を示す機能ブロック図である。通信装置151は、音声を同時に取込みおよび再現するための音声エンコーダおよびデコーダの両方を含む。典型的に単一のハウジング内にある通信装置151はたとえば、セル方式電話、携帯電話、計算システム、またはその他の通信装置を含み得る。これに代えて、エンコードされた音声情報を記憶するためのメモリ要素が設けられる場合、通信装置151は、留守番録音装置、記録装置、音声メールシステム、またはその他の通信メモリ装置を含み得る。
【0042】
マイクロホン155およびA/D変換器157は、デジタル音声信号をエンコードシステム159に渡す。エンコードシステム159は音声エンコードを行ない、結果として生じた音声パラメータ情報を通信チャネルに渡す。渡された音声パラメータ情報は、遠隔場所にある別の通信装置(図示せず)に向けられ得る。
【0043】
音声パラメータ情報が受信されると、デコードシステム165は音声デコードを行なう。デコードシステムは音声パラメータ情報をD/A変換器167に渡し、スピーカ169からアナログ音声出力を流すことができる。最終的な結果として、可能な限り元の取込まれた音声に類似の音が再現される。
【0044】
エンコードシステム159は、音声エンコードを行なう音声処理回路185と、任意のチャネルエンコードを行なう任意のチャネル処理回路187との両方を含む。同様にデコードシステム165は、音声デコードを行なう音声処理回路189と、チャネルデコードを行なう任意のチャネル処理回路191とを含む。
【0045】
音声処理回路185と任意のチャネル処理回路187とを別個に例示しているが、これらを部分的または全体的に組合せて単一のユニットとすることもできる。たとえば音声処理回路185およびチャネル処理回路187は、単一のDSP(デジタル信号プロセッサ)および/またはその他の処理回路を共有してもよい。同様に音声処理回路189と任意のチャネル処理回路191とは、完全に別個であっても、またはこれらを部分的もしくは全体的に組合せてもよい。さらに、全体的または部分的な組合せを、音声処理回路185および189に適用、チャネル処理回路187および191に適用、処理回路185、187、189および191に適用、またはその他適宜に適用することが可能である。さらに、デコーダおよび/またはエンコーダの動作の様相を制御する回路の各々またはすべては制御ロジックと呼ばれることがあり、たとえばマイクロプロセッサ、マイクロコントローラ、CPU(中央演算処理装置)、ALU(算術論理演算装置)、コプロセッサ、ASIC(特定用途向け集積回路)、またはその他あらゆる種類の回路および/またはソフトウェアで実現され得る。
【0046】
エンコードシステム159およびデコードシステム165はともにメモリ161を用いる。音声処理回路185は、ソースエンコード処理中に音声メモリ177の固定コードブック181および適応コードブック183を用いる。同様に音声処理回路189は、ソースデコード処理中に固定コードブック181および適応コードブック183を用いる。
【0047】
例示の音声メモリ177は音声処理回路185および189により共用されるが、処理回路185および189の各々に対し1つ以上の別個の音声メモリを割り当てることもできる。メモリ161はさらに、処理回路185、187、189および191により用いられてソースエンコード処理およびデコード処理に必要なさまざまな機能を行なうためのソフトウェアを含む。
【0048】
音声符号化の改良の実施例について詳細に論じる前に、ここで音声エンコードアルゴリズム全体の概略を述べる。この明細書中で参照される改良された音声エンコードアルゴリズムは、たとえばCELPモデルに基づくeX−CELP(拡張CELP)アルゴリズムであり得る。eX−CELPアルゴリズムの詳細は、同じ譲受人であるコネクサント・システムズ・インコーポレイテッドに譲渡され、ここで引用により援用される米国特許出願、すなわち1999年9月22日に出願のコネクサント事件番号99RSS485、「4キロビット/秒音声符号化」と題された米国仮特許出願番号第60/155,321号で論じられている。
【0049】
低いビットレート(たとえば1秒当り4キロビット)で通話品質を達成するために、改良された音声エンコードアルゴリズムは伝統的なCELPアルゴリズムの厳密な波形マッチングの基準からいくらか離れて、入力信号の知覚的に重要な特徴を取得しようと試みる。これを行なうために、改良された音声エンコードアルゴリズムは、ノイズ様の内容の程度、スパイク様の内容の程度、有声の内容の程度、無声の内容の程度、振幅スペクトルの展開、エネルギコンターの展開、周期性の展開など、いくつかの特徴に従って入力信号を分析し、この情報を用いてエンコードおよび量子化処理中の重み付けを制御する。ここにおける原理は、知覚的に重要な特徴を正確に表現し、あまり重要でない特徴については比較的大きなエラーも許容することである。結果として、改良された音声エンコードアルゴリズムは、波形マッチングの代わりに知覚的マッチングに着目する。知覚的マッチングに着目した結果として満足できる音声の再現が得られるが、このことは、秒速4キロビットでは波形マッチングが入力信号中の情報すべてを忠実に取込むのに十分正確ではないという前提による。これに従い、改良された音声エンコーダは或る優先順位付けを行なって、改良された結果を達成する。
【0050】
特定の一実施例では、改良された音声エンコーダは20ミリ秒のフレームサイズ、または1秒当り160サンプルを用い、各フレームは2つまたは3つのサブフレームに分割される。サブフレームの数はサブフレーム処理のモードに依存する。この特定の実施例では、2つのモードすなわちモード0およびモード1のうち1つを、各音声フレームにつき選択できる。サブフレームを処理するやり方はモードに依存することが重要である。この特定の実施例では、モード0はフレーム当り2つのサブフレームを用い、ここで各サブフレームのサイズは10ミリ秒の期間であり、または80個のサンプルを含む。同様にこの実施例では、モード1はフレーム当り3つのサブフレームを用い、ここで第1および第2のサブフレームは6.625ミリ秒の持続時間であり、または53個のサンプルを含み、第3のサブフレームは6.75ミリ秒の持続時間であり、または54個のサンプルを含む。両方のモードで15ミリ秒の先取りを用いることができる。モード0およびモード1の両方につき、第10のオーダの線形予測(LP)モデルを用いて信号のスペクトルエンベロープを表わすことができる。たとえば遅延された決定、切換多段式予測ベクトル量子化方式(switched multi−stage predictive vector quantization scheme)を用いることにより、LPモデルを線スペクトル周波数(LSF)領域で符号化できる。
【0051】
モード0はCELPアルゴリズムなどの伝統的な音声エンコードアルゴリズムを動作させる。しかしモード0がすべての音声フレームに用いられるわけではない。モード0は、後により詳細に論じるように「周期性様」の音声以外の音声すべてのフレームを取扱うよう選択される。便宜上、「周期性様」の音声を周期性の音声と呼び、その他の音声すべては「非周期性」の音声である。このような「非周期性」の音声は、ピッチ相関およびピッチラグなどの典型的なパラメータが急速に変化する遷移フレームと、信号が大半はノイズ様の信号であるフレームとを含む。モード0は各フレームを2つのサブフレームに分割する。モード0はピッチラグをサブフレームにつき一回ずつ符号化し、さらに二次元ベクトル量子化器を有し、これにより、サブフレームにつき一回ずつ、ピッチ利得(すなわち適応コードブック利得)および固定コードブック利得を一緒に符号化する。この実施例で固定コードブックは、2つのパルスサブコードブックおよび1つのガウスサブコードブックを含む。これら2つのパルスサブコードブックは2つおよび3つのパルスをそれぞれ有する。
【0052】
モード1は伝統的なCELPアルゴリズムとは異なる。モード1は周期性の音声を含むフレームを扱い、これは典型的に高い周期性を有し、しばしば平滑化されたピッチ区域で表わされる。この特定の実施例では、モード1はフレーム当り3つのサブフレームを用いる。ピッチラグは、ピッチ前処理の一部としてのサブフレーム処理より先にフレームにつき一回ずつ符号化され、このラグから、内挿されたピッチ区域が導き出される。サブフレームの3つのピッチ利得は極めて安定した挙動を示し、閉じたループのサブフレーム処理より先に平均2乗エラー基準に基づき前ベクトル量子化を用いて一緒に量子化される。量子化される3つの参照ピッチ利得は重み付けられた音声から導き出され、フレームに基づくピッチ前処理の副産物である。予め量子化されたピッチ利得を用いて、伝統的なCELPサブフレーム処理が行なわれるが、ただし3つの固定コードブック利得は量子化されないままである。これら3つの固定コードブック利得はサブフレーム処理後に一緒に量子化されるが、これはエネルギの移動平均予測を用いる遅延された決定手法に基づく。3つのサブフレームはこの後、完全に量子化されたパラメータと合成される。
【0053】
フレーム内に含まれる音声の分類に基づき各音声フレームにつき処理モードを選択する態様と、周期性の音声を処理する革新的なやり方とにより、音声の知覚的な品質が著しく犠牲になることなく、著しく少ないビットで利得量子化が可能となる。音声を処理するこの態様の詳細を以下に述べる。
【0054】
図3〜7は、図1および図2に例示の音声エンコーダの一実施例により用いられる多段式エンコード手法を例示する機能ブロック図である。特定的には、図3は多段式エンコード手法の第1のステージを含む音声プリプロセッサ193を例示する機能ブロック図である。図4は第2のステージを例示する機能ブロック図である。図5および図6は第3のステージのモード0を示す機能ブロック図である。図7は第3のステージのモード1を示す機能ブロック図である。音声エンコーダはエンコーダ処理回路を含み、典型的にソフトウェア命令の下で動作して以下の機能を行なう。
【0055】
入力音声が読込まれてフレームへバッファリングされる。入力音声のフレーム192は図3の音声プリプロセッサ193に向かい、無音エンハンサ195に与えられ、無音エンハンサ195は、音声フレームが純粋な無音であるかどうか、すなわち「無音ノイズ」のみがあるのかどうかを判定する。音声エンハンサ195は、現在のフレームが純粋な「無音ノイズ」であるかどうかをフレームベースで適応的に検出する。信号192が「無音ノイズ」であれば、音声エンハンサ195は信号を信号192の0レベルにする。逆に信号192が「無音ノイズ」でなければ、音声エンハンサ195は信号192に変更を加えない。音声エンハンサ195は極めて低いレベルのノイズのためにクリーンな音声の無音部分をクリーンにし、こうしてクリーンな音声の知覚的な品質を向上させる。音声向上機能の効果は、入力音声がA法則源に由来する場合、すなわち入力がこの音声符号化アルゴリズムでの処理の直前にA法則エンコードおよびデコードを通った場合に、特に認め得るものとなる。A法則は0付近のサンプル値(たとえば−1、0、+1)を−8または+8へ増幅するため、A法則での増幅は、不可聴の無音ノイズを、明確に聞き取ることができるノイズへ変化させ得る。音声エンハンサ195による処理の後、音声信号は高域通過フィルタ197に与えられる。
【0056】
高域通過フィルタ197は或る遮断周波数を下回る周波数を除去し、遮断周波数よりも高い周波数がノイズ減衰器199へ通過することを許す。この特定の実施例で高域通過フィルタ197は、ITU−TのG.729音声符号化規格の入力高域通過フィルタと同一である。すなわちこれは、遮断周波数が140ヘルツ(Hz)である第2のオーダのポール0フィルタである。当然のことながら、高域通過フィルタ197はこのようなフィルタでなくてもよく、適当なものであれば当業者に公知のどの種類のフィルタで構成してもよい。
【0057】
ノイズ減衰器199はノイズサプレッションアルゴリズムを実行する。この特定の実施例でノイズ減衰器199は、音声エンコードアルゴリズムによるパラメータの推定を向上させるために、最大5デシベル(dB)の環境ノイズの弱いノイズ減衰を行なう。無音を向上、高域通過フィルタ197を構築、およびノイズを減衰する特定の方法は、当業者に公知の数多くの技術のうちどれを用いてもよい。音声プリプロセッサ193の出力として、前処理された音声200が得られる。
【0058】
当然のことながら、無音エンハンサ195、高域通過フィルタ197およびノイズ減衰器199は、当業者に公知で特定の用途に適当な他のどの装置と取替えてもよく、またはそのような態様で変形可能である。
【0059】
図4を参照して、音声信号の一般的なフレームベースの処理の機能ブロック図が示される。換言すると、図4はフレーム単位での音声信号の処理を例示する。このフレーム処理は、モード(たとえばモード0または1)を問わず、モード依存の処理250が行なわれる前に行なわれる。前処理された音声200は知覚的重み付けフィルタ252により受取られ、これは谷間の区域を強調し、かつ前処理された音声信号200のピーク区域を強調せずにおくように動作する。知覚的重み付けフィルタ252は、当業者に公知で特定の用途に適当な他のどの装置と取替えてもよく、またはそのような態様で変形可能である。
【0060】
LPCアナライザ260は前処理された音声信号200を受取り、音声信号200の短期のスペクトルエンベロープを推定する。LPCアナライザ260は、音声信号200を規定する特性からLPC係数を抽出する。一実施例では、第10のオーダのLPC分析3つが各フレームにつき行なわれる。これら分析は、フレームの真中3分の1、最後3分の1、および先取りの中心に置かれる。先取りについてのLPC分析は、次のフレームで、フレームの最初3分の1の中心に置かれるLPC分析として再利用される。こうして各フレームにつき4組のLPCパラメータが生成される。LPCアナライザ260はさらに、たとえば線スペクトル周波数(LSF)領域へのLPC係数の量子化を行なうことができる。LPC係数の量子化はスカラまたはベクトル量子化であり、当該技術で公知のどのやり方で、どの適当な領域内で行なってもよい。
【0061】
分類器270は、たとえばフレームの絶対最大値、反射係数、予測エラー、LPCアナライザ260からのLSFベクトル、第10のオーダの自己相関、最近のピッチラグ、および最近のピッチ利得を調べることにって、前処理された音声200の特性についての情報を入手する。これらのパラメータは当業者に公知であるため、ここではこれ以上説明しない。分類器270はこの情報を用いてエンコーダのその他の要素、たとえば信号対雑音比、ピッチ推定、分類、スペクトル平滑化、エネルギ平滑化、および利得正規化などを制御する。これらの様相もまた当業者には公知であるため、ここではこれ以上説明しない。分類アルゴリズムの簡単な概要を次に述べる。
【0062】
分類器270は、ピッチプリプロセッサ254の助けとともに、フレームの支配的な特徴に従って各フレームを6つのクラスのうち1つに分類する。これらクラスは(1)無音/バックグラウンドノイズ、(2)ノイズ/無声様の音声、(3)無声、(4)遷移(開始を含む)、(5)非定常の有声、および(6)定常の有声、である。分類器270は、入力信号を周期性の信号および非周期性の信号に分類するのにどのような手法を用いてもよい。たとえば分類器270は、前処理された音声信号、フレームの後半の相関およびピッチラグ、ならびにその他の情報を入力パラメータとすることができる。
【0063】
音声が周期性と考えられるかどうかを判定するにはさまざまな基準を用いることができる。たとえば、音声が定常で有声の信号であれば、音声は周期性と考えられ得る。人によっては、定常な有声の音声、および非定常な有声の音声が周期性の音声に含まれると考えるかもしれないが、この明細書では周期性の音声は定常な有声の音声を含む。さらに周期性の音声は、平滑化され定常な音声であり得る。音声信号がフレーム内で或る量を超えて変化しなければ、有声の音声は「定常」と考えられる。このような音声信号は、はっきりと定められたエネルギコンターを有する可能性がより高い。音声の適応コードブック利得GPがしきい値を上回れば、この音声信号は「平滑」である。たとえばしきい値が0.7であれば、サブフレーム内の音声信号は、その適応コードブック利得GPが0.7を上回れば平滑と考えられる。非周期性の音声または有声でない音声は、無声の音声(たとえば“shhh(シーッ)”音などの摩擦音)、遷移(たとえば開始、終了)、バックグラウンドノイズおよび無音を含む。
【0064】
より具体的には、例示的な実施例において音声エンコーダはまず以下のパラメータを導き出す。
スペクトル傾斜(フレーム当り4回の第1の反射係数の推定)
【0065】
【数1】
【0066】
ここでL=80は反射係数が算出される窓であり、sk(n)は
【0067】
【数2】
【0068】
により与えられる第kのセグメントであり、ここでwh(n)は80サンプルのハミング窓であり、s(0)、s(1)、…s(159)は前処理された音声信号の現在のフレームである。
絶対最大値(絶対信号最大値の追跡、フレーム当り8回の推定)
【0069】
【数3】
【0070】
ここでns(k)およびne(k)はそれぞれ、フレームの時間k・160/8サンプルにおける第kの最大値を探すための始まりおよび終わりの点である。一般にセグメントの長さは、ピッチ周期およびセグメントオーバーラップの1.5倍である。こうして振幅エンベロープの平滑化されたコンターを得ることができる。
【0071】
スペクトル傾斜、絶対最大値およびピッチ相関パラメータは、分類のための基礎を形成する。しかしながら、分類決定の前に追加的なパラメータ処理および分析が行なわれる。まずパラメータ処理は、3つのパラメータに重み付けを適用する。重み付けは、バックグラウンドノイズからの寄与を減じることにより、或る意味でパラメータ内のバックグラウンドノイズ成分を取除く。これにより、あらゆるバックグラウンドノイズから「独立」で、従ってより一様なパラメータ空間が得られ、こうしてバックグラウンドノイズに対する分類の強固さが向上する。
【0072】
ノイズのピッチ周期エネルギのラン中間、ノイズのスペクトル傾斜、ノイズの絶対最大値、およびノイズのピッチ相関は、以下の式4〜7に従ってフレーム当り8回更新される。式4〜7で規定される以下のパラメータはフレーム当り8回推定/サンプリングされ、これによりパラメータ空間の細かい時間分解が得られる。
ノイズのピッチ周期エネルギのラン中間
【0073】
【数4】
【0074】
ここでEN,p(k)は、フレームの時間k・160/8サンプルにおけるピッチ周期の正規化されたエネルギである。ピッチ周期は典型的に20個のサンプル(160サンプル/8)を超えるため、エネルギが算出されるセグメントはオーバーラップし得る。
ノイズのスペクトル傾斜のラン中間
【0075】
【数5】
【0076】
ノイズの絶対最大値のラン中間
【0077】
【数6】
【0078】
ノイズのピッチ相関のラン中間
【0079】
【数7】
【0080】
ここでRPは、フレームの後半の入力ピッチ相関である。適応定数α1は適応的であるが、典型的な値はα1=0.99である。
バックグラウンドノイズ対信号比は以下の式により算出される。
【0081】
【数8】
【0082】
パラメータのノイズ減衰は30dBに制限、すなわち以下のようにされる。
【0083】
【数9】
【0084】
ノイズのないパラメータ組(重み付けられたパラメータ)は、以下の式10〜12に従ってノイズ成分を取除くことにより得られる。
重み付けられたスペクトル傾斜の推定
【0085】
【数10】
【0086】
重み付けられた絶対最大値の推定
【0087】
【数11】
【0088】
重み付けられたピッチ相関の推定
【0089】
【数12】
【0090】
重み付けられた傾斜および重み付けられた最大値の展開は、第1のオーダの近似の勾配としてそれぞれ以下の式13および式14に従って算出される。
【0091】
【数13】
【0092】
【数14】
【0093】
フレームの8個のサンプル点について式4から式14のパラメータが一旦更新されると、フレームに基づく以下のパラメータが式4〜14のパラメータから算出される。
重み付けられた最大ピッチ相関
【0094】
【数15】
【0095】
重み付けられた平均ピッチ相関
【0096】
【数16】
【0097】
重み付けられた平均ピッチ相関のラン中間
【0098】
【数17】
【0099】
ここでmはフレーム番号であり、α2=0.75は適応定数である。
ピッチラグの正規化された標準偏差
【0100】
【数18】
【0101】
ここでLp(m)は入力ピッチラグであり、μLp(m)は、以下の式により与えられる過去の3つのフレームにわたるピッチラグの中間である。
【0102】
【数19】
【0103】
重み付けられた最小スペクトル傾斜
【0104】
【数20】
【0105】
重み付けられた最小スペクトル傾斜のラン中間
【0106】
【数21】
【0107】
重み付けられた平均スペクトル傾斜
【0108】
【数22】
【0109】
重み付けられた傾斜の最小勾配
【0110】
【数23】
【0111】
重み付けられたスペクトル傾斜の累積勾配
【0112】
【数24】
【0113】
重み付けられた最大値の最大勾配
【0114】
【数25】
【0115】
重み付けられた最大値の累積勾配
【0116】
【数26】
【0117】
式23、式25および式26で与えられたパラメータは、フレームが開始を含む可能性があるかどうかをマークするのに用いられ、式16〜18、式20〜22で与えられたパラメータは、フレームで有声の音声が支配的である可能性があるかどうかをマークするのに用いられる。初期マーク、過去マークおよびその他の情報に基づき、フレームは6つのクラスのうち1つに分類される。
【0118】
分類器270が前処理された音声200を分類するやり方についてのより詳細な説明は、同じ譲受人であるコネクサント・システムズ・インコーポレイテッドに譲渡され、ここで引用により援用される米国特許出願、すなわち1999年9月22日に出願のコネクサント事件番号99RSS485、「4キロビット/秒音声符号化」と題された米国仮特許出願番号第60/155,321号に記載されている。
【0119】
LSF量子化器267はLPCアナライザ260からLPC係数を受取り、LPC係数を量子化する。LSF量子化はスカラまたはベクトル量子化を含むどの公知の量子化方法であってもよく、この量子化の目的は、係数をより少数のビットで表現することである。この特定の実施例では、LSF量子化器267は第10のオーダのLPCモデルを量子化する。さらにLSF量子化器267はLSFを平滑化することで、LPC合成フィルタのスペクトルエンベロープでの望ましくない変動を減少させ得る。LSF量子化器267は量子化された係数Aq(z)268を音声エンコーダのサブフレーム処理部分250に送る。音声エンコーダのサブフレーム処理部分はモードに依存する。LSFが好ましいが、量子化器267はLSF領域以外の領域へLPC係数を量子化することもできる。
【0120】
ピッチ前処理が選択される場合、重み付けられた音声信号256はピッチプリプロセッサ254に送られる。ピッチプリプロセッサ254は開いたループのピッチ推定器272と協働して、重み付けられた音声256に変更を加え、こうしてそのピッチ情報をより正確に量子化することができる。たとえばピッチプリプロセッサ254は、ピッチ利得を量子化する音声エンコーダの能力を向上させるために、ピッチサイクルに対し公知の圧縮または解凍技術を用いることができる。換言するとピッチプリプロセッサ254は、重み付けられた音声信号256に変更を加え推定ピッチトラックをより良くマッチングさせ、こうしてより正確に符号化モデルに適合し、一方で知覚的に区別がつかない再現された音声をもたらす。エンコーダ処理回路がピッチ前処理モードを選択すると、ピッチプリプロセッサ254は重み付けられた音声信号256のピッチ前処理を行なう。ピッチプリプロセッサ254は、重み付けられた音声信号256を歪めることにより、デコーダ処理回路により生成されるであろう内挿されるピッチ値をマッチングさせる。ピッチ前処理が適用される場合、歪められた音声信号は、変更を加えられ重み付けられた音声信号258と呼ばれる。ピッチ前処理モードが選択されない場合、重み付けられた音声信号256はピッチ前処理なしにピッチプリプロセッサ254を通過する(便宜上、これも「変更を加えられ重み付けられた音声信号」258と呼ぶ)。ピッチプリプロセッサ254は波形内挿器を含み得るが、これの機能および実現例は当業者に公知である。波形内挿器は、公知の順方向・逆方向波形内挿技術を用いて或る不規則な遷移セグメントに変更を加え、こうして音声信号の規則性を高め不規則性を抑えることができる。重み付けられた信号256についてのピッチ利得およびピッチ相関はピッチプリプロセッサ254により推定される。開いたループのピッチ推定器272は、重み付けられた音声256からピッチ特性についての情報を抽出する。ピッチ情報はピッチラグおよびピッチ利得情報を含む。
【0121】
ピッチプリプロセッサ254はさらに、開いたループのピッチ推定器272を通じ分類器270と対話して、分類器270による音声信号の分類をより細かくする。ピッチプリプロセッサ254は音声情報について追加の情報を入手するため、分類器270でこの追加の情報を用いて音声信号の分類を微調整することができる。ピッチプリプロセッサ254はピッチ前処理を行なった後に、ピッチトラック情報284および量子化されていないピッチ利得286を、音声エンコーダのモード依存サブフレーム処理部分254に出力する。
【0122】
一旦分類器270が、前処理された音声200を複数の可能なクラスのうち1つに分類すると、前処理された音声信号200の分類番号が、モード選択器274およびモード依存サブフレームプロセッサ250へ制御情報280として送られる。モード選択器274は分類番号を用いて動作モードを選択する。この特定の実施例では、分類器270は前処理された音声信号200を6つの可能なクラスのうち1つへ分類する。前処理された音声信号200が定常で有声の音声(たとえば「周期性」の音声と呼ばれる)であれば、モード選択器274はモード282をモード1に設定する。そうでなければ、モード選択器274はモード282をモード0に設定する。モード信号282は、音声エンコーダのモード依存サブフレーム処理部分250に送られる。モード情報282は、デコーダへ送信されるビットストリームに追加される。
【0123】
「周期性」および「非周期性」と音声を名づけることは、この特定の実施例においていくらか注意して解釈されるべきである。たとえばモード1を用いてエンコードされたフレームは、フレーム当り7つのビットのみから導き出されたピッチトラック284に基づく、フレーム全体にわたる高ピッチ相関および高ピッチ利得を維持するフレームである。従ってモード1の代わりにモード0が選択されることは、7つのビットのみによるピッチトラック284の不正確な表現に由来している可能性があり、必ずしも周期性がないことに由来するわけではない。従ってモード0を用いてエンコードされた信号は、ピッチトラックについてのフレーム当り7つのビットのみによって良く表現されてはいないとしても、周期性を含む可能性はある。従ってモード0は、ピッチトラックをより良く表現するために、フレーム当り7ビットの2倍、すなわちフレーム当り合計14ビットでピッチトラックをエンコードする。
【0124】
図3〜4の機能ブロックの各々、およびこの明細書中の他の図は、別個の構造である必要はなく、所望に応じて1つ以上のさらなる機能ブロックと組合せることもできる。
【0125】
音声エンコーダのモード依存サブフレーム処理部分250は、モード0およびモード1の2つのモードで動作する。図5〜6はモード0サブフレーム処理の機能ブロック図を示し、図7は音声エンコーダの第3のステージのモード1サブフレーム処理の機能ブロック図を示す。図8は、改良された音声エンコーダに相当する音声デコーダのブロック図を示す。音声デコーダはビットストリームのアルゴリズムパラメータへの逆マッピングを行ない、これにモード依存の合成が続く。これらの数およびモードのより詳細な説明は、同じ譲受人であるコネクサント・システムズ・インコーポレイテッドに譲渡された米国特許出願、すなわち2000年5月19日に出願のコネクサント事件番号99RSS312、「新しい音声利得量子化方策」と題された米国特許出願番号第09/574,396号に記載されており、その出願全体はここで引用により援用される。
【0126】
音声信号を表現する量子化されたパラメータはパケット化され、データパケットとしてエンコーダからデコーダへ送信される。次に記載する実施例では、音声信号はフレーム単位で分析され、各フレームは少なくとも1つのサブフレームを有し、各データパケットは1フレームについての情報を含み得る。従ってこの例では、各フレームについてのパラメータ情報は情報パケットとして送信される。換言すると、各フレームにつき1つのパケットがある。当然のことながら他の変形例が可能であり、実施例に依存して各パケットは、フレームの一部、音声フレームよりも多くのもの、または複数のフレームを表わし得る。
【0127】
LSF
LSF(線スペクトル周波数)は、LPCスペクトル(すなわち音声スペクトルの短期のエンベロープ)の表現である。LSFは、音声スペクトルがサンプリングされる特定の周波数として考えられ得る。たとえばシステムが第10のオーダのLPCを用いる場合、フレームにつき10個のLSFがあることになる。連続するLSF間に最小限の間隔をあけ、これらが準不安定なフィルタをもたらさないようにする必要がある。たとえば、fiが第iのLSFでありかつ100Hzと等しければ、第(i+1)のLSFすなわちfI+1は少なくともfi+最小間隔である必要がある。たとえば、fi=100Hzであり、かつ最小間隔が60Hzであれば、fI+1は少なくとも160Hzでなければならず、160Hzを上回ればどの周波数であってもよい。最小間隔はフレームごとに変化しない固定数であり、さらにエンコーダおよびデコーダの両方にとって既知であり、これによりこの両方は協働できる。
【0128】
エンコーダがLSFを符号化するのに、(予測的でない符号化でなく)低ビットレートで音声通信を達成するのに必要な予測的な符号化を用いると想定する。換言すると、エンコーダは現在のフレームのLSFを予測するのに前フレームの量子化されたLSFを用いる。エンコーダがLPCスペクトルから導き出す現在のフレームの真のLSFと、予測LSFとの間のエラーは、量子化されてデコーダに送信される。デコーダは、エンコーダと同じやり方で現在のフレームの予測LSFを求める。次にデコーダは、エンコーダにより送信されたエラーを知ることで現在のフレームの真のLSFを算出できる。しかし、もしLSF情報を含むフレームが紛失した場合どうなるであろうか。図9を参照して、エンコーダがフレーム0〜3を送信し、デコーダがフレーム0、2および3のみを受信すると想定されたい。フレーム1は紛失または「消去」されたフレームである。現在のフレームが紛失フレーム1であれば、デコーダは真のLSFを算出するのに必要なエラー情報を有さない。結果として先行技術のシステムは真のLSFを算出せず、その代わりにLSFを、前フレームのLSF、または或る数の前フレームの平均LSFに設定する。この手法の問題は、現在のフレームのLSFが(真のLSFと比較して)あまりに不正確であり、後続フレーム(すなわち図9の例のフレーム2および3)が自身のLSFを求めるためにフレーム1の不正確なLSFを用いるおそれがあることである。従ってフレームの紛失によって生じたLSF外挿エラーは、後続フレームのLSFの正確さを損なってしまう。
【0129】
この発明の実施例では、改良された音声デコーダは、紛失フレームに続く良好なフレームの数を計数するカウンタを含む。図10は、各フレームに関連づけられた最小限のLSF間隔を例示する。良好なフレーム0がデコーダにより受信され、フレーム1が紛失したと想定されたい。先行技術の手法では、LSF間の最小間隔は変化しない固定数(図10の60Hz)であった。対照的に、改良された音声デコーダがフレームの紛失に気づくと、デコーダはこのフレームの最小間隔を増加させることで、準不安定なフィルタをもたらすことを避ける。この「制御された適応LSF間隔」の増加量は、どの間隔増加がその特定の場合に最善であるかに依存する。たとえば改良された音声デコーダは、信号のエネルギ(または信号の電力)が時間の経過につれてどのように展開したか、および信号の周波数内容(スペクトル)が時間の経過につれてどのように展開したかを考慮し、さらにカウンタを考慮することにより、紛失フレームの最小間隔をどの値に設定すべきかを求めることができる。当業者であれば、簡単な実験を行なってどの最小間隔値が使用のために十分であるかを求めることができるであろう。音声信号および/またはそのパラメータを分析して適当なLSFを導き出す1つの利点は、結果として得られるLSFがこのフレームの真の(しかし紛失した)LSFに対してより近くなるであろうことである。
【0130】
適応コードブック励振(ピッチラグ)
適応コードブック励振および固定コードブック励振からなる総励振eTは以下の式で記述される。
【0131】
【数27】
【0132】
ここでgpおよびgcは、それぞれ量子化された適応コードブック利得および固定コードブック利得であり、expおよびexcは適応コードブック励振および固定コードブック励振である。バッファ(適応コードブックバッファとも呼ばれる)は、先行フレームからのeTおよびその成分を保持する。現在のフレームのピッチラグパラメータに基づき、音声通信システムはバッファからeTを選択し、これを現在のフレームについてのexpとして用いる。gp、gcおよびexcについての値は現在のフレームから入手される。次に、exp、gp、gcおよびexcを式に入れて現在のフレームについてeTを算出する。現在のフレームについて算出されたeTおよびその成分はバッファに記憶される。このプロセスを繰返し、次にバッファリングされたeTを次フレームについてのexpとして用いる。このように、このエンコード手法のフィードバック的性格(これはデコーダによって繰返される)が明らかである。式中の情報は量子化されるため、エンコーダおよびデコーダは同期される。バッファは適応コードブックの一種である(ただし、利得励振に用いられる適応コードブックとは異なる)ことに注目されたい。
【0133】
図11は、先行技術の音声システムにより伝送される、4つのフレーム1〜4についてのピッチラグ情報を例示する。先行技術のエンコーダは現在のフレームについてのピッチラグおよびデルタ値を伝送し、ここでデルタ値は、現在のフレームのピッチラグと前フレームのピッチラグとの差である。EVRC(拡張可変レートコーダ)規格はデータピッチラグの使用を規定している。従って、たとえばフレーム1に関する情報パケットは、ピッチラグL1およびデルタ(L1−L0)を含むことになり、ここでL0は先行するフレーム0のピッチラグであり、フレーム2に関する情報パケットは、ピッチラグL2およびデルタ(L2−L1)を含むことになり、フレーム3に関する情報パケットはピッチラグL3およびデルタ(L3−L2)を含むことになり、などとなる。なお、隣接するフレームのピッチラグが等しく、このためデルタ値が0であることもある。フレーム2が紛失してデコーダで受信されなければ、フレーム2の時に利用可能なピッチラグについての情報はピッチラグL1のみであり、それは前フレーム1が紛失していないことによる。ピッチラグL2およびデルタ(L2−L1)情報の紛失は2つの問題を生じさせていた。第1の問題は、紛失フレーム2について正確なピッチラグL2をどのように推定するかである。第2の問題は、ピッチラグL2を推定する際のエラーが後続フレームにエラーを引き起こすことをどのように防ぐかである。或る先行技術のシステムはどちらの問題にも対処していない。
【0134】
第1の問題を解決する試みとして、或る先行技術のシステムは良好な前フレーム1からのピッチラグL1を紛失フレーム2についての推定ピッチラグL2′として用いるが、推定ピッチラグL2′と真のピッチラグL2との差はどれもエラーとなるであろう。
【0135】
第2の問題は、推定ピッチラグL2′でのエラーが後続フレームにエラーを引き起こすことをどのように防ぐかである。既に論じたように、フレームnのピッチラグは適応コードブックバッファを更新するのに用いられ、これが今度は後続フレームにより用いられることを想起されたい。推定ピッチラグL2′と真のピッチラグL2との間のエラーは、適応コードブックバッファでエラーを引き起こし、これが今度は後に受信されるフレームでエラーを引き起こすことになる。換言すると、推定ピッチラグL2′でのエラーの結果、エンコーダの観点からの適応コードブックバッファと、デコーダの観点からの適応コードブックバッファとの間に同時性が失われるおそれがある。さらなる例として、先行技術のデコーダは、現在の紛失フレーム2の処理中に、ピッチラグL1(これは恐らく真のピッチラグL2とは異なる)を推定ピッチラグL2′として用いて、フレーム2についてのexpを取戻すことになる。従って、間違ったピッチラグの使用によってフレーム2で誤ったexpが選択され、このエラーは後続フレーム全体にわたって伝搬する。この先行技術の問題を解決するために、フレーム3がデコーダにより受信されると、デコーダはここではピッチラグL3およびデルタ(L3−L2)を有し、こうして真のピッチラグL2が何であるはずであったかを逆算できる。真のピッチラグL2は、単にピッチラグL3からデルタ(L3−L2)を引いたものである。先行技術のデコーダはこのように、フレーム3により用いられる適応コードブックバッファを訂正できるかもしれない。紛失フレーム2は推定ピッチラグL2′で既に処理されているため、紛失フレーム2を訂正するのはもはや手遅れである。
【0136】
図12は、ピッチラグ情報の紛失による両方の問題に対処する改良された音声通信システムの実施例の動作を示すための、フレームの仮定的な事例を示す。フレーム2が紛失し、フレーム0、1、3および4が受信されると想定されたい。デコーダが紛失フレーム2を処理する間、改良されたデコーダは前フレーム1からのピッチラグL1を用いることができる。これに代えてまたは好ましくは、改良されたデコーダは、前フレームのピッチラグに基づき外挿を行なって推定ピッチラグL2′を求めることができ、この結果ピッチラグL1よりも正確な推定が可能となる。このように、たとえばデコーダは推定ピッチラグL2′を外挿するためにピッチラグL0およびL1を用いることができる。外挿方法はどの外挿方法であってもよく、たとえば、紛失ピッチラグL2を推定するために、過去から平滑化されたピッチコンターを仮定する曲線の当てはめの方法、過去のピッチラグの平均を用いる方法、またはその他どの外挿方法であってもよい。この手法により、デルタ値を送信する必要がないため、エンコーダからデコーダへ送信するビットの数が減少する。
【0137】
第2の問題を解決するために、改良されたデコーダがフレーム3を受信すると、デコーダは正しいピッチラグL3を有する。しかし上述のように、フレーム3によって用いられる適応コードブックバッファは、ピッチラグL2′を推定する際の外挿エラーのために正しくないおそれがある。改良されたデコーダは、デルタピッチラグ情報を送信せずに、フレーム2のピッチラグL2′を推定する際のエラーがフレーム2後のフレームに影響を与えることを阻止しようと試みる。改良されたデコーダは、一旦ピッチラグL3を入手すると、曲線の当てはめの方法などの内挿方法を用いてピッチラグL2′の以前の推定を調整または微調整する。ピッチラグL1およびL3が知られているので、曲線の当てはめの方法はピッチラグL3が知られていない場合よりも正確にL2′を推定できる。結果として、微調整されたピッチラグL2″が得られ、これを用いて、フレーム3による使用のために適応コードブックバッファを調整または訂正する。より特定的に、微調整されたピッチラグL2″は、適応コードブックバッファにある量子化された適応コードブック励振を調整または訂正するのに用いられる。こうして、改良されたデコーダは送信すべきビットの数を減少させ、さらに、ほとんどの場合で満足できるやり方でピッチラグL2′を微調整する。こうして、後に受信されたフレームに対する、ピッチラグL2の推定でのあらゆるエラーの影響を減少させるために、改良されたデコーダは次フレーム3のピッチラグL3と、前に受信されたフレーム1のピッチラグL1とを用い、平滑化されたピッチコンターを仮定してピッチラグL2についての前の推定を微調整する。紛失フレームに先行および後続する受信フレームのピッチラグに基づくこの推定手法の正確さは極めて良好であり得るが、それはピッチコンターが有声の音声については一般に平滑であるからである。
【0138】
利得
エンコーダからデコーダへのフレームの送信中、フレームが紛失する結果として、適応コードブック利得gpおよび固定コードブック利得gcなどの利得パラメータも紛失する。各フレームは複数のサブフレームを含み、各サブフレームは利得情報を有する。従ってフレームの紛失の結果、フレームの各サブフレームにある利得情報も紛失する。音声通信システムは、紛失フレームの各サブフレームにつき利得情報を推定する必要がある。1つのサブフレームの利得情報は、別のサブフレームの利得情報と異なることがある。
【0139】
先行技術のシステムは紛失フレームのサブフレームについての利得を推定するために、良好な前フレームの最後のサブフレームからの利得を紛失フレームの各サブフレームの利得として用いるなど、さまざまな手法をとっていた。別の変形例では、良好な前フレームの最後のサブフレームからの利得を紛失フレームの第1のサブフレームの利得として用い、この利得を漸次減衰させてからこれを紛失フレームの次サブフレームの利得として用いる。換言すると、たとえば各フレームが4つのサブフレームを有し、フレーム1が受信されフレーム2が紛失した場合、受信されたフレーム1の最後のサブフレームにある利得パラメータを、紛失フレーム2の第1のサブフレームの利得パラメータとして用い、次に利得パラメータを或る量だけ減少させて紛失フレーム2の第2のサブフレームの利得パラメータとして用い、利得パラメータを再び減少させて紛失フレーム2の第3のサブフレームの利得パラメータとして用い、利得パラメータをさらに減少させて紛失フレーム2の最後のサブフレームの利得パラメータとして用いる。さらに別の手法では、前に受信された固定数のフレームのサブフレームの利得パラメータを調べて平均利得パラメータを算出し、次にこれを紛失フレーム2の第1のサブフレームの利得パラメータとして用い、ここで利得パラメータを漸次減少させて紛失フレームの残りのサブフレームの利得パラメータとして用いることができる。さらに別の手法では、前に受信された固定数のフレームのサブフレームを調べて、中間値を紛失フレーム2の第1のサブフレームの利得パラメータとして用いることで、中間利得パラメータを導き出し、ここで利得パラメータを漸次減少させて紛失フレームの残りのサブフレームの利得パラメータとして用いることができる。注目すべきことに、先行技術の手法は適応コードブック利得と固定コードブック利得とに対し異なった回復方法を行なわず、両方の種類の利得に対し同じ回復方法を用いていた。
【0140】
改良された音声通信システムはさらに、フレームが紛失したために紛失した利得パラメータを扱うことができる。音声通信システムが周期性様の音声と非周期性様の音声とを差別化すれば、システムは音声の各種類ごとに異なって紛失利得パラメータを扱うことができる。さらに、改良されたシステムは紛失適応コードブック利得を、紛失固定コードブック利得とは異なって扱う。まず非周期性様の音声の場合を検討する。推定適応コードブック利得gpを求めるために、改良されたデコーダは前に受信された適応的な数のフレームのサブフレームの平均gpを計算する。デコーダにより推定された現在のフレーム(すなわち紛失フレーム)のピッチラグを用いて、前に受信された調べるべきフレームの数を求める。一般にピッチラグが大きいほど、平均gpを算出するのに用いるべき前に受信されたフレームの数は大きくなる。こうして、改良されたデコーダはピッチ同期平均手法を用いて、非周期性様の音声についての適応コードブック利得gpを推定する。次に、改良されたデコーダは以下の式に基づいてベータβを算出し、これはgpの予測がどれだけ良好であるかを示す。
【0141】
【数28】
【0142】
βは0から1まで変化し、総励振エネルギに対する適応コードブック励振エネルギの効果を百分率で表わす。βが大きいほど、適応コードブック励振エネルギの効果は大きくなる。改良されたデコーダは非周期性様の音声と周期性様の音声とを異なって扱うことが好ましいが、これは必須ではない。
【0143】
図16は、非周期性様の音声についてのデコーダの処理のフローチャートを例示する。ステップ1000は、現在のフレームがフレーム(すなわち「良好な」フレーム)を受信した後に失われた第1のフレームであるかどうかを判定する。現在のフレームが良好なフレーム後の第1の紛失フレームであれば、ステップ1002は、デコーダにより処理されている現在のサブフレームがフレームの第1のサブフレームであるかどうかを判定する。現在のサブフレームが第1のサブフレームであれば、ステップ1004は或る数の前サブフレームについての平均gpを計算し、ここでサブフレームの数は現在のサブフレームのピッチラグに依存する。例示的な実施例では、ピッチラグが40以下であれば、平均gpは2つの前サブフレームに基づく。ピッチラグが40よりも大きくかつ80以下であれば、平均gpは4つの前サブフレームに基づく。ピッチラグが80よりも大きくかつ120以下であれば、平均gpは6つの前サブフレームに基づく。ピッチラグが120よりも大きければ、平均gpは8つの前サブフレームに基づく。当然のことながらこれらの値は任意であり、サブフレームの長さに依存して他のどの値に設定してもよい。ステップ1006は、最大値βが或るしきい値を超えるかどうかについて判定する。最大値βが或るしきい値を超えれば、ステップ1008は、紛失フレームのサブフレームすべてについて固定コードブック利得gcをゼロに設定し、紛失フレームのサブフレームすべてについてgpを、上で求められた平均gpの代わりに、0.95などの任意に大きい数に設定する。この任意に大きい数は良好な発声の信号を示す。紛失フレームの現在のサブフレームのgpが設定される任意に大きい数はいくつかの要因に基づき得るが、これには或る数の前フレームの最大値β、前に受信されたフレームのスペクトル傾斜、および前に受信されたフレームのエネルギが含まれるが、これらに限定はされない。
【0144】
逆に、最大値βが或るしきい値を超えない(すなわち前に受信されたフレームが音声の開始を含む)場合、ステップ1010は紛失フレームの現在のサブフレームのgpを(i)上で求めた平均gp、および(ii)任意に選択された大きさの数(たとえば0.95)、の最小値に設定する。これに代えて、紛失フレームの現在のサブフレームのgpを、前に受信されたフレームのスペクトル傾斜、前に受信されたフレームのエネルギ、および上で求めた平均gpと任意に選択された大きさの数(たとえば0.95)との最小値に基づき、設定することもできる。最大値βが或るしきい値を超えない場合、固定コードブック利得gcは、前サブフレームでの利得スケーリング(gain scaled)固定コードブック励振のエネルギ、および現在のサブフレームでの固定コードブック励振のエネルギに基づく。具体的には、前サブフレームでの利得スケーリング固定コードブック励振のエネルギを、現在のサブフレームでの固定コードブック励振のエネルギで割り、これの結果を、その平方根を求めて減衰分数により乗じ、以下の式に示すgcに設定する。
【0145】
【数29】
【0146】
これに代えてデコーダは、前に受信されたフレームのエネルギの、現在の紛失フレームのエネルギに対する比に基づいて、紛失フレームの現在のサブフレームについてのgcを導くことができる。
【0147】
ステップ1002に戻ると、現在のサブフレームが第1のサブフレームでなければ、ステップ1020は、紛失フレームの現在のサブフレームのgpを、前サブフレームのgpから減衰または減少された値に設定する。残りのサブフレームの各々のgpは、前サブフレームのgpからさらに減衰された値に設定される。現在のサブフレームのgcは、ステップ1010および式29と同じやり方で算出される。
【0148】
ステップ1000に戻ると、現在のフレームが良好なフレーム後の第1の紛失フレームでなければ、ステップ1022は、ステップ1010および式29と同じやり方で現在のサブフレームのgcを算出する。ステップ1022はさらに、紛失フレームの現在のサブフレームのgpを、前サブフレームのgpから減衰および減少された値に設定する。デコーダがgpとgcとを異なって推定するため、デコーダはこれらを先行技術のシステムよりも正確に推定できる。
【0149】
次に、図17に例示するフローチャートに従って周期性様の音声の場合を検討する。デコーダは、周期性様の音声および非周期性様の音声についてのgpおよびgcを推定するのに異なった手法を適用できるため、利得パラメータの推定は先行技術の手法よりも正確となるであろう。ステップ1030は、現在のフレームがフレーム(すなわち「良好な」フレーム)を受信した後に紛失した第1のフレームであるかどうかを判定する。現在のフレームが良好なフレーム後の第1の紛失フレームであれば、ステップ1032はgcを、現在のフレームのサブフレームすべてにつきゼロに設定し、gpを、現在のフレームのサブフレームすべてについて0.95などの任意に大きい数に設定する。現在のフレームが良好なフレーム後の第1の紛失フレームでなければ(たとえば第2の紛失フレーム、第3の紛失フレームなど)、ステップ1034はgcを、現在のフレームのサブフレームすべてにつきゼロに設定し、gpを、前サブフレームのgpから減衰された値に設定する。
【0150】
図13は、改良された音声デコーダの動作を例示するためのフレームの事例を示す。フレーム1、3および4が良好(すなわち受信された)フレームであり、フレーム2、5〜8が紛失フレームであると想定されたい。現在の紛失フレームが良好なフレーム後の第1の紛失フレームであれば、デコーダはgpを紛失フレームのサブフレームすべてについて任意に大きい数(たとえば0.95)に設定する。図13を参照すると、これは紛失フレーム2および5に当てはまる。第1の紛失フレーム5のgpは漸次減衰され、他の紛失フレーム6〜8のgPを設定する。こうして、たとえばgpが紛失フレーム5で0.95に設定されると、gpは紛失フレーム6については0.9に、紛失フレーム7については0.85に、紛失フレーム8については0.8に設定され得る。gcについては、デコーダは前に受信されたフレームから平均gpを計算し、この平均gpが或るしきい値を超えれば、gcは紛失フレームのサブフレームすべてにつきゼロに設定される。平均gpが或るしきい値を超えなければ、デコーダは上述の非周期性様の信号についての同じ設定手法を用いてgcを設定する。
【0151】
デコーダが紛失フレーム中にある紛失パラメータ(たとえばLSF、ピッチラグ、利得、分類など)を推定して結果の音声を合成した後、デコーダは外挿技術によって、紛失フレームの合成された音声のエネルギを、前に受信されたフレームのエネルギとマッチングさせることができる。これによって、フレームが紛失しても元の音声を再現する正確さがさらに向上する。
【0152】
固定コードブック励振を生成するためのシード
帯域幅を節約するために、音声エンコーダは、バックグラウンドノイズまたは無音の期間中にはデコーダに固定コードブック励振を送信しなくてもよい。その代わり、エンコーダとデコーダとはともにガウス時系列発生器を用いて、ローカルに励振値をランダムに生成できる。エンコーダとデコーダとはともに同じオーダでの同じランダムな励振値を生成するよう構成される。結果として、エンコーダが所与のノイズフレームにつき生成した同じランダムな励振値を、デコーダがローカルに生成できるため、励振値をエンコーダからデコーダへ送信する必要はない。ランダムな励振値を生成するために、ガウス時系列発生器は初期シードを用いて第1のランダムな励振値を生成し、次に発生器はシードを新たな値に更新する。次に発生器は更新されたシードを用いて次のランダムな励振値を生成し、シードをさらに別の値に更新する。図14は、音声エンコーダ内のガウス時系列発生器がどのようにシードを用いてランダムな励振値を生成し、次にどのようにこのシードを更新して次のランダムな励振値を生成するかを例示するための、フレームの仮定的な事例を示す。フレーム0および4が音声信号を含み、フレーム2、3および5が無音またはバックグラウンドノイズを含むと想定されたい。第1のノイズフレーム(すなわちフレーム2)が見つかると、エンコーダは初期シード(「シード1」と呼ぶ)を用いて、このフレームについての固定コードブック励振として用いるためのランダムな励振値を生成する。このフレームの各サンプルにつき、シードを変化させて新たな固定コードブック励振を生成する。こうして、フレームが160回サンプリングされた場合、シードは160回変わることになるだろう。従って次のノイズフレーム(ノイズフレーム3)に遭遇するまでに、エンコーダは第2および異なったシード(すなわちシード2)を用いて、このフレームについてのランダムな励振値を生成する。技術的には、シードは第1のフレームの各サンプルで変化するため、第2のフレームの第1のサンプルについてのシードは「第2の」シードではないが、便宜上第2のフレームの第1のサンプルについてのシードをここではシード2と呼ぶ。ノイズフレーム4については、エンコーダは第3のシード(第1および第2のシードとは異なる)を用いる。ノイズフレーム6についてのランダムな励振値を生成するために、ガウス時系列発生器は、音声通信システムの実現例に依存してシード1からやり直しても、またはシード4で進行してもよい。シードを同じやり方で更新するようにエンコーダおよびデコーダを構成することにより、エンコーダおよびデコーダは同じシードを生成でき、こうして同じオーダで同じランダムな励振値を生成できる。しかし先行技術の音声通信システムでは、フレームの紛失によりエンコーダとデコーダとのこの同時性が破壊されてしまう。
【0153】
図15は、図14に示した仮定的な事例をデコーダの観点から例示する。ノイズフレーム2が紛失し、フレーム1および3がデコーダにより受信されると想定されたい。ノイズフレーム2が紛失しているため、デコーダはこれが前フレーム1(すなわち音声フレーム)と同じ種類であると仮定する。紛失ノイズフレーム2について誤った仮定をしてしまったため、デコーダは、ノイズフレーム3が実際には第2に遭遇したノイズフレームであるにもかかわらず、これを第1のノイズフレームと考える。シードは遭遇したノイズフレームすべての各サンプルにつき更新されるため、デコーダは、シード2を用いるべきであるにもかかわらず、間違ってシード1を用いてノイズフレーム3のランダム励振値を生成する。こうして、フレームの紛失の結果としてエンコーダとデコーダとの同時性が失われる。フレーム2はノイズフレームであるため、エンコーダがシード2を用いながらデコーダがシード1を用いることは重大事ではないが、それは結果が元のノイズと異なるノイズであるからである。同じことがフレーム3にも当てはまる。しかしながら、後に受信されたフレームが音声を含んでいれば、シード値のエラーはこれに対して大きな影響を与えることになる。たとえば音声フレーム4に着目する。シード2に基づくローカルに生成されたガウス励振を連続的に用い、フレーム3の適応コードブックバッファを更新する。フレーム4が処理されると、適応コードブック励振は、フレーム4のピッチラグなどの情報に基づいてフレーム3の適応コードブックバッファから抽出される。エンコーダがフレーム3の適応コードブックバッファを更新するためにシード3を用い、デコーダがフレーム3の適応コードブックバッファを更新するためにシード2(間違ったシード)を用いているため、場合によってはフレーム3の適応コードブックバッファを更新する際の差が、フレーム4内で品質上の問題を引き起こすおそれがある。
【0154】
この発明に従って構築される改良された音声通信システムは、初期固定シードを用いて、システムがノイズフレームに遭遇するたびにこのシードを更新することはない。その代わり、改良されたエンコーダおよびデコーダは、このフレーム内のパラメータから所与のフレームについてのシードを導き出す。たとえば現在のフレーム内のスペクトル情報、エネルギおよび/または利得情報を用いて、このフレームについてのシードを生成することができる。たとえば、スペクトルを表わすビット(たとえば5つのビットb1、b2、b3、b4、b5)およびエネルギを表わすビット(たとえば3つのビットc1、c2、c3)を用いて、ストリングb1、b2、b3、b4、b5、c1、c2、c3をもたらすことができ、この値がシードである。数で例を示せば、スペクトルが01101、エネルギが011で表されると想定すると、シードは01101011で表わされる。当然のことながら、フレーム内の情報からシードを導き出す他の代替的な方法が可能であり、この発明の範囲内に含まれる。従って、ノイズフレーム2が紛失する図15の例では、デコーダはエンコーダにより導き出される同じシードであるノイズフレーム3についてのシードを導き出すことができる。従って、フレームの紛失によってエンコーダとデコーダとの同時性が破壊されることはない。
【0155】
この発明の実施例および実現例を示し説明したが、さらに多くの実施例および実現例がこの発明の範囲内にあることは明らかである。従ってこの発明は、特許請求の範囲およびその均等物に限定されることを除き、限定されるべきではない。
【図面の簡単な説明】
【図1】ソースエンコーダとソースデコーダとを有する音声通信システムの機能ブロック図である。
【図2】図1の音声通信システムのより詳細な機能ブロック図である。
【図3】図1の音声通信システムの一実施例によって用いられるソースエンコーダの例示的な第1のステージ、音声プリプロセッサの機能ブロック図である。
【図4】図1の音声通信システムの一実施例によって用いられるソースエンコーダの例示的な第2のステージを示す機能ブロック図である。
【図5】図1の音声通信システムの一実施例によって用いられるソースエンコーダの例示的な第3のステージを示す機能ブロック図である。
【図6】非周期性の音声を処理するため(モード0)、図1の音声通信システムの一実施例によって用いられるソースエンコーダの例示的な第4のステージを示す機能ブロック図である。
【図7】周期性の音声を処理するため(モード1)、図1の音声通信システムの一実施例によって用いられるソースエンコーダの例示的な第4のステージを示す機能ブロック図である。
【図8】この発明に従って構築された音声エンコーダからの符号化された情報を処理するための音声デコーダの一実施例のブロック図である。
【図9】受信フレームと紛失フレームの仮定的な例を示す図である。
【図10】受信フレームと紛失フレーム、加えて、先行技術のシステムおよびこの発明に従って構築された音声通信システムにおいて各フレームに割当てられたLSF間の最小間隔の仮定的な例を示す図である。
【図11】先行技術の音声通信システムが各フレームに対してピッチラグおよびデルタピッチラグ情報をいかに割当て、用いるかを図示する仮定的な例を示す図である。
【図12】この発明に従って構築された音声通信システムが各フレームに対してピッチラグおよびデルタピッチラグ情報をいかに割当て、用いるかを図示する仮定的な例を示す図である。
【図13】紛失フレームがある場合に、この発明に従って構築された音声デコーダが、各フレームに対して適応利得パラメータ情報をいかに割当てるかを図示する仮定的な例を示す図である。
【図14】先行技術のエンコーダがいかにシードを用いて、無音またはバックグラウンドノイズを含む各フレームに対してランダム励振値を生成するかを図示する仮定的な例を示す図である。
【図15】紛失フレームがある場合に、先行技術のデコーダがいかにシードを用いて、無音またはバックグラウンドノイズを含む各フレームに対してランダム励振値を生成し、エンコーダとの同時性を失うかを図示する仮定的な例を示す図である。
【図16】この発明に従って非周期性様の音声を処理する例を示すフローチャートである。
【図17】この発明に従って周期性様の音声を処理する例を示すフローチャートである。
Claims (101)
- 音声通信システムのためのデコーダであって、
デコードされるべき音声信号のパラメータを受信する受信機を含み、パラメータはフレームごとに受信され、各フレームに対する線スペクトル周波数の最小間隔を表わすパラメータを含み、前記デコーダはさらに、
受信機に結合され、パラメータをデコードするための、および音声信号を再合成するための制御ロジックと、
パラメータのフレームが受信機によって受信されなかったかどうかを検出する紛失フレーム検出器と、
紛失フレーム検出器が紛失フレームを検出すると、紛失フレームの最小間隔パラメータを、前に受信されたフレームの最小間隔パラメータよりも大きい第1の値に設定するフレーム回復ロジックとを含む、デコーダ。 - 紛失フレーム検出器は制御ロジックの一部である、請求項1に記載のデコーダ。
- フレームエラーロジックは制御ロジックの一部である、請求項1に記載のデコーダ。
- フレームエラーロジックは制御ロジックの一部である、請求項2に記載のデコーダ。
- フレーム回復ロジックは、紛失フレームの後で受信されたフレームの最小間隔パラメータを第2の値に設定し、第2の値は、紛失フレームの直前に受信されたフレームの最小間隔パラメータよりも大きく、紛失フレームの最小間隔パラメータよりも小さい、請求項1に記載のデコーダ。
- フレーム回復ロジックは、紛失フレームの後で受信された第2のフレームの最小間隔パラメータを第3の値に設定し、第3の値は、紛失フレームの最小間隔パラメータよりも小さい、またはそれに等しい、請求項5に記載のデコーダ。
- フレーム回復ロジックは、紛失フレームの後で受信された第2のフレームの最小間隔パラメータを第3の値に設定し、第3の値も、紛失フレームの後で受信された第1のフレームの最小間隔パラメータよりも小さい、またはそれに等しい、請求項6に記載のデコーダ。
- 紛失フレームに続いて受信されたフレームの数をカウントするカウンタをさらに含み、カウントは受信フレームの最小間隔パラメータの値を求める、請求項1に記載のデコーダ。
- 紛失フレームに続いて受信されたフレームの数をカウントするカウンタをさらに含み、カウントは受信フレームの最小間隔パラメータの値を求める、請求項5に記載のデコーダ。
- フレーム回復ロジックは、音声信号のエネルギに少なくとも部分的に基づいて、紛失フレームの最小間隔パラメータを設定する、請求項1に記載のデコーダ。
- フレーム回復ロジックは、音声信号の周波数スペクトルに少なくとも部分的に基づいて、紛失フレームの最小間隔パラメータを設定する、請求項1に記載のデコーダ。
- フレーム回復ロジックは、音声信号のエネルギに少なくとも部分的に基づいて、紛失フレームの最小間隔パラメータを設定する、請求項5に記載のデコーダ。
- フレーム回復ロジックは、音声信号の周波数スペクトルに少なくとも部分的に基づいて、紛失フレームの最小間隔パラメータを設定する、請求項5に記載のデコーダ。
- フレーム回復ロジックは、音声信号の周波数スペクトルにも少なくとも部分的に基づいて、紛失フレームの最小間隔パラメータを設定する、請求項12に記載のデコーダ。
- フレーム回復ロジックは、音声信号のエネルギにも少なくとも部分的に基づいて、紛失フレームの最小間隔パラメータを設定する、請求項13に記載のデコーダ。
- 音声通信システムであって、
音声のフレームを処理し、音声の各フレームのピッチラグパラメータを求めるエンコーダと、
エンコーダに結合され、音声の各フレームのピッチラグパラメータを送信する送信機と、
フレームごとに送信機からピッチラグパラメータを受信する受信機と、
受信機に結合され、ピッチラグパラメータに部分的に基づいて音声信号を再合成するための制御ロジックと、
フレームが受信機によって受信されなかったかどうかを検出する紛失フレーム検出器と、
紛失フレーム検出器が紛失フレームを検出すると、複数の前に受信されたフレームのピッチラグパラメータを用いて紛失フレームのピッチラグパラメータを外挿するフレーム回復ロジックとを含む、音声通信システム。 - フレーム回復ロジックは、紛失フレームに続いて受信されたフレームのピッチラグパラメータを用いて、紛失フレームのピッチラグパラメータを設定する、請求項16に記載の音声通信システム。
- 紛失フレーム検出器および/またはフレームエラーロジックは制御ロジックの一部である、請求項16に記載の音声通信システム。
- 受信機が紛失フレームに続くフレーム内のピッチラグパラメータを受信すると、フレーム回復ロジックは紛失フレームに続くフレームのピッチラグパラメータを用いて、紛失フレームに対して前に設定されたピッチラグパラメータを調整する、請求項16に記載の音声通信システム。
- 第1のフレームに対する総励振を含む適応コードブックバッファをさらに含み、総励振は量子化された適応コードブック励振構成要素を含み、バッファリングされた総励振は第1のフレームに続くフレームのための適応コードブック励振として抽出され、フレーム回復ロジックは紛失フレームに続くフレームのピッチラグパラメータを用いて量子化された適応コードブック励振を調整する、請求項19に記載の音声通信システム。
- フレーム回復ロジックは、紛失フレームに続いて受信されたフレームのピッチラグパラメータから、紛失フレームのピッチラグパラメータを外挿する、請求項17に記載の音声通信システム。
- 音声通信システムのためのデコーダであって、
デコードされるべき音声信号のパラメータを受信する受信機を含み、パラメータはフレームごとに受信され、各フレームは複数のサブフレームを含み、パラメータはフレームの各サブフレームの利得パラメータを含み、前記デコーダはさらに、
受信機に結合され、パラメータをデコードするための、および音声信号を再合成するための制御ロジックと、
パラメータのフレームが受信機によって受信されなかったかどうかを検出する紛失フレーム検出器と、
紛失フレーム検出器が紛失フレームを検出すると、紛失フレームのサブフレームの利得パラメータを、紛失利得パラメータが適応コードブック利得パラメータである場合には第1の態様に、紛失利得パラメータが固定コードブック利得パラメータである場合には第2の態様に設定するフレーム回復ロジックとを含む、デコーダ。 - フレーム回復ロジックは、紛失フレームのサブフレームの利得パラメータを、紛失フレームが周期性様の音声を含んでいた場合には第3の態様に、紛失フレームが非周期性様の音声を含んでいた場合には第4の態様に設定する、請求項22に記載のデコーダ。
- 第1の態様は第2の態様とは異なる、請求項22に記載のデコーダ。
- 第3の態様は第4の態様とは異なる、請求項23に記載のデコーダ。
- 音声信号が周期性かどうかを判定する周期性信号検出器をさらに含み、紛失フレームが非周期性様の音声を含んでいた場合、および、紛失利得パラメータが固定コードブック利得パラメータである場合には、フレーム回復ロジックは、紛失フレームの第1のサブフレームの固定コードブック利得パラメータをゼロに設定する、請求項23に記載のデコーダ。
- フレーム回復ロジックは、紛失フレームの複数のサブフレームすべての固定コードブック利得パラメータをゼロに設定する、請求項26に記載のデコーダ。
- 音声信号が周期性かどうかを判定する周期性信号検出器をさらに含み、紛失フレームが非周期性様の音声を含んでいた場合、および、紛失利得パラメータが固定コードブック利得パラメータである場合には、フレーム回復ロジックは、紛失フレームの第1のサブフレームの固定コードブック利得パラメータを、紛失フレームについての音声信号のエネルギに対する前に受信されたフレームについての音声信号のエネルギの比に基づいた値に設定する、請求項23に記載のデコーダ。
- フレーム回復ロジックは、紛失フレームの残りのサブフレームの固定コードブック利得パラメータを、紛失フレームの第1のサブフレームの固定コードブック利得パラメータから漸進的に減少する値に設定する、請求項28に記載のデコーダ。
- 紛失利得パラメータが固定コードブック利得パラメータである場合、フレーム回復ロジックは、紛失フレームが周期性様の音声を含んでいようと非周期性様の音声を含んでいようとにかかわらず、紛失フレームの第1のサブフレームの固定コードブック利得パラメータをゼロに設定する、請求項23に記載のデコーダ。
- 音声信号が周期性かどうかを判定する周期性信号検出器をさらに含み、紛失フレームが周期性様の音声を含んでいた場合、および、紛失利得パラメータが固定コードブック利得パラメータである場合には、フレーム回復ロジックは、複数の前に受信されたフレームの平均適応コードブック利得パラメータがしきい値を超えているかどうかを判定し、平均適応コードブック利得パラメータがしきい値を超えている場合、フレーム回復ロジックは紛失フレームの第1のサブフレームの固定コードブック利得パラメータをゼロに設定する、請求項23に記載のデコーダ。
- 平均適応コードブック利得パラメータがしきい値未満である場合、フレーム回復ロジックは紛失フレームの第1のサブフレームの固定コードブック利得パラメータをゼロに設定する、請求項31に記載のデコーダ。
- 平均適応コードブック利得パラメータがしきい値未満である場合、フレーム回復ロジックは、紛失フレームの第1のサブフレームの固定コードブック利得パラメータを、紛失フレームについての音声信号のエネルギに対する前に受信されたフレームについての音声信号のエネルギの比に基づいた値に設定する、請求項31に記載のデコーダ。
- デコーダによって処理されている現在のフレームが、デコーダがフレームを受信した後で紛失されることになる第1のフレームである場合、フレーム回復ロジックは紛失フレームの第1のサブフレームの適応利得パラメータを任意に大きい数に設定する、請求項23に記載のデコーダ。
- 紛失フレームの複数のサブフレームは任意に大きい数に設定される、請求項34に記載のデコーダ。
- フレーム回復ロジックは、紛失フレームの残りのサブフレームの各々の適応利得パラメータを、紛失フレームの第1のサブフレームの適応利得パラメータから漸進的に減少する値に設定する、請求項34に記載のデコーダ。
- 音声信号が周期性かどうかを判定する周期性信号検出器をさらに含み、紛失フレームが非周期性様の音声を含んでいた場合、および、紛失利得パラメータが適応コードブック利得パラメータである場合には、フレーム回復ロジックは適応数の前に受信されたフレームの平均適応コードブック利得パラメータを求める、請求項23に記載のデコーダ。
- 音声信号が周期性かどうかを判定する周期性信号検出器をさらに含み、紛失フレームが非周期性様の音声を含み、前に受信されたフレームが適応コードブック励振エネルギを含む場合、および、紛失利得パラメータが適応コードブック利得パラメータである場合には、フレーム回復ロジックは、総励振エネルギに対する適応コードブック励振エネルギの比に基づいた第1の値も求める、請求項37に記載のデコーダ。
- 第1の値がしきい値を超えている場合、フレーム回復ロジックは、紛失フレームの現在のサブフレームの適応コードブック利得パラメータを任意に大きい数に設定する、請求項38に記載のデコーダ。
- 第1の値がしきい値未満である場合、フレーム回復ロジックは、紛失フレームの現在のサブフレームの適応コードブック利得パラメータを平均適応コードブック利得パラメータに設定する、請求項38に記載のデコーダ。
- 任意に大きい数は、前に受信されたフレームのスペクトル傾斜に基づいている、請求項39に記載のデコーダ。
- 任意に大きい数は、前に受信されたフレーム内の音声信号のエネルギに基づいている、請求項41に記載のデコーダ。
- 任意に大きい数は、前に受信されたフレーム内の音声信号のエネルギと、第1の値とに基づいている、請求項41に記載のデコーダ。
- フレームが音声開始信号を含んでいるかどうかを検出する開始検出器をさらに含み、フレームが音声開始信号を含んでいる場合、フレーム回復ロジックは、紛失フレームの現在のサブフレームの適応コードブック利得パラメータを、平均適応コードブック利得パラメータと任意に大きい数のうちの小さい方に設定する、請求項37に記載のデコーダ。
- 任意に大きい数は、前に受信されたフレームのスペクトル傾斜に基づいている、請求項44に記載のデコーダ。
- 任意に大きい数は、前に受信されたフレーム内の音声信号のエネルギに基づいている、請求項44に記載のデコーダ。
- 前に受信されたフレームは適応コードブック励振エネルギを含んでおり、任意に大きい数は、前に受信されたフレーム内の音声信号のエネルギと、総励振エネルギに対する適応コードブック励振エネルギの比に基づく第1の値とに基づいている、請求項45に記載のデコーダ。
- フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、デコーダは紛失フレームからの音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項1に記載のデコーダ。
- フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、デコーダは紛失フレームからの音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項5に記載のデコーダ。
- フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、デコーダは紛失フレームからの音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項11に記載のデコーダ。
- フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、デコーダは紛失フレームからの音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項16に記載の音声通信システム。
- フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、デコーダは紛失フレームからの音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項17に記載の音声通信システム。
- フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、デコーダは紛失フレームからの音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項18に記載の音声通信システム。
- フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、デコーダは紛失フレームからの音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項22に記載のデコーダ。
- フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、デコーダは紛失フレームからの音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項26に記載のデコーダ。
- フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、デコーダは紛失フレームからの音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項28に記載のデコーダ。
- フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、デコーダは紛失フレームからの音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項30に記載のデコーダ。
- フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、デコーダは紛失フレームからの音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項31に記載のデコーダ。
- フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、デコーダは紛失フレームからの音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項33に記載のデコーダ。
- フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、デコーダは紛失フレームからの音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項37に記載のデコーダ。
- フレーム回復ロジックが紛失フレームの紛失パラメータを設定した後で、デコーダは紛失フレームからの音声を再合成し、合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせる、請求項44に記載のデコーダ。
- 音声通信システムにおいて音声のフレームについての固定コードブック励振を生成するための方法であって、
ガウス時系列発生器を提供するステップと、
第1の音声信号の特性を含む第1のフレームを提供するステップと、
第1のフレームにおける第1の音声信号の特性を用いて、第1のシード値を導き出すステップと、
第1のシード値をガウス時系列発生器へ提供するステップと、
第1のシード値を用いて、第1のフレームについての固定コードブック励振を生成するステップと、
第1の音声信号の特性を送信するステップとを含む、方法。 - 第2の音声信号の特性を含む第2のフレームを提供するステップと、
第2のフレームにおける第2の音声信号の特性を用いて、第1のシード値とは異なる第2のシード値を導き出すステップと、
第2のシード値をガウス時系列発生器へ提供するステップと、
第2のシード値を用いて、第2のフレームについての固定コードブック励振を生成するステップと、
第2の音声信号の特性を送信するステップとをさらに含む、請求項62に記載の方法。 - 第1のフレームを提供するステップは、固定コードブック励振を送信しないエンコーダにおいて遂行される、請求項62に記載の方法。
- 第1のフレームを提供するステップは、第1のフレームにおける音声信号の特性に関する情報を受信することによって固定コードブック励振を受信しないデコーダにおいて遂行される、請求項62に記載の方法。
- 第1のフレームについての第1の音声信号の特性を受信するステップと、
第1の音声信号の特性を用いて、第1のシード値を導き出すステップと、
第1のシード値をガウス時系列発生器へ提供するステップと、
第1のシード値を用いて、第1のフレームについての固定コードブック励振を生成するステップとをさらに含む、請求項62に記載の方法。 - 第2のフレームについての第2の音声信号の特性を受信するステップと、
第2の音声信号の特性を用いて、第1のシード値とは異なる第2のシード値を導き出すステップと、
第2のシード値をガウス時系列発生器へ提供するステップと、
第2のシード値を用いて、第2のフレームについての固定コードブック励振を生成するステップとをさらに含む、請求項63に記載の方法。 - ステップはエンコーダによって行なわれる、請求項62に記載の方法。
- ステップはデコーダによって行なわれる、請求項66に記載の方法。
- 通信システムにおいて音声を符号化またはデコードする方法であって、
(a) 各フレームが複数のサブフレームを含むフレームごとに音声信号を提供するステップと、
(b) 音声信号に基づいて、各フレームのパラメータを求めるステップと、
(c) パラメータをフレームごとに送信するステップと、
(d) パラメータをフレームごとに受信するステップと、
(e) パラメータを含むフレームが紛失されているかどうかを検出するステップと、
(f) フレームが紛失された場合、紛失フレームの紛失パラメータを取扱うステップと、
(g) パラメータをデコードして音声信号を再現するステップとを含む、方法。 - 紛失パラメータは、紛失フレームに対する線スペクトル周波数の最小間隔を表わす、請求項71に記載の方法。
- 取扱うステップは、紛失フレームの最小間隔パラメータを、前に受信されたフレームの最小間隔パラメータよりも大きい、またはそれに等しい第1の値に設定する、請求項71に記載の方法。
- 取扱うステップは、紛失フレームの後で受信されたフレームの最小間隔パラメータを第2の値に設定し、第2の値は、紛失フレームの直前に受信されたフレームの最小間隔パラメータよりも大きいかまたはそれに等しく、紛失フレームの最小間隔パラメータよりも小さいかまたはそれに等しい、請求項72に記載の方法。
- 第1の値は音声信号の周波数スペクトルに少なくとも部分的に基づいている、請求項72に記載の方法。
- 第1の値は音声信号のエネルギに少なくとも部分的に基づいている、請求項72に記載の方法。
- 紛失パラメータは紛失フレームのピッチラグパラメータであり、取扱うステップは、紛失フレームの紛失されたピッチラグパラメータを、前に受信されたフレームのピッチラグパラメータに少なくとも部分的に基づいて設定する、請求項71に記載の方法。
- 取扱うステップは、紛失フレームの紛失されたピッチラグパラメータを、複数の前に受信されたフレームのピッチラグパラメータに基づいて設定する、請求項76に記載の方法。
- 取扱うステップは、紛失フレームの紛失されたピッチラグパラメータを、紛失パラメータに続いて受信されたフレームのピッチラグパラメータに基づいて設定する、請求項76に記載の方法。
- 音声信号が周期性様か非周期性様かを判定するステップをさらに含み、紛失パラメータは紛失フレームのサブフレームの利得パラメータである、請求項70に記載の方法。
- 取扱うステップは、非周期性様の音声を含む紛失フレームのサブフレームの紛失利得パラメータを設定するのとは異なるように、周期性様の音声を含む紛失フレームのサブフレームの紛失利得パラメータを設定する、請求項79に記載の方法。
- 紛失フレームが非周期性様の音声を含んでいた場合、および、紛失利得パラメータが固定コードブック利得パラメータである場合には、取扱うステップは、紛失フレームの第1のサブフレームの固定コードブック利得パラメータをゼロに設定する、請求項79に記載の方法。
- 取扱うステップは、紛失フレームの複数のサブフレームすべての固定コードブック利得パラメータをゼロに設定する、請求項81に記載の方法。
- 紛失フレームが非周期性様の音声を含んでいた場合、および、紛失利得パラメータが固定コードブック利得パラメータである場合には、取扱うステップは、紛失フレームの第1のサブフレームの固定コードブック利得パラメータを、紛失フレームについての音声信号のエネルギに対する前に受信されたフレームについての音声信号のエネルギの比に基づいた値に設定する、請求項79に記載の方法。
- 取扱うステップは、紛失フレームの残りのサブフレームの固定コードブック利得パラメータを、紛失フレームの第1のサブフレームの固定コードブック利得パラメータから漸進的に減少する値に設定する、請求項83に記載の方法。
- 紛失利得パラメータが固定コードブック利得パラメータである場合、取扱うステップは、紛失フレームが周期性様の音声を含んでいようと非周期性様の音声を含んでいようとにかかわらず、紛失フレームの第1のサブフレームの固定コードブック利得パラメータをゼロに設定する、請求項79に記載の方法。
- 紛失フレームが周期性様の音声を含んでいた場合、および、紛失利得パラメータが固定コードブック利得パラメータである場合には、取扱うステップは、複数の前に受信されたフレームの平均適応コードブック利得パラメータがしきい値を超えているかどうかを判定し、平均適応コードブック利得パラメータがしきい値を超えている場合、取扱うステップは紛失フレームの第1のサブフレームの固定コードブック利得パラメータをゼロに設定する、請求項79に記載の方法。
- 平均適応コードブック利得パラメータがしきい値未満である場合、取扱うステップは紛失フレームの第1のサブフレームの固定コードブック利得パラメータをゼロに設定する、請求項86に記載の方法。
- 平均適応コードブック利得パラメータがしきい値未満である場合、取扱うステップは、紛失フレームの第1のサブフレームの固定コードブック利得パラメータを、紛失フレームについての音声信号のエネルギに対する前に受信されたフレームについての音声信号のエネルギの比に基づいた値に設定する、請求項86に記載の方法。
- 受信された現在のフレームがフレームの受信後に紛失された第1のフレームである場合、および、紛失利得パラメータが紛失フレームの適応コードブック利得パラメータである場合には、取扱うステップは紛失フレームの第1のサブフレームの適応利得パラメータを任意に大きい数に設定する、請求項79に記載の方法。
- 紛失フレームの複数のサブフレームは任意に大きい数に設定される、請求項89に記載の方法。
- 紛失フレームが非周期性様の音声を含んでいた場合、および、紛失利得パラメータが紛失フレームの適応コードブック利得パラメータである場合には、取扱うステップは適応数の前に受信されたフレームの平均適応コードブック利得パラメータを求める、請求項79に記載の方法。
- 紛失フレームが非周期性様の音声を含み、前に受信されたフレームが適応コードブック励振エネルギを含む場合、取扱うステップは総励振エネルギに対する適応コードブック励振エネルギの比に基づいた第1の値を求める、請求項91に記載の方法。
- 第1の値がしきい値を超えている場合、取扱うステップは紛失フレームの現在のサブフレームの適応コードブック利得パラメータを任意に大きい数に設定する、請求項92に記載の方法。
- 第1の値がしきい値未満である場合、取扱うステップは紛失フレームの現在のサブフレームの適応コードブック利得パラメータを平均適応コードブック利得パラメータに設定する、請求項92に記載の方法。
- 任意に大きい数は、前に受信されたフレームのスペクトル傾斜、前に受信されたフレーム内の音声信号のエネルギ、および/または第1の値に基づいている、請求項93に記載の方法。
- フレームが音声開始信号を含んでいるかどうかを検出する開始検出器をさらに含み、フレームが音声開始信号を含んでいる場合、取扱うステップは、紛失フレームの現在のサブフレームの適応コードブック利得パラメータを、平均適応コードブック利得パラメータと任意に大きい数のうちの小さい方に設定する、請求項89に記載の方法。
- 取扱うステップが紛失フレームの紛失パラメータを設定した後で紛失フレームからの音声を再合成するステップと、
合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせるステップとをさらに含む、請求項71に記載の方法。 - 取扱うステップが紛失フレームの紛失パラメータを設定した後で紛失フレームからの音声を再合成するステップと、
合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせるステップとをさらに含む、請求項76に記載の方法。 - 取扱うステップが紛失フレームの紛失パラメータを設定した後で紛失フレームからの音声を再合成するステップと、
合成された音声のエネルギを調整して、前に受信されたフレームから合成された音声のエネルギをマッチングさせるステップとをさらに含む、請求項79に記載の方法。 - 紛失フレーム検出器またはフレームエラーロジックは制御ロジックの一部である、請求項22に記載のデコーダ。
- 紛失フレームデコーダおよびフレームエラーロジックは制御ロジックの一部である、請求項22に記載のデコーダ。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/617,191 US6636829B1 (en) | 1999-09-22 | 2000-07-14 | Speech communication system and method for handling lost frames |
PCT/IB2001/001228 WO2002007061A2 (en) | 2000-07-14 | 2001-07-09 | A speech communication system and method for handling lost frames |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004010951A Division JP4222951B2 (ja) | 2000-07-14 | 2004-01-19 | 紛失フレームを取扱うための音声通信システムおよび方法 |
JP2005200534A Division JP2006011464A (ja) | 2000-07-14 | 2005-07-08 | 紛失フレームを取扱うための音声符号化装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004504637A true JP2004504637A (ja) | 2004-02-12 |
JP4137634B2 JP4137634B2 (ja) | 2008-08-20 |
Family
ID=24472632
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002512896A Expired - Lifetime JP4137634B2 (ja) | 2000-07-14 | 2001-07-09 | 紛失フレームを取扱うための音声通信システムおよび方法 |
JP2004010951A Expired - Lifetime JP4222951B2 (ja) | 2000-07-14 | 2004-01-19 | 紛失フレームを取扱うための音声通信システムおよび方法 |
JP2005200534A Withdrawn JP2006011464A (ja) | 2000-07-14 | 2005-07-08 | 紛失フレームを取扱うための音声符号化装置および方法 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004010951A Expired - Lifetime JP4222951B2 (ja) | 2000-07-14 | 2004-01-19 | 紛失フレームを取扱うための音声通信システムおよび方法 |
JP2005200534A Withdrawn JP2006011464A (ja) | 2000-07-14 | 2005-07-08 | 紛失フレームを取扱うための音声符号化装置および方法 |
Country Status (10)
Country | Link |
---|---|
US (1) | US6636829B1 (ja) |
EP (4) | EP1363273B1 (ja) |
JP (3) | JP4137634B2 (ja) |
KR (3) | KR20050061615A (ja) |
CN (3) | CN1212606C (ja) |
AT (2) | ATE427546T1 (ja) |
AU (1) | AU2001266278A1 (ja) |
DE (2) | DE60117144T2 (ja) |
ES (1) | ES2325151T3 (ja) |
WO (1) | WO2002007061A2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007010855A (ja) * | 2005-06-29 | 2007-01-18 | Toshiba Corp | 音声再生装置 |
JP2008529423A (ja) * | 2005-01-31 | 2008-07-31 | クゥアルコム・インコーポレイテッド | 音声通信におけるフレーム消失キャンセル |
JP2016526703A (ja) * | 2013-06-21 | 2016-09-05 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | オーディオ信号の置換フレームのためのスペクトル係数を得るための方法および装置、オーディオデコーダ、オーディオ受信機ならびにオーディオ信号を送信するためのシステム |
JP2020129115A (ja) * | 2018-06-06 | 2020-08-27 | 株式会社Nttドコモ | 音声信号処理方法 |
Families Citing this family (89)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7072832B1 (en) | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
ATE420432T1 (de) * | 2000-04-24 | 2009-01-15 | Qualcomm Inc | Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen |
US6983242B1 (en) * | 2000-08-21 | 2006-01-03 | Mindspeed Technologies, Inc. | Method for robust classification in speech coding |
US7133823B2 (en) * | 2000-09-15 | 2006-11-07 | Mindspeed Technologies, Inc. | System for an adaptive excitation pattern for speech coding |
US7010480B2 (en) * | 2000-09-15 | 2006-03-07 | Mindspeed Technologies, Inc. | Controlling a weighting filter based on the spectral content of a speech signal |
US6856961B2 (en) * | 2001-02-13 | 2005-02-15 | Mindspeed Technologies, Inc. | Speech coding system with input signal transformation |
US6871176B2 (en) * | 2001-07-26 | 2005-03-22 | Freescale Semiconductor, Inc. | Phase excited linear prediction encoder |
DE60234195D1 (de) * | 2001-08-31 | 2009-12-10 | Kenwood Corp | Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit |
US7095710B2 (en) * | 2001-12-21 | 2006-08-22 | Qualcomm | Decoding using walsh space information |
EP1383110A1 (fr) * | 2002-07-17 | 2004-01-21 | STMicroelectronics N.V. | Procédé et dispositif d'encodage de la parole à bande élargie, permettant en particulier une amélioration de la qualité des trames de parole voisée |
GB2391440B (en) * | 2002-07-31 | 2005-02-16 | Motorola Inc | Speech communication unit and method for error mitigation of speech frames |
JP4303687B2 (ja) | 2003-01-30 | 2009-07-29 | 富士通株式会社 | 音声パケット消失隠蔽装置,音声パケット消失隠蔽方法,受信端末および音声通信システム |
WO2004084182A1 (en) * | 2003-03-15 | 2004-09-30 | Mindspeed Technologies, Inc. | Decomposition of voiced speech for celp speech coding |
WO2004102531A1 (en) * | 2003-05-14 | 2004-11-25 | Oki Electric Industry Co., Ltd. | Apparatus and method for concealing erased periodic signal data |
KR100546758B1 (ko) * | 2003-06-30 | 2006-01-26 | 한국전자통신연구원 | 음성의 상호부호화시 전송률 결정 장치 및 방법 |
KR100516678B1 (ko) * | 2003-07-05 | 2005-09-22 | 삼성전자주식회사 | 음성 코덱의 음성신호의 피치검출 장치 및 방법 |
US7146309B1 (en) * | 2003-09-02 | 2006-12-05 | Mindspeed Technologies, Inc. | Deriving seed values to generate excitation values in a speech coder |
US20050065787A1 (en) * | 2003-09-23 | 2005-03-24 | Jacek Stachurski | Hybrid speech coding and system |
US7536298B2 (en) * | 2004-03-15 | 2009-05-19 | Intel Corporation | Method of comfort noise generation for speech communication |
CN1989548B (zh) * | 2004-07-20 | 2010-12-08 | 松下电器产业株式会社 | 语音解码装置及补偿帧生成方法 |
US7873515B2 (en) * | 2004-11-23 | 2011-01-18 | Stmicroelectronics Asia Pacific Pte. Ltd. | System and method for error reconstruction of streaming audio information |
US20060190251A1 (en) * | 2005-02-24 | 2006-08-24 | Johannes Sandvall | Memory usage in a multiprocessor system |
US7418394B2 (en) * | 2005-04-28 | 2008-08-26 | Dolby Laboratories Licensing Corporation | Method and system for operating audio encoders utilizing data from overlapping audio segments |
US9058812B2 (en) * | 2005-07-27 | 2015-06-16 | Google Technology Holdings LLC | Method and system for coding an information signal using pitch delay contour adjustment |
CN1929355B (zh) * | 2005-09-09 | 2010-05-05 | 联想(北京)有限公司 | 语音包丢失恢复系统以及方法 |
JP2007114417A (ja) * | 2005-10-19 | 2007-05-10 | Fujitsu Ltd | 音声データ処理方法及び装置 |
FR2897977A1 (fr) * | 2006-02-28 | 2007-08-31 | France Telecom | Procede de limitation de gain d'excitation adaptative dans un decodeur audio |
US7457746B2 (en) * | 2006-03-20 | 2008-11-25 | Mindspeed Technologies, Inc. | Pitch prediction for packet loss concealment |
KR100900438B1 (ko) * | 2006-04-25 | 2009-06-01 | 삼성전자주식회사 | 음성 패킷 복구 장치 및 방법 |
US8255213B2 (en) | 2006-07-12 | 2012-08-28 | Panasonic Corporation | Speech decoding apparatus, speech encoding apparatus, and lost frame concealment method |
JPWO2008007698A1 (ja) * | 2006-07-12 | 2009-12-10 | パナソニック株式会社 | 消失フレーム補償方法、音声符号化装置、および音声復号装置 |
US7877253B2 (en) * | 2006-10-06 | 2011-01-25 | Qualcomm Incorporated | Systems, methods, and apparatus for frame erasure recovery |
US8489392B2 (en) * | 2006-11-06 | 2013-07-16 | Nokia Corporation | System and method for modeling speech spectra |
KR100862662B1 (ko) | 2006-11-28 | 2008-10-10 | 삼성전자주식회사 | 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치 |
KR101291193B1 (ko) * | 2006-11-30 | 2013-07-31 | 삼성전자주식회사 | 프레임 오류은닉방법 |
CN100578618C (zh) * | 2006-12-04 | 2010-01-06 | 华为技术有限公司 | 一种解码方法及装置 |
JP5238512B2 (ja) * | 2006-12-13 | 2013-07-17 | パナソニック株式会社 | オーディオ信号符号化方法及び復号化方法 |
US8688437B2 (en) | 2006-12-26 | 2014-04-01 | Huawei Technologies Co., Ltd. | Packet loss concealment for speech coding |
CN101286320B (zh) * | 2006-12-26 | 2013-04-17 | 华为技术有限公司 | 增益量化系统用于改进语音丢包修补质量的方法 |
CN101226744B (zh) * | 2007-01-19 | 2011-04-13 | 华为技术有限公司 | 语音解码器中实现语音解码的方法及装置 |
CN101009098B (zh) * | 2007-01-26 | 2011-01-26 | 清华大学 | 声码器增益参数分模式抗信道误码方法 |
US9129590B2 (en) * | 2007-03-02 | 2015-09-08 | Panasonic Intellectual Property Corporation Of America | Audio encoding device using concealment processing and audio decoding device using concealment processing |
CN101256774B (zh) * | 2007-03-02 | 2011-04-13 | 北京工业大学 | 用于嵌入式语音编码的帧擦除隐藏方法及系统 |
CN101325631B (zh) | 2007-06-14 | 2010-10-20 | 华为技术有限公司 | 一种估计基音周期的方法和装置 |
CN101887723B (zh) * | 2007-06-14 | 2012-04-25 | 华为终端有限公司 | 一种对基音周期进行微调的方法和装置 |
JP2009063928A (ja) * | 2007-09-07 | 2009-03-26 | Fujitsu Ltd | 補間方法、情報処理装置 |
US20090094026A1 (en) * | 2007-10-03 | 2009-04-09 | Binshi Cao | Method of determining an estimated frame energy of a communication |
CN100550712C (zh) * | 2007-11-05 | 2009-10-14 | 华为技术有限公司 | 一种信号处理方法和处理装置 |
KR100998396B1 (ko) * | 2008-03-20 | 2010-12-03 | 광주과학기술원 | 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치 |
CN101339767B (zh) * | 2008-03-21 | 2010-05-12 | 华为技术有限公司 | 一种背景噪声激励信号的生成方法及装置 |
CN101604523B (zh) * | 2009-04-22 | 2012-01-04 | 网经科技(苏州)有限公司 | 在g.711语音编码中隐藏冗余信息的方法 |
KR101761629B1 (ko) * | 2009-11-24 | 2017-07-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US8280726B2 (en) * | 2009-12-23 | 2012-10-02 | Qualcomm Incorporated | Gender detection in mobile phones |
KR101381272B1 (ko) | 2010-01-08 | 2014-04-07 | 니뽄 덴신 덴와 가부시키가이샤 | 부호화 방법, 복호 방법, 부호화 장치, 복호 장치, 프로그램 및 기록 매체 |
US9082416B2 (en) * | 2010-09-16 | 2015-07-14 | Qualcomm Incorporated | Estimating a pitch lag |
CN101976567B (zh) * | 2010-10-28 | 2011-12-14 | 吉林大学 | 一种语音信号差错掩盖方法 |
PL2676268T3 (pl) | 2011-02-14 | 2015-05-29 | Fraunhofer Ges Forschung | Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej |
CN103493129B (zh) | 2011-02-14 | 2016-08-10 | 弗劳恩霍夫应用研究促进协会 | 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法 |
PT2676267T (pt) | 2011-02-14 | 2017-09-26 | Fraunhofer Ges Forschung | Codificação e descodificação de posições de pulso de faixas de um sinal de áudio |
BR112013020324B8 (pt) * | 2011-02-14 | 2022-02-08 | Fraunhofer Ges Forschung | Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio |
AU2012217158B2 (en) | 2011-02-14 | 2014-02-27 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Information signal representation using lapped transform |
PL2676266T3 (pl) | 2011-02-14 | 2015-08-31 | Fraunhofer Ges Forschung | Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej |
AU2012218778B2 (en) * | 2011-02-15 | 2016-10-20 | Voiceage Evs Llc | Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec |
US9626982B2 (en) | 2011-02-15 | 2017-04-18 | Voiceage Corporation | Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec |
US9275644B2 (en) * | 2012-01-20 | 2016-03-01 | Qualcomm Incorporated | Devices for redundant frame coding and decoding |
CA2916150C (en) | 2013-06-21 | 2019-06-18 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method realizing improved concepts for tcx ltp |
CN104240715B (zh) * | 2013-06-21 | 2017-08-25 | 华为技术有限公司 | 用于恢复丢失数据的方法和设备 |
CN108364657B (zh) | 2013-07-16 | 2020-10-30 | 超清编解码有限公司 | 处理丢失帧的方法和解码器 |
CN104299614B (zh) | 2013-07-16 | 2017-12-29 | 华为技术有限公司 | 解码方法和解码装置 |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
BR122022008597B1 (pt) | 2013-10-31 | 2023-01-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decodificador áudio e método para fornecer uma informação de áudio decodificada utilizando uma dissimulação de erro que modifica um sinal de excitação de domínio de tempo |
EP4336500A3 (en) | 2014-04-17 | 2024-04-03 | VoiceAge EVS LLC | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates |
KR101597768B1 (ko) * | 2014-04-24 | 2016-02-25 | 서울대학교산학협력단 | 입체 음향을 이용한 다자간 인터랙티브 통화 시스템 및 방법 |
CN106683681B (zh) * | 2014-06-25 | 2020-09-25 | 华为技术有限公司 | 处理丢失帧的方法和装置 |
US9583115B2 (en) | 2014-06-26 | 2017-02-28 | Qualcomm Incorporated | Temporal gain adjustment based on high-band signal characteristic |
CN106486129B (zh) * | 2014-06-27 | 2019-10-25 | 华为技术有限公司 | 一种音频编码方法和装置 |
WO2016040885A1 (en) | 2014-09-12 | 2016-03-17 | Audience, Inc. | Systems and methods for restoration of speech components |
WO2016142002A1 (en) * | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
CN107248411B (zh) | 2016-03-29 | 2020-08-07 | 华为技术有限公司 | 丢帧补偿处理方法和装置 |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
US10657983B2 (en) * | 2016-06-15 | 2020-05-19 | Intel Corporation | Automatic gain control for speech recognition |
US9978392B2 (en) * | 2016-09-09 | 2018-05-22 | Tata Consultancy Services Limited | Noisy signal identification from non-stationary audio signals |
CN108922551B (zh) * | 2017-05-16 | 2021-02-05 | 博通集成电路(上海)股份有限公司 | 用于补偿丢失帧的电路及方法 |
EP3483886A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
CN111105804B (zh) * | 2019-12-31 | 2022-10-11 | 广州方硅信息技术有限公司 | 语音信号处理方法、系统、装置、计算机设备和存储介质 |
CN111933156B (zh) * | 2020-09-25 | 2021-01-19 | 广州佰锐网络科技有限公司 | 基于多重特征识别的高保真音频处理方法及装置 |
CN112489665B (zh) * | 2020-11-11 | 2024-02-23 | 北京融讯科创技术有限公司 | 语音处理方法、装置以及电子设备 |
CN112802453B (zh) * | 2020-12-30 | 2024-04-26 | 深圳飞思通科技有限公司 | 快速自适应预测拟合语音方法、系统、终端及存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2225321T3 (es) * | 1991-06-11 | 2005-03-16 | Qualcomm Incorporated | Aparaato y procedimiento para el enmascaramiento de errores en tramas de datos. |
US5255343A (en) * | 1992-06-26 | 1993-10-19 | Northern Telecom Limited | Method for detecting and masking bad frames in coded speech signals |
US5502713A (en) * | 1993-12-07 | 1996-03-26 | Telefonaktiebolaget Lm Ericsson | Soft error concealment in a TDMA radio system |
US5699478A (en) | 1995-03-10 | 1997-12-16 | Lucent Technologies Inc. | Frame erasure compensation technique |
CA2177413A1 (en) * | 1995-06-07 | 1996-12-08 | Yair Shoham | Codebook gain attenuation during frame erasures |
KR20030096444A (ko) * | 1996-11-07 | 2003-12-31 | 마쯔시다덴기산교 가부시키가이샤 | 음원 벡터 생성 장치 및 방법 |
US6148282A (en) * | 1997-01-02 | 2000-11-14 | Texas Instruments Incorporated | Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure |
US6233550B1 (en) * | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
WO1999050828A1 (en) * | 1998-03-30 | 1999-10-07 | Voxware, Inc. | Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment |
US6810377B1 (en) * | 1998-06-19 | 2004-10-26 | Comsat Corporation | Lost frame recovery techniques for parametric, LPC-based speech coding systems |
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
KR100281181B1 (ko) * | 1998-10-16 | 2001-02-01 | 윤종용 | 약전계에서 코드 분할 다중 접속 시스템의 코덱 잡음 제거 방법 |
US7423983B1 (en) * | 1999-09-20 | 2008-09-09 | Broadcom Corporation | Voice and data exchange over a packet based network |
US6549587B1 (en) * | 1999-09-20 | 2003-04-15 | Broadcom Corporation | Voice and data exchange over a packet based network with timing recovery |
-
2000
- 2000-07-14 US US09/617,191 patent/US6636829B1/en not_active Expired - Lifetime
-
2001
- 2001-07-09 WO PCT/IB2001/001228 patent/WO2002007061A2/en active IP Right Grant
- 2001-07-09 CN CNB018128238A patent/CN1212606C/zh not_active Expired - Lifetime
- 2001-07-09 ES ES03018041T patent/ES2325151T3/es not_active Expired - Lifetime
- 2001-07-09 CN CNA2005100721881A patent/CN1722231A/zh active Pending
- 2001-07-09 KR KR1020057010151A patent/KR20050061615A/ko not_active Application Discontinuation
- 2001-07-09 EP EP03018041A patent/EP1363273B1/en not_active Expired - Lifetime
- 2001-07-09 EP EP05012550A patent/EP1577881A3/en not_active Withdrawn
- 2001-07-09 KR KR1020037000511A patent/KR100754085B1/ko active IP Right Grant
- 2001-07-09 AU AU2001266278A patent/AU2001266278A1/en not_active Abandoned
- 2001-07-09 AT AT03018041T patent/ATE427546T1/de not_active IP Right Cessation
- 2001-07-09 EP EP09156985A patent/EP2093756B1/en not_active Expired - Lifetime
- 2001-07-09 AT AT01943750T patent/ATE317571T1/de not_active IP Right Cessation
- 2001-07-09 KR KR1020037015014A patent/KR100742443B1/ko active IP Right Grant
- 2001-07-09 DE DE60117144T patent/DE60117144T2/de not_active Expired - Lifetime
- 2001-07-09 DE DE60138226T patent/DE60138226D1/de not_active Expired - Lifetime
- 2001-07-09 CN CNB2003101215657A patent/CN1267891C/zh not_active Expired - Lifetime
- 2001-07-09 JP JP2002512896A patent/JP4137634B2/ja not_active Expired - Lifetime
- 2001-07-09 EP EP01943750A patent/EP1301891B1/en not_active Expired - Lifetime
-
2004
- 2004-01-19 JP JP2004010951A patent/JP4222951B2/ja not_active Expired - Lifetime
-
2005
- 2005-07-08 JP JP2005200534A patent/JP2006011464A/ja not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008529423A (ja) * | 2005-01-31 | 2008-07-31 | クゥアルコム・インコーポレイテッド | 音声通信におけるフレーム消失キャンセル |
JP2007010855A (ja) * | 2005-06-29 | 2007-01-18 | Toshiba Corp | 音声再生装置 |
JP2016526703A (ja) * | 2013-06-21 | 2016-09-05 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | オーディオ信号の置換フレームのためのスペクトル係数を得るための方法および装置、オーディオデコーダ、オーディオ受信機ならびにオーディオ信号を送信するためのシステム |
US10475455B2 (en) | 2013-06-21 | 2019-11-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver, and system for transmitting audio signals |
US11282529B2 (en) | 2013-06-21 | 2022-03-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver, and system for transmitting audio signals |
JP2020129115A (ja) * | 2018-06-06 | 2020-08-27 | 株式会社Nttドコモ | 音声信号処理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2004206132A (ja) | 2004-07-22 |
JP2006011464A (ja) | 2006-01-12 |
EP1301891A2 (en) | 2003-04-16 |
CN1516113A (zh) | 2004-07-28 |
KR100742443B1 (ko) | 2007-07-25 |
KR100754085B1 (ko) | 2007-08-31 |
ES2325151T3 (es) | 2009-08-27 |
CN1267891C (zh) | 2006-08-02 |
DE60138226D1 (de) | 2009-05-14 |
CN1722231A (zh) | 2006-01-18 |
WO2002007061A3 (en) | 2002-08-22 |
EP1301891B1 (en) | 2006-02-08 |
AU2001266278A1 (en) | 2002-01-30 |
CN1212606C (zh) | 2005-07-27 |
ATE427546T1 (de) | 2009-04-15 |
EP2093756A1 (en) | 2009-08-26 |
EP1363273A1 (en) | 2003-11-19 |
DE60117144T2 (de) | 2006-10-19 |
EP1577881A3 (en) | 2005-10-19 |
EP2093756B1 (en) | 2012-10-31 |
DE60117144D1 (de) | 2006-04-20 |
KR20040005970A (ko) | 2004-01-16 |
JP4137634B2 (ja) | 2008-08-20 |
ATE317571T1 (de) | 2006-02-15 |
EP1363273B1 (en) | 2009-04-01 |
JP4222951B2 (ja) | 2009-02-12 |
US6636829B1 (en) | 2003-10-21 |
CN1441950A (zh) | 2003-09-10 |
KR20030040358A (ko) | 2003-05-22 |
WO2002007061A2 (en) | 2002-01-24 |
KR20050061615A (ko) | 2005-06-22 |
EP1577881A2 (en) | 2005-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4137634B2 (ja) | 紛失フレームを取扱うための音声通信システムおよび方法 | |
US10181327B2 (en) | Speech gain quantization strategy | |
US7693710B2 (en) | Method and device for efficient frame erasure concealment in linear predictive based speech codecs | |
JP5543405B2 (ja) | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ | |
AU2001255422A1 (en) | Gains quantization for a celp speech coder | |
US7146309B1 (en) | Deriving seed values to generate excitation values in a speech coder | |
RU2707144C2 (ru) | Аудиокодер и способ для кодирования аудиосигнала | |
EP1397655A1 (en) | Method and device for coding speech in analysis-by-synthesis speech coders |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060829 |
|
AA91 | Notification that invitation to amend document was cancelled |
Free format text: JAPANESE INTERMEDIATE CODE: A971091 Effective date: 20060912 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061017 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070116 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080513 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080604 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4137634 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110613 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110613 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110613 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110613 Year of fee payment: 3 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110613 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110613 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120613 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120613 Year of fee payment: 4 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120613 Year of fee payment: 4 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120613 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130613 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |