JP3662597B2 - 一般化された合成による分析音声符号化方法と装置 - Google Patents
一般化された合成による分析音声符号化方法と装置 Download PDFInfo
- Publication number
- JP3662597B2 JP3662597B2 JP28480892A JP28480892A JP3662597B2 JP 3662597 B2 JP3662597 B2 JP 3662597B2 JP 28480892 A JP28480892 A JP 28480892A JP 28480892 A JP28480892 A JP 28480892A JP 3662597 B2 JP3662597 B2 JP 3662597B2
- Authority
- JP
- Japan
- Prior art keywords
- original signal
- signal
- trial
- error
- delay
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 56
- 230000015572 biosynthetic process Effects 0.000 title claims description 17
- 238000003786 synthesis reaction Methods 0.000 title claims description 17
- 238000012854 evaluation process Methods 0.000 claims 4
- 230000002194 synthesizing effect Effects 0.000 claims 2
- 239000002131 composite material Substances 0.000 claims 1
- 230000006870 function Effects 0.000 description 29
- 230000008569 process Effects 0.000 description 22
- 230000005236 sound signal Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 14
- 230000005284 excitation Effects 0.000 description 11
- 230000007774 longterm Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0012—Smoothing of parameters of the decoder interpolation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0013—Codebook search algorithms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
Description
【技術分野】
本発明は一般に音声符号化システム、特に合成による分析音声符号化システムの帯域要求の減少に関する。
【0002】
【背景技術】
音声符号化システムは、チャネルあるいはネットワークを通してひとつあるいはそれ以上のシステム受信機に通信するために音声信号の符号語による表現を提供する。各システム受信機は受信された符号語から音声信号を再構成する。与えられた時間の中でシステムによって通信される符号語情報の量がシステムの帯域幅を規定し、システム受信機によって再生される音声の品質に影響を与える。
【0003】
音声符号化システムの設計者は、できるだけ小さい帯域幅を利用して高品質の音声再生能力を求める。しかし高品質音声の要求と低帯域幅の要求とは相反するものであり、従って設計過程でのかね合いが必要である。しかし、本音声符号化手法は許容できる音声品質を減少したチャネル帯域幅で提供するように開発されたものである。その中には、合成による分析音声符号化手法が含まれている。
【0004】
合成による分析音声符号化手法では、音声信号は波形一致手続によって符号化される。候補となる音声信号は、ひとつあるいはそれ以上のパラメータから合成されて符号化されるべき元の音声信号と比較される。パラメータを変化させて異る合成された候補音声信号が判定される。最も良く一致する候補音声信号のパラメータを元の音声信号を表わすために使用する。
【0005】
多くの合成による分析符号器、例えば符号励振線形予測(CELP)符号器は音声信号の長期相関をモデル化するために長期予測器(LTP)を使用する(ここで“音声信号”という用語は実際の音声あるいは合成による分析符号器のいずれかの励振信号を意味する。)。一般的に、相関によって過去の音声信号を現在の音声信号の近似として使うことができる。LPTによっていくつかの過去の音声信号(これはすでに符号化されている)を現在の(元の)音声信号と比較できる。このような比較によって、LTPは過去の信号の中のいずれが、元の信号に最も良く一致するかを判定する。過去の音声信号は遅延によって識別できるが、これはどの位の過去にその信号があったかを示すものである。LTPを用いた符号器は、最も整合する過去の音声信号のスケーリングしたもの(すなわち最適近似)を現在の音声信号から引算信号(これは残留分あるいは励振と呼ばれる)を減少した長期相関と共に生ずる。この信号は次に典型的には固定統計的コードブック(FSCB)で符号化される。FSCBインデクスとLTP遅延は、他の情報と共にCELP復号器に送信され、これは元の音声信号の指定値をこれらのパラメータから回復する。
【0006】
音声の長期相関をモデル化することによって、復号器における再生された音声の品質を向上することができる。しかしこの改善は帯域の大幅な増大なしには達成されない。例えば、音声の長期相関をモデル化するために、従来のCELP符号器は5ミリ秒あるいは7.5ミリ秒(これをサブフレームと呼ぶ)ごとに8ビットの遅延情報を伝送する。このような時間変化をする遅延パラメータは、例えば帯域で1kb/s から2kb/s を増大することになる。LTP遅延の変化は、時間的に予測できないかもしれないから(すなわち、LTP遅延の値のシーケンスは統計的性質を持つから)、遅延パラメータの符号化によって追加の帯域の要求を削減することは困難かもしれない。
【0007】
LTPを保った合成による分析符号器が余分の帯域を必要とすることを減少する方法のひとつは、LTP遅延値をより低頻度で伝送し内挿によって中間のLTP遅延を決定することである。しかし、内挿を行なえば音声信号の個々のサブフレームでLTPによって部分最適の遅延値が使用されることになる。例えば、もし遅延が部分最適であれば、LTPは過去の音声信号を現在の音声信号に部分最適に写像することになる。この結果として、残留励振信号は他の場合に比べて大きくなる。この場合FSCBは、波形を整えるというその通常の機能を実行するのではなく、その部分最適の時間シフトの効果を修正するように動作しなければならない。このような修正が行なわれなければ、耳に聴える大幅な歪みが生ずることになる。
【0008】
【発明の要約】
本発明は合成による分析音声符号化システムにおける帯域要求を減少する方法と装置を提供する。本発明は符号化されるべき実際の原信号(original signal)に基づいて、多数の試行原信号(trial original signal)を提供する。これらの試行原信号は実際の原信号に似た聴取特性を持つように制約され、符号化に際して実際の原信号の代りにあるいはその補助として使用される。原信号、従って試行原信号は実際の音声信号の形をとっても良いし、合成による分析符号器に存在する励振信号の形をとっても良い。本発明によって元の音声信号の変化を許して符号化誤差とビット周波数とを削減することにより、一般化された合成による分析符号化を可能にする。本発明は他の応用と共に、セル状の、あるいは通常の電話ネットワークのような音声情報通信用のネットワークに適用できる。
【0009】
本発明の一実施例においては、試行原信号は符号化プロセスと合成プロセスで使用され、再構成された原信号を生ずる。試行原信号と再構成された信号との間の誤差信号が形成される。最小の誤差を生ずると判定された試行原信号は、符号化と受信機への通信のための符号化の基礎として使用される。この方法で誤差を小さくすることによって、所望のシステム帯域を減少するように符号化プロセスが変更される。
【0010】
CELP符号器用の本発明の他に図示する実施例においては、実際の原信号に対してタイムワープのコードブックを応用することによって、ひとつあるいはそれ以上の試行原信号が与えられる。CELP符号器のLTP手続においては、試行原信号は適応コードブックによって提供される過去の音声信号の候補と比較される。候補に最も近い試行原信号が識別される。LTPプロセスの一部として、候補は識別された試行原信号から引算されて、残余を形成する。次にこの残余が固定統計的コードブックを適用して符号化される。LTP手続において多数の試行原信号を使用する結果として、本発明の一実施例は過去の信号の現在の信号への写像を改善し、その結果として残留誤差を小さくする。このようにして残留誤差を小さくすることによってLTP遅延情報の伝送頻度を低くすることができ、再構成された音声の劣化なしに、あるいはわずかの劣化で遅延内挿ができるようになる。
【0011】
本発明の他の実施例では、時間シフト手法によって多数の試行原信号を提供する。
【0012】
【詳細な記述】
序論
図1は本発明の一実施例を図示したものである。符号化されるべき原信号s(i) は試行原信号発生器10に与えられる。
【0013】
【外1】
【0014】
符号化過程における誤差を減少するように原信号を変化することを認めることによって、本発明は従来の合成による分析符号器を一般化することになる。従って符号器/合成器15は従来のCELPのような任意の従来の合成による分析符号器でよい。
【0015】
従来のCELP
図2は従来の合成による分析CELP符号器を図示する。標本化された音声信号s(i) (iはサンプルの添字)が現在の音声セグメントについて最適化されたN次の短期線形予測フィルタ(STP)20に与えられる。信号x(i) はSTPによるフィルタの後の励振である。
【0016】
【数1】
ここでパラメータan は線形予測分析器10によって与えられる。Nは通常10サンプル程度であるから(8kHz のサンプリング周波数の場合)、励振信号x(i) は原信号s(i) の長期周期性を保存している。LTP30はこの冗長性を除くために設けられる。
【0017】
x(i) の値はブロックごとに決定される。各ブロックはサブフレームと呼ばれる。線形予測係数an は分析器10によってフレーム毎に決定される。フレームは固定長を持ち、これは一段にサブフレーム長の整数倍で、通常20−30ミリ秒の長さを持つ。線形予測係数an についてのサブフレームの値は通常は内挿によって決定される。
【0018】
LTPは次のように使用する利得λ(i) と遅延d(i) を決定する。
【0019】
【数2】
【0020】
【外2】
【0021】
音声の各サブフレームのデータ表現、すなわちLTPパラメータλ(i) とd(i) およびFSCBインデクスはフレームに等しいサブフレームの数だけ集められる(典型的には2,4あるいは6)。係数an と共に、このデータのフレームはCELP復号器に通知され、ここでこれを利用して音声の再構成が行なわれる。
【0022】
【外3】
【0023】
【外4】
このコードブックからベクトルを選択するために、知覚に関連した誤差条件を使っても良い。これは人間の聴覚に存在するスペクトルマスクを利用して行なうことができる。このようにして、原音声信号と再構成された音声信号の差を使う代りに、この誤差条件は知覚で重み付けられた差を使うことになる。
【0024】
信号の知覚重み付けは音声に存在するフォーマットにデ・エンファシスを与えることになる。この例では、フォーマットはスペクトルのデ・エンファシスを極を内側に移動して実現するような全極フィルタとして記述できる。これは予測係数a1,a2,・・・,aN を持つフィルタを係数γa1,γ2 a2,・・・,γN aN を持つフィルタに置き換えることに対応するが、ここでγは知覚重み付け係数である。(通常0.8程度の値をとる。)
【0025】
知覚重み付けされた領域におけるサンプルされた誤差信号g(i) は
【0026】
【数3】
である。合成による分析符号器の誤差条件はサブフレームごとに形成される。Lサンプル長のサブフレームでは一般に使用される条件は
【0027】
【数4】
【0028】
【外5】
【0029】
【外6】
【0030】
時間領域においては、係数γによるスペクトルのデ・エンファシスによって全極フィルタのインパルス応答が速く減衰するようになる。実際的には、8kHz のサンプリング周波数の場合γ=0.8ではインパルス応答は20サンプル先には意味のあるエネルギーは持たなくなる。
【0031】
このように急速に減衰させることによって、全極フィルタのインパルス応答1/(1−γa1z-1・・・ γN a N z -N) は有限インパルス応答フィルタで近似できることになる。このフィルタのインパルス応答をh0,h1, ・・・, hR-1 で表わすことにしよう。これによって知覚重み付けした音声に対する誤差条件の操作をベクトル表示することができることになる。符号器はサブフレームごとに動作するから、サブフレームの長さに合せてベクトルをそのサンプルLで定義するのが便利である。例えば、励振信号については
【0032】
【数5】
となる。さらにスペクトル重み付けマトリクスHは、次のように定義される。
【0033】
【外7】
もし行列HがL×Lの矩形に区切られたとすると、式(8)は式(4)を近似することになり、これは元々のCELPに使われているような一般の共分散条件に近づく。
【0034】
CELP符号化の図示の実施例
図3は本発明の一実施例をCELP符号化に適用する場合を図示する。サンプルされた音声信号s(i) が符号化のために与えられる。信号s(i) は線形予測係数an を生ずる線形予測分析器100に与えられる。信号s(i) はまたSTP120に与えられ、これは式(1)に示すプロセスに従って動作する。信号s(i) は遅延推定器140にも与えられる。
【0035】
遅延推定器140はs(i) の最近の履歴(例えば過去の20と160の間のサンプル)を探索し、符号化されるべき現在の音声のサブフレームs(i) に最も良く整合する連続した過去のサンプルの集合(サブフレーム長に等しい長さの)を決定する。遅延推定器140は現在のサブフレームとi−160<i<i−20の過去のサンプルs(i) の値の連続した集合との相関手続きを通してその判定を行なうかもしれない。相関技法の例としてはCELP符号器に用いられる通常のオープンループLTPによって使用される手法を使っても良い(ここでオープンループという用語は再生された過去の音声信号ではなく、原信号を使用するLTP遅延推定プロセスについて述べている。又、再生された音声信号を使う遅延推定プロセスはクローズドループと呼ぶ。)。遅延推定器140は上述した手続きによってフレームに1回遅延推定値を決定する。遅延推定器140はフレーム境界で決められた遅延値の内挿によって各サンプルフレームの遅延の値Mを計算する。
【0036】
【外8】
【0037】
【外9】
【0038】
上述したように、LTPプロセスは符号化された音声の長期相関を小さくするために、現在の音声信号と最も良く整合する過去の音声信号を識別するように動作する。図3の実施例において、多数の試行原信号がLTPプロセスに与えられる。このような多数の試行原信号はタイムワープ処理機能130によって与えられる。
【0039】
図4に示すタイムワープ関数130は原信号に適用するためのタイムワープ(TWCB)処理用のコードブック133を与え多数の試行原信号を生ずる。原理的にはタイムワープ処理機能130のコードブック133は任意のタイムワープ
【0040】
【数6】
を含み、これは原信号の知覚品質を変化することはない。
【0041】
【数7】
ここでtj とτj は原領域とワープ領域におけるサブフレームjの開始を含む。
【0042】
ワーププロセスの安定性を増大するために、主要なピッチパルスがサブフレームの右方の境界の近くに入ることが望ましい。これはこのようなサブフレームの境界を、周知の手法を使用してこのようなパルスのちょうど右方に入るように定義することによって実現される。符号化されるべき音声信号のピッチパルスが境界点にあると仮定すれば、ワーピング関数が次式を満足するようにすることが望ましい。
【0043】
【数1】
もしピッチパルスがサブフレーム境界のいくらか前にあれば、ζ(t) はその終りの値をサブフレーム境界の近傍に保つようにするべきである。もし式(10)が満足されないときには振動的なワープとなる。タイムワープのコードブックを実現するためにタイムワープ処理機能を表わす関数(ワーピング関数)の次のようなファミリーを使用しても良い。
【0044】
【数2】
ここでA,B,C,σB およびσC は定数である。tが増大するにつれてタイムワープ処理機能を表わすこのワーピング関数はAに収束する。tj ではこのワーピング関数の値はA+Bである。Cの値は式(10)を正確に満足するのに使用される。連続タイムワープのコードブックは1)Aの値を選択する(典型的には0.95と1.05の間)、2)σB とσC の値を選択する(典型的には2.5m秒)、3)tj の境界条件を満足するようBを使用する(ここでζ(tj )=A+B)、4)式(10)の境界条件を満足するようCを選択する、ことによって発生される。ワーピイングコードブックに関する情報は伝送されないことに注意していただきたい。その大きさは計算上の要求によってだけ決められる。
【0045】
図4を参照すれば、原音声信号x(i)はタイムワーピングプロセス130によって受信されて、メモリ131に記憶される。原音声信号x(i)は必要に応じてワーピングプロセス132に利用できる。ワープ処理はタイムワープコードブック133からワーピング関数ζ(t) を受け取り、その関数を式(9)に従って原信号に適用する。タイムワープされた原音声信号x〜(i)は試行信号と呼ばれるが、次式に従って平行誤差即ち誤差量ε’を次式に従って決定するプロセスに与えられる。
【0046】
【数10】
式(12)は式(8)に似ているが、式(8)とは異り、式(12)は正規化されており、従って最小平方誤差プロセスは形の差にだけ感度を持つようになっている。
【0047】
【外11】
【0048】
【外12】
【0049】
【外13】
【0050】
【外14】
【0051】
従来の音声符号器と同様に、LTP遅延、スケールファクタ値λおよびM、FSCBインデクスおよび線形予測係数an は回線を通して復号器に与えられて、従来のCELP受信機によって再構成される。しかし、本発明の図示の実施例によって実現される誤差の低下のために(符号化プロセスにおける)、LTP遅延情報はサブフレームに1回でなく、フレームに1回送信すればよいことになる。Mのサブフレーム値は送信機の遅延推定器140によって行なわれると同様の方法で、遅延値を内挿することによって受信機で提供される。
【0052】
LTP遅延情報Mをサブフレームごとではなく、フレームごとに送信することによって、遅延に関連した帯域要求は大幅に小さくなる。
【0053】
連続遅延輪郭を持つLTP
従来のLTPでは、遅延は各サブフレームで一定で、サブフレームの境界で不連続的に変化する。この不連続的な振舞は(階段状に変化する)ステップ遅延輪郭と呼ばれる。ステップ遅延輪郭を持つ場合には、サブフレーム間の遅延の不連続な変化は過去の励振の現在に対するLTPマッピングの不連続性に対応する。このような不連続性は内挿によって変更でき、円滑に変化するピッチサイクル波形を持つ信号の再生を妨げないようにする。上述した実施例では、遅延値の内挿が要求されるから、内挿を便利にするために連続的遅延輪郭を有するLTPを与えることが有利であることが言える。この再構成されたLTPは、不連続性のない遅延輪郭を与えるから、これは連続遅延輪郭のLTPと呼ばれる。
【0054】
適応的コードブックを提供する連続遅延輪郭の遅延値を与えるプロセスは上述した遅延推定器にとって代る。LTPの連続遅延輪郭を与えるために現在のサブフレームの可能な輪郭の最良の集合が選択される。各々の輪郭は先のサブフレームd(tj )の遅延輪郭の終りの値で開始する。現在の実施例においては、集合の各々の遅延輪郭はサブフレーム内で線形であるように選択される。従って現在のNサンプルのサブフレームjでは(サンプリング間隔Tの間をおいている)、tj <t<tj+1 の間にあるが、瞬時遅延d(t) は次の形をとる。
【0055】
【数11】
ここでαは一定である。d(t) を与えられると、過去の音声信号(LTP利得でスケーリングしていない)のLTPによる現在への写像は、
【0056】
【数12】
【0057】
【外15】
【0058】
過去の信号の時間スケールしたものを得るための連続遅延輪郭と共にLTPを使用するときには、遅延輪郭の勾配を1より小さくd(t) <1としておくことが望ましい。もしこの条件が乱されると、写像された波形の時間反転が生ずるかもしれない。また、連続遅延輪郭ではピッチダブリングを正確に記述できない。ピッチダブリングをモデル化するためには、遅延輪郭は不連続でなければならない。再び式(14)の遅延輪郭を考える。各々のピッチ周期は通常エネルギーのひとつの大きな中心(ピッチパルス)に支配されるから、遅延輪郭にはピッチサイクル毎にひとつの自由度が存在することが望ましい。従って、図示の連続遅延輪郭LTPは、ほぼ1ピッチサイクルの適応的長さを持つサブフレームを与える。この適応的長さはピッチパルスの直後に置かれるサブフレーム境界を与えるのに使用される。このようにすることによって、振動的な遅延輪郭が生ずることを防止する。LTPパラメータは固定時間間隔で送信されるから、サブフレームの大きさはビット周波数に影響することはない。図示の実施例においては、ピッチパルスすなわち遅延フレーム境界を位置決めする周知の手法が適正できる。これらの手法は適応コードブックプロセス150の一部として応用される。
【0059】
タイムシフトを伴うCELP符号化の実施例
上述したタイムワーピングの実施例に加えて、本発明のタイムシフトの実施例を用いることもできる。図示の例としては、タイムシフトの実施例は図5に示される。これは図3と類似しているが、タイムワープ処理機能130がタイムシフト処理機能200に置き換えられている。
【0060】
タイムワープ処理機能130と同様に、タイムシフト処理機能200は符号化されるべき原信号と聴覚的に類似した多数の試行原信号を与える。タイムワープ処理機能130と同様に、タイムシフト処理機能200はどの試行原信号が識別された過去の音声信号と最も近い形を持つかを判定する。しかしタイムワープ処理機能130とは異り、タイムシフト処理機能は原音声信号、望ましいことには励振信号をθmin <θ<θmax の範囲にある時間θだけ時間的にずらし、過去の音声信号と比較したときに最小誤差を生ずるような原信号の位置を決定するように動作する(典型的には|θmin |=|θmax |=2.5サンプルで、アップサンプリングが行なわれるときに達成される。)。原音声信号のシフトをθだけ右に(すなわち時間的に遅らせる)移動することは前のサブフレームの長さθの最後の区間を繰返し、これによって原音声サブフレームの左のエッジにパッドすることによって実行される。原音声信号をθだけ左にシフトする動作は単にサブフレームの左縁からθに等しい長さの信号を除く(すなわち省略する)ここによって実行される。
【0061】
サブフレームの大きさはピッチ周期の関数としておく必要はないことに注意していただきたい。しかし、サブフレームの大きさを常にピッチ周期より小さくしておくことが望ましい。こうすれば、各ピッチパルスの位置を独立に決定することができる。2.5ミリ秒の大きさのサブフレームも使用できる。LTPパラメータは固定時間間隔で送信されるから、サブフレームの大きさがビット周波数に影響することはない。サブフレームがピッチパルスの間に入ることを防止するために、シフトの変更は適切に制約しておく必要がある(2.5ミリ秒のサブフレームに対して0.25ミリ秒程度)。この代りに周囲のサブフレームよりエネルギーが大幅に小さいサブフレームについては遅延を一定に保つことができる。
【0062】
タイムシフト関数200の例を図6に図示する。関数200は上述したタイムワープ関数130に似ているか、パッド/省略プロセス232がワーピングプロセス132と関連するコードブック133の代りに設けられている。
関数200によって実行されるシフト手続きは、
【0063】
【数13】
である。ここで、tj は原信号の現在のフレームjの開始である。閉ループあてはめ手続きが式(12)に似た誤り条件を最小化するθmin <θ<θmax の値を探索する。
【0064】
【数14】
この手続きはプロセス234(これは式(17)に従ってε′を決定する)と誤り評価器135(これはε′min を決定する)によって実行される。
【0065】
サブフレームjの最適値θはε′min に対応するそのθであり、θj と表記される。サブフレーム長Lsubframe については原音声のサブフレームj+1の開始は次式で決定される。
【0066】
【数15】
再構成された信号については時刻τj+1 は単に次式となる。
【0067】
【数16】
上述した図示の実施例のように、本発明のこの実施例はスケーリングと遅延情報、線形予測係数および通常のCELP受信機の固定統計的コードブックインデクスを与える。この場合にも、本発明による符号化誤差の低下のために、遅延情報は各サブフレームではなく、各フレームに送信される。受信機は遅延情報を内挿し、受信機の遅延推定器140で行なわれたように個々のサブフレームについて遅延値を決定する。
【0068】
階段状に変化するステップ遅延輪郭の場合の内挿は次のように実行される。tA とtB で原信号についての現在の内挿期間のはじめと終りを表わす。さらにインテックスjA で現在の内挿期間の第1のLTPサブフレームを、jB で次の内挿期間の第1のLTPサブフレームを表わす。まず現在の内挿間隔dB の終りで、遅延の開ループ推定値は、例えば、過去の音声信号と現在の音声信号の相互相関プロセスによって得られる(実際、この目的のためのtB に使用する値は推定値である。なぜならその最終的な値は内挿の終りで得られる。)。先の内挿期間の終りでの遅延をdA で表現する。このときには、サブフレームjの遅延は単に
【0069】
【数17】
で与えられる。励振に対するLTPのスケーリングしていない寄与分は次式で与えられる。
【0070】
【数18】
ここでτj は再構成された信号についてのサブフレームjのはじめである。
【0071】
遅延ピッチの2倍化と半分化
合成による分析符号器では連続したピッチサイクルが類似していると遅延の2倍化、半分化といった現象が生じやすい。しかし、本発明に関しては、遅延の2倍化と半分化は次のようにして対処される。第1ステップとして今の内挿期間の終端におけるオープンループ遅延推定値が先の内挿間隔の最終の遅延に比較される。これが先の内挿期間の終端の値の倍数もしくは約数に近いときには、遅延の倍数化あるいは約数化が生じたと考えられる。以下には、遅延の2倍化と半分化について述べるが、これ以外の倍数化についても同様に扱うことができる。
【0072】
遅延の2倍化について述べれば、終端値の遅延のオープンループ推定値をd2(τB )とする。ここで添字2は2ピッチサイクルに対応する遅延を表わす。d1(τA )で1ピッチサイクルに対応する遅延を表わす。一般に、2倍化された遅延と標準の遅延の間には次の関係がある。
【0073】
【数19】
式(22)はLTPによる2回のシーケンシャル写像を示している。ピッチ周期が一定でなければ、遅延を単に2倍しても正しい写像は得られない。
次に現在の内挿期間でd1(τ)がリニアである場合を考える。
【0074】
【数20】
式(22)と(23)を組合わせて
【0075】
【数21】
式(24)は制限された範囲内で、d2(τ)がリニアであることを示している。しかし、一般にτA <τ<τA +d1(τ) の範囲ではd2(τ) はリニアではない。遅延の2倍化のためには次のような手続が使える。はじめにd1(τA )とd2(τB )が知られている。式(24)でτ=τB を使ってβが求められる。
【0076】
【数22】
次に内挿期間内のd1(τ)とd2(τ) が知られる。標準の遅延d1(τ)は全内挿期間の中で式(23)を満足する。d2(τ) については式(22)は全内挿期間内で有効であるが、式(24)は制限された部分だけで有効であることに注意していただきたい。
【0077】
内挿期間に対する実際のLTP励振の寄与分が、標準の遅延から2倍化遅延に対する平滑化された変化によってこれで得られたことになる。
【0078】
【数23】
ここでΨ(τ)は示された内挿期間で0から1に増大された平坦な関数があり、これは現在の内挿期間を線形化するものである。この手続は内挿期間が2倍化された遅延より本質的に大きいことを仮定している。
【0079】
遅延の半分化については同一の手続が逆方向に利用される。境界条件d2(τA )とd1(τA ) を仮定する。τA <τ<τB について式(22)が使えるようになるには、d1(τA )はτA −d1(τA )<τ<τA の範囲で定義されなければならない。適切な定義によって音声の品質が保たれる。2倍化遅延は先の内挿期間では線形であるから、この範囲でd1(τ)の適切な定義を得るために式(24)を使うことができる。線形の遅延輪郭の場合、d2(τ)は次式を満足する。
【0080】
【数3】
ここで′は前の内挿期間の値を指していること(τB ′=τA であることに注意)を示し、η′は定義である。これを式(24)と比較すれば、前の内挿期間の最後の部分のd1(τ)は
【0081】
【数25】
である。式(28)はまた現在の内挿期間の境界値d1(τA )を与える。この値とd1(τB )から、式(23)のβの値を求めることができる。再び式(22)は現在の内挿期間のd2(τ)を計算するのに使用できる。d2(τ)からd1(τ)への変化は再び式(22)によって行なわれる。しかしこの場合はΨ(τ)は内挿期間内で1から0に減少する。
【図面の簡単な説明】
【図1】 本発明の一実施例の図である。
【図2】 従来のCELP符号器の図である。
【図3】 本発明の一実施例の図である。
【図4】 図3に示した実施例のタイムワープ処理機能を表わす図である。
【図5】 時間シフトに関連する本発明の実施例の図である。
【図6】 図5に示した実施例のタイムシフト処理機能を表わす図である。
Claims (10)
- 原信号を符号化する方法であって、
原信号に基づいて、各々が該原信号を変形した信号であって、かつ該原信号と聴覚的に類似した音を有する複数の試行原信号を発生するステップと、
試行原信号を合成による分析符号化方式により符号化してそれを表わすひとつあるいは2つ以上のパラメータを発生するステップと、
該ひとつあるいは2つ以上のパラメータから試行原信号の推定値を合成するステップと、
該試行原信号と、該試行原信号の合成された推定値との間の誤差を決定するステップと、
誤差評価プロセスを満足した誤差を持つ試行原信号のひとつあるいは2つ以上のパラメータを該原信号の符号化表現として選択するステップと、を含むことを特徴とする原信号を符号化する方法。 - 請求項1に記載の方法において、該複数の試行原信号を発生するステップが、原信号にひとつあるいは2つ以上のタイムワープを適用するステップからなることを特徴とする原信号を符号化する方法。
- 請求項1に記載の方法において、該複数の試行原信号を発生するステップが、原信号にひとつあるいは2つ以上の時間シフトを実行するステップからなることを特徴とする原信号を符号化する方法。
- 請求項1に記載の方法において、該合成による分析符号化を実行するステップがコード励振線形予測符号化を実行するステップからなることを特徴とする原信号を符号化する方法。
- 請求項1に記載の方法において、該誤差を判定するステップが、フィルタされた試行原信号とフィルタされたその合成信号の間の差のサンプルの自乗和を判定するステップからなることを特徴とする原信号を符号化する方法。
- 請求項5に記載の方法において、該誤差評価プロセスが、複数の自乗和からサンプルの自乗和の最小値を判定するステップからなることを特徴とする原信号を符号化する方法。
- 請求項1に記載の方法において、該誤差を判定するステップが知覚的に重み付けされた試行原信号と知覚的に重み付けられたその合成された推定値の間の差サンプルの自乗和を判定するステップからなることを特徴とする原信号を符号化する方法。
- 請求項7に記載の方法において、該誤差評価プロセスが、サンプルの複数の自乗和の中からサンプルの最小の自乗和を判定するステップからなることを特徴とする原信号を符号化する方法。
- 請求項1に記載の方法において、該原信号の符号化された表現を選択するステップが、はそれに伴う誤差が最小である試行原信号を判定するステップからなることを特徴とする原信号を符号化する方法。
- 原信号を符号化する装置であって、
原信号に基づいて、各々が該原信号を変形した信号であって、かつ該原信号と聴覚的に類似した音を有する複数の試行原信号を発生する手段と、
該発生手段に結合され、試行原信号を合成による分析符号化方式により符号化してそれを表現するひとつあるいは2つ以上のパラメータを発生する手段と、
該符号化手段に結合され、ひとつあるいは2つ以上のパラメータから試行原信号の推定値を合成する手段と、
該符号化手段と該発生手段とに結合され、試行原信号と、試行原信号の合成された推定値との間の誤差を決定する手段と、
原信号の符号化された表現として、その誤差が誤り評価プロセスを満足した試行原信号のひとつあるいは2つ以上のパラメータを選択する手段と、を備えることを特徴とする原信号を符号化する装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US78268691A | 1991-10-25 | 1991-10-25 | |
US782686 | 1991-10-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05232995A JPH05232995A (ja) | 1993-09-10 |
JP3662597B2 true JP3662597B2 (ja) | 2005-06-22 |
Family
ID=25126860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP28480892A Expired - Lifetime JP3662597B2 (ja) | 1991-10-25 | 1992-10-23 | 一般化された合成による分析音声符号化方法と装置 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP0539103B1 (ja) |
JP (1) | JP3662597B2 (ja) |
DE (1) | DE69225293T2 (ja) |
ES (1) | ES2115646T3 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2102080C (en) * | 1992-12-14 | 1998-07-28 | Willem Bastiaan Kleijn | Time shifting for generalized analysis-by-synthesis coding |
US5704003A (en) * | 1995-09-19 | 1997-12-30 | Lucent Technologies Inc. | RCELP coder |
EP0773533B1 (en) * | 1995-11-09 | 2000-04-26 | Nokia Mobile Phones Ltd. | Method of synthesizing a block of a speech signal in a CELP-type coder |
US6113653A (en) * | 1998-09-11 | 2000-09-05 | Motorola, Inc. | Method and apparatus for coding an information signal using delay contour adjustment |
-
1992
- 1992-10-16 DE DE69225293T patent/DE69225293T2/de not_active Expired - Lifetime
- 1992-10-16 EP EP92309442A patent/EP0539103B1/en not_active Expired - Lifetime
- 1992-10-16 ES ES92309442T patent/ES2115646T3/es not_active Expired - Lifetime
- 1992-10-23 JP JP28480892A patent/JP3662597B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE69225293D1 (de) | 1998-06-04 |
JPH05232995A (ja) | 1993-09-10 |
EP0539103B1 (en) | 1998-04-29 |
DE69225293T2 (de) | 1998-09-10 |
EP0539103A3 (en) | 1993-08-11 |
EP0539103A2 (en) | 1993-04-28 |
ES2115646T3 (es) | 1998-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4662673B2 (ja) | 広帯域音声及びオーディオ信号復号器における利得平滑化 | |
US6427135B1 (en) | Method for encoding speech wherein pitch periods are changed based upon input speech signal | |
RU2407071C2 (ru) | Способ генерации кадров маскирования в системе связи | |
EP0409239B1 (en) | Speech coding/decoding method | |
JP3566652B2 (ja) | 広帯域信号の効率的な符号化のための聴覚重み付け装置および方法 | |
US7490036B2 (en) | Adaptive equalizer for a coded speech signal | |
JPS5912186B2 (ja) | 雑音の影響を減少した予測音声信号符号化 | |
JP2005513539A (ja) | 音声信号の効率的コーディングのための信号修正方法 | |
WO2001061687A1 (en) | Wideband speech codec using different sampling rates | |
JPH0736118B2 (ja) | セルプを使用した音声圧縮装置 | |
US5675701A (en) | Speech coding parameter smoothing method | |
US6169970B1 (en) | Generalized analysis-by-synthesis speech coding method and apparatus | |
JP3770925B2 (ja) | 信号符号化方法とその装置 | |
JP3662597B2 (ja) | 一般化された合成による分析音声符号化方法と装置 | |
JP3179291B2 (ja) | 音声符号化装置 | |
JP3303580B2 (ja) | 音声符号化装置 | |
JPH0782360B2 (ja) | 音声分析合成方法 | |
JPH07168597A (ja) | 音声装置の周期性を強化する方法 | |
JP2946525B2 (ja) | 音声符号化方式 | |
JP2956068B2 (ja) | 音声符号化復号化方式 | |
JP3490325B2 (ja) | 音声信号符号化方法、復号方法およびその符号化器、復号器 | |
JPH0258100A (ja) | 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置 | |
JP3089967B2 (ja) | 音声符号化装置 | |
JPH0774642A (ja) | 線形予測係数補間装置 | |
KR20060064694A (ko) | 디지털 음성 코더들에서의 고조파 잡음 가중 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20040106 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20040114 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040406 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040818 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041116 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050228 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050324 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080401 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090401 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100401 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110401 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130401 Year of fee payment: 8 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130401 Year of fee payment: 8 |