JP3770925B2 - 信号符号化方法とその装置 - Google Patents

信号符号化方法とその装置 Download PDF

Info

Publication number
JP3770925B2
JP3770925B2 JP34203493A JP34203493A JP3770925B2 JP 3770925 B2 JP3770925 B2 JP 3770925B2 JP 34203493 A JP34203493 A JP 34203493A JP 34203493 A JP34203493 A JP 34203493A JP 3770925 B2 JP3770925 B2 JP 3770925B2
Authority
JP
Japan
Prior art keywords
signal
original signal
sample
trial
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP34203493A
Other languages
English (en)
Other versions
JPH06214600A (ja
Inventor
バスチアン クレイジュン ウイレム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPH06214600A publication Critical patent/JPH06214600A/ja
Application granted granted Critical
Publication of JP3770925B2 publication Critical patent/JP3770925B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、一般的に音声符号化システムに関し、特に、合成による分析音声符号化システムにおける必要帯域幅の削減に関する。
【0002】
【従来の技術】
音声符号化システムは、システム受信器に、チャネルまたは通信網を通じての通信のための音声信号コードワード表現を提供するように機能する。各システム受信器は、受信したコードワードから音声信号を再構成する。与えられた期間内にシステムにより伝達されるコードワード情報量は、システム帯域幅の限界を定め、システム受信器が再生する音声品質に影響を及ぼす。
【0003】
音声符号化システムの設計者は、しばしば、できるだけ狭い帯域幅を使用して、高品質の音声再生能力を提供しようとする。しかし、高品質音声を求めることと帯域幅を狭くすることとは、矛盾する虞があるので、設計過程においてエンジニアリングのトレードオフとなりうる。しかし、これにもかかわらず、狭いチャネル帯域幅で合格音声品質を与える音声符号化技術がこれまで開発されている。この中に、合成による分析音声符号化技術がある。合成による分析音声符号化技術によれば、音声信号は、波形合成手法を通して符号化される。候補音声信号は、符号化しようとする原音声信号との比較のため、1個以上のパラメータから合成される。パラメータを変化させることにより、種々の合成された候補音声信号が決定される。ついで、最も類似した候補音声信号のパラメータが原音声信号を表現するのに使用される。
【0004】
多数の合成による分析符号器(例えば、大部分の符号励振形線形予測(CELP)符号器)は、音声信号中の長時間相関をモデル化する長時間予測器(LTP)を使用する。「音声信号」という語は、実音声または合成による分析符号器中に存在する残差信号および励振信号を意味する。合成過程中、長時間予測器は、通常、全極形フィルタまたは利得基準化付適応コードブックとして実現される。一般的事柄として、音声信号中の長時間相関は、過去に再構成された音声信号が現時音声信号の近似信号として機能するのを可能とする。長時間予測器は、(すでに符号化されている)個々の過去音声信号を現時(原)音声信号と比較するように動作する。このような比較により、長時間予測器は、いずれの過去音声信号が原音声信号に最近似するかを決定する。過去音声信号は、該過去音声信号が(現時刻から)どの程度の過去に見出されるかを示す遅延値によって識別されうる。長時間予測器を使用する符号器は、現時音声信号から最も整合度の高い音声信号(すなわち、最良近似信号)の基準化された版を差引くことにより、長時間相関の小さい信号を生じる。ついで、この信号は、代表的な場合、固定確率コードブック(FSCB)を使用して、符号化される。固定確率コードブックの指標および長時間予測器遅延値は、他のパラメータと一緒に、これらのパラメータから推定原音声を復元しうる符号励振形線形予測復号器へ伝送される。
【0005】
【発明が解決しようとする課題】
音声の長時間相関をモデル化することにより、復号器での再構成音声品質は、改善されうる。しかし、この改善は、帯域幅の有意の拡大なしには達成されない。例えば、音声の長時間相関をモデル化するために、通常符号励振形線形予測符号器は、5または7.5 ms(サブフレームという)毎に8ビット遅延情報を伝送しうる。このような時間変化形遅延パラメータは、帯域幅1秒毎に、例えば、1〜2kbを余分に必要とする。長時間予測器遅延値の変動は、時間全体に亘って予測されえない(すなわち、長時間予測器遅延値列は、本質的に確率的である)ので、改良された遅延パラメータ符号化により追加必要帯域幅を減らすのは、困難であることが判る。
【0006】
長時間予測器を使用する合成による分析の追加必要帯域幅削減の一方策は、長時間予測器遅延値を伝送する頻度を減し、補間により中間長時間予測器遅延値を決定することであろう。しかし、補間は、音声信号の個別サブフレームにおいて、長時間予測器により最適と言えない遅延値が使用されることになる虞がある。例えば、遅延値が最適と言えないときは、長時間予測器は、最適と言えない方法で過去音声信号を現時点に写像することになる。結果として、現時点に写像された過去音声信号と原音声信号との差は、他の手段による場合のものに比べて大きくなる。この場合、固定確率コードブックは、波形を改良するという正常機能を行うよりも、上記の最適と言えない時間軸シフトの効果を無効とするように動作する。結果として、有意可聴歪みが生じうる。
【0007】
本発明は、合成による分析の符号化システムにおいて、必要帯域幅を減らす方法および装置を提供する。
【0008】
【課題を解決するための手段】
本発明によれば、汎用合成による分析符号化は、原信号を変化させることにより提供される。原信号の異形群を試原信号という。合成による分析符号化において、原信号の代りに、または、原信号使用の補充として、試原信号を使用するので、符号化誤差および必要ビットレートが削減される。音声符号化において、符号化誤差が小さくなれば、長時間予測器遅延情報の伝送頻度を低くすることができ、再構成音声品質の低下がほとんど無い、または、全く無い、遅延値補間が可能となる。本発明は、とりわけ、無線電話網(例えば、セルラー式)および通常電話網のような音声情報通信網に適用されうる。
【0009】
音声符号化に関して、試原信号は、説明として、知覚(例えば、聴覚)的に実原信号に類似した信号である。試原信号と実原信号との聴覚的類似度は、符号化ビットレートおよび受信器により合成される音声の品質に影響しうる(例えば、類似度が低いほど、ビットレートも低くなり、音声品質も低くなる虞がある)。原信号(したがって、試原信号)は、実原音声信号、または、合成による分析符号器中に存在する残差もしくは励振信号の形を取りうる。
【0010】
本発明の実施例によれば、試原信号は、実音声信号セグメントの時間軸シフト版として生成される。試原信号と適応コードブックの補助情報との類似度(例えば、相互相関)が評価される。全試原信号のひとつ、または、原もしくは試原信号の異形と同一の試原信号が1個以上の評価類似度に基づいて決定される。先に生成された諸試原信号のうちのひとつの異形の場合には、決定された試原信号(すなわち、上記異形)は、先に生成された諸試原信号を生成した諸時間軸シフトに対応する。原信号の符号化表現をもたらす信号が決定された上記試原信号に基づいて生成される。
【0011】
【実施例】
実施例のハードウェア
説明を分かり易くするため、本発明の一実施例は、(「プロセッサ」と名づけられた機能ブロックを含む)個々の機能ブロックからなるものとして示される。これらのブロックが表わす機能は、(ソフトウェアを実行しうるハードウェアを含むが、このハードウェアに限定されない)共用ハードウェアまたは専用ハードウェアの使用により実現されうる。例えば、図4および図6に示されたプロセッサの機能は、1個の共用プロセッサによって与えられうる。明細書中、「プロセッサ」という用語の使用は、ソフトウェアを実行する能力を有するハードウェアのみを指すものと解釈されるべきでない。
【0012】
本発明の実施例は、AT&T DSP16もしくはDSP32Cのような(DSP)ハードウェア、後述する動作を遂行するソフトウェアを格納する読出し専用メモリ(ROM)、およびディジタル信号プロセッサの結果を記憶するランダムアクセスメモリ(RAM)からなる。超大規模集積回路(VLSI)ハードウェアの実施例が汎用ディジタル信号プロセッサ回路と組合わせたカスタム超大規模集積回路と同様に提供される。
【0013】
従来の符号励振形線形予測に関する説明
従来の合成による分析用符号励振形線形予測符号器が図14に示されている。標本化された音声信号s(i)(iは、標本指標である)は、現時音声セグメントに対して最適化されたN次の短時間線形予測フィルタ(STP)20に与えられる。信号x(i)は、短時間線形予測フィルタによるろ波後に得られた励振である。
【0014】
【数1】
Figure 0003770925
【0015】
数式中、パラメータan は、線形予測分析器10により供給される。Nは、(8kHzのの標本化率について)通常、標本約10個であるから、励振信号x(i)は、一般的に、原信号s(i)の短時間周期性を保持する。この冗長性を除去するために、長時間予測器30が設けられている。
【0016】
x(i)の値は、通常、ブロック基準で決定される。各ブロックは、サブフレームと名づけられている。線形予測係数an は、線形予測分析器10により、フレーム毎基準で決定される。フレームは、一般的に、サブフレーム持続時間の整数倍である一定持続時間を有し、通常20〜30msの長さである。an のサブフレーム値は、通常、補間により決定される。(代表的な場合、適応コードブックにより実現される)長時間予測器は、使用利得λ(i)と使用遅延値d(i)とを以下のように決定する。
【0017】
【数2】
Figure 0003770925
【0018】
数式中、山付x(i−d(i))は、先のサブフレーム内で合成された(すなわち再構成された)音声信号の標本である。このようにして、長時間予測器30は、量λ(i)・山付x(i−d(i))を与える。信号r(i)は、λ(i)・山付x(i−d(i))がx(i)から差引かれた後に残る励振信号である。ついで、信号r(i)は、固定確率コードブック40を使用して符号化される。固定確率コードブック40は、コードブックベクトル指標μ(i)と同伴基準化因数とをを生じる。これらの量は、一体となって、最近似の励振r(i)を与える。
【0019】
各音声サブフレームを表わすデータ、すなわち、長時間予測器パラメータλ
(i)およびd(i)と固定確率コードブック指標とは、フレームに等しくなる整数個のサブフレームについて集められる。上記データフレームは、線形予測係数an と一緒に、データフレームが音声の再構成に使用される符号励振形線形予測復号器に伝送される。
【0020】
符号励振形線形予測復号器は、上述した符号化過程と逆の過程を行う。固定確率コードブック指標は、受信器(合成器ともいう)の固定確率コードブックによって受入れられ、同伴ベクトルe(i)(励振信号)がコードブックから選び出される。励振信号e(i)は、逆長時間予測器過程(長時間相関が与えられる)を励起するのに使用され、量子化されたx(i)の等価情報、山付x(i)を生じる。再構成音声信号y(i)は、(短時間相関が与えられる)逆短時間線形予測フィル過程を使用して山付x(i)をろ波することにより得られる。
【0021】
一般的に、再構成励振信号、山付x(i)は、適応コードブックおよび固定コードブックの基準化された補助情報の和と解釈されうる。これらのコードブックからベクトルを選び出すため、聴覚適合誤差基準が使用されうる。これは、人間の聴覚系に存在するスペクトルマスキングを利用することにより信号と再構成音声信号とを使用する代りに、上記聴覚適合誤差基準は、聴覚重み付き信号の差を判断する。
【0022】
信号の聴覚重み付けは、音声中に存在するホルマントに重点をおかない。本範例によれば、全ての極を内側に移動することにより、スペクトルデエンファシスを得ることができる全極型フィルタにより記述される。これは、予測係数a1 ,a2 ,…,aN を有するフィルタを係数γa1 ,γ2 a2 ,…γN aN (γは、通常、約0.8の値に設定される聴覚重み付け因数である)を有するフィルタにより置き換えるのと等価である。
【0023】
聴覚重み付け領域での標本化誤差信号g(i)は、以下の通りである。
【0024】
【数3】
Figure 0003770925
【0025】
合成による分析符号器の誤差基準は、サブフレーム毎に定式化される。標本L個のサブフレーム長について、通常使用される基準は、以下の通りである。
【0026】
【数4】
Figure 0003770925
【0027】
数式中、山付iは、サブフレームの最初の標本である。この基準は、サブフレーム全体に亘って、励振標本を不等に重み付けする。標本、山付x・(山付i+L−1)は、g(山付i+L−1)のみに作用し、山付x(山付i)は、本サブフレーム中のg(i)の全ての標本に作用する。
【0028】
数式(4)の基準は、上記山付iに先行して(すなわち、本サブフレームの始まりに先行して)x(i)と上記山付x(i)との差の効果を含む。本サブフレーム内での励起を定義することにより、重み付けされた合成フィルタの零入力応答を表現することが便利である。
【0029】
【数5】
Figure 0003770925
【0030】
数式中、z(i)は、本サブフレームに先行して、x(i)−山付x(i)により励振されたときの聴覚重み付け合成フィルタの本サブフレーム内の零入力応答である。
【0031】
時間領域においては、因数γによるスペクトルデエンファシスは、全極形フィルタのインパルス応答を、より速やかに減衰させることになる。実際上、8kHzの標本化率とγ=0.8とについて、インパルス応答は、標本20個を越えて、エネルギの有意部を有しない。
【0032】
減衰が速いので、全極形フィルタ1/(1−γa1-1,…,−γNN-N
のインパルス応答は、有限インパルス応答フィルタによって近似しうる。有限インパルス応答フィルタのインパルス応答をh0 ,h1 ,…,hR-1 とする。これにより、聴覚重み付けされた音声に作用する誤差基準のベクトル表記法が可能となる。符号器は、サブフレーム毎に動作するので、標本中のサブフレームの長さLでベクトルを定義することが便利である。例えば、励振信号について、
【0033】
【数6】
Figure 0003770925
【0034】
また、スペクトル重み付け行列Hは、以下のように定義される。
【0035】
【数7】
Figure 0003770925
【0036】
Hは、元(L+R−1)×Lを有する。これにより、ベクトルH・山付x(i)は、ベクトル、山付x(i)に対する無限インパルス応答フィルタ1/(1−γa1-1,…,γNN-N)の全応答を近似する。これらの定義を使用すれば、聴覚重み付けされた最適基準は、以下の通りである。
【0037】
【数8】
Figure 0003770925
【0038】
Hの現時定義を使用すれば、数式(8)の誤差基準は、自己相関型(HT Hは、テープリッツ(Toeplitz)であることに留意してほしい)。行列Hが正方行列L×Lとなるように裁断されたときは、数式(8)は、原符号励振形線形予測に使用される、より普通の共分散基準である数式(4)に等しくなる。
【0039】
符号励振形線形予測符号化の実施例
図1は、符号励振形線形予測符号化に適用された本発明の実施例を示す。ディジタル形の音声信号s(i)は、符号化に供される。信号s(i)は、線形予測係数an を生成する従来形線形予測分析器100に与えられる。信号s(i)は、数式(1)により記述される過程に従って動作する従来形線形予測フィルタ(すなわち、「短時間予測器」(STP))120と従来形遅延値推定器140とに供給される。特定の標本時刻において妥当な遅延情報を決定するため、遅延値推定器140は、s(i)の複数個の標本からなる(当特定標本てと隣合う中心を有する)窓の従来相関を行う。多数の窓のそれぞれは、同一長さを有する。この相関に関係する窓は、図2に示されている。
【0040】
図2は、複数個のフレームFと信号s(i)の複数個の標本からなる成分のサブフレームSFとの境界確定を示す(s(i)の実標本値は、説明を判り易くするため、省略されている)。3個のフレームFn-1 (過去フレーム)、Fn (現時フレーム)およびFn+1 (次フレーム)が示されている。これらのフレームのそれぞれは、信号s(i)の標本160個からなる。
【0041】
フレーム境界の位置決めは、後述する時間軸シフトプロセッサ200により行われる。時間軸シフトプロセッサ200は、原音声信号s(i)のサブフレームの終端を示す標本位置dp1′を与える。遅延値推定器140は、フレーム境界に到達する時を知るため、原音声のサブフレーム境界のトラックを保持するだけである(このようなフレーム境界は、整数個のサブフレーム境界に位置する)。遅延値推定器140は、時間軸シフトプロセッサ200が音声フレームに作用する前に該音声フレームに作用するので、遅延値推定器140は、未来フレーム境界の位置を予測しなければならない。遅延値推定器140は、時間軸シフトプロセッサ200により供給される最後フレーム境界にフレーム長(例えば、標本160個)に等しい一定個数の標本を追加することにより、上記予測を行う。
【0042】
遅延値推定器140が信号s(i)の現時フレームと次フレームとの境界M(FBn+1 )で妥当な遅延値Mを決定すると仮定する。これの決定を行うため、遅延値推定器140は、この境界の両側に存在する、標本160個からなる窓を自らのメモリ内に記憶する(遅延値推定器140は、次フレーム内で妥当な信号s(i)標本を受け入れるために待機しなければならない)。この標本窓は、窓Aと名づけられる。ついで、遅延値推定器140は、140個の他の信号s(i)の窓のうちの最初の窓である窓B1 内の信号s(i)の標本を使用して相関算出を行う。窓B1 は、窓Aの始まりよりも標本20個分早く始まり、窓Aの終端よりも標本20個分早く終了する標本160個の窓である。窓B1 に同伴する相関値は、メモリ内に記憶される。相関過程は、窓B1 より標本1個分早く開始される標本160個分の窓である窓B2 について繰返される。相関算出は、次の138個の窓のそれぞれについて行われる。各窓は、標本1個分先行する窓から距てられている。
【0043】
図2に示されているように、遅延値推定器140は、ほぼ2個の信号標本フレームを記憶するのに十分なメモリを有しなければならない。Dが最長許容遅延値であるときは、メモリは、窓Aの始まりに先行して、標本D個分拡張するべきである。D=160のときは、遅延値推定器140は、FBn+1 で妥当な推定遅延値を算出するために、フレームFn-1 の3番目のサブフレームSF2 の始まりからフレームFn+1 の2番目のサブフレームSF1 の終端までの、信号s(i)の標本を記憶しなければならない。遅延値Mは、窓Aの全ての標本と最大相関を有する標本窓Bに基づいて遅延値推定器140により決定される。すなわち、遅延値は、最も相関度の高い窓Bが窓Aから時間的にシフトされる標本の数に等しい。遅延値推定器140は、フレーム毎に1回、フレーム境界遅延推定値Mを決定する。また、遅延値推定器140は、フレーム境界において妥当な遅延値の通常線形補間により、各サブフレーム内に入った一定個数の標本(例えば、標本10個)において妥当な遅延値mを決定する。この目的のため、次フレームへ入った標本10個において必要な遅延値は、フレーム境界における遅延値に等しく設定される。
【0044】
遅延値推定器140により供給された遅延値とに同伴するタイミングが図3に示されている。図3に示されているように、フレームnの両側のフレーム境界において妥当な遅延値は、M(FBn )およびM(FBn+1 )である。フレームn内の各サブフレーム境界(SB)の後の一定個数の標本において妥当な遅延値は、mn (k)、k=0,1,2,3として示されている。mn (k)のこれらの値は、上述の通り、補間により決定される。遅延値mn (k)は、適応コードブックプロセッサ150に供給される。後述するように、適応コードブックプロセッサ150は、この遅延情報を使用することにより、時間軸シフトプロセッサ200へ適応コードブック補助情報を供給する。
【0045】
適応コードブックプロセッサ
適応コードブックプロセッサ150は、遅延値推定器140から出力された遅延推定値mn (k)と符号励振形線形予測プロセッサから得られた過去再構成音声信号とに基づいて、(符号化しようとする)現時音声サブフレームの推定値を時間軸シフトプロセッサ200に供給する。適応コードブックプロセッサ150は、遅延値mn (k)を使用することにより、適応コードブックプロセッサ150のメモリに記憶された過去再構成音声信号に対する遅延ポインタd(i)を決定するように動作する。ついで、選択された過去音声標本、山付x(i)は、符号化しようとする推定現時音声サブフレームとして時間軸シフトプロセッサ200に供給される。符号化しようとする各原音声サブフレームについて、適応コードブックプロセッサ150は、対応する音声標本サブフレームと次サブフレーム内に入った一定個数の超過標本とを供給する。例えば、この超過標本の一定個数は、10に等しい。
【0046】
図4は、適応コードブックプロセッサ150の一実施例を示す。この適応コードブックプロセッサ150は、プロセッサ155とRAM157とを含む。プロセッサ155は、過去再構成音声信号、山付x(i)を受入れ、現時サブフレーム音声標本と次サブフレーム音声標本とを算出するのに使用するため、上記過去再構成音声信号をRAM157に記憶する。プロセッサ155は、上記のような標本値の算出に使用される、遅延値推定器140から出力された遅延値mn (k)をも受入れるプロセッサ155は、試原信号の生成に使用するため、上記算出標本値、山付x(i)を時間軸シフトプロセッサ200に供給する。
【0047】
時間軸シフトプロセッサ200に供給された各音声標本値は、以下のように決定される。まず、当標本(すなわち、時間軸シフトプロセッサ200に供給されようとする標本)について妥当な遅延ポインタd(i)がプロセッサ155により決定される。これは、当標本の両側に存在する(遅延値推定器140により供給された)1対の遅延値mn (k)による補間により行われる。遅延ポインタd(i)を供給するためにプロセッサ155により使用される補間法は、供給された遅延値mn (k)による通常線形補間である。ついで、プロセッサ155は、(当標本について妥当な)遅延ポインタd(i)を、当標本の値として現時フレーム内で使用されるべき先の音声標本の後向きポインタとして使用する。このような先の標本は、RAM157に記憶されている。一般的に、遅延ポインタd(i)は、過去標本そのものを指し示さず、連続する過去標本間のどこかを指し示しがちである。このような状況では、プロセッサ155は、過去標本を補間することにより、遅延ポインタが関係する時点で妥当な過去標本値を決定する。過去標本値を決定するのにプロセッサ155により使用される補間技術は、ラビナー(Rabiner)とシェイファー(Schafer)とによりのべ述べられた「音声信号のディジタル処理」、26〜31頁(1978)のような通常帯域限定補間法である。プロセッサ155によって実現される補間は、遅延値によって示される時刻に最も近い過去標本のいずれの側にも20個のタップを使用する。
【0048】
図5の(a)〜(c)は、適応コードブックプロセッサ150が現時サブフレーム(および次フレーム)内で使用するために、過去標本を選択する過程を示す。図示を分り易くするため、図5の(a)〜(c)は、算出値d(i)が過去値間の一点ではなく、過去標本値そのものを指し示すと仮定する。また、遅延値がサブフレーム長より短いことが一般性を損うことなく仮定される。
【0049】
図5(a)に示されているように、時間軸シフトプロセッサ200に供給されようとする標本には、現時サブフレーム内の標本と次サブフレーム内の一定個数の標本とが含まれる。プロセッサ155は、現時サブフレームの遅延値mcurrを遅延値推定器140から受取り、先のサブフレームの遅延値mprevを自らのメモリRAM157に記憶している。mcurrが妥当となる時点より前に位置決めされた現時サブフレームの各標本の値である山付x(i)を決定するため、プロセッサ155は、当標本の標本時刻iにおいて妥当な遅延ポインタd(i)を決定する。これは、遅延値mcurrと遅延値推定器140から受入れた最新遅延値mprevとを使用することにより、標本が妥当となる時点を線形補間することにより行われる。この遅延ポインタd(i)が決定された後、プロセッサ155は、自らのRAM157内の標本の帯域幅限定補間により、当標本より標本d(i)個前の時点において妥当な標本値である山付x(i−d(i))を算出する。ついで、この標本値は、現時サブフレームの当標本のための指定記憶場所に挿入される。
【0050】
図5の範例によれば、サブフレーム長は、遅延値より長い。現時サブフレーム内の与えられた標本が決定される過程は、遅延ポインタを決定し、上記与えられた標本として使用しようとする標本値を時間的に遡って探すことに基づく。このように、再構成音声セグメントは、現時サブフレーム内での帯域幅限定補間を使用することにより、ほぼ再生される。したがって、例えば、図5(b)において、与えられた標本、山付x(i)は、その値を、時間的に遅延値d(i)だけ先行する、先に決定された標本、山付x(i−d(i))から得る。この遅延値は、現時サブフレームからの遅延値mcurrと次サブフレームからの遅延値mnextとは、標本、山付x(i)の両側に存在するので、補間された遅延値がこれらの遅延値であることを除いて、上記の通り決定される。遅延値がサブフレーム長より短いときに、一定利得での信号セグメントの再生は、適応コードブック手法を長時間予測器ろ波手法から区別するものである。
【0051】
図5(c)に示されているように、次フレーム内の超過標本は、図5(b)内の超過標本と同一方法で決定される。この場合、現時サブフレームから得られた標本は、次サブフレーム内の標本の値を与えるのに使用される。
【0052】
実際には、適応コードブックプロセッサ150の上記処理手順は、まず、現時サブフレームと当次サブフレームの一部の全ての標本時刻の全ての遅延ポインタ値d(i)を算出することにより実現される。ついで、標本値を必要とする現時サブフレームまたは次サブフレームの各標本時刻iについて、d(i)は、標本が「配置」された過去時刻i−d(i)への参照記号として使用される。一般的に、時刻i−d(i)に配置された標本は、存在しない。したがって、時刻i−d(i)の両側に存在する標本の帯域限定補間が必要となる。時刻i−d(i)に標本を生成する帯域限定補間が行われると、この標本値は、時刻iに割当てられる。この過程は、必要に応じて、現時サブフレームまたは次サブフレーム内の各標本の回帰過程において繰返される。
【0053】
適応コードブックプロセッサ150が現時サブフレームと次サブフレームの一定部分とにおいて使用するための標本を決定すると、これらの標本は、符号励振形線形予測符号化過程において使用する時間軸シフト済原信号を決定する基準として使用するために、時間軸シフトプロセッサ200へ供給される。時間軸シフトプロセッサへ供給された標本は、符号励振形線形予測符号化の合成による分析過程に対する適応コードブック補助情報といわれる。
【0054】
長時間予測器の実現適応コードブックの代りに、全極型フィルタが使用されることを理解するべきである。しかし、適応コードブックの実現は、ここに説明するように、特に、遅延値が総じてサブフレーム長より短い状況に適合する。これは、適応コードブックの実現が現時サブフレーム内の長時間予測器補助情報を供給するためにのみ長時間予測器利得(ここでは、コードブック利得)の決定値を必要とすることがないからである。この利得は、後に決定しうる。適応コードブックの場合と違って、長時間予測器の実現全極型フィルタは、遅延値がサブフレーム長より短いときのフィルタ利得値を得る非線形等式の解を必要とする。
【0055】
時間軸シフトプロセッサ
時間軸シフトプロセッサ200は、原音声信号が符号化のために常に使用されたとした場合よりも小さい誤差で(符号励振形線形予測のような合成による分析符号化法により)符号化されるように、原音声信号セグメントをシフトする方法を決定する。原音声信号の時間軸シフトのために、時間軸シフトプロセッサ200は、まず、原音声信号内で原音声信号エネルギの極大値を識別する。上記実施例によれば、時間軸シフトプロセッサ200は、原音声信号の複数の重なり合ったセグメントを選択する。これらセグメントのそれぞれは、識別された極大信号エネルギを有する。時間軸シフトプロセッサ200は、選択された各セグメントを(適応コードブックプロセッサ150により供給された)適応コードブック補助情報セグメントと比較する。この比較が行われることにより、適応コードブック補助情報のセグメントに最も近似する原音声信号セグメントが決定される。適応コードブック補助情報のセグメントに最も近似した原音声信号のセグメントが決定されると、この原音声セグメントは、符号励振形線形予測法による符号化のための時間軸シフト済原音声信号の形成に使用される。
【0056】
図1に示されているように、時間軸シフトプロセッサ200は、短時間予測フィルタ120から原残差音声信号x(i)を受入れ、符号励振形線形予測符号化法に使用する時間軸シフト済プロセッサ残差音声信号、山付x(i)を供給する。図6に示されているように、時間軸シフトプロセッサ200は、プロセッサ210、通常型緩衝メモリ220,230および240、プロセッサ210のプログラムを格納するため通常型ROM250、および、プロセッサ210の結果を格納する通常型RAM260からなる。
【0057】
時間軸シフトプロセッサ200の動作を、音声信号に対する時間軸シフトプロセッサ200の動作の開始点を示す図7とプロセッサ210の動作のフローチャートを示す図8および図9とを参照して説明する。
【0058】
図7に示されているように、時間軸シフトプロセッサ200は、適応コードブックプロセッサ150から出力された適応コードブック補助情報を表わす、再構成音声バッファ220を受入れた後、動作し始める。上述した通り、この適応コードブック補助情報は、適応コードブックプロセッサ150により、現時サブフレームと次サブフレームの一定部分との中へ写像された過去再構成音声標本(図5および関連記述参照)とからなる。この再構成音声バッファは、プロセッサ210による使用のため、RAM260内へロードされる。ポインタdp1は、適応コードブックと固定確率コードブック補助情報との両方が決定される最後サブフレームの終端を示すため、プロセッサ210により保持され、RAM260に記憶される。上記サブフレームの長さsubframe-1は、一定であり、メモリ(例えば、ROM250)内に保持される。プロセッサ210の先の動作に基づいて、時間軸シフト残差、波付x(i)がポインタdpmにより特定された時点までに、新規作成される(ポインタdpmは、常に、ポインタdp1以上である)。また、現時サブフレームに同伴する原残差信号を含む、原残差信号x(i)の一部は、緩衝記憶装置230に入力され、RAM260内に記憶される。プロセッサ210は、時間軸シフト済信号内の最新標本と原残差音声信号内の対応する標本との標本ずれ(すなわち、累積シフト)を表わす値 acc-shiftを(RAM260内に)保持する。初期化により、上記状態は、dpm=dp1および、 acc-shift=0を含むように修正される。
【0059】
この1組の条件が与えられると、時間軸シフトプロセッサ200は、適応コードブック補助情報に最も整合する、現時サブフレームの時間軸シフト済残差信号(事情により、次サブフレームの一部)を決定するように動作する。
【0060】
図8および図9は、図6に示されたプロセッサ210の動作を示すフローチャートを示す。図8によれば、プロセッサ210により行われる最初のタスクは、時間軸シフト済残差、波付x(i)が現時サブフレームの終端まで達するか、または、この終端の後まで伸びているかを決定することである。図7に示されているように、時間軸シフト済残差が拡大した範囲は、ポインタdpmにより与えられる。現時サブフレームの終端は、現時サブフレームポインタdp1と固定サブフレーム長subframe-1との和により示される。dpm<dp1+subframe-1のときは、時間軸シフト済残差を拡大するために、追加処理が行われる。上記条件が成立しないときは、現時サブフレームについて追加のシフト処理は必要とされない(ステップ305参照)。追加のシフト処理が必要なときは、プロセッサ210は、原残差音声信号x(i)のセグメント内の最大エネルギ一を決定する。通常、最大エネルギ位置は、有声音のピッチパルスの位置に対応する。しかし、これは、必ずしも、事実ではない。最大エネルギがピッチパルスまたは信号の他の特徴(例えば、エネルギノイズ)に関連するか否かにかかわらず、最大エネルギ位置の探索は、原信号のシフトが原音声内のエネルギ的特徴を適応コードブック補助情報の有意特徴と最も一致するように、行われる。
【0061】
探索されようとする原残差音声信号のセグメントの始まりは、原残差音声信号標本のポインタに関連して定義される。この標本は、シフト済残差信号内のポインタdpmにより特定された標本に対応する。この残差音声信号標本ポインタdpm′は、標本ポインタdpmと、波付x(i)およびx(i)間の累積シフトとの和として決定され、dpm′=dpm+ acc-shiftとなる(ステップ310参照)。ついで、ポインタ offsetにより指定されて、探索されようとする時間間隔の始まりが算出される(ステップ315参照)。ついで、探索されようとする間隔の長さが決定される(ステップ320参照)。
【0062】
ついで、信号x(i)のセグメント内の最大エネルギ位置が決定される(ステップ325参照)。この決定は、標本5個長窓を使用することにより行われる。原残差音声信号のi番目の標本と隣合う中心を有する上記標本5個長窓は、エネルギ算出に使用される原残差音声信号の標本を決定する。標本位置iにおけるエネルギは、窓内の全ての標本の自乗の和によって決定される。(i+1)番目の標本位置におけるエネルギも同一方法で決定される。しかし、窓は、窓の中心位置が(i+1)番目の標本を含むように、標本1個分、時間的に後の方へ移動される。再び、エネルギは、窓内の全ての標本値の自乗の和として決定される。セグメント内の各標本位置のエネルギも同一方法で決定される。現時窓内の標本のエネルギは、直近の過去標本窓のエネルギ−窓外へシフト済標本のエネルギ+窓内へシフト済標本のエネルギとして決定されうる。この方法で決定された最大エネルギを同伴する標本位置は、ポインタlocationにより識別される。
【0063】
原残差信号x(i)のセグメントがセグメント内に最大エネルギを有する標本について探索されると、プロセッサ210は、この最大エネルギ標本が先のサブフレーム内で判断された標本であるか否かを決定する(したがって、最大関心事出はない)。これは、locationがdpm′に先行するか否かを決定することにより行われる(ステップ330参照)。
【0064】
locationがdpm′に先行するときは、他の探索がプロセッサ210により行われる。しかし、この場合、探索されたセグメントは、offset(相対位置)=location+0.75遅延値(ステップ335参照)として指定される標本から始まり、0.5遅延値分持続する。遅延値は、遅延値推定器140により、現時サブフレームM(FBn )の始まり時に妥当な遅延値として与えられる。原残差信号内の諸有意ピッチパルスエネルギ特徴は、多分、一遅延値分距てられるので、新しいoffsetの算出により、探索が前方へ(0.75遅延値)飛越すことができるようになり、多分、0.5遅延値の長さのセグメント内での最大エネルギ特徴を見付けられる。最大エネルギを有する標本位置は、ステップ325に関係して上述した通りに決定される(ステップ345参照)。
【0065】
locationがdpm′に先行しないときは、多分、dpm′後の最初のピッチパルスが見付けられているので、制御の流れは、ステップ350に飛ぶ。
【0066】
ステップ325またはステップ345において決定された最大信号エネルギの位置がdpm′+遅延値となる時は、(確実ではないが)多分、dpm′の後であって、dpm′+遅延値より前に位置するピッチパルスは、プロセッサ210によりこの時刻まで行われた探索により、検出されていない(ステップ350)。この場合、原残差信号の他のセグメントが定められ、このセグメント内で最大エネルギ位置が決定される。ステップ325または345で決定された最大信号エネルギ位置がdpm′+遅延値に先行するときは、制御の流れは、ステップ380に飛ぶ。ステップ350が原残差音声信号の他のセグメントを探索しなければならない結果になったと仮定すれば、このセグメントは、offset=location-1−25遅延値(ステップ355参照)から始まり、長さ=0.5遅延値分前向きシフトする(ステップ360参照)ように決定される。最大エネルギ位置は、ステップ325に関係して上述した通りに決定される。ただし、この位置の標本ポインタは、location 2に記憶される(ステップ365参照)。
【0067】
最大エネルギ位置(location 2)がdpm′より後のときは、location 2は、dpm′より後の最初のピッチパルスの位置を識別し、locationは、location 2に等しくなるように設定される(ステップ370および375参照)。他方、最大エネルギ位置がdpm′の後でないときは、location 2は、dpm′より後の最初のピッチパルスでなく、locationは、ステップ325または345において割当てられた値に設定されたままである(このような状況においては、ポインタであるlocationは、ステップ365での動作により上書きされない。
【0068】
この時点で、原残差信号のセグメント内の最初のピッチパルス(すなわち、最大エネルギ)位置が見付けられる。今度は、この位置を含む原残差信号のセグメントが信号内の標本にある一定のポインタを設定することにより、プロセッサ210により定められる。これらのポインタは、決定されたlocationを含む上記セグメントの始まり(sfstart)と終端(sfend)とを指定する。このセグメントは、後に使用するため、適応コードブック補助情報に最も整合するように原残差信号を調整(すなわち、シフト)する過程の一部として定義される。
【0069】
まず、セグメントポインタの省略時値は、プロセッサ210により設定される。
ポインタsfstartは、dpm′に等しくなるように設定されるので、標本位置は、dpm+ acc-shoftに対応する(ステップ380参照)。sfstartのこの値は、
x(i)と0となる波付x(i)との間の追加累積シフトに対応する。すなわち、
dpm′(=sfstart)から始まる、x(i)の一部を使用しても、原信号とシフト済残差信号との間の累積シフトは、まったく増加しない。
【0070】
ポインタsfendは、location+extraに設定される。extra値は、メモリ(例えば、ROM250)内に記憶された定数であり、標本の一定数(例えば、標本10個)に等しい。extraを使用すれば、原残差音声のピッチパルス(すなわち、最大エネルギ)がこれらのポインタにより識別された原残差音声のセグメントの終端に来ることのないように保証される(ステップ380参照)。
【0071】
ポインタsfendの省略時値は、一定の状況の下で、上書きされうる。sfendの省略時値が、原残差音声のセグメントが適応コードブック補助情報の終端を越えて有意に前向きにシフトすることを意味するときは、ポインタsfendは、dp1′+subframe-1+ extra(ただし、subframe-1は、上述した通り、固定適応コードブックサブフレーム内の標本の数に等しい定数である)で終わるように設定される(ステップ385および390参照)。
【0072】
識別されたピッチパルス(すなわち、主エネルギ)の位置が適応コードブックのサブフレームの終端を有意に越えるときは、sfendの値は、さらに、上書きされうる。このような状況の下では、セグメントは、適応コードブックサブフレーム境界の終端において終ると判断される(ステップ395および400参照)。このようなsfendの定義は、ピッチパルス(すなわち、主エネルギ)位置がセグメントの終端より後になることを意味する。したがって、セグメントは、もはや、ピッチパルスを含まない。
【0073】
この時点で、識別されたピッチパルス(すなわち、最大エネルギ)の位置は、sfstartで始まり、sfend-1で終る標本範囲の外に来るか否かを決定するために、検査される(ステップ405参照)。識別されたピッチパルスの位置が上記標本範囲の外に来るときは、波付x(i)は、acc-shiftを変更することなく、x(i)の帯域限定補間により得られた標本で伸ばしうる(すなわち、制御の流れは、ステップ480に飛びうる)。その他のときは、シフトが行われる(ステップ410〜475参照)。
【0074】
識別されたピッチパルス(すなわち、主エネルギ)の位置が上記範囲の外にないときは、適応コードブック補助情報のL長部(dpmから始まり、dpm+Lで終る)に最も密接に整合する、x(i)の標本(sfstartおよびsfendにより区切られたセグメントに隣合う指定標本範囲内の)L個の集合(すなわち、セグメント)がプロセッサ210により決定される。
【0075】
x(i)の上記L長セグメントは、x(i)の与えられたL長セグメントが山付x(i)のL長部に整合する程度によって、sfstartとsfendとにより区切られたx(i)のセグメントの上記L個の標本からなり、または、sfstartとsfendとに関してシフトされたセグメントの(帯域限定補間により得られた)標本からなる。この決定に関する述語として、可能標本シフトの範囲の制限(ステップ410参照)と標本長Lとが決定される(ステップ415参照)。x(i)のL長セグメントと適応コードブック補助情報、山付x(i)との「密接度」(すなわち、類似度)の決定は、これらの信号の相互相関過程を通じて行われる(差信号または誤差信号のような他の類似度も使用しうることも理解されよう)。山付x(i)のセグメントとの相互相関に使用するためのx(i)のL長セグメントの選択は、図10に関して説明する。
【0076】
図10は、ステップ310〜400に関係して上記した通りに配置された原残差音声信号x(i)のセグメントの一例を示す。セグメントは、標本sfstartから始まり、標本sfendで終る。ピッチパルスは、標本 locationに存在する。標本 location と標本sfendとの距離は、extraに等しい。上述した通り、ポインタsfstartとポインタsfendとにより区切られたセグメント内に入るx(i)の標本は、零シフトに対応する。x(i)のシフト済セグメントは、この零シフト位置との関係で定義される。各シフト済セグメントは、長さLであり、零シフト位置との関係で一定の正数または負数の標本長(または、小数の標本長)から始まる(および終る)換言すれば、各シフト済セグメントは、 ststart+shiftで始まり、 sfend+shiftで終る。図10に示されているように、siftの可能シフト値の範囲は、±limitである。
【0077】
したがって、例えば、一の可能シフト値は、shift=−limitとなる。この場合、このようなシフトで定義されたx(i)のL長セグメントは、位置 sfstart−limitで始まり、位置 sfend−limitで終る。同様に、他の一の可能シフト値は、shift=+limitとなる。この場合、このようなシフトで定義されたx(i)のL長セグメントは、位置 sfstart+limitで始まり、位置 sfend+limitで終る。上述した通り、±limitは、可能シフト範囲を指定する。したがって、sstepの大きさのシフト幅寸法(すなわち、シフト精度)が与えられれば、shiftは、範囲(−limit≦shift≦+limit)内の値を取りうる。シフト幅寸法sstepは、一例として、標本0.5個に設定されうる。小数で表わされるシフトから生じる標本値は、通常の帯域限定補間により決定される。原残差信号x(i)の複数個の2×limit/sstepセグメントは、この方法で定義されうる。全てが±limit内のL長セグメントである。ただし、各セグメントは、その近接セグメントと重なり合うとともに、最近接セグメントから標本sstep2分ずれている。
【0078】
limitとextraの相対寸法は、システム性能に影響する。例えば、extraが小さくなるにつれて、符号化遅延値は、小さくなる。しかし、shiftがx(i)のL長セグメントからピッチパルスを除外する値を取る確率が高くなる。この除外が生じたときは、音声信号中に可聴歪みが生じる。また、除外確率は、limitが大きくなるにつれて高くなる。除外が生じないように保証するのを助けるため、limitの値は、extraの値より小さくするべきである。例えば、extraの値が10のときは、limitの値は、6に設定されうる。
【0079】
上記の通り識別された、x(i)の上記L長セグメントのそれぞれについて、セグメントと適応コードブック補助情報のL長セグメント、山付x(i)との類似度が算出される。この算出は、一例として、相互相関である。各相互相関に使用される適応コードブックセグメントは、dpmで始まり、dpm+Lで終る(図7参照)。相互相関は、sstepに等しいシフト幅寸法で行われる(sstepが非整数値に等しいときは、x(i)および山付x(i)の全てのセグメントについて必要標本値を供給するため、山付x(i)の通常、帯域限定補間が先行して行われる)。各相互相関は、相互相関値(すなわち、類似度)を生じる。このような全ての相互相関は、sstepだけ時間的に距てられた相互相関値集合を形成する。したがって、この集合の各相互相関値は、この値の算出に使用されるx(i)のL長セグメントに対応するshiftと関連する。
【0080】
相互相関値集合が決定されると、適応コードブックセグメントと最大相互相関を有する、原残差信号のセグメントが増大した時間分解能により決定される(ステップ450参照)。一例として、これは、3個の連続相互相関値からなる各集合について2次多項式曲線を決定する(3個の値からなる集合は、その最近接集合から1個の値だけ、ずれている)。集合中のこれら3個の相互相関値の中央値は、上記の通り、シフト済原残差信号に対応する。3個の相互相関値からなる集合(したがって、同伴多項式曲線)は、上記中央値とその同伴シフトとにより識別される。このような各曲線について、最大値とこの最大値位置(loc-max)とが決定される。最大値位置loc-maxが上記3個の値からなる範囲の外に存在するときは、これら3個の値と同伴曲線とは、無視される。最も大きい最大値を有する曲線は、適応コードブック補助情報のセグメントとの最良整合を生じる原残差信号のシフトを識別する。
【0081】
最良整合を生じる原残差信号シフトは、最も大きな最大値を有する多項式曲線の最大値の位置を知ることにより改良される。上記曲線に同伴する、3個の相互相関値の中央値の位置に関して定められた最大値を使用すれば、shiftは、shift=shift+sstep*loc-maxと改良されうる。
【0082】
この時点で、原残差信号の最良シフトが決定されている。ついで、このシフトは、シフト済残差信号、波付x(i)を持続時間Lだけ前向きシフトさせるのに使用されうる。このシフトは既知であるから、原残差信号x(i)とシフト済残差信号、波付x(i)との間の累積シフトは、acc-shift=acc-shift+shiftとして更新される(ステップ475参照)。
【0083】
累積シフトが更新されると、シフト済残差信号x(i)は、acc-shiftを、shift に対応する、原残差信号のセグメントの使用に整合させるために、前向きシフトされる。原残差標本値は、原信号標本時刻においてのみ、入手可能であることに留意してほしい。しかし、原残差信号の最適シフト決定によればアップサンプリングが相互相関の算出前に行われており、(一般的に、非整数である)値loc-maxが決定されている。一般的に、これは、シフト済残差信号、波付x(i)とシフト済残差信号を前向きシフトするのに使用されるべき原残差信号x(i)との間の非整数的標本時刻関係を生じる。したがって、シフト済残差信号の標本と時刻一致する原信号の標本値を供給するために、原信号のL長セグメントの帯域限定補間が使用される。このような時刻一致が行われると、この時刻一致済信号の全ての標本は、既存のシフト済信号と連結されうる(ステップ480参照)

【0084】
制御の流れは、累積シフトを更新することなく、ステップ480に飛び越えることができたことに留意してほしい。この場合、標本L個の長さの原信号は、補間されることにより、シフト済残差信号の標本に、先行シフト済残差セグメントと同一acc-shift値を供給する。
【0085】
いずれの場合にも、dpmは、波付x(i)の前向きシフトを表わすように更新される(ステップ490参照)。
【0086】
図8および図9に示されているように、dpmが更新されると、制御の流れは、
ステップ305に戻る。上述した通り、ステップ305は、シフト済残差信号が現時サブフレームの終端を越えて前向きシフトするのに、追加処理が必要か否かを決定する。追加処理が必要なときは、シフト済残差の追加の前向きシフトが行われるように、再び、制御は、図8および図9に示されたステップ310〜490に示された過程を経る。ステップ310〜490は、ステップ305の条件が満されるまで、繰返される。シフト済残差が現時適応コードブックサブフレームの終端まで、または、越えて前向きシフトされると、適応コードブックサブフレームの終端のポインタは、更新され(ステップ500参照)、原残差の時間軸シフトに伴う処理は、終了する。
【0087】
波付x(i)が時間軸シフトプロセッサ200により決定されると、基準化因数λ(i)がプロセッサ210により、以下の通り決定される。
【0088】
【数13】
Figure 0003770925
【0089】
数式中、波付x(i)および山付x(i)は、サブフレームと等しい長さの信号である。この基準化因数は、山付x(i)に乗じられ、プロセッサ200から出力される。
【0090】
再び図1を参照すれば分るように、波付x(i)と適応コードブック推定値λ(i)・山付x(i)とは、修正された原信号、波付x(i)から推定値λ(i)・山付x(i)を差引く回路160に供給される。結果は、固定確率コードブック検索プロセッサ170に供給される励振残差信号γ(i)となる。
【0091】
コードブック検索プロセッサ170は、因数μ(i)により基準化された全ての固定確率コードブックベクトルz(i)のうち、いずれが最小2乗され聴覚重み付けされた意味で、最も密接にr(i)に整合するかを決定するように、通常通り動作する。選定され基準化された固定コードブックベクトルμ(i)zmin (i)は、基準化された適応コードブックベクトルλ(i)・山付x(i)に追加されることにより、現時再構成音声信号の最良推定値、山付x(i)を生じる。この最良推定値、山付x(i)は、適応コードブックプロセッサ150により、そのメモリ内に記憶される。
【0092】
通常音声符号器の場合のように、適応コードブック遅延値および基準化因数λおよびM、固定確率コードブック指標IFC、および、利得μ(i)および線形予測係数an は、通常符号励振形線形予測復号器(受信器)により、再構成用チャネルを通じて伝送される(図13参照)。この伝送は、上記パラメータをもたらす信号の形を有する。本発明の実施例の作用により(符号化過程においての)誤差が少なくなるので、サブフレーム毎に1回でなく、フレーム毎に1回適応コードブック遅延情報を伝送することが可能である。サブフレーム遅延値は、発信器の遅延値推定器140により行われたのと全く同一の方法で遅延値を補間することにより、受信器側で提供しうる。
【0093】
サブフレーム毎でなくフレーム毎に適応コードブック遅延情報を発信することにより、遅延に伴う必要帯域幅は、有意に削減しうる。
【0094】
図9に示されたステップ475に関連して上述したように、 acc-shiftは、原信号x(i)とシフト済信号、波付x(i)との間の時間的累積シフトを表わす。これらの信号の常に増大する非同期性を防止するため、遅延値推定器140は、時間についてMの計算値を調整しうる。遅延値推定器140により達成されるこの目的に適した調整過程は、図12に関連して説明する。
【0095】
図12は、状態A,BおよびCを有する有限状態機械を示す。この機械の状態は、常に増大する非同期性を防止するために、Mの計算値に対する調整量を表わす。状態間の遷移は、時間軸シフトプロセッサ200により供給される acc-shiftの値に基づく。機械が状態Aの時は、目標遅延値mn (k)を決定するのに使用される遅延値M(FBn+1 )は、調整されない。状態Bのときは、機械は、M(FBn+1 )を以下の通り調整する。
【0096】
【数14】
Figure 0003770925
【0097】
数式中、δは、説明のため、1標本時間に等しい。状態Cのときは、機械は、M(FBn+1 )を以下の通り調整する。
【0098】
【数15】
Figure 0003770925
【0099】
初期状態(A,BまたはC)が与えられると、有限状態機械は、 acc-shiftの値のトラックを保持することにより、動作する。 acc-shiftの値が現時状態と他の状態との間の遷移条件を満すものであるときは、上記他の状態への遷移が生じる。例えば、機械が(遅延値推定器140の説明のための初期状態である)状態Aにあり、−3ms< acc-shift<3msであると仮定すれば、機械は、状態Aのままであり、M(FBn+1 )は、修正されない。 acc-shiftの値が3msより大きいときは、機械は、状態Cへ遷移し、M(FBn+1 )は、 acc-shiftにより示された非同期性を相殺するのを助けるため、1標本時間だけ増加される。他方、状態Aのときに、 acc-shiftが−3msより小さくなるときは、機械は、状態Bへ遷移し、M(FBn+1 )は、非同期性を相殺するのを助けるため、1標本文減少される。この動作は、状態BおよびCについても同様である。
【0100】
他の実施例
図1に示された実施例に対する追加の実施例が図11に示されている。この実施例によれば、試原信号生成器610は、原ディジタル音声信号x(i)を受入れ、複数の試原信号、波付x(i)を生成する。試原信号生成器610は、図1,6,8および9に示されたものと類似の時間軸シフトプロセッサからなる。しかし、この時間軸シフトプロセッサは、試原信号と適応コードブック補助情報との相関を行わない。すなわち、この時間軸シフトプロセッサは、原音声信号x(i)の複数回のシフトに基づいて複数個のL長試原信号を供給するのみである。図10に関連して上述したように、これらの試原信号は、標本sfstartから始まり標本sfendで終るL長セグメントに関係して、±limitの範囲に亘ってシフト幅寸法sstepのシフトにより決定された、原信号のL長セグメントである。試原信号生成器610は、原残差信号と試原信号との相互相関を行わないので、自らは、符号化のための試原信号を選択しない。試原信号生成器610は、試原信号を供給するよりも、むしろ、処理のために符号(すなわち、合成)器620に対して生成する。
【0101】
符号器620は、図14に示された符号励振形線形予測のような従来型合成による分析符号器からなる。合成(すなわち、再構成)原信号、山付x(i)は、適応コードブック出力信号と固定コードブック出力信号の和e(i)+λ(i)x(i−d(i))として図14に示された信号である(図14に示された回路45参照)。符号励振形線形予測符号の分析処理により決定された、(合成信号、山付x(i)が生成される)符号化された信号パラメータは、後の使用のため、RAMに記憶されうる。したがって、符号器620の出力、山付x(i)は、与えられた試原信号、波付x(i)に基づく原信号x(i)の推定値である。ついで、この、原信号の推定値は、推定原信号、山付x(i)と試原信号、波付x(i)との類似度を決定するため、試原信号と比較される。この類似度は、2個の信号間の差(すなわち、誤差)信号E(i)を決定する差回路630に供給される。誤差信号E(i)は、与えられた試原信号に同伴する誤差のトラックを保持する試原信号生成器610に供給される。すべての試原信号が上記の方法で処理されると、試原信号生成器610は、いずれの試原信号、波付x(i)が最高類似度(例えば、最小誤差)を生じたかを決定しうる。ついで、試原信号生成器610は、符号器620に信号を供給することにより、最小誤差を有する試原信号に同伴する、記憶された符号パラメータを使用させる。これらのパラメータは、原信号x(i)の符号化表現として受信器に伝送されうる。
【0102】
当業者であれば、「原」信号、「再構成」信号等の信号について言われたことは、これらの信号のセグメントにも言いうることを理解するであろう。また、与えられた信号がアップサンプリングされるか否かは、その「原」信号、「試原」信号等としての性格を変えない。したがって、例えば、「原信号」に関係して「標本」の語を使用することは、アップサンプリングにより供給された信号の標本値、アップサンプリングの結果でない標本、または、この両方を含みうる。
【0103】
表の説明
上記第1実施例に関係するソフトウェアプログラム集合は、明細書の一部を成す。この集合のすべてのソフトウェアプログラムは、「C」プログラミング言語で書かれている。本発明の具体化は、汎用コンピュータ(例えば、シリコン グラフィックス社から販売されているアイリスインディゴという名のワークステーション上で上記プログラムを実行することにより、行いうる。サブルーチン「cshiftframe」および「modifyorig」は、全体として、図8および図9に示された関数に対応する。
【0104】
【表1】
Figure 0003770925
【0105】
【表2】
Figure 0003770925
【0106】
【表3】
Figure 0003770925
【0107】
【表4】
Figure 0003770925
【0108】
【表5】
Figure 0003770925
【0109】
【表6】
Figure 0003770925
【0110】
【表7】
Figure 0003770925
【0111】
【表8】
Figure 0003770925
【0112】
【表9】
Figure 0003770925
【0113】
【表10】
Figure 0003770925
【0114】
【発明の効果】
本発明によれば、合成による分析の符号化において、必要帯域幅を減らすことができる。また、本発明によれば、原信号の代りに、または、原信号使用の補充として、原信号を変化させた試原信号を使用するので、符号化誤差および必要ビットレートが削減される。音声符号化において、符号化誤差が小さくなれば、長時間予測器遅延情報の伝送頻度を低くすることができ、再構成音声品質の低下がほとんど無い、または、全く無い、遅延値補間が可能となる。本発明は、特に、無線電話網(例えば、セルラー式)および通常電話網のような音声情報通信網に適用されうる。
【図面の簡単な説明】
【図1】本発明の一実施例のブロック線図である。
【図2】開ループ遅延値を推定する相関過程に使用される標本の窓を示すタイミング図である。
【図3】図1に示された実施例に使用される遅延値の時間関係を示すタイミング図である。
【図4】適応コードブックプロセッサの一例を示すブロック線図である。
【図5】図1に示された実施例の適応コードブックの動作について標本時刻関係を示すタイミング図である。
【図6】図1に示された実施例の時間軸シフトプロセッサの一例を示すブロック線図である。
【図7】図6に示された時間シフトの動作について初期条件集合の一例を示すタイミング図である。
【図8】図6に示された時間シフトの動作を示すフローチャートである。
【図9】図6に示された時間シフトの動作を示す、図8に連続するフローチャートである。
【図10】時間シフトにより試原音声信号を生成するのに使用される原音声セグメントを示すグラフである。
【図11】本発明の他の実施例を示すブロック線図である。
【図12】原信号と時間シフト済信号との同時性に関して、遅延値推定器の動作を説明する有限状態機械を示す説明図である。
【図13】図1および図11に示された符号器の実施例に使用される受信器/復号器のブロック線図である。
【図14】従来の符号励振形線形予測符号器のブロック線図である。
【符号の説明】
100 線形予測分析器
120 短時間予測フィルタ
140 遅延値推定器
150 適応コードブックプロセッサ
170 コードブック探索プロセッサ
180 固定コードブック
200 時間軸シフトプロセッサ
610 試信号生成器
620 符号(合成)器
700 固定確率コードブック
730 短時間予測フィルタ−1
750 適応コードブック
760 補間プロセッサ

Claims (22)

  1. a.標本識別基準に基づいて、原信号の標本を識別するステップと、
    b.識別された標本のうちの1個以上の標本を含む、原信号のセグメントを選択して、試原信号を形成するステップと、
    c.複数個の試原信号のそれぞれについて、試原信号と合成信号との類似度を評価するステップと、
    d.評価された類似度に基づいて、符号化に使用される試原信号を決定するステップと、
    e.決定された試原信号に基づいて、原信号の符号化表現を表す信号を生成するステップとからなることを特徴とする信号符号化方法。
  2. 試原信号を分析して該試原信号を表現するパラメータを生成するステップと、
    前記パラメータのうちの1個以上のパラメータに基づいて、原信号を推定する信号を合成するステップとをさらに含むことを特徴とする請求項1に記載の方法。
  3. 前記ステップaは、
    原信号を分析することにより、極大エネルギの位置を決定するステップを含むことを特徴とする請求項1に記載の方法。
  4. 選択される原信号のセグメントは、識別された標本以外の原信号標本からなることを特徴とする請求項1に記載の方法。
  5. 選択されるセグメントは、他の原信号標本に先行する識別された標本からなることを特徴とする請求項4に記載の方法。
  6. 前記ステップbは、
    原信号の1個以上の標本に関して時間軸シフトを決定するステップと、
    前記時間軸シフトに基づいて、原信号標本集合を決定するステップとを含むことを特徴とする請求項1に記載の方法。
  7. 前記ステップcは、
    試原信号と合成信号との相互相関を形成するステップを含むことを特徴とする請求項1に記載の方法。
  8. 前記ステップdは、
    評価された複数の類似度の比較に基づいて、前記複数個の試原信号のうちから試原信号を選択するステップを含むことを特徴とする請求項1に記載の方法。
  9. 前記ステップdは、
    f.評価された複数の類似度の比較に基づいて、試原信号を生成するステップを含むことを特徴とする請求項1に記載の方法。
  10. 前記ステップfは、
    複数個の試原信号類似度のうちから、実質的最大類似度を決定するステップと、
    実質的最大類似度をもたらす時間軸シフトを決定するステップとを含むことを特徴とする請求項9に記載の方法。
  11. 前記ステップfは、
    形成された試原信号と時間軸シフトとに基づいて、試原信号用標本値を決定するステップをさらに含むことを特徴とする請求項10に記載の方法。
  12. 前記ステップfは、
    原信号と時間軸シフトとに基づいて、試原信号用標本値を決定するステップをさらに含むことを特徴とする請求項10に記載の方法。
  13. 前記ステップeは、
    g.1個以上の決定された試原信号を符号化するステップを含むことを特徴とする請求項1に記載の方法。
  14. 前記ステップgは、
    h.合成による分析符号化を行うステップを含むことを特徴とする請求項13に記載の方法。
  15. 前記ステップhは、
    符号励振形線形予測符号化を行うステップを含むことを特徴とする請求項14に記載の方法。
  16. a.標本識別基準に基づいて、原信号の標本を識別する手段と、
    b.識別された標本のうちの1個以上の標本を含む、原信号のセグメントを選択して、試原信号を形成する手段と、
    c.複数個の試原信号のそれぞれについて、試原信号と合成信号との類似度を評価する手段と、
    d.評価された類似度に基づいて、符号化に使用される試原信号を決定する手段と、
    e.決定された試原信号に基づいて、原信号の符号化表現を表す信号を生成する手段とからなることを特徴とする信号符号化装置。
  17. 試原信号を分析して該試原信号を表現するパラメータを生成する手段と、
    前記パラメータのうちの1個以上のパラメータに基づいて、原信号を推定する信号を合成する手段とをさらに含むことを特徴とする請求項16に記載の装置。
  18. 前記手段aは、
    原信号を分析することにより、極大エネルギの位置を決定する手段を含むことを特徴とする請求項16に記載の装置。
  19. 前記手段bは、
    原信号の1個以上の標本に関して時間軸シフトを決定する手段と、
    前記時間軸シフトに基づいて、原信号標本集合を決定する手段とを含むことを特徴とする請求項16に記載の装置。
  20. 前記手段eは、
    g.1個以上の決定された試原信号を符号化する手段を含むことを特徴とする請求項16に記載の装置。
  21. 前記手段gは、
    h.合成による分析符号化を行う手段を含むことを特徴とする請求項20に記載の装置。
  22. 前記手段hは、
    符号励振形線形予測符号化を行う手段を含むことを特徴とする請求項21に記載の装置。
JP34203493A 1992-12-14 1993-12-14 信号符号化方法とその装置 Expired - Lifetime JP3770925B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US99030992A 1992-12-14 1992-12-14
US990309 1992-12-14

Publications (2)

Publication Number Publication Date
JPH06214600A JPH06214600A (ja) 1994-08-05
JP3770925B2 true JP3770925B2 (ja) 2006-04-26

Family

ID=25536013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34203493A Expired - Lifetime JP3770925B2 (ja) 1992-12-14 1993-12-14 信号符号化方法とその装置

Country Status (6)

Country Link
EP (1) EP0602826B1 (ja)
JP (1) JP3770925B2 (ja)
CA (1) CA2102080C (ja)
DE (1) DE69326126T2 (ja)
ES (1) ES2136649T3 (ja)
MX (1) MX9307743A (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5704003A (en) * 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
CA2213909C (en) * 1996-08-26 2002-01-22 Nec Corporation High quality speech coder at low bit rates
FI113903B (fi) * 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
JP4857468B2 (ja) 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP4857467B2 (ja) * 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP3888097B2 (ja) 2001-08-02 2007-02-28 松下電器産業株式会社 ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置
CA2365203A1 (en) 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
DE602004030594D1 (de) * 2003-10-07 2011-01-27 Panasonic Corp Verfahren zur entscheidung der zeitgrenze zur codierung der spektro-hülle und frequenzauflösung
FI118704B (fi) 2003-10-07 2008-02-15 Nokia Corp Menetelmä ja laite lähdekoodauksen tekemiseksi
US8744091B2 (en) * 2010-11-12 2014-06-03 Apple Inc. Intelligibility control using ambient noise detection
KR102446441B1 (ko) * 2012-11-13 2022-09-22 삼성전자주식회사 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8902347A (nl) * 1989-09-20 1991-04-16 Nederland Ptt Werkwijze voor het coderen van een binnen een zeker tijdsinterval voorkomend analoog signaal, waarbij dat analoge signaal wordt geconverteerd in besturingscodes die bruikbaar zijn voor het samenstellen van een met dat analoge signaal overeenkomend synthetisch signaal.
US5323486A (en) * 1990-09-14 1994-06-21 Fujitsu Limited Speech coding system having codebook storing differential vectors between each two adjoining code vectors
ES2115646T3 (es) * 1991-10-25 1998-07-01 At & T Corp Metodo y aparato generalizados de codificacion vocal mediante analisis por sintesis.

Also Published As

Publication number Publication date
CA2102080C (en) 1998-07-28
CA2102080A1 (en) 1994-06-15
ES2136649T3 (es) 1999-12-01
MX9307743A (es) 1994-06-30
DE69326126T2 (de) 2000-07-06
EP0602826A2 (en) 1994-06-22
EP0602826A3 (en) 1994-12-07
EP0602826B1 (en) 1999-08-25
JPH06214600A (ja) 1994-08-05
DE69326126D1 (de) 1999-09-30

Similar Documents

Publication Publication Date Title
JP3359506B2 (ja) 改良型弛緩コード励起線形予測コーダ
KR100546444B1 (ko) 씨이엘피 음성코더를 위한 이득양자화
US6427135B1 (en) Method for encoding speech wherein pitch periods are changed based upon input speech signal
AU2002350340B2 (en) Signal modification method for efficient coding of speech signals
US6345248B1 (en) Low bit-rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
JP5978218B2 (ja) 低ビットレート低遅延の一般オーディオ信号の符号化
KR100426514B1 (ko) 복잡성이감소된신호전송시스템
EP0718822A2 (en) A low rate multi-mode CELP CODEC that uses backward prediction
KR100488080B1 (ko) 멀티모드 음성 인코더
JP2707564B2 (ja) 音声符号化方式
JP3770925B2 (ja) 信号符号化方法とその装置
EP0450064B1 (en) Digital speech coder having improved sub-sample resolution long-term predictor
EP0415675B1 (en) Constrained-stochastic-excitation coding
US6169970B1 (en) Generalized analysis-by-synthesis speech coding method and apparatus
KR20040042903A (ko) 일반화된 분석에 의한 합성 스피치 코딩 방법 및 그방법을 구현하는 코더
KR100455970B1 (ko) 복잡성이감소된신호전송시스템,전송기및전송방법,인코더및코딩방법
KR19990007817A (ko) 복잡성이 감소된 합성 필터가 있는 씨이엘피 스피치 코더
KR100409166B1 (ko) 지연 윤곽 조정을 사용하여 정보 신호를 코딩하는 방법 및장치
US5806027A (en) Variable framerate parameter encoding
US4945567A (en) Method and apparatus for speech-band signal coding
JPH1097294A (ja) 音声符号化装置
JP3168238B2 (ja) 再構成音声信号の周期性を増大させる方法および装置
JP3662597B2 (ja) 一般化された合成による分析音声符号化方法と装置
JP3089967B2 (ja) 音声符号化装置
JPH08185199A (ja) 音声符号化装置

Legal Events

Date Code Title Description
A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060208

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100217

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100217

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110217

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120217

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130217

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140217

Year of fee payment: 8

EXPY Cancellation because of completion of term