JP2002525662A - 遅延輪郭調整を利用して情報信号を符号化する方法および装置 - Google Patents

遅延輪郭調整を利用して情報信号を符号化する方法および装置

Info

Publication number
JP2002525662A
JP2002525662A JP2000570765A JP2000570765A JP2002525662A JP 2002525662 A JP2002525662 A JP 2002525662A JP 2000570765 A JP2000570765 A JP 2000570765A JP 2000570765 A JP2000570765 A JP 2000570765A JP 2002525662 A JP2002525662 A JP 2002525662A
Authority
JP
Japan
Prior art keywords
delay
information
contour
information signal
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000570765A
Other languages
English (en)
Inventor
ジェイムズ・ピー・アシュレイ
ウェイミン・ペング
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JP2002525662A publication Critical patent/JP2002525662A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 開ループ遅延輪郭推定器(204)は、情報信号の符号中に遅延情報を生成する。遅延輪郭は、サブフレーム単位で誤差最小化条件に従って調整され、それにより真の遅延輪郭のより正確な推定が可能になる。遅延輪郭復元ブロック(211)は、情報信号を復元する際に、デコーダにおいて遅延情報を利用する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】
本発明は、一般に、通信システムに関し、さらに詳しくは、かかる通信システ
ムにおいて情報信号を符号化することに関する。
【0002】
【従来の技術】
デジタル音声圧縮システムは、一般に入力信号の基本周波数の推定を必要とす
る。通常、基本周波数f0はピッチ遅延(pitch delay)τ0(「ラグ(lag)」ともい
う)について推定される。この2つは次式によって関連付けられる:
【0003】
【数1】
【0004】 ここで、サンプリング周波数fsは、電話グレードの用途では一般に8000H
zである。
【0005】 音声信号は一般に非固定であるので、フレームという有限長ベクトルに分割さ
れ、各フレームは準固定(quasi-stationary)であると想定される。音声信号を記
述するパラメータは、関連フレーム長間隔で更新される。本来のCELP(Code
Excited Linear Prediction)アルゴリズムは、ピッチ周期(pitch period)(いわ
ゆる、LTP(Long Term Prediction)を利用する)情報をより短いサブフレーム
間隔で更新し、それによりフレームからフレームへのより滑らかな遷移を可能に
する。また、τ0は開ループ方法を利用して推定できるが、より良好な性能は閉
ループ方法を利用して達成されることを留意されたい。閉ループ方法では、サブ
フレーム単位でt0のあらゆる値(一般に、20〜147の整数)の徹底的な検
索を行い、最小誤差条件を満たす値を選択する。
【0006】 この方法に対する改善策では、τ0が整数プラス分数の値をとることを許す。
この方法の実用的な実施の一例は、GSMハーフ・レート音声コーダにみること
ができ、これを図1に示す。ここで、21から22−2/3の範囲内のラグは1
/3サンプル分解能(sample resolution)が許され、23から34−5/6の範
囲内のラグは1/6サンプル分解能が許され、以下同様である。検索複雑さを低
く抑えるために、開ループおよび閉ループ方法の組合せが用いられる。開ループ
方法は、自己相関ピーク・ピッキング・アルゴリズム(autocorrelation peak pi
cking algorithm)を利用して、整数ラグ候補リストを生成する。次に、閉ループ
方法は、最適な分数ラグ値について、整数ラグ候補の近傍における許容ラグを検
索する。さらに、サブフレーム2,3,4のラグは、直前のサブフレームからの
差に基づいて符号化される。これにより、ラグ・パラメータの高いフレーム内相
関(intra-frame correlation)が存在するので、ラグ情報をより少ないビットを
利用して符号化できる。それでも、GSM HRコーデックは、ピッチ周期情報
を伝達するために、20ms毎に全部で8+(3x4)=20ビット(1.0k
bps)を利用する。
【0007】 ピッチ周期情報のビット・レートを低減するために、通常のサブフレーム分解
能ではなく、フレーム毎に1回だけピッチ情報を符号化できる(7ビットのみを
利用する−>350bps)補間方法が開発されている。この方法は、RCEL
P(relaxed CELP)として知られ、符号分割多元接続(CDMA)ワイヤレス電話
システム用に近年採用されたEVRC(enhanced variable rate codec)の基盤と
なっている。基本原理は次の通りである。
【0008】 ピッチ周期は、現フレームの最後において中心にある解析窓(analysis window
)について推定される。次に、ラグ(遅延)輪郭(contour)が生成され、これは現
フレームのラグに対する過去のフレームのラグの線形補間からなる。線形予測(
LP:linear prediction)残留信号(residual signal)は、高度な多相フィルタ
リング(polyphase filtering)およびシフト(shifting)方法によって修正され、
これは残留波形を被推定遅延輪郭に一致させるように設計される。この残留修正
プロセスの主な理由は、開ループ整数ラグ推定プロセスの精度制限を考慮するた
めである。例えば、整数ラグが32サンプルであると推定される場合、実際には
真のラグが32.5サンプルであると、残留波形は一つの160サンプル・フレ
ームでは被推定ラグと2.5サンプルもの矛盾が生じる。これは、LTPの性能
を著しく劣化させる。RCELPアルゴリズムは、残留波形(すなわち、低エネ
ルギ)における知覚的に無意味なインスタンス中に残留波形をシフトして、被推
定遅延輪郭を一致させることによって、これを考慮に入れる。被推定遅延輪郭に
一致するように残留波形を修正することにより、LTPの効果は保持され、符号
化利得は維持される。さらに、残留修正に起因する関連知覚劣化は些細になると
主張されている。
【0009】 しかし、この最後の主張はEVRCフル・レート・モード(すなわち、8.5
kbps)などの中ビット・レート・コーデックでは正しいかもしれないが、4
.0kbpsで動作するEVRCハーフ・レート・モードでは明白でなくなる。
これは、関連逆誤差信号(inverse error signal)をモデリングする固定コードブ
ックの相対的な能力のためである。すなわち、LTPの非効率性によって符号化
歪が生じ、これらの歪が固定コードブックによって実質的にモデリングできると
、その最終的効果は、歪がキャンセルされることになる。そのため、EVRCフ
ル・レート・モードは固定コードブック利得および形状についてフレーム毎に1
70ビットのうち120ビットを割当てるが、ハーフ・レート・モードは同一条
件ではフレーム毎に80ビットのうち42ビットしか与えることができない。そ
の結果、固定コードブックがLTPによって生じた符号化歪をモデリングできな
いことに部分的に起因する、不相応な性能劣化が生じる。
【0010】 従って、低レート音声符号化の改善された方法が必要とされる。
【0011】
【好適な実施例の説明】
概略的にいうと、開ループ遅延輪郭推定器は、情報信号の符号化中に遅延情報
を生成する。遅延輪郭はサブフレーム単位で調整され、それにより真の遅延輪郭
のより正確な推定が可能になる。遅延輪郭復元ブロック(delay contour reconst
ruction block)は、情報信号を復元する際にデコーダにおいて遅延情報を利用す
る。音声品質をさらに改善するために、遅延輪郭は累積シフト(accumulated shi
ft)の変化を最小限にするように調整される。
【0012】 より具体的にいうと、情報信号を符号化する方法は、情報信号をブロックに分
割する段階と、情報の現ブロックおよび前ブロックの遅延を推定する段階と、情
報の現ブロックおよび前ブロックの遅延に基づいて遅延輪郭を形成する段階とに
よって構成される。さらに本方法は、長さが1ブロックよりも小さいか等しい間
隔で遅延輪郭の形状を調整する段階と、調整済み遅延輪郭の形状を符号化して、
宛先に送信するのに適したコードを生成する段階とを含む。
【0013】 好適な実施例では、情報信号は、スピーチ信号または音声信号をさらに含んで
構成され、情報信号のブロックは情報信号のフレームをさらに含んで構成される
。また、前遅延と現遅延との間の線形補間は、遅延輪郭を形成するために用いら
れる。長さが1ブロックよりも小さい間隔は、サブフレームの長さをさらに含ん
で構成される。
【0014】 長さが1ブロックよりも小さいか等しい間隔で遅延輪郭の形状を調整する段階
は、現遅延および前遅延における、あるいはその間の点にて調整済み遅延を判定
する段階と、前遅延と調整済み遅延点との間の線形補間を形成する段階とをさら
に含んで構成される。調整済み遅延点を判定する際に、累積シフトの変化は最小
限になる。調整済み遅延を判定する段階は、ターゲット残留信号と元の残留信号
との間の相関を最大にする段階をさらに含んで構成される。前遅延点は、前回調
整された遅延点をさらに含んで構成される。あるいは、遅延輪郭の形状を調整す
る段階は、現遅延および前遅延における、あるいはその間の複数の調整済み遅延
点を判定する段階と、調整済み遅延点の間の線形補間を形成する段階とをさらに
含んで構成される。
【0015】 情報信号を符号化するシステムも開示される。このシステムは、情報信号をブ
ロックに分割する手段と、情報の現ブロックおよび前ブロックの遅延を推定し、
情報の現ブロックおよび前ブロックの遅延に基づいて遅延輪郭を形成し、長さが
1ブロックよりも小さいか等しい間隔で遅延輪郭の形状を調整して、デコーダへ
の送信のための遅延情報を生成する手段とによって構成される。
【0016】 このシステム内では、情報信号はスピーチ信号または音声信号をさらに含んで
構成され、情報信号のブロックは情報信号のフレームをさらに含んで構成される
。遅延情報は、遅延調整インデクスをさらに含んで構成される。またシステムは
、遅延情報を受信し、情報信号の復元で用いられる調整済み遅延輪郭τc(n)
を生成するデコーダを含む。
【0017】 図2は、本発明による遅延輪郭調整を採用する音声圧縮システム200を概略
的に示す。図2に示すように、入力音声信号s(n)は線形予測(LP)解析フ
ィルタ202によって処理され、このフィルタ202は入力音声信号s(n)の
短期スペクトル・エンベロープを平坦にする。LP解析フィルタの出力は、LP
残留ε(n)と表される。LP残留信号ε(n)は、遅延輪郭調整のために用い
られる遅延輪郭τc(n),開ループ・ピッチ予測利得βoLおよび遅延情報を推
定する基盤として、開ループ・ラグ推定器204によって用いられる。RCEL
P残留修正プロセス206は、この情報を利用して、上記のようにLP残留を遅
延輪郭に写像する。次に、修正された残留信号は加重合成フィルタ(weighted sy
nthesis filter)207を通過してから、長期予測部(long term predictor)20
8によって処理され、最終的に固定コードブック210によって処理され、この
固定コードブック210はシンセサイザ励起シーケンスを特徴付ける。デコーダ
側では、固定コードブック・インデクス/利得は励起発生器(excitation genera
tor)212に入力され、この励起発生器212は励起シーケンスを生成する。遅
延情報は遅延輪郭復元ブロック211に入力され、ここで調整済み遅延輪郭τc
(n)が出力される。ブロック211から出力された調整済み遅延輪郭τc(n
)は長期合成フィルタ214に入力され、このフィルタ214は信号を出力し、
ついでこの信号は短期合成フィルタ216に入力され、本発明に従って復元され
た音声出力を生成する。
【0018】 従来技術では、遅延輪郭τc(n)は、図3に示すように、音声の現フレーム
の最後における被推定遅延と、音声の前フレームの最後における遅延との間の線
形補間によって推定される。フレームの最後における点に相当する遅延を推定す
るために、ピッチ解析フレームはこの点の中心になければならない。従って、ピ
ッチ解析フレームの半分は、次のフレームを「ルックアヘッド(look-ahead)」し
なければならない。この実施例におけるピッチ解析フレームは160個のサンプ
ルからなり、これは80サンプル(すなわち、10ms)のルックアヘッド長に
相当する。当業者に明らかなように、80サンプル以上のの遅延は、160サン
プル・フレームを利用して必ずしも分解されないことがある。なぜならば、少な
くとも2つのフル・ピッチ期間が必要なためである。ルックアヘッド(それにそ
の後のアルゴリズム遅延)の量を増加せずに、より長い遅延の推定を考慮するた
めに、与えられたピッチ窓から時間的にオフセットされた補足的なピッチ窓が用
いられる。ただし、簡単にするために、図3では主要なピッチ解析窓のみが示さ
れている。
【0019】 しかし、補間された遅延輪郭でさえも、推定値は実遅延輪郭からかなりの量ず
れることが容易に理解されよう。例えば、フレームm中に遅延輪郭の推定値は、
整数の終点制約(endpoint constraints)が与えられると、できるだけ正確である
が、理解されるように、この推定値は遅延単位の約1/4以上一貫してずれてい
る。40の遅延では、一つのフレームは1フル・サンプルの誤差を累積し、その
ためLTP効率を低減する。フレームm+1における被推定遅延輪郭は、遅延パ
ラメータの線形補間が実遅延輪郭に存在する変動を十分に分解できないときの例
を示す。
【0020】 前述のように、RCELPアルゴリズムは、遅延輪郭を一致させるように残留
を修正することによって効率を取り戻すが、以降の性能を制限する限界がこのア
ルゴリズムには存在する。例えば、遅延輪郭を一致させるように残留信号をシフ
トすることは、特殊な場合、すなわち、局所残留エネルギが低いときにのみ、行
うこことができる。しかし、これらの場合は、ピッチ周期間の相対的間隔が短く
なるので、高周波数の話者では可能性が低くなる。従って、シフト動作を行う機
会は少なくなる。また、許容される全累積シフトに対して最大限度が設けられ、
その結果、この限度に達すると、アーチファクト(artifacts)が生じることがあ
る。これは、アルゴリズム遅延を低減することが望ましい場合に特に問題となる
。なぜならば、最大許容累積シフトは部分的にルックアヘッド長の関数であるた
めである。
【0021】 アルゴリズム遅延(与えられた入力サンプルが出力にて表される時間として定
義される)は極めて重要なので、ルックアヘッドの長さを低減し、それにより全
アルゴリズム遅延を低減することが望ましい。例えば、GSM(Global System f
or Mobile Communications)用のAMR(Adaptive Multi-Rate)コーデックなどの
音声符号化規格の条件は、アルゴリズム遅延はフレーム長プラス5msを超える
ことはできないと記述している。これは、40サンプルのルックアヘッドに相当
する。本明細書で説明する従来の音声コーダでは、ピッチ解析窓は左に(すなわ
ち、時間的に逆方向)にシフトしなければならない。この場合の問題点は、ピッ
チ解析窓は現フレームの最後においてもはや中心にはなく、フレームの3/4の
ところにある(160のうちのサンプル120)。これは、せいぜい、遅延輪郭
の不連続な推定となる。遅延輪郭における不連続性に伴う問題点は、同等なアル
ゴリズムの向上したルックアヘッド仕様で得られるであろう音声品質を得ること
が不可能になることである。
【0022】 本発明の好適な実施例に従って、遅延輪郭のより正確な推定値が生成され、そ
の結果、遅延輪郭に対するLP残留信号ε(n)のより正確な写像が得られる。
これは次のように達成される。
【0023】 従来技術、この場合、TIA文書IS−127において定義されるような音声
符号化では、遅延補間行列(delay interpolation matrix)dは、次のようにサブ
フレーム単位で遅延の補間のための終点(endpoint)を確立するために用いられる
【0024】
【数2】
【0025】 ここで、τ(m)は現フレームの遅延推定値であり、t(m−1)は前フレーム
の遅延推定値であり、m’は現サブフレームであり、jは補間点の開始(beginni
ng),終了(end)および延長(extension)部分のインデクスである。これは、IS
−127における式4.5.4.5−1によって表される。さらに、補間係数(i
nterpolation coefficients)は次式によって与えられる:
【0026】
【数3】
【0027】 これは、各サブフレーム補間の0/160,53/160,(53+53)/1
60および160/160終点分数(endpoint fractions)を反映する。これは、
IS−127における式4.5.4.5−2によって表される。終了における1
.0の重複は、フレームの終了以降への推定値の延長に起因する。各サブフレー
ムの遅延輪郭は、次式のようにサンプル単位で厳密な線形補間として計算される
【0028】
【数4】
【0029】 ここで、Lはサブフレーム・サイズである。これは、IS−127における式4
.5.5.1−1によって表される。
【0030】 本発明に従って、遅延輪郭はサブフレーム単位で調整され、真の遅延輪郭の精
細で、より高分解能な推定を可能にする。サブフレーム単位で終点を調整するプ
ロセスは、累積シフトτaccを伴う最小化手順からなる。基本的には、累積シフ
トは、現残留ターゲット信号を生成するために用いられるIS−127における
式4.5.6.1−1に定められるように、過去の修正済み残留信号の非最適ワ
ーピング(non-optimal warping)の結果として変化する。入力短期残留信号ε(
n)が、遅延輪郭の関数であるターゲット残留信号(n)に十分一致しない場合
、残留信号は遅延輪郭に一致するようにシフトしなければならない。しかし、過
剰なシフトは、遅延輪郭が適切に推定されないことを示し、そのため劣化した音
声品質が生じる。従って、本発明は、本発明に従って累積シフトの変化を最小限
にするように遅延輪郭を調整することによって、音声品質を改善する。さらに、
調整済み遅延輪郭を判定する方法は、累積シフトを一定の値に保持することがで
きない場合には、累積シフトの絶対値を低減する方向のバイアスを含む。
【0031】 図4は本発明による遅延輪郭調整プロセスのフローチャートを概略的に示す。
調整済み遅延輪郭演算の一部として、プロセスはまず、当技術分野で周知であり
、またIS−127のセクション4.2.3において説明されるように、ステッ
プ301にて現フレームの遅延を算出する。あるいは、本発明の譲受人に譲渡さ
れ、本明細書に参考として含まれる、米国特許出願第09/086,509号 "
Method and Apparatus for Estimating the Fundamental Frequency of a Signa
l"において説明される方法も、ステップ301を実行するために有利に利用でき
る。次に、ステップ302において、上の数式2と同様な次式において与えられ
る条件付線形補間(conditional linear interpolation)によって、現サブフレー
ムm’について遅延輪郭終点が算出される:
【0032】
【数5】
【0033】
【数6】
【0034】 ここで、Δadjは前フレームの遅延調整ファクタであり、現フレームについては
ステップ305〜310において算出される。遅延調整ファクタの初期値は0で
ある。数式2と数式5および数式6との間の基本的な相違点は次の通りである: (a)第1サブフレーム(m’=0,数式5)について、補間の終点は[
τ(m-1)+Δadj,τ(m)]であって、[τ(m-1),τ(m)]ではない
。これにより、フレームからフレームへの遅延調整連続性が可能になる。
【0035】 (b)第1サブフレーム以外のサブフレーム(1<=m’<3,数式6)
について、フレーム遅延が大きな幅で変化すると、ディフォルト遅延値はτ(m
)+Δadjであり、τ(m)ではない。
【0036】 (c)第1サブフレーム以外のサブフレーム(1<=m’<3,数式6)
について、フレーム遅延が補間限度内の場合、遅延終点は前回の遅延調整値によ
って全体的にシフトされる。 現サブフレームm’の遅延インクリメント・ファクタΔ(m’)は、次式に従
ってステップ303において算出される:
【0037】
【数7】
【0038】 ここで、α=0.007はステップ・サイズ定数である。この式は、平均サブフ
レーム遅延に比例するインクリメント・ファクタを生成する。
【0039】 次に、ステップ304において、次式に従って遅延調整バイアス・セレクタb
が算出される。
【0040】
【数8】
【0041】 バイアス・セレクタbの目的は、遅延軌跡(delay trajectory)に基づき遅延調整
ファクタに対しより多くの量子化レベルを可能にすることである。例えば、好適
な実施例では、遅延調整パラメータはサブフレーム毎に2ビットからなり、これ
は4つの個別の遅延調整値に相当する。バイアス・セレクタを用いると、遅延調
整候補の値は次のようにできる:
【0042】
【数9】
【0043】 そこで、b=0のバイアス・セレクタは、負の調整方向にバイアスされた値を利
用し、b=1のバイアス・セレクタは、正の調整方向にバイアスされた値を利用
する。この方式には2つの利点がある。第1に、0の調整を常に表すことができ
、これは遅延輪郭は強制調整がなくても十分正確であることを意味する。第2に
、ダイナミック・レンジがより高い確率の値に向かってより大きくなるように、
バイアスを設定できる。すなわち、τ(m)>τ(m−1)の遅延は、遅延輪郭
における上昇傾向(upward trend)を示唆する。従って、遅延における上昇傾向を
より正確に表す、すなわちΔadj∈{0,δ,−δ,2δ}となるためには、正
側のより大きなダイナミック・レンジを許すようにb=1のバイアスが選択され
る。同様な論理は、下降傾向(downward trend)についても利用される。
【0044】 ステップ305〜310は、最適な遅延調整ファクタの判定に関連し、これは
本発明に従って、情報の与えられたサブフレームについて累積シフトの変化を最
小限にする手順によって構成される。各候補遅延輪郭は、上の数式4と同様な次
式に従ってステップ305において算出される:
【0045】
【数10】
【0046】 ただし、ここではΔadj(b)は上の数式9にて説明した要素を有する。候補遅
延輪郭が算出されると、累積シフトは、従来技術において、特にIS−127の
セクション4.5.6 "Modification of the Residual"において説明されるよ
うに、ステップ306にて更新される。次に、累積シフトの最小変化に関連する
パラメータはステップ307〜ステップ309において保存され、この処理ルー
プは、ステップ310において全ての調整済み遅延輪郭候補がなくなると終了す
る。
【0047】 最適なサブフレーム遅延輪郭が見つかると、最適な遅延調整Δadj(b)に対
応するテーブル・インデクスはステップ311においてデコーダに送信され、そ
してステップ312における残留の修正およびステップ313における適応型コ
ードブック寄与(adaptive codebook contribution)の生成を含む、サブフレーム
符号化プロセスの残りの部分が実行される。その後、ステップ314に示すよう
に、プロセスは残りのサブフレームについて繰り返される。
【0048】 ここで、情報の与えられたサブフレームについて、数式10からの全ての調整
済み遅延輪郭候補が同じ累積シフト変化を生じる可能性があることに留意された
い。この場合、検索候補の配列のため、0の調整が選択される。数式9からわか
るように、Δadj(b)=0の値は最初に調べられ、以降の候補は、選択される
ためには、累積シフトの絶対変化を低減しなければならないように、最小化が構
築される。また、候補は0から開始して、絶対値が漸次増加するするように配列
されることに留意されたい。これは、遅延調整の絶対変化を最小値に保持する方
向のバイアスを形成する。さらに、好適な実施例は、ステップ307において追
加の最小化論理を実施するので、2つの調整済み遅延輪郭候補により、極性は反
対であるが同じ累積シフト絶対変化が得らる場合には、絶対累積シフトを低減す
る遅延調整候補が選択される。一例として、現累積シフトが5であり、Δadj
{0,δ}の調整の結果、累積シフトの変化がそれぞれ+1,−1となる場合、
正味累積シフトは6ではなく4となるので、Δadj=δの値が選ばれる。絶対累
積シフトを最小にする方向のこのバイアスは、(従来の技術で説明したように)
シフト・バッファの飽和の可能性を低減することにより、また元の音声と修正済
み音声との間のスキュー(skew)を最小限にすることによって、音声品質を改善す
る。
【0049】 本発明による復号および遅延輪郭復元のプロセスを図5に示す。このプロセス
は、最小化手順が実施されない点を除いて、図4の符号化プロセスで説明したよ
うな機能ブロックの多くからなる。必要なのは、厳密にコーダにおいて行われる
調整済み遅延輪郭を復元するための遅延および遅延調整インデクスである。図5
に示すプロセスは、ステップ401においてフレーム遅延がコーダから受信され
ると開始する。ステップ402において、遅延輪郭終点が算出され、次にステッ
プ403において、遅延インクリメント・ファクタが算出される。ステップ40
4において、遅延調整バイアスが算出され、ステップ405において、図2にお
ける信号遅延情報によって表される遅延調整インデクスがコーダから受信される
。ステップ406において、調整済み遅延輪郭τc(n)が算出され、ステップ
407において、調整済み遅延輪郭τc(n)を利用する適応型コードブック寄
与が生成される。ステップ408において、デコーダは復号すべき更なるサブフ
レームを探し、このプロセスは繰り返される。
【0050】 図6は、本発明による遅延輪郭調整プロセスの結果を概略的に示す。図3の従
来の遅延輪郭と比較して、本発明はより高い分解能および精度で実遅延輪郭を追
跡することが明白である。本発明と他のサブフレーム分解能遅延符号化方法(G
SMハーフ・レートなど)との間の一つの著しい相違点は、本発明は線形補間に
より遅延輪郭形状を保持するということである。サブフレーム分解能を利用する
他の方法は、一定の遅延値しか表さない。
【0051】 また、最小化手順において、更新された累積シフトを判定するために、IS−
127のセクション4.5.6を実行することが規定されていることを留意され
たい。このプロセスは比較的複雑であるため、所望の結果を生成するために必要
な項のみを計算して、不要な演算を省くことが有利である。また、ターゲット残
留信号(IS−127における式(4.5.6.1−1)を参照)と、サブフレ
ーム残留信号(IS−127における式(4.5.6.2−1を参照)との間の
相互相関の最大化など、別の選択条件を利用することも可能である。さらに、他
の方法は、特定の状況を改善するためのさまざまな方法で、遅延輪郭を調整でき
る。例えば、このような方法では、好適な実施例において説明したように両方の
終点を調整するのではなく、サブフレーム遅延の一つの終点のみを調整すること
を含んでもよい(ただしそれに限定されない)。また、他の方法では、最小二乗
や、他の多項式に基づく手法など、より高次元な曲線の当てはめ(curve fitting
)を含んでもよい。
【0052】 本発明について特定の実施例を参照して具体的に図説してきたが、当業者であ
れば、形式および詳細のさまざまな変更は本発明の精神および範囲から逸脱せず
に可能なことが理解されよう。従って、好適な実施例に対する上記の変形は全て
、本発明の範囲内であるとみなされる。特許請求項におけるすべての手段または
段階の対応する構造,材料,行為および同等、ならびに機能要素は、具体的に請
求される他の請求要素と組合せて機能を実行するための任意の構造,材料または
行為を含むものとする。
【図面の簡単な説明】
【図1】 GSMハーフ・レート音声コーダの分数ラグ値を概略的に示す。
【図2】 本発明による遅延輪郭調整を採用する音声圧縮システムを概略的
に示す。
【図3】 従来技術において周知な遅延輪郭の推定を概略的に示す。
【図4】 本発明による遅延輪郭調整プロセスのフローチャートを概略的に
示す。
【図5】 本発明による復号および遅延輪郭復元プロセスを概略的に示す。
【図6】 本発明による遅延輪郭調整プロセスの結果を概略的に示す。
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5D045 CA01 5J064 AA01 BB01 BB03 BC02 BC11 BD02

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 情報信号を符号化する方法であって: a)前記情報信号をブロックに分割する段階; b)情報の現ブロックおよび前ブロックの遅延を推定する段階; c)情報の現ブロックおよび前ブロックの遅延に基づいて、遅延輪郭を形成す
    る段階; d)長さが1ブロックよりも小さいか等しい間隔で、前記遅延輪郭の形状を調
    整する段階; e)前記調整済み遅延輪郭の形状を符号化して、宛先に送信するのに適した符
    号を生成する段階; によって構成されることを特徴とする方法。
  2. 【請求項2】 前記情報信号は、スピーチ信号または音声信号をさらに含ん
    で構成されることを特徴とする請求項1記載の方法。
  3. 【請求項3】 前記情報信号のブロックは、情報信号のフレームをさらに含
    んで構成されることを特徴とする請求項1記載の方法。
  4. 【請求項4】 前記遅延輪郭を形成するために、前記前遅延と前記現遅延と
    の間の線形補間を利用することを特徴とする請求項1記載の方法。
  5. 【請求項5】 長さが1ブロックよりも小さい前記間隔は、サブフレームの
    長さをさらに含んで構成されることを特徴とする請求項1記載の方法。
  6. 【請求項6】 前記遅延輪郭の形状を調整する前記段階は: a)前記現遅延および前遅延における、あるいはその間の複数の調整済み
    遅延点を判定する段階;および b)前記調整済み遅延点の間で線形補間を形成する段階; をさらに含んで構成されることを特徴とする請求項1記載の方法。
  7. 【請求項7】 前記調整済み遅延点を判定する際に、累積シフトの変化が最
    小限に抑えられ、前記累積シフトの変化を最小限に抑えることは、前記累積シフ
    トを最小にする方向のバイアスをさらに含んで構成されることを特徴とする請求
    項6記載の方法。
  8. 【請求項8】 情報信号を符号化するシステムで、前記システムはコーダを
    含む、システムであって: 前記情報信号をブロックに分割する手段; 情報の現ブロックおよび前ブロックの遅延を推定し、かつ情報の現ブロックお
    よび前ブロックの遅延に基づいて遅延輪郭を形成して、長さが1ブロックよりも
    小さいか等しい間隔で前記遅延輪郭の形状を調整して、デコーダへの送信に適し
    た遅延情報を生成する手段; によって構成されることを特徴とするシステム。
  9. 【請求項9】 前記情報信号は、スピーチ信号または音声信号をさらに含ん
    で構成され、前記情報信号のブロックは、情報信号のフレームをさらに含んで構
    成されることを特徴とする請求項8記載のシステム。
  10. 【請求項10】 前記遅延情報を受信し、かつ前記情報信号の復元の際に用
    いられる調整済み遅延輪郭τc(n)を生成するデコーダをさらに含んで構成さ
    れることを特徴とする請求項8記載のシステム。
JP2000570765A 1998-09-11 1999-08-24 遅延輪郭調整を利用して情報信号を符号化する方法および装置 Pending JP2002525662A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/151,567 1998-09-11
US09/151,567 US6113653A (en) 1998-09-11 1998-09-11 Method and apparatus for coding an information signal using delay contour adjustment
PCT/US1999/019216 WO2000016309A1 (en) 1998-09-11 1999-08-24 Method and apparatus for coding an information signal using delay contour adjustment

Publications (1)

Publication Number Publication Date
JP2002525662A true JP2002525662A (ja) 2002-08-13

Family

ID=22539347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000570765A Pending JP2002525662A (ja) 1998-09-11 1999-08-24 遅延輪郭調整を利用して情報信号を符号化する方法および装置

Country Status (5)

Country Link
US (1) US6113653A (ja)
EP (1) EP1110339A4 (ja)
JP (1) JP2002525662A (ja)
KR (1) KR100409166B1 (ja)
WO (1) WO2000016309A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
GB0008117D0 (en) * 2000-04-03 2000-05-24 Nokia Networks Oy Estimating communication quality
US6879955B2 (en) * 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
US7048956B2 (en) * 2002-03-05 2006-05-23 The Penn State Research Foundation Process for antimicrobial treatment of fresh produce, particularly mushrooms
US7096132B2 (en) * 2002-10-17 2006-08-22 Qualcomm Incorporated Procedure for estimating a parameter of a local maxima or minima of a function
US6873910B2 (en) 2002-10-22 2005-03-29 Qualcomm Incorporated Procedure for searching for position determination signals using a plurality of search modes
GB0307752D0 (en) * 2003-04-03 2003-05-07 Seiko Epson Corp Apparatus for algebraic codebook search
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
US9037456B2 (en) * 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
CN103825675B (zh) * 2014-01-28 2017-10-27 华南理工大学 一种次超声波通信中编码方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197400A (ja) * 1991-07-19 1993-08-06 Motorola Inc 低ビット・レート・ボコーダ手段および方法
JPH05232995A (ja) * 1991-10-25 1993-09-10 American Teleph & Telegr Co <Att> 一般化された合成による分析音声符号化方法と装置
JPH08211895A (ja) * 1994-11-21 1996-08-20 Rockwell Internatl Corp ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法
JPH08254994A (ja) * 1994-11-30 1996-10-01 At & T Corp 分類化及び輪郭の目録(インベントリー)による音声符号化パラメータの配列の再構成
JPH08328588A (ja) * 1995-05-30 1996-12-13 Rockwell Internatl Corp ピッチラグを評価するためのシステム、音声符号化装置、ピッチラグを評価する方法、および音声符号化方法
JPH09185398A (ja) * 1995-09-19 1997-07-15 At & T Corp 改良型弛緩コード励起線形予測コーダ

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5261027A (en) * 1989-06-28 1993-11-09 Fujitsu Limited Code excited linear prediction speech coding system
JPH04115300A (ja) * 1990-09-05 1992-04-16 Nippon Telegr & Teleph Corp <Ntt> 音声のピッチ予測符号化法
JPH04284500A (ja) * 1991-03-14 1992-10-09 Nippon Telegr & Teleph Corp <Ntt> 低遅延符号駆動型予測符号化方法
JPH0573097A (ja) * 1991-09-17 1993-03-26 Nippon Telegr & Teleph Corp <Ntt> 低遅延符号駆動形予測符号化方法
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197400A (ja) * 1991-07-19 1993-08-06 Motorola Inc 低ビット・レート・ボコーダ手段および方法
JPH05232995A (ja) * 1991-10-25 1993-09-10 American Teleph & Telegr Co <Att> 一般化された合成による分析音声符号化方法と装置
JPH08211895A (ja) * 1994-11-21 1996-08-20 Rockwell Internatl Corp ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法
JPH08254994A (ja) * 1994-11-30 1996-10-01 At & T Corp 分類化及び輪郭の目録(インベントリー)による音声符号化パラメータの配列の再構成
JPH08328588A (ja) * 1995-05-30 1996-12-13 Rockwell Internatl Corp ピッチラグを評価するためのシステム、音声符号化装置、ピッチラグを評価する方法、および音声符号化方法
JPH09185398A (ja) * 1995-09-19 1997-07-15 At & T Corp 改良型弛緩コード励起線形予測コーダ

Also Published As

Publication number Publication date
WO2000016309A1 (en) 2000-03-23
KR100409166B1 (ko) 2003-12-12
US6113653A (en) 2000-09-05
EP1110339A4 (en) 2004-09-08
KR20010073149A (ko) 2001-07-31
EP1110339A1 (en) 2001-06-27

Similar Documents

Publication Publication Date Title
KR100979090B1 (ko) 피치 지연 윤곽부 조절을 사용하여 정보 신호를 코딩하기위한 방법 및 장치
US7680651B2 (en) Signal modification method for efficient coding of speech signals
US7191120B2 (en) Speech encoding method, apparatus and program
US7222069B2 (en) Voice code conversion apparatus
JP4931318B2 (ja) スピーチ符号化における前方向誤り訂正
CN110931025B (zh) 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法
US6188979B1 (en) Method and apparatus for estimating the fundamental frequency of a signal
JP2004038211A (ja) 音声符号化方法及び装置
JP7202161B2 (ja) 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
JPH01155400A (ja) 音声符号化方式
JP2002525662A (ja) 遅延輪郭調整を利用して情報信号を符号化する方法および装置
JP3770925B2 (ja) 信号符号化方法とその装置
EP1114415B1 (en) Linear predictive analysis-by-synthesis encoding method and encoder
JPH05232995A (ja) 一般化された合成による分析音声符号化方法と装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091116

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100216

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100223

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100316

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100324

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100416

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100517

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110104