JP2002503835A - 固定コードブックにおける最適のベクトルの高速決定のための方法および装置 - Google Patents

固定コードブックにおける最適のベクトルの高速決定のための方法および装置

Info

Publication number
JP2002503835A
JP2002503835A JP2000531839A JP2000531839A JP2002503835A JP 2002503835 A JP2002503835 A JP 2002503835A JP 2000531839 A JP2000531839 A JP 2000531839A JP 2000531839 A JP2000531839 A JP 2000531839A JP 2002503835 A JP2002503835 A JP 2002503835A
Authority
JP
Japan
Prior art keywords
vector
gain
impulse response
speech
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000531839A
Other languages
English (en)
Other versions
JP3425423B2 (ja
Inventor
ロズデスツベンスキー・ジュリー
ディアチェンコ・ジュリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JP2002503835A publication Critical patent/JP2002503835A/ja
Application granted granted Critical
Publication of JP3425423B2 publication Critical patent/JP3425423B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

(57)【要約】 【課題】 計算機サイクルが少なく高い精度を維持できかつ高速のCELPアルゴリズムを実現する。 【解決手段】 CELPアルゴリズムのための方法は、信号プリプロセッサにおいてサンプル音声s{n}を前処理して(101)少なくともノイズろ波された音声出力ベクトルおよびチャネルノイズ推定を出力する段階、前記ノイズろ波された音声出力ベクトルのモデルパラメータ推定を行い(102)予測残余および長時間予測利得を出力する段階、前記予測残余を符号化して(104〜120)フィルタのインパルス応答関数の指数およびベクトル利得を含む適応コードブックベクトルを出力する段階、符号化された音声パケットをフォーマットする段階(121)を含む。前記符号化する段階(104〜120)は以下の順序で、理論的な最適値に近いスタート値を選択することにより前記利得を決定する段階(104〜109)、および再帰的修正相関ベクトルに基づき推定関数の極値を連続的にサーチすることによるベクトル最適化(110〜120)の段階を具備する。

Description

【発明の詳細な説明】
【0001】
【発明の分野】
本発明は音声符号化アルゴリズムのための方法および装置に関し、特に符号励
振線形予測(code excited linear predictive
:CELP)符号化アルゴリズムのための方法および装置に関する。CELPア
ルゴリズムは、例えば、セルラシステムにおけるベースステーションと移動ステ
ーションとの間の、2方向音声通信において使用される。CELPアルゴリズム
のための方法は信号プリプロセッサにおいてサンプルされた音声s{n}を前処
理して(pre−processing)少なくともノイズろ波された音声出力
ベクトルおよびチャネルノイズ推定を出力する段階、予測誤差または残余(re
sidual)および長時間(long term)予測利得を出力するように
前記ノイズろ波された音声出力ベクトルのモデルパラメータ推定を行う段階、予
測誤差を符号化してフィルタのインパルス応答関数の指数およびベクトル利得を
含む適応コードブックベクトルを出力する段階、および前記符号化された音声パ
ケットをフォーマットまたは形成する段階を含む。
【0002】 CELPアルゴリズムは中間のビットレート、すなわち、4800または96
00bps、において良好な音声品質を提供することが見出されている。しかし
ながら、励振信号のベクトル量子化は極めて高い計算機的な努力を必要とする。
重複(overlapping)コードブックベクトルの使用を含むベクトル量
子化をスピードアップするためのいくつかの提案が行なわれてきている。
【0003】
【発明の背景】
符号励振リニア予測(CELP)アルゴリズムはエス・シンハルおよびビー・
エス・アタルによる、「低ビットレートにおける多パルスLPC符号器の性能改
善(Improving performance of multi−pul
se LPC coders at low bit rates)」、Pro
c.Int.Conf.、音響、音声および信号処理、(サン・ディエゴ)、1
984年、pp.1.3.1−1.3.4;およびダブリュー・ビー・クライジ
ン、ディー・ジェイ・クラシンスキイおよびアール・エイチ・ケッチャムによる 、「CELP音声符号化アルゴリズムのための高速の方法(Fast meth
ods for the CELP speech coding algor
ithm)」、IEEE Trans.、音響、音声および信号処理、Vol.
38,No.8,PP.1330−1342、1990年、に述べられている。
CELP符号化アルゴリズムはサブフレームごとのベースでサンプルされた音声
を処理するために使用される。該音声信号のスペクトルエンベロープは線形予測
技術を使用してその係数が得られるフィルタによって記述される。前記係数は量
子化され、それによって前記フィルタが送信機側および受信機側の双方に関して
構築できる。前記フィルタ係数は合成による分析(analysis−by−s
ynthesis)手順によって決定される。一組のそのような候補の励振シー
ケンスまたはベクトルはコードブックに格納される。最も正確な音声を生成する
ベクトルの指数(index)はチャネルの受信端に送信される。送信側の入力
音声は受信側においてその指数が送信されたベクトルを使用して発生される合成
音声によって回復される。
【0004】 主なタスクは入力音声を最も正確に記述するコードブックにおける最適のベク
トルを見つけることである。高速のベクトル量子化および卓越した合成音声品質
はCELPアルゴリズムを音声符号化の用途にとって魅力的なものにする。スペ
クトル拡散デジタルシステムにおけるCELPアルゴリズムの実施についてはI
S−127標準「強化された可変レートコーデック、広帯域スペクトル拡散デジ
タルシステムのための音声サービスオプション3(Enhanced Vari
able Rate Codec,Speech Service Optio
n 3 for Wideband Spread Spectrum Dig
ital Systems)」、1996年4月19日、セクション4.5.7
「代数的CELP固定コードブック寄与の計算(Computation of
the algebraic CELP Fixed Codebook C
ontribution)」に記載されている。この標準において使用されるコ
ードブックは代数的コードブック(ACELP)構造を備えた固定コードブック
である。
【0005】 前記代数的コードブックにおける最適のコードベクトルを見つけるために、A
CELPコードブックが重み付けされた入力音声と重み付けされた合成音声との
間の平均2乗誤差(MSE)を最小にすることによりサーチされる。言い換えれ
ば、前記コードブックは次の項、
【数1】 T=C /E を最大にすることによってサーチされ、この場合Cはインパルス応答および
知覚領域ターゲット信号(perceptual domain target
signal)の相関であり、かつEはコードブックベクトルのインパルス
応答のエネルギまたは共分散(covariance)であり、これらはともに
位置kにおけるものである。前記コードブックベクトルは一連の単位パルスであ
り、各パルスは前記コードブックにおいて適切な位置にありかつ適切に選択され
た符号を有している。
【0006】 最適の代数的コードブックベクトルを決定するために、前記相関およびエネル
ギ項はパルス位置および符号のすべての可能な組合わせに対して計算されるべき
である。しかしながら、これは禁止されるべきまたは非常に高価なタスクである
。サーチを単純化するために、以下に説明されるようにパルス符号および位置を
サーチするための二つの戦略が使用される。
【0007】 前記パルス符号は適切な基準信号の符号を考慮することにより(閉ループサー
チの外部で)プリセットされる。振幅が、ある位置でのパルスの振幅をその位置
における前記基準信号の符号に等しく設定することによりプリセットされる。こ
の「新しい」構成要素により、修正された相関C′および修正されたエネルギ
′が計算される。
【0008】 上に説明したようにパルス振幅をプリセットすると、最適のパルス位置が効率
的な非網羅的な(non−exhaustive)合成による分析サーチ技術を
使用して決定される。この技術においては、項Tが反復的な「深さ優先(de
pth−first)」ツリーサーチ戦略を使用して少しの割合の位置の組合わ
せに対してテストされる。
【0009】 いったん励振パルスの位置および符号が決定されると、前記「新しい」コード
ブックベクトルは一連の単位パルスとして構築され、各パルスはコードブックに
おける「新しい」位置にある。
【0010】 固定コードブックベクトルの利得はその後次の式によって決定される。
【数2】 g=C/E IS−127標準において提案されたこの固定コードブックサーチアルゴリズ
ムは次のような不都合を有する。
【0011】 前記項T=C /Eは非線形多次元多極値関数(non−linear
multidimensional multi−extremum fun
ction)である。この非線形多次元多極値関数のある極値をサーチするタス
クは、利用可能な計算機的な性能が限られている場合に、組合わせのまたは組合
わせ的な方法(combinatorial way)で解かれ、これは大域的
なもの(global one)よりはむしろローカルな極値(local e
xtremum)を見つける結果となる。
【0012】 最小化関数(minimising function)の計算は非常に時間
を消費しかつ多数の計算サイクルを必要とする。すなわち、IS−127標準に
おいて提案された固定コードブックサーチ方法は各々のトラックにおいてパルス
位置のための線形サーチを想定しかつ1144の計算を必要とする。さらに、T の評価は前記アルゴリズムの複雑さを大幅に増大する除算操作を含む。
【0013】 従って、従来技術の構成よりも高速でありかつ計算サイクルに関して高価でな
く、それでも最大の達成可能な精度を維持するCELPアルゴリズムのための方
法および装置が必要とされる。
【0014】
【発明の概要】
本発明の基礎をなす問題は基本的に独立請求項に記載された特徴的事項を適用
することにより解決される。好ましい実施形態は従属請求項に与えられている。
【0015】 一定の長さを有するフレームに関して音声誤差または残差に対する高速の多パ
ルス符号化アルゴリズムの効率改善の必要性は本発明によって満たされる。請求
項1および請求項8にそれぞれ記載された本発明に係わる方法および装置は前記
アルゴリズムの高速の収斂を与え、それによって最適のベクトルが従来技術より
も効率的にサーチできる。
【0016】 本発明の基礎をなす基本的なアイデアは最適のコードブックベクトルを見つけ
るタスクを以下の二つのサブタスクに分解することである。 符号化パルスに対する振幅利得の計算(第1ステージ)、および 符号化パルスに対する最適のサンプル位置の計算(第2ステージ)。
【0017】 本発明に係わる計算シーケンスは前記IS−127標準による従来技術に記載
されたものと逆であることに注目すべきである。
【0018】 本発明による方法は離散的ソース信号の最適の符号化パルス位置のサーチの多
次元多極値非線形タスクをそれぞれのパルスに対して順次最小化される多次元2
乗形式を有する最適の極値サーチタスクへと低減する。これは本質的に計算時間
を低下させかつより高い符号化精度を提供する。
【0019】 前記第1ステージにおいて、最適のコードベクトル利得“g”が次の式によ
って決定される。
【数3】 N g=a{Σ[x(i)] i=1 N /Σi・[h(N−i+1)]1/2 i=1 この場合、xはソース離散信号(知覚領域ターゲット信号ベクトル)であり、 hは特別関数(フィルタのインパルス応答)であり、 aは実験的に決定された重み係数であり、そして Nはサブフレーム長さである。
【0020】 前記重み係数“a”に対する最適の値は適切な関数“h”および非ゼロコード
ベクトル成分のある与えられた数“n”に対して実験的に決定される。n=8お
よび重み合成フィルタ“hwq”のインパルス応答に対して、値a=2が得られ
た。
【0021】 前記第2ステージにおいては、符号化パルスの最適位置の順次的なサーチが行
なわれる。位置p(j)∈{1,…,N},j=1,…,nにおける符号ベクト
ル成分は評価または推定関数(estimate function)F(p(
j))を最大にすることにより順次サーチされ、これはj番目のパルスの音声信
号残差(レシデュアル:residual)への寄与分を決定する。
【数4】 F(p(j))=max{2|d(p(j))| p(j) −gφ(p(j)),(p(j))} この場合、p(j)=1,…,Nであり、j=1,…,nであり、かつ
【数5】 N φ(1,m)= Σh(k−l)・h(k−m) k=max(l,m) であり、これは前記フィルタのすべてのインパルス応答関数hの共分散アレイ
である。この場合、
【数6】 dj+1(i)=d(i) −sign(d(p(j))gφ(i,p(j))
【数7】 N d=Σx(k)・h(k−i) k=i この場合dは前記インパルス応答関数およびj=1に対する前記ソース離散
信号の元の相互相関ベクトルである。
【0022】
【発明を実施するための最前の態様】
本発明に係わる実施形態の詳細な説明のために、IS−127標準(編集バー
ジョン6、TR−45)における名称を参照する。すなわち、MSEはあるサブ
フレームにおける固定コードブック寄与分からの固定コードブックサーチターゲ
ットベクトルの偏差またはずれの平均2乗誤差である。SNRは、dBでの、信
号対雑音比であり、変更された(シフトされた)もとの音声信号Sが処理され
た信号として使用されかつそれと適応および固定コードブックの助けにより再構
成された信号がノイズとして考えられる。平均SNRは音声フラグメントに関し
て平均されかつ9600bpsのレートおよび4800bpsのレート、すなわ
ちそれぞれレート1およびレート1/2で送信されるすべてのフレームに対する
平均SNR値として計算される。すべてのp(j)は5つのトラックT0,…,
T4にわたり分配または分布される。前記トラックの内の3つは各々8つの非ゼ
ロパルスの内の2つが割当てられ、前記トラックの内の2つは各々8つのパルス
の内の1つが割当てられる。各々1つのパルスを備えた2つのトラックは互いに
サイクリックまたは循環的に隣接し、すなわち、トラック3およびトラック4は
各々1つのパルスを含み、トラック4およびトラック0は各々1つのパルスを含
み、以下同様である。
【0023】 前記IS−127標準に従って固定コードブック構造により決定される一般的
なタスクはレート1に対して次のように公式化される。すなわち、次の数式、
【数8】 N F(g;→p)=minΣ[x(i) i=1 8 −gΣhwq(i−p(j))] j=1 を満たすベクトルp(j),j=1,…,8、および利得gが、固定コード
ブック構造ならびに以下の条件、
【数9】 g>0, 0≦p(j)≦54, j=1,…,8, p(j)≠p(k), j,k=1,…,8, hwq(j−p(j))=0, j−p(j)<0. により規定される制約のもとで見つけ出され、この場合Nはサブフレームのサ
イズである。なお、→pなる表記において、記号→は文字pの上に配置されるべ
きであるが、文字コードの制限のため文字pの前に配置している。
【0024】 これは許容できる解の領域の複素境界を備えた多次元関数のための極値のサー
チの典型的なタスクである。最小化される前記関数は一般に1つより多くの極値
を有する非線形9次関数である。前記制約は前記許容できる解の領域の非線形の
境界を形成し、従ってローカルまたは局所的極値(local extrema
)の数はさらに増大しかつ大域的極値(global extremum)のサ
ーチは一層複雑になる。変更された(前記RCELPアルゴリズムに関してシフ
トされた)もとの残余(residual)から適応コードブック出力を減算す
ることにより得られる離散信号の符号化のMSEの真のまたは実数の最小のサー
チは従って不成功に終るであろう。
【0025】 本発明による方法における前記第1のステップは利得の計算である。 本発明の第1の実施形態においては、前記利得は、
【数10】 g〜X とみなされ、この場合、
【数11】 N X=Σx (i) i=1 はソース離散信号のエネルギである。言い換えれば、gの最適の値はサブフ
レームにおける信号xの平均2乗振幅に比例するとみなすことができる。前記
ソース離散信号のエネルギはフィルタのインパルス応答関数の共分散マトリクス
のトレース(trace)と比較される。言い換えれば、すべての対角共分散項
の合計が行なわれ、それによって利得gを次のように得る。
【数12】 N g=α・X/{Σφ(i;i)}1/2 i=1
【0026】 この利得計算は図1に示されている。ステップ101における信号s{n}の
前処理およびステップ102におけるモデルパラメータの推定の後に、前処理さ
れた音声信号のエネルギXがステップ103において計算される。ループ104
〜109において、共分散マトリクスの対角要素が決定される。ステップ104
において、第1の対角要素φ(i,i)、すなわち、φ(1,1)、が計算され
る。ステップ105において、それは後に使用する目的でメモリに格納される。
さらに、ステップ106において、前記値φ(i,i)が値Aに加えられ、それ
によって最終的に共分散マトリクスのトレースを得る。
【数13】 A=A+φ(i,i)
【0027】 この反復はi=Nまで繰り返される。言い換えれば、処理はi<Nである限り
次のφ(i,i)を計算するためにステップ104に戻るよう分岐し、かつi=
Nの場合にステップ107においてループを退出しかつトレースの計算が完了す
る。
【0028】 ステップ103からのXの値およびステップ106からのAの値により、前記
コードベクトルの利得は次の式によって計算される。
【数14】 N g=α・X/{Σφ(i;i)}1/2 i=1 =α・X/A1/2 この場合、αは音声の残差(residual)に適用されるべき係数であり
、かつAは考慮中のサブフレームの共分散マトリクスのトレースに対する単なる
かつ一時的な置換(substitute)である。
【0029】 上の実施例の特定の利点はその比較的低い計算機的な努力である。前記共分散
項φ(i,i)はサブフレームにおける全てのパルス位置(前記IS−127標
準においてはN=53または54)に対して計算されなければならないが、これ
は全体の計算機的な努力を増大するものではなく、その理由は前記対角項(di
agonal terms)は以下に説明するさらなる計算のために利用可能で
あるからである。
【0030】 上に述べた実施形態よりも高速とすることができるが、利得計算の精度を犠牲
にする、他の実施形態が本発明の発明者によって考案されかつ本発明のさらに他
の実施形態(示されていない)において実施されている。
【0031】 本発明の発明者によって、本発明に係わる方法の第1の構成の特定の簡単な変
更がgの決定のために実現できるという近似により満足すべき結果が達成でき
ることが見出され、すなわち、前記第1の実施形態は、離散的ソース信号および
サブフレーム長さを除き、前記共分散マトリクスにおける第1の対角項の共分散
、すなわち、φ(i,i)に排他的に依存する。共分散マトリクスのこの第1の
項はN、サブフレーム長さ、により乗算することにより「拡張され(expan
ded)」、かつ次に平均2乗されたソース信号Xと比較される。前記利得は従
って次のように書くことができる。
【数15】 g=α・X/{N・φ(i;i)}1/2 この場合、αは比例係数である。この構成により、対角要素の計算は1つに低
減される。この実施形態の利点はサブフレームにおける全ての他の共分散項の計
算が時代遅れになる(obsolete)ことである。
【0032】 本発明のこれらの実施形態の内のさらに他のもの(図示せず)においては、利
得は次のような簡単な式で表される。
【数16】 g=α・(X/N)1/2 この場合、αは定数係数でありかつNはサブフレーム長さである。しかしなが
ら、この手法はX>>Fmin(g;→Popt)に対してのみ許容できる
ものである。ただし、この前提条件は大部分のサンプルされた音声の残差におい
て当てはまる。この手法により評価される利得の分析は高い精度の近似が達成可
能であることを示している。
【0033】 本発明の他の構成(図示せず)においては、第1のパルスは70パーセントま
での情報を含むと仮定される。従って、前記第1のパルスはgの計算のための
主な候補である。しかしながら、もしそれが第1のパルスのみに関して決定され
れば、gの値は前記最適値を超えるため、より多くのパルスが考慮される。こ
の利得計算の構成に対応する関係は次の式で与えられる。
【数17】 k g=a・gc1+Σgci i=2 この場合、gciはi番目のパルスに対する利得gであり、kはgの決定
のためのパルスの数または番号であり、aは第1のパルスの重み係数である。
【0034】 前記第1のパルスのSNRに対する影響は異なる音声信号およびパルスの数に
よって実験的に調べられた。発明者によってk=8のパルスの数が最もよい結果
を与えることが見出された。MSEは30パーセントに低減できた。
【0035】 最後の実施形態による前記利得gの決定の精度を改善するために、インパル
ス応答関数の共分散の影響が考慮される。対応する構成は重み付けられた第1の
パルスおよびサブフレームにおける信号の平均2乗された振幅Xに依存する。
【数18】 g=a・gc1+b・(X/N)1/2 この場合、a,bは重み係数であり、かつgc1は第1のパルスの振幅である
。この実施形態の利点はその低い計算機的な複雑さであり、利得の高い精度を有
し、それはインパルス応答関数の共分散の考慮が多様な音声フラグメントに対す
る異なる最適化された組の係数aおよびbにつながるからである。
【0036】 これらのアルゴリズムの比較分析は上記アルゴリズムの全てに対して卓越した
結果を示している。しかしながら、前記第1のアルゴリズムは最も大きな計算機
的な努力を必要とする。一般に、インパルス応答関数の共分散を考慮に入れる、
上記アルゴリズムは余分の計算機的な努力を必要とする。しかしながら、これは
計算された項の一部がやはりベクトルサーチのために必要とされるという事実に
より補償され、これについては後に説明する。従って、計算機的な努力はベクト
ルサーチから利得計算へとシフトされるのみであり、かつ前記利得計算の結果の
一部がベクトルサーチのためにも利用できるという事実により、劇的に増大する
ことはない。
【0037】 前記利得の評価が完了すると、本方法は図1の“A”において最適のベクトル
{p(j),j=1,…,8}を見つけるよう進行し、この場合8は前記IS−
127システムにおけるベクトル成分の最大数である。
【0038】 このサーチは本方法の特定の実施形態においては励振残余に対する多パルス符
号化方法の順次の変量または変形(variant)によって達成される。共分
散マトリクスにおける対角項のみの考慮において最小にされるべき関数が次の形
式で書かれる。
【数19】 N F(g;p(j))=min [Σx (i) p(j) i=1 −d (p(j))/{φ[p(j);p(j)]}], j=1,…,8 この場合、
【数20】 N d(p(j))=Σx(k)・h(k−p(j)) k=p(j) はパルス位置p(j)に対する相関であり、かつ
【数21】 φ((p(j);p(j)) N =Σh(k−p(j))・h(k−p(j)) k=p(j) はパルス位置p(j)の共分散(covariance)である。
【0039】 前記パルスp(j)の符号は次の式で規定される。
【数22】 Sign(p(j))=Sign(d(p(j)))
【0040】 次のステップにおいて、相互相関ベクトルdがp(j−1)に基づき修正さ
れ、これは前に次の式によって計算されている。
【数23】 d[i]=d[i]−g・Sign(p(j−1)) ・φ[i;p(j−1)], i=1,…,N この場合、gは前に述べた利得計算シーケンスにおいて決定された利得であ
る。最後の3つの式の計算手順を順次反復することにより、前記パルス位置p(
j)がパルス位置p(j+1)に進む前に最適化される。
【0041】 この手順の構成は図2に示されている。上記タスク、
【数24】 N F(g;p(j))=min [Σx (i) p(j) i=1 −d (p(j))/{φ[p(j);p(j)]}], j=1,…,8 は次の関数の最大値を見出すのと等価である。
【数25】 F(p(j))=max{2|d(p(j))| p(j) −gφ(p(j),p(j))} この場合、p(j)∈{1,…,N}であり、かつj=1,…,kであり、前
記IS−127標準においてはk=8である。
【0042】 前記ベクトル検出手順の最初のステップにおいて、音声残余または残差ならび
にインパルス応答関数d(i)の相関が計算され(ステップ110)、かつ前
記最大化基準Fの現在の最善の値を一時的に記憶するための変数F′がリセット
される。図2には明白に述べられていないが、非対角項φ(i,j)もステップ
110において決定されこれらはj=2,…,8に対する相関ベクトルの修正の
ために必要とされる。次のステップ111において、固定コードブック構造の制
約がチェックされ、かつもしそれらが違反しておれば、手順はステップ117へ
と分岐する。ステップ112において、前述の利得計算の際に計算された共分散
項φ(i,i)がメモリから取り出される。
【0043】 前記利得g、相関ベクトルd(i)および共分散ベクトルφ(i,i)の
値により、ステップ113において推定または評価関数Fが計算される。Fの値
は、前に決定された、値F′と比較される。Fの最後に評価された値が前のF′
より大きい場合は、ステップ115において新しい値がメモリに格納され、p(
j)=iの値がステップ116においてメモリに格納されかつ処理はステップ1
17に進む。ステップ117において、1つのサブフレームにおける全てのサン
プル位置が推定または評価されたか否かがチェックされる。もし全てのサンプル
位置がチェックされていなければ、処理はステップ117の問合わせの後にステ
ップ118において増分されたiと共にステップ111に進む。もし全てのサン
プル位置が評価または推定されておれば、サーチ手順はステップ120において
全てのベクトル成分の評価が完了したか否かをチェックする。もし完了しておれ
ば、最適のコードベクトルを見出す手順は考慮中のサブフレームに対して終了し
かつ、ステップ121において、パケットがチャネルの受信機側への送信のため
に形成またはフォーマットされる。もしベクトル成分の評価または推定がまだ完
了していなければ、処理はステップ120における問合わせの後にステップ11
9においてjを増分した後ステップ110に進む。
【0044】 本発明による方法は従来技術に対していくつかの利点を有する。すなわち、ベ
クトル1/φ(i,i)はサブフレームごとに一回だけ計算されればよい。これ
により、最適のベクトルに対するサーチ手順の計算機的努力が大幅に低減される
。計算されるべき共分散アレイにおける非対角要素φ(i,j)の数が共分散ア
レイの(54から)7行に低減され、従来技術のように共分散アレイの全ての非
対角行(54)を計算する必要がなくなる。基準計算のサイクル数がパルス数を
サブフレーム長さで乗算したものに限定され(例えば、8*54=432)、一
方従来技術(IS−127標準)による必要なサイクル数は1144(固定コー
ドブック構造にわたり4つの反復を必要する組合わせ逐次サーチに対して)であ
る。しかしながら、実際には、本発明の方法によるサーチは本質的に少ないサイ
クル数の後に切り詰める(truncated)ことができる。パルスに対する
固定コードブック構造の制約は4つのパルスが見出された後にのみチェックされ
る。パルスの符号は自動的に決定され従って音声残余信号xの余分のろ波およ
び各サブフレームに対する基準ベクトルの計算を避けることができる。最大のM
SE偏差またはずれを連続的に修正することにより、本発明に係わる方法は非常
に高速で収斂する。従って、大域的および局所的極値が大域的なものに近い境界
で見つけられる。
【0045】 本発明の発明者は試験音声フラグメントの大部分に対して本発明に係わる方法
により0.7dBまでの平均SNR値の増大を見出した。さらに、計算機的な複
雑さは従来技術のアルゴリズムの構成の場合よりも2〜3の係数でより小さくな
ることが見出された。これは各々の成分をサーチする前に、ベクトルd(i)
,i=1,…,Nの再帰的な計算(修正)を伴ったコードベクトル成分の連続的
なサーチによる。
【0046】 見出されたコードベクトルに対応する真のまたは実利得(real gain
)は計算されたgを使用する代わりに(IS−127のように)計算できる。
これは合成された音声の品質をやや改善するが、いくらかの余分の計算機的な努
力を必要とする。
【0047】 図2は、本発明のハードウエア構成を示す。本発明の実施のためのコンピュー
タプログラムはプログラムメモリ202に格納することができ、該プログラムメ
モリ202は好ましくはROMである。他のメモリ211(RAM)が相関項(
(i))、共分散項(φ(i,i)およびφ(p(i);p(j)))、ソ
ース離散信号エネルギ(X)および利得(g)の値を一時的に格納するために
必要とされる。ALU 203においては、上述の種々の数式の計算が行われ、
ステータスレジスタ204がALU 203のステータスを他の構成要素に指示
する。このハードウエア構成の全ての要素はデータバス210を介して結合され
ている。最適のベクトルのサーチの結果もまたデータバス210を介して出力さ
れる。
【0048】 この明細書においては、レート(rate)は考慮されなかったが、その理由
はそれが本発明に係わる利得および最適のコードブックベクトルの計算に影響を
与えないからである。しかしながら、当業者にはレートはチャネルにおけるノイ
ズおよび信号エネルギ推定または評価に従って決定されることは明らかであろう
【図面の簡単な説明】
【図1】 利得評価のための近似戦略の特定の応用を導入した本発明の一実施形態を示す
フローチャートである。
【図2】 図1に示される実施形態の処理を図1に続いて示すフローチャートである。
【図3】 本発明を実施するためのコンピュータハードウエアの構成を示すブロック図で
ある。
【符号の説明】
201 プログラム制御ユニット 202 プログラムメモリ 203 ALU 204 ステータスレジスタ 210 データバス 211 メモリ
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5D045 CA03 CC01 5J064 AA01 AA03 BA13 BB07 BB12 BC02 BC12 BC25 BC27 【要約の続き】

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 CELPアルゴリズムのための方法であって、 信号プリプロセッサにおいてサンプルされた音声s{n}を前処理し(101
    )ノイズろ波された音声出力ベクトルおよびチャネルノイズ推定を出力する段階
    、 前記ノイズろ波された音声出力ベクトルのモデルパラメータ推定(102)を
    行い予測残余および長時間予測利得を出力する段階、 前記予測残余を符号化して(104〜120)フィルタのインパルス応答関数
    の指数およびベクトル利得を含む適応コードブックベクトルを出力する段階、 符号化された音声パケットをフォーマットする段階(121)、 を含み、前記符号化する段階(104〜120)は以下の順序で、 理論的な最適値に近いスタート値を選択することにより前記利得を決定する段
    階(104〜109)、そして 再帰的に修正された相関ベクトルに基づき推定関数の極値を逐次的にサーチす
    ることによりベクトルの最適化を行う段階(110〜120)、 を具備することを特徴とするCELPアルゴリズムのための方法。
  2. 【請求項2】 前記利得は前記サンプルされた音声フレームのエネルギおよ
    び一組のインパルス応答関数の共分散マトリクスのトレースに基づき決定される
    ことを特徴とする請求項1に記載の方法。
  3. 【請求項3】 前記利得は前記サンプルされた音声フレームのエネルギおよ
    び第1のインパルス応答関数の共分散項に基づき決定されることを特徴とする請
    求項1に記載の方法。
  4. 【請求項4】 前記利得は前記サンプルされた音声フレームのエネルギおよ
    びフレーム長さに基づき決定されることを特徴とする請求項1に記載の方法。
  5. 【請求項5】 前記最適のベクトルは、 前記サンプルされた音声信号およびインパルス応答関数の相関項を前に見出さ
    れたベクトル成分に適合させ、そして 前記適合された相関項を前記推定関数に再挿入する、 ことにより決定されることを特徴とする請求項2に記載の方法。
  6. 【請求項6】 前記最適のベクトルは、 前記サンプルされた音声信号およびインパルス応答関数の相関項を前に見出さ
    れたベクトル成分に適合させ、そして 前記適合された相関項を前記推定関数に再挿入する、 ことにより決定されることを特徴とする請求項3に記載の方法。
  7. 【請求項7】 前記最適のベクトルは、 前記サンプルされた音声信号およびインパルス応答関数の相関項を前に見出さ
    れたベクトル成分に適合させ、そして 前記適合された相関項を前記推定関数に再挿入する、 ことにより決定されることを特徴とする請求項4に記載の方法。
  8. 【請求項8】 コードブックベクトルおよび該コードブックベクトルの利得
    を決定するために電気信号を処理するためのデジタル信号プロセッサであって、 信号プリプロセッサにおいてサンプルされた音声s{n}を前処理して(10
    1)少なくともノイズろ波された音声出力ベクトルおよびチャネルノイズ推定を
    出力するための手段、 前記ノイズろ波された音声出力ベクトルのモデルパラメータ推定を行い(10
    2)予測残余および長時間予測利得を出力するための手段、 前記残余を符号化して(104〜118)フィルタのインパルス応答関数の指
    数およびベクトル利得を含む適応コードブックベクトルを出力するための手段、 前記符号化された音声パケットをフォーマットする(116)ための手段、 を具備し、前記符号化(104〜109)は次の順序で、 理論値に近いスタート値を選択することにより前記利得の決定を行う(104
    〜109)ための手段、そして 再帰的に修正された相関ベクトルに基づき推定関数の極値を逐次的にサーチす
    ることによりベクトルの最適化を行う(110〜120)ための手段、 によって行なわれることを特徴とするデジタル信号プロセッサ。
  9. 【請求項9】 コードブックベクトルおよび該コードブックベクトルの利得
    を決定するために電気信号を処理するためのデジタル信号プロセッサを具備する
    電子装置であって、前記デジタル信号プロセッサは、 信号プリプロセッサにおいてサンプルされた音声s{n}を前処理して(10
    1)少なくともノイズろ波された音声出力ベクトルおよびチャネルノイズ推定を
    出力するための手段、 前記ノイズろ波された音声出力ベクトルのモデルパラメータ推定を行い(10
    2)予測残余および長時間予測利得を出力するための手段、 前記残余を符号化して(104〜118)フィルタのインパルス応答関数の指
    数およびベクトル利得を含む適応コードブックベクトルを出力するための手段、 前記符号化された音声パケットをフォーマットする(116)ための手段、 を具備し、前記符号化(104〜109)は次の順序で、 理論値に近いスタート値を選択することにより前記利得の決定を行う(104
    〜109)ための手段、そして 再帰的に修正された相関ベクトルに基づき推定関数の極値を逐次的にサーチす
    ることによりベクトルの最適化を行う(110〜120)ための手段、 によって行なわれることを特徴とする電子装置。
JP2000531839A 1998-02-17 1998-02-17 固定コードブックにおける最適のベクトルの高速決定のための方法および装置 Expired - Lifetime JP3425423B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/RU1998/000041 WO1999041737A1 (en) 1998-02-17 1998-02-17 Method and apparatus for high speed determination of an optimum vector in a fixed codebook

Publications (2)

Publication Number Publication Date
JP2002503835A true JP2002503835A (ja) 2002-02-05
JP3425423B2 JP3425423B2 (ja) 2003-07-14

Family

ID=20130195

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000531839A Expired - Lifetime JP3425423B2 (ja) 1998-02-17 1998-02-17 固定コードブックにおける最適のベクトルの高速決定のための方法および装置

Country Status (4)

Country Link
US (1) US6807527B1 (ja)
JP (1) JP3425423B2 (ja)
KR (1) KR100510399B1 (ja)
WO (1) WO1999041737A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002017538A2 (en) * 2000-08-18 2002-02-28 The Regents Of The University Of California Fixed, variable and adaptive bit rate data source encoding (compression) method
US6766289B2 (en) * 2001-06-04 2004-07-20 Qualcomm Incorporated Fast code-vector searching
DE10140507A1 (de) * 2001-08-17 2003-02-27 Philips Corp Intellectual Pty Verfahren für die algebraische Codebook-Suche eines Sprachsignalkodierers
US7327798B2 (en) 2001-10-19 2008-02-05 Lg Electronics Inc. Method and apparatus for transmitting/receiving signals in multiple-input multiple-output communication system provided with plurality of antenna elements
KR100463526B1 (ko) * 2002-01-04 2004-12-29 엘지전자 주식회사 다중 입력 다중 출력 시스템에서의 전력 할당 방법
FR2872664A1 (fr) * 2004-07-01 2006-01-06 Nextream France Sa Dispositif et procede de pre-traitemebnt avant codage d'une sequence d'images video
EP2246845A1 (en) * 2009-04-21 2010-11-03 Siemens Medical Instruments Pte. Ltd. Method and acoustic signal processing device for estimating linear predictive coding coefficients
WO2011074233A1 (ja) * 2009-12-14 2011-06-23 パナソニック株式会社 ベクトル量子化装置、音声符号化装置、ベクトル量子化方法、及び音声符号化方法
US10931538B2 (en) * 2018-09-13 2021-02-23 Cable Television Laboratories, Inc. Machine learning algorithms for quality of service assurance in network traffic

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1236922A (en) * 1983-11-30 1988-05-17 Paul Mermelstein Method and apparatus for coding digital signals
EP0331857B1 (en) 1988-03-08 1992-05-20 International Business Machines Corporation Improved low bit rate voice coding method and system
JP2776050B2 (ja) 1991-02-26 1998-07-16 日本電気株式会社 音声符号化方式
FI98104C (fi) * 1991-05-20 1997-04-10 Nokia Mobile Phones Ltd Menetelmä herätevektorin generoimiseksi ja digitaalinen puhekooderi
JPH09506182A (ja) 1993-08-27 1997-06-17 パシフィック・コミュニケーション・サイエンシーズ・インコーポレイテッド 符号駆動線形予測を備える適応音声符号化器
FR2729244B1 (fr) * 1995-01-06 1997-03-28 Matra Communication Procede de codage de parole a analyse par synthese
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system

Also Published As

Publication number Publication date
KR100510399B1 (ko) 2005-08-30
WO1999041737A8 (en) 2000-08-10
US6807527B1 (en) 2004-10-19
WO1999041737A1 (en) 1999-08-19
KR20010024943A (ko) 2001-03-26
JP3425423B2 (ja) 2003-07-14

Similar Documents

Publication Publication Date Title
US5485581A (en) Speech coding method and system
JP3114197B2 (ja) 音声パラメータ符号化方法
US6594626B2 (en) Voice encoding and voice decoding using an adaptive codebook and an algebraic codebook
CN1947173B (zh) 分层编码装置及分层编码方法
EP0824750B1 (en) A gain quantization method in analysis-by-synthesis linear predictive speech coding
US20050114123A1 (en) Speech processing system and method
WO2007105587A1 (ja) 固定符号帳探索装置および固定符号帳探索方法
JP3357795B2 (ja) 音声符号化方法および装置
EP0778561B1 (en) Speech coding device
JP2002503835A (ja) 固定コードブックにおける最適のベクトルの高速決定のための方法および装置
US6330531B1 (en) Comb codebook structure
JP3095133B2 (ja) 音響信号符号化方法
US6470312B1 (en) Speech coding apparatus, speech processing apparatus, and speech processing method
WO2008072732A1 (ja) 音声符号化装置および音声符号化方法
EP2116996A1 (en) Encoding device and encoding method
JP3194930B2 (ja) 音声符号化装置
JP3089967B2 (ja) 音声符号化装置
JP3252285B2 (ja) 音声帯域信号符号化方法
JP3428595B2 (ja) 音声符号化方式
JP3192051B2 (ja) 音声符号化装置
JP3335650B2 (ja) 音声符号化方式
JP2003323200A (ja) 音声符号化のための線形予測係数の勾配降下最適化
JP3212123B2 (ja) 音声符号化装置
JP2918021B2 (ja) ベクトル量子化装置
JPH03243999A (ja) 音声符号化装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080502

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090502

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090502

Year of fee payment: 6

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D03

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090502

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100502

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110502

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110502

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120502

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120502

Year of fee payment: 9

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120502

Year of fee payment: 9

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130502

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130502

Year of fee payment: 10

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130502

Year of fee payment: 10

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term