JP3073013B2 - サンプリングされた音声信号ベクトルのコーディングの方法 - Google Patents

サンプリングされた音声信号ベクトルのコーディングの方法

Info

Publication number
JP3073013B2
JP3073013B2 JP03513617A JP51361791A JP3073013B2 JP 3073013 B2 JP3073013 B2 JP 3073013B2 JP 03513617 A JP03513617 A JP 03513617A JP 51361791 A JP51361791 A JP 51361791A JP 3073013 B2 JP3073013 B2 JP 3073013B2
Authority
JP
Japan
Prior art keywords
measure
vector
maximum
excitation
magnification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03513617A
Other languages
English (en)
Other versions
JPH05502117A (ja
Inventor
トル ブヨルン ミンデ
Original Assignee
テレフオンアクチーボラゲツト エル エム エリクソン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲツト エル エム エリクソン filed Critical テレフオンアクチーボラゲツト エル エム エリクソン
Publication of JPH05502117A publication Critical patent/JPH05502117A/ja
Application granted granted Critical
Publication of JP3073013B2 publication Critical patent/JP3073013B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • G10L2019/0014Selection criteria for distances
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は、適応コードブック内の最適励振ベクトルの
選択による、サンプリングされた音声信号ベクトルのコ
ーディングの方法に関する。
従来技術 例えば、ディジタル化された音声の無線送信において
は、音声の品質を顕著に低下せしめることなく、単位時
間あたりに伝送されるべき情報量を減少させることが所
望される。IEEE ICASSP−85,1985に所載の論文であ
る、M.SchroederおよびB.Atal著「Code−excited linea
r prediction(CELP):High−quality speech at very
low bit rates」から、そのような情報削減を行なうた
めの、送信機内にいわゆるCELP形の音声コーダを用いる
方法が知られている。そのコーダは、合成部と解析部と
を含む。そのコーダは、合成部内に3つの主要成分、す
なわちLPCフィルタ(線形予測コーディングフィルタ)
と、送信されるべきフレームにおいてサンプリングされ
た音声信号ベクトルをできるだけ正確に近似する信号を
合成発生するための該フィルタを励振する励振ベクトル
を含む固定および適応コードブックと、である。音声信
号ベクトルそのものを伝送する代わりに、コードブック
内の励振ベクトルのインデックスがその時他のパラメー
タと共に無線接続を経て伝送される。受信機は、送信機
側におけると同様にして、選択された音声信号ベクトル
の近似を再生する、対応する合成部を含む。
コードブックから可能な最良の励振ベクトルを選択す
るために、送信機部分は解析部を含み、その解析部内に
おいてコードブックが探索される。適応コードブック内
における最適インデックスを求めての探索は、そのコー
ドブック内の全てのインデックスにわたっての悉皆探索
によって行なわれることが多い。適応コードブック内の
それぞれのインデックスに対し、対応する励振ベクトル
はLPCフィルタによってフィルタされ、その出力信号は
コーティングされるべきサンプリングされた音声信号ベ
クトルと比較される。誤差信号が計算され、加重フィル
タによってフィルタされる。その後、加重誤差ベクトル
は2乗され、加算されて2乗加重誤差が形成される。次
に、最低2乗加重誤差を与えるインデックスが、最適イ
ンデックスとして選択される。IEEE ICASSP−86,1986
に記載の論文である。I.M.TrancosoおよびB.S.Atal著
「Efficient procedure for finding the optimum inno
vation in stochastic coders」から知られている最適
インデックスを見出すための同等の方法は、合成音声ベ
クトルとサンプリングされた音声信号ベクトルとの間の
エネルギー正規化された相互相関の最大化に基づいてい
る。
これら2つの悉皆探索方法は、ディジタル信号プロセ
ッサにおいて必要な命令サイクルの数のために極めて経
費のかかるものとなるが、それらはまた高品質の音声を
保持する上では基本的なものである。
適応コードブックにおける探索は、本来米国特許明細
書第3,899,38号およびIEEE Workshop on speech codin
g for telecommunications,Vancouver,Sept.5−8,1989
の論文であるK.SwaminathanおよびR.V.Cox著「Design,i
mplementation and evaluation of a 8.0kbps CELP cod
er on a single AT& T DSP 32C digital signal pro
cessor」から知られている。
整数構成に関連する問題は、適応コードブックが帰還
(長期メモリ)を有することである。このコードブック
は、前のフレームの合計励振ベクトル(固定および適応
コードブックからの最適励振ベクトルの1次結合)によ
って更新される。適応コードブックのこの適応は、音声
信号の動的変化に追随することを可能ならしめ、これは
高品質の音声を得るためには本質的に重要なことであ
る。しかし、音声信号は大きい動的領域上において変化
し、これはその信号を、整数表示によって動作するディ
ジタル信号プロセッサにおいて、単精度では保持された
品質をもって表わすことが困難であることを意味する。
そのわけは、これらのプロセッサは通常16ビットのワー
ド長を有し、これでは不十分であるからである。その場
合には、信号は、整数ディジタル信号プロセッサ内のソ
フトウェアに組込まれた倍精度(2ワード)または浮動
小数点表示のいずれかによって表示されなくてはならな
い。しかし、これらの方法は双方とも複雑性のために多
くの経費を要する。
発明の要約 本発明は、整数ディジタル信号プロセッサにおける適
応コードブックの解析に関連する大きい動的音声信号範
囲を、従来周知の方法の複雑性に関する欠点なしに得る
方法を提供することを目的とする。適応コードブック内
の最適励振ベクトルを選択することによる、サンプリン
グされた音声ベクトルのコーティング方法においては、 (a) 所定の励振ベクトルが前記適応コードブックか
ら順次読取られ、 (b) それぞれの読取られた励振ベクトルが線形フィ
ルタのインパルス応答によってたたみこまれ、 (c) それぞれのフィルタ出力信号が、 (c1) 一方ではサンプリングされた音声信号ベクト
ルトノ相互相関の2乗の測度CIと、 (c2) 他方では該フィルタ出力信号のエネルギーの
測度EIと、 を形成するのに用いられ、 (d) それぞれの測度CIは、前記フィルタ出力信号と
前記サンプリングされた音声信号のベクトルとの間の相
互相関の2乗の測度と、前記フィルタ出力信号のエネル
ギーの測度と、の間の比の最大値を今までに与えた励振
ベクトルの測度EMを乗算され、 (e) それぞれの測度EIは、前記フィルタ出力信号と
前記サンプリングされた音声信号ベクトルとの間の相互
相関の2乗の測度と、前記フィルタ出力信号のエネルギ
ーの測度と、の間の比の最大値を今までに与えた励振ベ
クトルの測度CMを乗算され、 (f) ステップ(d)および(e)における積が互い
に比較され、もしステップ(d)における積がステップ
(e)における積よりも大ならば、測度CM,EMはそれぞ
レ測度CIおよびEIによって置換され、 (g) 前記フィルタ出力信号と前記サンプリングされ
た音声信号ベクトルとの間の相互相関の2乗の測度と、
前記フィルタ出力信号のエネルギーの測度と、の間の比
の最大値に対応する励振ベクトルが前記適応コードブッ
ク内の最適励振ベクトルとして選択され、前記目的が、 (A) ステップ(b)におけるたたみこみの前に前記
適応コードブックの所定の励振ベクトルを、該適応コー
ドブックからの励振ベクトルの集合内における最大絶対
値を有する成分に関してブロック正規化し、 (B) ステップ(c1)において測度CIを形成する前に
前記サンプリングされた音声信号ベクトルを、最大絶対
値を有するその成分のそれに関してブロック正規化し、 (C) ステップ(c1)からの測度CIおよび測度CMを、
それぞれの仮数と、所定の第1最大レベル数を有するそ
れぞれの第1倍率とに分割し、 (D) ステップ(c2)からの測度EIおよび測度EMを、
それぞれの仮数と、所定の第2最大レベル数を有するそ
れぞれの第2倍率とに分割し、 (E) それぞれの仮数を乗算し、かつ別個の倍率計算
を行なうことによって、ステップ(d)および(e)に
おける前記積を形成することによって、 達成される。
図面の簡単な説明 本発明、前述以外の諸目的、および本発明によって得
られる諸利点は、以下の説明および添付図面を参照する
ことにより、最もよく理解される。添付図面において、 第1図は、適応コードブック内の最適の励振ベクトル
の選択により、音声ベクトルのコーディングを行なう、
従来技術による装置のブロック図を示し、 第2図は、本発明の方法を行なう装置の第1実施例の
ブロック図を示し、 第3図は、本発明の方法を行なう装置の第2の好適な
実施例のブロック図を示し、 第4図は、本発明の方法を行なう装置の第3実施例の
ブロック図を示す。
実施例 異なる図において、同じ参照符号は対応する要素に対
して用いられる。
第1図は、適応コードブック内の最適の励振ベクトル
の選択により、音声ベクトルのコーディングを行なう、
従来技術による装置のブロック図を示す。例えば40サン
プルを含むサンプリングされた音声信号ベクトルsw
(n)と、たたみこみユニット102内の線形フィルタの
インパルス応答hw(n)による、適応コードフック100
からの励振ベクトルのたたみこみによって得られた合成
信号w(n)と、が相関器104において互いに相関せ
しめられる。相関器104の出力信号は、信号sw(n)お
よびw(n)の間の相互相関の2乗の測度CIを形成す
る。この相互相関の測度は、例えば入力信号sw(n)お
よびw(n)の対応成分の積を加算することによって
計算されうる。さらに、エネルギー計算器106におい
て、合成信号w(n)のエネルギーの測度EIが、例え
ばこの信号の成分の2乗を加算することにより計算され
る。これらの計算は、適応コードブックのそれぞれの励
振ベクトルに対して行なわれる。
それぞれの計算された対CI、EIに対して、今までに最
大比CI/EIを与えた励振ベクトルの2乗相互相関および
エネルギーのそれぞれの値をCMおよびEMとするとき、積
CI・EMおよびEI・CMが形成される。値CMおよびEMはメモ
リ108および110内にそれぞれ記憶され、積はそれぞれ乗
算器112および114において形成される。その後、これら
の積は比較器116において比較される。もし積CI・EM
積EI・CMより大ならば、CM,EMはCI,EIによって更新さ
れ、そうでなければCM,EMの古い値が保持される。CM
よびEMの更新と同時に、適応コードブック100内の対応
ベクトルのインデックスを記憶している図示されていな
いメモリも更新される。適応コードブック100内の全て
の励振ベクトルがこのようにして検査され終ると、最適
の励振ベクトルは、メモリ108および110にそれぞれ記憶
されている値CM,EMに対応するベクトルとして得られ
る。コードブック100内のこのベクトルのインデックス
は、図示されていない前記メモリに記憶され、サンプリ
ングされた音声信号ベクトルのコードの本質的部分を形
成する。
第2図は、本発明の方法を行なう装置の第1実施例の
ブロック図を示す。第1図の既知装置におけると同じパ
ラメータ、すなわち2乗された相互相関およびエネルギ
ーが、第2図の装置においても計算される。しかし、た
たみこみユニット102におけるたたみこみの前に、適応
コードブック100の励振ベクトルはブロック正規化ユニ
ット200において、コードブック内の全励振ベクトルの
最大の絶対値を有する成分に関してブロック正規化され
る。これは、コードブック内の全てのベクトル成分を探
索して最大絶対値を有する成分を決定することによって
行なわれる。その後、この成分は、選択されたワード長
において可能な限り左方へシフトされる。本明細書にお
いては、16ビットのワード長が仮定される。しかし、本
発明はこのワード長に制限されるわけではなく、他のワ
ード長も可能である。最後に、残余のベクトル成分が、
同じシフトステップ数だけ左方へシフトされる。同様に
して、音声信号ベクトルはブロック正規化ユニット202
において、その諸成分の最大絶対値を有するもの関して
ブロック正規化される。
ブロック正規化の後、相関器104およびエネルギー計
算器106において、2乗された相互相関およびエネルギ
ーがそれぞれ計算される。これらの結果は、倍精度によ
って、すなわち、もしワード長が16ビットならば32ビッ
トで、記憶される。相互相関およびエネルギーの計算に
おいては、積の加算が行なわれる。これらの積の加算は
通常32ビットより多くを必要とするので、この加算には
32ビットより多くの長さを有するアキュムレータの使用
が可能であり、その後、その結果は、32ビット内に記憶
されるように右方へシフトされる。32ビットアキュムレ
ータに関しては、それぞれの積を加算の前に例えば6ビ
ット右方へシフトさせる別の方法もある。これらのシフ
トは実際的な意味はもたないので、以下の説明において
は考察されない。
得られた結果は、16ビットの仮数と倍率とに分割され
る。倍率は、好ましくは制限された数のスケーリングレ
ベルを有する。相互相関に対するスケーリングレベルの
適切な最大数は9であり、エネルギーに対するスケーリ
ングレベルの適切な最大数は7である。しかし、これら
の値は決定的なものではない。しかし、8付近の値が適
切であることはわかっている。倍率は好ましくは指数と
して記憶されるが、倍率が2Eとして形成されるとき、E
が指数であることを理解すべきである。上述のスケーリ
ングレベルの最大数の場合、相互相関における倍率は4
ビットで記憶可能であり、エネルギーにおける倍率は3
ビットを要する。倍率2Eとして表わされるので、スケー
リングは仮数の単純なシフトによって行なわれうる。
仮数と倍率とへの分割を説明するために、ベクトル長
が40サンプルであることと、ワード長が16ビットである
こととを仮定する。この場合におけるサンプルの最大値
の絶対値は216-1である。相互相関の最大値は、 CCmax=40・22(16-1)=(5・212)・221 である。この最大の場合における倍率221は1、すなわ
ち20として考えられ、一方仮数は5・212である。
ここで、合成出力信号ベクトルの全ての成分は最大値
の半分、すなわち216-2に等しく、一方サンプリングさ
れた信号ベクトルのみがなお最大成分を有しているもの
と仮定する。この場合には、相互相関は、 CCI=40・215・214=(5・212)・220 となる。この場合における倍率は21、すなわち2である
と考えられ、一方仮数は依然として5・212である。従
って、倍率は、結果が何倍CCmaxより小さくなったかを
示す。
ベクトル成分の他の値によって相互相関が計算され、
その後、その結果は、それがCCmaxより小である限り左
方へシフトせしめられる。シフト数は倍率の指数を与
え、一方、結果の絶対値の15の最上位ビットは仮数の絶
対値を与える。
倍率のレベル数が制限されうるので、行なわれるシフ
ト数もまた制限されうる。従って、相互相関が小さい時
は、仮数の最上位ビットが、最大数のシフトの後におい
てさえゼロのみから成ることが起こりうる。
次に、相互相関を2乗して、その結果を1ビット左方
へシフトし、倍率の指数を2倍して、得られた指数を1
だけ増加せしめることによって、CIが計算される。
EIも同様にして分割される。しかし、この場合には、
最後の2乗の必要はない。
同様にして、今までに最適励振ベクトルのために記憶
された値CM,EMは、16ビットの仮数と倍率とに分割され
る。
CIおよびEMにおける仮数は乗算器112において乗算さ
れ、一方EIおよびCMにおける仮数は乗算器114において
乗算される。これらのパラメータにおける倍率は倍率計
算ユニット204へ転送され、この計算ユニットは、対CI,
EMおよびEI,CMのそれぞれにおける倍率の指数を加算す
ることにより、それぞれの倍率S1およびS2を計算する。
スケーリングユニット206,208においては、倍率S1,S2が
次に乗算器112および114からの積にそれぞれ適用され、
比較器116において比較されるべきスケーリングされた
量が形成される。それぞれの倍率は、対応する積を、倍
率の指数が指示するステップ数だけ右方へシフトするこ
とによって適用される。倍率はスケーリングレベルの最
大数に制限されうるので、シフト数は、良い品質の音声
をなお生じうる最小値に制限されうる。相互相関および
エネルギーのそれぞれに対し、上記において選択された
値9および7は、音声の良い品質を保持しつつシフト数
を最小化するのに最適であることが立証されている。
第2図の構成の欠点は、シフトが双方の入力信号に対
して必要であることである。これは、双方の入力信号に
精度の損失を生ぜしめ、それは後の比較がより不確実に
なることを意味する。もう1つの欠点は、双方の入力信
号のシフトに不必要に長い時間を要することである。
第3図は、本発明の方法を行なう装置の第2の好適な
実施例のブロック図を示し、この実施例においては上述
の欠点が解消されている。2つの倍率を計算する代わり
に、倍率計算ユニット304は有効倍率を計算する。これ
は、対CI,EMにおける倍率の指数から、対EI,CMにおける
倍率の指数を減算することによって計算される。もし、
得られた指数が正であれば、乗算器112からの積が、そ
の計算された指数が指示するステップ数だけ右方へシフ
トされる。そうでない場合は、乗算器114からの積が、
その計算された指数の絶対値が指示するステップ数だけ
右方へシフトされる。この構成の利点は、一方の有効な
シフトのみを必要とすることである。これは、シフトス
テップが少なくてもよいことを意味し、それはまた速度
の増大を意味する。さらに、一方の信号のみのシフトが
必要なので、比較の確実性が改善される。
第3図の実施例の構成は、本特許の請求の範囲の前に
記載されているパスカルプログラムによって、詳細に示
されている。
第4図は、本発明の方法を行なう装置の第3実施例の
ブロック図を示す。第3図の実施例におけるように、倍
率計算ユニット404は有効倍率を計算するが、この実施
例においては有効倍率は常に乗算器112,114からの積の
一方のみに適用される。第4図においては、有効倍率は
乗算器112からの積に対し、スケーリングユニット406に
おいて適用される。従って、この実施例においては、有
効倍率の指数が正であるか、負であるかにより、シフト
が右方および左方の双方へ行なわれうる。従って、比較
器116への入力信号は1ワードよりも多くを必要とす
る。
以下には、第1図に示されているコーディング方法に
対する、MIPS(百万命令毎秒)で表わされた複雑性の比
較をあげる。相互相関、エネルギー、および比較の計算
の複雑性のみが推定されているが、そのわけは、複雑性
の主要部はこれらの部分において発生するからである。
下記の諸方法が比較された。
1. ハードウェアにおける浮動小数点構成。
2. 整数ディジタル信号プロセッサに対するソフトウェ
アにおける浮動小数点構成。
3. 整数ディジタル信号プロセッサにおける倍精度での
構成。
4. 整数ディジタル信号プロセッサにおいて具体化され
る本発明の方法。
以下の計算においては、それぞれのサンプリングされ
た音声ベクトルが40サンプル(40成分)から構成される
ことと、それぞれの音声ベクトルが5msの時間フレーム
上に広がりを有することと、適応コードブックが128の
励振ベクトルを含有して、そのそれぞれが40成分を有す
ることと、が仮定される。整数ディジタル信号プロセッ
サにおける異なる演算のために必要な命令サイクル数の
推定は、Texas Instrumentsから発行されている「TMS32
0C25 USER'S GUIDE」によって調査された。
1. ハードウェアにおける浮動小数点構成。
浮動小数点演算(FLOP)は複雑であるがハードウェア
内に構成される。この理由により、それらの演算はここ
では、比較を容易ならしめるためにそれぞれ1命令とし
て数えることにする。
これは128・85/0.005=2.2MIPSを与える。
2. ソフトウェアにおける浮動少数点構成。
演算は簡単な命令によって構成される。必要な命令数
はほぼ、 浮動小数点乗算 10命令 浮動小数点加算 20命令 であり、これは、 を与える。
これは128・2460/0.005=63MIPSを与える。
3. 倍精度での構成。
演算は簡単な命令によって構成される。
必要な命令数はほぼ、 単精度での乗算−加算 1命令 倍精度での乗算 50命令 倍精度での2減算 10命令 倍精度での2正規化 30命令 であり、これは、 を与える。
これは128・350/0.005=9.0MIPSを与える。
4. 本発明の方法。
演算は簡単な命令によって構成される。
必要な命令数はほぼ、 単精度での乗算−加算 1命令 倍精度での正規化 8命令 単精度での乗算 3命令 単精度での減算 3命令 であり、これは、 を与える。
これは128・118/0.005=3.0MIPSを与える。
以上の推定は近似的なものであり、異なる諸方法にお
ける複雑性の大きさの程度を示すものであることを認識
すべきである。これらの推定は、本発明の方法が、必要
な命令数に関し、ハードウェアにおける浮動小数点構成
とほとんど同様に有効であることを示す。しかし、本方
法は、整数ディジタル信号プロセッサにおいて著しく経
済的に構成されうるので、音声の品質を保持しつつ経費
をかなり削減することができる。整数ディジタル信号プ
ロセッサに対する、ソフトウェアにおける浮動小数点構
成および倍精度での構成との比較は、本発明の方法が音
声の品質を保持しつつ複雑性(必要なMIPS数)をかなり
減少させることを示す。
本技術分野に習熟した者ならば、添付された特許請求
の範囲によって定められた本発明の範囲から逸脱するこ
となく、本発明のさまざまな変更および改変が可能であ
ることを認めうる。例えば、本発明は、いわゆる仮想ベ
クトルに関連しても、また再帰的エネルギー計算にも使
用されうる。本発明はまた、適応コードブック内の励振
ベクトルの全てではなく所定のもののみが検査される選
択的探索方法に関連しても使用されうる。この場合に
は、ブロック正規化は、適応コードブック全体に関し
て、または選択されたベクトルのみに関して、のいずれ
によっても行なわれうる。
PROGRAM fixed_point; { このプログラムは、適応コードブックのための最適ピ
ッチ予測を計算する。その最適ピッチ予測はまた、加重
合成フィルタによりフィルタされる。
入力: alphaWeight 加重直接形式フィルタ係数 pWeight 合成フィルタ後の信号 iResponse 切捨てのあるインパルス応答 rLTP ピッチ予測器フィルタ状態ヒストリ 出力: capGMax 最大ピッチ予測電力 capCMax 最大相関 lagX 最適ラグに対するコードワード bLOpt 最適ピッチ予測 bPrimeLOpt 最適フィルタ済みピッチ予測 } USES MATHLIB { MATHLIBは、Texas Instrumentsのディジタル信号プロセ
ッサTMSC5Xの基本命令をシミュレートするモジュールで
あり、これらの基本命令によって拡張命令(マクロ)を
定義する。以下の命令が使用される。
基本命令: ILADD 算術的加算。
ILMUL 32ビットの結果を有する乗算。
IMUL 16ビットにスケーリングされる切捨て乗算。
IMULR 16ビットにスケーリングされる丸め乗算。
ILSHFT 論理nビット左シフト。
IRSHFT 論理nビット右シフト。
拡張命令: INORM 32ビットの入力値を正規化して丸められた16
ビットの正規形結果を与える。
IBNORM 入力アレイをブロック正規化して入力アレイ
内の最大絶対値による全アレイ要素の正規化を与える。
ILSSQR 入力アレイの要素の2乗を加算して32ビット
の結果を与える。
ISMUL 2つの入力アレイの要素の積を加算して丸め
られた16ビットの結果を与える。
ILSMUL 2つの入力アレイの要素の積を加算して32ビ
ットの結果を与える。
{ ピッチ遅延=40に対するピッチ予測を計算する。計算さ
れたピッチ予測と加重サブフレームとの間の相関を計算
する。最後に、ピッチ予測の電力を計算する。
入力: rLPT r(n)=長期フィルタ状態、n<0 iResponse h(n)=インパルス応答 pWeight p(n)=加重入力マイナスH(z)の
ゼロ入力応答 出力: bPrimeL ピッチ予測b′L(n)=bL(n)*h
(n) capGLMax GL;ピッチ予測開始値の電力 capCLMax CL;最大相関開始値 lagMax 最大相関開始値に対するピッチ遅延 } { ピッチ予測の再帰的更新を行なう。
入力: pitchDelay 現在のピッチ予測子ラグ値(41..maxLa
g) rLTP r(n)=長期フィルタ状態、n<0 iResponse h(n)=インパルス応答 bPrimeL ピッチ予測、b′L(n)=bL(n)*
h(n) 出力: bPrimeL 更新されたbPrimeL } { 最大相関およびピッチ予測電力の更新を行なう。
入力: pWeight p(n)=加重入力マイナスH(z)のゼ
ロ入力応答 bPrimeL ピッチ予測b′L(n)=bL(n)*h
(n) 出力: capGL GL;一時的最大ピッチ予測電力 copCL CL;一時的最大相関 } { CL*CL/GLを最大化することにより合計加重誤差を最小
化する 入力: pitchDelay 現在のピッチ予測ラグ値(41..maxLag) capGL GL;一時的最大ピッチ予測電力 capCL CL;一時的最大相関 capGLMax GL;最大ピッチ予測電力 capCLMax CL;最大相関 lagMax 最大相関に対するピッチ遅延 出力: capGLMax GL;更新された最大ピッチ予測電力 capCLMax CL;更新された最大相関 lagMax 更新された最大相関に対するピッチ遅延 } { ピッチ遅延エンコーディングを行なう。
入力: capGLMax GL;最大ピッチ予測電力 capCLMax CL;最大相関 lagMax 最大相関に対するピッチ遅延 rLTPScale ピッチヒストリバッファに対する固定
小数点倍率 pWeightScale 入力音声バッファに対する固定小数点
倍率 出力: capGMax 最大ピッチ予測電力 capCMax 最大相関 lagX コード化されたラグ } { ピッチ予測に関しサブフレームを更新する。
入力: lagMax 最大相関に対するピッチ遅延 rLTP r(n)=長期フィルタ状態、n<0 alphaWeight 加重フィルタ係数アルファ(i) 出力: bPromeLOpt 最適フィルタ済みピッチ予測 bLOpt 最適ピッチ予測 テンポラリ: state ピッチ予測計算における一時的状態 }
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 19/00 - 19/14 JICSTファイル(JOIS)

Claims (10)

    (57)【特許請求の範囲】
  1. 【請求項1】適応コードブック内の最適励振ベクトルを
    選択することによる、サンプリングされた音声ベクトル
    のコーディング方法であって、 (a)所定の励振ベクトルが前記適応コードブックから
    順次読取られ、 (b)それぞれの読取られた励振ベクトルが線形のフィ
    ルタのインパルス応答によってたたみこまれ、 (c)それぞれのフィルタ出力信号が、 (c1)一方ではサンプリングされた音声信号ベクトルと
    の相互相関の2乗の測度CIと、 (c2)他方では該フィルタ出力信号のエネルギーの測度
    EIと、 を形成するのに用いられ、 (d)それぞれの測度CIは、前記フィルタ出力信号と前
    記サンプリングされた音声信号ベクトルとの間の相互相
    関の2乗の測度と、前記フィルタ出力信号のエネルギー
    の測度と、の間の比の最大値を今までに与えた励振ベク
    トルの測度EMを乗算され、 (e)それぞれの測度EIは、前記フィルタ出力信号と前
    記サンプリングされた音声信号ベクトルとの間の相互相
    関の2乗の測度と、前記フィルタ出力信号のエネルギー
    の測度と、の間の比の最大値を今までに与えた励振ベク
    トルの側度CMを乗算され、 (f)ステップ(d)および(e)における積が互いに
    比較され、もしステップ(d)における積がステップ
    (e)における積よりも大ならば、測度CM、EMはそれぞ
    れ測度CIおよびEIによって置換され、 (g)前記フィルタ出力信号と前記サンプリングされた
    音声信号ベクトルとの間の相互相関の2乗の測度と、前
    記フィルタ出力信号のエネルギーの測度と、の間の比の
    最大値に対応する励振ベクトルが前記適応コードブック
    内の最適励振ベクトルとして選択され、 前記方法が、 (A)ステップ(b)におけるたたみこみの前に前記適
    応コードブックの所定の励振ベクトルを、該適応コード
    ブックからの励振ベクトルの集合内における最大絶対値
    を有する成分に関してブロック正規化し、 (B)ステップ(c1)において測度CIを形成する前に前
    記サンプリングされた音声信号ベクトルを、最大絶対値
    を有するその成分のそれに関してブロック正規化し、 (C)ステップ(c1)からの測度CIおよび測度CMを、そ
    れぞれの仮数と、所定の第1最大レベル数を有するそれ
    ぞれの第1倍率とに分割し、 (D)ステップ(c2)からの測度EIおよび測度EMを、そ
    れぞれの仮数と、所定の第2最大レベル数を有するそれ
    ぞれの第2倍率とに分割し、 (E)それぞれの仮数を乗算し、かつ別個の倍率計算を
    行なうことによって、ステップ(d)および(e)にお
    ける前記積を形成すること、 を特徴とする、サンプリングされた音声ベクトルのコー
    ディング方法。
  2. 【請求項2】ステップ(A)における前記励振ベクトル
    の集合が、前記適応コードブック内の全ての励振ベクト
    ルを含むことを特徴とする、請求項1記載の方法。
  3. 【請求項3】ステップ(A)における前記励振ベクトル
    の集合が、前記適応コードブックからの前記所定の励振
    ベクトルのみを含むことを特徴とする、請求項1記載の
    方法。
  4. 【請求項4】前記所定の励振ベクトルが、前記適応コー
    ドブック内の全ての励振ベクトルを含むことを特徴とす
    る、請求項2記載の方法。
  5. 【請求項5】前記倍率が底2の指数として記憶されるこ
    とを特徴とする、以上の請求項のいずれかに記載の方
    法。
  6. 【請求項6】それぞれの前記積における全倍率が前記第
    1および第2倍率における対応指数の加算によって形成
    されることを特徴とする、請求項5記載の方法。
  7. 【請求項7】前記積CI・EMの前記全倍率における指数
    と、前記積EI・CMの前記全倍率における指数との差を形
    成することによって有効倍率が計算されることを特徴と
    する、請求項6記載の方法。
  8. 【請求項8】前記有効倍率の指数がもしゼロよりも大な
    らば、前記測度CIおよびEMのそれぞれの仮数の積が該指
    数によって指示されるステップ数だけ右方へシフトさ
    れ、もし前記有効倍率の該指数がゼロより小であるか、
    またはゼロに等しければ、前記測度EIおよびCMのそれぞ
    れの仮数の積が、該指数の絶対値によって指示されるス
    テップ数だけ右方へシフトされることを特徴とする、請
    求項7記載の方法。
  9. 【請求項9】前記第1最大レベル数が前記第2最大レベ
    ル数に等しいことを特徴とする、以上の請求項のいずれ
    かに記載の方法。
  10. 【請求項10】前記第1最大レベル数が前記第2最大レ
    ベル数と異なることを特徴とする、請求項1から請求項
    8までのいずれかに記載の方法。
JP03513617A 1990-08-10 1991-07-15 サンプリングされた音声信号ベクトルのコーディングの方法 Expired - Fee Related JP3073013B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE9002622A SE466824B (sv) 1990-08-10 1990-08-10 Foerfarande foer kodning av en samplad talsignalvektor
SE9002622-0 1990-08-10

Publications (2)

Publication Number Publication Date
JPH05502117A JPH05502117A (ja) 1993-04-15
JP3073013B2 true JP3073013B2 (ja) 2000-08-07

Family

ID=20380132

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03513617A Expired - Fee Related JP3073013B2 (ja) 1990-08-10 1991-07-15 サンプリングされた音声信号ベクトルのコーディングの方法

Country Status (13)

Country Link
US (1) US5214706A (ja)
EP (1) EP0470941B1 (ja)
JP (1) JP3073013B2 (ja)
KR (1) KR0131011B1 (ja)
AU (1) AU637927B2 (ja)
CA (1) CA2065451C (ja)
DE (1) DE69112540T2 (ja)
ES (1) ES2076510T3 (ja)
HK (1) HK1006602A1 (ja)
MX (1) MX9100552A (ja)
NZ (1) NZ239030A (ja)
SE (1) SE466824B (ja)
WO (1) WO1992002927A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5307460A (en) * 1992-02-14 1994-04-26 Hughes Aircraft Company Method and apparatus for determining the excitation signal in VSELP coders
US5570454A (en) * 1994-06-09 1996-10-29 Hughes Electronics Method for processing speech signals as block floating point numbers in a CELP-based coder using a fixed point processor
US6009395A (en) * 1997-01-02 1999-12-28 Texas Instruments Incorporated Synthesizer and method using scaled excitation signal
WO2001033718A1 (en) * 1999-10-30 2001-05-10 Stmicroelectronics Asia Pacific Pte Ltd. A method of encoding frequency coefficients in an ac-3 encoder
JPWO2011048810A1 (ja) * 2009-10-20 2013-03-07 パナソニック株式会社 ベクトル量子化装置及びベクトル量子化方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1195350B (it) * 1986-10-21 1988-10-12 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante estrazione di para metri e tecniche di quantizzazione vettoriale
US4727354A (en) * 1987-01-07 1988-02-23 Unisys Corporation System for selecting best fit vector code in vector quantization encoding
US4899385A (en) * 1987-06-26 1990-02-06 American Telephone And Telegraph Company Code excited linear predictive vocoder
US4817157A (en) * 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
CA1321645C (en) * 1988-09-28 1993-08-24 Akira Ichikawa Method and system for voice coding based on vector quantization

Also Published As

Publication number Publication date
HK1006602A1 (en) 1999-03-05
NZ239030A (en) 1993-07-27
DE69112540T2 (de) 1996-02-22
KR0131011B1 (ko) 1998-10-01
SE9002622L (sv) 1992-02-11
JPH05502117A (ja) 1993-04-15
SE466824B (sv) 1992-04-06
CA2065451A1 (en) 1992-02-11
US5214706A (en) 1993-05-25
MX9100552A (es) 1992-04-01
AU637927B2 (en) 1993-06-10
EP0470941A1 (en) 1992-02-12
WO1992002927A1 (en) 1992-02-20
EP0470941B1 (en) 1995-08-30
AU8336691A (en) 1992-03-02
DE69112540D1 (de) 1995-10-05
SE9002622D0 (sv) 1990-08-10
CA2065451C (en) 2002-05-28
KR920702526A (ko) 1992-09-04
ES2076510T3 (es) 1995-11-01

Similar Documents

Publication Publication Date Title
EP0758123B1 (en) Block normalization processor
CA2061803C (en) Speech coding method and system
US5339384A (en) Code-excited linear predictive coding with low delay for speech or audio signals
EP0673018B1 (en) Linear prediction coefficient generation during frame erasure or packet loss
EP0296764B1 (en) Code excited linear predictive vocoder and method of operation
EP0673017B1 (en) Excitation signal synthesis during frame erasure or packet loss
US6314393B1 (en) Parallel/pipeline VLSI architecture for a low-delay CELP coder/decoder
EP0673015B1 (en) Computational complexity reduction during frame erasure or packet loss
CA2192143C (en) Speech coding device
JP3073013B2 (ja) サンプリングされた音声信号ベクトルのコーディングの方法
US7305337B2 (en) Method and apparatus for speech coding and decoding
EP0724252B1 (en) A CELP-type speech encoder having an improved long-term predictor
KR20010024943A (ko) 고정 코드북의 최적 벡터의 빠른 결정 방법 및 장치
JP3194930B2 (ja) 音声符号化装置
JP3092344B2 (ja) 音声符号化装置
AU725711B2 (en) Block normalisation processor
Mikkonen et al. Soft-decision decoding of binary block codes in CELP speech coding
JPH0527800A (ja) ベクトル量子化方式
Chan Efficient interconversion algorithm for PARCOR and LSP parameters
Grassi et al. OPTIMIZED REAL TIME IMPLEMENTATION OF SPECTRAL ANALYSIS AND QUANTIZATION FOR THE CELP FS1016 SPEECH CODER

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees