JP2001509616A - 長期間予測と多重パルス励起信号を用いて音声信号を符号化および/または復号化する方法 - Google Patents

長期間予測と多重パルス励起信号を用いて音声信号を符号化および/または復号化する方法

Info

Publication number
JP2001509616A
JP2001509616A JP2000502499A JP2000502499A JP2001509616A JP 2001509616 A JP2001509616 A JP 2001509616A JP 2000502499 A JP2000502499 A JP 2000502499A JP 2000502499 A JP2000502499 A JP 2000502499A JP 2001509616 A JP2001509616 A JP 2001509616A
Authority
JP
Japan
Prior art keywords
signal
block
decoding
excitation
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000502499A
Other languages
English (en)
Inventor
カール・ホルガー
Original Assignee
グルンデイッヒ・アクチエンゲゼルシヤフト
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by グルンデイッヒ・アクチエンゲゼルシヤフト filed Critical グルンデイッヒ・アクチエンゲゼルシヤフト
Publication of JP2001509616A publication Critical patent/JP2001509616A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/004Predictors, e.g. intraframe, interframe coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】 この発明は音声信号を符号化および/または復号化する方法に関する。この方法では、デジタル音声信号から予測パラメータを求める音声信号分析が行われる。適応コードブック(3)から励起信号成分(Eltp )を求める。その場合、適応コードブックは遅延された全励起信号(Ev )で形成されている。更に、考慮された励起信号から生じる信号の入力音声信号からの重み付け濾波されたずれの効率を最小化して励起信号の多パルス成分(Empe )を(4)内で求める。

Description

【発明の詳細な説明】
【0001】 この発明は、特にデジタル録音装置に対する音声信号を符号化および/または
復号化する方法に関する。
【0002】 音声信号を符号化するため、通常この音声信号を先ず4 kHz 以下の遮断周波
数で低域濾波し、得られた信号を8 kHz のサンプリングレートでサンプリング
する。サンプリングされた信号はデジタル音声信号に変換される。この信号は一
連の音声信号サンプリング値で構成されている。この一連の音声信号サンプリン
グ値から音声信号のエンコーダとデコーダ内で必要となる予測パラメータを求め
る。更に、各音声信号サンプリング値に対して前記予測パタメータとその都度予
測された音声信号サンプリング値を使用して予測値を計算する。各信号サンプリ
ング値とその予測値との間の差を量子化し、デジタル符号化し、予測パラメータ
と共に変調して記憶媒体に導入する。この記憶媒体は、例えば磁気テープもしく
はRAM記憶器である。記憶媒体で再現される信号は個々の部分信号に分割した
後、元の音声信号をできる限り忠実に元に戻すために音声デコーダ内で使用され
る。
【0003】 上記の基本原理に従って動作する従来の技術は、米国特許第 4,133,976号明細
書、米国特許第 3,631,520号明細書および米国特許第 3,502,986号明細書により
周知である。
【0004】 この従来の技術を前提として、この発明の課題はデジタル録音装置で録音され
た音声信号の再生品質をどのように改善するかの道筋を提示することにある。
【0005】 この課題は、請求項1の方法の特徴を前提として解決されている。有利な種々
の構成や改良は従属請求項に開示されている。
【0006】 この発明の利点は、この方法がインターブロック符号化なしに動作するので、
割込挿入や録音した信号の部分消去のような編集機能を可能にする点にある。
【0007】 請求している方法が音声信号の録音と再生に関して最適であるとしても、音楽
あるいは任意の騒音、例えば混合音声、自動車の騒音等のような他の信号も満足
な品質で録音して再生できる。
【0008】 以下、この発明の特徴を一つの実施例について例示的に説明する。この実施例
は、この発明による構成の可能性を徹底的に枚挙するのでなく、例示的な特徴を
有しているにすぎない。複数の請求項の構成を個々にあるいは任意の組み合わせ
で利用できる。
【0009】 この方法は以下のように動作する。つまり、デジタル音声信号は前処理した後
ブロックにして更に処理される。先ず、前処理したデジタル音声信号sをLPC
分析(LPC= linear-praediktive Codierung ;線形予測符号化)に掛ける、
この分析ではデジタル音声信号からLPCパラメータaを求める。これ等のパラ
メータはデジタル音声信号sからLPC残留信号rを発生させるため反転フィル
タ内で使用される。LPCパラメータaとLPC残留信号rに基づき、LTP分
析、所謂長時間予測分析およびパルスパラメータ発生が行われる。代わりの実施
例では、音声信号sを濾波しないでも、あるいは前記反転濾波以外の後に、LT
P分析および/またはパルスパラメータ発生に導入してもよい。
【0010】 このLTP分析とパルスパラメータ発生には残留信号rとLPCパラメータa
に加えて、下位ブロックだけ遅らせた全励起信号ev が導入される。LTP分析
の結果として、励起ベクトルeltp を決めるパラメータが得られ、パルス発生の
結果として励起ベクトルempe を決めるパラメータが得られる。
【0011】 励起ベクトルeltp とempe を発生させて加算する。これにより全励起信号e
を得る。次いで、この全励起信号eは下位ブロックだけ遅延される。これにより
下位ブロックだけ遅らせた全励起信号ev が生じる。
【0012】 この入力信号はサンプリングレートが 12 kHz のデジタル音声信号である。 この信号を先ず高域濾波する。この場合、高域フィルタの(下限)遮断周波数は
50 Hz である。これにより、デジタル音声信号は次の分析に対して乱れた影響
を与える直流成分と低周波成分が除去される。高域フィルタの伝達関数は、
【外1】 である。
【0013】 その外、このデジタル信号は伝達関数
【外2】 を有する一次のFIRフィルタを使用するプリエファシスに掛ける。このプリエ
ファシスは約1〜 1.5 dBのレベルの僅かな上昇を与える。
【0014】 次に、ブロック形成を行う。このブロック形成では、信号をそれぞれ 324のサ
ンプリング値、つまりそれぞれ 27 msの互いに重なった分析ブロックにセグメン
ト化が行われる。隣接するブロックの重なりの各々は 3 ms の期間に相当する。
分析ブロック内の中心にある 24 msの期間の合成ブロックは何れもそれぞれ 6 m
s の期間の四つの下位ブロックで構成されている。この場合、更に以下で説明す
るLTP分析とパルスパラメータ発生が各下位ブロックに対して行われる。つま
りブロック当たり4回行われる。
【0015】 LPC分析は例えば以下の説明に従って行われる。先ず、各分析ブロックを台
形窓処理に掛ける。この窓は、以下のように規定される。つまり、
【外3】
【0016】 次のステップでは、以下の式による自動相関シーケンスを計算する。つまり
【外4】 ここで、sw(n) は窓処理された入力セグメントを表す。自動相関シーケンスの 最初の値φxx(0) は、次の計算で数値的に望ましくするため、1.0004の係数を乗
算して大きくされる。
【0017】 これにより得られた自動相関シーケンスにより、例えば再帰的なダービン・レ
ビンソン(Durbin-Levinson)アルゴリズムを用い、a0''=1にして線形方程式 の系、
【外5】 を解いて、LPC予測パラメータを算出する。
【0018】 このLPC予測パラメータの帯域幅を 20 Hz だけ広げる。この場合、LPC
予測パラメータに対して関係式、
【外6】 を使用する。ここで、
【外7】 である。この帯域幅拡張によりLPCスペクトルのフォルマントが広がるので、
復号化された音声信号の再生は柔らかく快適になる。
【0019】 今まで説明した前処理は信号の有効な圧縮を可能にするLPCパラメータを効
果的に求めるためにある。更に信号処理を行うと、音声信号の元に忠実な再生を
与えるLPCパラメータの量子化を改善する。
【0020】 次のステップでは、修正されたLPC予測パラメータが反射係数に換算され
る。これは再帰則、
【外8】 により行われる。
【0021】 結局、反射係数は全体が 52 ビットの 14 のスカラー量子を使用して量子化さ
れる。この場合、係数k0' 〜k13' に対して5,5,4,4,4,4,4, 4,3,3,3,3,3または3ビットを使用する。この量子化は反射係数に対
する値を含む記憶された表を使用して行われる。その場合、この量子化は、例え
ばユークリッド距離を最小化して行える。この量子化は 14 個の量子化された反
射係数ki の組を与える。ここで、0≦i≦ 13 。
【0022】 この量子化の後、LPCパラメータは次の再帰公式により計算される。即ち、
【外9】
【0023】 LPCパラメータaはLPC分析の結果としてLTP分析とパルスパラメータ
発生の入力量として使用される。スカラー量子化では、その時の反射係数記憶器
【外10】 された他の量と共に記憶され、再生側で音声復号化を行う時、音声信号を復元す
るために使用される。その場合、ブロック当たり全部で 14 個のLPCパラメー
【外11】
【0024】 LTP分析は以下のように行われる。入力信号として、LTP分析にはLPC
分析で求めたLCPパラメータaの外に、LPC残留信号r(n) (0≦n≦ 71
)および遅延させた全励起信号ev が導入される。このLPC残留信号r(n) は
それぞれ一つの下位ブロックに付属し、入力したデジタル音声信号sがLPC反
転フィルタ、
【外12】 を通して導入することにより求まる。このため、反転濾波にはLPC分析の範囲
内で求めたLPCパラメータaも導入される。
【0025】 LPCパラメータaに重み係数γItp = 0.7で重みを付ける。即ち、
【外13】 このようにして重みを付けたLPCパラメータは、フィルタ、
【外14】 のパルス応答の最初の 36 個のサンプリング値、
【外15】 を計算するために使用される。この場合、重み付きLPCパラメータai (Itp) とパルス応答h(Itp) の計算がブロック毎に一回行われるが、各下位ブロックに
対する他の計算は個々に行われる。
【0026】 LPC残留信号r(n) からフィルタ
【外16】 により重み付き入力信号、
【外17】 が求まる。
【0027】 適応コードブックの検索に対する目標ベクトル、
【外18】 は信号、
【外19】 を信号xItp(n) から引算して得られる。この信号yItp(n) も伝達関数、
【外20】 を有するフィルタから得られる。このフィルタには零信号が入力し、更に重みを
付けたLPCパラメータaItp が導入される。この場合、フィルタ状態量は各下
位ブロック濾波の前に、全励起信号eが印加するフィルタ、
【外21】 がそれぞれ前の下位ブロックの端部に有する値に設定される。
【0028】 コードブックの検索はそれぞれ 72 のサンプリング値のコード語にわたる長さ
に延びている。これ等の長さは通過した 186の全励起信号サンプリング値e(n)
から以下の関係、
【外22】 により形成される。ここで−186 ≦n≦−1である。この場合、
【外23】 が成立する。
【0029】 適応コードブックの検索では整数の遅延mのみを考慮する。適応コードブック
の検索は 151の遅延の全範囲にわたり各ブロックの最初の下位ブロックでのみ行
われる。各ブロックの他の下位ブロックでは 48 の遅延の減少した範囲のみがそ
れぞれ検索される。この範囲は、先の下位ブロックで求めた遅延に依存し、以下
の式で決まる。即ち、
【外24】 この場合、Mprevはそれぞれ前の下位ブロックをLTP分析して生じた遅延であ
る。
【0030】 最良の遅延Mの選択は、
【外25】 を求めて行われる。この場合、
【外26】 が当てはまり、fm(n) はパルス応答h(Itp)(n) で定まるFIRフィルタのコー
ド語cm(n) への応答であり、このフィルタの消去された状態記憶器に由来する 。
【0031】 最適な遅延Mを決定した後、付属する最適な増幅率を式、
【外27】 により計算する。次いで、5ビット線形量子化器で、例えば記憶された表を使用
してこの増幅率を量子化する。得られた量子化された増幅率βは次の式により適
応コードブックから得られた実際の下位ブロックに対する励起ベクトルの成分を
計算するために使用される。即ち、
【外28】 四つの下位ブロックで得られた遅延は全部で 24 ビットを使用して次のように符
号化される。即ち、MS が下位ブロックs(1≦s≦4)の遅延であることを前
提として、 24 ビットの遅延コードは以下の式で計算される。つまり、
【外29】 この場合、mmin(s) は下位ブロックsでの遅延に対する検索範囲の下限であ る。
【0032】 説明した方法によりLTP分析の範囲内で各下位ブロックに対して、適応コー
ドブックから求めた実際の下位ブロックに対する励起ベクトルの成分である信号
Itp (n) を求める。更に、各ブロックに対して遅延コード lagscode および増
【外30】 幅率に対する4つの量子化指数βを求める。これ等の指数はそれぞれ増幅率βの
値を記憶している付属する表記憶器のアドレスに対応する。上記係数 lagscode
【外31】 とβは他の符号化された量と共に記録され、再生側で音声復号化時に音声信号を
復元するために使用される。
【0033】 更に、パルスパラメータ発生を詳しく説明する。 パルスパラメータ発生は、LPC分析で求めたLPCパラメータaの外に、L
PC残留信号r(n) ,遅延された全励起信号ev およびLTP分析で求めた全励
起信号成分eItp を使用する。
【0034】 LPCパラメータaは重み係数γmpe = 0.9で重み付けされる。即ち、
【外32】 このように重み付けしたLPCパラメータは、フィルタ、
【外33】 のパルス応答の最初の 42 のサンプリング値、
【外34】 を計算するために使用される。ここでもLTP分析の場合のように、ブロック当
たり一度重み付けされたLPCパラメータai (mpe) およびパルス応答h(mpe)(n
) の計算が行われる。更に、ここでパルス応答h(mpe)(n) から次の式により自 動相関シーケンスを求める。つまり、
【外35】 他の計算はそれぞれ各ブロックについて個々に行われる。
【0035】 目標ベクトル、
【外36】 の計算は、原則的にLTP分析での目標ベクトルtItp の計算と同じ計算則を使
用して行われる。ここでも、入力信号の重み付け表示xmpe(n) が、
【外37】 でLPC残留信号を濾波して生じる。更に、信号ympe(n) は適応コードブック から零信号でなく、励起信号成分をフィルタ、
【外38】 で濾波して得られる。この状態量は各下位ブロック濾波の前に、全励起信号eが
入力するフィルタ、
【外39】 が先行する下位ブロックの終わりで有する値にセットされる。
【0036】 パルスパラメータを求めることは、パルス応答h(mpe)(n) ,自動相関シーケ ンスhh(mpe)(n) および目標ベクトルtmpe(n) を使用して行われる。これ等の
パルスパラメータは励起パルスが出力されなければならない各下位ブロックの7
つの位置を与え、更にパルス振幅に関する情報も有する。
【0037】 これに対して、ベクトル th(n)を次の式により求める。つまり、
【外40】 この時、第一のパルス位置は、
【外41】 で与えられる。求めた th 値は、
【外42】 に記憶され、これは長さ7のベクトル変数の第一要素である。第二のパルス位置
は以下のように求める。つまり、
【外43】
【外44】
【0038】 残った五つのパルス位置は、一つのループ内で以下のように求められる。つま
り、
【外45】
【0039】 説明した方法で7つのパルス位置を全て求めると、以下の再帰関係式を使用し
て付属するパルス振幅bj (1≦j≦7)が得られる。即ち、
【外46】
【0040】 こうして求めた7つのパラメータの対 [pj,j] ,それぞれパルス位置とパ ルス振幅は、最後に求めたパルスパラメータの対 [posj,amp'j] のパルス位置に
対する値が減少順となる、つまり、
【外47】 のように再分類される。この再分類は次の位置符号化に必要で、この位置符号化
は 31 ビットの位置コードを与える。この位置コードは二組の係数の和として計
算される。つまり、
【外48】
【0041】 パスル振幅 amp' は以下のように量子化される。即ち、ブロック最大値、つま
り7つのパルス振幅の値の最大値は、例えば記憶された表を用いて6ビットで非
線形量子化され、次いでパルス振幅を量子化されたブロック最大値で規格化し、
その次に、例えば他の表を用いて3ビットの線形量子化にかける。
【0042】 得られた非規格化された量子化パルス振幅 ampは最後に次の式によりパルス励
起ベクトルを形成するために使用される。即ち、
【外49】
【0043】 説明した方法により、パルスパラメータ発生の範囲内で信号empe(n) を求め 、実際の下位ブロックのパルスパラメータを用いて形成される励起ベクトルを求
める。
【外50】 量子化で生じ、8つの指数から成り、7つの振幅に加えてブロック最大値が量子
化される。これ等の係数は他の符号化された量と共に記録され、再生側で音声デ
コーダー内で音声信号を復元させるために使用される。これ等のパルスパラメー
【外51】 ブロックに対して一回行われる。
【0044】 更に、音声信号の復号化方法を説明する。
【外52】 付属する表を用いて 14 のLCPパラメータaを求める。更に、各下位ブロック
に対して他のパラメータM,β,pos と ampが復元される。この場合、一つのブ
ロックの4つの下位ブロックに対するLTP遅延M1 〜M4 は 24 ビット値 lag
scode から以下のように求める。即ち、
【外53】 この場合、mmin(s) は各下位ブロックの遅延に対する検索範囲の下限であり、
【外54】
【0045】 下位ブロックの5ビットで符号化されたLTP増幅率の値βは、例えば表記憶
器により求める。
【0046】 下位ブロックの7つのパルス位置 posj (1≦j≦7)は以下の計算式を使用
して 31 ビットの長さの位置コード poscodeから得られる。即ち、
【外55】
【外56】 ビットで符号化されたブロック最大値を、例えば付属する量子化表に基づき復号
化し、その次に規格化された7つの振幅を復号化することにより得られる。最後
に、復号化されたパルス振幅 ampをそれぞれ復号化されたブロック最大値と復号
化された規格化振幅の積として求める。
【0047】 各下位ブロックに対して求めたM,β,pos と ampに対する値から、次のステ
ップで励起信号を計算する。この計算は下位ブロックの各々に対して行う。つま
りブロック当たり4回行う。
【0048】 先ず、適応コードブックから得られた成分を以下のように計算する。即ち、
【外57】 ここで、cM(n) は遅延Mに付属する適応コードブックの記入値である。
【0049】 次いで、パルス励起ベクトル、
【外58】 を求める。その結果、励起信号e(n) は、
【外59】 となる。
【0050】 出力音声信号は、LPCパラメータaで求まるLPC合成フィルタ、
【外60】 から求まり、これには全励起信号e(n) が入力する。
【0051】 最後に、再処理段でデエンファシスにより録音側で大きくされた音声信号の高
い周波数を低下させることが伝達関数、
【外61】 を有するフィルタで行われる。更に、一定の再濾波あるいは適応濾波により、こ
のように再構築された音声信号の主観的な質の印象が影響を受ける。
【0052】 この発明の有利な構成によれば、上に説明した方法のビットレートは可変でき
るので、一般に周囲の雑音レベルが低い時、有効、つまり平均ビットレートを低
減できる。この構成では、入力信号を音声休止の発生に関して監視する音声活性
度検出器が使用されている。この音声休止の間にある信号は品質を低下させて伝
達されるか、記憶されるので、音声休止の期間中の信号は音声の存在時より相当
低いビットレートで符号化される。
【0053】 音声活性度検出器を実現するため信号エネルギを評価する。各合成ブロックに
対する入力信号の効率が、
【外62】 となる。この効率値は適応しきい値 Thrと比較される。このしきい値は以下のよ
うにして求める。即ち、
【0054】 雑音効率の予測値Pn は関係式、
【外63】 によりその時のブロックの信号エネルギPよりも大きくならない限り、ブロック
毎に大きくされる。この条件が満たされないなら、この予測値はリセットされ、
【外64】 となる。Pn をこのようにした後、場合によって、範囲、
【外65】 の外にある結果は上限もしくは下限にセットされる。雑音効率に対する予測値の
初期化は、しきい値・遷移期間中に低レベルの音声信号を音声休止と解釈するこ
とを避けるため、
【外66】 で行われる。このしきい値・遷移期間を短く保持するため、最初の 50 ブロック
を処理する間に生じる入力信号の最小効率Pmin を求める。この最初の 50 ブロ
ックの後、音声休止が認められない限り、Pmin がPn より大きい時、雑音効率
の予測値を関係式、
【外67】 により高める。
【0055】 雑音効率に対するこの予測値に基づき、判定しきい値が以下のように計算され
る。即ち、
【外68】 次いで、その時のブロックに対して音声休止があるか否か、つまり、
【外69】 に関する暫定的な判定が行われる。
【0056】 音声休止があるか否かに関する最終的な判定は、関係式、
【外70】 により行われる。これは、現在のブロックと最後の5つのブロック内で求めた信
号効率がしきい値以下である時にのみ、現在のブロックを音声信号のないブロッ
クと分類することを意味する。
【0057】 音声信号のないブロックはスペクトラルカラー化された雑音としてモデル化さ
れる。このブロックのために、その時零である音声活性度に加えて、LPC係数
と増幅率が下位ブロック毎に記憶される。LPC分析と反射係数の符号化/復号
化は音声信号に対するのと同じように行われ、これは一ビット小さい 14 の反射
係数を量子化するためだけに使用される。
【0058】 デコーダ側で音声活性度のないブロックで生じる出力信号はLPC合成フィル
タの出力信号として現れる。これはそのように量子化されたLPCパラメータで
定まり、ほぼ白色雑音信号が加わる。この信号は、増幅率δで等級付けされる−
1と1の間の振幅領域に均等に分布する乱数u(n) を出力する擬似雑音発生器か
ら取り出せる。
【0059】 エンコーダ中では下位ブロック毎に一度そのような増幅率を求める。これは、
励起信号エネルギがLPC残留信号r(n) のエネルギレベルより3 dB以下にあ
るレベルに合わせることによって行われる。増幅率を同時に5ビット量子化する
ため、これには記憶した表を使用して、式
【外71】 を非線形量子化された雑音増幅率δの全保管量に対して最小化する。音声信号な
しでブロックの期間にわたる全ビットレートは、
【外72】 となる。
【0060】 音声信号を有するブロックを符号化することおよび復号化することは、一定の
ビットレートの場合について上に説明したように大体行われる。ただ次の相違が
ある。即ち、
【0061】 −各ブロックに対する音声活性度の記憶は、1ビットの 14 の反射係数を上に説 明した一定のビットレートの実施例よりも少なく符号化することによりビット レートを変更することなく可能である。
【0062】 −音声信号エンコーダおよび音声信号デコーダでは、適応コードブックが音声信 号を有するブロックに由来する励起ベクトルのみを有することを確認する必要 がある。これは、音声信号なしにブロックを符号化するために使用する雑音励 起が適応コードブック内に組み入れてない、即ち適応コードブックが音声信号 なしにブロックにあると活性化されないもしくは凍結されることを意味する。 更に、デコーダ側の計算の範囲内では、重み付けフィルタのフィルタ記憶器と 合成フィルタが音声信号なしのブロックから音声信号を有するブロックへ移行 する毎にリセットされる必要がある。
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成12年1月6日(2000.1.6)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0003
【補正方法】変更
【補正内容】
【0003】 上記の基本原理に従って動作する従来の技術は、米国特許第 4,133,976号明細
書、米国特許第 3,631,520号明細書および米国特許第 3,502,986号明細書により
周知である。 欧州特許出願公開第 0 657 874号明細書によりデジタル音声信号から予測パラ
メータを算出する音声エンコーダが知られている。適応コードブックに基づきこ
のエンコーダは励起信号成分を求める。更に、このエンコーダは音声信号から励
起信号の多パルス成分を求める。音声信号を処理する場合、音声信号が異なった
時間領域に分割され個々に処理される。 米国特許第 5,327,520号明細書により逆適応性のAGCにより既に記憶されて
いる比較用のコードベクトルが入力音声信号と比較される音声エンコーダが知ら
れている。簡単のため、これは表で管理される。 "Low Complexity Speech Coder for Personal Multimedia Communication",
IKEDO, J. et al, 1995 Fourth IEEE International Conference on Universal
Personal Communications Record, Gateway to the 21 st Century, Tokyo, 06
- 10, Nobember 1995 により、遅延された全励起信号から記入のある適応コード
ブックが知られている。このコードブックでは、第一下位ブロックをその都度完
全に調べるが、他の下位ブロックでは特定な部分領域のみしか検索しない。 "Efficient Computation and Encoding of the Multipulse Excitation for L
PC", Berouti, M. et al, ICASSP 84, Proceedings of the IEEE International
Conference on Acoustics, Speech and Signal Processing, San Diego, USA, 1
9 - 23 March 1984, pp. 10.1/1-4 によりパルス位置と付属する振幅に基づき多
パルス励起ベクトルを符号化する符号化方法が知られている。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】図面の簡単な説明
【補正方法】追加
【補正内容】
【図面の簡単な説明】
【図1】 デジタル口述装置用の音声信号エンコーダに対する実施例のブロック回路図、
【図2】 LPC分析を説明するための図1の回路ブロック1の詳細なブロック回路図、
【図3】 LTP分析を説明するための図1の回路ブロック3の詳細なブロック回路図、
【図4】 パルスパタメータの発生を説明するための図1の回路ブロック4の詳細なブロ
ック回路図、
【図5】 デジタル口述装置用の音声信号デコーダに対する実施例のブロック回路図、
【図6】 音声信号のないブロックに対するデコーダのブロック回路図である。
【符号の説明】 1 音声信号分析器 11 入力信号ブロックに重みを付ける回路 12 自動相関シーケンスを計算する回路 13 予測パラメータを計算する回路 14 帯域を拡張する回路 15 反射係数を求める回路 16 量子化器 17 予測パラメータを計算する回路 2 反転フィルタ 21 重み付け回路 22 合成フィルタ 23 回路 24 重ね合わせ回路 25 合成フィルタ 26 回路 27 合成フィルタ 3 励起信号成分を求める回路 4 多パルス成分を求める回路 41 重み付け回路 42 合成フィルタ 43 自動相関シーケンスを計算する回路 44 回路 45 重ね合わせ回路 46 合成フィルタ 47 回路 48 合成フィルタ 5 加算器 6 遅延回路 7 パラメータ復号器 71 表記憶器 72 表記憶器 73 計算回路 74 回路 75 回路 76 雑音発生器 77 多重化器 78 合成フィルタ 8 励起信号を求める回路 9 合成フィルタ
【外72】 a LPCパラメータ AB(n) 分析ブロック aItp 遅延された重み付け予測パラメータ amp 予測パラメータ ampe 重み付けされた予測パラメータ e 全励起信号 eItp 励起信号成分 eItp 励起ベクトル empe 励起ベクトル ev 遅延された全励起信号 hhmpe 自動相関シーケンス hItp パルス応答 hmpe パルス応答 r LPC残留信号 s 音声信号 SB(n) 合成ブロック tItp 目標ベクトル tmpe 目標ベクトル V 前処理回路 xItp 重み付けされた入力信号 xmpe 出力信号 yItp 信号 ympe 出力信号
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成12年1月6日(2000.1.6)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正内容】
【特許請求の範囲】

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 音声信号を符号化する時、 −デジタル音声信号から予測パラメータを求める音声信号分析を行い、 −励起信号成分を適応コードブックから求め、この適応コードブックを遅延され た信号で形成し、 −励起信号の多パルス成分を求め、そして、 −上記した求めることがその都度考慮される励起信号から生じる信号の入力音声 信号からの重み付け濾波されたずれの効率を最小化して決定され、 および、音声信号を復号化する時、 −量子化された伝達量を回収するためパラメータ復号化を行い、 −適応コードブックにより再生された成分から励起信号を発生することを行い、 そして −励起信号と再生された予測パラメータを使用する合成濾波により再生された音 声信号を形成することが行われる、 特にデジタル口述装置のため音声信号を符号化および/または復号化する方法に
    おいて、 音声信号を符号化する時、 −一定数のサンプリング値を有する連続して重なり合うブロックにデジタル音声 信号を処理し、励起信号パラメータを求めるためにその都度再び一定数のサン プリング値を有する一定数の下位ブロックに前記サンプリング値を分割し、 −予測パラメータを決定するためブロック毎に行われる音声信号の分析から生じ る反射係数を個別に合わせた量子化表によりスカラー量子化にかけ、 −遅延された全励起信号から生じる記入事項からLTP分析時に使用する適応コ ードブックを形成し、前記全励起信号を各ブロックの最初の下位ブロックで完 全に検索し、他方、他の下位ブロックではその都度前の遅延により決まるそれ ぞれただ一つの一定の部分領域のみを検索し、 −全ての下位ブロックに対する遅延値を符号化して共通に遅延コードにし、付属 する増幅率を個々に線形量子化し、 −一つの下位ブロックに対して求めた多パルス励起ベクトルの各々が一定数のパ ルスの外に零サンプリング値のみを含み、その場合、それぞれ下位ブロックの 前記パルス位置を符号化して共通に位置コードにし、振幅値の最大値を非線形 量子化し、規格化されパルス振幅を線形量子化するブロックに適応する線形量 子化に付属する振幅をかけ、 および、音声信号を復号化する時、 −量子化された反射係数を復元するため表記憶器を用いてパラメータの復号化を 行い、 −パラメータを復号化する時に適応コードブックから求めた成分に対する遅延を 遅延コードから算出し、その場合一つのブロックの最初の下位ブロックに対す る遅延が遅延された全励起信号のサンプリング周期の範囲内にあり、他の下位 ブロックに対する遅延がそれぞれ先行する遅延により定まる範囲内にあり、 −パラメータを復号化する時に適応コードブックから求めた励起信号の成分に対 する線形化された増幅率を算出するか、一つの表から復元し、 −パラメータを復号化する時に一つの下位ブロックの励起ベクトルの多パルス成 分に対する各パルス位置を算出し、その場合それぞれ位置コードから下位ブロ ックの位置値を復元し、 −パラメータを復号化する時に一つの下位ブロックの励起信号の多パルス成分に 対するパルス振幅を求め、その場合、それぞれ非線形量子化されたブロック最 大値と線形量子化され規格化されたパルス振幅を復元し、その時、下位ブロッ クの量子化され非規格化されたパスル振幅を乗算により再生する、 ことを特徴とする特にデジタル口述装置のため音声信号を符号化および/または
    復号化する方法。
  2. 【請求項2】 デジタル音声信号をサンプリングするため、 11 と 13 kHz の 間のサンプリング周波数を使用し、一つのブロックのサンプリング値の個数は下
    位ブロックの個数の複数倍に設定されていることを特徴とする請求項1に記載の
    特にデジタル口述装置のため音声信号を符号化および/または復号化する方法。
  3. 【請求項3】 サンプリング値の個数を 288に設定し、下位ブロックの個数を4
    に設定し、下位ブロックのサンプリング値の個数を 72 に設定することを特徴と
    する請求項2に記載の特にデジタル口述装置のため音声信号を符号化および/ま
    たは復号化する方法。
  4. 【請求項4】 反射係数の個数を 14 に設定し、その量子化に対して5,5,
    4,4,4,4,4,4,3,3,3,3,3または3または2ビットを利用す
    ることを特徴とする請求項1に記載の特にデジタル口述装置のため音声信号を符
    号化および/または復号化する方法。
  5. 【請求項5】 適応コードブックを発生させるため、 36 と 186の間のサンプリ
    ング周期だけ遅延させた全励起信号値を使用し、第二の下位ブロック以降に検索
    すべき部分領域をそれぞれ 48 の遅延値に設定し、遅延コードを 24 ビットの長
    さに設定し、5ビットで増幅率の線形量子化を行うことを特徴とする請求項1に
    記載の特にデジタル口述装置のため音声信号を符号化および/または復号化する
    方法。
  6. 【請求項6】 他の処理を行う前に、非常に低い低周波成分を抑制し、高い周波
    数の成分を軽く強調する前置濾波に符号化すべき音声信号をかけることを特徴と
    する請求項1に記載の特にデジタル口述装置のため音声信号を符号化および/ま
    たは復号化する方法。
  7. 【請求項7】 予測パラメータを求めるため音声信号分析を一定の時間範囲に利
    用し、前記時間範囲はブロックをそれぞれ一定の時間間隔だけ過去と未来に突出
    させるので、隣接する分析部分に生じる重なりにより、音声信号の非一定性を分
    析結果に利用することを特徴とする請求項1〜6の何れか1項に記載の特にデジ
    タル口述装置のため音声信号を符号化および/または復号化する方法。
  8. 【請求項8】 分析時間範囲の特定な長さは 27 msであり、その範囲は処理ブロ
    ックに対して中心に置かれていることを特徴とする請求項7に記載の特にデジタ
    ル口述装置のため音声信号を符号化および/または復号化する方法。
  9. 【請求項9】 安定化を伴う自動相関方法による 14 次のLPC分析を行う前に
    それぞれ 14 のサンプリング値の窓エッジ長さを持つ台形窓付けに分析部分をか
    け、遮断周波数が 50 Hz の前置濾波を行い、個々に合わせた代表値の表の記入
    から非量子化された値のユークリッド間隔を単純に最小化して反射係数のスカラ
    ー量子化を行い、得られたLPCパラメータを係数 0.7の重み付けにかけ、これ
    により適応コードブックから励起信号成分を求めるためにLTP分析を行い、こ
    の分析ではそれぞれ当該コードブック記入から得られた信号の入力信号音声信号
    からの重み付け濾波したずれの効率を最小化し、そして予測パラメータの決定か
    ら得られたLPCパラメータを係数 0.9の重み付けにかけ、これにより励起信号
    の多パルス成分を求めることを特徴とする請求項1〜8の何れか1項に記載の特
    にデジタル口述装置のため音声信号を符号化および/または復号化する方法。
  10. 【請求項10】 音声信号符号化および/または音声信号復号化を可変ビットレ
    ートで行い、音声休止の出現に関して入力信号を監視し、音声休止を認識し、音
    声休止の監視では入力信号の信号効率を評価し、音声休止の監視では入力信号の
    信号効率を適応しきい値と比較し、入力信号の信号効率の評価をブロック毎に行
    い、連続する多数のブロック内で求めた信号効率がしきい値以下にある時、音声
    休止を検出し、音声休止の存在の識別符号として音声ビットを保管し、音声信号
    のないブロックがある時、雑音発生器で励起信号ベクトルを受信側で発生させる
    ことを特徴とする請求項1〜9の何れか1項に記載の特にデジタル口述装置のた
    め音声信号を符号化および/または復号化する方法。
JP2000502499A 1997-07-10 1998-07-04 長期間予測と多重パルス励起信号を用いて音声信号を符号化および/または復号化する方法 Pending JP2001509616A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19729494A DE19729494C2 (de) 1997-07-10 1997-07-10 Verfahren und Anordnung zur Codierung und/oder Decodierung von Sprachsignalen, insbesondere für digitale Diktiergeräte
DE19729494.4 1997-07-10
PCT/EP1998/004144 WO1999003094A1 (de) 1997-07-10 1998-07-04 Verfahren zur codierung und/oder decodierung von sprachsignalen unter verwendung von einer langfristigen prädiktion und einem mehrimpulsanregungssignal

Publications (1)

Publication Number Publication Date
JP2001509616A true JP2001509616A (ja) 2001-07-24

Family

ID=7835233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000502499A Pending JP2001509616A (ja) 1997-07-10 1998-07-04 長期間予測と多重パルス励起信号を用いて音声信号を符号化および/または復号化する方法

Country Status (6)

Country Link
US (1) US6246979B1 (ja)
EP (1) EP0993672B1 (ja)
JP (1) JP2001509616A (ja)
AT (1) ATE230889T1 (ja)
DE (2) DE19729494C2 (ja)
WO (1) WO1999003094A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006030865A1 (ja) * 2004-09-17 2006-03-23 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置、スケーラブル復号化装置、スケーラブル符号化方法、スケーラブル復号化方法、通信端末装置および基地局装置

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006174A (en) * 1990-10-03 1999-12-21 Interdigital Technology Coporation Multiple impulse excitation speech encoder and decoder
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6959274B1 (en) 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US7389227B2 (en) * 2000-01-14 2008-06-17 C & S Technology Co., Ltd. High-speed search method for LSP quantizer using split VQ and fixed codebook of G.729 speech encoder
US7013268B1 (en) 2000-07-25 2006-03-14 Mindspeed Technologies, Inc. Method and apparatus for improved weighting filters in a CELP encoder
EP1528702B1 (en) * 2003-11-03 2008-01-23 Broadcom Corporation FEC (forward error correction) decoding with dynamic parameters
US7991611B2 (en) * 2005-10-14 2011-08-02 Panasonic Corporation Speech encoding apparatus and speech encoding method that encode speech signals in a scalable manner, and speech decoding apparatus and speech decoding method that decode scalable encoded signals
EP2042284B1 (de) * 2007-09-27 2011-08-03 Sulzer Chemtech AG Vorrichtung zur Erzeugung einer reaktionsfähigen fliessfähigen Mischung und deren Verwendung
JP2010060989A (ja) * 2008-09-05 2010-03-18 Sony Corp 演算装置および方法、量子化装置および方法、オーディオ符号化装置および方法、並びにプログラム
JP2010078965A (ja) * 2008-09-26 2010-04-08 Sony Corp 演算装置および方法、量子化装置および方法、並びにプログラム
JP4702645B2 (ja) * 2008-09-26 2011-06-15 ソニー株式会社 演算装置および方法、量子化装置および方法、並びにプログラム
US20100324913A1 (en) * 2009-06-18 2010-12-23 Jacek Piotr Stachurski Method and System for Block Adaptive Fractional-Bit Per Sample Encoding
WO2011000434A1 (en) * 2009-07-03 2011-01-06 Nokia Corporation An apparatus
EP2657933B1 (en) * 2010-12-29 2016-03-02 Samsung Electronics Co., Ltd Coding apparatus and decoding apparatus with bandwidth extension
WO2023230763A1 (en) * 2022-05-30 2023-12-07 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for estimating time delay between excitation signal and stimulated signal

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3502986A (en) * 1967-12-14 1970-03-24 Bell Telephone Labor Inc Adaptive prediction for redundancy removal in data transmission systems
US3631520A (en) * 1968-08-19 1971-12-28 Bell Telephone Labor Inc Predictive coding of speech signals
US4133976A (en) * 1978-04-07 1979-01-09 Bell Telephone Laboratories, Incorporated Predictive speech signal coding with reduced noise effects
CA1323934C (en) 1986-04-15 1993-11-02 Tetsu Taguchi Speech processing apparatus
CA2027705C (en) * 1989-10-17 1994-02-15 Masami Akamine Speech coding system utilizing a recursive computation technique for improvement in processing speed
JPH0477800A (ja) * 1990-07-19 1992-03-11 Nec Corp ベクトル量子化コードブック作成方式
JP2776050B2 (ja) * 1991-02-26 1998-07-16 日本電気株式会社 音声符号化方式
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5327520A (en) 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
US5513297A (en) 1992-07-10 1996-04-30 At&T Corp. Selective application of speech coding techniques to input signal segments
CA2137756C (en) 1993-12-10 2000-02-01 Kazunori Ozawa Voice coder and a method for searching codebooks
JP3364825B2 (ja) * 1996-05-29 2003-01-08 三菱電機株式会社 音声符号化装置および音声符号化復号化装置
FI964975A (fi) * 1996-12-12 1998-06-13 Nokia Mobile Phones Ltd Menetelmä ja laite puheen koodaamiseksi

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006030865A1 (ja) * 2004-09-17 2006-03-23 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置、スケーラブル復号化装置、スケーラブル符号化方法、スケーラブル復号化方法、通信端末装置および基地局装置
US7848925B2 (en) 2004-09-17 2010-12-07 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus, scalable encoding method, scalable decoding method, communication terminal apparatus, and base station apparatus
US8712767B2 (en) 2004-09-17 2014-04-29 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus, scalable encoding method, scalable decoding method, communication terminal apparatus, and base station apparatus

Also Published As

Publication number Publication date
US6246979B1 (en) 2001-06-12
DE19729494C2 (de) 1999-11-04
DE59806874D1 (de) 2003-02-13
DE19729494A1 (de) 1999-01-14
EP0993672B1 (de) 2003-01-08
EP0993672A1 (de) 2000-04-19
ATE230889T1 (de) 2003-01-15
WO1999003094A1 (de) 1999-01-21

Similar Documents

Publication Publication Date Title
Atal Predictive coding of speech at low bit rates
KR101246991B1 (ko) 오디오 신호 처리 방법
KR100754085B1 (ko) 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법
JP2964879B2 (ja) ポストフィルタ
US6345246B1 (en) Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates
US6681204B2 (en) Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
JP2001509616A (ja) 長期間予測と多重パルス励起信号を用いて音声信号を符号化および/または復号化する方法
JPH09204197A (ja) 周波数領域内のlpc予測による時間領域内での知覚ノイズ整形
JP4558205B2 (ja) スピーチコーダパラメータの量子化方法
JP3357795B2 (ja) 音声符号化方法および装置
JPH0590974A (ja) 前反響処理方法およびその装置
JP3248668B2 (ja) ディジタルフィルタおよび音響符号化/復号化装置
JP3248215B2 (ja) 音声符号化装置
JP4281131B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP3531780B2 (ja) 音声符号化方法および復号化方法
JPH09508479A (ja) バースト励起線形予測
JP3583945B2 (ja) 音声符号化方法
JPH028900A (ja) 音声符号化復号化方法並びに音声符号化装置及び音声復合化装置
JP3798433B2 (ja) ピッチサイクル波形を平滑化する方法及び装置
JP2900431B2 (ja) 音声信号符号化装置
JPH06202698A (ja) 適応ポストフィルタ
JP2853170B2 (ja) 音声符号化復号化方式
JP3274451B2 (ja) 適応ポストフィルタ及び適応ポストフィルタリング方法
JPH0786952A (ja) 音声の予測符号化方法
JP3350340B2 (ja) 音声符号化方法および音声復号化方法

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20050124

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050124

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070612

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080422