JP2003512654A - 音声の可変レートコーディングのための方法およびその装置 - Google Patents

音声の可変レートコーディングのための方法およびその装置

Info

Publication number
JP2003512654A
JP2003512654A JP2001532535A JP2001532535A JP2003512654A JP 2003512654 A JP2003512654 A JP 2003512654A JP 2001532535 A JP2001532535 A JP 2001532535A JP 2001532535 A JP2001532535 A JP 2001532535A JP 2003512654 A JP2003512654 A JP 2003512654A
Authority
JP
Japan
Prior art keywords
speech
subframe
classification
voiced
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001532535A
Other languages
English (en)
Inventor
ワン,シファ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Atmel Corp
Original Assignee
Atmel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Atmel Corp filed Critical Atmel Corp
Publication of JP2003512654A publication Critical patent/JP2003512654A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Abstract

(57)【要約】 合成による分析を用いた音声コーディング方法は入力音声をサンプリングするステップと、結果として得られる音声サンプルをフレームとサブフレームとに分割するステップとを含む。フレームを分析して合成フィルタ(136)のための係数を決定する。サブフレームを無声(116)、有声(118)、および頭子音(114)分類へと分類する。この分類に基づいて、異なるコーディング方式を用いる。コーディングされた音声は合成フィルタ(136)へと送られ、その出力(138)が入力音声サンプル(104)と比較されてエラー信号(144)が生成される。次に、エラー信号によってコーディングを調整する。

Description

【発明の詳細な説明】
【0001】
【発明の技術分野】
この発明は一般に音声分析に関し、より具体的には音声を圧縮するための効率
的なコーディング方式に関する。
【0002】
【背景技術】
音声コーディング技術は近年飛躍的に進歩した。G.729、G.723等の
ワイヤおよびワイヤレス電話標準の音声コーダーと、新しく発展しつつあるGS
M AMRとにおいては、約8kbps以下のレートで非常に優れた品質が示さ
れている。米国連邦政府標準のコーダーによってさらに、2.4kbpsという
低いレートで優れた品質の合成音声を達成できることが示される。
【0003】 これらのコーダーは急速に成長している電気通信市場の需要を満たしてはいる
が、消費者用の電子応用技術では適切な音声コーダーが未だに不足している。典
型的な例には、留守番録音装置、口述録音機、およびボイスオーガナイザー等の
消費者用のアイテムが含まれる。これらの応用では、音声コーダーは、商業的に
受容されるために優れた品質の再生機能を提供しなければならず、録音材料の記
憶要求量を最小に保つために高い圧縮比を提供しなければならない。反面、これ
らの装置は独立したユニットであるため、他のコーダーとの相互運用性は必要と
されない。したがって、固定されたビットレート方式またはコーディング遅延と
いう制約に準拠する必要はない。
【0004】 したがって、高い品質の合成音声を提供することのできる低ビットレートの音
声コーダーが必要とされている。独立した応用であるための緩い制約を組み込ん
で、高品質で、かつ低コストのコーディング方式を提供することが望まれる。
【0005】
【発明の概要】
この発明の音声符号化法は合成による分析に基づき、音声入力をサンプリング
して音声サンプルストリームを生成することを含む。サンプルを第1の組の群(
フレーム)にグループ分けする。フレームの分析から、音声合成フィルタのため
の線形予測コーディング(LPC)係数を計算する。音声サンプルをさらに第2
の組の群(サブフレーム)にグループ分けする。これらのサブフレームを分析し
てコーディングされた音声を生成する。サブフレームの各々は無声、有声、また
は頭子音分類に分類される。分類に基づいて、ある特定のコーディング方式を選
択して群を含む音声サンプルを符号化する。たとえば、無声音声には利得/形状
符号化方式を用いる。音声が頭子音音声ならば、マルチパルスモデリング技術を
用いる。有声音声に関しては、このような音声のピッチ周波数に基づいてさらな
る判断が行なわれる。低ピッチ周波数の有声音声では、長期予測子と単一パルス
とを加算することによって符号化が達成される。高ピッチ周波数の有声音声では
、符号化はピッチ周期によって間隔をあけられた一連のパルスに基づく。
【0006】
【発明の実施の最良の態様】
図1では、この発明の音声符号器100のハイレベル構想ブロック図によって
、入力音声信号を受取るためのA/D変換器102が示される。好ましくは、A
/Dは毎秒8000サンプルのサンプリングレートを備える16ビットの変換器
であり、こうしてサンプルストリーム104が生成される。当然のことながら3
2ビット復号器(またはより低い解像度の復号器)も用いられ得るが、16ビッ
トのワードサイズが適切な解像度を提供すると見なされた。所望の解像度はコス
ト要件および所望のパフォーマンスレベルに応じて変わる。
【0007】 サンプルはフレームへと、さらにはサブフレームへとグループ分けされる。3
2mSの音声を示すサイズ256サンプルのフレームが経路108に沿って線形
予測コーディング(LPC)ブロック122へと送られ、また経路107に沿っ
て長期予測(LTP)分類ブロック115へと送られる。加えて、各フレームは
各々が64サンプルである4つのサブフレームへと分割され、それらが経路10
6に沿ってセグメンテーションブロック112に送られる。したがって、この発
明の符号化方式はフレームごとに、サブフレームのレベルで起こる。
【0008】 以下でより詳細に説明されるように、LPCブロック122はフィルタ係数1
32を生成し、それが137で量子化され、フィルタ係数が音声合成フィルタ1
36のパラメータを規定する。各フレームに対して1組の係数が生成される。L
TP分析ブロック115は入力音声のピッチ値を分析し、ピッチ予測係数を生成
し、それが有声励起コーディング方式ブロック118へと送られる。セグメンテ
ーションブロック112はサブフレームごとに動作する。サブフレームの分析に
基づいて、セグメンテーションブロックはセレクタ162および164を動作さ
せて3つの励起コーディング方式114−118のうちの1つを選択し、それに
よってサブフレームがコーディングされて励起信号134が生成される。3つの
励起コーディング方式、すなわちMPE(頭子音励起コーディング)114、利
得/形状VQ(無声励起コーディング)116、および有声励起コーディング1
18は以下でより詳細に説明される。励起信号は合成フィルタ136へと送られ
て合成音声138が生成される。
【0009】 一般に、合成音声はアナログ加算器(summer)142によって音声サンプル10
4と組合せられてエラー信号144が生成される。エラー信号は知覚重み付けフ
ィルタ(perceptual weighting filter)146へと送られて重み付きエラー信号
が生成され、それが次にエラー最小化ブロック148へと送られる。エラー最小
化ブロックの出力152によって励起信号134に対する後続の調整が行なわれ
てエラーが最小にされる。
【0010】 この合成による分析ループ内でエラーが適切に最小化されると、励起信号が符
号化される。次に、フィルタ係数132と符号化励起信号134とが組合せ回路
182によって組合せられてビットストリームになる。次に、ビットストリーム
は後の復号化のためにメモリ内に記憶されるか、または遠隔復号ユニットに送ら
れ得る。
【0011】 次に、図2のフローチャートで示されるこの発明の好ましい態様に従った符号
化プロセスを考察する。処理はフレームごとにサンプリングされた入力音声10
4のLPC分析202で始まる。好ましい態様では、フレームを含む各サブフレ
ームのための自己相関法を用いて、入力音声s(n)上で10次LPC分析を行
なう。分析ウィンドウは192サンプル(3サブフレーム幅)で設定され、各サ
ブフレームの中心に揃えられる。所望の192サンプルサイズになるように入力
サンプルを切捨てることは、ハミングウィンドウオペレータという公知の技術に
よって達成される。図3Aを少し参照して、現在のフレームの中の第1のサブフ
レームの処理は前のフレームの第4のサブフレームを含むことが注目される。同
様に、現在のフレームの第4のサブフレームの処理は後続のフレームの第1のサ
ブフレームを含む。フレーム上のこの重なりは、処理ウィンドウが3サブフレー
ム幅であるために起こる。自己相関関数は以下のように表される。
【0012】
【数1】
【0013】 式中、Naは192である。 次に、結果として得られる自己相関ベクトルに対して帯域幅拡大が行なわれ、
これは自己相関ベクトルを定数のベクトルで乗じることを含む。帯域幅拡大によ
ってホルマントの帯域幅が広くなり、帯域幅を実際より狭く見積りにくくなる。
【0014】 話者の中にはその特定の鼻音が非常に広いスペクトルダイナミックレンジによ
って特徴付けられている場合があることが認められた。これはDTMF信号内の
ある正弦音にも当てはまる。結果として、対応する音声スペクトルは非常に狭い
帯域幅を有する大きく鋭いスペクトルピークを示し、LPC分析から不所望な結
果が出る。
【0015】 この異常な状態を克服するために、自己相関ベクトルにシェーピングされたノ
イズ訂正ベクトルが適用される。これは、音声スペクトルにおいてノイズフロア
を加えることに等しい、(G.729等の)他のコーダーで用いられるホワイト
ノイズ訂正ベクトルとは対照的なものである。ノイズ訂正ベクトルはV形状のエ
ンベロープを有し、自己相関ベクトルの第1の要素によってスケーリングされる
。その演算が式2で表される。
【0016】
【数2】
【0017】 周波数ドメインでは、ノイズ訂正ベクトルはロールオフシェイプスペクトルに
対応し、これはスペクトルがより高い周波数でロールオフを有することを意味す
る。このスペクトルを式2で表される様態で元の音声スペクトルと組合せること
によって、元の音声のスペクトルダイナミックレンジを減じるという所望の効果
が得られ、より高い周波数においてはノイズフロアが上がらないというさらなる
利点が得られる。ノイズ訂正ベクトルで自己相関ベクトルをスケーリングするこ
とによって、問題となる鼻音と正弦音とのスペクトルはより正確に抽出され得る
。さらには、結果として得られるコーディングされた音声にはノイズフロアを加
えたことにより、不所望な可聴高周波数ノイズが含まれることはない。
【0018】 最終的に、LPC分析(ステップ202)では、公知のダービン帰納的アルゴ
リズムに従って合成フィルタ136のための予測係数(フィルタ係数)を帰納的
に計算する。これを式3で表す。
【0019】
【数3】
【0020】 LPCベクトルを構成する1組の予測係数が現在のフレームの中の各サブフレー
ムのために生成される。加えて、公知の技術を用いて、第4のサブフレームのた
めの反射係数(RCi)が生成され、フレームのスペクトルのフラットさ(sf
n)を示す値が生成される。表示sfn=E(Np)/R0は、式3から求められる
正規化された予測エラーである。
【0021】 図2を再び参照して、プロセスの次のステップはLPCベクトルのLPC量子
化、ステップ204である。これはフレームごとに1回、各フレームの第4のサ
ブフレーム上で行なわれる。オペレーションは反射係数フォーマット内の第4の
サブフレームのLPCベクトル上で行なわれる。まず、反射係数ベクトルがログ
エリア比(LAR)ドメインに変換される。変換されたベクトルは次に第1のサ
ブベクトルと第2のサブベクトルとに分割される。第1のサブベクトルの成分は
1組の不平等スカラ量子化器によって量子化される。第2のサブベクトルは、2
56のコードブックサイズを有するベクトル量子化器に送られる。スカラ量子化
器はベクトル量子化と比較して計算およびROM要件に関してはそれほど複雑で
はないが、より多くのビットを消費する。一方で、ベクトル量子化器はハードウ
ェアでの複雑性を高めるという犠牲を払うことによってより高い効率性のコーデ
ィングを達成することができる。2つのサブベクトル上でスカラ量子化技術とベ
クトル量子化技術との両者を組合せることによって、複雑さを減じるためにコー
ディングの効率性を犠牲にして1.35dBの平均スペクトル歪み(SD)を得
ることができる。結果として得られるコードブックは1.25Kワードの記憶を
必要とするのみである。
【0022】 低いコーディングレートを達成するために、フレームごとに1回だけ(32m
Sごとに)予測係数を更新する。しかし、この更新レートはフレームからフレー
ムへのLPCスペクトル軌道の平滑な移行を維持するためには十分ではない。し
たがって、公知の補間技術を用いて、ステップ206において、予測係数の線形
補間をLARドメインで適用して合成フィルタ136での安定性を確実にする。
補間の後、ステップ208で、LARベクトルは直接フィルタリングのためにフ
ィルタによって予測係数フォーマットに変換し直される。
【0023】 図2で示される次のステップは、2つのサブフレーム内で開ループの様態で入
力音声のピッチ値を推定するためのステップ210の長期予測(LTP)分析で
ある。分析はフレームごとに2回行なわれ、4サブフレーム幅である256サン
プルのウィンドウサイズを用いて第1のサブフレームで1回、第3のサブフレー
ムで再び行なわれる。図3Bを少し参照して、分析ウィンドウは第1のサブフレ
ームの終わりを中心としているため前のフレームの第4のサブフレームを含むこ
とが注目される。同様に、分析ウィンドウは第3のサブフレームの終わりを中心
としているため後続のフレームの第1のサブフレームを含む。
【0024】 図4はLTP分析ステップのためのデータフローを示す。入力音声サンプルは
、LPC分析ステップで計算されたスペクトルのフラットさの表示(sfn)に
依存して、直接処理されるかまたはインバースフィルタ402を通して前処理さ
れるかのいずれかとなる。この選択を扱うスイッチ401は以下で考察される。
次に相互相関演算404が行なわれ、続いて相互相関結果の精密化演算406が
行なわれる。最終的に、ピッチ推定408が行なわれ、ブロック410でピッチ
予測係数が生成されて知覚重み付けフィルタ146内で用いられる。
【0025】 ブロック402に戻って、LPCインバースフィルタはFIRフィルタであり
、その係数は、LPC分析が行なわれているサブフレーム、つまりサブフレーム
1またはサブフレーム3のために計算された量子化されていないLPC係数であ
る。LPC残差信号res(n)は式4に従うことによりフィルタによって生成
される。
【0026】
【数4】
【0027】 式中、sltp[]はサンプリングされた音声を含むバッファである。 通常、相互相関ブロック404への入力はLPC残差信号である。しかし、鼻
音と鼻母音とのいくつかにおいては、LPC予測利得はかなり高い。結果として
、LPCインバースフィルタが基本周波数をほぼ完全に除去し、結果として得ら
れるピッチパルスは非常に弱いか、または残差信号内に全く存在しないことにな
る。この問題を克服するために、スイッチ401はLPC残差信号または入力音
声サンプルそのもののいずれかを相互相関ブロック404に供給する。スイッチ
は、ステップ202で前に計算されたスペクトルのフラットさの表示(sfn)
の値に基づいて動作する。
【0028】 スペクトルのフラットさの表示が予め定められたしきい値よりも小さい場合に
は、入力音声は極めて予測可能であるとされ、ピッチパルスは残差信号内で弱く
なる傾向にある。このような状況では、入力信号から直接ピッチ情報を抽出する
ことが望ましい。好ましい実施例では、図4で示されるように、しきい値は0.
017になるように経験的に選択される。相互相関関数404は以下のように定
義される。
【0029】
【数5】
【0030】 推定されたピッチ値の正確性を向上させるために、406において、アップサ
ンプリングフィルタおよび局所的最大探索法によって相互相関関数を精密化する
。式6で定義されるように、アップサンプリングフィルタは4倍に増大したサン
プリングレートを備える5タップFIRである。
【0031】
【数6】
【0032】 局所的最大値は元の整数値付近の補間領域の各々で選択されて、以前に計算さ
れた相互相関ベクトルに置換えられる。
【0033】
【数7】
【0034】 次に、精密化された相互相関関数上でピッチ推定法408を行なって開ループ
ピッチ遅れ値Lagを決定する。これは、まず予備ピッチ推定を行なうことを含
む。相互相関関数は3つの領域に分割され、その各々はピッチ遅れ値20−40
(領域1、400Hz−200Hzに対応)、40−80(領域2、200Hz
−100Hz)、および80−126(領域3、100Hz−63Hz)をカバ
ーする。各領域の局所的最大値を決定し、3つの局所的最大値の中から最良のピ
ッチ候補がlagvとして選択されるが、このときより小さな遅れ値が優先され
る。無声音声の場合には、これはサブフレームのための開ループピッチ遅れ推定
値Lagを構成する。
【0035】 発声サブフレームでは、初期のピッチ遅れ推定値の精密化がなされる。精密化
は事実上、現在のサブフレームに関する局所的ピッチ軌道を平滑化するため、開
ループピッチ遅れ値のより正確な推定値の基礎となるものを提供する。まず、3
つの局所的最大値を前のサブフレームのために決定されたピッチ遅れ値(lag P )と比較し、最大値の中でそれに最も近いものをlaghとして識別する。la
hが初期のピッチ遅れ推定値に等しければ、初期のピッチ推定値を用いる。そ
れ以外の場合には、ピッチ遅れ値lagv、lagh、lagp、およびその相互
相関値に基づいて、結果として平滑なピッチ軌道となるピッチ値が最終的な開ル
ープピッチ推定値として決定される。以下のC言語コードフラグメントがその処
理をまとめている。決定ポイントで用いられる制限は経験的に決定される。
【0036】
【数8】
【0037】 長期予測分析(ステップ210)の最終的なステップはピッチ予測ブロック4
10である。これは、計算された開ループピッチ遅れ値Lagに基づき、共分散
計算技術を用いて3タップピッチ予測子フィルタを得るために実行される。以下
の行列式を用いてピッチ予測係数cov[i]、i=0、1、2を計算し、それ
らを以下の知覚重み付けステップ(ステップ218)で用いる。
【0038】
【数9】
【0039】 図2に戻って、次のステップはサブフレーム内のエネルギ(パワー)の計算、
ステップ212である。サブフレームエネルギ(Pn)のための式は以下のよう
に表される。
【0040】
【数10】
【0041】 式中、以下の特別な場合を除いてはNpn=Nである。
【0042】
【数11】
【0043】 次はサブフレームのエネルギ勾配(EG)の計算、ステップ214であり、以
下の式10で表される。
【0044】
【数12】
【0045】 式中、PnPは前のサブフレームのエネルギである。 ステップ216では、音声セグメンテーション内で入力音声をサブフレームご
とに無声、有声、または頭子音分類へと分類する。カテゴリ分類は、ステップ2
12(式9)で計算されるサブフレームパワー、ステップ214(式10)で計
算されるパワー勾配、サブフレームゼロクロッシングレート、サブフレームの第
1の反射係数(RC1)、およびステップ210で前に計算されたピッチ遅れ値
に対応する相互相関関数を含む種々のファクタに基づく。
【0046】 ゼロクロッシングレート(ZC)は式11から求められる。
【0047】
【数13】
【0048】 式中、sgn(x)は符号関数である。有声音声では、信号は無声音声と比較し
てより少ない高周波数成分を含むため、ゼロクロッシングレートは低くなる。
【0049】 第1の反射係数(RC1)は範囲(1、−1)内のユニットサンプル遅延にお
ける入力音声の正規化された自己相関値である。このパラメータをステップ20
2のLPC分析から得ることができる。それは通過帯域全体上のスペクトルチル
トを測定する。大部分の有声音声では、スペクトルエンベロープは周波数ととも
に減少し、第1の反射係数は1に近づく。一方で、無声音声はフラットなエンベ
ロープを有しやすく、第1の反射係数は0に近いか、または0よりも小さくなる
【0050】 ステップ210の計算されたピッチ遅れ値に対応する相互相関関数(CCF)
は音声入力の周期性の主なインディケータである。その値が1に近い場合には、
音声は有声である可能性が非常に高い。より小さな値は音声内のランダムネスが
より多いことを示し、これは無声音声の特性である。 CCF=cros[Lag] 式12 ステップ216では、以下の決定木を実行して、上で計算された5つのファク
タ、Pn、EG、ZC、RC1、およびCCFに基づいて、サブフレームの音声
分類が判断される。決定木で用いられるしきい値は発見的に決定された。決定木
はCプログラミング言語で書かれた以下のコードフラグメントによって示される
【0051】
【数14】
【0052】 図2を続けて参照して、次のステップは人間の聴力の限界を考慮に入れるため
の知覚重み付け、ステップ218である。人間の耳によって知覚される歪みは、
コーディングパラメータ選択でしばしば用いられる平均2乗誤差規準値によって
測定される歪みと必ずしも相関していない。この発明の好ましい実施例では、知
覚重み付けは縦続の2つのフィルタを用いて各サブフレーム上で行なわれる。第
1のフィルタはスペクトル重み付けフィルタであり、以下の式によって定義され
る。
【0053】
【数15】
【0054】 aiはサブフレームのための量子化された予測係数であり、λNとλDとはそれぞ
れ経験的に決定されたスケーリングファクタ0.9と0.4である。
【0055】 第2のフィルタは高調波重み付けフィルタであり、以下の式によって定義され
る。
【0056】
【数16】
【0057】 式中、cov[i]、i=0、1、2係数は式8で計算されたものであり、λP
=0.4はスケーリングファクタである。高調波構造が存在しない無声音声では
、高調波重み付けフィルタはターンオフされる。
【0058】 次にステップ220では、後続の励起コーディングのための目標信号r[n]
を得る。まず、合成フィルタ1/A(z)、スペクトル重み付けフィルタWP
z)、および高調波重み付けフィルタWh(z)を含むカスケード接続された3
重フィルタに対するゼロ入力応答(ZIR)が決定される。合成フィルタは以下
のように定義される。
【0059】
【数17】
【0060】 式中、aqiはそのフレームのための量子化されたLPC係数である。次に知覚
的に重み付けされた入力音声からZIRを減じる。これは図5でより明確に示さ
れ、図5は図1の構想ブロック図をわずかに修正したバージョンであり、実現に
おいて考慮されるべき事項によって課されるある特定の変化を反映している。た
とえば、知覚重み付けフィルタ546は処理の上流に、合計ブロック542の前
に置かれることがわかる。知覚フィルタ546を通して入力音声s[n]がフィ
ルタリングされて重み付き信号が生成され、合計ユニット522内で重み付き信
号からゼロ入力応答520を減じて目標信号r[n]が生成される。この信号は
エラー最小化ブロック148へと送られる。励起信号134がカスケード接続さ
れた3重フィルタ(H(z)=1/A(z)×WP(z)×Wh(z))を通して
フィルタリングされて合成音声sq[n]が生成され、これはエラー最小化ユニ
ット148へと送られる。エラー最小化ブロック内で進められる処理の詳細がコ
ーディング方式の各々と関連して考察される。
【0061】 この発明で用いられるコーディング方式を考察する。ステップ216で決定さ
れたような各サブフレームの音声分類に基づいて、3つのコーディング方式、ス
テップ232、234、および236のうちの1つを用いて、サブフレームをコ
ーディングする。
【0062】 図1、図2、および図5を参照して、無声音声(発声=1)のためのコーディ
ング方式、ステップ232をまず考察する。図5は、無声音声のためのコーディ
ング方式(116)が選択された構成を示す。コーディング方式は利得/形状ベ
クトル量子化方式である。励起信号は以下のように定義される。 g・fcbi[n] 式15 式中、gは利得ユニット520の利得値であり、fcbiは形状コードブック5
10から選択されるi番目のベクトルである。形状コードブック510はガウス
ランダム順序から生成される16の64要素形状ベクトルからなる。エラー最小
化ブロック148は合成による分析方法で16の形状ベクトルの中から最良の候
補を選択するが、これは形状コードブック510から各ベクトルをとり、それを
利得素子520を通してスケーリングし、さらにはそれを合成フィルタ136お
よび知覚フィルタ546を通してフィルタリングして合成音声ベクトルsq[n
]を生成することによって行なわれる。以下の項を最大にする形状ベクトルが、
無声サブフレームのための励起ベクトルとして選択される。
【0063】
【数18】
【0064】 これは、目標信号r[n]と合成ベクトルsq[n]との間の最小重み付き平
均2乗誤差を示す。
【0065】 利得gは以下によって計算される。
【0066】
【数19】
【0067】 式中、Pnは上で計算されたサブフレームパワーであり、RSは以下のものであ
る。
【0068】
【数20】
【0069】 さらに、scale=max(0.45、1−max(RC1、0))である。 利得は、1組のハフマンコードを用いる差分コーディング方式と組合せられた
4ビットスカラ量子化器を通して符号化される。サブフレームがそれまでに遭遇
した最初の無声サブフレームならば、量子化された利得の指標が直接用いられる
。それ以外の場合には、現在のサブフレームの利得指標と前のサブフレームの利
得指標との間の差が計算され、8つのハフマンコードのうちの1つによって示さ
れる。以下がハフマンコード表である。
【0070】
【数21】
【0071】 上のコードを用いると、無声励起利得をコーディングするための平均的なコード
長は1.68である。
【0072】 図6を参照して、頭子音音声セグメントの処理を考察する。頭子音では、音声
は突然のエネルギサージを有しやすく、前のサブフレームからの信号と弱く相関
している。頭子音音声(発声=3)として分類されるサブフレームのためのコー
ディング方式(ステップ236)はマルチパルス励起モデリング技術に基づき、
ここでは励起信号は現在のサブフレームから引き出される1組のパルスを含む。
したがって、
【0073】
【数22】
【0074】 式中、Npulseはパルスの数であり、Amp[i]はi番目のパルスの振幅
であり、niはi番目のパルスの位置である。パルスの位置の適切な選択によっ
て、頭子音音声を特徴付ける入力信号内の突然のエネルギ変化をこの技術が捕ら
えることが可能となることが認められた。頭子音音声に適用されるようなこのコ
ーディング技術の利点は、この技術はすぐに適応でき、パルスの数がサブフレー
ムサイズよりもずっと小さいことである。この発明の好ましい実施例では、頭子
音音声のコーディングのための励起信号を示すために4つのパルスが用いられる
【0075】 以下の合成による分析方法が行なわれてパルス位置と振幅とが決定される。パ
ルスを判断する際、エラー最小化ブロック148はサブフレームの偶数のサンプ
ルのみを調査する。第1のサンプルが選択され、それは以下を最小にする。
【0076】
【数23】
【0077】 式中、r[n]は目標信号であり、h[n]はカスケードフィルタH(z)のイ
ンパルス応答610である。対応する振幅は以下によって計算される。
【0078】
【数24】
【0079】 次に、励起信号を用いて合成音声信号sq[n]を生成し、これはこの時点で
は所与の振幅の単一パルスを含む。元の目標信号r[n]から合成音声を減じて
新しい目標信号を生成する。新しい目標信号を式18aおよび式18bで用いて
第2のパルスを決定する。その方法はパルスの数が所望のものになるまで繰返さ
れ、その数はこの場合には4である。すべてのパルスが決定された後、コレスキ
ー分解法を適用してパルスの振幅をまとめて最適化し、励起近似値の精密さを向
上させる。
【0080】 64サンプルのサブフレーム内のパルス位置は5ビットを用いて符号化され得
る。しかし、速度および間隔要件に依存して、コーディングレートと、ルックア
ップテーブルのためのデータROM間隔との間のトレードオフによって、コーデ
ィングの効率性は向上し得る。パルス振幅をその絶対値の降順で分類し、絶対値
のうちの最も大きな値に関して正規化し、5ビットで量子化する。符号ビットは
絶対値の各々に関連する。
【0081】 有声音声に関する図7を参照する。発声セグメントのための励起モデル(発声
=2、ステップ234)は、閉ループピッチ遅れ値LagCLに基づいて2つの部
分710と720とに分割される。遅れ値LagCL≧58である場合には、サブ
フレームは低ピッチサウンドであるとされ、セレクタ730はモデル710の出
力を選択する。それ以外に場合には、サウンドは高ピッチであるとされ、モデル
720に基づいて励起信号134が決定される。
【0082】 波形が低い時間ドメイン解像度を有する傾向にある低ピッチ有声セグメントを
まず考察する。3次予測子712、714を用いて前のサブフレームの励起から
現在の励起を予測する。次に、励起近似値に対するさらなる改善が達成され得る
位置で単一パルス716を加える。前の励起を適応コードブック(ACB)71
2から抽出する。励起は以下のように表される。
【0083】
【数25】
【0084】 ベクトルPACB[n、j]が以下のように定義されるコードブック712から
選択される。
【0085】
【数26】
【0086】 高ピッチの有声セグメントでは、モデル720によって定義される励起信号は
、以下のように定義されるパルス列からなる。
【0087】
【数27】
【0088】 モデルパラメータは、閉ループピッチ遅れ値Lagに依存して、2つの合成に
よる分析ループのうちの1つによって決定される。偶数のサブフレームのための
閉ループピッチLagCLは、ステップ210の一部として計算される開ループL
agを局所的に中心とした(Lag−2からLag+2の範囲内の)ピッチ軌道
を検査することによって決定される。探索範囲内の遅れ値の各々に関しては、適
応コードブック712内の対応するベクトルをH(z)を通してフィルタリング
する。フィルタリングされたベクトルと目標信号r[n]との間の相互相関値を
計算する。最大の相互相関値を生成する遅れ値が閉ループピッチ遅れ値LagCL として選択される。奇数のサブフレームに関しては、前のサブフレームのLag CL 値が選択される。
【0089】 LagCL≧58ならば、式8と遅れ値としてのLagCLとを用いて3タップピ
ッチ予測係数βiを計算する。計算された係数は、その後ベクトル量子化され、
適応コードブック712から選択されるベクトルと組合せられて初期の予測され
た励起ベクトルを生成する。初期の励起ベクトルはH(z)を通してフィルタリ
ングされ、入力目標値r[n]から減じられて第2の入力ターゲット値r′[n
]が生成される。上述のマルチパルス励起モデリングのための技術(式18aお
よび18b)を用いて、サブフレーム内の偶数のサンプルから単一パルスn0
よびパルス振幅Ampを選択する。
【0090】 Lag<58の場合には、高ピッチ有声セグメントをモデル化するためのパラ
メータを計算する。モデルパラメータは、パルス間隔LagCL、第1のパルスの
位置n0、およびパルス列のための振幅Ampである。LagCLは、開ループピ
ッチ遅れ値のまわりの小さな範囲[Lag−2、Lag+2]を探索することに
よって決定される。この探索範囲内に存在し得る遅れ値の各々について、遅れ値
に等しいパルス間隔でもってパルス列を計算する。次に、サブフレーム内の第1
のパルス位置をシフトし、シフトされたパルス列ベクトルをH(z)を通してフ
ィルタリングして合成音声sq[n]を生成する。遅れ値と、シフトされかつフ
ィルタリングされたパルス列バージョンと目標信号r[n]との間の最大相互相
関値を結果としてもたらす初期の位置との組合せがLagCLおよびn0として選
択される。対応する正規化された相互相関値がパルス列振幅Ampとされる。
【0091】 Lag≧58の場合には、LagCLは7ビットでコーディングされ、1サブフ
レームおきに1回更新されるのみである。3タップ予測子係数βiは6ビットで
量子化されるベクトルであり、単一パルス位置は5ビットでコーディングされる
。振幅値Ampは5ビットでコーディングされ、1ビットは符号のためであり、
4ビットはその絶対値のためである。低ピッチセグメントの励起コーディングに
用いられるビットのトータル数は20.5である。
【0092】 Lag<58の場合には、LagCLは7ビットでコーディングされ、サブフレ
ームごとに更新される。パルス列の初期の位置は6ビットでコーディングされる
。振幅値Ampは5ビットでコーディングされ、1ビットは符号のためであり、
4ビットはその絶対値のためである。高ピッチセグメントの励起コーディングに
用いられるビットのトータル数は18である。
【0093】 励起信号が上述の技術のうちの1つによって選択されると、ステップ222で
はフィルタ136のメモリ(1/A(z))とフィルタ146のメモリ(WP
z)およびWh(z))とが更新される。加えて、次のサブフレームの処理のた
めに、新しく決定された励起信号でもって適応コードブック712が更新される
。次にステップ224では、コーディングパラメータを記憶装置へと出力するか
、または遠隔復号ユニットへと送信する。
【0094】 図8は復号プロセスを示す。まず、現在のフレームのためにLPC係数を復号
化する。次に、各サブフレームの発声情報に依存して、3つの音声分類のうちの
1つに関する励起の復号化を実行する。合成音声は最終的に、LPC合成フィル
タを通して励起信号をフィルタリングすることによって得られる。
【0095】 ステップ802で復号器を初期設定した後、ステップ804ではコード語(co
dewords)の1つのフレームを復号器に読込む。次に、ステップ806ではLP
C係数を復号化する。
【0096】 (LARフォーマット内の)LPC係数を復号化するステップには2つの段階
がある。まず、LPCスカラ量子化器コードブックからの最初の5つのLARパ
ラメータを復号化する。
【0097】
【数28】
【0098】 次に、LPCベクトル量子化器コードブックからの残りのLARパラメータを
復号化する。
【0099】
【数29】
【0100】 10のLARパラメータを復号化した後、公知の補間技術を用いて、前のフレ
ームのLPCベクトルでもって現在のLPCパラメータベクトルの補間を行ない
、ステップ808ではLARを予測係数に変換し直す。2つのステップを介して
LARを予測係数へと変換し直すことができる。まず、以下のようにLARパラ
メータを反射係数に変換し直す。
【0101】
【数30】
【0102】 次に、以下の式によって予測係数を求める。
【0103】
【数31】
【0104】 LARを予測係数に変換し直した後、ステップ810ではサブフレームループ
カウントをn=0に設定する。次にステップ812では、各サブフレームに関し
て、そのサブフレームが3つのコーディング方式のうちのいずれのものへと分類
されるべきかが決定される。なぜならば、各コーディング方式に対する復号化は
異なるからである。
【0105】 現在のサブフレームの発声フラグが無声サブフレーム(v=1)を示すならば
、ステップ814で無声励起を復号化する。図9を参照してまず、902では、
復号化された指標を備える固定コードブックFCB内において形状ベクトルを取
出す。
【0106】
【数32】
【0107】 次に、サブフレームが第1の無声サブフレームであるか否かに応じて、904
で形状ベクトルの利得を復号化する。それが第1の無声サブフレームであるなら
ば、無声利得コードブック内で絶対利得値を直接復号化する。それ以外の場合に
は、対応するホフマンコードから絶対利得値を復号化する。最後に、符号情報を
利得値906に加えて励起信号908を生成する。これは以下のようにまとめら
れ得る。
【0108】
【数33】
【0109】 図8を再び参照して、サブフレームが有声サブフレーム(v=2)である場合
、ステップ816で有声励起を復号化するために、まず遅れ情報を抽出する。偶
数のサブフレームに関しては、rxCodewords.ACB_code[n]内で遅れ値を得る
。奇数のサブフレームに関しては、前のサブフレームの遅れ値、Lag_pに依
存して、Lag_p≧58ならば、現在の遅れ値にLag_pが代入され、また
はLag_p<58ならば、rxCodewords.ACB_code[n]から遅れ値を抽出す
る。次に、単一パルスがその符号、位置、および絶対振幅値から再構成される。
遅れ値Lag≧58ならば、ACBベクトルの復号化が続く。まず、ACBGAINTab
leからACB利得ベクトルを抽出する。
【0110】
【数34】
【0111】 次に、上の図7を参照して説明されたのと同じ様態でACBベクトルをACB状
態から再構成する。ACBベクトルを計算した後、復号化された単一パルスをそ
の規定された位置に挿入する。遅れ値Lag<58ならば、上で説明されたよう
にパルス列は復号化された単一パルスから構成される。
【0112】 サブフレームが頭子音(v=3)ならば、励起ベクトルは復号化されたパルス
振幅、符号、および位置情報から再構成される。図10を参照して、第1の振幅
でもある振幅のノルム930が932で復号化され、乗算ブロック944で残り
の振幅940の復号されたもの942とともに組合せられる。組合せられた信号
945は復号化された第1の振幅信号933とともに934で再び組合せられる
。結果として得られる信号935に乗算ブロック950で符号920を乗じる。
次に、結果として得られる振幅信号952が以下の式に従ってパルス位置信号9
60とともに組合せられ、
【0113】
【数35】
【0114】 励起ベクトルex(i)980が生成される。サブフレームが奇数ならば、以下
の有声サブフレームの使用のためにrxCodewords内の遅れ値も抽出される。
【0115】 図8を再び参照して、ステップ820では、合成フィルタはIIRフィルタと
しての直接の形であり得る。ここでは合成音声は以下のように表わされ得る。
【0116】
【数36】
【0117】 復号器内でLAR(ログエリア比)パラメータを予測子係数へと変換する計算
をなくすために、合成フィルタとして格子フィルタが用いられ、復号器内のRC
(反射係数)フォーマットにLPC量子化テーブルが記憶され得る。格子フィル
タはまた有限な精度限界に対してそれほど敏感でないという利点を有する。
【0118】 次に、ステップ822では、新しく計算された励起信号ex[n]を用いてす
べてのサブフレームに対してACB状態が更新されて、連続的な最新の励起履歴
が維持される。次に、復号器処理の最後のステップ、ステップ824は事後フィ
ルタリングである。事後フィルタリングを行なう目的は、人間のマスキング能力
を利用して量子化ノイズを減じるためである。復号器内で用いられる事後フィル
タは極ゼロフィルタと一次FIRフィルタとのカスケード接続である。
【0119】
【数37】
【0120】 式中、aiはサブフレームのための復号された予測係数である。スケーリングフ
ァクタはγN=0.5、γD=0.8、およびγ=0.4である。
【0121】 この結果として合成音声出力826が得られる。次に、ステップ827では、
サブフレームループカウントの数(n)が1だけ増えて1つのサブフレームルー
プが完了したことが示される。次に、ステップ828では、サブフレームループ
カウントの数(n)が3に等しいかの判断が行なわれ、これは4つのループ(n
=0、1、2、3)が完了したことを示す。nが3に等しくないならば、コーデ
ィング方式の分類を決定するステップ812からサブフレームループが繰返され
る。nが3に等しいならば、ステップ830でそれがビットストリームの終りで
あるかの判断がなされる。ビットストリームの終りでなければ、コード語の別の
フレームを読込むというステップ804とともにプロセス全体が再び始まる。ビ
ットストリームの終りであれば、832で復号化プロセスが終了する。
【図面の簡単な説明】
【図1】 この発明に従った処理要素のハイレベルブロック図である。
【図2】 この発明の計算ステップを示すフローチャートである。
【図3A】 図2で示される計算のいくつかによってサブフレームが重なり
合うことを示す図である。
【図3B】 図2で示される計算のいくつかによってサブフレームが重なり
合うことを示す図である。
【図4】 LTP分析のための処理ステップのフローチャートである。
【図5】 この発明の種々のコーディング方式を示す図である。
【図6】 この発明の種々のコーディング方式を示す図である。
【図7】 この発明の種々のコーディング方式を示す図である。
【図8】 復号化プロセスのフローチャートである。
【図9】 無声励起のための復号化方式のブロック図である。
【図10】 頭子音励起のための復号化方式のブロック図である。
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成13年9月26日(2001.9.26)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】発明の名称
【補正方法】変更
【補正の内容】
【発明の名称】 音声の可変レートコーディングのための方法およびその装置
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0003
【補正方法】変更
【補正の内容】
【0003】 これらのコーダーは急速に成長している電気通信市場の需要を満たしてはいる
が、消費者用の電子応用技術では適切な音声コーダーが未だに不足している。典
型的な例には、留守番録音装置、口述録音機、およびボイスオーガナイザー等の
消費者用のアイテムが含まれる。これらの応用では、音声コーダーは、商業的に
受容されるために優れた品質の再生機能を提供しなければならず、録音材料の記
憶要求量を最小に保つために高い圧縮比を提供しなければならない。反面、これ
らの装置は独立したユニットであるため、他のコーダーとの相互運用性は必要と
されない。したがって、固定されたビットレート方式またはコーディング遅延と
いう制約に準拠する必要はない。 E.パクソイ他(E. Paksoy et al.)による「音声セグメンテーションを用い
ての可変レート音声コーディング(“Variable Rate Speech Coding with Phone
tic Segmentation”)」と題された論文(ICASSP 1993の報告書、米
国、ニューヨーク、IEEE、Vol.27、1993年4月(1993−04
−27)、第II−155−158頁、XP000427749、ISBN:0
−7803−0946−4)は、平均レート3kb/sで動作しかつCDMAデ
ジタルセルラーシステムに応用できる、可変レート音声セグメンテーション(V
RPS)に基づいた音声コーダを開示している。ヨーロッパ特許出願EP−07
51494 A1は、短期予測値を表わすパラメータを分類することによって見
つけられ、かつ入力音声信号の複数の特性パラメータのうちの1つまたはそれら
の組合せからなる基準パラメータに関する第1のコードブックおよび第2のコー
ドブックを有するサウンド符号化システムを開示している。短期予測値は入力音
声信号に基づいて生成される。入力音声信号の基準パラメータに関する第1のコ
ードブックおよび第2のコードブックのうちの1つが選択され、入力音声信号を
符号化するための選択されたコードブックを参照することによって短期予測値が
量子化される。短期予測値は短期予測係数または短期予測エラーである。特性パ
ラメータは、速度信号のピッチ値、ピッチの強さ、フレームパワー、有声/無声
識別フラグ、および信号スペクトルの勾配を含む。量子化はベクトル量子化また
はマトリックス量子化である。基準パラメータは音声信号のピッチ値である。第
1のコードブックまたは第2のコードブックのいずれかは、入力音声信号のピッ
チ値と予め設定されたピッチ値との間の大きさの関係に依存して選択される。

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 音声をコーディングするための方法であって、 入力音声をサンプリングして複数の音声サンプルを生成するステップと、 音声合成フィルタのための係数を決定するステップとを含み、前記ステップは
    前記音声サンプルを第1の組の群にグループ分けするステップと、このような群
    の各々のためのLPC係数を計算するステップとを含み、前記フィルタ係数は前
    記LPC係数に基づき、前記方法はさらに、 励起信号を生成するステップを含み、このステップは、 前記音声サンプルを第2の組の群へとグループ分けするステップと、 前記第2の群内の各群を無声、有声、または頭子音分類へと分類するステップ
    と、 前記無声分類内の各群については、利得/形状コーディング方式に基づいて前
    記励起信号を生成するステップと、 前記有声分類内の各群については、このような群を低ピッチ有声群または高ピ
    ッチ有声群へとさらに分類することによって前記励起信号を生成するステップと
    、 前記頭子音分類内の各群については、少なくとも2つのパルスを前記群から選
    択することによって前記励起信号を生成するステップとを含み、前記方法はさら
    に、 前記励起信号を符号化するステップを含む、方法。
  2. 【請求項2】 前記励起信号を前記音声合成フィルタへと送って合成音声を
    生成するステップと、 前記入力音声を前記合成音声と比較することによってエラー信号を生成するス
    テップと、 前記エラー信号に基づいて前記励起信号のパラメータを調整するステップとを
    さらに含む、請求項1に記載の方法。
  3. 【請求項3】 前記音声合成フィルタは知覚重み付けフィルタを含み、前記
    エラー信号は聴取者の知覚システムの効果を含む、請求項2に記載の方法。
  4. 【請求項4】 前記第2の組の群内の各群を分類する前記ステップは前記群
    の計算されたエネルギ、エネルギ勾配、ゼロクロッシングレート、第1の反射係
    数、および相互相関値に基づく、請求項1に記載の方法。
  5. 【請求項5】 前記第1の組の群内の連続する群の間にLPC係数を補間す
    るステップをさらに含む、請求項1に記載の方法。
  6. 【請求項6】 低ピッチ有声群については前記励起信号は長期予測子および
    単一パルスに基づき、高ピッチ有声群については前記励起信号はピッチ周期によ
    って間隔をあけられた一連のパルスに基づく、請求項1に記載の方法。
  7. 【請求項7】 音声をコーディングするための方法であって、 入力音声信号をサンプリングして複数の音声サンプルを生成するステップと、 前記サンプルを複数のフレームに分割するステップとを含み、フレームの各々
    は2つ以上のサブフレームを含み、前記方法はさらに、 各フレームについて音声合成フィルタのためのLPC係数を計算するステップ
    を含み、前記フィルタ係数はフレームごとに更新され、前記方法はさらに、 各サブフレームを無声、有声、または頭子音分類へと分類するステップと、 各サブフレームのための励起信号を示すパラメータをその分類に基づいて計算
    するステップとを含み、前記無声分類については利得/形状コーディング方式が
    用いられ、前記有声分類については前記パラメータは前記サブフレームのピッチ
    周波数に基づき、前記頭子音分類についてはマルチパルス励起モデルが用いられ
    、前記方法はさらに、 前記励起信号を前記音声合成フィルタへと送って合成音声を生成することによ
    って前記パラメータを調整するステップと、前記合成音声を前記音声サンプルと
    比較することによってエラー信号を生成するステップと、前記エラー信号を基に
    して前記パラメータを更新するステップとを含む、方法。
  8. 【請求項8】 LPC係数を計算する前記ステップは前記LPC係数の連続
    するものを補間するステップを含む、請求項7に記載の方法。
  9. 【請求項9】 前記音声合成フィルタは知覚重み付けフィルタを含み、前記
    音声サンプルは前記知覚重み付けフィルタを通してフィルタリングされる、請求
    項7に記載の方法。
  10. 【請求項10】 有声分類サブフレームのためにパラメータを計算するステ
    ップはピッチ周波数を決定するステップを含み、低ピッチ周波数の有声分類サブ
    フレームについては前記パラメータは長期予測子に基づき、高ピッチ周波数の有
    声分類サブフレームについては前記パラメータはピッチ周期によって間隔をあけ
    られた一連のパルスに基づく、請求項7に記載の方法。
  11. 【請求項11】 分類をする前記ステップは前記サブフレームの計算された
    エネルギ、エネルギ勾配、ゼロクロッシングレート、第1の反射係数、および相
    互相関値に基づく、請求項7に記載の方法。
  12. 【請求項12】 音声をコーディングするための装置であって、前記装置は
    、 入力音声信号をサンプリングするための入力と、デジタル化された音声サンプ
    ルを生成するための出力とを有するサンプリング回路と、 前記サンプルを記憶するために前記サンプリング回路に結合されるメモリとを
    含み、前記サンプルは複数のフレームへと編成され、各フレームは複数のサブフ
    レームへと分割され、前記装置はさらに、 各フレームについての1組のLPC係数を計算するために前記メモリにアクセ
    スする第1の手段を含み、各組の係数は音声合成フィルタを規定し、前記装置は
    さらに、 各サブフレームについての励起信号のパラメータを計算するために前記メモリ
    にアクセスする第2の手段と、 前記LPC係数を前記パラメータと組合せて合成音声を生成するための第3の
    手段と、 前記デジタル化された音声サンプルと前記合成音声との比較に基づいて前記パ
    ラメータを調整するために前記第3の手段に動作的に結合される第4の手段とを
    含み、 前記第2の手段は、 各サブフレームを無声、有声、または頭子音分類に分類するための第5の手段
    と、 前記サブフレームが無声分類に入るならば利得/形状コーディング技術に基づ
    いて前記パラメータを計算するための第6の手段と、 前記サブフレームが有声分類に入るならば前記サブフレームのピッチ周波数に
    基づいて前記パラメータを計算するための第7の手段と、 前記サブフレームが頭子音分類に入るならばマルチパルス励起モデルに基づい
    て前記パラメータを計算するための第8の手段とを含む、装置。
  13. 【請求項13】 前記第4の手段はエラー信号を計算するための手段と、知
    覚重み付けフィルタによって前記エラー信号を調整するための手段とを含み、前
    記パラメータは重み付きエラー信号に基づいて調整される、請求項12に記載の
    装置。
  14. 【請求項14】 前記第1の手段は前記LPC係数の連続するものの間に補
    間するための手段を含む、請求項12に記載の装置。
JP2001532535A 1999-10-19 2000-08-23 音声の可変レートコーディングのための方法およびその装置 Withdrawn JP2003512654A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/421,435 US6510407B1 (en) 1999-10-19 1999-10-19 Method and apparatus for variable rate coding of speech
US09/421,435 1999-10-19
PCT/US2000/040725 WO2001029825A1 (en) 1999-10-19 2000-08-23 Variable bit-rate celp coding of speech with phonetic classification

Publications (1)

Publication Number Publication Date
JP2003512654A true JP2003512654A (ja) 2003-04-02

Family

ID=23670498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001532535A Withdrawn JP2003512654A (ja) 1999-10-19 2000-08-23 音声の可変レートコーディングのための方法およびその装置

Country Status (11)

Country Link
US (1) US6510407B1 (ja)
EP (1) EP1224662B1 (ja)
JP (1) JP2003512654A (ja)
KR (1) KR20020052191A (ja)
CN (1) CN1158648C (ja)
CA (1) CA2382575A1 (ja)
DE (1) DE60006271T2 (ja)
HK (1) HK1048187B (ja)
NO (1) NO20021865L (ja)
TW (1) TW497335B (ja)
WO (1) WO2001029825A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007513364A (ja) * 2003-10-30 2007-05-24 モトローラ・インコーポレイテッド デジタル音声符号器における高調波ノイズ重み付け
JP2008546021A (ja) * 2005-05-31 2008-12-18 マイクロソフト コーポレーション マルチステージコードブックおよび冗長コーディング技術フィールドを有するサブバンド音声コーデック
JP2010530989A (ja) * 2007-06-22 2010-09-16 ヴォイスエイジ・コーポレーション 音声区間検出および音声信号分類ための方法および装置

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050065786A1 (en) * 2003-09-23 2005-03-24 Jacek Stachurski Hybrid speech coding and system
US8257725B2 (en) * 1997-09-26 2012-09-04 Abbott Laboratories Delivery of highly lipophilic agents via medical devices
US20060240070A1 (en) * 1998-09-24 2006-10-26 Cromack Keith R Delivery of highly lipophilic agents via medical devices
KR100319557B1 (ko) * 1999-04-16 2002-01-09 윤종용 블럭 단위로 부호화된 영상의 블럭 경계 잡음 성분 제거 방법
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US7478042B2 (en) * 2000-11-30 2009-01-13 Panasonic Corporation Speech decoder that detects stationary noise signal regions
JP4857468B2 (ja) * 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP3404024B2 (ja) * 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
US6859775B2 (en) * 2001-03-06 2005-02-22 Ntt Docomo, Inc. Joint optimization of excitation and model parameters in parametric speech coders
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
DE10121532A1 (de) * 2001-05-03 2002-11-07 Siemens Ag Verfahren und Vorrichtung zur automatischen Differenzierung und/oder Detektion akustischer Signale
DE10124420C1 (de) * 2001-05-18 2002-11-28 Siemens Ag Verfahren zur Codierung und zur Übertragung von Sprachsignalen
US6732071B2 (en) * 2001-09-27 2004-05-04 Intel Corporation Method, apparatus, and system for efficient rate control in audio encoding
DE60214584T2 (de) * 2001-10-19 2007-09-06 Koninklijke Philips Electronics N.V. Differentielle kodierung im frequenz bereich von sinusmodell parametern
US7020455B2 (en) * 2001-11-28 2006-03-28 Telefonaktiebolaget L M Ericsson (Publ) Security reconfiguration in a universal mobile telecommunications system
US20050065787A1 (en) * 2003-09-23 2005-03-24 Jacek Stachurski Hybrid speech coding and system
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
FI118835B (fi) * 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
CN100592389C (zh) * 2008-01-18 2010-02-24 华为技术有限公司 合成滤波器状态更新方法及装置
EP1868663B1 (en) * 2005-03-23 2011-11-16 Abbott Laboratories Delivery of highly lipophilic agents via medical devices
TWI279774B (en) * 2005-04-14 2007-04-21 Ind Tech Res Inst Adaptive pulse allocation mechanism for multi-pulse CELP coder
JP2009501958A (ja) * 2005-07-21 2009-01-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号修正
EP2276023A3 (en) * 2005-11-30 2011-10-05 Telefonaktiebolaget LM Ericsson (publ) Efficient speech stream conversion
JPWO2008007616A1 (ja) * 2006-07-13 2009-12-10 日本電気株式会社 無音声発声の入力警告装置と方法並びにプログラム
JP4946293B2 (ja) * 2006-09-13 2012-06-06 富士通株式会社 音声強調装置、音声強調プログラムおよび音声強調方法
RU2420815C2 (ru) 2006-10-25 2011-06-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для генерации значений подполос звукового сигнала и устройство и способ для генерации отсчетов звукового сигнала во временной области
JP2008170488A (ja) * 2007-01-06 2008-07-24 Yamaha Corp 波形圧縮装置、波形伸長装置、プログラムおよび圧縮データの生産方法
KR101261524B1 (ko) * 2007-03-14 2013-05-06 삼성전자주식회사 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
CN101325631B (zh) * 2007-06-14 2010-10-20 华为技术有限公司 一种估计基音周期的方法和装置
CN100578619C (zh) * 2007-11-05 2010-01-06 华为技术有限公司 编码方法和编码器
CN101540612B (zh) * 2008-03-19 2012-04-25 华为技术有限公司 编码、解码系统、方法及装置
CN101609679B (zh) * 2008-06-20 2012-10-17 华为技术有限公司 嵌入式编解码方法和装置
EP2141696A1 (en) * 2008-07-03 2010-01-06 Deutsche Thomson OHG Method for time scaling of a sequence of input signal values
CN101604525B (zh) * 2008-12-31 2011-04-06 华为技术有限公司 基音增益获取方法、装置及编码器、解码器
US9269366B2 (en) * 2009-08-03 2016-02-23 Broadcom Corporation Hybrid instantaneous/differential pitch period coding
US9026434B2 (en) * 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
US8731911B2 (en) * 2011-12-09 2014-05-20 Microsoft Corporation Harmonicity-based single-channel speech quality estimation
CN103928031B (zh) * 2013-01-15 2016-03-30 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
TWI566241B (zh) * 2015-01-23 2017-01-11 宏碁股份有限公司 語音信號處理裝置及語音信號處理方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4701954A (en) 1984-03-16 1987-10-20 American Telephone And Telegraph Company, At&T Bell Laboratories Multipulse LPC speech processing arrangement
US4910781A (en) 1987-06-26 1990-03-20 At&T Bell Laboratories Code excited linear predictive vocoder using virtual searching
US4817157A (en) 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
JPH0332228A (ja) 1989-06-29 1991-02-12 Fujitsu Ltd ゲイン―シェイプ・ベクトル量子化方式
JPH08179796A (ja) 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
JP3303580B2 (ja) 1995-02-23 2002-07-22 日本電気株式会社 音声符号化装置
JPH09152896A (ja) 1995-11-30 1997-06-10 Oki Electric Ind Co Ltd 声道予測係数符号化・復号化回路、声道予測係数符号化回路、声道予測係数復号化回路、音声符号化装置及び音声復号化装置
US5799272A (en) 1996-07-01 1998-08-25 Ess Technology, Inc. Switched multiple sequence excitation model for low bit rate speech compression
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6311154B1 (en) * 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007513364A (ja) * 2003-10-30 2007-05-24 モトローラ・インコーポレイテッド デジタル音声符号器における高調波ノイズ重み付け
JP4820954B2 (ja) * 2003-10-30 2011-11-24 モトローラ モビリティ インコーポレイテッド デジタル音声符号器における高調波ノイズ重み付け
JP2008546021A (ja) * 2005-05-31 2008-12-18 マイクロソフト コーポレーション マルチステージコードブックおよび冗長コーディング技術フィールドを有するサブバンド音声コーデック
JP2012141649A (ja) * 2005-05-31 2012-07-26 Microsoft Corp マルチステージコードブックおよび冗長コーディング技術フィールドを有するサブバンド音声コーデック
JP2010530989A (ja) * 2007-06-22 2010-09-16 ヴォイスエイジ・コーポレーション 音声区間検出および音声信号分類ための方法および装置
US8990073B2 (en) 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification

Also Published As

Publication number Publication date
CA2382575A1 (en) 2001-04-26
EP1224662B1 (en) 2003-10-29
KR20020052191A (ko) 2002-07-02
HK1048187B (zh) 2004-12-31
TW497335B (en) 2002-08-01
EP1224662A1 (en) 2002-07-24
CN1379899A (zh) 2002-11-13
WO2001029825A1 (en) 2001-04-26
US6510407B1 (en) 2003-01-21
DE60006271D1 (de) 2003-12-04
HK1048187A1 (en) 2003-03-21
WO2001029825B1 (en) 2001-11-15
NO20021865D0 (no) 2002-04-19
DE60006271T2 (de) 2004-07-29
NO20021865L (no) 2002-04-19
CN1158648C (zh) 2004-07-21

Similar Documents

Publication Publication Date Title
JP2003512654A (ja) 音声の可変レートコーディングのための方法およびその装置
US6202046B1 (en) Background noise/speech classification method
JP5373217B2 (ja) 可変レートスピーチ符号化
KR100487136B1 (ko) 음성복호화방법및장치
US5495555A (en) High quality low bit rate celp-based speech codec
KR100615113B1 (ko) 주기적 음성 코딩
KR100769508B1 (ko) Celp 트랜스코딩
EP1202251B1 (en) Transcoder for prevention of tandem coding of speech
EP0409239B1 (en) Speech coding/decoding method
US6871176B2 (en) Phase excited linear prediction encoder
EP1222659A1 (en) Lpc-harmonic vocoder with superframe structure
US20130218578A1 (en) System and Method for Mixed Codebook Excitation for Speech Coding
JP3070955B2 (ja) 音声符号器において使用するためのスペクトルノイズ重み付けフィルタを発生する方法
JP3531780B2 (ja) 音声符号化方法および復号化方法
JP2003044099A (ja) ピッチ周期探索範囲設定装置及びピッチ周期探索装置
JP3232701B2 (ja) 音声符号化方法
Ozaydin et al. A 1200 bps speech coder with LSF matrix quantization
Drygajilo Speech Coding Techniques and Standards
JPH08211895A (ja) ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法
JPH08160996A (ja) 音声符号化装置
EP1212750A1 (en) Multimode vselp speech coder
Du Coding of speech LSP parameters using context information

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20071106