JP3489704B2

JP3489704B2 - 符号化された音声信号を復号化する方法および復号器、および音声信号を符号化する方法および符号器

Info

Publication number: JP3489704B2
Application number: JP33436795A
Authority: JP
Inventors: ハーゲンジェスパー; バスティアンクレインウィレム
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1994-11-30
Filing date: 1995-11-30
Publication date: 2004-01-26
Anticipated expiration: 2015-11-30
Also published as: DE69521272T2; US5839102A; KR960020012A; EP0715297A3; DE69521272D1; CA2156558A1; EP0715297B1; ES2158052T3; CA2156558C; TW260846B; JPH08254994A; EP0715297A2

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声符号化システ
ムに関し、特に、音声符号化システムにおけるパラメー
タの量子化に関する。

【従来の技術】

【０００２】音声符号化システムは、通信路あるいはネ
ットワークを通しての通信のために、音声信号の符号語
による表示を、システム受信器へ提供する機能を果たし
ている。各システム受信器は、受信した符号語から音声
信号を再構成する。与えられた時間間隔内でシステムに
よって通信された符号語情報の量が、システムの帯域幅
を定義付け、システム受信器によって受信された音声の
質に影響を及ぼすのである。

【０００３】音声符号化システムの目的は、入力信号の
質、通信路の質、帯域幅の限定、コストといったような
副次的な条件が与えられているときに、音声の質と帯域
幅の間のトレードオフ関係の内で最良のものを提供する
ということにある。音声信号は、伝送のために量子化さ
れるパラメータの組み合わせによって表示される。おそ
らく、音声符号器の設計において、音声信号を記述する
ためのパラメータの良い組み合わせを探求するというこ
とは、もっとも重要なことである。パラメータの良い組
み合わせの場合、知覚的にも正確な音声信号の再構成に
も、低速度のシステムの帯域幅しか必要としない。加え
て、パラメータの組み合わせとして望ましい特性は、パ
ラメータが独立しているということである。パラメータ
が独立しているときには、量子化器は独立して設計され
ることが可能であり、不正確に受信された情報でも、再
構成された音声信号の質への影響をより少なくするであ
ろう。各パラメータに要求される帯域幅は、各パラメー
タが変化する速度（レート）とパラメータの値の軌跡
が、要求された質を有する再構成された音声を得るため
に記述される必要のある精度についての関数である。

【０００４】音声信号の出力は、符号化パラメータの組
み合わせのひとつのパラメータとしては、望ましいもの
である。その他のパラメータは、容易に信号出力と独立
となされる。さらに、信号出力は、音声信号の物理的特
性を表示しており、量子化器のための設計上の判断基準
を定義付けることを容易にするものである。信号出力
は、準周期的な音声部分については１ピッチ周期にわた
って、さらに非周期的な音声部分については、ある程度
の所定の時間間隔にわたって平均化された、サンプル毎
の信号のエネルギーとして定義されることが可能であ
る。非周期的部分に対する時間間隔は、知覚的に有意
（重要）であるために、十分に短くあるべきである。
（５ｍｓあるいはそれ以下が有効である。）このような
定義を用いると、持続した母音の間では、音声信号の出
力はなめらかな関数となり、音の出だしや破裂音を明確
に示すことになる。

【０００５】高解像度の信号出力の推定（見積もり）
は、固定したあるいは大きなウインドウ（窓）サイズで
は得られることができない。推定（見積もり）のための
大きなウインドウ（窓）サイズは、推定（見積もり）さ
れた信号出力について、低い時間分解能に結びつく。結
果として、このようなアプローチを用い、低いレートの
符号器をもって再構成された音声は、一般に鋭さ（歯切
れの良さ）が欠けていることになる。一方で、短い、固
定されたウインドウ（窓）は、信号出力の不安定さへ結
びつく。このようなことから、ＣＥＬＰ（Ｃｏｄｅ−Ｅ
ｘｃｉｔｅｄ−Ｌｉｎｅａｒ−Ｐｒｅｄｉｃｔｉｖｅ，
Ｃｏｄｅ−ＥｘｃｉｔｅｄＬＰＣ）方式といったよう
な、短く固定したウインドウを用いる符号器は、一般に
信号出力を明示的なパラメータとしては用いていない。
（なお、例えば、B.S.Atal,"High-Quality Speech at L
ow Bit Rates:Multi-Pulse and Stochastically Excite
dLinear Predictive Coders,"Proc.Int.Conf.Acoust.Sp
eech Sign.Process.,Tokyo,pp.1681-1684,1986等を参照
のこと。）

【０００６】ますます増える符号化効率の要求と共に、
独立して符号化がなされるための明示的なパラメータと
して、信号出力を利用する符号器がさらに増えることが
期待されている。最近では、特徴的な波形という点から
音声信号を記述し、高レートで（およそ５００Ｈｚ）サ
ンプリングされる、符号化処理が導入されてきた。（な
お、例えば、W.B.Kleijin and J.Haagen,"Transformati
on and Decompositionof the Speech Signal for Codin
g,"IEEE Signal Processing Letters,Vol.1,September
1994,pp.136-138.等を参照のこと。）これらの、いわゆ
る波形補間による符号器においては、信号出力の推定
（見積もり）ウインドウ（窓）は１ピッチ周期である。
（音声については）これらの新しい波形補間符号器は、
高い時間分解能をもって、非常に正確な信号出力の推定
（見積もり）をする解析を用いている。当該信号出力は
独立に符号化される。

【発明が解決しようとする課題】

【０００７】信号出力を明示的なパラメータとして用い
ている、従来からの符号化技術においては、信号出力
は、かなり低速度（低いビット伝送速度）で伝送されて
いる。長時間にわたって更新される時間間隔を通じての
直線補間は、その際、信号出力の輪郭を再構成するため
に用いられている。（このような補間は、しばしば出力
のｌｏｇ表示（対数表示）に対して当てはめられること
が多い。）（なお、例えば、T.E.Tremain,"The Governm
ent Standard Linear Predictive Coding Algorithm,"S
peech Technology,pp40-49,April 1982.等を参照のこ
と。）出力の輪郭についてのより詳細な記述を行うこと
は、再構成された信号の質を改良することになるであろ
う。しかしながら、課題は、信号出力の輪郭について単
に知覚的に重要な詳細部分のみを伝送するということに
留まり、低いビット伝送速度が未だ用いられ得るのであ
る。

【課題を解決するための手段】

【０００８】本発明は、低いビット伝送速度で、音声符
号化パラメータの知覚的に重要な特徴の伝送を許容する
方法及び装置を提供するものである。例えば、音声符号
化パラメータは、音声の信号出力を含みうる。パラメー
タは、ブロック毎を基本として処理されている。ブロッ
クの境界におけるパラメータ値は、例えば差分量子化の
手段といったような従来からの方法によって伝送されて
いる。そこで、本発明においては、ブロック境界内の再
構成されたパラメータの輪郭の形状は、分類化に基つ゛
くものとなっている。分類化は、ブロック内でのパラメ
ータの輪郭の知覚的に重要な特徴に依存するものであ
る。分類化は、符号器の伝送側末端（例えば、高い時間
分解能を有する元のパラメータの輪郭やその他、同様の
考えられ得る音声のパラメータを用いて）あるいは符号
器の受信器側末端（例えば、伝送されたパラメー−タの
値、及びその他、同様の考えられ得る伝送された音声の
パラメータを用いて）のいずれにおいても実行されるこ
とが可能である。ブロックの境界におけるパラメータの
値同様、分類化の結果を元にして、パラメータの輪郭
（ブロック内での）が、考えられるパラメータの輪郭の
目録（インベントリー）から選択される。

【０００９】

【発明の実施の形態】

[イントロダクション]音声符号化の目的は、通信路の
質、ハードウエア、遅延による制約に従った場合に、再
構成された音声の質と要求された帯域幅の間のトレード
オフ関係の内で望ましいものを得るということにある。
一般的に、音声信号についてはモデルが用いられてお
り、時間の関数としてのモデルとなるパラメータ（ベク
トルともなりうるが）の軌跡が、ある精度をもって伝送
されている。（もっとも単純なモデルにおいては、モデ
ルとなるパラメータは、音声信号そのものである。）デ
ジタル音声符号器では、モデルとなるパラメータの軌跡
はスカラー量あるいはベクトル量のサンプルの配列とし
て記述されている。これらのパラメータは低速度（低い
ビット伝送速度）で伝送される場合が考えられ、軌跡
は、更新されている各点間での補間により再構成されて
いる。選択的には、予測器（線形予測器である場合があ
り得る。）が、前に再構成されたサンプルからパラメー
タを予測するために用いられ、実際の値と予測された値
の間の違い（残差）のみが伝送される。さらに他の処理
においては、パラメータの軌跡の、高い時間分解能を有
する記述が、逐次的なブロックに分割されうる場合があ
る。このような逐次的なブロックは、伝送のために量子
化されたベクトルである。符号器の中には、ベクトル量
子化と予測が組み合わされているものがある。

【００１０】本発明の例示的な実施例においては、パラ
メータの軌跡（ベクトルである場合もあり得る。）は、
上述した補間、予測、ベクトル量子化処理の方法を増加
させる方法で伝送される。パラメータは、ブロック毎を
基本に伝送され、各ブロックは、分析を行う側で、複数
のパラメータのサンプルを含んでいる。パラメータの信
号は、低域フィルターをかけられダウンサンプリングさ
れる。このダウンサンプリングされたパラメータ配列
は、従来の手段に従って伝送される。（例えば、次のセ
クションにおいて記述されている例示的な実施例におい
ては、この従来からの伝送では、差分量子化器を用いて
いる。）受信器においては、パラメータ配列は、音声モ
デルにより再構成されるために必要なレートまで、アッ
プサンプリングされなくてはならない。アップサンプリ
ングのために帯域制限や直線補間が用いられているとき
には、明らかに、信号の特徴は失われていることにな
る。本発明の例示的な実施例においては、パラメータの
軌跡の知覚的に重要な特徴を識別するために、分類化が
用いられており、そうでない場合、補間のみを元にして
再構成されたパラメータ配列においては、このようなパ
ラメータの軌跡の知覚的に重要な特徴は存在しないこと
になる。このような分類化の結果によって、ブロックの
境界におけるサンプル間のパラメータの軌跡を構成する
ために、軌跡の目録（インベントリー）からひとつの軌
跡が選択される。さらに、この目録（インベントリー）
はブロックの境界におけるパラメータの値に適応してい
る。ここで記述された例示的な方法は、必ずしも付加的
な情報の伝送を必要とするものではない。すなわち、伝
送され、ダウンサンプリングが行われたパラメータの配
列のみを用いて、符号器の受信器側末端において、分類
化は実行される。

【００１１】[例示的な実施例]ここで示された例示的な
実施例においては、上で記述された処理が、特に音声出
力に対して適用されている。ステップ形をした輪郭の音
声信号は、平滑な輪郭をした音声信号とは、有意に異な
って聞こえる。平滑な輪郭は、持続した音声の音に典型
的にみられる一方、ステップ形をした輪郭は、音の出だ
しを発音する際に共通してみられる。伝送され、ダウン
サンプリングされた音声出力の配列を用いる、単純な分
類化のスキームでは、高い信頼性をもって、ステップ形
をした音声信号の輪郭を識別することが可能である。そ
こでは、ステップ形をした輪郭は、再構成された信号出
力の配列のために用いられている。実験により、音声出
力の信号におけるステップの正確な位置は、認識された
音声の質にとって、僅かな重要性しか有していないとい
うことが示されている。

【００１２】符号器の伝送側末端において実行された分
類化は、破裂音のようなサンプル間でのエネルギーの輪
郭における特徴を識別するために、用いられることが可
能である。また、再構成された破裂音の正確な位置も、
ごく僅かな知覚上の重要性しか有していない。このよう
に、伝送側末端において破裂音が識別されたときには常
に、音声出力の信号における単純な膨らみ（隆起）部分
が、ブロックの中央に加えられることになる。

【００１３】図１は、波形補間符号器において、信号出
力の抽出を実行する、本発明の例示的な実施例の伝送側
部分を示している。元の音声信号は、最初に、符号化ユ
ニット（エンコーデイングユニット）１０１において処
理される。波形補間符号器においては、この符号化ユニ
ット（エンコーデイングユニット）は特徴的な波形を抽
出する。これらの特徴的な波形は、音声が発音されてい
る間の１ピッチ周期に対応している。既知の方法に従っ
て、音声信号は、特徴的な波形の配列（線形予測による
差の部分で定義される。）、ピッチ周期での軌跡、時間
変化する線形予測係数によって表示される。そのような
技術は、例えば、本発明の譲受人に譲り受けられた、共
に出願中のU.S.Patent application Ser.No.08/179,831
（米国特許出願番号Ｎｏ．０８／１７９，８３１）の、
W.B.Kleijinによる"Method andAppratus For Prototype
Waveform Speech Coding"において、記述されており、
参照することで、ここで十分に示されるのと同様に、こ
のような技術が組み入れられている。（なお、さらに、
例えば、W.B.Kleijin,"Encoding Speech UsingPrototyp
e Waveforms,"IEEE Trans.Speech and Audio Processin
g,Vol.1,No.4,pp.386-399,1993及びW.B.Kleijin and J.
Haagen,"Transformation andDecomposition of the Spe
ech Signal for Coding,"IEEE Signal ProcessingLette
rs,Vol.1,September 1994,pp.136-138.等を参照のこ
と。）

【００１４】特徴的な波形の記述は、大抵の場合、有限
フーリエ系列の形式をとっている。特徴的な波形は残り
（差）の部分で記述される。というのは、このようにす
ることで、抽出化及び量子化が容易となるからである。
特徴的な波形のサンプリング（抽出化）レートは、およ
そ５００Ｈｚに合わせられるのが有効である。本図にお
いては、以下の図面同様、ピッチ周期での軌跡、線形予
測係数は、これらのパラメータを必要とする、あらゆる
処理ユニット（プロセッシングユニット）に対しても利
用可能なものであると考えられる。ピッチ周期での軌跡
及び線形予測係数の両方とも、従来の方法に従って定義
付けられ、補間されているのである。

【００１５】特徴的な波形のうち量子化されない部分
（図１においては、量子化されていない中間的な信号と
して表記されている。）は、出力抽出器１０２へと供給
される。出力抽出器１０２においては、特徴的な波形の
残り（差）の部分が、まず、線形予測合成フィルターを
用いた巡回畳み込みという手段により、当該特徴的な波
形の音声部分へと変換される。（このような畳み込み
は、例えば、W.B.Kleijin,"Encoding Speech Using Pro
totype Waveforms,"IEEE Trans.Speech and AudioProce
ssing,Vol.1,No.4,pp.386-399,1993の式（１９）の手段
により、直接的にフーリエ系列を元にして実行されるこ
とが可能である。）音声部分での信号出力は、線形予測
係数における伝送誤り（エラー）が、音声信号の出力に
影響を及ぼすことを避けることから、用いられるのであ
る。

【００１６】そこで、出力抽出器１０２は、各音声サン
プルについて、特徴的な波形の出力を算出する。出力
は、信号出力がピッチ周期に依存しないように、サンプ
ルベース毎に正規化される。これによって、量子化を容
易にし、ピッチ周期に影響を及ぼす通信路での誤り（エ
ラー）に対して、出力が影響を受け難くすることにな
る。最終的には、出力抽出器１０２は、結果として得ら
れる音声部分の出力を、音声部分の出力の対数（表示）
に変換する。例えば、広く知られている、デシベル（ｄ
Ｂ）のｌｏｇスケール（表示）が、このような目的のた
めに用いられ得るであろう。（線形信号出力よりもむし
ろ信号出力の対数（表示）を利用することの方が、人間
の知覚特性に動機付けられたものである。人間の耳は、
何桁ものオーダーの大きさにわたって変化する信号出力
を扱うことが可能である。）特徴的な波形と同じレート
でサンプリングされた、このような信号は破裂音検出器
１０５、低域フィルター１０６、正規化器（ノーマライ
ザー）１０３へと供給される。正規化器（ノーマライザ
ー）１０３は、正規化された特徴的な波形を作り出すた
めに、抽出された信号出力を用いている。このような正
規化された特徴的な波形は、さらに符号化ユニット（エ
ンコーデイングユニット）１０４において、符号化さ
れ、また、信号出力を付加的な情報として利用する場合
もあり得るであろう。

【００１７】エーリアシング（重ねて同じ信号が処理さ
れる）を避けるために、低域フィルター１０６は、ダウ
ンサンプラー１０７の出力信号についてのサンプリング
周波数の半分を越える周波数を取り除く。２．４Ｋｂ／
ｓの符号器についていえば、ダウンサンプリングを行っ
た後のサンプリング周波数は、１００Ｈｚ（ここで与え
られた実施例においては、５という係数でダウンサンプ
リングがなされることに対応している。）に合わせられ
ることが有効である。

【００１８】出力符号器（出力エンコーダー）１０８
は、ダウンサンプリングされたｌｏｇ表示の出力配列を
符号化（エンコード）する。これは、差分量子化器を用
いて処理されることがより有効である。ここで、サンプ
リング時刻ｎにおけるｌｏｇ表示の出力がｘ（ｎ）であ
るとしよう。すると、差分信号ｅ（ｎ）を量子化するた
めには、単なるスカラー量の量子化器が用いられ、すな
わち、ｅ（ｎ）＝ｘ（ｎ）−α^*ｘ（ｎ−１）（１）と表せる。Ｑ（ｅ（ｎ））は、ｅ（ｎ）の量子化された
値を表示するものとしよう。すると、再構成されたｌｏ
ｇ表示による出力は、Ｘ（ｎ）＝Ｑ（ｅ（ｎ））＋α^*ｘ（ｎ−１）（２）となる。１以下のαについては、等式（２）は、良く知
られている、ｌｅａｋｙｉｎｔｅｇｒａｔｏｒ（漏出積
分器）を示している。ｌｅａｋｙｉｎｔｅｇｒａｔｏ
ｒ（漏出積分器）の機能は、通信路における誤り（エラ
ー）への感度を減少させるということにある。α＝０．
８という値が用いられることが有効である。

【００１９】破裂音検出器１０５は、処理されていない
ｌｏｇ表示の出力の配列と低域フィルターをとおしたｌ
ｏｇ表示の出力の配列を利用する。ダウンサンプリング
されたｌｏｇ表示の出力の配列のサンプル間における各
時間間隔（例えば、１００Ｈｚという、ダウンサンプリ
ングされたサンプリングレートに基つ゛いた場合の１０
ｍｓといった）について、破裂音検出器の出力は、２つ
の判断となる。すなわち、１が破裂音を検出したことを
意味する一方で、０は破裂音が検出されなかったことを
意味している。

【００２０】破裂音検出器１０５の操作は図３において
示されている。ピーククリアランス検出器３０４は、ｌ
ｏｇ表示の出力のサンプルから、同じサンプルで低域フ
ィルターをとおしたｌｏｇ表示の出力の配列を引いた値
が、所与の閾値よりも大きいかについて判断がなされ
る。（例えば、このような閾値は、信号出力のｌｏｇ表
示については、１６ｄＢに合わせられることが有効であ
る。）もし、このような場合、ピーククリアランス検出
器３０４の出力は１であり、そうでない場合には出力は
０である。

【００２１】ハットハンガー３０１の操作は、図５及び
図６に例示されている。概念的には、ハット形の曲線
が、ここでの出力信号サンプルから、いわば吊るされて
いることになる。すなわち、ハットに相当する部分の頂
上部は、ここでのサンプルの頂上部に等しいレベルに合
わせられている。ハットクリアランス検出器３０３の出
力は、ハットの形状によりカバーされている部分のサン
プルが、ハット及びその周辺部より下に適合しているな
らば、１となる。例えば、図５は当該ハットが隣接する
サンプルとの衝突を避けていない状況であることを示し
ている。このようなことから、ハットクリアランス検出
器３０３の出力は０である。一方、図６は、当該ハット
が隣接するサンプルとの衝突を避けている状況であるこ
とを示している。このようなことから、ハットクリアラ
ンス検出器３０３の出力は１である。ハットの特性はハ
ットキーパー３０２に保存されている。ハットの形状は
検出間隔の範囲内で変化させることが可能であり、周辺
部の高さは左側と右側で異ならせることが可能である。
例えば、ハットが左右対称である場合には、ハットの頂
上部の幅及び周辺部の幅は、それぞれ、５ｍｓに合わせ
られることが有効であり得るし、頂上部までの周辺部の
距離は、信号出力のｌｏｇ表示を記述している輪郭につ
いては、１２ｄＢに合わせられることが有効であり得
る。例えば、ハットクリアランス検出器３０３が、サン
プルのレベルのテストを行い、これらのレベルと与えら
れた所定の閾値とを比較するためのサンプルメモリー及
びプロセッサーをもって補足されうるということは、当
業者の認めるところであろう。

【００２２】論理的にＡＮＤの機能を持つ演算器３０５
は、ピーククリアランス検出器３０４からの出力とハッ
トクリアランス検出器３０３からの出力を結びつける。
もしこれらの２つの出力のいずれかひとつが０であるな
らば、論理的にＡＮＤの機能を持つ演算器３０５の出力
は０となる。論理的にはＯＲの機能を持ったダウンサン
プラー３０６は、各時間間隔について、ダウンサンプリ
ングされたｌｏｇ表示の出力の配列という、ひとつの出
力を有する。（すなわち、ダウンサンプラー１０７の出
力）例えば、前に記述された例としてのケースについて
は、これは１０ｍｓ毎に一出力ということになろう。も
し、論理的にはＯＲの機能を持ったダウンサンプラー３
０６への入力が、このような時間間隔内でのいかなると
きにおいても０でない場合には、論理的にはＯＲの機能
を持ったダウンサンプラー３０６の出力は１に合わせら
れる。そして、このことは、破裂音が検出されたという
ことを示している。もし入力が時間間隔内でのいかなる
ときにおいても０である場合には、論理的にはＯＲの機
能を持ったダウンサンプラー３０６の出力は０に合わせ
られる。これは、破裂音は検出されなかったことを示し
ている。

【００２３】図２は、図１において示された伝送部分に
対応した本発明における例示的実施例の受信部分を示し
ている。復号器（デコーダー）ユニット２０１は特徴的
な波形を再構成する。復号器（デコーダー）ユニット２
０１の中で実行される操作のいくつかは伝送器において
実行される操作に対応していない。例えば、出力信号の
スペクトル形状を強調するために、特徴的な波形に対し
て、形状が成形される前のスペクトルが加えられる場合
がありうる。このことは、復号器（デコーダ）ユニット
２０１の出力を形成する特徴的な波形は、一般的に、正
規化された出力を有することが保証されていないという
ことを意味している。このようなことから、量子化され
た特徴的な波形をスケーリングする（換算する）に先だ
って、これらの出力が評価されなくてはならない。これ
は、出力抽出器１０２と類似した方法で機能する、出力
抽出器２０２によってなされる。また、出力は音声の部
分において評価される。

【００２４】スケールファクター（換算係数）プロセッ
サー２０６は復号器（デコーダ）ユニット２０１によっ
て生成された特徴的な波形に適用されるべき適切なスケ
ールファクター（換算係数）を決定する。それぞれの特
徴的な波形については、スケールファクター（換算係
数）プロセッサー２０６への入力は、伝送された情報か
ら再構成された、ｌｏｇ表示の出力値であり、スケーリ
ングを行う（換算を行う）前の量子化された特徴的な波
形である。ｌｏｇ表示の出力値は、線形の出力値に変換
され、スケーリングされていない量子化された特徴的な
波形の出力により割られる。このような除法が、スケー
リングされていない量子化された特徴的な波形にとって
の適切なスケールファクター（換算係数）を作り出すこ
とになる。結果として生じるスケールファクター（換算
係数）は増幅器２０７において用いられ、この増幅器は
その出力として、適切にスケーリングされた量子化され
た特徴的な波形を有する。この特徴的な波形は復号器
（デコーダ）ユニット２０３の入力であり、この復号器
（デコーダ）ユニットが、特徴的な波形の配列の記述を
（ピッチ周期での軌跡及び線形予測係数による補助も共
に）再構成された音声信号へと変換する。復号器（デコ
ーダ）ユニット２０３において用いられた、良く知られ
ている方法は、例えば、U.S.Patent application Ser.N
o.08/179,831（米国特許出願番号Ｎｏ．０８／１７９，
８３１）に記述されている。

【００２５】ここでは、ｌｏｇ表示の出力の配列の再構
成が説明されよう。出力復号器（パワーデコーダー）２
０４は、ダウンサンプリングされ、量子化されたｌｏｇ
表示の出力の配列を、上の式（２）に基つ゛いて再構成
する。出力（パワー）エンベローププロセッサー２０５
は、このダウンサンプリングされた配列をサンプリング
がなされていないｌｏｇ表示の出力の配列へと変換す
る。出力（パワー）エンベローププロセッサー２０５の
操作は、図４に詳細に例示されている。第一に、破裂音
についての情報が０である場合（破裂音が存在しないと
いうことを示している。）が考えられるであろう。出力
ステップ評価器（パワーステップエバリュエター）４０
１が、ダウンサンプリングされた配列の、現在でのｌｏ
ｇ表示での出力値から、ダウンサンプリングされた配列
の、前のｌｏｇ表示での出力値を差し引くことで、その
差を決定する。アップサンプラー４０２は、アップサン
プリング処理に従って、ｌｏｇ表示の出力の配列をアッ
プサンプリングする。とりわけ、アップサンプラー４０
２により実行されるアップサンプリング処理は、連続的
なサンプル（出力ステップ評価器（パワーステップエバ
リュエター）４０１により決定される。）間の差を閾値
と比較することを元にして選択される。例えば、閾値
は、音声出力のｌｏｇ表示では１２ｄｂで、１００Ｈｚ
というサンプリングレートに選ばれることが有効であり
得る。更新される各点間での直線補間は、連続的なサン
プル間の差が当該閾値よりも小さい場合には、アップサ
ンプラー４０２により実行される。ほとんどの時間間隔
についてもこのような場合が当てはまり、図７に例示さ
れている。図７は、ダウンサンプリングされたｌｏｇ表
示での出力の配列について、２つのサンプル値を太線で
示している。これらの２つのサンプル値の間のサンプル
は直線補間により得られる。

【００２６】信号出力において、連続的なサンプル間の
差が閾値を越えるような、より大きな増加は、主として
シャープに発音された音の出だしにおいて生じる。ｌｏ
ｇ表示の出力の直線補間は、そのような音の出だしにと
っては良いモデルであるとはいえない。それ故に、この
ような場合、アップサンプラー４０２はステップ形をし
た輪郭を利用する。とりわけ、連続的なサンプル間の差
が当該閾値を越えるときはいつも、左側のｌｏｇ表示の
出力値（すなわち、前のサンプル）が、当該時間間隔の
中点に至るまで用いられ、右側のｌｏｇ表示の出力値
（すなわち、現在におけるサンプル）は、当該時間間隔
の残りの部分に対して用いられる。この例については、
図９に例示されている。一般には、当該ステップは、元
の信号の出だしと同じ（時間的）瞬間には位置しないと
考えられる。しかしながら、人間の知覚にとって、出力
の輪郭におけるステップの正確な位置は、当該時間間隔
内に平滑な輪郭よりもステップが含まれているというこ
とに比べて、あまり重要ではないのである。

【００２７】ステップ形をした出力の輪郭の知覚的な効
果は、再構成された音声信号を、目立ってより鋭く（歯
切れを良く）するということがある。しかしながら、ス
テップ形をした出力の輪郭を無分別に用いるということ
は、出力信号の質の重大な低下という結果へつながるの
である。信号出力が、急速に変化している場合につい
て、ステップ毎の輪郭を利用することを限定すること
は、結果として、直線補間された輪郭について絶えず一
貫して利用する場合に比べて、改良された音声の質を得
られることになる。さらに、信号出力が、急速ではある
が滑らかに変化している場合について、ステップ毎の輪
郭を利用しても、再構成された音声に重大な影響をもた
らすものではないのである。

【００２８】次に、破裂音についての情報が１となる
（破裂音が存在しているということを示している。）場
合が考えられよう。また、これは図４に関連して記述さ
れている。破裂音が存在しているときには、破裂音加算
器（破裂音アダー）４０３が、当該破裂音が存在してい
ると知られている時間間隔内での、サンプリングされて
いないｌｏｇ表示の出力の配列の一つあるいはそれ以上
の特定のサンプルに対して、固定値を加算する。例え
ば、信号出力のｌｏｇ表示については、１．２という固
定値が用いられることが有効であるかもしれないし、こ
の値は、５ｍｓという時間間隔でのｌｏｇ表示の出力の
信号に加えられることが有効であるかもしれない。図８
は、本来は直線補間がなされる輪郭の場合について、破
裂音が加えられていることを例示している。図９は、ス
テップ毎の輪郭の場合について、破裂音が加えられてい
ることを例示している。後者の場合について、破裂音は
ステップの後に加えられることが有効である。そうでな
いと、聞き取ることができないであろう。

【００２９】上で記述された、本発明の例示的実施例
は、２つの、関連するが区別できる、分類化処理を含ん
でいる。例えば、図４において示されているように、出
力ステップ評価器（パワーステップエバリュエター）４
０１は、２つの連続的なサンプル間のｌｏｇ表示の出力
の輪郭が、直線的に補間され得るのかどうか、あるい
は、ステップ形をした輪郭が提示されうるのかというこ
とを決定するのである。加えて、破裂音加算器（破裂音
アダー）４０３が、破裂音が２つの連続的サンプル間の
ｌｏｇ表示の出力の輪郭に加えられ得るのかどうかにつ
き、決定するのである。本発明のその他の例示的実施例
においては、これらの処理のいずれか一つは、その他の
処理とは独立に実行されうるのである。

【００３０】説明を明確化するために、本発明の例示的
実施例は、個々の機能的なブロックあるいはプロセッサ
ーを含むものとして提示されている。これらのブロック
が提示する機能は、限定はされないが、ソフトウエアを
実行できるハードウエアを含む、共有化あるいは専用化
されたハードウエアのいずれかの利用を通じて提供され
うるのである。例えば、図１から図４までで示されたプ
ロセッサーの機能は単一の共有化されたプロセッサーに
よって提供されうる。（いわゆる、プロセッサーという
語の利用は、もっぱらソフトウエアを実行可能なハード
ウエアのみを呼称するものと解釈されるべきではな
い。）

【００３１】例示的な実施例は、ＡＴ＆ＴのＤＳＰ１６
あるいはＤＳＰ３２Ｃといったような、デジタル信号プ
ロセッサー（ＤＳＰ）、これまで論じられた操作を実行
するソフトウエアを保存するための読み出し専用メモリ
ー（ＲＯＭ）、ＤＳＰによる結果を保存するためのラン
ダムアクセスメモリー（ＲＡＭ）を含みうる。超大規模
集積回路（ＶＬＳＩ）ハードウエアの実施例もまた、一
般的な用途用のＤＳＰ回路と結びつけてカスタム化され
たＶＬＳＩ回路と同様、提供されうる。

【００３２】本発明の特定の実施例のいくつかはここで
も示され、また記述されてきたが、これらの実施例は単
に、本発明の原理の応用において案出可能な、考えられ
る多くの特定の配置を例示しているものに過ぎないとい
うことは理解されるべきである。これらの原理に従っ
て、非常に多くの、そして変化に富んだ他の配置が、本
発明の真意及び範囲から離れることなく、当業者によっ
て案出されうるのである。

【発明の効果】本発明によって、音声の符号化における
パラメータについて、知覚的に重要な特徴を伝送するこ
とが可能となり、パラメータの輪郭についてのより詳細
な記述が得られることになった。その結果、信号出力
が、比較的低いビット伝送速度（ビットレート）で伝送
される場合においても、符号化された上で、再構成され
る信号の質が向上することとなった。

【図面の簡単な説明】

【図１】信号出力を明示的なパラメータとして有し、本
発明の例示的な実施例に従い符号化を行う、例示的な符
号化システムの伝送部分の全体図を示している。

【図２】信号出力を明示的なパラメータとして有し、本
発明の例示的な実施例に従い符号化を行う、例示的な符
号化システムの受信部分の全体図を示している。

【図３】図１の例示的な伝送器において利用されるため
の例示的な破裂音検出器を示している。

【図４】図２の例示的な受信器において利用されるため
の例示的な出力（パワー）エンベローププロセッサーを
示している。

【図５】破裂音が存在しない場合において操作する、図
３の例示的な破裂音検出器のいわゆるハットハンギング
機構を示している。

【図６】破裂音が存在する場合において操作する、図３
の例示的な破裂音検出器のいわゆるハットハンギング機
構を示している。

【図７】本発明の例示的な実施例に従い、直線補間によ
って得られるｌｏｇ表示の信号出力の輪郭を示してい
る。

【図８】本発明の例示的な実施例に従い、直線補間によ
って得られるｌｏｇ表示の信号出力の輪郭及び付加され
た破裂音を示している。

【図９】本発明の例示的な実施例に従い、ステップ形の
補間によって得られるｌｏｇ表示の信号出力の輪郭を示
している。

【図１０】本発明の例示的な実施例に従い、ステップ形
の補間によって得られるｌｏｇ表示の信号出力の輪郭及
び付加された破裂音を示している。

【符号の説明】

１０１符号化ユニット（エンコーデイングユニット）１０２出力抽出器１０３正規化器（ノーマライザー）１０４符号化ユニット（エンコーデイングユニット）１０５破裂音検出器１０６低域フィルター１０７ダウンサンプラー１０８出力符号器（出力エンコーダー）２０１復号器（デコーダー）ユニット２０２出力抽出器２０３復号器（デコーダ）ユニット２０４出力復号器（パワーデコーダー）２０５出力（パワー）エンベローププロセッサー２０６スケールファクター（換算係数）プロセッサー２０７増幅器３０１ハットハンガー３０２ハットキーパー３０３ハットクリアランス検出器３０４ピーククリアランス検出器３０５論理的にＡＮＤの機能を持つ演算器３０６論理的にはＯＲの機能を持ったダウンサンプラ
ー４０１出力ステップ評価器（パワーステップエバリュ
エター）４０２アップサンプラー４０３破裂音加算器（破裂音アダー）

───────────────────────────────────────────────────── フロントページの続き (72)発明者ウィレムバスティアンクレインアメリカ合衆国，07920 ニュージャージー，バスキングリッジ、ビレッジドライブ 87 (56)参考文献特開昭60−195600（ＪＰ，Ａ) 特開昭51−149706（ＪＰ，Ａ) 特開昭56−80099（ＪＰ，Ａ) 特開昭59−102297（ＪＰ，Ａ) 特開平１−219895（ＪＰ，Ａ) 特開昭51−149706（ＪＰ，Ａ) 特公昭62−39758（ＪＰ，Ｂ２)

Claims

(57)【特許請求の範囲】

【請求項１】符号化された信号を復号化する方法に
おいて、前記符号化された信号が、所定のパラメータの値を示
す、連続する符号化されたパラメータの値の信号の配列
を含み、該配列のうちで連続する２つの符号化されたパラメータ
の値の信号に基づいて、前記所定のパラメータを複数の
カテゴリーの１つへ分類化するステップと、前記分類化されたカテゴリーに基づいて、前記連続する
２つの符号化されたパラメータの値の信号の間で、一回
もしくはそれ以上の回数、前記所定のパラメータの値を
示す、１つもしくはそれ以上の中間的なパラメータの値
の信号を生成するステップと、を含み、前記カテゴリーが、直線補間のカテゴリー及びステップ
関数のカテゴリーを含み、前記所定のパラメータが、前記直線補間のカテゴリーに
分類化されたときに、前記中間的なパラメータの値の信
号を生成するステップが前記連続する２つの符号化され
たパラメータの値の信号によって示される前記所定のパ
ラメータの値のうちで、数値的に、大きい方よりも小さ
く、及び小さい方よりも大きい値を示す中間的なパラメ
ータの値の信号を生成することを含み、前記所定のパラメータが、前記ステップ関数のカテゴリ
ーに分類化されたときに、前記中間的なパラメータの値
の信号を生成するステップが、前記連続する２つの符号
化されたパラメータの値の信号によって示される前記所
定のパラメータの値のうちの１つに数値的に等しい値を
示す中間的なパラメータの値の信号を生成することを含
むことを特徴とする、符号化された信号を復号化する方
法。
【請求項２】請求項１の方法において、前記符号化さ
れた信号が符号化された音声信号を含むことを特徴とす
る、符号化された信号を復号化する方法。
【請求項３】請求項２の方法において、前記所定のパ
ラメータが音声信号の出力を表していることを特徴とす
る、符号化された信号を復号化する方法。
【請求項４】請求項３の方法において、前記所定のパ
ラメータが特徴的な波形の出力を表していることを特徴
とする、符号化された信号を復号化する方法。
【請求項５】請求項１の方法において、前記所定のパ
ラメータを分類化するステップが、前記連続する２つの
符号化されたパラメータの値の信号によって示された値
の間の数値上の差に基づいて前記所定のパラメータを分
類化すること、を含むことを特徴とする、符号化された
信号を復号化する方法。
【請求項６】請求項１の方法において、前記所定のパラメータが、前記ステップ関数のカテゴリ
ーに分類化されたときに、前記中間的なパラメータの値
の信号を生成するステップが、第一の中間的なパラメー
タの値の信号と第二の中間的なパラメータの値の信号を
含む、少なくとも２つの中間的なパラメータの値の信号
を生成することを含み、前記第一の中間的なパラメータの値の信号及び前記第二
の中間的なパラメータの値の信号が、前記所定のパラメ
ータについての異なった数値を示していることを特徴と
する、符号化された信号を復号化する方法。
【請求項７】請求項６の方法において、前記符号化さ
れた信号が符号化された音声信号を含み、前記所定のパ
ラメータが特徴的な波形の出力を表していることを特徴
とする、符号化された信号を復号化する方法。
【請求項８】請求項１の方法において、前記符号化さ
れた信号が、さらに、前記連続する２つの符号化された
パラメータの値の信号間で、幾回か、１つもしくはそれ
以上の前記所定のパラメータの値を表している、符号化
されたパラメータ特徴信号を含んでおり、前記分類化の
ステップが、前記符号化されたパラメータ特徴信号に基
づいて前記所定のパラメータを分類化することを含んで
いることを特徴とする、符号化された信号を復号化する
方法。
【請求項９】請求項８の方法において、前記符号化さ
れた信号が符号化された音声信号を含むことを特徴とす
る、符号化された信号を復号化する方法。
【請求項１０】請求項９の方法において、前記所定の
パラメータが音声信号の出力を表していることを特徴と
する、符号化された信号を復号化する方法。
【請求項１１】請求項１０の方法において、前記複数
のカテゴリーが、音声信号の出力の破裂音が存在するこ
とを表しているカテゴリーと音声信号の出力の破裂音が
存在しないことを表しているカテゴリーを含むことを特
徴とする、符号化された信号を復号化する方法。
【請求項１２】信号を符号化する方法において、当該
方法が以下のステップ、すなわち、所定のパラメータの値を示す、連続する符号化されたパ
ラメータの値の信号の配列を生成し、該配列のうちで連続する２つの符号化されたパラメータ
の値の信号間で、１回もしくはそれ以上の回数、一つも
しくはそれ以上の前記所定のパラメータの値に基づい
て、前記所定のパラメータを複数のカテゴリーの一つに
分類化し、さらに、前記分類化されたカテゴリーに基づいて、符号化された
パラメータに特徴的な信号を生成する、を含み、前記複数のカテゴリーが、音声信号の出力の破裂音が存
在することを表しているカテゴリーと音声信号の出力の
破裂音が存在しないことを表しているカテゴリーを含む
ことを特徴とする、信号を符号化する方法。
【請求項１３】請求項１２の方法において、前記信号
が音声信号を含むことを特徴とする、信号を符号化する
方法。
【請求項１４】請求項１３の方法において、前記所定
のパラメータが音声信号の出力を表していることを特徴
とする、信号を符号化する方法。
【請求項１５】符号化された信号を復号化するための
復号器において、符号化された信号が、所定のパラメー
タの値を示す、連続する符号化されたパラメータの値の
信号の配列を含んでおり、前記復号器が、以下の手段、すなわち、該配列のうちで連続する２つの符号化されたパラメータ
の値の信号に基づいて、前記所定のパラメータを複数の
カテゴリーの１つへ分類化するための手段、前記分類化されたカテゴリーに基づいて、前記連続する
２つの符号化されたパラメータの値の信号の間で、一回
もしくはそれ以上の回数、前記所定のパラメータの値を
示す、１つもしくはそれ以上の中間的なパラメータの値
の信号を生成するための手段、を含み、前記カテゴリーが、直線補間のカテゴリー及びステップ
関数のカテゴリーを含み、前記所定のパラメータが、前記直線補間のカテゴリーに
分類化されたときに、前記中間的なパラメータの値の信
号を生成するための手段が、前記連続する２つの符号化
されたパラメータの値の信号によって示される前記所定
のパラメータの値のうちで、数値的に、大きい方よりも
小さく、及び小さいほうよりも大きい値を示す中間的な
パラメータの値の信号を生成するための手段を含み、前記所定のパラメータが、前記ステップ関数のカテゴリ
ーに分類化されたときに、前記中間的なパラメータの値
の信号を生成するための手段が、前記連続する２つの符
号化されたパラメータの値の信号によって示される前記
所定のパラメータの値のうちの１つに数値的に等しい値
を示す中間的なパラメータの値の信号を生成するための
手段を含むことを特徴とする、符号化された信号を復号
化するための復号器。
【請求項１６】請求項１５の復号器において、前記符
号化された信号が、符号化された音声信号を含むことを
特徴とする、符号化された信号を復号化するための復号
器。
【請求項１７】請求項１６の復号器において、前記所
定のパラメータが、音声信号の出力を表していることを
特徴とする、符号化された信号を復号化するための復号
器。
【請求項１８】請求項１７の復号器において、前記所
定のパラメータが特徴的な波形の出力を表していること
を特徴とする、符号化された信号を復号化するための復
号器。
【請求項１９】請求項１５の復号器において、前記所
定のパラメータを分類化するための手段が、前記連続す
る２つの符号化されたパラメータの値の信号によって示
される値の間の数値的な差に基づいて、前記所定のパラ
メータを分類化するための手段を含むことを特徴とす
る、符号化された信号を復号化するための復号器。
【請求項２０】請求項１５の復号器において、前記所定のパラメータが、前記ステップ関数のカテゴリ
ーに分類化されたときに、前記中間的なパラメータの値
の信号を生成するための手段が、第一の中間的なパラメ
ータの値の信号と第二の中間的なパラメータの値の信号
を含む、少なくとも２つの中間的なパラメータの値の信
号を生成するための手段を含み、前記第一の中間的なパラメータの値の信号及び前記第二
の中間的なパラメータの値の信号が、前記所定のパラメ
ータについての異なった数値を示している、ことを特徴
とする、符号化された信号を復号化するための復号器。
【請求項２１】請求項２０の復号器において、前記符
号化された信号が符号化された音声信号を含み、前記所
定のパラメータが特徴的な波形の出力を表していること
を特徴とする、符号化された信号を復号化するための復
号器。
【請求項２２】請求項１５の復号器において、前記符
号化された信号が、さらに、前記連続する２つの符号化
されたパラメータの値の信号間で、幾回か、１つもしく
はそれ以上の前記所定のパラメータの値を表わしてい
る、符号化されたパラメータ特徴信号を含んでおり、前
記所定のパラメータを分類化するための手段が、前記符
号化されたパラメータ特徴信号に基づいて前記所定のパ
ラメータを分類化するための手段を含んでいることを特
徴とする、符号化された信号を復号化するための復号
器。
【請求項２３】請求項２２の復号器において、前記符
号化された信号が符号化された音声信号を含むことを特
徴とする、符号化された信号を復号化するための復号
器。
【請求項２４】請求項２３の復号器において、前記所
定のパラメータが、音声信号の出力を表していることを
特徴とする、符号化された信号を復号化するための復号
器。
【請求項２５】請求項２４の復号器において、前記複
数のカテゴリーが、音声信号の出力の破裂音が存在する
ことを表しているカテゴリーと音声信号の出力の破裂音
が存在しないことを表しているカテゴリーを含むことを
特徴とする、符号化された信号を復号化するための復号
器。
【請求項２６】音声信号を符号化する符号器におい
て、当該符号器が以下の手段、すなわち、所定のパラメータの値を示す、連続する符号化されたパ
ラメータの値の信号の配列を生成するための手段、該配列のうちで連続する２つの符号化されたパラメータ
の値の信号間で、１回もしくはそれ以上の回数、一つも
しくはそれ以上の前記所定のパラメータの値に基づい
て、前記所定のパラメータを複数のカテゴリーの一つに
分類化するための手段、さらに、前記分類化されたカテゴリーに基づいて、符号化された
パラメータに特徴的な信号を生成するための手段、を含
み、前記複数のカテゴリーが、音声信号の出力の破裂音が存
在することを表しているカテゴリーと音声信号の出力の
破裂音が存在しないことを表しているカテゴリーを含む
ことを特徴とする、信号を符号化する符号器。
【請求項２７】請求項２６の符号器において、前記信
号が音声信号を含むことを特徴とする、信号を符号化す
る符号器。
【請求項２８】請求項２７の符号器において、前記所
定のパラメータが音声信号の出力を表していることを特
徴とする、信号を符号化する符号器。