JPH09503630A - 固定ビットレートのスピーチエンコーダ/デコーダ - Google Patents

固定ビットレートのスピーチエンコーダ/デコーダ

Info

Publication number
JPH09503630A
JPH09503630A JP7504171A JP50417195A JPH09503630A JP H09503630 A JPH09503630 A JP H09503630A JP 7504171 A JP7504171 A JP 7504171A JP 50417195 A JP50417195 A JP 50417195A JP H09503630 A JPH09503630 A JP H09503630A
Authority
JP
Japan
Prior art keywords
band
value
frequency coefficient
coefficient
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7504171A
Other languages
English (en)
Inventor
アントニー ヘンリー クロッスマン
ブラント マーティン ヘルフ
ジキソン ファン
Original Assignee
ピクチャーテル コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ピクチャーテル コーポレイション filed Critical ピクチャーテル コーポレイション
Publication of JPH09503630A publication Critical patent/JPH09503630A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 帯域(201)に配列された周波数係数のフレームを含むデジタル信号を送信する方法であって、上記周波数係数が、ある数のビットにより表される方法が提供される。この方法は、他の帯域の平均エネルギーに対する当該帯域のエネルギーに対応するクラス値(203)を各帯域ごとに発生することを含む。ビット数が所定のスレッシュホールド(220)を越えるときに、上記周波数係数のうち、最小のクラス値を有する帯域に属する周波数係数を排除することにより、ビット数は、上記所定のスレッシュホールド以下の値に減少される(222)。次いで、残りの周波数係数が送信される。

Description

【発明の詳細な説明】 明細書 固定ビットレートのスピーチエンコーダ/デコーダ添付資料 添付資料は、ハフマンエンコーダテーブルを示す。発明の背景 本発明は、通信チャンネルを経て送られる音声信号をエンコードしそしてその 後にデコードすることに関する。 遠隔会議及びテレビ会議の使用目的で送信される音声及び映像信号の合成帯域 幅は、使用できる通信チャンネルの帯域幅をしばしば越える。その結果、信号の 質を著しく低下せずに狭い帯域幅を用いて送信できるように音声及び映像信号を 圧縮する技術が開発された。 異なる圧縮手法を比較し得るようにするために、種々の規格団体が許容し得る 信号の質について指針を定めている。1つのこのような規格が国際7kHz音声 規格、CCITT推奨勧告G.722であり、これは、48,000ビット/秒 の送信レートで7kHzの音声信号をデジタル送信する場合の音質指針を与える ものである。発明の要旨 本発明は、CCITT推奨勧告G.722と同等の音質を24,000ビット /秒のみの送信レートで与える圧縮方式を提供するものであり、従って、使用で きるデジタル送信帯域を更に効率的に使用するものである。テレビ会議の使用目 的においては、音声送信に必要な送信レートをこのように下げることは、映像の 送信に更に多くの送信帯域を使用できることを意味し、ひいては、映像の質及び 全テレビ会議システムの性能を向上させる。 1つの特徴において、一般的に、本発明は、デジタル信号を送信する方法であ って、デジタル信号は、帯域に配列された周波数係数のフレームを含み、周波数 係数は、ある数のビットで表されることを特徴とする。各フレームに対し、他の 帯域の平均エネルギーに対する当該帯域のエネルギーに対応するクラス値が各帯 域ごとに発生される。周波数係数を表すビットの数が所定のスレッシュホールド を越えると、ビットの数は、最小のクラス値(ひいては、最低のエネルギー)を 有する帯域に属する周波数係数を排除することにより、所定スレッシュホールド 以下の値に減少される。次いで、残りの周波数係数が送信される。 低いクラス値を有する周波数係数を排除することにより、本発明は、周波数係 数の一部分しか送信できないときに、殆どの信号内容を有する周波数係数が送信 されるよう確保する。 好ましい実施形態においては、各帯域におけるエネルギーのスペクトル推定値 が発生され、スペクトル推定値は、クラス値の発生に使用される。更に、周波数 係数の各々に対するステップサイズが、その対応帯域に対するスペクトル推定値 に基づいて発生され、比較的高いエネルギーを有する帯域における周波数係数の ステップサイズは、比較的低いエネルギーを有する帯域における周波数係数のス テップサイズよりも大きい。 周波数係数は、周波数係数の値とそれに対応するステップサイズとの間の関係 に基づいて量子化されて、量子化周波数係数が発生され、これは、次いで、必要 に応じて減少されて送信される。クラス値が0の周波数帯域については、量子化 周波数係数が発生も送信もされない。 周波数係数に対するステップサイズをそれに対応する周波数帯域のエネルギー と共に変えることにより、本発明は、歪があまり容易にマスクされない低いエネ ルギー帯域よりも、高い信号エネルギーが歪を知覚的に良好にマスクし得る高い エネルギー帯域に多くのコード化歪を与える。その結果、聴取者は、歪を容易に 感じることはない。 一般に、量子化された周波数係数は、0の値をもつ連続的な量子化周波数係数 が一緒にエンコードされるようなエントロピーコード化機構を用いてエンコード される。典型的に、このコード化機構は、クラス値に依存し、ハフマンコードに 基づいている。 最後に、一部はクラス値に基づく量子化周波数係数を表すのに必要なビットの 数を更に制御するために、クラス値が変更される。図面の簡単な説明 図1は、本発明の好ましい実施形態によるエンコーダのブロック図である。 図2及び3は、図1のエンコーダのスペクトル推定量子化装置及び量子化装置 ルールジェネレータによって使用される手順のフローチャートである。 図4及び5は、図3の手順の特徴を示すグラフである。 図6及び7は、図1のエンコーダの量子化装置によって使用される手順のフロ ーチャートである。 図8は、図1のエンコーダに対するデコーダのブロック図である。好ましい実施例の詳細な説明 図1を参照すれば、固定ビットレートのスピーチエンコーダ10は、アナログ 音声入力信号I(t)をエンコードし、デジタル送信チャンネル24を経て送信 する。tは、時間を表す変数である。エンコーダ10は、低エネルギーのバック グランドノイズのような不必要な成分を排除すると共に、冗長な情報を最小にす ることにより、アナログ音声入力信号I(t)を圧縮する。 最初、アナログ/デジタルコンバータ12は、アナログ音声入力信号I(t) をデジタル入力信号I(n)に変換する。nは、時間の瞬間を表す整数である。 アナログ/デジタルコンバータ12は16kHzでサンプリングするので、デジ タル入力信号I(n)は、毎秒16,000個のサンプルを含む。 ウインドウモジュール14は、デジタル入力信号I(n)を受け取り、そして I(n)のサンプルをフレームIF(n)に分離する。これらフレームは、ここ に示す実施形態では、512個の連続するサンプルより成る。従って、ウインド ウモジュール14は、ある瞬間に音声入力信号I(t)の状態を各々表すサンプ ルを、その状態を更に拡張した時間幅にわたって表すフレームへとグループ分け する。フレームの始めと終わりに導入される不連続性の影響を低減するために、 各フレームは、手前のフレームからの最後の32個のサンプルと、480個の新 たなサンプルとを含み、最初の32個と最後の32個のサンプルは、適当に重み 付けされる。現在のフレームの最後の32個のサンプルは、次のフレームの始め に使用するためにバッファにセーブされる。従って、フレームは30ミリ秒ごと に発生される。 離散的コサイン変換(DCT)の変換モジュール16は、各512サンプルの フレームを512個の周波数係数F(k)の集合体へ変換する。但し、kはフレ ームのスペクトルにおける離散的周波数を表す整数である。周波数係数F(k) は、フレームの周波数スペクトルを表し、フレームによって表された時間幅の間 に入力音声信号I(t)に各周波数がどの程度存在したかを示す。52個の最も 高い周波数の係数は、当該周波数レンジの外側の周波数に対応する(即ち、人間 のスピーチに通常関連した周波数ではない)ので、最初の460個の周波数係数 F(k)のみがその後の処理に使用される。これらの460個の周波数係数は、 約7.2kHzの帯域幅に対応する(F(k)当たり15.625Hz)。もち ろん、ここに示す概念は、他の帯域幅、サンプリングレート及びビット送信レー トにも等しく適用できる。 次いで、スペクトル推定装置18は、スペクトル推定値S(j)を発生する。 但し、jは周波数帯域を表す整数である。スペクトル推定値S(j)は、周波数 係数F(k)から導出される輪郭であり、スペクトル包絡線のおおよその表示を 与える。エンコーダ10は、スペクトル推定値S(j)を、周波数係数F(k) の特性に対するガイドラインとして使用する。ここに示す実施形態では、スペク トル推定値S(j)は、最初の460個の周波数係数F(k)から発生された2 3個の成分を含み、その各々は、20個の周波数係数の帯域の平均電力を表す。 スペクトル推定値S(j)の成分は、式(I)に基づいて発生される。 但し、jの範囲は0から22である。 スペクトル推定値量子化装置20は、一連の数字の各数字がそれとその手前の 数字との差で表される差動パルスコード変調(DPCM)の良く知られた概念を 用いてスペクトル推定値S(j)の成分を量子化する。例えば、0に初期化され た1のフィードバックをもつDPCMエンコーダは、一連の1、2、4、4を、 1(1−0)、1(2−1)、2(4−2)、0(4−4)としてエンコードす る。スペクトル推定値量子化装置20がたどる手順100が図2に示され、これ について以下に詳細に述べる。 量子化されたスペクトル推定値成分QS(j)は、マルチプレクサ22へ送られ、 デジタル送信チャンネル24に沿って送信される。デジタル送信チャンネル24 の他端にあるデコーダ50(図8)は、量子化されたスペクトル推定値QS(j)か らスペクトル推定値S(j)を再構成し、そしてこの再構成されたスペクトル推 定値Sr(j)を用いて、音声出力信号を発生する。しかしながら、スペクトル 推定値量子化装置20の動作により、再構成されたスペクトル推定値Sr(j) は、S(j)に等しくない。それ故、スペクトル推定値量子化装置20は、スペ クトル推定値S(j)を再構成するためにデコーダ50(図8)により使用され るスペクトル推定値デコード再構成装置56(図8)の複製を含んでいて、再構 成されたスペクトル推定値Sr(j)を、後で処理に使うために発生する。 又、図2を参照すれば、スペクトル推定値量子化装置20は、スペクトル推定 値S(j)の第1成分S(0)を他の成分とは異なる仕方で量子化し、そしてS (0)が直流利得情報を含むためにこのように行う。スペクトル推定値量子化装 置20は、ステップサイズが6dBの中間トレッド(mid-tread)量子化装置を使 用してS(0)の値を量子化し、QS(0)を形成する(ステップ102)。中間ト レッド量子化装置は、単一ステップ内に入る全ての入力に同じ出力値を指定し、 そしてこの出力値をステップの中央に置く。例えば、6dBのステップサイズで は、−3以上であって且つ3未満の入力に出力値0が指定され、そして3以上で あって且つ9未満の入力に出力値1が指定される。QS(0)を表すのに4ビットが 使用され、これは、96dB(24*6dB)のダイナミックレンジを許す。次 いで、QS(0)が再構成され、Sr(0)を形成する(ステップ104)。 スペクトル推定値量子化装置20は、次いで、Sr(0)を用いてDPCMエ ンコーダを初期化する(ステップ106)。その後に、スペクトル推定値量子化 装置20は、6dBのステップサイズ及び1のフィードバックを有する第1次の 中間トレッドDPCMエンコーダであるDPCMエンコーダを用いて、残りの2 2個のスペクトル推定値成分S(1)・・・S(22)を量子化する(ステップ 108)。量子化された値は、全て、−8と14との間の整数である(これは、 テーブル1に示すように、15ビット未満のハフマンコードを許す)。次いで、 これら量子化された値は、テーブル1に基づいてハフマンコード化され、QS(1) ・・・QS(22)を形成する(ステップ110)。 フレームに対するエンコードされた値QS(1)・・・QS(22)は、QS(0)の4ビ ットと共に、マルチプレクサ22へ送られる(ステップ112)。エンコードさ れた値QS(1)・・・QS(22)は再構成され、再構成スペクトル推定値Sr(1)・ ・・Sr(22)を形成する(ステップ114)。最後に、再構成スペクトル 推定値Sr(1)・・・Sr(22)は、それらのエネルギーレベルに基づいて記 憶される(ステップ116)。 再び図1を参照すれば、量子化ルールジェネレータ26は、再構成されたスペ クトル推定値Sr(j)及びレート指数rを入力として受け入れる。量子化ルー ルジェネレータ26は、再構成されたスペクトル推定値Sr(j)により表され た周波数係数の各20係数帯域に関連したクラス値C(j)と、各周波数係数F (k)に関連したステップサイズST(k)とを発生する。 量子化ルールジェネレータ26は、周波数係数F(k)の信号エネルギーと共 に変化するステップサイズST(k)を発生し、高い信号エネルギーを有する周 波数については大きなステップサイズを発生し、そして低い信号エネルギーを有 する周波数については小さなステップサイズを発生する。ステップサイズを変え ることにより、量子化ルールジェネレータ26は、周波数スペクトルの高エネル ギー(ピーク)領域においては低エネルギー(谷)領域よりも多くの歪を許すと いう人間の聴覚系統の現象を利用する。ピーク領域における高い信号エネルギー は、これら領域に導入される量子化歪を良好にマスクできるので、聴取者は、歪 を容易に感じることがなく、エンコーダ10は、量子化歪を最小にする必要がな い。同様に、谷領域における低い信号エネルギーは、これらの領域に導入される 量子化歪をほとんどマスクできないので、エンコーダ10は、これらの領域にお いて量子化歪を最小にする。 この効果を達成する1つの特徴として、以下に詳細に説明するように、非常に 低いエネルギーを有する谷領域に対応する周波数係数に、0のクラス値C(j) が指定される。0のクラス値C(j)をもつ周波数係数は、全く量子化も送信も されない。又、以下に説明するように、デコーダ50(図8)は、「ノイズ充填 (noise-fill-in)」と称する技術を使用して、低エネルギーの周波数係数の送信 失敗により生じる再構成スピーチの歪を最小にする。 又、図3を参照すれば、量子化ルールジェネレータ26は、手順150を実行 する。先ず、量子化ルールジェネレータ26は、スペクトル推定値S(j)の2 3個の成分の各々に対しクラス値C(j)を発生する(ステップ152)。各ク ラス値は、20の周波数係数の帯域(各々のS(j)を導出するのに用いたも のと同じ帯域)に適用され、帯域のエネルギーをフレームの他の帯域の平均エネ ルギーに関連付ける。量子化ルールジェネレータ26は、式(2)を用いてクラ ス値を発生する。 但し、rは、以下に述べるようにエントロピーコーダ30により送られるビット 使用量に関連したレート指数であり、そしてD=23は、スペクトル推定値成分 の数である。一般に、フレームの全ての帯域の平均エネルギーに対してある帯域 のエネルギーが多い程、そのクラス値C(j)は高くなる。 又、図4を参照すれば、量子化ルールジェネレータ26は、式(3)を用いて スペクトル推定値Sr(j)の23個の再構成成分の各々に対し対数ステップサ イズパラメータlog2(SS(j))を定義する(ステップ154)。 log2(SS(j))=MM*C(j)−KK+II (3) 但し、KKは、式(4)で定義される。 図4に示すように、IIは切片であり、MMは予め定められた直線セグメントの 傾斜である。従って、log2(SS(j))の値が視覚的に選択された場合に は、C(j)の適当な値に対応する線セグメント上のポイントを見つけ、そして KKを減算することになる。ここに示す実施形態において、量子化ルールジェネ レータ26への全ての入力に対して一定であるMM及びIIの値は、各々、0. 2076及び1.8839である。量子化ルールジェネレータ26への所与の1 組の入力に対し、KKも一定である。 ステップ154において、対数のステップサイズを形成した後に、量子化ルー ルジェネレータ26は、クラス値C(j)を整数形態に変換する(ステップ15 6)。量子化ルールジェネレータ26は、クラス値を式(5)、(6)、(7) に基づいて切断することによりこれを行う。 C(j)= C(j)+1」 (5) C(j)+1」<0の場合は、C(j)=0 (6) C(j)+1」>10の場合は、C(j)=10 (7) 以下に述べるように、ゼロに等しいクラス値C(j)に対するスペクトル推定値 S(j)に対応する20個の周波数係数F(k)は、量子化も送信もされない。 又、図5を参照すれば、量子化ルールジェネレータ26は、スペクトル推定値 S(j)の成分から形成された対数ステップサイズlog2(SS(j))の逆 対数により460個の周波数係数F(k)に対するステップサイズST(k)を 形成する。従って、20係数帯域における全ての周波数係数F(k)のステップ サイズST(k)は、その帯域に対応するスペクトル推定値S(j)のステップ サイズSS(j)に等しい。 量子化装置28は、0より大きなクラス値を有する最初の460個の周波数係 数F(k)を量子化し、量子化された係数Q(k)を形成する。0に等しいクラ ス値を有する周波数係数F(k)は、デジタル送信チャンネル24を経て送信さ れないので、量子化されない。各周波数係数F(k)は、その周波数係数に対し 量子化ルールジェネレータ26により発生されたST(k)に等しいステップサ イズをもつ中間トレッド量子化装置を用いて量子化される。量子化された係数Q (k)の値は、テーブル2に基づいて各クラス値に対し所定の数値範囲に制限さ れる。クラス値に基づいて出力値の範囲を制限することにより、エントリピーコ ーダ30においてハフマンエンコードテーブルにより占有されるメモリスペース を前もって決定することができる。というのは、ハフマンエンコードテーブルの サイズは、エンコードされるべき値の範囲、ひいては、その個数に基づくからで ある。 エントロピーコーダ30は、量子化された係数Q(k)をエンコードして、コ ード化された係数QC(k)を形成する。エントロピーコーダ30は、できるだ け大きな帯域幅の圧縮が達成されるよう確保しようと試みるコード化技術を使用 し、従って、実際に送信されるコード化係数QC(k)の最大数を、音質を犠牲 にせずに、できるだけ大きなものにする。送信されるコード化係数の個数を最大 にすることにより、エントロピーコーダ30は、デコーダ50(図8)によって 発生される音声出力が、使用できるデジタル送信帯域幅(即ち、24,000ビ ット/秒)に対して最高の音質となるように確保する。 エントロピーコーダ30により使用されるコード化技術は、エントロピーコー ダ30、量子化ルールジェネレータ26及び量子化装置28を含む独特のフィー ドバックループを備えている。このフィードバックループにより、エントロピー コーダ30は、各フレームのコード化された係数QC(k)を表すのに必要なビ ット数を制御する。エントロピーコーダ30は、レート指数rの値を繰り返し調 整しそしてその調整された値を量子化ルールジェネレータ26へ供給することに よりこれを行う。レート指数rは、量子化ルールジェネレータ26により出力さ れるステップサイズST(k)及びクラス値C(j)を制御し、これらは、次い で、量子化装置28により出力される量子化された係数Q(k)の精度を制御す る。コード化された係数QC(k)を表すのに必要なビット数は、量子化された 係数Q(k)の精度に直接関連する(そして精度の上昇と共に増加する)ので、 エントロピーコーダ30は、レート指数rを制御することによりこのビット数を 制御する。例えば、あるフレームに対しコード化された係数QC(k)を表すの に必要なビット数が、送信できる数を越えるときには、エントロピーコーダ30 がレート指数rを減少する。これは、(a)各周波数係数ごとにステップサイズ を増加しそして(b)特定帯域に対してクラス値を減少する傾向とすることによ り、量子化された係数Q(k)の精度を減少する。 又、図6を参照すれば、エントロピーコーダ30、量子化装置28及び量子化 ルールジェネレータ26の組合せは、上記のフィードバック機構に基づいて使用 する最終的なビット数を制御するための手順200を用いて、各入力フレームご とに、コード化された係数QC(k)を発生する。レート指数rにより維持され るフィードバックは、エントロピーコーダ30が、24,000ビット/秒(又 は720ビット/入力フレーム)の使用可能なチャンネル帯域幅の完全な利用を 確保できるようにする。このフィードバックは、エンコードに使用される全ビッ ト数を支配し、その合計が、デジタル送信チャンネル24を経て所与のフレーム (720ビット)を送信するのに許容された数にできるだけ近いものになるよう にする。 最初に、量子化装置28は周波数係数F(k)を分類し、周波数係数F(k) の各20の係数の帯域は、対応する再構成されたスペクトル推定値Sr(j)の 分類された位置に基づき再配置される(ステップ201)。例えば、Sr(5) が最も高いエネルギーレベルを有し、そして再構成されたスペクトル推定値のリ ストの始めへ移動された場合に、F(100)・・・F(119)は、周波数係 数のリストの始めへ移動される。 次いで、エントロピーコーダ30は、レート指数rを0.1(ここに示す実施 形態において有用であると分かっている値)に初期化すると共に、繰り返しカウ ントiを1に初期化する(ステップ202)。次いで、量子化ルールジェネレー タ26は、レート指数rと、分類され再構成されたスペクトル推定値Sr(j) に基づいてクラス値C(j)を発生する(ステップ203)。クラス値C(j) 及び分類された周波数係数F(k)に基づき、量子化装置28は、量子化された 係数Q(k)を発生する(ステップ204)。 クラス値C(j)を用いて、以下に詳細に述べる手順250に基づきQ(k) の対応グループのハフマンコードを制御することによって、エントロピーコーダ 30は、量子化された係数Q(k)をエンコードして、コード化された係数Qc (k)を発生する(ステップ206)。以下に述べるように、量子化された係数 Q(k)をエンコードする間に、エントロピーコーダ30は、フレームを表すの に必要な全ビット数TBを、(a)コード化された係数QC(k)におけるビッ ト数と、(b)量子化されたスペクトル推定値Qs(j)におけるビット数と、(c )rを表すのに必要なビット数との和に等しくセットする。 次いで、エントロピーコーダ30は、TBが上限スレッシュホールドTHを越 えるかどうか決定する(ステップ208)。ここに示す実施形態では、この上限 スレッシュホールドは756に等しく、それ故、デジタル送信チャンネル24を 経ての送信に許されたビット数TC(720に等しい)を越える。TBがTHよ り大きい場合には、エントロピーコーダ30は、指数レートを減少する(ステッ プ210)。これは、次いで、次の繰り返し中にフレームをエンコードするのに 必要な全ビット数を(手前のレート指数rに比べたときに)式(8)に基づいて 減少する。 r=r−C/i (8) 但し、iは繰り返しカウントであり、Cは0.45に等しい定数である。繰り返 しカウントは、各繰り返しごとにレート指数rが小さな量だけ変化するように、 レート指数rを変更するのに使用される。これは、レート指数rを最適値に接近 させることができる。例えば、レート指数rの初期値が非常に大きなTBを形成 し(レート指数rが大き過ぎたために)、そしてレート指数rに対する第1の繰 り返し値が非常に小さなTBを形成する(調整されたレート指数rが小さ過ぎた ために)場合には、レート指数rに対する第2の繰り返し値は、おそらく許容で きるTBを形成することになる(新たなレート指数rは、以下に述べるように、 大き過ぎるか又は小さ過ぎる手前の2つの値の間のどこかにあるからである)。 TBがTH以下である場合には、エントロピーコーダ30は、TBが下限スレ ッシュホールドTLより小さいかどうか決定する(ステップ212)。ここに示 す実施形態では、TLは720に等しく、それ故、TCにも等しい。TBがTL より小さい場合には、エントロピーコーダ30は、指数レートを増加し(ステッ プ214)、これは、次いで、次の繰り返し中にフレームをエンコードするのに 必要な全ビット数を(手前のレート指数rに比べたときに)式(9)に基づいて 増加する。 r=r+C/i (9) 但し、iは繰り返しカウントであり、Cは0.45に等しい定数である。 TBがTHより大きいかTLより小さい場合には、エントロピーコーダ30は 繰り返しカウントを増加し(ステップ216)、そして新たな繰り返しカウント が所定の最大値(ここに示す実施形態では4に等しい)を越えるかどうか決定す る(ステップ218)。繰り返しカウントが最大値を越えない場合には、同じフ レームに対し、量子化ルールジェネレータ26は、新たなクラス値C(j)を発 生し(ステップ203)、そして量子化装置28は、新たな量子化係数Q(k) を発生し(ステップ204)、これらはエントロピーコーダ30によりエンコー ドされる(ステップ206)。 繰り返しカウントが最大値を越える場合、又はTBがTH以下であり且つTL 以上である場合には、エントロピーコーダ30は、TBがTCより大きいかどう か決定する(ステップ220)。もしそうならば、エントロピーコーダ30は、 最低のクラス値を有する帯域内の最高周波数に対応する係数でスタートして、最 高のクラス値を有する帯域内の最低周波数に対応する係数に向かって作用するこ とにより、転送されるべきフレームにおけるコード化係数QC(k)の数を減少 し(ステップ222)、そしてTBがTC−16以下になるまでこれを行う。転 送されるべきコード化係数QC(k)の数を減少した後に、エントロピーコーダ 30は、コード化係数QC(k)の終わりに、16ビットまでの長さであるブロ ック終了記号を挿入する(ステップ224)。この記号は、全ての量子化係数Q (k)がコード化係数QC(k)として転送のためにエンコードされたのではな いことをデコーダに指示する。最終的に、エントロピーコーダ30は、コード化 係数QC(k)をマルチプレクサ22へ送信する(ステップ226)。 図7を参照すれば、コード化係数QC(k)を形成すると共に、レート指数r の特定の値に対してTBを決定するために、スタートアップ(ステップ252) の後に、エントロピーコーダ30は、jの値を得る(ステップ254)。jの値 は、量子化係数Q(k)の分類された順序に基づく。例えば、第1の量子化係数 Q(k)がQ(40)である場合には、エントロピーコーダ30は、jを2に等 しくセットする(即ち、jは、kが40ないし59に等しいときに、2に等しく なる)。 次いで、エントロピーコーダ30は、クラス値C(j)が0より大きいかどう か決定する(ステップ256)。もしそうならば、エントロピーコーダ30は、 クラス値C(j)に基づいてハフマンエンコーダテーブルを選択する(ステップ 258)。1と10との間のクラス値C(j)の各々に対して1つづつ、10個 のハフマンエンコーダテーブルがある。1のクラス値に対するハフマンエンコー ダテーブルは、テーブル4として以下に示し、2ないし10のクラス値に対する ハフマンエンコーダテーブルは、添付資料に含まれている。既に述べたように、 関連クラス値C(j)が0に等しいときには量子化係数Q(k)は発生されず、 従って、ハフマンエンコーダテーブルは、このクラス値については必要でない。 ハフマンエンコーダテーブルを選択した後に、エントロピーコーダ30は、変数 xを初期化する(ステップ260)。殆どの場合に、xは0に初期化される。し かしながら、以下に述べるように、一連の連続する0が帯域境界を含むときは、 xは、その一連の連続する0を考慮するために何らかの他の値に初期化される。 選択されたハフマンエンコーダテーブルに基づいて、エントロピーコーダ30 は、量子化係数Q(20j+x)と、連続する0の値を有するその後の量子化係 数を、一連の15個のこのような係数まで一緒にエンコードする(ステップ26 2)。このようなその後の0値の量子化係数が存在するときには、エントロピー コーダ30は、jを更新すると共に、エンコード係数を考慮するように必要に応 じてxを増加する。例えば、jが3に等しく、xが15に等しくそして量子化係 数Q(75)の後に一連の4個の連続する0が続く(これは、3に等しいjによ り定められた帯域を完成する)場合には、エントロピーコーダ30は、xを 19に等しくセットする。次の帯域が、例えば、一連の5個の付加的な連続する 0で始まった場合には、エントロピーコーダ30は、これらの0もエンコードし 、そして(ステップ260において)xを5に初期化する。 Q(20j+x)をエンコードするために、エントロピーコーダ30は、先ず テーブル3に示した所定の1組のカテゴリーの中のどのカテゴリーが量子化係数 Q(20j+x)を含むか決定する。 カテゴリーと、連続する0値の量子化係数の個数(0から15の範囲のランレ ングス)は、1バイトとして一緒に表される。このバイトに値「1」が追加され て、バイトが決して0にならないよう確保される(0の値は、特殊なブロック終 了記号を表すのに使用されるので)。次いで、このバイトの新たな値が、既に選 択されたハフマンエンコーダテーブルから選択される。ハフマンエンコーダテー ブルにおけるエントリーの数は、クラス値と共に変化する。というのは、クラス 値は、量子化係数の値の範囲を制限し、ひいては、考えられるカテゴリーの数を 制限するからである。例えば、テーブル4に示すように、1のクラス値に対して ハフマンエンコーダテーブルには49のエントリーがある。これらの49のエン トリーは、3つの考えられるカテゴリー(0、1又は2)と、16個の考えられ るランレングスとの積、及びブロック終了記号に対応する。 カテゴリー及びランレングスをエンコードした後に、量子化係数の実際の値が カテゴリー内の指数としてエンコードされる。この指数は、カテゴリーに等しい 振幅ビットとして知られている一連のビットによって表される。従って、カテゴ リー3には3つの振幅ビットがあり、そしてカテゴリー1には1つの振幅ビット のみがある。振幅ビットは、ハフマンコードの終わりに添付され、エンコードさ れた量子化係数QC(20j+x)を形成する。 量子化係数をエンコードした後に、エントロピーコーダ30は、TBがTHを 越えるかどうか決定する(ステップ264)。もしそうでなければ、エントロピ ーコーダは、xを1だけ増加する(ステップ266)。xの増加された値が20 未満である場合には(ステップ268)、エントロピーコーダ30は、次の量子 化係数Q(20j+x)をエンコードする(ステップ262)。 xの増加された値が20に等しいか(ステップ268)又はC(j)が0に等 しい(ステップ256)場合には、エントロピーコーダ30は、jが分類された 量子化係数Q(k)の最後の帯域を表すかどうか決定する(ステップ270)。 もしそうでなければ、エントロピーコーダ30は、jの新たな値を得る(ステッ プ254)。 jが分類された量子化係数Q(k)の最後の帯域を表す(ステップ270)か 又はTBがTHより大きい(ステップ264)場合には、エントロピーコーダ3 0は、上記のようにQ(k)のエンコードを停止する(ステップ272)。 図8を参照すれば、デコーダ50は、デマルチプレクサ52を備え、これは、 到来する24kビット/秒のビット流を受け取り、そしてそれを量子化スペクト ル推定値Qs(j)、レート指数r、及びコード化された係数QC(k)(これらは 量子化スペクトル推定値Qs(j)がデコードされた後にデコードされる)に分割す る。この情報に基づいて、エンコーダ10(図1)により使用されるハフマンコ ードテーブルのコピーと、デコーダ10のスペクトル推定量子化装置20に埋設 されるDPCMデコーダ及び量子化ルールジェネレータ26の複製とを有するの に加えて、このデコーダ50は、エンコーダ10に供給されるアナログ音声信号 I(t)の厳密な近似であるアナログ音声出力信号O(t)を発生する。 スペクトル推定デコーダ54は、量子化スペクトル推定値Qs(j)からデコード された量子化スペクトル推定値QD(j)を発生する。スペクトル推定デコーダ 54は、QS(0)に対して非ハフマンコード化記号(4ビット)をデコードし、そ してハフマンは、残りの22個のスペクトル推定値QS(1)・・・QS(22)をデコ ードする。スペクトル推定値再構成装置56は、スペクトル推定値量子化装置2 0(図1)に埋設されたDPCMデコーダと同等のDPCMデコーダを使用して 再構成されたスペクトル推定値Sr(j)を発生する。DPCMデコーダの初期 状態は、QS(0)の再構成レベルに基づいてセットされる。次いで、エンコーダ1 0(図1)の場合と同様の量子化ルールジェネレータ26が、フレームに対して 再構成されたスペクトル推定値Sr(j)及び送信されたレート指数rからクラ ス値C(j)及びステップサイズST(k)を発生する。 エントロピーデコーダ58は、量子化ルールジェネレータ26からのクラス値 C(j)を使用して、コード化された係数QC(k)を、デコードされた係数Q (k)へとデコードする。クラス値C(j)は、どのハフマンデコードテーブル を用いて各係数をデコードするか指示する。又、エントロピーデコーダ58は、 デコードされた係数Q(k)を分類し、デコードされた係数Q(k)を周波数の 順序で配置する(デコーダ10により送信されたクラス値の順序ではなくて)。 周波数係数再構成装置60は、ステップサイズST(k)を用いて、デコードさ れた係数Q(k)を再構成された周波数係数Fr(k)に変換する。周波数係数 再構成装置60は、元の周波数係数F(k)に対して優れた平均平方エラーマッ チングを生じる均一スレッシュホールド量子化装置を使用する。 ノイズ充填モジュール62は、信号内容の不充分な周波数帯域を考慮し、信号 内容の不充分なこれらの周波数帯域を変更することにより周波数係数Frn(k) を発生する。ノイズ充填は、3つの形式の周波数帯域において使用され、それら は、(a)クラス値C(j)が0に等しいために送信されなかった帯域、(b) 全ての再構成された周波数係数Fr(k)が0に等しいような帯域、及び(c) 再構成された周波数係数Fr(k)の全エネルギーが、そのFr(k)に対応する 再構成されたスペクトル推定値Sr(j)よりも、ここに示す実施形態では6d Bである所定の量だけ小さいような帯域である。これらの各々の場合に、対応す るスペクトル推定値の平方に等しい分散(Sr(j))2を有するランダムノ イズが、信号内容の不充分な周波数帯域の再構成された周波数係数Fr(k)を このランダムノイズに置き換えることにより注入される。不所望な高い周波数に 対応するために決して送信されない周波数係数(k>459)についてはノイズ 充填が使用されないことに注意されたい。 ノイズ充填モジュール62は、ノイズ充填を使用しなければ聴取者に聞こえる であろう歪を主観的にマスキングできるようにし、高品質の低ビットレートエン コーダを形成する。ノイズ充填は、位相歪に対する耳の見掛け上の不感性を利用 するものである。 ノイズ充填モジュール62は、ノイズを発生するためのゼロ平均ランダム番号 ジェネレータを使用する。ランダムジェネレータの分散は、上記のように、考慮 されている特定のスペクトル推定値Sr(j)に等しくなるように調整される。 一定のノイズ係数がノイズ分散に対し最終調整として使用されると共に、注入さ れるランダムノイズの分散をスケーリングするのに使用される。ここに示す実施 形態では、ノイズ係数は2.3に等しい。 次いで、逆変換モジュール64は、周波数係数Frn(k)の各フレームを時間 ドメインにおける512のサンプルフレームOF(n)に変換する。変換を実行 する前に、逆変換モジュール64は、459より大きなkに対しFrn(k)の全 ての値を0に等しくセットし、これにより、逆変換器への入力として使用するた めの1組の512の周波数係数を形成する。ウインドウモジュール66は、各フ レームからの最初の480個のサンプルをデジタル出力信号O(n)として出力 する。ウインドウモジュール66は、各フレームからの最後の32個のサンプル を保持し、そしてこれらサンプルを次のフレームの最初の32個のサンプルと共 に、出力前に、適切にウインドウ処理する。最後に、デジタル/アナログコンバ ータ68は、デジタル出力信号O(n)を音声出力信号O(t)へ変換する。 このように、本発明により動作すると、通常音声信号に許された帯域幅の半分 のみを使用するだけで、審美的に満足を与える高質の音響再現を得ることができ る。 他の実施形態は、請求の範囲に記載する。例えば、離散的フーリエ変換のよう な他の変換をDCT変換に置き換えることができ及び/又は線型予想技術をスペ クトル推定値に置き換えることができる。同様に、演算コード化をハフマンコー ド化に置き換えることもできる。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FR,GB,GR,IE,IT,LU,M C,NL,PT,SE),CA,JP (72)発明者 ファン ジキソン アメリカ合衆国 マサチューセッツ州 02135 ブライトン ブロック ストリー ト 1―40

Claims (1)

  1. 【特許請求の範囲】 1.帯域に配列された周波数係数のフレームを含むデジタル信号を送信するた めの方法であって、各フレームに対する上記周波数係数は、フレームで決定され るビット数により表され、上記方法は、各フレームごとに、 他の帯域の平均エネルギーに対する当該帯域のエネルギーに対応するクラス値 を各帯域ごとに発生し、 上記ビット数が所定のスレッシュホールドを越えるときに、上記周波数係数の うち、最小のクラス値を有する帯域に属する周波数係数を排除することにより、 上記ビット数を上記所定のスレッシュホールド以下の値に減少し、そして 上記減少段階で排除されなかった上記周波数係数を送信する、 という段階を備えたことを特徴とする方法。 2.各々の帯域におけるエネルギーのスペクトル推定値を発生する段階を更に 備え、上記クラス値は、上記スペクトル推定値に基づいて発生される請求の範囲 第1項に記載の方法。 3.対応する帯域のスペクトル推定値に基づいて各々の周波数係数ごとにステ ップサイズを発生し、比較的高いエネルギーを有する帯域における周波数係数の ステップサイズは、比較的低いエネルギーを有する帯域における周波数係数のス テップサイズより大きく、 周波数係数の値とそれに対応するステップサイズとの間の関係に基づいて上記 周波数係数の各々を量子化して、量子化された周波数係数を発生し、 上記減少及び送信段階は、上記量子化された周波数係数に基づいて動作する、 という段階を更に備えた請求の範囲第2項に記載の方法。 4.対応する帯域のスペクトル推定値に基づいて各々の周波数係数ごとにステ ップサイズを発生し、比較的高いエネルギーを有する帯域における周波数係数の ステップサイズは、比較的低いエネルギーを有する帯域における周波数係数のス テップサイズより大きく、 周波数係数の値とそれに対応するステップサイズとの間の関係に基づいて上記 周波数係数の各々を量子化して、量子化された周波数係数を発生し、 上記クラス値を用いて上記量子化された周波数係数をエンコードして、エンコ ードされた量子化周波数係数を発生し、そして 上記減少及び送信段階は、上記エンコードされた量子化周波数係数に基づいて 動作する、 という段階を更に備えた請求の範囲第2項に記載の方法。 5.上記エンコードされた量子化周波数係数は、多数のビットによって表され 、この数は上記クラス値に影響されるものであり、上記方法は、更に、上記ビッ ト数を制御するように上記クラス値を変更する段階を含む請求の範囲第4項に記 載の方法。 6.上記エンコード段階は、0の値を有する連続する量子化周波数係数を一緒 にエンコードするエントロピーコード化を使用する請求の範囲第4項に記載の方 法。 7.上記クラス値は、上記量子化周波数係数を発生するのに使用される請求の 範囲第3項に記載の方法。 8.上記量子化周波数係数は、クラス値が0の帯域については発生も送信もさ れない請求の範囲第7項に記載の方法。
JP7504171A 1993-07-07 1994-07-07 固定ビットレートのスピーチエンコーダ/デコーダ Pending JPH09503630A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US8830993A 1993-07-07 1993-07-07
US08/088,309 1993-07-07
US13440593A 1993-10-08 1993-10-08
US08/134,405 1993-10-08
PCT/US1994/007651 WO1995002240A1 (en) 1993-07-07 1994-07-07 A fixed bit rate speech encoder/decoder

Publications (1)

Publication Number Publication Date
JPH09503630A true JPH09503630A (ja) 1997-04-08

Family

ID=26778536

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7504171A Pending JPH09503630A (ja) 1993-07-07 1994-07-07 固定ビットレートのスピーチエンコーダ/デコーダ

Country Status (5)

Country Link
EP (1) EP0708959B1 (ja)
JP (1) JPH09503630A (ja)
CA (1) CA2166723A1 (ja)
DE (1) DE69420848T2 (ja)
WO (1) WO1995002240A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002517019A (ja) * 1998-05-27 2002-06-11 マイクロソフト コーポレイション 信号の量子化変換係数をエントロピーエンコードするシステムと方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3475985B2 (ja) * 1995-11-10 2003-12-10 ソニー株式会社 情報符号化装置および方法、情報復号化装置および方法
JP3255022B2 (ja) 1996-07-01 2002-02-12 日本電気株式会社 適応変換符号化方式および適応変換復号方式
US5924064A (en) * 1996-10-07 1999-07-13 Picturetel Corporation Variable length coding using a plurality of region bit allocation patterns

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5921039B2 (ja) * 1981-11-04 1984-05-17 日本電信電話株式会社 適応予測符号化方式
GB8421498D0 (en) * 1984-08-24 1984-09-26 British Telecomm Frequency domain speech coding
US4964166A (en) * 1988-05-26 1990-10-16 Pacific Communication Science, Inc. Adaptive transform coder having minimal bit allocation processing
US5042069A (en) * 1989-04-18 1991-08-20 Pacific Communications Sciences, Inc. Methods and apparatus for reconstructing non-quantized adaptively transformed voice signals
US5150387A (en) * 1989-12-21 1992-09-22 Kabushiki Kaisha Toshiba Variable rate encoding and communicating apparatus
US5559900A (en) * 1991-03-12 1996-09-24 Lucent Technologies Inc. Compression of signals for perceptual quality by selecting frequency bands having relatively high energy

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002517019A (ja) * 1998-05-27 2002-06-11 マイクロソフト コーポレイション 信号の量子化変換係数をエントロピーエンコードするシステムと方法

Also Published As

Publication number Publication date
DE69420848T2 (de) 2000-07-20
WO1995002240A1 (en) 1995-01-19
EP0708959A1 (en) 1996-05-01
EP0708959B1 (en) 1999-09-22
CA2166723A1 (en) 1995-01-19
DE69420848D1 (de) 1999-10-28
EP0708959A4 (en) 1998-01-21

Similar Documents

Publication Publication Date Title
EP0968497B1 (en) Variable length audio coding using a plurality of subband bit allocation patterns
US5664057A (en) Fixed bit rate speech encoder/decoder
US6438525B1 (en) Scalable audio coding/decoding method and apparatus
RU2197776C2 (ru) Способ и устройство масштабируемого кодирования-декодирования стереофонического звукового сигнала (варианты)
US6115689A (en) Scalable audio coder and decoder
US6029126A (en) Scalable audio coder and decoder
EP1080462B1 (en) System and method for entropy encoding quantized transform coefficients of a signal
KR19990041073A (ko) 비트율 조절이 가능한 오디오 부호화/복호화 방법 및 장치
JPS63117527A (ja) 信号のディジタル・ブロック・コ−ド化方法
WO2000069100A1 (en) In-band on-channel system and method for bit-rate reduction of the digital signal by utilising properties of the analog signal
IL122714A (en) Digital data coding/decoding method and apparatus
RU2214047C2 (ru) Способ и устройство для масштабируемого кодирования/декодирования аудиосигналов
JP3987317B2 (ja) ワイヤレス通信システムにおける送信のために信号を処理する方法および装置
JPH09503630A (ja) 固定ビットレートのスピーチエンコーダ/デコーダ
JP3130934B2 (ja) 可変ビットレート音声エンコーダ
KR970006827B1 (ko) 오디오신호 부호화장치
JPH09507631A (ja) 差分コーディング原理を用いる送信システム
KR960016814B1 (ko) 난청자용 서브밴드 부호화 방법
KR960003626B1 (ko) 변환 부호화된 오디오 신호의 난청자용 복호화 방법
KR960003627B1 (ko) 서브 밴드 부호화된 오디오 신호의 난청자용 복호화 방법
Das Advances in Digital Communication (Part 1)
Smith et al. Analog-to-Digital Conversion Techniques
IL213137A (en) Device and method for encrypting/decrypting digital data
KR950013086A (ko) 서브밴드 엔코더의 양자화장치