JPH0629859A - デジタル入力信号符号化方法 - Google Patents

デジタル入力信号符号化方法

Info

Publication number
JPH0629859A
JPH0629859A JP5064824A JP6482493A JPH0629859A JP H0629859 A JPH0629859 A JP H0629859A JP 5064824 A JP5064824 A JP 5064824A JP 6482493 A JP6482493 A JP 6482493A JP H0629859 A JPH0629859 A JP H0629859A
Authority
JP
Japan
Prior art keywords
signal
window
noise
mdct
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5064824A
Other languages
English (en)
Other versions
JP2923406B2 (ja
Inventor
Sousa Ferreira Anibal J De
ジョー デ スーサ フェレイラ アニバル
James D Johnston
デヴィッド ジョンストン ジェームス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc filed Critical American Telephone and Telegraph Co Inc
Publication of JPH0629859A publication Critical patent/JPH0629859A/ja
Application granted granted Critical
Publication of JP2923406B2 publication Critical patent/JP2923406B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/86Arrangements characterised by the broadcast information itself
    • H04H20/88Stereophonic broadcast systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10592Audio or video recording specifically adapted for recording or reproducing multichannel signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】 【目的】 可聴信号の修正離散型コサイン変換を効率良
く実施する符号化方法を提供する。 【構成】 本発明の符号化方法は、離散型フーリエ変換
を用いて、可聴信号に対して、修正離散型コサイン変換
を実施する。この可聴信号に対する修正離散型コサイン
変換スペクトル係数は、高速フーリエ変換スペクトル係
数の実数部から生成される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、情報信号の処理に関
し、特に、記憶または伝送のために、音声および音楽情
報を表わす信号を含むモノラル音声信号およびステレオ
音声信号の効率的符号化および復合化方法に関する。
【0002】
【従来の技術】高品質音声信号を記憶し、処理し、通信
するコンシューマ用製品、産業用製品、スタジオ用製品
および実験室用製品には、大きな需要がある。例えば、
いわゆる音楽用コンパクトディスク(CD)録音および
ディジタル・オーディオ・テープ(DAT)録音は、長
い間親しまれたフォノグラフレコードおよびカセットテ
ープに大部分とって代った。また、最近入手できるよう
になったディジタル・オーディオ・テープ(DAT)録
音は、高品質音声信号に対してより高い柔軟性と高い記
憶密度とを与える見込みがある。これについては、IE
EEスペクトル(1989年10日)の34〜38頁に
掲載されたタン(Tam)およびフェルメレン(Ver
mevlen)による「データ記憶用ディジタル・オー
ディオ・テープ」をも参照のこと。CD並みの品質を示
すディジタル技術の同報通信用途に対する需要も高まり
つつある。
【0003】これら発展途上のディジタル技術は、高品
質の信号を発生させることができるが、これは、相当量
のデータ記憶容量もしくは伝送帯域幅を犠牲にしてのみ
達成されることが多い。従って、記憶および伝送のため
に高品質音声信号を圧縮しようとして、多大の努力が行
われてきた。
【0004】伝送および記憶のための信号圧縮に向けら
れたこれまでの努力の大部分は、信号源が信号に付加す
る冗長度を削減しようとした。例えば、1984年、プ
レンティスホール社のエヌ・エス・ジャイヤント(N.
S.Jayant)およびピー・ノオル(P.Nol
l)の「波形のデジタル符号化」に記載された適応差分
パルス符号化変調(ADPCM)、サブバンド符号化お
よび変換符号化のような技術は、原始信号中に存在する
はずの冗長性を除去しようとしていた。
【0005】他の方策によれば、原始信号中の無関係な
情報は、人間の知覚系モデルに基づく技術を使用して除
去しようとする。このような技術は、例えば、コンシュ
ーマ電子製品のIEEE Trams.、Vol.CE
−33、No.4,1987年11月に掲載されたイー
・エフ・シュレーダ(E.F.Schroeder)お
よびジェイ・ジェイ・プラッテ(J.J.Platt
e)による「MSC:CD品質と256キロビット/秒
の速度とを有するステレオ音声符号化」およびIEEE
J.S.C.A,No.2 Vol.6のジョーンス
トン(Johnston)による論文「雑音基準を使用
する音声信号の変換符号化」に記載されている。
【0006】例えば、ジョーンストンの論文に記載され
た知覚符号化は、音声信号を再現するための必要ビット
伝送速度を落す(すなわち、使用可能ビットを再割り当
てする)、または、ビットの総数を減らす技術に関す
る。この符号化方式によれば、不要信号に対するマスキ
ングしきい値は、必要信号の周波数の関数として表わさ
れる。この場合、とりわけ、必要信号の信号成分を表現
するのに使用される量子化粗さは、符号化によってもた
らされる量子化雑音が雑音しきい値に極めて近接してい
てもよいが、この値を上回らないように選定される。こ
のため、もたらされた量子化雑音は、知覚過程において
マスキングされる。このように、知覚符号化された信号
の信号対雑音比は、比較的小さいかも知れないが、聴取
者に知覚される復号されたこれらの信号の品質は高い。
【0007】1991年8月13日に発行されたブラン
デンブルグその他の米国特許第5040,217号に
は、知覚に関する前記の考察を使用して高品質音声信号
を効率的に符号化し復号するシステムが記載されてい
る。特に、このシステムに記載された実施例は、入力信
号の「雑音状」品質または「音声状」品質の測度を使用
して、モノラル音声信号のための非常に効率的な符号化
を行う。
【0008】音声信号を圧縮するのに使用される符号化
技術自体が耳ざわりな成分またはマーチファクトをもた
らさないことが重要なのは、当然である。これは、特に
重要である。符号化される情報が一のステレオチャンネ
ルに対応する場合のステレオ音声情報の符号化が、再生
のため復号されるとき、他のステレオチャンネルに対応
する符号化する情報と干渉すなわち相互作用する虞があ
るとき、特に重要である。二つのステレオチャンネルを
符号化するための手段選択には、一定のビット伝送速度
で動作する2個の独立した符号器を使用するいわゆる
「二重モノラル」符号器が含まれる。比較すれば、「統
合モノラル」符号器は、2個のモノラル符号器を使用す
るが、一の複合ビット伝送速度を共有する。すなわち、
前記2個のモノラル符号器のビット伝送速度は、一定速
度以下に制限される。しかし、各符号器のビット伝送速
度間にトレードオフが成立する虞がある。「統合モノラ
ル」符号器は、追加符号化利得を実現するためのステレ
オ対のチャネル間特性を利用しようとする符号器であ
る。
【0009】
【発明が解決しようとする課題】ステレオ対の2つのチ
ャネルの独立した符号化(特に、ビット伝送速度が小さ
いとき)は望ましくない、多くの音響心理的アーチファ
クトを生じる虞があることが知られている。とりわけ、
動的に画像化された信号の局所化に適合しない符号化雑
音の局部化と関連した音響心理的アーチファクトが存在
する。従って、前記のような不適合局部化を避けるべき
であるとすれば、人間のステレオ知覚過程は、符号化過
程に対して制限を付加するように見える。この発見は、
雑音が空間的に隔離されうるように存在する(少なくと
も、低周波数に対して)ように見える両耳マスキングレ
ベル差に関する報告と一致する。このような両耳マスキ
ングレベル差は、モノラルシステムにおいてマスキング
される雑音成分をマスキングしないと判断される。例え
ば、ビー・シー・ジェイ・モリー(B.C.J.Mor
re)の「聴覚心理学入門第2版」(1982年フロリ
ダ州オーランド アカデミック出版)の特に第5章を参
照してほしい。ステレオ環境中の音響心理的アーチファ
クトを減す一の技術は、ISO−WG11−MPEG−
音声音響心理[ISO]モデルIIを使用する。このモ
デルによれば、信号対雑音比(SNR)の第2限度が音
響心理モデル内でSNRに適用される。しかし、このよ
うな追加的SNR制限は、一般的に、低周波数におい
て、追加チャネル容量の消費を必要とするか、または、
(記憶用途において)追加記憶容量の使用を必要とす
る。これは、また、符号化のモノラル性能を低下させ
る。
【0010】
【課題を解決するための手段】本発明によれば、高品質
音声チャネルから成る1つのステレオ対を符号化する方
法および装置によって、従来技術の限界が克服されると
ともに技術進歩がなされる。復号後の高品質再生を保ち
つつ、より小さいビット伝送速度を達成するために、チ
ャネル間の冗長性および無関連性が利用される。本発明
の利点は、ステレオ符号化および復号に特に適している
が、従来の二重モノラルステレオ符号器においても実現
されうる。
【0011】本発明の実施例は、修正離散コサイン変換
(MDCT)を使用するフィルタバンク構成を使用す
る。システムに提供されうる信号の全範囲を符号化する
ために、前記実施例は、信号依存形式で周波数と時間と
のいずれにおいても切換えられるL/R(左右)符号化
およびM/S(和/差)符号化のいずれをも使用できる
利点がある。新規ステレオ雑音マスキングモデルは、符
号化されたステレオ信号中の両耳アーチファクトを検出
し避ける利点がある。チャネル間冗長性は、音声品質を
低下させることなく、圧縮度を向上させるために利用さ
れる。
【0012】左右の音声チャネルの時間的挙動は、正確
に監視され、その結果は、符号化過程の時間分解能を制
御するのに使用される。したがって、本発明の一態様に
よれば、本発明の実施例は、標準MDCTウインドウ、
または、(信号状態が指示するとき)短ウインドウのい
ずれかに関する入力信号処理を行う。また、右/左符号
化モードおよび和/差符号化モード間の動的切替えは、
時間と周波数との両方において行われることにより、不
要両耳ノイズ局部化が制御され、和/差信号の過符号化
が不要となり、大域符号化利得が最大となる。
【0013】符号器出力を形成するのに有用な柔軟性を
与える一般的なビットストリーム定義およびレート制御
ループが記載されている。チャネル間無関係性は、有利
に除去され、ステレオ雑音マスキングは改善され、これ
により、共通符号化ステレオ対における再生音声品質の
改善が達成される。実施例において使用されたレート制
御方法は、絶対しきい値と符号器のレート限界より小さ
い信号マスキングしきい値との間の補間とレート限界付
条件下でのしきい値上昇戦略とを使用する。
【0014】本発明の一態様による全符号器/復号器シ
ステムによれば、ハフマン状エントロピ符号器/復号器
を使用することにより、チャネルビット伝送速度に対す
る要求または記憶用途用記憶容量をさらに軽減すること
が、有利であることが判る。例として使用された雑音の
ない圧縮方法は、知覚しきい値により指示されうるよう
に、L,R,MおよびSのための周波数標本を効率的に
符号化するために周波数分割スキーマと一緒にハフマン
符号化を使用する。
【0015】本発明は、従来技術と異なる方策を使用し
て、音声信号の量子化に使用される換算係数(すなわ
ち、分析フィルタバンクからのMDCT係数出力)を決
定する機構を提供するとともに従来の量子化器/レート
ループの多くの制約およびコストを避けることである。
本発明に従って量子化された音声信号は、従来技術より
も雑音が少なく、より少ないビットとして符号化され
る。
【0016】これらの結果は、本発明の実施例により得
られる。これにより、使用された換算係数は、量子化さ
れたスペクトル係数が許容範囲内に符号化されうるま
で、量子化されるべき各スペクトル係数の周波数に対応
する周波数での算出聴覚しきい値から得られた換算係数
と前記周波数での絶対聴覚しきい値から得られた換算係
数との間の補間によって繰り返し得られる。
【0017】
【実施例】1.概要 本発明の開示を簡単化するため、以下の特許証、特許出
願および刊行物の記載は、言及により本願明細書および
図面中を参照する。すなわち、1991年10月13日
付で特許証が発行されたケイ・ブランデンブルグその他
による米国特許第5,040,217号、1988年1
2月30日付で出願され発明の名称「音声信号の知覚符
号化」の米国特許出願第07/292,598号、通信
の選定領域に関するIEEEジャーナル、Vol.6,
No.2(1988年2月)掲載のジェイ・ディー・ジ
ョーンストン(J.D.Johnston)の「知覚雑
音基準を使用する音声信号の変換符号化」、1988年
3月10日付で出願された国際特許出願(PCT)WO
88/01811、ブランデンブルグその他により19
90年3月9日付で出願され発明の名称「ハイブリッド
知覚符号化」の米国特許出願第07/491,373
号、第90回AES大会(1991年)での「高品質音
楽信号の適応スペクトルエントロピ符号化」、ICAS
SP(1988年)でのジョーンストン,ジェイ.(J
ohnston,J.)による「雑音マスキング基準を
使用する知覚エントロピの推定」、ICASSP(19
89年)でのジェイ・ディー・ジョーンストンによる広
帯域ステレオ信号の知覚変換符号化、イー・エフ・シュ
レーダおよびジェイ・ジェイ・プラットによる「MS
C:CD−品質および256キロビット/秒の伝送速度
を有するステレオ音声符号化」、1987年11月、V
ol.CE−33,No.4、コンシューマ電子製品に
関するIEEE Trans.、およびジョーンストン
による「雑音基準を使用する音声信号の変換符号化」、
Vol.6,No.2,IEEE J.S.C.A(1
988年2月)である。
【0018】説明を明瞭にするため、本発明の実施例
は、個別の機能ブロック(プロセッサと名付けられた機
能ブロックを含めて)からなるものとして提示されてい
るという用語の使用は、ソフトウェアのみを指している
と解釈されるべきでない)。これらのブロックが表わす
機能は、共用または専用ハードウェア(ソフトウェアを
実行しうるハードウェアを含むが、これに限定されな
い)の使用によって提供されうる。実施例は、例えば、
AT&TのDSP16またはDSP32Cのようなハー
ドウェアのディジタル信号プロセッサ(DSP)および
後述する動作を行うソフトウェアから構成されていても
よい。本発明の実施例にかかるハードウェアの超大規模
集積回路(VLSI)およびハイブリッドDSP/VL
SIが提供されてもよい。
【0019】図1は、本発明の実施例を組込むのに有用
なシステム全体のブロック線図である。図示されたレベ
ルにおいて、図1のシステムは、従来技術において知ら
されたシステムである。しかし、本明細書に記載された
変形例および拡張例は、本発明による貢献を明らかにす
ることになる。図1において、アナログ音声信号101
は、プリプロセッサ102に供給され、このプリプロセ
ッサにおいて、標本化され(一般的に48KHzで)デ
ィジタルパルス符号変調(PCM)信号103(一般的
に16ビット)に標準的方式で変換される。PCM信号
103は、知覚音声符号器104(PAC)に供給され
る。この知覚音声符号器は、PCM信号を圧縮し、圧縮
PAC信号を通信チャネル/記憶媒体106に出力す
る。通信チャネル/記憶媒体から、圧縮PAC信号は、
知覚音声復号器102に供給される。この知覚音声復号
器は、圧縮PAC信号を圧縮解除し、圧縮PAC信号を
表わすPCM信号を出力する。知覚音声復号器108か
ら、PCM信号109は、ポストプロセッサ110に供
給される。このポストプロセッサは、PCM信号109
のアナログ形態を作り出す。
【0020】知覚音声符号器104の一具体例が図2の
ブロック線図として示されている。図1に示されたシス
テムの場合のように、図2に示されたシステムは、付加
がなければ、従来技術にかかるシステム(例えば、ブラ
ンデンブルグその他による米国特許第5,040,21
7号に開示されたシステム)も説明する。しかし、本明
細書に記載された拡張および変形を行えば、新しい重要
な結果が得られる。図2の知覚音声符号器は、分析フィ
ルタバンク202、知覚モデルプロセッサ204、量子
化器/レートループプロセッサ206およびエントロピ
符号器208からなるとみなしてもよい。
【0021】図2のフィルタバンク202は、幾らかの
信号処理利得(すなわち、冗長性抽出)およびフィルタ
バンク入力のマッピングを人間の知覚系から見て意味の
ある方法で与えるような方法で、時間/周波数におい
て、入力音声信号を変換する。入力信号の前記変換を行
うために、例えば、ジェイ・ピー・プリンセン(J.
P.Princen)およびエー・ビー・ブラッドレー
(A.B.Bradley)による「時間領域エーリア
シング消去に基づく分析/合成フィルタバンク」(IE
EE Trans.ASSP,Vol.34,No.
5,1986年10月)に記載された周知の修正離散コ
サイン変換(MDCT)が採用されてもよい。本環境に
おいて有用となるMDCTの特徴には、その臨界標本化
特性が含まれる。すなわち、フィルタバンクへ入るn個
の標本に対して、n個の標本がフィルタバンクから得ら
れる。また、MDCTは、一般的に、半オーバラップを
生じる。すなわち、変換長さは、正確に、フィルタバン
ク内へシフトされた標本数nの長さの正確に2倍であ
る。半オーバラップは、良好な分析ウインドウ周波数応
答を与えるのと同様に、各フィルタタップに独立に注入
された雑音制御を取扱う良好な方法を与える。また、量
子化が行われなければ、MDCTは、標本の整数個分の
遅延を受けるときのみ、入力標本の正確な再構成を行
う。
【0022】MDCTが高能率ステレオ音声符号器に関
連して使用するために修正される一の態様は、分析ウィ
ンドウが臨海的に標本化され正確な再構成特性を保持す
るようにして、強力な非固定成分を有する信号セクショ
ンのための分析ウインドウ長を変える能力を提供するこ
とである。本件と対応の米国出願と同日付で出願された
フエライラ(Ferreira)およびジョーンストン
による発明の名称「音声信号の知覚符号化方法および装
置」の米国特許出願(以下、フィルタバンク出願とい
う)は、図2に示された分析フィルタバンク202の機
能を達成するのに最適のフィルタバンクを記載してい
る。
【0023】図2に示された知覚モデルプロセッサ20
4は、分析フィルタバンク内の種々の信号成分の推定知
覚重要度、推定雑音マスキング特性、または、推定有意
雑音最低レベルを算出する。これらの量を表わす信号
は、その後、システムの他の構成要素に供給され、濾波
作用およびチャネルまたは記憶媒体に送信されるデータ
編成の制御を改善する。本発明の実施例は、通信の選定
領域に関するIEEEJ.1988年2月のジェイ・デ
ィ・ジョーンストンによる「音声信号の変換符号化」に
記載された臨界帯域分析による臨界帯域を使用するより
も、しきい値の算出のため、より精密な周波数分解能を
使用する。このように、最後に挙げたジョーンストン論
文中の全調性測度を使用する代りに、1990年AES
第89回大会のケイ・ブランデンブルグおよびジェイ・
ディ・ジョーンストンによる「第2世代知覚音声符号
化:ハイブリット符号器」に挙げられた全調性測度に基
づく調性方法は、周波数全体に亘って変化する推定調性
を与えるので、複合信号により適したものを生じる。知
覚モデルプロセッサ204で行われる音響心理的分析
は、正常MDCTウインドウおよび短縮ウインドウの両
方に対して、最適となるように、L(左)チャネル、R
(右)チャネル、M(和)チャネルおよびS(差)チャ
ネルに対して雑音しきい値を与える。短縮ウインドウの
使用は、音響心理モデルプロセッサによって全体的に有
利に制御される。
【0024】動作において、知覚モデルプロセッサ20
4の実施例は、左チャネルおよび右チャネルのしきい値
THRlおよびTHRrを決める。これら2個のしきい
値は、その後、例として、35個の符号器周波数パーテ
ィション(能動ウインドウ切替えブロックの場合、56
個パーティション)のそれぞれにおいて比較される。2
個のしきい値の違いが左と右とにおいてある量(一般的
に2dB)より小さいパーティションにおいては、符号
器は、M/Sモードに切替えられる。すなわち、前記周
波数帯における左信号は、M=(L+R)/2によって
置き換えられ、右信号は、S=(L−R)/2によって
置き換えられる。ここに述べた置換の引金となる実差
は、ビット伝送速度制限および他のシステムパラメータ
によって異なるものとなる。
【0025】左右しきい値に使用されるのと同一のしき
い値計算が和しきい値および差しきい値にも使用され
る。しきい値は、実際の和信号および差信号に基づいて
計算される。まず、基準しきい値(BTHRmおよびM
LDs)が算出される。このとき、和信号および差信号
のステレオマスキング負担分を算出するため、以下のス
テップが使用される。 1.和しきい値と差しきい値のそれぞれに対して追加の
係数が算出される。この係数(MLDmおよびMLDs
という)は、広がり信号エネルギ(例えば、1988年
2月、通信の選定領域に関するIEEE J.のジェイ
・ディー・ジョーンストンによる「知覚雑音基準を使用
する音声信号の変換符号化」1990年第89回AES
大会でのケイ・ブランデンブルグおよびジェイ・ディー
・ジョーンストンによる「第2世代知覚音声符号化:ハ
イブリット符号器」、およびブランデンブルグその他に
よる米国特許第5,040,217号から得られる)に
図3に示されたマスキングレベル差係数を乗じることに
より算出される。これにより、種々の源において示され
たマスキングレベル差に基づいて、和チャネルおよび差
チャネルにおける周波数横断雑音第2検出レベルが算出
される。
【0026】2.実右しきい値(THRm)は、THR
m=max(BTHRm、min(BTHRs,MLD
s))として算出され、しきい値m=max(BTHR
m,min(BTHRs,MLDs))であり、差しき
い値は、THRs=max(BTHRs,min(BT
HRm,MLDm))として算出される。
【0027】事実上、MLD信号は、ステレオアンマス
キングの機会が存在する場合には、BTHR信号を置換
する。左しきい値および右しきい値は、等しくないの
で、左しきい値と右しきい値とが等しくないことによる
和差しきい値降下の問題を考慮する必要はない。
【0028】図2の符号器中に使用される量子化・レー
ト制御プロセッサ206には、分析フィルタバンクおよ
び知覚モデルからの出力が入力され、所定の用途に対し
て必要ビット伝送速度を満足するように、ビットおよび
雑音を割り当て、他のシステムパラメータを制御する。
幾つかの代表的符号器によれば、知覚モデルの有意差の
みを決して超過しないような量子化にすぎないこともあ
る。したがって、ビット伝送速度に何らの(明白な)注
意も払われない。幾つかの符号器によれば、ビット伝送
速度と符号化雑音との間の均衡を達成するため、ひずみ
とビット伝送速度とを調整する繰り返しループの複合セ
ットのこともある。特に有用な量子化・レート制御プロ
セッサは、本願と対応する米国出願と同日付で出願され
たジェイ・ディー・ジョーンストンによる発明の名称
「知覚符号器/復号器用レートループプロセッサ」(以
下、レートループ出願という)米国特許出願に記載され
ている。分析され量子化された信号からの情報および必
須副情報が入力され、同期を挿入し、情報をフレーム化
する機能は、レートループプロセッサ206によって行
われることも望ましく、前記レートループ出願に記載さ
れている。また、これらの機能は、ブランデンブルグそ
の他の米国特許証第5,040,217号に明瞭に記載
されている。
【0029】エントロピ符号器208は、レート制御プ
ロセッサ206と共同して更に雑音のない圧縮を達成す
るのに使用される。特に、本発明の他の態様によれば、
エントロピ符号器208は、量子化器/レートループ2
06から出力され、量子化音声信号を含む入力を取込
み、量子化音声信号の損失のない符号化を行ない、圧縮
音声信号を通信チャネル/記憶媒体106に出力する。
【0030】エントロピ符号器208は、各量子化音声
信号を符号化する最小冗長度ハフマン符号化技術の新し
い変形例である。ハフマン符号化については、例えば、
ディー・エー・ハフマン(D.A.Huffman)に
よる「最小冗長度符号の構成方法」、Proc.IR
E,40:1098−1101(1952年)およびテ
ィー・エム・カバー(T.M.Cover)およびジェ
イ・エー・トーマス(J.A.Thomas)による情
報理論の諸要素、92〜101ページ(1991年)に
記載されている。図2の符号器の環境で有利に使用され
るハフマン符号の有用な適応は、本願の対応米国特許出
願と同日付で出願され、本願の対応米国特許出願の譲受
人に譲渡されたジェイ・ディー・ジョーンストンおよび
ジェイ・リーズ(J.Reeds)(以下、エントロピ
符号器出願という)による米国特許出願に更に詳しく記
載されている。データ通信技術の当業者は、他の雑音の
ないデータ圧縮技術(周知のレンペル−チッブ圧縮方法
を含めて)を使用してエントロピ符号器208の他の実
施例を具体化する方法が容易に判るはずである。。図2
に示された各構成要素の使用は、全システム機能の環境
において更に詳しく説明されることになる。また、動作
の詳細は、知覚モデルプロセッサ204に対して説明さ
れることになる。
【0031】2.1.分析フィルタバンク 知覚音声符号器104の分析フィルタバンク202は、
入力として、パルス符号変調(PCM)ディジタル音声
信号(一般的に、48kHzで標本化された16ビット
信号)を取り入れ、入力信号の個別周波数成分を表示す
る入力信号の表示を出力する。特に、分析フィルタバン
ク202の出力は、入力信号の修正離散コサイン変換
(MDCT)となる。ジェイ・プリンセン(J.Pri
ncen)その他による「時間領域エーリアシング消去
に基づくフィルタバンク構成を使用する副帯変換符号
化」、IEEE ICASSP,2161〜2164頁
(1987年)を参照してほしい。
【0032】本発明の一態様による例としての分析フィ
ルタバンク202は、図4に示されている。分析フィル
タバンク202は、入力信号バッファ302、ウインド
ウ乗算器304、ウインドウメモリ306、FFT(高
速フーリエ変換)プロセッサ308、MDCTプロセッ
サ310、連結器311、遅延メモリ312、およびデ
ータ選択器132からなる。
【0033】分析フィルタバンク202は、フレーム毎
に動作する。フレームは、入力信号バッファ302によ
って保持される2N個のPCM入力音声信号標本として
選定される。上述の通り、各PCM入力音声信号標本
は、Mビットにより表現される。一例として、N=51
2およびM=16である。
【0034】入力信号バッファ302は、2個のセクシ
ョンからなる。すなわち、第1セクションは、バッファ
位置1〜NのN個の標本からなる。第2セクションは、
バッファ位置N+1〜2NのN個の標本からなる。知覚
音声符号器104により符号化されるべき各フレーム
は、入力音声信号のN個の逐次標本を入力信号バッファ
302内にシフトさせることにより形成される。前標本
は、新標本よりも高いバッファ位置に配置される。
【0035】与えられた時刻において、入力信号バッフ
ァ302が2N個の音声信号標本からなるフレームを含
むと仮定すると、逐次フレームは、(1)1〜N個のバ
ッファ位置にあるN個の音声信号標本をそれぞれN+1
〜2Nのバッファ位置にシフトすることにより(バッフ
ァ位置N+1〜2Nにある前音声信号標本は、重ね書き
されても、または、削除されてもよい)および(2)プ
リプロセッサ102から出力されたN個の新音声信号標
本を入力信号バッファ302内のバッファ位置1〜Nに
シフトさせることにより得られる。したがって、逐次フ
レームが共通してN個の標本を含むことが理解できる。
逐次フレームの第1番目は、バッファ位置1〜Nに共通
の標本を有し、逐次フレームの第2番目は、バッファ位
置N+1〜2Nに共通の標本を有する。分析フィルタバ
ンク202は、臨界的に標本化されたシステム(すなわ
ち、入力信号バッファ302に入力された全N個の音声
信号標本に対して、分析フィルタバンク202は、量子
化器/レートループ206に対してN個のスカラからな
るベクトルを出力する。
【0036】入力音声信号の各フレームは、ウインドウ
乗算器304が7個のデータウインドウをフレームに適
用しうるように入力信号バッファ302によってウイン
ドウ掛け算器304に供給される。各データウインドウ
は、「係数」と称する複数のスカラからなるベクトルで
ある。7個のデータウインドウは、2N個の係数(すな
わち、フレーム内の音声信号標本と同一数)を有する
が、7個のデータウインドウのうち4個だけは、N/2
個の零でない係数(すなわち、フレーム内の音声信号標
本数の1/4)を有する。後述するように、データウイ
ンドウ係数は、MDCTプロセッサ310の出力の知覚
エントロピを減らすように選定されうる。
【0037】データウインドウ係数に対する情報は、ウ
インドウメモリ306内に記憶される。ウインドウメモ
リ306は、例として、ランダムアクセスメモリ(RA
M)、読出し専用メモリ(ROM)、または、他の磁気
もしくは光学媒体であってもよい。ウインドウ乗算器3
04によって使用される7個のデータウインドウの図面
は、図4に示されている。図4に示された7個のデータ
ウインドウのそれぞれのための一般的な係数ベクトル
は、付録Aに示されている。図4および付録Aのいずれ
からも判るように、データウインドウ係数の幾つかは、
零に等しくてもよい。
【0038】データウインドウが2N個のスカラからな
るベクトルであること、および、音声信号フレームも2
N個のスカラからなるベクトルであることを考えれば、
データウインドウ係数は、ポイントツーポイント乗算に
より音声信号フレームスカラに適用される(すなわち、
1番目の音声信号フレームスカラは、1番目のデータウ
インドウ係数と乗算され、2番目の音声信号フレームス
カラは、2番目のデータウインドウ係数と乗算される。
以下同様。)したがって、ウインドウ乗算器304は、
並列動作する7個のマイクロプロセッサであってもよ
い。各マイクロプロセッサは、入力信号バッファ302
により保持された音声信号フレームに対し7個のデータ
ウインドウのうち1個を適用するために、2N回の乗算
を行う。ウインドウ乗算器304の出力は、「ウインド
ウ付フレームベクトル」と称される2N個のスカラから
なる7個のベクトルである。
【0039】前記7個のウインドウ付フレームベクトル
は、ウインドウ乗算器304によってFFTプロセッサ
308に供給される。FFTプロセッサ308は、7個
のウインドウ付ベクトルのそれぞれに対して奇数周波数
FFTを行う。奇数周波数FFTは、周波数において決
定される離散フーリエ変換である。
【0040】
【数1】
【0041】ここでk=1,3,5,…2N,fHは、
標本化率の1/2に等しい。FFTプロセッサ308
は、並列動作しそれぞれが他と異なるウインドウ付フレ
ームベクトルに作用する従来の時間軸上10分の1抜取
りFFTプロセッサであってもよい。FFTプロセッサ
308の出力は、2N個の複素成分からなる7個のベク
トルであり、「FFTベクトル」と称する。
【0042】FFTプロセッサ308は、知覚モデルプ
ロセッサ204およびMDCTプロセッサ310のいず
れにも7個のFFTベクトルを供給する。知覚モデルプ
ロセッサ204は、FFTベクトルを使用することによ
り、データ選択器314および量子化器/レートループ
プロセッサ206の動作を規制する。データ選択器31
4および知覚モデルプロセッサ204の動作の詳細は、
後述する。
【0043】MDCTプロセッサ310は、FFTプロ
セッサ308から入力された7個のFFTベクトルのそ
れぞれの実成分に基づいてMDCTを行う。MDCTプ
ロセッサ310は、並行動作する7個のマイクロプロセ
ッサからなっていてもよい。このような各マイクロプロ
セッサは、7個のFFTベクトルのうち1個に基づくN
個の実スカラからなる7個の「MDCTベクトル」のう
ち1個を決定する。各FFTベクトルF(k)に対し
て、結果のMDCTベクトルX(k)は、以下の通りと
なる。
【0044】
【数2】
【0045】結果の冗長性のため、手続きは、2Nでな
く、Nまでk回行われる必要がある。すなわち、N<k
≦2Nに対して、
【0046】
【数3】
【0047】MDCTプロセッサ310は、連結器31
1および遅延メモリ312に対して7個のMDCTベク
トルを供給する。
【0048】ウインドウ乗算器304に関連して上述し
たように、7個のデータウインドウのうち4個は、N/
2個の零でない係数(図14C〜図14F参照)。これ
は、ウインドウ付フレームベクトルのうち4個がN/2
個のみの零でない値を含むことを意味する。したがっ
て、前記4個のベクトルの零でない値は、MDCTプロ
セッサ310の出力に基づいて、連結器311により長
さ2Nの1個のベクトルとして連結されてもよい。結果
として生じたこれらのベクトルの連結は、後の目的のた
めに、1個のベクトルとして取扱われる。この様にし
て、遅延メモリ312には、7個でなく4個のMDCT
ベクトルが供給される。
【0049】遅延メモリ312には、一時的に記憶する
ため、MDCTプロセッサ314および連結器311か
ら4個のMDCTが入力される。遅延メモリ312は、
分析フィルタバンク202を介して、4個のMDCTベ
クトルの流れに1個の音声信号フレーム分の遅延(入力
信号バッファ302によって定まる)を与える。遅延
は、(i)逐次音声信号フレームを表わすMDCTベク
トルからなる最新の2個の逐次セットを記憶し、(ii)
ベクトルの逐次セットの前のものを入力としてデータ選
択器314に供給する。遅延メモリ312は、以下の大
きさのランダムアクセスメモリ(RAM)であってもよ
い。
【0050】
【数4】
【0051】式中、2は、ベクトルの逐次セットの数で
あり、4は、一のセット内のベクトルの数であり、N
は、一のMDCTベクトル内の成分数であり、Mは、M
DCTベクトル成分を表わすのに使用されるビット数で
ある。
【0052】データ選択器314は、フィルタバンク2
02から量子化器/レートループ206に出力される、
遅延メモリ312によって供給される4個のMDCTベ
クトルの1個を選択する。上述したように、知覚モデル
プロセッサ204は、FFTプロセッサ308により供
給されたFFTベクトルに基づいてデータ選択器の動作
を規制する。遅延メモリ312の動作により、知覚モデ
ルプロセッサ204に供給された7個のFFTベクトル
と同時にデータ選択器314に供給された4個のMDC
Tベクトルとは、同一の音声入力フレームに基づかず、
2個の逐次入力信号フレーム−該フレームのうち前フレ
ームに基づくMDCTベクトルと、後フレームに基づく
FFTベクトルとからなる。したがって、特定のMDC
Tベクトルの選択は、次の逐次音声信号フレーム内に含
まれた情報に基づく。知覚モデルプロセッサ204がM
DCTベクトルの選択を規制するときに従う基準は、以
下の2.2項に記載されている。例としてのステレオ実
施例のため、分析フィルタバンク202は、左チャネル
および右チャネルのそれぞれに設けられている。
【0053】2.2 知覚モデルプロセッサ 知覚符号器は、一部、例えば、フィルタバンク202か
らのMDCT情報のように、情報含有信号の量子化に伴
う雑音を導入することによって、高品質音声信号を正確
に表現するのに必要なビット数の削減を達成した。もち
ろん、最終目的は、知覚されない、または、好都合な方
法で前記雑音を導入することである。このノイズシェイ
ピングは、まず、周波数分析の道具である。したがっ
て、信号をスペクトル表示(例えば、フィルタバンク2
02によって供給されるMDCTベクトル)に変換し、
これらの信号によってマスキングされることになる雑音
の形状および量を計算し、スペクトル値を量子化するこ
とにより雑音を注入することは、好都合である。これら
基本的動作は、図2に示された知覚符号器の構造中に表
現されている。
【0054】知覚音声符号器104の知覚モデルプロセ
ッサ204は、逐次フレームに作用する分析フィルタバ
ンク202から入力を受け入れる。この結果、知覚モデ
ルプロセッサ入力は、一般的に、分析フィルタバンク2
02から出力された7個の高速フーリエ変換(FFT)
ベクトルからなる。これらは、それぞれがウインドウ付
フレームベクトルの1個と対応する各2N個の成分から
なる7個のベクトルとしての形を有するFFTプロセッ
サ308の出力である。信号により量子化雑音をマスキ
ングするために、信号のスペクトル量と信号の特定のス
ペクトルパターンの持続期間とを考慮しなければならな
い。これら2つの面は、聴覚系の積分期間が与えられれ
ば信号および雑音がほぼ定常状態にある周波数領域での
マスキングと関係づけられ、また、信号および雑音が種
々のうずまき管フィルタを通過せられる時間領域でのマ
スキングとも関係づけられる。
【0055】周波数領域でのマスキングは、同時刻マス
キングの概念によって説明される。これらの概念は、文
献に広範に説明されている。例えば、イー・ツヴィッキ
ー(E.Zwicker)およびエッチ・ファストル
(H.Fastl)による「音響心理学、事実、および
モデル」、Springer−Verlag,1990
年を参照してほしい。これらの概念を知覚符号化に対し
て有用とするために、これらは、種々の方法で実施され
ている。
【0056】同時刻マスキングは、知覚ノイズシェイピ
ングモデルを使用することにより評価される。雑信号の
スペクトルおよびその雑音状挙動または音調状挙動の記
述が与えられれば、これらのモデルは、各スペクトル成
分の量子化レベルを規制する仮想マスキングしきい値を
出力する。このノイズシェイピングは、有意差を生じる
ことなく、原信号に導入されうる雑音の最大量を表わ
す。知覚エントロピ(PE)と称される測度は、透過符
号化のためのビット伝送速度の理論的下方限界を推定す
るのに前記仮想マスキングしきい値を使用する。ICA
SSP,1989年のジェイ・ディー・ジョーンストン
による「雑音マスキング基準を使用する知覚エントロピ
の推定」を参照してほしい。
【0057】プレマスキングは、雑音より高いマスカー
信号より前のある時刻に出発する雑音の(非)可聴度を
特徴づける。雑音の振幅は、遅延が増大するにつれてよ
り多く減衰するはずである。この減衰レベルは、また、
周波数に依存する。雑音が合成ウインドウの最初の半分
によって減衰される量子化雑音であるときは、実験的証
拠により最大許容遅延が約1ミリ秒であることが示され
ている。
【0058】この問題は、極めて敏感なものであり、良
好な符号化利得を達成するのと直接牴触しうる。固定状
態を仮定すると(これは、虚偽の前提であるが)、符号
化利得は、より大きな変換に対しては、より大きい。し
かし、量子化誤差は、再構成された時間セグメントの開
始まで拡大する。したがって、1024点からなる変換
長が使用され、ディジタル信号が48000Hzの速度
で標本化されるときは、雑音は、最大、信号の21ミリ
秒前に出現することになる。このシナリオは、信号が
「アタック」として周知の時間領域での鋭い過渡現象の
形をとるとき、特に危機的である。この場合、量子化雑
音は、アタックの前に可聴となる。この効果は、プレエ
コーとして知られている。
【0059】このように、固定長フィルタバンクは、信
号の非固定部分に対する良好な知覚解でもないし、信号
処理解でもない。この問題を回避する可能な方法は、分
析/合成ウインドウ長さを短縮することにより符号器の
時間分解能を改善することであることが後述される。こ
れは、アタック状態が検出されたとき、ウインドウ切替
え機構として具体化される。この方法により、長い分析
/合成ウインドウを使用することにより達成される符号
化利得は、前記の検出が結果として短い分析/合成ウイ
ンドウへ切替えの必要を伴って生じるときのみ、影響を
受けることになる。
【0060】ポストマスキングは、より強いマスカー信
号の停止後、雑音が残っているとき、雑音の(非)可聴
度を特徴づける。この場合、許容遅延は、20ミリ秒の
レベルである。より大きく変換された時間セグメントが
21ミリ秒(1024個の標本)続くとすれば、この状
況を取扱うのに特別の注意を必要としない。
【0061】ウインドウ切替 変換セグメントの知覚エントロピ(PE)測定により、
この変換セグメントを透過的に符号化するビット/標本
の理的下方限界が与えられる。前記測定の記憶特性(プ
レマスキング保護と関係する)により、前記測定は、信
号の強力な非固定状態を有するある状況(例えば、アタ
ック)が与えられたとき、PE値の先の値に対する有意
増加(先の変換セグメントと関係する)を示す。この重
要な特性は、プレエコーを削減するため、ウインドウ切
替え機構を始動するのに使用される。このウインドウ切
替え機構は、新戦略でなく、例えば、ASPEC符号器
(ISO/MPEG音声符号化報告書、1990年に記
載された)において使用されたが、その背後にある決定
技術は、非固定状態を正確に局部化し、スイッチを動作
させる正当な瞬間を決定するPE情報の新しい使用であ
る。
【0062】2個の基本的ウインドウ長さ、すなわち、
1024個の標本および256個の標本が使用される。
前者は、約21ミリ秒のセグメント持続期間に対応し、
後者は、約5ミリ秒のセグメント持続期間に対応する。
短ウインドウは、4個のセットとして関連し、長ウイン
ドウと同一量のスペクトルデータを表わす(しかし、短
ウインドウは、「他と異なる」数の時間標本を表わ
す)。長ウインドウから短ウインドウへの移行およびそ
の逆の移行を行うためには、2個以上のタイプのウイン
ドウを使用することが便利なことがわかる。図5のBに
示されているように、開始ウインドウは、長い正常方か
ら短い方への移行を行い、終了ウインドウは、その逆の
移行を行う。この主題に関して有用な情報を得るために
は、上述したプリンセンの文献を参照のこと。開始およ
び終了のいずれのウインドウも、1024個標本の広さ
である。これらのウインドウは、システムを継続して臨
界的に標本化するのに有用であり、また、移行部分にお
ける時間エーリアシング消去過程を確保するのに有用で
ある。
【0063】チャネル間冗長性および無関連性を利用す
るために、同一タイプのウインドウが各区分において右
チャネルおよび左チャネルに使用される。
【0064】信号の固定挙動は、2つの水準で監視され
る。最初に、長い正規ウインドウによって、その後、必
要があれば、短ウインドウによって。したがって、長正
常ウインドウのPEは、各セグメントについて算出され
るが、短ウインドウのPEは、必要とされるときにのみ
算出される。しかし、両タイプに対する調性情報は、信
号の連続的変化に追従するため、各セグメントについて
更新される。
【0065】他の記述がない限り、セグメントには、長
い正規ウインドウの長さである1024個の標本が含ま
れる。図5のAの線図は、点N/2から点3N/2まで
のセグメントが分析されているときのすべての監視可能
点を表わす。この線図に関係して、図6のフローチャー
トは、監視手順および決定技術を記載する。必要なとき
は、短ウインドウ系列より先に開始ウインドウを挿入す
ることができるようにするため、各セグメントの3個の
半分部分をバッファ内に保持する必要がある。図5のA
〜Eは、逐次セグメント間での50%の重なりを明瞭に
考慮している。
【0066】プロセスが512の新時間標本(残り51
2標本は、前セグメントに属する)による「新」セグメ
ントを分析することにより開始される。この新セグメン
トのPEおよび前セグメントに対する差分PEが算出さ
れる。後者の値が予定しきい値に達したとき、現セグメ
ント内の非固定の存在が宣言される。この詳細は、図5
のAに表わされた位置を有する4個の短ウインドウを処
理することにより得られる。各短ウインドウのPE値
は、算出され、順に並べられた系列PE1,PE2,P
E3およびPE4を生じる。これらの値から信号の強力
な非固定の正確な開始が推定される。5個の位置のみが
ありうる。これらの位置は、L1,L2,L3,L4お
よびL5として図5のAに表示されている。いかに明ら
かなように、非固定が点N/2から点15N/16まで
のどこかで生じたときは、この状況は、前セグメント内
で検出されていることになる。したがって、PE1値
は、現セグメントの固定に関する情報を含まない。短ウ
インドウの平均PEは、同一セグメントの長ウインドウ
のPEと比較される。PEが小さい方がより効果的符号
化状況を示す。したがって、前者の値が後者の値以下の
ときは、われわれが縮退状況に直面して、ウインドウ切
替え過程が中断されたと仮定する。
【0067】短ウインドウに対して固定に関する情報
は、前ウインドウのPE値に対する差分によりも該短ウ
インドウのPE値により多く存在することが観察されて
いる。したがって、予定しきい値よりも大きいPE値を
有する第1ウインドウが検出される。PE2は、位置L
1によって表示され、PE3は、位置L2によって表示
され、PE4は位置L3によって表示される。いずれの
場合にも、開始ウインドウは、短ウインドウによって符
号化される現セグメントの前に配置される。終了ウイン
ドウは、処理を完了させることが要求される。しかし、
2つの可能性が存在する。信号の強力な非定常が開始さ
れた場合において表示された位置がL1またはL2であ
るときは、この位置は、短ウインドウ系列内に存在して
おり、いずれの符号化アーティファクトも生じない。符
号化系列は、図5のBに示されている。位置がL4のと
きは、最悪の状況において、非固定は、最後の短ウイン
ドウの右端に極めて近接した点で生じる虞がある。前結
果は、これらの状況において終了ウインドウを配置する
(符号化状態において)ことがこの切替え点での信号の
再構成を顕著に低下させることを一貫して示していた。
このため、4個の短ウインドウの他のセットが終了ウイ
ンドウより前に配置される。結果として生じた符号化系
列は、図5のEに示されている。
【0068】短PEのいずれも、しきい値より大きくな
いときは、残る可能性は、L4またはL5である。この
場合、問題は、短ウインドウ系列の範囲より先方に存在
し、バッファ内の第1セグメントは、長い正規ウインド
ウを使用して直ちに符号化される虞がある。
【0069】具体的な位置を特定するため、他の短ウイ
ンドウが処理されなければならない。この短ウインドウ
は、点線による曲線およびそのPE値(PE1n+1)
も算出される。容易に認識されるように、この短ウイン
ドウは、既に次のセグメントに属している。PE1n+
1がしきい値より大きいときは、位置はL4であり、図
5のCに示されているように、開始ウインドウに終了ウ
インドウが後続しうる。この場合、量子化雑音の開き
は、短縮ウィンドウの長さに限定されることになり、よ
り良い符号化利得が達成される。位置がL5となる稀な
状況において、符号化は、図5のDの系列に従って行わ
れる。この場合において、これが正当な解であることを
証明する方法は、PE2n+1がしきい値より大きくな
ることを確認することである。PE2n+1は、PE1
n+1で表示されたウインドウの直後に続く短ウィンド
ウのPE(図5には示されていない)である。
【0070】各セグメントについて前述したように、左
右チャネルは、同一タイプの分析/合成ウインドウを使
用する。これは、少なくとも一方のチャネルが必要とす
るとき、いずれのチャネルに対しても切替えが行われる
ことを意味する。
【0071】小さいビット伝送速度の用途に対して、図
5のCの解(良好な局部的音響心理的解を示している
が)は、後のセグメントの符号化品質に悪影響を及ぼす
虞のある不合理な程大きいビット数を必要とすることが
観察されている。このため、前記符号化解は、終局的に
禁止されることもある。
【0072】短ウインドウが使用されるときの再構成信
号の細部は、長い正常ウインドウのみが使用されるとき
よりも、原信号に近似している。これは、アタックが基
本的に広帯域信号であり、極めて短い時間の間でのみ固
定であると考えられるからである。短ウインドウは、長
ウインドウよりも高い時間分解能を有しているので、ス
ペクトルの変動パターンをより高い忠実度で追従し再生
することができる。換言すれば、信号のより正確な(時
間における)局部量子化と信号の(周波数における)大
域量子化との差である。
【0073】ステレオ符号器の最終マスキングしきい値
は、モノラルしきい値とステレオしきい値との組合せを
使用して算出される。モノラルしきい値は、各チャネル
について独立に算出されるが、ステレオしきい値は、両
チャネルを考慮する。
【0074】右チャネルまたは左チャネルの独立したマ
スキングしきい値は、音調マスキング雑音および雑音マ
スキング音調の式を含む音響心理モデルを使用して算出
される。雑音マスキング音調は、音調マスキング雑音式
の伝統的近似式として使用される。モノラルしきい値
は、先の作業と同一の手続を使用して算出される。特
に、調性測度は、最後の3個のセグメントに亘って力の
展開および各周波数係数の位相を考慮することにより、
信号がより多く、音調状であるか雑音状であるかを特定
する。したがって、各音響心理式は、他のものより多か
れ少なかれ重みが加えられる。文献に見出されるこれら
の式は、性能を良くするため更新された。これらの式
は、以下の通りである。
【0075】
【数5】
【0076】前記数式において、barkは、バルク尺
度での周波数である。この尺度は、われわれがうずまき
管フィルタ、または、臨界帯域と呼びうるものと関係し
ている。うずまき管フィルタおよび臨界帯域は、基底膜
の固定長セグメントによって特定される。最終しきい値
は、絶対マスキングしきい値および部分プレマスキング
保護を考慮するように調整される。
【0077】モノラルしきい値の全計算の簡単な説明は
以下の通りである。関連する演算の説明を簡単化するた
め、幾つかの用語が導入されなければならない。各セグ
メントのスペクトルは、それぞれ異なる目的に従って、
3つの方法により構成される。
【0078】1.第1に、前記スペクトルは、パーティ
ションとして構成されうる。各パーティションは、1個
のバルク値と組み合わされている。これらのパーティシ
ョンは、ほぼ1本のMDCTラインまたは臨界帯域の1
/3のいずれか広い方分の分解能を有する。低い周波数
において、1本のMDCTラインは、符号器パーティシ
ョンを構成する。この場合、組み合わされたバルク値
は、パーティションの中央バルク点である。スペクトル
のこの分割は、広がり関数の許容分解能を確保するのに
必要である。後述するように、この関数は、隣接する臨
界帯域間のマスキングの影響を表わす。
【0079】2.第2に、スペクトルは、帯域として構
成されうる。帯域は、パラメータファイルによって定義
される。各帯域は、最終マスキングしきい値ベクトルか
ら生じた1個の倍率と組み合わされた複数のスペクトル
線をグループ化する。
【0080】3.最後に、スペクトルは、セクションと
して構成されうる。セクションが整数個の帯域を含み、
同一のハフマン符号ブックによって符号化されたスペク
トルの領域を表現する。
【0081】3個のデータ値指標が使用される。これら
は、以下の通りである。 ω→計算がMDCTライン領域での周波数によって指標
化されることを示す。 b→計算がしきい値算出パーティション領域で指標化さ
れることを示す。 n→計算が符号化帯域領域で指標化されることを示す。 その他、幾つかの符号も使用される。すなわち、 1.計算パーティションの指標として、b。 2.計算パーティション内の最低周波数ラインとして、
ω低b。 3.計算パーティション内の最高周波数ラインとして、
ω高b。 4.計算パーティションの中央バルク値として、bva
lb。 5.計算パーティションの音調マスキング雑音値(dB
単位)として、TMNb。 6.計算パーティションの雑音マスキング音調値(dB
単位)として、NMTb。
【0082】以下の説明中の複数の点は、「広がり関
数」に言及する。この関数は、以下の方法により算出さ
れる。
【0083】
【数6】
【0084】式中、iは、信号の広がりのバルク値であ
り、jは、帯域の広がりのバルク値であり、tmpx
は、時間変数である。
【0085】
【数7】
【0086】式中、xは、時間変数であり、最小(a,
b)は、aまたはbのより負の方を帰還させる関数であ
る。
【0087】
【数8】
【0088】式中、tempyは、他の時間変数であ
る。
【0089】
【数9】
【0090】しきい値算出ステップ 以下のステップは、符号器内で使用されるSMRnの算
出に必要なステップである。 1.入力信号の512個の新標本を連結して、他の10
24個の標本を構成する。これについては、図5のAを
参照してほしい。 2.2.0項に記載されたO−FFTを使用して、およ
び、正弦ウインドウを使用して入力信号の複素スペクト
ルを算出する。 3.予測γおよびφを算出する。 変換の極表現が算出される。γωおよびφωは、変換セ
グメントのスペクトル線のマグニチュードと位相成分と
を表わす。
【0091】予測マグニチュードγωおよび予測位相φ
ωは、先行する2個のしきい値算出ブロックのγおよび
φから算出される。
【0092】
【数10】
【0093】
【数11】
【0094】式中、tは、現ブックの番号を表わし、t
−1は、前ブロックのデータを表わし、t−2は、前ブ
ロックより前のしきい値算出ブロックからのデータを表
わす。 4.予測不能度Cωを算出する。Cω(予測不
能度)は、
【0095】
【数12】
【0096】5.しきい値計算パーティションにおける
エネルギと予測不能度とを算出する。 各パ−ティションにおけるエネルギebは、
【0097】
【数13】
【0098】重みつき予測不能度Cbは、
【0099】
【数14】
【0100】6.広がり関数によって分割されたエネル
ギおよび予測不能度をくりこむ。
【0101】
【数15】
【0102】
【数16】
【0103】Ctは、信号エネルギによって重みがつけ
られているので、Cbbに繰り込まれなければならな
い。
【0104】
【数17】
【0105】同時に、広がり関数の非正常性のために、
ecbbは、再正規化されるべきであり、正規化エネル
ギenbが算出される。
【0106】正規化係数rnormbは、
【0107】
【数18】
【0108】7.cbbをtbbに変換する。
【0109】
【数19】
【0110】各tbbは、0≦tbb≦1の範囲に限定
される。
【0111】8.各パーティションにおける必要SNR
を算出する。
【0112】
【数20】
【0113】式中、TMNbは、CBで表わした音調マ
スキング雑音でありNMTbは、dBで表わした雑音マ
スキング音調値である。必要信号対雑音比SNRbは、
【0114】
【数21】
【0115】9.出力比を算出する。出力比bcbは、
【0116】
【数22】
【0117】10.実エネルギしきい値nbbを算出す
る。
【0118】
【数23】
【0119】11.しきい値エネルギをMDCTライン
全体に拡大すると、収量nbωは、
【0120】
【数24】
【0121】12.絶対しきい値を導入すると、最終可
聴度エネルギしきい値thrωが得られる。
【0122】
【数25】
【0123】「絶対しきい値表」に示された絶対thr
のdB値は、±1/2 1sbの正弦曲線がしきい値算
出に使用されたMDCTにおいて有する水準と関連す
る。dB値は、実際に使用されたMDCT正規化を考慮
した後でエネルギ領域へ変換されなければならない。 13.プレエコー制御する。 14.信号を計算してマスク比SMRnを算出する。符
号器の帯域表は、以下のものを示す。 1.帯域nの上方指標は、ω高nである。下側指標は、
ω低nであり、前帯域からω高n−1+1として算出さ
れる。 各帯域を更に区分するために、他の一の変数が作り出さ
れる。幅指標幅nは、nが知覚的に狭帯域であるとき、
幅nの値=0となる。以下の式が成立すれば、前者の場
合が生じる。
【0124】
【数26】
【0125】帯域長さは、初期化ルーチンにおけるパラ
メータセットである。その他の場合には、後者のケース
が仮定される。
【0126】幅n=1のときは、符号器帯域内の雑音レ
ベルn帯域nは、以下のように算出される。
【0127】
【数27】
【0128】その他のときは、
【0129】
【数28】
【0130】式中、最小(a,…z)は、引き数a…z
のうち最も負すなわち最小の正の引き数を帰還させる関
数である。符号器に送られるレートSMRnは、以下の
様に算出される。
【0131】
【数29】
【0132】調性測度は、スペクトル分析過程の出力で
あるから、分析ウインドウは、長セグメントまたは短セ
グメントの全てのケースに対して正弦曲線を有する。特
に、セグメントが開始ウインドウまたは終了ウインドウ
として符号化されるように選定されたときは、このセグ
メントの調性情報は、正弦ウインドウを考慮することに
より得られる。残りの演算(例えば、しきい値算出およ
び係数の量子化)は、最適のウインドウによって得られ
たスペクトルを考慮する。
【0133】ステレオしきい値 ステレオしきい値は、複数の目標を有する。大部分の時
間において、両チャネルが「同様に」響くことが知られ
ている。したがって、符号化利得に変換されうる何らか
の相関が存在する。両チャネルの時間表現を見詰めて
も、前記相関は、明らかでない。しかし、スペクトル表
現は、有利に利用しうる数多くの興味深い特徴を有す
る。実際上、極めて実用的で有用な可能性は、両チャネ
ルを表現するための新しい基礎を作り出すことである。
この基礎は、以下の線形組合せにより定義される和ベク
トルおよび差ベクトルである2個の直交ベクトルを含
む。
【0134】
【数30】
【0135】これらのベクトル(使用されているウイン
ドウの長さを有する)は、変換過程が線形演算の定義に
よるので、周波数領域に生成される。これは、計算負荷
を減らす利点を有する。
【0136】第1目標は、2個の信号の相関度の小さい
表現を有することである。これらの新チャネルにおける
大部分のエネルギの濃度は、右チャネルと左チャネルと
の間に存在する冗長度の結果であり、概して、常に符号
化利得につながる。第2目標は、右チャネルと左チャネ
ルとの量子化雑音を相関させることであり、雑音の局部
化、すなわち、アンマスキング効果を制御することであ
る。この問題は、左右チャネルが独立して量子化され符
号化されたときに生じる。この概念は、以下の文脈によ
って実証される。信号のマスキングしきい値が算出され
ていると仮定すると、2つの状況が生じうる。まず、わ
れわれは、信号に前記マスキングしきい値に相当する量
の雑音を付加する。前記同一の雑音を含む前記同一の信
号を両耳に供給したとき、雑音は、マスキングされる。
しかし、信号に、しきい値に相当する量の雑音を付加
し、この組合わされたものを一方の耳に供給し、他方の
耳に対して同一の操作を行うが、雑音を前の雑音と相関
させないときは、雑音は、マスキングされない。再び、
マスキングを達成するためには、両耳での雑音は、マス
キングレベル差(MLD)によって与えられたレベルだ
け削減されなければならない。
【0137】アンマスキング問題は以下の形に一般化さ
れうる。すなわち、量子化雑音はマスキング信号の局部
化に追従しないときは、マスキングされない。したがっ
て、特に、2つの限界的場合がありうる。アンマスキン
グを聴取者の両側でより顕著にして、信号の中央局部化
する場合と、アンマスキングを中心線上でより顕著にし
て信号を側方局部化する場合とである。
【0138】新しい和ベクトルおよび差ベクトルは、聴
取者の中央と両側とで局部化された信号を表わすので、
極めて都合よい。また、これらのベクトルは、中央イメ
ージおよび側方イメージによって量子化雑音を制御する
ことも可能とする。したがって、アンマスキング問題
は、これらのベクトルによって、MLDの保護レベルを
制御することにより解決される。幾らかの音響心理情
報、他の実験およびその結果に基づいて、MLD保護
は、約3kHzに達する極めて低い周波数に対して特に
臨界的となる。この保護は、信号電力にのみ依存し、信
号調性特性に依存しないように見える。以下のMLDの
式が良好な結果を生じることが証明された。
【0139】
【数31】
【0140】式中、iは、スペクトルのパーティション
指標([7]参照)であり、b(i)は、パーティショ
ンiの中央のバルク周波数である。この式は、b(i)
≦16.0、すなわち、3kHz未満の周波数に対して
のみ有効である。MLDしきい値の式は、以下のように
与えられる。
【0141】
【数32】
【0142】式中、C(i)は、基底膜上の広がり信号
エネルギであり、パーティションiにのみ対応する。
【0143】最後の第3の目標は、ステレオ信号イメー
ジを利用することにより、該イメージマスキングされた
信号の諸方向から無関係性を抽出することである。原則
として、これは、ステレオ信号の豊富さを傷付けないた
めに、ステレオイメージが一方向に強力に形成されると
きにのみなされる。和ベクトルおよび差ベクトルに基づ
いて、この目標は、以下の2重の原理を仮定することに
より達成される。すなわち、 1.信号の(したがって、雑音の)の強力な低下が聴取
者の両側に存在するときは、中心線(中央イメージ)上
の雑音の増加は、知覚的に許容される。上方限界は、側
方の雑音である。 2.信号の(したがって、雑音の)強力な局部化が存在
するときは、(両側での(相関のある)雑音の増加は、
知覚的に許容される。上方限界は、中央雑音である。 しかし、雑音レベルのいずれの上昇もMLDしきい値に
よって訂正される。
【0144】これらの目標にしたがって、最終ステレオ
しきい値は、以下の様に算出される。まず、和チャネル
および差チャネルのしきい値は、雑音マスキング音調お
よび音調マスキング雑音のモノラルモデルを使用して算
出される。手続は、3.2のステップ10までに与えら
れたものの通りである。この点において、両チャネルに
ついて帯域当りの実エネルギしきい値nbbを得る。便
宜上、和チャネルおよび差チャネルのそれぞれについ
て、これらのしきい値をTHRnSUMおよびTHRn
DIFという。第2に、両チャネルのMLDしきい値T
HRnMLD,SUMおよびTHRnMLD,DIF
も、以下の式により算出される。
【0145】
【数33】
【0146】MLD保護およびステレオ無関係度は、以
下の式の計算により考慮される。
【0147】
【数34】
【0148】これらの演算後、3.2に示された第11
ステップ後の残りのステップも両チャネルに対して行わ
れる。本質的に、これら最後のしきい値は、絶対しきい
値および部分プレマスキング保護も考慮するようにさら
に調整される。このプレマスキング保護は、モノラルの
場合からのみ採用されたことに注目しなければならな
い。これは、約2ミリ秒の片耳時間分解能を考慮する。
しかし、両耳時間分解能は、6ミリ秒の精度である。チ
ャネル間時間差に基づく関連ステレオイメージを有する
ステレオ信号を便利に符号化するため、さらに調査を要
する主題が存在する。
【0149】ステレオ符号器 ステレオ符号器の簡単化された構造が図12に示されて
いる。分析中のデータの各セグメントについて、両信号
チャネルの独立挙動および相対挙動に関する詳細な情報
は、長変換および短変換によって得られた情報によって
入手されうる。この情報は、一のセグメントを符号化す
るのに要する必要ステップ数に従って使用される。こり
らのステップは、本質的に、分析ウインドウの選択、符
号化モード(右/左または和/差)の帯域基礎に基づく
定義、係数および倍率の量子化およびハフマン符号化、
および、最後にビットストリーム構成を含む。
【0150】符号化モード選択 新セグメントが読み込まれるとき、長短分析ウインドウ
の調性更新がなされる。モノラルしきい値およびPE値
は、3.1節に記載された技術に従って算出される。こ
れは、両チャネルについて使用されるウインドウのタイ
プに関する最初の決定を与える。
【0151】ウインドウ系列が選択されると、直交符号
化決定が考慮される。この決定は、右/左モードであ
る、チャネルの独立した符号化と和チャネルおよび差チ
ャネルを使用する共同符号化とのいずれかの選択を含
む。この決定は、符号器の帯域に基づいて行われる。こ
れは、両耳知覚が両耳における同一臨界帯域の出力の関
数であるという仮定に基づく。両チャネルでのしきい値
が非常に異なるときは、MLD保護の必要がなく、信号
は、和チャネルおよび差チャネルが考慮されたとき、よ
り多く無相関となることがない。信号がステレオイメー
ジを生成するようなものであるときは、MLD保護は、
始動されなければならず、また、追加利得は、和/差符
号化モードを選択することにより利用されうる。この後
者の状況を検出する都合良い方法は、右チャネルと左チ
ャネルとのモノラルしきい値を比較することである。一
の帯域内の複数のしきい値の相違が予定値(例えば、2
dB)以下のときは、和/差符号化モードが選択され
る。その他の場合は、独立した右/左モードが仮定され
る。各帯域に、該帯域の符号化モードを指定し、副情報
として復号器に伝送されなければならない1ビットのフ
ラッグが組み合わされる。以下、これを符号化モードフ
ラッグという。
【0152】符号化モード決定は、同一帯域で後続のセ
グメントに対して異なりうるので時間適応的であり、同
一セグメントで後続の帯域の符号化モードが異なりうる
ので、周波数適応的である。符号化決定は、図13に例
示されている。この例示は、長セグメントに対しておよ
び短セグメントに対しても有効である。
【0153】現時点で、ウインドウ切替え機構は、モノ
ラル測度のみを含むので、セグメント当りのPE測度の
最大数が10(2チャネル×[1長ウインドウ+4短ウ
インドウ])であることは、明らかである。しかし、わ
れわれが算出する必要がありうるしきい値の最大個数
は、20である。したがって、20個の調性測度が常に
各セグメントについて更新されなければならない(4チ
ャネル×[1長ウインドウ+4短ウインドウ])。
【0154】ビット伝送速度調整 ウインドウ切替え決定および符号化モード選択決定が互
いに依存しないという意味で直交的であることは、上述
した。量子化、ハフマン符号化およびビットストリーム
構成を含む符号化プロセスの最終ステップも前記ウイン
ドウ切替え決定および符号化モード選択決定に対して独
立である。すなわち、フィードバック路が存在しない。
この事実は、最小値(1024/4800=21.3ミ
リ秒)に対して全符号化遅延を減らす利点および通常で
ない符号化状況による不安定を避ける利点も有する。
【0155】量子化過程は、スペクトル係数および倍率
の両方に影響を及ぼす。スペクトル係数は、各帯域が同
一のステップサイズまたは倍率を有する帯域内で一つに
まとめられる。各ステップサイズは、3.2のステップ
14に見られるように帯域に対応するマスキングしきい
値から直接算出される。量子化された値(整数)は、続
いて、可変語長すなわちハフマン符号に変換される。ビ
ットストリームの追加フィールドを考慮して、セグメン
トを符号化する全ビット数が算出される。ビット伝送速
度は、一定に保持されなければならないから、量子化過
程は、ビット数が予定された限界内に入るまで繰り返し
行わなければならない。一のセグメント全体を符号化す
るのに必要なビット数の後で、基準マスキングしきい値
を考慮して、調性度がバッファ制御ユニットにより命令
される。このバッファ制御ユニットは、各セグメントの
必要に応じて、複数のセグメント間で追加ビットの不足
または残を共有する。
【0156】ビット伝送速度調整技術は、図9のフロー
チャートに示されている。現セグメントによって使用さ
れる使用可能ビットの数が算出された後で、繰り返し手
続は、全ての初期しきい値に係数αが乗じられるとき、
最終ビット数が使用可能ビット数に含まれる誤差δより
小さくなるような係数αを見出そうとする。近似曲線が
最大回数繰り返しても、その範囲内にαが見出されない
ように、敵対的であるときにも、1個の許容解は、常に
入手できる。
【0157】このルーチンの主ステップは、以下の通り
である。まず、解を含む期間が見出される。ついで、ル
ープは、解に急速に収束することを求める。各繰り返し
において、最良解が更新される。
【0158】長ウインドウおよび短ウインドウにより符
号化されたセグメントに対して同一手続を使用するため
に、4個の短ウインドウの全係数は、短ウインドウによ
る場合、相同帯域を連結することによりひとつにまとめ
られる。倍数は、同一のものとしてひとつにまとめられ
る。
【0159】ビット伝送速度ルーチンは、ハフマン符号
化されたすべての語を表わすためのビット数を計算する
他のルーチン(係数および倍率)を呼び出す。後者のル
ーチンは、係数の振幅分布に従ってスペクトル分割を行
う。目標は、スペクトルのセクションに予定ハフマン符
号ブックを割り当てることである。各セクションは、可
変数の帯域をグループ化し、該セクションの係数は、便
宜のブックによりハフマン符号化される。セクションの
限界および符号ブック参照は、副情報として復号器に送
出されなければならない。
【0160】スペクトル分割は、最小コスト戦略を使用
して行われる。主ステップは、以下の通りである。ま
ず、全ての可能セクションが定義される(限界は、各帯
域について1個のセクションである)。各セクション
は、該セクション内で係数の振幅分布に最良の形で適合
する。スペクトル全体の始端および終端が知られている
ので、Kをセクション数とすれば、各セクション間にK
−1個の分離文字が存在する。より低いプライスを有す
る分離文字は、除去される(初期プライスは、負でもよ
い)。次の繰り返し前に、再び、プライスが算出され
る。この処理は、最大許容セクション数が得られるま
で、および、他の分離文字を除去する最低プライスが予
定値より大きくなるまで、繰り返される。
【0161】図2の量子化器/レートループ206によ
って遂行される処理の諸態様を以下に示す。従来技術に
よれば、レートループ機構は、モノラルの場合に関係し
た仮定を含む。モノラル知覚符号器からステレオ知覚符
号器へのシフトにより、レートループに対する需要は、
増大する。
【0162】図2の量子化器/レートループ206の入
力は、分析フィルタバンク202によって得られたスペ
クトル係数(すなわち、MDCT係数)および知覚モデ
ル204の出力からなり、スペクトル係数に対応する算
出しきい値を含む。
【0163】量子化器/レートループ206は、一部、
算出しきい値および絶対聴覚しきい値に基づくスペクト
ル情報を量子化し、これにより、エントロピ符号器20
8にビットストリームを供給する。ビットストリーム
は、以下の3個の部分に分割された信号を含む。すなわ
ち、(1)標準副情報を含む第1部分、(2)使用時、
35個または56個の帯域に対する倍率と、いわゆる適
応ウインドウ切替えに使用される追加副情報とを含む第
2部分(この部分は、第1部分内の情報によって変動し
うる)、(3)量子化されたスペクトル係数からなる第
3部分である。
【0164】使用倍率△は、量子化スペクトル係数が許
容限界内で符号化されうるまで、算出倍率と、量子化さ
れるべき各スペクトル係数の周波数に対応する周波数で
の聴覚絶対しきい値から得られた倍率との間で補間する
ことにより、繰り返し得られる。
【0165】本発明の実施例は、図11Cに見られる。
W01で示されているように、量子化器/レートループ
には、スペクトル係数Cf、およびスペクトル係数に対
応するエネルギしきい値Eが入力される。倍率しきい値
△oは、以下の式により算出される。
【0166】
【数35】
【0167】「絶対しきい値」△Aも、聴覚絶対しきい
値(すなわち、倍率と対応する周波数で聴き取れる最も
静かな音)に基づいて算出される。補間定数αおよび補
間限界αhighおよびαlowは、使用倍率の調整に
役立つように初期化される。
【0168】
【数36】
【0169】次に、W05で示されているように、使用
倍率は、以下の式から決定される。
【0170】
【数37】
【0171】つぎに、W07で示されているように、前
記の通り算出された使用倍率は、分散的ではなく、伝送
および使用時に分散的となるので、使用倍率自身が、量
子化される。
【0172】
【数38】
【0173】次に、W09で示されているように、スペ
クトル係数は、使用倍率を使用することにより量子化さ
れ、「量子化スペクトル係数」Q(Cf,△)を生成す
る。
【0174】
【数39】
【0175】式中、「NINT」は、最近似の整数値関
数である。量子化器/レートループ206は、量子化ス
ペクトル係数および使用倍率の両方を伝送しなければな
らないので、両方を伝送するのに必要なビット数と関係
するコストCが算出される。図W11から分かるよう
に、Cは、以下の式で示される。
【0176】
【数40】
【0177】式中、FOOは、実施例によるが、データ
通信分野の当業者によって容易に決定できる関数であ
る。W13により示されているように、コストCは、許
容範囲PR内にあるかどうか決定するためテストされ
る。コストが許容範囲内に存在するときは、Q(Cf,
△)およびQ(△)は、エントロピ符号器208に伝送
される。
【0178】有利に、および、コストと許容範囲PRと
の関係により、補間定数および補間限界は、使用倍率が
許容範囲内のコストを有する量子化スペクトル係数を生
じる間で、調整される。例として、図WのW13により
示されているように、補間限界は、2分探索を生じるよ
うに操作される。明示すれば、C>PRのとき、αhi
gh=αであり、または、C<PRのとき、αlow=
αである。いずれの場合にも、補間定数は以下の式によ
り算出される。
【0179】
【数41】
【0180】処理は、コストCが許容範囲PR内に入る
まで、繰り返しW05において続行される。
【0181】ステレオ復号器 ステレオ復号器は、非常に簡単な構成を有する。その主
機能は、左右チャネルの入力ビットストリームを読み込
み、全データを復号化し、逆量子化および再構成するこ
とである。この技術は、図12に表わされている。
【0182】実施例は、例えば、AT&T DSP16
またはDSP32Cのようなハードウェアとしてのディ
ジタル信号プロセッサ(DSP)、および上述した動作
を行うソフトウェアからなっていてもよい。本発明の実
施例にかかるハードウェアとしての超大規模集積回路
(VLSI)およびハイブリッドDSP/VLSIも使
用しうる。
【図面の簡単な説明】
【図1】従来の音声通信/記憶システムの説明用ブロッ
ク線図である。
【図2】従来の知覚音声符号器(PAC)の説明用ブロ
ック線図である。
【図3】しきい値算出に使用される有用なマスキングレ
ベル差係数のグラフである。
【図4】本発明の一態様に従う分析フィルタバンクのブ
ロック線図である。
【図5】ウインドウ機能の一の動作を示すグラフであ
る。
【図6】ウインドウ切替え機能を説明するフローチャー
トである。
【図7】出力ビットストリームを得る入力信号の処理過
程全体を示すブロック/フロー線図である。
【図8】しきい値変動を示すグラフである。
【図9】ビット割当て機能のフローチャートである。
【図10】ビットストリーム構成を示す模式図である。
【図11】ハフマン符号化動作を示す模式図である。
【図12】符号化器の動作と対をなす復号器での動作を
示すフローチャートである。
【図13】本発明の一態様にかかる量子化作用を示すフ
ローチャートである。
【図14】図4に示されたフィルタバンクに使用される
ウインドウを示すグラフである。
【符号の説明】
102 プリプロセッサ 104 知覚音声符号器 106 通信チャネル/記憶媒体 108 知覚音声復号器 110 ホストプロセッサ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 アニバル ジョー デ スーサ フェレイ ラ ポルトガル ピナフィエル 4560、アヴェ ニュー ゼフェリノ デ オリヴィエア 239 (72)発明者 ジェームス デヴィッド ジョンストン アメリカ合衆国 07059 ニュージャージ ー ウォーレン、ヴァレーヴィユー ロー ド 8

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 デジタル入力信号を符号化する方法にお
    いて、 (a) 2N個の入力信号サンプルのフレームを形成す
    る為に、デジタル入力信号をサンプリングするステップ
    と、 (b) 2N個のフーリエ係数のフレームを提供する為
    に、奇数周波数高速フーリエ変換でもって、前記入力信
    号サンプルのフレームを解析するステップと、 (c) 以下の計算式で与えられるサンプルX(k)を
    含む符号化信号を出力するステップと、 【数2】 からなることを特徴とするデジタル入力信号符号化方
    法。
JP5064824A 1992-03-02 1993-03-02 オーディオ信号処理方法 Expired - Lifetime JP2923406B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US84481992A 1992-03-02 1992-03-02
US844819 1992-03-02

Publications (2)

Publication Number Publication Date
JPH0629859A true JPH0629859A (ja) 1994-02-04
JP2923406B2 JP2923406B2 (ja) 1999-07-26

Family

ID=25293716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5064824A Expired - Lifetime JP2923406B2 (ja) 1992-03-02 1993-03-02 オーディオ信号処理方法

Country Status (6)

Country Link
US (1) US5592584A (ja)
EP (1) EP0564089B1 (ja)
JP (1) JP2923406B2 (ja)
KR (1) KR960003457B1 (ja)
CA (1) CA2090052C (ja)
DE (1) DE69323106T2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6771777B1 (en) 1996-07-12 2004-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Process for coding and decoding stereophonic spectral values
KR100460159B1 (ko) * 1996-03-19 2005-02-23 루센트 테크놀러지스 인크 오디오신호인코딩방법및장치
KR100488537B1 (ko) * 1996-11-20 2005-09-30 삼성전자주식회사 듀얼모드오디오디코더의재현방법및필터
WO2007116809A1 (ja) * 2006-03-31 2007-10-18 Matsushita Electric Industrial Co., Ltd. ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
WO2009142017A1 (ja) * 2008-05-22 2009-11-26 パナソニック株式会社 ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法
JP2014041362A (ja) * 2004-09-17 2014-03-06 Digital Rise Technology Co Ltd 多チャンネルデジタル音声符号化装置および方法
CN112599139A (zh) * 2020-12-24 2021-04-02 维沃移动通信有限公司 编码方法、装置、电子设备及存储介质

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE40280E1 (en) 1988-12-30 2008-04-29 Lucent Technologies Inc. Rate loop processor for perceptual encoder/decoder
EP0559348A3 (en) 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
US5488665A (en) * 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
KR970011727B1 (en) * 1994-11-09 1997-07-14 Daewoo Electronics Co Ltd Apparatus for encoding of the audio signal
JP2842276B2 (ja) * 1995-02-24 1998-12-24 日本電気株式会社 広帯域信号符号化装置
JP2809126B2 (ja) * 1995-03-30 1998-10-08 日本電気株式会社 音声信号処理回路および音声信号処理方法
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5732189A (en) * 1995-12-22 1998-03-24 Lucent Technologies Inc. Audio signal coding with a signal adaptive filterbank
US8306811B2 (en) * 1996-08-30 2012-11-06 Digimarc Corporation Embedding data in audio and detecting embedded data in audio
TW429700B (en) * 1997-02-26 2001-04-11 Sony Corp Information encoding method and apparatus, information decoding method and apparatus and information recording medium
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
CN1205842C (zh) * 1997-04-10 2005-06-08 索尼株式会社 编码方法和装置、解码方法和装置
DE69738204D1 (de) 1997-08-29 2007-11-22 St Microelectronics Asia Schnelles syntheseverfahren für die sub-bandfiltrierung für die dekodierung von digitalen signalen
WO1999010719A1 (en) 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
DE19742655C2 (de) * 1997-09-26 1999-08-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
DE19742944B4 (de) * 1997-09-29 2008-03-27 Infineon Technologies Ag Verfahren zum Aufzeichnen eines digitalisierten Audiosignals
US5913191A (en) * 1997-10-17 1999-06-15 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries
WO1999043110A1 (en) * 1998-02-21 1999-08-26 Sgs-Thomson Microelectronics Asia Pacific (Pte) Ltd A fast frequency transformation techique for transform audio coders
DE19907729C2 (de) * 1999-02-23 2001-02-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen eines Datenstroms aus Codeworten variabler Länge und Verfahren und Vorrichtung zum Lesen eines Datenstroms aus Codeworten variabler Länge
US6246345B1 (en) * 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
US6678653B1 (en) 1999-09-07 2004-01-13 Matsushita Electric Industrial Co., Ltd. Apparatus and method for coding audio data at high speed using precision information
US6754618B1 (en) * 2000-06-07 2004-06-22 Cirrus Logic, Inc. Fast implementation of MPEG audio coding
US6745162B1 (en) * 2000-06-22 2004-06-01 Sony Corporation System and method for bit allocation in an audio encoder
WO2002056297A1 (en) * 2001-01-11 2002-07-18 Sasken Communication Technologies Limited Adaptive-block-length audio coder
JP2002217740A (ja) * 2001-01-19 2002-08-02 Sakai Yasue 圧縮方法及び装置、伸長方法及び装置、圧縮伸長システム、記録媒体
WO2002093559A1 (en) * 2001-05-11 2002-11-21 Matsushita Electric Industrial Co., Ltd. Device to encode, decode and broadcast audio signal with reduced size spectral information
US7460629B2 (en) 2001-06-29 2008-12-02 Agere Systems Inc. Method and apparatus for frame-based buffer control in a communication system
US7318026B2 (en) * 2001-10-03 2008-01-08 Sony Corporation Encoding apparatus and method, decoding apparatus and method, and recording medium recording apparatus and method
EP1440433B1 (en) * 2001-11-02 2005-05-04 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device
EP2282310B1 (en) * 2002-09-04 2012-01-25 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
US6980933B2 (en) * 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
DE102004009949B4 (de) * 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
US7937271B2 (en) 2004-09-17 2011-05-03 Digital Rise Technology Co., Ltd. Audio decoding using variable-length codebook application ranges
US7684981B2 (en) * 2005-07-15 2010-03-23 Microsoft Corporation Prediction of spectral coefficients in waveform coding and decoding
US7693709B2 (en) * 2005-07-15 2010-04-06 Microsoft Corporation Reordering coefficients for waveform coding or decoding
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
US7933337B2 (en) * 2005-08-12 2011-04-26 Microsoft Corporation Prediction of transform coefficients for image compression
US7565018B2 (en) * 2005-08-12 2009-07-21 Microsoft Corporation Adaptive coding and decoding of wide-range coefficients
US8184710B2 (en) * 2007-02-21 2012-05-22 Microsoft Corporation Adaptive truncation of transform coefficient data in a transform-based digital media codec
US8214200B2 (en) * 2007-03-14 2012-07-03 Xfrm, Inc. Fast MDCT (modified discrete cosine transform) approximation of a windowed sinusoid
US20090210222A1 (en) * 2008-02-15 2009-08-20 Microsoft Corporation Multi-Channel Hole-Filling For Audio Compression
US8179974B2 (en) 2008-05-02 2012-05-15 Microsoft Corporation Multi-level representation of reordered transform coefficients
US8406307B2 (en) 2008-08-22 2013-03-26 Microsoft Corporation Entropy coding/decoding of hierarchically organized data

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03219731A (ja) * 1990-01-25 1991-09-27 Kokusai Electric Co Ltd 音声多重通信方法及び装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2484755A1 (fr) * 1980-06-16 1981-12-18 Henry Jean Philippe Recepteur numerique de signalisation multifrequence utilisant des filtres non recursifs avec des fonctions de fenetre
DE3308025A1 (de) * 1983-03-07 1984-09-13 ANT Nachrichtentechnik GmbH, 7150 Backnang System zur uebertragung und zum empfang von digitalen informationssignalen
DE3506912A1 (de) * 1985-02-27 1986-08-28 Telefunken Fernseh Und Rundfunk Gmbh, 3000 Hannover Verfahren zur uebertragung eines audiosignals
US4937873A (en) * 1985-03-18 1990-06-26 Massachusetts Institute Of Technology Computationally efficient sine wave synthesis for acoustic waveform processing
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US4856068A (en) * 1985-03-18 1989-08-08 Massachusetts Institute Of Technology Audio pre-processing methods and apparatus
DE3703143A1 (de) * 1987-02-03 1988-08-11 Thomson Brandt Gmbh Verfahren zur uebertragung eines audiosignals
NL8700985A (nl) * 1987-04-27 1988-11-16 Philips Nv Systeem voor sub-band codering van een digitaal audiosignaal.
DE3881869D1 (de) * 1987-10-06 1993-07-22 Fraunhofer Ges Forschung Digitales adaptives transformationscodierverfahren.
US4813056A (en) * 1987-12-08 1989-03-14 General Electric Company Modified statistical coding of digital signals
US5297236A (en) * 1989-01-27 1994-03-22 Dolby Laboratories Licensing Corporation Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder
US5222189A (en) * 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
US5142656A (en) * 1989-01-27 1992-08-25 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US5230038A (en) * 1989-01-27 1993-07-20 Fielder Louis D Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03219731A (ja) * 1990-01-25 1991-09-27 Kokusai Electric Co Ltd 音声多重通信方法及び装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100460159B1 (ko) * 1996-03-19 2005-02-23 루센트 테크놀러지스 인크 오디오신호인코딩방법및장치
US6771777B1 (en) 1996-07-12 2004-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Process for coding and decoding stereophonic spectral values
KR100488537B1 (ko) * 1996-11-20 2005-09-30 삼성전자주식회사 듀얼모드오디오디코더의재현방법및필터
JP2014041362A (ja) * 2004-09-17 2014-03-06 Digital Rise Technology Co Ltd 多チャンネルデジタル音声符号化装置および方法
WO2007116809A1 (ja) * 2006-03-31 2007-10-18 Matsushita Electric Industrial Co., Ltd. ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
WO2009142017A1 (ja) * 2008-05-22 2009-11-26 パナソニック株式会社 ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法
CN112599139A (zh) * 2020-12-24 2021-04-02 维沃移动通信有限公司 编码方法、装置、电子设备及存储介质
CN112599139B (zh) * 2020-12-24 2023-11-24 维沃移动通信有限公司 编码方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
EP0564089A1 (en) 1993-10-06
JP2923406B2 (ja) 1999-07-26
DE69323106T2 (de) 1999-09-02
US5592584A (en) 1997-01-07
KR960003457B1 (ko) 1996-03-13
KR930020405A (ko) 1993-10-19
CA2090052C (en) 1998-11-24
EP0564089B1 (en) 1999-01-20
CA2090052A1 (en) 1993-09-03
DE69323106D1 (de) 1999-03-04

Similar Documents

Publication Publication Date Title
JP3258424B2 (ja) 知覚モデルに基づく音声信号符号化方法とその装置
JPH0629859A (ja) デジタル入力信号符号化方法
KR970007663B1 (ko) 신호 양자화 장치 및 방법
JP3970342B2 (ja) 音響信号の知覚符号化
KR100346066B1 (ko) 오디오신호 코딩방법
US6104996A (en) Audio coding with low-order adaptive prediction of transients
EP0797324B1 (en) Enhanced joint stereo coding method using temporal envelope shaping
US6502069B1 (en) Method and a device for coding audio signals and a method and a device for decoding a bit stream
JP3804968B2 (ja) 適応配分式符号化・復号装置及び方法
US6064954A (en) Digital audio signal coding
JP4033898B2 (ja) 知覚符号化システムのサブバンドに波形予測を適用する装置及び方法
JP4296753B2 (ja) 音響信号符号化方法及び装置、音響信号復号方法及び装置、並びにプログラム及び記録媒体
WO2000045378A2 (en) Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6128592A (en) Signal processing apparatus and method, and transmission medium and recording medium therefor
JPH09252254A (ja) オーディオ復号装置
USRE40280E1 (en) Rate loop processor for perceptual encoder/decoder
JPH07336234A (ja) 信号符号化方法及び装置並びに信号復号化方法及び装置
Iwakami et al. Audio coding using transform‐domain weighted interleave vector quantization (twin VQ)
JPH09102742A (ja) 符号化方法および装置、復号化方法および装置、並びに記録媒体
JPH09135173A (ja) 符号化装置および符号化方法、復号化装置および復号化方法、伝送装置および伝送方法、並びに記録媒体
Bii MPEG-1 Layer III Standard: A Simplified Theoretical Review
JP3513879B2 (ja) 情報符号化方法及び情報復号化方法
JPH07106977A (ja) 情報復号化装置
KR19990041758A (ko) 디지탈 오디오 부호화장치
JPH09102741A (ja) 符号化方法および装置、復号化方法および装置、並びに記録媒体

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080430

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090430

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100430

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100430

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110430

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120430

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120430

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130430

Year of fee payment: 14

EXPY Cancellation because of completion of term