JP4927264B2 - オーディオ信号を符号化する方法 - Google Patents
オーディオ信号を符号化する方法 Download PDFInfo
- Publication number
- JP4927264B2 JP4927264B2 JP2001150411A JP2001150411A JP4927264B2 JP 4927264 B2 JP4927264 B2 JP 4927264B2 JP 2001150411 A JP2001150411 A JP 2001150411A JP 2001150411 A JP2001150411 A JP 2001150411A JP 4927264 B2 JP4927264 B2 JP 4927264B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency band
- signal
- encoded
- high frequency
- envelope
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 31
- 230000005236 sound signal Effects 0.000 title claims description 20
- 210000000860 cochlear nerve Anatomy 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 210000000067 inner hair cell Anatomy 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 210000003477 cochlea Anatomy 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000010304 firing Methods 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 210000004126 nerve fiber Anatomy 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 210000002469 basement membrane Anatomy 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000116 mitigating effect Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M13/00—Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0033—Recording/reproducing or transmission of music for electrophonic musical instruments
- G10H1/0041—Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
- G10H1/0058—Transmission between separate instruments or between individual components of a musical system
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の属する技術分野】
本発明は、オーディオ符号化方式の分野に関し、特に、人間聴覚系の性質に基づいて高い効率でオーディオ符号化・復号を実行する方法および装置に関する。
【0002】
【従来の技術】
例えば音声、音楽などを表すオーディオ信号の蓄積または伝送のいずれかの目的で通常利用される信号を符号化する際に用いられるオーディオ符号化の作業は、長年にわたって注目されている。これは、対応する復号器によって再構成される出力信号の品質を維持しながら、与えられた入力信号を符号化するのに必要なビット数を最小にするためである。例として、音声信号の帯域幅が例えば4kHzである狭帯域音声の場合、最も有効な音声符号器は、当業者に周知の符号励振線形予測(CELP)法に基づいている。このようなCELP法を用いた符号器は通常、4〜16kb/sの範囲で動作する。しかし、音源(すなわち、入力音声信号)に関する固有の仮定の結果として、このような符号器は通常、例えば音楽系オーディオ信号に対してはかなり性能が低い。
【0003】
他方、知覚オーディオ符号器(PAC)(例えば、D. Sinha et al., "The Perceptual Audio Coder (PAC)", The Digital Signal Processing Handbook (V. Madisetti and D. Williams, eds.), pp.42-1:42-17, CRC Press, 1998、に記載)のような、知覚基準を用いたオーディオ符号器は、より高いビットレートで、より広帯域のオーディオ信号に対して、かなり良好に動作する。PACのような知覚オーディオ符号器もまた、当業者に周知である(例えば、米国特許第5,040,217号も参照)。具体的には、このような知覚符号器は、音響心理学的モデル(すなわち、人間知覚系の性能に基づくモデル)を用いてスペクトル(すなわち、周波数領域)係数のセットを量子化することにより、聴取者が最終的に区別できないレベルの量子化精度を達成するのに用いられる符号化ビットの「浪費」を避けることによって、性能の改善を達成する。しかし、残念ながら、約24kb/sより低いビットレートでは、PACのような符号器は通常、音声系オーディオ信号に対してはうまく動作しない。
【0004】
最近、マルチモード変換予測符号器(MTPC:Multimode Transform Predictive Coder)(例えば、S. Ramprashad, "A Multimode Transform Predictive Coder (MTPC) for Speech and Audio", IEEE Speech Coding Workshop, pp.10-12, 1999、に記載)のようなハイブリッド符号器は、上記の両方の符号化パラダイムを組み合わせようと試み、音声およびオーディオの両方の信号に対して、16〜24kb/sの範囲で相当良好に動作する。しかし、このようなハイブリッド方式の複雑さ(計算量)はしばしば必然的に高くなる。このような方式は、本質的に、2つの異なる技術を単一の符号器に組み合わせなければならないからである。
【0005】
符号化オーディオ信号がパケット交換網を通じて伝送されるときにオーディオ符号器に関して必ず生じるもう1つの問題は、パケット損失の問題である。明らかに、このようなアプリケーションの場合、これらの符号器はすべて、このような環境下における有用なツールとなるためには、パケット損失に対してかなりロバストである必要がある。当業者に周知の従来の誤り軽減技術はかなり有効であるが、ほとんどのこのような技術は、約3%より高いパケット損失率では効率が落ちることになる。具体的には、パケット交換網における誤り軽減に対する従来のアプローチは、比較的大きい受信バッファを設けることを含むが、これにより、後に到着するパケットに対する影響が低減される。しかし、双方向通信アプリケーションで使用すると、遅延増大は、双方向通信の有効性に大きい影響を及ぼし、必要以上に高度なエコー制御を必要とすることになる。
【0006】
とりわけこのような理由により、当業者に周知のマルチデスクリプティブ(multi-descriptive)符号化技術(例えば、K. Wolf et al., "Source Coding for Multiple Descriptions", Bell System Technical Journal, vol.59, no.9, pp.1417-1426, 1980、に記載)が、この問題点に対する解決法として提案されている。具体的には、この技術によれば、ソース(情報源)符号器は、その情報を複数のほぼ等しい重要性のあるビットストリームに分割する。例えば、2個のストリームの場合、各ストリームは、復号器によって独立に使用されるときには相当の品質レベルを提供するが、両方のストリームが使用されるときには単一ストリームを用いて達成される品質レベルより良好な品質レベルを復号器が提供するように、符号化されることが可能である。パケット損失確率が独立になるように両方のストリームを送信可能であると仮定すると、小さい品質劣化だけで、非常に高い損失率も許容可能となる。
【0007】
残念ながら、実際には一般に、符号化効率を低下させずに、マルチデスクリプティブ性を有するオーディオ符号器を設計することはかなり困難であることがわかっている。1つの有効なアプローチは、2チャネルステレオ音源(例えば、ステレオ音楽)の符号化に関するものである。この場合、音源の固有のマルチデスクリプティブ性(すなわち、2つの独立のチャネル)を利用して、独立のビットストリームを得ることができる。
【0008】
【発明が解決しようとする課題】
上記の理由から、これらの両方の問題点を適切に解決するオーディオ符号化方式を提供することが必要とされている。具体的には、低ビットレートの音声信号と、高ビットレートの音楽信号との両方に対して、ハイブリッド法の複雑さを被らずに、良好に動作する単一のソース符号器/復号器を提供することができれば有利である。さらに、このようなソース符号化方式が、パケット交換環境で用いられるときに誤り軽減の目的で信号の自然なマルチデスクリプティブ分解を提供することができれば有効である。
【0009】
【課題を解決するための手段】
本発明の原理によれば、人間聴覚系のいくつかの性質を利用して、音声および音楽の両方の信号に対して良好に動作する単一の非ハイブリッド型オーディオ符号化方式が実現され、さらに、自然なマルチデスクリプティブ分解が得られることが認識された。具体的には、高い周波数では、人間聴覚系は、与えられた基礎となる音響波形刺激に対する同期を失い、この周波数についての時間情報は、聴神経の神経発火の瞬時平均レートによってのみ伝達されることが認識された。
【0010】
この認識に基づいて、本発明によれば、符号化されるべきソース信号は複数の周波数帯域に分割され、与えられたしきい値周波数より低い周波数については、波形は、その位相情報を保存するように符号化されるが、そのしきい値より高い周波数については、これらの(高周波側の)それぞれの周波数帯域の波形は、キャリア信号とエンベロープ信号に分解され、(キャリア信号の位相情報ではなく)エンベロープ信号のみが符号化される。その後、復号器では、これらの符号化されたエンベロープ信号が復号され、対応するキャリア波形を変調するために用いられる。キャリア波形は、例えば、周波数帯域の中心周波数に対応する周波数を有する一定の余弦キャリアである。本発明の一実施例によれば、エンベロープ信号は、符号化の前に平滑化(すなわち、ローパスフィルタリング)されることも可能である。
【0011】
さらに具体的には、本発明は、オーディオソース信号を符号化する方法および装置であって、(a)オーディオ信号を、与えられたしきい値周波数より低い周波数成分を含む低周波数帯域信号と、該与えられたしきい値周波数より高い周波数成分を含む高周波数帯域信号とを含む複数の周波数帯域信号とに分割するステップまたは手段と、(b)前記低周波数帯域信号を表す波形に含まれる位相情報の少なくとも一部を保存するように前記低周波数帯域信号の少なくとも1つを符号化するステップまたは手段と、(c)前記高周波数帯域信号の少なくとも1つに対して、該高周波数帯域信号を表す波形のエンベロープの少なくとも一部を表すが該高周波数帯域信号を表す波形に関連する位相情報をほとんど含まない、対応する臨界帯域エンベロープ信号を生成するステップまたは手段と、(d)対応する臨界帯域エンベロープ信号を符号化することによって前記高周波数帯域信号の少なくとも一部を符号化するステップまたは手段とを有する。
【0012】
また、これに対応して、本発明は、このように符号化されたオーディオソース信号を復号する方法および装置であって、(i)それぞれの符号化された低周波数帯域信号を復号して、対応する低周波数帯域信号を表す再構成波形を生成するステップまたは手段と、(ii)それぞれの符号化された高周波数帯域信号を復号して、該高周波数帯域信号に対応する再構成臨界帯域エンベロープ信号を生成するステップまたは手段と、(iii)前記再構成臨界帯域エンベロープ信号のそれぞれを、対応するキャリア波形と結合して、対応する高周波数帯域信号を表す再構成波形を生成するステップまたは手段と、(iv)前記対応する低周波数帯域信号を表す再構成波形と前記対応する高周波数帯域信号を表す再構成波形とをそれぞれ結合して、符号化されたオーディオ信号を表す再構成波形を生成するステップまたは手段とを有する。
【0013】
さらに、本発明の一実施例によれば、2つの独立のビットストリームが、本発明の符号器によって生成される。一方は、しきい値より高い周波数帯域の適当なサブセットであり、他方は、その適当なサブセットから除かれた他の周波数帯域を表す。(しきい値より低い符号化周波数帯域は、両方のビットストリームに含めることが可能である。)例えば、周波数帯域のこれらの2つのサブセットは、しきい値より高い周波数帯域の系列から、1つおきの帯域をインタリーブする(例えば、1つおきの「偶」と「奇」のサブバンドをインタリーブして「偶」チャネルおよび「奇」チャネルを生成するというように)ことによって定義される。このように生成された2つの独立のビットストリームは、それ以外の点では従来通りのマルチデスクリプティブ方式で符号化され、最終的に、対応する実施例の復号器によって生成される2チャネルの再構成信号が得られ、これがそれぞれ左チャネルおよび右チャネルとして「再生」されることにより、人間聴覚系のバイノーラル(双聴覚)性を利用することが可能となる。
【0014】
【発明の実施の形態】
蝸牛フィルタの出力から時間エンベロープと「キャリア」への分解が、音声近くにおける聴覚メカニズムの役割を定量化するために用いられることは、広く受け入れられている(例えば、J. L. Flanagan, "Parametric Coding of Speech Spectra", Journal of the Acoustical Society of America, vol.68, no.2, pp.414-430, 1980、を参照)。これは、聴覚系(特に、末梢)がどのように作用するかについての現在のわれわれの理解によって支持される。
【0015】
測定されたネコの聴神経(AN:auditory nerve)応答(例えば、B. Delgutte et al., "Speech Coding in the Auditory Nerve: I. Vowel-like Sounds", Journal of the Acoustical Society of America, vol.75, no.3, pp.866-878, 1984、を参照)と、人間の可能なAN応答との間のアナロジーにより、低CFと高CFの神経繊維の発火パターンの性質間の有意な差が予想される。(当業者に周知のように、CF(特性周波数:Characteristic Frequency)は、基底膜に沿った神経繊維の起点の位置を周波数単位で示す。)低いCFでは、AN神経繊維の神経放電は、基礎となる駆動蝸牛信号に位相ロックされる(すなわち、同期は維持される)。高いCFでは、神経放電の同期は大幅に低下する。実際、このようなCFでは、時間情報は、神経発火の瞬時平均レートによって保持され、これは、基礎となる駆動蝸牛信号の時間エンベロープに関連している。明らかに、これらのAN領域の間に明確な境界はない。むしろ、性質の変化は緩やかである。しかし、本発明の一実施例によれば、この遷移領域は約1200Hzにあるという作業仮説を採用している。
【0016】
このため、本発明の実施例によれば、1200Hzより高い周波数帯域については、(AN神経発火における同期の喪失によって反映される)キャリア情報を追跡するために、内有毛細胞(IHC:Inner Hair Cell)の生理学的限界を利用する。数学的には、次のようにおく。
si(t)=s(t)*hi(t)=ai(t)cosφi(t) (1)
ただし、s(t)は入力信号であり、hi(t)は周波数Ti>1200Hzを中心とする蝸牛フィルタiのインパルス応答であり、演算子*は畳込みを表し、ai(t)およびcosφi(t)はそれぞれ、蝸牛信号si(t)のエンベロープおよびキャリア情報である。なお、上記のIHC制限のため、Tiを起点とするAN神経繊維の神経発火は、エンベロープ情報ai(t)のみを示し、キャリア情報は失われる。ここで、次の合成信号を考える。
^si(t)=ai(t)cosωit (2)
【0017】
すなわち、もとのキャリアcosφi(t)が固定余弦キャリアcosωitで置き換えられている。したがって、帯域制限エンベロープai(t)に対して、^si(t)は、周波数ωiを中心とする帯域制限信号となる。^si(t)が聴取者の耳に提示された場合、その結果として、蝸牛区画に沿った適当な位置(周波数ωiに対応する)におけるエンベロープ信号はai(t)となる。ここで、次式のようにおく。
【数1】
ただし、ai(t)(i=1,...,N)は、1200Hzより高い臨界帯域スケールの部分に沿って等間隔(1個の臨界帯域を1つの間隔とする)に位置するN個の蝸牛フィルタのエンベロープ信号である。(当業者には理解されるように、4kHzの帯域幅の入力信号に対して、1200Hzより高い臨界帯域の数はN=10であり、8kHzの帯域幅の入力信号に対して、対応する値はN=17である。)多数の有限個の高度に重畳した蝸牛フィルタ(連続する蝸牛区画に沿ったIHCの離散分布によって決定される)によって情報はANに伝達されることを想起すると、もとの信号s(t)についてのANレベルでの全エンベロープ情報は、IHCの密度によって決定される周波数分解能で表現される。しかし、式(3)によれば、再構成信号^s(t)を構成するエンベロープ信号ai(t)(i=1,...,N)は、ANレベルでの全エンベロープ情報の疎なサンプルのみを表現する。
【0018】
次に、式(3)の^s(t)を、聴取者の耳に提示する。周波数ωiに位置する聴取者の蝸牛フィルタの出力におけるエンベロープは(理想的には)、それぞれのi(i=1,...,N)に対して、ai(t)である。しかし、2つの連続する余弦キャリア周波数ωiとωi+1の間に位置する蝸牛フィルタの出力は、そのフィルタを通過する2つの変調された余弦キャリア信号の「うなり」を反映することになる。これは、好ましくない歪みを生じることがある。
【0019】
したがって、本発明の一実施例によれば、うなりによる歪みの可能性を低減するため、臨界帯域をインタリーブしたダイコティック合成(すなわち、左右の耳に提示される信号が異なる場合)を利用する。具体的には、^sodd(t)および^seven(t)をそれぞれ、^s(t)の奇成分および偶成分の和とする。すなわち、
【数2】
である(ここで、Nは偶数であると仮定する)。これらのそれぞれの信号における2つの連続する余弦キャリアの間の距離が大きくなることにより、キャリアうなりによる歪みが低減される。^sodd(t)および^seven(t)がそれぞれ左耳および右耳に提示されると、聴覚系は、単一の融合した像を生成することになる。
【0020】
注目すべき点が2つある。第1に、式(1)のhi(t)は蝸牛フィルタであり、これは、例えば、当業者に周知のガンマトーンフィルタとして実現される(例えば、B. Gold et al., "Gamma-Tone Filters, Roex Filters, and Auditory Models", Speech and Audio Signal Processing, section 19.4, pp.264-266, John Wiley and Sons, 2000、を参照)。これは、h(t)=Σi=1 Nhi(t)がオールパスフィルタでないことを意味する。すなわち、信号Σi=1 Nsi(t)(ここで、si(t)は式(1)の変更されていない蝸牛信号である)は、実際には、式(1)のもとの信号s(t)とは異なる。(しかし、他方では、当業者に周知のように、従来のサブバンド符号化方式におけるフィルタバンクは通常、「完全再構成」要件により設計されることに注意すべきである。)しかし、このような差は不利ではない。その理由は、本発明の原理によれば、われわれはもとの信号を再現しようとしているのではなく、われわれの目的は、もとの信号によって実際に生成された蝸牛エンベロープ情報に対応する、聴取者のANにおける神経活動を刺激する信号を合成することだからである。
【0021】
第2に注意すべき点であるが、ここで説明した信号処理技術(すなわち、純粋な余弦キャリアを用いて、基底膜に沿った適当な位置に、サンプリングされたエンベロープ信号を配置すること)は、固有の好ましくない歪みを生じることがある。これは、もとの信号s(t)が高度に重畳した十分な分解能の蝸牛フィルタバンクを通過すると、その結果得られるエンベロープ情報は、フィルタバンクアレイを通るにつれて緩やかに変化することから理解される。これに対して、式(4)および(5)の^sodd(t)および^seven(t)を同じフィルタバンクに通すと、エンベロープ情報の変化はずっと粗くなる。式(1)のフィルタhi(t)によるエンベロープ情報のサンプリングが疎であるからである。
【0022】
上記のように、本発明の原理により得られる情報低減の源の1つは、キャリア情報を追跡する際のIHCの生理学的制限に基づいている。これにより、例えば式(4)および(5)に示したような純粋な余弦キャリアの利用が可能となる。もちろん、符号器により使用される余弦キャリアの周波数は、受信符号化信号を復号する際に用いられる受信機にとって既知である。しかし、上記の解析における蝸牛エンベロープai(t)を、平滑化されたエンベロープ〜ai(t)で置き換えることによって、さらに情報を低減することが可能である。この平滑化は、例えばローパスフィルタを用いた従来の方法で実現される。その場合、式(4)および(5)はそれぞれ、次のようになる。
【数3】
【0023】
精神物理学的実験によれば、ローパスフィルタのカットオフ周波数が約250Hzである場合、式(6)および(7)の平滑化された蝸牛エンベロープで合成された音声信号は、式(4)および(5)のもとのエンベロープで合成された音声信号と知覚的に区別することができないことが示されている。そこで、本発明の実施例によれば、カットオフ周波数が約250Hzのローパスフィルタを用いて、1200Hzより高い周波数における符号化のための、平滑化されたインタリーブ臨界帯域エンベロープを生成する。その後、このように符号化されたエンベロープは、上記のように受信機で復号され、対応する信号の対が、式(6)および(7)に従って合成される。
【0024】
なお、チャネルをインタリーブしたダイコティック合成を用いることによって、式(6)および(7)に従って合成される〜sodd(t)および〜seven(t)は、1200Hzより上では無相関になる。したがって、本発明のさまざまな実施例によれば、いくつかのマルチデスクリプティブ合成法のうちの任意のものを用いることが可能となる。例えば、受信機において(例えば、測定されるチャネル損失に依存して)、左耳(L)および右耳(R)には、次のいずれかのように供給される。
(1)〜sodd(t)をLに、〜seven(t)をRに。
(2)〜sodd(t)をLおよびRの両方に。
(3)〜seven(t)をLおよびRの両方に。
【0025】
なお、本発明のアプローチは、場合によっては、次の2種類の人為的産物を生じることがある。第1に、純粋余弦キャリアの利用により、式(4)および(5)の^sodd(t)および^seven(t)に知覚可能な歪みを生じることがあり、その量は、スペクトル内容とキャリア周波数の間の相互作用と、聴取者の経験とに依存する。第2に、ダイコティック提示は、ダイオティック(すなわち、同じ信号が両耳に提示される場合)提示によって生成されるものとは異なる空間像を生成することがある。本発明の実施例の方法をマルチデスクリプティブ方式のアプローチに従って用いると、ダイコティックモードからダイオティックモードへの切換により、像の空間位置の切換が起こる。この問題点は、ステレオヘッドフォンを用いるのではなく、2個のスピーカを通じて2チャネル出力を行うような実世界のアプリケーション(例えば、デスクトップアプリケーションの場合)では軽減される可能性がある。
【0026】
[実施例]
図1に、本発明の技術に従って、高周波数において平滑化されたインタリーブ臨界帯域エンベロープを用いてマルチデスクリプティブステレオオーディオ符号化および復号を実行するシステムで用いられる、オーディオ符号器の実施例を示す。なお、具体的には、符号器から復号器へ送信される情報は、符号化されたベースバンド信号(すなわち、1200Hzより低い周波数を含む信号の部分)と、符号化された平滑化(すなわち、ローパスフィルタリングされた)臨界帯域エンベロープとからなる。さらに、注意すべき点であるが、図示した本発明の実施例によれば、2個のビットストリームが生成される。一方は、(ベースバンド信号の符号化表現とともに)「偶」チャネルの符号化表現を含み、他方は、(同じくベースバンド信号の符号化表現とともに)「奇」チャネルの符号化表現を含む。
【0027】
具体的には、図1の実施例の符号器は、1対の符号化ビットストリーム、すなわち、符号化された偶チャネルビットストリームおよび符号化された奇チャネルビットストリームをそれぞれ生成するための、奇チャネル符号器12−1および偶チャネル符号器12−2を有する。符号化されるべきオーディオ信号を含む入力信号s(t)は、奇チャネル符号器12−1および偶チャネル符号器12−2の両方に入力され、それぞれの対応するフィルタバンクを通じて送られる。例えば、奇チャネル符号器12−1のフィルタバンクは、ベースバンド信号(すなわち、1200Hz以下の信号の周波数成分)を生成する1200Hzローパスフィルタ14−1と、与えられた臨界帯域に対応するサブバンド信号を生成する、1200Hzより高いすべての「奇数番号の」臨界帯域のバンドパスフィルタ(すなわち、図示したようなバンドパスフィルタ17−1ないしバンドパスフィルタ17−(N−1))とを有する。同様に、偶チャネル符号器12−2のフィルタバンクは、ベースバンド信号を生成する1200Hzローパスフィルタ14−2と、同じく与えられた臨界帯域に対応するサブバンド信号を生成する、1200Hzより高いすべての「偶数番号の」臨界帯域のバンドパスフィルタ(すなわち、図示したようなバンドパスフィルタ17−2ないしバンドパスフィルタ17−N)とを有する。これらのフィルタバンクの各フィルタは全く従来のものであり、当業者に周知である。バンドパスフィルタのセットは、バークスケールに沿って一様に分布し、各フィルタは、例えば当業者に周知のガンマトーンフィルタのような「蝸牛」周波数応答を有する。(同じく当業者に周知のように、バークスケールは、蝸牛の実際の帯域を表す近似的に対数的な周波数スケールを有する。)なお、ここでは、説明を簡単にするため、N(1200Hzより高い臨界帯域の数)は偶数であると仮定する。
【0028】
本発明の原理によれば、(奇チャネル符号器12−1および偶チャネル符号器12−2の両方における)それぞれの高周波数サブバンド信号に対して、エンベロープ生成器18−i(バンドパスフィルタ17−iによって生成されるサブバンド信号に対応する)は、信号のキャリア部分(すなわち、上記の数学的解析によるcosφi(t))を除去することにより、符号化のために、信号の「エンベロープ」部分ai(t)のみを残す。次に、これらの生成されたそれぞれの「エンベロープ」信号に対して、250Hzローパスフィルタ19−i(エンベロープ生成器18−iによって生成されたエンベロープ信号に対応する)は、エンベロープ信号を(同じく上記の数学的解析に従って)「平滑化」する。なお、エンベロープ生成器および250Hzローパスフィルタはいずれも従来のものであり、当業者に周知である。最後に、(奇チャネル符号器12−1内の)量子化器16−1および(偶チャネル符号器12−2内の)量子化器16−2は、同じく当業者に周知の従来の量子化技術(例えば、後述の例示的な実装についての説明を参照)を用いて、ベースバンド信号と、個々の臨界帯域信号の平滑化されたエンベロープとを符号化して、対応する符号化ビットストリームを生成する。
【0029】
図2に、本発明の技術に従って、高周波数において平滑化されたインタリーブ臨界帯域エンベロープを用いてマルチデスクリプティブステレオオーディオ符号化および復号を実行するシステムで用いられる、図1のオーディオ符号器に対応する復号器の実施例を示す。再び注意すべき点であるが、符号器から復号器へ送信された情報は、符号化されたベースバンド信号(すなわち、1200Hzより低い周波数を含む信号の部分)と、符号化された平滑化(すなわち、ローパスフィルタリングされた)臨界帯域エンベロープとからなる。さらに、再び注意すべき点であるが、図示した本発明の実施例によれば、2個のビットストリームが復号器によって受信される。一方は、(ベースバンド信号の符号化表現とともに)「偶数番号の」サブバンドの符号化表現を含み、他方は、(同じくベースバンド信号の符号化表現とともに)「奇数番号の」サブバンドの符号化表現を含む。
【0030】
具体的には、図2の実施例の復号器は、受信される符号化ビットストリームの対、すなわち、符号化された偶チャネルビットストリームおよび符号化された奇チャネルビットストリームをそれぞれ復号するための、奇チャネル復号器22−1および偶チャネル復号器22−2を有する。まず、(奇チャネル復号器22−1内の)逆量子化器24−1および(偶チャネル復号器22−2内の)逆量子化器24−2は、ビットストリームを復号して、個々の信号、すなわち、(奇チャネル復号器および偶チャネル復号器のそれぞれにおける)ベースバンド信号と、含まれている平滑化された臨界帯域エンベロープ信号のセットとを生成する。具体的には、奇チャネル復号器22−1の逆量子化器24−1は、ベースバンド信号と、奇数番号のそれぞれのサブバンドに対する平滑化された臨界帯域エンベロープ信号とを生成し、一方、偶チャネル復号器22−2の逆量子化器24−2は、ベースバンド信号も生成するが、それとともに、偶数番号のそれぞれのサブバンドに対する平滑化された臨界帯域エンベロープ信号を生成する。逆量子化器24−1および24−2は、それぞれ図1の奇チャネル符号器12−1および偶チャネル符号器12−2の量子化器16−1および16−2の機能に対応する(すなわち、それらの逆の機能を実行する)が、同じく全く従来のものであって、当業者に周知である。
【0031】
次に、それぞれの平滑化された臨界帯域エンベロープ信号に対して、奇チャネル復号器22−1および偶チャネル復号器22−2はそれぞれ、乗算器回路25−i(サブバンドiに対する再生された平滑化臨界帯域エンベロープ信号に対応し、これを処理する)を有する。乗算器回路25−iは、固定余弦キャリア、すなわち、cosωit(ただし、ωiは、臨界帯域iの中心周波数となるようにに選ぶ)を対応する平滑化臨界帯域エンベロープ信号に乗じる。このようにして、結果として得られる合成信号は、与えられた臨界帯域を中心とする固定余弦キャリア信号を、与えられた臨界帯域に対応する符号化され送信された平滑化臨界帯域エンベロープ信号を復号したもので変調した信号を含む(上記の数学的解析と、特に式(2)およびその説明とを参照)。
【0032】
次に、対応する乗算器回路25−iによって生成された、それぞれの再構成された臨界帯域信号に対して、対応する加算器回路26−iは、対応する低強度帯域制限ノイズ信号ni(t)を加算する。これは、例えば当業者に周知の白色ガウシアンノイズのような低レベルのノイズを、隣接する未占有の周波数帯域に「充填」することによって、再構成された信号における人工的ノイズを低減する。具体的には、占有帯域(これにノイズ信号が加算される)内の実際の信号の強度に対する、ノイズ信号の信号対ノイズ比は、約−10dBとなり、ノイズ信号の帯域幅は、3個の連続する周波数帯域(ノイズが加算される周波数帯域を中心とする)をカバーすることが可能である。このような低強度ノイズ信号は従来のものであり、当業者が容易に定義することが可能である。なお、このノイズ信号もまた、蝸牛型にすることも可能である。
【0033】
最後に、奇チャネル復号器22−1の加算器回路27−1は、復号されたベースバンド信号と、奇数番号のサブバンドに対するそれぞれの合成されたサブバンド信号(加算器回路26−1,26−3,...,26−(N−1)によって生成されたもの)との和をとり、上記のような、結果として得られる合成信号〜sodd(t)を生成する(例えば、式(6)を参照)。同様に、偶チャネル復号器22−2の加算器回路27−2は、復号されたベースバンド信号と、偶数番号のサブバンドに対するそれぞれの合成されたサブバンド信号(加算器回路26−2,26−4,...,26−Nによって生成されたもの)との和をとり、上記のような、結果として得られる合成信号〜seven(t)を生成する(例えば、式(7)を参照)。こうして、本発明の原理によれば、図示されているように、〜sodd(t)はスピーカ28−1に送られ、〜seven(t)はスピーカ28−2に送られる(あるいは、別の実施例では、この逆に送られる)ことにより、同じく前述のように、聴取者29の左耳には信号〜sodd(t)の音響的再現が供給され、右耳には信号〜seven(t)の音響的再現が供給される。
【0034】
[例示的な実現に関する追加的考察]
本発明の実施例によれば、本発明で用いるような技術に基づく符号化システムの全体の複雑さ(計算量)および遅延は、ここで説明するように制約される。なお、当業者に周知の追加技術を用いれば、場合により遅延の増大の犠牲を払って、さらに良好な符号化効率を得ることも可能である。
【0035】
例えば、図1のバンドパスフィルタバンクは、当業者に周知の128タップFIR(有限インパルス応答)フィルタで実現することにより、8msの遅延が導入される(すなわち、8000サンプル/秒)。さまざまな信号間の直接的な時間関係を維持するために、ベースバンド信号(帯域幅1200Hz)は1/3の比で(すなわち、2666サンプル/秒に)ダウンサンプリングされ、ローパスフィルタリングされたエンベロープ信号(帯域幅250Hz)は1/15の比で(すなわち、533サンプル/秒に)ダウンサンプリングされる(このようなダウンサンプリングは実施例では図示していないが、当業者に周知である)。ダウンサンプリングされた周波数での符号化遅延は、それぞれのダウンサンプリング比だけ遅延を増大させることになる。したがって、この実施例によれば、サンプルごとに作用する符号化方式を用いることが可能である。例えば、デルタ変調やADPCM(いずれも当業者に周知である)のような符号化技術を用いることが可能である。
【0036】
上記のダウンサンプリングされたエンベロープ信号は量子化ノイズに対して非常にロバストであることがわかっているため、2ビット/サンプル量子化器による簡単なADPCM法を用いることが可能である。これに対して、ベースバンド信号は、量子化誤りに対して、より敏感であることがわかっている。具体的には、ADPCMを用いると、3ビット/サンプルで、受容可能な品質レベルが得られることがわかっている。本発明の他の実施例によれば、符号器のベースバンド部分を用いてマルチデスクリプティブ符号化方式を実装することが可能であるが、単純化および効率化のために、ここで具体的に説明している本発明の実施例によれば、ベースバンド情報は全部、両方のストリームで用いられる。こうして、例として、この実施例の全ビットレートは次のようになる。
2チャネル×(ベースバンド:8kb/s+エンベロープ:5×1.066kb/s)=26.66kb/s
また、およその全体の符号化の複雑さ(計算量)は例えば次のようになる。
(ベースバンド:1.3MIPS+エンベロープ:10×0.3MIPS)=4.3MIPS
【0037】
制限サイズVQ(ベクトル量子化器。当業者に周知である)による後方適応予測(同じく当業者に周知である)は、大きいアルゴリズム遅延を導入せずに、サンプルあたりのビット数をさらに低減することができる。なお、予測器次数は、当業者には容易に判断されるように、スペクトルの正確な記述を生成するために特に高い必要はない。本発明のこの実施例による上記のようなダウンサンプリングレートの特定の選択により、追加の符号化遅延を導入せずに、5次元VQを使用することが可能となる。さらに、本発明の実施例によれば、ダウンサンプリングされた信号に対して16次の予測器を用いて、LD−CELP(低遅延符号励振線形予測。当業者に周知の符号化技術である)の修正版を使用して、顕著な可聴劣化なしで、8MIPSの計算量で、2ビット/サンプル(すなわち、2666サンプル/秒)を得ることが可能である。
【0038】
復号器では、信号は、アップサンプリングされ、当業者に周知の32タップFIR(有限インパルス応答)フィルタで補間されて、さらに2msの遅延が生じる。このアプローチの全体の計算量は、フィルタリングおよびアップサンプリングについては約14MIPSであり、量子化については約11MIPSである。全体のエンドツーエンド遅延は、フィルタリングによる10msと、符号化による2msである。全ビットレートは例えば次のようになる。
2チャネル×(ベースバンド:5.33kb/s+エンベロープ:5×1.066kb/s)=21.332kb/s
最後に、注意すべき点であるが、広帯域信号(8kHz)の場合、ビットレートの正味の増大は、各ビットストリームごとに3〜4kb/sにしかならない。
【0039】
[詳細な説明への付記]
以上、本発明について詳細に説明したが、当業者であれば、上記の記載に基づいて、さまざまな変形例を考えることが可能である。例えば、当業者には認識されるように、図面のブロック図は、本発明の原理を実現する例示的な回路の概念図を表す。同様に、認識されるように、流れ図、状態遷移図、擬似コードなどは、実質的に、コンピュータ可読媒体内に表現し、コンピュータあるいはプロセッサによって実行されるようにすることが(そのようなコンピュータあるいはプロセッサが明示的に図示されているかどうかにかかわらず)可能である。
【0040】
図示されたさまざまな要素の機能は、「プロセッサ」あるいは「モジュール」と名づけられた機能ブロックを含めて、専用ハードウェアや、適当なソフトウェアを実行可能なハードウェアを用いて提供可能である。プロセッサによって提供されるとき、これらの機能は、単一の専用プロセッサによって、単一の共有プロセッサによって、あるいは、複数のプロセッサ(その一部は共用可能)によって提供可能である。さらに、「プロセッサ」あるいは「コントローラ」という用語の明示的な使用は、ソフトウェアを実行可能なハードウェアを限定的に指すものと解釈すべきではなく、暗黙的に、限定的でなく、ディジタル信号プロセッサ(DSP)ハードウェア、ソフトウェアを記憶するための読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、および不揮発性記憶装置を含む。他のハードウェアも、通常のものであるかカスタム化したものかにかかわらず、含まれる。同様に、図中にスイッチがあれば、それは概念的なものにすぎない。その機能は、プログラムロジックの動作によって、専用ロジックによって、プログラム制御と専用ロジックの相互作用によって、あるいは、手動でも、実行可能であり、具体的には文脈から理解されるように実装者が個々の技術を選択することが可能である。
【0041】
特許請求の範囲において、特定の機能を実行する手段として表現される要素は、例えば、(a)その機能を実行する回路要素の組合せ、あるいは、(b)ファームウェア、マイクロコードなどを含む任意の形のソフトウェアを、その機能を実行するようにそのソフトウェアを動作させるための適当な回路と組み合わせたもの、を含めて、その機能を実行する任意の態様を含む。
【0042】
【発明の効果】
以上述べたごとく、本発明によれば、人間聴覚系のいくつかの性質を利用して、音声および音楽の両方の信号に対して良好に動作する単一の非ハイブリッド型オーディオ符号化方式が実現され、さらに、自然なマルチデスクリプティブ分解が得られる。
【図面の簡単な説明】
【図1】本発明の技術に従って、高周波数において平滑化されたインタリーブ臨界帯域エンベロープを用いてマルチデスクリプティブステレオオーディオ符号化および復号を実行するシステムで用いられる、オーディオ符号器の実施例の図である。
【図2】本発明の技術に従って、高周波数において平滑化されたインタリーブ臨界帯域エンベロープを用いてマルチデスクリプティブステレオオーディオ符号化および復号を実行するシステムで用いられる、図1のオーディオ符号器に対応する復号器の実施例の図である。
【符号の説明】
12−1 奇チャネル符号器
12−2 偶チャネル符号器
14 1200Hzローパスフィルタ
16 量子化器
17 バンドパスフィルタ
18 エンベロープ生成器
19 250Hzローパスフィルタ
22−1 奇チャネル復号器
22−2 偶チャネル復号器
24 逆量子化器
25 乗算器回路
26,27 加算器回路
28 スピーカ
29 聴取者
Claims (4)
- オーディオ信号を符号化する方法であって、
(a)オーディオ信号を複数の周波数帯域信号に分割するステップであって、1又はそれ以上の前記周波数帯域信号は、与えられたしきい値周波数より低い周波数成分を含む低周波数帯域信号であり、そして複数の前記周波数帯域信号は、該与えられたしきい値周波数より高い周波数成分を含む高周波数帯域信号である、ステップと、
(b)前記低周波数帯域信号を表す波形に含まれる位相情報の少なくとも一部を保存するように前記低周波数帯域信号の少なくとも1つを符号化するステップと、
(c)前記高周波数帯域信号の各々に対して、対応する臨界帯域エンベロープ信号を生成するステップであって、対応する臨界帯域エンベロープ信号は、対応する前記高周波数帯域信号を表す波形のエンベロープの少なくとも一部を表すが前記対応する高周波数帯域信号を表す波形に関連する位相情報を含まない、ステップと、
(d)前記対応する臨界帯域エンベロープ信号を符号化することによって前記高周波数帯域信号を符号化するステップと、
(e)第1符号化ビットストリームおよび第2符号化ビットストリームを生成するステップであって、(i)前記第1符号化ビットストリームおよび第2符号化ビットストリームの各々は、少なくとも1つの符号化された低周波数帯域信号を含み、前記第1符号化ビットストリームおよび第2符号化ビットストリームは、それぞれ、前記符号化された高周波数帯域信号の第1の真部分集合および前記符号化された高周波数帯域信号の第2の真部分集合を含み、(ii)前記第1および第2の真部分集合は、前記符号化された高周波数帯域信号の1つおきの偶と奇の帯域をインターリーブするように前記符号化された高周波数帯域信号の系列から1つおきの帯域をインターリーブすることにより定義され、(iii)前記符号化された高周波数帯域信号の各々は、前記第1または第2の真部分集合の要素である、ステップとを具備することを特徴とする方法。 - (a)オーディオ信号を複数の周波数帯域信号とに分割するステップであって、1又はそれ以上の前記周波数帯域信号が、与えられたしきい値周波数より低い周波数成分を含む低周波数帯域信号であり、そして複数の前記周波数帯域信号が、該与えられたしきい値周波数より高い周波数成分を含む高周波数帯域信号である、前記分割するステップと、(b)前記低周波数帯域信号を表す波形に含まれる位相情報の少なくとも一部を保存するように前記低周波数帯域信号の少なくとも1つを符号化するステップと、(c)前記高周波数帯域信号の各々に対して、対応する臨界帯域エンベロープ信号を生成するステップであって、対応する臨界帯域エンベロープ信号は、対応する前記高周波数帯域信号を表す波形のエンベロープの少なくとも一部を表すが前記対応する高周波数帯域信号を表す波形に関連する位相情報を含まない、前記生成するステップと、(d)前記対応する臨界帯域エンベロープ信号を符号化することによって前記高周波数帯域信号を符号化するステップと、(e)第1符号化ビットストリームおよび第2符号化ビットストリームを生成するステップであって、(I)前記第1符号化ビットストリームおよび第2符号化ビットストリームの各々は、少なくとも1つの符号化された低周波数帯域信号を含み、そして、前記第1符号化ビットストリームおよび第2符号化ビットストリームは、それぞれ、前記符号化された高周波数帯域信号の第1の真部分集合および前記符号化された高周波数帯域信号の第2の真部分集合を含み、(II)前記第1および第2の真部分集合は、前記符号化された高周波数帯域信号の1つおきの偶と奇の帯域をインターリーブするように前記符号化された高周波数帯域信号の系列から1つおきの帯域をインターリーブすることにより定義され、(III)前記符号化された高周波数帯域信号の各々は、前記第1または第2の真部分集合いずれかの要素である、ステップとを実行することによって符号化されたオーディオ信号を復号する方法であって、
(i)前記符号化された低周波数帯域信号の各々を復号して、対応する前記低周波数帯域信号を表す再構成波形を生成するステップと、
(ii)前記符号化された高周波数帯域信号の各々を復号して、対応する前記高周波数帯域信号に対応する再構成臨界帯域エンベロープ信号を生成するステップと、
(iii)前記再構成臨界帯域エンベロープ信号の各々を、対応するキャリア波形と結合して、対応する高周波数帯域信号を表す再構成波形を生成するステップと、
(iv)前記対応する低周波数帯域信号を表す再構成波形の各々と前記対応する高周波数帯域信号を表す再構成波形の各々とを結合して、符号化されたオーディオ信号を表す再構成波形を生成するステップとを含み、
前記高周波数帯域信号を表す再構成波形を生成するステップは、それぞれのキャリア波形を、対応する再構成臨界帯域エンベロープ信号で変調することを有し、それぞれのキャリア波形は、対応する固定周波数の余弦波系を有することを特徴とする、オーディオ信号を復号する方法。 - 前記オーディオ信号の符号化は、符号化された高周波数帯域信号の第1の真部分集合からなる第1符号化ビットストリームと、符号化された高周波数帯域信号の第2の真部分集合からなる第2符号化ビットストリームとを生成するステップを実行することをさらに含み、
前記第1と第2の真部分集合は、互いに素であり、そして、前記第1と第2の真部分集合は、合わせて前記高周波数帯域信号のすべてを含み、
前記復号する方法は、前記第1符号化ビットストリームと前記第2符号化ビットストリームのそれぞれに対して独立に実行されることにより、第1再構成波形および第2再構成波形を生成し、それぞれの再構成波形は、符号化されたオーディオ信号を表すことを特徴とする請求項2記載の方法。 - 高周波数帯域信号を表すそれぞれの再構成波形を、対応するノイズ信号と結合するステップをさらに有することを特徴とする請求項2記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US58021500A | 2000-05-26 | 2000-05-26 | |
US09/580215 | 2000-05-26 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002032100A JP2002032100A (ja) | 2002-01-31 |
JP2002032100A5 JP2002032100A5 (ja) | 2008-07-03 |
JP4927264B2 true JP4927264B2 (ja) | 2012-05-09 |
Family
ID=24320180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001150411A Expired - Fee Related JP4927264B2 (ja) | 2000-05-26 | 2001-05-21 | オーディオ信号を符号化する方法 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP1158494B1 (ja) |
JP (1) | JP4927264B2 (ja) |
DE (1) | DE60000185T2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014185569A1 (ko) * | 2013-05-15 | 2014-11-20 | 삼성전자 주식회사 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6657777B1 (en) * | 2001-12-05 | 2003-12-02 | Cisco Technology, Inc | Interleaved lumped raman amplifier structure based on highly nonlinear fibers for densely spaced WDM channels |
JP2005202262A (ja) * | 2004-01-19 | 2005-07-28 | Matsushita Electric Ind Co Ltd | 音声信号符号化方法、音声信号復号化方法、送信機、受信機、及びワイヤレスマイクシステム |
CN101138274B (zh) * | 2005-04-15 | 2011-07-06 | 杜比国际公司 | 用于处理去相干信号或组合信号的设备和方法 |
US8027242B2 (en) * | 2005-10-21 | 2011-09-27 | Qualcomm Incorporated | Signal coding and decoding based on spectral dynamics |
US8392176B2 (en) | 2006-04-10 | 2013-03-05 | Qualcomm Incorporated | Processing of excitation in audio coding and decoding |
US9159333B2 (en) | 2006-06-21 | 2015-10-13 | Samsung Electronics Co., Ltd. | Method and apparatus for adaptively encoding and decoding high frequency band |
US8010352B2 (en) * | 2006-06-21 | 2011-08-30 | Samsung Electronics Co., Ltd. | Method and apparatus for adaptively encoding and decoding high frequency band |
US20100292986A1 (en) * | 2007-03-16 | 2010-11-18 | Nokia Corporation | encoder |
US8428957B2 (en) | 2007-08-24 | 2013-04-23 | Qualcomm Incorporated | Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands |
WO2009047858A1 (ja) * | 2007-10-12 | 2009-04-16 | Fujitsu Limited | エコー抑圧システム、エコー抑圧方法、エコー抑圧プログラム、エコー抑圧装置、音出力装置、オーディオシステム、ナビゲーションシステム及び移動体 |
JP5004094B2 (ja) * | 2008-03-04 | 2012-08-22 | 国立大学法人北陸先端科学技術大学院大学 | 電子透かし埋込装置及び電子透かし検出装置、並びに電子透かし埋込方法及び電子透かし検出方法 |
CN101777960B (zh) * | 2008-11-17 | 2013-08-14 | 华为终端有限公司 | 音频编码方法、音频解码方法、相关装置及通信系统 |
CN101770775B (zh) | 2008-12-31 | 2011-06-22 | 华为技术有限公司 | 信号处理方法及装置 |
UA99878C2 (ru) * | 2009-01-16 | 2012-10-10 | Долби Интернешнл Аб | Гармоническое преобразование, усовершенствованное перекрестным произведением |
CN101989425B (zh) * | 2009-07-30 | 2012-05-23 | 华为终端有限公司 | 多描述音频编解码的方法、装置及系统 |
EP3742440B1 (en) * | 2013-04-05 | 2024-07-31 | Dolby International AB | Audio decoder for interleaved waveform coding |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3174560D1 (en) * | 1981-07-28 | 1986-06-12 | Ibm | Transmission method for voice and digital data and arrangement for carrying out said method |
JP2581696B2 (ja) * | 1987-07-23 | 1997-02-12 | 沖電気工業株式会社 | 音声分析合成器 |
JPH0298232A (ja) * | 1988-10-05 | 1990-04-10 | Fujitsu Ltd | 時間切替型帯域分割音声符号化装置 |
WO1999016050A1 (en) * | 1997-09-23 | 1999-04-01 | Voxware, Inc. | Scalable and embedded codec for speech and audio signals |
-
2000
- 2000-12-08 EP EP20000310934 patent/EP1158494B1/en not_active Expired - Lifetime
- 2000-12-08 DE DE2000600185 patent/DE60000185T2/de not_active Expired - Lifetime
-
2001
- 2001-05-21 JP JP2001150411A patent/JP4927264B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014185569A1 (ko) * | 2013-05-15 | 2014-11-20 | 삼성전자 주식회사 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
US9881624B2 (en) | 2013-05-15 | 2018-01-30 | Samsung Electronics Co., Ltd. | Method and device for encoding and decoding audio signal |
Also Published As
Publication number | Publication date |
---|---|
EP1158494B1 (en) | 2002-05-29 |
JP2002032100A (ja) | 2002-01-31 |
EP1158494A1 (en) | 2001-11-28 |
DE60000185D1 (de) | 2002-07-04 |
DE60000185T2 (de) | 2002-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2381571C2 (ru) | Синтезирование монофонического звукового сигнала на основе кодированного многоканального звукового сигнала | |
JP4927264B2 (ja) | オーディオ信号を符号化する方法 | |
EP1761915B1 (en) | Method and apparatus to encode and decode multi-channel audio signals | |
JP3970342B2 (ja) | 音響信号の知覚符号化 | |
JP4174072B2 (ja) | 心理音響学的アダプティブ・ビット割り当てを用いたマルチ・チャネル予測サブバンド・コーダ | |
KR100928311B1 (ko) | 오디오 피스 또는 오디오 데이터스트림의 인코딩된스테레오 신호를 생성하는 장치 및 방법 | |
RU2407226C2 (ru) | Генерация пространственных сигналов понижающего микширования из параметрических представлений мультиканальных сигналов | |
JP4223679B2 (ja) | 低ビットレート多重オーデイオチャンネル符号・復号方法及び装置 | |
EP1984915B1 (en) | Audio signal decoding | |
KR970007663B1 (ko) | 신호 양자화 장치 및 방법 | |
TWI508578B (zh) | 音訊編碼及解碼 | |
US8817992B2 (en) | Multichannel audio coder and decoder | |
KR20100125382A (ko) | 복수의 입력 데이터 스트림을 믹싱하기 위한 장치 | |
JPH0675590A (ja) | 知覚モデルに基づく音声信号符号化方法とその装置 | |
JPH0629859A (ja) | デジタル入力信号符号化方法 | |
KR20120095920A (ko) | 최적의 저-스루풋 파라메트릭 코딩/디코딩 | |
JP4323520B2 (ja) | ポリフォニック信号の制約付きフィルタ符号化 | |
Ghitza et al. | Dichotic presentation of interleaving critical-band envelopes: An application to multi-descriptive coding | |
MX2008009565A (en) | Apparatus and method for encoding/decoding signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080520 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080520 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110502 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110802 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110829 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120116 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120209 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150217 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4927264 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |