JP4485123B2 - 複数チャネル信号の符号化及び復号化 - Google Patents
複数チャネル信号の符号化及び復号化 Download PDFInfo
- Publication number
- JP4485123B2 JP4485123B2 JP2002527492A JP2002527492A JP4485123B2 JP 4485123 B2 JP4485123 B2 JP 4485123B2 JP 2002527492 A JP2002527492 A JP 2002527492A JP 2002527492 A JP2002527492 A JP 2002527492A JP 4485123 B2 JP4485123 B2 JP 4485123B2
- Authority
- JP
- Japan
- Prior art keywords
- channel
- inter
- correlation
- fixed codebook
- shared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 26
- 230000003044 adaptive effect Effects 0.000 claims description 24
- 230000015572 biosynthetic process Effects 0.000 claims description 24
- 238000013139 quantization Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 7
- 230000005284 excitation Effects 0.000 description 19
- 230000000875 corresponding effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000001934 delay Effects 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000007774 longterm Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Error Detection And Correction (AREA)
Description
【発明の属する技術分野】
本発明は、ステレオ音響信号等の複数チャネル信号の符号化と復号化に関する。
【0002】
【従来の技術及び発明が解決しようとする課題】
従来の音声符号化方法は、単一チャネルの音声信号を基本としているのが一般的である。常設の電話機と移動電話機との間の接続において利用される音声符号化はその一例である。音声符号化は、周波数が制限された空中電波インタフェース上で帯域幅利用を縮減するために無線リンク上で利用される。よく知られた音声符号化の例としては、PCM(Pulse Code Modulation)、ADPCM(Adaptive Differential Pulse Code Modulation)、サブ−バンド符号化(sub-band coding)、変換符号化(transform coding)、LPC(Linear Predictive Coding)の音声作動符号化、及びハイブリッド符号化、例えばCELP(Code-Excited Linear Predictive)符号化のようなものなどがある(参考文献[1]−[2])。
【0003】
例えばステレオのスピーカと2つのマイクロホン(ステレオ・マイクロホン)を有するコンピュータ・ワークステーションのように、音響/音声通信で一入力信号より多くの入力信号を使う環境においては、ステレオ信号を伝送するために2つの音響/音声チャネルが必要とされる。複数チャネルを使う環境の他の例としては、2チャネル、3チャネル若しくは4チャネルの入力/出力を備えた会議室が挙げられることになろう。この種のアプリケーションは、インターネット上や第3世代の移動電話システムにおいて利用されることが予想されている。
【0004】
複数チャネルの線形予測合成分析(LPES)信号符号化/復号化のための一般的な原則が参考文献[3]に記載されている。しかし、これらに記載された原則は、チャネル間相関が強い場合またはチャネル間相関が可変的である場合には、常に最適であるとは限らない。例えば、一定距離離れているマイクロフォンまたは近距離に位置しあう方向付けされたマイクロフォンとともに、複数チャネルLPAS符号器が使用される場合がある。複数音源が共通でチャネル間相関が軽減されるような設定もあれば、一音が支配的な設定もある。各マイクロフォンのための音響設定が同一の場合もあるし、または、反射面に近いマイクロフォンがある一方でそうではないマイクロフォンもある場合もある。チャネル間およびチャネル内の信号相関の種類と程度は、これらの設定において、様々に変化しがちである。参考文献[3]に記載の符号器は、これらの異なる状況への対応に必ずしも十分に適しているわけではない。
【0005】
本発明は、複数チャネル線形予測合成分析音声符号器/復号器を、変化するチャネル間相関に容易に適応させることを目的とする。
【0006】
【課題を解決するための手段】
本発明の中心的な目的は、変化するソース信号相関をよりよく活用する効率的な複数チャネルLPAS音声符号化構造を見出すことである。Mチャネル音声信号について、任意の平均ビットレートで同一またはより良い音質を維持しつつ、平均して、単一チャネル音声符号器のビットストリームよりも明らかにM倍少ないビットストリームを作成することができる符号器を作成することを目標としている。
【0007】
他の課題は、合理的実施と、該構造の中で符号器を実現するための計算の複雑性である。
【0008】
上記の目的は、付属の請求項により解決される。
【0009】
簡潔にいえば、本発明は、符号化ビットが複数チャネルLPAS符号器の異なる部分の間で再割り当てされるように、複数モードの間を変換可能な符号器に関する。これにより、ソース信号制御複数モード複数チャネル分析合成音声符号化が可能になり、該音声符号化は、ビットレートを平均して下降させ、高い音質を維持するために使用することができる。
【0010】
以下の添付図面と共に述べられる説明を参照すれば、本発明を最もよく理解することができる。また、これと同時に、本発明のさらなる目的と有効性についても、以下の添付図面と共に述べられる説明を参照することによって最もよく理解することができる。
【0011】
以下の説明において、同等または類似の要素には同一の参照番号を付した。
【0012】
【発明の実施の形態】
従来の単一チャネルの線形予測合成分析(LPAS)音声符号器と一般的な複数チャネル線形予測合成分析音声符号器(参考文献[3])の説明を通じて本発明を説明していく。
【0013】
図1は、従来の単一チャネルLPAS音声符号器のブロック図である。この符号器は、2つの部分、すなわち、合成部と分析部とを具備している(これに対応する復号器は、合成部のみを有する)。
【0014】
合成部は、LPC合成フィルタ12を具備しており、そのLPC合成フィルタ12は、励振信号i(n)を受けて合成音声信号s^(n)を出力する(ここで、「s^(n)」は、上に^を付したsと(n)とを併記した図中の符号を指す)。励振信号i(n)は、2つの信号u(n)とv(n)を加算器22で加算することによって形成される。信号u(n)は、固定コードブック(fixed codebook)16からの信号f(n)をゲイン要素20におけるゲインgFでスケーリングすることによって形成される。信号v(n)は、適応コードブック(adaptive codebook)14からの励振信号i(n)の(遅延“lag”で)遅延されたものをゲイン要素18におけるゲインgAでスケーリングすることによって形成される。適応コードブックは、遅延要素24を含むフィードバック・ループによって形成され、その遅延要素24が励振信号i(n)を一サブフレームの長さNだけ遅延させるものとなっている。これにより、適応コードブックは、コードブック内にシフトされた過去の励振信号i(n)を有することになる(最も古い励振はコードブック外へシフトされて破棄される)。LPC合成フィルタのパラメータは、一般に20ms〜40msのフレーム毎にアップデートされるのに対し、適応コードブックは、5ms〜10msのサブフレーム毎にアップデートされる。
【0015】
LPAS符号器の分析部は、入来する音声信号s(n)のLPC分析を実行し、かつ、励振分析も実行する。
【0016】
LPC分析はLPC分析フィルタ10によって実行される。このフィルタは、音声信号s(n)を受け、その信号のパラメトリック・モデル(parametric model)をフレームベースで構築する。モデルのパラメータは、実際の音声フレームのベクトルとモデルによって生成される対応信号のベクトルとの差で形成される残差ベクトルのエネルギーを最小とするように選択される。モデルの各パラメータは、分析フィルタ10のフィルタ係数によって表される。それらのフィルタ係数は、フィルタの伝達関数A(z)を定める。合成フィルタ12の伝達関数は少なくとも近似的には1/A(z)に等しいため、それらのフィルタ係数はさらに、破線の制御線で示したように、合成フィルタ12を制御するものとなっている。
【0017】
励振分析は、音声信号ベクトル{s(n)}と最も適した合成信号ベクトル{s^(n)}を生じさせる、固定コードブックベクトル(コードブックのインデックス)、ゲインgF、適応コードブックベクトル(遅延)及びゲインgAの、最良の組合せを決定するために実行される(ここで、{}は、ベクトルないしフレームを形成するサンプルを収集したものを表す)。これは、それらのパラメータのすべての可能な組合せをテストする全数探索においてなされる(いくつかのパラメータを他のパラメータとは独立して定め、かつ、残ったパラメータの探索中それらを固定しておく準最適(sub-optimal)探索方式を採ることも可能である)。合成ベクトル{s^(n)}が対応する音声ベクトル{s(n)}にどのくらい近いかをテストするため、(加算器26で形成された)差ベクトル{e(n)}のエネルギーをエネルギー計算器30で計算することとしてもよい。しかし、重み付けされた誤差信号のベクトル{ew(n)}においては、大きい誤差を大きい振幅の周波数帯域(large amplitude frequency bands)によってマスクするような形態で誤差が再配分(re-distribute)されており、この重み付けされた誤差信号のベクトル{ew(n)}のエネルギーを考慮する方がより効率的である。これは、重み付けフィルタ28で行われる。
【0018】
次に、図1の単一チャネルLPAS符号器を参考文献[3]の記載に基づいて複数チャネルLPAS符号器とする変形について、図2〜図3を参照して説明する。音声信号として2つのチャネルの(ステレオの)音声信号を想定して説明を行うが、2つより多くのチャネルについて同様の原理を利用することとしてもよい。
【0019】
図2は、参考文献[3]に記載の複数チャネルLPAS音声符号器の分析部の一実施形態を示したブロック図である。図2においては、入力信号が信号成分s1(n)、s2(n)で示されているように複数チャネルの信号となっている。図1におけるLPC分析フィルタ10は、マトリクス値伝達関数行列A(z)を有するLPC分析フィルタ・ブロック10Mで置き換えられている。同様に、加算器26、重み付けフィルタ28、エネルギー計算器30は、それぞれ対応する複数チャネル用のブロック26M、28M、30Mによって置き換えられている。
【0020】
図3は、参考文献[3]に記載の複数チャネルLPAS音声符号器の合成部の一実施形態を示したブロック図である。複数チャネルの復号器もまた、このような合成部によって構成することとしてもよい。ここでは、図1におけるLPC合成フィルタ12が、マトリクス値伝達関数行列A−1(z)を有するLPC合成フィルタ・ブロック12Mで置き換えられている。この伝達関数行列A−1(z)は、(その表記文字記号が示すように)少なくとも近似的には行列A(z)の逆行列に等しいものとなっている。同様に、加算器22、固定コードブック16、ゲイン要素20、遅延要素24、適応コードブック14、ゲイン要素18は、それぞれ対応する複数チャネル用のブロック22M、16M、24M、14M、18Mによって置き換えられている。
【0021】
上記の従来の複数チャネル符号器の問題点は、マイクロフォンの環境が変化することに起因する可変的なチャネル間相関に対してあまり柔軟性を有しない点である。例えば、複数のマイクロフォンが一人の話者から音声を拾う場合がある。そのような場合、異なるマイクロフォンからの信号は、原則的に、遅延しおよびスケーリングされた形の同一信号によって形成されうる。つまりチャネルは強固に相関付けられている。他の状況では、個別のマイクロフォンに異なる話者が同時に存在する場合がある。この場合、チャネル間の相関はほとんど存在しない。各マイクロフォンのための音響設定が同一の場合もあるし、または、反射面に近いマイクロフォンがある一方でそうではないマイクロフォンもある場合もある。チャネル間およびチャネル内の信号相関の種類と程度は、これらの設定において、様々に変化しがちである。このようなわけで、ビットがチャネル間相関の種類と程度に最も適合するように複数チャネルLPAS符号器の異なる部分の間で再割当されうるような、複数のモード間で切り替え可能な符号器が必要とされている。固定の質閾値と時間によって変化する信号特性(単数話者、複数話者、バックグラウンドノイズの有無等)のため、可変総ビットレートを有する複数チャネルCELP符号器が必要とされている。また、ビットを再割り当てするだけで符号化と感知されるエンドユーザの品質が改善される場合は、固定総ビットレートを使用することができる。
【0022】
本発明に従って組み込まれた複数チャネルLPAS符号器のついての以下の記載により、様々なブロックにおいて符号化の柔軟性がどのように改善されたかが明らかにされている。しかし、全てのブロックを記載された方法で構成しなくてはならないわけではない。符号化の柔軟性と複雑性とのバランスは個別の符号器の態様に応じて定められなくてはならない。
【0023】
図4は、本発明の複数チャネルLPAS音声符号器の合成部の実施態様の一例を示したブロック図である。
【0024】
本発明の本質的特徴は、マルチパート固定コードブックの構造である。本発明によると、該構造は、各チャネルのための個別の固定コードブックFC1、FC2と共有固定コードブックFCSをともに含んでいる。共有固定コードブックFCSは全チャネルに共通であるが(これは、同一のコードブックインデックスが全チャネルに使用されることを意味する)、該チャネルは、図4に図示されたように個別の遅延D1、D2と関連している。さらに、個別の固定コードブックFC1、FC2は個別のゲインgF1、gF2に関連しており、個別の遅延D1、D2(整数または分数であってもよい)は個別のゲインgFs1、gFs2に関連している。個別の固定コードブックFS1、FS2からの励振は、共有固定コードブックFCSからのこれに対応する励振(共通のコードブックベクトルであるが、各チャネルの個別の遅延とゲイン)に加算器AF1、AF2において付加される。典型的には、固定コードブックは、代数的なコードブックを具備し、該コードブックにおいて励振ベクトルは、ある規則に従ってそれぞれのベクトルに配分されたユニットパルスにより形成される(これは当業者にとって周知であるから、本書ではさらに詳述しない)。
【0025】
マルチパート固定コードブックは非常に柔軟性が高い。例えば、個別の固定コードブックでビットをより多く用いる符号器がある一方で、共有固定コードブックでビットをより多く用いる符号器もある。さらに、符号器は、チャネル間相関に応じて、個別のコードブックと共有コードブックとの間のビットの配分を動的に変更できる。
各チャネルが同一信号をスケーリングし変換したチャネルからなる理想的な場合(エコーがない空間)、先頭チャネルの共有コードブックが必要とされるのみであり、遅延値Dは、音伝搬時間に直接対応している。チャネル間の相互相関が非常に低い、上記と反対の場合では、後続チャネルのための個別の固定コードブックが必要とされる。各チャネルが同一信号をスケーリングし変換したチャネルからなる理想的な場合(エコーがない空間)、共有コードブックが必要とされるのみであり、遅延値は、音伝搬時間に直接対応している。チャネル間の相互相関が非常に低い、上記と反対の場合では、個別の固定コードブックのみが必要とされる。
ある信号については、他のチャネルよりも1個の独立チャネルにより多くのビットを割り当てることが適している場合がありうる(ビットの非対称分配)。
【0026】
図4は、2チャネル固定コードブック構造を図示しているが、各コードブックの数と遅延及びチャネル間のゲインの数を増加させることによって、この概念はより多くのチャネルに対して容易に一般化できることが理解されなければならない。
【0027】
先頭チャネルと後続チャネルの固定コードブックは、典型的には連続して順番に調べられる。好適な順序としては、第一に先頭チャネル固定コードブック励振ベクトル、遅延及びゲインを決定し、その後、後続チャネルの個別の固定コードブックベクトルとゲインを決定する。
【0028】
マルチパート固定コードブックの探索方法を図5と図6を参照しながら説明する。
【0029】
図5は、本発明のマルチパート固定コードブックの実施態様のフローチャートである。ステップS1は(最大のフレームエネルギーを有するチャネル)第一ないしは先頭チャネル、典型的には最も強いチャネルを判断し符号化する。ステップS2は、所定の間隔(例えば完全な一フレームの一部分)の各第二ないしは後続チャネルと第一チャネルの間の相互相関を判断する。ステップS3は、各第二チャネルについての遅延候補を記憶する。これらの遅延候補は、多数の最高の相互相関のピークの位置と、各第二チャネルについての各ピークのまわりの最も近傍の位置によって定義される。例えば3つの最高ピークを選択し、各ピークの両側の最も近い位置を付加することによって、総計9つの遅延候補を与えることになる。高分解(分数)遅延を使用した場合は、各ピークのまわりの候補数を、例えば5ないし7に増加できる。より高い分解は入力信号のアップサンプリングによって得ることができる。最も単純な実施態様での第一のチャネルの遅延は、ゼロと見なすことができる。しかし、コードブックのパルスは典型的には任意の位置を有することができないので、ある符号化ゲインは第一チャネルにも遅延を割り当てることによって得られうる。このことは高分解遅延が使用される場合に特に該当する。ステップS4では、各記憶された遅延候補組み合わせのための一時的な共有固定コードブックベクトルが形成される。ステップS5は、最高の仮コードブックベクトルに対応した遅延組み合わせを選択する。ステップS6は、最適なチャネル間ゲインを判断する。最後に、ステップS7は、チャネル特定(非共有)励振とゲインを判断する。
【0030】
該アルゴリズムの変形例では、全てのまたは最高の仮コードブックベクトル、対応遅延及びチャネル間ゲインが保持されている。それぞれの保持された組み合わせについて、ステップS7に従ってチャネル特定探索が実行される。最後に、共有コードブック励振と個別コードブック励振の組み合わせが選択される。
【0031】
該方法の複雑性を軽減するために、仮コードブックの励振ベクトルをわずか数パルスまで制限することができる。例えば、GSMシステムでは、拡張されたフルレートチャネルの完全固定コードブックは、10パルスを含む。この場合、3ないし5仮コードブックパルスが合理的である。概して、全パルス数の25ないし50%が合理的数字でありうる。最高の遅延組み合わせが選択されると、完全なコードブックはこの組み合わせだけのために探索される(典型的にはすでに位置決めされたパルスは変更されず、完全コードブックの残りのパルスだけが位置決めされなくてはならない)。
【0032】
図6は、本発明に係るマルチパート固定コードブック探索方法の他の実施態様を示すフローチャートである。該実施態様では、ステップS1、S6、S7は、図5の実施態様の場合と同じである。ステップS10は、許可された遅延組み合わせのそれぞれのために最適な位置に新規な励振ベクトルパルスを位置付ける(該ステップが実行される最初の時には全ての遅延組み合わせが許可される)。ステップS11では、全パルスが使用されたか否かがテストされる。そうでない場合は、ステップS12は、許可遅延組み合わせを最高の残りの組み合わせに制限する。その後、さらなるパルスが残りの許可組み合わせに付加される。最後に、全てのパルスが使用されると、ステップS13は最高の残りの遅延組み合わせと、それに対応する共有固定コードブックベクトルを選択する。
【0033】
ステップS12に関しては可能性がいくつかある。一つには、それぞれの反復時に、一定の割合(例えば25%)だけ、最高の遅延組み合わせを維持することが可能である。しかし、全パルスが使用される前に1組しか残っていないということを回避するために、反復が終わるごとに、一定数の組み合わせを確実に残すことができる。また、残されたパルスに1を加えた数と少なくとも同数の組み合わせを常に確実に残すことができる。このように、反復ごとに選択候補となる組み合わせが複数常に存在することとなる。
【0034】
固定コードブックにクロスチャネルブランチが1つだけの場合、第一のチャネルと第二のチャネルはフレームごとに定められなければならない。ここでは、第二のチャネルのための固定コードブック部分以上よりも多くのパルスを使用するために第一のチャネルのための固定コードブック部分を割り当てる可能性がある。
【0035】
固定コードブックゲインについては、各チャネルは、共有固定コードブックに対して1ゲインを必要とし、個別コードブックについては1ゲインを必要とする。これらのゲインは、典型的にはチャネル間で著しい相関関係を有している。これらはまた適応コードブックのゲインと相関付けられる。従ってこれらのゲインのチャネル間予測が可能であり、これらを符号化するためにベクトル量子化を使用してもよい。
【0036】
図4に戻り、適応コードブックは、各チャネルにつき1つの適応コードブックAC1、AC2を含む。マルチパート適応コードブックは複数チャネル符号器において多数の方法で構成されうる。
【0037】
一つには、全チャネルに共通ピッチ遅延を共有させることが可能である。これは、チャネル間相関が強い時に実行可能である。ピッチ遅延が共有されている時でさえ、チャネルは別個のピッチゲインgA11,gA22を依然として有しうる。共有ピッチ遅延は、閉ループの方法で全チャネルにおいて同時に探索される。
【0038】
さらには、それぞれのチャネルに個別のピッチ遅延P11,P12を持たせることも可能である。これは、チャネル間相関が弱い時に実行可能である(チャネルは独立している)。ピッチ遅延は、異なるように又は絶対的に符号化されうる。
【0039】
さらには、励振履歴をチャネル横断の様態で使用することができる。例えば、チャネル間遅延P12においてチャネル1の励振履歴からチャネル2を予測することができる。これは、チャネル間相関が強い時に実行可能である。
【0040】
固定コードブックに関する場合のように、記載された適応コードブックの構造は非常に柔軟で、マルチモード操作に適している。共有ピッチ遅延または個別のピッチ遅延を使用するか否かの選択は残差信号エネルギーに基づいてもよい。第一のステップでは、最適な共有ピッチ遅延の残差エネルギーが決定される。第二のステップでは、最適な個別のピッチ遅延の残差エネルギーが決定される。共有ピッチ遅延の場合の残差エネルギーが個別のピッチ遅延の場合の残差エネルギーよりも所定量超過している場合、個別のピッチ遅延が使用される。そうでない場合は、共有ピッチ遅延が使用される。希望であれば、決定を円滑にするためにエネルギー差の平均移動を用いてもよい。
【0041】
この方策は、共有ピッチ遅延か個別のピッチ遅延かを決定するための「閉ループ」方法と考えることができる。あるいは、チャネル間相関等に基づく「開ループ」方法も可能である。この場合、チャネル間相関が所定の閾値を越える場合、共有ピッチ遅延が使用される。そうでない場合は、個別のピッチ遅延が使用される。
【0042】
チャネル間のピッチ遅延を使用するか否かを決定するために同様の方法を使用することができる。
【0043】
さらに、異なるチャネル間の適応コードブックゲインの間で重要な相関が期待されている。これらのゲインは、チャネルの内部ゲイン履歴から、他のチャネルに属する同一フレームのゲインから、及び固定コードブックゲインからも予測されうる。固定コードブックの場合と同様に、ベクトル量子化も可能である。
【0044】
図4のLPC合成フィルタ・ブロック12Mでは、各チャネルは個別のLPC(線形予測符号化)フィルタを使用する。これらのフィルタは、単一チャネルの場合と同様の方法で個別に駆動することができる。しかし、チャネルの一部または全部が同一LPCフィルタを共有することもできる。これによって、LPCスペクトル間のスペクトル距離等の信号特性に応じて、複数フィルタモードと単一フィルタモードとを切り替えることができる。チャネル間予測をLSP(線スペクトル対)パラメータのために使用すると、該予測は低相関モードのために停止されるかまたは低減される。
【0045】
図7は、本発明の複数チャネルLPAS音声符号器の分析部の実施態様の一例を示すブロック図である。図1と図2を参照しながらすでに説明したブロックに加えて、図7に記載の分析部は、複数モード分析ブロック40を含む。ブロック40は、共有固定コードブックFCS、遅延D1、D2およびゲインgFS1gFS2のみを使用した符号化を正当化するのにチャネル間に十分な相関があるか否かを判断するために、チャネル間の相関を判断する。もしそうでない場合は、個別の固定コードブックFC1、FC2とゲインgF1gF2を使用することが必要となるであろう。該相関は、時間ドメインにおける通常の相関、つまり、第二のチャネル信号を第一の信号に最も良く適合するまでシフトすることによって判断することができる。2つ以上のチャネルが存在する場合には、最小相関値が所定の閾値を超過したときに共有固定コードブックが使用されることになる。あるいは、第一のチャネルに対する相関が所定の閾値を超過するチャネルのために共有固定コードブックを使用し、残りのチャネルのために個別の固定コードブックを使用してもよい。正確な閾値はリスニングテストによって判断される。
【0046】
分析部はさらに、各チャネルについてスケール要素e1、e2を決定する相対的エネルギー計算器42を含みうる。これらのスケール要素は以下の式に従って決定することができる。
【数式1】
ここで、Eiはフレームiのエネルギーを示す。これらのスケール要素を使用して、それぞれのチャネルのための重み付けされた残差エネルギーR1、R2を、図7に図示されたように、チャネルの相対的強さに従ってリスケールすることができる。各チャネルのための残差エネルギーのリスケーリングは、各チャネルの絶対的エラーに関する最適化よりもむしろ、各チャネルにおける相対的エラーに関する最適化のほうに効果を有する。
【0047】
スケール要素は、相対的チャネル強さeiのより一般的な関数であってもよく、例えば以下の数式で示される。
【数式2】
ここで、αは、インターバル4−7における定数であり、例えばαは5にほぼ等しい。スケーリング関数の正確な形は、主観的なリスニングテストによって判断することができる。
【0048】
本発明の上記に記載の実施態様の様々な要素の機能は、典型的には一または複数のマイクロプロセッサまたはマイクロ/信号プロセッサの組合せ、及びこれに対応するソフトウェアによって実行される。
【0049】
図面において、幾つかのブロック及びパラメータは任意のものであり、複数チャネル信号の特性及び音声品質の全体的な要求基準に応じて使用することができる。符号器のビットは、それらが最も必要とされている所に割り当てることができる。符号器は、フレームごとに選択してLPC部分、適応及び固定コードブックの間に様々にビットを分配する。これは、チャネル内マルチモード操作の一例である。
【0050】
マルチモード操作のさらなる例は、符号器のビットをチャネル間に分配するということ(非対称符号化)である。これは、チャネル間マルチモード操作と称される。ここでの一例は、一/複数のチャネルまたは一チャネルにおける複数のビットで符号化された符号器ゲインのためのより大きな固定コードブックであろう。ソース信号特性を効率的に活用するために該2つのマルチモード操作例を組み合わせることができる。
【0051】
レートが可変的な操作においては、全体的なビットレートは、フレームベースで変化しうる。全チャネルにおける同様のバックグラウンドノイズを有するセグメントは、例えば、複数チャネル内のわずかに異なる地点で現れる無音声から有音声への伝送を有するセグメントよりもより少ないビットを要求する。複数の話者が互いに重複するかもしれない電話会議等の場合、異なる音は連続フレームの間、異なるチャネルを支配しうる。このことも、よい高いビットレートを直ちに増加させたいと希望する動機である。
【0052】
該マルチモード操作は、閉ループ態様で、または開ループ方法で制御することができる。閉ループ方法は、各モードについての残差符号化エラーに応じてモードを判断する。これは計算上、コストのかかる方法である。開ループ方法では、符号化モードは入力信号特性に基づいて決定される。チャネル内の場合は、参考文献4に記載されたように、可変レートモードは、例えば、音声、スペクトル特性及び信号エネルギーに基づいて決定される。チャネル間モードを決定する場合には、チャネル間相互相関関数またはスペクトル距離関数を使用することにより決定される。ノイズまたは無声符号化の場合には、周波数ドメインにおける複数チャネル相関特性を使用することがより適切である。開ループと閉ループ技術の組み合わせも可能である。開ループ分析は、複数の候補モードに基づいて決定され、符号化され、そして閉ループ決定時に最終残差エラーが使用される。
【0053】
音源とマイクロフォンの位置の間の距離の違いに関係する遅延において、チャネル間相関はより強くなる。そのようなチャネル間遅延は、提案する複数チャネルLPAS符号器の適応コードブックと固定コードブックと関連して活用される。チャネル間マルチモード操作に関して、低い相関モードの場合この特徴は停止させられることになり、チャネル間遅延にビットは全く費やされない。
【0054】
複数チャネル予測と量子化は、複数チャネルLPASゲイン及びLPCパラメータのために必要なビット数を減らすための高チャネル間相関モードのために使用することができる。低チャネル間予測モードのために、使用されるチャネル間予測および量子化はより少ないであろう。チャネル内予測および量子化のみで十分であるかもしれない。
【0055】
図7を参照して記載された複数チャネルエラー重み付けは、チャネル間相関に応じて開始または停止されうる。
【0056】
符号化方法を決定するためにブロック40によって実行されたアルゴリズムの例を、図8を参照しながら以下に説明する。しかし、まず、多くの実施態様と仮定について説明する。
【0057】
マルチモード分析ブロック40は、開ループまたは閉ループで、または両原則を組み合わせて実行することができる。開ループの実施態様では、チャネルからの入力信号を分析し、現在のフレームのための適切な符号化方法、適切なエラー重み付け、および現在のフレームに使用されるべき基準を決定する。
【0058】
以下の実施例では、LPCパラメータ量子化は、開ループ方法で決定されており、他方で、適応コードブックと固定コードブックの最終パラメータは、有音声が符号化されるべき場合、閉ループ方法で判断される。
【0059】
固定コードブック探索のためのエラー基準は、個別のチャネル音声分類の出力に応じて変化させられる。
【0060】
各チャネルのための音声分類が、サブクラス(VERY_NOISY,NOISY,CLEAN)を有する(VOICE,UNVOICED,TRANSIENT,BACKGROUND)であると仮定する。該サブクラスは、入力信号に雑音があるか否かを示し、最終エラー基準を精確に調整するためにも使用することができる音声分類に信頼性のある指示を与えている。
【0061】
チャネル内のフレームがUNVOICEDまたはBACKGROUNDと分類された場合、固定コードブック・エラー基準は、該チャネルのためにエネルギーおよび周波数ドメイン・エラー基準に変更される。音声分類に関するさらなる情報については、参考文献[4]を参照されたい。
【0062】
LPCパラメータが、2つの異なる方法で符号化できると仮定する:
1.フレームのための共通の1組のLPCパラメータ。
2.各チャネルのための独立組のLPCパラメータ。
【0063】
ロング・ターム・プレディクタ(LTP)が適応コードブックとして実行される。
【0064】
LTP-遅延パラメータが様々な方法で符号化できると仮定する:
1.いずれのチャネルにおいてもLTP-遅延パラメータはない。
2.チャネル1だけのためのLTP-遅延パラメータ。
3.チャネル2だけのためのLTP-遅延パラメータ。
4.チャネル1とチャネル2のための別個のLTP-遅延パラメータ。
【0065】
LTP-ゲインパラメータは、各遅延パラメータのために個別に符号化される。
【0066】
1チャネルのための固定コードブックパラメータは、5つの方法で符号化されうると仮定する:
・ (無声/バックグラウンドノイズ符号化のために、周波数ドメインで探索された)個別の小サイズのコードブック。
・ 個別の中間サイズのコードブック。
・ 個別の大サイズのコードブック。
・ 共通の共有コードブック。
・ 共通の共有コードブックと個別の中間サイズのコードブック。
【0067】
各チャネルとコードブックのためのゲインは、別個に符号化される。
【0068】
図8は、符号化方法を決定するための方法の一実施例を図示するフローチャートである。
【0069】
マルチモード分析によって、複数チャネル入力を、3つの主要な量子化方法:(MULTI‐TALK,SINGLE‐TALK,NO‐TALK)へ事前に分類できる。その流れは図8に図示されている。
【0070】
適切な方法を選択するために、各チャネルは、その独自のチャネル内活動検出を有し、チャネル内音声分類は、ステップS20、S21である。両音声分類A、BがBACKGROUNDを示すならば、複数チャネル識別ステップS22における出力はNO‐TALKであり、そうでない場合には、出力はTALKである。ステップS23は、ステップ23からの出力がTALKを示すのか否かをテストする。そうでない場合には、アルゴリズムは、ステップS24へ進み、no‐talk方法を実行する。
【0071】
他方で、ステップS23がTALKを示すならば、アルゴリズムはステップS25へ進み、複数/単数話者の状況を識別する。ステップS25においてこの決定をするために、この実施例では2つのチャネル間特性、つまりチャネル間時間相関とチャネル間周波数相関が使用される。
【0072】
この実施例におけるチャネル間時間相関値は修正され、その後、2つの不連続値(LOW_TIME_CORRとHIGH_TIME_CORR)へと閾値化される(ステップS26)。
【0073】
チャネル間周波数相関は、各チャネルのための汎用化されたスペクトルエンベロップを抽出し、その後、チャネル間の修正された差を合計することによって実行される(ステップS27)。合計値は次いで2つの不連続値(LOW_FREQ_CORR HIGH_FREQ_CORR)に閾値化され、ここで、修正差の合計が閾値より大きい場合には、LOW_FREQ_CORRが設定される(つまり、簡単なスペクトル(エンベロップ)として差測定を使用して、チャネル間周波数相関を見積もる)。スペクトル差は、例えば、N‐Point FFTからの振幅を使用するか、またはLSFドメインにおいて計算することができる。(スペクトル差は、低周波数差よりも重要性を付与するために重み付けされた周波数であってもよい。)
【0074】
ステップS25では、両方の音声分類(A、B)がVOICEDを示し、HIGH_TIME_CORRが設定されるならば、出力はSINGLEである。
【0075】
両方の音声分類(A、B)がUNVOICEDを示し、HIGH_FREQ_CORRが設定されるならば、出力はSINGLEである。
【0076】
音声分類(A、B)の一方がVOICEDを示し、前主力がSINGLEで、HIGH_TIME_CORRが設定されるならば、出力はSINGLEのままである。
【0077】
それ以外では、出力はMULTIである。
【0078】
ステップS28は、ステップS25からの出力がSINGLEかMULTIかをテストする。SINGLEであるならば、アルゴリズムは、ステップS29へ進み、single‐talk方法を実行する。そうでない場合には、それはステップS30へ進み、 multi‐talk方法を実行する。
【0079】
ステップS24、S29およびS30において実行された3つの方法をそれぞれ説明する。固定コードブックおよび適応コードブックを示すために、省略語FCBとACBがそれぞれ使用されている。
【0080】
ステップS24(no‐talk)では、2つの可能性がある:
HIGH_FREQ_CORR:
・ 共通ビットが使用される(低いスペクトル距離)。
・ LPC 低いビットレートが使用される。
・ ACB ロングターム相関が低いならば、スキップされる。
・ FCB 非常に低いビットレート・コードブックが使用される。
LOW_FREQ_CORR:
・ 各チャネルについて別個のビット割り当てが使用される(スペクトル距離は高い)。
・ LPC 低いビットレートが使用される。
・ ACB ロングターム相関が低いならば、スキップされる。
・ FCB 非常に低いビットレート・コードブックが使用される。
【0081】
ステップS29(single‐talk)では、以下の方法が使用される。概要:可能であれば共通ビットが使用される。閉ループ選択と音声分類がビット割り当てを完成させるために使用される。
・ LPC 共通
・ ACB 共通または個別
1.VOICEDとして分類されたチャネル:音声フレームのために閉ループ方法で選択されたACB、共通ACBまたは2つの別個のACB。
2.1つのチャネルはnon‐VOICEDとして分類され、他はVOICEDとして分類される:各チャネルのための個別のACB。
3.いずれのチャネルもVOICEDとして分類されない:そしてACBは全く使用されない。
・ FCB 共通または個別:
1.両チャネルがVOICEDに分類された場合、共通FCBが使用される。
2.両チャネルがVOICEDに分類され、各チャネルからの前フレームの少なくとも1つがnon‐VOICEDである場合、共通FCB+2つの別個の中間サイズのFCBが使用される(これは、想定されるスタートアップ状態である)。
3.チャネルの1つがnon‐VOICEDである場合、個別FCBが使用される。
4.別個FCBの大きさは、該チャネルのために音声分類を使用して制御される。
留意点:チャネルの1つがバックグラウンドクラスに分類されたならば、他方のチャネルFCBは、利用可能なビットの大半を使用することが許される(つまり、一のチャネルが待機しているときの大きいサイズのFCBコードブック)。
【0082】
ステップS30(multi‐talk)では、以下の方法が使用される。概要:別個のチャネルを想定、共通ビットが少ないまたは皆無。
・ LCP 別個に符号化される。
・ ACB 別個に符号化される。
・ FCB 別個に符号化され、共通のFCBはない。各チャネルのための該FCBのサイズは音声分類を使用して決定され、音声フレームのためのFCBの最終サイズを判断するために、最低限重み付けされたSNRターゲットを有する閉ループアプローチも音声フレームで使用される。
【0083】
一般化されたLPAS(参考文献[5]参照)としてすでに知られている技術を本発明の複数チャネルLPAS符号器に使用することもできる。簡単にいうと、この技術は実際の符号化前のフレームごとの入力信号の前処理に関係している。複数の可能性ある修正信号を検査し、最小の歪みで符号化されうる信号が符号化されるべき信号として選択される。
【0084】
上記の説明は主として符号器を対象としている。これに対応する復号器は、このような符号器の合成部を含むのみでありうる。典型的には、符号器/復号器の組み合わせは、帯域幅制限通信チャネル上で符号化信号を伝送/受信する端末において使用される。端末は、携帯電話または基地局の無線端末であってもよい。そのような端末は、アンテナ、増幅器、イコライザ、チャネル符号器/復号器等の他の様々な要素も含みうる。しかし、これらの要素は、本発明を説明するために重要ではないので、その説明は省略されている。
【0085】
本発明の範囲から逸脱することなく、本発明に対して様々な変形や変更がなされ得るのは、当業者に理解されるところであり、本発明の範囲は特許請求の範囲の記載によって定められる。
【0086】
参考文献
[1] A. Gersho, “Advances in Speech and Audio Compression”, Proc. of the IEEE, Vol. 82, No. 6, pp 900-918, June 1994,
[2] A. S. Spanias, “Speech Coding: A Tutorial Review”, Proc. of the IEEE, Vol 82, No. 10, pp 1541-1582, Oct 1994.
[3] WO00/19413(Telefonaktiebolaget LM Ericsson).
[4] Allen Gersho et.al, "Variable rate speech coding for cellular networks", page 77-84, Speech and audio coding for wireless and network applications, Kluwer Academic Press, 1993.
[5] Bastiaan Kleijn et.al, "Generalized analysis-by-synthesis coding and its application to pitch prediction", page 337-340, In Proc. IEEE Int. Conf. Acoust., Speech and Signal Processing, 1992.
【図面の簡単な説明】
【図1】 従来の単一チャネルLPAS音声符号器のブロック図である。
【図2】 従来の複数チャネルLPAS音声符号器の分析部の一実施態様を示したブロック図である。
【図3】 従来の複数チャネルLPAS音声符号器の合成部の一実施態様を示したブロック図である。
【図4】 本発明の複数チャネルLPAS音声符号器の分析部の実施態様の一例を示したブロック図である。
【図5】 マルチパート固定コードブックの探索方法の実施態様の一例のフローチャートである。
【図6】 マルチパート固定コードブックの探索方法の実施態様のさらなる例を示すフローチャートである。
【図7】 本発明の複数チャネルLPAS音声符号器の分析部の実施態様の一例を示したブロック図である。
【図8】 符号化方法を判断するための方法の実施態様の一例を図示したフローチャートである。
Claims (24)
- 各チャネルの信号が、特定固定コードブックと共有固定コードブックとを用いて符号化される、複数チャネル線形予測合成分析信号の符号化方法であって、
チャネル間相関を検出するステップと;該検出されたチャネル間相関に基づいて符号化モードを選択するステップと;該選択された符号化モードに基づいて、チャネル特定固定コードブックと共有固定コードブックの間に適応的にビットを分配するステップを含み、チャネル間相関が高い符号化モードでは、より多いビットが共有固定コードブックに、より少ないビットが個別固定コードブックに割り振られ、チャネル間相関が低い符号化モードでは、より少ないビットが共有固定コードブックに、より多いビットが個別固定コードブックに割り振られる、複数チャネル線形予測合成分析信号符号化方法。 - 前記選択可能な符号化モードが、全体的なビットレートがフレームベースで固定であることを特徴とする、請求項1に記載の方法。
- 前記選択可能な符号化モードが、全体的なビットレートがフレームベースで変化するものを含むことを特徴とする、請求項1に記載の方法。
- チャネル間相関をタイムドメインで判断することを特徴とする、請求項1ないし3のいずれか1項に記載の方法。
- チャネル間相関を周波数ドメインで判断することを特徴とする、請求項1ないし4のいずれか1項に記載の方法。
- チャネル間相関が低い場合には、チャネル特定LPCフィルタを使用することと;チャネル間相関が高い場合には、共有LPCフィルタを使用することを特徴とする、請求項1ないし5のいずれか1項に記載の方法。
- チャネル間相関が低い場合には、チャネル特定固定コードブックを使用することと;チャネル間相関が高い場合には、共有固定コードブックを使用することを特徴とする、請求項1ないし6のいずれか1項に記載の方法。
- チャネル間相関が低い場合には、チャネル特定適応コードブックによる量子化と、ピッチ遅延処理を行うことと;チャネル間相関が高い場合には、共有適応コードブックによる量子化と、ピッチ遅延処理を行うことを特徴とする、請求項1ないし7のいずれか1項に記載の方法。
- チャネル間適応コードブックによる量子化と、ピッチ遅延処理を行うことを特徴とする、請求項1ないし8のいずれか1項に記載の方法。
- チャネル間相関が低い場合には、それぞれのチャネルの相対的チャネル強さに従って残差エネルギーの重み付けをする、すなわち、強いチャネルの残差エネルギーは大きく、弱いチャネルの残差エネルギーは小さくすることを特徴とする、請求項1ないし9のいずれか1項に記載の方法。
- 音声分類に基づいて、個別の固定コードブックのサイズを判断する、すなわち、一つのタイプの音声が他のタイプの音声より小さな個別の固定コードブックに関連付けられることを特徴とする、請求項7ないし10のいずれか1項に記載の方法。
- 各チャネルの信号が、特定固定コードブックと共有固定コードブックとを用いて符号化される、複数チャネル線形予測合成分析信号符号器であって、
チャネル間相関を検出する手段(40)と;該検出されたチャネル間相関に基づいて符号化モードを選択するための手段(40)と;該選択された符号化モードに基づいて、チャネル特定固定コードブックと共有固定コードブックの間に適応的にビットを分配する手段が、チャネル間相関が高い符号化モードでは、より多いビットが共有固定コードブックに、より少ないビットが個別固定コードブックに割り振られ、チャネル間相関が低い符号化モードでは、より少ないビットが共有固定コードブックに、より多いビットが個別固定コードブックに割り振られる手段(40)を含む、複数チャネル線形予測合成分析信号符号器。 - チャネル間相関をタイムドメインで判断するための手段を特徴とする、請求項12に記載の符号器。
- チャネル間相関を周波数ドメインで判断するための手段を特徴とする、請求項12または13に記載の符号器。
- チャネル間相関が低い場合には、チャネル特定LPCフィルタが;チャネル間相関が高い場合には、共有LPCフィルタが使用されることを特徴とする、請求項12ないし14のいずれか1項に記載の符号器。
- チャネル間相関が低い場合には、チャネル特定固定コードブックが;チャネル間相関が高い場合には、共有固定コードブックが使用されることを特徴とする、請求項12ないし15のいずれか1項に記載の符号器。
- チャネル間相関が低い場合には、チャネル特定適応コードブックによる量子化と、ピッチ遅延処理を;チャネル間相関が高い場合には、共有適応コードブックによる量子化と、ピッチ遅延処理を行うことを特徴とする、請求項12ないし16のいずれか1項に記載の符号器。
- チャネル間適応コードブックによる量子化と、ピッチ遅延処理を行うことを特徴とする、請求項12ないし17のいずれか1項に記載の符号器。
- チャネル間相関が低い場合には、それぞれのチャネルの相対的チャネル強さに従って残差エネルギーの重み付けをする、すなわち、強いチャネルの残差エネルギーは大きく、弱いチャネルの残差エネルギーは小さくするための手段(42,e1,e2)を特徴とする、請求項12ないし18のいずれか1項に記載の符号器。
- 音声分類に基づいて、個別の固定コードブックのサイズを判断する、すなわち、一つのタイプの音声が他のタイプの音声より小さな個別の固定コードブックに関連付けられる手段(40)を特徴とする、請求項16ないし19のいずれか1項に記載の符号器。
- 各チャネルの信号が、特定固定コードブックと共有固定コードブックとを用いて符号化される、複数チャネル線形予測合成分析信号符号器を含む端末であって、
チャネル間相関を検出する手段(40)と;該検出されたチャネル間相関に基づいて符号化モードを選択するための手段(40)と;該選択された符号化モードに基づいて、チャネル特定固定コードブックと共有固定コードブックの間に適応的にビットを分配する手段が、チャネル間相関が高い符号化モードでは、より多いビットが共有固定コードブックに、より少ないビットが個別固定コードブックに割り振られ、チャネル間相関が低い符号化モードでは、より少ないビットが共有固定コードブックに、より多いビットが個別固定コードブックに割り振られる手段(40)を含む、複数チャネル線形予測合成分析信号符号器を含む端末。 - チャネル間相関をタイムドメインで判断するための手段を特徴とする、請求項21に記載の端末。
- チャネル間相関を周波数ドメインで判断するための手段を特徴とする、請求項21または22に記載の端末。
- チャネル間相関が低い場合には、チャネル特定固定コードブックが;チャネル間相関が高い場合には、共有固定コードブックが使用されることを特徴とする、請求項21ないし23のいずれか1項に記載の端末。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE0003285A SE519981C2 (sv) | 2000-09-15 | 2000-09-15 | Kodning och avkodning av signaler från flera kanaler |
PCT/SE2001/001885 WO2002023528A1 (en) | 2000-09-15 | 2001-09-05 | Multi-channel signal encoding and decoding |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004509366A JP2004509366A (ja) | 2004-03-25 |
JP2004509366A5 JP2004509366A5 (ja) | 2009-09-03 |
JP4485123B2 true JP4485123B2 (ja) | 2010-06-16 |
Family
ID=20281032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002527492A Expired - Lifetime JP4485123B2 (ja) | 2000-09-15 | 2001-09-05 | 複数チャネル信号の符号化及び復号化 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7283957B2 (ja) |
EP (1) | EP1320849B1 (ja) |
JP (1) | JP4485123B2 (ja) |
AT (1) | ATE363710T1 (ja) |
AU (1) | AU2001284588A1 (ja) |
DE (1) | DE60128711T2 (ja) |
SE (1) | SE519981C2 (ja) |
WO (1) | WO2002023528A1 (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE519981C2 (sv) | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
SE519976C2 (sv) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
US7111102B2 (en) * | 2003-10-06 | 2006-09-19 | Cisco Technology, Inc. | Port adapter for high-bandwidth bus |
FR2867649A1 (fr) * | 2003-12-10 | 2005-09-16 | France Telecom | Procede de codage multiple optimise |
US7630396B2 (en) * | 2004-08-26 | 2009-12-08 | Panasonic Corporation | Multichannel signal coding equipment and multichannel signal decoding equipment |
BRPI0516201A (pt) * | 2004-09-28 | 2008-08-26 | Matsushita Electric Ind Co Ltd | aparelho de codificação escalonável e método de codificação escalonável |
JP5046653B2 (ja) | 2004-12-28 | 2012-10-10 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
JP4809370B2 (ja) * | 2005-02-23 | 2011-11-09 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | マルチチャネル音声符号化における適応ビット割り当て |
US9626973B2 (en) | 2005-02-23 | 2017-04-18 | Telefonaktiebolaget L M Ericsson (Publ) | Adaptive bit allocation for multi-channel audio encoding |
US8000967B2 (en) * | 2005-03-09 | 2011-08-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Low-complexity code excited linear prediction encoding |
DE602006014957D1 (de) * | 2005-04-28 | 2010-07-29 | Panasonic Corp | Audiocodierungseinrichtung und audiocodierungsverfahren |
DE602006011600D1 (de) * | 2005-04-28 | 2010-02-25 | Panasonic Corp | Audiocodierungseinrichtung und audiocodierungsverfahren |
US9058812B2 (en) * | 2005-07-27 | 2015-06-16 | Google Technology Holdings LLC | Method and system for coding an information signal using pitch delay contour adjustment |
EP1771021A1 (en) * | 2005-09-29 | 2007-04-04 | Telefonaktiebolaget LM Ericsson (publ) | A method and apparatus for allocation of radio resources |
KR100667852B1 (ko) * | 2006-01-13 | 2007-01-11 | 삼성전자주식회사 | 휴대용 레코더 기기의 잡음 제거 장치 및 그 방법 |
EP1848243B1 (en) * | 2006-04-18 | 2009-02-18 | Harman/Becker Automotive Systems GmbH | Multi-channel echo compensation system and method |
JP5096474B2 (ja) * | 2006-10-10 | 2012-12-12 | クゥアルコム・インコーポレイテッド | オーディオ信号を符号化及び復号化する方法及び装置 |
KR101398836B1 (ko) * | 2007-08-02 | 2014-05-26 | 삼성전자주식회사 | 스피치 코덱들의 고정 코드북들을 공통 모듈로 구현하는방법 및 장치 |
EP2201566B1 (en) * | 2007-09-19 | 2015-11-11 | Telefonaktiebolaget LM Ericsson (publ) | Joint multi-channel audio encoding/decoding |
GB2470059A (en) * | 2009-05-08 | 2010-11-10 | Nokia Corp | Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter |
US8620660B2 (en) * | 2010-10-29 | 2013-12-31 | The United States Of America, As Represented By The Secretary Of The Navy | Very low bit rate signal coder and decoder |
JP5737077B2 (ja) * | 2011-08-30 | 2015-06-17 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
WO2014046916A1 (en) | 2012-09-21 | 2014-03-27 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
CN106104684A (zh) | 2014-01-13 | 2016-11-09 | 诺基亚技术有限公司 | 多通道音频信号分类器 |
EP3067887A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
EP3067885A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding a multi-channel signal |
RU2730548C2 (ru) * | 2015-09-25 | 2020-08-24 | Войсэйдж Корпорейшн | Способ и система для кодирования левого и правого каналов стереофонического звукового сигнала с выбором между моделями двух и четырех подкадров в зависимости от битового бюджета |
US9978381B2 (en) * | 2016-02-12 | 2018-05-22 | Qualcomm Incorporated | Encoding of multiple audio signals |
US10475457B2 (en) * | 2017-07-03 | 2019-11-12 | Qualcomm Incorporated | Time-domain inter-channel prediction |
CN110718237B (zh) * | 2018-07-12 | 2023-08-18 | 阿里巴巴集团控股有限公司 | 串音数据检测方法和电子设备 |
CN115410584A (zh) * | 2021-05-28 | 2022-11-29 | 华为技术有限公司 | 多声道音频信号的编码方法和装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8913758D0 (en) | 1989-06-15 | 1989-08-02 | British Telecomm | Polyphonic coding |
JP3343962B2 (ja) * | 1992-11-11 | 2002-11-11 | ソニー株式会社 | 高能率符号化方法及び装置 |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US6345246B1 (en) * | 1997-02-05 | 2002-02-05 | Nippon Telegraph And Telephone Corporation | Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates |
TW384434B (en) * | 1997-03-31 | 2000-03-11 | Sony Corp | Encoding method, device therefor, decoding method, device therefor and recording medium |
DE19829284C2 (de) * | 1998-05-15 | 2000-03-16 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Verarbeiten eines zeitlichen Stereosignals und Verfahren und Vorrichtung zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten Audiobitstroms |
SE519552C2 (sv) * | 1998-09-30 | 2003-03-11 | Ericsson Telefon Ab L M | Flerkanalig signalkodning och -avkodning |
SE519981C2 (sv) | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
-
2000
- 2000-09-15 SE SE0003285A patent/SE519981C2/sv unknown
-
2001
- 2001-09-05 US US10/380,423 patent/US7283957B2/en not_active Expired - Lifetime
- 2001-09-05 AU AU2001284588A patent/AU2001284588A1/en not_active Abandoned
- 2001-09-05 AT AT01963659T patent/ATE363710T1/de not_active IP Right Cessation
- 2001-09-05 DE DE60128711T patent/DE60128711T2/de not_active Expired - Lifetime
- 2001-09-05 WO PCT/SE2001/001885 patent/WO2002023528A1/en active IP Right Grant
- 2001-09-05 EP EP01963659A patent/EP1320849B1/en not_active Expired - Lifetime
- 2001-09-05 JP JP2002527492A patent/JP4485123B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
WO2002023528A1 (en) | 2002-03-21 |
ATE363710T1 (de) | 2007-06-15 |
SE0003285D0 (sv) | 2000-09-15 |
EP1320849B1 (en) | 2007-05-30 |
SE519981C2 (sv) | 2003-05-06 |
DE60128711D1 (de) | 2007-07-12 |
AU2001284588A1 (en) | 2002-03-26 |
DE60128711T2 (de) | 2008-02-07 |
JP2004509366A (ja) | 2004-03-25 |
US7283957B2 (en) | 2007-10-16 |
US20040109471A1 (en) | 2004-06-10 |
EP1320849A1 (en) | 2003-06-25 |
SE0003285L (sv) | 2002-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4485123B2 (ja) | 複数チャネル信号の符号化及び復号化 | |
RU2764287C1 (ru) | Способ и система для кодирования левого и правого каналов стереофонического звукового сигнала с выбором между моделями двух и четырех подкадров в зависимости от битового бюджета | |
JP4743963B2 (ja) | 複数チャネル信号の符号化及び復号化 | |
US7263480B2 (en) | Multi-channel signal encoding and decoding | |
JP4812230B2 (ja) | 複数チャネル信号の符号化及び復号化 | |
JP5571235B2 (ja) | ピッチ調整コーディング及び非ピッチ調整コーディングを使用する信号符号化 | |
RU2421828C2 (ru) | Системы и способы для включения идентификатора в пакет, ассоциативно связанный с речевым сигналом | |
RU2762302C1 (ru) | Устройство, способ или компьютерная программа для оценки разности во времени между каналами | |
JPH10187197A (ja) | 音声符号化方法及び該方法を実施する装置 | |
KR20010099764A (ko) | 광대역 신호들 코딩에서 적응성 대역폭 피치 검색 방법 및디바이스 | |
AU2001282801A1 (en) | Multi-channel signal encoding and decoding | |
US8036390B2 (en) | Scalable encoding device and scalable encoding method | |
US8271275B2 (en) | Scalable encoding device, and scalable encoding method | |
WO2008069614A1 (en) | Apparatus and method for coding audio data based on input signal distribution characteristics of each channel | |
EP4179530B1 (en) | Comfort noise generation for multi-mode spatial audio coding | |
WO2022097239A1 (ja) | 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090324 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090622 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090629 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20090715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090929 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100223 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100324 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4485123 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130402 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130402 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140402 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |