JP2010522346A

JP2010522346A - 音声コード化の方法および装置

Info

Publication number: JP2010522346A
Application number: JP2009543395A
Authority: JP
Inventors: アレクサンドレデラットレ
Original assignee: アクトイマジン
Priority date: 2006-12-28
Filing date: 2007-12-28
Publication date: 2010-07-01
Anticipated expiration: 2027-12-28
Also published as: JP5491194B2; US20100046760A1; US8340305B2; WO2008080609A1; EP2126905B1; FR2911020A1; EP2126905A1; FR2911020B1

Abstract

音声コード化の方法および装置は、周波数が限定された信号を表すデータに加えて、増強された信号全体に適用される時間フィルタに関する情報の送信を、その送信される低周波部分およびその再構成される高周波部分の両方で、含む。このフィルタは、再構成された高周波部分を再形成し、送信された低周波部分中に存在する圧縮生成物を修正するために、適用される。このようにして、再構成された信号のすべて、またはその一部分への時間フィルタの適用は、簡単で費用がかからず、それによって良好な知覚品質の信号を得ることが可能になる。

Description

本発明は、音声コード化の方法および装置に関する。詳しくは、音声スペクトルのすべて、またはその一部分を増強するコード化に関し、具体的には、コンピュータ・ネットワーク、たとえばインターネット上でのその送信、あるいはデジタル情報媒体上へのその記憶を目的としたコード化に関する。本方法および装置は、すべてのハードウェア・プラットフォーム上で音声信号を圧縮し、次いで解凍するために、どのようなシステム中にも組み込むことができる。

音声圧縮では、音声信号の帯域幅を限定することによって、しばしばその速度を低下させる。一般に、低周波だけが保持される、というのは人間の耳は、高周波より低周波において、より良好なスペクトル分解能と感度を有するからである。通常、信号の低周波だけが保持され、それによってデータの送信速度が全面的により低くなる。低周波に含まれる高調波が高周波中にも存在するので、従来技術によるいくつかの方法は、低周波に限定された信号から、人為的に高周波を再現することを可能にする高調波を抽出しようと試みている。これらの方法は、一般に、低周波スペクトルを置き換えることによって、高周波スペクトルを再現することからなるスペクトル増強に基づいており、この高周波スペクトルは、スペクトル的に再形成される。したがって、その結果得られた信号は、低周波部分については受信された低周波信号から構成され、高周波部分については再形成された増強部から構成される。

圧縮、および最初の周波数の帯域幅を圧縮し限定するために使用される方法によって、信号の品質を損なう生成物が発生することが判明している。さらに、受信時での高品質信号の再構成は、送信データの帯域幅が狭く、および受信時の処理が簡単で高速であることだけを要して、可能な最良の知覚品質をもたらすことを可能にしなければならない。

この問題は、周波数が限定された信号を表すデータに加えて、増強された信号の全体に適用されることになる時間フィルタに関する情報を、その送信される低周波部分およびその再構成される高周波部分の両方で送信することによって有利にも解決され、このフィルタの適用によって、再構成された高周波部分の再形成と、送信された低周波部分に存在する圧縮生成物の修正が可能になる。このようにして、再構成された信号の全体への時間フィルタの適用は、簡単で費用がかからず、それによって良好な品質の知覚信号を生成することが可能になる。

本発明は、マルチチャネル音声ストリームのすべて、またはその一部分をコード化する方法に関し、前記方法は、前記マルチチャネル音声ストリームの各チャネルに対応する信号の合成によって生成された複合信号を得る工程と、周波数が限定された複合信号を生成する工程であって、元の複合信号の周波数が、高周波の抑制によって低減される工程と、時間フィルタをチャネル毎に１個生成する工程であって、前記時間フィルタは、前記限定された合成信号のスペクトルのブロード化によって生成された信号に適用されたとき、対応するチャネルの前記元の信号にスペクトル的に近い信号の発見を可能にする、工程とを含む。

本発明の特定の実施形態によれば、元の信号の所与の一部分に対して、および所与のチャネルに対して、このチャネルに対応するフィルタは、前記元の信号の一部分に、および前記限定された信号のスペクトルのブロード化によって生成された信号の対応する部分に適用されたフーリエ変換の係数の関数の要素対要素除算によって生成される。

本発明の特定の実施形態によれば、異なるサイズのフーリエ変換が使用される各サイズに対応する複数のフィルタを生成するために使用され、生成されたフィルタは、前記元の信号と、前記限定された信号のスペクトルをブロード化して生成された信号に前記フィルタを適用して生成された信号とを比較することによってなされた前記複数のフィルタからの選択に対応する。

本発明の特定の実施形態によれば、前記時間フィルタの選択は、所定の時間フィルタの集合体から行うことができる。

本発明の特定の実施形態によれば、前記周波数が限定された合成信号は、その送信を目的としてコード化され、前記フィルタは、前記コード化され限定された合成信号のスペクトルを復号しブロード化して生成された信号と、前記元の信号とを使用して生成される。

本発明の特定の実施形態によれば、本方法は、また、マルチチャネル音声ストリームのチャネルの１つを基準チャネルとして定める工程と、各チャネルについてオフセット値を定める、前記基準チャネルに対するその他のチャネルのそれぞれの時間相関の工程とを含み、前記各チャネルの信号を構成する工程は、前記基準チャネルの信号と、その他のチャネルについての時間的に相関性がある信号とを用いて実施される。

本発明の特定の実施形態によれば、前記基準チャネル以外の各チャネルについて、前記チャネルの時間相関によって定められた前記オフセット値は、前記生成されたフィルタと関連付けられる。

本発明の特定の実施形態によれば、前記方法は、また、前記マルチチャネル音声ストリームのチャネルの１つを基準チャネルとして定める工程と、前記基準チャネルに対してその他のチャネルのそれぞれを等化して、各チャネルについて倍率値を定める工程とを含み、前記各チャネルの信号を構成する工程は、前記基準チャネルの信号と、その他のチャネルについての前記等化された信号とを用いて実施される。

本発明の特定の実施形態によれば、前記基準チャネル以外の各チャネルについて、前記チャネルの時間相関によって定められた前記倍率値は、前記生成されたフィルタと関連付けられる。

本発明は、また、マルチチャネル音声ストリームのすべて、またはその一部分を復号する方法に関し、前記方法は、送信された信号を受信する工程と、前記マルチチャネル音声ストリームの各チャネルについて受信された信号に関する時間フィルタを受信する工程と、前記受信された信号を復号することによって、復号された信号を生成する工程と、復号された信号のスペクトルをブロード化することによって、拡張された信号を生成する工程と、前記マルチチャネル音声ストリームの各チャネルについて受信された前記時間フィルタによる、前記拡張された信号の畳み込みによって、再構成された信号を生成する工程とを少なくとも含む。

本発明の特定の実施形態によれば、前記生成されたフィルタからサイズが減少されたフィルタが、前記各チャネルについて再構成された信号を生成する工程で、この生成されたフィルタの代わりに使用される。

本発明の特定の実施形態によれば、各チャネルについて前記生成されたフィルタの代わりにサイズが減少されたフィルタを使用するという選択は、デコーダの能力に従って行われる。

本発明の特定の実施形態によれば、前記マルチチャネル・ストリームのチャネルの１つが、基準チャネルとして定められ、オフセット値が、前記基準チャネル以外のチャネルについて受信された各フィルタと関連付けられる方法であって、前記方法は、また、元のマルチチャネル音声ストリーム中の各チャネルと前記基準チャネルの間の時間位相差と同様の時間位相差を生成することを可能にする、前記基準チャネル以外の各チャネルに対応する信号をオフセットさせる工程を含む。

本発明の特定の実施形態によれば、前記方法は、また、前記基準チャネル以外の各チャネルについて前記オフセット値の急な変化を避けるために、操作ウィンドウ間の境界で前記オフセット値をスムージングする工程を含む。

本発明の特定の実施形態によれば、前記マルチチャネル・ストリームのチャネルの１つが、基準チャネルとして定められ、倍率値が、前記基準チャネル以外のチャネルについて受信された各フィルタと関連付けられる方法であって、前記方法は、また、元のマルチチャネル音声ストリーム中の各チャネルと前記基準チャネルの間の利得の差と同様の利得の差を生成することを可能にする、前記基準チャネル以外の各チャネルに対応する信号を増幅する工程を含む。

本発明は、また、マルチチャネル音声ストリームをコード化するための装置に関し、前記装置は、前記マルチチャネル音声ストリームの各チャネルに対応する信号の合成によって生成された合成信号を得る手段と、周波数が限定された合成信号を生成する手段であって、元の合成信号のスペクトルが、高周波の抑制によって減少される、手段と、前記時間フィルタをチャネル毎に１つ生成する手段であって、前記時間フィルタは、前記限定された信号のスペクトルをブロード化することによって生成された信号に適用されたとき、対応するチャネルの前記元の信号にスペクトル的に近い信号を見出すことを可能にする、手段とを少なくとも含む。

本発明は、また、マルチチャネル音声ストリームを復号するための装置に関し、前記装置は、送信された信号を受信する手段と、前記マルチチャネル音声ストリームの各チャネルについて受信された信号に関する時間フィルタを受信する手段と、前記受信された信号を復号することによって、復号された信号を生成する手段と、復号された信号のスペクトルをブロード化することによって、拡張された信号を生成する手段と、前記マルチチャネル音声ストリームの各チャネルについて受信された前記時間フィルタによる、前記拡張された信号の畳み込みによって、再構成された信号を生成する手段とを少なくとも含む。

上記に述べた本発明の特徴およびその他は、例の実施形態に関する次の記述を読むと、より明瞭に明らかになり、その記述は、添付図面と共に提示される。

本発明の例の実施形態によるコード化方法の全体的なアーキテクチャを示す図である。本発明の例の実施形態による復号方法の全体的なアーキテクチャを示す図である。エンコーダの実施形態のアーキテクチャを示す図である。デコーダの実施形態のアーキテクチャを示す図である。エンコーダのステレオ音響の実施形態のアーキテクチャを示す図である。デコーダのステレオ音響の実施形態のアーキテクチャを示す図である。

発明の詳細な説明

図１に、コード化方法を全体的に示す。信号１０１は、コード化されるソース信号であり、したがって、この信号は、周波数の点で限定されていない元の信号である。工程１０２は、信号１０１の周波数限定の工程を示す。この周波数限定は、たとえば、ローパス・フィルタによって予めフィルタリングされた信号１０１をサブサンプリング（ｓｕｂｓａｍｐｌｉｎｇ）することによって実施することができる。サブサンプリングは、サンプルのセットに１個のサンプルのみを保持し、信号から他のサンプルを抑制することからなる。ｎ個のサンプルから１個が保持される、ファクタ「ｎ」によるサブサンプリングによって、スペクトル幅がｎによって分割される信号を生成することが可能になる、ただしｎは、ここでは整数である。有理数の比ｑ／ｐによるサブサンプリングを行うことも可能である。サブサンプリングは、ファクタｐによって実施され、ついでサブサンプリングは、ファクタｑによって実施される。スペクトル成分を失わないようにするために、スーパーサンプリング（ｓｕｐｅｒｓａｍｐｌｉｎｇ）から始めることが好ましい。無理数の比による周波数の変化には、最も近い有理数の分数を求め、上記のように進めることが可能である。入力信号１０１の帯域を限定する他の方法も、基本的なフィルタリング方法として使用することができる。次いで、その結果得られた信号は、周波数が限定された信号（周波数限定信号）と呼ぶことにし、工程１０６中でコード化される。たとえばＰＣＭ、ＡＤＰＣＭまたは他の規格に従ったコード化など、どのような音声のコード化または圧縮の手段も、ここで使用することができる。この周波数限定信号は、デコーダへのその送信を目的として、マルチプレクサ１０８に供給される。

圧縮モジュール１０６からの出力においてコード化された周波数限定信号は、また、入力として、復号モジュール１０７に供給される。このモジュールは、コード化モジュール１０６とは逆の演算を行い、周波数限定信号のバージョンを構築することを可能にし、そのバージョンは、デコーダがアクセスすることになるバージョンと同一であり、アクセスしたとき、デコーダは、また、デコーダが受け取ることになるコード化された限定信号を復号するという、この演算を行う。次いで、そのように復号された限定信号は、周波数増強モジュール１０３によって、元のスペクトル範囲に戻される。この周波数増強は、たとえば、入力信号のサンプル間にゼロ値のサンプルを挿入することによる、入力信号の単純なスーパーサンプリング（ｓｕｐｅｒｓａｍｐｌｉｎｇ）から構成することができる。信号のスペクトルを増強するどのような他の方法も、使用することができる。この拡張された周波数信号は、周波数増強モジュール１０３から出力され、次いでフィルタ生成モジュール１０４に供給される。このフィルタ生成モジュール１０４は、元の信号１０１も受信し、時間フィルタを計算する。その時間フィルタは、周波数増強モジュール１０３から出力された拡張信号に適用されたとき、元の信号に近付けるように、その信号を整形することを可能にする。次いで、そのようにして計算されたフィルタは、任意選択の圧縮工程１０５の後、マルチプレクサ１０８に供給される。

このようにして、送信されることになる信号の周波数が限定されて圧縮されたバージョン、および時間フィルタの係数を送ることが可能である。この時間フィルタは、解凍されて周波数が拡張された信号に一度適用されると、その信号を再形成して、元の信号に近い拡張信号を見出す。フィルの計算は、元の信号に、および解凍および周波数増強の後にデコーダが得ることになる信号に基づき行われ、そのことによって、これら２つの処理フェーズによって導入された、どのような欠陥も修正することが可能になる。第１に、フィルタは、再構成された信号に、その全周波数範囲において適用され、それによって、送信された低周波部分に対して、ある種の圧縮生成物を修正することが可能になる。さらに、それは、また、送信されないが、周波数増強によって再構成される高周波部分を再形成する。

図２に、対応する復号方法を全体的に示す。したがって、デコーダは、コーダのマルチプレクサ１０８から出力された信号を受信する。それは、送信信号中に含まれたＳ１ｂと呼ばれるコード化された周波数限定信号およびフィルタＦの係数を取り出すために、信号を逆多重化する。次いで、信号Ｓ１ｂは、図１のモジュール１０７に機能的に相当する復号および解凍モジュール２０２によって復号される。一度復号されると、信号は、図１のモジュール１０３に機能的に相当するモジュール２０３によって、周波数が拡張される。したがって、信号が復号され、その周波数が拡張されたバージョンの信号が生成される。さらに、フィルタＦの係数は、コード化または圧縮されている場合、解凍モジュール２０１によって復号され、そして得られたフィルタは、信号を整形するためのモジュール２０４中で拡張された時間信号に適用される。次いで、信号が、元の信号に近い出力として生成される。この処理は、再形成のために信号に適用されるフィルタの時間特性のため、実施するのは簡単である。

送信され、そして信号の再構成中に適用されるフィルタは、周期的に送信され、時間とともに変化する。したがって、このフィルタは、それが適用される信号の部分に適合する。したがって、信号の各部分について、この信号部分のダイナミックなスペクトル特性に従い特に適合する時間フィルタを計算することが可能である。具体的には、いくつかのタイプの時間フィルタ生成器を備え、各信号の部分について、この部分に対して最善の結果をもたらすフィルタを選択することが可能である。これは、可能である、というのは、フィルタ生成モジュールは、第１に元の信号と、第２にデコーダによって再構成されることになる拡張された信号を含み、したがって、フィルタ生成モジュールは、拡張された信号がいくつかの異なるフィルタによって生成された場合、拡張された信号部分へ各フィルタを適用して生成された信号と、できるだけそれに近付くことが求められる元の信号を比較する立場にあるからである。したがって、このフィルタ生成方法は、信号の全体について所与のタイプのフィルタを選択することに限定されず、各信号の部分の特性に従ってフィルタのタイプを変えることが可能である。

ここで、本発明の特定の実施形態を、図３および４を参照して詳細に述べる。この実施形態では、所与の周波数、たとえば３２ｋＨｚでサンプリングされた信号３０１から、Ｓ１ｂと呼ばれるその低周波に限定された信号を生成することが求められる。信号Ｓ１ｂの周波数を拡張して生成された信号を整形するためのフィルタＦを決定することも求められる。元の信号３０１は、ローパス・フィルタによってフィルタリングされ、そしてサブサンプリング・モジュール３０２によってファクタｎによるサブサンプリングが行われる。元の信号のｎ個のサンプルから１個だけを保持する、ただしｎは整数である。実際、ｎは、一般に４を超えない。したがって、信号は、スペクトル分解能の点で損なわれ、たとえば、ｎ＝２の場合、１６ｋＨｚでサンプリングされた信号が生成される。次いで、この信号は、たとえばＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）タイプの方法を用いてモジュール３１１によってコード化され、次いで、それは、たとえばＡＤＰＣＭ（モジュール３０２）によって圧縮される。このようにして、元の信号３０１の低周波を含むサブサンプリングされた信号が生成される。この信号は、デコーダに送るために、マルチプレクサ３１４に送られる。

並行して、この信号は、復号モジュール３１３に送信される。このようにして、エンコーダ中では、デコーダがそれに送られる信号から生成することになる信号が、シミュレートされる。この信号は、フィルタＦを生成するために使用され、したがってこれらのコード化および復号、および圧縮および解凍のフェーズから生じる生成物を考慮に入れることが可能になる。次いで、この信号は、モジュール３０３中で時間信号の各サンプル間にｎ−１個のゼロを挿入することによって、周波数が拡張される。このようにして、元の信号と同じスペクトル範囲を有する信号が再構成される。ナイキスト定理によって、ｎ次スペクトルのエイリアシングが生成される。たとえば、ｎ＝２の場合、信号は、コード化時、２次のオーダーでサブサンプリングされ、復号時、２次のオーダーでスーパーサンプリングされる。スペクトルは、「ミラー」によるように周波数領域中で軸対称に繰り返される。モジュール３０４中で、フーリエ変換が、モジュール３０３から出力された周波数が拡張された時間周波数に対して行われる。実際、高速フーリエ変換が、スライドさせて所与の可変サイズの操作ウィンドウに対して行われる。これらのサイズは、通常、１２８、２５６および５１２個のサンプルであるが、たとえ計算を簡単化するために、優先的に２の累乗を使用するとしても、任意のサイズのものもありえる。次に、これらのウィンドウに適用される、これらの変換の係数が計算される。同じフーリエ変換計算が、モジュール３０６中で元の信号に対して行われる。

次いで、逆フーリエ変換によって、サイズが、使用されるウィンドウのサイズ、したがって１２８、２５６または５１２に比例した時間フィルタを生成するために、工程３０４および３０６によって生成されたフーリエ変換の係数の絶対値の間で要素対要素除算３０５が行われる。選択されるウィンドウのサイズが大きくなると、フィルタが含むことになる係数がより多くなり、より正確になるが、その適用は、復号時の計算の点で、より費用がかかる。したがって、この工程は、異なるサイズのいくつかのフィルタを生成し、それによって最終的に使用するフィルタを選択することが必要になる。この選択工程は、モジュール３０９によって実施されることが分かる。ウィンドウ間の比の係数が実数であり、そして周波数空間で対称的であるとき、それゆえ、相当するフィルタＦは、時間領域中で、実数であり対称的である。この対称性を使用すると、係数の半分だけを送信し、残されたものは、対称性によって推定することができる。対称的な実数フィルタを生成すると、デコーダ中のフィルタによる、拡張された受信信号の畳み込み中に必要になる演算数を減少させることも可能になる。他の実施形態では、非対称的な実数フィルタを生成することが可能である。たとえば、操作ウィンドウ中の時間信号の周波数が限定されている場合、無限インパルス応答を有するチェビシェフローパス・フィルタのパラメータを、工程３０４および３０６から出力されたスペクトルと、ウィンドウのカットオフ周波数から反復して決定することが有利にも可能である。

このようにして、フィルタは、時間空間中で生成され、選択モジュール３０９の入力に供給される。

任意選択で、モジュール３０８が他のタイプのフィルタをもたらすことがある。たとえば、それは、線形、三次または他のフィルタを提供することができる。これらのフィルタは、スーパーサンプリングをもたらすことで知られている。周波数限定信号のサンプル間にゼロの初期値を加えたサンプルの値を計算するために、既知サンプルの値をコピーし、サンプル間の平均を取ることが可能であり、それが、結局サンプルの既知の値間の線形補間を成すことになる。すべてのこれらのタイプのフィルタは、信号の値から独立しており、スーパーサンプリングされた信号を再形成することが可能である。したがって、モジュール３０８は、使用することができる、そのようなフィルタを任意の数だけ含む。

したがって、選択モジュール３０９は、入力においてフィルタの集合体を有することになる。それは、モジュール３０７によって生成された、そして元の信号に、および再構成された信号に適用されるフーリエ変換の絶対値の除算によって様々なサイズのウィンドウのために生成されるフィルタに対応するフィルタを有することになる。また、選択モジュール３０９は、入力として、元の信号３０１およびモジュール３０３から出力された再構成された信号を有することになる。このようにして、モジュール３０９は、該当の信号部分について最善の出力信号、すなわち元の信号にスペクトル的にもっとも近い出力信号を与えるフィルタを選択するために、モジュール３０３から出力された再構成された信号に様々なフィルタを適用したものと元の信号を比較することができる。たとえば、モジュール３０３から出力された信号にフィルタを適用することによって得られたスペクトルと、元の信号の同じ部分のスペクトルの間の比を取ることが可能である。次いで、ひずみの関数を最小限で発生するフィルタが選択される。この信号部分は、操作ウィンドウと呼ばれ、フィルタを計算するために使用された最大ウィンドウより大きくする必要がある。５１２個サンプルの操作ウィンドウのサイズを通常使用することが可能になる。この操作ウィンドウのサイズは、信号によって変えることもできる。これは、大きなサイズの操作ウィンドウは、信号の実質的に固定された部分のコード化に使用することができ、一方、高速変動をより良好に考慮するために、より小さいウィンドウは、よりダイナミックな信号部分により適することになるからである。この部分は、信号の各部分について、デコーダによる信号の最善の再構成をもたらし、そして元の信号に接近させることができる、もっとも当てはまるフィルタの選択を可能にする部分である。

一度このフィルタが選択されると、モジュール３１０は、送信されるデータを最適化するために、たとえばハフマン・テーブルを使用して、コード化されるフィルタのスペクトル係数を量子化することになる。したがって、マルチプレクサ３１４は、信号の各部分とともに、この信号部分の復号にもっとも当てはまるフィルタを多重化する。このフィルタは、この信号部分の解析によって生成された異なるサイズのフィルタの集合体から、あるいは一連の所与のフィルタ、通常、線形であり、再構成をもたらし、デコーダによる信号部分の再構成のためにより有利であると判明した場合、選択することができるフィルタも含む集合体から選択される。生成されたフィルタが所与のフィルタのなかの１つであったとき、所与のフィルタ、通常、線形であって再構成をもたらし、デコーダによる信号部分の再構成のためにより有利であると判明した場合、選択することができるフィルタの集合体の間でこのフィルタを識別する識別子だけを送信することが可能である。生成されたフィルタが所与のフィルタのなかの１つであるとき、モジュール３０８によって供給された所与のフィルタの集合体の間でこのフィルタを識別する識別子だけ、およびそのフィルタの任意のパラメータを送信することが可能である。これは、これらの所与のフィルタの係数が、フィルタを適用したい信号部分に従って計算されておらず、これらの係数を送る必要がなく、それは、デコーダが知ることができるからである。したがって、この場合、フィルタに関する情報を送るための帯域幅が、フィルタの簡単な識別子に減少される。

図４に、説明する特定の実施形態での対応する復号を示す。デコーダが信号を受信し、信号を逆多重化する。次いで、音声信号Ｓ１ｂは、モジュール４０４によって復号され、次いで、受信されたサンプル間にゼロのｎ−１個のサンプルをモジュール４０５によって挿入し、それによってファクタｎのスーパーサンプリングが行われる。並行して、フィルタＦのスペクトル係数が、モジュール４０１によって逆量子化され、ハフマン・テーブルに従って復号される。フィルタのサイズは、デコーダのモジュール４０２によって、その計算またはメモリの能力、あるいはすべてのあり得るハードウェアの制限に合わせることができることが有利である。わずかなリソースを有するデコーダは、サブサンプリングされたフィルタを使用することが可能であり、それによってフィルタが適用されたとき、演算を減少させることができる。サブサンプリングされたフィルタは、また、送信チャネルのリソースまたはデコーダのリソースに従ってエンコーダによって生成することができる、ただし、もちろん後者の情報がエンコーダによって保持されているものとする。さらに、フィルタのスペクトルは、音出力パワーまたは能力など、デコーダの音演奏ハードウェア能力に従って、より少ないスーパーサンプリング（ｎ−１、ｎ−２など）を実施するために、復号時、減少させることができる。次いで、モジュール４０３は、時間領域中の実数フィルタを生成するために、フィルタのスペクトル係数に対して逆フーリエ変換を行う。例の実施形態では、フィルタは、より対称的であり、それによって、フィルタ送信のために送られるデータを減少させることが可能である。モジュール４０６は、そのように構成されたフィルタを用いて、モジュール４０５から出力されたスーパーサンプリングされた信号の畳み込みを行って、その結果得られる信号を生成する。この畳み込みは、計算の点で特に経済的である、というのは、スーパーサンプリングが、ゼロ値を挿入することによって行われるからである。さらに、フィルタが実数であり、好ましい実施形態では対称的でさえあることによって、この畳み込みに必要な演算数を減少させることが可能である。

フィルタが、周波数が拡張された信号の全体に適用されるので、本発明は、送信された低域部分から再構成されたスペクトルの高域部分だけでなく、そのように再構成された信号の全体も再形成するという効果をもたらす。このようにして、それによって、送信されていないスペクトルの部分をモデル化するが、送信された低周波部分の圧縮、解凍、コード化および復号の様々な演算によって生じる生成物を修正することも可能である。

本発明の第２の効果は、各信号部分についていくつかの中から、音演奏の品質および使用される「機械時間」の点で最善フィルタを選択することができるモジュールによって、各信号部分の特性に従って使用されるフィルタをダイナミックに適合させるという可能性である。

シングルチャネル信号に関してそのように説明されたコード化方法は、マルチチャネル信号に対して適合させることができる。第１の明らかな適合は、各音声チャネルに独立にシングルチャネルの解決法を適用することからなる。そうは言うものの、この解決法は、マルチチャネル音声ストリームの様々なチャネル間の強い相互関係を活用していない点で、高くつくことが判明している。提案された解決法は、ストリームの異なるチャネルからシングルチャネルを構成することからなる。したがって、シングルチャネル信号の場合の上記に説明した処理と同様の処理が、この合成ストリームに対して実施される。シングルチャネルの方法と異なり、マルチチャネルの場合、該当のチャネルを再生するために、１つのフィルタが各チャネルについて決定され、そのとき、それが合成ストリームに適用される。このようにして、マルチチャネル音声ストリームは、１つの合成ストリームだけ、および送信されるチャネルと同じ数のフィルタを送信して、送信される。ここで、本方法を、ステレオ音響の場合について、図５および６を参照してより正確に説明する。ステレオ音響の実装は、たとえばホームシネマ用の５．１ストリームなど、自然に２つのチャネルより多い合成ストリームに拡張される。

図５に、本発明の実施形態によるステレオ音響エンコーダのアーキテクチャを示す。コード化される音声ストリームは、５０１で参照されるレフト・チャネル「Ｌ」および５０２で参照されるライト・チャネル「Ｒ」から構成される。合成モジュール５０３は、合成信号を生成するために、これら２つの信号を組み合わせる。この合成は、たとえば、２つのチャネルの平均としてもよく、したがって、合成信号は、Ｌ＋Ｒ／２に等しい。次いで、この合成信号は、上記に説明したシングルチャネル信号と同じ処理を受ける。これは、サブサンプリング・モジュール５０４によって、ファクターｎでサブサンプリングされる。次いで、サブサンプリングされた信号は、エンコーダ５０６によってコード化するために、コーダ５０５によってコード化される。これらのモジュールは、図３の既に説明したモジュール３１１および３１２と同じものである。サブサンプリングされコード化された合成信号は、ストリームの送り先に送信される。それは、また、図３のモジュール３１３に対応する復号モジュール５０７によって復号される。次に、それは、モジュール３０３に対応するスーパーサンプリング・モジュール５０８によってスーパーサンプリングされる。次いで、信号は、２つのフィルタ生成モジュール５０９および５１０によって処理される。これらのモジュールのそれぞれは、図３のモジュール３０４、３０５、３０６、３０８、３０９および３１０に対応する。第１のモジュール５０９は、フィルタＦ_Ｒを生成し、そのフィルタＦ_Ｒは、モジュール５０８から出力された合成ストリームに適用されたとき、右側チャネルＲに近い信号を生成することを可能にする。このモジュールは、入力として、モジュール５０８から出力された合成信号および右側チャネルＲ５０２からの元の信号を取り入れる。第２のモジュール５１０は、フィルタＦ_Ｌを生成し、このフィルタＦ_Ｌは、モジュール５０８から出力された合成ストリームに適用されたとき、左側チャネルＬに近い信号を生成することを可能にする。このモジュールは、入力として、モジュール５０８から出力された合成信号および左側チャネルＬ５０１からの元の信号を取り入れる。次いで、受信機に送るために、これらのフィルタまたはこれらのフィルタの識別子が、コード化モジュール５０６から出力されたサブサンプリングされコード化されたストリームと多重化される。

一般に、マルチチャネル信号の様々なチャネルは、高い相関を有するが、時間位相差を示す。わずかな時間シフトが、異なるチャネルの信号の間に生じる。このために、合成信号を生成するために、２以上のチャネルが平均化されたとき、このオフセットによって、ノイズが発生する傾向がある。したがって、基準として動作させるために、チャネルの１つ、たとえば左側チャネル「Ｌ」を選択し、そして他のチャネルは、合成信号の合成前に、この基準チャネルにリセットすることが有利である。このリセットは、リセットされるチャネルと基準チャネルの間の時間相関によって実施される。この相関は、相関のために選択された操作ウィンドウに対するオフセット値を定める。この操作ウィンドウは、フィルタを生成するために使用される操作ウィンドウに等しくなるように、選択されることが有利である。したがって、オフセット値は、生成されたフィルタと関連付けてフィルタに加えて送信し、それによって音声ストリームが再生されるとき、元のチャネル間の位相差を再構成することを可能にできる。

異なるチャネルに対応する信号のパワーを均等にするために、様々なチャネルの信号の利得を等化する工程を行うことができる。この等化によって、操作ウィンドウ上の信号に適用されることになる倍率値が定められる。この倍率値は、復号時、信号を再構成することを可能にする計算されたフィルタ中に、導入することができる。この倍率値は、基準チャネルとして選択されたチャネルを除き、チャネル毎に計算される。倍率値を導入すると、復号時、元の信号中のチャネル間の利得の差を再構成することが可能である。

さらに、フィルタの生成および位相シフトのための計算は、操作ウィンドウ（またはフレーム）と呼ばれる信号部分に対して行われる。したがって、音声ストリームを元に戻したとき、１つのフレームから他のフレームへの経路のため、チャネル間の位相差が変化することになる。この変化は、元に戻したとき、ノイズを生じる恐れがある。このノイズを防止するために、フレームの境界において位相差をスムーズにすることが可能である。そのようにして、フレームにおける変化による位相差の急な変化はすべて、もう生じない。

図６に、デコーダのステレオ音響の実施形態のアーキテクチャを示す。この図は、図４のステレオ音響と対をなすものである。Ｓ_１ｂと呼ばれるコード化された低周波の合成ストリーム、およびフィルタＦ_ＲおよびＦ_Ｌを取り出すために、受信された音声ストリームが逆多重化される。次いで、合成ストリームは、図４のモジュール４０４に対応する復号モジュール６０１によって復号される。次いで、そのスペクトルは、図４のモジュール４０５に対応するスーパーサンプリング・モジュール６０２によって、周波数がブロード化される。次いで、そのようにして生成された信号は、ライト・チャネルＳ_Ｒおよびレフト・チャネルＳ_Ｌを再度もたらすために、モジュール６０３および６０５によって解凍されたフィルタＦ_ＲおよびＦ_Ｌによって畳み込み演算が行われる。

位相差情報がストリーム中に導入された場合、位相差について基準チャネルとして動作していないチャネルは、この情報を使用してリセットされて、元のチャネルの位相差が生成される。この位相差情報は、たとえば、基準チャネルとして定められたチャネル以外のチャネルについて、フィルタのそれぞれと関連付けられたオフセット値の形を取ることができる。この位相差は、たとえば線形に、様々なフレーム間でスムーズにすることが有利である。

Claims

マルチチャネル音声ストリームのすべて、またはその一部分をコード化する方法であって、
前記マルチチャネル音声ストリームの各チャネルに対応する信号の合成によって生成された合成信号を得る工程と、
周波数が限定された合成信号を生成する工程であって、元の合成信号の周波数が、高周波の抑制によって低減される、工程と、
時間フィルタをチャネル毎に１つ生成する工程であって、前記時間フィルタは、前記限定された合成信号のスペクトルのブロード化によって生成された信号に適用されたとき、対応するチャネルの前記元の信号にスペクトル的に近い信号の発見を可能にする、工程とを少なくとも含むことを特徴とする、方法。
所与の元の信号の一部分に対して、および所与のチャネルに対して、このチャネルに対応するフィルタは、前記元の信号の一部分に、および前記限定された信号のスペクトルのブロード化によって生成された信号の対応する部分に適用されたフーリエ変換の係数の関数の要素対要素除算によって生成されることを特徴とする、請求項１に記載の方法。
異なるサイズのフーリエ変換が、使用される各サイズに対応する複数のフィルタを生成するために使用され、生成されたフィルタは、前記元の信号と、前記限定された信号のスペクトルをブロード化して生成された信号に前記フィルタを適用して生成された信号とを比較することによってなされた前記複数のフィルタからの選択に対応することを特徴とする、請求項２に記載の方法。
前記時間フィルタの選択は、所定の時間フィルタの集合体から行うことができることを特徴とする、請求項１に記載の方法。
前記周波数が限定された合成信号は、その送信を目的としてコード化され、前記フィルタは、前記コード化され限定された合成信号のスペクトルを復号しブロード化して生成された信号と、前記元の信号とを使用して生成されることを特徴とする、請求項１に記載の方法。
マルチチャネル音声ストリームのチャネルの１つを基準チャネルとして定める工程と、
各チャネルについてオフセット値を定める、前記基準チャネルに対するその他のチャネルのそれぞれの時間相関の工程とをさらに含み、
前記各チャネルの信号を構成する工程が、前記基準チャネルの信号と、その他のチャネルについての時間的に相関性がある信号とを用いて実施されることを特徴とする、請求項１に記載の方法。
前記基準チャネル以外の各チャネルについて、前記チャネルの時間相関によって定められた前記オフセット値は、前記生成されたフィルタと関連付けられることを特徴とする、請求項６に記載の方法。
前記マルチチャネル音声ストリームのチャネルの１つを基準チャネルとして定める工程と、
前記基準チャネルに対してその他のチャネルのそれぞれを等化して、各チャネルについて倍率値を定める工程とをさらに含み、
前記各チャネルの信号を構成する工程は、前記基準チャネルの信号と、その他のチャネルについての前記等化された信号とを用いて実施されることを特徴とする、請求項１に記載の方法。
前記基準チャネル以外の各チャネルについて、前記チャネルの時間相関によって定められた前記倍率値は、前記生成されたフィルタと関連付けられることを特徴とする、請求項８に記載の方法。
マルチチャネル音声ストリームのすべて、またはその一部分を復号する方法であって、
送信された信号を受信する工程と、
前記マルチチャネル音声ストリームの各チャネルについて受信された信号に関する時間フィルタを受信する工程と、
前記受信された信号を復号することによって、復号された信号を生成する工程と、
復号信号のスペクトルをブロード化することによって拡張された信号を生成する工程と、
前記マルチチャネル音声ストリームの各チャネルについて受信された前記時間フィルタによる、前記拡張された信号の畳み込みによって、再構成された信号を生成する工程とを少なくとも含む
ことを特徴とする、方法。
前記生成されたフィルタからサイズが減少されたフィルタが、前記各チャネルについて再構成された信号を生成する工程で、この生成されたフィルタの代わりに使用されることを特徴とする、請求項１０に記載の方法。
各チャネルについて前記生成されたフィルタの代わりにサイズが減少されたフィルタを使用するという選択は、デコーダの能力に従って行われることを特徴とする、請求項１１に記載の方法。
前記マルチチャネル・ストリームのチャネルの１つが基準チャネルとして定められ、オフセット値が前記基準チャネル以外のチャネルについて受信された各フィルタと関連付けられており、
元のマルチチャネル音声ストリーム中の各チャネルと前記基準チャネルの間の時間位相差と同様の時間位相差を生成することを可能にする、前記基準チャネル以外の各チャネルに対応する信号をオフセットさせる工程も含むことを特徴とする、請求項１０に記載の方法。
前記基準チャネル以外の各チャネルについて前記オフセット値の急な変化を避けるために、フレーム間の境界で前記オフセット値をスムージングする工程をさらに含むことを特徴とする、請求項１３に記載の方法。
前記マルチチャネル・ストリームのチャネルの１つが、基準チャネルとして定められ、倍率値が、前記基準チャネル以外のチャネルについて受信された各フィルタと関連付けられており、
元のマルチチャネル音声ストリーム中の各チャネルと前記基準チャネルの間の利得の差と同様の利得の差を生成することを可能にする、前記基準チャネル以外の各チャネルに対応する信号を増幅する工程も含むことを特徴とする、請求項１０に記載の方法。
マルチチャネル音声ストリームをコード化するための装置であって、
前記マルチチャネル音声ストリームの各チャネルに対応する信号の合成によって生成された合成信号を得る手段と、
周波数が限定された合成信号を生成する手段であって、元の合成信号のスペクトルが、高周波の抑制によって減少される、手段と、
前記時間フィルタをチャネル毎に１つ生成する手段であって、前記時間フィルタは、前記限定された信号のスペクトルをブロード化することによって生成された信号に適用されたとき、対応するチャネルの前記元の信号にスペクトル的に近い信号を見出すことを可能にする、手段とを少なくとも含むことを特徴とする、装置。
マルチチャネル音声ストリームを復号するための装置であって、
送信された信号を受信する手段と、
前記マルチチャネル音声ストリームの各チャネルについて受信された信号に関する時間フィルタを受信する手段と、
前記受信された信号を復号することによって、復号された信号を生成する手段と、
復号信号のスペクトルをブロード化することによって、拡張された信号を生成する手段と、
前記マルチチャネル音声ストリームの各チャネルについて受信された前記時間フィルタによる、前記拡張された信号の畳み込みによって、再構成された信号を生成する手段とを少なくとも含む
ことを特徴とする、装置。