JP2010541007A

JP2010541007A - マルチ・チャンネル音響信号をエンコードするための装置および方法

Info

Publication number: JP2010541007A
Application number: JP2010527010A
Authority: JP
Inventors: アラステアギブス、ジョナサン
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 2007-09-25
Filing date: 2008-09-09
Publication date: 2010-12-24
Anticipated expiration: 2028-09-09
Also published as: KR101120913B1; RU2450369C2; US8577045B2; BRPI0817982A2; GB2453117A; EP2206110A4; WO2009042386A4; CN101809655B; CA2698600C; US20170116997A1; MX2010002846A; WO2009042386A1; BRPI0817982B1; MY169423A; US9570080B2; GB0718682D0; US20130282384A1; RU2010116295A; KR20100057666A; EP2206110A1

Abstract

エンコード装置が、少なくとも第１のマイクロフォン（１０１）からの第１の音響信号と第２のマイクロフォン（１０３）からの第２の音響信号とを含むマルチ・チャンネル音響信号を受信するフレーム・プロセッサ（１０５）を備える。ＩＴＤプロセッサ（１０７）が次に、第１の音響信号と第２の音響信号との間の相互時間差を決定し、遅延（１０９、１１１）の組が、第１および第２の音響信号の少なくとも一方を相互時間差信号に応じて遅延させることによってマルチ・チャンネル音響信号から補償済みマルチ・チャンネル音響信号を発生させる。結合器（１１３）が次に、補償済みマルチ・チャンネル音響信号のチャンネルを組み合わせることによってモノラル信号を生成し、モノラル信号エンコーダ（１１５）がモノラル信号をエンコードする。相互時間差は、第１および第２の音響信号間の相互相関を決定することに基づくアルゴリズムによって具体的に決定しても良い。

Description

本発明は、マルチ・チャンネル音響信号をエンコードするための装置および方法に関し、特に、しかしこれに限らないが、ステレオ音声信号をモノラル信号にダウン・ミックスして、モノラル・エンコーダ、たとえば符号励振線形予測エンコーダを用いたエンコードを図ることに関する。

音響信号を効率的にエンコードすることは、用途およびシステムの数がますます増える場合に重要である。たとえば、モバイル通信では、効率的な音声エンコーダを用いて、無線インターフェースを介して送信する必要があるデータ量を減らしている。

たとえば、国際電気通信連合（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ：ＩＴＵ）では、エンベデッド可変ビットレート・コーデック（ＥｍｂｅｄｅｄＶａｒｉａｂｌｅＢｉｔＲａｔｅＣｏｄｅｃ：ＥＶ−ＶＢＲ）として知られる音声エンコーダを標準化している。これは、音声信号を高品質で８〜６４ｋｂｐの範囲のデータ・レートでエンコードすることができるものである。このエンコーダは、他の多くの効率的な音声エンコーダと同様に、符号励振線形予測（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ：ＣＥＬＰ）技術を用いて、より低いビットレートの動作におけるエンコード処理の高い圧縮比を達成している。

用途によっては、複数の音響信号を取り込む場合があり、特にステレオ信号を、２つのマイクロフォンを用いた音響システムにおいて録音する場合がある。たとえば、ステレオ録音を通常、オーディオ・ビデオ会議とともに放送用途において用いる場合がある。

多くのマルチ・チャンネル・エンコード・システムにおいて、特に多くのマルチ・チャンネル音声エンコード・システムにおいて、低レベルのエンコードは単一チャンネルのエンコードに基づいている。このようなシステムでは、コーダーの下部層がエンコードするために、マルチ・チャンネル信号をモノラル信号に変換する場合がある。このモノラル信号の生成は、ダウン・ミキシングと言われる。このようなダウン・ミキシングは、モノラル信号に対するステレオ信号の様相（ａｓｐｅｃｔ）を記載するパラメータに関連付けられる場合がある。具体的には、ダウン・ミキシングによって、左および右のチャンネル間のタイミング差を特徴づけるチャネル間時間差（ｉｎｔｅｒ−ｃｈａｎｎｅｌｔｉｍｅｄｉｆｆｅｒｅｎｃｅ：ＩＴＤ）情報を生成する場合がある。たとえば、２つのマイクロフォンが互いに少し離れて位置する場合、話者が一方のマイクロフォンの方に他方よりも近くに位置するときには、話者から出る信号は、後者のマイクロフォンには最初のものより遅れて到達する。このＩＴＤを、決定する場合があり、またデコーダにおいてモノラル信号からステレオ信号を再現するために用いる場合がある。ＩＴＤによって、再現されるステレオ立体感（ｓｔｅｒｅｏｐｅｒｓｐｅｃｔｉｖｅ）の品質が著しく向上する場合がある。なぜならば、ＩＴＤは、周波数がほぼ１ｋＨｚを下回る場合にはステレオ位置に対する支配的な知覚的影響であることが分かっているからである。したがって、ＩＴＤを推定することも重要である。

従来、モノラル信号は、ステレオ信号を一緒に加算することによって生成される。その後、モノラル信号はエンコードされ、ＩＴＤとともにデコーダに送信される。
たとえば、欧州電気通信標準化機構は、その技術仕様書ＥＴＳＩ−ＴＳ１２６２９０「拡張した適応マルチ・レート広帯域（ＡｄａｐｔｉｖｅＭｕｌｔｉ−Ｒａｔｅ − Ｗｉｄｅｂａｎｄ：ＡＭＲ−ＷＢ＋）コーデック；トランスコーディング機能」において、ステレオ信号ダウン・ミキシングを規定している。ここでは、モノラル信号は単に、以下のように左および右チャンネルの平均値として決められている。

Ｘ_ＭＬ（ｎ）＝０．５（Ｘ_ＬＬ（ｎ）＋Ｘ_ＲＬ（ｎ））
ここで、Ｘ_ＭＬ（ｎ）はモノラル信号のＮ番目のサンプルを表わし、Ｘ_ＬＬ（ｎ）は左チャンネル信号のＮ番目のサンプルを表わし、Ｘ_ＲＬ（ｎ）は右チャンネル信号のｎ番目のサンプルを表わしている。

ダウン・ミックスの別の例が以下の文献に示されている。Ｈ．パーンヘーゲン（Ｐｕｒｎｈａｇｅｎ）、「ＭＰＥＧ４における低複雑性パラメータ・ステレオ・コーディング（ＬｏｗＣｏｍｐｌｅｘｉｔｙＰａｒａｍｅｔｒｉｃＳｔｅｒｅｏＣｏｄｉｎｇｉｎＭＰＥＧ−４）」、会議記録第７回デジタル音響効果に関する国際会議（７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ）（ＤＡＦｘ’０４）、ナポリ（Ｎａｐｌｅｓ）、イタリア（Ｉｔａｌｙ）、１０月５日〜８日、２００４年、１６３〜１６８ページ。この文献では、ダウン・ミキシング法として、出力モノラル信号を、チャネル間強度差（ＩＩＤ）について得られる情報を用いてバンド毎の周波数に基づく着信チャンネルの加重和として得る方法について説明している。具体的には以下の通りである。

Ｍ［ｋ，ｉ］＝ｇ_ｌＬ［ｋ，ｉ］＋ｇ_ｒＲ［ｋ，ｉ］
ここで、Ｍ［ｋ，ｉ］は、モノラル信号のｋ番目の周波数ビン（ｆｒｅｑｕｅｎｃｙｂｉｎ）のｉ番目のサンプルを表わし、Ｌ［ｋ，ｉ］は、左チャンネル信号のｋ番目の周波数ビンのｉ番目のサンプルを表わし、Ｒ［ｋ，ｉ］は、右チャンネル信号のｋ番目の周波数ビンのｉ番目のサンプルを表わし、ｇ_ｌは左チャンネル重みであり、ｇ_ｒは右チャンネル重みである。

このようなアプローチの特徴は、結果として、モノラル信号の残響時間が高いか、あるいは複雑性および遅延の少なくとも一方が高いかである。たとえば、ＡＭＲ−ＷＢ＋のダウン・ミキシング法で得られる出力の残響時間はほぼ、部屋の残響時間プラス２つのマイクロフォン間の飛行時間である。パーンヘーゲンにおいて与えられるダウン・ミックスは、複雑性が高く、周波数解析および再構成に起因する遅延が課される。

しかし、多くのモノラル・エンコーダでは、残響時間が低い信号に対して最良の結果が得られる。たとえば、低ビット・レートＣＥＬＰ音声コーダー、およびパルス・ベースの励起を用いて音声および音響信号を表わす他のエンコーダは、残響時間が短い信号を提示されるときに最良に機能する。したがって、エンコーダの性能、および結果として生じるエンコード後の信号の品質は、準最適となる傾向がある。

したがって、改善されたシステムは優位であり、特に、更なる適応性、実施容易性、改善したエンコード品質、改善したエンコード効率、減少した遅延、および改善した性能の少なくとも一つを可能とするシステムが優位であろう。

Ｈ．パーンヘーゲン（Ｐｕｒｎｈａｇｅｎ）、「ＭＰＥＧ４における低複雑性パラメータ・ステレオ・コーディング（ＬｏｗＣｏｍｐｌｅｘｉｔｙＰａｒａｍｅｔｒｉｃＳｔｅｒｅｏＣｏｄｉｎｇｉｎＭＰＥＧ−４）」、会議記録第７回デジタル音響効果に関する国際会議（７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ）（ＤＡＦｘ’０４）、ナポリ（Ｎａｐｌｅｓ）、イタリア（Ｉｔａｌｙ）、１０月５日〜８日、２００４年、１６３〜１６８ページ

したがって本発明の目的は、好ましくは、前述した不利のうちの１つまたは複数を、単独でまたは任意の組み合わせで、軽減するか、緩和するか、またはなくすことである。

本発明の態様によれば、マルチ・チャンネル音響信号をエンコードするための装置であって、少なくとも第１のマイクロフォンからの第１の音響信号と第２のマイクロフォンからの第２の音響信号とを含むマルチ・チャンネル音響信号を受信する受信部と、第１の音響信号と第２の音響信号との間の相互時間差を決定する時間差ユニットと、相互時間差信号に応じて第１の音響信号と第２の音響信号との少なくとも一方を遅延させることによって、マルチ・チャンネル音響信号から補償済みマルチ・チャンネル音響信号を生成する遅延ユニットと、補償済みマルチ・チャンネル音響信号のチャンネルを組み合わせることによってモノラル信号を生成するモノラル・ユニットと、モノラル信号をエンコードするモノラル信号エンコーダとを備える装置が提供される。

本発明によって、マルチ・チャンネル音響信号のエンコードの改善が得られる場合がある。特に、ある特定のデータ・レートに対する品質の向上が、多くの実施形態において実現される場合がある。本発明によって、ステレオ信号からのモノラル・ダウン・ミックス信号のモノラル・エンコードを改善することが、モノラル・ダウン・ミックス信号の残響時間を短くすることによって得られる場合がある。遅延ユニットは、どのマイクロフォンが（主の）音源に最も近いかに応じて、第１の音響信号または第２の音響信号のいずれかを遅延させても良い。相互時間差は、同じ音源から生じる第１および第２の音響信号の対応する音響成分間の時間差を表示したものであっても良い。モノラル信号を生成するユニットを、第１および第２の音響信号に対応する組み合わせマルチ・チャンネル音響信号の２つのチャンネルを合計するように構成しても良い。一部の実施形態においては、合計は加重和であっても良い。

本発明の任意的な特徴によれば、時間差ユニットは、複数の時間オフセットに対して第１の音響信号と第２の音響信号との間の相互相関を決定し、相互相関に応じて相互時間差を決定するように構成される。

この特徴によって、相互時間差の決定が改善される場合がある。この特徴によって、エンコード後の音響信号の品質が向上する場合、実施が容易になる場合、および複雑性が減る場合の少なくとも一つがある。特に、この特徴によって、モノラル信号及び相互時間差から得られるステレオ信号のステレオ知覚（ｐｅｒｃｅｐｔｉｏｎ）が向上する場合がある。相互相関は、相互時間差が個々の相互相関の時間オフセットに等しくなる確率を示しても良い。

本発明の別の態様によれば、マルチ・チャンネル音響信号をエンコードする方法であって、少なくとも第１のマイクロフォンからの第１の音響信号と第２のマイクロフォンからの第２の音響信号とを含むマルチ・チャンネル音響信号を受信すること、第１の音響信号と第２の音響信号との間の相互時間差を決定すること、相互時間差信号に応じて第１の音響信号と第２の音響信号との少なくとも一方を遅延させることによって、マルチ・チャンネル音響信号から補償済みマルチ・チャンネル音響信号を生成すること、補償済みマルチ・チャンネル音響信号のチャンネルを組み合わせることによってモノラル信号を生成すること、モノラル信号エンコーダにおいてモノラル信号をエンコードすることを含む方法が提供される。

本発明のこれらおよび他の態様、特徴および優位性は、以下に説明する実施形態から明らかとなり、また実施形態を参照して明瞭になる。

本発明の一部の実施形態によるマルチ・チャンネル音響信号をエンコードするための装置の例を例示する図である。本発明の一部の実施形態による相互時間差を推定するための処理ユニットの例を例示する図である。本発明の一部の実施形態による白色化プロセッサの例を例示する図である。本発明の一部の実施形態によるトレリス状態機械に対する状態更新の例を例示する図である。本発明の一部の実施形態によるマルチ・チャンネル音響信号をエンコードするための方法の例を例示する図である。

本発明の実施形態は、単に一例として、図面を参照して説明する。
以下の説明では、モノラル・エンコーダを用いたマルチ・チャンネル音響信号のエンコード、特にモノラルＣＥＬＰエンコーダを用いたステレオ音声信号のエンコードに適用可能な本発明の実施形態に焦点を当てる。

図１に、本発明の一部の実施形態によるマルチ・チャンネル音響信号をエンコードするための装置を例示する。この具体例では、ステレオ音声信号は、モノラル信号にダウン・ミックスされ、モノラル・エンコーダを用いてエンコードされる。

装置は、２つのマイクロフォン１０１、１０３を備える。これらは、２つのマイクロフォンが配置される音響環境から音響信号を取り込む。この例では、２つのマイクロフォンを、部屋内の音声信号を記録するために使用し、最大３メートルの内部距離で配置する。特定の応用例では、マイクロフォン１０１、１０３は、たとえば部屋内の複数の人間から音声信号を記録しても良く、２つのマイクロフォンを用いることによって部屋のより良好な音響対象範囲（ａｕｄｉｏｃｏｖｅｒａｇｅ）が得られる場合がある。

マイクロフォン１０１、１０３は、フレーム・プロセッサ１０５に結合されている。フレーム・プロセッサ１０５は、第１および第２の信号を、第１および第２のマイクロフォン１０１、１０３からそれぞれ受信する。フレーム・プロセッサによって、信号が連続的なフレームに分割される。この具体例では、サンプル周波数は１６ｋサンプル／秒であり、フレームの継続時間は２０ｍｓｅｃであり、その結果、各フレームには３２０個のサンプルが含まれる。フレーム処理は必ずしも、音声経路への付加的な遅延とはならないことに注意されたい。その理由は、このフレームが、音声エンコード用に用いるものと同じフレームであってよく、またはフレーム処理がたとえば、古い音声サンプルに対して行なわれてもよいからである。

フレーム・プロセッサ１０５は、ＩＴＤプロセッサ１０７に結合されている。ＩＴＤプロセッサ１０７は、第１の音響信号と第２の音響信号との間の相互時間差を決定するように構成されている。相互時間差は、一方のチャンネルにおける信号の、他方のチャンネルにおける信号に対する遅延を表示したものである。この例では、相互時間差は、どちらのチャンネルが他方に対して遅延されているかに応じて、正であっても良いし負であっても良い。遅延は通常、支配的な音声源（すなわち、現在話している話者）とマイクロフォン１０１、１０３との間の遅延の差に起因して起こる。

ＩＴＤプロセッサ１０７はさらに、２つの遅延１０９、１１１に結合されている。第１の遅延１０９は、第１の音響チャンネルに遅延を導入するように構成され、第２の遅延１０９は、第２の音響チャンネルに遅延を導入するように構成されている。導入する遅延の量は、推定される相互時間差に依存する。さらに、この具体例では、常に遅延のうちの１つのみを用いる。その結果、推定される相互時間差の符号に応じて、遅延が第１または第２の音響信号のいずれかに導入される。遅延量は、推定される相互時間差にできるだけ近くなるように、具体的に設定される。結果として、遅延１０９、１１１の出力における音響信号は、厳密に時間整合され、具体的には相互時間差は通常はゼロに近い。

遅延１０９、１１１は結合器１１３に結合されている。結合器１１３は、補償済みマルチ・チャンネル音響信号のチャンネルを組み合わせることによってモノラル信号を生成するものであり、具体的には遅延１０９、１１１からの２つの出力信号を組み合わせることによって行なう。この例では、結合器１１３は、２つの信号を一緒に加える単純な総和ユニットである。さらに、信号を０．５倍に縮尺して、モノラル信号の振幅を組み合わせ前の個々の信号の振幅と同様に維持する。

こうして、結合器１１３の出力は、２つの取り込まれた信号のダウン・ミックスであるモノラル信号となる。さらに、遅延と、相互時間差の減少とに起因して、生成されたモノラル信号は残響が著しく減っている。

結合器１１３はモノラル・エンコーダ１１５に結合されている。モノラル・エンコーダ１１５は、モノラル信号のモノラル・エンコードを行なって、エンコード済みのデータを生成する。この具体例では、モノラル・エンコーダは、国際電気通信連合（ＩＴＵ）によって標準化されるべきエンベデッド可変ビットレート・コーデック（ＥＶ−ＶＢＲ）による符号励振線形予測（ＣＥＬＰ）エンコーダである。

ＣＥＬＰコーダーは、極めて効率的なエンコードを実現するものとして、具体的には、低データ・レートの場合であっても良好な音声品質を実現するものとして知られている。しかしＣＥＬＰコーダーは、残響時間が高い信号に対しては同様に機能しない傾向があり、したがって従来行なわれているモノラル・ダウン・ミックスのエンコードには適していなかった。しかし、遅延補償および結果として生じる残響の低下に起因して、ＣＥＬＰモノラル・エンコーダを図１の装置において用いて、音声ダウン・ミックス・モノラル信号の非常に効率的なエンコードが得られる場合がある。当然のことながら、これらの優位性は特にＣＥＬＰモノラル・エンコーダに対して適切であるが、それに限定されるわけではなく、他の多くのエンコーダに適用しても良い。

モノラル・エンコーダ１１５は、出力マルチプレクサ１１７に結合されている。出力マルチプレクサ１１７はさらに、ＩＴＤプロセッサ１０７に結合されている。この例では、出力マルチプレクサ１１７は、モノラル・エンコーダ１１５から得られるエンコーディング・データと、ＩＴＤプロセッサ１０７から得られる相互時間差を表わすデータとを多重化して、単一の出力ビットストリームにする。ビットストリームに相互時間差を含めることによって、デコーダを、エンコーディング・データからデコードされたモノラル信号からステレオ信号を再現する際に助ける場合がある。

その結果、説明したシステムによって、性能の向上が得られ、特に、ある特定のデータ・レートに対して音響品質の向上が得られる場合がある。特に、モノラル・エンコーダたとえばＣＥＬＰエンコーダの使用方法が改善されることによって、品質が著しく向上する場合がある。さらに、説明した機能は実施が容易であり、資源要求が比較的低い。

以下、ＩＴＤプロセッサ１０７が行なう相互時間差の推定について、図２を参照して説明する。
ＩＴＤプロセッサ１０７が用いるアルゴリズムは、チャンネル間の異なる可能な時間オフセットに対して、第１および第２の音響信号間の相互相関の経時的観測を組み合わせることによって、相互時間差の推定を決定するものである。相関は、間引きされたＬＰＣの残りの領域（ｄｅｃｉｍａｔｅｄＬＰＣｒｅｓｉｄｕａｌｄｏｍａｉｎ）において、より明確な相関を実現し、実施を容易にし、および計算要求を減らすために行なわれる。この例では、相互相関を処理して、−１２ｍｓと＋１２ｍｓとの間（±〜４メートル）における各潜在的な遅延に関連する確率を導き出した後に、確率を、変更されたビタビ様アルゴリズムを用いて蓄積する。その結果、固有のヒステリシスを伴う相互時間差が推定される。

ＩＴＤプロセッサ１０７は間引きプロセッサ（ｄｅｃｉｍａｔｉｏｎｐｒｏｃｅｓｓｏｒ）２０１を備える。間引きプロセッサ２０１は、フレーム・プロセッサ１０５から２つのチャンネルに対するサンプルのフレームを受信する。間引きプロセッサ２０１は、最初に低域通過フィルタリングを行ない、その後に間引きを行なう。この具体例では、低域通過フィルタの帯域幅は約２ｋＨｚであり、間引き係数として４を１６ｋサンプル／秒の信号に対して使用する結果、間引きされるサンプル周波数は４ｋサンプル／秒となる。フィルタリングおよび間引きの効果は部分的に、処理するサンプルの数を減らすことであり、その結果、計算要求が減る。しかしまたこのアプローチによって、相互時間差の推定を、相互時間差の知覚的な重要性が最も著しいもっと低い周波数に対してフォーカスすることができる。こうして、フィルタリングおよび間引きによって、計算負担が減るだけでなく、最も影響を受けやすい周波数にとって相互時間差の推定が適切であることを確実にする相乗効果が得られる。

間引きプロセッサ２０１は白色化プロセッサ２０３に結合されている。白色化プロセッサ（ｗｈｉｔｅｎｉｎｇｐｒｏｃｅｓｓｏｒ）２０３は、相関に先立って、スペクトル白色化アルゴリズムを第１および第２の音響信号に適用するように構成されている。スペクトル白色化は、発声または発音の音声（ｖｏｉｃｅｄｏｒｔｏｎａｌｓｐｅｅｃｈ）の場合に、インパルスの組にさらに厳密に似ている２つの信号の時間領域信号を生じさせるので、以後の相関は、より明確な相互相関値をもたらすことができ、具体的には、より狭い相関ピークをもたらすことができる（インパルスの周波数応答が、平坦または白色スペクトルに対応し、逆に白色スペクトルの時間領域表現がインパルスとなる）。

この具体例では、スペクトル白色化は、第１および第２の音響信号に対する線形予測係数を算出することと、線形予測係数に応じて第１および第２の音響信号をフィルタリングすることとを含む。

図３に、白色化プロセッサ２０３の要素を示す。具体的には、間引きプロセッサ２０１から出た信号は、ＬＰＣプロセッサ３０１、３０３に供給される。ＬＰＣプロセッサ３０１、３０３は、２つの信号に対して線形予測フィルタに対する線形予測係数（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｅｆｆｉｃｉｅｎｔ：ＬＰＣ）を決定する。当然のことながら、ＬＰＣを決定するための種々のアルゴリズムが当業者には知られており、本発明を損なうことなく好適な任意のアルゴリズムを用いても良い。

この例では、２つの音響信号が２つのフィルタ３０５、３０７に供給される。フィルタ３０５、３０７は、ＬＰＣプロセッサ３０１、３０３に結合されている。２つのフィルタは、ＬＰＣプロセッサ３０１、３０３によって決定された線形予測フィルタの逆フィルタとなるように決定される。具体的には、ＬＰＣプロセッサ３０１、３０３によって線形予測フィルタの逆フィルタに対する係数が決定され、２つのフィルタの係数はこれらの値に設定される。

２つの逆フィルタ３０５、３０７の出力は、発声の音声（ｖｏｉｃｅｄｓｐｅｅｃｈ）の場合に、インパルス列の組と似ており、その結果、音声領域（ｓｐｅｅｃｈｄｏｍａｉｎ）において可能であろう場合よりも、著しくより正確な相互相関を行なうことができる。

白色化プロセッサ２０３は、相関器２０５に結合されている。相関器２０５は、複数の時間オフセットに対する２つのフィルタ３０５、３０７の出力信号間の相互相関を決定するために配置されている。

具体的には、相関器は以下の値を決定することができる。

ここで、ｔは時間オフセットであり、ｘおよびｙは、２つの信号のサンプルであり、Ｎは、特定のフレームにおけるサンプルを表わしている。

相関は、可能な時間オフセットの組に対して行なう。この具体例では、相関は、±１２ｍｓｅｃの最大の時間オフセットに対応する全体として９７個の時間オフセットに対して行なわれる。しかし、当然のことながら、他の実施形態においては時間オフセットの他の組を用いても良い。

こうして、相関器は９７個の相互相関値を生成する。各相互相関は、２つのチャンネル間の特定の時間オフセットに、したがって可能な相互時間差に対応する。相互相関値は、特定の時間オフセットに対して２つの信号がどのくらい厳密にマッチしているかを示す表示に対応している。したがって、相互相関値が高い場合には信号は厳密にマッチしており、それに応じて、時間オフセットが正確な相互時間差の推定であるという確率は高い。逆に、相互相関値が低い場合には信号は厳密にはマッチしておらず、それに応じて、時間オフセットが正確な相互時間差の推定であるという確率は低い。こうして、各フレームに対して、相関器２０５は９７個の相互相関値を生成し、各値は、対応する時間オフセットが正しい相互時間差であるという確率を表示するものである。

この例では、相関器２０５は、第１および第２の音響信号に対するウィンドウ処理を相互相関の前に行なうために配置されている。具体的には、２つの信号の各フレーム・サンプル・ブロックは、２０ｍｓ窓（１４ｍｓの矩形の中央部分と各端部における２つの３ｍｓのハン部分（Ｈａｎｎｐｏｒｔｉｏｎｓ）とを含む）を用いてウィンドウ処理される。このウィンドウ処理によって、精度が向上し、相関窓のエッジにおける境界効果の影響が減る場合がある。

また、この例では、相互相関が規格化されている。規格は、具体的には、実現可能な最大の（すなわち、２つの信号が同一であるときの）相互相関値が１の値（ｕｎｉｔｙｖａｌｕｅ）を有することを確実にするためである。規格化によって、入力信号の信号レベルと試験した相関時間オフセットとは比較的無関係な相互相関値が得られ、その結果、確率の表示がより正確になる。特に、一続きのフレームに対する比較および処理を向上させることができる。

単純な実施形態においては、相関器２０５の出力を直接評価しても良く、現在フレームに対する相互時間差を、相互相関値が示すような最も確率が高い値に設定しても良い。しかし、このような方法では、音声信号が有声から無声へそして無音へと変動したときに、出力の信頼性がそれほど高くはない傾向があるであろう。説明した例では、相関器から状態プロセッサ２０７に供給され、そこで複数の状態に対して相関値が処理されて、より正確な相互時間差の推定が行なわれる。

この例では、相関値を、状態プロセッサ２０７において実施されるビタビ（Ｖｉｔｅｒｂｉ）・アルゴリズム・メトリック（ｍｅｔｒｉｃ）・アキュームレータに対する更新工程として用いる。

その結果、状態プロセッサ２０７によって、具体的には、時間オフセットに対応した多くの状態を有するメトリック・アキュームレータが実現される。こうして、各状態は、時間オフセットを表わし、蓄積されたメトリック値が付随している。

したがって、メトリック・アキュームレータの形態のビタビ・ベースのトレリス（ｔｒｅｌｌｉｓ）状態機械は、相関値が計算された時間オフセット（すなわち、具体例では９７個の状態／時間オフセット）のそれぞれに対して計量値を記憶する。各状態／時間オフセットは、具体的には、その状態の時間オフセットに相互時間差が対応する確率を示す確率メトリックに関連している。

すべての時間オフセットに対する確率メトリックをあらゆるフレームにおいて再計算して、現在フレームに対して決定された相関値を考慮に入れる。具体的には、経路メトリックを、相互相関に応じて状態／時間オフセットに対して計算する。この具体例では、相互相関を対数領域に、式ｌｏｇ（０．５＋ｐ_ｉ）を適用して変換する。ここで、ｐ_ｉは、ｉ番目の相関値（規格化処理により０〜１であり、相互時間差が、関連する時間オフセットに対応する確率に対応する）である。

この例では、ある特定の確率メトリックへの寄与は、その時間オフセットの以前の確率メトリックと、現在のフレームに対して計算されたオフセットに対する相関値とから決定される。加えて、寄与が由来する相関値は、相互時間差がある値から別の値に変化する（すなわち、最も起こりそうな状態が、ある時間オフセットのそれであることから、別の時間オフセットのそれであることに変化する）状況に対応する隣接する時間オフセットに関連する相関値である。

隣接する相互時間差値に対応する隣接する状態からの経路に対する経路メトリックは、同じ状態からの経路に対する経路メトリックよりもかなり低く加重される。具体的には、実験が示すところによれば、隣接する相関値が、同じ状態に対する相互相関よりも少なくとも５倍高く加重されるときに、特定の優位な性能が見出される。この具体例では、隣接する状態の経路メトリックは０．００９倍加重され、同じ状態の経路メトリックは０．９８２倍加重される。

図４に、トレリス状態機械に対するフレームｔに対するメトリック更新の例を例示する。この具体例では、時間ｔにおける状態Ｓ_ｎに対する状態確率メトリックの計算を、時間ｔ−１における状態Ｓ_ｎと時間ｔ−１における隣接する状態Ｓ_ｎ−１およびＳ_ｎ＋１とを含む以前の状態の下位集合からの経路の経路メトリックから行なう。具体的には、状態Ｓ_ｎに対する状態確率メトリックは以下のように与えられる。

ここで、Ｐ^ｔ _ｘは、フレームｔにおける状態ｘから状態ｎへの計算された加重経路メトリックである。

この例では、最も低い状態確率メトリックをすべての状態確率メトリックから差し引くことによって、確率メトリックを各フレームにおいて変更する。この結果、連続して増える状態確率メトリックに由来するオーバー・フロー問題が軽減される。

この例では、ある特定の時間オフセットメトリックに対する寄与が、オフセット自体および隣接するオフセットを含むオフセットの下位集合に対してのみ含まれている。しかし当然のことながら、他の実施形態においては、時間オフセットの他の下位集合を考慮しても良い。

この例では、トレリス状態機械に対する状態メトリックは各フレームにおいて更新される。しかし従来のビタビ・アルゴリズムとは対照的に、状態プロセッサ２０７は、各状態に対して好ましい経路を選択するのではなく、ある特定の状態に対する状態確率メトリックを、その状態に入るすべての経路に由来する組み合わせ寄与として計算する。また状態プロセッサ２０７は、存続している経路を決定するためにトレリスを通ってさかのぼって追跡することはしない。むしろ、この例では、現時点での相互時間差の推定を、現時点で状態確率メトリックが最も高い状態に対応する時間オフセットとして、単純に選択することができる。その結果、状態機械では遅延を受けない。さらに、確率状態メトリックは以前の値（および他の状態）に依存するため、ヒステリシスが本来的に実現される。

具体的には、状態プロセッサ２０７はＩＴＤプロセッサ２０９に結合されている。ＩＴＤプロセッサ２０９では、状態確率メトリックが最も高い状態に付随する時間オフセットから相互時間差を決定する。具体的には、ＩＴＤプロセッサ２０９は相互時間差を直接、状態確率メトリックが最も高い状態の時間オフセットに等しくなるように設定しても良い。

ＩＴＤプロセッサ２０９は、遅延プロセッサ２１１に結合されている。遅延プロセッサ２１１では、遅延１０９、１１１に適用されるべき遅延を決定する。最初に、遅延プロセッサ２１１は、間引きプロセッサ２０１において適用される間引き係数によって相互時間差を補償する。単純な実施形態においては、推定された相互時間差を、間引きされた（たとえば、２５０μｓの分解能に対応して４ｋＨｚで間引きされた）ある数のサンプルとして与えても良く、これに間引き係数を乗じて、ある数の間引きされていないサンプルに変換しても良い（たとえば、係数４を乗じて１６ｋＨｚのサンプルにしても良い）。

この例では、遅延プロセッサ２１１は、両方の遅延１０９、１１１に対して値を設定する。具体的には、相互時間差の符号に応じて、遅延の一方をゼロに設定し、他方の遅延を、計算された数の間引きされていないサンプルに設定する。

相互時間差を計算するための説明したアプローチによって、エンコード後の信号の品質が向上し、特に、エンコード前のモノラル信号の残響が減る。その結果、ＣＥＬＰモノラル・エンコーダ１１５の動作および性能が向上する。

具体的な試験を行なった。すなわち、３つのステレオ試験信号を会議室内で、一対のマイクロフォンを異なる構成で用いて記録した。第１の構成では、マイクロフォンを１ｍ離して配置し、２人の男性話者が軸上で２つのマイクロフォンのそれぞれの向こうに座り、試験会話を記録した。第２の構成では、２つのマイクロフォンを３ｍ離して配置し、男性話者がこの場合も軸上で２つのマイクロフォンのそれぞれの向こうに座った。最後の構成では、マイクロフォンを２ｍ離し、２人の話者がマイクロフォンの軸に側面を向けて、しかし軸の対向する側で、２つのマイクロフォンのそれぞれの方を向いた。これらのシナリオのすべてにおいて、アルゴリズムは遅延を十分に追跡し、結果として得られるモノラル信号が、ＩＴＵ−ＴＥＶ−ＶＢＲコーデックに対するベースライン・アルゴリズムを用いてエンコードされたときに、ＳＥＧＳＮＲおよびＷＳＥＧＳＮＲにおいてほぼ０．３ｄｂのゲインが、各シナリオにおいて観察された。

一部の実施形態においては、ある遅延から別の遅延への移行は、遅延１０９、１１１によって適切な信号が遅延されるサンプルの数を変えることによって単純に実現される。しかし一部の実施形態においては、１つの遅延から別の遅延への滑らかな移行を行なうための機能が含まれていても良い。

具体的には、第１の遅延から第２の遅延への移行を、移行前に遅延によって遅延される第１の信号と、移行後に遅延によって遅延される第２の信号とを生成することによって行なうように、装置を構成しても良い。次に第１および第２の信号を組み合わせて、移行前の信号と移行後の信号との両方からの寄与を含む組み合わせ信号を生成する。２つの信号からの寄与を徐々に変えて、最初は、寄与が主にまたは排他的に第１の信号からであり、移行の終わりでは、寄与が主にまたは排他的に第２の信号からとなるようにする。

その結果、装置は、遅延移行の間に、初期遅延と最終遅延とに対応する２つの信号を合成しても良い。２つの信号を、次の様な加重和によって組み合わせても良い。
Ｓ＝ａ・Ｓ_１＋ｂ・Ｓ_２
ここで、Ｓ_１およびＳ_２は第１および第２の信号を表わし、ａおよびｂは、移行間隔（具体的には単一のフレームに等しくても良い）の間に変更される重みである。具体的には、最初に、値をａ＝１およびｂ＝０に設定しても良く、最終値をａ＝０およびｂ＝１に設定しても良い。これらの値の間の移行を、好適な任意の関数に従って行なっても良く、具体的には、移行の間に関係ａ＋ｂ＝１を維持しても良い。

こうして、このような実施形態においては、異なる遅延間の滑らかな移行が、両方の遅延に対する信号を合成することによって、および時間領域において一方から他方へ徐々に移すことによって実現される。

この具体例では、２０ｍｓのハーフ・ハン（ｈａｌｆ−Ｈａｎｎ）のオーバーラップ加算窓を適用して、ある遅延から次の遅延までの移行が可能な限り微小となることを確実にしている。

図５に、本発明の一部の実施形態によるマルチ・チャンネル音響信号をエンコードする方法を例示する。
本方法は工程５０１で始まる。工程５０１では、少なくとも第１のマイクロフォンからの第１の音響信号と第２のマイクロフォンからの第２の音響信号とを含むマルチ・チャンネル音響信号を受信する。

工程５０１に続く工程５０３では、第１の音響信号と第２の音響信号との間の相互時間差を決定する。
工程５０３に続く工程５０５では、相互時間差信号に応じて第１および第２のステレオ信号の少なくとも一方を遅延させることによって、マルチ・チャンネル音響信号から補償済みマルチ・チャンネル音響信号が生成される。

工程５０５に続く工程５０７では、補償済みマルチ・チャンネル音響信号のチャンネルを組み合わせることによってモノラル信号が生成される。
工程５０７に続く工程５０９では、モノラル信号を、モノラル信号エンコーダによってエンコードする。

当然のことながら、前述の記載では、明瞭さを得るために、異なる機能ユニットおよびプロセッサを参照して本発明の実施形態を説明した。しかし明らかなように、本発明を損なうことなく、異なる機能ユニットまたはプロセッサ間での任意の好適に分配された機能性を用いても良い。たとえば、別個のプロセッサまたはコントローラが行なうと例示した機能性を、同じプロセッサまたはコントローラが行なっても良い。したがって、特定の機能ユニットを参照することは、厳密な論理または物理的構造または組織を示すことではなく、単に、記載した機能性を実現するための好適な手段を参照することであるとみるべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせを含む任意の好適な形態において実施することができる。本発明は、少なくとも部分的に、１つまたは複数のデータ・プロセッサおよび／またはデジタル・シグナル・プロセッサ上で実行するコンピュータ・ソフトウェアとして、任意的に実施しても良い。本発明の実施形態の要素およびコンポーネントを、任意の好適な方法で物理的、機能的、および論理的に実施しても良い。実際には、機能性を、単一のユニットにおいて実施しても良いし、複数のユニットにおいて実施しても良いし、または他の機能ユニットの一部として実施しても良い。こうして、本発明を、単一のユニットにおいて実施しても良いし、または異なる単位およびプロセッサ間で物理的および機能的に分配しても良い。

本発明を、一部の実施形態と関連して説明してきたが、本明細書で述べた特定の形態に限定することは意図していない。むしろ、本発明の範囲は添付の請求項のみによって限定される。さらに加えて、ある特徴が特定の実施形態と関連して説明されているように見える場合があったとしても、当業者であれば分かるように、説明した実施形態の種々の特徴を本発明に従って組み合わせても良い。請求項では、用語「備える」は、他の要素または工程の存在を除外するものではない。

さらに、別個に列記しているが、複数のユニット、手段、要素、または方法工程を、たとえば、単一のユニットまたはプロセッサによって実施しても良い。さらに加えて、別個の特徴が異なる請求項に含まれている場合があるが、これらを組み合わせることはおそらく優位な場合があり、異なる請求項に含まれていても、特徴の組み合わせが実現可能ではなくおよび／または優位ではないという意味は含まない。また特徴が請求項の１つのカテゴリに含まれていても、このカテゴリに限定されるという意味は含まず、むしろ、その特徴は必要に応じて他の請求項カテゴリに等しく適用可能であるということを示すものである。さらに、請求項における特徴の順序は、特徴を作用させなければならない何らかの特定の順序を意味するものではなく、特に方法請求項における個々の工程の順序は、工程をこの順序で行なわなければならないということを意味するものではない。むしろ、工程は好適な任意の順番で行なっても良い。

Claims

マルチ・チャンネル音響信号をエンコードするための装置であって、
少なくとも第１のマイクロフォンからの第１の音響信号と第２のマイクロフォンからの第２の音響信号とを含む前記マルチ・チャンネル音響信号を受信する受信部と、
前記第１の音響信号と前記第２の音響信号との間の相互相関の経時的観測を組み合わせることによって前記第１の音響信号と前記第２の音響信号との間の相互時間差を決定するための時間差ユニットであって、前記相互相関は、ビタビ様アルゴリズムを用いて蓄積される確率を導き出すために処理される、前記時間差ユニットと、
相互時間差信号に応じて前記第１の音響信号及び前記第２の音響信号の少なくとも一方を遅延させることによって、前記マルチ・チャンネル音響信号から補償済みマルチ・チャンネル音響信号を生成する遅延ユニットと、
前記補償済みマルチ・チャンネル音響信号のチャンネルを組み合わせることによってモノラル信号を生成するモノラル・ユニットと、
前記モノラル信号をエンコードするモノラル信号エンコーダと
を備える装置。
前記時間差ユニットは、複数の時間オフセットに対して前記第１の音響信号と前記第２の音響信号との間の相互相関を決定し、前記相互相関に応じて前記相互時間差を決定するように構成される、請求項１に記載の装置。
前記時間差ユニットは、相互相関に先立って、前記第１の音響信号と前記第２の音響信号とを低域通過フィルタリングするように構成される、請求項２に記載の装置。
前記時間差ユニットは、相互相関に先立って、前記第１の音響信号と前記第２の音響信号とを間引くように構成される、請求項２に記載の装置。
前記遅延ユニットは、間引きの間引き係数に対して前記相互時間差を補償して、前記第１の音響信号及び前記第２の音響信号の少なくとも一方に対する遅延を決定するように構成される、請求項２に記載の装置。
前記時間差ユニットは、相互相関に先立って、前記第１の音響信号及び前記第２の音響信号に対してスペクトル白色化を適用するように構成される、請求項２に記載の装置。
前記時間差ユニットは、相互相関に先立って、前記第１の音響信号及び前記第２の音響信号のウィンドウ処理を実行するように構成される、請求項２に記載の装置。
前記時間差ユニットは、
複数の状態を有するトレリス状態機械であって、前記複数の状態の各々は、前記複数の時間オフセットのうちの一つの時間オフセットに対応する、前記トレリス状態機械と、
前記相互相関に応じて前記トレリス状態機械の状態に対する経路メトリックを決定する経路ユニットと、
以前の状態から現在の状態までの経路と関連する経路メトリックに応じて、前記状態に対する状態メトリックを決定する計算ユニットと、
前記状態メトリックに応じて前記相互時間差を決定するユニットと
を含む、請求項２に記載の装置。
前記遅延ユニットは、第１の遅延に応じて第１の補償済みマルチ・チャンネル音響信号を生成し、第２の遅延に応じて第２の補償済みマルチ・チャンネル音響信号を生成することによって、第１の遅延から第２の遅延へ移行するとともに、前記第１の補償済みマルチ・チャンネル音響信号と前記第２の補償済みマルチ・チャンネル音響信号とを組み合わせて前記補償済みマルチ・チャンネル音響信号を生成するように構成される、請求項１に記載の装置。
マルチ・チャンネル音響信号をエンコードする方法であって、
少なくとも第１のマイクロフォンからの第１の音響信号と第２のマイクロフォンからの第２の音響信号とを含む前記マルチ・チャンネル音響信号を受信すること、
前記第１の音響信号と前記第２の音響信号との間の相互時間差を決定すること、
相互時間差信号に応じて前記第１の音響信号及び第２の音響信号の少なくとも一方を遅延させることによって、前記マルチ・チャンネル音響信号から補償済みマルチ・チャンネル音響信号を生成すること、
前記補償済みマルチ・チャンネル音響信号のチャンネルを組み合わせることによってモノラル信号を生成すること、
モノラル信号エンコーダにおいて前記モノラル信号をエンコードすること
を含む方法。