JP7204774B2

JP7204774B2 - チャネル間時間差を推定するための装置、方法またはコンピュータプログラム

Info

Publication number: JP7204774B2
Application number: JP2020554532A
Authority: JP
Inventors: フォトポウルー・エレニ; ビューテ・ヤン; ラヴェリ・エマニュエル; マーベン・パラヴィ; ディーツ・マーティン; ロイテルフーバー・フランツ; ドーラ・ステファン; コルゼ・シュリカント
Original assignee: フラウンホーファー－ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2018-04-05
Filing date: 2019-04-03
Publication date: 2023-01-16
Anticipated expiration: 2039-04-03
Also published as: WO2019193070A1; AU2019249872B2; EP3985665A1; TWI714046B; KR102550424B1; JP2021519949A; PL3776541T3; CN112262433A; ZA202006125B; AU2019249872A1; CA3095971C; PT3776541T; JP2023036893A; CN112262433B; SG11202009801VA; US20210012784A1; US11594231B2; MX2020010462A; TW202004734A; US20230169985A1

Description

本出願は、ステレオ処理、または一般に、マルチチャネル信号が、ステレオ信号の場合の左チャネルおよび右チャネルなどの２つのチャネル、または３つ、４つ、５つもしくは任意の他の数のチャネルなど３つ以上のチャネルを有する、マルチチャネル処理に関する。

ステレオ音声、特に会話型ステレオ音声は、立体音楽の保存および放送ほど科学的な注目を集めていない。実際、音声通信では、モノラル伝送が今日でも主に使用されている。しかしながら、ネットワークの帯域幅および容量の増大に伴い、ステレオ技術に基づく通信がより一般的になり、より良好なリスニング体験がもたらされることが想定されている。

ステレオオーディオ素材の効率的な符号化は、効率的な保存または放送のための音楽の知覚オーディオ符号化において長い間研究されてきた。波形の保存が重要な高ビットレートでは、ミッド／サイド（Ｍ／Ｓ）ステレオとして知られる和差ステレオが長い間利用されてきた。低ビットレートについては、インテンシティステレオおよびより最近ではパラメトリックステレオ符号化が導入されている。最新の技法が、ＨｅＡＡＣｖ２およびＭｐｅｇＵＳＡＣなどのさまざまな規格で採用された。これは、２チャネル信号のダウンミックスを生成し、コンパクトな空間サイド情報を関連付ける。

ジョイントステレオ符号化は通常、信号の高周波数分解能、すなわち低時間分解能の時間－周波数変換に対して構築され、したがって、ほとんどの音声コーダにおいて実施される低遅延かつ時間領域の処理と互換性がない。さらに、生じるビットレートは通常高い。

他方、パラメトリックステレオは、プリプロセッサとして符号化器のフロントエンドに、および、ポストプロセッサとして復号器のバックエンドに位置決めされた追加のフィルタバンクを利用する。したがって、パラメトリックステレオは、ＭＰＥＧＵＳＡＣにおいて行われているように、ＡＣＥＬＰなどの従来の音声コーダによって使用することができる。さらに、聴覚シーンのパラメータ化は、最小量のサイド情報で実現することができ、これは低ビットレートに適している。しかしながら、パラメトリックステレオは、たとえばＭＰＥＧＵＳＡＣのように、低遅延向けに特別に設計されておらず、種々の会話シナリオに対して一貫した品質を提供しない。空間シーンの従来のパラメトリック表現では、ステレオ音像の幅は、２つの合成チャネルに適用され、符号化器によって計算および送信されるチャネル間コヒーレンス（ＩＣ）パラメータによって制御される脱相関器によって人工的に再現される。ほとんどのステレオ音声では、ステレオ音像を広げるこの方法は、空間（部屋からの何らかの反響を有することがある）内の特定の位置にある単一の音源によって生成されるため、かなり直接的な音声である発話の自然な周囲音を再現するのには適していない。対照的に、楽器は発話よりもはるかに自然な幅を有し、これはチャネルを非相関化することによってより良好に模倣することができる。

マイクロフォンが互いに離れている場合のＡ－Ｂ構成のように、またはバイノーラル録音もしくはレンダリングの場合のように、発話が同じ場所にないマイクによって録音される場合にも問題が発生する。これらのシナリオは、電話会議における音声の取り込みについて、またはマルチポイントコントロールユニット（ＭＣＵ）における離れたスピーカを使用した仮想聴覚シーンの作成について想定され得る。このとき、Ｘ－Ｙ（強度録音）またはＭ－Ｓ（ミッド－サイド録音）などの同じ場所にあるマイクロフォンにおいて行われる録音とは異なり、信号の到来時間はチャネルごとに異なる。このような時間整合されていない２つのチャネルのコヒーレンスの計算は、誤って推定される可能性があり、人工周囲音合成が失敗する。

ステレオ処理に関連する従来技術文献は、米国特許第５，４３４，９４８号明細書または米国特許第８，８１１，６２１号明細書である。

国際公開第２００６／０８９５７０号パンフレットは、ほぼ透明または透明なマルチチャネル符号化器／復号器方式を開示している。マルチチャネル符号化器／復号器方式は、さらに波形タイプ残差信号を生成する。この残差信号は、１つまたは複数のマルチチャネルパラメータとともに復号器に送信される。純粋にパラメトリックなマルチチャネル復号器とは対照的に、この拡張復号器は、追加の残差信号のために出力品質が改善されたマルチチャネル出力信号を生成する。符号化器側では、左チャネルと右チャネルの両方が分析フィルタバンクによってフィルタ処理される。次に、サブバンド信号ごとに、サブバンドの整合値および利得値が計算される。このような整合は、その後、さらなる処理の前に実施される。復号器側では、脱整合および利得処理が実施され、その後、復号左信号および復号右信号を生成するために、対応する信号が合成フィルタバンクによって合成される。

そのようなステレオ処理用途では、第１のチャネル信号と第２のチャネル信号との間のチャネル間またはチャネル間時間差の計算は、通常、広帯域時間整合手順を実施するために有用である。一方、他の用途は、第１のチャネルと第２のチャネルとの間のチャネル間時間差を使用するために存在し、これらの用途は、ほんの数例を挙げると、パラメトリックデータの保存または送信、２つのチャネルの時間整合を含むステレオ／マルチチャネル処理、室内の話者の位置を決定するための到来時間差推定、ビームフォーミング空間フィルタリング、例えば、音響三角測量による音源の前景／背景分解または位置に存する。

このようなすべての用途について、第１のチャネル信号と第２のチャネル信号との間のチャネル間時間差を効率的、正確かつロバストに決定する必要がある。

「ＧＣＣ－ＰＨＡＴ」または別称として一般化相互相関位相変換（ｇｅｎｅｒａｌｉｚｅｄｃｒｏｓｓ－ｃｏｒｒｅｌａｔｉｏｎｐｈａｓｅｔｒａｎｓｆｏｒｍ）の名称で知られているそのような決定はすでに存在する。通常、相互相関スペクトルが２つのチャネル信号間で計算され、その後、いわゆる一般化相互相関スペクトルを取得するために重み関数が相互相関スペクトルに適用され、その後、時間領域表現を見つけるために、逆ＤＦＴなどの逆スペクトル変換が一般化相互相関スペクトルに対して実施される。この時間領域表現は、特定のタイムラグの値を表し、このとき、時間領域表現の最高ピークは、通常、時間遅延または時間差、すなわち、２つのチャネル信号間の差のチャネル間時間遅延に対応する。

ただし、特に、例えば反響または背景雑音の一切ない明瞭な発話とは異なる信号では、この一般的な手法のロバスト性は最適ではないことが示されている。

米国特許第５，４３４，９４８号明細書米国特許第８，８１１，６２１号明細書国際公開第２００６／０８９５７０号パンフレット

したがって、本発明の目的は、２つのチャネル信号間のチャネル間時間差を推定するための改善された概念を提供することである。

この目的は、請求項１に記載のチャネル間時間差を推定するための装置、または請求項２８に記載のチャネル間時間差を推定するための方法、または請求項３０に記載のコンピュータプログラムによって達成される。

本発明は、重み付き相互相関スペクトルを得るための平滑化または非平滑化相互相関スペクトルの重み付けが、信号分析器によって推定される信号特性に応じて、第１の重み付け手順または第２の重み付け手順を使用して行われるという知見に基づき、第１の重み付け手順は第２の重み付け手順とは異なる。

さらなる実施形態では、第１のチャネル信号または第２のチャネル信号のスペクトルのスペクトル特性によって制御される経時的な相互相関スペクトルの平滑化は、チャネル間時間差決定のロバスト性および正確度を大幅に改善する。

好ましい実施形態では、スペクトルのトーン性／雑音性特性が決定され、トーン様信号の場合、平滑化はより強くなり、一方、雑音性信号の場合、平滑化はより弱くされる。

好ましくは、スペクトル平坦度測度が使用され、トーン様信号の場合、スペクトル平坦度測度は低く、平滑化はより強くなり、雑音様信号の場合、スペクトル平坦度測度は、約１または１近くなど、高くなり、平滑化は弱くなる。

したがって、本発明によれば、第１のチャネル信号と第２のチャネル信号との間のチャネル間時間差を推定するための装置は、時間ブロックにおける第１のチャネル信号および時間ブロックにおける第２のチャネル信号の、時間ブロックの相互相関スペクトルを計算するための計算器を備える。この装置は、時間ブロックの第１のチャネル信号および第２のチャネル信号のスペクトルの特性を推定するためのスペクトル特性推定器と、さらに、平滑化相互相関スペクトルを取得するためにスペクトル特性を使用して経時的に相互相関スペクトルを平滑化するための平滑化フィルタとを備える。次に、平滑化相互相関スペクトルは、チャネル間時間差パラメータを取得するために、プロセッサによってさらに処理される。

平滑化相互相関スペクトルのさらなる処理に関連する好ましい実施形態について、適応閾値化演算が実施され、平滑化された一般化相互相関スペクトルの時間領域表現が分析されて、時間領域表現に依存する可変閾値が決定され、時間領域表現のピークが、可変閾値と比較され、チャネル間時間差は、閾値より大きいなど、ピークが閾値に対して所定の関係にあることに関連するタイムラグとして決定される。

一実施形態では、可変閾値は、例えば時間領域表現の値の１０パーセントなど、最大のうちのある値の整数倍に等しい値として決定されるか、または、代替的に、変数決定のためのさらなる実施形態では、可変閾値は、可変閾値と上記値との乗算によって計算され、上記値は、第１のチャネル信号と第２のチャネル信号との信号対雑音比特性に依存し、上記値は、信号対雑音比が高いほど高くなり、信号対雑音比が低いほど低くなる。

前述のように、チャネル間時間差計算は、パラメトリックデータの保存または送信、ステレオ／マルチチャネル処理／符号化、２つのチャネルの時間整合、ビームフォーミング、空間フィルタリング、前景／背景分解、または、例えば２つまたは３つの信号の時間差に基づく音響三角測量による音源の位置決定を目的とした、２つのマイクロフォンおよび既知のマイクロフォン設定を有する室内の話者位置を決定するための到来時間差推定など、種々の用途に使用することができる。

しかしながら、以下では、チャネル間時間差計算の好ましい実施態様および使用法が、少なくとも２つのチャネルを有するマルチチャネル信号を符号化するプロセスにおける２つのステレオ信号の広帯域時間整合を目的として説明される。

少なくとも２つのチャネルを有するマルチチャネル信号を符号化するための装置は、一方においては広帯域整合パラメータを決定し、他方においては複数の狭帯域整合パラメータを決定するためのパラメータ決定手段を備える。これらのパラメータは、これらのパラメータを使用して少なくとも２つのチャネルを整合し、整合されたチャネルを取得するために、信号アライナによって使用される。次に、信号プロセッサが、整合されたチャネルを使用してミッド信号およびサイド信号を計算し、ミッド信号およびサイド信号は、続いて符号化され、パラメトリックサイド情報として広帯域整合パラメータおよび複数の狭帯域整合パラメータをさらに有する符号化出力信号に転送される。

復号器側では、信号復号器が、符号化ミッド信号および符号化サイド信号を復号して、復号ミッド信号およびサイド信号を取得する。次に、これらの信号は、復号された第１のチャネルおよび復号された第２のチャネルを計算するために信号プロセッサによって処理される。次に、これらの復号されたチャネルは、符号化マルチチャネル信号に含まれる広帯域整合パラメータに関する情報および複数の狭帯域パラメータに関する情報を使用して脱整合されて、復号マルチチャネル信号が取得される。

特定の実施態様では、広帯域整合パラメータはチャネル間時間差パラメータであり、複数の狭帯域整合パラメータはチャネル間位相差である。

本発明は、特に複数の話者がいる発話信号だけでなく、複数の音響源が存在する他のオーディオ信号についても、両方がマルチチャネル信号の２つのチャネルにマッピングする音響源の複数の異なる場所を、一方または両方のチャネルのスペクトル全体に適用されるチャネル間時間差パラメータなどの広帯域整合パラメータを使用して計上することができるという知見に基づいている。この広帯域整合パラメータに加えて、サブバンドごとに異なるいくつかの狭帯域整合パラメータがさらに、両方のチャネルにおける信号のより良好な整合をもたらすことが分かっている。

したがって、各サブバンド内の同じ時間遅延に対応する広帯域整合が、複数の異なるサブバンドの異なる位相回転に対応する位相整合とともに、両方のチャネルの最適な整合をもたらし、その後、これら２つのチャネルがミッド／サイド表現に変換され、その後、この表現はさらに符号化される。最適な整合が得られているため、一方ではミッド信号のエネルギーが可能な限り高くなり、他方ではサイド信号のエネルギーが可能な限り小さくなり、結果、ビットレートが可能な限り最も低くまたは特定のビットレートに対してオーディオ品質が可能な限り最も高い最適な符号化結果を得ることができる。

特に会話型発話素材について、通常、２つの異なる場所においてアクティブである話者が存在すると考えられる。さらに、この状況は通常、１人の話者のみが第１の場所から話しており、そして第２の話者が第２の場所または位置から話しているというものである。第１または左のチャネルおよび第２または右のチャネルなどの２つのチャネルに対する異なる位置の影響は、異なる到来時間、したがって、異なる位置に起因する両方のチャネル間の特定の時間遅延に反映され、この時間遅延は時に応じて変化している。一般に、この影響は、広帯域整合パラメータによって対処することができる広帯域脱整合として２つのチャネル信号に反映される。

他方、特に反響またはさらなる雑音源に由来する他の影響は、両方のチャネルの広帯域の異なる到来時間または広帯域脱整合に重ね合わされる個々の帯域の個々の位相整合パラメータによって計上することができる。

それを考慮して、広帯域整合パラメータと、広帯域整合パラメータに加わる複数の狭帯域整合パラメータの両方を使用する結果として、良好で非常にコンパクトなミッド／サイド表現を得るための符号化器側の最適なチャネル整合が得られ、他方、復号器側での復号に続く対応する脱整合が、特定のビットレートまたは特定の必要なオーディオ品質のための小さいビットレートに対して良好なオーディオ品質をもたらす。

本発明の利点は、既存のステレオ符号化スキームよりもステレオ音声の変換にはるかに適した新規のステレオ符号化スキームを提供することである。本発明によれば、パラメトリックステレオ技術とジョイントステレオ符号化技術が、特に発話源の場合だけでなく他の音響源の場合にも、マルチチャネル信号のチャネル内で発生するチャネル間時間差を利用することによって特に組み合わされる。

いくつかの実施形態は、後で議論されるように有用な利点を提供する。

新規の方法は、従来のＭ／Ｓステレオの要素とパラメトリックステレオの要素とを混合するハイブリッド手法である。従来のＭ／Ｓでは、チャネルは受動的にダウンミックスされて、ミッド信号およびサイド信号が生成される。このプロセスは、主成分分析（ＰＣＡ）としても知られるカルーネンレーベ変換（ＫＬＴ）を使用してチャネルを回転させ、その後、チャネルを合計して微分することにより、さらに拡張することができる。ミッド信号は一次コード符号化において符号化され、一方、サイドは二次コーダに伝達される。進化したＭ／Ｓステレオは、現在または先行するフレームにおいてコード化されたミッドチャネルによるサイド信号の予測をさらに使用することができる。回転および予測の主な目標は、サイドのエネルギーを最小化しながら、ミッド信号のエネルギーを最大化することである。Ｍ／Ｓステレオは波形を保持し、この点において任意のステレオシナリオに対して非常にロバストであるが、ビット消費の点で非常に高価になる可能性がある。

低ビットレートで最高の効率を実現するために、パラメトリックステレオは、チャネル間レベル差（ＩＬＤ）、チャネル間位相差（ＩＰＤ）、チャネル間時間差（ＩＴＤ）、チャネル間コヒーレンス（ＩＣ）などのパラメータを計算してコード化する。これらはステレオ音像をコンパクトに表現し、聴覚シーンのキューになる（音源位置特定、パン、ステレオの幅など）。次に、ステレオシーンをパラメータ化し、復号器にあり得、送信されたステレオキューをもちいることによって再び空間化することができるダウンミックス信号のみを符号化することが目的となる。

本発明の手法は２つの概念を混合した。まず、ステレオキューＩＴＤおよびＩＰＤが計算され、２つのチャネルに適用される。目標は、広帯域の時間差および種々の周波数帯域の位相を表すことである。次に、２つのチャネルが時間および位相において整合され、次に、Ｍ／Ｓ符号化が実施される。ＩＴＤおよびＩＰＤは、ステレオ音声のモデリングに役立つことがわかっており、Ｍ／ＳにおけるＫＬＴベースの回転の優れた代替案である。純粋なパラメトリック符号化とは異なり、周囲音はＩＣによってモデル化されるのではなく、符号化および／または予測されるサイド信号によって直接的にモデル化される。この手法は、特に発話信号を処理する場合に、よりロバストであることがわかった。

ＩＴＤの計算および処理は、本発明の重要な部分である。ＩＴＤは、従来技術のバイノーラルキュー符号化（ＢＣＣ）においてすでに活用されていたが、この様態では、ＩＴＤが経時的に変化すると、非効率的になった。この欠点を回避するために、２つの異なるＩＴＤ間の移行を平滑化し、異なる場所にいる話者から話者へとシームレスに切り替えることができる、特定のウィンドウイングが設計された。

さらなる実施形態は、符号化器側で、複数の狭帯域整合パラメータを決定するためのパラメータ決定が、先行して決定されている広帯域整合パラメータとすでに整合されているチャネルを使用して実施される手順に関連する。

これに対応して、復号器側の狭帯域脱整合は、典型的な単一の広帯域整合パラメータを使用して広帯域脱整合が実施される前に実施される。

さらなる実施形態では、符号化器側で、ただしさらに重要なことには復号器側で、何らかの種類のウィンドウイングおよび重畳加算演算、または１つのブロックから次のブロックへの任意の種類のクロスフェードが、すべての整合の後に、具体的には、広帯域整合パラメータを使用した時間整合の後に実施されることが好ましい。これにより、時間または広帯域整合パラメータがブロックごとに変わるときにクリック音などの任意の可聴アーティファクトが回避される。

他の実施形態では、異なるスペクトル分解能が適用される。特に、チャネル信号は、ＤＦＴスペクトルなどの高周波分解能を有する時間スペクトル変換を受け、一方、狭帯域整合パラメータなどのパラメータが、より低いスペクトル分解能を有するパラメータ帯域について決定される。通常、パラメータ帯域は、信号スペクトルよりも多くのスペクトル線を有し、通常、ＤＦＴスペクトルからのスペクトル線のセットを有する。さらに、音響心理学的問題を考慮に入れるために、パラメータ帯域は低周波数から高周波数に増大する。

さらなる実施形態は、レベル間差などのレベルパラメータの追加の使用法、またはステレオ充填パラメータなどのサイド信号を処理するための他の手順に関する。符号化サイド信号は、実際のサイド信号自体によって、または現在のフレームもしくは任意の他のフレームのミッド信号を使用して実施されている予測残差信号によって、または帯域のサブセットのみのサイド信号またはサイド予測残差信号および残りの帯域のみの予測パラメータによって、またはさらには高周波分解能サイド信号情報を一切有しないすべての帯域の予測パラメータによって表すことができる。したがって、上記の最後の代替案では、符号化サイド信号は、各パラメータ帯域の予測パラメータまたはパラメータ帯域のサブセットのみによって表されるに過ぎず、結果、残りのパラメータ帯域について、元のサイド信号に関する情報は一切存在しない。

さらに、広帯域信号の帯域幅全体を反映するすべてのパラメータ帯域に対してではなく、パラメータ帯域の下位５０パーセントなどの下位帯域のセットのみに対して、複数の狭帯域整合パラメータを有することが好ましい。一方、ステレオ充填パラメータは、いくつかの低帯域には使用されない。これは、これらの帯域について、少なくとも低帯域について波形が正しい表現が可能であることを保証するために、サイド信号自体または予測残差信号が送信されるためである。他方、サイド信号は、ビットレートをさらに低減するために、より高い帯域について波形が正確な表現において送信されず、サイド信号は通常、ステレオ充填パラメータによって表される。

さらに、同じＤＦＴスペクトルに基づいて、まったく同一の周波数領域内で全体的なパラメータ分析および整合を実施することが好ましい。この目的のために、チャネル間時間差を決定するために、位相変換を用いた一般化相互相関（ＧＣＣ－ＰＨＡＴ）技術を使用することがさらに好ましい。この手順の好ましい実施形態では、スペクトル形状に関する情報、好ましくはスペクトル平坦度測度である情報に基づく相関スペクトルの平滑化は、雑音様信号の場合に平滑化が弱くなり、トーン様信号の場合に平滑化がより強くなるように実施される。

さらに、チャネル振幅が考慮される特別な位相回転を実施することが好ましい。特に、位相回転は、符号化器側での整合の目的で、および無論、復号器側での脱整合の目的で、２つのチャネル間で分配され、より高い振幅を有するチャネルが先行するチャネルと考えられ、位相回転による影響が少なくなる、すなわち、振幅が小さいチャネルよりも回転が少なくなる。

さらに、和差計算は、両方のチャネルのエネルギーから導出され、加えて、ミッド／サイド計算がエネルギーに過度に影響を与えないことを保証するために特定の範囲に制限されるスケーリング係数を用いたエネルギースケーリングを使用して実施される。しかしながら、他方では、本発明の目的のために、この種のエネルギー節約は、時間および位相が事前に整合されているため、従来技術の手順ほど重要ではないことに留意されたい。したがって、左右からのミッド信号およびサイド信号の計算（符号化器側）またはミッドおよびサイドからの左右の信号の計算（復号器側）に起因するエネルギー変動は、従来技術においてほど重要ではない。

続いて、本発明の好ましい実施形態を、添付の図面に関連して論じる。

マルチチャネル信号を符号化するための装置の好ましい実施態様のブロック図である。符号化マルチチャネル信号を復号するための装置の好ましい実施形態の図である。特定の実施形態についての異なる周波数分解能および他の周波数関連態様の図である。チャネルを整合させる目的で、符号化するための装置内で実施される手順のフローチャートである。周波数領域において実施される手順の実施形態を示す図である。ゼロパディング部分および重複範囲を有する分析ウィンドウを使用して、符号化するための装置内で実施される手順の実施形態を示す図である。符号化するための装置内で実施されるさらなる手順のフローチャートである。チャネル間時間差推定の実施態様を示すためのフローチャートである。符号化するための装置内で実施される手順のさらなる実施形態を示すフローチャートである。符号化器の一実施形態のブロック図である。復号器の対応する実施形態のフローチャートである。ステレオ時間周波数分析および合成のためにゼロパディングを用いる、重複の少ない正弦波ウィンドウによる好ましいウィンドウシナリオを示す図である。複数の異なるパラメータ値のビット消費を示す表図である。好ましい実施形態における符号化マルチチャネル信号を復号するための装置によって実施される手順を示す図である。符号化マルチチャネル信号を復号するための装置の実施態様を示す図である。符号化マルチチャネル信号の復号の文脈における広帯域脱整合の文脈において実施される手順を示す図である。チャネル間時間差を推定するための装置の一実施形態を示す図である。チャネル間時間差が適用される信号のさらなる処理の概略図である。一実施形態における雑音推定器として実装される信号分析器および本発明の実施形態による重み付け手段の概略図である。本発明の実施形態による重み付け手段の概略図である。本発明の実施形態によるプロセッサの概略図である。本発明の実施形態による雑音推定器の概略図である。図１０ａのプロセッサによって実施される手順を示す図である。図１０ａのプロセッサによって実施されるさらなる手順を示す図である。可変閾値の計算のさらなる実施態様、および時間領域表現の分析における可変閾値の使用法を示す図である。可変閾値を決定するための第１の実施形態を示す図である。閾値の決定のさらなる実施態様を示す図である。本発明の実施形態によるプロセッサの概略図である。明瞭な発話信号の平滑化相互相関スペクトルの時間領域表現を示す図である。雑音および周囲音を有する発話信号の平滑化相互相関スペクトルの時間領域表現を示す図である。

図１０ａは、左チャネルなどの第１のチャネル信号と右チャネルなどの第２のチャネル信号との間のチャネル間時間差を推定するための装置の一実施形態を示している。これらのチャネルは、アイテム４５１として図４ｅに関連して付加的に示されている時間スペクトル変換器１５０に入力される。

さらに、左チャネル信号および右チャネル信号の時間領域表現は、時間ブロック内の第１のチャネル信号および時間ブロック内の第２のチャネル信号から時間ブロックの相互相関スペクトルを計算するための計算器１０２０に入力される。さらに、装置は、時間ブロックの第１のチャネル信号または第２のチャネル信号のスペクトルの特性を推定するためのスペクトル特性推定器１０１０を備える。装置は、平滑化相互相関スペクトルを得るためにスペクトル特性を使用して経時的に相互相関スペクトルを平滑化するための平滑化フィルタ１０３０をさらに備える。この装置は、平滑化相関スペクトルを処理してチャネル間時間差を取得するためのプロセッサ１０４０をさらに備える。

代替的に、別の実施形態では、要素１０３０は存在せず、したがって、破線１０３５によって示されるように、要素１０１０も同様に必須ではない。この装置は、雑音推定値１０３８などの信号特性推定値を計算する信号分析器１０３７をさらに備える。この推定値は、信号特性推定値に応じて異なる重み付け操作を実施するように構成された重み付け手段１０３６に転送される。信号特性推定値は、好ましくは、例えば、プロセッサ１０４０がピークピッキング動作を実施するときに、プロセッサ１０４０を制御するためにも使用される。図１０ｃは、信号分析器１０３７および制御可能な重み付け手段１０３６をさらに示す。

特に、本発明の実施形態による装置は、第１のチャネル信号と第２のチャネル信号との間のチャネル間時間差の推定を対象とする。このデバイスは、図１０ａの信号分析器１０３７と、図１０ａの相互相関スペクトル計算器１０２０と、図１０ａの平滑化または非平滑化相互相関スペクトルを重み付けするための重み付け手段１０３６と、重み付けされた相互相関スペクトルを処理するための、続いて接続されるプロセッサ１０４０とを備える。

時間スペクトル変換器１５０、スペクトル特性推定器１０１０、平滑化フィルタ１０３０の要素は、プリセット発明の基本的な実施には必要ではないが、本発明の好ましい実施形態には好ましい。信号分析器１０３７は、第１のチャネル信号もしくは第２のチャネル信号、または、両方の信号、または、第１のチャネル信号もしくは第２のチャネル信号から導出される信号の雑音レベル１０３８などの信号特性を推定するように構成される。したがって、後で重み付け手段１０３６によって使用され、好ましくはプロセッサ１０４０によっても使用される信号特性または雑音推定値などの信号特性推定値は、左もしくは第１のチャネル信号からのみ、第２のまたは右チャネル信号からのみ導出することができ、または、両方の信号から導出することができる。両方の信号からの信号特性の導出は、例えば、第１のチャネル信号の個々の信号特性、第２または右チャネル信号からの追加の個々の信号特性の導出であり得、その後の、最終的な信号特性１０３８は、たとえば、両方のチャネル間の平均または重み付け平均である。ここで、例えば、重み付けは、例えば、チャネルのフレーム内の異なる振幅が、最終的な雑音レベル１０３８への対応する個々の雑音推定値の異なる影響をもたらすように、振幅に従って行うことができる。さらに、第１のチャネル信号および第２のチャネル信号から導出される信号は、例えば、左または第１のチャネル信号と第２または右のチャネル信号を加算して合成信号を取得することによって得られる合成信号であり得、次いで、信号特性１０３８は、合成信号から計算される。

好ましい実施形態では、信号分析器１０３６は、雑音推定器または分析器として実施される。しかしながら、一致する重み付け手順が選択されるように、信号が第１の特性または第２の特性を有するかを決定するために、トーン性分析、音声活動検出、過渡分析、ステレオ分析、発話／音楽分析、干渉話者分析、背景音楽分析、明瞭発話分析または任意の他の信号分析などの他の信号分析方法も実施することができる。

合成は、等しい重み係数による合成、すなわち、１．０の重み係数に対応する、重みなしの左チャネルと重みなしの右チャネルとの合成であり得、または、代わりに、異なる重み係数が適用されてもよい。さらに、第１のチャネルから導出される信号または第２のチャネルから導出される信号は、ハイパスフィルタリングもしくはローパスフィルタリングを実施することによって取得することができ、または振幅圧縮または振幅逆圧縮関数を使用した処理を実施することによって取得することができる。振幅圧縮関数は、対数関数または累乗値が１より小さい関数になる。逆圧縮関数は、指数関数または指数が１より大きいべき関数になる。したがって、特定の実施態様に応じて、異なる処理動作を異なる左および右チャネル信号に適用することができ、両方のチャネルを合成するまたはしないことができる。好ましい実施形態では、左チャネルと右チャネルとは、好ましくは任意の特定の重み付けすらなくともに加算され、次に、信号特性推定値が、合成計算の結果から計算される。

時間ブロック内の第１のチャネル信号および時間ブロック内の第２のチャネル信号から時間ブロックの相互相関スペクトルを計算するための計算器１０２０は、いくつかの方法で実施することができる。１つの方法は、時間領域フレーム内の時間領域信号から相互相関を計算し、次いで、その結果を時間領域からスペクトル領域に変換することである。別の実施態様は、例えば、ＤＦＴまたは他の任意の時間－スペクトル変換を使用することによって、第１のチャネル信号の後続のフレームおよび第２のチャネル信号の後続のフレームが、後続のフレームが重なり合うことができ、または、重複しないことができるスペクトル表現に変換されることである。したがって、第１のチャネル信号の各時間ブロックについて、スペクトル表現が得られ、それに対応して、第２のチャネル信号の各時間ブロックについて、スペクトル表現が得られる。相互相関計算は、特定の周波数ビンｋおよび特定の時間ブロックまたは時間サンプルインデックスｓのスペクトル値に、第２のチャネルの同じ時間ブロックのスペクトル表現からの同じインデックスｋおよび同じインデックスｓを有するスペクトル値の共役複素数値を乗算することによって実施される。時間ブロックの相互相関スペクトルを計算するために、上記とは異なる他の相互相関計算手順を使用することもできる。

重み付け手段１０３６は、計算器によって得られる相互相関スペクトルを重み付けするように構成される。実施態様において、相互相関スペクトルは、比平滑化相互相関スペクトルであるが、他の実施形態では、相互相関スペクトルは平滑化され、この平滑化は時間に関する平滑化である。したがって、平滑化相互相関スペクトルを計算する目的で、最後のブロックの相互相関スペクトルを、現在のブロックの（生の）相互相関スペクトルとともに使用することができ、実施態様に応じて、例えば、図１０ａのスペクトル特性推定器１０１０によって提供されるものとしての、平滑化制御情報を使用することができる。しかしながら、平滑化は、所定の、すなわち、一定または時不変の平滑化設定を使用して実施することもできる。本発明の実施形態によれば、重み付けされた相互相関スペクトルは、例えば、図１０ｄに示される第１の重み付け手順１０３６ａまたは第２の重み付け手順１０３６ｂを使用して計算される。特に、重み付けされた相互相関スペクトルが第１の手順を使用して導出されるか、または、第２の手順を使用して導出されるかの選択は、信号分析器１０３７によって推定される信号特性に応じて行われる。したがって、本発明によれば、第１の重み付け特性による重み付けは、第１のチャネルもしくは第２のチャネルまたは合成信号の特定の信号特性に対して使用され、一方、第２の重み付け手順は、信号分析器１０３７によって決定される別の信号特性に応じて適用される。重み付け手段１０３６の結果は重み付けされ、平滑化されたまたは平滑化されていない相互相関スペクトルであり、これは次いで、プロセッサ１０４０によってさらに処理されて、第１のチャネル信号と第２のチャネル信号との間のチャネル間時間差が取得される。

図１０ｄは、本発明の一実施形態による、雑音推定器としての信号分析器およびプロセッサ１０４０と接続されている重み付け手段の概略図である。特に、雑音推定器１０３７は、雑音推定値計算器１０３７ａおよび雑音推定値分類器１０３７ｂを備える。雑音推定値分類器１０３７ｂは、図１０ａのブロック１０３７によって生成される雑音推定値出力１０３８に対応する制御信号１０５０を出力する。この制御信号は、第１のスイッチ１０３６ｃまたは第２のスイッチ１０３６ｄに適用することができる。この実施態様では、第１の重み付け手順を実施態様する処理カーネル１０３６ａ、および、第２の重み付け手順１０３６ｂを実施するための別の計算カーネルが提供される。実施態様に応じて、スイッチ１０３６ｃのみが提供され、制御信号１０５０に応じて、スイッチ１０３６ｃによって決定された重み付け手順のみが選択される、すなわち、計算器１０２０によって決定された相互相関スペクトルがスイッチ１０３６ｃに入力され、スイッチ設定に応じて、カーネル１０３６ａまたはカーネル１０３６ｂのいずれかに転送される。別の実施態様では、スイッチ１０３６ｃが存在せず、ブロック１０２０によって決定される相互相関スペクトルが、処理カーネル１０３６ａと１０３６ｂの両方に供給され、出力スイッチ１０３６ｄの制御に応じて、ブロック１０３６ａの出力またはブロック１０３６ｂの出力のいずれかが選択され、プロセッサ１０４０に転送される。したがって、実施態様に応じて、単一の重み付けされた相互相関スペクトルのみが計算され、いずれが計算されるかの選択は、制御信号１０５０および入力スイッチによって行われる。代替的に、両方の重み付けされた相互相関スペクトルが計算され、出力スイッチ１０３６ｄによって選択された相互相関スペクトルのみがプロセッサ１０４０に転送される。さらに、入出力スイッチなしで存在することができる処理カーネルは１つだけであり、制御信号に応じて、対応する時間ブロックに対して正しい重み付け手順が設定される。したがって、各時間ブロックについて、雑音推定値または制御信号１０５０を計算することができ、各時間ブロックについて、重み付けを１つの重み付け手順から他の重み付け手順に切り替えることができる。これに関連して、場合によって、３つ以上の異なる雑音推定値に応じて、３つ以上の異なる重み付け手順を実施することもできることに留意されたい。したがって、本発明は、２つの異なる重み付け手順の間の選択を招くだけでなく、第１のチャネル信号および第２のチャネル信号の雑音特性に由来する制御信号に応じて、３つ以上の重み付け手順の間の選択も含む。

好ましい実施形態では、第１の重み付け手順は、振幅が正規化され、位相が維持されるような重み付けを含み、第２の重み付け手順は、指数が１未満または０より大きいべき乗演算を使用して平滑化または非平滑化相互相関スペクトルから導出される重み付け係数を含む。さらに、第１の重み付け手順は、第２の重み付け手順が０～１の指数を使用すること、すなわち、指数が０よりも大きく１よりも小さく、一方、第１の重み付け手順が指数を一切適用しない、言い換えれば、１の指数を適用することを除いて、第２の重み付け手順とほぼ同一であり得る。したがって、第２の重み付け手順によって実施される正規化は圧縮される、すなわち、第１の重み付け手順によって適用される正規化係数はある値を有し、第２の重み付け手順を介して同じスペクトル相互相関値に適用される正規化係数はより小さい。これは、相互相関スペクトルのより高いスペクトル値に適用される。ただし、相互相関スペクトルの値が小さい場合、相互相関スペクトルの同じスペクトル値に関して、第２の重み付け手順の正規化値は第１の重み付け手順の正規化値よりも大きい。これは、１／２の指数の平方根演算など、１未満の指数によるべき乗演算は、小さい値を増大させるが、高い値を低下させることに起因する。したがって、第２の重み付け手順のための追加の重み付け係数計算はまた、対数関数などの任意の圧縮関数を含むことができる。好ましい実施形態では、第１の重み付け手順は、位相変換（ＰＨＡＴ）に適用される重み付けに基づいて動作し、第２の重み付け手順は、修正クロスパワースペクトル位相手順（ＭＣＳＰ）に適用される計算に基づいて動作する。

さらに、第２の重み付け手順は、好ましくは、第２の正規化手順の出力範囲が、第１の正規化手順の出力範囲が位置決めされる範囲内にあるような、または、第２の正規化手順の出力範囲が、第１の正規化手順の出力範囲と同じであるような、正規化を含むように実施される。これは、たとえば、ＭＣＳＰ重み付き相互相関スペクトルのすべてのスペクトル値の絶対値を計算し、１つの時間ブロックに対応する１つのスペクトル表現のすべての大きさを合計し、次いで、その結果を時間ブロック内のスペクトル値の数で除算することによって実施することができる。

一般に、図１０ａのプロセッサ１０４０は、重み付けされた相互相関スペクトルに関して何らかの処理ステップを実施するように構成され、ここで、特に、チャネル間時間差を最終的に取得するために特定のピークピッキング動作が実施される。好ましくは、このピークピッキング動作は、時間領域において行われる。すなわち、重み付けされ、平滑化された、または平滑化されていない相互相関スペクトルが、スペクトル表現から時間領域表現に変換され、次に、この時間領域表現が分析され、特に、１つまたは複数のピークが閾値に基づいて選択される。雑音推定値の設定に応じて、第１のピークピッキング動作または第２のピークピッキング動作のいずれかが実施され、好ましくは、両方のピークピッキング動作は、ピークピッキング動作によって使用される閾値に関して互いに異なる。

図１０ｅは、入力スイッチ１０４０および出力スイッチ１０４３に関して、図１０ｄの手順と同様の状況を示している。図１０ｅに示される実施態様では、両方のピークピッキング動作を適用することができ、「正しい」ピークピッキング動作の結果を、出力スイッチ１０４３によって選択することができる。代替的に、入力スイッチが存在し、制御信号１０５０に応じて、正しいピークピッキング手順、すなわち、１０４１または１０４２のいずれかのみが選択される。したがって、一実施態様では、両方のスイッチは存在しないが、一実施態様では、図１０ｄに関して以前に導出されたものと同様に、入力スイッチ１０４０または出力スイッチ１０４３のいずれかが存在する。追加の実施態様では、可変閾値を有するピークピッキング動作を適用する単一の処理カーネルのみが存在し、単一の処理カーネル内で正しい閾値を設定するために制御信号１０５０が使用される。好ましい実施形態では、閾値設定は、第２の閾値が第１の閾値よりも高くなるように実施され、したがって、第２の閾値は、ブロック１０３６ｂの第２の重み付け手順が適用されたときに使用され、第１の閾値は、ブロック１０３６ａの第１の重み付け手順が適用されたときに使用される。したがって、高レベルの背景雑音が検出されたとき、０～１の指数または対数演算による第２の重み付け手順、すなわち圧縮手順が適用され、このとき、ピークピッキングの閾値は、低レベルの背景雑音が検出されたとき、すなわち、１未満の指数による対数関数またはべき乗関数などの圧縮関数に依存しない正規化係数による正規化を実施する第１の重み付け手順が適用されたときに使用されるピークピッキング閾値と比較して、低くする必要がある。

続いて、雑音推定器１０３７としての信号分析器の好ましい実施態様が図１０ｆに示されている。基本的に、雑音推定器１０３７は、図１０ｄに示され、また図１０ｆにも示されるように、雑音推定値計算器１０３７ａおよび雑音推定値分類器１０３７ｂから成る。雑音推定値計算器１０３７ａは、背景雑音推定器１０６０と、続いて接続されている（時間）平滑化手段１０６１とを備え、平滑化手段は、例えば、ＩＩＲフィルタとして実施することができる。

雑音推定値計算器１０３７ａ、または特に背景雑音推定器１０６０への入力は、左または第１のチャネル信号のフレーム、第２または右チャネル信号のフレーム、またはそのようなチャネル信号から導出される信号、または、例えば、同じ時間ブロック内の第１のチャネル信号の時間領域表現および第２のチャネル信号の時間領域表現を加算することによって取得される合成信号である。

雑音推定値分類器１０３７ｂに関して、入力信号は、セレクタ１０７１を制御する信号活動検出器１０７０に送達される。信号活動検出器１０７０の結果に基づいて、セレクタ１０７１は、アクティブなフレームのみを選択する。さらに、信号レベル計算器１０７２が、セレクタ１０７１の後に接続されている。計算された信号レベルは、次に、（時間）平滑化手段１０７３に転送される。平滑化手段は、たとえば、ＩＩＲフィルタとして実施される。次に、ブロック１０７４において、信号対雑音比の計算が行われ、結果が、コンパレータ１０７５内で、例えば、４５ｄＢ～２５ｄＢであり、好ましくは、さらに３０～４０ｄＢの範囲内にあり、より好ましくは３５ｄＢである所定の閾値と比較される。

コンパレータ１０７５の出力は、高雑音レベルもしくは低雑音レベルのいずれかを示すか、または特定の方法における閾値設定が単一の重み付け手順プロセッサによって実施されることになることを示す検出結果であり、あるいは、図１０ｄに示されるように２つの重み付け手順プロセッサがある場合には、コンパレータ１０７５からの決定結果、すなわち、信号１０５０が、正しく重み付けされた相互相関スペクトルをプロセッサ１０４０に転送するために、入力スイッチ１０３６ｃまたは出力スイッチ１０３６ｄのいずれかを制御する。

検出結果１０５０は、好ましくは、時間ブロックまたはフレームごとに計算される。したがって、例えば、特定のフレームについて、これが非アクティブなフレームであることを信号活動検出器１０７０が示す場合、セレクタ１０７１は、アクティブなフレームのみを選択するため、信号レベル計算も時間平滑化もこのフレームに対して実施されない。したがって、非アクティブなフレームについて、一実施形態ではＳＮＲ比の計算は実施されず、したがって、この実施形態では、この非アクティブなフレームについて、検出結果はまったく提供されない。したがって、一実施態様において、最後のアクティブなフレームに関して以前に決定されたのと同じ重み付け手順が使用されるか、あるいは、代替的に、非アクティブなフレームについて、第１の重み付け手順もしくは第２の重み付け手順、またはさらには第３の重み付け手順のいずれかが、フォールバックソリューションとして適用される。代替的に、非アクティブなフレームに対して、最後または最近に発生しているアクティブなフレームの時間平滑化された信号レベルを使用するために、ＳＮＲ比計算器１０７４が実施されてもよい。したがって、検出結果は、非アクティブなフレームについても取得することができ、または、非アクティブなフレームについて、特定の（フォールバック）重み付け手順が使用され、または、非アクティブなフレームについて、非アクティブなフレームに先行する最後のアクティブなフレームに対して決定されたのと同じ重み付け手順が、場合によって引き続き使用される。

以前の特許出願［１］では、チャネル間時間差（ＩＴＤ）推定器が導入された。この推定器は、ＴＤＯＡの文献で広く使用されている手法である位相変換を用いた一般化相互相関（ＧＣＣ－ＰＨＡＴ）に基づいている（最初の論文は［２］であり、別の優れた参考文献は［３］である）。２つのチャネル間の時間差は、ＧＣＣの出力をピークピッキングすることによって求められる。大きい分析ウィンドウ長さを使用するか、相互相関スペクトルを経時的に平滑化することにより、より良好なロバスト性を得ることができる。［１］の主な貢献は、スペクトル平坦度測度に依存する平滑化係数を用いて、この平滑化を適応させることであった。

［１］のＩＴＤ推定器のステップは、以下のように説明することができる。

１．離散フーリエ変換：左チャネル

の信号および右チャネル

の信号がフレーム化され、ウィンドウイングされ、ＤＦＴ

を使用して周波数領域に変換される。

は時間サンプルインデックスであり、

はフレームインデックスであり、

は周波数インデックスであり、

はフレーム長であり、

はＤＦＴ長であり、

は分析ウィンドウである。

２．相互相関スペクトル：２つのチャネル間の相関が周波数領域において計算される。

３．平滑化：相互相関スペクトルが、スペクトル平坦度測度に依存する平滑化係数を用いて、経時的に平滑化される。ＩＴＤ推定器を定常的なトーン性信号に対してよりロバストにするために、スペクトル平坦度が低い場合は、より強力な平滑化が使用される。ＩＴＤ推定器を過渡信号により迅速に適応させるために、すなわち信号が急速に変化している場合に、スペクトル平坦度が高いときは、より弱い平滑化が使用される。

平滑化は、以下を使用して実施され、

ここで、

であり、かつ

である。

４．重み付け：平滑化相互相関スペクトルが、その大きさの逆数によって重み付けされる。この重み付けは振幅を正規化し、位相のみを保持する。これが、位相変換（ＰＨＡＴ）と呼ばれる理由である。

５．逆変換：最終的なＧＣＣが、相互相関スペクトル

を時間領域

に変換し戻すことによって取得される。

６．ピークピッキング：最も単純な手法は、ステップ５において求められたＧＣＣの絶対値の大域最大値を探索することである。この最大値がある閾値を超える場合、ＩＴＤはこの最大値に対応するラグｎとして推定される。より高度な手法では、ヒステリシスベースおよび／またはハングオーバベースのメカニズムを付加的に使用して、より平滑なＩＴＤ推定を経時的に取得する。

ＧＧＣ－ＰＨＡＴは、低雑音の反響環境で非常に優れた性能を発揮する（たとえば［３］を参照）。ただし、背景雑音のレベルが高い場合、または他の信号成分（音楽、過渡、複雑なステレオシーン、非アクティブとして分類されるフレーム、干渉する話者など）が存在する場合、ＧＣＣ－ＰＨＡＴの性能は大幅に低下する。その場合、ＧＣＣ出力は雑音が多く、単一の強いピークは含まれない。その結果、ピークピッキングでは正しいＩＴＤを見つけられないことが多い。これは、位相変換が信号対雑音比に関係なく、すべての周波数を等しく処理するためである。このとき、ＧＣＣは、信号対雑音比が低いビンの位相によって汚染される。

この問題を回避するために、他の多くのＧＣＣ重み付けが文献において提案された。それらの１つは、本発明における問題のあるテスト信号に対して非常に効果的であることがわかった。これは［４］において最初に提案され、当時「修正クロスパワースペクトル位相」（ＭＣＳＰ）と呼ばれた。高雑音環境におけるその良好な性能は、後に他のいくつかの論文で確認された（例えば［５］を参照）。重み付け（従来技術のステップ４）は、以下のように修正される：

式中、

は０と１との間のパラメータである。

は、通常の相互相関の場合に対応し、

は、ＧＣＣ－ＰＨＡＴの場合に対応する。通常、１未満であるが、１に近い値が使用され、これにより、相関の高いビンをより強調することにより、ＧＣＣ－ＰＨＡＴを修正することが可能であり、相関の高いビンは通常、信号に対応し、一方、相関の低いビンは雑音に対応する。より正確には、

の値が最良の性能を与えることがわかった（［４］においては０．７５、［５］においては０．７８であった）。

残念ながら、この新規の重み付けは、高レベルの背景雑音が存在する場合にのみ、ＧＣＣ－ＰＨＡＴよりも良好な性能を発揮する。新規の重み付けがＧＣＣ－ＰＨＡＴよりも性能が高い可能性がある代替シナリオは、非アクティブなフレーム（すなわち、音声活動検出が非アクティブを検出し、発話レベルが低いことを示している可能性がある）、過渡の存在、複雑なステレオシナリオ、音楽、干渉する話者、背景音楽の存在、明瞭でない発話、背景雑音もしくは音楽、または明瞭な発話から逸脱する他の信号成分がまったくない、または、低レベルでしかないなどの明瞭な環境では、ＧＣＣ－ＰＨＡＴの性能はさらに向上する。常に最良の結果を達成するために、信号の内容に応じて２つの手法を切り替える必要が生じた。

信号内の高レベルの背景雑音の存在を検出するために、雑音推定器が信号活動検出器（ＳＡＤ）とともに使用される。信号のレベル

は、ＳＡＤが信号を検出するフレーム上で推定することができ、一方、雑音のレベル

は雑音推定器によって推定される。このとき、高レベルの背景雑音の存在は、信号対雑音比

（ｄＢ単位）を閾値と比較することによって単純に検出され、たとえば、

である場合、高レベルの雑音が検出される。

信号が高レベルの背景雑音を含むか否かがわかると、ＧＣＣを計算するためにＰＨＡＴ重み付けまたはＭＣＳＰ重み付けのいずれを選択するかが決定される（従来技術のステップ４）。ピークピッキング（従来技術のステップ６）はまた、高い背景雑音レベルが検出されたか否かに応じて、例えば閾値を下げることによって修正することができる。

続いて、好ましい実施形態が段階的に説明される。

０．高背景雑音レベルの検出：
ａ．雑音推定器（たとえば［６］からの）が、背景雑音のレベル

を推定するために使用される。ＩＩＲ平滑化フィルタが、雑音レベルを経時的に平滑化するために使用される。

ｂ．信号活動検出器（たとえば［６］からの）が、フレームをアクティブまたは非アクティブとして分類するために使用される。次に、アクティブなフレームが使用されて、単純に信号エネルギーを計算し、ＩＩＲ平滑化フィルタを使用して経時的に平滑化することによって、信号レベル

が計算される。

ｃ．信号対雑音比（ｄＢ単位）

が閾値（例えば３５ｄＢ）を下回っている場合、高い背景雑音レベルが検出される。

１．離散フーリエ変換：従来技術と同じ
２．相互相関スペクトル：従来技術と同じ
３．平滑化：従来技術と同じ、またはスペクトル特性に基づいて本明細書に記載されているものと同じ
４．重み付け：低レベルの背景雑音が検出された場合、従来技術と同じ重み付けが使用される（ＧＣＣ－ＰＨＡＴ）。

高レベルの背景雑音が検出された場合、ＭＣＳＰ重み付けが使用される。

ここで、

（例えば、

）である。ＧＣＣ－ＭＣＳＰ出力をＧＣＣ－ＰＨＡＴ出力と同じ範囲内に保つために、追加の正規化ステップが実施される。

５．逆変換：従来技術と同じ
６．ピークピッキング：高レベルの背景雑音が検出され、ＭＣＳＰ重み付けが使用される場合に、ピークピッキングを適応させることができる。特に、より低い閾値が有益であることが見出された。

さらに、図１０ａは、図１０ｃの実施態様とは異なる実施態様を示している。図１０ｃの重み付け手段１０３６において、重み付け手段は、第１の重み付け手順または第２の重み付け手順のいずれかを実施する。しかしながら、図１０ａに示されるような重み付け手段１０３６においては、重み付け手段は、図１０ｄまたは図１０ｃの表記に関する第２の重み付け手順のみを実施する。この実施態様は、ブロック１０３０に示されるような平滑化フィルタが使用され、平滑化に続いて、または例えば単一の数学的もしくはハードウェア動作において平滑化とともに第１の重み付け手順をすでに実施する場合に有用である。したがって、平滑化フィルタにおける圧縮を伴わない正規化動作である第１の重み付け手順を実施する場合、一方における平滑化フィルタ１０３０と他方における実際の重み付け手段１０３６の両方が、平滑化または非平滑化または非平滑化相互相関スペクトルを重み付けするための実際の重み付け手段に対応する。したがって、図１０ａの実施態様では、雑音推定値１０３８は、別個の重み付け手段１０３６にのみ提供され、重み付け手順に従ってすでに重み付けされている平滑化フィルタ１０３０の出力と、図１０ａの実際の重み付け手段１３６の出力との間の選択との間の選択は、重み付け手段１０３６が出力信号を一切提供しないときは平滑化フィルタ１０３０からの出力を自動的に使用し、重み付け手段１０３６が提供および出力するときは重み付け手段１０３６の出力を平滑化フィルタ１０３０の出力よりも自動的に優先する特定のプロセッサ設定１０４０によって行われる。次に、雑音推定値１０３８、または他の図で説明するように、制御信号１０５０が、重み付け手段１０３６をアクティブ化または非アクティブ化するために使用される。したがって、一次重み付け手順を使用して平滑化または非平滑化相互相関スペクトルを重み付けするための実際の重み付け手段は、図１０ａの特定のアクティブ化／非アクティブ化モード、あるいは、入力もしくは出力スイッチを用いるか、または、制御信号に応じて、一方もしくは他方の重み付け手順を選択するか、または一般的な重み付けプロセッサを第１の重み付け手順または第２の重み付け手順を実施するように適合させる単一の重み付け手順カーネルによる図１０ｄの２カーネルモードなど、多くの異なる方法において実施することができる。

続いて、重み付けの前に平滑化が実施される好ましい実施形態が説明される。これに関連して、スペクトル特性推定器の機能性はまた、好ましい実施形態の図４ｅ、アイテム４５３、４５４によって反映される。

さらに、相互相関スペクトル計算器１０２０の機能はまた、好ましい実施形態において後述する図４ｅのアイテム４５２によって反映される。

それに対応して、平滑化フィルタ１０３０の機能はまた、後で説明される図４ｅの文脈におけるアイテム４５３によって反映される。さらに、プロセッサ１０４０の機能はまた、好ましい実施形態の図４ｅの文脈において、アイテム４５６～４５９として説明されている。

プロセッサ１０４０の好ましい実施形態はまた、図１０ｃに記載されている。

好ましくは、スペクトル特性推定は、スペクトルの雑音性またはトーン性を計算し、好ましい実施態様は、トーン性または非雑音性信号の場合は０に近く、雑音性または雑音様信号の場合は１に近いスペクトル平坦度測度の計算である。

特に、平滑化フィルタはこのとき、第１の雑音のより少ない特性または第１のよりトーン性の特性の場合は第１の平滑化度によってより強い平滑化を経時的に適用し、または、第２の雑音のより多いまたは第２のよりトーン性の低い特性の場合は第２の平滑化度によってより弱い平滑化を経時的に適用するように構成される。

特に、第１の平滑化は、第２の平滑化度よりも大きく、第１の雑音性特性は、第２の雑音性特性よりも雑音が少なく、または第１のトーン性特性は、第２のトーン性特性よりもトーン性が高い。好ましい実施態様は、スペクトル平坦度測度である。

さらに、図１１ａに示されるように、プロセッサは、好ましくは、図４ｅのステップ４５７および４５８に対応するステップ１０３１の時間領域表現の計算を実施する前に、図４ｅおよび図１１ａの４５６に示されるように平滑化相互相関スペクトルを正規化するために実施される。しかしながら、図１１ａにも概説されているように、プロセッサはまた、図４ｅのステップ４５６の正規化なしで動作することができる。次に、プロセッサは、チャネル間時間差を求めるために、図１１ａのブロック１０３２に示されるように時間領域表現を分析するように構成される。この分析は、任意の既知の方法で実施することができ、スペクトル特性に従って平滑化されている相互相関スペクトルに基づいて分析が実施されるため、すでにロバスト性が向上する。

図１１ｂに示されるように、時間領域分析１０３２の好ましい実施態様は、図４ｅのアイテム４５８に対応する図１１ｂの４５８に示されるような時間領域表現のローパスフィルタリング、およびローパスフィルタリングされた時間領域表現内のピーク検索／ピークピッキング動作を使用したその後のさらなる処理１０３３である。

図１１ｃに示すように、ピークピッキングまたはピーク検索動作の好ましい実施態様は、可変閾値を使用してこの操作を実施することである。特に、プロセッサは、時間領域表現から可変閾値を決定し１０３４、時間領域表現（スペクトル正規化の有無にかかわらず取得される）の１つまたは複数のピークを可変閾値と比較することによって、平滑化相互相関スペクトルから導出される時間領域表現内でピーク検索／ピークピッキング動作を実施するように構成されており、チャネル間時間差は、可変閾値よりも大きいなど、閾値と所定の関係にあるピークに関連するタイムラグとして決定される。

図１１ｄに示されるように、後述する図４ｅ～図４ｂに関連する擬似コードに示される１つの好ましい実施形態は、値をそれらの大きさに従ってソートすること１０３４ａに存する。次に、図１１ｄのアイテム１０３４ｂに示されているように、それらの値のうちの最も高い、例えば１０または５％が決定される。

次に、ステップ１０３４ｃに示されるように、数３などの数が、可変閾値を得るために、最も高い１０または５％のうちの最低値に乗算される。

前述のように、好ましくは、最も高い１０または５％が決定されるが、それらの値のうちの最も高い５０％の値の最低数を決定し、１０などのより高い乗数を使用することも有用であり得る。当然ながら、それらの値のうちの最も高い３％などのさらにより少ない量が決定され、次に、それらの値のうちのこれら最も高い３％の間の最低値に、例えば、２．５または２に等しい、すなわち、３より低い数が乗算される。したがって、図１１ｄに示される実施形態では、数および百分率の異なる組み合わせを使用することができる。百分率とは別に、数値も変化する可能性があり、１．５より大きい数が好ましい。

図１１ｅに示されるさらなる実施形態では、時間領域表現は、ブロック１１０１によって示されるようにサブブロックに分割され、これらのサブブロックは、図１３の１３００に示される。ここでは、有効範囲に約１６個のサブブロックが使用されており、結果、各サブブロックのタイムラグスパンは２０である。しかしながら、サブブロックの数は、この値より大きくても小さくてもよく、好ましくは３より大きく５０より小さくてもよい。

図１１ｅのステップ１１０２では、各サブブロックのピークが決定され、ステップ１１０３では、すべてのサブブロックの平均ピークが決定される。次に、ステップ１１０４において、一方では信号対雑音比に依存し、さらなる実施形態では、ブロック１１０４の左側に示されるような閾値と最大ピークとの間の差に依存する乗算値ａが決定される。これらの入力値に応じて、好ましくは３つの異なる乗算値のうちの１つが決定され、ここで、乗算値は、ａ_ｌｏｗ、ａ_ｈｉｇｈおよびａ_{ｌｏｗｅｓｔ}に等しくなり得る。

次に、ステップ１１０５において、ブロック１１０４において決定された乗算値ａが、その後ブロック１１０６での比較演算に使用される可変閾値を得るために、平均閾値と乗算される。比較演算のために、再び、ブロック１１０１に入力された時間領域表現を使用することができるか、またはブロック１１０２に概説されるように各サブブロック内のすでに決定されたピークを使用することができる。

続いて、時間領域相互相関関数内のピークの評価および検出に関するさらなる実施形態が概説される。

チャネル間時間差（ＩＴＤ）を推定するための、一般化相互相関（ＧＣＣ－ＰＨＡＴ）法から生じる時間領域相互相関関数内のピークの評価および検出は、種々の入力シナリオに起因して、必ずしも簡単ではない。明瞭な発話入力は、強いピークを有する低偏差の相互相関関数をもたらす可能性があり、一方、雑音の多い反響環境における発話は、ＩＴＤの存在を示す、高い偏差、および、より低いが依然として顕著に大きいピークを有するベクトルを生成することができる。種々の入力シナリオに対応するための適応性および柔軟性を備えたピーク検出アルゴリズムについて説明する。

遅延の制約により、システム全体が特定の制限、すなわちＩＴＤ＿ＭＡＸまでのチャネル時間整合を処理することができる。提案されているアルゴリズムは、以下の場合に有効なＩＴＤが存在するか否かを検出するように設計されている。

・ピークが顕著であることに起因する有効なＩＴＤ。相互相関関数の［－ＩＴＤ＿ＭＡＸ，ＩＴＤ＿ＭＡＸ］範囲内に顕著なピークが存在する。

・相関関係がない。２つのチャネル間に相関関係がない場合、顕著なピークはない。これを超えるとピークが有効なＩＴＤ値と見なされるのに十分な強度になる閾値を定義する必要がある。それ以外の場合、ＩＴＤ処理は通知されない。すなわち、ＩＴＤはゼロに設定され、時間整合は実施されない。

・範囲外ＩＴＤ。システムの処理能力の外側にあるＩＴＤが存在するか否かを判断するために、領域［－ＩＴＤ＿ＭＡＸ，ＩＴＤ＿ＭＡＸ］の外側の相互相関関数の強いピークを評価する必要がある。この場合、ＩＴＤ処理は通知されるべきではなく、したがって、時間整合は実施されない。

ピークの大きさが時間差値と見なされるほど大きいか否かを判断するには、適切な閾値を定義する必要がある。種々の入力シナリオについて、相互相関関数出力は、例えば、環境（雑音、反響など）、マイクロフォン設定（ＡＢ、Ｍ／Ｓなど）などの種々のパラメータによって異なる。したがって、閾値を適応的に定義することが不可欠である。

提案されているアルゴリズムでは、閾値は、最初に［－ＩＴＤ＿ＭＡＸ，ＩＴＤ＿ＭＡＸ］領域内の相互相関関数の大きさのエンベロープの大まかな計算の平均を計算することによって定義され（図１３）、次に平均がＳＮＲ推定に応じて、対応して重み付けされる。

アルゴリズムの段階的な説明を以下に記載する。

時間領域相互相関を表すＧＣＣ－ＰＨＡＴの逆ＤＦＴの出力が、負のタイムラグから正のタイムラグに再構成される（図１２）。

相互相関ベクトルが、関心領域、すなわち［－ＩＴＤ＿ＭＡＸ，ＩＴＤ＿ＭＡＸ］、ならびに、ＩＴＤ＿ＭＡＸ境界の外側の領域、すなわち－ＩＴＤ＿ＭＡＸ（ｍａｘ＿ｌｏｗ）より小さいタイムラグ、および、ＩＴＤ＿ＭＡＸ（ｍａｘ＿ｈｉｇｈ）より大きいタイムラグの３つの主要な領域に分割される。「範囲外」領域の最大ピークが検出および保存されて、関心領域内で検出された最大ピークと比較される。

有効なＩＴＤが存在するか否かを判定するために、相互相関関数のサブベクトル領域［－ＩＴＤ＿ＭＡＸ，ＩＴＤ＿ＭＡＸ］が考慮される。サブベクトルはＮ個のサブブロックに分割される（図１３）。

サブブロックごとに、最大ピークの大きさｐｅａｋ＿ｓｕｂおよび同等のタイムラグ位置ｉｎｄｅｘ＿ｓｕｂが求められ、保存される。

極大値ｐｅａｋ＿ｍａｘの最大値が決定され、閾値と比較されて、有効なＩＴＤ値の存在が決定される。

最大値ｐｅａｋ＿ｍａｘは、ｍａｘ＿ｌｏｗおよびｍａｘ＿ｈｉｇｈと比較される。ｐｅａｋ＿ｍａｘが２つのいずれかよりも低い場合、ｉｔｄ処理は通知されず、時間整合は実施されない。システムのＩＴＤ処理制限のため、範囲外のピークの大きさを評価する必要はない。

ピークの大きさの平均が計算される。

次に、

を、ＳＮＲに依存する重み係数

を用いて重み付けすることにより、閾値

が計算される。

かつ

である場合、隣接するピークが高い顕著なピークが拒否されないようにするために、ピークの大きさはまた、わずかに緩和された閾値（

）とも比較される。重み係数は、たとえば、ａ_ｈｉｇｈ＝３，ａ_ｌｏｗ＝２．５およびａ_{ｌｏｗｅｓｔ}＝２であり得、一方、ＳＮＲ_{ｔｈｒｅｓｈｏｌｄ}は、たとえば、２０ｄＢであり得、境界ε＝０．０５であり得る。

好ましい範囲は、ａ_ｈｉｇｈについては２．５～５であり、ａ_ｌｏｗについては１．５～４、ａ_{ｌｏｗｅｓｔ}については１．０から３、ＳＮＲ_{ｔｈｒｅｓｈｏｌｄ}については１０～３０ｄＢ、εについては０．０１～０．５であり、ここで、ａ_ｈｉｇｈはａ_ｌｏｗよりも大きく、ａ_ｌｏｗはａ_{ｌｏｗｅｓｔ}よりも大きい。

ｐｅａｋ＿ｍａｘ＞ｔｈｒｅｓの場合、同等のタイムラグが推定ＩＴＤとして返される。それ以外の場合、ｉｔｄ処理は通知されない（ＩＴＤ＝０）。さらなる実施形態は、図４ｅに関して後で説明される。

図１１ｆは、有効なＩＴＤ（チャネル間時間差）出力を決定する好ましい実施態様を示している。

重み付けされ、平滑化された、または平滑化されていない相互相関スペクトルの時間領域表現のサブブロックは、プロセッサ１０４０内の決定ステップに入力される。この決定ステップ１１２０は、重み付けされ、平滑化された、または平滑化されていない相互相関スペクトルから導出される時間領域表現内の有効範囲および無効範囲を決定する。ステップ１１２１において、最大ピークが、無効範囲内で決定され、ステップ１１２２において、最大ピークが、有効範囲内で決定される。特に、少なくとも１つの最大ピークが、無効範囲内で決定され、少なくとも１つの最大ピークが、有効範囲内で決定される。ブロック１１２３において、有効範囲および無効範囲の最大ピークが比較される。有効ピーク、すなわち有効範囲内の最大ピークが無効範囲内の最大ピークである「無効ピーク」よりも大きい場合、ＩＴＤ決定１１２４が実際に実施され、有効なＩＴＤ出力が提供される。しかしながら、「無効ピーク」が「有効ピーク」よりも大きいこと、または無効ピークが有効ピークと同じサイズであることが検出された場合、有効な出力は提供されず、好ましくは、これに対してプロセッサの注意を引くために、エラーメッセージまたは同等の措置が実施される。

続いて、さらなる信号プロセッサの目的のための図１０ｂのブロック１０５０内の本発明の好ましい実施態様が、図１～図９ｅに関して、すなわち、２つのチャネルのステレオ／マルチチャネル処理／符号化および時間整合の文脈において論じられる。

しかしながら、記述され、図１０ｂに示されるように、決定されたチャネル間時間差を使用する信号のさらなる処理も同様に実施され得る他の多くのフィールドが存在する。

図１は、少なくとも２つのチャネルを有するマルチチャネル信号を符号化するための装置を示している。マルチチャネル信号１０は、一方ではパラメータ決定手段１００に入力され、他方では信号アライナ２００に入力される。パラメータ決定手段１００は、一方では広帯域整合パラメータを決定し、他方ではマルチチャネル信号から複数の狭帯域整合パラメータを決定する。これらのパラメータは、パラメータライン１２を介して出力される。さらに、これらのパラメータはまた、図示のように、さらなるパラメータライン１４を介して出力インターフェース５００に出力される。パラメータライン１４上で、レベルパラメータなどの追加のパラメータがパラメータ決定手段１００から出力インターフェース５００に転送される。信号アライナ２００は、パラメータライン１０を介して受信される広帯域整合パラメータおよび複数の狭帯域整合パラメータを使用してマルチチャネル信号１０の少なくとも２つのチャネルを整合して、信号アライナ２００の出力において整合されたチャネル２０を取得するように構成される。これらの整合されたチャネル２０は、ライン２０を介して受信される整合されたチャネルからミッド信号３１およびサイド信号３２を計算するように構成された信号プロセッサ３００に転送される。符号化するための装置は、ライン３１からのミッド信号およびライン３２からのサイド信号を符号化して、ライン４１上で符号化ミッド信号を得、ライン４２上で符号化サイド信号を得るための信号符号化器４００をさらに備える。これらの信号は両方とも、出力ライン５０において符号化マルチチャネル信号を生成するために出力インターフェース５００に転送される。出力ライン５０における符号化信号は、ライン４１からの符号化ミッド信号、ライン４２からの符号化サイド信号、ライン１４からの狭帯域整合パラメータおよび広帯域整合パラメータ、ならびに任意選択的に、ライン１４からのレベルパラメータ、ならびに加えて、任意選択的に、信号符号化器４００によって生成され、パラメータライン４３を介して出力インターフェース５００に転送されるステレオ充填パラメータを含む。

好ましくは、信号アライナは、パラメータ決定手段１００が実際に狭帯域パラメータを計算する前に、広帯域整合パラメータを使用してマルチチャネル信号からチャネルを整合するように構成される。したがって、この実施形態では、信号アライナ２００は、接続ライン１５を介して、広帯域整合されたチャネルをパラメータ決定手段１００に送り返す。次に、パラメータ決定手段１００は、すでに広帯域特性に関して整合されたマルチチャネル信号から、複数の狭帯域整合パラメータを決定する。しかしながら、他の実施形態では、パラメータは、この特定の一連の手順なしで決定される。

図４ａは、接続ライン１５を被る特定の一連のステップが実施される、好ましい実施態様を示している。ステップ１６において、２つのチャネルを使用して広帯域整合パラメータが決定され、チャネル間時間差またはＩＴＤパラメータなどの広帯域整合パラメータが取得される。次に、ステップ２１において、２つのチャネルは、広帯域整合パラメータを使用して、図１の信号アライナ２００によって整合される。次に、ステップ１７において、狭帯域パラメータが、パラメータ決定手段１００内の整合されたチャネルを使用して決定されて、マルチチャネル信号の異なる帯域に対する複数のチャネル間位相差パラメータなどの複数の狭帯域整合パラメータが決定される。次に、ステップ２２において、各パラメータ帯域内のスペクトル値が、この特定の帯域の対応する狭帯域整合パラメータを使用して整合される。ステップ２２のこの手順が、狭帯域整合パラメータが利用可能な各帯域に対して実施されると、図１の信号プロセッサ３００によるさらなる信号処理のために、整合された第１および第２のまたは左／右チャネルが利用可能になる。

図４ｂは、周波数領域においていくつかの手順が実施される、図１のマルチチャネル符号化器のさらなる実施態様を示している。

具体的には、マルチチャネル符号化器は、時間領域マルチチャネル信号を周波数領域内の少なくとも２つのチャネルのスペクトル表現に変換するための時間スペクトル変換器１５０をさらに備える。

さらに、１５２に示されているように、図１の１００、２００、および３００に示されているパラメータ決定手段、信号アライナ、および信号プロセッサがすべて、周波数領域において動作する。

さらに、マルチチャネル符号化器、具体的には、信号プロセッサは、少なくともミッド信号の時間領域表現を生成するためのスペクトル時間変換器１５４をさらに備える。

好ましくは、スペクトル時間変換器はさらに、同じくブロック１５２によって表される手順によって決定されるサイド信号のスペクトル表現を時間領域表現に変換し、次に、図１の信号符号化器４００は、このとき、ミッド信号および／またはサイド信号を、図１の信号符号化器４００の特定の実施態様に応じて、時間領域信号としてさらに符号化するように構成される。

好ましくは、図４ｂの時間スペクトル変換器１５０は、図４ｃのステップ１５５、１５６、および１５７を実施するように構成される。具体的には、ステップ１５５は、その一端に少なくとも１つのゼロパディング部分、具体的には、例えば、後に図７に示すように、最初のウィンドウ部分にあるゼロパディング部分および終端ウィンドウ部分にあるゼロパディング部分を有する分析ウィンドウを提供することを含む。さらに、分析ウィンドウは、ウィンドウの第１の半部およびウィンドウの第２の半部に重複範囲または重複部分を付加的に有し、さらに、好ましくは、場合によって中間部分が非重複範囲になる。

ステップ１５６において、各チャネルは、重複範囲を有する分析ウィンドウを使用してウィンドウイングされる。具体的には、各チャネルは、チャネルの第１のブロックが取得されるように、分析ウィンドウを使用してウィンドウイングされる。続いて、第１のブロックとの一定の重複範囲を有する同じチャネルの第２のブロックが得られ、以下同様になり、結果、例えば、５回のウィンドウイング動作の後、各チャネルのウィンドウイングされたサンプルの５つのブロックが利用可能になり、これらは、図４ｃの１５７に示すように、個別にスペクトル表現に変換される。ステップ１５７の終わりに、スペクトル値の一連のブロック、具体的には、ＤＦＴスペクトル値または複素サブバンドサンプルなどの複素スペクトル値が利用可能になるように、同じ手順が他のチャネルに対しても実施される。

図１のパラメータ決定手段１００によって実施されるステップ１５８において、広帯域整合パラメータが決定され、図１の信号整合２００によって実施されるステップ１５９において、広帯域整合パラメータを使用して循環シフトが実施される。再び図１のパラメータ決定手段１００によって実施されるステップ１６０において、狭帯域整合パラメータが個々の帯域／サブバンドに対して決定され、ステップ１６１において、整合されたスペクトル値が、特定の帯域に対して決定された対応する狭帯域整合パラメータを使用して各帯域について回転される。

図４ｄは、信号プロセッサ３００によって実施されるさらなる手順を示している。具体的には、信号プロセッサ３００は、ステップ３０１に示されるように、ミッド信号およびサイド信号を計算するように構成される。ステップ３０２において、サイド信号の何らかの種類のさらなる処理を実施することができ、次いで、ステップ３０３において、ミッド信号およびサイド信号の各ブロックが、時間領域に変換し戻され、ステップ３０４において、合成ウィンドウが、ステップ３０３によって得られた各ブロックに適用され、ステップ３０５において、一方ではミッド信号の重畳加算演算が実施され、他方ではサイド信号の重畳加算演算が実施されて、最終的に時間領域ミッド／サイド信号が得られる。

具体的には、ステップ３０４および３０５の動作の結果として、ミッド信号およびサイド信号の次のブロックにおいて、ミッド信号またはサイド信号の１つのブロックからの一種のクロスフェードが実施され、結果、チャネル間時間差パラメータまたはチャネル間位相差パラメータが発生するなどの任意のパラメータ変化が発生する場合であっても、それにもかかわらず、これは、図４ｄのステップ３０５によって得られる時間領域の中間／サイド信号において可聴ではない。

新規低遅延ステレオ符号化は、いくつかの空間キューを利用するジョイントミッド／サイド（Ｍ／Ｓ）ステレオ符号化であり、ミッドチャネルは一次モノコアコーダによって符号化され、サイドチャネルは二次コアコーダにおいて符号化される。符号化器および復号器の原理を図６ａ、図６ｂに示す。

ステレオ処理は主に周波数領域（ＦＤ）において実施される。任意選択的に、周波数分析の前に時間領域（ＴＤ）において何らかのステレオ処理を実施することができる。これは、ステレオ分析および処理を実行する前のチャネルの時間整合のための周波数分析の前に計算し、適用することができる、ＩＴＤ計算の場合である。代替的に、ＩＴＤ処理は周波数領域において直接実行されてもよい。ＡＣＥＬＰのような通常の音声コーダには内部時間周波数分解が含まれていないため、ステレオ符号化は、コア符号化器の前の分析および合成フィルタバンク、ならびに、コア復号器の後の別の分析－合成フィルタバンクの段を用いることによって、さらなる複素変調フィルタバンクを追加する。好ましい実施形態では、重複領域が少ないオーバーサンプリングされたＤＦＴが使用される。しかしながら、他の実施形態では、同様の時間分解能を有する任意の複素値の時間周波数分解を使用することができる。

ステレオ処理は、空間キュー、すなわち、チャネル間時間差（ＩＴＤ）、チャネル間位相差（ＩＰＤ）、およびチャネル間レベル差（ＩＬＤ）の計算から構成される。ＩＴＤおよびＩＰＤは、２つのチャネルＬおよびＲを時間および位相において整合させるために、入力ステレオ信号に対して使用される。ＩＴＤは広帯域または時間領域において計算され、一方、ＩＰＤおよびＩＬＤは、周波数空間の不均一な分解に対応して、パラメータ帯域の各々または一部に対して計算される。２つのチャネルが整合すると、ジョイントＭ／Ｓステレオが適用され、サイド信号がミッド信号からさらに予測される。予測利得はＩＬＤから導出される。

ミッド信号は、一次コアコーダによってさらにコード化される。好ましい実施形態では、一次コアコーダは、３ＧＰＰＥＶＳ規格、または音声符号化モード、ＡＣＥＬＰ、およびＭＤＣＴ変換に基づく音楽モードの間で切り替えることができる、３ＧＰＰＥＶＳ規格から派生した符号化である。好ましくは、ＡＣＥＬＰおよびＭＤＣＴベースのコーダは、それぞれ時間領域帯域幅拡張（ＴＤ－ＢＷＥ）および／またはインテリジェントギャップ充填（ＩＧＦ）モジュールによってサポートされる。

サイド信号は、ＩＬＤから導出された予測利得を使用して、ミッドチャネルによって最初に予測される。残差は、ミッド信号の遅延バージョンによってさらに予測することができるか、またはＭＤＣＴ領域における好ましい実施形態において実施される二次コアコーダによって直接コード化することができる。符号化器におけるステレオ処理は、後で説明するように、図５によって要約することができる。

図２は、入力ライン５０において受信される符号化マルチチャネル信号を復号するための装置の実施形態のブロック図を示している。

特に、信号は、入力インターフェース６００によって受信される。入力インターフェース６００には、信号復号器７００、および信号デアライナ９００が接続されている。さらに、信号プロセッサ８００は、一方では信号復号器７００に接続され、他方では信号デアライナに接続される。

特に、符号化マルチチャネル信号は、符号化ミッド信号、符号化サイド信号、広帯域整合パラメータに関する情報、および複数の狭帯域パラメータに関する情報を含む。したがって、ライン５０上の符号化マルチチャネル信号は、図１の５００の出力インターフェースによって出力されたものとまったく同じ信号であり得る。

しかしながら、ここで重要なことに、図１に示されているものとは対照的に、特定の形態の符号化信号に含まれる広帯域整合パラメータおよび複数の狭帯域整合パラメータは、正確に図１の信号アライナ２００によって使用される整合パラメータであり得るが、代替的にまた、その逆の値、すなわち、信号アライナ２００によって実施されるのとまったく同じ動作によって使用することができるが、値は逆であるパラメータであってもよく、結果、脱整合が得られる。

したがって、整合パラメータに関する情報は、図１の信号アライナ２００によって使用される整合パラメータであり得るか、または逆の値、すなわち実際の「脱整合パラメータ」であり得る。さらに、これらのパラメータは通常、図８に関して後で説明するように、特定の形式で量子化される。

図２の入力インターフェース６００は、広帯域整合パラメータおよび複数の狭帯域整合パラメータに関する情報を、符号化ミッド／サイド信号から分離し、この情報を、パラメータライン６１０を介して信号デアライナ９００に転送する。他方、符号化ミッド信号は、ライン６０１を介して信号復号器７００に転送され、符号化サイド信号は、信号ライン６０２を介して信号復号器７００に転送される。

信号復号器は、符号化ミッド信号を復号し、符号化サイド信号を復号して、ライン７０１上で復号ミッド信号を取得し、ライン７０２上で復号サイド信号を取得するように構成される。これらの信号は、復号された第１のチャネル信号または復号された左信号を計算し、復号ミッド信号および復号サイド信号から復号された第２のチャネルまたは復号された右チャネル信号を計算するために、信号プロセッサ８００によって使用され、復号された第１のチャネルおよび復号された第２のチャネルは、それぞれライン８０１、８０２上に出力される。信号デアライナ９００は、復号マルチチャネル信号、すなわち、ライン９０１および９０２上の少なくとも２つの復号および脱整合されたチャネルを有する復号信号を取得するために、広帯域整合パラメータに関する情報を使用し、さらに複数の狭帯域整合パラメータに関する情報を使用して、ライン８０１上の復号された第１のチャネルおよび復号された右チャネル８０２を脱整合するように構成される。

図９ａは、図２からの信号デアライナ９００によって実施される好ましいステップシーケンスを示している。具体的には、ステップ９１０は、図２からのライン８０１、８０２上で利用可能であるような、整合された左および右チャネルを受信する。ステップ９１０において、信号デアライナ９００は、９１１ａおよび９１１ｂにおいて位相脱整合されている復号された第１のおよび第２のまたは左および右チャネルを得るために、狭帯域整合パラメータに関する情報を使用して個々のサブバンドを脱整合する。ステップ９１２において、チャネルは、広帯域整合パラメータを使用して脱整合され、結果、９１３ａおよび９１３ｂにおいて、位相および時間脱整合されたチャネルが得られる。

ステップ９１４において、９１５ａまたは９１５ｂで、アーティファクトが低減された、またはアーティファクトのない復号された信号を得るために、すなわち、アーティファクトを一切有しない復号チャネルに対して、ウィンドウイングまたは任意の重畳加算演算、または一般に任意のクロスフェード動作を使用することを含む任意のさらなる処理が実施されるが、一方では広帯域に対して、他方では複数の狭帯域に対して、典型的には時間変化する脱整合パラメータが存在している。

図９ｂは、図２に示されるマルチチャネル復号器の好ましい実施態様を示す。

特に、図２の信号プロセッサ８００は、時間スペクトル変換器８１０を備える。

信号プロセッサは、ミッド信号Ｍおよびサイド信号Ｓから左信号Ｌおよび右信号Ｒを計算するために、ミッド／サイド－左／右変換器８２０をさらに備える。

しかしながら、重要なことに、ブロック８２０におけるミッド／サイド－左／右変換によってＬおよびＲを計算するために、サイド信号Ｓが必ずしも使用される必要はない。代わりに、後で説明するように、左／右信号は、最初にチャネル間レベル差パラメータＩＬＤから導出された利得パラメータのみを使用して計算される。一般に、予測利得はＩＬＤの形式と見なすこともできる。利得はＩＬＤから導出することができるが、直接計算することもできる。もはやＩＬＤを計算するのではなく、予測利得を直接計算し、ＩＬＤパラメータではなく予測利得を復号器において送信して使用することが好ましい。

したがって、この実施態様では、サイド信号Ｓは、バイパスライン８２１によって示されるように、送信されたサイド信号Ｓを使用してより良好な左／右信号を提供するために動作するチャネルアップデータ８３０においてのみ使用される。

したがって、コンバータ８２０は、レベルパラメータ入力８２２を介して取得されるレベルパラメータを使用して、実際にはサイド信号Ｓを使用せずに動作するが、このとき、チャネルアップデータ８３０は、サイド８２１を使用し、特定の実施態様に応じて、ライン８３１を介して受信されるステレオ充填パラメータを使用して動作する。このとき、信号アライナ９００は、段階的デアライナおよびエネルギースケーラ９１０を備える。エネルギースケーリングは、スケーリング係数計算器９４０によって導出されるスケーリング係数によって制御される。スケーリング係数計算器９４０は、チャネルアップデータ８３０の出力によって供給される。入力９１１を介して受信される狭帯域整合パラメータに基づいて、位相脱整合が実施され、ブロック９２０において、ライン９２１を介して受信される広帯域整合パラメータに基づいて、時間脱整合が実施される。最後に、復号信号を最終的に取得するために、スペクトル時間変換９３０が実施される。

図９ｃは、好ましい実施形態において、図９ｂのブロック９２０および９３０内で典型的に実施されるさらなるステップシーケンスを示す。

具体的には、狭帯域脱整合チャネルが、図９ｂのブロック９２０に対応する広帯域脱整合機能に入力される。ＤＦＴまたは任意の他の変換が、ブロック９３１において実施される。時間領域サンプルの実際の計算に続いて、合成ウィンドウを使用した任意選択的な合成ウィンドウが実施される。合成ウィンドウは、好ましくは、分析ウィンドウと完全に同じであるか、または、例えば、補間またはデシメーションなど、分析ウィンドウから導出されるが、分析ウィンドウから特定の様態で依存する。この依存性は、好ましくは、２つの重なり合うウィンドウによって定義される乗算係数が、重複範囲内の各点について合計されるようなものである。したがって、ブロック９３２の合成ウィンドウに続いて、重畳演算および後続の加算演算が実施される。代替的に、合成ウィンドウイングおよび重畳／加算演算の代わりに、図９ａに関連してすでに説明したように、アーティファクトが低減された復号信号を取得するために、各チャネルの後続のブロック間の任意のクロスフェードが実施される。

図６ｂを検討すると、一方におけるミッド信号の実際の復号動作、すなわち「ＥＶＳ復号器」、ならびに、サイド信号の、逆ベクトル量子化ＶＱ^－１および逆ＭＤＣＴ動作（ＩＭＤＣＴ）が、図２の信号復号器７００に対応することが明らかになる。

さらに、ブロック８１０のＤＦＴ動作は、図９ｂの要素８１０に対応し、逆ステレオ処理および逆時間シフトの機能は、図２のブロック８００、９００に対応し、図６ｂの逆ＤＦＴ動作９３０は、図９ｂのブロック９３０の対応する動作に対応する。

続いて、図３についてさらに詳しく説明する。特に、図３は、個々のスペクトル線を有するＤＦＴスペクトルを示している。好ましくは、図３に示されるＤＦＴスペクトルまたは他の任意のスペクトルは、複素スペクトルであり、各線は、大きさおよび位相を有するか、または実数部および虚数部を有する複素スペクトル線である。

さらに、スペクトルはまた種々のパラメータ帯域に分割される。各パラメータ帯域は、少なくとも１つ、好ましくは２つ以上のスペクトル線を有する。さらに、パラメータ帯域は低い周波数から高い周波数に増大する。典型的には、広帯域整合パラメータは、スペクトル全体、すなわち、図３の例示的な実施形態におけるすべての帯域１～６を含むスペクトルに対する単一の広帯域整合パラメータである。

さらに、各パラメータ帯域に対して単一の整合パラメータが存在するように、複数の狭帯域整合パラメータが提供される。これは、帯域の整合パラメータが、対応する帯域内のすべてのスペクトル値に常に適用されることを意味する。

さらに、狭帯域整合パラメータに加えて、レベルパラメータも各パラメータ帯域に提供される。

帯域１から帯域６までのすべてのパラメータ帯域に提供されるレベルパラメータとは対照的に、帯域１、２、３および４などの限られた数のより低い帯域に対してのみ複数の狭帯域整合パラメータを提供することが好ましい。

さらに、ステレオ充填パラメータが、例示的な実施形態では、帯域４、５および６などの低帯域を除く特定の数の帯域に提供され、一方、下位パラメータ帯域１、２および３にはサイド信号スペクトル値が存在し、結果として、これらの低帯域のステレオ充填パラメータは存在せず、ここでは、サイド信号自体またはサイド信号を表す予測残差信号のいずれかを使用して波形マッチングが得られる。

すでに述べたように、図３の実施形態では、パラメータ帯域６に７つのスペクトル線があるのに対し、パラメータ帯域２には３つのスペクトル線しかないなど、より高い帯域に多くのスペクトル線が存在する。ただし、当然のことながら、パラメータ帯域の数、スペクトル線の数、およびパラメータ帯域内のスペクトル線の数、ならびにまた特定のパラメータの種々制限は異なる。

それにもかかわらず、図８は、図３とは対照的に、実際には１２個の帯域が存在する特定の実施形態において、パラメータの分布およびパラメータが提供される帯域の数を示している。

図に示すように、レベルパラメータＩＬＤは１２個の帯域の各々に提供され、帯域あたり５ビットによって表される量子化精度に量子化される。

さらに、狭帯域整合パラメータＩＰＤは、２．５ｋＨｚの境界周波数までの低帯域に対してのみ提供される。さらに、チャネル間時間差または広帯域整合パラメータは、スペクトル全体の単一パラメータとしてのみ提供されるが、量子化精度は、帯域全体について８ビットで表され、非常に高い。

さらに、１ｋＨｚ未満の低帯域ではなく、帯域あたり３ビットで表される非常に大まかに量子化されたステレオ充填パラメータが提供される。これは、低帯域については、実際に符号化されたサイド信号またはサイド信号の残留スペクトル値が含まれるためである。

続いて、符号化器側での好ましい処理を図５に関して要約する。最初のステップにおいて、左チャネルおよび右チャネルのＤＦＴ分析が実施される。この手順は、図４ｃのステップ１５５～１５７に対応する。ステップ１５８において、広帯域整合パラメータが計算され、特に、好ましい広帯域整合パラメータのチャネル間時間差（ＩＴＤ）が計算される。１７０に示すように、周波数領域におけるＬおよびＲの時間シフトが実施される。代替的に、この時間シフトはまた、時間領域において実施することもできる。次に、逆ＤＦＴが実施され、時間領域において時間シフトが実施され、広帯域整合パラメータを使用した整合に続いてスペクトル表現を再度取得するために、追加の順方向ＤＦＴが実施される。

ステップ１７１に示されるように、ＩＬＤパラメータ、すなわち、レベルパラメータおよび位相パラメータ（ＩＰＤパラメータ）が、シフトされたＬおよびＲ表現上の各パラメータ帯域について計算される。このステップは、例えば、図４ｃのステップ１６０に対応する。図４ｃまたは図５のステップ１６１に示されるように、時間シフトされたＬおよびＲ表現は、チャネル間位相差パラメータの関数として回転される。続いて、ミッド信号およびサイド信号が、ステップ３０１に示されるように、好ましくは、後で説明されるように、付加的にエネルギー会話動作を用いて計算される。後続のステップ１７４において、ＩＬＤの関数としてのＭおよび任意選択的に過去のＭ信号、すなわち、先行するフレームのミッド信号を用いたＳの予測が実施される。続いて、好ましい実施形態における図４ｄのステップ３０３、３０４、３０５に対応するミッド信号およびサイド信号の逆ＤＦＴが実施される。

最後のステップ１７５において、時間領域ミッド信号ｍ、および任意選択的に、残差信号が、ステップ１７５に示されるようにコード化される。この手順は、図１の信号符号化器４００によって実施されるものに対応する。

逆ステレオ処理の復号器において、サイド信号がＤＦＴドメインにおいて生成され、最初にミッド信号から以下のように予測される。

式中、ｇは各パラメータ帯域に対して計算される利得であり、送信されているチャネル間レベル差（ＩＬＤ）の関数である。

次に、予測の残差

を２つの異なる方法で調整できる。

残差信号の二次符号化による：

式中、

はスペクトル全体に送信されるグローバル利得である。

－ステレオ充填として知られる残差予測による、これは、前のＤＦＴフレームからの前の復号ミッド信号スペクトルによって残差サイドスペクトルを予測する：

式中、

はパラメータ帯域ごとに送信される予測利得である。

２種類の符号化の改良は、同じＤＦＴスペクトル内で混合することができる。好ましい実施形態では、残差符号化は、より低いパラメータ帯域に適用され、一方残差予測は、残りの帯域に適用される。残差符号化は、図１に示されるような好ましい実施形態において、時間領域において残差サイド信号を合成し、それをＭＤＣＴによって変換した後、ＭＤＣＴ領域において実施される。ＤＦＴとは異なり、ＭＤＣＴはクリティカルサンプリングされ（ｃｒｉｔｉｃａｌｓａｍｐｌｅｄ）、オーディオ符号化により適している。ＭＤＣＴ係数は、格子ベクトル量子化によって直接ベクトル量子化されるが、代替的に、スカラー量子化器およびそれに続くエントロピーコーダによってコード化されてもよい。代替的に、残差サイド信号は、音声符号化技術によって時間領域において、または直接的にＤＦＴドメインにおいて符号化することもできる。

１．時間周波数分析：ＤＦＴ
ＤＦＴによって行われるステレオ処理からのさらなる時間周波数分解により、符号化システムの全体的な遅延を大幅に増大させることなく、良好な聴覚シーン分析が可能になることが重要である。デフォルトでは、１０ミリ秒の時間分解能（コアコーダの２０ミリ秒のフレーミングの２倍）が使用される。分析ウィンドウと合成ウィンドウとは同じであり、対称的である。ウィンドウは、図７において１６ｋＨｚのサンプリングレートで表されている。重複領域は、発生する遅延を減らすために制限されており、後に説明するように、周波数領域においてＩＴＤを適用するときに、循環シフトを相殺するためにゼロパディングも追加されていることがわかる。

２．ステレオパラメータ
ステレオパラメータは最大で、ステレオＤＦＴの時間分解能で送信することができる。これは最小で、コアコーダのフレーミング解像度、すなわち２０ｍｓに減らすことができる。デフォルトでは、過渡が検出されない場合、パラメータは２つのＤＦＴウィンドウにわたって２０ミリ秒ごとに計算される。パラメータ帯域は、等価矩形帯域幅（ＥＲＢ）の約２倍または４倍に続く、スペクトルの不均一で重複しない分解を構成する。デフォルトでは、１６ｋＨｚの周波数帯域幅（３２ｋｂｐｓのサンプリングレート、超広帯域ステレオ）の合計１２帯域に４倍のＥＲＢスケールが使用される。図８は、ステレオサイド情報が約５ｋｂｐｓで送信される構成例をまとめたものである。

３．ＩＴＤおよびチャネル時間整合の計算
ＩＴＤは、位相変換を用いた一般化相互相関（ＧＣＣ－ＰＨＡＴ）を使用して到来時間遅延（ＴＤＯＡ）を推定することによって計算される。

式中、ＬおよびＲは、それぞれ左チャネルおよび右チャネルの周波数スペクトルである。周波数分析は、後続のステレオ処理に使用されるＤＦＴとは独立して実施することができ、または、共有することができる。ＩＴＤを計算するための擬似コードは以下のとおりである。

Ｌ＝ｆｆｔ（ｗｉｎｄｏｗ（ｌ））；
Ｒ＝ｆｆｔ（ｗｉｎｄｏｗ（ｒ））；
ｔｍｐ＝Ｌ．＊ｃｏｎｊ（Ｒ）；
ｓｆｍ＿Ｌ＝ｐｒｏｄ（ａｂｓ（Ｌ）．＾（１／ｌｅｎｇｔｈ（Ｌ）））／（ｍｅａｎ（ａｂｓ（Ｌ））＋ｅｐｓ）；
ｓｆｍ＿Ｒ＝ｐｒｏｄ（ａｂｓ（Ｒ）．＾（１／ｌｅｎｇｔｈ（Ｒ）））／（ｍｅａｎ（ａｂｓ（Ｒ））＋ｅｐｓ）；
ｓｆｍ＝ｍａｘ（ｓｆｍ＿Ｌ，ｓｆｍ＿Ｒ）；
ｈ．ｃｒｏｓｓ＿ｃｏｒｒ＿ｓｍｏｏｔｈ＝（１－ｓｆｍ）＊ｈ．ｃｒｏｓｓ＿ｃｏｒｒ＿ｓｍｏｏｔｈ＋ｓｆｍ＊ｔｍｐ；
ｔｍｐ＝ｈ．ｃｒｏｓｓ＿ｃｏｒｒ＿ｓｍｏｏｔｈ．／ａｂｓ（ｈ．ｃｒｏｓｓ＿ｃｏｒｒ＿ｓｍｏｏｔｈ＋ｅｐｓ）；
ｔｍｐ＝ｉｆｆｔ（ｔｍｐ）；
ｔｍｐ＝ｔｍｐ（［ｌｅｎｇｔｈ（ｔｍｐ）／２＋１：ｌｅｎｇｔｈ（ｔｍｐ）１：ｌｅｎｇｔｈ（ｔｍｐ）／２＋１］）；
ｔｍｐ＿ｓｏｒｔ＝ｓｏｒｔ（ａｂｓ（ｔｍｐ））；
ｔｈｒｅｓｈ＝３＊ｔｍｐ＿ｓｏｒｔ（ｒｏｕｎｄ（０．９５＊ｌｅｎｇｔｈ（ｔｍｐ＿ｓｏｒｔ）））；
ｘｃｏｒｒ＿ｔｉｍｅ＝ａｂｓ（ｔｍｐ（－（ｈ．ｓｔｅｒｅｏ＿ｉｔｄ＿ｑ＿ｍａｘ－（ｌｅｎｇｔｈ（ｔｍｐ）－１）／２－１）：－（ｈ．ｓｔｅｒｅｏ＿ｉｔｄ＿ｑ＿ｍｉｎ－（ｌｅｎｇｔｈ（ｔｍｐ）－１）／２－１）））；
％ｓｍｏｏｔｈｏｕｔｐｕｔｆｏｒｂｅｔｔｅｒｄｅｔｅｃｔｉｏｎ
ｘｃｏｒｒ＿ｔｉｍｅ＝［ｘｃｏｒｒ＿ｔｉｍｅ０］；
ｘｃｏｒｒ＿ｔｉｍｅ２＝ｆｉｌｔｅｒ（［０．２５０．５０．２５］，１，ｘｃｏｒｒ＿ｔｉｍｅ）

［ｍ，ｉ］＝ｍａｘ（ｘｃｏｒｒ＿ｔｉｍｅ２（２：ｅｎｄ））；
ｉｆｍ＞ｔｈｒｅｓｈ
ｉｔｄ＝ｈ．ｓｔｅｒｅｏ＿ｉｔｄ＿ｑ＿ｍａｘ－ｉ＋１；
ｅｌｓｅ
ｉｔｄ＝０；
ｅｎｄ
図４ｅは、広帯域整合パラメータの例としてのチャネル間時間差のロバストで効率的な計算を得るために、先に示した擬似コードを実施するためのフローチャートを示している。

ブロック４５１において、第１のチャネル（ｌ）および第２のチャネル（ｒ）の時間領域信号のＤＦＴ分析が実施される。このＤＦＴ分析は、通常、例えば、図５または図４ｃのステップ１５５～１５７の文脈で論じられたものと同じＤＦＴ分析である。

次に、ブロック４５２に示されるように、各周波数ビンに対して相互相関が実施される。

したがって、相互相関スペクトルは、左チャネルおよび右チャネルのスペクトル範囲全体に対して取得される。

次に、ステップ４５３において、スペクトル平坦度測度が、ＬおよびＲの大きさスペクトルから計算され、ステップ４５４において、より大きいスペクトル平坦度測度が選択される。しかしながら、ステップ４５４での選択は、必ずしも大きい方の選択である必要はなく、両方のチャネルからの単一のＳＦＭのこの決定はまた、左チャネルのみまたは右チャネルのみの選択および計算であってもよく、または両方のＳＦＭ値の加重平均の計算であってもよい。

ステップ４５５において、次に、相互相関スペクトルが、スペクトル平坦度測度に応じて経時的に平滑化される。

好ましくは、スペクトル平坦度測度は、大きさスペクトルの幾何平均を大きさスペクトルの算術平均によって除算することによって計算される。したがって、ＳＦＭの値は０と１との間に制限される。

次に、ステップ４５６において、平滑化相互相関スペクトルがその大きさによって正規化され、ステップ４５７において、正規化および平滑化された相互相関スペクトルの逆ＤＦＴが計算される。ステップ４５８において、特定の時間領域フィルタが好ましくは実施されるが、この時間領域フィルタリングはまた、実施態様に応じて除外することができるが、後で概説されるように好ましい。

ステップ４５９において、ＩＴＤ推定は、フィルタ一般化相互相関関数のピークピッキングによって、および特定の閾値化動作を実施することによって実施される。

閾値を超えるピークが得られない場合、ＩＴＤはゼロに設定され、この対応するブロックの時間整合は実施されない。

ＩＴＤの計算は、次のように要約することもできる。相互相関は、スペクトル平坦度測度に応じて平滑化される前に、周波数領域において計算される。ＳＦＭは０と１との間に制限される。雑音様信号の場合、ＳＦＭは高くなり（すなわち約１）、平滑化は弱くなる。トーン様信号の場合、ＳＦＭは低くなり、平滑化は強くなる。次に、平滑化相互相関は、時間領域に変換し戻される前に、その振幅によって正規化される。正規化は相互相関の位相変換に対応し、低雑音および比較的高い反響環境において通常の相互相関よりも良好な性能を示すことが知られている。そのようにして得られた時間領域関数は、最初に、よりロバストなピークピーキングを達成するためにフィルタリングされる。最大振幅に対応するインデックスは、左チャネルと右チャネルとの間の時間差（ＩＴＤ）の推定値に対応する。最大値の振幅が所与の閾値よりも低い場合、ＩＴＤの推定値は信頼できるとは見なされず、ゼロに設定される。

時間領域において時間整合が適用される場合、ＩＴＤは別個のＤＦＴ分析において計算される。シフトは以下のように行われる。

これには符号化器における追加の遅延が必要であり、これは、最大で処理可能な最大絶対ＩＴＤと等しい。ＩＴＤの経時的な変動は、ＤＦＴの分析ウィンドウイングによって平滑化される。

代替的に、時間整合が周波数領域において実施されてもよい。この場合、ＩＴＤ計算および循環シフトは同じＤＦＴドメインにおいて行われ、ドメインはこの他のステレオ処理と共有される。循環シフトは以下によって与えられる。

循環シフトによって時間シフトをシミュレートするには、ＤＦＴウィンドウのゼロパディングが必要である。ゼロパディングのサイズは、処理可能な最大絶対ＩＴＤに対応する。好ましい実施形態では、ゼロパディングは、両端に３．１２５ミリ秒のゼロを追加することによって、分析ウィンドウの両側で均一に分割される。その場合、可能な最大絶対ＩＴＤは６．２５ｍｓである。Ａ－Ｂマイクロフォン設定では、これは最悪の場合、２つのマイクロフォン間の約２．１５メートルの最大距離に対応する。ＩＴＤの経時的な変動は、合成ウィンドウイングおよびＤＦＴの重畳加算によって平滑化される。

時間シフトの後に、シフトされた信号のウィンドウイングが行われることが重要である。これは、時間シフトがウィンドウイングされた信号に適用されるが、合成段階ではそれ以上ウィンドウイングされない、従来技術のバイノーラルキュー符号化（ＢＣＣ）との主な違いである。結果として、ＩＴＤの経時的な変化は、復号された信号に人為的な過渡／クリックを生成する。

４．ＩＰＤの計算およびチャネル回転
ＩＰＤは、２つのチャネルを時間整合した後に計算され、これは、ステレオ構成に応じて、各パラメータ帯域、または少なくとも最大で所与の

に対して計算される。

次に、ＩＰＤが２つのチャネルに、それらの位相を整合させるために適用される。

式中、

、

であり、ｂは、周波数インデックスｋが属するパラメータ帯域インデックスである。パラメータ

は、位相を整合させながら、２つのチャネル間で位相回転の量を分散させる役割を果たす。

は、ＩＰＤだけでなく、チャネルの相対振幅レベルＩＬＤにも依存する。チャネルの振幅が大きい場合、そのチャネルは先行チャネルと見なされ、振幅のより小さいチャネルよりも位相回転の影響を受けにくくなる。

５．和差およびサイド信号符号化
和差変換は、エネルギーがミッド信号において保存されるように、２つのチャネルの時間および位相整合したスペクトルに対して実施される。

式中、

は１／１．２～１．２の範囲、すなわち－１．５８～＋１．５８ｄＢに制限される。この制限により、ＭおよびＳのエネルギーを調整する際のアーティファクトが回避される。時間および位相が事前に整合されている場合、このエネルギー節約はそれほど重要ではないことに留意されたい。代替的に、境界は増減されてもよい。

サイド信号Ｓは、さらにＭによって予測される。

式中、

であり、式中、

である。代替的に、前の式で推定された残差およびＩＬＤの平均二乗誤差（ＭＳＥ）を最小化することにより、最適な予測利得ｇを求めることができる。

残差信号

は、Ｍの遅延スペクトルによって予測するか、または、ＭＤＣＴドメインのＭＤＣＴドメインにおいて直接符号化するかの２つの手段によってモデル化することができる。

６．ステレオ復号
ミッド信号Ｘおよびサイド信号Ｓは、最初に以下のように左右のチャネルＬおよびＲに変換される。

ここで、パラメータ帯域あたりの利得ｇはＩＬＤパラメータから導出される。

式中、

である。

ｃｏｄ＿ｍａｘ＿ｂａｎｄ未満のパラメータ帯域について、２つのチャネルは復号サイド信号によって更新される。

より高いパラメータ帯域について、サイド信号が予測され、チャネルが以下のように更新される。

最後に、チャネルがステレオ信号の元のエネルギーおよびチャネル間位相を復元することを目的として複素数値と乗算される。

式中、

ここで、ａは前に定義されたように定義され、制限され、式中、

であり、ａｔａｎ２（ｘ，ｙ）は、ｙに対するｘの４象限逆正接である．
最後に、チャネルは、送信ＩＴＤに応じて、時間領域または周波数領域のいずれかで時間シフトされる。時間領域チャネルは、逆ＤＦＴおよび重畳加算によって合成される。

本発明の特定の特徴は、空間キューと和差ジョイントステレオ符号化との組み合わせに関する。具体的には、空間キューＩＤＴおよびＩＰＤが計算され、ステレオチャネル（左および右）上で適用される。さらに、和差（Ｍ／Ｓ信号）が計算され、好ましくは、ＭによるＳの予測が適用される。

復号器側では、広帯域および狭帯域の空間キューが、和差ジョイントステレオ符号化と組み合わされる。特に、サイド信号は、ＩＬＤなどの少なくとも１つの空間キューを使用してミッド信号を用いて予測され、左右のチャネルを取得するために逆和差が計算され、さらに、広帯域および狭帯域の空間キューが左右のチャネルに適用される。

好ましくは、符号化器は、ＩＴＤを使用して処理した後、時間整合されたチャネルに関してウィンドウおよび重畳加算を有する。さらに、復号器は、チャネル間時間差を適用した後、チャネルのシフトまたは脱整合されたバージョンのウィンドウイングおよび重畳加算演算をさらに有する。

ＧＣＣ－Ｐｈａｔ法によるチャネル間時間差の計算は、特にロバストな方法である。

新規の手順は、ステレオオーディオまたはマルチチャネルオーディオのビットレート符号化を低遅延で達成するため、従来技術よりも有利である。これは、入力信号の種々の性質、および、マルチチャネルまたはステレオ録音のさまざまな設定に対してロバストであるように特別に設計されている。特に、本発明は、低ビットレートのステレオ音声符号化について良好な品質を提供する。

好ましい手順は、所与の低ビットレートで一定の知覚品質を備えた、発話および音楽などのすべてのタイプのステレオまたはマルチチャネルオーディオコンテンツの放送の配信に用途を見出す。このような適用分野は、デジタルラジオ、インターネットストリーミング、またはオーディオ通信用途である。

本発明はいくつかの実施形態に関して説明されてきたが、本発明の範囲内に入る変更、置換、および同等物が存在する。本発明の方法および組成物を実施する多くの代替方法があることにも留意されたい。したがって、添付の特許請求の範囲は、本発明の真の思想および範囲内にあるようなすべてのそのような変更、置換および同等物を含むと解釈されることが意図される。

いくつかの態様が装置の文脈において説明されているが、これらの態様は対応する方法の説明をも表すことは明らかであり、ブロックまたはデバイスが、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈において説明されている態様は、対応する装置の対応するブロックまたはアイテムまたは特徴の説明をも表す。方法ステップのいくつかまたはすべては、たとえば、マイクロプロセッサ、プログラム可能コンピュータまたは電子回路のようなハードウェア装置によって（またはハードウェア装置を使用して）実行されてもよい。いくつかの実施形態において、最も重要な方法ステップのいずれか１つまたは複数は、そのような装置によって実行されてもよい。

本発明の符号化イメージ信号は、デジタル記憶媒体上に記憶することができ、または、インターネットのような、無線伝送媒体または有線伝送媒体のような伝送媒体上で送信することができる。

特定の実施要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアにおいて実施態様することができる。実施態様は、それぞれの方法が実施されるようにプログラム可能コンピュータシステムと協働する（または協働することが可能である）、電子可読制御信号を記憶されているデジタル記憶媒体、たとえば、フロッピーディスク、ＤＶＤ、Ｂｌｕ－Ｒａｙ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実施することができる。それゆえ、デジタル記憶媒体は、コンピュータ可読であってもよい。

本発明によるいくつかの実施形態は、本明細書に記載されている方法の１つが実施されるように、プログラム可能コンピュータシステムと協働することが可能である、電子可読制御信号を有するデータキャリアを含む。

一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で作動すると、方法の１つを実施するように動作可能である。プログラムコードは、たとえば、機械可読キャリア上に記憶されてもよい。

他の実施形態は、機械可読キャリア上に記憶されている、本明細書に記載されている方法の１つを実施するためのコンピュータプログラムを含む。

言い換えれば、本発明の方法の一実施形態は、それゆえ、コンピュータプログラムがコンピュータ上で作動すると、本明細書に記載されている方法の１つを実施するためのプログラムコードを有するコンピュータプログラムである。

それゆえ、本発明の方法のさらなる実施形態は、本明細書に記載されている方法の１つを実施するためのコンピュータプログラムを記録されて含むデータキャリア（またはデジタル記憶媒体、もしくはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体または記録媒体は一般的に、有形かつ／または非一時的である。

それゆえ、本発明の方法のさらなる実施形態は、本明細書に記載されている方法の１つを実施するためのコンピュータプログラムを表すデータストリームまたは信号系列である。データストリームまたは信号系列は、たとえば、データ通信接続、たとえば、インターネットを介して転送されるように構成されてもよい。

さらなる実施形態は、本明細書に記載されている方法の１つを実施するように構成または適合されている処理手段、たとえば、コンピュータまたはプログラム可能論理デバイスを含む。

さらなる実施形態は、本明細書に記載されている方法の１つを実施するためのコンピュータプログラムをインストールされているコンピュータを含む。

本発明によるさらなる実施形態は、本明細書に記載されている方法のうちの１つを実施するためのコンピュータプログラムを受信機に（たとえば、電子的にまたは光学的に）転送するように構成されている装置またはシステムを含む。受信機は、たとえば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、たとえば、コンピュータプログラムを受信機に転送するためのファイルサーバを含んでもよい。

いくつかの実施形態において、プログラム可能論理デバイス（たとえば、フィールドプログラマブルゲートアレイ）が、本明細書に記載されている方法の機能のいくつかまたはすべてを実施するために使用されてもよい。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書に記載されている方法の１つを実施するためにマイクロプロセッサと協働してもよい。一般的に、方法は、任意のハードウェア装置によって実施されることが好ましい。

本明細書において説明する装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組合せを使用して実施することができる。

本明細書において説明する方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組合せを使用して実施することができる。

上述した実施形態は、本発明の原理の例示にすぎない。本明細書に記載されている構成および詳細の修正および変形が当業者には了解されることが理解される。それゆえ、本明細書において実施形態の記述および説明として提示されている特定の詳細によってではなく、添付の特許請求項の範囲にみによって限定されることが意図されている。

参考文献
［１］Ｐａｔｅｎｔａｐｐｌｉｃａｔｉｏｎ． “ＡｐｐａｒａｔｕｓａｎｄＭｅｔｈｏｄｆｏｒＥｓｔｉｍａｔｉｎｇａｎＩｎｔｅｒ－ＣｈａｎｎｅｌＴｉｍｅＤｉｆｆｅｒｅｎｃｅ．” ＩｎｔｅｒｎａｔｉｏｎａｌＡｐｐｌｉｃａｔｉｏｎＮｕｍｂｅｒＰＣＴ／ＥＰ２０１７／０５１２１４

［２］Ｋｎａｐｐ，Ｃｈａｒｌｅｓ，ａｎｄＧｌｉｆｆｏｒｄＣａｒｔｅｒ． “Ｔｈｅｇｅｎｅｒａｌｉｚｅｄｃｏｒｒｅｌａｔｉｏｎｍｅｔｈｏｄｆｏｒｅｓｔｉｍａｔｉｏｎｏｆｔｉｍｅｄｅｌａｙ．” ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ２４．４（１９７６）：３２０－３２７

［３］Ｚｈａｎｇ，Ｃｈａ，ＤｉｎｅｉＦｌｏｒｅｎｃｉｏ，ａｎｄＺｈｅｎｇｙｏｕＺｈａｎｇ． “ＷｈｙｄｏｅｓＰＨＡＴｗｏｒｋｗｅｌｌｉｎｌｏｗ－ｎｏｉｓｅ，ｒｅｖｅｒｂｅｒａｔｉｖｅｅｎｖｉｒｏｎｍｅｎｔｓ？” Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，２００８．ＩＣＡＳＳＰ２００８．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ．ＩＥＥＥ，２００８

［４］Ｒａｂｉｎｋｉｎ，ＤａｎｉｅｌＶ．，ｅｔａｌ． “ＤＳＰｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｓｏｕｒｃｅｌｏｃａｔｉｏｎｕｓｉｎｇｍｉｃｒｏｐｈｏｎｅａｒｒａｙｓ．” Ａｄｖａｎｃｅｄｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇａｌｇｏｒｉｔｈｍｓ，ａｒｃｈｉｔｅｃｔｕｒｅｓ，ａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｓＶＩ．Ｖｏｌ．２８４６．ＩｎｔｅｒｎａｔｉｏｎａｌＳｏｃｉｅｔｙｆｏｒＯｐｔｉｃｓａｎｄＰｈｏｔｏｎｉｃｓ，１９９６

［５］Ｓｈｅｎ，Ｍｉａｏ，ａｎｄＨｏｎｇＬｉｕ． “Ａｍｏｄｉｆｉｅｄｃｒｏｓｓｐｏｗｅｒ－ｓｐｅｃｔｒｕｍｐｈａｓｅｍｅｔｈｏｄｂａｓｅｄｏｎｍｉｃｒｏｐｈｏｎｅａｒｒａｙｆｏｒａｃｏｕｓｔｉｃｓｏｕｒｃｅｌｏｃａｌｉｚａｔｉｏｎ．” Ｓｙｓｔｅｍｓ，ＭａｎａｎｄＣｙｂｅｒｎｅｔｉｃｓ，２００９．ＳＭＣ２００９．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ．ＩＥＥＥ，２００９

［６］３ＧＰＰＴＳ２６．４４５；ＣｏｄｅｃｆｏｒＥｎｈａｎｃｅｄＶｏｉｃｅＳｅｒｖｉｃｅｓ（ＥＶＳ）；Ｄｅｔａｉｌｅｄａｌｇｏｒｉｔｈｍｉｃｄｅｓｃｒｉｐｔｉｏｎ．

Claims

第１のチャネル信号と第２のチャネル信号との間のチャネル間時間差を推定するための装置であって、
前記第１のチャネル信号もしくは前記第２のチャネル信号または両方の信号または前記第１のチャネル信号もしくは前記第２のチャネル信号から導出される信号の信号特性（１０３８）を推定するための信号分析器（１０３７）と、
時間ブロック内の前記第１のチャネル信号および前記時間ブロック内の前記第２のチャネル信号から前記時間ブロックの相互相関スペクトルを計算するための計算器（１０２０）と、
前記信号分析器（１０３７）によって推定されている信号特性に応じて、第１の重み付け手順（１０３６ａ）または第２の重み付け手順（１０３６ｂ）を使用して、重み付き相互相関スペクトルを得るために、平滑化または非平滑化相互相関スペクトルを重み付けするための重み付け手段（１０３６）であり、前記第１の重み付け手順は、前記第２の重み付け手順とは異なり、前記第１の重み付け手順（１０３６ａ）は、振幅が正規化され、位相が維持されるような重み付けを含み、前記第２の重み付け手順（１０３６ｂ）は、指数が１未満または０より大きいべき乗演算または対数関数を使用して前記平滑化または非平滑化相互相関スペクトルから導出される重み付け係数を含む、重み付け手段（１０３６）と、
前記チャネル間時間差を取得するために前記重み付き相互相関スペクトルを処理するためのプロセッサ（１０４０）と
を備える、装置。
前記信号分析器（１０３７）が、前記第１のチャネル信号もしくは前記第２のチャネル信号または両方の信号または前記第１のチャネル信号もしくは前記第２のチャネル信号から導出される信号の雑音レベル（１０３８）を推定するための雑音推定器（１０３７）として構成され、第１の信号特性が第１の雑音レベルであり、第２の信号特性が第２の雑音レベルであり、または、前記信号分析器（１０３７）が、信号が第１の特性または第２の特性を有するかを判断するために、発話／音楽分析、干渉話者分析、背景音楽分析、明瞭発話分析、または任意の他の信号分析を実施するように構成されている、請求項１に記載の装置。
前記第１の重み付け手順（１０３６ａ）が第１の信号特性に対して選択され、前記第２の重み付け手順（１０３６ｂ）が第２の信号特性に対して選択され、前記第１の信号特性が前記第２の信号特性とは異なる、請求項１に記載の装置。
前記第２の重み付け手順（１０３６ｂ）は、振幅が正規化され、位相が維持されるような重み付けを含み、加えて、指数が１未満または０より大きい、または、０．７９～０．８２である、べき乗演算を使用して前記平滑化または非平滑化相互相関スペクトルから導出される重み付け係数を含む、請求項１～３のいずれか一項に記載の装置。
前記第１の重み付け手順（１０３６ａ）が以下の式に従って動作し、

、または
前記第２の重み付け手順（１０３６ｂ）が以下の式に従って動作し、

は、前記第１の重み付け手順を適用することによって得られる周波数インデックスｋおよび時間インデックスｓの重み付けされた平滑化または非平滑化相互相関スペクトル値であり、

は、前記第２の重み付け手順を適用することによって得られる周波数インデックスｋおよび時間インデックスｓの重み付けされた平滑化または非平滑化相互相関スペクトル値であり、

は、周波数インデックスｋおよび時間インデックスｓの平滑化または非平滑化相互相関スペクトル値であり、

は１とは異なる指数値である、
請求項１～４のいずれか一項に記載の装置。
前記第２の重み付け手順（１０３６ｂ）は、第２の正規化手順の出力範囲が、第１の正規化手順の出力範囲が位置決めされる範囲内にあるような、または、前記第２の正規化手順の出力範囲が、前記第１の正規化手順の出力範囲と同じであるような、正規化を含む、請求項１～５のいずれか一項に記載の装置。
前記第２の重み付け手順（１０３６ｂ）が、以下の式、すなわち、

に基づく正規化を含み、
前記式の左側にある

は、特定のｋと特定のｓの正規化された相互相関結果を表し、前記式の右側にある

は、特定のｋと特定のｓの正規化前の相互相関結果を表し、ｓはフレームインデックスであり、ｋは周波数インデックスであり、

はＤＦＴ長である、請求項１～６のいずれか一項に記載の装置。
前記プロセッサ（１０４０）が、前記第１の重み付け手順（１０３６ａ）または前記第２の重み付け手順（１０３６ｂ）が使用されているかに応じて、第１のピークピッキング動作（１０４１）または第２のピークピッキング動作（１０４２）を実施するように構成されており、前記第１のピークピッキング動作は、前記第２のピークピッキング動作とは異なる、請求項１～７のいずれか一項に記載の装置。
前記第２の重み付け手順が使用されるときに前記第２のピークピッキング動作（１０４２）が使用され、前記第２のピークピッキング動作（１０４２）が、前記第１のピークピッキング動作（１０４１）によって使用される第１の閾値よりも低い第２の閾値を適用するように構成されている、請求項８に記載の装置。
前記雑音推定器（１０３７）は、背景雑音のレベルを推定するように構成されており（１０６０）、または、推定雑音レベルを経時的に平滑化するように構成されており（１０６１）、またはＩＩＲ平滑化フィルタを使用するように構成されている、請求項２および請求項２に戻って引用する場合の請求項３～９のいずれか一項に記載の装置。
前記雑音推定器（１０３７）は、前記時間ブロックをアクティブまたは非アクティブとして分類するための信号活動検出器（１０７０）をさらに備え、前記雑音推定器（１０３７）は、１つまたは複数のアクティブな時間ブロックを使用して信号レベルを計算する（１０７２）ように構成されており、または、前記雑音推定器（１０３７）は、信号対雑音比が閾値を下回る場合に、高い背景雑音レベルをシグナリングする（１０５０）するように構成されており、前記閾値が４５～２５ｄＢの範囲にある、請求項２および請求項２に戻って引用する場合の請求項３～１０のいずれか一項に記載の装置。
前記時間ブロックの前記第１のチャネル信号または前記第２のチャネル信号のスペクトルの特性を推定するためのスペクトル特性推定器（１０１０）と、
平滑化相互相関スペクトルを取得するために、前記スペクトル特性を使用して経時的に前記相互相関スペクトルを平滑化するための平滑化フィルタ（１０３０）と
を備え、前記重み付け手段（１０３６）は、前記平滑化相互相関スペクトルを重み付けするように構成されている、
請求項１～１１のいずれか一項に記載の装置。
前記プロセッサ（１０４０）は、前記平滑化相互相関スペクトルの大きさを使用して、前記平滑化相互相関スペクトルを正規化する（１０３６ａ）ように構成されている、請求項１～１２のいずれか一項に記載の装置。
前記プロセッサ（１０４０）は、
前記平滑化相互相関スペクトルまたは正規化された平滑化相互相関スペクトルの時間領域表現を計算し（１０３１）、
前記チャネル間時間差を決定するために、前記時間領域表現を分析する（１０３２）ように構成されている、
請求項１～１３のいずれか一項に記載の装置。
前記プロセッサ（１０４０）は、前記時間領域表現をローパスフィルタリングし（４５８）、前記ローパスフィルタリングの結果をさらに処理する（１０３３）ように構成されている請求項１４に記載の装置。
前記プロセッサ（１０４０）は、前記平滑化相互相関スペクトルから決定される時間領域表現内でピーク探索またはピークピッキング動作（１０４１、１０４２）を実施することによって前記チャネル間時間差決定を実施するように構成されている、請求項１～１５のいずれか一項に記載の装置。
前記スペクトル特性推定器（１０１０）は、前記スペクトル特性として、前記スペクトルの雑音性またはトーン性を決定するように構成されており、
前記平滑化フィルタ（１０３０）は、第１の雑音の少ない特性もしくは第１のよりトーン性の高い特性の場合に第１の平滑化度によって経時的により強い平滑化を適用するように、または、第２の雑音の多い特性または第２のよりトーン性の低い特性の場合に第２の平滑化度によって経時的により弱い平滑化を適用するように構成されており、
前記第１の平滑化度は前記第２の平滑化度よりも大きく、前記第１の雑音の少ない特性は前記第２の雑音の多い特性よりも雑音が少ないか、または、前記第１のよりトーン性の高い特性は、前記第２のよりトーン性の低い特性よりもトーン性が高い、
請求項１２～１６のいずれか一項に記載の装置。
前記スペクトル特性推定器（１０１０）は、前記スペクトル特性として、前記第１のチャネル信号のスペクトルの第１のスペクトル平坦度測度および前記第２のチャネル信号の第２のスペクトルの第２のスペクトル平坦度測度を計算し、前記第１のスペクトル平坦度測度および前記第２のスペクトル平坦度測度から最大値を選択するか、前記第１のスペクトル平坦度測度と前記第２のスペクトル平坦度測度との間の加重平均もしくは非加重平均を決定するか、または前記第１のスペクトル平坦度測度および前記第２のスペクトル平坦度測度から最小値を選択することにより、前記第１のスペクトル平坦度測度および前記第２のスペクトル平坦度測度から前記スペクトル特性を決定するように構成されている、請求項１２～１７のいずれか一項に記載の装置。
前記平滑化フィルタ（１０３０）は、前記時間ブロックからの周波数の前記相互相関スペクトル値と、少なくとも１つの過去の時間ブロックからの前記周波数の相互相関スペクトル値との重み付け組み合わせによって、前記周波数の平滑化相互相関スペクトル値を計算するように構成されており、前記重み付け組み合わせの重み付け係数は、前記スペクトルの前記特性によって決定される、請求項１２～１８のいずれか一項に記載の装置。
前記プロセッサ（１０４０）は、前記重み付けされた平滑化または非平滑化相互相関スペクトルから導出される時間領域表現内の有効範囲および無効範囲を決定するように構成されており（１１２０）、
前記無効範囲内の少なくとも１つの最大ピークが検出され（１１２１）、前記有効範囲内の最大ピークと比較され（１１２３）、前記チャネル間時間差は、前記有効範囲内の前記最大ピークが前記無効範囲内の少なくとも１つの最大ピークよりも大きいときにのみ決定される（１１２４）、
請求項１～１９のいずれか一項に記載の装置。
前記プロセッサ（１０４０）は、
前記平滑化相互相関スペクトルから導出された時間領域表現内でピーク検索動作を実施し（１１０２）、
前記時間領域表現から可変閾値の変数を決定し（１１０５）、
ピークを可変閾値と比較する（１１０６、１０３５）ように構成されており、前記チャネル間時間差は、ピークが前記可変閾値と所定の関係にあることに関連するタイムラグとして決定される、
請求項１～２０のいずれか一項に記載の装置。
前記プロセッサ（１０４０）は、前記可変閾値を、前記時間領域表現の値の１０％などの最大部分の中の値の整数倍に等しい値として決定する（１１０５）ように構成されている、請求項２１に記載の装置。
前記プロセッサ（１０４０）は、前記平滑化相互相関スペクトルから導出される時間領域表現の複数のサブブロックの各サブブロックにおける最大ピーク振幅を決定する（１１０２）ように構成されており、
前記プロセッサ（１０４０）は、前記複数のサブブロックの前記最大ピークの大きさから導出される（１１０３）平均ピークの大きさに基づいて可変閾値を計算する（１１０５、１０３４）ように構成されており、
前記プロセッサ（１１４０）は、前記チャネル間時間差を、前記可変閾値よりも大きい前記複数のサブブロックの最大ピークに対応するタイムラグ値として決定するように構成されている、
請求項１～２２のいずれか一項に記載の装置。
前記プロセッサ（１１４０）は、前記平均ピークの大きさと値との乗算によって前記可変閾値を計算する（１１０５）ように構成されており、前記平均ピークの大きさは、前記複数のサブブロックの前記最大ピークの大きさの平均として決定され、
前記値は、前記第１のチャネル信号および前記第２のチャネル信号に特徴的なＳＮＲ（信号対雑音比）によって決定され、第１の値は、第１のＳＮＲ値に関連付けられ、第２の値は、第２のＳＮＲ値に関連付けられ、前記第１の値は前記第２の値よりも大きく、前記第１のＳＮＲ値は前記第２のＳＮＲ値よりも大きい、
請求項２３に記載の装置。
前記プロセッサは、第３のＳＮＲ値が前記第２のＳＮＲ値よりも低い場合、および前記閾値と最大ピークとの間の差が所定の値よりも低い場合に、前記第２の値（ａ_ｌｏｗ）よりも低い第３の値（ａ_{ｌｏｗｅｓｔ}）を使用する（１１０４）ように構成されている、請求項２４に記載の装置。
前記雑音推定器（１０３７）が、背景雑音推定値を提供するための背景雑音推定器（１０６０）および時間平滑化手段（１０６１）を備え、または
前記雑音推定器（１０３７）は、信号活動検出器（１０７０）、前記信号活動検出器（１０７０）の制御下でのみアクティブなフレームを選択するためのフレームセレクタ（１０７１）、および前記アクティブなフレーム内の信号レベルを計算するための信号レベル計算器（１０７２）、および前記信号レベル計算器（１０７２）の結果を経時的に平滑化して信号レベル推定値を提供するための時間平滑化手段（１０７３）を備え、または
前記雑音推定器（１０３７）は、フレームの平滑化または非平滑化信号レベルおよび平滑化または非平滑化背景雑音レベルから信号対雑音比を計算する（１０７４）ように構成されており、コンパレータ（１０７５）が、前記フレームの雑音レベル（１０３８、１０５０）を提供するために、前記信号対雑音比を前記フレームの閾値と比較する、
請求項２および請求項２に戻って引用する場合の請求項３～２５のいずれか一項に記載の装置。
前記装置は、
前記推定チャネル間時間差の保存もしくは送信を実施し、または
前記推定チャネル間時間差を使用して、前記第１のチャネル信号および前記第２のチャネル信号のステレオもしくはマルチチャネル処理もしくは符号化を実施し、または
前記チャネル間時間差を使用して前記２つのチャネル信号の時間整合を実施し、または
前記推定チャネル間時間差を使用して到来時間差推定を実施し、または
２つのマイクロフォンおよび既知のマイクロフォン設定を有する部屋の中の話者位置を決定するために前記チャネル間時間差を使用して到来時間差推定を実施し、または
前記推定チャネル間時間差を使用してビームフォーミングを実施し、または
前記推定チャネル間時間差を使用して空間フィルタリングを実施し、または
前記推定チャネル間時間差を使用して前景または背景分解を実施し、または
前記推定チャネル間時間差を使用して音源の位置特定動作を実施し、または
前記第１のチャネル信号と前記第２のチャネル信号との間、または、前記第１のチャネル信号と、前記第２のチャネル信号と、少なくとも１つの追加の信号との間の時間差に基づいて音響三角測量を実施することにより、前記推定チャネル間時間差を使用して音源の位置特定を実施するように構成されている、
請求項１～２６のいずれか一項に記載の装置。
第１のチャネル信号と第２のチャネル信号との間のチャネル間時間差を推定するための方法であって、
前記第１のチャネル信号もしくは前記第２のチャネル信号または両方の信号または前記第１のチャネル信号もしくは前記第２のチャネル信号から導出される信号の信号特性を推定することと、
時間ブロック内の前記第１のチャネル信号および前記時間ブロック内の前記第２のチャネル信号から前記時間ブロックの相互相関スペクトルを計算することと、
推定されている信号特性に応じて、第１の重み付け手順または第２の重み付け手順を使用して、重み付き相互相関スペクトルを得るために、平滑化または非平滑化相互相関スペクトルを重み付けすることであり、前記第１の重み付け手順は、前記第２の重み付け手順とは異なり、前記第１の重み付け手順は、振幅が正規化され、位相が維持されるような重み付けを含み、前記第２の重み付け手順は、指数が１未満または０より大きいべき乗演算または対数関数を使用して前記平滑化または非平滑化相互相関スペクトルから導出される重み付け係数を含む、重み付けすることと、
前記チャネル間時間差を取得するために前記重み付き相互相関スペクトルを処理することと
を含む、方法。
前記時間ブロックの前記第１のチャネル信号または前記第２のチャネル信号のスペクトルの特性を推定することと、
平滑化相互相関スペクトルを取得するために前記スペクトル特性を使用して経時的に前記相互相関スペクトルを平滑化することと
をさらに含み、前記重み付けは、前記平滑化相互相関スペクトルを重み付けする、
請求項２８に記載の方法。
コンピュータまたはプロセッサ上で実施されるときに、請求項２８または２９に記載の方法を実施するためのコンピュータプログラム。