JP5674827B2

JP5674827B2 - 多重チャネル音声信号中の発話に関連したチャネルのダッキングをスケーリングするための方法およびシステム

Info

Publication number: JP5674827B2
Application number: JP2012557079A
Authority: JP
Inventors: ミューヒ，ハンヌ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2010-03-08
Filing date: 2011-02-28
Publication date: 2015-02-25
Anticipated expiration: 2031-02-28
Also published as: JP2013521541A; WO2011112382A1; ES2709523T3; EP2545552B1; RU2520420C2; BR112012022571B1; BR122019024041B1; RU2012141463A; BR112012022571A2; CN104811891A; CN104811891B; EP2545552A1; TW201215177A; TWI459828B; CN102792374A; CN102792374B; US9219973B2; US9881635B2; US20160071527A1; US20130006619A1

Description

本発明は、多重チャネル音声信号から判定される人間の発話内容（例えば、会話）の明瞭度を改善するシステム、および方法に関係する。幾つかの実施形態においては、本発明は、音声信号をフィルタリングし、その結果として、音声信号から判定される発話内容の明瞭度を改善する方法とシステムである。この場合の音声信号は、発話を含むチャネル（発話チャネル）と発話を含まないチャネル（非発話チャネル）とを有する音声信号である。これは、以下のようにして実現される。まず、発話チャネルから判定される発話に関連したコンテンツと非発話チャネルから判定される発話に関連したコンテンツとの間の類似性の尺度を表す少なくとも一つの減衰制御値を決定する。続いて、当該減衰制御値に応じて、非発話チャネルを減衰させる。

なお、本願は、2010年３月８日に出願された米国仮特許出願第６１／３１１，４３７号を基礎とする優先権を主張し、当該米国仮特許出願の開示内容は、参照により本明細書中に組み込まれる。

請求項を含む本明細書の開示全体を通して、用語「発話」は人間による発話内容を表す広範な意味において使用される。従って、音声信号から判定された発話内容は、当該音声信号の音声コンテンツである。そして、そのような音声コンテンツは、大音量スピーカ（または音響を出力するその他の変換器）によって当該音声信号が再生される際に、人間の発話（例えば、会話、独り言、歌謡、または人間によるその他の発話内容）として知覚される。本発明に係る典型的な実施形態に従うならば、音声信号から判定された発話内容がどれだけ明瞭に聴こえるかは、当該音声信号から判定されたその他の音声コンテンツ（例えば、楽器が発する音曲または非会話的な効果音）と比較した場合に相対的に改善される。その結果、当該発話内容の明瞭度（例えば、内容の明確さや聴き取りやすさなど）が改善される。

請求項を含む本明細書の開示全体を通して、多重チャネル音声信号内の一のチャネルに関する「発話内容の強化コンテンツ」との表現は、当該一のチャネルから判定されるコンテンツであって、当該多重チャネル音声信号内のその他のチャネル（例えば、発話チャネル）から判定される発話コンテンツの明瞭度あるいはその他の知覚される品質を強化するコンテンツである。本発明に係る典型的な実施形態においては、多重チャネル入力音声信号から判定される発話内容の大半は、当該多重チャネル入力音声信号内の中心チャネルから判定されるとの想定を置いている。この想定は、サラウンド音響の生成における慣例的な想定と整合するものである。上記慣例的想定においては、発話内容の大半が唯一のチャネル（中心チャネル）のみに配置されるのが通常である。さらに、上記慣例的想定においては音楽、周囲を取り巻く音響、あるいは効果音などは、全てのチャネル（例えば、中心チャネルに加え、左側、右側、左側サラウンド、および右側サラウンドのチャネル）の中に混合されるのが通常である。

従って、多重チャネル音声信号の中心チャネルは、本明細書中においてしばしば発話チャネルと呼ばれ、多重チャネル音声信号内のその他の全てのチャネル（例えば、左側、右側、左側サラウンド、および右側サラウンドのチャネル）は本明細書中においてしばしば非発話チャネルと呼ばれる。同様に、ステレオ信号の左側チャネルと右側チャネルとを加算することにより生成される中心チャネルは、本明細書中においてしばしば発話チャネルと呼ばれる。ここで、当該ステレオ信号は、その発話内容が音源を中心として周囲を取り巻くように再生される信号である。さらに、当該ステレオ信号の左側チャネル（または右側チャネル）から上記のようにして得られる中心チャネルを減算することにより生成される両サイドのチャネルは、本明細書中においてしばしば非発話チャネルと呼ばれる。

請求項を含む本明細書の開示全体を通して、信号やデータの上で処理動作（例えば、フィルタリング処理、スケーリング処理、または信号やデータの変換処理）を実行するとの表現は、信号やデータの上でそのような処理動作を直接実行することを表す広範な意味において用いられる。または、上記の表現は、何らかの前処理がなされた信号やデータ（例えば、信号の上でのそのような処理動作の実行に先立って事前のフィルタリング処理がされている信号の一形態など）の上でそのような処理動作を実行することを表す広範な意味において用いられる。

請求項を含む本明細書の開示全体を通して、用語「システム」は、装置、システムあるいはサブシステムを表す広範な意味において用いられる。例えば、復号器を実装するサブシステムは復号システムと呼ばれる。そして、そのようなサブシステムを包含するシステム（例えば、入力信号のうちのＭ個をサブシステム自身で生成し、外部の信号源から他のＸ−Ｍ個の入力信号を受信することにより、複数個の入力信号に応じてＸ個の出力信号を生成するようなシステム）もまた、復号システムと呼んでも良い。

請求項を含む本明細書の開示全体を通して、「第１の数値（Ａ）と第２の数値（Ｂ）の比率」との表現は、Ａ／Ｂ、Ｂ／Ａを表す広範な意味において用いられる。あるいは、上記「比率」は、（例えば、ｘおよびｙをオフセット値とした場合に、（Ａ＋ｘ）／（Ｂ＋ｙ）で表される比のように）ＡまたはＢのうちの一方がスケーリングされた値、またはオフセット値が加えられた値と、ＡまたはＢのうちの他方がスケーリングされた値、またはオフセット値が加えられた値との比率を表す広範な意味において用いられる。

請求項を含む本明細書の開示全体を通して、スピーカのような音響出力変換器による「信号の再生」とは、当該信号に応じて当該音響出力変換器に音響を生成させる動作を表し、これには、当該信号に対して所要の増幅処理やその他の信号処理を実行することも含まれる。

発話内容を、それと競合する音の存在下で聴く場合（例えば、混雑したレストランの騒音の中で友人が話していることを聴く場合など）において、発話の音素コンテンツを信号で伝達する音響特徴部分（発話のキュー部分）は、これと競合する音により覆い隠されてしまい、伝達内容を復号化するために聞き手が利用することはもはや不可能である。発話音声レベルと比較して、競合する音のレベルが増加するにつれて、正確に受信される発話のキュー部分の個数は減少し、発話内容を認識することは徐々に面倒になってゆく。そして最終的には、競合する音のレベルがある一定のレベルに達したときに、発話内容を認識するプロセスは破綻する。この関係性は、全ての聞き手について成り立つものである一方で、任意の発話音声レベルに対して許容することが可能な競合音のレベルは全ての聞き手に関して同一ではない。例えば、加齢による聴覚困難（老人性難聴）を患う聞き手や思春期の後に習得した言語を聴いている聞き手は、聴覚能力が高い聞き手や母国語を聴いている聞き手と比べて、競合音を許容することができる度合いがより低い。

競合する音の存在下で、発話内容を聴き取る能力が聞き手によって異なるという事実は、ニュース番組や娯楽番組の音声中において、周囲を取り巻く音やＢＧＭが発話内容に混ぜ合わされるレベルと関係している。聴覚困難を患っていたり、外国語として聴いていたりする聞き手は、番組製作者が提供するレベルよりも相対的に低いレベルの非発話音声をしばしば好む。

このような特別なニーズに応じるために、以下のようにして多重チャネル音声信号から判定される発話内容の明瞭度を改善する技術が周知である。すなわち、当該多重チャネル音声信号内の非発話チャネルに対して減衰処理（ダッキング処理）を適用する一方で、当該多重チャネル音声信号内の発話チャネルに対しては、より少ないレベルの減衰処理を適用するかまたは減衰処理を全く行わないようにする。

例えば、Hannes
Mueschを発明者とし、出願に係る権利がDolby Laboratories Licensing社に譲渡された下記の特許文献１（公開日：2008年１月28日）は、発話内容の所望される明瞭度がこれ以上充足され得ない所まで、多重チャネル音声信号内の非発話チャネル（例えば、左側と右側のチャネル）が当該音声信号の発話チャネル（例えば、中心チャネル）内の発話内容を覆い隠すことが可能であることを開示している。特許文献１は、ダッキング処理回路によって非発話チャネルに対して適用される減衰関数をどのように決定すればよいかを記述している。これは、コンテンツ製作者の意図を最大限に維持しながら、発話チャネル内において発話内容からのマスキング（競合音による覆い隠し）の除去を試みるものである。特許文献１中に開示された技術は、非発話チャネル内のコンテンツが、発話チャネルから判定される発話内容の明瞭度（またはその他の知覚される品質）を決して強化することはないという仮定に基づいている。

本発明は、上記の仮定が非常に多くの幅広い多重チャネル音声コンテンツに関して正しい一方で、常に正しいとは限らないという認識に部分的に基づいている。本発明の発明者は、発明を行うに際して以下のような知見を有していた。仮に、多重チャネル音声信号内の少なくとも一つの非発話チャネルが当該信号内の発話チャネルから判定される発話内容の明瞭度（またはその他の知覚される品質）を強化するコンテンツを含んでいるとする。この場合、特許文献１に開示された技法に従って当該信号をフィルタリングすることは、当該フィルタリングされた信号を再生した音を聴いている聞き手の娯楽的体験に対して良くない影響を与える。本発明に係る典型的な実施形態は、音声コンテンツが、特許文献１に開示された技法が前提としている上記仮定に適合しないような期間中においては、上記技法の適用を中断するかまたは修正するようにしている。

国際公開公報ＷＯ２０１０／０１１３７７

「大音量音源のモニタリングにおける音声と他の情報との間の自動的な弁別」Robinson およびVinton著, Audio Engineering Society, Preprint number 6437 of Convention 118、2005年５月発行「発話内容の明瞭度の指標を計算するための方法」、ANSI S3.5-1997 「発話内容の明瞭度を予測するための統計的な決定理論の使用、第１節モデル構造」、MueschおよびBuus著、Journal of the Acoustical Society ofAmerica, 2001, Vol. 19, p2896-2909 「定常音の音量を計算する手順」米国国内規格ANSI S3.4-2007 「Berechnung des Lautstarkepegels und der Lautheit aus demGerauschspektrum」ドイツ国内規格DIN 45631

以上から、多重チャネル音声信号内の少なくとも一つの非発話チャネルが当該信号内の発話チャネルから判定される発話内容の明瞭度を強化するコンテンツを含んでいるような一般化された場合において、多重チャネル音声信号をフィルタリングして、発話内容の明瞭度を改善するための方法とシステムを実現することに対するニーズが存在する。

本発明に係る実施形態の第１類型においては、本発明は、一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号をフィルタリングし、当該多重チャネル音声信号から判定される発話内容の明瞭度を改善する方法であって、以下の２つのステップを含む。ステップ（ａ）：発話チャネルから判定される「発話に関係する情報内容」と、当該多重チャネル音声信号内の少なくとも一つの非発話チャネルから判定される「発話に関係する情報内容」との間の類似度の尺度を表す少なくとも一つの減衰制御値を決定するステップ、および、ステップ（ｂ）：当該少なくとも一つの減衰制御値に応じて、当該多重チャネル音声信号の少なくとも一つの非発話チャネルを減衰させるステップ、とを含む構成を採る。典型的には、当該減衰させるステップは、当該少なくとも一つの減衰制御値に応じて、当該少なくとも一つの非発話チャネルに関する未加工の減衰制御信号（例えば、ダッキング利得制御信号など）をスケーリングするステップを備える。好適には、本発明に係る方法では、当該発話チャネルから判定される発話内容の明瞭度を改善するように、当該非発話チャネルが減衰される。そして非発話チャネルに対する上記減衰は、当該非発話チャネルから判定される「発話内容の強化コンテンツ」に対する望ましくない減衰を伴うことが無いように、実行されなくてはならない。本発明の幾つかの実施形態では、上記ステップ（ａ）において決定される減衰制御値の各々は、発話チャネルから判定される「発話に関係する情報内容」と、当該音声信号内の少なくとも一つの非発話チャネルから判定される「発話に関係する情報内容」との間の類似度の尺度を表し、上記ステップ（ｂ）は、当該減衰制御値の各々に応じて、この非発話チャネルを減衰させるステップを含む。本発明の幾つかの実施形態では、上記ステップ（ａ）は、当該音声信号内の少なくとも一つの非発話チャネルから、一つの「導出された非発話チャネル」を導出するステップを含み、当該少なくとも一つの減衰制御値は、発話チャネルから判定される「発話に関係する情報内容」と、当該「導出された非発話チャネル」から判定される「発話に関係する情報内容」との間の類似度の尺度を表す。例えば、一つの「導出された非発話チャネル」は、当該音声信号内の少なくとも２つの非発話チャネルを加算する、さもなければこれらの非発話チャネルを混合したり組み合わせたりすることにより生成されることが可能である。単一の「導出された非発話チャネル」から減衰制御値の各々を決定することは、複数の異なる非発話チャネルから減衰値の集合のうちの複数の異なる部分集合を決定することのコストと複雑度と比べて、本発明の幾つかの実施形態を実現するためのコストと複雑度を低減することが可能である。入力される音声信号が少なくとも２つの非発話チャネルを有しているような実施形態においては、上記ステップ（ｂ）は、当該少なくとも一つの減衰制御値に応じて（例えば、一連の減衰制御値から成る単一の系列に応じて）、複数の非発話チャネルの部分集合（例えば、一つの「導出された非発話チャネル」を導出する元となった非発話チャネルの各々）、または全ての非発話チャネルを減衰するステップを含むことが可能である。

上記した第１類型の実施形態の幾つかにおいては、ステップ（ａ）は、一連の減衰制御値から成る単一の系列を表す減衰制御信号を生成するステップを含み、複数の減衰制御値の各々は、発話チャネルから判定される「発話に関係する情報内容」と、当該少なくとも一つの非発話チャネルから判定される「発話に関係する情報内容」との間の互いに異なる時刻における（例えば、互いに異なる時間区間における）類似度の尺度を表す。そして、ステップ（ｂ）は、当該減衰制御信号に応じて、ダッキング利得制御信号をスケーリングして、スケーリングされた利得制御信号を生成し、当該少なくとも一つの非発話チャネルを減衰させるために、当該スケーリングされた利得制御信号を適用する（例えば、ダッキング処理回路により当該少なくとも一つの非発話チャネルの減衰動作を制御するために、ダッキング処理回路に対して当該スケーリングされた利得制御信号を入力する等）。例えば、本発明の幾つかの実施形態においては、ステップ（ａ）は、「（当該発話チャネルから判定される「発話に関連した情報内容」を表す）発話に関連した特性値の第１の系列」を「（当該少なくとも一つの非発話チャネルから判定される『発話に関連した情報内容』を表す）発話に関連した特性値の第２の系列」と比較して減衰制御信号を生成する。この時、減衰制御信号によって表される複数の減衰制御値の各々は、「発話に関連した特性値の第１の系列」および「発話に関連した特性値の第２の系列」の両者の間の互いに異なる時刻における（例えば、互いに異なる時間区間における）類似度の尺度を表している。本発明の幾つかの実施形態においては、減衰制御値の各々は、利得制御値である。

上記した第１類型の実施形態の幾つかにおいては、減衰制御値の各々は、音声信号内の少なくとも一つの非発話チャネルが、発話チャネルから判定される発話内容の明瞭度（またはその他の知覚される品質）を高める「発話内容の強化コンテンツ」を表している可能性の高さを表す尤度と単調に関係付けられる。上記した第１類型の実施形態の他の幾つかにおいては、減衰制御値の各々は、当該少なくとも一つの非発話チャネルに関する発話内容の強化度合いの予測される値と単調に関係付けられる（このような強化度合いの予測される値の一例は、当該少なくとも一つの非発話チャネルが「発話内容の強化コンテンツ」を表している確率に、知覚品質の強化の度合いを乗算した尺度などであり、この場合の知覚品質の強化の度合いは、当該少なくとも一つの非発話チャネルから判定された「発話内容の強化コンテンツ」が、多重チャネル音声信号から判定される発話内容に対して与える強化の度合いである）。例えば、ステップ（ａ）が、当該発話チャネルから判定される「発話に関連した情報内容」を表している「発話に関連した特性値の第１の系列」を当該少なくとも一つの非発話チャネルから判定される「発話に関連した情報内容」を表している「発話に関連した特性値の第２の系列」と比較するステップを含むような場合、「発話に関連した特性値の第１の系列」は、一連の発話尤度値の系列とすることが可能である。なお、当該発話尤度値の各々は、異なる時刻において（例えば、異なる時間区間において）、当該発話チャネルが（発話以外の音声コンテンツではなく）発話内容を表している可能性の高さを示す尤度を表す。さらに、「発話に関連した特性値の第２の系列」もまた、一連の発話尤度値の系列とすることが可能である。なお同様に、当該発話尤度値の各々は、異なる時刻において（例えば、異なる時間区間において）、当該少なくとも一つの非発話チャネルが発話内容を表している可能性の高さを示す尤度を表す。音声信号からこのような一連の発話尤度値の系列を自動的に生成するための様々な方法が周知である。例えば、このような方法の一つが、上記の非特許文献１によって記述されている。代替的に、一連の発話尤度値の系列は、（例えば、コンテンツ製作者などにより）人間の手操作入力で生成され、多重チャネル音声信号と一緒にしてエンド・ユーザに送信されるようにすることも可能であるとも考えられる。

本発明に係る実施形態の第２類型においては、多重チャネル音声信号は、一つの発話チャネルおよび少なくとも２つの非発話チャネルを有し、少なくとも２つの非発話チャネルは、第１の非発話チャネルおよび第２の非発話チャネルを含む。そして、当該第２類型の実施形態に係る方法は、以下の２つのステップを含む。ステップ（ａ）：発話チャネルから判定される「発話に関係する情報内容」と、当該多重チャネル音声信号内の第１の非発話チャネルから判定される「発話に関係する第２の情報内容」との間の類似度の尺度を表す少なくとも一つの第１の減衰制御値を決定するステップ（例えば、発話チャネルから判定される「発話に関係する情報内容」を表す「発話に関係する特性値の第１の系列」を「発話に関係する第２の情報内容」を表す「発話に関係する特性値の第２の系列」と比較することによるものを含む）、および、ステップ（ｂ）：発話チャネルから判定される「発話に関係する情報内容」と、当該多重チャネル音声信号内の第２の非発話チャネルから判定される「発話に関係する第３の情報内容」との間の類似度の尺度を表す少なくとも一つの第２の減衰制御値を決定するステップ（例えば、発話チャネルから判定される「発話に関係する情報内容」を表す「発話に関係する特性値の第３の系列」を「発話に関係する第３の情報内容」を表す「発話に関係する特性値の第４の系列」と比較することによるものを含み、ここで、「発話に関係する特性値の第３の系列」は、ステップ（ａ）における「発話に関係する特性値の第１の系列」と同一となる可能性もある）。典型的には、本発明の当該実施形態に係る方法は、以下の動作を実行するステップを備える。まず、当該少なくとも一つの第１の減衰制御値に応じて、第１の非発話チャネルを減衰する（例えば、第１の非発話チャネルの減衰率をスケーリングするなど）。さらに、当該少なくとも一つの第２の減衰制御値に応じて、第２の非発話チャネルを減衰する（例えば、第２の非発話チャネルの減衰率をスケーリングするなど）。好適には、非発話チャネルの各々は、発話チャネルから判定される発話内容の明瞭度を改善するように減衰される。そして、この減衰は、非発話チャネルから判定される「発話内容の強化コンテンツ」に対する望ましくない減衰を生じないように実行されなくてはならない。

上記した第２類型の実施形態の幾つかにおいては、ステップ（ａ）において決定された少なくとも一つの第１の減衰制御値は、一連の減衰制御値から成る単一の系列であり、当該減衰制御値の各々は、ダッキング処理回路により第１の非発話チャネルに対して適用される利得の大きさをスケーリングする利得制御値である。なお、上記した利得制御値の適用は、発話チャネルから判定される発話内容の明瞭度を改善すると同時に、第１の非発話チャネルから判定される「発話内容の強化コンテンツ」に対する望ましくない減衰を生じないようにする目的で実行される。そして、ステップ（ｂ）において決定された少なくとも一つの第２の減衰制御値は、一連の第２の減衰制御値から成る単一の系列であり、当該第２の減衰制御値の各々は、ダッキング処理回路により第２の非発話チャネルに対して適用される利得の大きさをスケーリングする利得制御値である。なお、上記した利得制御値の適用は、発話チャネルから判定される発話内容の明瞭度を改善すると同時に、第２の非発話チャネルから判定される「発話内容の強化コンテンツ」に対する望ましくない減衰を生じないようにする目的で実行される。

本発明に係る実施形態の第３類型においては、本発明は、一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号をフィルタリングし、当該多重チャネル音声信号から判定される発話内容の明瞭度を改善する方法であって、以下の２つのステップを含む。ステップ（ａ）：発話チャネルの特性と非発話チャネルの特性を比較して、発話チャネルと比較した場合の非発話チャネルの相対的な減衰率を制御するための少なくとも一つの減衰値を生成するステップ。ステップ（ｂ）：少なくとも一つの発話内容強化尤度値に応じて当該少なくとも一つの減衰値を調節し、発話チャネルと比較した場合の非発話チャネルの相対的な減衰率を制御するための少なくとも一つの調節された減衰値を生成するステップ。典型的には、上記した減衰値を調節するステップは、上記した一つの発話内容強化尤度値に応じて上記した減衰値の各々をスケーリングし、上記した一つの調節された減衰値を生成する。典型的には、発話内容強化尤度値の各々は、非発話チャネル（入力された音声信号の単一の非発話チャネルまたは複数の発話チャネルの組から導出された一つの発話チャネル）が「発話内容の強化コンテンツ（発話チャネルから判定された発話内容の明瞭度またはその他の知覚される品質を高める情報内容）」を表している可能性の高さを示す尤度を表す（例えば、そのような尤度と単調に関係付けされている）。本発明の幾つかの実施形態においては、当該発話内容強化尤度値は、非発話チャネルの発話内容の強化度合いの予測される値を表す（このような予測される値の一例は、非発話チャネルが「発話内容の強化コンテンツ」を表している確率に、知覚品質の強化の度合いを乗算した尺度などであり、この場合の知覚品質の強化の度合いは、非発話チャネルから判定された「発話内容の強化コンテンツ」が、多重チャネル音声信号から判定される発話内容に対して与える強化の度合いである）。上記した実施形態の第３類型における幾つかの実施例では、上記した少なくとも一つの発話内容強化尤度値は、以下の動作を実行するステップを含む方法により決定される一連の比較値（例えば、差分値）から成る単一の系列である。比較値を決定する上記方法は、発話チャネルから判定された「発話に関係する情報内容」を表す「発話内容に関係した特性値の第１の系列」を非発話チャネルから判定された「発話に関係する情報内容」を表す「発話内容に関係した特性値の第２の系列」と比較する。なお、比較値の各々は、「発話内容に関係した特性値の第１の系列」と「発話内容に関係した特性値の第２の系列」との間の互いに異なる時刻（例えば、互いに異なる時間区間）における類似度の尺度である。上記した実施形態の第３類型における典型的な実施例においては、上記の方法はさらに、上記した少なくとも一つの調節された減衰値に応じて、非発話チャネルを減衰するステップを含む。ステップ（ｂ）は、上記した少なくとも一つの発話内容強化尤度値に応じて上記した少なくとも一つの減衰値（これは典型的には、ダッキング処理回路によって判定される減衰値であり、さもなければ、その他の未加工の減衰制御信号である）をスケーリングするステップを備えることが可能である。

上記した第３類型の実施形態の幾つかにおいては、ステップ（ａ）において生成された減衰値の各々は、非発話チャネルの減衰率の大きさを表す第１の係数である。この減衰率の大きさは、発話チャネルにおける信号電力に対する非発話チャネルにおける信号電力の比率が所定の閾値を超えないように制限するのに必要な大きさであり、発話チャネルが発話内容を表している可能性の高さを示す尤度と単調に関係付けられる第２の係数によってスケーリングされる。典型的には、本発明のこれらの実施形態における上記した減衰値を調節するステップは、上記した減衰値の各々を上記した一つの発話内容強化尤度値によりスケーリングし、上記した一つの調節された減衰値を生成する動作を含み、上記した発話内容強化尤度値は、以下の何れか一方と単調に関係付けられる係数である。発話内容強化尤度値が関係付けられる第１のものは、非発話チャネルが「発話内容の強化コンテンツ（発話チャネルから判定された発話内容の明瞭度またはその他の知覚される品質を高める情報内容）」を表している可能性の高さを示す尤度である（例えば、非発話チャネルがそのような尤度と単調に関係付けされている）。発話内容強化尤度値が関係付けられる第２のものは、非発話チャネルの発話内容の強化度合いの予測される値である（このような予測される値の一例は、非発話チャネルが「発話内容の強化コンテンツ」を表している確率に、知覚品質の強化の度合いを乗算した尺度などであり、この場合の知覚品質の強化の度合いは、非発話チャネルから判定された「発話内容の強化コンテンツ」が、多重チャネル音声信号から判定される発話内容に対して与える強化の度合いである）。

上記した第３類型の実施形態の幾つかにおいては、ステップ（ａ）において生成された減衰値の各々は、非発話チャネルの減衰率の大きさ（例えば、最小の大きさ）を表す第１の係数である。この減衰率の大きさは、非発話チャネルから判定された情報内容の存在下で、発話チャネルから判定された発話内容の予見される明瞭度が所定の閾値を超えるようにするのに充分な大きさであり、発話チャネルが発話内容を表している可能性の高さを示す尤度と単調に関係付けられる第２の係数によってスケーリングされる。好適には、非発話チャネルから判定された情報内容の存在下で、発話チャネルから判定された発話内容の予見される明瞭度は、心理聴覚上の明瞭度予測モデルに従って、判定される。典型的には、本発明のこれらの実施形態における上記した減衰率を調節するステップは、上記した減衰値の各々を上記した一つの発話内容強化尤度値によってスケーリングして、上記した一つの調節された減衰値を生成する動作を含み、上記した発話内容強化尤度値は、以下の何れか一方と単調に関係付けられる係数である。その一つは、非発話チャネルが発話内容の強化コンテンツを表している可能性の高さを示す尤度であり、もう一つは、非発話チャネルにおける発話内容の強化の度合いの予測値である。

上記した第３類型の実施形態の幾つかにおいては、ステップ（ａ）は、発話チャネルおよび非発話チャネルの各々に関する電力スペクトル（周波数の関数としての電力の分布を表すスペクトル）を判定することにより、中に含まれる上記した減衰値の各々を生成し、上記した電力スペクトルの各々に応じて、上記した減衰値に関する周波数領域判定を実行するステップを含む。好適には、この方法で生成された複数の減衰値は、周波数の関数としての減衰率を決定し、この減衰率は、非発話チャネルの複数の周波数成分に対して適用される。

本発明の実施形態の一つの類型においては、本発明は、入力された多重チャネル音声信号から判定された発話内容を強化する方法とシステムに関係する。本発明の幾つかの実施形態においては、本発明に係るシステムは、入力された多重チャネル音声信号を解析して複数の減衰制御値を生成するように構成された解析モジュール（解析サブシステム）、および減衰処理サブシステムを含む。減衰処理サブシステムは、上記した複数の減衰制御値の中の少なくとも幾つかによる動作制御の下で、入力された上記音声信号に関する非発話チャネルの各々に対してダッキング減衰処理を適用し、フィルタリングされた音声出力信号を生成するように構成されている。本発明の幾つかの実施形態においては、減衰処理サブシステムは、当該サブシステムに接続され、入力された上記音声信号に関する非発話チャネルの各々に対して減衰処理（ダッキング処理）を適用し、フィルタリングされた音声出力信号を生成するように構成され、上記した複数の減衰制御値の中の少なくとも幾つかにより動作制御されるダッキング処理回路を含む。ダッキング処理回路が上記した複数の制御値によって動作制御されるとは、上記した複数の制御値が表す電流値によって、ダッキング処理回路が非発話チャネルに対して適用する減衰率が決定されるという意味である。

本発明の典型的な実施形態においては、本発明に係るシステムは、ソフトウェア（またはファームウェア）によりプログラミングされた、さもなければ、本発明に係る方法の一実施形態を実行するように構成された、汎用のまたは特定用途向きのプロセッサを含む。本発明の幾つかの実施形態においては、本発明に係るシステムは、音声入力信号を表す入力データを受信するように接続され、本発明に係る方法の一実施形態を実行することによって上記の入力データに応じて音声出力信号を表す出力データを生成するように（適切なソフトウェアによって）プログラミングされた汎用のプロセッサである。本発明に係るその他の実施形態においては、本発明に係るシステムは、設定可能な音声処理向けのデジタル信号プロセッサ（ＤＳＰ）を（例えば、プログラミング等により）適切に設定することにより実装される。音声処理向けのＤＳＰは、入力された音声に関して多種多様な演算の何れかを実行するように設定可能である（例えば、適切なソフトウェアまたはファームウェアによりプログラミング可能である、さもなければ、制御データに応じて設定可能である）従来型の音声処理向けＤＳＰとすることが可能である。動作中において、本発明に従ってアクティブな発話内容の強化処理を実行するように設定されている音声処理向けＤＳＰは、音声入力信号を受信するように接続され、当該ＤＳＰは、典型的には、発話内容の強化処理に加えて（またはそれと同時に）、入力された音声に関する多種多様な演算を実行する。本発明に係る多種多様な実施形態に従うならば、入力音声信号に対して本発明に係る方法を実行することを通じて、入力音声信号に応じて、出力音声信号を生成するように設定された後に（例えば、プログラミングされた後に）、音声処理向けＤＳＰは、本発明に係る方法の一実施形態を実行するように動作可能となる。

本発明の複数の実施態様は、本発明に係る方法の何れかの実施形態を実行するように設定された（例えば、プログラミングされた）システム、および本発明に係る方法の何れかの実施形態を実装する命令コードを記憶したコンピュータ読み取り可能な記録媒体（例えば、ディスク）を含む。

本発明に係るシステムの一実施形態を示すブロック図本発明に係るシステムのその他の実施形態を示すブロック図本発明に係るシステムのその他の実施形態を示すブロック図本発明に係るシステムのその他の実施形態を示すブロック図本発明に係るシステムのその他の実施形態を示すブロック図本発明に係るシステムの一実施形態である音声処理向けデジタル信号プロセッサ（ＤＳＰ）を示すブロック図本発明に係る方法の一実施形態を実行するようにコンピュータ・システムをプログラミングするコンピュータ命令コードを記憶するコンピュータ可読記録媒体５０４を含むコンピュータ・システムを示すブロック図

本発明に係る多くの実施形態が技術的には可能である。これらの実施形態をどのように実装するかに関しては、本明細書の開示から当業者には明らかであろう。本明細書では、本発明に係るシステム、方法、および記録媒体の実施形態を、図１A、図1B、図2A、図2Bおよび図3〜５を参照しながら説明する。幾つかの多重チャネル音声コンテンツは、発話チャネルおよび少なくとも一つの非発話チャネルにおいて、互いに異なるけれども相互に関連する発話のコンテンツを有することを本発明の発明者は観測した。例えば、あるステージ公演での多重チャネル音声の複数の録音内容は、「乾いた」発話内容（即ち、人間の聴覚で気付く程度の残響が無い発話内容）が発話チャネル（典型的には、音声信号の中心チャネルＣ）内に配置され、これと同一の発話内容ではあるが顕著な残響成分が含まれている（即ち、「濡れた」）発話内容が音声信号の非発話チャネル内に配置されるような態様でミキシングされる。典型的なシナリオにおいては、「乾いた発話内容」は、ステージ上の演技者が自分の口のすぐ近くに保持しているマイクロフォンからの音声信号であり、「濡れた発話内容」は、一般聴衆の中に置かれたマイクロフォンからの音声信号である。「濡れた発話内容」は、会場内に居る一般聴衆によって聴取される実演であるから、「濡れた発話内容」は「乾いた発話内容」と関係付けられる。しかしながら、それは「乾いた発話内容」とは異なるものである。典型的には、「濡れた発話内容」は「乾いた発話内容」と比較して一定の遅延があり、異なる周波数スペクトルおよび異なる付加的成分（例えば、聴衆の発する騒音や残響）を有する。

「乾いた発話内容」と「濡れた発話内容」との間の相対的なレベルに応じて、濡れた発話成分が乾いた発話成分を覆い隠す（マスキングする）ことが起こり得る。このようなマスキングの度合いは、ダッキング処理回路内での非発話チャネルの減衰処理（例えば、上記において引用した特許文献１において記載されている方法における減衰処理など）が「濡れた発話内容」の音声信号に対して望ましくない減衰をもたらす程である場合もある。「乾いた発話成分」と「濡れた発話成分」とは、別々の成分として記述することも可能ではあるが、聞き手の方は、これら2つの成分を知覚の上では混ぜこぜにして聴いており、これらの成分を単一の会話音声のストリームとして聴いている。（例えば、ダッキング処理回路内において）「濡れた発話成分」を減衰処理することは、混ぜこぜにして聴き取られる会話音声ストリームの知覚される音量を低下させると同時に、当該会話音声のイメージ幅を壊してしまうという効果を伴う可能性がある。上記したようなタイプの「乾いた発話成分」と「濡れた発話成分」を有する多重チャネル音声信号に関しては、当該音声信号に関する発話内容の強化処理の実行中に「濡れた発話成分」の強度が変化しないならば、しばしば聞き手にとって知覚の上でより心地良く、それと同時に、発話内容の明瞭度により大きく資することを本発明の発明者は発見した。

本発明は、部分的には以下の知見に基づいて成されたものである。多重チャネル音声信号が当該多重チャネル音声信号の発話チャネルから判定された発話内容の明瞭度（またはその他の知覚される品質）を高めるような情報内容を含んでいる場合を考える。この時、ダッキング処理回路を使用して当該多重チャネル音声信号の非発話チャネルをフィルタリングする（例えば、特許文献１に記載された方法に従ってフィルタリングする）ことは、フィルタリングされた音声信号を再生した音声を聴いている聞き手にとっての娯楽的体験に悪い影響を与える可能性がある。本発明に係る典型的な実施形態に従うならば、非発話チャネルが「発話内容の強化コンテンツ」を含んでいる期間中においては、多重チャネル音声信号の少なくとも一つの非発話チャネルに対して実行される（ダッキング処理回路内における）減衰処理は、一時的に中断されるかまたは修正される。なお、「発話内容の強化コンテンツ」とは、
当該多重チャネル音声信号の発話チャネルから判定される発話内容の明瞭度または知覚される品質を高める情報内容である。非発話チャネルが「発話内容の強化コンテンツ」を含んでいない時には非発話チャネルに対して従来技術が開示する通常の方法で減衰処理がなされる（即ち、減衰処理は一時的に中断されたり修正されたりしない）。あるいは、非発話チャネルが既定の評価基準を満たすような「発話内容の強化コンテンツ」を含んでいない時に、減衰処理の一時的な中断や修正を行わないようにすることも可能である。

従来技術が開示するダッキング処理回路内でのフィルタリング処理が不適切であるような（発話チャネルを有する）多重チャネル音声信号の典型例には、発話チャネル内における発話のキュー部分と実質的に同一である発話のキュー部分を伝送する少なくとも一つの非発話チャネルを含むものがある。本発明に係る典型的な実施形態に従うならば、発話チャネル内における発話に関係する一連の特性値から成る単一の系列は、非発話チャネル内における発話に関係する一連の特性値から成る単一の系列と比較される。一連の特性値から成る上記した２つの系列の間の実質的な類似度は、非発話チャネル（即ち、非発話チャネル内の音声信号）は、発話チャネル内で伝えられる発話内容を理解するために有用な情報を与えることに寄与している。そしてその場合、非発話チャネルの減衰処理は回避されるべきである。

音声信号それ自体ではなく、上記のような発話に関係する特性値の系列同士の間の類似度を検査することの重要性を深く理解するためには、以下の事実を知ることが重要である。（発話チャネルおよび非発話チャネルから判定される）「乾いた発話内容」および「濡れた発話内容」は互いに同一ではない。即ち、上記した２つのタイプの発話内容をそれぞれ表す音声信号は、典型的には時間軸上でオフセットされており、互いに異なるフィルタリング過程を経ており、音声信号に付加されている外乱成分も互いに異なっている。従って、２つの音声信号を互いに直接的に比較しても、常に低い類似度しか生じない。この事は、キュー成分に対する非発話チャネルによる寄与が以下の３つの場合の何れに該当しようが、全く関係ない。一つ目は、（「乾いた」または「濡れた」発話内容の場合のように）発話チャネルと同一となる発話のキュー成分に関する寄与を有する場合である。２つ目は、（例えば、聴取の対象となる会話が発話チャネル内で伝えられ、背後の雑談が非発話チャネルで伝えられる場合のように、発話チャネルと非発話チャネルにそれぞれ互いに無関係な話し声が含まれている場合のように）発話チャネルと無関係なキュー成分に関する寄与を有するばあいである。３つ目は、（非発話チャネルが音楽や効果音のみを伝える場合のように）非発話チャネルのキュー成分に対する寄与が皆無となる場合である。（本発明に係る好適な実施形態において開示されるように）発話内容の特性値同士の比較に基づくことにより、音声信号の無関係な側面による影響を教示することができる抽象化のレベルが実現される。上記した音声信号の無関係な側面の具体例には、少量の遅延、周波数スペクトルの相違、および音声信号に付加される外乱成分などが含まれる。このようにして、本発明に係る好適な実施態様は、典型的には、発話内容の特性値から成る少なくとも２本のストリームを生成する。この場合、一方のストリームは、発話チャネル内の音声信号を表し、それ以外の少なくとも一つのストリームは、非発話チャネル内の音声信号を表す。

以下、図１Aを参照しながら、本発明に係るシステムの第１の実施形態（１２５）について説明する。発話チャネル１０１（中心チャネルＣ）および２つの非発話チャネル１０２と１０３（左側のチャネルＬと右側のチャネルＲ）を備える多重チャネル音声信号に応じて、図１Aに示すシステムは、これら非発話チャネルをフィルタリングする。そしてその結果、図１Aのシステムは、発話チャネル１０１とフィルタリング済の非発話チャネル１１８と１１９（フィルタリング済みの左側と右側のチャネルL’とR’）を備えるフィルタリング済みの多重チャネル出力音声信号を生成する。代替的に、非発話チャネル１０２および１０３の何れか一方または両方は、多重チャネル音声信号における上記以外の他のタイプの非発話チャネル（例えば、５．１チャネル音声信号における左後方のチャネルおよび／または右後方のチャネル）とすることが可能である。あるいは、非発話チャネル１０２および１０３の何れか一方または両方は、多重チャネル音声信号における複数の非発話チャネルから成る多くの互いに異なる部分集合の中の何れか（即ち、複数の非発話チャネルのある一つの組み合わせ）から導出された単一の「導出された非発話チャネル」とすることも可能である。代替的に、本発明に係るシステムの実施形態においては、多重チャネル音声信号の非発話チャネルの中の一つだけ、あるいは２つ以上をフィルタリングするように実装することも可能である。

再び図１Aを参照すると、非発話チャネル１０２および１０３は、ダッキング増幅回路１１７および１１６にそれぞれ入力としてアサートされる。動作中において、ダッキング増幅回路１１６は、乗算器１１４から出力される制御信号Ｓ３（これは一連の制御値の系列を表し、従って、制御値の系列Ｓ３とも呼ばれる）によって動作制御される。また、ダッキング増幅回路１１７は、乗算器１１５から出力される制御信号Ｓ４（これは一連の制御値の系列を表し、従って、制御値の系列Ｓ４とも呼ばれる）によって動作制御される。

入力される多重チャネル音声信号内の各チャネルの電力は、複数の電力推定回路１０４、１０５および１０６から成るバンクによって計測され、対数の尺度［ｄＢ］を用いて表される。これらの電力推定回路は、例えば、漏出型積分器（Leaky Integrator）のような平滑化機構を実装しており、これにより、計測された電力レベルは、一連の会話中に含まれる一つの文または一節全体に渡って平均された電力レベルを反映する。発話チャネル内における音声信号の電力レベルは非発話チャネルの各々における電力レベルから（減算器１０７および１０８によって）減算され、その結果、上記した２つのタイプの音声信号同士の間の電力比率の尺度を与える。減算器１０７の出力は、発話チャネル１０１に対する非発話チャネル１０３の電力比率の測定値である。減算器１０８の出力は、発話チャネル１０１に対する非発話チャネル１０２の電力比率の測定値である。

比較回路１０９は、非発話チャネルの各々に関して、非発話チャネルが減衰されなくてはならないデシベル（ｄＢ）数を判定する。上記デシベル（ｄＢ）数は、非発話チャネルの電力が発話チャネル内の音声信号の電力レベルよりも少なくともΘ［ｄＢ］だけ下回った状態を維持することができるデシベル数でなくてはならない。なお、記号Θ（ギリシャ文字のシータ）は所定の閾値を表す。比較回路１０９の一実施態様においては、非発話チャネル１０３と発話チャネル１０１との間の電力レベルの差分（すなわち、マージン）に対して加算器１２０が（レジスタとして実装可能な記憶要素１１０に記憶された）閾値Θを加算する。また、非発話チャネル１０２と発話チャネル１０１との間の電力レベルの差分（すなわち、マージン）に対して加算器１２１が閾値Θを加算する。要素１１１−１および１１２−１は、加算器１２０および１２１のそれぞれが出力する出力値の正負の符号を変更する。この符号の変更操作は減衰値を利得値に変換するものである。要素１１１および１１２は、出力結果の各々の上限をゼロ以下に制限する（要素１１１−１の出力はリミッター（制限器）１１１に対して入力としてアサートされ、要素１１２−１の出力はリミッター（制限器）１１２に対して入力としてアサートされる）。リミッター１１１から出力された電流値Ｃ１は、ｄＢ単位で表した利得（マイナス値とされた減衰率）を決定し、この減衰率は、非発話チャネル１０３の電力レベルを発話チャネル１０１の電力レベルよりもΘ［ｄＢ］下回る状態を（入力された多重チャネル音声信号の関係する時点において、または関係する時間ウィンドウ内において）維持するために、非発話チャネル１０３に対して適用されなくてはならない。リミッター１１２から出力された電流値Ｃ２は、ｄＢ単位で表した利得（マイナス値とされた減衰率）を決定し、この減衰率は、非発話チャネル１０２の電力レベルを発話チャネル１０１の電力レベルよりもΘ［ｄＢ］下回る状態を（入力された多重チャネル音声信号の関係する時点において、または関係する時間ウィンドウ内において）維持するために、非発話チャネル１０２に対して適用されなくてはならない。典型的な場合におけるΘの適切な値は１５ｄＢ程度である。

対数の尺度で表現された測定値と線形の尺度で表現された同一の測定値との間には、一意的な関係が存在するので、図１A中の要素１０４、１０５、１０６、１０７、１０８および１０９と均等な回路（この回路は、プログラミングされ、さもなければ設定されたプロセッサであっても良い）は、電力、利得および閾値の全てが線形の尺度で表現された態様で構成されることが可能である。そのような回路構成においては、レベル同士の間の差分を表す全ての値は線形の測定値同士の間の比率によって置き換えられる。代替的な実施態様では、電力の測定値は、例えば、音声信号の絶対値のような信号強度と関係付けられた測定値と置き換えられる。

リミッター１１１から出力される信号Ｃ１は、非発話チャネル１０３に関する未加工の減衰制御信号（ダッキング増幅回路１１６のための利得制御信号）であり、これは、非発話チャネル１０３のダッキング減衰処理を制御するために、増幅回路１１６に対して直接的にアサートされる。リミッター１１２から出力される信号Ｃ２は、非発話チャネル１０２に関する未加工の減衰制御信号（ダッキング増幅回路１１７のための利得制御信号）であり、これは、非発話チャネル１０３のダッキング減衰処理を制御するために、増幅回路１１７に対して直接的にアサートされる。

しかしながら、本発明に従うならば、未加工の減衰制御信号Ｃ１およびＣ２は、乗算器１１４および１１５においてスケーリングされる。その結果、非発話チャネルに対する増幅回路１１６および１１７によるダッキング減衰処理を制御するために、利得制御信号Ｓ３およびＳ４が生成される。信号Ｃ１は、一連の減衰制御値の系列Ｓ１に応じてスケーリングされ、信号Ｃ２は、一連の減衰制御値の系列Ｓ２に応じてスケーリングされる。制御値Ｓ１の各々は、（以下において説明する）処理要素１３４の出力端子から乗算器１１４の一方の入力端子に対してアサートされ、信号Ｃ１（つまり、信号Ｃ１によって決定される未加工の利得制御値Ｃ１の各々）はリミッター１１１から要素１１４の他方の入力端子にアサートされる。要素１１４は、上記した電流値Ｓ１に応じて、上記した電流値Ｃ１をスケーリングする。上記スケーリングは、これらの値Ｃ１とＳ１を乗算して電流値Ｓ３を生成し、これを増幅回路１１６に入力としてアサートすることにより実行される。制御値Ｓ２の各々は、（以下において説明する）処理要素１３５の出力端子から乗算器１１５の一方の入力端子に対してアサートされ、信号Ｃ２（つまり、信号Ｃ２によって決定される未加工の利得制御値Ｃ２の各々）はリミッター１１２から要素１１５の他方の入力端子にアサートされる。要素１１５は、上記した電流値Ｓ２に応じて、上記した電流値Ｃ２をスケーリングする。上記スケーリングは、これらの値Ｃ２とＳ２を乗算して電流値Ｓ４を生成し、これを増幅回路１１７に入力としてアサートすることにより実行される。

本発明に従うならば、制御値Ｓ１およびＳ２は、以下のようにして生成される。発話尤度処理要素１３０、１３１および１３２において、発話尤度信号（図１A中の信号Ｐ、ＱおよびＴの各々）は入力される多重チャネル音声信号の各チャネルに関して生成される。発話尤度信号Ｐは、非発話チャネル１０２に関する一連の発話尤度値の一つの系列を表す。発話尤度信号Ｑは、発話チャネル１０１に関する一連の発話尤度値の一つの系列を表す。発話尤度信号Ｔは、非発話チャネル１０３に関する一連の発話尤度値の一つの系列を表す。

発話尤度信号Ｑは、発話チャネル内の音声信号が実際に発話内容を表している可能性の高さを示す尤度と単調に関係付けられている値である。発話尤度信号Ｐは、非発話チャネル１０２内の音声信号が発話内容を表している可能性の高さを示す尤度と単調に関係付けられている値である。発話尤度信号Ｔは、非発話チャネル１０３内の音声信号が発話内容を表している可能性の高さを示す尤度と単調に関係付けられている値である。プロセッサ１３０、１３１および１３２（これら３つは、典型的には互いに同一の構成であるが、幾つかの実施形態においては互いに同一の構成ではない）は、これらのプロセッサに入力としてアサートされた入力信号が発話内容を表している可能性の高さを示す尤度を自動的に判定するための多種多様な方法の何れかを実装することができる。本発明の一の実施形態においては、発話尤度プロセッサ１３０、１３１および１３２は、互いに同一の構成を有し、プロセッサ１３０は、（非発話チャネル１０２の情報から）信号Ｐを生成する。この時、信号Ｐは一連の発話尤度値の系列を表し、当該発話尤度値の各々は、異なる時刻（または時間ウィンドウ）におけるチャネル１０２内の音声信号が発話内容を表している可能性の高さを示す尤度と単調に関係付けられている。同様に、プロセッサ１３１は、（チャネル１０１の情報から）信号Ｑを生成する。この時、信号Ｑは一連の発話尤度値の系列を表し、当該発話尤度値の各々は、異なる時刻（または時間ウィンドウ）におけるチャネル１０１内の音声信号が発話内容を表している可能性の高さを示す尤度と単調に関係付けられている。同様に、プロセッサ１３２は、（非発話チャネル１０３の情報から）信号Ｔを生成する。この時、信号Ｔは一連の発話尤度値の系列を表し、当該発話尤度値の各々は、異なる時刻（または時間ウィンドウ）におけるチャネル１０３内の音声信号が発話内容を表している可能性の高さを示す尤度と単調に関係付けられている。プロセッサ１３０、１３１および１３２の各々は、チャネル１０２、１０１および１０３の関連する一つの上において非特許文献１に記載の仕組みを実装することにより、上記において説明した動作を実行する。代替的に、信号Ｐは、例えばコンテンツ製作者などによる手操作入力により生成され、エンド・ユーザに向けてチャネル１０２上の音声信号と一緒にして送信されるようにしても良い。そして、プロセッサ１３０は単にそのような予め生成されていた信号Ｐをチャネル１０２から抽出するだけでよい（あるいは、プロセッサ１３０は省略され、予め生成されていた信号Ｐは、プロセッサ１３４に対する直接的な入力としてアサートされるようにしても良い）。同様に、信号Ｑは、手操作入力により生成され、エンド・ユーザに向けてチャネル１０１上の音声信号と一緒にして送信されるようにしても良い。そして、プロセッサ１３１は単にそのような予め生成されていた信号Ｑをチャネル１０１から抽出するだけでよい（あるいは、プロセッサ１３１は省略され、予め生成されていた信号Ｑは、プロセッサ１３４および１３５に対する直接的な入力としてアサートされるようにしても良い）。同様に、信号Ｔは、手操作入力により生成され、エンド・ユーザに向けてチャネル１０３上の音声信号と一緒にして送信されるようにしても良い。そして、プロセッサ１３２は単にそのような予め生成されていた信号Ｔをチャネル１０３から抽出するだけでよい（あるいは、プロセッサ１３２は省略され、予め生成されていた信号Ｔは、プロセッサ１３５に対する直接的な入力としてアサートされるようにしても良い）。

プロセッサ１３４の典型的な実装においては、信号ＰおよびＱによって決定された発話尤度値は、対にして比較される。その結果、信号Ｐの一連の電流値の系列中の各値に関して信号ＰとＱそれぞれの２つの電流値の間の差分が決定される。プロセッサ１３５の典型的な実装においては、信号ＴおよびＱによって決定された発話尤度値は、対にして比較される。その結果、信号ＴおよびＱの一連の電流値の系列中の各値に関して信号Ｑそれぞれの２つの電流値の間の差分が決定される。以上の結果として、プロセッサ１３４と１３５の各々は、発話尤度値の一対に関して、複数の異なる値から成る一の時系列を生成する。

プロセッサ１３４および１３５は、時間平均化により上記のような一連の差分値の系列を平滑化し、さらに任意付加的な処理として、結果として得られた時間平均された一連の差分値の系列をスケーリングするように実装されることが好ましい。上記のとおり時間平均化され、さらにスケーリングされ、プロセッサ１３４および１３５から出力される一連の差分値が、乗算器１１４および１１５の出力信号がダッキング増幅回路１１６および１１７を動作制御するのに有益な範囲内に収まるようにするために、上記のとおり時間平均化された一連の異なる差分値から成る系列が、スケーリング処理されることは、必要なことである可能性がある。

本発明に係る典型的な実施態様においては、プロセッサ１３４から出力される信号Ｓ１は、時間平均化されスケーリングされた一連の異なる値から成る系列である（時間平均化されスケーリングされた一連の異なる値の各々は、異なる時間ウィンドウ内における信号ＰとＱのそれぞれの電流値同士の間の一連の差分値のスケーリングされた時間平均である）。信号Ｓ１は、非発話チャネル１０２に関するダッキング利得制御信号であり、非発話チャネル１０２に関して独立に生成された未加工のダッキング利得制御信号Ｃ１をスケーリングするために使用される。同様に、本発明に係る典型的な実施態様においては、プロセッサ１３５から出力される信号Ｓ２は、時間平均化されスケーリングされた一連の異なる値から成る系列である（時間平均化されスケーリングされた一連の異なる値の各々は、異なる時間ウィンドウ内における信号ＴとＱのそれぞれの電流値同士の間の一連の差分値のスケーリングされた時間平均である）。信号Ｓ２は、非発話チャネル１０３に関するダッキング利得制御信号であり、非発話チャネル１０３に関して独立に生成された未加工のダッキング利得制御信号Ｃ２をスケーリングするために使用される。

本発明に従い、ダッキング利得制御信号Ｓ１に応じて未加工のダッキング利得制御信号Ｃ１をスケーリングする処理は、（要素１１４内において）信号Ｃ１が表す未加工の利得制御値の各々に対して、信号Ｓ１における時間平均化されスケーリングされた一連の異なる値の中の対応する一つを乗算して、信号Ｓ３を生成することにより実行することが可能である。本発明に従い、ダッキング利得制御信号Ｓ２に応じて未加工のダッキング利得制御信号Ｃ２をスケーリングする処理は、信号Ｃ２が表す未加工の利得制御値の各々を信号Ｓ２における時間平均化されスケーリングされた一連の異なる値の中の対応する一つにより（要素１１５内で実行される）乗算して、信号Ｓ４を生成することにより実行することが可能である。

次に、図1Bを参照しながら、本発明に係る他の実施形態（125’）について説明する。発話チャネル１０１（中心チャネルＣ）および２つの非発話チャネル１０２と１０３（左側のチャネルＬと右側のチャネルＲ）を備える多重チャネル音声信号に応じて、図1Bに示すシステムは、これら非発話チャネルをフィルタリングする。そしてその結果、図1Bのシステムは、発話チャネル１０１とフィルタリング済の非発話チャネル１１８と１１９（フィルタリング済みの左側と右側のチャネルL’とR’）を備えるフィルタリング済みの多重チャネル出力音声信号を生成する。

図1Bに示すシステムにおいては、（図１Aに示すシステムと同様に）非発話チャネル１０２および１０３は、ダッキング増幅回路１１７および１１６にそれぞれ入力としてアサートされる。動作中において、ダッキング増幅回路１１７は、乗算器１１５から出力される制御信号Ｓ４（これは一連の制御値の系列を表し、従って、制御値の系列Ｓ４とも呼ばれる）によって動作制御される。また、ダッキング増幅回路１１６は、乗算器１１４から出力される制御信号Ｓ３（これは一連の制御値の系列を表し、従って、制御値の系列Ｓ３とも呼ばれる）によって動作制御される。図1B中の構成要素１０４、１０５、１０６、１０７、１０８、１０９（構成要素１１０、１２０、１２１、１１１−１、１１２−１、１１１および１１２）、１１４、１１５、１３０、１３１、１３２、１３４および１３５は、図１A中においてそれぞれ同一の参照番号を付された構成要素と同一である（そして、同一の機能を実行する）。そして、図1Bにおけるこれらの構成要素に関する説明は、図１Aに関連して述べたこれらの構成要素の説明と同様であるため、省略する。

図1Bに示すシステムが図１Aに示すシステムと相違する点は以下のとおりである。（プロセッサ１３４から出力としてアサートされる）制御信号Ｓ１ではなく、（乗算器２１４から出力としてアサートされる）制御信号Ｖ１が、（リミッター要素１１１から出力としてアサートされる）制御信号Ｃ１をスケーリングするために使用される。（プロセッサ１３５から出力としてアサートされる）制御信号Ｓ２ではなく、（乗算器２１５から出力としてアサートされる）制御信号Ｖ２が、（リミッター要素１１２から出力としてアサートされる）制御信号Ｃ２をスケーリングするために使用される。図1Bにおいて、本発明に従い、一連の減衰制御値Ｖ１の系列に応じて、未加工のダッキング利得制御信号Ｃ１をスケーリングする処理は、（要素１１４中において）一連の減衰制御値Ｖ１の中の対応する一つを、信号Ｃ１の未加工の利得制御値の各々に対して乗算し、信号Ｓ３を生成することにより実行される。同様に、本発明に従い、一連の減衰制御値Ｖ２の系列に応じて、未加工のダッキング利得制御信号Ｃ２をスケーリングする処理は、（要素１１５中において）一連の減衰制御値Ｖ２の中の対応する一つを、信号Ｃ２の未加工の利得制御値の各々に対して乗算し、信号Ｓ４を生成することにより実行される。

一連の減衰制御値Ｖ１の系列を生成するために、（プロセッサ１３１の出力としてアサートされる）信号Ｑは、乗算器２１４の一方の入力端子に対してアサートされ、（プロセッサ１３４の出力としてアサートされる）制御信号Ｓ１は、乗算器２１４の他方の入力端子に対してアサートされる。乗算器２１４の出力は、一連の減衰制御値Ｖ１の系列である。一連の減衰制御値Ｖ１の各々は、信号Ｑから判定される発話尤度値の中の一つを、一連の減衰制御値Ｓ１の中の対応する一つによりスケーリングしたものである。

同様に、一連の減衰制御値Ｖ２の系列を生成するために、（プロセッサ１３１の出力としてアサートされる）信号Ｑは、乗算器２１５の一方の入力端子に対してアサートされ、（プロセッサ１３５の出力としてアサートされる）制御信号Ｓ２は、乗算器２１５の他方の入力端子に対してアサートされる。乗算器２１５の出力は、一連の減衰制御値Ｖ２の系列である。一連の減衰制御値Ｖ２の各々は、信号Ｑから判定される発話尤度値の中の一つを、一連の減衰制御値Ｓ２の中の対応する一つによりスケーリングしたものである。

図１Aに示すシステム（あるいは、図1Bに示すシステム）は、プロセッサ（例えば、図5に示すプロセッサ５０１）により実行され、図１A（または図1B）のシステムに関して上述された動作を実装するようにプログラミングされたソフトウェアとして実現されることが可能である。代替的に、上記システムは、図１A（または図1B）に示されるように接続された複数の回路要素によって、ハードウェアとして実現されることが可能である。

図１Aに示す実施形態（あるいは、図1Bに示す実施形態）の変形実施例においては、本発明に従って、ダッキング利得制御信号Ｓ１（またはＶ１）に応じて、未加工のダッキング利得制御信号Ｃ１をスケーリングする（そしてその結果、増幅回路１１６を動作制御するためのダッキング利得制御信号の生成する）処理は、非線形的な態様によって実行することが可能である。例えば、そのような非線形的な態様のスケーリング処理は、（上述した信号Ｓ３に置き換わる代替的信号として）以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、Ｓ１（またはＶ１）の電流値が閾値を下回る場合には、増幅回路１１６によるダッキング動作は全く行われない（即ち、増幅回路１１６によって単位利得を適用し、その結果、チャネル１０３の減衰が全くなされない）ようにする。他方、信号Ｓ１の電流値が閾値を上回った場合には、（上述した信号Ｓ３に置き換わる）ダッキング利得制御信号の電流値が信号Ｃ１の電流値と等しくなるようにする（即ち、この場合、信号Ｓ１（またはＶ１）はＣ１の電流値を修正しない）。代替的に、（本発明に係るダッキング利得制御信号Ｓ１またはＶ１に応じた）信号Ｃ１に対するその他の線形的または非線形的なスケーリング処理を実行し、その結果、増幅回路１１６を動作制御するためのダッキング利得制御信号を生成することが可能である。例えば、信号Ｃ１に対するそのようなスケーリング処理は、（上述した信号Ｓ３に置き換わる代替的信号として）以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、Ｓ１（またはＶ１）の電流値が閾値を下回る場合には、増幅回路１１６によるダッキング動作は全く行われない（即ち、増幅回路１１６によって単位利得を適用する）ようにする。他方、信号Ｓ１（またはＶ１）の電流値が閾値を上回った場合には、（上述した信号Ｓ３に置き換わる）ダッキング利得制御信号の電流値が信号Ｃ１の電流値に信号Ｓ１またはＶ１の電流値を乗算した値（またはこの乗算による積の値から決定されるその他の何らかの値）と等しくなるようにする。

同様に、図１Aに示す実施形態（あるいは、図1Bに示す実施形態）の変形実施例においては、本発明に従って、ダッキング利得制御信号Ｓ２（またはＶ２）に応じて、未加工のダッキング利得制御信号Ｃ２をスケーリングする（そしてその結果、増幅回路１１７を動作制御するためのダッキング利得制御信号の生成する）処理は、非線形的な態様によって実行することが可能である。例えば、そのような非線形的な態様のスケーリング処理は、（上述した信号Ｓ４に置き換わる代替的信号として）以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、Ｓ２（またはＶ２）の電流値が閾値を下回る場合には、増幅回路１１７によるダッキング動作は全く行われない（即ち、増幅回路１１７によって単位利得を適用し、その結果、チャネル１０２の減衰が全くなされない）ようにする。他方、信号Ｓ２（またはＶ２）の電流値が閾値を上回った場合には、（上述した信号Ｓ４に置き換わる）ダッキング利得制御信号の電流値が信号Ｃ２の電流値と等しくなるようにする（即ち、この場合、信号Ｓ２（またはＶ２）はＣ２の電流値を修正しない）。代替的に、（本発明に係るダッキング利得制御信号Ｓ２またはＶ２に応じた）信号Ｃ２に対するその他の線形的または非線形的なスケーリング処理を実行し、その結果、増幅回路１１７を動作制御するためのダッキング利得制御信号を生成することが可能である。例えば、信号Ｃ２に対するそのようなスケーリング処理は、（上述した信号Ｓ４に置き換わる代替的信号として）以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、Ｓ２（またはＶ２）の電流値が閾値を下回る場合には、増幅回路１１７によるダッキング動作は全く行われない（即ち、増幅回路１１７によって単位利得を適用する）ようにする。他方、信号Ｓ２（またはＶ２）の電流値が閾値を上回った場合には、（上述した信号Ｓ４に置き換わる）ダッキング利得制御信号の電流値が信号Ｃ２の電流値に信号Ｓ２またはＶ２の電流値を乗算した値（またはこの乗算による積の値から決定されるその他の何らかの値）と等しくなるようにする。

次に、図2Aを参照しながら、本発明に係るシステムの他の実施形態（225）を以下において説明する。発話チャネル１０１（中心チャネルＣ）および２つの非発話チャネル１０２と１０３（左側のチャネルＬと右側のチャネルＲ）を備える多重チャネル音声信号に応じて、図2Aに示すシステムは、これら非発話チャネルをフィルタリングする。そしてその結果、図2Aのシステムは、発話チャネル１０１とフィルタリング済の非発話チャネル１１８と１１９（フィルタリング済みの左側と右側のチャネルL’とR’）を備えるフィルタリング済みの多重チャネル出力音声信号を生成する。

図2Aに示すシステムにおいては、（図１Aに示すシステムと同様に）非発話チャネル１０２および１０３は、ダッキング増幅回路１１７および１１６にそれぞれ入力としてアサートされる。動作中において、ダッキング増幅回路１１７は、乗算器１１５から出力される制御信号Ｓ６（これは一連の制御値の系列を表し、従って、制御値の系列Ｓ６とも呼ばれる）によって動作制御される。また、ダッキング増幅回路１１６は、乗算器１１４から出力される制御信号Ｓ５（これは一連の制御値の系列を表し、従って、制御値の系列Ｓ５とも呼ばれる）によって動作制御される。図2A中の構成要素１１４、１１５、１３０、１３１、１３２、１３４および１３５は、図１A中においてそれぞれ同一の参照番号を付された構成要素と同一である（そして、同一の機能を実行する）。そして、図1Bにおけるこれらの構成要素に関する説明は、図１Aに関連して述べたこれらの構成要素の説明と同様であるため、省略する。

図2Aに示すシステムは、チャネル１０１、１０２および１０３の各々における信号の電力を、電力推定回路２０１、２０２および２０３から成るバンクを使用して計測する。図１Aにおいてこれらに対応する電力推定回路とは異なり、電力推定回路２０１、２０２および２０３の各々は、周波数軸上に渡って信号電力の分布（即ち、複数の周波数帯域の組の中における関連するチャネルに対応する互いに異なる各周波数帯域中の電力）を計測する。その結果として、各チャネルに関して単一の計測値ではなく、電力のスペクトルが生成される。電力スペクトルの各々のスペクトル分解能は、理想的に言えば、（以下において検討する）構成要素２０５および２０６によって実装される明瞭度予測モデルに関するスペクトル分解能と一致する。

当該電力スペクトルは、比較回路２０４に供給される。比較回路２０４の目的は、非発話チャネルの各々に対して適用される減衰率を決定することである。上記の減衰率は、非発話チャネル内の信号が発話チャネル内の信号の明瞭度を所定の基準値よりも下に低減しないことを保証するものでなくてはならない。このような機能は、明瞭度予測回路（２０５および２０６）を採用することによって実現される。明瞭度予測回路は、発話チャネル内の信号の電力スペクトル（２０１）および非発話チャネル内の信号の電力スペクトル（２０２および２０３）から発話内容の明瞭度を予測する回路である。明瞭度予測回路２０５および２０６は、設計上の判断および各種のトレードオフに従って、適切な明瞭度予測モデルを実装することが可能である。このような明瞭度予測モデルの複数の具体例としては、非特許文献２に規定された「発話内容の明瞭度の指標」および非特許文献３に記載されている「発話認識感度モデル」などがある。発話チャネル内の信号が発話内容以外の信号である場合には、明瞭度予測モデルによる出力は何の意味も有さないことは自明である。にもかかわらず、明瞭度予測モデルの出力に後続する情報中に含まれるものは、予測された発話内容の明瞭度と呼ばれる。比較回路２０４から出力される利得値をパラメータＳ１およびＳ２を使用してスケーリングすることにより、知覚される誤動作を考慮した追加の処理が、後続の処理においてなされる。なお、Ｓ１およびＳ２の各々は、発話チャネル内の信号が発話内容を表している可能性の高さを示す尤度と関係付けられている。

複数の明瞭度予測モデルは、非発話チャネル内の信号のレベルを低減する結果として、増加するか、または変化しないかの何れか一方である発話内容の明瞭度を予測するという点で共通している。図2A中の処理フローの流れの説明を続けると、比較回路２０７および２０８は、上記の予測された明瞭度を所定の基準値と比較する。もしも、上記の予測された明瞭度が上記の基準値を超えてしまうほどに非発話チャネル１０３の信号レベルが低いと構成要素２０５が判定するならば、利得パラメータ（この値の初期値は０ｄＢとされる）が回路２０９から抽出され、比較回路２０４の出力Ｃ３として回路２１１に供給される。もしも、上記の予測された明瞭度が上記の基準値を超えてしまうほどに非発話チャネル１０２の信号レベルが低いと構成要素２０６が判定するならば、利得パラメータ（この値の初期値は０ｄＢとされる）が回路２１０から抽出され、比較回路２０４の出力Ｃ３として回路２１２に供給される。もしも、上記した基準値が満たされないと構成要素２０５または２０６が判定するならば、利得パラメータ（構成要素２０９および２１０のうちの関連する一方）は、一定の量だけ減らされ、明瞭度の予測動作が反復される。上記の利得パラメータを減らす際の適切なステップ幅は１［ｄＢ］である。上記のとおり説明した反復動作は、予測された明瞭度が上記の基準値を充足するかまたは超えるまで継続される。

非発話チャネル内の信号が全く存在しない場合においてさえ、明瞭度の基準値が達成され得ないような信号を発話チャネル内の信号とすることももちろん可能である。そのような状況が起こり得る具体例としては、発話信号のレベルが非常に低い、または極端に限定された周波数帯域で伝送されている場合などである。そのような状況が起こった場合、非発話チャネルに対して適用される利得値をこれ以上どんなに減少させても、予測される発話内容の明瞭度に全く影響を与えないような点に到達し、基準値は決して満たされることが無い。そのような条件の下では、構成要素２０５、２０７および２０９（あるいは構成要素２０６、２０８および２１０）によって形成されるループ処理は無限に継続し、そのような無限のループを断ち切るために、追加の処理ロジック（図示せず）が適用されることが可能である。そのような追加の処理ロジックの特に単純な一例としては、ループの反復回数をカウントし、所定の反復回数を超えたらループ処理から抜け出すものがある。

本発明に従い、ダッキング利得制御信号Ｓ１に応じて未加工のダッキング利得制御信号Ｃ３をスケーリングする処理は、（要素１１４内において）信号Ｃ３が表す未加工の利得制御値の各々に対して、信号Ｓ１における時間平均化されスケーリングされた一連の異なる値の中の対応する一つを乗算して、信号Ｓ５を生成することにより実行することが可能である。本発明に従い、ダッキング利得制御信号Ｓ２に応じて未加工のダッキング利得制御信号Ｃ４をスケーリングする処理は、信号Ｃ４が表す未加工の利得制御値の各々を信号Ｓ２における時間平均化されスケーリングされた一連の異なる値の中の対応する一つにより（要素１１５内で実行される）乗算して、信号Ｓ６を生成することにより実行することが可能である。

図2Aに示すシステムは、プロセッサ（例えば、図5に示すプロセッサ５０１）により実行され、図2Aのシステムに関して上述された動作を実装するようにプログラミングされたソフトウェアとして実現されることが可能である。代替的に、上記システムは、図2Aに示されるように接続された複数の回路要素によって、ハードウェアとして実現されることが可能である。

図2Aに示す実施形態の変形実施例においては、本発明に従って、ダッキング利得制御信号Ｓ１に応じて、未加工のダッキング利得制御信号Ｃ３をスケーリングする（そしてその結果、増幅回路１１６を動作制御するためのダッキング利得制御信号の生成する）処理は、非線形的な態様によって実行することが可能である。例えば、そのような非線形的な態様のスケーリング処理は、（上述した信号Ｓ５に置き換わる代替的信号として）以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、Ｓ１の電流値が閾値を下回る場合には、増幅回路１１６によるダッキング動作は全く行われない（即ち、増幅回路１１６によって単位利得を適用し、その結果、チャネル１０３の減衰が全くなされない）ようにする。他方、信号Ｓ１の電流値が閾値を上回った場合には、（上述した信号Ｓ５に置き換わる）ダッキング利得制御信号の電流値が信号Ｃ３の電流値と等しくなるようにする（即ち、この場合、信号Ｓ１はＣ３の電流値を修正しない）。代替的に、（本発明に係るダッキング利得制御信号Ｓ１に応じた）信号Ｃ３に対するその他の線形的または非線形的なスケーリング処理を実行し、その結果、増幅回路１１６を動作制御するためのダッキング利得制御信号を生成することが可能である。例えば、信号Ｃ３に対するそのようなスケーリング処理は、（上述した信号Ｓ５に置き換わる代替的信号として）以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、Ｓ１の電流値が閾値を下回る場合には、増幅回路１１６によるダッキング動作は全く行われない（即ち、増幅回路１１６によって単位利得を適用する）ようにする。他方、信号Ｓ１の電流値が閾値を上回った場合には、（上述した信号Ｓ５に置き換わる）ダッキング利得制御信号の電流値が信号Ｃ３の電流値に信号Ｓ１の電流値を乗算した値（またはこの乗算による積の値から決定されるその他の何らかの値）と等しくなるようにする。

同様に、図2Aに示す実施形態の変形実施例においては、本発明に従って、ダッキング利得制御信号Ｓ２に応じて、未加工のダッキング利得制御信号Ｃ４をスケーリングする（そしてその結果、増幅回路１１７を動作制御するためのダッキング利得制御信号の生成する）処理は、非線形的な態様によって実行することが可能である。例えば、そのような非線形的な態様のスケーリング処理は、（上述した信号Ｓ６に置き換わる代替的信号として）以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、Ｓ２の電流値が閾値を下回る場合には、増幅回路１１７によるダッキング動作は全く行われない（即ち、増幅回路１１７によって単位利得を適用し、その結果、チャネル１０２の減衰が全くなされない）ようにする。他方、信号Ｓ２の電流値が閾値を上回った場合には、（上述した信号Ｓ６に置き換わる）ダッキング利得制御信号の電流値が信号Ｃ４の電流値と等しくなるようにする（即ち、この場合、信号Ｓ２はＣ４の電流値を修正しない）。代替的に、（本発明に係るダッキング利得制御信号Ｓ２に応じた）信号Ｃ４に対するその他の線形的または非線形的なスケーリング処理を実行し、その結果、増幅回路１１７を動作制御するためのダッキング利得制御信号を生成することが可能である。例えば、信号Ｃ４に対するそのようなスケーリング処理は、（上述した信号Ｓ６に置き換わる代替的信号として）以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、Ｓ２の電流値が閾値を下回る場合には、増幅回路１１７によるダッキング動作は全く行われない（即ち、増幅回路１１７によって単位利得を適用する）ようにする。他方、信号Ｓ２の電流値が閾値を上回った場合には、（上述した信号Ｓ６に置き換わる）ダッキング利得制御信号の電流値が信号Ｃ４の電流値に信号Ｓ２の電流値を乗算した値（またはこの乗算による積の値から決定されるその他の何らかの値）と等しくなるようにする。

次に、図2Bを参照しながら、本発明に係るシステムの他の実施形態（225’）を以下において説明する。発話チャネル１０１（中心チャネルＣ）および２つの非発話チャネル１０２と１０３（左側のチャネルＬと右側のチャネルＲ）を備える多重チャネル音声信号に応じて、図2Bに示すシステムは、これら非発話チャネルをフィルタリングする。そしてその結果、図2Bのシステムは、発話チャネル１０１とフィルタリング済の非発話チャネル１１８と１１９（フィルタリング済みの左側と右側のチャネルL’とR’）を備えるフィルタリング済みの多重チャネル出力音声信号を生成する。

図2Bに示すシステムにおいては、（図2Aに示すシステムと同様に）非発話チャネル１０２および１０３は、ダッキング増幅回路１１７および１１６にそれぞれ入力としてアサートされる。動作中において、ダッキング増幅回路１１７は、乗算器１１５から出力される制御信号Ｓ６（これは一連の制御値の系列を表し、従って、制御値の系列Ｓ６とも呼ばれる）によって動作制御される。また、ダッキング増幅回路１１６は、乗算器１１４から出力される制御信号Ｓ５（これは一連の制御値の系列を表し、従って、制御値の系列Ｓ５とも呼ばれる）によって動作制御される。図2B中の構成要素２０１、２０２、２０３、２０４、１１４、１１５、１３０、１３１、および１３４は、図2A中においてそれぞれ同一の参照番号を付された構成要素と同一である（そして、同一の機能を実行する）。そして、図2Bにおけるこれらの構成要素に関する説明は、図2Aに関連して述べたこれらの構成要素の説明と同様であるため、省略する。

図2Bに示すシステムは、図2Aに示すシステムと比べて、以下の２つの点で異なっている。まず第１に、図2Bのシステムは、入力された音声信号の中の２つの個別の非発話チャネル（１０２と１０３）から、一つの「導出された非発話チャネル（Ｌ＋Ｒ）」を生成し（即ち、導出し）、この「導出された非発話チャネル」に応じて、減衰制御値（Ｖ３）を決定する。これとは反対に、図2Aのシステムは、入力された音声信号の中の一方の非発話チャネル（チャネル１０２）に応じて減衰制御値Ｓ１を決定し、入力された音声信号の中の他方の非発話チャネル（チャネル１０３）に応じて減衰制御値Ｓ２を決定する。動作中において、図2Bのシステムは、複数の減衰制御値Ｖ３から成る同一の組に応じて、入力された音声信号の中の非発話チャネルの各々（チャネル１０２および１０３の各々）を減衰処理する。動作中において、図2Aのシステムは、複数の減衰制御値Ｓ２に応じて入力された音声信号の非発話チャネル１０２を減衰処理し、Ｓ２とは異なる複数の減衰制御値Ｓ１の組に応じて入力された音声信号の非発話チャネル１０３を減衰処理する。

図2Bに示すシステムは、加算器要素１２９を含み、その入力は、入力音声信号の中の非発話チャネル１０２および１０３を受信するために接続される。「導出された非発話チャネル（Ｌ＋Ｒ）」は、構成要素１２０の出力としてアサートされる。発話尤度処理要素１３０は、構成要素１２９からの「導出された非発話チャネル（Ｌ＋Ｒ）」に応じて、発話尤度信号Ｐを出力としてアサートする。図2Bにおいて、信号Ｐは、「導出された非発話チャネル」に関する一連の発話尤度値から成る一つの系列を表す。典型的には、図2Bに示す発話尤度信号Ｐは、「導出された非発話チャネル」内の音声信号が発話内容である可能性の高さを示す尤度と単調に関係付けられた値である。図2Bにおいて、（プロセッサ１３１により生成される）発話尤度信号Ｑは、図2Aに関して上述した発話尤度信号Ｑと同一である。

図2Bのシステムが図2Aのシステムと相違する第２の点は以下のとおりである。図2Bにおいて、（乗算器２１４の出力としてアサートされる）制御信号Ｖ３は、（構成要素２１１の出力としてアサートされる）未加工のダッキング利得制御信号Ｃ３をスケーリングするために使用され（この場合、プロセッサ１３４の出力としてアサートされる制御信号Ｓ１はこのスケーリングのためには使用されない）、さらに、制御信号Ｖ３は、（構成要素２１２の出力としてアサートされる）未加工のダッキング利得制御信号Ｃ４をスケーリングするためにも使用される（この場合、図2Aのプロセッサ１３５の出力としてアサートされる制御信号Ｓ２はこのスケーリングのためには使用されない）。図2Bにおいて、本発明に従い、信号Ｖ３（これは、減衰制御値Ｖ３と呼ばれる）によって表される一連の減衰制御値の系列に応じて、未加工のダッキング利得制御信号Ｃ３をスケーリングする処理は、（構成要素１１４内において）信号Ｃ３が表す未加工のダッキング利得制御信号の各々を一連の減衰制御値Ｖ３の対応する一つと乗算し、信号Ｓ５を生成することによって実行される。同様に、本発明に従い、信号Ｖ３（これは、減衰制御値Ｖ３と呼ばれる）によって表される一連の減衰制御値の系列に応じて、未加工のダッキング利得制御信号Ｃ４をスケーリングする処理は、（構成要素１１５内において）信号Ｃ４が表す未加工のダッキング利得制御信号の各々を一連の減衰制御値Ｖ３の対応する一つと乗算し、信号Ｓ６を生成することによって実行される。

動作中において、図2Bのシステムは、一連の減衰制御値Ｖ３の系列を以下のようにして生成する。（図2B中のプロセッサ１３１の出力としてアサートされる）発話尤度信号Ｑは、乗算器２１４の一方の入力端子に対してアサートされ、（プロセッサ１３４の出力としてアサートされる）減衰制御信号Ｓ１は、乗算器２１４の他方の入力端子に対してアサートされる。乗算器２１４の出力は、一連の減衰制御値Ｖ３の系列である。一連の減衰制御値Ｖ３の各々は、信号Ｑから判定される複数の発話尤度値の中の一つを、一連の減衰制御値Ｓ１の対応する一つを使用してスケーリングした値である。

次に、図3を参照しながら、本発明に係るシステムの他の実施形態（325）を以下において説明する。発話チャネル１０１（中心チャネルＣ）および２つの非発話チャネル１０２と１０３（左側のチャネルＬと右側のチャネルＲ）を備える多重チャネル音声信号に応じて、図3に示すシステムは、これら非発話チャネルをフィルタリングする。そしてその結果、図3のシステムは、発話チャネル１０１とフィルタリング済の非発話チャネル１１８と１１９（フィルタリング済みの左側と右側のチャネルL’とR’）を備えるフィルタリング済みの多重チャネル出力音声信号を生成する。

図3に示すシステムにおいて、上記の３つの入力チャネル内の信号の各々は、（チャネル１０１に関する）フィルターバンク３０１、（チャネル１０２に関する）フィルターバンク３０２および（チャネル１０３に関する）フィルターバンク３０３により、周波数スペクトル成分へと分解される。この場合の周波数解析は、時間領域におけるＮ重チャネルのフィルターバンクによって実現することが可能である。本発明の一実施形態に従うならば、フィルターバンクの各々は、周波数範囲をそれぞれ１／３オクターブの各帯域に区分けする。これは、人間の内耳の中で生起すると想定される音声フィルタリング動作と類似するものである。フィルターバンクの各々から出力される信号がＮ個のサブシグナルによって構成されている事は、図中において太い線を使用することによって図示されている。

図3に示すシステムにおいては、非発話チャネル１０２および１０３内の信号の周波数成分は、ダッキング増幅回路１１７および１１６にそれぞれ入力としてアサートされる。動作中において、ダッキング増幅回路１１７は、乗算器115’から出力される制御信号Ｓ８（これは一連の制御値の系列を表し、従って、制御値の系列Ｓ８とも呼ばれる）によって動作制御される。また、ダッキング増幅回路１１６は、乗算器114’から出力される制御信号Ｓ７（これは一連の制御値の系列を表し、従って、制御値の系列Ｓ７とも呼ばれる）によって動作制御される。図3中の構成要素１３０、１３１、１３２、１３４および１３５は、図１A中においてそれぞれ同一の参照番号を付された構成要素と同一である（そして、同一の機能を実行する）。そして、図3におけるこれらの構成要素に関する説明は、図１Aに関連して述べたこれらの構成要素の説明と同様であるため、省略する。

図3に示す処理過程は一種の側枝処理として理解できる。図3に示す信号経路に沿って説明すると、非発話チャネル１０２に関してバンク３０２において生成されたＮ個のサブシグナルは、ダッキング増幅回路１１７によるＮ個の利得値の集合中の各メンバーにより各々スケーリング処理される。同様に、非発話チャネル１０３に関してバンク３０３において生成されたＮ個のサブシグナルは、ダッキング増幅回路１１６によるＮ個の利得値の集合中の各メンバーにより各々スケーリング処理される。これらの利得値の導出に関しては、以降において説明する。次に、上記のとおりスケーリング処理された複数のサブシグナルは、単一の音声信号に再合成される。この処理は、（チャネル１０２に関しては加算回路３１３を使用し、チャネル１０３に関しては加算回路３１４を使用して）単純な加算により実行される。代替的に、分析的フィルターバンクとの整合がとられる合成的フィルターバンクを使用することも可能である。この処理過程は、修正された非発話信号R’(118)および修正された非発話信号L’(119)を結果として生じさせる。

以下、図3に示す処理過程における信号経路の側枝処理部分について説明する。フィルターバンクの各出力は、Ｎ個の電力推定回路（３０４、３０５および３０６）から成るバンクの対応する一つに対して利用可能とされる。チャネル１０１およびチャネル１０２に関して結果として得られる電力スペクトルは、Ｎ次元の利得ベクトルＣ６を出力として有する最適化回路３０７に対する入力としての役割を持つ。チャネル１０１およびチャネル１０３に関して結果として得られる電力スペクトルは、Ｎ次元の利得ベクトルＣ５を出力として有する最適化回路３０８に対する入力としての役割を持つ。最適化処理は、明瞭度予測回路（３０９および３１０）および音量計算回路（３１１および３１２）の両者を使用する。これらの回路は、チャネル１０１内の発話信号の予測される明瞭度を所定のレベルに維持しながら、非発話チャネルの各々の音量を最大化する利得ベクトルを発見するための回路である。明瞭度を予測するための適切なモデルについては、図2Aを参照しながら既に検討した。音量計算回路３１１および３１２は、設計上の判断と各種のトレードオフに従って、適切な音量予測モデルを実装することが可能である。適切な音量予測モデルの具体例としては、上記の非特許文献４および非特許文献５がある。

利用可能な計算リソースと課される制約条件に応じて、最適化回路（３０７および３０８）の形態と複雑さは大きく異なる可能性がある。本発明の一実施形態に従うならば、Ｎ個の自由パラメータの反復的で、かつ多次元の制約付最適化が使用される。各パラメータは、非発話チャネルの複数の周波数帯域の中の一つに適用される利得を表す。最大値を発見するために、例えば、Ｎ次元の探索空間内で最急勾配法を使用する方法のような標準的な技法を応用することが可能である。本発明に係る他の実施形態においては、より少ない計算量を要求するアプローチは、利得-対-周波数の関数に関して以下の制約を課す。即ち、利得-対-周波数の関数の各々を、複数の異なるスペクトル勾配または棚状フィルターから成る一組のように複数の可能な利得-対-周波数の関数から成る小さな集合の中の各メンバーとしなくてはならない。この制約条件が加わることにより、最適化問題は、少数の一次元最適化問題に簡約化される。本発明に係るさらにもう一つの実施形態においては、複数の可能な利得関数から成る非常に小さな集合の上で、網羅的な探索処理が実行される。この後者のアプローチは、計算負荷と探索速度を一定に保つことが望ましい実時間アプリケーションにおいて特に望ましいだろう。

本発明に係る追加的な実施形態に従うならば、最適化処理に際して課されることが可能な追加的な制約条件があり得ることを当業者は容易に認識するだろう。その一つの具体例は、上記の修正された非発話チャネルの音量が修正処理の前の音量よりも大きくならないように制限することである。もう一つの具体例は、隣接する周波数帯域同士の間の利得の差に上限を課すことである。このようにする目的は、再構成フィルターバンク（３１３および３１４）内における時間的エイリアシングのポテンシャルを制限する、あるいは、音質に好ましくない修正が加わる可能性を低減するためである。望ましい制約条件は、フィルターバンクの技術的な実現方法、および明瞭度の改善と音質の修正との間に生じる選択されたトレードオフの両者に依存して決まる。説明を分かりやすくするために、これらの制約条件は図2Aにおいて省略されている。

本発明に従うならば、ダッキング利得制御信号Ｓ２に応じて、未加工のダッキング利得制御値から成るＮ次元ベクトルをスケーリングする処理は、（構成要素115’内において）ベクトルＣ６中の未加工の利得制御値の各々に対して、信号Ｓ２中の時間平均化されスケーリングされた一連の差分値の中の対応する一つを乗算して、Ｎ次元のダッキング利得制御ベクトルＳ８を生成することにより実行される。本発明に従うならば、ダッキング利得制御信号Ｓ１に応じて、未加工のダッキング利得制御値から成るＮ次元ベクトルをスケーリングする処理は、（構成要素114’内において）ベクトルＣ５中の未加工の利得制御値の各々に対して、信号Ｓ１中の時間平均化されスケーリングされた一連の差分値の中の対応する一つを乗算して、Ｎ次元のダッキング利得制御ベクトルＳ７を生成することにより実行される。

図3に示すシステムは、プロセッサ（例えば、図5に示すプロセッサ５０１）により実行され、図3のシステムに関して上述された動作を実装するようにプログラミングされたソフトウェアとして実現されることが可能である。代替的に、上記システムは、図3に示されるように接続された複数の回路要素によって、ハードウェアとして実現されることが可能である。

図3に示す実施形態の変形実施例においては、本発明に従って、ダッキング利得制御信号Ｓ１に応じて、未加工のダッキング利得制御ベクトルＣ５をスケーリングする（そしてその結果、増幅回路１１６を動作制御するためのダッキング利得制御ベクトルを生成する）処理は、非線形的な態様によって実行することが可能である。例えば、そのような非線形的な態様のスケーリング処理は、（上述した信号Ｓ７に置き換わる代替的信号として）以下のようなダッキング利得制御ベクトルを生成することが可能である。即ち、上記ダッキング利得制御信号は、Ｓ１の電流値が閾値を下回る場合には、増幅回路１１６によるダッキング動作は全く行われない（即ち、増幅回路１１６によって単位利得を適用し、その結果、チャネル１０３の減衰が全くなされない）ようにする。他方、信号Ｓ１の電流値が閾値を上回った場合には、（上述した信号Ｓ７に置き換わる）ダッキング利得制御ベクトルの電流値がベクトルＣ５の電流値と等しくなるようにする（即ち、この場合、信号Ｓ１はＣ５の電流値を修正しない）。代替的に、（本発明に係るダッキング利得制御信号Ｓ１に応じた）ベクトルＣ５に対するその他の線形的または非線形的なスケーリング処理を実行し、その結果、増幅回路１１６を動作制御するためのダッキング利得制御信号を生成することが可能である。例えば、ベクトルＣ５に対するそのようなスケーリング処理は、（上述した信号Ｓ７に置き換わる代替的信号として）以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、Ｓ１の電流値が閾値を下回る場合には、増幅回路１１６によるダッキング動作は全く行われない（即ち、増幅回路１１６によって単位利得を適用する）ようにする。他方、信号Ｓ１の電流値が閾値を上回った場合には、（上述した信号Ｓ７に置き換わる）ダッキング利得制御ベクトルの電流値がベクトルＣ５の電流値に信号Ｓ１の電流値を乗算した値（またはこの乗算による積の値から決定されるその他の何らかの値）と等しくなるようにする。

同様に、図3に示す実施形態の変形実施例においては、本発明に従って、ダッキング利得制御信号Ｓ２に応じて、未加工のダッキング利得制御ベクトルＣ６をスケーリングする（そしてその結果、増幅回路１１７を動作制御するためのダッキング利得制御信号の生成する）処理は、非線形的な態様によって実行することが可能である。例えば、そのような非線形的な態様のスケーリング処理は、（上述した信号Ｓ８に置き換わる代替的信号として）以下のようなダッキング利得制御信号を生成することが可能である。即ち、上記ダッキング利得制御信号は、Ｓ２の電流値が閾値を下回る場合には、増幅回路１１７によるダッキング動作は全く行われない（即ち、増幅回路１１７によって単位利得を適用し、その結果、チャネル１０２の減衰が全くなされない）ようにする。他方、信号Ｓ２の電流値が閾値を上回った場合には、（上述した信号Ｓ８に置き換わる）ダッキング利得制御ベクトルの電流値がベクトルＣ６の電流値と等しくなるようにする（即ち、この場合、信号Ｓ２はＣ６の電流値を修正しない）。代替的に、（本発明に係るダッキング利得制御信号Ｓ２に応じた）ベクトルＣ６に対するその他の線形的または非線形的なスケーリング処理を実行し、その結果、増幅回路１１７を動作制御するためのダッキング利得制御信号を生成することが可能である。例えば、ベクトルＣ６に対するそのようなスケーリング処理は、（上述した信号Ｓ８に置き換わる代替的信号として）以下のようなダッキング利得制御ベクトルを生成することが可能である。即ち、上記ダッキング利得制御ベクトルは、Ｓ２の電流値が閾値を下回る場合には、増幅回路１１７によるダッキング動作は全く行われない（即ち、増幅回路１１７によって単位利得を適用する）ようにする。他方、信号Ｓ２の電流値が閾値を上回った場合には、（上述した信号Ｓ８に置き換わる）ダッキング利得制御ベクトルの電流値がベクトルＣ６の電流値に信号Ｓ２の電流値を乗算した値（またはこの乗算による積の値から決定されるその他の何らかの値）と等しくなるようにする。

図１A、図1B、図2A、図2Bおよび図3に示すシステム（およびこれらの中の何れかの変形実施例）は発話チャネルの他に任意の個数の非発話チャネルを有する多重チャネル音声入力信号をフィルタリングするように修正可能であることは、当業者にとっては、本明細書の開示から明らかであろう。ダッキング増幅回路（あるいは、これと等価な機能を実行するソフトウェア）は、非発話チャネルの各々に関して用意され、ダッキング利得制御信号は、（未加工のダッキング利得制御信号をスケーリングすることによって）これらのダッキング増幅回路（あるいは、これと等価な機能を実行するソフトウェア）の各々を動作制御するために、生成されるだろう。

上述したとおり、図１A、図1B、図2A、図2Bおよび図3に示すシステム（およびこれらシステムの数多くの変形実施例の各々）は、以下において説明する本発明に係る方法の複数の実施形態を実行するように動作可能である。即ち、本発明に係る方法は、一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号をフィルタリングし、当該多重チャネル音声信号から判定される発話内容の明瞭度を改善する方法であって、以下の２つのステップを含む。すなわち、ステップ（ａ）：発話チャネルから判定される「発話に関係する情報内容」と、当該多重チャネル音声信号内の少なくとも一つの非発話チャネルから判定される「発話に関係する情報内容」との間の類似度の尺度を表す少なくとも一つの減衰制御値（例えば、図１A、図1B、図2A、図2Bまたは図3における構成要素１１４と増幅回路１１６内に存する値、または構成要素１１５と増幅回路１１７内に存する値）を決定するステップ、および、ステップ（ｂ）：当該少なくとも一つの減衰制御値（例えば、図１A、図1B、図2A、図2Bまたは図3における構成要素１１４と増幅回路１１６内に存する値、または構成要素１１５と増幅回路１１７内に存する値）に応じて、当該多重チャネル音声信号の少なくとも一つの非発話チャネルを減衰させるステップ、とを含む構成を採る。典型的には、当該減衰させるステップは、当該少なくとも一つの減衰制御値に応じて、当該少なくとも一つの非発話チャネルに関する未加工の減衰制御信号（例えば、図１Aまたは図1B中において信号Ｃ１またはＣ２で表され、図2Aまたは図2B中において信号Ｃ３またはＣ４で表される「ダッキング利得制御信号」など）をスケーリングするステップを備える。好適には、本発明に係る方法では、当該発話チャネルから判定される発話内容の明瞭度を改善するように、当該非発話チャネルが減衰される。そして非発話チャネルに対する上記減衰は、当該非発話チャネルから判定される「発話内容の強化コンテンツ」に対する望ましくない減衰を伴うことが無いように、実行されなくてはならない。上記した第１類型の実施形態の幾つかにおいては、ステップ（ａ）は、一連の減衰制御値から成る単一の系列を表す減衰制御信号（例えば、図１A、３または５において信号Ｓ１またはＳ２として表され、図1Bまたは４において信号Ｖ１、Ｖ２またはＶ３として表されている）を生成するステップを含み、複数の減衰制御値の各々は、発話チャネルから判定される「発話に関係する情報内容」と、当該少なくとも一つの非発話チャネルから判定される「発話に関係する情報内容」との間の互いに異なる時刻における（例えば、異なる時間区間における）類似度の尺度を表す。そして、ステップ（ｂ）は、当該減衰制御信号に応じて、ダッキング利得制御信号（例えば、図１Aまたは図1B中において信号Ｃ１またはＣ２で表され、図2Aまたは図2B中において信号Ｃ３またはＣ４で表される「ダッキング利得制御信号」など）をスケーリングして、スケーリングされた利得制御信号（例えば、図１Aまたは図1Bにおいて信号Ｓ３またはＳ４として表され、図2Aまたは図2Bにおいて信号Ｓ５またはＳ６として表されている）を生成し、当該少なくとも一つの非発話チャネルを減衰させるために、当該スケーリングされた利得制御信号を適用する（例えば、ダッキング処理回路により当該少なくとも一つの非発話チャネルの減衰動作を制御するために、ダッキング処理回路に対して当該スケーリングされた利得制御信号をアサートする等）。例えば、本発明に係る上記のような幾つかの実施形態においては、ステップ（ａ）は、（当該発話チャネルから判定される『発話に関連した情報内容』を表す）「発話に関連した第１の特性値の系列」（例えば、図１Aまたは図2Aにおける信号Ｑ）を（当該少なくとも一つの非発話チャネルから判定される『発話に関連した情報内容』を表す）「発話に関連した第２の特性値の系列」（例えば、図１Aまたは図2Aにおける信号Ｐ）と比較して減衰制御信号を生成する。この時、減衰制御信号によって表される複数の減衰制御値の各々は、「発話に関連した特性値の第１の系列」および「発話に関連した特性値の第２の系列」の両者の間の互いに異なる時刻における（例えば、互いに異なる時間区間における）類似度の尺度を表している。本発明の幾つかの実施形態においては、減衰制御値の各々は、利得制御値である。

上記した第１類型の実施形態の幾つかにおいては、減衰制御値の各々は、音声信号内の少なくとも一つの非発話チャネルが、発話チャネルから判定される発話内容の明瞭度（またはその他の知覚される品質）を高める「発話内容の強化コンテンツ」を表している可能性の高さを表す尤度と単調に関係付けられる。上記した第１類型の実施形態の他の幾つかにおいては、減衰制御値の各々は、当該少なくとも一つの非発話チャネルに関する発話内容の強化度合いの予測される値と単調に関係付けられる（このような強化度合いの予測される値の一例は、当該少なくとも一つの非発話チャネルが「発話内容の強化コンテンツ」を表している確率に、知覚品質の強化の度合いを乗算した尺度などであり、この場合の知覚品質の強化の度合いは、当該少なくとも一つの非発話チャネルから判定された「発話内容の強化コンテンツ」が、多重チャネル音声信号から判定される発話内容に対して与える強化の度合いである）。例えば、ステップ（ａ）が、当該発話チャネルから判定される「発話に関連した情報内容」を表している「発話に関連した特性値の第１の系列」を当該少なくとも一つの非発話チャネルから判定される「発話に関連した情報内容」を表している「発話に関連した特性値の第２の系列」と比較するステップ（例えば、図１Aまたは図2A中の構成要素１３４または１３５において実行される動作）を含むような場合、「発話に関連した第１の特性値の系列」は、一連の発話尤度値の系列とすることが可能である。なお、当該発話尤度値の各々は、異なる時刻において（例えば、異なる時間区間において）、当該発話チャネルが（発話以外の音声コンテンツではなく）発話内容を表している可能性の高さを示す尤度を表す。さらに、「発話に関連した特性値の第２の系列」もまた、一連の発話尤度値の系列とすることが可能である。なお同様に、当該発話尤度値の各々は、異なる時刻において（例えば、異なる時間区間において）、当該少なくとも一つの非発話チャネルが発話内容を表している可能性の高さを示す尤度を表す。

上述したとおり、図１A、図1B、図2A、図2Bおよび図3に示すシステム（およびこれらシステムの数多くの変形実施例の各々）は、以下において説明する本発明に係る方法の第２類型の実施形態を実行するように動作可能である。即ち、本発明に係る方法は、一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号をフィルタリングし、当該多重チャネル音声信号から判定される発話内容の明瞭度を改善する方法であって、以下の２つのステップを含む。ステップ（ａ）：発話チャネルの特性と非発話チャネルの特性を比較して、発話チャネルと比較した場合の非発話チャネルの相対的な減衰率を制御するための少なくとも一つの減衰値（例えば、図１A中における信号Ｃ１またはＣ２から決定される値、図2A中における信号Ｃ３またはＣ４から決定される値、または図3中における信号Ｃ５またはＣ６から決定される値）を生成するステップ。ステップ（ｂ）：少なくとも一つの発話内容強化尤度値（例えば、図１A、図2Aまたは図3中における信号Ｓ１またはＳ２）に応じて当該少なくとも一つの減衰値を調節し、発話チャネルと比較した場合の非発話チャネルの相対的な減衰率を制御するための少なくとも一つの調節された減衰値（例えば、図１A中において信号Ｓ３またはＳ４から決定される値、図2A中において信号Ｓ５またはＳ６から決定される値、または図3中において信号Ｓ７またはＳ８から決定される値）を生成するステップ。典型的には、上記した減衰値を調節するステップは、上記した一つの発話内容強化尤度値に応じて上記した減衰値の各々をスケーリングし（例えば、図１A、図2Aまたは図3中の構成要素１１４または１１５内で実行される動作）、上記した一つの調節された減衰値を生成する。典型的には、発話内容強化尤度値の各々は、非発話チャネル（入力された音声信号の単一の非発話チャネルまたは複数の発話チャネルの組から導出された一つの発話チャネル）が「発話内容の強化コンテンツ（発話チャネルから判定された発話内容の明瞭度またはその他の知覚される品質を高める情報内容）」を表している可能性の高さを示す尤度を表す（例えば、そのような尤度と単調に関係付けされている）。本発明の幾つかの実施形態においては、当該発話内容強化尤度値は、非発話チャネルの発話内容の強化度合いの予測される値を表す（このような予測される値の一例は、非発話チャネルが「発話内容の強化コンテンツ」を表している確率に、知覚品質の強化の度合いを乗算した尺度などであり、この場合の知覚品質の強化の度合いは、非発話チャネルから判定された「発話内容の強化コンテンツ」が、多重チャネル音声信号から判定される発話内容に対して与える強化の度合いである）。上記した実施形態の第３類型における幾つかの実施例では、上記した少なくとも一つの発話内容強化尤度値は、以下の動作を実行するステップを含む方法により決定される一連の比較値（例えば、差分値）から成る単一の系列である。比較値を決定する上記方法は、発話チャネルから判定された「発話に関係する情報内容」を表す「発話内容に関係した特性値の第１の系列」を非発話チャネルから判定された「発話に関係する情報内容」を表す「発話内容に関係した特性値の第２の系列」と比較する。なお、比較値の各々は、「発話内容に関係した特性値の第１の系列」と「発話内容に関係した特性値の第２の系列」との間の互いに異なる時刻（例えば、互いに異なる時間区間）における類似度の尺度である。上記した実施形態の第３類型における典型的な実施例においては、上記の方法はさらに、上記した少なくとも一つの調節された減衰値に応じて、非発話チャネルを減衰するステップ（例えば、図１A、図2Aまたは図3中の増幅回路１１６または１１７内で実行される動作）を含む。ステップ（ｂ）は、上記した少なくとも一つの発話内容強化尤度値（例えば、図１A中における信号Ｓ１またはＳ２から決定される対応する値）に応じて、上記した少なくとも一つの減衰値（例えば、図１Aの信号Ｃ１またはＣ２から判定される減衰値の各々、またはダッキング処理回路によって判定されるその他の減衰値であり、さもなければ、その他の未加工の減衰制御信号である）をスケーリングするステップを備えることが可能である。

上記した第２類型の実施形態を実行する図１Aのシステムの動作中においては、信号Ｃ１またはＣ２によって決定される減衰値の各々は、非発話チャネルの減衰率の大きさを表す第１の係数である。この減衰率の大きさは、発話チャネルにおける信号電力に対する非発話チャネルにおける信号電力の比率が所定の閾値を超えないように制限するのに必要な大きさであり、発話チャネルが発話内容を表している可能性の高さを示す尤度と単調に関係付けられる第２の係数によってスケーリングされる。典型的には、本発明のこれらの実施形態における上記した減衰値を調節するステップは、上記した減衰値の各々Ｃ１またはＣ２を上記した一つの発話内容強化尤度値（信号Ｓ１またはＳ２によって決定される）によりスケーリングし、上記した一つの調節された減衰値（信号Ｓ３またはＳ４によって決定される）を生成する動作を含み、上記した発話内容強化尤度値は、以下の何れか一方と単調に関係付けられる係数である。発話内容強化尤度値が関係付けられる第１のものは、非発話チャネルが「発話内容の強化コンテンツ（発話チャネルから判定された発話内容の明瞭度またはその他の知覚される品質を高める情報内容）」を表している可能性の高さを示す尤度である。発話内容強化尤度値が関係付けられる第２のものは、非発話チャネルの発話内容の強化度合いの予測される値である（このような予測される値の一例は、非発話チャネルが「発話内容の強化コンテンツ」を表している確率に、知覚品質の強化の度合いを乗算した尺度などであり、この場合の知覚品質の強化の度合いは、非発話チャネルから判定された「発話内容の強化コンテンツ」が、多重チャネル音声信号から判定される発話内容に対して与える強化の度合いである）。

上記した第２類型の実施形態を実行する図2Aのシステムの動作中においては、信号Ｃ３またはＣ４によって決定される減衰値の各々は、非発話チャネルの減衰率の大きさ（例えば、最小の大きさ）を表す第１の係数である。この減衰率の大きさは、非発話チャネルから判定された情報内容の存在下で、発話チャネルから判定された発話内容の予測される明瞭度が所定の閾値を超えるようにするのに充分な大きさであり、発話チャネルが発話内容を表している可能性の高さを示す尤度と単調に関係付けられる第２の係数によってスケーリングされる。好適には、非発話チャネルから判定された情報内容の存在下で、発話チャネルから判定された発話内容の予測される明瞭度は、心理聴覚上の明瞭度予測モデルに従って、判定される。典型的には、本発明のこれらの実施形態における上記した減衰率を調節するステップは、上記した減衰値の各々を上記した一つの発話内容強化尤度値（信号Ｓ１またはＳ２によって決定される）によってスケーリングして、上記した一つの調節された減衰値（信号Ｓ５またはＳ６によって決定される）を生成する動作を含み、上記した発話内容強化尤度値は、以下の何れか一方と単調に関係付けられる係数である。その一つは、非発話チャネルが発話内容の強化コンテンツを表している可能性の高さを示す尤度であり、もう一つは、非発話チャネルにおける発話内容の強化の度合いの予測値である。

上記した第２類型の実施形態を実行する図3のシステムの動作中においては、信号Ｃ１またはＣ２によって決定される減衰値の各々は、以下の処理ステップを含む動作を実行することによって決定される。まず、発話チャネル１０１および非発話チャネル１０２および１０３の各々に関する周波数の関数としての電力の分布を表す電力スペクトルを判定するステップを実行する。続いて、上記した減衰値に関する周波数領域判定を実行するステップを実行する。その結果、減衰率が周波数の関数として決定され、この減衰率は、非発話チャネルの複数の周波数成分に対して適用される。

本発明の実施形態の一つの類型においては、本発明は、入力された多重チャネル音声信号から判定された発話内容を強化する方法とシステムに関係する。本発明の幾つかの実施形態においては、本発明に係るシステムは、入力された多重チャネル音声信号を解析して複数の減衰制御値を生成するように構成された解析モジュールすなわち解析サブシステム（例えば、図１A中の構成要素１３０〜１３５、１０４〜１０９、１１４および１１５、あるいは、図1B中の構成要素１３０〜１３５、２０１〜２０４、１１４および１１５）、および減衰処理サブシステム（例えば、図１Aまたは図2A中の増幅回路１１６および１１７）を含む。減衰処理サブシステムは、当該サブシステムに接続され、入力された上記音声信号に関する非発話チャネルの各々に対して減衰処理（ダッキング処理）を適用し、フィルタリングされた音声出力信号を生成するように構成され、上記した複数の減衰制御値の中の少なくとも幾つかにより動作制御されるダッキング処理回路を含む。ダッキング処理回路が上記した複数の制御値によって動作制御されるとは、上記した複数の制御値が表す電流値によって、ダッキング処理回路が非発話チャネルに対して適用する減衰率が決定されるという意味である。

本発明の幾つかの実施形態においては、非発話チャネル（例えば、サイド・チャネルおよび／または後方チャネル）の電力に対する発話チャネル（例えば、中央チャネル）の電力の比率は、非発話チャネルの各々に対してどの程度のダッキング処理（減衰処理）が適用されるべきであるかを決定するために使用される。例えば、図１Aに示す実施形態においては、ダッキング増幅回路１１６および１１７の各々に適用される利得は、（構成要素１１４または構成要素１１５から出力される）利得制御値の減少に応じて低減される。この利得制御値の減少は、解析モジュール内において決定された非発話チャネル（左側チャネル１０２および右側チャネル１０３）の電力と比べた場合の発話チャネルの電力の（数値限定された範囲内での）相対的な減少量を表している（即ち、非発話チャネルの電力と比べて、発話チャネルの電力が（数値限定された範囲内で）相対的に減少する場合、上記の発話チャネルと比べて、ダッキング増幅回路は、非発話チャネルを相対的により大きく減衰させる）。ただし、上記の説明は、発話チャネルから判定される発話内容を強化する「発話内容の強化コンテンツ」を非発話チャネルが含んでいる可能性の高さを示す尤度（例えば、解析モジュール内で決定される尤度）が全く変化しないという前提に基づいている。

本発明に係る代替的な実施形態においては、図１Aまたは図1Bにおける解析モジュールの修正版は、入力された多重チャネル音声信号の各チャネルに対応する一つ以上の周波数サブバンドの各々を個別的に処理する。具体的には、各チャネル内の信号は、バンドパス・フィルターバンクを通過させられることが可能であり、その結果、ｎ個のサブバンドから成る３つの集合｛Ｌ_１、Ｌ_２、…Ｌ_ｎ｝、｛Ｃ_１、Ｃ_２、…、Ｃ_ｎ｝および｛Ｒ_１、Ｒ_２、…、Ｒ_ｎ｝が生成される。互いに対応するサブバンドは、図１A（または図1B）に示す解析モジュールのｎ個のインスタンスへと渡され、フィルタリング処理されたサブシグナル（複数の非発話チャネルに関する複数のダッキング増幅回路の複数の出力、およびフィルタリング処理されていない発話チャネルのサブシグナル）は加算回路によって再合成され、フィルタリング済みの多重チャネル音声出力信号が生成される。各サブバンドの上で、図１A中の構成要素１０９によって実行されるべき処理動作を実行するために、各サブバンドについて、別々の閾値Θ_ｎ（構成要素１０９内の閾値Θに対応する）が選択されることが可能である。Θ_ｎが対応する周波数区域内において伝達される発話内容のキュー部分の平均個数に比例するように設定することは、好適な選択肢である。これは即ち、周波数スペクトルの両端における帯域が、発話に関する支配的な周波数成分に対応する帯域よりも低い閾値を割り当てられているような場合である。本発明のこのような実装形態は、計算の複雑さと処理性能との間の非常に良好なトレードオフ関係を提案することができる。

図4は、本発明に係る方法の一実施形態を実行するように構成されたシステム４２０（設定可能な音声処理向けのＤＳＰ）を図示するブロック図である。システム４２０は、入力された多重チャネル音声信号を受信するように接続されているプログラミング可能なＤＳＰ回路４２２（システム４２０中のアクティブな発話内容強化モジュール）を含む。例えば、上記多重チャネル音声信号内の非発話チャネルＬｉｎ（左側入力）およびＲｉｎ（右側入力）は、図１A、図1B、図2A、図2Bおよび図3を参照しながら上述した入力音声信号内のチャネル１０２および１０３に対応する。さらに、当該入力音声信号は、追加的な非発話チャネル（例えば、左後方チャネルおよび右後方チャネル）を含むことが可能である。そして、当該音声信号の発話チャネルＣｉｎは、図１A、図1B、図2A、図2Bおよび図3を参照しながら上述した入力音声信号内のチャネル１０１に対応する。回路４２２は、制御インターフェース４２１からの制御データに応じて、本発明に係る方法の一実施形態を実行し、その結果、発話内容が強化された多重チャネル音声の出力信号を、音声入力信号に応じる形で生成する。システム４２０をプログラミングするために、外部の処理装置から制御インターフェースに対して適切なソフトウェアがアサートされ、それに応じて、制御インターフェース４２１は回路４２２に対して適切な制御データをアサートし、その結果、回路４２２は、本発明に係る方法を実行するように設定される。

動作中において、本発明に従う発話内容の強化処理を実行するように構成された音声処理向けＤＳＰ（例えば、図4中のシステム４２０）は、Ｎ重チャネルの音声入力信号を受信するように接続され、上記ＤＳＰは、典型的には、発話内容の強化処理に加えて、入力された音声（または、この音声をさらに処理した内容）に対して様々な演算を実行する。例えば、図4中のシステム４２０は、プロセッサ・サブシステム４２３内において（回路４２２からの出力信号に対して）他の演算を実行するように実装することが可能である。本発明に係る様々な実施形態に従うならば、入力された音声信号に対して本発明に係る方法を実行することにより、入力された音声信号に応じた出力音声信号を生成するように音声処理向けＤＳＰが構成された（プログラミングされた）後には、当該ＤＳＰは、本発明に係る方法の一実施形態を実行するように動作することが可能となる。

本発明に係る幾つかの実施形態においては、本発明に係るシステムは、多重チャネル音声信号を表す入力データを受信するように接続され、またはそのような入力データを自ら生成する汎用プロセッサを含む。当該プロセッサは、ソフトウェア（またはファームウェア）によってプログラミングされ、さもなければ、（例えば、制御データに応じて）本発明に係る方法の一実施形態を含む多種多様な演算処理の何れかを当該入力データに対して実行するように構成される。図5に示すコンピュータ・システムは、そのようなシステムの一例である。図5に示すシステムは、本発明に係る方法の一実施形態を含む多種多様な演算処理の何れかを当該入力データに対して実行するようにプログラミングされた汎用プロセッサ５０１を含む。

図5に示すコンピュータ・システムは、プロセッサ５０１に接続された入力装置５０３（例えば、マウスやキーボード等）、プロセッサ５０１に接続された記憶媒体５０４、プロセッサ５０１に接続されたディスプレイ装置５０５をさらに含む。プロセッサ５０１は、入力装置５０３を使用したユーザによる手操作入力により入力された命令とデータに応じて、本発明に係る方法を実装するようにプログラミングされる。コンピュータ読み出し可能記録媒体５０４（例えば、光ディスクまたは他の有形物）は、その上に記憶されたコンピュータ・コードを有し、それは、本発明に係る方法の一実施形態を実行するようにプロセッサ５０１をプログラミングするのに適している。動作中において、プロセッサ５０１は、本発明に従って多重チャネル音声信号を表すデータを処理し、多重チャネル音声の出力信号を表す出力データを生成するコンピュータ・コードを実行する。

図１A、図1B、図2A、図2Bおよび図3に関連して上述したシステムは、汎用プロセッサ５０１によって実装することが可能であり、入力信号チャネル１０１、１０２および１０３は、（サラウンド・ステレオ型の音響信号における）中央（発話）および左側と右側（非発話）の音声入力チャネルを表すデータに相当する。さらに、出力信号チャネル１１８および１１９は、（発話内容が強化されたサラウンド・ステレオ型の音響信号における）発話内容が強調された左側と右側の音声出力チャネルを表すデータに相当する。従来型のデジタル／アナログ変換回路（ＤＡＣ）は、上記の出力データに対して演算処理を実行し、物理的スピーカ装置による音声再生のために、出力音声チャネル信号のアナログ形式信号を生成することが可能である。

本発明の複数の実装態様は、本発明に係る方法の任意の実施形態を実行するようにプログラミングされたコンピュータ・システム、および本発明に係る方法の任意の実施形態を実装するコンピュータ読み出し可能コードを記憶したコンピュータ読み取り可能記録媒体である。

本明細書中において、本発明の具体的な複数の実施形態と本発明の複数の応用例が記述されたが、本明細書中で説明され、特許請求された発明の技術的範囲から逸脱することなく、本明細書中に記載された複数の実施形態と応用例に関する多種多様な変形実施例が当業者には直ちに明らかであろう。本明細書中において、本発明の特定の形態が示され、説明されたけれども、本発明は、本明細書中で説明され、示された具体的な実施例や具体的な方法だけに限定されるものではないことが理解される。

Claims

一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号をフィルタリングし、当該多重チャネル音声信号から判定される発話内容の明瞭度を改善する方法であって、
（ａ）：前記発話チャネルから判定される発話に関係する情報内容と、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す少なくとも一つの減衰制御値を決定するステップ、および、
（ｂ）：前記少なくとも一つの減衰制御値に応じて、前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルを減衰させるステップ、
を備える方法。
前記決定するステップにおいて決定される前記減衰制御値の各々は、発話チャネルから判定される発話に関係する情報内容と、当該多重チャネル音声信号内の少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表し、
前記減衰させるステップは、前記少なくとも一つの減衰制御値に応じて、前記少なくとも一つの非発話チャネルを減衰させるステップを含む、請求項１記載の方法。
前記決定するステップは、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルから、一つの導出された非発話チャネルを導出するステップを含み、
前記少なくとも一つの減衰制御値は、発話チャネルから判定される発話に関係する情報内容と、前記導出された非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す、請求項１記載の方法。
前記導出された非発話チャネルは、前記多重チャネル音声信号の第１の非発話チャネルと、前記多重チャネル音声信号の第２の非発話チャネルとを合成することによって導出される、請求項３記載の方法。
前記多重チャネル音声信号は、少なくとも２つの非発話チャネルを有し、前記減衰させるステップは、前記少なくとも一つの減衰制御値に応じて、全てではないが幾つかの前記非発話チャネルを減衰させるステップを含む、請求項３記載の方法。
前記多重チャネル音声信号は、少なくとも２つの非発話チャネルを有し、前記減衰させるステップは、前記少なくとも一つの減衰制御値に応じて、全ての前記非発話チャネルを減衰させるステップを含む、請求項３記載の方法。
前記減衰させるステップは、前記少なくとも一つの減衰制御値に応じて、前記非発話チャネルに関する未加工の減衰制御信号をスケーリングするステップを備える、請求項１記載の方法。
前記決定するステップは、一連の減衰制御値から成る単一の系列を表す減衰制御信号を生成するステップを含み、複数の減衰制御値の各々は、発話チャネルから判定される発話に関係する情報内容と、前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の互いに異なる時刻における類似度の尺度を表し、前記減衰させるステップは、
前記減衰制御信号に応じて、ダッキング利得制御信号をスケーリングして、スケーリングされた利得制御信号を生成するステップ；および、
前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルを減衰させるために、前記スケーリングされた利得制御信号を適用するステップ、
を備える、請求項１記載の方法。
前記決定するステップは、前記発話チャネルから判定される発話に関連した情報内容を表す発話に関連した第１の特性値の系列を、前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルから判定される発話に関連した情報内容を表す発話に関連した第２の特性値の系列と比較して、減衰制御信号を生成するステップを備え、
前記減衰制御信号によって表される複数の減衰制御値の各々は、前記発話に関連した特性値の第１の系列および前記発話に関連した特性値の第２の系列の両者の間の互いに異なる時刻における類似度の尺度を表す、請求項８記載の方法。
前記減衰制御値の各々は、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルが、前記発話チャネルから判定される発話内容の知覚される品質を高める発話内容の強化コンテンツを表している可能性の高さを表す尤度と単調に関係付けられる、請求項１記載の方法。
一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号をフィルタリングし、当該多重チャネル音声信号から判定される発話内容の明瞭度を改善する方法であって、
（ａ）：前記発話チャネルから判定される発話に関係する情報内容と、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す少なくとも一つの減衰制御値を決定するステップ、および、
（ｂ）：前記少なくとも一つの減衰制御値に応じて、前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルを減衰させるステップ、
を備える方法。
前記減衰させるステップは、前記少なくとも一つの減衰制御値に応じて、前記非発話チャネルに関する未加工の減衰制御信号をスケーリングするステップを備える、請求項１１記載の方法。
前記決定するステップは、一連の減衰制御値から成る単一の系列を表す減衰制御信号を生成するステップを含み、複数の減衰制御値の各々は、発話チャネルから判定される発話に関係する情報内容と、前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の互いに異なる時刻における類似度の尺度を表し、前記減衰させるステップは、
前記減衰制御信号に応じて、ダッキング利得制御信号をスケーリングして、スケーリングされた利得制御信号を生成するステップ；および、
前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルを減衰させるために、前記スケーリングされた利得制御信号を適用するステップ、
を備える、請求項１１記載の方法。
前記決定するステップは、前記発話チャネルから判定される発話に関連した情報内容を表す発話に関連した特性値の第１の系列を、前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルから判定される発話に関連した情報内容を表す発話に関連した特性値の第２の系列と比較して、減衰制御信号を生成するステップを備え、
前記減衰制御信号によって表される複数の減衰制御値の各々は、前記発話に関連した特性値の第１の系列および前記発話に関連した特性値の第２の系列の両者の間の互いに異なる時刻における類似度の尺度を表す、請求項１３記載の方法。
前記発話に関連した特性値の第１の系列は、一連の発話尤度値から成る系列であり、前記発話尤度値の各々は、異なる時刻において、前記発話チャネルが発話内容を表している可能性の高さを示す尤度を表し、
前記発話に関連した特性値の第２の系列は、一連の発話尤度値から成るもう一つの系列であり、前記発話尤度値の各々は、異なる時刻において、前記少なくとも一つの非発話チャネルが発話内容を表している可能性の高さを示す尤度を表す、請求項１４記載の方法。
前記減衰制御値の各々は、利得制御値である、請求項１３記載の方法。
前記減衰制御値の各々は、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルが、前記発話チャネルから判定される発話内容の知覚される品質を高める発話内容の強化コンテンツを表している可能性の高さを表す尤度と単調に関係付けられる、請求項１１記載の方法。
一つの発話チャネルおよび少なくとも２つの非発話チャネルを有する多重チャネル音声信号をフィルタリングする方法であって、
（ａ）：前記発話チャネルから判定される発話に関係する第１の情報内容と、前記多重チャネル音声信号内の第１の非発話チャネルから判定される発話に関係する第２の情報内容との間の類似度の尺度を表す少なくとも一つの第１の減衰制御値を決定するステップ；および、
（ｂ）：前記発話チャネルから判定される発話に関係する前記第１の情報内容と、前記多重チャネル音声信号内の第２の非発話チャネルから判定される発話に関係する第３の情報内容との間の類似度の尺度を表す少なくとも一つの第２の減衰制御値を決定するステップ、
を備える方法。
前記第１の減衰制御値を決定するステップは、前記発話チャネルから判定される発話に関係する前記第１の情報内容を表す発話に関係する特性値の第１の系列を発話に関係する第２の情報内容を表す発話に関係する特性値の第２の系列と比較するステップを含み、
前記第２の減衰制御値を決定するステップは、前記発話に関係する特性値の第１の系列を前記発話に関係する第３の情報内容を表す発話に関係する特性値の第３の系列と比較するステップを含む、請求項１８記載の方法。
前記少なくとも一つの第１の減衰制御値に応じて、前記第１の非発話チャネルを減衰するステップ；および、
前記少なくとも一つの第２の減衰制御値に応じて、前記第２の非発話チャネルを減衰するステップ、
をさらに備えた請求項１８記載の方法。
前記第１の非発話チャネルを減衰するステップは、前記少なくとも一つの第１の減衰制御値に応じて、第１の非発話チャネルの減衰率をスケーリングするステップを含み、
前記第２の非発話チャネルを減衰するステップは、前記少なくとも一つの第２の減衰制御値に応じて、第２の非発話チャネルの減衰率をスケーリングするステップを含む、請求項２０記載の方法。
前記第１の減衰制御値を決定するステップにおいて決定された前記少なくとも一つの第１の減衰制御値は、一連の減衰制御値から成る単一の系列であり、当該減衰制御値の各々は、第１の非発話チャネルに対して適用されるダッキング利得の大きさをスケーリングする利得制御値であり、前記利得制御値の前記適用は、前記発話チャネルから判定される発話内容の明瞭度を改善すると同時に、前記第１の非発話チャネルから判定される発話内容の強化コンテンツに対する望ましくない減衰を生じないように実行され、
前記第２の減衰制御値を決定するステップにおいて決定された前記少なくとも一つの第２の減衰制御値は、一連の第２の減衰制御値から成る単一の系列であり、当該第２の減衰制御値の各々は、第２の非発話チャネルに対して適用されるダッキング利得の大きさをスケーリングする利得制御値であり、前記利得制御値の前記適用は、前記発話チャネルから判定される発話内容の明瞭度を改善すると同時に、前記第２の非発話チャネルから判定される発話内容の強化コンテンツに対する望ましくない減衰を生じないように実行される、請求項１８記載の方法。
一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号をフィルタリングし、前記多重チャネル音声信号から判定される発話内容の明瞭度を改善する方法であって、
（ａ）：前記発話チャネルの特性と前記非発話チャネルの特性とを比較して、前記発話チャネルと比較した場合の前記非発話チャネルの相対的な減衰率を制御するための少なくとも一つの減衰値を生成するステップ；および、
（ｂ）：少なくとも一つの発話内容強化尤度値に応じて前記少なくとも一つの減衰値を調節し、前記発話チャネルと比較した場合の前記非発話チャネルの相対的な減衰率を制御するための少なくとも一つの調節された減衰値を生成するステップ、
を備える方法。
前記調節された減衰値を生成するステップは、一つの前記発話内容強化尤度値に応じて前記減衰値の各々をスケーリングし、一つの前記調節された減衰値を生成するステップを含む、請求項２３記載の方法。
発話内容強化尤度値の各々は、非発話チャネルが発話チャネルから判定された発話内容の知覚される品質を高める発話内容の強化コンテンツを表している可能性の高さを示す尤度と単調に関係付けされている、請求項２３記載の方法。
前記少なくとも一つの発話内容強化尤度値は、一連の比較値から成る単一の系列であり、
前記発話チャネルから判定された発話に関係する情報内容を表す発話内容に関係した特性値の第１の系列を非発話チャネルから判定された発話に関係する情報内容を表す発話内容に関係した特性値の第２の系列と比較することにより、一連の比較値から成る単一の系列を決定するステップを含む、請求項２３記載の方法であって、
比較値の各々は、前記発話内容に関係した特性値の第１の系列と前記発話内容に関係した特性値の第２の系列との間の互いに異なる時刻における類似度の尺度である、方法。
前記少なくとも一つの調節された減衰値に応じて、前記非発話チャネルを減衰するステップをさらに含む、請求項２３記載の方法。
前記調節された減衰値を生成するステップは、一つの前記発話内容強化尤度値に応じて前記減衰値の各々をスケーリングし、一つの前記調節された減衰値を生成するステップを含む、請求項２３記載の方法。
前記少なくとも一つの減衰値を生成するステップにおいて生成された前記減衰値の各々は、前記非発話チャネルの減衰率の大きさを表す第１の係数であり、
前記減衰率の大きさは、前記発話チャネルにおける信号電力に対する前記非発話チャネルにおける信号電力の比率が所定の閾値を超えないように制限するのに必要な大きさであり、発話チャネルが発話内容を表している可能性の高さを示す尤度と単調に関係付けられる第２の係数によってスケーリングされる、請求項２３記載の方法。
前記少なくとも一つの減衰値を生成するステップにおいて生成された前記減衰値の各々は、前記非発話チャネルの減衰率の大きさを表す第１の係数であり、
前記減衰率の大きさは、前記非発話チャネルから判定された情報内容の存在下で、前記発話チャネルから判定された発話内容の予測される明瞭度が所定の閾値を超えるようにするのに充分な大きさであり、前記発話チャネルが発話内容を表している可能性の高さを示す尤度と単調に関係付けられる第２の係数によってスケーリングされる、請求項２３記載の方法。
前記少なくとも一つの減衰値を生成するステップにおいて、前記減衰値の各々を生成する動作は、
前記発話チャネルの周波数の関数としての電力分布を表す第１の電力スペクトル、および前記非発話チャネルの周波数の関数としての電力分布を表す第２の電力スペクトルを決定するステップ；および、
前記第１の電力スペクトルおよび前記第２の電力スペクトルに応じて、前記減衰値の周波数領域判定を実行するステップ、
を備える、請求項２３記載の方法。
一つの発話チャネルと少なくとも一つの非発話チャネルを有する入力された多重チャネル音声信号から判定された発話内容を強化するシステムであって、
入力された多重チャネル音声信号を解析して複数の減衰制御値を生成するように構成された解析サブシステムであって、前記複数の減衰制御値の各々は、前記発話チャネルから判定される発話に関係する情報内容と、前記入力された多重チャネル音声信号内の前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す、解析サブシステム；および、
前記複数の減衰制御値の中の少なくとも幾つかによる動作制御の下で、前記入力された多重チャネル音声信号に関する前記非発話チャネルの各々に対してダッキング減衰処理を適用し、フィルタリングされた音声出力信号を生成するように構成されている減衰処理サブシステム、
を備えるシステム。
前記減衰処理サブシステムは、前記複数の減衰制御値の中の少なくとも一部を含む集合に応じて前記少なくとも一つの非発話チャネルに関する未加工の減衰制御値をスケーリングするように構成されている、請求項３２記載のシステム。
前記解析サブシステムは、一連の減衰制御値から成る単一の系列を表す減衰制御信号を生成するように構成され、
複数の減衰制御値の各々は、発話チャネルから判定される発話に関係する情報内容と、前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の互いに異なる時刻における類似度の尺度を表し、
前記減衰処理サブシステムは、
前記減衰制御信号に応じて、ダッキング利得制御信号をスケーリングして、スケーリングされた利得制御信号を生成し、
前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルを減衰させるために、前記スケーリングされた利得制御信号を適用するように構成された、
請求項３２記載のシステム。
前記解析サブシステムは、前記発話チャネルから判定される発話に関連した情報内容を表す発話に関連した特性値の第１の系列を、前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルから判定される発話に関連した情報内容を表す発話に関連した特性値の第２の系列と比較して、減衰制御信号を生成するように構成され、
前記減衰制御信号によって表される複数の減衰制御値の各々は、互いに異なる時刻における前記発話に関連した特性値の第１の系列および前記発話に関連した特性値の第２の系列の両者の間の類似度の尺度を表す、請求項３４記載のシステム。
前記発話に関連した特性値の第１の系列は、一連の発話尤度値から成る系列であり、前記発話尤度値の各々は、異なる時刻において、前記発話チャネルが発話内容を表している可能性の高さを示す尤度を表し、
前記発話に関連した特性値の第２の系列は、一連の発話尤度値から成るもう一つの系列であり、前記発話尤度値の各々は、異なる時刻において、前記少なくとも一つの非発話チャネルが発話内容を表している可能性の高さを示す尤度を表す、請求項３５記載のシステム。
前記システムは、前記入力された多重チャネル音声信号を解析して前記複数の減衰制御値を生成する解析ソフトウェアによってプログラミングされたプロセッサを含む、請求項３２記載のシステム。
前記システムは、前記非発話チャネルの各々に対して前記ダッキング減衰処理を適用し、前記フィルタリングされた音声出力信号を生成する減衰処理ソフトウェアによってプログラミングされたプロセッサを含む、請求項３２記載のシステム。
前記システムは、前記入力された多重チャネル音声信号を解析して前記複数の減衰制御値を生成し、前記非発話チャネルの各々に対して前記ダッキング減衰処理を適用し、前記フィルタリングされた音声出力信号を生成するように構成されたプロセッサを含む、請求項３２記載のシステム。
前記システムは、前記入力された多重チャネル音声信号を解析して前記複数の減衰制御値を生成し、前記非発話チャネルの各々に対して前記ダッキング減衰処理を適用し、前記フィルタリングされた音声出力信号を生成するように構成されているデジタル信号プロセッサである、請求項３２記載のシステム。
前記システムは、前記解析サブシステムを実装するように構成された第１の回路、および前記第１の回路と接続され、前記減衰処理サブシステムを実装するように構成された追加の回路を含む、請求項３２記載のシステム。
前記システムは、前記解析サブシステムを実装するように構成された第１の回路、および前記第１の回路と接続され、前記減衰処理サブシステムを実装するように構成された追加の回路を含む音声処理向けデジタル信号プロセッサである、請求項３２記載のシステム。
前記システムは、前記解析サブシステムと前記減衰処理サブシステムとを実装するように構成されたデータ処理システムである、請求項３２記載のシステム。
一つの発話チャネルと少なくとも一つの非発話チャネルを有する入力された多重チャネル音声信号から判定された発話内容を強化するシステムであって、
入力された多重チャネル音声信号を解析して複数の減衰制御値を生成するように構成された解析サブシステムであって、前記複数の減衰制御値の各々は、前記発話チャネルから判定される発話に関係する情報内容と、前記入力された多重チャネル音声信号内の前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す、解析サブシステム；および、
前記複数の減衰制御値の中の少なくとも幾つかによる動作制御の下で、前記入力された多重チャネル音声信号に関する前記非発話チャネルの各々に対してダッキング減衰処理を適用し、フィルタリングされた音声出力信号を生成するように構成されている減衰処理サブシステム、
を備えるシステム。
前記解析サブシステムは、複数の減衰制御値の各々を生成するように構成され、複数の減衰制御値の各々は、発話チャネルから判定される発話に関係する情報内容と、前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表し、
前記減衰処理サブシステムは、前記複数の減衰制御値に応じて、前記少なくとも一つの非発話チャネルに対して、ダッキング減衰処理を適用するように構成された、
請求項４４記載のシステム。
前記解析サブシステムは、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルから、一つの導出された非発話チャネルを導出して、前記少なくとも幾つかの減衰制御値の各々を生成するように構成され、
前記減衰制御値の各々は、発話チャネルから判定される発話に関係する情報内容と、前記導出された非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す、
請求項４４記載のシステム。
プロセッサにより実行されるプログラムを含むコンピュータ可読記録媒体であって、前記プログラムは、多重チャネル音声信号から判定される発話内容の明瞭度を改善するために、一つの発話チャネルと少なくとも一つの非発話チャネルを有する前記多重チャネル音声信号を表すデータを処理する動作を前記プロセッサに実行させるステップとして：
（ａ）：前記発話チャネルから判定される発話に関係する情報内容と、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す少なくとも一つの減衰制御値を決定する動作を前記プロセッサに実行させるステップ、および、
（ｂ）：前記少なくとも一つの減衰制御値に応じて、前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルを減衰させる動作を前記プロセッサに実行させるステップ、
を含むことを特徴とする、コンピュータ可読記録媒体。
前記少なくとも一つの減衰制御値に応じて、前記非発話チャネルに関する未加工の減衰制御信号をスケーリングする動作を前記プロセッサに実行させるステップを前記プログラムが含んでいる、請求項４７記載のコンピュータ可読記録媒体。
前記減衰制御値に応じて、ダッキング利得制御信号をスケーリングして、スケーリングされた利得制御信号を生成する動作を前記プロセッサに実行させるステップであって、複数の前記減衰制御値の各々は、発話チャネルから判定される発話に関係する情報内容と、前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の互いに異なる時刻における類似度の尺度を表す、ステップ；および、
前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルを減衰させるために、前記スケーリングされた利得制御信号を適用する動作を前記プロセッサに実行させるステップ、
を前記プログラムが含んでいる、請求項４７記載のコンピュータ可読記録媒体。
前記発話チャネルから判定される発話に関連した情報内容を表す発話に関連した特性値の第１の系列を、前記多重チャネル音声信号の前記少なくとも一つの非発話チャネルから判定される発話に関連した情報内容を表す発話に関連した特性値の第２の系列と比較して、減衰制御信号を生成する動作を前記プロセッサに実行させるステップを前記プログラムが含んでいる、請求項４９記載のコンピュータ可読記録媒体であって、
前記減衰制御信号によって表される複数の減衰制御値の各々は、前記発話に関連した特性値の第１の系列および前記発話に関連した特性値の第２の系列の両者の間の互いに異なる時刻における類似度の尺度を表す、コンピュータ可読記録媒体。
前記発話に関連した特性値の第１の系列は、一連の発話尤度値から成る系列であり、前記発話尤度値の各々は、異なる時刻において、前記発話チャネルが発話内容を表している可能性の高さを示す尤度を表し、
前記発話に関連した特性値の第２の系列は、一連の発話尤度値から成るもう一つの系列であり、前記発話尤度値の各々は、異なる時刻において、前記少なくとも一つの非発話チャネルが発話内容を表している可能性の高さを示す尤度を表す、請求項４９記載のコンピュータ可読記録媒体。
前記減衰制御値の各々は、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルが、前記発話チャネルから判定される発話内容の知覚される品質を高める発話内容の強化コンテンツを表している可能性の高さを表す尤度と単調に関係付けられる、請求項４７記載のコンピュータ可読記録媒体。
プロセッサにより実行されるプログラムを含むコンピュータ可読記録媒体であって、前記プログラムは、一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号を表すデータを処理する動作を前記プロセッサに実行させるステップとして：
（ａ）：前記発話チャネルから判定される発話に関係する第１の情報内容と、前記多重チャネル音声信号内の第１の非発話チャネルから判定される発話に関係する第２の情報内容との間の類似度の尺度を表す少なくとも一つの第１の減衰制御値を決定する動作を前記プロセッサに実行させるステップ；および、
（ｂ）：前記発話チャネルから判定される発話に関係する前記第１の情報内容と、前記多重チャネル音声信号内の第２の非発話チャネルから判定される発話に関係する第３の情報内容との間の類似度の尺度を表す少なくとも一つの第２の減衰制御値を決定する動作を前記プロセッサに実行させるステップ、
を含むことを特徴とする、コンピュータ可読記録媒体。
前記発話チャネルから判定される発話に関係する前記第１の情報内容を表す発話に関係する特性値の第１の系列を発話に関係する第２の情報内容を表す発話に関係する特性値の第２の系列と比較する動作を前記プロセッサに実行させるステップ；および、
前記第２の減衰制御値を決定するステップは、前記発話に関係する特性値の第１の系列を前記発話に関係する第３の情報内容を表す発話に関係する特性値の第３の系列と比較する動作を前記プロセッサに実行させるステップ、
を前記プログラムが含んでいる、請求項５３記載のコンピュータ可読記録媒体。
前記少なくとも一つの第１の減衰制御値に応じて、少なくとも一つの前記第１の非発話チャネルを減衰するステップ；および、前記少なくとも一つの第２の減衰制御値に応じて、前記第２の非発話チャネルを減衰する動作を前記プロセッサに実行させるステップ、
を前記プログラムが含んでいる、請求項５３記載のコンピュータ可読記録媒体。
前記少なくとも一つの第１の減衰制御値は、一連の減衰制御値から成る単一の系列であり、
前記第１の非発話チャネルに対して適用されるダッキング利得の大きさをスケーリングする動作を前記プロセッサに実行させるステップを前記プログラムが含んでいる、請求項５３記載のコンピュータ可読記録媒体であって、前記利得の前記適用は、前記発話チャネルから判定される発話内容の明瞭度を改善すると同時に、前記第１の非発話チャネルから判定される発話内容の強化コンテンツに対する望ましくない減衰を生じないように実行される、コンピュータ可読記録媒体。
プロセッサにより実行されるプログラムを含むコンピュータ可読記録媒体であって、前記プログラムは、一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号を表すデータを処理する動作を前記プロセッサに実行させるステップとして：
（ａ）：前記発話チャネルの特性と前記非発話チャネルの特性とを比較して、前記発話チャネルと比較した場合の前記非発話チャネルの相対的な減衰率を制御するための少なくとも一つの減衰値を生成する動作を前記プロセッサに実行させるステップ；および、
（ｂ）：少なくとも一つの発話内容強化尤度値に応じて前記少なくとも一つの減衰値を調節し、前記発話チャネルと比較した場合の前記非発話チャネルの相対的な減衰率を制御するための少なくとも一つの調節された減衰値を生成する動作を前記プロセッサに実行させるステップ、
を含むことを特徴とする、コンピュータ可読記録媒体。
一つの前記発話内容強化尤度値に応じて前記減衰値の各々をスケーリングし、一つの前記調節された減衰値を生成する動作を前記プロセッサに実行させるステップを前記プログラムが含んでいる、請求項５７記載のコンピュータ可読記録媒体。
前記発話内容強化尤度値の各々は、非発話チャネルが発話チャネルから判定された発話内容の知覚される品質を高める発話内容の強化コンテンツを表している可能性の高さを示す尤度と単調に関係付けされている、請求項５７記載のコンピュータ可読記録媒体。
前記少なくとも一つの発話内容強化尤度値は、一連の比較値から成る単一の系列であり、
前記発話チャネルから判定された発話に関係する情報内容を表す発話内容に関係した特性値の第１の系列を非発話チャネルから判定された発話に関係する情報内容を表す発話内容に関係した特性値の第２の系列と比較することにより、一連の比較値から成る単一の系列を決定する動作を前記プロセッサに実行させるステップを前記プログラムが含んでいる、請求項５７記載のコンピュータ可読記録媒体であって、
比較値の各々は、前記発話内容に関係した特性値の第１の系列と前記発話内容に関係した特性値の第２の系列との間の互いに異なる時刻における類似度の尺度である、コンピュータ可読記録媒体。
前記減衰値の各々は、前記非発話チャネルの減衰率の大きさを表す第１の係数であり、
前記減衰率の大きさは、前記発話チャネルにおける信号電力に対する前記非発話チャネルにおける信号電力の比率が所定の閾値を超えないように制限するのに必要な大きさであり、発話チャネルが発話内容を表している可能性の高さを示す尤度と単調に関係付けられる第２の係数によってスケーリングされる、請求項５７記載のコンピュータ可読記録媒体。
前記減衰値の各々は、前記非発話チャネルの減衰率の大きさを表す第１の係数であり、
前記減衰率の大きさは、前記非発話チャネルから判定された情報内容の存在下で、前記発話チャネルから判定された発話内容の予測される明瞭度が所定の閾値を超えるようにするのに充分な大きさであり、前記発話チャネルが発話内容を表している可能性の高さを示す尤度と単調に関係付けられる第２の係数によってスケーリングされる、請求項５７記載のコンピュータ可読記録媒体。
前記発話チャネルの周波数の関数としての電力分布を表す第１の電力スペクトル、および前記非発話チャネルの周波数の関数としての電力分布を表す第２の電力スペクトルを決定する動作を前記プロセッサに実行させるステップ；および、
前記第１の電力スペクトルおよび前記第２の電力スペクトルに応じて、前記減衰値の周波数領域判定を前記プロセッサに実行させるステップ、
を前記プログラムが含んでいる、請求項５７記載のコンピュータ可読記録媒体。
プロセッサにより実行されるプログラムを含むコンピュータ可読記録媒体であって、前記プログラムは、一つの発話チャネルと少なくとも一つの非発話チャネルを有する多重チャネル音声信号を表すデータを処理する動作を前記プロセッサに実行させるステップとして：
前記発話チャネルから判定される発話に関係する情報内容と、前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す少なくとも一つの減衰制御値を決定するステップ；および、
前記少なくとも一つの減衰制御値に応じて、前記多重チャネル音声信号中の少なくとも一つの減衰された非発話チャネルを表すデータを生成するステップであって、前記少なくとも一つの減衰された非発話チャネルの各々は、前記少なくとも一つの減衰制御値に応じた減衰過程を経て伝わる、ステップ、
を含むことを特徴とするコンピュータ可読記録媒体。
前記減衰制御値の各々は、前記発話チャネルから判定される発話に関係する情報内容と、前記多重チャネル音声信号内の一つの前記非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表す、請求項６４記載のコンピュータ可読記録媒体。
前記多重チャネル音声信号を表すデータをさらに処理する動作を前記プロセッサに実行させるステップとして：
前記多重チャネル音声信号内の前記少なくとも一つの非発話チャネルからの導出された非発話チャネルを表すデータを生成し、前記少なくとも一つの減衰制御値を決定する動作を前記プロセッサに実行させるステップ；を前記プログラムがさらに含んでおり、
前記少なくとも一つの減衰制御値は、発話チャネルから判定される発話に関係する情報内容と、前記導出された非発話チャネルから判定される発話に関係する情報内容との間の類似度の尺度を表すことを特徴とする、請求項６４記載のコンピュータ可読記録媒体。