JP2011518520A

JP2011518520A - サラウンド体験に対する影響を最小限にしてマルチチャンネルオーディオにおけるスピーチの聴覚性を維持するための方法及び装置

Info

Publication number: JP2011518520A
Application number: JP2011505219A
Authority: JP
Inventors: ミュシュ、ハンネス
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2008-04-18
Filing date: 2009-04-17
Publication date: 2011-06-23
Anticipated expiration: 2029-04-17
Also published as: WO2010011377A2; BRPI0923669A2; CA2745842C; EP2373067A1; BRPI0911456B1; KR20110052735A; IL209095A; HK1153304A1; RU2541183C2; JP5259759B2; RU2467406C2; SG189747A1; IL209095A0; CN102007535B; EP2373067B1; AU2010241387A1; IL208436A0; CN102137326A; CA2745842A1; KR101238731B1

Abstract

１つの実施の形態において、本発明はマルチチャンネルオーディオ信号におけるスピーチの可聴性を改善する方法を具備する。該方法は、減衰係数を生成するためにマルチチャンネルオーディオ信号の第１の特性と第２の特性とを比較するステップを含む。第１の特性は、スピーチ及びノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第１番目のチャンネルに相当し、第２の特性は、主としてノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第２番目のチャンネルに相当する。本方法は、調整済みの減衰係数を生成するためにスピーチ尤度値に従って減衰係数を調整するステップをさらに含む。本方法は、前記調整済みの減衰係数を用いて前記第２番目のチャンネルを減衰させるステップをさらに含む。

Description

本出願は、２００８年４月１日出願の米国暫定特許出願番号６１／０４６，２７１に基づく優先権を主張し、この暫定特許出願のすべてを参照として本明細書に組み込むものとする。

本発明は、一般的にはオーディオ信号処理関し、特に、エンターテインメントオーディオに囲まれた状態での、会話や談話の明瞭度の改善に関する。

特記なき場合は、ここに記載の方法は、本出願の特許請求の範囲に対する先行技術ではなく、ここに記載されているという理由で先行技術であるとは認めない。

多数の、同時的なオーディオのチャンネル（サラウンドサウンド）をもつ現代的なエンターテインメントオーディオは、計り知れない娯楽的価値を持つ巨大でリアルなサウンド環境を聴衆に提供する。このような環境では、会話、音楽、効果音のような多くのサウンド要素が同時に出現し、リスナーの注意を得るために競い合う。聴衆によっては、特に、聴覚能力が衰えた又は認知処理が遅くなった聴衆には、会話や談話は、大きな競合サウンド要素が存在するプログラム部分では、聞こえにくいかもしれない。このような状況において、競合するサウンドのレベルが低下することは、リスナーには有益である。

音楽や効果音が会話を圧倒することがあるとの認識は新しいものではなく、そのような状況を改善する方法はいくつか提案されている。しかし、以下に説明するように、提案されている方法は現在の放送実務とは相容れないか、又は全体的なエンターテインメントに不必要に高い代価を求めるか、又はその両方となる。

映画やテレビジョンのサラウンドオーディオを生じさせるときに、会話や談話の大部分を１つのチャンネル（中央チャンネル、スピーチチャンネルと称される）だけに配分することに固執する習慣が一般的となっている。音楽、環境音、及び効果音は、通常スピーチチャンネルと残りすべてのチャンネル（例えば、左［Ｌ］、右［Ｒ］左サラウンド［ｒｓ］、及び右サラウンド［ｒｓ］、ノンスピーチチャンネルと称されることもある）に混入される。結果として、スピーチチャンネルがオーディオプログラムに含まれるスピーチの大部分とノンスピーチオーディオのかなりの部分を伝達する一方、ノンスピーチチャンネルがノンスピーチオーディオの大部分を伝達するが、少量のスピーチも伝達することがある。このような従来の構成における会話や談話の認知を助けるひとつの簡単な方法は、ノンスピーチチャンのレベルを、スピーチチャンネルに比べて、例えば６ｄＢほど恒久的に減少させることである。この方法は簡単で効果的であり今日よく用いられている（ＳＲＳ［サウンドリトリーバルシステム］による会話の明瞭化又はサラウンドデコーダーにおける修正したダウンミックス方程式）。しかし、この方法には少なくとも１つの欠点がある。すなわち、ノンスピーチチャンネルに一定の減衰を加えることで、スピーチの聴取を妨げないレベルの静かな環境音を聞こえないレベルにまで下げてしまうことがある。妨げとならない環境音を減衰させることにより、スピーチを理解するという付随的効果もなく、プログラムの審美的バランスを変えてしまう。

代替的な解決策が、Ｖａｕｄｒｅｙ及びＳａｕｎｄｅｒｓによる一連の特許（米国特許番号７，２６６，５０１、米国特許番号６，７７２，１２７、米国特許番号６，９１２，５０１、及び米国特許番号６，６５０，７５５）に記載されている。周知のとおり、これらの方法は、コンテンツの生成と分配を修正するものである。この構成によれば、消費者は２つの別々のオーディオ信号を受け取る。これらの信号の第１番目は「プライマリーコンテンツ」オーディオを具備する。この信号は多くの場合スピーチが優勢であるが、コンテンツの製作者が望むなら、他の形式の信号も含むことができる。第２番目の信号は、「セカンダリーコンテンツ」オーディオを具備し、残りのすべてのサウンド要素により構成されている。ユーザーは、各信号のレベルを手動で調整することにより、又は、ユーザーが選択したパワー比率を自動的に維持することにより、これら２つの信号の相対的レベルの制御ができる。この構成は、妨害とはならない環境音を不必要に減衰させることを制限することができるが、従来の生成方法と分配方法には適用できないことが広く用いられることの妨げとなっている。

スピーチとノンスピーチオーディオとの相対的レベルを管理するための他の方法の例が、Ｂｅｎｎｅｔｔにより、米国特許出願番号２００７００２７６８２中に提案されている。

背景技術のすべての例において、他の欠点の中でも、会話を強化することがコンテンツの創作者が意図するリスニング体験に影響を与えることを最小限にするための手段を提供しないという制限を有する点で共通している。従って、ノンスピーチオーディオ成分の可聴性を維持したまま、スピーチを理解できるようにするために、従来の混合がなされたマルチチャンネルエンターテインメントプログラム中のノンスピーチオーディオチャンネルのレベルを制限する方法を提供することが本発明の目的である。

従って、スピーチの可聴性を維持する方法を改善することが必要となる。本発明は、マルチチャンネルオーディオ信号におけるスピーチの可聴性を改善する装置及び方法を提供することによりこれらの問題を解決するものである。

本発明の実施の形態によりスピーチの可聴性が改善される。１つの実施の形態では、本発明はマルチチャンネルオーディオ信号におけるスピーチの可聴性を改善する方法を含む。該方法は、減衰係数を生成するためにマルチチャンネルオーディオ信号の第１の特性と第２の特性とを比較するステップを含む。第１の特性は、スピーチ及びノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第１番目のチャンネルに相当し、第２の特性は、主としてノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第２番目のチャンネルに相当する。該方法は、調整済みの減衰係数を生成するためにスピーチ尤度値に従って減衰係数を調整するステップをさらに含む。該方法は、この調整済みの減衰係数を用いて前記第２番目のチャンネルを減数させるステップをさらに含む。

本発明の第１の特徴は、一般的なエンターテインメントプログラムのスピーチチャンネルが、プログラムの継続期間の実質的な部分にノンスピーチ信号を伝達することの観察に基づく。その結果、本発明の第１の特徴によれば、ノンスピーチオーディオによるスピーチオーディオのマスキングを、（ａ）スピーチチャンネルにおける信号パワーに対するノンスピーチチャンネルにおける信号パワーの比率が所定の閾値を越えないように制限するために必要な、ノンスピーチチャンネルにおける信号の減衰量を決定するステップ、（ｂ）スピーチ中のスピーチチャンネルにおける信号の尤度に単調に関係する係数により減衰量を縮小拡大するステップ、及び（ｃ）縮小拡大した減衰量を適用するステップにより、制御することができる。

本発明の第２の特徴は、スピーチ信号のパワーとマスキング信号のパワーとの比率は、スピーチの明瞭度を予測するためには貧弱な判断材料であるとの観察に基づく。その結果、本発明の第２の特徴によれば、所定のレベルの明瞭度を維持するために必要な、ノンスピーチチャンネルにおける信号の減衰量を、心理音響に基づく明瞭度の予測モデルによりノンスピーチ信号が存在するところでのスピーチ信号の明瞭度を予測することにより、計算する。

本発明の第３の特徴は、周波数全体にわたって減衰量を変化させることができるのなら、（ａ）明瞭度の所定のレベルが種々の減衰のパターンにより達成することができること、及び（ｂ）異なる減衰のパターンにより異なる音量のレベル又は異なるノンスピーチオーディオの主要部をもたらすことができることの観察に基づく。その結果、本発明の第３の特徴によれば、予測したスピーチの明瞭度の所定のレベルを達成する制限の下で、音量を最大にするか又はノンスピーチオーディオの主要部の他の測度を最大にする減衰のパターンを見つけることにより、ノンスピーチオーディオによるスピーチオーディオのマスキングを制御する
本発明の実施の形態は方法又はプロセスとして実行することができる。この方法は、ハードウェア又はソフトウェア又はそれらの組み合わせとしての電子回路により実施することができる。このプロセスを実施するために用いられる回路は、（特定の作業のみ行う）専用回路であっても（１以上の特定の作業を行うようにプログラムされた）汎用回路であってもよい。

以下の詳細な説明と添付図により、本発明の本質及び利点をよく理解できる。

本発明の一実施の形態による、信号プロセッサを示す。本発明の他の実施の形態による、信号プロセッサを示す。本発明の他の実施の形態による、信号プロセッサを示す。図１〜３の実施の形態のさらなる変形を示すブロック図である。図１〜３の実施の形態のさらなる変形を示すブロック図である。

ここに記載したのは、スピーチの可聴性を維持するための技術である。以下の記載において、説明目的で、本発明を完全に理解してもらうために多くの実施例と具体的な詳細を述べる。しかしながら、当業者にとって、特許請求の範囲として定義される本発明は、以下に記載の実施例単独又は実施例の組み合わせにおける特徴のいくつか又はすべてを含み、さらに、ここに記載した特徴及び概念を修正したもの及び均等なものを含むことは自明である。

種々の方法とプロセスを以下に記載する。これらは、主として理解しやすくするような順序で記載する。特定のステップについては、様々な実施の形態において、違う順序又は必要に応じた平行して行うことができることは理解できよう。特定のステップが他のステップの前又は他のステップの後でなければならないときは、文脈から明らかでない場合、具体的にその旨を指摘する。

本発明の第１の形態についてその原理を図１に示す。図１を参照すると、スピーチチャンネル（１０１）及び２つのノンスピーチチャンネル（１０２及び１０３）からなるマルチチャンネル信号を受け取っている。これらのチャンネルの各々の信号のパワーは信号推定器（１０４，１０５，及び１０６）のバンクで測定し対数スケールで表現する。これらのパワー推定器は、漏れ積分回路のような平滑化機構を含むことができ、測定したパワーレベルが１つの文又は節全体にわたる平均化されたパワーレベルを反映することができる。スピーチチャンネル中の信号のパワーレベルを、（加算器１０７及び１０８により）ノンスピーチチャンネルの各々から減算し、２つの信号形式同士のパワーレベルの差異の測度を得る。比較回路１０９で、スピーチチャンネル中の信号のパワーレベルより少なくともθｄＢ少ないパワーレベルがのこるようにノンスピーチチャンネルを減衰するようなｄＢの数値を、各ノンスピーチチャンネルに対して定める。（記号θは、変数であり、スクリプトθを意味する。）１つの実施の形態によれば、この実施例では、閾値θ（回路１１０に保存されている）をパワーレベルの差異に加え（この中間的な結果ははマージンと称される）、（リミッター１１１及び１１２により）その結果がゼロ以下になるように制限する。この結果は、パワーレベルをθｄＢだけスピーチチャンネルのパワーレベルより低くしておくために、ノンスピーチチャンネルに適用しなければならないｄＢ単位で表したゲイン（又は否定減衰（ｎｅｇａｔｅｄａｔｔｅｎｕａｔｉｏｎ））となる。θに適した値は１５ｄＢである。このθの値は他の実施形態において必要に応じて調整することができる。

対数スケール（ｄＢ）で表現した測度と線形スケールで表現した測度との間に一意的な関係があるので、図１と等価な回路は、パワー、ゲイン、及び閾値がすべて線形スケールで表現することができるように、構成することができる。この実施の形態では、すべてのレベルの差異を線形測度の比率で置き換えることができる。代替的実施の形態では、パワー測度を、信号の絶対値のような信号強度に対応する測度で置き換えることができる。本発明の第１の形態において特筆すべき特徴は、実際にスピーチがなされたスピーチチャンネルにおける信号の尤度に単調に関連する値により導き出されたゲインを拡大縮小することである。さらに図１を参照して、制御信号（１１３）を受け取りゲインが（乗算器１１４及び１１５により）乗算される。拡大縮小されたゲインは、（増幅器１１６及び１１７により）対応するノンスピーチチャンネルに適用され、修正した信号Ｌ及びＲ（１１８及び１１９）を作る。制御信号（１１３）は、通常、スピーチがなされたスピーチチャンネルにおける信号の尤度の、自動的に導き出された測度となる。スピーチ信号となった信号の尤度を自動的に決定する様々な方法を用いることができる。１つの実施の形態によれば、スピーチ尤度１３０は、Ｃチャンネル１０１における情報からスピーチ尤度値ｐ（１１３）を生成する。このような機構の１つの例は、Ｒｏｂｉｎｓｏｎ及びＶｉｎｔｏｎによる「ＡｕｔｏｍａｔｅｄＳｐｅｅｃｈ／ＯｔｈｅｒＤｉｓｃｒｉｍｉｎａｔｉｏｎｆｏｒＬｏｕｄｎｅｓｓＭｏｎｉｔｏｒｉｎｇ」（２００５年５月のＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，Ｐｒｅｐｒｉｎｔｎｕｍｂｅｒ６４３７ｏｆＣｏｎｖｅｎｔｉｏｎ１１８）に記載されている。あるいは、この制御信号（１１３）は、例えば、手動で作成し、コンテンツ制作者によりオーディオ信号と共にエンドユーザーに送信することができる。

本発明の属する技術の分野における通常の知識を有する者（当業者）はこの構成をどんな数の入力チャンネルにも拡張することができることを理解するであろう。

本発明の第２の形態の原理は、図２に示されている。図２を参照すると、１つのスピーチチャンネル（１０１）及び２つのノンスピーチチャンネル（１０２及び１０３）からなるマルチチャンネル信号を受け取っている。これらのチャンネルの各々の信号のパワーは信号推定器（２０１，２０２，及び２０３）のバンクで測定される。図１の対応する部分とは異なり、これらのパワー推定器は周波数全体にわたって信号パワーの分布を測定し、単数ではなくパワースペクトルを結果として生じさせる。このパワースペクトルの周波数分解能は、明瞭度予測モデル（２０５及び２０６、未説明）の周波数分解能と理想的にマッチする。

パワースペクトルは比較回路２０４に送られる。このブロックの目的は、各ノンスピーチチャンネルに適用する減衰量を定め、ノンスピーチチャンネルの信号がスピーチチャンネルの信号の明瞭度を所定の基準以下に下がらないようにすることである。この機能はスピーチ信号（２０１）とノンスピーチ信号（２０２及び２０３）のパワースペクトルから、スピーチの明瞭度を予測する明瞭度予測回路（２０５及び２０６）を採用することにより達成することができる。この明瞭度予測回路２０５及び２０６は、選択とトレードオフの設計に従い適切な明瞭度予測モデルを組み込むことができる。例として、ＡＮＳＩＳ３．５−１９９７（スピーチ明瞭度指数の計算方法）に定められたスピーチ明瞭度指数及び、Ｍｕｅｓｃｈ及びＢｕｕｓによるスピーチ認識感度（「スピーチ明瞭度予測のための統計的決定理論の使用。Ｉモデル構造」ＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ，２００１，Ｖｏｌ１０９，Ｐ２８９６−２９０９）がある。明瞭度予測モデルの出力は、スピーチチャンネル中のスピーチ以外の信号が平滑化されるとき、意味を持たないことは明らかである。それにもかかわらず、明瞭度予測モデルの出力に続くものは、予測スピーチ明瞭度と称される。このような誤りを理解することで、スピーチがなされた信号（１１３、未説明）の尤度に関するパラメータで、比較回路２０４からのゲイン出力を縮小拡大することによる、次の処理を行うことの説明とすることができる。

明瞭度予測モデルは一般に、ノンスピーチ信号のレベルを下げた結果として、上がるか又は変化しないスピーチ明瞭度の予測をおこなう。図２の処理フローを続けると、比較回路２０７及び２０８で、予測明瞭度を基準値と比較する。ノンスピーチ信号のレベルが低く予測明瞭度が基準を超えている場合、０ｄＢに初期化されているゲインパラメータが回路２０９又は２１０から取り出され比較回路２０４の出力として回路２１１及び２１２に供給される。基準を満たさない場合は、ゲインパラメータを、ある定められた量だけ減少させ、明瞭度の予測を繰り返す。適切なステップサイズは１ｄＢである。ここに記載したような繰り返しを予測明瞭度が基準値に一致するまで又は基準値を越えるまで続けられる。スピーチチャンネル中の信号は、ノンスピーチチャンネル中に信号がない場合でも明瞭度の基準に到達することができないようにすることも可能である。このような状態になる例として、スピーチ信号が非常に低レベルである場合、又は厳しく帯域幅が制限されている場合がある。このようなことが起こると、ノンスピーチチャンネルに適用するゲインをどれだけ減少させても予測スピーチ明瞭度に影響を与えることはなく、基準値を満たさないという状態になってしまう。このような状態では、（２０５，２０６），（２０７，２０８），及び（２０９，２１０）により形成されるループが永久に続くことなり、このようなループを中断させるためには付加的なロジック（不図示）を適用する必要がある。そのようなロジックの簡単な例は、繰り返しの数を数え、繰り返しが所定の数を越えたらループを抜け出すようにすることである。

図２の処理フローを続けて、制御信号（１１３）を受け取り、（乗算器１１３及び１１５により）ゲインを乗算する。制御信号（１１３）は、一般に、スピーチが行われたスピーチチャンネルにおける信号の自動的に導き出された尤度の測度となる。スピーチ信号となる信号の尤度を自動的に測定する方法は、自明であり、図１に関して既に説明したとおりである（スピーチ尤度プロセッサ１３０参照）。縮小拡大したゲインは（増幅器１１６及び１１７により）対応するノンスピーチチャンネルに適用され、修正した信号Ｒ’及びＬ’（１１８及び１１９）を生成する。

本発明の第３の形態の原理は、図３に示されている。ここで図３を参照すると、１つのスピーチチャンネル（１０１）と２つのノンスピーチチャンネル（（１０２及び１０３）からなるマルチチャンネル信号を受け取っている。この３つの信号の各々は（フィルターバンク３０１，３０２，及び３０３により）スペクトル成分に分割される。スペクトル分析は時間領域Ｎチャンネルフィルターバンクにより実行することができる。１つの実施の形態によれば、フィルターバンクは周波数領域を１／３オクターブの帯域に区分するか、又は、人の内耳で生じるようなフィルタリングに似せる。ここで、信号はＮ個のサブ信号からなることを太線で示している。図３の処理はサイドブランチ処理として知られている。信号経路の後に、ノンスピーチチャンネルを形成するＮ個のサブ信号はそれぞれＮ個のゲイン値のセットの１要素により（増幅器１１６及び１１７により）縮小拡大される。これらのゲインの導出については後述する。次に、縮小拡大されたサブ信号は、再結合して単一のオーディオ信号となる。これは（回路３１３及び３１４による）単純な加算により行われる。代替的に、分析フィルターバンクに適合する合成フィルターバンクを用いることができる。この処理の結果として、修正したンスピーチ信号Ｒ’及びＬ’（１１８及び１１９）が得られる。

ここで、図３の処理におけるサイドブランチ経路について説明すると、各フィルターバンクの出力は、Ｎ個のパワー推定器の対応するバンク（３０４，３０５，及び３０６）で使用可能となる。結果として生じたスペクトルは、Ｎ次元のゲインベクトルを出力として有する、最適化回路（３０７及び３０８）の入力となる。この最適化では、明瞭度予測回路（３０９及び３１０）及び音量計算回路（３１１及び３１２）の両方を採用して、スピーチ信号の予測される明瞭度の所定のレベルを維持しながらノンスピーチチャンネルの音量を最大化するゲインベクトルを見つける。明瞭度を予測する適切なモデルは図２に関連して既に説明したとおりである。音量計算回路３１１及び３１２は、選択とトレードオフの設計に従い適切な音量予測モデルを組み込むことができる。適切なモデルの例として、米国規格ＡＮＳＩＳ３４−２００７「ＰｒｏｃｅｄｕｒｅｆｏｒｔｈｅＣｏｍｐｕｔａｔｉｏｎｏｆＬｏｕｄｎｅｓｓｏｆＳｔｅａｄｙＳｏｕｎｄｓ」及びドイツ規格ＤＩＮ４５６３１「ＢｅｒｅｃｈｎｕｎｇｄｅｓＬａｕｔｓｔaeｒｋｅｐｅｇｅｌｓｕｎｄｄｅｒＬａｕｔｈｅｉｔａｕｓｄｅｍＧｅｒaeｕｓｃｈｓｐｅｋｔｒｕｍ」がある。

利用可能な計算資源及び課せられた制約条件に応じて、最適化回路（３０７及び３０８）の形及び複雑さは大きく変化する。１つの実施の形態によれば、Ｎ個の自由パラメータの、繰り返し、多次元制約最適化を用いることができる。各パラメータは、ノンスピーチチャンネルの周波数帯域の１つに適用するゲインを表す。Ｎ次元検索スペースにおける最急勾配法のような標準的な技法を、最大値を見つけるために適用することができる。他の実施の形態においては、計算的に厳しくないアプローチではゲイン対周波数関数を、異なるスペクトル勾配のセット又はシェルフィルターのような、可能性のあるゲイン対周波数関数の小さなセットのメンバーに限定する。この追加の限定により、最適化の問題は、小さな数の１次元の最小化に縮減することができる。さらに他の実施の形態では、可能なゲインの非常に小さなセットに対して徹底検索を実行する。この後者のアプローチは、一定の計算負荷と検索速度が必要な場合に、実時間のアプリケーションで特に好ましいであろう。

当業者は、本発明の追加的な実施の形態による最適化に組み込むことのできる付加的な構成を容易に認識することができる。１つの実施例では、修正したノンスピーチチャンネルの音量が修正前の音量より大きくならないよう制限する。他の実施例では、再構成フィルターバンク（３１３，３１４）に時間的なエイリアシングが生じる潜在的可能性を制限するため又は好ましくない音色の変化が生じる可能性を減少させるために隣接する周波数帯域同士でのゲインの差の制限が組み込まれる。好ましい制約条件は、フィルターバンクの技術的な実施の形態と、明瞭度の完全と音色の変化との間のトレードオフをどのように選択するかとに左右される。説明を簡単にするために、これらの制約は図３から省略した。

図３の処理フローを続けると、制御信号ｐ（１１３）を受け取り、（乗算器１１４及び１１５で）ゲイン関数を乗算する。制御信号（１１３）は、通常、自動的に導き出したスピーチが行われたスピーチチャンネルにおける信号の尤度の測度となる。スピーチが行われた信号の尤度の自動的な計算の方法については図１と関連して既に説明した（スピーチ尤度プロセッサ１３０参照）。縮小拡大させたゲインは、先に説明したように、（増幅器１１６及び１１７）により、対応するノンスピーチチャンネルに適用する。

図４Ａ及び４Ｂは、図１〜３に示した形態の変形を示したものである。なお、当業者であれば、図１〜３に記載した発明の要素を組み合わせるいくつかの方法を考え付くであろう。

図４Ａは、図１の構成を、Ｌ，Ｃ，及びＲの１以上の周波数サブ帯域にも適用することができることを示している。具体的には、信号Ｌ，Ｃ，及びＲは、それぞれフィルターバンク（４４１，４４２，及び４４３）を通過し、サブ帯域の３つのセット、すなわち｛Ｌ_１，Ｌ_２，．．．，Ｌ_ｎ｝、（Ｃ_１，Ｃ_２，．．．，Ｃ_ｎ）、及び（Ｒ_１，Ｒ_２，．．．，Ｒ_ｎ）、を生じさせる。サブ帯域のマッチングは、図１に示すｎ個のインスタンスの回路１２５に送られ、処理されたサブ信号は（加算回路４５１及び４５２により）再結合される。個々の閾値θは、各サブ帯域で選択することができる。θ_ｎが対応する周波数領域にあるスピーチのキューの平均値に比例するところ、すなわち、極端な周波数スペクトルにおける帯域が、対応する優勢なスピーチ周波数の帯域より低い閾値に割り当てられるところに良い選択が設定される。本発明のこの実施の形態により、コンピュータの複雑さとパフォーマンスとの間の良好なトレードオフがもたらされる。

図４Ｂは、もう１つの変形を示す。例えば、計算負荷を軽減するために、５チャンネル（Ｃ，Ｌ，Ｒ，Ｉｓ，及びｒｓ）を有する一般的なサラウンドサウンド信号を、図３に示した回路３２５によりＬ及びＲ信号を処理し、図１に示した回路１２５により、Ｌ及びＲ信号より一般にパワーの少ない、Ｉｓ及びｒｓを処理することにより、改善することができる。

上記説明において、用語「スピーチ」（又はスピーチオーディオ又はスピーチチャンネル又はスピーチ信号）及び用語「ノンスピーチ」（又はノンスピーチオーディオ又はノンスピーチチャンネル又はノンスピーチ信号）が使われている。当業者であればこれらの用語は、相互に違っていることを示すために主として用い、チャンネルのコンテンツを完全に説明するためにほとんど用いないことを理解するであろう。例えば、映画のレストランのシーンで、スピーチチャンネルには主として１つのテーブルでの会話が含まれ、ノンスピーチチャンネルには、他のテーブルでの会話が含まれるであろう（つまり、両方とも、専門家でない人が使う用語としての「スピーチ」が含まれる）。他のテーブルでの会話であっても、本発明の実施の形態では、減衰させる。

（実施形態）
［実施形態］
本発明は、ハードウェア又はソフトウェア又は両方を組み合わせたもの（例えば、プログラマブルロジックアレー）で実施することができる。特に記載がない限り、本発明の一部として含まれているアルゴリズムは本質的に、特定のコンピュータや他の装置と関連付けられるものではない。特に、種々の汎用機をこの記載に従って書かれたプログラムと共に用いてもよい、あるいは、要求の方法を実行するために、より特化した装置（例えば、集積回路）を構成することが便利かもしれない。このように、本発明は、それぞれ少なくとも１つのプロセッサ、少なくとも１つの記憶システム（揮発性及び非揮発性メモリー及び／又は記憶素子を含む）、少なくとも１つの入力装置又は入力ポート、及び少なくとも１つの出力装置又は出力ポートを具備する、１つ以上のプログラマブルコンピュータシステム上で実行される１つ以上のコンピュータプログラムにより実現することができる。ここに記載した機能を遂行し、出力情報を出力させるために入力データにプログラムコードを適用する。この出力情報は、公知の方法で、１以上の出力装置に適用される。

このようなプログラムの各々は、コンピュータシステムとの通信のために、必要とされるどんなコンピュータ言語（機械語、アセンブリ、又は、高級な、手続言語、論理型言語、又は、オブジェクト指向言語を含む）ででも実現することができる。いずれにせよ、言語はコンパイル言語であってもインタープリタ言語であってもよい。

このようなコンピュータプログラムの各々は、ここに記載の手順を実行するために、コンピュータにより記憶媒体又は記憶装置を読み込んだとき、コンピュータを設定し動作させるための、汎用プログラマブルコンピュータ又は専用プログラマブルコンピュータにより、読み込み可能な記憶媒体又は記憶装置（例えば、半導体メモリー又は半導体媒体、又は磁気媒体又は光学媒体）に保存又はダウンロードすることが好ましい。本発明のシステムはまた、コンピュータプログラムにより構成されるコンピュータにより読み込み可能な記憶媒体として実行することを考えることもできる。ここで、この記憶媒体は、コンピュータシステムを、ここに記載した機能を実行するために、具体的にあらかじめ定めた方法で動作させる。

どのように本発明の形態を実施するかについての実施例と共に、本発明の多くの実施の形態について記載した。上記実施例及び実施の形態は、唯一の実施形態であるとみなしてはならず、以下の特許請求の範囲で定義した本発明の柔軟性と優位性を示すため記載したものである。上記記載と以下の特許請求の範囲の記述に基づき、他の構成、実施形態、実施例、及びその均等物は、当業者にとって自明であり、当業者であれば特許請求の範囲で定義した本発明の精神と技術範囲を逸脱することなく採用することができよう。

Claims

マルチチャンネルオーディオ信号におけるスピーチの可聴性を改善する方法であって、
減衰係数を生成するためにマルチチャンネルオーディオ信号の第１の特性と第２の特性とを比較するステップであって、前記第１の特性は、スピーチ及びノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第１番目のチャンネルに相当し、前記第２の特性は、主としてノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第２番目のチャンネルに相当することを特徴とするステップと、
調整済みの減衰係数を生成するためにスピーチ尤度値に従って減衰係数を調整するステップと、
前記調整済みの減衰係数を用いて前記第２番目のチャンネルを減衰させるステップと、
を具備することを特徴とする方法。
前記第１の特性と前記第２の特性とを生成するために前記マルチチャンネルオーディオ信号を処理するステップをさらに具備することを特徴とする請求項１に記載の方法。
前記スピーチ尤度値を生成するために前記第１番目のチャンネルを処理するステップをさらに具備することを特徴とする請求項１に記載の方法。
前記第２番目のチャンネルは、複数の第２番目のチャンネルのうちの１つであり、前記第２の特性は、複数の第２の特性のうちの１つであり、前記減衰係数は、複数の減衰係数のうちの１つであり、前記調整済みの減衰係数は、複数の調整済みの減衰係数のうちの１つであり、
前記複数の減衰係数を生成するために前記第１の特性と前記複数の第２の特性とを比較するステップと、
前記複数の調整済みの減衰係数を生成するために前記スピーチ尤度値に従って前記複数の減衰係数を調整するステップと、
前記複数の調整済みの減衰係数を用いて前記第２番目のチャンネルを減衰させるステップと、
をさらに具備することを特徴とする請求項１に記載の方法。
前記マルチチャンネルオーディオ信号は第３番目のチャンネルを具備し、
追加の減衰係数を生成するために前記第１の特性と第３の特性とを比較するステップであって、該第３の特性は前記第３番目のチャンネルに相当することを特徴とするステップと、
調整済みの追加の減衰係数を生成するために、前記スピーチ尤度値に従って前記追加の減衰係数を調整するステップと、
前記調整済みの減衰係数用いて前記第３番目のチャンネルを減衰させるステップと、
をさらに具備することを特徴とする請求項１に記載の方法。
前記第１の特性は、前記第１番目のチャンネルにおける信号の強度に対応する第１の測度に相当し、前記第２の特性は、前記第２番目のチャンネルにおける信号の強度に対応する第２の測度に相当し、前記第１の特性と前記第２の特性とを比較するステップは、
前記第１の測度と前記第２の測度との距離を測定するステップと、
該距離と最小距離とに基づいて前記減衰係数を計算するステップと、
を具備することを特徴とする請求項１に記載の方法。
前記第１の測度は、前記第１番目のチャンネルにおける信号の第１のパワーレベルであり、前記第２の測度は、前記第２番目のチャンネルにおける信号の第２のパワーレベルであり、前記距離は該第１のパワーレベルと該第２のパワーレベルとの差であることを特徴とする請求項６に記載の方法。
前記第１の測度は、前記第１番目のチャンネルにおける信号の第１のパワーであり、前記第２の測度は、前記第２番目のチャンネルにおける信号の第２のパワーであり、前記距離は該第１のパワーと該第２のパワーとの比であることを特徴とする請求項６に記載の方法。
前記第１の特性は、第１のパワースペクトルに相当し、前記第２の特性は第２のパワースペクトルに相当し、該第１のパワースペクトルと該第２のパワースペクトルとを比較するステップは、
予測明瞭度を生成するために前記第１のパワースペクトルと前記第２のパワースペクトルとに基づいて明瞭度の予測を行うステップと、
前記予測明瞭度が基準を満たすまで前記第２のパワースペクトルに適用するゲインを調整するステップと、
前記予測明瞭度が基準をいったん満たしたときの減衰係数として、調整が行われた前記ゲインを用いるステップと、
を具備することを特徴とする請求項１に記載の方法。
前記第１の特性は、第１のパワースペクトルに相当し、前記第２の特性は第２のパワースペクトルに相当し、前記第１特性と前記第２の特性とを比較するステップは、
予測明瞭度を生成するために前記第１のパワースペクトルと前記第２のパワースペクトルとに基づいて明瞭度の予測を行うステップと、
計算音量を生成するために前記第２のパワースペクトルに基づいて音量の計算を行うステップと、
前記予測明瞭度が明瞭度の基準を満たし前記計算音量が音量の基準を満たすまで、前記第２のパワースペクトルの各帯域にそれぞれ適用される複数のゲインを調整するステップと、
前記予測明瞭度が前記明瞭度の基準をいったん満たし、前記計算音量が前記音量の基準をいったん満たしたときのそれぞれの各帯域の減衰係数として、調整が行われた前記複数のゲインを用いるステップと、
を具備することを特徴とする請求項１に記載の方法。
マルチチャンネルオーディオ信号におけるスピーチの可聴性を改善する回路を有する装置であって、
減衰係数を生成するためにマルチチャンネルオーディオ信号の第１の特性と第２の特性とを比較する比較回路であって、前記第１の特性は、スピーチ及びノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第１番目のチャンネルに相当し、前記第２の特性は、主としてノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第２番目のチャンネルに相当することを特徴とする比較回路と、
調整済みの減衰係数を生成するためにスピーチ尤度値に従って減衰係数を調整する乗算器と、
前記調整済みの減衰係数を用いて前記第２番目のチャンネルを減衰させる増幅器と、
を具備することを特徴とする装置。
前記第１の特性は、第１のパワーレベルに相当し、前記第２の特性は第２のパワーレベルに相当し、前記比較回路は、
パワーレベルの差を生成するために、前記第２のパワーレベルから前記第１のパワーレベルを減算する第１の加算器と、
マージンを生成するために、前記パワーレベルの差と閾値とを加算する第２の加算器と、
前記マージンとゼロとのうちで大きいほうの値として前記減衰係数を計算するリミッター回路と、
を具備することを特徴とする請求項１１に記載の装置。
前記第１の特性は、第１のパワースペクトルに相当し、前記第２の特性は第２のパワースペクトルに相当し、前記比較回路は、
予測明瞭度を生成するために前記第１のパワースペクトルと前記第２のパワースペクトルとに基づいて明瞭度の予測を行う明瞭度予測回路と、
前記予測明瞭度が基準を満たすまで前記第２のパワースペクトルに適用するゲインを調整するゲイン調整回路と、
前記予測明瞭度が基準をいったん満たしたときの減衰係数として、調整が行われた前記ゲインを選択するゲイン選択回路と、
を具備することを特徴とする請求項１１に記載の装置。
前記第１の特性は、第１のパワースペクトルに相当し、前記第２の特性は第２のパワースペクトルに相当し、前記比較回路は、
予測明瞭度を生成するために前記第１のパワースペクトルと前記第２のパワースペクトルとに基づいて明瞭度の予測を行う明瞭度予測回路と、
計算音量を生成するために前記第２のパワースペクトルに基づいて音量の計算を行う音量計算回路と、
前記予測明瞭度が明瞭度の基準を満たし前記計算音量が音量の基準を満たすまで、前記第２のパワースペクトルの各帯域にそれぞれ適用される複数のゲインを調整し、前記予測明瞭度が前記明瞭度の基準をいったん満たし、前記計算音量が前記音量の基準をいったん満たしたときのそれぞれの各帯域の減衰係数として、調整が行われた前記複数のゲインを使用する、最適化回路と、
を具備することを特徴とする請求項１１に記載の装置。
前記第１の特性は、第１のパワーレベルに相当し、前記第２の特性は第２のパワーレベルに相当し、
前記第１番目のチャンネルの前記第１のパワーレベルを計算する第１のパワー推定器と、
前記第２番目のチャンネルの前記第２のパワーレベルを計算する第２のパワー推定器と、
をさらに具備することを特徴とする請求項１１に記載の装置。
前記第１の特性は、第１のパワースペクトルに相当し、前記第２の特性は第２のパワースペクトルに相当し、
前記第１番目のチャンネルの前記第１のパワースペクトルを計算する第１のパワースペクトル密度計算器と、
前記第２番目のチャンネルの前記第２のパワースペクトルを計算する第２のパワースペクトル密度計算器と、
をさらに具備することを特徴とする請求項１１に記載の装置。
前記第１の特性は、第１のパワースペクトルに相当し、前記第２の特性は第２のパワースペクトルに相当し、
前記第１番目のチャンネルを第１の複数のスペクトル成分に分割する第１のフィルターバンクと、
前記第１の複数のスペクトル成分から前記第１のパワースペクトルを計算する第１のパワー推定器と、
前記第２番目のチャンネルを第２の複数のスペクトル成分に分割する第２のフィルターバンクと、
前記第２の複数のスペクトル成分から前記第２のパワースペクトルを計算する第２のパワー推定器バンクと、
をさらに具備することを特徴とする請求項１１に記載の装置。
前記スピーチ尤度値を生成するために前記第１番目のチャンネルを処理するスピーチ決定プロセッサをさらに具備することを特徴とする請求項１１に記載の装置。
有形の記録媒体に組み込まれた、マルチチャンネルオーディオ信号におけるスピーチの可聴性を改善するためのコンピュータプログラムであって、該コンピュータプログラムは、装置に、
減衰係数を生成するためにマルチチャンネルオーディオ信号の第１の特性と第２の特性とを比較するステップであって、前記第１の特性は、スピーチ及びノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第１番目のチャンネルに相当し、前記第２の特性は、主としてノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第２番目のチャンネルに相当することを特徴とするステップと、
調整済みの減衰係数を生成するためにスピーチ尤度値に従って減衰係数を調整するステップと、
前記調整済みの減衰係数を用いて前記第２番目のチャンネルを減衰させるステップと、
を具備する処理を実行させることを特徴とするコンピュータプログラム。
マルチチャンネルオーディオ信号におけるスピーチの可聴性を改善する装置であって、
減衰係数を生成するためにマルチチャンネルオーディオ信号の第１の特性と第２の特性とを比較する比較手段であって、前記第１の特性は、スピーチ及びノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第１番目のチャンネルに相当し、前記第２の特性は、主としてノンスピーチオーディオを含有するマルチチャンネルオーディオ信号の第２番目のチャンネルに相当することを特徴とする比較手段と、
調整済みの減衰係数を生成するためにスピーチ尤度値に従って減衰係数を調整する調整手段と、
前記調整済みの減衰係数を用いて前記第２番目のチャンネルを減衰させる減衰手段と、
を具備することを特徴とする装置
前記第１の特性は、第１のパワーレベルに相当し、前記第２の特性は第２のパワーレベルに相当し、前記比較手段は、
パワーレベルの差を生成するために、前記第２のパワーレベルから前記第１のパワーレベルを減算する減算手段と、
前記パワーレベルの差と閾値の差とに基づいて前記減衰係数を計算する計算手段と
を具備することを特徴とする請求項２０に記載の装置。
前記第１の特性は、第１のパワースペクトルに相当し、前記第２の特性は第２のパワースペクトルに相当し、前記比較手段は、
予測明瞭度を生成するために前記第１のパワースペクトルと前記第２のパワースペクトルとに基づいて明瞭度の予測を行う明瞭度予測手段と、
前記予測明瞭度が基準を満たすまで前記第２のパワースペクトルに適用するゲインを調整するゲイン調整手段と、
前記予測明瞭度が基準をいったん満たしたときの減衰係数として、調整が行われた前記ゲインを使用するゲイン使用手段と、
を具備することを特徴とする請求項２０に記載の装置。
前記第１の特性は、第１のパワースペクトルに相当し、前記第２の特性は第２のパワースペクトルに相当し、前記比較手段は、
予測明瞭度を生成するために前記第１のパワースペクトルと前記第２のパワースペクトルとに基づいて明瞭度の予測を行う明瞭度予測手段と、
計算音量を生成するために前記第２のパワースペクトルに基づいて音量の計算を行う音量計算手段と、
前記予測明瞭度が明瞭度の基準を満たし前記計算音量が音量の基準を満たすまで、前記第２のパワースペクトルの各帯域にそれぞれ適用される複数のゲインを調整する調整手段と、
前記予測明瞭度が前記明瞭度の基準をいったん満たし、前記計算音量が前記音量の基準をいったん満たしたときのそれぞれの各帯域の減衰係数として、調整が行われた前記複数のゲインを使用いる、ゲイン使用手段と、
を具備することを特徴とする請求項２０に記載の装置。