JP2013092792A

JP2013092792A - エンターテイメントオーディオにおける音声強調方法

Info

Publication number: JP2013092792A
Application number: JP2012283295A
Authority: JP
Inventors: Hannes Misch; ミュッシュ、ハンネス
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2007-02-26
Filing date: 2012-12-26
Publication date: 2013-05-16
Also published as: BRPI0807703B1; US10586557B2; US20120310635A1; JP2010519601A; US8972250B2; CN101647059B; US20150142424A1; US20160322068A1; EP2118885B1; JP5530720B2; CN101647059A; US10418052B2; US9818433B2; US20180033453A1; US20120221328A1; US20100121634A1; US8195454B2; US9368128B2; RU2009135829A; US9418680B2

Abstract

【課題】片方で音楽と周囲の音の音質の好ましくない改変の可能性と、他方で所望の了解度の利益との間のトレードオフを最適化する。
【解決手段】エンターテイメントオーディオの音声は、エンターテイメントオーディオの音声部分の明瞭度と了解度を向上するためにエンターテイメントオーディオを１つ以上のコントロール（信号）に応答して処理する工程と、その処理のためのコントロールを生成する工程とにより強調され、コントロールを生成する工程にはエンターテイメントオーディオの時間断片を（ａ）音声もしくは非音声、または、（ｂ）音声らしいもしくは非音声らしい、として特徴付ける工程と、その処理のためのコントロールを提供するためにエンターテイメントオーディオのレベルに応答する工程とを含む。
【選択図】図１ａ

Description

本発明は、オーディオ信号処理に関するものである。より具体的には、本発明は、テレビオーディオのようなエンターテイメントオーディオ処理に関し、せりふや物語のオーディオのような音声の明瞭度と了解度を向上する。本発明は、方法、それらの方法を実行する装置、およびそれらの方法をコンピュータに実行させるコンピュータ可読媒体に保存されたソフトウェアに関する。

オーディオビジュアルエンターテイメントは、せりふ、物語、音楽および効果の速いペースのシーケンスに発展した。最新のエンターテイメントオーディオ技術と製造方法で達成可能な高度なリアリズムは、テレビでの会話のように話すスタイルの使用を促進し、そのスタイルは、これまでのはっきりと発表するステージでのプレゼンテーションとは本質的に異なる。この状況により、知覚と言語処理能力の低下した高齢の視聴者の人口増加だけではなく、通常の聴覚を有する人にも、たとえば低音響レベルで聞くときに、そのプログラミングに従うという負担をかけるという問題を生ずる。

音声がどのくらいよく理解されるかは、多くの因子に依存する。例として、発声の気配り（はっきりした、または、対話形式の音声）、話す速さ、音声の可聴性などがある。話し言葉は非常にしっかりしており、理想的な状態より劣っていても理解できる。たとえば、聴覚に障害のあるリスナーは、低下した聴力のために音声の一部を聞き取れなくても明確な音声を大概理解することができる。しかし、話す速さが速くなり、発声が正確さを欠くようになると、聞くことと理解することには、とくに音声スペクトルの一部が聞こえないと、より大きな努力が必要となる。

テレビの視聴者は、放送音声の明瞭度に影響を与えることは何もできないので、聴覚に障害のあるリスナーは聞き取りボリュームを大きくして不十分な可聴性を補おうとする。同じ部屋や近くにいる正常な聴力の人にとって不快であることは別として、この方法は部分的にしか効果がない。なぜならば聴力の低下のほとんどは、周波数の高低により一様ではないからであり、低周波数や中周波数より高周波数で大きな影響があるからである。たとえば、６ｋＨｚの音を聞く典型的な７０歳の男性の能力は、若者の能力より約５０ｄＢ悪いが、１ｋＨｚより下の周波数では高齢者の聴力の不都合は、１０ｄＢより小さい（ＩＳＯ７０９２，オーディオ対年齢の関数としての聴力限界の統計的分布）。ボリュームを大きくすることは、低周波数および中周波数の音を、これらの周波数では可聴性はすでに十分であるので、了解度への寄与に大きく貢献することなくさらに大きくする。ボリュームを大きくすることはまた、高周波数での重度の聴力低下についてはあまり解決しない。より適切な是正は、グラフィックエコライザで得られるような音質のコントロールである。

ボリュームコントロールを単に大きくするよりはよい選択ではあるが、音質コントロールはほとんどの聴力低下にとっては、まだ不十分である。聴覚に障害のあるリスナーに穏やかな文節を聞こえるようにするのに必要な大きな高周波数ゲインは、高レベルの文節の間は不快なほどにうるさくなりがちであり、オーディオ再生鎖に負担をかけすぎたりもする。よりよい答は、信号のレベルにより増幅し、信号の低い部分には大きなゲインを、高レベルの部分には小さなゲイン（あるいはゲインなし）を提供することである。そのようなシステムは、オートマティックゲインコントロール（ＡＧＣ）あるいはダイナミックレンジ圧縮器（コンプレッサ）（ＤＲＣ）として知られているが、聴覚の補助に使われ、通信システムで障害のある聴覚の了解度を向上するのにそれらを使用することが提案されて
いる（たとえば、米国特許第５，３８８，１８５号、第５，５３９，８０６号、第６，０６１，４３１号）。

米国特許第６，１９８，８３０号

聴力低下は徐々に進行するのが普通なので、難聴のあるリスナーのほとんどは、聴力低下に慣れていく。その結果、エンターテイメントオーディオで彼らの聴覚障害を矯正する処理をされると、その音質を嫌うことが多い。聴覚障害のある聴衆は、せりふや物語の了解度が高まるとか矯正するための精神的苦痛が減るなどの、明白な利益を提供されると、矯正されたオーディオの音質を受け入れやすくなる。したがって、音声が主体のオーディオプログラムの部分への聴力低下矯正の適用を制限することは好都合である。そうすることは、片方で音楽と周囲の音の音質の好ましくない改変の可能性と、他方で所望の了解度の利益との間のトレードオフを最適化する。

本発明の態様によれば、エンターテイメントオーディオの音声は、エンターテイメントオーディオの音声部分の明瞭度と了解度を向上するためにエンターテイメントオーディオを１つ以上のコントロール（信号）に応答して処理する工程と、その処理のためのコントロールを生成する工程とにより強調され、コントロールを生成する工程にはエンターテイメントオーディオの時間断片を（ａ）音声もしくは非音声、または、（ｂ）音声らしいもしくは非音声らしい、として特徴付ける工程と、その処理のためのコントロールを提供するためにエンターテイメントオーディオのレベルに応答する工程とを含み、そのような変化には時間断片より短い時間間隔内に応答し、応答する工程の判定基準は上記の特徴付ける工程によりコントロールされる。処理する工程と応答する工程とは、対応する複数の周波数帯域（バンド）でそれぞれ動作し、応答する工程は複数の周波数帯域のそれぞれの処理する工程のコントロールを提供する。

本発明の態様は、処理ポイントの前と後でエンターテイメントオーディオの経過時間のある時点へアクセスすることができ、コントロールを生成する工程は処理ポイントの後の少なくとも若干のオーディオ信号に応答するときのように、「先読み」方法で動作する。

本発明の態様は、処理、特徴付けおよび応答のいくつかが異なった時間あるいは異なった場所で行われるように、時間的および／または空間的分離を用いる。たとえば、特徴付けは第１の時間あるいは場所で行われ、処理と応答は第２の時間あるいは場所で行われ、時間断片の特徴に関する情報は応答の判定基準をコントロールするのに保存あるいは伝達される。

本発明の態様はまた、知覚符号化スキームあるいは無損失符号化スキームに従ってエンターテイメントオーディオをエンコードすることと、エンコードするのに用いたのと同じ符号化スキームにしたがってエンターテイメントオーディオをデコードすることを含み、処理、特徴付けおよび応答のいくつかはエンコードまたはデコードと一緒に行われる。特徴付けはエンコードと一緒に行われ、処理および／または応答はデコードと一緒に行われてもよい。

本発明の前述の態様によれば、処理は１つあるいは複数の処理パラメータにしたがって行われる。１つあるいは複数のパラメータの調整は、処理されたオーディオの音声了解度
メトリックが最大となるか所望の閾値レベル以上になされるかのいずれかとなるように、エンターテイメントオーディオに応答する。本発明の態様によれば、エンターテイメントオーディオは、複数のオーディオチャンネルを備え、１つのチャンネルは主として音声であり、１つ以上の他のチャンネルは主として非音声であり、音声了解度メトリックは音声チャンネルのレベルと１つ以上の他のチャンネルのレベルに基づく。音声了解度メトリックはまた、処理されたオーディオが再生される聴取環境のノイズのレベルにも基づく。１つ以上のパラメータの調整は、エンターテイメントオーディオの１つ以上の長期間の記述子に応答する。長期間の記述子の例には、エンターテイメントオーディオの平均的なせりふのレベルや、エンターテイメントオーディオに既に適用された処理の推定が含まれる。１つ以上のパラメータの調整は規定された式に従い、規定された式はリスナーまたはリスナーのグループの聴力を１つ以上のパラメータに関係付ける。代替または追加として、１つ以上のパラメータの調整は、１人以上のリスナーの好みに従ってもよい。

本発明の前述の態様によれば、処理には並行して動作する複数の機能を含む。複数の機能のそれぞれは、複数の周波数帯域の１つで作動する。複数の機能のそれぞれは、個別にまたは集合的に、ダイナミックレンジコントロール、ダイナミック等化、スペクトル先鋭化、周波数転位、音声抽出、ノイズ低減、あるいは、他の音声強調処置を提供する。たとえば、ダイナミックレンジコントロールは複数の圧縮／拡大機能あるいは装置により提供され、それぞれがオーディオ信号のある周波数領域を処理する。

処理に複数の機能が含まれるかどうかは別として、処理はダイナミックレンジコントロール、ダイナミック等化、スペクトル先鋭化、周波数転位、音声抽出、ノイズ低減、あるいは、他の音声強調処置を提供する。たとえば、ダイナミックレンジコントロールは、ダイナミックレンジ圧縮／拡大機能または装置により提供される。

本発明の態様は、聴力低下矯正に適した音声強調をコントロールすることで、理想的には、オーディオプログラムの音声部分にだけ作用し、残りの（非音声）プログラム部分には作用せず、よって、残りの（非音声）プログラム部分の音色（スペクトル分布）または知覚される音量を変えない傾向がある。

本発明の別の態様によれば、エンターテイメントオーディオで音声を強調することは、エンターテイメントオーディオを分析し、音声か他のオーディオのいずれかにオーディオの時間断片を分類し、音声と分類された時間断片の間のエンターテイメントオーディオの１つまたは複数の周波数帯域にダイナミックレンジ圧縮を適用することを含む。

図１ａは、本発明の態様の実施例を図解する模式的作用ブロック図である。図１ｂは、図１ａの修正版の実施例を図解する模式的作用ブロック図で、装置および／または機能は時間的および／または空間的に分離されている。図２は図１ａの修正版の実施例を示す模式的ブロック図で、音声強調コントロールは「先読み」方法で得られる。図３ａは、図４の例を理解するのに役立つパワー・ゲイン変換の例である。図３ｂは、図４の例を理解するのに役立つパワー・ゲイン変換の例である。図３ｃは、図４の例を理解するのに役立つパワー・ゲイン変換の例である。図４は、周波数帯域の音声強調ゲインがどのように本発明の態様にしたがってその帯域の信号パワー推定から導かれるかを示す模式的作用ブロック図である。

オーディオを音声と非音声（音楽など）に分類する技術は当該技術分野で周知であり、音声対その他弁別器（ＳＶＯ）として知られていることも多い。たとえば、米国特許第６，７８５，６４５号、第６，５７０，９９１号および米国特許出願第２００４００４４５２５号並びにそれらに記載の参考文献を参照のこと。音声対その他のオーディオ弁別器は、オーディオ信号の時間断片を分析し、全ての時間断片から１つ以上の信号記述子（特徴）を抽出する。それらの特徴は、時間断片が音声である可能性を推定し、または、厳しく音声／非音声の判断をするプロセッサに送られる。特徴のほとんどは、信号の経時的変化を反映する。特徴の典型例は、信号スペクトルが時間とともに変化する割合であり、信号極性が変化する割合の分布のゆがみである。音声のはっきりした特徴を確実に反映するのに、時間断片は十分な長さでなければならない。多くの特徴は、隣接音節間の移行を反映する信号特徴に基づくので、時間断片は普通少なくとも２音節（すなわち、約２５０マイクロ秒）に及んでそのような移行を捕らえる。しかし、時間断片はより確実な推定を得るには長めであることが多い（たとえば、約１０倍で）。動作においては比較的ゆっくりとしているが、ＳＶＯはオーディオを音声と非音声とに分類するのにそこそこ確実で正確である。しかし、本発明の態様に従ったオーディオプログラムで選択的に音声を強調するには、音声対その他弁別器で分析される時間断片の長さより細かな時間スケールで音声強調をコントロールすることが好ましい。

音声活動検出器（ＶＡＤ）として知られることもある、別の類の技術は、比較的一定のノイズのバックグラウンドにおける音声の存在と不存在を示す。ＶＡＤを、音声伝達用途でノイズ低減スキーマの一部として広範囲に用いる。音声対その他弁別器と違って、ＶＡＤは、本発明の態様に従って音声強調をコントロールするのに十分な時間分解能を有するのが普通である。ＶＡＤは信号パワーの急激な増大を音声サウンドの始まり、信号パワーの急激な低減を音声サウンドの終わりと解釈する。そうすることで、音声とバックグラウンドとの間の境界をほとんど瞬時に（すなわち、信号パワーを測定する時間集積のウィンドウ内、たとえば１０ミリ秒）信号で伝える。しかし、ＶＡＤは信号パワーの急激な変化に反応するため、音声と他の支配的信号、たとえば音楽、とを区別することができない。したがって、ＶＡＤは、単独で用いると、本発明にしたがって選択的に音声を強調する音声強調をコントロールするのに適してはいない。

音声対その他（ＳＶＯ）識別子の音声対非音声特性を音声活動検出器（ＶＡＤ）と組み合わせて、従来技術の音声対その他弁別器に見られるより細かな時間分解能でオーディオ信号中の音声に選択的に応答する音声強調を容易にすることは本発明の一態様である。

原理的に本発明の態様はアナログおよび／またはデジタル分野で実行されるが、実際的な実行は、それぞれのオーディオ信号が個々のサンプリングあるいはデータブロック内のサンプリングで表されるデジタル分野で実行されることが多い。

ここで図１ａを参照すると、本発明の態様を図示する模式的作用ブロック図が示され、オーディオ入力信号１０１が、コントロール信号１０３で有効にされるときに音声強調オーディオ出力信号１０４を生成する音声強調機能あるいは装置（「音声強調」）１０２に送信される。コントロール信号は、オーディオ入力信号１０１のバッファされた時間断片に作用するコントロール機能あるいは装置（「音声強調コントローラ」）１０５により生成される。音声強調コントローラ１０５は、音声対その他弁別機能あるいは装置（「ＳＶＯ」）１０７と１組の１つ以上の音声活動検出器機能あるいは装置（「ＶＡＤ」）１０８とを含む。ＳＶＯ１０７は、ＶＡＤで分析されたよりも長い時間スパンで信号を分析する。ＳＶＯ１０７とＶＡＤ１０８とが異なる長さの時間スパンで作動するという事実は、単一バッファ機能あるいは装置（「バッファ」）１０６の広い領域（ＳＶＯ１０７に関連し
て）を囲うブラケットと、狭い領域（ＶＡＤ１０８に関連して）を囲うもう１つのブラケットで図に示される。広い領域と狭い領域とは模式的であり、寸法に意味はない。オーディオデータがブロックで送られるデジタルでの実施の場合には、バッファ１０６の各部分はオーディオデータの１ブロックを保存する。ＶＡＤがアクセスする領域は、バッファ１０６で単一保存の最新の部分を含む。ＳＶＯ１０７で判断された現在の信号部分が音声である可能性は、１０９がＶＡＤ１０８をコントロールするように作用する。たとえば、ＶＡＤ１０８の判定基準をコントロールし、よって、ＶＡＤ１０８の決定にバイアスをかける。

バッファ１０６は、処理に特有のメモリを記号化し、直接的に実装されてもされなくてもよい。たとえば、ランダムアクセスメモリの媒体に記憶されたオーディオ信号について処理が行われると、その媒体はバッファとして作用する。同様に、オーディオ入力の履歴は、音声対その他弁別器１０７の内部状態および音声活動検出器の内部状態に反映され、その場合には、別のバッファは必要ではない。

音声強調１０２は音声を強調するのに並行して動作する複数のオーディオ処理装置あるいは機能からなる。各機能あるいは装置は、音声が強調されるべきオーディオ信号の周波数領域で作動する。たとえば、装置あるいは機能は、ダイナミックレンジコントロール、ダイナミック等化、スペクトル先鋭化、周波数転位、音声抽出、ノイズ低減、あるいは、他の音声強調処置を、個別にあるいは全体として提供する。本発明の態様の詳細な例では、ダイナミックレンジコントロールは、オーディオ信号の周波数帯域で圧縮あるいは拡大を提供する。よって、たとえば、音声強調１０２は、ダイナミックレンジ圧縮器／拡大器あるいは圧縮／拡大機能のバンクであり、それぞれがある周波数領域のオーディオ信号を処理する（マルチ帯域圧縮器／拡大器あるいは圧縮／拡大機能）。マルチ帯域圧縮／拡大で利用可能となる周波数特性は、音声強調のパターンを与えられた聴力低下のパターンに合わせることができるからというだけではなく、どの瞬間でも音声はある周波数領域で存在し他では存在しないという事実に応答できるから、有用である。

マルチ帯域圧縮で提供される周波数特性の全ての利点を活用して、各圧縮／拡大帯域は、それ自身の音声活動検出器あるいは検出機能でコントロールされる。このような場合、各音声活動検出器あるいは検出機能は、それがコントロールする圧縮／拡大帯域に関連する周波数領域での音声活動を信号で送る。並行して動作するいくつかのオーディオ処理装置あるいは機能からなる音声強調１０２には利点があるが、本発明の態様の単純な実施の形態では１つだけのオーディオ処理装置あるいは機能からなる音声強調１０２を用いる。

多くの音声活動検出器があるときでも、存在する全ての音声活動検出器をコントロールする単一の出力１０９を生成する１つだけの音声対その他弁別器１０７があることでもよい。１つだけの音声対その他弁別器を使用するという選択は、２つの観察結果を反映する。１つは、音声活動の全帯域パターンが時間とともに変化する速さは、通常、音声対その他弁別器の時間分解能よりかなり速いということである。別の観察結果は、音声対その他弁別器で用いられる特徴が、ブロードバンド信号で最もよく観察できるスペクトルの特徴から通常導かれるということである。双方の観察結果は、帯域特有の音声対その他弁別器の使用を実際的ではないとする。

音声強調コントローラ１０５内に図示されるＳＶＯ１０７とＶＡＤ１０８の組み合わせはまた、音声を強調すること以外の目的、たとえば、オーディオプログラムの音声の大きさを推定したり、話す速さを測定したりするのに使われる。

説明したところの音声強調スキーマは多くの方法で配置される。たとえば、全スキーマは、テレビあるいはセットトップボックスの内側に実装され、テレビやテレビ放送の受信
オーディオ信号に作用する。あるいは、知覚オーディオコーダ（たとえば、ＡＣ−３またはＡＡＣ）と一体化され、あるいは、無損失オーディオコーダと一体化されてもよい。

本発明の態様に従った音声強調は、異なった時間に、あるいは、異なった場所で実行される。音声強調がオーディオコーダあるいはコーディングプロセスと一体化あるいは関連される例について考える。そのような場合、音声強調コントローラ１０５の音声対その他弁別器（ＳＶＯ）１０７の部分は、計算コストが高いのが普通であるが、オーディオエンコーダあるいは符号化処理と一体化あるいは関連させる。たとえば音声の存在を示すフラグである、ＳＶＯの出力１０９は、符号化されたオーディオストリームに埋め込まれる。符号化されたオーディオストリームに埋め込まれたそのような情報は、メタデータと呼ばれることが多い。音声強調１０２と音声強調コントローラ１０５のＶＡＤ１０８は、オーディオデコーダと一体化あるいは関連され、前もってエンコードしたオーディオに作用する。１組の１つ以上の音声活動検出器（ＶＡＤ）１０８はまた、音声対その他弁別器（ＳＶＯ）１０７の出力１０９を用い、出力１０９は符号化されたオーディオストリームから抽出される。

図１ｂは、図１ａの改変版の例示の実施を示す。図１ａの装置あるいは機能に相当する図１ｂの装置あるいは機能は、同一の参照番号を有する。オーディオ入力信号１０１は、エンコーダあるいはエンコード機能（「エンコーダ」）１１０およびＳＶＯ１０７で必要な時間スパンに及ぶバッファ１０６へ送られる。エンコーダ１１０は、知覚または無損失コーディングシステムの一部である。エンコーダ１１０の出力はマルチプレクサあるいは多重送信機能（「マルチプレクサ」）１１２へ送られる。ＳＶＯ出力（図１の１０９）は、エンコーダ１１０に適用される１０９ａ、あるいは、エンコーダ１１０の出力も受信するマルチプレクサ１１２に適用される１０９ｂとして示される。図１ａでのフラグのような、ＳＶＯ出力は、エンコーダ１１０のビットストリーム出力で（たとえば、メタデータとして）搬送され、あるいは、エンコーダ１１０の出力と多重送信され、保存または伝達用に圧縮しアセンブルしたビットストリーム１１４をデマルチプレクサあるいはデマルチプレクサ機能（「デマルチプレクサ」）１１６に提供し、デマルチプレクサ１１６は、デコーダあるいはデコード機能１１８に送るようにそのビットストリーム１１４を解凍する。ＳＶＯ１０７の出力１０９ｂがマルチプレクサ１１２に送られるとすると、デマルチプレクサ１１６から１０９ｂ’として受信され、ＶＡＤ１０８に送られる。あるいは、ＳＶＯ１０７の出力１０９ａがエンコーダ１１０に送られるとすると、デコーダ１１８から１０９ａ’として受信される。図１ａの例のように、ＶＡＤ１０８は複数の音声活動機能あるいは装置を備える。ＶＡＤ１０８で必要な時間スパンの範囲にわたるデコーダ１１８から入力される単一のバッファ機能あるいは装置（「バッファ」）１２０は、別のフィードをＶＡＤ１０８に供給する。ＶＡＤ出力１０３は、強調された音声オーディオ出力を提供する音声強調１０２に、図１ａのように送られる。説明の明瞭さのために分けて示されるが、ＳＶＯ１０７および／またはバッファ１０６はエンコーダ１１０と一体化されてもよい。同様に、説明の明瞭さのために分けて示されるが、ＶＡＤ１０８および／またはバッファ１２０はデコーダ１１８または音声強調１０２と一体化されてもよい。

処理されるオーディオ信号が予め記録されているならば、たとえば消費者の家庭でＤＶＤから再生するときや放送の環境でオフライン処理するときなどであるが、音声対その他弁別器および／または音声活動検出器は、再生の間に、現在の信号サンプルまたは信号ブロックの後で起こる信号部分を含む信号部分に作用する。このことは図２に示され、記号信号バッファ２０１は、再生の間に、現在の信号サンプルまたは信号ブロックの後で起こる信号部分を含む（「先読み」）。信号が予め記録されていないとしても、オーディオエンコーダが実質的な特有の処理遅れを有するときには先読みは依然として使われる。

音声強調１０２の処理パラメータは、圧縮器のダイナミック応答速度より低い速度で、
処理されたオーディオ信号に応答してアップデートされる。処理パラメータをアップデートするときに追求するであろう多くの目的がある。たとえば、音声強調プロセッサのゲイン関数処理パラメータはプログラムの平均音声レベルに応じて調整され、長期平均音声スペクトルの変化が音声レベルと無関係になるようにする。そのような調整の効果と必要性とを理解するために、以下の例を考える。音声強調は信号の高周波数部分にだけ適用される。与えられた平均音声レベルで、高周波信号部分のパワー推定３０１はＰ１を平均し、ここでＰ１は、圧縮閾値出力３０４より大きい。このパワー推定に関連するゲインはＧ１であり、Ｇ１は、信号の高周波部分に適用される平均ゲインである。低周波数部分ではゲインがないので、平均音声スペクトルは、低周波数より高周波数でＧ１デシベル（ｄＢ）高い形となる。ここで、平均音声レベルがある値ΔＬだけ増加したときに何が起きるかを考える。平均音声レベルのΔＬｄＢの増加は、高周波信号部分の平均パワー推定３０１をＰ２＝Ｐ１＋ΔＬに増大する。図３ａから分かるように、高いパワー推定Ｐ２は、Ｇ１より小さなゲインＧ２を生じさせる。結果として、処理された信号の平均音声スペクトルは、入力の平均レベルが高いときに、低いときよりもより小さな高周波数の強調を示す。リスナーは、平均音声レベルの違いをボリューム調整で補正するので、平均高周波数強調のレベル依存状態は好ましくない。それは、図３ａ〜３ｃのゲイン曲線を平均音声レベルで修正することにより消去できる。図３ａ〜３ｃについて以下に説明する。

音声強調１０２の処理パラメータはまた、音声了解度メトリックが最大となるか、あるいは、所望の閾値レベルより大きくなされるように調整される。音声了解度メトリックは、オーディオ信号の相対的レベルとリスニング環境の競合音（航空機内ノイズのような）とから計算される。オーディオ信号が、１チャンネルに音声信号で、残りのチャンネルに非音声信号の多チャンネルオーディオ信号であれば、音声了解度メトリックは、たとえば、全チャンネルの相対的レベルとそれらのスペクトルエネルギの分布とから計算される。適切な了解度メトリックは周知である［たとえば、ＡＮＳＩＳ３．５−１９９７「音声了解度指数の計算方法（ＭｅｔｈｏｄｆｏｒＣａｌｃｕｌａｔｉｏｎｏｆｔｈｅ
ＳｐｅｅｃｈＩｎｔｅｌｌｉｇｉｂｉｌｉｔｙＩｎｄｅｘ）」米国規格協会１９９７年、あるいは、ミュッシュ、ブース（Ｍｕｓｃｈ、Ｂｕｕｓ）「音声了解度予知のための統計決定理論の使用Ｉ．モデル構造（Ｕｓｉｎｇｓｔａｔｉｓｔｉｃａｌｄｅｃｉｓｉｏｎｔｈｅｏｒｙｔｏｐｒｅｄｉｃｔｓｐｅｅｃｈｉｎｔｅｌｌｉｇｉｂｉｌｉｔｙ．ＩＭｏｄｅｌＳｔｒｕｃｔｕｒｅ）」アメリカ音響学会誌（ＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ）、２００１年、１０９巻、２８９６〜２９０９ページ］。

図１ａと図１ｂの機能的ブロック図に示され、ここで説明した本発明の態様は、図３ａ〜３ｃおよび図４の例のように実行される。この例では、音声成分の周波数形状圧縮増幅と非音声成分処理からの解放は、圧縮および拡大特性双方を実装するマルチ帯域ダイナミックレンジプロセッサ（不図示）で実現される。そのようなプロセッサは、１組のゲイン関数で特徴付けられる。各ゲイン関数は、１周波数帯域の入力パワーを対応する帯域ゲインに関係付け、対応する帯域ゲインはその帯域の信号成分に適用される。そのような関係の１つを図３ａ〜３ｃに図示する。

図３ａを参照して、帯域入力パワー３０１の推定はゲイン曲線により所望の帯域ゲイン３０２に関連付けられる。そのゲイン曲線は２成分の曲線の最小値とみなされる。実線で示される１成分の曲線は、圧縮閾値３０４より大きなパワー推定３０１の適切に選択された圧縮比（「ＣＲ」）３０３と圧縮閾値以下でのパワー推定の一定のゲインとの圧縮特性を有する。破線で示される、他の成分の曲線は、拡大閾値３０６より大きなパワー推定の適切に選択された拡大比（「ＥＲ」）３０５と、より小さいパワー推定のゼロのゲインとの拡大特性を有する。最終的なゲイン曲線はこれら２成分の曲線の最小値となる。

圧縮閾値３０４、圧縮比３０３および圧縮閾値でのゲインは、固定パラメータである。それらの選定は、特定の帯域で音声信号の包絡線とスペクトルがどのように処理されるかを決定する。理想的には、それらは規定された式に従って選定され、その式は、所与の聴力を有する１グループのリスナーに対しそれぞれの帯域で適切なゲインと圧縮比を決定する。そのような規定された式の例はＮＡＬ−ＮＬ１であり、ＮＡＬ−ＮＬ１はオーストラリアの国立音響研究所（ＮａｔｉｏｎａｌＡｃｏｕｓｔｉｃｓＬａｂｏｒａｔｏｒｙ）で開発され、エイチ・ディロン（Ｈ．Ｄｉｌｌｏｎ）により「聴覚補助性能の規定（Ｐｒｅｓｃｒｉｂｉｎｇｈｅａｒｉｎｇａｉｄｐｅｒｆｏｒｍａｎｃｅ）」［エイチ・ディロン編集、聴覚補助（ＨｅａｒｉｎｇＡｉｄｓ）（２４９〜２６１ページ）；シドニー；ブーメラン・プレス（ＢｏｏｍｅｒａｎｇＰｒｅｓｓ）、２００１年］で説明される。しかし、それらも、単にリスナーの好みに基づいている。特定の帯域の圧縮閾値３０４と圧縮比３０３は、映画のサウンドトラックのせりふの平均レベルなど、所定のオーディオプログラムに特有のパラメータにさらに依存する。

圧縮閾値が固定されているのに対し、拡大閾値３０６は適応型で、入力信号に応じて変化するのが好ましい。拡大閾値は、圧縮閾値より大きな値を含めて、システムのダイナミックレンジ内の任意の値を仮定する。入力信号で音声が支配的であるときには、以下に説明するコントロール信号は拡大閾値を下方レベルに動かし、入力レベルを拡大が適用されるパワー推定のレンジより高くする（図３ａと図３ｂ参照）。その条件では、信号に適用されるゲインは、プロセッサの圧縮特性が支配的となる。図３ｂは、そのような条件を表すゲイン関数の例を示す。

入力信号で音声以外のオーディオが支配的なときには、コントロール信号は拡大閾値を高レベルに動かし、入力レベルは拡大閾値より低くなる傾向となる。その条件では、信号成分の大部分はゲインを受けない。図３ｃはそのような状況を表すゲイン関数の例を示す。

前記説明の帯域パワー推定は、フィルタバンクの出力あるいはＤＦＴ（離散フーリエ変換）、ＷＤＣＴ（修正離散コサイン変換）あるいはウェーブレット変換などのような時間−周波数ドメイン変換の出力を分析することにより導かれる。パワー推定はまた、信号の平均絶対値、Ｔｅａｇｅｒエネルギのような信号の強さに関連する量、あるいは音量のような知覚の量により置き換えられる。さらに、帯域パワー推定は、時間について平滑化し、ゲインが変化する速さをコントロールする。

本発明の態様によれば、拡大閾値は理想的には、信号が音声のとき信号レベルがゲイン関数の拡大領域の上にあり、信号が音声以外のオーディオであるとき信号レベルがゲイン関数の下にあるように置かれる。以下に説明するように、このことは非音声オーディオのレベルを追跡し、そのレベルに関連して拡大閾値を置くことにより達成される。

ある従来技術のレベル追跡は、下方への拡大（あるいはスケルチ）がノイズ低減システムの一部として適用されるより低い閾値を設定し、ノイズ低減システムは好ましいオーディオと好ましくないノイズとを弁別しようとする。たとえば、米国特許第３８０３３５７号、第５２６３０９１号、第５７７４５５７号および第６００５９５３号参照。対照的に、本発明の態様では、一方の音声と他方のたとえば音楽や効果音など残りの全てのオーディオ信号間の識別をすることが必要である。従来技術で追跡されたノイズは、好ましいオーディオの時間的空間的包絡線より遥かに小さく変動する時間的空間的包絡線により特徴付けられる。さらに、ノイズは、先験的に知られている独特なスペクトル形状を有する。そのような識別的な特徴は、従来技術のノイズ追跡により使用されている。対照的に、本発明の態様では非音声オーディオ信号のレベルを追跡する。多くの場合、そのような非音声オーディオ信号は、その包絡線とスペクトル形状にばらつきを示し、それらは少なくと
も音声オーディオ信号のものと同じ大きさである。したがって、本発明で用いられるレベル追跡には、音声とノイズの間よりも音声と非音声との間の識別に適した信号特徴を分析する必要がある。

図４は、１周波数帯域の音声強調ゲインが、その帯域の信号パワー推定からどのように導かれるかを示す。ここで図４を参照して、帯域限定信号４０１を表すものがパワー推定器あるいは推定装置（「パワー推定」）４０２に送られ、パワー推定４０２はその周波数帯域の信号パワー４０３の推定を生成する。その信号パワー推定は、パワーゲイン変換あるいは変換機能（「ゲイン曲線」）４０４に送られ、ゲイン曲線４０４は図３ａ〜３ｃで示される例の形をしていてもよい。パワーゲイン変換あるいは変換機能４０４は、その帯域（不図示）の信号パワーを修正するのに用いられる帯域ゲイン４０５を生成する。

信号パワー推定４０３はまた、音声ではない帯域の全信号成分のレベルを追跡する装置または機能（「レベルトラッカ」）４０６に送られる。レベルトラッカ４０６は、適応漏洩率の漏洩最少保持回路あるいは機能（「最少保持」）４０７を含む。この漏洩率は時定数４０８にコントロールされ、時定数４０８は音声が主体の信号パワーの時には低く、音声以外のオーディオが主体の信号パワーの時には高くなる傾向がある。時定数４０８は、その帯域での信号パワー４０３の推定に含まれる情報から導かれる。具体的には、時定数は、４Ｈｚと８Ｈｚの間の周波数領域の帯域信号包絡線のエネルギに単調に関連する。その特徴は、適切に同調したバンドパスフィルタあるいはフィルタ機能（「バンドパス」）４０９により抽出される。バンドパス４０９の出力は、伝達機能（「パワー−時間定数」）４１０により時定数に関連付けられる。非音声成分のレベル推定４１１は、レベルトラッカ４０６により生成されるが、バックグラウンドレベルの推定を拡大閾値４１４に関連付ける変換あるいは変換機能（「パワー−拡大閾値」）４１２への入力である。レベルトラッカ４０６、変換４１２および下方への拡大（拡大率３０５により特徴付けられる）の組み合わせは、図１ａおよび図１ｂのＶＡＤ１０８に相当する。

変換４１２は単なる追加であり、すなわち、拡大閾値３０６は非音声オーディオの推定レベル４１１より上の固定数値のデシベルである。あるいは、推定バックグラウンドレベル４１１を拡大閾値３０６に関連付ける変換４１２は、ブロードバンド信号が音声である可能性の独立した推定４１３に依存する。したがって、推定４１３が、信号が音声である高い可能性を示すときには、拡大閾値は下げられる。反対に、推定４１３が、信号が音声である低い可能性を示すときには、拡大閾値は増大される。音声可能性推定４１３は単一の信号特徴からあるいは音声を他の信号から識別した信号特徴の組み合わせから導かれる。それは、図１ａおよび図１ｂのＳＶＯ１０７の出力１０９に対応する。音声可能性４１３の推定に由来するそれらを処理する適切な信号特徴と方法は、当業者に周知である。その例は米国特許第６，７８５，６４５号、第６，５７０，９９１号、および米国特許出願第２００４００４４５２５号、並びにそれらに含まれる参考文献に説明されている。

［参照による組み込み］
下記の特許、特許出願および出版物は、それぞれの全体を参照して本明細書に組み込む。・米国特許第３，８０３，３５７号、サックス（Ｓａｃｋｓ）、１９７４年４月９日、ノイズ・フィルタ（ＮｏｉｓｅＦｉｌｔｅｒ）
・米国特許第５，２６３，０９１号、ウォーラー・ジュニア（Ｗａｌｌｅｒ，Ｊｒ．）、１９９３年１１月１６日、インテリジェント自動閾値回路（Ｉｎｔｅｌｌｉｇｅｎｔａｕｔｏｍａｔｉｃｔｈｒｅｓｈｏｌｄｃｉｒｃｕｉｔ）
・米国特許第５，３８８，１８５号、テリー（Ｔｅｒｒｙ）他、１９９５年２月７日、電話音声信号の適応処理用システム（Ｓｙｓｔｅｍｆｏｒａｄａｐｔｉｖｅｐｒｏｃｅｓｓｉｎｇｏｆｔｅｌｅｐｈｏｎｅｖｏｉｃｅｓｉｇｎａｌｓ）
・米国特許第５，５３９，８０６号、アレン（Ａｌｌｅｎ）他、１９９６年７月２３日、
電話音量強調の顧客選定のための方法（Ｍｅｔｈｏｄｆｏｒｃｕｓｔｏｍｅｒｓｅｌｅｃｔｉｏｎｏｆｔｅｌｅｐｈｏｎｅｓｏｕｎｄｅｎｈａｎｃｅｍｅｎｔ）
・米国特許第５，７７４，５５７号、スレイター（Ｓｌａｔｅｒ）、１９９８年６月３０日、航空機内通話システム用オートトラッキング・マイクロフォン・スケルチ（Ａｕｔｏｔｒａｃｋｉｎｇｍｉｃｒｏｐｈｏｎｅｓｑｕｅｌｃｈｆｏｒａｉｒｃｒａｆｔ
ｉｎｔｅｒｃｏｍｓｙｓｔｅｍｓ）
・米国特許第６，００５，９５３号、シュトゥールフェルナー（Ｓｔｕｈｌｆｅｌｎｅｒ）、１９９９年１２月２１日、信号雑音比を改良するための回路配置（Ｃｉｒｃｕｉｔａｒｒａｎｇｅｍｅｎｔｆｏｒｉｍｐｒｏｖｉｎｇｔｈｅｓｉｇｎａｌ-ｔｏ-ｎｏｉｓｅｒａｔｉｏ）
・米国特許第６，０６１，４３１号、クナッペ（Ｋｎａｐｐｅ）他、２０００年５月９日、電話番号分解能に基づく電話技術システムにおける聴力低下矯正の方法（Ｍｅｔｈｏｄ
ｆｏｒｈｅａｒｉｎｇｌｏｓｓｃｏｍｐｅｎｓａｔｉｏｎｉｎｔｅｌｅｐｈｏｎｙｓｙｓｔｅｍｓｂａｓｅｄｏｎｔｅｌｅｐｈｏｎｅｎｕｍｂｅｒｒｅｓｏｌｕｔｉｏｎ）
・米国特許第６，５７０，９９１号、シャイラー（Ｓｃｈｅｉｒｅｒ）他、２００３年５月２７日、多特徴の音声／音楽識別システム（Ｍｕｌｔｉ-ｆｅａｔｕｒｅｓｐｅｅｃ
ｈ／ｍｕｓｉｃｄｉｓｃｒｉｍｉｎａｔｉｏｎｓｙｓｔｅｍ）
・米国特許第６，７８５，６４５号、カリル（Ｋｈａｌｉｌ）他、２００４年８月３１日、リアルタイム音声および音楽分類器（Ｒｅａｌ-ｔｉｍｅｓｐｅｅｃｈａｎｄｍ
ｕｓｉｃｃｌａｓｓｉｆｉｅｒ）
・米国特許第６，９１４，９８８号、イワン（Ｉｒｗａｎ）他、２００５年７月５日、オーディオ再生装置（Ａｕｄｉｏｒｅｐｒｏｄｕｃｉｎｇｄｅｖｉｃｅ）
・米国公開特許出願第２００４／００４４５２５号、ビントン（Ｖｉｎｔｏｎ）、マーク・スチュアート（ＭａｒｋＳｔｕａｒｔ）他、２００４年３月４日、音声と他のタイプのオーディオ素材を含む信号における音声の音量の調整（ｃｏｎｔｒｏｌｌｉｎｇｌｏｕｄｎｅｓｓｏｆｓｐｅｅｃｈｉｎｓｉｇｎａｌｓｔｈａｔｃｏｎｔａｉｎ
ｓｐｅｅｃｈａｎｄｏｔｈｅｒｔｙｐｅｓｏｆａｕｄｉｏｍａｔｅｒｉａｌ）
・チャールス・Ｑ・ロビンソン（ＣｈａｒｌｅｓＱ．Ｒｏｂｉｎｓｏｎ）、ケニス・ガンドリ（ＫｅｎｎｅｔｈＧｕｎｄｒｙ）「メタデータを介してのダイナミックレンジコントロール（ＤｙｎａｍｉｃＲａｎｇｅＣｏｎｔｒｏｌｖｉａＭｅｔａｄａｔａ）」会議資料５０２８、第１０７回オーディオ工学会会議（ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ）、ニューヨーク、１９９９年９月２４−２７日
［実施］
本発明は、ハードウェアまたはソフトウェアで、あるいは両方の組み合わせ（たとえば、プログラマブル・ロジック・アレイ）で実施できる。特に断らない限り、本発明の一部として含まれるアルゴリズムは、本質的に特定のコンピュータや他の装置に関連することはない。特に、種々の汎用機を本書の教示に従って書かれたプログラムと用いてもよく、あるいは、必要な方法のステップを実行するための、さらに特化した装置（たとえば、集積回路）を構築すると、さらに使いやすくなる。よって、本発明は、１つ以上のプログラム可能なコンピュータシステム上で実行する１つ以上のコンピュータプログラムで実施され、それぞれのシステムは、少なくとも１つのプロセッサ、少なくとも１つのデータ保存システム（揮発性および不揮発性メモリおよび／または保存要素を含む）、少なくとも１つの入力装置あるいはポート、および、少なくとも１つの出力装置あるいはポートを備える。プログラムコードは、本書で説明した機能を実行するのにデータを入力し、出力情報を生成するのに用いられる。出力情報は、周知のやり方で、１つ以上の出力装置に適用される。

そのようなプログラムのそれぞれは、コンピュータシステムとコミュニケーションするのにどのようなコンピュータ言語（機械語、アセンブリ、あるいは、高水準手続、論理あるいはオブジェクト指向プログラム言語を含む）で実行されてもよい。どのような場合であっても、言語はコンパイルされた言語またはインタープリットされた言語でよい。

各コンピュータプログラムは、汎用または専用プログラム可能コンピュータで可読な保存媒体または装置（たとえば、ソリッドステートメモリ若しくは媒体、または、磁気若しくは光学媒体）に保存され、あるいは、ダウンロードされるのが好ましく、保存媒体または装置がコンピュータシステムで読み取られて本書で説明した手順を実行するときに、コンピュータを構築し作動する。本発明のシステムは、コンピュータプログラムで構築されるコンピュータ可読保存媒体として実行されることも考えられ、そのように構築された保存媒体は、コンピュータシステムに特定の予め定めた方法で動作し、本書で説明した機能を実行させる。

多くの本発明の実施の形態を説明してきた。それでもなお、本発明の思想と範囲から離れることなしに種々の改変がなされうることは分かるであろう。たとえば、本書で説明したステップのいくつかは、順番が自由であり、よって、説明された順番とは異なる順番で実行することができる。

Claims

エンターテイメントオーディオの音声を強調する方法であって、
前記エンターテイメントオーディオの音声部分の明瞭度と了解度を改良するため、前記エンターテイメントオーディオを、１つ以上のコントロール信号に応答して処理する工程を備え、
前記処理する工程は、
複数の周波数帯域のそれぞれの前記エンターテイメントオーディオのレベルを、ゲイン曲線から求まる帯域信号レベルに対応したゲイン特性に従って、変化させる工程と；
周波数帯域のそれぞれの前記ゲイン特性を変化させるコントロール信号を生成する工程と
を含み、
前記生成する工程は、
前記エンターテイメントオーディオの時間断片を（ａ）音声もしくは非音声、または、（ｂ）音声である可能性が高いまたは非音声である可能性が高いとして特徴付ける工程であって、前記特徴付ける工程は、単一の広周波数帯域に作用する、特徴付ける工程と；
前記複数の周波数帯域のそれぞれで、音声レベルの変動量を得る工程と；
前記複数の周波数帯域のそれぞれで、前記帯域でのオーディオレベルの最小値を追跡する工程であって、時定数は、前記変動量に応答して低くまたは高くなる、追跡する工程と；
前記エンターテイメントオーディオの非音声成分のレベル推定を、対応する適応閾値レベルに変換する工程と；
各帯域における入力信号としての前記エンターテイメントオーディオに応じて、前記各対応する適応閾値レベルを導出する工程と
を含み、
前記時定数は、前記エンターテイメントオーディオの適応漏洩率を制御する、
方法。
エンターテイメントオーディオの音声を強調する方法であって、
前記エンターテイメントオーディオの音声部分の明瞭度と了解度を改良するため前記エンターテイメントオーディオを１つ以上のコントロール信号に応答して処理する工程を備え、
前記処理する工程は、
複数の周波数帯域のそれぞれの前記エンターテイメントオーディオのレベルを、ゲイン曲線から求まる帯域信号レベルに対応したゲイン特性に従って、変化させる工程と；
周波数帯域のそれぞれの前記ゲイン特性を変化させるコントロール信号を生成する工程と
を含み、
前記生成する工程は、
（ａ）音声もしくは非音声、または、（ｂ）音声である可能性が高いまたは非音声である可能性が高いという、前記エンターテイメントオーディオの時間断片の特徴を受信する工程であって、前記受信する工程は、単一の広周波数帯域に関連する、受信する工程と；
前記複数の周波数帯域のそれぞれで、音声レベルの変動量を得る工程と；
前記複数の周波数帯域のそれぞれで、前記帯域でのオーディオレベルの最小値を追跡する工程であって、時定数は、前記変動量に応答して低くまたは高くなる、追跡する工程と；
各周波数帯域の追跡された最小値を対応する適応閾値レベルに変換する工程と；
前記エンターテイメントオーディオの非音声成分のレベル推定を、対応する適応閾値レベルに変換する工程と；
各帯域における入力信号としての前記エンターテイメントオーディオに応じて、前記各
対応する適応閾値レベルを導出する工程と
を含み、
前記時定数は、前記エンターテイメントオーディオの適応漏洩率を制御する、
方法。
処理するポイントの前と後で前記エンターテイメントオーディオの経過時間の或る時点にアクセスすることができ、
前記コントロール信号を生成する工程は、前記処理するポイントの後の少なくとも若干のオーディオに応答する、
請求項１または２記載の方法。
前記処理する工程は、１つあるいは複数の処理パラメータに従って動作する、
請求項１〜３いずれか１項記載の方法。
１つあるいは複数の前記処理パラメータの調整は、処理されたオーディオの音声了解度のメトリックが最大化されるか所定の閾値レベル以上になされるかするように、前記エンターテイメントオーディオに応答する、
請求項４記載の方法。
前記エンターテイメントオーディオは複数チャンネルのオーディオを備え、前記複数チャンネルのオーディオでは、１つのチャンネルは主として音声であり、１つ以上の他のチャンネルは主として非音声であり、
音声了解度のメトリックは、前記音声のチャンネルのレベルと前記１つ以上の他のチャンネルのレベルに基づく、
請求項５記載の方法。
前記音声了解度のメトリックは、前記処理されたオーディオが再生される聴取環境でのノイズのレベルにも基づく、
請求項５または６記載の方法。
１つあるいは複数の処理パラメータの調整は、前記エンターテイメントオーディオの１つ以上の長期間の記述子に応答する、
請求項４〜７いずれか１項記載の方法。
前記長期間の記述子は、前記エンターテイメントオーディオのせりふの平均レベルである、
請求項８記載の方法。
前記長期間の記述子は、予め記録された前記エンターテイメントオーディオの処理の推定である、
請求項８または９記載の方法。
１つあるいは複数のパラメータの調整は規定された式に従い、
前記規定された式は、１人のリスナーまたはグループのリスナーの聴力を前記１つあるいは複数の処理パラメータに関連付ける；
請求項４記載の方法。
１つあるいは複数のパラメータの調整は、１人または複数のリスナーの好みに従う、
請求項４記載の方法。
前記処理する工程は、ダイナミックレンジコントロール、ダイナミック等化、スペクトル先鋭化、周波数転位、音声抽出、ノイズ低減、あるいは、他の音声強調処置を提供する、
請求項１〜１２のいずれか１項記載の方法。
ダイナミックレンジコントロールは、ダイナミックレンジ圧縮／拡大機能により提供される、
請求項１３記載の方法。
請求項１〜１４のいずれか１項記載の方法を実行するのに用いられる手段を備える、装置。
請求項１〜１４のいずれか１項記載の方法をコンピュータに実行させるためにコンピュータ可読媒体に保存された、コンピュータプログラム。
請求項１〜１４のいずれか１項記載の方法をコンピュータに実行させるコンピュータプログラムを保存している、コンピュータ可読媒体。