JP2014524593A

JP2014524593A - 適応音声了解度プロセッサ

Info

Publication number: JP2014524593A
Application number: JP2014523980A
Authority: JP
Inventors: ノウ、デキュン; ヘ、シン; トレーシー、ジェームズ
Original assignee: DTS LLC
Current assignee: DTS LLC
Priority date: 2011-07-29
Filing date: 2012-07-26
Publication date: 2014-09-22
Anticipated expiration: 2032-07-26
Also published as: PL2737479T3; WO2013019562A2; EP2737479A2; HK1197111A1; KR102060208B1; US9117455B2; EP2737479B1; CN103827965B; KR20140079363A; WO2013019562A3; US20130030800A1; CN103827965A; TW201308316A; TWI579834B; JP6147744B2

Abstract

音声了解度を改善するために適応してスピーチを処理するためのシステムと方法が、記述されている。これらのシステムと方法は、適応してホルマントロケーションを識別し、追跡することができ、それにより、ホルマントロケーションが変わるときに、ホルマントを強調することができる。結果として、これらのシステムと方法は、ノイズのある環境であっても、近端了解度を改善することができる。システムと方法は、ボイスオーバＩＰ（ＶｏＩＰ）応用、電話及び／またはビデオ会議応用（セルラーフォン、スマートフォン、及び類似物を含む）、ラップトップ、タブレット通信、及び類似物において実現されることができる。システムと方法はまた、瞬間的スピーチのような、音声追跡なしで生成されたスピーチを含み得る非有声のスピーチを向上することができる。

Description

（関連出願）
この出願は、その全てを参照することによりここにその開示が組み込まれている、２０１１年７月２９日出願、米国仮特許出願６１／５１３，２９８号、発明の名称「Adaptive Voice Intelligibility Processor」に、米国合衆国法典第３５部第１１９条の下、優先権を主張する。

移動電話（mobile phone）は、しばしば、高いバックグラウンドノイズを含むエリアで使用される。このノイズは、しばしば、移動電話スピーカーからの口頭の通信の了解度が、大きく低下されるようなレベルである。多くのケースでは、リスナーが聞いているときに、高い周囲のノイズレベルが発呼者の音声を覆ったり、または、歪ませたりするので、いくつかの通信は、損なわれる、または、少なくとも部分的に損なわれる。

高いバックグラウンドノイズが存在するときに、了解度の損失を最小化する試みは、イコライザ、クリッピング回路の使用、または、単純に移動電話のボリュームを増加させることに関係している。イコライザとクリッピング回路は、自身でバックグラウンドノイズを増加させることがあり、それにより、問題を解決し損なう。移動電話のサウンドまたはスピーカーのボリュームの全体的レベルを増加させることでは、しばしば、了解度を著しく改善することがなく、フィードバックとリスナーの不快さのような他の問題を引き起こすことがある。

本開示を要約するために、発明のいくつかの観点、利点、新規の特徴がここに記述されている。全てのこのような利点は、ここに開示されている発明の何らかの特定の実施形態に従って必ず達成されることができるというわけではないことを理解すべきである。従って、ここに開示された発明は、ここに教示されるような１つの利点または利点のグループを達成または最適化する方法で、具体化され、実施され、ここに教示または示唆されるかもしれないような他の利点を必ずしも達成しなくてもよい。

ある実施形態では、音声了解度エンハンスメントを調整する方法は、入力音声信号を受信することと、リニア予測符号化（ＬＰＣ）処理で入力音声信号のスペクトル表現を取得することを含む。スペクトル表現は、１つ以上のホルマント周波数を含むことができる。方法は、１つ以上のホルマント周波数を強調するように構成されたエンハンスメントフィルタを作り出すために、１つ以上のプロセッサで入力音声信号のスペクトル表現を調整することを含む。加えて、方法は、向上されたホルマント周波数で、修正された音声信号を作り出すために入力音声信号の表現に対するエンハンスメントフィルタを適用すること、入力音声信号に基づく包絡線を検出すること、１つ以上の時間的エンハンスメントパラメータを決定するために修正された音声信号の包絡線を分析することを含むことができる。更に、方法は、出力音声信号を作り出すために修正された音声信号に対する１つ以上の時間的エンハンスメントパラメータを適用することを含むことができる。少なくとも、１つ以上の時間的エンハンスメントパラメータを適用することは、１つ以上のプロセッサにより実行されることができる。

ある実施形態では、前述の段落の方法は、以下の特徴の何らかの組み合わせを含むことができる。１つ以上の時間的エンハンスメントパラメータを修正された音声信号に適用することが、修正された音声信号における選択された子音を強調するために、修正された音声信号の１つ以上の包絡線におけるピークを鋭利にすることを含み、包絡線を検出することは、１つ以上の入力音声信号及び修正された音声信号の包絡線を検出することを含み、前記エンハンスメントフィルタを入力音声信号の表現に適用することが、励起信号にエンハンスメントフィルタを適用することを備えるように、励起信号を作り出すために入力音声信号に対する逆フィルタを適用することをさらに含む。

いくつかの実施形態では、音声了解度エンハンスメントを調整するためのシステムは、入力オーディオ信号の少なくとも一部分のスペクトル表現を取得することができる分析モジュールを含む。スペクトル表現は、１つ以上のホルマント周波数を含むことができる。システムは、また、１つ以上のホルマント周波数を強調することができるエンハンスメントフィルタを生成することができるホルマントエンハンスメントモジュールを含むこともできる。エンハンスメントフィルタは、修正された音声信号を作り出すために１つ以上のプロセッサで入力オーディオ信号の表現に適用されることができる。さらに、システムは、時間的エンハンスメントを修正された音声信号の１つ以上の包絡線に少なくとも一部基づいて修正された音声信号に適用するように構成された時間的包絡線整形器（enveloper shaper）を含むこともできる。

ある実施形態では、先の段落のシステムは、以下の特徴の何らかの組み合わせを含むことができる。分析モジュールは、スペクトル表現に対応する係数を生成するように構成されたリニア予測符号化技術を使用して入力オーディオ信号のスペクトル表現を取得するようにさらに構成され、係数を線スペクトル対にマップするように構成されたマッピングモジュールをさらに含み、ホルマント周波数に対応するスペクトル表現において利得を増加させるために線スペクトル対を修正することをさらに含み、エンハンスメントフィルタは、入力オーディオ信号及び入力オーディオ信号から導きだされた励起信号の１つ以上に適用されるようにさらに構成されており、時間的包絡線整形器は、修正された音声信号を複数の帯域に細分するようにさらに構成され、１つ以上の包絡線は、少なくともいくつかの複数の帯域の包絡線に対応し、入力マイクロフォン信号における検出された環境ノイズの量に少なくとも部分的に基づいてエンハンスメントフィルタの利得を調整するように構成されることができる音声エンハンスメントコントローラをさらに含み、入力マイクロフォン信号における音声を検出し、検出された音声に応答する音声エンハンスメントコントローラを制御するように構成された音声アクティビティ検出器をさらに含み、音声アクティビティ検出器は、音声エンハンスメントコントローラに、入力マイクロフォン信号において音声検出に応答し先のノイズ入力に基づいてエンハンスメントフィルタの利得を調整させるようにさらに構成されており、入力マイクロフォン信号を受信するように構成されたマイクロフォンの利得をセットするように構成されたマイクロフォンキャリブレーションモジュールをさらに含み、マイクロフォンキャリブレーションモジュールは、参照信号及び記録されたノイズ信号に少なくとも一部基づいて、利得をセットするようにさらに構成されている。

幾つかの実施形態では、音声了解度エンハンスメントを調整するためのシステムは、入力音声信号のスペクトルに対応するＬＰＣ係数を取得するためにリニア予測符号化（ＬＰＣ）技術を適用することができるリニア予測符号化分析モジュールを含み、スペクトルは、１つ以上のホルマント周波数を含む。システムは、前記ＬＰＣ係数を線スペクトル対にマップすることができるマッピングモジュールも含んでもよい。システムは、１つ以上のプロセッサを含むホルマントエンハンスメントモジュールを含むこともでき、ホルマントエンハンスメントモジュールは、線スペクトル対を修正し、それにより入力音声信号のスペクトルを調整し、１つ以上のホルマント周波数を強調することができるエンハンスメントフィルタを作り出すことができる。エンハンスメントフィルタは、修正された音声信号を作り出すために入力音声信号の表現に適用されることができる。

様々な実施形態では、先の段落のシステムは、以下の特徴の何らかの組み合わせを含むことができる。入力マイクロフォン信号における音声を検出し、エンハンスメントフィルタの利得が入力マイクロフォン信号における音声検出に応答し調整されるようにすることができる音声アクティビティ検出器をさらに含み、入力マイクロフォン信号を受信することができるマイクロフォンの利得をセットできるマイクロフォンキャリブレーションモジュールをさらに含み、マイクロフォンキャリブレーションモジュールは、参照信号及び記録されたノイズ信号に少なくとも一部基づいて、利得をセットするようにさらに構成されており、エンハンスメントフィルタは、前記入力音声信号及び前記入力音声信号から導きだされた励起信号の１つ以上に適用されるようにさらに構成されており、時間的エンハンスメントを修正された音声信号の１つ以上の包絡線に少なくとも一部基づいて修正された音声信号に適用することができる時間的包絡線整形器をさらに含み、時間的包絡線整形器は、修正された音声信号の選択された部分を強調するために、修正された音声信号の１つ以上の包絡線におけるピークを鋭利にするようにさらに構成されている。

図面を通して、参照された要素間での対応を示すために、参照番号は、再使用されてもよい。図面は、ここに記述される発明の実施形態を図示するために提供され、発明の範囲を限定しないよう提供されている。

音声エンハンスメントシステムを実現することができる移動電話環境の実施形態を図示している。音声エンハンスメントシステムの更なる詳細な実施形態を図示している。適応音声エンハンスメントモジュールの実施形態を図示している。スピーチスペクトルの例示的プロットを示している。適応音声エンハンスメントモジュールの別の実施形態を図示している。時間的包絡線整形器の実施形態を図示している。時間領域スピーチ包絡線の例示的プロットを図示している。アタックとディケイ包絡線の例示的プロットを図示している。音声検出処理の実施形態を図示している。マイクロフォンキャリブレーション処理の実施形態を図示している。

I．イントロダクション
既存の音声了解度システムは、ある母音と自鳴音子音に対応するスピーカーの音声和音により生成された共鳴周波数を含むことがある、スピーチ中のホルマントを強調するよう試みる。これら既存のシステムは、一般的には、ホルマントが生じると見込まれる異なる固定された周波数帯域で、ホルマントを強調する帯域通過フィルタを有するフィルタバンクを用いる。このアプローチにおける問題は、ホルマントロケーションが、異なる個人で異なることがあることである。さらに、所与の個人のホルマントロケーションは、時間と共に変化することもある。依って、固定された帯域通過フィルタが、所与の個人のホルマント周波数とは異なる周波数を強調するかもしれず、音声了解度に障害をもたらすことになる。

この開示は、他の特徴の中で、音声了解度を改善するために、スピーチを適応して処理するためのシステムと方法について記述している。ある実施の形態では、これらのシステムと方法は、ホルマントロケーションを適応して識別し、追跡することができ、それにより、ホルマントが変化しているときに、ホルマントを強調することができる。結果として、これらのシステムと方法は、ノイズのある環境であっても、近端了解度を改善することができる。システムと方法は、瞬間的スピーチのような、声道なしで生成されたスピーチを含むことがある非有声の（non-voiced）スピーチを向上することもできる。向上されることができる非有声のスピーチのいくつかの例は、破裂音、摩擦音、破擦音のような閉鎖音の子音を含んでいる。

多くの技術は、ホルマントロケーションを適応して追跡するために使用されることができる。適応フィルタリングは、このような１つの技術である。いくつかの実施形態では、リニア予測符号化（LPC）のコンテキストで用いられる適応フィルタリングは、ホルマントを追跡するために使用されることができる。便宜上、明細書の残りの部分は、ＬＰＣのコンテキストで、適応ホルマント追跡について記述するだろう。しかしながら、多くの他の適応処理技術は、ある実施の形態においてホルマントロケーションを追跡するのに、ＬＰＣの代わりに使用されることができることが、理解されるべきである。ＬＰＣの代わりに、または、ＬＰＣに加えて、ここで使用されることができる技術のいくつかの例は、多帯域エネルギー復調、極相互作用、パラメータフリー非リニア予測、コンテキスト依存の音素情報を含む。

ＩＩ．システム概要
図１は、音声エンハンスメントシステム１１０を実現することができる移動電話環境１００の実施形態を図示している。音声エンハンスメントシステム１１０は、音声入力信号１０２の了解度を増加させるためのハードウェア及び／またはソフトウェアを含むことができる。例えば、音声エンハンスメントシステム１１０は、（例えば破裂音、摩擦音を含む子音のような）非音声の（non-vocal）サウンドと同様にホルマントのような音声のサウンドの顕著な特徴を強調する音声エンハンスメントで、音声入力信号１０２を処理することができる。

移動電話環境１００の例では、発呼電話１０４と着呼電話１０８が示されている。この例においては、音声エンハンスメントシステム１１０は、着呼電話１０８にインストールされているが、他の実施の形態においては、両方の電話に音声エンハンスメントシステムがあってもよい。発呼電話１０４と着呼電話１０８は、移動電話、ボイスオーバインターネットプロトコル（ＶｏＩＰ）電話、スマートフォン、地上線電話、電話及び／またはビデオ会議電話、（ラップトップやタブレットのような）他のコンピューティングデバイス、または類似物であることができる。発呼電話１０４は、移動電話環境１００の遠端にあるとみなすことができ、着呼電話は、移動電話環境１００の近端にあるとみなすことができる。着呼電話１０８の使用者が話すとき、近端及び遠端は逆になり得る。

描写されている実施形態では、発呼者により、音声入力１０２が発呼電話１０４に提供される。発呼電話１０４内の送信機１０６は、音声入力信号１０２を着呼電話１０８に送信する。送信機１０６は、ワイヤレスまたは地上線を通して、もしくは両者の組み合わせで、音声入力信号１０２を送信することができる。着呼電話１０８内の音声エンハンスメントシステム１１０は、音声入力信号１０２を向上させ、音声了解度を増加させることができる。

音声エンハンスメントシステム１１０は、音声入力信号１０２に表れる、ホルマントまたは音声の他の特徴的な部分を動的に識別することができる。結果として、ホルマントが時間と共に変化するか、異なるスピーカーごとに異なる場合でさえも、音声エンハンスメントシステム１１０は、ホルマントまたは音声の他の特徴的な部分を動的に向上させることができる。音声エンハンスメントシステム１１０は、音声エンハンスメントが、着呼電話１０８のマイクロフォンを使用して検出されたマイクロフォン入力信号１１２における環境ノイズに少なくとも部分的に基づいて、音声入力信号１０２に適用される度合を適応することもできる。環境ノイズまたは内容（content）は、バックグラウンドノイズまたは周囲のノイズを含むことがある。環境ノイズが増加する場合、音声エンハンスメントシステム１１０は、適用された音声エンハンスメントの量を増加させることができ、逆も同様である。依って、音声エンハンスメントは、検出された環境ノイズの量を少なくとも部分的に追跡することができる。同様に、音声エンハンスメントシステム１１０は、環境ノイズの量に少なくとも部分的に基づいて音声入力信号１０２に適用された全体的な利得を増加させることもできる。

しかしながら、存在する環境ノイズがより少ないとき、音声エンハンスメントシステム１１０は、適用された音声エンハンスメント及び／または利得増加の量を低減させることができる。音声エンハンスメント及び／またはボリューム増加は、環境ノイズが低いレベルであるときに、耳障りであるか不愉快に聞こえるので、この低減は、リスナーに有益であり得る。例えば、環境ノイズがないときに音声が耳障りに聞こえるのを回避するために、一度、環境ノイズが閾値量を超えると、音声エンハンスメントシステム１１０が、音声エンハンスメントを音声入力信号１０２に適用し始めることができる。

従って、ある実施形態では、音声エンハンスメントシステム１１０は、音声入力信号を、環境ノイズが変化するレベルで存在するときに、リスナーにさらなる了解度であることができる向上された出力信号１１４に変換する。いくつかの実施形態では、音声エンハンスメントシステム１１０は、発呼電話１０４に含まれることもできる。音声エンハンスメントシステム１１０は、エンハンスメントを、発呼電話１０４によって検出された環境ノイズの量に少なくとも部分的に基づいて音声入力信号１０２に適用するかもしれない。依って、音声エンハンスメントシステム１１０は、発呼電話１０４、着呼電話１０８または両方に使用されることができる。

音声エンハンスメントシステム１１０は、電話１０８の部分であることが示されているが、音声エンハンスメントシステム１１０は、代わりに、何らかの通信デバイス内で実現されることができる。例えば、音声エンハンスメントシステム１１０は、コンピュータ、ルータ、アナログ電話アダプタ、ディクタフォンまたは類似物内で実現されることができる。音声エンハンスメントシステム１１０は、パブリックアドレス（“ＰＡ”）機器（ＰＡオーバインターネットプロトコルを含む）、ラジオトランシーバ、補助ヒアリングデバイス（例えば、補聴器）、スピーカー電話及び他のオーディオシステムにおいて使用されることができる。さらに、音声エンハンスメントシステム１１０は、１つ以上のスピーカーにオーディオ出力を提供する何らかのプロセッサに基づくシステムで実現されることができる。

図２は、音声エンハンスメントシステム２１０の更なる詳細な実施形態を図示している。音声エンハンスメントシステム２１０は、音声エンハンスメントシステム１１０のいくつかのまたは全ての特徴を実現することができ、ハードウェア及び／またはソフトウェアで実現されることができる。音声エンハンスメントシステム２１０は、移動電話、セル電話、スマートフォンまたは上述したいずれかのデバイスを含む他のコンピューティングデバイス内で実現されることができる。音声エンハンスメントシステム２１０は、ホルマント及び／または音声信号の他の部分を適応して追跡することができ、環境ノイズの検出された量及び／または入力音声信号のレベルに少なくとも部分的に基づいて、エンハンスメント処理を調整することができる。

音声エンハンスメントシステム２１０は、適応音声エンハンスメントモジュール２２０を含む。適応音声エンハンスメントモジュール２２０は、音声エンハンスメントを（例えば、補聴器または他のデバイスにおいて、発呼電話から受信された）音声入力信号２０２に適応して適用するために、ハードウェア及び／またはソフトウェアを含むことができる。音声エンハンスメントは、有声のサウンド及び／または非有声のサウンドを含む音声入力信号２０２において音声のサウンドの顕著な特徴を強調することができる。

有利には、ある実施形態では、適応音声エンハンスメントモジュール２２０は、異なるスピーカー（例えば、個人）または時間と共に変化するホルマントを伴う同じスピーカーのための適切なホルマント周波数を向上させるように、適応してホルマントを追跡する。適応音声エンハンスメントモジュール２２０は、音声の和音とは別の声道の部分によって作り出されたある子音のサウンドまたは他のサウンドを含む、スピーチの非有声の部分を向上させることもできる。１つの実施形態では、適応音声エンハンスメントモジュール２２０は、音声入力信号を時間的に整形することにより、非有声のスピーチを向上させる。これらの特徴は、以下、図３に関して、より詳細に記述している。

音声エンハンスメントコントローラ２２２が提供され、音声エンハンスメントモジュール２２０により提供されている音声エンハンスメントのレベルを制御することができる。音声エンハンスメントコントローラ２２２は、適用された音声エンハンスメントのレベルを増加させるか、減少させる適応音声エンハンスメントモジュール２２０にエンハンスメントレベル制御信号または値を提供することができる。制御信号は、環境ノイズを含むマイクロフォン入力信号２０４が増加及び減少するとき、ブロックごとまたはサンプルごとに適応することができる。

ある実施形態では、音声エンハンスメントコントローラ２２２は、マイクロフォン入力信号２０４における環境ノイズのエネルギーの閾値量が検出された後、音声エンハンスメントのレベルを適応する。閾値を上回ると、音声エンハンスメントコントローラ２２２は、音声エンハンスメントのレベルに、マイクロフォン入力信号２０４における環境ノイズの量を追跡させるか、または概ね追跡させることができる。例えば、１つの実施形態では、ノイズの閾値を上回って提供された音声エンハンスメントのレベルが、閾値へのノイズのエネルギー（または電力）の比率に比例する。代替的な実施形態では、音声エンハンスメントのレベルは、閾値を使用することなく適応される。音声エンハンスメントコントローラ２２２により適用された音声エンハンスメントの適応のレベルは、増加する環境ノイズとともに、指数的にまたはリニアに増加することができる（逆も同様である）。

音声エンハンスメントコントローラ２２２が、音声エンハンスメントシステム２１０を組み込む各デバイスごとにおおよそ同じレベルで、音声エンハンスメントのレベルを適応することを確実にすることを確実にするか、試みるために、マイクロフォンキャリブレーションモジュール２３４は提供されている。マイクロフォンキャリブレーションモジュール２３４は、マイクロフォンの全体的な利得を、いくつかのまたは全てのデバイスに対して同じかまたはおおよそ同じにするためにマイクロフォン入力信号２０４に適用された利得を調整する１つ以上のキャリブレーションパラメータを計算し（compute）、記憶することができる。マイクロフォンキャリブレーションモジュール２３４の機能性は、図１０に関連して下記により詳細に記述している。

着呼電話１０８のマイクロフォンが電話１０８のスピーカー出力１１４から音声信号を拾っているとき、不愉快な効果が生じることがある。このスピーカーフィードバックは、音声エンハンスメントコントローラ２２２により環境ノイズとして解釈されることがあり、音声エンハンスメントの自己起動、つまり、スピーカーフィードバックによる音声エンハンスメントの変調を引き起こすことがある。その結果である変調された出力信号は、リスナーにとって不愉快なものであることがある。同様の問題は、受信電話１０８が発呼電話１０４から受信された音声信号を出力するのと同時に、リスナーが話したり、咳をしたり、さもなければ、受信電話１０８に音を発するとき、生じることがある。スピーカーとリスナーの両方が同時に話す（音を発する）この２重トークシナリオにおいて、適応音声エンハンスメントモジュール２２０が、２重トークに基づいて遠隔の音声入力２０２を変調してもよい。この変調された出力信号は、リスナーにとって不愉快なものであることがある。

これらの効果に対抗するために、音声アクティビティ検出器２１２は、描写されている実施形態内に提供されている。音声アクティビティ検出器２１２は、マイクロフォン入力信号２０４においてスピーカーから発している声または他のサウンドを検出することができ、環境ノイズから音声を区別することができる。マイクロフォン入力信号２０４が環境ノイズを含むとき、音声アクティビティ検出器２１２は、音声エンハンスメント２２２が、現在測定されている環境ノイズに基づいて適応音声エンハンスメントモジュール２２０により提供された音声エンハンスメントの量を調整することを可能にする。しかしながら、音声アクティビティ検出器２１２は、マイクロフォン入力信号２０４において音声を検出するとき、音声アクティビティ検出器２１２は、先に測定した環境ノイズを使用し、音声エンハンスメントを調整することができる。

音声エンハンスメントシステム２１０の描写されている実施形態は、音声エンハンスメントコントローラ２２２により提供された制御の量をさらに調整するために、エクストラエンハンスメント制御２２６を含む。エクストラエンハンスメント制御２２６は、エンハンスメントレベルが下回ることができない値として使用されることができる音声エンハンスメントコントローラ２２２にエクストラエンハンスメント制御信号を提供することができる。エクストラエンハンスメント制御２２６は、ユーザインタフェースを介してユーザのもとに露わにされることができる。この制御２２６は、ユーザに、音声エンハンスメントコントローラ２２２によって決定されたレベルを超えてエンハンスメントレベルを増加させることを可能にもする。１つの実施形態では、音声エンハンスメントコントローラ２２２は、音声エンハンスメントコントローラ２２２により決定されたエンハンスメントレベルに、エクストラエンハンスメント制御２２６からのエクストラエンハンスメントを追加することができる。エクストラエンハンスメント制御２２６は、さらなる音声エンハンスメント処理を望んでいるか、頻繁に適用されている音声エンハンスメント処理を望んでいる聴覚障害者にとって特に有効であるかもしれない。

適応音声エンハンスメントモジュール２２０は、出力利得コントローラ２３０に出力音声信号を提供することができる。出力利得コントローラ２３０は、音声エンハンスメントモジュール２２０の出力信号に適用された全体的な利得の量を制御することができる。出力利得コントローラ２３０は、ハードウェア及び／またはソフトウェアで実現されることができる。出力利得コントローラ２３０は、ノイズ入力２０４のレベル及び音声入力２０２のレベルに少なくとも部分的に基づいて出力信号に適用された利得を調整することができる。この利得は、電話のボリューム制御のような、何らかのユーザ設定の利得に加えて適用されることができる。有利には、マイクロフォン入力信号２０４及び／または音声入力２０２レベルにおいて、環境ノイズに基づいてオーディオ信号の利得を適用することは、リスナーにさらに音声入力信号２０２を知覚することの補助となる。

また、適応レベル制御２３２が、描写されている実施形態に示されており、出力利得コントローラ２３０により提供された利得の量をさらに調整することができる。ユーザインタフェースは、ユーザに適応レベル制御２３２を作用させることもできる。この制御２３２を増加させることで、コントローラ２３０の利得を、入ってくる音声入力２０２レベルが減少しているとき、または、ノイズ入力２０４が増加しているときに、さらに増加させることができる。この制御２３２を減少させることで、コントローラ２３０の利得を、入ってくる音声入力信号２０２レベルが減少しているとき、または、ノイズ入力２０４が減少しているときに、あまり増加させないことができる。

いくつかのケースでは、音声エンハンスメントモジュール２２０、音声エンハンスメントコントローラ２２２及び／または出力利得コントローラ２３０音声信号により適用された利得は、音声信号をクリップさせ、または、飽和させることができる。飽和は、リスナーに不愉快である高調波（harmonic）のひずみををもたらすことがある。従って、ある実施形態では、ひずみ制御モジュール１４０も提供されている。ひずみ制御モジュール１４０は、出力利得コントローラ２３０の利得調整された音声信号を受信することができる。ひずみ制御モジュール１４０は、少なくとも部分的に、音声エンハンスメントモジュール２２０、音声エンハンスメントコントローラ２２２及び／または出力利得コントローラ２３０により提供された信号エネルギーを維持するか、または増加させさえするのと同時に、ひずみを制御するハードウェア及び／またはソフトウェアを含むことがある。クリッピングが、ひずみ制御モジュール１４０に提供されている信号内に存在しないとしても、いくつかの実施形態では、ひずみ制御モジュール１４０は、信号のラウドネス及び了解度をさらに増加させるために、少なくとも部分的飽和またはクリッピングを誘発する。

ある実施形態では、ひずみ制御モジュール１４０は、完全飽和信号より少ない高調波を有する出力信号に１つ以上の音声信号のサンプルをマッピングすることにより、音声信号におけるひずみを制御する。このマッピングは、飽和されていないサンプルに対してリニアにまたはほぼリニアに音声信号を追跡することができる。飽和されているサンプルに対しては、マッピングは、制御されたひずみを適用する非リニアの変形であることができる。結果として、ある実施形態では、ひずみ制御モジュール１４０は、音声信号が、完全飽和信号より少ないひずみでより大きく聞こえることを可能にすることができる。従って、ある実施形態では、ひずみ制御モジュール１４０は、物理的音声信号を表すデータを制御されたひずみで別の物理的音声信号を表すデータに変形する。

音声エンハンスメントシステム１１０及び２１０の様々な特徴は、その全てを参照することによりここにその開示が組み込まれている、２００９年９月１４日出願の米国特許８，２０４，７４２号、発明の名称「Systems for Adaptive Voice Intelligibility Processing」に記述された同一または同様のコンポーネントに対応する機能性を含むことができる。加えて、音声エンハンスメントシステム１１０または２１０は、その全てを参照することによりここにその開示が組み込まれている、１９９３年６月２３日出願の米国特許５，４５９，８１３号（以下、‘８１３特許）、発明の名称「Public Address Intelligibility System」に記述されたいずれかの特徴を含むことができる。例えば、音声エンハンスメントシステム１１０または２１０のいくつかの実施形態は、ここに記述されている他の特徴（非有声のスピーチ、音声アクティビティ検出、マイクロフォンキャリブレーション、これらの組み合わせ、または、類似物のような）のいくつかまたは全てを実現しながら、‘８１３特許に記述された固定されたホルマント追跡の特徴を実現することができる。同様に、音声エンハンスメントシステム１１０または２１０の他の実施形態は、ここに記述されている他の特徴のいくつかまたは全てを実現することなしに、ここに記述されている適応ホルマント追跡の特徴を実現することができる。

ＩＩＩ．適応ホルマント追跡実施形態
図３を参照すると、適応音声エンハンスメントモジュール３２０の実施形態が示されている。適応音声エンハンスメントモジュール３２０は、図２の適応音声エンハンスメントモジュール２２０のさらなる詳細な実施形態である。従って、適応音声エンハンスメントモジュール３２０は、音声エンハンスメントシステム１１０または２１０のどちらかにより実現されることができる。それに応じて、適応音声エンハンスメントモジュール３２０は、ソフトウェア及び／またはハードウェアで実現されることができる。適応音声エンハンスメントモジュール３２０は、有利には、適応してホルマントのような有声のスピーチを追跡することができ、非有声のスピーチを時間的に向上させることもできる。

適応音声エンハンスメントモジュール３２０において、入力スピーチが、プレフィルタ３１０に提供される。この入力スピーチは、上述した音声入力信号２０２に対応する。プレフィルタ３１０は、ハイパスフィルタであってもよく、または、ある低周波数を弱める類似物であってもよい。例えば、１つの実施形態では、プレフィルタ３１０は、他のカットオフ周波数が選択されてもよいが、おおよそ７５０Ｈｚを下回る周波数を弱める。おおよそ７５０Ｈｚを下回るような低周波数にスペクトルエネルギーを弱めることにより、プレフィルタ３１０は、よりよいＬＰＣ分析とエンハンスメントを可能にする、その次の処理のためのさらなるヘッドルームを作成することができる。同様に、他の実施形態では、プレフィルタ３１０は、ハイパスフィルタの代わり、または、ハイパスフィルタに加えて、ローパスフィルタを含むことができ、より高い周波数を弱め、それにより、利得処理のための追加のヘッドルームを提供する。プレフィルタ３１０は、いくつかの実現では、省略されることもある。

描写されている実施形態において、プレフィルタ３１０の出力は、ＬＰＣ分析モジュール３１２に提供されている。ＬＰＣ分析モジュール３１２は、リニア予測技術を、スペクトルに分析し、周波数スペクトルにおいてホルマントロケーションを識別することに適用することができる。ホルマントロケーションを識別するものとして、ここに記述されているが、より一般的には、ＬＰＣ分析モジュール３１２は、入力スピーチの周波数または電力スペクトル表現を表すことができる係数を生成することができる。このスペクトル表現は、入力スピーチにおけるホルマントに対応するピークを含むことがある。識別されたホルマントは、ちょうどピークそのものというよりむしろ、周波数の帯域に対応してもよい。例えば、８００Ｈｚに位置すると言われるホルマントは、実際には、おおよそ８００Ｈｚのスペクトル帯域を含んでいてもよい。このスペクトル表現を有するこれらの係数を作り出すことで、ＬＰＣ分析モジュール３１２は、ホルマントロケーションが、入力スピーチにおいて時間とともに変化すると、適応してホルマントロケーションを識別することができる。依って、適応音声エンハンスメントモジュール３２０のその次のコンポーネントは、適応してこれらのホルマントを向上させることができる。

１つの実施形態において、ＬＰＣ分析モジュール３１２は、全極フィルタモデルが、スピーチにおけるホルマントロケーションを正確にかたどることができるので、予測アルゴリズムを使用し、全極フィルタの係数を生成する。１つの実施形態では、自己相関方法は、全極フィルタのための係数を取得するために使用される。他のものの中で、この分析を実行するために使用されることがある１つの特定のアルゴリズムは、レビンソン‐ダービンアルゴリズムである。レビンソン‐ダービンアルゴリズムは、格子フィルタの係数を生成するが、直接型（direct form）係数もまた生成されてもよい。係数は、処理効率を改善するために、各サンプルに対してというより、サンプルのブロックに対して生成されることができる。

ＬＰＣ分析により生成された係数は、量子化ノイズに敏感な傾向がある。係数における非常に小さな誤りが、スペクトル全体をひずませるか、または、フィルタを不安定にさせることがある。全極フィルタ上の量子化ノイズの効果を低減させるために、ＬＰＣ係数から線スペクトル対（ＬＳＰ、線スペクトル周波数（ＬＳＦ）とも呼ばれる）へのマッピングまたは変形は、マッピングモジュール３１４により実行されることができる。マッピングモジュール３１４は、各ＬＰＣ係数に対する対の係数を作り出すことができる。有利には、ある実施形態では、このマッピングは、全極フィルタの安定性を改善する、（Ｚ変形領域における）単位円（unit circle）上にあるＬＳＰを作り出すことができる。ノイズに対する係数感度を扱う方法として、ＬＳＰを代替するか、またはＬＳＰに加えて、係数は、ログ面積比（ＬＡＲ）または他の技術を使用して表現されることができる。

ある実施形態では、ホルマントエンハンスメントモジュール３１６は、向上された全極フィルタ３２６を作り出すために、ＬＳＰを受信し、追加の処理を実行する。向上された全極フィルタ３２６は、さらなる了解度のオーディオ信号を作り出すために入力オーディオ信号の表現に適用されることができるエンハンスメントフィルタの一例である。１つの実施形態では、ホルマントエンハンスメントモジュール３１６は、ホルマント周波数におけるスペクトルピークを強調する方法で、ＬＳＰを調整する。図４を参照すると、例示的なプロット４００が示されており、ピーク４１４及び４１６により識別されたホルマントロケーションを有する周波数マグニチュードスペクトル４１２（実線）を含んでいる。ホルマントエンハンスメントモジュール３１６は、同じかまたは概ね同じホルマントロケーションにあるが高い利得のピーク４２４、４２６を有する（破線で近似されている）新たなスペクトル４２２を作り出すためにこれらピーク４１４、４１６を調整することができる。１つの実施形態では、ホルマントエンハンスメントモジュール３１６は、垂直線４１８により図示されているように、線スペクトル対の間の距離を減少させることにより、ピークの利得を増加させる。

ある実施形態では、ホルマント周波数に対応する線スペクトル対は、互いにより接近している周波数を表すように調整され、それにより、各ピークの利得を増加させる。リニア予測多項式が、単位円内のどこかに複雑なルートを有しているとき、いくつかの実施形態では、線スペクトル多項式が単位円上にのみルートを有する。従って、線スペクトル対は、ＬＰＣの直接量子化に対して優れているいくつかの性質を有していてもよい。ルートは、いくつかの実現では、インターリーブされるので、ルートが、単調に増加している場合、フィルタの安定性が達成されることができる。ＬＰＣ係数と違って、ＬＳＰは、量子化ノイズに過剰に敏感にならないかもしれないので、依って、安定性は、達成させるかもしれない。２つのルートがより接近すると、フィルタは、対応する周波数においてより反響する。従って、ＬＰＣスペクトルピークに対応する２つのルート（１つの線スペクトル対）の間の距離を減少させることは、そのホルマントロケーションにおけるフィルタ利得を有利に増加させることができる。

ホルマントエンハンスメントモジュール３１６は、ｅ^ｊΩδによる乗算のような位相変化操作を使用して、変調ファクタδを各ルートに適用することにより１つの実施形態におけるピークの間の距離を減少させることができる。量δの値を変化することで、ルートを単位円に沿って、接近して一緒に動かすか、離れて別個に動かすことができる。従って、対のＬＳＰルートにとっては、第１のルートは、変調ファクタδの正の値を適用することで、第２のルートにより近くなるよう動かされることができ、第２のルートは、δの負の値を適用することで第１のルートにより近くなるよう動かされることができる。いくつかの実施形態では、ルート間の距離は、おおよそ１０％、おおよそ２５％、おおよそ３０％、おおよそ５０％の距離低減またはいくつかの他の値のような所望のエンハンスメントを達成するために一定の量分低減させられることができる。

ルートの調整は、音声エンハンスメントコントローラ２２２により制御されることもできる。図２に関連して上述されたように、音声エンハンスメントモジュール２２２は、マイクロフォン入力信号２０４のノイズレベルに基づいて適用される音声了解度エンハンスメントの量を調整することができる。１つの実施形態では、音声エンハンスメントコントローラ２２２は、ホルマントエンハンスメントモジュール３１６が、ＬＳＰルートに適用されたホルマントエンハンスメントの量を調整するために用いることができる適応音声エンハンスメントコントローラ２２０に制御信号を出力する。１つの実施形態では、ホルマントエンハンスメントモジュール３１６は、制御信号に基づいて変調ファクタδを調整する。従って、（例えば、さらなるノイズのせいで）さらなるエンハンスメントが適用されるべきことを示す制御信号は、ホルマントエンハンスメントモジュール３１６に、ルートが接近して一緒になるために変調ファクタδを変化するようにさせることができ、逆も同様である。

再び図３を参照すると、ホルマントエンハンスメントモジュール３１６は、向上された全極フィルタ３２６を作り出すために調整されたＬＳＰをＬＰＣ係数（格子型または直接型）に戻してマップすることができる。しかしながら、いくつかの実現では、このマッピングは実行される必要がなく、しかしむしろ、向上された全極フィルタ３２６が、係数としてＬＳＰで実現されることができる。

入力スピーチを向上させるために、いくつかの実施形態では、向上された全極フィルタ３２６は、入力スピーチ信号から合成された励起信号３２４に作用する。この合成は、全ゼロフィルタ３２２を励起信号３２４を作り出すための入力スピーチに適用することにより、ある実施の形態では実行される。全ゼロフィルタ３２２は、ＬＰＣ分析モジュール３１２により作成され、ＬＰＣ分析モジュール３１２により作成された全極フィルタの逆である逆フィルタであることができる。１つの実施形態では、全ゼロフィルタ３２２は、ＬＰＣ分析モジュール３１２により算出された（calculated）ＬＳＰで実現されてもよい。全極フィルタの逆を入力スピーチに適用することと、向上された全極フィルタ３２６を逆転されたスピーチ信号（励起信号３２４）に適用することにより、オリジナルの入力スピーチ信号は、回復される（少なくともほぼ回復される）ことができ、向上されることができる。全ゼロフィルタ３２２と向上された全極フィルタ３２６に対する係数が、ブロックからブロックへと（またはサンプルからサンプルでさえ）変化することができるので、入力スピーチにおけるホルマントは、適応して追跡され、強調されることができ、それにより、ノイズのある環境であっても、スピーチ了解度を改善する。従って、向上されたスピーチは、ある実施形態では、分析合成技術を使用して生成される。

図５は、図３に追加の特徴を加えた適応音声エンハンスメントモジュール３２０の全ての特徴を含む適応音声エンハンスメントモジュール５２０の別の実施形態を描写している。特に、描写されている実施形態では、図３の向上された全極フィルタ３２６は、２度適用されており、１度は励起信号３２４（５２６ａ）で、１度は入力スピーチ（５２６ｂ）である。向上された全極フィルタ５２６ｂを入力スピーチに適用することで、入力スピーチのスペクトルのほぼ矩形であるスペクトルを有する信号を作り出すことができる。このほぼスペクトル矩形信号が、向上されたスピーチ出力を作り出すために、コンバイナ５２８による向上された励起信号出力で追加される。オプションの利得ブロック５１０は、適用されたスペクトル矩形信号の量を調整するように提供されることができる。（スペクトル矩形信号に適用されているように示されているが、利得は、代わりに向上された全極フィルタ５２６ａの出力に、または、５２６ａ、５２６ｂの両方の出力に適用されることができる。）ユーザインタフェース制御は、適応音声エンハンスメントモジュール３２０を組み込んでいるデバイスの製造者または該デバイスのエンドユーザのようなユーザが利得５１０を調整することを可能にするために提供されてもよい。スペクトル矩形信号に適用されたさらなる利得が、信号の耳障りさを増加させることがあり、このことは、特にノイズのある環境においては了解度を増加させるかもしれず、しかし、ノイズの少ない環境においては非常に耳障りに聞こえるかもしれない。従って、ユーザ制御を提供することで、向上されたスピーチ信号の知覚される耳障り感の調整を可能にすることができる。この利得５１０は、いくつかの実施形態では、環境ノイズ入力に基づいて音声エンハンスメント制御２２２により自動的に制御されることもできる。

ある実施形態では、適応音声エンハンスメントモジュール３２０または５２０において示された全てのブロックより少ないブロックで実現されてもよい。また、他の実施形態では、追加のブロックまたはフィルタが、適応音声エンハンスメントモジュール３２０または５２０に追加されてもよい。

ＩＶ．時間的包絡整形実施形態
図３における全極フィルタ３２６により修正された音声信号または図５におけるコンバイナ５２８による出力としての音声信号は、いくつかの実施形態において、時間的包絡線整形器３３２に提供されることができる。時間的包絡線整形器３３２は、時間領域において時間的包絡線整形を介して非有声のスピーチ（瞬間的スピーチを含む）を向上することができる。１つの実施形態では、時間的包絡線整形器３３２は、おおよそ３ｋＨｚを下回る（オプション的に低周波数を上回る）周波数を含む中間域周波数を向上させる。時間的包絡線整形器３３２は、同様に、中間域周波数とは他の周波数を向上してもよい。

ある実施形態では、時間的包絡線整形器３３２は、向上された全極フィルタ３２６の出力信号から包絡線を初めて検出することにより時間領域における時間的周波数を向上させることができる。時間的包絡線整形器３３２は、様々な方法の何らかの方法を使用して包絡線を検出することができる。１つの例示的アプローチは、最大値の追跡であり、時間的包絡線整形器３３２が、信号をウィンドウ化されたセクションに分割し、各ウィンドウセクションから最大またはピーク値を選択することができる。時間的包絡線整形器３３２は、包絡線を形成するために、各値の間の線または曲線と一緒に最大値を結合することができる。いくつかの実施形態では、スピーチ了解度を増加させるために、時間的包絡線整形器３３２は、信号を周波数帯域の適切な数に分割し、帯域ごとに異なる整形器を実行することができる。

例示的なウィンドウサイズは、６４、１２８、２５６、５１２サンプルを含むことができるが、他のウィンドウサイズも、選択されてもよい（２の累乗でないウィンドウサイズを含む）。一般に、よりおおきなウィンドウサイズが、より低い周波数へ向上されている時間的周波数を拡張することができる。さらに、ヒルベルト変換関連技術及び自己復調技術（例えば、信号を積算したり、ローパスフィルタリングする）のような、信号の包絡線を検出するために使用されることができる他の技術がある。

一度、包絡線が検出されると、時間的包絡線整形器３３２は、包絡線のアスペクトを選択的に鋭利にするか、平滑にするために、包絡線の形を調整することができる。第１の段階では、時間的包絡線整形器３３２は、包絡線の特質に基づいて、利得を計算することができる。第２の段階では、時間的包絡線整形器３３２は、所望の効果を達成するために、利得を現在の信号におけるサンプルに適用することができる。１つの実施形態では、所望の効果は、（”ｓ”及び”ｔ”と同様のある子音のような）有声化されていない（non-vocalized）スピーチを強調するためにスピーチの瞬間的部分を鋭利にするためであり、それにより、スピーチの了解度を増加させる。他の応用では、スピーチを平滑にし、それにより、スピーチを和らげることは有効である。

図６は、図３の時間的包絡線整形器３３２の特徴を実現することができる時間的包絡線整形器６３２のさらなる詳細な実施形態を図示している。時間的包絡線整形器６３２もまた、上述した適応音声エンハンスメントモジュールから独立して、異なる応用に対して使用されることができる。

時間的包絡線整形器６３２は、（例えば、フィルタ３２６またはコンバイナ５２８からの）入力信号６０２を受信する。それから、時間的包絡線整形器６３２は、入力信号６０２を帯域パスフィルタ６１０を使用する複数の帯域または類似のものに細分する。帯域の任意の数を選択することができる。一例として、時間的包絡線整形器６３２は、おおよそ５０Ｈｚからおおよそ２００Ｈｚの第１の帯域、おおよそ２００Ｈｚからおおよそ４ｋＨｚの第２の帯域、おおよそ４ｋＨｚからおおよそ１０ｋＨｚの第３の帯域、おおよそ１０ｋＨｚからおおよそ２０ｋＨｚの第４の帯域を含む４つの帯域に入力信号６０２を分割することができる。他の実施形態では、時間的包絡線整形器３３２は、信号を帯域に分割せずに、その代わり、全体として信号に作用する。

最も低い帯域は、サブ帯域パスフィルタ６１０ａを使用して取得された低帯域またはサブ帯域であることがある。サブ帯域は、一般的にサブウーファーにおいて再生された周波数に対応することができる。上記の例では、最も低い帯域は、おおよそ５０Ｈｚからおおよそ２００Ｈｚである。このサブ帯域パスフィルタ６１０ａの出力は、利得をサブ帯域における信号に適用するサブ補償利得ブロック６１２に提供される。下記に詳細に記述されるだろうように、利得は、入力信号６０２のアスペクトを鋭利にするか、または強調するための他の帯域に適用されてもよい。しかしながら、このような利得を適用することは、サブ帯域６１０ａとは他の帯域６１０ｂにおけるエネルギーを増加させることができ、低い出力における潜在的低減をもたらす。この低減された低い効果を補償するために、サブ補償利得ブロック６１２は、利得を他の帯域６１０ｂに適用された利得の量に基づいてサブ帯域６１０ａに適用することができる。サブ補償利得は、オリジナルの入力信号６０２（またはその包絡線）及び鋭利にされた入力信号の間のエネルギーにおける差異に等しいか、ほぼ等しい値を有することができる。サブ補償利得は、合計し、平均し、そうでなければ、他の帯域６１０ｂに適用された追加されたエネルギーまたは利得を組み合わせることにより、利得ブロック６１２により算出されることができる。サブ補償利得は、帯域６１０ｂの１つに適用されたピーク利得を選択し、この値またはサブ補償利得に対する類似の値を使用する利得ブロック６１２により算出されることもできる。しかしながら、別の実施形態では、サブ補償利得は、固定された利得値である。サブ補償利得ブロック６１２の出力は、コンバイナ６３０に提供されている。

各々の他の帯域パスフィルター６１０ｂの出力は、上述されたいずれかの包絡線検出アルゴリズムを実現する包絡線検出器６２２に提供されることができる。例えば、包絡線検出器６２２は、最大値追跡または類似のことを行うことができる。包絡線検出器６２２の出力は、包絡線のアスペクトを選択的に鋭利にするか、平滑にするために包絡線の形を調整することができる包絡線整形器６２４に提供されることができる。包絡線整形器６２４の各々は、出力信号６３４を提供するために各包絡線整形器６２４の出力とサブ補償利得ブロック６１２を組み合わせるコンバイナ６３０に出力信号を提供する。

包絡線整形器６２４により提供された鋭利化効果は、図７及び８に示されているように、各帯域（または細分されていない場合、全体としての信号）において、包絡線のスロープを操作することにより達成されることができる。図７を参照すると、時間領域包絡線７０１の部分を描写する例示的プロット７００が示されている。プロット７００では、時間領域包絡線７０１は、２つの部分、第１の部分７０２と第２の部分７０４を含んでいる。第１の部分７０２が、正のスロープを有している一方で、第２の部分７０４が負のスロープを有している。従って、２つの部分７０２、７０４が、ピーク７０８を形成する。包絡線上の部分７０６、７０８、７１０は、上述した最大値包絡線検出器によるウィンドウまたはフレームから検出されたピーク値を表す。部分７０２、７０４は、ピークポイント７０６、７０８、７１０を結合するために使用される線を表し、それにより、包絡線７０１を形成する。ピーク７０８は、この包絡線７０１に示されるが、代わりに、包絡線７０１の他の部分（図示されず）は、変曲点またはゼロスロープを有してもよい。包絡線７０１の例示的部分に関して記述されている分析は、包絡線７０１のこのような他の部分に対して実現されることもできる。

包絡線７０１の第１の部分７０２が水平に角度θを形成する。この角度の急勾配さが、瞬間的なものをさらに示す急勾配の角度で、包絡線７０１の部分７０２、７０４が、スピーチ信号の瞬間的部分を表すかどうかを反映することができる。同様に、包絡線７０１の第２の部分７０４が水平に角度φを形成する。この角度もまた、瞬間的なものをさらに示しているより高い角度で、現在の瞬間的なものの見込みを反映する。従って、角度θ、φの１つまたは両方を増加させることは、瞬間的なものを効果的に鋭利にし、強調することができる。特に、φを増加させることは、サウンドの反響が減少させられるかもしれないので、乾燥音（例えば、リバーブがより少ない音）をもたらすことができる。

角度は、より急勾配であるか鋭利にされた部分７１２、７１４を有する新しい包絡線を作り出すために部分７０２、７０４により形成された各々の線のスロープを調整することにより増加されることができる。図に示されるように、第１の部分７０２のスロープは、ｄｙ／ｄｘ１として表されてもよく、同時に、第２の部分７０４のスロープは、示されるようにｄｙ／ｄｘ２として表されてもよい。利得は、各スロープ（例えば、ｄｙ／ｄｘ１にとって正の増加、ｄｙ／ｄｘ２にとって負の増加）の絶対値を増加させるように適用されることができる。この利得は、各角度θ、φの値に依存することができる。ある実施形態では、瞬間的なものを鋭利にするために、利得値は、正のスロープに沿って増加し、負のスロープで減少する。包絡線の第１の部分７０２に提供された利得調整の量は、第２の部分７０４に適用された量と同じであってもよいが、そうである必要はない。１つの実施形態では、第２の部分７０４の利得は、第１の部分７０２に適用された利得より、絶対値でさらに大きく、それにより、サウンドをさらに鋭利にする。利得は、正から負への利得の急な遷移によるアーティファクトを低減させるためにピークにおけるサンプルに対して平滑にされてもよい。ある実施形態では、利得は、上述された角度が閾値を下回るときはいつでも、包絡線に適用される。他の実施形態では、利得は、角度が閾値を上回るときはいつでも、適用される。計算された利得（または複数のサンプル及び／または複数の帯域に対しての利得）は、信号におけるピークを鋭利にする時間的エンハンスメントパラメータを構成することができ、それにより、オーディオシグナルの選択された子音または他の部分を向上させることができる。

これらの特徴を実現することができる平滑化(smoothing)の例示的利得方程式は、次の通りである。gain = exp(gFactor^*delta^*(i-mBand->prev_maxXL/dx)^*(mBand->mGainoffset+Offsetdelta^*(i-mBand->prev_maxXL))この例示的方程式では、包絡線と角度が対数スケールで算出されるので、利得は、角度における変化の指数関数である。量ｇファクタは、アタックまたはディケイの率を制御する。量(i-mBand->prev_maxXL/dx)は包絡線のスロープを表すと同時に、利得方程式の以下の部分は、先の利得から始まり、現在の利得で終了する平滑化関数を表す(mBand->mGainoffset+Offsetdelta^*(i-mBand->prev_maxXL))。人間の聴覚システムは、対数スケールに基づいているので、指数関数は、リスナーが瞬間的サウンドをより良く区別する補助となることができる。

量ｇファクタのアタック／ディケイ関数は、図８にさらに図示されている。図８では、増加するアタックスロープ８１２の異なるレベルが第１のプロット８１０で示され、減少するディケイスロープ８２２の異なるレベルが第２のプロット８２０に示されている。アタックスロープ８１２は、図７のより急勾配の第１の部分７１２に対応する、瞬間的サウンドを強調するために上述されているようなスロープで増加されることができる。同様にして、ディケイスロープ８２２は、図７のより急勾配の第２部分７１４に対応する、瞬間的サウンドをさらに強調するために上述されているようなスロープで減少されることができる。

Ｖ．例示的音声検出処理
図９は、音声検出処理９００の実施形態を図示している。ノイズ検出処理９００は、上述された音声エンハンスメントシステム１１０、２１０のどちらかにより実現されることができる。１つの実施形態では、ノイズ検出処理９００は、音声アクティビティ検出器２１２により実現されている。

音声検出処理９００は、マイクロフォン入力信号２０４のような入力信号における音声を検出する。入力信号が、音声というよりむしろノイズを含む場合、音声検出処理９００は、音声エンハンスメントの量を現在測定された環境ノイズに基づいて適応することを可能にする。しかしながら、入力信号が音声を含むとき、音声検出処理９００は、環境ノイズの先の測定が音声エンハンスメントを調整するために使用されるようにすることができる。有利には、ノイズの先の測定を使用することで、音声入力に基づいて音声エンハンスメントを調整することを回避することができ、依然として、音声エンハンスメントが環境ノイズ条件に適応することを可能にする。

処理９００のブロック９０２において、音声アクティビティ検出器２１２が、入力マイクロフォン信号を受信する。ブロック９０４において、音声アクティビティ検出器２１２は、マイクロフォン信号の音声アクティビティ分析を実行する。音声アクティビティ検出器２１２は、いずれかの様々な技術を使用し、音声アクティビティを検出することができる。１つの実施形態では、音声アクティビティ検出器２１２は、音声というよりむしろ、ノイズアクティビティを検出し、ノイズでないアクティビティの期間が、音声に対応することを推論する。音声アクティビティ検出器２１２は、音声及び／またはノイズを検出するために、以下の技術または類似の技術のいずれかの組み合わせを使用することができる：信号の統計的分析（例えば、標準偏差、分散など）、より高い帯域エネルギーに対するより低い帯域エネルギー比率、ゼロ交差比率、スペクトル流束または他の周波数領域アプローチ、または自己相関。さらに、いくつかの実施形態では、音声アクティビティ検出器２１２は、その全てを参照することによりここにその開示が組み込まれている、２００６年４月２１日出願、米国特許番号７，９１２，２３１号、発明の名称「Systems and Methods for Reducing Audio Noise」に記述されているノイズ検出技術のいくつかまたは全てを使用してノイズを検出する。

判断ブロック９０６において決定されるように、信号が音声を含む場合、音声アクティビティ検出器２１２は、音声エンハンスメントコントローラ２２２に、適応音声エンハンスメントモジュール２２０の音声エンハンスメントを制御するために先のノイズバッファを使用させる。ノイズバッファは、音声アクティビティ検出器２１２または音声エンハンスメントコントローラ２２２によりセーブされるマイクロフォン入力信号２０４のノイズサンプルの１つ以上のブロックを含むことができる。入力信号２０４の先の部分からセーブされた先のノイズバッファは、先のノイズサンプルがノイズバッファに記憶された時以降環境ノイズが著しく変化しない、という仮定のもと使用されることができる。会話における休止は頻繁に生じるので、この仮定は、多くの事例で正確であるかもしれない。

他方で、信号が音声を含まない場合、音声アクティビティ検出器２１２は、音声エンハンスメントコントローラ２２２に適応音声エンハンスメントモジュール２２０の音声エンハンスメントを制御するために現在のノイズバッファを使用させる。現在のノイズバッファは、ノイズサンプルの１つ以上の最も直近に受信したブロックを表すことができる。音声アクティビティ検出器２１２は、ブロック９１４で、追加の信号が受信されたかどうか決定する。受信された場合、処理９００は、ブロック９０４にループを戻す。受信されてない場合、処理９００は終了する。

従って、ある実施形態では、音声検出処理９００は、遠隔の音声信号に適用された音声了解度エンハンスメントのレベルを変調するか、そうでなければ、自己起動して、音声入力の望ましくない効果を軽減することができる。

ＶＩ．例示的マイクロフォンキャリブレーション処理
図１０は、マイクロフォンキャリブレーション処理１０００の実施形態を図示している。マイクロフォンキャリブレーション処理１０００は、上述された音声エンハンスメントシステム１１０、２１０のどちらかにより、少なくとも一部実現されることができる。１つの実施形態では、マイクロフォンキャリブレーション処理１０００は、マイクロフォンキャリブレーションモジュール２３４により少なくとも一部実現される。示されたように、処理１０００の部分は、実験室（LAB）またはデザイン施設で実現されることができ、同時に、処理１０００のの残りは、音声エンハンスメントシステム１１０または２１０を組み込んでいるデバイスの製造者の施設のようなところのフィールド（FIELD）で実現されることができる。

上述したように、マイクロフォンキャリブレーションモジュール２３４は、マイクロフォンの全体的な利得を、いくつかのまたは全てのデバイスにとって、同じかまたはおおよそ同じにするためにマイクロフォン入力信号２０４に適用された利得を調整する１つ以上のキャリブレーションパラメータを計算し、記憶することができる。対照的に、デバイスを通してマイクロフォン利得をレベル化する（level）既存のアプローチは、矛盾する傾向があり、異なるデバイスにおける音声エンハンスメントを起動する異なるノイズレベルをもたらす。現在のマイクロフォンキャリブレーションアプローチでは、フィールドエンジニア（例えば、デバイス製造者施設またはその他のところ）は、電話または他のデバイスにおいて、マイクロフォンによって拾われるだろう音を生成するために、試験デバイスでプレイバックスピーカを起動することにより、トライアル＆エラーアプローチを適用する。そこで、フィールドエンジニアは、マイクロフォン信号が、音声エンハンスメントコントローラ２２２のノイズ閾値への到達として解釈するレベルであるようなマイクロフォンのキャリブレートを試み、それにより、音声エンハンスメントコントローラ２２２に音声エンハンスメントをトリガさせるか、または可能にさせる。全てのフィールドエンジニアは、音声エンハンスメントをトリガする閾値に到達するために、マイクロフォンが拾うべきノイズのレベルの異なるフィーリングを有するので、矛盾が発生する。さらに、多くのマイクロフォンは、広い利得域（例えば、−４０ｄＢから＋４０ｄＢ）を有しており、依って、マイクロフォンをチューニングするとき使用されるべき精密な利得数を探すのは困難であることがある。

マイクロフォンキャリブレーション処理１０００は、現在のフィールドエンジニアのトライアル＆エラーアプローチよりさらに首尾一貫であることができる各マイクロフォンの利得値を計算することができる。ブロック１００２で、実験室（LAB）において始まり、ノイズ信号は、適したスピーカーを有するか、適したスピーカーに結合されている何らかのコンピューティングデバイスであってよい試験デバイスで出力される。このノイズ信号は、ブロック１００４で参照信号として記録され、平滑にされたエネルギーは、ブロック１００６で標準参照信号から計算される。RefPwrと表示されるこの平滑にされたエネルギーは、フィールドにおける自動マイクロフォンキャリブレーションのために使用される絶好の参照値であることができる。

フィールドにおいて、絶交の参照値RefPwrを使用して、自動キャリブレーションが生じることがある。ブロック１００８では、参照信号は、例えばフィールドエンジニアによって、試験デバイスで標準ボリュームでかけられる。参照信号は、ノイズ信号が実験室（LAB）のブロック１００２においてかけられたのと同じボリュームでかけられることができる。ブロック１０１０では、マイクロフォンキャリブレーションモジュール２３４は、試験下のマイクロフォンから受信されたサウンドを記録することができる。それから、マイクロフォンキャリブレーションモジュール２３４は、CaliPwrとして表示されるブロック１０１２で記録された信号の平滑にされたエネルギーを計算する。ブロック１０１４では、マイクロフォンキャリブレーションモジュール２３４は、参照信号及び記録された信号のエネルギーに基づいて、マイクロフォンオフセットを、例えば次のように計算することができる。MicOffset = RefPwr/CaliPwr。

ブロック１０１６では、マイクロフォンキャリブレーションモジュール２３４は、マイクロフォンのための利得としてマイクロフォンオフセットをセットする。マイクロフォン入力信号２０４が受信されるとき、このマイクロフォンオフセットは、マイクロフォン入力信号２０４へのキャリブレーション利得として適用されることができる。結果として、音声エンハンスメントコントローラ２２２に同じ閾値レベルに対する音声エンハンスメントをトリガさせるノイズのレベルは、デバイスを通して同じであるか、または、ほぼ同じであることができる。

ＶＩＩ．用語法
ここに記述されたバリエーションとは別の多くのバリエーションが、この開示から明白となるだろう。例えば、実施形態に依存し、ここに記述されているアルゴリズムのいずれかのある動作(act)、イベントまたは機能は、異なるシーケンスで実行されることができ、全体として追加され、併合され、または、除外されることもできる（例えば、記載されている動作またはイベントの全てがアルゴリスムの実践に必要というわけではない）。さらに、ある実施形態では、動作またはイベントは、例えば、マルチスレッド処理、割り込み処理、または、複数のプロセッサまたはプロセッサコアを通して、または、他のパラレルアーキテクチャ上で、シーケンシャルというよりむしろ、同時に実行されることができる。加えて、異なるタスクまたは処理は、一緒に機能することができる異なる機械及び／またはコンピューティングシステムによって実行されることができる。

ここに開示されている実施形態と関連して記述される様々な図示的ロジックブロック、モジュール及びアルゴリズムステップが、電子ハードウェア、コンピュータソフトウェアまたは両方の組み合わせとして実現されることができる。ハードウェア及びソフトウェアのこの互換性を明確に図示するために、様々な図示的コンポーネント、ブロック、モジュール及びステップは、それらの機能性に関して一般的に上述されている。このような機能性がハードウェアまたはソフトウェアとして実現されるかどうかは、全体的なシステムに課されている特別な応用及びデザイン制約に依存している。例えば、車両マネージメントシステム１１０または２１０が、１つ以上のコンピュータシステムによって、または、１つ以上のプロセッサを含むコンピュータシステムによって実現されることができる。記述された機能性は、それぞれの特別な応用に対して変動的な方法で実現されることができるが、このような実現決定は、本開示の範囲からの逸脱を引き起こすものとして解釈されるべきではない。

ここに開示されている実施形態に関連して記述されている様々な図示的ロジックブロック及びモジュールは、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）または他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、または、ここに記述されている機能を実行するためにデザインされた上述のいずれかの組み合わせのような機械により実現されるか、実行されることができる。汎用プロセッサは、マイクロプロセッサであり得るが、代替的に、プロセッサは、コントローラ、マイクロコントローラまたは状態機械、これらの組み合わせ、または類似物であることができる。プロセッサは、コンピューティングデバイスの組み合わせ、例えば、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと一緒の１つ以上のマイクロプロセッサの組み合わせ、または、何らかの他のこのような構成として実現されることもできる。コンピューティング環境は、２、３例を挙げれば、マイクロプロセッサに基づいたコンピュータシステム、メインフレームコンピュータ、デジタル信号プロセッサ、携帯コンピューティングデバイス、パーソナルオーガナイザ、デバイスコントローラ、及び、アプライアンス内の計算エンジンに限定されないが、これらを含むコンピュータシステムの何らかのタイプを含むことができる。

ここに開示された実施形態と関連して記述された方法、処理またはアルゴリズムのステップは、直接ハードウェアで、プロセッサにより実行されたソフトウェアモジュールで、または２つの組み合わせで具体化されることができる。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、リムーブバルディスク、ＣＤ−ＲＯＭ、または、当該技術で知られている非一時的コンピュータ可読記憶媒体、メディア、または、物理的コンピュータ記憶の何らかの他の形式に存在することができる。例示的な記憶媒体は、プロセッサが、記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるようにプロセッサに結合されることができる。代替的に、記憶媒体は、プロセッサと一体型であることができる。プロセッサと記憶媒体は、ＡＳＩＣに存在することができる。ＡＳＩＣは、ユーザ端末に存在することができる。代替的に、プロセッサ及び記憶媒体は、ユーザ端末においてディスクリートコンポーネントとして存在することができる。

他の言葉の中で、”できる／ことがある””かもしれない””してもよい””例えば”及び類似語のようなここで使用されている条件的言語は、特別に別な方法で述べられない限り、またはそうでなければ、使用されているコンテキスト内で理解されない限り、いくつかの実施形態がある特徴、要素及び／または状態を含んでいること、その一方、他の実施形態は、ある特徴、要素及び／または状態を含んでいないことを意味する意図が一般的にある。従って、このような条件的言語は、特徴、要素及び／または状態が、１つ以上の実施形態に求められた何らかの方法であること、または、１つ以上の実施形態が著者インプットまたはプロンプティングとともに、または無しで、これらの特徴、要素及び／または状態が、いずれかの特別な実施形態に含まれるかまたは実行されるべきかを決定するためのロジックを必然的に含むことを含意することを一般的に意図するわけではない。用語”備えている””含んでいる””有している”とそれら類似語は、類義語であり、オープンエンドな仕方で包括的に使用され、追加の要素、特徴、動作、操作などを除外しない。同様に、用語”or”は、その包含的意味において（その排他的意味においてではない）使用される、そのため、例えば、要素のリストを結合するために使用されるとき、用語”ｏｒ”は、リストにある１つ、いくつか、または全ての要素を意味する。さらに、その通常の意味を有しているのに加えて、ここで使用されている用語”各／おのおの”は、用語”各／おのおの”が適用されている要素の組の何らかの部分集合を意味することができる。

上記の詳細な記述が、様々な実施形態に適用されているように、新規の特徴を示し、記述し、指摘するのと同時に、図示されているデバイスまたはアルゴリズムの形式及び詳細における様々な省略、置換、変更が、本開示の精神から逸脱することなくなされることができることが理解されるだろう。認識されるように、いくつかの特徴は、他の特徴とは別に使用されるか実践されることができるように、ここに記述されている発明のある実施形態は、ここに説明されている特徴及び利益の全てを提供しない形態内で、具体化されることができる。

Claims

音声了解度エンハンスメントを調整する方法であって、前記方法は、
入力音声信号を受信することと、
リニア予測符号化（ＬＰＣ）処理で前記入力音声信号のスペクトル表現を取得することと、前記スペクトル表現は、１つ以上のホルマント周波数を備え、
前記１つ以上のホルマント周波数を強調するように構成されたエンハンスメントフィルタを作り出すために、１つ以上のプロセッサで前記入力音声信号の前記スペクトル表現を調整することと、
向上されたホルマント周波数で修正された音声信号を作り出すために前記エンハンスメントフィルタを前記入力音声信号の表現に適用することと、
前記入力音声信号に基づいて包絡線を検出することと、
１つ以上の時間的エンハンスメントパラメータを決定するために前記修正された音声信号の前記包絡線を分析することと、
出力音声信号を作り出すために前記修正された音声信号に対する前記１つ以上の時間的エンハンスメントパラメータを適用することとを備え、
少なくとも前記１つ以上の時間的エンハンスメントパラメータを適用することは、１つ以上のプロセッサにより実行される方法。
前記修正された音声信号に１つ以上の時間的エンハンスメントパラメータを適用することは、前記修正された音声信号における選択された子音を強調するために、前記修正された音声信号の前記１つ以上の包絡線におけるピークを鋭利にすることを備える、請求項１記載の方法。
前記包絡線を検出することは、前記入力音声信号及び前記修正された音声信号の１つ以上の包絡線を検出することを備える、請求項１記載の方法。
前記エンハンスメントフィルタを前記入力音声信号の前記表現に適用することが、前記エンハンスメントフィルタを励起信号に適用することを備えるように、前記励起信号を作り出すために、前記入力音声信号に逆フィルタを適用することをさらに備える、請求項１記載の方法。
音声了解度エンハンスメントを調整するためのシステムであって、前記システムは、
入力オーディオ信号の少なくとも一部分のスペクトル表現を取得するように構成された分析モジュールと、前記スペクトル表現は１つ以上のホルマント周波数を備え、
前記１つ以上のホルマント周波数を強調するように構成されたエンハンスメントフィルタを生成するように構成されたホルマントエンハンスメントモジュールと、
前記エンハンスメントフィルタは、修正された音声信号を作り出すために１つ以上のプロセッサで前記入力オーディオ信号の表現に適用されるように構成され、
時間的エンハンスメントを前記修正された音声信号の１つ以上の包絡線に少なくとも一部基づいて前記修正された音声信号に適用するように構成された時間的包絡線整形器とを備えるシステム。
前記分析モジュールは、前記スペクトル表現に対応する係数を生成するように構成されたリニア予測符号化技術を使用して、前記入力オーディオ信号の前記スペクトル表現を取得するようにさらに構成された、請求項５記載の方法。
線スペクトル対に前記係数をマップするように構成されたマッピングモジュールをさらに備える、請求項６記載の方法。
前記ホルマント周波数に対応する前記スペクトル表現において利得を増加させるために前記線スペクトル対を修正することをさらに備える、請求項７記載の方法。
前記エンハンスメントフィルタは、前記入力オーディオ信号及び前記入力オーディオ信号から導きだされた励起信号の１つ以上に適用されるようにさらに構成された、請求項５記載の方法。
前記時間的な包絡線整形器は、修正された音声信号を複数の帯域に細分するようにさらに構成され、前記１つ以上の包絡線は、少なくともいくつかの前記複数の帯域のための包絡線に対応する、請求項５記載の方法。
入力マイクロフォン信号における検出された環境ノイズの量に少なくとも部分的に基づいて前記エンハンスメントフィルタの利得を調整するように構成された音声エンハンスメントコントローラをさらに備える、請求項５記載の方法。
前記入力マイクロフォン信号における音声を検出し、前記検出された音声に応答する前記音声エンハンスメントコントローラを制御するように構成された音声アクティビティ検出器をさらに含む、請求項１１記載の方法。
前記音声アクティビティ検出器は、前記音声エンハンスメントコントローラに、前記入力マイクロフォン信号において音声検出に応答し先のノイズ入力に基づいて前記エンハンスメントフィルタの前記利得を調整させるようにさらに構成された、請求項１２記載の方法。
前記入力マイクロフォン信号を受信するように構成されたマイクロフォンの利得をセットするように構成されたマイクロフォンキャリブレーションモジュールをさらに備え、前記マイクロフォンキャリブレーションモジュールは、参照信号及び記録されたノイズ信号に少なくとも一部基づいて、前記利得をセットするようにさらに構成された、請求項１１記載の方法。
音声了解度エンハンスメントを調整するためのシステムであって、前記システムは、
入力音声信号のスペクトルに対応するＬＰＣ係数を取得するためにリニア予測符号化（ＬＰＣ）技術を適用するように構成されたリニア予測符号化分析モジュールと、前記スペクトルは、１つ以上のホルマント周波数を備え、
前記ＬＰＣ係数を線スペクトル対にマップするように構成されたマッピングモジュールと、
１つ以上のプロセッサを備えるホルマントエンハンスメントモジュールとを備え、前記ホルマントエンハンスメントモジュールは、前記線スペクトル対を修正し、それにより前記入力音声信号の前記スペクトルを調整し、前記１つ以上のホルマント周波数を強調するように構成されたエンハンスメントフィルタを作り出すように構成され、
前記エンハンスメントフィルタは、修正された音声信号を作り出すために前記入力音声信号の表現に適用されるように構成された、システム。
入力マイクロフォン信号における音声を検出し、前記エンハンスメントフィルタの利得が前記入力マイクロフォン信号における音声検出に応答し調整されるように構成された音声アクティビティ検出器をさらに備える、請求項１５記載のシステム。
前記入力マイクロフォン信号を受信するように構成されたマイクロフォンの利得をセットするように構成されたマイクロフォンキャリブレーションモジュールをさらに備え、前記マイクロフォンキャリブレーションモジュールは、参照信号及び記録されたノイズ信号に少なくとも一部基づいて、前記利得をセットするようにさらに構成された、請求項１６記載のシステム。
前記エンハンスメントフィルタは、前記入力音声信号及び前記入力音声信号から導きだされた励起信号の１つ以上に適用されるようにさらに構成された、請求項１５記載のシステム。
時間的エンハンスメントを前記修正された音声信号の１つ以上の包絡線に少なくとも一部基づいて前記修正された音声信号に適用するように構成された時間的包絡線整形器をさらに備える、請求項１５記載のシステム。
前記時間的包絡線整形器は、前記修正された音声信号の選択された部分を強調するために、前記修正された音声信号の前記１つ以上の包絡線におけるピークを鋭利にするようにさらに構成された、請求項１９記載のシステム。