JP2014524593A - 適応音声了解度プロセッサ - Google Patents

適応音声了解度プロセッサ Download PDF

Info

Publication number
JP2014524593A
JP2014524593A JP2014523980A JP2014523980A JP2014524593A JP 2014524593 A JP2014524593 A JP 2014524593A JP 2014523980 A JP2014523980 A JP 2014523980A JP 2014523980 A JP2014523980 A JP 2014523980A JP 2014524593 A JP2014524593 A JP 2014524593A
Authority
JP
Japan
Prior art keywords
signal
enhancement
speech
input
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014523980A
Other languages
English (en)
Other versions
JP6147744B2 (ja
Inventor
ノウ、デキュン
ヘ、シン
トレーシー、ジェームズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS LLC
Original Assignee
DTS LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DTS LLC filed Critical DTS LLC
Publication of JP2014524593A publication Critical patent/JP2014524593A/ja
Application granted granted Critical
Publication of JP6147744B2 publication Critical patent/JP6147744B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Abstract

音声了解度を改善するために適応してスピーチを処理するためのシステムと方法が、記述されている。これらのシステムと方法は、適応してホルマントロケーションを識別し、追跡することができ、それにより、ホルマントロケーションが変わるときに、ホルマントを強調することができる。結果として、これらのシステムと方法は、ノイズのある環境であっても、近端了解度を改善することができる。システムと方法は、ボイスオーバIP(VoIP)応用、電話及び/またはビデオ会議応用(セルラーフォン、スマートフォン、及び類似物を含む)、ラップトップ、タブレット通信、及び類似物において実現されることができる。システムと方法はまた、瞬間的スピーチのような、音声追跡なしで生成されたスピーチを含み得る非有声のスピーチを向上することができる。

Description

(関連出願)
この出願は、その全てを参照することによりここにその開示が組み込まれている、2011年7月29日出願、米国仮特許出願61/513,298号、発明の名称「Adaptive Voice Intelligibility Processor」に、米国合衆国法典第35部第119条の下、優先権を主張する。
移動電話(mobile phone)は、しばしば、高いバックグラウンドノイズを含むエリアで使用される。このノイズは、しばしば、移動電話スピーカーからの口頭の通信の了解度が、大きく低下されるようなレベルである。多くのケースでは、リスナーが聞いているときに、高い周囲のノイズレベルが発呼者の音声を覆ったり、または、歪ませたりするので、いくつかの通信は、損なわれる、または、少なくとも部分的に損なわれる。
高いバックグラウンドノイズが存在するときに、了解度の損失を最小化する試みは、イコライザ、クリッピング回路の使用、または、単純に移動電話のボリュームを増加させることに関係している。イコライザとクリッピング回路は、自身でバックグラウンドノイズを増加させることがあり、それにより、問題を解決し損なう。移動電話のサウンドまたはスピーカーのボリュームの全体的レベルを増加させることでは、しばしば、了解度を著しく改善することがなく、フィードバックとリスナーの不快さのような他の問題を引き起こすことがある。
本開示を要約するために、発明のいくつかの観点、利点、新規の特徴がここに記述されている。全てのこのような利点は、ここに開示されている発明の何らかの特定の実施形態に従って必ず達成されることができるというわけではないことを理解すべきである。従って、ここに開示された発明は、ここに教示されるような1つの利点または利点のグループを達成または最適化する方法で、具体化され、実施され、ここに教示または示唆されるかもしれないような他の利点を必ずしも達成しなくてもよい。

ある実施形態では、音声了解度エンハンスメントを調整する方法は、入力音声信号を受信することと、リニア予測符号化(LPC)処理で入力音声信号のスペクトル表現を取得することを含む。スペクトル表現は、1つ以上のホルマント周波数を含むことができる。方法は、1つ以上のホルマント周波数を強調するように構成されたエンハンスメントフィルタを作り出すために、1つ以上のプロセッサで入力音声信号のスペクトル表現を調整することを含む。加えて、方法は、向上されたホルマント周波数で、修正された音声信号を作り出すために入力音声信号の表現に対するエンハンスメントフィルタを適用すること、入力音声信号に基づく包絡線を検出すること、1つ以上の時間的エンハンスメントパラメータを決定するために修正された音声信号の包絡線を分析することを含むことができる。更に、方法は、出力音声信号を作り出すために修正された音声信号に対する1つ以上の時間的エンハンスメントパラメータを適用することを含むことができる。少なくとも、1つ以上の時間的エンハンスメントパラメータを適用することは、1つ以上のプロセッサにより実行されることができる。
ある実施形態では、前述の段落の方法は、以下の特徴の何らかの組み合わせを含むことができる。1つ以上の時間的エンハンスメントパラメータを修正された音声信号に適用することが、修正された音声信号における選択された子音を強調するために、修正された音声信号の1つ以上の包絡線におけるピークを鋭利にすることを含み、包絡線を検出することは、1つ以上の入力音声信号及び修正された音声信号の包絡線を検出することを含み、前記エンハンスメントフィルタを入力音声信号の表現に適用することが、励起信号にエンハンスメントフィルタを適用することを備えるように、励起信号を作り出すために入力音声信号に対する逆フィルタを適用することをさらに含む。
いくつかの実施形態では、音声了解度エンハンスメントを調整するためのシステムは、入力オーディオ信号の少なくとも一部分のスペクトル表現を取得することができる分析モジュールを含む。スペクトル表現は、1つ以上のホルマント周波数を含むことができる。システムは、また、1つ以上のホルマント周波数を強調することができるエンハンスメントフィルタを生成することができるホルマントエンハンスメントモジュールを含むこともできる。エンハンスメントフィルタは、修正された音声信号を作り出すために1つ以上のプロセッサで入力オーディオ信号の表現に適用されることができる。さらに、システムは、時間的エンハンスメントを修正された音声信号の1つ以上の包絡線に少なくとも一部基づいて修正された音声信号に適用するように構成された時間的包絡線整形器(enveloper shaper)を含むこともできる。
ある実施形態では、先の段落のシステムは、以下の特徴の何らかの組み合わせを含むことができる。分析モジュールは、スペクトル表現に対応する係数を生成するように構成されたリニア予測符号化技術を使用して入力オーディオ信号のスペクトル表現を取得するようにさらに構成され、係数を線スペクトル対にマップするように構成されたマッピングモジュールをさらに含み、ホルマント周波数に対応するスペクトル表現において利得を増加させるために線スペクトル対を修正することをさらに含み、エンハンスメントフィルタは、入力オーディオ信号及び入力オーディオ信号から導きだされた励起信号の1つ以上に適用されるようにさらに構成されており、時間的包絡線整形器は、修正された音声信号を複数の帯域に細分するようにさらに構成され、1つ以上の包絡線は、少なくともいくつかの複数の帯域の包絡線に対応し、入力マイクロフォン信号における検出された環境ノイズの量に少なくとも部分的に基づいてエンハンスメントフィルタの利得を調整するように構成されることができる音声エンハンスメントコントローラをさらに含み、入力マイクロフォン信号における音声を検出し、検出された音声に応答する音声エンハンスメントコントローラを制御するように構成された音声アクティビティ検出器をさらに含み、音声アクティビティ検出器は、音声エンハンスメントコントローラに、入力マイクロフォン信号において音声検出に応答し先のノイズ入力に基づいてエンハンスメントフィルタの利得を調整させるようにさらに構成されており、入力マイクロフォン信号を受信するように構成されたマイクロフォンの利得をセットするように構成されたマイクロフォンキャリブレーションモジュールをさらに含み、マイクロフォンキャリブレーションモジュールは、参照信号及び記録されたノイズ信号に少なくとも一部基づいて、利得をセットするようにさらに構成されている。
幾つかの実施形態では、音声了解度エンハンスメントを調整するためのシステムは、入力音声信号のスペクトルに対応するLPC係数を取得するためにリニア予測符号化(LPC)技術を適用することができるリニア予測符号化分析モジュールを含み、スペクトルは、1つ以上のホルマント周波数を含む。システムは、前記LPC係数を線スペクトル対にマップすることができるマッピングモジュールも含んでもよい。システムは、1つ以上のプロセッサを含むホルマントエンハンスメントモジュールを含むこともでき、ホルマントエンハンスメントモジュールは、線スペクトル対を修正し、それにより入力音声信号のスペクトルを調整し、1つ以上のホルマント周波数を強調することができるエンハンスメントフィルタを作り出すことができる。エンハンスメントフィルタは、修正された音声信号を作り出すために入力音声信号の表現に適用されることができる。
様々な実施形態では、先の段落のシステムは、以下の特徴の何らかの組み合わせを含むことができる。入力マイクロフォン信号における音声を検出し、エンハンスメントフィルタの利得が入力マイクロフォン信号における音声検出に応答し調整されるようにすることができる音声アクティビティ検出器をさらに含み、入力マイクロフォン信号を受信することができるマイクロフォンの利得をセットできるマイクロフォンキャリブレーションモジュールをさらに含み、マイクロフォンキャリブレーションモジュールは、参照信号及び記録されたノイズ信号に少なくとも一部基づいて、利得をセットするようにさらに構成されており、エンハンスメントフィルタは、前記入力音声信号及び前記入力音声信号から導きだされた励起信号の1つ以上に適用されるようにさらに構成されており、時間的エンハンスメントを修正された音声信号の1つ以上の包絡線に少なくとも一部基づいて修正された音声信号に適用することができる時間的包絡線整形器をさらに含み、時間的包絡線整形器は、修正された音声信号の選択された部分を強調するために、修正された音声信号の1つ以上の包絡線におけるピークを鋭利にするようにさらに構成されている。
図面を通して、参照された要素間での対応を示すために、参照番号は、再使用されてもよい。図面は、ここに記述される発明の実施形態を図示するために提供され、発明の範囲を限定しないよう提供されている。
音声エンハンスメントシステムを実現することができる移動電話環境の実施形態を図示している。 音声エンハンスメントシステムの更なる詳細な実施形態を図示している。 適応音声エンハンスメントモジュールの実施形態を図示している。 スピーチスペクトルの例示的プロットを示している。 適応音声エンハンスメントモジュールの別の実施形態を図示している。 時間的包絡線整形器の実施形態を図示している。 時間領域スピーチ包絡線の例示的プロットを図示している。 アタックとディケイ包絡線の例示的プロットを図示している。 音声検出処理の実施形態を図示している。 マイクロフォンキャリブレーション処理の実施形態を図示している。
I.イントロダクション
既存の音声了解度システムは、ある母音と自鳴音子音に対応するスピーカーの音声和音により生成された共鳴周波数を含むことがある、スピーチ中のホルマントを強調するよう試みる。これら既存のシステムは、一般的には、ホルマントが生じると見込まれる異なる固定された周波数帯域で、ホルマントを強調する帯域通過フィルタを有するフィルタバンクを用いる。このアプローチにおける問題は、ホルマントロケーションが、異なる個人で異なることがあることである。さらに、所与の個人のホルマントロケーションは、時間と共に変化することもある。依って、固定された帯域通過フィルタが、所与の個人のホルマント周波数とは異なる周波数を強調するかもしれず、音声了解度に障害をもたらすことになる。
この開示は、他の特徴の中で、音声了解度を改善するために、スピーチを適応して処理するためのシステムと方法について記述している。ある実施の形態では、これらのシステムと方法は、ホルマントロケーションを適応して識別し、追跡することができ、それにより、ホルマントが変化しているときに、ホルマントを強調することができる。結果として、これらのシステムと方法は、ノイズのある環境であっても、近端了解度を改善することができる。システムと方法は、瞬間的スピーチのような、声道なしで生成されたスピーチを含むことがある非有声の(non-voiced)スピーチを向上することもできる。向上されることができる非有声のスピーチのいくつかの例は、破裂音、摩擦音、破擦音のような閉鎖音の子音を含んでいる。
多くの技術は、ホルマントロケーションを適応して追跡するために使用されることができる。適応フィルタリングは、このような1つの技術である。いくつかの実施形態では、リニア予測符号化(LPC)のコンテキストで用いられる適応フィルタリングは、ホルマントを追跡するために使用されることができる。便宜上、明細書の残りの部分は、LPCのコンテキストで、適応ホルマント追跡について記述するだろう。しかしながら、多くの他の適応処理技術は、ある実施の形態においてホルマントロケーションを追跡するのに、LPCの代わりに使用されることができることが、理解されるべきである。LPCの代わりに、または、LPCに加えて、ここで使用されることができる技術のいくつかの例は、多帯域エネルギー復調、極相互作用、パラメータフリー非リニア予測、コンテキスト依存の音素情報を含む。
II.システム概要
図1は、音声エンハンスメントシステム110を実現することができる移動電話環境100の実施形態を図示している。音声エンハンスメントシステム110は、音声入力信号102の了解度を増加させるためのハードウェア及び/またはソフトウェアを含むことができる。例えば、音声エンハンスメントシステム110は、(例えば破裂音、摩擦音を含む子音のような)非音声の(non-vocal)サウンドと同様にホルマントのような音声のサウンドの顕著な特徴を強調する音声エンハンスメントで、音声入力信号102を処理することができる。
移動電話環境100の例では、発呼電話104と着呼電話108が示されている。この例においては、音声エンハンスメントシステム110は、着呼電話108にインストールされているが、他の実施の形態においては、両方の電話に音声エンハンスメントシステムがあってもよい。発呼電話104と着呼電話108は、移動電話、ボイスオーバインターネットプロトコル(VoIP)電話、スマートフォン、地上線電話、電話及び/またはビデオ会議電話、(ラップトップやタブレットのような)他のコンピューティングデバイス、または類似物であることができる。発呼電話104は、移動電話環境100の遠端にあるとみなすことができ、着呼電話は、移動電話環境100の近端にあるとみなすことができる。着呼電話108の使用者が話すとき、近端及び遠端は逆になり得る。
描写されている実施形態では、発呼者により、音声入力102が発呼電話104に提供される。発呼電話104内の送信機106は、音声入力信号102を着呼電話108に送信する。送信機106は、ワイヤレスまたは地上線を通して、もしくは両者の組み合わせで、音声入力信号102を送信することができる。着呼電話108内の音声エンハンスメントシステム110は、音声入力信号102を向上させ、音声了解度を増加させることができる。
音声エンハンスメントシステム110は、音声入力信号102に表れる、ホルマントまたは音声の他の特徴的な部分を動的に識別することができる。結果として、ホルマントが時間と共に変化するか、異なるスピーカーごとに異なる場合でさえも、音声エンハンスメントシステム110は、ホルマントまたは音声の他の特徴的な部分を動的に向上させることができる。音声エンハンスメントシステム110は、音声エンハンスメントが、着呼電話108のマイクロフォンを使用して検出されたマイクロフォン入力信号112における環境ノイズに少なくとも部分的に基づいて、音声入力信号102に適用される度合を適応することもできる。環境ノイズまたは内容(content)は、バックグラウンドノイズまたは周囲のノイズを含むことがある。環境ノイズが増加する場合、音声エンハンスメントシステム110は、適用された音声エンハンスメントの量を増加させることができ、逆も同様である。依って、音声エンハンスメントは、検出された環境ノイズの量を少なくとも部分的に追跡することができる。同様に、音声エンハンスメントシステム110は、環境ノイズの量に少なくとも部分的に基づいて音声入力信号102に適用された全体的な利得を増加させることもできる。
しかしながら、存在する環境ノイズがより少ないとき、音声エンハンスメントシステム110は、適用された音声エンハンスメント及び/または利得増加の量を低減させることができる。音声エンハンスメント及び/またはボリューム増加は、環境ノイズが低いレベルであるときに、耳障りであるか不愉快に聞こえるので、この低減は、リスナーに有益であり得る。例えば、環境ノイズがないときに音声が耳障りに聞こえるのを回避するために、一度、環境ノイズが閾値量を超えると、音声エンハンスメントシステム110が、音声エンハンスメントを音声入力信号102に適用し始めることができる。
従って、ある実施形態では、音声エンハンスメントシステム110は、音声入力信号を、環境ノイズが変化するレベルで存在するときに、リスナーにさらなる了解度であることができる向上された出力信号114に変換する。いくつかの実施形態では、音声エンハンスメントシステム110は、発呼電話104に含まれることもできる。音声エンハンスメントシステム110は、エンハンスメントを、発呼電話104によって検出された環境ノイズの量に少なくとも部分的に基づいて音声入力信号102に適用するかもしれない。依って、音声エンハンスメントシステム110は、発呼電話104、着呼電話108または両方に使用されることができる。
音声エンハンスメントシステム110は、電話108の部分であることが示されているが、音声エンハンスメントシステム110は、代わりに、何らかの通信デバイス内で実現されることができる。例えば、音声エンハンスメントシステム110は、コンピュータ、ルータ、アナログ電話アダプタ、ディクタフォンまたは類似物内で実現されることができる。音声エンハンスメントシステム110は、パブリックアドレス(“PA”)機器(PAオーバインターネットプロトコルを含む)、ラジオトランシーバ、補助ヒアリングデバイス(例えば、補聴器)、スピーカー電話及び他のオーディオシステムにおいて使用されることができる。さらに、音声エンハンスメントシステム110は、1つ以上のスピーカーにオーディオ出力を提供する何らかのプロセッサに基づくシステムで実現されることができる。
図2は、音声エンハンスメントシステム210の更なる詳細な実施形態を図示している。音声エンハンスメントシステム210は、音声エンハンスメントシステム110のいくつかのまたは全ての特徴を実現することができ、ハードウェア及び/またはソフトウェアで実現されることができる。音声エンハンスメントシステム210は、移動電話、セル電話、スマートフォンまたは上述したいずれかのデバイスを含む他のコンピューティングデバイス内で実現されることができる。音声エンハンスメントシステム210は、ホルマント及び/または音声信号の他の部分を適応して追跡することができ、環境ノイズの検出された量及び/または入力音声信号のレベルに少なくとも部分的に基づいて、エンハンスメント処理を調整することができる。
音声エンハンスメントシステム210は、適応音声エンハンスメントモジュール220を含む。適応音声エンハンスメントモジュール220は、音声エンハンスメントを(例えば、補聴器または他のデバイスにおいて、発呼電話から受信された)音声入力信号202に適応して適用するために、ハードウェア及び/またはソフトウェアを含むことができる。音声エンハンスメントは、有声のサウンド及び/または非有声のサウンドを含む音声入力信号202において音声のサウンドの顕著な特徴を強調することができる。
有利には、ある実施形態では、適応音声エンハンスメントモジュール220は、異なるスピーカー(例えば、個人)または時間と共に変化するホルマントを伴う同じスピーカーのための適切なホルマント周波数を向上させるように、適応してホルマントを追跡する。適応音声エンハンスメントモジュール220は、音声の和音とは別の声道の部分によって作り出されたある子音のサウンドまたは他のサウンドを含む、スピーチの非有声の部分を向上させることもできる。1つの実施形態では、適応音声エンハンスメントモジュール220は、音声入力信号を時間的に整形することにより、非有声のスピーチを向上させる。これらの特徴は、以下、図3に関して、より詳細に記述している。
音声エンハンスメントコントローラ222が提供され、音声エンハンスメントモジュール220により提供されている音声エンハンスメントのレベルを制御することができる。音声エンハンスメントコントローラ222は、適用された音声エンハンスメントのレベルを増加させるか、減少させる適応音声エンハンスメントモジュール220にエンハンスメントレベル制御信号または値を提供することができる。制御信号は、環境ノイズを含むマイクロフォン入力信号204が増加及び減少するとき、ブロックごとまたはサンプルごとに適応することができる。
ある実施形態では、音声エンハンスメントコントローラ222は、マイクロフォン入力信号204における環境ノイズのエネルギーの閾値量が検出された後、音声エンハンスメントのレベルを適応する。閾値を上回ると、音声エンハンスメントコントローラ222は、音声エンハンスメントのレベルに、マイクロフォン入力信号204における環境ノイズの量を追跡させるか、または概ね追跡させることができる。例えば、1つの実施形態では、ノイズの閾値を上回って提供された音声エンハンスメントのレベルが、閾値へのノイズのエネルギー(または電力)の比率に比例する。代替的な実施形態では、音声エンハンスメントのレベルは、閾値を使用することなく適応される。音声エンハンスメントコントローラ222により適用された音声エンハンスメントの適応のレベルは、増加する環境ノイズとともに、指数的にまたはリニアに増加することができる(逆も同様である)。
音声エンハンスメントコントローラ222が、音声エンハンスメントシステム210を組み込む各デバイスごとにおおよそ同じレベルで、音声エンハンスメントのレベルを適応することを確実にすることを確実にするか、試みるために、マイクロフォンキャリブレーションモジュール234は提供されている。マイクロフォンキャリブレーションモジュール234は、マイクロフォンの全体的な利得を、いくつかのまたは全てのデバイスに対して同じかまたはおおよそ同じにするためにマイクロフォン入力信号204に適用された利得を調整する1つ以上のキャリブレーションパラメータを計算し(compute)、記憶することができる。マイクロフォンキャリブレーションモジュール234の機能性は、図10に関連して下記により詳細に記述している。
着呼電話108のマイクロフォンが電話108のスピーカー出力114から音声信号を拾っているとき、不愉快な効果が生じることがある。このスピーカーフィードバックは、音声エンハンスメントコントローラ222により環境ノイズとして解釈されることがあり、音声エンハンスメントの自己起動、つまり、スピーカーフィードバックによる音声エンハンスメントの変調を引き起こすことがある。その結果である変調された出力信号は、リスナーにとって不愉快なものであることがある。同様の問題は、受信電話108が発呼電話104から受信された音声信号を出力するのと同時に、リスナーが話したり、咳をしたり、さもなければ、受信電話108に音を発するとき、生じることがある。スピーカーとリスナーの両方が同時に話す(音を発する)この2重トークシナリオにおいて、適応音声エンハンスメントモジュール220が、2重トークに基づいて遠隔の音声入力202を変調してもよい。この変調された出力信号は、リスナーにとって不愉快なものであることがある。
これらの効果に対抗するために、音声アクティビティ検出器212は、描写されている実施形態内に提供されている。音声アクティビティ検出器212は、マイクロフォン入力信号204においてスピーカーから発している声または他のサウンドを検出することができ、環境ノイズから音声を区別することができる。マイクロフォン入力信号204が環境ノイズを含むとき、音声アクティビティ検出器212は、音声エンハンスメント222が、現在測定されている環境ノイズに基づいて適応音声エンハンスメントモジュール220により提供された音声エンハンスメントの量を調整することを可能にする。しかしながら、音声アクティビティ検出器212は、マイクロフォン入力信号204において音声を検出するとき、音声アクティビティ検出器212は、先に測定した環境ノイズを使用し、音声エンハンスメントを調整することができる。
音声エンハンスメントシステム210の描写されている実施形態は、音声エンハンスメントコントローラ222により提供された制御の量をさらに調整するために、エクストラエンハンスメント制御226を含む。エクストラエンハンスメント制御226は、エンハンスメントレベルが下回ることができない値として使用されることができる音声エンハンスメントコントローラ222にエクストラエンハンスメント制御信号を提供することができる。エクストラエンハンスメント制御226は、ユーザインタフェースを介してユーザのもとに露わにされることができる。この制御226は、ユーザに、音声エンハンスメントコントローラ222によって決定されたレベルを超えてエンハンスメントレベルを増加させることを可能にもする。1つの実施形態では、音声エンハンスメントコントローラ222は、音声エンハンスメントコントローラ222により決定されたエンハンスメントレベルに、エクストラエンハンスメント制御226からのエクストラエンハンスメントを追加することができる。エクストラエンハンスメント制御226は、さらなる音声エンハンスメント処理を望んでいるか、頻繁に適用されている音声エンハンスメント処理を望んでいる聴覚障害者にとって特に有効であるかもしれない。
適応音声エンハンスメントモジュール220は、出力利得コントローラ230に出力音声信号を提供することができる。出力利得コントローラ230は、音声エンハンスメントモジュール220の出力信号に適用された全体的な利得の量を制御することができる。出力利得コントローラ230は、ハードウェア及び/またはソフトウェアで実現されることができる。出力利得コントローラ230は、ノイズ入力204のレベル及び音声入力202のレベルに少なくとも部分的に基づいて出力信号に適用された利得を調整することができる。この利得は、電話のボリューム制御のような、何らかのユーザ設定の利得に加えて適用されることができる。有利には、マイクロフォン入力信号204及び/または音声入力202レベルにおいて、環境ノイズに基づいてオーディオ信号の利得を適用することは、リスナーにさらに音声入力信号202を知覚することの補助となる。
また、適応レベル制御232が、描写されている実施形態に示されており、出力利得コントローラ230により提供された利得の量をさらに調整することができる。ユーザインタフェースは、ユーザに適応レベル制御232を作用させることもできる。この制御232を増加させることで、コントローラ230の利得を、入ってくる音声入力202レベルが減少しているとき、または、ノイズ入力204が増加しているときに、さらに増加させることができる。この制御232を減少させることで、コントローラ230の利得を、入ってくる音声入力信号202レベルが減少しているとき、または、ノイズ入力204が減少しているときに、あまり増加させないことができる。
いくつかのケースでは、音声エンハンスメントモジュール220、音声エンハンスメントコントローラ222及び/または出力利得コントローラ230音声信号により適用された利得は、音声信号をクリップさせ、または、飽和させることができる。飽和は、リスナーに不愉快である高調波(harmonic)のひずみををもたらすことがある。従って、ある実施形態では、ひずみ制御モジュール140も提供されている。ひずみ制御モジュール140は、出力利得コントローラ230の利得調整された音声信号を受信することができる。ひずみ制御モジュール140は、少なくとも部分的に、音声エンハンスメントモジュール220、音声エンハンスメントコントローラ222及び/または出力利得コントローラ230により提供された信号エネルギーを維持するか、または増加させさえするのと同時に、ひずみを制御するハードウェア及び/またはソフトウェアを含むことがある。クリッピングが、ひずみ制御モジュール140に提供されている信号内に存在しないとしても、いくつかの実施形態では、ひずみ制御モジュール140は、信号のラウドネス及び了解度をさらに増加させるために、少なくとも部分的飽和またはクリッピングを誘発する。
ある実施形態では、ひずみ制御モジュール140は、完全飽和信号より少ない高調波を有する出力信号に1つ以上の音声信号のサンプルをマッピングすることにより、音声信号におけるひずみを制御する。このマッピングは、飽和されていないサンプルに対してリニアにまたはほぼリニアに音声信号を追跡することができる。飽和されているサンプルに対しては、マッピングは、制御されたひずみを適用する非リニアの変形であることができる。結果として、ある実施形態では、ひずみ制御モジュール140は、音声信号が、完全飽和信号より少ないひずみでより大きく聞こえることを可能にすることができる。従って、ある実施形態では、ひずみ制御モジュール140は、物理的音声信号を表すデータを制御されたひずみで別の物理的音声信号を表すデータに変形する。
音声エンハンスメントシステム110及び210の様々な特徴は、その全てを参照することによりここにその開示が組み込まれている、2009年9月14日出願の米国特許8,204,742号、発明の名称「Systems for Adaptive Voice Intelligibility Processing」に記述された同一または同様のコンポーネントに対応する機能性を含むことができる。加えて、音声エンハンスメントシステム110または210は、その全てを参照することによりここにその開示が組み込まれている、1993年6月23日出願の米国特許5,459,813号(以下、‘813特許)、発明の名称「Public Address Intelligibility System」に記述されたいずれかの特徴を含むことができる。例えば、音声エンハンスメントシステム110または210のいくつかの実施形態は、ここに記述されている他の特徴(非有声のスピーチ、音声アクティビティ検出、マイクロフォンキャリブレーション、これらの組み合わせ、または、類似物のような)のいくつかまたは全てを実現しながら、‘813特許に記述された固定されたホルマント追跡の特徴を実現することができる。同様に、音声エンハンスメントシステム110または210の他の実施形態は、ここに記述されている他の特徴のいくつかまたは全てを実現することなしに、ここに記述されている適応ホルマント追跡の特徴を実現することができる。
III.適応ホルマント追跡実施形態
図3を参照すると、適応音声エンハンスメントモジュール320の実施形態が示されている。適応音声エンハンスメントモジュール320は、図2の適応音声エンハンスメントモジュール220のさらなる詳細な実施形態である。従って、適応音声エンハンスメントモジュール320は、音声エンハンスメントシステム110または210のどちらかにより実現されることができる。それに応じて、適応音声エンハンスメントモジュール320は、ソフトウェア及び/またはハードウェアで実現されることができる。適応音声エンハンスメントモジュール320は、有利には、適応してホルマントのような有声のスピーチを追跡することができ、非有声のスピーチを時間的に向上させることもできる。
適応音声エンハンスメントモジュール320において、入力スピーチが、プレフィルタ310に提供される。この入力スピーチは、上述した音声入力信号202に対応する。プレフィルタ310は、ハイパスフィルタであってもよく、または、ある低周波数を弱める類似物であってもよい。例えば、1つの実施形態では、プレフィルタ310は、他のカットオフ周波数が選択されてもよいが、おおよそ750Hzを下回る周波数を弱める。おおよそ750Hzを下回るような低周波数にスペクトルエネルギーを弱めることにより、プレフィルタ310は、よりよいLPC分析とエンハンスメントを可能にする、その次の処理のためのさらなるヘッドルームを作成することができる。同様に、他の実施形態では、プレフィルタ310は、ハイパスフィルタの代わり、または、ハイパスフィルタに加えて、ローパスフィルタを含むことができ、より高い周波数を弱め、それにより、利得処理のための追加のヘッドルームを提供する。プレフィルタ310は、いくつかの実現では、省略されることもある。
描写されている実施形態において、プレフィルタ310の出力は、LPC分析モジュール312に提供されている。LPC分析モジュール312は、リニア予測技術を、スペクトルに分析し、周波数スペクトルにおいてホルマントロケーションを識別することに適用することができる。ホルマントロケーションを識別するものとして、ここに記述されているが、より一般的には、LPC分析モジュール312は、入力スピーチの周波数または電力スペクトル表現を表すことができる係数を生成することができる。このスペクトル表現は、入力スピーチにおけるホルマントに対応するピークを含むことがある。識別されたホルマントは、ちょうどピークそのものというよりむしろ、周波数の帯域に対応してもよい。例えば、800Hzに位置すると言われるホルマントは、実際には、おおよそ800Hzのスペクトル帯域を含んでいてもよい。このスペクトル表現を有するこれらの係数を作り出すことで、LPC分析モジュール312は、ホルマントロケーションが、入力スピーチにおいて時間とともに変化すると、適応してホルマントロケーションを識別することができる。依って、適応音声エンハンスメントモジュール320のその次のコンポーネントは、適応してこれらのホルマントを向上させることができる。
1つの実施形態において、LPC分析モジュール312は、全極フィルタモデルが、スピーチにおけるホルマントロケーションを正確にかたどることができるので、予測アルゴリズムを使用し、全極フィルタの係数を生成する。1つの実施形態では、自己相関方法は、全極フィルタのための係数を取得するために使用される。他のものの中で、この分析を実行するために使用されることがある1つの特定のアルゴリズムは、レビンソン‐ダービンアルゴリズムである。レビンソン‐ダービンアルゴリズムは、格子フィルタの係数を生成するが、直接型(direct form)係数もまた生成されてもよい。係数は、処理効率を改善するために、各サンプルに対してというより、サンプルのブロックに対して生成されることができる。
LPC分析により生成された係数は、量子化ノイズに敏感な傾向がある。係数における非常に小さな誤りが、スペクトル全体をひずませるか、または、フィルタを不安定にさせることがある。全極フィルタ上の量子化ノイズの効果を低減させるために、LPC係数から線スペクトル対(LSP、線スペクトル周波数(LSF)とも呼ばれる)へのマッピングまたは変形は、マッピングモジュール314により実行されることができる。マッピングモジュール314は、各LPC係数に対する対の係数を作り出すことができる。有利には、ある実施形態では、このマッピングは、全極フィルタの安定性を改善する、(Z変形領域における)単位円(unit circle)上にあるLSPを作り出すことができる。ノイズに対する係数感度を扱う方法として、LSPを代替するか、またはLSPに加えて、係数は、ログ面積比(LAR)または他の技術を使用して表現されることができる。
ある実施形態では、ホルマントエンハンスメントモジュール316は、向上された全極フィルタ326を作り出すために、LSPを受信し、追加の処理を実行する。向上された全極フィルタ326は、さらなる了解度のオーディオ信号を作り出すために入力オーディオ信号の表現に適用されることができるエンハンスメントフィルタの一例である。1つの実施形態では、ホルマントエンハンスメントモジュール316は、ホルマント周波数におけるスペクトルピークを強調する方法で、LSPを調整する。図4を参照すると、例示的なプロット400が示されており、ピーク414及び416により識別されたホルマントロケーションを有する周波数マグニチュードスペクトル412(実線)を含んでいる。ホルマントエンハンスメントモジュール316は、同じかまたは概ね同じホルマントロケーションにあるが高い利得のピーク424、426を有する(破線で近似されている)新たなスペクトル422を作り出すためにこれらピーク414、416を調整することができる。1つの実施形態では、ホルマントエンハンスメントモジュール316は、垂直線418により図示されているように、線スペクトル対の間の距離を減少させることにより、ピークの利得を増加させる。
ある実施形態では、ホルマント周波数に対応する線スペクトル対は、互いにより接近している周波数を表すように調整され、それにより、各ピークの利得を増加させる。リニア予測多項式が、単位円内のどこかに複雑なルートを有しているとき、いくつかの実施形態では、線スペクトル多項式が単位円上にのみルートを有する。従って、線スペクトル対は、LPCの直接量子化に対して優れているいくつかの性質を有していてもよい。ルートは、いくつかの実現では、インターリーブされるので、ルートが、単調に増加している場合、フィルタの安定性が達成されることができる。LPC係数と違って、LSPは、量子化ノイズに過剰に敏感にならないかもしれないので、依って、安定性は、達成させるかもしれない。2つのルートがより接近すると、フィルタは、対応する周波数においてより反響する。従って、LPCスペクトルピークに対応する2つのルート(1つの線スペクトル対)の間の距離を減少させることは、そのホルマントロケーションにおけるフィルタ利得を有利に増加させることができる。
ホルマントエンハンスメントモジュール316は、ejΩδによる乗算のような位相変化操作を使用して、変調ファクタδを各ルートに適用することにより1つの実施形態におけるピークの間の距離を減少させることができる。量δの値を変化することで、ルートを単位円に沿って、接近して一緒に動かすか、離れて別個に動かすことができる。従って、対のLSPルートにとっては、第1のルートは、変調ファクタδの正の値を適用することで、第2のルートにより近くなるよう動かされることができ、第2のルートは、δの負の値を適用することで第1のルートにより近くなるよう動かされることができる。いくつかの実施形態では、ルート間の距離は、おおよそ10%、おおよそ25%、おおよそ30%、おおよそ50%の距離低減またはいくつかの他の値のような所望のエンハンスメントを達成するために一定の量分低減させられることができる。
ルートの調整は、音声エンハンスメントコントローラ222により制御されることもできる。図2に関連して上述されたように、音声エンハンスメントモジュール222は、マイクロフォン入力信号204のノイズレベルに基づいて適用される音声了解度エンハンスメントの量を調整することができる。1つの実施形態では、音声エンハンスメントコントローラ222は、ホルマントエンハンスメントモジュール316が、LSPルートに適用されたホルマントエンハンスメントの量を調整するために用いることができる適応音声エンハンスメントコントローラ220に制御信号を出力する。1つの実施形態では、ホルマントエンハンスメントモジュール316は、制御信号に基づいて変調ファクタδを調整する。従って、(例えば、さらなるノイズのせいで)さらなるエンハンスメントが適用されるべきことを示す制御信号は、ホルマントエンハンスメントモジュール316に、ルートが接近して一緒になるために変調ファクタδを変化するようにさせることができ、逆も同様である。
再び図3を参照すると、ホルマントエンハンスメントモジュール316は、向上された全極フィルタ326を作り出すために調整されたLSPをLPC係数(格子型または直接型)に戻してマップすることができる。しかしながら、いくつかの実現では、このマッピングは実行される必要がなく、しかしむしろ、向上された全極フィルタ326が、係数としてLSPで実現されることができる。
入力スピーチを向上させるために、いくつかの実施形態では、向上された全極フィルタ326は、入力スピーチ信号から合成された励起信号324に作用する。この合成は、全ゼロフィルタ322を励起信号324を作り出すための入力スピーチに適用することにより、ある実施の形態では実行される。全ゼロフィルタ322は、LPC分析モジュール312により作成され、LPC分析モジュール312により作成された全極フィルタの逆である逆フィルタであることができる。1つの実施形態では、全ゼロフィルタ322は、LPC分析モジュール312により算出された(calculated)LSPで実現されてもよい。全極フィルタの逆を入力スピーチに適用することと、向上された全極フィルタ326を逆転されたスピーチ信号(励起信号324)に適用することにより、オリジナルの入力スピーチ信号は、回復される(少なくともほぼ回復される)ことができ、向上されることができる。全ゼロフィルタ322と向上された全極フィルタ326に対する係数が、ブロックからブロックへと(またはサンプルからサンプルでさえ)変化することができるので、入力スピーチにおけるホルマントは、適応して追跡され、強調されることができ、それにより、ノイズのある環境であっても、スピーチ了解度を改善する。従って、向上されたスピーチは、ある実施形態では、分析合成技術を使用して生成される。
図5は、図3に追加の特徴を加えた適応音声エンハンスメントモジュール320の全ての特徴を含む適応音声エンハンスメントモジュール520の別の実施形態を描写している。特に、描写されている実施形態では、図3の向上された全極フィルタ326は、2度適用されており、1度は励起信号324(526a)で、1度は入力スピーチ(526b)である。向上された全極フィルタ526bを入力スピーチに適用することで、入力スピーチのスペクトルのほぼ矩形であるスペクトルを有する信号を作り出すことができる。このほぼスペクトル矩形信号が、向上されたスピーチ出力を作り出すために、コンバイナ528による向上された励起信号出力で追加される。オプションの利得ブロック510は、適用されたスペクトル矩形信号の量を調整するように提供されることができる。(スペクトル矩形信号に適用されているように示されているが、利得は、代わりに向上された全極フィルタ526aの出力に、または、526a、526bの両方の出力に適用されることができる。)ユーザインタフェース制御は、適応音声エンハンスメントモジュール320を組み込んでいるデバイスの製造者または該デバイスのエンドユーザのようなユーザが利得510を調整することを可能にするために提供されてもよい。スペクトル矩形信号に適用されたさらなる利得が、信号の耳障りさを増加させることがあり、このことは、特にノイズのある環境においては了解度を増加させるかもしれず、しかし、ノイズの少ない環境においては非常に耳障りに聞こえるかもしれない。従って、ユーザ制御を提供することで、向上されたスピーチ信号の知覚される耳障り感の調整を可能にすることができる。この利得510は、いくつかの実施形態では、環境ノイズ入力に基づいて音声エンハンスメント制御222により自動的に制御されることもできる。
ある実施形態では、適応音声エンハンスメントモジュール320または520において示された全てのブロックより少ないブロックで実現されてもよい。また、他の実施形態では、追加のブロックまたはフィルタが、適応音声エンハンスメントモジュール320または520に追加されてもよい。
IV.時間的包絡整形実施形態
図3における全極フィルタ326により修正された音声信号または図5におけるコンバイナ528による出力としての音声信号は、いくつかの実施形態において、時間的包絡線整形器332に提供されることができる。時間的包絡線整形器332は、時間領域において時間的包絡線整形を介して非有声のスピーチ(瞬間的スピーチを含む)を向上することができる。1つの実施形態では、時間的包絡線整形器332は、おおよそ3kHzを下回る(オプション的に低周波数を上回る)周波数を含む中間域周波数を向上させる。時間的包絡線整形器332は、同様に、中間域周波数とは他の周波数を向上してもよい。
ある実施形態では、時間的包絡線整形器332は、向上された全極フィルタ326の出力信号から包絡線を初めて検出することにより時間領域における時間的周波数を向上させることができる。時間的包絡線整形器332は、様々な方法の何らかの方法を使用して包絡線を検出することができる。1つの例示的アプローチは、最大値の追跡であり、時間的包絡線整形器332が、信号をウィンドウ化されたセクションに分割し、各ウィンドウセクションから最大またはピーク値を選択することができる。時間的包絡線整形器332は、包絡線を形成するために、各値の間の線または曲線と一緒に最大値を結合することができる。いくつかの実施形態では、スピーチ了解度を増加させるために、時間的包絡線整形器332は、信号を周波数帯域の適切な数に分割し、帯域ごとに異なる整形器を実行することができる。
例示的なウィンドウサイズは、64、128、256、512サンプルを含むことができるが、他のウィンドウサイズも、選択されてもよい(2の累乗でないウィンドウサイズを含む)。一般に、よりおおきなウィンドウサイズが、より低い周波数へ向上されている時間的周波数を拡張することができる。さらに、ヒルベルト変換関連技術及び自己復調技術(例えば、信号を積算したり、ローパスフィルタリングする)のような、信号の包絡線を検出するために使用されることができる他の技術がある。
一度、包絡線が検出されると、時間的包絡線整形器332は、包絡線のアスペクトを選択的に鋭利にするか、平滑にするために、包絡線の形を調整することができる。第1の段階では、時間的包絡線整形器332は、包絡線の特質に基づいて、利得を計算することができる。第2の段階では、時間的包絡線整形器332は、所望の効果を達成するために、利得を現在の信号におけるサンプルに適用することができる。1つの実施形態では、所望の効果は、(”s”及び”t”と同様のある子音のような)有声化されていない(non-vocalized)スピーチを強調するためにスピーチの瞬間的部分を鋭利にするためであり、それにより、スピーチの了解度を増加させる。他の応用では、スピーチを平滑にし、それにより、スピーチを和らげることは有効である。
図6は、図3の時間的包絡線整形器332の特徴を実現することができる時間的包絡線整形器632のさらなる詳細な実施形態を図示している。時間的包絡線整形器632もまた、上述した適応音声エンハンスメントモジュールから独立して、異なる応用に対して使用されることができる。
時間的包絡線整形器632は、(例えば、フィルタ326またはコンバイナ528からの)入力信号602を受信する。それから、時間的包絡線整形器632は、入力信号602を帯域パスフィルタ610を使用する複数の帯域または類似のものに細分する。帯域の任意の数を選択することができる。一例として、時間的包絡線整形器632は、おおよそ50Hzからおおよそ200Hzの第1の帯域、おおよそ200Hzからおおよそ4kHzの第2の帯域、おおよそ4kHzからおおよそ10kHzの第3の帯域、おおよそ10kHzからおおよそ20kHzの第4の帯域を含む4つの帯域に入力信号602を分割することができる。他の実施形態では、時間的包絡線整形器332は、信号を帯域に分割せずに、その代わり、全体として信号に作用する。
最も低い帯域は、サブ帯域パスフィルタ610aを使用して取得された低帯域またはサブ帯域であることがある。サブ帯域は、一般的にサブウーファーにおいて再生された周波数に対応することができる。上記の例では、最も低い帯域は、おおよそ50Hzからおおよそ200Hzである。このサブ帯域パスフィルタ610aの出力は、利得をサブ帯域における信号に適用するサブ補償利得ブロック612に提供される。下記に詳細に記述されるだろうように、利得は、入力信号602のアスペクトを鋭利にするか、または強調するための他の帯域に適用されてもよい。しかしながら、このような利得を適用することは、サブ帯域610aとは他の帯域610bにおけるエネルギーを増加させることができ、低い出力における潜在的低減をもたらす。この低減された低い効果を補償するために、サブ補償利得ブロック612は、利得を他の帯域610bに適用された利得の量に基づいてサブ帯域610aに適用することができる。サブ補償利得は、オリジナルの入力信号602(またはその包絡線)及び鋭利にされた入力信号の間のエネルギーにおける差異に等しいか、ほぼ等しい値を有することができる。サブ補償利得は、合計し、平均し、そうでなければ、他の帯域610bに適用された追加されたエネルギーまたは利得を組み合わせることにより、利得ブロック612により算出されることができる。サブ補償利得は、帯域610bの1つに適用されたピーク利得を選択し、この値またはサブ補償利得に対する類似の値を使用する利得ブロック612により算出されることもできる。しかしながら、別の実施形態では、サブ補償利得は、固定された利得値である。サブ補償利得ブロック612の出力は、コンバイナ630に提供されている。
各々の他の帯域パスフィルター610bの出力は、上述されたいずれかの包絡線検出アルゴリズムを実現する包絡線検出器622に提供されることができる。例えば、包絡線検出器622は、最大値追跡または類似のことを行うことができる。包絡線検出器622の出力は、包絡線のアスペクトを選択的に鋭利にするか、平滑にするために包絡線の形を調整することができる包絡線整形器624に提供されることができる。包絡線整形器624の各々は、出力信号634を提供するために各包絡線整形器624の出力とサブ補償利得ブロック612を組み合わせるコンバイナ630に出力信号を提供する。
包絡線整形器624により提供された鋭利化効果は、図7及び8に示されているように、各帯域(または細分されていない場合、全体としての信号)において、包絡線のスロープを操作することにより達成されることができる。図7を参照すると、時間領域包絡線701の部分を描写する例示的プロット700が示されている。プロット700では、時間領域包絡線701は、2つの部分、第1の部分702と第2の部分704を含んでいる。第1の部分702が、正のスロープを有している一方で、第2の部分704が負のスロープを有している。従って、2つの部分702、704が、ピーク708を形成する。包絡線上の部分706、708、710は、上述した最大値包絡線検出器によるウィンドウまたはフレームから検出されたピーク値を表す。部分702、704は、ピークポイント706、708、710を結合するために使用される線を表し、それにより、包絡線701を形成する。ピーク708は、この包絡線701に示されるが、代わりに、包絡線701の他の部分(図示されず)は、変曲点またはゼロスロープを有してもよい。包絡線701の例示的部分に関して記述されている分析は、包絡線701のこのような他の部分に対して実現されることもできる。
包絡線701の第1の部分702が水平に角度θを形成する。この角度の急勾配さが、瞬間的なものをさらに示す急勾配の角度で、包絡線701の部分702、704が、スピーチ信号の瞬間的部分を表すかどうかを反映することができる。同様に、包絡線701の第2の部分704が水平に角度φを形成する。この角度もまた、瞬間的なものをさらに示しているより高い角度で、現在の瞬間的なものの見込みを反映する。従って、角度θ、φの1つまたは両方を増加させることは、瞬間的なものを効果的に鋭利にし、強調することができる。特に、φを増加させることは、サウンドの反響が減少させられるかもしれないので、乾燥音(例えば、リバーブがより少ない音)をもたらすことができる。
角度は、より急勾配であるか鋭利にされた部分712、714を有する新しい包絡線を作り出すために部分702、704により形成された各々の線のスロープを調整することにより増加されることができる。図に示されるように、第1の部分702のスロープは、dy/dx1として表されてもよく、同時に、第2の部分704のスロープは、示されるようにdy/dx2として表されてもよい。利得は、各スロープ(例えば、dy/dx1にとって正の増加、dy/dx2にとって負の増加)の絶対値を増加させるように適用されることができる。この利得は、各角度θ、φの値に依存することができる。ある実施形態では、瞬間的なものを鋭利にするために、利得値は、正のスロープに沿って増加し、負のスロープで減少する。包絡線の第1の部分702に提供された利得調整の量は、第2の部分704に適用された量と同じであってもよいが、そうである必要はない。1つの実施形態では、第2の部分704の利得は、第1の部分702に適用された利得より、絶対値でさらに大きく、それにより、サウンドをさらに鋭利にする。利得は、正から負への利得の急な遷移によるアーティファクトを低減させるためにピークにおけるサンプルに対して平滑にされてもよい。ある実施形態では、利得は、上述された角度が閾値を下回るときはいつでも、包絡線に適用される。他の実施形態では、利得は、角度が閾値を上回るときはいつでも、適用される。計算された利得(または複数のサンプル及び/または複数の帯域に対しての利得)は、信号におけるピークを鋭利にする時間的エンハンスメントパラメータを構成することができ、それにより、オーディオシグナルの選択された子音または他の部分を向上させることができる。
これらの特徴を実現することができる平滑化(smoothing)の例示的利得方程式は、次の通りである。gain = exp(gFactor*delta*(i-mBand->prev_maxXL/dx)*(mBand->mGainoffset+Offsetdelta*(i-mBand->prev_maxXL))この例示的方程式では、包絡線と角度が対数スケールで算出されるので、利得は、角度における変化の指数関数である。量gファクタは、アタックまたはディケイの率を制御する。量(i-mBand->prev_maxXL/dx)は包絡線のスロープを表すと同時に、利得方程式の以下の部分は、先の利得から始まり、現在の利得で終了する平滑化関数を表す(mBand->mGainoffset+Offsetdelta*(i-mBand->prev_maxXL))。人間の聴覚システムは、対数スケールに基づいているので、指数関数は、リスナーが瞬間的サウンドをより良く区別する補助となることができる。
量gファクタのアタック/ディケイ関数は、図8にさらに図示されている。図8では、増加するアタックスロープ812の異なるレベルが第1のプロット810で示され、減少するディケイスロープ822の異なるレベルが第2のプロット820に示されている。アタックスロープ812は、図7のより急勾配の第1の部分712に対応する、瞬間的サウンドを強調するために上述されているようなスロープで増加されることができる。同様にして、ディケイスロープ822は、図7のより急勾配の第2部分714に対応する、瞬間的サウンドをさらに強調するために上述されているようなスロープで減少されることができる。
V.例示的音声検出処理
図9は、音声検出処理900の実施形態を図示している。ノイズ検出処理900は、上述された音声エンハンスメントシステム110、210のどちらかにより実現されることができる。1つの実施形態では、ノイズ検出処理900は、音声アクティビティ検出器212により実現されている。
音声検出処理900は、マイクロフォン入力信号204のような入力信号における音声を検出する。入力信号が、音声というよりむしろノイズを含む場合、音声検出処理900は、音声エンハンスメントの量を現在測定された環境ノイズに基づいて適応することを可能にする。しかしながら、入力信号が音声を含むとき、音声検出処理900は、環境ノイズの先の測定が音声エンハンスメントを調整するために使用されるようにすることができる。有利には、ノイズの先の測定を使用することで、音声入力に基づいて音声エンハンスメントを調整することを回避することができ、依然として、音声エンハンスメントが環境ノイズ条件に適応することを可能にする。
処理900のブロック902において、音声アクティビティ検出器212が、入力マイクロフォン信号を受信する。ブロック904において、音声アクティビティ検出器212は、マイクロフォン信号の音声アクティビティ分析を実行する。音声アクティビティ検出器212は、いずれかの様々な技術を使用し、音声アクティビティを検出することができる。1つの実施形態では、音声アクティビティ検出器212は、音声というよりむしろ、ノイズアクティビティを検出し、ノイズでないアクティビティの期間が、音声に対応することを推論する。音声アクティビティ検出器212は、音声及び/またはノイズを検出するために、以下の技術または類似の技術のいずれかの組み合わせを使用することができる:信号の統計的分析(例えば、標準偏差、分散など)、より高い帯域エネルギーに対するより低い帯域エネルギー比率、ゼロ交差比率、スペクトル流束または他の周波数領域アプローチ、または自己相関。さらに、いくつかの実施形態では、音声アクティビティ検出器212は、その全てを参照することによりここにその開示が組み込まれている、2006年4月21日出願、米国特許番号7,912,231号、発明の名称「Systems and Methods for Reducing Audio Noise」に記述されているノイズ検出技術のいくつかまたは全てを使用してノイズを検出する。
判断ブロック906において決定されるように、信号が音声を含む場合、音声アクティビティ検出器212は、音声エンハンスメントコントローラ222に、適応音声エンハンスメントモジュール220の音声エンハンスメントを制御するために先のノイズバッファを使用させる。ノイズバッファは、音声アクティビティ検出器212または音声エンハンスメントコントローラ222によりセーブされるマイクロフォン入力信号204のノイズサンプルの1つ以上のブロックを含むことができる。入力信号204の先の部分からセーブされた先のノイズバッファは、先のノイズサンプルがノイズバッファに記憶された時以降環境ノイズが著しく変化しない、という仮定のもと使用されることができる。会話における休止は頻繁に生じるので、この仮定は、多くの事例で正確であるかもしれない。
他方で、信号が音声を含まない場合、音声アクティビティ検出器212は、音声エンハンスメントコントローラ222に適応音声エンハンスメントモジュール220の音声エンハンスメントを制御するために現在のノイズバッファを使用させる。現在のノイズバッファは、ノイズサンプルの1つ以上の最も直近に受信したブロックを表すことができる。音声アクティビティ検出器212は、ブロック914で、追加の信号が受信されたかどうか決定する。受信された場合、処理900は、ブロック904にループを戻す。受信されてない場合、処理900は終了する。
従って、ある実施形態では、音声検出処理900は、遠隔の音声信号に適用された音声了解度エンハンスメントのレベルを変調するか、そうでなければ、自己起動して、音声入力の望ましくない効果を軽減することができる。
VI.例示的マイクロフォンキャリブレーション処理
図10は、マイクロフォンキャリブレーション処理1000の実施形態を図示している。マイクロフォンキャリブレーション処理1000は、上述された音声エンハンスメントシステム110、210のどちらかにより、少なくとも一部実現されることができる。1つの実施形態では、マイクロフォンキャリブレーション処理1000は、マイクロフォンキャリブレーションモジュール234により少なくとも一部実現される。示されたように、処理1000の部分は、実験室(LAB)またはデザイン施設で実現されることができ、同時に、処理1000のの残りは、音声エンハンスメントシステム110または210を組み込んでいるデバイスの製造者の施設のようなところのフィールド(FIELD)で実現されることができる。
上述したように、マイクロフォンキャリブレーションモジュール234は、マイクロフォンの全体的な利得を、いくつかのまたは全てのデバイスにとって、同じかまたはおおよそ同じにするためにマイクロフォン入力信号204に適用された利得を調整する1つ以上のキャリブレーションパラメータを計算し、記憶することができる。対照的に、デバイスを通してマイクロフォン利得をレベル化する(level)既存のアプローチは、矛盾する傾向があり、異なるデバイスにおける音声エンハンスメントを起動する異なるノイズレベルをもたらす。現在のマイクロフォンキャリブレーションアプローチでは、フィールドエンジニア(例えば、デバイス製造者施設またはその他のところ)は、電話または他のデバイスにおいて、マイクロフォンによって拾われるだろう音を生成するために、試験デバイスでプレイバックスピーカを起動することにより、トライアル&エラーアプローチを適用する。そこで、フィールドエンジニアは、マイクロフォン信号が、音声エンハンスメントコントローラ222のノイズ閾値への到達として解釈するレベルであるようなマイクロフォンのキャリブレートを試み、それにより、音声エンハンスメントコントローラ222に音声エンハンスメントをトリガさせるか、または可能にさせる。全てのフィールドエンジニアは、音声エンハンスメントをトリガする閾値に到達するために、マイクロフォンが拾うべきノイズのレベルの異なるフィーリングを有するので、矛盾が発生する。さらに、多くのマイクロフォンは、広い利得域(例えば、−40dBから+40dB)を有しており、依って、マイクロフォンをチューニングするとき使用されるべき精密な利得数を探すのは困難であることがある。
マイクロフォンキャリブレーション処理1000は、現在のフィールドエンジニアのトライアル&エラーアプローチよりさらに首尾一貫であることができる各マイクロフォンの利得値を計算することができる。ブロック1002で、実験室(LAB)において始まり、ノイズ信号は、適したスピーカーを有するか、適したスピーカーに結合されている何らかのコンピューティングデバイスであってよい試験デバイスで出力される。このノイズ信号は、ブロック1004で参照信号として記録され、平滑にされたエネルギーは、ブロック1006で標準参照信号から計算される。RefPwrと表示されるこの平滑にされたエネルギーは、フィールドにおける自動マイクロフォンキャリブレーションのために使用される絶好の参照値であることができる。
フィールドにおいて、絶交の参照値RefPwrを使用して、自動キャリブレーションが生じることがある。ブロック1008では、参照信号は、例えばフィールドエンジニアによって、試験デバイスで標準ボリュームでかけられる。参照信号は、ノイズ信号が実験室(LAB)のブロック1002においてかけられたのと同じボリュームでかけられることができる。ブロック1010では、マイクロフォンキャリブレーションモジュール234は、試験下のマイクロフォンから受信されたサウンドを記録することができる。それから、マイクロフォンキャリブレーションモジュール234は、CaliPwrとして表示されるブロック1012で記録された信号の平滑にされたエネルギーを計算する。ブロック1014では、マイクロフォンキャリブレーションモジュール234は、参照信号及び記録された信号のエネルギーに基づいて、マイクロフォンオフセットを、例えば次のように計算することができる。MicOffset = RefPwr/CaliPwr。
ブロック1016では、マイクロフォンキャリブレーションモジュール234は、マイクロフォンのための利得としてマイクロフォンオフセットをセットする。マイクロフォン入力信号204が受信されるとき、このマイクロフォンオフセットは、マイクロフォン入力信号204へのキャリブレーション利得として適用されることができる。結果として、音声エンハンスメントコントローラ222に同じ閾値レベルに対する音声エンハンスメントをトリガさせるノイズのレベルは、デバイスを通して同じであるか、または、ほぼ同じであることができる。
VII.用語法
ここに記述されたバリエーションとは別の多くのバリエーションが、この開示から明白となるだろう。例えば、実施形態に依存し、ここに記述されているアルゴリズムのいずれかのある動作(act)、イベントまたは機能は、異なるシーケンスで実行されることができ、全体として追加され、併合され、または、除外されることもできる(例えば、記載されている動作またはイベントの全てがアルゴリスムの実践に必要というわけではない)。さらに、ある実施形態では、動作またはイベントは、例えば、マルチスレッド処理、割り込み処理、または、複数のプロセッサまたはプロセッサコアを通して、または、他のパラレルアーキテクチャ上で、シーケンシャルというよりむしろ、同時に実行されることができる。加えて、異なるタスクまたは処理は、一緒に機能することができる異なる機械及び/またはコンピューティングシステムによって実行されることができる。
ここに開示されている実施形態と関連して記述される様々な図示的ロジックブロック、モジュール及びアルゴリズムステップが、電子ハードウェア、コンピュータソフトウェアまたは両方の組み合わせとして実現されることができる。ハードウェア及びソフトウェアのこの互換性を明確に図示するために、様々な図示的コンポーネント、ブロック、モジュール及びステップは、それらの機能性に関して一般的に上述されている。このような機能性がハードウェアまたはソフトウェアとして実現されるかどうかは、全体的なシステムに課されている特別な応用及びデザイン制約に依存している。例えば、車両マネージメントシステム110または210が、1つ以上のコンピュータシステムによって、または、1つ以上のプロセッサを含むコンピュータシステムによって実現されることができる。記述された機能性は、それぞれの特別な応用に対して変動的な方法で実現されることができるが、このような実現決定は、本開示の範囲からの逸脱を引き起こすものとして解釈されるべきではない。
ここに開示されている実施形態に関連して記述されている様々な図示的ロジックブロック及びモジュールは、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、または、ここに記述されている機能を実行するためにデザインされた上述のいずれかの組み合わせのような機械により実現されるか、実行されることができる。汎用プロセッサは、マイクロプロセッサであり得るが、代替的に、プロセッサは、コントローラ、マイクロコントローラまたは状態機械、これらの組み合わせ、または類似物であることができる。プロセッサは、コンピューティングデバイスの組み合わせ、例えば、DSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、DSPコアと一緒の1つ以上のマイクロプロセッサの組み合わせ、または、何らかの他のこのような構成として実現されることもできる。コンピューティング環境は、2、3例を挙げれば、マイクロプロセッサに基づいたコンピュータシステム、メインフレームコンピュータ、デジタル信号プロセッサ、携帯コンピューティングデバイス、パーソナルオーガナイザ、デバイスコントローラ、及び、アプライアンス内の計算エンジンに限定されないが、これらを含むコンピュータシステムの何らかのタイプを含むことができる。
ここに開示された実施形態と関連して記述された方法、処理またはアルゴリズムのステップは、直接ハードウェアで、プロセッサにより実行されたソフトウェアモジュールで、または2つの組み合わせで具体化されることができる。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーブバルディスク、CD−ROM、または、当該技術で知られている非一時的コンピュータ可読記憶媒体、メディア、または、物理的コンピュータ記憶の何らかの他の形式に存在することができる。例示的な記憶媒体は、プロセッサが、記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるようにプロセッサに結合されることができる。代替的に、記憶媒体は、プロセッサと一体型であることができる。プロセッサと記憶媒体は、ASICに存在することができる。ASICは、ユーザ端末に存在することができる。代替的に、プロセッサ及び記憶媒体は、ユーザ端末においてディスクリートコンポーネントとして存在することができる。
他の言葉の中で、”できる/ことがある””かもしれない””してもよい””例えば”及び類似語のようなここで使用されている条件的言語は、特別に別な方法で述べられない限り、またはそうでなければ、使用されているコンテキスト内で理解されない限り、いくつかの実施形態がある特徴、要素及び/または状態を含んでいること、その一方、他の実施形態は、ある特徴、要素及び/または状態を含んでいないことを意味する意図が一般的にある。従って、このような条件的言語は、特徴、要素及び/または状態が、1つ以上の実施形態に求められた何らかの方法であること、または、1つ以上の実施形態が著者インプットまたはプロンプティングとともに、または無しで、これらの特徴、要素及び/または状態が、いずれかの特別な実施形態に含まれるかまたは実行されるべきかを決定するためのロジックを必然的に含むことを含意することを一般的に意図するわけではない。用語”備えている””含んでいる””有している”とそれら類似語は、類義語であり、オープンエンドな仕方で包括的に使用され、追加の要素、特徴、動作、操作などを除外しない。同様に、用語”or”は、その包含的意味において(その排他的意味においてではない)使用される、そのため、例えば、要素のリストを結合するために使用されるとき、用語”or”は、リストにある1つ、いくつか、または全ての要素を意味する。さらに、その通常の意味を有しているのに加えて、ここで使用されている用語”各/おのおの”は、用語”各/おのおの”が適用されている要素の組の何らかの部分集合を意味することができる。
上記の詳細な記述が、様々な実施形態に適用されているように、新規の特徴を示し、記述し、指摘するのと同時に、図示されているデバイスまたはアルゴリズムの形式及び詳細における様々な省略、置換、変更が、本開示の精神から逸脱することなくなされることができることが理解されるだろう。認識されるように、いくつかの特徴は、他の特徴とは別に使用されるか実践されることができるように、ここに記述されている発明のある実施形態は、ここに説明されている特徴及び利益の全てを提供しない形態内で、具体化されることができる。

Claims (20)

  1. 音声了解度エンハンスメントを調整する方法であって、前記方法は、
    入力音声信号を受信することと、
    リニア予測符号化(LPC)処理で前記入力音声信号のスペクトル表現を取得することと、前記スペクトル表現は、1つ以上のホルマント周波数を備え、
    前記1つ以上のホルマント周波数を強調するように構成されたエンハンスメントフィルタを作り出すために、1つ以上のプロセッサで前記入力音声信号の前記スペクトル表現を調整することと、
    向上されたホルマント周波数で修正された音声信号を作り出すために前記エンハンスメントフィルタを前記入力音声信号の表現に適用することと、
    前記入力音声信号に基づいて包絡線を検出することと、
    1つ以上の時間的エンハンスメントパラメータを決定するために前記修正された音声信号の前記包絡線を分析することと、
    出力音声信号を作り出すために前記修正された音声信号に対する前記1つ以上の時間的エンハンスメントパラメータを適用することとを備え、
    少なくとも前記1つ以上の時間的エンハンスメントパラメータを適用することは、1つ以上のプロセッサにより実行される方法。
  2. 前記修正された音声信号に1つ以上の時間的エンハンスメントパラメータを適用することは、前記修正された音声信号における選択された子音を強調するために、前記修正された音声信号の前記1つ以上の包絡線におけるピークを鋭利にすることを備える、請求項1記載の方法。
  3. 前記包絡線を検出することは、前記入力音声信号及び前記修正された音声信号の1つ以上の包絡線を検出することを備える、請求項1記載の方法。
  4. 前記エンハンスメントフィルタを前記入力音声信号の前記表現に適用することが、前記エンハンスメントフィルタを励起信号に適用することを備えるように、前記励起信号を作り出すために、前記入力音声信号に逆フィルタを適用することをさらに備える、請求項1記載の方法。
  5. 音声了解度エンハンスメントを調整するためのシステムであって、前記システムは、
    入力オーディオ信号の少なくとも一部分のスペクトル表現を取得するように構成された分析モジュールと、前記スペクトル表現は1つ以上のホルマント周波数を備え、
    前記1つ以上のホルマント周波数を強調するように構成されたエンハンスメントフィルタを生成するように構成されたホルマントエンハンスメントモジュールと、
    前記エンハンスメントフィルタは、修正された音声信号を作り出すために1つ以上のプロセッサで前記入力オーディオ信号の表現に適用されるように構成され、
    時間的エンハンスメントを前記修正された音声信号の1つ以上の包絡線に少なくとも一部基づいて前記修正された音声信号に適用するように構成された時間的包絡線整形器とを備えるシステム。
  6. 前記分析モジュールは、前記スペクトル表現に対応する係数を生成するように構成されたリニア予測符号化技術を使用して、前記入力オーディオ信号の前記スペクトル表現を取得するようにさらに構成された、請求項5記載の方法。
  7. 線スペクトル対に前記係数をマップするように構成されたマッピングモジュールをさらに備える、請求項6記載の方法。
  8. 前記ホルマント周波数に対応する前記スペクトル表現において利得を増加させるために前記線スペクトル対を修正することをさらに備える、請求項7記載の方法。
  9. 前記エンハンスメントフィルタは、前記入力オーディオ信号及び前記入力オーディオ信号から導きだされた励起信号の1つ以上に適用されるようにさらに構成された、請求項5記載の方法。
  10. 前記時間的な包絡線整形器は、修正された音声信号を複数の帯域に細分するようにさらに構成され、前記1つ以上の包絡線は、少なくともいくつかの前記複数の帯域のための包絡線に対応する、請求項5記載の方法。
  11. 入力マイクロフォン信号における検出された環境ノイズの量に少なくとも部分的に基づいて前記エンハンスメントフィルタの利得を調整するように構成された音声エンハンスメントコントローラをさらに備える、請求項5記載の方法。
  12. 前記入力マイクロフォン信号における音声を検出し、前記検出された音声に応答する前記音声エンハンスメントコントローラを制御するように構成された音声アクティビティ検出器をさらに含む、請求項11記載の方法。
  13. 前記音声アクティビティ検出器は、前記音声エンハンスメントコントローラに、前記入力マイクロフォン信号において音声検出に応答し先のノイズ入力に基づいて前記エンハンスメントフィルタの前記利得を調整させるようにさらに構成された、請求項12記載の方法。
  14. 前記入力マイクロフォン信号を受信するように構成されたマイクロフォンの利得をセットするように構成されたマイクロフォンキャリブレーションモジュールをさらに備え、前記マイクロフォンキャリブレーションモジュールは、参照信号及び記録されたノイズ信号に少なくとも一部基づいて、前記利得をセットするようにさらに構成された、請求項11記載の方法。
  15. 音声了解度エンハンスメントを調整するためのシステムであって、前記システムは、
    入力音声信号のスペクトルに対応するLPC係数を取得するためにリニア予測符号化(LPC)技術を適用するように構成されたリニア予測符号化分析モジュールと、前記スペクトルは、1つ以上のホルマント周波数を備え、
    前記LPC係数を線スペクトル対にマップするように構成されたマッピングモジュールと、
    1つ以上のプロセッサを備えるホルマントエンハンスメントモジュールとを備え、前記ホルマントエンハンスメントモジュールは、前記線スペクトル対を修正し、それにより前記入力音声信号の前記スペクトルを調整し、前記1つ以上のホルマント周波数を強調するように構成されたエンハンスメントフィルタを作り出すように構成され、
    前記エンハンスメントフィルタは、修正された音声信号を作り出すために前記入力音声信号の表現に適用されるように構成された、システム。
  16. 入力マイクロフォン信号における音声を検出し、前記エンハンスメントフィルタの利得が前記入力マイクロフォン信号における音声検出に応答し調整されるように構成された音声アクティビティ検出器をさらに備える、請求項15記載のシステム。
  17. 前記入力マイクロフォン信号を受信するように構成されたマイクロフォンの利得をセットするように構成されたマイクロフォンキャリブレーションモジュールをさらに備え、前記マイクロフォンキャリブレーションモジュールは、参照信号及び記録されたノイズ信号に少なくとも一部基づいて、前記利得をセットするようにさらに構成された、請求項16記載のシステム。
  18. 前記エンハンスメントフィルタは、前記入力音声信号及び前記入力音声信号から導きだされた励起信号の1つ以上に適用されるようにさらに構成された、請求項15記載のシステム。
  19. 時間的エンハンスメントを前記修正された音声信号の1つ以上の包絡線に少なくとも一部基づいて前記修正された音声信号に適用するように構成された時間的包絡線整形器をさらに備える、請求項15記載のシステム。
  20. 前記時間的包絡線整形器は、前記修正された音声信号の選択された部分を強調するために、前記修正された音声信号の前記1つ以上の包絡線におけるピークを鋭利にするようにさらに構成された、請求項19記載のシステム。
JP2014523980A 2011-07-29 2012-07-26 適応音声了解度処理システムおよび方法 Active JP6147744B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161513298P 2011-07-29 2011-07-29
US61/513,298 2011-07-29
PCT/US2012/048378 WO2013019562A2 (en) 2011-07-29 2012-07-26 Adaptive voice intelligibility processor

Publications (2)

Publication Number Publication Date
JP2014524593A true JP2014524593A (ja) 2014-09-22
JP6147744B2 JP6147744B2 (ja) 2017-06-14

Family

ID=46750434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014523980A Active JP6147744B2 (ja) 2011-07-29 2012-07-26 適応音声了解度処理システムおよび方法

Country Status (9)

Country Link
US (1) US9117455B2 (ja)
EP (1) EP2737479B1 (ja)
JP (1) JP6147744B2 (ja)
KR (1) KR102060208B1 (ja)
CN (1) CN103827965B (ja)
HK (1) HK1197111A1 (ja)
PL (1) PL2737479T3 (ja)
TW (1) TWI579834B (ja)
WO (1) WO2013019562A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016153820A (ja) * 2015-02-20 2016-08-25 ヤマハ株式会社 音声処理装置

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2484140B (en) 2010-10-01 2017-07-12 Asio Ltd Data communication system
US8918197B2 (en) * 2012-06-13 2014-12-23 Avraham Suhami Audio communication networks
JP6177798B2 (ja) 2011-12-27 2017-08-09 ディーティーエス・エルエルシーDts Llc バスエンハンスメントシステム
CN104143337B (zh) * 2014-01-08 2015-12-09 腾讯科技(深圳)有限公司 一种提高音频信号音质的方法和装置
JP6386237B2 (ja) * 2014-02-28 2018-09-05 国立研究開発法人情報通信研究機構 音声明瞭化装置及びそのためのコンピュータプログラム
EP3123469B1 (en) * 2014-03-25 2018-04-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control
US9747924B2 (en) 2014-04-08 2017-08-29 Empire Technology Development Llc Sound verification
US9865256B2 (en) * 2015-02-27 2018-01-09 Storz Endoskop Produktions Gmbh System and method for calibrating a speech recognition system to an operating environment
US9467569B2 (en) 2015-03-05 2016-10-11 Raytheon Company Methods and apparatus for reducing audio conference noise using voice quality measures
EP3079151A1 (en) 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
US10575103B2 (en) 2015-04-10 2020-02-25 Starkey Laboratories, Inc. Neural network-driven frequency translation
EP3107097B1 (en) * 2015-06-17 2017-11-15 Nxp B.V. Improved speech intelligilibility
US9847093B2 (en) 2015-06-19 2017-12-19 Samsung Electronics Co., Ltd. Method and apparatus for processing speech signal
US9843875B2 (en) * 2015-09-25 2017-12-12 Starkey Laboratories, Inc. Binaurally coordinated frequency translation in hearing assistance devices
CN106558298A (zh) * 2015-09-29 2017-04-05 广州酷狗计算机科技有限公司 一种音效模拟方法和装置及系统
EP3457402B1 (en) * 2016-06-24 2021-09-15 Samsung Electronics Co., Ltd. Noise-adaptive voice signal processing method and terminal device employing said method
GB201617408D0 (en) 2016-10-13 2016-11-30 Asio Ltd A method and system for acoustic communication of data
GB201617409D0 (en) * 2016-10-13 2016-11-30 Asio Ltd A method and system for acoustic communication of data
CN106340306A (zh) * 2016-11-04 2017-01-18 厦门盈趣科技股份有限公司 一种提高语音识别度的方法及装置
CN106847249B (zh) * 2017-01-25 2020-10-27 得理电子(上海)有限公司 一种发音处理方法及系统
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
GB201704636D0 (en) 2017-03-23 2017-05-10 Asio Ltd A method and system for authenticating a device
GB2565751B (en) 2017-06-15 2022-05-04 Sonos Experience Ltd A method and system for triggering events
CN107346659B (zh) * 2017-06-05 2020-06-23 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法、装置及终端
US10887712B2 (en) * 2017-06-27 2021-01-05 Knowles Electronics, Llc Post linearization system and method using tracking signal
AT520106B1 (de) * 2017-07-10 2019-07-15 Isuniye Llc Verfahren zum Modifizieren eines Eingangssignals
US10200003B1 (en) * 2017-10-03 2019-02-05 Google Llc Dynamically extending loudspeaker capabilities
GB2570634A (en) 2017-12-20 2019-08-07 Asio Ltd A method and system for improved acoustic transmission of data
WO2019136065A1 (en) * 2018-01-03 2019-07-11 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
CN110610702B (zh) * 2018-06-15 2022-06-24 惠州迪芬尼声学科技股份有限公司 以自然语言声控均衡器的方法及计算器可读存储介质
CN109346058A (zh) * 2018-11-29 2019-02-15 西安交通大学 一种语音声学特征扩大系统
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
KR102096588B1 (ko) * 2018-12-27 2020-04-02 인하대학교 산학협력단 음향 장치에서 맞춤 오디오 잡음을 이용해 사생활 보호를 구현하는 기술
CN113823299A (zh) * 2020-06-19 2021-12-21 北京字节跳动网络技术有限公司 用于骨传导的音频处理方法、装置、终端和存储介质
TWI748587B (zh) * 2020-08-04 2021-12-01 瑞昱半導體股份有限公司 聲音事件偵測系統及方法
CA3193267A1 (en) * 2020-09-14 2022-03-17 Pindrop Security, Inc. Speaker specific speech enhancement
US11694692B2 (en) 2020-11-11 2023-07-04 Bank Of America Corporation Systems and methods for audio enhancement and conversion
EP4256558A1 (en) * 2020-12-02 2023-10-11 Hearunow, Inc. Dynamic voice accentuation and reinforcement
CN113555033A (zh) * 2021-07-30 2021-10-26 乐鑫信息科技(上海)股份有限公司 语音交互系统的自动增益控制方法、装置及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002507291A (ja) * 1997-07-02 2002-03-05 シムコ・インターナショナル・リミテッド 音声通信システムにおける音声強調方法およびその装置
JP2003513319A (ja) * 1999-10-26 2003-04-08 ザ ユニバーシテイ オブ メルボルン 短期間の過渡的音声の特徴のエンファシス
JP2004086102A (ja) * 2002-08-29 2004-03-18 Fujitsu Ltd 音声処理装置及び移動通信端末装置

Family Cites Families (112)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3101446A (en) 1960-09-02 1963-08-20 Itt Signal to noise ratio indicator
US3127477A (en) 1962-06-27 1964-03-31 Bell Telephone Labor Inc Automatic formant locator
US3327057A (en) * 1963-11-08 1967-06-20 Bell Telephone Labor Inc Speech analysis
US4454609A (en) * 1981-10-05 1984-06-12 Signatron, Inc. Speech intelligibility enhancement
US4586193A (en) * 1982-12-08 1986-04-29 Harris Corporation Formant-based speech synthesizer
JPS59226400A (ja) * 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4882758A (en) 1986-10-23 1989-11-21 Matsushita Electric Industrial Co., Ltd. Method for extracting formant frequencies
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
GB2235354A (en) * 1989-08-16 1991-02-27 Philips Electronic Associated Speech coding/encoding using celp
CA2056110C (en) 1991-03-27 1997-02-04 Arnold I. Klayman Public address intelligibility system
US5175769A (en) 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
US5590241A (en) * 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
JP3235925B2 (ja) 1993-11-19 2001-12-04 松下電器産業株式会社 ハウリング抑制装置
US5471527A (en) 1993-12-02 1995-11-28 Dsc Communications Corporation Voice enhancement system and method
US5537479A (en) 1994-04-29 1996-07-16 Miller And Kreisel Sound Corp. Dual-driver bass speaker with acoustic reduction of out-of-phase and electronic reduction of in-phase distortion harmonics
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
GB9512284D0 (en) * 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
EP0763818B1 (en) * 1995-09-14 2003-05-14 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
JP3653826B2 (ja) * 1995-10-26 2005-06-02 ソニー株式会社 音声復号化方法及び装置
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
US5737719A (en) * 1995-12-19 1998-04-07 U S West, Inc. Method and apparatus for enhancement of telephonic speech signals
US5742689A (en) 1996-01-04 1998-04-21 Virtual Listening Systems, Inc. Method and device for processing a multichannel signal for use with a headphone
SE506341C2 (sv) * 1996-04-10 1997-12-08 Ericsson Telefon Ab L M Metod och anordning för rekonstruktion av en mottagen talsignal
TW416044B (en) 1996-06-19 2000-12-21 Texas Instruments Inc Adaptive filter and filtering method for low bit rate coding
US6744882B1 (en) 1996-07-23 2004-06-01 Qualcomm Inc. Method and apparatus for automatically adjusting speaker and microphone gains within a mobile telephone
JP4040126B2 (ja) * 1996-09-20 2008-01-30 ソニー株式会社 音声復号化方法および装置
GB2319379A (en) * 1996-11-18 1998-05-20 Secr Defence Speech processing system
US5930373A (en) * 1997-04-04 1999-07-27 K.S. Waves Ltd. Method and system for enhancing quality of sound signal
US6006185A (en) * 1997-05-09 1999-12-21 Immarco; Peter System and device for advanced voice recognition word spotting
US6073092A (en) * 1997-06-26 2000-06-06 Telogy Networks, Inc. Method for speech coding based on a code excited linear prediction (CELP) model
US6169971B1 (en) * 1997-12-03 2001-01-02 Glenayre Electronics, Inc. Method to suppress noise in digital voice processing
US6182033B1 (en) * 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US7392180B1 (en) * 1998-01-09 2008-06-24 At&T Corp. System and method of coding sound signals using sound enhancement
WO2000005923A1 (de) * 1998-07-24 2000-02-03 Siemens Audiologische Technik Gmbh Hörhilfe mit verbesserter sprachverständlichkeit durch frequenzselektive signalverarbeitung sowie verfahren zum betrieb einer derartigen hörhilfe
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6073093A (en) * 1998-10-14 2000-06-06 Lockheed Martin Corp. Combined residual and analysis-by-synthesis pitch-dependent gain estimation for linear predictive coders
US6993480B1 (en) * 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6233552B1 (en) * 1999-03-12 2001-05-15 Comsat Corporation Adaptive post-filtering technique based on the Modified Yule-Walker filter
US7423983B1 (en) 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network
US6732073B1 (en) * 1999-09-10 2004-05-04 Wisconsin Alumni Research Foundation Spectral enhancement of acoustic signals to provide improved recognition of speech
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US7277767B2 (en) 1999-12-10 2007-10-02 Srs Labs, Inc. System and method for enhanced streaming audio
JP2001175298A (ja) * 1999-12-13 2001-06-29 Fujitsu Ltd 騒音抑圧装置
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
AU2001241475A1 (en) * 2000-02-11 2001-08-20 Comsat Corporation Background noise reduction in sinusoidal based speech coding systems
US6606388B1 (en) * 2000-02-17 2003-08-12 Arboretum Systems, Inc. Method and system for enhancing audio signals
US6523003B1 (en) * 2000-03-28 2003-02-18 Tellabs Operations, Inc. Spectrally interdependent gain adjustment techniques
EP1526639A3 (en) 2000-08-14 2006-03-01 Clear Audio Ltd. Voice enhancement system
US6850884B2 (en) * 2000-09-15 2005-02-01 Mindspeed Technologies, Inc. Selection of coding parameters based on spectral content of a speech signal
US7349841B2 (en) 2001-03-28 2008-03-25 Mitsubishi Denki Kabushiki Kaisha Noise suppression device including subband-based signal-to-noise ratio
EP1280138A1 (de) 2001-07-24 2003-01-29 Empire Interactive Europe Ltd. Verfahren zur Analyse von Audiosignalen
JP2003084790A (ja) * 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
US6985857B2 (en) * 2001-09-27 2006-01-10 Motorola, Inc. Method and apparatus for speech coding using training and quantizing
US7065485B1 (en) * 2002-01-09 2006-06-20 At&T Corp Enhancing speech intelligibility using variable-rate time-scale modification
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
US6950799B2 (en) * 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles
AU2003263380A1 (en) 2002-06-19 2004-01-06 Koninklijke Philips Electronics N.V. Audio signal processing apparatus and method
US7233896B2 (en) * 2002-07-30 2007-06-19 Motorola Inc. Regular-pulse excitation speech coder
CA2399159A1 (en) 2002-08-16 2004-02-16 Dspfactory Ltd. Convergence improvement for oversampled subband adaptive filters
US7146316B2 (en) 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
EP1557827B8 (en) * 2002-10-31 2015-01-07 Fujitsu Limited Voice intensifier
FR2850781B1 (fr) 2003-01-30 2005-05-06 Jean Luc Crebouw Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage du bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede
US7424423B2 (en) 2003-04-01 2008-09-09 Microsoft Corporation Method and apparatus for formant tracking using a residual model
DE10323126A1 (de) 2003-05-22 2004-12-16 Rcm Technology Gmbh Adaptive Bassanhebung für aktive Basslautsprecherboxen
EP1629463B1 (en) 2003-05-28 2007-08-22 Dolby Laboratories Licensing Corporation Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
KR100511316B1 (ko) 2003-10-06 2005-08-31 엘지전자 주식회사 음성신호의 포만트 주파수 검출방법
KR20050049103A (ko) * 2003-11-21 2005-05-25 삼성전자주식회사 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
ATE396537T1 (de) 2004-01-19 2008-06-15 Nxp Bv System für die audiosignalverarbeitung
EP1755109B1 (en) * 2004-04-27 2012-08-15 Panasonic Corporation Scalable encoding and decoding apparatuses and methods
JP4460580B2 (ja) 2004-07-21 2010-05-12 富士通株式会社 速度変換装置、速度変換方法及びプログラム
US7643993B2 (en) * 2006-01-05 2010-01-05 Broadcom Corporation Method and system for decoding WCDMA AMR speech data using redundancy
US7783480B2 (en) * 2004-09-17 2010-08-24 Panasonic Corporation Audio encoding apparatus, audio decoding apparatus, communication apparatus and audio encoding method
US8170879B2 (en) * 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US7346502B2 (en) * 2005-03-24 2008-03-18 Mindspeed Technologies, Inc. Adaptive noise state update for a voice activity detector
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
WO2006116132A2 (en) 2005-04-21 2006-11-02 Srs Labs, Inc. Systems and methods for reducing audio noise
US8280730B2 (en) * 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
US20070005351A1 (en) * 2005-06-30 2007-01-04 Sathyendra Harsha M Method and system for bandwidth expansion for voice communications
DE102005032724B4 (de) * 2005-07-13 2009-10-08 Siemens Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US20070134635A1 (en) 2005-12-13 2007-06-14 Posit Science Corporation Cognitive training using formant frequency sweeps
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US7831420B2 (en) * 2006-04-04 2010-11-09 Qualcomm Incorporated Voice modifier for speech processing systems
US8589151B2 (en) * 2006-06-21 2013-11-19 Harris Corporation Vocoder and associated method that transcodes between mixed excitation linear prediction (MELP) vocoders with different speech frame rates
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
EP1918910B1 (en) * 2006-10-31 2009-03-11 Harman Becker Automotive Systems GmbH Model-based enhancement of speech signals
EP2096632A4 (en) * 2006-11-29 2012-06-27 Panasonic Corp DECODING DEVICE AND AUDIO DECODING METHOD
SG144752A1 (en) * 2007-01-12 2008-08-28 Sony Corp Audio enhancement method and system
JP2008197200A (ja) 2007-02-09 2008-08-28 Ari Associates:Kk 了解度自動調整装置及び了解度自動調整方法
JP5164970B2 (ja) * 2007-03-02 2013-03-21 パナソニック株式会社 音声復号装置および音声復号方法
KR100876794B1 (ko) 2007-04-03 2009-01-09 삼성전자주식회사 이동 단말에서 음성의 명료도 향상 장치 및 방법
US8160872B2 (en) * 2007-04-05 2012-04-17 Texas Instruments Incorporated Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains
US20080312916A1 (en) * 2007-06-15 2008-12-18 Mr. Alon Konchitsky Receiver Intelligibility Enhancement System
US8606566B2 (en) 2007-10-24 2013-12-10 Qnx Software Systems Limited Speech enhancement through partial speech reconstruction
JP5159279B2 (ja) * 2007-12-03 2013-03-06 株式会社東芝 音声処理装置及びそれを用いた音声合成装置。
CN102017402B (zh) 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
JP5219522B2 (ja) * 2008-01-09 2013-06-26 アルパイン株式会社 音声明瞭度改善システム及び音声明瞭度改善方法
EP2151821B1 (en) * 2008-08-07 2011-12-14 Nuance Communications, Inc. Noise-reduction processing of speech signals
KR101547344B1 (ko) * 2008-10-31 2015-08-27 삼성전자 주식회사 음성복원장치 및 그 방법
GB0822537D0 (en) * 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
JP4945586B2 (ja) * 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
US8626516B2 (en) * 2009-02-09 2014-01-07 Broadcom Corporation Method and system for dynamic range control in an audio processing system
US8788270B2 (en) * 2009-06-16 2014-07-22 University Of Florida Research Foundation, Inc. Apparatus and method for determining an emotion state of a speaker
US8204742B2 (en) 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
DE112010005020B4 (de) * 2009-12-28 2018-12-13 Mitsubishi Electric Corporation Sprachsignal-Wiederherstellungsvorrichtung und Sprachsignal-Wiederherstellungsverfahren
US8798992B2 (en) * 2010-05-19 2014-08-05 Disney Enterprises, Inc. Audio noise modification for event broadcasting
US8606572B2 (en) * 2010-10-04 2013-12-10 LI Creative Technologies, Inc. Noise cancellation device for communications in high noise environments
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002507291A (ja) * 1997-07-02 2002-03-05 シムコ・インターナショナル・リミテッド 音声通信システムにおける音声強調方法およびその装置
JP2003513319A (ja) * 1999-10-26 2003-04-08 ザ ユニバーシテイ オブ メルボルン 短期間の過渡的音声の特徴のエンファシス
JP2004086102A (ja) * 2002-08-29 2004-03-18 Fujitsu Ltd 音声処理装置及び移動通信端末装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016153820A (ja) * 2015-02-20 2016-08-25 ヤマハ株式会社 音声処理装置

Also Published As

Publication number Publication date
PL2737479T3 (pl) 2017-07-31
WO2013019562A2 (en) 2013-02-07
EP2737479A2 (en) 2014-06-04
HK1197111A1 (en) 2015-01-02
KR102060208B1 (ko) 2019-12-27
US9117455B2 (en) 2015-08-25
EP2737479B1 (en) 2017-01-18
CN103827965B (zh) 2016-05-25
KR20140079363A (ko) 2014-06-26
WO2013019562A3 (en) 2014-03-20
US20130030800A1 (en) 2013-01-31
CN103827965A (zh) 2014-05-28
TW201308316A (zh) 2013-02-16
TWI579834B (zh) 2017-04-21
JP6147744B2 (ja) 2017-06-14

Similar Documents

Publication Publication Date Title
JP6147744B2 (ja) 適応音声了解度処理システムおよび方法
RU2464652C2 (ru) Способ и устройство для оценки энергии полосы высоких частот в системе расширения полосы частот
US9336785B2 (en) Compression for speech intelligibility enhancement
EP2517202B1 (en) Method and device for speech bandwidth extension
CN113823319B (zh) 改进的语音可懂度
US8271292B2 (en) Signal bandwidth expanding apparatus
PH12015501575B1 (en) Device and method for reducing quantization noise in a time-domain decoder.
US20110054889A1 (en) Enhancing Receiver Intelligibility in Voice Communication Devices
WO2013078677A1 (zh) 一种自适应调节音效的方法和设备
US8254590B2 (en) System and method for intelligibility enhancement of audio information
JP2008309955A (ja) ノイズサプレス装置
WO2017196382A1 (en) Enhanced de-esser for in-car communication systems
EP4029018B1 (en) Context-aware voice intelligibility enhancement
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
KR20160000680A (ko) 광대역 보코더용 휴대폰 명료도 향상장치와 이를 이용한 음성출력장치
JP2012242470A (ja) 信号広帯域化装置、信号広帯域化方法、及びそのプログラム
JP6160045B2 (ja) 調整装置および調整方法
JP2011071806A (ja) 電子機器、及び電子機器の音量制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160816

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170517

R150 Certificate of patent or registration of utility model

Ref document number: 6147744

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250