JP2013504791A - 適応音声了解度処理のためのシステム - Google Patents

適応音声了解度処理のためのシステム Download PDF

Info

Publication number
JP2013504791A
JP2013504791A JP2012529722A JP2012529722A JP2013504791A JP 2013504791 A JP2013504791 A JP 2013504791A JP 2012529722 A JP2012529722 A JP 2012529722A JP 2012529722 A JP2012529722 A JP 2012529722A JP 2013504791 A JP2013504791 A JP 2013504791A
Authority
JP
Japan
Prior art keywords
enhancement
noise
audio signal
signal
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012529722A
Other languages
English (en)
Other versions
JP5551254B2 (ja
Inventor
ヤング、ジュン
オリバー、リチャード・ジェイ.
トレイシー、ジェームズ
ヘ、シン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS LLC
Original Assignee
DTS LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DTS LLC filed Critical DTS LLC
Publication of JP2013504791A publication Critical patent/JP2013504791A/ja
Application granted granted Critical
Publication of JP5551254B2 publication Critical patent/JP5551254B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

通信デバイス中で適応オーディオシステムを実現することができる。適応オーディオシステムは、通信デバイスにより受信したオーディオ信号中の音声を、音声の了解度を増加させるように向上させることができる。オーディオシステムは、通信デバイスにより受け取られる、ノイズのような、環境コンテンツのレベルに少なくとも部分的に基づいて、オーディオエンハンスメントを適応させることができる。例えば、より高いレベルの環境コンテンツに対しては、オーディオシステムは、オーディオエンハンスメントをよりアグレッシブに適用してもよい。さらに、適応オーディオシステムは、環境コンテンツ中の実質的に周期的なコンテンツを検出することができる。適応オーディオシステムは、環境コンテンツに応答して、オーディオエンハンスメントをさらに適応させることができる。
【選択図】 図1

Description

背景
関連技術の説明
移動体電話機は、高いバックグラウンドノイズを含むエリア中で使用されることが多い。このノイズは、移動体電話機スピーカーからの口頭での通信の了解度が大幅に低下するようなレベルであることが多い。多くのケースでは、高い周囲ノイズレベルが発呼者の音声をマスクするか、または、歪ませるので、リスナーが発呼者の音声を聞くときには、何らかの通信が、失われているか、または、少なくとも部分的に失われている。
高いバックグラウンドノイズが存在するときに了解度の損失を最小化しようとする試みは、等化器の使用や、クリッピング回路の使用や、または、単に、移動体電話機のボリュームを増加させることを伴っている。等化器およびクリッピング回路は、それら自身がバックグラウンドノイズを増加させることがあり、したがって、問題を解決し損ねる。移動体電話機のサウンドまたはスピーカーのボリュームの全体的なレベルを増加させることにより、了解度がかなり改善されることはめったになく、フィードバックとリスナーの不快感とのような他の問題を生じさせることがある。
開示の概要
ある実施形態では、オーディオ信号に適用される音声了解度エンハンスメントを自動的に調節するためのシステムは、フォルマントを含む入力音声信号を受信し、入力音声信号にオーディオエンハンスメントを適用して、向上された音声信号を提供することができるエンハンスメントモジュールを含んでいる。オーディオエンハンスメントは、入力音声信号中のフォルマントのうちの1つ以上を強調することができる。システムは、1つ以上のプロセッサを有するエンハンスメント制御装置をさらに含むことができる。エンハンスメント制御装置は、検出した環境ノイズの量に少なくとも部分的に基づいて、エンハンスメントモジュールにより適用されるオーディオエンハンスメントの量を調節することができる。システムは、環境ノイズの量と入力音声信号とに少なくとも部分的に基づいて、向上された音声信号の全体的な利得を調節し、全体的な利得を向上された音声信号に適用して、増幅された音声信号を生成させることができる出力利得制御装置をさらに含むことができる。システムは、サインの和のテーブル中に記憶されている1つ以上の値に、増幅された音声オーディオ信号の1つ以上のサンプルを少なくともマッピングすることによって、増幅された音声信号におけるクリッピングを減少させることができる歪み制御モジュールをさらに含むことができる。サインの和のテーブルは、より低い次数のサイン高調波の和から発生させることができる。
さまざまな実施形態において、音声了解度エンハンスメントを調節する方法は、音声信号と、近端環境コンテンツを有する入力信号とを受信することと、入力信号中の近端環境コンテンツを1つ以上のプロセッサにより算出することと、近端環境コンテンツに少なくとも部分的に基づいて、音声エンハンスメントのレベルを1つ以上のプロセッサにより調節することと、音声エンハンスメントを音声信号に適用して、向上された音声信号を生成させることとを含むことができる。音声エンハンスメントは、音声信号の1つ以上のフォルマントを強調することができる。
さらに、ある実施形態では、オーディオ信号に適用される音声了解度エンハンスメントを自動的に調節するためのシステムは、フォルマントを有する入力音声信号を受信し、入力音声信号にオーディオエンハンスメントを適用して、向上された音声信号を提供することができるエンハンスメントモジュールを含むことができる。オーディオエンハンスメントは、入力音声信号中のフォルマントのうちの1つ以上を強調することができる。システムは、1つ以上のプロセッサを備えているエンハンスメント制御装置をさらに含むことができる。エンハンスメント制御装置は、検出した環境ノイズの量に少なくとも部分的に基づいて、エンハンスメントモジュールにより適用されるオーディオエンハンスメントの量を調節することができる。システムは、環境ノイズの量と入力音声信号とに少なくとも部分的に基づいて、向上された音声信号の全体的な利得を調節し、全体的な利得を向上された音声信号に適用して、増幅された音声信号を生成させることができる出力利得制御装置をさらに含むことができる。
音声了解度エンハンスメントを調節する方法を1つ以上のプロセッサに実行させる命令をその上に記憶しているプロセッサ読取可能記憶媒体は、遠隔の電話機からの音声信号と、マイクロフォンからのノイズ信号とを受信することと、ノイズ信号の値を算出することと、ノイズ信号の値に少なくとも部分的に基づいて、音声信号のフォルマントに適用される利得を調節することと、音声信号のフォルマントに利得を適用することとを含むことができる。
いくつかのインプリメンテーションでは、音声了解度エンハンスメントのノイズしきい値を調節するためのシステムは、遠隔デバイスからの入力音声信号を受信デバイスにより受信し、入力音声信号にオーディオエンハンスメントを適用して、入力音声信号中のフォルマントのうちの1つ以上を強調することができる音声エンハンスメントモジュールを含むことができる。システムは、1つ以上のプロセッサを有する音声エンハンスメント制御装置をさらに含むことができる。音声エンハンスメント制御装置は、第1のノイズしきい値を上回る検出した環境ノイズの量に少なくとも部分的に基づいて、エンハンスメントモジュールにより適用されるオーディオエンハンスメントの量を調節することができる。システムは、第1のノイズしきい値を調節することができるノイズ感度制御装置をさらに含むことができる。ノイズ感度制御装置は、受信デバイスのマイクロフォンから受信したマイクロフォン入力信号から第1の自己相関値を計算することができる第1の相関器と、第1の自己相関値の第1の分散を計算することができる第1の分散モジュールと、音声エンハンスメントモジュールの出力信号を含むスピーカー入力信号から第2の自己相関値を計算することができる第2の相関器と、第2の自己相関値の第2の分散を計算することができる第2の分散モジュールと、第1および第2の自己相関値と第1および第2の分散値とのうちの1つ以上を使用して、第1のノイズしきい値を調節して、第2のノイズしきい値を生成させることができるノイズ感度調節器とを備えることができる。したがって、ある実施形態では、音声エンハンスメント制御装置は、第2のノイズしきい値を上回る検出した環境ノイズの第2の量に少なくとも部分的に基づいて、第2の入力オーディオ信号に適用されるオーディオエンハンスメントの量を調節することができる。
ある実施形態では、音声了解度エンハンスメントの感度を調節するためのシステムは、
遠隔デバイスから受信デバイスにより受信した入力音声信号を、受信デバイスにより受信し、入力音声信号にオーディオエンハンスメントを適用して、入力音声信号中のフォルマントのうちの1つ以上を強調することができる音声エンハンスメントモジュールを含んでいる。システムは、入力音声信号中に存在する環境ノイズの量に少なくとも部分的に基づいて、音声エンハンスメントモジュールにより適用されるオーディオエンハンスメントの量を調節することができるエンハンスメント制御装置をさらに含むことができる。システムは、受信デバイスのマイクロフォンから取得したマイクロフォン入力信号と、音声エンハンスメントモジュールの出力信号として提供されたスピーカー入力信号とのうちの少なくとも1つまたは双方の統計的解析に少なくとも部分的に基づいて、環境ノイズに対するエンハンスメント制御装置の感度を調節することができ、1つ以上のプロセッサを有するノイズ感度制御装置をさらに含むことができる。
ある実施形態では、音声エンハンスメントの感度を調節するための方法は、入力オーディオ信号を受信することと、入力オーディオ信号中の相関しているコンテンツを検出することと、検出の実行に応答して、入力オーディオ信号に適用されるエンハンスメントのレベルを調節することとを含み、検出することは、1つ以上のプロセッサを使用して、入力オーディオ信号の統計的解析を計算することを含む。
さらに、さまざまな実施形態では、オーディオ信号処理方法は、マイクロフォン入力信号を受信することと、マイクロフォン入力信号中の実質的に周期的なコンテンツを検出することと、マイクロフォン入力信号中で検出した実質的に周期的なコンテンツに少なくとも部分的に基づいて、1つ以上のプロセッサによりオーディオエンハンスメントを調節することとを含んでいる。オーディオエンハンスメントは、マイクロフォン入力信号のレベルに少なくとも部分的に基づいて、オーディオ出力信号を選択的に向上させることができる。方法は、さらに、オーディオ出力信号をスピーカーに提供することとを含むことができる。
本開示を要約する目的のために、本発明のある態様、利点、および、新規の特徴をここで説明する。ここで開示する本発明の何らかの特定の実施形態にしたがって、このようなすべての利点を必ずしも達成できるわけではないことを理解すべきである。したがって、ここで教示または示唆することがあるような他の利点を必ずしも達成することなく、ここで教示されているような1つの利点または利点のグループを達成するあるいは最適化する方法で、ここで開示する発明を具現化または実行することができる。
図面全体を通して、参照するエレメント間の対応を示すために、参照番号を再使用することができる。図面は、ここで説明する発明の実施形態を示すが、それらの範囲を限定しないように提供されている。
図1は、音声エンハンスメントシステムを実現するための移動体電話機環境の実施形態を示している。 図2は、図1の音声エンハンスメントシステムの実施形態を示している。 図3は、音声エンハンスメントシステムにより使用される音声エンハンスメント制御プロセスの実施形態を示している。 図4は、音声エンハンスメントシステムにより使用される出力ボリューム制御プロセスの実施形態を示している。 図5Aは、音声エンハンスメントシステムにより使用されるノイズ感度制御プロセスの実施形態を示している。 図5Bは、音声エンハンスメントシステムにより使用されるノイズ感度制御プロセスの実施形態を示している。 図5Cは、音声エンハンスメントシステムにより使用されるノイズ感度制御プロセスの実施形態を示している。 図6は、音声エンハンスメントシステムにより使用されるノイズ感度制御プロセスの実施形態を示している。 図7は、図1のシステムの例示的な歪み制御モジュールを示している。 図8は、サイン波の例示的な時間ドメイン表現を示している。 図9は、図8のサイン波の例示的な周波数スペクトルを示している。 図10は、クリップしたサイン波の例示的な時間ドメイン表現を示している。 図11は、図10のクリップしたサイン波の例示的な周波数スペクトルを示している。 図12は、図11のクリップしたサイン波スペクトルと比較した、減少した数の高調波を有する、例示的な周波数スペクトルを示している。 図13は、図12のスペクトルに対応している、部分的に飽和している波の例示的な時間ドメイン表現を示している。 図14は、サインの和のマッピング関数の実施形態を示している。 図15は、オーディオ信号と、その信号の歪み制御されたバージョンとの例示的な時間ドメイン表現を示している。
詳細な説明
I.イントロダクション
移動体電話機および他の類似したサイズのデバイスは、生成させるサウンドのボリュームが制限されている小型のスピーカーを有する傾向がある。それゆえ、環境ノイズが存在するときには、移動体電話機上で会話を聞くのが難しいことがある。
本開示は、環境ノイズと、スピーチレベルと、これらの組み合わせと、これらに類するものとに基づいて、音声了解度処理を適応させるためのシステムおよび方法を説明している。音声了解度処理は、スピーチ中のフォルマントを強調する技術を含むことができる。音声了解度処理を使用して、例えば、移動体電話機上またはこれに類するものの上での会話におけるスピーチをはっきりさせることができる。環境ノイズに少なくとも部分的に基づいて、音声フォルマントの強調および他のボーカル特性の強調を増加させる、あるいは、減少させるように、音声了解度処理を適応させることができる。音声了解度処理を増加させることにより、リスナーによりさらに明確に知覚されるようにスピーカーのスピーチ中のフォルマントを強調することができる。しかしながら、かなりの環境ノイズがないときには、スピーチ中のフォルマントを強調することにより、スピーチのサウンドが耳障りに聞こえることがある。したがって、環境ノイズが減少した場合には、スピーチにおける耳障りさを避けるために、音声了解度処理の量を減少させることができる。
加えて、ノイズレベルおよび/または音声レベルに少なくとも部分的に基づいて、オーディオ信号の全体的な利得を適応的に増加させることもできる。しかしながら、オーディオ信号の利得が、あるレベルを超えて増加した場合に、オーディオ信号の飽和が生じ、高調波歪みを引き起こすことがある。飽和の歪み効果を減少させるために、ある実施形態では、歪み制御プロセスを使用することがある。歪み制御プロセスは、高い利得のシチュエーションの間に生じる歪みを減少させることができる一方で、何らかの歪みが、ラウドネスを保つまたは増加させるように生じることを可能にする。ある実施形態では、オーディオ信号を、完全に飽和した信号よりも少ない高調波を有する出力信号にマッピングすることにより、歪み制御を実行することができる。
II.システム概要
図1は、音声エンハンスメントシステム100を実現するための移動体電話環境100の実施形態を示している。例示的な移動体電話機環境100では、発呼者電話機104と受信者電話機108とが示されている。発呼者電話機104および受信者電話機108は、移動体電話機や、ヴォイスオーバーインターネットプロトコル(VoIP)電話機や、スマートフォンや、地上線電話機や、または、これらに類するものとすることができる。発呼者電話機104は、移動体電話環境100の遠端にあると考えることができ、受信者電話機は、移動体電話機環境100の近端にあると考えることができる。受信者電話機108のユーザが話しているときには、近端と遠端は逆であることもある。
表されている実施形態では、発呼者により、音声入力102が発呼者電話機104に提供されている。発呼者電話機104中の送信機106は、受信者電話機108に音声入力信号102を送信する。送信機106は、発呼者電話機104のタイプに依存して、ワイヤレスに、または、地上線を通して、音声入力信号102を送信することができる。受信者電話機108の音声エンハンスメントシステム110は、音声入力信号102を受信することができる。音声エンハンスメントシステム110は、音声入力信号102の了解度を増加させるためのハードウェアおよび/またはソフトウェアを含むことができる。音声エンハンスメントシステム110は、例えば、ボーカルサウンドの特徴的な特性を強調する音声エンハンスメントにより、音声入力信号102を処理することができる。
音声エンハンスメントシステム110は、受信者電話機108のマイクロフォンを使用して、環境ノイズ112を検出することもできる。環境ノイズまたは環境コンテンツ112は、バックグラウンドノイズまたは周囲ノイズを含むことがある。その普通の意味に加えて、環境ノイズまたは環境コンテンツは、何らかのまたはすべての近端サウンドを含むこともある。例えば、受信者電話機108のマイクロフォンにより受け取られるバックグラウンドノイズに加えて、環境ノイズまたは環境コンテンツは、スピーカー出力114からのエコーを含むことがある。いくつのインスタンスでは、環境ノイズは、咳と、咳払いと、ダブルトーク(下記の“ノイズ感度制御”セクションを参照)とを含む、受信者電話機108のユーザからの音声入力も含むことがある。
有利なことに、ある実施形態では、音声エンハンスメントシステム110は、環境ノイズ112の量に少なくとも部分的に基づいて、音声入力信号102に音声エンハンスメントを適用する程度を適応させる。例えば、環境ノイズ112が増加した場合には、音声エンハンスメントシステム110は、適用される音声エンハンスメントの量を増加させることができ、逆もまた同じである。それゆえ、音声エンハンスメントは、検出した環境ノイズ112の量を少なくとも部分的に追跡することがある。
加えて、音声エンハンスメントシステム110は、環境ノイズ112の量に少なくとも部分的に基づいて、音声入力信号102に適用される全体的な利得を増加させることができる。しかしながら、より少ない環境ノイズ112が存在するときには、音声エンハンスメントシステム110は、適用される音声エンハンスメントおよび/または利得の増加の量を減少させることができる。低いレベルのバックグラウンドノイズ112があるときには、音声エンハンスメントおよび/またはボリュームの増加により、サウンドが耳障りにまたは不快に聞こえることがあるので、この減少はリスナーにとって有益であることがある。
したがって、ある実施形態では、音声エンハンスメントシステム110は、変化するレベルの環境ノイズが存在するときに、音声入力信号を、リスナーに対してより高い了解度であることがある向上された出力信号114に変換する。いくつかの実施形態では、音声エンハンスメントシステム110は、発呼者電話機104中にも含まれることがある。音声エンハンスメントシステム110は、発呼者電話機104により検出された環境ノイズの量に少なくとも部分的に基づいて、音声入力信号102にエンハンスメントを適用するかもしれない。それゆえ、発呼者電話機104において、受信者電話機108において、または、その双方において、音声エンハンスメントシステム110を使用することができる。
音声エンハンスメントシステム110は、電話機108の一部であるように示されているが、音声エンハンスメントシステム110は、その代わりに、何らかの通信デバイス中で、または、電話機と通信する何らかのデバイス中で、実現することができる。例えば、音声エンハンスメントシステム110は、コンピュータ中で、ルータ中で、アナログ電話機適応器中で、あるいは、VoIPイネーブルな電話機と通信するか、または、VoIPイネーブルな電話機に結合されているこれらに類するものの中で実現することができる。音声エンハンスメントシステム110はまた、(パブリックアドレス(“PA”)オーバーインターネットプロトコルを含む)パブリックアドレス(“PA”)機器中で、無線トランシーバ中で、支援ヒアリングデバイス(例えば、補聴器)中で、スピーカー電話機中で、および、他のオーディオシステム中で、使用することができる。さらに、音声エンハンスメントシステム110は、1つ以上のスピーカーにオーディオ出力を提供する何らかのプロセッサベースのシステム中で実現することができる。
図2は、音声エンハンスメントシステム210のさらに詳細な実施形態を示している。音声エンハンスメントシステム210は、音声エンハンスメントシステム110のすべての特徴を有することができる。音声エンハンスメントシステム210は、移動体電話機中で、セル電話機中で、スマートフォン中で、または、上記で述べたデバイスのうちの何らかのものを含む他のコンピューティングデバイス中で、実現することができる。有利なことに、ある実施形態では、音声エンハンスメントシステム210は、環境ノイズの検出量におよび/または音声信号のレベルに少なくとも部分的に基づいて、音声了解度処理とボリューム処理を適応させる。
音声エンハンスメントシステム210は、音声エンハンスメントモジュール220を含む。音声エンハンスメントモジュール220は、音声入力信号202に音声エンハンスメントを適用するためのハードウェアおよび/またはソフトウェアを含むことができる。音声エンハンスメントは、音声入力信号202中のボーカルサウンドの特徴的な特性を強調することができる。ある実施形態では、これらの特徴的な特性は、人(例えば、電話機を使用している発呼者)の声道において生成されるフォルマントを含んでいる。人間の音声の了解度は、フォルマントの周波数分布のパターンに大きく依存することがある。それゆえ、音声エンハンスメントモジュール220は、バックグラウンドノイズが存在するときに、より理解しやすいスピーチを提供するフォルマントを選択的に向上させることができる。
ある実施形態では、音声エンハンスメントモジュール220は、“パブリックアドレス了解度システム”と題する、1995年10月17日発行のUS特許第5,459,813号(“‘813特許”)中で説明されている特徴のうちのいくつかまたはすべてを使用して、音声エンハンスメントを適用する。この特許の開示は、参照によりここにそのすべてが組み込まれている。‘813特許は、回路の文脈でこれらの特徴を説明しているが、音声エンハンスメントモジュール220は、デジタル信号プロセッサ(DSP)のような、プロセッサ中で実行される命令を使用して、これらの特徴のうちのいくつかまたはすべてを実現することができる。付加的に、音声エンハンスメントモジュール220は、‘813特許中で開示されていない音声エンハンスメント技術も使用することができる。
音声エンハンスメントモジュール220は、音声入力信号202を周波数サブバンドに分割することにより、フォルマントを処理することができる。音声エンハンスメントモジュール220は、音声入力信号202を、2つ以上のサブバンドに、または、これらに類するものに分割することができる。音声エンハンスメントモジュール220は、フォルマントが生じる傾向があるところの中央周波数を、または、フォルマントが生じる傾向があるところの近くの中央周波数を有するバンドパスフィルタを適用することにより、この周波数分割を実行することができる。ある実施形態では、例えば、コラム4の50行目〜コラム5の24行目と、コラム7の10〜32行目とに説明されている、‘813特許のスペクトル解析器42または124により(または、そのデジタルインプリメンテーションにより)、この周波数分割を達成することができる。‘813特許のこれらの部分は、ここでの参照により特にここに組み込まれている。
音声エンハンスメントモジュール220は、サブバンド中のフォルマントを個別に増幅することにより、および、サブバンド中のフォルマントを選択的に重み付けすることにより、音声エンハンスメントを適用することができる。フォルマントの重み付けは、あるフォルマントを強調させることができ、それにより、了解度を増加させる。音声エンハンスメントモジュール220は、重み付けされたフォルマントと、ベースバンド音声成分とを組み合わせて、(以下で説明する)出力利得制御装置230に出力音声信号を提供することができる。音声エンハンスメントモジュール220は、破裂音および摩擦音のような、他のボーカルの特徴的な特性を向上させることもできる。
音声エンハンスメントモジュール220は、‘813特許中の、例えば、コラム5の1〜7行目と、コラム5の46行目〜コラム6の19行目と、コラム9の8〜39行目とにおいて説明されているのと同じ方法でまたは類似した方法で(または、そのデジタルインプリメンテーションで)、これらの増幅、重み付け、組み合わせの機能を実行することができる。‘813特許のこれらの部分は、ここでの参照により、特にここに組み込まれている。これらの機能のうちのあるものをデジタル的にどのように実現するかという例を示すために、‘813特許は、さまざまなレジスタを使用して、あるサブバンド中の信号を重み付けすることを説明している(例えば、コラム5の66行目〜コラム6の19行目参照)。音声エンハンスメントモジュール220は、メモリ中に利得値を記憶させて、プロセッサを使用してこの利得値を信号に適用することにより、これらの重みをデジタル的に実現することができる。
有利なことに、ある実施形態では、音声エンハンスメント制御装置222が提供されており、音声エンハンスメント制御装置222は、音声エンハンスメントモジュール220により提供される音声エンハンスメントのレベルを制御することができる。音声エンハンスメント制御装置222は、ハードウェアおよび/またはソフトウェアを含むことができる。音声エンハンスメント制御装置222は、エンハンスメントレベル制御信号またはエンハンスメントレベル制御値を、音声エンハンスメントモジュール220に提供することができ、音声エンハンスメントモジュール220は、適用される音声エンハンスメントのレベルを増加させるまたは減少させる。1つの実施形態では、エンハンスメントレベル制御信号は、サブバンドの重み付けを調節することができる。例えば、制御信号は、サブバンドのうちのいくつかまたはすべての出力(または、入力)を乗算する1つ以上の利得値を含むことがある。同様に、制御信号を使用して、サブバンドのうちのいくつかまたはすべての入力あるいは出力を加算したり、または、サブバンドのうちのいくつかまたはすべての入力あるいは出力から減算することができる。環境ノイズ204が増加および減少するときに、制御信号は、サンプルごとに適応させることができる。
ある実施形態では、音声エンハンスメント制御装置222は、しきい値量の環境ノイズ204のエネルギーが検出された後に、音声エンハンスメントのレベルを適応させる。しきい値を上回ると、音声エンハンスメント制御装置222は、音声エンハンスメントのレベルに、環境ノイズ204の量を追跡させるか、または、実質的に追跡させることができる。例えば、1つの実施形態では、ノイズしきい値を上回って提供される音声エンハンスメントのレベルは、しきい値に対するノイズのエネルギー(または、電力)の比率に比例する。代替的な実施形態では、存在する環境ノイズの量にかかわらず、例えば、しきい値を使用することなく、音声エンハンスメントのレベルを適応させる。
音声エンハンスメントシステム210の表されている実施形態は、音声エンハンスメント制御装置222により提供される制御の量をさらに調節するための、ノイズ感度制御装置224と追加のエンハンスメント制御226とを含んでいる。ノイズ感度制御装置224は、存在するノイズ204の量に対して音声エンハンスメント制御装置222がどれほど感度が高いかを調節するためのノイズ感度制御値を、音声エンハンスメント制御装置222に提供することができる。下記でさらに詳細に説明するように、ノイズ感度制御装置224は、ノイズしきい値に影響を及ぼすことがあり、音声エンハンスメント制御装置222は、ノイズしきい値を下回る音声エンハンスメントのレベルを調節することはできない。
ある実施形態では、ノイズ感度制御装置224は、マイクロフォンから取得したオーディオサンプルにおよび/またはスピーカー入力に少なくとも部分的に基づいて、ノイズ感度制御を自動的に発生させる。有利なことに、ある実施形態では、ノイズ感度制御装置224は、マイクロフォンにより拾われたスピーカーエコーと、他のノイズアーティファクトとに対処するために、ノイズ感度を自動的に調節することができる。これらの特徴は、図5および図6に関して、下記でさらに詳細に説明する。加えて、いくつかの実施形態では、ノイズ感度制御装置224は、ユーザがノイズ感度制御を調節することを可能にするユーザインターフェースを提供する。したがって、ノイズ感度制御装置224は、音声エンハンスメント制御装置222の自動制御および/または手動制御を提供することができる。
追加のエンハンスメント制御226は、追加のエンハンスメント制御信号を音声エンハンスメント制御装置222に提供することができ、追加のエンハンスメント制御信号は、エンハンスメントレベルがその値を下回らない値として使用することができる。ユーザインターフェースを通して、追加のエンハンスメント制御226をユーザに見せることができる。この制御226は、音声エンハンスメント制御装置222により決定されたものを超えて、ユーザがエンハンスメントレベルを増加させることも可能にするかもしれない。1つの実施形態では、音声エンハンスメント制御装置222は、追加のエンハンスメント制御226からの追加のエンハンスメントを、音声エンハンスメント制御装置222により決定されたエンハンスメントレベルに追加することができる。追加のエンハンスメント制御226は、さらなる音声エンハンスメント処理を望んでいるか、または、音声エンハンスメント処理が頻繁に適用されることを望んでいる難聴者に対して特に有用であるかもしれない。
ある実施形態では、出力利得制御装置230は、音声エンハンスメントモジュール220の出力信号に適用される全体的な利得の量を制御することができる。ハードウェア中および/またはソフトウェア中で、出力利得制御装置230を実現することができる。出力利得制御装置230は、ノイズ入力204のレベルと音声入力202のレベルとに少なくとも部分的に基づいて、出力信号に適用される利得を調節することができる。電話機のボリューム制御のような、何らかのユーザ設定の利得に加えて、この利得を適用することができる。有利なことに、環境ノイズ204および/または音声入力202のレベルに基づいてオーディオ信号の利得を適応させることは、リスナーが音声入力信号202をさらに知覚するのを助けることができる。
表されている実施形態では、出力利得制御装置230により提供される利得の量をさらに調節することができる適応レベル制御232も示されている。ユーザインターフェースは、適応レベル制御232をユーザに見せることもできる。この制御232の増加は、到来音声入力202レベルが減少するように、または、ノイズ入力204が増加するように、制御装置230の利得をより多く増加させることができる。この制御232の減少は、到来音声入力信号202レベルが減少するように、または、ノイズ入力204が減少するように、制御装置230の利得をより少なく増加させることができる。
いくつかのケースでは、音声エンハンスメントモジュール220により、音声エンハンスメント制御装置222により、および/または、出力利得制御装置230により適用される利得は、音声信号をクリップさせるか、または、飽和させることがある。飽和は、結果として、リスナーにとって不快な高調波歪みになることがある。したがって、ある実施形態では、歪み制御モジュール140も提供されている。歪み制御モジュール140は、出力利得制御装置230の利得調節された音声信号を受け取ることができる。歪み制御モジュール140は、歪みを制御する一方で、音声エンハンスメントモジュール220により、音声エンハンスメント制御装置222により、および/または、出力利得制御装置230により提供される信号エネルギーを少なくとも部分的に保つか、または、増加させさえする、ハードウェアおよび/またはソフトウェアを含むことができる。
ある実施形態では、歪み制御モジュール140は、音声信号の1つ以上のサンプルを、完全に飽和している信号よりも少ない高調波を有する出力信号にマッピングすることにより、音声信号中の歪みを制御する。このマッピングは、飽和していないサンプルに対しては、線形にまたはおおよそ線形に音声信号を追跡することができる。飽和しているサンプルに対しては、このマッピングは、制御された歪みを適用する非線形変換とすることができる。結果として、ある実施形態では、歪み制御モジュール140は、完全に飽和している信号よりも少ない歪みにより、音声信号がさらに大きくサウンドを出すことを可能にする。したがって、ある実施形態では、歪み制御モジュール140は、物理的な音声信号を表すデータを、制御された歪みを持つ別の物理的な音声信号を表すデータに変換する。
III.音声エンハンスメント制御
図3は、音声エンハンスメント制御プロセス300の実施形態を示している。音声エンハンスメント制御プロセス300は、音声エンハンスメントシステム110または210により実現することができる。特に、音声エンハンスメント制御プロセス300は、音声エンハンスメント制御装置222により実現することができる。有利なことに、ある実施形態では、音声エンハンスメント制御プロセス300は、環境ノイズエネルギーのレベルに少なくとも部分的に基づいて、音声エンハンスメント処理を適応させる。
ブロック302において、電話機のような通信デバイスにより、環境ノイズ入力信号を受信する。通信デバイスのマイクロフォンにより、環境ノイズ入力信号を検出することができる。決定ブロック304において、環境制御をイネーブルするか否かを決定する。イネーブルしない場合には、ブロック306にゼロの値を提供することができる。1つの実施形態では、通信デバイスのユーザインターフェースから、ユーザにより環境制御をイネーブルするか、または、ディセーブルすることができる。環境制御をディセーブルすることは、上記で説明した追加の制御レベルのような、ノイズレベル以外のファクターに基づいて、音声エンハンスメント制御プロセスに、音声エンハンスメント処理を調節させることができる。
ブロック306において、ノイズ信号の絶対値をとることにより、および、ブロック308において、ノイズ信号にノイズスムージングフィルタを適用することにより、環境ノイズ信号中のエネルギーを計算することができる。ノイズスムージングフィルタは、第1の次数のフィルタまたはより高い次数のフィルタとすることができる。例えば、スムージングフィルタは、ローパスフィルタまたはこれに類するものとすることができる。いくつかの実施形態では、スムージングフィルタは、サンプルベースごとに、平均(例えば、移動平均)ノイズエネルギーレベルを提供することができる。代替的な実施形態では、エネルギーの代わりにノイズ信号の電力が算出される。
ブロック310において、環境ノイズ信号のエネルギーを出力利得制御プロセスに提供することができる。例示的な出力利得制御プロセスは、図4に関して下記で説明する。環境ノイズエネルギーは決定ブロック312にも提供することができ、決定ブロック312は、エネルギーがノイズしきい値に達しているか否か(例えば、ノイズしきい値よりも大きいか、または、ノイズしきい値に等しいか)を決定することができる。1つの実施形態では、ノイズしきい値は次のように算出される:
ノイズしきい値=1−(α*ノイズ感度制御) 式(1)
ここで、αは定数であり、ノイズ感度制御は、図2のノイズ感度制御装置224により発生された値とすることができる。ノイズ感度制御は、環境ノイズ入力302に対する音声エンハンスメント制御装置222の感度に影響を及ぼすことがある。ノイズ感度制御は、さまざまなファクターに基づいて変化することがあり、ノイズしきい値を変化させる(図5および図6参照)。ある実施形態では、αとノイズ感度制御の双方が[0,1]の間の範囲にあるか、または、それらは、この例示的な範囲外の他の値を有することがある。
表されている実施形態では、ノイズエネルギーがしきい値よりも大きいか、または、しきい値に等しい場合に、ノイズエネルギーは乗算ブロック314に渡される。そうでないならば、ゼロの制御レベルが乗算ブロック314に提供される。制御レベルは、図2に関して上記で説明した音声信号サブバンドに乗算することができるので、ゼロの制御レベルは、場合によっては、音声エンハンスメント処理が音声信号に何ら適用されないという結果になることがある(例えば、追加の処理が下記のブロック316に提供されない場合)。
乗算ブロック314において、決定ブロック312の出力に、ノイズしきい値の乗法的逆元を乗算する。代替的に、決定ブロック312の出力をノイズしきい値で除算する。乗算ブロック314の出力は、事前のエンハンスメントレベルとすることができる。したがって、ある実施形態では、このエンハンスメントレベルは、ノイズしきい値に対するノイズエネルギーの比とすることができる。
ブロック316において、図2に関して上記で説明した追加のエンハンスメント制御を事前のエンハンスメント制御レベルに加えることができる。追加のエンハンスメント制御は、[0,1]の範囲にあることがあるか、または、他の何らかの値を有することがある。決定ブロック318において、高い制御レベルに達しているか否かが決定される。高い制御レベルは、予め定められたピークまたは最大制御レベルとすることができる。高い制御レベルに達している場合に、決定ブロック318において、エンハンスメント制御レベルを高い制御レベルに制限することができる。そうでないならば、決定ブロック318は、エンハンスメント制御レベルを決定ブロック320に渡す。
決定ブロック320において、音声エンハンスメント制御をイネーブルするか否かを決定することができる。イネーブルしない場合には、ユーザ入力を使用して、音声エンハンスメント処理レベルを調節することができる。ユーザインターフェースまたはこれに類するものを通して、ユーザ入力をユーザに見せることができる。制御をイネーブルする場合には、ブロック302ないし318において算出したエンハンスメント制御レベルを、ブロック322において、出力制御レベルとして提供することができる。
現在の例ではノイズしきい値が使われていないが、すべての実施形態においてノイズしきい値を使用する必要はない。ある実施形態では、何らかのレベルのノイズに基づいて、音声エンハンスメント処理を適応させることがある。しかしながら、しきい値を使用することは、いくつかのシチュエーションでは有益であることがある。例えば、音声エンハンスメント処理は、低い環境ノイズのシチュエーションでは、耳障りであるか、または、不快なことがある。したがって、いつ音声エンハンスメント制御をオンにするかを決定するためにしきい値を使用することは、さらにかなりのノイズレベルが存在するときに、音声エンハンスメント処理を使用させることがある。
IV.出力利得制御
図4は、出力利得制御プロセス400の実施形態を示している。出力利得制御プロセス400は、音声エンハンスメントシステム110または210により実現することができる。特に、出力利得制御プロセス400は、出力利得制御装置230により実現することができる。有利なことに、ある実施形態では、出力利得制御プロセス400は、環境ノイズエネルギーのレベルと音声入力レベルとに少なくとも部分的に基づいて、出力利得を適応させる。
ブロック402において、電話機のような通信デバイスにより遠隔発呼者から音声入力信号を受信する。ブロック404において音声入力の絶対値をとることにより、ならびに、ブロック406において音声スムージングフィルタを適用することにより、ブロック404および406において、音声入力信号中のエネルギーが決定される。音声スムージングフィルタは、サンプルベースごとに、サンプルにおける平均(例えば、移動平均)音声レベルを提供する、ローパスフィルタまたはこれに類するものとすることができる。
ブロック408において、環境ノイズエネルギーを受信する。この環境ノイズエネルギーは、上記で説明したボリューム制御プロセス300において算出されたものである。決定ブロック410において、音声スムージングフィルタの出力は、受信利得しきい値と比較され、環境ノイズエネルギーは、マイクロフォン利得しきい値と比較される。受信利得しきい値は、図2に関して上記で説明した適応利得制御に少なくとも部分的に依存することがある。マイクロフォン利得しきい値は、図2に関して上記で説明したノイズ感度制御に少なくとも部分的に依存することがある。
1つの実施形態では、受信利得しきい値は次のように算出される:
受信利得しきい値=0.5+(γ*適応利得制御) 式(2)
ここで、γは、[0,1]の間の範囲にある定数であり、適応利得制御は、図2の適応利得制御232に対応する値である。同様に、マイクロフォン利得しきい値は次のように算出することができる:
マイクロフォン利得しきい値=1−(η*ノイズ感度制御) 式(3)
ここで、ηは、[0,1]の間の範囲にある定数であり、ノイズ感度制御は、上記で説明したノイズ感度制御装置224により発生された値である。ノイズ感度制御は、値が変化することがあり(図5および図6も参照)、何らかの実施形態では、マイクロフォン利得しきい値も変化させる。
決定ブロック410において条件が満たされた場合に、環境ノイズエネルギーが乗算ブロック412に提供される。そうでないならば、低い利得レベルを乗算ブロック412に提供することができる。低い利得レベルは、最小利得レベルまたはこれに類するものとすることができる。例えば、環境ノイズエネルギーが比較的低く、かつ、音声入力が比較的高いシチュエーションでは、低い利得レベルを使用することがある。これらのシチュエーションでは、音声信号は既に比較的了解度が高いことがあるので、利得調節はほとんど望まれないかもしれない。
乗算ブロック412において、決定ブロック410の出力にマイクロフォン利得しきい値の乗法的逆元を乗算し、利得レベルを生成させる。代替的に、決定ブロック410の出力をマイクロフォン利得しきい値で除算することができる。したがって、利得レベルは、マイクロフォン利得しきい値に対する環境ノイズエネルギーの比とすることができる。ブロック414において、高い利得レベルに達しているか否かが決定される。達していない場合には、乗算ブロック412の出力が出力利得スムージングフィルタ416に渡される。そうでないならば、高い利得レベルが出力利得スムージングフィルタに提供される。高い利得レベルは、最大利得レベルまたはこれに類するものとすることができる。
ブロック416において、決定ブロック414の出力に出力利得スムージングフィルタが適用される。出力利得スムージングフィルタは、乗算ブロック412および/または決定ブロック414において算出した利得レベルを平均する、ローパスフィルタまたはこれに類するものとすることができる。このスムージングフィルタは、利得レベルにおける突然の変化を減少させることができる。ブロック418において、利得スムージングフィルタの出力に出力利得制御を乗算し、出力利得制御は、ユーザ設定値とすることができる。例えば、ユーザインターフェースを通して、出力利得制御をユーザに見せることができる。ブロック420において、乗算ブロック418の出力が、出力利得レベルとして提供される。
V.ノイズ感度制御
上記で説明したように、ノイズ感度制御装置224により発生されたノイズ感度制御は自動的に変化することがあり、または、ユーザ制御下に置かれることがある。ある実施形態では、ノイズ感度制御を変化させることは、ノイズに対する音声エンハンスメント制御装置222および/または出力利得制御装置230の感度に影響を及ぼす。1つの実施形態では、ノイズ感度制御を増加させることは、音声了解度をよりアグレッシブに向上させることにより、環境ノイズに対して音声エンハンスメント制御装置222をよりアグレッシブに応答させ、逆もまた同じである。同様に、ノイズ感度制御を増加させることは、出力利得制御装置230に、向上されたオーディオ信号に適用される出力利得をよりアグレッシブに増加させることがあり、逆もまた同じである。
音声エンハンスメント制御装置222および/または出力利得制御装置230の感度を自動的に減少させることが、いくつかのシチュエーションでは有益であることがある。例えば、図1の受信電話機108が、(例えば、会話中の合間のせいで)発呼者電話機104からの音声信号の代わりに単にノイズを受信している場合に、音声エンハンスメントを適用することは、ノイズのラウドネスを増加させるかもしれない。加えて、受信電話機108のマイクロフォンが、電話機108のスピーカー出力114からの音声信号を拾っているときに、不快な効果が生じることがある。このスピーカーフィードバックは、音声エンハンスメント制御装置222により、環境ノイズとして解釈されることがあり、音声エンハンスメント制御装置222は、音声エンハンスメントに、スピーカーフィードバックを調整させることがある。結果の調整された出力信号114は、リスナーにとって不快であることがある。受信者電話機108が発呼者電話機104から受信した音声信号を出力しているのと同時に、リスナーが受信者電話機108に向かって話すときに、類似する問題が生じることがある。受信電話機108のマイクロフォンは、このダブルトークを検出することがあり、音声エンハンスメント制御装置222は、音声エンハンスメントに、ダブルトークを調整させることがあり、結果として、不快なサウンドになる。
ある実施形態では、ノイズ感度制御装置224は、ノイズに対する音声エンハンスメント制御装置222および/または出力利得制御装置230の感度を自動的に調節することにより、これらの問題および他の問題に取り組むことができる。代替的に、ノイズ感度制御装置224は、音声エンハンスメント制御装置222および/または出力利得制御装置230をトグルする(例えば、オンにする、または、オフにする)ことができる。図5A、図5B、および、図5Cを参照すると、ノイズ感度制御装置524a、524b、および524cのより詳細な実施形態が示されている。図5Aのノイズ感度制御装置524aは、受信電話機108が遠端からの(例えば、発呼者電話機104からの)音声信号の代わりに、単にノイズを受信するシチュエーションに対処するために、制御装置222、230のノイズ感度を調節するか、または、制御装置222、230をトグルすることができる。図5Bのノイズ感度制御装置524aは、スピーカーフィードバックおよび/またはダブルトークのシチュエーションに対処するために、制御装置222、230のノイズ感度を調節するか、あるいは、制御装置222、230をトグルすることができる。図5Cのノイズ感度制御装置524cは、図5A中および図5B中で示されている制御装置524a、524bの特徴を組み合わせる。
図5Aにおいて、ノイズ感度制御装置524aが、スピーカー入力502aを受け取る。スピーカー入力502aは、バッファ中またはこれに類するものの中に記憶されている1つ以上の出力サンプルを含むことがあり、これは、電話機108のような通信デバイスのスピーカーにも提供される。スピーカー入力502aは、上記で説明した音声エンハンスメントシステム210の出力信号250とすることができる。スピーカー入力502aは、スピーカー入力502aの自己相関を算出または推定することができる相関器530aに提供される。ある実施形態では、相関器530aは、スピーカー入力502a中のサンプルのブロックの自己相関を算出する。
音声信号は、周期的または実質的に周期的である傾向がある。したがって、スピーカー入力502aが音声信号を含む場合に、自己相関の性質により、スピーカー入力502aの自己相関関数もまた、周期的または実質的に周期的であることがある。一方、ノイズ信号は、相関していないか、または、周期的でないことが多い(いくつかの例外を下記で説明する)。周期的な信号または実質的に周期的な信号の自己相関の評価は、結果として、多くのノイズ信号の自己相関よりも大きな値になることがある。
相関器530aにより算出された自己相関値は、感度調節器550aに提供される。1つの実施形態では、自己相関が低いか、または、自己相関がしきい値を下回っている場合に、スピーカー入力502aは、ノイズである可能性が最も高い。したがって、感度調節器550aは、上記の式(1)および(3)のノイズ感度制御に対応するノイズ感度制御504aを減少させることができる。ノイズ感度制御504aを調節することは、それゆえ、音声エンハンスメント制御装置222により使用されるノイズしきい値をおよび/または出力利得制御装置230により使用されるマイク利得しきい値を調節することができる。結果として、音声エンハンスメント制御装置222および/または出力利得制御装置230は、環境ノイズに対してよりアグレッシブでなく応答することがある。自己相関が高いか、または、自己相関がしきい値を上回っている(音声を含む可能性があるスピーカー入力502aを表している)場合に、感度調節器550aは、ノイズ感度制御504aを増加させることができる。結果として、音声エンハンスメント制御装置222および/または出力利得制御装置230は、環境ノイズに対してよりアグレッシブに応答することがある。
ある実施形態では、感度調節器550aにより提供される感度調節の量は、自己相関レベルに対応することがある。例えば、自己相関が低くなればなるほど、感度調節器550aは、ノイズ感度制御504aをより低くさせるかもしれず、逆もまた同じである。
表されている実施形態では、相関器530aは、オプション的な分散モジュール540aにも自己相関値を提供する。分散モジュール540aは、自己相関値のブロックの分散を算出または推定することができる。分散モジュール540aは、結果の分散値を感度調節器550aに提供することができ、感度調節器550aは、この分散値を使用して、ノイズ感度制御504aの調節をより良くすることができる。より高い分散値が、音声信号の存在を反映することがあるのに対し、より低い分散値は、主として、ノイズの存在を反映することがある。したがって、感度調節器550aは、自己相関と分散値の双方が高いときに、ノイズ感度制御504aを増加させ、1つまたは双方の値が低いときには、ノイズ感度制御504bを減少させる論理を含むことがある。
示されている例示的なノイズ感度制御装置524aに対する多くの代替的なコンフィギュレーションを提供してもよい。例えば、分散モジュール540aを省略してもよい。代替的に、相関器530aは、分散モジュール540aにのみ値を提供することがあり、感度調節器550aは、この分散値にのみ基づいて、ノイズ感度制御504aを調節することがある。加えて、相関器530aは、他の統計的な手段を使用して、スピーカー入力502aを解析することができる。例えば、相関器530aは、何らかの正規化された不偏推定量を使用することができる。1つの実施形態では、相関器530aは、サンプルのブロック中の総電力またはエネルギーにより相関を正規化する。電力により相関を正規化することは、入力信号502aの電力における変動に基づいてではなく、入力信号502aの特性に基づいて、感度調節器550aに、ノイズ感度制御504aを調節させることができる。
図5Bを参照すると、例示的なノイズ感度制御装置524bは、図5Aの特徴のうちの多くのものを含んでいる。しかしながら、スピーカー入力502aを受け取る代わりに、ノイズ感度制御装置524bは、マイクロフォン(“マイク”)入力502bを受け取り、マイクロフォン(“マイク”)入力502bは、マイクロフォンにより受信したサンプルのブロックを含むことがある。上記で説明した相関および/または分散の技術をマイク入力502bに適用することにより、スピーカーフィードバックおよび/またはダブルトークが存在するときに、ノイズ感度制御装置524bが、音声了解度処理を改善することが可能になることがある。
マイク入力502bは相関器530bに提供され、相関器530bは、上記で説明した同じ自己相関の特徴を提供することができる。スピーカーフィードバックまたはダブルトークのケースでは、マイク入力502bは、周期的な情報または実質的に周期的な情報を含んでいるかもしれない。結果として、自己相関関数は、周期的または実質的に周期的であることがあり、相関器530bにより計算される自己相関値は、多くの形態のノイズの自己相関よりも高いことがある。
前のように、相関器530bは、感度調節器550bに自己相関値を提供することができる。自己相関値が高いか、または、自己相関値がしきい値を上回っている場合に、感度調節器550bは、ノイズ感度制御504bを減少させて、スピーカーフィードバックおよび/またはダブルトークにより生じる音声エンハンスメント調整を減少させることができる。同様に、自己相関値が低いか、または、自己相関がしきい値を下回っている場合に、感度調節器550bは、ノイズ感度制御504bを増加させることができる。上記のように、感度調節器550bは、自己相関レベルに少なくとも部分的に基づいて、ノイズ感度制御504bの量を調節することができる。
相関器530bは、オブション的な分散モジュール540bにも自己相関値を提供する。分散モジュール540bは、分散を、または、自己相関値のブロックの分散の近似を算出することができる。分散モジュール540bは、感度調節器550bに結果の分散値を提供することができ、感度調節器550bは、この分散値を使用して、ノイズ感度制御504bの調節をより良くすることができる。より高い分散値が、スピーチフィードバックおよび/またはダブルトークの存在を反映することがあるのに対し、より低い分散値は、主として、ノイズの存在を反映することがある。したがって、感度調節器550bは、分散が高いときには、ノイズ感度制御504aを減少させることもでき、逆もまた同じである。
分散モジュール540bは、高調波コンテンツを有するあるノイズ信号に有益に対処することができる。自動車および飛行機により発生されるもののような、何らかのノイズ信号は、より低い周波数高調波コンテンツを有しており、より低い周波数高調波コンテンツは、結果としてより高い相関値になることがある。しかしながら、これらのノイズ信号の自己相関は、音声信号に対するものよりもさらに低い分散値を有していてもよい。したがって、感度調節器550bは、自己相関値と分散値の双方が高いときには、ノイズ感度制御504bを減少させ、1つまたは双方の値が低いときには、ノイズ感度制御504bを増加させる論理を含んでいるかもしれない。
さまざまな実施形態では、ノイズ感度制御装置524bに関して上記で説明した代替的なコンフィギュレーションは、ノイズ感度制御装置524bを修正するためにも適用することができる。さらに、代替的な実施形態では、相関器530b、分散モジュール540b、および/または、感度調節器550bの代わりに(または、相関器530b、分散モジュール540b、および/または、感度調節器550bに加えて)、音響エコーキャンセラを使用することができる。音響エコーキャンセラは、マイク入力502bにおいて、スピーカーから受け取ったエコーを減少させるか、または、消去することができる。何らかの適切な音響エコーキャンセラを使用することができる。例えば、1993年3月のITU−TリコメンデーションG.167中で説明されている特徴を実現する音響エコーキャンセラを用いることができ、これは、参照によりそのすべてがここに組み込まれている。しかしながら、ある実施形態では、音響エコーキャンセラよりも少ない処理リソースにより、ここで説明する相関および/または分散の特徴を有利に実現することができる。
図5Cを参照すると、ノイズ感度制御装置524cは、ノイズ感度制御装置524aの特徴とノイズ感度制御装置524bの特徴を組み合わせる。特に、ノイズ感度制御装置524cは、マイク入力502bとスピーカー入力504aの双方を受け取る。スピーカー入力502aは、相関器530aと、分散モジュール540aとに提供され、相関器530aは、感度調節器550cに自己相関値を提供し、分散モジュール540aは、感度調節器550cに分散値を提供する。マイク入力502bは、相関器530bと、分散モジュール540bとに提供され、相関器530bは、感度調節器550cに自己相関値を提供し、分散モジュール540bは、感度調節器550cに分散値を提供する。
感度調節器550cは、コンポーネント530a、530b、540a、および、540bのうちのいずれかから受け取った情報に少なくとも部分的に基づいて、ノイズ感度制御504cを調節する論理を備えることができる。ある実施形態では、感度調節器550cは、軟判定を実行して、ノイズ感度制御504cを調節する。感度調節器550cにより実行することができるプロセス600の1つの例が、図6により表されている。プロセス600の決定ブロック602において、マイク分散値がしきい値よりも大きいか否かが決定される。分散モジュール540bにより、マイク分散値を算出することができる。マイク入力502bの自己相関における分散が、しきい値よりも大きい場合に、スピーチフィードバックまたはダブルトークによって存在する、周期的なあるいは実質的に周期的な信号があるかもしれない。したがって、ブロック604において、感度調節器550cは、相関器530bからの相関値に少なくとも部分的に基づいて、ノイズ感度制御を減少させ、より高い相関値は、潜在的に、結果としてより大きな減少になる。
マイク分散がしきい値よりも小さい場合に、スピーカー分散がしきい値よりも小さいか否かが決定ブロック606において決定される。スピーカー分散値は、分散モジュール540aにより、スピーカー入力502aの自己相関から算出することができる。スピーカー分散がしきい値を上回っている場合に、スピーカー入力502a中にスピーチ信号が存在する可能性が高い。したがって、ブロック608において、感度調節器550cは、ノイズ感度制御をデフォルトレベルに設定する。
スピーカー分散がしきい値を下回っている場合に、スピーカー入力502a中にノイズが存在する可能性が高い。したがって、感度調節器550cは、相関器530aからの相関値に少なくとも部分的に基づいて、ノイズ感度制御を減少させ、より低い相関値は、潜在的に、結果としてより大きな減少になる。
プロセス600は、感度調節器550cの1つの例示的なインプリメンテーションを示している。他の実施形態では、プロセス660において説明しているしきい値のうちの1つまたは双方にヒステリシスを提供してもよい。さらに他の実施形態では、ブロック604において、相関値に直接依存しないある低い値にノイズ感度制御を設定する。同様に、ブロック610におけるノイズ感度制御は、相関値に依存しない値に設定することができる。加えて、標準偏差、高次モーメント、音響エコー消去、および、これらに類するものを含む、自己相関および分散以外の他の統計的な手段を使用して、ノイズ感度を調節してもよい。他の多くのコンフィギュレーションもまた可能である。
さらに一般的に、上記で説明したノイズ感度制御装置のうちの何らかのものは、入力オーディオ信号の1つ以上の音声、ダイアログ、または、スピーチの成分を検出ならびに/あるいは分類する、音声、ダイアログ、もしくは、スピーチの分類器であると考えることができる。ノイズ感度制御装置は、音声検出器または一般信号分類器であると考えることもできる。ノイズ感度制御装置は、1つ以上のプロセッサを使用して、入力オーディオ信号の1つ以上の統計を解析することに少なくとも部分的によって、音声または信号の分類あるいは検出を実行することができる。自己相関および分散、音響エコー消去、ならびに、推定量は、ノイズ感度制御装置により用いることができる技術の単なる例である。他の統計的技術を含む他の技術を使用して、入力信号の音声または他の成分を検出することができる。
加えて、スピーチフィードバックおよびダブルトークも、検出することができる音声成分の単なる例である。図5および図6に関して上記で説明したノイズ感度制御装置の特徴を使用して、テレビと、ラジオと、音楽と、他のコンテンツとのような、何らかのメディアコンテンツ中の音声成分を含む、オーディオ信号中の他の音声成分を検出することができる。例えば、制御装置は、メディアコンテンツ中のオーディオの自己相関を使用して、メディアコンテンツ中の音声成分を検出することができる。1つの実施形態では、制御装置は、検出した音声成分をダイアログエンハンスメントに提供することができ、適用されるダイアログエンハンスメントの量を増加または減少させ、それにより、ダイアログエンハンスメントがダイアログをより効率的に向上させることを可能にする。
VI.歪み制御
音声エンハンスメント制御装置222および/または出力利得制御装置230は、音声信号に適用される1つ以上の利得を増加させることができる。いくつかのケースでは、あるポイントを超えて利得を増加させることは、結果として、信号の飽和になることがあり、信号の飽和は、歪みを生成させることがある。有利なことに、ある実施形態では、上記で説明した歪み制御モジュール240は、制御された歪みを、したがってより大きなラウドネスを提供することができる。
図7は、歪み制御モジュール740のさらに詳細な実施形態を示しており、歪み制御モジュール740は、上記で説明した歪み制御モジュール140の特徴のすべてを有していることがある。ハードウェア中および/またはソフトウェア中で、歪み制御モジュール740を実現することができる。ある実施形態では、歪み制御モジュール740は、選択された歪みをオーディオ信号中で引き起こして、信号エネルギーを、したがってラウドネスを増加させることができる。この選択された歪みは、完全に飽和している信号中に存在するよりも少ない高調波を追加する、制御された歪みとすることができる。
上記で説明したように、歪み制御モジュール740は、入力サンプルを出力サンプルにマッピングすることに少なくとも部分的によって、選択された歪みを引き起こすことができる。歪み制御モジュール740は、入力信号702のサンプルをインデックスとして使用することにより、サインの和のテーブル714中にこのマッピングを実行することができる。サインの和のテーブル714は、高調波的に関連するサイン波の和をとることにより発生される値を含むことができる。
例示するために、入力信号702が、値mを持つサンプルを有している場合に、歪み制御モジュール740は、サインの和のテーブル714中で、インデックスmにおいて、入力サンプルを出力サンプルにマッピングすることができる。入力信号702のサンプルが、テーブル714のインデックス値の間にある場合には、歪み制御モジュール740は、インデックス値を補間することができる。メモリを節約するために、補間の使用により、サインの和のテーブル714のサイズを減少させることができるようになる。しかしながら、ある実施形態では、補間の使用を避けるために、十分な大きさがあるようにサインの和のテーブル714を設計することがある。歪み制御モジュール740は、出力信号722に対する出力サンプルとして、サインの和のテーブル714のマッピングされた出力値を使用することができる。
アレイ、行列、または、これらに類するもののような、何らかのデータ構造として、サインの和のテーブル714を実現することができる。奇数次高調波や、偶数次高調波や、または、その双方の組み合わせを含む、任意の数の高調サイン波を含むように、テーブル714を発生させることができる。ある実施形態では、奇数次高調波は、音声オーディオ信号に、良好な歪み制御を提供する。他のインプリメンテーションでは、偶数次高調波を使用することがあり、偶数次高調波は、音楽の信号におけるクリッピングを減少させるのに有用であることがある。混合された音声および音楽の信号に対しては、奇数次高調波または偶数次高調波のいずれかを使用することができる。しかしながら、これらは単に例示的な例に過ぎず、あらゆる適用に対して、奇数次高調波または偶数次高調波のいずれかを、あるいは、その双方を使用することができる。
より多くのサイン波を使用して、テーブル714を発生させるときに、信号エネルギーと歪みとにおける潜在的な増加が大きくなり、逆もまた同じである。非常に多数のサイン波を使用すると、結果として、かなりの高調波歪みになることがあるので、ある実施形態では、比較的小さい数のより低い周波数のサイン波を有益に使用して、サインの和のテーブル714を構築する。
例えば、2つまたは3つの高調波的に関連するサイン波や、4つのサイン波や、5つのサイン波や、または、より多くのサイン波の和から、テーブル714を構築することができる。複数のサインの和のテーブル714をメモリ中に記憶することができ、異なる目的のために、歪み制御モジュール740により複数のサインの和のテーブル714を使用することができる。例えば、音声信号に対しては、より多くの高調波を持つサインの和のテーブル714を使用するかもしれない一方で、音楽に対しては、より少ない高調波を持つテーブル714を使用して、より小さい歪みを生成させるかもしれない。
歪み制御モジュール740はまた、信号エネルギーの増加の量および/または歪みの量を調節するために、ユーザに対して歪み制御を提供するユーザインターフェースを提供することがある。例えば、グラフィカルスライダー、ノブ、または、これらに類するものを提供することができ、あるいは、ユーザは、エネルギー増加の量または適用される歪みの量を調節するために、物理的なボタンまたはソフトのボタンを押すことができる。歪み制御を増加させると、より多くの高調波を持つテーブルを使用させることができ、逆もまた同じである。
3つの奇数次高調波的に関連するサイン波を使用して、サインの和のテーブル714を発生させるための例示的なプロセスをここで説明する。この例では、選択されたサイズの第1のテーブルに、(例えば、0ラジアンから2πまでの)サイン波の1つの周期の値を格納することにより、サインの和のテーブル714を発生させることができる。サイズN(Nは整数である)のテーブルを格納することは、サイン波の1つの周期をN個の値に分割することと、N個の値をテーブル中のNスロットに割り当てることとを含むことがある。この第1のサイン波テーブルは、基本高調波または1次高調波を表すことができる。
3つのサイン周期をN個の値に分割することにより、類似する方法で、第1のテーブルと同じサイズの第2のテーブルに、サイン波の3つの周期を格納することができる。第2のテーブル中の値は、第1のサイン波の3次高調波を表すことができる。同様に、最初の2つと同じサイズの第3のテーブルに、5次高調波を表す、サイン波の5つの周期を格納することができる。第1、第2、および、第3のテーブル中の値を所望のようにスケーリングすることができる。例えば、第2のテーブル中の値を、第1のテーブル中の値よりも大きさが小さくなるように、より小さくスケーリングすることができ、第3のテーブル中の値を、第2のテーブルよりも小さな値を含むようにスケーリングすることができる。
ある実施形態では、3つのテーブルは同じサイズなので(同じ数のN個のエントリーを有しているので)、3つのテーブルの対応するインデックスにおける値を一緒に足して、1次高調波、3次高調波、および5次高調波の和を含む新しいサインの和のテーブル714を作ることができる。したがって、ある実施形態では、サインの和のテーブル714中の値をプロットした場合に、和をとった波の1つの周期の近似が示されるだろう。ある実施形態では、使用されるサイン波が多ければ多いほど、このプロットされた波は、ますます方形波のように見えるようになるだろう。さまざまな実施形態において、3つの奇数次高調波に対して説明したものに類似した方法で、異なる高調波による他のサインの和のテーブルを構築することができる。代替的に、完全な周期ではなく、サイン波の周期の一部を使用して、サインの和のテーブル714を構築することができる。
歪み制御モジュール740は、入力702信号からのサンプルをサインの和のテーブル714中にマッピングするので、テーブル714中の高調波の周波数は、テーブルルックアップレートに依存することがあり、テーブルルックアップレートは、今度は、入力信号の周波数に依存することがある。ある実施形態では、この周波数依存は、入力信号702の周波数と同じレートにおいて、または、入力信号702の周波数とほぼ同じレートにおいて、歪み制御モジュール740により実行されるテーブルルックアップ動作に起因する。
例示するために、所定の周波数を有するシンプルなサイン波入力信号702に対して、歪み制御モジュール740は、同じ周波数においてマッピング動作を実行することができる。結果の高調波は、サイン波の周波数に依存する特定の周波数を有するだろう。それゆえ、サイン波の周波数が倍になると、高調波の周波数が倍になる。重畳した複数の周波数を含む入力信号702に対しては、歪み制御モジュール740によるマッピングは、結果として、高調波の重ね合わせになることがある。
図8ないし図15は、歪みとサイン波の和との例を示している。参照のために、図8は、サイン波802の例示的な時間ドメインプロット800を示している。クリッピングなしのサイン波802のピークレベル804が示されている。サイン波802のピークレベル804は、0dbにあり、これは、いくつかの実施形態では、ピークの可能性あるデジタルレベルとすることができる。図9は、図8のサイン波802の周波数スペクトル902を示す例示的なプロット900を示している。これはシヌソイドなので、1つの周波数を表している。
ある実施形態では、サイン波802の振幅がピークレベルを超えて増加すると、結果としてハードクリッピングになることがある。シヌソイド1002のハードクリッピングが、図10のプロット1000において示されている。クリップしたシヌソイド1002は、ピークレベルにおいて飽和している、クリップした部分1004を含んでいる。図11において示されている周波数ドメイン表現1102中で、クリップしたサイン波1002の高調波1104の例を見ることができる。示されているように、高調波1104は、サンプリング周波数と同じくらい高く伸びることがある(示されている例示的な図では、およそ22kHZ)。高調波1106のうちのあるものもまたエイリアジングされており、さらなる歪みを生じさせている。
ハードクリッピングの完全な歪みを避けながら、それでもなおボリュームにおける増加を可能にするために、上記で説明したように、歪み制御モジュール740は、より低い周波数の高調波の複合波を使用することができる。このような波の例示的な組の高調波が、図12において示されており、これは、400Hzの入力サイン波に応答して発生させることができる複合波の例示的な周波数応答プロット1200を含む。プロット1200中のスペクトルは、図11の完全なクリッピングのシナリオにおけるものよりも少ない高調波1202を含んでいる。表されている実施形態では、5つの高調波1202が発生された。最も高い高調波1202は、図11の高い周波数の高調波1104よりも低い周波数にある。エイリアジングされた高調波1106もまた、この実施形態には存在しない。
示されている例示的な実施形態は、およそ400Hz、1200Hz、2000Hz、2800Hz、および、3600Hzにおける高調波1202を含んでいる。これらの高調波1202は、1次高調波1204、3次高調波1206、5次高調波1208、7次高調波1210、および、9次高調波1212を含む、奇数次高調波1202である。1次高調波1204は、およそ0dBの振幅を有しており、これは、ある実施形態では、最も高い可能性あるデジタル振幅である。連続した高調波1202は、周波数が増加するにつれて、より低い振幅を有している。ある実施形態では、高調波1202の振幅は、単調に減少する。これらの振幅は、他の実施形態では変化することがある。
より低い周波数の高調波により提供される、制御された歪みの結果は、より高い信号エネルギーまたはより高い平均信号エネルギーを持つ、丸く、より自然なサウンディング波形となり得る。図12の高調波1204にマッピングされたサイン波を示す波1302の例示的な時間ドメインプロット1300が、図13において示されている。示されている例示的な波1302は、部分的にクリップした部分1306と、丸い部分1308とを有している。波1302と、ハードクリップした波1102との間の比較が示しているのは、波1302は、ハードクリップした波1102よりもさらに丸みを帯びているということである。加えて、波1302の一部1304は、線形、または、おおよそ線形である。カーブしている部分1308は、クリップした部分1306からおよそ−3dBのところにおいてカーブし始めている。
図14は、サインの和のマッピング関数1410のある実施形態を表す例示的なプロット1400を示している。上記で説明したテーブル714のような、サインの和のテーブル中の値をプロットすることにより、示されているサインの和のマッピング関数1410をプロットすることができる。サインの和のマッピング関数1410は、サインの和の波の周期のうちの4分の1を含んでいる。最適化のために、全波の代わりに、4分の1のサインの和の波を使用することができる。これは、以下で説明する。
入力信号値はx軸上で表しており、これは、0から1までの範囲の正の振幅値を含んでいる。同様に、出力信号値はy軸上で表しており、0から1までの範囲の振幅値も含んでいる。負の振幅値は、下記で説明する。歪み制御モジュール140または740が、入力サンプルを出力サンプルにマッピングするときに、ある実施形態では、入力サンプルは、マッピング関数1410上の点にマッピングされる。マッピングされた出力サンプルは、入力サンプルがマッピングされたところに依存して、入力サンプルよりも大きな値または小さな値を有することがある。
明確さのために、サインの和のマッピング関数1410を連続関数として示している。しかしながら、デジタルシステムにおいて実現するときには、マッピング関数1410は離散的であることがある。加えて、上記で説明したように、すべての入力信号値に対してマッピング関数1410を規定しないことがある。したがって、歪み制御モジュール140または740は、例えば、マッピング関数1410上の最も近い2つの点の間の出力信号値を補間することがある。
参照のために、y=xの線に対応する想像線1420を示している。入力サンプルが、想像線1420にしたがってマッピングされている場合には、出力サンプルは入力サンプルと同じであるだろう。マッピング関数1410は、線形のまたはおおよそ線形のマッピング領域1412と、非線形のまたはおおよそ非線形のマッピング領域1414とを含んでいる。線形のマッピング領域1412中の入力サンプル値の値が増加するにつれて、線形のマッピング領域1412中の対応する出力サンプルは、線形にまたは実質的に線形に増加する。非線形の領域1414中のある入力サンプル値は、非線形にまたは実質的に非線形に増加し、変化するレベルの増加1414を有している。
大半の入力サンプルを、より大きな値にマッピングすることができるように、マッピング関数1410の大半の値は、想像線1420よりも大きい。しかしながら、非線形のマッピング領域1414の領域1416において、マッピング関数1410の値は、想像線1420よりも小さいか、または、想像線1420に等しい。この領域1416では、入力サンプルは、より低い値にマッピングされている。したがって、例えば、(例えば、1.0の値または1.0に近い値を有する)ハードクリップしたサンプルは、値が減少することがある。
上記で述べたように、マッピング関数1410は、全波の代わりに、4分の1のサインの和の波を含んでいる。4分の1波を(または、半波でさえも)使用すると、サインの和のテーブル714のサイズを減少させることができ、それにより、メモリを節約する。(例えば、[1−,0)の、または、これらに類するもののスケール上にある)負の入力信号値に対して、歪み制御モジュール140、740は、x軸にわたってマッピング関数1410を逆にすることがあり、y軸にわたってマッピング関数1410を反転させることがある。その後、歪み制御モジュール140、740は、入力サンプルにマッピング関数1410を適用することができる。代替的に、負の値を反転させて、[0,1]の範囲に正規化することができる。それから、マッピング関数1410を適用することができ、結果の出力サンプルを負にして、負の値を復元することができる。
代替的な実施形態において、示されているマッピング関数1410は、例えば、サインの和のテーブル714を発生させるのに使用する高調波の数に依存して、異なって見えることがある。例えば、線形のマッピング領域1412は、よりきつい傾きまたはより緩い傾きを有することがある。非線形のマッピング領域1414は、異なるように形作られていることがある。例えば、非線形のマッピング領域1414は、より少ない山を有することがある。同様に、領域1416は、振幅がより小さいことがあり、または、より大きいことがある。
ある実施形態では、x軸および/またはy軸の範囲は、上記で説明したように、[0,1]の範囲とは異なっていることがある。aが1よりも小さい場合に、x軸の範囲が[0,a]に減少すると、入力信号の少なくとも一部分の振幅が増加することがある。逆に、bが1よりも大きい場合に、x軸の範囲が[0,b]から増加すると、入力信号の少なくとも一部分の振幅が減少することがある。いくつかの実施形態では、1よりも大きいbの値を使用することにより、クリッピングを有益に減少させることができる。同様に、y軸は、[0,c]に変更することができ、ここで、cは、1よりも小さいか、または、1よりも大きい。
図15は、歪み制御が適用される前の、オーディオ信号1512の例示的な時間ドメイン表現のプロット1500を示している。加えて、図15は、歪み制御が適用された後の、同じオーディオ信号1514の例示的な時間ドメイン表現を示している。歪み制御の例示的なインプリメンテーションを使用することにより、おおよそ6dBの追加の利得が、この波形に導入されている。
他の適用に対して歪み制御を使用することができる。例えば、歪み制御を使用して、減少した歪みで、バスボリュームを増加させることができる。周波数拡散の適用においても、歪み制御を使用することができる。さらに、歪み制御を使用して、例えば、さまざまな高調波を選択することにより、楽器のサウンドまたは他のサウンドを合成して、楽器の所望の音色を作ることができる。
VII.結論
実施形態に依存して、ここで説明したアルゴリズムのうちの任意の、あるアクト、イベント、または機能を、異なるシーケンス中で実行することができ、ひとまとめにして追加したり、マージしたり、または、除外することができる(例えば、説明したアクトまたはイベントのすべてが、アルゴリズムの実施のために必要なわけではない)。さらに、ある実施形態では、例えば、マルチスレッド処理、割り込み処理、あるいは、複数のプロセッサまたはプロセッサコアを通して、シーケンシャルにではなく、並行してアクトまたはイベントを実行することができる。
ここで開示した実施形態に関連して説明した、さまざまな例示的な論理ブロック、モジュール、およびアルゴリズムステップが、電子ハードウェア、コンピュータソフトウェア、あるいは双方の組み合わせたものとして実現することができる。ハードウェアおよびソフトウェアの交換可能性を明確に示すために、さまざまな例示的なコンポーネント、ブロック、モジュール、およびステップを一般的にこれらの機能性に関して上記で説明した。このような機能性がハードウェアあるいはソフトウェアとして実現されるか否かは、特定の応用およびシステム全体に課せられた設計の制約に依存する。それぞれの特定の応用に対して方法を変化させて、説明した機能性を実現することができるが、このようなインプリメンテーション決定は、本開示の範囲からの逸脱を生じさせるものとして解釈すべきではない。
ここで開示した実施形態に関連して説明した、さまざまな例示的な論理的ブロックおよびモジュールは、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、あるいは、ここで説明した機能を実行するために設計されたこれらの組み合わせのような、機械により、実現することができ、あるいは、実行することができる。汎用プロセッサはマイクロプロセッサとすることができるが、代替実施形態では、プロセッサは、プロセッサ、制御装置、マイクロ制御装置、状態機械、または、これらの組み合わせ、あるいは、これらに類するものとすることができる。プロセッサはまた、コンピューティングデバイスの組み合わせとして、例えば、DSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、DSPコアを備えた1つ以上のマイクロプロセッサ、あるいは、このようなコンフィギュレーションの他の何らかのものとして実現することができる。
ここで開示した実施形態と関連して説明した方法またはアルゴリズムのステップは、直接、ハードウェアで、プロセッサにより実行されるソフトウェアモジュールで、あるいは、2つの組み合わせで具現化することができる。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーブバルディスク、CD−ROM、あるいは、技術的に知られている他の何らかの形態のプロセッサ読取可能記憶媒体またはコンピュータ読取可能記憶媒体に存在することがある。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるようにプロセッサに結合することができる。代替実施形態では、記憶媒体はプロセッサと一体化することができる。プロセッサおよび記憶媒体は、ASICに存在することがある。ASICはユーザ端末に存在することがある。代替実施形態では、プロセッサおよび記憶媒体は、ユーザ端末中のディスクリートコンポーネントとして存在することがある。
数ある中で、“できる”、“できた”、“かもしれない”、“してもよい”、“例えば”、および、これらに類するもののような、ここで使用されている条件付きの言葉は、そうではないと特に述べられていない限り、または、そうでなければ、使用されているような文脈内で理解されない限り、一般的に、ある実施形態は、ある特徴、エレメントおよび/または状態を含む一方で、他の実施形態は、ある特徴、エレメントおよび/または状態を含まないことを伝えることを意図している。したがって、特徴、エレメント、および/または、状態が、どんな方法であれ、1つ以上の実施形態に対して必要とされていることを、あるいは、作者のインプットまたはプロンプティングの有無にかかわらず、これらの特徴、エレメント、および/または、状態が、何らかの特定の実施形態中に含まれているか否かを、もしくは、これらの特徴、エレメント、および/または、状態が、何らかの特定の実施形態中で実行されることになるか否かを決めるための論理を1つ以上の実施形態が必ず含んでいることを意味するように、このような条件付きの言葉は、一般的に意図していない。
上記の詳細な説明は、さまざまな実施形態に適用されるような新規の特徴を示し、説明し、指摘したが、示されているデバイスまたはアルゴリズムの形態ならびに詳細において、本開示の精神から逸脱することなく、さまざまな省略、置換、および、変更を行うことができることが理解されるだろう。認識されるように、いくつかの特徴は、他のものとは別々に使用または実施することができるので、ここで説明されている本発明のある実施形態は、ここで述べた特徴および利益のすべてを提供しない形態内で具現化することができる。ここで開示したある発明の範囲は、先の説明によってではなく、添付の特許請求の範囲によって示されている。特許請求の範囲の均等物の意味および範囲内に入るすべての変更は、それらの範囲内に含まれるべきである。
上記の詳細な説明は、さまざまな実施形態に適用されるような新規の特徴を示し、説明し、指摘したが、示されているデバイスまたはアルゴリズムの形態ならびに詳細において、本開示の精神から逸脱することなく、さまざまな省略、置換、および、変更を行うことができることが理解されるだろう。認識されるように、いくつかの特徴は、他のものとは別々に使用または実施することができるので、ここで説明されている本発明のある実施形態は、ここで述べた特徴および利益のすべてを提供しない形態内で具現化することができる。ここで開示したある発明の範囲は、先の説明によってではなく、添付の特許請求の範囲によって示されている。特許請求の範囲の均等物の意味および範囲内に入るすべての変更は、それらの範囲内に含まれるべきである。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]オーディオ信号に適用される音声了解度エンハンスメントを自動的に調節するためのシステムにおいて、
前記システムは、
フォルマントを含む入力音声信号を受信するようにと、前記入力音声信号にオーディオエンハンスメントを適用して、向上された音声信号を提供するように構成されているエンハンスメントモジュールと、
検出した環境ノイズの量に少なくとも部分的に基づいて、前記エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成され、1つ以上のプロセッサを備えているエンハンスメント制御装置と、
前記環境ノイズの量と前記入力音声信号とに少なくとも部分的に基づいて、前記向上された音声信号の全体的な利得を調節するようにと、
前記全体的な利得を前記向上された音声信号に適用して、増幅された音声信号を生成させるように構成されている出力利得制御装置と、
より低い次数のサイン高調波の和から発生されたサインの和のテーブル中に記憶されている1つ以上の値に、前記増幅された音声オーディオ信号の1つ以上のサンプルを少なくともマッピングすることによって、前記増幅された音声信号におけるクリッピングを減少させるように構成されている歪み制御モジュールとを具備し、
前記オーディオエンハンスメントは、前記入力音声信号中のフォルマントのうちの1つ以上を強調するように構成されているシステム。
[2]前記エンハンスメントモジュールは、前記入力音声信号の周波数サブバンドに利得を適用することにより、前記1つ以上のフォルマントを強調するようにさらに動作可能である[1]に記載のシステム。
[3]音声了解度エンハンスメントを調節する方法において、
前記方法は、
音声信号と、近端環境コンテンツを含む入力信号とを受信することと、
前記入力信号中の前記近端環境コンテンツを前記1つ以上のプロセッサにより算出することと、
前記近端環境コンテンツに少なくとも部分的に基づいて、音声エンハンスメントのレベルを前記1つ以上のプロセッサにより調節することと、
前記音声エンハンスメントを前記音声信号に適用して、向上された音声信号を生成させ、前記音声エンハンスメントは、前記音声信号の1つ以上のフォルマントを強調するように構成されている方法。
[4]前記算出することは、前記近端環境コンテンツの大きさを取得することと、前記近端環境コンテンツの前記大きさをスムーズにすることとを含む[3]に記載の方法。
[5]前記音声エンハンスメントのレベルを前記1つ以上のプロセッサにより調節することは、前記近端環境コンテンツがしきい値を上回っているときに、前記近端環境コンテンツを追跡することを含む[3]に記載の方法。
[6]ユーザ調節可能なノイズ感度レベルに少なくとも部分的に基づいて、前記しきい値が決定される[5]に記載の方法。
[7]前記近端環境コンテンツと、前記音声信号中のエネルギーの量とに少なくとも部分的に基づいて、前記向上された音声信号の全体的な利得を調節することをさらに含む[3]に記載の方法。
[8]前記全体的な利得を調節することは、前記近端環境コンテンツに比例する利得レベルを計算することを含む[7]に記載の方法。
[9]前記向上された音声信号の1つ以上のサンプルをサインの和のテーブル中に記憶されている1つ以上の値にマッピングして、前記向上された音声信号におけるクリッピングを減少させることをさらに含む[3]に記載の方法。
[10]オーディオ信号に適用される音声了解度エンハンスメントを自動的に調節するためのシステムにおいて、
前記システムは、
フォルマントを含む入力音声信号を受信するようにと、前記入力音声信号にオーディオエンハンスメントを適用して、向上された音声信号を提供するように構成されているエンハンスメントモジュールと、
検出した環境ノイズの量に少なくとも部分的に基づいて、前記エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成され、1つ以上のプロセッサを備えているエンハンスメント制御装置と、
前記環境ノイズの量と前記入力音声信号とに少なくとも部分的に基づいて、前記向上された音声信号の全体的な利得を調節するようにと、
前記全体的な利得を前記向上された音声信号に適用して、増幅された音声信号を生成させるように構成されている出力利得制御装置とを具備し、
前記オーディオエンハンスメントは、前記入力音声信号中のフォルマントのうちの1つ以上を強調するように構成されているシステム。
[11]前記エンハンスメント制御装置は、しきい値レベルに対する環境ノイズの量の比に少なくとも部分的に基づいて、前記適用されるオーディオエンハンスエントの量を調節するようにさらに構成されている[10]に記載のシステム。
[12]前記エンハンスメントモジュールは、前記入力音声信号の周波数サブバンドに利得を適用することにより、前記1つ以上のフォルマントを強調するようにさらに動作可能である[10]に記載のシステム。
[13]前記エンハンスメント制御装置は、前記入力音声信号の前記周波数サブバンドに追加の利得を少なくとも適用することによって、前記適用されるオーディオエンハンスメントの量を調節するようにさらに構成されている[12]に記載のシステム。
[14]前記出力利得制御装置は、前記環境ノイズの量に比例する利得レベルを提供することにより、前記全体的な利得を調節するようにさらに構成されている[10]に記載のシステム。
[15]前記出力利得制御装置は、しきい値を下回る前記音声信号のエネルギーに応答して、前記全体的な利得を調節するようにさらに構成されている[10]に記載のシステム。
[16]前記増幅された音声信号におけるクリッピングを減少させるように動作可能である歪み制御モジュールをさらに具備する[10]に記載のシステム。
[17]音声了解度エンハンスメントを調節する方法を1つ以上のプロセッサに実行させる命令をその上に記憶しているプロセッサ読取可能記憶媒体において、
前記方法は、
遠隔の電話機からの音声信号と、マイクロフォンからのノイズ信号とを受信することと、
前記ノイズ信号の値を算出することと、
前記ノイズ信号の値に少なくとも部分的に基づいて、前記音声信号のフォルマントに適用される利得を調節することと、
前記音声信号のフォルマントに前記利得を適用することとを含むプロセッサ読取可能記憶媒体。
[18]前記音声信号のエネルギーの量に少なくとも部分的に基づいて、前記音声信号の全体的な利得を調節することをさらに含む[17]に記載のプロセッサ読取可能記憶媒体。
[19]しきい値を下回る前記音声信号のエネルギーに応答して、前記全体的な利得を調節する[18]に記載のプロセッサ読取可能記憶媒体。
[20]音声了解度エンハンスメントのノイズしきい値を調節するためのシステムにおいて、
前記システムは、
遠隔デバイスからの入力音声信号を受信デバイスにより受信するようにと、前記入力音声信号にオーディオエンハンスメントを適用して、前記入力音声信号中のフォルマントのうちの1つ以上を強調するように構成されている音声エンハンスメントモジュールと、
第1のノイズしきい値を上回る検出した環境ノイズの量に少なくとも部分的に基づいて、前記エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成され、1つ以上のプロセッサを備えている音声エンハンスメント制御装置と、
前記第1のノイズしきい値を調節するように構成されているノイズ感度制御装置とを具備し、
前記ノイズ感度制御装置は、
前記受信デバイスのマイクロフォンから受信したマイクロフォン入力信号から第1の自己相関値を計算するように構成されている第1の相関器と、
前記第1の自己相関値の第1の分散を計算するように動作可能である第1の分散モジュールと、
前記音声エンハンスメントモジュールの出力信号を含むスピーカー入力信号から第2の自己相関値を計算するように構成されている第2の相関器と、
前記第2の自己相関値の第2の分散を計算するように動作可能である第2の分散モジュールと、
前記第1および前記第2の自己相関値と前記第1および前記第2の分散値とのうちの1つ以上を使用して、前記第1のノイズしきい値を調節して、第2のノイズしきい値を生成させるように構成されているノイズ感度調節器とを備え、
前記音声エンハンスメント制御装置は、前記第2のノイズしきい値を上回る検出した環境ノイズの第2の量に少なくとも部分的に基づいて、第2の入力オーディオ信号に適用されるオーディオエンハンスメントの量を調節するように構成されているシステム。
[21]前記ノイズ感度調節器は、前記第1の分散が予め定められた量を上回ることに応答して、前記第1のノイズしきい値よりも低い第2のノイズしきい値を生成させるようにさらに構成されている[20]に記載のシステム。
[22]前記ノイズ感度調節器は、前記第1の自己相関値のうちの1つ以上に少なくとも部分的に基づいて、前記第2のノイズしきい値を低くするようにさらに構成されている[21]に記載のシステム。
[23]前記ノイズ感度調節器は、より高い第1の自己相関値に対して前記第2のノイズしきい値におけるより多くの減少を提供するようにさらに構成されている[21]に記載のシステム。
[24]前記ノイズ感度調節器は、前記第2の自己相関値のうちの1つ以上に少なくとも部分的に基づいて、前記第2のノイズしきい値を低くするようにさらに構成されている[23]に記載のシステム。
[25]前記ノイズ感度調節器は、より低い第2の自己相関値に対して前記第2のノイズしきい値におけるより多くの減少を提供するようにさらに構成されている[21]に記載のシステム。
[26]前記ノイズ感度調節器は、前記第2の分散が予め定められた量よりも少ないことに応答して、前記第1のノイズしきい値よりも低い第2のノイズしきい値を生成させるようにさらに構成されている[20]に記載のシステム。
[27]音声了解度エンハンスメントの感度を調節するためのシステムにおいて、
前記システムは、
遠隔デバイスから受信デバイスにより受信した入力音声信号を、前記受信デバイスにより受信するようにと、前記入力音声信号にオーディオエンハンスメントを適用して、前記入力音声信号中のフォルマントのうちの1つ以上を強調するように構成されている音声エンハンスメントモジュールと、
前記入力音声信号中に存在する環境ノイズの量に少なくとも部分的に基づいて、前記音声エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成されているエンハンスメント制御装置と、
前記受信デバイスのマイクロフォンから取得したマイクロフォン入力信号と、前記音声エンハンスメントモジュールの出力信号として提供されたスピーカー入力信号とのうちの少なくとも1つまたは双方の統計的解析に少なくとも部分的に基づいて、前記環境ノイズに対する前記エンハンスメント制御装置の感度を調節するように構成され、1つ以上のプロセッサを備えているノイズ感度制御装置とを具備するシステム。
[28]前記ノイズ感度制御装置は、前記マイクロフォン入力信号と前記スピーカー入力信号とのうちの1つまたは双方の自己相関を計算するように構成されている相関器を備える[27]に記載のシステム。
[29]前記ノイズ感度制御装置は、前記自己相関の分散を推定するように構成されている分散モジュールをさらに備える[28]に記載のシステム。
[30]前記ノイズ感度制御装置は、前記計算した自己相関に少なくとも部分的に基づいて、前記環境ノイズに対する前記エンハンスメント制御装置の感度を調節するように構成されている感度調節器をさらに備える[28]に記載のシステム。
[31]前記ノイズ感度制御装置は、推定した分散に少なくとも部分的に基づいて、前記環境ノイズに対する前記エンハンスメント制御装置の感度を調節するように構成されている感度調節器をさらに備える[28]に記載のシステム。
[32]音声エンハンスメントの感度を調節するための方法において、
前記方法は、
入力オーディオ信号を受信することと、
前記入力オーディオ信号中の相関しているコンテンツを検出することと、
前記検出することに応答して、前記入力オーディオ信号に適用されるエンハンスメントのレベルを調節することとを含み、
前記検出することは、1つ以上のプロセッサを使用して、前記入力オーディオ信号の統計的解析を計算することを含む方法。
[33]前記入力オーディオ信号の統計的解析を計算することは、前記入力オーディオ信号の自己相関を計算することを含む[32]に記載の方法。
[34]前記検出することは、前記自己相関の分散を計算することをさらに含む[33]に記載の方法。
[35]前記調節することは、前記入力オーディオ信号に適用されるエンハンスメントのレベルを増加させることを含む[32]に記載の方法。
[36]前記エンハンスメントは、ダイアログエンハンスメントを含む[32]に記載の方法。
[37]前記統計的解析は、音響エコー消去を含む[32]に記載の方法。
[38]オーディオ信号処理方法において、
前記方法は、
マイクロフォン入力信号を受信することと、
前記マイクロフォン入力信号中の実質的に周期的なコンテンツを検出することと、
前記マイクロフォン入力信号中で検出した前記実質的に周期的なコンテンツに少なくとも部分的に基づいて、1つ以上のプロセッサによりオーディオエンハンスメントを調節し、前記オーディオエンハンスメントは、前記マイクロフォン入力信号のレベルに少なくとも部分的に基づいて、オーディオ出力信号を選択的に向上させるように構成されていることと、
前記オーディオ出力信号をスピーカーに提供することとを含む方法。
[39]前記実質的に周期的なコンテンツは、前記スピーカーからのエコーを含む[38]に記載の方法。
[40]前記実質的に周期的なコンテンツは、前記オーディオ信号処理方法を実現するように構成されている通信デバイスのリスナーからの音声を含む[38]に記載の方法。
[41]前記マイクロフォン入力信号は、近端環境コンテンツを含む[38]に記載の方法。
[42]前記実質的に周期的なコンテンツを検出することは、1つ以上の統計的な技術を使用して、前記実質的に周期的なコンテンツを検出することを含む[38]に記載の方法。
[43]前記調節することは、前記マイクロフォン入力信号のレベルに対する前記オーディオエンハンスメントの感度を調節することを含む[38]に記載の方法。
[44]前記調節することは、前記オーディオエンハンスメントをオフにすることを含む[38]に記載の方法。
[45]前記オーディオエンハンスメントは、音声了解度エンハンスメントを含む[38]に記載の方法。
[46]前記オーディオ信号処理方法を通信デバイス中で実現する[38]に記載の方法。

Claims (46)

  1. オーディオ信号に適用される音声了解度エンハンスメントを自動的に調節するためのシステムにおいて、
    前記システムは、
    フォルマントを含む入力音声信号を受信するようにと、前記入力音声信号にオーディオエンハンスメントを適用して、向上された音声信号を提供するように構成されているエンハンスメントモジュールと、
    検出した環境ノイズの量に少なくとも部分的に基づいて、前記エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成され、1つ以上のプロセッサを備えているエンハンスメント制御装置と、
    前記環境ノイズの量と前記入力音声信号とに少なくとも部分的に基づいて、前記向上された音声信号の全体的な利得を調節するようにと、
    前記全体的な利得を前記向上された音声信号に適用して、増幅された音声信号を生成させるように構成されている出力利得制御装置と、
    より低い次数のサイン高調波の和から発生されたサインの和のテーブル中に記憶されている1つ以上の値に、前記増幅された音声オーディオ信号の1つ以上のサンプルを少なくともマッピングすることによって、前記増幅された音声信号におけるクリッピングを減少させるように構成されている歪み制御モジュールとを具備し、
    前記オーディオエンハンスメントは、前記入力音声信号中のフォルマントのうちの1つ以上を強調するように構成されているシステム。
  2. 前記エンハンスメントモジュールは、前記入力音声信号の周波数サブバンドに利得を適用することにより、前記1つ以上のフォルマントを強調するようにさらに動作可能である請求項1記載のシステム。
  3. 音声了解度エンハンスメントを調節する方法において、
    前記方法は、
    音声信号と、近端環境コンテンツを含む入力信号とを受信することと、
    前記入力信号中の前記近端環境コンテンツを前記1つ以上のプロセッサにより算出することと、
    前記近端環境コンテンツに少なくとも部分的に基づいて、音声エンハンスメントのレベルを前記1つ以上のプロセッサにより調節することと、
    前記音声エンハンスメントを前記音声信号に適用して、向上された音声信号を生成させ、前記音声エンハンスメントは、前記音声信号の1つ以上のフォルマントを強調するように構成されている方法。
  4. 前記算出することは、前記近端環境コンテンツの大きさを取得することと、前記近端環境コンテンツの前記大きさをスムーズにすることとを含む請求項3記載の方法。
  5. 前記音声エンハンスメントのレベルを前記1つ以上のプロセッサにより調節することは、前記近端環境コンテンツがしきい値を上回っているときに、前記近端環境コンテンツを追跡することを含む請求項3記載の方法。
  6. ユーザ調節可能なノイズ感度レベルに少なくとも部分的に基づいて、前記しきい値が決定される請求項5記載の方法。
  7. 前記近端環境コンテンツと、前記音声信号中のエネルギーの量とに少なくとも部分的に基づいて、前記向上された音声信号の全体的な利得を調節することをさらに含む請求項3記載の方法。
  8. 前記全体的な利得を調節することは、前記近端環境コンテンツに比例する利得レベルを計算することを含む請求項7記載の方法。
  9. 前記向上された音声信号の1つ以上のサンプルをサインの和のテーブル中に記憶されている1つ以上の値にマッピングして、前記向上された音声信号におけるクリッピングを減少させることをさらに含む請求項3記載の方法。
  10. オーディオ信号に適用される音声了解度エンハンスメントを自動的に調節するためのシステムにおいて、
    前記システムは、
    フォルマントを含む入力音声信号を受信するようにと、前記入力音声信号にオーディオエンハンスメントを適用して、向上された音声信号を提供するように構成されているエンハンスメントモジュールと、
    検出した環境ノイズの量に少なくとも部分的に基づいて、前記エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成され、1つ以上のプロセッサを備えているエンハンスメント制御装置と、
    前記環境ノイズの量と前記入力音声信号とに少なくとも部分的に基づいて、前記向上された音声信号の全体的な利得を調節するようにと、
    前記全体的な利得を前記向上された音声信号に適用して、増幅された音声信号を生成させるように構成されている出力利得制御装置とを具備し、
    前記オーディオエンハンスメントは、前記入力音声信号中のフォルマントのうちの1つ以上を強調するように構成されているシステム。
  11. 前記エンハンスメント制御装置は、しきい値レベルに対する環境ノイズの量の比に少なくとも部分的に基づいて、前記適用されるオーディオエンハンスエントの量を調節するようにさらに構成されている請求項10記載のシステム。
  12. 前記エンハンスメントモジュールは、前記入力音声信号の周波数サブバンドに利得を適用することにより、前記1つ以上のフォルマントを強調するようにさらに動作可能である請求項10記載のシステム。
  13. 前記エンハンスメント制御装置は、前記入力音声信号の前記周波数サブバンドに追加の利得を少なくとも適用することによって、前記適用されるオーディオエンハンスメントの量を調節するようにさらに構成されている請求項12記載のシステム。
  14. 前記出力利得制御装置は、前記環境ノイズの量に比例する利得レベルを提供することにより、前記全体的な利得を調節するようにさらに構成されている請求項10記載のシステム。
  15. 前記出力利得制御装置は、しきい値を下回る前記音声信号のエネルギーに応答して、前記全体的な利得を調節するようにさらに構成されている請求項10記載のシステム。
  16. 前記増幅された音声信号におけるクリッピングを減少させるように動作可能である歪み制御モジュールをさらに具備する請求項10記載のシステム。
  17. 音声了解度エンハンスメントを調節する方法を1つ以上のプロセッサに実行させる命令をその上に記憶しているプロセッサ読取可能記憶媒体において、
    前記方法は、
    遠隔の電話機からの音声信号と、マイクロフォンからのノイズ信号とを受信することと、
    前記ノイズ信号の値を算出することと、
    前記ノイズ信号の値に少なくとも部分的に基づいて、前記音声信号のフォルマントに適用される利得を調節することと、
    前記音声信号のフォルマントに前記利得を適用することとを含むプロセッサ読取可能記憶媒体。
  18. 前記音声信号のエネルギーの量に少なくとも部分的に基づいて、前記音声信号の全体的な利得を調節することをさらに含む請求項17記載のプロセッサ読取可能記憶媒体。
  19. しきい値を下回る前記音声信号のエネルギーに応答して、前記全体的な利得を調節する請求項18記載のプロセッサ読取可能記憶媒体。
  20. 音声了解度エンハンスメントのノイズしきい値を調節するためのシステムにおいて、
    前記システムは、
    遠隔デバイスからの入力音声信号を受信デバイスにより受信するようにと、前記入力音声信号にオーディオエンハンスメントを適用して、前記入力音声信号中のフォルマントのうちの1つ以上を強調するように構成されている音声エンハンスメントモジュールと、
    第1のノイズしきい値を上回る検出した環境ノイズの量に少なくとも部分的に基づいて、前記エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成され、1つ以上のプロセッサを備えている音声エンハンスメント制御装置と、
    前記第1のノイズしきい値を調節するように構成されているノイズ感度制御装置とを具備し、
    前記ノイズ感度制御装置は、
    前記受信デバイスのマイクロフォンから受信したマイクロフォン入力信号から第1の自己相関値を計算するように構成されている第1の相関器と、
    前記第1の自己相関値の第1の分散を計算するように動作可能である第1の分散モジュールと、
    前記音声エンハンスメントモジュールの出力信号を含むスピーカー入力信号から第2の自己相関値を計算するように構成されている第2の相関器と、
    前記第2の自己相関値の第2の分散を計算するように動作可能である第2の分散モジュールと、
    前記第1および前記第2の自己相関値と前記第1および前記第2の分散値とのうちの1つ以上を使用して、前記第1のノイズしきい値を調節して、第2のノイズしきい値を生成させるように構成されているノイズ感度調節器とを備え、
    前記音声エンハンスメント制御装置は、前記第2のノイズしきい値を上回る検出した環境ノイズの第2の量に少なくとも部分的に基づいて、第2の入力オーディオ信号に適用されるオーディオエンハンスメントの量を調節するように構成されているシステム。
  21. 前記ノイズ感度調節器は、前記第1の分散が予め定められた量を上回ることに応答して、前記第1のノイズしきい値よりも低い第2のノイズしきい値を生成させるようにさらに構成されている請求項20記載のシステム。
  22. 前記ノイズ感度調節器は、前記第1の自己相関値のうちの1つ以上に少なくとも部分的に基づいて、前記第2のノイズしきい値を低くするようにさらに構成されている請求項21記載のシステム。
  23. 前記ノイズ感度調節器は、より高い第1の自己相関値に対して前記第2のノイズしきい値におけるより多くの減少を提供するようにさらに構成されている請求項21記載のシステム。
  24. 前記ノイズ感度調節器は、前記第2の自己相関値のうちの1つ以上に少なくとも部分的に基づいて、前記第2のノイズしきい値を低くするようにさらに構成されている請求項23記載のシステム。
  25. 前記ノイズ感度調節器は、より低い第2の自己相関値に対して前記第2のノイズしきい値におけるより多くの減少を提供するようにさらに構成されている請求項21記載のシステム。
  26. 前記ノイズ感度調節器は、前記第2の分散が予め定められた量よりも少ないことに応答して、前記第1のノイズしきい値よりも低い第2のノイズしきい値を生成させるようにさらに構成されている請求項20記載のシステム。
  27. 音声了解度エンハンスメントの感度を調節するためのシステムにおいて、
    前記システムは、
    遠隔デバイスから受信デバイスにより受信した入力音声信号を、前記受信デバイスにより受信するようにと、前記入力音声信号にオーディオエンハンスメントを適用して、前記入力音声信号中のフォルマントのうちの1つ以上を強調するように構成されている音声エンハンスメントモジュールと、
    前記入力音声信号中に存在する環境ノイズの量に少なくとも部分的に基づいて、前記音声エンハンスメントモジュールにより適用される前記オーディオエンハンスメントの量を調節するように構成されているエンハンスメント制御装置と、
    前記受信デバイスのマイクロフォンから取得したマイクロフォン入力信号と、前記音声エンハンスメントモジュールの出力信号として提供されたスピーカー入力信号とのうちの少なくとも1つまたは双方の統計的解析に少なくとも部分的に基づいて、前記環境ノイズに対する前記エンハンスメント制御装置の感度を調節するように構成され、1つ以上のプロセッサを備えているノイズ感度制御装置とを具備するシステム。
  28. 前記ノイズ感度制御装置は、前記マイクロフォン入力信号と前記スピーカー入力信号とのうちの1つまたは双方の自己相関を計算するように構成されている相関器を備える請求項27記載のシステム。
  29. 前記ノイズ感度制御装置は、前記自己相関の分散を推定するように構成されている分散モジュールをさらに備える請求項28記載のシステム。
  30. 前記ノイズ感度制御装置は、前記計算した自己相関に少なくとも部分的に基づいて、前記環境ノイズに対する前記エンハンスメント制御装置の感度を調節するように構成されている感度調節器をさらに備える請求項28記載のシステム。
  31. 前記ノイズ感度制御装置は、推定した分散に少なくとも部分的に基づいて、前記環境ノイズに対する前記エンハンスメント制御装置の感度を調節するように構成されている感度調節器をさらに備える請求項28記載のシステム。
  32. 音声エンハンスメントの感度を調節するための方法において、
    前記方法は、
    入力オーディオ信号を受信することと、
    前記入力オーディオ信号中の相関しているコンテンツを検出することと、
    前記検出することに応答して、前記入力オーディオ信号に適用されるエンハンスメントのレベルを調節することとを含み、
    前記検出することは、1つ以上のプロセッサを使用して、前記入力オーディオ信号の統計的解析を計算することを含む方法。
  33. 前記入力オーディオ信号の統計的解析を計算することは、前記入力オーディオ信号の自己相関を計算することを含む請求項32記載の方法。
  34. 前記検出することは、前記自己相関の分散を計算することをさらに含む請求項33記載の方法。
  35. 前記調節することは、前記入力オーディオ信号に適用されるエンハンスメントのレベルを増加させることを含む請求項32記載の方法。
  36. 前記エンハンスメントは、ダイアログエンハンスメントを含む請求項32記載の方法。
  37. 前記統計的解析は、音響エコー消去を含む請求項32記載の方法。
  38. オーディオ信号処理方法において、
    前記方法は、
    マイクロフォン入力信号を受信することと、
    前記マイクロフォン入力信号中の実質的に周期的なコンテンツを検出することと、
    前記マイクロフォン入力信号中で検出した前記実質的に周期的なコンテンツに少なくとも部分的に基づいて、1つ以上のプロセッサによりオーディオエンハンスメントを調節し、前記オーディオエンハンスメントは、前記マイクロフォン入力信号のレベルに少なくとも部分的に基づいて、オーディオ出力信号を選択的に向上させるように構成されていることと、
    前記オーディオ出力信号をスピーカーに提供することとを含む方法。
  39. 前記実質的に周期的なコンテンツは、前記スピーカーからのエコーを含む請求項38記載の方法。
  40. 前記実質的に周期的なコンテンツは、前記オーディオ信号処理方法を実現するように構成されている通信デバイスのリスナーからの音声を含む請求項38記載の方法。
  41. 前記マイクロフォン入力信号は、近端環境コンテンツを含む請求項38記載の方法。
  42. 前記実質的に周期的なコンテンツを検出することは、1つ以上の統計的な技術を使用して、前記実質的に周期的なコンテンツを検出することを含む請求項38記載の方法。
  43. 前記調節することは、前記マイクロフォン入力信号のレベルに対する前記オーディオエンハンスメントの感度を調節することを含む請求項38記載の方法。
  44. 前記調節することは、前記オーディオエンハンスメントをオフにすることを含む請求項38記載の方法。
  45. 前記オーディオエンハンスメントは、音声了解度エンハンスメントを含む請求項38記載の方法。
  46. 前記オーディオ信号処理方法を通信デバイス中で実現する請求項38記載の方法。
JP2012529722A 2009-09-14 2009-09-14 適応音声了解度処理のためのシステム Active JP5551254B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2009/056850 WO2011031273A1 (en) 2009-09-14 2009-09-14 System for adaptive voice intelligibility processing

Publications (2)

Publication Number Publication Date
JP2013504791A true JP2013504791A (ja) 2013-02-07
JP5551254B2 JP5551254B2 (ja) 2014-07-16

Family

ID=43732720

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012529722A Active JP5551254B2 (ja) 2009-09-14 2009-09-14 適応音声了解度処理のためのシステム

Country Status (7)

Country Link
EP (1) EP2478444B1 (ja)
JP (1) JP5551254B2 (ja)
KR (1) KR101598654B1 (ja)
CN (1) CN102498482B (ja)
HK (1) HK1171273A1 (ja)
PL (1) PL2478444T3 (ja)
WO (1) WO2011031273A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464764A (zh) * 2014-11-12 2015-03-25 小米科技有限责任公司 音频数据播放方法和装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN103888107B (zh) * 2014-03-21 2017-04-19 天地融科技股份有限公司 一种数据解码方法
KR102482162B1 (ko) 2014-10-01 2022-12-29 돌비 인터네셔널 에이비 오디오 인코더 및 디코더
CN106710604A (zh) * 2016-12-07 2017-05-24 天津大学 提高语音可懂度的共振峰增强装置和方法
CN106409287B (zh) * 2016-12-12 2019-12-13 天津大学 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法
CN109413258B (zh) * 2017-08-18 2021-03-26 成都鼎桥通信技术有限公司 一种集群终端的省电方法
KR20210072384A (ko) * 2019-12-09 2021-06-17 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN111863004A (zh) * 2020-07-29 2020-10-30 芯讯通无线科技(上海)有限公司 声音信号的处理方法、系统、电子设备及存储介质
CN112767908B (zh) * 2020-12-29 2024-05-21 安克创新科技股份有限公司 基于关键声音识别的主动降噪方法、电子设备及存储介质
CN112802489A (zh) * 2021-04-09 2021-05-14 广州健抿科技有限公司 一种通话语音自动调节系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0968997A (ja) * 1995-08-30 1997-03-11 Sony Corp 音声処理方法及び装置
US20010033583A1 (en) * 1999-04-13 2001-10-25 Rabenko Theodore F. Voice gateway with downstream voice synchronization
US20020129151A1 (en) * 1999-12-10 2002-09-12 Yuen Thomas C.K. System and method for enhanced streaming audio
JP2008058901A (ja) * 2006-09-04 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 音響信号区間検出方法、装置、プログラム及びその記録媒体
JP2009147702A (ja) * 2007-12-14 2009-07-02 Panasonic Corp 騒音レベル推定装置、受話音量制御装置、携帯電話装置、および騒音レベル推定方法
JP2009175420A (ja) * 2008-01-24 2009-08-06 Toshiba Corp 音補正装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2056110C (en) 1991-03-27 1997-02-04 Arnold I. Klayman Public address intelligibility system
CN100514989C (zh) * 1999-03-30 2009-07-15 高通股份有限公司 通信设备话筒增益调节器
US7423983B1 (en) * 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network
ATE287141T1 (de) * 2000-08-14 2005-01-15 Clear Audio Ltd System zur erhöhung der sprachqualität
CA2399159A1 (en) * 2002-08-16 2004-02-16 Dspfactory Ltd. Convergence improvement for oversampled subband adaptive filters
US8223979B2 (en) * 2005-08-02 2012-07-17 Koninklijke Philips Electronics N.V. Enhancement of speech intelligibility in a mobile communication device by controlling operation of a vibrator based on the background noise

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0968997A (ja) * 1995-08-30 1997-03-11 Sony Corp 音声処理方法及び装置
US20010033583A1 (en) * 1999-04-13 2001-10-25 Rabenko Theodore F. Voice gateway with downstream voice synchronization
US20020129151A1 (en) * 1999-12-10 2002-09-12 Yuen Thomas C.K. System and method for enhanced streaming audio
JP2008058901A (ja) * 2006-09-04 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 音響信号区間検出方法、装置、プログラム及びその記録媒体
JP2009147702A (ja) * 2007-12-14 2009-07-02 Panasonic Corp 騒音レベル推定装置、受話音量制御装置、携帯電話装置、および騒音レベル推定方法
JP2009175420A (ja) * 2008-01-24 2009-08-06 Toshiba Corp 音補正装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464764A (zh) * 2014-11-12 2015-03-25 小米科技有限责任公司 音频数据播放方法和装置
CN104464764B (zh) * 2014-11-12 2017-08-15 小米科技有限责任公司 音频数据播放方法和装置

Also Published As

Publication number Publication date
HK1171273A1 (en) 2013-03-22
EP2478444A1 (en) 2012-07-25
KR20120064105A (ko) 2012-06-18
JP5551254B2 (ja) 2014-07-16
WO2011031273A1 (en) 2011-03-17
PL2478444T3 (pl) 2019-05-31
CN102498482B (zh) 2014-10-15
KR101598654B1 (ko) 2016-02-29
CN102498482A (zh) 2012-06-13
EP2478444A4 (en) 2016-01-06
EP2478444B1 (en) 2018-12-12

Similar Documents

Publication Publication Date Title
US8386247B2 (en) System for processing an audio signal to enhance speech intelligibility
JP5551254B2 (ja) 適応音声了解度処理のためのシステム
US10299040B2 (en) System for increasing perceived loudness of speakers
JP5694324B2 (ja) スピーカーの知覚されるラウドネスを増加させるためのシステム
US9117455B2 (en) Adaptive voice intelligibility processor
US8180064B1 (en) System and method for providing voice equalization
AU771444B2 (en) Noise reduction apparatus and method
KR101068227B1 (ko) 명료도 향상장치와 이를 이용한 음성출력장치
WO2012142270A1 (en) Systems, methods, apparatus, and computer readable media for equalization
US10616676B2 (en) Dynamically adjustable sidetone generation
GB2527126A (en) Noise cancellation with dynamic range compression
EP1687812A1 (en) System and method for audio signal processing
Premananda et al. Speech enhancement algorithm to reduce the effect of background noise in mobile phones
US8639294B2 (en) System and method for performing automatic gain control in mobile phone environments
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
JP5644278B2 (ja) マスカ音生成装置及びプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20121113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131008

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131225

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140422

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140521

R150 Certificate of patent or registration of utility model

Ref document number: 5551254

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250