詳細な説明
本明細書で開示するシステムおよび方法は、様々な電子デバイスに適用され得る。電子デバイスの例としては、ボイスレコーダ、ビデオカメラ、オーディオプレーヤ(例えば、Moving Picture Experts Group−1(MPEG−1)またはMPEG−2 Audio Layer 3(MP3)プレーヤ)、ビデオプレーヤ、オーディオレコーダ、デスクトップコンピュータ/ラップトップコンピュータ、携帯情報端末(PDA)、ゲームシステム等がある。電子デバイスの一種は、別のデバイスと通信し得る通信デバイスである。通信デバイスの例としては、電話、ラップトップコンピュータ、デスクトップコンピュータ、セルラーフォン、スマートフォン、ワイヤレスまたはワイヤードモデム、電子リーダー、タブレットデバイス、ゲームシステム、セルラー電話基地局またはノード、アクセスポイント、ワイヤレスゲートウェイおよびワイヤレスルータがある。
電子デバイスまたは通信デバイス(例えば、ワイヤレス通信デバイス)は、国際電気通信連合(ITU)標準および/または米国電気電子技術者協会(IEEE)標準(例えば、802.11a、802.11b、802.11g、802.11nおよび/または802.11acのようなワイヤレスフィデリティーまたは「Wi−Fi」標準)等、いくつかの業界標準に従って動作し得る。通信デバイスが準拠し得る標準の他の例としては、IEEE802.16(例えば、Worldwide Interoperability for Microwave Accessまたは「WiMAX」)、Third Generation Partnership Project(3GPP)、3GPP Long Term Evolution(LTE)、Global System for Mobile Telecommunications(GSM)(登録商標)、その他がある(通信デバイスは、例えば、ユーザ機器(UE)、ノードB、発展型ノードB(eNB)、モバイルデバイス、移動局、加入者局、遠隔局、アクセス端末、モバイル端末、端末、端末ユーザ端末、加入者ユニット等と呼ばれることがある)。本明細書で開示するシステムおよび方法のいくつかは1つまたは複数の規格の観点で記述されることがあるが、これは、これらシステムおよび方法が多くのシステムおよび/または規格に適用可能なので、本開示の範囲を限定しようとするものではない。
いくつかの通信デバイスは、ワイヤレス通信でき、および/またはワイヤード接続もしくはリンクを使用して通信できることに留意されたい。例えば、いくつかの通信デバイスは、イーサネット(登録商標)プロトコルを使用して他のデバイスと通信できる。本明細書で開示するシステムおよび方法は、ワイヤレス通信し、および/またはワイヤード接続もしくはリンクを使用して通信する通信デバイスに適用され得る。一構成において、本明細書で開示するシステムおよび方法は、衛星を使用して別のデバイスと通信する通信デバイスに適用され得る。
音響信号(例えば、ボイス、音声または他の信号)が機密情報を含む多くの場合がある。例えば、ユーザは、セルラー電話通話で機密の話題について話し合うことを望むことがある。しかしながら、ユーザは、この話し合いが(例えば、人中で)立ち聞きされ、機密の話題の暴露の危険を冒し得る状況にある間、こうした機密の話題について話し合うことの能力において制限され得る。
本明細書で開示するシステムおよび方法は、電子デバイスを使用して音響信号(例えば、ボイス、音声または他の信号)を不明瞭にする、すなわちマスキングする方策を提供する。一構成において、電子デバイスは、ボイス信号または音声信号をキャプチャし、それから1つまたは複数の特徴を抽出する。特徴の例としては、大きさまたは振幅(例えば、振幅特徴)、周波数(例えば、スペクトル特徴)、タイミング(例えば、時間特徴)および/あるいは他の特徴(例えば、空間特徴)がある。例えば、電子デバイスは、ボイス信号のエンベロープ(例えば、振幅やラウドネスエンベロープ)を判断し、および/またはボイス信号が1つまたは複数のしきい値を満たすかどうかを検出し得る。電子デバイスはまた、環境信号(例えば、ボイス信号や音声信号でない背景雑音や他の音)をキャプチャし、それから1つまたは複数の特徴を抽出し得る。電子デバイスは、1つまたは複数の抽出されたボイス特徴および/または環境特徴に基づいて音信号を制御し得る。例えば、電子デバイスは、抽出された特徴に基づいて音楽、ピンクノイズ、あるいは何か他の音源のようなオーディオまたはサウンド信号を修正(modify)してマスキング信号を生成し得る。一実装形態において、電子デバイスは、ボイス信号を直接変調(例えば、振幅変調)してマスキング信号を生成し得る。電子デバイスは、次いで、スピーカー(例えば、スピーカーフォン、ラップトップコンピュータ等における1つまたは複数のスピーカー)を使用してマスキング信号を出力する。このようにして、ボイス信号や音声信号は不明瞭にされ、盗み聞きする人がボイス信号や音声信号の内容を立ち聞きしたり理解したりすることを難しくできる。
本明細書で開示するシステムおよび方法はまた、マスキング信号の低減や消去(例えば、近似削除)を可能にし得る。例えば、ボイス信号がセルラーフォン上のユーザ音声である場合、セルラーフォンは、ボイス信号が(例えば、別のデバイスに)送信される前にボイス信号からマスキング音を低減、あるいは消去できる。本明細書で開示するシステムおよび方法はまた、圧倒的にならずにボイス信号を不明瞭にすることを可能にし得る。例えば、マスキング信号は、近傍にいる電子デバイスユーザまたは他者の気をあまり散らせずにボイス信号を効果的に不明瞭にするためにちょうど必要な大きさであり得る。例えば、プライバシーを高めるために、環境雑音を用いる音マスキングがオフィスにおいて使用され得る。一例では、典型的オープンオフィスにおいて40〜48A加重デシベル(dB(A):A-weighted decibel)のサウンドマスカーが圧倒的にならずにボイス信号を不明瞭にするために使用され得る。しかしながら、本明細書で開示するシステムおよび方法はより小さいリスニングエリアにおいて使用でき、マスカーレベルはボイスエネルギーを用いて経時調整され得る。
明確さのために、本明細書で開示するシステムおよび方法が適用され得る状況の例を以下に与える。ユーザが空港のセキュリティチェックの長い列に立っている間にモバイルフォンで重要な仕事上の電話を受けると仮定する。ユーザの上司はユーザが電話に出ることを期待するが、話し合いの話題が極めて機密であるかもしれず、近くに立っている他者に詳細を聞かれたくないことから、ユーザは躊躇する。ユーザが内証で電話に出るために列を離れると、ユーザは飛行機に乗りそこなうかもしれない。場合によっては、ユーザが電話に出て、実に大きな損害となり得る失策であるが、他者が盗み聞きしないことを期待するかもしれない。
一構成において、本明細書で開示するシステムおよび方法は、空港における列で、執務中におけるキュービクル(cubical)で、または狭苦しいエレベータに搭乗しながらというような、いずれかの環境において音声通話(voice call)を秘密にできる。本明細書で開示するシステムおよび方法は、近傍にいる他者が詳細を聞くことができないように、インテリジェントかつ動的に音声通話をマスキングできる。クローゼットに隠れたり、電話で囁いたりすることに頼らず、ユーザは、本明細書で開示するシステムおよび方法が使用されるときの公共設定でプライバシーを維持しながら、通常の声のトーンで話して明瞭に対話できる。
本明細書で開示するシステムおよび方法は、ユーザのボイスを使用してマスキング信号を生成できるシステムを記述するものである。このマスキング信号は、ユーザのボイスまたは音声のプライバシー(例えば、電話機会話(phone conversation)のプライバシー)を保護するために使用できる。ニアエンドユーザのボイスは、電子デバイス上の1つまたは複数のマイクロフォンによってキャプチャされ得る。さらに、1つまたは複数のマイクロフォンによって環境信号(例えば、背景音または雑音)もキャプチャされ得る。ボイス信号がエンベロープ抽出およびしきい値検出のようなプロセスを用いて分析され、その結果がマスキング信号の特性を制御するために使用され得る。環境信号の1つまたは複数の特徴も抽出され、マスキング信号の特性を制御するために使用され得る。マスキング信号は、次いで、同じ電子デバイス上のラウドスピーカーを通して再生され得る。ニアエンドユーザの周りのローカルエリアでは、他者がマスキング音とともにユーザのボイスを聞き得る。マスキング信号はユーザの音声の詳細を不明瞭にするので、ユーザの周りの他者はユーザのボイスまたは音声の内容を理解し難いこと気付き得る。
本明細書で開示するシステムおよび方法の一構成において、電子デバイスは環境雑音に従っておよび/またはユーザのボイスまたは音声に従ってマスキング信号のボリュームを自動的にリアルタイムで調整して、マスキング音がユーザのボイスを効果的に不明瞭にするのに必要なだけ大きくなるようにできる。別の構成において、本システムはボイス信号に基づいて判断されるスペクトル重心を使用して(1つまたは複数の)音源のピッチを追加または代替として調整できる。さらに、本システムは、別のユーザがユーザの音声をはっきりと聞き取れるように、ボイス信号の受信機のためにマスキング信号や音を自動的に相殺(cancel out)できる。例えば、マスキング信号は、電子デバイス上のエコーキャンセラによってユーザの音声信号からマスキング音を除去(remove)するために使用され得る。追加または代替として、最良の性能および個人的な興味のために、複数のタイプのマスキング音(例えば、「小川のせせらぎ」、「穏やかな波」、「鯨ソング」、ポップソング、ピンクノイズ等)が選択され得る。
ラウドスピーカー(例えば、スピーカーフォンスピーカー)は、1つまたは複数のマイクロフォンと同じデバイス上に含まれ得る。マスキング信号が再生または出力されるとき、デバイスの最も協調的な音響効果は、最大エネルギーが外側に放出され、ニアエンドユーザの耳がマスカーから低減または最小化されたエネルギーを受信するようなものであり得る。本明細書で開示するシステムおよび方法は、システムパフォーマンスおよび/またはユーザエクスペリエンスを改善するために、例えば、複数のラウドスピーカー、指向性ラウドスピーカー、ビームフォーミング技法および/またはデバイス遮音(device insulation)を使用し得る。
開けた空間におけるマスキング信号または音は、ファーエンドリスナー(far-end listener)に関係のないことがあり、従って、適切な了解度を維持するために除去(remove)され得る。マスキング信号は、適応型音響エコーキャンセラの使用によって送信信号から低減または除去され得る。
本明細書で開示するシステムおよび方法は、マスカーまたはマスキング音の選択肢を与え得る。例えば、マスカーは、ボリュームが音声通話を完全にマスキングしていない場合でも、音声通話の内容が他者にとってほとんど理解できないように選定され得る。一方、マスカーはまた、ファーエンドユーザ(far-end user)の了解度が損なわれず、さらに、会話中にニアエンドユーザ(near-end user)が音を許容できるように快適であり得る。
概念の証明のために、モックアップマイクロフォンおよびスピーカーをもつパーソナルコンピュータ(PC)ベースリアルタイムプロトタイプを構築した。この構成では、マイクロフォンとスピーカーとが同じデバイス上にあった。マイクロフォンをスピーカーとは反対側に離れて配置した。マイクロフォンとスピーカーとを、それぞれ適切にバイアスおよび増幅した。それらのラインレベル信号をラップトップコンピュータのサウンドカードの入力および出力に接続した。
ラップトップ上で、リアルタイムオーディオプログラミングソフトウェアMax/MSPを、マイクロフォン信号を使用し、マスカーを設計するように構成した。プロトタイプ設計では、音声自体と、ピンクノイズと、音楽との振幅変調を用いた3つのマスカーを実験した。(例えば、ランプアップ時間(ramp-up time)および/またはランプダウン時間(ramp-down time)を使用する)適切なしきい値設定をもつ、マイクロフォンからのキャプチャされたボイスのエンベロープによって、すべてのマスカーのレベルをスムーズに制御した。このプロトタイプではモデル化しなかったが、本明細書で開示するシステムおよび方法に従ってエコーキャンセラが実装され得る。音レベル分析およびマスカー設計における多くのパラメータは調整可能であり得る。
プロトタイプにおけるすべての3つのマスカーでは、マスカーレベルが適切であると、近くに立っている人は、会話の内容を容易に理解することができなかった。マスカーのうち、音楽は魅力的なエクスペリエンスを与え得る。例えば、音楽は、ニアエンド送話者の会話に干渉しないことがあり、さらに、心地よいバックグラウンドイベントとして機能する。同時に、音楽は、特に、ニアエンド音声をマスキングするサウンドトラック中にボーカルパートがあるとき、プライバシー保護に非常に有効であり得る。
人通りの多い公共エリアで移動している間にプライバシーを維持することは、特に、機密性の高い情報を扱うビジネス専門家、弁護士等にとって非常に重要である。他者が、オンスクリーンデータ(例えば、視覚データ)についてこの問題にアプローチした1つの方法はプライバシースクリーンフィルタを与えることである。一例は、3M Notebook Privacy Filterである。このフィルタは、モニタの真正面の60度の「セーフエリア」外で閲覧されたとき、モニタ上のデータを不明瞭にする。これは、ユーザはスクリーン上のデータをはっきりと見ることができるが、ユーザの横の人々は見ることができないことを意味する。3M Notebook Privacy Filterは、成功した製品であり、有用であり得る。
一構成では、居合わせた人が会話を盗み聞きするのを防ぐためにマスキング信号を生成することは次のように実装され得る。ユーザは、居合わせた人の方向を識別し得る。ニアエンドボイスアクティビティが検出されるたびに、雑音パルスが居合わせた人の方向に放出され、それによって、ニアエンドユーザのボイスをマスキングし得る。ニアエンドユーザのイヤピースは、生成された雑音パルスもキャプチャし得るので、耳道内雑音消去のために何らかの形態のアクティブ雑音制御または消去(ANC:active noise control or cancellation)が使用され、ならびに放出された雑音シールドにもかかわらずファーエンド受信ボイス了解度を維持するために何らかの形態の受信ボイス強調(RVE:receive voice enhancement)が使用され得る。例えば、RVEは、ボイスをある雑音フロアの上に維持するために、ボイスの異なる周波数領域をブーストし得る。ニアエンド雑音低減を実現するために生成される雑音基準は、ニアエンドマイクロフォンを使用して構成され得、および/またはマスキング信号を生成する際に使用される雑音信号は、雑音低減およびRVEブロック/モジュールに直接供給され得る。RVEブロック/モジュールは、一定の信号対雑音比(SNR)または知覚モデルに基づき得、従って、雑音信号についての知識は、最良の了解度のためにイヤピースにおいて再生される強調されたファーエンド信号(far-end signal)を迅速に生じ得る。エコー消去(EC:echo cancellation)ブロック/モジュールはまた、ニアエンド音声強調タスクに寄与するために、再生されたラウドスピーカー信号についての知識を利用し得る。ニアエンドマイクロフォンアレイはまた、ロバストなニアエンドユーザボイスアクティビティ検出器を作成するために使用され得る。さらなる詳細を以下に与える。
本明細書で開示するシステムおよび方法の一構成では、ボイスマイクロフォンが音声をキャプチャする。次いで、音声の性質が分析され得、それから、電子デバイスは、マスカー(例えば、マスキング信号生成器)を操作するために制御信号を導出する。マスカー音源信号は、音声自体、合成信号、および/または、例えば、ハンドセット内のメディアファイルのような他の音源からのオーディオ(例えば、音信号)であり得る。音は、次いで、盗み聞きする人に干渉するためにスピーカーを通して再生され得る。
別の構成において、本明細書で開示するシステムおよび方法は、音声をキャプチャするためだけでなく、周囲に関するさらなる情報を収集するためにもマルチマイクロフォン能力を使用し得る。例えば、フロントエンドにおいて単一のマイクロフォンではなく複数のマイクロフォンが使用され得る。ブラインド音源分離のようなマルチマイクロフォン処理の後に、電子デバイスは、よりクリーンな音声信号を取得するだけでなく、(例えば、残余から)環境信号も取得し得る。
環境信号に対してさらなる分析が行われることができ、従って、環境雑音に関するラウドネス、方向および/または他の特性等に関する知識が獲得され得る。次いで、マスキング信号をさらに調整するために、第2の制御信号がマスカー(例えば、マスキング信号レベル/特性コントローラ)に供給され得る。環境雑音レベルが高い、および/または環境のタイプがすでに良好なマスカーである状況において、マスカー(例えば、アクティブマスキング信号生成器)は、周囲環境がただ無音であるときに比べてあまり激しく動作する必要がないことがある。
例えば、3つの異なる状況でハンドセットを使用する、本明細書で開示するシステムおよび方法に基づいて実装されるハンドセットのユーザを比較する。第1のシナリオにおいて、ユーザは図書館で通話している。その環境は非常に静かであり、ユーザが発言するすべての言葉は容易に立ち聞きおよび/または識別され得る。本明細書で開示するシステムおよび方法は、十分なマスカーレベルを生成し得、従って、会話のプライバシーは安全である。第2のシナリオでは、ユーザがニューヨーク証券取引所において電話で話していると仮定する。周りにいる多数の人々が多くのバブル雑音を発生していることがあり得る。ここで、バブル雑音は、電話機会話を不明瞭にするのにほとんど十分であり得、従って、マスカーは、(環境バブル雑音によって)マスキングされない会話が保護され得るようなはるかに低いレベルで動作し得る。第3のシナリオでは、ユーザがバスまたは列車で話していると仮定する。この設定において、その環境は多くの低周波雑音を生成し得、従って、ユーザ音声の低周波部分はすでにマスキングされている。ここで、アクティブマスカーは、ユーザの会話のより高周波部分を対象とし保護するだけでよいことがある。従って、第1のシナリオの場合のようにマスカーがフルブラストで動作することなしにいくつかのスペクトル調整が行われ得る。
次に、図を参照しながら様々な構成について説明する。同様の要素名は機能的に同様の要素を示し得る。本明細書で一般的に述べられ、図に示すシステムおよび方法は、多種多様な異なる構成で構成および設計され得る。従って、図に表されるいくつかの構成についての以下のより詳細な説明は、請求する範囲を限定するものではなく、システムおよび方法を代表するものにすぎない。
図1は、マスキング信号を生成するためのシステムおよび方法が実装され得る電子デバイス102の一構成を示すブロック図である。電子デバイス102の例としては、オーディオレコーダ、電話、デジタルカメラ、デジタルカムコーダ、セルラーフォン、スマートフォン、ラップトップコンピュータ、デスクトップコンピュータ、ゲームシステム、携帯情報端末、音楽プレーヤ(例えば、MP3プレーヤ)等がある。電子デバイス102は、1つまたは複数のマイクロフォン104a〜n、マルチマイクロフォン処理ブロック/モジュール106、環境分析ブロック/モジュール112、音声特徴抽出ブロック/モジュール122、マスカー136、1つまたは複数の音源128および/あるいは1つまたは複数のスピーカー144を含み得る。本明細書で使用する「ブロック/モジュール」という用語は、特定の要素(例えば、環境分析ブロック/モジュール112)がハードウェア、ソフトウェアまたは両方の組合せで実装され得ることを示し得る。
1つまたは複数のマイクロフォン104a〜nは、音響信号を電気または電子信号に変換するために使用されるトランスデューサ(例えば、音響電気トランスデューサ)であり得る。例えば、1つまたは複数のマイクロフォン140a〜nは、音響ボイス信号(acoustic voice signal)146および/あるいは1つまたは複数の音響環境信号(acoustic ambient signals)148a〜nをキャプチャし、それらをマルチマイクロフォン処理ブロック/モジュール106に与えられる電気的電気または電子信号に変換し得る。例えば、マイクロフォン104a〜nの各々は、音響ボイス信号146、音響環境信号148a〜nまたは両方の混合を表すオーディオ信号(例えば、電気または電子信号)を生成し得る。一構成において、複数のオーディオ信号(multiple audio signals)は、このようにして、複数のマイクロフォン104a〜nを使用して取得され得る。マイクロフォン104a〜nの例としては、ダイナミックマイクロフォン、コンデンサマイクロフォン、圧電マイクロフォン、光ファイバーマイクロフォン、レーザーマイクロフォン等がある。いくつかの構成では、1つまたは複数のマイクロフォン104a〜nのすべてが電子デバイス102の同じ側に配置され得る。他の構成では、マイクロフォン104a〜nのうちの1つまたは複数が互いに電子デバイス102の異なる側(例えば、反対側)に配置され得る。例えば、マイクロフォン104a〜nのうちの1つまたは複数は、音響ボイス信号146をキャプチャするように指定されるか、またはそうすることに専用のものであり得、一方、マイクロフォン104a〜nのうちの1つまたは複数は、音響環境信号148a〜nをキャプチャするように指定されるか、またはそうすることに専用のものであり得る。また、マイクロフォン104a〜nのうちの1つまたは複数が、(1つまたは複数の)スピーカー144のうちの1つまたは複数と、電子デバイス102の同じ側に配置されることも配置されないこともあることに留意されたい。
マルチマイクロフォン処理ブロック/モジュール106は、1つまたは複数のマイクロフォン104a〜nによって与えられるオーディオ信号(例えば、電気または電子信号)を処理するために使用され得る。マルチマイクロフォン処理ブロック/モジュール106は音源分離ブロック/モジュール108を含み得る。音源分離ブロック/モジュール108は、ボイス信号120を生成(例えば、推定)し得る。例えば、音源分離ブロック/モジュール108は、ボイス信号120を推定するために、(1つまたは複数の)キャプチャされたオーディオ信号から推定された環境信号(例えば、環境雑音)110を除去し得る。ボイス信号120は、音声特徴抽出ブロック/モジュール122に与えられ得る。ボイス信号120は、随意に、マスカー136に与えられ得る。いくつかの構成では、ボイス信号120がメモリに記憶され得る。例えば、電子デバイス102は、後の検索および/または出力のためにメモリにボイス信号120を記憶し得るデジタルボイスレコーダであり得る。
音声特徴抽出ブロック/モジュール122は、ボイス信号120から1つまたは複数の特徴を抽出するために使用され得る。ボイス信号120の特徴の例としては、大きさまたは振幅(例えば、ラウドネス、ボリューム等)特徴、スペクトル(例えば、ピッチまたは周波数)特徴、空間(例えば、指向性)特徴および/または時間(例えば、タイミング、遷移、位相)特徴等がある。音声特徴抽出ブロック/モジュール122は、抽出された1つまたは複数の特徴に基づいて第1の制御信号130を生成し得る。一構成において、音声特徴抽出ブロック/モジュール122は、エンベロープ検出ブロック/モジュール124および/またはしきい値検出ブロック/モジュール126を含み得る。エンベロープ検出ブロック/モジュール124は、ボイス信号120に基づいてエンベロープ信号(例えば、振幅やラウドネスエンベロープ)を判断し得る。例えば、このエンベロープ信号は、ボイス信号120の振幅やラウドネス(およびそれらの変形形態)を示し得る。この振幅やラウドネスは、音圧、音圧レベル(例えば、デシベル)、音響インテンシティ、音響パワー、ソーン、フォン、ボルトおよび/またはアンペア等として測定または特徴づけられ得る。
しきい値検出ブロック/モジュール126は、エンベロープ信号が1つまたは複数のしきい値にいつ達するかまたは超えるかを検出し得る。例えば、しきい値検出ブロック/モジュール126は、エンベロープ信号の振幅がいつ所与の量増加または所与の量減少されたかを検出し得る。一例では、振幅の範囲内にいくつかのしきい値が確立され得る。別の例では、エンベロープ信号の参照サンプルまたは平均よりある量または割合だけ高い1つのしきい値が確立され得る一方で、参照サンプルまたは平均よりある量または割合だけ下回る別のしきい値が確立され得る。しきい値検出ブロック/モジュール126は、エンベロープ信号がしきい値にいつ達したかまたは超えたか、および/あるいはどのしきい値に達したかまたは超えたかを示し得る。この情報は、例えば、第1の制御信号130の一部としてマスカーに与えられ得る。
追加または代替として、音声特徴抽出ブロック/モジュール122は、「他の特徴」検出ブロック/モジュール150を含み得る。他の特徴検出ブロック/モジュール150は、ボイス信号120の他の特徴を検出し得る。他の特徴の例としては、スペクトル(例えば、周波数)特性と、空間(例えば、指向性)特性と、時間(例えば、タイミング、位相、遷移等)特性とがある。
音声特徴抽出ブロック/モジュール122によって与えられる第1の制御信号130は、抽出された実際の特徴(例えば、エンベロープ信号、スペクトル特性、空間特性、他の特性等)および/または制御情報を抽出された特徴(例えば、振幅やラウドネスランピングのトリガ等)に基づいて与え得る。第1の制御信号130はマスカー136に与えられ得る。
環境分析ブロック/モジュール112は、マスカー136に与えられる第2の制御信号132を生成するために環境信号110を分析し得る。環境分析ブロック/モジュール112は、振幅(例えば、ラウドネス)検出ブロック/モジュール114、方向検出ブロック/モジュール116および/または他の特徴検出ブロック/モジュール118を含み得る。振幅検出ブロック/モジュール114は、環境信号110の振幅やラウドネスを検出または抽出し得る。例えば、振幅やラウドネスは、環境信号110のエンベロープを検出することによって測定され得る。この振幅やラウドネスは、音圧、音圧レベル(例えば、デシベル)、音響インテンシティ、音響パワー、ソーン、フォン、ボルトおよび/またはアンペア等として測定または特徴づけられ得る。いくつかの構成では、環境信号110の振幅やラウドネスは、スペクトルまたは周波数範囲にわたって測定され得る。このようにして、環境信号110は、例えば、電子デバイス102によって受信された音響環境信号(例えば、音(sound)や雑音(noise))148a〜nのスペクトル大きさに基づいて特徴づけられ得る。
方向検出ブロック/モジュール116は、音響環境信号(例えば、音や雑音)148a〜nの方向(および/または他の空間特性)を判断または推定し得る。例えば、方向検出ブロック/モジュール116は、特定の音響環境信号148a〜nの方向を判断するために、複数のマイクロフォン104a〜nによって受信されたオーディオ信号間の位相シフトを使用し得る。他の特徴検出ブロック/モジュール118は、スペクトル(例えば、周波数)特性および/または時間(例えば、タイミング、位相、遷移)特性のような、環境信号110の他の特徴を検出するために使用され得る。
環境分析ブロック/モジュール112によって与えられる第2の制御信号132は、分析された実際の特徴(例えば、振幅、方向、スペクトル特性等)および/または制御情報を、分析された特徴(例えば、振幅やラウドネスランピングのトリガ等)に基づいて与え得る。第2の制御信号132はマスカー136に与えられ得る。
1つまたは複数の音源128は、マスカー136に1つまたは複数の音信号134を与え得る。音源128の例としては、音楽やサウンドのファイル(例えば、moving picture experts group(MPEG)−1またはMPEG−2 audio layer 3(MP3)ファイル、waveform audio file format(WAV)ファイル、musical instrument digital interface(MIDI)ファイル等)、合成音または雑音および/あるいは(例えば、別のデバイスから音信号134を受信するための)オーディオ入力またはインターフェース等がある。例えば、1つの音源128は、音楽やサウンドのファイルを与える電子デバイス102上のメモリであり得、一方、別の音源128は、別のデバイスから音信号134を受信するために使用されるポートであり得る。1つまたは複数の音源128は随意であり得る。例えば、マスカー136は、マスキング信号142を生成するためにボイス信号120のみを使用し得る。追加または代替として、マスカー136は、マスキング信号142を生成するために1つまたは複数の音源128から与えられる音信号134を使用し得る。いくつかの構成では、使用される音源128および/または音信号134が入力に基づいて選択され得る。例えば、電子デバイス102は、使用のための特定の音源128および/または音信号134を示すユーザ入力をユーザインターフェース(図1に図示せず)を介して受信し得る。例えば、電子デバイス102は、選択された音源128および/または音信号134を示す、キーボード、マウス、タッチスクリーン、マイクロフォン104、ボタン等を使用した入力を受信し得る。
マスカー136は、マスキング信号142を生成するために使用されるブロック/モジュールであり得る。マスキング信号142は、音響ボイス信号146を不明瞭にする、すなわちマスキングするために、1つまたは複数のスピーカー144(例えば、ラウドスピーカー)を使用し音響マスキング信号152として出力され得る。マスカー136は、第1の制御信号130と第2の制御信号132とに基づいてマスキング信号142を生成し得る。上述のように、マスキング信号142はまた、ボイス信号120に加えて、またはその代わりに音信号134に基づき得る。例えば、マスキング信号142は、第1の制御信号130と第2の制御信号132とに基づいて調整および/または修正され、メモリから音信号134として与えられる音楽を備え得る。別の例において、マスキング信号142は、第1の制御信号130と第2の制御信号132とに基づいて調整および/または修正されるボイス信号120を備え得る。
マスカー136は、例えば、レベル制御ブロック/モジュール138および/または特徴制御ブロック/モジュール140を含み得る。レベル制御ブロック/モジュール138は入力信号(例えば、ボイス信号120および/または音信号134)のレベル(例えば、振幅、大きさ、ボリューム、ラウドネス等)を第1の制御信号130および/または第2の制御信号132に基づいて調整し得る。一例において、マスカー136は、第1の制御信号130中で与えられる音声エンベロープに基づいてボイス信号120を振幅変調し得る。
別の例において、レベル制御138は、第1の制御信号130中で与えられる音声エンベロープ(または音声エンベロープに基づくしきい値トリガ)と直接関係にある入力信号の振幅やラウドネスを調整し得る。例えば、音声エンベロープの振幅やラウドネスが増加された場合、レベル制御138は、入力信号の振幅やラウドネスを増加(例えば、ランプアップ)させ得る。しかしながら、音声エンベロープの振幅やラウドネスが減少された場合、レベル制御138は、入力信号の振幅やラウドネスを減少(例えば、ランプダウン)させ得る。例えば、ユーザがより大きな声で、あるいはより穏やかに話すと、電子デバイス102は、音響ボイス信号146を効果的に不明瞭にするために、それぞれ、より大きな、あるいはより穏やかな音響マスキング信号152を生成し得る。これは、圧倒的あるいは不快にならずに音響ボイス信号146を不明瞭にするのに必要なだけ大きい音響マスキング信号152を与え得る。
追加または代替として、レベル制御ブロック/モジュール138は入力信号(例えば、ボイス信号120および/または音信号134)のレベル(例えば、振幅、ラウドネス等)を第2の制御信号132に基づいて調整し得る。例えば、レベル制御138は、第2の制御信号132中で与えられる環境振幅やラウドネス(あるいは振幅やラウドネスに基づくしきい値トリガ)と逆関係にある入力信号の振幅やラウドネスを調整し得る。例えば、環境信号110の振幅やラウドネスが増加された場合、レベル制御138は入力信号の振幅やラウドネスを減少(例えば、ランプダウン)させ得る。しかしながら、環境信号110の振幅やラウドネスが減少された場合、レベル制御138は入力信号の振幅やラウドネスを増加(例えば、ランプアップ)させ得る。例えば、音響環境信号(例えば、音や雑音)148a〜nがより大きく、あるいはより穏やかになると、電子デバイス102は、それぞれ、より穏やかな、あるいはより大きな音響マスキング信号152を生成し得る。例えば、環境信号(例えば、音または雑音)148a〜nが、音響ボイス信号146を効果的にマスキングするのに必要な大きさおよび/または正しい特性のものである場合、電子デバイス102は、大きい音響マスキング信号152を生成する必要がないことがある。従って、マスカー136は、より効率的に動作し、場合によっては、電力を節約し得る。
マスカー136は、追加または代替として、特徴制御140を含み得る。特徴制御140は、第1の制御信号130および/または第2の制御信号132に基づいて入力信号(例えば、ボイス信号120および/または音信号134)の1つまたは複数の特徴を制御し得る。例えば、ボイス信号120および/または環境信号110のスペクトル特性に基づいて入力信号(例えば、ボイス信号120および/または音信号134)のスペクトル特性を調整し得る。例えば、音響ボイス信号146の低周波部分を効果的に不明瞭にするのに十分な低周波雑音が音響環境信号(例えば、音)148a〜n中にあるが、高周波部分を効果的に不明瞭にするのに十分な高周波雑音が音響環境信号148a〜n中にないことを第2の制御信号132が示す場合、特徴制御140は音響ボイス信号146の高周波部分を効果的にマスキングする音響マスキング信号152を生成するために(単独でまたはレベル制御138を使用して)音信号134の高周波部分中で振幅やラウドネスを増加させ得る。
別の例において、特徴制御140は、第1の制御信号130および/または第2の制御信号132に基づいて音響マスキング信号152の空間特性(例えば、指向性)を調整し得る。例えば、第1の制御信号130は受信した音響ボイス信号146の方向を示し得る一方で、第2の制御信号132は音響環境信号(例えば、音)148a〜nの1つまたは複数の方向を示し得る。特徴制御140は音響マスキング信号152の指向性を調整するためにこの情報を使用し、ユーザ(例えば、音響ボイス信号146の音源)から離れるように音響マスキング信号152をステアリングし得る。追加または代替として、特徴制御140は、音響ボイス信号146をマスキングするのに十分である強い環境信号(例えば、音)148a〜nから離れるように、および/または静かな環境信号148a〜nに潜在的に向かって、および/または音響環境信号148a〜nのない方向に音響マスキング信号152をステアリングし得る。これは、例えば、音響ボイス信号146がより容易に立ち聞きされるかもしれない方向において音響ボイス信号146を不明瞭にするのに役立ち得る。
1つまたは複数のスピーカー144が、電気または電子信号(例えば、マスキング信号142)を音響信号(例えば、音響マスキング信号152)に変換するトランスデューサ(例えば、電気音響トランスデューサ)であり得ることに留意されたい。一構成において、1つまたは複数のスピーカー144は全方向性であり得る。他の構成において、1つまたは複数のスピーカー144は指向性であり得る。例えば、スピーカー144のアレイは、いくつかの構成において、音響マスキング信号152を特定の方向に向けるために使用され得る。いくつかの構成において、1つまたは複数のスピーカー144は1つまたは複数のマイクロフォン104a〜nに関して電子デバイス102の異なる側(例えば、反対側)に配置され得る。他の構成において、スピーカー144のうちの1つまたは複数は、1つまたは複数のマイクロフォン104a〜nと同じ、電子デバイス102の側に配置され得る。
図2は、電子デバイス102上でマスキング信号142を生成するための方法200の一構成を示す流れ図である。電子デバイス102は202で複数のマイクロフォン104a〜nから複数のオーディオ信号を取得する。例えば、複数のマイクロフォン104a〜nは、音響ボイス信号146および/あるいは1つまたは複数の音響環境信号148a〜nを電気または電子オーディオ信号に変換し得る。
電子デバイス102は、204で複数のオーディオ信号から環境信号110を取得する。例えば、電子デバイス102はオーディオ信号中の環境音および/または雑音を推定し得る。一構成において、電子デバイス102はボイスアクティビティ検出器をオーディオ信号中の環境音および/または雑音を推定するために使用し得る。この構成において、例えば、より動的なおよび散発性なオーディオアクティビティはボイスとして分類され得、一方、より定常の音は環境音として分類され得る。別の構成において、ブラインド音源分離(BSS:blind source separation)信号処理機構は、複数のマイクロフォンによってキャプチャされた信号からボイス信号を除去し、これにより環境音のより良い推定を与え得る。
電子デバイス102は、206で環境特徴を環境信号110に基づいて判断する。特徴の例としては、振幅(例えば、大きさ、ラウドネス等)特性、空間特性(例えば、方向)、スペクトル特性(例えば、ピッチ、周波数)および/または時間特性等がある。例えば、電子デバイス102は、206で環境信号110の振幅(例えば、ラウドネスエンベロープ)を判断し得る。追加または代替として、電子デバイス102は、206でオーディオ信号中の観測された位相シフトを使用して音響環境信号148a〜nの空間特性(例えば、指向性)を判断し得る。追加または代替として、電子デバイス102は、206でスペクトル特性(例えば、周波数範囲にわたる環境信号110の振幅または大きさ)を判断し得る。いくつかの構成において、電子デバイス102は第2の制御信号132を環境特徴に基づいて生成し得る。
電子デバイス102は208でボイス信号120を複数のオーディオ信号から取得する。例えば、電子デバイス102はボイス信号120をオーディオ信号から分離し得る。一構成において、電子デバイス102は、ボイス信号120を推定するために、雑音推定値(例えば、環境信号110)をオーディオ信号から減算または除去し得る。1つの典型的なロバストな逆混合例はブラインド音源分離(BSS)である。例えば、信号の音源がマイクロフォン104a〜nの数以下であるとき、BSS信号処理を通して音源(例えば、ボイス)のうちの1つが抽出され得る。
電子デバイス102は、210でボイス特徴をボイス信号120に基づいて判断する。特徴の例としては、振幅(例えば、大きさ、ラウドネス等)特性、時間特性、空間特性(例えば、方向)および/またはスペクトル特性等がある。例えば、電子デバイス102は、210でボイス信号120の振幅(例えば、ラウドネスエンベロープ)を判断し得る。追加または代替として、電子デバイス102は、210でオーディオ信号中の観測された位相シフトを使用して、音響ボイス信号142の指向性を判断し得る。追加または代替として、電子デバイス102は、210でスペクトル特性(例えば、周波数範囲にわたるボイス信号120の振幅や大きさ)を判断し得る。いくつかの構成において、電子デバイス102は第1の制御信号130をボイス特徴に基づいて生成し得る。
電子デバイス102は、212でボイス特徴と環境特徴とに基づいて(例えば、第1の制御信号130と第2の制御信号132とに基づいて)マスキング信号142を生成する。例えば、電子デバイス102は、ボイス特徴と環境特徴とに基づいて信号(例えば、音信号134)の振幅、大きさ、ラウドネスまたはボリュームを調整してマスキング信号142を212で生成し得る。一構成において、電子デバイス102は、ボイスエンベロープ(例えば、振幅やラウドネスエンベロープ)と直接関係にある信号(例えば、音信号134)の振幅やラウドネスを調整し、環境振幅やラウドネス(例えば、振幅やラウドネスエンベロープ)と逆関係にある信号の振幅やラウドネスを調整する。他の構成において、電子デバイス102は信号(例えば、ボイス信号120および/または音信号134)をボイス特徴および/または環境特徴に基づいて振幅変調し得る。
別の構成において、電子デバイス102は信号(例えば、変調されたボイス信号120および/または音信号134)のスペクトル特性をボイス特徴および/または環境特徴に基づいて調整し得る。例えば、音響ボイス信号146の低周波部分を効果的に不明瞭にするのに十分な低周波雑音が音響環境信号(例えば、音)148a〜n中にあるが、高周波部分を効果的に不明瞭にするのに十分な高周波雑音が音響環境信号148a〜n中にないことを、環境特徴が示す場合、電子デバイス102は、音響ボイス信号146の高周波部分を効果的にマスキングする音響マスキング信号152を生成するために、音信号134の高周波部分中で振幅やラウドネスを増加させ得る。
さらに別の例において、電子デバイス102は、マスキング信号142を212で生成するために信号(例えば、変調されたボイス信号120および/または音信号134)の空間特性(例えば、指向性)を調整し得る。例えば、ボイス特徴は受信した音響ボイス信号146の方向を示し得る一方で、環境特徴は音響環境信号(例えば、音)148a〜nの1つまたは複数の方向を示し得る。この情報は、音響マスキング信号152の指向性を調整するために使用されて、ユーザ(例えば、音響ボイス信号146の音源)から離れて音響マスキング信号152をステアリングし得る。追加または代替として、音響マスキング信号152は、音響ボイス信号146をマスキングするのに十分である強い環境信号(例えば、音)148a〜nから離れて、および/または静かな環境信号148a〜nに潜在的に向かって、および/または音響環境信号148a〜nのない方向にステアリングされ得る。これは、例えば、音響ボイス信号146がより容易に立ち聞きされるかもしれない方向において音響ボイス信号146を不明瞭にするのに役立ち得る。
電子デバイス102は、214でマスキング信号142を出力する。例えば、電子デバイス102は、マスキング信号142を音響マスキング信号152に変換し得る1つまたは複数のスピーカー144にマスキング信号142を与え得る。
図2に示した方法200が電子デバイス102によってリアルタイムに行われ得ることに留意されたい。例えば、オーディオ信号は202で取得され、環境信号110は204で取得され、環境特徴は206で判断され、ボイス信号120は208で取得され、ボイス特徴は210で判断され、および/またはマスキング信号142は212で生成され、リアルタイムに214で出力され得る。方法200は、対応する音響マスキング信号152を用いて音響ボイス信号146を効果的にマスキングするためにリアルタイムで行われ得る。
図3は、マスキング信号を生成するためのシステムおよび方法が実装され得る送信ワイヤレス通信デバイス302の一構成を示すブロック図である。送信ワイヤレス通信デバイス302の例としては、セルラーフォン、スマートフォン、ラップトップコンピュータ、タブレットデバイス、ゲームシステム、携帯情報端末、音楽プレーヤ(例えば、MP3プレーヤ)等がある。送信ワイヤレス通信デバイス302は、1つまたは複数のマイクロフォン304a〜n、マルチマイクロフォン処理ブロック/モジュール306、環境分析ブロック/モジュール312、音声特徴抽出ブロック/モジュール322、マスカー336、1つまたは複数の音源328、1つまたは複数のスピーカー344、エンコーダ354、変調器356、送信機358および/あるいは1つまたは複数のアンテナ360a〜nを含み得る。
1つまたは複数のマイクロフォン304a〜nは、音響信号を電気または電子信号に変換するために使用されるトランスデューサ(例えば、音響電気トランスデューサ)であり得る。例えば、1つまたは複数のマイクロフォン304a〜nは、音響ボイス信号および/あるいは1つまたは複数の音響環境信号をキャプチャし、それらをマルチマイクロフォン処理ブロック/モジュール306に与えられる電気または電子信号に変換し得る。例えば、マイクロフォン304a〜nの各々は、音響ボイス信号、音響環境信号または両方の混合を表すオーディオ信号(例えば、電気または電子信号)を生成し得る。一構成において、複数のオーディオ信号は、このように複数のマイクロフォン304a〜nを使用して取得され得る。マイクロフォン304a〜nの例としては、ダイナミックマイクロフォン、コンデンサマイクロフォン、圧電マイクロフォン、光ファイバーマイクロフォン、レーザーマイクロフォン等がある。
マルチマイクロフォン処理ブロック/モジュール306は、1つまたは複数のマイクロフォン304a〜nによって与えられるオーディオ信号(例えば、電気または電子信号)を処理するために使用され得る。マルチマイクロフォン処理ブロック/モジュール306は音源分離ブロック/モジュール308を含み得る。音源分離ブロック/モジュール308は、ボイス信号320を生成(例えば、推定)し得る。例えば、音源分離ブロック/モジュール308は、ボイス信号320を推定するために、(1つまたは複数の)キャプチャされたオーディオ信号から推定された環境信号(例えば、環境雑音)310を除去し得る。ボイス信号320は、音声特徴抽出ブロック/モジュール322に与えられ得る。ボイス信号320は、随意に、マスカー336におよび/またはエンコーダ354に与えられ得る。
音声特徴抽出ブロック/モジュール322は、ボイス信号320から1つまたは複数の特徴を抽出するために使用され得る。ボイス信号320の特徴の例としては、大きさまたは振幅(例えば、ラウドネス、ボリューム等)特徴、スペクトル(例えば、ピッチまたは周波数)特徴、空間(例えば、指向性)特徴および/または時間(例えば、位相、タイミング等)特徴等がある。音声特徴抽出ブロック/モジュール322は、抽出された1つまたは複数の特徴に基づいて第1の制御信号330を生成し得る。一構成において、音声特徴抽出ブロック/モジュール322は、エンベロープ検出ブロック/モジュール324および/またはしきい値検出ブロック/モジュール326を含み得る。エンベロープ検出ブロック/モジュール324は、ボイス信号320に基づいてエンベロープ信号(例えば、振幅やラウドネスエンベロープ)を判断し得る。例えば、このエンベロープ信号は、ボイス信号320の振幅やラウドネス(およびそれらの変形形態)を示し得る。この振幅やラウドネスは、音圧、音圧レベル(例えば、デシベル)、音響インテンシティ、音響パワー、ソーン、フォン、ボルトおよび/またはアンペア等として測定または特徴づけられ得る。
しきい値検出ブロック/モジュール326は、エンベロープ信号が1つまたは複数のしきい値にいつ達するかまたは超えるかを検出し得る。例えば、しきい値検出ブロック/モジュール326は、エンベロープ信号がいつ所与の量増加または所与の量減少されたかを検出し得る。一例では、振幅の範囲内にいくつかのしきい値が確立され得る。別の例では、エンベロープ信号の参照サンプルまたは平均よりある量または割合だけ高い1つのしきい値が確立され得る一方で、参照サンプルまたは平均よりある量または割合だけ下回る別のしきい値が確立され得る。しきい値検出ブロック/モジュール326は、エンベロープ信号がしきい値にいつ達したかまたは超えたか、および/あるいはどのしきい値に達したかまたは超えたかを示し得る。
追加または代替として、音声特徴抽出ブロック/モジュール322は、「他の特徴」検出ブロック/モジュール350を含み得る。他の特徴検出ブロック/モジュール350は、ボイス信号320の他の特徴を検出し得る。他の特徴の例としては、スペクトル(例えば、周波数)特性と、空間(例えば、指向性)特性と、時間(例えば、タイミング、位相、遷移等)特性とがある。
音声特徴抽出ブロック/モジュール322によって与えられる第1の制御信号330は、抽出された実際の特徴(例えば、エンベロープ信号特性、スペクトル特性等)および/または制御情報を、抽出された特徴(例えば、振幅やラウドネスランピングのトリガ等)に基づいて与え得る。第1の制御信号330はマスカー336に与えられ得る。
環境分析ブロック/モジュール312は、マスカー336に与えられる第2の制御信号332を生成するために環境信号310を分析し得る。環境分析ブロック/モジュール312は、振幅(例えば、ラウドネス)検出ブロック/モジュール314、方向検出ブロック/モジュール316および/または他の特徴検出ブロック/モジュール318を含み得る。振幅検出ブロック/モジュール314は、環境信号310の振幅やラウドネスを検出または抽出し得る。例えば、振幅やラウドネスは、環境信号310のエンベロープを検出することによって測定され得る。この振幅やラウドネスは、音圧、音圧レベル(例えば、デシベル)、音響インテンシティ、音響パワー、ソーン、フォン、ボルトおよび/またはアンペア等として測定または特徴づけられ得る。いくつかの構成において、環境信号310の振幅やラウドネスは、スペクトルまたは周波数範囲にわたって測定され得る。このようにして、環境信号310は、例えば、送信ワイヤレス通信デバイス302によって受信された音響環境信号(例えば、音または雑音)のスペクトル大きさに基づいて特徴づけられ得る。
方向検出ブロック/モジュール316は、音響環境信号(例えば、音または雑音)の方向を判断または推定し得る。例えば、方向検出ブロック/モジュール316は、特定の音響環境信号の方向を判断するために、複数のマイクロフォン304a〜nによって受信されたオーディオ信号間の位相シフトを使用し得る。他の特徴検出ブロック/モジュール318は、スペクトル(例えば、周波数)特性および/または時間(例えば、タイミング、位相、遷移)特性のような、環境信号310の他の特徴を検出するために使用され得る。
環境分析ブロック/モジュール312によって与えられる第2の制御信号332は、分析された実際の特徴(例えば、振幅、方向、スペクトル特性等)および/または制御情報を、分析された特徴(例えば、振幅やラウドネスランピングのトリガ等)に基づいて与え得る。第2の制御信号332はマスカー336に与えられ得る。
1つまたは複数の音源328は、マスカー336に1つまたは複数の音信号334を与え得る。音源328の例としては、音楽またはサウンドファイル(例えば、moving picture experts group(MPEG)−1またはMPEG−2 audio layer 3(MP3)ファイル、waveform audio file format(WAV)ファイル、musical instrument digital interface(MIDI)ファイル等)、合成音または雑音および/あるいは(例えば、別のデバイスから音信号334を受信するための)オーディオ入力またはインターフェース等がある。例えば、1つの音源328は音楽やサウンドのファイルを与える送信ワイヤレス通信デバイス302上のメモリであり得る一方で、別の音源328は別のデバイスから音信号334を受信するために使用されるポートであり得る。1つまたは複数の音源328は随意であり得る。例えば、マスカー336は、ボイス信号320のみを使用してマスキング信号342を生成し得る。追加または代替として、マスカー336はマスキング信号342を生成するために1つまたは複数の音源328から与えられる音信号334を使用し得る。いくつかの構成では、使用される音源328および/または音信号334が入力に基づいて選択され得る。例えば、送信ワイヤレス通信デバイス302は、使用するための特定の音源328および/または音信号334を示す、ユーザインターフェース(図3に図示せず)を介したユーザ入力を受信し得る。例えば、送信ワイヤレス通信デバイス302は、キーボード、マウス、タッチスクリーン、マイクロフォン304、ボタン等を使用した、選択された音源328および/または音信号334を示す入力を受信し得る。
マスカー336は、マスキング信号342を生成するために使用されるブロック/モジュールであり得る。マスキング信号342は、音響ボイス信号を不明瞭にするかまたはマスキングするために、1つまたは複数のスピーカー344(例えば、ラウドスピーカー)を使用して音響マスキング信号として出力され得る。マスカー336は、第1の制御信号330と第2の制御信号332とに基づいてマスキング信号342を生成し得る。上述のように、マスキング信号342はまた、ボイス信号320に加えて、あるいはそれの代わりに音信号334に基づき得る。例えば、マスキング信号342は、第1の制御信号330と第2の制御信号332とに基づいて調整および/または修正され、メモリから音信号334として与えられる音楽を備え得る。別の例において、マスキング信号342は、第1の制御信号330と第2の制御信号332とに基づいて調整(例えば、振幅変調)されたボイス信号320を備え得る。
マスカー336は、例えば、レベル制御ブロック/モジュール338および/または特徴制御ブロック/モジュール340を含み得る。レベル制御ブロック/モジュール338は、入力信号(例えば、ボイス信号320および/または音信号334)のレベル(例えば、振幅、大きさ、ボリューム、ラウドネス等)を、第1の制御信号330および/または第2の制御信号332に基づいて調整し得る。
例えば、レベル制御338は、第1の制御信号330中で与えられる音声エンベロープ(または音声エンベロープに基づくしきい値トリガ)と直接関係にある入力信号の振幅やラウドネスを調整し得る。例えば、音声エンベロープの振幅やラウドネスが増加された場合、レベル制御338は入力信号の振幅やラウドネスを増加(例えば、ランプアップ)し得る。しかしながら、音声エンベロープの振幅やラウドネスが減少された場合、レベル制御338は入力信号の振幅やラウドネスを減少(例えば、ランプダウン)させ得る。例えば、ユーザがより大きな声で、あるいはより穏やかに話すと、送信ワイヤレス通信デバイス302は、音響ボイス信号を効果的に不明瞭にするために、それぞれ、より大きな、あるいはより穏やかな音響マスキング信号を生成し得る。これは、圧倒的あるいは不快にならずに音響ボイス信号を不明瞭にするのに必要なだけ大きい音響マスキング信号を与え得る。
追加または代替として、レベル制御ブロック/モジュール338は、入力信号(例えば、ボイス信号320および/または音信号334)のレベル(例えば、振幅、ラウドネス等)を第2の制御信号332に基づいて調整し得る。例えば、レベル制御338は、第2の制御信号332中で与えられる環境振幅やラウドネス(あるいは振幅やラウドネスに基づくしきい値トリガ)と逆関係にある入力信号の振幅やラウドネスを調整し得る。例えば、環境信号310の振幅やラウドネスが増加された場合、レベル制御338は入力信号の振幅やラウドネスを減少(例えば、ランプダウン)させ得る。しかしながら、環境信号310の振幅やラウドネスが減少された場合、レベル制御338は入力信号の振幅やラウドネスを増加(例えば、ランプアップ)させ得る。例えば、音響環境信号(例えば、音や雑音)がより大きく、あるいはより穏やかになると、送信ワイヤレス通信デバイス302は、それぞれ、より穏やかな、あるいはより大きな音響マスキング信号を生成し得る。例えば、環境信号(例えば、音や雑音)が、音響ボイス信号を効果的にマスキングするのに必要なだけ大きいおよび/または正しい特性のものである場合、送信ワイヤレス通信デバイス302は大きな音響マスキング信号を生成する必要がないことがある。従って、マスカー336は、より効率的に動作し、場合によっては、バッテリー電力を節約し得る。
マスカー336は、追加または代替として、特徴制御340を含み得る。特徴制御340は入力信号(例えば、ボイス信号320および/または音信号334)の1つまたは複数の特徴を第1の制御信号330および/または第2の制御信号332に基づいて制御し得る。例えば、特徴制御340は入力信号(例えば、ボイス信号320および/または音信号334)のスペクトル特性をボイス信号320および/または環境信号310のスペクトル特性に基づいて調整し得る。例えば、音響ボイス信号の低周波部分を効果的に不明瞭にするのに十分な低周波雑音が音響環境信号(例えば、音)中にあるが、高周波部分を効果的に不明瞭にするのに十分な高周波雑音が音響環境信号中にないことを、第2の制御信号332が示す場合、特徴制御340は、音響ボイス信号の高周波部分を効果的にマスキングする音響マスキング信号を生成するために、(単独でまたはレベル制御338を使用して)音信号334の高周波部分中で振幅やラウドネスを増加させ得る。
別の例において、特徴制御340は音響マスキング信号の指向性を第1の制御信号330および/または第2の制御信号332に基づいて調整し得る。例えば、第1の制御信号330は受信した音響ボイス信号の方向を示し得る一方で、第2の制御信号332は音響環境信号(例えば、音)の1つまたは複数の方向を示し得る。特徴制御340は、音響マスキング信号の指向性を調整するためにこの情報を使用し、ユーザ(例えば、音響ボイス信号の音源)から離れるように音響マスキング信号をステアリングし得る。追加または代替として、特徴制御340は、音響ボイス信号をマスキングするのに十分である強い環境信号(例えば、音)から離れるように、および/または静かな環境信号に潜在的に向かって、および/または音響環境信号のない方向に音響マスキング信号をステアリングし得る。これは、例えば、音響ボイス信号がより容易に立ち聞きされるかもしれない方向において音響ボイス信号を不明瞭にするのに役立ち得る。
1つまたは複数のスピーカー344が、電気または電子信号(例えば、マスキング信号342)を音響信号(例えば、音響マスキング信号)に変換するトランスデューサ(例えば、電気音響トランスデューサ)であり得ることに留意されたい。一構成において、1つまたは複数のスピーカー344は全方向性であり得る。他の構成において、1つまたは複数のスピーカー344は指向性であり得る。例えば、スピーカー344のアレイは、いくつかの構成において、音響マスキング信号を特定の方向に向けるために使用され得る。
ボイス信号320は、エンコーダ354に与えられ得る。エンコーダ354は、符号化されたボイス信号を生成するためにボイス信号320を符号化し得る。いくつかの構成において、エンコーダ354はまた、符号化されたボイス信号に誤り検出および/または誤り訂正コーディングを追加し得る。符号化されたボイス信号は変調器356に与えられ得る。変調器356は、符号化されたボイス信号を、使用される変調のタイプに基づいて特定のコンスタレーションに変調する。変調のいくつかの例としては、直交振幅変調(QAM:quadrature amplitude modulation)、位相シフトキーイング(PSK:phase shift keying)変調等がある。符号化および変調されたボイス信号は送信機358に与えられ得る。送信機358は、さらに、送信に備えて増幅を行う等、符号化および変調されたボイス信号に対してさらなる動作を行い得る。送信機358は、1つまたは複数のアンテナ360a〜nを使用して、1つまたは複数の電磁信号として符号化および変調されたボイス信号を送信し得る。
送信ワイヤレス通信デバイス302がボイス信号320に対して追加または代替の動作を行い得ることに留意されたい。例えば、送信ワイヤレス通信デバイス302は、ボイス信号320データを1つまたは複数の周波数(例えば、直交周波数分割多重化(OFDM:orthogonal frequency division multiplexing)サブキャリア)、タイムスロット、空間チャネル等にマッピングし得る。
1つまたは複数の送信ワイヤレス通信デバイス302のアンテナ360a〜nから送信された1つまたは複数の電磁信号は、受信ワイヤレス通信デバイス364によって受信され得る。受信ワイヤレス通信デバイス364の例としては、セルラーフォン、スマートフォン、ラップトップコンピュータ、タブレットデバイス、ゲームシステム、携帯情報端末、音楽プレーヤ(例えば、MP3プレーヤ)等がある。一構成において、受信ワイヤレス通信デバイス364は、1つまたは複数のスピーカー374、デコーダ370、復調器368、受信機366および/あるいは1つまたは複数のアンテナ362a〜nを含み得る。受信機366は1つまたは複数のアンテナ362a〜nを使用して1つまたは複数の送信された電磁信号を受信し得る。受信信号は復調器368に与えられ得る。復調器368は、ために受信信号を復調し、デコーダ370に与えられる符号化された信号を生成する。デコーダ370は、符号化された信号を復号して、復号されたボイス信号372を生成する。復号されたボイス信号372は、音響信号として復号されたボイス信号372を出力できる1つまたは複数のスピーカー374に与えられ得る。
いくつかの構成において、送信ワイヤレス通信デバイス302から受信ワイヤレス通信デバイス364に送信された電磁信号は、1つまたは複数のデバイスによって中継され得る。例えば、送信通信デバイス302が基地局に電磁信号を送信し、基地局がこの信号を受信してそれらを1つまたは複数のネットワークデバイスに与え得る。この信号は別の基地局にルーティングされ、そこで信号は受信ワイヤレス通信デバイス364に中継または再送信され得る。
図4は、送信ワイヤレス通信デバイス302上でマスキング信号342を生成するための方法400の構成を示す流れ図である。送信ワイヤレス通信デバイス302は402で複数のマイクロフォン304a〜nから複数のオーディオ信号を取得する。例えば、複数のマイクロフォン304a〜nは音響ボイス信号および/あるいは1つまたは複数の音響環境信号を電気または電子オーディオ信号に変換し得る。
送信ワイヤレス通信デバイス302は404で複数のオーディオ信号から環境信号310を取得する。例えば、送信ワイヤレス通信デバイス302はオーディオ信号中の環境音および/または雑音を推定し得る。一構成において、送信ワイヤレス通信デバイス302は、オーディオ信号中の環境音および/または雑音を推定するためにボイスアクティビティ検出器を使用し得る。この構成において、例えば、より動的なおよび散発性なオーディオアクティビティはボイスとして分類され得る一方で、より定常の音は環境音として分類され得る。別の構成において、ブラインド音源分離(BSS)信号処理機構は複数のマイクロフォンによってキャプチャされた信号からボイス信号を除去し、これにより環境音のより良い推定を与え得る。
送信ワイヤレス通信デバイス302は、406で環境信号310に基づいて環境特徴を判断する。特徴の例としては、振幅(例えば、大きさ、ラウドネス等)特性、空間特性(例えば、方向)、スペクトル特性等がある。例えば、送信ワイヤレス通信デバイス302は、406で環境信号310の振幅(例えば、ラウドネスエンベロープ)を判断し得る。追加または代替として、送信ワイヤレス通信デバイス302は、406でオーディオ信号中の観測された位相シフトを使用して音響環境信号の空間特性(例えば、指向性)を判断し得る。追加または代替として、送信ワイヤレス通信デバイス302は、406でスペクトル特性(例えば、周波数範囲にわたる環境信号310の振幅または大きさ)を判断し得る。いくつかの構成において、送信ワイヤレス通信デバイス302は環境特徴に基づいて第2の制御信号332を生成し得る。
送信ワイヤレス通信デバイス302は、408で複数のオーディオ信号からボイス信号320を取得する。例えば、送信ワイヤレス通信デバイス302はオーディオ信号からボイス信号320を分離し得る。一構成において、送信ワイヤレス通信デバイス302はオーディオ信号から雑音推定値(例えば、環境信号310)を減算または除去し得る。1つの典型的なロバストな逆混合例はブラインド音源分離(BSS)であり得る。例えば、信号の音源がマイクロフォン304a〜nの数以下であるとき、BSS信号処理を通して音源(例えば、ボイス)のうちの1つが抽出され得る。
送信ワイヤレス通信デバイス302は、410でボイス信号320に基づいてボイス特徴を判断する。特徴の例としては、振幅(例えば、大きさ、ラウドネス等)特性、時間特性、空間特性(例えば、方向)、スペクトル特性等がある。例えば、送信ワイヤレス通信デバイス302は、410でボイス信号320の振幅(例えば、ラウドネスエンベロープ)を判断し得る。追加または代替として、送信ワイヤレス通信デバイス302は、410でオーディオ信号中の観測された位相シフトを使用して音響ボイス信号342の指向性を判断し得る。追加または代替として、送信ワイヤレス通信デバイス302は410でスペクトル特性(例えば、周波数範囲にわたるボイス信号320の振幅や大きさ)を判断し得る。いくつかの構成では、送信ワイヤレス通信デバイス302がボイス特徴に基づいて第1の制御信号330を生成し得る。
送信ワイヤレス通信デバイス302は412で音信号334を取得する。例えば、送信ワイヤレス通信デバイス302は412で音楽またはサウンドファイル(例えば、MP3ファイル、WAVファイル、MIDIファイル等)、合成音または雑音および/あるいは(例えば、別のデバイスからの)オーディオ入力等を取得し得る。一構成において、送信ワイヤレス通信デバイス302はメモリから音信号334を取り出す。追加または代替として、送信ワイヤレス通信デバイス302はアルゴリズムおよび/または記憶されたデータを使用して音または雑音を合成し得る。追加または代替として、送信ワイヤレス通信デバイス302は、セキュアデジタル(SD)カード、ユニバーサルシリアルバス(USB)サムドライブ等のリムーバブルメモリデバイスから音信号334を取り出すか、または別のデバイスから音信号334(例えば、ストリーム)を受信する。
送信ワイヤレス通信デバイス302は、414でボイス特徴(例えば、第1の制御信号330)と、環境特徴(例えば、第2の制御信号332)と、音信号334とに基づいてマスキング信号342を生成する。例えば、送信ワイヤレス通信デバイス302は、414でマスキング信号342を生成するために、ボイス特徴と環境特徴とに基づいて音信号334の振幅、大きさ、ラウドネスまたはボリュームを調整し得る。一構成において、送信ワイヤレス通信デバイス302はボイスエンベロープ(例えば、振幅やラウドネスエンベロープ)と直接関係にある音信号334の振幅やラウドネスを調整し、環境振幅やラウドネス(例えば、振幅やラウドネスエンベロープ)と逆関係にある信号の振幅やラウドネスを調整する。
別の例において、送信ワイヤレス通信デバイス302はボイス特徴および/または環境特徴に基づいて音信号334のスペクトル特性を調整し得る。例えば、音響ボイス信号の低周波部分を効果的に不明瞭にするのに十分な低周波雑音が音響環境信号(例えば、音)中にあるが、高周波部分を効果的に不明瞭にするのに十分な高周波雑音が音響環境信号中にないことを、環境特徴が示す場合、送信ワイヤレス通信デバイス302は、音響ボイス信号の高周波部分を効果的にマスキングする音響マスキング信号を生成するために、音信号334の高周波部分中で振幅やラウドネスを増加させる。
さらに別の例において、送信ワイヤレス通信デバイス302は、414でマスキング信号342を生成するために、音信号334の空間特性(例えば、指向性)を調整し得る。例えば、ボイス特徴は受信した音響ボイス信号の方向を示し得る一方で、環境特徴は音響環境信号(例えば、音)の1つまたは複数の方向を示し得る。この情報は、音響マスキング信号の指向性を調整するために使用されて、ユーザ(例えば、音響ボイス信号の音源)から離れて音響マスキング信号をステアリングし得る。追加または代替として、音響マスキング信号は、音響ボイス信号をマスキングするのに十分である強い環境信号(例えば、音)から離れるように、および/または静かな環境信号に潜在的に向かって、および/または音響環境信号のない方向にステアリングされ得る。これは、例えば、音響ボイス信号がより容易に立ち聞きされるかもしれない方向において音響ボイス信号を不明瞭にするのに役立ち得る。
送信ワイヤレス通信デバイス302は416でマスキング信号342を出力する。例えば、送信ワイヤレス通信デバイス302は、マスキング信号342を音響マスキング信号に変換できる1つまたは複数のスピーカー344にマスキング信号342を与え得る。
送信ワイヤレス通信デバイス302は418でボイス信号320を送信する。例えば、送信ワイヤレス通信デバイス302は418でボイス信号320を符号化、変調、増幅および/または送信し得る。ボイス信号320は1つまたは複数のアンテナ360a〜nを使用して1つまたは複数の電磁信号として送信され得る。送信の前に、送信ワイヤレス通信デバイス302は、追加または代替として、ボイス信号320データを1つまたは複数の空間ストリーム、アンテナ、周波数(例えば、サブキャリア)、タイムスロット等にマッピングし得る。
図4に示した方法400が送信ワイヤレス通信デバイス302によってリアルタイムで行われ得ることに留意されたい。例えば、オーディオ信号は402で取得され、環境信号310は404で取得され、環境特徴は406で判断され、ボイス信号320は408で取得され、ボイス特徴は410で判断され、音信号334は412で取得され、および/またはマスキング信号342は414で生成され、416でリアルタイムに出力され得る。方法400は、対応する音響マスキング信号352を用いて音響ボイス信号346を効果的にマスキングするためにリアルタイムで行われ得る。
図5は、マスキング信号を生成するためのシステムおよび方法が実装され得るワイヤレス通信デバイス502の一構成を示すブロック図である。ワイヤレス通信デバイス502の例としては、セルラーフォン、スマートフォン、ラップトップコンピュータ、タブレットデバイス、ゲームシステム、携帯情報端末、音楽プレーヤ(例えば、MP3プレーヤ)等がある。ワイヤレス通信デバイス502は、1つまたは複数のマイクロフォン504a〜n、マルチマイクロフォン処理ブロック/モジュール506、環境分析ブロック/モジュール512、音声特徴抽出ブロック/モジュール522、マスカー536、1つまたは複数の音源528、1つまたは複数のスピーカー544、1つまたは複数のイヤピーススピーカー576、RVEブロック/モジュール578、デコーダ580、復調器582、受信機584、エンコーダ554、変調器556、送信機558および/あるいは1つまたは複数のアンテナ560a〜nを含み得る。
1つまたは複数のマイクロフォン504a〜nは、音響信号を電気または電子信号に変換するために使用されるトランスデューサ(例えば、音響電気トランスデューサ)であり得る。例えば、1つまたは複数のマイクロフォン504a〜nは、音響ボイス信号および/あるいは1つまたは複数の音響環境信号をキャプチャし、それらをマルチマイクロフォン処理ブロック/モジュール506に与えられる電気または電子信号に変換し得る。例えば、マイクロフォン504a〜nの各々は、音響ボイス信号、音響環境信号または両方の混合を表すオーディオ信号(例えば、電気または電子信号)を生成し得る。一構成では、複数のオーディオ信号がこのように複数のマイクロフォン504a〜nを使用して取得され得る。マイクロフォン504a〜nの例としては、ダイナミックマイクロフォン、コンデンサマイクロフォン、圧電マイクロフォン、光ファイバーマイクロフォン、レーザーマイクロフォン等がある。
マルチマイクロフォン処理ブロック/モジュール506は、1つまたは複数のマイクロフォン504a〜nによって与えられるオーディオ信号(例えば、電気または電子信号)を処理するために使用され得る。マルチマイクロフォン処理ブロック/モジュール506は、エコー消去ブロック/モジュール586、1つまたは複数のアナログデジタル変換器(ADC)596、音源分離および/または雑音低減ブロック/モジュール508、雑音推定ブロック/モジュール590ならびに/あるいはボイスアクティビティ検出器594を含み得る。1つまたは複数のアナログデジタル変換器596は、(1つまたは複数のマイクロフォン504a〜nによってキャプチャされた)1つまたは複数のアナログオーディオ信号を1つまたは複数のデジタルオーディオ信号598a〜nに変換し得る。1つまたは複数のデジタルオーディオ信号598a〜nは、ボイスアクティビティ検出器594、雑音推定ブロック/モジュール590および/または音源分離/雑音低減ブロック/モジュール508に与えられ得る。
ボイスアクティビティ検出器594は、いつボイスアクティビティが(1つまたは複数の)デジタルオーディオ信号598a〜n中に存在するかを検出し得る。例えば、ボイスアクティビティ検出器594は、いつボイスまたは音声が無音および/または雑音等とは反対に(1つまたは複数の)デジタルオーディオ信号598a〜n中に存在するかを判断し得る。ボイスアクティビティ検出器594は、雑音推定ブロック/モジュール590に、(1つまたは複数の)デジタルオーディオ信号598a〜n中にボイスアクティビティが存在するときを示すボイスアクティビティインジケータ592を与え得る。
雑音推定ブロック/モジュール590は、(1つまたは複数の)デジタルオーディオ信号598a〜nとボイスアクティビティインジケータ592とに基づいて環境信号(例えば、環境雑音)510を推定し得る。例えば、雑音推定ブロック/モジュール590は、(1つまたは複数の)デジタルオーディオ信号598a〜n中に存在する定常および非定常環境または背景雑音を推定し得る。一構成において、例えば、雑音推定ブロック/モジュール590は、ボイスアクティビティインジケータ592がボイスアクティビティを示さない、(1つまたは複数の)デジタルオーディオ信号598a〜n中の期間に基づいて雑音フロアを推定し得る。このようにして、雑音推定ブロック/モジュール590は環境信号510を推定し得る。環境信号510は、音源分離/雑音低減ブロック/モジュール508と環境分析ブロック/モジュール512とに与えられ得る。
エコー消去ブロック/モジュール586は、ワイヤレス通信デバイス502によって出力され得る1つまたは複数の信号から、(1つまたは複数の)デジタルオーディオ信号598a〜n中のエコーを低減または削除するために使用され得る。例えば、ワイヤレス通信デバイス502は、1つまたは複数のイヤピーススピーカー576から、および/あるいは1つまたは複数のスピーカー(例えば、ラウドスピーカー)544から1つまたは複数の音響信号を出力し得る。上述のように、例えば、ワイヤレス通信デバイス502は、マスキング信号542に基づいて1つまたは複数のスピーカー544から音響マスキング信号を出力し得る。追加または代替として、ワイヤレス通信デバイス502は、(1つまたは複数の)イヤピーススピーカー576から他の音響信号(例えば、ボイス信号、音楽等)を出力し得る。例えば、ユーザは、電話通話を行うためにワイヤレス通信デバイス502を使用していることがある。電話通話中に、ワイヤレス通信デバイス502は、1つまたは複数のスピーカー544から出力される音響マスキング信号に加えて、あるいはそれの代わりに1つまたは複数のイヤピーススピーカー576からボイスまたは音声を出力し得る。エコー消去ブロック/モジュール586は、((1つまたは複数の)イヤピーススピーカー576にも与えられる)1つまたは複数の受信信号とマスキング信号542とを使用して音源分離/雑音低減ブロック/モジュール508に与えられ得るエコー信号588を生成し得る。
音源分離ブロック/モジュール508はボイス信号520を生成(例えば、推定)し得る。例えば、音源分離ブロック/モジュール508は、ボイス信号520を推定するために、(1つまたは複数の)デジタルオーディオ信号598aから推定された環境信号(例えば、環境雑音)510および/またはエコー信号588を除去し得る。ボイス信号520は、音声特徴抽出ブロック/モジュール522に与えられ得る。ボイス信号520は、追加または代替として、マスカー536および/またはエンコーダ554に与えられ得る。
音声特徴抽出ブロック/モジュール522はボイス信号520から1つまたは複数の特徴を抽出するために使用され得る。ボイス信号520の特徴の例としては、大きさまたは振幅(例えば、ラウドネス、ボリューム等)特徴、スペクトル(例えば、ピッチまたは周波数)特徴、空間(例えば、指向性)特徴および/または時間(例えば、位相)特徴等がある。音声特徴抽出ブロック/モジュール522は、抽出された1つまたは複数の特徴に基づいて第1の制御信号530を生成し得る。一構成において、音声特徴抽出ブロック/モジュール522は、(便宜のために図5では「エンベロープ524」として省略される)エンベロープ検出ブロック/モジュール524および/または(便宜のために図5では「しきい値526」として省略される)しきい値検出ブロック/モジュール526を含み得る。エンベロープ検出ブロック/モジュール524はボイス信号520に基づいてエンベロープ信号(例えば、振幅やラウドネスエンベロープ)を判断し得る。例えば、このエンベロープ信号はボイス信号520の振幅やラウドネス(およびそれらの変形形態)を示し得る。この振幅やラウドネスは、音圧、音圧レベル(例えば、デシベル)、音響インテンシティ、音響パワー、ソーン、フォン、ボルトおよび/またはアンペア等として測定または特徴づけられ得る。
しきい値検出ブロック/モジュール526は、エンベロープ信号が1つまたは複数のしきい値にいつ達するかまたは超えるかを検出し得る。例えば、しきい値検出ブロック/モジュール526は、エンベロープ信号がいつ所与の量増加または所与の量減少されたかを検出し得る。一例では、振幅の範囲内にいくつかのしきい値が確立され得る。別の例では、エンベロープ信号の参照サンプルまたは平均よりある量または割合だけ高い1つのしきい値が確立され得る一方で参照サンプルまたは平均よりある量または割合だけ下回る別のしきい値が確立され得る。しきい値検出ブロック/モジュール526は、エンベロープ信号がしきい値にいつ達したかまたは超えたか、および/あるいはどのしきい値に達したかまたは超えたかを示し得る。
追加または代替として、音声特徴抽出ブロック/モジュール522は他の特徴検出ブロック/モジュール550を含み得る。(1つまたは複数の)他の特徴検出ブロック/モジュール550はボイス信号520の他の特徴を検出し得る。例えば、音声特徴抽出ブロック/モジュールは、(便宜のために図5では「スペクトル550a」として省略される)スペクトル検出ブロック/モジュール550a、(便宜のために図5では「空間550b」として省略される)空間検出ブロック/モジュール550bおよび/または(便宜のために図5では「時間550c」として省略される)時間検出ブロック/モジュール550cを含み得る。例えば、これらのブロック/モジュール550a〜cは、ボイス信号520のスペクトル(例えば、周波数)特徴または特性、空間(例えば、指向性)特徴または特性および/あるいは時間(例えば、タイミング、位相、遷移等)特徴または特性を検出および/または抽出するために使用され得る。より詳細には、スペクトル検出ブロック/モジュール550aは、ボイス信号520のスペクトル(例えば、ピッチ、周波数等)特徴を検出および/または抽出し得る。例えば、スペクトル検出ブロック/モジュール550aは、ボイス信号520のスペクトル振幅または大きさを判断し得る。追加または代替として、空間検出ブロック/モジュール550bは、ボイス信号520の空間(例えば、指向性)特徴を検出および/または抽出し得る。例えば、空間検出ブロック/モジュール550bは、ワイヤレス通信デバイス502に対する(例えば、1つまたは複数のマイクロフォン504a〜nに対する)受信した音響ボイスの方向を判断し得る。追加または代替として、時間検出ブロック/モジュール550cは、ボイス信号520の時間(例えば、タイミング、位相)特徴を検出および/または抽出し得る。例えば、時間検出ブロック/モジュール550cは、ボイス信号520中で音声がいつ発生するか、音声中でどのくらい長くフレーズおよび/または休止が発生する傾向があるか等を判断し得る。
音声特徴抽出ブロック/モジュール522によって与えられる第1の制御信号530は、抽出された実際の特徴(例えば、エンベロープ信号特性、スペクトル特性、空間特性、時間特性等)および/または制御情報を、抽出された特徴(例えば、振幅やラウドネスランピングのトリガ等)に基づいて与え得る。第1の制御信号530はマスカー536に与えられ得る。
環境分析ブロック/モジュール512は、マスカー536に与えられる第2の制御信号532を生成するために環境信号510を分析し得る。環境分析ブロック/モジュール512は、(便宜のために図5では「振幅514」として省略される)振幅(例えば、ラウドネス)検出ブロック/モジュール514、(便宜のために図5では「空間516」として省略される)空間(例えば、指向性)検出ブロック/モジュール516、(便宜のために図5では「スペクトル518a」として省略される)スペクトル検出ブロック/モジュール518aおよび/または(便宜のために図5では「時間518b」として省略される)時間検出ブロック/モジュール518bを含み得る。振幅検出ブロック/モジュール514は、環境信号510の振幅やラウドネスを検出または抽出し得る。例えば、振幅やラウドネスは、環境信号510のエンベロープを検出することによって測定され得る。この振幅やラウドネスは、音圧、音圧レベル(例えば、デシベル)、音響インテンシティ、音響パワー、ソーン、フォン、ボルトおよび/またはアンペア等として測定または特徴づけられ得る。いくつかの構成において、環境信号510の振幅やラウドネスは、スペクトルまたは周波数範囲にわたって測定され得る。このようにして、環境信号510は、例えば、ワイヤレス通信デバイス502によって受信された音響環境信号(例えば、音または雑音)のスペクトル大きさに基づいて特徴づけられ得る。
空間(例えば、方向)検出ブロック/モジュール516は、音響環境信号(例えば、音または雑音)の空間特徴または特性を判断または推定し得る。例えば、空間検出ブロック/モジュール516は、特定の音響環境信号の方向を判断するために、複数のマイクロフォン504a〜nによって受信されたオーディオ信号間の位相シフトを使用し得る。より詳細には、空間検出ブロック/モジュール516は、ワイヤレス通信デバイス502に対する(例えば、1つまたは複数のマイクロフォン504a〜nに対する)受信した音響環境信号の方向を判断し得る。
スペクトル検出ブロック/モジュール518aは、環境信号510のスペクトル(例えば、ピッチ、周波数等)特徴を検出および/または抽出し得る。例えば、スペクトル検出ブロック/モジュール518aは、環境信号510のスペクトル振幅または大きさを判断し得る。追加または代替として、時間検出ブロック/モジュール518bは、環境信号510の時間(例えば、タイミング、位相)特徴を検出および/または抽出し得る。例えば、時間検出ブロック/モジュール518bは、環境信号510中で環境雑音がいつ発生するか、特定の雑音がどのくらいの頻度でおよび/またはどのくらい長く発生する傾向があるか等を判断し得る。
環境分析ブロック/モジュール512によって与えられる第2の制御信号532は、分析された実際の特徴(例えば、振幅、空間、スペクトルおよび/または時間特性等)および/または制御情報を、分析された特徴(例えば、振幅やラウドネスランピングのトリガ等)に基づいて与え得る。第2の制御信号532はマスカー536に与えられ得る。
1つまたは複数の音源528はマスカー536に1つまたは複数の音信号534を与え得る。音源528の例としては、音楽またはサウンドファイル(例えば、moving picture experts group(MPEG)−1またはMPEG−2 audio layer 3(MP3)ファイル、waveform audio file format(WAV)ファイル、musical instrument digital interface(MIDI)ファイル等)、合成音または雑音および/あるいは(例えば、別のデバイスから音信号534を受信するための)オーディオ入力またはインターフェース等がある。例えば、1つの音源528は音楽またはサウンドファイルを与えるワイヤレス通信デバイス502上のメモリであり得る一方で、別の音源528は別のデバイスから音信号534を受信するために使用されるポートであり得る。1つまたは複数の音源528は随意であり得る。例えば、マスカー536は、ボイス信号520のみを使用してマスキング信号542を生成し得る。追加または代替として、マスカー536は1つまたは複数の音源528から与えられる音信号534を使用してマスキング信号542を生成し得る。いくつかの構成では、使用される音源528および/または音信号534が入力に基づいて選択され得る。例えば、送信ワイヤレス通信デバイス502は、使用するための特定の音源528および/または音信号534を示し、ユーザインターフェース(図5に図示せず)を介したユーザ入力を受信し得る。例えば、送信ワイヤレス通信デバイス502は、キーボード、マウス、タッチスクリーン、マイクロフォン504、ボタン等を使用するもので、選択された音源528および/または音信号534を示す入力を受信し得る。
マスカー536は、マスキング信号542を生成するために使用されるブロック/モジュールであり得る。マスキング信号542は、音響ボイス信号を不明瞭にする、すなわちマスキングするために、音響マスキング信号として1つまたは複数のスピーカー544(例えば、ラウドスピーカー)を使用して出力され得る。マスカー536は、第1の制御信号530と第2の制御信号532とに基づいてマスキング信号542を生成し得る。上述のように、マスキング信号542はまた、ボイス信号520に加えて、あるいはそれの代わりに音信号534に基づき得る。例えば、マスキング信号542は、第1の制御信号530と第2の制御信号532とに基づいて調整および/または修正され、メモリから音信号534として与えられる音楽を備え得る。別の例では、マスキング信号542が第1の制御信号530と第2の制御信号532とに基づいて調整(例えば、振幅変調)されたボイス信号520を備え得る。
マスカー536は、例えば、レベル制御ブロック/モジュール538および/または特徴制御ブロック/モジュール540を含み得る。レベル制御ブロック/モジュール538は入力信号(例えば、ボイス信号520および/または音信号534)のレベル(例えば、振幅、大きさ、ボリューム、ラウドネス等)を第1の制御信号530および/または第2の制御信号532に基づいて調整し得る。
例えば、レベル制御538は、第1の制御信号530中で与えられる音声エンベロープ(または音声エンベロープに基づくしきい値トリガ)と直接関係にある入力信号の振幅やラウドネスを調整し得る。例えば、音声エンベロープの振幅やラウドネスが増加された場合、レベル制御538は、入力信号の振幅やラウドネスを増加(例えば、ランプアップ)させ得る。しかしながら、音声エンベロープの振幅やラウドネスが減少された場合、レベル制御538は入力信号の振幅やラウドネスを減少(例えば、ランプダウン)させ得る。例えば、ユーザがより大きな声で、あるいはより穏やかに話すと、ワイヤレス通信デバイス502は、音響ボイス信号を効果的に不明瞭にするために、それぞれ、より大きな、あるいはより穏やかな音響マスキング信号を生成し得る。これは、圧倒的あるいは不快にならずに音響ボイス信号を不明瞭にするのに必要なだけ大きい音響マスキング信号を与え得る。
追加または代替として、レベル制御ブロック/モジュール538は、入力信号(例えば、ボイス信号520および/または音信号534)のレベル(例えば、振幅、ラウドネス等)を第2の制御信号532に基づいて調整し得る。例えば、レベル制御538は、第2の制御信号532中で与えられる環境振幅やラウドネス(あるいは振幅やラウドネスに基づくしきい値トリガ)と逆関係にある入力信号の振幅やラウドネスを調整し得る。例えば、環境信号510の振幅やラウドネスが増加された場合、レベル制御538は入力信号の振幅やラウドネスを減少(例えば、ランプダウン)させ得る。しかしながら、環境信号510の振幅やラウドネスが減少された場合、レベル制御538は入力信号の振幅やラウドネスを増加(例えば、ランプアップ)させ得る。例えば、音響環境信号(例えば、音や雑音)がより大きく、あるいはより穏やかになると、ワイヤレス通信デバイス502は、それぞれ、より穏やかな、あるいはより大きな音響マスキング信号を生成し得る。例えば、環境信号(例えば、音または雑音)が、音響ボイス信号を効果的にマスキングするのに必要なだけ大きいおよび/または正しい特性のものである場合、ワイヤレス通信デバイス502が大きな音響マスキング信号を生成する必要がないことがある。従って、マスカー536は、より効率的に動作し、場合によっては、バッテリー電力を節約し得る。
マスカー536は、追加または代替として、特徴制御540を含み得る。特徴制御540は入力信号(例えば、ボイス信号520および/または音信号534)の1つまたは複数の特徴を第1の制御信号530および/または第2の制御信号532に基づいて制御し得る。例えば、特徴制御540は入力信号(例えば、ボイス信号520および/または音信号534)のスペクトル特性をボイス信号520および/または環境信号510のスペクトル特性に基づいて調整し得る。例えば、音響ボイス信号の低周波部分を効果的に不明瞭にするのに十分な低周波雑音が音響環境信号(例えば、音)中にあるが、高周波部分を効果的に不明瞭にするのに十分な高周波雑音が音響環境信号中にないことを、第2の制御信号532が示す場合、特徴制御540は、音響ボイス信号の高周波部分を効果的にマスキングする音響マスキング信号を生成するために、(単独でまたはレベル制御538を使用して)音信号534の高周波部分中で振幅やラウドネスを増加させ得る。
別の例において、特徴制御540は音響マスキング信号の空間特性(例えば、指向性)を第1の制御信号530および/または第2の制御信号532に基づいて調整し得る。例えば、第1の制御信号530は受信した音響ボイス信号の方向を示し得る一方で、第2の制御信号532は音響環境信号(例えば、音)の1つまたは複数の方向を示し得る。特徴制御540は音響マスキング信号の指向性を調整するためにこの情報を使用し、ユーザ(例えば、音響ボイス信号の音源)から離れるように音響マスキング信号をステアリングし得る。追加または代替として、特徴制御540は、音響ボイス信号をマスキングするのに十分である強い環境信号(例えば、音)から離れるように、および/または静かな環境信号に潜在的に向かって、および/または音響環境信号のない方向に音響マスキング信号をステアリングし得る。これは、例えば、音響ボイス信号がより容易に立ち聞きされるかもしれない方向において音響ボイス信号を不明瞭にするのに役立ち得る。追加または代替として、特徴制御540は、音響ボイス信号が(例えば、ユーザから離れて)伝搬しているのと同じ方向に音響マスキング信号をステアリングし得る。
1つまたは複数のスピーカー544が、電気または電子信号(例えば、マスキング信号542)を音響信号(例えば、音響マスキング信号)に変換するトランスデューサ(例えば、電気音響トランスデューサ)であり得ることに留意されたい。一構成において、1つまたは複数のスピーカー544は全方向性であり得る。他の構成において、1つまたは複数のスピーカー544は指向性であり得る。例えば、スピーカー544のアレイは、いくつかの構成において、音響マスキング信号を特定の方向に向けるために使用され得る。追加または代替として、1つまたは複数のスピーカー544は、指向性出力能力を与えるために、ワイヤレス通信デバイス502上の異なるロケーションに配置され得る。
ボイス信号520および/または環境信号510はエンコーダ554に与えられ得る。エンコーダ554は、符号化されたボイス信号を生成するためにボイス信号520を符号化し得る。いくつかの構成において、エンコーダ554はまた、符号化されたボイス信号に誤り検出および/または誤り訂正コーディングを追加し得る。符号化されたボイス信号は変調器556に与えられ得る。変調器556は、符号化されたボイス信号を、使用される変調のタイプに基づいて特定のコンスタレーションに変調する。変調のいくつかの例としては、直交振幅変調(QAM)、位相シフトキーイング(PSK)変調等がある。符号化および変調されたボイス信号は送信機558に与えられ得る。送信機558はさらに、送信に備えて増幅を行うような動作を符号化および変調されたボイス信号に対して行い得る。送信機558は、符号化および変調されたボイス信号を1つまたは複数のアンテナ560a〜nを使用して1つまたは複数の電磁信号として送信し得る。エンコーダ、変調器556、送信機558および/または(1つまたは複数の)アンテナ560a〜nによって環境信号510を雑音基準信号として送信するために、同様の動作が環境信号510に対して行われ得る。例えば、受信ワイヤレス通信デバイスは、受信したボイス信号中の雑音を抑制するために雑音基準信号を使用し得る。
ワイヤレス通信デバイス502がボイス信号520に対して追加または代替の動作を行い得ることに留意されたい。例えば、ワイヤレス通信デバイス502は、ボイス信号520および/または環境信号510データを1つまたは複数の周波数(例えば、直交周波数分割多重化(OFDM)サブキャリア)、タイムスロット、空間チャネル等にマッピングし得る。
ワイヤレス通信デバイス502は、別のデバイス(例えば、別のワイヤレス通信デバイス)から送信された1つまたは複数の電磁信号を1つまたは複数のアンテナ560a〜nを使用して受信し得る。受信機584は、1つまたは複数の送信された電磁信号を1つまたは複数のアンテナ560a〜nを使用して受信し得る。受信信号は復調器582に与えられ得る。復調器582は受信信号を復調し、デコーダ580に与えられ得る符号化された信号を生成する。デコーダ580は符号化された信号を復号し、RVEブロック/モジュール578に与えられ得る復号されたボイス信号を生成する。RVEブロック/モジュール578は、例えば、ボイスをある雑音フロアの上に維持するために、ボイスの異なる周波数領域をブーストし得る。RVEブロック/モジュール578の出力(受信したボイス信号)が1つまたは複数のイヤピーススピーカー576に与えられ、1つまたは複数のイヤピーススピーカー576が音響信号として受信したボイス信号を出力し得る。
いくつかの構成において、ワイヤレス通信デバイス502によって受信された電磁信号は、1つまたは複数のデバイスによって中継されていることがある。例えば、ワイヤレス通信デバイス502が基地局から電磁信号を受信し、基地局が1つまたは複数のネットワークデバイスからそれらの信号を受信していることがある。これらの信号は、別のワイヤレス通信デバイスから別の基地局によって受信されていることがある。
図6は、電子デバイス602上でマスキング信号642を生成することの一例を示すブロック図である。音声特徴抽出ブロック/モジュール622は、ボイス信号620から振幅やラウドネスエンベロープ601を抽出するために使用され得る。音声特徴抽出ブロック/モジュール622はエンベロープ信号601に基づいて第1の制御信号630を生成し得る。例えば、音声特徴抽出ブロック/モジュール622はエンベロープ検出ブロック/モジュール624を含む。エンベロープ検出ブロック/モジュール624はボイス信号620に基づいてエンベロープ信号(例えば、振幅やラウドネスエンベロープ)601を判断する。例えば、ボイス信号620は、波打つ波形として特徴づけられ得る。エンベロープ信号601はボイス信号620の正のピークを近似的に追跡し得る。言い換えれば、エンベロープ信号601はボイス信号620の周期的最大値(例えば、ピーク)を近似的に接続し得る。従って、エンベロープ信号601はボイス信号620の振幅やラウドネスの近似を与え得る。この振幅やラウドネスは、音圧、音圧レベル(例えば、デシベル)、音響インテンシティ、音響パワー、ソーン、フォン、ボルトおよび/またはアンペア等として測定または特徴づけられ得る。
エンベロープ信号601は、音声特徴抽出ブロック/モジュール622中に含まれるしきい値検出ブロック/モジュール626に与えられ得る。しきい値検出ブロック/モジュール626は、エンベロープ信号が1つまたは複数のしきい値にいつ達するかまたは超えるかを検出し得る。例えば、しきい値検出ブロック/モジュール626は、エンベロープ信号601がいつ所与の量増加または所与の量減少されたかを検出し得る。一例では、振幅の範囲内にいくつかのしきい値が確立され得る。別の例では、エンベロープ信号601の参照サンプルまたは平均よりある量または割合だけ高い1つのしきい値が確立され得る一方で、参照サンプルまたは平均よりある量または割合だけ下回る別のしきい値が確立され得る。しきい値検出ブロック/モジュール626は、第1の制御信号630の一部としてのエンベロープ信号601がしきい値にいつ達したかまたは超えたか、および/あるいはどのしきい値に達したかまたは超えたかを示し得る。第1の制御信号630はマスカー636に与えられ得る。
環境分析ブロック/モジュール612は、マスカー636に与えられる第2の制御信号632を生成するために環境信号610を分析し得る。環境分析ブロック/モジュール612は振幅(例えば、ラウドネス)検出ブロック/モジュール614を含み得る。振幅検出ブロック/モジュール614は環境信号610の振幅やラウドネスを検出または抽出し得る。例えば、振幅やラウドネスは、環境信号610のエンベロープを検出することによって測定され得る。環境信号610の振幅は、ボイス信号620のエンベロープ601と同様にまたはそれとは別様に判断され得る。例えば、振幅は、環境信号610のピーク値の平均、環境信号610の2乗平均(RMS:root mean square)等として判断され得る。この振幅やラウドネスは、音圧、音圧レベル(例えば、デシベル)、音響インテンシティ、音響パワー、ソーン、フォン、ボルトおよび/またはアンペア等として測定または特徴づけられ得る。環境分析ブロック/モジュール612は、振幅検出ブロック/モジュール614によって検出された振幅に基づいて第2の制御信号632を判断し得る。例えば、第2の制御信号632は、環境信号610の振幅によって達せられたかまたは超えられた特定のしきい値を示し得る。別の例において、第2の制御信号632は、環境分析ブロック/モジュール612によって判断された、環境信号610の振幅であり得る。第2の制御信号632はマスカー636に与えられ得る。
音源628はマスカー636に1つまたは複数の音信号634を与え得る。音源628の例としては、音楽またはサウンドファイル、合成音または雑音および/あるいは(例えば、別のデバイスから音信号634を受信するための)オーディオ入力またはインターフェース等がある。例えば、1つの音源628は音楽やサウンドのファイルを与える電子デバイス602上のメモリであり得る一方で、別の音源628は別のデバイスから音信号634を受信するために使用されるポートであり得る。図6に示した例において、音源628はマスカー636に音信号634(例えば、入力信号)を与え得る。いくつかの構成において、マスカーに与えられる音信号634は、選択入力603に基づいて選択され得る。例えば、ユーザは、ユーザのお気に入りのバンドの曲を含んでいる音楽ファイルを選択し得る。次いで、対応する音信号634がマスカー636に与えられ得る。
マスカー636は、マスキング信号642を生成するために使用されるブロック/モジュールであり得る。マスキング信号642は、音響ボイス信号を不明瞭にする、すなわちマスキングするために、1つまたは複数のスピーカー644(例えば、ラウドスピーカー)を使用して音響マスキング信号として出力され得る。マスカー636は、音信号634と第1の制御信号630と第2の制御信号632とに基づいてマスキング信号642を生成し得る。例えば、マスキング信号642は、第1の制御信号630と第2の制御信号632とに基づいて調整および/または修正され、メモリから音信号634として与えられる音楽を備え得る。
この例において、マスカー636はレベル制御ブロック/モジュール638を含む。レベル制御ブロック/モジュール638は音信号634のレベル(例えば、振幅、大きさ、ボリューム、ラウドネス等)を第1の制御信号630と第2の制御信号632とに基づいて調整し得る。例えば、レベル制御638は、第1の制御信号630中で与えられるしきい値トリガを使用して音声エンベロープと直接関係にある音信号634の振幅やラウドネスを調整し得る。例えば、音声エンベロープ601の振幅やラウドネスが増加された場合、レベル制御638は、入力信号の振幅やラウドネスを増加(例えば、ランプアップ)させ得る。しかしながら、音声エンベロープの振幅やラウドネスが減少された場合、レベル制御638は、入力信号の振幅やラウドネスを減少(例えば、ランプダウン)させ得る。例えば、ユーザがより大きな声で、あるいはより穏やかに話すと、電子デバイス602は、音響ボイス信号を効果的に不明瞭にするために、それぞれ、より大きな、あるいはより穏やかな音響マスキング信号を生成し得る。これは、圧倒的あるいは不快にならずに音響ボイス信号を不明瞭にするのに必要なだけ大きい音響マスキング信号を与え得る。
いくつかの構成において、レベル制御638は、(最初に)音信号634をボイス信号620に関してあるレベルにランプし得る。例えば、レベル制御638は、最初に(他の調整が行われる前に)、ボイス信号620よりも数デシベル大きくなるように音信号634をランプし得る。
追加または代替として、レベル制御ブロック/モジュール638は音信号634のレベル(例えば、振幅、ラウドネス等)を第2の制御信号632に基づいて調整し得る。例えば、レベル制御638は、第2の制御信号632中で与えられる(例えば、振幅やラウドネスに基づくしきい値トリガを使用して)環境振幅やラウドネスと逆関係にある音信号634の振幅やラウドネスを調整し得る。例えば、環境信号610の振幅やラウドネスが増加された場合、レベル制御638は、音信号634の振幅やラウドネスを減少(例えば、ランプダウン)させ得る。しかしながら、環境信号610の振幅やラウドネスが減少された場合、レベル制御638は、音信号634の振幅やラウドネスを増加(例えば、ランプアップ)させ得る。例えば、音響環境信号(例えば、音または雑音)がより大きく、あるいはより穏やかになると、ワイヤレス通信デバイス602は、それぞれ、より穏やかな、あるいはより大きな音響マスキング信号を生成し得る。例えば、環境信号(例えば、音または雑音)が、音響ボイス信号を効果的にマスキングするのに必要なだけ大きいおよび/または正しい特性のものである場合、ワイヤレス通信デバイス602が大きな音響マスキング信号を生成する必要がないことがある。従って、マスカー636は、より効率的に動作し、場合によっては、バッテリー電力を節約し得る。
いくつかの構成において、レベル制御638は、環境信号610と組み合わせた音信号634が環境信号610に関してあるレベルにあるように音信号634をランプし得る。例えば、音信号634と組み合わせた環境信号610が、(例えば、音声特徴に基づいて音信号634を調整した後に)(少なくとも)ボイス信号620よりも一定数のデシベル大きくない場合、レベル制御638は、環境信号610と音信号634との組合せがボイス信号620よりも数デシベル大きくなるように音信号634の振幅を増加(例えば、ランプアップ)させ得る。しかしながら、環境信号610と組み合わせた音信号634がボイス信号620よりも数デシベル大きい場合、レベル制御638は、環境信号610と組み合わせた音信号634がボイス信号620よりも数デシベル大きくなるまで、および/または音信号634があるレベル(例えば、無振幅レベルおよび/または設定レベル)に減少されるまで、音信号634を減少(例えば、ランプダウン)させ得る。
音声特徴(例えば、第1の制御信号630)と環境特徴(例えば、第2の制御信号632)とに基づいて修正および/または調整された音信号634は、スピーカー644に与えられるマスキング信号642であり得る。スピーカー644は、マスキング信号642を電気または電子信号から音響マスキング信号に変換し得る。図6で説明した例において、音信号634の振幅(例えば、ラウドネス、ボリューム)特性のみが調整され得ることに留意されたい。しかしながら、他の例および/または構成では、追加または代替の特性(例えば、空間、スペクトルおよび/または時間特性等)が音信号634(および/またはボイス信号620)を調整および/または修正するために使用され得る。
図7は、ワイヤレス通信デバイス502上でマスキング信号542を生成するための方法700の構成を示す流れ図である。ワイヤレス通信デバイス502は、702において、複数のマイクロフォン504a〜nから複数のオーディオ信号を取得する。例えば、複数のマイクロフォン504a〜nは、音響ボイス信号および/あるいは1つまたは複数の音響環境信号を電気または電子オーディオ信号に変換し得る。
ワイヤレス通信デバイス502は704で複数のオーディオ信号から環境信号510を取得する。例えば、ワイヤレス通信デバイス502は、オーディオ信号中の環境音および/または雑音を推定し得る。一構成において、ワイヤレス通信デバイス502は、オーディオ信号中の環境音および/または雑音を推定するためにボイスアクティビティ検出器594を使用し得る。
ワイヤレス通信デバイス502は706で環境信号510に基づいて環境振幅(例えば、環境信号510の振幅)を判断する。例えば、ワイヤレス通信デバイス502は706で環境信号510の振幅(例えば、ラウドネス)エンベロープを判断し得る。これは、例えば、低域フィルタを使用すること、環境信号510のRMS値を計算すること、平均最大ピーク値を計算すること、および/または最大ピーク値を補間すること等を行うことによって行われ得る。いくつかの構成において、ワイヤレス通信デバイス502は、環境振幅に基づいて第2の制御信号532を生成し得る。
ワイヤレス通信デバイス502は708で複数のオーディオ信号からボイス信号520を取得する。例えば、ワイヤレス通信デバイス502は、オーディオ信号からボイス信号520を分離し得る。一構成において、ワイヤレス通信デバイス502はボイス信号520を推定するためにオーディオ信号から雑音推定値(例えば、環境信号510)を減算または除去し得る。
ワイヤレス通信デバイス502は710でボイス信号520に基づいてエンベロープ信号を判断する。これは、例えば、低域フィルタを使用すること、ボイス信号520のRMS値を計算すること、平均最大ピーク値を計算すること、および/または最大ピーク値を補間すること等を行うことによって行われ得る。エンベロープ信号は、例えば、ボイス信号520の振幅、大きさ、ラウドネス等を表し得る。いくつかの構成において、ワイヤレス通信デバイス502は、エンベロープ信号に基づいて第1の制御信号530を生成し得る。
ワイヤレス通信デバイス502は712で音信号534を取得する。例えば、ワイヤレス通信デバイス502は712で音楽やサウンドのファイル(例えば、MP3ファイル、WAVファイル、MIDIファイル等)、合成音または雑音および/あるいは(例えば、別のデバイスからの)オーディオ入力等を取得し得る。一構成において、ワイヤレス通信デバイス502は、メモリから音信号534を取り出す。追加または代替として、ワイヤレス通信デバイス502は、アルゴリズムおよび/または記憶されたデータを使用して音または雑音を合成し得る。追加または代替として、ワイヤレス通信デバイス502は、セキュアデジタル(SD)カード、ユニバーサルシリアルバス(USB)サムドライブ等のようなリムーバブルメモリデバイスから音信号534を取り出す。一構成において、ワイヤレス通信デバイス502は712で選択入力に基づいて音信号534を取得し得る。例えば、ユーザは、特定の音源528または音信号534を(本明細書のシステムおよび方法に従って修正および/または調整を加えた)マスキング信号542として使用するように指定し得る。例えば、ユーザは、マスキング信号542のために、選択入力によって示され得る特定の音源、曲および/または音を使用したいと望み得る。
ワイヤレス通信デバイス502は、714でマスキング信号542を生成するために、エンベロープ信号(例えば、第1の制御信号530)と環境振幅(例えば、第2の制御信号532)とに基づいて音信号534の振幅を調整し得る。例えば、ワイヤレス通信デバイス502は、714でマスキング信号542を生成するために、エンベロープ信号と環境振幅とに基づいて音信号534の振幅、大きさ、ラウドネスまたはボリュームを調整し得る。一構成において、ワイヤレス通信デバイス502は、ボイスエンベロープ(例えば、振幅やラウドネスエンベロープ)と直接関係にある音信号534の振幅やラウドネスを調整し、環境振幅やラウドネス(例えば、振幅やラウドネスエンベロープ)と逆関係にある信号の振幅やラウドネスを調整する。これは、上記の図6に関して説明したように行われ得る。
ワイヤレス通信デバイス502は716でマスキング信号542を出力する。例えば、ワイヤレス通信デバイス502は、マスキング信号542を音響マスキング信号に変換できる1つまたは複数のスピーカー544にマスキング信号542を与え得る。
ワイヤレス通信デバイス502は718でボイス信号520を送信する。例えば、ワイヤレス通信デバイス502は718でボイス信号520を符号化、変調、増幅および/または送信し得る。ボイス信号520は、1つまたは複数のアンテナ560a〜nを使用して1つまたは複数の電磁信号として送信され得る。送信の前に、ワイヤレス通信デバイス502は、追加または代替として、ボイス信号520データを1つまたは複数の空間ストリーム、アンテナ、周波数(例えば、サブキャリア)、タイムスロット等にマッピングし得る。
図8は、マスキング信号を生成するためのシステムおよび方法が実装され得るワイヤレス通信デバイス802におけるいくつかの構成要素の一構成を示すブロック図である。ワイヤレス通信デバイス802は、アプリケーションプロセッサ809を含み得る。アプリケーションプロセッサ809は、概ね、ワイヤレス通信デバイス802上の機能を行うための複数の命令を処理する(例えば、複数のプログラムを走らせる)。アプリケーションプロセッサ809は、オーディオコーダ/デコーダ(コーデック)807に結合され得る。
オーディオコーデック807は、オーディオ信号をコーディングおよび/または復号するために使用される電子デバイス(例えば、集積回路)であり得る。オーディオコーデック807は、1つまたは複数のスピーカー844、1つまたは複数のイヤピーススピーカー876、出力ジャック805および/あるいは1つまたは複数のマイクロフォン804に結合され得る。スピーカー844は、電気または電子信号を音響信号に変換する1つまたは複数の電気音響トランスデューサを含み得る。例えば、スピーカー844は、音楽を再生するか、またはスピーカー電話機会話等を出力するために使用され得る。1つまたは複数のイヤピーススピーカー876は、音響信号(例えば、音声信号)をユーザに出力するために使用され得る1つまたは複数のスピーカーまたは電気音響トランスデューサを含み得る。例えば、1つまたは複数のイヤピーススピーカー876は、ユーザのみが音響信号を確実に聴取し得るように使用され得る。出力ジャック805は、ヘッドフォンのような、オーディオを出力するためのワイヤレス通信デバイス802に他のデバイスを結合するために使用され得る。スピーカー844、1つまたは複数のイヤピーススピーカー876および/または出力ジャック805は、一般に、オーディオコーデック807からオーディオ信号を出力するために使用され得る。1つまたは複数のマイクロフォン804は、音響信号(ユーザのボイス等)を、オーディオコーデック807に与えられる電気または電子信号に変換する音響電気トランスデューサであり得る。
アプリケーションプロセッサ809はマスカーブロック/モジュール836を含み得る。マスカーブロック/モジュール836は、本明細書で開示するシステムおよび方法に従ってマスキング信号を生成するために使用され得る。ワイヤレス通信デバイス802が、上述のように電子デバイス102、602、送信ワイヤレス通信デバイス302および/またはワイヤレス通信デバイス502と同様に構成され得、ならびに/あるいはそれらの一例であり得ることに留意されたい。例えば、ワイヤレス通信デバイス802は、上述の方法200、400、700のうちの1つまたは複数を行い得る。より詳細には、マスカー836は、上述のマスカー136、336、536、636と同様に構成され得る。マスカーブロック/モジュール836がアプリケーションプロセッサ809において実装されるものとして示されているが、マスカーブロック/モジュール836は、追加または代替として、デジタル信号プロセッサ(DSP:digital signal processor)において、または他の同様のブロック/モジュールにおいて実装され得る。
アプリケーションプロセッサ809は電力管理回路817に結合され得る。電力管理回路817の一例は電力管理集積回路(PMIC:power management integrated circuit)であり、それは、ワイヤレス通信デバイス802の電力消費を管理するために使用され得る。電力管理回路817はバッテリー819に結合され得る。バッテリー819は、概ね、ワイヤレス通信デバイス802に電力を与え得る。
アプリケーションプロセッサ809は、入力を受信するための1つまたは複数の入力デバイス821に結合され得る。入力デバイス821の例としては、赤外線センサー、画像センサー、加速度計、タッチセンサー、キーパッド等がある。入力デバイス821は、ワイヤレス通信デバイス802とのユーザ対話を可能にし得る。アプリケーションプロセッサ809はまた、1つまたは複数の出力デバイス823に結合され得る。出力デバイス823の例としては、プリンタ、プロジェクタ、スクリーン、触覚デバイス等がある。出力デバイス823は、ワイヤレス通信デバイス802が、ユーザが受け得る出力を生成することを可能にし得る。
アプリケーションプロセッサ809は、アプリケーションメモリ825に結合され得る。アプリケーションメモリ825は、電子情報を記憶することが可能な任意の電子デバイスであり得る。アプリケーションメモリ825の例としては、ダブルデータレートシンクロナスダイナミックランダムアクセスメモリ(DDRAM)、シンクロナスダイナミックランダムアクセスメモリ(SDRAM)、フラッシュメモリ等がある。アプリケーションメモリ825は、アプリケーションプロセッサ809のための記憶装置を提供できる。例えば、アプリケーションメモリ825は、アプリケーションプロセッサ809上で実行されるプログラムの機能のためのデータおよび/または複数の命令を記憶し得る。一構成において、アプリケーションメモリ825は、上述の方法200、400、700のうちの1つまたは複数を行うためのデータおよび/または複数の命令を記憶および/または与え得る。
アプリケーションプロセッサ809はディスプレイコントローラ827に結合され得、ディスプレイコントローラ827はディスプレイ829に結合され得る。ディスプレイコントローラ827は、ディスプレイ829上に画像を生成するために使用されるハードウェアブロックであり得る。例えば、ディスプレイコントローラ827は、アプリケーションプロセッサ809からの複数の命令および/またはデータを、ディスプレイ829上に提示され得る画像に変換し得る。ディスプレイ829の例としては、液晶ディスプレイ(LCD)パネル、発光ダイオード(LED)パネル、陰極線管(CRT)ディスプレイ、プラズマディスプレイ等がある。
アプリケーションプロセッサ809は、ベースバンドプロセッサ811に結合され得る。ベースバンドプロセッサ811は、概ね、通信信号を処理する。例えば、ベースバンドプロセッサ811は、受信した信号を復調および/または復号し得る。追加または代替として、ベースバンドプロセッサ811は、送信に備えて信号を符号化および/または変調し得る。
ベースバンドプロセッサ811は、ベースバンドメモリ831に結合され得る。ベースバンドメモリ831は、SDRAM、DDRAM、フラッシュメモリ等のような、電子情報を記憶することが可能な任意の電子デバイスであり得る。ベースバンドプロセッサ811は、ベースバンドメモリ831から情報(例えば、複数の命令および/またはデータ)を読み取り、および/またはベースバンドメモリ831に情報を書き込み得る。追加または代替として、ベースバンドプロセッサ811は、通信動作を行うために、ベースバンドメモリ831に記憶された複数の命令および/またはデータを使用し得る。
ベースバンドプロセッサ811は、無線周波数(RF)トランシーバ813に結合され得る。RFトランシーバ813は、電力増幅器815と1つまたは複数のアンテナ860とに結合され得る。RFトランシーバ813は、無線周波信号を送信および/または受信し得る。例えば、RFトランシーバ813は、電力増幅器815と1つまたは複数のアンテナ860とを使用してRF信号を送信し得る。RFトランシーバ813はまた、1つまたは複数のアンテナ860を使用してRF信号を受信し得る。
図9に、電子デバイス902において利用され得る様々な構成要素を示す。図示の構成要素は、同じ物理構造内に配置されるか、あるいは別個のハウジングまたは構造中に配置され得る。前に説明した電子デバイス102、602および/またはワイヤレス通信デバイス302、502、802のうちの1つまたは複数は、電子デバイス902と同様に構成され得る。電子デバイス902はプロセッサ939を含む。プロセッサ939は、汎用シングルまたはマルチチップマイクロプロセッサ(例えば、ARM)、専用マイクロプロセッサ(例えば、デジタル信号プロセッサ(DSP))、マイクロコントローラ、プログラマブルゲートアレイ等であり得る。プロセッサ939は中央処理ユニット(CPU)と呼ばれることがある。図9の電子デバイス902中に単一のプロセッサ939のみを示しているが、代替構成では、プロセッサ939の組合せ(例えば、ARMとDSPと)が使用され得る。
電子デバイス902はまた、プロセッサ939と電子通信しているメモリ933を含む。すなわち、プロセッサ939は、メモリ933から情報を読み取ること、および/またはメモリ933に情報を書き込むことができる。メモリ933は、電子情報を記憶することが可能な任意の電子的構成要素であり得る。メモリ933は、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、磁気ディスクストレージ媒体、光記憶媒体、RAM中のフラッシュメモリデバイス、プロセッサ939とともに含まれるオンボードメモリ、プログラマブル読取り専用メモリ(PROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、電気的消去可能PROM(EEPROM)、レジスタ、およびこれらの組合せであり得る。
データ937aおよび複数の命令935aはメモリ933に記憶され得る。これら命令935aは、1つまたは複数のプログラム、ルーチン、サブルーチン、関数、プロシージャ等を含み得る。これら命令935aは、単一のコンピュータ可読ステートメントまたは多くのコンピュータ可読ステートメントを含み得る。これら命令935aは、上述の方法200、400、700のうちの1つまたは複数を実装するために、プロセッサ939によって実行可能であり得る。これら命令935aを実行することは、メモリ933に記憶されたデータ937aの使用を含み得る。図9は、プロセッサ939にロードされている(命令935aおよびデータ937aから来ることがある)いくつかの命令935bおよびデータ937bを示す。
電子デバイス902はまた、他の電子デバイス902と通信するための1つまたは複数の通信インターフェース943を含み得る。通信インターフェース943は、ワイヤード通信技術、ワイヤレス通信技術、またはその両方に基づき得る。様々なタイプの通信インターフェース943の例としては、シリアルポート、パラレルポート、ユニバーサルシリアルバス(USB)、イーサネットアダプター、IEEE1394バスインターフェース、小型コンピュータシステムインターフェース(SCSI)バスインターフェース、赤外線(IR)通信ポート、Bluetooth(登録商標)ワイヤレス通信アダプター等がある。
電子デバイス902はまた、1つまたは複数の入力デバイス945と、1つまたは複数の出力デバイス949とを含み得る。様々な種類の入力デバイス945の例としては、キーボード、マウス、マイクロフォン、遠隔制御デバイス、ボタン、ジョイスティック、トラックボール、タッチパッド、ライトペン等がある。例えば、電子デバイス902は、音響信号をキャプチャするための1つまたは複数のマイクロフォン947を含み得る。一構成において、マイクロフォン947は、音響信号(例えば、ボイス、音声)を電気または電子信号に変換するトランスデューサであり得る。様々な種類の出力デバイス949の例としては、スピーカー、プリンタ等がある。例えば、電子デバイス902は1つまたは複数のスピーカー951を含み得る。一構成において、スピーカー951は、電気または電子信号を音響信号に変換するトランスデューサであり得る。電子デバイス902中に典型的に含まれ得る1つの特定のタイプの出力デバイス949はディスプレイデバイス953である。本明細書で開示する構成とともに使用されるディスプレイデバイス953は、陰極線管(CRT)、液晶ディスプレイ(LCD)、発光ダイオード(LED)、ガスプラズマ、エレクトロルミネセンス等のような、任意の好適な画像投影技術を利用し得る。ディスプレイコントローラ955はまた、メモリ933に記憶されたデータ937aをディスプレイデバイス953上に示されるテキスト、グラフィック、および/または動画(適宜)に変換するために設けられ得る。
電子デバイス902の様々な構成要素は、電力バス、制御信号バス、ステータス信号バス、データバス等を含み得る1つまたは複数のバスによって互いに結合され得る。簡単のために、図9では様々なバスはバスシステム941として示してある。図9が電子デバイス902の1つの可能な構成を示しているにすぎないことに留意されたい。様々な他のアーキテクチャおよび構成要素が利用され得る。
図10は、ワイヤレス通信デバイス1002内に含まれ得るいくつかの構成要素を示す図である。上述の電子デバイス102、602および/またはワイヤレス通信デバイス302、502、802のうちの1つまたは複数は、図10に示すワイヤレス通信デバイス1002と同様に構成され得る。
ワイヤレス通信デバイス1002はプロセッサ1075を含む。プロセッサ1075は、汎用シングルまたはマルチチップマイクロプロセッサ(例えば、ARM)、専用マイクロプロセッサ(例えば、デジタル信号プロセッサ(DSP))、マイクロコントローラ、プログラマブルゲートアレイ等であり得る。プロセッサ1075は中央処理ユニット(CPU)と呼ばれることがある。図10のワイヤレス通信デバイス1002には単一のプロセッサ1075のみが示されるが、代替構成では、プロセッサ1075(例えば、ARMとDSP)の組合せが使用され得る。
ワイヤレス通信デバイス1002はまた、プロセッサ1075と電子通信しているメモリ1057を含む(すなわち、プロセッサ1075は、メモリ1057から情報を読み取ること、および/またはメモリ1057に情報を書き込むことができる)。メモリ1057は、電子情報を記憶することが可能な任意の電子的構成要素であり得る。メモリ1057は、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、磁気ディスクストレージ媒体、光記憶媒体、RAM中のフラッシュメモリデバイス、プロセッサ1075とともに含まれるオンボードメモリ、プログラマブル読取り専用メモリ(PROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、電気的消去可能PROM(EEPROM)、レジスタ、およびこれらの組合せであり得る。
データ1059aおよび複数の命令1061aはメモリ1057に記憶され得る。これら命令1061aは、1つまたは複数のプログラム、ルーチン、サブルーチン、関数、プロシージャ、コード等を含み得る。これら命令1061aは、単一のコンピュータ可読ステートメントまたは多くのコンピュータ可読ステートメントを含み得る。これら命令1061aは、上述の方法200、400、700のうちの1つまたは複数を実装するために、プロセッサ1075によって実行可能であり得る。命令1061aを実行することは、メモリ1057に記憶されたデータ1059aの使用を含み得る。図10は、プロセッサ1075にロードされている(メモリ1057中の命令1061aおよびデータ1059aから来ることがある)いくつかの命令1061bおよびデータ1059bを示す。
ワイヤレス通信デバイス1002はまた、ワイヤレス通信デバイス1002と遠隔ロケーション(例えば、別の電子デバイス、ワイヤレス通信デバイス等)との間の信号の送信および受信を可能にするために、送信機1071と受信機1073とを含み得る。送信機1071と受信機1073とはトランシーバ1069と総称されることがある。アンテナ1077はトランシーバ1069に電気的に結合され得る。ワイヤレス通信デバイス1002は、複数の送信機1071、複数の受信機1073、複数のトランシーバ1069および/または複数のアンテナ1077をも含み得る(図示せず)。
いくつかの構成において、ワイヤレス通信デバイス1002は、音響信号をキャプチャするための1つまたは複数のマイクロフォン1063を含み得る。一構成において、マイクロフォン1063は、音響信号(例えば、ボイス、音声)を電気または電子信号に変換するトランスデューサであり得る。追加または代替として、ワイヤレス通信デバイス1002は1つまたは複数のスピーカー1065を含み得る。一構成において、スピーカー1065は、電気または電子信号を音響信号に変換するトランスデューサであり得る。
ワイヤレス通信デバイス1002の様々な構成要素は、電力バス、制御信号バス、ステータス信号バス、データバス等を含み得る1つまたは複数のバスによって互いに結合され得る。簡単のために、図10では様々なバスはバスシステム1067として示される。
「判断」という用語は、多種多様なアクションを包含し、従って、「判断」は、計算、算出、処理、導出、調査、探索(例えば、テーブル、データベースまたは別のデータ構造での探索)、確認等を含むことができる。また、「判断」は、受信(例えば、情報を受信すること)、アクセス(例えば、メモリ中のデータにアクセスすること)等を含むことができる。また、「判断」は、解決、選択、選定、確立等を含むことができる。
「に基づいて」という句は、別段に明示されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という句は、「のみに基づいて」と「に少なくとも基づいて」の両方を表す。
本明細書で説明した機能は、1つまたは複数の命令としてプロセッサ可読媒体またはコンピュータ可読媒体上に記憶され得る。「コンピュータ可読媒体」という用語は、コンピュータまたはプロセッサによってアクセスされ得る任意の利用可能な媒体を指す。限定ではなく、例として、そのような媒体は、RAM、ROM、EEPROM、フラッシュメモリ、CD−ROMまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータまたはプロセッサによってアクセスされ得る、任意の他の媒体を備え得る。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)、およびブルーレイ(登録商標)ディスク(disc)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、データをレーザーで光学的に再生する。コンピュータ可読媒体は有形で非一時的であり得ることに留意されたい。「コンピュータプログラム製品」という用語は、コンピューティングデバイスまたはプロセッサによって実行、処理または計算され得るコードまたは命令(例えば、「プログラム」)と組み合わせたコンピューティングデバイスまたはプロセッサを指す。本明細書で使用する「コード」という用語は、コンピューティングデバイスまたはプロセッサによって実行可能であるソフトウェア、命令、コードまたはデータを指すことがある。
ソフトウェアまたは命令はまた、伝送媒体を介して送信され得る。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、およびマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波のようなワイヤレス技術は、送信媒体の定義に含まれる。
本明細書で開示する方法は、説明した方法を達成するための1つまたは複数のステップまたはアクションを備える。本方法のステップおよび/またはアクションは、特許請求の範囲から逸脱することなく互いに交換され得る。言い換えれば、説明されている方法の適切な動作のためにステップまたはアクションの特定の順序が必要とされない限り、特定のステップおよび/またはアクションの順序および/または使用は、特許請求の範囲から逸脱することなく修正され得る。
特許請求の範囲は、上記に示した正確な構成および構成要素に限定されないことを理解されたい。特許請求の範囲から逸脱することなく、本明細書で説明したシステム、方法、および装置の構成、動作および詳細において、様々な修正、変更および変形が行われ得る。
以下に本件出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
マスキング信号を生成するための電子デバイスであって、
複数のマイクロフォンと、
スピーカーと、
プロセッサと、
前記プロセッサと電子通信しているメモリと、
前記メモリに記憶された複数の命令と
を備える、電子デバイスであって、前記複数の命令が、
前記複数のマイクロフォンから複数のオーディオ信号を取得することと、
前記複数のオーディオ信号から環境信号を取得することと、
前記環境信号に基づいて環境特徴を判断することと、
前記複数のオーディオ信号からボイス信号を取得することと、
前記ボイス信号に基づいてボイス特徴を判断することと、
前記ボイス特徴と前記環境特徴とに基づいてマスキング信号を生成することと、
前記スピーカーを使用して前記マスキング信号を出力することと
を行うように実行可能である、電子デバイス。
[C2]
前記複数の命令が、音信号を取得するようにさらに実行可能である、C1に記載の電子デバイス。
[C3]
前記マスキング信号を生成することが前記音信号にさらに基づく、C2に記載の電子デバイス。
[C4]
前記音信号が音楽を備える、C2に記載の電子デバイス。
[C5]
前記マスキング信号を生成することが、前記ボイス信号に基づいてエンベロープ信号と直接関係にある前記音信号の前記振幅を調節することを備える、C2に記載の電子デバイス。
[C6]
前記マスキング信号を生成することが、前記環境信号に基づいて振幅と逆関係にある前記音信号の前記振幅を調節することを備える、C2に記載の電子デバイス。
[C7]
前記音信号が入力に基づいて選択される、C2に記載の電子デバイス。
[C8]
前記ボイス特徴が、振幅特性と、スペクトル特性と、空間特性と、時間特性とからなるグループから選択された1つを備える、C1に記載の電子デバイス。
[C9]
前記ボイス特徴がラウドネスエンベロープを備える、C1に記載の電子デバイス。
[C10]
前記環境特徴が、振幅特性と、スペクトル特性と、空間特性と、時間特性とからなるグループから選択された1つを備える、C1に記載の電子デバイス。
[C11]
前記環境特徴がラウドネス特性を備える、C1に記載の電子デバイス。
[C12]
前記ボイス信号を取得することが、前記複数のオーディオ信号から前記環境信号を除去することを備える、C1に記載の電子デバイス。
[C13]
前記ボイス信号を取得することが、エコーキャンセラを使用して前記複数のオーディオ信号から1つまたは複数のエコー信号を除去することを備える、C1に記載の電子デバイス。
[C14]
前記複数の命令が、前記ボイス信号を送信するようにさらに実行可能である、C1に記載の電子デバイス。
[C15]
前記マスキング信号を生成することが、前記ボイス特徴に基づいて前記ボイス信号を変調する振幅を備える、C1に記載の電子デバイス。
[C16]
前記電子デバイスがワイヤレス通信デバイスである、C1に記載の電子デバイス。
[C17]
複数のスピーカーをさらに備える、C1に記載の電子デバイス。
[C18]
電子デバイス上でマスキング信号を生成するための方法であって、
複数のマイクロフォンから複数のオーディオ信号を取得することと、
前記複数のオーディオ信号から環境信号を取得することと、
前記環境信号に基づいて環境特徴を判断することと、
前記複数のオーディオ信号からボイス信号を取得することと、
前記ボイス信号に基づいてボイス特徴を判断することと、
前記ボイス特徴と前記環境特徴とに基づいてマスキング信号を生成することと、
スピーカーを使用して前記マスキング信号を出力することと
を備える、方法。
[C19]
音信号を取得することをさらに備える、C18に記載の方法。
[C20]
前記マスキング信号を生成することが前記音信号にさらに基づく、C19に記載の方法。
[C21]
前記音信号が音楽を備える、C19に記載の方法。
[C22]
前記マスキング信号を生成することが、前記ボイス信号に基づいてエンベロープ信号と直接関係にある前記音信号の前記振幅を調節することを備える、C19に記載の方法。
[C23]
前記マスキング信号を生成することが、前記環境信号に基づいて振幅と逆関係にある前記音信号の前記振幅を調節することを備える、C19に記載の方法。
[C24]
前記音信号が入力に基づいて選択される、C19に記載の方法。
[C25]
前記ボイス特徴が、振幅特性と、スペクトル特性と、空間特性と、時間特性とからなるグループから選択された1つを備える、C18に記載の方法。
[C26]
前記ボイス特徴がラウドネスエンベロープを備える、C18に記載の方法。
[C27]
前記環境特徴が、振幅特性と、スペクトル特性と、空間特性と、時間特性とからなるグループから選択された1つを備える、C18に記載の方法。
[C28]
前記環境特徴がラウドネス特性を備える、C18に記載の方法。
[C29]
前記ボイス信号を取得することが、前記複数のオーディオ信号から前記環境信号を除去することを備える、C18に記載の方法。
[C30]
前記ボイス信号を取得することが、エコーキャンセラを使用して前記複数のオーディオ信号から1つまたは複数のエコー信号を除去することを備える、C18に記載の方法。
[C31]
前記複数の命令が、前記ボイス信号を送信するようにさらに実行可能である、C18に記載の方法。
[C32]
前記マスキング信号を生成することが、前記ボイス特徴に基づいて前記ボイス信号を変調する振幅を備える、C18に記載の方法。
[C33]
前記電子デバイスがワイヤレス通信デバイスである、C18に記載の方法。
[C34]
前記電子デバイスが複数のスピーカーを備える、C18に記載の方法。
[C35]
複数の命令をその上に有する非一時的有形コンピュータ可読媒体を備える、マスキング信号を生成するためのコンピュータプログラム製品であって、前記複数の命令が、
電子デバイスに、複数のマイクロフォンから複数のオーディオ信号を取得させるためのコードと、
前記電子デバイスに、前記複数のオーディオ信号から環境信号を取得させるためのコードと、
前記電子デバイスに、前記環境信号に基づいて環境特徴を判断させるためのコードと、
前記電子デバイスに、前記複数のオーディオ信号からボイス信号を取得させるためのコードと、
前記電子デバイスに、前記ボイス信号に基づいてボイス特徴を判断させるためのコードと、
前記電子デバイスに、前記ボイス特徴と前記環境特徴とに基づいてマスキング信号を生成させるためのコードと、
前記電子デバイスに、スピーカーを使用して前記マスキング信号を出力させるためのコードと
を備える、コンピュータプログラム製品。
[C36]
前記複数の命令が、前記電子デバイスに、音信号を取得させるためのコードをさらに備える、C35に記載のコンピュータプログラム製品。
[C37]
前記マスキング信号を生成することが前記音信号にさらに基づく、C36に記載のコンピュータプログラム製品。
[C38]
前記マスキング信号を生成することが、前記ボイス信号に基づいてエンベロープ信号と直接関係にある前記音信号の前記振幅を調節することを備える、C36に記載のコンピュータプログラム製品。
[C39]
前記マスキング信号を生成することが、前記環境信号に基づいて振幅と逆関係にある前記音信号の前記振幅を調節することを備える、C36に記載のコンピュータプログラム製品。
[C40]
前記音信号が入力に基づいて選択される、C36に記載のコンピュータプログラム製品。
[C41]
前記ボイス信号を取得することが、エコーキャンセラを使用して前記複数のオーディオ信号から1つまたは複数のエコー信号を除去することを備える、C35に記載のコンピュータプログラム製品。
[C42]
マスキング信号を生成するための装置であって、
複数のマイクロフォンから複数のオーディオ信号を取得するための手段と、
前記複数のオーディオ信号から環境信号を取得するための手段と、
前記環境信号に基づいて環境特徴を判断するための手段と、
前記複数のオーディオ信号からボイス信号を取得するための手段と、
前記ボイス信号に基づいてボイス特徴を判断するための手段と、
前記ボイス特徴と前記環境特徴とに基づいてマスキング信号を生成するための手段と、
スピーカーを使用して前記マスキング信号を出力するための手段と
を備える、装置。
[C43]
音信号を取得するための手段をさらに備える、C42に記載の装置。
[C44]
前記マスキング信号を生成することが前記音信号にさらに基づく、C43に記載の装置。
[C45]
前記マスキング信号を生成することが、前記ボイス信号に基づいてエンベロープ信号と直接関係にある前記音信号の前記振幅を調節することを備える、C43に記載の装置。
[C46]
前記マスキング信号を生成することが、前記環境信号に基づいて振幅と逆関係にある前記音信号の前記振幅を調節することを備える、C43に記載の装置。
[C47]
前記音信号が入力に基づいて選択される、C43に記載の装置。
[C48]
前記ボイス信号を取得することが、エコーキャンセラを使用して前記複数のオーディオ信号から1つまたは複数のエコー信号を除去することを備える、C42に記載の装置。