JP5911955B2

JP5911955B2 - 電子デバイス上でのマスキング信号の生成

Info

Publication number: JP5911955B2
Application number: JP2014514460A
Authority: JP
Inventors: シャン、ペイ; ファン、ジョセフ・ジウ—ヘイ; ファン、ジョセフ・ジウ―ヘイ; シェブシウ、アンドレ・ガスタボ・プッチ; マウロ、アンソニー; ビッサー、エリック
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2011-06-07
Filing date: 2012-05-03
Publication date: 2016-04-27
Anticipated expiration: 2032-05-03
Also published as: CN103650533B; CN103650533A; WO2012170128A1; KR101540896B1; KR20140019023A; JP2014520284A; US20120316869A1; EP2719195A1; US8972251B2

Description

本開示は、一般に電子デバイスに関する。より詳細には、本開示は、電子デバイス上でマスキング信号(masking signal)を生成することに関する。

最近の数十年で、電子デバイスの使用が一般的になった。特に、電子技術の進歩はますます複雑で有用になる電子デバイスのコストを低減した。コスト低減および消費者需要により、電子デバイスが現代社会において事実上ユビキタスであるほど電子デバイスの使用が激増した。電子デバイスの使用が拡大するにつれて、電子デバイスの新しい改善された特徴に対する需要も拡大した。より詳細には、より高速に、より効率的に、またはより高品質で機能を行う電子デバイスがしばしば求められる。

いくつかの電子デバイス（例えば、オーディオレコーダ、セルラーフォン、スマートフォン、コンピュータ等）はオーディオまたは音声信号(audio or speech signals)を使用する。例えば、セルラーフォンは、マイクロフォンを使用してユーザの声(voice)または音声(speech)をキャプチャする。例えば、セルラーフォンは、マイクロフォンを使用して音響信号(acoustic signal)を電子信号に変換する。この電子信号はこの後記憶され、および／または別のデバイス（例えば、セルラーフォン、スマートフォン、コンピュータ等）に送信され得る。

場合により、電子デバイスのユーザはユーザの音声またはボーカル情報(speech or vocal information)を機密にしておきたいことがある。これは、ユーザが公共の場所にいる場合に難しいかもしれない。例えば、ユーザが空港、バス、あるいは公園で人前にいながらセルラーフォンで機密の会話をしたいことがある。しかしながら、これは、他人が近くで聞いていることがあるので難しいかもしれない。この所見からわかるように、ボーカルまたは音声情報の機密性を維持することに役立つシステムおよび方法が有益であり得る。

マスキング信号を生成するための電子デバイスが開示される。本電子デバイスは、複数のマイクロフォンとスピーカーとを含む。本電子デバイスはまた、プロセッサと、プロセッサと電子通信しているメモリに記憶された複数の命令とを含む。本電子デバイスは、複数のマイクロフォンから複数のオーディオ信号を取得する。本電子デバイスはまた、複数のオーディオ信号から環境信号を取得する。さらに、本電子デバイスは、環境信号に基づいて環境特徴(ambience feature)を判断する。本電子デバイスは、さらに、複数のオーディオ信号からボイス信号を取得する。本電子デバイスはまた、ボイス信号に基づいてボイス特徴を判断する。マスキング信号は、ボイス特徴(voice feature)と環境特徴とに基づいて電子デバイスによって生成される。本電子デバイスは、さらに、スピーカーを使用してマスキング信号を出力する。本電子デバイスはまた、ボイス信号を送信し得る。本電子デバイスはワイヤレス通信デバイスであり得る。本電子デバイスは複数のスピーカーを含み得る。

本電子デバイスはまた、音信号(sound signal)を取得し得る。マスキング信号を生成することは音信号にさらに基づき得る。音信号は音楽を含み得る。マスキング信号を生成することは、ボイス信号に基づいてエンベロープ信号と直接関係にある音信号の振幅を調節することを含み得る。マスキング信号を生成することは、環境信号に基づいて振幅と逆関係にある音信号の振幅を調節することを含み得る。音信号は、入力に基づいて選択され得る。マスキング信号を生成することは、ボイス特徴に基づいてボイス信号を振幅変調することを含み得る。

ボイス特徴は、振幅特性、スペクトル特性、空間特性または時間特性を含み得る。ボイス特徴はラウドネスエンベロープを含み得る。環境特徴は、振幅特性、スペクトル特性、空間特性または時間特性を含み得る。環境特徴はラウドネス特性を含み得る。

ボイス信号を取得することは、複数のオーディオ信号から環境信号を除去することを含み得る。ボイス信号を取得することは、エコーキャンセラを使用して複数のオーディオ信号から１つまたは複数のエコー信号を除去することを含み得る。

電子デバイス上でマスキング信号を生成するための方法も開示される。本方法は、複数のマイクロフォンから複数のオーディオ信号を取得することを含む。本方法はまた、複数のオーディオ信号から環境信号を取得することを含む。本方法は、環境信号に基づいて環境特徴を判断することをさらに含む。さらに、本方法は、複数のオーディオ信号からボイス信号を取得することを含む。本方法はまた、ボイス信号に基づいてボイス特徴を判断することを含む。また、ボイス特徴と環境特徴とに基づいてマスキング信号を生成することが本方法に含まれる。本方法は、さらに、スピーカーを使用してマスキング信号を出力することを含む。

マスキング信号を生成するためのコンピュータプログラム製品も開示される。本コンピュータプログラム製品は、複数の命令をもつ非一時的有形コンピュータ可読媒体を含む。これら命令は、電子デバイスに、複数のマイクロフォンから複数のオーディオ信号を取得させるためのコードを含む。これら命令はまた、電子デバイスに、複数のオーディオ信号から環境信号を取得させるためのコードを含む。これら命令は、電子デバイスに、環境信号に基づいて環境特徴を判断させるためのコードをさらに含む。さらに、これら命令は、電子デバイスに、複数のオーディオ信号からボイス信号を取得させるためのコードを含む。また、電子デバイスに、ボイス信号に基づいてボイス特徴を判断させるためのコードがこれら命令に含まれる。これら命令はまた、電子デバイスに、ボイス特徴と環境特徴とに基づいてマスキング信号を生成させるためのコードを含む。これら命令は、電子デバイスに、スピーカーを使用してマスキング信号を出力させるためのコードをさらに含む。

マスキング信号を生成するための装置も開示される。本装置は、複数のマイクロフォンから複数のオーディオ信号を取得するための手段を含む。本装置はまた、複数のオーディオ信号から環境信号を取得するための手段を含む。本装置は、環境信号に基づいて環境特徴を判断するための手段をさらに含む。さらに、本装置は、複数のオーディオ信号からボイス信号を取得するための手段を含む。また、ボイス信号に基づいてボイス特徴を判断するための手段が本装置に含まれる。本装置はまた、ボイス特徴と環境特徴とに基づいてマスキング信号を生成するための手段を含む。本装置は、スピーカーを使用してマスキング信号を出力するための手段をさらに含む。

マスキング信号を生成するためのシステムおよび方法が実装され得る電子デバイスの一構成を示すブロック図。電子デバイス上でマスキング信号を生成するための方法の一構成を示す流れ図。マスキング信号を生成するためのシステムおよび方法が実装され得る送信ワイヤレス通信デバイスの一構成を示すブロック図。送信ワイヤレス通信デバイス上でマスキング信号を生成するための方法の構成を示す流れ図。マスキング信号を生成するためのシステムおよび方法が実装され得るワイヤレス通信デバイスの一構成を示すブロック図。電子デバイス上でマスキング信号を生成することの一例を示すブロック図。ワイヤレス通信デバイス上でマスキング信号を生成するための方法の一構成を示す流れ図。マスキング信号を生成するためのシステムおよび方法が実装され得るワイヤレス通信デバイスにおけるいくつかの構成要素の一構成を示すブロック図。電子デバイスにおいて利用され得る様々な構成要素を示す図。ワイヤレス通信デバイス内に含まれ得るいくつかの構成要素を示す図。

詳細な説明
本明細書で開示するシステムおよび方法は、様々な電子デバイスに適用され得る。電子デバイスの例としては、ボイスレコーダ、ビデオカメラ、オーディオプレーヤ（例えば、ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ−１（ＭＰＥＧ−１）またはＭＰＥＧ−２ＡｕｄｉｏＬａｙｅｒ３（ＭＰ３）プレーヤ）、ビデオプレーヤ、オーディオレコーダ、デスクトップコンピュータ／ラップトップコンピュータ、携帯情報端末（ＰＤＡ）、ゲームシステム等がある。電子デバイスの一種は、別のデバイスと通信し得る通信デバイスである。通信デバイスの例としては、電話、ラップトップコンピュータ、デスクトップコンピュータ、セルラーフォン、スマートフォン、ワイヤレスまたはワイヤードモデム、電子リーダー、タブレットデバイス、ゲームシステム、セルラー電話基地局またはノード、アクセスポイント、ワイヤレスゲートウェイおよびワイヤレスルータがある。

電子デバイスまたは通信デバイス（例えば、ワイヤレス通信デバイス）は、国際電気通信連合（ＩＴＵ）標準および／または米国電気電子技術者協会（ＩＥＥＥ）標準（例えば、８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ、８０２．１１ｎおよび／または８０２．１１ａｃのようなワイヤレスフィデリティーまたは「Ｗｉ−Ｆｉ」標準）等、いくつかの業界標準に従って動作し得る。通信デバイスが準拠し得る標準の他の例としては、ＩＥＥＥ８０２．１６（例えば、ＷｏｒｌｄｗｉｄｅＩｎｔｅｒｏｐｅｒａｂｉｌｉｔｙｆｏｒＭｉｃｒｏｗａｖｅＡｃｃｅｓｓまたは「ＷｉＭＡＸ」）、ＴｈｉｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ（３ＧＰＰ）、３ＧＰＰＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ（ＬＴＥ）、ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ（ＧＳＭ）（登録商標）、その他がある（通信デバイスは、例えば、ユーザ機器（ＵＥ）、ノードＢ、発展型ノードＢ（ｅＮＢ）、モバイルデバイス、移動局、加入者局、遠隔局、アクセス端末、モバイル端末、端末、端末ユーザ端末、加入者ユニット等と呼ばれることがある）。本明細書で開示するシステムおよび方法のいくつかは１つまたは複数の規格の観点で記述されることがあるが、これは、これらシステムおよび方法が多くのシステムおよび／または規格に適用可能なので、本開示の範囲を限定しようとするものではない。

いくつかの通信デバイスは、ワイヤレス通信でき、および／またはワイヤード接続もしくはリンクを使用して通信できることに留意されたい。例えば、いくつかの通信デバイスは、イーサネット（登録商標）プロトコルを使用して他のデバイスと通信できる。本明細書で開示するシステムおよび方法は、ワイヤレス通信し、および／またはワイヤード接続もしくはリンクを使用して通信する通信デバイスに適用され得る。一構成において、本明細書で開示するシステムおよび方法は、衛星を使用して別のデバイスと通信する通信デバイスに適用され得る。

音響信号（例えば、ボイス、音声または他の信号）が機密情報を含む多くの場合がある。例えば、ユーザは、セルラー電話通話で機密の話題について話し合うことを望むことがある。しかしながら、ユーザは、この話し合いが（例えば、人中で）立ち聞きされ、機密の話題の暴露の危険を冒し得る状況にある間、こうした機密の話題について話し合うことの能力において制限され得る。

本明細書で開示するシステムおよび方法は、電子デバイスを使用して音響信号（例えば、ボイス、音声または他の信号）を不明瞭にする、すなわちマスキングする方策を提供する。一構成において、電子デバイスは、ボイス信号または音声信号をキャプチャし、それから１つまたは複数の特徴を抽出する。特徴の例としては、大きさまたは振幅（例えば、振幅特徴）、周波数（例えば、スペクトル特徴）、タイミング（例えば、時間特徴）および／あるいは他の特徴（例えば、空間特徴）がある。例えば、電子デバイスは、ボイス信号のエンベロープ（例えば、振幅やラウドネスエンベロープ）を判断し、および／またはボイス信号が１つまたは複数のしきい値を満たすかどうかを検出し得る。電子デバイスはまた、環境信号（例えば、ボイス信号や音声信号でない背景雑音や他の音）をキャプチャし、それから１つまたは複数の特徴を抽出し得る。電子デバイスは、１つまたは複数の抽出されたボイス特徴および／または環境特徴に基づいて音信号を制御し得る。例えば、電子デバイスは、抽出された特徴に基づいて音楽、ピンクノイズ、あるいは何か他の音源のようなオーディオまたはサウンド信号を修正(modify)してマスキング信号を生成し得る。一実装形態において、電子デバイスは、ボイス信号を直接変調（例えば、振幅変調）してマスキング信号を生成し得る。電子デバイスは、次いで、スピーカー（例えば、スピーカーフォン、ラップトップコンピュータ等における１つまたは複数のスピーカー）を使用してマスキング信号を出力する。このようにして、ボイス信号や音声信号は不明瞭にされ、盗み聞きする人がボイス信号や音声信号の内容を立ち聞きしたり理解したりすることを難しくできる。

本明細書で開示するシステムおよび方法はまた、マスキング信号の低減や消去（例えば、近似削除）を可能にし得る。例えば、ボイス信号がセルラーフォン上のユーザ音声である場合、セルラーフォンは、ボイス信号が（例えば、別のデバイスに）送信される前にボイス信号からマスキング音を低減、あるいは消去できる。本明細書で開示するシステムおよび方法はまた、圧倒的にならずにボイス信号を不明瞭にすることを可能にし得る。例えば、マスキング信号は、近傍にいる電子デバイスユーザまたは他者の気をあまり散らせずにボイス信号を効果的に不明瞭にするためにちょうど必要な大きさであり得る。例えば、プライバシーを高めるために、環境雑音を用いる音マスキングがオフィスにおいて使用され得る。一例では、典型的オープンオフィスにおいて４０〜４８Ａ加重デシベル（ｄＢ（Ａ）：A-weighted decibel）のサウンドマスカーが圧倒的にならずにボイス信号を不明瞭にするために使用され得る。しかしながら、本明細書で開示するシステムおよび方法はより小さいリスニングエリアにおいて使用でき、マスカーレベルはボイスエネルギーを用いて経時調整され得る。

明確さのために、本明細書で開示するシステムおよび方法が適用され得る状況の例を以下に与える。ユーザが空港のセキュリティチェックの長い列に立っている間にモバイルフォンで重要な仕事上の電話を受けると仮定する。ユーザの上司はユーザが電話に出ることを期待するが、話し合いの話題が極めて機密であるかもしれず、近くに立っている他者に詳細を聞かれたくないことから、ユーザは躊躇する。ユーザが内証で電話に出るために列を離れると、ユーザは飛行機に乗りそこなうかもしれない。場合によっては、ユーザが電話に出て、実に大きな損害となり得る失策であるが、他者が盗み聞きしないことを期待するかもしれない。

一構成において、本明細書で開示するシステムおよび方法は、空港における列で、執務中におけるキュービクル(cubical)で、または狭苦しいエレベータに搭乗しながらというような、いずれかの環境において音声通話(voice call)を秘密にできる。本明細書で開示するシステムおよび方法は、近傍にいる他者が詳細を聞くことができないように、インテリジェントかつ動的に音声通話をマスキングできる。クローゼットに隠れたり、電話で囁いたりすることに頼らず、ユーザは、本明細書で開示するシステムおよび方法が使用されるときの公共設定でプライバシーを維持しながら、通常の声のトーンで話して明瞭に対話できる。

本明細書で開示するシステムおよび方法は、ユーザのボイスを使用してマスキング信号を生成できるシステムを記述するものである。このマスキング信号は、ユーザのボイスまたは音声のプライバシー（例えば、電話機会話(phone conversation)のプライバシー）を保護するために使用できる。ニアエンドユーザのボイスは、電子デバイス上の１つまたは複数のマイクロフォンによってキャプチャされ得る。さらに、１つまたは複数のマイクロフォンによって環境信号（例えば、背景音または雑音）もキャプチャされ得る。ボイス信号がエンベロープ抽出およびしきい値検出のようなプロセスを用いて分析され、その結果がマスキング信号の特性を制御するために使用され得る。環境信号の１つまたは複数の特徴も抽出され、マスキング信号の特性を制御するために使用され得る。マスキング信号は、次いで、同じ電子デバイス上のラウドスピーカーを通して再生され得る。ニアエンドユーザの周りのローカルエリアでは、他者がマスキング音とともにユーザのボイスを聞き得る。マスキング信号はユーザの音声の詳細を不明瞭にするので、ユーザの周りの他者はユーザのボイスまたは音声の内容を理解し難いこと気付き得る。

本明細書で開示するシステムおよび方法の一構成において、電子デバイスは環境雑音に従っておよび／またはユーザのボイスまたは音声に従ってマスキング信号のボリュームを自動的にリアルタイムで調整して、マスキング音がユーザのボイスを効果的に不明瞭にするのに必要なだけ大きくなるようにできる。別の構成において、本システムはボイス信号に基づいて判断されるスペクトル重心を使用して（１つまたは複数の）音源のピッチを追加または代替として調整できる。さらに、本システムは、別のユーザがユーザの音声をはっきりと聞き取れるように、ボイス信号の受信機のためにマスキング信号や音を自動的に相殺(cancel out)できる。例えば、マスキング信号は、電子デバイス上のエコーキャンセラによってユーザの音声信号からマスキング音を除去(remove)するために使用され得る。追加または代替として、最良の性能および個人的な興味のために、複数のタイプのマスキング音（例えば、「小川のせせらぎ」、「穏やかな波」、「鯨ソング」、ポップソング、ピンクノイズ等）が選択され得る。

ラウドスピーカー（例えば、スピーカーフォンスピーカー）は、１つまたは複数のマイクロフォンと同じデバイス上に含まれ得る。マスキング信号が再生または出力されるとき、デバイスの最も協調的な音響効果は、最大エネルギーが外側に放出され、ニアエンドユーザの耳がマスカーから低減または最小化されたエネルギーを受信するようなものであり得る。本明細書で開示するシステムおよび方法は、システムパフォーマンスおよび／またはユーザエクスペリエンスを改善するために、例えば、複数のラウドスピーカー、指向性ラウドスピーカー、ビームフォーミング技法および／またはデバイス遮音(device insulation)を使用し得る。

開けた空間におけるマスキング信号または音は、ファーエンドリスナー(far-end listener)に関係のないことがあり、従って、適切な了解度を維持するために除去(remove)され得る。マスキング信号は、適応型音響エコーキャンセラの使用によって送信信号から低減または除去され得る。

本明細書で開示するシステムおよび方法は、マスカーまたはマスキング音の選択肢を与え得る。例えば、マスカーは、ボリュームが音声通話を完全にマスキングしていない場合でも、音声通話の内容が他者にとってほとんど理解できないように選定され得る。一方、マスカーはまた、ファーエンドユーザ(far-end user)の了解度が損なわれず、さらに、会話中にニアエンドユーザ(near-end user)が音を許容できるように快適であり得る。

概念の証明のために、モックアップマイクロフォンおよびスピーカーをもつパーソナルコンピュータ（ＰＣ）ベースリアルタイムプロトタイプを構築した。この構成では、マイクロフォンとスピーカーとが同じデバイス上にあった。マイクロフォンをスピーカーとは反対側に離れて配置した。マイクロフォンとスピーカーとを、それぞれ適切にバイアスおよび増幅した。それらのラインレベル信号をラップトップコンピュータのサウンドカードの入力および出力に接続した。

ラップトップ上で、リアルタイムオーディオプログラミングソフトウェアＭａｘ／ＭＳＰを、マイクロフォン信号を使用し、マスカーを設計するように構成した。プロトタイプ設計では、音声自体と、ピンクノイズと、音楽との振幅変調を用いた３つのマスカーを実験した。（例えば、ランプアップ時間(ramp-up time)および／またはランプダウン時間(ramp-down time)を使用する）適切なしきい値設定をもつ、マイクロフォンからのキャプチャされたボイスのエンベロープによって、すべてのマスカーのレベルをスムーズに制御した。このプロトタイプではモデル化しなかったが、本明細書で開示するシステムおよび方法に従ってエコーキャンセラが実装され得る。音レベル分析およびマスカー設計における多くのパラメータは調整可能であり得る。

プロトタイプにおけるすべての３つのマスカーでは、マスカーレベルが適切であると、近くに立っている人は、会話の内容を容易に理解することができなかった。マスカーのうち、音楽は魅力的なエクスペリエンスを与え得る。例えば、音楽は、ニアエンド送話者の会話に干渉しないことがあり、さらに、心地よいバックグラウンドイベントとして機能する。同時に、音楽は、特に、ニアエンド音声をマスキングするサウンドトラック中にボーカルパートがあるとき、プライバシー保護に非常に有効であり得る。

人通りの多い公共エリアで移動している間にプライバシーを維持することは、特に、機密性の高い情報を扱うビジネス専門家、弁護士等にとって非常に重要である。他者が、オンスクリーンデータ（例えば、視覚データ）についてこの問題にアプローチした１つの方法はプライバシースクリーンフィルタを与えることである。一例は、３ＭＮｏｔｅｂｏｏｋＰｒｉｖａｃｙＦｉｌｔｅｒである。このフィルタは、モニタの真正面の６０度の「セーフエリア」外で閲覧されたとき、モニタ上のデータを不明瞭にする。これは、ユーザはスクリーン上のデータをはっきりと見ることができるが、ユーザの横の人々は見ることができないことを意味する。３ＭＮｏｔｅｂｏｏｋＰｒｉｖａｃｙＦｉｌｔｅｒは、成功した製品であり、有用であり得る。

一構成では、居合わせた人が会話を盗み聞きするのを防ぐためにマスキング信号を生成することは次のように実装され得る。ユーザは、居合わせた人の方向を識別し得る。ニアエンドボイスアクティビティが検出されるたびに、雑音パルスが居合わせた人の方向に放出され、それによって、ニアエンドユーザのボイスをマスキングし得る。ニアエンドユーザのイヤピースは、生成された雑音パルスもキャプチャし得るので、耳道内雑音消去のために何らかの形態のアクティブ雑音制御または消去（ＡＮＣ：active noise control or cancellation）が使用され、ならびに放出された雑音シールドにもかかわらずファーエンド受信ボイス了解度を維持するために何らかの形態の受信ボイス強調（ＲＶＥ：receive voice enhancement）が使用され得る。例えば、ＲＶＥは、ボイスをある雑音フロアの上に維持するために、ボイスの異なる周波数領域をブーストし得る。ニアエンド雑音低減を実現するために生成される雑音基準は、ニアエンドマイクロフォンを使用して構成され得、および／またはマスキング信号を生成する際に使用される雑音信号は、雑音低減およびＲＶＥブロック／モジュールに直接供給され得る。ＲＶＥブロック／モジュールは、一定の信号対雑音比（ＳＮＲ）または知覚モデルに基づき得、従って、雑音信号についての知識は、最良の了解度のためにイヤピースにおいて再生される強調されたファーエンド信号(far-end signal)を迅速に生じ得る。エコー消去（ＥＣ：echo cancellation）ブロック／モジュールはまた、ニアエンド音声強調タスクに寄与するために、再生されたラウドスピーカー信号についての知識を利用し得る。ニアエンドマイクロフォンアレイはまた、ロバストなニアエンドユーザボイスアクティビティ検出器を作成するために使用され得る。さらなる詳細を以下に与える。

本明細書で開示するシステムおよび方法の一構成では、ボイスマイクロフォンが音声をキャプチャする。次いで、音声の性質が分析され得、それから、電子デバイスは、マスカー（例えば、マスキング信号生成器）を操作するために制御信号を導出する。マスカー音源信号は、音声自体、合成信号、および／または、例えば、ハンドセット内のメディアファイルのような他の音源からのオーディオ（例えば、音信号）であり得る。音は、次いで、盗み聞きする人に干渉するためにスピーカーを通して再生され得る。

別の構成において、本明細書で開示するシステムおよび方法は、音声をキャプチャするためだけでなく、周囲に関するさらなる情報を収集するためにもマルチマイクロフォン能力を使用し得る。例えば、フロントエンドにおいて単一のマイクロフォンではなく複数のマイクロフォンが使用され得る。ブラインド音源分離のようなマルチマイクロフォン処理の後に、電子デバイスは、よりクリーンな音声信号を取得するだけでなく、（例えば、残余から）環境信号も取得し得る。

環境信号に対してさらなる分析が行われることができ、従って、環境雑音に関するラウドネス、方向および／または他の特性等に関する知識が獲得され得る。次いで、マスキング信号をさらに調整するために、第２の制御信号がマスカー（例えば、マスキング信号レベル／特性コントローラ）に供給され得る。環境雑音レベルが高い、および／または環境のタイプがすでに良好なマスカーである状況において、マスカー（例えば、アクティブマスキング信号生成器）は、周囲環境がただ無音であるときに比べてあまり激しく動作する必要がないことがある。

例えば、３つの異なる状況でハンドセットを使用する、本明細書で開示するシステムおよび方法に基づいて実装されるハンドセットのユーザを比較する。第１のシナリオにおいて、ユーザは図書館で通話している。その環境は非常に静かであり、ユーザが発言するすべての言葉は容易に立ち聞きおよび／または識別され得る。本明細書で開示するシステムおよび方法は、十分なマスカーレベルを生成し得、従って、会話のプライバシーは安全である。第２のシナリオでは、ユーザがニューヨーク証券取引所において電話で話していると仮定する。周りにいる多数の人々が多くのバブル雑音を発生していることがあり得る。ここで、バブル雑音は、電話機会話を不明瞭にするのにほとんど十分であり得、従って、マスカーは、（環境バブル雑音によって）マスキングされない会話が保護され得るようなはるかに低いレベルで動作し得る。第３のシナリオでは、ユーザがバスまたは列車で話していると仮定する。この設定において、その環境は多くの低周波雑音を生成し得、従って、ユーザ音声の低周波部分はすでにマスキングされている。ここで、アクティブマスカーは、ユーザの会話のより高周波部分を対象とし保護するだけでよいことがある。従って、第１のシナリオの場合のようにマスカーがフルブラストで動作することなしにいくつかのスペクトル調整が行われ得る。

次に、図を参照しながら様々な構成について説明する。同様の要素名は機能的に同様の要素を示し得る。本明細書で一般的に述べられ、図に示すシステムおよび方法は、多種多様な異なる構成で構成および設計され得る。従って、図に表されるいくつかの構成についての以下のより詳細な説明は、請求する範囲を限定するものではなく、システムおよび方法を代表するものにすぎない。

図１は、マスキング信号を生成するためのシステムおよび方法が実装され得る電子デバイス１０２の一構成を示すブロック図である。電子デバイス１０２の例としては、オーディオレコーダ、電話、デジタルカメラ、デジタルカムコーダ、セルラーフォン、スマートフォン、ラップトップコンピュータ、デスクトップコンピュータ、ゲームシステム、携帯情報端末、音楽プレーヤ（例えば、ＭＰ３プレーヤ）等がある。電子デバイス１０２は、１つまたは複数のマイクロフォン１０４ａ〜ｎ、マルチマイクロフォン処理ブロック／モジュール１０６、環境分析ブロック／モジュール１１２、音声特徴抽出ブロック／モジュール１２２、マスカー１３６、１つまたは複数の音源１２８および／あるいは１つまたは複数のスピーカー１４４を含み得る。本明細書で使用する「ブロック／モジュール」という用語は、特定の要素（例えば、環境分析ブロック／モジュール１１２）がハードウェア、ソフトウェアまたは両方の組合せで実装され得ることを示し得る。

１つまたは複数のマイクロフォン１０４ａ〜ｎは、音響信号を電気または電子信号に変換するために使用されるトランスデューサ（例えば、音響電気トランスデューサ）であり得る。例えば、１つまたは複数のマイクロフォン１４０ａ〜ｎは、音響ボイス信号(acoustic voice signal)１４６および／あるいは１つまたは複数の音響環境信号(acoustic ambient signals)１４８ａ〜ｎをキャプチャし、それらをマルチマイクロフォン処理ブロック／モジュール１０６に与えられる電気的電気または電子信号に変換し得る。例えば、マイクロフォン１０４ａ〜ｎの各々は、音響ボイス信号１４６、音響環境信号１４８ａ〜ｎまたは両方の混合を表すオーディオ信号（例えば、電気または電子信号）を生成し得る。一構成において、複数のオーディオ信号(multiple audio signals)は、このようにして、複数のマイクロフォン１０４ａ〜ｎを使用して取得され得る。マイクロフォン１０４ａ〜ｎの例としては、ダイナミックマイクロフォン、コンデンサマイクロフォン、圧電マイクロフォン、光ファイバーマイクロフォン、レーザーマイクロフォン等がある。いくつかの構成では、１つまたは複数のマイクロフォン１０４ａ〜ｎのすべてが電子デバイス１０２の同じ側に配置され得る。他の構成では、マイクロフォン１０４ａ〜ｎのうちの１つまたは複数が互いに電子デバイス１０２の異なる側（例えば、反対側）に配置され得る。例えば、マイクロフォン１０４ａ〜ｎのうちの１つまたは複数は、音響ボイス信号１４６をキャプチャするように指定されるか、またはそうすることに専用のものであり得、一方、マイクロフォン１０４ａ〜ｎのうちの１つまたは複数は、音響環境信号１４８ａ〜ｎをキャプチャするように指定されるか、またはそうすることに専用のものであり得る。また、マイクロフォン１０４ａ〜ｎのうちの１つまたは複数が、（１つまたは複数の）スピーカー１４４のうちの１つまたは複数と、電子デバイス１０２の同じ側に配置されることも配置されないこともあることに留意されたい。

マルチマイクロフォン処理ブロック／モジュール１０６は、１つまたは複数のマイクロフォン１０４ａ〜ｎによって与えられるオーディオ信号（例えば、電気または電子信号）を処理するために使用され得る。マルチマイクロフォン処理ブロック／モジュール１０６は音源分離ブロック／モジュール１０８を含み得る。音源分離ブロック／モジュール１０８は、ボイス信号１２０を生成（例えば、推定）し得る。例えば、音源分離ブロック／モジュール１０８は、ボイス信号１２０を推定するために、（１つまたは複数の）キャプチャされたオーディオ信号から推定された環境信号（例えば、環境雑音）１１０を除去し得る。ボイス信号１２０は、音声特徴抽出ブロック／モジュール１２２に与えられ得る。ボイス信号１２０は、随意に、マスカー１３６に与えられ得る。いくつかの構成では、ボイス信号１２０がメモリに記憶され得る。例えば、電子デバイス１０２は、後の検索および／または出力のためにメモリにボイス信号１２０を記憶し得るデジタルボイスレコーダであり得る。

音声特徴抽出ブロック／モジュール１２２は、ボイス信号１２０から１つまたは複数の特徴を抽出するために使用され得る。ボイス信号１２０の特徴の例としては、大きさまたは振幅（例えば、ラウドネス、ボリューム等）特徴、スペクトル（例えば、ピッチまたは周波数）特徴、空間（例えば、指向性）特徴および／または時間（例えば、タイミング、遷移、位相）特徴等がある。音声特徴抽出ブロック／モジュール１２２は、抽出された１つまたは複数の特徴に基づいて第１の制御信号１３０を生成し得る。一構成において、音声特徴抽出ブロック／モジュール１２２は、エンベロープ検出ブロック／モジュール１２４および／またはしきい値検出ブロック／モジュール１２６を含み得る。エンベロープ検出ブロック／モジュール１２４は、ボイス信号１２０に基づいてエンベロープ信号（例えば、振幅やラウドネスエンベロープ）を判断し得る。例えば、このエンベロープ信号は、ボイス信号１２０の振幅やラウドネス（およびそれらの変形形態）を示し得る。この振幅やラウドネスは、音圧、音圧レベル（例えば、デシベル）、音響インテンシティ、音響パワー、ソーン、フォン、ボルトおよび／またはアンペア等として測定または特徴づけられ得る。

しきい値検出ブロック／モジュール１２６は、エンベロープ信号が１つまたは複数のしきい値にいつ達するかまたは超えるかを検出し得る。例えば、しきい値検出ブロック／モジュール１２６は、エンベロープ信号の振幅がいつ所与の量増加または所与の量減少されたかを検出し得る。一例では、振幅の範囲内にいくつかのしきい値が確立され得る。別の例では、エンベロープ信号の参照サンプルまたは平均よりある量または割合だけ高い１つのしきい値が確立され得る一方で、参照サンプルまたは平均よりある量または割合だけ下回る別のしきい値が確立され得る。しきい値検出ブロック／モジュール１２６は、エンベロープ信号がしきい値にいつ達したかまたは超えたか、および／あるいはどのしきい値に達したかまたは超えたかを示し得る。この情報は、例えば、第１の制御信号１３０の一部としてマスカーに与えられ得る。

追加または代替として、音声特徴抽出ブロック／モジュール１２２は、「他の特徴」検出ブロック／モジュール１５０を含み得る。他の特徴検出ブロック／モジュール１５０は、ボイス信号１２０の他の特徴を検出し得る。他の特徴の例としては、スペクトル（例えば、周波数）特性と、空間（例えば、指向性）特性と、時間（例えば、タイミング、位相、遷移等）特性とがある。

音声特徴抽出ブロック／モジュール１２２によって与えられる第１の制御信号１３０は、抽出された実際の特徴（例えば、エンベロープ信号、スペクトル特性、空間特性、他の特性等）および／または制御情報を抽出された特徴（例えば、振幅やラウドネスランピングのトリガ等）に基づいて与え得る。第１の制御信号１３０はマスカー１３６に与えられ得る。

環境分析ブロック／モジュール１１２は、マスカー１３６に与えられる第２の制御信号１３２を生成するために環境信号１１０を分析し得る。環境分析ブロック／モジュール１１２は、振幅（例えば、ラウドネス）検出ブロック／モジュール１１４、方向検出ブロック／モジュール１１６および／または他の特徴検出ブロック／モジュール１１８を含み得る。振幅検出ブロック／モジュール１１４は、環境信号１１０の振幅やラウドネスを検出または抽出し得る。例えば、振幅やラウドネスは、環境信号１１０のエンベロープを検出することによって測定され得る。この振幅やラウドネスは、音圧、音圧レベル（例えば、デシベル）、音響インテンシティ、音響パワー、ソーン、フォン、ボルトおよび／またはアンペア等として測定または特徴づけられ得る。いくつかの構成では、環境信号１１０の振幅やラウドネスは、スペクトルまたは周波数範囲にわたって測定され得る。このようにして、環境信号１１０は、例えば、電子デバイス１０２によって受信された音響環境信号（例えば、音(sound)や雑音(noise)）１４８ａ〜ｎのスペクトル大きさに基づいて特徴づけられ得る。

方向検出ブロック／モジュール１１６は、音響環境信号（例えば、音や雑音）１４８ａ〜ｎの方向（および／または他の空間特性）を判断または推定し得る。例えば、方向検出ブロック／モジュール１１６は、特定の音響環境信号１４８ａ〜ｎの方向を判断するために、複数のマイクロフォン１０４ａ〜ｎによって受信されたオーディオ信号間の位相シフトを使用し得る。他の特徴検出ブロック／モジュール１１８は、スペクトル（例えば、周波数）特性および／または時間（例えば、タイミング、位相、遷移）特性のような、環境信号１１０の他の特徴を検出するために使用され得る。

環境分析ブロック／モジュール１１２によって与えられる第２の制御信号１３２は、分析された実際の特徴（例えば、振幅、方向、スペクトル特性等）および／または制御情報を、分析された特徴（例えば、振幅やラウドネスランピングのトリガ等）に基づいて与え得る。第２の制御信号１３２はマスカー１３６に与えられ得る。

１つまたは複数の音源１２８は、マスカー１３６に１つまたは複数の音信号１３４を与え得る。音源１２８の例としては、音楽やサウンドのファイル（例えば、ｍｏｖｉｎｇｐｉｃｔｕｒｅｅｘｐｅｒｔｓｇｒｏｕｐ（ＭＰＥＧ）−１またはＭＰＥＧ−２ａｕｄｉｏｌａｙｅｒ３（ＭＰ３）ファイル、ｗａｖｅｆｏｒｍａｕｄｉｏｆｉｌｅｆｏｒｍａｔ（ＷＡＶ）ファイル、ｍｕｓｉｃａｌｉｎｓｔｒｕｍｅｎｔｄｉｇｉｔａｌｉｎｔｅｒｆａｃｅ（ＭＩＤＩ）ファイル等）、合成音または雑音および／あるいは（例えば、別のデバイスから音信号１３４を受信するための）オーディオ入力またはインターフェース等がある。例えば、１つの音源１２８は、音楽やサウンドのファイルを与える電子デバイス１０２上のメモリであり得、一方、別の音源１２８は、別のデバイスから音信号１３４を受信するために使用されるポートであり得る。１つまたは複数の音源１２８は随意であり得る。例えば、マスカー１３６は、マスキング信号１４２を生成するためにボイス信号１２０のみを使用し得る。追加または代替として、マスカー１３６は、マスキング信号１４２を生成するために１つまたは複数の音源１２８から与えられる音信号１３４を使用し得る。いくつかの構成では、使用される音源１２８および／または音信号１３４が入力に基づいて選択され得る。例えば、電子デバイス１０２は、使用のための特定の音源１２８および／または音信号１３４を示すユーザ入力をユーザインターフェース（図１に図示せず）を介して受信し得る。例えば、電子デバイス１０２は、選択された音源１２８および／または音信号１３４を示す、キーボード、マウス、タッチスクリーン、マイクロフォン１０４、ボタン等を使用した入力を受信し得る。

マスカー１３６は、マスキング信号１４２を生成するために使用されるブロック／モジュールであり得る。マスキング信号１４２は、音響ボイス信号１４６を不明瞭にする、すなわちマスキングするために、１つまたは複数のスピーカー１４４（例えば、ラウドスピーカー）を使用し音響マスキング信号１５２として出力され得る。マスカー１３６は、第１の制御信号１３０と第２の制御信号１３２とに基づいてマスキング信号１４２を生成し得る。上述のように、マスキング信号１４２はまた、ボイス信号１２０に加えて、またはその代わりに音信号１３４に基づき得る。例えば、マスキング信号１４２は、第１の制御信号１３０と第２の制御信号１３２とに基づいて調整および／または修正され、メモリから音信号１３４として与えられる音楽を備え得る。別の例において、マスキング信号１４２は、第１の制御信号１３０と第２の制御信号１３２とに基づいて調整および／または修正されるボイス信号１２０を備え得る。

マスカー１３６は、例えば、レベル制御ブロック／モジュール１３８および／または特徴制御ブロック／モジュール１４０を含み得る。レベル制御ブロック／モジュール１３８は入力信号（例えば、ボイス信号１２０および／または音信号１３４）のレベル（例えば、振幅、大きさ、ボリューム、ラウドネス等）を第１の制御信号１３０および／または第２の制御信号１３２に基づいて調整し得る。一例において、マスカー１３６は、第１の制御信号１３０中で与えられる音声エンベロープに基づいてボイス信号１２０を振幅変調し得る。

別の例において、レベル制御１３８は、第１の制御信号１３０中で与えられる音声エンベロープ（または音声エンベロープに基づくしきい値トリガ）と直接関係にある入力信号の振幅やラウドネスを調整し得る。例えば、音声エンベロープの振幅やラウドネスが増加された場合、レベル制御１３８は、入力信号の振幅やラウドネスを増加（例えば、ランプアップ）させ得る。しかしながら、音声エンベロープの振幅やラウドネスが減少された場合、レベル制御１３８は、入力信号の振幅やラウドネスを減少（例えば、ランプダウン）させ得る。例えば、ユーザがより大きな声で、あるいはより穏やかに話すと、電子デバイス１０２は、音響ボイス信号１４６を効果的に不明瞭にするために、それぞれ、より大きな、あるいはより穏やかな音響マスキング信号１５２を生成し得る。これは、圧倒的あるいは不快にならずに音響ボイス信号１４６を不明瞭にするのに必要なだけ大きい音響マスキング信号１５２を与え得る。

追加または代替として、レベル制御ブロック／モジュール１３８は入力信号（例えば、ボイス信号１２０および／または音信号１３４）のレベル（例えば、振幅、ラウドネス等）を第２の制御信号１３２に基づいて調整し得る。例えば、レベル制御１３８は、第２の制御信号１３２中で与えられる環境振幅やラウドネス（あるいは振幅やラウドネスに基づくしきい値トリガ）と逆関係にある入力信号の振幅やラウドネスを調整し得る。例えば、環境信号１１０の振幅やラウドネスが増加された場合、レベル制御１３８は入力信号の振幅やラウドネスを減少（例えば、ランプダウン）させ得る。しかしながら、環境信号１１０の振幅やラウドネスが減少された場合、レベル制御１３８は入力信号の振幅やラウドネスを増加（例えば、ランプアップ）させ得る。例えば、音響環境信号（例えば、音や雑音）１４８ａ〜ｎがより大きく、あるいはより穏やかになると、電子デバイス１０２は、それぞれ、より穏やかな、あるいはより大きな音響マスキング信号１５２を生成し得る。例えば、環境信号（例えば、音または雑音）１４８ａ〜ｎが、音響ボイス信号１４６を効果的にマスキングするのに必要な大きさおよび／または正しい特性のものである場合、電子デバイス１０２は、大きい音響マスキング信号１５２を生成する必要がないことがある。従って、マスカー１３６は、より効率的に動作し、場合によっては、電力を節約し得る。

マスカー１３６は、追加または代替として、特徴制御１４０を含み得る。特徴制御１４０は、第１の制御信号１３０および／または第２の制御信号１３２に基づいて入力信号（例えば、ボイス信号１２０および／または音信号１３４）の１つまたは複数の特徴を制御し得る。例えば、ボイス信号１２０および／または環境信号１１０のスペクトル特性に基づいて入力信号（例えば、ボイス信号１２０および／または音信号１３４）のスペクトル特性を調整し得る。例えば、音響ボイス信号１４６の低周波部分を効果的に不明瞭にするのに十分な低周波雑音が音響環境信号（例えば、音）１４８ａ〜ｎ中にあるが、高周波部分を効果的に不明瞭にするのに十分な高周波雑音が音響環境信号１４８ａ〜ｎ中にないことを第２の制御信号１３２が示す場合、特徴制御１４０は音響ボイス信号１４６の高周波部分を効果的にマスキングする音響マスキング信号１５２を生成するために（単独でまたはレベル制御１３８を使用して）音信号１３４の高周波部分中で振幅やラウドネスを増加させ得る。

別の例において、特徴制御１４０は、第１の制御信号１３０および／または第２の制御信号１３２に基づいて音響マスキング信号１５２の空間特性（例えば、指向性）を調整し得る。例えば、第１の制御信号１３０は受信した音響ボイス信号１４６の方向を示し得る一方で、第２の制御信号１３２は音響環境信号（例えば、音）１４８ａ〜ｎの１つまたは複数の方向を示し得る。特徴制御１４０は音響マスキング信号１５２の指向性を調整するためにこの情報を使用し、ユーザ（例えば、音響ボイス信号１４６の音源）から離れるように音響マスキング信号１５２をステアリングし得る。追加または代替として、特徴制御１４０は、音響ボイス信号１４６をマスキングするのに十分である強い環境信号（例えば、音）１４８ａ〜ｎから離れるように、および／または静かな環境信号１４８ａ〜ｎに潜在的に向かって、および／または音響環境信号１４８ａ〜ｎのない方向に音響マスキング信号１５２をステアリングし得る。これは、例えば、音響ボイス信号１４６がより容易に立ち聞きされるかもしれない方向において音響ボイス信号１４６を不明瞭にするのに役立ち得る。

１つまたは複数のスピーカー１４４が、電気または電子信号（例えば、マスキング信号１４２）を音響信号（例えば、音響マスキング信号１５２）に変換するトランスデューサ（例えば、電気音響トランスデューサ）であり得ることに留意されたい。一構成において、１つまたは複数のスピーカー１４４は全方向性であり得る。他の構成において、１つまたは複数のスピーカー１４４は指向性であり得る。例えば、スピーカー１４４のアレイは、いくつかの構成において、音響マスキング信号１５２を特定の方向に向けるために使用され得る。いくつかの構成において、１つまたは複数のスピーカー１４４は１つまたは複数のマイクロフォン１０４ａ〜ｎに関して電子デバイス１０２の異なる側（例えば、反対側）に配置され得る。他の構成において、スピーカー１４４のうちの１つまたは複数は、１つまたは複数のマイクロフォン１０４ａ〜ｎと同じ、電子デバイス１０２の側に配置され得る。

図２は、電子デバイス１０２上でマスキング信号１４２を生成するための方法２００の一構成を示す流れ図である。電子デバイス１０２は２０２で複数のマイクロフォン１０４ａ〜ｎから複数のオーディオ信号を取得する。例えば、複数のマイクロフォン１０４ａ〜ｎは、音響ボイス信号１４６および／あるいは１つまたは複数の音響環境信号１４８ａ〜ｎを電気または電子オーディオ信号に変換し得る。

電子デバイス１０２は、２０４で複数のオーディオ信号から環境信号１１０を取得する。例えば、電子デバイス１０２はオーディオ信号中の環境音および／または雑音を推定し得る。一構成において、電子デバイス１０２はボイスアクティビティ検出器をオーディオ信号中の環境音および／または雑音を推定するために使用し得る。この構成において、例えば、より動的なおよび散発性なオーディオアクティビティはボイスとして分類され得、一方、より定常の音は環境音として分類され得る。別の構成において、ブラインド音源分離（ＢＳＳ：blind source separation）信号処理機構は、複数のマイクロフォンによってキャプチャされた信号からボイス信号を除去し、これにより環境音のより良い推定を与え得る。

電子デバイス１０２は、２０６で環境特徴を環境信号１１０に基づいて判断する。特徴の例としては、振幅（例えば、大きさ、ラウドネス等）特性、空間特性（例えば、方向）、スペクトル特性（例えば、ピッチ、周波数）および／または時間特性等がある。例えば、電子デバイス１０２は、２０６で環境信号１１０の振幅（例えば、ラウドネスエンベロープ）を判断し得る。追加または代替として、電子デバイス１０２は、２０６でオーディオ信号中の観測された位相シフトを使用して音響環境信号１４８ａ〜ｎの空間特性（例えば、指向性）を判断し得る。追加または代替として、電子デバイス１０２は、２０６でスペクトル特性（例えば、周波数範囲にわたる環境信号１１０の振幅または大きさ）を判断し得る。いくつかの構成において、電子デバイス１０２は第２の制御信号１３２を環境特徴に基づいて生成し得る。

電子デバイス１０２は２０８でボイス信号１２０を複数のオーディオ信号から取得する。例えば、電子デバイス１０２はボイス信号１２０をオーディオ信号から分離し得る。一構成において、電子デバイス１０２は、ボイス信号１２０を推定するために、雑音推定値（例えば、環境信号１１０）をオーディオ信号から減算または除去し得る。１つの典型的なロバストな逆混合例はブラインド音源分離（ＢＳＳ）である。例えば、信号の音源がマイクロフォン１０４ａ〜ｎの数以下であるとき、ＢＳＳ信号処理を通して音源（例えば、ボイス）のうちの１つが抽出され得る。

電子デバイス１０２は、２１０でボイス特徴をボイス信号１２０に基づいて判断する。特徴の例としては、振幅（例えば、大きさ、ラウドネス等）特性、時間特性、空間特性（例えば、方向）および／またはスペクトル特性等がある。例えば、電子デバイス１０２は、２１０でボイス信号１２０の振幅（例えば、ラウドネスエンベロープ）を判断し得る。追加または代替として、電子デバイス１０２は、２１０でオーディオ信号中の観測された位相シフトを使用して、音響ボイス信号１４２の指向性を判断し得る。追加または代替として、電子デバイス１０２は、２１０でスペクトル特性（例えば、周波数範囲にわたるボイス信号１２０の振幅や大きさ）を判断し得る。いくつかの構成において、電子デバイス１０２は第１の制御信号１３０をボイス特徴に基づいて生成し得る。

電子デバイス１０２は、２１２でボイス特徴と環境特徴とに基づいて（例えば、第１の制御信号１３０と第２の制御信号１３２とに基づいて）マスキング信号１４２を生成する。例えば、電子デバイス１０２は、ボイス特徴と環境特徴とに基づいて信号（例えば、音信号１３４）の振幅、大きさ、ラウドネスまたはボリュームを調整してマスキング信号１４２を２１２で生成し得る。一構成において、電子デバイス１０２は、ボイスエンベロープ（例えば、振幅やラウドネスエンベロープ）と直接関係にある信号（例えば、音信号１３４）の振幅やラウドネスを調整し、環境振幅やラウドネス（例えば、振幅やラウドネスエンベロープ）と逆関係にある信号の振幅やラウドネスを調整する。他の構成において、電子デバイス１０２は信号（例えば、ボイス信号１２０および／または音信号１３４）をボイス特徴および／または環境特徴に基づいて振幅変調し得る。

別の構成において、電子デバイス１０２は信号（例えば、変調されたボイス信号１２０および／または音信号１３４）のスペクトル特性をボイス特徴および／または環境特徴に基づいて調整し得る。例えば、音響ボイス信号１４６の低周波部分を効果的に不明瞭にするのに十分な低周波雑音が音響環境信号（例えば、音）１４８ａ〜ｎ中にあるが、高周波部分を効果的に不明瞭にするのに十分な高周波雑音が音響環境信号１４８ａ〜ｎ中にないことを、環境特徴が示す場合、電子デバイス１０２は、音響ボイス信号１４６の高周波部分を効果的にマスキングする音響マスキング信号１５２を生成するために、音信号１３４の高周波部分中で振幅やラウドネスを増加させ得る。

さらに別の例において、電子デバイス１０２は、マスキング信号１４２を２１２で生成するために信号（例えば、変調されたボイス信号１２０および／または音信号１３４）の空間特性（例えば、指向性）を調整し得る。例えば、ボイス特徴は受信した音響ボイス信号１４６の方向を示し得る一方で、環境特徴は音響環境信号（例えば、音）１４８ａ〜ｎの１つまたは複数の方向を示し得る。この情報は、音響マスキング信号１５２の指向性を調整するために使用されて、ユーザ（例えば、音響ボイス信号１４６の音源）から離れて音響マスキング信号１５２をステアリングし得る。追加または代替として、音響マスキング信号１５２は、音響ボイス信号１４６をマスキングするのに十分である強い環境信号（例えば、音）１４８ａ〜ｎから離れて、および／または静かな環境信号１４８ａ〜ｎに潜在的に向かって、および／または音響環境信号１４８ａ〜ｎのない方向にステアリングされ得る。これは、例えば、音響ボイス信号１４６がより容易に立ち聞きされるかもしれない方向において音響ボイス信号１４６を不明瞭にするのに役立ち得る。

電子デバイス１０２は、２１４でマスキング信号１４２を出力する。例えば、電子デバイス１０２は、マスキング信号１４２を音響マスキング信号１５２に変換し得る１つまたは複数のスピーカー１４４にマスキング信号１４２を与え得る。

図２に示した方法２００が電子デバイス１０２によってリアルタイムに行われ得ることに留意されたい。例えば、オーディオ信号は２０２で取得され、環境信号１１０は２０４で取得され、環境特徴は２０６で判断され、ボイス信号１２０は２０８で取得され、ボイス特徴は２１０で判断され、および／またはマスキング信号１４２は２１２で生成され、リアルタイムに２１４で出力され得る。方法２００は、対応する音響マスキング信号１５２を用いて音響ボイス信号１４６を効果的にマスキングするためにリアルタイムで行われ得る。

図３は、マスキング信号を生成するためのシステムおよび方法が実装され得る送信ワイヤレス通信デバイス３０２の一構成を示すブロック図である。送信ワイヤレス通信デバイス３０２の例としては、セルラーフォン、スマートフォン、ラップトップコンピュータ、タブレットデバイス、ゲームシステム、携帯情報端末、音楽プレーヤ（例えば、ＭＰ３プレーヤ）等がある。送信ワイヤレス通信デバイス３０２は、１つまたは複数のマイクロフォン３０４ａ〜ｎ、マルチマイクロフォン処理ブロック／モジュール３０６、環境分析ブロック／モジュール３１２、音声特徴抽出ブロック／モジュール３２２、マスカー３３６、１つまたは複数の音源３２８、１つまたは複数のスピーカー３４４、エンコーダ３５４、変調器３５６、送信機３５８および／あるいは１つまたは複数のアンテナ３６０ａ〜ｎを含み得る。

１つまたは複数のマイクロフォン３０４ａ〜ｎは、音響信号を電気または電子信号に変換するために使用されるトランスデューサ（例えば、音響電気トランスデューサ）であり得る。例えば、１つまたは複数のマイクロフォン３０４ａ〜ｎは、音響ボイス信号および／あるいは１つまたは複数の音響環境信号をキャプチャし、それらをマルチマイクロフォン処理ブロック／モジュール３０６に与えられる電気または電子信号に変換し得る。例えば、マイクロフォン３０４ａ〜ｎの各々は、音響ボイス信号、音響環境信号または両方の混合を表すオーディオ信号（例えば、電気または電子信号）を生成し得る。一構成において、複数のオーディオ信号は、このように複数のマイクロフォン３０４ａ〜ｎを使用して取得され得る。マイクロフォン３０４ａ〜ｎの例としては、ダイナミックマイクロフォン、コンデンサマイクロフォン、圧電マイクロフォン、光ファイバーマイクロフォン、レーザーマイクロフォン等がある。

マルチマイクロフォン処理ブロック／モジュール３０６は、１つまたは複数のマイクロフォン３０４ａ〜ｎによって与えられるオーディオ信号（例えば、電気または電子信号）を処理するために使用され得る。マルチマイクロフォン処理ブロック／モジュール３０６は音源分離ブロック／モジュール３０８を含み得る。音源分離ブロック／モジュール３０８は、ボイス信号３２０を生成（例えば、推定）し得る。例えば、音源分離ブロック／モジュール３０８は、ボイス信号３２０を推定するために、（１つまたは複数の）キャプチャされたオーディオ信号から推定された環境信号（例えば、環境雑音）３１０を除去し得る。ボイス信号３２０は、音声特徴抽出ブロック／モジュール３２２に与えられ得る。ボイス信号３２０は、随意に、マスカー３３６におよび／またはエンコーダ３５４に与えられ得る。

音声特徴抽出ブロック／モジュール３２２は、ボイス信号３２０から１つまたは複数の特徴を抽出するために使用され得る。ボイス信号３２０の特徴の例としては、大きさまたは振幅（例えば、ラウドネス、ボリューム等）特徴、スペクトル（例えば、ピッチまたは周波数）特徴、空間（例えば、指向性）特徴および／または時間（例えば、位相、タイミング等）特徴等がある。音声特徴抽出ブロック／モジュール３２２は、抽出された１つまたは複数の特徴に基づいて第１の制御信号３３０を生成し得る。一構成において、音声特徴抽出ブロック／モジュール３２２は、エンベロープ検出ブロック／モジュール３２４および／またはしきい値検出ブロック／モジュール３２６を含み得る。エンベロープ検出ブロック／モジュール３２４は、ボイス信号３２０に基づいてエンベロープ信号（例えば、振幅やラウドネスエンベロープ）を判断し得る。例えば、このエンベロープ信号は、ボイス信号３２０の振幅やラウドネス（およびそれらの変形形態）を示し得る。この振幅やラウドネスは、音圧、音圧レベル（例えば、デシベル）、音響インテンシティ、音響パワー、ソーン、フォン、ボルトおよび／またはアンペア等として測定または特徴づけられ得る。

しきい値検出ブロック／モジュール３２６は、エンベロープ信号が１つまたは複数のしきい値にいつ達するかまたは超えるかを検出し得る。例えば、しきい値検出ブロック／モジュール３２６は、エンベロープ信号がいつ所与の量増加または所与の量減少されたかを検出し得る。一例では、振幅の範囲内にいくつかのしきい値が確立され得る。別の例では、エンベロープ信号の参照サンプルまたは平均よりある量または割合だけ高い１つのしきい値が確立され得る一方で、参照サンプルまたは平均よりある量または割合だけ下回る別のしきい値が確立され得る。しきい値検出ブロック／モジュール３２６は、エンベロープ信号がしきい値にいつ達したかまたは超えたか、および／あるいはどのしきい値に達したかまたは超えたかを示し得る。

追加または代替として、音声特徴抽出ブロック／モジュール３２２は、「他の特徴」検出ブロック／モジュール３５０を含み得る。他の特徴検出ブロック／モジュール３５０は、ボイス信号３２０の他の特徴を検出し得る。他の特徴の例としては、スペクトル（例えば、周波数）特性と、空間（例えば、指向性）特性と、時間（例えば、タイミング、位相、遷移等）特性とがある。

音声特徴抽出ブロック／モジュール３２２によって与えられる第１の制御信号３３０は、抽出された実際の特徴（例えば、エンベロープ信号特性、スペクトル特性等）および／または制御情報を、抽出された特徴（例えば、振幅やラウドネスランピングのトリガ等）に基づいて与え得る。第１の制御信号３３０はマスカー３３６に与えられ得る。

環境分析ブロック／モジュール３１２は、マスカー３３６に与えられる第２の制御信号３３２を生成するために環境信号３１０を分析し得る。環境分析ブロック／モジュール３１２は、振幅（例えば、ラウドネス）検出ブロック／モジュール３１４、方向検出ブロック／モジュール３１６および／または他の特徴検出ブロック／モジュール３１８を含み得る。振幅検出ブロック／モジュール３１４は、環境信号３１０の振幅やラウドネスを検出または抽出し得る。例えば、振幅やラウドネスは、環境信号３１０のエンベロープを検出することによって測定され得る。この振幅やラウドネスは、音圧、音圧レベル（例えば、デシベル）、音響インテンシティ、音響パワー、ソーン、フォン、ボルトおよび／またはアンペア等として測定または特徴づけられ得る。いくつかの構成において、環境信号３１０の振幅やラウドネスは、スペクトルまたは周波数範囲にわたって測定され得る。このようにして、環境信号３１０は、例えば、送信ワイヤレス通信デバイス３０２によって受信された音響環境信号（例えば、音または雑音）のスペクトル大きさに基づいて特徴づけられ得る。

方向検出ブロック／モジュール３１６は、音響環境信号（例えば、音または雑音）の方向を判断または推定し得る。例えば、方向検出ブロック／モジュール３１６は、特定の音響環境信号の方向を判断するために、複数のマイクロフォン３０４ａ〜ｎによって受信されたオーディオ信号間の位相シフトを使用し得る。他の特徴検出ブロック／モジュール３１８は、スペクトル（例えば、周波数）特性および／または時間（例えば、タイミング、位相、遷移）特性のような、環境信号３１０の他の特徴を検出するために使用され得る。

環境分析ブロック／モジュール３１２によって与えられる第２の制御信号３３２は、分析された実際の特徴（例えば、振幅、方向、スペクトル特性等）および／または制御情報を、分析された特徴（例えば、振幅やラウドネスランピングのトリガ等）に基づいて与え得る。第２の制御信号３３２はマスカー３３６に与えられ得る。

１つまたは複数の音源３２８は、マスカー３３６に１つまたは複数の音信号３３４を与え得る。音源３２８の例としては、音楽またはサウンドファイル（例えば、ｍｏｖｉｎｇｐｉｃｔｕｒｅｅｘｐｅｒｔｓｇｒｏｕｐ（ＭＰＥＧ）−１またはＭＰＥＧ−２ａｕｄｉｏｌａｙｅｒ３（ＭＰ３）ファイル、ｗａｖｅｆｏｒｍａｕｄｉｏｆｉｌｅｆｏｒｍａｔ（ＷＡＶ）ファイル、ｍｕｓｉｃａｌｉｎｓｔｒｕｍｅｎｔｄｉｇｉｔａｌｉｎｔｅｒｆａｃｅ（ＭＩＤＩ）ファイル等）、合成音または雑音および／あるいは（例えば、別のデバイスから音信号３３４を受信するための）オーディオ入力またはインターフェース等がある。例えば、１つの音源３２８は音楽やサウンドのファイルを与える送信ワイヤレス通信デバイス３０２上のメモリであり得る一方で、別の音源３２８は別のデバイスから音信号３３４を受信するために使用されるポートであり得る。１つまたは複数の音源３２８は随意であり得る。例えば、マスカー３３６は、ボイス信号３２０のみを使用してマスキング信号３４２を生成し得る。追加または代替として、マスカー３３６はマスキング信号３４２を生成するために１つまたは複数の音源３２８から与えられる音信号３３４を使用し得る。いくつかの構成では、使用される音源３２８および／または音信号３３４が入力に基づいて選択され得る。例えば、送信ワイヤレス通信デバイス３０２は、使用するための特定の音源３２８および／または音信号３３４を示す、ユーザインターフェース（図３に図示せず）を介したユーザ入力を受信し得る。例えば、送信ワイヤレス通信デバイス３０２は、キーボード、マウス、タッチスクリーン、マイクロフォン３０４、ボタン等を使用した、選択された音源３２８および／または音信号３３４を示す入力を受信し得る。

マスカー３３６は、マスキング信号３４２を生成するために使用されるブロック／モジュールであり得る。マスキング信号３４２は、音響ボイス信号を不明瞭にするかまたはマスキングするために、１つまたは複数のスピーカー３４４（例えば、ラウドスピーカー）を使用して音響マスキング信号として出力され得る。マスカー３３６は、第１の制御信号３３０と第２の制御信号３３２とに基づいてマスキング信号３４２を生成し得る。上述のように、マスキング信号３４２はまた、ボイス信号３２０に加えて、あるいはそれの代わりに音信号３３４に基づき得る。例えば、マスキング信号３４２は、第１の制御信号３３０と第２の制御信号３３２とに基づいて調整および／または修正され、メモリから音信号３３４として与えられる音楽を備え得る。別の例において、マスキング信号３４２は、第１の制御信号３３０と第２の制御信号３３２とに基づいて調整（例えば、振幅変調）されたボイス信号３２０を備え得る。

マスカー３３６は、例えば、レベル制御ブロック／モジュール３３８および／または特徴制御ブロック／モジュール３４０を含み得る。レベル制御ブロック／モジュール３３８は、入力信号（例えば、ボイス信号３２０および／または音信号３３４）のレベル（例えば、振幅、大きさ、ボリューム、ラウドネス等）を、第１の制御信号３３０および／または第２の制御信号３３２に基づいて調整し得る。

例えば、レベル制御３３８は、第１の制御信号３３０中で与えられる音声エンベロープ（または音声エンベロープに基づくしきい値トリガ）と直接関係にある入力信号の振幅やラウドネスを調整し得る。例えば、音声エンベロープの振幅やラウドネスが増加された場合、レベル制御３３８は入力信号の振幅やラウドネスを増加（例えば、ランプアップ）し得る。しかしながら、音声エンベロープの振幅やラウドネスが減少された場合、レベル制御３３８は入力信号の振幅やラウドネスを減少（例えば、ランプダウン）させ得る。例えば、ユーザがより大きな声で、あるいはより穏やかに話すと、送信ワイヤレス通信デバイス３０２は、音響ボイス信号を効果的に不明瞭にするために、それぞれ、より大きな、あるいはより穏やかな音響マスキング信号を生成し得る。これは、圧倒的あるいは不快にならずに音響ボイス信号を不明瞭にするのに必要なだけ大きい音響マスキング信号を与え得る。

追加または代替として、レベル制御ブロック／モジュール３３８は、入力信号（例えば、ボイス信号３２０および／または音信号３３４）のレベル（例えば、振幅、ラウドネス等）を第２の制御信号３３２に基づいて調整し得る。例えば、レベル制御３３８は、第２の制御信号３３２中で与えられる環境振幅やラウドネス（あるいは振幅やラウドネスに基づくしきい値トリガ）と逆関係にある入力信号の振幅やラウドネスを調整し得る。例えば、環境信号３１０の振幅やラウドネスが増加された場合、レベル制御３３８は入力信号の振幅やラウドネスを減少（例えば、ランプダウン）させ得る。しかしながら、環境信号３１０の振幅やラウドネスが減少された場合、レベル制御３３８は入力信号の振幅やラウドネスを増加（例えば、ランプアップ）させ得る。例えば、音響環境信号（例えば、音や雑音）がより大きく、あるいはより穏やかになると、送信ワイヤレス通信デバイス３０２は、それぞれ、より穏やかな、あるいはより大きな音響マスキング信号を生成し得る。例えば、環境信号（例えば、音や雑音）が、音響ボイス信号を効果的にマスキングするのに必要なだけ大きいおよび／または正しい特性のものである場合、送信ワイヤレス通信デバイス３０２は大きな音響マスキング信号を生成する必要がないことがある。従って、マスカー３３６は、より効率的に動作し、場合によっては、バッテリー電力を節約し得る。

マスカー３３６は、追加または代替として、特徴制御３４０を含み得る。特徴制御３４０は入力信号（例えば、ボイス信号３２０および／または音信号３３４）の１つまたは複数の特徴を第１の制御信号３３０および／または第２の制御信号３３２に基づいて制御し得る。例えば、特徴制御３４０は入力信号（例えば、ボイス信号３２０および／または音信号３３４）のスペクトル特性をボイス信号３２０および／または環境信号３１０のスペクトル特性に基づいて調整し得る。例えば、音響ボイス信号の低周波部分を効果的に不明瞭にするのに十分な低周波雑音が音響環境信号（例えば、音）中にあるが、高周波部分を効果的に不明瞭にするのに十分な高周波雑音が音響環境信号中にないことを、第２の制御信号３３２が示す場合、特徴制御３４０は、音響ボイス信号の高周波部分を効果的にマスキングする音響マスキング信号を生成するために、（単独でまたはレベル制御３３８を使用して）音信号３３４の高周波部分中で振幅やラウドネスを増加させ得る。

別の例において、特徴制御３４０は音響マスキング信号の指向性を第１の制御信号３３０および／または第２の制御信号３３２に基づいて調整し得る。例えば、第１の制御信号３３０は受信した音響ボイス信号の方向を示し得る一方で、第２の制御信号３３２は音響環境信号（例えば、音）の１つまたは複数の方向を示し得る。特徴制御３４０は、音響マスキング信号の指向性を調整するためにこの情報を使用し、ユーザ（例えば、音響ボイス信号の音源）から離れるように音響マスキング信号をステアリングし得る。追加または代替として、特徴制御３４０は、音響ボイス信号をマスキングするのに十分である強い環境信号（例えば、音）から離れるように、および／または静かな環境信号に潜在的に向かって、および／または音響環境信号のない方向に音響マスキング信号をステアリングし得る。これは、例えば、音響ボイス信号がより容易に立ち聞きされるかもしれない方向において音響ボイス信号を不明瞭にするのに役立ち得る。

１つまたは複数のスピーカー３４４が、電気または電子信号（例えば、マスキング信号３４２）を音響信号（例えば、音響マスキング信号）に変換するトランスデューサ（例えば、電気音響トランスデューサ）であり得ることに留意されたい。一構成において、１つまたは複数のスピーカー３４４は全方向性であり得る。他の構成において、１つまたは複数のスピーカー３４４は指向性であり得る。例えば、スピーカー３４４のアレイは、いくつかの構成において、音響マスキング信号を特定の方向に向けるために使用され得る。

ボイス信号３２０は、エンコーダ３５４に与えられ得る。エンコーダ３５４は、符号化されたボイス信号を生成するためにボイス信号３２０を符号化し得る。いくつかの構成において、エンコーダ３５４はまた、符号化されたボイス信号に誤り検出および／または誤り訂正コーディングを追加し得る。符号化されたボイス信号は変調器３５６に与えられ得る。変調器３５６は、符号化されたボイス信号を、使用される変調のタイプに基づいて特定のコンスタレーションに変調する。変調のいくつかの例としては、直交振幅変調（ＱＡＭ：quadrature amplitude modulation）、位相シフトキーイング（ＰＳＫ：phase shift keying）変調等がある。符号化および変調されたボイス信号は送信機３５８に与えられ得る。送信機３５８は、さらに、送信に備えて増幅を行う等、符号化および変調されたボイス信号に対してさらなる動作を行い得る。送信機３５８は、１つまたは複数のアンテナ３６０ａ〜ｎを使用して、１つまたは複数の電磁信号として符号化および変調されたボイス信号を送信し得る。

送信ワイヤレス通信デバイス３０２がボイス信号３２０に対して追加または代替の動作を行い得ることに留意されたい。例えば、送信ワイヤレス通信デバイス３０２は、ボイス信号３２０データを１つまたは複数の周波数（例えば、直交周波数分割多重化（ＯＦＤＭ：orthogonal frequency division multiplexing）サブキャリア）、タイムスロット、空間チャネル等にマッピングし得る。

１つまたは複数の送信ワイヤレス通信デバイス３０２のアンテナ３６０ａ〜ｎから送信された１つまたは複数の電磁信号は、受信ワイヤレス通信デバイス３６４によって受信され得る。受信ワイヤレス通信デバイス３６４の例としては、セルラーフォン、スマートフォン、ラップトップコンピュータ、タブレットデバイス、ゲームシステム、携帯情報端末、音楽プレーヤ（例えば、ＭＰ３プレーヤ）等がある。一構成において、受信ワイヤレス通信デバイス３６４は、１つまたは複数のスピーカー３７４、デコーダ３７０、復調器３６８、受信機３６６および／あるいは１つまたは複数のアンテナ３６２ａ〜ｎを含み得る。受信機３６６は１つまたは複数のアンテナ３６２ａ〜ｎを使用して１つまたは複数の送信された電磁信号を受信し得る。受信信号は復調器３６８に与えられ得る。復調器３６８は、ために受信信号を復調し、デコーダ３７０に与えられる符号化された信号を生成する。デコーダ３７０は、符号化された信号を復号して、復号されたボイス信号３７２を生成する。復号されたボイス信号３７２は、音響信号として復号されたボイス信号３７２を出力できる１つまたは複数のスピーカー３７４に与えられ得る。

いくつかの構成において、送信ワイヤレス通信デバイス３０２から受信ワイヤレス通信デバイス３６４に送信された電磁信号は、１つまたは複数のデバイスによって中継され得る。例えば、送信通信デバイス３０２が基地局に電磁信号を送信し、基地局がこの信号を受信してそれらを１つまたは複数のネットワークデバイスに与え得る。この信号は別の基地局にルーティングされ、そこで信号は受信ワイヤレス通信デバイス３６４に中継または再送信され得る。

図４は、送信ワイヤレス通信デバイス３０２上でマスキング信号３４２を生成するための方法４００の構成を示す流れ図である。送信ワイヤレス通信デバイス３０２は４０２で複数のマイクロフォン３０４ａ〜ｎから複数のオーディオ信号を取得する。例えば、複数のマイクロフォン３０４ａ〜ｎは音響ボイス信号および／あるいは１つまたは複数の音響環境信号を電気または電子オーディオ信号に変換し得る。

送信ワイヤレス通信デバイス３０２は４０４で複数のオーディオ信号から環境信号３１０を取得する。例えば、送信ワイヤレス通信デバイス３０２はオーディオ信号中の環境音および／または雑音を推定し得る。一構成において、送信ワイヤレス通信デバイス３０２は、オーディオ信号中の環境音および／または雑音を推定するためにボイスアクティビティ検出器を使用し得る。この構成において、例えば、より動的なおよび散発性なオーディオアクティビティはボイスとして分類され得る一方で、より定常の音は環境音として分類され得る。別の構成において、ブラインド音源分離（ＢＳＳ）信号処理機構は複数のマイクロフォンによってキャプチャされた信号からボイス信号を除去し、これにより環境音のより良い推定を与え得る。

送信ワイヤレス通信デバイス３０２は、４０６で環境信号３１０に基づいて環境特徴を判断する。特徴の例としては、振幅（例えば、大きさ、ラウドネス等）特性、空間特性（例えば、方向）、スペクトル特性等がある。例えば、送信ワイヤレス通信デバイス３０２は、４０６で環境信号３１０の振幅（例えば、ラウドネスエンベロープ）を判断し得る。追加または代替として、送信ワイヤレス通信デバイス３０２は、４０６でオーディオ信号中の観測された位相シフトを使用して音響環境信号の空間特性（例えば、指向性）を判断し得る。追加または代替として、送信ワイヤレス通信デバイス３０２は、４０６でスペクトル特性（例えば、周波数範囲にわたる環境信号３１０の振幅または大きさ）を判断し得る。いくつかの構成において、送信ワイヤレス通信デバイス３０２は環境特徴に基づいて第２の制御信号３３２を生成し得る。

送信ワイヤレス通信デバイス３０２は、４０８で複数のオーディオ信号からボイス信号３２０を取得する。例えば、送信ワイヤレス通信デバイス３０２はオーディオ信号からボイス信号３２０を分離し得る。一構成において、送信ワイヤレス通信デバイス３０２はオーディオ信号から雑音推定値（例えば、環境信号３１０）を減算または除去し得る。１つの典型的なロバストな逆混合例はブラインド音源分離（ＢＳＳ）であり得る。例えば、信号の音源がマイクロフォン３０４ａ〜ｎの数以下であるとき、ＢＳＳ信号処理を通して音源（例えば、ボイス）のうちの１つが抽出され得る。

送信ワイヤレス通信デバイス３０２は、４１０でボイス信号３２０に基づいてボイス特徴を判断する。特徴の例としては、振幅（例えば、大きさ、ラウドネス等）特性、時間特性、空間特性（例えば、方向）、スペクトル特性等がある。例えば、送信ワイヤレス通信デバイス３０２は、４１０でボイス信号３２０の振幅（例えば、ラウドネスエンベロープ）を判断し得る。追加または代替として、送信ワイヤレス通信デバイス３０２は、４１０でオーディオ信号中の観測された位相シフトを使用して音響ボイス信号３４２の指向性を判断し得る。追加または代替として、送信ワイヤレス通信デバイス３０２は４１０でスペクトル特性（例えば、周波数範囲にわたるボイス信号３２０の振幅や大きさ）を判断し得る。いくつかの構成では、送信ワイヤレス通信デバイス３０２がボイス特徴に基づいて第１の制御信号３３０を生成し得る。

送信ワイヤレス通信デバイス３０２は４１２で音信号３３４を取得する。例えば、送信ワイヤレス通信デバイス３０２は４１２で音楽またはサウンドファイル（例えば、ＭＰ３ファイル、ＷＡＶファイル、ＭＩＤＩファイル等）、合成音または雑音および／あるいは（例えば、別のデバイスからの）オーディオ入力等を取得し得る。一構成において、送信ワイヤレス通信デバイス３０２はメモリから音信号３３４を取り出す。追加または代替として、送信ワイヤレス通信デバイス３０２はアルゴリズムおよび／または記憶されたデータを使用して音または雑音を合成し得る。追加または代替として、送信ワイヤレス通信デバイス３０２は、セキュアデジタル（ＳＤ）カード、ユニバーサルシリアルバス（ＵＳＢ）サムドライブ等のリムーバブルメモリデバイスから音信号３３４を取り出すか、または別のデバイスから音信号３３４（例えば、ストリーム）を受信する。

送信ワイヤレス通信デバイス３０２は、４１４でボイス特徴（例えば、第１の制御信号３３０）と、環境特徴（例えば、第２の制御信号３３２）と、音信号３３４とに基づいてマスキング信号３４２を生成する。例えば、送信ワイヤレス通信デバイス３０２は、４１４でマスキング信号３４２を生成するために、ボイス特徴と環境特徴とに基づいて音信号３３４の振幅、大きさ、ラウドネスまたはボリュームを調整し得る。一構成において、送信ワイヤレス通信デバイス３０２はボイスエンベロープ（例えば、振幅やラウドネスエンベロープ）と直接関係にある音信号３３４の振幅やラウドネスを調整し、環境振幅やラウドネス（例えば、振幅やラウドネスエンベロープ）と逆関係にある信号の振幅やラウドネスを調整する。

別の例において、送信ワイヤレス通信デバイス３０２はボイス特徴および／または環境特徴に基づいて音信号３３４のスペクトル特性を調整し得る。例えば、音響ボイス信号の低周波部分を効果的に不明瞭にするのに十分な低周波雑音が音響環境信号（例えば、音）中にあるが、高周波部分を効果的に不明瞭にするのに十分な高周波雑音が音響環境信号中にないことを、環境特徴が示す場合、送信ワイヤレス通信デバイス３０２は、音響ボイス信号の高周波部分を効果的にマスキングする音響マスキング信号を生成するために、音信号３３４の高周波部分中で振幅やラウドネスを増加させる。

さらに別の例において、送信ワイヤレス通信デバイス３０２は、４１４でマスキング信号３４２を生成するために、音信号３３４の空間特性（例えば、指向性）を調整し得る。例えば、ボイス特徴は受信した音響ボイス信号の方向を示し得る一方で、環境特徴は音響環境信号（例えば、音）の１つまたは複数の方向を示し得る。この情報は、音響マスキング信号の指向性を調整するために使用されて、ユーザ（例えば、音響ボイス信号の音源）から離れて音響マスキング信号をステアリングし得る。追加または代替として、音響マスキング信号は、音響ボイス信号をマスキングするのに十分である強い環境信号（例えば、音）から離れるように、および／または静かな環境信号に潜在的に向かって、および／または音響環境信号のない方向にステアリングされ得る。これは、例えば、音響ボイス信号がより容易に立ち聞きされるかもしれない方向において音響ボイス信号を不明瞭にするのに役立ち得る。

送信ワイヤレス通信デバイス３０２は４１６でマスキング信号３４２を出力する。例えば、送信ワイヤレス通信デバイス３０２は、マスキング信号３４２を音響マスキング信号に変換できる１つまたは複数のスピーカー３４４にマスキング信号３４２を与え得る。

送信ワイヤレス通信デバイス３０２は４１８でボイス信号３２０を送信する。例えば、送信ワイヤレス通信デバイス３０２は４１８でボイス信号３２０を符号化、変調、増幅および／または送信し得る。ボイス信号３２０は１つまたは複数のアンテナ３６０ａ〜ｎを使用して１つまたは複数の電磁信号として送信され得る。送信の前に、送信ワイヤレス通信デバイス３０２は、追加または代替として、ボイス信号３２０データを１つまたは複数の空間ストリーム、アンテナ、周波数（例えば、サブキャリア）、タイムスロット等にマッピングし得る。

図４に示した方法４００が送信ワイヤレス通信デバイス３０２によってリアルタイムで行われ得ることに留意されたい。例えば、オーディオ信号は４０２で取得され、環境信号３１０は４０４で取得され、環境特徴は４０６で判断され、ボイス信号３２０は４０８で取得され、ボイス特徴は４１０で判断され、音信号３３４は４１２で取得され、および／またはマスキング信号３４２は４１４で生成され、４１６でリアルタイムに出力され得る。方法４００は、対応する音響マスキング信号３５２を用いて音響ボイス信号３４６を効果的にマスキングするためにリアルタイムで行われ得る。

図５は、マスキング信号を生成するためのシステムおよび方法が実装され得るワイヤレス通信デバイス５０２の一構成を示すブロック図である。ワイヤレス通信デバイス５０２の例としては、セルラーフォン、スマートフォン、ラップトップコンピュータ、タブレットデバイス、ゲームシステム、携帯情報端末、音楽プレーヤ（例えば、ＭＰ３プレーヤ）等がある。ワイヤレス通信デバイス５０２は、１つまたは複数のマイクロフォン５０４ａ〜ｎ、マルチマイクロフォン処理ブロック／モジュール５０６、環境分析ブロック／モジュール５１２、音声特徴抽出ブロック／モジュール５２２、マスカー５３６、１つまたは複数の音源５２８、１つまたは複数のスピーカー５４４、１つまたは複数のイヤピーススピーカー５７６、ＲＶＥブロック／モジュール５７８、デコーダ５８０、復調器５８２、受信機５８４、エンコーダ５５４、変調器５５６、送信機５５８および／あるいは１つまたは複数のアンテナ５６０ａ〜ｎを含み得る。

１つまたは複数のマイクロフォン５０４ａ〜ｎは、音響信号を電気または電子信号に変換するために使用されるトランスデューサ（例えば、音響電気トランスデューサ）であり得る。例えば、１つまたは複数のマイクロフォン５０４ａ〜ｎは、音響ボイス信号および／あるいは１つまたは複数の音響環境信号をキャプチャし、それらをマルチマイクロフォン処理ブロック／モジュール５０６に与えられる電気または電子信号に変換し得る。例えば、マイクロフォン５０４ａ〜ｎの各々は、音響ボイス信号、音響環境信号または両方の混合を表すオーディオ信号（例えば、電気または電子信号）を生成し得る。一構成では、複数のオーディオ信号がこのように複数のマイクロフォン５０４ａ〜ｎを使用して取得され得る。マイクロフォン５０４ａ〜ｎの例としては、ダイナミックマイクロフォン、コンデンサマイクロフォン、圧電マイクロフォン、光ファイバーマイクロフォン、レーザーマイクロフォン等がある。

マルチマイクロフォン処理ブロック／モジュール５０６は、１つまたは複数のマイクロフォン５０４ａ〜ｎによって与えられるオーディオ信号（例えば、電気または電子信号）を処理するために使用され得る。マルチマイクロフォン処理ブロック／モジュール５０６は、エコー消去ブロック／モジュール５８６、１つまたは複数のアナログデジタル変換器（ＡＤＣ）５９６、音源分離および／または雑音低減ブロック／モジュール５０８、雑音推定ブロック／モジュール５９０ならびに／あるいはボイスアクティビティ検出器５９４を含み得る。１つまたは複数のアナログデジタル変換器５９６は、（１つまたは複数のマイクロフォン５０４ａ〜ｎによってキャプチャされた）１つまたは複数のアナログオーディオ信号を１つまたは複数のデジタルオーディオ信号５９８ａ〜ｎに変換し得る。１つまたは複数のデジタルオーディオ信号５９８ａ〜ｎは、ボイスアクティビティ検出器５９４、雑音推定ブロック／モジュール５９０および／または音源分離／雑音低減ブロック／モジュール５０８に与えられ得る。

ボイスアクティビティ検出器５９４は、いつボイスアクティビティが（１つまたは複数の）デジタルオーディオ信号５９８ａ〜ｎ中に存在するかを検出し得る。例えば、ボイスアクティビティ検出器５９４は、いつボイスまたは音声が無音および／または雑音等とは反対に（１つまたは複数の）デジタルオーディオ信号５９８ａ〜ｎ中に存在するかを判断し得る。ボイスアクティビティ検出器５９４は、雑音推定ブロック／モジュール５９０に、（１つまたは複数の）デジタルオーディオ信号５９８ａ〜ｎ中にボイスアクティビティが存在するときを示すボイスアクティビティインジケータ５９２を与え得る。

雑音推定ブロック／モジュール５９０は、（１つまたは複数の）デジタルオーディオ信号５９８ａ〜ｎとボイスアクティビティインジケータ５９２とに基づいて環境信号（例えば、環境雑音）５１０を推定し得る。例えば、雑音推定ブロック／モジュール５９０は、（１つまたは複数の）デジタルオーディオ信号５９８ａ〜ｎ中に存在する定常および非定常環境または背景雑音を推定し得る。一構成において、例えば、雑音推定ブロック／モジュール５９０は、ボイスアクティビティインジケータ５９２がボイスアクティビティを示さない、（１つまたは複数の）デジタルオーディオ信号５９８ａ〜ｎ中の期間に基づいて雑音フロアを推定し得る。このようにして、雑音推定ブロック／モジュール５９０は環境信号５１０を推定し得る。環境信号５１０は、音源分離／雑音低減ブロック／モジュール５０８と環境分析ブロック／モジュール５１２とに与えられ得る。

エコー消去ブロック／モジュール５８６は、ワイヤレス通信デバイス５０２によって出力され得る１つまたは複数の信号から、（１つまたは複数の）デジタルオーディオ信号５９８ａ〜ｎ中のエコーを低減または削除するために使用され得る。例えば、ワイヤレス通信デバイス５０２は、１つまたは複数のイヤピーススピーカー５７６から、および／あるいは１つまたは複数のスピーカー（例えば、ラウドスピーカー）５４４から１つまたは複数の音響信号を出力し得る。上述のように、例えば、ワイヤレス通信デバイス５０２は、マスキング信号５４２に基づいて１つまたは複数のスピーカー５４４から音響マスキング信号を出力し得る。追加または代替として、ワイヤレス通信デバイス５０２は、（１つまたは複数の）イヤピーススピーカー５７６から他の音響信号（例えば、ボイス信号、音楽等）を出力し得る。例えば、ユーザは、電話通話を行うためにワイヤレス通信デバイス５０２を使用していることがある。電話通話中に、ワイヤレス通信デバイス５０２は、１つまたは複数のスピーカー５４４から出力される音響マスキング信号に加えて、あるいはそれの代わりに１つまたは複数のイヤピーススピーカー５７６からボイスまたは音声を出力し得る。エコー消去ブロック／モジュール５８６は、（（１つまたは複数の）イヤピーススピーカー５７６にも与えられる）１つまたは複数の受信信号とマスキング信号５４２とを使用して音源分離／雑音低減ブロック／モジュール５０８に与えられ得るエコー信号５８８を生成し得る。

音源分離ブロック／モジュール５０８はボイス信号５２０を生成（例えば、推定）し得る。例えば、音源分離ブロック／モジュール５０８は、ボイス信号５２０を推定するために、（１つまたは複数の）デジタルオーディオ信号５９８ａから推定された環境信号（例えば、環境雑音）５１０および／またはエコー信号５８８を除去し得る。ボイス信号５２０は、音声特徴抽出ブロック／モジュール５２２に与えられ得る。ボイス信号５２０は、追加または代替として、マスカー５３６および／またはエンコーダ５５４に与えられ得る。

音声特徴抽出ブロック／モジュール５２２はボイス信号５２０から１つまたは複数の特徴を抽出するために使用され得る。ボイス信号５２０の特徴の例としては、大きさまたは振幅（例えば、ラウドネス、ボリューム等）特徴、スペクトル（例えば、ピッチまたは周波数）特徴、空間（例えば、指向性）特徴および／または時間（例えば、位相）特徴等がある。音声特徴抽出ブロック／モジュール５２２は、抽出された１つまたは複数の特徴に基づいて第１の制御信号５３０を生成し得る。一構成において、音声特徴抽出ブロック／モジュール５２２は、（便宜のために図５では「エンベロープ５２４」として省略される）エンベロープ検出ブロック／モジュール５２４および／または（便宜のために図５では「しきい値５２６」として省略される）しきい値検出ブロック／モジュール５２６を含み得る。エンベロープ検出ブロック／モジュール５２４はボイス信号５２０に基づいてエンベロープ信号（例えば、振幅やラウドネスエンベロープ）を判断し得る。例えば、このエンベロープ信号はボイス信号５２０の振幅やラウドネス（およびそれらの変形形態）を示し得る。この振幅やラウドネスは、音圧、音圧レベル（例えば、デシベル）、音響インテンシティ、音響パワー、ソーン、フォン、ボルトおよび／またはアンペア等として測定または特徴づけられ得る。

しきい値検出ブロック／モジュール５２６は、エンベロープ信号が１つまたは複数のしきい値にいつ達するかまたは超えるかを検出し得る。例えば、しきい値検出ブロック／モジュール５２６は、エンベロープ信号がいつ所与の量増加または所与の量減少されたかを検出し得る。一例では、振幅の範囲内にいくつかのしきい値が確立され得る。別の例では、エンベロープ信号の参照サンプルまたは平均よりある量または割合だけ高い１つのしきい値が確立され得る一方で参照サンプルまたは平均よりある量または割合だけ下回る別のしきい値が確立され得る。しきい値検出ブロック／モジュール５２６は、エンベロープ信号がしきい値にいつ達したかまたは超えたか、および／あるいはどのしきい値に達したかまたは超えたかを示し得る。

追加または代替として、音声特徴抽出ブロック／モジュール５２２は他の特徴検出ブロック／モジュール５５０を含み得る。（１つまたは複数の）他の特徴検出ブロック／モジュール５５０はボイス信号５２０の他の特徴を検出し得る。例えば、音声特徴抽出ブロック／モジュールは、（便宜のために図５では「スペクトル５５０ａ」として省略される）スペクトル検出ブロック／モジュール５５０ａ、（便宜のために図５では「空間５５０ｂ」として省略される）空間検出ブロック／モジュール５５０ｂおよび／または（便宜のために図５では「時間５５０ｃ」として省略される）時間検出ブロック／モジュール５５０ｃを含み得る。例えば、これらのブロック／モジュール５５０ａ〜ｃは、ボイス信号５２０のスペクトル（例えば、周波数）特徴または特性、空間（例えば、指向性）特徴または特性および／あるいは時間（例えば、タイミング、位相、遷移等）特徴または特性を検出および／または抽出するために使用され得る。より詳細には、スペクトル検出ブロック／モジュール５５０ａは、ボイス信号５２０のスペクトル（例えば、ピッチ、周波数等）特徴を検出および／または抽出し得る。例えば、スペクトル検出ブロック／モジュール５５０ａは、ボイス信号５２０のスペクトル振幅または大きさを判断し得る。追加または代替として、空間検出ブロック／モジュール５５０ｂは、ボイス信号５２０の空間（例えば、指向性）特徴を検出および／または抽出し得る。例えば、空間検出ブロック／モジュール５５０ｂは、ワイヤレス通信デバイス５０２に対する（例えば、１つまたは複数のマイクロフォン５０４ａ〜ｎに対する）受信した音響ボイスの方向を判断し得る。追加または代替として、時間検出ブロック／モジュール５５０ｃは、ボイス信号５２０の時間（例えば、タイミング、位相）特徴を検出および／または抽出し得る。例えば、時間検出ブロック／モジュール５５０ｃは、ボイス信号５２０中で音声がいつ発生するか、音声中でどのくらい長くフレーズおよび／または休止が発生する傾向があるか等を判断し得る。

音声特徴抽出ブロック／モジュール５２２によって与えられる第１の制御信号５３０は、抽出された実際の特徴（例えば、エンベロープ信号特性、スペクトル特性、空間特性、時間特性等）および／または制御情報を、抽出された特徴（例えば、振幅やラウドネスランピングのトリガ等）に基づいて与え得る。第１の制御信号５３０はマスカー５３６に与えられ得る。

環境分析ブロック／モジュール５１２は、マスカー５３６に与えられる第２の制御信号５３２を生成するために環境信号５１０を分析し得る。環境分析ブロック／モジュール５１２は、（便宜のために図５では「振幅５１４」として省略される）振幅（例えば、ラウドネス）検出ブロック／モジュール５１４、（便宜のために図５では「空間５１６」として省略される）空間（例えば、指向性）検出ブロック／モジュール５１６、（便宜のために図５では「スペクトル５１８ａ」として省略される）スペクトル検出ブロック／モジュール５１８ａおよび／または（便宜のために図５では「時間５１８ｂ」として省略される）時間検出ブロック／モジュール５１８ｂを含み得る。振幅検出ブロック／モジュール５１４は、環境信号５１０の振幅やラウドネスを検出または抽出し得る。例えば、振幅やラウドネスは、環境信号５１０のエンベロープを検出することによって測定され得る。この振幅やラウドネスは、音圧、音圧レベル（例えば、デシベル）、音響インテンシティ、音響パワー、ソーン、フォン、ボルトおよび／またはアンペア等として測定または特徴づけられ得る。いくつかの構成において、環境信号５１０の振幅やラウドネスは、スペクトルまたは周波数範囲にわたって測定され得る。このようにして、環境信号５１０は、例えば、ワイヤレス通信デバイス５０２によって受信された音響環境信号（例えば、音または雑音）のスペクトル大きさに基づいて特徴づけられ得る。

空間（例えば、方向）検出ブロック／モジュール５１６は、音響環境信号（例えば、音または雑音）の空間特徴または特性を判断または推定し得る。例えば、空間検出ブロック／モジュール５１６は、特定の音響環境信号の方向を判断するために、複数のマイクロフォン５０４ａ〜ｎによって受信されたオーディオ信号間の位相シフトを使用し得る。より詳細には、空間検出ブロック／モジュール５１６は、ワイヤレス通信デバイス５０２に対する（例えば、１つまたは複数のマイクロフォン５０４ａ〜ｎに対する）受信した音響環境信号の方向を判断し得る。

スペクトル検出ブロック／モジュール５１８ａは、環境信号５１０のスペクトル（例えば、ピッチ、周波数等）特徴を検出および／または抽出し得る。例えば、スペクトル検出ブロック／モジュール５１８ａは、環境信号５１０のスペクトル振幅または大きさを判断し得る。追加または代替として、時間検出ブロック／モジュール５１８ｂは、環境信号５１０の時間（例えば、タイミング、位相）特徴を検出および／または抽出し得る。例えば、時間検出ブロック／モジュール５１８ｂは、環境信号５１０中で環境雑音がいつ発生するか、特定の雑音がどのくらいの頻度でおよび／またはどのくらい長く発生する傾向があるか等を判断し得る。

環境分析ブロック／モジュール５１２によって与えられる第２の制御信号５３２は、分析された実際の特徴（例えば、振幅、空間、スペクトルおよび／または時間特性等）および／または制御情報を、分析された特徴（例えば、振幅やラウドネスランピングのトリガ等）に基づいて与え得る。第２の制御信号５３２はマスカー５３６に与えられ得る。

１つまたは複数の音源５２８はマスカー５３６に１つまたは複数の音信号５３４を与え得る。音源５２８の例としては、音楽またはサウンドファイル（例えば、ｍｏｖｉｎｇｐｉｃｔｕｒｅｅｘｐｅｒｔｓｇｒｏｕｐ（ＭＰＥＧ）−１またはＭＰＥＧ−２ａｕｄｉｏｌａｙｅｒ３（ＭＰ３）ファイル、ｗａｖｅｆｏｒｍａｕｄｉｏｆｉｌｅｆｏｒｍａｔ（ＷＡＶ）ファイル、ｍｕｓｉｃａｌｉｎｓｔｒｕｍｅｎｔｄｉｇｉｔａｌｉｎｔｅｒｆａｃｅ（ＭＩＤＩ）ファイル等）、合成音または雑音および／あるいは（例えば、別のデバイスから音信号５３４を受信するための）オーディオ入力またはインターフェース等がある。例えば、１つの音源５２８は音楽またはサウンドファイルを与えるワイヤレス通信デバイス５０２上のメモリであり得る一方で、別の音源５２８は別のデバイスから音信号５３４を受信するために使用されるポートであり得る。１つまたは複数の音源５２８は随意であり得る。例えば、マスカー５３６は、ボイス信号５２０のみを使用してマスキング信号５４２を生成し得る。追加または代替として、マスカー５３６は１つまたは複数の音源５２８から与えられる音信号５３４を使用してマスキング信号５４２を生成し得る。いくつかの構成では、使用される音源５２８および／または音信号５３４が入力に基づいて選択され得る。例えば、送信ワイヤレス通信デバイス５０２は、使用するための特定の音源５２８および／または音信号５３４を示し、ユーザインターフェース（図５に図示せず）を介したユーザ入力を受信し得る。例えば、送信ワイヤレス通信デバイス５０２は、キーボード、マウス、タッチスクリーン、マイクロフォン５０４、ボタン等を使用するもので、選択された音源５２８および／または音信号５３４を示す入力を受信し得る。

マスカー５３６は、マスキング信号５４２を生成するために使用されるブロック／モジュールであり得る。マスキング信号５４２は、音響ボイス信号を不明瞭にする、すなわちマスキングするために、音響マスキング信号として１つまたは複数のスピーカー５４４（例えば、ラウドスピーカー）を使用して出力され得る。マスカー５３６は、第１の制御信号５３０と第２の制御信号５３２とに基づいてマスキング信号５４２を生成し得る。上述のように、マスキング信号５４２はまた、ボイス信号５２０に加えて、あるいはそれの代わりに音信号５３４に基づき得る。例えば、マスキング信号５４２は、第１の制御信号５３０と第２の制御信号５３２とに基づいて調整および／または修正され、メモリから音信号５３４として与えられる音楽を備え得る。別の例では、マスキング信号５４２が第１の制御信号５３０と第２の制御信号５３２とに基づいて調整（例えば、振幅変調）されたボイス信号５２０を備え得る。

マスカー５３６は、例えば、レベル制御ブロック／モジュール５３８および／または特徴制御ブロック／モジュール５４０を含み得る。レベル制御ブロック／モジュール５３８は入力信号（例えば、ボイス信号５２０および／または音信号５３４）のレベル（例えば、振幅、大きさ、ボリューム、ラウドネス等）を第１の制御信号５３０および／または第２の制御信号５３２に基づいて調整し得る。

例えば、レベル制御５３８は、第１の制御信号５３０中で与えられる音声エンベロープ（または音声エンベロープに基づくしきい値トリガ）と直接関係にある入力信号の振幅やラウドネスを調整し得る。例えば、音声エンベロープの振幅やラウドネスが増加された場合、レベル制御５３８は、入力信号の振幅やラウドネスを増加（例えば、ランプアップ）させ得る。しかしながら、音声エンベロープの振幅やラウドネスが減少された場合、レベル制御５３８は入力信号の振幅やラウドネスを減少（例えば、ランプダウン）させ得る。例えば、ユーザがより大きな声で、あるいはより穏やかに話すと、ワイヤレス通信デバイス５０２は、音響ボイス信号を効果的に不明瞭にするために、それぞれ、より大きな、あるいはより穏やかな音響マスキング信号を生成し得る。これは、圧倒的あるいは不快にならずに音響ボイス信号を不明瞭にするのに必要なだけ大きい音響マスキング信号を与え得る。

追加または代替として、レベル制御ブロック／モジュール５３８は、入力信号（例えば、ボイス信号５２０および／または音信号５３４）のレベル（例えば、振幅、ラウドネス等）を第２の制御信号５３２に基づいて調整し得る。例えば、レベル制御５３８は、第２の制御信号５３２中で与えられる環境振幅やラウドネス（あるいは振幅やラウドネスに基づくしきい値トリガ）と逆関係にある入力信号の振幅やラウドネスを調整し得る。例えば、環境信号５１０の振幅やラウドネスが増加された場合、レベル制御５３８は入力信号の振幅やラウドネスを減少（例えば、ランプダウン）させ得る。しかしながら、環境信号５１０の振幅やラウドネスが減少された場合、レベル制御５３８は入力信号の振幅やラウドネスを増加（例えば、ランプアップ）させ得る。例えば、音響環境信号（例えば、音や雑音）がより大きく、あるいはより穏やかになると、ワイヤレス通信デバイス５０２は、それぞれ、より穏やかな、あるいはより大きな音響マスキング信号を生成し得る。例えば、環境信号（例えば、音または雑音）が、音響ボイス信号を効果的にマスキングするのに必要なだけ大きいおよび／または正しい特性のものである場合、ワイヤレス通信デバイス５０２が大きな音響マスキング信号を生成する必要がないことがある。従って、マスカー５３６は、より効率的に動作し、場合によっては、バッテリー電力を節約し得る。

マスカー５３６は、追加または代替として、特徴制御５４０を含み得る。特徴制御５４０は入力信号（例えば、ボイス信号５２０および／または音信号５３４）の１つまたは複数の特徴を第１の制御信号５３０および／または第２の制御信号５３２に基づいて制御し得る。例えば、特徴制御５４０は入力信号（例えば、ボイス信号５２０および／または音信号５３４）のスペクトル特性をボイス信号５２０および／または環境信号５１０のスペクトル特性に基づいて調整し得る。例えば、音響ボイス信号の低周波部分を効果的に不明瞭にするのに十分な低周波雑音が音響環境信号（例えば、音）中にあるが、高周波部分を効果的に不明瞭にするのに十分な高周波雑音が音響環境信号中にないことを、第２の制御信号５３２が示す場合、特徴制御５４０は、音響ボイス信号の高周波部分を効果的にマスキングする音響マスキング信号を生成するために、（単独でまたはレベル制御５３８を使用して）音信号５３４の高周波部分中で振幅やラウドネスを増加させ得る。

別の例において、特徴制御５４０は音響マスキング信号の空間特性（例えば、指向性）を第１の制御信号５３０および／または第２の制御信号５３２に基づいて調整し得る。例えば、第１の制御信号５３０は受信した音響ボイス信号の方向を示し得る一方で、第２の制御信号５３２は音響環境信号（例えば、音）の１つまたは複数の方向を示し得る。特徴制御５４０は音響マスキング信号の指向性を調整するためにこの情報を使用し、ユーザ（例えば、音響ボイス信号の音源）から離れるように音響マスキング信号をステアリングし得る。追加または代替として、特徴制御５４０は、音響ボイス信号をマスキングするのに十分である強い環境信号（例えば、音）から離れるように、および／または静かな環境信号に潜在的に向かって、および／または音響環境信号のない方向に音響マスキング信号をステアリングし得る。これは、例えば、音響ボイス信号がより容易に立ち聞きされるかもしれない方向において音響ボイス信号を不明瞭にするのに役立ち得る。追加または代替として、特徴制御５４０は、音響ボイス信号が（例えば、ユーザから離れて）伝搬しているのと同じ方向に音響マスキング信号をステアリングし得る。

１つまたは複数のスピーカー５４４が、電気または電子信号（例えば、マスキング信号５４２）を音響信号（例えば、音響マスキング信号）に変換するトランスデューサ（例えば、電気音響トランスデューサ）であり得ることに留意されたい。一構成において、１つまたは複数のスピーカー５４４は全方向性であり得る。他の構成において、１つまたは複数のスピーカー５４４は指向性であり得る。例えば、スピーカー５４４のアレイは、いくつかの構成において、音響マスキング信号を特定の方向に向けるために使用され得る。追加または代替として、１つまたは複数のスピーカー５４４は、指向性出力能力を与えるために、ワイヤレス通信デバイス５０２上の異なるロケーションに配置され得る。

ボイス信号５２０および／または環境信号５１０はエンコーダ５５４に与えられ得る。エンコーダ５５４は、符号化されたボイス信号を生成するためにボイス信号５２０を符号化し得る。いくつかの構成において、エンコーダ５５４はまた、符号化されたボイス信号に誤り検出および／または誤り訂正コーディングを追加し得る。符号化されたボイス信号は変調器５５６に与えられ得る。変調器５５６は、符号化されたボイス信号を、使用される変調のタイプに基づいて特定のコンスタレーションに変調する。変調のいくつかの例としては、直交振幅変調（ＱＡＭ）、位相シフトキーイング（ＰＳＫ）変調等がある。符号化および変調されたボイス信号は送信機５５８に与えられ得る。送信機５５８はさらに、送信に備えて増幅を行うような動作を符号化および変調されたボイス信号に対して行い得る。送信機５５８は、符号化および変調されたボイス信号を１つまたは複数のアンテナ５６０ａ〜ｎを使用して１つまたは複数の電磁信号として送信し得る。エンコーダ、変調器５５６、送信機５５８および／または（１つまたは複数の）アンテナ５６０ａ〜ｎによって環境信号５１０を雑音基準信号として送信するために、同様の動作が環境信号５１０に対して行われ得る。例えば、受信ワイヤレス通信デバイスは、受信したボイス信号中の雑音を抑制するために雑音基準信号を使用し得る。

ワイヤレス通信デバイス５０２がボイス信号５２０に対して追加または代替の動作を行い得ることに留意されたい。例えば、ワイヤレス通信デバイス５０２は、ボイス信号５２０および／または環境信号５１０データを１つまたは複数の周波数（例えば、直交周波数分割多重化（ＯＦＤＭ）サブキャリア）、タイムスロット、空間チャネル等にマッピングし得る。

ワイヤレス通信デバイス５０２は、別のデバイス（例えば、別のワイヤレス通信デバイス）から送信された１つまたは複数の電磁信号を１つまたは複数のアンテナ５６０ａ〜ｎを使用して受信し得る。受信機５８４は、１つまたは複数の送信された電磁信号を１つまたは複数のアンテナ５６０ａ〜ｎを使用して受信し得る。受信信号は復調器５８２に与えられ得る。復調器５８２は受信信号を復調し、デコーダ５８０に与えられ得る符号化された信号を生成する。デコーダ５８０は符号化された信号を復号し、ＲＶＥブロック／モジュール５７８に与えられ得る復号されたボイス信号を生成する。ＲＶＥブロック／モジュール５７８は、例えば、ボイスをある雑音フロアの上に維持するために、ボイスの異なる周波数領域をブーストし得る。ＲＶＥブロック／モジュール５７８の出力（受信したボイス信号）が１つまたは複数のイヤピーススピーカー５７６に与えられ、１つまたは複数のイヤピーススピーカー５７６が音響信号として受信したボイス信号を出力し得る。

いくつかの構成において、ワイヤレス通信デバイス５０２によって受信された電磁信号は、１つまたは複数のデバイスによって中継されていることがある。例えば、ワイヤレス通信デバイス５０２が基地局から電磁信号を受信し、基地局が１つまたは複数のネットワークデバイスからそれらの信号を受信していることがある。これらの信号は、別のワイヤレス通信デバイスから別の基地局によって受信されていることがある。

図６は、電子デバイス６０２上でマスキング信号６４２を生成することの一例を示すブロック図である。音声特徴抽出ブロック／モジュール６２２は、ボイス信号６２０から振幅やラウドネスエンベロープ６０１を抽出するために使用され得る。音声特徴抽出ブロック／モジュール６２２はエンベロープ信号６０１に基づいて第１の制御信号６３０を生成し得る。例えば、音声特徴抽出ブロック／モジュール６２２はエンベロープ検出ブロック／モジュール６２４を含む。エンベロープ検出ブロック／モジュール６２４はボイス信号６２０に基づいてエンベロープ信号（例えば、振幅やラウドネスエンベロープ）６０１を判断する。例えば、ボイス信号６２０は、波打つ波形として特徴づけられ得る。エンベロープ信号６０１はボイス信号６２０の正のピークを近似的に追跡し得る。言い換えれば、エンベロープ信号６０１はボイス信号６２０の周期的最大値（例えば、ピーク）を近似的に接続し得る。従って、エンベロープ信号６０１はボイス信号６２０の振幅やラウドネスの近似を与え得る。この振幅やラウドネスは、音圧、音圧レベル（例えば、デシベル）、音響インテンシティ、音響パワー、ソーン、フォン、ボルトおよび／またはアンペア等として測定または特徴づけられ得る。

エンベロープ信号６０１は、音声特徴抽出ブロック／モジュール６２２中に含まれるしきい値検出ブロック／モジュール６２６に与えられ得る。しきい値検出ブロック／モジュール６２６は、エンベロープ信号が１つまたは複数のしきい値にいつ達するかまたは超えるかを検出し得る。例えば、しきい値検出ブロック／モジュール６２６は、エンベロープ信号６０１がいつ所与の量増加または所与の量減少されたかを検出し得る。一例では、振幅の範囲内にいくつかのしきい値が確立され得る。別の例では、エンベロープ信号６０１の参照サンプルまたは平均よりある量または割合だけ高い１つのしきい値が確立され得る一方で、参照サンプルまたは平均よりある量または割合だけ下回る別のしきい値が確立され得る。しきい値検出ブロック／モジュール６２６は、第１の制御信号６３０の一部としてのエンベロープ信号６０１がしきい値にいつ達したかまたは超えたか、および／あるいはどのしきい値に達したかまたは超えたかを示し得る。第１の制御信号６３０はマスカー６３６に与えられ得る。

環境分析ブロック／モジュール６１２は、マスカー６３６に与えられる第２の制御信号６３２を生成するために環境信号６１０を分析し得る。環境分析ブロック／モジュール６１２は振幅（例えば、ラウドネス）検出ブロック／モジュール６１４を含み得る。振幅検出ブロック／モジュール６１４は環境信号６１０の振幅やラウドネスを検出または抽出し得る。例えば、振幅やラウドネスは、環境信号６１０のエンベロープを検出することによって測定され得る。環境信号６１０の振幅は、ボイス信号６２０のエンベロープ６０１と同様にまたはそれとは別様に判断され得る。例えば、振幅は、環境信号６１０のピーク値の平均、環境信号６１０の２乗平均（ＲＭＳ：root mean square）等として判断され得る。この振幅やラウドネスは、音圧、音圧レベル（例えば、デシベル）、音響インテンシティ、音響パワー、ソーン、フォン、ボルトおよび／またはアンペア等として測定または特徴づけられ得る。環境分析ブロック／モジュール６１２は、振幅検出ブロック／モジュール６１４によって検出された振幅に基づいて第２の制御信号６３２を判断し得る。例えば、第２の制御信号６３２は、環境信号６１０の振幅によって達せられたかまたは超えられた特定のしきい値を示し得る。別の例において、第２の制御信号６３２は、環境分析ブロック／モジュール６１２によって判断された、環境信号６１０の振幅であり得る。第２の制御信号６３２はマスカー６３６に与えられ得る。

音源６２８はマスカー６３６に１つまたは複数の音信号６３４を与え得る。音源６２８の例としては、音楽またはサウンドファイル、合成音または雑音および／あるいは（例えば、別のデバイスから音信号６３４を受信するための）オーディオ入力またはインターフェース等がある。例えば、１つの音源６２８は音楽やサウンドのファイルを与える電子デバイス６０２上のメモリであり得る一方で、別の音源６２８は別のデバイスから音信号６３４を受信するために使用されるポートであり得る。図６に示した例において、音源６２８はマスカー６３６に音信号６３４（例えば、入力信号）を与え得る。いくつかの構成において、マスカーに与えられる音信号６３４は、選択入力６０３に基づいて選択され得る。例えば、ユーザは、ユーザのお気に入りのバンドの曲を含んでいる音楽ファイルを選択し得る。次いで、対応する音信号６３４がマスカー６３６に与えられ得る。

マスカー６３６は、マスキング信号６４２を生成するために使用されるブロック／モジュールであり得る。マスキング信号６４２は、音響ボイス信号を不明瞭にする、すなわちマスキングするために、１つまたは複数のスピーカー６４４（例えば、ラウドスピーカー）を使用して音響マスキング信号として出力され得る。マスカー６３６は、音信号６３４と第１の制御信号６３０と第２の制御信号６３２とに基づいてマスキング信号６４２を生成し得る。例えば、マスキング信号６４２は、第１の制御信号６３０と第２の制御信号６３２とに基づいて調整および／または修正され、メモリから音信号６３４として与えられる音楽を備え得る。

この例において、マスカー６３６はレベル制御ブロック／モジュール６３８を含む。レベル制御ブロック／モジュール６３８は音信号６３４のレベル（例えば、振幅、大きさ、ボリューム、ラウドネス等）を第１の制御信号６３０と第２の制御信号６３２とに基づいて調整し得る。例えば、レベル制御６３８は、第１の制御信号６３０中で与えられるしきい値トリガを使用して音声エンベロープと直接関係にある音信号６３４の振幅やラウドネスを調整し得る。例えば、音声エンベロープ６０１の振幅やラウドネスが増加された場合、レベル制御６３８は、入力信号の振幅やラウドネスを増加（例えば、ランプアップ）させ得る。しかしながら、音声エンベロープの振幅やラウドネスが減少された場合、レベル制御６３８は、入力信号の振幅やラウドネスを減少（例えば、ランプダウン）させ得る。例えば、ユーザがより大きな声で、あるいはより穏やかに話すと、電子デバイス６０２は、音響ボイス信号を効果的に不明瞭にするために、それぞれ、より大きな、あるいはより穏やかな音響マスキング信号を生成し得る。これは、圧倒的あるいは不快にならずに音響ボイス信号を不明瞭にするのに必要なだけ大きい音響マスキング信号を与え得る。

いくつかの構成において、レベル制御６３８は、（最初に）音信号６３４をボイス信号６２０に関してあるレベルにランプし得る。例えば、レベル制御６３８は、最初に（他の調整が行われる前に）、ボイス信号６２０よりも数デシベル大きくなるように音信号６３４をランプし得る。

追加または代替として、レベル制御ブロック／モジュール６３８は音信号６３４のレベル（例えば、振幅、ラウドネス等）を第２の制御信号６３２に基づいて調整し得る。例えば、レベル制御６３８は、第２の制御信号６３２中で与えられる（例えば、振幅やラウドネスに基づくしきい値トリガを使用して）環境振幅やラウドネスと逆関係にある音信号６３４の振幅やラウドネスを調整し得る。例えば、環境信号６１０の振幅やラウドネスが増加された場合、レベル制御６３８は、音信号６３４の振幅やラウドネスを減少（例えば、ランプダウン）させ得る。しかしながら、環境信号６１０の振幅やラウドネスが減少された場合、レベル制御６３８は、音信号６３４の振幅やラウドネスを増加（例えば、ランプアップ）させ得る。例えば、音響環境信号（例えば、音または雑音）がより大きく、あるいはより穏やかになると、ワイヤレス通信デバイス６０２は、それぞれ、より穏やかな、あるいはより大きな音響マスキング信号を生成し得る。例えば、環境信号（例えば、音または雑音）が、音響ボイス信号を効果的にマスキングするのに必要なだけ大きいおよび／または正しい特性のものである場合、ワイヤレス通信デバイス６０２が大きな音響マスキング信号を生成する必要がないことがある。従って、マスカー６３６は、より効率的に動作し、場合によっては、バッテリー電力を節約し得る。

いくつかの構成において、レベル制御６３８は、環境信号６１０と組み合わせた音信号６３４が環境信号６１０に関してあるレベルにあるように音信号６３４をランプし得る。例えば、音信号６３４と組み合わせた環境信号６１０が、（例えば、音声特徴に基づいて音信号６３４を調整した後に）（少なくとも）ボイス信号６２０よりも一定数のデシベル大きくない場合、レベル制御６３８は、環境信号６１０と音信号６３４との組合せがボイス信号６２０よりも数デシベル大きくなるように音信号６３４の振幅を増加（例えば、ランプアップ）させ得る。しかしながら、環境信号６１０と組み合わせた音信号６３４がボイス信号６２０よりも数デシベル大きい場合、レベル制御６３８は、環境信号６１０と組み合わせた音信号６３４がボイス信号６２０よりも数デシベル大きくなるまで、および／または音信号６３４があるレベル（例えば、無振幅レベルおよび／または設定レベル）に減少されるまで、音信号６３４を減少（例えば、ランプダウン）させ得る。

音声特徴（例えば、第１の制御信号６３０）と環境特徴（例えば、第２の制御信号６３２）とに基づいて修正および／または調整された音信号６３４は、スピーカー６４４に与えられるマスキング信号６４２であり得る。スピーカー６４４は、マスキング信号６４２を電気または電子信号から音響マスキング信号に変換し得る。図６で説明した例において、音信号６３４の振幅（例えば、ラウドネス、ボリューム）特性のみが調整され得ることに留意されたい。しかしながら、他の例および／または構成では、追加または代替の特性（例えば、空間、スペクトルおよび／または時間特性等）が音信号６３４（および／またはボイス信号６２０）を調整および／または修正するために使用され得る。

図７は、ワイヤレス通信デバイス５０２上でマスキング信号５４２を生成するための方法７００の構成を示す流れ図である。ワイヤレス通信デバイス５０２は、７０２において、複数のマイクロフォン５０４ａ〜ｎから複数のオーディオ信号を取得する。例えば、複数のマイクロフォン５０４ａ〜ｎは、音響ボイス信号および／あるいは１つまたは複数の音響環境信号を電気または電子オーディオ信号に変換し得る。

ワイヤレス通信デバイス５０２は７０４で複数のオーディオ信号から環境信号５１０を取得する。例えば、ワイヤレス通信デバイス５０２は、オーディオ信号中の環境音および／または雑音を推定し得る。一構成において、ワイヤレス通信デバイス５０２は、オーディオ信号中の環境音および／または雑音を推定するためにボイスアクティビティ検出器５９４を使用し得る。

ワイヤレス通信デバイス５０２は７０６で環境信号５１０に基づいて環境振幅（例えば、環境信号５１０の振幅）を判断する。例えば、ワイヤレス通信デバイス５０２は７０６で環境信号５１０の振幅（例えば、ラウドネス）エンベロープを判断し得る。これは、例えば、低域フィルタを使用すること、環境信号５１０のＲＭＳ値を計算すること、平均最大ピーク値を計算すること、および／または最大ピーク値を補間すること等を行うことによって行われ得る。いくつかの構成において、ワイヤレス通信デバイス５０２は、環境振幅に基づいて第２の制御信号５３２を生成し得る。

ワイヤレス通信デバイス５０２は７０８で複数のオーディオ信号からボイス信号５２０を取得する。例えば、ワイヤレス通信デバイス５０２は、オーディオ信号からボイス信号５２０を分離し得る。一構成において、ワイヤレス通信デバイス５０２はボイス信号５２０を推定するためにオーディオ信号から雑音推定値（例えば、環境信号５１０）を減算または除去し得る。

ワイヤレス通信デバイス５０２は７１０でボイス信号５２０に基づいてエンベロープ信号を判断する。これは、例えば、低域フィルタを使用すること、ボイス信号５２０のＲＭＳ値を計算すること、平均最大ピーク値を計算すること、および／または最大ピーク値を補間すること等を行うことによって行われ得る。エンベロープ信号は、例えば、ボイス信号５２０の振幅、大きさ、ラウドネス等を表し得る。いくつかの構成において、ワイヤレス通信デバイス５０２は、エンベロープ信号に基づいて第１の制御信号５３０を生成し得る。

ワイヤレス通信デバイス５０２は７１２で音信号５３４を取得する。例えば、ワイヤレス通信デバイス５０２は７１２で音楽やサウンドのファイル（例えば、ＭＰ３ファイル、ＷＡＶファイル、ＭＩＤＩファイル等）、合成音または雑音および／あるいは（例えば、別のデバイスからの）オーディオ入力等を取得し得る。一構成において、ワイヤレス通信デバイス５０２は、メモリから音信号５３４を取り出す。追加または代替として、ワイヤレス通信デバイス５０２は、アルゴリズムおよび／または記憶されたデータを使用して音または雑音を合成し得る。追加または代替として、ワイヤレス通信デバイス５０２は、セキュアデジタル（ＳＤ）カード、ユニバーサルシリアルバス（ＵＳＢ）サムドライブ等のようなリムーバブルメモリデバイスから音信号５３４を取り出す。一構成において、ワイヤレス通信デバイス５０２は７１２で選択入力に基づいて音信号５３４を取得し得る。例えば、ユーザは、特定の音源５２８または音信号５３４を（本明細書のシステムおよび方法に従って修正および／または調整を加えた）マスキング信号５４２として使用するように指定し得る。例えば、ユーザは、マスキング信号５４２のために、選択入力によって示され得る特定の音源、曲および／または音を使用したいと望み得る。

ワイヤレス通信デバイス５０２は、７１４でマスキング信号５４２を生成するために、エンベロープ信号（例えば、第１の制御信号５３０）と環境振幅（例えば、第２の制御信号５３２）とに基づいて音信号５３４の振幅を調整し得る。例えば、ワイヤレス通信デバイス５０２は、７１４でマスキング信号５４２を生成するために、エンベロープ信号と環境振幅とに基づいて音信号５３４の振幅、大きさ、ラウドネスまたはボリュームを調整し得る。一構成において、ワイヤレス通信デバイス５０２は、ボイスエンベロープ（例えば、振幅やラウドネスエンベロープ）と直接関係にある音信号５３４の振幅やラウドネスを調整し、環境振幅やラウドネス（例えば、振幅やラウドネスエンベロープ）と逆関係にある信号の振幅やラウドネスを調整する。これは、上記の図６に関して説明したように行われ得る。

ワイヤレス通信デバイス５０２は７１６でマスキング信号５４２を出力する。例えば、ワイヤレス通信デバイス５０２は、マスキング信号５４２を音響マスキング信号に変換できる１つまたは複数のスピーカー５４４にマスキング信号５４２を与え得る。

ワイヤレス通信デバイス５０２は７１８でボイス信号５２０を送信する。例えば、ワイヤレス通信デバイス５０２は７１８でボイス信号５２０を符号化、変調、増幅および／または送信し得る。ボイス信号５２０は、１つまたは複数のアンテナ５６０ａ〜ｎを使用して１つまたは複数の電磁信号として送信され得る。送信の前に、ワイヤレス通信デバイス５０２は、追加または代替として、ボイス信号５２０データを１つまたは複数の空間ストリーム、アンテナ、周波数（例えば、サブキャリア）、タイムスロット等にマッピングし得る。

図８は、マスキング信号を生成するためのシステムおよび方法が実装され得るワイヤレス通信デバイス８０２におけるいくつかの構成要素の一構成を示すブロック図である。ワイヤレス通信デバイス８０２は、アプリケーションプロセッサ８０９を含み得る。アプリケーションプロセッサ８０９は、概ね、ワイヤレス通信デバイス８０２上の機能を行うための複数の命令を処理する（例えば、複数のプログラムを走らせる）。アプリケーションプロセッサ８０９は、オーディオコーダ／デコーダ（コーデック）８０７に結合され得る。

オーディオコーデック８０７は、オーディオ信号をコーディングおよび／または復号するために使用される電子デバイス（例えば、集積回路）であり得る。オーディオコーデック８０７は、１つまたは複数のスピーカー８４４、１つまたは複数のイヤピーススピーカー８７６、出力ジャック８０５および／あるいは１つまたは複数のマイクロフォン８０４に結合され得る。スピーカー８４４は、電気または電子信号を音響信号に変換する１つまたは複数の電気音響トランスデューサを含み得る。例えば、スピーカー８４４は、音楽を再生するか、またはスピーカー電話機会話等を出力するために使用され得る。１つまたは複数のイヤピーススピーカー８７６は、音響信号（例えば、音声信号）をユーザに出力するために使用され得る１つまたは複数のスピーカーまたは電気音響トランスデューサを含み得る。例えば、１つまたは複数のイヤピーススピーカー８７６は、ユーザのみが音響信号を確実に聴取し得るように使用され得る。出力ジャック８０５は、ヘッドフォンのような、オーディオを出力するためのワイヤレス通信デバイス８０２に他のデバイスを結合するために使用され得る。スピーカー８４４、１つまたは複数のイヤピーススピーカー８７６および／または出力ジャック８０５は、一般に、オーディオコーデック８０７からオーディオ信号を出力するために使用され得る。１つまたは複数のマイクロフォン８０４は、音響信号（ユーザのボイス等）を、オーディオコーデック８０７に与えられる電気または電子信号に変換する音響電気トランスデューサであり得る。

アプリケーションプロセッサ８０９はマスカーブロック／モジュール８３６を含み得る。マスカーブロック／モジュール８３６は、本明細書で開示するシステムおよび方法に従ってマスキング信号を生成するために使用され得る。ワイヤレス通信デバイス８０２が、上述のように電子デバイス１０２、６０２、送信ワイヤレス通信デバイス３０２および／またはワイヤレス通信デバイス５０２と同様に構成され得、ならびに／あるいはそれらの一例であり得ることに留意されたい。例えば、ワイヤレス通信デバイス８０２は、上述の方法２００、４００、７００のうちの１つまたは複数を行い得る。より詳細には、マスカー８３６は、上述のマスカー１３６、３３６、５３６、６３６と同様に構成され得る。マスカーブロック／モジュール８３６がアプリケーションプロセッサ８０９において実装されるものとして示されているが、マスカーブロック／モジュール８３６は、追加または代替として、デジタル信号プロセッサ（ＤＳＰ：digital signal processor）において、または他の同様のブロック／モジュールにおいて実装され得る。

アプリケーションプロセッサ８０９は電力管理回路８１７に結合され得る。電力管理回路８１７の一例は電力管理集積回路（ＰＭＩＣ：power management integrated circuit）であり、それは、ワイヤレス通信デバイス８０２の電力消費を管理するために使用され得る。電力管理回路８１７はバッテリー８１９に結合され得る。バッテリー８１９は、概ね、ワイヤレス通信デバイス８０２に電力を与え得る。

アプリケーションプロセッサ８０９は、入力を受信するための１つまたは複数の入力デバイス８２１に結合され得る。入力デバイス８２１の例としては、赤外線センサー、画像センサー、加速度計、タッチセンサー、キーパッド等がある。入力デバイス８２１は、ワイヤレス通信デバイス８０２とのユーザ対話を可能にし得る。アプリケーションプロセッサ８０９はまた、１つまたは複数の出力デバイス８２３に結合され得る。出力デバイス８２３の例としては、プリンタ、プロジェクタ、スクリーン、触覚デバイス等がある。出力デバイス８２３は、ワイヤレス通信デバイス８０２が、ユーザが受け得る出力を生成することを可能にし得る。

アプリケーションプロセッサ８０９は、アプリケーションメモリ８２５に結合され得る。アプリケーションメモリ８２５は、電子情報を記憶することが可能な任意の電子デバイスであり得る。アプリケーションメモリ８２５の例としては、ダブルデータレートシンクロナスダイナミックランダムアクセスメモリ（ＤＤＲＡＭ）、シンクロナスダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）、フラッシュメモリ等がある。アプリケーションメモリ８２５は、アプリケーションプロセッサ８０９のための記憶装置を提供できる。例えば、アプリケーションメモリ８２５は、アプリケーションプロセッサ８０９上で実行されるプログラムの機能のためのデータおよび／または複数の命令を記憶し得る。一構成において、アプリケーションメモリ８２５は、上述の方法２００、４００、７００のうちの１つまたは複数を行うためのデータおよび／または複数の命令を記憶および／または与え得る。

アプリケーションプロセッサ８０９はディスプレイコントローラ８２７に結合され得、ディスプレイコントローラ８２７はディスプレイ８２９に結合され得る。ディスプレイコントローラ８２７は、ディスプレイ８２９上に画像を生成するために使用されるハードウェアブロックであり得る。例えば、ディスプレイコントローラ８２７は、アプリケーションプロセッサ８０９からの複数の命令および／またはデータを、ディスプレイ８２９上に提示され得る画像に変換し得る。ディスプレイ８２９の例としては、液晶ディスプレイ（ＬＣＤ）パネル、発光ダイオード（ＬＥＤ）パネル、陰極線管（ＣＲＴ）ディスプレイ、プラズマディスプレイ等がある。

アプリケーションプロセッサ８０９は、ベースバンドプロセッサ８１１に結合され得る。ベースバンドプロセッサ８１１は、概ね、通信信号を処理する。例えば、ベースバンドプロセッサ８１１は、受信した信号を復調および／または復号し得る。追加または代替として、ベースバンドプロセッサ８１１は、送信に備えて信号を符号化および／または変調し得る。

ベースバンドプロセッサ８１１は、ベースバンドメモリ８３１に結合され得る。ベースバンドメモリ８３１は、ＳＤＲＡＭ、ＤＤＲＡＭ、フラッシュメモリ等のような、電子情報を記憶することが可能な任意の電子デバイスであり得る。ベースバンドプロセッサ８１１は、ベースバンドメモリ８３１から情報（例えば、複数の命令および／またはデータ）を読み取り、および／またはベースバンドメモリ８３１に情報を書き込み得る。追加または代替として、ベースバンドプロセッサ８１１は、通信動作を行うために、ベースバンドメモリ８３１に記憶された複数の命令および／またはデータを使用し得る。

ベースバンドプロセッサ８１１は、無線周波数（ＲＦ）トランシーバ８１３に結合され得る。ＲＦトランシーバ８１３は、電力増幅器８１５と１つまたは複数のアンテナ８６０とに結合され得る。ＲＦトランシーバ８１３は、無線周波信号を送信および／または受信し得る。例えば、ＲＦトランシーバ８１３は、電力増幅器８１５と１つまたは複数のアンテナ８６０とを使用してＲＦ信号を送信し得る。ＲＦトランシーバ８１３はまた、１つまたは複数のアンテナ８６０を使用してＲＦ信号を受信し得る。

図９に、電子デバイス９０２において利用され得る様々な構成要素を示す。図示の構成要素は、同じ物理構造内に配置されるか、あるいは別個のハウジングまたは構造中に配置され得る。前に説明した電子デバイス１０２、６０２および／またはワイヤレス通信デバイス３０２、５０２、８０２のうちの１つまたは複数は、電子デバイス９０２と同様に構成され得る。電子デバイス９０２はプロセッサ９３９を含む。プロセッサ９３９は、汎用シングルまたはマルチチップマイクロプロセッサ（例えば、ＡＲＭ）、専用マイクロプロセッサ（例えば、デジタル信号プロセッサ（ＤＳＰ））、マイクロコントローラ、プログラマブルゲートアレイ等であり得る。プロセッサ９３９は中央処理ユニット（ＣＰＵ）と呼ばれることがある。図９の電子デバイス９０２中に単一のプロセッサ９３９のみを示しているが、代替構成では、プロセッサ９３９の組合せ（例えば、ＡＲＭとＤＳＰと）が使用され得る。

電子デバイス９０２はまた、プロセッサ９３９と電子通信しているメモリ９３３を含む。すなわち、プロセッサ９３９は、メモリ９３３から情報を読み取ること、および／またはメモリ９３３に情報を書き込むことができる。メモリ９３３は、電子情報を記憶することが可能な任意の電子的構成要素であり得る。メモリ９３３は、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、磁気ディスクストレージ媒体、光記憶媒体、ＲＡＭ中のフラッシュメモリデバイス、プロセッサ９３９とともに含まれるオンボードメモリ、プログラマブル読取り専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、レジスタ、およびこれらの組合せであり得る。

データ９３７ａおよび複数の命令９３５ａはメモリ９３３に記憶され得る。これら命令９３５ａは、１つまたは複数のプログラム、ルーチン、サブルーチン、関数、プロシージャ等を含み得る。これら命令９３５ａは、単一のコンピュータ可読ステートメントまたは多くのコンピュータ可読ステートメントを含み得る。これら命令９３５ａは、上述の方法２００、４００、７００のうちの１つまたは複数を実装するために、プロセッサ９３９によって実行可能であり得る。これら命令９３５ａを実行することは、メモリ９３３に記憶されたデータ９３７ａの使用を含み得る。図９は、プロセッサ９３９にロードされている（命令９３５ａおよびデータ９３７ａから来ることがある）いくつかの命令９３５ｂおよびデータ９３７ｂを示す。

電子デバイス９０２はまた、他の電子デバイス９０２と通信するための１つまたは複数の通信インターフェース９４３を含み得る。通信インターフェース９４３は、ワイヤード通信技術、ワイヤレス通信技術、またはその両方に基づき得る。様々なタイプの通信インターフェース９４３の例としては、シリアルポート、パラレルポート、ユニバーサルシリアルバス（ＵＳＢ）、イーサネットアダプター、ＩＥＥＥ１３９４バスインターフェース、小型コンピュータシステムインターフェース（ＳＣＳＩ）バスインターフェース、赤外線（ＩＲ）通信ポート、Ｂｌｕｅｔｏｏｔｈ（登録商標）ワイヤレス通信アダプター等がある。

電子デバイス９０２はまた、１つまたは複数の入力デバイス９４５と、１つまたは複数の出力デバイス９４９とを含み得る。様々な種類の入力デバイス９４５の例としては、キーボード、マウス、マイクロフォン、遠隔制御デバイス、ボタン、ジョイスティック、トラックボール、タッチパッド、ライトペン等がある。例えば、電子デバイス９０２は、音響信号をキャプチャするための１つまたは複数のマイクロフォン９４７を含み得る。一構成において、マイクロフォン９４７は、音響信号（例えば、ボイス、音声）を電気または電子信号に変換するトランスデューサであり得る。様々な種類の出力デバイス９４９の例としては、スピーカー、プリンタ等がある。例えば、電子デバイス９０２は１つまたは複数のスピーカー９５１を含み得る。一構成において、スピーカー９５１は、電気または電子信号を音響信号に変換するトランスデューサであり得る。電子デバイス９０２中に典型的に含まれ得る１つの特定のタイプの出力デバイス９４９はディスプレイデバイス９５３である。本明細書で開示する構成とともに使用されるディスプレイデバイス９５３は、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）、ガスプラズマ、エレクトロルミネセンス等のような、任意の好適な画像投影技術を利用し得る。ディスプレイコントローラ９５５はまた、メモリ９３３に記憶されたデータ９３７ａをディスプレイデバイス９５３上に示されるテキスト、グラフィック、および／または動画（適宜）に変換するために設けられ得る。

電子デバイス９０２の様々な構成要素は、電力バス、制御信号バス、ステータス信号バス、データバス等を含み得る１つまたは複数のバスによって互いに結合され得る。簡単のために、図９では様々なバスはバスシステム９４１として示してある。図９が電子デバイス９０２の１つの可能な構成を示しているにすぎないことに留意されたい。様々な他のアーキテクチャおよび構成要素が利用され得る。

図１０は、ワイヤレス通信デバイス１００２内に含まれ得るいくつかの構成要素を示す図である。上述の電子デバイス１０２、６０２および／またはワイヤレス通信デバイス３０２、５０２、８０２のうちの１つまたは複数は、図１０に示すワイヤレス通信デバイス１００２と同様に構成され得る。

ワイヤレス通信デバイス１００２はプロセッサ１０７５を含む。プロセッサ１０７５は、汎用シングルまたはマルチチップマイクロプロセッサ（例えば、ＡＲＭ）、専用マイクロプロセッサ（例えば、デジタル信号プロセッサ（ＤＳＰ））、マイクロコントローラ、プログラマブルゲートアレイ等であり得る。プロセッサ１０７５は中央処理ユニット（ＣＰＵ）と呼ばれることがある。図１０のワイヤレス通信デバイス１００２には単一のプロセッサ１０７５のみが示されるが、代替構成では、プロセッサ１０７５（例えば、ＡＲＭとＤＳＰ）の組合せが使用され得る。

ワイヤレス通信デバイス１００２はまた、プロセッサ１０７５と電子通信しているメモリ１０５７を含む（すなわち、プロセッサ１０７５は、メモリ１０５７から情報を読み取ること、および／またはメモリ１０５７に情報を書き込むことができる）。メモリ１０５７は、電子情報を記憶することが可能な任意の電子的構成要素であり得る。メモリ１０５７は、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、磁気ディスクストレージ媒体、光記憶媒体、ＲＡＭ中のフラッシュメモリデバイス、プロセッサ１０７５とともに含まれるオンボードメモリ、プログラマブル読取り専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、レジスタ、およびこれらの組合せであり得る。

データ１０５９ａおよび複数の命令１０６１ａはメモリ１０５７に記憶され得る。これら命令１０６１ａは、１つまたは複数のプログラム、ルーチン、サブルーチン、関数、プロシージャ、コード等を含み得る。これら命令１０６１ａは、単一のコンピュータ可読ステートメントまたは多くのコンピュータ可読ステートメントを含み得る。これら命令１０６１ａは、上述の方法２００、４００、７００のうちの１つまたは複数を実装するために、プロセッサ１０７５によって実行可能であり得る。命令１０６１ａを実行することは、メモリ１０５７に記憶されたデータ１０５９ａの使用を含み得る。図１０は、プロセッサ１０７５にロードされている（メモリ１０５７中の命令１０６１ａおよびデータ１０５９ａから来ることがある）いくつかの命令１０６１ｂおよびデータ１０５９ｂを示す。

ワイヤレス通信デバイス１００２はまた、ワイヤレス通信デバイス１００２と遠隔ロケーション（例えば、別の電子デバイス、ワイヤレス通信デバイス等）との間の信号の送信および受信を可能にするために、送信機１０７１と受信機１０７３とを含み得る。送信機１０７１と受信機１０７３とはトランシーバ１０６９と総称されることがある。アンテナ１０７７はトランシーバ１０６９に電気的に結合され得る。ワイヤレス通信デバイス１００２は、複数の送信機１０７１、複数の受信機１０７３、複数のトランシーバ１０６９および／または複数のアンテナ１０７７をも含み得る（図示せず）。

いくつかの構成において、ワイヤレス通信デバイス１００２は、音響信号をキャプチャするための１つまたは複数のマイクロフォン１０６３を含み得る。一構成において、マイクロフォン１０６３は、音響信号（例えば、ボイス、音声）を電気または電子信号に変換するトランスデューサであり得る。追加または代替として、ワイヤレス通信デバイス１００２は１つまたは複数のスピーカー１０６５を含み得る。一構成において、スピーカー１０６５は、電気または電子信号を音響信号に変換するトランスデューサであり得る。

ワイヤレス通信デバイス１００２の様々な構成要素は、電力バス、制御信号バス、ステータス信号バス、データバス等を含み得る１つまたは複数のバスによって互いに結合され得る。簡単のために、図１０では様々なバスはバスシステム１０６７として示される。

「判断」という用語は、多種多様なアクションを包含し、従って、「判断」は、計算、算出、処理、導出、調査、探索（例えば、テーブル、データベースまたは別のデータ構造での探索）、確認等を含むことができる。また、「判断」は、受信（例えば、情報を受信すること）、アクセス（例えば、メモリ中のデータにアクセスすること）等を含むことができる。また、「判断」は、解決、選択、選定、確立等を含むことができる。

「に基づいて」という句は、別段に明示されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という句は、「のみに基づいて」と「に少なくとも基づいて」の両方を表す。

本明細書で説明した機能は、１つまたは複数の命令としてプロセッサ可読媒体またはコンピュータ可読媒体上に記憶され得る。「コンピュータ可読媒体」という用語は、コンピュータまたはプロセッサによってアクセスされ得る任意の利用可能な媒体を指す。限定ではなく、例として、そのような媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、ＣＤ−ＲＯＭまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、あるいは命令またはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータまたはプロセッサによってアクセスされ得る、任意の他の媒体を備え得る。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）、およびブルーレイ（登録商標）ディスク（disc）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）は、データをレーザーで光学的に再生する。コンピュータ可読媒体は有形で非一時的であり得ることに留意されたい。「コンピュータプログラム製品」という用語は、コンピューティングデバイスまたはプロセッサによって実行、処理または計算され得るコードまたは命令（例えば、「プログラム」）と組み合わせたコンピューティングデバイスまたはプロセッサを指す。本明細書で使用する「コード」という用語は、コンピューティングデバイスまたはプロセッサによって実行可能であるソフトウェア、命令、コードまたはデータを指すことがある。

ソフトウェアまたは命令はまた、伝送媒体を介して送信され得る。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波のようなワイヤレス技術は、送信媒体の定義に含まれる。

本明細書で開示する方法は、説明した方法を達成するための１つまたは複数のステップまたはアクションを備える。本方法のステップおよび／またはアクションは、特許請求の範囲から逸脱することなく互いに交換され得る。言い換えれば、説明されている方法の適切な動作のためにステップまたはアクションの特定の順序が必要とされない限り、特定のステップおよび／またはアクションの順序および／または使用は、特許請求の範囲から逸脱することなく修正され得る。

特許請求の範囲は、上記に示した正確な構成および構成要素に限定されないことを理解されたい。特許請求の範囲から逸脱することなく、本明細書で説明したシステム、方法、および装置の構成、動作および詳細において、様々な修正、変更および変形が行われ得る。
以下に本件出願当初の特許請求の範囲に記載された発明を付記する。
[Ｃ１]
マスキング信号を生成するための電子デバイスであって、
複数のマイクロフォンと、
スピーカーと、
プロセッサと、
前記プロセッサと電子通信しているメモリと、
前記メモリに記憶された複数の命令と
を備える、電子デバイスであって、前記複数の命令が、
前記複数のマイクロフォンから複数のオーディオ信号を取得することと、
前記複数のオーディオ信号から環境信号を取得することと、
前記環境信号に基づいて環境特徴を判断することと、
前記複数のオーディオ信号からボイス信号を取得することと、
前記ボイス信号に基づいてボイス特徴を判断することと、
前記ボイス特徴と前記環境特徴とに基づいてマスキング信号を生成することと、
前記スピーカーを使用して前記マスキング信号を出力することと
を行うように実行可能である、電子デバイス。
[Ｃ２]
前記複数の命令が、音信号を取得するようにさらに実行可能である、Ｃ１に記載の電子デバイス。
[Ｃ３]
前記マスキング信号を生成することが前記音信号にさらに基づく、Ｃ２に記載の電子デバイス。
[Ｃ４]
前記音信号が音楽を備える、Ｃ２に記載の電子デバイス。
[Ｃ５]
前記マスキング信号を生成することが、前記ボイス信号に基づいてエンベロープ信号と直接関係にある前記音信号の前記振幅を調節することを備える、Ｃ２に記載の電子デバイス。
[Ｃ６]
前記マスキング信号を生成することが、前記環境信号に基づいて振幅と逆関係にある前記音信号の前記振幅を調節することを備える、Ｃ２に記載の電子デバイス。
[Ｃ７]
前記音信号が入力に基づいて選択される、Ｃ２に記載の電子デバイス。
[Ｃ８]
前記ボイス特徴が、振幅特性と、スペクトル特性と、空間特性と、時間特性とからなるグループから選択された１つを備える、Ｃ１に記載の電子デバイス。
[Ｃ９]
前記ボイス特徴がラウドネスエンベロープを備える、Ｃ１に記載の電子デバイス。
[Ｃ１０]
前記環境特徴が、振幅特性と、スペクトル特性と、空間特性と、時間特性とからなるグループから選択された１つを備える、Ｃ１に記載の電子デバイス。
[Ｃ１１]
前記環境特徴がラウドネス特性を備える、Ｃ１に記載の電子デバイス。
[Ｃ１２]
前記ボイス信号を取得することが、前記複数のオーディオ信号から前記環境信号を除去することを備える、Ｃ１に記載の電子デバイス。
[Ｃ１３]
前記ボイス信号を取得することが、エコーキャンセラを使用して前記複数のオーディオ信号から１つまたは複数のエコー信号を除去することを備える、Ｃ１に記載の電子デバイス。
[Ｃ１４]
前記複数の命令が、前記ボイス信号を送信するようにさらに実行可能である、Ｃ１に記載の電子デバイス。
[Ｃ１５]
前記マスキング信号を生成することが、前記ボイス特徴に基づいて前記ボイス信号を変調する振幅を備える、Ｃ１に記載の電子デバイス。
[Ｃ１６]
前記電子デバイスがワイヤレス通信デバイスである、Ｃ１に記載の電子デバイス。
[Ｃ１７]
複数のスピーカーをさらに備える、Ｃ１に記載の電子デバイス。
[Ｃ１８]
電子デバイス上でマスキング信号を生成するための方法であって、
複数のマイクロフォンから複数のオーディオ信号を取得することと、
前記複数のオーディオ信号から環境信号を取得することと、
前記環境信号に基づいて環境特徴を判断することと、
前記複数のオーディオ信号からボイス信号を取得することと、
前記ボイス信号に基づいてボイス特徴を判断することと、
前記ボイス特徴と前記環境特徴とに基づいてマスキング信号を生成することと、
スピーカーを使用して前記マスキング信号を出力することと
を備える、方法。
[Ｃ１９]
音信号を取得することをさらに備える、Ｃ１８に記載の方法。
[Ｃ２０]
前記マスキング信号を生成することが前記音信号にさらに基づく、Ｃ１９に記載の方法。
[Ｃ２１]
前記音信号が音楽を備える、Ｃ１９に記載の方法。
[Ｃ２２]
前記マスキング信号を生成することが、前記ボイス信号に基づいてエンベロープ信号と直接関係にある前記音信号の前記振幅を調節することを備える、Ｃ１９に記載の方法。
[Ｃ２３]
前記マスキング信号を生成することが、前記環境信号に基づいて振幅と逆関係にある前記音信号の前記振幅を調節することを備える、Ｃ１９に記載の方法。
[Ｃ２４]
前記音信号が入力に基づいて選択される、Ｃ１９に記載の方法。
[Ｃ２５]
前記ボイス特徴が、振幅特性と、スペクトル特性と、空間特性と、時間特性とからなるグループから選択された１つを備える、Ｃ１８に記載の方法。
[Ｃ２６]
前記ボイス特徴がラウドネスエンベロープを備える、Ｃ１８に記載の方法。
[Ｃ２７]
前記環境特徴が、振幅特性と、スペクトル特性と、空間特性と、時間特性とからなるグループから選択された１つを備える、Ｃ１８に記載の方法。
[Ｃ２８]
前記環境特徴がラウドネス特性を備える、Ｃ１８に記載の方法。
[Ｃ２９]
前記ボイス信号を取得することが、前記複数のオーディオ信号から前記環境信号を除去することを備える、Ｃ１８に記載の方法。
[Ｃ３０]
前記ボイス信号を取得することが、エコーキャンセラを使用して前記複数のオーディオ信号から１つまたは複数のエコー信号を除去することを備える、Ｃ１８に記載の方法。
[Ｃ３１]
前記複数の命令が、前記ボイス信号を送信するようにさらに実行可能である、Ｃ１８に記載の方法。
[Ｃ３２]
前記マスキング信号を生成することが、前記ボイス特徴に基づいて前記ボイス信号を変調する振幅を備える、Ｃ１８に記載の方法。
[Ｃ３３]
前記電子デバイスがワイヤレス通信デバイスである、Ｃ１８に記載の方法。
[Ｃ３４]
前記電子デバイスが複数のスピーカーを備える、Ｃ１８に記載の方法。
[Ｃ３５]
複数の命令をその上に有する非一時的有形コンピュータ可読媒体を備える、マスキング信号を生成するためのコンピュータプログラム製品であって、前記複数の命令が、
電子デバイスに、複数のマイクロフォンから複数のオーディオ信号を取得させるためのコードと、
前記電子デバイスに、前記複数のオーディオ信号から環境信号を取得させるためのコードと、
前記電子デバイスに、前記環境信号に基づいて環境特徴を判断させるためのコードと、
前記電子デバイスに、前記複数のオーディオ信号からボイス信号を取得させるためのコードと、
前記電子デバイスに、前記ボイス信号に基づいてボイス特徴を判断させるためのコードと、
前記電子デバイスに、前記ボイス特徴と前記環境特徴とに基づいてマスキング信号を生成させるためのコードと、
前記電子デバイスに、スピーカーを使用して前記マスキング信号を出力させるためのコードと
を備える、コンピュータプログラム製品。
[Ｃ３６]
前記複数の命令が、前記電子デバイスに、音信号を取得させるためのコードをさらに備える、Ｃ３５に記載のコンピュータプログラム製品。
[Ｃ３７]
前記マスキング信号を生成することが前記音信号にさらに基づく、Ｃ３６に記載のコンピュータプログラム製品。
[Ｃ３８]
前記マスキング信号を生成することが、前記ボイス信号に基づいてエンベロープ信号と直接関係にある前記音信号の前記振幅を調節することを備える、Ｃ３６に記載のコンピュータプログラム製品。
[Ｃ３９]
前記マスキング信号を生成することが、前記環境信号に基づいて振幅と逆関係にある前記音信号の前記振幅を調節することを備える、Ｃ３６に記載のコンピュータプログラム製品。
[Ｃ４０]
前記音信号が入力に基づいて選択される、Ｃ３６に記載のコンピュータプログラム製品。
[Ｃ４１]
前記ボイス信号を取得することが、エコーキャンセラを使用して前記複数のオーディオ信号から１つまたは複数のエコー信号を除去することを備える、Ｃ３５に記載のコンピュータプログラム製品。
[Ｃ４２]
マスキング信号を生成するための装置であって、
複数のマイクロフォンから複数のオーディオ信号を取得するための手段と、
前記複数のオーディオ信号から環境信号を取得するための手段と、
前記環境信号に基づいて環境特徴を判断するための手段と、
前記複数のオーディオ信号からボイス信号を取得するための手段と、
前記ボイス信号に基づいてボイス特徴を判断するための手段と、
前記ボイス特徴と前記環境特徴とに基づいてマスキング信号を生成するための手段と、
スピーカーを使用して前記マスキング信号を出力するための手段と
を備える、装置。
[Ｃ４３]
音信号を取得するための手段をさらに備える、Ｃ４２に記載の装置。
[Ｃ４４]
前記マスキング信号を生成することが前記音信号にさらに基づく、Ｃ４３に記載の装置。
[Ｃ４５]
前記マスキング信号を生成することが、前記ボイス信号に基づいてエンベロープ信号と直接関係にある前記音信号の前記振幅を調節することを備える、Ｃ４３に記載の装置。
[Ｃ４６]
前記マスキング信号を生成することが、前記環境信号に基づいて振幅と逆関係にある前記音信号の前記振幅を調節することを備える、Ｃ４３に記載の装置。
[Ｃ４７]
前記音信号が入力に基づいて選択される、Ｃ４３に記載の装置。
[Ｃ４８]
前記ボイス信号を取得することが、エコーキャンセラを使用して前記複数のオーディオ信号から１つまたは複数のエコー信号を除去することを備える、Ｃ４２に記載の装置。

Claims

マスキング信号を生成するための電子デバイスであって、
複数のマイクロフォンと、
スピーカーと、
プロセッサと、
前記プロセッサと電子通信しているメモリと、
前記メモリに記憶された複数の命令と
を備え、
前記複数の命令は、
前記複数のマイクロフォンから複数のオーディオ信号を取得することと、
前記複数のオーディオ信号から環境信号を取得することと、
前記環境信号に基づいて環境特徴を判断することと、
前記複数のオーディオ信号からボイス信号を取得することと、
前記ボイス信号に基づいてボイス特徴を判断することと、ここにおいて前記ボイス特徴はラウドネスエンベロープを備えるものである、
マスキングのための音源からの音信号を取得することと、
前記ボイス特徴と前記環境特徴と前記音信号とに基づいてマスキング信号を生成することと、ここにおいて前記マスキング信号を生成することは前記環境特徴および前記ボイス特徴に基づいて前記音信号を調整することを備えるものである、
前記スピーカーを使用して前記マスキング信号を出力することと、ここにおいて前記マスキング信号は音響ボイス信号を不明瞭にするものである、
を行うために前記プロセッサによって実行可能である、電子デバイス。
前記音信号が音楽を備える、請求項１に記載の電子デバイス。
前記音信号を調整することは、前記ボイス信号に基づいてエンベロープ信号と直接関係にある前記音信号の振幅を調節することを備える、請求項１に記載の電子デバイス。
前記音信号を調整することは、前記環境信号に基づいて振幅と逆関係にある前記音信号の前記振幅を調節することをさらに備える、請求項３に記載の電子デバイス。
前記音信号は入力に基づいて選択される、請求項１に記載の電子デバイス。
前記ボイス特徴は、振幅特性と、スペクトル特性と、空間特性と、時間特性とからなるグループから選択された１つを備える、請求項１に記載の電子デバイス。
マスキングレベルが少なくとも１つのランプタイムに基づいて制御される、請求項１に記載の電子デバイス。
前記環境特徴は、振幅特性と、スペクトル特性と、空間特性と、時間特性とからなるグループから選択された１つを備える、請求項１に記載の電子デバイス。
前記環境特徴はラウドネス特性を備える、請求項１に記載の電子デバイス。
前記ボイス信号を取得することは、前記複数のオーディオ信号から前記環境信号を除去することを備える、請求項１に記載の電子デバイス。
前記ボイス信号を取得することは、エコーキャンセラを使用して前記複数のオーディオ信号から１つまたは複数のエコー信号を除去することを備える、請求項１に記載の電子デバイス。
前記複数の命令は、前記ボイス信号を送信するためにさらに実行可能である、請求項１に記載の電子デバイス。
前記マスキング信号を生成することは、前記ボイス特徴に基づいて前記ボイス信号を変調する振幅を備える、請求項１に記載の電子デバイス。
前記電子デバイスはワイヤレス通信デバイスである、請求項１に記載の電子デバイス。
複数のスピーカーをさらに備える、請求項１に記載の電子デバイス。
電子デバイス上でマスキング信号を生成するための方法であって、
複数のマイクロフォンから複数のオーディオ信号を取得することと、
前記複数のオーディオ信号から環境信号を取得することと、
前記環境信号に基づいて環境特徴を判断することと、
前記複数のオーディオ信号からボイス信号を取得することと、
前記ボイス信号に基づいてボイス特徴を判断することと、ここにおいて前記ボイス特徴はラウドネスエンベロープを備えるものである、
マスキングのための音源からの音信号を取得することと、
前記ボイス特徴と前記環境特徴と前記音信号とに基づいてマスキング信号を生成することと、ここにおいて前記マスキング信号を生成することは前記環境特徴および前記ボイス特徴に基づいて前記音信号を調整することを備えるものである、
スピーカーを使用して前記マスキング信号を出力することと、ここにおいて前記マスキング信号は音響ボイス信号を不明瞭にするものである、
を備える、方法。
前記音信号は音楽を備える、請求項１６に記載の方法。
前記音信号を調整することは、前記ボイス信号に基づいてエンベロープ信号と直接関係にある前記音信号の振幅を調節することを備える、請求項１６に記載の方法。
前記音信号を調整することは、前記環境信号に基づいて振幅と逆関係にある前記音信号の前記振幅を調節することをさらに備える、請求項１８に記載の方法。
前記音信号は入力に基づいて選択される、請求項１６に記載の方法。
前記ボイス特徴は、振幅特性と、スペクトル特性と、空間特性と、時間特性とからなるグループから選択された１つを備える、請求項１６に記載の方法。
マスキングレベルが少なくとも１つのランプタイムに基づいて制御される、請求項１６に記載の方法。
前記環境特徴は、振幅特性と、スペクトル特性と、空間特性と、時間特性とからなるグループから選択された１つを備える、請求項１６に記載の方法。
前記環境特徴はラウドネス特性を備える、請求項１６に記載の方法。
前記ボイス信号を取得することは、前記複数のオーディオ信号から前記環境信号を除去することを備える、請求項１６に記載の方法。
前記ボイス信号を取得することは、エコーキャンセラを使用して前記複数のオーディオ信号から１つまたは複数のエコー信号を除去することを備える、請求項１６に記載の方法。
さらに前記ボイス信号を送信することを備える、請求項１６に記載の方法。
前記マスキング信号を生成することは、前記ボイス特徴に基づいて前記ボイス信号を変調する振幅を備える、請求項１６に記載の方法。
前記電子デバイスはワイヤレス通信デバイスである、請求項１６に記載の方法。
前記電子デバイスは複数のスピーカーを備える、請求項１６に記載の方法。
マスキング信号を生成するためのコンピュータプログラムであって、
複数の命令は、
複数のマイクロフォンから複数のオーディオ信号を取得することを電子デバイスにさせるためのコードと、
前記複数のオーディオ信号から環境信号を取得することを前記電子デバイスにさせるためのコードと、
前記環境信号に基づいて環境特徴を判断することを前記電子デバイスにさせるためのコードと、
前記複数のオーディオ信号からボイス信号を取得することを前記電子デバイスにさせるためのコードと、
前記ボイス信号に基づいてボイス特徴を判断することを前記電子デバイスにさせるためのコードと、ここにおいて前記ボイス特徴はラウドネスエンベロープを備えるものである、
マスキングのための音源からの音信号を取得することを前記電子デバイスにさせるためのコードと、
前記ボイス特徴と前記環境特徴と前記音信号とに基づいてマスキング信号を生成することを前記電子デバイスにさせるためのコードと、ここにおいて前記マスキング信号を生成することは前記環境特徴および前記ボイス特徴に基づいて前記音信号を調整することを備えるものである、
スピーカーを使用して前記マスキング信号を出力することを前記電子デバイスにさせるためのコードと、ここにおいて前記マスキング信号は音響ボイス信号を不明瞭にするものである、
を備える、コンピュータプログラム。
前記音信号を調整することは、前記ボイス信号に基づいてエンベロープ信号と直接関係にある前記音信号の振幅を調節することを備える、請求項３１に記載のコンピュータプログラム。
前記音信号を調整することは、前記環境信号に基づいて振幅と逆関係にある前記音信号の前記振幅を調節することをさらに備える、請求項３２に記載のコンピュータプログラム。
前記音信号は入力に基づいて選択される、請求項３１に記載のコンピュータプログラム。
前記ボイス信号を取得することは、エコーキャンセラを使用して前記複数のオーディオ信号から１つまたは複数のエコー信号を除去することを備える、請求項３１に記載のコンピュータプログラム。
マスキング信号を生成するための装置であって、
複数のマイクロフォンから複数のオーディオ信号を取得するための手段と、
前記複数のオーディオ信号から環境信号を取得するための手段と、
前記環境信号に基づいて環境特徴を判断するための手段と、
前記複数のオーディオ信号からボイス信号を取得するための手段と、
前記ボイス信号に基づいてボイス特徴を判断するための手段と、ここにおいて前記ボイス特徴はラウドネスエンベロープを備えるものである、
マスキングのための音源からの音信号を取得するための手段と、
前記ボイス特徴と前記環境特徴と前記音信号とに基づいてマスキング信号を生成するための手段と、ここにおいて前記マスキング信号を生成することは前記環境特徴および前記ボイス特徴に基づいて前記音信号を調整することを備えるものである、
スピーカーを使用して前記マスキング信号を出力するための手段と、ここにおいて前記マスキング信号は音響ボイス信号を不明瞭にするものである、
を備える、装置。
前記音信号を調整することは、前記ボイス信号に基づいてエンベロープ信号と直接関係にある前記音信号の振幅を調節することを備える、請求項３６に記載の装置。
前記音信号を調整することは、前記環境信号に基づいて振幅と逆関係にある前記音信号の前記振幅を調節することをさらに備える、請求項３７に記載の装置。
前記音信号は入力に基づいて選択される、請求項３６に記載の装置。
前記ボイス信号を取得することは、エコーキャンセラを使用して前記複数のオーディオ信号から１つまたは複数のエコー信号を除去することを備える、請求項３６に記載の装置。