JP2018530778A

JP2018530778A - 協調的なオーディオ処理

Info

Publication number: JP2018530778A
Application number: JP2018513654A
Authority: JP
Inventors: レ−フン・キム; エリック・ヴィッサー; ラグヴィール・ペリ
Original assignee: クアルコム，インコーポレイテッド
Priority date: 2015-09-18
Filing date: 2016-07-28
Publication date: 2018-10-18
Anticipated expiration: 2036-07-28
Also published as: KR20180045035A; US9706300B2; US20170085985A1; KR101923357B1; CN108028979A; JP6397158B1; EP3351014A1; TWI607373B; CN108028979B; EP3351014B1; TW201723802A; WO2017048376A1

Abstract

オーディオ出力を生成する方法は、ユーザデバイスにおいてグラフィカルユーザインターフェース(GUI)を表示するステップを含む。GUIは複数の領域を有するエリアを表し、複数のオーディオ捕捉デバイスがそのエリアの中に位置する。方法はまた、複数のオーディオ捕捉デバイスからオーディオデータを受信するステップを含む。方法はさらに、複数の領域のうちのある選択された領域を示す入力を受信するステップを含む。方法はまた、ユーザデバイスにおいて、複数のオーディオ捕捉デバイスのサブセットからのオーディオデータに基づいてオーディオ出力を生成するステップを含む。サブセットの中の各オーディオ捕捉デバイスは、その選択された領域の中に位置する。

Description

優先権の主張
本出願は、その内容全体が参照として本明細書に明確に組み込まれる、同一出願人が所有する2015年9月18日に出願された米国本特許出願第14/859,128号の優先権を主張する。

本開示は全般に、オーディオ処理に関する。

技術の進歩は、より小型で、より強力なコンピューティングデバイスをもたらしてきた。たとえば、現在、小型、軽量で、ユーザが容易に持ち運べる、ポータブルワイヤレス電話、携帯情報端末(PDA)、およびページングデバイスなどのワイヤレスコンピューティングデバイスを含む、様々なポータブルパーソナルコンピューティングデバイスが存在する。より具体的には、携帯電話およびインターネットプロトコル(IP)電話などのポータブルワイヤレス電話は、ワイヤレスネットワークを通じて音声およびデータパケットを通信することができる。さらに、多くのそのようなワイヤレス電話は、そこに組み込まれた他のタイプのデバイスを含む。たとえば、ワイヤレス電話は、デジタルスチルカメラ、デジタルビデオカメラ、デジタルレコーダ、およびオーディオファイルプレーヤも含むことがある。また、そのようなワイヤレス電話は、インターネットにアクセスするために使用され得るウェブブラウザアプリケーションなどのソフトウェアアプリケーションを含む、実行可能命令を処理することができる。したがって、これらのワイヤレス電話は、著しいコンピューティング能力を含むことがある。

一部の電子デバイス(たとえば、ワイヤレス電話)は、複数のマイクロフォンを有し得る。ユーザの発話などの目的の音が第1のマイクロフォンによって検出される場合、第1のマイクロフォンによって捉えられた信号に対する雑音抑制を実行するために、別のマイクロフォンによって捉えられた信号が使用され得る。単一のデバイス上での複数のマイクロフォンの音響的な幾何学的配置は固定されているので、他のマイクロフォンの信号が雑音抑制のために使用され得る。他のデバイスからのオーディオ信号も使用され得る。しかしながら、従来の複数のマイクロフォンによる処理アルゴリズムは、マイクロフォン間の距離、またはあるマイクロフォンの他のマイクロフォンに対する相対的な位置などの、幾何学的情報の入手を必要とする。

本明細書において開示される技法の一例によれば、雑音低減を実行する方法は、第1のデバイスの第1のマイクロフォンにおいて第1のオーディオ信号を捉えるステップを含む。方法はまた、第1のデバイスにおいて、第2のデバイスから第2のオーディオ信号を表すオーディオデータを受信するステップを含む。第2のオーディオ信号は、第2のデバイスの第2のマイクロフォンによって捉えられる。方法はさらに、第2のオーディオ信号を表すオーディオデータに少なくとも一部基づいて、第1のオーディオ信号に対して雑音低減を実行するステップを含む。

本明細書において開示される技法の別の例によれば、第1のデバイスは、第1のオーディオ信号を捉えるように構成される第1のマイクロフォンを含む。第1のデバイスはまた、第2のデバイスから第2のオーディオ信号を表すオーディオデータを受信するように構成される受信機を含む。第2のオーディオ信号は、第2のデバイスの第2のマイクロフォンによって捉えられる。第1のデバイスはさらに、第2のオーディオ信号を表すオーディオデータに少なくとも一部基づいて、第1のオーディオ信号に対して雑音低減を実行するように構成されるプロセッサを含む。

本明細書において開示される技法の別の例によれば、非一時的コンピュータ可読媒体は、雑音低減を実行するための命令を含む。命令は、第1のデバイスのプロセッサによって実行されると、プロセッサに、第1のデバイスの第1のマイクロフォンにおいて捉えられる第1のオーディオ信号を受信するステップを含む動作を実行させる。動作はまた、第2のデバイスから第2のオーディオ信号を表すオーディオデータを受信するステップを備える。第2のオーディオ信号は、第2のデバイスの第2のマイクロフォンによって捉えられる。動作はさらに、第2のオーディオ信号を表すオーディオデータに少なくとも一部基づいて、第1のオーディオ信号に対して雑音低減を実行するステップを含む。

本明細書において開示される技法の別の例によれば、第1のデバイスは、第1のオーディオ信号を捉えるための手段を備える。第1のデバイスはまた、第2のデバイスから第2のオーディオ信号を表すオーディオデータを受信するための手段を含む。第2のオーディオ信号は、第2のデバイスのマイクロフォンによって捉えられる。第1のデバイスはまた、第2のオーディオ信号を表すオーディオデータに少なくとも一部基づいて、第1のオーディオ信号に対して雑音低減を実行するための手段を含む。

本明細書において開示される技法の別の例によれば、デバイスを操作する方法は、第2のユーザデバイスから第1のユーザデバイスにおいてオーディオデータを受信するステップを含む。オーディオデータは、第2のユーザデバイスのマイクロフォンにおいて捉えられるオーディオ信号に基づく。方法はまた、オーディオデータによって表される声が特定の声と一致する尤度を示す尤度値を決定するために、オーディオデータに基づいて話者検証機能を実行するステップを含む。方法はさらに、尤度値が閾値を超えたことに応答して、第1のユーザデバイスの1つまたは複数の機能を有効にするステップを含む。

本明細書において開示される技法の別の例によれば、装置は、プロセッサと、動作を実行するようにプロセッサによって実行可能な命令を記憶するメモリとを含む。動作は、第2のユーザデバイスから第1のユーザデバイスにおいてオーディオデータを受信するステップを含む。オーディオデータは、第2のユーザデバイスのマイクロフォンにおいて捉えられるオーディオ信号に基づく。動作はまた、オーディオデータによって表される声が特定の声と一致する尤度を示す尤度値を決定するために、オーディオデータに基づいて話者検証機能を実行するステップを含む。動作はさらに、尤度値が閾値を超えたことに応答して、第1のユーザデバイスの1つまたは複数の機能を有効にするステップを含む。

本明細書において開示される技法の別の例によれば、非一時的コンピュータ可読媒体は、デバイスを操作するための命令を含む。命令は、プロセッサによって実行されると、プロセッサに、第2のユーザデバイスから第1のユーザデバイスにおいてオーディオデータを受信するステップを含む動作を実行させる。オーディオデータは、第2のユーザデバイスのマイクロフォンにおいて捉えられるオーディオ信号に基づく。動作はまた、オーディオデータによって表される声が特定の声と一致する尤度を示す尤度値を決定するために、オーディオデータに基づいて話者検証機能を実行するステップを含む。動作はさらに、尤度値が閾値を超えたことに応答して、第1のユーザデバイスの1つまたは複数の機能を有効にするステップを含む。

本明細書において開示される技法の別の例によれば、装置は、第2のユーザデバイスから第1のユーザデバイスにおいてオーディオデータを受信するための手段を含む。オーディオデータは、第2のユーザデバイスのマイクロフォンにおいて捉えられるオーディオ信号に基づく。装置はまた、オーディオデータによって表される声が特定の声と一致する尤度を示す尤度値を決定するために、オーディオデータに基づいて話者検証機能を実行するための手段を含む。装置はさらに、尤度値が閾値を超えたことに応答して、第1のユーザデバイスの1つまたは複数の機能を有効にするための手段を含む。

本明細書において開示される技法の別の例によれば、オーディオ出力を生成する方法は、ユーザデバイスにおいてグラフィカルユーザインターフェース(GUI)を表示するステップを含む。GUIは複数の領域を有するエリアを表し、複数のオーディオ捕捉デバイスがそのエリアの中に位置する。方法はまた、複数のオーディオ捕捉デバイスのうちの少なくとも1つからオーディオデータを受信するステップを含む。方法はさらに、複数の領域のうちのある選択された領域を示す入力を受信するステップを含む。方法はまた、ユーザデバイスにおいて、複数のオーディオ捕捉デバイスのサブセットからのオーディオデータに基づいてオーディオ出力を生成するステップを含む。サブセットの中の各オーディオ捕捉デバイスは、その選択された領域の中に位置する。

本明細書において開示される技法の別の例によれば、装置は、プロセッサと、動作を実行するようにプロセッサによって実行可能な命令を記憶するメモリとを含む。動作は、ユーザデバイスにおいてグラフィカルユーザインターフェース(GUI)を表示するステップを含む。GUIは複数の領域を有するエリアを表し、複数のオーディオ捕捉デバイスがそのエリアの中に位置する。動作はまた、複数のオーディオ捕捉デバイスのうちの少なくとも1つからオーディオデータを受信するステップを含む。動作はさらに、複数の領域のうちのある選択された領域を示す入力を受信するステップを含む。動作はまた、ユーザデバイスにおいて、複数のオーディオ捕捉デバイスのサブセットからのオーディオデータに基づいてオーディオ出力を生成するステップを含む。サブセットの中の各オーディオ捕捉デバイスは、その選択された領域の中に位置する。

本明細書において開示される技法の別の例によれば、非一時的コンピュータ可読媒体は、プロセッサによって実行されると、プロセッサに、ユーザデバイスにおいてグラフィカルユーザインターフェース(GUI)を表示するステップを含む動作を実行させる命令を含む。GUIは複数の領域を有するエリアを表し、複数のオーディオ捕捉デバイスがそのエリアの中に位置する。動作はまた、複数のオーディオ捕捉デバイスのうちの少なくとも1つからオーディオデータを受信するステップを含む。動作はさらに、複数の領域のうちのある選択された領域を示す入力を受信するステップを含む。動作はまた、ユーザデバイスにおいて、複数のオーディオ捕捉デバイスのサブセットからのオーディオデータに基づいてオーディオ出力を生成するステップを含む。サブセットの中の各オーディオ捕捉デバイスは、その選択された領域の中に位置する。

本明細書において開示される技法の別の例によれば、装置は、ユーザデバイスにおいてグラフィカルユーザインターフェース(GUI)を表示するための手段を含む。GUIは複数の領域を有するエリアを表し、複数のオーディオ捕捉デバイスがそのエリアの中に位置する。装置はまた、複数のオーディオ捕捉デバイスのうちの少なくとも1つからオーディオデータを受信するための手段を含む。装置はさらに、複数の領域のうちのある選択された領域を示す入力を受信するための手段を含む。装置はまた、ユーザデバイスにおいて、複数のオーディオ捕捉デバイスのサブセットからのオーディオデータに基づいてオーディオ出力を生成するための手段を含む。サブセットの中の各オーディオ捕捉デバイスは、その選択された領域の中に位置する。

複数のデバイスから捉えられたオーディオ信号を使用して雑音を抑制するように動作可能なシステムの図である。複数のデバイスから捉えられたオーディオ信号を使用して雑音を抑制するように動作可能な雑音低減回路の図である。複数のデバイスから捉えられたオーディオ信号を使用して雑音を抑制するように動作可能な別のシステムの図である。複数のデバイスから捉えられたオーディオ信号を使用して雑音低減を実行するための方法の図である。オーディオデータを使用して話者検証および話者認識を実行するように動作可能なシステムの図である。オーディオデータを使用した話者検証および話者認識のプロセスフロー図である。オーディオデータを使用した話者検証および話者認識を実行するための方法の図である。ユーザデバイスのグラフィカルユーザインターフェース(GUI)の図である。エリアのうちの1つまたは複数の選択された領域に基づいてオーディオ出力を生成するための方法の図である。本明細書において開示される1つまたは複数の方法、システム、装置、および/またはコンピュータ可読媒体の様々な態様をサポートするように動作可能なユーザデバイスの図である。

本開示の特定の実装形態が、図面を参照して説明される。説明において、共通の特徴は図面を通して共通の参照番号によって指定されている。

図1を参照すると、複数のデバイスから捉えられたオーディオ信号を使用して雑音を抑制するように動作可能なシステム100が示されている。システム100は、第1のデバイス110、第2のデバイス120、第3のデバイス130、および第4のデバイス140を含む。各デバイス110、120、130、140は、マイクロフォンを介して周囲の可聴音を捉えるように動作可能な電子デバイスであり得る。4つのデバイス110、120、130、140がシステム100に図示されているが、他の実装形態では、本明細書において説明される雑音抑制技法が、追加の(またはより少数の)デバイスを使用して実施され得る。限定しない例として、本明細書において説明される雑音抑制技法は、10個のデバイスまたは2個のデバイスを使用して実施され得る。

一実装形態によれば、デバイス110、120、130、140のうちの1つまたは複数は、ワイヤレス通信デバイス(たとえば、携帯電話)であり得る。しかしながら、他の実装形態では、デバイス110、120、130、140のうちの1つまたは複数は、オーディオ信号を捉えるように動作可能であり、捉えられたオーディオ信号を送信するように動作可能な、他の電子デバイスであり得る。限定しない例として、デバイス110、120、130、140のうちの1つまたは複数は、タブレット、携帯情報端末(PDA)、ラップトップコンピュータ、コンピュータ、ディスプレイデバイス、ゲームコンソール、音楽プレーヤ、ラジオ、デジタルビデオプレーヤ、デジタルビデオディスク(DVD)プレーヤ、チューナ、カメラ、ナビゲーションデバイス、セットトップボックス、テレビジョン、洗濯機などであり得る。

第1のデバイス110は、トランシーバ112、マイクロフォン114、およびプロセッサ116を含む。一実装形態によれば、トランシーバ112の代わりに、第1のデバイス110は受信機および送信機を含み得る。第2のデバイス120は、トランシーバ122、マイクロフォン124、およびプロセッサ126を含む。一実装形態によれば、トランシーバ122の代わりに、第2のデバイス120は受信機および送信機を含み得る。第3のデバイス130は、トランシーバ132、マイクロフォン134、およびプロセッサ136を含む。一実装形態によれば、トランシーバ132の代わりに、第3のデバイス130は受信機および送信機を含み得る。第4のデバイス140は、トランシーバ142、マイクロフォン144、およびプロセッサ146を含む。一実装形態によれば、トランシーバ142の代わりに、第4のデバイス140は受信機および送信機を含み得る。

各デバイス110、120、130、140のマイクロフォン114、124、134、144は、周囲のオーディオ信号を捉えるように構成され得る。たとえば、マイクロフォン114は第1のオーディオ信号102を捉えるように構成されることがあり、マイクロフォン124は第2のオーディオ信号104を捉えるように構成されることがあり、マイクロフォン134は第3のオーディオ信号106を捉えるように構成されることがあり、マイクロフォン144は第4のオーディオ信号108を捉えるように構成されることがある。第1のオーディオ信号102は、「主要な」成分(たとえば、発話(S)成分または目的成分)および二次的な成分(たとえば、雑音成分)を含み得る。第1のオーディオ信号102の二次的な成分は、他のオーディオ信号104、106、108に由来し得る(またはそれらから生成され得る)。限定しない例として、第1のオーディオ信号102の第1のオーディオレベル(A₁)(またはエネルギーレベル)は、

と表されることがあり、ここでSは発話成分(または「目的」成分)であり、N₂は第2のオーディオ信号104と関連付けられる雑音成分であり、N₃は第3のオーディオ信号106と関連付けられる雑音成分であり、N₄は第4のオーディオ信号108と関連付けられる雑音成分であり、D₂は第1のデバイス110と第2のデバイス120との間の距離であり、D₃は第1のデバイス110と第3のデバイス130との間の距離であり、D₄は第1のデバイス110と第4のデバイス140との間の距離である。

発話成分(S)および各雑音成分(N₂、N₃、N₄)は異なる周波数を有し得る。たとえば、発話成分(S)は周波数(f₁)を有することがあり、雑音成分(N₂)は周波数(f₂)を有することがあり、雑音成分(N₃)は周波数(f₃)を有することがあり、雑音成分(N₄)は周波数(f₄)を有することがある。以下で説明されるように、各雑音成分の周波数は、第1のデバイス110において第1のオーディオ信号102に対して雑音低減を実行するために使用される目的外参照信号を生成するために、max pooling操作の間にプロセッサ116によって使用され得る。雑音成分(N₂)は、第2のデバイス120によって生成されることがあり、または第2のデバイス120の比較的近傍で生成されることがある。雑音成分(N₃)は、第3のデバイス130によって生成されることがあり、または第3のデバイス130の比較的近傍で生成されることがある。雑音成分(N₄)は、第4のデバイス140によって生成されることがあり、または第4のデバイス140の比較的近傍で生成されることがある。しかしながら、雑音成分(N₂〜N₄)のうちの1つまたは複数は、第1のデバイス110のマイクロフォン114によっても捉えられ得る。雑音成分(N₂〜N₄)はマイクロフォン114において捉えられるので、第1のオーディオレベル(A₁)は、上の式で示されるように、雑音成分(N₂〜N₄)に少なくとも部分的に基づき得る。

第2のオーディオ信号104の第2のオーディオレベル(A₂)は、

と表され得る。第3のオーディオ信号106の第3のオーディオレベル(A₃)は、

と表され得る。第4のオーディオ信号108の第4のオーディオレベル(A₄)は、

と表され得る。オーディオ信号102、104、106、108のオーディオレベルの表現(たとえば、数学的な式)は単なる例であり、限定するものとして解釈されるべきではないことを理解されたい。たとえば、オーディオレベル(A₁〜A₄)は、上の式に基づいて表現される必要はなく、雑音源がマイクロフォンから離れているほど、マイクロフォンにおける雑音のオーディオレベルは低くなることを理解されたい。

第1のデバイス110は、第1のオーディオ信号102の主要な成分(たとえば、発話(S))を増強するために、第1のオーディオ信号102に対して雑音低減操作を実行するように構成され得る。雑音低減操作を実行する前に、他のデバイス120、130、140は、対応するオーディオ信号104、106、108をそれぞれ表すオーディオデータ154、156、158を第1のデバイス110に送信し得る。たとえば、マイクロフォン124を用いて第2のオーディオ信号104を捉えた後で、第2のデバイス120は、トランシーバ122を使用して、第2のオーディオ信号104を表す第2のオーディオデータ154を第1のデバイス110に送信し得る。マイクロフォン134を用いて第3のオーディオ信号106を捉えた後で、第3のデバイス130は、トランシーバ132を使用して、第3のオーディオ信号106を表す第3のオーディオデータ156を第1のデバイス110に送信し得る。マイクロフォン144を用いて第4のオーディオ信号108を捉えた後で、第4のデバイス140は、トランシーバ142を使用して、第4のオーディオ信号108を表す第4のオーディオデータ158を第1のデバイス110に送信し得る。

オーディオデータ154、156、158はそれぞれ、対応するオーディオ信号104、106、108の実質的に同様の性質を有し得る。限定しない例として、オーディオデータ154、156、158はそれぞれ、捉えられたオーディオ信号104、106、108のコピーを含み得る。したがって、説明および例示を簡単にするために、第2のオーディオデータ154が第2のオーディオ信号104と交換可能に使用されることがあり、第3のオーディオデータ156が第3のオーディオ信号106と交換可能に使用されることがあり、第4のオーディオデータ158が第4のオーディオ信号108と交換可能に使用されることがある。しかしながら、各トランシーバ122、132、142はそれぞれ、捉えられたオーディオ信号104、106、108の複写または複製表現を送信することを理解されたい。

対応するトランシーバ122、132、142からオーディオ信号104、106、108を受信した後で、プロセッサ116の雑音低減回路118は、オーディオ信号104、106、108に対して利得事前調整動作を実行し得る。利得事前調整動作は、各オーディオ信号104、106、108のレベルを正規化し得る。利得事前調整動作を実行するために、雑音低減回路118は、第1のオーディオ信号102(たとえば、「主入力」信号)と他のオーディオ信号104、106、108(たとえば、「副入力」信号)との間の出力(レベル)の差を追跡することができ、各オーディオ信号104、106、108に適用される利得調整係数を再帰的に更新して各オーディオ信号104、106、108のレベルを正規化することができる。本明細書では、「副入力」信号は、マイクロフォンにおいて捉えられる主信号に関してバックグラウンドノイズである、マイクロフォンにおいて捉えられるあらゆるオーディオ信号を含む。

例示すると、雑音低減回路118は、第2のデバイス120により提供される第2のオーディオ信号104に利得調整係数(G₂)を適用して第2の利得調整されたオーディオ信号(図示せず)を生成することができ、第3のデバイス130により提供される第3のオーディオ信号106に利得調整係数(G₃)を適用して第3の利得調整されたオーディオ信号(図示せず)を生成することができ、第4のデバイス140により提供される第4のオーディオ信号108に利得調整係数(G₄)を適用して第4の利得調整されたオーディオ信号(図示せず)を生成することができる。本明細書では、利得係数を適用することは、対応する信号のオーディオレベルを上げる(または下げる)ことを含み得る。第2のオーディオ信号104に適用される利得調整係数(G₂)は、第2の利得調整されたオーディオ信号のオーディオレベルが第1のオーディオ信号102の発話(S)レベルより低くなり、かつ第2の利得調整されたオーディオ信号のオーディオレベルが第1のオーディオ信号102の二次的な成分

より大きくなるような値であり得る。第3のオーディオ信号106に適用される利得調整係数(G₃)は、第3の利得調整されたオーディオ信号のオーディオレベルが第1のオーディオ信号102の発話(S)レベルより低くなり、かつ第3の利得調整されたオーディオ信号のオーディオレベルが第1のオーディオ信号102の二次的な成分

より大きくなるような値であり得る。第4のオーディオ信号108に適用される利得調整係数(G₄)は、第4の利得調整されたオーディオ信号のオーディオレベルが第1のオーディオ信号102の発話(S)レベルより低くなり、かつ第4の利得調整されたオーディオ信号のオーディオレベルが第1のオーディオ信号102の二次的な成分

より大きくなるような値であり得る。

利得事前調整動作を実行するために、雑音低減回路118は、各オーディオ信号102、104、106、108が周囲の定常的な雑音について実質的に同様のオーディオレベルを有するようにするためのチャネル間でのエネルギーの正規化を減らすために、最小限の統計追跡を使用し得る。たとえば、主出力(たとえば、第1のオーディオ信号102の第1のオーディオレベル(A₁))が副出力(たとえば、他の信号104、106、108のオーディオレベル)よりはるかに高いとき、雑音低減回路118は、雑音の過大評価を減らすために、主出力(いくらかの余裕を含む)よりも小さい利得調整された副出力を提供し得る。副出力が主出力よりはるかに高いとき、雑音低減回路118は、雑音の過大評価を確実にするために、主出力(いくらかの余裕を含む)よりも高い利得調整された副出力を提供し得る。

利得調整されたオーディオ信号を生成するために利得調整係数が雑音低減回路118によってオーディオ信号104、106、108に適用された後で、雑音低減回路118は、利得調整されたオーディオ信号に対してmax-pooling動作を実行して目的外参照信号(図示せず)を生成し得る。図2に関してより詳細に説明されるように、max-pooling動作は、利得調整されたオーディオ信号から異なる雑音成分を選択(たとえば、「プール」)して、目的外参照信号を生成することができる。たとえば、max-pooling動作は、最大の利得を有する各周波数において雑音成分を選択することができ、選択された雑音成分を組み合わせて目的外参照信号を生成することができる。雑音低減回路118は、目的外参照信号を使用して第1のオーディオ信号102に対する雑音低減を実行するように構成され得る。たとえば、雑音低減回路118は、目的外参照信号を第1のオーディオ信号102と組み合わせることによって、第1のオーディオ信号102の雑音成分

を「低減する」ことができる。目的外参照信号を第1のオーディオ信号102と組み合わせた結果として、雑音低減回路118は、第1のオーディオ信号102の雑音を低減することによって、第1のオーディオ信号102の発話(S)成分を増強することができる。

図1のシステム100は、第1のデバイス110が、他のデバイス120、130、140のマイクロフォン124、134、144によって捕捉されるオーディオ信号104、106、108を使用して第1のオーディオ信号102の雑音成分を減らすことを可能にし得る。たとえば、目的外発生源の抑制(たとえば、雑音抑制)が、マイクロフォン114によって捉えられる目的のオーディオ(たとえば、第1のオーディオ信号102の発話(S)成分)を増強するために使用される目的外参照信号としてマイクロフォン124、134、144の応答を集約するために、雑音低減回路118によって使用され得る。図1に関して説明される技法は、マイクロフォン114、124、134、144の間の距離などの幾何学的情報を使用することなく、目的外参照信号の生成を可能にし得る。たとえば、利得事前調整動作は、雑音抑制回路118が、オーディオ信号104、106、108の利得を調整することによって各マイクロフォン114、124、134、144からの雑音を正規化することを可能にし得る。max-pooling動作は、雑音抑制回路118が、第1のオーディオ信号102の雑音を低減するような、正規化された雑音からの雑音成分をプールすることを可能にし得る。たとえば、max-pooling動作は、最高の利得(たとえば、最高のエネルギーレベル)を有する各周波数における雑音成分をプールすることによって、第1のオーディオ信号102から雑音を実質的に打ち消すための信号を生成することができる。

図2を参照すると、図1の雑音低減回路118の図が示されている。雑音低減回路118は、利得調整回路210、max-pooling回路220、および雑音抑制回路230を含む。

利得調整回路210は、第1のオーディオ信号102、第2のオーディオ信号104、第3のオーディオ信号106、および第4のオーディオ信号108を受信するように構成され得る。図1に関して説明されたように、第1のオーディオ信号102は雑音低減回路118(たとえば、図1の第1のデバイス110)と関連付けられるデバイスによって捕捉されることがあり、他のオーディオ信号104、106、108は遠隔のデバイス(たとえば、図1のデバイス120、130、140)によって捉えられて雑音低減回路118に送信されることがある。

利得調整回路210は、利得調整係数(G₂)を第2のオーディオ信号104に適用して第2の利得調整されたオーディオ信号204を生成するように構成され得る。利得調整係数(G₂)を決定するために、利得調整回路210は、第1のオーディオ信号102の発話(S)レベルを第2のオーディオ信号104の第2のオーディオレベル(A₂)と比較し、第1のオーディオ信号102の二次的な成分のオーディオレベル

を第2のオーディオ信号104の第2のオーディオレベル(A₂)と比較することができる。利得調整係数(G₂)は、第2のオーディオ信号104に適用されると、第2の利得調整されたオーディオ信号204のオーディオレベルを第1のオーディオ信号102の発話(S)レベルより小さくし、かつ第2の利得調整されたオーディオ信号204のオーディオレベルを第1のオーディオ信号102の二次的な成分のオーディオレベル

より大きくするような値であり得る。第2の利得調整されたオーディオ信号204は、max-pooling回路220に提供され得る。第2の利得調整されたオーディオ信号204は第2のオーディオ信号104に基づくので、第2の利得調整されたオーディオ信号204は周波数(f₂)を有する主要な成分を有し得る。

利得調整回路210は、マイクロフォン利得較正計画を使用して、各マイクロフォンチャネルがバックグラウンドの周辺雑音について実質的に同様の感度利得を有し得るように利得調整係数(G₂)を決定することができる。一実装形態によれば、利得調整回路210は以下の疑似コードに基づいて動作し得る。
If delta_1= energy_mic_primary/energy_mic_sub>bias_1
update gain_pre_conditioner_upperbound < delta_1*margin;
If delta_2=energy_mic_primary/energy_mic_sub<bias_2
update gain_pre_conditioner_lowerbound > over_estim/bias_2;
If gain_pre_conditioner_upperbound > gain_pre_conditioner_lowerbound
final_gain_pre_conditioner = gain_pre_conditioner_lowerbound;
else
final_gain_pre_conditioner=gain_pre_conditioner_upperbound;
この疑似コードに基づいて、delta_1は、標的における信号エネルギー(たとえば、第1のオーディオ信号102の第1のオーディオレベル(A₁))をサブデバイスにおける信号エネルギー(たとえば、第2のオーディオ信号104の第2のオーディオレベル(A₂))で割ったものに相当することがあり、バイアス係数(bias_1)と比較されることがある。delta_1がバイアス係数(bias_1)より大きい場合、第2の利得係数(G₂)の上側の余裕は、delta_1とある余裕を乗じたものより小さいことがある。加えて、delta_1はまた、標的における信号エネルギーをサブデバイスにおける信号エネルギーで割ったものに相当し得る。delta_2がバイアス係数(bias_2)より小さい場合、第2の利得係数(G₂)の下側の余裕は、第2のオーディオ信号104の雑音レベルの過大評価をバイアス係数(bias_2)で割ったものより大きいことがある。

利得調整回路210はまた、利得調整係数(G₃)を第3のオーディオ信号106に適用して第3の利得調整されたオーディオ信号206を生成するように構成され得る。利得調整係数(G₃)を決定するために、利得調整回路210は、第1のオーディオ信号102の発話(S)レベルを第3のオーディオ信号106の第3のオーディオレベル(A₃)と比較し、第1のオーディオ信号102の二次的な成分のオーディオレベル

を第3のオーディオ信号106の第3のオーディオレベル(A₃)と比較することができる。利得調整係数(G₃)は、第3のオーディオ信号106に適用されると、第3の利得調整されたオーディオ信号206のオーディオレベルを第1のオーディオ信号102の発話(S)レベルより小さくし、かつ第3の利得調整されたオーディオ信号206のオーディオレベルを第1のオーディオ信号102の二次的な成分のオーディオレベル

より大きくするような値であり得る。第3の利得調整されたオーディオ信号206は、max-pooling回路220に提供され得る。第3の利得調整されたオーディオ信号206は第3のオーディオ信号106に基づくので、第3の利得調整されたオーディオ信号206は周波数(f₃)を有する主要な成分を有し得る。一実装形態によれば、利得調整回路210は、上の疑似コードを使用して利得調整係数(G₃)を決定し得る。

利得調整回路210はまた、利得調整係数(G₄)を第4のオーディオ信号108に適用して第4の利得調整されたオーディオ信号208を生成するように構成され得る。利得調整係数(G₄)を決定するために、利得調整回路210は、第1のオーディオ信号102の発話(S)レベルを第4のオーディオ信号108の第4のオーディオレベル(A₄)と比較し、第1のオーディオ信号102の二次的な成分のオーディオレベル

を第4のオーディオ信号108の第4のオーディオレベル(A₄)と比較することができる。利得調整係数(G₄)は、第4のオーディオ信号108に適用されると、第4の利得調整されたオーディオ信号208のオーディオレベルを第1のオーディオ信号102の発話(S)レベルより小さくし、かつ第4の利得調整されたオーディオ信号208のオーディオレベルを第1のオーディオ信号102の二次的な成分のオーディオレベル

より大きくするような値であり得る。第4の利得調整されたオーディオ信号208は、max-pooling回路220に提供され得る。第4の利得調整されたオーディオ信号208は第4のオーディオ信号108に基づくので、第4の利得調整されたオーディオ信号208は周波数(f₄)を有する主要な成分を有し得る。一実装形態によれば、利得調整回路210は、上の疑似コードを使用して利得調整係数(G₄)を決定し得る。

max-pooling回路220は、利得調整されたオーディオ信号204、206、208に対してmax-pooling動作を実行して目的外参照信号222を生成するように構成され得る。たとえば、max-pooling回路220は、利得調整されたオーディオ信号204、206、208を「プール」して、各周波数(f₂〜f₄)に対する「最大の」利得を決定し得る。たとえば、第2の利得調整された信号204が、他の利得調整された信号206、208に対する周波数(f₂)における信号成分の利得より大きい利得を有する、周波数(f₂)における信号成分を含むと仮定すると、max-pooling回路220は、目的外参照信号222に含めるために、周波数(f₂)における第2の利得調整された信号204の信号成分を選択することができる。第3の利得調整された信号206が、他の利得調整された信号204、208に対する周波数(f₃)における信号成分の利得より大きい利得を有する、周波数(f₃)における信号成分を含むと仮定すると、max-pooling回路220は、目的外参照信号222に含めるために、周波数(f₃)における第3の利得調整された信号206の信号成分を選択することができる。第4の利得調整された信号208が、他の利得調整された信号204、206に対する周波数(f₄)における信号成分の利得より大きい利得を有する、周波数(f₄)における信号成分を含むと仮定すると、max-pooling回路220は、目的外参照信号222に含めるために、周波数(f₄)における第4の利得調整された信号208の信号成分を選択することができる。

max-pooling回路220は、各周波数(f₂〜f₄)に対する選択された信号成分を組み合わせて、目的外参照信号222を生成し得る。目的外参照信号222は、雑音抑制回路230に提供され得る。雑音抑制回路230は、目的外参照信号222を第1のオーディオ信号102と組み合わせて目的信号232を生成し得る。目的信号232は、第1のオーディオ信号102におけるかなりの量の発話(S)と第1のオーディオ信号102における低減された量の雑音とを含み得る。たとえば、目的外参照信号222の中の周波数(f₂)における第2の利得調整された信号204の信号成分は実質的に、第1のオーディオ信号102の二次的な成分

を抑制し得る。目的外参照信号222の中の周波数(f₃)における第3の利得調整された信号206の信号成分は実質的に、第1のオーディオ信号102の二次的な成分

を抑制し得る。目的外参照信号222の中の周波数(f₄)における第4の利得調整された信号208の信号成分は実質的に、第1のオーディオ信号102の二次的な成分

を抑制し得る。

図2の雑音低減回路118は、他のデバイス120、130、140のマイクロフォン124、134、144によって捉えられるオーディオ信号104、106、108を使用して、第1のオーディオ信号102の雑音成分

を低減することができる。たとえば、目的外発生源の抑制(たとえば、雑音抑制)が、マイクロフォン114によって捉えられる目的のオーディオイベント(たとえば、第1のオーディオ信号102の発話(S)成分)を増強するために使用される目的外参照信号222としてマイクロフォン124、134、144の応答を集約するために、雑音低減回路118によって使用され得る。

図3を参照すると、図1〜図2の技法とともに複数のデバイスから捉えられたオーディオ信号を使用して雑音を抑制するように動作可能なシステム300が示されている。システム300は、オーディオレベル推定器302、オーディオレベル推定器304、オーディオレベル推定器308、利得事前調整器314、利得事前調整器316、利得事前調整器318、max-pooling回路220、および雑音抑制回路230を含む。一実装形態によれば、システム300の中の構成要素の一部(またはすべて)が、図1の雑音低減回路118へと組み込まれ得る。

第1のオーディオ信号102は、オーディオレベル推定器302に提供され得る。オーディオレベル推定器302は、第1のオーディオ信号102の第1のオーディオレベル(A₁)を測定することができ、第1のオーディオレベル(A₁)を示す信号322を生成することができる。信号322は、利得事前調整器314、316、318に提供され得る。

第2のオーディオ信号104は、オーディオレベル推定器304および利得事前調整器314に提供され得る。オーディオレベル推定器304は、第2のオーディオ信号104の第2のオーディオレベル(A₂)を測定することができ、第2のオーディオレベル(A₂)を示す信号324を生成することができる。信号324は、利得事前調整器314に提供され得る。利得事前調整器314は、利得調整係数(G₂)を第2のオーディオ信号104に適用して第2の利得調整されたオーディオ信号204を生成するように構成され得る。利得調整係数(G₂)を決定するために、利得事前調整器314は、第1のオーディオ信号102の発話(S)レベルを第2のオーディオ信号104の第2のオーディオレベル(A₂)と比較し、第1のオーディオ信号102の二次的な成分のオーディオレベル

より大きくするような値であり得る。第2の利得調整された信号204は、max-pooling回路220に提供され得る。

第3のオーディオ信号106は、オーディオレベル推定器306および利得事前調整器316に提供され得る。オーディオレベル推定器306は、第3のオーディオ信号106の第3のオーディオレベル(A₃)を測定することができ、第3のオーディオレベル(A₃)を示す信号326を生成することができる。信号326は、利得事前調整器316に提供され得る。利得事前調整器316は、利得調整係数(G₃)を第3のオーディオ信号106に適用して第3の利得調整されたオーディオ信号206を生成するように構成され得る。利得調整係数(G₃)を決定するために、利得事前調整器316は、第1のオーディオ信号102の発話(S)レベルを第3のオーディオ信号106の第3のオーディオレベル(A₃)と比較し、第1のオーディオ信号102の二次的な成分のオーディオレベル

より大きくするような値であり得る。第3の利得調整された信号206は、max-pooling回路220に提供され得る。

第4のオーディオ信号108は、オーディオレベル推定器308および利得事前調整器318に提供され得る。オーディオレベル推定器308は、第4のオーディオ信号108の第4のオーディオレベル(A₄)を測定することができ、第4のオーディオレベル(A₄)を示す信号328を生成することができる。信号328は、利得事前調整器318に提供され得る。利得事前調整器318は、利得調整係数(G₄)を第4のオーディオ信号108に適用して第4の利得調整されたオーディオ信号208を生成するように構成され得る。利得調整係数(G₄)を決定するために、利得事前調整器318は、第1のオーディオ信号102の発話(S)レベルを第4のオーディオ信号108の第4のオーディオレベル(A₄)と比較し、第1のオーディオ信号102の二次的な成分のオーディオレベル

より大きくするような値であり得る。第4の利得調整された信号208は、max-pooling回路220に提供され得る。

max-pooling回路220は、図2に関して説明されたのとほぼ同様に動作し得る。たとえば、max-pooling回路220は、利得調整されたオーディオ信号204、206、208に基づいて、目的外参照信号222を生成し得る。目的外参照信号222は、雑音抑制回路230に提供され得る。雑音抑制回路230は、図2に関して説明されたのとほぼ同様に動作し得る。たとえば、雑音抑制回路230は、目的外参照信号222および第1のオーディオ信号102に基づいて目的信号232を生成し得る。

図3のシステム300は、他のデバイス120、130、140のマイクロフォン124、134、144によって捉えられるオーディオ信号104、106、108を使用して、第1のオーディオ信号102の雑音成分

図4を参照すると、複数のデバイスから捉えられたオーディオ信号を使用して雑音低減を実行するための方法400が示されている。方法400は、図1の第1のデバイス110、図1〜図2の雑音低減回路118、図3のシステム300、またはこれらの組合せを使用して実行され得る。

方法400は、402において、第1のデバイスの第1のマイクロフォンにおいて第1のオーディオ信号を捉えるステップを含む。たとえば、図1を参照すると、マイクロフォン114は第1のオーディオ信号102を捉えることができる。

404において、第2のオーディオ信号を表すオーディオデータは、第2のデバイスから第1のデバイスにおいて受信され得る。第2のオーディオ信号は、第2のデバイスの第2のマイクロフォンによって捉えられ得る。たとえば、図1を参照すると、マイクロフォン124は第2のオーディオ信号104を捉えることができる。第1のデバイス110のトランシーバ112は、第2のデバイス120から第2のオーディオ信号104を表すオーディオデータ154を受信することができる。一実装形態によれば、方法400はまた、第3のデバイスから第3のオーディオ信号を表すオーディオデータを受信するステップを含み得る。第3のオーディオ信号は、第3のデバイスの第3のマイクロフォンによって捉えられ得る。たとえば、図1を参照すると、マイクロフォン134は第3のオーディオ信号106を捉えることができる。トランシーバ112は、第3のデバイス130から第3のオーディオ信号106を表すオーディオデータ156を受信することができる。

406において、雑音低減が、第2のオーディオ信号を表すオーディオデータに少なくとも一部基づいて、第1のオーディオ信号に対して実行され得る。たとえば、図1〜図2を参照すると、雑音低減回路118は、第2のオーディオ信号104を表すオーディオデータ154に少なくとも一部基づいて目的信号232を生成し得る。例示すると、利得調整回路210は、利得調整係数(G₂)を、第2のオーディオ信号104を表すオーディオデータ154に適用して、第2の利得調整されたオーディオ信号204を生成し得る。max-pooling回路220は、第2の利得調整されたオーディオ信号204に少なくとも一部基づいて目的外参照信号222を生成することができ、雑音抑制回路230は、目的外参照信号222に基づいて目的信号232を生成する(たとえば、第1のオーディオ信号102に対して雑音抑制を実行する)ことができる。したがって、方法400は、第1のデバイスにおいて、第2のオーディオ信号を表すオーディオデータに少なくとも一部基づいて、第1のオーディオ信号に対して雑音低減を実行するステップを含み得る。方法400の一実装形態によれば、第1のオーディオ信号に対して雑音低減を実行するステップは、第3のオーディオ信号を表すオーディオデータにも基づき得る。例示すると、利得調整回路210は、利得調整係数(G₃)を、第3のオーディオ信号106を表すオーディオデータ156に適用して、第3の利得調整されたオーディオ信号206を生成し得る。目的外参照信号222は、第3の利得調整されたオーディオ信号206にも基づき得る。

一実装形態によれば、方法400は、第2のオーディオ信号に対して第1の利得事前調整を実行して第1の利得調整されたオーディオ信号を生成するステップと、第3のオーディオ信号に対して第2の利得事前調整を実行して第2の利得調整されたオーディオ信号を生成するステップとを含み得る。方法400による「第1の利得調整されたオーディオ信号」は図2の第2の利得調整されたオーディオ信号204に対応することがあり、方法400による「第2の利得調整されたオーディオ信号」は図2の第3の利得調整されたオーディオ信号206に対応することがある。第2のオーディオ信号に対して第1の利得事前調整を実行するステップは、第2のオーディオ信号に利得調整係数を適用するステップを含み得る。一実装形態によれば、第1の利得事前調整は、第1のオーディオ信号および第2のオーディオ信号のエネルギーレベルに基づいて実行され得る。

一実装形態によれば、方法400は、第1の利得調整されたオーディオ信号および第2の利得調整されたオーディオ信号に基づいて目的外参照信号を生成するステップを含み得る。目的外参照信号は、max-pooling動作を使用して生成されることがあり、雑音低減を実行するステップは、第1のオーディオ信号を目的外参照信号と組み合わせるステップを含むことがある。

図4の方法400は、他のデバイス120、130、140のマイクロフォン124、134、144によって捉えられるオーディオ信号104、106、108を使用して、第1のオーディオ信号102の雑音成分

を低減することができる。たとえば、目的外発生源の抑制(たとえば、雑音抑制)が、マイクロフォン114によって捉えられる目的のオーディオイベント(たとえば、第1のオーディオ信号102の発話(S)成分)を増強するために使用される目的外参照信号222としてマイクロフォン124、134、144の応答を集約するために、雑音低減回路118によって使用され得る。増強された目的のオーディオイベントは、第1のデバイス110内のオーディオ処理回路が、音声により活性化される機能を実行することを可能にし得る。たとえば、第1のオーディオ信号102は、第1のデバイス110のユーザからの発話を含み得る。発話は、第1のデバイス110において音声により活性化される機能を始動する1つまたは複数のコマンドを含み得る。目的外発生源を抑制することによって目的のオーディオイベントを増強すること(たとえば、発話を増強すること)は、オーディオ処理回路が、音声により活性化される機能を実行するために発話をより正確に検出することを可能にし得る。

図5を参照すると、オーディオデータを使用して話者検証および話者認識を実行するように動作可能なシステム500が示されている。システム500は、第1のユーザデバイス510と第2のユーザデバイス520とを含む。各ユーザデバイス510、520は、マイクロフォンを介して周囲の可聴音を捉えるように動作可能な電子デバイスであり得る。2つのユーザデバイス510、520がシステム500に図示されているが、他の実装形態では、本明細書において説明される音声認識技法が、追加のユーザデバイスを使用して実施され得る。限定しない例として、本明細書において説明される音声認識技法は、8個のユーザデバイスを使用して実施され得る。一実装形態によれば、第1のユーザデバイス510は、図1の第1のデバイス110に対応することがあり、図1〜図4に関して説明される雑音抑制技法を実行するように動作可能であることがある。

一実装形態によれば、ユーザデバイス510、520のうちの1つまたは複数は、ワイヤレス通信デバイス(たとえば、携帯電話)であり得る。しかしながら、他の実装形態では、ユーザデバイス510、520のうちの1つまたは複数は、音声認識技法を実行するように動作可能な他の電子デバイスであり得る。限定しない例として、ユーザデバイス510、520のうちの1つまたは複数は、ラップトップコンピュータ、コンピュータ、タブレット、PDAなどであり得る。第1のユーザデバイス510は第1の声を有する第1の話者(A)と関連付けられることがあり、第2のユーザデバイス520は第2の声を有する第2の話者(B)と関連付けられることがある。たとえば、第1のユーザデバイス510は第1の話者(A)に登録されることがあり、第2のユーザデバイス520は第2の話者(B)に登録されることがある。

第1のユーザデバイス510は、トランシーバ512、マイクロフォン513、プロセッサ514、およびメモリ515を含む。一実装形態によれば、トランシーバ512の代わりに、第1のユーザデバイス510は受信機および送信機を含み得る。プロセッサ514は、話者検証回路516および特徴ベクトル生成回路517を含む。メモリ515は発話モデル518を含む。以下で説明されるように、発話モデル518は、第1の話者(A)の第1の声のオーディオ特性を示すデータを含む。

第2のユーザデバイス520は、トランシーバ522、マイクロフォン523、プロセッサ524、およびメモリ525を含む。一実装形態によれば、トランシーバ522の代わりに、第2のユーザデバイス520は受信機および送信機を含み得る。プロセッサ524は、話者検証回路526および特徴ベクトル生成回路527を含む。メモリ525は発話モデル528を含む。以下で説明されるように、発話モデル528は、第2の話者(B)の第2の声のオーディオ特性を示すデータを含む。

第1の話者(A)は、第1の声を含む第1のオーディオ信号502を話し、生成し得る。システム500のこの配置によれば、第1の話者(A)は、第2のユーザデバイス520に比較的近接していることがある。したがって、第2のユーザデバイス520のマイクロフォン523は、第1の声を含む第1のオーディオ信号502を捉え得る。第1のオーディオ信号502を捉えると、特徴ベクトル生成回路527は、第1のオーディオ信号502に基づいて1つまたは複数のモデル(たとえば、発話モデル)を生成するように構成され得る。特徴ベクトル生成回路527は、1つまたは複数のモデルに基づいて第1のオーディオデータ506(たとえば、1つまたは複数の特徴ベクトル)を生成し得る。第1のオーディオデータ506を生成すると、トランシーバ522は、第1のオーディオデータ506を第1のユーザデバイス510に送信し得る。第1のオーディオデータ506は、第1のユーザデバイス510に直接送信されることがあり、または第1のユーザデバイス510に間接的に送信されることがある。直接送信の限定しない例には、IEEE 802.11(たとえば、「Wi-Fi」)ピアツーピア送信、赤外線送信などがある。間接的な送信の限定しない例には、セルラー送信、ネットワークベースの送信、クラウドベースの送信などがある。

別の実装形態によれば、第2のユーザデバイス520は、第1のオーディオ信号502(または第1のオーディオ信号502のコピー)を第1のユーザデバイス510に送信し得る。第2のユーザデバイス520から第1のオーディオ信号502を受信すると、第1のユーザデバイス510の特徴ベクトル生成回路517は、第1のオーディオ信号502に基づいて1つまたは複数のモデル(たとえば、発話モデル)を生成するように構成され得る。たとえば、第1のオーディオデータ506は、第2のユーザデバイス520において生成され第1のユーザデバイス510に送信されるのではなく、第1のユーザデバイス510において生成され得る。

第1のユーザデバイス510は、第2のユーザデバイス520から第1のオーディオデータ506を受信することができ(または、第2のユーザデバイス520によって提供される第1のオーディオ信号502のコピーから第1のオーディオデータ506を生成することができ)、第1のオーディオデータ506に基づいて話者検証機能および/または話者認識機能を実行して、第1のユーザデバイス510における音声により活性化されるコマンドと関連付けられる1人または複数の人物に対して、話している人物(たとえば、第1の話者(A))を照合することができる。たとえば、トランシーバ512は、第1のオーディオデータ506を受信するように構成されることがあり、話者検証回路516は、第1のオーディオデータ506に基づいて話者検証機能を実行して、第1のオーディオデータ506と関連付けられる声が第1の話者(A)に属するかどうかを決定することができる。

例示すると、話者検証回路516は、第1のオーディオデータ506の中の1つまたは複数の特徴ベクトルに基づいて、第1の話者(A)が第1のユーザデバイス510における音声により活性化されるコマンドと関連付けられるかどうかを示す尤度値(たとえば、スコアまたは「最大尤度」)を決定するように構成され得る。たとえば、話者検証回路516は、メモリ515から発話モデル518を取り出し得る。発話モデル518は、第1のユーザデバイス510における音声により活性化されるコマンドと関連付けられる1人または複数の人物のオーディオ特性(たとえば、周波数、音調など)を示し得る。たとえば、発話モデル518における第1の声のオーディオ特性は、音声モデルおよび/またはオーディオモデルを使用して示され得る。発話モデル518を取り出すと、話者検証回路516は、第1のオーディオデータ506の中の1つまたは複数の特徴ベクトルを発話モデル518の中の音声/オーディオモデルと比較し得る。

話者検証回路516は、この比較に基づいて、(第1の話者(A)が第1のユーザデバイス510における音声により活性化されるコマンドと関連付けられることの)尤度値を決定し得る。たとえば、話者検証回路516は、1つまたは複数の特徴ベクトルの周波数、音調、またはこれらの組合せを、発話モデル518における音声/オーディオモデルの周波数、音調、またはこれらの組合せと比較し得る。周波数/音調が実質的に同一である場合、尤度値は比較的高いことがある(たとえば、閾値を満たすことがある)。周波数/音調が実質的に同一ではない場合、尤度値は比較的低いことがある(たとえば、閾値を満たさないことがある)。尤度値を決定すると、話者検証回路516は、尤度値が閾値を満たすかどうかを決定し得る。尤度値が閾値を満たす場合、プロセッサ514は、第1のユーザデバイス510における1つまたは複数の機能を有効にし得る。たとえば、プロセッサ514は、電話をかけること、情報を提供することなどの、1つまたは複数の音声により活性化される機能を有効にし得る。一実装形態によれば、第1のオーディオデータ506は第1のオーディオ信号502のコピーを含むことがあり、音声により活性化される機能は第1のオーディオ信号502のコピーの中の発話に基づくことがある。

第2の話者(B)は、第2の声を含む第2のオーディオ信号504を話し、生成し得る。第2の話者(B)は、第1のユーザデバイス510に比較的近接していることがある。したがって、第1のユーザデバイス510のマイクロフォン513は、第2の声を含む第2のオーディオ信号504を捉え得る。第2のオーディオ信号504を捉えると、特徴ベクトル生成回路517は、第2のオーディオ信号504に基づいて1つまたは複数のモデル(たとえば、発話モデル)を生成するように構成され得る。特徴ベクトル生成回路517は、1つまたは複数のモデルに基づいて第2のオーディオデータ508(たとえば、1つまたは複数の特徴ベクトル)を生成し得る。第2のオーディオデータ508を生成すると、トランシーバ512は、第2のオーディオデータ508を第2のユーザデバイス520に送信し得る。

第2のユーザデバイス520は、第2のオーディオデータ508を受信することができ、第2のオーディオデータ508に基づいて話者検証機能および/または話者認識機能を実行して、第2のユーザデバイス520における音声により活性化されるコマンドと関連付けられる1人または複数の人物に対して、話している人物(たとえば、第2の話者(B))を照合することができる。たとえば、トランシーバ522は、第2のオーディオデータ508を受信するように構成されることがあり、話者検証回路526は、第2のオーディオデータ508に基づいて話者検証機能を実行して、第2のオーディオデータ508と関連付けられる声が第2の話者(B)に属するかどうかを決定することができる。

例示すると、話者検証回路526は、第2のオーディオデータ508の中の1つまたは複数の特徴ベクトルに基づいて、第2の話者(B)が第2のユーザデバイス520における音声により活性化されるコマンドと関連付けられるかどうかを示す尤度値(たとえば、スコアまたは「最大尤度」)を決定するように構成され得る。たとえば、話者検証回路526は、メモリ525から発話モデル528を取り出し得る。発話モデル528は、第2のユーザデバイス520における音声により活性化されるコマンドと関連付けられる1人または複数の人物のオーディオ特性を示し得る。たとえば、発話モデル528における第2の声のオーディオ特性は、音声モデルおよび/またはオーディオモデルを使用して示され得る。発話モデル528を取り出すと、話者検証回路526は、第2のオーディオデータ508の中の1つまたは複数の特徴ベクトルを発話モデル528の中の音声/オーディオモデルと比較し得る。

話者検証回路526は、この比較に基づいて、(第2の話者(B)が第2のユーザデバイス520における音声により活性化されるコマンドと関連付けられることの)尤度値を決定し得る。尤度値を決定すると、話者検証回路526は、尤度値が閾値を満たすかどうかを決定し得る。尤度値が閾値を満たす場合、プロセッサ524は、第2のユーザデバイス520における1つまたは複数の機能を有効にし得る。たとえば、プロセッサ524は、電話をかけること、情報を提供することなどの、1つまたは複数の音声により活性化される機能を有効にし得る。一実装形態によれば、第2のオーディオデータ508は第2のオーディオ信号504のコピーを含むことがあり、音声により活性化される機能は第2のオーディオ信号504のコピーの中の発話に基づくことがある。

図5のシステム500は、ユーザ(たとえば、第1の話者(A)および/または第2の話者(B))がユーザ自身のデバイスではないユーザデバイスの近くで話して、ユーザ自身のデバイスにおいて音声により活性化される機能を有効にすることを可能にし得る。たとえば、第1の話者(A)は、第2の話者(B)のデバイス(たとえば、第2のユーザデバイス520)の近くで話すことができ、音声により活性化される機能が第1の話者(A)のデバイス(たとえば、第1のユーザデバイス510)において有効にされ得る。ユーザデバイス510、520は特徴ベクトル(たとえば、オーディオデータ506、508)を共有し、音声モデルまたはオーディオモデル(たとえば、発話モデル518、528)を共有しないので、独占的な音声モデルまたはオーディオモデルは他のユーザデバイスと共有されない。

図6は、オーディオデータを使用した話者検証および話者認識のプロセスフロー図600が示されている。プロセスフロー図600のステップは、図1の第1のデバイス110、図5の第1のユーザデバイス510、図5の第2のユーザデバイス520、またはこれらの組合せを使用して実行され得る。例示を簡単にするために、プロセスフロー図600は、別段述べられない限り、図5のシステム500に関して説明される。

第1のユーザデバイス510は、第1のユーザデバイス入力610を受信し得る。たとえば、第1のユーザデバイス510は、図5の第2のオーディオ信号504を受信し得る。以下で説明されるように、第1のユーザデバイス510はまた、協調的な雑音抑制のために、第1のユーザデバイス入力610を第2のユーザデバイス520に提供し得る。第2のユーザデバイス520は、第2のユーザデバイス入力620を受信し得る。たとえば、第2のユーザデバイス520は、図5の第1のオーディオ信号502を受信し得る。以下で説明されるように、第2のユーザデバイス520はまた、協調的な雑音抑制のために、第2のユーザデバイス入力620を第1のユーザデバイス510に提供し得る。

611において、第1のユーザデバイス510は、協調的な雑音抑制を実行して、第2のユーザデバイス入力620と関連付けられる雑音を実質的に低減または抑制することができる。第1のユーザデバイス510は、図1に関して説明される雑音抑制技法を使用して、第1のユーザデバイス510によって捉えられる雑音(第2のユーザデバイス入力620と関連付けられる)を抑制することができる。たとえば、第2のユーザデバイス520は、第1のユーザデバイス510に第2のユーザデバイス入力620を提供し(たとえば、第1のユーザデバイス510と第2のユーザデバイス入力620を「共有」し)、雑音の干渉および残響を抑制することができる。第1のユーザデバイス510は、デバイス入力610、620に対して利得事前調整動作およびmax-pooling動作を実行して、第1のユーザデバイス入力610を実質的に分離することができる。621において、第2のユーザデバイス520は、協調的な雑音抑制を実行して、第1のユーザデバイス入力610と関連付けられる雑音を実質的に低減または抑制することができる。第2のユーザデバイス520は、図1に関して説明される雑音抑制技法を使用して、第2のユーザデバイス520によって捉えられる雑音(第1のユーザデバイス入力610と関連付けられる)を抑制することができる。たとえば、第1のユーザデバイス510は、第2のユーザデバイス520に第1のユーザデバイス入力610を提供して、雑音の干渉および残響を抑制することができる。第2のユーザデバイス520は、デバイス入力610、620に対して利得事前調整動作およびmax-pooling動作を実行して、第2のユーザデバイス入力620を実質的に分離することができる。

612において、第1のユーザデバイス510は、第2のユーザデバイス入力620と関連付けられる雑音が抑制された後の第1のユーザデバイス入力610に基づいて特徴(たとえば、1つまたは複数の特徴ベクトル)を生成することができる。614において、第2のユーザデバイス520は、第1のユーザデバイス入力610と関連付けられる雑音が抑制された後の第2のユーザデバイス入力620に基づいて特徴を生成することができる。第1のユーザデバイス510は、生成された特徴(たとえば、図5の第1のオーディオデータ506)を第2のユーザデバイス520に提供することができ、第2のユーザデバイス520は、生成された特徴(たとえば、図5の第2のオーディオデータ508)を第1のユーザデバイス510に提供することができる。生成された特徴を共有することは、各ユーザデバイス510、520が、個々の話者モデル(たとえば、図5の発話モデル518、528)を共有することなく、以下で説明されるような話者検証機能を実行することを可能にし得る。

613において、第1のユーザデバイス510は、第1のユーザデバイス510において生成される特徴ベクトルのために、および第2のユーザデバイス520において生成される特徴ベクトルのために、話者識別/検証と最大値選択とを実行することができる。たとえば、所与のフレームに対して、第1のユーザデバイス510は、特徴ベクトルの最大値を選ぶことができる。614において、第1のユーザデバイス510は、第1のユーザデバイス入力610が第1のユーザデバイス510の話者と関連付けられることを第1のユーザデバイス510において生成された特徴ベクトルの最大値が示す、尤度を決定することができる。第1のユーザデバイス510はまた、第2のユーザデバイス入力620が第1のユーザデバイス510の話者と関連付けられることを第2のユーザデバイス520において生成された特徴ベクトルの最大値が示す、尤度を決定することができる。

615において、第1のユーザデバイス510は、話者検証に基づいて、特定される活動(たとえば、音声により活性化される機能)を実行することができる。たとえば、第1のユーザデバイス510は、第1のユーザデバイス入力610が第1のユーザデバイス510の正規ユーザからの発話と関連付けられることを確認すると、第1のユーザデバイス入力610に基づいて機能を実行することができる。限定しない例として、第1のユーザデバイス入力610が「今日のサンディエゴの天気は?」と述べるユーザの発話に対応する場合、第1のユーザデバイス510は、「今日はいつものようにとても良い天気で、最高気温は華氏80度、最低気温は華氏65度です」と述べるメッセージを出力し得る。第1のユーザデバイス510は、第2のユーザデバイス入力620が第1のユーザデバイス510の正規ユーザからの発話と関連付けられることを確認すると、第2のユーザデバイス入力620に基づいて同様の機能を実行することができる。一実装形態によれば、第1のユーザデバイス510は、メッセージを出力するように第2のユーザデバイス520(または別のデバイス)に命令する(たとえば、そのように命令するメッセージを送信する)ことができる。

623において、第2のユーザデバイス520は、第1のユーザデバイス510において生成される特徴ベクトルのために、および第2のユーザデバイス520において生成される特徴ベクトルのために、話者識別/検証と最大値選択とを実行することができる。たとえば、所与のフレームに対して、第2のユーザデバイス520は、特徴ベクトルの最大値を選ぶことができる。624において、第2のユーザデバイス520は、第1のユーザデバイス入力610が第2のユーザデバイス520の話者と関連付けられることを第1のユーザデバイス510において生成された特徴ベクトルの最大値が示す、尤度を決定することができる。第2のユーザデバイス520はまた、第2のユーザデバイス入力620が第2のユーザデバイス520の話者と関連付けられることを第2のユーザデバイス520において生成された特徴ベクトルの最大値が示す、尤度を決定することができる。

625において、第2のユーザデバイス510は、話者検証に基づいて、特定される活動(たとえば、音声により活性化される機能)を実行することができる。たとえば、第2のユーザデバイス520は、第1のユーザデバイス入力610が第2のユーザデバイス520の正規ユーザからの発話と関連付けられることを確認すると、第1のユーザデバイス入力610に基づいて機能を実行することができる。代替的に、第2のユーザデバイス520は、第2のユーザデバイス入力620が第2のユーザデバイス520の正規ユーザからの発話と関連付けられることを確認すると、第2のユーザデバイス入力620に基づいて同様の機能を実行することができる。

図6のプロセスフロー図600は、ユーザがユーザ自身のデバイスではないユーザデバイスの近くで話して、ユーザ自身のデバイスにおいて音声により活性化される機能を有効にすることを可能にし得る。たとえば、ユーザデバイス510、520において捉えられた入力610、620からの特徴ベクトルは、話者検証のために各ユーザデバイス510、520に提供され得る。入力がデバイスの正規ユーザからの発話と関連付けられることを確認すると、デバイスは入力と関連付けられる活動を実行することができる。

図7を参照すると、オーディオデータを使用して話者検証および話者認識を実行するための方法700が示されている。方法700は、図1の第1のデバイス110、図5の第1のユーザデバイス510、または図5の第2のユーザデバイス520を使用して実行され得る。

方法700は、702において、第1のユーザデバイスにおいて、第2のユーザデバイスからオーディオデータを受信するステップを含む。オーディオデータは、第2のユーザデバイスのマイクロフォンにおいて捉えられるオーディオ信号に基づき得る。たとえば、図7を参照すると、第1のユーザデバイス510は第2のユーザデバイス520から第1のオーディオデータを受信することができる。第1のオーディオデータ506は、第2のユーザデバイス520のマイクロフォン523において捉えられる第1のオーディオ信号502に基づき得る。

704において、オーディオデータによって表される声が特定の声と一致する尤度を示す尤度値を決定するために、話者検証機能がオーディオデータに基づいて実行され得る。たとえば、図5を参照すると、話者検証回路516は、第1のオーディオデータ506の中の1つまたは複数の特徴ベクトルに基づいて、第1の話者(A)が第1のユーザデバイス510における音声により活性化されるコマンドと関連付けられるかどうかを示す尤度値を決定し得る。たとえば、話者検証回路516は、メモリ515から発話モデル518を取り出し得る。発話モデル518を取り出すと、話者検証回路516は、第1のオーディオデータ506の中の1つまたは複数の特徴ベクトルを発話モデル518の中の音声/オーディオモデルと比較し得る。話者検証回路516は、この比較に基づいて尤度値を決定し得る。

第1のユーザデバイスの1つまたは複数の機能は、706において、尤度値が閾値を超えたことに応答して有効にされ得る。たとえば、図5を参照すると、話者検証回路516は、尤度値が閾値を満たすかどうかを決定し得る。尤度値が閾値を満たす場合、プロセッサ514は、第1のユーザデバイス510における1つまたは複数の機能を有効にし得る。たとえば、プロセッサ514は、電話をかけること、情報を提供することなどの、1つまたは複数の音声により活性化される機能を有効にし得る。

方法700の一実装形態によれば、オーディオデータは、オーディオ信号に基づいて1つまたは複数の特徴ベクトルを含む。話者検証機能を実行するステップは、1つまたは複数の特徴ベクトルを第1のユーザデバイスに記憶されている発話モデルと比較するステップと、この比較に基づいて尤度値を決定するステップとを含み得る。発話モデルは、特定の声のオーディオ特性と、1つまたは複数の追加の声のオーディオ特性とを示し得る。特定の声は第1のユーザデバイスと関連付けられ得る。方法700の一実装形態によれば、1つまたは複数の機能は、音声により活性化される機能(たとえば、音声通話)を含み得る。

図7の方法700は、ユーザ(たとえば、第1の話者(A)および/または第2の話者(B))がユーザ自身のデバイスではないユーザデバイスの近くで話して、ユーザ自身のデバイスにおいて音声により活性化される機能を有効にすることを可能にし得る。たとえば、第1の話者(A)は、第2の話者(B)のデバイス(たとえば、第2のユーザデバイス520)の近くで話すことができ、音声により活性化される機能が第1の話者(A)のデバイス(たとえば、第1のユーザデバイス510)において有効にされ得る。ユーザデバイス510、520は特徴ベクトル(たとえば、オーディオデータ506、508)を共有し、音声モデルまたはオーディオモデル(たとえば、発話モデル518、528)を共有しないので、独占的な音声モデルまたはオーディオモデルは他のユーザデバイスと共有されない。

図8を参照すると、ユーザデバイスのグラフィカルユーザインターフェース(GUI)800が示されている。一実装形態によれば、GUI800は、図1の第1のデバイス110、図5の第1のユーザデバイス510、または図5の第2のユーザデバイス520のGUIであり得る。

GUI800は、複数の領域を有するエリアの表現を表示し得る。エリアの限定しない例は、部屋、建物の一部分、屋外エリアなどを含み得る。1つまたは複数のオーディオ捕捉デバイス810、820、830がエリアの中に位置し得る。図8によれば、第1のオーディオ捕捉デバイス810がエリアの中に位置することがあり、第2のオーディオ捕捉デバイス820がエリアの中に位置することがあり、第3のオーディオ捕捉デバイス830がエリアの中に位置することがある。図8のこの実装形態では、GUI800は第1のオーディオ捕捉デバイス810のGUIであり得る。したがって、第1のオーディオ捕捉デバイス810は、GUI800を表示しているデバイスを表し得る。ある特定の実装形態によれば、第1のオーディオ捕捉デバイス810は、図1の第1のデバイス110、図5の第1のユーザデバイス510、または図5の第2のユーザデバイス520に対応し得る。

第1のオーディオ捕捉デバイス810は第1のオーディオ信号812を捉えるように構成されることがあり、第2のオーディオ捕捉デバイス820は第2のオーディオ信号822を捉えるように構成されることがあり、第3のオーディオ捕捉デバイス830は第3のオーディオ信号832を捉えるように構成されることがある。各オーディオ捕捉デバイス810、820、830は、図1に関して説明された雑音抑制技法および図5に関して説明された話者検証技法を実行するように動作可能であり得る。限定しない例として、第2のオーディオ捕捉デバイス820および第3のオーディオ捕捉デバイス830は、第2のオーディオ信号822および第3のオーディオ信号832をそれぞれ第1のオーディオ捕捉デバイス810に送信するように構成され得る。第1のオーディオ捕捉デバイス810は、オーディオ信号812、822、832に対して利得事前調整動作およびmax-pooling動作を実行して、第1のオーディオ信号812を実質的に分離することができる。

上で説明されたように、GUI800は、オーディオ捕捉デバイス810、820、830を含むエリアの表現を表示し得る。たとえば、GUI800は、エリアの第1の領域801、エリアの第2の領域802、エリアの第3の領域803、エリアの第4の領域804、エリアの第5の領域805、エリアの第6の領域806、エリアの第7の領域807、エリアの第8の領域808、エリアの第9の領域809の表現を表示し得る。GUI800によれば、第1のオーディオ捕捉デバイス810が第5の領域805の中に位置することがあり、第2のオーディオ捕捉デバイス820が第1の領域801の中に位置することがあり、第3のオーディオ捕捉デバイス830が第9の領域809の中に位置することがある。一実装形態によれば、各オーディオ捕捉デバイス810、820、830の位置は、屋内ナビゲーションツールを使用して得られ得る。第1のオーディオ捕捉デバイス810と第2のオーディオ捕捉デバイス820との間の距離(D₁)は屋内ナビゲーションツールを使用して決定されることがあり、第1のオーディオ捕捉デバイス810と第3のオーディオ捕捉デバイス830との間の距離(D₂)も屋内ナビゲーションツールを使用して決定されることがある。加えて、距離(D₁、D₂)は、立体感のある格子(図示されず)を使用して示され得る。限定しない例として、第2のオーディオ捕捉デバイス820が、第3のオーディオ捕捉デバイス830よりも第1のオーディオ捕捉デバイス810から遠く離れている場合、第2のオーディオ捕捉デバイス820は第3のオーディオ捕捉デバイス830よりも「小さく」見えることがある。別の実装形態によれば、各オーディオ捕捉デバイス810、820、830の位置は、GUI800のユーザによって手動で入力され得る。

第1のオーディオ捕捉デバイス810は、第2のオーディオ捕捉デバイス820からのオーディオデータと第3のオーディオ捕捉デバイス830からのオーディオデータとを受信するように構成され得る。たとえば、第2のオーディオ捕捉デバイス820は第2のオーディオ信号822を第1のオーディオ捕捉デバイス810に送信することができ、第3のオーディオ捕捉デバイス830は第3のオーディオ信号832を第1のオーディオ捕捉デバイス810に送信することができる。第1のオーディオ捕捉デバイス810は、第2のオーディオ捕捉デバイス820からのオーディオデータと第3のオーディオ捕捉デバイス830からのオーディオデータとを受信するように構成される受信機を含み得る。第2のオーディオ捕捉デバイス820および第3のオーディオ捕捉デバイス830は、携帯電話、タブレット、携帯情報端末(PDA)、ラップトップコンピュータ、コンピュータ、ディスプレイデバイス、ゲームコンソール、音楽プレーヤ、ラジオ、デジタルビデオプレーヤ、デジタルビデオディスク(DVD)プレーヤ、チューナ、カメラ、ナビゲーションデバイス、セットトップボックス、テレビジョン、洗濯機などであり得る。

第1のオーディオ捕捉デバイス810は、GUI800の1つまたは複数の選択された領域801〜809を示すユーザ入力を受信し得る。限定しない例として、ユーザ入力は、第1の領域801(たとえば、第2のオーディオ捕捉デバイス820を含む領域)が選択されたことを示し得る。第1のオーディオデバイス810は、入力を受信するように構成されるインターフェースを含み得る。ユーザ入力に基づいて、第1のオーディオ捕捉デバイス810は、第2のオーディオ捕捉デバイス820からのオーディオデータに基づいてオーディオ出力を生成し得る。たとえば、第1のオーディオ捕捉デバイス810は、第1の領域801が選択されることをユーザ入力が示す場合、第2のオーディオ信号822に対応するオーディオ出力を生成し得る。第1のオーディオ捕捉デバイス810は、第2のオーディオ信号822に対応するオーディオ出力を出すように構成されるスピーカーを含み得る。示される例では、他の領域802〜809(たとえば、選択されていない領域)からのオーディオデータに基づくオーディオ出力は、第1のオーディオ捕捉デバイス810において抑制され得る。第1のオーディオ捕捉デバイス810は、図1に関して説明されたオーディオ抑制技法を使用して、他の領域802〜809からのオーディオ出力を抑制し得る。いくつかの実装形態によれば、この抑制は、完全な抑制(0というインジケータを有する)から抑制なし(100というインジケータを有する)まで変更され得る。他の実装形態によれば、この抑制はバイナリであり得る。たとえば、他の領域802〜809からのオーディオ出力は、抑制されるかされないかであり得る。

他の実装形態によれば、複数のオーディオ捕捉デバイスから捕捉されたオーディオデータは、ユーザ入力に基づいて第1のオーディオ捕捉デバイス810において生成され得る。たとえば、ユーザ入力は、第1の領域801、第5の領域805、および第9の領域809が選択されたことを示し得る。ユーザ入力に基づいて、第1のオーディオ捕捉デバイス810は、第2のオーディオ捕捉デバイス820、第1のオーディオ捕捉デバイス810、および第3のオーディオ捕捉デバイス830からのオーディオデータにそれぞれ基づいて、オーディオ出力を生成し得る。たとえば、第1のオーディオ捕捉デバイス810は、第1の領域801、第5の領域805、および第9の領域809がそれぞれ選択されることをユーザ入力が示す場合、第2のオーディオ信号822、第1のオーディオ信号810、および第3のオーディオ信号832に対応するオーディオ出力を生成し得る。複数の捕捉デバイス810、820、830からのオーディオ出力は、単一チャネル出力と混合されることがあり、または、複数チャネル出力などの複数チャネルの形態の出力として符号化されることがある。第1のオーディオ捕捉デバイス810によって出力されるべきオーディオを選択することに加えて、GUI800は、ユーザが、オーディオ効果、フィルタリング、特定の処理、または他の選択肢を、選択された領域の中のオーディオ捕捉デバイスに適用することを可能にし得る。

GUI800は、第1のオーディオ捕捉デバイス810のユーザが、エリアの異なる領域801〜809から捕捉されるオーディオを選択的に出力することを可能にし得る。たとえば、GUI800は、ユーザデバイスが、エリアのある領域からのオーディオを抑制してエリアの他の領域からのオーディオを出力することを可能にし得る。

図9を参照すると、エリアのうちの1つまたは複数の選択された領域に基づいてオーディオ出力を生成するための方法900が示されている。方法900は、図1の第1のデバイス110、図5の第1のユーザデバイス510、図5の第2のユーザデバイス520、図8の第1のオーディオ捕捉デバイス810、図8の第2のオーディオ捕捉デバイス820、または図8の第3のオーディオ捕捉デバイス830を使用して実行され得る。

方法900は、902において、ユーザデバイスにおいてGUIを表示するステップを含む。GUIは複数の領域を有するエリアを表すことがあり、複数のオーディオ捕捉デバイスがそのエリアに位置することがある。たとえば、図8を参照すると、第1のオーディオ捕捉デバイス810(たとえば、方法900によるユーザデバイス)はGUI800を表示し得る。GUI800は、複数の領域801〜809を有するエリアを表し得る。複数のオーディオ捕捉デバイスがそのエリアの中に位置し得る。たとえば、第2のオーディオ捕捉デバイス820がエリアの第1の領域801の中に位置することがあり、第1のオーディオ捕捉デバイス810が第5の領域805の中に位置することがあり、第3のオーディオ捕捉デバイス830が第9の領域809の中に位置することがある。

904において、複数のオーディオ捕捉デバイスのうちの少なくとも1つからのオーディオデータが受信され得る。たとえば、図8を参照すると、第2のオーディオ捕捉デバイス820は第2のオーディオ信号822を第1のオーディオ捕捉デバイス810に送信することができ、第3のオーディオ捕捉デバイス830は第3のオーディオ信号832を第1のオーディオ捕捉デバイス810に送信することができる。第1のオーディオ捕捉デバイス810は、第2のオーディオ捕捉デバイス820からのオーディオデータ(たとえば、第2のオーディオ信号822)と第3のオーディオ捕捉デバイス830からのオーディオデータ(たとえば、第3のオーディオ信号832)とを受信し得る。加えて、第1のオーディオ捕捉デバイス810は第1のオーディオ信号812を捕捉し得る。

906において、複数の領域の選択された領域を示す入力が受信され得る。たとえば、図8を参照すると、第1のオーディオ捕捉デバイス810は、GUI800の1つまたは複数の選択された領域801〜809を示すユーザ入力を受信し得る。限定しない例として、ユーザ入力は、第1の領域801(たとえば、第2のオーディオ捕捉デバイス820を含む領域)が選択されたことを示し得る。

908において、オーディオ出力が複数のオーディオ捕捉デバイスのサブセットからのオーディオデータに基づいて生成され得る。サブセットの中の各オーディオ捕捉デバイスは、その選択された領域の中に位置し得る。たとえば、図8を参照すると、ユーザ入力に基づいて、第1のオーディオ捕捉デバイス810は、第2のオーディオ捕捉デバイス820からのオーディオデータに基づいてオーディオ出力を生成し得る。たとえば、第1のオーディオ捕捉デバイス810は、第1の領域801が選択されることをユーザ入力が示す場合、第2のオーディオ信号822に対応するオーディオ出力を生成し得る。オーディオ出力を生成するステップは、第2のオーディオ信号822に対応するオーディオを第1のオーディオ捕捉デバイス810に記憶するステップ、第2のオーディオ信号822に対応するオーディオを別のデバイスに記憶するステップ、第2のオーディオ信号822に対応するオーディオを第1のオーディオ捕捉デバイス810においてレンダリングするステップ、第2のオーディオ信号822の表現を第1のオーディオ捕捉デバイス810において生成するステップなどを含み得る。示される例では、他の領域802〜809(たとえば、選択されていない領域)からのオーディオデータに基づくオーディオ出力は、第1のオーディオ捕捉デバイス810において抑制され得る。たとえば、方法900は、他の領域802〜809からのオーディオのオーディオレベルを下げるステップを含み得る。第1のオーディオ捕捉デバイス810は、図1に関して説明されたオーディオ抑制技法を使用して、他の領域802〜809からのオーディオ出力を抑制し得る。方法900はまた、GUIにおいて各オーディオ捕捉デバイスの位置を表示するステップを含み得る。

方法900はまた、GUIにおいてエリアの画像を生成するステップと、GUIにおける画像内で複数の領域を図示するステップとを含み得る。図1の領域801〜809は、エリアに基づいて、エリアの内容(たとえば、エリアのサイズ、エリアの中のオーディオ捕捉デバイスの数、画像の複雑さなど)に基づいて、ユーザ選好に基づいて、またはこれらの組合せで定義され得る。

図9の方法900は、ユーザデバイス(たとえば、第1のオーディオ捕捉デバイス810)のユーザが、GUI800を使用して、エリアの異なる領域801〜809から捕捉されるオーディオを選択的に出力することを可能にし得る。たとえば、方法900は、ユーザデバイスが、エリアのある領域からのオーディオを抑制してエリアの他の領域からのオーディオを出力することを可能にし得る。

図10を参照すると、ユーザデバイス1000が示されている。ユーザデバイス1000は、メモリ1054に結合された、デジタル信号プロセッサなどのプロセッサ1010を含む。プロセッサ1010は、図1の雑音低減回路118、図5の話者検証回路516、および図5の特徴ベクトル生成回路517を含む。メモリ1054は図5の発話モデル518を含む。

プロセッサ1010は、メモリ1054に記憶されたソフトウェア(たとえば、1つまたは複数の命令1068のプログラム)を実行するように構成され得る。プロセッサ1010は、図4の方法400、図6の方法600、および/または図9の方法900に従って動作するように構成され得る。たとえば、プロセッサ1010は、図1〜図4に関して説明された雑音抑制技法、図5〜図7に関して説明された音声認識技法、および/または図8〜図9に関して説明された技法を実行し得る。

ワイヤレスインターフェース1040は、プロセッサ1010およびアンテナ1043に結合され得る。たとえば、ワイヤレスインターフェース1040は、アンテナ1043を介して受信されたワイヤレスデータがプロセッサ1010に提供され得るように、トランシーバ1042を介してアンテナ1043に結合され得る。

コーダ/デコーダ(コーデック)1034も、プロセッサ1010に結合され得る。スピーカー1036およびマイクロフォン1038がコーデック1034に結合され得る。ディスプレイコントローラ1026がプロセッサ1010およびディスプレイデバイス1028に結合され得る。一実装形態によれば、ディスプレイデバイス1028は図8のGUI800を表示し得る。特定の実装形態では、プロセッサ1010、ディスプレイコントローラ1026、メモリ1054、コーデック1034、およびワイヤレスインターフェース1040が、システムインパッケージまたはシステムオンチップデバイス1022に含まれる。特定の実装形態では、入力デバイス1030および電源1044がシステムオンチップデバイス1022に結合される。その上、特定の実装形態では、図10に示されるように、ディスプレイデバイス1028、入力デバイス1030、スピーカー1036、マイクロフォン1038、アンテナ1043、および電源1044が、システムオンチップデバイス1022の外部にある。しかしながら、ディスプレイデバイス1028、入力デバイス1030、スピーカー1036、マイクロフォン1038、アンテナ1043、および電源1044の各々が、1つまたは複数のインターフェースまたはコントローラなどの、システムオンチップデバイス1022の1つまたは複数の構成要素に結合され得る。

説明された実装形態に関連して、第1の装置は第1のオーディオ信号を捉えるための手段を含む。たとえば、第1のオーディオ信号を捉えるための手段は、図1のマイクロフォン114、図5のマイクロフォン513、図5のマイクロフォン523、図10のマイクロフォン1038、1つまたは複数の他のデバイス、回路、モジュール、命令、またはそれらの任意の組合せを含み得る。

第1の装置はまた、第2のデバイスから第2のオーディオ信号を受信するための手段を含み得る。第2のオーディオ信号は、第2のデバイスのマイクロフォンによって捉えられ得る。たとえば、第2のオーディオ信号を受信するための手段は、図1のトランシーバ112、図5のトランシーバ512、図5のトランシーバ522、図10のトランシーバ1042、1つまたは複数の他のデバイス、回路、モジュール、命令、またはそれらの任意の組合せを含み得る。

第1の装置はまた、第2のオーディオ信号に少なくとも一部基づいて、第1のオーディオ信号に対して雑音低減を実行するための手段を含み得る。たとえば、雑音低減を実行するための手段は、図1のプロセッサ116、図1、図2、および図7の雑音低減回路118、図3のシステム300、図10のプロセッサ1010、1つまたは複数の他のデバイス、回路、モジュール、命令、またはそれらの任意の組合せを含み得る。

説明される実装形態に関連して、第2の装置は、第2のユーザデバイスから第1のユーザデバイスにおいてオーディオデータを受信するための手段を含み、オーディオデータは第2のユーザデバイスのマイクロフォンにおいて捉えられたオーディオ信号に基づく。たとえば、オーディオデータを受信するための手段は、図5のトランシーバ512、図10のトランシーバ1042、1つまたは複数の他のデバイス、回路、モジュール、命令、またはそれらの任意の組合せを含み得る。

第2の装置はまた、オーディオデータによって表される声が特定の声と一致する尤度を示す尤度値を決定するために、オーディオデータに基づいて音声認識機能を実行するための手段を含み得る。たとえば、音声認識機能を実行するための手段は、図5および図10の話者検証回路516、図10のプロセッサ1010、1つまたは複数の他のデバイス、回路、モジュール、命令、またはそれらの任意の組合せを含み得る。

第2の装置はまた、尤度値が閾値を超えたことに応答して、第1のユーザデバイスの1つまたは複数の機能を有効にするための手段を含み得る。たとえば、1つまたは複数の機能を有効にするための手段は、図5のプロセッサ514、図10のプロセッサ1010、1つまたは複数の他のデバイス、回路、モジュール、命令、またはそれらの任意の組合せを含み得る。

説明される実装形態に関連して、第3の装置は、ユーザデバイスにおいてグラフィカルユーザインターフェース(GUI)を表示するための手段を含む。GUIは複数の領域を有するエリアを表すことがあり、複数のオーディオ捕捉デバイスがそのエリアに位置することがある。たとえば、GUIを表示するための手段は、図1のプロセッサ116、図5のプロセッサ514、図5のプロセッサ524、図8の第1のオーディオ捕捉デバイス810のプロセッサ、図8の第2のオーディオ捕捉デバイス820のプロセッサ、図8の第3のオーディオ捕捉デバイス830のプロセッサ、図10のプロセッサ1010、1つまたは複数の他のデバイス、回路、モジュール、命令、またはそれらの任意の組合せを含み得る。

第3の装置はまた、複数のオーディオ捕捉デバイスからオーディオデータを受信するための手段を含み得る。たとえば、オーディオデータを受信するための手段は、図1のトランシーバ112、図5のトランシーバ512、図5のトランシーバ522、図8の第1のオーディオ捕捉デバイス810のトランシーバ、図8の第2のオーディオ捕捉デバイス820のトランシーバ、図8の第3のオーディオ捕捉デバイス830のトランシーバ、図10のトランシーバ1042、1つまたは複数の他のデバイス、回路、モジュール、命令、またはそれらの任意の組合せを含み得る。

第3の装置はまた、複数の領域のうちのある選択された領域を示す入力を受信するための手段を含み得る。たとえば、入力を受信するための手段は、図1のプロセッサ116、図5のプロセッサ514、図5のプロセッサ524、図8の第1のオーディオ捕捉デバイス810のプロセッサ、図8の第2のオーディオ捕捉デバイス820のプロセッサ、図8の第3のオーディオ捕捉デバイス830のプロセッサ、図10のプロセッサ1010、1つまたは複数の他のデバイス、回路、モジュール、命令、またはそれらの任意の組合せを含み得る。

第3の装置はまた、複数のオーディオ捕捉デバイスのサブセットからのオーディオデータに基づいてオーディオ出力を生成するための手段を含み得る。サブセットの中の各オーディオ捕捉デバイスは、その選択された領域の中に位置し得る。たとえば、オーディオ出力を生成するための手段は、図1のプロセッサ116、図5のプロセッサ514、図5のプロセッサ524、図8の第1のオーディオ捕捉デバイス810のプロセッサ、図8の第2のオーディオ捕捉デバイス820のプロセッサ、図8の第3のオーディオ捕捉デバイス830のプロセッサ、図10のプロセッサ1010、1つまたは複数の他のデバイス、回路、モジュール、命令、またはそれらの任意の組合せを含み得る。

当業者はさらに、本明細書において開示された態様に関して説明された様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップが、電子ハードウェア、プロセッサによって実行されるコンピュータソフトウェア、または両方の組合せとして実装され得ることを理解するであろう。様々な例示的な構成要素、ブロック、構成、モジュール、回路、およびステップが、全般にそれらの機能に関して上で説明された。そのような機能がハードウェアとして実装されるかプロセッサ実行可能命令として実装されるかは、具体的な適用例および全体的なシステムに課される設計制約に依存する。当業者は、説明された機能を具体的な適用例ごとに様々な方法で実装し得るが、そのような実装の決定は、本開示の範囲からの逸脱を引き起こすものと解釈されるべきではない。

本明細書において開示された態様に関して説明された方法またはアルゴリズムのステップは、ハードウェアにおいて直接具現化されても、プロセッサによって実行されるソフトウェアモジュールにおいて具現化されても、またはその2つの組合せにおいて具現化されてもよい。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、フラッシュメモリ、読取り専用メモリ(ROM)、プログラム可能読取り専用メモリ(PROM)、消去可能プログラム可能読取り専用メモリ(EPROM)、電気的消去可能プログラム可能読取り専用メモリ(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、コンパクトディスク読取り専用メモリ(CD-ROM)、または当技術分野において既知の任意の他の形の非短期的(たとえば、非一時的)記憶媒体内に存在し得る。プロセッサが記憶媒体から情報を読み取ること、および記憶媒体に情報を書き込むことができるように、例示的な記憶媒体がプロセッサに結合される。代替として、記憶媒体は、プロセッサと一体であり得る。プロセッサおよび記憶媒体は、特定用途向け集積回路(ASIC)内に存在し得る。ASICは、コンピューティングデバイスまたはユーザ端末内に存在し得る。代替として、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末内に別個の構成要素として存在し得る。

開示された態様の上記の説明は、開示された態様を当業者が作製または使用できるようにするために提供される。これらの態様への様々な変更は当業者には容易に明らかになり、本明細書において規定された原理は、本開示の範囲から逸脱することなく、他の態様に適用されてもよい。したがって、本開示は、本明細書に示される態様に限定されることを意図するものではなく、以下の特許請求の範囲によって規定される原理および新規の特徴と一致する、可能な限り最も広い範囲を与えられるべきである。

100 システム
102 第1のオーディオ信号
104 第2のオーディオ信号
106 第3のオーディオ信号
108 第4のオーディオ信号
110 第1のデバイス
112 トランシーバ
114 マイクロフォン
116 プロセッサ
118 雑音低減回路
120 第2のデバイス
122 トランシーバ
124 マイクロフォン
126 プロセッサ
130 第3のデバイス
132 トランシーバ
134 マイクロフォン
136 プロセッサ
140 第4のデバイス
142 トランシーバ
144 マイクロフォン
146 プロセッサ
154 オーディオデータ
156 オーディオデータ
158 オーディオデータ
204 第2の利得調整されたオーディオ信号
206 第3の利得調整されたオーディオ信号
208 第4の利得調整されたオーディオ信号
210 利得調整回路
220 max-pooling回路
222 目的外参照信号
230 雑音抑制回路
232 目的信号
300 システム
302 オーディオレベル推定器
304 オーディオレベル推定器
306 オーディオレベル推定器
308 オーディオレベル推定器
314 利得事前調整器
316 利得事前調整器
318 利得事前調整器
322 第1のオーディオレベルを示す信号
324 第2のオーディオレベルを示す信号
326 第3のオーディオレベルを示す信号
328 第4のオーディオレベルを示す信号
400 方法
500 システム
502 第1のオーディオ信号
504 第2のオーディオ信号
506 第1のオーディオデータ
508 第2のオーディオデータ
510 第1のユーザデバイス
512 トランシーバ
513 マイクロフォン
514 プロセッサ
515 メモリ
516 話者検証回路
517 特徴ベクトル生成回路
518 発話モデル
520 第2のユーザデバイス
522 トランシーバ
523 マイクロフォン
524 プロセッサ
525 メモリ
526 話者検証回路
527 特徴ベクトル生成回路
528 発話モデル
600 プロセスフロー図
610 第1のユーザデバイス入力
620 第2のユーザデバイス入力
700 方法
800 GUI
801 第1の領域
802 第2の領域
803 第3の領域
804 第4の領域
805 第5の領域
806 第6の領域
807 第7の領域
808 第8の領域
809 第9の領域
810 第1のオーディオ捕捉デバイス
812 第1のオーディオ信号
820 第2のオーディオ捕捉デバイス
822 第2のオーディオ信号
830 第3のオーディオ捕捉デバイス
832 第3のオーディオ信号
900 方法
1000 ユーザデバイス
1010 プロセッサ
1022 システムオンチップデバイス
1026 ディスプレイコントローラ
1028 ディスプレイ
1030 入力デバイス
1034 コーデック
1036 スピーカー
1038 マイクロフォン
1040 ワイヤレスインターフェース
1042 トランシーバ
1043 アンテナ
1044 電源
1054 メモリ
1068 命令

Claims

オーディオ出力を生成する方法であって、
ユーザデバイスにおいてグラフィカルユーザインターフェース(GUI)を表示するステップであって、前記GUIが複数の領域を有するエリアを表し、複数のオーディオ捕捉デバイスが前記エリアの中に位置する、ステップと、
前記複数のオーディオ捕捉デバイスのうちの少なくとも1つからオーディオデータを受信するステップと、
前記複数の領域のうちの選択された領域を示す入力を受信するステップと、
前記ユーザデバイスにおいて、前記複数のオーディオ捕捉デバイスのサブセットからのデータに基づいて前記オーディオ出力を生成するステップであって、前記サブセットの中の各オーディオ捕捉デバイスが前記選択された領域の中に位置する、ステップとを備える、方法。
前記選択された領域の中に位置しない各オーディオ捕捉デバイスからのオーディオのオーディオレベルを下げるステップをさらに備える、請求項1に記載の方法。
前記複数のオーディオ捕捉デバイスから前記オーディオデータを受信するステップが、
前記複数の領域のうちの第1の領域の中に位置する第1のオーディオ捕捉デバイスから第1のオーディオ信号をワイヤレスに受信するステップと、
前記複数の領域のうちの第2の領域の中に位置する第2のオーディオ捕捉デバイスから第2のオーディオ信号をワイヤレスに受信するステップとを備える、請求項1に記載の方法。
前記選択された領域が前記第1の領域を含み、前記オーディオ出力を生成するステップが、前記ユーザデバイスにおいて前記第1のオーディオ信号の表現を生成するステップを備える、請求項3に記載の方法。
前記ユーザデバイスにおいて前記第2のオーディオ信号を抑制するステップをさらに備える、請求項3に記載の方法。
各オーディオ捕捉デバイスの位置が屋内ナビゲーションツールに基づいて決定される、請求項1に記載の方法。
各オーディオ捕捉デバイスの位置がユーザ入力に基づいて決定される、請求項1に記載の方法。
前記オーディオ出力が単一チャネル出力または複数チャネル出力を備える、請求項1に記載の方法。
前記GUIにおいて各オーディオ捕捉デバイスの位置を表示するステップをさらに備える、請求項1に記載の方法。
前記GUIにおいて前記エリアの画像を生成するステップと、
前記GUIにおいて前記画像内の前記複数の領域を図示するステップとをさらに備える、請求項1に記載の方法。
プロセッサと、
前記プロセッサに動作を実行させるように実行可能な命令を記憶するメモリとを備え、前記動作が、
ユーザデバイスにおいてグラフィカルユーザインターフェース(GUI)を表示するステップであって、前記GUIが複数の領域を有するエリアを表し、複数のオーディオ捕捉デバイスが前記エリアの中に位置する、ステップと、
前記複数のオーディオ捕捉デバイスのうちの少なくとも1つからオーディオデータを受信するステップと、
前記複数の領域のうちの選択された領域を示す入力を受信するステップと、
前記ユーザデバイスにおいて、前記複数のオーディオ捕捉デバイスのサブセットからのデータに基づいてオーディオ出力を生成するステップであって、前記サブセットの中の各オーディオ捕捉デバイスが前記選択された領域の中に位置する、ステップと
を備える、装置。
前記動作がさらに、前記選択された領域の中に位置しない各オーディオ捕捉デバイスからのオーディオのオーディオレベルを下げるステップを備える、請求項11に記載の装置。
前記複数のオーディオ捕捉デバイスから前記オーディオデータを受信するステップが、
前記複数の領域のうちの第1の領域の中に位置する第1のオーディオ捕捉デバイスから第1のオーディオ信号をワイヤレスに受信するステップと、
前記複数の領域のうちの第2の領域の中に位置する第2のオーディオ捕捉デバイスから第2のオーディオ信号をワイヤレスに受信するステップとを備える、請求項11に記載の装置。
前記選択された領域が前記第1の領域を含み、前記オーディオ出力を生成するステップが、前記ユーザデバイスにおいて前記第1のオーディオ信号の表現を生成するステップを備える、請求項13に記載の装置。
前記動作がさらに、前記ユーザデバイスにおいて前記第2のオーディオ信号を抑制するステップを備える、請求項13に記載の装置。
各オーディオ捕捉デバイスの位置が屋内ナビゲーションツールに基づいて決定される、請求項11に記載の装置。
各オーディオ捕捉デバイスの位置がユーザ入力に基づいて決定される、請求項11に記載の装置。
前記オーディオ出力が単一チャネル出力または複数チャネル出力を備える、請求項11に記載の装置。
前記動作がさらに、前記GUIにおいて各オーディオ捕捉デバイスの位置を表示するステップを備える、請求項11に記載の装置。
前記オーディオデータを受信するように構成される受信機と、
前記入力を受信するように構成されるインターフェースと、
前記オーディオ出力を出すように構成されるスピーカーとをさらに備える、請求項11に記載の装置。
オーディオ出力を生成するための命令を備える非一時的コンピュータ可読媒体であって、前記命令が、プロセッサによって実行されると、前記プロセッサに動作を実行させ、前記動作が、
ユーザデバイスにおいてグラフィカルユーザインターフェース(GUI)を表示するステップであって、前記GUIが複数の領域を有するエリアを表し、複数のオーディオ捕捉デバイスが前記エリアの中に位置する、ステップと、
前記複数のオーディオ捕捉デバイスのうちの少なくとも1つからオーディオデータを受信するステップと、
前記複数の領域のうちの選択された領域を示す入力を受信するステップと、
前記ユーザデバイスにおいて、前記複数のオーディオ捕捉デバイスのサブセットからのデータに基づいて前記オーディオ出力を生成するステップであって、前記サブセットの中の各オーディオ捕捉デバイスが前記選択された領域の中に位置する、ステップと
を備える、非一時的コンピュータ可読媒体。
前記動作がさらに、前記選択された領域の中に位置しない各オーディオ捕捉デバイスからのオーディオのオーディオレベルを下げるステップを備える、請求項21に記載の非一時的コンピュータ可読媒体。
前記複数のオーディオ捕捉デバイスから前記オーディオデータを受信するステップが、
前記複数の領域のうちの第1の領域の中に位置する第1のオーディオ捕捉デバイスから第1のオーディオ信号をワイヤレスに受信するステップと、
前記複数の領域のうちの第2の領域の中に位置する第2のオーディオ捕捉デバイスから第2のオーディオ信号をワイヤレスに受信するステップとを備える、請求項21に記載の非一時的コンピュータ可読媒体。
前記選択された領域が前記第1の領域を含み、前記オーディオ出力を生成するステップが、前記ユーザデバイスにおいて前記第1のオーディオ信号の表現を生成するステップを備える、請求項23に記載の非一時的コンピュータ可読媒体。
前記動作がさらに、前記ユーザデバイスにおいて前記第2のオーディオ信号を抑制するステップを備える、請求項23に記載の非一時的コンピュータ可読媒体。
各オーディオ捕捉デバイスの位置が屋内ナビゲーションツールに基づいて決定される、請求項21に記載の非一時的コンピュータ可読媒体。
各オーディオ捕捉デバイスの位置がユーザ入力に基づいて決定される、請求項21に記載の非一時的コンピュータ可読媒体。
ユーザデバイスにおいてグラフィカルユーザインターフェース(GUI)を表示するための手段であって、前記GUIが複数の領域を有するエリアを表し、複数のオーディオ捕捉デバイスが前記エリアの中に位置する、手段と、
前記複数のオーディオ捕捉デバイスのうちの少なくとも1つからオーディオデータを受信するための手段と、
前記複数の領域のうちの選択された領域を示す入力を受信するための手段と、
前記ユーザデバイスにおいて、前記複数のオーディオ捕捉デバイスのサブセットからのデータに基づいてオーディオ出力を生成するための手段であって、前記サブセットの中の各オーディオ捕捉デバイスが前記選択された領域の中に位置する、手段とを備える、装置。
前記オーディオ出力が単一チャネル出力または複数チャネル出力を備える、請求項28に記載の装置。
前記GUIにおいて各オーディオ捕捉デバイスの位置を表示するための手段をさらに備える、請求項28に記載の装置。